CN112749736A - 图像识别方法、控制装置及存储介质 - Google Patents
图像识别方法、控制装置及存储介质 Download PDFInfo
- Publication number
- CN112749736A CN112749736A CN202011609307.3A CN202011609307A CN112749736A CN 112749736 A CN112749736 A CN 112749736A CN 202011609307 A CN202011609307 A CN 202011609307A CN 112749736 A CN112749736 A CN 112749736A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- characteristic image
- characteristic
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000002372 labelling Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 18
- 230000002708 enhancing effect Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims 1
- 230000005291 magnetic effect Effects 0.000 description 7
- 206010067277 Cerebral microhaemorrhage Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 102100027512 RNA-binding protein 12 Human genes 0.000 description 3
- 101710203308 RNA-binding protein 12 Proteins 0.000 description 3
- 230000002490 cerebral effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000005145 Cerebral amyloid angiopathy Diseases 0.000 description 2
- 208000032843 Hemorrhage Diseases 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000029812 Cerebral Small Vessel disease Diseases 0.000 description 1
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 1
- 206010018985 Haemorrhage intracranial Diseases 0.000 description 1
- 208000016988 Hemorrhagic Stroke Diseases 0.000 description 1
- 206010059238 Hypertensive angiopathy Diseases 0.000 description 1
- 208000008574 Intracranial Hemorrhages Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 230000002308 calcification Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 208000020658 intracerebral hemorrhage Diseases 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005298 paramagnetic effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 231100000216 vascular lesion Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像识别方法、控制装置及存储介质,其中,方法包括以下步骤:将原始图像输入SSD网络中的VGG网络,VGG网络的主干网络对原始图像进行特征提取得到第一特征图像;在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块;将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像;将第一目标特征图像通过VGG网络的主干网络和SSD网络的附加层得到至少两个第二目标特征图像;根据第二目标特征图像,得到原始图像中每一待识别内容的识别信息。应用本发明,能够有效提升图像识别的精确度,应用到CMBs的标记时,能够有效提升CMBs标记的精确度和效率。
Description
技术领域
本发明涉及智能识别的技术领域,特别涉及一种图像识别方法、控制装置及存储介质。
背景技术
脑微出血(Cerebral microbleed,CMBs)是脑小血管病的一种,是一种小型且慢性的脑出血,随着年龄增大,出现脑微出血的可能性增大。脑微出血常常伴随着中风、脑淀粉样血管病、神经退行性疾病以及脑外伤。CMBs作为潜在出血倾向血管病变的标志物,CMBs的数量可用来预测将来颅内出血、出血性中风以及认知障碍症。CMBs的位置揭示着可能的病理,例如CMBs的大叶分布提示可能存在脑淀粉样血管病,而深部半球或幕下CMB提示可能存在高血压血管病变。
核磁共振成像(MRI)技术的进步提升了对CMBs的检测。在顺磁性敏感的MR序列如磁敏感加权成像(Susceptibility weighted imaging,SWI)或T2 GRE上病灶最为明显。在SWI图像中,SWI被观察为直径在2-10mm之间的低信号小出血点。CMBs在SWI图像中有一定数量的具有相似特征的假阳性点,包括基底神经元的血管以及铁元素,钙化以及信号空白,据统计,平均一个患者的图片中有超过100个假阳性点,标记人员耗费5-15分钟去除假阳性点。因此手工标记CMBs是一项费时费力的工作,并且效率较低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种图像识别方法、控制装置及存储介质,能够有效提升图像识别的精确度,应用到CMBs的标记时,能够有效提升CMBs标记的精确度和效率。
根据本发明的第一方面实施例的图像识别方法,包括以下步骤:将原始图像输入SSD网络中的VGG网络,所述VGG网络的主干网络对所述原始图像进行特征提取得到第一特征图像;
在所述VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块,其中,
所述标注区域信息增强模块将所述原始图像目标框之外的像素置零,将置零后的所述原始图像通过平均池化后得到与所述第一特征图像尺寸相同的第二特征图像,对所述第二特征图像进行归一化得到标注权重图像;
所述空间注意力模块将所述第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,将所述第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像,并且通过卷积提取特征后将通道数降为1得到第六特征图像,通过调整该卷积的填充参数使得第六特征图像的尺寸与所述第五特征图像保持一致,将所述第六特征图像通过simgoid函数得到注意力图像;
将所述标注权重图像、所述注意力图像和所述第一特征图像对应位置的像素值相乘后与所述第一特征图像相加得到第一目标特征图像;
将所述第一目标特征图像通过所述VGG网络得到至少六个第二目标特征图像;
根据所述第二目标特征图像,得到所述原始图像中每一待识别内容的识别信息。
根据本发明实施例的图像识别方法,至少具有如下有益效果:首先,将原始图像输入SSD网络中的VGG网络,VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。然后,在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块,其中,标注区域信息增强模块将原始图像目标框之外的像素置零,将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像,对第二特征图像进行归一化得到标注权重图像;空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,将第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像,并且通过卷积提取特征后将通道数降为1得到第六特征图像,通过调整填充(padding)以使第六特征图像的尺寸不变,将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。接着,将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。最后,将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像,根据第二目标特征图像,得到原始图像中每一待识别内容的识别信息。通过上述的步骤,标注权重图像限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强,注意力图像进一步增强了特征图的感兴趣区域,从而使得SSD网络的图像识别的精确度更高,应用到CMBs的标记时,能够有效提升CMBs标记的精确度和效率。
根据本发明的一些实施例,还包括:对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练。
根据本发明的一些实施例,所述对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练,包括:
对所述原始图像进行标注和归一化处理得到训练数据,并根据迭代读取的每一批训练数据的标注信息,得到groundtruth;
将所述原始图像输入增加了标注区域信息增强模块和空间注意力模块的所述SSD网络;
对每一通过所述SSD网络得到的第二目标特征图像的锚点设置多个先验框,根据所述先验框与所述groundtruth的交并比,得到最佳先验框;
将没有匹配成功的所述先验框与所述groundtruth计算交并比,若交并比大于0.5,则将对应的所述先验框与所述groundtruth匹配。
通过softmax分类器对先验框进行分类,并且计算每个先验框的置信度,按置信度排序后通过难负样本挖掘,得到每一先验框的位置信息;
通过softmax logistics计算类别损失和smoothL1计算位置损失,通过梯度回传更新权重。
根据本发明的一些实施例,还包括:
在ImageNet数据集上训练好的VGG网络的权重文件中的权重作为SSD网络的初始权重。
根据本发明的一些实施例,所述标注信息至少包括如下之一:图像名称、识别目标名称、先验框的四个顶点坐标。
根据本发明的一些实施例,还包括:
将多个所述原始图像划分为训练集、验证集、测试集,其中,
所述训练集用于训练所述VGG网络;
所述验证集用于验证所述VGG网络的准确度;
所述测试集用于测试所述VGG网络的精确度。
根据本发明的一些实施例,所述标注区域信息增强模块和空间注意力模块插入所述VGG网络的至少一个特征层之后。
根据本发明的一些实施例,所述第一特征图像的数据结构为[N,C,H,W]的张量。
根据本发明的第二方面实施例的控制装置,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的图像识别方法。
根据本发明的第三方面实施例的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的图像识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的控制装置的示意图;
图2为本发明实施例的图像识别方法的流程图;
图3为本发明实施例的SSD网络的示意图;
图4为本发明实施例的标注区域信息增强模块和空间注意力模块的工作示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,该控制装置100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库160用于保存数据。
控制装置100还包括接入设备140,接入设备140使得控制装置100能够经由一个或多个网络150通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1400可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或者多个,例如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口等等。
在本发明的一些具体实施例中,控制装置100的上述部件以及图1中未示出的其他部件可以彼此相连接,例如通过总线。应当理解,图1所示的控制装置结构框图仅仅是出于示例的目的,而不是对本发明范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。控制装置可以是任何类型的控制装置,例如计算机、智能手机、智能平板等。
其中,处理器120可以执行图2所图像识别方法中的步骤。图2示出了根据本发明实施例的图像识别方法的流程图,参照图2,包括步骤S100至步骤S400。
步骤S100:将原始图像输入SSD网络中的VGG网络,VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。
步骤S200:在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块,其中,
标注区域信息增强模块将原始图像目标框之外的像素置零,将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像,对第二特征图像进行归一化得到标注权重图像;
空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,将第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像,并且通过卷积提取特征后将通道数降为1得到第六特征图像,通过调整该卷积的填充参数使得第六特征图像的尺寸与第五特征图像保持一致,将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。
步骤S300:将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。
步骤S400:将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像。
步骤S500:根据第二目标特征图像,得到原始图像中每一待识别内容的识别信息。
可以理解的是,识别信息可以是图像名称、识别目标名称、先验框的四个顶点坐标,并在原始图像中将待识别内容框选出来,例如,在脑微出血图像中框选出病灶的位置。标注区域信息增强模块和空间注意力模块插入VGG网络的至少一个特征层之后。第一特征图像的数据结构为[N,C,H,W]的张量,第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,数据结构均为[N,1,H,W]。
在本发明的一些具体实施例中,还包括:对增加了标注区域信息增强模块和空间注意力模块的SSD网络进行训练。对增加了标注区域信息增强模块和空间注意力模块的SSD网络进行训练,包括:
对原始图像进行标注和归一化处理得到训练数据,并根据迭代读取的每一批训练数据的标注信息,得到groundtruth;
将原始图像输入增加了标注区域信息增强模块和空间注意力模块的SSD网络;
对每一通过SSD网络得到的第二目标特征图像的锚点设置多个先验框,根据先验框与groundtruth的交并比,得到最佳先验框;
通过softmax分类器对先验框进行分类,并且计算每个先验框的置信度,按置信度排序后通过难负样本挖掘,得到每一先验框的位置信息;
通过softmax logistics计算类别损失和smoothL1计算位置损失,通过梯度回传更新权重。
可以理解的是,在ImageNet数据集上训练好的VGG网络的权重文件中的权重作为SSD网络的初始权重。标注信息至少包括如下之一:图像名称、识别目标名称、先验框的四个顶点坐标。训练集用于训练VGG网络;验证集用于验证VGG网络的准确度;测试集用于测试VGG网络的精确度。
根据本发明实施例的图像识别方法,可以达到如下有益效果,首先,将原始图像输入SSD网络中的VGG网络,VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。然后,在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块,其中,标注区域信息增强模块将原始图像目标框之外的像素置零,将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像,对第二特征图像进行归一化得到标注权重图像;空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,将第三特征图像和第四特征图像在通道维度上拼接第五特征图像,并且通过卷积提取特征后将通道数降为1得到第六特征图像,通过调整填充(padding)以使第六特征图像的尺寸不变,将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。接着,将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。最后,将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像,根据第二目标特征图像,得到原始图像中每一待识别内容的识别信息。通过上述的步骤,标注权重图像限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强,注意力图像进一步增强了特征图的感兴趣区域,从而使得SSD网络的图像识别的精确度更高,应用到CMBs的标记时,能够有效提升CMBs标记的精确度和效率。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行上述的图像识别方法。
需要说明的是,该计算机可读存储介质的技术方案与上述的图像识别方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述图像识别方法的技术方案的描述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在一个具体的实施例中:
第一步:图像获取
获取磁共振采集到的SWAN序列文件,利用python程序将所有文件转换成JPG格式的原始图像;原始图像包含有脑微出血病灶和无病灶图像;含有脑微出血病灶的图像中既可以是包含一个病灶点也可以是包含多个病灶点。对原始图像进行标注和归一化处理。
第二步:制作数据集:
SSD-512使用Pascal VOC2007的标准格式,本步骤将第一步所得图像以7:2:1的比例划分训练集、测试集、验证集。具体步骤如下:
2-1:按标准格式创建文件夹
创建VOCdevkit文件夹,在VOCdevkit文件夹下建立VOC2007文件夹,在VOC2007文件夹下分别新建文件夹如下:
2-1-1:Annotations文件夹。用于存放标签文件,标签文件格式为xml文件格式。
2-1-2:ImageSets文件夹。在Imagesets文件夹下新建Main文件夹,在Main文件夹下新建如下文件:
2-1-2-1:train.txt文件。文件内包含所有训练图片的序号。
2-1-2-2:val.txt文件。文件内包含所有验证集图片的序号。
2-1-2-3:test.txt文件。文件内包含所有测试集图片的序号。
2-1-2-4:trainval.txt文件。文件内包含所有训练图片和验证图片的序号。
2-1-3:JPEGImages文件夹。用于存放所有图片文件,图片文件格式为JPG图片格式。
2-2:标注图像
使用Labelimg脚本对有病灶图像进行手动标注,将其中的病灶部分以矩形框的形式标注出来;标注后的xml文件内包含图像名称、病灶名称、病灶位置矩形框的四个顶点坐标等信息,将所有标签文件保存至Annotations文件夹内。
第三步:修改vgg-16网络
参照图3,利用嵌入特征增强模块的VGG网络进行特征提取,其中特征增强模块包括标注区域信息增强模块和空间注意力模块两部分;
以SSD-512网络模型的vgg-16网络作为主干网络进行特征提取;
参照图4,标注区域信息增强模块S1:标注信息内包含目标框的位置信息x1,y1,x2,y2,分别对应目标框的左上角位置坐标[x1,y1]和右下角位置坐标[x2,y2]。将原始图像中的目标框内的像素值保持不变,其余像素值置0,通过平均池化层后生成与特征图像f相同尺寸的第一特征图像r1,对r1的包含目标区域归一化至[0,1]得到标注权重图像r。
空间注意力模块S2:输入第一特征图像的数据结构为[N,C,H,W]的张量,第一特征图像在通道维度上分别经过求平均值和求最大值得到了两个特征图像,第三特征图像Fa和第四特征图像Fm,数据结构均为[N,1,H,W],再将特征Fa和Fm在通道维度上拼接,然后经过卷积提取特征并将通道数降为1并且通过调整padding使得特征图的尺寸不变,最后经过simgoid函数将数值映射到[0,1]区间得到注意力图像e。
将标注权重图像r和注意力图像e相乘,并与原始特征图像点乘,最后与原特征图像相加。标注权重图像r限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强,注意力图像e进一步增强了特征图的感兴趣区域。其中:
X=X+X*r*e
第四步:模型训练
4-1:更改SSD-512网络的配置文件,修改超参数学习率至0.001,batchsize为16,GAMMA为0.1,总迭代次数为120000,学习率在迭代次数为80000时下降10倍至0.0001,在迭代次数为100000时下降10倍至0.00001,类别为2。
4-2:使用在ImageNet数据集上训练好的vgg-16网络的权重文件中的权重作为SSD-512网络的初始权重。读取训练集中的图像和标注信息,每一次迭代读取batchsize大小的数据到网络中,作为groundtruth。
4-3:SSD-512共生成7张特征图,尺寸分别为64*64、32*32、16*16、8*8、4*4、2*2、1*1,小特征图用于检测大目标,大特征图用于检测小目标。SSD-512为每个锚点设置了先验框,7个特征图中每个锚点所对应的先验框数量为4、6、6、6、6、4、4。SSD-512首先寻找与ground-truth最匹配的先验框,保证每一个groundtruth都与先验框匹配;然后将没有匹配成功的先验框与groundtruth计算交并比,若交并比大于0.5,则匹配成功。然后通过softmax分类器对先验框进行分类,计算每个先验框的置信度,按置信度排序后使用难负样本挖掘,控制正样本和负样本的比例为1:3.然后得到每个先验框的位置信息,通过softmaxlogistics计算类别损失和smoothL1计算位置损失,通过梯度回传更新权重。
4-4:测试结果:电脑CPU为酷睿i5系列,内存为16GB,显卡为RTX 2080Ti显卡,在Windows 10的平台下测试,SSD-512基于Pytorch 1.0。将测试的图片输入SSD-512中进行检测。
本实施例使用嵌入特征增强模块的SSD-512网络检测磁共振SWAN序列的图像的脑微出血病灶点,嵌入特征增强模块后准确率提升了5%,准确率达到80%,查全率达到90%,有效说明了本方法对提升磁共振SWAN序列的图像的脑微出血病灶点的检测精度有提升作用。
在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,均包含在本申请的保护范围内。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种图像识别方法,其特征在于,包括以下步骤:
将原始图像输入SSD网络中的VGG网络,所述VGG网络的主干网络对所述原始图像进行特征提取得到第一特征图像;
在所述VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块,其中,
所述标注区域信息增强模块将所述原始图像目标框之外的像素置零,将置零后的所述原始图像通过平均池化后得到与所述第一特征图像尺寸相同的第二特征图像,对所述第二特征图像进行归一化得到标注权重图像;
所述空间注意力模块将所述第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像,将所述第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像,并且通过卷积提取特征后将通道数降为1得到第六特征图像,通过调整该卷积的填充参数使得第六特征图像的尺寸与所述第五特征图像保持一致,将所述第六特征图像通过simgoid函数得到注意力图像;
将所述标注权重图像、所述注意力图像和所述第一特征图像对应位置的像素值相乘后与所述第一特征图像相加得到第一目标特征图像;
将所述第一目标特征图像通过所述VGG网络得到至少六个第二目标特征图像;
根据所述第二目标特征图像,得到所述原始图像中每一待识别内容的识别信息。
2.根据权利要求1所述的图像识别方法,其特征在于,还包括:对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练。
3.根据权利要求2所述的图像识别方法,其特征在于,所述对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练,包括:
对所述原始图像进行标注和归一化处理得到训练数据,并根据迭代读取的每一批训练数据的标注信息,得到groundtruth;
将所述原始图像输入增加了标注区域信息增强模块和空间注意力模块的所述SSD网络;
对每一通过所述SSD网络得到的第二目标特征图像的锚点设置多个先验框,根据所述先验框与所述groundtruth的交并比,得到最佳先验框;
将没有匹配成功的所述先验框与所述groundtruth计算交并比,若交并比大于0.5,则将对应的所述先验框与所述groundtruth匹配。
通过softmax分类器对先验框进行分类,并且计算每个先验框的置信度,按置信度排序后通过难负样本挖掘,得到每一先验框的位置信息;
通过softmaxlogistics计算类别损失和smoothL1计算位置损失,通过梯度回传更新权重。
4.根据权利要求2所述的图像识别方法,其特征在于,还包括:
在ImageNet数据集上训练好的VGG网络的权重文件中的权重作为SSD网络的初始权重。
5.根据权利要求3所述的图像识别方法,其特征在于,所述标注信息至少包括如下之一:图像名称、识别目标名称、先验框的四个顶点坐标。
6.根据权利要求3所述的图像识别方法,其特征在于,还包括:
将多个所述原始图像划分为训练集、验证集、测试集,其中,
所述训练集用于训练所述VGG网络;
所述验证集用于验证所述VGG网络的准确度;
所述测试集用于测试所述VGG网络的精确度。
7.根据权利要求1所述的图像识别方法,其特征在于:所述标注区域信息增强模块和空间注意力模块插入所述VGG网络的至少一个特征层之后。
8.根据权利要求1所述的图像识别方法,其特征在于:所述第一特征图像的数据结构为[N,C,H,W]的张量。
9.一种控制装置,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8任一项所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609307.3A CN112749736B (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、控制装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609307.3A CN112749736B (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、控制装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749736A true CN112749736A (zh) | 2021-05-04 |
CN112749736B CN112749736B (zh) | 2022-09-13 |
Family
ID=75649509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609307.3A Active CN112749736B (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、控制装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749736B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298830A (zh) * | 2021-06-22 | 2021-08-24 | 西南大学 | 一种基于自监督的急性颅内ich区域图像分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781962A (zh) * | 2019-10-28 | 2020-02-11 | 西安电子科技大学 | 基于轻量级卷积神经网络的目标检测方法 |
CN110929730A (zh) * | 2019-11-18 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111932553A (zh) * | 2020-07-27 | 2020-11-13 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
CN111986210A (zh) * | 2020-07-29 | 2020-11-24 | 天津大学 | 一种医学影像小病灶分割方法 |
-
2020
- 2020-12-30 CN CN202011609307.3A patent/CN112749736B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781962A (zh) * | 2019-10-28 | 2020-02-11 | 西安电子科技大学 | 基于轻量级卷积神经网络的目标检测方法 |
CN110929730A (zh) * | 2019-11-18 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111932553A (zh) * | 2020-07-27 | 2020-11-13 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
CN111986210A (zh) * | 2020-07-29 | 2020-11-24 | 天津大学 | 一种医学影像小病灶分割方法 |
Non-Patent Citations (2)
Title |
---|
SHIXIAO LI ET AL.: "Dynamic Adjustment and Distinguishing Method for Vehicle Headlight Based on Data Access of a Thermal Camera", 《FRONTIERS IN PHYSICS》 * |
苏蒙 等: "一种基于SSD改进的目标检测算法", 《计算机与现代化》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298830A (zh) * | 2021-06-22 | 2021-08-24 | 西南大学 | 一种基于自监督的急性颅内ich区域图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112749736B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165645B (zh) | 一种图像处理方法、装置以及相关设备 | |
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN111931751B (zh) | 深度学习训练方法、目标物识别方法、系统和存储介质 | |
CN111291825A (zh) | 病灶分类模型训练方法、装置、计算机设备和存储介质 | |
US9330336B2 (en) | Systems, methods, and media for on-line boosting of a classifier | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN112232384A (zh) | 模型训练方法、图像特征提取方法、目标检测方法和装置 | |
CN112233125A (zh) | 图像分割方法、装置、电子设备及计算机可读存储介质 | |
CN113065609B (zh) | 图像分类方法、装置、电子设备及可读存储介质 | |
CN117015796A (zh) | 处理组织图像的方法和用于处理组织图像的系统 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN110447038A (zh) | 图像处理装置、图像处理方法和记录介质 | |
CN112749736B (zh) | 图像识别方法、控制装置及存储介质 | |
CN115222717B (zh) | 一种大豆种荚快速计数方法、装置及存储介质 | |
CN115082551B (zh) | 一种基于无人机航拍视频的多目标检测的方法 | |
CN112149707B (zh) | 图像采集控制方法、装置、介质及设备 | |
CN104809465A (zh) | 分类器训练方法、目标检测、分割或分类方法和装置 | |
CN111414930B (zh) | 深度学习模型训练方法及装置、电子设备及存储介质 | |
CN113989679A (zh) | 高光谱图像特征处理方法、分类方法、装置、系统及存储介质 | |
CN113689412A (zh) | 甲状腺图像处理方法、装置、电子设备及存储介质 | |
CN107330429B (zh) | 一种证件条目的定位方法和装置 | |
CN111931721B (zh) | 年检标签颜色和个数的检测方法、装置及电子设备 | |
CN117765330A (zh) | 基于mri图像的数据标注方法及系统 | |
CN113780335B (zh) | 一种小样本商品图像分类方法、装置、设备及存储介质 | |
CN115512202A (zh) | 基于度量学习的小样本目标检测方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |