CN112749736A

CN112749736A - 图像识别方法、控制装置及存储介质

Info

Publication number: CN112749736A
Application number: CN202011609307.3A
Authority: CN
Inventors: 白鹏飞; 李添福; 李世晓; 杜鹏渊; 周国富
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-04
Anticipated expiration: 2040-12-30
Also published as: CN112749736B

Abstract

本发明公开了一种图像识别方法、控制装置及存储介质，其中，方法包括以下步骤：将原始图像输入SSD网络中的VGG网络，VGG网络的主干网络对原始图像进行特征提取得到第一特征图像；在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块；将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像；将第一目标特征图像通过VGG网络的主干网络和SSD网络的附加层得到至少两个第二目标特征图像；根据第二目标特征图像，得到原始图像中每一待识别内容的识别信息。应用本发明，能够有效提升图像识别的精确度，应用到CMBs的标记时，能够有效提升CMBs标记的精确度和效率。

Description

图像识别方法、控制装置及存储介质

技术领域

本发明涉及智能识别的技术领域，特别涉及一种图像识别方法、控制装置及存储介质。

背景技术

脑微出血(Cerebral microbleed，CMBs)是脑小血管病的一种，是一种小型且慢性的脑出血，随着年龄增大，出现脑微出血的可能性增大。脑微出血常常伴随着中风、脑淀粉样血管病、神经退行性疾病以及脑外伤。CMBs作为潜在出血倾向血管病变的标志物，CMBs的数量可用来预测将来颅内出血、出血性中风以及认知障碍症。CMBs的位置揭示着可能的病理，例如CMBs的大叶分布提示可能存在脑淀粉样血管病，而深部半球或幕下CMB提示可能存在高血压血管病变。

核磁共振成像(MRI)技术的进步提升了对CMBs的检测。在顺磁性敏感的MR序列如磁敏感加权成像(Susceptibility weighted imaging，SWI)或T2 GRE上病灶最为明显。在SWI图像中，SWI被观察为直径在2-10mm之间的低信号小出血点。CMBs在SWI图像中有一定数量的具有相似特征的假阳性点，包括基底神经元的血管以及铁元素，钙化以及信号空白，据统计，平均一个患者的图片中有超过100个假阳性点，标记人员耗费5-15分钟去除假阳性点。因此手工标记CMBs是一项费时费力的工作，并且效率较低。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种图像识别方法、控制装置及存储介质，能够有效提升图像识别的精确度，应用到CMBs的标记时，能够有效提升CMBs标记的精确度和效率。

根据本发明的第一方面实施例的图像识别方法，包括以下步骤：将原始图像输入SSD网络中的VGG网络，所述VGG网络的主干网络对所述原始图像进行特征提取得到第一特征图像；

在所述VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块，其中，

所述标注区域信息增强模块将所述原始图像目标框之外的像素置零，将置零后的所述原始图像通过平均池化后得到与所述第一特征图像尺寸相同的第二特征图像，对所述第二特征图像进行归一化得到标注权重图像；

所述空间注意力模块将所述第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像，将所述第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像，并且通过卷积提取特征后将通道数降为1得到第六特征图像，通过调整该卷积的填充参数使得第六特征图像的尺寸与所述第五特征图像保持一致，将所述第六特征图像通过simgoid函数得到注意力图像；

将所述标注权重图像、所述注意力图像和所述第一特征图像对应位置的像素值相乘后与所述第一特征图像相加得到第一目标特征图像；

将所述第一目标特征图像通过所述VGG网络得到至少六个第二目标特征图像；

根据所述第二目标特征图像，得到所述原始图像中每一待识别内容的识别信息。

根据本发明实施例的图像识别方法，至少具有如下有益效果：首先，将原始图像输入SSD网络中的VGG网络，VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。然后，在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块，其中，标注区域信息增强模块将原始图像目标框之外的像素置零，将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像，对第二特征图像进行归一化得到标注权重图像；空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像，将第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像，并且通过卷积提取特征后将通道数降为1得到第六特征图像，通过调整填充(padding)以使第六特征图像的尺寸不变，将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。接着，将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。最后，将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像，根据第二目标特征图像，得到原始图像中每一待识别内容的识别信息。通过上述的步骤，标注权重图像限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强，注意力图像进一步增强了特征图的感兴趣区域，从而使得SSD网络的图像识别的精确度更高，应用到CMBs的标记时，能够有效提升CMBs标记的精确度和效率。

根据本发明的一些实施例，还包括：对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练。

根据本发明的一些实施例，所述对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练，包括：

对所述原始图像进行标注和归一化处理得到训练数据，并根据迭代读取的每一批训练数据的标注信息，得到groundtruth；

将所述原始图像输入增加了标注区域信息增强模块和空间注意力模块的所述SSD网络；

对每一通过所述SSD网络得到的第二目标特征图像的锚点设置多个先验框，根据所述先验框与所述groundtruth的交并比，得到最佳先验框；

将没有匹配成功的所述先验框与所述groundtruth计算交并比，若交并比大于0.5，则将对应的所述先验框与所述groundtruth匹配。

通过softmax分类器对先验框进行分类，并且计算每个先验框的置信度，按置信度排序后通过难负样本挖掘，得到每一先验框的位置信息；

通过softmax logistics计算类别损失和smoothL1计算位置损失，通过梯度回传更新权重。

根据本发明的一些实施例，还包括：

在ImageNet数据集上训练好的VGG网络的权重文件中的权重作为SSD网络的初始权重。

根据本发明的一些实施例，所述标注信息至少包括如下之一：图像名称、识别目标名称、先验框的四个顶点坐标。

根据本发明的一些实施例，还包括：

将多个所述原始图像划分为训练集、验证集、测试集，其中，

所述训练集用于训练所述VGG网络；

所述验证集用于验证所述VGG网络的准确度；

所述测试集用于测试所述VGG网络的精确度。

根据本发明的一些实施例，所述标注区域信息增强模块和空间注意力模块插入所述VGG网络的至少一个特征层之后。

根据本发明的一些实施例，所述第一特征图像的数据结构为[N,C,H,W]的张量。

根据本发明的第二方面实施例的控制装置，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的图像识别方法。

根据本发明的第三方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的图像识别方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的控制装置的示意图；

图2为本发明实施例的图像识别方法的流程图；

图3为本发明实施例的SSD网络的示意图；

图4为本发明实施例的标注区域信息增强模块和空间注意力模块的工作示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

参照图1，该控制装置100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库160用于保存数据。

控制装置100还包括接入设备140，接入设备140使得控制装置100能够经由一个或多个网络150通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1400可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或者多个，例如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口等等。

在本发明的一些具体实施例中，控制装置100的上述部件以及图1中未示出的其他部件可以彼此相连接，例如通过总线。应当理解，图1所示的控制装置结构框图仅仅是出于示例的目的，而不是对本发明范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。控制装置可以是任何类型的控制装置，例如计算机、智能手机、智能平板等。

其中，处理器120可以执行图2所图像识别方法中的步骤。图2示出了根据本发明实施例的图像识别方法的流程图，参照图2，包括步骤S100至步骤S400。

步骤S100：将原始图像输入SSD网络中的VGG网络，VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。

步骤S200：在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块，其中，

标注区域信息增强模块将原始图像目标框之外的像素置零，将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像，对第二特征图像进行归一化得到标注权重图像；

空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像，将第三特征图像和第四特征图像在通道维度上拼接得到第五特征图像，并且通过卷积提取特征后将通道数降为1得到第六特征图像，通过调整该卷积的填充参数使得第六特征图像的尺寸与第五特征图像保持一致，将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。

步骤S300：将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。

步骤S400：将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像。

步骤S500：根据第二目标特征图像，得到原始图像中每一待识别内容的识别信息。

可以理解的是，识别信息可以是图像名称、识别目标名称、先验框的四个顶点坐标，并在原始图像中将待识别内容框选出来，例如，在脑微出血图像中框选出病灶的位置。标注区域信息增强模块和空间注意力模块插入VGG网络的至少一个特征层之后。第一特征图像的数据结构为[N,C,H,W]的张量，第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像，数据结构均为[N,1,H,W]。

在本发明的一些具体实施例中，还包括：对增加了标注区域信息增强模块和空间注意力模块的SSD网络进行训练。对增加了标注区域信息增强模块和空间注意力模块的SSD网络进行训练，包括：

对原始图像进行标注和归一化处理得到训练数据，并根据迭代读取的每一批训练数据的标注信息，得到groundtruth；

将原始图像输入增加了标注区域信息增强模块和空间注意力模块的SSD网络；

对每一通过SSD网络得到的第二目标特征图像的锚点设置多个先验框，根据先验框与groundtruth的交并比，得到最佳先验框；

可以理解的是，在ImageNet数据集上训练好的VGG网络的权重文件中的权重作为SSD网络的初始权重。标注信息至少包括如下之一：图像名称、识别目标名称、先验框的四个顶点坐标。训练集用于训练VGG网络；验证集用于验证VGG网络的准确度；测试集用于测试VGG网络的精确度。

根据本发明实施例的图像识别方法，可以达到如下有益效果，首先，将原始图像输入SSD网络中的VGG网络，VGG网络的主干网络对原始图像进行特征提取得到第一特征图像。然后，在VGG网络的主干网络中插入标注区域信息增强模块和空间注意力模块，其中，标注区域信息增强模块将原始图像目标框之外的像素置零，将置零后的原始图像通过平均池化后得到与第一特征图像尺寸相同的第二特征图像，对第二特征图像进行归一化得到标注权重图像；空间注意力模块将第一特征图像分别通过平均池化和最大池化得到第三特征图像和第四特征图像，将第三特征图像和第四特征图像在通道维度上拼接第五特征图像，并且通过卷积提取特征后将通道数降为1得到第六特征图像，通过调整填充(padding)以使第六特征图像的尺寸不变，将第六特征图像通过simgoid函数将数值映射到0至1区间得到注意力图像。接着，将标注权重图像、注意力图像和第一特征图像对应位置的像素值相乘后与第一特征图像相加得到第一目标特征图像。最后，将第一目标特征图像通过VGG网络得到至少六个第二目标特征图像，根据第二目标特征图像，得到原始图像中每一待识别内容的识别信息。通过上述的步骤，标注权重图像限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强，注意力图像进一步增强了特征图的感兴趣区域，从而使得SSD网络的图像识别的精确度更高，应用到CMBs的标记时，能够有效提升CMBs标记的精确度和效率。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述的图像识别方法。

需要说明的是，该计算机可读存储介质的技术方案与上述的图像识别方法的技术方案属于同一构思，计算机可读存储介质的技术方案未详细描述的细节内容，均可以参见上述图像识别方法的技术方案的描述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在一个具体的实施例中：

第一步：图像获取

获取磁共振采集到的SWAN序列文件，利用python程序将所有文件转换成JPG格式的原始图像；原始图像包含有脑微出血病灶和无病灶图像；含有脑微出血病灶的图像中既可以是包含一个病灶点也可以是包含多个病灶点。对原始图像进行标注和归一化处理。

第二步：制作数据集：

SSD-512使用Pascal VOC2007的标准格式，本步骤将第一步所得图像以7：2：1的比例划分训练集、测试集、验证集。具体步骤如下：

2-1：按标准格式创建文件夹

创建VOCdevkit文件夹，在VOCdevkit文件夹下建立VOC2007文件夹，在VOC2007文件夹下分别新建文件夹如下：

2-1-1：Annotations文件夹。用于存放标签文件，标签文件格式为xml文件格式。

2-1-2：ImageSets文件夹。在Imagesets文件夹下新建Main文件夹，在Main文件夹下新建如下文件：

2-1-2-1：train.txt文件。文件内包含所有训练图片的序号。

2-1-2-2：val.txt文件。文件内包含所有验证集图片的序号。

2-1-2-3：test.txt文件。文件内包含所有测试集图片的序号。

2-1-2-4：trainval.txt文件。文件内包含所有训练图片和验证图片的序号。

2-1-3：JPEGImages文件夹。用于存放所有图片文件，图片文件格式为JPG图片格式。

2-2：标注图像

使用Labelimg脚本对有病灶图像进行手动标注，将其中的病灶部分以矩形框的形式标注出来；标注后的xml文件内包含图像名称、病灶名称、病灶位置矩形框的四个顶点坐标等信息，将所有标签文件保存至Annotations文件夹内。

第三步：修改vgg-16网络

参照图3，利用嵌入特征增强模块的VGG网络进行特征提取，其中特征增强模块包括标注区域信息增强模块和空间注意力模块两部分；

以SSD-512网络模型的vgg-16网络作为主干网络进行特征提取；

参照图4，标注区域信息增强模块S1：标注信息内包含目标框的位置信息x1,y1,x2,y2，分别对应目标框的左上角位置坐标[x1,y1]和右下角位置坐标[x2,y2]。将原始图像中的目标框内的像素值保持不变，其余像素值置0，通过平均池化层后生成与特征图像f相同尺寸的第一特征图像r1，对r1的包含目标区域归一化至[0,1]得到标注权重图像r。

空间注意力模块S2：输入第一特征图像的数据结构为[N,C,H,W]的张量，第一特征图像在通道维度上分别经过求平均值和求最大值得到了两个特征图像，第三特征图像Fa和第四特征图像Fm，数据结构均为[N,1,H,W]，再将特征Fa和Fm在通道维度上拼接，然后经过卷积提取特征并将通道数降为1并且通过调整padding使得特征图的尺寸不变，最后经过simgoid函数将数值映射到[0,1]区间得到注意力图像e。

将标注权重图像r和注意力图像e相乘，并与原始特征图像点乘，最后与原特征图像相加。标注权重图像r限制了增强的区域为包含目标的区域并根据目标框内的像素值强度对特征进行不同程度的增强，注意力图像e进一步增强了特征图的感兴趣区域。其中：

X＝X+X*r*e

第四步：模型训练

4-1：更改SSD-512网络的配置文件，修改超参数学习率至0.001，batchsize为16，GAMMA为0.1，总迭代次数为120000，学习率在迭代次数为80000时下降10倍至0.0001，在迭代次数为100000时下降10倍至0.00001，类别为2。

4-2：使用在ImageNet数据集上训练好的vgg-16网络的权重文件中的权重作为SSD-512网络的初始权重。读取训练集中的图像和标注信息，每一次迭代读取batchsize大小的数据到网络中，作为groundtruth。

4-3：SSD-512共生成7张特征图，尺寸分别为64*64、32*32、16*16、8*8、4*4、2*2、1*1，小特征图用于检测大目标，大特征图用于检测小目标。SSD-512为每个锚点设置了先验框，7个特征图中每个锚点所对应的先验框数量为4、6、6、6、6、4、4。SSD-512首先寻找与ground-truth最匹配的先验框，保证每一个groundtruth都与先验框匹配；然后将没有匹配成功的先验框与groundtruth计算交并比，若交并比大于0.5，则匹配成功。然后通过softmax分类器对先验框进行分类，计算每个先验框的置信度，按置信度排序后使用难负样本挖掘，控制正样本和负样本的比例为1:3.然后得到每个先验框的位置信息，通过softmaxlogistics计算类别损失和smoothL1计算位置损失，通过梯度回传更新权重。

4-4：测试结果：电脑CPU为酷睿i5系列，内存为16GB，显卡为RTX 2080Ti显卡，在Windows 10的平台下测试，SSD-512基于Pytorch 1.0。将测试的图片输入SSD-512中进行检测。

本实施例使用嵌入特征增强模块的SSD-512网络检测磁共振SWAN序列的图像的脑微出血病灶点，嵌入特征增强模块后准确率提升了5％，准确率达到80％，查全率达到90％，有效说明了本方法对提升磁共振SWAN序列的图像的脑微出血病灶点的检测精度有提升作用。

在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，均包含在本申请的保护范围内。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种图像识别方法，其特征在于，包括以下步骤：

将原始图像输入SSD网络中的VGG网络，所述VGG网络的主干网络对所述原始图像进行特征提取得到第一特征图像；

2.根据权利要求1所述的图像识别方法，其特征在于，还包括：对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练。

3.根据权利要求2所述的图像识别方法，其特征在于，所述对增加了标注区域信息增强模块和空间注意力模块的所述SSD网络进行训练，包括：

通过softmaxlogistics计算类别损失和smoothL1计算位置损失，通过梯度回传更新权重。

4.根据权利要求2所述的图像识别方法，其特征在于，还包括：

5.根据权利要求3所述的图像识别方法，其特征在于，所述标注信息至少包括如下之一：图像名称、识别目标名称、先验框的四个顶点坐标。

6.根据权利要求3所述的图像识别方法，其特征在于，还包括：

所述训练集用于训练所述VGG网络；

所述验证集用于验证所述VGG网络的准确度；

所述测试集用于测试所述VGG网络的精确度。

7.根据权利要求1所述的图像识别方法，其特征在于：所述标注区域信息增强模块和空间注意力模块插入所述VGG网络的至少一个特征层之后。

8.根据权利要求1所述的图像识别方法，其特征在于：所述第一特征图像的数据结构为[N,C,H,W]的张量。

9.一种控制装置，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8任一项所述的图像识别方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的图像识别方法。