CN113095265B

CN113095265B - 基于特征融合和注意力的真菌目标检测方法

Info

Publication number: CN113095265B
Application number: CN202110431328.9A
Authority: CN
Inventors: 王耕; 盛立杰; 苗启广
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2023-03-24
Anticipated expiration: 2041-04-21
Also published as: CN113095265A

Abstract

本发明公开了一种基于特征融合和注意力的真菌目标检测方法，主要解决现有技术中普适性不高以及不能充分利用多层次特征的问题。本发明的具体步骤如下：(1)构建基于特征融合和注意力的检测网络；(2)构造训练集；(3)训练基于特征融合和注意力的检测网络；(4)对真菌图像进行检测。本发明能够对真菌的多层次特征进行融合，提取判别性更好、语义信息更丰富的特征，并使用注意力机制进行特征增强，抑制噪声信息，提高了真菌检测的精度。

Description

基于特征融合和注意力的真菌目标检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像目标检测技术领域中的一种基于特征融合和注意力的真菌目标检测方法。本发明可应用于对真菌显微图像中的目标进行识别和检测。

背景技术

目前，形态学鉴定法是真菌的检测中使用的主要技术，医生需要将受感染的样本送到实验室进行培育、检查和分析。其具体流程为：首先通过人工培养样本形成菌落，然后将菌落取样，放置在载玻片上，染色后在显微镜下人工阅片。该镜检方法操作简单，成本低廉，但以手工操作和人工肉眼判断为主的操作方法，对技术人员依赖性强。此外，人工显微镜阅片花费时间长，并不能满足目前的需求。在针对真菌显微图像的图像处理技术中，基于特征工程的方法需要针对特定真菌的形态，通过人工设计提取特征信息对真菌进行分类识别。但真菌不同类别间的相似性高，特征工程的方法无论是在精度上，还是在适用性上都无法满足人们的要求。基于深度学习的方法具有更强大的特征学习与表达的能力，能够极大地提高检测精度，但目前的方法中对真菌目标尺度差异大和目标背景噪声多的问题还没有很好地解决。

南京天数信息科技有限公司在其申请的专利文献“基于InceptionV3+全连接网络的皮肤真菌识别检测方法”(申请号：201710551849.1申请日：2017.07.07申请公布号：CN107358193A)中公开了一种基于深度学习的皮肤真菌识别检测方法。其步骤为：一、获得皮肤真菌图像集，并对所述皮肤真菌图像集内的图像进行预处理；二、利用InceptionV3+卷积层提取所述皮肤真菌图像集内预处理后图像的图像特征；三、构建两层全连接网络，并利用提取图像特征训练所述两层全连接网络，从而形成基于皮肤真菌图像的预测模型；四、利用所述预测模型对新的皮肤真菌图像进行真菌类别预测。该方法存在的不足是，由于两层全连接网络的网络参数量大，检测真菌目标的速度较慢，因此无法实现对真菌目标的实时检测。

武汉爱尔眼科汉口医院有限公司在其申请的专利文献“一种基于卷积神经网络的真菌性角膜炎检测方法及系统”(申请号：CN201910053823.3申请日：2019-01-21申请公布号：CN109829901A)中公开了一种基于深度学习的皮肤真菌识别检测方法。其步骤为：一、采集训练样本集，将所述训练样本集划分为有真菌菌丝图片集和无真菌菌丝图片集；二、对训练样本集进行预处理；三、构建卷积神经网络，将最后一层作为预测层；四、将预处理后的训练样本集作为训练数据输入到所述卷积神经网络中，通过梯度下降法与反向传播算法进行迭代训练，得到具有识别真菌菌丝功能的检测模型。五、利用所述检测模型，对待检测样本进行检测，并输出检测结果。该方法存在的不足是，只采用特征层的最后一层对目标进行预测。该层特征图分辨率低，位置信息较少。因此小目标的定位精度不足，从而导致小目标的检测效果较差。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于特征融合和注意力的真菌目标检测方法，旨在解决真菌检测中目标尺度差异大，背景噪声较多的问题。

实现本发明目的的思路是：构建并训练一个将多层次特征层进行融合，并使用高层特征提取注意力权重来约束相邻浅层特征层的检测网络，通过特征融合的方式将浅层特征层的细节信息和定位信息与深层特征层的语义信息结合起来，以更好地解决真菌目标尺度差异大的问题，通过注意力的方式自适应地强化真菌特征并抑制背景噪声。

本发明的具体步骤包括如下：

(1)构建基于特征融合和注意力的检测网络：

(1a)构建一个29层的基础特征提取网络并设置各层的参数；

(1b)构建一个由并联的空间注意力网络和通道注意力网络构成的注意力网络，所述空间注意力网络由输入层和卷积层组成；卷积层中卷积核的数量设置为256，卷积核的窗口大小设置为1；所述通道注意力网络由输入层，池化层，第一卷积层，第二卷积层组成；将池化层设置为全局平均池化；将第一、第二卷积层的卷积核的数量分别设置为16，256，卷积核窗口大小均设置为1；

(1c)构建一个特征融合和注意力增强网络，该网络的结构依次为：第一融合模块，第一注意力子网络，第二融合模块，第二注意力子网络，第三融合模块，第三注意力子网络，第四融合模块，第四注意力子网络，第五融合模块；其中，第一、第二、第三、第四注意力子网络指的是步骤(1b)中描述的注意力网络；

第一至第四融合模块有两个输入和一个输出，融合模块的具体连接为，将基础特征提取网络中第二十卷积层与第十七卷积层的输出，分别与特征融合和注意力增强网络中第一个融合模块的两个输入相连；将基础特征提取网络中第十五卷积层的输出与第二个融合模块的两个输入相连；将基础特征提取网络中第十四卷积层的输出与第三个融合模块的两个输入相连；将基础特征提取网络中第十卷积层的输出与第四个融合模块的两个输入相连；将第一至第四注意力子网络的输出分别与第五融合模块的四个输入相连；第一至第四融合模块的融合过程为，将输入的两个特征图分别通过1×1的卷积操作，使两个特征图深度统一到256；再对两个特征图中尺寸更小的特征图进行2倍上采样，使两个特征图的尺寸统一；最后将统一后的两个特征图逐元素相加，完成融合过程；

第五融合模块有四个输入和四个输出；融合模块的具体连接为，将四个注意力子网络的输出与第五融合模块的四个输入端相连；融合过程为，将第一、第二注意力子网络的输出特征图的尺寸分别通过上采样扩大到与第三注意力子网络的输出特征图的尺寸相同，将第四注意力子网络的输出特征图的尺寸通过下采样缩小到与第三注意力子网络的输出特征图的尺寸相同，然后对统一尺寸后的四个特征图逐元素求平均值，再通过3×3的卷积操作，得到融合特征图；将融合特征图分别通过下采样，得到与第一、第二注意力子网络的输出特征图的尺寸相同的两个特征图；将融合特征图通过上采样，得到与第四注意力子网络的输出特征图的尺寸相同的一个特征图。将得到的三个特征图和融合特征图分别与对应尺寸的四个注意力子网络的输出特征图逐元素相加，作为第五融合模块的输出；

(1d)在第五融合模块的四个输出层、基础特征提取网络中第二十层、第二十三层共六个特征层后分别连接分类预测卷积层和回归预测卷积层，将分类预测卷积层和回归预测卷积层的卷积核的数量分别设置为2，4，卷积核窗口大小均设置为3；基础特征提取网络与特征融合和注意力增强网络中其他层的输入与输出不变，得到基于特征融合和注意力的检测网络。

(2)构造训练集：

选取至少2000张真菌显微图像，每张真菌显微图像中至少包含一个真菌目标；人工标注每张真菌显微图像中的每个真菌目标，将每张真菌显微图像上真菌目标的标注信息保存在一个对应的标签文件中；将所有的真菌显微图像和对应的标签文件组成训练集；

(3)训练基于特征融合和注意力的检测网络：

将训练集输入到基于特征融合和注意力的检测网络中，计算损失函数，使用随机梯度下降法迭代更新网络参数，直到损失函数收敛为止，得到训练好的检测网络；

(4)对真菌图像进行检测：

将一张含有真菌的待检测图像输入到训练好的检测网络中，输出该张图像的所有检测框，将所有的检测框在待检测图像中标注出来，得到最终的检测结果图。

与现有技术相比，本发明有以下优点：

第一，由于本发明构建并训练的特征融合和注意力增强网络中使用了多级特征融合模块，在将真菌图像输入到基础特征提取网络后，将第二十卷积层输出的真菌特征信息融合至第十卷积层的真菌特征图中，结合第十卷积层的特征图的细节信息与第二十卷积层中的语义信息，克服了现有技术中的因为真菌目标尺度差异大导致的检测精确率低的问题，使得本发明提高了对真菌目标的检测精度。

第二，由于本发明构建的特征融合和注意力增强网络中使用了一种注意力网络，在特征融合模块后使用高层的真菌特征图生成注意力权重，应用于浅层的真菌特征图中，克服了现有技术中误识别背景噪声导致的检测精确率低的问题和使用特征图为自身生成权重导致细节信息丢失的问题，使得本发明的注意力网络能生成更深层次的监督信号，能够更好的抑制真菌图像噪声信息，提高了真菌目标检测的准确性。

附图说明

图1为本发明流程图；

图2为本发明网络结构图。

具体实施方式

下面结合附图对本发明作进一步地描述。

结合附图1，对本发明的具体步骤作进一步地描述。

步骤1，构建基于特征融合和注意力的检测网络：

1.1)构建一个29层的基础特征提取网络，其结构依次为：输入层，第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层，第十四卷积层，第十五卷积层，第十六卷积层，第十七卷积层，第十八卷积层，第十九卷积层，第二十卷积层，第二十一卷积层，第二十二卷积层，第二十三卷积层；

将特征提取网络各层的参数设置如下：

将第一至第二十三卷积层中特征图深度分别设置为64，64，128，128，256，256，256，512，512，512，512，512，512，1024，1024，256，512，128，256，128，256，128，256；卷积核窗口大小分别设置为3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，1，1，3，1，3，1，3；将第一至第五池化层中池化核大小均设置为2。

1.2)构建一个由并联的空间注意力网络和通道注意力网络构成的注意力网络，所述空间注意力网络由输入层和卷积层组成；卷积层中卷积核的数量设置为256，卷积核的窗口大小设置为1；所述通道注意力网络由输入层，池化层，第一卷积层，第二卷积层组成；将池化层设置为全局平均池化；将第一、第二卷积层的卷积核的数量分别设置为16，256，卷积核窗口大小均设置为1；

1.3)构建一个特征融合和注意力增强网络，该网络的结构依次为：第一融合模块，第一注意力子网络，第二融合模块，第二注意力子网络，第三融合模块，第三注意力子网络，第四融合模块，第四注意力子网络，第五融合模块；其中，第一、第二、第三、第四注意力子网络指的是本步骤第1.2)中描述的注意力网络。

结合附图2，对本发明的网络结构作进一步地描述。

图2中的F1，F2，F3，F4，F5分别对应五个融合模块。其中，第一至第四融合模块有两个输入；具体输入依次为，将基础特征提取网络中第二十卷积层与第十七卷积层的输出，分别与第一个融合模块的两个输入相连；将基础特征提取网络中第十五卷积层的输出与第二个融合模块的两个输入相连；将基础特征提取网络中第十四卷积层的输出与第三个融合模块的两个输入相连；将基础特征提取网络中第十卷积层的输出与第四个融合模块的两个输入相连；第一至第四融合模块的融合过程为，将输入的两个特征图分别通过1×1的卷积操作，使两个特征图深度统一到256；再对两个特征图中尺寸更小的特征图进行2倍上采样，使两个特征图的尺寸统一；最后将统一后的两个特征图逐元素相加，完成融合过程；

第五融合模块有四个输入；将四个注意力子网络的输出与第五融合模块的四个输入端相连。图2中的A1，A2，A3，A4分别对应四个注意力网络；图2中的C1，C2，C3，C4分别对应四个注意力网络的输出；第五融合模块的融合过程为，将第一、第二注意力子网络的输出特征图的尺寸分别通过上采样扩大到与第三注意力子网络的输出特征图的尺寸相同，将第四注意力子网络的输出特征图的尺寸通过下采样缩小到与第三注意力子网络的输出特征图的尺寸相同，然后对统一尺寸后的四个特征图逐元素求平均值，再通过3×3的卷积操作，得到融合特征图。将融合特征图分别通过下采样，得到与第一、第二注意力子网络的输出特征图的尺寸相同的两个特征图。将融合特征图通过上采样，得到与第四注意力子网络的输出特征图的尺寸相同的一个特征图。将得到的三个特征图和融合特征图分别与对应尺寸的四个注意力子网络的输出特征图逐元素相加，作为第五融合模块的输出。图2中的P1，P2，P3，P4分别对应四个输出特征层。

1.4)在第五融合模块的输出层，基础特征提取网络中第二十层，第二十三层共六个特征层后分别与图2中的预测层相连。预测层包括分类预测卷积层和回归预测卷积层，将分类预测卷积层和回归预测卷积层的卷积核的数量分别设置为2，4，卷积核窗口大小均设置为3；基础特征提取网络与特征融合和注意力增强网络中其他层的输入与输出不变，得到基于特征融合和注意力的检测网络。

步骤2，构造训练集：

步骤3，训练基于特征融合和注意力的检测网络：

所述的损失函数其公式计算如下：

其中，L(.)表示损失函数，x表示预测框样本，c表示类别置信度预测值，l表示预测边界框的位置参数值，g表示标注边界框的位置参数值，N表示预测框中匹配到的真菌样本总数，L_conf(.)表示分类损失函数，其计算公式如下：

其中，∑表示求和操作，i表示预测框的序号，Pos表示预测框为正样本的集合，Neg表示预测框为负样本的集合，

有0和1两个取值，/>

取值为1表示第i个预测框和第j个标注框匹配成功，/>

取值为0表示第i个预测框没有匹配到标注框；log表示以2为底的对数操作，

表示第i个预测框对应的第p个类别的标注框的概率，/>

表示第i个预测框属于背景类的概率，L_loc(.)表示位置损失函数，其计算公式如下：

其中，m表示边界框的位置参数序号，cx表示边界框中心点横坐标，cy表示边界框中心点纵坐标，w表示边界框宽度，h表示边界框高度，

表示第i个预测边界框的位置参数值，/>

表示匹配到的第j个标注边界框的位置参数值；smooth_L1是由下式得到的：

其中，smooth_L1表示smooth L1的损失值。

步骤4，对真菌图像进行检测：

本发明的效果通过以下仿真实验进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Intel(R)Core(TM)i7-8700K CPU，3.70GHz*12，NVIDIAGeForce GTX 1080Ti，内存为64G。

本发明的仿真实验的软件平台为：pytorch。

2.仿真内容与结果分析：

采用本发明的方法和现有技术中的YOLOv3检测方法，在上述仿真条件下，按照本发明的步骤进行仿真实验，在测试集上对两种方法进行评估，得到两种方法的平均精度均值。

在仿真实验中，采用的一个现有技术YOLOv3检测方法是指：

Redmon等人在“YOLOv3:An Incremental Improvement”([J].arXiv e-prints,2018)中提出的目标检测方法，简称YOLOv3检测方法。

利用检测准确率对两种方法的检测结果进行评价，检测准确率的计算步骤如下：

第一步，将训练集输入到训练好的检测网络中，输出对应预测标签。根据实际标签和预测标签将预测结果分为TP(True Positive)、TN(True Negative)、FP(FalsePositive)、FN(False Negative)，对于被分类的目标而言，如果其真实值为正样本，当将其判断为正类时，该目标使用TP表示，当将其判断为负类时，用FN表示，如果其真实值为负样本，当将其判断为正类时，该目标使用TP表示，当将其判断为负类时，用FN表示；

第二步，利用下式分别计算精确率(Precision)和召回率(Recall)：

第三步，利用下式计算各个类别的平均精度(Average Precision，AP)值：

其中，p表示精确率，r表示召回率；

第四步，利用下式计算所有类别AP的平均精度均值(mean Average Precision，mAP)：

其中，∑表示求和操作，i表示类别序号，Q表示样本类别数。

仿真实验中本发明和现有技术检测结果的对比如下表1所示：

表1仿真实验中本发明和现有技术检测结果的对比表

	平均精度均值(％)
		YOLOv3	85.4
本发明的方法	87.7

结合表1可以看出，本发明的检测准确率为87.7％，与YOLOv3相比提高了2.3％。实验表明：本发明利用构建的基于特征融合和注意力的真菌目标检测网络，能够检测出图像中的真菌目标，解决了现有技术在实际应用中检测精度不高的问题，是一种非常实用的真菌显微图像检测方法。

Claims

1.一种基于特征融合和注意力的真菌目标检测方法，其特征在于，构建并训练一个将多层次特征层进行融合，并使用高层特征提取注意力权重来约束相邻浅层特征层的检测网络，该方法的具体步骤包括如下：

(1)构建特征融合和注意力的检测网络：

(1a)构建一个29层的基础特征提取网络，其结构依次为：输入层，第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层，第十四卷积层，第十五卷积层，第十六卷积层，第十七卷积层，第十八卷积层，第十九卷积层，第二十卷积层，第二十一卷积层，第二十二卷积层，第二十三卷积层；

设置基础特征提取网络中各层的参数如下：

将第一至第二十三卷积层中特征图深度分别设置为64，64，128，128，256，256，256，512，512，512，512，512，512，1024，1024，256，512，128，256，128，256，128，256；卷积核窗口大小分别设置为3，3，3，3，3，3，3，3，3，3，3，3，3，3，3，1，1，3，1，3，1，3；将第一至第五池化层中池化核大小均设置为2；

(1b)构建一个由并联的空间注意力网络和通道注意力网络组成的注意力网络，所述空间注意力网络由输入层和卷积层组成；卷积层中卷积核的数量设置为256，卷积核的窗口大小设置为1；所述通道注意力网络由输入层，池化层，卷积层1，卷积层2组成；将池化层设置为全局平均池化；将卷积层1和卷积层2的卷积核的数量分别设置为16，256，卷积核窗口大小均设置为1；

(1c)构建一个特征融合和注意力增强网络，该网络的结构依次为：第一融合模块，第一注意力子网络，第二融合模块，第二注意力子网络，第三融合模块，第三注意力子网络，第四融合模块，第四注意力子网络，第五融合模块；其中，第一、第二、第三、第四注意力子网络就是步骤(1b)中描述的注意力网络；

第五融合模块有四个输入和四个输出；融合模块的具体连接为，将四个注意力子网络的输出与第五融合模块的四个输入端相连；融合过程为，将第一、第二注意力子网络的输出特征图的尺寸分别通过上采样扩大到与第三注意力子网络的输出特征图的尺寸相同，将第四注意力子网络的输出特征图的尺寸通过下采样缩小到与第三注意力子网络的输出特征图的尺寸相同，然后对统一尺寸后的四个特征图逐元素求平均值，再通过3×3的卷积操作，得到融合特征图；将融合特征图分别通过下采样，得到与第一、第二注意力子网络的输出特征图的尺寸相同的两个特征图；将融合特征图通过上采样，得到与第四注意力子网络的输出特征图的尺寸相同的一个特征图；将得到的三个特征图和融合特征图分别与对应尺寸的四个注意力子网络的输出特征图逐元素相加，作为第五融合模块的输出；

(1d)在第五融合模块的四个输出层、基础特征提取网络中第二十层、第二十三层共六个特征层后分别连接分类预测卷积层和回归预测卷积层，将分类预测卷积层和回归预测卷积层的卷积核的数量分别设置为2，4，卷积核窗口大小均设置为3；基础特征提取网络与特征融合和注意力增强网络中其他层的输入与输出不变，得到基于特征融合和注意力的检测网络；

(2)构造训练集：

(3)训练基于特征融合和注意力的检测网络：

(4)对真菌图像进行检测：

2.根据权利要求1所述的基于特征融合和注意力的真菌目标检测方法，其特征在于，步骤(3)中所述的损失函数如下：