CN108229580B

CN108229580B - 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置

Info

Publication number: CN108229580B
Application number: CN201810078655.9A
Authority: CN
Inventors: 吴健; 林志文; 郭若乾; 吴边; 陈为; 吴福理; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2020-12-11
Anticipated expiration: 2038-01-26
Also published as: CN108229580A

Abstract

本发明公开了一种基于注意力机制及特征融合的眼底图中糖网特征分级装置，包括：特征检测分类网络模块，用于对输入样本眼底图中1级糖网特征和2级糖网特征进行提取，输出对1级糖网特征和2级糖网特征提取的细分类特征图；原图分类网络模块，用于对输入样本眼底图中具有3级糖网特征和4级糖网特征进行提取，输出对3级糖网特征和4级糖网特征提取的粗分类特征图；注意力机制与特征融合模块，该模块采用注意力机制对特征检测网络模块输出的细分类特征图和原图分类网络模块输出的粗分类特征图进行特征融合，输出为输入样本图像的糖网特征级别的预测概率。该装置在保证较快速度的同时，分类评价指标Kappa达到81.33％。

Description

一种基于注意力机制及特征融合的眼底图中糖网特征分级装置

技术领域

本发明属于图像处理技术领域，具体涉及一种基于注意力机制及特征融合的眼底图中糖网特征分级装置。

背景技术

现有的深度学习方法大多使用原始图像或经过简单数据增强的图像进行眼底图像中糖网(糖尿病视网膜)特征分级。首先，把训练数据中的输入图像传入由一系列卷积结构和全连接结构组成的神经网络，然后保存训练好的神经网络参数，最后利用已经训练好的神经网络对测试集中的测试图像进行预测，得到每个测试图像的糖网特征级别的预测概率。为了提升神经网络对输入图像的感受野，会牺牲掉输入图像的分辨率，这样会导致神经网络失去原始输入图像中一些较细小的特征信息，只突出了主要特征。因此，卷积神经网络一般对于依靠比较明显特征来区分的3，4级别糖网特征具有比较好的分类作用，但是对于依靠较细微特征来区分的1，2级别糖网特征分类效果较差。

因此，一种既可以对具有较明显特征的3，4级别糖网特征具有较好分类效果，又可以对较细微特征的1，2级别糖网特征有较好分类效果的分级装置，已成为目前学术界与工业界的急切需求。

发明内容

本发明的发明目的是提供一种基于注意力机制及特征融合的眼底图中糖网特征分级装置，该装置在深度学习方法对糖网特征分类基础上，引入使用注意力机制以及特征融合方法实现糖网特征的不同大小级别的分类。该装置在保证较快速度的同时，分类评价指标Kappa达到81.33％。

为实现上述发明目的，本发明具有的有益效果为：

一种基于注意力机制及特征融合的眼底图中糖网特征分级装置，包括：

特征检测分类网络模块，用于对输入样本眼底图中1级糖网特征和2级糖网特征进行提取，输出对1级糖网特征和2级糖网特征提取的细分类特征图；

原图分类网络模块，用于对输入样本眼底图中具有3级糖网特征和4级糖网特征进行提取，输出对3级糖网特征和4级糖网特征提取的粗分类特征图；

注意力机制与特征融合模块，该模块采用注意力机制对特征检测网络模块输出的细分类特征图和原图分类网络模块输出的粗分类特征图进行特征融合，输出为输入样本图像的糖网特征级别的预测概率。

其中，所述特征检测分类网络模块包括：

特征检测网络模块，用于提取1级糖网特征和2级糖网特征，输出细检测特征图；

细分类网络模块，用于对细检测特征图进一步提取特征，将1级糖网特征和2级糖网特征进一步细化区分，以使得两种糖网特征更加突出，输出对1级糖网特征和2级糖网特征提取的细分类特征图。

所述特征检测网络模块使用SSD检测网络，其中，SSD检测网络包括依次连接的两个卷积核大小为3，通道数为64的卷积层；两个卷积核大小为3，通道数为128的卷积层；三个卷积核大小为3，通道数为256的卷积层；三个卷积核大小为3，通道数为512的卷积层；三个卷积核大小为3，通道数为512的卷积层；一个卷积核大小为3，通道数为1024的卷积层；一个卷积核大小为1，通道数为1024的卷积层；一个卷积核大小为1，通道数为256的卷积层；一个卷积核大小为3，通道数为512的卷积层；一个卷积核大小为1，通道数为128的卷积层；一个卷积核大小为3，通道数为256的卷积层；一个卷积核大小为1，通道数为128的卷积层；一个卷积核大小为3，通道数为256的卷积层；一个卷积核大小为1，通道数为128的卷积层；1个卷积核大小为3，通道数为256的卷积层以及一个卷积核大小为3，通道数为9*(4+3)的卷积层。

需要注意的是，本发明首先训练特征检测网络模块，当特征检测网络模块训练完成后，固定住该模块的所有参数，在接下来的训练中不再更新该模块参数。

这样设置下的SSD检测网络能够对糖网特征进行较准确地检测，经大量实验测试获得：该SSD检测网络对糖网特征的检测精度均值能够达到0.432，这是其他检测网路无法与其相比的。该SSD检测网络的损失函数如公式(1)所示：

其中，α表示分类损失L_conf和定位损失L_loc之间的比例，本发明定为10，N表示训练样本中包含眼底图的个数，

L_loc(x,l,g)表示定位损失函数，其中x_ij ^k第i个预测框和第j个真实框关于类别k是否匹配，取值为1或者为0分别表示匹配与不匹配；l_i ^m表示为第i个预测框的中心位置的横(cx)、纵(cy)坐标，长(w)、宽(h)与其所对应的默认框之间的差值，如l_i ^cx表示第i个预测框中心位置的横坐标与其所对应默认框中心位置横坐标的差值；g^_j ^m表示第j个真实框的中心位置横(cx)、纵(cy)坐标，长(w)、宽(h)与默认框之间的差值，如g^_j ^cx表示第j个真实框的中心位置横坐标与默认框的中心位置差值；g_j ^cx、g_j ^cy、g_j ^w、g_j ^cx分别表示第j个真实框的中心位置横(cx)、纵(cy)坐标，长(w)、宽(h)；d_i ^cx、d_i ^cy、d_i ^w、d_i ^cx分别表示第i个默认框的中心位置横(cx)、纵(cy)坐标，长(w)、宽(h)。如公式(2)所示：

L_conf(x,c)表示分类损失函数，其中x_ij ^p第i个预测框和第j个真实框关于类别p是否匹配，取值为1或者为0分别表示匹配与不匹配；c_i ^p表示预测第i个区域属于p类别的概率；c^_i ^p为c_i ^p的归一化表示；N表示特征区域个数。如公式(3)所示：

本发明中，细分类网络模块与原图分类网络模块采用相同的分类网略，优选地，细分类网络模块与原图分类网络模块均采用18层残差网络。原图分类网络模块的输入是样本眼底图，输出对样本眼底图进行特征提取后得到的粗分类特征图，该18层残差网络的损失函数为如公式(4)所示的逻辑回归损失函数，其中x_i ^p第i个图片是否为第p个类别，取值为1或者为0分别表示预测正确与预测错误；N表示训练图片数量；c_i ^p表示预测第i张图片属于p类别的概率，c^_i ^p为c_i ^p的归一化表示。

其中，所述注意力机制与特征融合模块包括：

尺寸调整模块，用于调整细分类特征图的尺寸，使得细分类特征图的尺寸和粗分类特征图的尺寸相同，以方便对两个特征图进行拼接操作；

拼接模块，用于按照通道维度，对调整尺寸后的细分类特征图和粗分类特征图进行拼接，输出拼接特征图；

特征图注意力提取模块，用于计算拼接特征图中每一个特征像素的权值，该权值作为拼接特征图所获得的注意力大小，输出拼接特征权值图。权值大的区域，网络会重点学习，这样可以使得网络自主找到重点区域，学习关键特征区域，更有利于图像分类。

具体地，所述特征图注意力提取模块对应的网络包括依次连接卷积核大小为3*3、通道数为1024、步长为1的卷积层，线性修正激活层(relu)，随机失活概率为50％的随机失活层(dropout)以及卷积核大小为3*3，通道数为512，步长为1的卷积层。其中，两个卷积层可以提取拼接特征图中的特征；线性修正激活层可以对提取到的特征进行非线性组合；随机失活层可以防止训练过程中的过拟合现象，增加网络鲁棒性。

经大量实验证明，特征图注意力提取模块对应的网络的设置能够更提取到鲁棒且包含足够多特征的拼接特征权值图，有利于注意力机制发挥作用，使网络自主找到并重点学习特征区域；除此之外，这样的比较浅层的设置可以减少增加的计算量和参数数量，使得网络在增加尽可能少的计算量的基础上，注意力机制又能发挥最好的作用。

归一化处理模块，用于采用逻辑回归函数对输入的拼接特征权值图进行归一化处理，输出归一化拼接特征权值图。使得拼接特征权值图中每个像素点的大小归一化到0到1之间，防止接下来加权平均后特征图的值过大或者过小，以使得网络梯度正常传播。

加权求和模块，用于将归一化拼接特征权值图的权值按照通道方向平均分成两部分，接着这两部分权值分别与尺寸调整后的细分类特征图和粗分类特征图逐像素相乘后，再对两个乘积逐像素求和，输出融合特征图。

在加权求和模块中，可以使尺寸调整后的细分类特征图和粗分类特征图在注意力机制处理后又进行了融合。使得1、2级别糖网特征和3、4级别糖网特征在分别获得不同的注意力的同时，又进行了合理的融合，使得二者特征都可以被网络学习到。

分类模块，对融合特征图进行分类处理，输出样本图像的糖网特征级别的预测概率。所述分类模块包括依次连接的全局平均池化层，多分类逻辑回归函数。其中全局平均池化层是分类网络中最常用的层之一，作用是把每一个通道的所有特征使用求均值的方式融合起来；多分类逻辑回归函数，同样是分类网络中最常用的层之一，它把全局平均池化后的特征映射成该输入属于每个类别的概率值，并对概率值做归一化处理。整个分类模块作用就是输出当前输入样本属于每个类别的概率值。

上述糖网特征分级装置建立好以后，以如公式(4)所示的函数收敛为目标，利用大量的训练样本该分级装置训练，以确定能够较准确反映糖网特征的装置参数，这样，该糖网特征分级装置确定完毕，供后续对糖网特征级别进行预测。

与现有技术相比，本发明具有的有益效果为：

本发明提供的分级装置既能够对3、4级别糖网特征进行预测，还能够对1、2级糖网特征进行预测，且保证较快速度的同时，分类评价指标Kappa达到81.33％。

附图说明

图1是实施例提供的基于注意力机制及特征融合的眼底图中糖网特征分级装置的结构示意图；

图2是图1中注意力机制与特征融合模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

现有眼底图中，1级糖网特征是指眼底图中直径为10～30像素的圆斑，2级糖网特征是指眼底图中尺寸为50～100像素的不规则暗红色区域，3级糖网病特征是指眼底图中大量的1级糖网特征、2级糖网特征以及淡黄色区域，4级糖网特征是指眼底图中不规则增殖的细小血管。

图1是实施例提供的基于注意力机制及特征融合的眼底图中糖网特征分级装置的结构示意图。如图1所示，该分级装置包括：

特征检测网络模块101，用于提取1级糖网特征和2级糖网特征，输出细检测特征图。

细分类网络模块102，用于对细检测特征图进一步提取特征，将1级糖网特征和2级糖网特征进一步细化区分，以使得两种糖网特征更加突出，输出对1级糖网特征和2级糖网特征提取的细分类特征图。

原图分类网络模块103，用于对输入样本眼底图中具有3级糖网特征和4级糖网特征进行提取，输出对3级糖网特征和4级糖网特征提取的粗分类特征图。

注意力机制与特征融合模块104，该模块采用注意力机制对特征检测网络模块输出的细分类特征图和原图分类网络模块输出的粗分类特征图进行特征融合，输出为输入样本图像的糖网特征级别的预测概率。

由于1、2级糖网特征比较细微，如果直接使用分类网络进行分类，会被网络损失掉，所以本实施例中使用特征检测网络模块101和细分类网络模块102配合来重点检测该1、2级糖网特征。具体地，预先使用训练眼底图，对特征检测网络模块101和细分类网络模块102进行预训练，然后用已经训练好的模型检测输入图像特征。特征检测网络模块101和细分类网络模块102重点检测的是比较细微的特征。

本实施例中，考虑到装置的运算速度与精度的平衡，原图分类网络模块103与细分类网络模块102均采用18层的残差网络，该网络既能够保证装置的高精度，又能够保证装置的高效率。

图2是图1中注意力机制与特征融合模块的结构示意图。参见图2，该注意力机制与特征融合模块具体包括：

尺寸调整模块201，该模块调整细分类特征图的尺寸，使得细分类特征图的尺寸和粗分类特征图的尺寸相同，以方便对两个特征图进行拼接操作；

拼接模块202，按照通道维度，对调整尺寸后的细分类特征图和粗分类特征图进行拼接，输出拼接特征图；

特征图注意力提取模块203，该模块计算拼接特征图中每一个特征像素的权值，该权值作为拼接特征图所获得的注意力大小，输出拼接特征权值图。权值图反映了对于输入特征图不同位置的重要性，权值大的地方，表明这个地方更重要，网络对这些地方投入更多的注意力，这就是注意力机制在系统中的应用。

具体地，特征图注意力提取模块203包括：

卷积层2031，该层的卷积核大小为3*3，步长为1，通道数为1024，作用是提取拼接特征图中的特征。

线性修正激活层2032，作用是增加最终提取到的特征的非线性特点，使得提取到的特征更加多样化。

随机失活层2033，该层的随机失活概率为50％的，作用是可以防止训练过程中的过拟合现象，增加网络鲁棒性；

卷积层2034，该层的卷积核大小为3*3，步长为1，通道数为512的，作用是进一步提取特征，此时提取到的特征增加了非线性，且鲁棒性更强。这样的网络设置能够更提取到鲁棒且包含足够多特征的拼接特征权值图，有利于注意力机制发挥作用，使网络自主找到并重点学习病灶区域特征；除此之外，这样的比较浅层的设置可以减少增加的计算量和参数数量，使得网络在增加尽可能少的计算量的基础上，注意力机制又能发挥最好的作用。

归一化处理模块204，采用逻辑回归函数对输入的拼接特征权值图进行归一化处理，输出归一化拼接特征权值图。使得拼接特征权值图中每个像素点的大小归一化到0到1之间，防止接下来加权平均后特征图的值过大或者过小，以使得网络梯度正常传播。

加权求和模块205，用于将归一化拼接特征权值图的权值分别与尺寸调整后的细分类特征图权值和粗分类特征图权值相乘后，再对两个乘积求和，输出融合特征图。

分类模块206，对融合特征图进行分类处理，输入样本图像的糖网特征级别的预测概率。

其中，分类模块206包括：

全局平均池化层2061，是把每一个通道的所有特征使用求均值的方式融合起来。

多分类逻辑回归函数2062，把全局平均池化后的特征映射成该输入属于每个类别的概率值，并对概率值做归一化处理。

采用本装置和现有的直接分类装置对相同的预测样本眼底图进行分类，结果对比如表1：

表1

	准确率	Kappa
			本装置	84.64％	81.33％
直接分类	80.44％	74.71％

可以从表1中看到，注意力机制与特征融合模块把两种特征图进行融合，一种特征图重点检测细微特征，一种特征图检测较明显特征，同时使用注意力机制，可以自主学习更加有用的特征，从而提升了装置分级效果。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制及特征融合的眼底图中糖网特征分级装置，包括：

原图分类网络模块，采用18层残差网络，用于对输入样本眼底图中具有3级糖网特征和4级糖网特征进行提取，输出对3级糖网特征和4级糖网特征提取的粗分类特征图；

注意力机制与特征融合模块，该模块采用注意力机制对特征检测网络模块输出的细分类特征图和原图分类网络模块输出的粗分类特征图进行特征融合，输出为输入样本图像的糖网特征级别的预测概率；

其中，所述特征检测分类网络模块包括：

特征检测网络模块，用于提取1级糖网特征和2级糖网特征，输出细检测特征图，其中，特征检测网络模块使用SSD检测网络，包括依次连接的两个卷积核大小为3，通道数为64的卷积层；两个卷积核大小为3，通道数为128的卷积层；三个卷积核大小为3，通道数为256的卷积层；三个卷积核大小为3，通道数为512的卷积层；三个卷积核大小为3，通道数为512的卷积层；一个卷积核大小为3，通道数为1024的卷积层；一个卷积核大小为1，通道数为1024的卷积层；一个卷积核大小为1，通道数为256的卷积层；一个卷积核大小为3，通道数为512的卷积层；一个卷积核大小为1，通道数为128的卷积层；一个卷积核大小为3，通道数为256的卷积层；一个卷积核大小为1，通道数为128的卷积层；一个卷积核大小为3，通道数为256的卷积层；一个卷积核大小为1，通道数为128的卷积层；1个卷积核大小为3，通道数为256的卷积层以及一个卷积核大小为3，通道数为9*（4+3）的卷积层；

细分类网络模块，采用18层残差网络用于对细检测特征图进一步提取特征，将1级糖网特征和2级糖网特征进一步细化区分，以使得两种糖网特征更加突出，输出对1级糖网特征和2级糖网特征提取的细分类特征图；

所述注意力机制与特征融合模块包括：

特征图注意力提取模块，用于计算拼接特征图中每一个特征像素的权值，该权值作为拼接特征图所获得的注意力大小，输出拼接特征权值图；

归一化处理模块，用于采用逻辑回归函数对输入的拼接特征权值图进行归一化处理，输出归一化拼接特征权值图；

加权求和模块，用于将归一化拼接特征权值图的权值分别与尺寸调整后的细分类特征图权值和粗分类特征图权值相乘后，再对两个乘积求和，输出融合特征图；

分类模块，对融合特征图进行分类处理，输入样本图像的糖网特征级别的预测概率。

2.如权利要求1所述的基于注意力机制及特征融合的眼底图中糖网特征分级装置，其特征在于，所述特征图注意力提取模块对应的网络包括依次连接卷积核大小为3*3、通道数为1024、步长为1的卷积层，线性修正激活层，随机失活概率为50%的随机失活层以及卷积核大小为3*3，通道数为512，步长为1的卷积层，其中，两个卷积层提取拼接特征图中的特征；线性修正激活层对提取到的特征进行非线性组合；随机失活层防止训练过程中的过拟合现象，增加网络鲁棒性。

3.如权利要求1所述的基于注意力机制及特征融合的眼底图中糖网特征分级装置，其特征在于，所述分类模块包括依次连接的全局平均池化层，多分类逻辑回归函数。