CN110705440B

CN110705440B - 一种基于神经网络特征融合的胶囊内镜图像识别模型

Info

Publication number: CN110705440B
Application number: CN201910923365.4A
Authority: CN
Inventors: 张大斌; 王孟; 魏晓雍; 马雄位; 许盛; 张永江; 张云飞; 张元常; 曹阳
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2022-11-01
Anticipated expiration: 2039-09-27
Also published as: CN110705440A

Abstract

本发明提供一种基于神经网络特征融合的胶囊内镜图像识别模型，首先对图像分离G通道、Log变换和直方图均衡化预处理，以凸显其颜色、形状和纹理信息，再采用三个相同卷积神经网络分别对三种预处理后的图像提取特征，最后采用神经网络进行特征融合与识别，对Kvasir数据集的实验表明，该模型训练40个周期后达到稳定，识别平均准确率为97.02％，比RGB输入、传统机器视觉和经典神经网络模型高出2.02％以上,其AUC值达到0.99，属于医疗图像识别领域。

Description

一种基于神经网络特征融合的胶囊内镜图像识别模型

技术领域

本发明涉及一种基于神经网络特征融合的胶囊内镜图像识别模型，属于医疗图像识别领域。

背景技术

当前消化道胶囊内镜图像识别算法存在两个局限；一是要对有差别的病灶设计具体的特征检测算法，即基于传统机器视觉的识别算法需要针对不同病灶设计不同算法，尚未形成通用算法；二是通过深度学习模型开展迁移学习时，原训练数据与胶囊内镜图像存在较大差异，限制了模型学习效果，即基于预训练的深度学习模型存在预训练数据与样本数据差异大的问题，传统机器视觉与深度学习结合的方法使得算法结构复杂，不能广泛使用。因此，提出了一种基于神经网络特征融合的胶囊内镜图像识别模型。

发明内容

本发明提供一种基于神经网络特征融合的胶囊内镜图像识别模型，以解决基于传统机器视觉的识别算法需要针对不同病灶设计不同算法，基于预训练的深度学习模型存在预训练数据与样本数据差异大的问题，传统机器视觉与深度学习结合的方法使得算法结构复杂，不能广泛使用的问题。

为解决上述问题，拟采用这样一种基于神经网络特征融合的胶囊内镜图像识别模型，首先对图像分离G通道、Log变换和直方图均衡化预处理，以凸显其颜色、形状和纹理信息，再采用三个相同卷积神经网络分别对三种预处理后的图像提取特征，最后采用神经网络进行特征融合与识别。

前述胶囊内镜图像识别模型中，图像预处理具体如下：

G分量提取，RGB图像由红色像素分量(R)、绿色像素分量(G)和蓝色像素分量(B)通过矩阵叠加形式组成，G通道均值与标准差综合表现强于R和B通道，能够表征胶囊内镜的颜色信息，因此，提取G通道，舍弃B和R通道；

Log灰度图像变换，形状特征是内镜诊断的重要信息，为了凸显形状特征，采用Log变换来减少颜色和纹理信息

直方图均衡化，原理如式(2)：

其中，0≦r_k≦1,k＝0,1,…,255，O_k为变换后的输出值r_j，为灰度级，Pr(r_j)是灰度级r_j的概率密度函数，n_j为包含灰度级r_j的数量，n为图像总像素量，该变换使用r_j的累计分布函数，生成一幅灰度密度均匀的图像。

前述胶囊内镜图像识别模型中，卷积神经网络与特征融合设计，具体如下：

使用来自Vestre Viken公司公开的Kvasir数据集，包含来自胃肠道的胶囊内镜图像的数据集，数据集分为8类，共8000幅图，即具有解剖标志的Z线、幽门和盲肠，为医生判断图像所处消化道位置提供了导航；具有临床意义的食管炎、息肉和溃疡性结肠炎，属于消化道常见疾病；此外，还有对病灶医学处理后的图像，息肉染色增强和息肉染色边缘切除，数据集分类和标注工作由专业医生完成，每个类包含1000幅图，均采用JPEG压缩编码；

调整数据集图像大小为224×224，同一幅图分别进行G通道分离、Log变换以及直方图均衡化，将三者分别输入到具有相同结构的卷积神经网络进行特征提取；

将具有特征提取功能的卷积核和神经网络结合，自动提取图像特征，VGG网络中采用2个3×3卷积代替5×5卷积，3个3×3卷积代替7×7卷积，采用卷积核大小均为3×3，核数量采用随层数递增方式，针对数据量，layer-1、layer-2、layer-3核数量分别为64、128和128，对图像低维度特征进行提取；layer-4和layer-5均为256，对高维度抽象特征进行提取，同时，对每个卷积层进行归一化，加快模型迭代的收敛速度。

设计池化层以充分利用5层卷积层，以筛选出有效特征以及提升网络的训练效率，采用最大池化，前4层卷积均采用3×3max_pool，对有效特征进行优选，为保留高维特征以进行特征融合，layer-5采用2×2max_pool，使卷积层输出结果满足一维向量；

基于神经网络的后期特征融合，将多种类型的特征输入到全连接层进行融合，借助神经网络进行分类识别的融合学习算法，AFS_NN的基本结构是全连接神经元，首先将提取出的多种特征的矩阵按顺序排列为一维向量，输入到n(0<n<4)层全连接神经网络，设置输出损失函数与学习策略，通过分类器输出8个分类指标。

模型训练流程：

1)数据集划分：从原始数据集中随机抽取6400幅图作为训练集，其中每一类包含800幅图，剩余1600幅作为测试集，每一类包含200幅图；

2)图像预处理：分离出G通道、Log灰度变换和灰度直方图均衡化；

3)特征提取：三者分别输入到三个相同结构的神经网络，对每种特征进行提取，三个网络相互独立；

4)特征融合：提取的三种特征共768个特征值，输入到两层分别包含256个神经元的全连接神经网络进行分类；

5)输出：softmax分类器，输出8类对应概率。

与现有技术相比，本发明构建了基于神经网络特征融合的胶囊内镜图像识别模型。该模型首先通过预处理获取颜色、形状和纹理信息突出的图像，采用卷积神经网络分别提取其不同特征，再用全连接神经网络进行融合分类。同时设计了大量实验进行验证该模型，对Kvasir数据集的实验表明，该模型训练40个周期后达到稳定，识别平均准确率为97.02％，比RGB输入、传统机器视觉和经典神经网络模型高出2.02％以上,其AUC值达到0.99，能够推广应用到医疗图像识别领域。

本模型可直接训练息肉图像，并达到了96.42％的准确率以及0.98的AUC值，远高于现有息肉识别准确率，开创了基于深度学习的息肉识别方法；本发明的训练集仅包含6400幅图像，8分类平均准确率达到了97.02％，可知对图像进行预处理以突出特征的方法，能够在小数据量情况下实现神经网络的良好识别效果，解决了医疗领域数据宝贵的困境，本模型在各项指标中均取得了良好成绩。

附图说明

图1是Log变换原理图；

图2是Log变换前后的息肉图像；

图3是直方图均衡化后的息肉图像；

图4是神经网络特征融合模型；

图5是本发明模型与RGB模型准确率；

图6是本发明模型与RGB模型ROC曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

试验例

1、图像预处理

胶囊内镜图像的位深度为24，水平和垂直分辨率均为96dpi，为医生诊断提供了丰富信息，医生利用颜色、形状和纹理特征对WCE进行诊断，因此，针对三种特征信息进行相应预处理，使得某一种特征信息得以凸显，便于特征提取和特征融合。

1.1G分量提取

RGB图像由红色像素分量(R)、绿色像素分量(G)和蓝色像素分量(B)通过矩阵叠加形式组成，胶囊内镜拍摄对象为整个消化道，颜色呈浅红色至深红色，内镜下，Z线处食管白色粘膜与红色胃粘膜交汇边界清晰，染色增强的息肉与常规组织存在明显颜色差异，溃疡表面被白色纤维蛋白覆盖，为分析WCE颜色通道间的差异，统计50幅息肉和溃疡病灶图R、G、B通道颜色值的均值和标准差，见表1：

表1息肉与溃疡病灶图通道评价

评价指标	息肉	溃疡	\|差值\|
				B通道均值	95.59	109.23	13.64
B通道标准差	22.85	48.12	25.27
				G通道均值	120.09	187.78	67.69
G通道标准差	23.57	33.49	9.92
				R通道均值	207.94	241.24	33.3
R通道标准差	12.67	9.78	2.89

表1中，两种疾病颜色均值的差值大小为G>R>B,说明G通道灰度值分布差异比R和B通道大，标准差的差值大小为B>G>R，即B和G通道包含的细节信息多于R通道，综合两个评价指标，G通道均值与标准差综合表现强于R和B通道，能够表征胶囊内镜的颜色信息，因此提取G通道，舍弃B和R通道。

1.2Log灰度图像变换

消化道不同器官在形状上有显著差异，盲肠与回盲肠相接且有多个囊袋状沟壑，幽门呈规则的圆口或椭圆口状且内有环向肌肉，食管呈现出深隧道形状，不同病灶也存在形状差异，息肉是一种小隆起且呈圆形或椭圆形的肉块，溃疡表现为消化道表皮组织平面片状溃烂或隆起，因此，形状特征是内镜诊断的重要信息，为了凸显形状特征，采用Log变换来减少颜色和纹理信息，Log变换原理如图1和式(1)所示

y＝log₂(1+cx)/log₂(1+c) (1)

式中，x为输入的灰度值，y为经Log变换后的得到的输出灰度值，c为可调常数项，用以调整图像亮度，结合式(1)和图1可看出，输入灰度值大时，函数斜率小，压缩了高灰度区域，相反，灰度值小，斜率大，暗区灰度得到提升与扩展。

取c＝10，对胶囊内镜图像Log变换，如图2所示，Log变换提升了内壁皱褶处附近的整体亮度，肠道弱光照的延伸部分的亮度也得到了提高，突出了息肉形状特征，整幅图的灰度梯度得到平均，大大减少了颜色和纹理对形状信息的影响，利于充分提取形状信息。

1.3直方图均衡化

纹理特征也是区分器官与疾病的信息，食管内壁光滑、纹理不明显，胃呈现出大量较深的褶皱，小肠表面呈绒毛状，息肉表面纹理与所处器官有关，溃疡表面有许多因腐败而产生小细纹，提升图像对比度能够有效突出纹理特征。

直方图均衡化是一种高效的对比度提升算法，原理如式(2)：

其中，0≦r_k≦1,k＝0,1,…,255，O_k为变换后的输出值r_j，为灰度级，Pr(r_j)是灰度级r_j的概率密度函数，n_j为包含灰度级r_j的数量，n为图像总像素量，该变换使用r_j的累计分布函数，生成一幅灰度密度均匀的图像，增加了灰度动态分布范围，对胶囊内镜图像进行直方图均衡化处理，如图3b)所示，原始图像3a)中息肉的灰度值得到提高，周围组织的灰度值降低，提高了WCE的对比度，息肉轮廓的梯度得到加强，突出了组织的纹理特征。

2、卷积神经网络与特征融合设计

2.1网络输入

使用来自Vestre Viken公司公开的Kvasir数据集，包含来自胃肠道(GI)的胶囊内镜图像的数据集，数据集分为8类，共8000幅图，即具有解剖标志的Z线(normal z line)、幽门(normal pylorus)和盲肠(normal cecum)，为医生判断图像所处消化道位置提供了导航；具有临床意义的食管炎(esophagitis)、息肉(polyps)和溃疡性结肠炎(ulcerativecolitis)，属于消化道常见疾病；此外，还有对病灶医学处理后的图像，息肉染色增强(dyedlifted polyps)和息肉染色边缘切除(dyed resection margins)，数据集分类和标注工作由专业医生完成，每个类包含1000幅图，均采用JPEG压缩编码。

调整数据集图像大小为224×224，同一幅图分别进行G通道分离、Log变换以及直方图均衡化，将三者分别输入到具有相同结构的卷积神经网络进行特征提取，设计模型如图4所示。

2.2卷积层

将具有特征提取功能的卷积核和神经网络结合，能够自动提取图像特征，VGG网络中采用2个3×3卷积代替5×5卷积，3个3×3卷积代替7×7卷积，实现了相同卷积视野的情况下大大减少参数量，借鉴该小卷积核实现大视野的特点，本网络采用卷积核大小均为3×3，核数量采用随层数递增方式，针对本次数据量，layer-1、layer-2、layer-3核数量分别为64、128和128，对图像低维度特征进行提取；layer-4和layer-5均为256，对高维度抽象特征进行提取。同时，对每个卷积层进行归一化(batch normalization)，加快模型迭代的收敛速度。

2.3池化层

为了充分利用5层卷积层，必须设计池化层，以筛选出有效特征以及提升网络的训练效率，,全采用最大池化(max_pool)，能有效提取局部最佳特征，前4层卷积均采用3×3max_pool，对有效特征进行优选，为保留高维特征以进行特征融合，layer-5采用2×2max_pool，使卷积层输出结果满足一维向量。

2.4特征融合

基于神经网络的后期特征融合(AFS_NN)，将多种类型的特征输入到全连接层进行融合，借助神经网络进行分类识别的融合学习算法，AFS_NN的基本结构是全连接神经元，首先将提取出的多种特征的矩阵按顺序排列为一维向量，输入到n(0<n<4)层全连接神经网络，设置输出损失函数与学习策略，通过分类器输出8个分类指标，图4中，0-7分类依次表示染色息肉、染色息肉切除、食管炎、盲肠、幽门、Z线、息肉和溃疡性结肠炎。

选择AFS_NN作为特征融合，原因有：

1)相比串联形特征融合和加权型特征融合，AFS_NN可以实现自适应加权系数的学习，无需人工干预。

2)本实验例提取的特征维度高，使用全连接神经网络能够有效分类该特征。

3)AFS_NN能够结合不同的优化器、不同损失函数和输出分类器，可测试不同组合，以得到最佳效果。

2.5模型训练

训练流程：

1)数据集划分：从原始数据集中随机抽取6400幅图作为训练集，其中每一类包含800幅图，剩余1600幅作为测试集，每一类包含200幅图。

2)图像预处理：分离出G通道、Log灰度变换和灰度直方图均衡化。

3)特征提取：三者分别输入到三个相同结构的神经网络，对每种特征进行提取，三个网络相互独立。

4)特征融合：提取的三种特征共768个特征值，输入到两层分别包含256个神经元的全连接神经网络进行分类。

5)输出：softmax分类器，输出8类对应概率。

参数设置：

1)特征提取层和特征融合层的训练方法均采用RMSProp算法，learning rate＝0.001，rho＝0.9,decay＝0；

2)layer6设置dropout＝0.5,layer7设置dropout＝0.3；

3)layer8设置损失函数为binary cross entropy，L1正则化；

4)batch size＝50，epochs＝301。

3、实验结果

本节对提出的模型进行大量实验，实验在CPU为i7-7700HQ，GPU为GTX1050，32G内存电脑上完成，实验分为三类，即针本模型与RGB输入模型的对比，基于本模型和不同优化器、损失函数的对比，本模型与传统图像识别和经典神经网络模型的对比。

3.1RGB输入模型对比

RGB输入模型，将WCE图像的RGB三通道直接输入到本实验例设计的神经网络进行训练与识别，不进行特征融合，为展示图像预处理和特征融合对WCE识别的效果，与RGB输入模型进行对比，两个模型学习结果如下所示，图5展示了模型训练周期情况，图6展示了模型ROC曲线。

图5可以看出，本实验例设计的神经网络在训练特征融合模型和传统RGB模型时，迭代周期到40次时都达到了稳定，且未产生过拟合或欠拟合现象，说明本文设置的归一化、dropout和学习率等参数合理，能够加快模型收敛速度，图5中，两模型的训练集准确率相当，达到99.75％，特征融合模型测试集准确率达到97.02％，比传统的RGB输入模型高出2.02％，表明预处理与特征融合明显提升了神经网络识别准确率。

ROC曲线是衡量模型实际效果的工具，其原理如下式(3)和(4)：

fpr＝fp/(fp+tn) (3)

tpr＝tp/(tp+fn) (4)

其中fp和fn表示正常和异常的错误检测数，tp和tn分别表示正常和异常的正确检测数，称fpr为假正率，tpr为真正率。ROC曲线以fpr为横坐标，tpr为纵坐标，tpr的提高必定伴随着fpr的提高，只有当tpr高且fpr低时，模型的预测效果才好，即ROC曲线越靠近左上角时，模型越好，常用ROC曲线与右侧坐标轴围成的面积(AUC)来衡量ROC，AUC值越接近1，则模型效果越好。

图6a)、b)可看出，本实验例模型ROC曲线的平均AUC值达到了0.99，每一个类对应的AUC值均不低于0.98，其中盲肠和幽门达到了1.00，足以应用于实际常景，而RGB输入模型的AUC均值为0.98，比前者低0.01，各分类的AUC值分布区间为0.97-1.00，超过本实验例模型0.01，实际应用中出现误判的概率比本模型高，说明预处理与特征融合模型稳定性优于RGB输入模型。

两种指标的对比，说明本实验例所设计的神经网络具有优秀的收敛能力与稳定性，同时，图像预处理和特征融合能提供更加准确的多元特征，比传统RGB具备了更好的识别效果。

3.2不同优化器、损失函数对比

为了得到模型最佳的训练效果，本实验例测试了三种常用优化算法和三种损失函数，即均方根反向传播算法(RMSprop)、带动量的随机梯度下降算法(SGD+Nesterov_Momentum＝0.9)和Adagrad以及均方误差损失函数(mean_squared_error)、二元交叉熵损失函数(binary_crossentropy)和交叉熵损失函数(categorical_crossentropy)，测试结果如表2所示：

表2不同优化算法与损失函数的准确率(％)

表2中，采用二元交叉熵损失函数时，三种优化算法准确率均高于96.5％，其中RMSprop达到97.02％，均方误差损失函数下，Adagard准确率比RMSprop高0.14％，而带动量的随机梯度度下降算法准确率为41.37％，不足50％，不具备优化能力，采用交叉熵损失函数时，Adagrad准确率最高，可见，二元交叉熵损失函数与RMSprop结合效果最好，后两个损失函数与Adagrad结合效果最好，因此本实验例选择准确率最高的二元交叉熵损失函数和均方根反向传播算法进行训练。

3.3传统机器视觉与经典网络对比

所提出的模型是将传统机器视觉中的图像处理与经典神经网络相结合，为了展示本模型的优势，分别与几种传统机器视觉模型和经典神经网络进行了对比，结果如表3所示，其中

(1)ResNet和AlexNet：借助深度神经网络和百万训练数据量，对常规图像识别准确率超过90％。

(2)GIST：基于一维感知(自然、开放、粗糙、膨胀和险峻)的特征检测算子，主要用于空间结构的特征检测；

(3)SIFT：基于图像尺度、角度等空间特征不变量的特征检测算子，用于局部特征提取。

(4)COLOR：基于k_means聚类出的128个颜色描述符，进行颜色特征提取的算法。

表3不同模型准确卒比较(％)

由表3可看出，神经网络类模型准确率普遍高于传统机器视觉，尤其对于息肉和溃疡等病灶的识别效果显著好于GIST、SHIFT和COLOR。GIST+SIFT和SIFT+COLOR识别染色息肉和染色切除的准确率明显高于其他分类，对于包含复杂特征的息肉、幽门和Z线等识别较差。可见传统机器视觉模型对于复杂分类的效果较差，ReNet和AlexNet网络结构复杂，待训练的参数量高达62M，宝贵的医疗数据只能在预训练的ResNet和AlexNet网络上进行微调，两者平均准确率为94.72％-94.84％，高于传统模型至少10.23％，但是由于预训练数据和胶囊内镜图像存在较大差异，两模型准确率受到了限制，本模型参数量只有1.8M，可以直接训练小数量级WCE图像，平均准确率能达到97.02％，其中两类疾病，息肉和溃疡性结肠炎准确率均高于其他模型1.08％以上，表明本模型对于复杂分类和小数量级数据的训练具有更好的效果。

4、结论

计算能力和深度学习的快速发展，促进了图像特征的自主学习与识别研究，深度学习在医疗领域的应用，可以大大提高医生诊断效率，因此，本实验例构建了基于神经网络特征融合的胶囊内镜图像识别模型，该模型首先通过预处理获取颜色、形状和纹理信息突出的图像，采用卷积神经网络分别提取其不同特征，再用全连接神经网络进行融合分类，同时设计了大量实验进行验证该模型。

所用测试集包含了肠道定位、疾病病灶和疾病医学处理等方面的图像，使得模型的训练更加符合实际应用场景，尤其对于息肉病灶的识别非常重要，近年来针对WCE定位和溃疡检测的研究较多，准确率为70.60％-95.61％^[i-iv]，却少有对息肉识别的研究，Zhang,R在预训练250万个非医学数据集的特征后，实现了87.3％的息肉识别准确率，而本模型可直接训练息肉图像，并达到了96.42％的准确率以及0.98的AUC值，远高于现有息肉识别准确率，开创了基于深度学习的息肉识别方法，本实验例的训练集仅包含6400幅图像，8分类平均准确率达到了97.02％，可知对图像进行预处理以突出特征的方法，能够在小数据量情况下实现神经网络的良好识别效果，解决了医疗领域数据宝贵的困境，最后，本模型在各项指标中均取得了良好成绩，实际应用中能够辅助医生进行疾病诊断。

Claims

1.一种基于神经网络特征融合的胶囊内镜图像识别模型，其特征在于：首先对图像分离G通道、Log变换和直方图均衡化预处理，以凸显其颜色、形状和纹理信息，再采用三个相同卷积神经网络分别对三种预处理后的图像提取特征，最后采用神经网络进行特征融合与识别；

卷积神经网络与特征融合设计，具体如下：

将具有特征提取功能的卷积核和神经网络结合，自动提取图像特征，VGG网络中采用2个3×3卷积代替5×5卷积，3个3×3卷积代替7×7卷积，采用卷积核大小均为3×3，核数量采用随层数递增方式，针对数据量，layer-1、layer-2、layer-3核数量分别为64、128和128，对图像低维度特征进行提取；layer-4和layer-5均为256，对高维度抽象特征进行提取，同时，对每个卷积层进行归一化，加快模型迭代的收敛速度；

基于神经网络的后期特征融合，将多种类型的特征输入到全连接层进行融合，借助神经网络进行分类识别的融合学习算法，AFS_NN的基本结构是全连接神经元，首先将提取出的多种特征的矩阵按顺序排列为一维向量，输入到n层全连接神经网络，0<n<4，设置输出损失函数与学习策略，通过分类器输出8个分类指标。

2.根据权利要求1所述一种基于神经网络特征融合的胶囊内镜图像识别模型，其特征在于：图像预处理具体如下：

G分量提取，RGB图像由红色像素分量、绿色像素分量和蓝色像素分量通过矩阵叠加形式组成，G通道均值与标准差综合表现强于R和B通道，能够表征胶囊内镜的颜色信息，因此，提取G通道，舍弃B和R通道；

直方图均衡化，原理如式(2)：

其中，0≦r_k≦1,k＝0,1,…,255，O_k为变换后的输出值，r_j为灰度级，Pr(r_j)是灰度级r_j的概率密度函数，n_j为包含灰度级r_j的数量，n为图像总像素量，该变换使用r_j的累计分布函数，生成一幅灰度密度均匀的图像。

3.根据权利要求1所述一种基于神经网络特征融合的胶囊内镜图像识别模型，其特征在于，模型训练流程如下：

5)输出：softmax分类器，输出8类对应概率。