CN115578335B

CN115578335B - 基于多尺度特征提取的声带白斑图像分类方法

Info

Publication number: CN115578335B
Application number: CN202211200746.8A
Authority: CN
Inventors: 尤珍臻; 闫妍; 石争浩; 赵明华; 闫静; 刘海琴; 黑新宏; 任晓勇
Original assignee: Xian University of Technology; Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Current assignee: Xian University of Technology; Second Affiliated Hospital School of Medicine of Xian Jiaotong University
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-05-05
Anticipated expiration: 2042-09-29
Also published as: CN115578335A

Abstract

本发明的目的是提供一种基于多尺度特征提取的声带白斑图像分类方法，首先建立数据库，将该数据库中的图像随机分成训练集和测试集；然后进行预处理，得到归一化的训练集图像和测试集图像；再构建基于多尺度特征提取的卷积神经网络：采用训练集图像作为基于多尺度特征提取的卷积神经网络的输入，训练、更新网络参数，从而得到基于多尺度特征提取的卷积神经网络的模型；最后预测喉镜白光图像类别，网络得到的输出结果即为预测的测试集中喉镜白光图像所属类别。本发明解决了现有技术中存在的声带白斑图像分类精度有限的问题。

Description

基于多尺度特征提取的声带白斑图像分类方法

技术领域

本发明属于计算机科学与临床医学技术领域，具体涉及一种基于多尺度特征提取的声带白斑图像分类方法。

背景技术

声带白斑是声带常见疾病之一，作为临床诊断，其病理范围涵盖良性炎症性疾病至喉恶性肿瘤，基于不同高危因素及病理分级，临床进行保守治疗或不同程度的手术治疗。虽然病人有无吸烟史、临床症状及声带喉镜特点可作为判断其良恶性的依据，但需要经验丰富的耳鼻咽喉头颈外科医生在经过专业培训和长期临床实践中才能胜任。且目前基于白斑疾病的自动诊断大多以良恶性分类，而针对其癌前病变的严重程度，尚未有准确的自动分类方法。近年来的目标分类方法(AlexNet、VGG、ResNet、DenseNet、Inception等)可以有效地判断喉健康与否问题，但是对于更进一步的疾病分类问题，其精度有限。

发明内容

本发明的目的是提供一种基于多尺度特征提取的声带白斑图像分类方法，解决了现有技术中存在的声带白斑图像分类精度有限的问题。

本发明所采用的技术方案是，基于多尺度特征提取的声带白斑图像分类方法，具体按照以下步骤实施：

步骤1、建立数据库，将该数据库中的图像随机分成训练集和测试集；

步骤2、对步骤1建立的训练集和测试集分别进行预处理，得到归一化的训练集图像和测试集图像；

步骤3、构建基于多尺度特征提取的卷积神经网络：采用步骤2的训练集图像作为基于多尺度特征提取的卷积神经网络的输入，训练、更新网络参数，从而得到基于多尺度特征提取的卷积神经网络的模型；

步骤4、预测喉镜白光图像类别：将步骤2的测试集图像送入步骤3训练好的基于多尺度特征提取的卷积神经网络模型的输入端，该网络得到的输出结果即为预测的测试集中喉镜白光图像所属类别。

本发明的特点还在于，

步骤1具体按照以下步骤实施：

从M张图像中随机选取80％的图像作为训练集，20％的图像作为测试集，将M张图像的类别分为健康、炎症角化、轻度不典型增生、中度不典型增生、重度不典型增生、鳞状细胞癌6类，数值分别为0、1、2、3、4、5。

步骤2具体按照以下步骤实施：

对步骤1的M张图像进行预处理，得到归一化的图像I：

步骤1的数据库图像为彩色图像，由R、G、B分量构成，I_R(x，y)为像素(x，y)在R分量中的值，I_G(x，y)为像素(x，y)在G分量中的值，I_B(x，y)为像素(x，y)在B分量中的值，

分别为图像I中像素(x，y)在R、G、B分量中的归一化值，范围为0-1。

步骤3具体按照以下步骤实施：

步骤3.1、首先构建3个尺度提取图像特征，分别得到特征图

特征图

得到特征图

步骤3.2、将步骤3.1中得到的3个尺度的特征图

级联在一起，再对其进行一次最大池化操作，得到特征图

m1为该特征图的编号，至此，感受野尺寸为21×21像素、13×13像素和5×5像素；

步骤3.3、然后继续构建3个尺度提取图像特征，分别得到特征图

特征图

特征图

步骤3.4、将步骤3.3中得到的三个尺度的特征图

级联在一起，再对其进行一次最大池化操作，得到特征图

m2为该特征图的编号，至此，感受野尺寸为46×46像素、38×38像素、30×30像素、22×22像素、14×14像素；

步骤3.5、对步骤3.2得到的特征图

进行一次最大池化操作，得到特征图

将特征图

与步骤3.4得到的特征图

级联在一起，得到特征图

m12为特征图的编号；

步骤3.6、然后继续构建3个尺度提取图像特征，得到特征图

特征图

特征图

步骤3.7、将步骤3.6中得到的三个尺度的特征图

级联在一起，再对其进行一次最大池化操作，得到特征图

m3为该特征图的编号，至此，感受野尺寸为96×96像素、88×88像素、80×80像素、72×72像素、64×64、56×56像素、48×48像素、40×40像素、32×32像素；

步骤3.8、对步骤3.5得到的特征图

进行一次最大池化操作，得到特征图

将其与步骤3.7得到的特征图

级联在一起，得到特征图

m23为该特征图的编号；

步骤3.9、使用大小为1×1像素的256个卷积核对步骤3.8得到的特征图

进行一次卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

d为该特征图的编号；

步骤3.10、使用大小为3×3像素的512个卷积核对步骤3.9得到的特征图

e1为该特征图的编号；

步骤3.11、将步骤3.9中得到的特征图

与步骤3.10中得到的特征图

级联在一起，再使用大小为3×3像素的512个卷积核进行一次卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，e2为该特征图的编号；

步骤3.12、将步骤3.9中得到的特征图

与步骤3.10中得到的特征图

以及步骤3.11中得到的特征图

级联在一起，再使用大小为3×3像素的256个卷积核进行一次卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，e3为该特征图的编号；

步骤3.13、使用大小为3×3像素的512个卷积核对步骤3.12得到的特征图

，f1为该特征图的编号；

步骤3.14、将步骤3.12中得到的特征图

与步骤3.13中得到的特征图

，f2为该特征图的编号；

步骤3.15、将步骤3.12中得到的特征图

与步骤3.13中得到的特征图

以及步骤3.14中得到的特征图

，f3为该特征图的编号；

步骤3.16、使用大小为3×3像素的512个卷积核对步骤3.15得到的特征图

，g为该特征图的编号；

步骤3.17、对步骤3.16得到的特征图

应用全连接方法将特征图通道维数调整到1024，得到特征图

，然后再重复应用全连接方法保持特征图通道维数为1024，得到特征图

，最后应用全连接方法将特征图通道维数调整到6，与喉镜白光图像类别总数一致，得到特征图

，6个通道中数值最大值对应的通道角标即为预测的该输入图像的类别；

步骤3.18、设置学习率为0.00001，选择SGD作为优化器，损失函数设为crossentropy，使用反向传播和随机梯度下降法最小化损失函数，将步骤2的训练集图像训练100次后得到训练好的网络参数，即所有卷积核的权重，所有卷积核的权重即构成基于多尺度特征提取的卷积神经网络模型。

步骤3.1具体按照以下步骤实施：

步骤3.1.1.使用大小为11×11像素的64个卷积核对步骤2的训练集图像进行两次连续的卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，a1为该特征图的编号，256为输入图像的尺寸；

步骤3.1.2.使用大小为7×7像素的64个卷积核对步骤2的训练集图像进行两次连续的卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，a2为该特征图的编号；

步骤3.1.3.使用大小为3×3像素的64个卷积核对步骤2的训练集图像进行两次连续的卷积操作，这些64个卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，a3为该特征图的编号。

步骤3.3具体按照以下步骤实施：

步骤3.3.1.使用大小为7×7像素的128个卷积核对步骤3.2得到的特征图

进行两次连续的卷积操作，这些卷积核的权重即为需要训练的基于多尺度特征提取的卷积神经网络的参数之一，得到特征图

，b1为该特征图的编号；

步骤3.3.2.使用大小为5×5像素的128个卷积核对步骤3.2得到的特征图

，b2为该特征图的编号；

步骤3.3.3.使用大小为3×3像素的128个卷积核对步骤3.2得到的特征图

，b3为该特征图的编号。

步骤3.6具体按照以下步骤实施：

步骤3.6.1.使用大小为7×7像素的256个卷积核对步骤3.5得到的特征图

，c1为该特征图的编号；

步骤3.6.2.使用大小为5×5像素的256个卷积核对步骤3.5得到的特征图

，c2为该特征图的编号；

步骤3.6.3.使用大小为3×3像素的256个卷积核对步骤3.5得到的特征图

，c3为该特征图的编号。

本发明的有益效果是，基于多尺度特征提取的声带白斑图像分类方法，将喉镜白光图像按照实际情况分为6类进行学习，构建的基于多尺度特征提取的卷积神经网络，可以自动、有效、准确地判断喉镜白光图像类别；构建的基于多尺度特征提取的卷积神经网络，便于直接应用训练好的模型处理新的图像，能有效的缩短喉镜白光图像的判断时间。

附图说明

图1是本发明基于多尺度特征提取的声带白斑图像分类方法的流程示意图；

图2是本发明构建的基于多尺度特征提取的卷积神经网络结构；

图3(a)为本发明基于多尺度特征提取的声带白斑图像分类方法使用健康图像示例；

图3(b)为本发明基于多尺度特征提取的声带白斑图像分类方法使用炎症角化图像示例；

图3(c)为本发明基于多尺度特征提取的声带白斑图像分类方法使用轻度不典型增生图像示例；

图3(d)为本发明基于多尺度特征提取的声带白斑图像分类方法使用中度不典型增生图像示例；

图3(e)为本发明基于多尺度特征提取的声带白斑图像分类方法使用重度不典型增生图像示例；

图3(f)为本发明基于多尺度特征提取的声带白斑图像分类方法使用鳞状细胞癌图像示例。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于多尺度特征提取的声带白斑图像分类方法，流程图如图1所示，具体按照以下步骤实施：

步骤1具体按照以下步骤实施：

步骤2具体按照以下步骤实施：

对步骤1的M张图像进行预处理，得到归一化的图像I：

步骤3具体按照以下步骤实施：

步骤3.1、首先构建3个尺度提取图像特征，分别得到特征图

、特征图

、得到特征图

；

步骤3.1具体按照以下步骤实施：

，a1为该特征图的编号，256为输入图像的尺寸；

，a2为该特征图的编号；

，a3为该特征图的编号。

步骤3.2、将步骤3.1中得到的3个尺度的特征图

、

、

级联在一起，再对其进行一次最大池化操作，得到特征图

，m1为该特征图的编号，至此，感受野尺寸为21×21像素、13×13像素和5×5像素；

、特征图

、特征图

；

步骤3.3具体按照以下步骤实施：

，b1为该特征图的编号；

，b2为该特征图的编号；

，b3为该特征图的编号。

步骤3.4、将步骤3.3中得到的三个尺度的特征图

、

、

级联在一起，再对其进行一次最大池化操作，得到特征图

，m2为该特征图的编号，至此，感受野尺寸为46×46像素、38×38像素、30×30像素、22×22像素、14×14像素；

步骤3.5、对步骤3.2得到的特征图

进行一次最大池化操作，得到特征图

，将特征图

与步骤3.4得到的特征图

级联在一起，得到特征图

，m12为特征图的编号；

步骤3.6、然后继续构建3个尺度提取图像特征，得到特征图

、特征图

、特征图

；

步骤3.6具体按照以下步骤实施：

，c1为该特征图的编号；

，c2为该特征图的编号；

，c3为该特征图的编号。

步骤3.7、将步骤3.6中得到的三个尺度的特征图

、

、

级联在一起，再对其进行一次最大池化操作，得到特征图

，m3为该特征图的编号，至此，感受野尺寸为96×96像素、88×88像素、80×80像素、72×72像素、64×64、56×56像素、48×48像素、40×40像素、32×32像素；

步骤3.8、对步骤3.5得到的特征图

进行一次最大池化操作，得到特征图

，将其与步骤3.7得到的特征图

级联在一起，得到特征图

，m23为该特征图的编号；

，d为该特征图的编号；

，e1为该特征图的编号；

步骤3.11、将步骤3.9中得到的特征图

与步骤3.10中得到的特征图

，e2为该特征图的编号；

步骤3.12、将步骤3.9中得到的特征图

与步骤3.10中得到的特征图

以及步骤3.11中得到的特征图

，e3为该特征图的编号；

，f1为该特征图的编号；

步骤3.14、将步骤3.12中得到的特征图

与步骤3.13中得到的特征图

，f2为该特征图的编号；

步骤3.15、将步骤3.12中得到的特征图

与步骤3.13中得到的特征图

以及步骤3.14中得到的特征图

，f3为该特征图的编号；

，g为该特征图的编号；

步骤3.17、对步骤3.16得到的特征图

应用全连接方法将特征图通道维数调整到1024，得到特征图

本发明所使用的数据库来自于合作单位西安交通大学第二附属医院耳鼻喉头颈外科提供的声带白斑图像，共246张图像。

本发明中步骤1是从246张图像中随机选取198张图像作为训练集，使用剩余48张图像作为测试集，将图像的类别分为健康、炎症角化、轻度不典型增生、中度不典型增生、重度不典型增生、鳞状细胞癌6类，数值分别为0、1、2、3、4、5。

图2是本发明构建的基于多尺度特征提取的卷积神经网络结构，首先构建3个特征提取模块从网络输入的白光图像中提取多尺度特征，每个特征提取模块分别由3个并行的不同大小卷积核构成的卷积运算提取多尺度特征，再将他们与上一级特征提取模块得到的结果级联在一起送入下一层网络，然后用1个卷积运算对经过3个特征提取模块后得到的特征图进行降维，再进行连续3次的深度特征提取，最后由3个全连接层将特征图转化为1维线阵，其中的最大值对应的角标为预测的分类结果。

本发明构建的基于多尺度特征提取的卷积神经网络使用测试集验证声带白斑疾病判断的准确性。将步骤2的测试集图像送入神经网络，利用训练好的神经网络模型得到喉镜白光图像的类别，

表1是对步骤2的测试集图像分别应用AlexNet、VGG、ResNet、DenseNet、Inception、本发明的神经网络，通过对比自动分类结果与步骤1的测试集图像真实类别，计算声带白斑图像的准确性，

表1应用不同方法得到的声带白斑判断的准确率

方法	准确率
		AlexNet	79.17％
Vgg11	75.00％
		Vgg13	75.00％
Vgg16	83.30％
		Vgg19	70.83％
ResNet50	47.92％
		ResNet101	33.33％
ResNet152	29.17％
		DenseNet121	58.33％
DenseNet169	54.17％
		DenseNet201	52.08％
InceptionV3	41.67％
		发明的神经网络	87.50％

图3(a)～图3(f)为基于不同高危因素及病理特征对图像的分类，其中图(a)为本发明基于多尺度特征提取的声带白斑图像分类方法使用健康图像示例；图3(b)为本发明基于多尺度特征提取的声带白斑图像分类方法使用炎症角化图像示例；图3(c)为本发明基于多尺度特征提取的声带白斑图像分类方法使用轻度不典型增生图像示例；图3(d)为本发明基于多尺度特征提取的声带白斑图像分类方法使用中度不典型增生图像示例；图3(e)为本发明基于多尺度特征提取的声带白斑图像分类方法使用重度不典型增生图像示例；图3(f)为本发明基于多尺度特征提取的声带白斑图像分类方法使用鳞状细胞癌图像示例，可以看出从图3(a)到图3(f)，病症越来越严重。

表1中各方法参考文献如下：

AlexNet：A.Krizhevsky,I.Sutskever,and G.E.Hinton,“Imagenetclassification with deep convolutional neural networks,”in Advances in NeuralInformation Processing Systems,p.2012.

Vgg：K.Simonyan and A.Zisserman.“Very Deep Convolutional Networks forLarge-Scale Image Recognition，”inInternational Conference on LearningRepresentations(ICLR),Sep.2015。

ResNet：K.He,X.Zhang,S.Ren,and J.Sun,“Deep Residual Learning for ImageRecognition,”in 2016IEEE Conference on Computer Vision and PatternRecognition(CVPR),Jun.2016,pp.770–778.doi:10.1109/CVPR.2016.90.

DenseNet：G.Huang,Z.Liu,L.Van Der Maaten,and K.Q.Weinberger,“DenselyConnected Convolutional Networks,”in 2017IEEE Conference on Computer Visionand Pattern Recognition(CVPR),Jul.2017,pp.2261–2269.doi:10.1109/CVPR.2017.243.

InceptionV3：C.Szegedy,V.Vanhoucke,S.Ioffe,J.Shlens,and Z.Wojna,“Rethinking the Inception Architecture for Computer Vision,”in 2016IEEEConference on Computer Vision and Pattern Recognition(CVPR),Jun.2016,pp.2818–2826.doi:10.1109/CVPR.2016.308.