CN113129293B

CN113129293B - 医学图像分类方法、装置、计算机设备和存储介质

Info

Publication number: CN113129293B
Application number: CN202110463543.7A
Authority: CN
Inventors: 王威; 胡意晖; 王新; 李骥; 周思远
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-08-23
Anticipated expiration: 2041-04-26
Also published as: CN113129293A

Abstract

本申请涉及一种医学图像分类方法、装置、计算机设备和存储介质，所述方法获取医学图像，将其作为训练样本；构建通道信息交互感知网络，该网络包括输入网络、特征提取网络和输出网络；根据训练样本对通道信息交互感知网络进行训练得到医学图像分类模型；获取待测医学图像，并将其输入到医学图像分类模型中，得到医学图像的类别。本方法中将前一个模块特征和当前提取的特征进行合并，保证信息在各个模块之间以前馈的方式流动，有效避免在模块间信息的频繁变动，提高模块的学习能力，增强了网络的特征提取能力；将患者的病理图片输送到训练好的网络模型后可直接给出诊断结果，这样可提高医生工作效率，有效帮助医生减少漏诊率、提高诊断准确率。

Description

医学图像分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别技术领域，特别是涉及一种医学图像分类方法、装置、计算机设备和存储介质。

背景技术

目前常见的临床结肠直肠癌检测方法有粪便潜血试验、光学结肠镜、乙状结肠镜等。其中通过光学结肠镜对息肉组织进行活检病理，以此来判断是否有肿瘤、肿瘤的性质及其分化程度是结肠检查的金标准。但如果将所有发现的息肉全部切除并进行病理活检将投入大量的人力成本，不利于大力推进结肠直肠癌的预防及研究。为了提高癌变前息肉的检出率，除了通过系统培训和丰富实践操作经验来提升内镜医生的检查水平之外，技术的改革创新是医疗及科研工作者奋斗的新方向。

随着AI技术在医疗领域的迅速发展，其强大的计算和深度学习能力成功引发了全球医疗专家们的密切关注。消化内镜作为AI医学图像识别应用的重要领域，也受到了越来越多的关注。结直肠息肉AI检测在AI消化内镜领域应用中发展最快，实用性也最高。

现有的医学图像识别算法不能克服随着网络层数的加深，网络在信息传递的时候会存在信息丢失，梯度消失，退化等问题，同时结肠息肉图像类别间相似度高且类别内变异性低，会导致模型偏差和过度拟合，从而导致性能和泛化性降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够快速高效实现医学图像识别的医学图像分类方法、装置、计算机设备和存储介质。

一种医学图像分类方法，所述方法包括：

获取医学图像，将所述医学图像作为训练样本。

构建通道信息交互感知网络，所述通道信息交互感知网络包括输入网络、特征提取网络和输出网络；所述特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；所述卷积网络模块用于提取训练样本的图像特征图；所述通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对所述图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；所述输出网络用于接收所述通道信息交互感知特征，得到医学图像的类别。

根据所述训练样本对所述通道信息交互感知网络进行训练得到医学图像分类模型。

获取待测医学图像。

将所述待测医学图像输入到所述医学图像分类模型中，得到医学图像的类别。

一种医学图像分类装置，所述装置包括：

数据获取模块，用于获取医学图像，将所述医学图像作为训练样本。

网络构建模块，用于构建通道信息交互感知网络，所述通道信息交互感知网络包括输入网络、特征提取网络和输出网络；所述特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；所述卷积网络模块用于提取训练样本的图像特征图；所述通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对所述图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；所述输出网络用于接收所述通道信息交互感知特征，得到医学图像的类别。

医学图像分类模型确定模块，用于根据所述训练样本对所述通道信息交互感知网络进行训练得到医学图像分类模型。

医学图像的类别确定模块，用于获取待测医学图像；将所述待测医学图像输入到所述医学图像分类模型中，得到医学图像的类别。

上述医学图像分类方法、装置、计算机设备和存储介质，所述方法通过获取医学图像，将医学图像作为训练样本；构建通道信息交互感知网络，通道信息交互感知网络包括输入网络、特征提取网络和输出网络；特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；卷积网络模块用于提取训练样本的图像特征图；通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；输出网络用于接收通道信息交互感知特征，得到医学图像的类别；根据训练样本对通道信息交互感知网络进行训练得到医学图像分类模型；获取待测医学图像，并将其输入到医学图像分类模型中，得到医学图像的类别。本方法中将前一个模块特征和当前提取的特征进行了合并，保证了信息在各个模块之间以前馈的方式流动，有效地避免了在模块间信息的频繁变动，提高了模块的学习能力，增强了网络的特征提取能力，采用本方法进行医学图像识别时是将患者的病理图片输送到训练好的网络模型中，模型将直接给出诊断结果，内镜医生只需进行简单的校对，这极大简化了医生阅片这一过程，提高了工作效率，有效帮助内镜医生减少漏诊率、提高诊断准确率。

附图说明

图1为一个实施例中医学图像分类方法的流程示意图；

图2为另一个实施例中通道信息交互感知模块结构图；

图3为另一个实施例中网络前向反馈图；

图4为另一个实施例中结肠息肉图片，其中：(a)-(o)为结肠息肉图片；

图5为另一个实施例中正常图片，其中(a)-(o)为正常图片；

图6为另一个实施例中其他病变图片，其中：(a)-(o)为其他病变图片；

图7为另一个实施例中IIP-Net54-GAP-FC的三分类混淆矩阵图；

图8为一个实施例中医学图像分类装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种医学图像分类方法，该方法包括以下步骤：

步骤100，获取医学图像，将医学图像作为训练样本。

从某医院胃肠镜室数据库中随机选取了由olympus PCF-H290DI设备拍摄的结肠镜图像，在标注前首先对其进行了裁剪处理，去掉四周的白边，图片大小统一为256*256，再将其交予某医院胃肠镜室的内镜医师阅片，对照病理讨论确定图像应属类别情况，然后根据图像应属类别情况进行标注。

步骤102，构建通道信息交互感知网络。

通道信息交互感知网络包括输入网络、特征提取网络和输出网络。

特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；卷积网络模块用于提取训练样本的图像特征图；通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值。

输出网络用于接收通道信息交互感知特征，得到医学图像的类别。

通道信息交互感知网络将前一模块特征和当前模块提取的特征进行了合并，保证了信息在各个模块之间以前馈的方式流动，有效地避免了在模块间信息的频繁变动，提高了模块的学习能力，增强了网络的特征提取能力。

步骤104，根据训练样本对通道信息交互感知网络进行训练得到医学图像分类模型。

将训练样本输入到通道信息交互感知网络输出分类预测结果，根据分类预测结果和训练样本进行反向训练，得到医学图像分类模型。

步骤106，获取待测医学图像。

步骤108，将待测医学图像输入到医学图像分类模型中，得到医学图像的类别。

上述医学图像分类方法中，所述方法通过获取医学图像，将医学图像作为训练样本；构建通道信息交互感知网络，通道信息交互感知网络包括输入网络、特征提取网络和输出网络；特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；卷积网络模块用于提取训练样本的图像特征图；通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；输出网络用于接收通道信息交互感知特征，得到医学图像的类别；根据训练样本对通道信息交互感知网络进行训练得到医学图像分类模型；获取待测医学图像，并将其输入到医学图像分类模型中，得到医学图像的类别。本方法中将前一个模块特征和当前提取的特征进行了合并，保证了信息在各个模块之间以前馈的方式流动，有效地避免了在模块间信息的频繁变动，提高了模块的学习能力，增强了网络的特征提取能力，采用本方法进行医学图像识别时是将患者的病理图片输送到训练好的网络模型中，模型将直接给出诊断结果，内镜医生只需进行简单的校对，这极大简化了医生阅片这一过程，提高了工作效率，有效帮助内镜医生减少漏诊率、提高诊断准确率。

在其中一个实施例中，步骤104还包括：将训练样本输入到输入网络，得到卷积特征；将卷积特征输入到特征提取网络，得到通道信息交互感知特征和注意力通道权重值；将通道信息交互感知特征输入到输出网络，输出分类预测结果，根据分类预测结果和训练样本进行反向训练，得到医学图像分类模型。

在其中一个实施例中，特征提取网络由第一卷积网络、第一通道信息交互感知模块、第二卷积网络、第二通道信息交互感知模块、第三卷积网络以及第三通道信息交互感知模块、第四卷积网络依次连接组成；第一通道信息交互感知模块、第二通道信息交互感知模块以及第三通道信息交互感知模块是具有相同的网络结构的通道信息交互感知模块；第一卷积网络包括a个卷积网络模块，第二卷积网络包括b个卷积网络模块，第三卷积网络包括c个卷积网络模块，第四卷积网络包括d个卷积网络模块，其中a、b、c、d为大于0的整数。步骤104还包括：将卷积特征输入到第一卷积网络中，输出第一卷积特征；将第一卷积特征输入到通道信息交互感知模块中，得到第一通道信息交互感知特征和第一注意力通道权重值；将第一通道信息交互感知特征输入到第二卷积网络中，输出第二卷积特征；将第二卷积特征和第一注意力通道权重值输入到第二通道信息交互感知模块中，得到第二通道信息交互感知特征和第二注意力通道权重值；将第二通道信息交互感知特征输入到第三卷积网络中，输出第三卷积特征；将第三卷积特征和第二注意力通道权重值输入到第三通道信息交互感知模块中，得到第三通道信息交互感知特征和注意力通道权重值；将第三通道信息交互感知特征输入到第四卷积网络中，得到通道信息交互感知特征。

在其中一个实施例中，a＝2、b＝3、c＝5、d＝3。

在其中一个实施例中，a＝2、b＝3、c＝22、d＝3。

在其中一个实施例中，a＝2、b＝7、c＝35、d＝3。

在其中一个实施例中，通道信息交互感知模块包括：卷积网络模块、第一支路以及第二支路；第一支路包括全局平均池化层，第二支路包括全局平均池化层、全连接层以及卷积层标准化模块；步骤104还包括：将第二卷积特征和第一注意力通道权重值输入到第二通道信息交互感知模块中，得到第二信息特征输出；判断第二信息特征输出是否包括第一注意力通道权重值信息，得到判断结果；当判断结果为包括时：将第二卷积特征输入到卷积网络模块进行特征提取，得到第二注意力特征；并将第二注意力特征输入到第二支路的全局平均池化层，得到第二池化注意力特征；将第一注意力通道权重值输入到第二支路的全连接层，并将全连接层输出的特征经过层标准化和第二激活函数，得到第二层标准化注意力通道权重值；并将第二池化注意力特征与第二层标准化注意力通道权重值进行融合，并将融合得到的特征输入到第二支路的卷积批处理标准化模块，得到第二卷积注意力特征；将第二卷积注意力特征通过第一激活函数进行激活，得到第二注意力映射；当判断结果为不包括时：将第二卷积特征输入到卷积网络模块进行特征提取，得到第二注意力特征；将第二注意力特征输入到第一支路的全局平均池化层，得到第二池化注意力特征；并将第二池化注意力特征通过第一激活函数进行激活，得到第二注意力映射；将第二卷积特征与第二注意力映射融合在一起，得到的第二通道信息交互感知特征；将第二池化注意力特征和第二注意力映射融合在一起，得到第二注意力通道权重值。

第二支路的卷积层标准化模块为卷积核为1×1的卷积层、层标准化和ReLU”激活函数组成的复合结构。

在另一个实施例中，如图2所示，给出一种通道信息交互感知模块(Channelinformation interaction perception module，CIIP)的结构图，其中的“Conv1”和“Conv3”分别代表1×1和3×3的卷积层，“GAP”表示全局平均池化层，“FC”表示线性变换，“LayerNorm”表示层规范化处理，

表示表示特征矩阵按位拼接操作，“Att”表示注意力通道权重值,“ReLU”和“Sigmoid”均表示激活函数，

表示特征矩阵按位相乘操作；“Conv”表示一个包含了“卷积”、“批标准化”和“激活函数”的复合结构。

CIIP模块中包含多种尺寸的卷积核。模块的卷积网络模块由可预防信息丢失，增加网络深度，在一定程度上解决网络退化的问题，第一个Conv1用来降低维度，第二个Conv1升高维度，主要目的是减少参数量，提高网络的非线性学习能力。首先经过卷积网络模块生成特征图X，其中X∈R^C×W×H，然后判断上一模块是否反馈了该模块中注意力通道的权重值Att。

对于第一个CIIP模块，因为没有前面模块收集的注意力通道权重值信息，直接通过GAP全局平均池化从X中提取特征，随着网络的加深，再经过一个sigmoid函数，对提取到的特征进行处理，将其转化到非线性的空间。最终得到“Output”由两部分组成：

(1)将卷积网络模块的输出和注意力映射融合在一起，得到的输出特征，用公式可以表示为：

(2)将经过全局平均池化GAP提取到的特征和注意力映射融合在一起，得到的注意力通道权重值，用公式可以表示为：

对于第二、三个CIIP模块，由上一模块前向反馈得到了注意力通道权重值“Att”，首先使用全连接层，然后通过LayerNorm和ReLU函数后来匹配通道大小。对于由卷积网络模块生成的特征图X，首先经过一个全局平均池化层GAP，然后将整合了全局空间信息的特征和经过通道自适应匹配的注意力通道权重值进行拼接，经过Conv，再经过sigmoid函数，同样的，最终得到“Output”由两部分组成。

(1)将卷积网络模块的输出和注意力映射融合在一起，得到的输出特征，用公式可表示为：

其中“l”表示“FC”线性变换；“LN“表示“LayerNorm”层标准化处理；

表示“ReLU”激活函数；“S”表示“Sigmoid”激活函数。

通过这种方法，将之前的模块特征和当前提取的特征进行了合并，保证了信息在各个模块之间以前馈的方式流动，有效地避免了在模块间信息的频繁变动，提高模块的学习能力，增强了网络的特征提取能力。网络前向反馈如图3所示，图中Att代表注意力通道的权重值。

在其中一个实施例中，第一激活函数为Sigmoid函数，第二激活函数为ReLU激活函数。

在其中一个实施例中，输出网络包括：全局平均池化层以及全连接层。步骤104还包括：将卷积特征图输入到输出网络的全局平均池化层，得到池化特征图；将池化特征图输入到输出网络的全连接层输出的特征值使用Softmax进行计算，输出分类预测结果；根据分类预测结果和训练样本进行反向训练，得到医学图像分类模型。

在其中一个实施例中，卷积网络模块由卷积核为1×1的卷积批处理标准化模块、卷积核为3×3的卷积批处理标准化模块以及卷积核为1×1的卷积批处理标准化模块依次连接组成；卷积批处理标准化模块是由卷积层、批处理标准化层和ReLU激活函数组成的复合结构。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，基于通道信息交互感知模块，提出了一个具有三种深度的通道信息交互感知网络(Channel information interaction perception Network，IIP-Net)，分别是IIP-Net54，IIP-Net105，IIP-Net156。其中“Conv”表示为一个包含了“卷积”、“批标准化”和“激活函数”的复合结构。网络结构如表1所示。

表1：IIP-Net网络结构

(1)分类器类型

对于图像分类问题，AlexNet,VGGNets等传统网络最后一个卷积层往往通过量化然后连接三层全连接层作为分类器。然而这不仅包含了大量参数，对计算内存要求极高，而且使得网络容易出现过拟合，从而导致泛化能力较低。以单层全连接层FC做为分类器。

此外还引入了Lin等人提出的全局平均池化(Global Average Pooling，GAP)方法。与传统全连接层不同，全局平均池化可以接受任意尺寸的图像，对于输出的每一个通道的特征图的所有像素计算一个平均值，经过全局平均池化之后就得到一个维度的特征向量，然后直接输入到softmax层。这样一方面降低了参数量，可防止在该层过拟合，另一方面整合了全局空间信息，鲁棒性更好。因此我们先经过全局平均池化将最后一层卷积层输出的特征图尺寸降为1×1，再经过全连接层进行分类，大大减少了网络的参数量。用“GAP-FC”来表示这种结构。

另外，根据GAP的结构特性，在GAP之前通过一个1×1的点卷积层将输出特征进行降维处理，再连接一个Softmax函数进行分类。这样分类器全程没有全连接层的参与，使参数量进一步减少。用“C-GAP”来表示这种结构。

(2)不同分类器和网络深度对网络复杂度的影响

当使用不同的分类器和不同深度的网络对结肠息肉图像进行识别时，网络的参数量和计算量是不同的。以包含三类图像的分类任务为例，设网络最后一层输出的特征图大小为H×W×D，当采用单层全连接层“FC”时，分类器中参数量有H×W×D×3+3个。采用“GAP-FC”结构作为分类器时，网络的参数量为D+D×3+3。采用“C-GAP”结构作为分类器时，网络的参数量为H×W×3+D×3+3。

采用不同分类器的不同深度的IIP-Net时参数量如表2所示，采用不同分类器的不同深度的IIP-Net时浮点计算量如表3所示。

表2：不同分类器的不同深度的IIP-Net时参数量对比表(单位：百万)

由表2可知，分类器对网络参数量的影响十分大。当IIP-Net深度相同时，使用“FC”做为分类器的网络参数量比使用其他分类器的网络参数量大约多了一千万个，因此在实验环境一致及内存有限时，在保证准确率的情况下，应该尽量避免使用“FC”作为分类器。除此之外，IIP-Net156-FC的参数量是IIP-Net105-FC的1.04倍，IIP-Net105-FC的参数量是IIP-Net54-FC的1.06倍。由此可以看出，当分类器相同时，网络深度对网络参数量的影响也十分巨大。

表3：不同分类器的不同深度的IIP-Net时浮点计算量对比表(单位：百万)

分类器类型	IIP-Net54	IIP-Net105	IIP-Net156
				GAP-FC	4138.51	7871.2	11608.72
C-GAP	4339.84	8072.53	11810.04
				FC	4335.02	8067.71	11805.22

由表3可知，计算量大小主要由网络深度决定。IIP-Net156-FC的计算量是IIP-Net105-FC的1.46倍，IIP-Net105-FC的计算量是IIP-Net54-FC的1.86倍，IIP-Net156-FC的计算量是IIP-Net54-FC的2.72倍，计算量急剧增加。因此在相同实验环境下，当模型准确率差距不大时，IIP-Net54模型的性价比最高。

综上所述，通过对比结合了三种不同分类器的网络模型的参数量和计算量，可以发现在参数量方面，使用“GAP-FC”和“C-GAP”的网络参数量比使用“FC”的网络参数量大约少了10百万，节约了极大的内存空间。在计算量方面，使用“GAP-FC”作为分类器的网络对比使用“GAP-FC”和“FC”作为分类器的网络，减少了大约200百万计算量。因此，在准确率得到保证的前提下，优先考虑使用GAP-FC分类器。

在一个验证性实施例中，由于与结肠息肉有关的公共数据集很少，而且现有的结肠息肉数据集中图片数量也很少。因此实验中所需的数据是从湖南省儿童医院胃肠镜室数据库中随机选取了由olympus PCF-H290DI设备拍摄的结肠镜图像，在标注前首先对其进行了裁剪处理，去掉四周的白边，图片大小统一为256*256，再将其交予湖南省儿童医院胃肠镜室的4名内镜医师阅片，对照病理讨论确定图像应属类别情况。然后交予我们进行标注，最终得到包含22809张图片的结肠息肉数据集,其中结肠息肉图像4002张，正常图像14801张及结肠炎等其他病变图像4006张。部分图片如图4、图5以及图6所示，其中图4中(a)-(o)为结肠息肉图片，图5中(a)-(o)为正常图片，图6(a)-(o)为其他病变图片。

从4002张结肠息肉图片中随机选取3002张，从14801张正常图片中随机选取11001张，从4006张其他病变图像中随机选取3006组成训练集，用于对深度学习模型参数进行训练。然后将剩余的1000张息肉图像、3800张正常图像和1000张其他病变图像组成测试集，用来验证模型的性能。由于非息肉数据集中除了有结肠无病变的图片外，还存在除结肠息肉外的其他结肠病变图片，如炎症性肠病、溃疡性结肠炎等等，这些病症可能引发出血、滤泡等，在图片上表现可能类似于息肉，且对于大多数息肉图片，息肉都是不完全出现在视野中的，有些息肉甚至只有边缘出现在图片角落中，除此之外还有光线的影响、拍摄角度等等，这些都增加了识别的难度。因此我们在训练和测试时均进行了数据增强，包括图像随机水平翻转、随机竖直翻转、随机在+90°和-90°之间旋转一定角度、亮度对比度变化，这大大增加的数据量，所以实际上参与实验的总的图片样本为原数据的5倍，即114045张，数据增强不仅增加了样本数量同时也能增强模型的泛化能力。

(1)实验平台

本实施例在相同的平台和环境下进行，以确保不同网络模型之间进行比较的可信度。表4显示了实验平台的软件和硬件配置信息。训练集和测试集的“batchsize”大小均设置为32，学习率是0.001，权值衰减是5e-4，冲量是0.9，实验一共进行100个周期。

表4：实验平台参数

属性值	配置信息
		操作系统	Windows 10
处理器	Intel i7 3.30GHz
		图形处理器	GeForce GTX 1080Ti(11G)
网络加速库	CUDNN 10.0
		计算框架	CUDA 10.0
框架	Pytorch
		编译环境	PyCharm
编程语言	Python

(2)评价标准

基于大多数医学图像分类模型所采用的评价标准，本实施例采用准确率，精确率，灵敏度，F1-Measure，和特异性作为性能指标。

本实施例中的正样本为息肉样本；反之为负样本.即包括正常样本和其他病变样本在内的非息肉样本。TP表示属于息肉类别且被正确分类的像素数，FP是属于非息肉类别但被错误分为息肉类的像素数，FN是属于息肉类别但被错误分类为非息肉类的像素数，TN/表示属于非息肉类别且被正确分类的像素数，其混淆矩阵(confusion matrix)如下表5所示，其中矩阵的行表示真实值，矩阵的列表示预测值。

表5：混淆矩阵

准确率(Accuracy)即预测正确的结果占总样本的百分比，表达式为：

精确率(Precision)是针对预测结果而言的，其含义是在被所有预测为正的样本中实际为正样本的概率，表达式为：

灵敏度(Sensitivity)，又叫召回率(Recall)，是在实际为正的样本中被预测为正样本的概率，对于息肉检测任务，查全(即不漏检)是非常重要的。表达式为：

F1-Measure是精度和召回率的加权平均值。表达式为：

特异性(Specificity)是分类器正确识别无疾病者的能力。表达式为：

(3)实验结果分析

为了研究IIP-Net的深度和深度对结肠息肉图像分类性能的影响，实施例使用9种IIP-Net在具有三种类别的结肠息肉数据集上进行了实验，实验结果如表6所示。

表6不同深度IIP-Net的性能(％).

根据表6可知，使用“FC”作为分类器的IIP-Net的网络模型的识别分类性能普遍低于使用其他两种分类器的网络模型，而使用“GAP-FC”作为分类器的网络模型性能明显较优。其中IIP-Net54-GAP-FC在数据集上的整体表现最佳，其准确率、精确率、灵敏度、特异性、F1量度均是表中最高值，分别为99.59％，99.40％，99.40％，99.70％，99.40％，但是IIP-Net54-GAP-FC针对结肠息肉的检测准确率略低。IIP-Net105-GAP-FC和IIP-Net158-GAP-FC的整体准确率和结肠息肉分类准确率都相同，分别为99.55％和99.50％。和IIP-Net54-GAP-FC对比，整体准确率有所降低，但差距甚小，这表明随着网络的不断加深，网络性能可能不会有明显的变化。但是IIP-Net156的计算量是IIP-Net105的1.06倍，是IIP-Net54的1.15倍。IIP-Net156的参数量是IIP-Net105的1.47倍，是IIP-Net54的2.81倍。因此，综合上述不同深度IIP-Net的性能的性能分析，IIP-Net54-GAP-FC可作为优选模型。

如图7所示，给出了IIP-Net54-GAP-FC的三分类混淆矩阵，在表7中对IIP-Net54-GAP-FC的三分类识别性能给出了更加详细的结果。

表7：IIP-Net54-GAP-FC的准确率、召回率和特异性(％)

根据上表可知，本实施例中提出的模型IIP-Net54-GAP-FC对于结肠息肉阳性患者、正常及其他结肠疾病患者的结肠息肉图像都具有良好的分类效果，尤其是结肠息肉图像的准确率、灵敏度和特异性都高达99％。

接下来，我们将IIP-Net54-GAP-FC的实验结果进一步与传统卷积网络ResNet50，Vgg16，DenseNet121，GoogleNet进行比较，实验结果如表8所示。

表8：其它神经网络的性能(％).

ResNet50在卷积层的输入和输出之间构建跳跃连接，一定程度上解决了网络模型随着网络层数增加而导致的网络退化、梯度爆炸和消失等问题，在我们的对比实验中准确率最低，仅仅只有96.12％。VGG16的准确率比IIP-Net54-GAP-FC低了2.5％左右，因为其网络深度较浅，图像特征提取不充分，导致图像份分类准确率较低。而且由于VGG16使用三层全连接层作为分类器，参数量和计算量都十分庞大，对设备内存要求极高，极大增加了计算时间和成本。DenseNet121通过在网络中引入密集连接实现了特征的重复利用，在ResNet的基础上进一步加深了网络的深度，与VGG网络一样，DenseNet121也以三层全连接层作为分类器，使得计算量和参数量急剧增加。GoogleNet在结肠息肉图像数据集上取得了不错的准确率，但是其各项性能指标全部低于IIP-Net50-GAP-FC。本文提出的CIIP模块可以将之前的模块特征和当前提取的特征进行了合并，进一步提高了模块的学习能力，增强了网络的特征提取能力。我们进一步将IIP-Net54-GAP-FC与Wang W的方法进行了对比，结果如表9所示。

表9：与其他现有的深度学习方法的准确性比较

根据表9可知，虽然VGG19-GAP的整体准确率很高，达到98.93％，但其针对结肠息肉类别准确率只有87.90％，临床实用性不强。其他方法的准确率和对结肠息肉类别的准确率均低于IIP-Net54-GAP-FC方法。综上所述，本文提出的IIP-Net的结肠息肉图像分类的整体性和结肠息肉类别准确率都达到了极高的水准，这说明我们的网络性能更好，在结肠息肉图像分类任务中具有卓越表现。

在一个实施例中，如图8所示，提供了一种医学图像分类装置，包括：数据获取模块、网络构建模块、医学图像分类模型确定模块以及医学图像的类别确定模块，其中：

数据获取模块，用于获取医学图像，将医学图像作为训练样本。

网络构建模块，用于构建通道信息交互感知网络，通道信息交互感知网络包括输入网络、特征提取网络和输出网络；特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；卷积网络模块用于提取训练样本的图像特征图；通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；输出网络用于接收通道信息交互感知特征，得到医学图像的类别。

医学图像分类模型确定模块，用于根据训练样本对通道信息交互感知网络进行训练得到医学图像分类模型。

医学图像的类别确定模块，用于获取待测医学图像；将待测医学图像输入到医学图像分类模型中，得到医学图像的类别。

在其中一个实施例中，医学图像分类模型确定模块，还用于将训练样本输入到输入网络，得到卷积特征；将卷积特征输入到特征提取网络，得到通道信息交互感知特征和注意力通道权重值；将通道信息交互感知特征输入到输出网络，输出分类预测结果，根据分类预测结果和训练样本进行反向训练，得到医学图像分类模型。

在其中一个实施例中，特征提取网络由第一卷积网络、第一通道信息交互感知模块、第二卷积网络、第二通道信息交互感知模块、第三卷积网络以及第三通道信息交互感知模块、第四卷积网络依次连接组成；第一通道信息交互感知模块、第二通道信息交互感知模块以及第三通道信息交互感知模块是具有相同的网络结构的通道信息交互感知模块；第一卷积网络包括a个卷积网络模块，第二卷积网络包括b个卷积网络模块，第三卷积网络包括c个卷积网络模块，第四卷积网络包括d个卷积网络模块，其中a、b、c、d为大于0的整数。医学图像分类模型确定模块，还用于将卷积特征输入到第一卷积网络中，输出第一卷积特征；将第一卷积特征输入到通道信息交互感知模块中，得到第一通道信息交互感知特征和第一注意力通道权重值；将第一通道信息交互感知特征输入到第二卷积网络中，输出第二卷积特征；将第二卷积特征和第一注意力通道权重值输入到第二通道信息交互感知模块中，得到第二通道信息交互感知特征和第二注意力通道权重值；将第二通道信息交互感知特征输入到第三卷积网络中，输出第三卷积特征；将第三卷积特征和第二注意力通道权重值输入到第三通道信息交互感知模块中，得到第三通道信息交互感知特征和注意力通道权重值；将第三通道信息交互感知特征输入到第四卷积网络中，得到通道信息交互感知特征。

在其中一个实施例中，通道信息交互感知模块包括：卷积网络模块、第一支路以及第二支路；第一支路包括全局平均池化层，第二支路包括全局平均池化层、全连接层以及卷积层标准化模块。医学图像分类模型确定模块，还用于将第二卷积特征和第一注意力通道权重值输入到第二通道信息交互感知模块中，得到第二信息特征输出；判断第二信息特征输出是否包括第一注意力通道权重值信息，得到判断结果；当判断结果为包括时：将第二卷积特征输入到卷积网络模块进行特征提取，得到第二注意力特征；并将第二注意力特征输入到第二支路的全局平均池化层，得到第二池化注意力特征；将第一注意力通道权重值输入到第二支路的全连接层，并将全连接层输出的特征经过层标准化和第二激活函数，得到第二层标准化注意力通道权重值；并将第二池化注意力特征与第二层标准化注意力通道权重值进行融合，并将融合得到的特征输入到第二支路的卷积层标准化模块，得到第二卷积注意力特征；将第二卷积注意力特征通过第一激活函数进行激活，得到第二注意力映射；当判断结果为不包括时：将第二卷积特征输入到卷积网络模块进行特征提取，得到第二注意力特征；将第二注意力特征输入到第一支路的全局平均池化层，得到第二池化注意力特征；并将第二池化注意力特征通过第一激活函数进行激活，得到第二注意力映射；将第二卷积特征与第二注意力映射融合在一起，得到的第二通道信息交互感知特征；将第二池化注意力特征和第二注意力映射融合在一起，得到第二注意力通道权重值。

在其中一个实施例中，装置中第一激活函数为Sigmoid函数，第二激活函数为ReLU激活函数。

在其中一个实施例中，输出网络包括：全局平均池化层以及全连接层。医学图像分类模型确定模块，还用于将卷积特征图输入到输出网络的全局平均池化层，得到池化特征图；将池化特征图输入到输出网络的全连接层输出的特征值使用Softmax进行计算，输出分类预测结果；根据分类预测结果和训练样本进行反向训练，得到医学图像分类模型。

在其中一个实施例中，装置中卷积网络模块由卷积核为1×1的卷积批处理标准化模块、卷积核为3×3的卷积批处理标准化模块以及卷积核为1×1的卷积批处理标准化模块依次连接组成；卷积批处理标准化模块是由卷积层、批处理标准化层和ReLU激活函数组成的复合结构。

关于医学图像分类装置的具体限定可以参见上文中对于医学图像分类方法的限定，在此不再赘述。上述医学图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医学图像分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中所述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中所述方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医学图像分类方法，其特征在于，所述方法包括：

获取医学图像，将所述医学图像作为训练样本；

构建通道信息交互感知网络，所述通道信息交互感知网络包括输入网络、特征提取网络和输出网络；所述特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；所述卷积网络模块用于提取训练样本的图像特征图；所述通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果，根据判断结果确定对所述图像特征图进行特征提取的支路，并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；所述输出网络用于接收所述通道信息交互感知特征，得到医学图像的类别；

根据所述训练样本对所述通道信息交互感知网络进行训练得到医学图像分类模型；

获取待测医学图像；

将所述待测医学图像输入到所述医学图像分类模型中，得到医学图像的类别；

其中，所述特征提取网络由第一卷积网络、第一通道信息交互感知模块、第二卷积网络、第二通道信息交互感知模块、第三卷积网络以及第三通道信息交互感知模块、第四卷积网络依次连接组成。

2.根据权利要求1所述的方法，其特征在于，根据所述训练样本对所述通道信息交互感知网络进行训练得到医学图像分类模型，包括：

将所述训练样本输入到所述输入网络，得到卷积特征；

将所述卷积特征输入到所述特征提取网络，得到通道信息交互感知特征和注意力通道权重值；

将所述通道信息交互感知特征输入到输出网络，输出分类预测结果，根据所述分类预测结果和所述训练样本进行反向训练，得到医学图像分类模型。

3.根据权利要求2所述的方法，其特征在于，所述第一通道信息交互感知模块、所述第二通道信息交互感知模块以及所述第三通道信息交互感知模块是具有相同的网络结构的通道信息交互感知模块；

所述第一卷积网络包括a个卷积网络模块，所述第二卷积网络包括b个卷积网络模块，所述第三卷积网络包括c个卷积网络模块，所述第四卷积网络包括d个卷积网络模块，其中a、b、c、d为大于0的整数；

将所述卷积特征输入到所述特征提取网络，得到通道信息交互感知特征和注意力通道权重值，包括：

将所述卷积特征输入到第一卷积网络中，输出第一卷积特征；

将所述第一卷积特征输入到所述通道信息交互感知模块中，得到第一通道信息交互感知特征和第一注意力通道权重值；

将所述第一通道信息交互感知特征输入到第二卷积网络中，输出第二卷积特征；

将所述第二卷积特征和所述第一注意力通道权重值输入到所述第二通道信息交互感知模块中，得到第二通道信息交互感知特征和第二注意力通道权重值；

将所述第二通道信息交互感知特征输入到所述第三卷积网络中，输出第三卷积特征；

将所述第三卷积特征和所述第二注意力通道权重值输入到所述第三通道信息交互感知模块中，得到第三通道信息交互感知特征和注意力通道权重值；

将所述第三通道信息交互感知特征输入到所述第四卷积网络中，得到通道信息交互感知特征。

4.根据权利要求3所述的方法，其特征在于，所述通道信息交互感知模块包括：卷积网络模块、第一支路以及第二支路；所述第一支路包括全局平均池化层，所述第二支路包括全局平均池化层、全连接层以及卷积层标准化模块；

将所述第二卷积特征和所述第一注意力通道权重值输入到所述通道信息交互感知模块中，得到第二通道信息交互感知特征和第二注意力通道权重值，包括：

将所述第二卷积特征和所述第一注意力通道权重值输入到所述第二通道信息交互感知模块中，得到第二信息特征输出；

判断第二信息特征输出是否包括所述第一注意力通道权重值信息，得到判断结果；

当判断结果为包括时：将所述第二卷积特征输入到所述卷积网络模块进行特征提取，得到第二注意力特征；并将所述第二注意力特征输入到第二支路的全局平均池化层，得到第二池化注意力特征；将所述第一注意力通道权重值输入到所述第二支路的全连接层，并将全连接层输出的特征经过层标准化和第二激活函数，得到第二层标准化注意力通道权重值；并将所述第二池化注意力特征与所述第二层标准化注意力通道权重值进行融合，并将融合得到的特征输入到所述第二支路的卷积层标准化模块，得到第二卷积注意力特征；将所述第二卷积注意力特征通过第一激活函数进行激活，得到第二注意力映射；

当判断结果为不包括时：将第二卷积特征输入到所述卷积网络模块进行特征提取，得到第二注意力特征；将所述第二注意力特征输入到第一支路的全局平均池化层，得到第二池化注意力特征；并将所述第二池化注意力特征通过第一激活函数进行激活，得到第二注意力映射；

将第二卷积特征与所述第二注意力映射融合在一起，得到的第二通道信息交互感知特征；

将所述第二池化注意力特征和所述第二注意力映射融合在一起，得到第二注意力通道权重值。

5.根据权利要求4所述的方法，其特征在于，所述第一激活函数为Sigmoid函数，所述第二激活函数为ReLU激活函数。

6.根据权利要求2所述的方法，其特征在于，所述输出网络包括：全局平均池化层以及全连接层；

将所述通道信息交互感知特征输入到输出网络，输出分类预测结果，根据所述分类预测结果和所述训练样本进行反向训练，得到医学图像分类模型，包括：

将所述卷积特征图输入到所述输出网络的全局平均池化层，得到池化特征图；

将所述池化特征图输入到所述输出网络的全连接层输出的特征值使用Softmax进行计算，输出分类预测结果；

根据所述分类预测结果和所述训练样本进行反向训练，得到医学图像分类模型。

7.根据权利要求1-6任意之一所述的方法，其特征在于，所述卷积网络模块由卷积核为1×1的卷积批处理标准化模块、卷积核为3×3的卷积批处理标准化模块以及卷积核为1×1的卷积批处理标准化模块依次连接组成；所述卷积批处理标准化模块是由卷积层、批处理标准化层和ReLU激活函数组成的复合结构。

8.一种医学图像分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取医学图像，将所述医学图像作为训练样本；

网络构建模块，用于构建通道信息交互感知网络，所述通道信息交互感知网络包括输入网络、特征提取网络和输出网络；所述特征提取网络包括多个卷积网络模块和多个通道信息交互感知模块；所述卷积网络模块用于提取训练样本的图像特征图；所述通道信息交互感知模块用于根据接收到的特征信息判断上一通道信息交互感知模块是否生成注意力通道权重值信息，得到判断结果；根据判断结果确定对所述图像特征图进行特征提取的支路；并根据特征提取支路、上一个模块反馈的注意力通道权重值信息以及当前模块提取的特征信息，确定通道信息交互感知特征和注意力通道权重值；所述输出网络用于接收所述通道信息交互感知特征，得到医学图像的类别；其中，所述特征提取网络由第一卷积网络、第一通道信息交互感知模块、第二卷积网络、第二通道信息交互感知模块、第三卷积网络以及第三通道信息交互感知模块、第四卷积网络依次连接组成；

医学图像分类模型确定模块，用于根据所述训练样本对所述通道信息交互感知网络进行训练得到医学图像分类模型；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。