CN113538334A

CN113538334A - 一种胶囊内窥镜图像病变识别装置及训练方法

Info

Publication number: CN113538334A
Application number: CN202110640667.8A
Authority: CN
Inventors: 孟庆虎; 邢小涵; 许杨昕; 王建坤
Original assignee: Shenzhen Research Institute of CUHK
Current assignee: Shenzhen Research Institute of CUHK
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-10-22

Abstract

一种胶囊内窥镜图像病变识别装置及训练方法，将胶囊内窥镜图像输入到多个复杂的教师网络，每个网络输出诊断结果、特征图和显著性图。集成教师网络的诊断结果，特征图和显著性图作为监督信号为学生网络提供额外的监督，从而将教师网络的知识传递到学生网络中。由此，本发明能够获得具有高诊断精度的轻量级模型。本发明中利用知识蒸馏算法将复杂网络的表达能力压缩到轻量级网络中，从而实现高精度且高效率的诊断。本发明中的每个教师网络可学习一类疾病的诊断，这样能够在该类疾病上取得更加精确的诊断效果，而学生网络通过学习多个精通不同疾病诊断的教师网络，可以实现对多类型疾病的高精度实时诊断。

Description

一种胶囊内窥镜图像病变识别装置及训练方法

技术领域

本发明涉及图像识别，特别是涉及一种胶囊内窥镜图像病变识别装置及训练方法。

背景技术

目前，深度学习模型在多种医疗疾病诊断任务中取得了很高的精度。但是高精度模型具有较高的复杂度，需要大量算力、内存和推断时间。然而在临床疾病诊断中，医院的算力资源有限，无法满足实时诊断的需要。为了提高推断效率，实现实时诊断，需要在临床实践中部署轻量级模型。但是现有的轻量级模型一般特征表达能力差，诊断精度低。为了真正地在临床诊断中实现实时诊断，需要开发出具有高诊断精度的轻量级模型。知识蒸馏框架又称为教师-学生网络，复杂的教师网络具有更强的拟合能力。现有方法将教师网络的知识通过预测结果、特征图、注意力图、样本间关系的形式传递给轻量级的学生网络，从而使得轻量级模型达到接近于复杂模型的诊断精度。如何高效的将教师网络的知识蒸馏到学生网络，以及将哪些知识蒸馏到学生网络，是知识蒸馏的主要研究课题。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种胶囊内窥镜图像病变识别装置及训练方法，以实现高精度且高效率的疾病诊断。

为实现上述目的，本发明采用以下技术方案：

一种胶囊内窥镜图像病变识别装置，包括计算机程序存储介质和处理装置，所述处理装置执行计算机程序时实现训练过程和测试过程；

所述训练过程包括如下步骤：

S1、将胶囊内窥镜图片输入到模型的教师网络1至N；

S2、对于每张胶囊内窥镜图片，由每个教师网络生成各自的特征图h*w*c,其中h,w,c分别为所述特征图的高度、宽度和通道数，通过对所述特征图的不同通道求平均，得到所述图片的显著性图；由模型进行分类任务或分割任务；

S3、对模型的预测结果和真实标签计算交叉熵损失；

S4、最小化交叉熵损失，不断更新模型参数，直到交叉熵损失不再下降，模型收敛；

S5、将所有教师网络生成的特征图、显著性图和预测结果合并，作为集成教师网络的指导信息；

S6、将胶囊内窥镜图片输入学生网络，通过知识蒸馏算法将集成教师网络的特征图、显著性图和预测结果传递给所述学生网络；

S7、根据交叉熵函数和各级知识蒸馏损失函数，得到所述学生网络的损失函数，通过优化所述损失函数训练学生网络，直至收敛；

所述测试过程包括如下步骤：

T1、将胶囊内窥镜图片输入已训练好的学生网络，得到图片的各类别预测概率，概率最大的类别为该测试图片的所属预测类别；

T2、对每个测试图像生成显著性图，可以根据显著值粗略地标注出图像的病变区域，为模型的预测提供解释性。

进一步地：

步骤S1中，所述教师网络选自DenseNet121、ResNet50、NASNet中的任一种。

步骤S2中，根据所述显著性图中的不同区域的显著性，确定疾病相关的区域与背景区域；对于分类任务，模型的最后一层特征图经过全局平均池化和全连接层映射后得到图像的类别预测概率(p₁,p₂,…,p_C),其中p_i为图片被判断为类别i的概率，C为类别总数，所有类别的预测概率相加为1，预测概率最大的类别为图片最终被判断的类别，作为预测结果；对于分割任务，模型对每个像素点生成预测结果。

步骤S4中，基于梯度下降算法最小化所述交叉熵损失。

步骤S7中、通过交叉熵函数和各级知识蒸馏损失函数的加和得到所述学生网络的损失函数。

所述测试过程还包括如下步骤：

T2、对每个测试图像生成显著性图；优选地，还根据显著值标注出图像的病变区域，为模型的预测提供解释性。

一种基于多教师蒸馏的胶囊内窥镜图像病变识别网络的训练方法，包括如下步骤：

S1、将胶囊内窥镜图片输入到模型的教师网络1至N；

S3、对模型的预测结果和真实标签计算交叉熵损失；

S7、根据交叉熵函数和各级知识蒸馏损失函数，得到所述学生网络的损失函数，通过优化所述损失函数训练学生网络，直至收敛。

一种胶囊内窥镜图像病变识别装置，包括计算机程序存储介质和处理装置，所述处理装置执行计算机程序时实现测试过程，所述测试过程包括如下步骤：

T1、将胶囊内窥镜图片输入使用所述的方法训练好的学生网络，得到图片的各类别预测概率，概率最大的类别为该测试图片的所属预测类别。

所述测试过程还包括如下步骤：

T2、对每个测试图像生成显著性图；优选地，还根据显著值粗略地标注出图像的病变区域，为模型的预测提供解释性。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的装置执行的步骤，或实现所述的方法。

本发明具有如下有益效果：

本发明提供一种基于多教师蒸馏的轻量级胶囊内窥镜图像病变识别装置及训练方法，将胶囊内窥镜图像输入到多个复杂的教师网络，每个网络输出诊断结果、特征图和显著性图。多个教师网络经过集成得到更加强大的病变识别网络。之后，集成教师网络的诊断结果，特征图和显著性图作为监督信号为学生网络提供额外的监督，从而将教师网络的知识传递到学生网络中。由此，本发明能够获得具有高诊断精度的轻量级模型。本发明中利用知识蒸馏算法将复杂网络的表达能力压缩到轻量级网络中，从而实现高精度且高效率的诊断。本发明中的每个教师网络可学习一类疾病的诊断，这样能够在该类疾病上取得更加精确的诊断效果，而学生网络通过学习多个精通不同疾病诊断的教师网络，可以实现对多类型疾病的高精度实时诊断。本发明可用于胶囊内窥镜图像的疾病诊断以及病变区域的分割，如出血，溃疡，以及息肉等。利用本发明，还可以将已有高精度的算法通过知识蒸馏的方式部署到临床应用的轻量级网络上。此外，通过知识蒸馏，教师网络可以为学生网络提供软标签，从而缓解由于训练样本有限造成的过拟合问题。

附图说明

图1为本发明一种实施例的实现原理图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

为了开发具有高诊断精度的轻量级模型，本发明提出基于多教师蒸馏的轻量级胶囊内窥镜图像病变识别算法。将胶囊内窥镜图像输入到多个复杂的教师网络，每个网络输出诊断结果、特征图和显著性图。多个教师网络经过集成(可将不同网络的各级特征图合并，显著性图求平均，预测结果根据各个网络的准确度加权平均)得到更加强大的病变识别网络。之后，集成教师网络的诊断结果，特征图和显著性图作为监督信号为学生网络提供额外的监督，从而将教师网络的知识传递到学生网络中。

本发明训练的模型也可适用于病变区域的分割。对于疾病分割任务，现有的神经网络大多都是只能分割其中一种疾病。如果将多类型疾病和其分割标签同时用于单个模型的训练，模型的分割及诊断精度都会下降。本发明中的每个教师网络可学习一类疾病的诊断，这样能够在该类疾病上取得更加精确的诊断效果(可以类比于学校中每个教师负责一个科目)。学生网络通过学习多个精通不同疾病诊断的教师网络，可以实现对多类型疾病的高精度实时诊断。

参阅图1，一些实施例包括如下典型的但非限制性的训练过程和测试过程。

训练过程包括如下步骤：

第一步：将无线胶囊内窥镜图片输入到大规模教师网络1至N。这些教师网络具有较为复杂且多样的网络结构(如DenseNet121,ResNet50,NASNet等)。

第二步：对于每张胶囊内窥镜图片，每个教师网络生成不同尺寸的特征图(h*w*c,其中h,w,c分别为特征图的高度，宽度和通道数)。通过对这些特征图的不同通道求平均，可以得到该图片的显著性图。显著性高的区域为疾病相关的区域，显著性低的区域为背景区域。对于分类任务，模型的最后一层特征图经过全局平均池化和全连接层映射后可以得到图像的类别预测概率(p₁,p₂,…,p_C),其中p_i为图片被判断为类别i的概率，C为类别总数。所有类别的预测概率相加为1，预测概率最大的类别为图片最终被判断的类别。对于分割任务，模型对每个像素点生成预测结果。

第三步：对模型的预测结果和真实标签计算交叉熵损失。

第四步：基于梯度下降算法最小化交叉熵损失，不断更新模型参数，直到交叉熵不再下降，模型收敛。

第五步：通过多教师集成模块将所有教师网络生成的特征图，显著性图，和预测结果合并，作为集成教师网络的指导信息。

第六步：将无线胶囊内窥镜图片输入轻量级学生网络，通过知识蒸馏算法(Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean."Distilling the knowledge in aneural network."arXiv preprint arXiv:1503.02531(2015).)将集成教师网络的特征图，显著性图，和预测结果传递给学生网络，从而使轻量级学生网络的性能接近于多教师网络集成的强大模型。

第七步：学生网络的损失函数为交叉熵函数和各级知识蒸馏损失函数的加和。通过优化此损失函数训练学生网络直至收敛。

测试过程包括如下步骤：

第一步：只保留轻量级学生网络。将无线胶囊内窥镜图片输入已训练好的学生网络，得到图片的各类别预测概率，概率最大的类别为该测试图片的所属预测类别。

第二步：对每个测试图像生成显著性图，可以根据显著值粗略地标注出图像的病变区域，为模型的预测提供解释性。

如图1所示，胶囊内窥镜图像用于训练N个复杂的教师网络(如DenseNet121,ResNet50,NASNet等)。这些教师网络有着复杂的参数和模型，具有很强的表达能力。训练结束后，N个教师网络的输出集成得到表达能力更强的集成教师网络。具体地，不同教师网络的各级特征图合并，显著性图求平均，预测结果根据各个网络的准确度加权平均。由于不同的网络会学习到不同的知识，也会在预测过程中出现不同的错误。将它们集成能够有效地相互纠正错误，从而得到表达能力更强、更加稳定地集成教师网络。之后，已训练好的集成教师网络的诊断结果，特征图和显著性图作为监督信号为学生网络提供额外的监督，从而将教师网络的知识传递到学生网络中。

以下进一步描述本发明具体实施例的训练和测试的过程。

在测试阶段，测试图像只经过轻量级的学生网络(如ResNet18,Efficient Net等)进行诊断，因此能够大大减少诊断所需的时间，满足临床上实时诊断的需求。

训练过程

第三步：对模型的预测结果和真实标签计算交叉熵损失。

第五步：通过多教师集成模块将所有教师网络生成的特征图，显著性图，和预测结果合并，作为集成教师网络的指导信息。具体地，将多个教师网络生成的特征图的不同通道依次求平均，得到集成后的特征图。将多个教师网络的显著性图求平均得到集成的显著性图。将预测结果求平均之后得到集成的训练集图像预测结果。

第六步：将无线胶囊内窥镜图片输入轻量级学生网络，通过知识蒸馏算法将集成教师网络的特征图，显著性图，和预测结果传递给学生网络，从而使轻量级学生网络的性能接近于多教师网络集成的强大模型。其中特征图蒸馏的损失函数为L_FCE＝1/2||F_t-F_s||₂.公式中的F_t和F_s分别为集成后教师网络和学生网络的特征图。显著性图蒸馏的损失函数为L_SCE＝1/2||S_t-S_s||₂.公式中的S_t和S_s分别为集成后教师网络和学生网络的显著性图。预测结果蒸馏的损失函数为L_KL＝KL(p_t,p_s).公式中的p_t和p_s分别为教师和学生网络的类别预测概率，用KL散度衡量它们之间的距离。

第七步：学生网络的损失函数为交叉熵函数和各级知识蒸馏损失函数的加和(L＝L_CE+L_FCE+L_SCE+L_KL)。通过优化此损失函数训练学生网络直至收敛。

测试过程

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种胶囊内窥镜图像病变识别装置，其特征在于，包括计算机程序存储介质和处理装置，所述处理装置执行计算机程序时实现训练过程和测试过程；

所述训练过程包括如下步骤：

S1、将胶囊内窥镜图片输入到模型的教师网络1至N；

S3、对模型的预测结果和真实标签计算交叉熵损失；

所述测试过程包括如下步骤：

T1、将胶囊内窥镜图片输入已训练好的学生网络，得到图片的各类别预测概率，概率最大的类别为该测试图片的所属预测类别。

2.如权利要求1所述的胶囊内窥镜图像病变识别装置，其特征在于，步骤S1中，所述教师网络选自DenseNet121、ResNet50、NASNet中的任一种。

3.如权利要求1或2所述的胶囊内窥镜图像病变识别装置，其特征在于，步骤S2中，根据所述显著性图中的不同区域的显著性，确定疾病相关的区域与背景区域；对于分类任务，模型的最后一层特征图经过全局平均池化和全连接层映射后得到图像的类别预测概率(p₁,p₂,…,p_C),其中p_i为图片被判断为类别i的概率，C为类别总数，所有类别的预测概率相加为1，预测概率最大的类别为图片最终被判断的类别，作为预测结果；对于分割任务，模型对每个像素点生成预测结果。

4.如权利要求1或2所述的胶囊内窥镜图像病变识别装置，其特征在于，步骤S4中，基于梯度下降算法最小化所述交叉熵损失。

5.如权利要求1或2所述的胶囊内窥镜图像病变识别装置，其特征在于，步骤S7中、通过交叉熵函数和各级知识蒸馏损失函数的加和得到所述学生网络的损失函数。

6.如权利要求1或2所述的胶囊内窥镜图像病变识别装置，其特征在于，所述测试过程还包括如下步骤：

T2、对每个测试图像生成显著性图。

7.一种基于多教师蒸馏的胶囊内窥镜图像病变识别网络的训练方法，其特征在于，包括如下步骤：

S1、将胶囊内窥镜图片输入到模型的教师网络1至N；

S3、对模型的预测结果和真实标签计算交叉熵损失；

8.一种胶囊内窥镜图像病变识别装置，其特征在于，包括计算机程序存储介质和处理装置，所述处理装置执行计算机程序时实现测试过程，所述测试过程包括如下步骤：

T1、将胶囊内窥镜图片输入使用如权利要求7所述的方法训练好的学生网络，得到图片的各类别预测概率，概率最大的类别为该测试图片的所属预测类别。

9.如权利要求8所述的胶囊内窥镜图像病变识别装置，其特征在于，所述测试过程还包括如下步骤：

T2、对每个测试图像生成显著性图。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至6、8-9任一项所述的装置执行的步骤，或实现如权利要求7所述的方法。