CN110059717A

CN110059717A - 用于乳腺钼靶数据集的卷积神经网络自动分割方法及系统

Info

Publication number: CN110059717A
Application number: CN201910189058.8A
Authority: CN
Inventors: 刘伯强; 孙辉; 陈威; 孙佳伟; 彭苏婷
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-26

Abstract

本发明公开了一种用于乳腺钼靶数据集的卷积神经网络自动分割方法及系统，在保证深度学习模型在乳腺钼靶小数据集上的精度的同时，明显降低模型参数，提高实用性。该方法包括以下步骤：在乳腺钼靶大数据集上对卷积神经大网络进行预训练；采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩，得到卷积神经小网络；在乳腺钼靶小数据集上对卷积神经小网络进行微调。

Description

用于乳腺钼靶数据集的卷积神经网络自动分割方法及系统

技术领域

本公开涉及一种应用于乳腺钼靶小数据集上的基于注意力转移的知识蒸馏方法的深度全卷积神经网络自动分割方法及系统。

背景技术

乳腺癌是女性发病率最高的癌症，研究表明，乳腺癌占女性癌症发病率的29％和癌症死亡率的15％，乳腺癌的早期诊断对患者的生存至关重要。在多种乳腺癌早期筛查技术中，乳腺钼靶具有低剂量、灵敏度高、简单方便等优点。放射科医师在乳腺钼靶分析过程中，由于存在实体间与观察者之间的差异，经常导致癌症的误诊或者癌症的过度诊断，因此计算机辅助诊断作为疾病确诊的前期筛查方式具有十分重要的意义。同时，由于不同患者乳腺肿块大小形态具有较大的差异，给作为乳腺癌计算机辅助分析中首要步骤的肿块自动分割技术，带来了十分具大的挑战。

由于不同设备、钼靶检查方式的差异以及不同医师的诊断偏向，导致不同机构的数据集之间存在较大的领域差异，这对于目前主流的基于数据集驱动的深度学习方法的训练过程带来了很大挑战，一个鲁棒的自动分割算法，需要充分地学习各种数据源的趋同特征。往往新增数据源的数据集与原始训练数据集相比，在数据量上差距巨大，而如何在小数据量的新数据集上微调后，充分保证深度学习模型的泛化能力，就显得至关重要。此外，往往为了保证深度学习模型能够充分学习到训练数据集上的领域知识，模型的设计趋向于更多参数带来更多学习容量，但忽略了模型在实际部署以及测试过程中，参数过大导致的内存占用以及运行速度的问题，进而影响到算法落地的成本，大大降级了自动诊断算法的实用性。因此，在保证自动分割算法准确度的同时，降低模型参数具有很大的现实意义。

针对乳腺癌计算机辅助诊断系统主要借助于医学领域的先验知识，手工提取特征去构建分类系统。手工提取特征严重依赖于研究者的专业知识，受主观因素影响比较严重。2016年至今，基于编码-解码结构(如U-Net等)的全卷积神经网络在医学图像分割领域取得了十足的进展，具体是在编码阶段增加网络的感受野和在解码阶段恢复图像的分辨率。往往这些基于编码-解码结构的网络，在设计过程中遵循了U-Net的设计思路，而最近研究表明，U-Net在编码阶段和解码阶段的每个模块里，具有过参数的问题。同时，在深度神经网络实际应用过程中，往往通过模型压缩降低网络参数以提高实用性，知识蒸馏技术是常用的网络压缩技术之一，具有保留领域特征知识的特点。而在深度神经网络可视化和解释性相关的研究结果中，表明深度神经网络对于任务相关的特征具有更优先的注意力，在相同任务不同数据集上，这种注意力具有趋同现象。

目前计算机辅助诊断系统主要借助于领域内专家的经验提取手工特征来对影像数据进行分析。发明人在研发过程中发现，专家知识的熟练程度及主观偏向对于手工特征提取带来的不一致性和片面性，对系统的准确性和稳定性带来了很大的影响。随着深度学习方法在各种视觉任务中取得了目前最佳的成绩，基于深度学习方法的自动诊断系统也在不断涌现出来。但是鲁棒的深度学习模型需要大量的不同数据来源的数据充当训练集，而往往可获取的高质量的医学数据量较少，因此，深度学习模型在医学小数据上如何训练的更加鲁棒，也是目前困扰该方法落地的主要因素之一。此外，目前为了进一步压榨深度学习模型的学习能力，在模型结构设计上趋向于层数更深、参数更多，发明人在研发过程中发现，过参数的问题导致模型在测试阶段更加费时，与算法的实用性形成矛盾。

发明内容

为了克服上述现有技术的不足，本公开提供了一种应用于乳腺钼靶数据集的卷积神经网络自动分割方法及系统，在保证深度学习模型在乳腺钼靶小数据集上的精度的同时，明显降低模型参数，提高实用性。

本公开所采用的技术方案是：

一种应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，该方法包括以下步骤：

在乳腺钼靶大数据集上对卷积神经大网络进行预训练；

采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩，得到卷积神经小网络；

在乳腺钼靶小数据集上对卷积神经小网络进行微调。

进一步的，所述在乳腺钼靶大数据集上对卷积神经大网络进行预训练的步骤包括：

构建大规模的乳腺钼靶大数据集；

选取全卷积神经大网络；

在乳腺钼靶大数据集上，利用硬标签，通过反向传播算法与梯度下降法对卷积神经大网络进行预训练。

进一步的，所述采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩的步骤包括：

利用训练好的卷积神经大网络计算软标签；

利用软标签，通过反向传播算法与梯度下降优化方法训练卷积神经小网络，将蒸馏损失函数和注意力转移损失函数的之和作为卷积神经小网络训练的损失函数。

进一步的，所述蒸馏损失函数的获取方法为：

计算软标签构成的软损失和硬标签构成的硬损失；

通过损失调节参数分别调和软损失和硬损失，得到蒸馏损失函数。

进一步的，所述注意力转移损失函数的获取方法为：

将卷积神经大网络每一层的特征图张量各通道绝对值N次幂相加，得到卷积神经大网络的空间注意力表示函数；

将卷积神经小网络每一层的特征图张量各通道绝对值N次幂相加，得到卷积神经小网络的空间注意力表示函数；

利用卷积神经大网络的空间注意力表示函数和卷积神经小网络的空间注意力表示函数行加权处理，得到注意力转移损失函数。

进一步的，所述在乳腺钼靶小数据集上对卷积神经小网络进行微调的步骤包括：

获取乳腺钼靶小数据，构建乳腺钼靶小数据集。

对卷积神经小网络的最后一个卷积层及分类层根据乳腺钼靶小数据集中数据类别进行调整；

在乳腺钼靶小数据集上，通过反向传播算法与梯度下降法，利用小学习率对卷积神经小网络进行训练。

一种应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，该系统包括：

模型训练模块，用于在乳腺钼靶大数据集上对卷积神经大网络进行预训练；

模型压缩模块，用于采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩，得到卷积神经小网络；

模型微调模块，用于在乳腺钼靶小数据集上对卷积神经小网络进行微调。

进一步的，所述模型训练模块具体用于：

构建较大规模的乳腺钼靶大数据集；

选取全卷积神经大网络；

进一步的，所述模型压缩模块具体用于：

利用训练好的卷积神经大网络计算软标签；

进一步的，所述模型微调模块具体用于：

获取乳腺钼靶小数据，构建乳腺钼靶小数据集。

通过上述的技术方案，本公开的有益效果是：

(1)本公开采用注意力转移的知识蒸馏方式对在乳腺钼靶大数据集上预训练的深度全卷积神经网络进行压缩，进而在乳腺钼靶小数据集上进行微调，由于注意力转移保留了预训练网络学习到的领域特征的相似性，保证较高的微调精度；

(2)本公开在推断过程中，利用知识蒸馏技术压缩模型，进而提高测试速度，保证精度的同时又能明显降低模型参数，提高实用性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本实施例一卷积神经网络自动分割方法的流程图；

图2是本实施例一全卷积神经大网络的结构图；

图3是本实施例一基于注意力转移的知识蒸馏方法的流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，实现深度卷积神经网络在乳腺钼靶数据集的自动分割，利用基于注意力转移的知识蒸馏方法，在保留领域内特征的同时，将大数据上训练的大模型压缩成小模型，进而在小数据集上微调，实现了保证模型在小数据集上的精度的同时大大降低了模型的参数。

请参阅附图1，本实施例提出的一种应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，包括以下步骤：

S101，选取卷积神经大网络在乳腺钼靶大数据集对其进行预训练。

具体地，所述步骤101中，选取全卷积神经大网络在乳腺钼靶大数据集进行预训练，其具体实现方式如下：

构建较大规模的乳腺钼靶大数据集；

选取全卷积神经大网络(U-Net)；

在乳腺钼靶大数据集上，使用硬标签，通过反向传播算法与梯度下降法对卷积神经大网络(U-Net)进行预训练，利用预训练后的网络作为知识蒸馏方法的大网络。

经典的U-Net是一个由编码路径，解码路径以及编码解码对应阶段的跳层连接所组成的全卷积神经网络，它依赖于编码路径第一阶段64通道深度的卷积操作，并在连续的4个阶段将通道深度加倍，在最底层的阶段达到1024深度，然后在解码路径各个阶段，通道深度逐渐减半回64。

S102，采用基于注意力转移的知识蒸馏方法对预训练后的卷积神经大网络进行模型压缩，得到精简的卷积神经小网络。

在本实施例中，基于注意力转移的方法，采用知识蒸馏的方法将卷积神经大网络压缩成精简的卷积神经小网络(精简版的U-Net)，实现深度卷积神经网络从大数据集到小数据集的适应。

目前使用的深度卷积神经网络往往会有大量的参数，在小数据集上训练卷积神经网络会极大地影响网络的泛化性能，通常会导致网络的过度拟合。而用大数据集训练过的神经网络，已经具备了提取浅层基础特征和深层抽象特征的能力。特别是当大数据集与小数据集比较相似时，通过在小数据集上微调预训练的深度神经网络，可以有效的减少训练时间和降低过拟合的问题。

现有的方法是将在大数据集上预训练的网络，直接在小数据集上微调，而适用于大数据集的网络对于小数据集往往过参数化，如果直接在小数据集上使用原始预训练的网络结构，一方面限制了模型学习新数据集特征的空间，另一方面模型过参数将大大增加测试时间，降低实用性。

本实施例通过知识蒸馏的方法，将预训练后的大网络的领域特征迁移到小网络上，再进一步在小数据集上微调，有效的解决了上述问题。

精简版的U-Net是保持网络整体结构、卷积通道深度在编码路径相继阶段倍增关系及在解码路径相继阶段减半关系不变的情况下，将初始的通道深度从64逐渐减成N，比如N可以为32，16，8，4等，网络名称为U-Net-N，请参阅附图2。将不同的U-Net-N网络在多个图像数据集上训练，测试集上结果表明，U-Net-8的测试损失在大多数情况下比原始U-Net更低或基本保持一致，但是U-Net-8的参数仅为原始U-Net的1.6％。

注意力转移，是将大网络的注意力信息传递给小网络。深度卷积神经网络的注意力信息一般分为两种，空间注意力和通道注意力。分割网络更强调空间信息，因此本实施例采用的是空间注意力。空间注意力，即是一种热力图，用来解码出输入图像空间区域对输出贡献大小。

考虑卷积神经网络的其中一个层及对应的激活张量(特征图)A∈R^C×H×W，它由空间维度为H×W的C个特征平面组成。该层的映射函数F将上述三维特征图A作为输入，并输出二维的空间注意力图，本实施例中定义映射函数F为特征图张量各通道绝对值p次幂相加，即：

注意力转移的目的是将卷积神经大网络特定节点的空间特征图信息传递给子网络，让卷积神经小网络相对应节点的空间特征可以趋近于卷积神经大网络，从而达到知识蒸馏的目的。

则该学习过程的损失函数设计为知识蒸馏损失与注意力转移损失之和：

L_total＝L_KD+L_AT

其中，知识蒸馏损失L_KD为卷积神经小网络与卷积神经大网络输出分布之间的损失，注意力转移损失L_AT为卷积神经小网络与卷积神经大网络对应节点损失的加权和。

让S，T分别表示卷积神经小网络和卷积神经大网络，I为大-小网络做注意力转移特征图的集合，则该学习过程总共的损失函数可以重新表示为：

其中，β_j为不同阶段做注意力转移的权重，F为上述的空间注意力表示函数，即特征图张量各通道绝对值p次幂相加，实验表明p＝2时，结果较好；L_KD为知识蒸馏损失。

请参阅附图3，所述步骤102中，采用基于注意力转移的知识蒸馏方法对预训练后的全卷积神经大网络进行模型压缩，其具体实现方式如下：

步骤102-1：利用训练好的卷积神经大网络计算软标签。

具体地，训练好的卷积神经大网络模型经过软化softmax函数后输出软标签，所述软标签计算方式如下：

其中，q_i是软化后的标签，z是卷积神经大网络经过软化函数softmax前的输出，T是温度调节参数(T＞1)。

步骤102-2：利用软标签，通过反向传播算法与梯度下降优化方法训练卷积神经小网络，采用蒸馏损失函数和注意力转移损失函数作为卷积神经小网络训练的损失函数。

所述卷积神经小网络训练的损失函数为蒸馏损失函数和注意力转移损失函数之和，其表达式为：

L_total＝L_KD+L_AT

其中，L_total为；L_KD为蒸馏损失函数，是小网络与大网络输出分布之间的损失；L_AT为注意力转移损失函数，是小网络与大网络对应节点损失的加权和。

在本本实施例中，所述蒸馏损失函数L_KD的获取方法为：

由软标签构成的软损失L_soft和硬标签构成的硬损失L_hard两部分损失构成，并通过损失调节参数α来调和得到蒸馏损失函数，所述蒸馏损失函数表达式为：

L_KD＝αL_soft+(1-α)L_hard

在本实施例中，所述注意力转移损失函数L_AT的获取方法为：

将卷积神经大网络每一层的特征图张量各通道绝对值p次幂相加，得到卷积神经大网络的空间注意力表示函数

将卷积神经小网络每一层的特征图张量各通道绝对值p次幂相加，得到卷积神经小网络的空间注意力表示函数

利用卷积神经大网络的空间注意力表示函数和卷积神经小网络的空间注意力表示函数进行加权处理，得到注意力转移损失函数L_AT。

所述注意力转移损失函数L_AT的表达式为：

其中，β_j为不同阶段做注意力转移的权重。

本实施例通过注意力转移和知识蒸馏的方法，将卷积神经大网络的特征迁移到卷积神经小网络上，扩展了模型学习新数据集特征的空间，降低测试时间，提高了实用性。

S103，将卷积神经小网络在乳腺钼靶小数据集上进行微调。

在本实施例中，将得到的卷积神经小网络在标乳腺钼靶小数据上进行微调，保证卷积神经网络学习到大数据集的特征知识的同时，又很好地适应小数据的特点。

具体地，所述步骤103中，将卷积神经小网络在乳腺钼靶小数据集上进行微调，其具体实现方式如下：

步骤103-1：获取乳腺钼靶小数据，构建乳腺钼靶小数据集。

步骤103-1：对卷积神经小网络的最后一个卷积层及softmax层根据乳腺钼靶小数据集中数据类别进行调整；

步骤103-2：在乳腺钼靶小数据集上，通过反向传播算法与梯度下降法，用小的学习率对卷积神经小网络进行训练。

本实施例提出的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，采用注意力转移和知识蒸馏方法对在乳腺钼靶大数据集上预训练的深度全卷积神经网络进行压缩，进而在乳腺钼靶小数据集上进行微调，由于注意力转移保留了预训练网络学习到的领域特征的相似性，保证较高的微调精度；在推断过程中，利用知识蒸馏技术压缩模型，进而提高测试速度，保证精度的同时又能明显降低模型参数，提高实用性。

实施例二

本实施例提供一种应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，该系统包括：

模型训练模块，被配置为在乳腺钼靶大数据集上对卷积神经大网络进行预训练；

模型压缩模块，被配置为采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩，得到卷积神经小网络；

模型微调模块，被配置为在乳腺钼靶小数据集上对卷积神经小网络进行微调。

在本实施例中，所述模型训练模块具体被配置为：

构建较大规模的乳腺钼靶大数据集；

选取全卷积神经大网络；

在本实施例中，所述模型压缩模块具体被配置为：

利用训练好的卷积神经大网络计算软标签；

在本实施例中，所述模型微调模块具体被配置为：

获取乳腺钼靶小数据，构建乳腺钼靶小数据集。

本实施例提出的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，模型压缩模块采用注意力转移和知识蒸馏方法对在乳腺钼靶大数据集上预训练的深度全卷积神经网络进行压缩，进而通过模型微调模块在乳腺钼靶小数据集上进行微调，由于注意力转移保留了预训练网络学习到的领域特征的相似性，保证较高的微调精度。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，包括以下步骤：

在乳腺钼靶大数据集上对卷积神经大网络进行预训练；

在乳腺钼靶小数据集上对卷积神经小网络进行微调。

2.根据权利要求1所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，所述在乳腺钼靶大数据集上对卷积神经大网络进行预训练的步骤包括：

构建大规模的乳腺钼靶大数据集；

选取全卷积神经大网络；

3.根据权利要求1所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，所述采用注意力转移和知识蒸馏方法对训练好的卷积神经大网络进行模型压缩的步骤包括：

利用训练好的卷积神经大网络计算软标签；

4.根据权利要求3所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，所述蒸馏损失函数的获取方法为：

计算软标签构成的软损失和硬标签构成的硬损失；

5.根据权利要求3所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，所述注意力转移损失函数的获取方法为：

6.根据权利要求3所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割方法，其特征是，所述在乳腺钼靶小数据集上对卷积神经小网络进行微调的步骤包括：

获取乳腺钼靶小数据，构建乳腺钼靶小数据集；

7.一种应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，其特征是，包括：

8.根据权利要求7所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，其特征是，所述模型训练模块具体用于：

构建较大规模的乳腺钼靶大数据集；

选取全卷积神经大网络；

9.根据权利要求7所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，其特征是，所述模型压缩模块具体用于：

利用训练好的卷积神经大网络计算软标签；

10.根据权利要求7所述的应用于乳腺钼靶小数据集的卷积神经网络自动分割系统，其特征是，所述模型微调模块具体用于：

获取乳腺钼靶小数据，构建乳腺钼靶小数据集；