CN115409832A

CN115409832A - 一种超声影像及组学大数据的三阴性乳腺癌分类方法

Info

Publication number: CN115409832A
Application number: CN202211331810.6A
Authority: CN
Inventors: 李珊珊; 刘�文; 姚回
Original assignee: Xinjiang Changsen Data Technology Co ltd
Current assignee: Xinjiang Changsen Data Technology Co ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2022-11-29

Abstract

本发明涉及人工智能领域，公开一种超声影像及组学大数据的三阴性乳腺癌分类方法，内容如下：S1、对乳腺超声影像数据集的肿瘤区域进行标注处理，并进行数据增强预处理操作；S2、使用S1中的数据集对深度学习模型进行权重训练；S3、利用深度学习模型提取三阴性与非三阴性乳腺超声数据集的肿瘤区域；S4、使用影像组学技术将步骤S3得到的肿瘤区域进行高通量特征提取，并采用T检验和LASSO算子对数据进行特征降维，筛选出最重要的特征；S5、将步骤4获取的最重要的特征，利用随机森林算法对三阴性与非三阴性的乳腺超声影像进行分类比较。采用深度学习与影像组学技术能够实现三阴性与非三阴性乳腺癌的精准分类。

Description

一种超声影像及组学大数据的三阴性乳腺癌分类方法

技术领域

本发明属于人工智能领域，特别涉及一种超声影像及组学大数据的三阴性乳腺癌分类方法。

背景技术

三阴性乳腺癌具有病情发展快、死亡率高及治疗方式有限等特点。早期发现并积极治疗可以极大的提高患者生存率并改善患者的预后。自2012年AlexNet提出以来，基于人工神经网络的深度学习技术得到了蓬勃发展。针对医生诊断时会出现疲劳、诊断结果具有主观性以及漏检及误检等问题，众多学者纷纷将深度学习技术应用于医学领域，计算机辅助诊断系统得到了极大的改良，准确率大幅提升。同时在2012年，Lambin等人提出了影像组学概念，该方法能高通量的提取医学影像的特征，该方法包括医学影像收集、图像分割、特征提取、建立模型、分析及预测等步骤，为医生临床诊断提供帮助。该方法能挖掘出肉眼无法辨别的信息，更加全面清楚了解病灶区域特点，有助于对肿瘤病变做更精确的诊断与治疗。

传统医生阅片时，在判断肿瘤的位置，形态、边缘及肿瘤的类别时，其结果非常依赖于医生自身经验，不同的医生阅相同的影像，会得出不一样的结论。但是，通过影像组学高通量提取影像的潜在客观信息，这些客观信息也就是图像的特征。影像组学提取的特征少则几百，多则几万，但是不是每一个特征都在图像分析中起决定性作用，因此如何筛选出最重要的特征对预测、分析和评估模型尤其关键。

传统的医学图像分割基于特征工程，依赖人工设置阈值，需要耗费大量人力。当前基于深度学习的图像分割技术已经实现端到端的图像分割，即输入原图，即可输出分割结果。近年来，随着FCN，UNet，PSPNet，SegNet等网络的提出，基于深度学习技术的图像分割效果越来越好。其中，UNet被广泛应用于医学图像分割领域。但是针对复杂的乳腺超声影像数据集，传统的U-Net算法的泛化能力于分割精度还不足。

为了解决复杂的乳腺超声医学图像语义分割精度问题，U-Net模型算法可以将图像浅层信息与深层信息结合，小数据集就可以得到准确的分割结果，非常适合于医学图像分割。但是，U-Net算法对图像的空间和通道信息利用不充分，在乳腺超声影像分割中无法取得理想的效果。因此针对此问题，本发明提出了一种改进的U-Net算法，在编码阶段引入ECA注意力机制和MC模块，加强模型对通道信息利用能力，在解码阶段利用多尺度上下文语义信息进行特征融合操作，整体改进结构流程图如图5所示。

如图5所示，在精确分割图像的基础上，为了验证影像组学中三阴性与非三阴性乳腺癌的特征分类效果，首先使用了小波变换、直方图特征、纹理信息以及滤波操作对图像进行特征提取；其次使用T检验及LASSO算子进行重要特征筛选；最后利用随机森林机器学习方法其进行预测和评估。

发明内容

本发明提供一种超声影像及组学大数据的三阴性乳腺癌分类方法，可以解决复杂的乳腺超声医学图像分割与分类问题。

本发明提供一种超声影像及组学大数据的三阴性乳腺癌分类方法，该方法包括以下步骤：

S1、对乳腺超声影像数据集进行数据增强预处理操作；

S2、使用深度学习技术对乳腺超声影像数据集训练；

S3、利用S2步骤训练好的模型提取乳腺超声影像三阴性与非三阴性的肿瘤区域；

S4、使用影像组学技术将步骤S3得到的肿瘤区域进行高通量特征提取，并筛选出最重要的特征；

S5、将步骤4获取的三阴性与非三阴性的图像特征，利用随机森林算法对进行分类。

如所述步骤S1中对乳腺超声影像数据集进行数据增强预处理的操作步骤为：

S11、设共有N张乳腺超声肿瘤影像，使用labelme工具对N张影像的肿瘤区域进行标注，生成Mask文件。

S12、将输入图像与Mask文件同时进行随机水平翻转、倾斜以及高斯模糊操作，以增加数据样本。

S13、采用归一化与正则化处理，并将图像裁剪成统一尺寸，具体公式如下：

（1）

其中input、F、H、G、Resize和BN分别表示输入图像、随机水平翻转、随机倾斜、高斯模糊、裁剪和归一化与正则化处理。

如所述步骤S2中的利用深度学习技术学习乳腺超声影像特征并建立深度学习模型，图2为本发明的一种改进U-Net的网络结构图，具体步骤如下：

S21编码阶段：将裁剪后的图像输入到改进后的U-Net模型中，该阶段共分为5层，每一层都要将输入图像进行若干次卷积块操作、最大池化操作以及ECA通道注意力机制加权操作，卷积块主要包含3×3卷积层、归一化BN以及Relu激活函数；

S211、卷积操作：图像经过3×3卷积层，且卷积后的尺寸不变：

+1 （2）

其中input、Output、p、s和k分别表示输入图像尺寸、输出图像尺寸、边界扩充、步长和卷积核大小；

S212、归一化BN操作：将输入数据使其服从均值为0，方差为1的分布，能使网络更加稳定，收敛速度更快；

S213、Relu激活函数：使用激活函数增强改进U-Net模型的非线性表达能力，输出为：

（3）

S214、ECA注意力机制：图3为本发明引用的ECA注意力机制示意图，首先输入特征图X1（H×W×C）经过全局平均池化得到X2（1×1×C），特征图高和宽的计算公式如下：

（4）

（5）

其中K为卷积核大小，S为步长，W、H、C分别表示特征图的宽、高以及通道数；其次特征图X2通过卷积核K计算每个通道的特征权重，随后使用Sigmoid函数给每个特征通道赋予权重得到特征图X3，具体公式如下：

（6）

其中

表示特征层，最后将X3与X进行逐通道相乘，生成加权特征图X4；S215、最大池化：编码阶段前四层每次完成卷积块和ECA注意力机制后，通道数增加，特征层的高和宽不变；随后四层特征层分别进行最大池化操作，通道数不变，特征层的高和宽变为原来的一半，具体如下：

（7）

S216、MC模块：为了提取图像细节信息，在改进的U-Net结构的编码阶段的第三、四、五层的特征层分别进行多尺度上下文通道信息提取，图4为MC模块结构示意图，例如将第三层经过ECA注意力机制模块处理后所得的特征图，首先进行四个不通尺度的卷积，并将结果进行特征融合、全局平均池化、Sigmoid激活函数处理，最后得到输出特征图；

S22、解码阶段：将编码阶段中的特征层通过跳跃连接、反卷积以及卷积块等操作，逐步恢复图像特征信息，解码特征层与编码特征层各层之间层层对应；S221、跳跃连接及特征融合：编码阶段经过MC模块处理后得到的特征层、和上一层的最后一个特征层以及解码阶段对应的特征层进行加权特征融合，具体公式如下：

（8）

其中F、A、C分别表示特征融合、平均池化和卷积块操作，i表示特征层所在的层数，j表示当前特征层经过的卷积次数；

S222、反卷积：将编码阶段得到的特征层进行上采样操作，该操作不会改变特征层的通道数，特征层的高和宽变为原来的2倍。

如所述步骤S3中将三阴性与非三阴性乳腺超声影像输入到改进的U-Net模型中，模型对乳腺超声影像的每个像素进行预测，并输出肿瘤区域的预测结果。

如所述步骤S4中对三阴性和非三阴性乳腺超声影像及步骤S3中得到的肿瘤区域使用小波变换、直方图特征、纹理特征和滤波特征进行影像组学特征提取；使用T检验及最小绝对收缩和选择算子（LASSO）算法进行数据特征筛选和数据降维，获得重要特征。

如所述根据步骤S5的结果，将三阴性与非三阴乳腺超声数据集按训练集：验证集：测试集=7:2:1进行划分，使用随机森林机器学习算法进行分类器训练，并采用十折交叉验证方法对分类器进行评估。

本发明提出了一种超声影像及组学大数据的三阴性乳腺癌分类方法，在深度学习阶段，对UNet主干网络进行改进，加入ECA注意力机制，提升模型对阴影特征的提取能力，并使用改进的MC模块提升肿块边缘检测的平滑度，在UNet跨越连接阶段提出多尺度上下文语意融合模块，抑制噪声和网络退化对模型精度的影响。在影像组学阶段，对深度学习阶段的分割结果进行特征提取，使用T检验，LASSO算子进行数据降维和筛选，选取出重要特征，并将特征传入随机森林模型进行训练，预测出最终结果。通过结合当前先进的深度学习与影像组学技术，解决了三阴性乳腺癌与非三阴性乳腺癌的分类问题。该发明可以根据传入的乳腺肿瘤图像自动分割出肿瘤区域，并进行三阴性与非三阴性诊断，能有效提高医生诊断效率、提升乳腺癌早期诊断的准确率。

附图说明

图1为本发明流程图。

图2为本发明的一种改进U-Net的网络结构图。

图3为ECA注意力机制示意图。

图4为MC模块结构示意图。

图5为本发明的整体改进思路图。

具体实施方式

下面结合附图1-5，对本发明的实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明提供了一种超声影像及组学大数据的三阴性乳腺癌分类方法，具体包括以下步骤：

S1、对乳腺超声影像数据集进行数据增强预处理操作（如图2）；

S2、使用深度学习技术对乳腺超声影像数据集训练（如图2）；

S3、利用S2步骤训练好的模型提取乳腺超声影像三阴性与非三阴性的肿瘤区域（如图2）；

具体深度学习实验的数据集为新疆某医院采集的恶性乳腺超声影像，包含1320张图像，其中924张用于训练，264张用于验证，132张用于测试；另外还采集了150张三阴性乳腺超声影像与150张非三阴性乳腺超声影像。

本发明的流程图见图1，整体改进思路见图5，具体实施步骤如下：

S1、数据预处理：将1320张乳腺肿瘤超声影像，使用labelme工具对1320张影像进行标注，并生成Mask文件。首先将输入图像与标签文件同时进行随机水平翻转、倾斜以及高斯模糊操作，以增加数据样本，采取归一化与正则化处理，将图像统一裁剪成大小为512×512像素，具体公式如下：

（1）

S2、深度学习模型训练：图2为本发明的一种改进U-Net的网络结构图，将裁剪后的图像输入到改进后的U-Net模型中，具体步骤如下：

（1）编码阶段：共分为5层，每一层都要将输入图像进行若干次卷积块操作、最大池化操作以及ECA通道注意力机制，卷积块主要包含3×3卷积层、归一化BN以及Relu激活函数。卷积操作：图像进行3×3卷积层，且卷积后的尺寸为不变：

+1 （2）

其中input、Output、p、s和k分别表示输入图像尺寸、输出图像尺寸、边界扩充、步长和卷积核大小。归一化BN操作：将输入数据使其服从均值为0，方差为1的分布，能加快网络更加稳定，收敛速度更快。Relu激活函数：使用激活函数增强改进U-Net模型的非线性表达能力，输出为：

（3）

ECA注意力机制：图3为本发明引用的ECA注意力机制示意图，首先输入特征图X1（H×W×C）经过全局平均池化得到X2（1×1×C），特征图高和宽的计算公式如下：

（4）

（5）

其中K为卷积核大小、S为步长，W、H、C分别表示特征图的宽、高以及通道数。其次特征图X2通过卷积核K计算每个通道的特征权重，随后使用Sigmoid函数给每个特征通道赋予权重得到特征图X3，具体公式如下：

（6）

其中

表示特征层，最后将X3与X进行逐通道相乘，生成加权特征图X4。最大池化：编码阶段前四层每次完成卷积块和ECA注意力机制后，通道数增加，特征层的高和宽不变；随后四层特征层分别进行最大池化操作，通道数不变，特征层的高和宽变为原来的一半，具体如下：

（7）

MC模块：图4为MC模块结构示意图，该操作为编码阶段第三、四、五层ECA操作之后，将输入特征图经过四个卷积分支分别卷积后的特征进行特征融合，得到中间特征图，再将中间特征图经过全局平均值池化，1×1卷积和归一化正则化操作，最后经过Sigmoid激活函数激活得到输出特征图，该操作为解码阶段恢复图像特征提供细节信息；

（2）解码阶段：将编码阶段的特征层通过多次跳跃连接、反卷积以及卷积块操作，逐步恢复图像特征信息。解码特征层与编码特征层各层对应。跳跃连接及特征融合：将编码阶段的每层的最后一个特征层、和上一层的最后一个特征层以及解码阶段对应的特征层进行加权特征融合。具体公式如下：

（8）

其中F、A、C分别表示特征融合、平均池化和卷积块操作，i和j分别表示特征层所在的层数，j表示当前特征层经过的卷积次数。反卷积：将编码阶段得到的特征层进行上采样操作，该操作不会改变特征层的通道数，特征层的高和宽变为原来的2倍。

S3、获取肿瘤区域：将三阴性与非三阴性乳腺超声影像输入到改进的U-Net模型中，模型对乳腺超声影像的每个像素进行预测，并输出肿瘤区域的预测结果。

S4、影像组学特征提取：将三阴性和非三阴性乳腺超声影像及第三步中得到的肿瘤区域使用小波变换、直方图特征：First Order Features、纹理特征灰度级大小区域矩阵特征（GLSZM）、相邻灰度差矩阵（NGTDM）、灰度共生矩阵特征（GLCM）、灰度行程矩阵特征（GLRLM）和灰度依赖矩阵（GLDM））和滤波特征进行影像组学特征提取，每张影像都提取出465个特征。使用T检验及最小绝对收缩和选择算子（LASSO）算法进行数据特征筛选和数据降维，获得8个重要特征。

S5、机器学习分类：将第五步的结果将300张三阴性与非三阴性乳腺超声影像按训练集：验证集：测试集=7:2:1进行划分，其中训练集210张，验证集60张，测试集30张。使用随机森林机器学习算法进行分类器训练，并采用十折交叉验证方法对分类器进行评估，训练集AUC为100%，测试集AUC为90.77%。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种超声影像及组学大数据的三阴性乳腺癌分类方法，该方法包括以下步骤：

S1、对乳腺超声影像数据集进行数据增强预处理操作；

S2、使用深度学习技术对乳腺超声影像数据集训练；

2.如权利要求1所述的一种超声影像及组学大数据的三阴性乳腺癌分类方法，其特征在于，所述步骤S1中对乳腺超声影像数据集进行数据增强预处理的操作步骤为：

S11、设共有N张乳腺超声肿瘤影像，使用labelme工具对N张影像的肿瘤区域进行标注，生成Mask文件；

S12、将输入图像与Mask文件同时进行随机水平翻转、倾斜以及高斯模糊操作，以增加数据样本；

（1）

3.如权利要求1所述的一种超声影像及组学大数据的三阴性乳腺癌分类方法，其特征在于，所述步骤S2中的利用深度学习技术学习乳腺超声影像特征并建立深度学习模型，图2为本发明的一种改进U-Net的网络结构图，具体步骤如下：

+1 （2）

（3）

（4）

（5）

（6）

其中

（7）

（8）

4.如权利要求1所述的一种超声影像及组学大数据的三阴性乳腺癌分类方法，其特征在于，所述步骤S3中将三阴性与非三阴性乳腺超声影像输入到改进的U-Net模型中，模型对乳腺超声影像的每个像素进行预测，并输出肿瘤区域的预测结果。

5.如权利要求1所述的一种超声影像及组学大数据的三阴性乳腺癌分类方法，其特征在于，所述步骤S4中对三阴性和非三阴性乳腺超声影像及步骤S3中得到的肿瘤区域使用小波变换、直方图特征、纹理特征和滤波特征进行影像组学特征提取；使用T检验及最小绝对收缩和选择算子（LASSO）算法进行数据特征筛选和数据降维，获得重要特征。

6.如权利要求1所述的一种超声影像及组学大数据的三阴性乳腺癌分类方法，其特征在于，所述根据步骤S5的结果，将三阴性与非三阴乳腺超声数据集按训练集：验证集：测试集=7:2:1进行划分，使用随机森林机器学习算法进行分类器训练，并采用十折交叉验证方法对分类器进行评估。