CN113643269A

CN113643269A - 基于无监督学习的乳腺癌分子分型方法、装置及系统

Info

Publication number: CN113643269A
Application number: CN202110972195.6A
Authority: CN
Inventors: 谢元忠; 聂生东; 孙榕; 李秀娟; 孔雪
Original assignee: CENTRAL HOSPITAL OF TAIAN; University of Shanghai for Science and Technology
Current assignee: CENTRAL HOSPITAL OF TAIAN; University of Shanghai for Science and Technology
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-12
Anticipated expiration: 2041-08-24
Also published as: CN113643269B

Abstract

本发明涉及一种基于无监督学习的乳腺癌分子分型方法、装置及系统，所述方法包括如下步骤：获得待预测的乳腺DCE‑MRI影像，提取该影像中多种规格的序列影像的感兴趣区域；利用一采用无监督学习训练获得的分子分型预测模型预测获得各种所述序列影像的对应的分子亚型分类概率；采用集成学习融合，获得最终对应的分子亚型分类结果；所述分子分型预测模型进行训练时，通过无监督学习预训练网络和迁移学习微调网络的思想，前一阶段充分利用乳腺良性肿瘤影像构建无标签的源域数据集，增强模型提取特征的能力；后一阶段采用乳腺恶性肿瘤影像构建有标签的目标域数据集对带有预训练权重的模型微调。与现有技术相比，本发明显著提高了乳腺癌分子分型的预测精度。

Description

基于无监督学习的乳腺癌分子分型方法、装置及系统

技术领域

本发明涉及计算机辅助医学领域，具体涉及一种基于无监督学习的乳腺癌分子分型方法、装置及系统。

背景技术

据2021年世界卫生组织国际癌症研究机构最新数据显示，乳腺癌已取代肺癌成为全球发病率最高的癌症。作为一种异质性极为显著的恶性肿瘤，即使患者的临床分期、病理类型相同，其治疗疗效及预后也存在很大的差异。当前，免疫组织化学标记技术或基因表达谱已成为精准判定乳腺癌分子亚型的主要方式，然而该操作方式复杂有创，且未能做到“早发现、早诊断、早治疗”。现代医学影像学的蓬勃发展为乳腺癌的早期筛查与诊疗创造了有利条件。除常见的乳腺钼靶和超声成像外，磁共振成像因为能够保持乳腺软组织高分辨率，也逐渐受到了临床的广泛青睐。近年来，联合多模态磁共振成像序列，从影像数据的角度深入分析乳腺癌分子分型的相关特征已成为该领域的一大研究热点。

从目前的国内外研究现状来看，基于MRI的乳腺癌分子分型的研究可依据方法的主要技术路线分为两类：一是基于统计学分析的分子分型关联性研究，利用统计学回归模型，分析医学影像中病灶表型特征、表观扩散系数以及血流动力学参数与各亚型的关系。但通过这类方法获得的浅层次的可视化特征很难深入分析与肿瘤异质性之间的相关程度，且研究样本量较小，降低了结果的借鉴意义。二是通过影像组学，研究特征与乳腺癌分子分型的内在关联，以构建合理的乳腺癌分子分型预测模型。然而在该类方法中，为保证感兴趣区域勾画以及特征提取优化时精准有效，需要经过放射科医师的多次确认，再次降低分子分型检出的时效性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种预测灵敏且精度较高的基于无监督学习的乳腺癌分子分型方法、装置及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于无监督学习的乳腺癌分子分型方法，该方法包括如下步骤：

步骤S1，获得待预测的乳腺DCE-MRI影像，提取该影像中多种规格的序列影像的感兴趣区域；

步骤S2，利用一采用无监督学习训练获得的分子分型预测模型预测获得各种所述序列影像的对应的分子亚型分类概率；

步骤S3，采用集成学习融合，获得最终对应的分子亚型分类结果；

所述分子分型预测模型的训练过程包括：

获取用于训练的乳腺DCE-MRI影像，按照影像中病变良恶性划分形成互不相交的一源域数据集和一目标域数据集，所述源域数据集包含的是无标签样本，所述目标域数据集包含的是有标签样本；

分别提取源域数据集和目标数据集中多种规格的序列影像的感兴趣区域；

采用所获得源域数据集中多种序列影像的感兴趣区域，分别对所构建的一分子分型预测模型进行无监督学习预训练，获得模型权重；

采用所获得目标域数据集中多种序列影像的感兴趣区域，分别对所述预训练的分子分型预测模型进行迁移学习微调，更新模型权重，完成训练。

优选地，所述感兴趣区域的提取具体为：

读取乳腺DCE-MRI影像对应的肿瘤标记及临床诊断数据，确定肿瘤形态及位置；

基于所述肿瘤形态及位置将影像裁剪为若干个多尺度图像块，获得所述感兴趣区域。

优选地，所述分子亚型分类结果包括管腔上皮型和非管腔上皮型。

优选地，所述分子分型预测模型基于2D深度学习卷积神经网络模型构建，所述2D深度学习卷积神经网络模型包含一个初始卷积块、三个引入注意力机制和深度残差收缩机制的卷积池化单元、一个特征融合单元、一个全局平均池化层和一个分类层。

优选地，所述分子分型预测模型的无监督学习预训练具体为：

将所述源域数据集的感兴趣区域输入到分子分型预测模型中，获得正样本的低阶特征及高阶特征；

随机打乱所述正样本的低阶特征及高阶特征的通道排列，获得伪样本的低阶特征及高阶特征；

构建判别器，分别计算正伪样本间低阶特征和高阶特征的深度互信息，训练获得模型权重。

优选地，对所述分子分型预测模型进行无监督学习预训练时使用的优化目标函数数学表达式为：

其中，W×H为低阶特征的尺寸，

代表互信息计算函数，α、β、γ为权重因子，KL[·||·]代表相对熵损失项，

为输出特征服从的编码分布，

为标准正态分布，G(x)与L_ij(x)分别为全局特征和局部特征。

优选地，对所述分子分型预测模型进行迁移学习微调时，加载预训练权重，使用较小学习率，通过目标域数据集分别进行微调和重新训练。

优选地，使用加权投票策略对获得的多种序列影像所对应的分子亚型分类概率进行所述集成学习的融合。

本发明还提供一种基于无监督学习的乳腺癌分子分型装置，包括：

训练数据集获取模块，获取用于训练的乳腺DCE-MRI影像，按照影像中病变良恶性划分形成互不相交的一源域数据集和一目标域数据集，所述源域数据集包含的是无标签样本，所述目标域数据集包含的是有标签样本；

感兴趣区域提取模块，用于提取多种规格的乳腺DCE-MRI序列影像的感兴趣区域；

无监督学习预训练模块，采用所获得源域数据集中多种序列影像的感兴趣区域，分别对所构建的一分子分型预测模型进行无监督学习预训练，获得模型权重；

迁移学习微调模块，采用所获得目标域数据集中多种序列影像的感兴趣区域，分别对所述预训练的分子分型预测模型进行迁移学习微调，更新模型权重；

分类模块，以训练好的分子分型预测模型对待预测乳腺DCE-MRI影像的多种规格的感兴趣区域进行处理，并采用集成学习融合，获得最终对应的分子亚型分类结果。

本发明还提供一种基于无监督学习的乳腺癌分子分型计算机系统，包括：

一个或多个命令处理器；

与处理器关联的存储器；

其中，所述命令处理器执行时调用存储器中的程序指令，以实现如所述方法中的步骤。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出的乳腺癌分子分型方法通过无监督学习预训练网络和迁移学习微调网络的思想，前一阶段充分利用乳腺良性肿瘤影像构建无标签的源域数据集，增强模型提取特征的能力；后一阶段采用乳腺恶性肿瘤影像构建有标签的目标域数据集对带有预训练权重的模型微调，有效提升分类层鉴别特征的准确率。相对于从ImageNet迁移学习的传统方法而言，该二阶段的乳腺癌分子分型方法也大大降低了“负迁移”现象的发生。

2、本发明采用基于加权投票的集成学习策略融合DCE-MRI三种序列影像对应的分子亚型分类概率，从而充分提取像素点不同时间维度上的特征以进行深度特征互补，显著提高了乳腺癌分子分型预测精度。

3、本发明对深度学习卷积神经网络模型设计了有效的无监督学习目标优化函数，提升了模型预测鲁棒性。

附图说明

图1为本发明乳腺癌分子分型方法的整体流程图；

图2为本发明采用的深度学习卷积神经网络模型的结构示意图；

图3为本发明卷积神经网络模型中卷积单元1的示意图；

图4为本发明卷积神经网络模型无监督学习预训练过程示意图；

图5为本发明卷积神经网络模型迁移学习微调及分型过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

参考图1所示，本实施例提供一种基于无监督学习的乳腺癌分子分型方法，该方法包括如下步骤：

步骤S1，获得待预测的乳腺DCE-MRI影像，提取该影像中多种规格的序列影像的感兴趣区域，本实施例中，采用DCE-MRI TPs 1、TPs 2、TPs 3三种序列影像；

步骤S3，采用集成学习融合，获得最终对应的分子亚型分类结果。

上述步骤S2中，分子分型预测模型的训练过程具体包括如下步骤：

步骤S201，获取用于训练的乳腺DCE-MRI影像，按照影像中病变良恶性划分形成互不相交的一源域数据集和一目标域数据集，所述源域数据集包含的是无标签样本，所述目标域数据集包含的是有标签样本。

本实施例中，首先根据病理图像查询报告将用于训练的乳腺DCE-MRI影像序列进行良恶性划分，构成互不相交的一源域数据集和一目标域数据集。其中，源域数据集包含567例乳腺良性病变患者的DCE-MRI影像数据，目标域数据集包含266例乳腺恶性病变患者的DCE-MRI影像数据以及免疫组化标记信息；然后，根据表1对目标域数据集中乳腺DCE-MRI影像进行分子亚型的标注。

表1乳腺癌分子分型的免疫组化特征

步骤S202，分别提取源域数据集和目标数据集中多种规格的序列影像的感兴趣区域。

首先，参照影像诊断技师提供的肿瘤标注文件，采用MATLAB软件确定乳腺病灶起始到终止间的影像序列段以及肿瘤具体位置；对于病灶起始终止影像段中的每张影像，以不同尺度分别于肿瘤质心处截取多个ROI正方形外接图像块，采用双线性插值算法重新调整正方形图像块的尺寸至64*64像素大小。此外，按照病人随机抽取预处理后目标域数据集的80％作为训练集，用于迁移学习网络的微调；20％作为测试集，用于网络性能的验证。

步骤S203，采用所获得源域数据集中多种序列影像的感兴趣区域，分别对所构建的一分子分型预测模型进行无监督学习预训练，获得模型权重。

本实施例的分子分型预测模型基于2D深度学习卷积神经网络模型(Convolutional neural network，CNN)构建，如图2所示，神经网络模型包括一个初始卷积块、三个引入注意力机制和深度残差收缩机制的卷积池化单元(SE_Inception_CM)、一个特征融合单元、一个全局平均池化层和一个分类层。如图3所示，卷积单元包含两个分支，上分支由大小分别为1×1及3×3等对称卷积核组成，下分支由大小分别为1×3及3×1等非对称卷积核构成，用于多尺度提取肿瘤的层次特征。注意力机制通过自适应学习自动获取每个特征的重要程度，而深度残差收缩机制则在此基础上进一步将特征软阈值化，抑制冗余特征，增强重要特征，同时减小模型训练时梯度弥散或梯度爆炸的风险。特征融合单元用于重构卷积单元1输出特征大小，以实现与卷积单元3输出特征通道的拼接。

如图4所示，在无监督学习预训练过程中，首先将源域数据集的感兴趣区域作为正样本输入到卷积神经网络模型中，卷积单元1输出作为正样本的低阶特征，而全局平均池化层输出作为高阶特征；然后，随机打乱每一正样本的低阶特征及高阶特征的通道排列，获得伪样本的低阶特征及高阶特征；接着，构建判别器，分别计算正伪样本间低阶特征和高阶特征的深度互信息，其中，高阶特征判别器与低阶特征判别器均由三层全连接层所构成，通道数为128、64和1。

整个无监督学习预训练过程中，通过训练大量无标签样本，使得高低阶特征间深度互信息最大化，同时神经网络编码空间要求尽可能服从高斯先验分布，以获得最优化网络连接权重。使用的优化目标函数数学表达式为：

其中，W×H为低阶特征的尺寸，

为输出特征服从的编码分布，

为标准正态分布，G(x)与L_ij(x)分别为全局特征和局部特征，超参数α＝1.0，β＝1.25，γ＝0.01。

步骤S204，采用所获得目标域数据集中多种序列影像的感兴趣区域，分别对所述预训练的分子分型预测模型进行迁移学习微调，更新模型权重，完成训练。

如图5所示，首先，加载网络中全局平均池化层及其以上所有层的预训练权重，移除低阶特征和高阶特征判别器。然后，设置各层学习率lr＝3×10e-4，通过目标域数据集进行微调，选择学习率衰减法和早停法作为模型的回调函数，当模型训练20轮loss未下降，学习率降低10％；当30次的微调后loss仍未明显下降，模型便停止训练，以抑制过拟合现象。

上述步骤S3中，使用加权投票策略对获得的多种序列影像所对应的分子亚型分类预测概率(Prediction probabilities)进行所述集成学习(Ensemble learning)的融合，如图5所示。

将目标域测试集中三种DCE-MRI时间序列影像分别输入模型，获得患者乳腺癌分子分型分类结果；然后，计算各模型预测准确率作为分类性能权值，计算表达式为：

其中，w_i是模型的分类性能权值，下同。Acc_i是模型预测准确率。

将各模型的预测结果与其分类性能权值相乘并求和，输出最高概率类则为该模型最佳预测类。在这里，为简化计算，我们直接计算各模型预测单张影像为管腔上皮型乳腺癌的概率P，最终集成模型的输出类别

为：

其中，p_i是各模型对某一样本的预测概率。

其中，luminal和non_luminal为管腔上皮型和非管腔上皮型乳腺癌。

上述方法在目标域数据集DCE-MRI TPs 1序列影像上进行了测试(集成模型前)。所得单一模型的特异性为95.3％，准确率为88.0％，精准率为95.7％，AUC为0.888，相对于基线模型而言(特异性为97.7％，准确率为76.2％，精准率为97.0％，AUC为0.785)，具有更好的分子分型预测效果。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例2

本实施例提供一种基于无监督学习的乳腺癌分子分型预测装置，包括：训练数据集获取模块，获取用于训练的乳腺DCE-MRI影像，按照影像中病变良恶性划分形成互不相交的一源域数据集和一目标域数据集，所述源域数据集包含的是无标签样本，所述目标域数据集包含的是有标签样本；感兴趣区域提取模块，用于提取多种规格的乳腺DCE-MRI序列影像的感兴趣区域；无监督学习预训练模块，采用所获得源域数据集中多种序列影像的感兴趣区域，分别对所构建的一分子分型预测模型进行无监督学习预训练，获得模型权重；迁移学习微调模块，采用所获得目标域数据集中多种序列影像的感兴趣区域，分别对所述预训练的分子分型预测模型进行迁移学习微调，更新模型权重；分类模块，以训练好的分子分型预测模型对待预测乳腺DCE-MRI影像的多种规格的感兴趣区域进行处理，并采用集成学习融合，获得最终对应的分子亚型分类结果。其余同实施例1。

实施例3

本实施例提供一种本发明还提供了一种基于无监督学习的乳腺癌分子分型预测计算机系统，包括：一个或多个命令处理器和与处理器关联的存储器；其中，所述命令处理器执行时调用存储器中的程序指令，以实现如实施例1所述方法中的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于无监督学习的乳腺癌分子分型方法，其特征在于，该方法包括如下步骤：

所述分子分型预测模型的训练过程包括：

2.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，所述感兴趣区域的提取具体为：

3.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，所述分子亚型分类结果包括管腔上皮型和非管腔上皮型。

4.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，所述分子分型预测模型基于2D深度学习卷积神经网络模型构建，所述2D深度学习卷积神经网络模型包含一个初始卷积块、三个引入注意力机制和深度残差收缩机制的卷积池化单元、一个特征融合单元、一个全局平均池化层和一个分类层。

5.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，所述分子分型预测模型的无监督学习预训练具体为：

6.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，对所述分子分型预测模型进行无监督学习预训练时使用的优化目标函数数学表达式为：

其中，W×H为低阶特征的尺寸，

为输出特征服从的编码分布，

为标准正态分布，G(x)与L_ij(x)分别为全局特征和局部特征。

7.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，对所述分子分型预测模型进行迁移学习微调时，加载预训练权重，使用较小学习率，通过目标域数据集分别进行微调和重新训练。

8.根据权利要求1所述的基于无监督学习的乳腺癌分子分型方法，其特征在于，使用加权投票策略对获得的多种序列影像所对应的分子亚型分类概率进行所述集成学习的融合。

9.一种基于无监督学习的乳腺癌分子分型装置，其特征在于，包括：

10.一种基于无监督学习的乳腺癌分子分型计算机系统，其特征在于，包括：

一个或多个命令处理器；

与处理器关联的存储器；

其中，所述命令处理器执行时调用存储器中的程序指令，以实现如权利要求1-8中任一项所述方法中的步骤。