CN116883995A

CN116883995A - 一种乳腺癌分子亚型的识别系统

Info

Publication number: CN116883995A
Application number: CN202310831537.1A
Authority: CN
Inventors: 赖胜圣; 杨蕊梦; 甄鑫; 梁芳蓉; 张婉丽; 刘虔铖; 韦瑞丽
Original assignee: Guangdong Food and Drugs Vocational College; Guangzhou First Peoples Hospital
Current assignee: Guangdong Food and Drugs Vocational College; Guangzhou First Peoples Hospital
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-13
Anticipated expiration: 2043-07-07
Also published as: CN116883995B

Abstract

本发明公开了一种乳腺癌分子亚型的识别系统，包括：模型构建模块、序列获取模块、特征提取模块、特征融合模块以及乳腺癌分子亚型识别模块；所述模型构建模块，用于获取经病理证实的乳腺癌MRI图像的M个MRI序列样本，并分别提取每一MRI序列样本中N个样本对象的影像组学特征数据；对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征；基于所述关键影像组学特征建立乳腺癌分子亚型识别模型；所述乳腺癌分子亚型识别模块，用于将待识别融合序列输入乳腺癌分子亚型识别模型中，以使乳腺癌分子亚型识别模型输出与待识别乳腺癌MRI图像对应的乳腺癌分子亚型。

Description

一种乳腺癌分子亚型的识别系统

技术领域

本发明涉及医学影像和机器学习技术领域，尤其涉及一种乳腺癌分子亚型的识别系统。

背景技术

乳腺癌是全球女性最常见的恶性肿瘤，占女性恶性肿瘤发病率第一位，且发病率随着年龄的增长呈上升趋势。乳腺癌在肿瘤内和肿瘤间具有高度的异质性，同时不同的分子受体状态会呈现出患者预后、治疗反应和生存率的显著差异。目前基因表达谱揭示了乳腺癌的四种主要的分子亚型，包括luminal A、luminal B、富含人表皮生长因子受体2(human epidermal growth factor receptor 2,Her-2)和三阴性型(triple negative,TNBC)，他们具有显著不同的分子受体状态，促进了基于分子亚型的不同治疗方法的建议，如内分泌治疗或新辅助全身治疗。

目前临床上，在侵入性组织活检或手术切除后的标本，可以通过基因表达谱或免疫组织化学替代物来确定分子受体状态。然而，由于乳腺癌本身的异质性，单次组织活检不足以在全肿瘤范围内捕获到乳腺癌的表观遗传和/或表型等特征，同时也不可避免的存在选择偏差。此外，随着肿瘤生物学的发展和治疗的应用，乳腺癌的受体状态和亚型可能会发生变化，因此难以动态地反映病变的真实情况。如何及时准确的识别乳腺癌分子亚型是一个亟需解决的问题。

发明内容

本发明实施例提供一种乳腺癌分子亚型的识别系统，能实现对乳腺癌分子亚型的及时准确识别。

本发明一实施例提供一种乳腺癌分子亚型的识别系统，包括：模型构建模块、序列获取模块、特征提取模块、特征融合模块以及乳腺癌分子亚型识别模块；

所述模型构建模块，用于获取经病理证实的乳腺癌MRI图像的M个MRI序列样本，并分别提取每一MRI序列样本中N个样本对象的影像组学特征数据；对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征；基于所述关键影像组学特征建立乳腺癌分子亚型识别模型；其中，每一影像组学特征数据包括若干影像组学特征；

所述序列获取模块，用于获取待识别乳腺癌MRI图像的若干MRI序列；

所述特征提取模块，用于分别对每一待识别MRI序列进行特征提取，生成每一待识别MRI序列的影像组学特征；

所述特征融合模块，用于将待识别乳腺癌MRI图像的各待识别MRI序列的影像组学特征进行融合，生成待识别融合序列；

所述乳腺癌分子亚型识别模块，用于将待识别融合序列输入乳腺癌分子亚型识别模型中，以使乳腺癌分子亚型识别模型输出与待识别乳腺癌MRI图像对应的乳腺癌分子亚型。

进一步地，模型构建模块，对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征，包括：

对每一MRI序列样本的影像组学特征数据，分别采用trace_ratio算法、MCFS算法和UDFS算法，对每一影像组学特征数据中的若干影像组学特征进行筛选，得到每一MRI序列样本在每一算法下筛选到的若干关键影像组学特征。

进一步地，模型构建模块，基于所述关键影像组学特征建立乳腺癌分子亚型识别模型，包括：

根据M个MRI序列样本的若干关键影像组学特征确定G个MRI序列样本；

对所述G个MRI序列样本的影像组学特征的不同组合进行融合，生成L个融合序列样本及L个对应的转换矩阵；

根据L个融合序列样本的若干影像组学特征建立乳腺癌分子亚型识别模型；其中，G<M<L。

进一步地，模型构建模块，根据L个融合序列样本的若干影像组学特征建立乳腺癌分子亚型识别模型，包括：

从所述L个融合序列样本中选取AUC指标最接近1的融合序列样本作为目标融合序列；

根据目标融合序列的若干影像组学特征建立乳腺癌分子亚型识别模型。

进一步地，特征提取模块，分别对每一待识别MR I序列进行特征提取，生成每一待识别MRI序列的影像组学特征，包括：

对于每一待识别MRI序列，调用I TK-SNAP软件在所述待识别MRI序列的每一层对目标容积感兴趣区进行勾画，并对勾画的目标容积感兴趣区进行特征提取，生成每一待识别MRI序列的影像组学特征。

进一步地，所述模型构建模块，通过以下方式生成每一融合序列样本所对应的转换矩阵：

对于每一融合序列样本，根据融合序列样本所包含的所有样本对象的影像组学特征生成每一融合序列样本中每一影像组学特征的多序列特征矩阵；

计算多序列特征矩阵中各类样本对象的特征向量；

根据各类样本对象的特征向量计算融合序列样本中所有样本对象的特征向量均值；

根据各类样本对象的特征向量以及融合序列样本中所有样本对象的特征向量均值，计算获得所述多序列特征矩阵的类间散射矩阵以及协方差矩阵；

根据所述类间散射矩阵以及所述协方差矩阵，计算出所述类间散射矩阵的转置矩阵，将所述转置矩阵对角化，生成第一特征向量矩阵；

从所述第一特征向量矩阵中获取前r个最大特征值所对应的特征向量，生成第二特征向量矩阵；

根据所述类间散射矩阵、所述协方差矩阵和所述第二特征向量矩阵计算所述类间散射矩阵的前r个最重要特征值及其对应的特征向量；

根据所述类间散射矩阵的前r个最重要特征值及其对应的特征向量，生成每一影像组学特征的转换矩阵；

根据所述转换矩阵，对每个所述影像组学特征的多序列特征矩阵进行融合，生成每个所述影像组学特征的融合向量；

将所有所述影像组学特征的融合向量进行拼接，生成融合序列样本对应的融合特征矩阵；

将所有所述影像组学特征的转换矩阵进行拼接，获得融合序列样本对应的转换矩阵。

进一步地，所述计算多序列特征矩阵中各类样本对象的特征向量，包括：

通过以下公式计算多序列特征矩阵中各类样本对象的特征向量：

其中，c代表乳腺癌分子亚型数，n_i代表第i类的样本数，i＝1,…,c；x_ij代表第i类的第j个样本，j＝1,2,…,n_i。

通过实施本发明具有如下有益效果：

本发明提供了一种乳腺癌分子亚型的识别系统，包括：模型构建模块、序列获取模块、特征提取模块、特征融合模块以及乳腺癌分子亚型识别模块；通过构建乳腺癌分子亚型识别模型，在获取待识别乳腺癌MRI图像的若干MRI序列时，能对所获取的待识别MRI序列做特征提取及融合后，通过已构建的乳腺癌分子亚型识别模型对MRI序列中提取的特征进行识别；通过模型构建模块已构建的乳腺癌分子亚型识别模型实现对乳腺癌分子亚型的及时准确识别，克服了现有技术无法及时准确识别乳腺癌分子亚型的问题。

附图说明

图1是本发明一实施例提供的一种乳腺癌分子亚型的识别系统的结构示意图。

图2是本发明一实施例提供的一种乳腺癌分子亚型识别模型的训练过程示意图。

图3是本发明一实施例提供的一种乳腺癌分子亚型识别模型的测试过程示意图。

图4是本发明一实施例提供的三个个乳腺癌分子亚型预测任务的M种MRI序列的分类性能示意图。

图5-图7是本发明一实施例提供的三个乳腺癌分子亚型预测任务的融合序列样本的分类性能示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供的一种乳腺癌分子亚型的识别系统，包括：模型构建模块、序列获取模块、特征提取模块、特征融合模块以及乳腺癌分子亚型识别模块；

所述特征融合模块，用于将待识别乳腺癌MR I图像的各待识别MRI序列的影像组学特征进行融合，生成待识别融合序列；

如图2和图3所示，对于乳腺癌分子亚型识别模型的构建包括两部分，分别为模型训练阶段和模型测试阶段，在模型构建模块中，构建乳腺癌分子亚型识别模型包括以下步骤：

步骤S1：获取经病理证实的乳腺癌MRI图像的M个MRI序列样本，并分别提取每一MRI序列样本中N个样本对象的影像组学特征数据；

步骤S2：对每一MR I序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征；

步骤S3：基于所述关键影像组学特征建立乳腺癌分子亚型识别模型；

对于步骤S1、获取多个经病理证实的乳腺癌MRI图像的M个MRI序列样本，并根据手术时间将多个经病理证实的乳腺癌MRI图像随机分配到训练队列或测试队列中；其中，训练队列中被分配的图像与测试队列中被分配的图像的比例约为3：1，训练队列作为本次构建乳腺癌分子亚型识别模型的训练样本，测试队列作为对乳腺癌分子亚型识别模型构建完成后对模型性能测试所用的测试样本。

需要说明的是，在获取多个经病理证实的乳腺癌MR I图像的M个MRI序列样本之前，需要对患者进行筛选，筛选条件包括：入选标准和排除标准。

入选标准包括：(1)通过手术切除或针刺活检病理证实的乳腺癌患者；(2)在病理检查前一周内接受常规多参数MRI的患者，包括T1W I，T2WI，DWI(b值为0s/mm²,600s/mm²和800s/mm²)，ADC图和DCE-MRI(具有6个连续增强阶段)；(3)在多参数MRI检查和病理结果之前没有任何药物或侵入性治疗的患者。

排除标准包括：(1)乳腺癌复发患者；(2)存在不完全的病理结果的患者，如没有IHC结果，没有ki-67评分或不明确的组织学类型；(3)由于图像伪影难以勾画VO I的患者；(4)存在乳房植入物的患者。此外，如果患者有多中心或多灶性肿瘤，我们只选择病灶最大的恶性病变。对于发生双侧乳腺癌患者，根据病理结果选择同侧乳腺的最大病灶。

根据上述入选标准和排除标准，本实施例在获取了552例早期乳腺癌患者进行筛选，其中有460例患者对象的466个病灶符合入选标准，对符合入选条件的病例进行MRI序列数据的收集，继而根据所收集到的MRI序列数据获取本实施例所需使用的MRI序列样本数据。

例如：采集患者在1.5T MRI系统进行的术前常规乳腺多参数MRI检查结果，所采集的MRI具体扫描参数如下表所示：

在对乳腺癌分子亚型识别模型的训练过程中，在获取到多个经病理证实的乳腺癌MRI图像的M个MRI序列样本后，对于每一MRI序列样本，分别提取N个样本对象的影像组学特征数据以及各样本对象对应的标签数据；标签数据用于表征样本对象所述的乳腺癌分子亚型，与样本对象之间存在一一对应的关系，标签数据表征的乳腺癌分子亚型至少包括两个；

本实施例在进行特征提取时均调用ITK-SNAP软件的方式进行，在一个优选的实施例中，特征提取模块，分别对每一待识别MRI序列进行特征提取，生成每一待识别MRI序列的影像组学特征，包括：对于每一待识别MRI序列，调用ITK-SNAP软件在所述待识别MRI序列的每一层对目标容积感兴趣区进行勾画，并对勾画的目标容积感兴趣区进行特征提取，生成每一待识别MRI序列的影像组学特征。

具体的，在特征提取模块对待识别MRI序列进行特征提取时，对于每一待识别的MRI序列，根据用户输入的操作参数采用ITK-SNAP软件在待识别MRI序列的每一层对目标容积感兴趣区(VOI)进行勾画，之后利用开源的python包Pyradiomics对目标容积感兴趣区(VOI)进行109个影像特征数据的提取；需要说明的是，为使特征提取更为准确，在操作软件时用户可以是经验丰富的至少两名放射诊断专家。在对乳腺癌分子亚型识别模型构建的过程中，在对每一MRI序列样本中的N各样本对象的影像组学特征数据进行提取时，与上述特征提取模块所采用的提取方式相同，此处不再赘述。

可选的，影像组学特征数据可以包括：(1)10个一阶统计量特征(first orderfeatures)；(2)15个形状特征(shape features)；(3)75个纹理特征(texture features)，如灰度共生矩阵(gray level co-occurrence matrix，GLCM)、灰度游程矩阵(gray levelrun length matrix，glrlm)、灰度大小区域矩阵(gray level size zone matrix，glszm)、灰度依赖矩阵(gray level dependence matrix，gldm)、邻域灰度差矩阵(neighbouringgray tone difference matrix，ngtdm)等特征。本发明实施例提取的109个影像组学特征如下表所示：

在本实施例中，乳腺癌分子亚型可以包括：luminal A、luminal B、Her-2和TNBC四种类型。本实施例进行了3个独立的乳腺癌分子亚型预测任务，分别为：(1)激素受体阳性(hormone receptor positive，HR+)病灶与激素受体阴性(hormone receptor negative，HR-)病灶的鉴别；(2)富含人类表皮生长因子受体2(Her-2)的乳腺癌(HEBC)与三阴性乳腺癌(TNBC)的鉴别；(3)三阴性乳腺癌(TNBC)与非三阴性乳腺癌(non-TNBC)的鉴别；其中HR+包括luminal A和luminal B，HR-包括Her-2和TNBC，non-TNBC包括luminal A、luminal B和Her-2。那么对于不同的预测任务，标签数据均可以包括两类。例如，对于预测任务1，标签数据设置为0或1，然后用0指代HR-，1指代HR+；对于预测任务2，标签数据设置为0或1，然后用0指代HEBC，1指代TNBC；对于预测任务3，标签数据设置为0或1，然后用0指代non-TNBC，1指代TNBC。通过上述设置的标签数据和预测任务实现对乳腺癌分子亚型识别模型的训练。

在本实施例中，假设N为337，可以确定337例经病理证实的不同分子亚型乳腺癌患者对象作为样本对象，然后采集337个样本对象在手术前基于M种MRI序列进行扫描得到的图像。在这337例经病理证实的不同分子亚型乳腺癌患者中，可以包括99例luminal A型患者、139例luminal B型患者、56例HEBC患者和43例TNBC患者。

需要补充的是，由于在样本对象获取的过程中，可能存在样本对象数据不均衡的问题，在面临样本对象数据不均匀时，还可以使用合成少数类过采样(synthetic minorityoversampling technique，SMOTE)算法对样本对象数据进行类别均衡，通过引入合成的特征样本对少数类的样本对象进行过采样，再进行后续处理，以克服数据类别不均衡带来的消极影响。

对于步骤S2、在一个优选的是实施例中，模型构建模块，对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征，包括：对每一MRI序列样本的影像组学特征数据，分别采用trace_ratio算法、MCFS算法和UDFS算法，对每一影像组学特征数据中的若干影像组学特征进行筛选，得到每一MRI序列样本在每一算法下筛选到的若干关键影像组学特征。

具体的，结合上述步骤S1中所构建的三个预测任务，对于每个预测任务的每种MRI序列样本的影像组学特征数据，分别采用trace_ratio(基于跟踪率准则的特征选择算法)、MCFS(多类簇特征选择算法)和UDFS(无监督判别特征选择算法)对每一MRI序列样本中的每一影像组学特征数据中的若干影像组学特征进行筛选，继而得到对应筛选后的若干关键影像组学特征；需要说明的是，由于本实施中采用了三种特征选择算法，在每一种特征选择算法分别对影像组学特征数据进行筛选时，每一种特征选择算法在进行特征选择时，可在每一特征选择算法后结合一分类器从而构建除每一特征选择算法所对应的特征选择模型；例如：trace_ratio加上一分类器形成一特征选择模型，MCFS加上一分类器形成一特征选择模型，UDFS加上一分类器形成一特征选择模型；因此，对于每一MRI序列样本在影像组学特征数据筛选中一共构建了三个特征选择模型。

本实施例所选取的三种特征选择算法有如下特征及优点：trace_ratio选择那些使得同一类样本数据的相似性最大且不同类的样本数据的相似性最小的特征子集，MCFS在特征选择过程中最大程度保持数据的簇结构，使得被选特征的分辨能力对所有簇类都有效，而UDFS着重对特征的分辨能力进行建模。这三种不同的特征选择算法可以稳定、准确地筛选到关键影像组学特征，进而能够有效提高建模的稳定性。此外，上述特征选择模型的构建采用二分逻辑回归算法构建，二分类逻辑回归算法所构建的模型是一种广义的线性回归分析模型，可用于根据危险因素预测疾病发生的概率，结合L2正则化可以有效避免过拟合的风险，从而提高泛化能力，使得构建得到的特征选择模型更稳定以及准确。

例如：可以采用Python编程语言环境下的scikit-learn机器学习软件包，针对二分类逻辑回归算法进行训练，并与上述的trace_ratio、MCFS和UDFS三种特征选择算法进行组合，得到三个特征选择模型。然后把可以将每一MRI序列的影像组学特征数据以及对应的标签数据输入到上述的三个特征选择模型中，采用10折交叉验证，每个特征选择模型中的指定特征选择算法会先获取特征代表集合，再把这个特征代表集合输入到特征选择模型所对应的分类器中调用fit函数进行训练和predict函数进行预测，保存并输出分类结果。

对于步骤S3、在一个优选的实施例中，模型构建模块，基于所述关键影像组学特征建立乳腺癌分子亚型识别模型，包括：根据M个MRI序列样本的若干关键影像组学特征确定G个MRI序列样本；对所述G个MRI序列样本的影像组学特征的不同组合进行融合，生成L个融合序列样本及L个对应的转换矩阵；根据L个融合序列样本的若干影像组学特征建立乳腺癌分子亚型识别模型；其中，G<M<L。

具体的，对于每个乳腺癌分子亚型预测任务的M种MRI序列样本，根据每一MRI序列样本构建出的三个特征选择模型的分类性能确定每个分子亚型预测任务中最优的前G个MRI序列样本；

具体的，可以计算每一MRI序列样本的各特征选择模型的AUC(Area Under Curve)指标，并以这些特征选择模型的最高AUC作为评估不同MRI序列样本的分类性能；其中，AUC指标的取值范围在0.5到1之间，当AUC越接近1时，真实性越高，说明分类性能越好。如图4所示，为三个乳腺癌分子亚型预测任务的M种MRI序列样本的分类性能，其中，菱形符号表示每个预测任务在M种MRI序列中的最优序列。从图4中可以看出，对于HR+vs.HR-预测任务，M种MRI序列中取得最佳性能的是DWI₆₀₀(AUC＝0.787)；对于TNBC vs.HEBC和TNBC vs.non-TNBC这两个预测任务,M种MRI序列样本中取得最佳性能的均为ADC序列(AUC分别为0.788和0.809)。在本实施例中，设定G为4，那么可以确定对于HR+vs.HR-预测任务，最优的G种MRI序列样本包括DWI₆₀₀、DWI ₈₀₀、ADC、DEC₅；对于TNBC vs.HEBC预测任务，最优的G种MRI序列样本包括ADC、DCE₂、DCE₃、DCE₄；对于TNBC vs.non-TNBC预测任务，最优的G种MRI序列样本包括ADC、DWI₆₀₀、T2WI、DCE₂。

根据每个乳腺癌分子亚型预测任务的最优的前G种MRI序列样本，分别对其中任意两种、三种、…、G种所述MRI序列样本的影像组学特征进行融合，得到每个乳腺癌分子亚型预测任务的L个融合序列样本和L个对应的转换矩阵，L的值根据G确定；

需要说明的是，针对每个融合序列样本所包含的至少两种MRI序列样本，每种MRI序列样本下的每个样本对象均包括有上述的109个影像组学特征。对于每一个影像组学特征，可以根据该融合序列所包括的所有样本对象的影像组学特征，构造出每一个影像组学特征的多序列特征矩阵，该多序列特征矩阵包括基于该融合序列样本所需融合的各种MRI序列的特征矩阵，再基于所提出的特征融合方法(R_FF)，从多序列特征矩阵中计算获得每个影像组学特征的转换矩阵，然后再根据转换矩阵，对每个影像组学特征的多序列特征矩阵进行融合，获得每个影像组学特征的融合向量。

在一个优选的实施例中，所述模型构建模块，通过以下方式生成每一融合序列样本所对应的转换矩阵：对于每一融合序列样本，根据融合序列样本所包含的所有样本对象的影像组学特征生成每一融合序列样本中每一影像组学特征的多序列特征矩阵；计算多序列特征矩阵中各类样本对象的特征向量；根据各类样本对象的特征向量计算融合序列样本中所有样本对象的特征向量均值；根据各类样本对象的特征向量以及融合序列样本中所有样本对象的特征向量均值，计算获得所述多序列特征矩阵的类间散射矩阵以及协方差矩阵；根据所述类间散射矩阵以及所述协方差矩阵，计算出所述类间散射矩阵的转置矩阵，将所述转置矩阵对角化，生成第一特征向量矩阵；从所述第一特征向量矩阵中获取前r个最大特征值所对应的特征向量，生成第二特征向量矩阵；根据所述类间散射矩阵、所述协方差矩阵和所述第二特征向量矩阵计算所述类间散射矩阵的前r个最重要特征值及其对应的特征向量；根据所述类间散射矩阵的前r个最重要特征值及其对应的特征向量，生成每一影像组学特征的转换矩阵；根据所述转换矩阵，对每个所述影像组学特征的多序列特征矩阵进行融合，生成每个所述影像组学特征的融合向量；将所有所述影像组学特征的融合向量进行拼接，生成融合序列样本对应的融合特征矩阵；将所有所述影像组学特征的转换矩阵进行拼接，获得融合序列样本对应的转换矩阵。

在另一个优选的实施例中，所述计算多序列特征矩阵中各类样本对象的特征向量，包括：

具体的，对于每个融合序列样本，可以对109个影像组学特征的每一个影像组学特征都执行一遍如步骤S101～S107的计算过程；

步骤S101：构造出每一个影像组学特征的多序列特征矩阵X，并通过以下公式(1)和(2)计算获得多序列特征矩阵X中各类样本对象的特征向量以及所有样本对象的特征向量均值

其中，c(c＝2)代表乳腺癌分子亚型数，n_i代表第i类的样本数，i＝1,…,c；x_ij代表第i类的第j个样本，j＝1,2,…,n_i。

步骤S102：将各类样本对象的特征向量以及所有样本对象的特征向量均值输入以下公式(3)，计算多序列特征矩阵X的类间散射矩阵S_bx以及协方差矩阵φ_bx。

其中，T为转置符号，

步骤S103：根据类间散射矩阵S_bx以及协方差矩阵φ_bx，计算类间散射矩阵S_bx的转置矩阵S^T _bx＝Φ_bx ^TΦ_bx，然后利用以下公式(4)将转置矩阵S^T _bx对角化，输出S^T _bx对角化时的特征向量矩阵P(即上述第一特征向量矩阵)。

其中，代表特征值矩阵。

步骤S104：输入S^T _bx的特征向量矩阵P，从P中取出前r个最大特征值Λ_r×r所对应的特征向量，组成新特征向量矩阵Q(即上述第二特征向量矩阵)并输出，如公式(5)所示。

Q^T(Φ_bx ^T Φ_bx)Q＝Λ_r×r (5)

其中，r代表融合后的维度，在本实施例中r＝1。

步骤S105：将类间散射矩阵S_bx、协方差矩阵φ_bx和新特征向量矩阵Q输入公式(6)，计算出S_bx的前r个最重要的特征值Λ_(r×r)和对应的特征向量输出S_bx的前r个最重要的特征值Λ_(r×r)及其对应的特征向量

步骤S106：输入S_bx的前r个最重要的特征值Λ_(r×r)及其对应的特征向量根据公式(7)计算得到每个影像组学特征的转换矩阵w。

步骤S107：输入每个影像组学特征的多序列特征矩阵X和对应的转换矩阵w，根据公式(8)对每个影像组学特征的多序列特征矩阵X进行融合，得到融合后的融合向量f。

f＝w^TX_p×N (8)

其中，p(p＝2,3,4)代表每个融合序列所需融合的MRI序列数，N代表样本数，

对于每一个融合序列样本来说，重复执行以上步骤S101-S107，直至遍历109个影像组学特征之后，可以获得每个影像组学特征的融合向量f，然后将所有影像组学特征的融合向量f进行拼接，获得融合特征矩阵F，该融合特征矩阵对应于所有样本对象，因此可以根据不同样本对象对融合特征矩阵F进行划分，获得与N个样本对象一一对应的N个基于影像组学的融合特征数据样本。可以理解的是，N个基于影像组学的融合特征数据样本也与其所属的样本对象的标签数据相对应。此外，对于每一个融合序列样本来说，可以将步骤S106中获得的每个影像组学特征的转换矩阵w拼接起来，产生一个最终的转换矩阵W。重复执行以上步骤S101～S107，直至遍历所有融合序列样本之后，即可获得L个最终的转换矩阵W以及L个融合特征矩阵F，每个融合特征矩阵F包括N个样本对象，且融合了其所属的融合序列样本所需融合的所有MRI序列样本的影像组学特征。

对于每个预测任务的每种融合序列样本，分别采用trace_rat io(基于跟踪率准则的特征选择算法)、MCFS(多类簇特征选择算法)和UDFS(无监督判别特征选择算法)对每一融合序列样本中的每一影像组学特征数据中的若干影像组学特征进行筛选，继而得到对应筛选后的若干关键影像组学特征；需要说明的是，由于本实施中采用了三种特征选择算法，在每一种特征选择算法分别对影像组学特征数据进行筛选时，每一种特征选择算法在进行特征选择时，可在每一特征选择算法后结合一分类器从而构建每一特征选择算法所对应的特征选择模型；例如：trace_rat io加上一分类器形成一特征选择模型，MCFS加上一分类器形成一特征选择模型，UDFS加上一分类器形成一特征选择模型；因此，对于每一MRI序列样本在影像组学特征数据筛选中一共构建了三个特征选择模型。

例如：可以采用Python编程语言环境下的sci kit-l earn机器学习软件包，针对二分类逻辑回归算法进行训练，并与以上三种特征选择算法进行组合，获得三个特征选择模型。然后可以将每种融合序列样本的影像组学特征数据以及对应的标签数据输入到上述的三个特征选择模型中，采用10折交叉验证，每个特征选择模型中的指定特征选择算法会先获取特征代表集合，再把这个特征代表集合输入到对应的分类器中调用fit函数进行训练和pred ict函数进行预测，保存并输出分类结果。

对于每个预测任务的L种融合序列样本，根据每种融合序列样本构建出的三个特征选择模型的分类性能确定每个预测任务最优的目标融合序列，并获得每个预测任务的目标分类系统(即上述乳腺癌分子亚型识别模型)。

在一个优选的实施例中，模型构建模块，根据L个融合序列样本的若干影像组学特征建立乳腺癌分子亚型识别模型，包括：从所述L个融合序列样本中选取AUC指标最接近1的融合序列样本作为目标融合序列；根据目标融合序列的若干影像组学特征建立乳腺癌分子亚型识别模型。

具体的，选取同样以AUC指标作为衡量标准，对于每个预测任务，可以计算L种融合序列样本的各个特征选择模型的AUC指标，并以这些特征选择模型的最高AUC作为评估不同融合序列样本的分类性能，其中AUC的取值范围在0.5和1之间。AUC越接近1，真实性越高，说明分类性能越好。三个乳腺癌分子亚型预测任务的最优的前G种MRI序列所组成的L种融合序列的分类性能如下图5、图6、图7所示。其中图5、图6、图7分别表示HR+vs.HR-、表示TNBCvs.HEBC、TNBC vs.non-TNBC这三个预测任务，星号(*)表示与最优的单一序列的分类性能相比具有显著提升的融合序列样本，其中菱形(◆)表示最优的融合序列样本，即本发明的目标融合序列。

从图5-图7中可以看出，对于HR+vs.HR-预测任务，最优的目标融合序列是DWI₆₀₀+DWI₈₀₀+DCE₅(AUC＝0.809)，且高于该任务的最优的单一序列(DWI₆₀₀，AUC＝0.787)的结果，因此，融合序列样本DWI₆₀₀+DWI₈₀₀+DCE₅所对应的最优特征选择模型“逻辑回归+MCFS”作为HR+vs.HR-预测任务的目标分类系统；对于TNBC vs.HEBC预测任务，最优的目标融合序列是ADC+DCE₂+DCE₄(AUC＝0.805)，且高于该任务的最优的单一序列(ADC，AUC＝0.788)的结果，因此，融合序列样本ADC+DCE₂+DCE₄所对应的最优特征选择模型“逻辑回归+UDFS”作为TNBCvs.HEBC预测任务的目标分类系统；对于TNBC vs.non-TNBC预测任务,最优的目标融合序列是ADC+DWI₆₀₀+T2WI+DCE₂(AUC＝0.847)，且高于该任务的最优的单一序列(ADC，AUC＝0.809)的结果，因此，融合序列样本ADC+DWI₆₀₀+T2WI+DCE₂所对应的最优特征选择模型“逻辑回归+trace_rat io”作为TNBC vs.non-TNBC预测任务的目标分类系统。在3个预测任务中，TNBC vs.non-TNBC的分类性能最优，其次是HR+vs.HR-，最差的是TNBC vs.HEBC。

分别对基于目标融合序列的3个预测任务的所有特征选择模型在10折交叉验证上筛选的若干个关键影像组学特征进行了统计(仅统计AUC＞0.6的特征)和排序，并分析了前5个最常选择的影像组学特征的分类能力，如下表所示。其中M为每一个任务中两组的影像组学特征的均值的平均，“(<M|>M)”的字母表示两组中特征值小于或大于“M”的患者的百分比。粗体的值表示这些特征在两组间具有更好的区分性能。

从上表可知，与HR+vs.HR-预测任务相关的前5个特征包括3个形状特征和2个基于纹理的灰度共生矩阵(glcm)特征，与TNBC vs.HEBC预测任务和TNBC vs.non-TNBC预测任务相关的前5个特征主要为一阶统计量特征(分别占80％和100％)。此外，TNBC vs.non-TNBC预测任务的前5个特征展示出了最优的分类能力(大概有65％的TNBC患者显示了更低的特征值，大概有75％的non-TNBC患者显示了更高的特征值)，其次是TNBC vs.HEBC预测任务，最差的是HR+vs.HR-预测任务。

在完成上述模型训练的过程后，对所训练的模型进行测试；在测试的过程中，首选获取三个乳腺癌分子亚型预测任务的目标融合序列多包含的K种MRI序列，分别提取测试队列目标待测对象在每一种MRI序列上的影像组学特征数据以及各个所述待测对象的标签数据。

对于HR+vs.HR-预测任务，训练阶段已确定了上述DWI₆₀₀+DWI₈₀₀+DCE₅融合序列样本作为HR+vs.HR-预测任务的目标融合序列之后，确定129例经病理证实的乳腺癌患者(98例HR+与38例HR-)作为测试对象，并采集测试对象手术前基于目标融合序列所包括的DWI₆₀₀、DWI₈₀₀和DCE₂三种不同的MRI序列样本进行扫描得到的图像作为测试图像，对构建的目标分类系统进行应用测试；

对于TNBC vs.HEBC预测任务，训练阶段已确定上述ADC+DCE₂+DCE₄融合序列样本作为TNBC vs.HEBC预测任务的目标融合序列之后，确定31例经病理证实的乳腺癌患者(11例TNBC与20例HEBC)作为测试对象，并采集测试对象手术前基于目标融合序列所包括的ADC、DCE₂和DCE₄三种不同的MRI序列样本进行扫描得到的图像作为测试图像，对构建的目标分类系统进行应用测试；

对于TNBC vs.non-TNBC预测任务，训练阶段已确定上述ADC+DWI₆₀₀+T2WI+DCE₂融合序列样本作为TNBC vs.non-TNBC预测任务的目标融合序列之后，确定129例经病理证实的乳腺癌患者(11例TNBC与118例non-TNBC)作为测试对象，并采集测试对象手术前基于目标融合序列所包括的ADC、DWI₆₀₀、T2WI和DCE₂四种不同的MRI序列样本进行扫描得到的图像作为测试图像，对构建的目标分类系统进行应用测试；

然后对各个测试对象进行肿瘤类型标记，获得各个测试对象的标签数据。之后分别对上述三个预测任务目标融合序列包括的每种MRI序列样本进行影像组学特征提取，提取过程此处不再赘述。

根据所述每个预测任务目标融合序列的转换矩阵，对目标待测对象的K种MRI序列的影像组学特征进行融合，以获得每个预测任务目标待测对象的融合序列；

对于HR+vs.HR-预测任务，根据训练过程中DWI ₆₀₀+DWI ₈₀₀+DCE₅融合序列样本的转换矩阵，将目标待测对象的DWI ₆₀₀、DWI ₈₀₀和DCE₂三种不同的MRI序列下的影像组学特征数据融合，以获得HR+vs.HR-预测任务目标待测对象的融合序列；

对于TNBC vs.HEBC预测任务，根据训练过程中ADC+DCE₂+DCE₄融合序列样本的转换矩阵，将目标待测对象的ADC、DCE₂和DCE₄三种不同的MRI序列下的影像组学特征数据融合，以获得TNBC vs.HEBC预测任务目标待测对象的融合序列；

对于TNBC vs.non-TNBC预测任务，根据训练过程中ADC+DWI ₆₀₀+T2WI+DCE₂融合序列样本的转换矩阵，将目标待测对象的ADC、DWI ₆₀₀、T2WI和DCE₂四种不同的MRI序列样本的影像组学特征数据融合，以获得TNBC vs.non-TNBC预测任务目标待测对象的融合序列。

将所述每个预测任务目标待测对象的融合序列输入每个预测任务的目标分类系统(即上述乳腺癌分子亚型识别模型)，根据目标分类系统的输出结果确定所述每个预测任务目标待测对象的目标标签数据。

分别将HR+vs.HR-预测任务目标待测对象的融合序列、TNBC vs.HEBC预测任务目标待测对象的融合序列、TNBC vs.non-TNBC预测任务目标待测对象的融合序列分别输入到HR+vs.HR-预测任务的目标分类系统、TNBC vs.HEBC预测任务的目标分类系统、TNBCvs.non-TNBC预测任务的目标分类系统，以使每一个预测任务的目标分类系统的最优特征选择模型逐一对每个融合序列进行处理，并根据最优特征选择模型输出的概率得分，确定每个测试对象的乳腺癌分子亚型分类结果。

根据所有测试对象的乳腺癌分子亚型分类结果，分别计算HR+vs.HR-预测任务、TNBC vs.HEBC预测任务、TNBC vs.non-TNBC预测任务的目标分类系统的AUC最大的特征选择模型(R_FF)的分类性能，性能指标包括AUC、分类准确率(Accuracy，ACC)、灵敏度(Sensitivity，SEN)和特异度(Specificity，SPE)，并与融合序列所包含的最优的单一序列AUC最大的特征选择模型(Radiomics of single sequence,Rss)的性能进行了比较，如下表所示。其中f代表使用Wilcoxon符号秩检验，P值＜0.05认为具有统计学差异，以粗体表示。

从上表可知，在TNBCvs.HEBC以及TNBCvs.non-TNBC预测任务的测试集上，所提出的特征融合方法(R_FF)构建的模型性能要显著优于最优单一MRI序列构建的模型性能(0.773vs.0.718和0.773vs.0.735)，这证实了所提出方法的优越性。

由测试结果可知，本发明实施例所公开的一种乳腺癌分子亚型的识别系统中的模型构建模块，可以构建一个充分利用多个MRI序列的潜在图像信息的乳腺癌分子亚型识别模型。通过所提出基于影像组学的特征融合方法(R_FF)不仅可以融合来自多个MRI序列的影像组学特征，还可以增加融合后的特征的鉴别能力。融合后的特征数据通过逻辑回归算法和不同的特征选择算法，可以构造多个由逻辑回归分类器和不同类型的特征选择算法构成的特征选择模型进行分类性能的比较，以达到更可靠的分类结果，以及提高识别模型的鲁棒性。进一步地，所提出的方法被应用于3个全面的乳腺癌分子亚型预测任务上，在不同分子亚型组间实现了优越的鉴别性能。

基于上述所构建的乳腺癌分子亚型识别模型，本发明提出的一种乳腺癌分子亚型的识别系统在对乳腺癌分子亚型进行识别时，序列获取模块将获取待识别乳腺癌MRI图像的若干MRI序列；并通过特征提取模块分别对每一待识别MRI序列进行特征提取，生成每一待识别MRI序列的影像组学特征；继而通过特征融合模块将待识别乳腺癌MRI图像的各待识别MRI序列的影像组学特征进行融合，生成待识别融合序列；最终将将待识别融合序列输入乳腺癌分子亚型识别模型中，以使乳腺癌分子亚型识别模型输出与待识别乳腺癌MRI图像对应的乳腺癌分子亚型；实现了对乳腺癌分子亚型的识别。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

所述领域的技术人员可以清楚地了解到，为了方便和简洁，上述描述的装置的具体工作过程，可参考前述方法实施例中对应的过程，在此不再赘述。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种乳腺癌分子亚型的识别系统，其特征在于，包括：模型构建模块、序列获取模块、特征提取模块、特征融合模块以及乳腺癌分子亚型识别模块；

所述模型构建模块，用于获取经病理证实的乳腺癌MRI图像的M个MRI序列样本，并分别提取每一MRI序列样本中N个样本对象的影像组学特征数据；对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征；基于所述关键影像组学特征建立乳腺癌分子亚型识别模型；其中，每一影像组学特征数据包括若干影像组学特征；所述序列获取模块，用于获取待识别乳腺癌MRI图像的若干MRI序列；

2.如权利要求1所述的一种乳腺癌分子亚型的识别系统，其特征在于，模型构建模块，对每一MRI序列样本的影像组学特征数据进行筛选得到每一MRI序列样本的若干关键影像组学特征，包括：

3.如权利要求2所述的一种乳腺癌分子亚型的识别系统，其特征在于，模型构建模块，基于所述关键影像组学特征建立乳腺癌分子亚型识别模型，包括：

4.如权利要求3所述的一种乳腺癌分子亚型的识别系统，其特征在于，模型构建模块，根据L个融合序列样本的若干影像组学特征建立乳腺癌分子亚型识别模型，包括：

5.如权利要求1所述的一种乳腺癌分子亚型的识别系统，其特征在于，特征提取模块，分别对每一待识别MRI序列进行特征提取，生成每一待识别MRI序列的影像组学特征，包括：

对于每一待识别MRI序列，调用ITK-SNAP软件在所述待识别MRI序列的每一层对目标容积感兴趣区进行勾画，并对勾画的目标容积感兴趣区进行特征提取，生成每一待识别MRI序列的影像组学特征。

6.如权利要求4所述的一种乳腺癌分子亚型的识别系统，其特征在于，所述模型构建模块，通过以下方式生成每一融合序列样本所对应的转换矩阵：

计算多序列特征矩阵中各类样本对象的特征向量；

7.如权利要求6所述的一种乳腺癌分子亚型的识别系统，其特征在于，所述计算多序列特征矩阵中各类样本对象的特征向量，包括：