CN115472266A

CN115472266A - 识别tnbc的影像组学模型、构建方法、介质及装置

Info

Publication number: CN115472266A
Application number: CN202110647826.7A
Authority: CN
Inventors: 邵志敏; 江一舟; 蒋麟; 尤超; 顾雅佳; 肖毅; 苏冠华
Original assignee: Fudan University Shanghai Cancer Center
Current assignee: Fudan University Shanghai Cancer Center
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-13

Abstract

本发明公开了一种识别TNBC的影像组学模型、构建方法、介质及装置。该模型包括11个预测TNBC的影像组学特征，以及含有该11个预测TNBC的影像组学特征x_k、对应系数β_k、截距β₀的公式I；公式I为：q＝1/(1+exp(β₀+β₁x₁+β₂x₂+…+β_kx_k))；其中，k为取值1～11的整数，exp表示以自然常数e为底的指数函数。本发明所涉及的识别TNBC的影像组学模型将人工智能技术应用到临床医学领域，具有便捷、无创的优点，可在空芯针穿刺等术前确定乳腺癌分子分型之前先行预测三阴性乳腺癌，更有利于患者选择合适的治疗策略。

Description

识别TNBC的影像组学模型、构建方法、介质及装置

技术领域

本发明涉及癌症分型和人工智能影像组学领域，以及人工智能在肿瘤诊疗决策中的应用，具体涉及一种识别TNBC的影像组学模型、构建方法、介质及装置。

背景技术

乳腺癌中15-20％的病例可归类为三阴性乳腺癌(triple-negative breastcancers,TNBC)，即一类雌激素受体(estrogen receptor，ER)，孕激素受体(progesteronereceptor，PR)及人表皮生长因子受体2(human epidermal growth factor receptor 2，HER2)的表达均为阴性的乳腺癌。相较于其他类型的乳腺癌，TNBC具有发病年龄较低、较易发生局部复发和远处转移、预后较差的特点，是一类临床难治性的乳腺癌。同时，TNBC缺乏明确有效的治疗靶点，因此其标准疗法是化疗，亦与其他类型乳腺癌存在显著差异。

目前，临床上尚没有术前无创识别TNBC的方案。通过空芯针穿刺获取肿瘤组织，并根据免疫组织化学(immunohistochemistry，IHC)和荧光原位杂交(fluorescence in situhybridization，FISH)方法计量肿瘤组织内ER、PR及HER2的表达及HER2的扩增状态是术前确定乳腺癌分子分型的主要方法。在临床实际操作中，IHC染色结果等待时长为穿刺后一周，而FISH检测结果等待时长为穿刺后两周。因此，该流程具有对患者创伤大，IHC/FISH耗时长，以及人力物力需求大等若干缺点，同时对空芯针穿刺所得肿瘤组织的质和量均有较高要求。因此亟需找到一种替代方法，能够在临床上无创、便捷且低成本地将具有独特临床特征和治疗模式的TNBC从全体乳腺癌中快速地区分出来，进而指导下一步的治疗决策。

近年来，人工智能技术蓬勃发展，其中影像组学是人工智能技术在临床医学领域中的重要应用之一。影像组学技术从医学影像图像中高通量地提取定量的特征信息，经过建模分析进行预测及预后分层，实现辅助临床决策的价值。由于医学影像的无创、快速便捷及可重复进行的特点，影像组学技术具有识别TNBC的应用价值。

发明内容

为了实现术前无创识别三阴性乳腺癌，本发明一方面提供了一种识别TNBC的影像组学模型；另一方面提供了一种识别TNBC的影像组学模型的构建方法；第三方面还提供了一种介质；第四方面提供了一种识别TNBC的影像组学模型的构建装置。

首先，第一方面，一种识别TNBC的影像组学模型包括11个预测TNBC的影像组学特征，如下表所示；

以及公式I：q＝1/(1+exp(β₀+β₁x₁+β₂x₂+…+β_kx_k))，其中，x_k表示所述预测TNBC的影像组学特征，β_k表示对应系数，β₀表示截距，k为取值1～11的整数，exp表示以自然常数e为底的指数函数，β₀为2.6087610，x_k和β_k具体如下表所示：

上述英文对应中文为：

1)统计学指标：

mean均值；variance方差；skewness偏度；minimum最小值

2)特征分类：

original原始(特征)；wavelet小波(特征)

3)特征亚类：

firstorder一阶特征

4)特征名称：

ZoneEntropy：区域熵

Contrast：对比度

Small Area High Gray Level Emphasis：小区域高灰度级强化

Large Dependence Low Gray Level Emphasis：大依赖性低灰度级强化

glszm：灰度尺寸区域矩阵

ngtdm：相邻灰度差矩阵

gldm：灰度等级依赖矩阵

GLCM：灰度共生矩阵。

进一步地，11个预测TNBC的影像组学特征的ROI(感兴趣区域)来源如下表所示：

进一步地，11个预测TNBC的影像组学特征来自乳腺癌患者的乳腺(magneticresonance imaging)MRI图像。优选地，11个预测TNBC的影像组学特征来自乳腺癌患者的乳腺对比增强核磁共振(contrast enhanced-magnetic resonance imaging，CE-MRI)图像。更优选地，11个预测TNBC的影像组学特征来自原发性乳腺癌患者的新辅助治疗开始前或未经新辅助治疗的患者术前的乳腺CE-MRI图像。

进一步地，公式I计算结果：q＜阈值，预测为TNBC，q≥阈值，预测为非TNBC；阈值为0.621～0.640。

进一步地，还包括公式II：p＝1-q；公式II计算结果：p>1-阈值，预测为TNBC，p≤1-阈值，预测为非TNBC。

优选地，阈值为0.640。

其次，本发明的另一方面还公开了一种识别TNBC的影像组学模型的构建方法，其包括以下步骤：

步骤一、采集新辅助治疗开始前或未经新辅助治疗的患者术前的乳腺对比增强核磁共振图像；对比增强核磁共振图像的采集序列包括动态对比增强序列；

步骤二、勾画乳腺肿瘤瘤体靶区；

步骤三、将瘤体靶区分别外扩与内缩5±2毫米形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，得到瘤体、瘤周、全瘤及瘤内四类靶区；

步骤四、基于四类靶区，分别运用Python软件计算空间域特征和时域特征两大类影像组学特征；空间域特征在Python中基于PyRadiomics工具包进行提取；时域特征包括：最后一期增强序列与平扫影像相比的空间域特征变化率，算法为公式1-1；相邻两期影像相比的空间域特征变化率，算法为公式1-2；各空间域特征在各期增强序列间的均值，算法为公式1-3；各空间域特征在各期增强序列间的方差，算法为公式1-4；各空间域特征在各期增强序列间的偏度，算法为公式1-5；各空间域特征在各期增强序列间的峰度值，算法为公式1-6；其中，F表示影像组学特征数值，N表示增强期数，F_N或x_N表示第N期增强的影像组特征数值，

是分布的标准差；

步骤五、将四类靶区的空间域特征和时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征作为预测TNBC的影像组学特征；

步骤六、将步骤五筛选得到的预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归算法在训练集中构建识别TNBC的影像组学模型，以受试者工作特征曲线的曲线下面积作为评价识别TNBC的影像组学模型效能的主要指标。由于使用习惯，在公式1-1到公式1-6中，影像组学特征采用F或x来表示。

优选地，步骤三为：将瘤体靶区分别外扩与内缩5毫米形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，得到瘤体、瘤周、全瘤及瘤内四类靶区。

进一步地，空间域特征包括形状特征、一阶直方图特征、纹理特征和小波特征；形状特征是肿瘤形态特征的描述，包括肿瘤长度、表面积、体积、边缘光滑程度；一阶直方图特征是基于图像灰度的数理统计量，包括图像灰度的均值、方差、峰度等；纹理特征包括灰度共生矩阵特征、灰度级尺寸区域矩阵特征、灰度级游程长度矩阵特征、相邻灰度差矩阵特征以及灰度等级依赖矩阵特征；小波特征则是将原始图像进行小波分解为8个频域，分别为LLL、LLH、LHL、HLL、HLH、HHL、LHH和HHH，其中H代表高通域，L代表低通域；

步骤五中，四类靶区的空间域特征和时域特征为平扫期图像来源的空间域特征以及所有时域特征，且每类靶区的特征数相等；

以基于石蜡病理切片进行免疫组化染色所得ER、PR的蛋白表达情况及HER2表达及扩增状态所确定的乳腺癌分子分型作为金标准，通过R软件pROC包ROC函数确定受试者工作特征曲线的曲线下面积(AUC)。AUC值越大表明模型预测效能越好。本发明通过模型给每个病人打分(p或q)；之后根据一个阈值(对于p为截断点)，划分模型预测为TNBC和非TNBC的患者；然后会用AUC对模型的预测效能进行评估。故AUC是模型预测效能的评价指标，p或q是预测评分，结合截断点(针对p)即可输出预测结果。

进一步地，四类靶区合计得到10044个影像组学特征。优选地，每一类靶区得到2511个影像组学特征。

进一步地，该构建方法构建的模型为第一方面所述的识别TNBC的影像组学模型。

第三方面，本发明还涉及一种介质，其上记载有如上所述的识别TNBC的影像组学模型的构建方法。

第四方面，本发明还公开了一种识别TNBC的影像组学模型的构建装置，其包括：

第一处理模块，用于运用Python软件计算空间域特征和时域特征；

第二处理模块，用于以第一处理模块获得的空间域特征和时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征为预测TNBC的影像组学特征；

第三处理模块，用于将第二处理模块获得的预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归算法在训练集中构建识别TNBC的影像组学模型。

进一步地，还包括图像录入模块，用于录入CE-MRI图像。

进一步地，还包括图像选取模块，用于选取CE-MRI图像的平扫及动态对比增强序列。

进一步地，还包括瘤体靶区确定模块，用于从CE-MRI动态对比增强序列中的第一期图像勾画乳腺肿瘤瘤体靶区。

进一步地，还包括四类靶区确定模块，用于在瘤体靶区确定模块勾画的瘤体靶区的基础上，使用MATLAB软件将平扫序列图像进行像素值归一化，并将瘤体靶区分别外扩与内缩5±2毫米形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，从而得到乳腺肿瘤影像的瘤体、瘤周、全瘤及瘤内四类靶区。

优选地，四类靶区确定模块，用于在瘤体靶区确定模块勾画的瘤体靶区的基础上，使用MATLAB软件将平扫序列图像进行像素值归一化，并将瘤体靶区分别外扩与内缩5毫米形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，从而得到乳腺肿瘤影像的瘤体、瘤周、全瘤及瘤内四类靶区。

进一步地，该构建装置所涉及的识别TNBC的影像组学模型为如第一方面所述的模型。

本发明运用人工智能影像组学技术识别TNBC，尝试克服了临床诊疗中常规流程(空芯针穿刺结合IHC/FISH)的诸多缺点，最终实现以下目标：

1.帮助临床医生准确高效地判断特定乳腺癌患者是否为TNBC。

2.为临床医生对于不同乳腺癌患者选择合适治疗策略和实现乳腺癌精准治疗提供重要依据。

3.有望部署云端系统。通过上传患者乳腺MRI图像，在线完成靶区识别、特征提取及建模分析，一站式完成从图像到TNBC的识别工作，极大地推动乳腺癌临床诊疗的发展。

目前尚无便捷、无创识别三阴性乳腺癌的模型，本发明基于目前最大的乳腺癌核磁共振影像组学数据集，通过特征筛选与模型构建，构建并验证了识别TNBC的影像组学模型。该影像组学预测型的结果与金标准——免疫组化染色结果——有较高的一致性。本发明为实现无创识别TNBC，以指导临床诊疗决策的应用提供了基础。本发明所涉及的识别TNBC的影像组学模型将人工智能技术应用到临床医学领域，具有便捷、无创的优点，可在空芯针穿刺等术前确定乳腺癌分子分型之前先行预测三阴性乳腺癌，更有利于患者选择合适的治疗策略。

本发明将肿瘤区域划分为瘤体、瘤周、瘤内和全瘤四类靶区，在每个靶区分别提取形状、一阶直方图特征、高阶纹理特征、小波特征等。并且采用了时域特征，与空间域特征一共提取的可比特征多达10044个，从而更完整地反映了乳腺MRI图像影像组学特征。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是影像组学数据产生流程。其中，FUSCC表示：复旦大学附属肿瘤医院；BC表示：乳腺癌。

图2是LASSO算法筛选变量的交叉验证统计图，其运用LASSO算法筛选预测TNBC的影像组学特征。其中，λ(lambda)表示惩罚函数中的调整参数，下方的横坐标表示logλ值，上方横坐标表示变量数目。左垂直虚线表示最佳λ值(lambda.min)，右垂直虚线表示最佳λ值相差一个标准差内的得到最精炼模型的最大lambda值(lambda.1se)。本发明中选择lambda.1se对应的11个变量作为最终的预测TNBC的影像组学特征。

图3是使用训练集影像组学数据预测TNBC的ROC曲线。

图4是使用内部验证集影像组学数据预测TNBC的ROC曲线。

图5是使用外部验证集影像组学数据预测TNBC的ROC曲线。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解，下结合具体图示，进一步阐述本发明。但本发明不仅限于以下实施的案例。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

实施例1影像组学数据产生

具体流程见图1。

1、回顾性地收集了860例于就诊于复旦大学附属肿瘤医院(Fudan UniversityShanghai Cancer Center,FUSCC)和上海交通大学附属国际和平妇幼保健院(International Peace Maternity and Children Hospital,IPMCH)的原发性乳腺癌患者的新辅助治疗开始前或未经新辅助治疗的患者术前的乳腺对比增强核磁共振(contrastenhanced-magnetic resonance imaging,CE-MRI)图像。

2、在复旦大学附属肿瘤医院，进行乳腺核磁共振检查的患者取俯卧位，核磁共振成像主要采集序列为动态对比增强(dynamic contrast enhanced)序列，共采用三种核磁共振机型，成像过程及参数分列如下：

(1)西门子3.0T核磁共振成像系统(以下简称Siemens 3.0T)：对比剂选用钆喷酸葡胺(gadopentetate dimeglumine，Gd-DTPA)，注射剂量0.1mmol/kg体重，压力注射器以3ml/s的速度将Gd-DTPA经肘静脉注入，注射完Gd-DTPA后以相同的速度注入15ml生理盐水冲管。机器扫描参数：轴位，共扫描6期，包括1期平扫及5期动态对比增强，平扫后30秒行增强扫描，连续无间隔采集6个时相，每个时相扫描时间44秒，重复时间(time ofrepetition,TR)5.1毫秒，回波时间(time of echo,TE)1.7毫秒，视场(field of view,FOV)260毫米×260毫米，层厚3毫米，层间距0毫米，翻转角15度。

(2)奥罗瑞1.5T乳腺专用核磁共振成像系统(以下简称Aurora)：对比剂选用Gd-DTPA，注射剂量0.2mmol/kg体重，压力注射器以2ml/s的速度将Gd-DTPA经肘静脉注入，注射完Gd-DTPA后以相同的速度注入15ml生理盐水冲管。机器扫描参数：轴位，共扫描4期，包括1期平扫及3期动态对比增强，平扫后90秒行增强扫描，连续无间隔采集4个时相，每个时相扫描时间180秒，单期扫描层数为160层，TR 5毫秒、TE 29毫秒，FOV 360毫米×360毫米，层厚1.1毫米，层间距0毫米，翻转角15度。

(3)通用电气1.5T核磁共振成像系统(以下简称GE)：对比剂选用Gd-DTPA，注射剂量0.1mmol/kg体重，压力注射器以3ml/s的速度将Gd-DTPA经肘静脉注入，注射完Gd-DTPA后以相同的速度注入15ml生理盐水冲管。机器扫描参数：轴位，共扫描4期，包括1期平扫及3期动态对比增强，平扫后20秒行增强扫描，连续无间隔采集4个时相，每个时相扫描时间35秒，TR 6.5毫秒，TE 3.5毫秒，FOV 300毫米×300毫米，层厚3毫米，层间距0毫米，翻转角10度。

3、在上海交通大学附属国际和平妇幼保健院，进行乳腺核磁共振检查的患者取俯卧位，核磁共振成像主要采集序列为动态对比增强序列，全部采用西门子1.5T核磁共振成像系统(以下简称Siemens 1.5T)，检查过程如下：对比剂选用Gd-DTPA，注射剂量0.1mmol/kg体重，压力注射器以3ml/s的速度将Gd-DTPA经肘静脉注入，注射完Gd-DTPA后以相同的速度注入15ml生理盐水冲管。机器扫描参数：轴位，共扫描7期，包括1期平扫及6期动态对比增强，平扫后90秒行增强扫描，连续无间隔采集7个时相，每个时相扫描时间约为60秒，TR 4.2毫秒，TE 1.53毫秒，FOV 360毫米×360毫米，层厚1.5毫米，层间距0毫米，翻转角15度。

4、选取以下CE-MRI图像序列进行后续研究：

Siemens 3.0T：选取T1加权成像(T1 weighted image,T1WI)的平扫及动态对比增强序列，共6期。

Aurora：选取脂肪抑制加水抑制T1WI的平扫及动态对比增强序列，共4期。

GE：选取T1WI的平扫及动态对比增强序列，共4期。

Siemens 1.5T：选取T1WI的平扫及动态对比增强序列，共7期。

5、一名具有10年乳腺影像诊断经验的放射诊断科医生运用3D Slicer软件，选取CE-MRI动态对比增强序列中的第一期图像，手工勾画乳腺肿瘤瘤体靶区。

6、在前期勾画的瘤体靶区的基础上，使用MATLAB软件将平扫序列图像进行像素值归一化，并将瘤体靶区分别外扩与内缩5毫米形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，因此总计获得了所有患者的乳腺肿瘤影像的瘤体、瘤周、全瘤及瘤内四类靶区

7、基于上述四类靶区，分别运用Python软件计算空间域特征和时域特征两大类影像组学特征。空间域特征方面，在每一期图像序列的各类靶区中，分别提取形状特征14个，一阶直方图特征18个，纹理特征75个以及小波特征744个，共计851个空间域特征。形状特征是肿瘤形态特征的描述，包括但不限于肿瘤长度、表面积、体积、边缘光滑程度等；一阶直方图特征是基于图像灰度的数理统计量，包括但不限于图像灰度的均值、方差、峰度等；纹理特征包含24个灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)特征，16个灰度级尺寸区域矩阵(Gray Level Size Zone Matrix,GLSZM)特征，16个灰度级游程长度矩阵(Gray Level Run Length Matrix,GLRLM)特征，5个相邻灰度差矩阵(Neighbouring GrayTone Difference Matrix,NGTDM)特征以及14个灰度等级依赖矩阵(Gray LevelDependence Matrix,GLDM)特征。而小波特征则是将原始图像进行小波分解为8个频域(LLL，LLH，LHL，HLL，HLH，HHL，LHH，HHH)，其中H代表高通域，L代表低通域，在这8个分解域中分别计算一阶直方图特征以及纹理特征，每个频域包含18个一阶直方图特征和75个纹理特征。上述影像组学的空间域特征均在Python 3.6(https://www.python.org)中基于PyRadiomics工具包进行提取(https://pyradiomics.readthedocs.io)。时域特征方面，分别计算了最后一期增强序列与平扫影像相比的空间域特征变化率(公式1-1)以及相邻两期影像相比的空间域特征变化率(公式1-2)，并计算各空间域特征在各期增强序列间的均值(公式1-3)、方差(公式1-4)、偏度(公式1-5)与峰度值(公式1-6)。

8、经过上述处理之后，在每一类ROI中，Aurora机型来源的医学影像共计提取10058个特征，其中包括3362个空间域特征和6696个时域特征；GE机型来源的医学影像共计提取7544个特征，其中包括2525个空间域特征和5019个时域特征；Siemens 3.0T机型来源的医学影像共计提取13406个特征，其中包括5036个空间域特征和8370个时域特征。由于不同核磁共振成像系统的各个动态对比增强序列存在显著差异，尚无公认的方法可将不同成像系统的增强期图像进行归一化以及标准化处理，因此本研究在纳入三种核磁共振机型来源的图像时均只取平扫期图像来源的空间域特征以及所有时域特征。在每一类靶区中符合该条件的影像组学特征数量为2511个，四类靶区(即瘤体、瘤周、全瘤及瘤内四类靶区)合计可得到10044个三机型间可比的影像组学特征。

实施例2获得识别TNBC的影像组学模型并对其进行验证

1、将患者基于石蜡病理切片进行免疫组化染色所得ER、PR的蛋白表达情况及HER2表达及扩增状态所确定的乳腺癌分子分型作为金标准。将860例就诊于复旦大学附属肿瘤医院的乳腺癌患者1：1随机分为训练集和内部验证集，将54例就诊于上海交通大学附属国际和平妇幼保健院的乳腺癌患者作为外部验证集。在R软件中筛选预测TNBC的影像组学特征并建模——在430例患者组成的训练集中，以10044个影像组学特征作为预测模型的输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择(Least absolute shrinkage and selection operator,LASSO)算法筛选了预测TNBC的影像组学特征。以训练集中交叉验证的受试者工作特征曲线(receiveroperating characteristic,ROC)的曲线下面积(area under the curve,AUC)与最佳AUC相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到11个预测TNBC的影像组学特征(图2，表1)。

2、将筛选得到的11个预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归(logistic regression,LR)算法在训练集中构建预测TNBC的线性回归模型(简称“LR模型”)，即识别TNBC的影像组学模型。该模型以ROC曲线的AUC值作为评价该预测模型效能的主要指标。

在430例患者组成的训练集中，通过R软件pROC包ROC函数确定ROC曲线最佳截断点(cut-off)为0.360，在此条件下该预测模型识别TNBC的AUC为0.969(95％置信区间[confidence interval,CI]:0.951-0.987)(图3)，表明该预测模型识别TNBC的真阳性率和真阴性率非常好，模型可行度高。在430名患者组成的内部验证集中，在最佳cut-off 0.388条件下，该预测模型识别TNBC的AUC为0.92(95％CI:0.887-0.953)(图4)。

LR模型包含的截距(β₀)、预测TNBC的影像组学特征(x_k)及其对应系数(β_k)如表1。按照如下公式计算每一位患者的评分p：p＝1-1/(1+exp(β₀x₀+β₁x₁+β₂x₂+…+β_kx_k))，并根据p值大小预测乳腺癌分子分型：p>0.360预测为TNBC，p≤0.360预测为非TNBC。

表1、识别TNBC的影像组学模型涉及的参数及ROI来源

3、在LR模型的次要评价指标方面，将TNBC定义为阴性，非TNBC定义为阳性。在训练集430例样本中，真阳性(TP)287例，假阴性(FN)17例，假阳性(FP)10例，真阴性(TN)116例。由此预测TNBC灵敏度和特异度分别为0.944和0.921，Jaccard系数为0.882；在内部验证集中，TP 285例，FN 25例，FP 21例，TN 99例。该LR模型预测TNBC灵敏度和特异度分别为0.919和0.825，Jaccard系数为0.807。

内部验证集中验证LR模型预测TNBC的预测效能。在就诊于复旦大学附属肿瘤医院的430例乳腺癌中进行了LR模型的内部队列验证。结果显示，以免疫组化染色作为分子分型评判的金标准，影像组学模型识别TNBC的AUC达到0.92(95％CI:0.887-0.953)，识别TNBC的准确率达到89.3％。

4、在就诊于上海交通大学附属国际和平妇幼保健院的54例乳腺癌患者组成的外部验证集中，进行LR模型的外部队列验证。结果显示，以免疫组化染色作为分子分型评判的金标准，影像组学模型识别TNBC的AUC达到0.723(95％CI:0.552-0.894)(图5)。LR模型与免疫组化分型具有较高的一致性，模型具有较好的外推性能。

5、综上，发现通过基于CE-MRI的影像组学特征筛选和建模可以准确地区分TNBC与非TNBC的乳腺癌患者。本识别三阴性乳腺癌(triple-negative breast cancers,TNBC)影像组学模型已在内部验证集和外部验证集中进行实施，验证了该模型与目前的临床金标准——免疫组化染色结果——之间的高度一致性。

实施例3介质

该介质上记载有识别TNBC的影像组学模型的构建方法。该构建方法包括以下步骤：

步骤一、采集新辅助治疗开始前或未经新辅助治疗的患者术前的乳腺对比增强核磁共振图像；对比增强核磁共振图像的采集序列包括动态对比增强序列。

步骤二、勾画乳腺肿瘤瘤体靶区。

步骤三、将瘤体靶区分别外扩与内缩5±2毫米(在本实施例中采用5毫米)形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，得到瘤体、瘤周、全瘤及瘤内四类靶区。

步骤四、基于四类靶区，分别运用Python软件计算空间域特征和时域特征两大类影像组学特；空间域特征在Python中基于PyRadiomics工具包进行提取；时域特征包括：最后一期增强序列与平扫影像相比的空间域特征变化率，算法为公式1-1；相邻两期影像相比的空间域特征变化率，算法为公式1-2；各空间域特征在各期增强序列间的均值，算法为公式1-3；各空间域特征在各期增强序列间的方差，算法为公式1-4；各空间域特征在各期增强序列间的偏度，算法为公式1-5；各空间域特征在各期增强序列间的峰度值，算法为公式1-6；

空间域特征包括形状特征、一阶直方图特征、纹理特征和小波特征；形状特征是肿瘤形态特征的描述，包括肿瘤长度、表面积、体积、边缘光滑程度；一阶直方图特征是基于图像灰度的数理统计量，包括图像灰度的均值、方差、峰度等；纹理特征包括灰度共生矩阵特征、灰度级尺寸区域矩阵特征、灰度级游程长度矩阵特征、相邻灰度差矩阵特征以及灰度等级依赖矩阵特征；小波特征则是将原始图像进行小波分解为8个频域，分别为LLL、LLH、LHL、HLL、HLH、HHL、LHH和HHH，其中H代表高通域，L代表低通域。

步骤五、将四类ROI的空间域特征和时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征为预测TNBC的影像组学特征；四类ROI的空间域特征和时域特征为平扫期图像来源的空间域特征以及所有时域特征，且每类ROI的特征数相等。以基于石蜡病理切片进行免疫组化染色所得ER、PR的蛋白表达情况及HER2表达及扩增状态所确定的乳腺癌分子分型作为金标准，通过R软件pROC包ROC函数确定受试者工作特征曲线的曲线下面积。

步骤六、将步骤五筛选得到的预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归算法在训练集中构建识别TNBC的影像组学模型，以受试者工作特征曲线的曲线下面积作为评价识别TNBC的影像组学模型效能的主要指标。

实施例4识别TNBC的影像组学模型的构建装置

该识别TNBC的影像组学模型的构建装置包括：

图像录入模块，用于录入CE-MRI图像。

图像选取模块，用于选取CE-MRI图像的平扫及动态对比增强序列。

瘤体靶区确定模块，用于从CE-MRI动态对比增强序列中的第一期图像勾画乳腺肿瘤瘤体靶区。

四类靶区确定模块，用于在瘤体靶区确定模块勾画的瘤体靶区的基础上，使用MATLAB软件将平扫序列图像进行像素值归一化，并将瘤体靶区分别外扩与内缩5±2毫米(在本实施例中采用5毫米)形成外边界与内边界，外边界与瘤体边界之间的区域为瘤周靶区，内边界与瘤体边界之间的区域为瘤内靶区，瘤周靶区与瘤体靶区合并构成全瘤靶区，从而得到乳腺肿瘤影像的瘤体、瘤周、全瘤及瘤内四类靶区。

第一处理模块，用于运用Python软件计算空间域特征和时域特征。

第二处理模块，用于以第一处理模块获得的空间域特征和时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征为预测TNBC的影像组学特征。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种识别TNBC的影像组学模型，其特征在于，包括：

11个预测TNBC的影像组学特征，如下表所示；

以及公式I：q＝1/(1+exp(β₀+β₁x₁+β₂x₂+…+β_kx_k))，其中，x_k表示所述预测TNBC的影像组学特征，β_k表示对应系数，β₀表示截距为2.6087610，k为取值1～11的整数，exp表示以自然常数e为底的指数函数，x_k和β_k具体如下表所示：

2.如权利要求1所述的识别TNBC的影像组学模型，其特征在于，11个所述预测TNBC的影像组学特征的ROI来源如下表所示：

3.如权利要求1所述的识别TNBC的影像组学模型，其特征在于，公式I计算结果：q＜阈值，预测为TNBC，q≥阈值，预测为非TNBC；所述阈值为0.621～0.640。

4.如权利要求3所述的识别TNBC的影像组学模型，其特征在于，还包括公式II：p＝1-q；公式II计算结果：p>1-阈值，预测为TNBC，p≤1-阈值，预测为非TNBC。

5.如权利要求3所述的识别TNBC的影像组学模型，其特征在于，所述阈值为0.640。

6.一种识别TNBC的影像组学模型的构建方法，其特征在于，包括以下步骤：

步骤一、采集新辅助治疗开始前或未经新辅助治疗的患者术前的乳腺对比增强核磁共振图像；所述对比增强核磁共振图像的采集序列包括动态对比增强序列；

步骤二、勾画乳腺肿瘤瘤体靶区；

步骤四、基于所述四类靶区，分别运用Python软件计算空间域特征和时域特征两大类影像组学特征；所述空间域特征在Python中基于PyRadiomics工具包进行提取；所述时域特征包括：最后一期增强序列与平扫影像相比的空间域特征变化率，算法为公式1-1；相邻两期影像相比的空间域特征变化率，算法为公式1-2；各空间域特征在各期增强序列间的均值，算法为公式1-3；各空间域特征在各期增强序列间的方差，算法为公式1-4；各空间域特征在各期增强序列间的偏度，算法为公式1-5；各空间域特征在各期增强序列间的峰度值，算法为公式1-6；其中，F表示影像组学特征数值，N表示增强期数，F_N或x_N表示第N期增强的影像组特征数值，

是分布的标准差；

步骤五、将四类靶区的所述空间域特征和所述时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征作为预测TNBC的影像组学特征；

步骤六、将所述步骤五筛选得到的所述预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归算法在训练集中构建所述识别TNBC的影像组学模型，以受试者工作特征曲线的曲线下面积作为评价所述识别TNBC的影像组学模型效能的主要指标。

7.如权利要求6所述的识别TNBC的影像组学模型的构建方法，其特征在于，所述空间域特征包括形状特征、一阶直方图特征、纹理特征和小波特征；所述形状特征是肿瘤形态特征的描述，包括肿瘤长度、表面积、体积、边缘光滑程度；所述一阶直方图特征是基于图像灰度的数理统计量，包括图像灰度的均值、方差、峰度等；所述纹理特征包括灰度共生矩阵特征、灰度级尺寸区域矩阵特征、灰度级游程长度矩阵特征、相邻灰度差矩阵特征以及灰度等级依赖矩阵特征；所述小波特征则是将原始图像进行小波分解为8个频域，分别为LLL、LLH、LHL、HLL、HLH、HHL、LHH和HHH，其中H代表高通域，L代表低通域；

所述步骤五中，所述四类靶区的所述空间域特征和所述时域特征为平扫期图像来源的空间域特征以及所有时域特征，且每类靶区的特征数相等；

以基于石蜡病理切片进行免疫组化染色所得ER、PR的蛋白表达情况及HER2表达及扩增状态所确定的乳腺癌分子分型作为金标准，通过R软件pROC包ROC函数确定受试者工作特征曲线的曲线下面积。

8.如权利要求6所述的识别TNBC的影像组学模型的构建方法，其特征在于，所述识别TNBC的影像组学模型为权利要求1所述的模型。

9.一种介质，其特征在于，其上记载有权利要求6～8任一项所述的构建方法。

10.一种识别TNBC的影像组学模型的构建装置，其特征在于，包括：

第二处理模块，用于以所述第一处理模块获得的所述空间域特征和所述时域特征作为输入变量，通过R软件glmnet包的glmnet和cv.glmnet函数，使用10折内部交叉验证的最小绝对收缩和选择算法筛选影像组学特征；以训练集中交叉验证的受试者工作特征曲线的曲线下面积与最佳曲线下面积相差在一个标准差以内的最大的lambda值作为特征选择算法的惩罚系数，在此lambda值下对应得到的影像组学特征为所述预测TNBC的影像组学特征；

第三处理模块，用于将所述第二处理模块获得的所述预测TNBC的影像组学特征作为模型输入信息，运用逻辑斯谛回归算法在训练集中构建所述识别TNBC的影像组学模型。