CN112530592A

CN112530592A - 一种基于机器学习的非小细胞肺癌风险预测方法

Info

Publication number: CN112530592A
Application number: CN202011473981.3A
Authority: CN
Inventors: 宋瑞杰; 杨海强
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-19

Abstract

本发明提供了一种基于机器学习的非小细胞肺癌风险预测方法，所述方法为对患者的胸部CT影像进行典型特征提取，记为CT影像特征；获得采样样本中所有患者的CT影像特征，结合采样样本中所有患者的临床病理学特征形成样本数据集，并对该样本数据集中的CT影像特征进行预处理；将经过预处理的样本数据集划分为测试集和训练集；针对划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选，基于经过特征筛选后的训练集，采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，并得到非小细胞肺癌风险预测结果。可以将优秀医生、专家的经验积累下来，以便复制到其他小城市、小医院推广使用，提高风险预测准确率，进而提升患者的治疗效果。

Description

一种基于机器学习的非小细胞肺癌风险预测方法

技术领域

本发明属于医疗技术领域，具体涉及一种基于机器学习的非小细胞肺癌风险预测方法。

背景技术

肺癌是世界上最常见的恶性肿瘤之一，已成为我国城市人口恶性肿瘤死亡原因的第1位。约75％的非小细胞肺癌患者确诊时已处于中晚期，5年生存率很低。患者如果得不到及时的诊断和治疗，将错过最佳治疗时机，面临生命危险。通过结合CT影像特征和临床病理学特征进行非小细胞肺癌风险预测，预测结果分为高风险和低风险，医生能够根据预测结果安排合理的治疗方案，提升治疗效果。然而，根据CT影像特征和临床病理学特征实现非小细胞肺癌风险预测主要存在以下问题：(1)从CT影像的原始图像及派生图像中可提取上千个特征，如何筛选其中的相关特征、并结合临床病理学特征，进行非小细胞肺癌的低风险或高风险的准确预测，以辅助医生诊断。(2)非小细胞肺癌风险预测的准确率往往取决于医生的诊断水平，诊断准确率高的医生往往拥有丰富的经验及较高的医学水平，然而此类医生的人数有限，且大都集中在发达地区；相对的，欠发达地区或贫困地区的医生往往没有足够的能力去准确判断患者风险，从而延误病情，无法安排合理的治疗方案。

发明内容

本发明提供了一种基于机器学习的非小细胞肺癌风险预测方法，解决目前依靠医生能力和经验预测非小细胞肺癌风险，预测结果呈现较大差异，预测不准确的问题。

本发明提供的一种基于机器学习的非小细胞肺癌风险预测方法，所述方法依次包括如下步骤：

S1、对患者的胸部CT影像进行典型特征提取，记为CT影像特征，

S2、获得采样样本中所有患者的CT影像特征，结合采样样本中所有患者的临床病理学特征形成样本数据集，并对该样本数据集中的CT影像特征进行预处理，

S3、将经过预处理的样本数据集划分为测试集和训练集，

S4、针对步骤3划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选，

S5、基于步骤4经过特征筛选后的训练集，采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，并得到非小细胞肺癌风险预测结果。

优选的，使用PyRadiomics平台从患者的胸部CT图像提取所述典型特征。

优选的，对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值，中心化，标准化，均衡化处理。

优选的，对样本数据集CT影像特征进行中心化处理，公式如(1)，对样本数据集CT影像特征进行标准化处理，公式如(2)：

其中，

为样本数据集的CT影像特征值，i取值为(1，2，…，i，…，m)，j取值为(1，2，...，j，...，N)，m为采样样本中所有患者对应的典型特征个数，N为采样样本的个数，

为样本数据集CT影像特征中心化后的特征值，

为标准化后的特征值。

优选的，所述均衡化预处理采用合成少数类过采样法，均衡原则为：

N^Gl代表第l个非小细胞肺癌风险等级对应的患者样本数，l通常取值为{0，1}，0代表低风险，1代表高风险。

优选的，所述训练集的数量为

测试集数量为

N为采样样本的总数量。

优选的，采用最大相关最小冗余算法对CT影像特征进行特征筛选。

优选的，采用单变量特征选择算法对临床病理学特征进行特征筛选。

优选的，步骤5采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，并得到预测结果的方法为：

首先，选用步骤4经过特征筛选后的CT影像特征采用LASSO算法建模、并进行交差验证，得到公式(3)：

Radscore＝α₁k₁+α₂k₂+…+α_nk_n+α_n+1 (3)

其中，α₁、α₂、…、α_n、α_n+1为系数，k₁、k₂、…、k_n为CT影像特征值，

基于公式(3)计算出预测值并存为“影像组学得分”特征；

然后，选用步骤4经过特征筛选后的临床病理学特征，联合“影像组学得分”特征，建立逻辑回归模型，得到公式(4)：

Nomoscore＝β₁l₁+β₂l₂+…+β_mml_m+β_m+1 (4)

其中，β₁、β₂、…、β_m、β_m+1为系数，l₁、l₂、…、l_m-1为临床病例学特征值，l_m为“影像组学得分”特征值，

基于公式(4)计算出预测值，并结合训练集标记的高低风险分类，绘制ROC曲线，并以此ROC曲线的最佳临界值作为高低风险分类的阈值，预测值若大于ROC曲线的最佳临界值，则判定为高风险；预测值若小于或等于ROC曲线的最佳临界值，则判定为低风险；所述ROC曲线(receiver operating characteristic curve)的中文含义是接收者操作特征曲线。

最后，根据建立的逻辑回归模型绘制非小细胞肺癌风险预测列线图，即直观得到非小细胞肺癌风险预测结果。

优选的，所述非小细胞肺癌风险预测方法还包括将经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估，评估方法为：将测试集带入联合Nomogram模型计算预测结果，根据预测结果及原测试集标注的高低风险分类，绘制ROC曲线，并分别计算训练集和测试集的AUC值，若训练集及测试集的AUC值均大于0.9，则证明模型的预测结果理想，模型可用。所述AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积。

本发明的有益效果：本发明以机器学习为基础，基于CT影像特征、并联合临床病理学特征，提出了基于机器学习的非小细胞肺癌风险预测方法，通过该方法最终可直观、自动预测出患者的风险等级，预测结果在机器不断学习的基础上越来越精准；本发明提出的基于机器学习的非小细胞肺癌风险预测方法，能够将高水平医生的诊断经验总结下来，以便推广到各地区、辅助医生诊断，提高诊断准确率及效率，从而为患者及时安排合理的治疗方案。

附图说明

图1为实施例中基于机器学习的非小细胞肺癌风险预测方法的流程图；

图2为实施例中非小细胞肺癌风险预测列线图；

图3为实施例中根据公式(4)计算结果绘制的ROC曲线图；

图4为实施例中根据公式(6)计算结果绘制的ROC曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，不能理解为对本发明具体保护范围的限定。

实施例

参照图1，本实施例提出的基于机器学习的非小细胞肺癌风险预测方法，主要利用各级医院较为普遍的胸部CT影像提取典型特征、并联合临床病理学特征，采用联合Nomogram机器学习算法构建非小细胞肺癌风险预测模型，实现自动风险预测，并生成列线图以辅助诊断。所述方法依次包括如下步骤：

S3、将经过预处理的样本数据集划分为测试集和训练集，

S5、基于步骤4经过特征筛选后的训练集，采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，并得到非小细胞肺癌风险预测结果，

S6、将步骤4经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估。

胸部CT影像的原始图像及部分衍生图像包括：原始(Original)图像、小波滤波(Wavelet)图像(包括8种子图像：低低高频子带LLH、低高低频子带LHL、低高高频子带LHH、高低低频子带HLL、高低高频子带HLH、高高低频子带HHL、高高高频子带HHH、低低低频子带LLL)、平方(Square)图像、平方根(SquareRoot)图像、对数(Logarithm)图像、指数(Exponential)图像、梯度(Gradient)图像、本地二进制模型2D(LocalBinaryPattern2D)图像。

对每种图像提取7个维度的特征，即：(1)一阶统计量(First Order Statistics)特征18个、(2)基于3D的形状(Shape-based 3D)特征17个、(3)灰度共生矩阵(Gray LevelCo-occurrence Matrix，GLCM)特征24个、(4)灰度级区域矩阵(Gray Level Size ZoneMatrix，GLSZM)特征16个、(5)灰度级游程长度矩阵(Gray Level Run Length Matrix，GLRLM)特征16个、(6)相邻灰度差矩阵(Neighbouring Gray Tone Difference Matrix，NGTDM)特征5个、(7)灰度级相关矩阵(Gray Level Dependence Matrix，GLDM)特征14个。作为本实施例的一个优选实施方式，使用PyRadiomics平台从患者的胸部CT图像提取上述典型特征。

作为本实施例的一个优选实施方式，对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值，中心化，标准化，均衡化处理。

假设可获得采样样本(1，2，...，j，...，N)中所有患者对应的m个CT影像特征(f¹，f²，...，fⁱ，...，f^m)，此时对样本数据集进行预处理操作。首先，填补缺失值，对于缺失值

采用特征fⁱ的中位数填补。然后，需要对每种特征fⁱ，将其特征值

进行中心化、标准化处理，对样本数据集CT影像特征进行中心化处理，公式如(1)，对样本数据集CT影像特征进行标准化处理，公式如(2)：

其中，

为样本数据集CT影像特征中心化后的特征值，

为标准化后的特征值。

在样本数据集中，若非小细胞肺癌高风险病人与非小细胞肺癌低风险病人样本数量差距较大，则需进行均衡化处理。在机器学习算法中，若某一类的数据样本比例过小，则可能会导致模型训练效率低下、预测效果差。因此，需对样本数据集进行扩充，使不同类的数据样本均衡化。

所述均衡化预处理采用合成少数类过采样法，均衡原则为：

作为本实施例的一个优选实施方式，所述训练集的数量为

测试集数量为

N为采样样本的总数量。划分后，应确保训练集与测试集均含有全部类型的非小细胞肺癌风险等级样本。

样本数据集中包括CT影像特征及临床病理学特征，对其中的特征进行选择，筛选其中的相关特征、剔除无关特征及冗余特征，以达到缓解维度灾难、降低学习任务的难度、提升模型的效率的目的。根据特征数据类型，分别对CT影像特征(连续值为主)、临床病理学特征(离散值为主)进行特征选择。

作为本实施例的一个优选实施方式，对于CT影像特征，采用最大相关最小冗余算法进行特征筛选。筛选出其中20个特征，包括：

原始(Original)图像下：

(1)灰度级相关矩阵(GLDM)的大依赖高灰度水平因子(Large Dependence HighGray Level Emphasis)特征；

(2)灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area High GrayLevel Emphasis)特征。

小波滤波(Wavelet)图像下：

(3)小波-低低低频子带(Wavelet-LLL)子图像的灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area High Gray Level Emphasis)特征；

(4)小波-低低低频子带(Wavelet-LLL)子图像的灰度级区域矩阵(GLSZM)的小面积低灰度水平因子(Small Area Low Gray Level Emphasis)特征；

(5)小波-低低低频子带(Wavelet-LLL)子图像的灰度级相关矩阵(GLDM)的依赖熵(Dependence Entropy)特征；

(6)小波-低低低频子带(Wavelet-LLL)子图像的灰度级相关矩阵(GLDM)的大依赖高灰度水平因子(Large Dependence High Gray Level Emphasis)特征；

(7)小波-低低高频子带(Wavelet-LLH)子图像的相邻灰度差矩阵(NGTDM)的粗糙度(Coarseness)特征；

(8)小波-低低高频子带(Wavelet-LLH)子图像的一阶统计量(First Order)的总能量(Total Energy)特征；

(9)小波-高低低频子带(Wavelet-HLL)子图像的灰度级相关矩阵(GLDM)的小依赖低灰度水平因子(Small Dependence Low Gray Level Emphasis)特征；

(10)小波-高低高频子带(Wavelet-HLH)子图像的灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area HighGray Level Emphasis)特征。

平方(Square)图像下：

(11)一阶统计量(First Order)的最小值(Minimum)特征；

(12)相邻灰度差矩阵(NGTDM)的粗糙度(Coarseness)特征。

对数(Logarithm)图像下：

(13)灰度级相关矩阵(GLDM)的非均匀依赖性(Dependence Non-Uniformity)特征。

指数(Exponential)图像下：

(14)灰度级区域矩阵(GLSZM)的大面积低灰度水平因子(Large Area Low GrayLevel Emphasis)特征；

(15)灰度级游程长度矩阵(GLRLM)的运行差异(Run Variance)特征；

(16)灰度级区域矩阵(GLSZM)的区域非均匀标准化(Size-Zone Non-UniformityNormalized)特征。

梯度(Gradient)图像下：

(17)灰度级相关矩阵(GLDM)的依赖熵(Dependence Entropy)特征。

本地二进制模型2D(LocalBinaryPattern2D)图像下：

(18)灰度级区域矩阵(GLSZM)的区域非均匀标准化(Size-Zone Non-UniformityNormalized)特征；

(19)一阶统计量(First Order)的中值(Median)特征；

(20)一阶统计量(First Order)的10分位数(10th percentile)特征。

临床病理学特征共有17个特征，包括：性别、年龄、肿瘤最大径、肿瘤最小径、肿瘤平均径、结节最大径、结节平均径、类型、毛刺征、空洞征、空泡征、边界光滑、血管集束征、淋巴结肿大、分叶征、空气支气管征、胸膜凹陷征。

作为本实施例的一个优选实施方式，采用单变量特征选择算法对临床病理学特征进行特征筛选。筛选得到6个特征，其中包括：

(1)肿瘤最大径、(2)结节平均径、(3)血管集束征、(4)胸膜凹陷征、(5)边界光滑、(6)淋巴结肿大。

作为本实施例的一个优选实施方式，步骤5采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，联合Nomogram模型是一种综合模型，其主要包括LASSO算法及逻辑回归(Logistic)模型。

选用步骤4经过特征筛选后的CT影像特征采用LASSO算法建模、并进行交差验证，首先，可以确定最佳模型和系数，然后LASSO算法能够根据已建立模型的系数进一步对上述20个CT影像特征进行筛选，

筛选后的特征包括(8个)：

原始图像的灰度级相关矩阵的大依赖高灰度水平因子(Original_GLDM_LargeDependence High Gray Level Emphasis)，

小波-低低低频子带子图像的灰度级区域矩阵的小面积低灰度水平因子(wavelet_LLL_GLSZM_Small Area Low Gray Level Emphasis)，

小波-低低低频子带的灰度级相关矩阵的依赖熵(wavelet_LLL_GLDM_DependenceEntropy)，

小波-低低低频子带子图像的灰度级相关矩阵的大依赖高灰度水平因子(wavelet_LLL_GLDM_Large Dependence High Gray Level Emphasis)，

小波-低低高频子带子图像的相邻灰度差矩阵的粗糙度(wavelet_LLH_NGTDM_Coarseness)，

小波-高低高频子带子图像的灰度级区域矩阵的大面积高灰度水平因子(wavelet_HLH_GLSZM_Large Area High Gray Level Emphasis)，

平方图像的相邻灰度差矩阵的粗糙度(square_NGTDM_Coarseness)，

本地二进制模型2D图像的一阶统计量的10分位数(lbp_2D_firstorder_10Percentile)。

最后，使用LASSO算法模型进行非小细胞肺癌的风险预测，将预测结果存为“影像组学得分”(Radiomics Score)特征。根据模型系数及筛选后的特征，可得出其计算公式(3)：

Radscore＝α₁k₁+α₂k₂+…+α_nk_n+α_n+1 (3)

其中，α₁、α₂、…、α_n、α_n+1为系数，k₁、k₂、…、k_n为CT影像特征值。

本实施例根据上述筛选出的8个CT影像特征以及模型系数，得到公式(4)：

根据公式(4)所计算的预测结果及原训练集标记的高低风险分类，绘制ROC曲线，并以此ROC曲线的最佳临界值作为高低风险分类的阈值，进行本模型的风险预测分类。规定：预测值若大于ROC曲线的最佳临界值，则判定为高风险；预测值若小于或等于ROC曲线的最佳临界值，则判定为低风险。本实施例ROC曲线最佳临界值为：0.1612423，如图3所示。

选用步骤4经过特征筛选后的临床病理学特征，联合“影像组学得分”特征，建立逻辑回归模型，得到公式(5)：

Nomoscore＝β₁l₁+β₂l₂+…+β_ml_m+β_m+1 (5)

本实施例根据上述筛选出的6个临床病理学特征，联合“影像组学得分”特征，得到公式(6)：

其中，Max、Solid_per、Vessel、Pleural、Boundary、Lymph、Radscore分别代表肿瘤最大径、结节平均径、血管集束征、胸膜凹陷征、边界光滑、淋巴结肿大、影像组学得分。

根据公式(6)计算的预测值及原训练集标记的高低风险分类，再绘制ROC曲线，并以此ROC曲线的最佳临界值作为高低风险分类的阈值，进行本模型的风险预测分类。规定：预测值若大于ROC曲线的最佳临界值，则判定为高风险；预测值若小于或等于ROC曲线的最佳临界值，则判定为低风险。根据规定进行分类，并输出最终预测结果。本实施例ROC曲线最佳临界值为：0.2948881，如图4所示。

根据建立的逻辑回归模型绘制非小细胞肺癌风险预测列线图，即直观得到非小细胞肺癌风险预测结果，如图2所示：

列线图中，从上到下分别为：

得分(Points)：用于计算每种因素对应的分数。

肿瘤最大径(Max)：肿瘤的最大直径，单位为毫米(mm)。

结节平均径(Solid_per)：结节的平均直径，单位为厘米(cm)。

血管集束征(Vessel)：血管集束征的类型，2代表I型，1代表II型，0代表III型。

胸膜凹陷征(Pleural)：2代表I型，1代表II型，0代表III型。

边界光滑(Boundary)：1代表光滑，2代表不光滑。

淋巴结肿大(Lymph)：1代表有淋巴结肿大，0代表无淋巴结肿大。

影像组学得分(Radscore)：LASSO算法模型计算所得的影像组学得分。

总得分(Total Points)：总计得分。

风险(Risk)：总得分对应的风险程度。

作为本实施例的一个优选实施方式，将经过步骤4特征筛选后的测试集带入步骤5建立联合Nomogram模型进行非小细胞肺癌风险预测模型评估的评估方法为：将测试集带入联合Nomogram模型计算预测结果，根据预测结果及原测试集标注的高低风险分类，绘制ROC曲线，并计算AUC值(即ROC曲线下方的面积大小)，此时，还需要计算步骤5绘制的ROC曲线的AUC值，若训练集及测试集的AUC值均大于0.9，则证明模型的预测结果理想，模型可用。

通过本实施例方法建立的联合Nomogram模型即为非小细胞肺癌风险预测模型，该模型可推广至其他样本、其他病种、其他领域中使用。

Claims

1.一种基于机器学习的非小细胞肺癌风险预测方法，其特征在于，所述方法依次包括如下步骤：

S3、将经过预处理的样本数据集划分为测试集和训练集，

2.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：使用PyRadiomics平台从患者的胸部CT图像提取所述典型特征。

3.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值，中心化，标准化，均衡化处理。

4.根据权利要求3所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于，对样本数据集CT影像特征进行中心化处理，公式如(1)，对样本数据集CT影像特征进行标准化处理，公式如(2)：

其中,

为样本数据集的CT影像特征值，i取值为(1,2，…，i，…，m)，j取值为(1,2,...,j,...,N),m为采样样本中所有患者对应的典型特征个数，N为采样样本的个数，

为样本数据集CT影像特征中心化后的特征值，

为样本数据集CT影像特征标准化后的特征值。

5.根据权利要求3所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：所述均衡化预处理采用合成少数类过采样法，均衡原则为：

N^Gl代表第l个非小细胞肺癌风险等级对应的患者样本数，l通常取值为{0,1}，0代表低风险，1代表高风险。

6.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：所述训练集的数量为

测试集数量为

N为采样样本的总数量。

7.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：采用最大相关最小冗余算法对CT影像特征进行特征筛选。

8.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：采用单变量特征选择算法对临床病理学特征进行特征筛选。

9.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于：步骤5采用联合Nomogram模型，进行非小细胞肺癌高低风险的预测训练，并得到预测结果的方法为：

Radscore＝α₁k₁+α₂k₂+…+α_nk_n+α_n+1 (3)

基于公式(3)计算出预测值并存为“影像组学得分”特征；

Nomoscore＝β₁l₁+β₂l₂+…+β_ml_m+β_m+1 (4)

基于公式(4)计算出预测值，并结合训练集标记的高低风险分类，绘制ROC曲线，并以此ROC曲线的最佳临界值作为高低风险分类的阈值，预测值若大于ROC曲线的最佳临界值，则判定为高风险；预测值若小于或等于ROC曲线的最佳临界值，则判定为低风险；

10.根据权利要求9所述的基于机器学习的非小细胞肺癌风险预测方法，其特征在于，所述非小细胞肺癌风险预测方法还包括将经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估，评估方法为：将测试集带入联合Nomogram模型计算预测结果，根据预测结果及原测试集标注的高低风险分类，绘制ROC曲线，并分别计算训练集和测试集的AUC值，若训练集及测试集的AUC值均大于0.9，则证明模型的预测结果理想，模型可用。