CN112530592A - 一种基于机器学习的非小细胞肺癌风险预测方法 - Google Patents

一种基于机器学习的非小细胞肺癌风险预测方法 Download PDF

Info

Publication number
CN112530592A
CN112530592A CN202011473981.3A CN202011473981A CN112530592A CN 112530592 A CN112530592 A CN 112530592A CN 202011473981 A CN202011473981 A CN 202011473981A CN 112530592 A CN112530592 A CN 112530592A
Authority
CN
China
Prior art keywords
lung cancer
cell lung
small cell
image
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011473981.3A
Other languages
English (en)
Inventor
宋瑞杰
杨海强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202011473981.3A priority Critical patent/CN112530592A/zh
Publication of CN112530592A publication Critical patent/CN112530592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Radiology & Medical Imaging (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于机器学习的非小细胞肺癌风险预测方法,所述方法为对患者的胸部CT影像进行典型特征提取,记为CT影像特征;获得采样样本中所有患者的CT影像特征,结合采样样本中所有患者的临床病理学特征形成样本数据集,并对该样本数据集中的CT影像特征进行预处理;将经过预处理的样本数据集划分为测试集和训练集;针对划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选,基于经过特征筛选后的训练集,采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到非小细胞肺癌风险预测结果。可以将优秀医生、专家的经验积累下来,以便复制到其他小城市、小医院推广使用,提高风险预测准确率,进而提升患者的治疗效果。

Description

一种基于机器学习的非小细胞肺癌风险预测方法
技术领域
本发明属于医疗技术领域,具体涉及一种基于机器学习的非小细胞肺癌风险预测方法。
背景技术
肺癌是世界上最常见的恶性肿瘤之一,已成为我国城市人口恶性肿瘤死亡原因的第1位。约75%的非小细胞肺癌患者确诊时已处于中晚期,5年生存率很低。患者如果得不到及时的诊断和治疗,将错过最佳治疗时机,面临生命危险。通过结合CT影像特征和临床病理学特征进行非小细胞肺癌风险预测,预测结果分为高风险和低风险,医生能够根据预测结果安排合理的治疗方案,提升治疗效果。然而,根据CT影像特征和临床病理学特征实现非小细胞肺癌风险预测主要存在以下问题:(1)从CT影像的原始图像及派生图像中可提取上千个特征,如何筛选其中的相关特征、并结合临床病理学特征,进行非小细胞肺癌的低风险或高风险的准确预测,以辅助医生诊断。(2)非小细胞肺癌风险预测的准确率往往取决于医生的诊断水平,诊断准确率高的医生往往拥有丰富的经验及较高的医学水平,然而此类医生的人数有限,且大都集中在发达地区;相对的,欠发达地区或贫困地区的医生往往没有足够的能力去准确判断患者风险,从而延误病情,无法安排合理的治疗方案。
发明内容
本发明提供了一种基于机器学习的非小细胞肺癌风险预测方法,解决目前依靠医生能力和经验预测非小细胞肺癌风险,预测结果呈现较大差异,预测不准确的问题。
本发明提供的一种基于机器学习的非小细胞肺癌风险预测方法,所述方法依次包括如下步骤:
S1、对患者的胸部CT影像进行典型特征提取,记为CT影像特征,
S2、获得采样样本中所有患者的CT影像特征,结合采样样本中所有患者的临床病理学特征形成样本数据集,并对该样本数据集中的CT影像特征进行预处理,
S3、将经过预处理的样本数据集划分为测试集和训练集,
S4、针对步骤3划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选,
S5、基于步骤4经过特征筛选后的训练集,采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到非小细胞肺癌风险预测结果。
优选的,使用PyRadiomics平台从患者的胸部CT图像提取所述典型特征。
优选的,对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值,中心化,标准化,均衡化处理。
优选的,对样本数据集CT影像特征进行中心化处理,公式如(1),对样本数据集CT影像特征进行标准化处理,公式如(2):
Figure BDA0002834482890000021
Figure BDA0002834482890000022
其中,
Figure BDA0002834482890000023
为样本数据集的CT影像特征值,i取值为(1,2,…,i,…,m),j取值为(1,2,...,j,...,N),m为采样样本中所有患者对应的典型特征个数,N为采样样本的个数,
Figure BDA0002834482890000024
为样本数据集CT影像特征中心化后的特征值,
Figure BDA0002834482890000025
为标准化后的特征值。
优选的,所述均衡化预处理采用合成少数类过采样法,均衡原则为:
Figure BDA0002834482890000026
NGl代表第l个非小细胞肺癌风险等级对应的患者样本数,l通常取值为{0,1},0代表低风险,1代表高风险。
优选的,所述训练集的数量为
Figure BDA0002834482890000027
测试集数量为
Figure BDA0002834482890000028
N为采样样本的总数量。
优选的,采用最大相关最小冗余算法对CT影像特征进行特征筛选。
优选的,采用单变量特征选择算法对临床病理学特征进行特征筛选。
优选的,步骤5采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到预测结果的方法为:
首先,选用步骤4经过特征筛选后的CT影像特征采用LASSO算法建模、并进行交差验证,得到公式(3):
Radscore=α1k12k2+…+αnknn+1 (3)
其中,α1、α2、…、αn、αn+1为系数,k1、k2、…、kn为CT影像特征值,
基于公式(3)计算出预测值并存为“影像组学得分”特征;
然后,选用步骤4经过特征筛选后的临床病理学特征,联合“影像组学得分”特征,建立逻辑回归模型,得到公式(4):
Nomoscore=β1l12l2+…+βmmlmm+1 (4)
其中,β1、β2、…、βm、βm+1为系数,l1、l2、…、lm-1为临床病例学特征值,lm为“影像组学得分”特征值,
基于公式(4)计算出预测值,并结合训练集标记的高低风险分类,绘制ROC曲线,并以此ROC曲线的最佳临界值作为高低风险分类的阈值,预测值若大于ROC曲线的最佳临界值,则判定为高风险;预测值若小于或等于ROC曲线的最佳临界值,则判定为低风险;所述ROC曲线(receiver operating characteristic curve)的中文含义是接收者操作特征曲线。
最后,根据建立的逻辑回归模型绘制非小细胞肺癌风险预测列线图,即直观得到非小细胞肺癌风险预测结果。
优选的,所述非小细胞肺癌风险预测方法还包括将经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估,评估方法为:将测试集带入联合Nomogram模型计算预测结果,根据预测结果及原测试集标注的高低风险分类,绘制ROC曲线,并分别计算训练集和测试集的AUC值,若训练集及测试集的AUC值均大于0.9,则证明模型的预测结果理想,模型可用。所述AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积。
本发明的有益效果:本发明以机器学习为基础,基于CT影像特征、并联合临床病理学特征,提出了基于机器学习的非小细胞肺癌风险预测方法,通过该方法最终可直观、自动预测出患者的风险等级,预测结果在机器不断学习的基础上越来越精准;本发明提出的基于机器学习的非小细胞肺癌风险预测方法,能够将高水平医生的诊断经验总结下来,以便推广到各地区、辅助医生诊断,提高诊断准确率及效率,从而为患者及时安排合理的治疗方案。
附图说明
图1为实施例中基于机器学习的非小细胞肺癌风险预测方法的流程图;
图2为实施例中非小细胞肺癌风险预测列线图;
图3为实施例中根据公式(4)计算结果绘制的ROC曲线图;
图4为实施例中根据公式(6)计算结果绘制的ROC曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,不能理解为对本发明具体保护范围的限定。
实施例
参照图1,本实施例提出的基于机器学习的非小细胞肺癌风险预测方法,主要利用各级医院较为普遍的胸部CT影像提取典型特征、并联合临床病理学特征,采用联合Nomogram机器学习算法构建非小细胞肺癌风险预测模型,实现自动风险预测,并生成列线图以辅助诊断。所述方法依次包括如下步骤:
S1、对患者的胸部CT影像进行典型特征提取,记为CT影像特征,
S2、获得采样样本中所有患者的CT影像特征,结合采样样本中所有患者的临床病理学特征形成样本数据集,并对该样本数据集中的CT影像特征进行预处理,
S3、将经过预处理的样本数据集划分为测试集和训练集,
S4、针对步骤3划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选,
S5、基于步骤4经过特征筛选后的训练集,采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到非小细胞肺癌风险预测结果,
S6、将步骤4经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估。
胸部CT影像的原始图像及部分衍生图像包括:原始(Original)图像、小波滤波(Wavelet)图像(包括8种子图像:低低高频子带LLH、低高低频子带LHL、低高高频子带LHH、高低低频子带HLL、高低高频子带HLH、高高低频子带HHL、高高高频子带HHH、低低低频子带LLL)、平方(Square)图像、平方根(SquareRoot)图像、对数(Logarithm)图像、指数(Exponential)图像、梯度(Gradient)图像、本地二进制模型2D(LocalBinaryPattern2D)图像。
对每种图像提取7个维度的特征,即:(1)一阶统计量(First Order Statistics)特征18个、(2)基于3D的形状(Shape-based 3D)特征17个、(3)灰度共生矩阵(Gray LevelCo-occurrence Matrix,GLCM)特征24个、(4)灰度级区域矩阵(Gray Level Size ZoneMatrix,GLSZM)特征16个、(5)灰度级游程长度矩阵(Gray Level Run Length Matrix,GLRLM)特征16个、(6)相邻灰度差矩阵(Neighbouring Gray Tone Difference Matrix,NGTDM)特征5个、(7)灰度级相关矩阵(Gray Level Dependence Matrix,GLDM)特征14个。作为本实施例的一个优选实施方式,使用PyRadiomics平台从患者的胸部CT图像提取上述典型特征。
作为本实施例的一个优选实施方式,对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值,中心化,标准化,均衡化处理。
假设可获得采样样本(1,2,...,j,...,N)中所有患者对应的m个CT影像特征(f1,f2,...,fi,...,fm),此时对样本数据集进行预处理操作。首先,填补缺失值,对于缺失值
Figure BDA0002834482890000051
采用特征fi的中位数填补。然后,需要对每种特征fi,将其特征值
Figure BDA0002834482890000052
进行中心化、标准化处理,对样本数据集CT影像特征进行中心化处理,公式如(1),对样本数据集CT影像特征进行标准化处理,公式如(2):
Figure BDA0002834482890000053
Figure BDA0002834482890000054
其中,
Figure BDA0002834482890000055
为样本数据集的CT影像特征值,i取值为(1,2,…,i,…,m),j取值为(1,2,...,j,...,N),m为采样样本中所有患者对应的典型特征个数,N为采样样本的个数,
Figure BDA0002834482890000056
为样本数据集CT影像特征中心化后的特征值,
Figure BDA0002834482890000057
为标准化后的特征值。
在样本数据集中,若非小细胞肺癌高风险病人与非小细胞肺癌低风险病人样本数量差距较大,则需进行均衡化处理。在机器学习算法中,若某一类的数据样本比例过小,则可能会导致模型训练效率低下、预测效果差。因此,需对样本数据集进行扩充,使不同类的数据样本均衡化。
所述均衡化预处理采用合成少数类过采样法,均衡原则为:
Figure BDA0002834482890000058
NGl代表第l个非小细胞肺癌风险等级对应的患者样本数,l通常取值为{0,1},0代表低风险,1代表高风险。
作为本实施例的一个优选实施方式,所述训练集的数量为
Figure BDA0002834482890000059
测试集数量为
Figure BDA00028344828900000510
N为采样样本的总数量。划分后,应确保训练集与测试集均含有全部类型的非小细胞肺癌风险等级样本。
样本数据集中包括CT影像特征及临床病理学特征,对其中的特征进行选择,筛选其中的相关特征、剔除无关特征及冗余特征,以达到缓解维度灾难、降低学习任务的难度、提升模型的效率的目的。根据特征数据类型,分别对CT影像特征(连续值为主)、临床病理学特征(离散值为主)进行特征选择。
作为本实施例的一个优选实施方式,对于CT影像特征,采用最大相关最小冗余算法进行特征筛选。筛选出其中20个特征,包括:
原始(Original)图像下:
(1)灰度级相关矩阵(GLDM)的大依赖高灰度水平因子(Large Dependence HighGray Level Emphasis)特征;
(2)灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area High GrayLevel Emphasis)特征。
小波滤波(Wavelet)图像下:
(3)小波-低低低频子带(Wavelet-LLL)子图像的灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area High Gray Level Emphasis)特征;
(4)小波-低低低频子带(Wavelet-LLL)子图像的灰度级区域矩阵(GLSZM)的小面积低灰度水平因子(Small Area Low Gray Level Emphasis)特征;
(5)小波-低低低频子带(Wavelet-LLL)子图像的灰度级相关矩阵(GLDM)的依赖熵(Dependence Entropy)特征;
(6)小波-低低低频子带(Wavelet-LLL)子图像的灰度级相关矩阵(GLDM)的大依赖高灰度水平因子(Large Dependence High Gray Level Emphasis)特征;
(7)小波-低低高频子带(Wavelet-LLH)子图像的相邻灰度差矩阵(NGTDM)的粗糙度(Coarseness)特征;
(8)小波-低低高频子带(Wavelet-LLH)子图像的一阶统计量(First Order)的总能量(Total Energy)特征;
(9)小波-高低低频子带(Wavelet-HLL)子图像的灰度级相关矩阵(GLDM)的小依赖低灰度水平因子(Small Dependence Low Gray Level Emphasis)特征;
(10)小波-高低高频子带(Wavelet-HLH)子图像的灰度级区域矩阵(GLSZM)的大面积高灰度水平因子(Large Area HighGray Level Emphasis)特征。
平方(Square)图像下:
(11)一阶统计量(First Order)的最小值(Minimum)特征;
(12)相邻灰度差矩阵(NGTDM)的粗糙度(Coarseness)特征。
对数(Logarithm)图像下:
(13)灰度级相关矩阵(GLDM)的非均匀依赖性(Dependence Non-Uniformity)特征。
指数(Exponential)图像下:
(14)灰度级区域矩阵(GLSZM)的大面积低灰度水平因子(Large Area Low GrayLevel Emphasis)特征;
(15)灰度级游程长度矩阵(GLRLM)的运行差异(Run Variance)特征;
(16)灰度级区域矩阵(GLSZM)的区域非均匀标准化(Size-Zone Non-UniformityNormalized)特征。
梯度(Gradient)图像下:
(17)灰度级相关矩阵(GLDM)的依赖熵(Dependence Entropy)特征。
本地二进制模型2D(LocalBinaryPattern2D)图像下:
(18)灰度级区域矩阵(GLSZM)的区域非均匀标准化(Size-Zone Non-UniformityNormalized)特征;
(19)一阶统计量(First Order)的中值(Median)特征;
(20)一阶统计量(First Order)的10分位数(10th percentile)特征。
临床病理学特征共有17个特征,包括:性别、年龄、肿瘤最大径、肿瘤最小径、肿瘤平均径、结节最大径、结节平均径、类型、毛刺征、空洞征、空泡征、边界光滑、血管集束征、淋巴结肿大、分叶征、空气支气管征、胸膜凹陷征。
作为本实施例的一个优选实施方式,采用单变量特征选择算法对临床病理学特征进行特征筛选。筛选得到6个特征,其中包括:
(1)肿瘤最大径、(2)结节平均径、(3)血管集束征、(4)胸膜凹陷征、(5)边界光滑、(6)淋巴结肿大。
作为本实施例的一个优选实施方式,步骤5采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,联合Nomogram模型是一种综合模型,其主要包括LASSO算法及逻辑回归(Logistic)模型。
选用步骤4经过特征筛选后的CT影像特征采用LASSO算法建模、并进行交差验证,首先,可以确定最佳模型和系数,然后LASSO算法能够根据已建立模型的系数进一步对上述20个CT影像特征进行筛选,
筛选后的特征包括(8个):
原始图像的灰度级相关矩阵的大依赖高灰度水平因子(Original_GLDM_LargeDependence High Gray Level Emphasis),
小波-低低低频子带子图像的灰度级区域矩阵的小面积低灰度水平因子(wavelet_LLL_GLSZM_Small Area Low Gray Level Emphasis),
小波-低低低频子带的灰度级相关矩阵的依赖熵(wavelet_LLL_GLDM_DependenceEntropy),
小波-低低低频子带子图像的灰度级相关矩阵的大依赖高灰度水平因子(wavelet_LLL_GLDM_Large Dependence High Gray Level Emphasis),
小波-低低高频子带子图像的相邻灰度差矩阵的粗糙度(wavelet_LLH_NGTDM_Coarseness),
小波-高低高频子带子图像的灰度级区域矩阵的大面积高灰度水平因子(wavelet_HLH_GLSZM_Large Area High Gray Level Emphasis),
平方图像的相邻灰度差矩阵的粗糙度(square_NGTDM_Coarseness),
本地二进制模型2D图像的一阶统计量的10分位数(lbp_2D_firstorder_10Percentile)。
最后,使用LASSO算法模型进行非小细胞肺癌的风险预测,将预测结果存为“影像组学得分”(Radiomics Score)特征。根据模型系数及筛选后的特征,可得出其计算公式(3):
Radscore=α1k12k2+…+αnknn+1 (3)
其中,α1、α2、…、αn、αn+1为系数,k1、k2、…、kn为CT影像特征值。
本实施例根据上述筛选出的8个CT影像特征以及模型系数,得到公式(4):
Figure BDA0002834482890000081
根据公式(4)所计算的预测结果及原训练集标记的高低风险分类,绘制ROC曲线,并以此ROC曲线的最佳临界值作为高低风险分类的阈值,进行本模型的风险预测分类。规定:预测值若大于ROC曲线的最佳临界值,则判定为高风险;预测值若小于或等于ROC曲线的最佳临界值,则判定为低风险。本实施例ROC曲线最佳临界值为:0.1612423,如图3所示。
选用步骤4经过特征筛选后的临床病理学特征,联合“影像组学得分”特征,建立逻辑回归模型,得到公式(5):
Nomoscore=β1l12l2+…+βmlmm+1 (5)
其中,β1、β2、…、βm、βm+1为系数,l1、l2、…、lm-1为临床病例学特征值,lm为“影像组学得分”特征值,
本实施例根据上述筛选出的6个临床病理学特征,联合“影像组学得分”特征,得到公式(6):
Figure BDA0002834482890000091
其中,Max、Solid_per、Vessel、Pleural、Boundary、Lymph、Radscore分别代表肿瘤最大径、结节平均径、血管集束征、胸膜凹陷征、边界光滑、淋巴结肿大、影像组学得分。
根据公式(6)计算的预测值及原训练集标记的高低风险分类,再绘制ROC曲线,并以此ROC曲线的最佳临界值作为高低风险分类的阈值,进行本模型的风险预测分类。规定:预测值若大于ROC曲线的最佳临界值,则判定为高风险;预测值若小于或等于ROC曲线的最佳临界值,则判定为低风险。根据规定进行分类,并输出最终预测结果。本实施例ROC曲线最佳临界值为:0.2948881,如图4所示。
根据建立的逻辑回归模型绘制非小细胞肺癌风险预测列线图,即直观得到非小细胞肺癌风险预测结果,如图2所示:
列线图中,从上到下分别为:
得分(Points):用于计算每种因素对应的分数。
肿瘤最大径(Max):肿瘤的最大直径,单位为毫米(mm)。
结节平均径(Solid_per):结节的平均直径,单位为厘米(cm)。
血管集束征(Vessel):血管集束征的类型,2代表I型,1代表II型,0代表III型。
胸膜凹陷征(Pleural):2代表I型,1代表II型,0代表III型。
边界光滑(Boundary):1代表光滑,2代表不光滑。
淋巴结肿大(Lymph):1代表有淋巴结肿大,0代表无淋巴结肿大。
影像组学得分(Radscore):LASSO算法模型计算所得的影像组学得分。
总得分(Total Points):总计得分。
风险(Risk):总得分对应的风险程度。
作为本实施例的一个优选实施方式,将经过步骤4特征筛选后的测试集带入步骤5建立联合Nomogram模型进行非小细胞肺癌风险预测模型评估的评估方法为:将测试集带入联合Nomogram模型计算预测结果,根据预测结果及原测试集标注的高低风险分类,绘制ROC曲线,并计算AUC值(即ROC曲线下方的面积大小),此时,还需要计算步骤5绘制的ROC曲线的AUC值,若训练集及测试集的AUC值均大于0.9,则证明模型的预测结果理想,模型可用。
通过本实施例方法建立的联合Nomogram模型即为非小细胞肺癌风险预测模型,该模型可推广至其他样本、其他病种、其他领域中使用。

Claims (10)

1.一种基于机器学习的非小细胞肺癌风险预测方法,其特征在于,所述方法依次包括如下步骤:
S1、对患者的胸部CT影像进行典型特征提取,记为CT影像特征,
S2、获得采样样本中所有患者的CT影像特征,结合采样样本中所有患者的临床病理学特征形成样本数据集,并对该样本数据集中的CT影像特征进行预处理,
S3、将经过预处理的样本数据集划分为测试集和训练集,
S4、针对步骤3划分的测试集和训练集中患者的CT影像特征以及临床病理学特征进行特征筛选,
S5、基于步骤4经过特征筛选后的训练集,采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到非小细胞肺癌风险预测结果。
2.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:使用PyRadiomics平台从患者的胸部CT图像提取所述典型特征。
3.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:对所述样本数据集中CT影像特征进行预处理的方法为对CT影像特征依次进行填补缺失值,中心化,标准化,均衡化处理。
4.根据权利要求3所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于,对样本数据集CT影像特征进行中心化处理,公式如(1),对样本数据集CT影像特征进行标准化处理,公式如(2):
Figure FDA0002834482880000011
Figure FDA0002834482880000012
其中,
Figure FDA0002834482880000013
为样本数据集的CT影像特征值,i取值为(1,2,…,i,…,m),j取值为(1,2,...,j,...,N),m为采样样本中所有患者对应的典型特征个数,N为采样样本的个数,
Figure FDA0002834482880000014
为样本数据集CT影像特征中心化后的特征值,
Figure FDA0002834482880000015
为样本数据集CT影像特征标准化后的特征值。
5.根据权利要求3所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:所述均衡化预处理采用合成少数类过采样法,均衡原则为:
Figure FDA0002834482880000021
NGl代表第l个非小细胞肺癌风险等级对应的患者样本数,l通常取值为{0,1},0代表低风险,1代表高风险。
6.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:所述训练集的数量为
Figure FDA0002834482880000022
测试集数量为
Figure FDA0002834482880000023
N为采样样本的总数量。
7.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:采用最大相关最小冗余算法对CT影像特征进行特征筛选。
8.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:采用单变量特征选择算法对临床病理学特征进行特征筛选。
9.根据权利要求1所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于:步骤5采用联合Nomogram模型,进行非小细胞肺癌高低风险的预测训练,并得到预测结果的方法为:
首先,选用步骤4经过特征筛选后的CT影像特征采用LASSO算法建模、并进行交差验证,得到公式(3):
Radscore=α1k12k2+…+αnknn+1 (3)
其中,α1、α2、…、αn、αn+1为系数,k1、k2、…、kn为CT影像特征值,
基于公式(3)计算出预测值并存为“影像组学得分”特征;
然后,选用步骤4经过特征筛选后的临床病理学特征,联合“影像组学得分”特征,建立逻辑回归模型,得到公式(4):
Nomoscore=β1l12l2+…+βmlmm+1 (4)
其中,β1、β2、…、βm、βm+1为系数,l1、l2、…、lm-1为临床病例学特征值,lm为“影像组学得分”特征值,
基于公式(4)计算出预测值,并结合训练集标记的高低风险分类,绘制ROC曲线,并以此ROC曲线的最佳临界值作为高低风险分类的阈值,预测值若大于ROC曲线的最佳临界值,则判定为高风险;预测值若小于或等于ROC曲线的最佳临界值,则判定为低风险;
最后,根据建立的逻辑回归模型绘制非小细胞肺癌风险预测列线图,即直观得到非小细胞肺癌风险预测结果。
10.根据权利要求9所述的基于机器学习的非小细胞肺癌风险预测方法,其特征在于,所述非小细胞肺癌风险预测方法还包括将经过特征筛选后的测试集带入步骤5建立的联合Nomogram模型进行非小细胞肺癌风险预测模型评估,评估方法为:将测试集带入联合Nomogram模型计算预测结果,根据预测结果及原测试集标注的高低风险分类,绘制ROC曲线,并分别计算训练集和测试集的AUC值,若训练集及测试集的AUC值均大于0.9,则证明模型的预测结果理想,模型可用。
CN202011473981.3A 2020-12-14 2020-12-14 一种基于机器学习的非小细胞肺癌风险预测方法 Pending CN112530592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011473981.3A CN112530592A (zh) 2020-12-14 2020-12-14 一种基于机器学习的非小细胞肺癌风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011473981.3A CN112530592A (zh) 2020-12-14 2020-12-14 一种基于机器学习的非小细胞肺癌风险预测方法

Publications (1)

Publication Number Publication Date
CN112530592A true CN112530592A (zh) 2021-03-19

Family

ID=74999860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011473981.3A Pending CN112530592A (zh) 2020-12-14 2020-12-14 一种基于机器学习的非小细胞肺癌风险预测方法

Country Status (1)

Country Link
CN (1) CN112530592A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393938A (zh) * 2021-07-13 2021-09-14 华南理工大学 一种融合影像和临床特征信息的乳腺癌风险预测系统
CN114743685A (zh) * 2022-04-01 2022-07-12 中国医学科学院北京协和医院 一种基于人工智能的子宫内膜癌风险筛查方法及系统
CN115148365A (zh) * 2022-05-31 2022-10-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于预测中枢神经系统生殖细胞肿瘤预后的方法及系统
CN115440386A (zh) * 2022-09-30 2022-12-06 中国医学科学院北京协和医院 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005714A (zh) * 2015-06-18 2015-10-28 中国科学院自动化研究所 一种基于肿瘤表型特征的非小细胞肺癌预后方法
CN111862085A (zh) * 2020-08-03 2020-10-30 徐州市肿瘤医院 一种周围型nsclc的隐匿性n2淋巴结转移的预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005714A (zh) * 2015-06-18 2015-10-28 中国科学院自动化研究所 一种基于肿瘤表型特征的非小细胞肺癌预后方法
CN111862085A (zh) * 2020-08-03 2020-10-30 徐州市肿瘤医院 一种周围型nsclc的隐匿性n2淋巴结转移的预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张利文: "非小细胞癌的风险预测", 基于定量影像组学特征的非小细胞肺癌 中的EGFR基因突变预测, pages 2 - 4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393938A (zh) * 2021-07-13 2021-09-14 华南理工大学 一种融合影像和临床特征信息的乳腺癌风险预测系统
CN113393938B (zh) * 2021-07-13 2022-09-13 华南理工大学 一种融合影像和临床特征信息的乳腺癌风险预测系统
CN114743685A (zh) * 2022-04-01 2022-07-12 中国医学科学院北京协和医院 一种基于人工智能的子宫内膜癌风险筛查方法及系统
CN114743685B (zh) * 2022-04-01 2024-01-05 中国医学科学院北京协和医院 一种基于人工智能的子宫内膜癌风险筛查方法及系统
CN115148365A (zh) * 2022-05-31 2022-10-04 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 用于预测中枢神经系统生殖细胞肿瘤预后的方法及系统
CN115440386A (zh) * 2022-09-30 2022-12-06 中国医学科学院北京协和医院 基于加权多病灶的影像组学特征预测晚期癌症患者免疫治疗效果

Similar Documents

Publication Publication Date Title
CN112530592A (zh) 一种基于机器学习的非小细胞肺癌风险预测方法
WO2022268102A1 (zh) 基于深度学习的癌症预后生存预测方法、设备及存储介质
WO2022063200A1 (zh) 用于非小细胞肺癌预后生存预测的方法、介质及电子设备
CN108464840B (zh) 一种乳腺肿块自动检测方法及系统
Bouchareb et al. Artificial intelligence-driven assessment of radiological images for COVID-19
CN112768072B (zh) 基于影像组学定性算法构建癌症临床指标评估系统
KR101144964B1 (ko) 간질성 폐질환 검출 시스템 및 그 방법
CN112259221A (zh) 基于多种机器学习算法的肺癌诊断系统
CN107169497B (zh) 一种基于基因影像学的肿瘤影像标记物提取方法
CN109978880A (zh) 采用高维特征选择对肺部肿瘤ct图像进行判别的方法
CN114359629B (zh) 一种基于深度迁移学习的肺炎x胸片分类识别方法
Sethy et al. A cost-effective computer-vision based breast cancer diagnosis
CN112365973B (zh) 基于对抗网络和Faster R-CNN的肺结节辅助诊断系统
CN113208640A (zh) 一种基于乳腺专用pet影像组学预测腋窝淋巴结转移的方法
CN111767952A (zh) 一种可解释的肺结节良恶性分类方法
CN115471701A (zh) 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法
CN109740669B (zh) 一种基于深度特征聚合的乳腺癌病理图像分类方法
CN114549452A (zh) 基于半监督深度学习的新冠肺炎ct图像分析方法
CN114565786A (zh) 基于通道注意力机制的断层扫描图像分类装置和方法
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
CN113420793A (zh) 一种基于改进的卷积神经网络ResNeSt50的胃印戒细胞癌分类方法
CN117711615A (zh) 基于影像组学的淋巴结转移状态分类预测方法及设备
US20220156929A1 (en) Medical image analyzing system and method thereof
Fauci et al. A massive lesion detection algorithm in mammography
Hrizi et al. Lung cancer detection and nodule type classification using image processing and machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 266000 Hongkong East Road, Laoshan District, Qingdao, Shandong Province, No. 7

Applicant after: QINGDAO University

Address before: No.308 Ningxia road, Qingdao, Shandong 266000

Applicant before: QINGDAO University