CN117173167A - 影像组学机器学习生存模型预测肿瘤预后的方法及装置 - Google Patents
影像组学机器学习生存模型预测肿瘤预后的方法及装置 Download PDFInfo
- Publication number
- CN117173167A CN117173167A CN202311443398.1A CN202311443398A CN117173167A CN 117173167 A CN117173167 A CN 117173167A CN 202311443398 A CN202311443398 A CN 202311443398A CN 117173167 A CN117173167 A CN 117173167A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- data
- deep
- histology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004083 survival effect Effects 0.000 title claims abstract description 68
- 238000004393 prognosis Methods 0.000 title claims abstract description 58
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000007619 statistical method Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 208000005017 glioblastoma Diseases 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- JXSJBGJIGXNWCI-UHFFFAOYSA-N diethyl 2-[(dimethoxyphosphorothioyl)thio]succinate Chemical compound CCOC(=O)CC(SP(=S)(OC)OC)C(=O)OCC JXSJBGJIGXNWCI-UHFFFAOYSA-N 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 15
- 102000000763 Survivin Human genes 0.000 claims description 14
- 108010002687 Survivin Proteins 0.000 claims description 14
- 239000010410 layer Substances 0.000 claims description 14
- 238000003384 imaging method Methods 0.000 claims description 13
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000000546 chi-square test Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012353 t test Methods 0.000 claims description 7
- 206010030113 Oedema Diseases 0.000 claims description 5
- 238000000692 Student's t-test Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 241000251468 Actinopterygii Species 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000013103 analytical ultracentrifugation Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- HTFVKMHFUBCIMH-UHFFFAOYSA-N 1,3,5-triiodo-1,3,5-triazinane-2,4,6-trione Chemical compound IN1C(=O)N(I)C(=O)N(I)C1=O HTFVKMHFUBCIMH-UHFFFAOYSA-N 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 201000010915 Glioblastoma multiforme Diseases 0.000 description 1
- 206010018338 Glioma Diseases 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007475 c-index Methods 0.000 description 1
- 208000025997 central nervous system neoplasm Diseases 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010988 intraclass correlation coefficient Methods 0.000 description 1
- 238000002075 inversion recovery Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001550 time effect Effects 0.000 description 1
- 230000004614 tumor growth Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
影像组学机器学习生存模型预测肿瘤预后的方法及装置,能够基于GBM影像组学数据和临床数据,通过不断整合迭代数据以优化算法,识别具有一些边际变量的临床重要风险,可以显著提高模型的性能,精准预测患者预后情况。方法包括:(1)图像采集和分割;(2)建立影像组学标签及数据清洗;(3)数据转换和特征增加;(4)模型构建;(5)模型训练和评估;(6)统计分析。
Description
技术领域
本发明涉及医学图像处理的技术领域,尤其涉及一种影像组学机器学习生存模型预测肿瘤预后的方法,以及影像组学机器学习生存模型预测肿瘤预后的装置。
背景技术
多形性胶质母细胞瘤(Glioblastoma multiform, GBM)是最常见且预后最差的中枢神经系统原发性肿瘤,根据患者诊断时的年龄和其他危险因素综合判断,其5年生存率为6-22%。该肿瘤预后受到多种因素的影响,仅仅包括患者年龄、种族、是否接受放化疗,肿瘤的大小、位置、组织细胞学成分等危险因素的预后模型往往难以准确预测患者总生存期(Overall Survival, OS)。因此,识别GBM预后的风险因素并建立合适的预测模型对于GBM患者个体化精准治疗至关重要。
影像组学将数字医学图像转化为可挖掘的高维特征,并建立统计模型对特征进行分析,已广泛应用于肿瘤诊断,预后预测,治疗选择等方面。研究表明,GBM影像组学信息与患者预后及复发密切相关。Zhang等开发并验证了影像组学列线图模型,采用非侵入性方式确定GBM生存概率,在训练集和验证集都取得了较为优秀的准确率。生存分析(也称为时间-效应分析)的方法已被广泛应用到医学研究领域,如临床疗效试验和疾病预后分析等。Cox比例风险模型(Cox proportional-hazards model, Cox-PH)是用于确定临床预测变量与死亡事件风险之间关联的最知名方法,目前基于GBM影像组学所构建的预后模型也基本都是采用Cox比例风险模,这些模型基本都是基于事件风险与变量具有线性组合的假设,但是很有可能过于简单而无法拟合实际的疾病发展情况。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种影像组学机器学习生存模型预测肿瘤预后的方法,其能够基于GBM影像组学数据和临床数据,通过不断整合迭代数据以优化算法,识别具有一些边际变量的临床重要风险,可以显著提高模型的性能,精准预测患者预后情况。
本发明的技术方案是:这种影像组学机器学习生存模型预测肿瘤预后的方法,包括以下步骤:
(1)图像采集和分割:对患者的FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
(2)建立影像组学标签及数据清洗:采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
(3)数据转换和特征增加:根据Subtype,进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural;
(4)模型构建:构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型;
(5)模型训练和评估:在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C-index和Brier分数比较模型的性能;
(6)统计分析:训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
本发明基于GBM影像组学数据和临床数据,构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型,用于预测GBM患者总生存期,并比较五种模型的性能,通过不断整合迭代数据以优化算法,识别具有一些边际变量的临床重要风险,可以显著提高模型的性能,精准预测患者预后情况。
还提供了一种影像组学机器学习生存模型预测肿瘤预后的装置,其包括:
图像采集和分割模块,其配置来对患者的FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
建立影像组学标签及数据清洗模块,其配置来采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
数据转换和特征增加模块,其配置来根据Subtype,进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural;
模型构建模块,其配置来构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型;
模型训练和评估模块,其配置来在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C-index和Brier分数比较模型的性能;
统计分析模块,其配置来训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
附图说明
图1示出了根据本发明的影像组学机器学习生存模型预测肿瘤预后的方法的流程图。
具体实施方式
如图1所示,这种影像组学机器学习生存模型预测肿瘤预后的方法,包括以下步骤:
(1)图像采集和分割:对患者的液体抑制反转恢复FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
(2)建立影像组学标签及数据清洗:采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
(3)数据转换和特征增加:根据亚型Subtype进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为间质亚型Subtype_Mesenchymal和前神经亚型Subtype_Proneural;
(4)模型构建:构建传统的比例风险模型(Cox proportional-hazards, CPH)、基于树的生存树SurvivalTree模型、基于集成学习的随机生存森林模型(Random survivalforest, RSF),基于深度学习的深度生存DeepSurv模型和深度点击DeepHit模型;
(5)模型训练和评估:在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C指数C-index和布里尔Brier分数比较模型的性能;
(6)统计分析:训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
本发明基于GBM影像组学数据和临床数据,构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型,用于预测GBM患者总生存期,并比较五种模型的性能,通过不断整合迭代数据以优化算法,识别具有一些边际变量的临床重要风险,可以显著提高模型的性能,精准预测患者预后情况。
优选地,所述步骤(1)中,FLAIR扫描参数如下:层厚=4~5.5mm,TR/TE=9000~12500/140~157ms,层间距=4~6.5mm,翻转角=80~90°;感兴趣区覆盖整个肿瘤及水肿区域,特征提取方法使用癌症成像表型组学工具包CaPTk。
优选地,所述步骤(2)中,将所有收集的数据根据输入特征分类为数值型或分类型;对于缺失变量,使用K近邻算法进行演绎插补。
优选地,所述步骤(4)中,对于CPH模型,使用CoxPHFitter函数做比例风险假定,使用Cox回归进行基于过滤器的特征选择,以选择与GBM患者预后显著相关的特征,所有比较均在95%置信水平下进行,P<0.05表示具有统计显着性。
优选地,所述步骤(4)中,对于基于树的SurvivalTree模型,其模型的基础是树状结构,树的建立包括树的生成以及树的剪枝,该方法的预后分组通过二分类问题获得。
优选地,所述步骤(4)中,对于基于集成学习的RSF模型,通过在每个节点选择变量子集并根据生存时间和事件状态拆分节点树,对每棵树计算累积风险函数,得到集成累积风险函数的均值,最后计算集成累积风险函数预测误差。
优选地,所述步骤(4)中,基于深度学习的DeepSurv模型是CPH模型的前馈深度神经网络,用于根据输入特征对临床事件风险的非线性表示进行建模,模型架构包括来自患者数据的网络输入、全连接层和隐藏层,以及具有线性激活的单个节点的输出层,用于估计CPH模型中的对数风险函数,在不指定交互项的情况下进行预测,该模型的超参数根据模型的性能而变化。
优选地,所述步骤(4)中,对于基于深度学习的DeepHit模型,通过模型的softmax层,得到一个估计的概率序列。
优选地,所述步骤(5)中,C-index用于估计随机个体生存时间排序与其真实生存时间相同的比例,C-index值为1表示完全区分,当0.5时表示随机预测;Brier分数表示观察到的患者状态和预测的生存概率之间的均方差,分数从0到1分别代表最好和最差,对所有可用时间的Brier分数的总体估计称为综合Brier分数IBS,IBS低于0.25的模型被认为是有用的。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种影像组学机器学习生存模型预测肿瘤预后的装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括:
图像采集和分割模块,其配置来对患者的FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
建立影像组学标签及数据清洗模块,其配置来采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
数据转换和特征增加模块,其配置来根据Subtype,进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural;
模型构建模块,其配置来构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型;
模型训练和评估模块,其配置来在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C-index和Brier分数比较模型的性能;
统计分析模块,其配置来训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
以下更详细地说明本发明的方法。
1.图像采集和分割
使用ITK-SNAP(www.itk-snap.org)软件对患者的FLAIR图像进行肿瘤三维分割。FLAIR扫描参数如下:层厚(thickness)=4~5.5mm,FLAIR (TR/TE=9000~12500/140~157ms),层间距(slice gap)=4~6.5mm,翻转角(flip angle)=80~90°。感兴趣区覆盖整个肿瘤及水肿区域,所有特征提取方法均使用癌症成像表型组学工具包(CaPTk)实现。为了确认特征的可重复性,随机选择了30例患者,由两人进行感兴趣区(Region Of Interest, ROI)分割,计算两个ROI的组内相关系数(Intraclass Correlation Coefficient, ICC)。所计算的特征均包含一阶统计特征(如能量,熵,偏度,峰度,平均值,最大值和最小值等)和基于统计的纹理特征,如灰度共生矩阵(grey-level co-occurrence matrices, GLCM)、灰度相依矩阵(gray level dependence matrix, GLDM)、邻域灰度差异矩阵(neighborhood grey-tonedifference matrices, NGTDM)、灰度游程长度矩阵(grey-level run length matrices,GLRLM)和灰度区域大小矩阵(grey-level size zone matrices, GLSZM)。
2.建立影像组学标签及数据清洗
采用最小绝对收缩和选择算子(Least absolute shrinkage and selectionoperator, LASSO)方法从数据集中选择与预后显著相关的关键特征。对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级。随后,将所有收集的数据根据输入特征分类为数值型或分类型。对于缺失变量,使用K近邻算法(K-Nearest Neighbor, KNN)进行演绎插补。
3.数据转换和特征工程
由于特征在收集过程中是分类变量或者连续变量,因此没有执行数据转换技术。然而,根据Subtype,进行了onehot编码,将不同类别的风险因素转换为分类变量。这产生了两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural。
4.模型的构建
4.1 CPH模型
对于CPH模型,使用CoxPHFitter函数做比例风险假定。使用Cox回归进行基于过滤器的特征选择,以选择与GBM患者预后显著相关的特征。所有比较均在95%置信水平下进行,P<0.05表示具有统计显着性。
4.2 SurvivalTree模型
SurvivalTree是在分类与回归树(classification and re-gression trees,CART)基础上发展起来的,其模型的基础是树状结构,树的建立主要包括树的生成以及树的剪枝。该方法的预后分组可以通过简单的二分类问题得到较好的表现。
4.3 RSF模型
Random Survival Forest是综合随机森林(Random Forest, RF)与生存分析方法,该模型通过在每个节点选择变量子集并根据生存时间和事件状态拆分节点树,对每棵树计算累积风险函数,得到集成累积风险函数的均值,最后计算集成累积风险函数预测误差。
4.4 DeepSurv模型
DeepSurv是CPH模型的前馈深度神经网络,用于根据输入特征对临床事件风险的非线性表示进行建模。模型架构包括来自患者数据的网络输入、全连接层和隐藏层,以及具有线性激活的单个节点的输出层,用于估计CPH模型中的对数风险函数。DeepSurv能够在不指定交互项的情况下进行预测,此外该模型的超参数可以根据模型的性能而变化。
4.5 DeepHit模型
DeepHit模型最初是为分析多个事件的竞争风险而设计的。在本研究中,只考虑一个事件,即患者存活率。因此,可以使用简化的DeepHit模型来分析本发明的数据。通过模型的softmax层,可以得到一个估计的概率序列。
4.6 模型训练和评估
在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优。使用Harrell'sconcordance index (C-index)和Brier分数比较模型的性能。C-index用于估计随机个体生存时间排序与其真实生存时间相同的比例,C-index值为1表示完全区分,当0.5时表示随机预测。Brier分数表示观察到的患者状态和预测的生存概率之间的均方差,分数从0到1分别代表最好和最差,对所有可用时间的Brier分数的总体估计称为综合Brier分数(Integrated Brier Score, IBS)。在实践中,IBS低于0.25的模型被认为是有用的。此外,对SurvivalTree和RSF模型,还采用随时间变化的ROC曲线,计算AUC值来评估模型性能。
4.7统计分析
统计分析采用R 3.6.0(http://www.R-project.org,2019)和Python 3.7(https://www.python.org/)。所用R软件包如下:glmnet包用于LASSO逻辑回归。gplots及pheatmap包用于热图分析。所用Python软件包如下:CPH分析使用lifelines包,SurvivalTree和RSF使用scikit-survival包,特征重要性排序使用permutation_importance函数;DeepSurv和DeepHit使用基于Pytorch的pycox包。训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,自动增加Fish精确检验。所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
本研究利用TICA公共数据库,使用T2-flair图像,采用CaPTk软件,得到了1944个影像组学特征,将没有数值的特征剔除,共得到1792个特征,将1972个特征带入LASSO Cox回归模型,筛选最优的影像组学特征。LASSO Cox回归模型通过对高通量的特征进行回归分析筛选出与预后关系最佳的影像组学特征。本研究在全部数据集利用LASSO Cox回归模型十倍交叉验证筛选最优的影像组学特征,通过调节不同参数的lambda值获得最小的偏差,筛选出最佳的影像组学特征。
单因素Cox分析表明,年龄(HR=1.576,P=0.037)、KPS评分(HR=1.890,P=0.006)、影像组学风险评分(HR =2.021,P =0.001)、影像组学风险分级(HR =1.572,P=0.043)是GBM总生存期的预后因素;多因素Cox分析表明,KPS评分(HR=1.864,P=0.008)、影像组学风险评分(HR =3.370,P =0.003)是GBM总生存期的预后因素。在训练集和验证集中,CPH模型的C-index分为0.663和0.635,总体的C-index为0.662,对于预测1年、3年、5年生存期的Brierscore分别为0.225、0.080、0.040,IBS为0.102。
使用训练集建立了基于树算法的SurvivalTree和RSF的GBM生存预测模型,并在验证集中进行了验证。CPH模型性能最好,平均AUC为0.701,SurvivalTree模型性能最差,平均AUC值为0.564。三种模型的AUC在前半段和后半段的时间范围内存在一定差异。
在训练集和验证集中,SurvivalTree模型的C-index分为0.702和0.655,总体的C-index为0.564,对于预测1年、3年、5年生存期的Brier score分别为0.225、0.080、0.040,综合Brier score为0.192。在训练集和验证集中,RSF模型的C-index分为0.735和0.667,总体的C-index为0.642,对于预测1年、3年、5年生存期的Brier score分别为0.214、0.143、0.124,IBS为0.152。
SurvivalTree和RSF特征中,KPS、radiation和risk_score对于模型的重要性较高,对于两个模型来说,radiation都是最为重要的特征,如果将radiation在模型中去除,二者的C-index分别会下降0.145和0.101。
使用训练集建立了基于深度学习算法的DeepSurv和DeepHit生存预测模型,并在验证集中进行了验证。在训练集和验证集中,DeepSurv模型的C-index分为0.882和0.732,总体的C-index为0.691,对于预测1年、3年、5年生存期的Brier score分别为0.203、0.139、0.124,综合Brier score为0.116。在训练集和验证集中,DeepHit模型的C-index分为0.608和0.560,总体的C-index为0.617,对于预测1年、3年、5年生存期的Brier score分别为0.347、0.330、0.146,IBS为0.261。
GBM的精准化治疗可以延缓肿瘤的生长,为改善患者预后提供帮助。先前有关GBM的研究已将深度学习用于肿瘤的诊断和预后评估。这是第一项使用机器学习和影像组学方法对GBM患者预后进行评估的研究。本研究通过构建影像组学预后标签,采用不同的机器学习模型并和传统的CPH模型进行性能比较,结果表明,与传统的CPH模型相比,DeepSurv深度学习模型显示出更优秀的预测能力。
FLAIR-影像组学特征是GBM预后的危险因素传统的放射影像学主要关注肉眼所观察到的影像表现,而影像组学重于探索影像表型和生物学特征之间的关系,已广泛应用于肿瘤诊断,预后评价等方面。研究表明,FLAIR序列对显示肿瘤边界和水肿范围更具优势,有90%的 GBM在瘤周水肿区域发生复发,并且证明其与 GBM的预后相关。部分进展患者在增强扫描中无明显强化,但在FLAIR序列上表现为高信号。因此探讨非增强 FLAIR序列在胶质瘤的预后评价中十分重要。为了构建影像组学预后标签,使用LASSO Cox回归模型将1372个特征缩减为7个潜在的预测特征。本研究结果表明,在 FLAIR序列得到的7个影像组学特征与GBM的生存密切相关,这些特征表明了GBM的灰度异质性。此外,通过Cox单因素和多因素分析表明,影像组学风险评分是GBM的独立预后因素。在基于树模型的特征重要性排序中,影像组学风险评分同样是较为重要的特征,这说明所构建的影像组学风险评分可以作为GBM的预后标志物。
CPH模型是生存分析和事件预测的经典方法,但是,该模型是半参数的,并且假设事件的风险与变量具有线性关联。近来,基于树的模型在解决多维交互作用的识别中受到越来越多研究者的关注。生存树与决策树相似,都是通过树节点的递归分裂构建的。与 CPH相比,生存树对生存资料的要求比较宽松,不要求生存时间满足特定的分布。随机生存森林是随机森林(Random Forest)和生存树的结合,RSF模型的优点是它不受比例风险和对数线性假设的约束。同时,它可以通过两个随机抽样过程防止其算法的过拟合问题。本研究构建的生存树模型和RSF模型,在训练集中都达到了0.7以上的C指数。但是由于生存树模型可供调节的参数较少,不属于集成算法,因此在训练集上的效果并不如RSF模型优越,总体C指数也较低。两个模型的IBS结果也表明,RSF的表现更加优越。此外,两个模型累计生存时间的AUC值表明在前半段和后半段的时间范围内存在明显差异,在前半段模型的AUC值较高,后半段AUC值较低。因此,可以得出结论该模型在预测中期死亡方面最为有效。
深度学习模型能够以完全数据驱动的方式学习和推断患者临床结果和预测变量之间的高阶非线性组合,相关研究已经证明优于标准的生存分析,其优势之一是无需事先选择特征即可辨别临床结果与预测变量之间的复杂关系。本研究中,DeepSurv模型在训练集和验证集中取得了最高的C指数,同时,总体C指数也表明该模型最为优越,表明基于深度学习的生存模型在预测GBM生存方面优于Cox比例风险回归和随机生存森林模型。之前基于临床危险因素的深度学习预后模型在训练集和验证集分别达到了0.823和0.700的C-index,本研究在训练集和验证集达到了0.882和0.667,说明基于影像组学特征的预后模型的性能更加优越。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (10)
1.影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:包括以下步骤:
(1)图像采集和分割:对患者的FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
(2)建立影像组学标签及数据清洗:采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
(3)数据转换和特征增加:根据Subtype,进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural;
(4)模型构建:构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型;
(5)模型训练和评估:在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C-index和Brier分数比较模型的性能;
(6)统计分析:训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
2.根据权利要求1所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(1)中,FLAIR扫描参数如下:层厚=4~5.5mm,TR/TE=9000~12500/140~157ms,层间距=4~6.5mm,翻转角=80~90°;感兴趣区覆盖整个肿瘤及水肿区域,特征提取方法使用癌症成像表型组学工具包CaPTk。
3.根据权利要求2所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(2)中,将所有收集的数据根据输入特征分类为数值型或分类型;对于缺失变量,使用K近邻算法进行演绎插补。
4.根据权利要求3所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(4)中,对于CPH模型,使用CoxPHFitter函数做比例风险假定,使用Cox回归进行基于过滤器的特征选择,以选择与GBM患者预后显著相关的特征,所有比较均在95%置信水平下进行,P<0.05表示具有统计显着性。
5.根据权利要求4所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(4)中,对于基于树的SurvivalTree模型,其模型的基础是树状结构,树的建立包括树的生成以及树的剪枝,该方法的预后分组通过二分类问题获得。
6.根据权利要求5所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(4)中,对于基于集成学习的RSF模型,通过在每个节点选择变量子集并根据生存时间和事件状态拆分节点树,对每棵树计算累积风险函数,得到集成累积风险函数的均值,最后计算集成累积风险函数预测误差。
7.根据权利要求5所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(4)中,基于深度学习的DeepSurv模型是CPH模型的前馈深度神经网络,用于根据输入特征对临床事件风险的非线性表示进行建模,模型架构包括来自患者数据的网络输入、全连接层和隐藏层,以及具有线性激活的单个节点的输出层,用于估计CPH模型中的对数风险函数,在不指定交互项的情况下进行预测,该模型的超参数根据模型的性能而变化。
8.根据权利要求5所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(4)中,对于基于深度学习的DeepHit模型,通过模型的softmax层,得到一个估计的概率序列。
9.根据权利要求5所述的影像组学机器学习生存模型预测肿瘤预后的方法,其特征在于:所述步骤(5)中,C-index用于估计随机个体生存时间排序与其真实生存时间相同的比例,C-index值为1表示完全区分,当0.5时表示随机预测;Brier分数表示观察到的患者状态和预测的生存概率之间的均方差,分数从0到1分别代表最好和最差,对所有可用时间的Brier分数的总体估计称为综合Brier分数IBS,IBS低于0.25的模型被认为是有用的。
10.影像组学机器学习生存模型预测肿瘤预后的装置,其特征在于:其包括:
图像采集和分割模块,其配置来对患者的FLAIR图像进行肿瘤三维分割,再进行感兴趣区ROI分割,计算两个ROI的组内相关系数ICC,所计算的特征均包含一阶统计特征和基于统计的纹理特征;
建立影像组学标签及数据清洗模块,其配置来采用最小绝对收缩和选择算子LASSO方法从数据集中选择与预后显著相关的关键特征,对所选特征按照各自的系数加权进行线性组合,构建影像组学标签,计算出每一个患者的风险分数,判断风险等级;
数据转换和特征增加模块,其配置来根据Subtype,进行onehot编码,将不同类别的风险因素转换为分类变量,这产生两个新的特征,称为Subtype_Mesenchymal和Subtype_Proneural;
模型构建模块,其配置来构建传统的CPH模型、基于树的SurvivalTree模型、基于集成学习的RSF模型,基于深度学习的DeepSurv和DeepHit模型;
模型训练和评估模块,其配置来在数据预处理之后,对训练集的数据进行建模,将数据分为70%的训练数据和30%的测试数据,对于SurvivalTree和RSF模型,使用交叉验证对模型的超参数进行寻优,对于DeepSurv和DeepHit模型,使用手动优化对模型的超参数进行寻优;使用C-index和Brier分数比较模型的性能;
统计分析模块,其配置来训练集及验证集之间患者的比较对连续性变量进行t检验或方差分析列出P值,对分类型变量,做卡方检验,如有单元格理论频数小于10,则增加Fish精确检验;所有统计结果均为双尾,P值小于0.05认为具有显著统计学差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311443398.1A CN117173167A (zh) | 2023-11-02 | 2023-11-02 | 影像组学机器学习生存模型预测肿瘤预后的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311443398.1A CN117173167A (zh) | 2023-11-02 | 2023-11-02 | 影像组学机器学习生存模型预测肿瘤预后的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117173167A true CN117173167A (zh) | 2023-12-05 |
Family
ID=88947123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311443398.1A Pending CN117173167A (zh) | 2023-11-02 | 2023-11-02 | 影像组学机器学习生存模型预测肿瘤预后的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173167A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096757A (zh) * | 2021-04-29 | 2021-07-09 | 中国科学院深圳先进技术研究院 | 一种基于双区域影像组学的食管鳞癌生存预测方法和系统 |
CN113436150A (zh) * | 2021-06-07 | 2021-09-24 | 华中科技大学同济医学院附属同济医院 | 用于淋巴结转移风险预测的超声影像组学模型的构建方法 |
CN113571203A (zh) * | 2021-07-19 | 2021-10-29 | 复旦大学附属华山医院 | 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统 |
CN113706434A (zh) * | 2020-05-09 | 2021-11-26 | 北京康兴顺达科贸有限公司 | 基于深度学习对胸部增强ct图像的后处理方法 |
CN113706435A (zh) * | 2020-05-09 | 2021-11-26 | 北京康兴顺达科贸有限公司 | 基于传统影像组学的胸部增强ct图像处理方法 |
WO2022063200A1 (zh) * | 2020-09-24 | 2022-03-31 | 上海健康医学院 | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 |
CN116705296A (zh) * | 2023-06-06 | 2023-09-05 | 中国科学院深圳先进技术研究院 | 一种基于常规mri序列对gbm患者进行风险分层的方法及系统 |
-
2023
- 2023-11-02 CN CN202311443398.1A patent/CN117173167A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706434A (zh) * | 2020-05-09 | 2021-11-26 | 北京康兴顺达科贸有限公司 | 基于深度学习对胸部增强ct图像的后处理方法 |
CN113706435A (zh) * | 2020-05-09 | 2021-11-26 | 北京康兴顺达科贸有限公司 | 基于传统影像组学的胸部增强ct图像处理方法 |
WO2022063200A1 (zh) * | 2020-09-24 | 2022-03-31 | 上海健康医学院 | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 |
CN113096757A (zh) * | 2021-04-29 | 2021-07-09 | 中国科学院深圳先进技术研究院 | 一种基于双区域影像组学的食管鳞癌生存预测方法和系统 |
CN113436150A (zh) * | 2021-06-07 | 2021-09-24 | 华中科技大学同济医学院附属同济医院 | 用于淋巴结转移风险预测的超声影像组学模型的构建方法 |
CN113571203A (zh) * | 2021-07-19 | 2021-10-29 | 复旦大学附属华山医院 | 多中心基于联邦学习的脑肿瘤预后生存期预测方法及系统 |
CN116705296A (zh) * | 2023-06-06 | 2023-09-05 | 中国科学院深圳先进技术研究院 | 一种基于常规mri序列对gbm患者进行风险分层的方法及系统 |
Non-Patent Citations (6)
Title |
---|
崔达华 等: "基于动态增强MRI的影像组学列线图预测肝细胞癌切除术后3年复发的价值", 中国临床医学影像杂志, no. 12 * |
张璐: "基于磁共振影像组学的鼻咽癌远处转移风险评估模型构建及验证", 《中国优秀硕士学位论文全文数据库医药卫生科技辑》, no. 12, pages 36 * |
熊光明 等: "《智能车辆理论与应用:慕课版 第2版》", 31 December 2021, 北京理工大学出版社, pages: 23 - 26 * |
王首超 等: "基于术前MRI影像组学对IDH野生型胶质母细胞瘤患者总生存期的预测", 中国医学装备大会暨2022医学装备展览会论文汇编, pages 26 - 34 * |
茶桁: "生存分析:利用深度学习进行时间到事件预测", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/623953784> * |
阿尔贝托•博斯凯蒂 等: "《数据科学导论》", 31 March 2020, 机械工业出版社, pages: 271 - 273 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7305656B2 (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
CN106815481B (zh) | 一种基于影像组学的生存期预测方法及装置 | |
CN105512477B (zh) | 基于降维组合分类算法非计划性再入院风险评估预测模型 | |
CN112184658A (zh) | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 | |
CN112382411B (zh) | 一种基于异质图的药物-蛋白质靶向作用预测方法 | |
CN112270666A (zh) | 基于深度卷积神经网络的非小细胞肺癌病理切片识别方法 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN117438029A (zh) | 一种骨科创伤患者创伤严重程度智能评估系统 | |
CN115862869A (zh) | 一种基于因果网络不确定性推理的疾病预测预警系统 | |
CN117476232A (zh) | 一种基于卷积循环神经网络的预后预测方法 | |
CN113903471A (zh) | 基于组织病理学图像和基因表达数据的胃癌患者生存风险预测方法 | |
CN108090507A (zh) | 一种基于集成方法的医疗影像纹理特征处理方法 | |
CN117727464B (zh) | 基于医疗多视图疾病预测模型的训练方法及设备 | |
CN117994587A (zh) | 一种基于深度学习两阶段推理网络的病理图像分类方法 | |
CN111863248B (zh) | 一种构建临床决策模型的有效方法 | |
CN117173167A (zh) | 影像组学机器学习生存模型预测肿瘤预后的方法及装置 | |
CN109934352A (zh) | 智能模型的自动进化方法 | |
Wei et al. | Genetic U-Net: automatically designing lightweight U-shaped CNN architectures using the genetic algorithm for retinal vessel segmentation | |
Termritthikun et al. | Neural architecture search and multi-objective evolutionary algorithms for anomaly detection | |
KR20230080144A (ko) | 전이 학습의 미세 조정 기술을 사용한 조직 병리학 이미지의 다중 클래스 분류 방법 및 시스템 | |
Sivalakshmi et al. | Microarray image analysis using genetic algorithm | |
Chakkouch et al. | A Comparative Study of Machine Learning Techniques to Predict Types of Breast Cancer Recurrence | |
Dharani et al. | Optimizing Breast Cancer Prediction: A Multimodal Dataset Apporach with XGBOOST | |
Eroltu | Using genetic algorithm for breast cancer feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20231205 |