CN112330596A - 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 - Google Patents
一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 Download PDFInfo
- Publication number
- CN112330596A CN112330596A CN202011093666.8A CN202011093666A CN112330596A CN 112330596 A CN112330596 A CN 112330596A CN 202011093666 A CN202011093666 A CN 202011093666A CN 112330596 A CN112330596 A CN 112330596A
- Authority
- CN
- China
- Prior art keywords
- model
- wavelet
- image
- crc
- glszm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Pathology (AREA)
- Strategic Management (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Genetics & Genomics (AREA)
- Radiology & Medical Imaging (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
Abstract
本发明公开了一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型及建立方法,本发明通过收集整理CRC病患的信息,将其划分、构建成不同的队列,通过对患者CT扫描图像分析进行分割和图像特征提取,并对肿瘤组织进行转录组测序及分析,采用了遗传算法(GAs)筛选的影像组及转录组学特进行构建影像转录组(RT)模型并进行验证;采用逐步回归分析的方法,筛选出与IL26表达密切相关15个影像特征;最终将转录组学与影像组学进行整合,构建了一个只包括19个影像特征的影像组学(RA)模型本发明的影像组学(RA)模型将转录组学与影像组学进行结合,其为CRC的转移的预测提供一种新的、准确度高的诊断方法,且其具有无创,易应用的优势。
Description
技术领域
本发明涉及医学辅助诊断系统领域,尤其涉及一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型。
背景技术
结直肠癌(colorectal cancer,CRC)是第三常见癌症,约占全球已诊断癌症的10.9%和癌症相关死亡的9.0%。据统计,2018年全球新增确诊CRC病例185万人,死亡病例88.32万人。在初次诊断时,约25%的CRC患者有转移,近50%的患者会发展为转移,转移是晚期癌症患者死亡的重要原因之一。转移性结直肠癌(mCRC)5年生存率仅为8.1%。因此,早期发现和预测转移潜能有助于制定更有效的CRC治疗策略。
为了解决这一问题,相关的研究人员及技术人员在研究用于临床鉴定的分子标记方面已经做出了大量努力,例如,原发肿瘤的基因表达特征可以预测转移。然而,到目前为止,相关的标志物的临床应用仍然受到限制。
而影像学技术:包括计算机断层摄影(CT)、磁共振成像(MRI)或超声,其通常用于诊断和确认转移性结直肠癌。近年来,随着模式识别工具的快速发展,影像组学也随之受到了越来越多的关注。影像组学是一种通过提取高通量定量特征将医学图像转换为统计数据的过程。通过对这些特征的分析,影像组学已被用于预测乳腺癌的恶性程度、宫颈癌的新辅助化疗反应和乳腺癌腋窝淋巴结转移。特别是影像组学结合病理因素已被用于预测CRC的区域淋巴结转移。
此外,先前的研究表明,影像组学与基因或蛋白具有潜在的生物学联系。MRI影像特征可预测肺腺癌患者O6-甲基鸟嘌呤DNA甲基转移酶的损伤状态,CT图像特征与肺腺癌患者表皮因子受体的突变能力有关。并且在临床医学研究中引入机器学习算法后,使得跨尺度整合多组学信息以构建预后分类和预测模型,并用来指导临床制定更有效的治疗策略成为可能。并且近年来,结合多种要素的CRC预测模型的准确性达到了较好的结果,多维联合分析具有更强的说服力。但在目前的CRC临床研究中,综合分析患者的基因信息和影像组学特征的报道却极其少见。
发明内容
基于以上背景,本发明通过探索CRC转移患者与非转移患者肿瘤的异质性,并基于机器学习算法来将转录组学与影像组学数据进行整合,提供了一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型。
本发明的技术方案为:
一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型,所述模型的计算公式如下:
RA core=7.069e-01+3.723*wavelet_HHH_glszm_LowGrayLevelZoneEmphasis+2.593e-01*
original_firstorder_Median-2.759e-01*wavelet_HHH_glszm_GrayLevelNonUniformityNormalized-5.711e-01*original_firstorder_90Percentile-1.971e+00*wavelet_HHH_glszm_SizeZoneNonUniformityNormalized+1.169*wavelet_HHH_glszm_GrayLevelVariance+3.480e-01*original_firstorder_10Percentile-5.645e-03*wavelet_HHH_glszm_SizeZoneNonUniformity+8.628e-01*original_firstorder_InterquartileRange+1.758e-02*wavelet_HHH_glszm_GrayLevelNonUniformity-6.953e-01*wavelet_HHH_glszm_HighGrayLevelZoneEmphasis+1.312e-01*wavelet_HHH_glszm_ZoneEntropy-5.987e+05*diagnostics_Mask_corrected_Maximumoriginal_firstorder_Range+5.987e+05*diagnostics_Mask_corrected_Minimum-9.221e-06*wavelet_LLL_glszm_LargeAreaLowGraylevelEmphasis+3.474e05*wavelet_LLH_glszm_LargeAreaLowGraylevelEmphasis-4.341e+01*wavelet_HHH_ngtdm_Contrast+1.969e-01*wavelet_LLL_firstorder_Skewness;
上述的计算结果RA score>-3.035时,即表示患者的CRC肿瘤转移的风险比较高。
进一步的,上述的影像组学模型包含有19个影像组特征。
针对上述的用来预测CRC转移的影像组模型,本发明还提供了一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型的建立方法,其建立的步骤如下:
(1)收集整理患者的信息,建立DZCH 1训练队列和DZCH 2独立验证队列信息数据库;
(2)收集DZCH 1队列的病患的CT扫描图像信息,并对图像进行分割和图像特征提取;收集DZCH1队列患者的肿瘤组织,并对其进行转录组测序与分析;
(3)采用遗传算法(GAs)筛选出50个影像组及转录组学特征,采用其中的15个Top基因和4个影像组学特征来构建能够预测CRC患者转移的影像转录组(RT)模型,并利用DZCH2独立验证队列来验证影像转录组(RT)模型的性能;
(4)从TCGA数据库中下载CRC患者的转录组数据,利用其验证步骤(2)所建立的RT模型中的基因,筛选出IL-26基因作为预测CRC转移的生物标志物;
(5)收集整理患者的信息,建立DZCH 3队列,基于IL-26基因生物功能分析,利用DZCH 3队列构建IL26与影像组学的生物学联系;然后利用逐步回归分析的方法,筛选出与IL26表达密切相关15个影像组学特征;
(6)将步骤(3)筛选出的4个影像组学特征与步骤(5)筛选出的15个影像组学进行结合,构建包含有19个影像特征的能够对CRC转移进行预测的模型。
进一步的,其包括对步骤(6)构建的模型进行验证。
进一步的,所述步骤(2)中患者的CT图像信息为患者肿瘤切除前的腹部CT扫描信息。
进一步的,所述步骤(2)中患者的CT图像的切割采用3D Slicer软件进行切割,并用3D Slicer软件的Radiomics工具提取影像特征。
进一步的,所述步骤(2)所提取的影像特征包含9个类别:original,wavelet_HHH,wavelet_HHL,wavelet_HLH,wavelet_HLL,wavelet_LHH,wavelet_LHL,wavelet_LLH和wavelet_LLL,每个类别又分为6种类型的特征:first order、glcm、glszm、gldm、ngtdm和glrlm,每种类型还包含若干个特性。
进一步的,所述步骤(2)的转录组测序的步骤包括:
(1)使用试剂从每个肿瘤组织样本中提取总RNA;
(2)利用检测试剂盒检测步骤(1)提取的总RNA的质量和数量;
(3)对合格的总RNA,利用磁珠进行富集纯化;
(4)通过在总RNA中加入EB缓冲液来制备cDNA文库,利用Illumina平台对符合要求的DNA文库进行测序;
(5)通过步骤(4)获得原始RNA-seq数据后,然后清洗数据并进行基因比对,其后利用edgeR进行差异基因表达分析;
(6)最后利用GSEA、KEGG和GO分析进行基因富集和功能注释。
进一步的,所述步骤(2)所构建的影像转录组(RT)模型DZCH 1和DZCH 2中的AUC分别为0.977和0.869,其能够准确区分非转移和转移患者。
采用上述技术方案,具有的有益效果如下:
本发明的基于机器学习算法将转录组学与影像组学数据进行整合,所构建的影像组学模型能够对CRC转移进行很好的预测,为CRC转移的预测提供一种新的诊断方法,且相较于与现有的肿瘤转移诊断方法,其具有无创、易应用的优势;且其是基于基因驱动的影像模型,相较于现有的单纯以影像组学为基础构成的影像预测模型,其结合了生物学上的功能,其预测的准确度及说服度会更高。
附图说明
图1为本发明实施例中的影像组学(RA)模型的建模步骤流程图;
图2为本发明实施例中转移和非转移CRC患者差异表达基因的富集分析和功能注释;
图3为本发明实施例中的影像转录组学(RT)模型的建模步骤流程图;
图4为本发明实施例中的开发预测CRC患者的转移的影像转录组(RT))模型;
图5为本发明实施例中的RT模型在训练队列和DZCH 2独立验证队列中的表现;
图6为本发明实施例中的IL26基因在CRC中的生物学功能;
图7为本发明实施例中的训练和验证集中影像组学特征预测IL26表达的性能表现;
图8为本发明实施例中RA模型预测CRC患者转移的结果。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
实施例1:本实施例的一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型的建立方法,其步骤为:
(1)收集2018年3月至2019年3月来达州市中心医院就诊的CRC患者的信息,将其中的92例CRC患者的信息进行收集,建立DZCH 1信息数据库,另收集2019年4月到10月之间来达州市中心医院就诊的58例患者的信息,建立DZCH 2独立验证队列信息数据库;
(2)收集整理DZCH 1队列患者肿瘤切除的腹部CT扫描信息CT扫描图像信息数据,并对图像进行分割和图像特征提取;收集DZCH 1患者的术后肿瘤组织并冷冻,通过Illumina高通量测序平台进行肿瘤组织转录组测序并测序结果进行分析。
DZCH 1队列患者肿瘤切除的腹部CT扫描是采用西门子64排螺旋CT仪进行扫描,然后利用3D Slicer软件(4.10.2版)对CT图像进行分割,并利用3D Slicer软件的Radiomics工具提取854个影像特征。这些特征包含9个类别:original,wavelet_HHH,wavelet_HHL,wavelet_HLH,wavelet_HLL,wavelet_LHH,wavelet_LHL,wavelet_LLH和wavelet_LLL。每个类别又分为6种类型的特征:first order、glcm、glszm、gldm、ngtdm和glrlm。每种类型还包含若干个特性,例如,first order包括能量、熵、均值和方差。
其中为了评估CT影像特征在预测CRC患者转移的性能,收集整理2014年9月至2019年2月期间来达州市中心医院就诊的276例CRC患者的信息以建立DZCH 4验证队列,其中包含104例为转移患者,172例非转移病患。
其中,对患者的肿瘤组织进行转录组测序(RNA-Seq)的具体操作步骤如下:
①使用TRIZOL试剂(Takara Biomedical Technology,北京,中国)从每个肿瘤组织样本中提取总RNA。
②使用Agilent 2100RNA Nano 6000检测试剂盒(Agilent Technologies,CA,USA)检测总RNA的质量和数量。
③对合格的总RNA,利用oligo dT磁珠进行富集纯化。
④通过在总RNA中加入EB缓冲液制备cDNA文库。最后,利用Illumina平台的测序策略PE150对符合要求的文库进行测序。
⑤通过步骤(4)获得原始RNA-seq数据后,然后清洗数据并进行基因比对,其后利用edgeR进行差异基因表达分析;
⑥最后利用GSEA、KEGG和GO分析进行基因富集和功能注释。
对上述转录组测序结果进行分析,筛选预测CRC肿瘤患者转移的转录组特征。经过对转录组数据分析,纳入了非转移和转移患者的217个差异表达基因(图2A)。在GO分析中差异表达基因主要富集在与免疫功能有关通路,如抗菌体液反应和体液免疫反应(图2B)。KEGG功能注释中,差异表达基因在IL-17信号通路、细胞因子-细胞因子受体相互作用、唾液分泌和神经活性配体-受体相互作用四种通路中富集(图2C)。
(3)采用遗传算法(GAs)筛选出50个影像组及转录组学特征,采用其中的15个Top基因和4个影像组学特征来构建能够预测CRC患者转移的影像转录组(RT)模型,并利用DZCH2独立验证队列来验证影像转录组(RT)模型的性能;
由DZCH 1中的CRC患者的未处理854个影像特征和217个差异表达基因构成初始数据集。应用R软件中的“GALGO”包实现GAs算法,采用最近直心法进行变量选择,而正向选择法用于模型筛选。此过程采用随机分组法,确保每个患者被分为训练集或验证集的机会相同。采用五折交叉验证对模型进行训练和校正,流程图如图3所示。
利用遗传算法(GAs)对所有变量进行初始化,通过随机抽样得到变量集。本研究收集了903个适合度等于或大于0.9的随机变量集(图4A),并利用这些随机变量集建立了903个模型。上述的903个模型对非转移患者的平均预测能力为0.731,对转移患者的平均预测能力为0.611。
所有模型共涵盖1057个变量,说明选择变量是随机的、无偏的。903个模型中1071个变量的秩稳定性和频率如图4B所示,前50个变量用不同颜色标注。在903个模型中,25%的模型覆盖了前41个变量,50%的模型覆盖了157个变量。前50个变量包含46个差异表达基因和4个影像组学特征(图4C)。而最稳定、最常见的变量是Genomics_27(IL-26gene),在这些模型中出现了380次。Genomics_136(OR2AP1基因)、Genomics_117(CST2基因)和Genomics_114(DRD5基因)也保持了良好的稳定性,显示频率分别为210、201和199。
正向选择法用于筛选优秀的模型。每个模型由不同数量和种类的变量组成,模型中至少包含稳定性排名前5个变量,最多包含前50个变量。平均适应度排名前14位模型如图4D所示。最终,获得一个最佳模型(适应度为0.838),其包含了稳定性排名前50个的变量。此最佳模型能有效区分研究人群中非转移和转移患者的敏感性为0.892,特异性为0.762。每个患者在最优模型的预测结果也被计数,如图4E所示。利用最佳模型的50个变量进行主成分分析,结果显示可以有效地分离有转移和非转移的患者(图4F)。
为了评估影像转录组模型性能,本实施例设计了一个独立内部验证队列(DZCH2)。但是,由于样本容量与各变量之间的不平衡,在独立验证集中容易过拟合。为了解决这个问题,本实施例选择了前15个基因和4个影像组学特征来构建影像转录组模型(RT模型)。在DZCH 1和DZCH 2中,通过接受者操作特征曲线(ROC)分析RT模型的区分能力,曲线下面积(area under curve,AUC)分别为0.977[95%CI:0.950-1.00]和0.869[95%CI:0.779-0.959](图5A和图5B)。同时,校正曲线显示预测结果与实际结果有较好的拟合(图5C和5D),决策曲线显示,使用RT模型预测转移是对于病人是有益的(图5E)。
(4)从TGGA数据库中下载619名CRC患者的转录组信息,并将其中386例转录组信息用来验证影像转录组(RT)模型中的基因;
(5)收集整理150名CRC患者的信息,建立DZCH 3队列,基于IL-26基因生物功能分析,利用DZCH3队列构建IL26与影像组学的生物学联系;然后利用逐步回归分析的方法,筛选出与IL26表达密切相关15个影像组学特征;
根据DZCH 1队列的转录组测序结果及分析,CDC转移患者肿瘤组织中IL26的表达水平明显低于非转移患者组织(图6A),将TCGA队列以IL26表达TPM值的中位数为临界值,分为高表达和低表达两组,通过Kaplan-Meier生存分析,结果显示TCGA队列中IL26高表达组和低表达组的总生存(OS)和无病生存(DFS)的生存曲线存在显著差异(图6C和6D)(P<0.05)。
在DZCH 3队列中,以IL26表达TPM平均值为截断值,将150例患者分为IL26高表达组(n=73)和IL26低表达组(n=77)。DZCH 3队列全基因组表达谱的基因集富集分析结果如图6E和6F所示。结果发现,这些基因主要与IL26的高表达呈正相关,并在JAK/STAT通路和epsilon受体信号通路中富集。同时,基因热图谱显示IL26高表达组和IL26低表达组基因表达量存在差异(图6G)。根据KEGG和GO分析的基因通路圈图显示,与IL26表达相关的基因富集于免疫通路或蛋白和细胞因子分泌通路(图6H和图6I)。
在将影响特征与IL26表达水平进行关联,其为基于IL26生物功能分析,利用DZCH3队列构建IL26与影像组学的生物学联系。将DZCH 3队列的150例患者按7:3的比例分为训练集和测试集。然后采用逐步回归分析筛选与IL26表达密切相关的影像组学特征。首先,根据各因素对Y(偏回归平方的大小)的影响,由大到小依次引入回归方程。其次,对回归方程中的所有变量进行检验,被淘汰不显著的变量。当回归方程中的所有变量对Y都有显著影响时,引入新的变量。最后,在剩余的未选择因素中,选择对Y影响最大的因素,检验其显著性。方程中引入显著性变量,非显著性变量则不引入。直到最后没有更显著的变量需要引入,也没有非显著变量需要消除为止。最终获得15个影像组学特征:
wavelet_HHH_glszm_LowGrayLevelZoneEmphasis、
original_firstorder_Median、
wavelet_HHH_glszm_GrayLevelNonUniformityNormalized、
original_firstorder_90Percentile、
wavelet_HHH_glszm_SizeZoneNonUniformityNormalized、
wavelet_HHH_glszm_GrayLevelVariance、
original_firstorder_10Percentile、
wavelet_HHH_glszm_SizeZoneNonUniformity、
original_firstorder_InterquartileRange、
wavelet_HHH_glszm_GrayLevelNonUniformity、
wavelet_HHH_glszm_HighGrayLevelZoneEmphasis、
wavelet_HHH_glszm_ZoneEntropy、
diagnostics_Mask_corrected_Maximum、
original_firstorder_Range、
diagnostics_Mask_corrected_Minimum。
ROC曲线显示这15个影像特征对IL26表达的有优秀的预测能力,其训练集AUC为0.907[95%CI:0.849-0.964](图7A)。在测试集上,15个影像特征也具有较好的预测IL26表达的能力,AUC为0.875[95%CI:0.766-0.984](图7B)。在训练和测试集中,预测IL26表达结果与实际结果拟合较好(图7C和图7D)。15个影像组学特征的决策曲线显示,使用影像特征预测IL26表达是有效的(图7E)。
(6)将步骤(3)筛选出的4个影像组学特征与步骤(5)筛选出的15个影像组学进行结合,构建只包含有19个影像学特征的能够对CRC转移进行预测的模型。
在临床应用中,由于基因检测成本高,很多患者存在基因数据缺失的问题。为了解决这个问题,我们创造性地结合了步骤(3)中筛选出的4个影像组学特征和研究2中筛选出的15个影像组学特征,构建了一个只包含19个影像学特征的预测模型(RA),其中步骤(3)中筛选出的4个影像组学特征分别为:
wavelet_LLL_glszm_LargeAreaLowGraylevelEmphasis;
wavelet_LLH_glszm_LargeAreaLowGraylevelEmphasis;
wavelet_HHH_ngtdm_Contrast;
wavelet_LLL_firstorder_Skewness。
构建的影像组学(RA)模型的计算公式如下:
RA core=7.069e-01+3.723*wavelet_HHH_glszm_LowGrayLevelZoneEmphasis+2.593e-01*
original_firstorder_Median-2.759e-01*wavelet_HHH_glszm_GrayLevelNonUniformityNormalized-5.711e-01*original_firstorder_90Percentile-1.971e+00*wavelet_HHH_glszm_SizeZoneNonUniformityNormalized+1.169*wavelet_HHH_glszm_GrayLevelVariance+3.480e-01*original_firstorder_10Percentile-5.645e-03*wavelet_HHH_glszm_SizeZoneNonUniformity+8.628e-01*original_firstorder_InterquartileRange+1.758e-02*wavelet_HHH_glszm_GrayLevelNonUniformity-6.953e-01*wavelet_HHH_glszm_HighGrayLevelZoneEmphasis+1.312e-01*wavelet_HHH_glszm_ZoneEntropy-5.987e+05*diagnostics_Mask_corrected_Maximumoriginal_firstorder_Range+5.987e+05*diagnostics_Mask_corrected_Minimum-9.221e-06*wavelet_LLL_glszm_LargeAreaLowGraylevelEmphasis+3.474e05*wavelet_LLH_glszm_LargeAreaLowGraylevelEmphasis-4.341e+01*wavelet_HHH_ngtdm_Contrast+1.969e-01*wavelet_LLL_firstorder_Skewness;
上述的模型计算结果RA score>-3.035时,即表示患者的CRC肿瘤转移的风险比较高。
(7)对步骤(6)构建的模型进行验证。
首先收集整理268个CRC患者的信息,建立DZCH 4队列信息数据库。验证结果表明,在DZCH 4队列中,RA模型具有较高的预测价值,AUC为0.824[95%CI:0.674-0.809](图8A)。此外,在将RA模型与临床特征癌胚抗原(CEA)联合后,其预测能力并没有显著提高,进一步证明了RA模型具有卓越的预测转移的能力。DZCH 4的校准曲线显示,预测结果与真实值吻合较好,无显著偏差(图8B)。
本实施例中的患者共纳入1023例CRC患者。其中确诊的576例CRC来自达州市中心医院,将其分为4个队列(DZCH 1-4)。此外,还包括来自TCGA结肠和直肠数据集386例CRC患者。在这些队列中,性别、年龄、转移状态和肿瘤位置没有显著差异。肿瘤分期0~II期为非转移期,III期和IV期为转移期,在达州市中心医院的研究队列间差异有统计学意义(见表1)。
表1:
注:比较结直肠癌非转移组与转移组的特征差异,采用T检验或卡方检验。缩写:SD,标准差;*P<0.05。
其中,需要指出的是,本发明是遵循伦理委员会的指导方针,且经达州市中心医院伦理委员会批准(IRB00000003-17003)。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型,其特征在于,所述模型的计算公式如下:
RA core=7.069e-01+3.723*wavelet_HHH_glszm_LowGrayLevelZoneEmphasis+2.593e-01*original_firstorder_Median-2.759e-01*wavelet_HHH_glszm_GrayLevelNonUniformityNormalized-5.711e-01*original_firstorder_90Percentile-1.971e+00*wavelet_HHH_glszm_SizeZoneNonUniformityNormalized+1.169*wavelet_HHH_glszm_GrayLevelVariance+3.480e-01*original_firstorder_10Percentile-5.645e-03*wavelet_HHH_glszm_SizeZoneNonUniformity+8.628e-01*original_firstorder_InterquartileRange+1.758e-02*wavelet_HHH_glszm_GrayLevelNonUniformity-6.953e-01*wavelet_HHH_glszm_HighGrayLevelZoneEmphasis+1.312e-01*wavelet_HHH_glszm_ZoneEntropy-5.987e+05*diagnostics_Mask_corrected_Maximumoriginal_firstorder_Range+5.987e+05*diagnostics_Mask_corrected_Minimum-9.221e-06*wavelet_LLL_glszm_LargeAreaLowGraylevelEmphasis+3.474e05*wavelet_LLH_glszm_LargeAreaLowGraylevelEmphasis-4.341e+01*wavelet_HHH_ngtdm_Contrast+1.969e-01*wavelet_LLL_firstorder_Skewness;
上述的计算结果RA score>-3.035时,即表示患者的CRC肿瘤转移的风险比较高。
2.根据权利要求1所述的一种基于机器学习算法的用于预测CRC转移的影像组学(RA)模型,其特征在于,上述的影像组学模型包含有19个影像特征。
3.一种基于机器学习算法用于预测CRC转移的影像组学(RA)模型的建立方法,其特征在于,权利要求1或权利要求2的影像组模型的建立的步骤如下:
(1)收集整理CRC患者的信息,建立DZCH 1训练队列和DZCH 2独立验证队列信息数据库;
(2)收集DZCH 1队列的病患的CT扫描图像信息,并对图像进行分割和图像特征提取;收集DZCH 1队列患者的肿瘤组织,并对其进行转录组测序与分析;
(3)采用遗传算法(GAs)筛选出50个影像组及转录组学特征,采用其中的15个Top基因和4个影像组特征来构建能够预测CRC患者转移的影像转录组(RT)模型,并利用DZCH 2独立验证队列来验证影像转录组(RT)模型的性能;
(4)从TCGA数据库中下载CRC患者的转录组数据,利用其验证步骤(2)所建立的RT模型中的基因,筛选出IL26基因作为预测CRC转移的生物标志物;
(5)收集整理CRC患者的信息,建立DZCH 3队列,基于IL26基因生物功能分析,利用DZCH3队列构建IL26与影像组学的生物学联系;然后利用逐步回归分析的方法,筛选出与IL26表达密切相关15个影像组学特征;
(6)将步骤(3)筛选出的4个影像组学特征与步骤(5)筛选出的15个影像组学进行结合,构建包含有19个影像特征的能够对CRC转移进行预测的模型。
4.根据权利要求3所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,其还包括对步骤(6)构建的模型进行验证。
5.根据权利要求3所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,所述步骤(2)中患者的CT图像信息为患者肿瘤切除前的腹部CT扫描信息。
6.根据权利要求3所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,所述步骤(2)中患者的CT图像的切割采用3D Slicer软件进行切割,并用3D Slicer软件的Radiomics工具提取影像特征。
7.根据权利要求6所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,所述步骤(2)所提取的影像特征包含9个类别:original,wavelet_HHH,wavelet_HHL,wavelet_HLH,wavelet_HLL,wavelet_LHH,wavelet_LHL,wavelet_LLH和wavelet_LLL,每个类别又分为6种类型的特征:first order、glcm、glszm、gldm、ngtdm和glrlm,每种类型还包含若干个特性。
8.根据权利要求3所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,所述步骤(2)的转录组测序的步骤包括:
(1)使用试剂从每个肿瘤组织样本中提取总RNA;
(2)利用检测试剂盒检测步骤(1)提取的总RNA的质量和数量;
(3)对合格的总RNA,利用磁珠进行富集纯化;
(4)通过在总RNA中加入EB缓冲液来制备cDNA文库,利用Illumina平台对符合要求的DNA文库进行测序;
(5)通过步骤(4)获得原始RNA-seq数据后,然后清洗数据并进行基因比对,其后利用edgeR进行差异基因表达分析;
(6)最后利用GSEA、KEGG和GO分析进行基因富集和功能注释。
9.根据权利要求3所述的一种基于机器学习算法的用于预测CRC转移的影像组学模型的建立方法,其特征在于,所述步骤(2)所构建的影像转录组(RT)模型DZCH 1和DZCH 2中的AUC分别为0.977和0.869,其能够准确区分非转移和转移患者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011093666.8A CN112330596A (zh) | 2020-10-14 | 2020-10-14 | 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011093666.8A CN112330596A (zh) | 2020-10-14 | 2020-10-14 | 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112330596A true CN112330596A (zh) | 2021-02-05 |
Family
ID=74313780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011093666.8A Pending CN112330596A (zh) | 2020-10-14 | 2020-10-14 | 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330596A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907555A (zh) * | 2021-03-11 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种基于影像基因组学的生存预测方法和系统 |
CN117133466A (zh) * | 2023-10-26 | 2023-11-28 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
CN118039134B (zh) * | 2024-04-09 | 2024-06-04 | 达州市中心医院(达州市人民医院) | 基于大数据的医疗信息数据增强方法及系统 |
-
2020
- 2020-10-14 CN CN202011093666.8A patent/CN112330596A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907555A (zh) * | 2021-03-11 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种基于影像基因组学的生存预测方法和系统 |
CN117133466A (zh) * | 2023-10-26 | 2023-11-28 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
CN117133466B (zh) * | 2023-10-26 | 2024-05-24 | 中日友好医院(中日友好临床医学研究所) | 基于转录组学和影像组学的生存预测方法及装置 |
CN118039134B (zh) * | 2024-04-09 | 2024-06-04 | 达州市中心医院(达州市人民医院) | 基于大数据的医疗信息数据增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Accurate diagnosis of pulmonary nodules using a noninvasive DNA methylation test | |
CN111278993A (zh) | 从无细胞核酸中检测体细胞单核苷酸变体并应用于微小残留病变监测 | |
Milanez-Almeida et al. | Cancer prognosis with shallow tumor RNA sequencing | |
CN110577998A (zh) | 预测肝癌术后早期复发风险分子模型的构建及其应用评估 | |
JP2020522690A (ja) | 肺疾病の特定又はモニタリング方法及びシステム | |
US20200219587A1 (en) | Systems and methods for using fragment lengths as a predictor of cancer | |
CN114171115A (zh) | 一种差异性甲基化区域筛选方法及其装置 | |
CN105132518B (zh) | 大肠癌标志物及其应用 | |
Romero et al. | Proteomic analysis of amniotic fluid to identify women with preterm labor and intra-amniotic inflammation/infection: the use of a novel computational method to analyze mass spectrometric profiling | |
CN106460045B (zh) | 人类基因组常见拷贝数变异用于癌症易感风险评估 | |
CN111863250B (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
CN112330596A (zh) | 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型 | |
CN106676178A (zh) | 一种评估肿瘤异质性的方法及系统 | |
CN113215254B (zh) | 可用于评估肺腺癌预后的免疫-临床特征联合预测模型 | |
CN113421609A (zh) | 一种基于lncRNA对的结肠癌预后预测模型及其构建方法 | |
Yuan et al. | WGCNA identification of TLR7 as a novel diagnostic biomarker, progression and prognostic indicator, and immunotherapeutic target for stomach adenocarcinoma | |
CN109830264A (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN112626218A (zh) | 一种用于预测胰腺癌转移风险的基因表达分类器、体外诊断试剂盒 | |
CN113345592B (zh) | 一种急性髓细胞样白血病预后风险模型的构建及诊断设备 | |
CN114360721A (zh) | 代谢相关子宫内膜癌的预后模型及构建方法 | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
CN112382341A (zh) | 一种用于鉴定食管鳞癌预后相关的生物标志物的方法 | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
Cheng et al. | Early signatures of breast cancer up to seven years prior to clinical diagnosis in plasma cell-free DNA methylomes | |
Sirven et al. | Definition of a novel breast tumor-specific classifier based on secretome analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |