CN116189761A - 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置 - Google Patents

基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置 Download PDF

Info

Publication number
CN116189761A
CN116189761A CN202211577608.1A CN202211577608A CN116189761A CN 116189761 A CN116189761 A CN 116189761A CN 202211577608 A CN202211577608 A CN 202211577608A CN 116189761 A CN116189761 A CN 116189761A
Authority
CN
China
Prior art keywords
image
feature
matrix
histology
liver cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211577608.1A
Other languages
English (en)
Inventor
丁勇
阮世健
邵嘉源
田吴炜
夏靖雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinhua Research Institute Of Zhejiang University
Zhejiang University ZJU
Original Assignee
Jinhua Research Institute Of Zhejiang University
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinhua Research Institute Of Zhejiang University, Zhejiang University ZJU filed Critical Jinhua Research Institute Of Zhejiang University
Priority to CN202211577608.1A priority Critical patent/CN116189761A/zh
Publication of CN116189761A publication Critical patent/CN116189761A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30056Liver; Hepatic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

基于多组学数据的肝癌DEB‑TACE联合PD‑1抑制剂疗效精准预测方法,其预测模型生成步骤如下:步骤1,获取肝癌患者术前的CT/MRI影像,进行图像预处理和肿瘤区域分割,提取影像组学常规特征及深度特征,并进行特征筛选;步骤2,获取基因组学数据,对影像组学特征和基因组学特征进行关联分析,将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块;步骤3,定量各蛋白质标的在样本中的表达水平,生成DIA数据,采用深度学习方法获取蛋白质组学特征,并进行特征筛选;步骤4,将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵,接入全连接神经网络中,构成深度前馈网络,对网络加以训练,输出肝癌患者的DEB‑TACE联合PD‑1抑制剂疗效预测结果。

Description

基于多组学数据的肝癌DEB-TACE联合PD-1抑制剂疗效精准预 测方法和装置
技术领域
本发明属于生物信息学中的疗效预测领域,尤其涉及一种基于多组学数据联合预测肝癌治疗疗效的方法和装置。
背景技术
原发性肝癌是世界上最常见的恶性肿瘤之一,恶性肿瘤不仅严重危害国民健康,还给家庭和社会造成沉重的经济负担。虽然肝癌治疗方面已取得一定进步,但是我国大多数肝癌病人在初诊时已处于进展期,失去了单独手术治疗的机会。近年来,非手术治疗肝癌取得显著进展,DEB-TACE联合PD-1抑制剂作为一种有潜力的联合治疗方案被用于进展期肝癌的治疗。该疗法有望实现将部分不可切除的进展期肝癌转化为可切除肝癌,即肝癌的转化治疗。并且,研究结果显示经过转化切除的肝癌病人,预后与早期肝癌相当。
近些年,影像组学(Radiomics)的概念被提出,包含有大量肿瘤病理、生理改变信息的数字化医学图像被转换成可供处理的高通量数据,通过定量方法对这些信息数据进行分析,可实现对肿瘤诊断、疗效和预后等因素的评估,以提高临床的决策能力。影像组学成为解决DEB-TACE联合PD-1抑制剂疗效个体化预测这一临床难题的有效工具。同时,大数据技术与医学影像数据交叉融合产生的影像基因组学方法是一种有前途的肿瘤疗效预测研究方法,可用于影像组学特征的系统性解释。
此外,蛋白质组学(Proteomics)的研究日益深入,此类研究以肿瘤蛋白质组为研究对象,从整体的角度分析肿瘤细胞内动态变化的蛋白质组成与变化规律。蛋白质组学方法也是肿瘤疗效预测研究的重要方法之一。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法和装置。
本发明的目的是融合影像组学特征、蛋白质组学特征和临床特征,完成对肝癌DEB-TACE联合PD-1抑制剂疗效的精准预测,并通过影像基因组学方法系统化解释影像组学特征,使其具备临床运用的依据。该方法和装置为临床治疗方案决策提供参考,帮助实现肝癌患者的精准治疗。
本发明为基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,基于多模态数据前端融合技术构建预测模型,该预测模型通过如下步骤生成:
步骤(1):获取肝癌患者术前的CT/MRI影像,进行图像预处理和肿瘤区域分割,提取影像组学常规特征及深度特征,并进行特征筛选;
步骤(2):采用基于磁珠的基因组提取和纯化方法,获取基因组学数据;使用影像基因组学方法对影像组学特征和基因组学特征进行关联分析,在此基础上实现影像组学特征的k-均值聚类,将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块;
步骤(3):使用基于质谱的非靶标蛋白质组学检测方法,定量各蛋白质标的在样本中的表达水平,生成DIA数据,采用深度学习方法获取蛋白质组学特征,并进行特征筛选;
步骤(4):将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵,接入全连接神经网络中,构成深度前馈网络,对网络加以训练,最终可输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
进一步地,在步骤(1)中,所述图像预处理指利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强。所述肿瘤区域分割是指使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分,完成矩阵ROI即感兴趣区域的生成。步骤(1)所述的影像组学常规特征包括:
(a)一阶统计特征:能量、总能量、熵、最小值、第10个百分位数、第90个百分位数、最大值、平均值、中位数、四分位距、范围、平均绝对偏差(MAD)、稳健平均绝对偏差(rMAD)、均方根(RMS)、标准偏差、偏度、峰度、方差、均匀度;
(b)二阶纹理特征:灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度区域大小矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)、灰度依赖性矩阵(GLDM);
(c)高阶滤波特征:采用非抽样二维(2D)小波变换对原始二维图像进行小波分解,将原图像分别在X方向和Y方向各区分出高频部分和低频部分,共获得四种组合的小波变换的图像。对于原图像获得的四个小波变换后的图像进行特征提取操作,获得基于小波变换的纹理特征。
所述影像组学深度特征通过下述方法获得:采用经过标注的肿瘤图像,对深度神经网络进行训练。除去分类层的最后一层为特征输出层,在特征输出层获得医学图像的深度特征向量。所述特征筛选流程包括以下步骤:
(a)采用方差法计算数据集中每个特征的均值和方差,剔除不发散的特征;
(b)采用Pearson相关系数法计算步骤(a)中筛选后的特征变量与目标变量相关性系数,剔除信息冗余的特征;
(c)将步骤(b)筛选后的全部特征子集作为完整的特征空间,使用改进的拉斯维加斯包裹(Las Vegas Wrapper,LVW)特征选择算法进行处理;
(d)采用特征空间搜索方法中的遗传算法,首先随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,并且评分越高的特征子集被选中参加繁殖的概率越高。经过N代的繁殖和优胜劣汰后,产生评价函数值最高的特征子集。评价标准为最小化赤池信息准则(Akaike information criterio,AIC),即最少的特征个数和最小的模型误差;
(e)判断当前特征子集是否是空集,若是则将方差阈值递进一个方差步长、相关系数递进一个相关系数步长,返回步骤(a)。若新的特征子集不是空集,则得完成选择的特征子集。
进一步地,在步骤(3)中,所述的特征筛选流程包括以下详细步骤:
(a)采用方差检验剔除方差过小的特征,减少数据噪声的引入;
(b)根据特征之间的相关性,剔除具有高相关性的特征,减小特征集内部的冗余度;
(c)将蛋白质组学特征集合作为输入,疗效作为目标,构建非线性机器学习模型,并采用递归特征消除法获取预测效能最佳的特征子集;
(d)从当前的特征集合中移除最不重要的特征;
(e)在特征集合上不断的重复递归这个步骤,直到预测效能趋于稳定。
本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,包括:
采样模块:用于对肝癌CT/MRI影像进行预处理并对其中的肿瘤区域进行分割,以及通过基于质谱的非靶标蛋白质组学检测方法生成DIA数据;
特征提取模块:用于对采样模块得到的肝脏肿瘤区域进行影像组学常规特征和深度特征的提取,以及采用深度学习方法进行蛋白质组学特征的提取;
特征筛选和拼接模块:用于筛选影像组学特征和蛋白质组学特征,并纳入临床特征,将三者拼接为特征矩阵;
疗效预测模块:用于训练深度前馈网络,输入上述特征矩阵,输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
本发明的另一目的在于提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
本发明的有益效果:本发明提出了一套完整的结合了影像组学特征、蛋白质组学特征以及临床特征的用于肝癌DEB-TACE联合PD-1抑制剂疗效精准预测的方法,包括数据获取及其预处理、影像组学特征提取和筛选、蛋白质组学特征提取和筛选、模型构建,以及通过影像基因组学手段解释影像组学特征。最终获得一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。与其他在疗效预测方面尝试过的模型相比较,本发明在算法和运用上都有自己的独创性和独特性。实验结果表明,该模型可以有效预测肝癌DEB-TACE联合PD-1抑制剂疗效,可方便地用作术前评估工具,帮助依照患者情况个体化选择治疗方案。
附图说明
图1为基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法的流程图;
图2a-图2c为本发明实施例的性能测试曲线,其中,图2a是ROC曲线,图2b是校准曲线,图2c是决策曲线。
具体实施方式
下面结合附图对本发明方法作进一步说明。
本发明为基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,基于多模态数据前端融合技术构建预测模型,该预测模型通过如下步骤生成:
步骤(1):获取肝癌患者术前的CT/MRI影像,进行图像预处理和肿瘤区域分割,提取影像组学常规特征及深度特征,并进行特征筛选。
影像数据的纳入标准:穿刺活检病理学明确诊断为肝细胞肝癌;DEB-TACE联合PD-1抑制剂治疗前1月内行肝脏CT和(或)MRI平扫加增强检查;增强检查均为3期,包括动脉期、门脉期和延迟期;临床、影像资料和病理标本齐全,可供评价。
影像数据的排除标准:病理学检查结果为胆管癌或混合细胞癌;影像检查前行肝癌抗肿瘤治疗;影像学资料或临床资料缺失;影像图像质量欠佳,无法进行病灶勾画。
图像预处理:利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强。
肿瘤区域分割:使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分,完成矩阵ROI即感兴趣区域的生成。
影像组学常规特征包括:
(a)一阶统计特征:能量、总能量、熵、最小值、第10个百分位数、第90个百分位数、最大值、平均值、中位数、四分位距、范围、平均绝对偏差(MAD)、稳健平均绝对偏差(rMAD)、均方根(RMS)、标准偏差、偏度、峰度、方差、均匀度;
(b)二阶纹理特征:灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度区域大小矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)、灰度依赖性矩阵(GLDM);
(c)高阶滤波特征:采用非抽样二维(2D)小波变换对原始二维图像进行小波分解,将原图像分别在X方向和Y方向各区分出高频部分和低频部分,共获得四种组合的小波变换的图像。对于原图像获得的四个小波变换后的图像进行特征提取操作,获得基于小波变换的纹理特征。
影像组学深度特征的获得:采用经过标注的肿瘤图像,对深度神经网络进行训练。除去分类层的最后一层为特征输出层,在特征输出层获得医学图像的深度特征向量。
特征筛选流程:
(a)采用方差法计算数据集中每个特征的均值和方差,剔除不发散的特征;
(b)采用Pearson相关系数法计算步骤(a)中筛选后的特征变量与目标变量相关性系数,剔除信息冗余的特征;
(c)将步骤(b)筛选后的全部特征子集作为完整的特征空间,使用改进的拉斯维加斯包裹(Las Vegas Wrapper,LVW)特征选择算法进行处理;
(d)采用特征空间搜索方法中的遗传算法,首先随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,并且评分越高的特征子集被选中参加繁殖的概率越高。经过N代的繁殖和优胜劣汰后,产生评价函数值最高的特征子集。评价标准为最小化赤池信息准则(Akaike information criterio,AIC),即最少的特征个数和最小的模型误差;
(e)判断当前特征子集是否是空集,若是则将方差阈值递进一个方差步长、相关系数递进一个相关系数步长,返回步骤(a)。若新的特征子集不是空集,则得完成选择的特征子集。
步骤(2):采用基于磁珠的基因组提取和纯化方法,获取基因组学数据。使用影像基因组学方法对影像组学特征和基因组学特征进行关联分析,在此基础上实现影像组学特征的k-均值聚类,将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块。
基因组提取和和纯化具体可按如下流程操作:首先,通过Oligo(dT)磁珠富集带有polyA尾的mRNA,采用随机打断再还原的方法构建RNA文库。库检合格后进行Illumina测序,并产生150bp配对末端读数。测序片段被高通量测序仪测得的图像数据经CASAVA碱基识别转化为序列数据。对原始数据进行过滤,包括去除带接头的reads、去除含N的reads、去除低质量reads。最终,基于序列数据采用featureCounts(1.5.0-p3)计算映射到每个基因的读数。然后根据基因的长度计算每个基因的FPKM,并计算映射到该基因的读数。FPKM指每百万碱基对测序的转录本序列片段的每千碱基片段的预期数量。
影像组学特征和基因组学特征的关联分析具体实现步骤:
(a)将最大信息系数(I)、皮尔森相关系数(r)和互信息量(MIC)的加权平
均值作为相似性度量的指标S(X;Y),公式如下:
Figure SMS_1
Figure SMS_2
Figure SMS_3
Figure SMS_4
其中X,Y分别为两种组学特征(基因组学特征和影像组学特征),P(x)为X的概率分布,P(y)为Y的概率分布,P(x,y)是X,Y的联合概率分布;max I(D|G)是指在x列和y行的网格分割G上具有最大互信息量的分布D|G;基于上述相似性度量标准,对于任意组学数据A预处理之后的大小为m×n1的特征矩阵和组学数据B预处理之后的大小为m×n2的特征矩阵,可以构建一个大小为n1×n2的相似度量矩阵H,其中m为病例人数,n1和n2为两个组学特征的维度;
(b)由基因组学特征矩阵W1,影像特征矩阵W2,构建影像和基因表达的相似性度量矩阵H、基因组学的自相似性度量矩阵H1、影像组学的自相似性度量矩阵H2。构建如下的优化模型:
Figure SMS_5
其中X为需要最终求解的关联矩阵,
Figure SMS_6
为基因组学先验关联权重矩阵计算得到的拉普拉斯矩阵,其公式如下:
Figure SMS_7
Figure SMS_8
是一个大小为n1×n2的对角矩阵。对角元素的值等于H1中该元素所在列的和。类似,/>
Figure SMS_9
为影像组学先验关联权重矩阵计算得到的拉普拉斯矩阵。β‖X‖0为公式中的稀疏项。通过最小化f(x)可以得到最终的关联矩阵X,减少噪声对结果的影响、降低数据误差所带来的不确定性。基于最优化得到的矩阵X做二值化处理,即矩阵中元素高于矩阵的平均值的定义为相关,小于平均值的定义为不相关,从而得到基因/影像组学特征的关联情况;
(c)基于上述的联系矩阵,筛选出与特定影像组学特征具有显著相关性的基因列表。通过基因富集分析算法(GSEA)计算出影像组学特征在不同通路上的富集得分,根据富集得分推测各个影像组学特征的生物学基础。
影像组学特征的k-均值聚类按照下面两个步骤交替进行:
(a)分配:将每个观测分配到聚类中,使得组内平方和(WCSS)达到最小。
Figure SMS_10
其中,xp代表影像组学特征在不同通路上的富集得分所构成的得分向量,mi代表均值点即聚类中心向量。每个xp都只被分配到一个确定的聚类Si中;
(b)更新:对于上一步得到的每一个聚类,以聚类中观测值的质心,作为新的均值点,迭代至均值点不再发生偏移,则结果已收敛,当前聚类结果即为最优的聚类方案。
Figure SMS_11
步骤(3):使用基于质谱的非靶标蛋白质组学检测方法,定量各蛋白质标的在样本中的表达水平,生成DIA数据,采用深度学习方法获取蛋白质组学特征,并进行特征筛选。
基于质谱的非靶标蛋白质组学检测可按如下流程操作:对于每个样本,取平均1mg的冷冻组织。用PCT-微小研磨装置在由6M尿素,2M硫脲,0.1M碳酸氢铵组成的30μL裂解缓冲液中裂解组织。通过温育和温和震荡,将提取的蛋白质还原并烷基化。然后,使用lys-C和胰蛋白酶分别消化以获取多肽。最终,将多肽溶液除盐,并在真空下离心干燥,即可产生约60ug肽段样本。得到肽段样本之后,进行DIA/MS数据采集。肽段经过高效液相色谱分离后,进入质谱仪,产生DIA数据图库。
特征筛选流程包括以下详细步骤:
(a)采用方差检验剔除方差过小的特征,减少数据噪声的引入;
(b)根据特征之间的相关性,剔除具有高相关性的特征,减小特征集内部的冗余度;
(c)将蛋白质组学特征集合作为输入,疗效作为目标,构建非线性机器学习模型,并采用递归特征消除法获取预测效能最佳的特征子集;
(d)从当前的特征集合中移除最不重要的特征;
(e)在特征集合上不断的重复递归这个步骤,直到预测效能趋于稳定。
步骤(4):将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵,接入全连接神经网络中,构成深度前馈网络,对网络加以训练,最终可输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,包括:
采样模块:用于对肝癌CT/MRI影像进行预处理并对其中的肿瘤区域进行分割,以及通过基于质谱的非靶标蛋白质组学检测方法生成DIA数据;
特征提取模块:用于对采样模块得到的肝脏肿瘤区域进行影像组学常规特征和深度特征的提取,以及采用深度学习方法进行蛋白质组学特征的提取;
特征筛选和拼接模块:用于筛选影像组学特征和蛋白质组学特征,并纳入临床特征,将三者拼接为特征矩阵;
疗效预测模块:用于训练深度前馈网络,输入上述特征矩阵,输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,包括存储器和处理器:
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
本发明的另一目的在于提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
下面利用前述实施例中的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,通过一个具体实施例来展现本发明分类方法的具体效果,具体步骤如前文所述,此处不再赘述。本发明在训练集实现模型的训练并在内部测试集上实现参数的调优后,最终在独立验证集上进行了性能的测试,得到图2的ROC曲线、校准曲线、决策曲线。融合模型在AUC、准确率、敏感性、特异性分别达到了0.86、0.79、0.80、0.78,表明了借助本发明的模型在肝癌DEB-TACE联合PD-1抑制剂疗效预测问题上的有效性。

Claims (7)

1.基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,其特征在于:基于多模态数据前端融合技术的预测模型,该预测模型通过如下步骤生成:
步骤(1):获取肝癌患者术前的CT/MRI影像,进行图像预处理和肿瘤区域分割,提取影像组学常规特征及深度特征,并进行特征筛选;
步骤(2):采用基于磁珠的基因组提取和纯化方法,获取基因组学数据;使用影像基因组学方法对影像组学特征和基因组学特征进行关联分析,在此基础上实现影像组学特征的k-均值聚类,将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块;
步骤(3):使用基于质谱的非靶标蛋白质组学检测方法,定量各蛋白质标的在样本中的表达水平,生成DIA数据,采用深度学习方法获取蛋白质组学特征,并进行特征筛选;
步骤(4):将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵,接入全连接神经网络中,构成深度前馈网络,对网络加以训练,最终可输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
2.根据权利要求1所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,其特征在于:
步骤(1)所述的图像预处理指利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强;
步骤(1)所述的肿瘤区域分割是指使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分,完成矩阵ROI即感兴趣区域的生成;
步骤(1)所述的影像组学常规特征包括:
(a)一阶统计特征:能量、总能量、熵、最小值、第10个百分位数、第90个百分位数、最大值、平均值、中位数、四分位距、范围、平均绝对偏差(MAD)、稳健平均绝对偏差(rMAD)、均方根(RMS)、标准偏差、偏度、峰度、方差、均匀度;
(b)二阶纹理特征:灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度区域大小矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)、灰度依赖性矩阵(GLDM);
(c)高阶滤波特征:采用非抽样二维(2D)小波变换对原始二维图像进行小波分解,将原图像分别在X方向和Y方向各区分出高频部分和低频部分,共获得四种组合的小波变换的图像;对于原图像获得的四个小波变换后的图像进行特征提取操作,获得基于小波变换的纹理特征;
步骤(1)所述的影像组学深度特征通过下述方法获得:采用经过标注的肿瘤图像,对深度神经网络进行训练;除去分类层的最后一层为特征输出层,在特征输出层获得医学图像的深度特征向量;
步骤(1)所述的特征筛选流程包括以下详细步骤:
(a)采用方差法计算数据集中每个特征的均值和方差,剔除不发散的特征;
(b)采用Pearson相关系数法计算步骤(a)中筛选后的特征变量与目标变量相关性系数,剔除信息冗余的特征;
(c)将步骤(b)筛选后的全部特征子集作为完整的特征空间,使用改进的拉斯维加斯包裹(Las Vegas Wrapper,LVW)特征选择算法进行处理;
(d)采用特征空间搜索方法中的遗传算法,首先随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,并且评分越高的特征子集被选中参加繁殖的概率越高;经过N代的繁殖和优胜劣汰后,产生评价函数值最高的特征子集;评价标准为最小化赤池信息准则(Akaikeinformation criterio,AIC),即最少的特征个数和最小的模型误差;
(e)判断当前特征子集是否是空集,若是则将方差阈值递进一个方差步长、相关系数递进一个相关系数步长,返回步骤(a);若新的特征子集不是空集,则得完成选择的特征子集。
3.根据权利要求1所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,其特征在于:
步骤(2)所述的影像组学特征和基因组学特征的关联分析具体实现步骤如下:
(a)将最大信息系数(I)、皮尔森相关系数(r)和互信息量(MIC)的加权平均值作为相似性度量的指标S(X;Y),公式如下:
Figure FDA0003989518480000031
Figure FDA0003989518480000032
Figure FDA0003989518480000033
Figure FDA0003989518480000034
其中X,Y分别为两种组学特征(基因组学特征和影像组学特征),P(x)为X的概率分布,P(y)为Y的概率分布,P(x,y)是X,Y的联合概率分布;max I(D|G)是指在x列和y行的网格分割G上具有最大互信息量的分布D|G;基于上述相似性度量标准,对于任意组学数据A预处理之后的大小为m×n1的特征矩阵和组学数据B预处理之后的大小为m×n2的特征矩阵,可以构建一个大小为n1×n2的相似度量矩阵H,;其中m为病例人数,n1和n2为两个组学特征的维度;
(b)由基因组学特征矩阵W1,影像特征矩阵W2,构建影像和基因表达的相似性度量矩阵H、基因组学的自相似性度量矩阵H1、影像组学的自相似性度量矩阵H2。构建如下的优化模型:
Figure FDA0003989518480000035
其中X为需要最终求解的关联矩阵,
Figure FDA0003989518480000036
为基因组学先验关联权重矩阵计算得到的拉普拉斯矩阵,其公式如下:
Figure FDA0003989518480000037
Figure FDA0003989518480000038
是一个大小为n1×n2的对角矩阵;对角元素的值等于H1中该元素所在列的和;类似,
Figure FDA0003989518480000039
为影像组学先验关联权重矩阵计算得到的拉普拉斯矩阵;β‖X‖0为公式中的稀疏项;通过最小化f(x)可以得到最终的关联矩阵X,减少噪声对结果的影响、降低数据误差所带来的不确定性;基于最优化得到的矩阵X做二值化处理,即矩阵中元素高于矩阵的平均值的定义为相关,小于平均值的定义为不相关,从而得到基因/影像组学特征的关联情况;
(c)基于上述的联系矩阵,筛选出与特定影像组学特征具有显著相关性的基因列表;通过基因富集分析算法(GSEA)计算出影像组学特征在不同通路上的富集得分,根据富集得分推测各个影像组学特征的生物学基础;
步骤(2)所述的k-均值聚类按照下面两个步骤交替进行:
(a)分配:将每个观测分配到聚类中,使得组内平方和(WCSS)达到最小;
Figure FDA0003989518480000041
其中,xp代表影像组学特征在不同通路上的富集得分所构成的得分向量,mi代表均值点即聚类中心向量。每个xp都只被分配到一个确定的聚类Si中;
(b)更新:对于上一步得到的每一个聚类,以聚类中观测值的质心,
作为新的均值点,迭代至均值点不再发生偏移,则结果已收敛,
当前聚类结果即为最优的聚类方案。
Figure FDA0003989518480000042
4.根据权利要求1所述的一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法,其特征在于:
步骤(3)所述的特征筛选流程包括以下详细步骤:
(a)采用方差检验剔除方差过小的特征,减少数据噪声的引入;
(b)根据特征之间的相关性,剔除具有高相关性的特征,减小特征集内部的冗余度;
(c)将蛋白质组学特征集合作为输入,疗效作为目标,构建非线性机器学习模型,并采用递归特征消除法获取预测效能最佳的特征子集;
(d)从当前的特征集合中移除最不重要的特征;
(e)在特征集合上不断的重复递归这个步骤,直到预测效能趋于稳定。
5.一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,其特征在于,包括:
采样模块:用于对肝癌CT/MRI影像进行预处理并对其中的肿瘤区域进行分割,以及通过基于质谱的非靶标蛋白质组学检测方法生成DIA数据;
特征提取模块:用于对采样模块得到的肝脏肿瘤区域进行影像组学常规特征和深度特征的提取,以及采用深度学习方法进行蛋白质组学特征的提取;
特征筛选和拼接模块:用于筛选影像组学特征和蛋白质组学特征,并纳入临床特征,将三者拼接为特征矩阵;
疗效预测模块:用于训练深度前馈网络,输入上述特征矩阵,输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。
6.一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置,其特征在于,包括存储器和处理器:
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~4任一项所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~4任一项所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。
CN202211577608.1A 2022-12-09 2022-12-09 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置 Pending CN116189761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211577608.1A CN116189761A (zh) 2022-12-09 2022-12-09 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211577608.1A CN116189761A (zh) 2022-12-09 2022-12-09 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置

Publications (1)

Publication Number Publication Date
CN116189761A true CN116189761A (zh) 2023-05-30

Family

ID=86445089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211577608.1A Pending CN116189761A (zh) 2022-12-09 2022-12-09 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置

Country Status (1)

Country Link
CN (1) CN116189761A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385441A (zh) * 2023-06-05 2023-07-04 中国科学院深圳先进技术研究院 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统
CN116862861A (zh) * 2023-07-04 2023-10-10 浙江大学 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统
CN117079801A (zh) * 2023-08-17 2023-11-17 中山大学附属第六医院 一种结直肠癌的预后风险预测系统
CN117496279A (zh) * 2024-01-03 2024-02-02 中国科学院深圳先进技术研究院 影像分类模型建立方法及装置、分类方法、装置及系统
CN117542536A (zh) * 2024-01-10 2024-02-09 中国人民解放军海军青岛特勤疗养中心 一种基于体检数据的智能护理方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385441A (zh) * 2023-06-05 2023-07-04 中国科学院深圳先进技术研究院 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统
CN116385441B (zh) * 2023-06-05 2023-09-05 中国科学院深圳先进技术研究院 一种基于mri对少突胶质细胞瘤进行风险分层的方法及系统
CN116862861A (zh) * 2023-07-04 2023-10-10 浙江大学 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统
CN117079801A (zh) * 2023-08-17 2023-11-17 中山大学附属第六医院 一种结直肠癌的预后风险预测系统
CN117079801B (zh) * 2023-08-17 2024-04-19 中山大学附属第六医院 一种结直肠癌的预后风险预测系统
CN117496279A (zh) * 2024-01-03 2024-02-02 中国科学院深圳先进技术研究院 影像分类模型建立方法及装置、分类方法、装置及系统
CN117496279B (zh) * 2024-01-03 2024-04-26 中国科学院深圳先进技术研究院 影像分类模型建立方法及装置、分类方法、装置及系统
CN117542536A (zh) * 2024-01-10 2024-02-09 中国人民解放军海军青岛特勤疗养中心 一种基于体检数据的智能护理方法及系统
CN117542536B (zh) * 2024-01-10 2024-04-12 中国人民解放军海军青岛特勤疗养中心 一种基于体检数据的智能护理方法及系统

Similar Documents

Publication Publication Date Title
CN116189761A (zh) 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置
EP2700042B1 (en) Analyzing the expression of biomarkers in cells with moments
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
KR20210003094A (ko) 잔류 질환의 검출을 위한 시스템 및 방법
CN110326051B (zh) 用于识别生物样本中的表达区别要素的方法和分析系统
Lazard et al. Deep learning identifies morphological patterns of homologous recombination deficiency in luminal breast cancers from whole slide images
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN110991536A (zh) 原发性肝癌的早期预警模型的训练方法
CN115984251B (zh) 基于肺部ct与多基因甲基化的肺结节分类方法及产品
Woloshuk et al. In situ classification of cell types in human kidney tissue using 3D nuclear staining
US20210287801A1 (en) Method for predicting disease state, therapeutic response, and outcomes by spatial biomarkers
CN112037863B (zh) 一种早期nsclc预后预测系统
Padmanaban et al. Between-tumor and within-tumor heterogeneity in invasive potential
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
CN115984629B (zh) 基于肺部CT与5mC标志物融合的肺结节分类方法及产品
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
CN116310513B (zh) 基于肺部CT与5hmC标志物融合的肺结节分类方法及产品
JPWO2021113749A5 (zh)
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
CN111091867B (zh) 基因变异位点筛选方法及系统
Feng et al. Flexible diagnostic measures and new cut‐point selection methods under multiple ordered classes
WO2017051996A1 (ko) 비침습적 태아 염색체 이수성 판별 방법
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
CN115792247B (zh) 蛋白组合在制备甲状腺乳头状癌风险辅助分层系统中的应用
Zhao et al. Multiplex imaging in immuno-oncology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination