CN116189761A

CN116189761A - 基于多组学数据的肝癌deb-tace联合pd-1抑制剂疗效精准预测方法和装置

Info

Publication number: CN116189761A
Application number: CN202211577608.1A
Authority: CN
Inventors: 丁勇; 阮世健; 邵嘉源; 田吴炜; 夏靖雯
Original assignee: Jinhua Research Institute Of Zhejiang University; Zhejiang University ZJU
Current assignee: Jinhua Research Institute Of Zhejiang University; Zhejiang University ZJU
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-30

Abstract

基于多组学数据的肝癌DEB‑TACE联合PD‑1抑制剂疗效精准预测方法，其预测模型生成步骤如下：步骤1，获取肝癌患者术前的CT/MRI影像，进行图像预处理和肿瘤区域分割，提取影像组学常规特征及深度特征，并进行特征筛选；步骤2，获取基因组学数据，对影像组学特征和基因组学特征进行关联分析，将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块；步骤3，定量各蛋白质标的在样本中的表达水平，生成DIA数据，采用深度学习方法获取蛋白质组学特征，并进行特征筛选；步骤4，将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵，接入全连接神经网络中，构成深度前馈网络，对网络加以训练，输出肝癌患者的DEB‑TACE联合PD‑1抑制剂疗效预测结果。

Description

基于多组学数据的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法和装置

技术领域

本发明属于生物信息学中的疗效预测领域，尤其涉及一种基于多组学数据联合预测肝癌治疗疗效的方法和装置。

背景技术

原发性肝癌是世界上最常见的恶性肿瘤之一，恶性肿瘤不仅严重危害国民健康，还给家庭和社会造成沉重的经济负担。虽然肝癌治疗方面已取得一定进步，但是我国大多数肝癌病人在初诊时已处于进展期，失去了单独手术治疗的机会。近年来，非手术治疗肝癌取得显著进展，DEB-TACE联合PD-1抑制剂作为一种有潜力的联合治疗方案被用于进展期肝癌的治疗。该疗法有望实现将部分不可切除的进展期肝癌转化为可切除肝癌，即肝癌的转化治疗。并且，研究结果显示经过转化切除的肝癌病人，预后与早期肝癌相当。

近些年，影像组学(Radiomics)的概念被提出，包含有大量肿瘤病理、生理改变信息的数字化医学图像被转换成可供处理的高通量数据，通过定量方法对这些信息数据进行分析，可实现对肿瘤诊断、疗效和预后等因素的评估，以提高临床的决策能力。影像组学成为解决DEB-TACE联合PD-1抑制剂疗效个体化预测这一临床难题的有效工具。同时，大数据技术与医学影像数据交叉融合产生的影像基因组学方法是一种有前途的肿瘤疗效预测研究方法，可用于影像组学特征的系统性解释。

此外，蛋白质组学(Proteomics)的研究日益深入，此类研究以肿瘤蛋白质组为研究对象，从整体的角度分析肿瘤细胞内动态变化的蛋白质组成与变化规律。蛋白质组学方法也是肿瘤疗效预测研究的重要方法之一。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法和装置。

本发明的目的是融合影像组学特征、蛋白质组学特征和临床特征，完成对肝癌DEB-TACE联合PD-1抑制剂疗效的精准预测，并通过影像基因组学方法系统化解释影像组学特征，使其具备临床运用的依据。该方法和装置为临床治疗方案决策提供参考，帮助实现肝癌患者的精准治疗。

本发明为基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，基于多模态数据前端融合技术构建预测模型，该预测模型通过如下步骤生成：

步骤(1)：获取肝癌患者术前的CT/MRI影像，进行图像预处理和肿瘤区域分割，提取影像组学常规特征及深度特征，并进行特征筛选；

步骤(2)：采用基于磁珠的基因组提取和纯化方法，获取基因组学数据；使用影像基因组学方法对影像组学特征和基因组学特征进行关联分析，在此基础上实现影像组学特征的k-均值聚类，将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块；

步骤(3)：使用基于质谱的非靶标蛋白质组学检测方法，定量各蛋白质标的在样本中的表达水平，生成DIA数据，采用深度学习方法获取蛋白质组学特征，并进行特征筛选；

步骤(4)：将影像组学特征、蛋白质组学特征和临床特征进行拼接形成特征矩阵，接入全连接神经网络中，构成深度前馈网络，对网络加以训练，最终可输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。

进一步地，在步骤(1)中，所述图像预处理指利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强。所述肿瘤区域分割是指使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分，完成矩阵ROI即感兴趣区域的生成。步骤(1)所述的影像组学常规特征包括：

(a)一阶统计特征：能量、总能量、熵、最小值、第10个百分位数、第90个百分位数、最大值、平均值、中位数、四分位距、范围、平均绝对偏差(MAD)、稳健平均绝对偏差(rMAD)、均方根(RMS)、标准偏差、偏度、峰度、方差、均匀度；

(b)二阶纹理特征：灰度共生矩阵(GLCM)、灰度游程矩阵(GLRLM)、灰度区域大小矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)、灰度依赖性矩阵(GLDM)；

(c)高阶滤波特征：采用非抽样二维(2D)小波变换对原始二维图像进行小波分解，将原图像分别在X方向和Y方向各区分出高频部分和低频部分，共获得四种组合的小波变换的图像。对于原图像获得的四个小波变换后的图像进行特征提取操作，获得基于小波变换的纹理特征。

所述影像组学深度特征通过下述方法获得：采用经过标注的肿瘤图像，对深度神经网络进行训练。除去分类层的最后一层为特征输出层，在特征输出层获得医学图像的深度特征向量。所述特征筛选流程包括以下步骤：

(a)采用方差法计算数据集中每个特征的均值和方差，剔除不发散的特征；

(b)采用Pearson相关系数法计算步骤(a)中筛选后的特征变量与目标变量相关性系数，剔除信息冗余的特征；

(c)将步骤(b)筛选后的全部特征子集作为完整的特征空间，使用改进的拉斯维加斯包裹(Las Vegas Wrapper，LVW)特征选择算法进行处理；

(d)采用特征空间搜索方法中的遗传算法，首先随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且评分越高的特征子集被选中参加繁殖的概率越高。经过N代的繁殖和优胜劣汰后，产生评价函数值最高的特征子集。评价标准为最小化赤池信息准则(Akaike information criterio,AIC)，即最少的特征个数和最小的模型误差；

(e)判断当前特征子集是否是空集，若是则将方差阈值递进一个方差步长、相关系数递进一个相关系数步长，返回步骤(a)。若新的特征子集不是空集，则得完成选择的特征子集。

进一步地，在步骤(3)中，所述的特征筛选流程包括以下详细步骤：

(a)采用方差检验剔除方差过小的特征，减少数据噪声的引入；

(b)根据特征之间的相关性，剔除具有高相关性的特征，减小特征集内部的冗余度；

(c)将蛋白质组学特征集合作为输入，疗效作为目标，构建非线性机器学习模型，并采用递归特征消除法获取预测效能最佳的特征子集；

(d)从当前的特征集合中移除最不重要的特征；

(e)在特征集合上不断的重复递归这个步骤，直到预测效能趋于稳定。

本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置，包括：

采样模块：用于对肝癌CT/MRI影像进行预处理并对其中的肿瘤区域进行分割，以及通过基于质谱的非靶标蛋白质组学检测方法生成DIA数据；

特征提取模块：用于对采样模块得到的肝脏肿瘤区域进行影像组学常规特征和深度特征的提取，以及采用深度学习方法进行蛋白质组学特征的提取；

特征筛选和拼接模块：用于筛选影像组学特征和蛋白质组学特征，并纳入临床特征，将三者拼接为特征矩阵；

疗效预测模块：用于训练深度前馈网络，输入上述特征矩阵，输出肝癌患者的DEB-TACE联合PD-1抑制剂疗效预测结果。

本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。

本发明的另一目的在于提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上文任一方案所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。

本发明的有益效果：本发明提出了一套完整的结合了影像组学特征、蛋白质组学特征以及临床特征的用于肝癌DEB-TACE联合PD-1抑制剂疗效精准预测的方法，包括数据获取及其预处理、影像组学特征提取和筛选、蛋白质组学特征提取和筛选、模型构建，以及通过影像基因组学手段解释影像组学特征。最终获得一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。与其他在疗效预测方面尝试过的模型相比较，本发明在算法和运用上都有自己的独创性和独特性。实验结果表明，该模型可以有效预测肝癌DEB-TACE联合PD-1抑制剂疗效，可方便地用作术前评估工具，帮助依照患者情况个体化选择治疗方案。

附图说明

图1为基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法的流程图；

图2a-图2c为本发明实施例的性能测试曲线，其中，图2a是ROC曲线，图2b是校准曲线，图2c是决策曲线。

具体实施方式

下面结合附图对本发明方法作进一步说明。

步骤(1)：获取肝癌患者术前的CT/MRI影像，进行图像预处理和肿瘤区域分割，提取影像组学常规特征及深度特征，并进行特征筛选。

影像数据的纳入标准：穿刺活检病理学明确诊断为肝细胞肝癌；DEB-TACE联合PD-1抑制剂治疗前1月内行肝脏CT和(或)MRI平扫加增强检查；增强检查均为3期，包括动脉期、门脉期和延迟期；临床、影像资料和病理标本齐全，可供评价。

影像数据的排除标准：病理学检查结果为胆管癌或混合细胞癌；影像检查前行肝癌抗肿瘤治疗；影像学资料或临床资料缺失；影像图像质量欠佳，无法进行病灶勾画。

图像预处理：利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强。

肿瘤区域分割：使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分，完成矩阵ROI即感兴趣区域的生成。

影像组学常规特征包括：

影像组学深度特征的获得：采用经过标注的肿瘤图像，对深度神经网络进行训练。除去分类层的最后一层为特征输出层，在特征输出层获得医学图像的深度特征向量。

特征筛选流程：

步骤(2)：采用基于磁珠的基因组提取和纯化方法，获取基因组学数据。使用影像基因组学方法对影像组学特征和基因组学特征进行关联分析，在此基础上实现影像组学特征的k-均值聚类，将大量的影像组学特征聚类为少量的具有特定生物学基础的特征模块。

基因组提取和和纯化具体可按如下流程操作：首先，通过Oligo(dT)磁珠富集带有polyA尾的mRNA，采用随机打断再还原的方法构建RNA文库。库检合格后进行Illumina测序，并产生150bp配对末端读数。测序片段被高通量测序仪测得的图像数据经CASAVA碱基识别转化为序列数据。对原始数据进行过滤，包括去除带接头的reads、去除含N的reads、去除低质量reads。最终，基于序列数据采用featureCounts(1.5.0-p3)计算映射到每个基因的读数。然后根据基因的长度计算每个基因的FPKM，并计算映射到该基因的读数。FPKM指每百万碱基对测序的转录本序列片段的每千碱基片段的预期数量。

影像组学特征和基因组学特征的关联分析具体实现步骤：

(a)将最大信息系数(I)、皮尔森相关系数(r)和互信息量(MIC)的加权平

均值作为相似性度量的指标S(X；Y)，公式如下：

其中X，Y分别为两种组学特征(基因组学特征和影像组学特征)，P(x)为X的概率分布，P(y)为Y的概率分布，P(x,y)是X,Y的联合概率分布；max I(D|_G)是指在x列和y行的网格分割G上具有最大互信息量的分布D|_G；基于上述相似性度量标准，对于任意组学数据A预处理之后的大小为m×n₁的特征矩阵和组学数据B预处理之后的大小为m×n₂的特征矩阵，可以构建一个大小为n₁×n₂的相似度量矩阵H，其中m为病例人数，n₁和n₂为两个组学特征的维度；

(b)由基因组学特征矩阵W₁，影像特征矩阵W₂，构建影像和基因表达的相似性度量矩阵H、基因组学的自相似性度量矩阵H₁、影像组学的自相似性度量矩阵H₂。构建如下的优化模型：

其中X为需要最终求解的关联矩阵，

为基因组学先验关联权重矩阵计算得到的拉普拉斯矩阵，其公式如下：

是一个大小为n₁×n₂的对角矩阵。对角元素的值等于H₁中该元素所在列的和。类似，/>

为影像组学先验关联权重矩阵计算得到的拉普拉斯矩阵。β‖X‖₀为公式中的稀疏项。通过最小化f(x)可以得到最终的关联矩阵X，减少噪声对结果的影响、降低数据误差所带来的不确定性。基于最优化得到的矩阵X做二值化处理，即矩阵中元素高于矩阵的平均值的定义为相关，小于平均值的定义为不相关，从而得到基因/影像组学特征的关联情况；

(c)基于上述的联系矩阵，筛选出与特定影像组学特征具有显著相关性的基因列表。通过基因富集分析算法(GSEA)计算出影像组学特征在不同通路上的富集得分，根据富集得分推测各个影像组学特征的生物学基础。

影像组学特征的k-均值聚类按照下面两个步骤交替进行：

(a)分配：将每个观测分配到聚类中，使得组内平方和(WCSS)达到最小。

其中，x_p代表影像组学特征在不同通路上的富集得分所构成的得分向量，m_i代表均值点即聚类中心向量。每个x_p都只被分配到一个确定的聚类S_i中；

(b)更新：对于上一步得到的每一个聚类，以聚类中观测值的质心，作为新的均值点，迭代至均值点不再发生偏移，则结果已收敛，当前聚类结果即为最优的聚类方案。

步骤(3)：使用基于质谱的非靶标蛋白质组学检测方法，定量各蛋白质标的在样本中的表达水平，生成DIA数据，采用深度学习方法获取蛋白质组学特征，并进行特征筛选。

基于质谱的非靶标蛋白质组学检测可按如下流程操作：对于每个样本，取平均1mg的冷冻组织。用PCT-微小研磨装置在由6M尿素，2M硫脲，0.1M碳酸氢铵组成的30μL裂解缓冲液中裂解组织。通过温育和温和震荡，将提取的蛋白质还原并烷基化。然后，使用lys-C和胰蛋白酶分别消化以获取多肽。最终，将多肽溶液除盐，并在真空下离心干燥，即可产生约60ug肽段样本。得到肽段样本之后，进行DIA/MS数据采集。肽段经过高效液相色谱分离后，进入质谱仪，产生DIA数据图库。

特征筛选流程包括以下详细步骤：

(d)从当前的特征集合中移除最不重要的特征；

本发明的另一目的在于提供一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置，包括存储器和处理器：

所述存储器，用于存储计算机程序；

下面利用前述实施例中的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，通过一个具体实施例来展现本发明分类方法的具体效果，具体步骤如前文所述，此处不再赘述。本发明在训练集实现模型的训练并在内部测试集上实现参数的调优后，最终在独立验证集上进行了性能的测试，得到图2的ROC曲线、校准曲线、决策曲线。融合模型在AUC、准确率、敏感性、特异性分别达到了0.86、0.79、0.80、0.78，表明了借助本发明的模型在肝癌DEB-TACE联合PD-1抑制剂疗效预测问题上的有效性。

Claims

1.基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，其特征在于：基于多模态数据前端融合技术的预测模型，该预测模型通过如下步骤生成：

2.根据权利要求1所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，其特征在于：

步骤(1)所述的图像预处理指利用二维高斯滤波器对CT/MRI图像进行平滑处理和正则化的方法对图像进行增强；

步骤(1)所述的肿瘤区域分割是指使用基于视觉显著分析的医学图像分割算法进行肝脏定位和背景区域划分，完成矩阵ROI即感兴趣区域的生成；

步骤(1)所述的影像组学常规特征包括：

(c)高阶滤波特征：采用非抽样二维(2D)小波变换对原始二维图像进行小波分解，将原图像分别在X方向和Y方向各区分出高频部分和低频部分，共获得四种组合的小波变换的图像；对于原图像获得的四个小波变换后的图像进行特征提取操作，获得基于小波变换的纹理特征；

步骤(1)所述的影像组学深度特征通过下述方法获得：采用经过标注的肿瘤图像，对深度神经网络进行训练；除去分类层的最后一层为特征输出层，在特征输出层获得医学图像的深度特征向量；

步骤(1)所述的特征筛选流程包括以下详细步骤：

(d)采用特征空间搜索方法中的遗传算法，首先随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且评分越高的特征子集被选中参加繁殖的概率越高；经过N代的繁殖和优胜劣汰后，产生评价函数值最高的特征子集；评价标准为最小化赤池信息准则(Akaikeinformation criterio,AIC)，即最少的特征个数和最小的模型误差；

(e)判断当前特征子集是否是空集，若是则将方差阈值递进一个方差步长、相关系数递进一个相关系数步长，返回步骤(a)；若新的特征子集不是空集，则得完成选择的特征子集。

3.根据权利要求1所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，其特征在于：

步骤(2)所述的影像组学特征和基因组学特征的关联分析具体实现步骤如下：

(a)将最大信息系数(I)、皮尔森相关系数(r)和互信息量(MIC)的加权平均值作为相似性度量的指标S(X；Y)，公式如下：

其中X，Y分别为两种组学特征(基因组学特征和影像组学特征)，P(x)为X的概率分布，P(y)为Y的概率分布，P(x,y)是X,Y的联合概率分布；max I(D|_G)是指在x列和y行的网格分割G上具有最大互信息量的分布D|_G；基于上述相似性度量标准，对于任意组学数据A预处理之后的大小为m×n₁的特征矩阵和组学数据B预处理之后的大小为m×n₂的特征矩阵，可以构建一个大小为n₁×n₂的相似度量矩阵H，；其中m为病例人数，n₁和n₂为两个组学特征的维度；

其中X为需要最终求解的关联矩阵，

是一个大小为n₁×n₂的对角矩阵；对角元素的值等于H₁中该元素所在列的和；类似，

为影像组学先验关联权重矩阵计算得到的拉普拉斯矩阵；β‖X‖₀为公式中的稀疏项；通过最小化f(x)可以得到最终的关联矩阵X，减少噪声对结果的影响、降低数据误差所带来的不确定性；基于最优化得到的矩阵X做二值化处理，即矩阵中元素高于矩阵的平均值的定义为相关，小于平均值的定义为不相关，从而得到基因/影像组学特征的关联情况；

(c)基于上述的联系矩阵，筛选出与特定影像组学特征具有显著相关性的基因列表；通过基因富集分析算法(GSEA)计算出影像组学特征在不同通路上的富集得分，根据富集得分推测各个影像组学特征的生物学基础；

步骤(2)所述的k-均值聚类按照下面两个步骤交替进行：

(a)分配：将每个观测分配到聚类中，使得组内平方和(WCSS)达到最小；

(b)更新：对于上一步得到的每一个聚类，以聚类中观测值的质心，

作为新的均值点，迭代至均值点不再发生偏移，则结果已收敛，

当前聚类结果即为最优的聚类方案。

4.根据权利要求1所述的一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法，其特征在于：

步骤(3)所述的特征筛选流程包括以下详细步骤：

(d)从当前的特征集合中移除最不重要的特征；

5.一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置，其特征在于，包括：

6.一种基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测装置，其特征在于，包括存储器和处理器：

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1～4任一项所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～4任一项所述的基于多组学的肝癌DEB-TACE联合PD-1抑制剂疗效精准预测方法。