CN117976060A

CN117976060A - 基于外周血的基因风险评分模型构建方法

Info

Publication number: CN117976060A
Application number: CN202311686482.6A
Authority: CN
Inventors: 李晓华; 曾雪峰; 赵芷婧; 李伟铭; 郭华
Original assignee: Chengdu Sixth People's Hospital Chengdu General Medical Center
Current assignee: Chengdu Sixth People's Hospital Chengdu General Medical Center
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-05-03

Abstract

本发明提供一种基于外周血的基因风险评分模型构建方法，包括如下步骤：S1：进行取样的操作；S2：进行单核细胞分离的步骤；S3：进行转录组测序分析的步骤；S4：进行加权基因共表达网络分析的步骤；S5：进行模块和基因的识别的步骤；S6：进行功能富集分析的步骤；S7：进行诊断模型的构建和验证的步骤；本申请利用LUAD患者和健康对照者的外周血转录组测序，基于机器学习算法创建了基因风险评分模型。

Description

基于外周血的基因风险评分模型构建方法

技术领域

本发明具体涉及一种基于外周血的基因风险评分模型构建方法。

背景技术

肺腺癌(LUAD)是肺癌的主要组织学亚型，很少有研究集中在精准和无创预测模型的开发。本研究旨在建立外周血诊断LUAD的风险评分模型，探讨该风险评分模型与患者预后、免疫治疗效果的相关性。

肺癌(LC)是全球癌症相关死亡的主要原因。非小细胞肺癌(NSCLC)占肺癌的85％，肺腺癌(LUAD)是非小细胞肺癌最常见的组织学亚型，占所有肺癌的50％左右。由于LUAD早期缺乏特异性症状，65％～70％的患者在确诊时已进入晚期。尽管靶向治疗的进步，但LUAD患者的预后仍然令人不满意。有研究表明，晚期LUAD患者的总体5年生存率低于15％。近十余年，免疫检查点抑制剂广泛用于驱动基因阴性的LUAD，却很少有生物标志物可以预测免疫治疗的疗效并对受益人群进行分层。

目前，组织病理检查是LC临床诊断的金标准，但其具有侵入性和出血风险，尤其不适用于健康状况不佳的患者和体积小的肺结节6。随着low dose computed tomography(LDCT)分辨率的提高，每年有数百万患者被诊断为“早期LC”。这些患者部分接受了非必要性的手术切除，严重影响患者的身心负担。因此，具有扫描辐射危险和较高假阳性率的LDCT增加了过度诊断的风险。肺癌分子标志物的研究虽然轰轰烈烈，但是这些研究多集中在分子靶向治疗方面，例如Epidermal Growth Factor Receptor(EGFR)、The anaplasticlymphoma kinase(ALK)等基因。往往是确诊LUAD后，利用肺癌变组织进行上述分子诊断标志物的突变位点的检测，用于患者的个体化治疗。

血液是最理想的检测基质，它是非侵入性和微创检测方法。这种无创便捷的预测模型作为新兴预测工具在LC的早期预警及辅助诊断、疗效实时监测、用药指导和耐药机制探索、预后判断等临床应用方面持续发挥重要作。近年来，血液补体片段，miRNA，循环肿瘤DNA和DNA甲基化等各种成分被用于LC的诊断预测虽然有一定的临床价值，但是灵敏度有限，在LUAD的特异性更差。随着高通量测序技术的迅速发展，基于转录组的生物信息数据挖掘是寻找疾病诊断标志物的重要研究手段。然而，基于外周血来源的转录组标志物的预测模型在LUAD的诊断和预后中依旧缺乏。

本申请利用LUAD患者和健康对照者的外周血转录组测序，基于机器学习算法创建了基因风险评分模型。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于外周血的基因风险评分模型构建方法，该基于外周血的基因风险评分模型构建方法可以很好地解决上述问题。

为达到上述要求，本发明采取的技术方案是：提供一种基于外周血的基因风险评分模型构建方法，该基于外周血的基因风险评分模型构建方法包括如下步骤：

S1：进行取样的操作；

S2：进行单核细胞分离的步骤；

将新鲜全血与等体积的PBS混合，倒置以达到彻底混合，加入淋巴细胞分离液在20℃以3000g离心30分钟分离淋巴细胞，已经沉淀下来的白细胞层被分离出来，将体积为白细胞20倍的Trizol试剂加入到白细胞中，混合物被抽吸和混合，直到整个样品溶液变得清晰、明亮和无粘性，溶液贮存在摄氏零下80度；

S3：进行转录组测序分析的步骤；

将步骤S2获取的样品溶液在液氮下粉碎，并使用TRIzolTM试剂提取总RNA，使用NanoDropTM光谱仪和Life Invitrogen Qubit RNA BR测定试剂盒评估RNA的完整性和纯度，使用磁带站系统进一步确认RNA完整性，对于mRNA测序文库制备，每个样品处理0.1-1μg总RNA，使用试剂盒分离mRNA，然后建库试剂盒构建mRNA文库，并测定文库浓度，之后检测文库片段分布，之后测定文库摩尔浓度，进行高通量转录组测序，最后计算Reads Count并获得样本的基因表达文件；

S4：进行加权基因共表达网络分析的步骤；

通过计算表达矩阵内的方差，鉴定基因在最高四分位数的方差随后的WGCNA分析，使用hclust函数来检测表达式矩阵中的任何潜在异常值，去除异常值以确保数据的完整性，在没有异常值的情况下，保留所有样本进行共表达网络构建，应用软阈值功能来确定软阈值即β值，使网络符合无尺度网络的特征，从而保留关键基因，共表达相关矩阵的构建由顺方向模块函数促进，利用拓扑重叠矩阵来衡量拓扑网络的相似性，然后将邻接矩阵转化为拓扑矩阵网络，通过1-TOM计算基因差异，利用拓扑重叠矩阵的不同之处，构建了层次聚类树，动态剪切树方法有助于合并相似的基因模块，揭示不同功能的基因聚类；

S5：进行模块和基因的识别的步骤；

通过使用基因显著性和模块成员对临床数据进行相关性分析，GS测量基因和临床信息之间关联而MM测量基因表达和模块特征基因之间具有相关性，通过评估基因模块与临床特征之间的相关系数，定位与LUAD最相关的模块并将这些与LUAD高度相关的模块称为重要模块；

S6：进行功能富集分析的步骤；

通过GO富集分析来确定与LUAD核心基因相关的潜在生物学过程，另一方面进行系统分析基因功能，将基因组信息与更高层次的功能见解联系起来，综合数据后将基因组中的一组基因与细胞内相互作用的分子网络联系起来；

S7：进行诊断模型的构建和验证的步骤；

采用最小绝对收缩选择算子方法构建基于mRNA的LUAD预测模型，通过鉴定具有非零回归系数的mRNA特征作为预测的最佳mRNA集合来实现的，利用LASSO分析得到的回归系数为每个样本生成一个分类器指数，使用以下公式将所选mRNA的表达值分解到风险评分计算：

其中：

“βi”表示从LASSO回归获得的第i mRNA的回归系数，并且“expi”表示第i基因的表达值；

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度。

通过敏感性、特异性、阳性预测值、阴性预测值和ROC曲线下面积评估特征的诊断效果，GSE20189数据集包含来自LUAD和健康对照的外周全血的测序数据，这些数据用作外部诊断验证集。

该基于外周血的基因风险评分模型构建方法具有的优点如下：

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示意性地示出了根据本申请一个实施例的基于外周血的基因风险评分模型构建方法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

在以下描述中，对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度，但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外，重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例，但并非必然指代相同的实施例。

为简单起见，以下描述中省略了本领域技术人员公知的某些技术特征。

根据本申请的一个实施例，提供一种基于外周血的基因风险评分模型构建方法具体描述如下：

步骤1：进行取样

通过病理组织诊断为LUAD的患者至少20例。另外选取至少10名健康人作为对照组，经体检确认。LUAD组男性占五分之二，女性占五分之三，平均年龄67.45±14.78岁，分期为I期至IV期。健康对照组男性占百分之三十，女性占百分之七十，平均年龄65.50±13.82岁。采用PAXgene血液RNA管采集30例LUAD患者和健康人的外周血样本。

步骤2：单核细胞分离

新鲜全血与等体积的PBS混合，倒置以达到彻底混合。加入淋巴细胞分离液在20℃以3000g离心30分钟分离淋巴细胞。已经沉淀下来的白细胞层被分离出来。将体积为白细胞20倍的Trizol试剂加入到白细胞中。混合物被反复抽吸和混合，直到整个溶液变得清晰、明亮和无粘性。溶液贮存在摄氏零下80度。

步骤3：转录组测序分析

在这项研究中，将步骤2获取的样品在液氮下粉碎，并使用TRIzolTM试剂(Invitrogen，Carlsbad,CA,USA)提取总RNA。使用NanoDropTM光谱仪(Thermo Scientific，Waltham，MA，USA)和Life Invitrogen Qubit RNA BR(Broad-Range)测定试剂盒评估RNA的完整性和纯度。使用安捷伦4200磁带站系统(Agilent,Santa Clara,CA,USA)进一步确认RNA完整性。对于mRNA测序文库制备，每个样品处理0.1-1μg总RNA。根据制造商的方案使用Poly(A)mRNA Magnetic Isolation Module试剂盒分离mRNA，然后用Ultra^TMII mRNA Library Prep Kit for/>建库试剂盒构建mRNA文库。使用Qubit^TM dsDNA HS Assay Kit测定文库浓度，然后使用D1000 Screen Tape检测文库片段分布，最后用KAPA Library Quant kit(illumina)universal qPCR Mix精准测定文库摩尔浓度。按照制造商的说明，在Illumina NovaSeq 6000平台上进行高通量转录组测序。最后，使用HTSeq计算Reads Count并获得样本的基因表达文件。

步骤4：加权基因共表达网络分析(WGCNA)

通过计算表达矩阵内的方差开始我们的分析，选择性地鉴定基因在最高四分位数的方差随后的WGCNA分析。使用hclust函数来检测表达式矩阵中的任何潜在异常值，去除它们以确保数据的完整性。在没有异常值的情况下，保留所有样本进行共表达网络构建。为了优化网络的稳健性，我们应用软阈值功能来确定一个合适的软阈值(β值)，使网络符合无尺度网络的特征，从而保留关键基因。共表达相关矩阵的构建由顺方向模块函数促进，皮尔逊相关用于系数计算。随后，我们利用拓扑重叠矩阵(TOM)来衡量拓扑网络的相似性。然后将邻接矩阵转化为拓扑矩阵网络，通过1-TOM计算基因差异。利用拓扑重叠矩阵的不同之处，构建了层次聚类树，动态剪切树方法有助于合并相似的基因模块，揭示不同功能的基因聚类。

步骤5：模块和基因的识别

一旦基因模块被识别，通过使用基因显著性(GS)和模块成员(MM)对临床数据进行相关性分析是必不可少的。GS测量基因和临床信息之间的关联，而MM测量基因表达和模块特征基因(ME)之间的相关性，模块特征基因是代表模块表达概况的重要组成部分。通过评估基因模块与临床特征之间的相关系数，我们可以精确定位与LUAD最相关的模块。这些与LUAD高度相关的模块被称为重要模块。

步骤6：功能富集分析

基因本体(GO)将基因产物属性分为三个不同的分子生物学领域:细胞成分(CC)，分子功能(MF)和生物过程(BP)。通过GO富集分析来确定与LUAD核心基因相关的潜在生物学过程。另一方面京都基因和基因组百科全书(KEGG)数据库旨在系统分析基因功能，将基因组信息与更高层次的功能见解联系起来。它综合了来自基因组学、计算机技术和系统功能组学的数据，这是一个将基因组中的一组基因与细胞内相互作用的分子网络联系起来的过程。这种方法有助于发现中枢基因所涉及的信号传导途径。

步骤7：诊断模型的构建和验证

采用最小绝对收缩选择算子(LASSO)方法构建基于mRNA的LUAD预测模型。这是通过鉴定具有非零回归系数的mRNA特征作为预测的最佳mRNA集合来实现的。利用LASSO分析得到的回归系数为每个样本生成一个分类器指数。将所选mRNA的表达值分解到风险评分计算的公式可以选用下面公式中的一个：

公式1：

其中：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度。

公式2：

其中：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度。

φ_∈(βj)代表渐进平滑的Huber损失，且

其中∈>0，用于平滑Huber损失。

公式3：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度；

其中∈>0，用于确保新的正则化项在零附近平滑。

通过敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC曲线下面积(ROCAUC)评估特征的诊断效果。GSE20189数据集包含来自LUAD和健康对照的外周全血的测序数据，这些数据被用作外部诊断验证集。

步骤8：验证风险评分的预后预测能力

来自TCGA-LUAD数据集的RNA测序数据(RNA-seq；每千碱基百万(FPKM)值的片段)以及从Gene Expression Omnibus数据库获得的另外两个数据集(GSE13213和GSE50081)。来自TCGA-LUAD数据集的FPKM值被转换成TPM(每千碱基百万转录本)以与微阵列结果一致。获得了LUAD患者的临床资料和预后数据。随后，使用指定的公式计算风险评分。使用X-tiles软件来确定最佳临界值，便于将患者分为高风险组和低风险组。多变量Cox回归分析，结合临床特征，用于辨别LUAD患者的独立预后因素。最后，构建一个基于独立预测风险因素的列线图，并使用时间依赖性ROC曲线和校准曲线分析评估其预测性能。

步骤9：风险评分与免疫治疗的关系

我们从TCGA数据库中获得患者突变数据，通过计数非同义突变来确定LUAD中的肿瘤突变负荷(TMB)。根据ICI评分评估HNSC驱动基因的体细胞改变。使用maftool鉴定了HNSC驱动基因，进一步分析集中在改变频率最高的前20个驱动基因上。GSE135222数据集包括来自接受抗PD-1/PD-L1治疗的27名晚期非小细胞肺癌患者的测序数据以及相应的免疫治疗功效记录。应用建立的公式，我们计算了该数据集中患者的风险评分。这使我们能够评估风险评分在预测免疫治疗反应中的预测潜力。

步骤10：统计分析统计分析

采用R软件(版本4.3.1)进行，使用Kruskal-Wallis检验，而Wilcoxon检验用于两组比较。使用Kaplan-Meier绘图仪生成每个数据集中亚组的生存曲线，并使用对数秩检验来评估统计学显著性。采用卡方检验分析风险评分亚组与体细胞突变频率之间的相关性，Spearman分析计算相关系数。显著性水平p<0.05被认为具有统计学意义。

根据本申请的一个实施例，用于LUAD患者预后评估的基因组合，包括如下4个基因：MMP-9基因，S100A8基因，S100A12基因及SNX11基因。

根据本申请的一个实施例，利用LASSO方法并进行10倍的交叉验证分析，表明4个具有非零回归系数的mRNA＝。风险评分的具体计算公式如下:风险评分＝2.245519082*MMP9+0.758036535*S100A12+0.006701188*S100A8-1.408605655*SNX11。在内部训练集中，诊断LUAD的风险评分达到了1的AUC，以及敏感性、特异性、PPV和NPV均符合。在数据库，找到与肺腺癌患者的诊断相关的外部验证集(GSE20189)中，诊断LUAD的AUC为0.737，灵敏度为68.5％，特异性为86.3％，PPV为78.0％，NPV为67.0％。

根据本申请的一个实施例，上述四基因风险评分模型预测肺腺癌患者的预后在数据库，找到与肺腺癌患者的预后相关的三个外部验证数据集，TCGA、GSE50081和GSE13213队列，通过上述四基因基因风险评分模型析后显示，患者的上述四基因风险评分越高，生存状态越低，预后显著更差。风险评分越高的患者比低风险评分的患者死亡风险越高。

以上所述实施例仅表示本发明的几种实施方式，其描述较为具体和详细，但并不能理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims

1.一种基于外周血的基因风险评分模型构建方法，其特征在于，包括如下步骤：

S1：进行取样的操作；

S2：进行单核细胞分离的步骤；

S3：进行转录组测序分析的步骤；

将步骤S2获取的样品溶液在液氮下粉碎，并使用TRIzolTM试剂提取总RNA，使用NanoDropTM光谱仪和Life Invitrogen Qubit RNABR测定试剂盒评估RNA的完整性和纯度，使用磁带站系统进一步确认RNA完整性，对于mRNA测序文库制备，每个样品处理0.1-1μg总RNA，使用试剂盒分离mRNA，然后建库试剂盒构建mRNA文库，并测定文库浓度，之后检测文库片段分布，之后测定文库摩尔浓度，进行高通量转录组测序，最后计算Reads Count并获得样本的基因表达文件；

S4：进行加权基因共表达网络分析的步骤；

S5：进行模块和基因的识别的步骤；

S6：进行功能富集分析的步骤；

S7：进行诊断模型的构建和验证的步骤；

其中：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度；

2.根据权利要求1所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S7中将所选mRNA的表达值分解到风险评分计算的公式为：

其中：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度；

φ∈(βj)代表渐进平滑的Huber损失，且

其中∈>0，用于平滑Huber损失。

3.根据权利要求1所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S7中将所选mRNA的表达值分解到风险评分计算的公式为：

n表示样本数量；

p表示特征数量；

y_i表示风险指标的观测值；

x_ij表示第i个观测的第j个特征的值；

β₀表示截距；

β_j表示第j个特征的系数；

λ表示LASSO回归中的正则化参数，用于控制特征选择的强度；

其中∈>0，用于确保新的正则化项在零附近平滑。

4.根据权利要求1所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S4的具体方式如下：

通过计算表达矩阵内的方差，鉴定基因在最高四分位数的方差随后的WGCNA 分析，使用hclust函数来检测表达式矩阵中的任何潜在异常值，去除异常值以确保数据的完整性，在没有异常值的情况下，保留所有样本进行共表达网络构建，应用软阈值功能来确定软阈值即β值，使网络符合无尺度网络的特征，从而保留关键基因，共表达相关矩阵的构建由顺方向模块函数促进，利用拓扑重叠矩阵来衡量拓扑网络的相似性，然后将邻接矩阵转化为拓扑矩阵网络，通过1-TOM计算基因差异，利用拓扑重叠矩阵的不同之处，构建了层次聚类树，动态剪切树方法有助于合并相似的基因模块，揭示不同功能的基因聚类。

5.根据权利要求1所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S1进行取样的操作具体如下：

通过病理组织诊断为LUAD的患者至少20例，另外选取至少10名健康人作为对照组，LUAD组男性与女性的比例为2比3，平均年龄67.45±14.78岁并分期为I期至IV期；健康对照组男性与女性的比例为3比7，平均年龄65.50±13.82岁，采用PAXgene血液RNA管采,LUAD患者和健康人的外周血样本。

6.根据权利要求1所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S7之后还包括如下步骤：

S8：进行验证风险评分的预后预测能力的步骤；

来自TCGA-LUAD数据集的RNA测序数据以及从Gene Expression Omnibus数据库获得的另外两个数据集，来自TCGA-LUAD数据集的FPKM值被转换成TPM以与微阵列结果一致，获得了LUAD患者的临床资料和预后数据，确定最佳临界值便于将患者分为高风险组和低风险组，多变量Cox回归分析，结合特征用于辨别LUAD患者的独立预后因素，最后，构建一个基于独立预测风险因素的列线图，并使用时间依赖性ROC曲线和校准曲线评估其预测性能。

7.根据权利要求6所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S8之后还包括如下步骤：

S9，进行风险评分与免疫治疗之间关系的步骤；

从TCGA数据库中获得患者突变数据，通过计数非同义突变来确定LUAD中的肿瘤突变负荷，根据ICI评分评估HNSC驱动基因的体细胞改变，鉴定了HNSC驱动基因，进一步分析集中在改变频率最高的前20个驱动基因上，GSE135222数据集包括来自接受抗PD-1/PD-L1治疗的晚期非小细胞肺癌患者的测序数据以及相应的免疫治疗功效记录。

8.根据权利要求7所述的基于外周血的基因风险评分模型构建方法，其特征在于，步骤S9之后还包括如下步骤：

S10：进行统计分析的步骤；

使用Kruskal-Wallis检验，而Wilcoxon检验用于两组比较，使用绘图仪生成每个数据集中亚组的生存曲线，并使用对数秩检验来评估统计学显著性，采用卡方检验分析风险评分亚组与体细胞突变频率之间的相关性，Spearman分析计算相关系数，显著性水平p<0.05被认为具有统计学意义。

9.用于LUAD患者预后评估的基因组合，其特征在于，包括如下4个基因：MMP-9基因，S100A8基因，S100A12基因及SNX11基因。

10.根据权利要求9所述的用于LUAD患者预后评估的基因组合，其特征在于：进行风险评估的评分标准如下：

风险评分＝2.245519082*MMP-9基因+0.758036535*S100A12基因+0.006701188*S100A8基因-1.408605655*SNX11基因。