CN110675917B

CN110675917B - 一种个体癌症样本的生物标记物识别方法

Info

Publication number: CN110675917B
Application number: CN201910973485.5A
Authority: CN
Inventors: 李�杰; 王东; 王亚东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-11-13
Anticipated expiration: 2039-10-14
Also published as: CN110675917A

Abstract

本发明是一种个体癌症样本的生物标记物识别方法。本发明先基于两种不同表型的样本数据确定差异表达基因成分，如基因、蛋白质等分子化合物，选取出q个差异表达成分；基于选取的q个差异表达成分，获得平均样本。本发明构建基于平均样本和单体样本的回归模型，对样本进行回归预测，得到样本回归预测的结果；基于样本回归预测的结果和差异表达成分，确定单样本的生物标记。本发明可以针对不同的个体样本选出差异化的生物标记物。

Description

一种个体癌症样本的生物标记物识别方法

技术领域

本发明涉及生物标记物识别技术领域，是一种个体癌症样本的生物标记物识别方法。

背景技术

现有的生物标记物识别方法多基于两组不同表型的样本的差异性来识别生物标记物，然而癌症是一种复杂的异质性疾病，不同的患者有不同的发病机制，需要不同的治疗，因此，需要一种可以确定个体癌症样本的生物标记物的方法。

发明内容

本发明为确定个体癌症样本的生物标记，本发明提供了一种个体癌症样本的生物标记物识别方法，本发明提供了以下技术方案：

一种个体癌症样本的生物标记物识别方法，包括以下步骤：

步骤1：基于两种不同表型的样本数据确定差异表达成分，所述成分包括蛋白质、基因或者分子化合物，选取出q个差异表达成分；

步骤2：基于选取的q个差异表达成分，获得平均样本；

步骤3：构建基于平均样本和单体样本的回归模型，对样本进行回归预测，得到样本回归预测的结果；

步骤4：基于样本回归预测的结果和差异表达成分，确定单样本的生物标记成分。

优选地，所述步骤1具体为：

选取两组不同表型的成分表达数据样本，分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签，n₁和n₂分别表示“+”和“-”两类样本的样本数；

采用y_ji表示第i个样本、样本标签为“+”的第j个成分的表达值，采用x_ji表示第i个样本、样本标签为“-”的第j个成分的表达值，基于y_ji和x_ji选取出q个差异表达成分。

优选地，所述步骤2具体为：

步骤2.1：确定“+”和“-”两组样本的平均样本，通过下式表示所述两组样本的平均样本：

其中，u⁺和u^-分别表示“+”和“-”两组样本的平均样本，

为在“+”组中的第q个成分的平均表达值，

为“-”组中的第q个成分的平均表达值；

步骤2.2：根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的第j个成分的表达值，来确定在“+”组和“-”组的第j个成分的平均表达值，通过下式确定在“+”组和“-”组的第j个成分的平均表达值：

其中，

为“+”组的第j个成分的平均表达值，

为“-”组的第j个成分的平均表达值，n₁和n₂分别表示“+”和“-”两类样本的样本数。

优选地，所述步骤3具体为：

步骤3.1：构建基于平均样本和单体样本的回归模型，令y'_ji表示第i个样本、样本标签为“+”的第j个差异表达成分的表达值，获得第i个标签为“+”的样本，通过下式确定第i个标签为“+”的样本：

其中，

为第i个标签为“+”的样本；

对第i个标签为“+”的样本进行回归预测，通过下式表示第i个标签为“+”的样本进行回归预测的结果：

其中，

为第i个标签为“+”的样本进行回归预测的结果，

为线型回归的截距系数；

步骤3.2：令x'_ji表示第i个样本、样本标签为“-”的第j个差异表达成分的表达值，获得第i个标签为“-”的样本，通过下式确定第i个标签为“-”的样本：

其中，

为第i个标签为“-”的样本；

对第i个标签为“-”的样本进行回归预测，通过下式表示第i个标签为“-”的样本进行回归预测的结果：

其中，

为第i个标签为“-”的样本进行回归预测的结果，

为线型回归的自变量系数。

优选地，所述步骤4具体为：

步骤4.1：在q个差异表达成分中，单个样本的某些成分的表达值显著地不同于平均值，差异的程度通过残差值进行量化表示，对于第i个样本标签为“+”的样本，其第j个差异表达成分的残差值通过如下公式计算：

对于第i个样本标签为“-”的样本，第j个差异表达成分的残差值通过如下公式计算：

步骤4.2：为了获得第i个样本标签为“+”的样本的生物标记物成分，通过高斯核密度估计算法估计残差值，所述高斯核进行核密度估计通过下式表示：

其中，

为高斯核进行核密度估计结果，h是平滑因子，K是高斯核函数；

步骤4.3：通过φ得到残差值分布的在置信度为α下的置信区间，φ为所估计的核密度的累积分布函数，通过下式计算残差值分布的在置信度为α下的置信区间：

其中，CI_α为残差值分布的在置信度为α下的置信区间；

步骤4.4：在得到CI_α后，对于第i个样本标签为“+”的样本的第j个成分，当满足

则第j个成分是第i个样本标签为“+”的样本的生物标记物成分；

对于标签为“-”的样本，当满足

则第j个成分是第i个样本标签为“-”的样本的生物标记物成分。

优选地，所述“+”和“-”分别表示两组不同表型的样本，所述“+”表示癌症、复发或响应的样本，所述“-”表示正常、非复发或非响应的样本；或者，所述“+”表示正常、非复发或非响应的样本，所述“-”表示癌症、复发或响应的样本。

本发明具有以下有益效果：

本发明可以针对不同的个体样本选出差异化的生物标记物。

本发明可以有效地识别出生物标记物，其有效性主要体包括：

a)不同样本的生物标记物的表达值与其他样本在统计上有显著地差异；

b)在不同样本中频繁出现的生物标记物可以有效地区分样本的生存状况；

c)被选出的生物标记物被文献报道表明其具有与表型相关的生物作用。

附图说明

图1是个体癌症样本的生物标记物识别方法流程图；

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

按照图1所示，以下内容以生物标记物是基因为例，介绍发明内容，本发明提供一种个体癌症样本的生物标记物识别方法，包括以下步骤：

步骤1：基于两种不同表型的样本数据确定差异表达基因，选取出q个差异表达基因；

所述步骤1具体为：

步骤1.1：选取两组不同表型的基因表达数据样本，分别使用“+”和“-”作为两组不同表型的基因表达数据样本的标签，n₁和n₂分别表示“+”和“-”两类样本的样本数；n＝n₁+n₂,n表示所有样本的个数，所述“+”和“-”分别表示两组不同表型的样本，所述“+”表示癌症、复发或响应的样本，所述“-”表示正常、非复发或非响应的样本；或者，所述“+”表示正常、非复发或非响应的样本，所述“-”表示癌症、复发或响应的样本。

步骤1.2：采用y_ji表示第i个样本、样本标签为“+”的第j个基因的表达值，采用x_ji表示第i个样本、样本标签为“-”的第j个基因的表达值，基于y_ji和x_ji选取出q个基因差异表达基因。

步骤2：基于选取的q个差异表达基因，获得平均样本；

所述步骤2具体为：

其中，u⁺和u^-分别表示“+”和“-”两组样本的平均样本，

为在“+”组中的第q个基因的平均表达值，

为“-”组中的第q个基因的平均表达值；

步骤2.2：根据第i个样本标签为“+”的样本的第j个基因的表达值和第i个样本标签为“-”的第j个基因的表达值，来确定在“+”组和“-”组的第j个基因的平均表达值，通过下式确定在“+”组和“-”组的第j个基因的平均表达值：

其中，

为“+”组的第j个基因的平均表达值，

为“-”组的第j个基因的平均表达值，n₁和n₂分别表示“+”和“-”两类样本的样本数。

所述步骤3具体为：

步骤3.1：构建基于平均样本和单体样本的回归模型，令y'_ji表示第i个样本、样本标签为“+”的第j个差异表达基因的表达值，获得第i个标签为“+”的样本，通过下式确定第i个标签为“+”的样本：

其中，

为第i个标签为“+”的样本；

其中，

为第i个标签为“+”的样本进行回归预测的结果，

为线型回归的截距系数；

步骤3.2：令x'_ji表示第i个样本、样本标签为“-”的第j个差异表达基因的表达值，获得第i个标签为“-”的样本，通过下式确定第i个标签为“-”的样本：

其中，

为第i个标签为“-”的样本；

其中，

为第i个标签为“-”的样本进行回归预测的结果，

为线型回归的自变量系数。

步骤4：基于样本回归预测的结果和差异表达基因，确定单样本的生物标记基因。

所述步骤4具体为：

步骤4.1：在q个差异表达基因中，单个样本的某些基因的表达值显著地不同于平均值，差异的程度通过残差值进行量化表示，对于第i个样本标签为“+”的样本，其第j个差异表达基因的残差值通过如下公式计算：

对于第i个样本标签为“-”的样本，第j个差异表达基因的残差值通过如下公式计算：

步骤4.2：为了获得第i个样本标签为“+”的样本的生物标记物基因，通过高斯核密度估计算法估计残差值，所述高斯核进行核密度估计通过下式表示：

其中，

其中，CI_α为残差值分布的在置信度为α下的置信区间；

步骤4.4：在得到CI_α后，对于第i个样本标签为“+”的样本的第j个基因，当满足

则第j个基因是第i个样本标签为“+”的样本的生物标记物基因；

对于标签为“-”的样本，当满足

则第j个基因是第i个样本标签为“-”的样本的生物标记物基因。

本发明在GSE35640数据集上进行了实验验证，GSE35640数据集包含22个响应免疫药物的样本和34个未响应免疫药物的样本。

参数设定：本方法中所有的统计检验中的α均设定为0.05。

实施步骤：

(1)通过两组不同表型的样本，选出一定数量的差异表达基因(本例中使用了统计方法，α＝0.05)。

(2)针对两组样本数据，分别计算出响应免疫药物组平均样本和未响应免疫药物组平均样本。

(3)利用所求得的平均样本以及单一样本，通过回归分析(α＝0.05)，获得每个样本的生物标记物基因。

结果：

(a)每个样本的生物标记基因都是特定的，样本的生物标记基因表达值应该与其他样本有显著差异。基于这一思想，我们设计了一种统计方法来测试这种差异。具体来说，测试过程如下。首先，我们选择样本S_i的生物标记基因，提取它们在所有样本中的表达值。然后，对每个生物标志物基因在不同样本中的表达值进行排序，构建秩矩阵。矩阵的第i行向量R_i表示S_i的生物标记基因的表达值的排序序号。最后，通过Kolmogorov-Smirnov检验R_i与其它R_j(j≠i)是否存在显著差异，因此，针对样本S_i，可以得到n-1个统计检验的P值(n表示与样本S_i同表型的样本数量)。在响应免疫药物的样本组和未响应免疫药物组中，分别有96.96％和95.72％的P值小于0.05。

(b)每个肿瘤样本的生物标记基因都反映了其特征，即生物标记基因是对应肿瘤样本的特征，它们应该能够将肿瘤样本分为高风险组和低风险组，并预测肿瘤患者的生存风险。因此，我们选择了在响应药物组出现频率高于未响应药物组的前70个生物标记物基因进行生存分析，结果表明这些生物标记物可以有效地将肿瘤样本分为高风险组和低风险组(P值小于0.05)。

每一个肿瘤样本的生物标记基因都反映了肿瘤的发病机制，在GSE35640数据集的原始研究论文中，研究人员找出了84个基因表达特征集，在这84个基因中有61个基因同样地被本方法确认为生物标记物基因。

以上所述仅是一种个体癌症样本的生物标记物识别方法的优选实施方式，一种个体癌症样本的生物标记物识别方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。