CN107025387A

CN107025387A - 一种用于癌症生物标志物识别的方法

Info

Publication number: CN107025387A
Application number: CN201710198234.5A
Authority: CN
Inventors: 凡时财; 黄康; 邹见效; 何建; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2017-08-08
Anticipated expiration: 2037-03-29
Also published as: CN107025387B

Abstract

本发明公开了一种用于癌症生物标志物识别的方法，通过从公共数据库中获取癌症的基因表达数据和DNA甲基化数据，再对基因表达数据进行预处理和特征提取得到特征基因，对DNA甲基化数据进行扩展和t‑test假设检验得到差异甲基化位点，最后利用差异甲基化位点去比对现有基因，通过比对成功的现有基因与特征基因求交集得到重叠基因，重叠基因即为识别的潜在的癌症生物标志物。

Description

一种用于癌症生物标志物识别的方法

技术领域

本发明属于基因识别技术领域，更为具体地讲，涉及一种用于癌症生物标志物识别的方法。

背景技术

生物标志物是疾病正常或者异常状态的标志，癌症生物标志物是检测疑似患有癌症或处于患癌症风险的个体的标志，对于癌症的诊断和治疗具有指导作用。

癌症生物标志物识别的常用方法主要是基于单一来源的数据，比如基于基因表达芯片数据，或者基于DNA甲基化数据，以及多种数据的简单融合。由于上述数据存在的高维小样本特点，特征选择方法获得的具有最好分类性能的特征组合可能有多种，这也使得基于不同来源的数据样本得到的潜在生物标志物存在较大差异，且推广性能不好。

因此，如果能够得到推广性能良好的潜在癌症生物标志物，对于诊断和治疗癌症具有重大意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于癌症生物标志物识别的方法，通过找到具有良好推广性能的癌症基因，提供癌症的诊断和治疗的指导。

为实现上述发明目的，本发明一种用于癌症生物标志物识别的方法，其特征在于，包括以下步骤：

(1)、获取任意一种癌症的基因表达数据和450K芯片的DNA甲基化数据，以及对应癌症已知的重要基因；

(2)、设基因表达数据为n×p的矩阵，n为矩阵的行数，p为矩阵的列数；取矩阵的前p-1列构成矩阵A，取矩阵的第p列构成矩阵B；

(3)、对矩阵A进行预处理

(3.1)、对矩阵A进行标准化处理，得到矩阵

其中，x_i,j表示矩阵A第i行第j列的元素，表示第j列元素的平均值，s_j表示第j列元素的标准差；

(3.2)、对矩阵进行重采样，得到矩阵A^*；

(4)、对矩阵A^*进行特征选择

(4.1)、结合癌症已知的重要基因，使用Elastic Net回归模型对矩阵A^*进行特征选择；

L(λ₁,λ₂,β)＝|B-A^*β|²+λ₂|β|²+λ₁|β|₁

其中，L(λ₁,λ₂,β)为Elastic Net回归模型的惩罚项，λ₁,λ₂为惩罚系数，β为j行1列的系数矩阵，β的估计值为：表示L(λ₁,λ₂,β)取最小值时，β的取值；β_j为β的第j行；

(4.2)、令α＝λ₂/(λ₁+λ₂)，在约束项(1-α)|β|₁+α|β|²≤t下，计算其中t为很小的常数；

(4.3)、把癌症已知的重要基因对应的基因表达数据相应列的系数置为0，求得取出中不为0的值对应的列，再找到这些列对应的基因，把这些基因和已知重要基因求并集，得到最后的特征基因；

(5)、对450K芯片的DNA甲基化数据进行扩展处理，得到扩展后的DNA甲基化数据，再利用t-test假设检验法对扩展后的DNA甲基化数据进行检验，得到差异甲基化位点；

(6)、利用差异甲基化位点去比对现有基因，在现有基因中找出每个启动子区中拥有k个差异甲基化位点的基因，再将特征基因与找出的基因求交集，得到重叠基因，重叠基因即为识别的潜在的癌症生物标志物。

本发明的发明目的是这样实现的：

本发明一种用于癌症生物标志物识别的方法，通过从公共数据库中获取癌症的基因表达数据和DNA甲基化数据，再对基因表达数据进行预处理和特征提取得到特征基因，对DNA甲基化数据进行扩展和t-test假设检验得到差异甲基化位点，最后利用差异甲基化位点去比对现有基因，通过比对成功的现有基因与特征基因求交集得到重叠基因，重叠基因即为识别的潜在的癌症生物标志物。

同时，本发明一种用于癌症生物标志物识别的方法还具有以下有益效果：

(1)、本发明利用扩展后的DNA甲基化芯片数据和癌症的基因表达数据进行数据融合，减小了传统数据融合方法的有偏性；

(2)、本发明保留了文献报道中的跟癌症相关的重要基因信息，寻找与其组合性能最好的癌症基因特征，优于传统的癌症生物标志物识别方法，具有良好推广性能，且为癌症的诊断和治疗提供指导。

附图说明

图1是本发明一种用于癌症生物标志物识别的方法流程图；

图2是基因中差异甲基化位点示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种用于癌症生物标志物识别的方法流程图。

在本实施例中，如图1所示，本发明一种用于癌症生物标志物识别的方法，包括以下步骤：

S1、获取任意一种癌症的基因表达数据和DNA甲基化数据，以及对应癌症已知的重要基因；

在本实施例中，从癌症基因组公共数据库TCGA中获取甲状腺癌THCA(thyroidcarcinoma)，来作为例子来说明，并取其对应的450K芯片的DNA甲基化数据，以及文献报道中跟THCA相关的重要基因。其中，甲状腺癌THCA的基因表达数据拥有572个样本，20503个基因特征。450K芯片的DNA甲基化数据拥有484个样本，401833个位点特征。

S2、设基因表达数据为n×p的矩阵，n为矩阵的行数，p为矩阵的列数，即基因表达数据为572×20503的矩阵；取矩阵的前p-1列构成矩阵A，取矩阵的第p列构成矩阵B；其中，前p-1列为基因表达数据的数据值，第p列为基因表达数据的标签。

S3、对矩阵A进行预处理

S3.1、扫描矩阵A的每一行，看每一行中是否存在缺失值，如果存在，则用该行的均值进行填补；

然后对填补后的矩阵A进行标准化处理，得到矩阵

S3.2、对矩阵进行重采样，得到矩阵A^*，重采样的目标是平衡正负样本。

S4、对矩阵A^*进行特征选择

S4.1、结合癌症已知的重要基因，使用Elastic Net回归模型对矩阵A^*进行特征选择；

L(λ₁,λ₂,β)＝|B-A^*β|²+λ₂|β|²+λ₁|β|₁

S4.2、令α＝λ₂/(λ₁+λ₂)，在约束项(1-α)|β|₁+α|β|²≤t下，计算其中，t为很小的常数，取0.01；α取0.2；

S4.3、把癌症已知的重要基因对应的基因表达数据相应列的系数置为0，求得取出中不为0的值对应的列，再找到这些列对应的基因，把这些基因和已知重要基因求并集，得到最后的特征基因；

在本实施例中，甲状腺癌THCA的基因表达数据经过步骤S3、S4的处理后剩余690个样本，287个基因特征。

S5、对450K芯片的DNA甲基化数据进行扩展处理，得到扩展后的450K芯片的DNA甲基化数据，在本实施例中，对450K芯片的DNA甲基化数据进行扩展处理为现有技术，具体扩展的流程在此不再赘述；

再利用t-test假设检验法对扩展后的DNA甲基化数据进行检验，得到差异甲基化位点。

S6、如图2所示，在基因的启动子区中，黑色点代表差异甲基化位点，白色点代表正常的甲基化位点；利用差异甲基化位点去比对现有基因，在现有基因中找出每个启动子区中拥有5个差异甲基化位点的基因，得到1053个现有基因，再将特征基因与找出的基因求交集，得到21个重叠基因，这21个重叠基因即为识别癌症生物标志物。

S7、模型验证

在基因表达数据中取出这21个重叠基因对应的数据，构建数目适当的决策树分别进行分类，最终将结果采用投票的方式就能得到随机森林模型。

其中，利用重叠基因构建决策树的方法为：设重叠基因的维度是F维，即重叠基因有F个属性。在构建开始之前选定一个参数f，满足f＜＜F，在构建每个内部节点的过程中，都需要从21个重叠基因中采用随机抽样的方法从他的所有F个属性选取f个属性，然后从f个属性中根据信息增益比，选出一个最优的属性充当分裂属性，进而是决策在此节点产生分裂。

信息增益比的计算采用如下公式：

其中，S为21个重叠基因，value(T)表示属性T所有取值的集合，v是T的其中一个属性值，S_v是S中属性T的值为V的样例集合，|S_v|为S_v中所含样例数。Entropy(S_v)即表示信息增益，他的计算采用如下公式：

其中，n就是类别的总数，类别C是变量，它的取值是C₁,C₂,...,C_n，而每一个类别出现的概率分别是P(C₁),P(C₂),...,P(C_n)。

在得到随机森林模型后，我们采用特异性(SP)、灵敏度(SE)和准确性(ACC)3个指标来进行评估，通过使用3倍交叉验证测试20次，获得随机森林模型的平均性能。表1所示，我们构建的模型与两种数据简单融合的传统方法的对比，结果优于传统的方法。

方法	ACC(％)	SP(％)	SE(％)
				传统方法	66.67	56.25	71.88
本发明	85.42	68.75	93.75

表1

最后，我们再取独立基因表达数据进行处理，获得21个基因特征的数据进行预测。在新批次数据的结果如表2所示，取得的结果是令人满意的。这表明我们构建的模型可用于检测疑似患有癌症或处于患癌症风险的个体，能够用于识别癌症生物标志物。

传统方法	ACC(％)	SP(％)	SE(％)
				本发明	84.95	66.67	91.78

表2

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种用于癌症生物标志物识别的方法，其特征在于，包括以下步骤：

(1)、获取任意一种癌症的基因表达数据和DNA甲基化数据，以及对应癌症已知的重要基因；

(3)、对矩阵A进行预处理

(3.1)、对矩阵A进行标准化处理，得到矩阵

(3.2)、对矩阵进行重采样，得到矩阵A*；

(4)、对矩阵A^*进行特征选择

(4.1)、结合癌症已知已知的重要基因，使用Elastic Net回归模型对矩阵A*进行特征选择；

L(λ₁,λ₂,β)＝|B-A^*β|²+λ₂|β|²+λ₁|β|₁

(4.2)、令α＝λ₂/(λ₁+λ₂)，在约束项(1-α)|β|₁+α|β|²≤t下，计算

(5)、对DNA甲基化数据进行扩展处理，得到扩展后的DNA甲基化数据，再利用t-test假设检验法对扩展后的DNA甲基化数据进行检验，得到差异甲基化位点；

(6)、利用差异甲基化位点去比对现有基因，在现有基因中找出每个启动子区中拥有k个差异甲基化位点的基因，再将特征基因与找出的基因求交集，得到重叠基因，重叠基因即为识别癌症生物标志物。

2.根据权利要求1所述的一种用于癌症生物标志物识别的方法，其特征在于，所述的DNA甲基化数据选用450K芯片的DNA甲基化数据。

3.根据权利要求1所述的一种用于癌症生物标志物识别的方法，其特征在于，所述(6)中，在现有基因中找出每个启动子区中拥有5个差异甲基化位点的基因。