CN107391962B

CN107391962B - 基于多组学分析基因或位点对疾病调控关系的方法

Info

Publication number: CN107391962B
Application number: CN201710792537.XA
Authority: CN
Inventors: 袁晓辉
Original assignee: Wuhan Gooal Gene Technology Co ltd
Current assignee: Wuhan Gooal Gene Technology Co ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2020-12-29
Anticipated expiration: 2037-09-05
Also published as: CN107391962A

Abstract

本发明公开了一种基于多组学分析基因与位点调控关系的方法，属于生物信息和计算机数据分析领域。本发明方法包括如下步骤：采集到病人样本后，分别使用转录组分析、CHIP‑Seq分析、miRNA分析以及GWAS分析对病因进行分析，得到的突变基因或位点和置信度分别为(g1，x1)、(g2，x2)、(g3，x3)和(g4，x4)；使用估计函数h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄对上述分析结果进行整合，以分析基因或位点和疾病之间的调控关系。本发明的估计函数对与疾病相关的基因分析的准确率达到了87％。

Description

基于多组学分析基因或位点对疾病调控关系的方法

技术领域

本发明涉及生物信息和计算机数据分析领域，具体涉及一种基于多组学分析基因或位点对疾病调控关系的方法。

背景技术

转录组分析，是在整体水平上对细胞中基因转录的情况及转录调控规律进行分析。简而言之，转录组学是从RNA水平研究基因表达的情况。转录组即一个活细胞所能转录出来的所有RNA的总和，是研究细胞表型和功能的一个重要手段。

CHIP-seq，指的是结合位点分析法，作用为研究体内蛋白质与DNA的相互作用关系。染色质免疫共沉淀技术(Chromatin Immunoprecipitation，CHIP)也称结合位点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将CHIP与第二代测序技术相结合的CHIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

MicroRNA(miRNA)是一类内生的、长度约为20-24个核苷酸的小RNA，其在细胞内具有多种重要的调节作用。每个miRNA可以有多个靶基因，而几个miRNA也可以调节同一个基因。这种复杂的调节网络既可以通过一个miRNA来调控多个基因的表达，也可以通过几个miRNA的组合来精细调控某个基因的表达。据推测，miRNA调节着人类三分之一的基因。

GWAS(Genome-wide association study)，即全基因组关联分析，是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性(SNP)，从中筛选出与疾病相关的SNPs。GWAS为人们打开了一扇通往研究复杂疾病的大门，将在患者全基因组范围内检测出的SNP位点与对照组进行比较，找出所有的变异等位基因频率，从而避免了像候选基因策略一样需要预先假设致病基因。GWAS一般采用非假说驱动。由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性，需要通过重复研究来保证遗传标记与疾病间的真关联。

转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析都可以通过对基因或者位点进行分析来得出基因对疾病的调控关系。然而，单纯的某种分析结果可能并不准确，如GWAS研究中随机干扰往往很大，可能的干扰包括遗传背景的不同，环境效应的不同等等。

发明内容

本发明的目的在于解决现有技术存在的问题，提供一种基于多组学分析基因或位点对疾病调控关系的方法，该方法用于将转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析的结果进行整合，以对假设进行修正或者形成新的假设。

本发明的目的通过下述技术方案实现：

一种基于多组学分析基因或位点对疾病调控关系的方法，包括如下步骤：采集到病人样本后，分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对病因进行分析，得到的突变基因或位点和置信度分别为(g1，x1)、(g2，x2)、(g3，x3)和(g4，x4)；使用估计函数h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄对上述分析结果进行整合，以分析基因或位点和疾病之间的调控关系。

本发明通过样本数据训练出模型h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄，然后采用大量的新的病人数据对模型进行测试，结果显示，训练的模型取得了较好的效果，对与疾病相关的基因分析的准确率达到了87％。这也证实了，本发明所提出的基于多组学分析基因与位点调控关系的方法无论在理论还是实践上都是可行的。

具体实施方式

下面以结合具体实施方式对本发明做进一步详细的描述，但本发明的实施方式不限于此。

采集病人样本数据，其中这些病人的病情、病因已知，如已知白化病主要是由于缺乏酪氨酸酶的正常基因而导致无法将酪氨酸转化成黑色素而引起，苯丙酮尿症主要是由于缺乏苯丙氨酸羟化酶的正常基因而导致苯丙氨酸不能转化成酪氨酸所引起。将这些数据作为训练集，采用线性回归方法来对样本数据进行拟合，训练出合适的模型。

具体做法和原理如下，

分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对采集到的样本数据进行分析。对同一病人而言，各自得到分析结果。在实际实验中对某白化病患者，通过转录组分析，得到突变基因为酪氨酸酶正常基因，置信度为0.6；而经由CHIP-Seq分析，则得到突变基因为酪氨酸酶正常基因，置信度为0.7；经由miRNA分析得到突变基因为丙氨酸正常基因，置信度为0.55；经由GWAS分析，得到突变基因为酪氨酸酶正常基因，置信度为0.8。可以看到，即使对同一病人，采用不同的分析方法，得到的结果也不尽相同，那么哪一种分析得出的结果是最为合理的呢，如何组合这四种分析结果，以得到最为科学的结论呢。

假设通过转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对某已知病因的疾病进行分析，得到的突变基因和置信度分别为(g1，x1)、(g2，x2)、(g3，x3)和(g4，x4)，而已知的突变基因和置信度为(g，x)，如果通过分析得到的突变基因和已知突变基因相同，那么在计算时，其置信度记为正值，如果分析得出的结果和已知事实相悖，那么置信度记为负值。如上文中通过miRNA分析得到突变基因为丙氨酸，置信度为0.55，而真正的突变基因为酪氨酸酶正常基因，于是，在计算时置信度取-0.55。

设估计函数为h_θ(x)＝θ₀+θ₁*x₁+θ₂*x₂+θ₃*x₃+θ₄*x₄，其中θ₁、θ₂、θ₃、θ₄为参数，表示每一种分析对总结论所造成的影响，所占权重，θ₀为截距项。令x₀＝1，就可以用向量的方式来表示了：

h_θ(x)＝θ^TX

其中，θ和X都是向量，θ＝(θ₀，θ₁，θ₂，θ₃，θ₄)，X＝(1，x₁，x₂，x₃，x₄)。

需要一个机制去评估训练得到的θ是否比较好，即需要对上述h函数进行评估，这个评估函数称为损失函数，描述h函数不好的程度，在下面，将这个损失函数设为J函数，J函数如下：

J函数中的参数解释为：假设共有m个已知病因的样本，其中x⁽ⁱ⁾表示第i个已知病因的样本，由上述四种方法分析得到的向量，如x⁽ⁱ⁾＝(1，0.6，0.57，0.79，0.43)，而y⁽ⁱ⁾则表示实际的置信度，如0.9。h_θ(x⁽ⁱ⁾)-y⁽ⁱ⁾即表示估计函数得出的结果与实际值的差。现在的目标是找到一个合适的θ参数向量，使得所有m个样本的估计值与实际值的差的平方和最小，亦即求解

上述函数是将x⁽ⁱ⁾的估计值与真实值y⁽ⁱ⁾差的平方和作为损失函数，前面乘上的1/2是为了在求导的时候，这个系数就不见了。在选定线性回归模型后，只需要确定参数θ，就可以将模型用来预测。然而θ需要在J(θ)最小的情况下才能确定。因此问题归结为求极小值问题，使用梯度下降法求极小值。

梯度下降法的过程如下：

1)首先对θ赋值，这个值可以是随机的，也可以让θ是一个全零的向量，如θ＝(0，0，0，0，0)。

2)改变θ的值，使得J(θ)按梯度下降的方向进行减少。

梯度方向由J(θ)对θ的偏导数确定，由于求的是极小值，因此梯度方向是偏导数的反方向。结果为

该结果整体误差对θ_j求偏导产生，表示θ_j对整体误差的影响。其中α表示步长，即每次对θ_j更新多少，如果步长太大，可能会跳过那个最优的θ_j，而步长太小，则可能导致迭代次数过多。采用梯度下降法对样本数据进行拟合后，得到估计函数为h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄。

这里对推导过程做出概率解释。假设通过估计函数预测的结果与实际结果有误差∈⁽ⁱ⁾，那么预测结果θ^Tx⁽ⁱ⁾和真实结果y⁽ⁱ⁾满足下式：

y⁽ⁱ⁾＝θ^Tx⁽ⁱ⁾+∈⁽ⁱ⁾，

一般来讲，误差满足平均值为0的高斯分布，也就是正态分布。那么x和y的条件概率也就是：

上述公式即为均值为0的标准正态分布的公式，其中σ表示正态分布的方差。这里，就得到了一条样本的结果概率，然而期待的是模型能够在全部样本上预测最准，也就是概率积最大。概率积是概率密度函数积，连续函数的概率密度函数与离散值的概率函数不同。这个概率积成为最大似然估计。最大似然估计得到最大值时确定θ。那么需要对最大似然估计公式求导，求导结果即是：

这个式子也就是在前文所采取的损失函数。

上述推导过程中做了一些假定，但这些假定符合客观规律。

采集到新的病人样本后，分别使用四种分析方式对病人病因进行分析得到突变基因和置信度(g，x)，然后使用上述估计函数对分析结果进行整合。在实验中，通过样本数据训练模型，然后采用大量的新的病人数据对模型进行测试，结果显示，训练的模型取得了较好的效果，对与疾病相关的基因分析的准确率达到了87％。这也证实了，本发明所提出的基于多组学分析基因或位点对疾病调控关系的方法无论在理论还是实践上都是可行的。

Claims

1.一种基于多组学分析基因或位点对疾病调控关系的方法，其特征在于：包括训练阶段和测试阶段：在训练阶段，采集到病人数据后，分别使用转录组分析、CHIP-Seq分析、miRNA分析以及GWAS分析对病因进行分析，得到的突变基因或位点和置信度分别为(g1，x1)、(g2，x2)、(g3，x3)和(g4，x4)；对上述分析结果使用梯度下降法训练估计函数h_θ(x)＝θ₀+θ₁*x₁+θ₂*x₂+θ₃*x₃+θ₄*x₄，得到估计函数h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄，在测试阶段，采集新的病人数据，使用估计函数h_θ(x)＝0.2+0.7*x₁+0.6*x₂+0.3*x₃+0.9*x₄以分析基因或位点和疾病之间的调控关系。