CN111180012A

CN111180012A - 一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法

Info

Publication number: CN111180012A
Application number: CN201911377048.3A
Authority: CN
Inventors: 赵天意; 臧天仪; 胡杨
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19

Abstract

本发明是一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法。所述方法采用经验贝叶斯元信息分析全基因组关联分析数据，得到分析结果；基于经验贝叶斯的综合层次元信息分析，修正全基因组中的每个SNP的统计值；基于孟德尔随机化的全基因组关联分析数据分别与eQTL和mQTL数据整合，根据孟德尔随机化的全基因组关联分析数据与eQTL和mQTL数据整合结果的重叠部分，得到基因识别结果。本发明可以极大地提高AD相关基因的识别速度，充分的利用现有的数据，提升了疾病相关基因识别的速度并节省了研发费用。计算结果可以筛选掉极大部分的基因，为后续的生物实验提供了有价值的研究范围。

Description

一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法

技术领域

本发明涉及基因识别技术领域，是一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法。

背景技术

目前，大多数学者采用开发相关试剂、构建生物实验等方法识别阿尔兹海默病(AD)相关的基因。而这些方法耗时极长、费用极高。近年来随着计算机技术的不断发展，测序技术的升级，已经存在大量计算机算法用于识别与疾病相关的基因。目前，使用全基因组关联分析(GWAS)寻找AD的风险基因是一种常用手段。这个世纪初，许多课题组都在识别AD的易感位点，但实际结果并不理想，不同课题组间所共同找到的易感基因只有sorl1。导致研究结果不一致的原因主要是由于实验样本的异质性、复杂的连锁不平衡模式、等位基因频率的差异以及样本量的大小。在过去的10年里，高通量测序技术的出现允许研究人员同时检测基因组上数以百万计的单核苷酸多态性位点(Single Nucleotide Polymorphisms，SNP)。一些大的机构和公司在高通量测序技术上的努力使得人们在近几年发现了许多新的AD的通路和易感基因。第一批将GWAS应用到AD中的研究者首先识别出了clu、picalm、cr1和bin1等4个易感基因位点。后来又有其他研究组通过更大样本量的GWAS分析找到了如cd33和epha1等易感基因位点，这些研究的实验样本都主要来自于欧洲人群。然而，GWAS仍然存在一定的局限性。例如，该策咯基于“常见疾病－常见变异”的假说，遗漏了可能在病因中起更重要作用的罕见变异(次要等位基因频率(minor allele frequency，MAF<0.005))；所获得的关联SNP也不一定是真正的致病位点，而只是与真正致病位点呈LD关联的“标签”SNP，尤其是一些位于所谓的基因“荒漠区”的信号，对阐明遗传变异的生物学功能造成了很大的困难；GWAS通常根据统计学差异最明显的原则，分析单个位点的边际效应，而忽视了复杂性疾病存在的多基因的交互作用。因此，GWAS仍不能全面揭示复杂性疾病的遗传易感因素，它只是探索复杂性疾病遗传病因机制的一个重要环节，如何对GWAS易感位点进行深入挖掘并找出真正的致病位点，及探索这些非编码序列如何发挥生物学机制成为遗传学研究的又一个挑战。

研究发现，GWAS所发现的遗传易感位点约80％位于基因组的非编码区，提示其中的致病位点可能对基因表达存在调控功能。因此，本发明将表达数量性状位点定位(expression quantitative trait loci，eQTL)和甲基化数量性状基因座数据mQTL(methylation quantitative trait loci，eQTL)数据引入，结合GWAS数据，开发EB-SMR识别AD相关的基因。引入eQTL和mQTL数据是由于这两种数据可以体现SNP对基因表达的影响，而GWAS数据告知了哪些SNP与AD相关，整合这三种数据，便可知哪些SNP改变了基因表达而与AD相关。

发明内容

本发明为有效识别阿尔兹海默病相关的基因，本发明提供了一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法，本发明提供了以下技术方案：

一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法，包括以下步骤：

步骤1：采用经验贝叶斯元信息分析全基因组关联分析数据，得到分析结果；

步骤2：基于经验贝叶斯的综合层次元信息分析，修正全基因组中的每个SNP的统计值；

步骤3：基于孟德尔随机化的全基因组关联分析数据分别与eQTL和mQTL数据整合，得到孟德尔随机化的全基因组关联分析数据与eQTL和mQTL数据整合结果；

步骤4：根据孟德尔随机化的全基因组关联分析数据与eQTL和mQTL数据整合结果的重叠部分，得到基因识别结果。

优选地，所述步骤1具体为：

采用经验贝叶斯元信息分析全基因组关联分析数据，全基因组关联分析数据包含SE和Beta值，SE值表示每个SNP的标准误差确定每个Beta值的权重，通过下式表示每个Beta值的权重：

其中，w_i为每个Beta值的权重，SE_i代表每个SNP的标准差，w_i代表Beta值的权重.

通过下式表示元信息分析后的Beta值为：

其中，β为元信息分析后的Beta值，β_i表示第i次实验的Beta估计值；

根据每个Beta的权重来计算元信息分析后的结果，通过下式表示元信息分析后的结果：

其中，SE为元信息分析后的结果。

优选地，所述步骤2具体为：

步骤2.1：根据元信息分析后的结果确定总体Z统计量，通过下式确定总体Z统计量：

Z＝β/SE (4)

步骤2.2：将多个全基因组关联分析数据集汇总为一个数据集，采用经验贝叶斯整合整个基因组水平的所有Z统计值，令Z统计值服从方差是1的分布，确定有偏Z统计值，通过下式表示有偏Z统计值：

其中，

为有偏Z统计值，Z_i为真实Z统计量，N为方差分布；

真实Z统计量Z_i服从正态分布，通过下式表示

的正态分布、边缘分布和后验分布：

其中，式(6)至式(8)分别表示

的正态分布、边缘分布和后验分布，B为经验贝叶斯的正态分布参量，σ为正态分布的标准差，θ为正态分布的均值；

通过

的平均值估计正态分布的均值θ：

根据反卡方分布的性质：

通过经验贝叶斯估计确定B，因此，B的经验贝叶斯估计通过下式表示

其中，S为SNP序列，χ²为反卡方分布；

将式(15)带入式(8)中，完成了元信息分析，并修正整个基因组中每个SNP的统计值，通过下式表示修正后的真实Z的统计值

优选地，所述步骤3具体为：

步骤3.1：对孟德尔随机化进行改进，将y设置为表型，即输出变量，将x设置为基因的表达，即暴露因子，将z设置为基因突变，即工具因子；

b_xy是x对于y的效果即基因的表达对于表型的影响，b_zx是z对于x的效果即基因突变对于基因表达的影响，b_zy是z对于y的效果即基因突变对于表型的影响，通过下式表示b_xy：

b_xy＝b_zy/b_zx (17)

通过b_xy的基因表达对表型的影响并刨除混杂因素；

步骤3.2：计算eQTL数据集中SNP的Zscore，记为z_zy，通过下式表示z_zy：

z_zy＝B_zy/SE_e (18)

其中，B_zy为eQTL数据集中的Beta值，SE_e为eQTL数据集中的标准差；

计算mQTL数据集中对应SNP的Zscore，记为z_zx，通过下式表示z_zx：

z_zx＝B_zx/SE_G (19)

其中，B_zx为mQTL数据集中的Beta值，SE_G为GWAS数据集中的标准差。

优选地，所述步骤4具体为：

根据z_zy和z_zx计算统计量T_smr，通过下式表示T_smr：

T_smr服从自由度为1的卡方分布，对T_smr进行卡方检验并求得得到基因识别概率结果P-value。

有益效果：

本发明可以极大地提高AD相关基因的识别速度，充分的利用现有的数据，是一种可靠、高效的疾病相关基因识别方法。提升了疾病相关基因识别的速度并节省了金钱。计算结果可以筛选掉极大部分的基因，为后续的生物实验提供了研究范围。

附图说明

图1是基于经验贝叶斯与改进孟德尔随机化融合的基因识别方法流程图；

图2是SMR方法流程图

图3是经验贝叶斯meta分析后的P值分布；

图4是原始GWAS、eQTL和mQTL数据SNP的p值；

图5是SMR整合后的GWAS&eQTL和GWAS&mQTL结果。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

如图1所示，本发明提供一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法，以阿尔兹海默病的全基因分析为例，具体包括以下步骤：

步骤1：采用经验贝叶斯元信息分析阿尔兹海默病的全基因组关联分析数据，得到分析结果；所述步骤1具体为：

采用经验贝叶斯元信息分析阿尔兹海默病的全基因组关联分析数据，阿尔兹海默病的全基因组关联分析数据包含SE和Beta值，SE值表示每个SNP的标准误差确定每个Beta值的权重，通过下式表示每个Beta值的权重：

通过下式表示元信息分析后的Beta值为：

其中，SE为元信息分析后的结果。

步骤2：基于经验贝叶斯的综合层次元信息分析，修正阿尔兹海默病的全基因组中的每个SNP的统计值；所述步骤2具体为：

步骤2.1：根据元信息分析后的结果确定总体Z统计量，通过下式确定总体Z统计量.

Z＝β/SE (4)

步骤2.2：将多个阿尔兹海默病的全基因组关联分析数据集汇总为一个数据集，采用经验贝叶斯整合整个基因组水平的所有Z统计值，令Z统计值服从方差是1的分布，确定有偏Z统计值，通过下式表示有偏Z统计值：

其中，

为有偏Z统计值，Z_i为真实Z统计量；

真实Z统计量Z_i服从正态分布，通过下式表示

的正态分布、边缘分布和后验分布：

其中，式(6)至式(8)分别表示

通过

的平均值估计θ，

根据反卡方分布的性质：

通过经验贝叶斯EB估计确定B，因此，B的EB估计通过下式表示

其中，S为SNP序列，χ²为反卡方分布；

将式(15)带入式(8)中，完成了meta分析，并修正整个基因组中每个SNP的统计值，通过下式表示修正后的真实Z的统计值

根据图2所示，所述步骤3具体为：

步骤3.1：对孟德尔随机化进行改进,将y设置为表型，即输出变量，将x设置为基因的表达，即暴露因子，将z设置为基因突变，即工具因子；

b_xy＝b_zy/b_zx (17)

通过b_xy的基因表达对表型的影响并刨除混杂因素；

z_zy＝B_zy/SE_e (18)

B_zy为eQTL数据集中的Beta，SE_e为eQTL数据集中的标准差；

z_zx＝B_zx/SE_G(19)

所述步骤4具体为：

根据z_zy和z_zx计算统计量T_smr，通过下式表示T_smr：

T_smr服从自由度为1的卡方分布，对T_smr进行卡方检验并求得得到阿尔兹海默病基因识别概率结果P-value，如图5所示SMR整合后的GWAS&eQTL和GWAS&mQTL结果。

根据图3经验贝叶斯meta分析后的P值分布，采用经验贝叶斯整合多组GWAS数据，并使用改进的孟德尔随机方法整合GWAS和eQTL、mQTL数据。

图4原始GWAS、eQTL和mQTL数据SNP的p值，首次将经验贝叶斯应用于GWAS meta分析中，首次将GWAS与eQTL和mQTL整合在一起发现新的知识。

识别出与AD相关P值很低的SNP，识别出的与AD相关的基因如下表1所示：

以上所述仅是一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法的优选实施方式，一种基于经验贝叶斯与孟德尔随机化融合的基因识别方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。