CN110910955A

CN110910955A - 一种易感基因罕见变异位点纵向分析模型的建立方法

Info

Publication number: CN110910955A
Application number: CN201911002493.1A
Authority: CN
Inventors: 李淼新; 蒋琳; 代晟
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-03-24
Anticipated expiration: 2039-10-21
Also published as: CN110910955B

Abstract

本发明生物信息数据处理技术领域，提出一种易感基因罕见变异位点纵向分析模型的建立方法，包括以下步骤：获取待分析的病人样本的全基因组序列变异数据；观察统计病人样本中基因上的基因数量突变观察值，对基因进行截断负二项回归，并构建广义线性回归函数；采用最大似然估计函数计算截断负二项回归的系数以及基因罕见变异等位基因数估算值的期望；计算基因的突变观察值与回归估计基线突变数的标准化偏移残差；将所述标准化偏移残差转换为统计显著性程度；根据预设的阈值剔除基因中的显著基因，然后重复上述步骤对截断负二项回归系数进行重新拟合，至病人样本中的所有显著基因被剔除，得到易感基因罕见变异负荷的纵向分析模型。

Description

一种易感基因罕见变异位点纵向分析模型的建立方法

技术领域

本发明涉及生物信息数据处理技术领域，更具体地，涉及一种疾病易感基因罕见变异位点鉴定纵向分析模型的建立方法。

背景技术

罕见基因变异被认为是复杂遗传疾病的主要成因之一，包括二型糖尿病、心力衰竭、骨质疏松症等遗传疾病。例如，基因TREM2和APP中的罕见变异被报道与老年痴呆相关等。但目前用于发掘罕见易感位点的统计方法还不够强大，因此迫切需要更强大有效的新方法发现更多人类复杂疾病中的罕见变异。

现有的复杂疾病罕见变异分析方法主要采用病例对照策略，它继承了基于芯片的全基因组关联分析方法的思想，利用全基因组罕见变异分析。考虑在单个罕见变异位点统计检验低功效问题，研究人员也提出了基于多个变异的关联分析策略，即区域关联性检测。该策略通常联合同一基因或区域内的多个变异位点一起考虑等位基因与疾病相关性，比较病人与正常人突变数的差异评估相关性，或者根据统计模型中方差成分，鉴定易感基因。基因水平多位点关联检测通常比单个位点关联检测更有效。但总体而言这些分析方法的统计效能偏低，难以有效地检测出疾病的罕见易感突变。此外，由于病例、对照分析策略既要测序大量病人样本，又要测序等量正常人样本，成本较高。

发明内容

本发明为克服上述现有技术所述的基因水平检测分析统计效能低的缺陷，提供一种易感基因罕见变异位点纵向分析模型的建立方法。

为解决上述技术问题，本发明的技术方案如下：

一种易感基因罕见变异位点的纵向分析模型建立方法，包括以下步骤：

S1：获取待分析的病人样本的全基因组测序或外显子组序列变异数据；

S2：观察统计病人样本中基因i上全部罕见变异等位基因数量的突变观察值y_i，对所述病人样本中基因组的所有基因进行截断负二项回归，构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归模型；

S3：根据所述广义线性回归函数采用最大似然估计函数计算截断负二项回归的系数，以及基因i罕见变异等位基因数估算值的期望；

S4：根据所述基因i罕见变异等位基因数估算值的期望，计算所述病人样本中基因i的突变观察值与回归估计基线突变数的标准化偏移残差；

S5：将所述标准化偏移残差转换为统计显著性程度；

S6：通过预设的阈值剔除所述基因i中的显著基因，然后跳转执行S2步骤，重新拟合得到截断负二项回归系数，至病人样本中的所有显著基因被剔除，得到易感基因罕见变异负荷的纵向分析模型。

本技术方案中，采用截断负二项分布模型拟合罕见变异分布的基准线，用于评估易感基因的相对罕见变异负荷，具体地，对病人样本中的基因组上所有基因做截断负二项回归，然后基于最大似然估计函数计算回归系数，并计算每个基因实际突变数与回归估计基线突变数的偏移残差值，将该偏移残差值在基因组水平纵向地标准化，然后将偏移残差值转换为统计显著性程度p-值，其中，p-值越小表示显著性程度越高，也表示该基因相对于估计的基线有更多的突变量，同时提示该基因与疾病的相关性越强。根据计算得到的统计显著性p-值，通过预设的阈值剔除相应显著基因，然后，用病人样本中余下的基因重复上述步骤，重新拟合出截断负二项回归的系数并计算统计显著性p-值，重复执行上述步骤，直至病人样本中没有可以被剔除的显著基因。由最后迭代所得到的截断负二项回归系数所建立的易感基因罕见变异位点的纵向分析模型最接近零假设，能够减少有高突变数的易感基因对非易感突变基线值估算的影响。

优选地，S1步骤中的病人样本中包括基因i，且基因i中含有m_i个罕见变异位点，一个罕见变异位点j中含有n_i,j个变异等位基因，其中，i、m_i、n_i,j分别取正整数。

优选地，S2步骤中，其具体步骤如下：

S21：观察统计基因i上每个变异位点的在病人样本中的加权变异等位基因数c_i,j，其计算公式如下：

c_i,j＝n_i,j*w_i,j

其中，n_i,j表示罕见变异位点j在病人样本中的实际变异等位基因数量；w_i,j表示变异位点j上的功能评分，且w_i,j为的正整数，如果加权值缺失则取1；

S22：根据所述加权变异等位基因数c_i,j，计算基因i上全部罕见变异等位基因数量的突变观察值y_i，其计算公式如下：

其中，所述基因i的突变观察值y_i服从期望为μ_i，分布参数为θ的负二项分布；

S23：计算负二项分布的概率质量函数，其计算公式如下：

其中，Γ(·)表示伽马函数；e是自然对数符号；β为待拟合的回归系数；γ表示分布参数系数；

S24：截取所述基因i中罕见变异等位基因数为0至t的基因，让变异等位基因数服从截断负二项分布模型，其中，在t点截断的概率质量函数如下：

其中，g(y|μ_i,θ,t)表示基因i上的变异等位基因数目为y时的概率，y＝t+1,t+2,...，且t＝0,1,2,...；

S25:构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数，所述广义线性回归的连接函数如下式所示：

其中，x_1,i是基因i的编码区长度，x_2,i是基因i的频率评分，x_3,i是基因i编码区长度与频率评分的乘积，x_4,i是基因i的错义突变保守评分，x_5,i是基因i的失去功能突变保守评分，x_5,i是基因i的鸟嘌呤和胞嘧啶所占的比率；参数β₀,...,β₆表示分别的回归系数；EXP(y_i)表示基因i的突变观察值y_i的期望。

优选地，S3步骤中，所述基于截断负二项分布的最大似然估计函数的计算公式如下：

所述最大似然估计函数取对数为

l_i＝lnp(y_i|μ_i,θ)-ln(1-F(X≤t|μ_i,θ)

其中，

优选地，S3步骤中，其具体步骤如下：

S31：根据所述最大似然估计函数分别对期望μ_i和分布参数θ进行求导，估计截断负二项回归系数参数

和参数

其中，对所述最大似然估计函数对μ_i求导的计算公式如下：

令

得到待拟合的回归系数β的求导计算公式：

对所述最大似然估计函数对θ求导的计算公式如下：

其中，ψ(·)为Digamma函数，且

令θ＝e^γ，得到对分布参数系数γ的求导计算公式：

根据上述求导计算公式，当导数等于0时，即得到使似然估计函数的对数最大的截断负二项回归系数参数

和参数

的值；

S32：根据所述参数

和参数

计算基因i中回归估计基线突变数

的期望

其计算公式如下：

优选地，S4步骤中，计算所述病人样本中基因i的基因突变观察数y_i与回归估计基线突变数

的标准化偏移残差

其计算公式如下：

其中，e_i表示基因i的偏移残差，

和

分别为估算的基因i中罕见变异等位基因数的均值和标准偏差；r_i表示原始残差，sign(·)为标注符号函数，ll(·)为分布的自然对数似然函数，

表示观察均值；

表示估算的基因i中罕见变异等位基因数，均值

通过求解所述估算的罕见变异等位基因数方程可得到。

优选地，S5步骤中，采用标准正态分布将所述标准化偏移残差

转换为统计显著性程度p-值，其计算公式如下：

其中，Φ(·)表示标准正太分布的积累分布函数。

优选地，S6步骤中，所述预设的阈值采用伪发现率FDR，且所述伪发现率FDR≥0.2。

与现有技术相比，本发明技术方案的有益效果是：采用截断负二项分布模型准确拟合罕见变异分布的基准线，并通过基准线有效检测复杂疾病的易感基因，能够有效减少高突变数的易感基因对非易感突变基线值估算的影响，从而有效提高基因水平检测分析统计效能。

附图说明

图1为本实施例的易感基因罕见变异位点的纵向分析模型建立方法流程图。

图2为本实施例中病人样本量为75、100、150、200时的p-值对比图。

图3为本实施例中与对照方法的统计效能比较图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的易感基因罕见变异位点的纵向分析模型建立方法的流程图。

本实施例提出一种易感基因罕见变异位点的纵向分析模型建立方法，包括以下步骤：

S1：获取待分析的病人样本的全基因组数据。

本实施例中，病人样本中包括基因i，且基因i中含有m_i个罕见变异位点，一个罕见变异位点j中含有n_i,j个变异等位基因。

本实施例中，对每个基因i设置有功能评分w_i,j＝1,2,3,...。

S2：观察统计病人样本中基因i上全部罕见变异等位基因数量的突变观察值y_i，对所述病人样本中基因组的所有基因进行截断负二项回归，并构建用于预测基因i罕见突变等位基因数的基于截断负二项分布的广义线性回归函数。其具体步骤如下：

c_i,j＝n_i,j*w_i,j

S23：计算负二项分布的概率质量函数，其计算公式如下：

本实施例中，由于大部分基因上不存在或存在极少的罕见突变，低突变的基因数的比例将会膨胀，这样往往会扭曲假定的负二项分布，因此在本实施例中截取所述全基因组数据中罕见变异等位基因数为0至t的基因，使变异等位基因数服从截断负二项分布模型。

S3：根据所述广义线性回归函数采用最大似然估计函数计算截断负二项回归系数，以及基因i罕见变异等位基因数估算值的期望。

本步骤中，基于截断负二项分布的最大似然估计函数的计算公式如下：

将最大似然估计函数取对数，得到以下公式：

l_i＝lnp(y_i|μ_i,θ)-ln(1-F(X≤t|μ_i,θ)

其中，

本步骤中，包括以下具体步骤：

S31：根据所述最大似然估计函数分别对期望μ_i和分布参数θ进行求导，计算截断负二项回归系数参数

和参数

其中，对所述最大似然估计函数对μ_i求导的计算公式如下：

令

得到待拟合的回归系数β的求导计算公式：

对所述最大似然估计函数对θ求导的计算公式如下：

其中，ψ(·)为Digamma函数，且

令θ＝e^γ，得到对γ的求导计算公式：

和参数

的值；

S32：根据所述参数

和参数

计算基因i中回归估计基线突变数

的期望

其计算公式如下：

S4：根据所述基因i罕见变异等位基因数估算值的期望，计算所述病人样本中基因i的突变观察值与回归估计基线突变数的标准化偏移残差。

本步骤中，计算所述病人样本中基因i的基因突变观察数y_i与回归估计基线突变数

的标准化偏移残差

的计算公式如下：

其中，e_i表示基因i的偏移残差，

和

表示观察均值；

表示估算的基因i中罕见变异等位基因数，均值

通过求解所述估算的罕见变异等位基因数方程可得到。

S5：将所述标准化偏移残差转换为统计显著性程度。

本步骤中，采用标准正态分布将所述标准化偏移残差

转换为统计显著性程度p-值，其计算公式如下：

其中，Φ(·)表示标准正太分布的积累分布函数。

本实施例中，统计显著性程度p-值表示基因i在病人群中相对基线

突变数的多寡，p-值越小则表示相对突变数越多，同时也表示更有可能是复杂疾病易感基因。本实施例中的p-值为由偏移残差值e_i标准化后计算得到，而偏移残差值e_i同时是基因i的罕见变异等位基因数的观察值y_i与估算值

及其均值

计算得到。

在本实施例中，采用伪发现率FDR剔除相应的显著基因，且FDR设置为0.2。

本实施例中提出的易感基因罕见变异位点纵向分析模型可以减少有高突变数的易感基因对非易感突变基线值估算的影响，因此用稳定后的模型计算全部基因的偏移残差和p值，能够实现通过纵向比较基因之间的校正后的相对突变数的差异来鉴定复杂疾病易感基因，突破了现有的分析方法受限于对照样本的要求。

本实施例中，采用随机样本的方法检验本实施例提出的方法与使用原有的位点变异数没有加权的方法鉴定易感基因的1型错误，并采用现有的CMC、SKAT、Price、KBAC等四种基于基因关联分析的罕见变异样本对照常用方法与本实施例提出的一种易感基因罕见变异位点的纵向分析模型建立方法进行对比。如图2所示，分别为当病人样本量为75、100、150、200时的p值对比图。其中，图2(a)为表示病人样本量为75时的p值对比图，图2(b)表示病人样本量为100时的p值对比图，图2(c)表示病人样本量为150时的p值对比图，图2(d)表示病人样本量为200时的p值对比图；RUNER表示本实施例提出的易感基因罕见变异位点纵向分析模型，UW-RUNER表示本实施例提出易感基因罕见变异位点纵向分析模型使用原有的位点变异数且没有加权的方法。

由图可知，RUNER的p值最接近均匀分布，即使在样本量为75时的分析效果也相对较为理想，而其他四种对照方法在小样本时出现了很明显的p值膨胀，表示现有的统计关联检测对中小样本量的罕见变异效果不佳，且耗费时间长，存在基因水平检测分析统计效能低的缺陷。

如图3所示，为本实施例与对照方法的统计效能比较图，其中，图3(a)为探测基因TIE1的效能对比图，图3(b)为探测基因TCF4的效能对比图，图3(c)为表示模拟生成100个数据集，每个数据集做一次检测，每次产生的假阳性基因数求均值。在对照实验中，在健康样本中随机地插入易感等位基因产生模拟病人样本。在模拟中，假设多个罕见错义突变发生在基因TCF4和TIE1中，其中，TCF4是精神分裂症的易感基因，TIE1对产生血管病很重要。在该对照实验中，Bonferroni校正控制多重比较谬误为0.05。由图可知，当样本量为75时，RUNER的效能能够达到58％和89％，且当样本100时，RUNER的效能达到75％和93％。相比于其他四种现有的分析方法，该四种方法在小样本时效能远不如RUNER和不加权的UW-RUNER。因此，本实施例提出的易感基因罕见变异位点纵向分析模型显然能够有效克服基因水平检测分析统计效能低的缺陷。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。