CN108241792A

CN108241792A - 一种整合多平台基因分型结果的方法和装置

Info

Publication number: CN108241792A
Application number: CN201611208172.3A
Authority: CN
Inventors: 徐煜; 高强
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: Huada Qinglan Biotechnology Wuxi Co ltd; BGI Technology Solutions Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2018-07-03
Anticipated expiration: 2036-12-23
Also published as: CN108241792B

Abstract

本发明公开了一种整合多平台基因分型结果的方法和装置，该方法包括：获取从各基因分型平台得到的单倍型质量值，其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；整合各基因分型平台得到的单倍型质量值，得到整合后的单倍型质量值；依据整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。充分利用各基因分型平台分型结果的信息，尽量克服了不同平台结果不一致的问题和可信度不同的特征，使得在不牺牲结果质量的前提下，可分型位点数显著提高。

Description

一种整合多平台基因分型结果的方法和装置

技术领域

本发明涉及生物信息学分析技术领域，尤其涉及一种整合多平台基因分型结果的方法和装置。

背景技术

基因分型技术是基因组信息的科学研究和产业应用的基础。目前基因分型技术主要包括单位点分型技术和DNA片段序列的分型技术，单位点分型技术按原理又可分为基于碱基配对技术的基因分型芯片和基于质谱的分型，DNA片段序列的分型技术则包括第一代阻断法测序、第二代合成法测序、以及目前发展中的第三代单分子测序。由于多种测序方法的技术原理和实施方案的不同，各技术手段和平台分型结果会出现一定程度的不一致性。

为了减少单一平台分型带来的偏差，通过多平台进行分型，然后整合分型结果成为一种可行的技术手段。相比于单一平台分型，多平台结果整合在理论上可以减少系统误差，提供更可靠的技术结果。这一技术方案目前被广泛应用在提供技术标准品上。

目前常用的基因分型结果整合方法包括全体一致法和多数投票法。全体一致法是指在一个给定的基因组位点，只有当多个平台分型结果完全一致时，才认定该位点的分型结果为此各平台一致的基因型，否则认定分型失败。多数投票法则较全体一致法更为宽松，它要求在给定位点，当多个平台分型结果中某一基因型出现的比例超过一定阀值时(一般要求80％)，即可认定该位点为此基因型，否则认定分型失败。

全体一致法要求结果完全一致，会导致分型平台数量越多，结果之间完全一致的可能性越小，能分型出来的位点越少。对于平台间分型结果差异比较大的位点(如插失/缺失变异)，多数投票法也存在此问题。

由于绝大多数物种为二倍体或多倍体，而现有测序技术单次都只能测到单倍体，并通过多次实验来覆盖所有的倍型。因而某一测序平台在分型结果中可能只体现了部分单倍型而非全部单倍型。以上信息并未在现有结果整合方法中得到具体的体现。此外，现有技术未能充分考虑各平台测序结果的质量，即可信度的问题，只是用一定的阀值做过滤，然后在数量上做分析合并。

发明内容

本发明提供一种整合多平台基因分型结果的方法和装置，充分利用各基因分型平台分型结果的信息，尽量克服了不同平台结果不一致的问题和可信度不同的特征，使得在不牺牲结果质量的前提下，可分型位点数得到显著提高。

根据本发明的第一方面，本发明提供一种整合多平台基因分型结果的方法，包括：

获取从各基因分型平台得到的单倍型质量值，其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；

整合上述各基因分型平台得到的上述单倍型质量值，得到整合后的单倍型质量值；

依据上述整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

进一步地，上述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率，或者，该单倍型或单倍型排列/组合出现的极大似然估计。

进一步地，上述单倍型质量值，具体是指对给定位点，在给定测序结果的条件下，预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果；

相应地，上述整合上述各基因分型平台得到的上述单倍型质量值，具体是指加和上述各基因分型平台得到的上述单倍型质量值。

进一步地，对于单倍体基因组，上述位点的基因型等于该位点上上述整合后的单倍型质量值最高的单倍型。

进一步地，对于非单倍体基因组，上述位点的基因型等于该位点上上述整合后的单倍型质量值大于预定值的单倍型的组合；优选地，上述预定值是30。

根据本发明的第二方面，本发明提供一种整合多平台基因分型结果的装置，包括：

获取单元，用于获取从各基因分型平台得到的单倍型质量值，其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；

整合单元，用于整合上述各基因分型平台得到的上述单倍型质量值，得到整合后的单倍型质量值；

推断单元，用于依据上述整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

根据本发明的第三方面，本发明提供一种整合多平台基因分型结果的装置，包括：

数据输入单元，用于输入数据；

数据输出单元，用于输出数据；

存储单元，用于存储数据，其中包括可执行的程序；

处理器，与上述数据输入单元、数据输出单元及存储单元数据连接，用于执行上述可执行的程序，上述程序的执行包括完成如第一方面的方法。

根据本发明的第四方面，本发明提供一种计算机可读存储介质，用于存储供计算机执行的程序，上述程序的执行包括完成如第一方面的方法。

本发明的整合多平台基因分型结果的方法，充分利用各基因分型平台分型结果的信息，尽量克服了不同平台结果不一致的问题和可信度不同的特征，使得在不牺牲结果质量的前提下，可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用，变异结果也更加全面。

附图说明

图1为本发明整合多平台基因分型结果的方法的一个实施例的流程示意图；

图2为本发明整合多平台基因分型结果的方法的一个实施例的技术路线图；

图3为本发明整合多平台基因分型结果的装置的一个实施例的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

如图1所示，根据本发明的一个实施例，一种整合多平台基因分型结果的方法，包括如下步骤：

S110：获取从各基因分型平台得到的单倍型质量值(Allelic Quality，简称AQ)，其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值。

基因分型平台在本发明中没有限制，可以是任何目前常用的基因分型平台，例如，利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库Complete Genomics(CG)测序数据和fosmid文库Hiseq测序数据进行基因分型的技术和平台。还包括未来开发的基因分型技术和平台。

本发明中，单倍型的含义，一般地可以指一条染色体上多个基因座上基因型的组合，也可以指一条染色体上的单个基因座上的(等位)基因型甚至单个碱基位点上的碱基型。例如，在本发明实施例中，单倍型主要是指单个碱基位点上的碱基型(单碱基突变，参考型)，或数个连续的碱基位点上的碱基型(插入/缺失)。在本发明实施例中，单倍型更接近于“等位基因中的一个”这样一种概念，例如互为等位基因的A和a中的单倍型A。

S120：整合各基因分型平台得到的单倍型质量值，得到整合后的单倍型质量值。

整合各基因分型平台得到的单倍型质量值，也就是综合分析利用各基因分型平台得到的单倍型质量值。所谓“整合”在实现方式上，有各种不同的方法，可以通过不同的表达方式或数学思想来实现。一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的后验概率。所谓“后验概率”，是指在得到“结果”(例如特定的单倍型或单倍型排列/组合)的信息后重新修正的概率，如贝叶斯公式中的。是“执果寻因”问题中的“果”。先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。另一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的极大似然估计。所谓“极大似然估计”，其原理的直观想法是：一个随机试验如有若干个可能的结果A、B、C…。若在仅仅作一次试验中，结果A(例如特定的单倍型或单倍型排列/组合)出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。一般地，事件A发生的概率与参数theta相关，A发生的概率记为P(A，theta)，则theta的估计应该使上述概率达到最大，这样的theta顾名思义称为极大似然估计。当然，本发明的单倍型质量值，也包括上述后验概率或极大似然估计的数学变型，以及其它反映单倍型或单倍型排列/组合出现的可能性和确定程度的统计量。

在本发明的一个具体实施例中，单倍型质量值，具体是指对给定位点，在给定观察值(即测序结果)的条件下，预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)。在此情况下，所谓“整合”是指“加和”各基因分型平台得到的单倍型质量值，也就是对各基因分型平台得到的单倍型质量值进行加和计算。

S130：依据整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

在单倍型质量值——具体是指对给定位点，在给定观察值(即测序结果)的条件下，预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)——的情况下，(a)对于单倍体基因组，某位点的基因型等于该位点上整合后的单倍型质量值最高的单倍型；(b)对于非单倍体基因组，某位点的基因型等于该位点上整合后的单倍型质量值大于预定值的单倍型的组合。对于(b)，预定值可以取自例如10至100中的数值，一般来讲，预定值的数值越大表明基因分型的标准越严格，相应地，结果质量越高，但是可分型位点数会降低；预定值的数值越小表明基因分型的标准越宽松，相应地，结果质量会低，但是可分型位点数会升高。在本发明实施例中，预定值取值在20至30能够较好地平衡结果质量和可分型位点数。最优的是，预定值是30，能够在保证结果质量的前提下，尽可能地提升可分型位点数。

如图2所示，本发明整合多平台基因分型结果的方法的一个实施例的技术路线包括：

单倍型质量值AQ的定义，各基因分型平台AQ的计算方法，和AQ的整合方法及以上方法的计算机实现。由AQ定义和各基因分型平台的数据特征可以推导出各基因分型平台AQ的计算方法。将此方法应用到各基因分型平台的基因分型数据上，可得到各基因分型平台的各单倍型的AQ值(AQ(a，1)表示a单倍型在分型结果1上算得的AQ值，以此类推)。然后对各基因分型平台求得的AQ值应用AQ整合方法，可求得整合的基因型及其质量。

对应于本发明实施例的整合多平台基因分型结果的方法，本发明实施例还提供一种整合多平台基因分型结果的装置，如图3所示，包括：获取单元310，用于获取从各基因分型平台得到的单倍型质量值，其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；整合单元320，用于整合各基因分型平台得到的单倍型质量值，得到整合后的单倍型质量值；推断单元330，用于依据整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

此外，对应于本发明实施例的整合多平台基因分型结果的方法，本发明实施例还提供一种整合多平台基因分型结果的装置，包括数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括可执行的程序；处理器，与数据输入单元、数据输出单元及存储单元数据连接，用于执行可执行的程序，程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。

此外，本发明还提供一种计算机可读存储介质，用于存储供计算机执行的程序，程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。

本发明实施例的整合多平台基因分型结果的方法和装置，充分利用各基因分型平台分型结果的信息，尽量克服了不同平台结果不一致的问题和可信度不同的特征，使得在不牺牲结果质量的前提下，可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用，变异结果也更加全面。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例并不是限制性的，不能理解为对本发明保护范围的限制。

实施例1

本案例利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库CompleteGenomics(CG)测序数据和fosmid文库Hiseq测序数据，对人类样本YH(炎黄)基因组22号染色体上外显子及其上下游区域的基因型做了整合。并与全体一致法的结果做了比较。

1、单倍型质量值(AQ)的定义。在本实施例中，单倍型质量值定义为对给定位点，在给定观察值(即测序结果)的条件下，某单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10)。即，

式中，A表示一单倍型，G表示该位点的基因型，Obs表示观察值，L()表示似然。

2、各平台AQ的计算方法。利用贝叶斯公式，有

所以，

令AQ(A)可简写为：

Q(A)＝10log PRA+adjuSt

假设该倍点的倍性为n，总共有m+1个可能的单倍型。假定在每条染色体上，每个单倍型出现的概率相等。可得：

2.1小片段文库Hiseq测序数据

小片段文库Hiseq数据中包含了每个位点各可以基因型的PL值，其定义为：

PL(G)＝-10*log L(G|Obs)+const

利用贝叶斯公式

以及P(A∈G|Obs)＝∑_A∈GP(G|Obs)，

可得

忽略计算中的小项，有：

所以

2.2fosmid文库Hiseq测序数据

Fosmid文库Hiseq测序数据提供了在给定位点，某染色体(单倍体基因位)上各单倍型的质量值。

式中，GQ_a(A)表示在a这个单倍体基因位上，单倍型A的质量值。

某单倍型在该位点不出现，等价于该单倍型在此位点的所有单倍体基因位上都不出现：

式中，g为该位点的所有单倍体基因位的集合。

又代入化简并忽略小项，可得

当且仅当GQ_a(A)＞0时，a单倍体基因位上的基因型会鉴别为A(记作Geno(a)＝A)。同时，按惯例GQ_a(A)≤0时GQ_a(A)会被记作0。所以以上两种情况可合并记为：

从而有：

2.3小片段文库CG测序数据

对于CG数据，每个位点有RefScore信息来确定是否为变异。

当RefScore＞＞0时，位点的基因型确定为参考型(ref)，否则位点可能为变异。

当RefScore＞＞0时，对突变单倍型，AQ(A)<0，按惯例记作0。对参考型，

当RefScore＞＞0时，

对参考型，有所以

对于可能是变异的位点，CG数据提供了VAF信息来表示在每个单倍体基因位上给定单体型的质量值：其定义与fosmidHiseq数据中GQ_a(A)的定义类似。通过类似的推导，可得在可能是变异的位点，

3、整合单倍型质量值并推断位点基因型

假定我们有E个数据集，对每个数据集，我们都已算得了AQ⁽ⁱ⁾,i∈E。因为不同数据集间是独立的，我们有

亦即L(A∈G|ObS)＝∏_i∈EL(A∈G|Obs⁽ⁱ⁾)。所以

即整合的单倍型质量值等于各数据集单倍型质量值之和。

对于单倍体基因组，位点的基因型等于该位点上AQ最高的单倍型。

对于非单倍体基因组，位点的基因型等于该位点上高质量(在本例中取AQ>30)的单倍型的组合。各单倍型的比例按以下步骤确定：

1)计算各单倍型的出现次数。对于整合后的高质量单倍型，确定其在各数据集的基因型中是否出现，以及在几个单倍型基因位上出现。每在一个单倍型基因位上出现记为一次出现。

2)对单倍型出现次数做标准化。假设有m个高质量单倍型，每个单倍型的出现次数为k_i,i＝1,2,…,m。此位点的基因组倍性为n。则各位点出现的次数为了避免小数舍入误差，次数的取整以最大剩余法确定。即对于每个位点，先分配Int(n_i)(n_i的整数部分)个位置。对于剩下的r＝n-∑Int(n_i)个位置，按n_i的小数部分Res(n_i)从大到小排序，前r个单倍型再分配一个位置。

对于整合位点的基因型，其质量值等于在该基因型中出现的单倍型的最小质量值减去不在该基因型中出现的单倍型的最大质量值。即，

4、模型实现及结果评价

本发明对以上模型做了计算机程序实现，并在样本数据上进行了数据整合。为了验证模型的效果，本发明将本实施例中的方法(AQ法)与传统方法中的全体一致法的结果做了比较，并利用芯片分型平台验证了常见多态性位点的分型一致性。分析结果见下表1。

表1

从表1的比较结果可以看出，本方法可以完成的高质量分型位点数比传统方法多了50％以上，分型出的高质量突变位点数多了1倍以上，分型结果的准确性(以芯片验证一致率计)与传统方法相当。因此，本方法可以在基本不牺牲准确性的前提下，对更多的位点进行基因分型，提供更全面的基因分型结果。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种整合多平台基因分型结果的方法，其特征在于，所述方法包括：

获取从各基因分型平台得到的单倍型质量值，其中所述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；

整合所述各基因分型平台得到的所述单倍型质量值，得到整合后的单倍型质量值；

依据所述整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

2.根据权利要求1所述的整合多平台基因分型结果的方法，其特征在于，所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率，或者，该单倍型或单倍型排列/组合出现的极大似然估计。

3.根据权利要求1所述的整合多平台基因分型结果的方法，其特征在于，所述单倍型质量值，具体是指对给定位点，在给定测序结果的条件下，预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果；

相应地，所述整合所述各基因分型平台得到的所述单倍型质量值，具体是指加和所述各基因分型平台得到的所述单倍型质量值。

4.根据权利要求3所述的整合多平台基因分型结果的方法，其特征在于，对于单倍体基因组，所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型。

5.根据权利要求3所述的整合多平台基因分型结果的方法，其特征在于，对于非单倍体基因组，所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合；优选地，所述预定值是30。

6.一种整合多平台基因分型结果的装置，其特征在于，包括：

获取单元，用于获取从各基因分型平台得到的单倍型质量值，其中所述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值；

整合单元，用于整合所述各基因分型平台得到的所述单倍型质量值，得到整合后的单倍型质量值；

推断单元，用于依据所述整合后的单倍型质量值，推断预定位点的基因型，或推断预定位点是否包含特定的单倍型，或推断预定位点基因型或预定单倍型出现的可能性。

7.根据权利要求6所述的整合多平台基因分型结果的装置，其特征在于，所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率，或者，该单倍型或单倍型排列/组合出现的极大似然估计。

8.根据权利要求6所述的整合多平台基因分型结果的装置，其特征在于，所述单倍型质量值，具体是指对给定位点，在给定测序结果的条件下，预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果；

9.根据权利要求8所述的整合多平台基因分型结果的装置，其特征在于，对于单倍体基因组，所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型。

10.根据权利要求8所述的整合多平台基因分型结果的装置，其特征在于，对于非单倍体基因组，所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合；优选地，所述预定值是30。