CN108241792B - 一种整合多平台基因分型结果的方法和装置 - Google Patents

一种整合多平台基因分型结果的方法和装置 Download PDF

Info

Publication number
CN108241792B
CN108241792B CN201611208172.3A CN201611208172A CN108241792B CN 108241792 B CN108241792 B CN 108241792B CN 201611208172 A CN201611208172 A CN 201611208172A CN 108241792 B CN108241792 B CN 108241792B
Authority
CN
China
Prior art keywords
haplotype
locus
genotyping
predetermined
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611208172.3A
Other languages
English (en)
Other versions
CN108241792A (zh
Inventor
徐煜
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Qinglan Biotechnology Wuxi Co ltd
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201611208172.3A priority Critical patent/CN108241792B/zh
Publication of CN108241792A publication Critical patent/CN108241792A/zh
Application granted granted Critical
Publication of CN108241792B publication Critical patent/CN108241792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种整合多平台基因分型结果的方法和装置,该方法包括:获取从各基因分型平台得到的单倍型质量值,其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值;依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数显著提高。

Description

一种整合多平台基因分型结果的方法和装置
技术领域
本发明涉及生物信息学分析技术领域,尤其涉及一种整合多平台基因分型结果的方法和装置。
背景技术
基因分型技术是基因组信息的科学研究和产业应用的基础。目前基因分型技术主要包括单位点分型技术和DNA片段序列的分型技术,单位点分型技术按原理又可分为基于碱基配对技术的基因分型芯片和基于质谱的分型,DNA片段序列的分型技术则包括第一代阻断法测序、第二代合成法测序、以及目前发展中的第三代单分子测序。由于多种测序方法的技术原理和实施方案的不同,各技术手段和平台分型结果会出现一定程度的不一致性。
为了减少单一平台分型带来的偏差,通过多平台进行分型,然后整合分型结果成为一种可行的技术手段。相比于单一平台分型,多平台结果整合在理论上可以减少系统误差,提供更可靠的技术结果。这一技术方案目前被广泛应用在提供技术标准品上。
目前常用的基因分型结果整合方法包括全体一致法和多数投票法。全体一致法是指在一个给定的基因组位点,只有当多个平台分型结果完全一致时,才认定该位点的分型结果为此各平台一致的基因型,否则认定分型失败。多数投票法则较全体一致法更为宽松,它要求在给定位点,当多个平台分型结果中某一基因型出现的比例超过一定阀值时(一般要求80%),即可认定该位点为此基因型,否则认定分型失败。
全体一致法要求结果完全一致,会导致分型平台数量越多,结果之间完全一致的可能性越小,能分型出来的位点越少。对于平台间分型结果差异比较大的位点(如插失/缺失变异),多数投票法也存在此问题。
由于绝大多数物种为二倍体或多倍体,而现有测序技术单次都只能测到单倍体,并通过多次实验来覆盖所有的倍型。因而某一测序平台在分型结果中可能只体现了部分单倍型而非全部单倍型。以上信息并未在现有结果整合方法中得到具体的体现。此外,现有技术未能充分考虑各平台测序结果的质量,即可信度的问题,只是用一定的阀值做过滤,然后在数量上做分析合并。
发明内容
本发明提供一种整合多平台基因分型结果的方法和装置,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。
根据本发明的第一方面,本发明提供一种整合多平台基因分型结果的方法,包括:
获取从各基因分型平台得到的单倍型质量值,其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合上述各基因分型平台得到的上述单倍型质量值,得到整合后的单倍型质量值;
依据上述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
进一步地,上述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
进一步地,上述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,上述整合上述各基因分型平台得到的上述单倍型质量值,具体是指加和上述各基因分型平台得到的上述单倍型质量值。
进一步地,对于单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值最高的单倍型。
进一步地,对于非单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,上述预定值是30。
根据本发明的第二方面,本发明提供一种整合多平台基因分型结果的装置,包括:
获取单元,用于获取从各基因分型平台得到的单倍型质量值,其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合单元,用于整合上述各基因分型平台得到的上述单倍型质量值,得到整合后的单倍型质量值;
推断单元,用于依据上述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
进一步地,上述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
进一步地,上述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,上述整合上述各基因分型平台得到的上述单倍型质量值,具体是指加和上述各基因分型平台得到的上述单倍型质量值。
进一步地,对于单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值最高的单倍型。
进一步地,对于非单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,上述预定值是30。
根据本发明的第三方面,本发明提供一种整合多平台基因分型结果的装置,包括:
数据输入单元,用于输入数据;
数据输出单元,用于输出数据;
存储单元,用于存储数据,其中包括可执行的程序;
处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行上述可执行的程序,上述程序的执行包括完成如第一方面的方法。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,用于存储供计算机执行的程序,上述程序的执行包括完成如第一方面的方法。
本发明的整合多平台基因分型结果的方法,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用,变异结果也更加全面。
附图说明
图1为本发明整合多平台基因分型结果的方法的一个实施例的流程示意图;
图2为本发明整合多平台基因分型结果的方法的一个实施例的技术路线图;
图3为本发明整合多平台基因分型结果的装置的一个实施例的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
如图1所示,根据本发明的一个实施例,一种整合多平台基因分型结果的方法,包括如下步骤:
S110:获取从各基因分型平台得到的单倍型质量值(Allelic Quality,简称AQ),其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值。
基因分型平台在本发明中没有限制,可以是任何目前常用的基因分型平台,例如,利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库Complete Genomics(CG)测序数据和fosmid文库Hiseq测序数据进行基因分型的技术和平台。还包括未来开发的基因分型技术和平台。
本发明中,单倍型的含义,一般地可以指一条染色体上多个基因座上基因型的组合,也可以指一条染色体上的单个基因座上的(等位)基因型甚至单个碱基位点上的碱基型。例如,在本发明实施例中,单倍型主要是指单个碱基位点上的碱基型(单碱基突变,参考型),或数个连续的碱基位点上的碱基型(插入/缺失)。在本发明实施例中,单倍型更接近于“等位基因中的一个”这样一种概念,例如互为等位基因的A和a中的单倍型A。
S120:整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值。
整合各基因分型平台得到的单倍型质量值,也就是综合分析利用各基因分型平台得到的单倍型质量值。所谓“整合”在实现方式上,有各种不同的方法,可以通过不同的表达方式或数学思想来实现。一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的后验概率。所谓“后验概率”,是指在得到“结果”(例如特定的单倍型或单倍型排列/组合)的信息后重新修正的概率,如贝叶斯公式中的。是“执果寻因”问题中的“果”。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。另一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的极大似然估计。所谓“极大似然估计”,其原理的直观想法是:一个随机试验如有若干个可能的结果A、B、C…。若在仅仅作一次试验中,结果A(例如特定的单倍型或单倍型排列/组合)出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,theta),则theta的估计应该使上述概率达到最大,这样的theta顾名思义称为极大似然估计。当然,本发明的单倍型质量值,也包括上述后验概率或极大似然估计的数学变型,以及其它反映单倍型或单倍型排列/组合出现的可能性和确定程度的统计量。
在本发明的一个具体实施例中,单倍型质量值,具体是指对给定位点,在给定观察值(即测序结果)的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)。在此情况下,所谓“整合”是指“加和”各基因分型平台得到的单倍型质量值,也就是对各基因分型平台得到的单倍型质量值进行加和计算。
S130:依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
在单倍型质量值——具体是指对给定位点,在给定观察值(即测序结果)的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)——的情况下,(a)对于单倍体基因组,某位点的基因型等于该位点上整合后的单倍型质量值最高的单倍型;(b)对于非单倍体基因组,某位点的基因型等于该位点上整合后的单倍型质量值大于预定值的单倍型的组合。对于(b),预定值可以取自例如10至100中的数值,一般来讲,预定值的数值越大表明基因分型的标准越严格,相应地,结果质量越高,但是可分型位点数会降低;预定值的数值越小表明基因分型的标准越宽松,相应地,结果质量会低,但是可分型位点数会升高。在本发明实施例中,预定值取值在20至30能够较好地平衡结果质量和可分型位点数。最优的是,预定值是30,能够在保证结果质量的前提下,尽可能地提升可分型位点数。
如图2所示,本发明整合多平台基因分型结果的方法的一个实施例的技术路线包括:
单倍型质量值AQ的定义,各基因分型平台AQ的计算方法,和AQ的整合方法及以上方法的计算机实现。由AQ定义和各基因分型平台的数据特征可以推导出各基因分型平台AQ的计算方法。将此方法应用到各基因分型平台的基因分型数据上,可得到各基因分型平台的各单倍型的AQ值(AQ(a,1)表示a单倍型在分型结果1上算得的AQ值,以此类推)。然后对各基因分型平台求得的AQ值应用AQ整合方法,可求得整合的基因型及其质量。
对应于本发明实施例的整合多平台基因分型结果的方法,本发明实施例还提供一种整合多平台基因分型结果的装置,如图3所示,包括:获取单元310,用于获取从各基因分型平台得到的单倍型质量值,其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;整合单元320,用于整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值;推断单元330,用于依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
此外,对应于本发明实施例的整合多平台基因分型结果的方法,本发明实施例还提供一种整合多平台基因分型结果的装置,包括数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行可执行的程序,程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。
此外,本发明还提供一种计算机可读存储介质,用于存储供计算机执行的程序,程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。
本发明实施例的整合多平台基因分型结果的方法和装置,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用,变异结果也更加全面。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例并不是限制性的,不能理解为对本发明保护范围的限制。
实施例1
本案例利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库CompleteGenomics(CG)测序数据和fosmid文库Hiseq测序数据,对人类样本YH(炎黄)基因组22号染色体上外显子及其上下游区域的基因型做了整合。并与全体一致法的结果做了比较。
1、单倍型质量值(AQ)的定义。在本实施例中,单倍型质量值定义为对给定位点,在给定观察值(即测序结果)的条件下,某单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10)。即,
Figure BDA0001190428530000081
式中,A表示一单倍型,G表示该位点的基因型,Obs表示观察值,L()表示似然。
2、各平台AQ的计算方法。利用贝叶斯公式,有
Figure BDA0001190428530000082
Figure BDA0001190428530000083
所以,
Figure BDA0001190428530000091
Figure BDA0001190428530000092
AQ(A)可简写为:
Q(A)=10log PRA+adjuSt
假设该倍点的倍性为n,总共有m+1个可能的单倍型。假定在每条染色体上,每个单倍型出现的概率相等。可得:
Figure BDA0001190428530000093
2.1小片段文库Hiseq测序数据
小片段文库Hiseq数据中包含了每个位点各可以基因型的PL值,其定义为:
PL(G)=-10*log L(G|Obs)+const
利用贝叶斯公式
Figure BDA0001190428530000094
以及P(A∈G|Obs)=∑A∈GP(G|Obs),
可得
Figure BDA0001190428530000095
忽略计算中的小项,有:
Figure BDA0001190428530000096
所以
Figure BDA0001190428530000098
2.2fosmid文库Hiseq测序数据
Fosmid文库Hiseq测序数据提供了在给定位点,某染色体(单倍体基因位)上各单倍型的质量值。
Figure BDA0001190428530000097
式中,GQa(A)表示在a这个单倍体基因位上,单倍型A的质量值。
某单倍型在该位点不出现,等价于该单倍型在此位点的所有单倍体基因位上都不出现:
Figure BDA0001190428530000101
式中,g为该位点的所有单倍体基因位的集合。
Figure BDA0001190428530000102
代入化简并忽略小项,可得
Figure BDA0001190428530000103
当且仅当GQa(A)>0时,a单倍体基因位上的基因型会鉴别为A(记作Geno(a)=A)。同时,按惯例GQa(A)≤0时GQa(A)会被记作0。所以以上两种情况可合并记为:
Figure BDA0001190428530000104
从而有:
Figure BDA0001190428530000105
2.3小片段文库CG测序数据
对于CG数据,每个位点有RefScore信息来确定是否为变异。
Figure BDA0001190428530000106
当RefScore>>0时,位点的基因型确定为参考型(ref),否则位点可能为变异。
当RefScore>>0时,对突变单倍型,AQ(A)<0,按惯例记作0。对参考型,
Figure BDA0001190428530000107
Figure BDA0001190428530000111
当RefScore>>0时,
Figure BDA0001190428530000112
对参考型,有
Figure BDA0001190428530000113
所以
Figure BDA0001190428530000114
对于可能是变异的位点,CG数据提供了VAF信息来表示在每个单倍体基因位上给定单体型的质量值:
Figure BDA0001190428530000115
其定义与fosmidHiseq数据中GQa(A)的定义类似。通过类似的推导,可得在可能是变异的位点,
Figure BDA0001190428530000116
3、整合单倍型质量值并推断位点基因型
假定我们有E个数据集,对每个数据集,我们都已算得了AQ(i),i∈E。因为不同数据集间是独立的,我们有
Figure BDA0001190428530000117
亦即L(A∈G|ObS)=∏i∈EL(A∈G|Obs(i))。所以
Figure BDA0001190428530000118
即整合的单倍型质量值等于各数据集单倍型质量值之和。
对于单倍体基因组,位点的基因型等于该位点上AQ最高的单倍型。
对于非单倍体基因组,位点的基因型等于该位点上高质量(在本例中取AQ>30)的单倍型的组合。各单倍型的比例按以下步骤确定:
1)计算各单倍型的出现次数。对于整合后的高质量单倍型,确定其在各数据集的基因型中是否出现,以及在几个单倍型基因位上出现。每在一个单倍型基因位上出现记为一次出现。
2)对单倍型出现次数做标准化。假设有m个高质量单倍型,每个单倍型的出现次数为ki,i=1,2,…,m。此位点的基因组倍性为n。则各位点出现的次数
Figure BDA0001190428530000121
为了避免小数舍入误差,次数的取整以最大剩余法确定。即对于每个位点,先分配Int(ni)(ni的整数部分)个位置。对于剩下的r=n-∑Int(ni)个位置,按ni的小数部分Res(ni)从大到小排序,前r个单倍型再分配一个位置。
对于整合位点的基因型,其质量值等于在该基因型中出现的单倍型的最小质量值减去不在该基因型中出现的单倍型的最大质量值。即,
Figure BDA0001190428530000123
Figure BDA0001190428530000124
4、模型实现及结果评价
本发明对以上模型做了计算机程序实现,并在样本数据上进行了数据整合。为了验证模型的效果,本发明将本实施例中的方法(AQ法)与传统方法中的全体一致法的结果做了比较,并利用芯片分型平台验证了常见多态性位点的分型一致性。分析结果见下表1。
表1
Figure BDA0001190428530000122
Figure BDA0001190428530000131
从表1的比较结果可以看出,本方法可以完成的高质量分型位点数比传统方法多了50%以上,分型出的高质量突变位点数多了1倍以上,分型结果的准确性(以芯片验证一致率计)与传统方法相当。因此,本方法可以在基本不牺牲准确性的前提下,对更多的位点进行基因分型,提供更全面的基因分型结果。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种整合多平台基因分型结果的方法,其特征在于,所述方法包括:
获取从各基因分型平台得到的单倍型质量值;
整合所述各基因分型平台得到的所述单倍型质量值,得到整合后的单倍型质量值;
依据所述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性;
当所述单倍型质量值,是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果时,所述整合所述各基因分型平台得到的所述单倍型质量值是指加和所述各基因分型平台得到的所述单倍型质量值,对于单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型;对于非单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合。
2.根据权利要求1所述的整合多平台基因分型结果的方法,其特征在于,所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率。
3.根据权利要求1所述的整合多平台基因分型结果的方法,其特征在于,所述预定值是30。
4.一种整合多平台基因分型结果的装置,其特征在于,包括:
获取单元,用于获取从各基因分型平台得到的单倍型质量值;
整合单元,用于整合所述各基因分型平台得到的所述单倍型质量值,得到整合后的单倍型质量值;
推断单元,用于依据所述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性;
当所述单倍型质量值,是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果时,所述整合所述各基因分型平台得到的所述单倍型质量值是指加和所述各基因分型平台得到的所述单倍型质量值,对于单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型;对于非单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合。
5.根据权利要求4所述的整合多平台基因分型结果的装置,其特征在于,所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率。
6.根据权利要求4所述的整合多平台基因分型结果的装置,其特征在于,所述预定值是30。
CN201611208172.3A 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置 Active CN108241792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611208172.3A CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611208172.3A CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Publications (2)

Publication Number Publication Date
CN108241792A CN108241792A (zh) 2018-07-03
CN108241792B true CN108241792B (zh) 2021-03-23

Family

ID=62703618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611208172.3A Active CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Country Status (1)

Country Link
CN (1) CN108241792B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570908B (zh) * 2019-11-05 2020-03-27 南京医基云医疗数据研究院有限公司 测序序列多态识别方法及装置、存储介质、电子设备
CN111613269B (zh) * 2020-05-19 2024-01-05 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120800A1 (en) * 2009-04-13 2010-10-21 Canon U.S. Life Sciences, Inc. A rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192018A (ja) * 2002-10-16 2004-07-08 Japan Biological Informatics Consortium Dnaプールによるハプロタイプ頻度推定方法
US9218451B2 (en) * 2008-08-26 2015-12-22 23Andme, Inc. Processing data from genotyping chips
CN101539967B (zh) * 2008-12-12 2010-12-01 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN101984445B (zh) * 2010-03-04 2012-03-14 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
US9977861B2 (en) * 2012-07-18 2018-05-22 Illumina Cambridge Limited Methods and systems for determining haplotypes and phasing of haplotypes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010120800A1 (en) * 2009-04-13 2010-10-21 Canon U.S. Life Sciences, Inc. A rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-platform gene-expression mining and marker gene analysis;Qian Xu et al;《International Journal of Data Mining and Bioinformatics》;20111231;第485-503页 *
复杂性疾病遗传研究中Tag SNP的筛选及其潜在功能预测;朱益民等;《浙江大学学报(医学版)》;20110630;第40卷(第3期);第237-244页 *

Also Published As

Publication number Publication date
CN108241792A (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
Günther et al. The presence and impact of reference bias on population genomic studies of prehistoric human populations
Kao et al. ECHO: a reference-free short-read error correction algorithm
Korneliussen et al. ANGSD: analysis of next generation sequencing data
Stram et al. Modeling and EM estimation of haplotype-specific relative risks from genotype data for a case-control study of unrelated individuals
Hamazaki et al. RAINBOW: Haplotype-based genome-wide association study using a novel SNP-set method
Gompert et al. bgc: Software for Bayesian estimation of genomic clines
US9218451B2 (en) Processing data from genotyping chips
US8428886B2 (en) Genotype calling
Chi et al. Genotype imputation via matrix completion
Oualkacha et al. Adjusted sequence kernel association test for rare variants controlling for cryptic and family relatedness
Chiaromonte et al. The share of human genomic DNA under selection estimated from human–mouse genomic alignments
Dickhaus et al. How to analyze many contingency tables simultaneously in genetic association studies
Mendes et al. A multispecies coalescent model for quantitative traits
Chen et al. Genotype calling and haplotyping in parent-offspring trios
Li et al. Single nucleotide polymorphism (SNP) detection and genotype calling from massively parallel sequencing (MPS) data
CN108491691B (zh) 亲缘关系鉴定方法及终端设备
CN108241792B (zh) 一种整合多平台基因分型结果的方法和装置
CN106529211A (zh) 变异位点的获取方法及装置
CN111583998A (zh) 一种考虑拷贝数变异因素的基因组结构变异分型方法
Bisschop et al. Sweeps in time: leveraging the joint distribution of branch lengths
Gaynor et al. nQuack: An R package for predicting ploidal level from sequence data using site‐based heterozygosity
Liu et al. Analyzing association mapping in pedigree‐based GWAS using a penalized multitrait mixed model
Hejase et al. Mapping the genomic architecture of adaptive traits with interspecific introgressive origin: a coalescent-based approach
Venkatesaramani et al. Enabling tradeoffs in privacy and utility in genomic data Beacons and summary statistics
CN112017731B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221208

Address after: No. 128, Hengtong Road, huankeyuan, Yixing, Wuxi, Jiangsu, 214205

Patentee after: Huada Qinglan Biotechnology (Wuxi) Co.,Ltd.

Patentee after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: 518083 science and Technology Pioneer Park 201, Beishan Industrial Park, Yantian District, Shenzhen City, Guangdong Province

Patentee before: BGI TECH SOLUTIONS Co.,Ltd.

TR01 Transfer of patent right