CN108241792A - 一种整合多平台基因分型结果的方法和装置 - Google Patents

一种整合多平台基因分型结果的方法和装置 Download PDF

Info

Publication number
CN108241792A
CN108241792A CN201611208172.3A CN201611208172A CN108241792A CN 108241792 A CN108241792 A CN 108241792A CN 201611208172 A CN201611208172 A CN 201611208172A CN 108241792 A CN108241792 A CN 108241792A
Authority
CN
China
Prior art keywords
haplotype
platform
site
mass value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611208172.3A
Other languages
English (en)
Other versions
CN108241792B (zh
Inventor
徐煜
高强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Qinglan Biotechnology Wuxi Co ltd
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201611208172.3A priority Critical patent/CN108241792B/zh
Publication of CN108241792A publication Critical patent/CN108241792A/zh
Application granted granted Critical
Publication of CN108241792B publication Critical patent/CN108241792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种整合多平台基因分型结果的方法和装置,该方法包括:获取从各基因分型平台得到的单倍型质量值,其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值;依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数显著提高。

Description

一种整合多平台基因分型结果的方法和装置
技术领域
本发明涉及生物信息学分析技术领域,尤其涉及一种整合多平台基因分型结果的方法和装置。
背景技术
基因分型技术是基因组信息的科学研究和产业应用的基础。目前基因分型技术主要包括单位点分型技术和DNA片段序列的分型技术,单位点分型技术按原理又可分为基于碱基配对技术的基因分型芯片和基于质谱的分型,DNA片段序列的分型技术则包括第一代阻断法测序、第二代合成法测序、以及目前发展中的第三代单分子测序。由于多种测序方法的技术原理和实施方案的不同,各技术手段和平台分型结果会出现一定程度的不一致性。
为了减少单一平台分型带来的偏差,通过多平台进行分型,然后整合分型结果成为一种可行的技术手段。相比于单一平台分型,多平台结果整合在理论上可以减少系统误差,提供更可靠的技术结果。这一技术方案目前被广泛应用在提供技术标准品上。
目前常用的基因分型结果整合方法包括全体一致法和多数投票法。全体一致法是指在一个给定的基因组位点,只有当多个平台分型结果完全一致时,才认定该位点的分型结果为此各平台一致的基因型,否则认定分型失败。多数投票法则较全体一致法更为宽松,它要求在给定位点,当多个平台分型结果中某一基因型出现的比例超过一定阀值时(一般要求80%),即可认定该位点为此基因型,否则认定分型失败。
全体一致法要求结果完全一致,会导致分型平台数量越多,结果之间完全一致的可能性越小,能分型出来的位点越少。对于平台间分型结果差异比较大的位点(如插失/缺失变异),多数投票法也存在此问题。
由于绝大多数物种为二倍体或多倍体,而现有测序技术单次都只能测到单倍体,并通过多次实验来覆盖所有的倍型。因而某一测序平台在分型结果中可能只体现了部分单倍型而非全部单倍型。以上信息并未在现有结果整合方法中得到具体的体现。此外,现有技术未能充分考虑各平台测序结果的质量,即可信度的问题,只是用一定的阀值做过滤,然后在数量上做分析合并。
发明内容
本发明提供一种整合多平台基因分型结果的方法和装置,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。
根据本发明的第一方面,本发明提供一种整合多平台基因分型结果的方法,包括:
获取从各基因分型平台得到的单倍型质量值,其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合上述各基因分型平台得到的上述单倍型质量值,得到整合后的单倍型质量值;
依据上述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
进一步地,上述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
进一步地,上述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,上述整合上述各基因分型平台得到的上述单倍型质量值,具体是指加和上述各基因分型平台得到的上述单倍型质量值。
进一步地,对于单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值最高的单倍型。
进一步地,对于非单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,上述预定值是30。
根据本发明的第二方面,本发明提供一种整合多平台基因分型结果的装置,包括:
获取单元,用于获取从各基因分型平台得到的单倍型质量值,其中上述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合单元,用于整合上述各基因分型平台得到的上述单倍型质量值,得到整合后的单倍型质量值;
推断单元,用于依据上述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
进一步地,上述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
进一步地,上述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,上述整合上述各基因分型平台得到的上述单倍型质量值,具体是指加和上述各基因分型平台得到的上述单倍型质量值。
进一步地,对于单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值最高的单倍型。
进一步地,对于非单倍体基因组,上述位点的基因型等于该位点上上述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,上述预定值是30。
根据本发明的第三方面,本发明提供一种整合多平台基因分型结果的装置,包括:
数据输入单元,用于输入数据;
数据输出单元,用于输出数据;
存储单元,用于存储数据,其中包括可执行的程序;
处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行上述可执行的程序,上述程序的执行包括完成如第一方面的方法。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,用于存储供计算机执行的程序,上述程序的执行包括完成如第一方面的方法。
本发明的整合多平台基因分型结果的方法,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用,变异结果也更加全面。
附图说明
图1为本发明整合多平台基因分型结果的方法的一个实施例的流程示意图;
图2为本发明整合多平台基因分型结果的方法的一个实施例的技术路线图;
图3为本发明整合多平台基因分型结果的装置的一个实施例的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
如图1所示,根据本发明的一个实施例,一种整合多平台基因分型结果的方法,包括如下步骤:
S110:获取从各基因分型平台得到的单倍型质量值(Allelic Quality,简称AQ),其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值。
基因分型平台在本发明中没有限制,可以是任何目前常用的基因分型平台,例如,利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库Complete Genomics(CG)测序数据和fosmid文库Hiseq测序数据进行基因分型的技术和平台。还包括未来开发的基因分型技术和平台。
本发明中,单倍型的含义,一般地可以指一条染色体上多个基因座上基因型的组合,也可以指一条染色体上的单个基因座上的(等位)基因型甚至单个碱基位点上的碱基型。例如,在本发明实施例中,单倍型主要是指单个碱基位点上的碱基型(单碱基突变,参考型),或数个连续的碱基位点上的碱基型(插入/缺失)。在本发明实施例中,单倍型更接近于“等位基因中的一个”这样一种概念,例如互为等位基因的A和a中的单倍型A。
S120:整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值。
整合各基因分型平台得到的单倍型质量值,也就是综合分析利用各基因分型平台得到的单倍型质量值。所谓“整合”在实现方式上,有各种不同的方法,可以通过不同的表达方式或数学思想来实现。一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的后验概率。所谓“后验概率”,是指在得到“结果”(例如特定的单倍型或单倍型排列/组合)的信息后重新修正的概率,如贝叶斯公式中的。是“执果寻因”问题中的“果”。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。另一种典型但非限定性的单倍型质量值是指该单倍型或单倍型排列/组合出现的极大似然估计。所谓“极大似然估计”,其原理的直观想法是:一个随机试验如有若干个可能的结果A、B、C…。若在仅仅作一次试验中,结果A(例如特定的单倍型或单倍型排列/组合)出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,theta),则theta的估计应该使上述概率达到最大,这样的theta顾名思义称为极大似然估计。当然,本发明的单倍型质量值,也包括上述后验概率或极大似然估计的数学变型,以及其它反映单倍型或单倍型排列/组合出现的可能性和确定程度的统计量。
在本发明的一个具体实施例中,单倍型质量值,具体是指对给定位点,在给定观察值(即测序结果)的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)。在此情况下,所谓“整合”是指“加和”各基因分型平台得到的单倍型质量值,也就是对各基因分型平台得到的单倍型质量值进行加和计算。
S130:依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
在单倍型质量值——具体是指对给定位点,在给定观察值(即测序结果)的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10的结果)——的情况下,(a)对于单倍体基因组,某位点的基因型等于该位点上整合后的单倍型质量值最高的单倍型;(b)对于非单倍体基因组,某位点的基因型等于该位点上整合后的单倍型质量值大于预定值的单倍型的组合。对于(b),预定值可以取自例如10至100中的数值,一般来讲,预定值的数值越大表明基因分型的标准越严格,相应地,结果质量越高,但是可分型位点数会降低;预定值的数值越小表明基因分型的标准越宽松,相应地,结果质量会低,但是可分型位点数会升高。在本发明实施例中,预定值取值在20至30能够较好地平衡结果质量和可分型位点数。最优的是,预定值是30,能够在保证结果质量的前提下,尽可能地提升可分型位点数。
如图2所示,本发明整合多平台基因分型结果的方法的一个实施例的技术路线包括:
单倍型质量值AQ的定义,各基因分型平台AQ的计算方法,和AQ的整合方法及以上方法的计算机实现。由AQ定义和各基因分型平台的数据特征可以推导出各基因分型平台AQ的计算方法。将此方法应用到各基因分型平台的基因分型数据上,可得到各基因分型平台的各单倍型的AQ值(AQ(a,1)表示a单倍型在分型结果1上算得的AQ值,以此类推)。然后对各基因分型平台求得的AQ值应用AQ整合方法,可求得整合的基因型及其质量。
对应于本发明实施例的整合多平台基因分型结果的方法,本发明实施例还提供一种整合多平台基因分型结果的装置,如图3所示,包括:获取单元310,用于获取从各基因分型平台得到的单倍型质量值,其中单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;整合单元320,用于整合各基因分型平台得到的单倍型质量值,得到整合后的单倍型质量值;推断单元330,用于依据整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
此外,对应于本发明实施例的整合多平台基因分型结果的方法,本发明实施例还提供一种整合多平台基因分型结果的装置,包括数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行可执行的程序,程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。
此外,本发明还提供一种计算机可读存储介质,用于存储供计算机执行的程序,程序的执行包括完成如本发明实施例的整合多平台基因分型结果的方法。
本发明实施例的整合多平台基因分型结果的方法和装置,充分利用各基因分型平台分型结果的信息,尽量克服了不同平台结果不一致的问题和可信度不同的特征,使得在不牺牲结果质量的前提下,可分型位点数得到显著提高。并且各基因分型平台结果得到了更充分的利用,变异结果也更加全面。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例并不是限制性的,不能理解为对本发明保护范围的限制。
实施例1
本案例利用全基因组小片段文库Hiseq测序数据、全基因组小片段文库CompleteGenomics(CG)测序数据和fosmid文库Hiseq测序数据,对人类样本YH(炎黄)基因组22号染色体上外显子及其上下游区域的基因型做了整合。并与全体一致法的结果做了比较。
1、单倍型质量值(AQ)的定义。在本实施例中,单倍型质量值定义为对给定位点,在给定观察值(即测序结果)的条件下,某单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比的phred度量(取常用对数再乘以-10)。即,
式中,A表示一单倍型,G表示该位点的基因型,Obs表示观察值,L()表示似然。
2、各平台AQ的计算方法。利用贝叶斯公式,有
所以,
AQ(A)可简写为:
Q(A)=10log PRA+adjuSt
假设该倍点的倍性为n,总共有m+1个可能的单倍型。假定在每条染色体上,每个单倍型出现的概率相等。可得:
2.1小片段文库Hiseq测序数据
小片段文库Hiseq数据中包含了每个位点各可以基因型的PL值,其定义为:
PL(G)=-10*log L(G|Obs)+const
利用贝叶斯公式
以及P(A∈G|Obs)=∑A∈GP(G|Obs),
可得
忽略计算中的小项,有:
所以
2.2fosmid文库Hiseq测序数据
Fosmid文库Hiseq测序数据提供了在给定位点,某染色体(单倍体基因位)上各单倍型的质量值。
式中,GQa(A)表示在a这个单倍体基因位上,单倍型A的质量值。
某单倍型在该位点不出现,等价于该单倍型在此位点的所有单倍体基因位上都不出现:
式中,g为该位点的所有单倍体基因位的集合。
代入化简并忽略小项,可得
当且仅当GQa(A)>0时,a单倍体基因位上的基因型会鉴别为A(记作Geno(a)=A)。同时,按惯例GQa(A)≤0时GQa(A)会被记作0。所以以上两种情况可合并记为:
从而有:
2.3小片段文库CG测序数据
对于CG数据,每个位点有RefScore信息来确定是否为变异。
当RefScore>>0时,位点的基因型确定为参考型(ref),否则位点可能为变异。
当RefScore>>0时,对突变单倍型,AQ(A)<0,按惯例记作0。对参考型,
当RefScore>>0时,
对参考型,有所以
对于可能是变异的位点,CG数据提供了VAF信息来表示在每个单倍体基因位上给定单体型的质量值:其定义与fosmidHiseq数据中GQa(A)的定义类似。通过类似的推导,可得在可能是变异的位点,
3、整合单倍型质量值并推断位点基因型
假定我们有E个数据集,对每个数据集,我们都已算得了AQ(i),i∈E。因为不同数据集间是独立的,我们有
亦即L(A∈G|ObS)=∏i∈EL(A∈G|Obs(i))。所以
即整合的单倍型质量值等于各数据集单倍型质量值之和。
对于单倍体基因组,位点的基因型等于该位点上AQ最高的单倍型。
对于非单倍体基因组,位点的基因型等于该位点上高质量(在本例中取AQ>30)的单倍型的组合。各单倍型的比例按以下步骤确定:
1)计算各单倍型的出现次数。对于整合后的高质量单倍型,确定其在各数据集的基因型中是否出现,以及在几个单倍型基因位上出现。每在一个单倍型基因位上出现记为一次出现。
2)对单倍型出现次数做标准化。假设有m个高质量单倍型,每个单倍型的出现次数为ki,i=1,2,…,m。此位点的基因组倍性为n。则各位点出现的次数为了避免小数舍入误差,次数的取整以最大剩余法确定。即对于每个位点,先分配Int(ni)(ni的整数部分)个位置。对于剩下的r=n-∑Int(ni)个位置,按ni的小数部分Res(ni)从大到小排序,前r个单倍型再分配一个位置。
对于整合位点的基因型,其质量值等于在该基因型中出现的单倍型的最小质量值减去不在该基因型中出现的单倍型的最大质量值。即,
4、模型实现及结果评价
本发明对以上模型做了计算机程序实现,并在样本数据上进行了数据整合。为了验证模型的效果,本发明将本实施例中的方法(AQ法)与传统方法中的全体一致法的结果做了比较,并利用芯片分型平台验证了常见多态性位点的分型一致性。分析结果见下表1。
表1
从表1的比较结果可以看出,本方法可以完成的高质量分型位点数比传统方法多了50%以上,分型出的高质量突变位点数多了1倍以上,分型结果的准确性(以芯片验证一致率计)与传统方法相当。因此,本方法可以在基本不牺牲准确性的前提下,对更多的位点进行基因分型,提供更全面的基因分型结果。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种整合多平台基因分型结果的方法,其特征在于,所述方法包括:
获取从各基因分型平台得到的单倍型质量值,其中所述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合所述各基因分型平台得到的所述单倍型质量值,得到整合后的单倍型质量值;
依据所述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
2.根据权利要求1所述的整合多平台基因分型结果的方法,其特征在于,所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
3.根据权利要求1所述的整合多平台基因分型结果的方法,其特征在于,所述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,所述整合所述各基因分型平台得到的所述单倍型质量值,具体是指加和所述各基因分型平台得到的所述单倍型质量值。
4.根据权利要求3所述的整合多平台基因分型结果的方法,其特征在于,对于单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型。
5.根据权利要求3所述的整合多平台基因分型结果的方法,其特征在于,对于非单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,所述预定值是30。
6.一种整合多平台基因分型结果的装置,其特征在于,包括:
获取单元,用于获取从各基因分型平台得到的单倍型质量值,其中所述单倍型质量值是指表示预定单倍型或单倍型排列/组合出现的可能性和/或确定程度的数值;
整合单元,用于整合所述各基因分型平台得到的所述单倍型质量值,得到整合后的单倍型质量值;
推断单元,用于依据所述整合后的单倍型质量值,推断预定位点的基因型,或推断预定位点是否包含特定的单倍型,或推断预定位点基因型或预定单倍型出现的可能性。
7.根据权利要求6所述的整合多平台基因分型结果的装置,其特征在于,所述单倍型质量值包括该单倍型或单倍型排列/组合出现的后验概率,或者,该单倍型或单倍型排列/组合出现的极大似然估计。
8.根据权利要求6所述的整合多平台基因分型结果的装置,其特征在于,所述单倍型质量值,具体是指对给定位点,在给定测序结果的条件下,预定单倍型在该位点不出现的似然值与该单倍型在该位点出现的似然值之比取常用对数再乘以-10的结果;
相应地,所述整合所述各基因分型平台得到的所述单倍型质量值,具体是指加和所述各基因分型平台得到的所述单倍型质量值。
9.根据权利要求8所述的整合多平台基因分型结果的装置,其特征在于,对于单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值最高的单倍型。
10.根据权利要求8所述的整合多平台基因分型结果的装置,其特征在于,对于非单倍体基因组,所述位点的基因型等于该位点上所述整合后的单倍型质量值大于预定值的单倍型的组合;优选地,所述预定值是30。
CN201611208172.3A 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置 Active CN108241792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611208172.3A CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611208172.3A CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Publications (2)

Publication Number Publication Date
CN108241792A true CN108241792A (zh) 2018-07-03
CN108241792B CN108241792B (zh) 2021-03-23

Family

ID=62703618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611208172.3A Active CN108241792B (zh) 2016-12-23 2016-12-23 一种整合多平台基因分型结果的方法和装置

Country Status (1)

Country Link
CN (1) CN108241792B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570908A (zh) * 2019-11-05 2019-12-13 南京医基云医疗数据研究院有限公司 测序序列多态识别方法及装置、存储介质、电子设备
CN111613269A (zh) * 2020-05-19 2020-09-01 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192018A (ja) * 2002-10-16 2004-07-08 Japan Biological Informatics Consortium Dnaプールによるハプロタイプ頻度推定方法
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
WO2010120800A1 (en) * 2009-04-13 2010-10-21 Canon U.S. Life Sciences, Inc. A rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN101984445A (zh) * 2010-03-04 2011-03-09 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
US20140156605A1 (en) * 2008-08-26 2014-06-05 23Andme, Inc. Processing data from genotyping chips
CN104508144A (zh) * 2012-07-18 2015-04-08 伊鲁米纳剑桥有限公司 用于确定单倍型和定相单倍型的方法和系统
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192018A (ja) * 2002-10-16 2004-07-08 Japan Biological Informatics Consortium Dnaプールによるハプロタイプ頻度推定方法
US20140156605A1 (en) * 2008-08-26 2014-06-05 23Andme, Inc. Processing data from genotyping chips
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
WO2010120800A1 (en) * 2009-04-13 2010-10-21 Canon U.S. Life Sciences, Inc. A rapid method of pattern recognition, machine learning, and automated genotype classification through correlation analysis of dynamic signals
CN101984445A (zh) * 2010-03-04 2011-03-09 深圳华大基因科技有限公司 一种基于聚合酶链式反应产物测序序列分型的实现方法和系统
CN104508144A (zh) * 2012-07-18 2015-04-08 伊鲁米纳剑桥有限公司 用于确定单倍型和定相单倍型的方法和系统
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HUGO Y K LAM1 ET AL.: "Performance comparison of whole-genome sequencing", 《NATURE BIOTECHNOLOGY》 *
QIAN XU ET AL: "Multi-platform gene-expression mining and marker gene analysis", 《INTERNATIONAL JOURNAL OF DATA MINING AND BIOINFORMATICS》 *
尹帅等: "一种改进的JIPDA多目标跟踪算法", 《雷达科学与技术》 *
张力文等: "维吾尔语语音检索技术研究", 《中文信息学报》 *
张园: "多平台基因芯片数据整合方法改进", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
朱益民等: "复杂性疾病遗传研究中Tag SNP的筛选及其潜在功能预测", 《浙江大学学报(医学版)》 *
林政等: "基于情感关键句抽取的情感分类研究", 《计算机研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570908A (zh) * 2019-11-05 2019-12-13 南京医基云医疗数据研究院有限公司 测序序列多态识别方法及装置、存储介质、电子设备
CN110570908B (zh) * 2019-11-05 2020-03-27 南京医基云医疗数据研究院有限公司 测序序列多态识别方法及装置、存储介质、电子设备
CN111613269A (zh) * 2020-05-19 2020-09-01 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法
CN111613269B (zh) * 2020-05-19 2024-01-05 苏州大学附属第一医院 一种预测hla相合机率及错配类型的方法

Also Published As

Publication number Publication date
CN108241792B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
US9916416B2 (en) System and method for genotyping using informed error profiles
US10790041B2 (en) Method for analyzing and displaying genetic information between family members
Kelkar et al. A matter of life or death: how microsatellites emerge in and vanish from the human genome
Lunter et al. Stampy: a statistical algorithm for sensitive and fast mapping of Illumina sequence reads
US11854666B2 (en) Noninvasive prenatal screening using dynamic iterative depth optimization
Hartfield et al. Limits to adaptation in partially selfing species
US11842794B2 (en) Variant calling in single molecule sequencing using a convolutional neural network
JP2014534507A5 (zh)
KR20180116309A (ko) 비정상적인 핵형을 검출하기 위한 방법 및 시스템
Santoni et al. Simultaneous identification and prioritization of variants in familial, de novo, and somatic genetic disorders with VariantMaster
US20140088942A1 (en) Molecular genetic diagnostic system
Curtis et al. Use of an artificial neural network to detect association between a disease and multiple marker genotypes
Vandin Computational methods for characterizing cancer mutational heterogeneity
CN108241792A (zh) 一种整合多平台基因分型结果的方法和装置
Witt et al. Apportioning archaic variants among modern populations
Özbek et al. Statistics for X‐chromosome associations
Fokstuen et al. Noninvasive prenatal diagnosis of Mendelian disorders for consanguineous couples by relative genotype dosage
Balan et al. Score test for association between recurrent events and a terminal event
Mao et al. Testing genetic association with rare variants in admixed populations
CN112017731B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
Chien et al. Region‐based association tests for sequencing data on survival traits
Wählby et al. Evaluation of type I error rates when modeling ordered categorical data in NONMEM
US20190214110A1 (en) Detection of insufficient homology regions in a reference sequence
Hsu et al. Complete genomic profiles of 1496 Taiwanese reveal curated medical insights
Cinar et al. A Comparison of Methods for Gene-Based Testing That Account for Linkage Disequilibrium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221208

Address after: No. 128, Hengtong Road, huankeyuan, Yixing, Wuxi, Jiangsu, 214205

Patentee after: Huada Qinglan Biotechnology (Wuxi) Co.,Ltd.

Patentee after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: 518083 science and Technology Pioneer Park 201, Beishan Industrial Park, Yantian District, Shenzhen City, Guangdong Province

Patentee before: BGI TECH SOLUTIONS Co.,Ltd.