CN108985009B - 一种获得基因单体型序列的方法及其应用 - Google Patents

一种获得基因单体型序列的方法及其应用 Download PDF

Info

Publication number
CN108985009B
CN108985009B CN201810992800.4A CN201810992800A CN108985009B CN 108985009 B CN108985009 B CN 108985009B CN 201810992800 A CN201810992800 A CN 201810992800A CN 108985009 B CN108985009 B CN 108985009B
Authority
CN
China
Prior art keywords
matrix
window
phase
sequence
temp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810992800.4A
Other languages
English (en)
Other versions
CN108985009A (zh
Inventor
郎娜
梁帆
杨旗
查建军
高玉梅
贺希文
汪德鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grandomics Biosciences Co ltd
Original Assignee
Grandomics Biosciences Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grandomics Biosciences Co ltd filed Critical Grandomics Biosciences Co ltd
Priority to CN201810992800.4A priority Critical patent/CN108985009B/zh
Publication of CN108985009A publication Critical patent/CN108985009A/zh
Application granted granted Critical
Publication of CN108985009B publication Critical patent/CN108985009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)

Abstract

本发明的一方面提供了一种获得基因单体型序列的方法,所述方法包括步骤:1)生成矩阵;2)分相,包括步骤:2.1)按窗口编码归一化矩阵;2.2)筛选杂合分相窗口;3)相位的确定;4)精细分相;5)矫正;6)基因分型。本发明的另一方面提供上述方法在基因分型中的应用。本发明的方法适合多态性高、重复序列复杂的序列,使用滑窗矫正分相,去除了比对多样性和错误率的影响,并使用循环迭代分相,达到一致性最高的分相结果。

Description

一种获得基因单体型序列的方法及其应用
技术领域
本发明属于生物信息学领域,具体涉及一种获得基因单体型序列的方法及其应用。
背景技术
目前获得单体型的方法,主要有家系分型、群体连锁不平衡分型、物理分型。
家系分型的过程,直观、简单、准确,不需要进行复杂的统计学计算。根据父母的特异位点,确定子代的杂合位点两种等位型哪个源于父亲,哪个源于母亲,是筛查母源性或父源性疾病的重要方法。但相比于只测子代的方法,家系分析分析需要额外测其亲本,增加了较多的成本。
群体连锁不平衡分型方法,是利用群体中大量无血缘关系的个体,依据基本的连锁不平衡遗传原理和相关模型,推断群体中每个个体单倍型的方法。该方法需要大量的计算,同时其精度受群体的制约,且不适用于个体特异性较强的变异。
物理定相、分型,由于每条下机数据必定来源于一个染色体,对于每一个测序片段而言,其本身就是一个单倍体的“局部”;二代测序片段较短,需要依赖较多的杂合位点进行拼接,从而接出完整的单体型。而三代测序序列足够长,在足够的深度下,可以有效排除测序错误的影响,达到个体的分相,从而获得准确的单体型。
目前可用于三代测序的获得基因单体型序列的方法有Maginphase法和LAA法。
Maginphase法经过samtools初步得到SNP,在此基础上再由whatshap采用最小路径法对SNP进行粗分相,然后在此基础上Maginphase采用隐马尔科夫模型,进一步分相。然而,Maginphase法有如下缺陷:
1、对于多态性特别高的区域不敏感;
2、单体型不精准,某些多态性位点易推断错误;
3、Maginphase对深度有要求,只能承受15x左右的计算量,对于错误率较高的情况,不能有效利用深度消除测序错误,降低了结果的准确性。
LAA(Long Amplicon Analysis软件)经过聚类,每个扩增子聚为一类(Cluster),然后用PageRank算法对Cluster的序列(subreads)进行排序;采用Arrow算法检测SNP和产生一致性序列。LAA法的缺陷是对于多态性特别高的序列,产生单体型易存在错误SNP。
发明内容
为了解决上述技术问题,本发明的一方面提供了一种获得基因单体型序列的方法,所述方法包括步骤:
1)生成矩阵
将基因测序原始数据进行CCS(Circular Consensus Sequencing)矫正,将得到的CCS序列与参考序列进行长序列比对,输出比对矩阵M,矫正纯合位点的深度小于5%的碱基,重新调整矩阵,形成粗矫正的矩阵M1;
2)分相,包括步骤:
2.1)按窗口编码归一化矩阵
编码M1,设置窗口长度与步长,每个窗口对应的矩阵横坐标为i、纵坐标为j,用w[i]表示该窗口,w[i,j]表示窗口中的每条序列对应的矩阵元素,窗口长度为win,步长为step;
窗口每滑动一步,调整当前窗口的矩阵元素,调整规则以w[i]内序列相同的行,转换为同一种比对矩阵,w[i]则形成一个新的矩阵m[i];
当前步长内的元素被确定,m[i]步长外的元素将继续进入下一个窗口继续调整;
整个扩增子经过一步一个窗口滑动,最终形成按照“步长和窗口”编码新的矩阵M2;
2.2)筛选杂合分相窗口
对于矩阵M2,其每一步的窗口w[i],若窗口内每条矩阵元素w[i,j]对应的同种序列类型深度之和,只有一种超过了总深度的5%,则取消该窗口参与分相的资格;
否则若有大于5%的两种或以上序列类型,则标记为用来分相的窗口w[i];下一个被标记的窗口,和该窗口无交集;若同时相邻的窗口被标记为H,则所有的这些窗口合并为一个新的窗口w_combine[i]将重新作为一个窗口进行调整,即w_combine[i]内序列相同的行,转换为同一种比对矩阵,形成一个新的矩阵m_combine[i];
被标记的杂合窗口w[i]、m_combine[i]形成了新的杂合矩阵H;
3)相位的确定
假设杂合矩阵H有n个被编码的窗口,矩阵的深度为d;
随后进行k轮循环分相:
随机选择k个小于d的数字,假设第t次随机选择了R,t∈random{1..k},R∈random{0..d},每个窗口的纵坐标为R的行,作为参考;每个窗口内均有两种最大深度的矩阵类型w[R,max,]、w[R,second,],这两种类型哪一种和参考的相似度高,将暂时归为一类phase_temp[1],另一种归为另一类phase_temp[2];窗口内每行根据与w[R,max,]、w[R,second,]的相似度划分类;
窗口内某行与phase_temp[1]、phase_temp[2]相似度P[i]等于相同碱基除以窗口长度,对于每一行计算最终属于phase_temp[1]、还是phase_temp[2]的得分,公式1以p代表类,p∈{phase_temp[1],phase_temp[2]},按照如下公式进行计算:
公式1:
Figure GDA0003214803380000021
循环进行k轮后,以第一轮的phase_temp[1]为phase[1],以第一轮的phase_temp[2]为phase[2],将每轮的类phase_temp[1]、phase_temp[2]进行定相,p∈{phase1,phase2},
公式2:
Figure GDA0003214803380000031
最终哪个相位的得分高,矩阵中该行reads归为得分最高的相位;
4)精细分相
对于定相后的矩阵,按照相位,分别拆分出两个新的矩阵;
新的矩阵采用步骤3)中所述方法,循环迭代进行,直到没有可用于分相的窗口;
跳出分相,得到多个一致性非常高的细分的矩阵;
5)矫正
细分的矩阵,进一步根据矩阵总深度矫正低深度比例的元素;
6)基因分型
合并矩阵,获得单体型序列;
所有的一致性序列均参与分型,得到每个型别的深度;当深度比例大于20或小于1/20,作为纯合子。
根据本发明的实施方式,所述步骤1)中的基因测序原始数据为三代基因测序原始数据。
进一步地,所述三代基因测序原始数据为Pacbio Sequel原始数据。
根据本发明的实施方式,所述步骤1)中的基因测序原始数据为HLA基因测序原始数据。
根据本发明的实施方式,所述参考序列为数据库中相对应的最长一条序列。
根据本发明的实施方式,所述步骤1)中的长序列比对所用软件为Blasr或Graphmap软件。
根据本发明的实施方式,所述步骤1)中比对矩阵M的组成元素为:A,T,C,G,*,.;
根据本发明的实施方式,所述步骤1)中形成矩阵M1的方法为:矫正纯合位点深度小于5%的碱基;重新调整矩阵,去除M中均为*的列。
本发明的另一方面提供上述方法在在基因分型中的应用。
根据本发明的实施方式,所述基因分型为在三代测序基因分型。
根据本发明的实施方式,所述基因分型为HLA基因分型。
有益效果
1、本方法可适合多态性高、重复序列复杂的序列;滑窗矫正分相,使序列真正的多态性彰显,去除了比对多样性和错误率的影响,从单体型的整体上权重相位。
2、随机选定多条序列分别作为参考,将随机错误率引起的杂合标签排除,达到精准的分相。
3、循环迭代分相排除尽可能多的原因,达到一致性最高的分相结果。
附图说明
图1为本发明基因分型算法流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例针对人类白细胞抗原(Human leukocyte antigen,HLA)基因进行三代单体型构建。
1、生成矩阵
Pacbio Sequel原始下机数据通过lima软件根据barcode拆分不同样品,并通过Circular Consensus Sequencing算法进行序列之间的矫正获得Circular ConsensusSequence(CCS)。将CCS与参考序列(针对每种HLA基因,从IPD-IMGT/HLA数据库中取一条最长序列作为参考序列)进行长序列Blasr或Graphmap软件比对,采用samtools软件的tview命令,输出文本格式的比对矩阵,用M表示。分型流程算法见图1。
比对矩阵的组成元素为6个:A,T,C,G,*,.。用t表示,t∈{A,T,C,G,*,.}。
矫正“纯合位点(只有一种m的深度大于5%)”的深度小于5%的碱基;重新调整矩阵,去除M中均为“*”的列,形成粗矫正的矩阵M1。
2、分相
2.1按窗口编码归一化矩阵
编码M1,设置窗口长度与步长,每个窗口对应的矩阵横坐标、纵坐标分别为(i,j),用w[i]表示该窗口,w[i,j]表示窗口中的每条序列对应的矩阵元素,窗口长度为win,步长为step。
窗口每滑动一步,调整当前窗口的矩阵元素,调整规则以w[i]内序列相同的行,转换为同一种比对矩阵,w[i]则形成一个新的矩阵m[i]。
m[i]当前步长内的元素被确定,m[i]步长外的元素将继续进入下一个窗口继续调整。
整个扩增子经过一步一个窗口滑动,最终形成按照“步长和窗口”编码新的矩阵M2。
2.2筛选杂合分相窗口
对于按照“步长和窗口”编码的矩阵M2,其每一步的窗口w[i],若窗口内每条矩阵元素w[i,j]对应的同种序列类型深度之和,只有一种超过了总深度的5%,则取消该窗口参与分相的资格。
否则若有大于5%的两种或以上序列类型,则标记为用来分相的窗口w[i];下一个被标记的窗口,和该窗口无交集。若同时相邻的窗口(上一个窗口的终点和下一个窗口的起点相邻)被标记为H,则所有的这些窗口合并为一个新的窗口w_combine[i]将重新作为一个窗口进行调整,即w_combine[i]内序列相同的行,转换为同一种比对矩阵,形成一个新的矩阵m_combine[i]。
被标记的杂合窗口w[i]、m_combine[i]形成了新的杂合矩阵H。
3、相位的确定
假设杂合矩阵H有n个被编码的窗口,矩阵的深度为d。
接下来将进行k轮循环分相。
随机选择k个小于d的数字,假设第t次随机选择了R,t∈random{1..k},R∈random{0..d},每个窗口的纵坐标为R的行,作为参考。每个窗口内均有两种最大深度的矩阵类型w[R,max,]、w[R,second,],这两种类型哪一种和参考的相似度高,将暂时归为一类phase_temp[1],另一种归为另一类phase_temp[2]。窗口内每行根据与w[R,max,]、w[R,second,]的相似度,划分类。
窗口内某行与phase_temp[1]、phase_temp[2]相似度等于“相同碱基/窗口长度”,完全一致时P=1。对于每一行计算最终属于phase_temp[1]、还是phase_temp[2]的得分,公式1以p
代表类,p∈{phase_temp[1],phase_temp[2]},按照如下进行计算:
公式1:
Figure GDA0003214803380000051
循环进行k轮后,以第一轮的phase_temp[1]为phase[1],以第一轮的phase_temp[2]为phase[2],将每轮的类phase_temp[1]、phase_temp[2]进行定相p∈{phase1,phase2},
公式2:
Figure GDA0003214803380000052
最终哪个相位的得分高,矩阵中该行reads归为得分最高的相位。
4、精细分相
对于定相后的矩阵,按照相位,分别拆分出两个新的矩阵。
新的矩阵采用以上方法,循环迭代进行,直到没有可用于分相的窗口。跳出分相,得到多个一致性非常高的细分的矩阵。
5、矫正
细分的矩阵,将进一步根据矩阵总深度矫正低深度比例的元素。
6、基因分型
最终合并矩阵,获得单体型序列。
所有的一致性序列均参与分型,得到每个型别的深度;当深度比例大于20或小于1/20,作为纯合子。
按照以上方法得到分型结果与一代分型结果进行核查,准确率98.43%。
分型结果见表1。
表1
Figure GDA0003214803380000061
Figure GDA0003214803380000071
Figure GDA0003214803380000081
Figure GDA0003214803380000091
Figure GDA0003214803380000092
Figure GDA0003214803380000101
Figure GDA0003214803380000111
Figure GDA0003214803380000121
Figure GDA0003214803380000131
Figure GDA0003214803380000141
Figure GDA0003214803380000151
Figure GDA0003214803380000161
Figure GDA0003214803380000171
Figure GDA0003214803380000181
Figure GDA0003214803380000191
Figure GDA0003214803380000201
Figure GDA0003214803380000211
Figure GDA0003214803380000221
Figure GDA0003214803380000231
Figure GDA0003214803380000241
Figure GDA0003214803380000251
Figure GDA0003214803380000261
Figure GDA0003214803380000271
Figure GDA0003214803380000281

Claims (11)

1.一种获得基因单体型序列的方法,所述方法包括步骤:
1)生成矩阵:
将基因测序原始数据进行CCS矫正,将得到的CCS序列与参考序列进行长序列比对,输出比对矩阵M,矫正纯合位点的深度小于5%的碱基,重新调整矩阵,形成粗矫正的矩阵M1;
2)分相,包括步骤:
2.1)按窗口编码归一化矩阵
编码M1,设置窗口长度与步长,每个窗口对应的矩阵横坐标为i、纵坐标为j,用w[i]表示该窗口,w[i,j]表示窗口中的每条序列对应的矩阵元素,窗口长度为win,步长为step;
窗口每滑动一步,调整当前窗口的矩阵元素,调整规则以w[i]内序列相同的行,转换为同一种比对矩阵,w[i]则形成一个新的矩阵m[i];
当前步长内的元素被确定,m[i]步长外的元素将继续进入下一个窗口继续调整;
整个扩增子经过一步一个窗口滑动,最终形成按照“步长和窗口”编码的新的矩阵M2;
2.2)筛选杂合分相窗口
对于矩阵M2,其每一步的窗口w[i],若窗口内每条矩阵元素w[i,j]对应的同种序列类型深度之和,只有一种超过了总深度的5%,则取消该窗口参与分相的资格;
否则若有大于5%的两种或以上序列类型,则标记为用来分相的窗口w[i]∈H;下一个被标记的窗口,和该窗口无交集;若同时相邻的窗口被标记为H,则所有的这些窗口合并为一个新的窗口w_combine[i]将重新作为一个窗口进行调整,即w_combine[i]内序列相同的行,转换为同一种比对矩阵,形成一个新的矩阵m_combine[i],m_combine[i]∈H;
被标记的杂合窗口形成了新的杂合矩阵H;
3)相位的确定:
假设杂合矩阵H由n个被编码的窗口,矩阵的深度为d;
随后进行k轮循环分相:
随机选择k个小于d的数字,假设第t次随机选择了R,t∈random{1..k},R∈random{0..d},每个窗口的纵坐标为R的行,作为参考;每个窗口内均有两种最大深度的矩阵类型w[R,max,]、w[R,second,],这两种类型哪一种和参考的相似度高,将暂时归为一类phase_temp[1],另一种归为另一类phase_temp[2];窗口内每行根据与w[R,max,]、w[R,second,]的相似度划分类;
窗口内任一行与phase_temp[1]、phase_temp[2]相似度等于相同碱基除以窗口长度,对于每一行计算最终属于phase_temp[1]、还是phase_temp[2]的得分,公式1以p代表类,p∈{phase_temp[1],phase_temp[2]},按照如下公式进行计算:
Figure FDA0003454615600000011
循环进行k轮后,以第一轮的phase_temp[1]为phase[1],以第一轮的phase_temp[2]为phase[2],将每轮的类phase_temp[1]、phase_temp[2]进行定相,p∈{phase1,phase2},
Figure FDA0003454615600000021
最终哪个相位的得分高,矩阵中该行reads则归为该相;
4)精细分相:
对于定相后的矩阵,按照相位,分别拆分出两个新的矩阵;
新的矩阵采用步骤3)中所述方法,循环迭代进行,直到没有可用于分相的窗口;
跳出分相,得到多个一致性非常高的细分的矩阵;
5)矫正:
细分的矩阵,进一步根据矩阵总深度矫正低深度比例的元素;
6)基因分型:
合并矩阵,获得单体型序列;
所有的一致性序列均参与分型,得到每个型别的深度;当深度比例大于20或小于1/20,作为纯合子。
2.根据权利要求1所述的一种获得基因单体型序列的方法,其中所述步骤1)中的基因测序原始数据为三代基因测序原始数据。
3.根据权利要求2所述的一种获得基因单体型序列的方法,其中所述三代基因测序原始数据为Pacbio Sequel原始数据。
4.根据权利要求1所述的一种获得基因单体型序列的方法,其中所述步骤1)中的基因测序原始数据为HLA基因测序原始数据。
5.根据权利要求1所述的一种获得基因单体型序列的方法,其中所述步骤1)中参考序列为数据库中相对应的最长一条序列。
6.根据权利要求1所述的一种获得基因单体型序列的方法,其中所述步骤1)中的长序列比对所用软件为Blasr或Graphmap软件。
7.根据权利要求1所述的一种获得基因单体型序列的方法,其中所述步骤1)中比对矩阵M的组成元素为:A,T,C,G,*,.。
8.根据权利要求7所述的一种获得基因单体型序列的方法,所述步骤1)中形成矩阵M1的方法为:
矫正纯合位点深度小于5%的碱基;
重新调整矩阵,去除M中均为*的列。
9.根据权利要求1所述的一种获得基因单体型序列的方法在基因分型中的应用。
10.根据权利要求9所述的应用,所述基因分型为在三代测序基因分型。
11.根据权利要求9所述的应用,所述基因分型为HLA基因分型。
CN201810992800.4A 2018-08-29 2018-08-29 一种获得基因单体型序列的方法及其应用 Active CN108985009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810992800.4A CN108985009B (zh) 2018-08-29 2018-08-29 一种获得基因单体型序列的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810992800.4A CN108985009B (zh) 2018-08-29 2018-08-29 一种获得基因单体型序列的方法及其应用

Publications (2)

Publication Number Publication Date
CN108985009A CN108985009A (zh) 2018-12-11
CN108985009B true CN108985009B (zh) 2022-06-07

Family

ID=64546822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810992800.4A Active CN108985009B (zh) 2018-08-29 2018-08-29 一种获得基因单体型序列的方法及其应用

Country Status (1)

Country Link
CN (1) CN108985009B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
CN105121661A (zh) * 2013-02-01 2015-12-02 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法
CN106480221A (zh) * 2016-12-19 2017-03-08 北京林业大学 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN107180166A (zh) * 2017-04-21 2017-09-19 北京希望组生物科技有限公司 一种基于三代测序的全基因组结构变异分析方法和系统
CN107208314A (zh) * 2015-01-06 2017-09-26 深圳华大基因研究院 一种单体型分型测序文库的构建方法、分型方法和试剂
CN108460246A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030165844A1 (en) * 2001-08-31 2003-09-04 Genaissance Pharmaceuticals, Inc. Haplotypes of the TNFRSF1A gene
US10847248B2 (en) * 2012-08-10 2020-11-24 The Board Of Trustees Of The Leland Stanford Junior University Techniques for determining haplotype by population genotype and sequence data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
CN105121661A (zh) * 2013-02-01 2015-12-02 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法
CN107208314A (zh) * 2015-01-06 2017-09-26 深圳华大基因研究院 一种单体型分型测序文库的构建方法、分型方法和试剂
CN106480221A (zh) * 2016-12-19 2017-03-08 北京林业大学 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN107180166A (zh) * 2017-04-21 2017-09-19 北京希望组生物科技有限公司 一种基于三代测序的全基因组结构变异分析方法和系统
CN108460246A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于三代测序平台的hla基因分型方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Haplotype tagging for the identification of common disease genes;Gillian C.L. Johnson 等;《nature genetics》;20011231;第29卷(第2期);第233-237页 *
Haploview与PHASE在单体型研究中的应用;黄萌 等;《福建医科大学学报》;20090731;第43卷(第4期);第310-313页 *
WinHAP: An Efficient Haplotype Phasing Algorithm Based on Scalable Sliding Windows;Yun Xu 等;《PLoS ONE》;20120831;第7卷(第8期);第1-8页 *
一种基于聚类的大规模单体分型算法;潘玮华 等;《计算机工程与科学》;20131130;第35卷(第11期);第27-33页 *
人类基因组单核苷酸多态性和单体型的分析及应用;李婧 等;《遗传学报》;20050831;第32卷(第8期);第879-889页 *
求解三倍体个体单体型重建问题的遗传算法;吴璟莉 等;《小型微型计算机系统》;20140430;第35卷(第4期);第840-844页 *

Also Published As

Publication number Publication date
CN108985009A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
DK2773954T3 (en) SYSTEMS AND PROCEDURES FOR GENOMIC ANNOTATION AND INTERPRETATION OF DISTRIBUTED VARIETIES
Hsieh et al. Whole-genome sequence analyses of Western Central African Pygmy hunter-gatherers reveal a complex demographic history and identify candidate genes under positive natural selection
Morris et al. Fine-scale mapping of disease loci via shattered coalescent modeling of genealogies
US20150154354A1 (en) Systems and Methods for Genomic Annotation and Distributed Variant Interpretation
US20160048634A1 (en) Systems and methods for genomic annotation and distributed variant interpretation
WO2020185725A1 (en) Methods and compositions for imputing or predicting genotype or phenotype
NZ759420A (en) Process for aligning targeted nucleic acid sequencing data
Halman et al. Accuracy of short tandem repeats genotyping tools in whole exome sequencing data
Patané et al. Phylogenomics
Ghirotto et al. No evidence of Neandertal admixture in the mitochondrial genomes of early European modern humans and contemporary Europeans
CN109993305B (zh) 基于大数据人工智能算法的祖源多态性预测方法
Käfer et al. Detecting sex-linked genes using genotyped individuals sampled in natural populations
US11342048B2 (en) Systems and methods for genomic annotation and distributed variant interpretation
Keele Which mouse multiparental population is right for your study? The Collaborative Cross inbred strains, their F1 hybrids, or the Diversity Outbred population
VanWallendael et al. Alignment‐free methods for polyploid genomes: quick and reliable genetic distance estimation
Masutani et al. Investigating the mitochondrial genomic landscape of Arabidopsis thaliana by long-read sequencing
CN108985009B (zh) 一种获得基因单体型序列的方法及其应用
Limpiti et al. iNJclust: iterative neighbor-joining tree clustering framework for inferring population structure
Souaiaia et al. ComB: SNP calling and mapping analysis for color and nucleotide space platforms
Cooke et al. Fine-tuning of approximate Bayesian computation for human population genomics
Brinza et al. 2SNP: scalable phasing method for trios and unrelated individuals
Stingo et al. A Bayesian approach to identify genes and gene-level SNP aggregates in a genetic analysis of cancer data
Zheng et al. A structural variation genotyping algorithm enhanced by CNV quantitative transfer
Desai Inferring Genomic Histories of Structured Populations: Lessons from the Hominids
Luo et al. Haplotype-phasing of long-read HiFi data to enhance structural variant detection through a Skip-Gram model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant