CN111816248B - 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 - Google Patents
一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 Download PDFInfo
- Publication number
- CN111816248B CN111816248B CN202010441252.3A CN202010441252A CN111816248B CN 111816248 B CN111816248 B CN 111816248B CN 202010441252 A CN202010441252 A CN 202010441252A CN 111816248 B CN111816248 B CN 111816248B
- Authority
- CN
- China
- Prior art keywords
- genome
- pacbio
- snp
- sequencing
- typing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012163 sequencing technique Methods 0.000 claims abstract description 34
- 210000000349 chromosome Anatomy 0.000 claims abstract description 17
- 239000000178 monomer Substances 0.000 claims abstract description 17
- 238000004043 dyeing Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 7
- 230000035772 mutation Effects 0.000 claims description 5
- 102000054766 genetic haplotypes Human genes 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 3
- 108090000790 Enzymes Proteins 0.000 abstract description 2
- 102000004190 Enzymes Human genes 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 11
- 241000196324 Embryophyta Species 0.000 description 8
- 108090000623 proteins and genes Proteins 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 241000894007 species Species 0.000 description 5
- 108091060290 Chromatid Proteins 0.000 description 4
- 241000219000 Populus Species 0.000 description 4
- 210000004756 chromatid Anatomy 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 208000020584 Polyploidy Diseases 0.000 description 2
- 241000218982 Populus nigra Species 0.000 description 2
- 241000268761 Populus simonii x Populus nigra Species 0.000 description 2
- 241000183024 Populus tremula Species 0.000 description 2
- 201000010769 Prader-Willi syndrome Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 241000256118 Aedes aegypti Species 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 208000009575 Angelman syndrome Diseases 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 240000005979 Hordeum vulgare Species 0.000 description 1
- 235000007340 Hordeum vulgare Nutrition 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241000218978 Populus deltoides Species 0.000 description 1
- 241001278112 Populus euphratica Species 0.000 description 1
- 238000006935 Simonis synthesis reaction Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 235000021374 legumes Nutrition 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于Pacbio subreads和Hi‑C reads的全基因组分型方法,包括以下步骤:1)准备参考基因组;2)将二代测序数据比对到参考基因组,检测出各染色体的所有SNP位点;3)将Hi‑C建库测序数据比对到参考基因组,结合SNP位点,采用HapCUT2构建连锁SNP群;4)基于MVP Block对Pacbio subreads进行分组,然后再分别组装,最终获取到每条染色单体序列;5)对亲本基因组进行全基因组测序,将测序结果比对到上步分出的染色单体序列上,按照比对结果将染色单体分为两组,对应父母本基因组。本方法避开Hi‑C数据组装过程中无法组装酶切位点数太少的contigs的缺陷,而是采用从基因组整体出发先构建连锁SNP群,再结合Pacbio long reads,大大降低了分型的错误风险。
Description
【技术领域】
本发明涉及基因组组装分型领域,具体涉及一种基于Pacbio subreads和Hi-Creads的全基因组分型方法。
【背景技术】
1985年,美国科学家提出了人类基因组计划(Human Genome Project),对人类基因组进行测序,以获取完整的人类基因组。该计划一经提出就得到了全球性的重视,先后有六个国家(包括中国)参与其中。各国鼎力合作,终于在2001年正式发表了人类基因组草图,这也标志着基因组时代的到来。随后,包括重测序,转录组,三维基因组在内的一系列技术蓬勃发展,而这些技术的基础都可以归结到拥有高质量参考基因组序列。目前,如果对某个新物种开展分子水平的研究,通常都是从测序和组装开始。
然而,目前尚没有一种测序技术可以一次连续地测出整条染色体,通常先会获取到长度不等的文库片段,再采用测序仪对文库片段进行测序。测序得到的结果称为读长(read),读长之间可能存在重叠(overlap)的部分,按照不同的算法对这些reads不断拼接,最后获取到基因组草图,整个过程通常称为基因组从头组装(de novo assembly)。随着测序技术不断提高,测序成本越来越低,人们对测序后基因组组装的要求也越来越高。高质量的组装结果通常要求高连续性(high contiguity)、高完整性(high completeness)和组装的准确性(correctness)。随着第三代测序技术越来越多地应用到基因组组装课题,基因组的组装质量也在不断提升,然而基因组依然存在一些复杂区域无法被测序或者无法被某种算法组装,这些gap区域严重地影响着基因组的构建。
科研工作者不断探索全基因水平的组装策略,先后提出了基于遗传图谱的方法和基于基因组空间联结的Hi-C(High-throughput Chromosome Conformation Capture)技术等。这些技术可以极大地提高基因组的连续性,特别是Hi-C技术,通过对Hi-C数据的分析可以清晰准确地将基因组草图挂载到染色体水平,该技术已应用于人类、山羊、埃及伊蚊和大麦等物种的染色体构建。
早在上世纪末,科研工作者在研究单基因疾病(即孟德尔型疾病)时就已经意识到复合杂合性现象(phenomenon of compound heterozygosity)。复合杂合性即基因组上某个区域可检测到两个变异位点,但这两个变异位点可能都位于同一条染色单体或来自不同染色单体,前者仅一条染色单体失活,而后者两条同源染色单体均失活。随着研究的深入,科研工作者发现等位区域不仅在核酸水平上存在差异,而且在基因水平上也存在差异。Geneimprint网站(http://www.geneimprint.com/)已公布人类约有200个印记基因,小鼠约有120个印记基因。其中,“印记基因”表示同源染色体上仅一条染色单体特有的基因,也即父本或母本特有的基因。这些印记基因的变异,大多会引起疾病,例如安格尔曼综合症(Angelman Syndrome,AS)和Prader-Willi综合征(Prader-Willi syndrome,PWS)等。科研工作者将这种依靠单亲传递某些遗传学性状的现象称为亲源效应(parent-of-origineffects),Nature杂志甚至将印记性(imprinting)作为专栏进行报道,以引起学术界的重视。
为了应对环境的变化,大多数已知的动物和植物都进化为二倍体或多倍体,很少存在单倍体。然而,当前已公布的大多数组装到染色体水平的基因组,通常是同源染色单体混在一起的基因组(collapsed genome)。这种基因组失去了倍性特征(diploid nature),无疑阻碍了基因组等位特异性(allele-specific)相关的研究。特别是在高杂合基因组中,姊妹染色单体之间的差异比较大,这时更需要将姊妹染色单体分开组装,这个过程即分型(phasing),或称为单体型水平的基因组(Haplotype-resolved genome)组装。
早在2002年,科研工作者已经认识到染色单体之间存在着一些差异,这些遗传多态位点和特定疾病风险相关,为了从基因组水平预防、诊断和治疗疾病,六个国家(包括中国)的科研团队合作提出了国际人类基因组单体型图计划(International HapMapProject)。自此,人们对单体型的研究不断深入,并提出各种分型策略。包括实验分型技术(例如CPT-Seq,HaploSeq等),测序分型技术(例如10X Genomics,Pore-C等)以及生物信息分型软件(例如tri-canu,whatshap等)。然而,基于实验分型的方法成本巨大,且耗时耗力不利于大范围推广;而无论是基于测序技术还是基于生物信息算法的分型方法,如果不涉及Hi-C数据,很难做到全染色体水平分型。
2013年,Siddarth Selvaraj及其合作者首次将Hi-C技术应用到分型领域,并开发了HapCUT软件。自此,科研工作者逐渐认识到Hi-C技术在全基因组分型中的重要性,先后开发了Falcon-Phase和ALLHIC等一系列分型工具。
然而,目前存在的分型流程均存在一些缺陷,例如HapCUT仅能对变异位点分型,不涉及组装;因为在短的contigs上酶切位点少,Falcon-Phase和ALLHIC均无法准确地对较短的contigs分型,而且ALLHIC软件需先提供近缘物种组装到染色体水平的基因组作为参考序列。因此,有必要研究一种新的分型流程。
【发明内容】
本发明针对高杂合二倍体基因组,提出一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,采用Pacbio subreads和Hi-C reads完成全基因组水平的分型。经测试可以准确地对SNP(single-nucleotide polymorphism)和中等长度的Indel(Insertionor deletion)进行分型,再经过后续组装步骤,可以实现全基因组水平的分型。
本发明解决其技术问题所采用的技术方案是:
一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,包括以下步骤:
1.准备参考基因组;
1)采用MECAT2或Falcon软件对Pacbio subreads进行组装;
2)采用purge_haplotigs或purge_dups等软件对基因组去杂合;
3)用Hi-C辅助组装方法对基因组进行组装获取到collapsed genome,作为后续分析的参考基因组。
2.将二代测序数据比对到参考基因组,检测出各染色体的所有SNP位点。
3.将Hi-C建库测序数据比对到参考基因组,结合上步检测出的SNP位点,采用HapCUT2构建连锁SNP群和MVP Block;其中,所述MVP Block为SNP位点数最多,并在染色体上跨度最大的SNP群;
4.基于MVP Block对Pacbio subreads进行分组,然后再分别组装,最终获取到每条染色单体序列;
进一步地,所述分组按照Pacbio subreads上各haplotype中SNP的个数以及SNP的占比来进行分组;
更进一步地,所述分组步骤如下:
1)选取SNP位点数大于3的subreads,进入下一步;将SNP位点数为0的subreads既分到phase1又分到phase2;弃除SNP位点数为其他值的subreads;
2)按照MVP block信息计算所选的subreads经过的SNP位点,分别得到对应phase1和phase2的bases数量;
3)分别计算phase1与phase2的bases数与连接的总的SNP位点数的比值,若phase1的bases数与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase1;若phase2的bases数与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase2;若两者比值均不大于80%,则弃除该subreads;
采取以上程序分组的原因在于:以目前Pacbio测序平台为代表的三代测序技术而言,其下机的reads(Pacbio平台称为subreads)的测序错误较多,而且subreads长度有限,通过subreads overlap关系来分型时,通常很难达到全染色体水平,特别是基因组上的着丝粒和高复杂区域,对subreads而言很难跨越。因此需要借助Hi-C reads构建的MVP block(MVP block是通过SNP位置构建的),对subreads进行分组。
5.对亲本基因组进行全基因组测序,将测序结果比对到上步分型出的染色单体序列上,按照比对结果将染色单体分为两组,对应父母本基因组;
优选地,对亲本基因组进行全基因组测序选择二代测序方法。
经过测试发现杂合度高的基因组父母本之间的差异比较大,采用与父母本同种的个体进行测序也可以得到比较可靠的结果(Zhuang,W.,Chen,H.,Yang,M.et al.Thegenome of cultivated peanut provides insight into legume karyotypes,polyploidevolution and crop domestication.Nat Genet 51,865–876(2019)),也克服了样本对应的父母本不易获取的问题。
本发明的有益效果为:
本发明有效避开了Hi-C数据组装过程中固有的缺陷——无法组装酶切位点数太少的contigs,采用从基因组整体出发先构建连锁SNP群,在基因组水平上保证了分型准确性;再结合Pacbio long reads,又确保局部分型的准确性,从而大大降低了分型的错误风险。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是构建分型过程总流程图。
图2是subreads分组原理图。
图3是subreads分组依据流程图。
图4是分型结果Hi-C互作热图。
【具体实施方式】
以下实例用于说明本发明,但不限制本发明的范围。在不背离本发明精神和实质的前提下,对本发明的方法、步骤或条件所作的修改或替换,均属于本发明的范围。
以下实施例中研究的物种为高杂合小黑杨(Populus xiaohei),核型为2n=2x=36,其父本为欧洲黑杨(Populus nigra),母本为小叶杨(或称南京白杨,Populussimonii)。本发明构建分型过程总流程如图1所示。
实施例1:参考序列构建
本实例中可获取到高杂合小黑杨的双单倍体植株,因此先对双单倍体植物进行全基因组测序(采用三代Pacbio Sequel测序平台测序),并采用Falcon进行组装,完成后再采用Hi-C技术对其进行建库测序,利用测序得到的Hi-C数据对Falcon组装出的基因组草图做染色体挂载,最终获取到高质量双单倍体植株的基因组,作为后续分析的参考序列。
实施例2:将高杂合小黑杨测序数据比对到参考序列
利用三代Pacbio Sequel测序平台对高杂合小黑杨进行测序(约560X);同时也采用Hi-C技术对高杂合小黑杨建库测序,获取Hi-C reads(约515X);此外还利用到之前用于评估高杂合小黑杨基因组杂合度时的shotgun sequencing数据(约289X)。将三份数据比对到参考基因组上,三代数据采用NGMLR软件比对,二代数据采用BWA MEM方法进行比对,完成后获取到三份比对结果。
实施例3:构建MVP blocks
采用HapCUT2对shotgun sequencing数据和Hi-C数据进行分析,构建连锁SNP信息,其中每条染色体均获取到一条MVP block。
实施例4:分Pacbio subreads
采用自主设计的流程按MVP blocks对Pacbio subreads进行分组(分组的原理如图2所示,分组依据及流程如图3所示),成功获取到来自36条染色单体的subreads,再分别对每组subreads进行组装,最终获取到36条染色单体序列,而且比较清晰地获取到成对信息。例如可以知道36条染色单体序列中哪两条来自1号染色体。
实施例5:按父母本测序数据分为两套单倍体
本实例中可获取到高杂合小黑杨对应的亲本植株,因此对其亲本进行shotgunsequencing,获取到父母本全基因组测序数据,再将父母本数据分别比对到上步组装出的36条染色单体上,结果可以清晰地分为两类。
至此成功构建出高杂合小黑杨两套完整的基因组,并可对应为父母本基因组,比较准确地完成了全基因组分型,分型后最终结果Hi-C互作热图如图4所示。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和改进,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的方案和这里示出与描述的图示示例。
Claims (7)
1.一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,包括以下步骤:
S1.准备参考基因组;
S2.将二代测序数据比对到参考基因组,检测出各染色体的所有SNP位点;
S3.将Hi-C建库测序数据比对到参考基因组,结合上步检测出的SNP位点,采用HapCUT2构建连锁SNP群和MVP Block;其中,所述MVP Block为SNP位点数最多,且在染色体上跨度最大的SNP群;
S4.基于MVP Block对Pacbio subreads进行分组,然后再分别组装,最终获取到每条染色单体序列;
S5.对亲本基因组进行全基因组测序,将测序结果比对到步骤S4分型出的染色单体序列上,按照比对结果将染色单体分为两组,对应父母本基因组。
2.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1为:
a.采用软件对Pacbio subreads进行组装;
b.采用软件对基因组去杂合;
c.采用Hi-C辅助组装方法对基因组进行组装获取到collapsed genome,作为参考基因组。
3.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1中组装软件为MECAT2或Falcon。
4.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S1中去杂合软件为purge_haplotigs或purge_dups。
5.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S4按照Pacbio subreads上各haplotype中SNP的个数以及SNP的占比来进行分组。
6.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S5对亲本基因组进行全基因组测序选择二代测序方法。
7.根据权利要求1或5所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法,其特征在于,所述步骤S4分组步骤如下:
1)选取SNP位点数大于3的subreads,进入下一步;将SNP位点数为0的subreads既分到phase1又分到phase2;弃除SNP位点数为其他值的subreads;
2)按照MVP block信息计算所选subreads经过的SNP位点,分别得到对应phase1和phase2的bases数量;
3)分别计算phase1与phase2的bases数量与连接的总的SNP位点数的比值,若phase1的bases数量与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase1,若phase2的bases数与连接的总的SNP位点数的比值大于80%,则该subreads划分到列phase2,若两者比值均不大于大于80%,则弃除该subreads。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441252.3A CN111816248B (zh) | 2020-05-22 | 2020-05-22 | 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010441252.3A CN111816248B (zh) | 2020-05-22 | 2020-05-22 | 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816248A CN111816248A (zh) | 2020-10-23 |
CN111816248B true CN111816248B (zh) | 2023-12-01 |
Family
ID=72848369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010441252.3A Active CN111816248B (zh) | 2020-05-22 | 2020-05-22 | 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816248B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289382B (zh) * | 2020-10-28 | 2023-02-24 | 天津诺禾致源生物信息科技有限公司 | 多倍体基因组同源染色体的拆分方法、装置及其应用 |
CN112634991B (zh) * | 2020-12-18 | 2022-07-19 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
CN112908415B (zh) * | 2021-02-23 | 2022-05-17 | 广西壮族自治区农业科学院 | 一种获得染色体水平基因组的方法 |
CN113808668B (zh) * | 2021-11-18 | 2022-02-18 | 北京诺禾致源科技股份有限公司 | 提升基因组组装完整性的方法、装置及其应用 |
CN114464260B (zh) * | 2021-12-29 | 2023-09-26 | 上海诺禾致源医学检验实验室有限公司 | 染色体水平基因组的组装方法和组装装置 |
CN115148289B (zh) * | 2022-09-06 | 2023-01-24 | 安诺优达基因科技(北京)有限公司 | 同源四倍体基因组分型组装的方法和装置、构建染色体的装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046105A (zh) * | 2015-07-09 | 2015-11-11 | 天津诺禾医学检验所有限公司 | 染色体跨度的单体型图及其构建方法 |
WO2017084624A1 (zh) * | 2015-11-18 | 2017-05-26 | 上海序康医疗科技有限公司 | 一种同时完成基因位点、染色体及连锁分析的方法 |
CN109273052A (zh) * | 2018-09-13 | 2019-01-25 | 北京百迈客生物科技有限公司 | 一种基因组单倍体组装方法及装置 |
-
2020
- 2020-05-22 CN CN202010441252.3A patent/CN111816248B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046105A (zh) * | 2015-07-09 | 2015-11-11 | 天津诺禾医学检验所有限公司 | 染色体跨度的单体型图及其构建方法 |
WO2017084624A1 (zh) * | 2015-11-18 | 2017-05-26 | 上海序康医疗科技有限公司 | 一种同时完成基因位点、染色体及连锁分析的方法 |
CN109273052A (zh) * | 2018-09-13 | 2019-01-25 | 北京百迈客生物科技有限公司 | 一种基因组单倍体组装方法及装置 |
Non-Patent Citations (1)
Title |
---|
全基因组测序在重要家畜上的研究进展;李晓凯;王贵;乔贤;范一星;张磊;马宇浩;聂瑞雪;王瑞军;何利兵;苏蕊;;生物技术通报(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111816248A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816248B (zh) | 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法 | |
Yang et al. | A review of computational tools for generating metagenome-assembled genomes from metagenomic sequencing data | |
Huang et al. | Genome sequence of Gossypium herbaceum and genome updates of Gossypium arboreum and Gossypium hirsutum provide insights into cotton A-genome evolution | |
Zhang et al. | Unzipping haplotypes in diploid and polyploid genomes | |
Comai et al. | TILLING: practical single‐nucleotide mutation discovery | |
US7996157B2 (en) | Genetic diagnosis using multiple sequence variant analysis | |
EP1869605B1 (en) | Genetic diagnosis using multiple sequence variant analysis | |
WO2010129301A2 (en) | Method, computer-accessible medium and system for base-calling and alignment | |
CN116168763B (zh) | 构建染色体的方法和装置及其应用 | |
Pop | Shotgun Sequence Assembly. | |
Delaneau et al. | Haplotype inference | |
CN118038992A (zh) | 高杂合二倍体基因组分型组装的方法 | |
US20080228457A1 (en) | Methods, computer-accessible medium, and systems for generating a genome wide haplotype sequence | |
Bohutínská et al. | Population genomic analysis of diploid-autopolyploid species | |
Duitama | Phased Genome Assemblies | |
Rachappanavar et al. | Analytical Pipelines for the GBS Analysis | |
Moeinzadeh | De novo and haplotype assembly of polyploid genomes | |
CN117542410A (zh) | 肺癌基因组多类型变异的知识图谱致癌性表示预测方法 | |
CN118230818A (zh) | 基于Hi-C数据的二倍体分型方法、系统及组装方法 | |
Saeed | An efficient parallel algorithm for haplotype inference based on rule based approach and consensus methods. | |
Schatz | Phased Diploid Genome Assembly with Single Molecule Real-Time Sequencing | |
Black | The genetic heritage of China: A genomic study of PR China based on nine representative ethnic populations | |
Franquin | On populations, haplotypes and genome sequencing | |
Nikooienejad | Presence/Absence Marker Discovery in RAD Markers for Multiplexed Samples in the Context of Next-Generation Sequencing | |
Deonier et al. | Genetic Variation in Populations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Whole Genome Typing Method Based on Pacbio Subbreaks and Hi C Reads Granted publication date: 20231201 Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd. Pledgor: WUHAN FRASERGEN INFORMATION CO.,LTD. Registration number: Y2024980021037 |