JP2018500625A - シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス - Google Patents
シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス Download PDFInfo
- Publication number
- JP2018500625A JP2018500625A JP2017518960A JP2017518960A JP2018500625A JP 2018500625 A JP2018500625 A JP 2018500625A JP 2017518960 A JP2017518960 A JP 2017518960A JP 2017518960 A JP2017518960 A JP 2017518960A JP 2018500625 A JP2018500625 A JP 2018500625A
- Authority
- JP
- Japan
- Prior art keywords
- lead
- contig
- contigs
- overlaps
- storage medium
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 296
- 230000008569 process Effects 0.000 title claims abstract description 136
- 238000012163 sequencing technique Methods 0.000 title description 68
- 238000013507 mapping Methods 0.000 claims abstract description 116
- 230000007614 genetic variation Effects 0.000 claims abstract description 47
- 125000003729 nucleotide group Chemical group 0.000 claims description 215
- 239000002773 nucleotide Substances 0.000 claims description 213
- 102000054766 genetic haplotypes Human genes 0.000 claims description 133
- 238000003860 storage Methods 0.000 claims description 97
- 239000000543 intermediate Substances 0.000 claims description 94
- 238000009826 distribution Methods 0.000 claims description 70
- 238000003780 insertion Methods 0.000 claims description 58
- 230000037431 insertion Effects 0.000 claims description 54
- 239000007858 starting material Substances 0.000 claims description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 43
- 230000035772 mutation Effects 0.000 claims description 31
- 108090000623 proteins and genes Proteins 0.000 claims description 30
- 108700028369 Alleles Proteins 0.000 claims description 22
- 239000003795 chemical substances by application Substances 0.000 claims description 21
- 210000000349 chromosome Anatomy 0.000 claims description 19
- 108091092878 Microsatellite Proteins 0.000 claims description 18
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 17
- 230000007115 recruitment Effects 0.000 claims description 13
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 11
- 238000013138 pruning Methods 0.000 claims description 7
- -1 ATT Proteins 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 102000007372 Ataxin-1 Human genes 0.000 claims description 5
- 108010032963 Ataxin-1 Proteins 0.000 claims description 5
- 102000007368 Ataxin-7 Human genes 0.000 claims description 5
- 108010032953 Ataxin-7 Proteins 0.000 claims description 5
- 102100027525 Frataxin, mitochondrial Human genes 0.000 claims description 5
- 101150103820 Fxn gene Proteins 0.000 claims description 5
- 108010052185 Myotonin-Protein Kinase Proteins 0.000 claims description 5
- 102000018658 Myotonin-Protein Kinase Human genes 0.000 claims description 5
- 102000002785 Ataxin-10 Human genes 0.000 claims description 4
- 108010043914 Ataxin-10 Proteins 0.000 claims description 4
- 102100026565 Ataxin-8 Human genes 0.000 claims description 4
- 102100020741 Atrophin-1 Human genes 0.000 claims description 4
- 102000014817 CACNA1A Human genes 0.000 claims description 4
- 101000923091 Danio rerio Aristaless-related homeobox protein Proteins 0.000 claims description 4
- 102100031470 Homeobox protein ARX Human genes 0.000 claims description 4
- 101000765700 Homo sapiens Ataxin-8 Proteins 0.000 claims description 4
- 101000785083 Homo sapiens Atrophin-1 Proteins 0.000 claims description 4
- 101000923090 Homo sapiens Homeobox protein ARX Proteins 0.000 claims description 4
- 101000614618 Homo sapiens Junctophilin-3 Proteins 0.000 claims description 4
- 101000692768 Homo sapiens Paired mesoderm homeobox protein 2B Proteins 0.000 claims description 4
- 101000609211 Homo sapiens Polyadenylate-binding protein 2 Proteins 0.000 claims description 4
- 101000915806 Homo sapiens Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B beta isoform Proteins 0.000 claims description 4
- 101000935117 Homo sapiens Voltage-dependent P/Q-type calcium channel subunit alpha-1A Proteins 0.000 claims description 4
- 102100040488 Junctophilin-3 Human genes 0.000 claims description 4
- 102100026354 Paired mesoderm homeobox protein 2B Human genes 0.000 claims description 4
- 102100039427 Polyadenylate-binding protein 2 Human genes 0.000 claims description 4
- 208000020584 Polyploidy Diseases 0.000 claims description 4
- 101710156592 Putative TATA-binding protein pB263R Proteins 0.000 claims description 4
- 102100029014 Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B beta isoform Human genes 0.000 claims description 4
- 102100040296 TATA-box-binding protein Human genes 0.000 claims description 4
- 101710145783 TATA-box-binding protein Proteins 0.000 claims description 4
- 102000007370 Ataxin2 Human genes 0.000 claims 3
- 108010032951 Ataxin2 Proteins 0.000 claims 3
- 150000007523 nucleic acids Chemical class 0.000 description 145
- 102000039446 nucleic acids Human genes 0.000 description 126
- 108020004707 nucleic acids Proteins 0.000 description 126
- 239000000523 sample Substances 0.000 description 36
- 108020004414 DNA Proteins 0.000 description 18
- 102000053602 DNA Human genes 0.000 description 18
- 210000004027 cell Anatomy 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 239000000203 mixture Substances 0.000 description 14
- 238000012546 transfer Methods 0.000 description 13
- 238000000126 in silico method Methods 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 11
- 108091028043 Nucleic acid sequence Proteins 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 9
- 229920002477 rna polymer Polymers 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 7
- 239000012530 fluid Substances 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 108091035707 Consensus sequence Proteins 0.000 description 6
- 241000700605 Viruses Species 0.000 description 6
- 238000009966 trimming Methods 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005315 distribution function Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000012165 high-throughput sequencing Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000007481 next generation sequencing Methods 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 238000000746 purification Methods 0.000 description 5
- 230000005945 translocation Effects 0.000 description 5
- 108091092195 Intron Proteins 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 238000004630 atomic force microscopy Methods 0.000 description 4
- 102000040430 polynucleotide Human genes 0.000 description 4
- 108091033319 polynucleotide Proteins 0.000 description 4
- 239000002157 polynucleotide Substances 0.000 description 4
- 239000013074 reference sample Substances 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 108020004635 Complementary DNA Proteins 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 238000010804 cDNA synthesis Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical class O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000007480 sanger sequencing Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical class CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical class NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 2
- 102000007371 Ataxin-3 Human genes 0.000 description 2
- 108010032947 Ataxin-3 Proteins 0.000 description 2
- 108700040618 BRCA1 Genes Proteins 0.000 description 2
- 101150072950 BRCA1 gene Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 102000012605 Cystic Fibrosis Transmembrane Conductance Regulator Human genes 0.000 description 2
- 108010079245 Cystic Fibrosis Transmembrane Conductance Regulator Proteins 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 241000276498 Pollachius virens Species 0.000 description 2
- 244000141353 Prunus domestica Species 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 2
- 241000283907 Tragelaphus oryx Species 0.000 description 2
- 208000026487 Triploidy Diseases 0.000 description 2
- 108091023045 Untranslated Region Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 108020004418 ribosomal RNA Proteins 0.000 description 2
- 238000007841 sequencing by ligation Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004627 transmission electron microscopy Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- CJYDNDLQIIGSTH-UHFFFAOYSA-N 1-(3,5,7-trinitro-1,3,5,7-tetrazocan-1-yl)ethanone Chemical compound CC(=O)N1CN([N+]([O-])=O)CN([N+]([O-])=O)CN([N+]([O-])=O)C1 CJYDNDLQIIGSTH-UHFFFAOYSA-N 0.000 description 1
- 208000010543 22q11.2 deletion syndrome Diseases 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 241000143060 Americamysis bahia Species 0.000 description 1
- 208000009575 Angelman syndrome Diseases 0.000 description 1
- 206010003210 Arteriosclerosis Diseases 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 235000000832 Ayote Nutrition 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000014392 Cat-eye syndrome Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 208000003449 Classical Lissencephalies and Subcortical Band Heterotopias Diseases 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 235000003949 Cucurbita mixta Nutrition 0.000 description 1
- 240000004244 Cucurbita moschata Species 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 208000000398 DiGeorge Syndrome Diseases 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 201000006360 Edwards syndrome Diseases 0.000 description 1
- 201000006107 Familial adenomatous polyposis Diseases 0.000 description 1
- 102400001223 Galanin message-associated peptide Human genes 0.000 description 1
- 101800000863 Galanin message-associated peptide Proteins 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 101100166894 Homo sapiens CFTR gene Proteins 0.000 description 1
- 101150043003 Htt gene Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 201000006347 Intellectual Disability Diseases 0.000 description 1
- 208000004706 Jacobsen Distal 11q Deletion Syndrome Diseases 0.000 description 1
- 208000029279 Jacobsen Syndrome Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 201000004246 Miller-Dieker lissencephaly syndrome Diseases 0.000 description 1
- 208000035022 Miller-Dieker syndrome Diseases 0.000 description 1
- 208000034079 Monosomy 9p Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 201000003793 Myelodysplastic syndrome Diseases 0.000 description 1
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 239000004952 Polyamide Substances 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 208000006265 Renal cell carcinoma Diseases 0.000 description 1
- 201000000582 Retinoblastoma Diseases 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 241001223864 Sphyraena barracuda Species 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 208000007159 Trisomy 18 Syndrome Diseases 0.000 description 1
- 206010049644 Williams syndrome Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 210000004100 adrenal gland Anatomy 0.000 description 1
- 239000012615 aggregate Substances 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 208000011775 arteriosclerosis disease Diseases 0.000 description 1
- 210000004507 artificial chromosome Anatomy 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 210000000941 bile Anatomy 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 239000010836 blood and blood product Substances 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 229940125691 blood product Drugs 0.000 description 1
- 210000002798 bone marrow cell Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 210000003855 cell nucleus Anatomy 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 210000004252 chorionic villi Anatomy 0.000 description 1
- 201000001329 chromosome 9p deletion syndrome Diseases 0.000 description 1
- 208000029664 classic familial adenomatous polyposis Diseases 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037765 diseases and disorders Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 210000002308 embryonic cell Anatomy 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 210000004700 fetal blood Anatomy 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000010437 gem Substances 0.000 description 1
- 229910001751 gemstone Inorganic materials 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 210000004392 genitalia Anatomy 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 210000003780 hair follicle Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000004251 human milk Anatomy 0.000 description 1
- 235000020256 human milk Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 210000000282 nail Anatomy 0.000 description 1
- 239000011807 nanoball Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003203 nucleic acid sequencing method Methods 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 201000003738 orofaciodigital syndrome VIII Diseases 0.000 description 1
- 201000010279 papillary renal cell carcinoma Diseases 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 210000004303 peritoneum Anatomy 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 229920002647 polyamide Polymers 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 201000011461 pre-eclampsia Diseases 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000013615 primer Substances 0.000 description 1
- 239000002987 primer (paints) Substances 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000037425 regulation of transcription Effects 0.000 description 1
- 230000009712 regulation of translation Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000004094 surface-active agent Substances 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 206010053884 trisomy 18 Diseases 0.000 description 1
- 238000012176 true single molecule sequencing Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000003932 urinary bladder Anatomy 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
被験体は、限定されるものではないが、ヒト、非ヒト動物、植物、細菌、菌類、ウイルス、または原生生物を含めて、任意の生きているまたは生きていない生物でありうる。被験体は任意の年齢でありうる(たとえば、胚、胎児、乳児、子供、成人)。被験体は任意の性別でありうる(たとえば、男性、女性、またはそれらの組合せ)。被験体は妊娠していてもよい。被験体は患者でありうる(たとえば、ヒト患者)。
本明細書には、サンプルを分析するための方法および組成物が提供される。サンプル(たとえば、核酸を含むサンプル)は好適な被験体から取得しうる。サンプルは被験体またはその一部から直接的に単離または取得しうる。いくつかの実施形態では、サンプルは個人または医療専門家から間接的に取得される。サンプルは、被験体またはその一部から単離または取得される任意の検体でありうる。サンプルは、複数の被験体から単離または取得される任意の検体でありうる。検体の例としては、限定されるものではないが、被験体に由来する流体または組織、たとえば、限定されるものではないが、血液または血液産物(たとえば、血清、血漿、血小板、バフィーコートなど)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(たとえば、肺、胃、腹膜、腺管、耳、関節鏡検査)、生検サンプル、羊膜外腔穿刺サンプル、細胞(血液細胞、リンパ球、胎盤細胞、幹細胞、骨髄由来細胞、胚細胞、もしくは胎児細胞)またはその一部(たとえば、ミトコンドリア、核、抽出物など)、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙液、汗、母乳、胸液など、またはそれらの組合せが挙げられる。核酸が抽出される流体サンプルまたは組織サンプルは無細胞でありうる(たとえば、細胞フリー)。組織の例としては、限定されるものではないが、器官組織(たとえば、肝臓、腎臓、肺、胸腺、副腎、皮膚、膀胱、生殖器官、腸、結腸、脾臓、脳など、またはそれらの一部)、上皮組織、毛髪、毛嚢、導管、管路、骨、眼、鼻、口、咽頭、耳、爪など、それらの一部、またはそれらの組合せが挙げられる。サンプルは、正常、健常、疾患(たとえば感染)、および/または癌性の細胞または組織を含みうる(たとえば癌細胞)。被験体から取得されるサンプルは、複数の生物の細胞または細胞物質(たとえば核酸)を含みうる(たとえば、ウイルス核酸、胎児核酸、細菌核酸、寄生生物核酸)。
「核酸」という用語は、DNA(たとえば、相補的DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(たとえば、メッセージRNA(mRNA)、低分子阻害RNA(siRNA)、リボソームRNA(rRNA)、tRNA、マイクロRNA)、ならびに/またはDNAアナログもしくはRNAアナログ(たとえば、塩基アナログ、糖アナログ、および/もしくは非天然骨格などを含有する)、RNA/DNAハイブリッド、さらにはポリアミド核酸(PNA)などの任意の組成の1つ以上の核酸(たとえば、核酸のセットまたはサブセット)を意味する。これらの核酸はすべて、一本鎖または二本鎖の形態でありうるとともに、とくに限定されない限り、天然に存在するヌクレオチドと同じように機能しうる天然のヌクレオチドの公知のアナログを包含しうる。とくに限定されない限り、この用語は、デオキシリボヌクレオチド、リボヌクレオチド、および天然のヌクレオチドの公知のアナログを含む核酸を包含する。核酸は、その等価体、誘導体、または変異体として、ヌクレオチドアナログ、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)ポリヌクレオチド、および二本鎖ポリヌクレオチドから合成されたRNAまたはDNAの好適なアナログを含みうる。核酸は一本鎖または二本鎖でありうる。核酸は、2以上、3以上、4以上、または5以上の任意の長さの隣接ヌクレオチドでありうる。核酸は、配列(たとえば核酸配列、たとえば配列)として当技術分野で公知の特定の5’→3’の順のヌクレオチドを含みうる。
核酸は、当技術分野で公知の好適な方法を用いて1つ以上の被験体、1つ以上のサンプル、または1つ以上の供給源から誘導、単離、抽出、精製、または部分精製しうる。核酸の単離、抽出、および/または精製のために任意の好適な方法を使用可能である。
ある特定の実施形態では、核酸(たとえば、アンプリコン、ライブラリーの核酸、キャプチャーされた核酸)は、核酸シーケンシングを含むプロセスにより分析される。いくつかの実施形態では、核酸はシーケンシングされうる。いくつかの実施形態では、完全または実質的に完全な配列が得られ、ときには部分配列が得られる。
核酸をシーケンシング法に付すと、多くの場合、シーケンスリードが提供される。本明細書で用いられる場合、「リード」(たとえば、「リード」、「シーケンスリード」)とは、本明細書に記載のまたは当技術分野で公知の任意のシーケンシングプロセスにより生成された短いヌクレオチド配列のことである。リードは、核酸断片の一方の末端から生成可能であり(「シングルエンドリード」)、ときには核酸断片の両方の末端から生成される(たとえば、ペアエンドリード、ペアエンドシーケンスリード、ダブルエンドリード)。ペアエンドリードは、多くの場合、1つ以上のリードペア(たとえば、2つのリード、リードメイトペア)を含み、各リードペアは、シーケンシングされた核酸断片の各末端から取得したものである。リードメイトペアの各リードは、本明細書ではリードメイトと呼ばれることもある。ペアエンドシーケンシング法(たとえば、1つ以上の核酸ライブラリーがシーケンシングされる場合)は、多くの場合、複数のリードメイトペアおよび複数のリードメイトをもたらす。
シーケンスリードはマッピング可能である。いくつかの実施形態では、好適なマッピング方法、プロセス、またはアルゴリズムを使用可能である。ある特定の実施形態では、修正マッピング方法およびプロセスが本明細書で使用される。マッピングプロセスのある特定の態様を以下に記載する。
いくつかの実施形態では、本明細書の方法、プロセス、またはシステムは、リードリクルートメントプロセスを含む。リードリクルートメントプロセスは、多くの場合、リードリクルートメントコンポーネントにより行われる。ある特定の実施形態では、リードリクルートメントプロセスは、本明細書に記載のシーケンスリードを取得および/または選択するステップを含む。いくつかの実施形態では、リードリクルートメントプロセスは、複数のリードからリードサブセットを取得および/または選択する方法を含む。
いくつかの実施形態では、本明細書の方法またはプロセスは、シーケンスリードのセットまたはサブセットでパイルアップ関係を決定するステップを含む。いくつかの実施形態では、パイルアップ関係は、対象の参照ゲノムの領域にリードのいくつかをマッピングする場合にセットの複数のリード間に1つ以上のオーバーラップ(たとえば、複数のオーバーラップ)を含む。いくつかの実施形態では、パイルアップ関係はタイリンググラフの構築を含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットのすべてのリードを含む。いくつかの実施形態では、パイルアップ関係はペアエンドシーケンスリードセットの選択されたリードを含む。いくつかの実施形態では、オーバーラップは2つ以上のリードのアライメントを含む。ある特定の実施形態では、オーバーラップはアライメントスコアを含む。ある特定の実施形態では、オーバーラップはk−merハッシングストラテジーに従って決定される。
いくつかの実施形態では、1つ以上のコンティグは、リードセットでアセンブルおよび/または構築される。いくつかの実施形態では、1つ以上のコンティグは、リードセットで選択および/または記憶される複数のオーバーラップに従って構築される。ある特定の実施形態では、1つ以上のコンティグは、リードセットの複数のオーバーラップを含むパイルアップ関係に従って構築される。ある特定の実施形態では、コンティグは、1つ以上のスターターリードから構築される。ある特定の実施形態では、1つ以上のコンティグは、1、2、3、4、5、6、7、8、9、もしくは10またはそれ以上のスターターリードから構築される。スターターリードはセットの任意の好適なリードでありうる。ときには、スターターリードは、リードセットの最も5’側のリードおよび/または最も3’側のリードを含む。最も5’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も5’側の領域にマッピングされるリードである。同様に、最も3’側のリードは、多くの場合、セットのシーケンスリードの一部または全部がマッピングされる対象のゲノム領域の最も3’側の領域にマッピングされるリードである。ある特定の実施形態では、コンティグは、セットの最も3’側のリードでも最も5’側のリードでもないスターターリードからアセンブルされる。
たとえば、前のステップでアセンブルされたコンティグは、対象の全ゲノム領域に延在しうるか、またはカバレッジが低下する位置もしくは高いリードエラー率(たとえば通常系統誤差)により高スコアオーバーラップが阻止される位置で終了しうる。ある特定の実施形態では、対象の全ゲノム領域に延在するコンティグはスーパーコンティグであり、追加のアセンブリーを必要としない。スーパーコンティグは、多くの場合、対象の全ゲノム領域に延在する。対象の全ゲノム領域に延在しないコンティグは、スーパーコンティグにアセンブルしうる。いくつかの実施形態では、1つ以上のスーパーコンティグが2つ以上のコンティグからアセンブルされる。ある特定の実施形態では、コンティグを一体的にリンクしてスーパーコンティグを形成するためにするために、リードメイト(たとえばリードメイトペアのもの)が使用される。たとえば、いくつかの実施形態では、ペアの第1のリードメイトが第1のコンティグとのオーバーラップを提供し、かつペアの第2のリードメイトが他のコンティグとのオーバーラップを提供する場合、2つの近接コンティグ間のカバレッジギャップは、リードメイトペアのリードメイトによりブリッジしうる。2つの近接コンティグをブリッジまたは連結するペアのリードメイトは、コンティグ間の推定距離、コンティグの順序および向きに関する情報を提供しうる。たとえば、リードメイト間の推定インサート長は、2つのブリッジされたコンティグ間の推定距離を提供しうる。ときには、2つのコンティグをブリッジするリードメイトの向きは、2つの互いにブリッジされたコンティグの相対向きおよび順序を提供する。いくつかの実施形態では、第1のコンティグは、複数のリードメイトペアにより第2のコンティグに連結される。いくつかの実施形態では、第1のコンティグは、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも15個、少なくとも20個、少なくとも30個、または少なくとも50個のリードメイトペアにより第2のコンティグに連結される。
いくつかの実施形態では、以上に記載のプロセスによりアセンブルされるスーパーコンティグは、すべての可能な配列配置を表すので、すべての可能なハプロタイプ配列(すなわちハプロタイプ)を表す。いくつかの実施形態では、ハプロタイプは、所定の倍数性に従ってコーラーにより直接組み合わせることにより、すべての可能な遺伝子型(たとえば、遺伝子型仮説、遺伝子型尤度、または遺伝子型尤度比)を生成する。いくつかの実施形態では、ハプロタイプはすべて、コーラーにより処理される前にハプロタイピングプロセスに付される。いくつかの実施形態では、ハプロタイピングプロセスは、各ハプロタイプに関連するオブジェクト(たとえば、ハプロタイプオブジェクト)を開始する。ハプロタイプオブジェクトは、マッピングウェイト、同定された偽接合、および/または同定された偽挿入を含みうる。たとえば、ある特定の実施形態では、ハプロタイピングプロセスは、一部または全部のリードをハプロタイプ配列(たとえば、スーパーコンティグ)に再マッピングするステップを含む。ある特定の実施形態では、この再マッピングは、実施例Iの「コーラー」の節に記載のマッピングウェイトの前計算を含む。マッピングウェイトは、各ハプロタイプに関連付けられる。ある特定の実施形態では、ハプロタイパープロセスはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する(以下を参照されたい)。ハプロタイパープロセスは、多くの場合、遺伝子型配列仮説と組み合わせる前に、ハプロタイピングプロセスの出力に基づいて、ハプロタイプをフィルタリングする機会をコーラーコンポーネントに与えるコーラーの機能と切り離して実施される(たとえば、ハプロタイプオブジェクト、たとえば、マッピングウェイト、偽接合および/または偽挿入の同定)。いくつかの実施形態では、同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。次いで、コーラーコンポーネントは、偽挿入などのハプロタイプオブジェクトの属性に基づいてカットオフを用いてハプロタイプをフィルタリングおよび/または除去することが可能である。任意の好適なカットオフを使用することが可能である。
ある特定の実施形態では、ハプロタイパープロセスは、偽接合の同定方法を含む。いくつかの実施形態では、偽接合は、偽陽性アライメントに起因して生成される。いくつかの実施形態では、偽接合は、いくらかの配列類似性に起因してコンティグアセンブリー時にリクルート(たとえば取得)されて組み込まれた、ゲノムの異なる部分(たとえば、対象のゲノム領域外のゲノムの部分)に由来するシーケンスリードで構成される。かかる配列類似性は、ときには、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。ハプロタイパープロセスは、接合位置をまたぐリードペアの数が予想よりもかなり少ないハプロタイプ配列中の位置を同定しうる。いくつかの実施形態では、ハプロタイパープロセスは、ある距離だけ離れたリードメイトの期待数(たとえば、インサートサイズ分布から推定される)を計算して観測されたカウントと比較することにより可能な偽接合を見いだす。低い観測数/期待数比の位置は、偽接合の可能性があるとしてマーク付けしうる。いくつかの実施形態では、統計的当てはめ(たとえば、χ2検定)の好適な推定値を用いて観測数−期待数差の有意性を決定しうる。いくつかの実施形態では、偽接合は、インサートサイズ分布の平均の周りのセンターバンドまたは非センターバンドを用いて偽接合を検定することにより同定される。インサートサイズ分布平均の周りのバンドの−20%および+80%のインターバル(たとえば、Illuminaリードペアライブラリーの現在のサイズは50)は、ときには、期待カウントを計算するために使用され、観測カウントを検索するために使用される。いくつかの実施形態では、ハプロタイパープロセスは、フォワードリードおよびリバースリード(逆方向)に対して観測カウントおよび期待カウントを個別に計算してから比の局所最小値を見いだす。ハプロタイパープロセスは、ときには、特定の比カットオフを超える局所最小値をすべて報告する。ある特定の実施形態では、順方向および逆方向の両方で検索を行って接合のアルゴリズム的確認を与えうる。
いくつかの実施形態では、ハプロタイパープロセスは偽挿入検出プロセスを含む。いくつかの実施形態では、偽挿入は、in silicoアセンブルされたスーパーコンティグ内への外来核酸配列または誤配置核酸配列の望ましくない挿入または偽挿入である。いくつかの実施形態では、偽挿入検出プロセスは、ハプロタイプ中の偽挿入の存在または不在を決定する。いくつかの実施形態では、偽挿入検出プロセスは、偽挿入がハプロタイプ中に存在するかまたは不在である尤度または確率を決定する。いくつかの実施形態では、偽挿入検出プロセスは、可能性のある偽挿入をマーク付け、ウェイト付け、またはスコア付けして、それらのオブジェクトをハプロタイプに関連付ける。いくつかの実施形態では、偽挿入は、偽接合(たとえば、以上に記載される)と組み合わせて同定可能である。しかしながら、偽挿入の同定では、専用の偽挿入検出プロセスは、多くの場合、偽接合アルゴリズムよりも高感度かつ特異的である。
いくつかの実施形態では、コーラープロセスは、遺伝子型をアセンブルし遺伝子型尤度比を決定する。コーラーコンポーネントは、多くの場合、コーラープロセスを実施する。コーラー(たとえばコーラーコンポーネント)は、スーパーコンティグアセンブリーコンポーネントからおよび/またはハプロタイパー(たとえばハプロタイプコンポーネント)からハプロタイプを受け入れることが可能である。ある特定の実施形態では、コーラープロセスは、ハプロタイプを組み合わせて所与の倍数性のすべての可能な遺伝子型を生成する。いくつかの実施形態では、所与の倍数性のすべての可能な遺伝子型は、コーラーコンポーネント(たとえば「コーラー」)によりアセンブルされる。いくつかの実施形態では、所与の倍数性で決定された各可能な遺伝子型は遺伝子型仮説と呼ばれる。ハプロタイプは、一倍体、二倍体、三倍体の被験体、または任意の倍数性の被験体に対してすべての可能な配置で組合せ可能である。たとえば、二倍体配列仮説では、同一のハプロタイプの2つのコピーからなるホモ接合配置を含めて任意の2つのハプロタイプのすべての可能な組合せをコーラーによりアセンブル可能であり、それぞれ遺伝子型仮説と呼ばれる。
本明細書に記載されるある特定のプロセスおよび方法は、多くの場合、コンピューター、マイクロプロセッサー、ソフトウェア、コンピュータープログラムコンポーネントまたは他のマシンなしでは実施できない。本明細書に記載の方法は、典型的には、コンピューターインプリメント方法であり、方法の1つ以上の一部は、ときには、1つ以上のハードウェアプロセッサー(たとえばマイクロプロセッサー)、コンピューター、またはマイクロプロセッサーにより制御されるマシンにより実施される。本文書に記載の方法に関する実施形態は、一般に、本明細書に記載のシステム、マシン、およびコンピュータープログラム製品の命令により実行されるものと同一のプロセスまたは関連するプロセスに適用可能である。本文書に記載の方法に関する実施形態は、一般に、実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体により実行されるものと同一のプロセスまたは関連するプロセスに適用可能であり、このプログラムは、方法またはその一部を実行するようにマイクロプロセッサーに命令する。本明細書で用いられる「非一時的(non-transitory)」という記述語は、明示的に限定するものであり、一時的伝搬シグナル(たとえば、伝送シグナル、電子伝送、波(たとえば搬送波))を除外する。本明細書で用いられる「非一時的コンピューター可読媒体」という用語は、一時的伝搬シグナルを除くすべてのコンピューター可読媒体を含む。いくつかの実施形態では、本明細書に記載のプロセスおよび方法は、自動化された方法により実施される。いくつかの実施形態では、本明細書に記載の1つ以上のステップおよび方法は、マイクロプロセッサーおよび/もしくはコンピューターにより実施されるならびに/またはメモリーと組み合わせて実施される。いくつかの実施形態では、自動化された方法は、ソフトウェア、コンピュータープログラムコンポーネント、マイクロプロセッサー、周辺機器、および/または同様のものを含むマシンで具現化され、本方法は、(i)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも1つの部分にマッピングされ、かつペアエンドシーケンスリードのいくつかが参照ゲノムの少なくとも1つの部分にマッピングされない、ステップ、(ii)シーケンスリードセットのパイルアップ関係を決定するステップ、(iii)パイルアップ関係に従って1つ以上のコンティグを構築するステップ、(iv)1つ以上のスーパーコンティグをアセンブルするステップ、(v)遺伝子型尤度比を生成するステップ、(vi)遺伝子変異の存在または不在を決定するステップ、または(vii)それらの組合せを実施するステップ、を含む。
いくつかの実施形態では、システムは、シーケンスリードを生成するように構成されたシーケンスコンポーネントを含む。シーケンスコンポーネントは、核酸シーケンサー(たとえば、核酸ライブラリーのためのシーケンスリードを生成するように設計され構成されたマシンまたは装置)ならびに/またはシーケンスリードを生成、アセンブル、マッピング、およびトリミングするように構成されたソフトウェアおよび命令を含みうる。シーケンスコンポーネントは、多くの場合、データファイルの形式(たとえば、bamファイル、fastaファイルなど)でシーケンスリードを提供する。シーケンスコンポーネントは、任意の好適なファイル形式でのシーケンスリードを提供可能である。
いくつかの実施形態では、本明細書に記載のシステム、プロセスまたは方法は、被験体における遺伝的変異の存在または不在を決定する。いくつかの実施形態では、被験体における遺伝子変異の存在または不在は、遺伝子型尤度比および/またはアウトカムコンポーネントにより決定される。遺伝的変異は、一般に、ある特定の個体に存在する特定の遺伝子表現型である。いくつかの実施形態では、遺伝的変異は、染色体異常(たとえば、染色体の1つ以上の部分の損失または獲得)である。遺伝的変異の例としては、限定されるものではないが、1つ以上の欠失、重複、挿入、マイクロ挿入、付加、転座、突然変異、多型(たとえば、単一ヌクレオチド多型、多重ヌクレオチド多型)、融合、反復(たとえば、ショートタンデムリピート(すなわちSTR))など、およびそれらの組合せが挙げられる。挿入、反復、欠失、重複、突然変異、または多型は、任意の長さであり、いくつかの実施形態では、約1塩基または塩基対(bp)〜約250メガ塩基(Mb)の長さである。いくつかの実施形態では、挿入、反復、STR、欠失、重複、突然変異、または多型は、約1ヌクレオチド(nt)〜約50,000ntの長さである(たとえば、約1〜約10,000のヌクレオチド、約1〜約10,000ヌクレオチド、約1〜約10,000ヌクレオチド、約1〜約1,000ヌクレオチド、約1〜約500、ヌクレオチド、約1〜約400ヌクレオチド、約1〜約300ヌクレオチド、約1〜約200ヌクレオチド、約1〜約100ヌクレオチド、または約1〜約50のヌクレオチド)。いくつかの実施形態では、本明細書に記載のプロセス、システム、または方法により決定される遺伝的変異は、約2〜約500ヌクレオチド、約2〜約400ヌクレオチド、約2〜約300ヌクレオチド、約2〜約200ヌクレオチド、約2〜約100ヌクレオチド、約2〜約50ヌクレオチド、10〜約500のヌクレオチド、約10〜約400ヌクレオチド、約10〜約300のヌクレオチド、約10〜約200ヌクレオチド、約10〜約100ヌクレオチド、約10〜約50ヌクレオチド、約20〜約500ヌクレオチド、約20〜約400ヌクレオチド、約20〜約300ヌクレオチド、約20〜約200ヌクレオチド、約20〜約100ヌクレオチド、または約20〜約50のヌクレオチドの長さからなる。
Kragleは、ローカルde−novo配列アセンブリーおよびジェノタイピングパッケージとして設計された。Kragleは、ペアエンドリードから任意の倍数性配列をアセンブルするように設計された。Kragleは、リード長まで伸長するリピート配列を取り扱うために専用に設計されたものであるが、配列の逆位、転座、重複、または欠失から生じる配列接合をコールすることも可能である。Kragleは、一連の遺伝的病態に関与するAR、ATXN1、ATNX2、ATXN3、ATXN7、DMPK、FXN、およびHTT遺伝子のショートタンデムリピート(STR)の二倍体遺伝子型をコールするためにうまく適用された。Kragleは、ヒトBRACA1遺伝子における大きな欠失から生じる仮説接合を確認するためにも、さらにはヒトCFTR遺伝子におけるホモ多量体および近接ジヌクレオチドリピートが関与する複合変異をコールするためにも、使用された。
参照配列と有意に異なるサンプルのゲノム領域から取得されるシーケンスリードは、標準的なリードアライナーに著しい難題を課す。たとえば、ゲノムの変化部分から生じたリードは、間違ったゲノム位置にマッピングされるかまたはマッピングされずに残留することが多かった。しかしながら、そのような場合には、リードメイトペアのリードメイトは、不変の(またはほとんど変化のない)フランキング領域の配列を含有することが多いので、適正にマッピング可能である。拡張STR、配列接合、および大きな複合変異の領域におけるリードマッピング問題を回避するために、リクルートコンポーネントは、リードペアからマッピングされたリードメイトの位置を用いて、Kragleがアセンブルしようとする領域(たとえば、特定の対象のゲノム領域)の情報を与えうるリードを同定する。
スーパーコンティガーは3つのコンポーネント、すなわち、パイルアップ関係コンポーネント(たとえばリード−リードアライナー)、コンティグアセンブリーコンポーネント、およびスーパーコンティグアセンブリーコンポーネントで構成される。3つのコンポーネントは、リクルートコンポーネントから取得したリクルートリードペアセットから始めて、ハプロタイプ配列セット(スーパーコンティグ)を生成する。スーパーコンティグは、対象となるアセンブルされたゲノム領域のハプロタイプ配列(たとえば、中断されている可能性のあるハプロタイプ配列)を生成するように適正な向きで一体的にリンクされかつ順序付けられる1つ以上のコンティグで構成される。
パイルアップ関係コンポーネントは、かかる可能なリード−リードオーバーラップを同定する機能を発揮するように構成され、作成されたグラフ中のある重複を除外することも可能である。他のリードの配列に完全に含まれた各リードを除外するオーバーラップグラフ(Myers EW,et al.,(2005))とは対照的に、パイルアップ関係コンポーネントにより生成されたリードタイリンググラフは、頂点としてすべてのリードを含有し、かつエッジはリード−リードオーバーラップを表す。ローカルde−novoアセンブリーのみを行ってマッピングされたメイトによりリードペアをリクルートする利点は、各リードの向き(鎖)が既知でありリードタイリンググラフが各リードに対する2つの鎖可能性を表現する必要がないことである。代替リード向きが探索されないので、これによりリードタイリンググラフおよびアセンブリータスクが単純化される。
コンティグアセンブリーコンポーネントは、リードタイリンググラフを用いてオーバーラッピングリードを集め、グラフを介してオーバーラッピングリードの経路を伸長する。各コンティグアセンブリーは単一リードから出発する。コンティグアセンブリーは、最初に、アセンブラーがコールしようとした領域(たとえば、対象のゲノム領域)の3’側および5’側から取り出されたリードから始まる2つのコンティグをアセンブルする。各コンティグは各リードを1回のみ使用するが、異なるコンティグはリードを共有可能である。コンティグ構築プロセスは、多型位置に遭遇したら既存のコンティグをスプリットすることにより新しいコンティグを生成する。2つの初期コンティグおよびそれらのスプリットオフコンティグを終了したら、コンティグアセンブラーは、コンティグのいずれでも使用されなかったリードのセットを検査する。未使用リード間にカットオフよりも大きいリードの接続クラスターが見いだされる場合(すでにアセンブルされたコンティグの平均カバレッジ深さに対するパーセントとして計算される − デフォルト10%)、クラスター中のリードの1つから新しいコンティグの構築を始める。カットオフよりも大きい未使用リードクラスターが存在しなくなるまで、新しいコンティグが始められる。
前のステップでアセンブルされたコンティグは、Kragleがコールしようとする全領域にまたがることもあれば、カバレッジが落下する位置または高いリードエラー率(通常系統誤差)により高スコアリード−リードオーバーラップが抑制される位置で終了することもある。かかる場合には、リードペアを用いてコンティグを一体的にリンクすることによりスーパーコンティグを形成することが可能である。リードペアのリード間ギャップが2つの近接コンティグ中に位置し、コンティグ間のカバレッジギャップにまたがるのを許容する場合、かかるリードペアは、コンティグリンクおよびその向きを通知しうる。
コンティグおよびスーパーコンティグの構築はすべての可能な配列配置を生成するので、スーパーコンティグは可能なハプロタイプ配列を表現し、これらを組み合わせればコーラーで適正な倍数性(すなわち二倍体)の配列仮説が生成されよう。ハプロタイパーはハプロタイプオブジェクトを開始し、すべてのリードからすべてのハプロタイプ配列への再マッピングを実施する。この再マッピングは、「コーラー」の節に記載のマッピングウェイトの前計算も含む。ハプロタイパーはまた、ハプロタイプ配列中の偽接合および偽挿入の同定を実施する。ハプロタイパーをコーラーから分離する主な理由は、配列仮説に組み合わせる前に、偽接合および偽挿入の同定のアウトカムに基づいて、コーリングプログラムにハプロタイプのフィルタリング機会を与えうることである。同定された偽接合および偽挿入は、リードによりそれらのサポートを決定する必要情報と共に各ハプロタイプオブジェクトに列挙される。コーリングプログラムは、サポート情報に基づくカットオフを使用してハプロタイプフィルタリングのそれ自体のストリンジェンシーを適用することが可能である。
アルゴリズムは、いくらかの配列類似性に起因してアセンブリープロセスで連結されたゲノムの異なる部分に属する配列の間の接合を同定すること目的をとする。配列類似性は、いくつかのリードをある特定の配列に連結させうるが、接合はまばらにカバーされるであろう。したがって、これらの接合は、接合位置にまたがるリードペアの数が予想よりもかなり低い配列中の点として同定可能である。アルゴリズムは、ある距離だけ離れたメイトの期待数を計算してそれを観測カウントと比較することにより可能な偽接合(インサートサイズ分布の範囲)を見いだす。次いで、低い観測数/期待数比の位置を偽接合の可能性があるとしてマーク付けする。χ2検定を用いて観測数−期待数差の有意性を決定することが可能であるが、かかるp値は、インサートサイズ分布中の正規変動を有する位置に対するカバレッジの増加に伴って次第に感度が高くなるであろう。
偽挿入検出アルゴリズムは、接合位でなんらかの配列類似性を用いてフランクで親配列に連結された外来(または誤配置)配列の挿入を検出することを目的とする。かかる挿入は、偽接合(以上に記載)の組合せを用いて潜在的に同定可能であるが、以下に記載の専用アルゴリズムは、偽接合アルゴリズムよりもかなり高感度かつ特異的である。
ハプロタイパーにより生成されたハプロタイプは、偽接合および偽挿入に関してフィルタリング可能であり、次いで、それらを組み合わせて一倍体、二倍体、一般的には任意の倍数性の配列仮説を生成可能である。二倍体配列仮説では、コーラーは、同一のハプロタイプの2つのコピーからなるホモ接合配置を含めて、すべての可能なハプロタイプペアを探索した。したがって、二倍体仮説評価プロセスは、ハプロタイプの数の二乗で計算の複雑さをスケールインした。したがって、アドホックなハプロタイプおよび仮説フィルタリングを回避するために、仮説尤度評価は計算効率が良くなければならない。Carnevali(Carnevali et al.2012)により記載された統計的フレームワークを検討したが、ある特定の態様ではうまく行かなかった。たとえば、Carnevaliのフレームワークは、いずれの対立遺伝子比にも対処できなかった(モザイクゲノムおよび癌ゲノムの場合)。式2の統計的フレームワークは、任意の対立遺伝子比(モザイクと癌のゲノム用の)に対処するように拡張修正された。この新しいフレームワーク(たとえば、式1を参照されたい)は、各ハプロタイプに対して尤度計算の多くのコンポーネントの前計算を可能にしたので、ハプロタイプを組み合わせて二倍体仮説にしたりその尤度を計算したりするのにかなり少ない計算量を要するにすぎなかった。
Carnevali,P.,et al.2012.Computational Techniques for Human Genome Resequencing Using Mated Gapped Reads.J.Comput.Biol.19,279−292。
Claims (191)
- 実行可能プログラムを記憶した非一時的コンピューター可読記憶媒体において、前記プログラムが、
(a)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつ前記ペアエンドシーケンスリードのいくつかが前記参照ゲノムの前記少なくとも一部にマッピングされない、ステップと、
(b)前記シーケンスリードセットのパイルアップ関係を決定するステップと、
(c)(b)で決定されたパイルアップ関係に従って1つ以上のコンティグを構築するステップであって、1つ以上のスターターリードの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含み、前記位置がマジョリティーコンセンサスヌクレオチドを含む、ステップと、
(d)(c)で構築した1つ以上のコンティグおよび/または(c)で構築したコンティグの2つ以上をブリッジする1つ以上のリードメイトペアに従って1つ以上のスーパーコンティグをアセンブルするステップと、
(e)前記1つ以上のスーパーコンティグに従って遺伝子型尤度比を生成するステップと、
(f)(e)で生成した遺伝子型尤度比に従って遺伝子変異の存在または不在を決定するステップと、
をマイクロプロセッサーに命令するように構成されることを特徴とする記憶媒体。 - 前記パイルアップ関係が前記セットの2つ以上のリード間の複数のオーバーラップを含むことを特徴とする請求項1に記載の記憶媒体。
- (i)前記セットの第1のリードが前記セットの第2のリードとの第1のオーバーラップを含み、(ii)前記第1のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第2のリードが前記第1のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ(iv)前記第1のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第1のオーバーラップのうち最も高いアライメントスコアを含むように、前記複数のオーバーラップのそれぞれが選択されることを特徴とする請求項2に記載の記憶媒体。
- 前記第2のリードが前記セットの第3のリードとの第2のオーバーラップを構成し、(i)前記第2のリードは前記第1のオーバーラップを含み、(ii)前記第2のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第3のリードが前記第2のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ前記第2のリードおよび第3のリードが同一の3’方向または5’方向に前記第1のリードを伸長し、かつ(iv)前記第2のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第2のオーバーラップのうち最も高いアライメントスコアを含むことを特徴とする請求項3に記載の記憶媒体。
- 前記マジョリティーコンセンサスヌクレオチドが、前記パイルアップ関係で決定された複数のオーバーラップに従って決定されることを特徴とする請求項2〜4のいずれか一項に記載の記憶媒体。
- 前記コンティグを構築するステップが、1つ以上の中間コンティグのそれぞれの3’位置または5’位置に少なくとも1つヌクレオチドを繰り返し付加するステップを含むことを特徴とする請求項1〜5のいずれか一項に記載の記憶媒体。
- 前記位置が2つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグのコピーを生成することにより2つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記2つの同一の中間コンティグのそれぞれに付加されるように前記2つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記2つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項6に記載の記憶媒体。
- 前記位置が3つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの2つのコピーを生成することにより3つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記3つの同一の中間コンティグのそれぞれに付加されるように前記3つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記3つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項6に記載の記憶媒体。
- 前記位置が4つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの3つのコピーを生成することにより4つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記4つの同一の中間コンティグのそれぞれに付加されるように前記4つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記4つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項6に記載の記憶媒体。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがるコンティグを含むことを特徴とする請求項1〜9のいずれか一項に記載の記憶媒体。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがることを特徴とする請求項1〜10のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードがヒト被験体から取得したサンプルから得られることを特徴とする請求項1〜11のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードのそれぞれが既知の向きを含むことを特徴とする請求項1〜12のいずれか一項に記載の記憶媒体。
- 前記リードメイトペアのそれぞれがインサートサイズ分布に関連付けられることを特徴とする請求項1〜13のいずれか一項に記載の記憶媒体。
- 前記遺伝子型仮説尤度比が1つ以上のマッピングウェイトに従って決定されることを特徴とする請求項1〜13のいずれか一項に記載の記憶媒体。
- 前記マジョリティーコンセンサスヌクレオチドがアライメントに従って決定されることを特徴とする請求項1〜15のいずれか一項に記載の記憶媒体。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリード間のコンセンサスに従って決定されることを特徴とする請求項16に記載の記憶媒体。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリードの10%以上間のコンセンサスに従って決定されることを特徴とする請求項17に記載の記憶媒体。
- 前記第1のリードが、前記第1のリードの5’末端を越えて伸長する少なくとも2つのオーバーラップと、前記第1のリードの3’末端を越えて伸長する少なくとも2つのオーバーラップと、を含むことを特徴とする請求項2〜18のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップが、複数の第1のリードで決定された複数の第1のオーバーラップを含むことを特徴とする請求項2〜19のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップが、複数の第2のリードで決定された複数の第2のオーバーラップを含む、請求項2〜20のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップがそれぞれオーバーラップスコアを含むことを特徴とする請求項2〜21のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップがフィルタリングされることを特徴とする請求項2〜22に記載の記憶媒体。
- (c)の前に前記複数のオーバーラップをフィルタリングするように前記マイクロプロセッサーに命令するステップを含むことを特徴とする請求項2〜23のいずれか一項に記載の記憶媒体。
- 前記フィルタリングがプルーニングアルゴリズムを含むことを特徴とする請求項23または24に記載の記憶媒体。
- 前記複数のオーバーラップの1つ以上が前記フィルタリングに従って除去されることを特徴とする請求項22〜25のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップの1つ以上が所定のアライメントスコア閾値に従って除去されることを特徴とする請求項3〜26のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップが挿入も欠失も含まないことを特徴とする請求項2〜27のいずれか一項に記載の記憶媒体。
- 前記パイルアップ関係に従ってタイリンググラフを生成するステップを含むことを特徴とする請求項1〜28のいずれか一項に記載の記憶媒体。
- 前記複数のオーバーラップのそれぞれがk−merハッシングストラテジーに従って決定されることを特徴とする請求項2〜29のいずれか一項に記載の記憶媒体。
- 前記スターターリードが、所定の対象のゲノム領域の最も5’側に位置するリードを含むことを特徴とする請求項1〜30のいずれか一項に記載の記憶媒体。
- 前記スターターリードが、所定の対象のゲノム領域の最も3’側に位置するリードを含むことを特徴とする請求項1〜31のいずれか一項に記載の記憶媒体。
- 前記2つ以上のコンティグが、第1のコンティグにオーバーラップする第1のリードメイトペアの第1のリードメイトと、第2のコンティグにオーバーラップする第1のリードメイトペアの第2のリードメイトと、によりブリッジされることを特徴とする請求項1〜32のいずれか一項に記載の記憶媒体。
- 前記第1のコンティグが複数のリードメイトペアに従って前記第2のコンティグに連結されることを特徴とする請求項33に記載の記憶媒体。
- (d)で前記2つの以上のコンティグの2つを連結するステップが、グラフを作成するステップを含み、第1のコンティグおよび第2のコンティグが頂点を含み、リードメイトペアのリードメイトの1つ以上のオーバーラップが有向エッジを含むことを特徴とする請求項1〜34のいずれか一項に記載の記憶媒体。
- 前記第1のコンティグおよび前記第2のコンティグが少なくとも5つのリードメイトペアにより連結され、前記少なくとも5つのリードメイトペアのそれぞれが、前記第1のコンティグにオーバーラップするリードメイトと、前記第2のコンティグにオーバーラップするリードメイトと、を含むことを特徴とする請求項34または35に記載の記憶媒体。
- 前記遺伝的変異がショートタンデムリピートを含むことを特徴とする請求項1〜36のいずれか一項に記載の記憶媒体。
- 前記遺伝的変異が1つ以上の単一ヌクレオチド多型を含むことを特徴とする請求項1〜37のいずれか一項に記載の記憶媒体。
- 前記ヒト被験体が二倍体であることを特徴とする請求項12〜38のいずれか一項に記載の記憶媒体。
- 前記遺伝的変異が、AR、ATXN1、ATXN2、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR、およびBRACA1から選択される遺伝子内に含まれることを特徴とする請求項1〜40のいずれか一項に記載の記憶媒体。
- (a)、(b)、(c)、および(d)が、エラー補正を含むプロセスを含まないことを特徴とする請求項1〜41のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードがソートbamファイルを含むことを特徴とする請求項1〜42のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードがインサートサイズ分布ファイルを含むことを特徴とする請求項1〜43のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードがfastqファイルおよびfastaファイルの1つ以上を含むことを特徴とする請求項1〜44のいずれか一項に記載の記憶媒体。
- 前記シーケンスリードが(b)の前にトリミングされることを特徴とする請求項1〜45のいずれか一項に記載の記憶媒体。
- インサートサイズ尤度が決定されることを特徴とする請求項13〜46のいずれか一項に記載の記憶媒体。
- 推定インサートサイズ尤度がインサートサイズ分布コンポーネントにより決定されることを特徴とする請求項47に記載の記憶媒体。
- 前記参照ゲノムの少なくとも一部が染色体の一部であることを特徴とする請求項1〜48のいずれか一項に記載の記憶媒体。
- 前記参照ゲノムの少なくとも一部が第1染色体の一部および第2染色体の一部であることを特徴とする請求項1〜49のいずれか一項に記載の記憶媒体。
- 前記リードメイトペアが不一致リードメイトを含むことを特徴とする請求項1〜50のいずれか一項に記載の記憶媒体。
- (c)の前にすべての可能なオーバーラップが同定されることを特徴とする請求項1〜51のいずれか一項に記載の記憶媒体。
- (e)の遺伝子型尤度比を生成するステップが、前記シーケンスリードを前記1つ以上のスーパーコンティグに再アライメントするステップを含むことを特徴とする請求項1〜52のいずれか一項に記載の記憶媒体。
- 前記倍数性が二倍体であることを特徴とする請求項40〜53のいずれか一項に記載の記憶媒体。
- 前記複数のリードメイトペアのそれぞれが、(c)で構築される1つ以上のコンティグのいずれか1つの構築に2回以上使用されないことを特徴とする請求項1〜54のいずれか一項に記載の記憶媒体。
- (d)でアセンブルされる複数のスーパーコンティグの2つ以上が、リードメイトペアの2つのリードメイトのそれぞれの向きに従ってアセンブルされることを特徴とする請求項1〜55のいずれか一項に記載の記憶媒体。
- (d)でアセンブルされる複数のスーパーコンティグの2つ以上が、1つ以上のインサートサイズ尤度に関連付けられることを特徴とする請求項4〜56のいずれか一項に記載の記憶媒体。
- 前記遺伝子型尤度比を生成するステップが、所定の倍数性で対象のゲノム領域の全長にまたがる1つ以上のスーパーコンティグに従って1つ以上の予想遺伝子型を決定するステップを含むことを特徴とする請求項1〜57のいずれか一項に記載の記憶媒体。
- 前記1つ以上の予想遺伝子型のそれぞれが確率に関連付けられることを特徴とする請求項58に記載の記憶媒体。
- 前記遺伝子型尤度比を生成するステップが、1つ以上のハプロタイプに従って1つ以上の予想遺伝子型を決定するステップを含み、各ハプロタイプが、対象のゲノム領域の全長にまたがるスーパーコンティグに従って決定されることを特徴とする請求項1〜59のいずれか一項に記載の記憶媒体。
- 遺伝子変異の存在または不在が被験体で決定されることを特徴とする請求項1〜60のいずれか一項に記載の記憶媒体。
- 被験体で遺伝子変異の存在または不在を決定するシステムにおいて、前記システムが、コンピュータープログラムコンポーネントを実行するように構成された1つ以上のハードウェアプロセッサーを含み、前記コンピュータープログラムコンポーネントが、
(a)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するように構成されたリクルートコンポーネントであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくとも1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、かつ前記ペアエンドシーケンスリードのいくつかが前記参照ゲノムの前記少なくとも一部にマッピングされない、リクルートコンポーネントと、
(b)前記シーケンスリードセットのパイルアップ関係を決定するように構成されたパイルアップ関係コンポーネントと、
(c)(b)で決定されたパイルアップ関係に従って1つ以上のコンティグを構築するように構成されたコンティグアセンブリーコンポーネントであって、1つ以上のスターターリードの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含み、前記位置がマジョリティーコンセンサスヌクレオチドを含む、コンティグアセンブリーコンポーネントと、
(d)(c)で構築した1つ以上のコンティグおよび/または(c)で構築したコンティグの2つ以上をブリッジする1つ以上のリードメイトペアに従って1つ以上のスーパーコンティグをアセンブルするように構成されたスーパーコンティグコンポーネントステップと、
(e)前記1つ以上のスーパーコンティグに従って遺伝子型尤度比を生成するように構成されたコーラーコンポーネントと、
を含むことを特徴とするシステム。 - 前記1つ以上のスーパーコンティグからハプロタイプを構築するように構成されたハプロタイプコンポーネントをさらに含むことを特徴とする請求項62に記載のシステム。
- 前記ハプロタイプコンポーネントが、すべてのリードを前記1つ以上のスーパーコンティグに再マッピングするように構成されることを特徴とする請求項63に記載のシステム。
- 前記ハプロタイプコンポーネントが、前記1つ以上のスーパーコンティグの不規則性を同定するように構成されることを特徴とする請求項63または64に記載のシステム。
- リードペアの2つのリードのマッピングにより示唆されるインサートサイズの確率を決定するように構成されたインサートサイズ分布コンポーネントをさらに含むことを特徴とする請求項62〜65のいずれか一項に記載のシステム。
- 前記インサートサイズ分布コンポーネントが、2つ以上のリードペアでインサートサイズの2つ以上の確率を決定するように構成されることを特徴とする請求項66に記載のシステム。
- (e)で生成した遺伝子型尤度比に従って前記被験体で遺伝子変異の存在または不在を決定するように構成されたアウトカムコンポーネントをさらに含むことを特徴とする請求項62〜67のいずれか一項に記載のシステム。
- 前記パイルアップ関係が前記セットの2つ以上のリード間の複数のオーバーラップを含むことを特徴とする請求項62〜68のいずれか一項に記載のシステム。
- 前記複数のオーバーラップのそれぞれが、(i)前記セットの第1のリードがセットの第2のリードとの第1のオーバーラップを含み、(ii)前記第1のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第2のリードが前記第1のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ(iv)前記第1のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第1のオーバーラップのうち最も高いアライメントスコアを含むように選択されることを特徴とする請求項69に記載のシステム。
- 前記第2のリードが、前記セットの第3のリードとの第2のオーバーラップを含み、(i)前記第2のリードが前記第1のオーバーラップを含み、(ii)前記第2のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第3のリードが前記第2のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ前記第2のリードおよび前記第3のリードが同一の3’方向または5’方向に前記第1のリードを伸長し、かつ(iv)第2のオーバーラップは(i)、(ii)、および(iii)を満たすすべての可能な第2のオーバーラップのうち最も高いアライメントスコアを含むことを特徴とする請求項70に記載のシステム。
- 前記マジョリティーコンセンサスヌクレオチドが、前記パイルアップ関係で決定された複数のオーバーラップに従って決定されることを特徴とする請求項69〜71のいずれか一項に記載のシステム。
- 前記コンティグを構築するステップが、1つ以上の中間コンティグのそれぞれの3’位置または5’位置に少なくとも1つのヌクレオチドを繰り返し付加するステップを含むことを特徴とする請求項62〜72のいずれか一項に記載のシステム。
- 前記位置が2つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、中間コンティグのコピーを生成することにより2つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記2つの同一の中間コンティグのそれぞれに付加されるように前記2つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記2つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項73に記載のシステム。
- 前記位置が3つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの2つのコピーを生成することにより3つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記3つの同一の中間コンティグのそれぞれに付加されるように前記3つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記3つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項73に記載のシステム。
- 前記位置が4つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの3つのコピーを生成することにより4つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記4つの同一の中間コンティグのそれぞれに付加されるように前記4つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記4つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項73に記載のシステム。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがるコンティグを含むことを特徴とする請求項62〜76のいずれか一項に記載のシステム。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがることを特徴とする請求項1〜77のいずれか一項に記載のシステム。
- 前記シーケンスリードがヒト被験体から取得したサンプルから得られることを特徴とする請求項62〜78のいずれか一項に記載のシステム。
- 前記シーケンスリードのそれぞれが既知の向きを含むことを特徴とする請求項62〜79のいずれか一項に記載のシステム。
- 前記リードメイトペアのそれぞれがインサートサイズ分布に関連付けられることを特徴とする請求項62〜80のいずれか一項に記載のシステム。
- 前記遺伝子型仮説尤度比が1つ以上のマッピングウェイトに従って決定されることを特徴とする請求項62〜80のいずれか一項に記載のシステム。
- 前記マジョリティーコンセンサスヌクレオチドがアライメントに従って決定されることを特徴とする請求項62〜82のいずれか一項に記載のシステム。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリード間のコンセンサスに従って決定されることを特徴とする請求項83に記載のシステム。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリードの10%以上間のコンセンサスに従って決定されることを特徴とする請求項84に記載のシステム。
- 前記第1のリードが、前記第1のリードの5’末端を越えて伸長する少なくとも2つのオーバーラップと、前記第1のリードの3’末端を越えて伸長する少なくとも2つのオーバーラップと、を含むことを特徴とする請求項69〜85のいずれか一項に記載のシステム。
- 前記複数のオーバーラップが複数の第1のリードで決定された複数の第1のオーバーラップを含むことを特徴とする請求項69〜86のいずれか一項に記載のシステム。
- 前記複数のオーバーラップが複数の第2のリードで決定された複数の第2のオーバーラップを含むことを特徴とする請求項69〜87のいずれか一項に記載のシステム。
- 前記複数のオーバーラップがそれぞれオーバーラップスコアを含むことを特徴とする請求項69〜88のいずれか一項に記載のシステム。
- 前記複数のオーバーラップがフィルタリングされることを特徴とする請求項69〜89に記載のシステム。
- (c)の前に前記複数のオーバーラップをフィルタリングするように前記マイクロプロセッサーに命令するステップを含むことを特徴とする、請求項69〜89のいずれか一項に記載のシステム。
- 前記フィルタリングがプルーニングアルゴリズムを含むことを特徴とする請求項90または91に記載のシステム。
- 前記複数のオーバーラップの1つ以上がフィルタリングに従って除去されることを特徴とする請求項87〜92のいずれか一項に記載のシステム。
- 前記複数のオーバーラップの1つ以上が所定のアライメントスコア閾値に従って除去されることを特徴とする請求項70〜93のいずれか一項に記載のシステム。
- 前記複数のオーバーラップが挿入も欠失も含まないことを特徴とする請求項69〜94のいずれか一項に記載のシステム。
- 前記パイルアップ関係に従ってタイリンググラフを生成するステップを含むことを特徴とする請求項62〜95のいずれか一項に記載のシステム。
- 前記複数のオーバーラップのそれぞれがk−merハッシングストラテジーに従って決定されることを特徴とする請求項69〜96のいずれか一項に記載のシステム。
- 前記スターターリードが、対象の所定のゲノム領域の最も5’側に位置するリードを含むことを特徴とする請求項62〜97のいずれか一項に記載のシステム。
- 前記スターターリードが、所定の対象のゲノム領域の最も3’側に位置するリードを含むことを特徴とする請求項62〜98のいずれか一項に記載のシステム。
- 前記2つ以上のコンティグが、第1のコンティグにオーバーラップする第1のリードメイトペアの第1のリードメイトと、第2のコンティグにオーバーラップする第1のリードメイトペアの第2のリードメイトと、によりブリッジされることを特徴とする請求項62〜99のいずれか一項に記載のシステム。
- 前記第1のコンティグが複数のリードメイトペアに従って前記第2のコンティグに連結されることを特徴とする請求項100に記載のシステム。
- (d)で前記2つ以上のコンティグの2つを連結するステップがグラフを作成するステップを含み、第1のコンティグおよび第2のコンティグが頂点を含み、リードメイトペアのリードメイトの1つ以上のオーバーラップが有向エッジを含むことを特徴とする請求項62〜99のいずれか一項に記載のシステム。
- 前記第1のコンティグおよび前記第2のコンティグが少なくとも5つのリードメイトペアにより連結され、前記少なくとも5つのリードメイトペアのそれぞれが、前記第1のコンティグにオーバーラップするリードメイトと、前記第2のコンティグにオーバーラップするリードメイトと、を含むことを特徴とする請求項101または102に記載のシステム。
- 前記遺伝的変異がショートタンデムリピートを含むことを特徴とする請求項62〜103のいずれか一項に記載のシステム。
- 前記遺伝的変異が1つ以上の単一ヌクレオチド多型を含むことを特徴とする請求項62〜104のいずれか一項に記載のシステム。
- 前記ヒト被験体が二倍体であることを特徴とする請求項79〜105のいずれか一項に記載のシステム。
- 前記遺伝的変異が、AR、ATXN1、ATXN2、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR、およびBRACA1から選択される遺伝子内に含まれることを特徴とする請求項62〜107のいずれか一項に記載のシステム。
- (a)、(b)、(c)、および(d)が、エラー補正を含むプロセスを含まないことを特徴とする請求項62〜108のいずれか一項に記載のシステム。
- 前記シーケンスリードがソートbamファイルを含むことを特徴とする請求項62〜109のいずれか一項に記載のシステム。
- 前記シーケンスリードがインサートサイズ分布ファイルを含むことを特徴とする請求項62〜110のいずれか一項に記載のシステム。
- 前記シーケンスリードがfastqファイルおよびfastaファイルの1つ以上を含むことを特徴とする請求項62〜111のいずれか一項に記載のシステム。
- 前記シーケンスリードが(b)の前にトリミングされることを特徴とする請求項62〜112のいずれか一項に記載のシステム。
- 前記インサートサイズ尤度が決定されることを特徴とする請求項81〜113のいずれか一項に記載のシステム。
- 推定インサートサイズ尤度がインサートサイズ分布コンポーネントにより決定されることを特徴とする請求項114に記載のシステム。
- 前記参照ゲノムの少なくとも一部が染色体の一部であることを特徴とする請求項62〜115のいずれか一項に記載のシステム。
- 前記参照ゲノムの少なくとも一部が第1染色体の一部および第2染色体の一部であることを特徴とする請求項62〜116のいずれか一項に記載のシステム。
- 前記リードメイトペアが不一致リードメイトを含むことを特徴とする請求項62〜117のいずれか一項に記載のシステム。
- (c)の前にすべての可能なオーバーラップが同定されることを特徴とする請求項62〜118のいずれか一項に記載のシステム。
- (e)の遺伝子型尤度比を生成するステップが、前記シーケンスリードを前記1つ以上のスーパーコンティグに再アライメントするステップを含むことを特徴とする請求項62〜119のいずれか一項に記載のシステム。
- 前記倍数性が二倍体であることを特徴とする請求項107〜120のいずれか一項に記載のシステム。
- 前記複数のリードメイトペアのそれぞれが、(c)で構築した1つ以上のコンティグのいずれか1つの構築に2回以上使用されないことを特徴とする請求項62〜120のいずれか一項に記載のシステム。
- (d)でアセンブルされる複数のスーパーコンティグの2つ以上が、リードメイトペアの2つのリードメイトのそれぞれの向きに従ってアセンブルされることを特徴とする請求項62〜122のいずれか一項に記載のシステム。
- (d)でアセンブルされる複数のスーパーコンティグの2つ以上が、1つ以上のインサートサイズ尤度に関連付けられることを特徴とする請求項71〜122のいずれか一項に記載のシステム。
- 前記遺伝子型尤度比を生成するステップが、所定の倍数性で対象のゲノム領域の全長にまたがる1つ以上のスーパーコンティグに従って1つ以上の予想遺伝子型を決定するステップを含むことを特徴とする請求項62〜124のいずれか一項に記載のシステム。
- 前記1つ以上の予想遺伝子型のそれぞれが確率に関連付けられることを特徴とする請求項125に記載のシステム。
- 前記遺伝子型尤度比を生成するステップが、1つ以上のハプロタイプに従って1つ以上の予想遺伝子型を決定するステップを含み、各ハプロタイプが、対象のゲノム領域の全長にまたがるスーパーコンティグに従って決定されることを特徴とする請求項62〜124のいずれか一項に記載のシステム。
- 遺伝子変異の存在または不在が被験体で決定されることを特徴とする請求項62〜127のいずれか一項に記載のシステム。
- 被験体で遺伝子変異の存在または不在を決定するコンピューターインプリメント方法において、
(a)複数のリードメイトペアを含むペアエンドシーケンスリードセットを取得するステップであって、各ペアが2つのリードメイトを含み、各ペアの2つのリードメイトの少なくともの1つが、所定の対象のゲノム領域を含む参照ゲノムの少なくとも一部にマッピングされ、前記ペアエンドシーケンスリードのいくつかが、前記参照ゲノムの前記少なくとも一部にマッピングされない、ステップと、
(b)前記シーケンスリードセットでパイルアップ関係を決定するステップと、
(c)(b)で決定されたパイルアップ関係に従って1つ以上のコンティグを構築するステップであって、1つ以上のスターターリードの3’位置または5’位置に少なくとも1つヌクレオチドを繰り返し付加するステップを含み、前記位置がマジョリティーコンセンサスヌクレオチドを含む、ステップと、
(d)(c)で構築した1つ以上のコンティグおよび/または(c)で構築したコンティグの2つ以上をブリッジする1つ以上のリードメイトペアに従って1つ以上のスーパーコンティグをアセンブルするステップと、
(e)前記1つ以上のスーパーコンティグに従って遺伝子型尤度比を生成するステップと、
(f)(e)で生成した遺伝子型尤度比に従って遺伝子変異の存在または不在を決定するステップと、
を含むことを特徴とする方法。 - 前記パイルアップ関係が前記セットの2つ以上のリード間の複数のオーバーラップを含むことを特徴とする請求項129に記載の方法。
- (i)前記セットの第1のリードが前記セットの第2のリードとの第1のオーバーラップを含み、(ii)前記第1のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第2のリードが前記第1のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ(iv)前記第1のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第1のオーバーラップのうち最も高いアライメントスコアを含むように、前記複数のオーバーラップのそれぞれが選択されることを特徴とする請求項130に記載の方法。
- 前記第2のリードが、前記セットの第3のリードとの第2のオーバーラップを含み、(i)前記第2のリードが前記第1のオーバーラップを含み、(ii)前記第2のオーバーラップが所定のアライメントスコア閾値よりも大きいアライメントスコアを含み、(iii)前記第3のリードが前記第2のリードの3’末端または5’末端を越えて1つ以上のヌクレオチドを伸長し、かつ前記第2のリードおよび前記第3のリードが同一の3’方向または5’方向に第1のリードを伸長し、かつ(iv)前記第2のオーバーラップが(i)、(ii)、および(iii)を満たすすべての可能な第2のオーバーラップのうち最も高いアライメントスコアを含むことを特徴とする請求項131に記載の方法。
- 前記マジョリティーコンセンサスヌクレオチドが、前記パイルアップ関係で決定された複数のオーバーラップに従って決定されることを特徴とする請求項130〜132のいずれか一項に記載の方法。
- 前記コンティグを構築するステップが、少なくとも1つヌクレオチドを1つ以上の中間コンティグのそれぞれの3’位置または5’位置に繰り返し付加するステップを含むことを特徴とする請求項129〜133のいずれか一項に記載の方法。
- 前記位置が2つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグのコピーを生成することにより2つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記2つの同一の中間コンティグのそれぞれに付加されるように前記2つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記2つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項134に記載の方法。
- 前記位置が3つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの2つのコピーを生成することにより3つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記3つの同一の中間コンティグのそれぞれに付加されるように前記3つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記3つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項134に記載の方法。
- 前記位置が4つの異なるマジョリティーコンセンサスヌクレオチドを含み、前記コンティグを構築するステップが、前記中間コンティグの3つのコピーを生成することにより4つの同一の中間コンティグを提供するステップと、異なるヌクレオチドが前記4つの同一の中間コンティグのそれぞれに付加されるように前記4つの異なるマジョリティーコンセンサスヌクレオチドの1つを前記4つの同一の中間コンティグのそれぞれに付加するステップと、を含むことを特徴とする請求項134に記載の方法。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがるコンティグを含むことを特徴とする請求項129〜137のいずれか一項に記載の方法。
- 前記1つ以上のスーパーコンティグが対象のゲノム領域の全長にまたがることを特徴とする請求項129〜138のいずれか一項に記載の方法。
- 前記シーケンスリードがヒト被験体から取得したサンプルから得られることを特徴とする請求項129〜139のいずれか一項に記載の方法。
- 前記シーケンスリードのそれぞれが既知の向きを含むことを特徴とする請求項129〜140のいずれか一項に記載の方法。
- 前記リードメイトペアのそれぞれがインサートサイズ分布に関連付けられることを特徴とする請求項129〜141のいずれか一項に記載の方法。
- 前記遺伝子型仮説尤度比が1つ以上のマッピングウェイトに従って決定されることを特徴とする請求項129〜142のいずれか一項に記載の方法。
- 前記マジョリティーコンセンサスヌクレオチドがアライメントに従って決定されることを特徴とする請求項129〜143のいずれか一項に記載の方法。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリード間のコンセンサスに従って決定されることを特徴とする請求項144に記載の方法。
- 前記マジョリティーコンセンサスヌクレオチドが、アライメントされる5個以上のリードの10%以上間のコンセンサスに従って決定されることを特徴とする請求項145に記載の方法。
- 前記第1のリードが、前記第1のリードの5’末端を越えて伸長する少なくとも2つのオーバーラップと、前記第1のリードの3’末端を越えて伸長する少なくとも2つのオーバーラップと、を含むことを特徴とする請求項130〜146のいずれか一項に記載の方法。
- 前記複数のオーバーラップが、複数の第1のリードで決定された複数の第1のオーバーラップを含むことを特徴とする請求項130〜147のいずれか一項に記載の方法。
- 前記複数のオーバーラップが、複数の第2のリードで決定された複数の第2のオーバーラップを含むことを特徴とする請求項130〜148のいずれか一項に記載の方法。
- 前記複数のオーバーラップがそれぞれオーバーラップスコアを含むことを特徴とする請求項130〜149のいずれか一項に記載の方法。
- 前記複数のオーバーラップがフィルタリングされることを特徴とする請求項130〜150のいずれか一項に記載の方法。
- (c)の前に複数のオーバーラップをフィルタリングするようにマイクロプロセッサーに命令するステップを含むことを特徴とする請求項130〜151のいずれか一項に記載の方法。
- 前記フィルタリングがプルーニングアルゴリズムを含むことを特徴とする請求項151または152に記載の方法。
- 前記複数のオーバーラップの1つ以上がフィルタリングに従って除去されることを特徴とする請求項150〜153のいずれか一項に記載の方法。
- 前記複数のオーバーラップの1つ以上が所定のアライメントスコア閾値に従って除去されることを特徴とする請求項131〜154のいずれか一項に記載の方法。
- 前記複数のオーバーラップが挿入も欠失も含まないことを特徴とする請求項130〜155のいずれか一項に記載の方法。
- 前記パイルアップ関係に従ってタイリンググラフを生成するステップを含むことを特徴とする請求項130〜156のいずれか一項に記載の方法。
- 前記複数のオーバーラップのそれぞれがk−merハッシングストラテジーに従って決定されることを特徴とする請求項130〜157のいずれか一項に記載の方法。
- 前記スターターリードが所定の対象のゲノム領域の最も5’側に位置するリードを含むことを特徴とする請求項129〜158のいずれか一項に記載の方法。
- 前記スターターリードが所定の対象のゲノム領域の最も3’側に位置するリードを含むことを特徴とする請求項129〜159のいずれか一項に記載の方法。
- 前記2つ以上のコンティグが、第1のコンティグにオーバーラップする第1のリードメイトペアの第1のリードメイトと、第2のコンティグにオーバーラップする第1のリードメイトペアの第2のリードメイトと、によりブリッジされることを特徴とする請求項129〜160のいずれか一項に記載の方法。
- 前記第1のコンティグが複数のリードメイトペアに従って第2のコンティグに連結されることを特徴とする請求項161に記載の方法。
- (d)で前記2つ以上のコンティグの2つを連結するステップがグラフを作成するステップを含み、第1のコンティグおよび第2のコンティグが頂点を含み、リードメイトペアのリードメイトの1つ以上のオーバーラップが有向エッジを含むことを特徴とする請求項129〜162のいずれか一項に記載の方法。
- 前記第1のコンティグおよび前記第2のコンティグが少なくとも5つのリードメイトペアにより連結され、前記少なくとも5つのリードメイトペアのそれぞれが、前記第1のコンティグにオーバーラップするリードメイトと、前記第2のコンティグにオーバーラップするリードメイトと、を含むことを特徴とする請求項162または163に記載の方法。
- 前記遺伝的変異がショートタンデムリピートを含むことを特徴とする請求項129〜164のいずれか一項に記載の方法。
- 前記遺伝的変異が1つ以上の単一ヌクレオチド多型を含むことを特徴とする請求項129〜165のいずれか一項に記載の方法。
- 前記ヒト被験体が二倍体であることを特徴とする請求項140〜166のいずれか一項に記載の方法。
- 前記遺伝的変異が、AR、ATXN1、ATXN2、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR、およびBRACA1から選択される遺伝子内に含まれることを特徴とする請求項129〜168のいずれか一項に記載の方法。
- (a)、(b)、(c)および(d)がエラー補正を含むプロセスを含まないことを特徴とする請求項129〜169のいずれか一項に記載の方法。
- 前記シーケンスリードがソートbamファイルを含むことを特徴とする請求項129〜170のいずれか一項に記載の方法。
- 前記シーケンスリードがインサートサイズ分布ファイルを含むことを特徴とする請求項129〜171のいずれか一項に記載の方法。
- 前記シーケンスリードがfastqファイルおよびfastaファイルの1つ以上を含むことを特徴とする請求項129〜172のいずれか一項に記載の方法。
- 前記シーケンスリードが(b)の前にトリミングされることを特徴とする請求項129〜173のいずれか一項に記載の方法。
- インサートサイズ尤度が決定されることを特徴とする請求項142〜174のいずれか一項に記載の方法。
- 推定インサートサイズ尤度がインサートサイズ分布コンポーネントにより決定されることを特徴とする請求項175に記載の方法。
- 前記参照ゲノムの少なくとも一部が染色体の一部であることを特徴とする請求項129〜176のいずれか一項に記載の方法。
- 前記参照ゲノムの少なくとも一部が第1染色体の一部および第2染色体の一部であることを特徴とする請求項129〜177のいずれか一項に記載の方法。
- 前記リードメイトペアが不一致リードメイトを含むことを特徴とする請求項129〜178のいずれか一項に記載の方法。
- (c)の前にすべての可能なオーバーラップが同定されることを特徴とする請求項129〜179のいずれか一項に記載の方法。
- (e)の遺伝子型尤度比を生成するステップが、前記シーケンスリードを前記1つ以上のスーパーコンティグに再アライメントすることを含むことを特徴とする請求項129〜180のいずれか一項に記載の方法。
- 前記倍数性が二倍体であることを特徴とする請求項168〜181のいずれか一項に記載の方法。
- 前記複数のリードメイトペアのそれぞれが(c)で構築される1つ以上のコンティグのいずれか1つの構築に2回以上使用されないことを特徴とする請求項129〜182のいずれか一項に記載の方法。
- (d)でアセンブルされる複数のスーパーコンティグの2つ以上が、リードメイトペアの2つのリードメイトのそれぞれの向きに従ってアセンブルされることを特徴とする請求項129〜183のいずれか一項に記載の方法。
- (d)でアセンブルされる前記複数のスーパーコンティグの2つ以上が1つ以上のインサートサイズ尤度に関連付けられることを特徴とする請求項132〜184のいずれか一項に記載の方法。
- 前記遺伝子型尤度比を生成するステップが、所定の倍数性で対象のゲノム領域の全長にまたがる1つ以上のスーパーコンティグに従って1つ以上の予想遺伝子型を決定するステップを含むことを特徴とする請求項129〜185のいずれか一項に記載の方法。
- 前記1つ以上の予想遺伝子型のそれぞれが確率に関連付けられることを特徴とする請求項186に記載の方法。
- 前記遺伝子型尤度比を生成するステップが、1つ以上のハプロタイプに従って1つ以上の予想遺伝子型を決定するステップを含み、各ハプロタイプが、対象のゲノム領域の全長にまたがるスーパーコンティグに従って決定されることを特徴とする請求項129〜187のいずれか一項に記載の方法。
- 遺伝子変異の存在または不在が被験体で決定されることを特徴とする請求項129〜188のいずれか一項に記載の方法。
- 請求項129〜189のいずれか一項に記載の方法を行うように構成された1つ以上のハードウェアプロセッサーを含むシステム。
- 請求項1〜61のいずれか一項に記載の非一時的コンピューター可読記憶媒体を含むシステムにおいて、請求項1〜61のいずれか一項に記載の非一時的コンピューター可読記憶媒体に記憶された実行可能プログラムの命令を実行するように構成された1つ以上のハードウェアプロセッサーを含むことを特徴とするシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462062636P | 2014-10-10 | 2014-10-10 | |
US62/062,636 | 2014-10-10 | ||
PCT/IB2015/057716 WO2016055971A2 (en) | 2014-10-10 | 2015-10-09 | Methods, systems and processes of de novo assembly of sequencing reads |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018500625A true JP2018500625A (ja) | 2018-01-11 |
JP2018500625A5 JP2018500625A5 (ja) | 2018-11-22 |
JP6762932B2 JP6762932B2 (ja) | 2020-09-30 |
Family
ID=55653914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017518960A Expired - Fee Related JP6762932B2 (ja) | 2014-10-10 | 2015-10-09 | シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス |
Country Status (8)
Country | Link |
---|---|
US (1) | US20190244678A1 (ja) |
EP (1) | EP3204522A4 (ja) |
JP (1) | JP6762932B2 (ja) |
CN (1) | CN106795568A (ja) |
BR (1) | BR112017007282A2 (ja) |
CA (1) | CA2963868A1 (ja) |
IL (1) | IL251277B (ja) |
WO (1) | WO2016055971A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021532826A (ja) * | 2018-07-27 | 2021-12-02 | ミリアド・ウィメンズ・ヘルス・インコーポレーテッド | シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法 |
JP7554121B2 (ja) | 2018-11-01 | 2024-09-19 | イルミナ インコーポレイテッド | 体細胞バリアント検出のための方法および組成物 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
CA3014292A1 (en) | 2016-02-12 | 2017-08-17 | Regeneron Pharmaceuticals, Inc. | Methods and systems for detection of abnormal karyotypes |
WO2018057775A1 (en) * | 2016-09-22 | 2018-03-29 | Invitae Corporation | Methods, systems and processes of identifying genetic variations |
WO2019028189A2 (en) * | 2017-08-01 | 2019-02-07 | Human Longevity, Inc. | DETERMINING THE STR LENGTH BY SHORT READ SEQUENCING |
US11728007B2 (en) | 2017-11-30 | 2023-08-15 | Grail, Llc | Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly |
US11954926B2 (en) * | 2018-09-20 | 2024-04-09 | Aivf Ltd. | Image feature detection |
US11821031B2 (en) * | 2019-01-25 | 2023-11-21 | Pacific Biosciences Of California, Inc. | Systems and methods for graph based mapping of nucleic acid fragments |
CN110060734B (zh) * | 2019-03-29 | 2021-08-13 | 天津大学 | 一种高鲁棒性dna测序用条形码生成和读取方法 |
BR112021018933A2 (pt) * | 2019-12-05 | 2022-06-21 | Illumina Inc | Detecção rápida de fusões genéticas |
US12093803B2 (en) * | 2020-07-01 | 2024-09-17 | International Business Machines Corporation | Downsampling genomic sequence data |
WO2022197765A1 (en) * | 2021-03-16 | 2022-09-22 | University Of North Texas Health Science Center At Fort Worth | Macrohaplotypes for forensic dna mixture deconvolution |
CN118380052B (zh) * | 2024-06-24 | 2024-09-17 | 安诺优达基因科技(北京)有限公司 | 基因组结构预测的方法及电子装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8383345B2 (en) * | 2008-09-12 | 2013-02-26 | University Of Washington | Sequence tag directed subassembly of short sequencing reads into long sequencing reads |
DK2511843T3 (en) * | 2009-04-29 | 2017-03-27 | Complete Genomics Inc | METHOD AND SYSTEM FOR DETERMINING VARIATIONS IN A SAMPLE POLYNUCLEOTIDE SEQUENCE IN TERMS OF A REFERENCE POLYNUCLEOTIDE SEQUENCE |
US20110257889A1 (en) * | 2010-02-24 | 2011-10-20 | Pacific Biosciences Of California, Inc. | Sequence assembly and consensus sequence determination |
WO2012177774A2 (en) * | 2011-06-21 | 2012-12-27 | Life Technologies Corporation | Systems and methods for hybrid assembly of nucleic acid sequences |
WO2013103759A2 (en) * | 2012-01-04 | 2013-07-11 | Dow Agrosciences Llc | Haplotype based pipeline for snp discovery and/or classification |
US9916416B2 (en) * | 2012-10-18 | 2018-03-13 | Virginia Tech Intellectual Properties, Inc. | System and method for genotyping using informed error profiles |
CN103258145B (zh) * | 2012-12-22 | 2016-06-29 | 中国科学院深圳先进技术研究院 | 一种基于De Bruijn图的并行基因拼接方法 |
CN103761453B (zh) * | 2013-12-09 | 2017-10-27 | 天津工业大学 | 一种基于簇图结构的并行基因拼接方法 |
-
2015
- 2015-10-09 US US15/513,374 patent/US20190244678A1/en not_active Abandoned
- 2015-10-09 CN CN201580054801.9A patent/CN106795568A/zh active Pending
- 2015-10-09 CA CA2963868A patent/CA2963868A1/en not_active Abandoned
- 2015-10-09 WO PCT/IB2015/057716 patent/WO2016055971A2/en active Application Filing
- 2015-10-09 JP JP2017518960A patent/JP6762932B2/ja not_active Expired - Fee Related
- 2015-10-09 BR BR112017007282A patent/BR112017007282A2/pt not_active IP Right Cessation
- 2015-10-09 EP EP15849440.1A patent/EP3204522A4/en not_active Withdrawn
-
2017
- 2017-03-20 IL IL251277A patent/IL251277B/en active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021532826A (ja) * | 2018-07-27 | 2021-12-02 | ミリアド・ウィメンズ・ヘルス・インコーポレーテッド | シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法 |
JP7361774B2 (ja) | 2018-07-27 | 2023-10-16 | ミリアド・ウィメンズ・ヘルス・インコーポレーテッド | シーケンスリードの独立したアラインメントおよびペアリングによって高度に相同なシーケンスにおける遺伝的変異を検出するための方法 |
JP7554121B2 (ja) | 2018-11-01 | 2024-09-19 | イルミナ インコーポレイテッド | 体細胞バリアント検出のための方法および組成物 |
Also Published As
Publication number | Publication date |
---|---|
BR112017007282A2 (pt) | 2018-06-19 |
EP3204522A4 (en) | 2018-06-20 |
IL251277B (en) | 2020-08-31 |
WO2016055971A2 (en) | 2016-04-14 |
JP6762932B2 (ja) | 2020-09-30 |
US20190244678A1 (en) | 2019-08-08 |
IL251277A0 (en) | 2017-05-29 |
EP3204522A2 (en) | 2017-08-16 |
CA2963868A1 (en) | 2016-04-14 |
WO2016055971A3 (en) | 2016-06-02 |
CN106795568A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6762932B2 (ja) | シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス | |
JP7284849B2 (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
JP6854272B2 (ja) | 遺伝子の変異の非侵襲的な評価のための方法および処理 | |
AU2015267190B2 (en) | Chromosome representation determinations | |
JP6971845B2 (ja) | 遺伝子の変動の非侵襲的評価のための方法および処理 | |
AU2014332241B2 (en) | Methods and processes for non-invasive assessment of chromosome alterations | |
KR102665592B1 (ko) | 유전적 변이의 비침습 평가를 위한 방법 및 프로세스 | |
US11761036B2 (en) | Methods, systems and processes of identifying genetic variations | |
CN114176582A (zh) | 诊断方法 | |
JP2014529109A (ja) | 核酸配列データのアセンブリに関する方法 | |
Larson et al. | A clinician’s guide to bioinformatics for next-generation sequencing | |
WO2018136881A1 (en) | Sequencing adapter manufacture and use | |
Heinrich | Aspects of Quality Control for Next Generation Sequencing Data in Medical Genetics | |
KR20240134392A (ko) | 유전적 변이의 비침습 평가를 위한 방법 및 프로세스 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191211 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200311 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6762932 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |