JP2021533775A - 配列決定アルゴリズム - Google Patents
配列決定アルゴリズム Download PDFInfo
- Publication number
- JP2021533775A JP2021533775A JP2021507695A JP2021507695A JP2021533775A JP 2021533775 A JP2021533775 A JP 2021533775A JP 2021507695 A JP2021507695 A JP 2021507695A JP 2021507695 A JP2021507695 A JP 2021507695A JP 2021533775 A JP2021533775 A JP 2021533775A
- Authority
- JP
- Japan
- Prior art keywords
- nucleic acid
- template nucleic
- target template
- acid molecule
- mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 221
- 238000004422 calculation algorithm Methods 0.000 title description 11
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 1039
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 1026
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 1026
- 238000000034 method Methods 0.000 claims abstract description 321
- 238000004590 computer program Methods 0.000 claims abstract description 9
- 230000035772 mutation Effects 0.000 claims description 446
- 239000000523 sample Substances 0.000 claims description 400
- 125000003729 nucleotide group Chemical group 0.000 claims description 182
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 181
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 181
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 134
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 129
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 105
- 239000002773 nucleotide Substances 0.000 claims description 100
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 69
- 229940104302 cytosine Drugs 0.000 claims description 62
- 229930024421 Adenine Natural products 0.000 claims description 58
- 229960000643 adenine Drugs 0.000 claims description 58
- 230000003321 amplification Effects 0.000 claims description 53
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 53
- 229940113082 thymine Drugs 0.000 claims description 53
- 238000006467 substitution reaction Methods 0.000 claims description 50
- 238000002703 mutagenesis Methods 0.000 claims description 33
- 231100000350 mutagenesis Toxicity 0.000 claims description 33
- 238000011176 pooling Methods 0.000 claims description 33
- 239000012470 diluted sample Substances 0.000 claims description 30
- 230000037361 pathway Effects 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 28
- 238000010790 dilution Methods 0.000 claims description 27
- 239000012895 dilution Substances 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 25
- 230000010076 replication Effects 0.000 claims description 23
- 238000005259 measurement Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 241000205188 Thermococcus Species 0.000 claims description 20
- 238000013467 fragmentation Methods 0.000 claims description 19
- 238000006062 fragmentation reaction Methods 0.000 claims description 19
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 14
- 230000002255 enzymatic effect Effects 0.000 claims description 11
- 238000007865 diluting Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 4
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 241000204969 Thermococcales Species 0.000 claims description 2
- 241000205184 Thermococcus celer Species 0.000 claims description 2
- 241001235254 Thermococcus kodakarensis Species 0.000 claims description 2
- 241001251912 Thermococcus siculi Species 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- YFXPPSKYMBTNAV-UHFFFAOYSA-N bensultap Chemical compound C=1C=CC=CC=1S(=O)(=O)SCC(N(C)C)CSS(=O)(=O)C1=CC=CC=C1 YFXPPSKYMBTNAV-UHFFFAOYSA-N 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract 1
- 238000003752 polymerase chain reaction Methods 0.000 description 72
- 108020004414 DNA Proteins 0.000 description 61
- 239000012634 fragment Substances 0.000 description 56
- 238000006243 chemical reaction Methods 0.000 description 40
- 230000000295 complement effect Effects 0.000 description 31
- 239000011324 bead Substances 0.000 description 19
- 230000001580 bacterial effect Effects 0.000 description 18
- 238000011084 recovery Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 17
- 108091035707 Consensus sequence Proteins 0.000 description 16
- 108091028043 Nucleic acid sequence Proteins 0.000 description 14
- 239000000872 buffer Substances 0.000 description 14
- 238000010606 normalization Methods 0.000 description 14
- 239000000047 product Substances 0.000 description 14
- 238000002360 preparation method Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 241000588724 Escherichia coli Species 0.000 description 10
- 238000010276 construction Methods 0.000 description 10
- ZMXDDKWLCZADIW-UHFFFAOYSA-N N,N-Dimethylformamide Chemical compound CN(C)C=O ZMXDDKWLCZADIW-UHFFFAOYSA-N 0.000 description 9
- 238000013459 approach Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 102000053602 DNA Human genes 0.000 description 8
- 230000029087 digestion Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 241000907681 Morpho Species 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 7
- 239000000499 gel Substances 0.000 description 7
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000000429 assembly Methods 0.000 description 6
- 230000000712 assembly Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 108010006785 Taq Polymerase Proteins 0.000 description 5
- 241001074959 Thermococci Species 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 239000000376 reactant Substances 0.000 description 5
- 241000660147 Escherichia coli str. K-12 substr. MG1655 Species 0.000 description 4
- NWIBSHFKIJFRCO-WUDYKRTCSA-N Mytomycin Chemical compound C1N2C(C(C(C)=C(N)C3=O)=O)=C3[C@@H](COC(N)=O)[C@@]2(OC)[C@@H]2[C@H]1N2 NWIBSHFKIJFRCO-WUDYKRTCSA-N 0.000 description 4
- 201000004283 Shwachman-Diamond syndrome Diseases 0.000 description 4
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- 238000000137 annealing Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 239000005547 deoxyribonucleotide Substances 0.000 description 4
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001502 gel electrophoresis Methods 0.000 description 4
- 230000003362 replicative effect Effects 0.000 description 4
- 108091008146 restriction endonucleases Proteins 0.000 description 4
- 239000012898 sample dilution Substances 0.000 description 4
- 238000013207 serial dilution Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 3
- 238000000018 DNA microarray Methods 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 102000008579 Transposases Human genes 0.000 description 3
- 108010020764 Transposases Proteins 0.000 description 3
- 238000003149 assay kit Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000002962 chemical mutagen Substances 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 239000003471 mutagenic agent Substances 0.000 description 3
- 231100000707 mutagenic chemical Toxicity 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 239000008188 pellet Substances 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 239000002096 quantum dot Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 2
- UOACBPRDWRDEHJ-KVQBGUIXSA-N 2-hydroxy-dATP Chemical compound C1=NC=2C(N)=NC(=O)NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 UOACBPRDWRDEHJ-KVQBGUIXSA-N 0.000 description 2
- YHQDZJICGQWFHK-UHFFFAOYSA-N 4-nitroquinoline N-oxide Chemical compound C1=CC=C2C([N+](=O)[O-])=CC=[N+]([O-])C2=C1 YHQDZJICGQWFHK-UHFFFAOYSA-N 0.000 description 2
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 2
- ZFIVKAOQEXOYFY-UHFFFAOYSA-N Diepoxybutane Chemical compound C1OC1C1OC1 ZFIVKAOQEXOYFY-UHFFFAOYSA-N 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- PLUBXMRUUVWRLT-UHFFFAOYSA-N Ethyl methanesulfonate Chemical compound CCOS(C)(=O)=O PLUBXMRUUVWRLT-UHFFFAOYSA-N 0.000 description 2
- 101000707471 Homo sapiens Serine incorporator 3 Proteins 0.000 description 2
- AVXURJPOCDRRFD-UHFFFAOYSA-N Hydroxylamine Chemical compound ON AVXURJPOCDRRFD-UHFFFAOYSA-N 0.000 description 2
- VZUNGTLZRAYYDE-UHFFFAOYSA-N N-methyl-N'-nitro-N-nitrosoguanidine Chemical compound O=NN(C)C(=N)N[N+]([O-])=O VZUNGTLZRAYYDE-UHFFFAOYSA-N 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- 102100031727 Serine incorporator 3 Human genes 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 229960005305 adenosine Drugs 0.000 description 2
- 150000003838 adenosines Chemical class 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000012149 elution buffer Substances 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 125000001841 imino group Chemical group [H]N=* 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- MBABOKRGFJTBAE-UHFFFAOYSA-N methyl methanesulfonate Chemical compound COS(C)(=O)=O MBABOKRGFJTBAE-UHFFFAOYSA-N 0.000 description 2
- 229960004857 mitomycin Drugs 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003505 mutagenic effect Effects 0.000 description 2
- 238000010899 nucleation Methods 0.000 description 2
- 238000003203 nucleic acid sequencing method Methods 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 239000001226 triphosphate Substances 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- LFKLPJRVSHJZPL-UHFFFAOYSA-N 1,2:7,8-diepoxyoctane Chemical compound C1OC1CCCCC1CO1 LFKLPJRVSHJZPL-UHFFFAOYSA-N 0.000 description 1
- -1 2-Methyl-6-Chloro-9- (3- [Ethyl-2-chloroethyl] -Aminopropylamino) -Acridine Dihydrochloride Chemical compound 0.000 description 1
- OSBLTNPMIGYQGY-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;2-[2-[bis(carboxymethyl)amino]ethyl-(carboxymethyl)amino]acetic acid;boric acid Chemical compound OB(O)O.OCC(N)(CO)CO.OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O OSBLTNPMIGYQGY-UHFFFAOYSA-N 0.000 description 1
- MWBWWFOAEOYUST-UHFFFAOYSA-N 2-aminopurine Chemical compound NC1=NC=C2N=CNC2=N1 MWBWWFOAEOYUST-UHFFFAOYSA-N 0.000 description 1
- HEGWNIMGIDYRAU-UHFFFAOYSA-N 3-hexyl-2,4-dioxabicyclo[1.1.0]butane Chemical compound O1C2OC21CCCCCC HEGWNIMGIDYRAU-UHFFFAOYSA-N 0.000 description 1
- CLGFIVUFZRGQRP-UHFFFAOYSA-N 7,8-dihydro-8-oxoguanine Chemical compound O=C1NC(N)=NC2=C1NC(=O)N2 CLGFIVUFZRGQRP-UHFFFAOYSA-N 0.000 description 1
- BUZOGVVQWCXXDP-VPENINKCSA-N 8-oxo-dGTP Chemical compound O=C1NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 BUZOGVVQWCXXDP-VPENINKCSA-N 0.000 description 1
- 108091033380 Coding strand Proteins 0.000 description 1
- 125000000824 D-ribofuranosyl group Chemical group [H]OC([H])([H])[C@@]1([H])OC([H])(*)[C@]([H])(O[H])[C@]1([H])O[H] 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 101000738734 Drosophila melanogaster Tyrosine-protein phosphatase 69D Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 101710178665 Error-prone DNA polymerase Proteins 0.000 description 1
- 241001646716 Escherichia coli K-12 Species 0.000 description 1
- 241000204933 Haloferax volcanii Species 0.000 description 1
- 241000981400 Haloferax volcanii DS2 Species 0.000 description 1
- PWGOWIIEVDAYTC-UHFFFAOYSA-N ICR-170 Chemical compound Cl.Cl.C1=C(OC)C=C2C(NCCCN(CCCl)CC)=C(C=CC(Cl)=C3)C3=NC2=C1 PWGOWIIEVDAYTC-UHFFFAOYSA-N 0.000 description 1
- 108091029795 Intergenic region Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- IOVCWXUNBOPUCH-UHFFFAOYSA-M Nitrite anion Chemical compound [O-]N=O IOVCWXUNBOPUCH-UHFFFAOYSA-M 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 108010002747 Pfu DNA polymerase Proteins 0.000 description 1
- ZYFVNVRFVHJEIU-UHFFFAOYSA-N PicoGreen Chemical compound CN(C)CCCN(CCCN(C)C)C1=CC(=CC2=[N+](C3=CC=CC=C3S2)C)C2=CC=CC=C2N1C1=CC=CC=C1 ZYFVNVRFVHJEIU-UHFFFAOYSA-N 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 241000205160 Pyrococcus Species 0.000 description 1
- 241000205156 Pyrococcus furiosus Species 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 239000008051 TBE buffer Substances 0.000 description 1
- LBZXELUWKIEZEQ-MYINAIGISA-N [[(2r,3s,5s)-5-bromo-5-(2,4-dioxopyrimidin-1-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl] phosphono hydrogen phosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@]1(Br)N1C(=O)NC(=O)C=C1 LBZXELUWKIEZEQ-MYINAIGISA-N 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 1
- RGWHQCVHVJXOKC-SHYZEUOFSA-J dCTP(4-) Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](COP([O-])(=O)OP([O-])(=O)OP([O-])([O-])=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-J 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- UFJPAQSLHAGEBL-RRKCRQDMSA-N dITP Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(N=CNC2=O)=C2N=C1 UFJPAQSLHAGEBL-RRKCRQDMSA-N 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003085 diluting agent Substances 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 244000005702 human microbiome Species 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 239000002719 pyrimidine nucleotide Substances 0.000 description 1
- 150000003230 pyrimidines Chemical class 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000002798 spectrophotometry method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000005382 thermal cycling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Oscillators With Electromechanical Resonators (AREA)
Abstract
Description
本発明者らは、少なくとも1つの標的鋳型核酸分子の配列を決定するための新規改良方法を開発した。したがって、本発明の第1の態様においては、
(a)少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備すること、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築(assemble(アセンブル))すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供する。
(a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列の生成方法を提供する。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含み、および/または
(ii)2以上のサブサンプル(部分サンプル)をプールすることにより少なくとも1つのサンプルを準備し、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含み、および/または
(ii)2以上のサブサンプをプールすることにより少なくとも1つのサンプルを準備し、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
一般的な定義
特に示されていない限り、本明細書中で用いる科学技術用語は、本発明が属する分野の当業者によって一般に理解されているものと同じ意味を有する。
幾つかの態様においては、本発明は、少なくとも1つの標的鋳型核酸分子の配列決定方法、または少なくとも1つの標的鋳型核酸分子の配列生成方法を提供する。
(a)少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備すること、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築(assemble(アセンブル))すること
を含む。
(a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む。
少なくとも1つの標的鋳型核酸分子の配列決定方法は、少なくとも1つの標的鋳型核酸分子を各サンプルが含む、サンプルのペアを準備する工程を含みうる。
前記のとおり、本発明の配列決定方法は、対応する突然変異配列リードの分析から得られた情報を使用して、非突然変異リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを含む。典型的には、サンプル中の標的鋳型核酸分子を合体させて、サンプル中に存在する1以上のより大きな核酸分子の配列を生成することが可能である。代表的な実施形態としては、標的鋳型核酸分子を合体させて、ゲノムの配列を生成することが可能である。配列決定の実施は、得られる配列決定リードの形態で、ある有限量のデータを生成する。そこから得られた配列決定リードから標的鋳型核酸分子の配列を構築するためには(したがって、標的鋳型核酸分子を合体させて、1以上のより大きな標的鋳型核酸分子の配列を生成するためには)、配列決定リード相互間の標的鋳型核酸分子のカバレッジ(適用範囲)が適切であり(すなわち、配列を構築するのに十分であり)、各標的鋳型核酸分子に関して過度の冗長(すなわち、重複)配列決定リードが生成されないことが保証されることが好ましい。例えば、サンプルに含まれる標的鋳型核酸分子が多すぎて、十分な数の配列リードが各標的鋳型核酸分子から生成されない場合には、各標的鋳型核酸分子の配列を構築することが不可能でありうる(すなわち、各鋳型に関する十分なデータが存在しない可能性がある)。一方、サンプルに含まれる標的鋳型核酸分子が少なすぎる場合には、各標的鋳型核酸分子を構築することは可能かもしれないが、標的鋳型核酸分子を合体させて、より大きな核酸分子の配列を生成することは不可能な場合があり、例えば、ゲノムの配列を生成することは不可能でありうる(すなわち、各鋳型に関するデータが過剰に存在し、したがって、サンプル全体のデータが不十分でありうる)。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含む。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の少なくとも一部の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程は、少なくとも1つのサンプル中の標的鋳型核酸分子の数を制御することを含む。
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子配列の数に基づいて、ユニーク突然変異標的鋳型核酸分子の数を特定すること
を含みうる。
(i)バーコードまたはバーコードのペアを含むバーコード付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)ユニークバーコードまたはバーコードのペアの数に基づいて、ユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含みうる。
サンプルは、幾つかのサブサンプルをプールすることにより得られうる。これは、複数のサンプル(例えば、複数の起源)からの標的鋳型核酸分子が同時に配列決定されることを可能にし、そしてこれはより大きなサンプルスループットの達成を可能にして、標的鋳型核酸分子の配列決定に必要なコストおよび時間を削減しうる。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つのサンプルを、2以上のサブサンプルをプールすることにより得、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供し、ここで、少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程が、2以上のサブサンプルをプールすること、および2以上のサブサンプルのそれぞれからの少なくとも1つのサンプルにおける標的鋳型核酸分子の数を制御することを含む。
(a)2以上の異なるサブサンプルからの標的鋳型核酸分子を異なるサンプルタグで標識すること、
(b)2以上のサブサンプルをプールして、サブサンプルの予備プールを得ること、および
(c)各サンプルタグで標識された予備プール内の標的鋳型核酸分子の数を測定すること
を含む、2以上のサブサンプル中の標的鋳型核酸分子の数を測定するための方法を提供する。
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)各サンプルタグで標識されたユニーク突然変異標的鋳型核酸分子の数に基づいて、各サンプルタグを含有するユニーク突然変異標的鋳型核酸分子の数を特定すること
を含みうる。
(i)バーコード付きサンプルタグ付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)各サンプルタグに関連したユニークバーコードまたはバーコードペア配列の数に基づいて、各サンプルタグを含有するユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含みうる。
(a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること(アセンブリすること)
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法を提供すると理解され、ここで、少なくとも1つのサンプルは、
(i)サブサンプルの2以上をプールすることにより予備プール化サンプルを準備すること、
(ii)2以上のサブサンプルのそれぞれから生じる予備プール化サンプル中の標的鋳型核酸分子の数を測定すること、および
(iii)2以上のサブサンプルをプールすること
により得られ、ここで、サブサンプルのそれぞれからのサンプル中の標的鋳型核酸分子の数を正規化する。
少なくとも1つの標的鋳型核酸分子の配列決定方法は、非突然変異配列リードを得るためにサンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程、および/または突然変異配列リードを得るために少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程を含みうる。
該方法は、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得る工程を含みうる。
(i)突然変異のそれぞれの間の距離を計算すること、
(ii)距離の平均を計算すること、
(iii)500や1000のようなより小さな数への置換を伴うことなく距離をサブサンプリングすること、
(iv)幾何分布から500または1000個の距離のシミュレートされたセットを構築すること(ここで、平均は、観測された距離に関して以前に計算されたものと一致するモーメント法により得られる)、および
(v)2つの分布上でコルモルゴロフ-スミルノフ(Kolmolgorov-Smirnov)を計算すること
により、突然変異試験核酸分子の長さ全体にわたって実質的に同様のレベルで突然変異が生じるかどうかを決定することが可能である。
i)少なくとも1つの標的鋳型核酸分子を複製させて、少なくとも1つの標的鋳型核酸分子に相補的である少なくとも1つの核酸分子を得るラウンド、および
ii)少なくとも1つの標的鋳型核酸分子を複製させて、少なくとも1つの標的鋳型核酸分子の複製物を得るラウンド
を含む。
a)融解、
b)アニーリング、ならびに
c)延長および伸長
の複数ラウンドを含むプロセスである。
本発明の方法は、非突然変異配列リードおよび突然変異配列リードを含むデータを取得する工程を含みうる。非突然変異配列リードおよび突然変異配列リードは任意の起源から得られうる。
前記のとおり、第1サンプルおよび第2サンプルは少なくとも1つの標的鋳型核酸分子を含む。したがって、突然変異配列リードに存在する突然変異パターンは、使用者が少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することを助けうる。
突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程は、アセンブリグラフを調製すること(用意すること)を含みうる。
突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することは、突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成する非突然変異配列リードから計算されたノードを特定することを含みうる。アセンブリグラフによる各有効経路は少なくとも1つの標的鋳型核酸分子の一部の配列を表しうる(表現し得る)。アセンブリグラフがノードからノードへの多数の推定経路を含む場合、突然変異配列リードの分析により得られた情報を使用して、ノードの順序を得ることが可能である。他の実施形態においては、突然変異配列リードの分析により得られた情報を使用して、ゲノムにおける所与配列のコピー数を決定することが可能である。
(i)非突然変異配列リードからノードを計算すること、
(ii)アセンブリグラフに対して突然変異配列リードをマッピングすること、
(iii)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定すること、および
(iv)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードにより連結されたノードを特定すること
を含むことが可能であり、ここで、突然変異配列リードにより連結されたノードは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高く、アセンブリグラフによる有効経路の一部を形成する。
前記のとおり、突然変異配列リードの分析は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含みうる。
共通の突然変異パターンを共有する突然変異配列リードは共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含みうる。好ましくは、共通の突然変異パターンを共有する突然変異配列リードは少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む。
交差(SM(A),SM(B))>= C
および
対称差(SM(A),SM(B))< 交差(SM(A),SM(B))
[ここで、Cは4より大きい、5より大きい、20未満である、または10未満であり、SM(X)は、Xのシグネチャ突然変異のサブセットでありうる、突然変異配列リードXのシグネチャ突然変異のセットである]であれば、AおよびBは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来すると仮定されうる。
交差(SM(A),SM(B))>= C
および
対称差(SM(A),SM(B))< C2* 交差(SM(A),SM(B))
[ここで、C2は3未満、2未満または1.5以下であり、SM(X)は、Xのシグネチャ突然変異のサブセットでありうる、突然変異配列リードXの同時発生突然変異のセットである]。
同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードは、オッズ比(突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率:突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来しない確率)を計算することにより特定されうる。
a.突然変異配列リードおよびアセンブリグラフの各位置におけるヌクレオチドのマトリックス(N)、
b.所与ヌクレオチド(i)がリードヌクレオチド(j)に突然変異した確率(M)、
c.所与ヌクレオチド(i)がリードヌクレオチド(j)に、該ヌクレオチドが誤読されたという条件で、誤読された確率(E)、および
d.Y位のヌクレオチドが誤読された確率(Q)。
所望により、該方法はプレクラスタリング(pre-clustering)工程を含む。例えば、使用者は、突然変異配列リードをグループに割り当てるために初期計算を行うことが可能であり、ここで、同一グループの各メンバーは、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する合理的な尤度を有する。各グループ内の突然変異配列リードはアセンブリグラフ上の共通位置にマッピング可能であり、および/または共通の突然変異パターンを共有しうる。グループ内の2つの突然変異配列リードは、それらが同一領域にマップされる場合、またそれらがアセンブリグラフ内で重複する場合、アセンブリグラフ上の共通位置にマッピングされる。プレクラスタリング工程で適用される尤度閾値は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程で適用されるものより低い可能性がある。すなわち、プレクラスタリング工程は、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程より低いストリンジェンシーの工程でありうる。
本発明の幾つかの実施形態においては、アセンブリグラフによる有効経路の一部を形成するノードを特定する工程は、アセンブリグラフによる推定経路を無視することを含む。
(i)それらが、末端の配列のライブラリーに存在するものに一致しない末端を有する場合、
(ii)それらが鋳型衝突(collision)の結果である場合、
(iii)それらが予想より長い若しくは短い場合、および/または
(iv)それらが非定型的なカバレッジ深度を有する場合
には無視され得る。
該方法は、少なくとも1つの突然変異標的鋳型核酸分子の末端のペアの配列のライブラリーを調製することを含みうる。例えば、該ライブラリーは、第1の少なくとも1つの標的鋳型核酸分子がAおよびBの末端配列を有し、第2の少なくとも1つの標的鋳型核酸分子がCおよびDの末端配列を有することを指定する。ライブラリーは、少なくとも1つの標的鋳型核酸分子のペアエンド配列決定を実施することにより調製されうる。所望により、該方法は、メイトペア配列決定を使用して、少なくとも1つの標的鋳型核酸分子の末端を配列決定することを含む。
本発明の目的においては、バーコード(本明細書においては「ユニーク分子タグ」または「ユニーク分子識別子」とも称される)は縮重(degenerate)またはランダム生成ヌクレオチド配列である。標的鋳型核酸分子は1つ、2つまたは3つのバーコードを含みうる。特定の実施形態においては、各バーコードは、生成される他の全てのバーコードとは異なる配列を有しうる。しかし、他の実施形態においては、2以上のバーコード配列が同じでありうる、すなわち、あるバーコード配列が複数存在しうる。例えば、バーコード配列の少なくとも90%は他の全てのバーコード配列の配列と異なりうる。バーコードが適切に縮重していて、各標的鋳型核酸分子が、サンプルのペアにおける他のそれぞれの標的鋳型核酸分子と比較して、ユニークなまたは実質的にユニークな配列のバーコードを含むことが単に要求されるに過ぎない。したがって、標的鋳型核酸分子をバーコードで標識(またはタグ付け)することは、標的鋳型核酸分子がお互いから識別されることを可能にし、それにより、本明細書中の他の箇所に記載されている方法を促進させる。したがって、バーコードはユニーク分子タグ(UMT)と見なされうる。バーコードは5、6、7、8、5〜25、6〜20またはそれ以上のヌクレオチド長でありうる。
該方法は、鋳型衝突の結果である推定経路を無視することを含みうる。前記のとおり、「鋳型衝突」なる語は、同じ突然変異配列リードの1以上に又は同じ突然変異パターンを有する突然変異配列リードの1以上に対応するアセンブリグラフによる2つの推定経路が特定される(2つの推定経路が衝突している)状況を指す。各有効経路は突然変異配列リードのユニークセットを含むはずであるため、衝突した2つの推定経路の少なくとも1つが偽である可能性が高い。これらの理由により、鋳型衝突の結果である推定経路を無視することは、特定される偽経路の数を減少させうる。
少なくとも1つの標的鋳型核酸分子は、既知のまたは予測可能な長さでありうる。
本発明の方法は、少なくとも1つの突然変異標的鋳型核酸分子を増幅する、すなわち、少なくとも1つの突然変異した標的核酸分子を複製させて、少なくとも1つの突然変異標的鋳型核酸分子のコピーを得る工程を含みうる。例えば、該方法は、PCRを使用して少なくとも1つの突然変異標的鋳型核酸分子を増幅することを含みうる。増幅は、少なくとも突然変異標的鋳型核酸分子の幾つかが他の分子より多数回複製されることを引き起こしうる。少なくとも1つの突然変異標的鋳型核酸分子の幾つかが他の少なくとも1つの突然変異標的鋳型核酸分子より高い度合で増幅される(より高いカバレッジ深度を有する)場合、それらの少なくとも1つの突然変異標的鋳型核酸分子に対応する推定経路に、他と比較して多数の突然変異配列リードが関連付けられる。同様に、カバレッジ深度は少なくとも1つの鋳型核酸分子の長さ全体で一貫していると予想される。したがって、異なる有効経路部分は、それらに関連付けられた同様の数の突然変異配列リードを有すると予想される(同様のカバレッジ深度)。推定経路が、低深度のカバレッジを有する部分と、高深度のカバレッジを有する部分とを含む場合、それら2つの部分は同一有効経路に対応していない可能性が高く、推定経路は誤りであり、無視されるべきである。
所望により、アセンブリグラフによる有効経路の一部を形成する非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部に関して、配列を構築する。
該方法は、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を含みうる。該方法は、少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を含みうる。
該方法は、少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を含みうる。所望により、該方法は、少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を含む。
前記のとおり、突然変異は、低バイアスDNAポリメラーゼを使用して導入されうる。低バイアスDNAポリメラーゼは突然変異を均一にランダムで導入することが可能であり、これは本発明の方法において有益でありうる。なぜなら、突然変異が均一にランダムな様態で導入されると、鋳型核酸の任意の所与部分がユニーク突然変異パターンを有する可能性がより高くなるからである。前記のとおり、ユニーク突然変異パターンは、アセンブリグラフによる有効経路を特定するのに有用でありうる。
低変異バイアスを呈する低バイアスDNAポリメラーゼは、アデニンおよびチミン、アデニンおよびグアニン、アデニンおよびシトシン、チミンおよびグアニン、チミンおよびシトシン、またはグアニンおよびシトシンを同様の割合で変異させることができるDNAポリメラーゼである。ある実施形態では、低バイアスDNAポリメラーゼはアデニン、チミン、グアニン、およびシトシンを同様の割合で変異させることができる。
低バイアスDNAポリメラーゼが1ラウンドの複製当たりに該少なくとも1つの標的鋳型核酸分子中のヌクレオチドのある一定の割合を変異させうるかどうかは、一定数の複製ラウンドの間、低バイアスDNAポリメラーゼの存在下で既知配列の核酸分子を増幅することにより判定できる。得られた増幅核酸分子を次に配列決定し、1ラウンドの複製当たりに変異したヌクレオチドの割合を算出することができる。例えば、既知配列の核酸分子は、低バイアスDNAポリメラーゼの存在下で10ラウンドのPCRを利用して増幅することができる。得られた核酸分子は次に配列決定することができる。得られた核酸分子が元の既知配列中の対応ヌクレオチドとは異なるヌクレオチドを10%含む場合、その際使用者は、低バイアスDNAポリメラーゼが1ラウンドの複製当たりに平均して該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの1%を変異させることができると理解するであろう。同様に、低バイアスDNAポリメラーゼが所与の方法で該少なくとも1つの標的鋳型核酸分子中のヌクレオチドのある一定の割合を変異させるかどうかを調べるために、使用者は、既知配列の核酸分子に対して該方法を実施することができるであろうし、また該方法が終了し次第、変異したヌクレオチドの割合を決定するために配列決定法を利用することができるだろう。
低バイアスDNAポリメラーゼはヌクレオチドを他のヌクレオチドと直接置き換えられない場合がある(少なくとも高頻度ではない)が、該低バイアスDNAポリメラーゼはそれでもヌクレオチド類似体を使用すれば核酸分子を変異させうる場合がある。低バイアスDNAポリメラーゼは、ヌクレオチドを他の天然ヌクレオチド(すなわちシトシン、グアニン、アデニンもしくはチミン)またはヌクレオチド類似体と置き換えることができる場合がある。
低バイアスDNAポリメラーゼは低鋳型増幅バイアスを有していてもよい。低バイアスDNAポリメラーゼは、該低バイアスDNAポリメラーゼが異なる標的鋳型核酸分子を1サイクル当たり同様の成功度合で増幅できるならば、低鋳型増幅バイアスを有する。高バイアスDNAポリメラーゼでは、高G:C含量であるかまたは二次構造の程度が大きい鋳型核酸分子を増幅するのに苦労する場合がある。ある実施形態では、低バイアスDNAポリメラーゼは、25 000未満、10 000未満、1〜15 000、または1〜10 000のヌクレオチド長である鋳型核酸分子に対して低鋳型増幅バイアスを有する。
ある実施形態では、低バイアスDNAポリメラーゼは、配列番号2、配列番号4、配列番号6または配列番号7を含むポリペプチドの断片または変異体である。配列番号2、4、6および7のポリペプチドはサーモコッカス目古細菌のポリメラーゼである。配列番号2、配列番号4、配列番号6または配列番号7のポリメラーゼは高い忠実度を示す低バイアスDNAポリメラーゼであり、またそれらはdPTPなどのヌクレオチド類似体を組み込むことにより標的鋳型核酸分子を変異させることができる。配列番号2、配列番号4、配列番号6または配列番号7のポリメラーゼは、それらが低変異バイアスおよび低鋳型増幅バイアスを有しているため、特に有利である。それらはまた高度にプロセッシブであって、かつ校正ドメインを含む高忠実度ポリメラーゼであり、このことは、ヌクレオチド類似体の非存在下で、それらが変異標的鋳型核酸分子を迅速かつ正確に増幅できることを意味している。
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも400、少なくとも500、少なくとも600、少なくとも700、または少なくとも750個の連続したアミノ酸の断片を含んでいてもよい。
a.配列番号2の配列、
b.配列番号2と少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも700個の連続したアミノ酸の断片を含む。
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
を含んでいてもよい。
a.配列番号2の配列、
b.配列番号2と少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも98%、もしくは少なくとも99%同一である配列
を含む。
DNA分子を断片化して適当なサイズ(例えば10 kb)とし、さらにタグメンテーションを利用して規定配列プライミング部位(アダプター)を各末端に結合した。
突然変異誘発を、広範な種々のDNAポリメラーゼを用いて実施した(表4)。大腸菌株MG1655から得たゲノムDNAを、実施例1の方法にて記載した通りにタグメント化して長い断片を作製し、ビーズ精製した。この後、0.5 mM dPTP存在下での6サイクルの「突然変異誘発PCR」、SPRIselectビーズ精製、およびdPTP非存在下での追加の14〜16サイクルの「回復PCR」を行った。結果として生じた長い変異鋳型を次に標準的なタグメンテーション反応(実施例1を参照されたい)に供し、さらに「内部」断片を増幅してMiSeq装置で配列決定した。
本発明者らは、単一セットの反応条件下でサーモコッカス属古細菌のポリメラーゼ(Primestar GXL;Takara)を使用して、種々のレベルのG+C含量(33〜66%)を示す広範なゲノムDNAサンプルに対してdPTP突然変異誘発を実施した。突然変異誘発および配列決定は、10サイクルの「回復PCR」を実施したことを除き、実施例1の方法にて記載した通りに実施した。予想通り、変異率はG+C含量の多様性にもかかわらずサンプル間でほぼ同様であった(変異率の中央値7〜8%)(図2)。
鋳型増幅バイアスを、2つのポリメラーゼ、すなわちIlluminaシーケンシングプロトコルで慣用される校正ポリメラーゼであるKapa HiFi、および長い断片を増幅するその能力で知られるKODファミリーのポリメラーゼであるPrimeStar GXLについて測定した。最初の実験では、Kapa HiFiを使用することにより、約2kbpの大きさを有する限られた数の大腸菌ゲノムDNA鋳型を増幅した。これらの増幅断片の末端を次に配列決定した。同様の実験を、大腸菌から得た約7〜10kbpの断片に対して、PrimeStar GXLを用いて行った。各末端配列リードの位置は、大腸菌参照ゲノムにマッピングすることにより決定した。隣接する断片末端間の距離を測定した。これらの距離を、一様分布からランダムに抽出した一連の距離と比較した。該比較はノンパラメトリックコルモゴロフ・スミルノフ検定のDを介して実行した。2つのサンプルが同じ分布に由来する場合、Dの値はゼロに近付く。低バイアスPrimeStarポリメラーゼに関しては、本発明者らは、50,000の断片末端について50,000のゲノム位置の均一なランダムサンプルと比較して測定した際に、D=0.07を観察した。Kapa HiFiポリメラーゼに関しては、本発明者らは50,000の断片末端についてD=0.14を観察した。
突然変異配列リードおよび非突然変異配列リードを生成し、非突然変異配列リードの配列を、コンピュータで実施される方法工程を用いて決定した。
確率アルゴリズムを使用して、2つの突然変異配列リードが、同じ元の少なくとも1つの鋳型核酸分子に由来するのかどうかを決定した。確率アルゴリズムの詳細は以下のとおりである。
m1,.〜ディリクレ(α+β,1-β,1-α,1-β)
m2,.〜ディリクレ(1-β,α+β,1-β,1-α)
m3,.〜ディリクレ(1-α,1-β,α+β,1-β)
m4,.〜ディリクレ(1-β,1-α,1-β,α+β)
上記の通り、タグメンテーションを利用することにより、DNA分子を断片化すると同時にその断片の末端にプライマー結合部位(アダプター)を導入することができる。Nexteraタグメンテーション系(Illumina)は、2つの固有アダプター(本明細書中ではXおよびYと称する)のうちの1つを持つトランスポザーゼ酵素を利用する。これにより、一部は同一の末端配列(X-X、Y-Y)を有し、また一部は固有末端(X-Y)を有する、増幅産物のランダムな混合物が生成する。標準的なNexteraプロトコルでは、2つの別個のプライマー配列を利用することにより、各末端に異なるアダプターを含有する「X-Y」生成物を選択的に増幅する(Illumina技術によるシーケンシングに必要な場合)。しかし、単一プライマー配列を使用することにより同一末端アダプターを有する「X-X」または「Y-Y」断片を増幅することも可能である。
分析用の長い突然変異鋳型の初期サンプルを、下流処理、配列決定および分析の準備として、定められた数のユニーク鋳型分子に希釈し、効果的な鋳型構築のために鋳型ごとに十分な配列データが生成されるようにした。
前記のサンプル希釈および末端配列決定アプローチを用いて、予備プールサンプル中の複数の鋳型ライブラリを定量した。ついで、この情報を用いて、プールされたサンプル中の個々のサンプル間で鋳型の数を正規化した。
細菌株およびDNA調製
62個の細菌株からのDNAをBEIリソースから得た。これらの株は、ヒト・マイクロバイオーム・プロジェクト(Human Microbiome Project)の一環として配列決定された分離株である。それらは或る範囲のGC含量(25%〜69%)を示し、更なる詳細は表6に示されている。
長い断片を生成するためのタグ付け
各細菌ゲノムからのDNAを96ウェルプレート内にアレイ化し、濃度を10ng/μlに対して正規化した。サンプル処理および下流データ分析の内部対照を提供するために、2つの独立したウェル内にE. coli MG1655 DNAを含めた。保存バッファー(5 mM Tris-HCl [pH 8.0]、0.5 mM EDTA、50%(v/v)グリセロール)中で50分の1に希釈されたNextera DNA Tagment Enzyme(TDE1; Illumina)を使用して、タグ付けを行った。各サンプルに関して、1×タグ付けバッファー(10mM トリス-HCl [pH7.6]、10mM MgCl、10%(v/v)ジメチルホルムアミド)中に50ngのDNAおよび4μlの希釈TDE1を含有する16μLのタグ付け反応物を調製した。各反応物を55℃で5分間インキュベートし、ついで10℃に冷却した。SDSを0.04%の最終濃度まで加え、反応物を25℃で更に15分間インキュベートした。反応物を、0.6倍体積のビーズを用いるSPRIselect磁気ビーズ(Beckman Coulter)を使用する左側洗浄(left-side clean up)に付し、20μlの分子グレードの水中で溶出した(製造業者の説明に従い行った)。
突然変異誘発ヌクレオチド類似体dPTPを組み込むためのPCRを以下のとおりに実施した。0.5mM dPTP(TriLink Biotechnologies)および0.4mM Morphoseqインデックスプライマー(表7を参照されたい;各サンプルのユニークインデックス)と共に0.625 U PrimeStar GXLポリメラーゼ、1×Primestar GXLバッファーおよび0.2mMのdNTP(全てTakaraから入手)を含有する25μlのPCR反応における鋳型として、5μlの前記の各洗浄タグ付け反応物を使用した。突然変異誘発PCR中に単一プライマーを使用して、同じNexteraタグ付けアダプター配列を両端に含有する鋳型を増幅した。反応物を以下のサイクリング条件に付した:68℃で3分間、続いて98℃で10秒間、55℃で15秒間および68℃で10分間の5サイクル。
DNAゲル電気泳動アプローチを用いて、不要な短い断片を除去するために、リカバリーPCR産物をサイズ選択した。DNAサイズ標準と共に25μlのリカバリーPCR反応物を0.9% アガロースゲル上にローディングし、1×TBEバッファー中、18Vで一晩(900分)泳動させた。8〜10kbのサイズ領域に対応するゲルスライスを切り出し、Wizard SVゲルおよびPCRクリーンアップキット(Promega)を製造業者の説明に従い使用してDNAを抽出した。サイズ選択されたDNAを、Qubit dsDNA HSアッセイキット(Thermo Fisher Scientific)を使用して定量し、Bioanalyzer高感度DNAチップ(Agilent)を使用してサイズ範囲を確認した。
プールされサイズ選択された産物における個々のサンプルタグ付きサンプル間の鋳型の存在量を評価するために、以下のアプローチを用いた。まず、サイズ選択されたDNAを0.1pg/μLに希釈し、各ユニーク鋳型の多数のコピーを得るための富化(enrichment)PCRのための投入物として2μlの希釈物(0.2 pg)を使用した。Illumina MiSeqの1回の実施の配列出力からの正確な鋳型定量を可能にするのに十分なユニーク鋳型の多様性をこのレベルの希釈が制限することを、予備実験は示した。50μlの富化PCRはまた、0.4μM 富化プライマー(表7を参照されたい)と共に1.25 U PrimeStar GXLポリメラーゼ、1×Primestar GXLバッファーおよび0.2mMのdNTP(Takara)を含有していた。前のリカバリーPCR工程中に導入された断片末端アダプターにアニールし、それにより、dPTPの取り込みおよび置換のプロセスを完了している鋳型を選択的に増幅するように、該富化プライマーを設計した。反応物を98℃で10秒間、55℃で15秒間および68℃で10分間の22サイクルに付し、ついで、0.6倍体積のビーズを使用するSPRIselect左側ビーズ洗浄により精製し、20μlの分子グレードの水中に溶出した。ついで、Qubit dsDNA HSアッセイキット(Thermo Fisher Scientific)を使用してサンプルを定量し、Bioanalyzer高感度DNAチップ(Agilent)を使用してサイズ範囲を確認した。
正規化サンプルプールからの鋳型定量データおよび長い断片の既知サイズに基づいて、Morphoseq配列決定およびアセンブリを処理するために、合計150万個のユニーク鋳型の標的を選択した。これは個々のゲノム当たり少なくとも20倍(最大90倍)の理論上の長い鋳型のカバレッジを保証するであろう。この目的のために、前工程からのサイズ選択リカバリーPCR産物を1μl当たり75万個の鋳型に希釈し、富化PCR用の投入物として2μlの希釈物を使用して、各ユニーク鋳型の多数のコピーを得ることにより、最終的な長い鋳型サンプルを調製した。22回ではなく16回の増幅サイクルを実施したこと以外は前記のとおりに、富化PCRを行った。
最終的なMorphoseqプールに含まれる全66個のゲノムに対して参照ライブラリを作製した。10ngのゲノムDNAを投入物として使用し、内部Morphoseqライブラリーに関して前記に記載されている手順(ただし、Nextera DNA Flex法に対する更なる変更を伴う)に従いライブラリー調製を行った。具体的には、Illumina TB1バッファーをカスタムタグ付けバッファー(前記を参照されたい)で置換し、キットポリメラーゼの代わりにKAPA HiFi HotStart ReadyMix(1×最終濃度; Kapa Biosystems)を使用し、Illuminaサンプル精製ビーズ(SPB)をSPRIselect磁気ビーズ(Beckman Coulter)で置換した。参照ライブラリー増幅のためのサーマルサイクリング条件は以下のとおりであった:72℃で3分間、98℃で30秒間;98℃で15秒間、55℃で30秒間および72℃で30秒間の12サイクル;ついで72℃で5分間の最終伸長。
正規化参照プール、morphoseq末端ライブラリーおよびmorphoseq内部ライブラリーをそれぞれ1:1:20のモル比で一緒にすることにより、Illumina配列決定用の最終サンプルを調製した。ニューサウスウェールズ大学(University of New South Wales)(Sydney, Australia)のRamaciotti Center for Genomicsにおいて、NovaSeq 6000装置およびS1フローセルを使用して配列決定を行って、2×150ntのペア末端リードを得た。
細菌ゲノムを構築するためのワークフローの概要を図13に示す。
各細菌株のゲノムを非突然変異ペア末端150塩基対リードから構築した。低品質配列を除去し、ライブラリアダプターを切除するための初期品質フィルタリングを、bbduk v36.99で実施した。リードを、カスタムpythonスクリプトを使用してデマルチプレックス化し、MEGAHIT v1.1.3をカスタムパラメーター(prune-level = 3、low-local-ratio = 0.1およびmax-tip-len = 280)で使用して構築した。これは、生じるゲノムグラフの複雑性を低減し次段階における突然変異配列のより良好なマッピングを促進させるために選択された(後記を参照されたい)。得られたグラフィカル断片アセンブリ(gfaファイル)をVG(インデックス)v1.14.0への入力として使用して、マッピングに適したインデックスを生成させた。得られたグラフは「インデックス付き非突然変異参照アセンブリグラフ」または単に「インデックス付きグラフ」と称される。
各末端ライブラリ(末端リード)およびプール化内部ライブラリ(内部リード)からの突然変異リードを、VG(map)v1.14.0をデフォルトパラメーターで使用して、それらの対応インデックス付きVG細菌ゲノムアセンブリに対してマッピングして、各サンプルに関するグラフィカルアライメントマップ(GAM)ファイルのペアを得た。各サンプルのGAMペアからのデータを対応非突然変異参照アセンブリからの情報と組み合わせ、カスタムツールを使用して処理し、元の配列を再構築する残りの工程の多くのための並列処理を容易にするHDF5フォーマット化データベースに保存した。モルフォリード(morphoread)生成プロセスは3つの主要段階、すなわち、「末端壁特定」、「シーディング(seeding)」および「伸長」からなる。
Unicycler v0.4.6をデフォルトパラメーターで使用して、ハイブリッドゲノムアセンブリにおいて、非突然変異参照リードと共に高品質モルフォリードを一緒にした。
Claims (135)
- (a)サンプルのペアを準備すること、ここで各サンプルは少なくとも1つの標的鋳型核酸分子を含む、
(b)サンプルのペアの第1のものにおいて、少なくとも1つの標的鋳型核酸分子の領域を配列決定して、非突然変異配列リードを得ること、
(c)サンプルのペアの第2のものにおいて、少なくとも1つの標的鋳型核酸分子内に突然変異を導入して、少なくとも1つの突然変異標的鋳型核酸分子を得ること、
(d)該少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して、突然変異配列リードを得ること、
(e)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法。 - (a)(i)非突然変異配列リード、および
(ii)突然変異配列リード
を含むデータを得ること、
(b)突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列を生成する方法。 - 突然変異配列リードを分析し、突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築する工程が、アセンブリグラフを調製することを含む、請求項1または2に記載の方法。
- アセンブリグラフが、非突然変異配列リードから計算されたノードを含み、ノードを含むアセンブリグラフによる各有効経路が、少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を表す、請求項3に記載の方法。
- ノードがユニティグである、請求項4に記載の方法。
- 突然変異配列リードの分析から得られた情報を使用して、非突然変異配列リードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部の配列を構築することが、突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成するノードを特定することを含む、請求項3〜5のいずれか1項に記載の方法。
- アセンブリグラフによる有効経路の一部を形成するノードからの少なくとも1つの標的鋳型核酸分子の少なくとも一部に関する配列を構築する、請求項4〜6のいずれか1項に記載の方法。
- サンプルのペアが、同じ元のサンプルから採取された、または同じ生物に由来する、請求項1または3〜7のいずれか1項に記載の方法。
- 非突然変異配列リードが、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子の領域の配列を含み、突然変異配列リードが、サンプルのペアの第2のものにおける少なくとも1つの突然変異標的鋳型核酸分子の領域の配列を含み、サンプルのペアが、同じ元のサンプルから採取された、または同じ生物に由来する、請求項2〜7のいずれか1項に記載の方法。
- 該方法が、突然変異配列リードから配列を構築することを含まない、請求項1〜9のいずれか1項に記載の方法。
- 該方法が、少なくとも1つの突然変異標的鋳型核酸分子の配列、または少なくとも1つの突然変異標的鋳型核酸分子の大部分の配列を構築することを含まない、請求項1〜10のいずれか1項に記載の方法。
- 突然変異配列リードを分析することが、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することを含む、請求項1〜11のいずれか1項に記載の方法。
- 突然変異配列リードの分析により得られた情報を使用して、アセンブリグラフによる有効経路の一部を形成するノードを特定することが、
(i)非突然変異配列リードからノードを計算すること、
(ii)アセンブリグラフに対して突然変異配列リードをマッピングすること、
(iii)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定すること、および
(iv)同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードにより連結されたノードを特定すること
を含み、ここで、突然変異配列リードにより連結されたノードが、同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高く、アセンブリグラフによる有効経路の一部を形成する、請求項6に記載の方法。 - 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードをグループに割り当てる、請求項12または13に記載の方法。
- 突然変異配列リードが、それらが共通の突然変異パターンを共有している場合、同じ突然変異標的鋳型核酸分子に由来する可能性が高い、請求項12〜14のいずれか1項に記載の方法。
- 突然変異配列リードを分析することが、共通の突然変異パターンを共有する突然変異配列リードを特定することを含む、請求項12〜15のいずれか1項に記載の方法。
- 共通の突然変異パターンを共有する突然変異配列リードが少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む、請求項15または16に記載の方法。
- シグネチャk-merが、非突然変異配列リードにおいては出現しないが突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するk-merである、請求項17に記載の方法。
- シグネチャ突然変異が、突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するが非突然変異配列リード内の対応位置には出現しないヌクレオチドである、請求項17に記載の方法。
- シグネチャ突然変異が同時発生突然変異である、請求項19に記載の方法。
- シグネチャ突然変異を共有する突然変異配列リード内の対応位置における少なくとも1つ、少なくとも2つ、少なくとも3つまたは少なくとも5つのヌクレオチドが互いに異なる場合、シグネチャ突然変異が無視される、請求項19または20に記載の方法。
- シグネチャ突然変異が、予想外の突然変異である場合、シグネチャ突然変異が無視される、請求項19〜21のいずれか1項に記載の方法。
- 同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程が、少なくとも1つの標的鋳型核酸分子の特定の領域に対応する突然変異配列リードを特定することを含む、請求項19〜22のいずれか1項に記載の方法。
- 突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する確率と、突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来しない確率とのオッズ比が閾値を超える場合、突然変異配列リードが、同じ突然変異標的鋳型核酸分子に由来する可能性が高い、請求項12〜16または23のいずれか1項に記載の方法。
- 第1突然変異配列リードおよびアセンブリグラフの同一領域にマッピングされる他の突然変異配列リードよりも第1突然変異配列リードおよび第2突然変異配列リードのオッズ比が高い場合、突然変異配列リードが同じ突然変異標的鋳型核酸分子に由来する可能性が高い、請求項24に記載の方法。
- 以下の要因:
(i)要求されるストリンジェンシー、および/または
(ii)少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定して突然変異配列リードを得る工程のエラー率、および/または
(iii)少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程において使用される突然変異率、および/または
(iv)少なくとも1つの標的鋳型核酸分子のサイズ、および/または
(v)時間的制約、および/または
(vi)資源における制約
の1以上に基づいて閾値を決定する、請求項24または25に記載の方法。 - 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することが、以下のパラメーター:
e.突然変異配列リードおよびアセンブリグラフの各位置におけるヌクレオチドのマトリックス(N)、
f.所与ヌクレオチド(i)がリードヌクレオチド(j)に突然変異した確率(M)、
g.所与ヌクレオチド(i)がリードヌクレオチド(j)に、該ヌクレオチドが誤読されたという条件で、誤読された確率(E)、および
h.Y位のヌクレオチドが誤読された確率(Q)
に基づく確率関数を使用することを含む、請求項12〜16または23〜26のいずれか1項に記載の方法。 - Qの値が、突然変異配列リードおよび非突然変異配列リードに関して統計分析を実施することにより得られ、あるいは、配列決定方法の精度に関する事前の知識に基づいて得られる、請求項27に記載の方法。
- MおよびEの値が、突然変異配列リードおよび非突然変異配列リードのサブセットに対して実施される統計分析に基づいて推定され、ここで、サブセットが、アセンブリグラフの同一領域にマッピングされたものとして選択される突然変異配列リードおよび非突然変異配列リードを含む、請求項27または28に記載の方法。
- 統計分析が、ベイズ推論、ハミルトニアン・モンテカルロのようなモンテカルロ法、変分推論、またはベイズ推論の最大尤度アナログを使用して実施される、請求項29に記載の方法。
- 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定することが、機械学習またはニューラルネットを使用することを含む、請求項12〜16または23〜30のいずれか1項に記載の方法。
- 該方法がプレクラスタリング工程を含む、請求項12〜31のいずれか1項に記載の方法。
- 同じ突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードの特定がプレクラスタリング工程の結果により制約される、請求項32に記載の方法。
- プレクラスタリング工程が、突然変異配列リードをグループに割り当てることを含み、ここで、同一グループの各メンバーが、同じ突然変異標的鋳型核酸分子に由来する合理的な尤度を有する、請求項32または33に記載の方法。
- プレクラスタリング工程がマルコフ・クラスタリングまたはルーバン・クラスタリングを含む、請求項32〜34のいずれか1項に記載の方法。
- 同一グループの各メンバーがアセンブリグラフ上の共通位置にマッピングされ、および/または共通の突然変異パターンを共有する、請求項34〜35のいずれか1項に記載の方法。
- 共通の突然変異パターンを共有する突然変異配列リードが、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5または少なくともk個の共通のシグネチャk-merおよび/または共通のシグネチャ突然変異を含む突然変異配列リードである、請求項36に記載の方法。
- シグネチャk-merが、非突然変異配列リードにおいては出現しないが突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するk-merである、請求項37に記載の方法。
- シグネチャ突然変異が、突然変異配列リードにおいては少なくとも2回、少なくとも3回、少なくとも4回、少なくとも5回または少なくとも10回出現するが非突然変異配列リード内の対応位置には出現しないヌクレオチドである、請求項37に記載の方法。
- シグネチャ突然変異が同時発生突然変異である、請求項39に記載の方法。
- シグネチャ突然変異を共有する突然変異配列リード内の対応位置における少なくとも1つ、少なくとも2つ、少なくとも3つまたは少なくとも5つのヌクレオチドが互いに異なる場合、シグネチャ突然変異を無視する、請求項39または40に記載の方法。
- シグネチャ突然変異が、予想外の突然変異である場合、シグネチャ突然変異を無視する、請求項39〜41のいずれか1項に記載の方法。
- 同じ少なくとも1つの突然変異標的鋳型核酸分子に由来する可能性が高い突然変異配列リードを特定する工程が、少なくとも1つの標的鋳型核酸分子の特定の領域に対応する突然変異配列リードを特定することを含む、請求項39〜42のいずれか1項に記載の方法。
- 該方法が、ペアエンド配列決定を使用して少なくとも1つの標的鋳型核酸分子の末端を配列決定することを含む、請求項1〜43のいずれか1項に記載の方法。
- 該方法が、少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることを含む、請求項1〜44のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子が各末端にバーコードを含む、請求項1〜45のいずれか1項に記載の方法。
- 該方法が、少なくとも1つの標的鋳型核酸分子の末端の配列をアセンブリグラフに対してマッピングすることを含み、実質的に全ての末端がバーコードを含む、請求項46に記載の方法。
- アセンブリグラフによる有効経路の一部を形成するノードを特定することが、ミスマッチ末端を有する推定経路を無視することを含む、請求項6〜47のいずれか1項に記載の方法。
- アセンブリグラフによる有効経路の一部を形成するノードを特定することが、鋳型衝突の結果である推定経路を無視することを含む、請求項6〜48のいずれか1項に記載の方法。
- アセンブリグラフによる有効経路の一部を形成するノードを特定することが、予想より長いまたは短い推定経路を無視することを含む、請求項6〜49のいずれか1項に記載の方法。
- アセンブリグラフによる有効経路の一部を形成するノードを特定することが、非定型的カバレッジ深度を有する推定経路を無視することを含む、請求項6〜50のいずれか1項に記載の方法。
- 少なくとも1つの突然変異標的鋳型核酸分子が1%〜50%、3%〜25%、5%〜20%または約8%の突然変異を含む、請求項1〜51のいずれか1項に記載の方法。
- 少なくとも1つの突然変異標的鋳型核酸分子が、不均一に分布する突然変異を含む、請求項1〜52のいずれか1項に記載の方法。
- 突然変異配列リードおよび/または非突然変異配列リードが、不均一に分布する配列決定エラーを含む、請求項1〜53のいずれか1項に記載の方法。
- 少なくとも1つの突然変異標的鋳型核酸分子内に突然変異を導入する工程が、不均一に分布する突然変異を導入する、請求項1〜54のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程および/または少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程が、不均一に分布する配列決定エラーを導入する、請求項1〜55のいずれか1項に記載の方法。
- 少なくとも1つの突然変異標的鋳型核酸分子が、実質的にランダムな突然変異パターンを含む、請求項1〜56のいずれか1項に記載の方法。
- サンプルの複数のペアを準備する、請求項1〜58のいずれか1項に記載の方法。
- 異なるサンプルペアにおける少なくとも1つの標的鋳型核酸分子を異なるサンプルタグで標識する、請求項58に記載の方法。
- 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を更に含む、請求項1または3〜59のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子を増幅する工程を更に含む、請求項1または3〜60のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第1のものにおける少なくとも1つの標的鋳型核酸分子を断片化する工程を更に含む、請求項1または3〜61のいずれか1項に記載の方法。
- 少なくとも1つの突然変異標的鋳型核酸分子の領域を配列決定する工程の前に、サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子または少なくとも1つの突然変異標的鋳型核酸分子を断片化する工程を更に含む、請求項1または3〜62のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子が2kbpより大きい、4kbpより大きい、5kbpより大きい、7kbpより大きい、8kbpより大きい、200kbp未満である、100kbp未満である、50kbp未満である、2kbp〜200kbpである、または5kbp〜100kbpである、請求項1〜64のいずれか1項に記載の方法。
- サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子内に突然変異を導入する工程を化学的突然変異誘発または酵素的突然変異誘発により実施する、請求項1または3〜64のいずれか1項に記載の方法。
- 酵素的突然変異誘発を、DNAポリメラーゼを使用して実施する、請求項65に記載の方法。
- DNAポリメラーゼが低バイアスDNAポリメラーゼである、請求項66に記載の方法。
- 低バイアスDNAポリメラーゼが置換変異を導入する、請求項67に記載の方法。
- 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを、それぞれ0.5〜1.5:0.5〜1.5:0.5〜1.5:0.5〜1.5、0.6〜1.4:0.6〜1.4:0.6〜1.4:0.6〜1.4、0.7〜1.3:0.7〜1.3:0.7〜1.3:0.7〜1.3、0.8〜1.2:0.8〜1.2:0.8〜1.2:0.8〜1.2、または約1:1:1:1の率比で変異させる、請求項67又は68に記載の方法。
- 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、およびシトシンヌクレオチドを、それぞれ0.7〜1.3:0.7〜1.3:0.7〜1.3:0.7〜1.3の率比で変異させる、請求項67〜69のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの1%〜15%、2%〜10%、または約8%を変異させる、請求項67〜70のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、1ラウンドの複製当たりに、該少なくとも1つの標的鋳型核酸分子中のヌクレオチドの0%〜3%、または0%〜2%を変異させる、請求項67〜71のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、該少なくとも1つの標的鋳型核酸分子にヌクレオチド類似体を組み込む、請求項67〜72のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して該少なくとも1つの標的鋳型核酸分子中のアデニン、チミン、グアニン、および/またはシトシンを変異させる、請求項67〜73のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、グアニン、シトシン、アデニン、および/またはチミンをヌクレオチド類似体と置き換える、請求項67〜74のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドを、それぞれ0.5〜1.5:0.5〜1.5、0.6〜1.4:0.6〜1.4、0.7〜1.3:0.7〜1.3、0.8〜1.2:0.8〜1.2、または約1:1の率比で導入する、請求項67〜75のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、ヌクレオチド類似体を使用して、グアニンまたはアデニンヌクレオチドを、それぞれ0.7〜1.3:0.7〜1.3の率比で導入する、請求項67〜76のいずれか1項に記載の方法。
- 前記方法が低バイアスDNAポリメラーゼを使用して該サンプルのペアの第2のものにおける該少なくとも1つの標的鋳型核酸分子を増幅するステップを含み、この低バイアスDNAポリメラーゼを使用して該少なくとも1つの標的鋳型核酸分子を増幅するステップがヌクレオチド類似体の存在下で実行され、かつこの少なくとも1つの標的鋳型核酸分子を増幅するステップにより該ヌクレオチド類似体を含む該サンプルのペアの第2のものにおける少なくとも1つの標的鋳型核酸分子が提供される、請求項67〜77のいずれか1項に記載の方法。
- 前記ヌクレオチド類似体がdPTPである、請求項67〜78のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を導入する、請求項79記載の方法。
- 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.5〜1.5:0.5〜1.5:0.5〜1.5:0.5〜1.5、0.6〜1.4:0.6〜1.4:0.6〜1.4:0.6〜1.4、0.7〜1.3:0.7〜1.3:0.7〜1.3:0.7〜1.3、0.8〜1.2:0.8〜1.2:0.8〜1.2:0.8〜1.2、または約1:1:1:1の率比で導入する、請求項80記載の方法。
- 前記低バイアスDNAポリメラーゼが、グアニンからアデニンへの置換変異、シトシンからチミンへの置換変異、アデニンからグアニンへの置換変異、およびチミンからシトシンへの置換変異を、それぞれ0.7〜1.3:0.7〜1.3:0.7〜1.3:0.7〜1.3の率比で導入する、請求項80または81記載の方法。
- 前記低バイアスDNAポリメラーゼが高忠実度DNAポリメラーゼである、請求項67〜82のいずれか1項に記載の方法。
- ヌクレオチド類似体の非存在下で、前記高忠実度DNAポリメラーゼが、1ラウンドの複製当たり0.01%未満、0.0015%未満、0.001%未満、0%〜0.0015%、または0%〜0.001%の変異を導入する、請求項83記載の方法。
- 前記方法が、ヌクレオチド類似体の非存在下でヌクレオチド類似体を含む該少なくとも1つの標的鋳型核酸分子を増幅するさらなるステップを含む、請求項83または84記載の方法。
- 前記のヌクレオチド類似体の非存在下でヌクレオチド類似体を含む該少なくとも1つの標的鋳型核酸分子を増幅するステップを、低バイアスDNAポリメラーゼを使用して実行する、請求項85記載の方法。
- 前記方法が少なくとも1つの変異した標的鋳型核酸分子を提供し、かつ前記方法が、この少なくとも1つの変異した標的鋳型核酸分子を低バイアスDNAポリメラーゼを使用して増幅するさらなるステップをさらに含む、請求項67〜86のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが低鋳型増幅バイアスを有する、請求項67〜87のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、校正ドメインおよび/またはプロセッシビティ増強ドメインを含む、請求項67〜88のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼが、以下a.〜h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
の少なくとも400、少なくとも500、少なくとも600、少なくとも700、または少なくとも750個の連続したアミノ酸の断片を含む、請求項67〜89いずれか1項に記載の方法。 - 前記低バイアスDNAポリメラーゼが、以下a.〜h.、すなわち
a.配列番号2の配列、
b.配列番号2と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
c.配列番号4の配列、
d.配列番号4と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
e.配列番号6の配列、
f.配列番号6と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列、
g.配列番号7の配列、または
h.配列番号7と少なくとも95%、少なくとも98%、もしくは少なくとも99%同一である配列
を含む、請求項67〜90のいずれか1項に記載の方法。 - 前記低バイアスDNAポリメラーゼが、配列番号2と少なくとも98%同一である配列を含む、請求項91記載の方法。
- 前記低バイアスDNAポリメラーゼが、配列番号4と少なくとも98%同一である配列を含む、請求項91記載の方法。
- 前記低バイアスDNAポリメラーゼが、配列番号6と少なくとも98%同一である配列を含む、請求項91記載の方法。
- 前記低バイアスDNAポリメラーゼが、配列番号7と少なくとも98%同一である配列を含む、請求項91記載の方法。
- 前記低バイアスDNAポリメラーゼがサーモコッカス目古細菌のポリメラーゼ(thermococcal polymerase)、またはその誘導体である、請求項67〜95のいずれか1項に記載の方法。
- 前記低バイアスDNAポリメラーゼがサーモコッカス目古細菌のポリメラーゼである、請求項96記載の方法。
- 前記のサーモコッカス目古細菌のポリメラーゼが、T.コダカレンシス(T.kodakarensis)、T.シクリ(T.siculi)、T.セレル(T.celer)およびT.エスピー(T.sp)KS-1からなる群より選択されるサーモコッカス目古細菌の菌株に由来するものである、請求項96または97に記載の方法。
- 請求項1〜98のいずれか1項に記載の方法を実施するために適合化されたコンピュータプログラム。
- 請求項99に記載のコンピュータプログラムを含むコンピュータ可読媒体。
- 請求項1〜98のいずれか1項に記載の方法を含む、コンピュータで実施される方法。
- 少なくとも1つの標的鋳型核酸分子を各サンプルが含むサンプルのペアを準備する工程が、サンプルのペアの第1のものにおける標的鋳型核酸分子の数を制御することを含む、請求項1または3〜98のいずれか1項に記載の方法。
- 少なくとも1つの標的鋳型核酸分子を各サンプルが含むサンプルのペアを準備する工程が、サンプルのペアの第2のものにおける標的鋳型核酸分子の数を制御することを含む、請求項1、3〜98または102のいずれか1項に記載の方法。
- サンプルのペアの第1のものを、2以上のサブサンプルをプールすることにより準備する、請求項1、3〜98または102〜103のいずれか1項に記載の方法。
- サンプルのペアの第2のものを、2以上のサブサンプルをプールすることにより準備する、請求項1、3〜98または102〜104のいずれか1項に記載の方法。
- サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを準備するためにプールされるサブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する工程を更に含む、請求項104または105に記載の方法。
- (a)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備すること、
(b)少なくとも1つの標的鋳型核酸分子の領域を配列決定すること、および
(c)少なくとも1つの標的鋳型核酸分子の領域の配列から、少なくとも1つの標的鋳型核酸分子の配列を構築すること
を含む、少なくとも1つの標的鋳型核酸分子の配列決定方法であって、ここで、
(i)少なくとも1つの標的鋳型核酸分子を含む少なくとも1つのサンプルを準備する工程が、少なくとも1つのサンプルにおける標的鋳型核酸分子の数を制御することを含む、および/または
(ii)2以上のサブサンプルをプールすることにより、少なくとも1つのサンプルを準備し、ここで、サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化する、方法。 - 標的鋳型核酸分子の数の制御が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルにおける標的鋳型核酸分子の数を測定することを含む、請求項102〜107のいずれか1項に記載の方法。
- 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、または少なくとも1つのサンプルの希釈系列を調製して、希釈サンプルを含む希釈系列を得ることを含む、請求項108に記載の方法。
- 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を配列決定することを含む、請求項108〜190のいずれか1項に記載の方法。
- 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、ついで配列決定することを含む、請求項110に記載の方法。
- 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、標的鋳型核酸分子を増幅し、断片化し、ついで標的鋳型核酸分子を配列決定することを含む、請求項110または111に記載の方法。
- 標的鋳型核酸分子の数の測定が、サンプルのペアの第1のもの、サンプルのペアの第2のもの、少なくとも1つのサンプルまたは希釈サンプルの1以上において、ユニーク標的鋳型核酸分子配列の数を特定することを含む、請求項110〜112のいずれか1項に記載の方法。
- 標的鋳型核酸分子の数の測定が、標的鋳型核酸分子を突然変異させることを含む、請求項110〜113のいずれか1項に記載の方法。
- 標的鋳型核酸分子を突然変異させることが、ヌクレオチド類似体の存在下で標的鋳型核酸分子を増幅することを含む、請求項114に記載の方法。
- ヌクレオチド類似体がdPTPである、請求項115に記載の方法。
- 標的鋳型核酸分子の数の測定が、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子配列の数に基づいて、ユニーク突然変異標的鋳型核酸分子の数を特定すること
を含む、請求項110〜116のいずれか1項に記載の方法。 - 標的鋳型核酸分子の数を測定することが、バーコードまたはバーコードのペアを標的鋳型核酸分子内に導入してバーコード付き標的鋳型核酸分子を得ることを含む、請求項108〜117のいずれか1項に記載の方法。
- 標的鋳型核酸分子の数の測定が、
(i)バーコードまたはバーコードのペアを含むバーコード付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)ユニークバーコードまたはバーコードのペアの数に基づいて、ユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含む、請求項118に記載の方法。 - サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものにおける標的鋳型核酸分子の数の制御が、標的鋳型核酸分子の数を測定し、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを希釈して、サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものが所望の数の標的鋳型核酸分子を含むようにすることを含む、請求項102〜119のいずれか1項に記載の方法。
- サブサンプルのそれぞれにおける標的鋳型核酸分子の数を正規化することが、異なるサブサンプルからの標的鋳型核酸分子を異なるサンプルタグで標識することを含み、好ましくは、ここで、異なるサンプルからの標的鋳型核酸分子を標識することを、サブサンプルをプールする前に実施する、請求項106〜120のいずれか1項に記載の方法。
- サンプルのペアの第1のものおよび/またはサンプルのペアの第2のものを構成するサブサンプルの予備プールを調製し、予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することを含む、請求項121に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、予備プールにおいて系列希釈を実施して、希釈予備プールを含む系列希釈を得ることを含む、請求項122に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、予備プールまたは希釈予備プールにおける標的鋳型核酸分子を配列決定することを含む、請求項122〜123のいずれか1項に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を増幅し、ついで配列決定することを含む、請求項124に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を増幅し、断片化し、ついで配列決定することを含む、請求項124または125に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、各サンプルタグを有するユニーク標的鋳型核酸分子配列の数を特定することを含む、請求項122〜126のいずれか1項に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、標的鋳型核酸分子を突然変異させることを含む、請求項122〜127のいずれか1項に記載の方法。
- 標的鋳型核酸分子タグを突然変異させることが、ヌクレオチド類似体の存在下で標的鋳型核酸分子を増幅することを含む、請求項128に記載の方法。
- ヌクレオチド類似体がdPTPである、請求項129に記載の方法。
- 予備プールにおいて各サンプルタグで標識された標的鋳型核酸分子の数を測定することが、
(i)標的鋳型核酸分子を突然変異させて、突然変異標的鋳型核酸分子を得ること、
(ii)突然変異標的鋳型核酸分子の領域を配列決定すること、および
(iii)ユニーク突然変異標的鋳型核酸分子の数に基づいて、各サンプルタグを有するユニーク突然変異標的鋳型核酸分子の数を特定すること
を含む、請求項122〜130のいずれか1項に記載の方法。 - 標的鋳型核酸分子の数を測定することが、バーコードまたはバーコードのペアを標的鋳型核酸分子内に導入してバーコード付きサンプルタグ付き標的鋳型核酸分子を得ることを含む、請求項122〜131のいずれか1項に記載の方法。
- 各サンプルタグで標識された標的鋳型核酸分子の数の測定が、
(i)バーコードまたはバーコードのペアを含むバーコード付きサンプルタグ付き標的鋳型核酸分子の領域を配列決定すること、および
(ii)各サンプルタグに関連したユニークバーコードまたはバーコードペア配列の数に基づいて、各サンプルタグを有するユニークバーコード付き標的鋳型核酸分子の数を特定すること
を含む、請求項132に記載の方法。 - 該方法が、異なるサンプルタグを含む標的鋳型核酸分子の数の比を計算することを含む、請求項121〜133のいずれか1項に記載の方法。
- サンプルのペアの第1のものおよび/または第2のものを、サブサンプルのそれぞれにおける標的鋳型核酸分子の数が所望の比となるように、サブサンプルを再プールすることにより準備する、請求項104〜134のいずれか1項に記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024018627A JP2024054291A (ja) | 2018-08-13 | 2024-02-09 | 配列決定アルゴリズム |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB1813171.4A GB201813171D0 (en) | 2018-08-13 | 2018-08-13 | Sequencing method |
GB1813171.4 | 2018-08-13 | ||
GBGB1907101.8A GB201907101D0 (en) | 2019-05-20 | 2019-05-20 | Sequencing method |
GB1907101.8 | 2019-05-20 | ||
PCT/GB2019/052264 WO2020035669A1 (en) | 2018-08-13 | 2019-08-12 | Sequencing algorithm |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024018627A Division JP2024054291A (ja) | 2018-08-13 | 2024-02-09 | 配列決定アルゴリズム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021533775A true JP2021533775A (ja) | 2021-12-09 |
JPWO2020035669A5 JPWO2020035669A5 (ja) | 2022-08-18 |
JP7437383B2 JP7437383B2 (ja) | 2024-02-22 |
Family
ID=67660402
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021507695A Active JP7437383B2 (ja) | 2018-08-13 | 2019-08-12 | 配列決定アルゴリズム |
JP2024018627A Pending JP2024054291A (ja) | 2018-08-13 | 2024-02-09 | 配列決定アルゴリズム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024018627A Pending JP2024054291A (ja) | 2018-08-13 | 2024-02-09 | 配列決定アルゴリズム |
Country Status (12)
Country | Link |
---|---|
US (1) | US20210174905A1 (ja) |
EP (3) | EP4293123A3 (ja) |
JP (2) | JP7437383B2 (ja) |
KR (1) | KR20210081326A (ja) |
CN (1) | CN113015813A (ja) |
AU (1) | AU2019321208A1 (ja) |
CA (2) | CA3108947A1 (ja) |
DK (1) | DK3710597T3 (ja) |
ES (2) | ES2965194T3 (ja) |
HU (1) | HUE064110T2 (ja) |
SG (1) | SG11202101019YA (ja) |
WO (1) | WO2020035669A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113791952A (zh) * | 2021-09-16 | 2021-12-14 | 上海擎创信息技术有限公司 | 一种告警场景挖掘方法 |
WO2023230553A2 (en) * | 2022-05-26 | 2023-11-30 | Illumina, Inc. | Preparation of long read nucleic acid libraries |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002079502A1 (en) * | 2001-03-28 | 2002-10-10 | The University Of Queensland | A method for nucleic acid sequence analysis |
JP2017517282A (ja) * | 2014-05-23 | 2017-06-29 | ユニバーシティ オブ テクノロジー,シドニー | 配列決定プロセス |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040002090A1 (en) * | 2002-03-05 | 2004-01-01 | Pascal Mayer | Methods for detecting genome-wide sequence variations associated with a phenotype |
US9977861B2 (en) * | 2012-07-18 | 2018-05-22 | Illumina Cambridge Limited | Methods and systems for determining haplotypes and phasing of haplotypes |
EP3957742A1 (en) * | 2014-10-10 | 2022-02-23 | Cold Spring Harbor Laboratory | Random nucleotide mutation for nucleotide template counting and assembly |
US20180201916A1 (en) * | 2015-07-06 | 2018-07-19 | Uvic Industry Partnerships Inc. | Variants of the subtilisin carlsberg polypeptide with decreased thermostability |
WO2017117287A1 (en) * | 2015-12-30 | 2017-07-06 | Bio-Rad Laboratories, Inc. | Split-cycle and tape amplification |
-
2019
- 2019-08-12 SG SG11202101019YA patent/SG11202101019YA/en unknown
- 2019-08-12 CN CN201980067627.XA patent/CN113015813A/zh active Pending
- 2019-08-12 CA CA3108947A patent/CA3108947A1/en active Pending
- 2019-08-12 KR KR1020217007630A patent/KR20210081326A/ko active Search and Examination
- 2019-08-12 JP JP2021507695A patent/JP7437383B2/ja active Active
- 2019-08-12 US US17/267,801 patent/US20210174905A1/en active Pending
- 2019-08-12 DK DK19755421.5T patent/DK3710597T3/da active
- 2019-08-12 EP EP23201414.2A patent/EP4293123A3/en active Pending
- 2019-08-12 HU HUE21175553A patent/HUE064110T2/hu unknown
- 2019-08-12 CA CA3222084A patent/CA3222084A1/en active Pending
- 2019-08-12 EP EP19755421.5A patent/EP3710597B1/en active Active
- 2019-08-12 ES ES21175553T patent/ES2965194T3/es active Active
- 2019-08-12 WO PCT/GB2019/052264 patent/WO2020035669A1/en unknown
- 2019-08-12 ES ES19755421T patent/ES2892349T3/es active Active
- 2019-08-12 AU AU2019321208A patent/AU2019321208A1/en active Pending
- 2019-08-12 EP EP21175553.3A patent/EP3950958B1/en active Active
-
2024
- 2024-02-09 JP JP2024018627A patent/JP2024054291A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002079502A1 (en) * | 2001-03-28 | 2002-10-10 | The University Of Queensland | A method for nucleic acid sequence analysis |
JP2017517282A (ja) * | 2014-05-23 | 2017-06-29 | ユニバーシティ オブ テクノロジー,シドニー | 配列決定プロセス |
Non-Patent Citations (2)
Title |
---|
KEITH, J. M. ET AL.: "Algorithms for sequence analysis via mutagenesis", BIOINFORMATICS, vol. 20(15), JPN6023030597, 12 October 2004 (2004-10-12), pages 2401 - 2410, ISSN: 0005119345 * |
SIPOS, B. ET AL.: "An improved protocol for sequencing of repetitive genomic regions and structural variantions using m", PLOS ONE, vol. 7(8), JPN6023030596, 2012, pages 43359, ISSN: 0005119344 * |
Also Published As
Publication number | Publication date |
---|---|
CA3222084A1 (en) | 2020-02-20 |
JP7437383B2 (ja) | 2024-02-22 |
JP2024054291A (ja) | 2024-04-16 |
HUE064110T2 (hu) | 2024-02-28 |
US20210174905A1 (en) | 2021-06-10 |
EP4293123A3 (en) | 2024-01-17 |
CN113015813A (zh) | 2021-06-22 |
DK3710597T3 (da) | 2021-09-20 |
KR20210081326A (ko) | 2021-07-01 |
ES2892349T3 (es) | 2022-02-03 |
AU2019321208A1 (en) | 2021-02-18 |
EP3950958B1 (en) | 2023-10-04 |
EP3950958A1 (en) | 2022-02-09 |
CA3108947A1 (en) | 2020-02-20 |
EP3710597B1 (en) | 2021-07-14 |
ES2965194T3 (es) | 2024-04-11 |
SG11202101019YA (en) | 2021-02-25 |
EP3710597A1 (en) | 2020-09-23 |
EP4293123A2 (en) | 2023-12-20 |
WO2020035669A1 (en) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676682B1 (en) | Methods for accurate sequence data and modified base position determination | |
JP2024054291A (ja) | 配列決定アルゴリズム | |
Cheng et al. | Methods to improve the accuracy of next-generation sequencing | |
CN108359723A (zh) | 一种降低深度测序错误的方法 | |
TWI771847B (zh) | 擴增和確定目標核苷酸序列的方法 | |
US20240052339A1 (en) | Rna probe for mutation profiling and use thereof | |
Vaisvila et al. | Discovery of novel DNA cytosine deaminase activities enables a nondestructive single-enzyme methylation sequencing method for base resolution high-coverage methylome mapping of cell-free and ultra-low input DNA | |
US11421238B2 (en) | Method for introducing mutations | |
Wei | Single Cell Phylogenetic Fate Mapping: Combining Microsatellite and Methylation Sequencing for Retrospective Lineage Tracing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20220304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20221107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7437383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |