CN111527044A - 用于序列判定的方法和系统 - Google Patents
用于序列判定的方法和系统 Download PDFInfo
- Publication number
- CN111527044A CN111527044A CN201880084067.4A CN201880084067A CN111527044A CN 111527044 A CN111527044 A CN 111527044A CN 201880084067 A CN201880084067 A CN 201880084067A CN 111527044 A CN111527044 A CN 111527044A
- Authority
- CN
- China
- Prior art keywords
- sequence
- sequences
- signals
- truncated
- hpn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 186
- 238000012163 sequencing technique Methods 0.000 claims abstract description 174
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 84
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 83
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 83
- 229920001519 homopolymer Polymers 0.000 claims description 252
- 108020004414 DNA Proteins 0.000 claims description 75
- 102000053602 DNA Human genes 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 53
- 108091035707 Consensus sequence Proteins 0.000 claims description 30
- 229920002477 rna polymer Polymers 0.000 claims description 29
- 230000009897 systematic effect Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 7
- 125000003729 nucleotide group Chemical group 0.000 description 114
- 239000002773 nucleotide Substances 0.000 description 94
- 238000003860 storage Methods 0.000 description 19
- 239000000975 dye Substances 0.000 description 18
- 230000015654 memory Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 14
- -1 nucleoside monophosphate Chemical class 0.000 description 13
- 238000011002 quantification Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 11
- 239000000523 sample Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 9
- 241000894007 species Species 0.000 description 9
- 238000010348 incorporation Methods 0.000 description 8
- 102000040430 polynucleotide Human genes 0.000 description 8
- 108091033319 polynucleotide Proteins 0.000 description 8
- 239000002157 polynucleotide Substances 0.000 description 8
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 8
- 239000011324 bead Substances 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 108020004635 Complementary DNA Proteins 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- DZBUGLKDJFMEHC-UHFFFAOYSA-N acridine Chemical compound C1=CC=CC2=CC3=CC=CC=C3N=C21 DZBUGLKDJFMEHC-UHFFFAOYSA-N 0.000 description 6
- 108091034117 Oligonucleotide Proteins 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 5
- 239000000758 substrate Substances 0.000 description 5
- BGWLYQZDNFIFRX-UHFFFAOYSA-N 5-[3-[2-[3-(3,8-diamino-6-phenylphenanthridin-5-ium-5-yl)propylamino]ethylamino]propyl]-6-phenylphenanthridin-5-ium-3,8-diamine;dichloride Chemical compound [Cl-].[Cl-].C=1C(N)=CC=C(C2=CC=C(N)C=C2[N+]=2CCCNCCNCCC[N+]=3C4=CC(N)=CC=C4C4=CC=C(N)C=C4C=3C=3C=CC=CC=3)C=1C=2C1=CC=CC=C1 BGWLYQZDNFIFRX-UHFFFAOYSA-N 0.000 description 4
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 description 4
- IKYJCHYORFJFRR-UHFFFAOYSA-N Alexa Fluor 350 Chemical compound O=C1OC=2C=C(N)C(S(O)(=O)=O)=CC=2C(C)=C1CC(=O)ON1C(=O)CCC1=O IKYJCHYORFJFRR-UHFFFAOYSA-N 0.000 description 4
- 102000004190 Enzymes Human genes 0.000 description 4
- 108090000790 Enzymes Proteins 0.000 description 4
- QTANTQQOYSUMLC-UHFFFAOYSA-O Ethidium cation Chemical compound C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 QTANTQQOYSUMLC-UHFFFAOYSA-O 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 4
- 239000012472 biological sample Substances 0.000 description 4
- 238000010804 cDNA synthesis Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 239000002299 complementary DNA Substances 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- ZMMJGEGLRURXTF-UHFFFAOYSA-N ethidium bromide Chemical compound [Br-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 ZMMJGEGLRURXTF-UHFFFAOYSA-N 0.000 description 4
- 229960005542 ethidium bromide Drugs 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000010839 reverse transcription Methods 0.000 description 4
- 239000012099 Alexa Fluor family Substances 0.000 description 3
- 208000011231 Crohn disease Diseases 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 3
- CGNLCCVKSWNSDG-UHFFFAOYSA-N SYBR Green I Chemical compound CN(C)CCCN(CCC)C1=CC(C=C2N(C3=CC=CC=C3S2)C)=C2C=CC=CC2=[N+]1C1=CC=CC=C1 CGNLCCVKSWNSDG-UHFFFAOYSA-N 0.000 description 3
- 108010006785 Taq Polymerase Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- RGWHQCVHVJXOKC-SHYZEUOFSA-N dCTP Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO[P@](O)(=O)O[P@](O)(=O)OP(O)(O)=O)[C@@H](O)C1 RGWHQCVHVJXOKC-SHYZEUOFSA-N 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000000835 electrochemical detection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 239000000138 intercalating agent Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 239000002777 nucleoside Substances 0.000 description 3
- 238000010791 quenching Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- YGIABALXNBVHBX-UHFFFAOYSA-N 1-[4-[7-(diethylamino)-4-methyl-2-oxochromen-3-yl]phenyl]pyrrole-2,5-dione Chemical compound O=C1OC2=CC(N(CC)CC)=CC=C2C(C)=C1C(C=C1)=CC=C1N1C(=O)C=CC1=O YGIABALXNBVHBX-UHFFFAOYSA-N 0.000 description 2
- RFLVMTUMFYRZCB-UHFFFAOYSA-N 1-methylguanine Chemical compound O=C1N(C)C(N)=NC2=C1N=CN2 RFLVMTUMFYRZCB-UHFFFAOYSA-N 0.000 description 2
- QEQDLKUMPUDNPG-UHFFFAOYSA-N 2-(7-amino-4-methyl-2-oxochromen-3-yl)acetic acid Chemical compound C1=C(N)C=CC2=C1OC(=O)C(CC(O)=O)=C2C QEQDLKUMPUDNPG-UHFFFAOYSA-N 0.000 description 2
- YSAJFXWTVFGPAX-UHFFFAOYSA-N 2-[(2,4-dioxo-1h-pyrimidin-5-yl)oxy]acetic acid Chemical compound OC(=O)COC1=CNC(=O)NC1=O YSAJFXWTVFGPAX-UHFFFAOYSA-N 0.000 description 2
- OBYNJKLOYWCXEP-UHFFFAOYSA-N 2-[3-(dimethylamino)-6-dimethylazaniumylidenexanthen-9-yl]-4-isothiocyanatobenzoate Chemical compound C=12C=CC(=[N+](C)C)C=C2OC2=CC(N(C)C)=CC=C2C=1C1=CC(N=C=S)=CC=C1C([O-])=O OBYNJKLOYWCXEP-UHFFFAOYSA-N 0.000 description 2
- FZWGECJQACGGTI-UHFFFAOYSA-N 2-amino-7-methyl-1,7-dihydro-6H-purin-6-one Chemical compound NC1=NC(O)=C2N(C)C=NC2=N1 FZWGECJQACGGTI-UHFFFAOYSA-N 0.000 description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 2
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 2
- OIVLITBTBDPEFK-UHFFFAOYSA-N 5,6-dihydrouracil Chemical compound O=C1CCNC(=O)N1 OIVLITBTBDPEFK-UHFFFAOYSA-N 0.000 description 2
- ZLAQATDNGLKIEV-UHFFFAOYSA-N 5-methyl-2-sulfanylidene-1h-pyrimidin-4-one Chemical compound CC1=CNC(=S)NC1=O ZLAQATDNGLKIEV-UHFFFAOYSA-N 0.000 description 2
- 108700012813 7-aminoactinomycin D Proteins 0.000 description 2
- YXHLJMWYDTXDHS-IRFLANFNSA-N 7-aminoactinomycin D Chemical compound C[C@H]1OC(=O)[C@H](C(C)C)N(C)C(=O)CN(C)C(=O)[C@@H]2CCCN2C(=O)[C@@H](C(C)C)NC(=O)[C@H]1NC(=O)C1=C(N)C(=O)C(C)=C2OC(C(C)=C(N)C=C3C(=O)N[C@@H]4C(=O)N[C@@H](C(N5CCC[C@H]5C(=O)N(C)CC(=O)N(C)[C@@H](C(C)C)C(=O)O[C@@H]4C)=O)C(C)C)=C3N=C21 YXHLJMWYDTXDHS-IRFLANFNSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- JLDSMZIBHYTPPR-UHFFFAOYSA-N Alexa Fluor 405 Chemical compound CC[NH+](CC)CC.CC[NH+](CC)CC.CC[NH+](CC)CC.C12=C3C=4C=CC2=C(S([O-])(=O)=O)C=C(S([O-])(=O)=O)C1=CC=C3C(S(=O)(=O)[O-])=CC=4OCC(=O)N(CC1)CCC1C(=O)ON1C(=O)CCC1=O JLDSMZIBHYTPPR-UHFFFAOYSA-N 0.000 description 2
- WEJVZSAYICGDCK-UHFFFAOYSA-N Alexa Fluor 430 Chemical compound CC[NH+](CC)CC.CC1(C)C=C(CS([O-])(=O)=O)C2=CC=3C(C(F)(F)F)=CC(=O)OC=3C=C2N1CCCCCC(=O)ON1C(=O)CCC1=O WEJVZSAYICGDCK-UHFFFAOYSA-N 0.000 description 2
- WHVNXSBKJGAXKU-UHFFFAOYSA-N Alexa Fluor 532 Chemical compound [H+].[H+].CC1(C)C(C)NC(C(=C2OC3=C(C=4C(C(C(C)N=4)(C)C)=CC3=3)S([O-])(=O)=O)S([O-])(=O)=O)=C1C=C2C=3C(C=C1)=CC=C1C(=O)ON1C(=O)CCC1=O WHVNXSBKJGAXKU-UHFFFAOYSA-N 0.000 description 2
- ZAINTDRBUHCDPZ-UHFFFAOYSA-M Alexa Fluor 546 Chemical compound [H+].[Na+].CC1CC(C)(C)NC(C(=C2OC3=C(C4=NC(C)(C)CC(C)C4=CC3=3)S([O-])(=O)=O)S([O-])(=O)=O)=C1C=C2C=3C(C(=C(Cl)C=1Cl)C(O)=O)=C(Cl)C=1SCC(=O)NCCCCCC(=O)ON1C(=O)CCC1=O ZAINTDRBUHCDPZ-UHFFFAOYSA-M 0.000 description 2
- IGAZHQIYONOHQN-UHFFFAOYSA-N Alexa Fluor 555 Chemical compound C=12C=CC(=N)C(S(O)(=O)=O)=C2OC2=C(S(O)(=O)=O)C(N)=CC=C2C=1C1=CC=C(C(O)=O)C=C1C(O)=O IGAZHQIYONOHQN-UHFFFAOYSA-N 0.000 description 2
- 239000012113 Alexa Fluor 635 Substances 0.000 description 2
- 108010017826 DNA Polymerase I Proteins 0.000 description 2
- 102000004594 DNA Polymerase I Human genes 0.000 description 2
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 2
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- HYVABZIGRDEKCD-UHFFFAOYSA-N N(6)-dimethylallyladenine Chemical compound CC(C)=CCNC1=NC=NC2=C1N=CN2 HYVABZIGRDEKCD-UHFFFAOYSA-N 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 229920000388 Polyphosphate Polymers 0.000 description 2
- 108010019653 Pwo polymerase Proteins 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 2
- PZBFGYYEXUXCOF-UHFFFAOYSA-N TCEP Chemical compound OC(=O)CCP(CCC(O)=O)CCC(O)=O PZBFGYYEXUXCOF-UHFFFAOYSA-N 0.000 description 2
- 108010001244 Tli polymerase Proteins 0.000 description 2
- GRRMZXFOOGQMFA-UHFFFAOYSA-J YoYo-1 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=C2N(C3=CC=CC=C3O2)C)=CC=[N+]1CCC[N+](C)(C)CCC[N+](C)(C)CCC[N+](C1=CC=CC=C11)=CC=C1C=C1N(C)C2=CC=CC=C2O1 GRRMZXFOOGQMFA-UHFFFAOYSA-J 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- QTBSBXVTEAMEQO-UHFFFAOYSA-N acetic acid Substances CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 2
- DPKHZNPWBDQZCN-UHFFFAOYSA-N acridine orange free base Chemical compound C1=CC(N(C)C)=CC2=NC3=CC(N(C)C)=CC=C3C=C21 DPKHZNPWBDQZCN-UHFFFAOYSA-N 0.000 description 2
- RJURFGZVJUQBHK-UHFFFAOYSA-N actinomycin D Natural products CC1OC(=O)C(C(C)C)N(C)C(=O)CN(C)C(=O)C2CCCN2C(=O)C(C(C)C)NC(=O)C1NC(=O)C1=C(N)C(=O)C(C)=C2OC(C(C)=CC=C3C(=O)NC4C(=O)NC(C(N5CCCC5C(=O)N(C)CC(=O)N(C)C(C(C)C)C(=O)OC4C)=O)C(C)C)=C3N=C21 RJURFGZVJUQBHK-UHFFFAOYSA-N 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 108010004469 allophycocyanin Proteins 0.000 description 2
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 2
- 150000001412 amines Chemical class 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- ZYGHJZDHTFUPRJ-UHFFFAOYSA-N coumarin Chemical compound C1=CC=C2OC(=O)C=CC2=C1 ZYGHJZDHTFUPRJ-UHFFFAOYSA-N 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 2
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 2
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 2
- 239000005549 deoxyribonucleoside Substances 0.000 description 2
- 239000005546 dideoxynucleotide Substances 0.000 description 2
- VHJLVAABSRFDPM-QWWZWVQMSA-N dithiothreitol Chemical compound SC[C@@H](O)[C@H](O)CS VHJLVAABSRFDPM-QWWZWVQMSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- CTSPAMFJBXKSOY-UHFFFAOYSA-N ellipticine Chemical compound N1=CC=C2C(C)=C(NC=3C4=CC=CC=3)C4=C(C)C2=C1 CTSPAMFJBXKSOY-UHFFFAOYSA-N 0.000 description 2
- MHMNJMPURVTYEJ-UHFFFAOYSA-N fluorescein-5-isothiocyanate Chemical compound O1C(=O)C2=CC(N=C=S)=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 MHMNJMPURVTYEJ-UHFFFAOYSA-N 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 150000003833 nucleoside derivatives Chemical class 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- RDOWQLZANAYVLL-UHFFFAOYSA-N phenanthridine Chemical compound C1=CC=C2C3=CC=CC=C3C=NC2=C1 RDOWQLZANAYVLL-UHFFFAOYSA-N 0.000 description 2
- NMHMNPHRMNGLLB-UHFFFAOYSA-N phloretic acid Chemical group OC(=O)CCC1=CC=C(O)C=C1 NMHMNPHRMNGLLB-UHFFFAOYSA-N 0.000 description 2
- 235000021317 phosphate Nutrition 0.000 description 2
- 150000003013 phosphoric acid derivatives Chemical class 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 239000001205 polyphosphate Substances 0.000 description 2
- 235000011176 polyphosphates Nutrition 0.000 description 2
- XJMOSONTPMZWPB-UHFFFAOYSA-M propidium iodide Chemical compound [I-].[I-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CCC[N+](C)(CC)CC)=C1C1=CC=CC=C1 XJMOSONTPMZWPB-UHFFFAOYSA-M 0.000 description 2
- BBEAQIROQSPTKN-UHFFFAOYSA-N pyrene Chemical compound C1=CC=C2C=CC3=CC=CC4=CC=C1C2=C43 BBEAQIROQSPTKN-UHFFFAOYSA-N 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000171 quenching effect Effects 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- MPLHNVLQVRSVEE-UHFFFAOYSA-N texas red Chemical compound [O-]S(=O)(=O)C1=CC(S(Cl)(=O)=O)=CC=C1C(C1=CC=2CCCN3CCCC(C=23)=C1O1)=C2C1=C(CCC1)C3=[N+]1CCCC3=C2 MPLHNVLQVRSVEE-UHFFFAOYSA-N 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000001226 triphosphate Substances 0.000 description 2
- 235000011178 triphosphate Nutrition 0.000 description 2
- 125000002264 triphosphate group Chemical group [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 2
- 229940075420 xanthine Drugs 0.000 description 2
- QGKMIGUHVLGJBR-UHFFFAOYSA-M (4z)-1-(3-methylbutyl)-4-[[1-(3-methylbutyl)quinolin-1-ium-4-yl]methylidene]quinoline;iodide Chemical compound [I-].C12=CC=CC=C2N(CCC(C)C)C=CC1=CC1=CC=[N+](CCC(C)C)C2=CC=CC=C12 QGKMIGUHVLGJBR-UHFFFAOYSA-M 0.000 description 1
- WHTVZRBIWZFKQO-AWEZNQCLSA-N (S)-chloroquine Chemical compound ClC1=CC=C2C(N[C@@H](C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-AWEZNQCLSA-N 0.000 description 1
- AYDAHOIUHVUJHQ-UHFFFAOYSA-N 1-(3',6'-dihydroxy-3-oxospiro[2-benzofuran-1,9'-xanthene]-5-yl)pyrrole-2,5-dione Chemical compound C=1C(O)=CC=C2C=1OC1=CC(O)=CC=C1C2(C1=CC=2)OC(=O)C1=CC=2N1C(=O)C=CC1=O AYDAHOIUHVUJHQ-UHFFFAOYSA-N 0.000 description 1
- ADEORFBTPGKHRP-UHFFFAOYSA-N 1-[7-(dimethylamino)-4-methyl-2-oxochromen-3-yl]pyrrole-2,5-dione Chemical compound O=C1OC2=CC(N(C)C)=CC=C2C(C)=C1N1C(=O)C=CC1=O ADEORFBTPGKHRP-UHFFFAOYSA-N 0.000 description 1
- WJNGQIYEQLPJMN-IOSLPCCCSA-N 1-methylinosine Chemical compound C1=NC=2C(=O)N(C)C=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O WJNGQIYEQLPJMN-IOSLPCCCSA-N 0.000 description 1
- PRDFBSVERLRRMY-UHFFFAOYSA-N 2'-(4-ethoxyphenyl)-5-(4-methylpiperazin-1-yl)-2,5'-bibenzimidazole Chemical compound C1=CC(OCC)=CC=C1C1=NC2=CC=C(C=3NC4=CC(=CC=C4N=3)N3CCN(C)CC3)C=C2N1 PRDFBSVERLRRMY-UHFFFAOYSA-N 0.000 description 1
- HLYBTPMYFWWNJN-UHFFFAOYSA-N 2-(2,4-dioxo-1h-pyrimidin-5-yl)-2-hydroxyacetic acid Chemical compound OC(=O)C(O)C1=CNC(=O)NC1=O HLYBTPMYFWWNJN-UHFFFAOYSA-N 0.000 description 1
- SGAKLDIYNFXTCK-UHFFFAOYSA-N 2-[(2,4-dioxo-1h-pyrimidin-5-yl)methylamino]acetic acid Chemical compound OC(=O)CNCC1=CNC(=O)NC1=O SGAKLDIYNFXTCK-UHFFFAOYSA-N 0.000 description 1
- XMSMHKMPBNTBOD-UHFFFAOYSA-N 2-dimethylamino-6-hydroxypurine Chemical compound N1C(N(C)C)=NC(=O)C2=C1N=CN2 XMSMHKMPBNTBOD-UHFFFAOYSA-N 0.000 description 1
- SMADWRYCYBUIKH-UHFFFAOYSA-N 2-methyl-7h-purin-6-amine Chemical compound CC1=NC(N)=C2NC=NC2=N1 SMADWRYCYBUIKH-UHFFFAOYSA-N 0.000 description 1
- KKAJSJJFBSOMGS-UHFFFAOYSA-N 3,6-diamino-10-methylacridinium chloride Chemical compound [Cl-].C1=C(N)C=C2[N+](C)=C(C=C(N)C=C3)C3=CC2=C1 KKAJSJJFBSOMGS-UHFFFAOYSA-N 0.000 description 1
- GOLORTLGFDVFDW-UHFFFAOYSA-N 3-(1h-benzimidazol-2-yl)-7-(diethylamino)chromen-2-one Chemical compound C1=CC=C2NC(C3=CC4=CC=C(C=C4OC3=O)N(CC)CC)=NC2=C1 GOLORTLGFDVFDW-UHFFFAOYSA-N 0.000 description 1
- VIIIJFZJKFXOGG-UHFFFAOYSA-N 3-methylchromen-2-one Chemical compound C1=CC=C2OC(=O)C(C)=CC2=C1 VIIIJFZJKFXOGG-UHFFFAOYSA-N 0.000 description 1
- KOLPWZCZXAMXKS-UHFFFAOYSA-N 3-methylcytosine Chemical compound CN1C(N)=CC=NC1=O KOLPWZCZXAMXKS-UHFFFAOYSA-N 0.000 description 1
- WCKQPPQRFNHPRJ-UHFFFAOYSA-N 4-[[4-(dimethylamino)phenyl]diazenyl]benzoic acid Chemical compound C1=CC(N(C)C)=CC=C1N=NC1=CC=C(C(O)=O)C=C1 WCKQPPQRFNHPRJ-UHFFFAOYSA-N 0.000 description 1
- GJAKJCICANKRFD-UHFFFAOYSA-N 4-acetyl-4-amino-1,3-dihydropyrimidin-2-one Chemical compound CC(=O)C1(N)NC(=O)NC=C1 GJAKJCICANKRFD-UHFFFAOYSA-N 0.000 description 1
- OVONXEQGWXGFJD-UHFFFAOYSA-N 4-sulfanylidene-1h-pyrimidin-2-one Chemical compound SC=1C=CNC(=O)N=1 OVONXEQGWXGFJD-UHFFFAOYSA-N 0.000 description 1
- WHQPYSGKCFYLGC-UHFFFAOYSA-N 5,6-dichlorotriazin-4-amine Chemical compound NC1=NN=NC(Cl)=C1Cl WHQPYSGKCFYLGC-UHFFFAOYSA-N 0.000 description 1
- MQJSSLBGAQJNER-UHFFFAOYSA-N 5-(methylaminomethyl)-1h-pyrimidine-2,4-dione Chemical compound CNCC1=CNC(=O)NC1=O MQJSSLBGAQJNER-UHFFFAOYSA-N 0.000 description 1
- WPYRHVXCOQLYLY-UHFFFAOYSA-N 5-[(methoxyamino)methyl]-2-sulfanylidene-1h-pyrimidin-4-one Chemical compound CONCC1=CNC(=S)NC1=O WPYRHVXCOQLYLY-UHFFFAOYSA-N 0.000 description 1
- LQLQRFGHAALLLE-UHFFFAOYSA-N 5-bromouracil Chemical compound BrC1=CNC(=O)NC1=O LQLQRFGHAALLLE-UHFFFAOYSA-N 0.000 description 1
- NJYVEMPWNAYQQN-UHFFFAOYSA-N 5-carboxyfluorescein Chemical compound C12=CC=C(O)C=C2OC2=CC(O)=CC=C2C21OC(=O)C1=CC(C(=O)O)=CC=C21 NJYVEMPWNAYQQN-UHFFFAOYSA-N 0.000 description 1
- VKLFQTYNHLDMDP-PNHWDRBUSA-N 5-carboxymethylaminomethyl-2-thiouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=S)NC(=O)C(CNCC(O)=O)=C1 VKLFQTYNHLDMDP-PNHWDRBUSA-N 0.000 description 1
- IPJDHSYCSQAODE-UHFFFAOYSA-N 5-chloromethylfluorescein diacetate Chemical compound O1C(=O)C2=CC(CCl)=CC=C2C21C1=CC=C(OC(C)=O)C=C1OC1=CC(OC(=O)C)=CC=C21 IPJDHSYCSQAODE-UHFFFAOYSA-N 0.000 description 1
- YERWMQJEYUIJBO-UHFFFAOYSA-N 5-chlorosulfonyl-2-[3-(diethylamino)-6-diethylazaniumylidenexanthen-9-yl]benzenesulfonate Chemical compound C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=C(S(Cl)(=O)=O)C=C1S([O-])(=O)=O YERWMQJEYUIJBO-UHFFFAOYSA-N 0.000 description 1
- ZFTBZKVVGZNMJR-UHFFFAOYSA-N 5-chlorouracil Chemical compound ClC1=CNC(=O)NC1=O ZFTBZKVVGZNMJR-UHFFFAOYSA-N 0.000 description 1
- DBMJYWPMRSOUGB-UHFFFAOYSA-N 5-hexyl-6-phenylphenanthridin-5-ium-3,8-diamine;iodide Chemical compound [I-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CCCCCC)=C1C1=CC=CC=C1 DBMJYWPMRSOUGB-UHFFFAOYSA-N 0.000 description 1
- KSNXJLQDQOIRIP-UHFFFAOYSA-N 5-iodouracil Chemical compound IC1=CNC(=O)NC1=O KSNXJLQDQOIRIP-UHFFFAOYSA-N 0.000 description 1
- KELXHQACBIUYSE-UHFFFAOYSA-N 5-methoxy-1h-pyrimidine-2,4-dione Chemical compound COC1=CNC(=O)NC1=O KELXHQACBIUYSE-UHFFFAOYSA-N 0.000 description 1
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 1
- DCPSTSVLRXOYGS-UHFFFAOYSA-N 6-amino-1h-pyrimidine-2-thione Chemical compound NC1=CC=NC(S)=N1 DCPSTSVLRXOYGS-UHFFFAOYSA-N 0.000 description 1
- BZTDTCNHAFUJOG-UHFFFAOYSA-N 6-carboxyfluorescein Chemical compound C12=CC=C(O)C=C2OC2=CC(O)=CC=C2C11OC(=O)C2=CC=C(C(=O)O)C=C21 BZTDTCNHAFUJOG-UHFFFAOYSA-N 0.000 description 1
- IHHSSHCBRVYGJX-UHFFFAOYSA-N 6-chloro-2-methoxyacridin-9-amine Chemical compound C1=C(Cl)C=CC2=C(N)C3=CC(OC)=CC=C3N=C21 IHHSSHCBRVYGJX-UHFFFAOYSA-N 0.000 description 1
- OCGLKKKKTZBFFJ-UHFFFAOYSA-N 7-(aminomethyl)chromen-2-one Chemical compound C1=CC(=O)OC2=CC(CN)=CC=C21 OCGLKKKKTZBFFJ-UHFFFAOYSA-N 0.000 description 1
- STQGQHZAVUOBTE-UHFFFAOYSA-N 7-Cyan-hept-2t-en-4,6-diinsaeure Natural products C1=2C(O)=C3C(=O)C=4C(OC)=CC=CC=4C(=O)C3=C(O)C=2CC(O)(C(C)=O)CC1OC1CC(N)C(O)C(C)O1 STQGQHZAVUOBTE-UHFFFAOYSA-N 0.000 description 1
- CJIJXIFQYOPWTF-UHFFFAOYSA-N 7-hydroxycoumarin Natural products O1C(=O)C=CC2=CC(O)=CC=C21 CJIJXIFQYOPWTF-UHFFFAOYSA-N 0.000 description 1
- VKKXEIQIGGPMHT-UHFFFAOYSA-N 7h-purine-2,8-diamine Chemical compound NC1=NC=C2NC(N)=NC2=N1 VKKXEIQIGGPMHT-UHFFFAOYSA-N 0.000 description 1
- MSSXOMSJDRHRMC-UHFFFAOYSA-N 9H-purine-2,6-diamine Chemical compound NC1=NC(N)=C2NC=NC2=N1 MSSXOMSJDRHRMC-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 239000012109 Alexa Fluor 568 Substances 0.000 description 1
- 239000012111 Alexa Fluor 610 Substances 0.000 description 1
- 239000012112 Alexa Fluor 633 Substances 0.000 description 1
- 239000012114 Alexa Fluor 647 Substances 0.000 description 1
- 239000012115 Alexa Fluor 660 Substances 0.000 description 1
- 239000012118 Alexa Fluor 750 Substances 0.000 description 1
- 108091029845 Aminoallyl nucleotide Proteins 0.000 description 1
- 208000003343 Antiphospholipid Syndrome Diseases 0.000 description 1
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 208000010061 Autosomal Dominant Polycystic Kidney Diseases 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- IVRMZWNICZWHMI-UHFFFAOYSA-N Azide Chemical compound [N-]=[N+]=[N-] IVRMZWNICZWHMI-UHFFFAOYSA-N 0.000 description 1
- 102100022548 Beta-hexosaminidase subunit alpha Human genes 0.000 description 1
- UIZZRDIAIPYKJZ-UHFFFAOYSA-J BoBo-3 Chemical compound [I-].[I-].[I-].[I-].S1C2=CC=CC=C2[N+](C)=C1C=CC=C1C=CN(CCC[N+](C)(C)CCC[N+](C)(C)CCCN2C=CC(=CC=CC3=[N+](C4=CC=CC=C4S3)C)C=C2)C=C1 UIZZRDIAIPYKJZ-UHFFFAOYSA-J 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 206010008723 Chondrodystrophy Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 201000003883 Cystic fibrosis Diseases 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 108050009160 DNA polymerase 1 Proteins 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 108010092160 Dactinomycin Proteins 0.000 description 1
- XPDXVDYUQZHFPV-UHFFFAOYSA-N Dansyl Chloride Chemical compound C1=CC=C2C(N(C)C)=CC=CC2=C1S(Cl)(=O)=O XPDXVDYUQZHFPV-UHFFFAOYSA-N 0.000 description 1
- WEAHRLBPCANXCN-UHFFFAOYSA-N Daunomycin Natural products CCC1(O)CC(OC2CC(N)C(O)C(C)O2)c3cc4C(=O)c5c(OC)cccc5C(=O)c4c(O)c3C1 WEAHRLBPCANXCN-UHFFFAOYSA-N 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 201000000913 Duane retraction syndrome Diseases 0.000 description 1
- 208000020129 Duane syndrome Diseases 0.000 description 1
- 206010013801 Duchenne Muscular Dystrophy Diseases 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000701533 Escherichia virus T4 Species 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 108090000371 Esterases Proteins 0.000 description 1
- 229910052693 Europium Inorganic materials 0.000 description 1
- 206010016207 Familial Mediterranean fever Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 description 1
- 238000001327 Förster resonance energy transfer Methods 0.000 description 1
- 208000015872 Gaucher disease Diseases 0.000 description 1
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 1
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 1
- ZIXGXMMUKPLXBB-UHFFFAOYSA-N Guatambuinine Natural products N1C2=CC=CC=C2C2=C1C(C)=C1C=CN=C(C)C1=C2 ZIXGXMMUKPLXBB-UHFFFAOYSA-N 0.000 description 1
- 208000018565 Hemochromatosis Diseases 0.000 description 1
- 208000031220 Hemophilia Diseases 0.000 description 1
- 208000009292 Hemophilia A Diseases 0.000 description 1
- 208000002972 Hepatolenticular Degeneration Diseases 0.000 description 1
- 208000023105 Huntington disease Diseases 0.000 description 1
- 208000000563 Hyperlipoproteinemia Type II Diseases 0.000 description 1
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 description 1
- 238000004566 IR spectroscopy Methods 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 1
- 208000017924 Klinefelter Syndrome Diseases 0.000 description 1
- FGBAVQUHSKYMTC-UHFFFAOYSA-M LDS 751 dye Chemical compound [O-]Cl(=O)(=O)=O.C1=CC2=CC(N(C)C)=CC=C2[N+](CC)=C1C=CC=CC1=CC=C(N(C)C)C=C1 FGBAVQUHSKYMTC-UHFFFAOYSA-M 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 108090001060 Lipase Proteins 0.000 description 1
- 102000004882 Lipase Human genes 0.000 description 1
- 239000004367 Lipase Substances 0.000 description 1
- 102100024640 Low-density lipoprotein receptor Human genes 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 208000001826 Marfan syndrome Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010028289 Muscle atrophy Diseases 0.000 description 1
- 206010068871 Myotonic dystrophy Diseases 0.000 description 1
- SGSSKEDGVONRGC-UHFFFAOYSA-N N(2)-methylguanine Chemical compound O=C1NC(NC)=NC2=C1N=CN2 SGSSKEDGVONRGC-UHFFFAOYSA-N 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000009905 Neurofibromatoses Diseases 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 206010031243 Osteogenesis imperfecta Diseases 0.000 description 1
- 241000282577 Pan troglodytes Species 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 108010002747 Pfu DNA polymerase Proteins 0.000 description 1
- 201000011252 Phenylketonuria Diseases 0.000 description 1
- 108010010677 Phosphodiesterase I Proteins 0.000 description 1
- ZYFVNVRFVHJEIU-UHFFFAOYSA-N PicoGreen Chemical compound CN(C)CCCN(CCCN(C)C)C1=CC(=CC2=[N+](C3=CC=CC=C3S2)C)C2=CC=CC=C2N1C1=CC=CC=C1 ZYFVNVRFVHJEIU-UHFFFAOYSA-N 0.000 description 1
- QBKMWMZYHZILHF-UHFFFAOYSA-L Po-Pro-1 Chemical compound [I-].[I-].O1C2=CC=CC=C2[N+](C)=C1C=C1C=CN(CCC[N+](C)(C)C)C=C1 QBKMWMZYHZILHF-UHFFFAOYSA-L 0.000 description 1
- CZQJZBNARVNSLQ-UHFFFAOYSA-L Po-Pro-3 Chemical compound [I-].[I-].O1C2=CC=CC=C2[N+](C)=C1C=CC=C1C=CN(CCC[N+](C)(C)C)C=C1 CZQJZBNARVNSLQ-UHFFFAOYSA-L 0.000 description 1
- BOLJGYHEBJNGBV-UHFFFAOYSA-J PoPo-1 Chemical compound [I-].[I-].[I-].[I-].O1C2=CC=CC=C2[N+](C)=C1C=C1C=CN(CCC[N+](C)(C)CCC[N+](C)(C)CCCN2C=CC(=CC3=[N+](C4=CC=CC=C4O3)C)C=C2)C=C1 BOLJGYHEBJNGBV-UHFFFAOYSA-J 0.000 description 1
- GYPIAQJSRPTNTI-UHFFFAOYSA-J PoPo-3 Chemical compound [I-].[I-].[I-].[I-].O1C2=CC=CC=C2[N+](C)=C1C=CC=C1C=CN(CCC[N+](C)(C)CCC[N+](C)(C)CCCN2C=CC(=CC=CC3=[N+](C4=CC=CC=C4O3)C)C=C2)C=C1 GYPIAQJSRPTNTI-UHFFFAOYSA-J 0.000 description 1
- 241000097929 Porphyria Species 0.000 description 1
- 208000010642 Porphyrias Diseases 0.000 description 1
- 206010063493 Premature ageing Diseases 0.000 description 1
- 208000032038 Premature aging Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- WDVSHHCDHLJJJR-UHFFFAOYSA-N Proflavine Chemical compound C1=CC(N)=CC2=NC3=CC(N)=CC=C3C=C21 WDVSHHCDHLJJJR-UHFFFAOYSA-N 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 208000007014 Retinitis pigmentosa Diseases 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- KJTLSVCANCCWHF-UHFFFAOYSA-N Ruthenium Chemical compound [Ru] KJTLSVCANCCWHF-UHFFFAOYSA-N 0.000 description 1
- SUYXJDLXGFPMCQ-INIZCTEOSA-N SJ000287331 Natural products CC1=c2cnccc2=C(C)C2=Nc3ccccc3[C@H]12 SUYXJDLXGFPMCQ-INIZCTEOSA-N 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- PJANXHGTPQOBST-VAWYXSNFSA-N Stilbene Natural products C=1C=CC=CC=1/C=C/C1=CC=CC=C1 PJANXHGTPQOBST-VAWYXSNFSA-N 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 208000022292 Tay-Sachs disease Diseases 0.000 description 1
- 229910052771 Terbium Inorganic materials 0.000 description 1
- 208000002903 Thalassemia Diseases 0.000 description 1
- 208000007536 Thrombosis Diseases 0.000 description 1
- DPXHITFUCHFTKR-UHFFFAOYSA-L To-Pro-1 Chemical compound [I-].[I-].S1C2=CC=CC=C2[N+](C)=C1C=C1C2=CC=CC=C2N(CCC[N+](C)(C)C)C=C1 DPXHITFUCHFTKR-UHFFFAOYSA-L 0.000 description 1
- QHNORJFCVHUPNH-UHFFFAOYSA-L To-Pro-3 Chemical compound [I-].[I-].S1C2=CC=CC=C2[N+](C)=C1C=CC=C1C2=CC=CC=C2N(CCC[N+](C)(C)C)C=C1 QHNORJFCVHUPNH-UHFFFAOYSA-L 0.000 description 1
- MZZINWWGSYUHGU-UHFFFAOYSA-J ToTo-1 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=C2N(C3=CC=CC=C3S2)C)=CC=[N+]1CCC[N+](C)(C)CCC[N+](C)(C)CCC[N+](C1=CC=CC=C11)=CC=C1C=C1N(C)C2=CC=CC=C2S1 MZZINWWGSYUHGU-UHFFFAOYSA-J 0.000 description 1
- 206010044688 Trisomy 21 Diseases 0.000 description 1
- 108010020713 Tth polymerase Proteins 0.000 description 1
- 208000026928 Turner syndrome Diseases 0.000 description 1
- 206010045261 Type IIa hyperlipidaemia Diseases 0.000 description 1
- PGAVKCOVUIYSFO-XVFCMESISA-N UTP Chemical compound O[C@@H]1[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O[C@H]1N1C(=O)NC(=O)C=C1 PGAVKCOVUIYSFO-XVFCMESISA-N 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 238000005411 Van der Waals force Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 201000007960 WAGR syndrome Diseases 0.000 description 1
- 208000018839 Wilson disease Diseases 0.000 description 1
- ZVUUXEGAYWQURQ-UHFFFAOYSA-L Yo-Pro-3 Chemical compound [I-].[I-].O1C2=CC=CC=C2[N+](C)=C1C=CC=C1C2=CC=CC=C2N(CCC[N+](C)(C)C)C=C1 ZVUUXEGAYWQURQ-UHFFFAOYSA-L 0.000 description 1
- JSBNEYNPYQFYNM-UHFFFAOYSA-J YoYo-3 Chemical compound [I-].[I-].[I-].[I-].C12=CC=CC=C2C(C=CC=C2N(C3=CC=CC=C3O2)C)=CC=[N+]1CCC(=[N+](C)C)CCCC(=[N+](C)C)CC[N+](C1=CC=CC=C11)=CC=C1C=CC=C1N(C)C2=CC=CC=C2O1 JSBNEYNPYQFYNM-UHFFFAOYSA-J 0.000 description 1
- CSFWHPXNORHQTJ-UHFFFAOYSA-N [9-(2-carboxyphenyl)-6-(dimethylamino)-8-[(2-iodoacetyl)amino]xanthen-3-ylidene]-dimethylazanium;chloride Chemical compound [Cl-].C=12C=CC(=[N+](C)C)C=C2OC2=CC(N(C)C)=CC(NC(=O)CI)=C2C=1C1=CC=CC=C1C(O)=O CSFWHPXNORHQTJ-UHFFFAOYSA-N 0.000 description 1
- 208000008919 achondroplasia Diseases 0.000 description 1
- 229940023020 acriflavine Drugs 0.000 description 1
- RJURFGZVJUQBHK-IIXSONLDSA-N actinomycin D Chemical compound C[C@H]1OC(=O)[C@H](C(C)C)N(C)C(=O)CN(C)C(=O)[C@@H]2CCCN2C(=O)[C@@H](C(C)C)NC(=O)[C@H]1NC(=O)C1=C(N)C(=O)C(C)=C2OC(C(C)=CC=C3C(=O)N[C@@H]4C(=O)N[C@@H](C(N5CCC[C@H]5C(=O)N(C)CC(=O)N(C)[C@@H](C(C)C)C(=O)O[C@@H]4C)=O)C(C)C)=C3N=C21 RJURFGZVJUQBHK-IIXSONLDSA-N 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 208000006682 alpha 1-Antitrypsin Deficiency Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 208000022185 autosomal dominant polycystic kidney disease Diseases 0.000 description 1
- 238000004061 bleaching Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000006664 bond formation reaction Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- CZPLANDPABRVHX-UHFFFAOYSA-N cascade blue Chemical compound C=1C2=CC=CC=C2C(NCC)=CC=1C(C=1C=CC(=CC=1)N(CC)CC)=C1C=CC(=[N+](CC)CC)C=C1 CZPLANDPABRVHX-UHFFFAOYSA-N 0.000 description 1
- 108091092259 cell-free RNA Proteins 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 229960003677 chloroquine Drugs 0.000 description 1
- WHTVZRBIWZFKQO-UHFFFAOYSA-N chloroquine Natural products ClC1=CC=C2C(NC(C)CCCN(CC)CC)=CC=NC2=C1 WHTVZRBIWZFKQO-UHFFFAOYSA-N 0.000 description 1
- ZYVSOIYQKUDENJ-WKSBCEQHSA-N chromomycin A3 Chemical compound O([C@@H]1C[C@@H](O[C@H](C)[C@@H]1OC(C)=O)OC=1C=C2C=C3C[C@H]([C@@H](C(=O)C3=C(O)C2=C(O)C=1C)O[C@@H]1O[C@H](C)[C@@H](O)[C@H](O[C@@H]2O[C@H](C)[C@@H](O)[C@H](O[C@@H]3O[C@@H](C)[C@H](OC(C)=O)[C@@](C)(O)C3)C2)C1)[C@H](OC)C(=O)[C@@H](O)[C@@H](C)O)[C@@H]1C[C@@H](O)[C@@H](OC)[C@@H](C)O1 ZYVSOIYQKUDENJ-WKSBCEQHSA-N 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 229960000956 coumarin Drugs 0.000 description 1
- 235000001671 coumarin Nutrition 0.000 description 1
- 229960000640 dactinomycin Drugs 0.000 description 1
- STQGQHZAVUOBTE-VGBVRHCVSA-N daunorubicin Chemical compound O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(C)=O)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1 STQGQHZAVUOBTE-VGBVRHCVSA-N 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- CFCUWKMKBJTWLW-UHFFFAOYSA-N deoliosyl-3C-alpha-L-digitoxosyl-MTM Natural products CC=1C(O)=C2C(O)=C3C(=O)C(OC4OC(C)C(O)C(OC5OC(C)C(O)C(OC6OC(C)C(O)C(C)(O)C6)C5)C4)C(C(OC)C(=O)C(O)C(C)O)CC3=CC2=CC=1OC(OC(C)C1O)CC1OC1CC(O)C(O)C(C)O1 CFCUWKMKBJTWLW-UHFFFAOYSA-N 0.000 description 1
- 150000004985 diamines Chemical class 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- YQGOJNYOYNNSMM-UHFFFAOYSA-N eosin Chemical compound [Na+].OC(=O)C1=CC=CC=C1C1=C2C=C(Br)C(=O)C(Br)=C2OC2=C(Br)C(O)=C(Br)C=C21 YQGOJNYOYNNSMM-UHFFFAOYSA-N 0.000 description 1
- IINNWAYUJNWZRM-UHFFFAOYSA-L erythrosin B Chemical compound [Na+].[Na+].[O-]C(=O)C1=CC=CC=C1C1=C2C=C(I)C(=O)C(I)=C2OC2=C(I)C([O-])=C(I)C=C21 IINNWAYUJNWZRM-UHFFFAOYSA-L 0.000 description 1
- 229940011411 erythrosine Drugs 0.000 description 1
- 235000012732 erythrosine Nutrition 0.000 description 1
- 239000004174 erythrosine Substances 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- VYXSBFYARXAAKO-UHFFFAOYSA-N ethyl 2-[3-(ethylamino)-6-ethylimino-2,7-dimethylxanthen-9-yl]benzoate;hydron;chloride Chemical compound [Cl-].C1=2C=C(C)C(NCC)=CC=2OC2=CC(=[NH+]CC)C(C)=CC2=C1C1=CC=CC=C1C(=O)OCC VYXSBFYARXAAKO-UHFFFAOYSA-N 0.000 description 1
- OGPBJKLSAFTDLK-UHFFFAOYSA-N europium atom Chemical compound [Eu] OGPBJKLSAFTDLK-UHFFFAOYSA-N 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 201000001386 familial hypercholesterolemia Diseases 0.000 description 1
- 239000003925 fat Substances 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- GVEPBJHOBDJJJI-UHFFFAOYSA-N fluoranthrene Natural products C1=CC(C2=CC=CC=C22)=C3C2=CC=CC3=C1 GVEPBJHOBDJJJI-UHFFFAOYSA-N 0.000 description 1
- GNBHRKFJIUUOQI-UHFFFAOYSA-N fluorescein Chemical compound O1C(=O)C2=CC=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 GNBHRKFJIUUOQI-UHFFFAOYSA-N 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 229960002949 fluorouracil Drugs 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000005090 green fluorescent protein Substances 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 229940056582 human hair preparation Drugs 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- PGLTVOMIXTUURA-UHFFFAOYSA-N iodoacetamide Chemical compound NC(=O)CI PGLTVOMIXTUURA-UHFFFAOYSA-N 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 229910052747 lanthanoid Inorganic materials 0.000 description 1
- 150000002602 lanthanoids Chemical class 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 235000019421 lipase Nutrition 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- DLBFLQKQABVKGT-UHFFFAOYSA-L lucifer yellow dye Chemical compound [Li+].[Li+].[O-]S(=O)(=O)C1=CC(C(N(C(=O)NN)C2=O)=O)=C3C2=CC(S([O-])(=O)=O)=CC3=C1N DLBFLQKQABVKGT-UHFFFAOYSA-L 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000004880 lymph fluid Anatomy 0.000 description 1
- FDZZZRQASAIRJF-UHFFFAOYSA-M malachite green Chemical compound [Cl-].C1=CC(N(C)C)=CC=C1C(C=1C=CC=CC=1)=C1C=CC(=[N+](C)C)C=C1 FDZZZRQASAIRJF-UHFFFAOYSA-M 0.000 description 1
- 229940107698 malachite green Drugs 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- IZAGSTRIDUNNOY-UHFFFAOYSA-N methyl 2-[(2,4-dioxo-1h-pyrimidin-5-yl)oxy]acetate Chemical compound COC(=O)COC1=CNC(=O)NC1=O IZAGSTRIDUNNOY-UHFFFAOYSA-N 0.000 description 1
- VWKNUUOGGLNRNZ-UHFFFAOYSA-N methylbimane Chemical class CC1=C(C)C(=O)N2N1C(C)=C(C)C2=O VWKNUUOGGLNRNZ-UHFFFAOYSA-N 0.000 description 1
- CFCUWKMKBJTWLW-BKHRDMLASA-N mithramycin Chemical compound O([C@@H]1C[C@@H](O[C@H](C)[C@H]1O)OC=1C=C2C=C3C[C@H]([C@@H](C(=O)C3=C(O)C2=C(O)C=1C)O[C@@H]1O[C@H](C)[C@@H](O)[C@H](O[C@@H]2O[C@H](C)[C@H](O)[C@H](O[C@@H]3O[C@H](C)[C@@H](O)[C@@](C)(O)C3)C2)C1)[C@H](OC)C(=O)[C@@H](O)[C@@H](C)O)[C@H]1C[C@@H](O)[C@H](O)[C@@H](C)O1 CFCUWKMKBJTWLW-BKHRDMLASA-N 0.000 description 1
- 239000003068 molecular probe Substances 0.000 description 1
- AHEWZZJEDQVLOP-UHFFFAOYSA-N monobromobimane Chemical compound BrCC1=C(C)C(=O)N2N1C(C)=C(C)C2=O AHEWZZJEDQVLOP-UHFFFAOYSA-N 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 230000020763 muscle atrophy Effects 0.000 description 1
- 201000000585 muscular atrophy Diseases 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- VMCOQLKKSNQANE-UHFFFAOYSA-N n,n-dimethyl-4-[6-[6-(4-methylpiperazin-1-yl)-1h-benzimidazol-2-yl]-1h-benzimidazol-2-yl]aniline Chemical compound C1=CC(N(C)C)=CC=C1C1=NC2=CC=C(C=3NC4=CC(=CC=C4N=3)N3CCN(C)CC3)C=C2N1 VMCOQLKKSNQANE-UHFFFAOYSA-N 0.000 description 1
- YRDPEKZBFANDFE-UHFFFAOYSA-N n-(3',6'-dihydroxy-1-oxospiro[2-benzofuran-3,9'-xanthene]-5-yl)-2-iodoacetamide Chemical compound O1C(=O)C2=CC=C(NC(=O)CI)C=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 YRDPEKZBFANDFE-UHFFFAOYSA-N 0.000 description 1
- UATCLPJEZJKNHE-UHFFFAOYSA-N n-(3',6'-dihydroxy-3-oxospiro[2-benzofuran-1,9'-xanthene]-5-yl)-2-iodoacetamide Chemical compound O1C(=O)C2=CC(NC(=O)CI)=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 UATCLPJEZJKNHE-UHFFFAOYSA-N 0.000 description 1
- KYAKSPGXNQVMAA-UHFFFAOYSA-N n-(6-aminohexyl)prop-2-enamide Chemical compound NCCCCCCNC(=O)C=C KYAKSPGXNQVMAA-UHFFFAOYSA-N 0.000 description 1
- UPBAOYRENQEPJO-UHFFFAOYSA-N n-[5-[[5-[(3-amino-3-iminopropyl)carbamoyl]-1-methylpyrrol-3-yl]carbamoyl]-1-methylpyrrol-3-yl]-4-formamido-1-methylpyrrole-2-carboxamide Chemical compound CN1C=C(NC=O)C=C1C(=O)NC1=CN(C)C(C(=O)NC2=CN(C)C(C(=O)NCCC(N)=N)=C2)=C1 UPBAOYRENQEPJO-UHFFFAOYSA-N 0.000 description 1
- 201000004931 neurofibromatosis Diseases 0.000 description 1
- BKIMMITUMNQMOS-UHFFFAOYSA-N nonane Chemical compound CCCCCCCCC BKIMMITUMNQMOS-UHFFFAOYSA-N 0.000 description 1
- 238000003203 nucleic acid sequencing method Methods 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical group [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 125000005642 phosphothioate group Chemical group 0.000 description 1
- 108060006184 phycobiliprotein Proteins 0.000 description 1
- INAAIJLSXJJHOZ-UHFFFAOYSA-N pibenzimol Chemical compound C1CN(C)CCN1C1=CC=C(N=C(N2)C=3C=C4NC(=NC4=CC=3)C=3C=CC(O)=CC=3)C2=C1 INAAIJLSXJJHOZ-UHFFFAOYSA-N 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 229960003171 plicamycin Drugs 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 125000004424 polypyridyl Polymers 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 229960000286 proflavine Drugs 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000004129 prosencephalon Anatomy 0.000 description 1
- 235000019833 protease Nutrition 0.000 description 1
- 235000019419 proteases Nutrition 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000006862 quantum yield reaction Methods 0.000 description 1
- 101710197907 rDNA transcriptional regulator pol5 Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000011347 resin Substances 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- PYWVYCXTNDRMGF-UHFFFAOYSA-N rhodamine B Chemical compound [Cl-].C=12C=CC(=[N+](CC)CC)C=C2OC2=CC(N(CC)CC)=CC=C2C=1C1=CC=CC=C1C(O)=O PYWVYCXTNDRMGF-UHFFFAOYSA-N 0.000 description 1
- 125000000548 ribosyl group Chemical group C1([C@H](O)[C@H](O)[C@H](O1)CO)* 0.000 description 1
- 229910052707 ruthenium Inorganic materials 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 125000003748 selenium group Chemical group *[Se]* 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 208000002491 severe combined immunodeficiency Diseases 0.000 description 1
- 208000007056 sickle cell anemia Diseases 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- GUGNSJAORJLKGP-UHFFFAOYSA-K sodium 8-methoxypyrene-1,3,6-trisulfonate Chemical compound [Na+].[Na+].[Na+].C1=C2C(OC)=CC(S([O-])(=O)=O)=C(C=C3)C2=C2C3=C(S([O-])(=O)=O)C=C(S([O-])(=O)=O)C2=C1 GUGNSJAORJLKGP-UHFFFAOYSA-K 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 208000002320 spinal muscular atrophy Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 108010042747 stallimycin Proteins 0.000 description 1
- 230000007863 steatosis Effects 0.000 description 1
- 231100000240 steatosis hepatitis Toxicity 0.000 description 1
- PJANXHGTPQOBST-UHFFFAOYSA-N stilbene Chemical compound C=1C=CC=CC=1C=CC1=CC=CC=C1 PJANXHGTPQOBST-UHFFFAOYSA-N 0.000 description 1
- 235000021286 stilbenes Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000004094 surface-active agent Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- GZCRRIHWUXGPOV-UHFFFAOYSA-N terbium atom Chemical compound [Tb] GZCRRIHWUXGPOV-UHFFFAOYSA-N 0.000 description 1
- WGTODYJZXSJIAG-UHFFFAOYSA-N tetramethylrhodamine chloride Chemical compound [Cl-].C=12C=CC(N(C)C)=CC2=[O+]C2=CC(N(C)C)=CC=C2C=1C1=CC=CC=C1C(O)=O WGTODYJZXSJIAG-UHFFFAOYSA-N 0.000 description 1
- 150000003573 thiols Chemical group 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XJCQPMRCZSJDPA-UHFFFAOYSA-L trimethyl-[3-[4-[(e)-(3-methyl-1,3-benzothiazol-2-ylidene)methyl]pyridin-1-ium-1-yl]propyl]azanium;diiodide Chemical compound [I-].[I-].S1C2=CC=CC=C2N(C)\C1=C\C1=CC=[N+](CCC[N+](C)(C)C)C=C1 XJCQPMRCZSJDPA-UHFFFAOYSA-L 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- ORHBXUUXSCNDEV-UHFFFAOYSA-N umbelliferone Chemical compound C1=CC(=O)OC2=CC(O)=CC=C21 ORHBXUUXSCNDEV-UHFFFAOYSA-N 0.000 description 1
- HFTAFOQKODTIJY-UHFFFAOYSA-N umbelliferone Natural products Cc1cc2C=CC(=O)Oc2cc1OCC=CC(C)(C)O HFTAFOQKODTIJY-UHFFFAOYSA-N 0.000 description 1
- 229950010342 uridine triphosphate Drugs 0.000 description 1
- PGAVKCOVUIYSFO-UHFFFAOYSA-N uridine-triphosphate Natural products OC1C(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)OC1N1C(=O)NC(=O)C=C1 PGAVKCOVUIYSFO-UHFFFAOYSA-N 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- WCNMEQDMUYVWMJ-JPZHCBQBSA-N wybutoxosine Chemical compound C1=NC=2C(=O)N3C(CC([C@H](NC(=O)OC)C(=O)OC)OO)=C(C)N=C3N(C)C=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O WCNMEQDMUYVWMJ-JPZHCBQBSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本公开内容提供了用于序列的准确和有效的邻近序列感知碱基判定的方法和系统。在一方面,本文公开了用于对核酸分子进行测序的方法,其包括:(a)对核酸分子进行测序以生成多个序列信号;和(b)至少部分基于以下来确定所述核酸分子的碱基判定:(i)多个序列信号和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。
Description
交叉引用
本申请要求于2017年10月26日提交的美国临时专利申请号62/577,450的权益,该申请通过引用整体并入本文。
背景技术
阐明整个人类基因组这一目标引起了对用于小规模和大规模应用的快速核酸(例如,DNA)测序技术的兴趣。随着对人类疾病遗传基础知识的增加,高通量DNA测序已被用于各种各样的临床应用。尽管核酸测序方法和系统在广泛的分子生物学和诊断应用中普遍存在,但此类方法和系统在准确的碱基判定(call)方面可能会遇到挑战,诸如当测序信号包含被称为同聚物的重复核苷酸碱基区域时。特别地,基于指示核苷酸掺入的量化特征性信号执行碱基判定的测序方法可能具有测序错误(例如,在量化同聚物长度时),其源于信号水平的随机和不可预测的系统变化,以及对于每个序列都可能不同的邻近序列(context)依赖性信号。此类信号变化和邻近序列依赖性信号可能导致序列(例如,同聚物)判定方面的问题。
发明内容
本文认识到需要改进的对序列(诸如包含同聚物的序列)的碱基判定。本文提供的方法和系统可显著减少或去除量化同聚物长度中的误差以及与邻近序列依赖性相关的误差。这样的方法和系统可实现准确和有效的序列(诸如包含同聚物的序列)的碱基判定、同聚物长度的量化以及序列信号中邻近序列依赖性的量化。
在一方面,本文公开了用于对核酸分子进行测序的方法,包括:(a)对所述核酸分子进行测序以生成多个序列信号;以及(b)至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。在一些实施方案中,所述测序生成一个或多个估算序列,并且所述核酸分子的所述碱基判定至少部分基于以下来确定:(i)所述一个或多个估算序列,和(ii)所述一个或多个估算序列的至少一部分的量化的邻近序列依赖性。在一些实施方案中,(b)与(a)的所述测序实时执行。在一些实施方案中,所述一个或多个估算序列包含一个或多个长度N的同聚物。在一些实施方案中,N是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。
在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,包括:(a)对脱氧核糖核酸(DNA)分子进行测序,以提供多个序列信号和一个或多个估算序列,其中所述DNA分子包含已知序列;以及(b)对于多个位点中的给定位点,至少基于以下来确定所述给定位点的一个或多个预期信号:(i)所述多个序列信号和/或所述一个或多个估算序列,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(c)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;(d)至少部分基于以下来确定所述第二集合的DNA分子的碱基判定:(i)所述第二多个序列信号,和(ii)所述一个或多个预期信号的至少一部分。在一些实施方案中,对所述第二集合的DNA分子进行测序生成一个或多个估算序列,并且所述第二集合的DNA分子的所述碱基判定至少部分基于所述一个或多个估算序列来确定。
在一些实施方案中,所述DNA分子包含合成模板。在一些实施方案中,所述已知序列包含一个或多个长度N的同聚物。在一些实施方案中,N是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,所述一个或多个估算序列包含一个或多个长度N的同聚物。在一些实施方案中,N是至少1个碱基、至少2个碱基或至少3个碱基。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与已知序列之间的邻近序列特异性映射。在一些实施方案中,基于所述序列信号的分布或所述估算序列的同聚物长度的分布来量化所述邻近序列依赖性。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。
在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。在一些实施方案中,所述碱基判定至少基于所述第二多个序列信号的邻近序列依赖性来确定。在一些实施方案中,所述碱基判定至少基于所述第二多个序列信号和所述一个或多个估算序列的邻近序列依赖性来确定。在一些实施方案中,(d)与(c)的所述测序实时执行。
在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供多个序列信号和估算序列;(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及(d)至少基于与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,从与所述HpN截短参考比对的所述一个或多个HpN截短序列生成共有序列,所述共有序列包括所述长度N的同聚物序列。
在一些实施方案中,N是5个碱基。在一些实施方案中,N是6个碱基。在一些实施方案中,N是7个碱基。在一些实施方案中,N是8个碱基。在一些实施方案中,所述同聚物序列的长度估计误差至少基于与所述HpN截短参考比对的所述一个或多个HpN截短序列的信号或估算的同聚物长度的分布来计算。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括至少基于所述同聚物序列或关联信号的聚类来确定所述同聚物序列的长度。
在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成,并且所述HpN截短参考包括所述受试者的物种的HpN截短的参考基因组。在一些实施方案中,在(d)中计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号和估算序列,其中所述DNA分子包含已知序列;(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含HpN截短为所述长度N的一个或多个同聚物序列;以及(d)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(e)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列;(f)将所述第二多个估算序列的每个鉴别的至少N个碱基的估算第二同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列;(g)将所述一个或多个第二HpN截短序列与所述HpN截短参考进行比对;以及(h)至少基于以下来确定所述第二多个DNA分子的同聚物长度:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述量化的邻近序列依赖性。
在一些实施方案中,所述量化的邻近序列依赖性针对给定邻近序列进行分类。在一些实施方案中,所述给定邻近序列是n碱基邻近序列,其中“n”是大于或等于5的数字。在一些实施方案中,所述DNA分子衍生自核糖核酸(RNA)分子。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号和估算序列,其中所述DNA分子包含已知序列;(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及(d)对于所述HpN截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述方法进一步包括:(e)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列;(f)将所述第二多个估算序列的每个鉴别的至少N个碱基的估算第二同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列;(g)将所述一个或多个第二HpN截短序列与所述HpN截短参考进行比对;以及(h)至少基于以下来确定所述第二集合的DNA分子的同聚物长度:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和
(ii)所述已知序列。
在一些实施方案中,所述DNA分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供多个序列信号和估算序列;(b)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;(c)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及(d)使用二次分析数据优化所述估计长度。在一些实施方案中,所述多个序列信号和估算序列通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号和估算序列通过流式测序生成。
在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供所述多个序列信号;(b)将所述多个序列信号与参考信号进行比对;(c)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及(d)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括N碱基的同聚物序列。
在一些实施方案中,所述同聚物序列的长度估计误差至少基于与所述参考信号比对的所述多个序列信号的信号或估算的同聚物长度的分布来计算。在一些实施方案中,在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述方法进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。在一些实施方案中,所述多个序列信号通过对受试者的核酸进行测序而生成,并且所述参考信号包括所述受试者的物种的参考基因组。在一些实施方案中,计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号,其中所述DNA分子包含已知序列;(b)将所述多个序列信号与参考信号进行比对;以及(c)至少基于所述已知序列来量化与所述参考信号比对的所述多个序列信号中的所述邻近序列依赖性。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,所述方法进一步包括:(d)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;(e)将所述第二多个序列信号与所述参考信号进行比对;以及(f)至少基于与所述参考信号比对的所述多个序列信号和所述量化的邻近序列依赖性来确定所述第二集合的DNA分子的同聚物长度。
在一些实施方案中,所述DNA分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。在一些实施方案中,量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:(a)对脱氧核糖核酸(DNA)分子进行测序以提供所述多个序列信号,其中所述DNA分子包含已知序列;(b)将所述多个序列信号与参考信号进行比对;以及(c)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述位点的预期信号。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,该方法进一步包括:(d)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;(e)将所述第二多个序列信号与所述参考信号进行比对;以及(f)至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述第二集合的DNA分子的同聚物长度。
在一些实施方案中,所述DNA分子衍生自核糖核酸分子。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。
在另一方面,本文公开了用于处理多个序列信号的方法,包括:(a)对核酸样品进行测序以提供所述多个序列信号;(b)将所述多个序列信号与参考信号进行比对;(c)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;(d)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及(e)使用二次分析数据优化所述估计长度。在一些实施方案中,所述比对包括类似物信号处理。在一些实施方案中,所述多个序列信号通过大规模平行阵列测序生成。在一些实施方案中,所述多个序列信号通过流式测序生成。
在另一方面,本发明公开了用于对核酸分子进行测序的系统,包含:存储在对所述核酸分子进行测序时生成的多个序列信号的数据库;以及操作地耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。
在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号和对应于所述多个序列信号的邻近序列依赖性的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:对于多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)所述多个序列信号和/或对应于所述多个序列信号的多个估算序列,和(ii)已知序列。在一些实施方案中,所述邻近序列依赖性包括所述多个位点中的每一个的信号幅度与已知序列之间的邻近序列特异性映射。
在另一方面,本文公开了用于处理多个序列信号和估算序列的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及(c)至少基于与所述参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,从与所述HpN截短参考比对的所述一个或多个HpN截短序列生成共有序列,所述共有序列包括所述长度N的同聚物序列。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及(c)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。在一些实施方案中,所述数据库存储训练数据,所述训练数据包括参考比对信号或从参考比对信号量化的邻近序列依赖性。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及(c)对于所述HpN截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
在另一方面,本文公开了用于处理多个序列信号和估算序列的系统,包含:存储所述多个序列信号和估算序列的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;(b)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及(c)使用二次分析数据优化所述估计长度。
在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;(b)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及(c)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括N碱基的同聚物序列。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;以及(b)至少基于与所述多个序列信号相关联的已知序列,量化与所述参考信号比对的所述多个序列读取信号中的所述邻近序列依赖性。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;和(b)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和与所述多个序列信号相关联的已知序列来确定所述位点的预期信号。
在另一方面,本文公开了用于处理多个序列信号的系统,包含:存储所述多个序列信号的数据库;以及耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:(a)将所述多个序列信号与参考信号进行比对;(b)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;(c)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及(d)使用二次分析数据优化所述估计长度。
本公开内容的另一方面提供了包含机器可执行代码的非暂时性计算机可读介质,所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。
本公开内容的另一方面提供了包含一个或多个计算机处理器和与之耦合的计算机存储器的系统。所述计算机存储器包含机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。
通过以下在其中仅示出和描述了本公开内容的说明性实施方案的详细描述,本公开内容的其他方面和优点对于本领域技术人员将变得显而易见。将会认识到,本公开内容能够具有其他和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不偏离本公开内容。因此,附图和说明书在本质上将被认为是说明性而非限制性的。
援引并入
本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触的程度下,本说明书旨在取代和/或优先于任何此类矛盾的材料。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用到本发明原理的说明性实施方案加以阐述的详细描述以及附图(本文也称为“图”),将会获得对本发明特征和优点的更好理解,在这些附图中:
图1示出了Cy5标记的核苷酸类似物的6个局部邻近序列的可再现荧光信号变化的实例。
图2示出了使用与HpN截短的参考序列的比对进行序列信号的初步分析的流程图。
图3示出了截短同聚物比对的实例,其中给定序列中所有鉴别的长度为N或更大的同聚物被截短为长度N的同聚物,然后与参考进行比对。
图4示出了局部邻近序列鉴别和量化的操作,其中初始序列判定按6碱基邻近序列分组。
图5示出了局部邻近序列鉴别和量化的操作,其中HpN截短的判定按6碱基邻近序列分组。
图6示出了邻近序列图谱的实例,其包括信号与序列中掺入的连续核苷酸的数目(例如,同聚物长度)之间的数学关系。
图7示出了使用与类似物参考信号的比对进行序列信号的初步分析的流程图。
图8示出了被编程或以其他方式配置用于实现本文提供的方法的计算机控制系统。
具体实施方式
虽然本文已经示出和描述了本公开内容的各种实施方案,但对于本领域技术人员显而易见的是,这样的实施方案仅以示例的方式提供。本领域技术人员可在不偏离本发明的情况下想到许多变化、改变和替代。应当理解,可以使用本文中所述的本发明的实施方案的各种替代方案。
如本文所用的术语“测序”通常是指用于生成或鉴别生物分子(诸如核酸分子)的序列的过程。这样的序列可以是核酸序列,其可包括核酸碱基序列。测序方法可以是大规模平行阵列测序(例如,Illumina测序),其可使用固定在支撑物如流动细胞或珠子上的模板核酸分子来执行。测序方法可包括但不限于:高通量测序、下一代测序、合成测序、流式测序、大规模平行测序、鸟枪法测序、单分子测序、纳米孔测序、焦磷酸测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、单分子合成测序(SMSS)(Helicos)、克隆单分子阵列(Solexa)和Maxim-Gilbert测序。
如本文所用的术语“流式测序”通常是指合成测序(SBS)过程,在该过程中,循环或非循环地引入的单核苷酸溶液产生被感测到(例如,通过检测来自DNA延伸的荧光信号的检测器)的分离的DNA延伸。
如本文所用的术语“受试者”通常是指具有正在进行处理或分析的生物样品的个体。受试者可以是动物或植物。受试者可以是哺乳动物,诸如人、狗、猫、马、猪或啮齿动物。受试者可患有或疑似患有疾病,诸如癌症(例如,乳腺癌、结直肠癌、脑癌、白血病、肺癌、皮肤癌、肝癌、胰腺癌、淋巴瘤、食管癌或宫颈癌)或感染性疾病。受试者可患有或疑似患有遗传病症,诸如软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、进行性神经性腓骨肌萎缩征(Charcot-Marie-tooth)、猫叫综合征、克罗恩病、囊性纤维化、痛性脂肪病(Dercum disease)、唐氏综合征、杜安综合征(Duane syndrome)、杜氏肌营养不良、莱顿第五因子血栓形成倾向、家族性高胆固醇血症、家族性地中海热、脆性x综合征、戈谢病、血色素沉着症、血友病、前脑无裂畸形、亨廷顿病、克林费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、波伦异常、卟啉症、早衰、色素性视网膜炎、重度联合免疫缺陷、镰状细胞病、脊髓性肌萎缩、泰-萨克斯病(Tay-Sachs)、地中海贫血、三甲基胺尿症、特纳综合征、腭帆心脏面部综合征、WAGR综合征或威尔逊病。
如本文所用的术语“样品”通常是指生物样品。生物样品的实例包括核酸分子、氨基酸、多肽、蛋白质、碳水化合物、脂肪或病毒。在实例中,生物样品是包含一个或多个核酸分子如脱氧核糖核酸(DNA)和/或核糖核酸(RNA)的核酸样品。核酸分子可以是无细胞的或是无细胞核酸分子,诸如无细胞DNA或无细胞RNA。核酸分子可衍生自多种来源,包括人类、哺乳动物、非人哺乳动物、猿、猴、黑猩猩、爬行动物、两栖动物或鸟类来源。此外,可从含有无细胞序列的各种动物液体提取样品,该液体包括但不限于血液、血清、血浆、玻璃体、痰液、尿液、泪液、汗液、唾液、精液、粘膜排泄物、粘液、脊髓液、羊水、淋巴液等。无细胞多核苷酸可能是胎儿起源的(通过取自妊娠受试者的流体),也可能衍生自受试者自身的组织。
如本文所用的术语“核酸”或“多核苷酸”通常是指包含一个或多个核酸亚单位或核苷酸的分子。核酸可包含选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的一种或多种核苷酸。核苷酸通常包含核苷和至少1、2、3、4、5、6、7、8、9、10个或更多个磷酸(PO3)基团。核苷酸可包含核碱基、五碳糖(核糖或脱氧核糖)以及一个或多个磷酸基团。
核糖核苷酸是其中的糖为核糖的核苷酸。脱氧核糖核酸是其中的糖为脱氧核糖的核苷酸。核苷酸可以是核苷单磷酸或核苷多磷酸。核苷酸可以是脱氧核糖核苷多磷酸,例如,脱氧核糖核苷三磷酸(dNTP),其可选自脱氧腺苷三磷酸(dATP)、脱氧胞苷三磷酸(dCTP)、脱氧鸟苷三磷酸(dGTP)、尿苷三磷酸盐(dUTP)和脱氧胸苷三磷酸(dTTP)dNTP,包含可检测的标签,诸如发光标签或标记(例如,荧光团)。核苷酸可包括任何可掺入生长的核酸链的亚单位。这样的亚单位可以是A、C、G、T或U,或者特定于一个或多个互补A、C、G、T或U,或者互补于嘌呤(即A或G,或其变体)或嘧啶(即C、T或U,或其变体)的任何其他亚单位。在一些实例中,核酸是脱氧核糖核酸(DNA)、核糖核酸(RNA)或其衍生物或变体。核酸可以是单链的或双链的。在一些情况下,核酸分子是环形的。
如本文所用的术语“核酸分子”、“核酸序列”、“核酸片段”、“寡核苷酸”和“多核苷酸”通常是指具有各种长度的多核苷酸,诸如脱氧核糖核酸或核糖核苷酸(RNA)或其类似物。核酸分子可具有至少约10个碱基、20个碱基、30个碱基、40个碱基、50个碱基、100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、1千碱基(kb)、2kb、3kb、4kb、5kb、10kb、50kb或更大的长度。寡核苷酸通常由四种核苷酸碱基:腺嘌呤(A);胞嘧啶(C);鸟嘌呤(G);和胸腺嘧啶(T)(当多核苷酸为RNA时,用尿嘧啶(U)替代胸腺嘧啶(T))的特定序列组成。因此,术语“寡核苷酸序列”是多核苷酸分子的字母表示;或者,该术语可适用于多核苷酸分子本身。这种字母表示可输入到具有中央处理单元的计算机中的数据库中,并用于生物信息学应用,如功能基因组学和同源性搜索。寡核苷酸可包含一个或多个非标准核苷酸、核苷酸类似物和/或修饰核苷酸。
如本文所用的术语“核苷酸类似物”可包括但不限于二氨基嘌呤、5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤(xantine)、4-乙酰胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫尿苷、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β甲基氨半乳糖基queosine、肌苷、N6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β嘧啶氨甘露糖基queosine、5'-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲基硫-D46-异戊烯基腺嘌呤、尿嘧啶-5-氧乙酸(v)、wybutoxosine、假尿嘧啶、queosine、2-硫胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-氧乙酸甲酯、尿嘧啶-5-氧乙酸(v)、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧基丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤、硒代磷酸(phosphoroselenoate)核酸等。在一些情况下,核苷酸可包括其磷酸部分的修饰,包括对三磷酸部分的修饰。另外,修饰的非限制性实例包括更大长度的磷酸链(例如,具有4、5、6、7、8、9、10或多于10个磷酸部分的磷酸链)、具有巯基部分的修饰(例如,α硫代三磷酸和β硫代三磷酸)或具有硒部分的修饰(例如,硒代磷酸核酸)。核酸分子还可在碱基部分(例如,在通常可用于与互补核苷酸形成氢键的一个或多个原子处和/或在通常不能与互补核苷酸形成氢键的一个或多个原子处)、糖部分或磷酸骨架处进行修饰。核酸分子还可含有胺修饰基团,诸如氨基烯丙基dUTP(aa-dUTP)和氨基己基丙烯酰胺dCTP(aha-dCTP),以允许胺反应性部分(诸如N-羟基琥珀酰亚胺酯(NHS))的共价连接。本公开内容的寡核苷酸中的标准DNA碱基对或RNA碱基对的替代物可提供更高的密度(单位为每立方毫米(mm)的比特数)、更高的安全性(例如,对天然毒素的意外或有意合成的抗性)、更容易的光程序化聚合酶辨别或更低的二级结构。核苷酸类似物可能够与用于核苷酸检测的可检测部分反应或结合。
如本文所用的术语“游离核苷酸类似物”通常是指未与另外的核苷酸或核苷酸类似物耦合的核苷酸类似物。游离核苷酸类似物可通过引物延伸反应掺入生长的核酸链中。
如本文所用的,术语“引物”通常是指与模板核酸互补的多核苷酸。引物和模板核酸之间的互补性、同源性或序列同一性可能是有限的。引物的长度可以是8个核苷酸碱基至50个核苷酸碱基。引物的长度可大于或等于6个核苷酸碱基、7个核苷酸碱基、8个核苷酸碱基、9个核苷酸碱基、10个核苷酸碱基、11个核苷酸碱基、12个核苷酸碱基、13个核苷酸碱基、14个核苷酸碱基、15个核苷酸碱基、16个核苷酸碱基、17个核苷酸碱基、18个核苷酸碱基、19个核苷酸碱基、20个核苷酸碱基、21个核苷酸碱基、22个核苷酸碱基、23个核苷酸碱基、24个核苷酸碱基、25个核苷酸碱基、26个核苷酸碱基、27个核苷酸碱基、28个核苷酸碱基、29个核苷酸碱基、30个核苷酸碱基、31个核苷酸碱基、32个核苷酸碱基、33个核苷酸碱基、34个核苷酸碱基、35个核苷酸碱基、37个核苷酸碱基、40个核苷酸碱基、42个核苷酸碱基、45个核苷酸碱基、47个核苷酸碱基或50个核苷酸碱基。
引物可表现出与模板核酸的序列同一性或同源性或互补性。引物与模板核酸之间的同源性或序列同一性或互补性可基于引物的长度。例如,若引物长度为约20个核酸,则其可包含10个或更多个与模板核酸互补的连续核酸碱基。
如本文所用的术语“引物延伸反应”通常是指引物与模板核酸链的结合,然后是引物的延伸。其还可包括双链核酸的变性以及引物链与变性的模板核酸链中的一个或两个的结合,然后是引物的延伸。引物延伸反应可用于通过使用酶(聚合酶)以模板指导的方式将核苷酸或核苷酸类似物掺入引物。
如本文所用的术语“聚合酶”通常指能够催化聚合反应的任何酶。聚合酶的实例包括但不限于核酸聚合酶。聚合酶可天然发生或是合成的。在一些情况下,聚合酶具有相对较高的持续合成能力。示例性的聚合酶是Φ29聚合酶或其衍生物。聚合酶可以是聚合作用的酶。在一些情况下,使用转录酶或连接酶(即催化键形成的酶)。聚合酶的实例包括DNA聚合酶、RNA聚合酶、热稳定聚合酶、野生型聚合酶、修饰聚合酶、大肠杆菌(E.coli)DNA聚合酶I、T7 DNA聚合酶、噬菌体T4 DNA聚合酶Φ29(phi29)DNA聚合酶、Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶、Pwo聚合酶、VENT聚合酶、DEEPVENT聚合酶、EX-Taq聚合酶、LA-Taq聚合酶、Sso聚合酶、Poc聚合酶、Pab聚合酶、Mth聚合酶、ES4聚合酶、Tru聚合酶、Tac聚合酶、Tne聚合酶、Tma聚合酶、Tea聚合酶、Tih聚合酶、Tfi聚合酶、Platinum Taq聚合酶、Tbr聚合酶、Tfl聚合酶、Pfutubo聚合酶、Pyrobest聚合酶、Pwo聚合酶、KOD聚合酶、Bst聚合酶、Sac聚合酶、Klenow片段、具有3'至5'外切核酸酶活性的聚合酶及其变体、修饰产物和衍生物。在一些情况下,聚合酶是单亚单位聚合酶。聚合酶可具有高持续合成能力,即聚合酶在不释放核酸模板的情况下连续地将核苷酸掺入核酸模板的能力。在一些情况下,聚合酶是经修饰以接受双脱氧核苷酸三磷酸的聚合酶,例如具有667Y突变的Taq聚合酶(参见例如,Tabor等人,PNAS,1995,92,6339-6343,其为了所有目的通过引用整体并入本文)。在一些情况下,聚合酶是具有修饰的核苷酸结合的聚合酶,其可能对核酸测序有用,非限制性实例包括ThermoSequenas聚合酶(GE Life Sciences)、AmpliTaq FS(ThermoFisher)聚合酶和Sequencing Pol聚合酶(Jena Bioscience)。在一些情况下,聚合酶被基因工程化为对双脱氧核苷酸具有辨别性,例如测序酶DNA聚合酶(ThermoFisher)。
如本文所用的术语“支撑物”通常是指固体支撑物,诸如载玻片、珠子、树脂、芯片、阵列、基质、膜、纳米孔或凝胶。固体支撑物可以是例如平面基板(诸如玻璃、塑料、硅等)上的珠子或基板的孔内的珠子。基板可具有表面性质,诸如纹理、图案、微结构涂层、表面活性剂或其任何组合,以将珠子保持在期望位置(诸如待与检测器可操作通信的位置)。基于柱子的支撑物的检测器可被配置成维持基本上相同的读取速率,而与珠子的大小无关。所述支撑物可以是流动池或开放基板。此外,所述支撑物可包括生物支撑物、非生物支撑物、有机支撑物、无机支撑物或其任何组合。支撑物可与检测器进行光通信、可与检测器物理接触、可与检测器相隔一定距离或其任何组合。所述支撑物可具有多个可独立寻址的位置。核酸分子可在多个可独立寻址位置的给定可独立寻址位置处固定至支撑物。多个核酸分子中的每一个与支撑物的固定可借助于衔接子的使用。支撑物可与检测器光学耦合。在支撑物上的固定可借助于衔接子。
如本文所用的术语“标记”通常是指能够与诸如核苷酸类似物等物种耦合的部分。在一些情况下,标记可以是发射可被检测的信号(或减少已发射的信号)的可检测标记。在一些情况下,这样的信号可指示一个或多个核苷酸或核苷酸类似物的掺入。在一些情况下,标记可与核苷酸或核苷酸类似物耦合,其中核苷酸或核苷酸类似物可用于引物延伸反应。在一些情况下,标记可在引物延伸反应后与核苷酸类似物耦合。在一些情况下,标记可与核苷酸或核苷酸类似物特异性反应。耦合可以是共价的或非共价的(例如,通过离子相互作用、范德华力等)。在一些情况下,耦合可经由可切割的接头,该接头可以是可切割的,诸如可光切割(例如,在紫外光下可切割)、可化学切割(例如,经由还原剂,诸如二硫苏糖醇(DTT)、tris(2-羧基乙基)膦(TCEP))或可酶切割(例如,经由酯酶、脂肪酶、肽酶或蛋白酶)。
在一些情况下,标记可以是光学活性的。在一些实施方案中,光学活性标记是光学活性染料(例如,荧光染料)。染料的非限制性实例包括SYBR绿、SYBR蓝、DAPI、碘化丙锭、Hoeste、SYBR金、溴化乙锭、吖啶、原黄素、吖啶橙、吖啶黄素、荧光香豆素(fluorcoumanin)、椭圆玫瑰树碱、道诺霉素、氯喹、偏端霉素D、色霉素、乙菲啶(homidium)、光神霉素、多吡啶钌、氨茴霉素、菲啶和吖啶、溴化乙锭、碘化丙锭、碘化己锭、二氢乙锭、乙锭同型二聚体-1和乙锭同型二聚体-2、单叠氮化乙锭和ACMA、Hoechst 33258、Hoechst 33342、Hoechst34580、DAPI、吖啶橙、7-AAD、放线菌素D、LDS751、羟脒(hydroxystilbamidine)、SYTOXBlue、SYTOX Green、SYTOX Orange、POPO-1、POPO-3、YOYO-1、YOYO-3、TOTO-1、TOTO-3、JOJO-1、LOLO-1、BOBO-1、BOBO-3、PO-PRO-1、PO-PRO-3、BO-PRO-1、BO-PRO-3、TO-PRO-1、TO-PRO-3、TO-PRO-5、JO-PRO-1、LO-PRO-1、YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBR Gold、SYBR Green I、SYBR Green II、SYBR DX、SYTO-40、SYTO-41、SYTO-42、SYTO-43、SYTO-44、SYTO-45(蓝色)、SYTO-13、SYTO-16、SYTO-24、SYTO-21、SYTO-23、SYTO-12、SYTO-11、SYTO-20、SYTO-22、SYTO-15、SYTO-14、SYTO-25(绿色)、SYTO-81、SYTO-80、SYTO-82、SYTO-83、SYTO-84、SYTO-85(橙色)、SYTO-64、SYTO-17、SYTO-59、SYTO-61、SYTO-62、SYTO-60、SYTO-63(红色)、荧光素、异硫氰酸荧光素(FITC)、四甲基异硫氰酸罗丹明(TRITC)、罗丹明、四甲基罗丹明、R-藻红蛋白、Cy-2、Cy-3、Cy-3.5、Cy-5、Cy5.5、Cy-7、德克萨斯红(TexasRed)、Phar-Red、别藻蓝蛋白(APC)、Sybr Green I、Sybr Green II、Sybr Gold、CellTracker Green、7-AAD、乙锭同型二聚体I、乙锭同型二聚体II、乙锭同型二聚体III、溴化乙锭、伞形酮、曙红、绿色荧光蛋白、赤藓红、香豆素、甲基香豆素、芘、孔雀绿、茋、萤光黄、级联蓝(cascade blue)、二氯三嗪胺荧光素、丹磺酰氯、荧光镧系络合物(如包含铕和铽的那些络合物)、羧基四氯荧光素、5-羧基荧光素和/或6-羧基荧光素(FAM)、VIC、5-碘乙酰胺基荧光素或6-碘乙酰胺基荧光素、5-{[2-5-(乙酰基巯基)-琥珀酰基]氨基}荧光素和5-{[3-5-(乙酰基巯基)-琥珀酰基]氨基}荧光素(SAMSA-荧光素)、丽丝胺罗丹明B磺酰氯、5-羧基罗丹明和/或6-羧基罗丹明(ROX)、7-氨基-甲基-香豆素、7-氨基-4-甲基香豆素-3-乙酸(AMCA)、BODIPY荧光团、8-甲氧基芘-1,3,6-三磺酸三钠盐、3,6-二磺酸-4-氨基-萘二甲酰亚胺、藻胆蛋白、AlexaFluor 350、AlexaFluor 405、AlexaFluor 430、AlexaFluor 488、AlexaFluor 532、AlexaFluor 546、AlexaFluor 555、AlexaFluor 568、AlexaFluor 594、AlexaFluor 610、AlexaFluor 633、AlexaFluor 635、AlexaFluor 647、AlexaFluor 660、AlexaFluor 680、AlexaFluor 700、AlexaFluor 750和AlexaFluor 790染料、DyLight350、DyLight 405、DyLight 488、DyLight 550、DyLight 594、DyLight 633、DyLight 650、DyLight 680、DyLight 755和DyLight800染料,或者其他荧光团。
在一些实例中,标记可以是核酸嵌入剂染料。实例包括但不限于溴化乙锭、YOYO-1、SYBR绿和EvaGreen。能量供体与能量受体之间、嵌入剂与能量供体之间或者嵌入剂与能量受体之间的近场相互作用可导致独特信号的生成或信号幅度的改变。例如,这样的相互作用可导致猝灭(即导致非辐射能量衰减的从供体到受体的能量转移)或福斯特共振能量转移(即导致辐射能量衰减的从供体到受体的能量转移)。标记的其他实例包括电化学标记、静电标记、比色标记和质量标签。
如本文所用的术语“猝灭剂”通常是指能够降低发射的信号的分子。标记可以是猝灭剂分子。例如,模板核酸分子可被设计成发射可检测信号。包含猝灭剂的核苷酸或核苷酸类似物的掺入可减少或消除信号,然后检测到该减少或消除。在一些情况下,如本文其他部分所述,在核苷酸或核苷酸类似物掺入后,可发生使用猝灭剂的标记。猝灭剂的实例包括Black Hole猝灭剂染料(Biosearch Technologies),诸如BH1-0、BHQ-1、BHQ-3、BHQ-10;QSY染料荧光猝灭剂(来自分子探针/Invitrogen),诸如QSY7、QSY9、QSY21、QSY35和其他猝灭剂如Dabcyl和Dabsyl;Cy5Q和Cy7Q以及暗花菁染料(GE Healthcare)。其信号可与上述猝灭剂一起减少或消除的供体分子的实例包括荧光团,诸如Cy3B、Cy3或Cy5;Dy猝灭剂(Dyomics),诸如DYQ-660和DYQ-661;荧光素-5-马来酰亚胺;7-二乙基氨基-3-(4'-马来酰亚胺基苯基)-4-甲基香豆素(CPM);N-(7-二甲基氨基-4-甲基香豆素-3-基)马来酰亚胺(DACM)和ATTO荧光猝灭剂(ATTO-TEC GmbH),诸如ATTO540Q、580Q、612Q、647N、Atto-633-碘乙酰胺、四甲基罗丹明碘乙酰胺或Atto-488碘乙酰胺。在一些情况下,标记可以是不自猝灭的类型,例如二胺(Bimane)衍生物,诸如单溴二胺(Monobromobimane)。
如本文所用的术语“检测器”通常是指能够检测信号的装置,该信号包括指示存在或不存在掺入的核苷酸或核苷酸类似物的信号。在一些情况下,检测器可包括可检测信号的光学和/或电子组件。术语“检测器”可用于检测方法中。检测方法的非限制性实例包括光学检测、光谱检测、静电检测、电化学检测等。光学检测方法包括但不限于荧光测定法和紫外-可见光吸收。光谱检测方法包括但不限于质谱、核磁共振(NMR)波谱和红外光谱。静电检测方法包括但不限于基于凝胶的技术,例如凝胶电泳。电化学检测方法包括但不限于在对扩增产物进行高效液相色谱分离后对扩增产物的电化学检测。
如本文所用的术语“信号”、“信号序列”和“序列信号”通常是指与DNA分子或DNA的克隆群体相关的一系列信号(例如,荧光测量值),包括原始数据。可使用高通量测序技术(例如,流式SBS)获得此类信号。可对此类信号进行处理以获得估算序列(例如,在初步分析期间)。
如本文所用的术语“序列”或“序列读取”通常是指在测序过程中进行的一系列核苷酸定位(assignment)(例如,通过碱基判定)。这样的序列可衍生自信号序列(例如,在初步分析期间)。
如本文所用的术语“同聚物”通常是指0,1,2,…,N个顺序的核苷酸的序列。例如,含有顺序的A核苷酸的同聚物可表示为A、AA、AAA,…,最多N个顺序的A核苷酸。
如本文所用的术语“HpN截短”通常是指处理一个或多个序列的集合的方法,使得具有大于或等于整数N的长度的一个或多个序列的集合中的每个同聚物被截短为长度N的同聚物。例如,序列“AGGGGGT”到3个碱基的HpN截短可导致“AGGGT”的截短序列。
如本文所用的术语“类似物比对”通常是指将信号序列与参考信号序列进行比对。
如本文所用的术语“邻近序列依赖性”或“邻近序列依赖关系”通常是指与局部序列、相对核苷酸表示或基因组位点的信号相关性。给定序列的信号可因邻近序列依赖性而变化,邻近序列依赖性可取决于局部序列、序列的相对核苷酸表示或序列的基因组位点。
用于碱基判定的局部邻近序列量化
流式合成测序(SBS)通常包括执行重复的DNA延伸循环,其中核苷酸和/或标记的类似物的单个种类呈递给引物-模板-聚合酶复合物,然后在互补的情况下掺入该核苷酸。可针对模板的每个克隆群体(例如,珠子或集落)测量每个流的产物。所得核苷酸掺入物可通过对应于或零、一、二、三、四、五、六、七、八、九、十或多于十个顺序的掺入物或者与之相关的明确区分性信号来检测和量化。对这样的多个顺序的掺入物的准确量化包括对每个流中的集落上掺入的0,1,2,…,N个顺序的核苷酸的每种可能的同聚物的特征性信号进行量化。例如,含有顺序的A核苷酸的同聚物可表示为A、AA、AAA,…,最多N个顺序的A核苷酸。同聚物长度的准确量化(例如,序列中顺序的相同核苷酸的数目)可能会由于信号水平的随机和不可预测的系统变化而遇到挑战,其可导致在同聚物长度量化中的错误。在一些情况下,仪器和检测系统可通过监测仪器诊断和大量集落之间的共模行为来校准和移除。同聚物长度的准确量化(例如,序列中顺序的相同核苷酸的数目)还可能由于对于每个序列可能不同的邻近序列依赖性信号而遇到挑战。例如,在稀释标记的核苷酸的荧光测量的情况下,邻近序列既可影响标记类似物的数目(用于并入标记类似物的可变耐受性),也可影响单个标记类似物的荧光(例如,受±5碱基的局部邻近序列影响的染料的量子产率,如[Kretschy,等人,Sequence-Dependent Fluorescence of Cy3-and Cy5-Labeled Double-StrandedDNA,Bioconjugate Chem.,27(3),840-848页]所述,其通过引用整体并入本文)。实际上,通过染料终止剂桑格循环测序,已经鉴别出对于3碱基邻近序列的信号的实质性系统变化(例如,如[Zakeri,等人,Peak height pattern in dichloro-rhodamine and energytransfer dye terminator sequencing,Biotechniques,25(3),406-10页]所述,其通过引用整体并入本文)。例如,图1示出了对于Cy5标记的核苷酸类似物,对于6个局部邻近序列的可再现荧光信号变化的示例。
本公开内容提供了用于邻近序列感知测序的方法和系统(例如,适合于流式SBS)。所述方法和系统可包括编码的历史数据和算法步骤,以准确且有效地确定碱基判定和/或从与核苷酸流相对应的给定的一系列序列信号量化同聚物长度。这样的编码的历史数据可通过使用一种或多种测序化学变体(例如,聚合酶、标记的类似物、缓冲液和条件)对不同邻近序列的复制进行深度学习来开发。邻近序列感知可包括与一个或多个核苷酸碱基位置相关联的信息,诸如评估的给定同聚物、给定同聚物之前的一个或多个碱基、给定同聚物之后的一个或多个碱基,或其任何组合。
在一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。量化邻近序列依赖性可包括对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号,并且在一些情况下,提供多个估算序列。DNA分子可包含已知序列。在一些实施方案中,DNA分子包括合成模板(例如,合成模板DNA分子)。在一些实施方案中,已知序列包括长度N的一个或多个同聚物(其中N可以是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。在一些实施方案中,多个估算序列包括长度为N的一个或多个同聚物(其中N可以是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。接下来,可通过确定一个或多个位点中的每一个的预期信号来量化邻近序列依赖性。邻近序列依赖性可至少基于(i)多个序列信号,(ii)多个估算序列,(iii)已知序列,或(iv)其组合来量化。
局部邻近序列的鉴别可包括聚合多个估算序列及其相关序列信号。然后,多个估算序列及其相关序列信号可堆叠在一起,在一些情况下使用与参考基因组的比对,以鉴别和分组与相同基因组位置相关联的核苷酸碱基。多个估算序列及其相关序列信号可通过将估算序列相互比较来堆叠在一起,以鉴别共同的局部邻近序列。或者,多个估算序列及其相关序列信号可通过与参考比对而堆叠在一起。例如,多个估算序列(及其相关序列信号)可与参考基因组比对。或者,多个序列信号(及其相关的估算序列)可与参考信号比对。堆叠的估算序列及其相关信号可使用任何数目的可能包含邻近序列依赖性的连续碱基堆叠在一起,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、17个碱基、18个碱基、19个碱基、20个碱基或多于20个碱基。
使用这些由n碱基邻近序列聚集和分组的估算序列,可以构建和训练邻近序列模型(例如,通过聚集针对特定基因组邻近序列的数据以观察任何系统行为),以学习如何解释信号以实现准确的碱基判定和/或确定同聚物长度。开发邻近序列模型可以包括基于邻近序列依赖性信号和估算序列之间的相关性,分析多个相关联的序列信号以发现系统行为,以及开发用于预测碱基判定和/或同聚物长度的规则,如本文其他部分所述。这样的相关性或邻近序列依赖性可包括在给定序列或信号之前和/或之后的多个碱基(例如,2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基、16个碱基、17个碱基、18个碱基、19个碱基、20个碱基或多于20个碱基)。例如,若基于邻近序列依赖性,“A”出现在第一序列(例如,“TCTCG”)之后,则可预期第一信号水平(例如,标称信号的0.7),并且若“A”出现在第二序列(例如,“AAACC”)之后,则可预期第二信号水平(例如,预期标称信号的1.3)。这样的邻近序列依赖性可聚集到训练模型中以优化例如来自估算序列和/或序列信号的碱基判定和同聚物长度的估计。
例如,邻近序列模型可以基于通过对具有已知序列(例如,来自合成模板DNA分子)的DNA分子进行测序而获得的估算序列和相关信号的分析而建立和训练(例如,使用机器学习技术)。这样的邻近序列模型可包含对应于位点的n碱基部分的预期序列信号(例如,信号幅度)(例如,其中N是至少1个碱基、至少2个碱基、至少3个碱基、至少4个碱基、至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基、至少9个碱基或至少10个碱基)。备选地或附加地,邻近序列模型可包含对应于位点的n碱基部分的序列信号(例如,信号幅度)的分布、中值、平均值或其他量化量度。
本公开内容的方法和系统可包括仅使用先验已知序列(例如,同聚物之前的双链序列)的算法,或同时评估一系列流测量值以确定包含最有可能产生观察结果的序列的一系列同聚物长度(例如,最大似然序列测定)的算法。该算法可解释可能发生并影响序列信号的任何标记-标记相互作用,例如,猝灭。该算法还可解释可能发生并影响序列信号的任何已知的位置依赖性信号和/或任何光漂白作用。例如,邻近序列依赖性可能受核苷酸的混合群体(例如,包含天然核苷酸和修饰核苷酸)的流式测序的影响。这样的核苷酸混合群体可能在流式测序过程中竞争通过聚合酶的掺入,从而产生不同的邻近序列依赖性序列信号。
该算法可并入已知序列的训练数据,该已知序列包含与同聚物信号变化具有显著相关性的每个邻近序列的一个或多个复制。对于待应用该算法的每个不同的分立化学变化,可以重复这样的并入。
该算法可包含辅助输出,其可包括量化噪声(例如,泊松或二项随机变化)的评估或其他质量评估,包括同聚物长度的置信区间或误差评估。输出还可以包括对化学过程参数(例如,温度)的动态评估,以及最有可能解释观察结果的标记部分。
经训练的邻近序列模型可随后由一种或多种训练算法(例如,机器学习算法)应用,以预测碱基判定和/或同聚物长度(例如,通过对具有未知序列的DNA分子进行测序获得的多个估算序列和相关信号的碱基判定和/或同聚物长度)。这样的预测可包括优化或校正多个估算序列的碱基判定和/或同聚物长度。或者,这样的预测可包括从多个序列信号确定碱基判定和/或同聚物长度。例如,可以对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列。接下来,可以生成第二集合的DNA分子的碱基判定,例如,至少基于(i)与第二多个序列信号相关联的第二多个估算序列和/或序列信号,(ii)第二多个估算序列,(iii)预期信号的至少一部分,(iv)已知序列,或(v)其组合。这样的预测可以实时执行(例如,在测量序列信号的同时)。实时可以包括小于1秒、十分之一秒、百分之一秒、毫秒或更短的响应时间。实时可以包括相对于另一过程或操作(例如,测量序列信号)同时或基本上同时发生的过程或操作(例如,生成碱基判定)。本文所述的所有操作,如训练算法、预测和/或生成碱基判定以及其他操作(诸如本文其他地方所述的那些操作)能够实时发生。
用于同聚物判定的方法
本公开内容提供了用于准确和有效地对包含同聚物的序列进行碱基判定的方法和系统。这样的碱基判定可以作为测序过程,诸如执行核酸分子(例如,DNA分子)的下一代测序(例如,合成测序或流式测序)的一部分来执行。这样的核酸分子可以获自或衍生自来自受试者的样品。这样的受试者可患有疾病或疑似患有疾病。本文所述的方法和系统可用于显著减少或消除量化同聚物长度中的误差以及与邻近序列依赖性相关联的误差。这样的方法和系统可以实现同聚物的准确有效的碱基判定、同聚物长度的量化以及序列信号中邻近序列依赖性的量化。
本文提供的方法和系统可用于直接判定同聚物长度,每个读取具有高准确性。此外,本文提供的方法和系统可包括将含有不确定长度的同聚物的临时量化读取(例如,估算序列)与参考进行比对。可以使用对同聚物长度误差施加低罚分的算法来执行这样的比对。使用多个比对读取的统计能力、同聚物长度和不确定性的评估(例如,置信区间或误差评估),本文提供的方法和系统可基于所有读取(例如,对于纯合位点)或簇读取的共有序列来确定同聚物长度。备选地或组合地,本文提供的方法和系统可对簇(例如,对于杂合位点)进行共有序列判定。
在一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过比对读取的共有序列来确定同聚物长度,如图2所示,其示出了使用与HpN截短的参考序列的比对进行序列信号的初步分析的流程图。该方法可包括对核酸样品进行测序以提供多个序列信号和估算序列。从这样的估算序列,可以鉴别至少N个碱基的同聚物序列(例如,包含含有相同碱基的多个连续核苷酸的同聚物的序列)。这些已鉴别的估算同聚物序列随后可被截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列。长度N可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。图3示出了截短同聚物比对的实例,其中给定序列中所有鉴别的长度为N或更大的同聚物被截短为长度N的同聚物,然后与参考进行比对。
在截短后,一个或多个HpN截短序列可以与一个或多个截短参考进行比对。这样的截短参考可以是HpN截短的,从而包含截短为长度N的一个或多个同聚物序列。在一个或多个HpN截短序列的比对后,可以从与一个或多个HpN截短的参考进行比对的一个或多个HpN截短序列生成共有序列。这样的共有序列可以包括长度N的同聚物序列。可以基于比对的HpN截短序列、与比对的HpN截短序列相关联的序列信号或其组合生成共有序列。
在一些实施方案中,用于处理多个序列信号的方法可以包括计算同聚物序列的长度估计误差。长度估计误差可包括同聚物序列长度(同聚物长度)的置信区间。例如,估算长度为5个碱基的同聚物的长度估计误差可包括[3,7]或5个碱基±2个碱基的置信区间。长度估计误差可至少基于与HpN截短参考比对的一个或多个HpN截短序列的信号或估算的同聚物长度的分布来计算。
在一些实施方案中,用于处理多个序列信号的方法可以包括预处理多个序列信号以去除系统误差。这样的预处理可以在截短鉴别的估算同聚物序列并将HpN截短序列与一个或多个截短参考进行比对之前执行。可以执行预处理以解决信号水平中的随机和不可预测的系统变化,其可导致量化同聚物长度时的误差。在一些情况下,可通过监测大量集落之间仪器诊断和共模行为来校准和去除仪器和检测的系统变化。
在一些实施方案中,用于处理多个序列信号的方法可包括确定同聚物序列的长度。可通过确定出现在由与多个序列信号相关联的比对的HpN截短序列生成的共有序列中的顺序核苷酸的数目来执行该确定。该确定可至少基于同聚物序列或与同聚物序列相关联的序列信号的聚类来执行。
在一些实施方案中,多个序列信号通过对受试者的核酸进行测序而产生。HpN截短参考可包括受试者物种的HpN截短参考基因组(例如,HpN截短的人参考基因组)。在一些情况下,当生成共有序列时,计算或分类的长度的数目可能受到限制,这至少基于受试者物种的倍性。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法。这样的方法可用于通过用测定对已知基因组进行广泛训练来量化同聚物长度。该方法可包括对脱氧核糖核酸(DNA)分子进行测序,以提供多个序列信号和估算序列。在一些情况下,DNA分子包含已知序列。从这样的估算序列,可以鉴别至少N个碱基的同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算同聚物序列随后可被截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列。长度N可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个HpN截短序列可与一个或多个截短参考进行比对。这样的截短参考可以是HpN截短的,从而包含截短为长度N的一个或多个同聚物序列。在一个或多个HpN截短序列进行比对后,可以量化关联序列信号的邻近序列依赖性。这样的量化可至少基于(i)与一个或多个HpN截短参考比对的一个或多个HpN截短序列和/或与HpN截短参考比对的一个或多个HpN截短序列相关联的序列信号,(ii)已知序列,或(iii)其组合。
在一些实施方案中,用于量化多个序列信号和估算序列的邻近序列依赖性的方法包括对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列。从这样的估算序列,可以鉴别至少N个碱基的第二同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算第二同聚物序列随后可被截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列。长度N可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个第二HpN截短序列可以与一个或多个HpN截短参考进行比对。在一个或多个HpN截短序列进行比对后,可以确定第二多个DNA分子的同聚物长度。这样的确定可以至少基于(i)与HpN截短参考比对的一个或多个HpN截短序列和/或与HpN截短参考比对的一个或多个HpN截短序列相关联的序列信号,(ii)量化的邻近序列依赖性,或(iii)其组合。
在一些实施方案中,量化的邻近序列依赖性针对给定邻近序列进行分类。这样的给定邻近序列可以是n碱基邻近序列,其中“n”是大于或等于2的整数、大于或等于3的整数、大于或等于4的整数、大于或等于5的整数、大于或等于6的整数、大于或等于7的整数、大于或等于8的整数、大于或等于9的整数、大于或等于10的整数、大于或等于11的整数、大于或等于12的整数、大于或等于13的整数、大于或等于14的整数、大于或等于15的整数、大于或等于16的整数、大于或等于17的整数、大于或等于18的整数、大于或等于19的整数或者大于或等于20的整数。
例如,如图4所示,量化的邻近序列依赖性可针对6碱基邻近序列进行分类,其中初始序列判定(例如,估算序列)按6碱基邻近序列(在该实例中为“tgttca”)分组。然后使用按6碱基邻近序列分组的估算序列的关联信号来建立系统邻近序列映射。例如,对邻近序列内估算序列的单个碱基和同聚物(例如,在该实例中,分别为“t”、“g”、“tt”、“c”和“a”)的代表性信号测量(信号水平)及其信号变化进行测量并记录为历史数据。历史数据可以单独地或共同地存储在一个或多个数据库中。数据库可以包含任何数据结构,诸如图表、表格、列表、数组、图、索引、散列数据库、一个或多个图形或者任何其他类型的结构。
作为另一实例,如图5所示,量化的邻近序列依赖性可针对6碱基邻近序列进行分类,其中HpN截短序列按6碱基邻近序列(在该实例中为“tgttca”)分组。然后使用按6碱基邻近序列分组的HpN截短序列的关联信号来建立系统邻近序列映射。例如,对邻近序列内HpN截短序列的单个碱基和同聚物(例如,在该实例中,分别为“t”、“g”、“tt”、“c”和“a”)的代表性信号测量(信号水平)及其信号变化进行测量并记录为历史数据(例如,在本文所述的系统的数据库中)。
图6示出了邻近序列图谱的实例,其包括信号与序列中掺入的连续核苷酸的数目(例如,同聚物长度)之间的数学关系。这样的关系可以表示为邻近序列特异性映射(邻近序列图谱)。如图6所示,真实序列(包含长度为2至4的同聚物)和真实序列的关联邻近序列依赖性信号的比较表明,由于邻近序列依赖性,同聚物的信号测量(信号水平)与同聚物的长度之间并没有完美的线性关系。这种非线性关系可导致估算同聚物长度的误差,该误差可随后使用历史数据和背景图谱进行校正。单调邻近序列(例如,按照同聚物长度严格递增的信号)可用于将一系列信号中的每一个映射到校正的同聚物长度。邻近序列图谱可用于训练一种或多种算法(例如,机器学习算法),以将信号转换为预测序列和/或同聚物长度。例如,可以将在估算序列中找到的每个局部邻近序列与聚合数据库进行比较,以检索可应用于转换的规则。
在一些实施方案中,DNA分子衍生自核糖核酸(RNA)分子。例如,可以通过对RNA分子执行逆转录以生成互补DNA(cDNA)分子或其衍生物来生成DNA分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。
在另一方面,本文公开了用于量化多个序列信号和估算序列的邻近序列依赖性的方法。这样的方法可以包括对脱氧核糖核酸(DNA)分子进行测序,以提供多个序列信号和估算序列。在一些情况下,DNA分子包含已知序列。从这样的估算序列,可以鉴别至少N个碱基的同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算同聚物序列随后可被截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列。长度N可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个HpN截短序列可以与一个或多个截短参考进行比对。这样的截短参考可以是HpN截短的,从而包含截短为长度N的一个或多个同聚物序列。在一个或多个HpN截短序列进行比对后,可以确定所述HpN截短参考中的多个位点中的每一个的预期信号。这样的预期信号可至少基于以下来确定:
(i)与HpN截短参考比对的一个或多个HpN截短序列和/或与HpN截短参考比对的一个或多个HpN截短序列相关联的序列信号,
(ii)所述已知序列,或(iii)其组合。
在一些实施方案中,用于量化多个序列信号和估算序列的邻近序列依赖性的方法包括对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列。从这样的估算序列,可以鉴别至少N个碱基的第二同聚物序列(例如,含有包含相同碱基的多个连续核苷酸的同聚物的序列)。这些鉴别的估算第二同聚物序列随后可被截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列。长度N可以是任何数目的多个碱基,诸如2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基、10个碱基、11个碱基、12个碱基、13个碱基、14个碱基、15个碱基或多于15个碱基。在截短后,一个或多个第二HpN截短序列可以与一个或多个HpN截短参考进行比对。在一个或多个HpN截短序列进行比对后,可以确定第二多个DNA分子的同聚物长度。这样的确定可以至少基于(i)与HpN截短参考比对的一个或多个HpN截短序列和/或与HpN截短参考比对的一个或多个HpN截短序列相关联的序列信号,(ii)量化的邻近序列依赖性,或(iii)其组合。
在一些实施方案中,DNA分子衍生自核糖核酸(RNA)分子。例如,可以通过对RNA分子执行逆转录以生成互补DNA(cDNA)分子或其衍生物来生成DNA分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。
在另一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过并入二次分析数据来确定同聚物长度。该方法可包括对核酸样品进行测序以提供多个序列信号和估算序列。可对多个序列信号和估算序列进行处理以确定包含同聚物序列的一个或多个序列的集合。还可对多个序列信号和估算序列进行处理以鉴别同聚物序列的至少一部分的存在和/或估计长度。可使用一种或多种算法通过将信号转换为同聚物长度(例如,使用邻近序列图谱或其他邻近序列依赖性信息)来鉴别同聚物序列的存在和/或估计长度。同聚物序列的估计长度可使用二次分析数据进行优化。这样的二次分析数据可用于提供或增强邻近序列依赖性信息。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。
用于类似物比对的方法
在另一方面,本文公开了用于处理多个序列信号的方法。这样的方法可用于通过信号与参考信号(例如,类似物参考信号)的比对来确定同聚物长度,如图7所示,其示出了使用与类似物参考信号的比对来进行序列信号的初步分析的流程图。该方法可包括对核酸样品进行测序以提供多个序列信号。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。至少基于比对的序列信号,可以鉴别包含同聚物序列的参考位点。可以从与参考信号比对的多个序列信号生成共有序列。共有序列可包含N个碱基的同聚物序列。可以至少基于所鉴别的参考位点、所述参考位点的同聚物序列的长度和参考信号(例如,类似物参考信号)来执行生成。
在一些实施方案中,用于处理多个序列信号的方法可包括计算同聚物序列的长度估计误差。长度估计误差可包括同聚物序列长度(同聚物长度)的置信区间。例如,估算长度为5个碱基的同聚物的长度估计误差可包括[3,7]或5个碱基±2个碱基的置信区间。长度估计误差可至少基于与参考信号比对的多个序列信号的信号或估算的同聚物长度的分布来计算。
在一些实施方案中,用于处理多个序列信号的方法可以包括预处理多个序列信号以去除系统误差。这样的预处理可以在将多个序列信号与参考信号进行比对之前执行。可以执行预处理以解决信号水平中的随机和不可预测的系统变化,其可导致量化同聚物长度时的误差。在一些情况下,可通过监测大量集落的仪器诊断和共模行为来校准和去除仪器和检测系统变化。
在一些实施方案中,多个序列信号通过对受试者的核酸进行测序而产生。在一些情况下,当生成共有序列时,计算或分类的长度的数目可能受到限制,这至少基于受试者物种的倍性。多个序列信号可以通过任何合适的测序方法如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。该方法可包括对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号。DNA分子可包含已知序列。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。可以在与所述参考信号比对的多个序列信号中对邻近序列依赖性进行量化。邻近序列依赖性的量化可以至少基于已知序列来执行。在一些实施方案中,该比对可以包括执行一种或多种类似物信号处理算法。
在一些实施方案中,用于量化多个序列信号的邻近序列依赖性的方法包括对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号。第二多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在第二多个序列信号进行比对后,可以确定第二多个DNA分子的同聚物长度。这样的确定可以至少基于与所述参考信号比对的多个序列信号、量化的邻近序列依赖性或其组合。
在一些实施方案中,DNA分子衍生自核糖核酸(RNA)分子。例如,可以通过对RNA分子执行逆转录以生成互补DNA(cDNA)分子或其衍生物来生成DNA分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。
在另一方面,本文公开了用于量化多个序列信号的邻近序列依赖性的方法。该方法可包括对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号。DNA分子可包含已知序列。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在多个序列信号与参考信号进行比对之后,可以针对参考信号中的多个位点中的每一个来确定预期信号。该确定可至少基于与所述参考信号比对的多个序列信号、已知序列或其组合来执行。在一些实施方案中,比对可以包括执行一种或多种类似物信号处理算法。
在一些实施方案中,用于量化多个序列信号的邻近序列依赖性的方法包括对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号。第二多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在第二多个序列信号进行比对后,可以确定第二多个DNA分子的同聚物长度。这样的确定可以至少基于与所述参考信号比对的多个序列信号、量化的邻近序列依赖性或其组合。
在一些实施方案中,DNA分子衍生自核糖核酸(RNA)分子。例如,可以通过对RNA分子执行逆转录以生成互补DNA(cDNA)分子或其衍生物来生成DNA分子。多个序列信号和/或估算序列可以通过任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。在一些实施方案中,量化邻近序列依赖性包括针对多个位点中的每一个建立信号幅度与同聚物长度之间的关系。这样的关系可表示为邻近序列特异性映射(邻近序列图谱)。
在另一方面,本文公开了用于处理多个序列信号的方法。该方法可包括对核酸样品进行测序以提供多个序列信号。多个序列信号可以与参考信号(例如,类似物参考信号)进行比对。在多个序列信号与参考信号进行比对后,可鉴别包含同聚物序列的基因组位点。可以至少基于比对的序列信号来执行该鉴别。可对与参考信号比对的多个序列信号进行处理以鉴别同聚物序列的存在和/或估计长度。可使用一种或多种算法通过将信号转换为同聚物长度(例如,使用邻近序列图谱或其他邻近序列依赖性信息)来鉴别同聚物序列的存在和/或估计长度。同聚物序列的估计长度可使用二次分析数据进行优化。这样的二次分析数据可用于提供或增强邻近序列依赖性信息。多个序列信号可以由任何合适的测序途径如大规模平行阵列测序、流式测序、合成测序或染料测序来生成。
计算机控制系统
本公开内容提供了被编程用于实现本公开内容的方法的计算机控制系统。图8示出了计算机系统801,其被编程或以其他方式配置用于:处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的HpN截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析数据优化估计的同聚物长度。
计算机系统801可以调节本公开内容的方法和系统的各个方面,例如,处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的HpN截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析优化估计的同聚物长度。
计算机系统801可以是用户的电子设备或相对于电子设备远程定位的计算机系统。该电子设备可以是移动电子设备。计算机系统801包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)805,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统801还包括存储器或存储器位置810(例如,随机存取存储器、只读存储器、闪存)、电子存储单元815(例如,硬盘)、用于与一个或多个其他系统通信的通信接口820(例如,网络适配器)以及外围设备825,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器810、存储单元815、接口820和外围设备825通过诸如主板等通信总线(实线)与CPU 805通信。存储单元815可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统801借助于通信接口820可操作地耦合到计算机网络(“网络”)830。网络830可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,网络830是电信和/或数据网络。网络830可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下,网络830可以借助于计算机系统801实现对等网络,这可以使得耦合到计算机系统801的设备能够起到客户端或服务器的作用。
CPU 805可以执行一系列机器可读指令,该机器可读指令可以体现在程序或软件中。指令可以存储在存储位置如存储器810中。指令可以针对CPU 805,该指令随后可以编程或以其他方式配置CPU 805以实现本公开内容的方法。由CPU 805执行的操作的实例可以包括提取、解码、执行和回写。
CPU 805可以是电路如集成电路的一部分。电路中可以包括系统801的一个或多个其他组件。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元815可以存储文件,诸如驱动程序、库和保存的程序。存储单元815可以存储用户数据,例如用户偏好和用户程序。在一些情况下,计算机系统801可以包括一个或多个附加数据存储单元,所述附加数据存储单元位于计算机系统801外部,诸如位于通过内联网或因特网与计算机系统801通信的远程服务器上。
计算机系统801可通过网络830与一个或多个远程计算机系统通信。例如,计算机系统801可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板或平板型PC(例如,Galaxy Tab)、电话、智能手机(例如,支持Android的设备、)或个人数字助理。用户可以经由网络830访问计算机系统801。
本文所述的方法可通过机器(例如,计算机处理器)可执行代码的方式来实现,该机器可执行代码存储在计算机系统801的电子存储位置上,例如存储器810或电子存储单元815上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,该代码可由处理器805执行。在一些情况下,可从存储单元815检索代码并将其存储在存储器810上,以供处理器805迅速存取。在一些情况下,可排除电子存储单元815,并且将机器可执行指令存储在存储器810上。
该代码可以被预编译并配置用于由具有适于执行代码的处理器的机器使用,或者可以在运行期间被编译。代码可以用编程语言提供,可以选择编程语言以使代码能够以预编译或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的各个方面,诸如计算机系统801,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,其一般为在一种类型的机器可读介质上携带或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”型介质可以包括计算机的任何或全部有形存储器、处理器等,或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件从能够一台计算机或处理器加载到另一台计算机或处理器中,例如从管理服务器或主机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一类型的介质包括光波、电波和电磁波,诸如跨本地设备之间的物理接口、通过有线和光学陆线网络以及各种空中链路而使用的。携载此类波的物理元件,诸如有线或无线链路、光学链路等,也可以被视为承载软件的介质。如本文所用,除非仅限于非暂时性有形的“存储”介质,否则计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质如计算机可执行代码可采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,诸如任何计算机中的任何存储设备等,诸如可用于实现如附图中所示的数据库等。易失性存储介质包括动态存储器,诸如这样的计算机平台的主存储器。有形传输介质包括同轴缆线、铜线和光纤,包括构成计算机系统内的总线的线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何其他具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣盒、传送数据或指令的载波、传送此类载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些计算机可读介质形式中的许多可涉及将一个或多个指令的一个或多个序列携带到处理器以供执行。
计算机系统801可以包括电子显示器835,或者与电子显示器835通信,电子显示器835包括用于提供例如算法、信号数据、序列数据和数据库的用户选择的用户界面(UI)840。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开内容的方法和系统可通过一种或多种算法来实现。算法可以在由中央处理单元805执行时通过软件的方式来实现。例如,该算法可以处理多个序列信号和/或估算序列、存储多个序列信号和/或估算序列、执行序列的HpN截短、将序列与参考序列进行比对、将信号与参考信号进行比对、从比对序列生成共有序列、量化邻近序列依赖性(例如,序列信号和/或估算序列的邻近序列依赖性)、存储训练数据(例如,包含参考比对信号或由参考比对信号量化的邻近序列依赖性的数据)、确定一个或多个位点的预期信号、鉴别同聚物序列的存在和/或估计长度、将信号转换为同聚物长度以及/或者使用二次分析数据优化估计的同聚物长度。
虽然本文已经示出和描述了本公开内容的优选实施方案,但是对于本领域技术人员而言显而易见的是,这些实施方案仅以示例的方式提供。本发明不意在受说明书中提供的具体实例的限制。虽然已经参考上述说明书描述了本发明,但是本文实施方案的描述和说明并不意味着以限制性意义进行解释。在不偏离本公开内容的情况下,本领域技术人员现将想到许多变化、改变和替代。此外,应当理解,本发明的所有方面不限于本文阐述的特定描述、配置或相对比例,而是取决于各种条件和变量。应当理解,本文所述的本发明实施方案的各种替代方案可用于实践本发明。因此,考虑到本发明还应涵盖任何此类替代、修改、变化或等同物。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。
Claims (97)
1.一种用于对核酸分子进行测序的方法,包括:
(a)对所述核酸分子进行测序以生成多个序列信号;以及
(b)至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。
2.根据权利要求1所述的方法,其中所述测序生成一个或多个估算序列,并且其中所述核酸分子的所述碱基判定至少部分基于以下来确定:(i)所述一个或多个估算序列,和(ii)所述一个或多个估算序列的至少一部分的量化的邻近序列依赖性。
3.根据权利要求1所述的方法,其中(b)与(a)的所述测序实时执行。
4.根据权利要求2所述的方法,其中所述一个或多个估算序列包含一个或多个长度N的同聚物。
5.根据权利要求4所述的方法,其中N为至少1个碱基、至少2个碱基或至少3个碱基。
6.根据权利要求1所述的方法,其中在(b)之前预处理所述多个序列信号以去除系统误差。
7.根据权利要求1所述的方法,进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。
8.根据权利要求4所述的方法,进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。
9.根据权利要求1所述的方法,其中所述多个序列信号通过对受试者的核酸进行测序而生成。
10.根据权利要求1所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
11.根据权利要求1所述的方法,其中所述多个序列信号通过流式测序生成。
12.一种用于量化多个序列信号的邻近序列依赖性的方法,包括:
(a)对脱氧核糖核酸(DNA)分子进行测序,以提供多个序列信号和一个或多个估算序列,其中所述DNA分子包含已知序列;以及
(b)对于多个位点中的给定位点,至少基于以下来确定所述给定位点的一个或多个预期信号:(i)所述多个序列信号和/或所述一个或多个估算序列,和(ii)所述已知序列。
13.根据权利要求12所述的方法,进一步包括:
(c)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;以及
(d)至少部分基于以下来确定所述第二集合的DNA分子的碱基判定:(i)所述第二多个序列信号,和(ii)所述一个或多个预期信号的至少一部分。
14.根据权利要求13所述的方法,其中对所述第二集合的DNA分子进行测序生成一个或多个估算序列,并且其中所述第二集合的DNA分子的所述碱基判定至少部分基于所述一个或多个估算序列来确定。
15.根据权利要求12所述的方法,其中所述DNA分子包含合成模板。
16.根据权利要求12所述的方法,其中所述已知序列包含一个或多个长度N的同聚物。
17.根据权利要求16所述的方法,其中N为至少1个碱基、至少2个碱基或至少3个碱基。
18.根据权利要求14所述的方法,其中所述一个或多个估算序列包含一个或多个长度N的同聚物。
19.根据权利要求18所述的方法,其中N为至少1个碱基、至少2个碱基或至少3个碱基。
20.根据权利要求12所述的方法,其中量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与已知序列之间的邻近序列特异性映射。
21.根据权利要求12所述的方法,其中所述邻近序列依赖性基于所述序列信号的分布或所述估算序列的同聚物长度的分布来量化。
22.根据权利要求12所述的方法,其中在(b)之前预处理所述多个序列信号以去除系统误差。
23.根据权利要求12所述的方法,进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。
24.根据权利要求18所述的方法,进一步包括至少基于所述同聚物或关联信号的聚类来确定所述同聚物的长度。
25.根据权利要求12所述的方法,其中所述多个序列信号通过对受试者的核酸进行测序而生成。
26.根据权利要求12所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
27.根据权利要求12所述的方法,其中所述多个序列信号通过流式测序生成。
28.根据权利要求13所述的方法,其中所述碱基判定至少基于所述第二多个序列信号的邻近序列依赖性来确定。
29.根据权利要求14所述的方法,其中所述碱基判定至少基于所述第二多个序列信号和所述一个或多个估算序列的邻近序列依赖性来确定。
30.根据权利要求13所述的方法,其中(d)与(c)的所述测序实时执行。
31.一种用于处理多个序列信号的方法,包括:
(a)对核酸样品进行测序以提供多个序列信号和估算序列;
(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及
(d)至少基于与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,从与所述HpN截短参考比对的所述一个或多个HpN截短序列生成共有序列,所述共有序列包括所述长度N的同聚物序列。
32.根据权利要求31所述的方法,其中N为5个碱基。
33.根据权利要求31所述的方法,其中N为6个碱基。
34.根据权利要求31所述的方法,其中N为7个碱基。
35.根据权利要求31所述的方法,其中N为8个碱基。
36.根据权利要求31所述的方法,其中所述同聚物序列的长度估计误差至少基于与所述HpN截短参考比对的所述一个或多个HpN截短序列的信号或估算的同聚物长度的分布来计算。
37.根据权利要求31所述的方法,其中在(b)之前预处理所述多个序列信号以去除系统误差。
38.根据权利要求31所述的方法,进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。
39.根据权利要求31所述的方法,进一步包括至少基于所述同聚物序列或关联信号的聚类来确定所述同聚物序列的长度。
40.根据权利要求31所述的方法,其中所述多个序列信号通过对受试者的核酸进行测序而生成,并且其中所述HpN截短参考包括所述受试者的物种的HpN截短的参考基因组。
41.根据权利要求40所述的方法,其中在(d)中计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。
42.根据权利要求31所述的方法,其中所述多个序列信号和估算序列通过大规模平行阵列测序生成。
43.根据权利要求31所述的方法,其中所述多个序列信号和估算序列通过流式测序生成。
44.一种用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:
(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号和估算序列,其中所述DNA分子包含已知序列;
(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含HpN截短为所述长度N的一个或多个同聚物序列;以及
(d)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
45.根据权利要求44所述的方法,进一步包括:
(e)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列;
(f)将所述第二多个估算序列的每个鉴别的至少N个碱基的估算第二同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列;
(g)将所述一个或多个第二HpN截短序列与所述HpN截短参考进行比对;以及
(h)至少基于以下来确定所述第二多个DNA分子的同聚物长度:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述量化的邻近序列依赖性。
46.根据权利要求45所述的方法,其中所述量化的邻近序列依赖性针对给定邻近序列进行分类。
47.根据权利要求46所述的方法,其中所述给定邻近序列是n碱基邻近序列,其中“n”是大于或等于5的数字。
48.根据权利要求44所述的方法,其中所述DNA分子衍生自核糖核酸(RNA)分子。
49.根据权利要求44所述的方法,其中所述多个序列信号和估算序列通过大规模平行阵列测序生成。
50.根据权利要求44所述的方法,其中所述多个序列信号和估算序列通过流式测生成。
51.根据权利要求44所述的方法,其中量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
52.一种用于量化多个序列信号和估算序列的邻近序列依赖性的方法,所述方法包括:
(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号和估算序列,其中所述DNA分子包含已知序列;
(b)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(c)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及
(d)对于所述HpN截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
53.根据权利要求52所述的方法,进一步包括:
(e)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号和估算序列;
(f)将所述第二多个估算序列的每个鉴别的至少N个碱基的估算第二同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个第二HpN截短序列;
(g)将所述一个或多个第二HpN截短序列与所述HpN截短参考进行比对;以及
(h)至少基于以下来确定所述第二集合的DNA分子的同聚物长度:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
54.根据权利要求52所述的方法,其中所述DNA分子衍生自核糖核酸分子。
55.根据权利要求52所述的方法,其中所述多个序列信号和估算序列通过大规模平行阵列测序生成。
56.根据权利要求52所述的方法,其中所述多个序列信号和估算序列通过流式测序生成。
57.根据权利要求52所述的方法,其中量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
58.一种用于处理多个序列信号的方法,包括:
(a)对核酸样品进行测序以提供多个序列信号和估算序列;
(b)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;
(c)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及
(d)使用二次分析数据优化所述估计长度。
59.根据权利要求58所述的方法,其中所述多个序列信号和估算序列通过大规模平行阵列测序生成。
60.根据权利要求58所述的方法,其中所述多个序列信号和估算序列通过流式测序生成。
61.一种用于处理多个序列信号的方法,包括:
(a)对核酸样品进行测序以提供所述多个序列信号;
(b)将所述多个序列信号与参考信号进行比对;
(c)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及
(d)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括N碱基的同聚物序列。
62.根据权利要求61所述的方法,其中所述同聚物序列的长度估计误差至少基于与所述参考信号比对的所述多个序列信号的信号或估算的同聚物长度的分布来计算。
63.根据权利要求61所述的方法,其中在(b)之前预处理所述多个序列信号以去除系统误差。
64.根据权利要求61所述的方法,进一步包括在(b)之前预处理所述多个序列信号以去除系统误差。
65.根据权利要求61所述的方法,其中所述多个序列信号通过对受试者的核酸进行测序而生成,并且其中所述参考信号包括所述受试者的物种的参考基因组。
66.根据权利要求65所述的方法,其中计算或分类的长度的数目至少基于所述受试者的所述物种的倍性受到限制。
67.根据权利要求61所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
68.根据权利要求61所述的方法,其中所述多个序列信号通过流式测序生成。
69.一种用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:
(a)对脱氧核糖核酸(DNA)分子进行测序以提供多个序列信号,其中所述DNA分子包含已知序列;
(b)将所述多个序列信号与参考信号进行比对;以及
(c)至少基于所述已知序列来量化与所述参考信号比对的所述多个序列信号中的所述邻近序列依赖性。
70.根据权利要求69所述的方法,其中所述比对包括类似物信号处理。
71.根据权利要求69所述的方法,进一步包括:
(d)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;
(e)将所述第二多个序列信号与所述参考信号进行比对;以及
(f)至少基于与所述参考信号比对的所述多个序列信号和所述量化的邻近序列依赖性来确定所述第二集合的DNA分子的同聚物长度。
72.根据权利要求69所述的方法,其中所述DNA分子衍生自核糖核酸分子。
73.根据权利要求69所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
74.根据权利要求69所述的方法,其中所述多个序列信号通过流式测序生成。
75.根据权利要求69所述的方法,其中量化所述邻近序列依赖性包括对于多个位点中的每一个建立信号幅度与同聚物长度之间的邻近序列特异性映射。
76.一种用于量化多个序列信号的邻近序列依赖性的方法,所述方法包括:
(a)对脱氧核糖核酸(DNA)分子进行测序以提供所述多个序列信号,其中所述DNA分子包含已知序列;
(b)将所述多个序列信号与参考信号进行比对;以及
(c)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述位点的预期信号。
77.根据权利要求76所述的方法,其中所述比对包括类似物信号处理。
78.根据权利要求76所述的方法,进一步包括:
(d)对包含未知序列的第二集合的DNA分子进行测序,从而生成第二多个序列信号;
(e)将所述第二多个序列信号与所述参考信号进行比对;以及
(f)至少基于与所述参考信号比对的所述多个序列信号和所述已知序列来确定所述第二集合的DNA分子的同聚物长度。
79.根据权利要求76所述的方法,其中所述DNA分子衍生自核糖核酸分子。
80.根据权利要求76所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
81.根据权利要求76所述的方法,其中所述多个序列信号通过流式测序生成。
82.一种用于处理多个序列信号的方法,包括:
(a)对核酸样品进行测序以提供所述多个序列信号;
(b)将所述多个序列信号与参考信号进行比对;
(c)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;
(d)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及
(e)使用二次分析数据优化所述估计长度。
83.根据权利要求82所述的方法,其中所述比对包括类似物信号处理。
84.根据权利要求82所述的方法,其中所述多个序列信号通过大规模平行阵列测序生成。
85.根据权利要求82所述的方法,其中所述多个序列信号通过流式测序生成。
86.一种用于对核酸分子进行测序的系统,包含:
存储在对所述核酸分子进行测序时生成的多个序列信号的数据库;以及
可操作地耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于至少部分基于以下来确定所述核酸分子的碱基判定:(i)所述多个序列信号,和(ii)所述多个序列信号的至少一部分的量化的邻近序列依赖性。
87.一种用于处理多个序列信号的系统,包含:
存储所述多个序列信号和对应于所述多个序列信号的邻近序列依赖性的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
对于多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)所述多个序列信号和/或对应于所述多个序列信号的多个估算序列,和(ii)已知序列。
88.根据权利要求87所述的系统,其中所述邻近序列依赖性包括所述多个位点中的所述每一个的信号幅度与已知序列之间的邻近序列特异性映射。
89.一种用于处理多个序列信号和估算序列的系统,包含:
存储所述多个序列信号和估算序列的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及
(c)至少基于与所述参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,从与所述HpN截短参考比对的所述一个或多个HpN截短序列生成共有序列,所述共有序列包括所述长度N的同聚物序列。
90.一种用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:
存储所述多个序列信号和估算序列的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及
(c)至少基于以下来量化关联序列信号的所述邻近序列依赖性:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
91.根据权利要求89所述的系统,其中所述数据库存储训练数据,所述训练数据包括参考比对信号或从参考比对信号量化的邻近序列依赖性。
92.一种用于量化多个序列信号和估算序列的邻近序列依赖性的系统,包含:
存储所述多个序列信号和估算序列的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个估算序列中每个鉴别的至少N个碱基的估算同聚物序列截短为长度N的碱基的同聚物序列,以产生一个或多个HpN截短序列;
(b)将所述一个或多个HpN截短序列与截短参考进行比对,所述截短参考已进行HpN截短从而包含截短为所述长度N的一个或多个同聚物序列;以及
(c)对于所述HpN截短参考中的多个位点中的每一个,至少基于以下来确定所述位点的预期信号:(i)与所述HpN截短参考比对的所述一个或多个HpN截短序列和/或与所述HpN截短参考比对的所述一个或多个HpN截短序列相关联的序列信号,和(ii)所述已知序列。
93.一种用于处理多个序列信号和估算序列的系统,包含:
存储所述多个序列信号和估算序列的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)处理所述多个序列信号和估算序列以确定包含同聚物序列的一个或多个序列的集合;
(b)处理所述多个序列信号和估算序列以鉴别所述同聚物序列的至少一部分的存在和估计长度;以及
(c)使用二次分析数据优化所述估计长度。
94.一种用于处理多个序列信号的系统,包含:
存储所述多个序列信号的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个序列信号与参考信号进行比对;
(b)至少基于所述比对的序列信号鉴别包含同聚物序列的参考位点;以及
(c)至少基于所述鉴别的参考位点、所述参考位点的所述同聚物序列的长度和所述参考信号,从与所述参考信号比对的所述多个序列信号生成共有序列,所述共有序列包括N碱基的同聚物序列。
95.一种用于量化多个序列信号的邻近序列依赖性的系统,包含:
存储所述多个序列信号的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个序列信号与参考信号进行比对;以及
(b)至少基于与所述多个序列信号相关联的已知序列,量化与所述参考信号比对的所述多个序列读取信号中的所述邻近序列依赖性。
96.一种用于量化多个序列信号的邻近序列依赖性的系统,包含:
存储所述多个序列信号的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个序列信号与参考信号进行比对;以及
(b)对于所述参考信号中的多个位点中的每一个,至少基于与所述参考信号比对的所述多个序列信号和与所述多个序列信号相关联的已知序列来确定所述位点的预期信号。
97.一种用于处理多个序列信号的系统,包含:
存储所述多个序列信号的数据库;以及
耦合到所述数据库的一个或多个计算机处理器,其中所述一个或多个计算机处理器被单独地或共同地编程用于:
(a)将所述多个序列信号与参考信号进行比对;
(b)至少基于所述比对的序列信号鉴别包含同聚物序列的基因组位点;
(c)处理与所述参考信号比对的所述多个序列信号以鉴别所述同聚物序列的存在和估计长度;以及
(d)使用二次分析数据优化所述估计长度。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762577450P | 2017-10-26 | 2017-10-26 | |
US62/577,450 | 2017-10-26 | ||
PCT/US2018/057340 WO2019084158A1 (en) | 2017-10-26 | 2018-10-24 | METHODS AND SYSTEMS FOR SEQUENCE CALL |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111527044A true CN111527044A (zh) | 2020-08-11 |
Family
ID=66247992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880084067.4A Pending CN111527044A (zh) | 2017-10-26 | 2018-10-24 | 用于序列判定的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (4) | US20200303039A1 (zh) |
EP (1) | EP3700856A4 (zh) |
CN (1) | CN111527044A (zh) |
WO (1) | WO2019084158A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111527044A (zh) | 2017-10-26 | 2020-08-11 | 阿尔缇玛基因组学公司 | 用于序列判定的方法和系统 |
EP3752636A4 (en) * | 2018-02-15 | 2022-01-26 | Thrive Earlier Detection Corp. | BAR CODED MOLECULAR STANDARDS |
DE102018213027A1 (de) * | 2018-08-03 | 2020-02-06 | Robert Bosch Gmbh | Reaktionsgemisch, Verfahren und Kit zur Durchführung einer quantitativen Echtzeit-PCR |
WO2020185790A1 (en) | 2019-03-10 | 2020-09-17 | Ultima Genomics, Inc. | Methods and systems for sequence calling |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11347965B2 (en) | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
US20200377937A1 (en) | 2019-05-03 | 2020-12-03 | Ultima Genomics, Inc. | Fast-forward sequencing by synthesis methods |
CN114072523A (zh) * | 2019-05-03 | 2022-02-18 | 阿尔缇玛基因组学公司 | 用于检测核酸变体的方法 |
WO2020252387A2 (en) * | 2019-06-12 | 2020-12-17 | Ultima Genomics, Inc. | Methods for accurate base calling using molecular barcodes |
CN114423873A (zh) * | 2019-07-10 | 2022-04-29 | 阿尔缇玛基因组学公司 | Rna测序方法 |
KR20230079044A (ko) | 2020-08-25 | 2023-06-05 | 시어 인코퍼레이티드 | 단백질 및 핵산 검정을 위한 조성물 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010059235A2 (en) * | 2008-11-20 | 2010-05-27 | Pacific Biosciences Of California, Inc. | Algorithms for sequence determination |
CN102007407A (zh) * | 2007-11-21 | 2011-04-06 | 考斯摩斯德公司 | 基因组鉴定系统 |
US20140316716A1 (en) * | 2013-04-19 | 2014-10-23 | Life Technologies Corporation | Methods, Systems, and Computer Readable Media for Improving Base Calling Accuracy |
US20150118685A1 (en) * | 2013-10-24 | 2015-04-30 | Pacific Biosciences Of California, Inc. | Delaying real-time sequencing |
CN105980578A (zh) * | 2013-12-16 | 2016-09-28 | 考利达基因组股份有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
US20170044606A1 (en) * | 2015-08-12 | 2017-02-16 | The Chinese University Of Hong Kong | Single-molecule sequencing of plasma dna |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7424371B2 (en) | 2004-12-21 | 2008-09-09 | Helicos Biosciences Corporation | Nucleic acid analysis |
WO2011143231A2 (en) * | 2010-05-10 | 2011-11-17 | The Broad Institute | High throughput paired-end sequencing of large-insert clone libraries |
WO2016181369A1 (en) * | 2015-05-14 | 2016-11-17 | Uti Limited Partnership | Method for determining nucleotide sequence |
CN111527044A (zh) | 2017-10-26 | 2020-08-11 | 阿尔缇玛基因组学公司 | 用于序列判定的方法和系统 |
-
2018
- 2018-10-24 CN CN201880084067.4A patent/CN111527044A/zh active Pending
- 2018-10-24 EP EP18870560.2A patent/EP3700856A4/en active Pending
- 2018-10-24 WO PCT/US2018/057340 patent/WO2019084158A1/en unknown
-
2020
- 2020-04-10 US US16/845,278 patent/US20200303039A1/en active Pending
- 2020-11-05 US US17/090,176 patent/US11107554B2/en active Active
-
2021
- 2021-08-19 US US17/406,464 patent/US11276480B2/en active Active
-
2022
- 2022-01-12 US US17/574,260 patent/US20220199201A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102007407A (zh) * | 2007-11-21 | 2011-04-06 | 考斯摩斯德公司 | 基因组鉴定系统 |
WO2010059235A2 (en) * | 2008-11-20 | 2010-05-27 | Pacific Biosciences Of California, Inc. | Algorithms for sequence determination |
US20100169026A1 (en) * | 2008-11-20 | 2010-07-01 | Pacific Biosciences Of California, Inc. | Algorithms for sequence determination |
US20140316716A1 (en) * | 2013-04-19 | 2014-10-23 | Life Technologies Corporation | Methods, Systems, and Computer Readable Media for Improving Base Calling Accuracy |
US20150118685A1 (en) * | 2013-10-24 | 2015-04-30 | Pacific Biosciences Of California, Inc. | Delaying real-time sequencing |
CN105980578A (zh) * | 2013-12-16 | 2016-09-28 | 考利达基因组股份有限公司 | 用于使用机器学习进行dna测序的碱基判定器 |
US20170044606A1 (en) * | 2015-08-12 | 2017-02-16 | The Chinese University Of Hong Kong | Single-molecule sequencing of plasma dna |
Non-Patent Citations (5)
Title |
---|
ALI MASOUDI-NEJAD 等: "《Next Generation Sequencing and Sequence Assembly Methodologies and ALgorithms》", 31 December 2013, 斯普林格出版集团, pages: 19 * |
JASON R. MILLER 等: ""Aggressive assembly of pyrosequencing reads with mates"", 《BIOINFORMATICS》, vol. 24, no. 24, pages 2818, XP055217082, DOI: 10.1093/bioinformatics/btn548 * |
KIN FAI AU 等: ""Improving PacBio Long Read Accuracy by Short Read Alignment"", 《PLOS ONE》, vol. 7, no. 10, pages 1 - 8 * |
WEIXING FENG 等: ""Improving alignment accuracy on homopolymer regions for semiconductorbased sequencing technologies"", 《BMC GENOMICS》, vol. 17, pages 87 - 89 * |
陈琛: ""新一代基因测序技术及其在肿瘤研究中的应用"", 《中国肺癌杂质》, vol. 13, no. 2, pages 157 - 159 * |
Also Published As
Publication number | Publication date |
---|---|
US20200303039A1 (en) | 2020-09-24 |
US11107554B2 (en) | 2021-08-31 |
WO2019084158A1 (en) | 2019-05-02 |
EP3700856A4 (en) | 2021-12-15 |
US11276480B2 (en) | 2022-03-15 |
US20220199201A1 (en) | 2022-06-23 |
EP3700856A1 (en) | 2020-09-02 |
US20210142869A1 (en) | 2021-05-13 |
US20210383895A1 (en) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276480B2 (en) | Methods and systems for sequence calling | |
US11462300B2 (en) | Methods and systems for sequence calling | |
US20230343416A1 (en) | Methods and systems for sequence and variant calling | |
US20220262459A1 (en) | Methods and systems for identifying target genes | |
JP2023017894A (ja) | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 | |
US20220392574A1 (en) | Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads | |
US20230313287A1 (en) | Systems and methods for nucleic acid sequencing | |
US20220162590A1 (en) | Methods for accurate base calling using molecular barcodes | |
WO2021155371A1 (en) | Nucleic acid molecules comprising cleavable or excisable moieties | |
US11572586B2 (en) | Methods and systems for evaluating microsatellite instability status | |
US20220348994A1 (en) | Methods and systems for nucleic acid sequencing | |
US20230022124A1 (en) | Sequencing using non-natural nucleotides | |
JP2023536699A (ja) | 薬物の有効性を判定するための方法およびシステム | |
Udayaraja | Personal diagnostics using DNA-sequencing | |
WO2022109330A1 (en) | Cellular clustering analysis in sequencing datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40035090 Country of ref document: HK |