CN117136241A - 表示数字数据的寡核苷酸 - Google Patents
表示数字数据的寡核苷酸 Download PDFInfo
- Publication number
- CN117136241A CN117136241A CN202180072884.XA CN202180072884A CN117136241A CN 117136241 A CN117136241 A CN 117136241A CN 202180072884 A CN202180072884 A CN 202180072884A CN 117136241 A CN117136241 A CN 117136241A
- Authority
- CN
- China
- Prior art keywords
- sequence
- dna
- oligonucleotide
- artificial sequence
- synthetic sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091034117 Oligonucleotide Proteins 0.000 title claims abstract description 233
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 108
- 239000002773 nucleotide Substances 0.000 claims abstract description 77
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 76
- 125000006850 spacer group Chemical group 0.000 claims description 145
- 238000004519 manufacturing process Methods 0.000 claims description 16
- 229920005603 alternating copolymer Polymers 0.000 claims description 12
- 229920001519 homopolymer Polymers 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 239000004615 ingredient Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 3
- 239000000539 dimer Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 108020004414 DNA Proteins 0.000 description 703
- 239000000047 product Substances 0.000 description 83
- 230000000295 complement effect Effects 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 17
- 239000012634 fragment Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 11
- 102000053602 DNA Human genes 0.000 description 10
- 238000013461 design Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 229940079593 drug Drugs 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 239000011151 fibre-reinforced plastic Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 235000019482 Palm oil Nutrition 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000003962 counterfeit drug Substances 0.000 description 4
- WRTKMPONLHLBBL-KVQBGUIXSA-N dXTP Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(NC(=O)NC2=O)=C2N=C1 WRTKMPONLHLBBL-KVQBGUIXSA-N 0.000 description 4
- 238000007672 fourth generation sequencing Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000002540 palm oil Substances 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 239000012467 final product Substances 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 239000008267 milk Substances 0.000 description 3
- 210000004080 milk Anatomy 0.000 description 3
- 235000013336 milk Nutrition 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 240000000594 Heliconia bihai Species 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 2
- 229960001252 methamphetamine Drugs 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 229940002612 prodrug Drugs 0.000 description 2
- 239000000651 prodrug Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010146 3D printing Methods 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 229920000877 Melamine resin Polymers 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000975 dye Substances 0.000 description 1
- 239000008151 electrolyte solution Substances 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 239000010437 gem Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004029 hydroxymethyl group Chemical group [H]OC([H])([H])* 0.000 description 1
- 239000000976 ink Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000010871 livestock manure Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- JDSHMPZPIAZGSV-UHFFFAOYSA-N melamine Chemical compound NC1=NC(N)=NC(N)=N1 JDSHMPZPIAZGSV-UHFFFAOYSA-N 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000377 silicon dioxide Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07H—SUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
- C07H21/00—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
- C07H21/04—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/483—Physical analysis of biological material
- G01N33/487—Physical analysis of biological material of liquid biological material
- G01N33/48707—Physical analysis of biological material of liquid biological material by electrical means
- G01N33/48721—Investigating individual macromolecules, e.g. by translocation through nanopores
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C29/00—Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
- G11C29/02—Detection or location of defective auxiliary circuits, e.g. defective refresh counters
- G11C29/028—Detection or location of defective auxiliary circuits, e.g. defective refresh counters with adaption or trimming of parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q2220/00—Business processing using cryptography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q2220/00—Business processing using cryptography
- G06Q2220/10—Usage protection of distributed data files
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C13/00—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
- G11C13/0002—Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
- G11C13/0009—RRAM elements whose operation depends upon chemical change
- G11C13/0014—RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
- G11C13/0019—RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising bio-molecules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Economics (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Medical Informatics (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
Abstract
本公开涉及一种用于创建用于表示数字数据的寡核苷酸序列的方法。处理器从第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分选择一个寡核苷酸序列。所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号可与来自另一个寡核苷酸序列的电时域信号区分开。所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性。所述处理器然后将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字数据的单个寡核苷酸分子的单个寡核苷酸序列。
Description
相关申请的交叉引用
本申请要求于2020年10月6日提交的澳大利亚临时专利申请第2020903611号的优先权,所述澳大利亚临时专利申请的内容通过引用整体并入本文。
技术领域
本公开涉及创建用于表示数字数据的寡核苷酸序列。
背景技术
在过去的二十年中,假冒和盗版显著增加,几乎在全球每个国家和几乎所有经济部门都可以发现假冒和盗版产品。对假冒程度和此类产品价值的估计各不相同。然而,2013年全球假冒和盗版产品贸易的价值估计为4610亿美元(OECD和EUIPO,2016,假冒和盗版产品贸易:经济影响图(Trade in Counterfeit and Pirated Goods:Mapping the EconomicImpact))。例如,假药每年导致一百万人死亡,并给行业造成2000亿美元的损失。最近的研究估计,每年销售的药物中有10%是假药,随着网上药店和3D打印药物的兴起,这一数字预计将会增加。
应对这些挑战的一种方法可以是用编码DNA标签来标记产品。然而,这通常要求原始信号数据首先被碱基调用为DNA代码,即A、C、G、T。原始信号数据到碱基调用数据的转换在计算上是昂贵的,并且不兼容笔记本电脑和智能手机测序装置,如Oxford NanoporeMinION或SmidgION。
发明内容
一种用于创建用于表示数字数据的寡核苷酸序列的方法包括:
从第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字数据的单个寡核苷酸分子的单个寡核苷酸序列。
所述电传感器可以包括纳米孔。
所述方法可以进一步包括通过从多个候选序列中选择所述多个寡核苷酸序列来确定所述第一组。
从多个候选序列中选择所述多个寡核苷酸序列可以基于第一候选序列与第二候选序列之间的距离进行。确定所述第一组可以包括计算来自所述第一候选序列的第一模拟电时域信号与来自所述第二候选序列的第二模拟电时域信号之间的距离。计算所述距离可以包括计算将所述第一模拟电时域信号匹配到经历使误差最小化的时域变换的所述第二模拟电时域信号的所述误差。计算所述距离可以基于动态时间弯曲或相关性优化弯曲进行。
确定所述第一组可以包括跨不同的核苷酸组合进行格形搜索(Trellis search)。
所述方法可以进一步包括在所述多个寡核苷酸序列中的每两个之间插入间隔子序列。所述间隔子序列的长度可以足以针对所述第一组中的第二寡核苷酸序列产生来自所述间隔子序列的可预测干扰,而不是前面的第一寡核苷酸序列。
在任何一个时间点存在于所述电传感器中的所述一个或多个核苷酸可以包括在任何一个时间点存在于所述电传感器中的f个核苷酸,并且所述间隔子序列的长度可以是ks,其中f≤ks≤2f。
所述间隔子序列可以包括以下中的一项或多项:
●包含集合{A}或{T}之一的均聚物
●包含两种交替的单体核苷酸{A,T}或{A,C}或{A,G}的交替共聚物
●包含两种交替的二聚体核苷酸{AA,TT}或{AA,CC}或{AA,GG}的交替共聚物
●包含三种交替的三聚体核苷酸{AAA,TTT}或{AAA,CCC}或{AAA,GGG}的交替共聚物
●包含四种交替的四聚体核苷酸{AAAA,TTTT}或{AAAA,CCCC}或{AAAA,GGGG}的交替共聚物
●含有一个或多个{AAAG}和/或{AAG}重复序列的序列
●含有一个或多个{TGA}重复序列的序列
●含有集合{Z,P,S,B}的一个或多个人工扩展的基因信息系统(AEGIS)核苷酸的序列
所述方法可以进一步包括从包括多于一个间隔子序列的第二组间隔子序列中选择所述间隔子序列以编码另外的数字数据。
所述方法可以进一步包括重复所述方法以创建多于一个寡核苷酸,所述寡核苷酸分子包括位于寡核苷酸序列之间的间隔子序列,选择所述间隔子序列以在所述多于一个寡核苷酸分子之间创建索引。
所述方法可以进一步包括重复所述方法以创建多于一个寡核苷酸,所述寡核苷酸分子包括位于寡核苷酸序列之间的间隔子序列,选择所述间隔子序列以混淆编码在所述多于一个寡核苷酸分子中的数据。
所述方法可以进一步包括从所述单个寡核苷酸分子中解码所述数字数据。解码可以包括当所述单个寡核苷酸分子通过电传感器时,捕获指示在任何一个时间点存在于所述传感器中的一个或多个核苷酸的电特性的电时域信号;以及从捕获的电时域信号中的第一组中识别所述多个寡核苷酸序列。
从所述第一组中识别所述多个寡核苷酸序列可以包括将所述捕获的电时域信号与和所述第一组中的所述多个寡核苷酸序列相关的模拟电时域信号进行匹配。
解码可以进一步包括:
识别所述捕获的电时域信号中的间隔子序列;
在所识别的间隔子序列被识别的位置分割所述捕获的电时域信号;
为每个分割识别所述第一组中的所述多个寡核苷酸序列之一。
解码可以基于每个分割与所述第一组中的所述多个寡核苷酸序列之间的动态时间弯曲或相关性优化弯曲进行。
所述方法可以进一步包括合成所述分子;以及将所述分子添加到产品中以进行所述产品的验证。
所述产品的验证可以包括解码来自所述分子的所述数字数据;以及执行与所述数字数据有关的加密操作,并且基于验证数据验证所述产品。
一种软件,其当由计算机执行时,使所述计算机执行上述方法。
一种用于创建用于表示数字数据的寡核苷酸序列的计算机系统包括:
数据存储器,所述数据存储器用于存储第一组多个寡核苷酸序列;以及
处理器,所述处理器被配置成:
从所述第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;并且
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字数据的单个寡核苷酸分子的单个寡核苷酸序列。
一种寡核苷酸分子表示数字数据,其中所述分子包括组合成所述分子的多个寡核苷酸序列,其中所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性。
所述组合成所述分子的多个寡核苷酸序列包含在以下核苷酸序列组之一中提供的序列中的两个或更多个序列:
a)SEQ ID NO:1至16;
b)SEQ ID NO:17至32;
c)SEQ ID NO:33至96;
d)SEQ ID NO:97至160;
e)SEQ ID NO:161至416;或
f)SEQ ID NO:417至672。
一种用于验证产品的身份的试剂盒包括一种或多种上述寡核苷酸分子。
一种用于制造可识别产品的方法包括:
制造所述产品;
从第一组多个寡核苷酸序列中为数字识别数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字识别数据的单个寡核苷酸分子的单个寡核苷酸序列;
合成所述寡核苷酸分子;以及
将合成的寡核苷酸序列添加到所述产品中,以允许解码所述数字识别数据,从而验证所述产品的身份。
所述方法可以进一步包括:
计算数字识别数据的第一散列值,所述第一散列值与所述产品相关;以及
将解码的数字识别数据的第二散列值与所述第一散列值进行比较,以验证所述产品的身份。
一种验证产品的身份的方法,所述方法包括:
提供已添加了寡核苷酸分子的产品,
获得指示所述寡核苷酸分子的序列的电信号;
从第一组多个寡核苷酸序列中为所述电信号的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
解码由所述多个寡核苷酸序列编码的数字数据,以基于解码的数字数据验证所述产品的身份。
所述方法可以进一步包括确定所述解码的数字数据的散列值,以及将所述散列值与所述产品的预定值进行比较,以验证所述产品的身份。
一种可识别产品包括:
一种或多种产品成分;以及
合成的寡核苷酸分子,所述合成的寡核苷酸分子被添加到所述一种或多种产品成分中,其中
所述合成的寡核苷酸分子由单个寡核苷酸序列表示,
所述单个寡核苷酸序列是用于编码数字数据的寡核苷酸序列的组合,所述寡核苷酸序列包括从第一组多个寡核苷酸序列中为所述数字数据的多个部分中的每个部分选择的一个寡核苷酸序列,
所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;并且
所述数字数据允许通过解码来自所述合成的寡核苷酸分子的所述数字数据来验证所述产品的身份。
所述数字数据可以与第一散列值相关,并且所述第一散列值允许将解码所述数字数据的结果的第二散列值与所述第一散列值进行比较,以验证所述产品的身份。
所述产品可以进一步包括包装,所述包装含有所述产品,其中所述第一散列值被结合到所述包装上。
在上述方法、上述软件、上述计算机系统、上述寡核苷酸分子、上述试剂盒或上述可识别产品中,所述第一组多个寡核苷酸序列由以下组成:
a)SEQ ID NO:1至16;
b)SEQ ID NO:17至32;
c)SEQ ID NO:33至96;
d)SEQ ID NO:97至160;
e)SEQ ID NO:161至416;或
f)SEQ ID NO:417至672。
关于方法、计算机系统、分子、产品、软件和其它的各方面中的一个方面公开的任选特征对于其它方面来说是同样任选的特征。
附图说明
图1展示了包括电纳米孔传感器的测序系统100。
图2展示了用于创建表示数字数据的寡核苷酸序列的方法200。
图3:包含来自字母表AD的数据符号的寡核苷酸链的实例。此处,301是包含来自字母表AD的302个n数据符号序列的码字。字母表AD可以具有任何大小|AD|。301码字侧接303正向引物位点和304反向引物位点。
图4展示了包含来自字母表AD的数据符号和来自另一个字母表集合AS的间隔子符号的寡核苷酸链的实例。在此实例中,401是包含交替符号序列的两个不同字母表402和403的码字。来自集合AD 402的符号编码信息,同时来自集合AS的符号编码信息(如果|AS|>1)并且另外执行间隔子符号的功能。由于AS符号上的另外的约束,通常|AS|<|AD|。此方法的优点是间隔子序列编码一些数据,由此增加速率r(以比特碱基-1为单位)。选择AD符号序列,使得每个符号签名di(t)处于定义的最小互动态时间弯曲(DTW)或相关性优化弯曲(COW)成本距离。501码字侧接504正向引物位点和505反向引物位点。
图5展示了多链ID标签的实例,其中信息跨多条寡核苷酸链分布。在此实例中,再次使用两个字母表将信息编码成包含字母表AD和AS的符号的‘交替码字’(也参见图4和5)。此处,601是包含总共L个链的多链ID标签,其中每条链编码包含被n+1个间隔子符号分隔的n个602数据符号的码字。来自集合AD的603数据符号编码信息,同时来自集合AS的604间隔子符号编码关于多链ID标签中的码字的位置的索引信息。由于AS符号上的另外的约束,通常|AS|<|AD|。在此实例中,|AD|=256并且|AS|=2并且L<=2n+1≤32个可能的索引,所述索引确定多链ID标签中的链的位置(注意,不需要使用所有可能的索引)。此方法的优点是编码到间隔子中的索引允许信息跨ID标签中的多条链分布,由此允许单个ID标签被编码到多于一条DNA链中。选择AD符号序列,使得每个符号签名di(t)处于定义的最小互动态时间弯曲(DTW)或相关性优化弯曲(COW)成本距离。每个602码字侧接605正向引物位点和606反向引物位点。
图6展示了模拟的码字信号,示出了来自字母表AD(长,701)的数据符号和来自字母表AS(短,702)的间隔子符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图7展示了来自大小为16的字母表的数据符号的模板和互补电流签名的错误概率,其中kD=12。
图8展示了来自大小为64的字母表的数据符号的模板和互补电流签名的错误概率,其中kD=12。
图9A展示了用绝对DTW成本距离选择的16个数据符号AD连同模拟类似物符号签名di(t)的字母表。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。图9B展示了图10A中字母表的成对DTW成本和成对汉明距离的直方图。
图10A展示了用欧几里得DTW成本距离选择的16个数据符号AD连同类似物符号签名di(t)的字母表。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图10B展示了图10A中字母表的成对DTW成本和成对汉明距离的直方图。
图11A展示了用绝对DTW成本距离选择的64个数据符号AD连同类似物符号签名di(t)的字母表中的八个示例模拟符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图11B展示了图11A中字母表的成对DTW成本和成对汉明距离的直方图。
图12A展示了用欧几里得DTW成本距离选择的64个数据符号AD连同类似物符号签名di(t)的字母表中的八个示例符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图12B展示了上文关于图12A提及的字母表的所有64个数据符号的成对DTW成本和成对汉明距离的直方图。
图13A展示了用绝对DTW成本距离选择的256个数据符号AD连同类似物符号签名di(t)的字母表中的八个示例符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图13B展示了上文关于图13A提及的字母表的所有64个数据符号的成对DTW成本和成对汉明距离的直方图。
图14A展示了用欧几里得DTW成本距离选择的256个数据符号AD连同类似物符号签名di(t)的字母表中的八个示例符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图14B展示了上文关于图14A提及的字母表的所有256个数据符号的成对DTW成本和成对汉明距离的直方图。
图15展示了包含编码数据的间隔子符号S的SDSDSDSDS ID标签的实例。在此实例中,AS={S1,S2}→{0,1}→{TTTTTTTT,AGAGAGAG}。间隔子配置CS在每个图小图的标题中给出,并且在模拟数据中以红色显示。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图16展示了示出了五种不同SDSDSDSDS ID标签的真实纳米孔数据的实例。在这些图中,蓝点是原始模拟电流签名(归一化),并且红线标识来自AS的间隔子符号,即来自AD的侧翼数据符号。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图17(A-D)示出了含有集合{Z,P,B,S}的AEGIS碱基的序列的真实纳米孔输出。小图(Ai)–(Di)示出了仅在存在dNTP的情况下扩增的标签ID_AG_1-4的平均原始纳米孔输出{A,C,G,T}。小图(Aii)–(Dii)示出了在存在dNTP的情况下扩增的标签ID_AG_1-4的平均原始纳米孔输出{A,C,G,T,Z,P,B,S}。实际序列在每个小图之上给出,其中N可以是{A,C,G,T}之一。x轴单位是时间(约4000Hz,1/4000秒),并且y轴单位是模拟电流输出(归一化)。
图18是解码纳米孔信号的概述。解码的第一步是使纳米孔信号归一化。然后,用归一化的信号运行间隔子检测程序。程序可能无法定位所需数量的间隔子,在这种情况下,信号将被拒绝。如果找到所需数量的间隔子,则提取中间的信号区段,所述中间的信号区段是‘接收到的’数据符号。这组接收到的符号然后经历两步解码过程;首先用数据字母表中模板序列的签名对所述符号进行解码,并且然后用反向互补序列的签名进行解码。每个解码步骤产生最可能的码字,这具有一定的成本。最终估计值是两个电流输出(归一化)中具有最小成本的序列。
图19是解码中的间隔子检测的概述。流程图中概述的间隔子检测程序是当所有间隔子都是相同类型时,产生几乎平坦的签名。程序的输入是归一化的纳米孔信号。程序首先找到几乎是平坦的区段。在这些中,首先是与其余部分(异常值)在显著不同的振幅区域中的那些被剔除。然后,假设中间的高振幅信号是由于测量噪声,将信号中彼此非常接近的区段组合起来。然后执行另一个异常值去除步骤。最后,可能检测到多于所需数量的间隔子区(此处用N表示)。然后,具有足够长的间隙(这取决于kD的值)的N个相邻区域被选择作为间隔子区。
图20展示了识别纳米孔信号中的平坦区。平坦区由所述区的样本之间的振幅差来确定。对于信号中的每个样本,计算与正在进行的区段的平均值的振幅差。如果这小于允许的差(MAX_DIFF),则将样本添加到区段中,并且更新区段平均值。在某个区段不连续的情况下,样本的振幅将用作下一个样本的区段平均值。如果差大于允许的差,则检查是否达到了允许的噪声样本的最大数量。如果不是,则样本被添加到所述区段,并且噪声样本的数量递增。如果已经达到这个数量,样本将不会被添加到所述区段,并且它将标志着正在进行的区段的结束。然后检查此区段是否足够长,以及平均振幅是否在允许的范围内。如果这两个要求都满足,则此区段分被添加到间隔子区的初始估计中。算法然后将移动到信号中的下一个样本。所述算法中有几个参数,用户必须设置为适合特定应用的值。这些是MAX_DIFF:要添加到区域中的样本的振幅与样本的正在进行的平坦区的平均振幅之间的最大差值。也用于检查两个不同平坦区之间的平均振幅差是否显著。MIN_LEN:平坦区所需的最小长度。MAX_NOISE:每个平坦区允许的最大噪声(样本振幅显著不同于平均值)样本数。MIN_PLD_LEN:符号签名所需的最小长度(有效载荷区)。N:所需的间隔子数量。
图21展示了去除间隔子异常值。基于平均振幅来确定间隔子区的初始估计值中的异常值。对于每个估计值,计算与所有其它估计值的平均差。如果超过50%,平均差>MAX_DIFF,则位置被标记为异常值。在考虑每个初始估计值后,所有标记为异常值的估计值都将从集合中去除。所述算法中有几个参数,用户可能必须设置为适合特定应用的值。这些是MAX_DIFF:要添加到区域中的样本的振幅与样本的正在进行的平坦区的平均振幅之间的最大差值。也用于检查两个不同平坦区之间的平均振幅差是否显著。MIN_LEN:平坦区所需的最小长度。MAX_NOISE:每个平坦区允许的最大噪声(样本振幅显著不同于平均值)样本数。MIN_PLD_LEN:符号签名所需的最小长度(有效载荷区)。N:所需的间隔子数量。
图22展示了组合接近的平坦区。任何两个间隔子区之间的间隙对于长度为kD的序列的签名应该足够大。最小可能间隙MIN_PLD_LEN取决于kD值。对于间隔子区的每个估计值,将与下一个区的间隙与MIN_PLD_LEN进行比较,如果间隙较小,则将两个区段组合。对这组估计值重复进行这一操作,直到没有两个区段被组合。所述算法中有几个参数,用户必须设置为适合特定应用的值。这些是MAX_DIFF:要添加到区域中的样本的振幅与样本的正在进行的平坦区的平均振幅之间的最大差值。这也用于检查两个不同平坦区之间的平均振幅差是否显著。MIN_LEN:平坦区所需的最小长度。MAX_NOISE:每个平坦区允许的最大噪声(样本振幅显著不同于平均值)样本数。MIN_PLD_LEN:符号签名所需的最小长度(有效载荷区)。N:所需的间隔子数量。
具体实施方式
术语表
AD–形成大小为|AD|的数据字母表的数据符号集合
字母表–用于编码数据的符号集合。此集合可以映射到传统上用于表示数据的任何结构,如有限域。在这种情况下,域的每个元素将用字母表中的符号来表示。
AS–形成大小为|AS|的间隔子字母表的间隔子符号集合
AEGIS碱基-核苷酸集合{Z,P,B,S}中的一个
B–AEGIS核苷酸6-氨基-9[(1′-β-D-2′-脱氧呋喃核糖基)-4-羟基-5-(羟甲基)-氧杂环戊烷-2-基]-1H-嘌呤-2-酮
b–链中的碱基数量
碱基-集合{A,C,G,T,U,Z,P,B,S}的核苷酸
C–包含数据和任选地间隔子符号的码字
码字–包含数据符号和任选地间隔子符号的寡核苷酸链
COW–相关性优化弯曲
CD–ID标签中的数据符号的配置
CS–ID标签中的间隔子符号的配置
数据符号(D)–用于表示编码字母表的数据符号的寡核苷酸序列。数据符号的签名用d(t)表示。
Di–(数据)字母表的第i个数据符号(i=1、…、|AD|)。用di(t)表示的签名。
dNTP–集合{A,C,G,T}的脱氧核苷酸
dsDNA–包含A、C、G、T、U、Z、P、B、S中的一个或多个的双链寡核苷酸
DTW–动态时间弯曲
dXTP-集合{A,C,G,T,U,Z,P,B,S}的脱氧核苷酸
f–任何一个时间处纳米孔内的碱基数量
ID标签或标签–形式为SDSDSD…SDS的DNA序列,侧接有引物。当制造时,可以由单链或双链形式的一条或多条寡核苷酸链构成。
kD–形成数据符号的碱基的数量
kS–形成间隔子符号的碱基的数量
L–一个多链ID标签中的链的数量
mer–寡聚体的缩写,一串核苷酸,例如8聚体是具有8个核苷酸的链
多链–含有单个制造ID标签的一组链
N–每个ID标签的数据序列数量(N=nL)
n–每条链的数据序列数量。在多链的情况下,每个单独的链将具有相同数量的数据序列(相同的‘n’)。
nt–一种核苷酸,游离的或一串核苷酸(即寡聚体或‘聚体’)
核苷酸–集合{A,C,G,T,U}的自然碱基或集合(Z,P,B,S)的AEGIS碱基
寡核苷酸序列–碱基或核苷酸的序列,
寡核苷酸链–碱基或核苷酸的聚合物,也被称为‘片段’
P–AEGIS核苷酸2-氨基-8-(1′-b-D-2′-脱氧呋喃核糖基)-咪唑并-[1,2a]-1,3,5-三嗪-[8H]-4-酮
r–在应用任何外码之前,每个碱基编码的位数。当使用外码来改进纠错时,r将被称为‘内码速率’。
R–外码的速率,以每个碱基编码的‘信息’位数表示。
签名–DNA测序仪产生的模拟信号
S–AEGIS核苷酸3-甲基-6-氨基-5-(1′-b-D-2′-脱氧呋喃核糖基)-嘧啶-2-酮。注意:也可以指间隔子符号。
Sj–(间隔子)字母表中的第j个(j=1、…、|AS|)间隔子符号。签名是sj(t)。
间隔子符号(S)–用于分隔两个数据序列的寡核苷酸序列。对应的签名用s(t)表示。
ssDNA–包含A、C、G、T、U、Z、P、B、S中的一个或多个的单链寡核苷酸。
符号–用于表示用于编码数据的字母表中的某个元素的寡核苷酸序列。任何编码数据都是这些符号的串联。
Z–AEGIS核苷酸6-氨基-3-(1′-b-D-2′-脱氧呋喃核糖基)-5-硝基-1H-吡啶-2-酮
供应链完整性
如上所述,需要防止伪造和盗版的方法和系统。一种解决方案是将寡核苷酸添加到产品、组分、混合物的成分等中。编码到这些寡核苷酸中的信息可以用于验证产品的生产商。更具体地,生产商产生数字数据,如基于包含散列或加密算法的密码算法的秘密。然后将数字数据编码成寡核苷酸序列,并且合成对应的分子并将所述分子添加到产品中。产品的消费者、接收者或处理器可以提取分子并解码其上编码的数字数据。然后,消费者、接收者或处理器可以验证产品,如通过执行对应的加密算法并将结果与解码的数字数据进行比较。
在解决供应链监测挑战的一个实例中,可以使用本文所公开的方法将字母数字标识符编码到合成的寡核苷酸中。字母数字码字、或寡核苷酸序列、或两者的组合、或两者的组合加某个填充文本,可以通过产生散列值的加密算法。因为散列函数是确定性的,并且对于逆向工程在计算上是不可行的,所以寡核苷酸的字母数字散列值可以在包装上公开显示,例如,作为字母数字字符串或作为数据矩阵或QR码。将编码的寡核苷酸添加(混合或附着)到产品或成分中,由此赋予产品或成分独特的寡核苷酸‘指纹’。产品或成分中寡核苷酸的散列值表示可以显示在产品包装上,由此在产品与包装之间建立不可改变的联系。
这种方法也可以用于产品中的多种成分,其中每个独特的成分散列值被串联在一起并再次散列以形成二进制散列树(类似于区块链)。在制造或组装最终产品时,最终产品分批散列值是最终产品中所有成分散列值的表示。如果期望的话,分批散列值然后可以用计数器或时间戳进行散列,以便为来自同一批的单独包装产生唯一的散列值。所得唯一包装散列值可以被视为类似于序列号,但是具有安全优势,即包装散列值(显示为QR或数据矩阵码)与产品中的成分不变地关联,而不是任意数字。可以通过以下来验证未包装的产品:回收、测序、解码和散列产品中的寡核苷酸标签,并在数据库中查找与所得散列值相关的产品信息,或者用包装散列值交叉验证寡核苷酸衍生的散列值。在题为“用于识别产品的身份的系统和方法(SYSTEMS AND METHODS FOR IDENTIFYING A PRODUCTS IDENTITY)”的PCT公开WO 2020/028955中可以找到另外的实例,所述公开通过引用并入本文。
在一个实例中,散列自变量可以包括产品代码或制造代码,或者仅包括与任何特定识别功能无关的随机数。计算机计算散列自变量的第一散列值。散列值是由散列函数计算的,根据整个系统的安全要求,散列函数可以采取一系列不同的形式。例如,可以通过乘法散列来计算散列值,其中不同序列的总数是有限的,并且因此冲突是不可能的。在其它实例中,可以使用更复杂的函数,如MD5,或者优选地SHA-2或SHA-3。由于这些复杂的函数是高度优化的,计算负担是最小的,并且因此,使用比此特定应用所要求的更复杂的散列函数几乎没有负面影响。
在计算散列值之后、之前或期间,确定寡核苷酸序列来编码散列自变量,即散列之前的纯文本。然后使用已知技术将序列用于合成分子,并添加到产物中。这可能涉及将合成的(化学形式的)分子混合到产品中。然后,产品可以通过供应链到达接收者,如最终消费者或中间制造商或质量控制代理。
现在期望接收者可以验证产品的身份。因此,接收者从产物中测序第二个寡核苷酸序列,其中不知道所述序列是否与原始(或‘上游’)制造商添加的分子序列相同。为了验证这一点,中介可以解码分子中编码的数字数据,并且计算测序的分子的第二散列值,并将第二散列值与第一散列值进行比较107,以验证产品的身份。如果第二散列值与第一散列值相同,则产品的身份得到验证。如果散列不同,则产品的身份不会得到验证。
还可以基于另外的数据来计算散列值,所述另外的数据可以是产品标识符、在所述点的处理实体的实体标识符、共享秘密、公钥、时间戳、计数器或对所述产品的特定单个‘实例’唯一的产品唯一产品标识符。此另外的数据可以在计算散列之前与寡核苷酸序列串联,或者寡核苷酸序列的散列可以与另外的信息和根据结果计算的另一个散列串联。重要的方面是,另外的数据中任何微小的机会都会导致完全不同的散列,并且实际上不可能改变另外的数据以使散列保持不变,或者仅从散列中确定另外的数据。
包装识别技术(PI)是显示在包装上用于识别产品的任何技术。包装识别技术可以包含但不限于:油墨、染料、全息图、条形码、QR码、RFID、二氧化硅编码颗粒、产品光谱图像数据和IoT装置。PI可以在制造过程或供应链的任何节点显示散列值。
散列函数的使用允许产品中的分子标签与产品包装之间的安全可靠的连接。
●包装上公开展示PI。
●H(数字数据)提供到数字数据的加密连接,同时保持数字数据秘密。
●PI包含由产品中的分子编码的数字数据的散列。
●PI代码可以是原始散列、包装时的最新节点散列或产品散列链/树中的任何其它节点散列。
●PI可以是指向节点散列值的替代性标识符。
所公开技术的实际用例的实例
棕榈油:棕榈油被广泛用于各种产品,包含食物产品、化妆品、清洁产品和药品。棕榈油生产也与森林砍伐、生物多样性丧失和恶劣的工作条件有关。所公开的技术可以与现有的认证方案(例如,RSPO)相整合,使得棕榈油的原产地可以仅从最终产品追溯到可持续认证的制造商。
药品:假药每年导致一百万人死亡,并给行业造成1000亿美元的损失。随着网上药店的兴起,假药事件越来越多。另外,在许多发展中经济体和转型经济体,药物是作为未包装的单独药片或剂量出售的。仅从单独药片恢复供应链信息的能力就可以解决假药造成的巨大人力和经济成本。
非法药物前体(例如,甲基苯丙胺):所公开的技术可以用于追溯被滥用的产品的监管链。例如,用作制造甲基苯丙胺等非法药物前体的合法成分,仅从药物样本就可以追溯到供应链中的最后一个合法节点。这种能力可能有助于查明供应链中的欺诈或泄漏节点,并收集关于毒品网络如何运作的情报。
犹太食品和清真食品:犹太食品产品和清真食品产品不能仅通过最终产品来识别(没有犹太食品和清真食品的测试)。所公开的技术可以用于验证和跟踪来自经认证的犹太食品和清真食品生产商的产品,并且由此解决行业中普遍存在的假冒问题。
牛奶产品:假冒牛奶产品在亚洲市场经常被检测到,并且自2008年以来,已有50,000多名婴儿因三聚氰胺中毒而住院。从牛奶产品中恢复和验证所有供应链信息的能力可以解决这个问题。
弹药:枪支技术的最新进展加剧了本已困难的检测非法武器和弹药转让的任务。2012年,枪支造成了全球41%的非冲突杀人案件,其中大约57%的案件仍未解决。2016年,奥巴马总统和美国医学协会宣布枪支暴力是一个公共健康问题,估计每年给美国经济造成2290亿美元的损失——甚至超过了肥胖的成本。模块化、聚合物和3D打印枪支的出现也为枪支追踪和登记带来了新的挑战。标记和追踪寡核苷酸标记的弹药到子弹射入伤口的能力已经在先前得到证明。所公开的创新提供了一种通过带标签的弹药追踪和追查犯罪的方法。
其它应用:所公开的技术可以用于跟踪和追踪许多其它产品,包含但不限于:酒、化妆品、宝石、化学品、肥料、钞票、赌场筹码和奢侈品。
纳米孔测序
图1展示了测序系统100,所述测序系统包括具有纳米孔102和读出电子器件103的电纳米孔传感器101。传感器101连接到计算机系统110,所述计算机系统包括处理器111、程序存储器112、数据存储器113和通信端口114。可以使用计算机系统110的许多不同变型,包含个人计算机(PC)、移动计算机(膝上型计算机)、智能电话、云计算环境等。在一个实例中,传感器101通过通用串行总线(USB)连接到计算机系统110。其它连接当然也是可能的。
应当注意的是,本文的一些实例涉及DNA的使用,但应当注意的是,其它类型的寡核苷酸序列,如具有五种不同核苷酸或碱基的RNA或DNA/RNA杂交体,也可以用于表示数字数据。
在如图1所示的纳米孔测序中,DNA链120穿过浸没在电解质溶液中的纳米大小的孔102。DNA串120是包括表示为矩形的核苷酸序列的单个分子,如核苷酸121。读出电子器件103在孔102两端施加恒定电压,并且测量电流水平。此电流信号的波动是由于穿过孔102的DNA串120的特性。对这些电流波动的分析使得能够识别串中的碱基序列。这种被称为‘碱基调用’的过程仍然不够可靠,并且计算效率也不够高,无法在所有诊断应用中广泛使用纳米孔装置。应注意,代替电流信号,电压信号同样可以使用。来自读出电子器件的信号被称为时域电信号,这意味着所述信号包括一系列振幅值(表示电压、电流或其它测量值)。每个时间点都有一个振幅值,这使得此信号成为时域信号。在一些实例中,读出电子器件103以数字数据的形式产生时域电信号,例如一系列比特,其中预定数量的比特编码强度值和时间值。在其它实例中,例如,读出电子器件103以模拟数据的形式创建时域作为连续电压信号。
给定时间孔内的f碱基是孔的‘状态’,并且每个状态应该产生唯一的电流水平。甚至这些水平的持续时间也应该是状态依赖性的。使碱基调用变得更加困难的是电流的水平和持续时间受到除了状态以外的许多因素的影响,如孔中的碱基堆积或马达蛋白的上游功能(例如)。这些因素的影响,以及甚至所有可能产生影响的因素都还不完全清楚。因此,电流信号有时看起来非常‘随机’,而使用相同装置在不同时间测量的特定DNA串的信号可能看起来彼此非常不同。信号的这种随机性质对使用纳米孔技术进行DNA或RNA碱基测序提出了重大挑战。
本公开提供了碱基调用程序的旁路,并且直接对由纳米孔装置测量的‘原始’电流信号进行操作,这也被称为‘软决策解码’系统。这种方法的另外的优点是,当前信号或‘软数据’比碱基调用程序的‘硬’输出含有更多的信息,这可以用来增加可靠性。
计算机系统
计算机从读出电子器件103接收时域电信号,并解码已经编码在DNA串120中的数字信息。在该意义上,处理器111执行安装在非易失性程序存储器112上的程序代码,这使处理器111执行本文所公开的方法,如用于解码数据的方法或用于编码数据的方法,如图2中的方法200。应注意,在图1中,计算机系统110解码数据。计算机系统110也可以编码数据以创建DNA链120。在其它实例中,存在两个不同的计算机系统,用于编码数据的一个计算机系统作为‘发送器’,并且解码数据的第二计算机系统作为‘接收器’。例如,在供应链中,发送器可以是产品制造的一部分,其中创建的DNA串被添加到产品中。解码接收器计算机系统则是消费者的一部分,其中DNA串被解码以验证产品的身份。
方法
图2展示了用于创建用于表示数字数据的寡核苷酸序列的方法200。此处应注意的是,术语“寡核苷酸序列”是指表示或表征分子的数字数据。即,作为所述方法的结果,寡核苷酸序列存在,而没有产生任何分子。
当方法200由处理器111执行时,处理器111从第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分中选择201一个寡核苷酸序列。即,存在一组序列(以后被称为‘符号’),并且选择符号来表示数据的各部分。例如,数据的一部分可以是具有8位的字节或者不同长度的部分。所述多个寡核苷酸序列(‘符号’)被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号可与来自另一个寡核苷酸序列的电时域信号区分开。例如,并且如下文详述,信号可以具有通过动态时间弯曲计算的最大或阈值以上的距离。如上文所述,所述电时域信号指示在任何一个时间点存在于电传感器101中的一个或多个核苷酸的电特性。
处理器将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列,即选定的符号,组合202成表示用于编码所述数字数据的单个寡核苷酸分子120的单个寡核苷酸序列。
所述方法然后可以进一步包括合成所述分子,并且将所述分子添加到产品。编码到分子中的数字数据被计算成使得其一旦被解码就可以用来验证产品。
编码
考虑一个系统,在所述系统中,数据以碱基水平编码,并且软解码器应用于测得的电流信号。用b碱基编码之后表示DNA串的长度。如果在任何一个时间点,f碱基都在孔内,则记录的电流信号可以包含至多b-f+1个不同的状态。由于编码器在碱基上操作,解码器也需要碱基水平数据。对于软解码器,这意味着(b-f+1)个概率向量,每个状态一个。第i个这样的向量将含有第i个状态是每个可能的f碱基集合或f聚体的概率。优选地,解码器应当能够处理这些概率向量并产生可靠的输出。
本公开提供了用于软决策编码的字母表。大小为|AD|的此字母表AD的每个‘字母’被称为‘符号’,与唯一可识别的电流信号di(t)相匹配,所述电流信号由短的对应碱基序列Di产生。信息是用这种‘编码’字母表来表示的,所述字母表中还可以添加冗余。为了存储数据,每个字母都用它的短碱基序列替代。此外,在每对此类序列之间,从大小为|AS|的字母表AS中添加短的多核苷酸‘间隔子序列’Si。当最终序列被合成并被纳米孔装置读取时,电流信号含有来自编码字母表di(t)的信号,所述信号被由多核苷酸间隔子序列产生的几乎平坦的信号si(t)分开,或者在某些情况下是独特的‘尖峰’信号。在本公开给出的实例中,测试了一系列间隔子序列。解码器从字母表中‘提取’信号,并继续解码码字中的信息。将这些提取的信号称为解码器‘接收到’的信号。
在解码时,将每个接收到的信号与数据符号AD和间隔子AS的字母表中的所有参考信号进行比较。参考信号与接收到的信号之间的动态时间弯曲(DTW)或相关性优化弯曲(COW)成本被用作解码度量,而不是使用概率方法。对于每个接收到的信号,计算DTW成本的向量,并且解码器对这些成本进行操作。解码器的输出是具有最低总DTW成本(计算为每个接收到的信号的成本之和)的有效向量。应当注意,此处的编码-解码系统不知道碱基;它仅使用由不同的当前签名di(t)和si(t)构成的字母表。
DNA数据存储的另一个问题是互补链的存在。经历扩增的单链DNA序列(ssDNA)产生互补链并成为双链DNA(dsDNA),并且有可能(大约50%的时间)测得的电流信号是针对所述链的。为了克服这个困难,本公开研究了多种方法:
1)预先计算互补序列以及模板链的参考信号,并且进行两步解码过程,一次用正常序列的参考,并且然后用互补序列的参考。然后比较两者的输出,并且具有最低DTW成本度量的输出为最终输出。
2)从5'引物位点识别模板和互补链,并由此确定模板或互补字母表是否应当用于解码,以及
3)首先从模板和查询寡核苷酸链中的互补间隔子签名中识别模板和互补链。
为了计算短碱基序列的参考信号,使用了‘Scrappie’(可从https://github.com/nanoporetech/scrappie获得)中可用的波形曲线函数(squiggle function)。使用此软件,可以获得任何碱基序列的‘平均’信号,被称为序列的‘签名’。为了计算短碱基序列的参考信号,预先执行一些‘训练’。在一种进行此操作的方法中,合成含有由来自AS的间隔子序列分隔的来自AD的符号序列的DNA序列,并且然后使用纳米孔装置进行读取。对一组原始电流信号运行聚类算法。为了决定每个所得聚类的DNA序列,使用了碱基调用器。与被称为碱基调用簇的大多数信号相匹配的序列被视为所述簇的序列。参考信号是通过使用DTW重心平均对簇中的所有信号进行平均来计算的。
在所公开的编码系统的第一次迭代中,测试了由来自集合AD的数据符号串简单构造的码字,如图3所示。虽然这种方法产生了可解码的模拟输出,但符号分割仍然是一个挑战,因为纳米孔阅读框架为大约f=5–6个碱基,允许1,024–4,096种不同的状态。另外,因为测量是在阅读框(孔)的中间进行的,寡核苷酸链中的任何寡核苷酸亚序列产生的模拟信号可能会受到紧接在查询核苷酸之前和之后的2-3个核苷酸的影响。其它上游条件,如马达蛋白的功能、上游序列、碱基堆积等也可能影响孔处的测量结果。为了解决这个问题,可以从来自两个不同字母表的交替符号中构建码字,如图4所示,这两个字母表是数据字母表AD和间隔子字母表AS。
通过评估模拟的原始波形曲线输出、选择候选序列以及产生和评估真实输出来迭代执行数据和间隔子符号选择。当识别出数据字母表AD和间隔子字母表AS时,可以将机器学习算法应用于从字母表组合的序列,以帮助解码。机器学习可以用于间隔子解码之后的数据解码,或者其可以用于解码间隔子和数据符号两者。在两种情况下,用于解码的神经网络应当用大量‘噪声’数据来训练,对于所述数据,潜在的序列/符号是已知的。随着网络训练得足够好,读取DNA链时产生的原始信号可以直接馈送到网络,所述网络将输出最可能的序列/符号。
在一些实施例中,在本地对间隔子符号S和本地对数据符号D执行标签解码可能是有利的,同时在其它实施例中,在本地对S执行标签解码和在远程对D执行标签解码可能是有利的,并且在又仍其它实施例中,在远程对S执行标签解码和在远程对D执行标签解码可能是有利的。
字母表设计(内码)
字母表是由kD核苷酸(‘聚体’)构建的一组符号。也把此类符号称为字母或内码字。如所描述的,在一些实施例中,ID标签包含来自集合AD和AS的交替字母(内码字)。此处,公开了一种使用动态时间弯曲(DTW)成本作为度量来选择寡核苷酸内码字的方法,所述成本以绝对距离或欧几里得距离来测量。首先,在以下约束内构建了5组500个随机符号序列,长度kD=8、10、12、14和16个核苷酸:
●符号的每个数据序列不以与间隔子序列的末端相同的核苷酸开始,或以与间隔子序列的起点相同的核苷酸结束。
●符号中最大GC含量≤70%。
●符号中最大的G或C均聚物区≤3。
从500个候选符号中,使用表1和表2中给出的DTW中的绝对和欧几里得距离阈值度量来选择大小为|AD|=16、64、256个符号的字母表。表3显示出kD符号长度选择是码率(比特nt-1)与可靠解码所需的最小绝对距离和欧几里得距离之间的折衷。
表1:用于F16、F64和F256字母表的符号选择的绝对动态时间弯曲(DTW)距离阈值,其中kD=12。
表2:用于F16、F64和F256字母表的符号选择的欧几里得动态时间弯曲(DTW)距离阈值,其中kD=12。
表3:绝对距离的示例内码字母表设计度量。
Dmin–字母表中的符号签名之间的最小DTW距离
DN–按序列长度归一化的最小距离(Dmin/kD)
Ri–内码率=log2((|AD|)/kD)比特nt-1
公开了以下三种用于挑选字母表的方法。对于所用情况,通过评估模拟的原始波形曲线输出、选择候选序列以及产生和评估真实输出来迭代执行符号选择。
1.成对随机方法
此方法包括计算随机产生的k聚体之间的成对DTW成本,然后挑选最小DTW成本大于某个预定义阈值的集合。本领域技术人员已知的聚类算法也可以用于根据DTW或COW距离识别最佳符号集合。
2.格形搜索
所有可能的5聚体(纳米孔的状态)的信号可以从Scrappie获得。这相当于45=1,024个不同的签名。使用这些,可以进行格形搜索以获得产生签名集合的一组序列,对于所述签名集合,最小成对DTW距离大于某个预设阈值(Dmin)。
为搜索构建的格形将具有kD–4个阶段,每个阶段具有256个状态,以及来自每个状态的4个分支。搜索将从随机产生的kD长度的DNA序列开始。这将一直包含在挑选的字母表中。为字母表挑选序列相当于沿着格形找到路径,所述路径创建DTW距离>Dmin的签名,其中所有序列都已经包含在字母表中。维特比算法(Viterbi algorithm)可以被修改以找到此类路径。
3.强力法
在此方法中,DTW距离不是为字母表AD选择序列的度量;使用符号错误概率本身。首先,类似于格形方法,产生多个长度为kD的随机序列。所有这些的签名都是从Scrappie获得的。从字母表中随机挑选|AD|序列,并且然后为每个序列产生随机波形曲线(基于从Scrappie获得的分布),并且使用签名进行‘解码’。由于高符号错误概率,一些序列将被去除。然后,将另一组序列添加到剩余的序列中,并且再次进行解码测试。以此方式继续搜索,直到找到具有低符号错误率的|AD|序列。
间隔子选择和优化
间隔子符号有四个主要目的:
1)用于描绘码字中数据符号的开始和结束,
2)用于当寡核苷酸链以可变速度移位纳米孔时充当用于标记寡核苷酸链中已知子序列的长度的同步模式,
3)用于在第一次通过时识别模板和互补查询序列,并且因此通过通知解码器是否应当针对模板或互补数据符号的字母表尝试解码来提高解码效率,以及
4)用于任选地编码一些另外的信息以增加码字速率,使信息跨多个不同的寡核苷酸片段分布,提供查询片段的‘软’中间质量控制检查,或通过水印隐藏信息。
间隔子的理想性质包含以下这样的序列:
1)产生一组电流签名sj(t),所述电流签名与一组符号签名di(t)不同且易于识别,
2)产生相互不同的模板和反向互补签名,
3)含有合适的GC含量,并且
4)具有足够的长度来消除来自上游/先前数据符号签名di(t)的任何干扰,使得利用来自先前间隔子sj(t)而不是先前符号di(t)的可预测干扰/记忆来生成先前符号签名di+1(t)。
如果来自四元字母表A、C、T、G的f个碱基在任何时候都同时在一个纳米孔内,并且例如假设f=5(b5,b4,b3,b2,b1),并且由装置测量的输出电流信号A估计碱基b3(中间碱基),那么将出现总共45=1,024个可能的输出信号A(b)=F(b5,b4,b3,b2,b1)。每个信号的持续时间T也可以是可变的,并且取决于5个碱基,即T(b)=G(b5,b4,b3,b2,b1)。假设纳米孔阅读框架是f个碱基,并且假设f=5,并且原始电流测量发生在阅读框架的中点,那么由长度为b的DNA链移位纳米孔所产生的签名中不同状态q的数量是q=b-f+1。这意味着,例如,为8聚体DNA间隔子符号产生的可能不同状态的总数是q=8–5+1=4个状态,其中每个状态呈现1,024个可能的输出信号之一,总共产生1,0244>1.1E12个可能的签名。
由于原始数据测量发生在纳米孔的中点,并且出于说明的目的,假设5个核苷酸的阅读框架,任何DNA亚序列产生的信号将受到紧接前后的两个核苷酸的影响。这意味着仅8聚体DNA子序列(N–f+1,其中N是子序列的长度)的中间4聚体不受侧接子序列记忆的影响。因此,间隔子/分区序列S的最小理论长度是kS=f,但优选地kS=f+1、f+2、f+3、f+4或f+5。最佳间隔子长度是高效识别码字签名中的间隔子的能力与信息速率之间的折衷,由f限定。
间隔子选择#1
通过评估模拟的原始波形曲线输出、选择候选序列以及产生和评估真实输出来迭代执行间隔子符号选择。首先通过使用Scrappie软件模拟来自‘硬’输入的‘软’信号进行间隔子序列选择。产生下列序列的模拟信号(模板/反向互补,T/RC),并针对上述间隔子设计性质进行评估。用下文列出的13个8聚体间隔子序列构建长度n=4的DNA标签。图6中给出了选择13个间隔子符号模板和反向互补对的模拟签名。
S1,AAAAAAAA/TTTTTTTT
S2,ATATATAT/ATATATAT
S3,AATTAATT/AATTAATT
S4,ACACACAC/GTGTGTGT
S5,AGAGAGAG/CTCTCTCT
S6,AACCAACC/GGTTGGTT
S7,AAGGAAGG/CCTTCCTT
S8,AAATTTAA/TTAAATTT
S9,AAACCCAA/TTGGGTTT
S10,AAAGGGAA/TTCCCTTT
S11,AAAATTTT/AAAATTTT
S12,AAAACCCC/GGGGTTTT
S13,AAAAGGGG/CCCCTTTT
使用Scrappie软件模拟ID标签的平均签名,并且作为间隔子进行评估。这些模拟提供在图6中。在理论模拟中表现良好的间隔子被制成标签,测序,并进一步评估真实的原始数据。在某些参数范围内,所有测试的序列都可以用作间隔子,尽管一些序列的表现明显优于其它序列。例如,poly-A间隔子产生相对‘平坦’和独特的签名,所述签名易于检测。此性质降低了间隔子检测的等待时间,从而提高了系统的吞吐量。‘平坦的’签名可能是期望的,因为易位持续时间的随机变化或‘时间弯曲’不会影响此类签名的检测。然而,poly-A序列的平均振幅非常类似于其反向互补的poly-T序列的平均振幅,因此使得仅从间隔子进行模板和反向互补链分类变得困难。另外,高A和T含量在某种程度上限制了符号选择。因此,poly-A序列可能不是最佳的。高振幅‘尖峰’间隔子也可能是检测所期望的,它可以由TGA重复序列构建。此外,如图17所示,还可以通过并入集合{Z,P,B,S}中的一个或多个非天然AEGIS碱基来实现期望的间隔子性质。
间隔子和间隔子符号的大小可以是kS=5-16nt,优选地6-14nt,优选地6-12nt,优选地8-12nt。通常,间隔子的大小为f≤kS≤2f,其中f是在任一时间易位纳米孔的寡核苷酸片段中的碱基数量。间隔子可以是任何序列,但优选地:
●包含集合{A}或{T}之一的均聚物
●包含两种交替的单体核苷酸{A,T}或{A,C}或{A,G}的交替共聚物
●包含两种交替的二聚体核苷酸{AA,TT}或{AA,CC}或{AA,GG}的交替共聚物
●包含三种交替的三聚体核苷酸{AAA,TTT}或{AAA,CCC}或{AAA,GGG}的交替共聚物
●包含四种交替的四聚体核苷酸{AAAA,TTTT}或{AAAA,CCCC}或{AAAA,GGGG}的交替共聚物
●含有一个或多个{AAAG}和/或{AAG}重复序列的序列
●含有一个或多个{TGA}重复序列的序列
●含有集合{Z,P,S,B}的一个或多个AEGIS碱基的序列
间隔子选择#2
一种更结构化的搜索方式是通过强力选择间隔子序列。强力搜索方法涉及产生长度为kS的可能间隔子序列的穷尽或接近穷尽的集合,并且挑选产生期望形状的签名的符号。在产生一组随机‘硬’序列之后,scrappie软件用于产生对应的平均‘软’电流签名。然后将这些签名与期望的模式进行比较,并且挑选相近的匹配作为间隔子。在次,通过评估模拟的原始波形曲线输出、选择候选序列以及产生和评估真实输出来迭代执行强力间隔子符号选择。
间隔子和间隔子符号的大小可以是kS=5-16nt,优选地6-14nt,优选地6-12nt,优选地8-12nt。间隔子的大小为f≤kS≤2f,其中f是在任一时间易位纳米孔的寡核苷酸片段中的碱基数量。
用于增加码字速率的多个间隔子
此外,公开了一种用于通过对ID标签使用两个字母表AD和AS来增加码字速率r的方法。标签由来自AD和AS的交替符号构建,其中每个标签含有来自AD的n个符号和来自AS的n+1个符号,如图4所示。数据符号字母表的大小通常大于间隔子符号字母表,或|AD|>|AS|。间隔子字母表AS通常更小,因为它必须满足符号和间隔子设计约束两者。在大多数情况下,|AS|≤16或优选地≤8并且|AD|≥16。例如,考虑到:
●|AD|=28=256个长度kD=12nt并且速率r=0.67比特nt-1的符号
●|AS|=22=16个长度kS=8nt并且速率r=0.5比特nt-1的间隔子符号
对于包含来自AD的4个符号和来自AS的5个符号的长度n=4的交替标签,即Sj1Di1Sj2Di2Sj3Di3Sj4Di4Sj5,在88个核苷酸的编码区上,编码的比特总数是52,这等于0.593比特nt-1的速率。如果间隔子不用于编码信息,等效的码字将在88个核苷酸的编码区内含有32比特,这相当于0.366比特nt-1的速率。
字母表AD和AS可以具有任何大小,并且包含大小为kD/S=5-16nt,优选地6-14nt,优选地6-12nt,优选地8-12nt的符号和间隔子符号。间隔子的大小为f≤kS≤2f,其中f是在任一时间易位纳米孔的寡核苷酸片段中的碱基数量。
用于使信息跨多个DNA片段分配的多个间隔子符号
在期望使用短寡核苷酸片段(即<200nt)的情况下,也可以使用多个间隔子来编码跨多条寡核苷酸链的信息,并且需要编码比仅单个片段所能容纳的更多的信息。在许多情况下,短片段是期望的,因为它们不太可能降解,制造成本较低(就每核苷酸长度和每摩尔两者而言)并且合成误差率较低。
此处,公开了一种用于使用间隔子来编码索引以将单独的链寻址到多链ID标签或‘数据块’中的位置的方法。还参考图5,所述图展示了间隔子如何用于使信息跨多条DNA链分布。
考虑以下实例:
●|AD|=28=256个长度kD=12nt并且速率r=0.67比特nt-1的符号
●|AS|=21=2个长度kS=8nt并且r=0.125比特nt-1的间隔子符号
对于包含来自AD的4个符号和来自AS的5个符号的长度n=4的交替ID标签,即Sj1Di1Sj2Di2Sj3Di3Sj4Di4Sj5,有2564=43亿个可能的AD标签和25=32个AS标签。在此实施例中,AS标签用作用于将AD标签组合成‘数据块’或多链ID标签的索引。此方法允许基本上无限数量的32256^4个唯一数据块,尽管对于实际应用,每个数据块不需要含有AS标签全集。例如,如果仅使用四个AS标签,这将允许4256^4的多链ID标签空间。
字母表AD和AS可以具有任何大小,并且包含大小为kD/S=5-16nt,优选地6-14nt,优选地6-12nt,优选地8-12nt的符号和间隔子符号。间隔子的大小为f≤kS≤2f,其中f是在任一时间易位纳米孔的寡核苷酸片段中的碱基数量。
用于通过水印隐藏信息的多个间隔子
水印是将信息隐藏在载波信号中以提高安全性的过程。此处,公开了一种用于DNA水印的方法,其中一个或多个寡核苷酸单链ID标签,或一个或更多个寡核苷酸‘块’或多链ID标签,或一个或多种寡核苷酸单链ID标签和寡核苷酸块或多链ID标签的组合,隐藏在更大的寡核苷酸片段池中。考虑包含一组数据符号(字母表AD)和一组间隔子符号(字母表AS)的交替符号的寡核苷酸ID标签。水印是通过使用字母表AS来编码信息来实现的,所述信息在更大的一组标签中识别正确的标签。例如:
●|AD|=28=256个长度kD=12nt并且速率r=0.67比特nt-1的符号
●|AS|=26=64个长度kS=8nt并且速率r=0.75比特nt-1的间隔子符号
对于包含来自AD的4个符号和来自AS的5个符号的长度n=4的交替ID标签,即Sj1Di1Sj2Di2Sj3Di3Sj4Di4Sj5,有来自集合AS的总共645=10.74亿个可能配置。来自集合AS的一个或多个配置可以用于从更大的‘可信’标签池中识别正确的ID标签/信息。合理的标签包含由与正确标签(例如,Sj1Di1Sj2Di2Sj3Di3Sj4Di4Sj5)相同的字母表编码并具有相同参数化/形式的任何寡核苷酸链。如IDT和Twist BioSciences等商业制造商可以合成超过具有>100,000个看似合理的寡核苷酸标签的池。这些池可以以相同或相似的摩尔浓度添加到‘正确’标签中,以实现水印。
字母表AD和AS可以具有任何大小,并且包含大小为kD/S=5-16nt,优选地6-14nt,优选地6-12nt,优选地8-12nt的符号和间隔子符号。间隔子的大小为f≤kS≤2f,其中f是在任一时间易位纳米孔的寡核苷酸片段中的碱基数量。
在一些实施例中,本地执行标签解码和本地执行水印解码可能是有利的,而在其它实施例中,远程执行本地标签解码和水印解码可能也是有利的,并且在又仍其它实施例中,远程标签标记解码和远程执行水印解码也可能是有利。
用于增加错误检测和校正的外码
还测试了外码,以提高错误检测和校正能力。在一些实施例中,码字由‘软’模拟符号的内码与‘硬’外码组合构建。在这些实施例中,内部‘软’符号可以是长度为5-16nt的聚体,并且使用DTW中的最小互绝对或欧几里得距离作为度量来选择。外部的‘硬’码可以包含线性分组码,例如:循环码(例如,汉明码)、重复码、奇偶校验码、多项式码、理德所罗门码、代数几何码或雷德密勒码。外部‘硬’码也可以包含卷积码和乘积(分组turbo)码。
在一个实例中,码字由kD=12聚体数据符号构建,所述数据符号使用F64上44.5的DTW阈值中的最小相互绝对距离来选择。来自AD的数据符号被排列成交替的汉明[n,k]码字,其中n=7并且k=4,并且其中每个D侧接S。这给出了外码CD具有两个符号的纠错能力和一个符号的纠错能力。
在其它实施例中,‘软’模拟内部符号使用软外码组装成码字。此软外码可以包含针对软解码而优化的码,例如卷积码、LDPC码或turbo码。
在所有实施例中,外码可以应用于包含AD和AS的交替符号的交替码字中的AD的符号或AS的符号,或AD的符号和AS的符号两者。
对于单个消息使用多个片段的类似方案是,使用长的外码,如良好NB-LDPC代码。在此情况下,首先从长度为K(|AS|-1)的字母表AD中构建码字,其中K是码字‘分段’的数量。然后此码字被分成K个分段,每个分段的长度为|AS|-1。使用间隔子(或AS)字母表对长码字中的每个分段的位置进行编码。由于长码字比短码字具有更好的性能,因此可以期望这样的方案来提高性能。但是,再一次,每个数据分段的至少一次读取被用于解码外码,这可能会影响系统的效率。注意,具有长度为K(|A2|-1)的码字的实例仅是示例情况,通常外码的长度为KL,其中L<=|AS|(K+1)。
一种用于提高信息率和改进字母表设计的方法
在此,公开了一种将非天然的‘八文字(Hachimoji)’或‘AEGIS’核苷酸包含在合成寡核苷酸标签中以提高信息率并给出更好的数据和间隔子字母表设计灵活性的方法。AEGIS核苷酸包含嘧啶碱基Z和S以及嘌呤碱基P和B,它们形成互补的氢键对Z:P和S:B。AEGIS碱基可以用于将用于编码寡核苷酸中信息的核苷酸的数量从四个扩展到八个,并且由此将理论上的最大信息密度从2比特nt-1增加到3比特nt-1。图17中的数据显示出令人惊讶的结果,即使用纳米孔测序和先前公开的方法可以检测到并入到间隔子和数据符号中的AEGIS碱基。
出于产生图的目的,首先设计并制造了一些含有AEGIS碱基的序列。然后,使用纳米孔装置对其进行测序,首先在不存在用于PCR扩增的非天然AEGIS碱基的情况下,然后在仅使用dNTP的情况下进行。然后,基于成对DTW距离对测序运行产生的原始信号进行聚类,并使用DTW-Barycenter平均(DBA)为每个主要聚类生成一致信号。通过再次使用DTW距离,首先定位不含AEGIS碱基的相邻子序列的区域,找到由含有AEGIS基的序列产生的一致信号的区域。
AEGIS基础的包含可以用于生成更大范围的不同原始电流标签,并且由此允许数据和间隔子字母表设计具有更大的灵活性。例如,通过使用先前公开的符号选择方法,可以在较大的相互DTW和/或COW距离处生成数据字母表符号AD和间隔子字母表符号AS,这可以提高解码效率和可靠性。另外,对于给定的最小相互DTW和/或COW距离,与仅由传统核苷酸构建的相同大小的字母表相比,AEGIS碱基可用于设计更大的数据|AD|和间隔子字母表|AS|。这一令人惊讶的结果使纳米孔编码系统的设计具有更大的灵活性、改进的信息密度以及改进的解码和序列识别可靠性。
解码算法
图18给出了如何利用纳米孔信号进行解码的概述。注意,当使用较长的代码或较大的字母表或外码时,最大似然(ML)解码被合适的解码算法替代。图9A-14中给出的字母表,Seq ID NO:1-672,使用欧几里得距离或绝对距离作为DTW中的距离度量产生。这两种类型的字母表似乎都表现得相当好,在3种情况中的2种情况下,绝对距离字母表的表现(略好)优于其它字母表。
在不使用外码的情况下,最佳选择可能是使用最大似然(ML)或使用任何合适的距离度量(如DTW)的基于ML的方法。最合适的距离度量可以是那些最接近实际概率的距离度量。
在使用外码的情况下,解码将取决于使用哪种代码和哪种码字长度。对于小字母表上的短代码,例如a(n,k),其中n是码字长度,并且k是数据符号的数量,例如F16上的(7,4),从解码内码获得的DTW成本向量可以用于外码的ML解码。对于较长的代码,或者使用较大字母表的代码,ML是不实用的,在所述情况下使用更合适的解码器;例如:LDPC的BP、乘积码的Chase-Pyndiah解码等。如果外码是硬解码的,那么它将使用从内部解码获得的每个符号的ML估计值进行。再一次,具体的解码算法将取决于代码;例如:RS码的Berlekamp算法、使用乘积码的迭代硬解码等。许多码在BP解码(硬解码或软解码)时表现相当好,但首先要为它们计算合适的奇偶校验矩阵。Chase解码对于任何代数代码的软解码都是良好的选择。
机器学习是一种可以用于解码的替代性方法。所述机器学习可以用于图18中的间隔子解码步骤之后的数据解码,或者可以用于解码间隔子和数据符号两者。在两种情况下,用于解码的神经网络应当用大量‘噪声’数据在由识别的字母表构建的序列上训练,对于所述数据,潜在的序列/符号是已知的。随着网络训练得足够好,读取DNA链时产生的原始信号可以直接馈送到网络,所述网络将输出最可能的序列/符号。
实例1–以DTW为单位的绝对距离作为用于符号选择的度量
为了证明使用DTW中的绝对距离来选择AD的编码方法,在以下约束条件下随机产生了每个长度kD=8、10、12、14和16的500个符号:
●符号的每个数据序列可以不以与间隔子序列的末端相同的核苷酸开始,或以与间隔子序列的起点相同的核苷酸结束。
●符号中最大GC含量≤70%。
●符号中最大的G或C均聚物区≤3。
然后使用Scrappie软件模拟500个符号的每个kD长度集合的模拟电流签名。然后,使用动态时间弯曲(DTW)阈值中的最小绝对距离分别为59.5、44.5和31.5,从500个模拟签名中选择大小|AD|=16、64和256的字母表(参见表1)。F16和F64字母表中符号的模板和互补电流签名的错误概率分别如图7和图8所示。表11-16给出了使用DTW中的最小绝对距离选择的这些F16、F64和F256字母表的数据符号序列集,并且图9A-图14给出了对应的模拟电流签名di(t)。
下文给出的ID标签(ID_F16abs_001-012、ID_F64abs_001-004和ID_F256abs_001-004)由Macrogen合成,并且使用Oxford Nanopore MinION装置和SQK-LSK109方案通过R9.4.1流动池进行测序。所得到的.fast5文件格式的原始模拟数据被输入到解码器中。大小|AD|=16、64和256的字母表的结果分别在表4、表5和表6中给出。
结果表明,在|AD|<=64的情况下,在DTW中使用绝对距离构建的数据符号字母表优于使用DTW中的欧几里得距离构建的数字符号字母表。
表4:由在最小相互绝对距离59.9处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=16。
表5:由在最小相互绝对距离44.5处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=64。
表6:由在最小相互绝对距离31.5处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=256。
F16,绝对距离,间隔子1
ID_F16abs_001:S1/SEQ ID NO:1/S1/SEQ ID NO:2/S1/SEQ ID NO:3/S1/SEQ IDNO:4/S1
ID_F16abs_002:S1/SEQ ID NO:5/S1/SEQ ID NO:6/S1/SEQ ID NO:7/S1/SEQ IDNO:8/S1
ID_F16abs_003:S1/SEQ ID NO:9/S1/SEQ ID NO:10/S1/SEQ ID NO:11/S1/SEQID NO:12/S1
ID_F16abs_004:S1/SEQ ID NO:13/S1/SEQ ID NO:14/S1/SEQ ID NO:15/S1/SEQID NO:17/S1
ID_F16abs_005:S1/SEQ ID NO:1/S1/SEQ ID NO:5/S1/SEQ ID NO:9/S1/SEQ IDNO:13/S1
ID_F16abs_006:S1/SEQ ID NO:4/S1/SEQ ID NO:18/S1/SEQ ID NO:12/S1/SEQID NO:16/S1
F64,绝对距离,间隔子1
ID_F64abs_001:S1/SEQ ID NO:34/S1/SEQ ID NO:35/S1/SEQ ID NO:84/S1/SEQID NO:80/S1
ID_F64abs_002:S1/SEQ ID NO:59/S1/SEQ ID NO:35/S1/SEQ ID NO:84/S1/SEQID NO:80/S1
ID_F64abs_003:S1/SEQ ID NO:56/S1/SEQ ID NO:48/S1/SEQ ID NO:81/S1/SEQID NO:94/S1
ID_F64abs_004:S1/SEQ ID NO:35/S1/SEQ ID NO:84/S1/SEQ ID NO:80/S1/SEQID NO:92/S1
F256,绝对距离,间隔子1
ID_F256abs_001:S1/SEQ ID NO:184/S1/SEQ ID NO:242/S1/SEQ ID NO:307/S1/SEQ ID NO:261/S1
ID_F256abs_002:S1/SEQ ID NO:364/S1/SEQ ID NO:242/S1/SEQ ID NO:307/S1/SEQ ID NO:261/S1
ID_F256abs_003:S1/SEQ ID NO:270/S1/SEQ ID NO:173/S1/SEQ ID NO:209/S1/SEQ ID NO:285/S1
ID_F256abs_004:S1/SEQ ID NO:242/S1/SEQ ID NO:174/S1/SEQ ID NO:261/S1/SEQ ID NO:328/S1
实例2–以DTW为单位的欧几里得距离作为用于符号选择的度量
为了证明使用DTW中的欧几里得距离来选择AD的编码方法,在以下约束条件下随机产生了每个长度kD=8、10、12、14和16的500个符号:
●符号的每个数据序列可以不以与间隔子序列的末端相同的核苷酸开始,或以与间隔子序列的起点相同的核苷酸结束。
●符号中最大GC含量≤70%。
●符号中最大的G或C均聚物区≤3。
然后使用Scrappie软件模拟500个符号的每个kD长度集合的模拟电流签名。然后,使用动态时间弯曲(DTW)阈值中的最小欧几里得距离分别为6.8、5.375和3.825,从500个模拟签名中选择大小|AD|=16、64和256的字母表(参见表1)。表11-16给出了使用DTW中的最小欧几里得距离选择的这些F16、F64和F256字母表的数据符号序列集并且图9A-图14给出了对应的模拟电流签名di(t)。
下文列出的ID标签(ID_F16eu_001-012、ID_F64eu_001-004和ID_F256eu_001-004)由Macrogen合成,并且使用Oxford Nanopore SQK-LSK109方案和R9.4.1流动池进行测序。所得到的.fast5文件格式的原始模拟数据被输入到解码器中。大小|AD|=16、64和256的字母表的结果分别在表7、表8和表9中给出。
结果表明,在|AD|>64的情况下,在DTW中使用欧几里得距离构建的数据符号字母表优于在DTW中使用绝对距离构建的数字符号字母表。
表7:由在最小相互欧几里得距离6.8处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=16。
/>
表8:由在最小相互欧几里得距离5.375处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=64。
表9:由在最小相互欧几里得距离3.825处选择的符号的AD字母表构建的Sj1Di1Sj1Di2Sj1Di3Sj1Di4Sj1 ID标签的解码结果,其中|AD|=256。
F16,欧几里得距离,间隔子1
ID_F16eu_001:S1/SEQ ID NO:17/S1/SEQ ID NO:18/S1/SEQ ID NO:19/S1/SEQID NO:20/S1
ID_F16eu_002:S1/SEQ ID NO:21/S1/SEQ ID NO:22/S1/SEQ ID NO:23/S1/SEQID NO:24/S1
ID_F16eu_003:S1/SEQ ID NO:25/S1/SEQ ID NO:26/S1/SEQ ID NO:27/S1/SEQID NO:28/S1
ID_F16eu_004:S1/SEQ ID NO:29/S1/SEQ ID NO:30/S1/SEQ ID NO:31/S1/SEQID NO:32/S1
ID_F16eu_005:S1/SEQ ID NO:17/S1/SEQ ID NO:21/S1/SEQ ID NO:25/S1/SEQID NO:29/S1
ID_F16eu_006:S1/SEQ ID NO:20/S1/SEQ ID NO:24/S1/SEQ ID NO:28/S1/SEQID NO:32/S1
F64,欧几里得距离,间隔子1
ID_F64eu_001:S1/SEQ ID NO:146/S1/SEQ ID NO:142/S1/SEQ ID NO:124/S1/SEQ ID NO:139/S1
ID_F64eu_002:S1/SEQ ID NO:111/S1/SEQ ID NO:142/S1/SEQ ID NO:124/S1/SEQ ID NO:139/S1
ID_F64eu_003:S1/SEQ ID NO:120/S1/SEQ ID NO:134/S1/SEQ ID NO:121/S1/SEQ ID NO:146/S1
ID_F64eu_004:S1/SEQ ID NO:142/S1/SEQ ID NO:124/S1/SEQ ID NO:139/S1/SEQ ID NO:159/S1
F256,欧几里得距离,间隔子1
ID_F256eu_001:S1/SEQ ID NO:441/S1/SEQ ID NO:501/S1/SEQ ID NO:616/S1/SEQ ID NO:596/S1
ID_F256eu_002:S1/SEQ ID NO:588/S1/SEQ ID NO:501/S1/SEQ ID NO:616/S1/SEQ ID NO:596/S1
ID_F256eu_003:S1/SEQ ID NO:535/S1/SEQ ID NO:545/S1/SEQ ID NO:421/S1/SEQ ID NO:646/S1
ID_F256eu_004:S1/SEQ ID NO:501/S1/SEQ ID NO:616/S1/SEQ ID NO:596/S1/SEQ ID NO:488/S1
实例3:包含编码数据的间隔子的ID标签
为了证明使用两个字母表编码数据,ID标签由两个不同字母表AD和AS的交替符号组装而成,其中|AS|=2,并且CS是间隔子配置。如先前所描述,两个字母表可以用于增加数据速率r(比特nt-1),使信息跨多个不同的寡核苷酸片段分布,或者识别寡核苷酸水印中的隐藏信息。在以下实例中,ID标签是使用以下字母表构建的:
·AS={S1,S2}→{0,1}→{TTTTTTTT,AGAGAGAG}
·AD=长度为kD=12nt的符号的随机集合,其中符号在下文表示为Di。
具体地,构建了包含间隔子配置CS编码数据的以下ID标签:
ID1=S1DiS1DiS1DiS1DiS1,其中CS=00000
ID2=S1DiS1DiS1DiS2DiS1,其中CS=00010
ID3=S1DiS1DiS2DiS2DiS1,其中CS=00110
ID4=S1DiS1DiS1DiS1DiS2,其中CS=00001
ID5=S2DiS1DiS1DiS1DiS1,其中CS=10000
ID6=S2DiS2DiS2DiS2DiS2,其中CS=11111
ID7=S2DiS2DiS2DiS1DiS2,其中CS=11101
ID8=S1DiS1DiS2DiS1DiS1,其中CS=00100
ID9=S1DiS2DiS2DiS2DiS1,其中CS=01110
ID10=S2DiS2DiS2DiS2DiS1,其中CS=11110
上述ID标签序列(ID1–ID10)的模拟输出在图15中给出。在所有情况下,可以容易地识别和解码间隔子配置。图16还示出了对真实纳米孔输出的间隔子检测。
实例4:非天然碱基改进了字母表设计并提高了数据速率r(比特nt-1)
为了证明使用非天然AEGIS修饰来改进符号选择,用来自集合{A,C,G,T}的常规DNA核苷酸和来自集合{P,Z,B,S}的一个或多个AEGIS核苷酸制造了四个ID标签(ID_AEGIS_1-4)。这些标签由火鸟生物分子科学有限责任公司(Firebird Biomolecular ScienceLLC)制造,在仅存在常规游离核苷酸(dNTP)以及常规和AEGIS游离核苷酸(dXTP)的情况下,用来自试剂盒SQK-PBK004的Phire Hotstart IIDNA聚合酶和ONT快速连接引物扩增。使用SQK-PBK004方案和R9.4.1流动池在Oxford Nanopore MinION装置上对样本进行测序。
ID_AG_1:引物-AAAPAAAPAACCGTAGTCAGCGAAAPAAAPAA-引物
ID_AG_2:引物-AAAZAAAZAACCGTAGTCAGCGAAAZAAAZAA-引物
ID_AG_3:引物-AAAGAAAGAAZAZAZAZAZAZAAAAGAAAGAA-引物
ID_AG_3:引物-AAAGAAAGAAZZZAZZZAZZZAAAAGAAAGAA-引物
每个序列ID_AG_1-4在存在dNTP和dXTP的情况下分别扩增。当在存在dNTP的情况下进行扩增时,{A、C、G或T}中的任何一个都可以扩增到邻近AEGIS碱基{Z、P、B、S}的位置,尽管观察到偏向于C和T替代Z,G和A替代P。
然后,基于成对DTW距离对测序运行产生的原始信号进行聚类,并使用DTW-Barycenter平均(DBA)为每个主要聚类生成一致信号。通过再次使用DTW距离,首先定位不含AEGIS碱基的相邻子序列的区域,找到由含有AEGIS基的序列产生的一致信号的区域。图17A-D分别示出了由ID_AG_1-4产生的选择平均纳米孔原始数据。左图示出了仅在存在dNTP(Ai–Di)的情况下扩增的ID_AG_1-4,并且右图示出了在存在dXTP(Aii–Dii)的情况中扩增的ID_AG_1-4。
表10给出了在存在dNTP和dXTP的情况下扩增的序列之间的DTW距离。在所有情况下,在存在dXTP的情况下扩增的标签产生独特的原始纳米孔电流签名,就DTW距离而言,所述签名可以从仅在存在dNTP的情况下扩增的相同序列中清楚地检测到。例如,图17的目视检查也示出了由亚序列AAAPAAAPAA(Aii b)、AAAZAAAZAA(Bii b)和AAAGAAAGAA(Ciib)产生的明显不同的电流签名。这些数据证明,AEGIS碱基可以通过纳米孔测序进行检测,并且可以用于提高信息率、改进符号选择、提高解码效率和可靠性。
表10:含有AEGIS碱基的原始纳米孔电流签名的识别
标签 | 区域1(+dNTP) | 区域2(+dXTP) | DTW距离(归一化) |
ID_AG_1 | 图17Ai(a) | 图17Aii(a) | 0.62 |
图17Ai(b) | 图17Aii(b) | 0.29 | |
ID_AG_2 | 图17Bi(a) | 图17Bii(a) | 0.44 |
图17Bi(b) | 图17Bii(b) | 0.35 | |
ID_AG_3 | 图17Ci(a) | 图17Cii(a) | 0.18 |
ID_AG_4 | 图17Di(a) | 图17Dii(a) | 0.40 |
示例字母表
表11-下文表16提供了字母表序列,所述字母表序列与上文实例有关,其中实例与序列表之间的关系如下:
F16abs与SEQ ID NO:1至16相关;
F16eu与SEQ ID NO:17至32相关;
F64abs与SEQ ID NO:33至96相关;
F64eu与SEQ ID NO:97至160相关;
F256abs与SEQ ID NO:161至416相关;并且
F256eu与SEQ ID NO:417至672相关。
表11提供了按绝对距离选择的16个符号的字母表
表12提供了按欧几里得距离选择的16个符号的字母表
表13提供了按绝对距离选择的64个符号的字母表
表14提供了按欧几里得距离选择的64个符号的字母表
表15提供了按绝对距离选择的256个符号的字母表
/>
/>
/>
表16提供了按欧几里得距离选择的256个符号的字母表
/>
/>
/>
/>
本领域技术人员将理解,在不脱离本公开广泛的一般范围的情况下,可以对上述实施例进行多种变化和/或修改。因此,本实施例应当在所有方面都被视为是说明性的而非限制性的。
序列表
<110> 核苷酸追踪有限公司(Nucleotrace Pty. Ltd.)
<120> 模拟DNA编码系统
<130> 532916PRV
<160> 672
<170> PatentIn 3.5版
<210> 1
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 1
cgacgtgtac gc 12
<210> 2
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 2
cgcctactcg gt 12
<210> 3
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 3
gcctgtaagc gg 12
<210> 4
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 4
cccagaggtt gg 12
<210> 5
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 5
tggatggcgt cg 12
<210> 6
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 6
gggactgatg gg 12
<210> 7
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 7
gggaggagtc gc 12
<210> 8
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 8
gccgatcgga cg 12
<210> 9
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 9
gtgtccgctc tc 12
<210> 10
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 10
tctcgcggag ct 12
<210> 11
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 11
ctgggccgag at 12
<210> 12
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 12
gtccgttcgg gc 12
<210> 13
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 13
tcggcctgtg gg 12
<210> 14
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 14
gacgatcctc gg 12
<210> 15
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 15
gagactgggc cc 12
<210> 16
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 16
tcctctctgc cg 12
<210> 17
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 17
cccagcttag gc 12
<210> 18
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 18
gggcttgccc at 12
<210> 19
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 19
gagggtctgt cg 12
<210> 20
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 20
tcctctctgc cg 12
<210> 21
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 21
ccgtgtgttg gg 12
<210> 22
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 22
cggttctctc cc 12
<210> 23
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 23
ccggagttac gg 12
<210> 24
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 24
gcgctcatag cg 12
<210> 25
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 25
ggcagtgaac gg 12
<210> 26
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 26
ggcagggtag gc 12
<210> 27
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 27
cggtcgttcg ct 12
<210> 28
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 28
cgtcatctcg gg 12
<210> 29
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 29
gtccgcctga ac 12
<210> 30
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 30
ccgtgtggat cc 12
<210> 31
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 31
gggagcggga tc 12
<210> 32
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 32
tcgtggactg cg 12
<210> 33
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 33
cgacgtgtac gc 12
<210> 34
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 34
gcctgtaagc gg 12
<210> 35
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 35
cccagaggtt gg 12
<210> 36
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 36
tggtacgagc cc 12
<210> 37
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 37
gggatcagcc gc 12
<210> 38
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 38
cctgcgcacc ac 12
<210> 39
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 39
gcctacatgg gc 12
<210> 40
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 40
cgtcacacag gg 12
<210> 41
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 41
gccgatctac cc 12
<210> 42
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 42
ggcagtcgag ag 12
<210> 43
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 43
gtcatcgccc tg 12
<210> 44
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 44
ccgcgggact at 12
<210> 45
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 45
ccgaagggca gt 12
<210> 46
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 46
cgtcccagat cg 12
<210> 47
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 47
ggattcctgc gg 12
<210> 48
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 48
gcagtgtcag gg 12
<210> 49
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 49
gcccaacgtt cc 12
<210> 50
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 50
ggagggcatc tg 12
<210> 51
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 51
tcgaaccgtc gc 12
<210> 52
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 52
cgaagaccct cg 12
<210> 53
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 53
gtccacgaac gg 12
<210> 54
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 54
ccgtgtggat cc 12
<210> 55
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 55
tgcgatgagg cg 12
<210> 56
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 56
ctgtccagtg gg 12
<210> 57
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 57
gccttggtcg tg 12
<210> 58
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 58
tcgtgtcgcc ac 12
<210> 59
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 59
gacgcgcctg cg 12
<210> 60
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 60
tcagcggtcc cg 12
<210> 61
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 61
cgcctctttg cg 12
<210> 62
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 62
cgcgcaaatg gc 12
<210> 63
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 63
gttaggcggc gg 12
<210> 64
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 64
ccgctcagtg tc 12
<210> 65
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 65
gagggcaacg gt 12
<210> 66
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 66
gcgtatcgtc gc 12
<210> 67
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 67
cggatcgaac gg 12
<210> 68
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 68
gcgtgcgacg ac 12
<210> 69
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 69
ggcaagaggg ct 12
<210> 70
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 70
gagtggcgtc gt 12
<210> 71
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 71
ccgcagctag ag 12
<210> 72
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 72
tcccatcagc gg 12
<210> 73
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 73
cgtgggttgg ac 12
<210> 74
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 74
tgggtaccgc gg 12
<210> 75
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 75
gggcttctgc ct 12
<210> 76
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 76
cgcctactcg gt 12
<210> 77
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 77
ggcctgcgag tc 12
<210> 78
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 78
tggatggcgt cg 12
<210> 79
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 79
gggactgatg gg 12
<210> 80
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 80
cccaggatgg gt 12
<210> 81
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 81
gccgatcgga cg 12
<210> 82
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 82
gctggaggct ag 12
<210> 83
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 83
gtgtccgctc tc 12
<210> 84
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 84
gattccctcc gc 12
<210> 85
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 85
gtggacagtc cg 12
<210> 86
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 86
cgttgttggc cg 12
<210> 87
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 87
gtgtccgtga cg 12
<210> 88
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 88
tcgggcgccg ag 12
<210> 89
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 89
gtccgttcgg gc 12
<210> 90
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 90
gccctctcgt cg 12
<210> 91
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 91
ctcgtcgtct cg 12
<210> 92
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 92
ccgtgtgttg gg 12
<210> 93
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 93
cggttctctc cc 12
<210> 94
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 94
gcggtggatt gg 12
<210> 95
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 95
cggtggtcca tc 12
<210> 96
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 96
ccctcagttc cg 12
<210> 97
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 97
cccagcttag gc 12
<210> 98
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 98
ccaagtgcgc ac 12
<210> 99
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 99
tcctctctgc cg 12
<210> 100
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 100
ccgtgtgttg gg 12
<210> 101
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 101
ggcagtgaac gg 12
<210> 102
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 102
gcgaccatct cg 12
<210> 103
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 103
cgaagtggcg tc 12
<210> 104
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 104
gctcgtccct gt 12
<210> 105
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 105
ggcagggtag gc 12
<210> 106
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 106
gggagccaag tc 12
<210> 107
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 107
gtcgggaagg ct 12
<210> 108
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 108
cgtccttctc cg 12
<210> 109
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 109
gcgtcgattg gg 12
<210> 110
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 110
gtccacgaac gg 12
<210> 111
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 111
gggaggagtc gc 12
<210> 112
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 112
gccctctcgt cg 12
<210> 113
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 113
cgtgggttgg ac 12
<210> 114
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 114
gacgatcctc gg 12
<210> 115
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 115
gtcggcgttg ac 12
<210> 116
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 116
cggtggtcca tc 12
<210> 117
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 117
gcgtaacgcg tg 12
<210> 118
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 118
tcctcgacag cc 12
<210> 119
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 119
gcctcaatgc cc 12
<210> 120
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 120
gggcttgccc at 12
<210> 121
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 121
gacgcagccc tg 12
<210> 122
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 122
cggttctctc cc 12
<210> 123
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 123
tcggcctgtg gg 12
<210> 124
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 124
ccctaccctc ct 12
<210> 125
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 125
ccgcagctag ag 12
<210> 126
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 126
gggcacaagt gg 12
<210> 127
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 127
gccgtgagtc tg 12
<210> 128
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 128
tcggtggtgt gc 12
<210> 129
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 129
gatggagcgg tg 12
<210> 130
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 130
gtccgcctga ac 12
<210> 131
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 131
gtcatcgccc tg 12
<210> 132
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 132
cgccctaatc gg 12
<210> 133
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 133
gattccctcc gc 12
<210> 134
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 134
gcgacggcta ac 12
<210> 135
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 135
cacggcctcg tt 12
<210> 136
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 136
cgggagaaac cc 12
<210> 137
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 137
ccctcagttc cg 12
<210> 138
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 138
cgttgttggc cg 12
<210> 139
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 139
gggtttccag gg 12
<210> 140
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 140
tcgaaccgtc gc 12
<210> 141
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 141
gagggtctgt cg 12
<210> 142
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 142
ggaggatggc gg 12
<210> 143
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 143
ccggagttac gg 12
<210> 144
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 144
gtgtccgctc tc 12
<210> 145
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 145
tcagcggtcc cg 12
<210> 146
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 146
gggagtttgg cc 12
<210> 147
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 147
tgccgtcggg cc 12
<210> 148
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 148
cggtcgttcg ct 12
<210> 149
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 149
gcctcgtgtg tg 12
<210> 150
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 150
tggtgggaag cg 12
<210> 151
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 151
gtggtccgtg tc 12
<210> 152
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 152
ctcggaatgg cg 12
<210> 153
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 153
gcggacacgg tt 12
<210> 154
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 154
cggtcatgga cc 12
<210> 155
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 155
cgtgctctcc gt 12
<210> 156
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 156
cgaagaccct cg 12
<210> 157
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 157
tcggtcgctc cg 12
<210> 158
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 158
gcctctagga gg 12
<210> 159
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 159
gacgttcgag gg 12
<210> 160
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 160
ccgttcgcgt tg 12
<210> 161
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 161
cgacgtgtac gc 12
<210> 162
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 162
ctgtccagtg gg 12
<210> 163
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 163
gccttggtcg tg 12
<210> 164
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 164
cccgatttcg cg 12
<210> 165
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 165
gggactgatg gg 12
<210> 166
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 166
cggagtctcg ct 12
<210> 167
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 167
cacaccactc cg 12
<210> 168
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 168
cctggacagg gc 12
<210> 169
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 169
ccgtggttac cg 12
<210> 170
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 170
tcagcggtcc cg 12
<210> 171
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 171
gcctcggtac gc 12
<210> 172
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 172
cccaaggtgg cg 12
<210> 173
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 173
ggacagagct gg 12
<210> 174
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 174
gccgatctac cc 12
<210> 175
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 175
gtgtccaagg cc 12
<210> 176
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 176
ggaggatggc gg 12
<210> 177
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 177
ggcgggtgaa gg 12
<210> 178
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 178
gccagtcctg gg 12
<210> 179
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 179
cgttgttggc cg 12
<210> 180
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 180
gtgtccgtga cg 12
<210> 181
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 181
cggacgttgg ct 12
<210> 182
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 182
cggctaaccc gg 12
<210> 183
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 183
ctcccgatcc ag 12
<210> 184
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 184
cgtcagccct ag 12
<210> 185
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 185
ccgcatgtgt gc 12
<210> 186
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 186
cttacgaccg cc 12
<210> 187
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 187
ccctctgaac gc 12
<210> 188
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 188
gccaaggcac gg 12
<210> 189
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 189
gcctctagga gg 12
<210> 190
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 190
tttcggaggc gg 12
<210> 191
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 191
ggcaagaggg ct 12
<210> 192
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 192
cgcggtgcag gt 12
<210> 193
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 193
tcctcggagt gc 12
<210> 194
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 194
tgcgatgagg cg 12
<210> 195
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 195
ggcctgcgag tc 12
<210> 196
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 196
tggatggcgt cg 12
<210> 197
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 197
gcccgcgcgg tt 12
<210> 198
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 198
cggcttgatc gg 12
<210> 199
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 199
ctcggaatgg cg 12
<210> 200
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 200
cccaggatgg gt 12
<210> 201
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 201
tgccgtcggg cc 12
<210> 202
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 202
gggaggagtc gc 12
<210> 203
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 203
gccgatcgga cg 12
<210> 204
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 204
cgcctctttg cg 12
<210> 205
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 205
cgtcacacag gg 12
<210> 206
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 206
gcgtttacgc cc 12
<210> 207
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 207
gggtagcact gg 12
<210> 208
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 208
gttaggcggc gg 12
<210> 209
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 209
ctgtaggccg gc 12
<210> 210
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 210
ccgctcagtg tc 12
<210> 211
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 211
ggctgatacg cc 12
<210> 212
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 212
ccgcgggact at 12
<210> 213
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 213
gggagccaag tc 12
<210> 214
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 214
cccaccggtc gt 12
<210> 215
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 215
gctcccgccc tg 12
<210> 216
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 216
ccctaggatc cg 12
<210> 217
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 217
tctcgcggag ct 12
<210> 218
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 218
gcgtcgattg gg 12
<210> 219
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 219
ctcggattcc gg 12
<210> 220
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 220
ccggttgttg cc 12
<210> 221
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 221
cgtcccagat cg 12
<210> 222
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 222
gtccgttcgg gc 12
<210> 223
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 223
tcgcgcacct tc 12
<210> 224
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 224
ggcatgcgtc ac 12
<210> 225
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 225
gccctctcgt cg 12
<210> 226
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 226
ggcgatggtc cg 12
<210> 227
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 227
cgcctactcg gt 12
<210> 228
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 228
cccagaggtt gg 12
<210> 229
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 229
cgctgcttcc gc 12
<210> 230
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 230
ggctcgccca gt 12
<210> 231
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 231
gggatcagcc gc 12
<210> 232
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 232
ggcagtgaac gg 12
<210> 233
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 233
cccgttcacc gt 12
<210> 234
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 234
gcgaagcatg cc 12
<210> 235
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 235
ttgggctgct cg 12
<210> 236
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 236
ctcccagtcg cc 12
<210> 237
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 237
ctgtgatcgg cg 12
<210> 238
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 238
cgcgcaaatg gc 12
<210> 239
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 239
gcgctcgacc cg 12
<210> 240
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 240
cagcgacgct cc 12
<210> 241
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 241
caagcgtgcg ac 12
<210> 242
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 242
gattccctcc gc 12
<210> 243
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 243
gtggacagtc cg 12
<210> 244
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 244
ccgcggaatt gg 12
<210> 245
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 245
ggcccatcgt cg 12
<210> 246
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 246
cagccacatc gc 12
<210> 247
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 247
ttgcgggctg cc 12
<210> 248
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 248
ggccaacaca gc 12
<210> 249
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 249
gacacaagcc gc 12
<210> 250
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 250
ggcgcccatc cg 12
<210> 251
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 251
tggatgtccg cc 12
<210> 252
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 252
gacctccagc tc 12
<210> 253
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 253
tcgggcgccg ag 12
<210> 254
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 254
gcgtgcgacg ac 12
<210> 255
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 255
gtggtccgtg tc 12
<210> 256
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 256
ggcagggtag gc 12
<210> 257
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 257
gcgatagggc tg 12
<210> 258
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 258
gggcacaagt gg 12
<210> 259
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 259
gatgcggcgt gg 12
<210> 260
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 260
gcctgtaagc gg 12
<210> 261
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 261
ccgtggagaa gg 12
<210> 262
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 262
tggtacgagc cc 12
<210> 263
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 263
tcgtgtcgcc ac 12
<210> 264
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 264
gacgcgcctg cg 12
<210> 265
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 265
cgcgcgtttg gt 12
<210> 266
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 266
gtacctaccg gg 12
<210> 267
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 267
ccgactgcag ac 12
<210> 268
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 268
gtcatgccac gg 12
<210> 269
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 269
gcctacatgg gc 12
<210> 270
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 270
gctggaggct ag 12
<210> 271
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 271
gtgtccgctc tc 12
<210> 272
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 272
gcgcgagttg gt 12
<210> 273
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 273
gggaatgacg cc 12
<210> 274
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 274
gggtacgtag cg 12
<210> 275
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 275
gcgacggcta ac 12
<210> 276
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 276
gggacgccgc gt 12
<210> 277
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 277
ccggatagca gg 12
<210> 278
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 278
gcgtatcgtc gc 12
<210> 279
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 279
ccgaagggca gt 12
<210> 280
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 280
tgtcctgcgc ct 12
<210> 281
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 281
ctccaccatg cg 12
<210> 282
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 282
tcggtggtgt gc 12
<210> 283
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 283
cggatcgaac gg 12
<210> 284
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 284
gcggactctc cc 12
<210> 285
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 285
cgccgtacat cc 12
<210> 286
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 286
cggcaggtct ac 12
<210> 287
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 287
tgcccgcagt ac 12
<210> 288
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 288
ggattcctgc gg 12
<210> 289
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 289
ccagttggcg tg 12
<210> 290
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 290
ccaggcaggg tc 12
<210> 291
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 291
ggaaggacag gc 12
<210> 292
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 292
gcattcaccg cg 12
<210> 293
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 293
tccagcgcac ag 12
<210> 294
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 294
cgcaccgaga ac 12
<210> 295
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 295
ggagtaaggg cg 12
<210> 296
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 296
gagtggcgtc gt 12
<210> 297
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 297
ctcgtcgtct cg 12
<210> 298
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 298
ccgcagctag ag 12
<210> 299
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 299
gtactgggca gg 12
<210> 300
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 300
tgggaccacc ac 12
<210> 301
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 301
cagttgcctg gg 12
<210> 302
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 302
gatcgtgagg cc 12
<210> 303
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 303
gacgttcgag gg 12
<210> 304
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 304
ccgtgcacgt ag 12
<210> 305
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 305
gccacgtacc ct 12
<210> 306
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 306
cgggcatctc gc 12
<210> 307
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 307
tcagacggag cg 12
<210> 308
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 308
tggtgggaag cg 12
<210> 309
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 309
taggtcgggc gc 12
<210> 310
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 310
ggagggatcc cg 12
<210> 311
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 311
gtcgtgcggt ac 12
<210> 312
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 312
tactctgccg gg 12
<210> 313
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 313
ttgcaccgac gg 12
<210> 314
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 314
gcctcgtgtg tg 12
<210> 315
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 315
gtccaggcgg gt 12
<210> 316
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 316
ccggattcag gc 12
<210> 317
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 317
cccacctccc at 12
<210> 318
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 318
cccgtgttcg cc 12
<210> 319
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 319
gtcctagcag cg 12
<210> 320
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 320
ggctctatcg gg 12
<210> 321
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 321
cgacgccgtc cg 12
<210> 322
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 322
tgtcttgggc gg 12
<210> 323
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 323
gcgctacctg gt 12
<210> 324
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 324
gtctcacgtg cc 12
<210> 325
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 325
gagggtctgt cg 12
<210> 326
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 326
ggcgaatacc cg 12
<210> 327
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 327
gggccttggc gg 12
<210> 328
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 328
catgtgggag gg 12
<210> 329
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 329
tcgctctgac gc 12
<210> 330
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 330
ggctgcctac ac 12
<210> 331
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 331
ctggccgtac ac 12
<210> 332
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 332
ggagggcatc tg 12
<210> 333
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 333
gaggacatcg gc 12
<210> 334
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 334
cggagaaggg tg 12
<210> 335
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 335
tggctccgcg gt 12
<210> 336
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 336
cgtatcgtgg cc 12
<210> 337
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 337
cgtcatctcg gg 12
<210> 338
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 338
gtcggcgttg ac 12
<210> 339
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 339
gccacttcgc gc 12
<210> 340
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 340
cgtgggttgg ac 12
<210> 341
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 341
tccatggacc gg 12
<210> 342
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 342
gggagtttgg cc 12
<210> 343
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 343
tcgtagccgg gt 12
<210> 344
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 344
ggtcactgtc cc 12
<210> 345
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 345
gatggagcgg tg 12
<210> 346
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 346
gaggatgccg cg 12
<210> 347
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 347
cggaacgatg gc 12
<210> 348
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 348
gtaccggtgg cg 12
<210> 349
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 349
ccatcagcac cg 12
<210> 350
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 350
cgccctaatc gg 12
<210> 351
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 351
tggcacgttc gc 12
<210> 352
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 352
ccgatcttcg gc 12
<210> 353
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 353
gggccatttg cg 12
<210> 354
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 354
ctgggtcaag cc 12
<210> 355
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 355
gcagtgtcag gg 12
<210> 356
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 356
cgcccgaaaa cg 12
<210> 357
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 357
gtgaccctga gg 12
<210> 358
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 358
gctggcgaag ag 12
<210> 359
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 359
ccaagtgcgc ac 12
<210> 360
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 360
cgcctagtgg ac 12
<210> 361
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 361
ccctaacagg cg 12
<210> 362
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 362
ccgtgtgttg gg 12
<210> 363
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 363
tcccatcagc gg 12
<210> 364
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 364
cgcggtgact ag 12
<210> 365
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 365
tcggcctgtg gg 12
<210> 366
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 366
cccgaagaag gc 12
<210> 367
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 367
ccctcatccg gc 12
<210> 368
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 368
gccactcgtt gg 12
<210> 369
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 369
ggcaggaacg tg 12
<210> 370
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 370
ggagtctcca gg 12
<210> 371
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 371
gacgatcctc gg 12
<210> 372
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 372
gcggtggatt gg 12
<210> 373
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 373
cggtggtcca tc 12
<210> 374
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 374
gagactgggc cc 12
<210> 375
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 375
gagattccgc gc 12
<210> 376
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 376
ggatcgcgag ct 12
<210> 377
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 377
gccgtgagtc tg 12
<210> 378
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 378
ggaccggata gc 12
<210> 379
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 379
ccgtgtggat cc 12
<210> 380
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 380
cacggcctcg tt 12
<210> 381
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 381
gcgcgcattg tc 12
<210> 382
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 382
cggcaaggac ag 12
<210> 383
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 383
gaagctccgt gc 12
<210> 384
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 384
cggtcatgga cc 12
<210> 385
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 385
cggtcgtcga ct 12
<210> 386
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 386
cccagcttag gc 12
<210> 387
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 387
gcgtaacgcg tg 12
<210> 388
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 388
tgcgggtctc cg 12
<210> 389
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 389
ggcgctagtg tc 12
<210> 390
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 390
gcccaacgtt cc 12
<210> 391
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 391
cctgtcatgg cg 12
<210> 392
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 392
gacggtacga cg 12
<210> 393
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 393
caggtaggtg gg 12
<210> 394
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 394
cgccaatggc gg 12
<210> 395
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 395
gtaccgtccg ac 12
<210> 396
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 396
cgcagggagg tt 12
<210> 397
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 397
ccggtttctc gc 12
<210> 398
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 398
tcgaaccgtc gc 12
<210> 399
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 399
ccgttcgcgt tg 12
<210> 400
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 400
gtccgcctga ac 12
<210> 401
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 401
gggtttccag gg 12
<210> 402
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 402
gcgatgctcc tc 12
<210> 403
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 403
cgtgctctcc gt 12
<210> 404
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 404
gcacagtacc gg 12
<210> 405
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 405
ggtgcgtagg ag 12
<210> 406
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 406
tggcgaccaa cg 12
<210> 407
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 407
ggacctggag ag 12
<210> 408
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 408
cgtttgggtg cc 12
<210> 409
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 409
cctgttaccg gc 12
<210> 410
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 410
gagccctatg gg 12
<210> 411
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 411
cacccgcgtg gt 12
<210> 412
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 412
gaaaacgcgg cc 12
<210> 413
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 413
tgctgctgtc cc 12
<210> 414
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 414
tggtggccag gt 12
<210> 415
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 415
tcgcttcgtg cg 12
<210> 416
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 416
cacgagccat cg 12
<210> 417
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 417
cccagcttag gc 12
<210> 418
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 418
tcgaaccgtc gc 12
<210> 419
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 419
cgcttggcac cg 12
<210> 420
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 420
ggaggatggc gg 12
<210> 421
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 421
ccggagttac gg 12
<210> 422
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 422
ggataccggc tc 12
<210> 423
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 423
gtgtccgctc tc 12
<210> 424
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 424
ccctaccctc ct 12
<210> 425
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 425
ccgcatgtgt gc 12
<210> 426
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 426
cgaagtggcg tc 12
<210> 427
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 427
ccgcagctag ag 12
<210> 428
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 428
gggcacaagt gg 12
<210> 429
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 429
ggcagggtag gc 12
<210> 430
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 430
cgtcatctcg gg 12
<210> 431
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 431
tggtacgagc cc 12
<210> 432
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 432
cgggtcaaac gg 12
<210> 433
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 433
tggatgtccg cc 12
<210> 434
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 434
cagacccgac tc 12
<210> 435
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 435
tggtgggaag cg 12
<210> 436
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 436
gggatagtcg gc 12
<210> 437
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 437
gggatcagcc gc 12
<210> 438
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 438
ccgcagtgaa cg 12
<210> 439
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 439
caggtaggtg gg 12
<210> 440
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 440
ctgggtcaag cc 12
<210> 441
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 441
tcagcttccc gc 12
<210> 442
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 442
cggcttagac gg 12
<210> 443
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 443
cggttgtggc gc 12
<210> 444
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 444
cgcctactcg gt 12
<210> 445
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 445
gcgtcgattg gg 12
<210> 446
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 446
tgtcctgcgc ct 12
<210> 447
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 447
tgtcttgggc gg 12
<210> 448
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 448
cccaaggtgg cg 12
<210> 449
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 449
cgactggtag gc 12
<210> 450
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 450
gcctcaatgc cc 12
<210> 451
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 451
ccaagtgcgc ac 12
<210> 452
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 452
gagggtctgt cg 12
<210> 453
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 453
ccgtgtgttg gg 12
<210> 454
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 454
gcccgtaacg cc 12
<210> 455
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 455
ggcagtgaac gg 12
<210> 456
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 456
ggcgctagtg tc 12
<210> 457
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 457
tcagcggtcc cg 12
<210> 458
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 458
gggactgatg gg 12
<210> 459
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 459
ggcctgccga gc 12
<210> 460
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 460
gggagtttgg cc 12
<210> 461
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 461
tgccgtcggg cc 12
<210> 462
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 462
cgcagggagg tt 12
<210> 463
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 463
gggagccaag tc 12
<210> 464
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 464
tcggtggtgt gc 12
<210> 465
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 465
ccgtcaagac cg 12
<210> 466
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 466
cctgtcatgg cg 12
<210> 467
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 467
tgcacaggac gg 12
<210> 468
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 468
cgtccttctc cg 12
<210> 469
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 469
cccacgtcat cc 12
<210> 470
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 470
ccgcgggact at 12
<210> 471
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 471
gcccactccc ag 12
<210> 472
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 472
tcccatcagc gg 12
<210> 473
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 473
tggctccgcg gt 12
<210> 474
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 474
gtaccgtccg ac 12
<210> 475
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 475
ggcatgcgtc ac 12
<210> 476
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 476
ggaggagatg gc 12
<210> 477
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 477
gagcggtagg tc 12
<210> 478
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 478
gccagtcctg gg 12
<210> 479
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 479
tttcggaggc gg 12
<210> 480
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 480
ctcggaatgg cg 12
<210> 481
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 481
ggcagtcgag ag 12
<210> 482
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 482
cgccctaatc gg 12
<210> 483
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 483
cgccacccgc at 12
<210> 484
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 484
ctgggccgag at 12
<210> 485
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 485
tcctctctgc cg 12
<210> 486
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 486
cggttctctc cc 12
<210> 487
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 487
gagattccgc gc 12
<210> 488
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 488
tcggcctgtg gg 12
<210> 489
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 489
gcgaccatct cg 12
<210> 490
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 490
cgcactgtca gc 12
<210> 491
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 491
gcgatgctcc tc 12
<210> 492
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 492
ccgactgcag ac 12
<210> 493
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 493
gctcgtccct gt 12
<210> 494
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 494
gctggcgaag ag 12
<210> 495
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 495
gccgtgagtc tg 12
<210> 496
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 496
gggccttggc gg 12
<210> 497
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 497
gcctcgtgtg tg 12
<210> 498
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 498
tctcgagggc ac 12
<210> 499
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 499
gtcgggaagg ct 12
<210> 500
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 500
gatggagcgg tg 12
<210> 501
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 501
tccatggacc gg 12
<210> 502
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 502
gtccgcctga ac 12
<210> 503
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 503
gcgccactaa gg 12
<210> 504
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 504
gtcgtgcggt ac 12
<210> 505
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 505
gcgctacctg gt 12
<210> 506
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 506
gtggtccgtg tc 12
<210> 507
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 507
gctggcacat gc 12
<210> 508
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 508
cgcggtgcag gt 12
<210> 509
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 509
gcgcgagttg gt 12
<210> 510
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 510
cacgagccat cg 12
<210> 511
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 511
cccggtagag gt 12
<210> 512
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 512
ccctaggatc cg 12
<210> 513
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 513
gtccacgaac gg 12
<210> 514
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 514
ggcaggaacg tg 12
<210> 515
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 515
tcgtagccgg gt 12
<210> 516
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 516
gctcgagaac cc 12
<210> 517
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 517
gggcttgccc at 12
<210> 518
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 518
gacgcagccc tg 12
<210> 519
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 519
tcgcgcacct tc 12
<210> 520
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 520
gcgctcatag cg 12
<210> 521
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 521
ccctctgaac gc 12
<210> 522
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 522
gagactgggc cc 12
<210> 523
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 523
ggagggatcc cg 12
<210> 524
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 524
cggaacgatg gc 12
<210> 525
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 525
gggccatttg cg 12
<210> 526
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 526
gcacagtacc gg 12
<210> 527
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 527
ggcgttgcga ct 12
<210> 528
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 528
cggtcgttcg ct 12
<210> 529
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 529
tcgggcgccg ag 12
<210> 530
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 530
tactctgccg gg 12
<210> 531
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 531
gcccagtctg ct 12
<210> 532
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 532
tggcacgttc gc 12
<210> 533
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 533
gtggtggccg cc 12
<210> 534
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 534
ctgccagcta gc 12
<210> 535
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 535
ggtacgcaag gg 12
<210> 536
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 536
ccgtgtggat cc 12
<210> 537
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 537
gcgcgtcatg ac 12
<210> 538
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 538
cgccgtacat cc 12
<210> 539
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 539
ggaccggata gc 12
<210> 540
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 540
ccggagtgtc ag 12
<210> 541
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 541
ccgtggttac cg 12
<210> 542
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 542
tccggcccta cg 12
<210> 543
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 543
tggtggccag gt 12
<210> 544
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 544
gtcatcgccc tg 12
<210> 545
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 545
ggattcctgc gg 12
<210> 546
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 546
cccgtgttcg cc 12
<210> 547
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 547
gacggtacga cg 12
<210> 548
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 548
ggcccatcgt cg 12
<210> 549
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 549
gcggacacgg tt 12
<210> 550
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 550
cggagtctcg ct 12
<210> 551
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 551
gatgcggcgt gg 12
<210> 552
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 552
ctcgggcgcg ct 12
<210> 553
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 553
cacaccactc cg 12
<210> 554
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 554
gtcccacccg cc 12
<210> 555
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 555
gtccaggcgg gt 12
<210> 556
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 556
cgggtgaacc gc 12
<210> 557
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 557
ccgtgcacgt ag 12
<210> 558
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 558
cccgttcacc gt 12
<210> 559
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 559
ccaagctctc gg 12
<210> 560
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 560
cgtaacctcg cc 12
<210> 561
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 561
tcggcggaag tc 12
<210> 562
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 562
gacgatcctc gg 12
<210> 563
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 563
ctcggattcc gg 12
<210> 564
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 564
gcctgtaagc gg 12
<210> 565
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 565
ggctgatacg cc 12
<210> 566
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 566
cccagagacg ac 12
<210> 567
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 567
tgctgctgtc cc 12
<210> 568
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 568
cgcctagtgg ac 12
<210> 569
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 569
ccagaagtcg gc 12
<210> 570
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 570
tctgtgacgc cc 12
<210> 571
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 571
gccttggtcg tg 12
<210> 572
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 572
cccgtttgga cc 12
<210> 573
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 573
ggctctatcg gg 12
<210> 574
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 574
cgtcccagat cg 12
<210> 575
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 575
ccatcagcac cg 12
<210> 576
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 576
gcgtaacgcg tg 12
<210> 577
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 577
gagggcaacg gt 12
<210> 578
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 578
ccgttcgcgt tg 12
<210> 579
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 579
tcctcgacag cc 12
<210> 580
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 580
ggtgctgtgc tg 12
<210> 581
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 581
caagcgtgcg ac 12
<210> 582
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 582
gcgatagggc tg 12
<210> 583
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 583
gtgcacggct ac 12
<210> 584
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 584
ccagttggcg tg 12
<210> 585
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 585
ccgtagtcag cg 12
<210> 586
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 586
cacggagtac cc 12
<210> 587
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 587
cggtcatgga cc 12
<210> 588
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 588
ttggcctcac gc 12
<210> 589
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 589
catttgcgcg gg 12
<210> 590
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 590
gcaaagcgag gc 12
<210> 591
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 591
gttaggcggc gg 12
<210> 592
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 592
cgggcatctc gc 12
<210> 593
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 593
cgggagaaac cc 12
<210> 594
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 594
cgacgtggta cc 12
<210> 595
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 595
tcggtcgctc cg 12
<210> 596
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 596
tcagacggag cg 12
<210> 597
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 597
gagccctatg gg 12
<210> 598
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 598
cggtcgtcga ct 12
<210> 599
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 599
gccctttgca cg 12
<210> 600
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 600
cgccggcaat tc 12
<210> 601
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 601
gtccgttcgg gc 12
<210> 602
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 602
cgagccgacg ac 12
<210> 603
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 603
ggcctgcgag tc 12
<210> 604
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 604
cgttgttggc cg 12
<210> 605
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 605
tggcgaccaa cg 12
<210> 606
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 606
gtcatgccac gg 12
<210> 607
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 607
gggtttccag gg 12
<210> 608
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 608
ccgtgagctt gc 12
<210> 609
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 609
ctggccgtac ac 12
<210> 610
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 610
gtcctagcag cg 12
<210> 611
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 611
gccaaggcac gg 12
<210> 612
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 612
ggcgcccatc cg 12
<210> 613
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 613
cgtatcgtgg cc 12
<210> 614
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 614
cgcctctttg cg 12
<210> 615
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 615
cctgttaccg gc 12
<210> 616
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 616
gattccctcc gc 12
<210> 617
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 617
tcgtggactg cg 12
<210> 618
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 618
gccctctcgt cg 12
<210> 619
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 619
cacgtcccag ag 12
<210> 620
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 620
gcctacatgg gc 12
<210> 621
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 621
cacggcctcg tt 12
<210> 622
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 622
gtgtccaagg cc 12
<210> 623
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 623
ctcgtcgtct cg 12
<210> 624
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 624
cgccaatggc gg 12
<210> 625
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 625
ggcgtaatcg cc 12
<210> 626
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 626
gtcggcgttg ac 12
<210> 627
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 627
ccgatcttcg gc 12
<210> 628
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 628
cgacggctcc at 12
<210> 629
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 629
gtctcacgtg cc 12
<210> 630
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 630
ctcacctggg cc 12
<210> 631
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 631
gcggactctc cc 12
<210> 632
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 632
ggcatccgga cg 12
<210> 633
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 633
ggagggcatc tg 12
<210> 634
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 634
ccggatagca gg 12
<210> 635
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 635
gctcccgccc tg 12
<210> 636
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 636
cggcttgatc gg 12
<210> 637
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 637
cgacgccgtc cg 12
<210> 638
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 638
ccgctcagtg tc 12
<210> 639
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 639
ctgtccagtg gg 12
<210> 640
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 640
ccggattcag gc 12
<210> 641
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 641
tgagcacgag cg 12
<210> 642
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 642
tcgtatgcgc gc 12
<210> 643
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 643
gcgtatcgtc gc 12
<210> 644
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 644
ggcgaatacc cg 12
<210> 645
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 645
cgggacctgt ac 12
<210> 646
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 646
cccgatttcg cg 12
<210> 647
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 647
cggacgttgg ct 12
<210> 648
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 648
tcctcggagt gc 12
<210> 649
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 649
gcgacggcta ac 12
<210> 650
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 650
gcggtggatt gg 12
<210> 651
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 651
cgtgggttgg ac 12
<210> 652
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 652
cggcaggtct ac 12
<210> 653
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 653
cgtttgggtg cc 12
<210> 654
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 654
gcgcgcattg tc 12
<210> 655
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 655
gccactcgtt gg 12
<210> 656
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 656
gcagtgtcag gg 12
<210> 657
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 657
cgggaacttg cg 12
<210> 658
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 658
gccgatcgga cg 12
<210> 659
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 659
cggagaaggg tg 12
<210> 660
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 660
ctccaccatg cg 12
<210> 661
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 661
ccctcatccg gc 12
<210> 662
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 662
ggtgactggg ag 12
<210> 663
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 663
gcgtgcgacg ac 12
<210> 664
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 664
cggtggtcca tc 12
<210> 665
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 665
gatcgtgagg cc 12
<210> 666
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 666
gacgttcgag gg 12
<210> 667
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 667
ggagtctcca gg 12
<210> 668
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 668
tggatggcgt cg 12
<210> 669
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 669
gcccgcgcgg tt 12
<210> 670
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 670
gtgtccgtga cg 12
<210> 671
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 671
cgctcaggcg tc 12
<210> 672
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 合成序列
<400> 672
tagtccggac cc 12
Claims (35)
1.一种用于创建用于表示数字数据的寡核苷酸序列的方法,所述方法包括:
从第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字数据的单个寡核苷酸分子的单个寡核苷酸序列。
2.根据权利要求1所述的方法,其中所述电传感器包括纳米孔。
3.根据权利要求1或2所述的方法,其中所述方法进一步包括通过从多个候选序列中选择所述多个寡核苷酸序列来确定所述第一组。
4.根据权利要求3所述的方法,其中从多个候选序列中选择所述多个寡核苷酸序列是基于第一候选序列与第二候选序列之间的距离进行的。
5.根据权利要求4所述的方法,其中确定所述第一组包括计算来自所述第一候选序列的第一模拟电时域信号与来自所述第二候选序列的第二模拟电时域信号之间的距离。
6.根据权利要求4或5所述的方法,其中计算所述距离包括计算将所述第一模拟电时域信号匹配到经历使误差最小化的时域变换的所述第二模拟电时域信号的所述误差。
7.根据权利要求4至6中任一项所述的方法,其中计算所述距离是基于动态时间弯曲或相关性优化弯曲进行的。
8.根据权利要求4至7中任一项所述的方法,其中确定所述第一组包括跨不同的核苷酸组合进行格形搜索(Trellis search)。
9.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括在所述多个寡核苷酸序列中的每两个之间插入间隔子序列。
10.根据权利要求9所述的方法,其中所述间隔子序列的长度足以针对所述第一组中的第二寡核苷酸序列产生来自所述间隔子序列的可预测干扰,而不是前面的第一寡核苷酸序列。
11.根据权利要求9或10所述的方法,其中
在任何一个时间点存在于所述电传感器中的所述一个或多个核苷酸包括在任何一个时间点存在于所述电传感器中的f个核苷酸,并且
所述间隔子序列的长度为ks,其中f≤ks≤2f。
12.根据权利要求9至11中任一项所述的方法,其中所述间隔子序列包括以下中的一项或多项:
·包含集合{A}或{T}之一的均聚物
·包含两种交替的单体核苷酸{A,T}或{A,C}或{A,G}的交替共聚物
·包含两种交替的二聚体核苷酸{AA,TT}或{AA,CC}或{AA,GG}的交替共聚物
·包含三种交替的三聚体核苷酸{AAA,TTT}或{AAA,CCC}或{AAA,GGG}的交替共聚物
·包含四种交替的四聚体核苷酸{AAAA,TTTT}或{AAAA,CCCC}或{AAAA,GGGG}的交替共聚物
·含有一个或多个{AAAG}和/或{AAG}重复序列的序列
·含有一个或多个{TGA}重复序列的序列
·含有集合{Z,P,S,B}的一个或多个AEGIS碱基的序列。
13.根据权利要求9至12中任一项所述的方法,其中所述方法进一步包括从包括多于一个间隔子序列的第二组间隔子序列中选择所述间隔子序列,以编码另外的数字数据。
14.根据权利要求9至13中任一项所述的方法,其中所述方法进一步包括重复所述方法以创建多于一个寡核苷酸分子,所述寡核苷酸分子包括位于寡核苷酸序列之间的间隔子序列,选择所述间隔子序列以在所述多于一个寡核苷酸分子之间创建索引。
15.根据权利要求9至14中任一项所述的方法,其中所述方法包括重复所述方法以创建多于一个寡核苷酸分子,所述寡核苷酸分子包括位于寡核苷酸序列之间的间隔子序列,选择所述间隔子序列以混淆编码在所述多于一个寡核苷酸分子中的数据。
16.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括从所述单个寡核苷酸分子中解码所述数字数据。
17.根据权利要求16所述的方法,其中解码包括:
当所述单个寡核苷酸分子通过电传感器时,捕获指示在任何一个时间点存在于所述传感器中的一个或多个核苷酸的电特性的电时域信号;以及
从捕获的电时域信号中的第一组中识别所述多个寡核苷酸序列。
18.根据权利要求17所述的方法,其中从所述第一组中识别所述多个寡核苷酸序列包括将所述捕获的电时域信号与和所述第一组中的所述多个寡核苷酸序列相关的模拟电时域信号进行匹配。
19.根据权利要求16至18中任一项所述的方法,其中解码进一步包括:
识别所述捕获的电时域信号中的间隔子序列;
在所识别的间隔子序列被识别的位置分割所述捕获的电时域信号;
为每个分割识别所述第一组中的所述多个寡核苷酸序列之一。
20.根据权利要求16至19中任一项所述的方法,其中解码是基于每个分割与所述第一组中的所述多个寡核苷酸序列之间的动态时间弯曲或相关性优化弯曲进行的。
21.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:
合成所述分子;以及
将所述分子添加到产品中以进行所述产品的验证。
22.根据权利要求22所述的方法,其中所述产品的验证包括:
解码来自所述分子的所述数字数据;以及
执行与所述数字数据有关的加密操作,并且基于验证数据验证所述产品。
23.一种软件,其当由计算机执行时,使所述计算机执行根据前述权利要求中任一项所述的方法。
24.一种用于创建用于表示数字数据的寡核苷酸序列的计算机系统,所述计算机系统包括:
数据存储器,所述数据存储器用于存储第一组多个寡核苷酸序列;以及
处理器,所述处理器被配置成:
从所述第一组多个寡核苷酸序列中为所述数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;并且
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字数据的单个寡核苷酸分子的单个寡核苷酸序列。
25.一种寡核苷酸分子,其表示数字数据,其中所述分子包括组合成所述分子的多个寡核苷酸序列,其中所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性。
26.根据权利要求25所述的寡核苷酸分子,其中所述组合成所述分子的多个寡核苷酸序列包含在以下核苷酸序列组之一中提供的序列中的两个或更多个序列:
a)SEQ ID NO:1至16;
b)SEQ ID NO:17至32;
c)SEQ ID NO:33至96;
d)SEQ ID NO:97至160;
e)SEQ ID NO:161至416;或
f)SEQ ID NO:417至676。
27.一种用于验证产品的身份的试剂盒,所述试剂盒包括根据权利要求25或26所述的一种或多种寡核苷酸分子。
28.一种用于制造可识别产品的方法,所述方法包括:
制造所述产品;
从第一组多个寡核苷酸序列中为数字识别数据的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
将用于所述数据的多个部分中的每个部分的所述一个寡核苷酸序列组合成表示用于编码所述数字识别数据的单个寡核苷酸分子的单个寡核苷酸序列;
合成所述寡核苷酸分子;以及
将合成的寡核苷酸序列添加到所述产品中,以允许解码所述数字识别数据,从而验证所述产品的身份。
29.根据权利要求28所述的方法,其进一步包括:
计算数字识别数据的第一散列值,所述第一散列值与所述产品相关;以及
将解码的数字识别数据的第二散列值与所述第一散列值进行比较,以验证所述产品的身份。
30.一种验证产品的身份的方法,所述方法包括:
提供已添加了寡核苷酸分子的产品,
获得指示所述寡核苷酸分子的序列的电信号;
从第一组多个寡核苷酸序列中为所述电信号的多个部分中的每个部分选择一个寡核苷酸序列,所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;以及
解码由所述多个寡核苷酸序列编码的数字数据,以基于解码的数字数据验证所述产品的身份。
31.根据权利要求30所述的方法,其中所述方法进一步包括确定所述解码的数字数据的散列值,以及
将所述散列值与所述产品的预定值进行比较,以验证所述产品的身份。
32.一种可识别产品,其包括:
一种或多种产品成分;以及
合成的寡核苷酸分子,所述合成的寡核苷酸分子被添加到所述一种或多种产品成分中,其中
所述合成的寡核苷酸分子由单个寡核苷酸序列表示,
所述单个寡核苷酸序列是用于编码数字数据的寡核苷酸序列的组合,所述寡核苷酸序列包括从第一组多个寡核苷酸序列中为所述数字数据的多个部分中的每个部分选择的一个寡核苷酸序列,
所述多个寡核苷酸序列被配置成由一个寡核苷酸序列产生电时域信号,所述电时域信号能够与来自另一个寡核苷酸序列的电时域信号区分开,所述电时域信号指示在任何一个时间点存在于电传感器中的一个或多个核苷酸的电特性;并且
所述数字数据允许通过解码来自所述合成的寡核苷酸分子的所述数字数据来验证所述产品的身份。
33.根据权利要求32所述的产品,其中所述数字数据与第一散列值相关,并且所述第一散列值允许将解码所述数字数据的结果的第二散列值与所述第一散列值进行比较,以验证所述产品的身份。
34.根据权利要求33所述的产品,其进一步包括包装,所述包装含有所述产品,其中所述第一散列值被结合到所述包装上。
35.根据权利要求1至22中任一项所述的方法、根据权利要求23所述的软件、根据权利要求24所述的计算机系统、根据权利要求26所述的寡核苷酸分子、根据权利要求27所述的试剂盒、根据权利要求28至31中任一项所述的方法或根据权利要求32、33或34所述的可识别产品,其中所述第一组多个寡核苷酸序列由以下组成:
a)SEQ ID NO:1至16;
b)SEQ ID NO:17至32;
c)SEQ ID NO:33至96;
d)SEQ ID NO:97至160;
e)SEQ ID NO:161至416;或
f)SEQ ID NO:417至672。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2020903611A AU2020903611A0 (en) | 2020-10-06 | Oligonucleotides representing digital data | |
AU2020903611 | 2020-10-06 | ||
PCT/AU2021/051162 WO2022073063A1 (en) | 2020-10-06 | 2021-10-06 | Oligonucleotides representing digital data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117136241A true CN117136241A (zh) | 2023-11-28 |
Family
ID=81127083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180072884.XA Pending CN117136241A (zh) | 2020-10-06 | 2021-10-06 | 表示数字数据的寡核苷酸 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230419331A1 (zh) |
EP (1) | EP4226379A1 (zh) |
JP (1) | JP2023548653A (zh) |
CN (1) | CN117136241A (zh) |
AU (2) | AU2021356733B2 (zh) |
CA (1) | CA3198061A1 (zh) |
WO (1) | WO2022073063A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10302614B2 (en) * | 2014-05-06 | 2019-05-28 | Safetraces, Inc. | DNA based bar code for improved food traceability |
ES2934982T3 (es) * | 2015-03-30 | 2023-02-28 | Becton Dickinson Co | Métodos para la codificación con códigos de barras combinatorios |
AU2017266299A1 (en) * | 2016-05-17 | 2018-12-20 | Dname-It Nv | Methods for identification of samples |
US10586239B2 (en) * | 2016-08-05 | 2020-03-10 | Intertrust Technologies Corporation | Provenance tracking using genetic material |
US20190241982A1 (en) * | 2018-02-02 | 2019-08-08 | Apdn (B.V.I.) Inc. | Systems and methods for tracking the origin of cannabis products and cannabis derivative products |
EP3834159A4 (en) * | 2018-08-10 | 2022-08-17 | Nucleotrace Pty. Ltd. | PRODUCT IDENTIFICATION SYSTEMS AND PROCEDURES |
-
2021
- 2021-10-06 CN CN202180072884.XA patent/CN117136241A/zh active Pending
- 2021-10-06 CA CA3198061A patent/CA3198061A1/en active Pending
- 2021-10-06 AU AU2021356733A patent/AU2021356733B2/en active Active
- 2021-10-06 WO PCT/AU2021/051162 patent/WO2022073063A1/en active Application Filing
- 2021-10-06 EP EP21876756.4A patent/EP4226379A1/en active Pending
- 2021-10-06 JP JP2023521382A patent/JP2023548653A/ja active Pending
- 2021-10-06 US US18/030,464 patent/US20230419331A1/en active Pending
-
2022
- 2022-09-07 AU AU2022228117A patent/AU2022228117A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2021356733A1 (en) | 2022-05-19 |
WO2022073063A1 (en) | 2022-04-14 |
CA3198061A1 (en) | 2022-04-14 |
US20230419331A1 (en) | 2023-12-28 |
AU2022228117A1 (en) | 2022-09-29 |
EP4226379A1 (en) | 2023-08-16 |
JP2023548653A (ja) | 2023-11-20 |
AU2021356733B2 (en) | 2022-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Buschmann et al. | Levenshtein error-correcting barcodes for multiplexed DNA sequencing | |
JP7343584B2 (ja) | 製品の同一性を識別するためのシステム及び方法 | |
Bystrykh | Generalized DNA barcode design based on Hamming codes | |
US8407554B2 (en) | Method and apparatus for quantification of DNA sequencing quality and construction of a characterizable model system using Reed-Solomon codes | |
Chen et al. | Phylogenetic relatedness explains highly interconnected and nested symbiotic networks of woody plants and arbuscular mycorrhizal fungi in a Chinese subtropical forest | |
WO2015000284A1 (zh) | 一种测序序列映射方法及系统 | |
JP2017528796A (ja) | コード生成方法、コード生成装置およびコンピュータ可読記憶媒体 | |
US20210074380A1 (en) | Reverse concatenation of error-correcting codes in dna data storage | |
US11495324B2 (en) | Flexible decoding in DNA data storage based on redundancy codes | |
CN112582030B (zh) | 一种基于dna存储介质的文本存储方法 | |
WO2012094492A2 (en) | Combinatorial dna taggants and methods of preparation and use thereof | |
US11535842B2 (en) | Nucleic acid security and authentication | |
Pánek et al. | A new method for identification of protein (sub) families in a set of proteins based on hydropathy distribution in proteins | |
EP3160049A1 (en) | Data processing method and device for recovering valid code words from a corrupted code word sequence | |
CN104317823A (zh) | 一种利用数据指纹进行数据检测的方法 | |
Chen et al. | Sequencing barcode construction and identification methods based on block error-correction codes | |
WO2019204702A1 (en) | Error-correcting dna barcodes | |
CN117136241A (zh) | 表示数字数据的寡核苷酸 | |
Youssef et al. | Multi-layer data encryption using residue number system in dna sequence | |
May | Analysis of coding theory based models for initiating protein translation in prokaryotic organisms | |
Alatabbi et al. | Querying highly similar structured sequences via binary encoding and word level operations | |
Schober et al. | Design of short barcodes for next generation sequencing of DNA and RNA | |
JP2012008783A (ja) | 集合認識システム、集合認識方法、符号化装置、復号化装置およびプログラム | |
Ponnala et al. | On finding convolutional code generators for translation initiation of Escherichia Coli K-12 | |
Palazzo | Identification of odd-sized DNA and mRNA sequences as codewords of BCH codes over ℤ 4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |