CN110945595B - 基于dna的数据存储和检索 - Google Patents
基于dna的数据存储和检索 Download PDFInfo
- Publication number
- CN110945595B CN110945595B CN201880048731.XA CN201880048731A CN110945595B CN 110945595 B CN110945595 B CN 110945595B CN 201880048731 A CN201880048731 A CN 201880048731A CN 110945595 B CN110945595 B CN 110945595B
- Authority
- CN
- China
- Prior art keywords
- artificial sequence
- integer
- dna
- subsequences
- nucleotide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 283
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 188
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 172
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 164
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 164
- 239000002773 nucleotide Substances 0.000 claims abstract description 133
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 238000012937 correction Methods 0.000 claims description 110
- 108091034117 Oligonucleotide Proteins 0.000 claims description 67
- 239000011159 matrix material Substances 0.000 claims description 67
- 238000003786 synthesis reaction Methods 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 23
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 10
- 238000002493 microarray Methods 0.000 claims description 7
- 238000011049 filling Methods 0.000 claims description 6
- 238000001035 drying Methods 0.000 claims description 4
- 238000004108 freeze drying Methods 0.000 claims description 4
- 108020004414 DNA Proteins 0.000 abstract description 465
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 27
- 238000007481 next generation sequencing Methods 0.000 description 12
- 230000006820 DNA synthesis Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 230000037430 deletion Effects 0.000 description 8
- 238000012217 deletion Methods 0.000 description 8
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000012988 high-throughput synthesis Methods 0.000 description 5
- 229920001519 homopolymer Polymers 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000002515 oligonucleotide synthesis Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000001668 nucleic acid synthesis Methods 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000000018 DNA microarray Methods 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007403 mPCR Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1076—Parity data used in redundant arrays of independent storages, e.g. in RAID systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/03—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
- H03M13/05—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
- H03M13/13—Linear codes
- H03M13/15—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes
- H03M13/151—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes using error location or error correction polynomials
- H03M13/1515—Reed-Solomon codes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3068—Precoding preceding compression, e.g. Burrows-Wheeler transformation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S977/00—Nanotechnology
- Y10S977/70—Nanostructure
- Y10S977/701—Integrated with dissimilar structures on a common substrate
- Y10S977/702—Integrated with dissimilar structures on a common substrate having biological material component
- Y10S977/704—Nucleic acids, e.g. DNA or RNA
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开总体上涉及基于DNA的数据存储。一种用于在核酸上存储输入数据的示例性方法包括:将所述输入数据转换成一组核苷酸序列,并合成包含所述一组核苷酸序列的一组核酸。所述转换包括:数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列。
Description
相关申请
本申请要求2017年7月25日提交的中国专利申请号201710611123.2的权益,该中国专利申请的全部内容出于所有目的以引用方式并入本文。
以ASCII文本文件提交序列表
以下以ASCII文本文件提交的内容的全文以引用方式并入本文:序列表的计算机可读形式(CRF)(文件名:759892000340SEQLIST.TXT,记录日期:2018年7月3日,大小:102KB)。
技术领域
本公开总体上涉及数据存储和检索,并且更具体地涉及用于实现可靠且有效的基于DNA的数据存储和检索的技术。
背景技术
利用DNA作为用于数据存储和检索的工具的概念可以追溯到1988年,当时JoeDavis及其合作者创建了名为“Mocrovenus”的合成DNA以用于编码图标并将其整合到大肠杆菌细胞中。与传统存储介质(诸如磁带和硬盘)相比,基于DNA的存储具有的优点为更高的密度(例如,约1mm3用于存储1EB数据)、更长时期的存储(例如,在-18℃下超过1百万年),以及较低的维护成本。DNA存储是一项前沿的研究领域,其基于用于生成DNA存储介质的寡核苷酸合成(尤其是高通量合成平台,如CustomArray)和用于信息检索的进测序(尤其是下一代测序(NGS),如Illumina HiSeq 2500和MiSeq)。
然而目前,基于DNA的数据存储具有许多限制。例如,DNA合成的生产成本相当高,同时由于测序,数据检索的速度可能较低。因此,基于DNA的存储已被认为更适合于大规模的档案存储,该大规模的档案存储涉及对存储介质的较少数量的读取和写入。此外,在处理的各个阶段(例如,编码、写入、存储、解码、读取、检索)中可能引入许多错误,由此损害数据流的输入和输出。示例性错误包括突变、缺失、插入、合成和测序过程中诱导的DNA片段丢失,以及长期贮存后的变性。此外,当使用DNA存储大量数据时,要在不检索所述数据整体的情况下实现对所述数据的一部分的随机访问可能是具有挑战性的。
发明内容
本发明涉及用于实现可靠且有效的基于DNA的数据存储和检索的技术。具体地,本发明提供了将输入数据存储在诸如脱氧核糖核酸(“DNA”)等核酸上的准确、有效且可靠的方法。具体地,本发明利用新颖的5位转码框架将一个或多个数据文件转换成核酸序列(例如DNA序列)。本发明还提供了一种集成方法,所述集成方法括压缩算法、纠错算法和转码框架,以用于进行有效和可靠的数据存储和检索。此外,本发明允许随机数据访问,这在将大规模数据存储在一起但在给定时间仅需要浏览部分信息时为特别有利的。可以根据本文公开的方法存储的数据包括可以以数字方式(即,以二进制数据)表示的任何类型的数据,包括例如文本文件、高清视频、图像和/或音频。
在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:a)将所述输入数据转换成一组核苷酸序列,其中所述转换包括i)数据处理步骤,所述步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列;以及b)合成包含所述一组核苷酸序列的一组核酸。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。
在一些实施方案中,数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。
在一些实施方案中,所述核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串。
在一些实施方案中,所述核苷酸编码步骤还包括使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。
在一些实施方案中,所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。
在一些实施方案中,所述多个初始整数子序列中的每一个初始整数子序列的长度是基于选定的合成平台的寡核苷酸长度,期望的错误容限、输入数据的大小、选定的纠错码,或它们组合而确定的。
在一些实施方案中,所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。
在一些实施方案中,添加到所述多个初始整数子序列中的每一个的所述索引信息包括整数序列,其中所述整数序列的长度基于所述输入数据的大小。
在一些实施方案中,所述核苷酸编码步骤包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。
在一些实施方案中,向多个具有索引的整数子序列添加冗余数据包括:创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小;并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列中的每一个的整数数目;用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及基于所述经填充的矩阵来获得多个具有冗余的子序列。
在一些实施方案中,所述空矩阵的所述列数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
在一些实施方案中,所述空矩阵的所述行数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
在一些实施方案中,所述纠错编码是Reed-Solomon(“RS”)编码。
在一些实施方案中,通过应用纠错编码生成的所述数据是通过应用所述RS编码的字符串校正和/或所述RS编码的块校正而生成的。
在一些实施方案中,所述5位转码框架是根据表2的5位转码框架。
在一些实施方案中,R和Y是基于以下选择的:1)与紧接在R或Y前面的核苷酸不同;和/或2)所述核苷酸序列的估计GC含量。
在一些实施方案中,所述输入数据对应于压缩文件。在一些实施方案中,所述输入数据对应于两个或更多个文件。
在一些实施方案中,输入数据对应于文本文件。
在一些实施方案中,数据处理步骤还包括压缩输入数据以获得压缩文件,并将压缩文件转换成二进制字符串。
在一些实施方案中,压缩文件是使用Lempel-Zic-Markov链算法(“LZMA”)压缩的。
在一些实施方案中,数据处理步骤还包括:将两个或更多个文件分组成TAR文件。
在一些实施方案中,使用Lempel-Zic-Markov链算法(“LZMA”)来进一步压缩TAR文件。
在一些实施方案中,核苷酸编码步骤还包括将一对引物序列附加到所述一组核苷酸序列的每个核苷酸序列的5'末端和3'末端。
在一些实施方案中,一对引物附接至所述一组合成的核酸。
在一些实施方案中,提供了一种用于在核酸上存储两组或更多组输入数据的方法,所述方法包括:a)根据本文所述的任何方法将两组或更多组输入数据分别转换成两组或更多组对应的核苷酸序列;b)将一对引物序列分别附加到所述两组或更多组核苷酸序列的每一组的5'末端和3'末端,其中用于所述两组或更多组对应的核苷酸序列的所述引物对彼此不同;以及c)分别合成包含所述两组或更多组对应的核苷酸序列的两组或更多组核酸。
在一些实施方案中,每一对引物的序列与所述两组或更多组对应的核苷酸序列或其互补序列中的任一者不同。
在一些实施方案中,所述一组合成的核酸的GC含量的范围为30%至70%。在一些实施方案中,所述一组合成的核酸的GC含量小于约70%。
在一些实施方案中,贮存所述一组合成的核酸。在一些实施方案中,将所述一组合成的核酸通过干燥贮存。在一些实施方案中,将所述一组合成的核酸通过冻干贮存。
在一些实施方案中,将所述一组合成的核酸固定到载体上。在一些实施方案中,所述载体是微阵列。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:a)获得一组核酸的一组核苷酸序列,b)将所述一组核苷酸序列转换成所述输出数据,其中所述转换包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据,从而获得所述输出数据。
在一些实施方案中,将所述一组核酸在检索输出数据之前扩增。
在一些实施方案中,对所述一组核酸进行测序以生成多个序列读段。
在一些实施方案中,将所述多个序列读段进行配对、合并和过滤以获得所述一组核苷酸序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。
在一些实施方案中,所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。
在一些实施方案中,所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。
在一些实施方案中,应用纠错编码的步骤包括:i)将RS编码字符串校正应用于所述多个整数子序列以获得多个共有整数子序列;以及ii)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列。
在一些实施方案中,所述核苷酸解码步骤还包括从所述多个具有索引的整数子序列去除所述索引以获得多个核心整数子序列。
在一些实施方案中,所述核苷酸解码步骤还包括将所述核心整数子序列合并成整数字符串。
在一些实施方案中,所述核苷酸解码步骤还包括将所述整数字符串转换成二进制字符串。
在一些实施方案中,将所述输出数据存储在压缩文件中。在一些实施方案中,所述数据处理步骤还包括将所述压缩文件解压缩。在一些实施方案中,通过所述LZMA算法进行所述解压缩。
在一些实施方案中,所述输出数据对应于多个文件。在一些实施方案中,通过所述TAR算法从所述输出数据提取所述多个文件。
在一些实施方案中,所述5位转码框架是根据表2的5位转码框架。
在一些实施方案中,所述一组核酸在所述3'末端和所述5'末端处包含引物序列,并且所述方法包括在所述核苷酸解码步骤之前去除所述引物序列。
在一些实施方案中,提供了一种用于检索存储在一组感兴趣核酸上的输出数据的方法,其中所述一组感兴趣核酸是混合物中存在的多组核苷酸序列中的一组,每一组编码不同的一组输出数据并且在所述3'末端和所述5'末端处具有不同的一组引物对,所述方法包括:a)使用对应于感兴趣核酸的所述引物对来扩增所述一组核酸;b)获得所述经扩增核酸的一组核苷酸序列,c)根据如权利要求41-53中任一项所述的方法将所述一组核苷酸序列转换成所述输出数据;从而获得所述输出数据。
在一些实施方案中,提供了一种用于检索存储在对应的两组或更多组感兴趣核酸上的两组或更多组输出数据的方法,其中所述两组或更多组感兴趣核酸在混合物中存在的多个核苷酸序列中,每一组编码不同的一组输出数据并且在所述3'末端和所述5'末端处具有不同的一组引物对,所述方法包括:a)使用对应于所述两组或更多组感兴趣核酸的引物对扩增(例如,分别扩增或一起扩增)所述两组或更多组感兴趣核酸;b)获得所述经扩增核酸的两组或更多组核苷酸序列,c)根据本文所述的任何方法将所述两组或更多组核苷酸序列分别转换成所述两组或更多组输出数据;从而获得所述两组或更多组输出数据。
在一些实施方案中,提供了一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括这样的指令,所述指令当被电子设备的一个或多个处理器执行时使所述电子设备执行本文所述的任何方法。
还提供了用于提供基于核酸的数据存储或从核酸进行数据检索的系统,所述系统包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行本文所述的任何方法的指令。
还提供了用于提供基于核酸的数据存储或从核酸进行数据检索的电子设备,所述电子设备包括用于执行本文所述的任何方法的装置。
附图说明
图1示出了根据一些实施方案的用于提供基于DNA的数据存储和检索的示例性方法。
图2示出了根据一些实施方案的处理用于基于DNA的数据存储的压缩文件的示例性场景。
图3A示出了根据一些实施方案的用于向待存储的数字内容添加索引和冗余数据的示例性步骤。
图3B示出了根据一些实施方案的用于向待存储的数字内容添加索引和冗余数据的示例性步骤。
图3C示出了根据一些实施方案的用于向待存储的数字内容添加索引和冗余数据的示例性步骤。
图3D示出了根据一些实施方案的用于向待存储的数字内容添加索引和冗余数据的示例性步骤。
图4示出了根据一些实施方案的处理用于基于DNA的数据存储的压缩文件的示例性场景。
图5示出了根据一些实施方案的示例性5位转码框架。
图6示出了根据一些实施方案的待存储和检索的示例性文本部分。
图7示出了根据一些实施方案的基于DNA的数据存储和检索技术的示例性实现。
图8描绘了根据一些实施方案的示例性电子设备。
图9A示出了根据一些实施方案的用于提供基于DNA的数据存储的示例性方法。
图9B示出了根据一些实施方案的用于提供基于DNA的数据检索的示例性方法。
具体实施方式
本发明提供了将输入数据存储在诸如脱氧核糖核酸(“DNA”)等核酸上的准确、有效且可靠的方法。具体地,本发明利用新颖的5位转码框架将一个或多个数据文件转换成核酸序列(例如DNA序列)。这种新颖的转码框架允许有效的核酸序列设计,所述有效的核酸序列设计达到正确的GC含量、避免某些均聚物(例如,长度为4个或更多个核苷酸的均聚物),并且降低核酸合成和扩增中的错误率。本发明还提供了一种集成方法,所述集成方法括压缩算法、纠错算法和转码框架,以用于进行有效和可靠的数据存储和检索。本文提供的方法可以用于存储任何大小的数据,包括大尺寸的文件。此外,本发明允许随机数据访问,这在将大规模数据存储在一起但在给定时间仅需要浏览部分信息时为特别有利的。可以根据本文公开的方法存储的数据包括可以以数字方式(即,以二进制数据)表示的任何类型的数据,包括例如文本文件、高清视频、图像和/或音频。
因此,在一个方面中,本申请提供了用于在一组核酸上存储输入数据的方法以及用于将输入数据转换成一组核苷酸序列的方法。在另一方面中,提供了用于检索存储在核酸上的输出数据的方法以及将一组核苷酸序列转换成输出数据的方法。还提供了用于存储一个或多个程序以执行本文所述方法的任何一个或多个步骤的系统和非暂时性计算机可读存储介质。
应当理解,本文描述的本发明的实施方案包括“由……组成”和/或“基本上由……组成”实施方案。
本文中对“约”某一值或参数的提及包括(并描述)针对该值或参数本身的变化。例如,提及“约X”的描述包括对“X”的描述。
如本文所用,对“不是”某一值或参数的提及通常意指并描述该值或参数“以外”。例如,该方法不用于治疗X型癌症意味着该方法用于治疗X型以外的类型的癌症。
如本文和所附权利要求书中所使用的,除非上下文另外明确指出,否则单数形式“一”、“或”和“该”包括复数指示物。
如本文和所附权利要求书中所使用的,除非上下文另外明确指出,否则“一组”是指一个或多个指示物。一组核酸可以是编码来自相同文件或压缩在一起的同一组文件的数据的核酸。在一些实施方案中,同一文件中的核酸可具有附接至5'末端和3'末端的同一组引物。
数据编码和数据存储的方法
在一个方面中,本发明提供了用于将输入数据转换成一组核苷酸序列的方法(诸如计算机实现的方法)。所述方法通常包括数据处理步骤,所述数据处理步骤将输入数据转换成二进制字符串;以及核苷酸编码步骤,所述核苷酸编码步骤使用5位转码框架将二进制字符串转换成一组核苷酸序列。所述方法可用于将输入数据存储在一组核酸上,这涉及首先将输入数据转换成一组核苷酸序列,然后合成包含该一组核苷酸序列的一组核酸。
输入数据可以表示任意数量的任何类型的文件,诸如文本文件、图像文件、音频/视频文件(诸如高清文件)等。文件可以是非压缩的或压缩的。当文件未压缩时,可以先将其压缩,然后再转换成二进制字符串。例如,可以使用Lempel-Ziv-Markov链算法将文件压缩成LZMA文件(例如,A.lzma)。在一些实施方案中,首先将两个或更多个文件(诸如三个、四个、五个、六个和更多个文件)分组在一起,例如分组成TAR文件(例如,A.tar),然后将所述TAR文件进一步压缩成LZMA文件(例如,A.tar.lzma)。因此,所述方法可以允许在单个核酸组合物中存储多个文件(例如,1-5个、5-10个、10-15个、15-25个、25-35个、35-50个)。
在一些实施方案中,为了允许随机访问单个文件内的位置,可以将单个文件划分成多组数据,并且如下所述对所述多组数据各自进行压缩和处理。例如,与具有10个章节的书相对应的数字文件可以划分成10个文件,每个文件与单一章节相对应。然后分别压缩和处理这10个文件,以实现对任何章节的随机访问。
数据处理步骤将输入数据转换成二进制字符串。可以例如通过遵循本文所述的5位转码框架将二进制字符串直接转换成一组核苷酸序列。或者,可以将二进制字符串进一步转换成整数字符串,然后例如通过遵循5位转码框架将所述整数字符串转换成一组核苷酸序列。在一些实施方案中,对整数字符串进一步进行纠错编码和/或其他处理以生成多个具有冗余的整数子序列,然后例如通过遵循5位转码框架将所述多个具有冗余的整数子序列转换成一组核苷酸序列。
因此,例如,在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的方法(诸如计算机实现的方法),其中所述转换包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:a)将所述输入数据转换成一组核苷酸序列,其中所述转换包括i)数据处理步骤,所述步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列;以及b)合成包含所述一组核苷酸序列的一组核酸。
在一些实施方案中,数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串,每个5位二进制字符串可以进一步转换成范围为0到31的整数,以获得整数字符串。可以例如使用5位转码框架将所述整数字符串直接转换成一组核苷酸序列。或者,对整数字符串进行如下所述的进一步操纵。
具体地,可以将整数字符串被划分成具有预定长度的多个初始整数子序列。基于多个因素来计算初始整数子序列的预定长度,所述多个因素包括合成平台的寡核苷酸长度、选定的纠错码、期望的错误容限、寡核苷酸的合成错误率,和/或总的编码数据大小,如下文详细论述的。例如,可以使用长度固定(例如,22个整数)的滑动窗口将整数字符串切成不重叠的整数子序列的列表。然后可以将索引添加到所述多个初始整数子序列中的每一个,以生成多个具有索引的整数子序列。索引可包括范围也为0到31的一些整数。索引的长度是灵活的,并且取决于DNA合成的生产量和数据大小。
在一些实施方案中,添加冗余数据以生成多个具有冗余的整数子序列。例如,将Reed-Solomon(RS)纠错编码应用于多个整数子序列,以通过RS编码的字符串校正和块校正来生成具有冗余的整数子序列的新颖列表。冗余是指过量合成寡核苷酸以提供抗失落的鲁棒性(robustness to dropout)。字符串校正中的冗余有助于对寡核苷酸的转换和颠换进行纠错。块校正中的冗余能够实现对信息的插入、缺失和完全丢失的校正。
在一个示例性实施方案中,向多个具有索引的整数子序列添加冗余数据包括:创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小;并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列中的每一个的整数数目;用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及基于所述经填充的矩阵来获得多个具有冗余的子序列。可以基于纠错码的类型、预定的错误容限值、多个具有索引的整数子序列的大小或它们的组合来确定空矩阵的列数和/或行数。在一些实施方案中,所述纠错编码是Reed-Solomon(“RS”)编码。在一些实施方案中,通过应用纠错编码生成的所述数据是通过应用所述RS编码的字符串校正和所述RS编码的块校正而生成的。
在一些实施方案中,核苷酸编码步骤还包括将一对引物序列附加到所述一组核苷酸序列的5'末端和3'末端。引物可用于例如通过PCR扩增方法来扩增所述一组核酸。在一些实施方案中,在合成之前将引物序列添加到所述一组核苷酸序列中。或者,可以例如通过连接将引物附接至合成的核酸。
所述方法可用于在核酸上存储两组或更多组输入数据。具体地,所述方法包括:a)将两组或更多组输入数据分别转换成两组或更多组对应的核苷酸序列;b)将一对引物序列分别附加到所述两组或更多组核苷酸序列的每一组的5'末端和3'末端,其中用于所述两组或更多组对应的核苷酸序列的每一组的所述引物彼此不同;以及c)分别合成包含所述两组或更多组对应的核苷酸序列的两组或更多组核酸。一对引物中的每一个可以具有与两个或更多个对应的核苷酸序列或其互补序列中的任一个不同的序列。
合成的核酸的GC含量的范围可以为约30%至约70%。例如,合成的核酸的GC含量的范围可以为约40%至约60%、约30%至约40%、约40%至约50%、约50%至约60%、或约60%至约70%中的任一种。在一些实施方案中,合成的核酸不具有长度超过3个核苷酸的均聚物(例如,不具有4个、5个、6个、7个、8个、9个或10个核苷酸的均聚物)。在一些实施方案中,合成的核酸是寡核苷酸,例如,长度为50个、150个、200个、300个或400个核苷酸中的任一者的寡核苷酸。在一些实施方案中,一组核酸包含约1个、2个、3个、5个、10个、15个或更多个寡核苷酸中的任一者。
在一些实施方案中,所述方法还包括贮存所述一组合成的核酸。在一些实施方案中,通过诸如冻干等干燥来贮存所述一组核酸。所述一组核酸可以作为干燥的组合物,包括冻干的组合物来贮存。在一些实施方案中,所述一组核酸固定在载体上,所述载体包括固体载体,诸如微阵列。在一些实施方案中,将核酸贮存在微阵列上,所述微阵列具有的密度为每1英寸×3英寸的面积中约5μg(例如,在CustomArray 12K芯片中)。在一些实施方案中,输入数据的大小为至少约50MB。
进行核酸序列解码和数据检索的方法
在另一方面中,本发明提供了用于将一组核苷酸序列转换成输出数据的方法(例如计算机实施方法)。所述方法几乎是编码程序的逆过程,并且通常包括核苷酸解码步骤,所述核苷酸解码步骤例如通过使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及数据处理步骤,所述数据处理步骤将所述二进制字符串转换成输出数据。所述方法可用于检索存储在一组核酸中的输出数据,这涉及获得所述一组核酸的核苷酸序列,然后将所述一组核苷酸序列转换成输出数据。
在一些实施方案中,首先例如通过使用存在于所述一组核酸的5'末端和3'末端的引物来扩增所述一组核酸。并且可以对经扩增的核酸进行测序,例如下一代测序。下一代测序技术通常是本领域中已知的。例如,可以通过使用Illumina测序方法对核酸进行测序。可以通过比对引物序列来获得属于特定文件的序列。在一些实施方案中,所述方法包括NGS文库制备。当一组核酸存在于包含编码不同组数据的不同组核酸的混合物中时,可以通过使用一组感兴趣核酸特有的引物对来特异性扩增所述一组感兴趣核酸,从而允许随机访问与所述一组感兴趣核酸相对应的数据。如果需要在单轮下一代测序处读取和解码若干个压缩文件,则可以通过PCR来扩增所述若干个压缩文件的所有对应组核酸,并且将使用所有对应的对。
在一些实施方案中,所述方法包括双末端下一代测序,以及读段配对和合并,其中来自单个簇的正向和反向读段将被配对并合并成单个读段,并且所有具有不规则长度的新读段将被过滤。并且,根据引物序列,可以将所有读段针对每个压缩文件进行分组。然后可以去除引物,并且可以将核苷酸序列转化成包括范围为0到31的整数的多个整数子序列,或直接转化为二进制字符串,随后将所述二进制字符串转化成输出数据。
在一些实施方案中,该方法还包括对多个整数子序列应用纠错以获得多个具有索引的整数子序列。在一个示例性实施方案中,应用纠错编码的步骤包括:i)将RS编码字符串校正应用于所述多个整数子序列以获得多个共有整数子序列;以及ii)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列。由于一种核酸在合成过程中可能具有许多分子拷贝,并且进行多次测序,因此许多读段可以代表一种核酸。由于在高通量合成和测序过程中均会引入错误,所以这些读段可能具有变异,但与原始设计的核酸完全匹配的正确读段仍在计数方面具有优势。通过在整数字符串的每个位置处进行基于最高频率的校正,可以将共享相同索引的所有整数字符串校正并将合并到字符串校正与块校正之间的共有整数字符串中。
然后可以从多个具有索引的整数子序列中去除索引,以获得多个核心整数子序列。然后可以将整数字符串级联成完整的整数字符串,并随后转换成二进制字符串。然后可以将二进制字符串写入文件,诸如压缩文件中。然后可以例如通过使用LZMA算法对所述压缩文件进行解压缩。如果解压缩的文件包括对应于多个文件的数据,则通过TAR算法对解压缩的文件进行进一步处理(例如,提取)以获得多个文件。
在一些实施方案中,所述方法可用于检索存储在一组感兴趣核酸上的输出数据,其中所述一组感兴趣核酸是混合物中存在的多组核苷酸序列中的一组,每一组编码不同的一组输出数据并且在3'末端和5'末端处具有不同组的引物对。所述方法包括:a)使用对应于所述一组感兴趣核酸的引物对来扩增所述一组核酸;b)获得所述一组扩增的核酸的一组核苷酸序列;c)以及根据权利要求41-53中任一项所述的方法将所述一组核苷酸序列转换成输出数据;从而获得所述输出数据。
在一些实施方案中,提供了一种用于检索存储在对应的两组或更多组感兴趣核酸上的两组或更多组输出数据的方法,其中所述组感兴趣核酸在混合物中存在的多组核苷酸序列中,每一组编码不同的一组输出数据并且在所述3'末端和所述5'末端处具有不同的一组引物对,所述方法包括:a)使用对应于所述两组或更多组感兴趣核酸的引物对扩增(例如,分别扩增或一起扩增)所述两组或更多组感兴趣核酸;b)获得所述两组或更多组扩增的核酸的两组或更多组核苷酸序列,以及c)将所述两组或更多组核苷酸序列分别转换成所述两组或更多组输出数据;从而获得所述两组或更多组输出数据。
5位转码框架
本发明的方法利用新颖的5位转码框架将二进制字符串或整数字符串转换成一组核苷酸序列。“5位转码框架”是指根据下表1进行的转换。通常,来自二进制字符串的每5个连续位可以表示为范围为0到31的整数,然后是3个核苷酸(即,3聚体)。例如,具有四个碱基(例如,A、T、G和C)的核酸,由此2聚体(即,NN)应具有16种(例如,AA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG和CC)。假设简并的碱基R和Y在2聚体后级联,则3聚体(NNR/NNY)应由32种组成,这32种也与范围为0到31的32个整数很好地匹配,并使二进制字符串转换成DNA序列。
在一些实施方案中,R选自A、T、G和C中的任何两个,而Y选自A、T、G和C中的对应另两个。例如,在一些实施方案中,R选自A和G,而Y则选自T和C。在一些实施方案中,R选自A和C,而Y则选自T和G。在一些实施方案中,R选自T和G,而Y则选自A和C。在一些实施方案中,R选自T和C,而Y选自A和G。
对应于R和Y的核苷酸的选择可以取决于它们的前基,例如出于保持期望的GC含量和/或避免均聚物的目的。例如,在一种方案中,其中R选自A和G并且Y选自C和T,R选择为A还是G以及Y选择为C还是T取决于它们的前基(即,3聚体的第2个碱基)。在一些实施方案中,选择R和Y以使得第二碱基和第三碱基不同。在一些实施方案中,选择R和Y以维持期望的GC平衡。只要遵守规则,就可以随机选择R和Y。该转码框架的编码潜力为1.67(即,5位到3nt)。
表1
表2提供了示例性的5位转码框架。在表2所描绘的特定方案中,R将选自A和G,而Y将选自C和T。应当理解的是,也可以使用遵循相同原理的其他转码框架。
表2
核酸的合成与贮存
可以使用任何核酸合成方法来合成包含所需核苷酸序列的核酸。在一些实施方案中,通过化学合成来合成核酸。高通量核酸合成方法在2002年2月17日提交的公开为WO03052383、标题为“COMBINATORIAL SYNTHESIS ON ARRAYS(在阵列上的组合合成)”的国际申请号WO2002US40580和2016年12月公布的Maurer等人的标题为“ELECTROCHEMICALLYGENERATED ACID AND ITS CONTAINMENT TO 100 MICRON REACTION AREAS FOR THEPRODUCTION OF DNA MICROARRAYS(电化学生成的酸及其对100微米反应区的抑制,以用于生产DNA微阵列)”的出版物中描述,这些参考文献的全部内容以引用方式并入本文。
核酸一旦合成,就可以贮存在各种培养基中。在一些实施方案中,将核酸干燥(例如,冻干)并贮存在小瓶中。在一些实施方案中,将核酸固定在载体,例如固体载体,诸如微阵列上。
计算机可读存储介质和系统
本文还提供了一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括这样的指令,所述指令当被电子设备的一个或多个处理器执行时使所述电子设备执行本文所述的任何方法的一个或多个步骤。
在一些实施方案中,提供了一种用于提供基于核酸的数据存储或从核酸进行数据检索的系统,所述系统包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行本文所述的任何一种方法的一个或多个步骤的指令。
在一些实施方案中,提供了一种用于提供基于核酸的数据存储或从核酸进行数据检索的电子设备,所述设备包括用于执行本文所述的任何一种方法的装置。
示例性实施方案
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。
在一些实施方案中,所述多个初始整数子序列中的每一个初始整数子序列的长度为基于选定的合成平台的寡核苷酸长度,期望的错误容限、输入数据的大小、选定的纠错码,或它们组合而确定的。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。
在一些实施方案中,添加到所述多个初始整数子序列中的每一个的所述索引信息包括整数序列,其中所述整数序列的长度基于所述输入数据的大小。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。所述核苷酸编码步骤还包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。所述核苷酸编码步骤还包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。添加冗余数据到多个具有索引的整数子序列中包括:创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小;并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列中的每一个的整数数目;用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及基于所述经填充的矩阵来获得多个具有冗余的子序列。
在一些实施方案中,所述空矩阵的所述列数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
在一些实施方案中,所述空矩阵的所述行数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
在一些实施方案中,所述纠错编码是Reed-Solomon(“RS”)编码。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。数据处理步骤包括将所述二进制字符串划分成一系列不重叠的5位二进制字符串。核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数以获得整数字符串,并使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。所述核苷酸编码步骤还包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。添加冗余数据到多个具有索引的整数子序列中包括:创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小;并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列中的每一个的整数数目;用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及基于所述经填充的矩阵来获得多个具有冗余的子序列。通过应用纠错编码生成的所述数据是通过应用对所述RS编码的字符串校正和/或对所述RS编码的块校正而生成的。
在一些实施方案中,提供了一种用于将输入数据转换为一组核苷酸序列的计算机实现的方法,所述方法包括:i)将所述输入数据转换成二进制字符串;ii)将所述二进制字符串划分成一系列不重叠的5位二进制字符串;iii)将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串,并使用所述5位转码框架转换所述整数字符串;iv)将所述整数字符串划分成具有预定长度的多个初始整数子序列;v)添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列;vi)在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列,从而获得所述一组核酸序列。
在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:i)将所述输入数据转换成二进制字符串;ii)将所述二进制字符串划分成一系列不重叠的5位二进制字符串;iii)将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串,并使用所述5位转码框架转换所述整数字符串;iv)将所述整数字符串划分成具有预定长度的多个初始整数子序列;v)添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列;vi)在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列,从而获得所述一组核酸序列;以及vii)合成包含所述一组核苷酸序列的一组核酸。
在一些实施方案中,提供了一种用于将输入数据转换为一组核苷酸序列的计算机实现的方法,所述方法包括:i)将所述输入数据转换成二进制字符串;ii)将所述二进制字符串划分成一系列不重叠的5位二进制字符串;iii)将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串,并使用所述5位转码框架转换所述整数字符串;iv)将所述整数字符串划分成具有预定长度的多个初始整数子序列;v)添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列;vi)创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小,并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列的每一个中的整数的数目;vii)用所述多个具有索引的整数子序列和通过应用纠错编码(例如,通过应用对RS编码的字符串校正和/或对RS编码的块校正)生成的数据来填充所述空矩阵;以及viii)基于所述经填充的矩阵,获得所述多个具有冗余的子序列,从而获得所述一组核酸序列。
在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:i)将所述输入数据转换成二进制字符串;ii)将所述二进制字符串划分成一系列不重叠的5位二进制字符串;iii)将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串,并使用所述5位转码框架转换所述整数字符串;iv)将所述整数字符串划分成具有预定长度的多个初始整数子序列;v)添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列;vi)创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小,并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列的每一个中的整数的数目;vii)用所述多个具有索引的整数子序列和通过应用纠错编码(例如,通过应用对RS编码的字符串校正和/或对RS编码的块校正)生成的数据来填充所述空矩阵;以及viii)基于所述经填充的矩阵,获得所述多个具有冗余的子序列,从而获得所述一组核酸序列;以及xi)合成包含所述一组核苷酸序列的一组核酸。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:i)获得一组核酸的一组核苷酸序列,ii)将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列;iii)将所述多个整数子序列转换成二进制字符串;以及iv)将二进制字符串转换成所述输出数据,从而获得所述输出数据。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:i)对所述一组核酸进行测序以生成多个序列读段;ii)进行配对、合并和/或过滤以获得所述一组核苷酸序列;iii)将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列;iv)将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列;v)将所述多个具有索引的整数子序列转换成二进制字符串;以及vi)将二进制字符串转换成所述输出数据,从而获得所述输出数据。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:i)对所述一组核酸进行测序以生成多个序列读段;ii)进行配对、合并和/或过滤以获得所述一组核苷酸序列;iii)将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列;iv)对所述多个整数子序列应用RS编码字符串校正,以获得多个共有整数子序列;v)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列;vi)将所述多个具有索引的整数子序列转换成二进制字符串;以及vii)将二进制字符串转换成所述输出数据,从而获得所述输出数据。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:i)对所述一组核酸进行测序以生成多个序列读段;ii)进行配对、合并和/或过滤以获得所述一组核苷酸序列;iii)将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列;iv)对所述多个整数子序列应用RS编码字符串校正,以获得多个共有整数子序列;v)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列;vi)从所述多个具有索引的整数子序列中去除所述索引,以获得多个核心整数子序列;vii)将所述核心整数子序列合并成整数字符串;viii)将所述整数字符串转换成二进制字符串;以及ix)将二进制字符串转换成所述输出数据,从而获得所述输出数据。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。所述5位转码框架是根据表2的5位转码框架。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。所述5位转码框架是根据表2的5位转码框架。R和Y是基于以下选择的:1)与紧接在R或Y前面的核苷酸不同;和/或2)所述核苷酸序列的估计GC含量。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。输入数据对应于压缩文件。压缩文件是使用Lempel-Zic-Markov链算法(“LZMA”)压缩的。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。输入数据对应于两个或更多个文件。数据处理步骤还包括:将所述两个或更多个文件分组成TAR文件。使用Lempel-Zic-Markov链算法(“LZMA”)来进一步压缩TAR文件。
在一些实施方案中,提供了一种用于将输入数据转换成一组核苷酸序列的计算机实现的方法,所述方法包括:i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换成二进制字符串;以及ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。核苷酸编码步骤还包括将一对引物序列附加到所述一组核苷酸序列的每个核苷酸序列的5'末端和3'末端。
在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:a)将所述输入数据转换成一组核苷酸序列,其中所述转换包括i)数据处理步骤,所述步骤包括将所述输入数据转换成二进制字符串;ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列;以及b)合成包含所述一组核苷酸序列的一组核酸。所述方法还包括将一对引物附接到所述一组合成的核酸。
在一些实施方案中,提供了一种用于在核酸上存储两组或更多组输入数据的方法,所述方法包括:a)根据本文所述的任何方法将两组或更多组输入数据分别转换成两组或更多组对应的核苷酸序列;b)将一对引物序列分别附加到所述两组或更多组核苷酸序列的每一组的5'末端和3'末端,其中用于所述两组或更多组对应的核苷酸序列的所述引物对彼此不同;以及c)分别合成包含所述两组或更多组对应的核苷酸序列的两组或多组核酸。
在一些实施方案中,提供了一种用于在核酸上存储两组或更多组输入数据的方法,所述方法包括:a)根据本文所述的任何方法将两组或更多组输入数据分别转换成两组或更多组对应的核苷酸序列;b)将一对引物序列分别附加到所述两组或更多组核苷酸序列的每一组的5'末端和3'末端,其中用于所述两组或更多组对应的核苷酸序列的所述引物对彼此不同;以及c)分别合成包含所述两组或更多组对应的核苷酸序列的两组或多组核酸。每一对引物的序列与所述两组或更多组对应的核苷酸序列或其互补序列中的任一者不同。
在一些实施方案中,所述一组合成的核酸的GC含量的范围为30%至70%。
在一些实施方案中,提供了一种用于在核酸上存储输入数据的方法,所述方法包括:a)将所述输入数据转换成一组核苷酸序列,其中所述转换包括i)数据处理步骤,所述步骤包括将所述输入数据转换成二进制字符串;ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列;以及b)合成包含所述一组核苷酸序列的一组核酸。所述方法还包括贮存所述一组合成的核酸。
在一些实施方案中,将所述一组合成的核酸通过干燥贮存。在一些实施方案中,将所述一组合成的核酸通过冻干贮存。
在一些实施方案中,所述一组合成的核酸固定在载体上,所述载体可以是微阵列。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:a)获得一组核酸的一组核苷酸序列,b)将所述一组核苷酸序列转换成所述输出数据,其中所述转换包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据,从而获得所述输出数据。所述方法还包括在检索所述输出数据之前扩增所述一组核酸。
在一些实施方案中,提供了一种用于检索存储在核酸上的输出数据的方法,所述方法包括:a)获得一组核酸的一组核苷酸序列,b)将所述一组核苷酸序列转换成所述输出数据,其中所述转换包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据,从而获得所述输出数据。所述方法还包括对所述一组核酸进行测序以生成多个序列读段。将所述多个序列读段进行配对、合并和过滤以获得所述一组核苷酸序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。应用纠错编码的步骤包括:i)将RS编码字符串校正应用于所述多个整数子序列以获得多个共有整数子序列;以及ii)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。所述核苷酸解码步骤还包括从所述多个具有索引的整数子序列去除所述索引以获得多个核心整数子序列。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。将所述输出数据存储在压缩文件中。数据处理步骤还包括例如通过LZMA算法将所述压缩文件解压缩。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。输出数据对应于多个文件。所述方法还包括通过所述TAR算法从所述输出数据提取所述多个文件。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。所述核苷酸解码步骤还包括从所述多个具有索引的整数子序列去除所述索引以获得多个核心整数子序列。所述核苷酸解码步骤还包括将所述核心整数子序列合并成整数字符串,并将所述整数字符串转换成二进制字符串。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述5位转码框架是根据表2的5位转码框架。
在一些实施方案中,提供了一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将一组核苷酸序列转换成二进制字符串;以及ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。所述一组核酸在所述3'末端和所述5'末端处包含引物序列,并且所述方法包括在所述核苷酸解码步骤之前去除所述引物序列。
在一些实施方案中,提供了一种用于提供基于DNA的数据存储的计算机实现的方法,所述方法包括:将数字文件转换成二进制字符串;使用5位转码框架转换所述二进制字符串以获得整数字符串;从所述整数字符串获得多个整数子序列;以及将所述多个整数子序列转换成用于DNA合成的DNA寡核苷酸的多个表示。
在一些实施方案中,使用5位转码框架转换二进制字符串以获得整数字符串包括:将所述二进制字符串划分成一系列不重叠的5位二进制字符串;将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串。在一些实施方案中,将所述整数字符串进一步划分成具有预定长度的多个初始整数子序列。在一些实施方案中,获得待转换的多个整数子序列包括:添加索引信息到所述多个初始整数子序列中的每一个子序列中;在添加所述索引信息之后,将冗余数据添加到所述多个初始整数子序列以获得所述多个整数子序列。在一些实施方案中,添加到所述多个初始子序列的每一个子序列的索引信息包括整数字符串,并且其中与所述索引信息相对应的整数字符串的长度为基于数字文件的大小。
在一些实施方案中,所述方法包括将冗余数据添加到所述多个整数子序列,所述添加可以包括例如:获得所述多个初始整数子序列的子组;选择空矩阵,其中所述空矩阵的列数大于所述子组中的子序列数目,并且其中所述空矩阵的行数大于所述子组的每个子序列中的整数的数目;用所述多个初始整数子序列的所述子组和与纠错码对应的数据填充所述空矩阵;以及基于所述经填充的矩阵来获得所述多个整数子序列。在一些实施方案中,基于纠错码的类型、预定的错误容限值、子组的大小或它们的合来选择空矩阵的列数。在一些实施方案中,基于纠错码的类型、预定的错误容限值、子组的大小或它们的合来选择空矩阵的行数。
在一些实施方案中,纠错码是Reed-Solomon(“RS”)代码。在一些实施方案中,将所述多个整数子序列转换成多个DNA寡核苷酸表示包括将所述多个整数子序列的某一整数转换成三个核苷酸的表示,其中:三个核苷酸中的第一个选自A、T、G和C,所述三个核苷酸中的第二个选自A、T、G和C,并且所述三个核苷酸中的第三个选自两个选项中的一个。
在一些实施方案中,数字文件是与一组一个或多个文件或目录相对应的压缩文件。在一些实施方案中,数字文件包括与使用Lempel-Ziv-Markov链算法压缩的一组一个或多个文件或目录相对应的LZMA文件。
在根据上述实施方案中任一项的一些实施方案中,其中所述方法还包括:将代表一对引物的数据添加到多个DNA寡核苷酸表示的每一个寡核苷酸表示;以及在添加表示所述一对引物的所述信息后,导致基于所多个DNA寡核苷酸表示来执行DNA合成。
在一些实施方案中,所述方法还包括:获得第二数字文件;基于所述第二数字文件获得第二多个DNA寡核苷酸表示中;将代表第二对引物的数据添加到所述第二多个DNA寡核苷酸表示的每一个寡核苷酸表示中,其中所述第二对引物与所述第一对引物不同;以及基于所述多个DNA寡核苷酸表示和所述第二多个DNA寡核苷酸表示来执行DNA合成。
在一些实施方案中,提供了一种用于提供基于DNA的数据检索的计算机实现的方法,所述方法包括:获得与数字文件相对应的多个读段;基于所述多个读段,获得多个整数子序列;将所述多个整数子序列转换成整数字符串;使用5位框架将所述整数字符串转换成二进制字符串;以及基于所述二进制字符串获得数字文件。在一些实施方案中,获得与数字文件相对应的多个读段包括:识别与数字文件预相关的引物。在一些实施方案中,获得多个整数子序列包括基于多个读段来执行基于频率的纠错。在一些实施方案中,使用5位转码框架将整数字符串转换成二进制字符串包括:将所述整数字符串的每个整数转换成5位二进制数。
在一些实施方案中,提供了一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括这样的指令,所述指令当被电子设备的一个或多个处理器执行时使所述电子设备:将数字文件转换成二进制字符串;使用5位转码框架转换所述二进制字符串以获得整数字符串;从所述整数字符串获得多个整数子序列;以及将所述多个整数子序列转换成用于DNA合成的DNA寡核苷酸的多个表示。
在一些实施方案中,提供了一种用于提供基于DNA的数据存储的系统,所述系统包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于以下的指令:将数字文件转换成二进制字符串;使用5位转码框架转换所述二进制字符串以获得整数字符串;从所述整数字符串获得多个整数子序列;以及将所述多个整数子序列转换成多个DNA寡核苷酸表示。
在一些实施方案中,提供了一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括这样的指令,所述指令当被电子设备的一个或多个处理器执行时使所述电子设备:获得与数字文件相对应的多个读段;基于所述多个读段,获得多个整数子序列;将所述多个整数子序列转换成整数字符串;使用5位框架将所述整数字符串转换成二进制字符串;以及基于所述二进制字符串获得数字文件。
在一些实施方案中,提供了一种用于提供基于DNA的数据存储的系统,所述系统包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于以下的指令:获得与数字文件相对应的多个读段;基于所述多个读段,获得多个整数子序列;将所述多个子整数序列转换成整数字符串;使用5位框架将所述整数字符串转换成二进制字符串;基于所述二进制字符串获得数字文件。
根据示例性实施方式,所述方法的不同步骤是通过一个或多个计算机软件程序来实现的,该软件程序包括软件指令,所述软件指令被设计为由根据本公开的中继模块的数据处理器执行并且被设计为控制该方法的不同步骤的执行。
因此,本公开的一个方面还涉及一种易于由计算机或数据处理器执行的程序,该程序包括用以命令执行如上所述的方法的步骤的指令。
该程序可以使用任何编程语言,并且可以为源代码、目标代码或介于源代码与目标代码之间的代码的形式,诸如部分编译的形式或任何其他期望的形式。
本公开还涉及一种信息介质,所述信息介质为数据处理器可读的并且包括如上所述的程序的指令。
信息介质可以是能够存储程序的任何实体或设备。例如,介质可以包括存储装置,诸如ROM(其代表“只读存储器”),例如CD-ROM(其代表“压缩式光盘-只读存储器”)或微电子电路ROM或还有磁记录装置,例如软盘或硬盘驱动器。
此外,信息介质可以是诸如电信号或光信号等可传输载体,所述可传输载体可以通过电缆或光缆、通过无线电或其他手段传送。该程序可以特别地下载到互联网型网络中。
或者,信息介质可以是其中并入有程序的集成电路,所述电路适于执行所讨论的方法或在所讨论的方法的执行中使用。
根据一个实施方案,通过软件和/或硬件部件来实现本公开的实施方案。从这个观点来看,术语“模块”在本文档中可以对应于软件部件和硬件部件,或者一组硬件和软件部件。
软件部件对应于一个或多个计算机程序、程序的一个或多个子程序,或更一般地对应于程序或软件程序的能够根据在下文针对所涉及的模块描述的内容来实现一种功能或一组功能的任何元件。一种此类软件部件由物理实体(终端、服务器等)的数据处理器执行,并且能够访问该物理实体的硬件资源(存储器、记录介质、通信总线、输入/输出电子板、用户界面等)。
类似地,硬件部件对应于硬件单元的能够根据下面针对所涉及的模块所描述的内容实现一种功能或一组功能的任何元件。所述硬件部件可以是可编程硬件部件,或者具有用于执行软件的集成电路的部件,例如集成电路、智能卡、存储卡,用于执行固件的电子板等。在一种变型中,硬件部件包括:处理器,所述处理器为诸如中央处理单元等集成电路;和/或微处理器;和/或专用集成电路(ASIC);和/或专用指令集处理器(ASIP);和/或图形处理单元(GPU);和/或物理处理单元(PPU);和/或数字信号处理器(DSP);和/或图像处理器;和/或协处理器;和/或浮点单元;和/或网络处理器;和/或音频处理器;和/或多核处理器。此外,硬件部件还可以包括接收或发送无线电信号的基带处理器(包括例如存储器单元和固件)和/或无线电电子电路(所述无线电电子电路可以包括天线)。在一个实施方案中,硬件部件符合一种或多种标准,诸如ISO/IEC 18092/ECMA-340、ISO/IEC 21481/ECMA-352、GSMA、StoLPaN、ETSI/SCP(智能卡平台)、GlobalPlatform(即安全元件)。在一种变型中,硬件部件是射频识别(RFID)标签。在一个实施方案中,硬件部件包括使得能够进行蓝牙通信、和/或Wi-fi通信和/或Zigbee通信、和/或USB通信和/或火线通信和/或NFC(用于近场)通信的电路。
应当注意的是,本公开中的获得要素/值的步骤可以被看作是在电子设备的存储器单元中读取此类要素/值的步骤,或者经由通信手段从另一电子设备接收此类要素/值的步骤。
示例性方法
图1示出了用于提供基于DNA的数据存储和检索的示例性方法。具体地,示例性步骤102-110涉及编码数字数据以供存储,并且示例性步骤112-122涉及解码所存储的信息以供检索。在下文中,将参照图2至图5来进一步详细描述图1中的示例性步骤。
1.编码
在步骤102(“数据压缩”)处,将一个或多个文件和/或目录打包成单个文件,然后压缩成压缩文件。在一些示例中,将文件和/或目录打包成TAR文件(例如,File.tar),然后将所述TAR文件使用Lempel-Ziv-Markov链算法(即,LZMA算法)压缩成LZMA文件(例如,File.tar.lzma)。在一些示例中,将一个LZMA文件作为单个不可分割的单元用于进行数据检索(例如,在解码期间)。因此,如果打算将多个文件和目录存储在一起但是随机且独立地进行检索,则在该步骤处应将它们分组成多个TAR文件并压缩成多个对应的LZMA文件。
在步骤104处,执行第一轮数据转码。首先,将每个LZMA文件都转换成二进制字符串。作为示例,参考图2,将名为“File.tar.lzma”的文件转换成二进制字符串。然后将二进制字符串转换成整数字符串B(“0;10;25;...;4;8;31”)。在所描绘的示例中,使用5位转码框架实现了从二进制字符串到整数字符串B的转换。如图所示,将二进制字符串划分成一系列不重叠的5位二进制字符串,诸如“00000”和“01010”。然后将每个5位二进制字符串转换成整数以形成整数字符串B。本领域的普通技术人员应认识到,在该5位转码框架下,整数字符串中的每个整数的范围为0(对应于“00000”)到31(对应于“11111”)。
如图2所示,然后使用长度固定的滑动窗口将整数字符串B划分成多个不重叠的整数子序列(例如,[A1,A2,…,An])。在图2所示的示例中,每个整数子序列(例如,A1)由22个整数组成。最后,将索引信息附加到每个子序列的开头,以形成新的多个具有索引的整数子序列(例如,[B1,B2,…,Bn])。在所示示例中,索引信息包括具有3个整数的序列,每个整数的范围为0到31。索引序列的长度可以基于各种因素来选择,所述各种因素为诸如压缩文件的大小和DNA合成的生产量。
返回到图1,在步骤106处,将所述多个具有索引的整数子序列(例如,如图2所示的[B1,B2,…,Bn])进一步转换成多个具有索引和冗余的整数子序列(例如,如图4所示的[C1,C2,…,Cm])。可以使用各种纠错编码算法以将冗余数据添加到待存储的数字数据中,所述各种纠错编码算法为诸如Reed-Solomon(RS)编码、喷泉编码和汉明编码。在优选实施方案中,使用RS编码是因为其鲁棒性和易实现性。
图3A至图3D示出了用于向数字内容(例如,如由多个整数子序列[A1,A2,…,An]表示的)添加索引和冗余以获得[C1,C2,…,Cm]的示例性过程。具体地,图3A至图3D示出了可以如何使用RS编码处理前五个整数的子序列(即,A1、A2、A3、A4和A5)以形成[C1,C2,…,C31]。对于其余的整数子序列(即,A6,...An),以与图3A至图3D所示类似的方式将每五个连续整数子序列作为一个单元进行处理。在此示例中,将五个整数子序列经由29×31矩阵一起处理,使得块校正的奇偶校验为26(即31-5=26),因此31个寡核苷酸中的13(即,26/2=13)个寡核苷酸可为丢失但根据RS编码原理恢复的。
参考图3A,准备29×31的空矩阵。将来自[A1,A2,…,An]的前五个整数字符串A1、A2、A3、A4、A5填充到如图所示的矩阵中以占据如图所示的22×5子矩阵。该区域是核心数据块。
转到图3B,将由范围为0到31的三个整数组成的索引序列作为唯一索引附加到每一列的开头。索引字符串可以在附加之前进行排序。如图所示,将索引以升序排序和分配,诸如0-0-0、0-0-1、0-0-2,...、0-0-31、0-1-31,...在图3B中带索引的整数串分别被标记为B1、B2、B3、B4和B5。
参考图3C,使用RS编码来逐行填充被核心数据块所占据的每一行的空白区域。该步骤称为“块校正”并且有助于处理例如在合成和测序以及长期贮存退化期间丢失的寡核苷酸和插入/缺失(包括插入和缺失)。
转到图3D,使用RS编码来逐列填充整个矩阵的每一列的空白区域。此步骤称为“字符串校正”并且有助于校正例如在合成、测序和长期贮存过程中诱导的点突变。如图3D所示,矩阵现在包括31个整数字符串[C1,C2,…,C31]。换句话说,在块校正和字符串校正之后,将5个整数子序列A1-A5转换成了31个整数子序列C1-C31。此外,A1-A5中的每一者含有22个整数,而C1-C31中的每一者含有29个整数(包括3个额外索引整数和4个对用于纠错的RS编码进行奇偶校验的额外整数)。应当理解的是,如图3A至图3D所示的各种尺寸仅为示例性的。索引字符串的长度(图3A至图3D中为3)、矩阵的大小(例如,图3A至图3D中为29×31),以及待作为一个单元处理的整数字符串的数量(例如,图3A至图3D中为5个)可以基于许多因素来选择,诸如所使用的错误编码的类型、期望的错误容限以及DNA合成平台的特征。
如图4所示,通过根据参考图3A至图3D所描述的技术进行一轮RS编码字符串校正和一轮RS编码块校正,将所述多个具有索引的整数子序列[B1,B2,…,Bn]转换成多个具有冗余的整数子序列[C1,C2,…,Cm],其中m大于n。此外,整数子序列[C1,C2,…,Cm]中的每一个整数的范围为0到31。
在图3A至图3D所示的示例中,基于多个因素来计算诸如A1等初始整数子序列的长度(在所示示例中为22)。具体地,具有索引和冗余的整数字符串的长度(表示为L,在所示示例中为29)是通过合成平台的寡核苷酸长度而计算的。两个字符串的奇偶校验(表示为X,在所示示例中为4)和块校正是通过寡核苷酸的合成错误率、所使用的纠错码和期望的错误容限来确定的。索引长度(表示为Y,在所示示例中为3)由总编码数据大小确定。因此,初始整数字符串的长度(表示为Z)是Z=L-X-Y。
返回到图1,在步骤108处,执行第二轮转码以将具有冗余的整数字符串的列表(例如,[C1,C2,…,Cm])转换成多个DNA寡核苷酸表示(例如,[D1,D2,…,Dm])。每个DNA寡核苷酸表示都含有用于合成的四个碱基A、T、G和C。具体地,可以再次使用“5位转码框架”。在此,整数字符串[C1,C2,…,Cm]中的每个整数的范围为0到31,因此可以唯一地映射到32种3核苷酸(例如,包括NNY和NNR的3聚体,其中N代表A、T、G、C;Y代表C和T;并且R代表A和G)中的一种。例如,如图5所示,整数6对应于5位二进制字符串“00110”,并且可以在特定策略下转换成“AGR”。在一些示例中,5位转码框架可以提供整数与DNA寡核苷酸表示之间的直接转换,而无需任何中间步骤(例如,首先将整数转换成二进制字符串)。
因此,每个整数子序列(例如,C1)中的29个整数中的每一个可以被映射成3个核苷酸。在转换所有[C1,C2,…,Cm]之后,在DNA合成之前将Y替换为C或T,同时将R替换为A或G。这样做是为了确保3聚体的第3碱基与第2碱基不同并避免3个连续相同的碱基(例如,AAA、GGG、TTT、CCC)。此外,通过选择Y和R,每个寡核苷酸的GC百分比应限于从30%到70%。替换步骤既减少了寡核苷酸合成诱发的错误,还对于改善寡核苷酸合成的校正率为重要的。
根据RS编码的原理,在图3A至图3D所示的示例性场景中,可容许的错误可包括每个寡核苷酸两个(即,字符串校正的奇偶校验4的一半)突变,以及来自相同的基质的31个寡核苷酸中13个(即,字符串校正的奇偶校验26的一半)丢失的寡核苷酸(包括完全丢失的寡核苷酸或具有插入/缺失的寡核苷酸)。
参考图1,在步骤110处,附加引物对并执行DNA合成。在一些示例中,将单个压缩文件(例如,图4的File.tar.lzma)转换成多个DNA寡核苷酸表示(例如,图4中的[D1,D2,...,Dn]),并且在对应于压缩文件的每个寡核苷酸的两个末端处添加同一对引物序列的表示。对于一次存储和合成但需要在随后的读取和解码期间可随机访问的多个压缩文件,针对每个压缩文件选择一对独特正交引物并将所述一对独特正交引物与每个压缩文件关联。例如,如果存在要一次存储和合成但需要在随后的读取和解码期间可随机访问的3个压缩文件,则选择分别与该3个压缩文件相关联的3对独特正交引物。对于每个压缩文件,将选定的引物对附加到与压缩文件相对应的多个寡核苷酸的每一个寡核苷酸。然后,可以将与多个压缩文件相对应的所有寡核苷酸合并在一起,并且一次性地一起合成为存储介质。
为了选择引物对,可以使用多种标准。例如,可以选择引物对以避免同质二聚体、异质二聚体、发夹结构,并具有足够的特异性(例如,没有与编码核酸序列的结合位点)。在一些示例中,使用多重PCR引物设计标准。
2.解码
解码过程本质上是编码过程的逆过程。参考图1,在步骤112处,使用一对引物来执行PCR以扩增对应的压缩文件(例如,图4的File.tar.lzma)的寡核苷酸列表(例如,图4中的[D1,D2,…,Dn])。如果需要使用单轮NGS来对多个压缩文件进行读取和解码,则应使用所有对应的引物对通过PCR来扩增所述多个压缩文件的所有对应的寡核苷酸列表。该步骤也称为“NGS文库准备”。
在步骤114处,执行双末端下一代测序以及读段配对与合并(例如,通过Illumina测序系统)。具体地,将来自相同簇的正向和反向读段配对并合并成单个读段,并且将过滤具有不规则长度的所有新读段(例如,具有插入/缺失的读段)。此外,根据引物序列,可以将所有读段针对每个压缩文件进行分组。在随后的步骤中,应将与相同压缩文件相对应的读段(即,共享相同引物的读段)一起进行分析。
在步骤116处,执行反向RS编码。在一些示例中,将利用29×31的零矩阵而不是空矩阵。具体地,将来自单个压缩文件的每个读段在两个末端处去除PCR引物,然后通过对RS编码的字符串校正转换成整数子序列,目的是对突变进行纠错。由于一种寡核苷酸在合成过程中可能具有许多分子拷贝并被测序多次,因此许多读段可能来源于一个寡核苷酸。由于在高通量合成和测序过程中均会诱发错误,因此这些读段可能具有变异,但正确的读段应占主导地位。通过在整数子序列的每个位置处的基于最高频率的校正,可以将共享相同索引的所有整数子序列校正并合并成共有整数子序列。例如,对于一组共享相同索引的读段,所述读段的共有整数子序列的每个位置应由在该位置处最频繁出现的整数确定。
在步骤118处,可以通过对RS编码的块校正来将整数串列表完全解码,以恢复丢失的寡核苷酸和具有插入和缺失的寡核苷酸。由于一种寡核苷酸在合成过程中可能具有许多分子拷贝并被测序多次,因此许多读段可能代表一个寡核苷酸。由于在高通量合成和测序过程中均会诱发错误,因此这些读段可能具有变异,但与原始设计的寡核苷酸完全匹配的正确读段仍在计数方面具有优势。通过在整数字符串的每个位置处进行基于最高频率的校正,可以将共享相同索引的所有整数字符串校正并将合并到字符串校正与块校正之间的共有整数字符串中。由于具有插入和缺失的寡核苷酸具有不规则长度并且在纠错过程中被删除,因此相应的数据完全等同于信息缺乏并且需要被恢复。基于索引信息,在进行基于最高频率的校正之后填充矩阵的各列。
在步骤120处,执行转码。将读段按索引排序,然后从每个整数子序列中删除索引。然后可以将所有整数子序列级联成单个整数字符串,然后经由5位转码框架转换成二进制字符串。
在步骤122处,执行解压。具体地,系统将二进制字符串写入压缩文件,然后依序通过LZMA算法和TAR算法对所述压缩文件进行解压缩。为了随机访问多个压缩文件,应该针对每个压缩文件独立地执行步骤116至122。池可以存储多个压缩文件。每个压缩文件都有其自身的PCR引物。在解码期间,无需对整个池进行测序。而是,使用对应的PCR引物来扩增某些压缩文件的寡核苷酸,然后对经扩增的寡核苷酸进行测序以解码该对应的压缩文件而不是整个池。
如上所述,利用了5位转码框架。具体地,来自二进制字符串的每5个连续位可以表示成范围为0到31的整数,然后是3个核苷酸[nt](即,3聚体)。例如,DNA寡核苷酸由四个碱基(例如,A、T、G和C)组成,由此2聚体(即,NN)应具有16种(例如,AA、AT、AG、AC、TA、TT、TG、TC、GA、GT、GG、GC、CA、CT、CG和CC)。假设简并的碱基R和Y在2聚体后级联,则3聚体(NNR/NNY)应由32种组成,这32种也与范围为0到31的32个整数很好地匹配,并使二进制字符串很好地转换成DNA序列。在寡核苷酸合成过程中,选择A还是G来表示R以及选择C还是T来取代Y取决于它们的前碱基(即,3聚体的第2个碱基),实际上系统可以使第二个碱基和第三个碱基不同,然后同时保持GC平衡。在达到此前提条件的情况下,将在候选碱基之间随机选择准确的碱基。总之,该转码框架的编码潜力为1.67(即,5位到3nt)。
图7示出了基于DNA的数据存储和检索技术的示例性实现。在此,根据本文所述的过程,经由DNA存储如图6所示的含有汉字字符的文本文件(数据大小:1.16kb)。
在编码过程中,将文本文件被压缩成单个压缩文件,然后通过DNA存储框架使用长度为87nt的403个寡核苷酸进行存储。同时,为了模拟随机访问,使用了该压缩文件的6个副本,并选择6对引物。将每对引物被添加到403个寡核苷酸的每一个的两个末端处。6对引物(每对20nt)为正交的,这意味着它们中的任意两个都有足够的汉明距离,并且与403个寡核苷酸中的任何一个共享更少的相似性。本文以ASCII文本文件提交的序列表包括SEQ IDNO.1-SEQ ID NO.403和作为SEQ ID NO.404-SEQ ID NO.415的引物对PP NO.1-PP NO.6。
然后执行寡核苷酸池的合成。使用CustomArray,Inc.发的CustomArray平台,总共合成了2418(即,403乘以6)个寡核苷酸。每个寡核苷酸为127nt,所述127nt包括总共40nt的引物(每个末端20nt)。
然后执行PCR扩增和NGS。对压缩文件的所有副本进行6次PCR反应。在使用不含TruSeq DNA PCR的HT文库制备试剂盒(板格式的96个索引,96个样本)和6个文库索引对6个样本进行文库制备后,由于寡核苷酸的长度为127nt,所以使用MiSeq试剂盒V3(150个循环)一起对合并的样品进行测序。NGS数据的Q30为94%(官方标准>85%),并且簇密度为1,301K/mm2(官方标准为1200-1400K/mm2)。
最后,执行解码。在对压缩文件的每个副本进行独立解码之后,所有副本都可以在没有任何错误的情况下被随机且成功地检索和解压缩。
图8呈现了可用于执行本文公开的方法的一个或几个步骤的设备。标号为800的这种设备包括:标号为801的计算单元(例如,表示“中央处理单元”的CPU),以及标号为802的一个或多个存储器单元(例如,在指令执行期间可以暂时存储中间结果的RAM(“随机存取存储器”)块、计算机程序、或尤其存储计算机程序的ROM块、或EEPROM(“电可擦除可编程只读存储器”)块或闪存块)。计算机程序由可以由计算单元执行的指令构成。此类设备800还可以包括标号为803的专用单元,从而构成输入-输出接口以允许设备800与其他设备通信。具体地,该专用单元803可以与天线连接(以便在没有接触的情况下执行通信),或者与串行端口连接(以进行通信“接触”)。应当注意的是,所述单元可以通过例如总线一起交换数据。
在替代实施方案中,前述方法的一些或所有步骤可以在可编程FPGA(“现场可编程门阵列”)部件或ASIC(“专用集成电路”)部件中的硬件中实现。
在替代实施方案中,前述方法的一些或所有步骤可以在包括如图8中公开的存储器单元和处理单元的电子设备上执行。此类设备800可以与高通量合成平台(例如,CustomArray)和DNA测序仪(例如,MiSeq测序仪)结合使用。
图9A描绘了用于在核酸上存储输入数据的示例性方法900。在框902处,将输入数据转换成一组核苷酸序列。在框904处,将输入数据转换成二进制字符串。在框906处,使用5位转码框架转换二进制字符串以获得所述一组核苷酸序列。在框908处,合成包含所述一组核苷酸序列的一组核酸。
图9B描绘了用于检索存储在核酸上的输出数据的示例性方法950。在框952处,获得一组核酸的一组核苷酸序列。在框954处,将所述一组核苷酸序列转换成输出数据。具体地,在框956处,使用5位转码框架将所述一组核苷酸序列转换成二进制字符串。在框958处,将二进制字符串转换成输出数据。
尽管已经参考附图充分描述了本公开和示例,但是应当注意的是,各种改变和修改对于本领域技术人员将变得显而易见。此类改变和修改应被理解为包括在由权利要求书所限定的本公开和示例的范围内。
出于说明的目的,已经参考特定实施方案描述了前述描述。然而,以上说明性讨论并非旨在穷举或将本发明限制为所公开的精确形式。鉴于以上教导,许多修改和变化是可能的。选择和描述所述实施方案是为了最好地解释技术原理及其实际应用。从而使本领域的其他技术人员能够最佳地利用具有适合于预期的特定用途的各种修改的技术和各种实施方案。
序列表
<110> 金斯瑞公司(Genscript)
<120> 基于DNA的数据存储和检索
<130> 75989-20003.40
<140> 尚未分配
<141> 同时随同提交
<150> CN201710611123.2
<151> 2018-07-25
<160> 415
<170> FastSEQ for Windows Version 4.0
<210> 1
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 1
ttccctaata gtggagtcga gtagagaaac tgactccctg aggacacatc atgcgctcga 60
cgtccatgtt gacgtgtgtc tcctcag 87
<210> 2
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 2
ttcctacgag agtacgtgtc ttattacgca tcatctttcg tcacttacgg tttagtccag 60
cgaactgagc gattccgtag agctcga 87
<210> 3
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 3
ttcctgatct tcgagcgagc ggacttcgag ttaacgttgt atctacgtct gtctggacct 60
gtcagacgac tgttgcagtg tcgtcct 87
<210> 4
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 4
ttcctgatgt agcacagcat cgatgtgtac ggatagttga tctcagagtg acctaatgag 60
tcgggagtcc caccaatcat ccagcga 87
<210> 5
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 5
ttcctaactt cgagtggagc gatgtatgga gctcctagat tctcaacacc aaatgtacta 60
actactctag tcttatgtat aaaccac 87
<210> 6
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 6
ttctacgctc gttgcaatcg attctctgtc atatatcgca ctatcctaga cagtctcgct 60
gctacaccgt gagatgtggt ctgaact 87
<210> 7
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 7
ttcctgcacg agagatctgt gggtcatatg cagtagatgg attgctgtgt ctctccagct 60
tctgctgagc tgtgttagtg tttcgga 87
<210> 8
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 8
ttcctacaga gactaagtac tccaatcgga atcgtccgag ctggacgctt ctgtatcata 60
gtcaagacgc agaatataga ccatgag 87
<210> 9
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 9
ttcctacgca tcgagtagtc agtcagcgag agatctacta ctcataaggg tcctgtctag 60
caggtcgact ctataaatat gccgagt 87
<210> 10
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 10
ttcttgtgcg caactttgtt acgacgcgtg gagccttact catgaataaa tcgaggtgtg 60
tagcactctt acgcggtagc tcgaagc 87
<210> 11
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 11
ttcctgacaa agaatccgaa ctctggagta ctagtggaga acacgctcta ttagcgccta 60
caggctaact tggcgtctgt agcttct 87
<210> 12
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 12
ttcctgaatc gtgcttgtgt cacatcttca atcgtcagcc gagctccttg tagtacacct 60
cctgtcttcc gatgttcgca cagcact 87
<210> 13
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 13
ttcttgtaga ctggtgatac tatccataag gattgccctc ctcagggatt aagaggatta 60
cgtacttgaa tagtcgtcgt gcgcgga 87
<210> 14
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 14
ttcctcgtcc tcctacctgt acgagaggct gagtcttagg attgtgagta cggtagcgct 60
cactgttgac gtagtgtgtc agtccat 87
<210> 15
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 15
ttctgacatc ctacttgaag tatctgatga atcgcgggtg gctgagtgga tggcggcaag 60
gtgacgacta tagctatgtt ctctcgt 87
<210> 16
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 16
ttcctcccag gctgtgcatt cgctatcact atcgcttcac gaagaggtcg cacaacaacg 60
gatccgacgg gtggtgaggg acagctc 87
<210> 17
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 17
ttctgacctt caggcagtta tagacgcgcg tcactcccgt taggcgagta tatcagaacg 60
acacgaccta ctagaagaca tcgatct 87
<210> 18
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 18
ttctgactat ctagatgacc tagaggagag aagatgcgct tgtagacggc tgcgcctaac 60
ctccctgcga ctgcgagtaa gactgtg 87
<210> 19
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 19
ttctgactca tggtatagta gggtcatgcg cagcctccat attcgttgta ggtctgtcgt 60
cagagaaacc gcttcatgag atatcag 87
<210> 20
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 20
ttctgatgag cgggctcttg aggagatttc ctccgataga atgcacgagg atagctaatc 60
cagctcagag actcgacagc tttcccg 87
<210> 21
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 21
ttctgatgcg caatcagcat cctcgcggga tcaagcacgg atgacgctag agacgtctcg 60
agcttctata cactcctgcg attcttc 87
<210> 22
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 22
ttctgatagc acgcagcaag atcgagagtc tcatgtgaga tcacttgagg tcctcctatc 60
acaactccac atttgatcgg acctcgt 87
<210> 23
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 23
ttctgatata tagtaacaca tagcagcaac aagacgcagt ctcctctaac gagttgtaga 60
aagcctcctg gatgaccggc aagatcg 87
<210> 24
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 24
ttctgatcat caagtcgtga ggtatctatg ccgacggtcg gacagatgtg tagtatcaag 60
gtccgagctt acaagctcgt ctatctc 87
<210> 25
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 25
ttccctgctc tactcggccg tcctggtcga atggtctcga agggatattg cttccctcag 60
gatagagcac agcctatggg aagacat 87
<210> 26
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 26
ttccctgtgc gaacttgttg accgctcgtc tgagtcagcg taggagctct ctacttgcac 60
tctgagggct acccattggt gcgaaag 87
<210> 27
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 27
ttccctgatc tagaggctcc tcgattcgac gaggctctcc tccctcgtag tatagctgtg 60
atcactactt ctaatctgtt ctgaatg 87
<210> 28
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 28
ttctgattat tactccgttg cagcgtctcg ctgcgcactg atctctctaa cctatgtgct 60
tcaagagact agagcccggt agagcca 87
<210> 29
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 29
ttccctagca tcaaccctct ggagggctta aagtatgctc tgactactct gctccgaatc 60
actcgcgatc tccgtctcgt gactata 87
<210> 30
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 30
ttccctaaga atctccgaaa gctctattct gtaatgccgt ctggcaatct ggtagacctc 60
ttgcagttgt tggtcatcct gactaga 87
<210> 31
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 31
ttccctgtcg aggcataggt aatggtatca tctcgcgaca tgtagttcgt caatatcccg 60
ccgttcggag cgttaatgat gttctga 87
<210> 32
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 32
ttccctagac agttcccatc atcaacttat agcacaggag tccagtctct cgtcttctgc 60
ttcccgcaga gtacgatcta gtcactc 87
<210> 33
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 33
ttcccggctt aggtgacgcg catcggatgt actacttgtt taccaccaag cgatggactg 60
acagctcacc gtagtatcga ctgatag 87
<210> 34
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 34
ttctatttct aggcgtaggt agtatcacag ggtcagaacg tctagtctac tgagagaact 60
ggattgccac atcgcaatgg ccgaatc 87
<210> 35
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 35
ttcccagtct tcttatcttc atactagtgt tgactcctac ctccgcacca gcgtcgaatc 60
atgactacaa ataagccata gggttct 87
<210> 36
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 36
ttcccagtaa tgatcgtagc tgattgatgt taggaccgta tcttgtcttg accggcgagt 60
cgagacgcag agatctgatg tactagc 87
<210> 37
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 37
ttccctggcc gaatctctgt cgtaagaaag ctgtgccctg ctgtatcgaa gagaggcaca 60
agctcaataa agatagagct gtcgtga 87
<210> 38
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 38
ttccctgagt gatgaaagac attatcacga actccgatcg gcgtaccaaa gccttgatgc 60
atgtcgccac aggactgcct cgatttc 87
<210> 39
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 39
ttcccaaact tgcaggagta gatcttctgc atagaggtgc tgagacgatt cggcgcatta 60
tgatctgtcg tgaaggctat cgcgagt 87
<210> 40
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 40
ttctatttgt catgtagcct cgtggcttcg ggtggacata actcaggatc agcttctgag 60
tcgttgctgg tcactcgaca cttgcat 87
<210> 41
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 41
ttctgcagaa ctcgccgatt aacatcttag tcacatgagg atctcgtcgg ccagcctcga 60
tctgcacgac gatacctgcc tccaaga 87
<210> 42
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 42
ttctgcagca tgttctagat catctatatc aagggaacag tgaatgcaat cccagagccg 60
gtcggtcacg acgtccgccc gacaatg 87
<210> 43
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 43
ttcctcggta agctctctga gggcgagaga tgactcgctg tcggcagtca gtagcagccg 60
ggcctcttct gctcagtagg cttatta 87
<210> 44
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 44
ttctgccgat gaccgccaac aatgtagaga atgggaccac gcccgctgcc aataggaaat 60
agttatagtc atatcatggt gcgatta 87
<210> 45
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 45
ttctgtcgtt gaggagattc gaacagagac agtcctctgt gctacatgag acagctactc 60
gagacatgag cgatatagcc ttactct 87
<210> 46
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 46
ttctgtatac catacacagc gttcgaggtc ccttattagc tgcgaggagg acatctacta 60
aagctcactc gacattcaaa tcgccct 87
<210> 47
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 47
ttctgcatcc cacgattggc tgcttcgaat cactctctct cagctttacg atgtcgacct 60
tacccttctc atccgatggc tgagccg 87
<210> 48
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 48
ttctgcacaa ctctccgaac aggcggcgct gagcctccat gagtatctga gccttatact 60
aagtctgctc atgcgtgttc tagatta 87
<210> 49
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 49
ttctgtactg tgataggttc ttagacgatg cagtacactt tcctcctact aagacataca 60
agtagatatt agggtggata gtctaat 87
<210> 50
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 50
ttctgcaagt ctggaagtca tccgggccga ctccacacat gacgaccttt ccgaacttgt 60
ccggacgtca gcgtcctcta tttccat 87
<210> 51
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 51
ttctgcaaca tgccgtctct acgatcaaac cctggaggat acgtcgagca tttcatactc 60
tgtagtccgt ctgcggcgat cacgctg 87
<210> 52
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 52
ttcctgttct ctaagagagg accggcgtta tgtttcttcc gatctttctt cctcccagtg 60
agagtcttcg gagtctagag catgtag 87
<210> 53
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 53
ttctattagc cattaaacag agagcgatgc tcacagaatg cgtgcctctc tggccgatta 60
tagtcgatct attcactgca tagcatg 87
<210> 54
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 54
ttcctgccac tacacaagta gtctccttct ctgccgttgg tctctccgcg cagagacgca 60
ttctagcatg ctccgcagaa tgtgagt 87
<210> 55
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 55
ttcccggacg tcagaggccg aggctgctgt gacggcaatg cgcctgacat acctctatca 60
ttcgctgtac gagacttccg ttatagt 87
<210> 56
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 56
ttcttctcga tctcaaagca gcagggcatc gataagatcc gatgatactg cgtctctgag 60
tgagtccctg cacgccagga gtctgcg 87
<210> 57
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 57
ttcctcgctc tagagcgtac tgctcaccca gtataggctt cagagacagg tgtgctcctg 60
actgagcgat gctaggagcg aagccgc 87
<210> 58
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 58
ttctacctct gtggaagcat agatgtctag gacactgcgt tagactattc atagggtaga 60
cgaatcaagg tgtatgacac tagattc 87
<210> 59
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 59
ttctacctaa acgctatagg agtcatgcga agttacgaga gaatcaacga taatctcgct 60
atccgtggcc gcgtcagaac tggcgga 87
<210> 60
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 60
ttctactgtc gaatcatgct cagaccgttg gcacgagctg ctctaacgcc tttctgctag 60
catagtacgc acacgttatt actcttc 87
<210> 61
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 61
ttctattgaa agcctcgaat cgctcgttta gtaacagagg cttcgggatt caagcacaac 60
cctccgtcag agacgccgac atgccct 87
<210> 62
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 62
ttctaccacc tacactgccg acgttacaga ccgatcttcc acactcgagg acaggagatc 60
ggcgctgctg atgtgtcgtt agatgag 87
<210> 63
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 63
ttctatcagc tgagcctcac aaagtagcag aacctcagag gagcgactca gcgcatctcg 60
ccattgctgc ctcctatcca ttagatc 87
<210> 64
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 64
ttctatcctt tcccactcat gctcttaacg cctgcatctc agacattcca ggtgaatccg 60
tgattataga atacggtctg accacct 87
<210> 65
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 65
ttctatccac tgctcctcac tcagcctaag tatcacgctt caactctcac agtaccaact 60
gtcttccgtc tctcaggcta ggaggag 87
<210> 66
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 66
ttctagcgat cttctgtcgt ctcaactttc gtcatgggac ctgcagaggt catctcatgt 60
cgcatgtcgc atccattccg tcgaatg 87
<210> 67
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 67
ttctagatca agaagcgcaa tgcagacctc tgcaatttgt tacgcaattc gtacgattac 60
tcgagacgct gaacgacacc taagtgc 87
<210> 68
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 68
ttctatcgta tatatcgtgt catgacatgc ttggtcgacg aggtcggaac tagcatcgca 60
ggcacgcaca cggatccaga tcgagct 87
<210> 69
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 69
ttctagactt cacatcacca caatgacgcg agacagttag ctccgaaggt atcgcgattg 60
ccagctactg gactcaacgt atatgct 87
<210> 70
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 70
ttctagacaa tacagtgttc tacattctac catcgttcgg agcctcagaa gctgaatatc 60
gctactatca tactctcaac tatcacg 87
<210> 71
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 71
ttctagaact agatgtcttg aatgcgcttc actttctagc gatagcagaa gatcgcgaca 60
gcaactatca gactccagtg ccgatct 87
<210> 72
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 72
ttctagaagt atccactgaa tttccacaag ttcagtcata cgagcggtgt ctctttccgt 60
gcagagtcga gagtaacatg aatccat 87
<210> 73
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 73
ttctagagtc gatgacatta cggacgattg agcggaacaa atgaggcttg attaagacga 60
tagcgacacg tcacttctag tgtgttc 87
<210> 74
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 74
ttcctcgtat gcgcacgagt gcagggactc cctcagatcg tctatggtca tgatatagat 60
gctctccctg agacgggagt ggtatga 87
<210> 75
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 75
ttctctgcga tatgtttaga ccgtctcata tagttctgat tcccatctgg tgtgctcaag 60
gtgccttgtg ctttatagaa gtcaggt 87
<210> 76
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 76
ttctctgctg agttctcata tagtagcgac gtccatcgct tgtgaaaggc atatctattg 60
aagcgcgtga cagctatctc gatgcga 87
<210> 77
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 77
ttctctagat actaggatac acagagttga ttaacagctt atagatgcga cactacacga 60
tagagccagc tgtagctcaa cgtcact 87
<210> 78
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 78
ttctctagtt gcggttgact cgtgatgcta gagggcgcta gatcgaagga gcctatccga 60
tctcgaactt tggatccgat cttcctc 87
<210> 79
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 79
ttctctgtgg tcgcgttcag ccattctcag ggaatggctg gtctcgtgta ctctaaggat 60
cctactccta tgcctcgtag acagtga 87
<210> 80
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 80
ttctctgtct ctaactcgct aaagctcaga aagcagtgtg tctcagtcga gaactctcgt 60
atcccttgac cttgccgaaa gctcgag 87
<210> 81
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 81
ttctctacgg gtacatagaa ctgagtatac ctgacgggtt tgaacatcaa tcgctatgga 60
ctcccgtctg ctcagatggt actagcg 87
<210> 82
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 82
ttctctactt ctggattaag agctcgtgcg gtatagggat tctcttgaag tcctggcggc 60
acttacatga gtgtaaacgc acagtga 87
<210> 83
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 83
ttctctaagt tctctgtctc tccgcatgca ctcccgcatc gcctcataac agagcgatta 60
cgctgatgag ctccgtagtg tcgttga 87
<210> 84
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 84
ttctctaaca gaatgcgaca gtagtacaga ccataggact gtgattgact gtgtttcaga 60
cctagttcag tggtctagtg catctca 87
<210> 85
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 85
ttcccgtaca caaacgtgac tgcttactct tatactatgt ctctcgtaga gagaccacca 60
gtcgtctaca ctgtcgtatg cgaggca 87
<210> 86
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 86
ttcccatcat tccagttcca cgagcctccg cgatgatagt cagacctata cagattctct 60
caggcattga actgcgagtc gagtagc 87
<210> 87
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 87
ttcccgtgta agcagatgat aatctagtca gcaatcggta gctagaacat cgtcagcact 60
ataagtcata gaactcgaac ttctaag 87
<210> 88
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 88
ttcccataga gtcgaatgtc atagttccac ttaagaagat gtactatccg agaggcggag 60
ataactatca agatgacact catggtc 87
<210> 89
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 89
ttcccattcc gcttccatcg cgcacacgag agatgttgct ctgagttagt ggtccattgt 60
ggaggactcc gacgctagcg tagaaag 87
<210> 90
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 90
ttcttgaagc cgcctttcca gaatcctgta caggtgcatg ctaagtgcgt aacttagagt 60
aactacctag gtacgatctg acgacag 87
<210> 91
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 91
ttcccatcta cgttcggtaa gtgtactccg ccttcgtctg acgagcgata gagatataca 60
ctaccgtacc tggtccacta ggcactg 87
<210> 92
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 92
ttcccgttag tgtatacgcg aatcatccag actaaggcac catagccact cgtcccggca 60
tatctagtaa atgtccgctt aataaag 87
<210> 93
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 93
ttcccgctct ctctgcagat ctacgagctc ccgcgacgaa gtgatttcac tcgccgagga 60
ttacgcccat gtttcctagg atcagcg 87
<210> 94
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 94
ttcccgtgaa gagatcgagg acatcatact agcaagttgt gtgcattgtt cgtgggaatc 60
cgaccttatt cgtagtagtc gctgtga 87
<210> 95
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 95
ttcccacgtc gcagccgaag taagtaggtg agactactag gacgccgtga tccagatttg 60
gctacttgat agaattgaag aaaggtg 87
<210> 96
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 96
ttctcgagaa gaagccatgc gtgtctgaag tgaataatgg gcgtcgtccc tccggacacg 60
agcacgccat cggctgagca gagtccg 87
<210> 97
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 97
ttctgttctg actagagtta ggctatgtta cagatgccag gtaagactcg tctcccgtta 60
tattaggagt ctacttagtc atataga 87
<210> 98
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 98
ttctgttcac cttcaggaca gctgccggag ctcagactac gaagagaccc tggcccgttc 60
tcacgtaagc gatgcagtag taacata 87
<210> 99
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 99
ttctgcttct tgaatacaca gtctacaaat gtctatgtga cgggtagagg cgctactcgc 60
tcattacgcc agccacgaat cggaagt 87
<210> 100
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 100
ttctgtttgt tgtcaggctg atagcgatgc ggccctctct gcaacacgga gacaagatcg 60
tctgagctcc acggtccgcc tcctgca 87
<210> 101
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 101
ttctagggtc tcagcacggt ggcgttcgca taggtgagtt acaagggccg tctcagatcg 60
atcgtaatct cgtgctgcgt aagcggt 87
<210> 102
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 102
ttctagggat agcatatcta gccattctag tagtctttca gtagactgat cgacgcaagc 60
gtggagagaa atcgccgcgg ctgagct 87
<210> 103
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 103
ttctaggata tgggattctt gcgactcaga aatcacgatg cgcgtgagga tgagcagaac 60
tctccgcagc tcggctattc tccggtg 87
<210> 104
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 104
ttctaggagc atggactcat agagcctcga gtaatgctag tcggttgcca cttaggacca 60
acacctcagt agcagccttg accagtc 87
<210> 105
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 105
ttctaggcta acgctatctg tggaacatct aagagatcgg atatattcag acagccgagc 60
ctaagcatca tcgatggatt cctcgct 87
<210> 106
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 106
ttctaggcag tggtaagtgt agagtcatat cctgtgcaca gagtcccgtg tctcgtattg 60
cagggttcaa tccagaacct attagtc 87
<210> 107
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 107
ttcttgagtc tagagactct cctgggtaag tgctagtgtc ataactattg cctgactcag 60
ctcactgtct cgcactagaa catcaga 87
<210> 108
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 108
ttctcaacac tgagtgtatt ctctggagag gaccgtatat cgatcgtaac ggagcctaag 60
acgcacaatc ctctgcgctc taagtag 87
<210> 109
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 109
ttcccgcgat cggcaacacg accggagaga ccaactcagg ataatacgtg ccagcctcgc 60
ctgcgtttcc gtcgccgttg cgtacag 87
<210> 110
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 110
ttctcaaatg gtacactgga gaagccagac aactcttctc atcctggatc attacgtcct 60
gatactagtg cggtcctcac gatgcag 87
<210> 111
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 111
ttctcaataa gatgacatct gttgtagctc ctcgtgactt agttgagccg acagccagag 60
ctcactgcac gagagagcga ggagcta 87
<210> 112
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 112
ttctcaactt tgatcacatc tggagtctag cagctgggac tatagcctaa gtcttcgctg 60
ctcggatgaa agggtcataa ccgtatc 87
<210> 113
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 113
ttccaccctt cttctccacc gatcttatgc gtaatcgtcc gaggccatga tcaggtctga 60
ctcctcagag gtgagcgagc aggccct 87
<210> 114
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 114
ttcccaataa tatgaagaaa gccgagttat agacctttct tcgctgagaa ggctaagcag 60
tgagtcggca acggtctaaa tcacaag 87
<210> 115
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 115
ttcccgacta tcagacgcaa gctgcagcag cactagactt tcaagctacg agacatgacg 60
atcctccact gacgcttaag agatcac 87
<210> 116
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 116
ttctgcgact cttagtctat gttaatcggt tattcacctt caaatgtgcc tccgagtcgc 60
ttattggctg acagcagtgg cttaata 87
<210> 117
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 117
ttcctcgaga cacctaagcc ggcttattga gctgatacta tcgaggtggg atcagatctg 60
cctcgttacg cagagtaggg catcgga 87
<210> 118
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 118
ttcctcagaa tcggacatcg cctgcatctc atggagctat gaatattctc tgtcggccag 60
cacctaaaga gacaggatgg ccgcgag 87
<210> 119
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 119
ttctcacctt ctcagctagg tgtcacgact ctgcagtagc aggcgtatgt acgctgtccg 60
ccgcatggct tgactctcgt agagctc 87
<210> 120
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 120
ttctcactgg tcactggaca gagtccacgc actacttatc agtagggaat ctgcgtgtct 60
actttgatgc cgtagcagct gtaggga 87
<210> 121
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 121
ttcttcgagc tcccaatcta tgactgactc atcagagcta cgccgtgtcc aaacccgaag 60
tcaccagcgc catcacgaca ctatctc 87
<210> 122
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 122
ttcttcgacc tagtgggatt gtgactgcag ctgcgattca taggaaatgc tttccacgat 60
gtctgattct acggtttcgt cctcgga 87
<210> 123
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 123
ttctcgcgta ctcctcagtc ttaggtatag aagtattgct gattactgcg tctgcactag 60
tagttcgatc cgttccgttt ccagctc 87
<210> 124
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 124
ttctgaagac ctctcgctaa tctctatcgt ctaactctat cttagggacg cctctagcta 60
gcagtctcgc taaaggctcg cgaggat 87
<210> 125
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 125
ttctcgcata gcccgcgaat gcgtgtgact tagtgcatcc agagtcctat gccttcggtc 60
aatggacaca tagtcgtctg agatact 87
<210> 126
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 126
ttctcaccgg agcgacgtat attagctcac ctacctcact atcagtgagg aatgcagcct 60
gtgggcgctt gacagcattc gaagaag 87
<210> 127
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 127
ttcttcagac tgcacacttc tacaccagtc tgcctaaagc agatcacaca gtagagatag 60
ctctctgtca ctagtctata ttatgag 87
<210> 128
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 128
ttcttcagca ctgctgtgtc tggctctagt ggtaatcgaa accagatggt caagatctag 60
gaggagcgca gatcaaatag atcgaga 87
<210> 129
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 129
ttcttcaagc gaagcagacg aacgtagact actctgtgtc aggcatgccg ctgacgacag 60
actcagccgc agccttgtgg tctatag 87
<210> 130
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 130
ttctcacgag tagagagtcc tcgaaagctc aacaatcgtg acagaaacgg atagtcgcac 60
ataacattca caacacctgc aatgctc 87
<210> 131
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 131
ttcttcgcag gaatcacatc acacccgtac atcgcttagc gacaggtgtt atgatgaaat 60
ttctacggcc acctggagtc tggagca 87
<210> 132
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 132
ttcttcgctc tcatatactg acgaactcgc agctcgcaca gccaccgagg cacgcgctga 60
tctgagcacg ctgtcgcagc attggag 87
<210> 133
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 133
ttcttcgtac tatgacgact ccatgcgtag aatttctgag ctaatgatct acgagacttg 60
ccattcagag cgatccgaca tagaggc 87
<210> 134
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 134
ttcttcgtcc atctcgtatg tcgaaagtat tgtagcagtc tcccttgcag cgcgttatag 60
tcattgcatg tcactatgtt cgtaaga 87
<210> 135
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 135
ttcccaatcg tcagagctta ggtagacact ttcgtcacaa catgacatat gaaggtagag 60
tatgagtgcc catcggtcat aatctgt 87
<210> 136
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 136
ttctatatcg agtacttcgg ccctgcggac actgcttaca agcgaatagg ccctggtgcg 60
gtcgtcctcg tcctaggaag agactcg 87
<210> 137
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 137
ttcccaccta agcagtagtg acgattagta ccaacacatt gacgagacaa gtgaggtcta 60
tacaatataa atgtacgact ctcaaag 87
<210> 138
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 138
ttcccagagc ctctaacagt ctgctagtgc agctgaactt gactgatgtg agatggttca 60
ataggtggct taatagcacg acatgga 87
<210> 139
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 139
ttcccacaca gccagttacc tctcgcagcg ggacctgtga atggcttaag aatgcacgta 60
atccgttctt gattccctga gacttca 87
<210> 140
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 140
ttcctcggaa acctacctaa gtgccatcct tagccatgac tcaacggaat caatgtcggc 60
tatactcctg caactgcttg ctacccg 87
<210> 141
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 141
ttctcagata agtgacacga tcagttcgca ttcaattgta agcctttaac agcttagtag 60
gtcttctaga tctctgcgta cacgcca 87
<210> 142
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 142
ttctcggagc gcaacacaaa tagtaagtct ctccctgctg cacagcataa gtataatttc 60
aagaagttgc acacttcacc tctcccg 87
<210> 143
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 143
ttctcgggtc acgcaaacgt gacatgctgc cctagattct gcacggagcg taacgcttct 60
tacagcgctg tcagcagcac ttcgcgt 87
<210> 144
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 144
ttctcgggac acggtggtac tctaggcgat aagtgcgtca cacgcgcatg tccttctgct 60
catttctagc tcgctgacat gggtcct 87
<210> 145
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 145
ttcctcgacg tcagactata taagtgaaga gcgccggcgg tatagtctca cgcaaagact 60
aagccgtcag tcagcgctgg actcgga 87
<210> 146
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 146
ttcctcgcgg agctatctga gacaaatcct tagccgcagt agagccagca gatccgcatc 60
atcgtgttcg cgtctctcta ctagaag 87
<210> 147
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 147
ttctattcta gttagtacga tgagcagtac tgaagagagc tggtgagcct caagtgtatg 60
tatataggcg agcacctaag tataaga 87
<210> 148
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 148
ttctactcgg gaatactgcg aaacctatct cgaggactag cagtcgagag agtagagcct 60
gatttcttcg ctggttacga tagtgga 87
<210> 149
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 149
ttctactatc gacattatga tgtggatcac ttaccagtac atcctggaac taacttatga 60
aagcagtagt cttacccacc tggtggt 87
<210> 150
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 150
ttctgcgcgg tgtgtgtaag atacgcttag gctgtcccac tccactgttt gggtacgtca 60
actggtaagt cgaagaagtg aagagca 87
<210> 151
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 151
ttctgtgctg agtaggcgga ggcttcggac cctttctctg tcggagcgca gttattacga 60
cgctctcgac gaaagtctac ggataag 87
<210> 152
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 152
ttctgtgtag acggcgtcca gttacctgca ggctcatcta cgacagatta gttggctgcg 60
ctccctgtct gtctcagcgg tggcccg 87
<210> 153
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 153
ttctgattcg gtcgcgcgta taatttcaat taccgaggaa tgagagtagt agactgacgc 60
gacgatcctc gagacatggg atcgtct 87
<210> 154
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 154
ttctgtggag tctgatgtct gtctgagtgt gattcggcaa tccagcaccc agagctggcg 60
gcttgtcctt atgataatgt ggaccag 87
<210> 155
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 155
ttctgcggct ctgtatatgt ccagcgattc cagttcgtgt tctactagaa tgtgttacgc 60
tgatatcgag ctcatcacga gagattc 87
<210> 156
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 156
ttctgcgagc cgaagaattg ccgaccaata aagtctccga tcactcctga ctctactgtc 60
ttgtcgcgcc gagctgagtt actgtcg 87
<210> 157
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 157
ttccatactt ctatgccttc gtgagagtgc actgcaaagc tacgtttccc tttgctgtct 60
cagacaagcg cgcaggctcc gcactat 87
<210> 158
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 158
ttcttcatac tgctcggagt ctcgtatatc ataactaagc atgattatta catcagacac 60
agaaatgagt agttagcatc tgcagct 87
<210> 159
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 159
ttcccagcga accacacaat acgaaactgc ggtctcggac cgcagttctt cgacgataga 60
aagagtggag gaggagtagg atgacga 87
<210> 160
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 160
ttcccaacgg tatagtgagc tctagtcagc aagctggaga tccgtttaag cttctctgac 60
tgaacagcgc tgctgacagc agtgttc 87
<210> 161
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 161
ttcttctgct gaggactcgt gactcagcag ctgtgctata cgagacgaaa gaatactaga 60
ggactcctcc atgcagcttg aacgctg 87
<210> 162
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 162
ttctgttaca tggacgctgc acagtgtcgt aagagacgat gtccgttatc gctcggttag 60
ctcttcgctg gccctatctc gtatagc 87
<210> 163
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 163
ttctgttagg aggagcctgc tctaactccg agaagactac agcgccgagc acagacaaga 60
tgagatcatc cggctacacg cgtccgt 87
<210> 164
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 164
ttctgttgcg gtgcgctcat cacttaccca tgcgtggtgg gatctcgtgc taacatgttg 60
tgtatcctcc agaagtcgcc ttatgtc 87
<210> 165
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 165
ttctgctgac attgcgtccc tccttcagga ggatctataa gccactctcg aataccgcta 60
atacaccgcc gaatcgctct aagtatc 87
<210> 166
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 166
ttctgcctct gtcacactga ggagcctgct cctccttgcg gacctactac ttctagagag 60
cgactctgta taggcttact accggct 87
<210> 167
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 167
ttcctccctc tcgacttata gacgatggag gctacttgct cgcacggaca gcagtatcgt 60
gatctgatgg tcctaatgaa tttagag 87
<210> 168
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 168
ttctgtcctg agcacactgc ttgtccacgc agtgtacgaa accacctgag atctacttga 60
ggcacgctca acaacgcatg agtcgca 87
<210> 169
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 169
ttctgcccga cgagttgttg ctaggtctga ttccacggtg tccctgagtg actggtcgta 60
cgcctcctag cgctcttatc ttgcaat 87
<210> 170
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 170
ttcttcatca gaactatagg aactacatgt gtggacaagt gctagggagg cggcatgcct 60
cgttcgactt atggttagaa cgcgcag 87
<210> 171
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 171
ttctgccaga tcgagagcgg actgcataac ctatctaagg cgtctgtcaa ggagactatg 60
ctaggactcg agggacactt caagaag 87
<210> 172
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 172
ttctgaccag gcctcttatc gtagatgcgt ggaaatgact tacctctcta gcagatgtct 60
aatctgagat gaacttaggt cacatta 87
<210> 173
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 173
ttcttggagg cttgctctca ctctaagctc ttccctggcg catactgata tatgaacgca 60
tgagctgtct tctataagcc ggattgc 87
<210> 174
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 174
ttcctcctct tctatctctc atcatacagc agaagctgtc tacgatcaaa gctgagtact 60
ttcagaggca agctggcgtt ctatgtc 87
<210> 175
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 175
ttcctcctgc tcccgagata tcctatccag acgcctagtt cgtatactaa cggtcctgta 60
cgaagcgcat agatagaggc taagatg 87
<210> 176
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 176
ttctcggcaa cttagttggg ctatttccgc gctcgagtaa gaatgttagg agcgggatag 60
ctcggataga ctatctgcgg ctcactc 87
<210> 177
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 177
ttcttccgac gacgaatcta gggattccag agcgtcgcac tatgccatcc acctagcgag 60
agaactggcg cagtggatcc ggcgaag 87
<210> 178
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 178
ttcctctgta ctgctcctat cgtcatcgtc cctctcctgt tgatctatgg ttagcagatc 60
actggaatac cgaatcctta tgtctag 87
<210> 179
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 179
ttcttactct ctcgatcaaa tgtcgcgctg cgtttgaact gatcaatgtt acgtgaggca 60
gtacgctctt tccataaccg cttcata 87
<210> 180
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 180
ttcttatgag tcggccctgg atctctcaag cagtagtgtg attagatgtc aaatggactc 60
tctatcctag agtctggaag aatcatc 87
<210> 181
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 181
ttcctctgat atggacctta tagctgtcac tcatgctatt tagcgagagc tgtactcttc 60
aagtcacgtc taccttgaag tctgtat 87
<210> 182
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 182
ttccctacga atttcccata ggatttacag aaggcaaaga ctagaactcg atcgagacag 60
cgatctcgaa tgttcggaaa cctcaag 87
<210> 183
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 183
ttccctactg aggctcgcgg caacccggct ggctagacaa atagcgcgca gctaatcatg 60
actcagttat cagatctcga ttgttat 87
<210> 184
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 184
ttccctatgc cagagaagtg agagcgcgtg atactaggag agttgggaag aactataccg 60
gctgcttagt gtaagagaag ttgacga 87
<210> 185
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 185
ttccctatct gaactaagcc tcgactccga gctactaatg gctactacaa cagacacaag 60
agaagaaagt ctatcctacg tctggct 87
<210> 186
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 186
ttccctcgac acagctgtct cttagatacg actgcaggag agacagacta gttgtgaatc 60
ggagagtgac tagtcgtgac gatcgat 87
<210> 187
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 187
ttccctcgta gagctaagtc tatcgctgac aataagtgta cttacgagaa tttaggccat 60
tcaggtacac gactagtcat gcgtagc 87
<210> 188
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 188
ttccctcagt agggtagctg ttctcgatat actcacatga agactcctct ctaggagcca 60
cctcgagcat tcatgaacga gactggc 87
<210> 189
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 189
ttccctcata tattaccagt gcgactccag ttcactgtcc gaagcgcaat cgctttggta 60
gacggtcacg tcgtccatag acctgtc 87
<210> 190
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 190
ttccctccgt atgtgttagc aagcctaaag aatttgaaga gattgtgccg tgcgtatgat 60
cacggattcg cgtgcgagtg tgtgtag 87
<210> 191
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 191
ttccctcctc agggatgaat ctacttcgtg cattatcctt ctcagaacca ccactactcg 60
tagacaatca gacacggtta gtacgca 87
<210> 192
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 192
ttctgagact gacagcagag actcgatggc cagtgaaagt tgagaactcg ttgagctcag 60
taggacttca actctcgatc tccgcct 87
<210> 193
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 193
ttcctctctt attgcgcgat cgctgagcct cgttagatgt gcgaccatat atcttgagtg 60
gtagtgtctg gaccagaggc gaaggtg 87
<210> 194
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 194
ttcctctcga gaggatgaca ttctggtcat aatccgaagt tccgttctac tcctctcgac 60
atagtcctga ctatcacgcc gaagatc 87
<210> 195
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 195
ttctgtctgt tgtgcataag acgatatctc gtcatgcata gagtacagca gttcttccga 60
atctaggagt acatggtcaa cacaagc 87
<210> 196
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 196
ttccattcta atctgaagta tactagctgc ttgagaaatg gatctcaggc aatgaagcta 60
ccatgcgtgt taatcctacg agacctc 87
<210> 197
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 197
ttccactcgg tgcatgcatg agctagttgc cgacgcagac gccctagcag tacagcgcga 60
ccaacactcg gattcaactg agctaag 87
<210> 198
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 198
ttccattaca atgcactggg aggattgtgt gcacagcatg agatactacc taaggctcct 60
ctccgatagt cttcgtctcc agagccg 87
<210> 199
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 199
ttccattagc tgaacgtgca gccgacatgc tacatcccgt cgacaagccc tccaacttgt 60
gaggagcagt agccttagtt cctcttc 87
<210> 200
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 200
ttcccgggcc tcgagttcgg ttctaactgc caggctatca acttcgtcga cagccgactg 60
aaggagttca gttagggaac tgtgcta 87
<210> 201
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 201
ttctcggtcc gaagatctta gtgctatgct cctggagatg gcagatgtgc gacaggattg 60
tcacatgcta gtggactccg tcgtagt 87
<210> 202
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 202
ttccacttcc tgatctctcc gcatgcttgt cctggtaaga caggaacaag ccgctagggt 60
tagggaagcg agtgtgcttg tggagct 87
<210> 203
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 203
ttccatttgt gagcgtgaaa gggcatctgt gaggcatctt tcgagtcatt cagaagcgtc 60
catactaagt ctgaggtcca tggtcga 87
<210> 204
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 204
ttccactgtg gactattcgg atcagcttgc ctctcattat tgatcagctt cagctgaacg 60
taggtctact tggtctcgta gttagct 87
<210> 205
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 205
ttccactgaa gatctgtcca caagggttgt tgaaacccac tgtgaccggc gtgattgaga 60
gatcgtcagg gtaatttgcc gcgacga 87
<210> 206
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 206
ttctctcata gatcatatcg tcgaatcgct actctactgg ctctcatatt atatagagtg 60
tcttgaatgc tgactcgcac tttgagc 87
<210> 207
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 207
ttctgtcaca aggtcacgtt cgatcgcctg ataggaccac cgtatgagac tcacggtacg 60
cagctctctg tcgtagctca tgtggag 87
<210> 208
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 208
ttctctcgtt agtctgcttt cgagcagcgt agagataatt gaggcttctc tgagaagtct 60
tgactccgat cactattctg ctatgag 87
<210> 209
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 209
ttctctcgag cacgttacct cgtcctcgca tcacaggtat cataggtacg atgacctgag 60
caccaggtcg atagtaatgt gccagac 87
<210> 210
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 210
ttctctctcg tcccgtcggt ccgaatgtag ccgacacgaa tcatcgcgtt ggctcgaact 60
ggtcgatgaa gttgagcgcg aagaatc 87
<210> 211
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 211
ttctctctgc ctggctgagg ctaccctcct cagatattcc caatgtgaga tgtctcatat 60
aagatatatc atcacaagcg accattc 87
<210> 212
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 212
ttctctcctg gaggattagt agtctatttg acgaacctag ctgacctatt aggaggttct 60
ctcgcaagcc atggcacact gtcgtgc 87
<210> 213
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 213
ttctctccgc tctcacagcg ctcaggaact ccatgatgat cttgccgacc agtagtatga 60
aatctcaact accgatacgc agtaaga 87
<210> 214
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 214
ttctctatct agccaatcac ggcacactga agcgctcagc agacgccgta cgtgtacact 60
gtgccttgtc tcatatgcac tacatct 87
<210> 215
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 215
ttctctatac acggactccg actgatccct gctaaggagg gtttctagcc tatctcgaga 60
ctgccttagc acacaactga ggtaatc 87
<210> 216
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 216
ttcctccgat acaagttgat aatcctcctg gagcctttca aggagagtcc tatcatccag 60
ttggatttag agaagggtcg attaaag 87
<210> 217
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 217
ttcctccgtt tcgctatcca cttgttcctc cctcgacata agataccggt cagagcttga 60
cgcggcagac cgttccgaaa cctcgtc 87
<210> 218
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 218
ttcctccagg gaatggctaa gcgcgtaact cgcctctgag ctccgctggt attacctcga 60
agacgtgtcg tcctctatac tcgagct 87
<210> 219
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 219
ttcctccacg tgttcgcagg attattacta atccgaagaa tccgttcaca gctattcgct 60
cgaactggac gccataatta ggtcctc 87
<210> 220
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 220
ttcctcacgg gcatccgagg atgctcttga tgagagatgg gaatgctgga ggattcagac 60
tgttcacagg tgtgctgacc tatgaga 87
<210> 221
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 221
ttcctcactg tgcgtgaccc taacgcggga aataacacta gattgaaggg attattaaac 60
atcagagtgt agaaggcaag cactgct 87
<210> 222
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 222
ttcctcatga tcaagtgatc aaatcagcga tatagagtct tctgcagaca gttcggccat 60
gaggctgcgt ataagttaca tccacca 87
<210> 223
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 223
ttcctcatct atacacctaa cgcgtataat acgcgagagg gccctggatg tctacaggta 60
cctgtcatcc gagaggtaaa ccatagc 87
<210> 224
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 224
ttcctcaagg cttgtcgaag tgcgatattc gaggcgctcg tcgctcgata tttctgccga 60
taggcgagag taactctgtc acctcgt 87
<210> 225
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 225
ttcctcaact tcgtaaagag agatccgtca ttctctactg agttacgaga cacattcctc 60
tgaagagcgg accgtgacca gactcct 87
<210> 226
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 226
ttcttgcgtc tataggtgtc tagtatcatc acactaccta cttgagctcg tgtccctgtc 60
caggtgctcc tcgtgtgatt agtctct 87
<210> 227
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 227
ttcttgcagg cgataacagt ctgaatatag tgctgcgatc agttaaagat aacgcgctga 60
ggcgtcaaga cgggctctga tccatgt 87
<210> 228
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 228
ttcttgatct tcgagtgaaa ctcacctaat gctagctctg ctgtcgctcg tacgggatca 60
ttataccctt tgacgactta ccaccag 87
<210> 229
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 229
ttcttacgaa atacttcaac tgatgtatac acgtcgtctc gcagctgacg ctgaggtctc 60
gagatcaatc gtctccaggc tcgtgtc 87
<210> 230
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 230
ttcttaccta agggactacg tgacgctaca aattacttcg atcgtcagcg aatcatctct 60
cctaacggtg acagatcgac tgtattc 87
<210> 231
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 231
ttcttactgg atttgacgta ctgagctgct gtagatcaca tgcagttcgc tttattctac 60
gtattgactg gtgtcatcga ggacgat 87
<210> 232
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 232
ttcttacact cactctaggc atcgaacggc atcggtgtcc gattgtgtct cttagctgct 60
acacctatac gtccttcgac tggtgat 87
<210> 233
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 233
ttcttgccat tctgtggctg aaacgcgcag aatagtagcc ctcagttctc aggtagactc 60
ggagcacagg agtcgggata tgagctg 87
<210> 234
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 234
ttcttgactc tccattgatt ctctttcaag tatcgcttcg gacaggcatg tatacagcac 60
cgcgtcgcag cgacgatctg acataca 87
<210> 235
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 235
ttcttgatgt cacagacagg ttagatgcga cgaaagtatt atgcacgagt ctgacgagta 60
agaagcctca ctcctggacg aggattg 87
<210> 236
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 236
ttcttctacg tcgcgccttc tctcgcaact ggatgatgac atctcgagtc agcgtacaga 60
tagcgcaacg cgttctcaac gcgctga 87
<210> 237
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 237
ttcccaagct tcttgtcttc atattagtgc tgactcctac ctccacatca gcgccgaatc 60
ataactacga acaagatcac tatagtc 87
<210> 238
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 238
ttcttggcga gagctgatac ttagcatgct acgcacctcc gctgccacat ctctagctga 60
cgcctgtgta gctatcacat gacgtat 87
<210> 239
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 239
ttctgtgtct catatatcct agctacagat acgatgtctc tgatgccacc tggagtgttg 60
tctcgtggtc tatatggaca cataaca 87
<210> 240
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 240
ttcccgagat tcttatcttc atactagtgt tgactcctac ctccacatca gcgtcgaatc 60
ataactacga ataagttccg aagccgt 87
<210> 241
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 241
ttcccaaagg gtttgtatgg aatcagttgc atcgtccgaa ctttcatcat atcgtatgct 60
ccacctaata ataactagta ccgttga 87
<210> 242
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 242
ttctacagaa gaccagctac ttgagagact gtctacatcg tctcatgacc ttcagtgcgc 60
cagaagtacc atcgcgtcct cctcctc 87
<210> 243
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 243
ttctacagct cgcgcggacg aaatcattcg gtcctgcgac gtagatgagt cccaacaaac 60
gtagatatct agcgacgaat cggtaag 87
<210> 244
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 244
ttctacaagt gttcttgaac accagtgatc agcgcagctc agtctctagg agcaagacga 60
gtctgactca catagctcac ggtccga 87
<210> 245
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 245
ttctataacc ctagtaagtg tacgatctga gtgccgtctc tgtctacgat ctctcgatat 60
gagccttcgc cggcttgatc gatagta 87
<210> 246
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 246
ttctatacgg tggcaagacg cgtcggacat ctgactgagc caggctcgtg aactcattga 60
tgaatcagaa agttcctagt catactc 87
<210> 247
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 247
ttctatactg gcactaacca ggtaagacgt ctaccaggat agccgacttg cttcccatac 60
tgacgagact gtcagagatt agatagt 87
<210> 248
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 248
ttctatataa gagcgctcga ctgaactgag ccgcctcctg caaacaacta gactgtatga 60
ctcctaggac cgggcctctc gtcggga 87
<210> 249
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 249
ttcctgaagt gatattgaaa ggtcagtcgt ttcttcatga taggcgacta tggattgtcg 60
actatagaga cttgtcagca caagcag 87
<210> 250
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 250
ttctacgtga gtgctttccc agacaattat tgaggtactc gacagcagac tctcacagct 60
gtggatactg cgacagaccc tggttct 87
<210> 251
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 251
ttctatgtct tgcagggagt cggatgatag acgggccact gtgagctgaa tggcgctgag 60
aacgtctgtg tccactactg cactcgc 87
<210> 252
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 252
ttctgatcta gtcagagcgc tcgaggcagc ctgagccaga gacgcttgta gacgggacct 60
atgagcgtgt cgcgaaagag agtcacg 87
<210> 253
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 253
ttctctgata atttcttaat cgagcaccct agaaatcaca actcaagtcc aagtttccta 60
ccgggatgat gactccgttc aggcaat 87
<210> 254
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 254
ttctcgaagc gatagctcct cagacctgca cgccgcagag atccgggacg aatggcttat 60
tctactcatg acccatgaaa gcgagct 87
<210> 255
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 255
ttctgaaaga agaattatga ggcttaggga tagtcgaaga agataccttg atagggagtc 60
ggttaggctc ctagaagcac tcacgta 87
<210> 256
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 256
ttctgaagtt ctcagcactt gtgatgcgca aacttgggag cgcgtgaggg ttcaatgata 60
actgacaatg caacaacata ctcgtac 87
<210> 257
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 257
ttctgacgac cgtgatgcgt caacacgatc agagtccgcg cgtagtcacc tctaaatccg 60
gaccgcctct gcccaccgtt gaagatc 87
<210> 258
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 258
ttctgaatcg cgcacatgaa gttgctgcat ttgtactgaa tctcacaggt ggcaaagacg 60
gacggcctct cgctggtgtc tgagcct 87
<210> 259
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 259
ttctgacagg cgtatctctt ccctctccca tctcgtacat tgggacctcc gctcctctag 60
gcatagttgt cgatccatgt cgaggca 87
<210> 260
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 260
ttctgacgtt gagagtcttg attacagcag ccactgtata gatacctcgg cttgtagtgc 60
agacgtcgcc gaatcggtgc tcagaag 87
<210> 261
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 261
ttctgaacaa atgagaatgg aggagtgaac gtcccaagag cttagcgact agcagtccga 60
ctagcaactg acttcttcgc atctcag 87
<210> 262
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 262
ttctgaaatt tcctaatcaa caagactcag tattactagc cgtgttcgcg cggatgtact 60
tgaaatgcta actacgctcg atgttct 87
<210> 263
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 263
ttctgaataa gaggcgcggc tactttgaac cagagagtct acgtctctgt agcgtcatta 60
tactcattcc agagaacatg atgccga 87
<210> 264
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 264
ttctgaactt gcctctctta gttcaacaga tgagcaacgg agctagtggt ctcaaagctc 60
ggcctccagc gcgctcgata ctagcgc 87
<210> 265
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 265
ttctacggct gcactggaca ggatatccca gactgatctc ctttgaactg tcaggtcaat 60
agaacactca gtatcatacg agatggt 87
<210> 266
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 266
ttctctttgg gcgtcaaccg aggcctcatc acttcgacgg gtctcatgca gtgcacgacg 60
agaggaactt cttcactgct ctatatg 87
<210> 267
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 267
ttcttattcg agcaggcatc gaagcgacgc ataatcgcta gagagctctc tcgcactacg 60
ggcgatgtca tgactcgaaa gaacata 87
<210> 268
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 268
ttcttcggag ctctcgcttt acagcctgct ctgactgtcg gtcacatata gagaaaccgc 60
cgcggagtcg agctctctag tctccag 87
<210> 269
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 269
ttcttatctg cttatactcg cgtcgataga aaccagactt tacctttagt caaggtcgtc 60
catagacgac ctaactgtga gtagttc 87
<210> 270
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 270
ttcctatgag agccatctat gatagctcta gcatcttgag ctgagagagc ggagctaaag 60
cgactgtcat tgcctctcgt gggatga 87
<210> 271
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 271
ttcttgttat gtagagatct cttatagctc atgaaccgtg caggacgaaa tgtggcaaga 60
cagcgcagaa agtgtcgcct gcgatct 87
<210> 272
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 272
ttcttatata taagattgct ggcgcgactc acgtctaatg gcaagagttg tcctccgaca 60
cagactaaga acttgttggg actgtca 87
<210> 273
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 273
ttcttgtcag tcttctagct aacggacgag gatcgtcgct gaccttctgg tggatctttc 60
gtcacaagag agactccgaa gcgcttc 87
<210> 274
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 274
ttcctacctc tccagaatca tctgcgacta acgggccagt ctggtcaggt ggtactctcg 60
tatggccacc tccgtgatgt cgtctta 87
<210> 275
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 275
ttcctactac tataggtgcg cttcgatagc gtactcaaga tactcgagcc tggcaagact 60
ctgagaatct gatagagtac gggtcgt 87
<210> 276
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 276
ttcctgtgcg gtgcttagtt gtatttcaag ggtggaaata cactaggcgc gttaaagctc 60
ttgagcgtac cgtctagctg aagtttc 87
<210> 277
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 277
ttcctgtagg tcacgggcat cttcttgact cagttgtctc agccagaggc gtcgccttgc 60
tcgacttcta tagctcactt ggtcata 87
<210> 278
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 278
ttcctactcc gagagatcct acgacgacgc tctcgtctgg gctcgctaat ccagggatca 60
tgaccttctc gttgagagac gggagct 87
<210> 279
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 279
ttctaggtat atgatctaaa ccattgtcag ccatcgtagg gtcgctagtc ggcgagcaag 60
gtatgtacac cttgcctgtc tcagcag 87
<210> 280
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 280
ttcctatctt cttctactat aagattggtc tgtgcagtga agcgcactgc acactgtaga 60
actctcccgg gatgcgtcaa gcgagtc 87
<210> 281
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 281
ttcctgttaa attctcgaac aaagttcccg acaagactca attcagatct ccgaagagga 60
catataggaa cattcacact cgaggac 87
<210> 282
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 282
ttcctgtatt cggtgcagct gagacgtgcg gctgatttac tcgctcgata cagactagac 60
catctcgagg taggatatgg atagtta 87
<210> 283
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 283
ttcctatcgc atttacactg ccagtagtcg ttggctagac ctacgctatc attcaagtcg 60
agcggttaga tccaggtctc tccatct 87
<210> 284
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 284
ttctagtcac ctaactgttt gacagcagca aacacagacg cttactcgcc gttcctgcag 60
agccgcgcta cagatcgttc aaagtac 87
<210> 285
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 285
ttcctcttcg tcccttgagg tccttgagac gtgctatgaa tagatgtcac attacgagat 60
tcgagaatat tggagctctc tttgata 87
<210> 286
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 286
ttcctcttaa actgcctaaa tggagtaggc gctgtgtctt atcctgatga tttggattac 60
gaccgagact tatgatcatg cataggt 87
<210> 287
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 287
ttcttcggct gctctagaca ctgtgatgag aagcatcact gaccatagct gggaggcacg 60
gtcatcgtag agagagattc gccgcgt 87
<210> 288
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 288
ttctgagagt tcgtcagact agtagtctgt ggtgagatcc agcgaaagag tcgaggcatc 60
cgtttccgat gtcgctacga gggtgtc 87
<210> 289
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 289
ttctgaggca agtaggcggc gcgagcttag tgaggtctcg tacgctctag ctatatgttc 60
caggatatac agtgatcacc actcgtc 87
<210> 290
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 290
ttctgaggaa agaagtattt agtctatcag ggcgattgat ctggagatct gactgatgca 60
gacatcggtg tcagaatatt gccggga 87
<210> 291
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 291
ttctgagtcc tgtagtgata gacttctccg ttcgcatgaa tgggaggcct cagagacgac 60
ctcctagaca agtgtatcat gcgagga 87
<210> 292
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 292
ttctgagtgt gcgagtaggt gactccttgc tcgcgacgcc gaactagtgg aatcttcgag 60
catcctcgtg ctgatgtcag tgtgtag 87
<210> 293
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 293
ttctgagctt cttgatagtt ctctgcagtg ctgttccgca gactcgtcgc tgatttcaga 60
atcctgcctg acggattctt aagttag 87
<210> 294
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 294
ttctgagcgt agccgcgccc tggatattga agagtaggtg atagatatct gcgaccgaca 60
agacgactag tcactccaaa gtatcgc 87
<210> 295
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 295
ttctcgagct gcgatgcagc tttcggtcct ggacctcgac attacttcct cggcgcttgt 60
gacggttcta cgggaactcc atagtgt 87
<210> 296
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 296
ttccctgcat cacgtttcga gcgttcatag tctggagtcg tacctcgatt caagcatatg 60
gcgtgatctc tcggacagag atagaga 87
<210> 297
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 297
ttctcactct tcgatgagcg aagaggacct atcagaagtg aggctctaat ccacctaatc 60
cctttggtat gaatcgactg cgtcggt 87
<210> 298
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 298
ttctcgtgag agcagaaccc atcagtatct ccgggcgcgc aggtggtgta gttcgcggga 60
ggccagttct agcacctgta tccttcg 87
<210> 299
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 299
ttccatatag tcagttcaga ctaccagtgc cagcgattag gactgaacag ttctagatag 60
tgcctctacc taggaacttg catcgga 87
<210> 300
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 300
ttccatatct cttgacaggg ccagtcatgc tgccgaacag caatattgtg attcatagtg 60
agcgtcatat tcactggtaa cgagcca 87
<210> 301
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 301
ttccatcaga atcagcgctc taagggatgc cgagtgcctc gacgtctctg aaattctatg 60
acatactctg tggactgata ggtcgct 87
<210> 302
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 302
ttccatcacc agactccaga gtgtgcgtgc gagtagcatc tagacagcca gcaggtacag 60
cctcattaga tggctaacaa gacttgc 87
<210> 303
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 303
ttccatcgaa ctctcaaggc tcacacgtgt ctcaacgact tcaatctcat gatgggtcag 60
gagcgacgct gatatcgagg tagtgtc 87
<210> 304
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 304
ttccaccgta tccgatgaaa tggaggctgt gtctctacga agcagcagga cagaggctct 60
gacagaataa agttctctga tgagcct 87
<210> 305
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 305
ttccatctac gcccttgaga gagtcgatgc atccagggtg tactggatgc aagagatagc 60
gtcggaatcc cgcgtatcat aatacat 87
<210> 306
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 306
ttccacctca gatcataggg acgaaagtgc agctagggtc agtactcaga tcgaggaatg 60
gctgatatcg tcagatcttt gtacagt 87
<210> 307
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 307
ttccatccgg tgcagtgtaa tttcgagtgc ggtggatctc ctctaggcat ggcgtagcta 60
cagttgaagg tgtcactcaa ttactta 87
<210> 308
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 308
ttctcgcagg gacgaagatg acgcttagat cgagtgagaa cagaggcgct cgacagatca 60
gtcttgtact tgtcgagatc tagaatc 87
<210> 309
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 309
ttctagtgct caaagcctcg aagtctcgga tcattggctc tcgcgagctg tcagatgcac 60
ttaagtgatc gccacttagc tcgtagc 87
<210> 310
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 310
ttctagtaga tccagaacaa gcctatctcg gatccacgaa ctactgagat ccagatcttg 60
agacgtggac gcatcttctc tgctctc 87
<210> 311
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 311
ttctagctca gaaagggtcg ttagaacact cgcctgaatc ctctagagtc ttaggctaca 60
tagaagccaa gaggcatcat caatctc 87
<210> 312
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 312
ttctagtgag agggaacaaa cgtcaaggta ttacgtaacc caaagtcgac tgctccaact 60
acattggctg gcctcatggt cgtatgc 87
<210> 313
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 313
ttctagcctg agttccgacc tttgacgtag gatctggaca tccctccttg acacagacgc 60
gatagataga gtctatctat caaccac 87
<210> 314
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 314
ttctagctaa tcgtggtccg acgccgccgt gtaggatgca acctctacgc tacaggtgct 60
ggattctgat atgacgatcc tacgggc 87
<210> 315
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 315
ttctcttctt tactccagta ttgatcgctc ctcagagatc gatcaacgat caagcatgga 60
ctcagagacc actctgcaac actcact 87
<210> 316
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 316
ttctcttcaa gattaggatg tatcttctga ctcggagagc gagtagcggg cctcatatag 60
tcaatgctcg cttactagaa gactgac 87
<210> 317
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 317
ttctagcgcc tcccagtagt cagttgaggc gtgagaggat tctagttagt actcccttga 60
actatcgcta ctcgtgatga cgtgact 87
<210> 318
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 318
ttctagcagg ctggtggaca caagtagcac tgattcaact tgggcttcgg agatggacag 60
ccaagtttca gctctcacct cccgaga 87
<210> 319
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 319
ttctcttgtc tcataaagct cggagattga tagacgtgtg tacgatgaat acagtagaag 60
ttgtcattca tcaattctta gtgtaga 87
<210> 320
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 320
ttctcttgat tgaagcgcgc tcgcacatct gagggctcgt attatccggc tgacgtcggc 60
tagggtcgca cggcaggtca ccgttgc 87
<210> 321
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 321
ttcttcctct gtatccagca caagctagga tcaaactcga atactttcct cgtccactga 60
ggccagtcat cttcttagtt atacaat 87
<210> 322
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 322
ttcttcctgt tcgcattgct cgtgtctcgc tcgctaaatt gtgctacggc tagagctgtg 60
tgtagcctct agtcgctact ccacact 87
<210> 323
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 323
ttcctctatc gacgtacttt ccaccctgag gtgactgaca atcagccgac attctcggga 60
aagtgtgcat ctcagcctgc ttagtta 87
<210> 324
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 324
ttctcaatcc tcctacagta gcgaagatta caccaccatt agtctcctct gtatttgaga 60
ctcttcttca gcttactctg cttatct 87
<210> 325
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 325
ttcttctagt aggtcaatgg accttcgtca agcctcgatt cgagtactgt cagtatcact 60
agccctgcag gagtcaatgt cgcggta 87
<210> 326
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 326
ttcccgggat tcacttcgcc aacagtatgt cattcgtacc atgcgttcgc atctggtaag 60
aacctaacta tgtaggtcga cgcatct 87
<210> 327
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 327
ttctctttca gtggaatcct ctagctacga ccaaatggac tctagaattc agcagatagt 60
ccaatccgtg atgagctacg ctgagag 87
<210> 328
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 328
ttctagagag gtgcttgagg tcatccacta ggcgacggtc agtgaactca gttcacatag 60
agaatcctag gaccgcgcca gaatcga 87
<210> 329
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 329
ttcttccgcg acggaaattc agatggtctg atcgtcatag tcggaggact cagttgacct 60
acggatttgt tacactagga gttgcca 87
<210> 330
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 330
ttcttcaacg acaatttcgt accgtgcact cgcatgactt tcgcgtgctc gttggtgctc 60
gaggtaccga tactctgaac actcgta 87
<210> 331
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 331
ttcttccact agtgccagtg tctggtacag tgatgacctt gagagcatta ttacaagctg 60
ctccctctgg tgaactgtgc tgatcct 87
<210> 332
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 332
ttcttccagt catagtgtat gcaggctggt gcgagcaagc atccatagca gagcttgaga 60
gctgagcctc tggtggtatg cggaagt 87
<210> 333
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 333
ttcttccctt cgtctgtctc ttcttagcga cgcctcggtc atgagatgaa cctagaggac 60
ttatctcagg tgtgcagcct gctatag 87
<210> 334
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 334
ttcttcccgg agcagactag tcgagtccct tagttcgcta agccggcaag tggaaagtag 60
tagagaggaa gaacgtcgca tctccga 87
<210> 335
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 335
ttcttgagat agcactgccc tcgctacatc acttatactc cgcgttagac gcagggtgcg 60
agttagcatt gaacgagagt atgttac 87
<210> 336
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 336
ttcttggtct aggagacacc ttctgtacta taggacctct tattgtctag cgtcggagca 60
aaggctactt gagctaatct cgctaca 87
<210> 337
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 337
ttcttggtat ctacggactt cacatgtggt ccgcagatct gttcttattt cttacacatc 60
ctcttcccgc ctcattctag caaccga 87
<210> 338
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 338
ttcttagctc agatgcgtat ggctgtcgac atatcagcta tggagaattg tcagttctct 60
gcaatacctc ctcgaactta gctctta 87
<210> 339
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 339
ttcttaacaa attgatctca ttatagacga aacgcaatcg caccaccgtc tcatagcagt 60
cctcctacgc gaaattgcct atctcgt 87
<210> 340
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 340
ttcttgaact gagagatcac ggagcctatg gagggagatg tcacacctgt gcatcacgag 60
aaggcgacga tactgtgaag catacct 87
<210> 341
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 341
ttcttcacta tattcacatt agctaagcgc ataatccgtg gaatcatctg tttaccgtct 60
ggcttcctac accgcgtggc ggagcga 87
<210> 342
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 342
ttcttcacac cggtaaatta cgtcatcaac cgaggatctc gcctcccatt attctgaaac 60
tgagagatgg gtttctcatg agcgtcg 87
<210> 343
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 343
ttcctgggta gcctgtgaaa gcaggtacat tgaaactctc tcactcctca tctgccacag 60
tgcatcaagc cgggaactcg acgcata 87
<210> 344
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 344
ttcctgggac agaacggtct actatagctc cgctgactac gtacatgtga ttgaacggta 60
cagtgactcc ctatgcgata taacgat 87
<210> 345
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 345
ttctcggtgg atttcccttc gggaggagga ggacagcagc taagaacacc agcgaaggtc 60
tatggatcta caatccaggt cttccct 87
<210> 346
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 346
ttctcggcta cgaatctatc tgatatccca cacccgtaca tgtctacggg atagtcagtg 60
tgtttcaaca cggcttaccc aacaaag 87
<210> 347
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 347
ttcctgagcg tcatgactgc taagcgagtg gtcccgcgac gaaatatcga gtctatctat 60
gagctgcgag tctcagtgtg accgcgt 87
<210> 348
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 348
ttcctaagat agtcgatcag atgatatcag atcacagctc actctttaag attggcgaca 60
cctttcatca tggagctgcg acgctca 87
<210> 349
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 349
ttcctagtct tctcgaagcc tccataggga aatggttagg cgggtgtcag attgcatgat 60
cagatctgca gaggaggatt atcaagt 87
<210> 350
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 350
ttcctagtga cggattcttc aagaaagcag tgaatacgac agagcgtcca gtgcatgcga 60
agtactccgg agtgttactg cgcggtc 87
<210> 351
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 351
ttcctggctg tacacagcct cgtgagcact acagtcgctc tccgatcgcc tgtaggatta 60
tatgtgtagg taagctgtta gatcgta 87
<210> 352
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 352
ttcctggcat taatatctga tctgcgtgag agtgcaacgc cgaagggaat catcgtctgc 60
gatactaagg acacggtcct cagcaat 87
<210> 353
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 353
ttcctagaca ctttctcgat ctattacaat gagtgcctct tcatcgcata gtatggaata 60
gcacgtaaca cactaagata tccttct 87
<210> 354
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 354
ttcctagagg agttcgagat acataatttc acggcgtcta taggctacga ccattgttca 60
cagcagatcg taggcgtggc aggccgc 87
<210> 355
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 355
ttcccttcta gccgtactcc gatccaggga ctcaaggtca accctggttc tctcgcgtga 60
gtgggacgat tcatgtgaca ctcaacg 87
<210> 356
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 356
ttcccttcag tctatactat gtcgtctcct gattcggagg agcatgcaga tcaggagctg 60
cctgcgtgac tcgtctgacg tgtgaga 87
<210> 357
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 357
ttccctttct gttagcagtt catagactga tcttgcatcg gagataagca tggcaagatg 60
actggaacta tatctagcaa ggcgtag 87
<210> 358
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 358
ttccctttgc agcagactta gcgagtggta tgacagtctc atcagccatc gtctgtgtac 60
cagcgctctc acgtgatcat caagctg 87
<210> 359
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 359
ttcccttgca accactgatc tcatatccga gtcgtacact ctatgaatat actgatcgag 60
gtcgtgcagt gaacgctcga gccattg 87
<210> 360
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 360
ttcccttgat tgacggtcgg cctctagtat tcaccggcgt gcggtgagtt gctatagact 60
agaagagcgc gatcgcaggt ccctagc 87
<210> 361
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 361
ttcccttact cttatcgagg accgtgatag ggttcatcag atagctacgc agtccctgtc 60
gtcgatatcc tctcaaatcc accgtag 87
<210> 362
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 362
ttcccttagc agtgacgcga ggagaacgct aatcctacgc ctcgcctaca tatccgatag 60
atgagccgag gcggcctagt aggttct 87
<210> 363
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 363
ttcccgcagt gtttccatct caacgtggtc ccggtcaagt tctagcactc tcgccacacg 60
ggtctcggat tcctcctaat cacattc 87
<210> 364
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 364
ttctagtatt gaccagtcta ttagtgccca ttcatcccag agatctaggc tgtcgcgcta 60
gagctaacat tgactcgcgt acgctgt 87
<210> 365
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 365
ttccctctct tcgatctggt acgatagcga tcaatatgtc gatagatagt agatagaatc 60
tgcgcttcga agtcactcga tgagact 87
<210> 366
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 366
ttccctctaa gcgtactctc ttgaccgaag gtacagtctc cagtgagaac tggcccaggt 60
tagctcctgt cagctctacc ttcatta 87
<210> 367
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 367
ttcccactaa gaccggcgac ttacctaagt tatccttatc tgtctgctct ctacgtcttc 60
tctacaggag gtcctaataa tgagaga 87
<210> 368
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 368
ttcttgggca gacatggaag cgcttcgtag ctgaacagac cttgtttgat agtgggacct 60
gcttagagat ctatccatta ttgacct 87
<210> 369
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 369
ttcccaccgc tccattcgct accgagaaat atgcctcgct cttacgtcag aatcggagcg 60
atagctggac gaggttgctg aggactc 87
<210> 370
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 370
ttctacgaga ctagagagcc agaccctcca agctagggac ctggcagagt ggctctagct 60
gatggatgtt tgaattgagc gagctta 87
<210> 371
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 371
ttcttctgaa gtacttacgc tgctctcttg agcgacttca gactcctccg tcagtataga 60
acaactacaa atagcacgtc tgtcttc 87
<210> 372
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 372
ttctcttact gacaggcaac gatccatgcg ctctgctgta ctgagggcga gggtgtccga 60
cgtttccagg cgttcagata ggtcgag 87
<210> 373
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 373
ttctagatgg tcagtttcaa ggatacgata ttaataggca gctgagtaag ccagcctgac 60
cagacgatcc ctcgatgata ttcatga 87
<210> 374
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 374
ttctcttaga agaagcactt ctgatcgcgc gtcagaagac caggttgtga ggcaatgcct 60
ttgatcagag agcgcaacaa gatgcag 87
<210> 375
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 375
ttccctggat agaagcgatt gctggtgact tgtcgatgat gattctagtc gggaatctga 60
caggtaacaa gtccaatgtg tggtgga 87
<210> 376
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 376
ttctaccgac agactaagct gtagagcgga ttcaaggcac tcggtgactc tggattaagc 60
cgaggccgta agtgtcagca gggactg 87
<210> 377
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 377
ttctagcata tagctaaggg agaggtcgga ggatagaacg ctccgaatct ccgagcacct 60
aagtcggcta agctggctcc ggtaggt 87
<210> 378
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 378
ttctctcagt gctagaagga gtcgacaaag actcattctt gctgaagttt agctgagcag 60
ctgtgtcgag gtggaggact gaagagt 87
<210> 379
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 379
ttctagccac cgactcgccc gatggtatat caggagtcag atacagtgta tgaccgacag 60
ggcctctaca agttgaactt gcagaac 87
<210> 380
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 380
ttcttggacg cttctagtac tagttgtgct atccctagtt atagccacca gcgagagtag 60
acaggattgt taataaagaa ggagcac 87
<210> 381
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 381
ttcttcttct tacctaacaa caagaataat aataataatc ctaataacaa caataacaat 60
aataacaaca acaatgatta gccttga 87
<210> 382
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 382
ttcttgggag gagtgtcgag agagttgcga ggcagagctt gatctcatta gatccatgag 60
acgttgggac tcaagtatct ggagtcg 87
<210> 383
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 383
ttcctcagta gatacataga gagcgagtat caggctgacg gaagatgaag actatcgact 60
gaggacgagc tgggaatagc ttcagtc 87
<210> 384
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 384
ttcttcttaa agatactaac aactgcttgc gagctggatg tcctctcgaa gaattgcttc 60
aagatcttgg tgctcgagcc aagccca 87
<210> 385
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 385
ttctagttca ctactgtcat acagggctag ctaataactt ctcctgagta tgctcctcct 60
ggtgcttaga gtgacgagac actacgt 87
<210> 386
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 386
ttctatggac cggctttgct ctgttgatcg tcgatagact tccagctaca ccacgacccg 60
ggccgaatgg tattggctga tctgaag 87
<210> 387
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 387
ttctagtctt ctatcgagtc tggtcatagt catatcgcac gaagacatgg tctaagtcag 60
cgccgaatct gtgacgtctt cttgaca 87
<210> 388
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 388
ttctagttaa gagagtctat catcgtcagt gtcgcgaagg atcgtcgaca ccctatcaat 60
ctcgtctatt ctttccagcg cgtgtct 87
<210> 389
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 389
ttctatgacc tccagtcata gcagaagtgt atcgaccatc tgcctccgac aatcctcagt 60
agacctccac caccaatccg tgtcaga 87
<210> 390
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 390
ttctacgcat tactggtgca cgcattccga ttctacgtag tagtcagcta gtctccttgc 60
cgagagaacg tccagacgtc agcactc 87
<210> 391
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 391
ttctcgtgcg gcggatctcc atagccgggt ttcatgggtg taagaggagt cggtcaggag 60
atcttattcc tcatcgcggg aagtctc 87
<210> 392
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 392
ttctcatagg agatacgacc tttcaaccga gtgctcgcga cgcacggcat ccatccggtc 60
aatacggctg gtatgcagcc tccactc 87
<210> 393
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 393
ttctcgtacg gacgagctac tctggctcta ggagtcgatc gaaagtatac gaagaaggga 60
tgtactcagc agctcactga gcgagga 87
<210> 394
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 394
ttctcatcgc tgtgaaactg atctctcaag tcatgagtgt acttgctcca gactggatga 60
acaggtcagc cttagtgcta tatgtgc 87
<210> 395
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 395
ttctcatcta tcctgggccc agacttcctg gtccgtaagc taaattctct cttctactga 60
gcattctatc cagagttgag atctaag 87
<210> 396
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 396
ttctcgttgc acgtgtctat atatttcggc tcatgaactc tctatgtcct cctcgcggtc 60
gtgcagctgc ataagtcata ggagtac 87
<210> 397
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 397
ttctcgttcc cttactctaa gtcaagtaac tgattcggac caagcttcaa gcctggcccg 60
tcaacagagc cgggtaagaa tgctgag 87
<210> 398
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 398
ttctctggag agacttagaa gagtagtacg actatgacac ctctgctatt actcgtgacg 60
ccgcatgacg tctctggaag accgcga 87
<210> 399
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 399
ttctctggtg tcggactgcc gaagatacca ggacagcata acttactggc gtaggacaga 60
gtccagacta tcaatatccg actgcgt 87
<210> 400
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 400
ttctctgaga tcaagctcgg agtcagcatg gctgtgggcc cactggcttg ttagagtgac 60
cgacagagag atccacatag ccctgac 87
<210> 401
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 401
ttcttctctt tacagtcgag aacttcatca cagcctcgtt agtctagttc tagcgaggta 60
tctcatagcg agctacctac tggcata 87
<210> 402
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 402
ttcctctaga tcggtcgcct cagaatccga tattatggct atcgtcatag aaaggtcgta 60
ttcactttcc ctcctatgag aggttac 87
<210> 403
<211> 87
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 403
ttctaggtcg tgatcgcgtc tgattcacag ttcttgggag ctctattggg acgtaaggag 60
ctcggaaaca agcatagttg tggcatc 87
<210> 404
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 404
aatcttgtgg gtagtaggcg 20
<210> 405
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 405
cctaagatgg gcggaaaact 20
<210> 406
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 406
aatgaatgcc cttccttcct 20
<210> 407
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 407
tcaacgtagg gcgaagaaat 20
<210> 408
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 408
acacaatacc attggcagga 20
<210> 409
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 409
cttgcgtgcc atatctgatg 20
<210> 410
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 410
acagccaaag aataccgtcc 20
<210> 411
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 411
taagtgctca aaacgaacgg 20
<210> 412
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 412
acgatgggga catagaacac 20
<210> 413
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 413
ttgcccttcg ctcaatctag 20
<210> 414
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 414
acgcccacta tatttcacca 20
<210> 415
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<223> 合成构建体
<400> 415
tggggacttt taccatccag 20
Claims (92)
1.一种用于在核酸上存储输入数据的方法,所述方法包括:
a)将所述输入数据转换成一组核苷酸序列,其中所述转换包括
i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换为二进制字符串;
ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得所述一组核苷酸序列;以及
b)合成包含所述一组核苷酸序列的一组核酸。
2.如权利要求1所述的方法,所述方法还包括将一对引物附接到所述一组合成的核酸。
3.如权利要求1所述的方法,所述方法还包括存储所述一组合成的核酸。
4.如权利要求3所述的方法,其中将所述一组合成的核酸通过干燥贮存。
5.如权利要求4所述的方法,其中将所述一组合成的核酸通过冻干贮存。
6.如权利要求3所述的方法,其中将所述一组合成的核酸固定到载体上。
7.如权利要求6所述的方法,其中所述载体是微阵列。
8.如权利要求1所述的方法,其中所述数据处理步骤包括将所述二进制字符串划分为一系列不重叠的5位二进制字符串。
9.如权利要求8所述的方法,其中所述核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串。
10.如权利要求9所述的方法,其中所述核苷酸编码步骤还包括使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。
11.如权利要求9所述的方法,其中所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。
12.如权利要求11所述的方法,其中所述多个初始整数子序列中的每一个初始整数子序列的长度是基于选定的合成平台的寡核苷酸长度、期望的错误容限、输入数据的大小、选定的纠错码,或它们组合而确定的。
13.如权利要求11所述的方法,其中所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。
14.如权利要求13所述的方法,其中添加到所述多个初始整数子序列中的每一个中的所述索引信息包括整数序列,其中所述整数序列的长度基于所述输入数据的大小。
15.如权利要求13所述的方法,其中所述核苷酸编码步骤包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。
16.如权利要求15所述的方法,其中添加冗余数据到所述多个具有索引的整数子序列中包括:
创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小,并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列的每一个中的整数的数目;
用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及
基于所述经填充的矩阵,获得所述多个具有冗余的子序列。
17.如权利要求16所述的方法,其中所述空矩阵的所述列数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
18.如权利要求16所述的方法,其中所述空矩阵的所述行数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
19.如权利要求16-18中任一项所述的方法,其中所述纠错编码是Reed-Solomon(“RS”)编码。
20.如权利要求19所述的方法,其中所述通过应用纠错编码生成的数据是通过应用所述RS编码的字符串校正和/或所述RS编码的块校正而生成的。
21.如权利要求20所述的方法,其中R和Y是基于以下选择的:1)与紧接在R或Y前面的核苷酸不同;和/或2)所述核苷酸序列的估计GC含量。
22.如权利要求1所述的方法,其中所述输入数据对应于压缩文件。
23.如权利要求22所述的方法,其中所述输入数据对应于两个或更多个文件。
24.如权利要求1所述的方法,其中所述输入数据对应于文本文件。
25.如权利要求1所述的方法,其中所述数据处理步骤还包括压缩所述输入数据以获得压缩文件,并将所述压缩文件转换成二进制字符串。
26.如权利要求23所述的方法,其中所述压缩文件是使用Lempel-Zic-Markov链算法(“LZMA”)压缩的。
27.如权利要求26所述的方法,其中所述数据处理步骤还包括:将所述两个或更多个文件分组成TAR文件。
28.如权利要求27所述的方法,其中使用所述Lempel-Zic-Markov链算法(“LZMA”)来进一步压缩所述TAR文件。
29.如权利要求1所述的方法,其中所述核苷酸编码步骤还包括将一对引物序列附加到所述一组核苷酸序列的每个核苷酸序列的5'末端和3'末端。
30.如权利要求1所述的方法,其中所述一组合成的核酸的GC含量的范围为30%至70%。
31.如权利要求1所述的方法,其中所述一组合成的核酸的GC含量小于约70%。
32.一种用于将输入数据转换为一组核苷酸序列的计算机实现的方法,所述方法包括:
i)数据处理步骤,所述数据处理步骤包括将所述输入数据转换为二进制字符串;
ii)核苷酸编码步骤,所述核苷酸编码步骤包括使用5位转码框架转换所述二进制字符串以获得一组核苷酸序列。
33.如权利要求32所述的方法,其中所述数据处理步骤包括将所述二进制字符串划分为一系列不重叠的5位二进制字符串。
34.如权利要求33所述的方法,其中所述核苷酸编码步骤包括将每个5位二进制字符串转换成范围为0到31的整数,以获得整数字符串。
35.如权利要求34所述的方法,其中所述核苷酸编码步骤还包括使用所述5位转码框架转换所述整数字符串以获得所述一组核苷酸序列。
36.如权利要求34所述的方法,其中所述核苷酸编码步骤还包括将所述整数字符串划分成具有预定长度的多个初始整数子序列。
37.如权利要求36所述的方法,其中所述多个初始整数子序列中的每一个初始整数子序列的长度是基于选定的合成平台的寡核苷酸长度、期望的错误容限、输入数据的大小、选定的纠错码,或它们组合而确定的。
38.如权利要求36所述的方法,其中所述核苷酸编码步骤还包括添加索引信息到所述多个初始整数子序列中的每一个中,以获得多个具有索引的整数子序列。
39.如权利要求38所述的方法,其中添加到所述多个初始整数子序列中的每一个中的所述索引信息包括整数序列,其中所述整数序列的长度基于所述输入数据的大小。
40.如权利要求38所述的方法,其中所述核苷酸编码步骤包括在添加所述索引信息之后,添加冗余数据到所述多个具有索引的整数子序列中,从而获得多个具有冗余的整数子序列。
41.如权利要求40所述的方法,其中添加冗余数据到所述多个具有索引的整数子序列中包括:
创建空矩阵,其中所述空矩阵中的列数大于所述多个具有索引的整数子序列的大小,并且其中所述空矩阵的行数大于所述多个具有索引的整数子序列的每一个中的整数的数目;
用所述多个具有索引的整数子序列和通过应用纠错编码生成的数据来填充所述空矩阵;以及
基于所述经填充的矩阵,获得所述多个具有冗余的子序列。
42.如权利要求41所述的方法,其中所述空矩阵的所述列数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
43.如权利要求41所述的方法,其中所述空矩阵的所述行数是基于选定的合成平台的寡核苷酸长度、所述纠错码的类型、预定的错误容限值、所述多个具有索引的整数子序列的大小,或它们的组合而确定的。
44.如权利要求41-43中任一项所述的方法,其中所述纠错编码是Reed-Solomon(“RS”)编码。
45.如权利要求44所述的方法,其中所述通过应用纠错编码生成的数据是通过应用所述RS编码的字符串校正和/或所述RS编码的块校正而生成的。
46.如权利要求45所述的方法,其中R和Y是基于以下选择的:1)与紧接在R或Y前面的核苷酸不同;和/或2)所述核苷酸序列的估计GC含量。
47.如权利要求32所述的方法,其中所述输入数据对应于压缩文件。
48.如权利要求47所述的方法,其中所述输入数据对应于两个或更多个文件。
49.如权利要求32所述的方法,其中所述输入数据对应于文本文件。
50.如权利要求32所述的方法,其中所述数据处理步骤还包括压缩所述输入数据以获得压缩文件,并将所述压缩文件转换成二进制字符串。
51.如权利要求48所述的方法,其中所述压缩文件是使用Lempel-Zic-Markov链算法(“LZMA”)压缩的。
52.如权利要求51所述的方法,其中所述数据处理步骤还包括:将所述两个或更多个文件分组成TAR文件。
53.如权利要求52所述的方法,其中使用所述Lempel-Zic-Markov链算法(“LZMA”)来进一步压缩所述TAR文件。
54.如权利要求32所述的方法,其中所述核苷酸编码步骤还包括将一对引物序列附加到所述一组核苷酸序列的每个核苷酸序列的5'末端和3'末端。
55.一种用于在核酸上存储两组或更多组输入数据的方法,所述方法包括:
a)根据如权利要求32-48中任一项所述的方法,将所述两组或更多组输入数据分别转换为两组或更多组对应的核苷酸序列;
b)将一对引物序列分别附加到所述两组或更多组核苷酸序列的每一组的5'末端和3'末端,其中用于所述两组或更多组对应的核苷酸序列的所述引物对彼此不同;以及
c)分别合成包含所述两组或更多组对应的核苷酸序列的两组或更多组核酸。
56.如权利要求55所述的方法,其中每一对引物的序列与所述两组或更多组对应的核苷酸序列或其互补序列中的任一者不同。
57.如权利要求55所述的方法,其中所述一组合成的核酸的GC含量的范围为30%至70%。
58.如权利要求55所述的方法,其中所述一组合成的核酸的GC含量小于约70%。
59.一种用于检索存储在核酸上的输出数据的方法,所述方法包括:
a)获得一组核酸的一组核苷酸序列,
b)将所述一组核苷酸序列转换成所述输出数据,其中所述转换包括:
i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及
ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据,从而获得所述输出数据。
60.如权利要求59所述的方法,其中所述方法还包括在检索所述输出数据之前扩增所述一组核酸。
61.如权利要求59-60中任一项所述的方法,所述方法还包括对所述一组核酸进行测序以生成多个序列读段。
62.如权利要求61所述的方法,其中将所述多个序列读段进行配对、合并和过滤以获得所述一组核苷酸序列。
63.如权利要求59所述的方法,其中所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。
64.如权利要求63所述的方法,其中所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。
65.如权利要求64所述的方法,其中所述应用纠错编码的步骤包括:
i)对所述多个整数子序列应用RS编码字符串校正,以获得多个共有整数子序列;以及
ii)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列。
66.如权利要求64或65所述的方法,其中所述核苷酸解码步骤还包括从所述多个具有索引的整数子序列去除所述索引以获得多个核心整数子序列。
67.如权利要求66所述的方法,其中所述核苷酸解码步骤还包括将所述核心整数子序列合并成整数字符串。
68.如权利要求67所述的方法,其中所述核苷酸解码步骤还包括将所述整数字符串转换成二进制字符串。
69.如权利要求68所述的方法,其中将所述输出数据存储在压缩文件中。
70.如权利要求69所述的方法,其中所述数据处理步骤还包括将所述压缩文件解压缩。
71.如权利要求70所述的方法,其中通过LZMA算法执行所述解压缩。
72.如权利要求68所述的方法,其中所述输出数据对应于多个文件。
73.如权利要求72所述的方法,所述方法还包括通过TAR算法从所述输出数据提取所述多个文件。
74.如权利要求59的方法,其中所述一组核酸在3'末端和5'末端处包含引物序列,并且所述方法包括在所述核苷酸解码步骤之前去除所述引物序列。
75.一种用于将一组核苷酸序列转换成输出数据的计算机实现的方法,所述方法包括:
i)核苷酸解码步骤,所述核苷酸解码步骤包括使用5位转码框架将所述一组核苷酸序列转换成二进制字符串;以及
ii)数据处理步骤,所述数据处理步骤包括将二进制字符串转换成所述输出数据。
76.如权利要求75所述的方法,其中所述核苷酸解码步骤包括将所述一组核苷酸序列转换成包括范围为0到31的整数的多个整数子序列。
77.如权利要求76所述的方法,其中所述核苷酸解码步骤还包括将纠错编码应用于所述多个整数子序列,从而获得所述多个具有索引的整数子序列。
78.如权利要求77所述的方法,其中所述应用纠错编码的步骤包括:
i)对所述多个整数子序列应用RS编码字符串校正,以获得多个共有整数子序列;以及
ii)对所述多个共有整数子序列应用RS编码块校正,以获得所述多个具有索引的整数子序列。
79.如权利要求77或78所述的方法,其中所述核苷酸解码步骤还包括从所述多个具有索引的整数子序列去除所述索引以获得多个核心整数子序列。
80.如权利要求79所述的方法,其中所述核苷酸解码步骤还包括将所述核心整数子序列合并成整数字符串。
81.如权利要求80所述的方法,其中所述核苷酸解码步骤还包括将所述整数字符串转换成二进制字符串。
82.如权利要求81所述的方法,其中将所述输出数据存储在压缩文件中。
83.如权利要求82所述的方法,其中所述数据处理步骤还包括将所述压缩文件解压缩。
84.如权利要求83所述的方法,其中通过LZMA算法执行所述解压缩。
85.如权利要求81所述的方法,其中所述输出数据对应于多个文件。
86.如权利要求85所述的方法,所述方法还包括通过TAR算法从所述输出数据提取所述多个文件。
87.如权利要求75的方法,其中所述一组核酸在3'末端和5'末端处包含引物序列,并且所述方法包括在所述核苷酸解码步骤之前去除所述引物序列。
88.一种用于检索存储在一组感兴趣核酸上的输出数据的方法,其中所述一组感兴趣核酸是混合物中存在的多组核苷酸序列中的一组,每一组编码不同的一组输出数据并且在3'末端和5'末端处具有不同的一组引物对,所述方法包括:
a)使用对应于感兴趣核酸的引物对来扩增所述一组核酸;
b)获得所述经扩增核酸的一组核苷酸序列,
c)根据如权利要求75-86中任一项所述的方法将所述一组核苷酸序列转换成所述输出数据;
从而获得所述输出数据。
89.一种用于检索存储在对应的两组或更多组感兴趣核酸上的两组或更多组输出数据的方法,其中所述两组或更多组感兴趣核酸在混合物中存在的多个核苷酸序列中,每一组编码不同的一组输出数据并且在3'末端和5'末端处具有不同的一组引物对,所述方法包括:
a)使用对应于所述两组或更多组感兴趣核酸的引物对扩增所述两组或更多组感兴趣核酸;
b)获得所述经扩增核酸的两组或更多组核苷酸序列,
c)根据如权利要求75-86中任一项所述的方法,将所述两组或更多组核苷酸序列分别转换成所述两组或更多组输出数据;
从而获得所述两组或更多组输出数据。
90.一种存储一个或多个程序的非暂时性计算机可读存储介质,所述一个或多个程序包括这样的指令,所述指令当被电子设备的一个或多个处理器执行时使所述电子设备执行如权利要求32-59、63-73和75-86中任一项所述的方法。
91.一种用于提供基于核酸的数据存储或从核酸进行数据检索的系统,所述系统包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求32-59、63-73和75-86中任一项所述的方法的指令。
92.一种用于提供基于核酸的数据存储或从核酸进行数据检索的电子设备,所述电子设备包括用于执行如权利要求32-59、63-73和75-86中任一项所述的方法的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611123.2A CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
CN2017106111232 | 2017-07-25 | ||
PCT/CN2018/097083 WO2019020059A1 (en) | 2017-07-25 | 2018-07-25 | STORING AND EXTRACTING DNA DATA |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110945595A CN110945595A (zh) | 2020-03-31 |
CN110945595B true CN110945595B (zh) | 2023-08-18 |
Family
ID=65040380
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710611123.2A Active CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
CN201880048731.XA Active CN110945595B (zh) | 2017-07-25 | 2018-07-25 | 基于dna的数据存储和检索 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710611123.2A Active CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20200211677A1 (zh) |
EP (1) | EP3659147A4 (zh) |
JP (1) | JP7090148B2 (zh) |
KR (1) | KR20200071720A (zh) |
CN (2) | CN109300508B (zh) |
WO (1) | WO2019020059A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963429B2 (en) * | 2017-10-11 | 2021-03-30 | Lognovations Holdings, Llc | Method and system for content agnostic file indexing |
WO2019191083A1 (en) * | 2018-03-26 | 2019-10-03 | Colorado State University Research Foundation | Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules |
US11017170B2 (en) * | 2018-09-27 | 2021-05-25 | At&T Intellectual Property I, L.P. | Encoding and storing text using DNA sequences |
GB201907460D0 (en) | 2019-05-27 | 2019-07-10 | Vib Vzw | A method of storing information in pools of nucleic acid molecules |
CN110442472B (zh) * | 2019-07-03 | 2021-08-13 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
US20210074380A1 (en) * | 2019-09-05 | 2021-03-11 | Microsoft Technology Licensing, Llc | Reverse concatenation of error-correcting codes in dna data storage |
CN110708076B (zh) * | 2019-09-25 | 2022-12-20 | 东南大学 | 一种基于混合模型的dna存储编解码方法 |
CN111368132B (zh) * | 2020-02-28 | 2023-04-14 | 元码基因科技(北京)股份有限公司 | 基于dna序列存储音频或视频文件的方法及存储介质 |
CN111489791B (zh) * | 2020-04-07 | 2023-05-26 | 中国科学院重庆绿色智能技术研究院 | 固态纳米孔高密度编码dna数字存储读取方法 |
CN115699189A (zh) * | 2020-06-03 | 2023-02-03 | 深圳华大生命科学研究院 | 生成dna存储编解码规则的方法和装置及dna存储编解码方法和装置 |
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN112615627A (zh) * | 2020-11-13 | 2021-04-06 | 北京信工博特智能科技有限公司 | 基于改进行程长度编码的动态压缩方法及动态压缩系统 |
WO2022120626A1 (zh) * | 2020-12-09 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于dna的数据存储方法、数据恢复方法、装置及终端设备 |
CN113098526B (zh) * | 2021-04-08 | 2022-04-12 | 哈尔滨工业大学 | 一种dna自索引区间解压缩方法 |
CN113314187B (zh) * | 2021-05-27 | 2022-05-10 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
CN113744804B (zh) * | 2021-06-21 | 2023-03-10 | 深圳先进技术研究院 | 利用dna进行数据存储的方法、装置及存储设备 |
CN113806583A (zh) * | 2021-09-03 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 音视频文件的dna数据存储单元、存储方法及纠错方法 |
CN114356220B (zh) * | 2021-12-10 | 2022-10-28 | 中科碳元(深圳)生物科技有限公司 | 基于dna存储的编码方法、电子设备及可读存储介质 |
US11809839B2 (en) | 2022-01-18 | 2023-11-07 | Robert Lyden | Computer language and code for application development and electronic and optical communication |
WO2024076044A1 (ko) * | 2022-10-06 | 2024-04-11 | 이근우 | Dna 인코딩 및 디코딩 방법 및 장치 |
CN115514375B (zh) * | 2022-11-18 | 2023-03-24 | 江苏网进科技股份有限公司 | 一种缓存数据压缩方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053766A1 (en) * | 2002-12-06 | 2004-06-24 | London Health Sciences Centre Research Inc. | Reverse translation of protein sequences to nucleotide code |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003025123A2 (en) | 2001-08-28 | 2003-03-27 | Mount Sinai School Of Medecine | Dna: a medium for long-term information storage specification |
US20040153255A1 (en) * | 2003-02-03 | 2004-08-05 | Ahn Tae-Jin | Apparatus and method for encoding DNA sequence, and computer readable medium |
US20050053968A1 (en) | 2003-03-31 | 2005-03-10 | Council Of Scientific And Industrial Research | Method for storing information in DNA |
US8116988B2 (en) * | 2006-05-19 | 2012-02-14 | The University Of Chicago | Method for indexing nucleic acid sequences for computer based searching |
KR101638594B1 (ko) * | 2010-05-26 | 2016-07-20 | 삼성전자주식회사 | Dna 서열 검색 방법 및 장치 |
AU2013269536B2 (en) | 2012-06-01 | 2018-11-08 | European Molecular Biology Laboratory | High-capacity storage of digital information in DNA |
CN108875312A (zh) * | 2012-07-19 | 2018-11-23 | 哈佛大学校长及研究员协会 | 利用核酸存储信息的方法 |
CN103093121B (zh) * | 2012-12-28 | 2016-01-27 | 深圳先进技术研究院 | 双向多步deBruijn图的压缩存储和构造方法 |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
GB2530012A (en) * | 2014-08-05 | 2016-03-16 | Illumina Cambridge Ltd | Methods and systems for data analysis and compression |
CN105760706B (zh) * | 2014-12-15 | 2018-05-29 | 深圳华大基因研究院 | 一种二代测序数据的压缩方法 |
CN104850760B (zh) * | 2015-03-27 | 2016-12-21 | 苏州泓迅生物科技有限公司 | 人工合成dna存储介质的信息存储读取方法 |
EP3322812B1 (en) | 2015-07-13 | 2022-05-18 | President and Fellows of Harvard College | Methods for retrievable information storage using nucleic acids |
EP3173961A1 (en) * | 2015-11-27 | 2017-05-31 | Thomson Licensing | Method for storing user data and decoding information in synthesized oligos, apparatus and substance |
-
2017
- 2017-07-25 CN CN201710611123.2A patent/CN109300508B/zh active Active
-
2018
- 2018-07-25 US US16/631,405 patent/US20200211677A1/en active Pending
- 2018-07-25 WO PCT/CN2018/097083 patent/WO2019020059A1/en unknown
- 2018-07-25 KR KR1020207005340A patent/KR20200071720A/ko not_active Application Discontinuation
- 2018-07-25 CN CN201880048731.XA patent/CN110945595B/zh active Active
- 2018-07-25 JP JP2020500842A patent/JP7090148B2/ja active Active
- 2018-07-25 EP EP18838636.1A patent/EP3659147A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053766A1 (en) * | 2002-12-06 | 2004-06-24 | London Health Sciences Centre Research Inc. | Reverse translation of protein sequences to nucleotide code |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200211677A1 (en) | 2020-07-02 |
EP3659147A1 (en) | 2020-06-03 |
EP3659147A4 (en) | 2022-07-20 |
KR20200071720A (ko) | 2020-06-19 |
JP2020534633A (ja) | 2020-11-26 |
CN109300508B (zh) | 2020-08-11 |
WO2019020059A1 (en) | 2019-01-31 |
CN109300508A (zh) | 2019-02-01 |
CN110945595A (zh) | 2020-03-31 |
JP7090148B2 (ja) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110945595B (zh) | 基于dna的数据存储和检索 | |
US11379729B2 (en) | Nucleic acid-based data storage | |
JP7179008B2 (ja) | 核酸ベースのデータ記憶 | |
CN109830263B (zh) | 一种基于寡核苷酸序列编码存储的dna存储方法 | |
CN112382340B (zh) | 用于dna数据存储的编解码方法和编解码装置 | |
US20180046921A1 (en) | Code generation method, code generating apparatus and computer readable storage medium | |
EP2947779A1 (en) | Method and apparatus for storing information units in nucleic acid molecules and nucleic acid storage system | |
US9774351B2 (en) | Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity | |
Wang et al. | Oligo design with single primer binding site for high capacity DNA-based data storage | |
CN107633158B (zh) | 对基因序列进行压缩和解压缩的方法和设备 | |
TWI770247B (zh) | 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置 | |
CN115249509A (zh) | 基于脱氧核糖核酸技术的数据编码方法及解码方法 | |
US20240194296A1 (en) | Method for the Compression of Genome Sequence Data | |
WO2004070029A1 (en) | Method to encode a dna sequence and to compress a dna sequence | |
Bhattacharyya et al. | Recent directions in compressing next generation sequencing data | |
EP3098742A1 (en) | Method and apparatus for creating a plurality of oligos with a targeted distribution of nucleotide types |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |