CN109300508A - 一种dna数据存储编码解码方法 - Google Patents
一种dna数据存储编码解码方法 Download PDFInfo
- Publication number
- CN109300508A CN109300508A CN201710611123.2A CN201710611123A CN109300508A CN 109300508 A CN109300508 A CN 109300508A CN 201710611123 A CN201710611123 A CN 201710611123A CN 109300508 A CN109300508 A CN 109300508A
- Authority
- CN
- China
- Prior art keywords
- dna
- artificial sequence
- data
- coding
- integer type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3086—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/08—Error detection or correction by redundancy in data representation, e.g. by using checking codes
- G06F11/10—Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
- G06F11/1076—Parity data used in redundant arrays of independent storages, e.g. in RAID systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/03—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
- H03M13/05—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
- H03M13/13—Linear codes
- H03M13/15—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes
- H03M13/151—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes using error location or error correction polynomials
- H03M13/1515—Reed-Solomon codes
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3068—Precoding preceding compression, e.g. Burrows-Wheeler transformation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S977/00—Nanotechnology
- Y10S977/70—Nanostructure
- Y10S977/701—Integrated with dissimilar structures on a common substrate
- Y10S977/702—Integrated with dissimilar structures on a common substrate having biological material component
- Y10S977/704—Nucleic acids, e.g. DNA or RNA
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种DNA数据存储的编码解码方法,它包括数据编码和数据解码,其特征是所述的数据编码包含以下步骤:数据压缩,即先将一个或多个电子文档打包成单个文件。数据转码,即压缩文件以二进制形式读取,然后将二进制数据转成整数型数值串。数据加冗余,即利用RS编码系统进行纠错编码,生成数据冗余增加的整数型数值串。数据第二次转码,即将加冗余后的整数型数值串转码成可以用于芯片合成的DNA序列集。数据读取为数据编码的反向过程。与其他算法相比,该框架通过全新的5比特编码框架更好的对接CustomArray高通量合成平台,其编码潜力(Coding potential)为1.67;同时该算法利用TAR和LZMA压缩算法以及RS编码系统的联合使用策略,在降低数据冗余和增加纠错能力之间保持好平衡。
Description
技术领域
本发明涉及一种数据存储技术,尤其是一种大容量数据存储技术,具体地说是一种DNA数据存储过程中的编码框架,以及基于数据压缩和纠错编码的DNA数据存储流程开发。
背景技术
DNA数据存储始于1988年,是指利用DNA分子记录和存储数据,相较于磁带存储和磁盘存储等传统数据存储方式,其优势是高密度数据量(1立方毫米的DNA可存储1EB)、长时间保存(预估-18℃存放一百万年)和低后续维护成本,发展至今,其缺点是现阶段DNA合成成本依然很高且数据读取速度慢,因此DNA数据存储更适合大数据档案存储。DNA数据存储是有赖于DNA高通量芯片合成平台(比如CustomArray)与二代测序平台(比如IlluminaHiSeq 2500或MiSeq)共同打造的前沿探索性方向。迄今为止Nature、Science等著名刊物报道的成功用于DNA数据存储的数据类型包括电子照片、文本文件、PDF文档和音频文件,随着DNA芯片合成和NGS测序提速以及成本的降低,其潜在应用价值和市场空间明显(比如Fackbook俄勒冈的数据中心最多可以存储十亿G的数据量,而整个互联网的数据量至2017估计将达到16ZB),由于目前其还处于高投入低收益阶段,只有少数院校(包括ETH Zurich、EBI、哈佛大学、华盛顿大学和延世大学)与企业(比如Twist和微软)在进行相关研究。
DNA数据存储研究面临的困难在于研究成本和实际应用的成本问题,以及合成、存储以及测序读取过程引入的碱基突变、碱基插入缺失、序列丢失和降解等原因导致数据无法完整写入和读取的问题。通过无损数据压缩减少原始数据存储空间,再通过纠错编码加冗余从而增加信道抗噪能力和接收端数据恢复能力对解决上述问题十分有效。
针对公司已有的CustomArray合成平台和MiSeq测序平台的生产特点,我们尝试全新的编码框架,并融合数据压缩算法和纠错编码,开发了一种联合编码的DNA数据存储算法,有效的解决了DNA数据存储读写过程中数据丢失和纠错问题,并提高了数据存储的效率。
发明内容
本发明的目的是针对现有的数据存储成本高且读取速度慢的问题,发明一套完整有效的涉及DNA数据存储的编码框架,以及同时结合了压缩与纠错算法的联合编码流程,实现以DNA序列作为存储介质的数据保存方法。
本发明的技术方案是:
一种DNA数据存储的编码解码方法,它包括数据编码和数据解码,其特征是所述的数据编码包含以下步骤:1)数据压缩,即先将一个或多个电子文档打包成单个TAR格式的文件A.tar,再用Lempel-Ziv-Markov chain-Algorithm算法(LZMA算法)将TAR文件进行二次压缩,生成A.tar.lzma;2)数据转码,即先将A.tar.lzma以二进制形式读取,然后将二进制数据转成整数型数值串B,并用滑动窗口将B切割成无重复子串[A1,A2,…,An],最后对子串加索引生成[B1,B2,…,Bn];3)数据加冗余,即利用RS编码系统(Reed-solomon codes)对[B1,B2,…,Bn]进行包括一次子串编码和一次数据块编码的两次纠错编码,生成数据冗余增加的整数型数值串[C1,C2,…,Cn];(4)数据第二次转码,即将整数型数值串[C1,C2,…,Cn]转码成可以用于芯片合成的DNA序列集[D1,D2,…,Dn];所述的数据解码为数据编码的反向过程,包括以下步骤:1)对合成出的DNA序列进行二代测序,过滤掉测序长度和测序质量不符合要求的测序片段(reads),并对测序片段进行配对拼接;2)将拼接好的测序片段(assembled reads)逆转码成整数型数值串,随后利用RS编码系统对整数型数值串进行子串解码,根据索引对数值串排序;通过选取频率最高的整数,把具有同样索引的整数型数字串合并成一条最有可能的整数型数字串,再用RS编码系统进行数据块解码,随后删去数据索引并将其连接生成一条完整的整数型数值串B;3)数据第二次逆转码,将B转成二进制数据后写入文件,并用LZMA算法和TAR解压文件,从而读出文件。
所述的数据是指任何可以以二进制表示或存储的信息。
本发明采用5比特(bit)编码框架,即根据每五个比特可以转化成一个0到31之间的整数的对应规则,将二进制数据转成整数型数值串。由于碱基A、T、G、C可以组成16种二联碱基,二联碱基再与碱基R和Y组合,可以生成32种三联碱基,恰好与0至31的32个整数相对应,所以最终二进制数据可以转换成DNA序列;对于碱基R和Y在合成过程中具体使用哪种碱基,即R可以对应候选碱基A和G;Y可以对应候选C和T,主要考虑其前一位碱基,即在保证不与前一位碱基重复的前提下随机选取,同时考虑到DNA合成平台对DNA片段(Oligonucleotide)的GC百分比的限制,来控制使R和Y的转换来使DNA序列达到GC%的控制要求。
本发明的有益效果:
本发明设计的数据存储框架结合了压缩算法(即TAR和LZMA)与RS纠错码、5比特转换框架(包括Y/R选取、GC%控制),成功的完成DNA数据读写存储整个测试,整个框架的编码潜力(Coding potential)达到1.67。
本发明不仅能够提高数据存储和读取效率,更能对DNA数据存储和读取过程中产生的错误进行有效纠正。
与其他算法相比,本发明通过全新的5比特编码框架更好的对接CustomArray高通量合成平台,其编码潜力(Coding potential)为1.67;同时该算法利用TAR和LZMA压缩算法以及RS编码系统的联合使用策略,在降低数据冗余和增加纠错能力之间保持好平衡。
附图说明
图1为DNA数据存储框架流程概览。
图2为数据转码流程。
图3为RS编码步骤一。
图4为RS编码步骤二。
图5为RS编码步骤三。
图6为RS编码步骤四。
图7为编码框架。
图8为案例实施流程。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1-8所示。
一种DNA数据存储的编码解码方法,是一套完整有效的涉及DNA数据存储的编码框架,以及同时结合了压缩与纠错算法的联合编码流程,实现了以DNA序列作为存储介质的数据保存方法,如图1。它不仅能够提高数据存储和读取效率,更能对DNA数据存储和读取过程中产生的错误进行有效纠正。其数据编码包含以下步骤:1)数据压缩,即先将一个或多个电子文档打包成单个TAR格式的文件A.tar,再用Lempel-Ziv-Markov chain-Algorithm算法(LZMA算法)将TAR文件进行二次压缩,生成A.tar.lzma。2)数据转码,即先将A.tar.lzma以二进制形式读取,然后将二进制数据转成整数型数值串B,并用滑动窗口将B切割成无重复子串[A1,A2,…,An],最后对子串加索引生成[B1,B2,…,Bn]。3)数据加冗余,即利用RS编码系统(Reed-solomon codes)对[B1,B2,…,Bn]进行两次纠错编码(包括一次子串编码和一次数据块编码),生成数据冗余增加的整数型数值串[C1,C2,…,Cn]。(4)数据第二次转码,即将整数型数值串[C1,C2,…,Cn]转码成可以用于芯片合成的DNA序列集[D1,D2,…,Dn]。
本发明的数据读取为数据编码的反向过程,包括以下步骤:1)对合成出的DNA序列进行二代测序,过滤掉测序长度和测序质量不符合要求的测序片段(reads),并对测序片段进行配对拼接。2)将拼接好的测序片段(assembled reads)逆转码成整数型数值串,随后利用RS编码系统对整数型数值串进行子串解码,根据索引对数值串排序。通过选取频率最高的整数,把具有同样索引的整数型数字串合并成一条最有可能的整数型数字串,再用RS编码系统进行数据块解码,随后删去数据索引并将其连接生成一条完整的整数型数值串B。3)数据第二次逆转码,将B转成二进制数据后写入文件,并用LZMA算法和TAR解压文件,从而读出文件。
详述如下:
一、数据编码
(1)数据压缩。将电子文档或文件夹打包成单个TAR格式的文件A.tar,再用Lempel-Ziv-Markov chain-Algorithm算法(LZMA算法)将TAR文件进行二次压缩,生成A.tar.lzma。
(2)数据转码(见图2)。将A.tar.lzma以二进制形式读取,根据每五个比特(bit)可以转化成一个0到31之间的整数的对应规则,将二进制数据转成整数型数值串B(只含有0到31之间的整数),随后用滑动窗口将B切割成含有二十二个整数的无重复子串集合[A1,A2,…,An](即核心数据),最后在每个子串的前端添加三个整数作为索引(只含有0到31之间的整数,选择多少个整数作为索引是根据DNA芯片合成通量设计,添加的索引对核心数据区块并非连续,具体步骤见下文),生成含有索引的子串集合[B1,B2,…,Bn],每个子串由二十五个0到31之间的整数组成。
(3)数据加冗余。利用RS编码系统对[B1,B2,…,Bn]进行纠错编码,生成增加数据冗余的整数型数值串集合[C1,C2,…,Cn],集合[B1,B2,…,Bn]与集合[C1,C2,…,Cn]的元素个数不同,后者所含元素个数更多。具体过程如下:
a.预先生成大小为29×31的空白整数型的矩阵,将A1、A2、A3、A4、A5填入矩阵,占五列共二十二行(即稀释点填充区块,称为核心数据区),其他区块(即无纹理填充区块)表示矩阵空白处,见图3。
b.给矩阵所有列添加连续的索引(index)(即上侧密集点填充区块),每个索引由三个0到31之间的整数组成,见图4。
c.根据A1、A2、A3、A4、A5所在的核心数据区块的每一行逐行利用RS code编码生成的冗余整数型数值串填补其右侧网格区块数据,见图5。
d.根据矩阵每一列的非空数据,逐列利用RS编码系统编码生成的冗余整数型数值串填补其下侧横纹背景区块数据,见图6。至此矩阵的每一列对应代表集合[C1,C2,…,Cn]的一个元素,也即集合[B1,B2,…,Bn]中每五个元素经过RS编码对应生成集合[C1,C2,…,Cn]的三十一个元素;
按步骤a-d,从前到后依序对[A1,A2,…,An]所有元素,每次取连续五个元素(比如A1、A2、A3、A4、A5)进行加索引和RS编码,生成新的元素组成集合[C1,C2,…,Cn],其中每个元素是一个由二十九个整数型数值组成的数组。
(4)数据二次转码(即5比特[bit]转码框架,见图7)。将整数型数值串[C1,C2,…,Cn]转码成可以用于DNA芯片合成的DNA序列集[D1,D2,…,Dn]。转码规则是:碱基A、T、G、C可以组成16种二联碱基,二联碱基再与碱基R和Y组合,可以生成32种三联碱基,恰好与0至31的32个整数相对应。对于碱基R和Y在合成过程中具体使用哪种碱基(即R可以对应候选碱基A和G;Y可以对应候选C和T),主要考虑其前一位碱基,即在保证不与前一位碱基重复的前提下随机选取,比如AAR中R必须为G,而AAY中Y可以在不考虑其他限制条件的情况下随机选定为C或者T。所以转码后的DNA序列集[D1,D2,…,Dn]中每个元素都是一条长度为八十七个碱基的DNA序列,且每条序列的GC%尽量控制在30%-70%之间(通过对Y和R的选取来筛选)。
根据RS编码原理可知,现行数据编码框架下,后续的DNA合成和测序过程中允许:
a.每条序列内部最多允许两个碱基的点突变错误;
b.在每个矩阵块对应的三十一条序列中同时存在十三条不正确的序列(包扩整条序列的缺失、碱基插入、碱基缺失以及点突变四种情况)。
二.数据读取
数据读取为数据编码的反向过程
(1)对存有数据的DNA序列进行二代测序,过滤掉测序长度和测序质量(Q30)不符合要求的测序片段,将测序片段进行配对拼接(使用illumina双端测序[paired-endsequencing]的前提下),并删除重复的拼接好的测序片段。
(2)将拼接好的测序片段的三联碱基第三位根据A/G对应R、C/T对应Y的原则恢复成含有Y和R的拼接好的测序片段,并根据编码时的对应规则将其逆转码成整数型数值数组。
(3)由于合成和测序错误的存在,非完全相同的整数型数组串可能含有同一个索引,为了维持索引的唯一性,我们对串的每一个位置都选取出现频率最高的数值,从而完成相同索性串的合并。
(4)用RS编码系统对每个数组进行解码(即列解码),根据数组前三位的索引对所有整数型数组进行排序,随后按顺序将解码好的列填入29×31的矩阵,对于缺失的数据位置用数字0填充。再用RS编码对核心数据区进行解码(即行解码或块解码)。
(5)将所有矩阵的核心数据区连接生成一条完整的整数型数值串。
(6)最后将整数型数值串经过第二次逆转码转成二进制数据后写入文件,并用LZMA算法和TAR解压文件,从而读出文件。
下面以实例加以进一步的说明。
将一段中文文字保存在TxT文本(大小1.16kb)中,并用DNA完成数据存储。首先建立名为Genscript Intro.txt的文本文件,文件含有以下内容:
金斯瑞是您可靠的基因、多肽、蛋白和抗体研究伙伴,帮助进行基础生命科学研究,生物药研究以及早期药物开发。自2002年成立以来,金斯瑞发展迅速,已成为全球领先的生物技术公司,公司总部位于美国新泽西州,在欧洲、日本和中国均设立了分公司。金斯瑞一直致力于为全世界的科研机构提供最好的研究服务,已经为全世界100多个国家的科学家提供了生命科学研究产品和服务。我们已经建立了最佳通量和质量的生物学研究服务,包括基因合成,分子生物学服务,多肽合成,定制抗体,蛋白表达,抗体及蛋白质工程以及体外和体内药效学研究,所有的目标都是希望让科研变得更加简单。金斯瑞始终以"提供最好的质量给客户,为客户的利益服务"为理念。基于这个理念,我们的管理体系经过了ISO9001:2008认证,提供的产品达到cGMP水平,同时通过了AAALAC及OLAW认证,努力为客户提供最好的服务。同时,为不同的客户提供不同的商业合作模式,包括项目模式,定向全时制模式,战略合作联盟模式。
再根据如下流程(见图8)完成DNA数据存储的框架测试。经过编码框架我们可以生成DNA合成使用的403种长度为87nt的单链寡核苷酸(Oligonucleotide)。
(1)单链寡核苷酸池(Oligonucleotide Pool或Oligo Pool)合成:存储介质为403种长度为127bp的单链寡核苷酸(其中含两端引物序列共40bp,用于将单链寡核苷酸转成双链DNA,其中引物序列可自行设计)。实际测试中我们测试了六对与87bp的DNA序列集[D1,D2,…,Dn]无同源性的引物,因此单张芯片上我们共合成了2418种不同的单链寡核苷酸。每组单链寡核苷酸池含403种单链寡核苷酸,都可以单独存储一个我们的测试数据。
(2)单链寡核苷酸池扩增:用不同引物扩增一张芯片上合成的单链寡核苷酸池得到六个样品,对每个样品使用TruSeq DNA PCR-Free HT Library Preparation Kit(96indexes in plate format,96samples)文库制备试剂盒里面不同的标签(libraryindex)分别制备文库。
(3)NGS测序:由于拼接后的测序片段的正确长度为127bp,我们选用了MiSeqReagent Kits V3,150cycle试剂盒,数据质量Q30为94%(官方标准为85%),ClusterDensity为1,301K/mm2(官方标准为1200-1400K/mm2)。
(4)经过解码,六个样品的单独测序结果经解码都能够还原成原始的Txt文本。
附:经过编码框架和联合编码生成DNA合成用单链寡核苷酸序列(长度87nt,共403种,详见序列表SEQ ID NO.1-SEQ ID NO.403。)
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
SEQUENCE LISTING
<110> 南京金斯瑞生物科技有限公司
<120> DNA数据存储编码解码方法
<130> 6
<160> 403
<210> 1
<211> 87
<212> DNA
<213> 人工序列
<400> 1
ttccctaata gtggagtcga gtagagaaac tgactccctg aggacacatc atgcgctcga 60
cgtccatgtt gacgtgtgtc tcctcag 87
<210> 2
<211> 87
<212> DNA
<213> 人工序列
<400> 2
ttcctacgag agtacgtgtc ttattacgca tcatctttcg tcacttacgg tttagtccag 60
cgaactgagc gattccgtag agctcga 87
<210> 3
<211> 87
<212> DNA
<213> 人工序列
<400> 3
ttcctgatct tcgagcgagc ggacttcgag ttaacgttgt atctacgtct gtctggacct 60
gtcagacgac tgttgcagtg tcgtcct 87
<210> 4
<211> 87
<212> DNA
<213> 人工序列
<400> 4
ttcctgatgt agcacagcat cgatgtgtac ggatagttga tctcagagtg acctaatgag 60
tcgggagtcc caccaatcat ccagcga 87
<210> 5
<211> 87
<212> DNA
<213> 人工序列
<400> 5
ttcctaactt cgagtggagc gatgtatgga gctcctagat tctcaacacc aaatgtacta 60
actactctag tcttatgtat aaaccac 87
<210> 6
<211> 87
<212> DNA
<213> 人工序列
<400> 6
ttctacgctc gttgcaatcg attctctgtc atatatcgca ctatcctaga cagtctcgct 60
gctacaccgt gagatgtggt ctgaact 87
<210> 7
<211> 87
<212> DNA
<213> 人工序列
<400> 7
ttcctgcacg agagatctgt gggtcatatg cagtagatgg attgctgtgt ctctccagct 60
tctgctgagc tgtgttagtg tttcgga 87
<210> 8
<211> 87
<212> DNA
<213> 人工序列
<400> 8
ttcctacaga gactaagtac tccaatcgga atcgtccgag ctggacgctt ctgtatcata 60
gtcaagacgc agaatataga ccatgag 87
<210> 9
<211> 87
<212> DNA
<213> 人工序列
<400> 9
ttcctacgca tcgagtagtc agtcagcgag agatctacta ctcataaggg tcctgtctag 60
caggtcgact ctataaatat gccgagt 87
<210> 10
<211> 87
<212> DNA
<213> 人工序列
<400> 10
ttcttgtgcg caactttgtt acgacgcgtg gagccttact catgaataaa tcgaggtgtg 60
tagcactctt acgcggtagc tcgaagc 87
<210> 11
<211> 87
<212> DNA
<213> 人工序列
<400> 11
ttcctgacaa agaatccgaa ctctggagta ctagtggaga acacgctcta ttagcgccta 60
caggctaact tggcgtctgt agcttct 87
<210> 12
<211> 87
<212> DNA
<213> 人工序列
<400> 12
ttcctgaatc gtgcttgtgt cacatcttca atcgtcagcc gagctccttg tagtacacct 60
cctgtcttcc gatgttcgca cagcact 87
<210> 13
<211> 87
<212> DNA
<213> 人工序列
<400> 13
ttcttgtaga ctggtgatac tatccataag gattgccctc ctcagggatt aagaggatta 60
cgtacttgaa tagtcgtcgt gcgcgga 87
<210> 14
<211> 87
<212> DNA
<213> 人工序列
<400> 14
ttcctcgtcc tcctacctgt acgagaggct gagtcttagg attgtgagta cggtagcgct 60
cactgttgac gtagtgtgtc agtccat 87
<210> 15
<211> 87
<212> DNA
<213> 人工序列
<400> 15
ttctgacatc ctacttgaag tatctgatga atcgcgggtg gctgagtgga tggcggcaag 60
gtgacgacta tagctatgtt ctctcgt 87
<210> 16
<211> 87
<212> DNA
<213> 人工序列
<400> 16
ttcctcccag gctgtgcatt cgctatcact atcgcttcac gaagaggtcg cacaacaacg 60
gatccgacgg gtggtgaggg acagctc 87
<210> 17
<211> 87
<212> DNA
<213> 人工序列
<400> 17
ttctgacctt caggcagtta tagacgcgcg tcactcccgt taggcgagta tatcagaacg 60
acacgaccta ctagaagaca tcgatct 87
<210> 18
<211> 87
<212> DNA
<213> 人工序列
<400> 18
ttctgactat ctagatgacc tagaggagag aagatgcgct tgtagacggc tgcgcctaac 60
ctccctgcga ctgcgagtaa gactgtg 87
<210> 19
<211> 87
<212> DNA
<213> 人工序列
<400> 19
ttctgactca tggtatagta gggtcatgcg cagcctccat attcgttgta ggtctgtcgt 60
cagagaaacc gcttcatgag atatcag 87
<210> 20
<211> 87
<212> DNA
<213> 人工序列
<400> 20
ttctgatgag cgggctcttg aggagatttc ctccgataga atgcacgagg atagctaatc 60
cagctcagag actcgacagc tttcccg 87
<210> 21
<211> 87
<212> DNA
<213> 人工序列
<400> 21
ttctgatgcg caatcagcat cctcgcggga tcaagcacgg atgacgctag agacgtctcg 60
agcttctata cactcctgcg attcttc 87
<210> 22
<211> 87
<212> DNA
<213> 人工序列
<400> 22
ttctgatagc acgcagcaag atcgagagtc tcatgtgaga tcacttgagg tcctcctatc 60
acaactccac atttgatcgg acctcgt 87
<210> 23
<211> 87
<212> DNA
<213> 人工序列
<400> 23
ttctgatata tagtaacaca tagcagcaac aagacgcagt ctcctctaac gagttgtaga 60
aagcctcctg gatgaccggc aagatcg 87
<210> 24
<211> 87
<212> DNA
<213> 人工序列
<400> 24
ttctgatcat caagtcgtga ggtatctatg ccgacggtcg gacagatgtg tagtatcaag 60
gtccgagctt acaagctcgt ctatctc 87
<210> 25
<211> 87
<212> DNA
<213> 人工序列
<400> 25
ttccctgctc tactcggccg tcctggtcga atggtctcga agggatattg cttccctcag 60
gatagagcac agcctatggg aagacat 87
<210> 26
<211> 87
<212> DNA
<213> 人工序列
<400> 26
ttccctgtgc gaacttgttg accgctcgtc tgagtcagcg taggagctct ctacttgcac 60
tctgagggct acccattggt gcgaaag 87
<210> 27
<211> 87
<212> DNA
<213> 人工序列
<400> 27
ttccctgatc tagaggctcc tcgattcgac gaggctctcc tccctcgtag tatagctgtg 60
atcactactt ctaatctgtt ctgaatg 87
<210> 28
<211> 87
<212> DNA
<213> 人工序列
<400> 28
ttctgattat tactccgttg cagcgtctcg ctgcgcactg atctctctaa cctatgtgct 60
tcaagagact agagcccggt agagcca 87
<210> 29
<211> 87
<212> DNA
<213> 人工序列
<400> 29
ttccctagca tcaaccctct ggagggctta aagtatgctc tgactactct gctccgaatc 60
actcgcgatc tccgtctcgt gactata 87
<210> 30
<211> 87
<212> DNA
<213> 人工序列
<400> 30
ttccctaaga atctccgaaa gctctattct gtaatgccgt ctggcaatct ggtagacctc 60
ttgcagttgt tggtcatcct gactaga 87
<210> 31
<211> 87
<212> DNA
<213> 人工序列
<400> 31
ttccctgtcg aggcataggt aatggtatca tctcgcgaca tgtagttcgt caatatcccg 60
ccgttcggag cgttaatgat gttctga 87
<210> 32
<211> 87
<212> DNA
<213> 人工序列
<400> 32
ttccctagac agttcccatc atcaacttat agcacaggag tccagtctct cgtcttctgc 60
ttcccgcaga gtacgatcta gtcactc 87
<210> 33
<211> 87
<212> DNA
<213> 人工序列
<400> 33
ttcccggctt aggtgacgcg catcggatgt actacttgtt taccaccaag cgatggactg 60
acagctcacc gtagtatcga ctgatag 87
<210> 34
<211> 87
<212> DNA
<213> 人工序列
<400> 34
ttctatttct aggcgtaggt agtatcacag ggtcagaacg tctagtctac tgagagaact 60
ggattgccac atcgcaatgg ccgaatc 87
<210> 35
<211> 87
<212> DNA
<213> 人工序列
<400> 35
ttcccagtct tcttatcttc atactagtgt tgactcctac ctccgcacca gcgtcgaatc 60
atgactacaa ataagccata gggttct 87
<210> 36
<211> 87
<212> DNA
<213> 人工序列
<400> 36
ttcccagtaa tgatcgtagc tgattgatgt taggaccgta tcttgtcttg accggcgagt 60
cgagacgcag agatctgatg tactagc 87
<210> 37
<211> 87
<212> DNA
<213> 人工序列
<400> 37
ttccctggcc gaatctctgt cgtaagaaag ctgtgccctg ctgtatcgaa gagaggcaca 60
agctcaataa agatagagct gtcgtga 87
<210> 38
<211> 87
<212> DNA
<213> 人工序列
<400> 38
ttccctgagt gatgaaagac attatcacga actccgatcg gcgtaccaaa gccttgatgc 60
atgtcgccac aggactgcct cgatttc 87
<210> 39
<211> 87
<212> DNA
<213> 人工序列
<400> 39
ttcccaaact tgcaggagta gatcttctgc atagaggtgc tgagacgatt cggcgcatta 60
tgatctgtcg tgaaggctat cgcgagt 87
<210> 40
<211> 87
<212> DNA
<213> 人工序列
<400> 40
ttctatttgt catgtagcct cgtggcttcg ggtggacata actcaggatc agcttctgag 60
tcgttgctgg tcactcgaca cttgcat 87
<210> 41
<211> 87
<212> DNA
<213> 人工序列
<400> 41
ttctgcagaa ctcgccgatt aacatcttag tcacatgagg atctcgtcgg ccagcctcga 60
tctgcacgac gatacctgcc tccaaga 87
<210> 42
<211> 87
<212> DNA
<213> 人工序列
<400> 42
ttctgcagca tgttctagat catctatatc aagggaacag tgaatgcaat cccagagccg 60
gtcggtcacg acgtccgccc gacaatg 87
<210> 43
<211> 87
<212> DNA
<213> 人工序列
<400> 43
ttcctcggta agctctctga gggcgagaga tgactcgctg tcggcagtca gtagcagccg 60
ggcctcttct gctcagtagg cttatta 87
<210> 44
<211> 87
<212> DNA
<213> 人工序列
<400> 44
ttctgccgat gaccgccaac aatgtagaga atgggaccac gcccgctgcc aataggaaat 60
agttatagtc atatcatggt gcgatta 87
<210> 45
<211> 87
<212> DNA
<213> 人工序列
<400> 45
ttctgtcgtt gaggagattc gaacagagac agtcctctgt gctacatgag acagctactc 60
gagacatgag cgatatagcc ttactct 87
<210> 46
<211> 87
<212> DNA
<213> 人工序列
<400> 46
ttctgtatac catacacagc gttcgaggtc ccttattagc tgcgaggagg acatctacta 60
aagctcactc gacattcaaa tcgccct 87
<210> 47
<211> 87
<212> DNA
<213> 人工序列
<400> 47
ttctgcatcc cacgattggc tgcttcgaat cactctctct cagctttacg atgtcgacct 60
tacccttctc atccgatggc tgagccg 87
<210> 48
<211> 87
<212> DNA
<213> 人工序列
<400> 48
ttctgcacaa ctctccgaac aggcggcgct gagcctccat gagtatctga gccttatact 60
aagtctgctc atgcgtgttc tagatta 87
<210> 49
<211> 87
<212> DNA
<213> 人工序列
<400> 49
ttctgtactg tgataggttc ttagacgatg cagtacactt tcctcctact aagacataca 60
agtagatatt agggtggata gtctaat 87
<210> 50
<211> 87
<212> DNA
<213> 人工序列
<400> 50
ttctgcaagt ctggaagtca tccgggccga ctccacacat gacgaccttt ccgaacttgt 60
ccggacgtca gcgtcctcta tttccat 87
<210> 51
<211> 87
<212> DNA
<213> 人工序列
<400> 51
ttctgcaaca tgccgtctct acgatcaaac cctggaggat acgtcgagca tttcatactc 60
tgtagtccgt ctgcggcgat cacgctg 87
<210> 52
<211> 87
<212> DNA
<213> 人工序列
<400> 52
ttcctgttct ctaagagagg accggcgtta tgtttcttcc gatctttctt cctcccagtg 60
agagtcttcg gagtctagag catgtag 87
<210> 53
<211> 87
<212> DNA
<213> 人工序列
<400> 53
ttctattagc cattaaacag agagcgatgc tcacagaatg cgtgcctctc tggccgatta 60
tagtcgatct attcactgca tagcatg 87
<210> 54
<211> 87
<212> DNA
<213> 人工序列
<400> 54
ttcctgccac tacacaagta gtctccttct ctgccgttgg tctctccgcg cagagacgca 60
ttctagcatg ctccgcagaa tgtgagt 87
<210> 55
<211> 87
<212> DNA
<213> 人工序列
<400> 55
ttcccggacg tcagaggccg aggctgctgt gacggcaatg cgcctgacat acctctatca 60
ttcgctgtac gagacttccg ttatagt 87
<210> 56
<211> 87
<212> DNA
<213> 人工序列
<400> 56
ttcttctcga tctcaaagca gcagggcatc gataagatcc gatgatactg cgtctctgag 60
tgagtccctg cacgccagga gtctgcg 87
<210> 57
<211> 87
<212> DNA
<213> 人工序列
<400> 57
ttcctcgctc tagagcgtac tgctcaccca gtataggctt cagagacagg tgtgctcctg 60
actgagcgat gctaggagcg aagccgc 87
<210> 58
<211> 87
<212> DNA
<213> 人工序列
<400> 58
ttctacctct gtggaagcat agatgtctag gacactgcgt tagactattc atagggtaga 60
cgaatcaagg tgtatgacac tagattc 87
<210> 59
<211> 87
<212> DNA
<213> 人工序列
<400> 59
ttctacctaa acgctatagg agtcatgcga agttacgaga gaatcaacga taatctcgct 60
atccgtggcc gcgtcagaac tggcgga 87
<210> 60
<211> 87
<212> DNA
<213> 人工序列
<400> 60
ttctactgtc gaatcatgct cagaccgttg gcacgagctg ctctaacgcc tttctgctag 60
catagtacgc acacgttatt actcttc 87
<210> 61
<211> 87
<212> DNA
<213> 人工序列
<400> 61
ttctattgaa agcctcgaat cgctcgttta gtaacagagg cttcgggatt caagcacaac 60
cctccgtcag agacgccgac atgccct 87
<210> 62
<211> 87
<212> DNA
<213> 人工序列
<400> 62
ttctaccacc tacactgccg acgttacaga ccgatcttcc acactcgagg acaggagatc 60
ggcgctgctg atgtgtcgtt agatgag 87
<210> 63
<211> 87
<212> DNA
<213> 人工序列
<400> 63
ttctatcagc tgagcctcac aaagtagcag aacctcagag gagcgactca gcgcatctcg 60
ccattgctgc ctcctatcca ttagatc 87
<210> 64
<211> 87
<212> DNA
<213> 人工序列
<400> 64
ttctatcctt tcccactcat gctcttaacg cctgcatctc agacattcca ggtgaatccg 60
tgattataga atacggtctg accacct 87
<210> 65
<211> 87
<212> DNA
<213> 人工序列
<400> 65
ttctatccac tgctcctcac tcagcctaag tatcacgctt caactctcac agtaccaact 60
gtcttccgtc tctcaggcta ggaggag 87
<210> 66
<211> 87
<212> DNA
<213> 人工序列
<400> 66
ttctagcgat cttctgtcgt ctcaactttc gtcatgggac ctgcagaggt catctcatgt 60
cgcatgtcgc atccattccg tcgaatg 87
<210> 67
<211> 87
<212> DNA
<213> 人工序列
<400> 67
ttctagatca agaagcgcaa tgcagacctc tgcaatttgt tacgcaattc gtacgattac 60
tcgagacgct gaacgacacc taagtgc 87
<210> 68
<211> 87
<212> DNA
<213> 人工序列
<400> 68
ttctatcgta tatatcgtgt catgacatgc ttggtcgacg aggtcggaac tagcatcgca 60
ggcacgcaca cggatccaga tcgagct 87
<210> 69
<211> 87
<212> DNA
<213> 人工序列
<400> 69
ttctagactt cacatcacca caatgacgcg agacagttag ctccgaaggt atcgcgattg 60
ccagctactg gactcaacgt atatgct 87
<210> 70
<211> 87
<212> DNA
<213> 人工序列
<400> 70
ttctagacaa tacagtgttc tacattctac catcgttcgg agcctcagaa gctgaatatc 60
gctactatca tactctcaac tatcacg 87
<210> 71
<211> 87
<212> DNA
<213> 人工序列
<400> 71
ttctagaact agatgtcttg aatgcgcttc actttctagc gatagcagaa gatcgcgaca 60
gcaactatca gactccagtg ccgatct 87
<210> 72
<211> 87
<212> DNA
<213> 人工序列
<400> 72
ttctagaagt atccactgaa tttccacaag ttcagtcata cgagcggtgt ctctttccgt 60
gcagagtcga gagtaacatg aatccat 87
<210> 73
<211> 87
<212> DNA
<213> 人工序列
<400> 73
ttctagagtc gatgacatta cggacgattg agcggaacaa atgaggcttg attaagacga 60
tagcgacacg tcacttctag tgtgttc 87
<210> 74
<211> 87
<212> DNA
<213> 人工序列
<400> 74
ttcctcgtat gcgcacgagt gcagggactc cctcagatcg tctatggtca tgatatagat 60
gctctccctg agacgggagt ggtatga 87
<210> 75
<211> 87
<212> DNA
<213> 人工序列
<400> 75
ttctctgcga tatgtttaga ccgtctcata tagttctgat tcccatctgg tgtgctcaag 60
gtgccttgtg ctttatagaa gtcaggt 87
<210> 76
<211> 87
<212> DNA
<213> 人工序列
<400> 76
ttctctgctg agttctcata tagtagcgac gtccatcgct tgtgaaaggc atatctattg 60
aagcgcgtga cagctatctc gatgcga 87
<210> 77
<211> 87
<212> DNA
<213> 人工序列
<400> 77
ttctctagat actaggatac acagagttga ttaacagctt atagatgcga cactacacga 60
tagagccagc tgtagctcaa cgtcact 87
<210> 78
<211> 87
<212> DNA
<213> 人工序列
<400> 78
ttctctagtt gcggttgact cgtgatgcta gagggcgcta gatcgaagga gcctatccga 60
tctcgaactt tggatccgat cttcctc 87
<210> 79
<211> 87
<212> DNA
<213> 人工序列
<400> 79
ttctctgtgg tcgcgttcag ccattctcag ggaatggctg gtctcgtgta ctctaaggat 60
cctactccta tgcctcgtag acagtga 87
<210> 80
<211> 87
<212> DNA
<213> 人工序列
<400> 80
ttctctgtct ctaactcgct aaagctcaga aagcagtgtg tctcagtcga gaactctcgt 60
atcccttgac cttgccgaaa gctcgag 87
<210> 81
<211> 87
<212> DNA
<213> 人工序列
<400> 81
ttctctacgg gtacatagaa ctgagtatac ctgacgggtt tgaacatcaa tcgctatgga 60
ctcccgtctg ctcagatggt actagcg 87
<210> 82
<211> 87
<212> DNA
<213> 人工序列
<400> 82
ttctctactt ctggattaag agctcgtgcg gtatagggat tctcttgaag tcctggcggc 60
acttacatga gtgtaaacgc acagtga 87
<210> 83
<211> 87
<212> DNA
<213> 人工序列
<400> 83
ttctctaagt tctctgtctc tccgcatgca ctcccgcatc gcctcataac agagcgatta 60
cgctgatgag ctccgtagtg tcgttga 87
<210> 84
<211> 87
<212> DNA
<213> 人工序列
<400> 84
ttctctaaca gaatgcgaca gtagtacaga ccataggact gtgattgact gtgtttcaga 60
cctagttcag tggtctagtg catctca 87
<210> 85
<211> 87
<212> DNA
<213> 人工序列
<400> 85
ttcccgtaca caaacgtgac tgcttactct tatactatgt ctctcgtaga gagaccacca 60
gtcgtctaca ctgtcgtatg cgaggca 87
<210> 86
<211> 87
<212> DNA
<213> 人工序列
<400> 86
ttcccatcat tccagttcca cgagcctccg cgatgatagt cagacctata cagattctct 60
caggcattga actgcgagtc gagtagc 87
<210> 87
<211> 87
<212> DNA
<213> 人工序列
<400> 87
ttcccgtgta agcagatgat aatctagtca gcaatcggta gctagaacat cgtcagcact 60
ataagtcata gaactcgaac ttctaag 87
<210> 88
<211> 87
<212> DNA
<213> 人工序列
<400> 88
ttcccataga gtcgaatgtc atagttccac ttaagaagat gtactatccg agaggcggag 60
ataactatca agatgacact catggtc 87
<210> 89
<211> 87
<212> DNA
<213> 人工序列
<400> 89
ttcccattcc gcttccatcg cgcacacgag agatgttgct ctgagttagt ggtccattgt 60
ggaggactcc gacgctagcg tagaaag 87
<210> 90
<211> 87
<212> DNA
<213> 人工序列
<400> 90
ttcttgaagc cgcctttcca gaatcctgta caggtgcatg ctaagtgcgt aacttagagt 60
aactacctag gtacgatctg acgacag 87
<210> 91
<211> 87
<212> DNA
<213> 人工序列
<400> 91
ttcccatcta cgttcggtaa gtgtactccg ccttcgtctg acgagcgata gagatataca 60
ctaccgtacc tggtccacta ggcactg 87
<210> 92
<211> 87
<212> DNA
<213> 人工序列
<400> 92
ttcccgttag tgtatacgcg aatcatccag actaaggcac catagccact cgtcccggca 60
tatctagtaa atgtccgctt aataaag 87
<210> 93
<211> 87
<212> DNA
<213> 人工序列
<400> 93
ttcccgctct ctctgcagat ctacgagctc ccgcgacgaa gtgatttcac tcgccgagga 60
ttacgcccat gtttcctagg atcagcg 87
<210> 94
<211> 87
<212> DNA
<213> 人工序列
<400> 94
ttcccgtgaa gagatcgagg acatcatact agcaagttgt gtgcattgtt cgtgggaatc 60
cgaccttatt cgtagtagtc gctgtga 87
<210> 95
<211> 87
<212> DNA
<213> 人工序列
<400> 95
ttcccacgtc gcagccgaag taagtaggtg agactactag gacgccgtga tccagatttg 60
gctacttgat agaattgaag aaaggtg 87
<210> 96
<211> 87
<212> DNA
<213> 人工序列
<400> 96
ttctcgagaa gaagccatgc gtgtctgaag tgaataatgg gcgtcgtccc tccggacacg 60
agcacgccat cggctgagca gagtccg 87
<210> 97
<211> 87
<212> DNA
<213> 人工序列
<400> 97
ttctgttctg actagagtta ggctatgtta cagatgccag gtaagactcg tctcccgtta 60
tattaggagt ctacttagtc atataga 87
<210> 98
<211> 87
<212> DNA
<213> 人工序列
<400> 98
ttctgttcac cttcaggaca gctgccggag ctcagactac gaagagaccc tggcccgttc 60
tcacgtaagc gatgcagtag taacata 87
<210> 99
<211> 87
<212> DNA
<213> 人工序列
<400> 99
ttctgcttct tgaatacaca gtctacaaat gtctatgtga cgggtagagg cgctactcgc 60
tcattacgcc agccacgaat cggaagt 87
<210> 100
<211> 87
<212> DNA
<213> 人工序列
<400> 100
ttctgtttgt tgtcaggctg atagcgatgc ggccctctct gcaacacgga gacaagatcg 60
tctgagctcc acggtccgcc tcctgca 87
<210> 101
<211> 87
<212> DNA
<213> 人工序列
<400> 101
ttctagggtc tcagcacggt ggcgttcgca taggtgagtt acaagggccg tctcagatcg 60
atcgtaatct cgtgctgcgt aagcggt 87
<210> 102
<211> 87
<212> DNA
<213> 人工序列
<400> 102
ttctagggat agcatatcta gccattctag tagtctttca gtagactgat cgacgcaagc 60
gtggagagaa atcgccgcgg ctgagct 87
<210> 103
<211> 87
<212> DNA
<213> 人工序列
<400> 103
ttctaggata tgggattctt gcgactcaga aatcacgatg cgcgtgagga tgagcagaac 60
tctccgcagc tcggctattc tccggtg 87
<210> 104
<211> 87
<212> DNA
<213> 人工序列
<400> 104
ttctaggagc atggactcat agagcctcga gtaatgctag tcggttgcca cttaggacca 60
acacctcagt agcagccttg accagtc 87
<210> 105
<211> 87
<212> DNA
<213> 人工序列
<400> 105
ttctaggcta acgctatctg tggaacatct aagagatcgg atatattcag acagccgagc 60
ctaagcatca tcgatggatt cctcgct 87
<210> 106
<211> 87
<212> DNA
<213> 人工序列
<400> 106
ttctaggcag tggtaagtgt agagtcatat cctgtgcaca gagtcccgtg tctcgtattg 60
cagggttcaa tccagaacct attagtc 87
<210> 107
<211> 87
<212> DNA
<213> 人工序列
<400> 107
ttcttgagtc tagagactct cctgggtaag tgctagtgtc ataactattg cctgactcag 60
ctcactgtct cgcactagaa catcaga 87
<210> 108
<211> 87
<212> DNA
<213> 人工序列
<400> 108
ttctcaacac tgagtgtatt ctctggagag gaccgtatat cgatcgtaac ggagcctaag 60
acgcacaatc ctctgcgctc taagtag 87
<210> 109
<211> 87
<212> DNA
<213> 人工序列
<400> 109
ttcccgcgat cggcaacacg accggagaga ccaactcagg ataatacgtg ccagcctcgc 60
ctgcgtttcc gtcgccgttg cgtacag 87
<210> 110
<211> 87
<212> DNA
<213> 人工序列
<400> 110
ttctcaaatg gtacactgga gaagccagac aactcttctc atcctggatc attacgtcct 60
gatactagtg cggtcctcac gatgcag 87
<210> 111
<211> 87
<212> DNA
<213> 人工序列
<400> 111
ttctcaataa gatgacatct gttgtagctc ctcgtgactt agttgagccg acagccagag 60
ctcactgcac gagagagcga ggagcta 87
<210> 112
<211> 87
<212> DNA
<213> 人工序列
<400> 112
ttctcaactt tgatcacatc tggagtctag cagctgggac tatagcctaa gtcttcgctg 60
ctcggatgaa agggtcataa ccgtatc 87
<210> 113
<211> 87
<212> DNA
<213> 人工序列
<400> 113
ttccaccctt cttctccacc gatcttatgc gtaatcgtcc gaggccatga tcaggtctga 60
ctcctcagag gtgagcgagc aggccct 87
<210> 114
<211> 87
<212> DNA
<213> 人工序列
<400> 114
ttcccaataa tatgaagaaa gccgagttat agacctttct tcgctgagaa ggctaagcag 60
tgagtcggca acggtctaaa tcacaag 87
<210> 115
<211> 87
<212> DNA
<213> 人工序列
<400> 115
ttcccgacta tcagacgcaa gctgcagcag cactagactt tcaagctacg agacatgacg 60
atcctccact gacgcttaag agatcac 87
<210> 116
<211> 87
<212> DNA
<213> 人工序列
<400> 116
ttctgcgact cttagtctat gttaatcggt tattcacctt caaatgtgcc tccgagtcgc 60
ttattggctg acagcagtgg cttaata 87
<210> 117
<211> 87
<212> DNA
<213> 人工序列
<400> 117
ttcctcgaga cacctaagcc ggcttattga gctgatacta tcgaggtggg atcagatctg 60
cctcgttacg cagagtaggg catcgga 87
<210> 118
<211> 87
<212> DNA
<213> 人工序列
<400> 118
ttcctcagaa tcggacatcg cctgcatctc atggagctat gaatattctc tgtcggccag 60
cacctaaaga gacaggatgg ccgcgag 87
<210> 119
<211> 87
<212> DNA
<213> 人工序列
<400> 119
ttctcacctt ctcagctagg tgtcacgact ctgcagtagc aggcgtatgt acgctgtccg 60
ccgcatggct tgactctcgt agagctc 87
<210> 120
<211> 87
<212> DNA
<213> 人工序列
<400> 120
ttctcactgg tcactggaca gagtccacgc actacttatc agtagggaat ctgcgtgtct 60
actttgatgc cgtagcagct gtaggga 87
<210> 121
<211> 87
<212> DNA
<213> 人工序列
<400> 121
ttcttcgagc tcccaatcta tgactgactc atcagagcta cgccgtgtcc aaacccgaag 60
tcaccagcgc catcacgaca ctatctc 87
<210> 122
<211> 87
<212> DNA
<213> 人工序列
<400> 122
ttcttcgacc tagtgggatt gtgactgcag ctgcgattca taggaaatgc tttccacgat 60
gtctgattct acggtttcgt cctcgga 87
<210> 123
<211> 87
<212> DNA
<213> 人工序列
<400> 123
ttctcgcgta ctcctcagtc ttaggtatag aagtattgct gattactgcg tctgcactag 60
tagttcgatc cgttccgttt ccagctc 87
<210> 124
<211> 87
<212> DNA
<213> 人工序列
<400> 124
ttctgaagac ctctcgctaa tctctatcgt ctaactctat cttagggacg cctctagcta 60
gcagtctcgc taaaggctcg cgaggat 87
<210> 125
<211> 87
<212> DNA
<213> 人工序列
<400> 125
ttctcgcata gcccgcgaat gcgtgtgact tagtgcatcc agagtcctat gccttcggtc 60
aatggacaca tagtcgtctg agatact 87
<210> 126
<211> 87
<212> DNA
<213> 人工序列
<400> 126
ttctcaccgg agcgacgtat attagctcac ctacctcact atcagtgagg aatgcagcct 60
gtgggcgctt gacagcattc gaagaag 87
<210> 127
<211> 87
<212> DNA
<213> 人工序列
<400> 127
ttcttcagac tgcacacttc tacaccagtc tgcctaaagc agatcacaca gtagagatag 60
ctctctgtca ctagtctata ttatgag 87
<210> 128
<211> 87
<212> DNA
<213> 人工序列
<400> 128
ttcttcagca ctgctgtgtc tggctctagt ggtaatcgaa accagatggt caagatctag 60
gaggagcgca gatcaaatag atcgaga 87
<210> 129
<211> 87
<212> DNA
<213> 人工序列
<400> 129
ttcttcaagc gaagcagacg aacgtagact actctgtgtc aggcatgccg ctgacgacag 60
actcagccgc agccttgtgg tctatag 87
<210> 130
<211> 87
<212> DNA
<213> 人工序列
<400> 130
ttctcacgag tagagagtcc tcgaaagctc aacaatcgtg acagaaacgg atagtcgcac 60
ataacattca caacacctgc aatgctc 87
<210> 131
<211> 87
<212> DNA
<213> 人工序列
<400> 131
ttcttcgcag gaatcacatc acacccgtac atcgcttagc gacaggtgtt atgatgaaat 60
ttctacggcc acctggagtc tggagca 87
<210> 132
<211> 87
<212> DNA
<213> 人工序列
<400> 132
ttcttcgctc tcatatactg acgaactcgc agctcgcaca gccaccgagg cacgcgctga 60
tctgagcacg ctgtcgcagc attggag 87
<210> 133
<211> 87
<212> DNA
<213> 人工序列
<400> 133
ttcttcgtac tatgacgact ccatgcgtag aatttctgag ctaatgatct acgagacttg 60
ccattcagag cgatccgaca tagaggc 87
<210> 134
<211> 87
<212> DNA
<213> 人工序列
<400> 134
ttcttcgtcc atctcgtatg tcgaaagtat tgtagcagtc tcccttgcag cgcgttatag 60
tcattgcatg tcactatgtt cgtaaga 87
<210> 135
<211> 87
<212> DNA
<213> 人工序列
<400> 135
ttcccaatcg tcagagctta ggtagacact ttcgtcacaa catgacatat gaaggtagag 60
tatgagtgcc catcggtcat aatctgt 87
<210> 136
<211> 87
<212> DNA
<213> 人工序列
<400> 136
ttctatatcg agtacttcgg ccctgcggac actgcttaca agcgaatagg ccctggtgcg 60
gtcgtcctcg tcctaggaag agactcg 87
<210> 137
<211> 87
<212> DNA
<213> 人工序列
<400> 137
ttcccaccta agcagtagtg acgattagta ccaacacatt gacgagacaa gtgaggtcta 60
tacaatataa atgtacgact ctcaaag 87
<210> 138
<211> 87
<212> DNA
<213> 人工序列
<400> 138
ttcccagagc ctctaacagt ctgctagtgc agctgaactt gactgatgtg agatggttca 60
ataggtggct taatagcacg acatgga 87
<210> 139
<211> 87
<212> DNA
<213> 人工序列
<400> 139
ttcccacaca gccagttacc tctcgcagcg ggacctgtga atggcttaag aatgcacgta 60
atccgttctt gattccctga gacttca 87
<210> 140
<211> 87
<212> DNA
<213> 人工序列
<400> 140
ttcctcggaa acctacctaa gtgccatcct tagccatgac tcaacggaat caatgtcggc 60
tatactcctg caactgcttg ctacccg 87
<210> 141
<211> 87
<212> DNA
<213> 人工序列
<400> 141
ttctcagata agtgacacga tcagttcgca ttcaattgta agcctttaac agcttagtag 60
gtcttctaga tctctgcgta cacgcca 87
<210> 142
<211> 87
<212> DNA
<213> 人工序列
<400> 142
ttctcggagc gcaacacaaa tagtaagtct ctccctgctg cacagcataa gtataatttc 60
aagaagttgc acacttcacc tctcccg 87
<210> 143
<211> 87
<212> DNA
<213> 人工序列
<400> 143
ttctcgggtc acgcaaacgt gacatgctgc cctagattct gcacggagcg taacgcttct 60
tacagcgctg tcagcagcac ttcgcgt 87
<210> 144
<211> 87
<212> DNA
<213> 人工序列
<400> 144
ttctcgggac acggtggtac tctaggcgat aagtgcgtca cacgcgcatg tccttctgct 60
catttctagc tcgctgacat gggtcct 87
<210> 145
<211> 87
<212> DNA
<213> 人工序列
<400> 145
ttcctcgacg tcagactata taagtgaaga gcgccggcgg tatagtctca cgcaaagact 60
aagccgtcag tcagcgctgg actcgga 87
<210> 146
<211> 87
<212> DNA
<213> 人工序列
<400> 146
ttcctcgcgg agctatctga gacaaatcct tagccgcagt agagccagca gatccgcatc 60
atcgtgttcg cgtctctcta ctagaag 87
<210> 147
<211> 87
<212> DNA
<213> 人工序列
<400> 147
ttctattcta gttagtacga tgagcagtac tgaagagagc tggtgagcct caagtgtatg 60
tatataggcg agcacctaag tataaga 87
<210> 148
<211> 87
<212> DNA
<213> 人工序列
<400> 148
ttctactcgg gaatactgcg aaacctatct cgaggactag cagtcgagag agtagagcct 60
gatttcttcg ctggttacga tagtgga 87
<210> 149
<211> 87
<212> DNA
<213> 人工序列
<400> 149
ttctactatc gacattatga tgtggatcac ttaccagtac atcctggaac taacttatga 60
aagcagtagt cttacccacc tggtggt 87
<210> 150
<211> 87
<212> DNA
<213> 人工序列
<400> 150
ttctgcgcgg tgtgtgtaag atacgcttag gctgtcccac tccactgttt gggtacgtca 60
actggtaagt cgaagaagtg aagagca 87
<210> 151
<211> 87
<212> DNA
<213> 人工序列
<400> 151
ttctgtgctg agtaggcgga ggcttcggac cctttctctg tcggagcgca gttattacga 60
cgctctcgac gaaagtctac ggataag 87
<210> 152
<211> 87
<212> DNA
<213> 人工序列
<400> 152
ttctgtgtag acggcgtcca gttacctgca ggctcatcta cgacagatta gttggctgcg 60
ctccctgtct gtctcagcgg tggcccg 87
<210> 153
<211> 87
<212> DNA
<213> 人工序列
<400> 153
ttctgattcg gtcgcgcgta taatttcaat taccgaggaa tgagagtagt agactgacgc 60
gacgatcctc gagacatggg atcgtct 87
<210> 154
<211> 87
<212> DNA
<213> 人工序列
<400> 154
ttctgtggag tctgatgtct gtctgagtgt gattcggcaa tccagcaccc agagctggcg 60
gcttgtcctt atgataatgt ggaccag 87
<210> 155
<211> 87
<212> DNA
<213> 人工序列
<400> 155
ttctgcggct ctgtatatgt ccagcgattc cagttcgtgt tctactagaa tgtgttacgc 60
tgatatcgag ctcatcacga gagattc 87
<210> 156
<211> 87
<212> DNA
<213> 人工序列
<400> 156
ttctgcgagc cgaagaattg ccgaccaata aagtctccga tcactcctga ctctactgtc 60
ttgtcgcgcc gagctgagtt actgtcg 87
<210> 157
<211> 87
<212> DNA
<213> 人工序列
<400> 157
ttccatactt ctatgccttc gtgagagtgc actgcaaagc tacgtttccc tttgctgtct 60
cagacaagcg cgcaggctcc gcactat 87
<210> 158
<211> 87
<212> DNA
<213> 人工序列
<400> 158
ttcttcatac tgctcggagt ctcgtatatc ataactaagc atgattatta catcagacac 60
agaaatgagt agttagcatc tgcagct 87
<210> 159
<211> 87
<212> DNA
<213> 人工序列
<400> 159
ttcccagcga accacacaat acgaaactgc ggtctcggac cgcagttctt cgacgataga 60
aagagtggag gaggagtagg atgacga 87
<210> 160
<211> 87
<212> DNA
<213> 人工序列
<400> 160
ttcccaacgg tatagtgagc tctagtcagc aagctggaga tccgtttaag cttctctgac 60
tgaacagcgc tgctgacagc agtgttc 87
<210> 161
<211> 87
<212> DNA
<213> 人工序列
<400> 161
ttcttctgct gaggactcgt gactcagcag ctgtgctata cgagacgaaa gaatactaga 60
ggactcctcc atgcagcttg aacgctg 87
<210> 162
<211> 87
<212> DNA
<213> 人工序列
<400> 162
ttctgttaca tggacgctgc acagtgtcgt aagagacgat gtccgttatc gctcggttag 60
ctcttcgctg gccctatctc gtatagc 87
<210> 163
<211> 87
<212> DNA
<213> 人工序列
<400> 163
ttctgttagg aggagcctgc tctaactccg agaagactac agcgccgagc acagacaaga 60
tgagatcatc cggctacacg cgtccgt 87
<210> 164
<211> 87
<212> DNA
<213> 人工序列
<400> 164
ttctgttgcg gtgcgctcat cacttaccca tgcgtggtgg gatctcgtgc taacatgttg 60
tgtatcctcc agaagtcgcc ttatgtc 87
<210> 165
<211> 87
<212> DNA
<213> 人工序列
<400> 165
ttctgctgac attgcgtccc tccttcagga ggatctataa gccactctcg aataccgcta 60
atacaccgcc gaatcgctct aagtatc 87
<210> 166
<211> 87
<212> DNA
<213> 人工序列
<400> 166
ttctgcctct gtcacactga ggagcctgct cctccttgcg gacctactac ttctagagag 60
cgactctgta taggcttact accggct 87
<210> 167
<211> 87
<212> DNA
<213> 人工序列
<400> 167
ttcctccctc tcgacttata gacgatggag gctacttgct cgcacggaca gcagtatcgt 60
gatctgatgg tcctaatgaa tttagag 87
<210> 168
<211> 87
<212> DNA
<213> 人工序列
<400> 168
ttctgtcctg agcacactgc ttgtccacgc agtgtacgaa accacctgag atctacttga 60
ggcacgctca acaacgcatg agtcgca 87
<210> 169
<211> 87
<212> DNA
<213> 人工序列
<400> 169
ttctgcccga cgagttgttg ctaggtctga ttccacggtg tccctgagtg actggtcgta 60
cgcctcctag cgctcttatc ttgcaat 87
<210> 170
<211> 87
<212> DNA
<213> 人工序列
<400> 170
ttcttcatca gaactatagg aactacatgt gtggacaagt gctagggagg cggcatgcct 60
cgttcgactt atggttagaa cgcgcag 87
<210> 171
<211> 87
<212> DNA
<213> 人工序列
<400> 171
ttctgccaga tcgagagcgg actgcataac ctatctaagg cgtctgtcaa ggagactatg 60
ctaggactcg agggacactt caagaag 87
<210> 172
<211> 87
<212> DNA
<213> 人工序列
<400> 172
ttctgaccag gcctcttatc gtagatgcgt ggaaatgact tacctctcta gcagatgtct 60
aatctgagat gaacttaggt cacatta 87
<210> 173
<211> 87
<212> DNA
<213> 人工序列
<400> 173
ttcttggagg cttgctctca ctctaagctc ttccctggcg catactgata tatgaacgca 60
tgagctgtct tctataagcc ggattgc 87
<210> 174
<211> 87
<212> DNA
<213> 人工序列
<400> 174
ttcctcctct tctatctctc atcatacagc agaagctgtc tacgatcaaa gctgagtact 60
ttcagaggca agctggcgtt ctatgtc 87
<210> 175
<211> 87
<212> DNA
<213> 人工序列
<400> 175
ttcctcctgc tcccgagata tcctatccag acgcctagtt cgtatactaa cggtcctgta 60
cgaagcgcat agatagaggc taagatg 87
<210> 176
<211> 87
<212> DNA
<213> 人工序列
<400> 176
ttctcggcaa cttagttggg ctatttccgc gctcgagtaa gaatgttagg agcgggatag 60
ctcggataga ctatctgcgg ctcactc 87
<210> 177
<211> 87
<212> DNA
<213> 人工序列
<400> 177
ttcttccgac gacgaatcta gggattccag agcgtcgcac tatgccatcc acctagcgag 60
agaactggcg cagtggatcc ggcgaag 87
<210> 178
<211> 87
<212> DNA
<213> 人工序列
<400> 178
ttcctctgta ctgctcctat cgtcatcgtc cctctcctgt tgatctatgg ttagcagatc 60
actggaatac cgaatcctta tgtctag 87
<210> 179
<211> 87
<212> DNA
<213> 人工序列
<400> 179
ttcttactct ctcgatcaaa tgtcgcgctg cgtttgaact gatcaatgtt acgtgaggca 60
gtacgctctt tccataaccg cttcata 87
<210> 180
<211> 87
<212> DNA
<213> 人工序列
<400> 180
ttcttatgag tcggccctgg atctctcaag cagtagtgtg attagatgtc aaatggactc 60
tctatcctag agtctggaag aatcatc 87
<210> 181
<211> 87
<212> DNA
<213> 人工序列
<400> 181
ttcctctgat atggacctta tagctgtcac tcatgctatt tagcgagagc tgtactcttc 60
aagtcacgtc taccttgaag tctgtat 87
<210> 182
<211> 87
<212> DNA
<213> 人工序列
<400> 182
ttccctacga atttcccata ggatttacag aaggcaaaga ctagaactcg atcgagacag 60
cgatctcgaa tgttcggaaa cctcaag 87
<210> 183
<211> 87
<212> DNA
<213> 人工序列
<400> 183
ttccctactg aggctcgcgg caacccggct ggctagacaa atagcgcgca gctaatcatg 60
actcagttat cagatctcga ttgttat 87
<210> 184
<211> 87
<212> DNA
<213> 人工序列
<400> 184
ttccctatgc cagagaagtg agagcgcgtg atactaggag agttgggaag aactataccg 60
gctgcttagt gtaagagaag ttgacga 87
<210> 185
<211> 87
<212> DNA
<213> 人工序列
<400> 185
ttccctatct gaactaagcc tcgactccga gctactaatg gctactacaa cagacacaag 60
agaagaaagt ctatcctacg tctggct 87
<210> 186
<211> 87
<212> DNA
<213> 人工序列
<400> 186
ttccctcgac acagctgtct cttagatacg actgcaggag agacagacta gttgtgaatc 60
ggagagtgac tagtcgtgac gatcgat 87
<210> 187
<211> 87
<212> DNA
<213> 人工序列
<400> 187
ttccctcgta gagctaagtc tatcgctgac aataagtgta cttacgagaa tttaggccat 60
tcaggtacac gactagtcat gcgtagc 87
<210> 188
<211> 87
<212> DNA
<213> 人工序列
<400> 188
ttccctcagt agggtagctg ttctcgatat actcacatga agactcctct ctaggagcca 60
cctcgagcat tcatgaacga gactggc 87
<210> 189
<211> 87
<212> DNA
<213> 人工序列
<400> 189
ttccctcata tattaccagt gcgactccag ttcactgtcc gaagcgcaat cgctttggta 60
gacggtcacg tcgtccatag acctgtc 87
<210> 190
<211> 87
<212> DNA
<213> 人工序列
<400> 190
ttccctccgt atgtgttagc aagcctaaag aatttgaaga gattgtgccg tgcgtatgat 60
cacggattcg cgtgcgagtg tgtgtag 87
<210> 191
<211> 87
<212> DNA
<213> 人工序列
<400> 191
ttccctcctc agggatgaat ctacttcgtg cattatcctt ctcagaacca ccactactcg 60
tagacaatca gacacggtta gtacgca 87
<210> 192
<211> 87
<212> DNA
<213> 人工序列
<400> 192
ttctgagact gacagcagag actcgatggc cagtgaaagt tgagaactcg ttgagctcag 60
taggacttca actctcgatc tccgcct 87
<210> 193
<211> 87
<212> DNA
<213> 人工序列
<400> 193
ttcctctctt attgcgcgat cgctgagcct cgttagatgt gcgaccatat atcttgagtg 60
gtagtgtctg gaccagaggc gaaggtg 87
<210> 194
<211> 87
<212> DNA
<213> 人工序列
<400> 194
ttcctctcga gaggatgaca ttctggtcat aatccgaagt tccgttctac tcctctcgac 60
atagtcctga ctatcacgcc gaagatc 87
<210> 195
<211> 87
<212> DNA
<213> 人工序列
<400> 195
ttctgtctgt tgtgcataag acgatatctc gtcatgcata gagtacagca gttcttccga 60
atctaggagt acatggtcaa cacaagc 87
<210> 196
<211> 87
<212> DNA
<213> 人工序列
<400> 196
ttccattcta atctgaagta tactagctgc ttgagaaatg gatctcaggc aatgaagcta 60
ccatgcgtgt taatcctacg agacctc 87
<210> 197
<211> 87
<212> DNA
<213> 人工序列
<400> 197
ttccactcgg tgcatgcatg agctagttgc cgacgcagac gccctagcag tacagcgcga 60
ccaacactcg gattcaactg agctaag 87
<210> 198
<211> 87
<212> DNA
<213> 人工序列
<400> 198
ttccattaca atgcactggg aggattgtgt gcacagcatg agatactacc taaggctcct 60
ctccgatagt cttcgtctcc agagccg 87
<210> 199
<211> 87
<212> DNA
<213> 人工序列
<400> 199
ttccattagc tgaacgtgca gccgacatgc tacatcccgt cgacaagccc tccaacttgt 60
gaggagcagt agccttagtt cctcttc 87
<210> 200
<211> 87
<212> DNA
<213> 人工序列
<400> 200
ttcccgggcc tcgagttcgg ttctaactgc caggctatca acttcgtcga cagccgactg 60
aaggagttca gttagggaac tgtgcta 87
<210> 201
<211> 87
<212> DNA
<213> 人工序列
<400> 201
ttctcggtcc gaagatctta gtgctatgct cctggagatg gcagatgtgc gacaggattg 60
tcacatgcta gtggactccg tcgtagt 87
<210> 202
<211> 87
<212> DNA
<213> 人工序列
<400> 202
ttccacttcc tgatctctcc gcatgcttgt cctggtaaga caggaacaag ccgctagggt 60
tagggaagcg agtgtgcttg tggagct 87
<210> 203
<211> 87
<212> DNA
<213> 人工序列
<400> 203
ttccatttgt gagcgtgaaa gggcatctgt gaggcatctt tcgagtcatt cagaagcgtc 60
catactaagt ctgaggtcca tggtcga 87
<210> 204
<211> 87
<212> DNA
<213> 人工序列
<400> 204
ttccactgtg gactattcgg atcagcttgc ctctcattat tgatcagctt cagctgaacg 60
taggtctact tggtctcgta gttagct 87
<210> 205
<211> 87
<212> DNA
<213> 人工序列
<400> 205
ttccactgaa gatctgtcca caagggttgt tgaaacccac tgtgaccggc gtgattgaga 60
gatcgtcagg gtaatttgcc gcgacga 87
<210> 206
<211> 87
<212> DNA
<213> 人工序列
<400> 206
ttctctcata gatcatatcg tcgaatcgct actctactgg ctctcatatt atatagagtg 60
tcttgaatgc tgactcgcac tttgagc 87
<210> 207
<211> 87
<212> DNA
<213> 人工序列
<400> 207
ttctgtcaca aggtcacgtt cgatcgcctg ataggaccac cgtatgagac tcacggtacg 60
cagctctctg tcgtagctca tgtggag 87
<210> 208
<211> 87
<212> DNA
<213> 人工序列
<400> 208
ttctctcgtt agtctgcttt cgagcagcgt agagataatt gaggcttctc tgagaagtct 60
tgactccgat cactattctg ctatgag 87
<210> 209
<211> 87
<212> DNA
<213> 人工序列
<400> 209
ttctctcgag cacgttacct cgtcctcgca tcacaggtat cataggtacg atgacctgag 60
caccaggtcg atagtaatgt gccagac 87
<210> 210
<211> 87
<212> DNA
<213> 人工序列
<400> 210
ttctctctcg tcccgtcggt ccgaatgtag ccgacacgaa tcatcgcgtt ggctcgaact 60
ggtcgatgaa gttgagcgcg aagaatc 87
<210> 211
<211> 87
<212> DNA
<213> 人工序列
<400> 211
ttctctctgc ctggctgagg ctaccctcct cagatattcc caatgtgaga tgtctcatat 60
aagatatatc atcacaagcg accattc 87
<210> 212
<211> 87
<212> DNA
<213> 人工序列
<400> 212
ttctctcctg gaggattagt agtctatttg acgaacctag ctgacctatt aggaggttct 60
ctcgcaagcc atggcacact gtcgtgc 87
<210> 213
<211> 87
<212> DNA
<213> 人工序列
<400> 213
ttctctccgc tctcacagcg ctcaggaact ccatgatgat cttgccgacc agtagtatga 60
aatctcaact accgatacgc agtaaga 87
<210> 214
<211> 87
<212> DNA
<213> 人工序列
<400> 214
ttctctatct agccaatcac ggcacactga agcgctcagc agacgccgta cgtgtacact 60
gtgccttgtc tcatatgcac tacatct 87
<210> 215
<211> 87
<212> DNA
<213> 人工序列
<400> 215
ttctctatac acggactccg actgatccct gctaaggagg gtttctagcc tatctcgaga 60
ctgccttagc acacaactga ggtaatc 87
<210> 216
<211> 87
<212> DNA
<213> 人工序列
<400> 216
ttcctccgat acaagttgat aatcctcctg gagcctttca aggagagtcc tatcatccag 60
ttggatttag agaagggtcg attaaag 87
<210> 217
<211> 87
<212> DNA
<213> 人工序列
<400> 217
ttcctccgtt tcgctatcca cttgttcctc cctcgacata agataccggt cagagcttga 60
cgcggcagac cgttccgaaa cctcgtc 87
<210> 218
<211> 87
<212> DNA
<213> 人工序列
<400> 218
ttcctccagg gaatggctaa gcgcgtaact cgcctctgag ctccgctggt attacctcga 60
agacgtgtcg tcctctatac tcgagct 87
<210> 219
<211> 87
<212> DNA
<213> 人工序列
<400> 219
ttcctccacg tgttcgcagg attattacta atccgaagaa tccgttcaca gctattcgct 60
cgaactggac gccataatta ggtcctc 87
<210> 220
<211> 87
<212> DNA
<213> 人工序列
<400> 220
ttcctcacgg gcatccgagg atgctcttga tgagagatgg gaatgctgga ggattcagac 60
tgttcacagg tgtgctgacc tatgaga 87
<210> 221
<211> 87
<212> DNA
<213> 人工序列
<400> 221
ttcctcactg tgcgtgaccc taacgcggga aataacacta gattgaaggg attattaaac 60
atcagagtgt agaaggcaag cactgct 87
<210> 222
<211> 87
<212> DNA
<213> 人工序列
<400> 222
ttcctcatga tcaagtgatc aaatcagcga tatagagtct tctgcagaca gttcggccat 60
gaggctgcgt ataagttaca tccacca 87
<210> 223
<211> 87
<212> DNA
<213> 人工序列
<400> 223
ttcctcatct atacacctaa cgcgtataat acgcgagagg gccctggatg tctacaggta 60
cctgtcatcc gagaggtaaa ccatagc 87
<210> 224
<211> 87
<212> DNA
<213> 人工序列
<400> 224
ttcctcaagg cttgtcgaag tgcgatattc gaggcgctcg tcgctcgata tttctgccga 60
taggcgagag taactctgtc acctcgt 87
<210> 225
<211> 87
<212> DNA
<213> 人工序列
<400> 225
ttcctcaact tcgtaaagag agatccgtca ttctctactg agttacgaga cacattcctc 60
tgaagagcgg accgtgacca gactcct 87
<210> 226
<211> 87
<212> DNA
<213> 人工序列
<400> 226
ttcttgcgtc tataggtgtc tagtatcatc acactaccta cttgagctcg tgtccctgtc 60
caggtgctcc tcgtgtgatt agtctct 87
<210> 227
<211> 87
<212> DNA
<213> 人工序列
<400> 227
ttcttgcagg cgataacagt ctgaatatag tgctgcgatc agttaaagat aacgcgctga 60
ggcgtcaaga cgggctctga tccatgt 87
<210> 228
<211> 87
<212> DNA
<213> 人工序列
<400> 228
ttcttgatct tcgagtgaaa ctcacctaat gctagctctg ctgtcgctcg tacgggatca 60
ttataccctt tgacgactta ccaccag 87
<210> 229
<211> 87
<212> DNA
<213> 人工序列
<400> 229
ttcttacgaa atacttcaac tgatgtatac acgtcgtctc gcagctgacg ctgaggtctc 60
gagatcaatc gtctccaggc tcgtgtc 87
<210> 230
<211> 87
<212> DNA
<213> 人工序列
<400> 230
ttcttaccta agggactacg tgacgctaca aattacttcg atcgtcagcg aatcatctct 60
cctaacggtg acagatcgac tgtattc 87
<210> 231
<211> 87
<212> DNA
<213> 人工序列
<400> 231
ttcttactgg atttgacgta ctgagctgct gtagatcaca tgcagttcgc tttattctac 60
gtattgactg gtgtcatcga ggacgat 87
<210> 232
<211> 87
<212> DNA
<213> 人工序列
<400> 232
ttcttacact cactctaggc atcgaacggc atcggtgtcc gattgtgtct cttagctgct 60
acacctatac gtccttcgac tggtgat 87
<210> 233
<211> 87
<212> DNA
<213> 人工序列
<400> 233
ttcttgccat tctgtggctg aaacgcgcag aatagtagcc ctcagttctc aggtagactc 60
ggagcacagg agtcgggata tgagctg 87
<210> 234
<211> 87
<212> DNA
<213> 人工序列
<400> 234
ttcttgactc tccattgatt ctctttcaag tatcgcttcg gacaggcatg tatacagcac 60
cgcgtcgcag cgacgatctg acataca 87
<210> 235
<211> 87
<212> DNA
<213> 人工序列
<400> 235
ttcttgatgt cacagacagg ttagatgcga cgaaagtatt atgcacgagt ctgacgagta 60
agaagcctca ctcctggacg aggattg 87
<210> 236
<211> 87
<212> DNA
<213> 人工序列
<400> 236
ttcttctacg tcgcgccttc tctcgcaact ggatgatgac atctcgagtc agcgtacaga 60
tagcgcaacg cgttctcaac gcgctga 87
<210> 237
<211> 87
<212> DNA
<213> 人工序列
<400> 237
ttcccaagct tcttgtcttc atattagtgc tgactcctac ctccacatca gcgccgaatc 60
ataactacga acaagatcac tatagtc 87
<210> 238
<211> 87
<212> DNA
<213> 人工序列
<400> 238
ttcttggcga gagctgatac ttagcatgct acgcacctcc gctgccacat ctctagctga 60
cgcctgtgta gctatcacat gacgtat 87
<210> 239
<211> 87
<212> DNA
<213> 人工序列
<400> 239
ttctgtgtct catatatcct agctacagat acgatgtctc tgatgccacc tggagtgttg 60
tctcgtggtc tatatggaca cataaca 87
<210> 240
<211> 87
<212> DNA
<213> 人工序列
<400> 240
ttcccgagat tcttatcttc atactagtgt tgactcctac ctccacatca gcgtcgaatc 60
ataactacga ataagttccg aagccgt 87
<210> 241
<211> 87
<212> DNA
<213> 人工序列
<400> 241
ttcccaaagg gtttgtatgg aatcagttgc atcgtccgaa ctttcatcat atcgtatgct 60
ccacctaata ataactagta ccgttga 87
<210> 242
<211> 87
<212> DNA
<213> 人工序列
<400> 242
ttctacagaa gaccagctac ttgagagact gtctacatcg tctcatgacc ttcagtgcgc 60
cagaagtacc atcgcgtcct cctcctc 87
<210> 243
<211> 87
<212> DNA
<213> 人工序列
<400> 243
ttctacagct cgcgcggacg aaatcattcg gtcctgcgac gtagatgagt cccaacaaac 60
gtagatatct agcgacgaat cggtaag 87
<210> 244
<211> 87
<212> DNA
<213> 人工序列
<400> 244
ttctacaagt gttcttgaac accagtgatc agcgcagctc agtctctagg agcaagacga 60
gtctgactca catagctcac ggtccga 87
<210> 245
<211> 87
<212> DNA
<213> 人工序列
<400> 245
ttctataacc ctagtaagtg tacgatctga gtgccgtctc tgtctacgat ctctcgatat 60
gagccttcgc cggcttgatc gatagta 87
<210> 246
<211> 87
<212> DNA
<213> 人工序列
<400> 246
ttctatacgg tggcaagacg cgtcggacat ctgactgagc caggctcgtg aactcattga 60
tgaatcagaa agttcctagt catactc 87
<210> 247
<211> 87
<212> DNA
<213> 人工序列
<400> 247
ttctatactg gcactaacca ggtaagacgt ctaccaggat agccgacttg cttcccatac 60
tgacgagact gtcagagatt agatagt 87
<210> 248
<211> 87
<212> DNA
<213> 人工序列
<400> 248
ttctatataa gagcgctcga ctgaactgag ccgcctcctg caaacaacta gactgtatga 60
ctcctaggac cgggcctctc gtcggga 87
<210> 249
<211> 87
<212> DNA
<213> 人工序列
<400> 249
ttcctgaagt gatattgaaa ggtcagtcgt ttcttcatga taggcgacta tggattgtcg 60
actatagaga cttgtcagca caagcag 87
<210> 250
<211> 87
<212> DNA
<213> 人工序列
<400> 250
ttctacgtga gtgctttccc agacaattat tgaggtactc gacagcagac tctcacagct 60
gtggatactg cgacagaccc tggttct 87
<210> 251
<211> 87
<212> DNA
<213> 人工序列
<400> 251
ttctatgtct tgcagggagt cggatgatag acgggccact gtgagctgaa tggcgctgag 60
aacgtctgtg tccactactg cactcgc 87
<210> 252
<211> 87
<212> DNA
<213> 人工序列
<400> 252
ttctgatcta gtcagagcgc tcgaggcagc ctgagccaga gacgcttgta gacgggacct 60
atgagcgtgt cgcgaaagag agtcacg 87
<210> 253
<211> 87
<212> DNA
<213> 人工序列
<400> 253
ttctctgata atttcttaat cgagcaccct agaaatcaca actcaagtcc aagtttccta 60
ccgggatgat gactccgttc aggcaat 87
<210> 254
<211> 87
<212> DNA
<213> 人工序列
<400> 254
ttctcgaagc gatagctcct cagacctgca cgccgcagag atccgggacg aatggcttat 60
tctactcatg acccatgaaa gcgagct 87
<210> 255
<211> 87
<212> DNA
<213> 人工序列
<400> 255
ttctgaaaga agaattatga ggcttaggga tagtcgaaga agataccttg atagggagtc 60
ggttaggctc ctagaagcac tcacgta 87
<210> 256
<211> 87
<212> DNA
<213> 人工序列
<400> 256
ttctgaagtt ctcagcactt gtgatgcgca aacttgggag cgcgtgaggg ttcaatgata 60
actgacaatg caacaacata ctcgtac 87
<210> 257
<211> 87
<212> DNA
<213> 人工序列
<400> 257
ttctgacgac cgtgatgcgt caacacgatc agagtccgcg cgtagtcacc tctaaatccg 60
gaccgcctct gcccaccgtt gaagatc 87
<210> 258
<211> 87
<212> DNA
<213> 人工序列
<400> 258
ttctgaatcg cgcacatgaa gttgctgcat ttgtactgaa tctcacaggt ggcaaagacg 60
gacggcctct cgctggtgtc tgagcct 87
<210> 259
<211> 87
<212> DNA
<213> 人工序列
<400> 259
ttctgacagg cgtatctctt ccctctccca tctcgtacat tgggacctcc gctcctctag 60
gcatagttgt cgatccatgt cgaggca 87
<210> 260
<211> 87
<212> DNA
<213> 人工序列
<400> 260
ttctgacgtt gagagtcttg attacagcag ccactgtata gatacctcgg cttgtagtgc 60
agacgtcgcc gaatcggtgc tcagaag 87
<210> 261
<211> 87
<212> DNA
<213> 人工序列
<400> 261
ttctgaacaa atgagaatgg aggagtgaac gtcccaagag cttagcgact agcagtccga 60
ctagcaactg acttcttcgc atctcag 87
<210> 262
<211> 87
<212> DNA
<213> 人工序列
<400> 262
ttctgaaatt tcctaatcaa caagactcag tattactagc cgtgttcgcg cggatgtact 60
tgaaatgcta actacgctcg atgttct 87
<210> 263
<211> 87
<212> DNA
<213> 人工序列
<400> 263
ttctgaataa gaggcgcggc tactttgaac cagagagtct acgtctctgt agcgtcatta 60
tactcattcc agagaacatg atgccga 87
<210> 264
<211> 87
<212> DNA
<213> 人工序列
<400> 264
ttctgaactt gcctctctta gttcaacaga tgagcaacgg agctagtggt ctcaaagctc 60
ggcctccagc gcgctcgata ctagcgc 87
<210> 265
<211> 87
<212> DNA
<213> 人工序列
<400> 265
ttctacggct gcactggaca ggatatccca gactgatctc ctttgaactg tcaggtcaat 60
agaacactca gtatcatacg agatggt 87
<210> 266
<211> 87
<212> DNA
<213> 人工序列
<400> 266
ttctctttgg gcgtcaaccg aggcctcatc acttcgacgg gtctcatgca gtgcacgacg 60
agaggaactt cttcactgct ctatatg 87
<210> 267
<211> 87
<212> DNA
<213> 人工序列
<400> 267
ttcttattcg agcaggcatc gaagcgacgc ataatcgcta gagagctctc tcgcactacg 60
ggcgatgtca tgactcgaaa gaacata 87
<210> 268
<211> 87
<212> DNA
<213> 人工序列
<400> 268
ttcttcggag ctctcgcttt acagcctgct ctgactgtcg gtcacatata gagaaaccgc 60
cgcggagtcg agctctctag tctccag 87
<210> 269
<211> 87
<212> DNA
<213> 人工序列
<400> 269
ttcttatctg cttatactcg cgtcgataga aaccagactt tacctttagt caaggtcgtc 60
catagacgac ctaactgtga gtagttc 87
<210> 270
<211> 87
<212> DNA
<213> 人工序列
<400> 270
ttcctatgag agccatctat gatagctcta gcatcttgag ctgagagagc ggagctaaag 60
cgactgtcat tgcctctcgt gggatga 87
<210> 271
<211> 87
<212> DNA
<213> 人工序列
<400> 271
ttcttgttat gtagagatct cttatagctc atgaaccgtg caggacgaaa tgtggcaaga 60
cagcgcagaa agtgtcgcct gcgatct 87
<210> 272
<211> 87
<212> DNA
<213> 人工序列
<400> 272
ttcttatata taagattgct ggcgcgactc acgtctaatg gcaagagttg tcctccgaca 60
cagactaaga acttgttggg actgtca 87
<210> 273
<211> 87
<212> DNA
<213> 人工序列
<400> 273
ttcttgtcag tcttctagct aacggacgag gatcgtcgct gaccttctgg tggatctttc 60
gtcacaagag agactccgaa gcgcttc 87
<210> 274
<211> 87
<212> DNA
<213> 人工序列
<400> 274
ttcctacctc tccagaatca tctgcgacta acgggccagt ctggtcaggt ggtactctcg 60
tatggccacc tccgtgatgt cgtctta 87
<210> 275
<211> 87
<212> DNA
<213> 人工序列
<400> 275
ttcctactac tataggtgcg cttcgatagc gtactcaaga tactcgagcc tggcaagact 60
ctgagaatct gatagagtac gggtcgt 87
<210> 276
<211> 87
<212> DNA
<213> 人工序列
<400> 276
ttcctgtgcg gtgcttagtt gtatttcaag ggtggaaata cactaggcgc gttaaagctc 60
ttgagcgtac cgtctagctg aagtttc 87
<210> 277
<211> 87
<212> DNA
<213> 人工序列
<400> 277
ttcctgtagg tcacgggcat cttcttgact cagttgtctc agccagaggc gtcgccttgc 60
tcgacttcta tagctcactt ggtcata 87
<210> 278
<211> 87
<212> DNA
<213> 人工序列
<400> 278
ttcctactcc gagagatcct acgacgacgc tctcgtctgg gctcgctaat ccagggatca 60
tgaccttctc gttgagagac gggagct 87
<210> 279
<211> 87
<212> DNA
<213> 人工序列
<400> 279
ttctaggtat atgatctaaa ccattgtcag ccatcgtagg gtcgctagtc ggcgagcaag 60
gtatgtacac cttgcctgtc tcagcag 87
<210> 280
<211> 87
<212> DNA
<213> 人工序列
<400> 280
ttcctatctt cttctactat aagattggtc tgtgcagtga agcgcactgc acactgtaga 60
actctcccgg gatgcgtcaa gcgagtc 87
<210> 281
<211> 87
<212> DNA
<213> 人工序列
<400> 281
ttcctgttaa attctcgaac aaagttcccg acaagactca attcagatct ccgaagagga 60
catataggaa cattcacact cgaggac 87
<210> 282
<211> 87
<212> DNA
<213> 人工序列
<400> 282
ttcctgtatt cggtgcagct gagacgtgcg gctgatttac tcgctcgata cagactagac 60
catctcgagg taggatatgg atagtta 87
<210> 283
<211> 87
<212> DNA
<213> 人工序列
<400> 283
ttcctatcgc atttacactg ccagtagtcg ttggctagac ctacgctatc attcaagtcg 60
agcggttaga tccaggtctc tccatct 87
<210> 284
<211> 87
<212> DNA
<213> 人工序列
<400> 284
ttctagtcac ctaactgttt gacagcagca aacacagacg cttactcgcc gttcctgcag 60
agccgcgcta cagatcgttc aaagtac 87
<210> 285
<211> 87
<212> DNA
<213> 人工序列
<400> 285
ttcctcttcg tcccttgagg tccttgagac gtgctatgaa tagatgtcac attacgagat 60
tcgagaatat tggagctctc tttgata 87
<210> 286
<211> 87
<212> DNA
<213> 人工序列
<400> 286
ttcctcttaa actgcctaaa tggagtaggc gctgtgtctt atcctgatga tttggattac 60
gaccgagact tatgatcatg cataggt 87
<210> 287
<211> 87
<212> DNA
<213> 人工序列
<400> 287
ttcttcggct gctctagaca ctgtgatgag aagcatcact gaccatagct gggaggcacg 60
gtcatcgtag agagagattc gccgcgt 87
<210> 288
<211> 87
<212> DNA
<213> 人工序列
<400> 288
ttctgagagt tcgtcagact agtagtctgt ggtgagatcc agcgaaagag tcgaggcatc 60
cgtttccgat gtcgctacga gggtgtc 87
<210> 289
<211> 87
<212> DNA
<213> 人工序列
<400> 289
ttctgaggca agtaggcggc gcgagcttag tgaggtctcg tacgctctag ctatatgttc 60
caggatatac agtgatcacc actcgtc 87
<210> 290
<211> 87
<212> DNA
<213> 人工序列
<400> 290
ttctgaggaa agaagtattt agtctatcag ggcgattgat ctggagatct gactgatgca 60
gacatcggtg tcagaatatt gccggga 87
<210> 291
<211> 87
<212> DNA
<213> 人工序列
<400> 291
ttctgagtcc tgtagtgata gacttctccg ttcgcatgaa tgggaggcct cagagacgac 60
ctcctagaca agtgtatcat gcgagga 87
<210> 292
<211> 87
<212> DNA
<213> 人工序列
<400> 292
ttctgagtgt gcgagtaggt gactccttgc tcgcgacgcc gaactagtgg aatcttcgag 60
catcctcgtg ctgatgtcag tgtgtag 87
<210> 293
<211> 87
<212> DNA
<213> 人工序列
<400> 293
ttctgagctt cttgatagtt ctctgcagtg ctgttccgca gactcgtcgc tgatttcaga 60
atcctgcctg acggattctt aagttag 87
<210> 294
<211> 87
<212> DNA
<213> 人工序列
<400> 294
ttctgagcgt agccgcgccc tggatattga agagtaggtg atagatatct gcgaccgaca 60
agacgactag tcactccaaa gtatcgc 87
<210> 295
<211> 87
<212> DNA
<213> 人工序列
<400> 295
ttctcgagct gcgatgcagc tttcggtcct ggacctcgac attacttcct cggcgcttgt 60
gacggttcta cgggaactcc atagtgt 87
<210> 296
<211> 87
<212> DNA
<213> 人工序列
<400> 296
ttccctgcat cacgtttcga gcgttcatag tctggagtcg tacctcgatt caagcatatg 60
gcgtgatctc tcggacagag atagaga 87
<210> 297
<211> 87
<212> DNA
<213> 人工序列
<400> 297
ttctcactct tcgatgagcg aagaggacct atcagaagtg aggctctaat ccacctaatc 60
cctttggtat gaatcgactg cgtcggt 87
<210> 298
<211> 87
<212> DNA
<213> 人工序列
<400> 298
ttctcgtgag agcagaaccc atcagtatct ccgggcgcgc aggtggtgta gttcgcggga 60
ggccagttct agcacctgta tccttcg 87
<210> 299
<211> 87
<212> DNA
<213> 人工序列
<400> 299
ttccatatag tcagttcaga ctaccagtgc cagcgattag gactgaacag ttctagatag 60
tgcctctacc taggaacttg catcgga 87
<210> 300
<211> 87
<212> DNA
<213> 人工序列
<400> 300
ttccatatct cttgacaggg ccagtcatgc tgccgaacag caatattgtg attcatagtg 60
agcgtcatat tcactggtaa cgagcca 87
<210> 301
<211> 87
<212> DNA
<213> 人工序列
<400> 301
ttccatcaga atcagcgctc taagggatgc cgagtgcctc gacgtctctg aaattctatg 60
acatactctg tggactgata ggtcgct 87
<210> 302
<211> 87
<212> DNA
<213> 人工序列
<400> 302
ttccatcacc agactccaga gtgtgcgtgc gagtagcatc tagacagcca gcaggtacag 60
cctcattaga tggctaacaa gacttgc 87
<210> 303
<211> 87
<212> DNA
<213> 人工序列
<400> 303
ttccatcgaa ctctcaaggc tcacacgtgt ctcaacgact tcaatctcat gatgggtcag 60
gagcgacgct gatatcgagg tagtgtc 87
<210> 304
<211> 87
<212> DNA
<213> 人工序列
<400> 304
ttccaccgta tccgatgaaa tggaggctgt gtctctacga agcagcagga cagaggctct 60
gacagaataa agttctctga tgagcct 87
<210> 305
<211> 87
<212> DNA
<213> 人工序列
<400> 305
ttccatctac gcccttgaga gagtcgatgc atccagggtg tactggatgc aagagatagc 60
gtcggaatcc cgcgtatcat aatacat 87
<210> 306
<211> 87
<212> DNA
<213> 人工序列
<400> 306
ttccacctca gatcataggg acgaaagtgc agctagggtc agtactcaga tcgaggaatg 60
gctgatatcg tcagatcttt gtacagt 87
<210> 307
<211> 87
<212> DNA
<213> 人工序列
<400> 307
ttccatccgg tgcagtgtaa tttcgagtgc ggtggatctc ctctaggcat ggcgtagcta 60
cagttgaagg tgtcactcaa ttactta 87
<210> 308
<211> 87
<212> DNA
<213> 人工序列
<400> 308
ttctcgcagg gacgaagatg acgcttagat cgagtgagaa cagaggcgct cgacagatca 60
gtcttgtact tgtcgagatc tagaatc 87
<210> 309
<211> 87
<212> DNA
<213> 人工序列
<400> 309
ttctagtgct caaagcctcg aagtctcgga tcattggctc tcgcgagctg tcagatgcac 60
ttaagtgatc gccacttagc tcgtagc 87
<210> 310
<211> 87
<212> DNA
<213> 人工序列
<400> 310
ttctagtaga tccagaacaa gcctatctcg gatccacgaa ctactgagat ccagatcttg 60
agacgtggac gcatcttctc tgctctc 87
<210> 311
<211> 87
<212> DNA
<213> 人工序列
<400> 311
ttctagctca gaaagggtcg ttagaacact cgcctgaatc ctctagagtc ttaggctaca 60
tagaagccaa gaggcatcat caatctc 87
<210> 312
<211> 87
<212> DNA
<213> 人工序列
<400> 312
ttctagtgag agggaacaaa cgtcaaggta ttacgtaacc caaagtcgac tgctccaact 60
acattggctg gcctcatggt cgtatgc 87
<210> 313
<211> 87
<212> DNA
<213> 人工序列
<400> 313
ttctagcctg agttccgacc tttgacgtag gatctggaca tccctccttg acacagacgc 60
gatagataga gtctatctat caaccac 87
<210> 314
<211> 87
<212> DNA
<213> 人工序列
<400> 314
ttctagctaa tcgtggtccg acgccgccgt gtaggatgca acctctacgc tacaggtgct 60
ggattctgat atgacgatcc tacgggc 87
<210> 315
<211> 87
<212> DNA
<213> 人工序列
<400> 315
ttctcttctt tactccagta ttgatcgctc ctcagagatc gatcaacgat caagcatgga 60
ctcagagacc actctgcaac actcact 87
<210> 316
<211> 87
<212> DNA
<213> 人工序列
<400> 316
ttctcttcaa gattaggatg tatcttctga ctcggagagc gagtagcggg cctcatatag 60
tcaatgctcg cttactagaa gactgac 87
<210> 317
<211> 87
<212> DNA
<213> 人工序列
<400> 317
ttctagcgcc tcccagtagt cagttgaggc gtgagaggat tctagttagt actcccttga 60
actatcgcta ctcgtgatga cgtgact 87
<210> 318
<211> 87
<212> DNA
<213> 人工序列
<400> 318
ttctagcagg ctggtggaca caagtagcac tgattcaact tgggcttcgg agatggacag 60
ccaagtttca gctctcacct cccgaga 87
<210> 319
<211> 87
<212> DNA
<213> 人工序列
<400> 319
ttctcttgtc tcataaagct cggagattga tagacgtgtg tacgatgaat acagtagaag 60
ttgtcattca tcaattctta gtgtaga 87
<210> 320
<211> 87
<212> DNA
<213> 人工序列
<400> 320
ttctcttgat tgaagcgcgc tcgcacatct gagggctcgt attatccggc tgacgtcggc 60
tagggtcgca cggcaggtca ccgttgc 87
<210> 321
<211> 87
<212> DNA
<213> 人工序列
<400> 321
ttcttcctct gtatccagca caagctagga tcaaactcga atactttcct cgtccactga 60
ggccagtcat cttcttagtt atacaat 87
<210> 322
<211> 87
<212> DNA
<213> 人工序列
<400> 322
ttcttcctgt tcgcattgct cgtgtctcgc tcgctaaatt gtgctacggc tagagctgtg 60
tgtagcctct agtcgctact ccacact 87
<210> 323
<211> 87
<212> DNA
<213> 人工序列
<400> 323
ttcctctatc gacgtacttt ccaccctgag gtgactgaca atcagccgac attctcggga 60
aagtgtgcat ctcagcctgc ttagtta 87
<210> 324
<211> 87
<212> DNA
<213> 人工序列
<400> 324
ttctcaatcc tcctacagta gcgaagatta caccaccatt agtctcctct gtatttgaga 60
ctcttcttca gcttactctg cttatct 87
<210> 325
<211> 87
<212> DNA
<213> 人工序列
<400> 325
ttcttctagt aggtcaatgg accttcgtca agcctcgatt cgagtactgt cagtatcact 60
agccctgcag gagtcaatgt cgcggta 87
<210> 326
<211> 87
<212> DNA
<213> 人工序列
<400> 326
ttcccgggat tcacttcgcc aacagtatgt cattcgtacc atgcgttcgc atctggtaag 60
aacctaacta tgtaggtcga cgcatct 87
<210> 327
<211> 87
<212> DNA
<213> 人工序列
<400> 327
ttctctttca gtggaatcct ctagctacga ccaaatggac tctagaattc agcagatagt 60
ccaatccgtg atgagctacg ctgagag 87
<210> 328
<211> 87
<212> DNA
<213> 人工序列
<400> 328
ttctagagag gtgcttgagg tcatccacta ggcgacggtc agtgaactca gttcacatag 60
agaatcctag gaccgcgcca gaatcga 87
<210> 329
<211> 87
<212> DNA
<213> 人工序列
<400> 329
ttcttccgcg acggaaattc agatggtctg atcgtcatag tcggaggact cagttgacct 60
acggatttgt tacactagga gttgcca 87
<210> 330
<211> 87
<212> DNA
<213> 人工序列
<400> 330
ttcttcaacg acaatttcgt accgtgcact cgcatgactt tcgcgtgctc gttggtgctc 60
gaggtaccga tactctgaac actcgta 87
<210> 331
<211> 87
<212> DNA
<213> 人工序列
<400> 331
ttcttccact agtgccagtg tctggtacag tgatgacctt gagagcatta ttacaagctg 60
ctccctctgg tgaactgtgc tgatcct 87
<210> 332
<211> 87
<212> DNA
<213> 人工序列
<400> 332
ttcttccagt catagtgtat gcaggctggt gcgagcaagc atccatagca gagcttgaga 60
gctgagcctc tggtggtatg cggaagt 87
<210> 333
<211> 87
<212> DNA
<213> 人工序列
<400> 333
ttcttccctt cgtctgtctc ttcttagcga cgcctcggtc atgagatgaa cctagaggac 60
ttatctcagg tgtgcagcct gctatag 87
<210> 334
<211> 87
<212> DNA
<213> 人工序列
<400> 334
ttcttcccgg agcagactag tcgagtccct tagttcgcta agccggcaag tggaaagtag 60
tagagaggaa gaacgtcgca tctccga 87
<210> 335
<211> 87
<212> DNA
<213> 人工序列
<400> 335
ttcttgagat agcactgccc tcgctacatc acttatactc cgcgttagac gcagggtgcg 60
agttagcatt gaacgagagt atgttac 87
<210> 336
<211> 87
<212> DNA
<213> 人工序列
<400> 336
ttcttggtct aggagacacc ttctgtacta taggacctct tattgtctag cgtcggagca 60
aaggctactt gagctaatct cgctaca 87
<210> 337
<211> 87
<212> DNA
<213> 人工序列
<400> 337
ttcttggtat ctacggactt cacatgtggt ccgcagatct gttcttattt cttacacatc 60
ctcttcccgc ctcattctag caaccga 87
<210> 338
<211> 87
<212> DNA
<213> 人工序列
<400> 338
ttcttagctc agatgcgtat ggctgtcgac atatcagcta tggagaattg tcagttctct 60
gcaatacctc ctcgaactta gctctta 87
<210> 339
<211> 87
<212> DNA
<213> 人工序列
<400> 339
ttcttaacaa attgatctca ttatagacga aacgcaatcg caccaccgtc tcatagcagt 60
cctcctacgc gaaattgcct atctcgt 87
<210> 340
<211> 87
<212> DNA
<213> 人工序列
<400> 340
ttcttgaact gagagatcac ggagcctatg gagggagatg tcacacctgt gcatcacgag 60
aaggcgacga tactgtgaag catacct 87
<210> 341
<211> 87
<212> DNA
<213> 人工序列
<400> 341
ttcttcacta tattcacatt agctaagcgc ataatccgtg gaatcatctg tttaccgtct 60
ggcttcctac accgcgtggc ggagcga 87
<210> 342
<211> 87
<212> DNA
<213> 人工序列
<400> 342
ttcttcacac cggtaaatta cgtcatcaac cgaggatctc gcctcccatt attctgaaac 60
tgagagatgg gtttctcatg agcgtcg 87
<210> 343
<211> 87
<212> DNA
<213> 人工序列
<400> 343
ttcctgggta gcctgtgaaa gcaggtacat tgaaactctc tcactcctca tctgccacag 60
tgcatcaagc cgggaactcg acgcata 87
<210> 344
<211> 87
<212> DNA
<213> 人工序列
<400> 344
ttcctgggac agaacggtct actatagctc cgctgactac gtacatgtga ttgaacggta 60
cagtgactcc ctatgcgata taacgat 87
<210> 345
<211> 87
<212> DNA
<213> 人工序列
<400> 345
ttctcggtgg atttcccttc gggaggagga ggacagcagc taagaacacc agcgaaggtc 60
tatggatcta caatccaggt cttccct 87
<210> 346
<211> 87
<212> DNA
<213> 人工序列
<400> 346
ttctcggcta cgaatctatc tgatatccca cacccgtaca tgtctacggg atagtcagtg 60
tgtttcaaca cggcttaccc aacaaag 87
<210> 347
<211> 87
<212> DNA
<213> 人工序列
<400> 347
ttcctgagcg tcatgactgc taagcgagtg gtcccgcgac gaaatatcga gtctatctat 60
gagctgcgag tctcagtgtg accgcgt 87
<210> 348
<211> 87
<212> DNA
<213> 人工序列
<400> 348
ttcctaagat agtcgatcag atgatatcag atcacagctc actctttaag attggcgaca 60
cctttcatca tggagctgcg acgctca 87
<210> 349
<211> 87
<212> DNA
<213> 人工序列
<400> 349
ttcctagtct tctcgaagcc tccataggga aatggttagg cgggtgtcag attgcatgat 60
cagatctgca gaggaggatt atcaagt 87
<210> 350
<211> 87
<212> DNA
<213> 人工序列
<400> 350
ttcctagtga cggattcttc aagaaagcag tgaatacgac agagcgtcca gtgcatgcga 60
agtactccgg agtgttactg cgcggtc 87
<210> 351
<211> 87
<212> DNA
<213> 人工序列
<400> 351
ttcctggctg tacacagcct cgtgagcact acagtcgctc tccgatcgcc tgtaggatta 60
tatgtgtagg taagctgtta gatcgta 87
<210> 352
<211> 87
<212> DNA
<213> 人工序列
<400> 352
ttcctggcat taatatctga tctgcgtgag agtgcaacgc cgaagggaat catcgtctgc 60
gatactaagg acacggtcct cagcaat 87
<210> 353
<211> 87
<212> DNA
<213> 人工序列
<400> 353
ttcctagaca ctttctcgat ctattacaat gagtgcctct tcatcgcata gtatggaata 60
gcacgtaaca cactaagata tccttct 87
<210> 354
<211> 87
<212> DNA
<213> 人工序列
<400> 354
ttcctagagg agttcgagat acataatttc acggcgtcta taggctacga ccattgttca 60
cagcagatcg taggcgtggc aggccgc 87
<210> 355
<211> 87
<212> DNA
<213> 人工序列
<400> 355
ttcccttcta gccgtactcc gatccaggga ctcaaggtca accctggttc tctcgcgtga 60
gtgggacgat tcatgtgaca ctcaacg 87
<210> 356
<211> 87
<212> DNA
<213> 人工序列
<400> 356
ttcccttcag tctatactat gtcgtctcct gattcggagg agcatgcaga tcaggagctg 60
cctgcgtgac tcgtctgacg tgtgaga 87
<210> 357
<211> 87
<212> DNA
<213> 人工序列
<400> 357
ttccctttct gttagcagtt catagactga tcttgcatcg gagataagca tggcaagatg 60
actggaacta tatctagcaa ggcgtag 87
<210> 358
<211> 87
<212> DNA
<213> 人工序列
<400> 358
ttccctttgc agcagactta gcgagtggta tgacagtctc atcagccatc gtctgtgtac 60
cagcgctctc acgtgatcat caagctg 87
<210> 359
<211> 87
<212> DNA
<213> 人工序列
<400> 359
ttcccttgca accactgatc tcatatccga gtcgtacact ctatgaatat actgatcgag 60
gtcgtgcagt gaacgctcga gccattg 87
<210> 360
<211> 87
<212> DNA
<213> 人工序列
<400> 360
ttcccttgat tgacggtcgg cctctagtat tcaccggcgt gcggtgagtt gctatagact 60
agaagagcgc gatcgcaggt ccctagc 87
<210> 361
<211> 87
<212> DNA
<213> 人工序列
<400> 361
ttcccttact cttatcgagg accgtgatag ggttcatcag atagctacgc agtccctgtc 60
gtcgatatcc tctcaaatcc accgtag 87
<210> 362
<211> 87
<212> DNA
<213> 人工序列
<400> 362
ttcccttagc agtgacgcga ggagaacgct aatcctacgc ctcgcctaca tatccgatag 60
atgagccgag gcggcctagt aggttct 87
<210> 363
<211> 87
<212> DNA
<213> 人工序列
<400> 363
ttcccgcagt gtttccatct caacgtggtc ccggtcaagt tctagcactc tcgccacacg 60
ggtctcggat tcctcctaat cacattc 87
<210> 364
<211> 87
<212> DNA
<213> 人工序列
<400> 364
ttctagtatt gaccagtcta ttagtgccca ttcatcccag agatctaggc tgtcgcgcta 60
gagctaacat tgactcgcgt acgctgt 87
<210> 365
<211> 87
<212> DNA
<213> 人工序列
<400> 365
ttccctctct tcgatctggt acgatagcga tcaatatgtc gatagatagt agatagaatc 60
tgcgcttcga agtcactcga tgagact 87
<210> 366
<211> 87
<212> DNA
<213> 人工序列
<400> 366
ttccctctaa gcgtactctc ttgaccgaag gtacagtctc cagtgagaac tggcccaggt 60
tagctcctgt cagctctacc ttcatta 87
<210> 367
<211> 87
<212> DNA
<213> 人工序列
<400> 367
ttcccactaa gaccggcgac ttacctaagt tatccttatc tgtctgctct ctacgtcttc 60
tctacaggag gtcctaataa tgagaga 87
<210> 368
<211> 87
<212> DNA
<213> 人工序列
<400> 368
ttcttgggca gacatggaag cgcttcgtag ctgaacagac cttgtttgat agtgggacct 60
gcttagagat ctatccatta ttgacct 87
<210> 369
<211> 87
<212> DNA
<213> 人工序列
<400> 369
ttcccaccgc tccattcgct accgagaaat atgcctcgct cttacgtcag aatcggagcg 60
atagctggac gaggttgctg aggactc 87
<210> 370
<211> 87
<212> DNA
<213> 人工序列
<400> 370
ttctacgaga ctagagagcc agaccctcca agctagggac ctggcagagt ggctctagct 60
gatggatgtt tgaattgagc gagctta 87
<210> 371
<211> 87
<212> DNA
<213> 人工序列
<400> 371
ttcttctgaa gtacttacgc tgctctcttg agcgacttca gactcctccg tcagtataga 60
acaactacaa atagcacgtc tgtcttc 87
<210> 372
<211> 87
<212> DNA
<213> 人工序列
<400> 372
ttctcttact gacaggcaac gatccatgcg ctctgctgta ctgagggcga gggtgtccga 60
cgtttccagg cgttcagata ggtcgag 87
<210> 373
<211> 87
<212> DNA
<213> 人工序列
<400> 373
ttctagatgg tcagtttcaa ggatacgata ttaataggca gctgagtaag ccagcctgac 60
cagacgatcc ctcgatgata ttcatga 87
<210> 374
<211> 87
<212> DNA
<213> 人工序列
<400> 374
ttctcttaga agaagcactt ctgatcgcgc gtcagaagac caggttgtga ggcaatgcct 60
ttgatcagag agcgcaacaa gatgcag 87
<210> 375
<211> 87
<212> DNA
<213> 人工序列
<400> 375
ttccctggat agaagcgatt gctggtgact tgtcgatgat gattctagtc gggaatctga 60
caggtaacaa gtccaatgtg tggtgga 87
<210> 376
<211> 87
<212> DNA
<213> 人工序列
<400> 376
ttctaccgac agactaagct gtagagcgga ttcaaggcac tcggtgactc tggattaagc 60
cgaggccgta agtgtcagca gggactg 87
<210> 377
<211> 87
<212> DNA
<213> 人工序列
<400> 377
ttctagcata tagctaaggg agaggtcgga ggatagaacg ctccgaatct ccgagcacct 60
aagtcggcta agctggctcc ggtaggt 87
<210> 378
<211> 87
<212> DNA
<213> 人工序列
<400> 378
ttctctcagt gctagaagga gtcgacaaag actcattctt gctgaagttt agctgagcag 60
ctgtgtcgag gtggaggact gaagagt 87
<210> 379
<211> 87
<212> DNA
<213> 人工序列
<400> 379
ttctagccac cgactcgccc gatggtatat caggagtcag atacagtgta tgaccgacag 60
ggcctctaca agttgaactt gcagaac 87
<210> 380
<211> 87
<212> DNA
<213> 人工序列
<400> 380
ttcttggacg cttctagtac tagttgtgct atccctagtt atagccacca gcgagagtag 60
acaggattgt taataaagaa ggagcac 87
<210> 381
<211> 87
<212> DNA
<213> 人工序列
<400> 381
ttcttcttct tacctaacaa caagaataat aataataatc ctaataacaa caataacaat 60
aataacaaca acaatgatta gccttga 87
<210> 382
<211> 87
<212> DNA
<213> 人工序列
<400> 382
ttcttgggag gagtgtcgag agagttgcga ggcagagctt gatctcatta gatccatgag 60
acgttgggac tcaagtatct ggagtcg 87
<210> 383
<211> 87
<212> DNA
<213> 人工序列
<400> 383
ttcctcagta gatacataga gagcgagtat caggctgacg gaagatgaag actatcgact 60
gaggacgagc tgggaatagc ttcagtc 87
<210> 384
<211> 87
<212> DNA
<213> 人工序列
<400> 384
ttcttcttaa agatactaac aactgcttgc gagctggatg tcctctcgaa gaattgcttc 60
aagatcttgg tgctcgagcc aagccca 87
<210> 385
<211> 87
<212> DNA
<213> 人工序列
<400> 385
ttctagttca ctactgtcat acagggctag ctaataactt ctcctgagta tgctcctcct 60
ggtgcttaga gtgacgagac actacgt 87
<210> 386
<211> 87
<212> DNA
<213> 人工序列
<400> 386
ttctatggac cggctttgct ctgttgatcg tcgatagact tccagctaca ccacgacccg 60
ggccgaatgg tattggctga tctgaag 87
<210> 387
<211> 87
<212> DNA
<213> 人工序列
<400> 387
ttctagtctt ctatcgagtc tggtcatagt catatcgcac gaagacatgg tctaagtcag 60
cgccgaatct gtgacgtctt cttgaca 87
<210> 388
<211> 87
<212> DNA
<213> 人工序列
<400> 388
ttctagttaa gagagtctat catcgtcagt gtcgcgaagg atcgtcgaca ccctatcaat 60
ctcgtctatt ctttccagcg cgtgtct 87
<210> 389
<211> 87
<212> DNA
<213> 人工序列
<400> 389
ttctatgacc tccagtcata gcagaagtgt atcgaccatc tgcctccgac aatcctcagt 60
agacctccac caccaatccg tgtcaga 87
<210> 390
<211> 87
<212> DNA
<213> 人工序列
<400> 390
ttctacgcat tactggtgca cgcattccga ttctacgtag tagtcagcta gtctccttgc 60
cgagagaacg tccagacgtc agcactc 87
<210> 391
<211> 87
<212> DNA
<213> 人工序列
<400> 391
ttctcgtgcg gcggatctcc atagccgggt ttcatgggtg taagaggagt cggtcaggag 60
atcttattcc tcatcgcggg aagtctc 87
<210> 392
<211> 87
<212> DNA
<213> 人工序列
<400> 392
ttctcatagg agatacgacc tttcaaccga gtgctcgcga cgcacggcat ccatccggtc 60
aatacggctg gtatgcagcc tccactc 87
<210> 393
<211> 87
<212> DNA
<213> 人工序列
<400> 393
ttctcgtacg gacgagctac tctggctcta ggagtcgatc gaaagtatac gaagaaggga 60
tgtactcagc agctcactga gcgagga 87
<210> 394
<211> 87
<212> DNA
<213> 人工序列
<400> 394
ttctcatcgc tgtgaaactg atctctcaag tcatgagtgt acttgctcca gactggatga 60
acaggtcagc cttagtgcta tatgtgc 87
<210> 395
<211> 87
<212> DNA
<213> 人工序列
<400> 395
ttctcatcta tcctgggccc agacttcctg gtccgtaagc taaattctct cttctactga 60
gcattctatc cagagttgag atctaag 87
<210> 396
<211> 87
<212> DNA
<213> 人工序列
<400> 396
ttctcgttgc acgtgtctat atatttcggc tcatgaactc tctatgtcct cctcgcggtc 60
gtgcagctgc ataagtcata ggagtac 87
<210> 397
<211> 87
<212> DNA
<213> 人工序列
<400> 397
ttctcgttcc cttactctaa gtcaagtaac tgattcggac caagcttcaa gcctggcccg 60
tcaacagagc cgggtaagaa tgctgag 87
<210> 398
<211> 87
<212> DNA
<213> 人工序列
<400> 398
ttctctggag agacttagaa gagtagtacg actatgacac ctctgctatt actcgtgacg 60
ccgcatgacg tctctggaag accgcga 87
<210> 399
<211> 87
<212> DNA
<213> 人工序列
<400> 399
ttctctggtg tcggactgcc gaagatacca ggacagcata acttactggc gtaggacaga 60
gtccagacta tcaatatccg actgcgt 87
<210> 400
<211> 87
<212> DNA
<213> 人工序列
<400> 400
ttctctgaga tcaagctcgg agtcagcatg gctgtgggcc cactggcttg ttagagtgac 60
cgacagagag atccacatag ccctgac 87
<210> 401
<211> 87
<212> DNA
<213> 人工序列
<400> 401
ttcttctctt tacagtcgag aacttcatca cagcctcgtt agtctagttc tagcgaggta 60
tctcatagcg agctacctac tggcata 87
<210> 402
<211> 87
<212> DNA
<213> 人工序列
<400> 402
ttcctctaga tcggtcgcct cagaatccga tattatggct atcgtcatag aaaggtcgta 60
ttcactttcc ctcctatgag aggttac 87
<210> 403
<211> 87
<212> DNA
<213> 人工序列
<400> 403
ttctaggtcg tgatcgcgtc tgattcacag ttcttgggag ctctattggg acgtaaggag 60
ctcggaaaca agcatagttg tggcatc 87
Claims (3)
1.一种DNA数据存储的编码解码方法,它包括数据编码和数据解码,其特征是所述的数据编码包含以下步骤:1)数据压缩,即先将一个或多个电子文档打包成单个TAR格式的文件A.tar,再用Lempel-Ziv-Markov chain-Algorithm算法即LZMA算法将TAR文件进行二次压缩,生成A.tar.lzma;2)数据转码,即先将A.tar.lzma以二进制形式读取,然后将二进制数据转成整数型数值串B,并用滑动窗口将B切割成无重复子串[A1,A2,…,An],最后对子串加索引生成[B1,B2,…,Bn];3)数据加冗余,即利用RS编码系统对[B1,B2,…,Bn]进行包括一次子串编码和一次数据块编码的两次纠错编码,生成数据冗余增加的整数型数值串[C1,C2,…,Cn];(4)数据第二次转码,即将整数型数值串[C1,C2,…,Cn]转码成可以用于芯片合成的DNA序列集[D1,D2,…,Dn];所述的数据解码为数据编码的反向过程,包括以下步骤:1)对合成出的DNA序列进行二代测序,过滤掉测序长度和测序质量不符合要求的测序片段,并对测序片段进行配对拼接;2)将拼接好的测序片段逆转码成整数型数值串,随后利用RS编码系统对整数型数值串进行子串解码,根据索引对数值串排序;通过选取频率最高的整数,把具有同样索引的整数型数字串合并成一条最有可能的整数型数字串,再用RS编码系统进行数据块解码,随后删去数据索引并将其连接生成一条完整的整数型数值串B;3)数据第二次逆转码,将B转成二进制数据后写入文件,并用LZMA算法和TAR解压文件,从而读出文件。
2.根据权利要求1所述的方法,其特征是所述的数据是指任何可以以二进制表示或存储的信息。
3.根据权利要求1所述的方法,其特征是它采用5比特编码框架,即根据每五个比特可以转化成一个0到31之间的整数的对应规则,将二进制数据转成整数型数值串。由于碱基A、T、G、C可以组成16种二联碱基,二联碱基再与碱基R和Y组合,可以生成32种三联碱基,恰好与0至31的32个整数相对应,所以最终二进制数据可以转换成DNA序列;对于碱基R和Y在合成过程中具体使用哪种碱基,即R可以对应候选碱基A和G;Y可以对应候选C和T,主要考虑其前一位碱基,即在保证不与前一位碱基重复的前提下随机选取,同时考虑到DNA合成平台对DNA片段的GC百分比的限制,来控制使R和Y的转换来使DNA序列达到GC%的控制要求。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611123.2A CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
CN201880048731.XA CN110945595B (zh) | 2017-07-25 | 2018-07-25 | 基于dna的数据存储和检索 |
JP2020500842A JP7090148B2 (ja) | 2017-07-25 | 2018-07-25 | Dnaベースのデータストレージ及びデータ取り出し |
KR1020207005340A KR20200071720A (ko) | 2017-07-25 | 2018-07-25 | Dna-기반 데이터 저장 |
PCT/CN2018/097083 WO2019020059A1 (en) | 2017-07-25 | 2018-07-25 | STORING AND EXTRACTING DNA DATA |
US16/631,405 US20200211677A1 (en) | 2017-07-25 | 2018-07-25 | Dna-based data storage and retrieval |
EP18838636.1A EP3659147A4 (en) | 2017-07-25 | 2018-07-25 | DNA-BASED DATA STORAGE AND REQUEST |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710611123.2A CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300508A true CN109300508A (zh) | 2019-02-01 |
CN109300508B CN109300508B (zh) | 2020-08-11 |
Family
ID=65040380
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710611123.2A Active CN109300508B (zh) | 2017-07-25 | 2017-07-25 | 一种dna数据存储编码解码方法 |
CN201880048731.XA Active CN110945595B (zh) | 2017-07-25 | 2018-07-25 | 基于dna的数据存储和检索 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880048731.XA Active CN110945595B (zh) | 2017-07-25 | 2018-07-25 | 基于dna的数据存储和检索 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20200211677A1 (zh) |
EP (1) | EP3659147A4 (zh) |
JP (1) | JP7090148B2 (zh) |
KR (1) | KR20200071720A (zh) |
CN (2) | CN109300508B (zh) |
WO (1) | WO2019020059A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN110708076A (zh) * | 2019-09-25 | 2020-01-17 | 东南大学 | 一种基于混合模型的dna存储编解码方法 |
CN111368132A (zh) * | 2020-02-28 | 2020-07-03 | 元码基因科技(北京)股份有限公司 | 基于dna序列存储音频或视频文件的方法及存储介质 |
CN111489791A (zh) * | 2020-04-07 | 2020-08-04 | 中国科学院重庆绿色智能技术研究院 | 固态纳米孔高密度编码dna数字存储读取方法 |
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN112615627A (zh) * | 2020-11-13 | 2021-04-06 | 北京信工博特智能科技有限公司 | 基于改进行程长度编码的动态压缩方法及动态压缩系统 |
CN113098526A (zh) * | 2021-04-08 | 2021-07-09 | 哈尔滨工业大学 | 一种dna自索引区间解压缩方法 |
CN113744804A (zh) * | 2021-06-21 | 2021-12-03 | 深圳先进技术研究院 | 利用dna进行数据存储的方法、装置及存储设备 |
WO2021243605A1 (zh) * | 2020-06-03 | 2021-12-09 | 深圳华大生命科学研究院 | 生成dna存储编解码规则的方法和装置及dna存储编解码方法和装置 |
CN115514375A (zh) * | 2022-11-18 | 2022-12-23 | 江苏网进科技股份有限公司 | 一种缓存数据压缩方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963429B2 (en) * | 2017-10-11 | 2021-03-30 | Lognovations Holdings, Llc | Method and system for content agnostic file indexing |
WO2019191083A1 (en) * | 2018-03-26 | 2019-10-03 | Colorado State University Research Foundation | Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules |
US11017170B2 (en) * | 2018-09-27 | 2021-05-25 | At&T Intellectual Property I, L.P. | Encoding and storing text using DNA sequences |
GB201907460D0 (en) | 2019-05-27 | 2019-07-10 | Vib Vzw | A method of storing information in pools of nucleic acid molecules |
US20210074380A1 (en) * | 2019-09-05 | 2021-03-11 | Microsoft Technology Licensing, Llc | Reverse concatenation of error-correcting codes in dna data storage |
WO2022120626A1 (zh) * | 2020-12-09 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于dna的数据存储方法、数据恢复方法、装置及终端设备 |
CN113314187B (zh) * | 2021-05-27 | 2022-05-10 | 广州大学 | 一种数据存储方法、解码方法、系统、装置及存储介质 |
CN113806583A (zh) * | 2021-09-03 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 音视频文件的dna数据存储单元、存储方法及纠错方法 |
CN114356220B (zh) * | 2021-12-10 | 2022-10-28 | 中科碳元(深圳)生物科技有限公司 | 基于dna存储的编码方法、电子设备及可读存储介质 |
US11809839B2 (en) | 2022-01-18 | 2023-11-07 | Robert Lyden | Computer language and code for application development and electronic and optical communication |
WO2024076044A1 (ko) * | 2022-10-06 | 2024-04-11 | 이근우 | Dna 인코딩 및 디코딩 방법 및 장치 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1443449A2 (en) * | 2003-02-03 | 2004-08-04 | Samsung Electronics Co., Ltd. | Apparatus, method and computer readable medium for encoding a DNA sequence |
US20110295858A1 (en) * | 2010-05-26 | 2011-12-01 | Samsung Electronics Co., Ltd. | Method and apparatus for searching nucleic acid sequence |
CN103093121A (zh) * | 2012-12-28 | 2013-05-08 | 深圳先进技术研究院 | 双向多步deBruijn图的压缩存储和构造方法 |
CN104850760A (zh) * | 2015-03-27 | 2015-08-19 | 苏州泓迅生物科技有限公司 | 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用 |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
CN105760706A (zh) * | 2014-12-15 | 2016-07-13 | 深圳华大基因研究院 | 一种二代测序数据的压缩方法 |
CN106687966A (zh) * | 2014-08-05 | 2017-05-17 | 伊卢米纳剑桥有限公司 | 用于数据分析和压缩的方法和系统 |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003025123A2 (en) * | 2001-08-28 | 2003-03-27 | Mount Sinai School Of Medecine | Dna: a medium for long-term information storage specification |
WO2004053766A1 (en) * | 2002-12-06 | 2004-06-24 | London Health Sciences Centre Research Inc. | Reverse translation of protein sequences to nucleotide code |
US20050053968A1 (en) * | 2003-03-31 | 2005-03-10 | Council Of Scientific And Industrial Research | Method for storing information in DNA |
US8116988B2 (en) * | 2006-05-19 | 2012-02-14 | The University Of Chicago | Method for indexing nucleic acid sequences for computer based searching |
SG11201407818PA (en) * | 2012-06-01 | 2014-12-30 | European Molecular Biology Lab Embl | High-capacity storage of digital information in dna |
EP2875458A2 (en) * | 2012-07-19 | 2015-05-27 | President and Fellows of Harvard College | Methods of storing information using nucleic acids |
WO2017011492A1 (en) * | 2015-07-13 | 2017-01-19 | President And Fellows Of Harvard College | Methods for retrievable information storage using nucleic acids |
EP3173961A1 (en) * | 2015-11-27 | 2017-05-31 | Thomson Licensing | Method for storing user data and decoding information in synthesized oligos, apparatus and substance |
-
2017
- 2017-07-25 CN CN201710611123.2A patent/CN109300508B/zh active Active
-
2018
- 2018-07-25 JP JP2020500842A patent/JP7090148B2/ja active Active
- 2018-07-25 CN CN201880048731.XA patent/CN110945595B/zh active Active
- 2018-07-25 WO PCT/CN2018/097083 patent/WO2019020059A1/en unknown
- 2018-07-25 EP EP18838636.1A patent/EP3659147A4/en active Pending
- 2018-07-25 US US16/631,405 patent/US20200211677A1/en active Pending
- 2018-07-25 KR KR1020207005340A patent/KR20200071720A/ko not_active Application Discontinuation
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1443449A2 (en) * | 2003-02-03 | 2004-08-04 | Samsung Electronics Co., Ltd. | Apparatus, method and computer readable medium for encoding a DNA sequence |
US20110295858A1 (en) * | 2010-05-26 | 2011-12-01 | Samsung Electronics Co., Ltd. | Method and apparatus for searching nucleic acid sequence |
CN103093121A (zh) * | 2012-12-28 | 2013-05-08 | 深圳先进技术研究院 | 双向多步deBruijn图的压缩存储和构造方法 |
CN105022935A (zh) * | 2014-04-22 | 2015-11-04 | 中国科学院青岛生物能源与过程研究所 | 一种利用dna进行信息存储的编码方法和解码方法 |
CN106687966A (zh) * | 2014-08-05 | 2017-05-17 | 伊卢米纳剑桥有限公司 | 用于数据分析和压缩的方法和系统 |
CN105760706A (zh) * | 2014-12-15 | 2016-07-13 | 深圳华大基因研究院 | 一种二代测序数据的压缩方法 |
CN104850760A (zh) * | 2015-03-27 | 2015-08-19 | 苏州泓迅生物科技有限公司 | 带有编码信息的人工合成dna存储介质及信息的存储读取方法和应用 |
CN106845158A (zh) * | 2017-02-17 | 2017-06-13 | 苏州泓迅生物科技股份有限公司 | 一种利用dna进行信息存储的方法 |
Non-Patent Citations (1)
Title |
---|
纪震 等: "基于生物信息学特征的DNA序列数据压缩算法", 《电子学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442472B (zh) * | 2019-07-03 | 2021-08-13 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN110442472A (zh) * | 2019-07-03 | 2019-11-12 | 天津大学 | 一种dna数据存储混合错误纠正与数据恢复方法 |
CN110708076A (zh) * | 2019-09-25 | 2020-01-17 | 东南大学 | 一种基于混合模型的dna存储编解码方法 |
CN110708076B (zh) * | 2019-09-25 | 2022-12-20 | 东南大学 | 一种基于混合模型的dna存储编解码方法 |
CN111368132A (zh) * | 2020-02-28 | 2020-07-03 | 元码基因科技(北京)股份有限公司 | 基于dna序列存储音频或视频文件的方法及存储介质 |
CN111489791A (zh) * | 2020-04-07 | 2020-08-04 | 中国科学院重庆绿色智能技术研究院 | 固态纳米孔高密度编码dna数字存储读取方法 |
CN111489791B (zh) * | 2020-04-07 | 2023-05-26 | 中国科学院重庆绿色智能技术研究院 | 固态纳米孔高密度编码dna数字存储读取方法 |
WO2021243605A1 (zh) * | 2020-06-03 | 2021-12-09 | 深圳华大生命科学研究院 | 生成dna存储编解码规则的方法和装置及dna存储编解码方法和装置 |
CN111737955A (zh) * | 2020-06-24 | 2020-10-02 | 任兆瑞 | 一种使用dna字符码存储文字点阵的方法 |
CN112615627A (zh) * | 2020-11-13 | 2021-04-06 | 北京信工博特智能科技有限公司 | 基于改进行程长度编码的动态压缩方法及动态压缩系统 |
CN113098526A (zh) * | 2021-04-08 | 2021-07-09 | 哈尔滨工业大学 | 一种dna自索引区间解压缩方法 |
CN113744804A (zh) * | 2021-06-21 | 2021-12-03 | 深圳先进技术研究院 | 利用dna进行数据存储的方法、装置及存储设备 |
CN115514375A (zh) * | 2022-11-18 | 2022-12-23 | 江苏网进科技股份有限公司 | 一种缓存数据压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200211677A1 (en) | 2020-07-02 |
JP7090148B2 (ja) | 2022-06-23 |
EP3659147A1 (en) | 2020-06-03 |
WO2019020059A1 (en) | 2019-01-31 |
CN110945595B (zh) | 2023-08-18 |
KR20200071720A (ko) | 2020-06-19 |
EP3659147A4 (en) | 2022-07-20 |
CN109300508B (zh) | 2020-08-11 |
JP2020534633A (ja) | 2020-11-26 |
CN110945595A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109300508A (zh) | 一种dna数据存储编码解码方法 | |
CN111368132B (zh) | 基于dna序列存储音频或视频文件的方法及存储介质 | |
Tanaka et al. | Structure and mechanisms of a protein-based organelle in Escherichia coli | |
Crameri et al. | DNA shuffling of a family of genes from diverse species accelerates directed evolution | |
Orelle et al. | Protein synthesis by ribosomes with tethered subunits | |
Hao et al. | A new UAG-encoded residue in the structure of a methanogen methyltransferase | |
Gilbert | The exon theory of genes | |
AU2024201484A1 (en) | High- Capacity Storage of Digital Information in DNA | |
Yabuki et al. | A robust two-step PCR method of template DNA production for high-throughput cell-free protein synthesis | |
Ichihashi et al. | Constructing partial models of cells | |
WO2017083177A1 (en) | Error correction for nucleotide data stores | |
Westhof et al. | Recognition of Watson-Crick base pairs: constraints and limits due to geometric selection and tautomerism | |
JP2019009776A (ja) | 情報の符号化及び復号化の諸法 | |
Löwe et al. | Engineering sucrose metabolism in Pseudomonas putida highlights the importance of porins | |
US11905532B2 (en) | Compositions and methods for molecular memory storage and retrieval | |
CN1688699A (zh) | 用于选择含有编码针对毒性分子的解毒剂蛋白的序列的重组克隆的方法 | |
Kang et al. | Identification and reconstitution of genetic regulatory networks for improved microbial tolerance to isooctane | |
Bedhomme et al. | Plasmid and clonal interference during post horizontal gene transfer evolution | |
CN114958828B (zh) | 基于dna分子介质的数据信息存储方法 | |
Pedros-Alio | Genomics and marine microbial ecology | |
DE69938722D1 (de) | Verfahren zur herstellung von heterologen polypeptiden in trichothecene mangelmutanten filamentlösen pilzen | |
Akhmetov et al. | A highly parallel strategy for storage of digital information in living cells | |
CN110684791A (zh) | 一种利用dna在体内存储信息的方法 | |
Dimopoulou et al. | Image storage onto synthetic DNA | |
Rasul et al. | Thermophilic cyanobacteria—exciting, yet challenging biotechnological chassis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |