CN109460822A - 基于dna的信息存储方法 - Google Patents

基于dna的信息存储方法 Download PDF

Info

Publication number
CN109460822A
CN109460822A CN201811377712.XA CN201811377712A CN109460822A CN 109460822 A CN109460822 A CN 109460822A CN 201811377712 A CN201811377712 A CN 201811377712A CN 109460822 A CN109460822 A CN 109460822A
Authority
CN
China
Prior art keywords
dna
information storage
information
sequence
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811377712.XA
Other languages
English (en)
Other versions
CN109460822B (zh
Inventor
元英进
韩明哲
陈为刚
章新晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811377712.XA priority Critical patent/CN109460822B/zh
Publication of CN109460822A publication Critical patent/CN109460822A/zh
Application granted granted Critical
Publication of CN109460822B publication Critical patent/CN109460822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及信息存储技术领域,尤其涉及基于DNA的信息存储方法。本发明提供了长序列体内DNA信息存储技术。主要目标是中长DNA序列(1Kbp以上),以LDPC码和BCH码为基础结合水印码构建具有强纠错机制的编码系统,通过长序列编码,减少引物和索引等冗余,实现高实际承载率(97%以上)。利用酿酒酵母体内组装系统组装和储存长序列和保存信息,依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。同时因为强纠错系统的存在,可以在二代三代测序下实现低覆盖度(1‑5X)完美还原菌体中的数据。

Description

基于DNA的信息存储方法
技术领域
本发明涉及信息存储技术领域,尤其涉及基于DNA的信息存储方法。
背景技术
人类社会已经进入信息爆炸时代,对存储介质和存储系统有了更高的要求。国际数据公司和易安信公司共同做的调查显示,现今全球数据总量正以50%的年增长率快速增长,2017年全球数据总量已经达到了16ZB,相当于十年前全球数据总量的100倍。根据该调查估算,至2020年,全球数据总量将达到44ZB,相当于45000个现有的亚马逊数据存储中心相加和的存储容量。
现代数字计算机存储,通信和操作的二进制数据,通常表示为0和1。这些信息位的存储和传输与介质物理结构及信号相关联,例如晶体管的电子状态或磁性材料的磁性方向。同时,在自然中还以天然分子聚合物的形式来存储数字信息,例如细胞中的遗传密码。细胞中的DNA以脱氧核苷酸构建而成,不同的核苷酸以碱基区分,每个碱基位置可以有四种取值(A,C,G或T,分别代表碱基的化学名称),因此每个碱基本质上是相当于现代存储系统中的两位信息。
DNA数字存储最引人注目的特征之一是其极高的物理存储密度。在DNA数据存储中,每位数据仅需至多14个原子,每两个碱基(4个信息位)之间距离仅0.34nm,目前还没有其他技术能够如此高密度地存储信息。此外,作为一种分子介质,基于DNA的数字存储可以实现三维上的存储,而不像磁盘一样是在介质表面的二维存储,意味着DNA将占用更少的物理空间。
使用DNA存储数字数据的想法最初是在20世纪90年代中期由Baum提出的。最早的验证实验表明,信息是可以存储在DNA中的(Clelland et al.,1999),他们首先在《Nature》上发表了基于DNA的信息隐写术的文章,他们把有用信息存放于一堆垃圾信息里面并通过特定密钥特异性地找出隐藏信息。随着DNA存储的发展逐渐转向于对编码方案的设计,一批计算机背景科学家开始关注这个方向,并在此基础上对编码有了进一步的深入研究,提出了很多新颖的编码方案。Chen等更进一步阐述了基于DNA的具有学习和搜索能力的存储模型,该模型将存储定义为学习过程,实现了一定程度上的DNA信息存储(Chen et al.,2003);同一时期在编码上的创新还有利用氨基酸三联密码子和各个氨基酸的简称将文本反向存储为密码子,将一段小诗翻译存储进DNA序列(Bogard et al.,2008)以及Ailenberg等用了改进的Huffman三进制编码方法将文本歌曲和一只小羊图片写入DNA(Ailenberg etal.,2009)。全新的编码方案实现了在DNA上编码数据的探索,尤其是Huffman码的利用规避了DNA合成和测序上一部分较难合成和测序的片段问题,使得编码为技术服务,更具数学科学性。然而由于DNA合成和测序技术的限制,直到几年后(Church et al.,2012&Goldman etal.,2013)才能在DNA中存储相对大量的数据。这些研究再次引起了来自不同领域学者在DNA中不断增加信息量的兴趣。Yaniv和Dina首次将通讯过程中使用的喷泉码理念运用到DNA存储中,将编码理念从传统的简单换算加纠错码的策略提升到了更偏向于实际通讯运用的高度,实现了文件的无损读取(Yaniv et al.,2017)。喷泉码在DNA的运用将DNA存储与通讯编码以特定相似的特性巧妙又完美地结合在一起,这也让人们看到了DNA存储与实际通讯编码相结合的可能性。而近期华盛顿大学,微软和美国Twist的研究人员最近在DNA中编码了200MB的信息,并准确检索了这些数据,这是迄今为止最大的基于DNA的存储项目(Organick et al.,2018)。
现有DNA信息存储技术受限于DNA合成技术,主要着眼于短序列(200bp以下),其存储技术有以下缺点:编码(纠错码)简单(Huffman+RS纠错码为主),DNA序列实际承载率低(由引物、地址和冗余等其他无效序列引起,实际承载率通常在60%以下)、复制成本高(PCR扩增在需要大量复制时需要大量DNA聚合酶,成本较高)和复制保真性差(PCR过程中碱基突变率高和可能引起的扩增不均衡)。
发明内容
有鉴于此,本发明要解决的技术问题在于提供基于DNA的信息存储方法,该方法能够实现对长片段的存储。
本发明提供的基于DNA的信息存储方法,包括:
将信息转换为二进制序列;
将所述二进制序列转换为DNA序列;
按照DNA序列合成DNA片段后,将其转化入微生物、保存。
现有的DNA信息存储技术中,信息以DNA干粉或溶液的形式储存,受限于DNA合成技术,大分子的DNA合成较为困难,因此,目前的DNA信息存储技术很难对大量的信息进行存储,且DNA序列的实际承载率较低。本发明利用酿酒酵母体内组装系统组装和储存长序列和保存信息。因此,本发明所述存储的信息为文字、图片和/或视频。然后依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。
数据在计算机中以二进制形式存在,本发明中,所述信息转化为二进制序列包括:将信息转化为二进制比特序列,然后分段进行纠错编码。
所述分段为:每(212-1)bp分成一个分组,进行纠错编码。本发明中,所述纠错编码的方案为低密度奇偶校验叠加水印码。在本发明实施例中,采用的纠错码方案为低密度奇偶校验(LDPC)码作为传统纠错码,然后叠加水印码,用来纠正长序列测序、组装过程中产生的空缺(gap)、碱基/碱基片段的插入(Insertion)与缺失(Deletion)等,处理在基因组(或者质粒)复制过程、测序与组装过程中的各类错误。采用的水印码的码率为4/5;采用的LDPC码的码长为64800比特,信息位长度为32400比特,码率为1/2;整体的效率为每个碱基表示0.8比特。
本发明中,所述二进制序列转换为DNA序列采用两个比特转化一个碱基的方法,所述转换预设对应关系为:00→A,01→T,10→G,11→C。
A为腺嘌呤,T为胸腺嘧啶,G为鸟嘌呤,C为胞嘧啶。
本发明中,所述DNA序列的长度为10kbp~100kbp。
本发明中,所述体内组装的片段长度为1~4kbp,片段之间同源序列的长度为30~150bp。
本发明利用酵母菌的体内组装技术,使得长片段的获得更容易实现,且片段之间不再需要接头、引物或地址等冗余无效序列,提高了实际承载率。
本发明中,所述DNA片段的制备方法包括:PCR扩增后进行酵母菌体内组装。
一些实施例中,所述DNA片段的制备方法包括:
①、将DNA序列打断成长度为1kbp~3kbp,包含上下游同源序列的序列;
②、按照①所述的序列合成DNA片段;
③、利用PCR方法,将5’端第一个片段的5’端连接微生物插入位点的同源左臂;将3’端的最后一个片段的3’端连接微生物插入位点的同源右臂;
④、将LiAc、PEG3350、连接有同源左臂、同源右臂和其他DNA片段与酿酒酵母共同孵育。
本发明中,所述微生物为原核生物或真核生物;所述原核生物优选为大肠杆菌或芽孢杆菌;所述真核生物为酵母菌。
本发明中,微生物的选择可根据不同的存储和发行需要来进行。例如:需快速复制则存入大肠杆菌中;需常温超长期保存(如:20年以上)存入芽孢杆菌中;而酵母菌则可以存入更长的片段,且可直接进行体内组装。为了实现在其他微生物体内的DNA信息存储,在经过人工合成和酵母体内组装后,可提取合成的承载信息的DNA片段,将其转化入其他微生物体内。例如,提取经体内组装的DNA片段后,将该DNA片段转化入大肠杆菌和/或芽孢杆菌体内。
一些实施例中,所述微生物为酵母菌,优选为酿酒酵母;DNA片段转化入的位点为ADE2基因。
ADE2基因编码磷酸核糖甲酰胺咪唑羧化酶基因,该基因能够催化嘌呤核苷酸合成的第六步反应。在酿酒酵母,毕赤酵母,或者其他酵母中,这个基因的突变或缺失能够导致嘌呤前体在酵母细胞内液泡内的积累,使得细胞呈现粉红色,从而从外观判断基因片段是否成功导入。
本发明所述的方法中,还包括微生物扩繁的步骤。
本发明实现了信息以DNA形式的体内存储,为了能够实现信息的快速复制以及大量传播,可对微生物进行扩繁。基于微生物可快速繁殖的的特性,本发明提供的方法能够实现信息的快速、大量复制,这种扩繁的效率远高于印刷品的印刷或光盘的拷贝。且操作更为简单,成本更低。
本发明中,还包括信息读取的步骤;具体包括,对微生物进行测序,将测得DNA序列转化为二进制序列,经译码获得二进制数据,从而获得存储的信息。本发明中,DNA存储信息的读取可采用现有技术中的测序技术,例如第二代或第三代测序技术。
DNA序列转换为二进制序列的方法是:A→00,T→01,G→10,C→11。
所述的测序采用利用二代或三代测序技术读取序列。测得序列后,先进行序列的组装,转化为二进制比特数据,然后译码恢复二进制数据,进一步恢复出原来的文字、图片以及视频等数字信息。
本发明提供了长序列体内DNA信息存储技术。主要目标是中长DNA序列(1Kbp以上),以LDPC码和BCH码为基础结合水印码构建具有强纠错机制的编码系统,通过长序列编码,减少引物和索引等冗余,实现高实际承载率(97%以上)。利用酿酒酵母体内组装系统组装和储存长序列和保存信息,依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。同时因为强纠错系统的存在,可以实现在二代三代测序下低覆盖度(1-5X)下完美还原菌体中的数据。
附图说明
图1示本发明DNA信息存储主要过程;
图2示存储信息前后的酵母菌菌落。
具体实施方式
本发明提供了基于DNA的信息存储方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
下面结合实施例,进一步阐述本发明:
实施例
一、信息的编码
在本实施例中,选取“天大章程节选.txt”文件进行编码,节选内容包括:
天津大学章程
序言
天津大学的前身为北洋大学,始建于1895年10月2日,是我国近代高等教育史上建校最早的高等学府。1951年9月,经国家高等教育院系调整,由中央人民政府政务院批准,定名天津大学。1959年,被中共中央确定为国家重点大学。2000年,被确定为国家“985工程”重点建设的高水平研究型大学。
自强首在储才,储才必先兴学。学校以兴学强国为办学宗旨,穷究学理,作育人才,传承文明,振兴中华,塑造未来;以建设成为综合性、研究型、开放式、国际化的世界一流大学为目标,努力为国民经济和社会发展、世界文明进步作出重要贡献。
第一章总则
第一条为推进依法治校,完善现代大学制度,保障师生员工基本权益,促进学校科学发展,根据《中华人民共和国教育法》《中华人民共和国高等教育法》等法律法规及教育部相关规定,结合学校实际,制定本章程。
第二条学校中文名称为天津大学,简称天大;英文名称为Tianjin University,缩写为TJU。
第三条学校由国家举办,由国务院教育行政部门主管,并由国务院教育行政部门和天津市人民政府共建。
学校具有事业单位法人资格,校长是法定代表人。
第四条学校法定住所为天津市南开区卫津路92号,设有卫津路校区、北洋园校区和滨海工业研究院校区。
学校网址是http://www.tju.edu.cn。
学校根据发展需要,经主管部门批准,可变更住所地,调整校区。
第五条学校的校训是“实事求是”(英文为Seeking Truth from Facts)。学校弘扬严谨治学的校风,秉承爱国奉献的传统。
第六条学校按照“形上形下、达材成德”的理念,致力于培养具有家国情怀、全球视野、创新精神和实践能力的卓越人才。
第七条学校的主要教育形式是全日制本科教育和研究生教育,同时开展非学历教育和培训,提供终身教育服务。
学校依法颁发学历证书,依法授予学士、硕士和博士学位。
第八条学校面向世界学术前沿和国家战略需求,遵循人才培养规律,不断调整优化学科结构,巩固工学优势,大力发展理学和人文社会科学,形成优势突出、特色鲜明、交叉融合、协调发展的综合性学科布局。
第九条学校实行中国共产党天津大学委员会(以下简称学校党委)领导下的校长负责制,推进教授治学、民主管理,建立健全师生参与、专家咨询和集体决策相结合的机制。
第十条举办者为学校提供办学经费,保障学校基本办学条件,依法对学校办学活动进行宏观指导,按照有关规定任免学校主要负责人。
第十一条学校依法依规享有人才培养、科学研究、队伍建设、内部管理、校园规划建设等方面的办学自主权,独立承担法律责任,不受任何组织和个人的非法干涉。
第十二条学校分立、合并、终止及更名应当征求师生员工和校友意见,并报举办者批准。
第二章学校功能
第十三条学校坚持以人为本,以立德树人为中心,进行教育教学、科学研究、社会服务、文化传承创新。
第十四条学校坚持“育人为本、质量第一”,按照德智体美全面发展的教育方针,实施素质教育,对学生进行综合培养。
第十五条学校坚持聚焦国家重大战略需求、聚焦世界科技发展前沿,崇尚科学,矢志创新,促进人才培养,推动学术进步、科技发展和成果转化。
第十六条学校健全社会服务体系,提供人才和智力支持,促进国家和区域发展,推动社会进步。
第十七条学校注重文化育人,持续提升师生的人文素养、审美情操和价值追求。学校弘扬“日新又新”的人文精神,坚持文化传承创新,引领社会风尚,服务文化强国建设。
第三章学生
第十八条学生是指被天津大学依法录取、取得入学资格,具有天津大学学籍的受教育者。
第十九条学生的基本权利:
(一)享有学习自由,按照学校培养方案、相关规定和程序可自主选择专业、选修校内外课程;
(二)公平接受学校教育、使用学校公共教育资源,公平获得各种奖励和荣誉称号;
(三)达到规定学业水平,获得相应的学历、学位证书;
(四)按照法律法规和学校规定,组织、参加学生自治组织和学生社团;
(五)参与学校管理,知悉学校改革、建设和发展情况,知悉涉及切身利益的重大事项;
(六)对学校给予的处分或者处理表达异议,提出申诉;
(七)法律法规规定的其他权利。
第二十条学生的基本义务:
(一)以学校人才培养目标为指引,修德践行,勤奋学习,健康身心,全面发展;
(二)为人诚信友善,尊敬师长,团结同学;
(三)弘扬校誉,爱护教育设备、生活设施,维护学校利益;
(四)遵守学术规范,恪守学术道德;
(五)按规定缴纳学费及有关费用;
(六)遵守学校规章制度;
(七)法律法规规定的其他义务。
第二十一条学校对取得突出成绩和为学校争得荣誉的学生集体或个人进行表彰奖励;对违纪学生给予相应的纪律处分。
第二十二条学校建立学生权利保障机制,成立学生申诉委员会,维护学生合法权益。学校鼓励和支持学生参与学校民主管理,对学校工作提出意见和建议。
利用计算机将上述文件转化为二进制比特序列,每(212-1)bp分成一个分组,进行纠错编码,得到二进制序列;进一步将二进制序列转化为A、T、G、C组成的序列,可以采用两个比特转化为1个碱基的方法,预设的对应关系为00→A,01→T,10→G,11→C,得到40500bp长度的DNA编码序列如SEQ ID NO:1所示。
二、DNA片段制备及信息存储
对得到的长DNA序列进行顺序打断,分别得到13段2-4kbp左右的片段,片段之间保持30-150bp左右同源段,同源片段尽可能与非同源部分存在较大的差异,以便体内重组的进行。打断情况如表1:
表1,打断片段
通过DNA合成和组装技术合成上述13条DNA片段。
通过PCR技术扩增第1号片段的前500bp,酿酒酵母ADE2基因前500bp,利用Overlap-PCR技术扩增得到相连接的1000bp接头片段,经Sanger测序验证后命名为接头A。
通过PCR技术扩增第13号片段的后500bp,筛选标签Leu基因1512bp,酿酒酵母ADE2基因后500bp,利用Overlap-PCR技术扩增得到相连接的2512bp接头片段,经Sanger测序验证后命名为接头B。
表2普通PCR与Overlap-PCR反应体系
Component 50μL rxn
ddH<sub>2</sub>O add to 50μL
2×reaction buffer 25.0μL
dNTP(10mM) 1.0μL
PCR模板(10μM) 2.0μL
Primer F(10μM) 2.0μL
Primer R(10μM) 2.0μL
DNA polymerase 1.0μL
表3普通PCR与Overlap-PCR程序步骤
将得到的接头A、B与合成的13条片段混合进行酿酒酵母共转化,通过体内组装替换到酿酒酵母ADE2基因位置,步骤如下:
(1)于平板上挑取酿酒酵母(BY4741)单菌落于YPD培养基中,30℃、250rpm过夜培养。
(2)次日早晨根据菌液浓度按5%-10%转接到新鲜的YPD培养基中,30℃、250rpm培养6h。
(3)开始转化前10min,固体加热100℃煮沸ssDNA 12min,迅速置于冰上。
(4)取1mL菌液于无菌EP管中,4000rpm,离心1min。
(5)倒上清,1mL无菌水重悬菌体,4000rpm,离心1min。
(6)倒上清,1mL 4℃冰箱预冷的0.1M LiAc轻轻重悬细胞,置于冰上。
(7)用EP管配置转化体系如表4所示。
表4酵母转化体系
成分 体积
50%PEG3350 620μL
ssDNA(10mg/mL) 40~45μL
1M LiAc 90μL
(8)体系配置完成后,在涡旋振荡器上充分混匀
(9)将上述置于冰上的感受态细胞取出,4000rpm,离心1min,倒部分上清,剩余100μL左右重悬菌体,加入接头A、B与13条DNA片段各200ng,吹吸混匀。
(10)将(9)步的菌液螺旋加入(8)的转化体系里;上下翻转3-4次混匀,30℃培养箱孵育30min。
(11)螺旋加入90μL DMSO,上下翻转3-4次,混匀体系,42℃水浴热激18min。
(12)4000rpm离心2min,弃上清,加入500μL 5mM CaCl2重悬菌体,室温静置5min。
(13)弃上清,剩余100μL涂到SC-leu(腺嘌呤限制)平板上筛选。
(14)待酵母在筛选平板上生长2天,挑选粉红色单菌落,以各连接处为目标片段设计引物(引物如表7)利用Rapid Taq Mix进行菌落PCR验证。
表5菌落PCR反应体系
成分 15μL体系
ddH<sub>2</sub>O 5.4μL
Rapid Taq DNA聚合酶Mix 7.5μL
Primer F(10μM) 0.3μL
Primer R(10μM) 0.3μL
Template 1.5μL
表6菌落PCR程序步骤
表7菌落PCR引物设计
目标片段 上游引物 下游引物
接头A-1 atctagaatcaaaacgacactttatttccaaaaagg tattaggatcggaatccatctgcaa
1-2 gaacgacaaaccccgacaagtaaca ctgtattccgtctgacgaaaattttgtaat
2-3 tgtaatctccgccacaatggtttgt acgtctccggatttttaatccgc
3-4 tttctttggcggttaaactcacacatctat gttaatagtatcacaccacccatatgaggttagc
4-5 acgtcctgatggatggagcaattag tagtttcagtaatgaatactgtctcaagcttcg
5-6 aacgccttaaagccaaataaagatcgaaac tccacctctaaggctgtcatgtctatt
6-7 acgttataatccctagtgcgtaggtc tcacggtgtaattataaggtccgtaacg
7-8 tccccgaagtgtgtacgatatctatgac agcttgcgtgcttatcagcataag
8-9 tcatagatcgctcccgtctgcgata agcagcgttctacaacgactagc
9-10 tgcacgattgattggggcatttc acacagttattaatgctagctatcgtcg
10-11 ataacagtttggactctacagccagatt Tagtgtatgcattcacggcacagt25
11-12 Tctgcgcacgcagatacctct25 Tggcctaacagagcacgtcac26
12-13 Acctgctccacgtgatcagt27 Aacgaacatttgagatccggatgtg28
13-接头B Ttatccctgagtaaattgatacgttgg caagggaacattatagggtgttaagagtact
挑取验证正确的酿酒酵母接种至YPD液体培养基,30℃,250rpm过夜培养。将液体菌体做冷冻干燥封装,具体流程如下:
(1)通过测定菌液OD600估算菌体浓度达到109cfu/ml后,取4ml菌液在4℃离心机中6000rpm离心10分钟收集细胞。
(2)用等体积的10%蔗糖溶液(或10%脱脂奶粉溶液)重悬菌体,转移至10ml西林瓶中。
(3)以透气封口膜对西林瓶扎口,与冻干机架一同-20℃预冷冻12h。
(4)进行真空冷冻干燥12h,冷阱温度-45℃,真空度10~20Pa。
(5)丁基橡胶塞密封,标注并编号为TJU40K,4℃或常温保存待发行。
三、信息发行
为了实现信息的大量发行,对酵母菌进行扩繁,,25h即可完成面向300000人发行相同信息。
四、信息读取
读取发行菌体内信息流程如下:
(1)取1ml无菌水溶解西林瓶中已发行的冻干菌粉。
(2)取200μl转接至5mlYPD培养基中,30℃,250rpm过夜培养。
(3)6000rpm离心10分钟收集细胞,送二代测序。
对测序结果分析解码得到存储“天大章程节选.txt”文件内容。
与目前为止最为完整的欧洲分子生物学实验室的DNA信息存储的方法Goldman相比较,效果如表8:
表8本发明效果与Goldman比较
参数 Goldman 本发明
冗余倍数 4 1
纠错方式 重复 LDPC码+水印码
单链长度(nt) 104 40k
测序深度 51X 1-5X
信息密度(bits/nt) 0.33 0.8
实际承载 18% 97%~99%
对比结果显示,本发明开发了长序列体内DNA信息存储技术。主要目标是中长DNA序列(1Kbp以上),以LDPC码和BCH码为基础结合水印码构建具有强纠错机制的编码系统,通过长序列编码,减少引物、冗余和索引,实现高实际承载率(97%以上);利用酿酒酵母体内组装系统组装和储存长序列和保存信息,依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。同时因为强纠错系统的存在,可以实现在低测序深度(1-5X)下完美还原菌体中的数据。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
序列表
<110> 天津大学
<120> 基于DNA的信息存储方法
<130> MP1824726
<160> 29
<170> SIPOSequenceListing 1.0
<210> 1
<211> 40500
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
gcccgtgatt cttctccatg gaacggtttc attccagctg actgggagta tcccataagc 60
gatccagtta ttgtcttgcg tctagccaac gcacgtagtc agccccgggg acttaggata 120
aagtagcaaa gttcggggct gcgcgcatat ggcacggtag tttccatgac ggaccacccc 180
gctgttggtc taggtacggt acaggaacta atttcgaata atcccgagtg acttatctga 240
ctcgcgaaca agtcgttatt atccctggcc cagagccgtc aagttcccat cattctcgag 300
gtgcaattat atcttgagat aagggctagc agtatattga gtacctgatc tgatgacccc 360
tgtgttgaag gactgagtgt ttgtgattgt cacgatctag aggaggtggt agaagcaaat 420
ttgtgcacca ctcctagtgt caacgcggac ttcccgtgta accaattcca gcatcgcaca 480
taatgactac cgagagcatg agtcctgaca ctacacgtac acttcacgtc tcgagtgcta 540
gtaaccgagt catggagtgc gtctattatc atccgcacgg ctgcagcctc cgcgacctgc 600
ttgtttaccg gtggcgagat tggcgagctc gcctccactg gctgcgcagt ctaagcagaa 660
gatccgctga atcgtcgact gccccagggt ttgcacgatt gcagatggat tccgatccta 720
atacctgtgg gcattcatta atggttccat gaacatgaca aatggaactt cagtgagaca 780
cttggttcag agacacggac caacccactt tattaatagt ataataagtc ggtacgcaag 840
gacggccata gccaccagcc gttgctctga tgtttggaga ctattaaaca ggtctatccg 900
tcccataacg aggaccctgg atcgtccgta gcttgggagg taccgaaatc atatctatgg 960
gcatattaag ggatttgcgc attgcaggtt gaatgagccg atatgtcgat gtccttgggt 1020
tgtgatttcg atccgttgct atacacacgt tcaatggccc attctaataa ctcgtgtagg 1080
ccgacagcgc actactaact cgtttataac agatcaacta attcggttta tgtggagtca 1140
gtagtctggc tccaatatgc agtaccgcaa aacgcgcgca gggtcgggcc ccatctctaa 1200
ggggtcggga tgcaatgcgc gtttaacata ctgtgggtgc ggcgcattgg gtggcccatg 1260
ctccgttgac gttcgaggcc agcttgatgg gttcgtcatt accagcttat gtgctcagga 1320
ataaattatg gagggtcccg tctcaggcca gcacaagaca ctgttaaaat ctgtagggat 1380
accgcaggga tttcccgatt agatgggcag tttgacgatc gacggcggtt aaatcaagtt 1440
cgcttattca tggcgtaata cccgaacgcc tccctagcca gggactgttc gcatgccgtc 1500
acgcggccat gcatgggagt tatagtgagc atatcatcgt tagacatggc ccagcttttc 1560
gttgcgtaag ggattcacgt atcattaggc acgagtctcc tacaaacatg ggaatgaggt 1620
cagtccattt cgtggagccc ggatcacctc atggagcgct ggttggtgta agggggtatg 1680
agccgctgca tttccgttat tcggagtagg gtttctgttc ggaatgatca tctcaaactt 1740
tatgtgaagt aatcgacgaa aacgggtaga ttttaacaat atagtgccga gctcactgtc 1800
tactgcctta gctatacctt tgcgaattga ttcgtacttc ttctgatagg gcagctgcag 1860
cagagcaagg gtaataacga ggggtcgttc tggtagggcg ggcaggcgag tacctagttg 1920
ggtgggctta acccttaggg cgtgagcaaa gcccccatag tagttcaatc gagacaaccg 1980
cgttgcgtac gcaatgtgtt acaggagatg gcatctacag gctacacgtc acaggtgttt 2040
cactcatttc agctatggac acaactgtgc aacttggtca aagctcctct gcttgagagc 2100
atacaccttg tatcgataga gcaacaaggg aacttcgcgg ttactgccgt tcctaacaac 2160
gttacggcct ttgttcacga ccactacact ccagctcggt cataaattat ggtttaatgt 2220
tcaaggtccg tgaccccgtt gatgatagat ggaccggtat taggaaacac actatgcgcc 2280
gatattcata catagggata ttcgcatcgt cgggacgcta tcttcagctt gtcgtcttct 2340
gaggggacag cagataaaga atacgatcca ccctccacga ggggagttaa ctataacgcg 2400
cttttcttat ggcggcaaga gtagtctacg cgcctttctt agaaacctat tcgcgtggtt 2460
cccggtgaat ttaactcgtt cgatcgggac aggactggat gtgacggaaa gcatccggca 2520
ccccttcact caattccgct aggcaatgtt gatccatgtc cccgtgccag tggtcgacat 2580
aaatggcata cgctggcggc gtcaagtgag ggaaattaaa cagaaagtac attctcagat 2640
tacacagtta cgcatcgaat gaatcacaca tacacgacta caccttcgaa agcgtgctcg 2700
aaaatatgtg tcgcttcagt agtgaacccc ttcgtgctcc tatctttgtc gattttagtc 2760
gtcaacatgg accaaccttt aggctataca agcggcagga ctgcccagtc cggactcgta 2820
cccgacctgg gttcctctgc ctgtgctcac tttaattgtc tagcctaata cgtcggagat 2880
cccatgcgtg tcagaatgga cctcaacgaa ctaccaagcg ttcgacccag aacgacaaac 2940
cccgacaagt aacactcctt gtgaacaagt attggcgtta tgtcgttctt ataaaagact 3000
ttgttaaacc cgcttcatga cgtccctcag tagattttgt tttcgtataa ctgaataggc 3060
agtgaggcat agctggtaga tgaaccaaaa gcgtccagta tacactagcg aattgatgga 3120
accgcgcaca cgaagactgt aaagcggccg ataccatggg attcacttgc aggaagtcac 3180
agtcgtagat tataatattt tctaggaggg tctcatgccc tcccccacaa gtttgcagca 3240
aaggaggctg agttttcggg agtttggtgt ccaagacttt aatattcgcg aagtcctcac 3300
cacacgttaa ttagtgagat gagttggcta cttagcgcga taagtgcata ctgaatctcc 3360
acatctcccg ctggggtagt tccatgaacc ggcatcagtg aaaagtcggg gcctctgcaa 3420
gctatgctga aggcgtcaca cacatgggcc aggtataact acacgtaata atccctcggg 3480
gacgacttcg atatcacaaa gcggctgttg gggtaccgtt tctcccgctg tcgcagtatg 3540
aacaacctgg aaccaaaggt cagggtaata caacatgtag caaccatcta ctttttatat 3600
catctaaaac gttatggcaa aaacactatt ccccgaaact attccgatga catgctacta 3660
cagtgcgccc ctgtctgagc aacgccgaac accctatcct tatgagactc atgcgctgaa 3720
taccaaccag gactagaccg gttgtttagg taaccgcaga ggcgaaaaat gtttttcggc 3780
ggttcgcatg aagtgttcgc catcatgatc atattaatga actgacgtca gttgggttcg 3840
ttcggtcacc taccaactcg tttcaaaaat agtcggaatt caggcgtcgg tgtggttgtg 3900
gaagaagatc ggcatcaacg atacctttgc aggcggagac aaagtgcctg aggttctggg 3960
caacttaagc agatccagcg gtcttcctct ctggacgagg gcactggccc tgaacaatgc 4020
attaagtggt gtggaacgag acaggcctat cgtaagcaat ccagaactgt gagcgtgtaa 4080
ttgacggaaa ctatcgggtc cgtacgtcaa ggcggcgtct accttttctt tgagagcagc 4140
cgacgtcccg ggaagcgtgt gcactaaatt acaaaatttt cgtcagacgg aatacaggct 4200
tcggcgtgag ccacaccata cgctggcacc agcgccgacg aaggcgattc gttggcctaa 4260
aagccggatt ctactcgcta ggacagtggt tcagcggcga ctggagatac cctaatgagc 4320
gcgactgtga atggtcagta gctttgcgaa tactagtggt cagtcgaaac ggattaacgt 4380
tcctgttccc gtgaatccga cttacgtgtt acctatagtt acggatgccc gagggttgct 4440
aactgttcac ccggctcagg gagtggtacg gtaacggttt acctaaccct aaacgacaag 4500
atcggttata accttactct aatcaggagc actcaaagtt ctgtgaggcc aacattctat 4560
cgggatattc aatataaaat aatcgtttga ctccacctgg tcgccctgta gttgtatata 4620
cagatagctg cgttatctta tagcttctcc tcaataccac tagcgattta gtgcacgtat 4680
gggtgtgtga ggagctgata tggcctcaag gtaagtattt cggtaggccg gcaagtcgtg 4740
ctagctcgcg gacgggttac aggcaaagtc gggtcgtggt tatctttttt cgggtctacc 4800
tcctacacgg cagatgtgcc tgtagaattc gtaggcgccc cgtaatattg gcttcaatcc 4860
gtggtgagtg agtctgtctt gatcggctcg tatcccaaac gcgttacgcg tcaattcgct 4920
cctatggacc taatgatcca ctacggagat gaatggagtg gacaaggtat agagatgagt 4980
ttcaatctac tttctattga gcacgaacct gaacgcaaaa cgctagagtc aatgtacacg 5040
aaggcggttt atcagagagt ccacgtaata ctttcaactg acacatggcg tctcaacaat 5100
acgaataccc tgtgccgcct gatcgtaggg gcgtaaggtt gggtcgattt tttgtttctt 5160
agaggtttat tttcccgaaa ggggccttgc tcggatctag ctacctgctg tccaattcag 5220
gctaccgatg catgcagttt gtgcgctcat tacggcgcag ctcatgtcga ttgccgacgc 5280
caagattcac gcacatgatg gcttgggatt caaggtagaa tttcgcgatt gttgtgttcg 5340
ggcgcgagca ccgcgccatc agatggcttg ctcgcaaaat agggcctagg agtatacata 5400
aggatcgaac ggggatccta tttcataacg tcgcacggta atggcgctca ttagggcgac 5460
ctcccggttt ccttttcccc acaatgttga gtgttcggcc gcgcaaatgg cacattcacg 5520
tggtatctac gtgtggcgca aatccaacga aactgctcta ctcgggcggc ggccggccct 5580
ggtgagcgca aaattctcga cttcaagcac ctatgggccc ttcgtgaggt cttttggcac 5640
agcgaaccca ctctcggtcc gtcggagtcc ataccgagtg ttaagcacag acacaagctt 5700
gacgccaaca gggtggagtg caattgtccg ctatgccacc agaggtctca cactagagct 5760
atgttttgtg ctggctagag gtgcaacgcg tagctcctgt aatctccgcc acaatggttt 5820
gtccaagatt ccttctttca tatcgcttac gcgaactgag aacggcccga tggttaattc 5880
tcttgttggg aatatttgac ccgggcgagg tgcctggcgg gctgagacga tcgatccagg 5940
cttgacaagt agcgtgaatt ttactccacc attcggtgtt cccggccacc tgcaccattc 6000
ggcgtcggca cccgtagttg aagattacga atcataggga aaccatctga gctggtctga 6060
ggtgaaggtg aaaggggagc cttcgtagac atgtttagca cgcggtgaag ggaaggtagg 6120
cgagggcctg tccttgatag cttgtcgaca aagtctctgt ggttgcgcca ggtcgctgct 6180
cttactaaga cgcgctattg tgtaggcgag atcgaggtcg gaaatatcaa gcatggatta 6240
cgggggccgg tattttagtc ggttttcacc gggcaagaag cctgcgagac aacgttggtg 6300
ggcgactgcg tgcgaatttc ctacataagc gtcaggcttg ttacagagac cgtctccgcc 6360
cgaagtccct gaacagatcc actagcaggc tgaaactggg cttttcagcc aggtaagttt 6420
acagccatca tcagtgaacg gcactgttcc gaaggtccat ctcttatata cacgaagtac 6480
cgggagtcga aactgaaggt tgtctcctga gctaggccaa ttactcgttt aagacttcga 6540
aatcattgtg gccatgttac tgagcaggtc gccgtacgct gctgaccagt ggatcgcggt 6600
tcaacctata gcccggataa cataagcctt ctgaagtgat ttgttgtatc tccggcgtgg 6660
accggcggat taaaaatccg gagacgtcgg gaacttccgg attggtccac acgatctagt 6720
accaatgacc cgcctcaccg tctctctttc gctagctccg tgctaaaagt cacccgtaat 6780
tggagtccac cgtggtaagg gtatggacat ccgacgtcgg atgtggggat agtaccaact 6840
ttgggcacgc aatcgtattt agctgcgaag ctatgcccta gtgctcggag ggcgacaggc 6900
atatcatcac cgcggatctc catgttaaac acaaagaacg cgcaatgctt gtctatagtt 6960
tttacaattg ggaattctga gcgtgtagca agacagctga gactatatag taccaggacg 7020
ctaaaactgt actttgagcg gacgtcctat tggatttggt cgggctacaa agaaatcacg 7080
caagcttgta cgcgtcaggt attagcacgt aagccctcgg ggtagtgcgg atgcttggac 7140
ttatggcctg aatctacacc gctggctcta gggttggaca caacaaataa gagcagtatc 7200
tcatacctta ttcaaagtga gtcgaacggg tcggagttgc gttcacgaag gatatatggg 7260
acctgcgttc gactgaccgc aaaccaactc gatattattt gtggctatgg aatccgttgc 7320
tcatgttctc gggaaacaca gggagtgtat cacgctttgg caaaccagag ttactcggta 7380
tcacggggct gaaggagctg atatacaatt tccagctggg ggtcaaaatg tcaaggtcaa 7440
tgtttggtta acgtgcagtc cgccggtgaa ggcgtgtact ctagttgtaa aactgtatgt 7500
tcttattcac tccacggtga gtatgaagta tgtcaacaga aggcatacga tgccattcgt 7560
gtccgccgtc tatatgaatg tgtctatgcc tccgattcgg tgcgagcgtt cggtgcaccg 7620
gctcatccgg gagagtgccc gctcacgccg gtccacgggc gctaattata cgaggcctgg 7680
gtacgtccct agatttcaga acagagggac atgtcctagt ttcgtaaggg aaatagaaat 7740
tgttagcgag tgaccgagat cagacgaccg agccggagtt tgattgtgcg acgtgtatgc 7800
ttcataggga ccttattagt ggccggatat agtgtcgtgg ggagcggtct attcagccgc 7860
actgcctttt agttttgtca actagttttc taggcttggg gaaacacgag actataatgc 7920
tggagactga tgtcaccgta agtctgagac ccggaattct ttaatatttg ttttacacaa 7980
gaatgtgatg cccctcgagg agaccggcgt tatagttacg aaacccggac atagccgagg 8040
gtgcgaatgc gcgtgtaacc gctgcgtatg gcggttacga ccgccggcaa gggcttatac 8100
agacgcgagt aataaaggcc gcggctcgtc tcgtattgcc tcgccgaaac gcggtgttgg 8160
acctccaaag tcctgataga cattacgata atccatgtca ctatacccct gattgtgccc 8220
acactacaag gtgcaggtga tcgtagaatt agtttgttcg aacacaaatg tctctcgaga 8280
gctggtagcg ccagttcccc cggggactac gcccacagcc tcataaaaga gtagactttt 8340
ttaatcgcct actacatgga tgactacgcc gtacttcgga tgctttcttt ggcggttaaa 8400
ctcacacatc tatgtcaaat tactgcctgc gatgtggact tttcactctt caattgcccg 8460
tgtatcgcac gggcctcctt atgcttcgat tagcaatcgg accgtagtag gaacaggaag 8520
tcgttcttat gccgtttata catgggtaga taatcaacag ggctaggttt tttaaggtta 8580
cgcctattat ggagatgggt cttcgcggca ctttgctcgc aaccttgcat cagggtgggc 8640
tctatgctat gctagcgggg acttctcgct atcggagagg gtagacaaat tctgcgagtt 8700
agacaccagt caagtgagat ctccattctc gtcgtcgaca acgcggcttt acaaggtaag 8760
cagagttcgt catatgcacc gagccctccc cgcaggccgt aactggtaga gctttgcccc 8820
gcgtaatctg cctcggtaca tgcttctacg ggcctacggg atcgcccgac ggggatgctc 8880
ttacatcgga acgcatacat gacggccaaa tgagtatggt taatttacaa gtctctgtag 8940
ctacaacaca aaacgggttc cggtgttggt aaccatccca tttggaagcg ataacccgga 9000
agacattttc ctgacggatt cagccgggag cgtgggcacg ctatccgtcg gaattcataa 9060
ggaatcaatg cacatatccg tgcccattgc gtcgaaaaaa ccctccgttc taactttgcg 9120
tggggataac tgaagcaaag gtacctactc tggcagagag aaatttgtcg tacacaaggg 9180
tttggcgcgg tatccacatg acctctacct taagcgagtt acccgttgtc atcagcacag 9240
agaattcccg acggtagaaa tttgtcacgt ctctcagcgc taacctcata tgggtggtgt 9300
gatactatta acagatatgt gcatgactct taattctact tacgttgtcc gtcaatgaat 9360
catgggctct gcacaggagt aagtcccgct ccgtgtccca tcatccaccg taagatgttg 9420
gaatgcttct ggtgtagctc tacttcagag gagagggggg caagatacgt agatcagtct 9480
gcgcataagg acgacgagtc tatattcgtg cagggggttg ctgggattcc gaagaagaag 9540
agccaccgga acctcctggc aagcagcgaa accgcacggc aggcctgcgc cccggaacgg 9600
gacgatacac ttggaggctg tctgcaatct gcggtatatg caagggcatc gatgatgctg 9660
tttgctggtg ggggtcactc catgagcctt cgacagacca cggtggccta gctgacctct 9720
gtattcgtat gcgatgtagc aatgattttc caaatgcggt ggacctaagg gcgccctggg 9780
tgcagtgata cactcgagtc ggtgcaagtg tatctctcat taacgcccgg aggctgcaca 9840
cacgatttta agccaacatc gacggctact ttccgcgcaa ggcccctcct aacgagatgc 9900
cggttgttgg tcttcctcca tcttgtcaat gctctaaaaa gaagaagttg gatggtgtca 9960
cgcctatgga aactggctgc gtacaaacat tgttacattc cgtcgagaaa atgtacggta 10020
gaagtggtaa ttaccaatag gcgcctatag cgaggcagat gttctattgt ggtctcactg 10080
gctggtagtc tgtctacact ctagagccac caacccaatc tcctattggc tagtagctcc 10140
tgacgagtca gcgatccgga gagatacgcc gcgggcaccg gcgactccta acctagacac 10200
atgtttgcac acaatgagac gcttgcgaat caaatgtggc aaccataaat cggatcatcc 10260
ccgcagcgtg tcctcttttt gcttgcggct caacagcata gtaaaaaagc tgcactgtaa 10320
ctgactgtgg aacataatcc ctgcagtaca taattgtttc ttacctacag cttgtatagg 10380
ctagctagga caatagtaga gaatatgtct ttaggtcaca tgaacctcag ggatattacg 10440
ctacccttgt cagaaaattc gtgctcggag tattgcgaaa ttcgcaaatt catgggtttg 10500
tggctggcaa cgatcgcggt cttcgcgcat atggagatcc ctagtgctag ctcagacctt 10560
acggtgaggg gcctaaacaa gtcgatggta gtgactcact ctcagctagc gtcctcggcc 10620
atctctgtgt tcctatatct agctggcgct ccggacgtgt ctaatttcct accgttcggg 10680
tcgattcgtt ggccacgaat gctcacggcg agtagttaca ttctttgcta cagaaatttt 10740
caaggaagcg tggtctagga ccacccgcaa atctgtgacc cctaacatct agttgctggg 10800
cgctagttag ctggtaggtg cttacacaac ggcccatatt tcaccgtagt tataagattt 10860
aacccgaccc aggcttcgac tggcctgtct catgcttagc caggtcctgg gacaatcctt 10920
tcatcacaca aagtctcgcc cacgtttagg ttcagcataa tcgcggtctg tgtattcaca 10980
cgcgacagaa tacgcgggat ggttccctta atccattccc ctttctccgg cagtaggcac 11040
gacaatcgcc cagtcgcaac aatggtgact cgtctgagtc ctttactgaa tctgaggtgc 11100
agatcatatt ctacactcta cccgaaggtt aacgggcatt aacatcttta atccataacg 11160
gcgcgtggta accgctgtgt gtccaggatt ctcgtactgg caccttataa tgctccccag 11220
tagatgtgga ctccgggtga tctcacacac ccaagttaaa ggctgagagg taagtcgtgg 11280
cggctaggaa gtcgtatata tcaaggcatt actgttcgct gcctggtagc tcacccacgg 11340
caacttaagt tgggatggtg ttaaagtctc agtcggacac taacgggttc ttgcgacgtg 11400
ttaaatatgg tccggtacag acaggctgta ttcagtcctg aatttgggac aactccttgg 11460
tcaaaaaatc gaaacaggcc gagtccgagc tatccacttg tcttctagtt agatcgagag 11520
ctcggtgagt caaaattttg ccgggctatt tagaccagca tcagacgagc aacatgcaca 11580
tcgctgtcgg gacgatttaa gcctctgtta attgtgaact acctatggga gacaaccgga 11640
gagtgaattc actaggtagg caggcgtaag cctctaagcc ataccagtga gcgggaaaat 11700
gaataccgac ttccttcact ccgcacggcc tctcatctgg agtcggggca gcacggagcc 11760
acacattaat taactttcta tcggttgtcc tagacagttc catgtgactg ctcaacgata 11820
agttgatcgt gcgacataag atgcctgtga cacaacaccc tcgtcgcacg ttcgtcagaa 11880
atctcagtta ataaactcgc atcgagagtt actggaggtc ttgaaataat caggcgaggt 11940
acaccatagt tctgatacga cacctcctga tccttagata ggcaagcgta tatcgccgct 12000
atcactacta acgtgcccca gttaggtgcc ggcaacctac aaaatatggc atgatataaa 12060
attaatatct aagtccctgg ttttacggct taacatattg gtagcacaat cttgtatagc 12120
cgtgcgaccc gtgctgcgga attccacctc gaagtcctat gtaatcggcc cctaacacct 12180
gtacacacgc tctccgccgg ttgttgacaa aggggcaagc ttagatagaa tcctagcttt 12240
aattaaaacg cgacgtcctg atggatggag caattagttc ctaccaggac tgcgcgattc 12300
cccaacaccc cgtttcttag tactgtcaat attggcgcta gaagacatgt actattgacg 12360
tactaggcag attgtcggtg gaactcagta agatgtggta cttaaaggct tgccgccctg 12420
cctgtgcgcg gacatgctgt tgcgaccgct aacgtcgaaa tctaccccca tcgaattgtt 12480
ttaatattgc tcaaagtatc tcgcagatat gtaatgactt gtaacgttct tggcgcgcgg 12540
caaaagagaa tgcgcatcgc gaacttacta cttttgtgcc gtccgtctat ttgtccttcc 12600
tattacggca tagcgttctg gaggacgcca aattatatgg tccccgaagt ttgatggact 12660
gcagcaatcg tattgtttgt ccgcagcgat cgcgaattta accttgtgcg tttatcttct 12720
gcgggtggtg aacggaccaa gaatcttaac taagaccaag ataaccaaca actaacgaag 12780
ggttgacggg gagttttgta tatatgaata taggcaacgt tattgcagat cggtttcact 12840
gatttctcgc tagcgtccat gttgactagg gacgagccct agttcttgaa cgcgcgtgat 12900
cagggcctta cgcttctacg acctggcacc ctacgtcctg ttatacgcgg tccaaaagat 12960
aggtcgtcgg gtcctgatcc cgctttgacc ccaaagaccg gtctcagggc tgtagtgtta 13020
taaaacacat acaatgctag gcaaccactt actttggcag cctctgtaaa agtccggcca 13080
tgtccaaagt catccagtcg ttgatctgtg gatgtccagg cacagtggcc aattgccatt 13140
tttaaagaag gaagagagca gactacgaca aagtacgagc aaaatatccg tgagcctccc 13200
tcacgctcgt tagttcgacc aaacctcagt ccaactagtt tgtagaattg cctggtaact 13260
ttggtgatcg atgtgtacca gttggtcagg ccatatgctt ccagtgggag cgcctccgcg 13320
atcgaagctt gagacagtat tcattactga aactactagt tttcctgtcg ttttctctcc 13380
ggtcatggac agacttgtat ccatagctgc actcctacag atactccatt gtgctcatca 13440
aagagcaatg gtaatgacgt ggtacggggt gtagatatac tatggctgaa cgaggagatc 13500
cggggggtaa tcctgcacgg acactaacgc ttcatgagaa aacaggtagg ctcaaaacgg 13560
ttgctcgacg agttcctcag agcgttctag aacatctcac ggagatccaa ttccgtggag 13620
tcgcgccgcc acgaccgata gattaagcta aagcttactt tcagttacac gcccctctgc 13680
attatccgcg tacggattgc gctacaacag cggttccttg gcgcaggcct tcgacgcccg 13740
agttgatttt agcgaacgac aattgaccta tcaaaggtag ggcgtagaga tcacacatcg 13800
ccgtaggacg agaccatatc aagacgcgtc ggtgacccga ctctcggatt atcgaacatg 13860
ataccagaaa ctaggtcatc ccttgcgtaa gctttctatc aacaagggcg gccgttatgg 13920
ttgcgcattt ccagagcgag cgtcagactg atatctacgt agaaccacac cgcaagcgtg 13980
cacgttacat aactcggttt acttttgact cacaaacagt ttccctcgcg gttcagtaga 14040
tgctacatta ttccagctaa tggctaaccc ggtaccatgg ctatcacaga tcctgtaaga 14100
taggcaggct acttgttctc tcttcgcgtg aaggggtaga ctgtcatagg aacattaagt 14160
taaagggggt ctataagaaa attgcgcttc aaattggggg aggccattct ttagtgcgat 14220
atacttttca aaaaaccaga gcatactgga agtagctgta tctcacggtg ttgggttatt 14280
gtgccacaaa gcaaatgtgc ggctgtcaca caatggctta aaaatgtcct ggtataacca 14340
aaattttatg ggtcgcacca ggctgtcccg aagctacatg tacaccattt gcgaacgtta 14400
tacagcactc ttcacgaagt atcggattag tgcagcccga gtaatttgtg ggaatagtgc 14460
ctacaccgcc aatttggtcc tccatgcgtg cctagcgtcc taatgttcgg aaaaagcggc 14520
atgtacaatt gatgaagagg gcggtggacg atgaatctct tcgtagattt tggcgacccc 14580
acctgctccg ctcgtctggt aagtgaggat actcccaaag ggcttacggt cattcacggc 14640
tcaagtatag gggttttgac atcgggcgac tgtatgtcca gagggatgcg gctttacatt 14700
cagtaggccg agagccaggc ttgatttaaa gacacatgtt accgcagggc tatctggatg 14760
acgcttcttt cgacgtggga tccatgagcc ccaaaccgca gcccggcctg cgatagcact 14820
gaggggtgtt tcttcgaagt ctcgagcgat tagaggcagg gtaagagccc ccaccgacgt 14880
gatattctct gtgtgcattt cctattaact gattgcaagc tgaacctccg agtaagggat 14940
gcgcgcagca acagggaata taggtttgat taaaacgaac tggcagtgtc caaagtcttt 15000
ccggtgttcg atttttgcgt tctacctgcc gggctcgccc agaagccttt ctctagggaa 15060
gaatatgcct gtgtatccag ggatacaaat acgtcaaaac tggcgggcca gtttgcatga 15120
tgccgcggct atttttcgtg acagactgct cctgtcgtta gacttagcac atataaaatg 15180
cttgaagcta ccctgtttgt acgggatatt ttcacagaga ataacgcccc gaactatttt 15240
cgctctaaaa atcctgtgag ctgaatttgt catttttttg gttatgggcc taacatcgcc 15300
ttacccgtcc gacagtgcat atcactcctg tcgtgtctta aacctatgta gcgcactacc 15360
ggtatacaac attaacgcct taaagccaaa taaagatcga aacgacaaga acgtgcgtcg 15420
agccagcatg cacgggagcg gtgattacta ttccgccaaa ttgaggcaat ttgccactag 15480
gagtttgtta atccctcgaa ctagtaagac gaaagttagc tcgagatcgt ccaaacataa 15540
gcaccgtcaa tgtccgtcaa ggtatcaaac aaaaacacgg tcaagaacta cgtctcggtt 15600
ctcggccgac cccgagtgcg ctagaacgca gcgtggcatg acatatgatt tatcttagcg 15660
gggctatttg agactacccc ccaggtccta ggtgaaaggg ccatctctct cgtaaatctg 15720
tgaaaggtac gaagatttta catcgcgtgg gcctgacctc actataactt tgtcggttat 15780
tctgacgcag cgttaacata acacgcaggg gttcgccgcg ttccgtgcta cgtcgtgggg 15840
taggagaggg cgggttatcg caaaggattt gtacagtaga ttcacttaag atccgatatt 15900
cgcgtcaaga gacctatatc tgtatggtaa ctacgcaacc ttgatgtgaa ctactgagtt 15960
tacgggtgct tcagtgacta aaggggaggc gcttggagag gtgacttcat taggacccag 16020
tacctcataa atagggattt aacggacgcg ttggccgtga tgcgccgtcg gaagattatg 16080
cttatctcta gccgctgtgt taattgggag cgttgcaaaa atccgacgcc agtctcctaa 16140
tcagaacaca cttactcttg gaaaaagcta ggcagttcgt actcaggagg atcaccccct 16200
aggtctttcg gagtcatggg catccgaatt ggctataagc tcccgatatt atggagctca 16260
actctcactt ggatcgacgt ctggtagtaa agtaataagt gaggagcctc gtggtgtgtt 16320
aataataact agtgtgctga tgcttcctgt tgtttcatag aaccggtgta actcaataac 16380
tgggacttag gggtgtgatt ccgtgtgtcc cgattaaata caatagacat gacagcctta 16440
gaggtggact gaagtagagc aggtgcccgc gctagtactc agcctacgct acgagactaa 16500
tggagtccct ctatggagga cacaatgcac ggcgacgtga actccgtgga gcgcttgtcc 16560
gtgttccaag accctcctct agtgattcaa aaatctccaa ataattgatg gcggatcaac 16620
ttgccgtatg cctgtggata cgtctgcacc cgaagcgttg aggcctccct atatcttcga 16680
actaaatagg catgtttgta ttagaccact agcgcccggg gtcgtcatca taacatcatg 16740
accgtatgtc cctcaaccag ggtggggttt gtagcacacc gaaagtagcg gattgctcgt 16800
aggcgggtat ccctccggga cgcaataatc tctctgtctt tagtactgtc cgggcatatt 16860
gttaaaggag gcagattaca ggaacctgaa ttgcagttat gttctcagat aaaagtaaag 16920
caagtgggga gcttacgtat tgctgtcgac tactgtttga attgtctcaa aaactgaagt 16980
gtcagctcgc ccaccgggta taacggcatc gccggtacta ccacaaaata cacttaaaaa 17040
ttcctatggc gcgttcagtc ttccaaagct tttagacggt gcctatggat aatcgagcat 17100
cacgtgggga attaccttta cacctggagg ctacggtgca gagtgagaaa gtgtgaccct 17160
ccccggtctg agtggcgcct tattctagat actcatctgt atgtcgcaat gagtcagcgg 17220
agcgggcatt taattatttg cgcataacga gctcttacga ggattactgg agaacaagac 17280
ttacgcgaat tcctccaaga taactaaatc gcaggatatg ccgcaaaaac tctttactag 17340
tgtgacatgc agatctctct cgacctaagt tctgaccgcc catccagcgg actgttggag 17400
gccccaatct tgagattctt tacaatagga agtcttgtcc gtccctataa aggttgttca 17460
ctgacggccc atgcttattc gctctcgaac agtatgctta tgtcatcagc accagaattt 17520
tgttccggtc gcccttcccg tagtgtatga cagtggccat cgcgggggga aatcctggta 17580
aataacttcc aggttccttt taaagaaatg aacttacact ccactctcac cgattcgtag 17640
ctctgatcag tgtggcgaca aaaatgccgg cgcgaatagt tacaggaaaa tgattaggta 17700
gcctatattg aactggcctc ctctatgtcc tgtccgcacc ggtatcaaag tttgagacgt 17760
atcatagagc cttgtagtat cctggtgggg agcgatcatc ctcgggctct agcccaacaa 17820
cgctcgcaag gtccaaccgg tttaaacctt ggcgcatgcg ccggttgtgg acacacgcag 17880
accgagtgcc tgatgatatt acacaggcca tgactcttac gtggcgcact ggatgaagta 17940
attacaagac cctcgattgc cgtatcattc actagcaatg gcgtgccctc tctaccggtg 18000
tagttttacg cggcatggcg gagctacata cagcgtcgat ccctgttaga ttatgacttc 18060
agaaatgtca ttcctattac agtcgatagt acttttttac ggagcttgaa agctagccac 18120
tacgcgaaat agctaacaaa cccggtttga ccgaggatct caggccttgt gcccgggtct 18180
atctgaggag cggggaccct atcaacgcaa cccctagtct ttggaatatg cacgcagccg 18240
taaagcaaaa gtggcgatgg gaaatcatcc tggcaagacc gcgctatgca aacgaacttg 18300
cgtgtattgc cccaaaagac actaaggtgt gttggcaaca tgcaccgaaa ttatattagg 18360
acaagtattc tactttagtc atttacgtta taatccctag tgcgtaggtc cgtcatgctt 18420
cgggcctgcc tttcgcgagg tatctcttga tccgagacta gggcccttac tagaacccct 18480
cagtgcggat gttagatgta cgagtcagct ggagtacctc cccataatcc ccttttactc 18540
cagctacgtg gagtctgtga ccactcgtgc ggggctcagc catggggcaa gataaaacga 18600
ctttacgacg gctcttggat ggcagtgagt gagctgttgc gtttgacccg atacttcgta 18660
cggtgcatag cctgccgata caatgggggt ggacgcagtc ggctttgaca atcgataact 18720
ctttaggtat gtggtttcaa caatgtccct ccatagagag ccgaacgctg ttttctggtc 18780
tttctcaagc ggatagtgaa tgggtgctcg cgggttaagc aaggagggaa ccgtgcggtt 18840
ctacgtcact gattttcctt tggctgaggc cctcttgatg atgtgccatt gcgggtgggg 18900
gcaaactatt cgtgtccaag gacgaaatgt ctgacttggc cctacgccga gcaacaaaac 18960
ctcaggcacg gtccggccta acatgtaagt agttgtatga catgtagtcg atacaacttt 19020
gtcgcatatt gcgttacgga ccttataatt acaccgtgat acagcctcat tcgtccctca 19080
aggacctatg cttatatcca agacataata aagaaacggg tatctggagg ccccctcgcc 19140
gcatatatag atgacaagta ggcatccatt ttcaagtaaa aagtccgaaa atcttgctgg 19200
ctagagactc gtctctctgt ctatgggcta tttggtgtca atcaccaaaa cccagtgaga 19260
actctggcat aatcggaggg tcccagttgt cttataggcg ctacagctag agatgtcaaa 19320
ctgtgttcat gaccccagta acctgctgtg attgggaatc acgggtctat atcacatcgt 19380
gatgcgatct cacctgttcc tggatcttag tacgtttcgg gagggtcacg cttagaagca 19440
agataagact ttaagggcgt cggatttata atgtcaagtg gctatagaca ttctggaaga 19500
cgtgcccaaa caggggcagg tcagtcccct gcatctggat tatcatcccg tcaagattcc 19560
tcgaagtggt tacttccatt agtagggatg aactagccgt ccagcaacag attatggatc 19620
ttaggcgcga tccttgtggt tcagtacccc agcagtcttc gagttgtaca gacgccatag 19680
cgaacactaa aatagctata cctatagcgc ccatgaagga cagcgagaag tcctacgtcg 19740
catgcaggtc ttccacccgc ggtatgtacg tccgcctgga agggatgcga tgaaccgatc 19800
tgtgcggtgc tttaaagttt cattacaggt gatgaaggtg gcgtggcatt gcttctgagc 19860
ccgtaacccc cgttggctta gccggagaca ggatgcgggg ttgaccaaca gacaagggtc 19920
ttaaaagtcc gatgcagggg tggtggggac tacggaatga gccgtccgta gaggttatgg 19980
ataataagcg cacccctccc tcatacatac ggagggtcac cgagcttggg tgcgttcttt 20040
cagtgcgact ggttcgggag aacgctttat attctttaga gcccactcca acgtgctgag 20100
tttgacggca tacaaatggt gcgacttcgg cgactagaca ggcggctttt cgtccactca 20160
ggtttacaag gggtgttcgc tgggacgcac tgagtgaata gtcggccgtc gtacgttact 20220
cccagtatca gtctgtgacg cctacactac gaagatggac tgcttgtgta catggttata 20280
gaaggcttcc ggtgttcaac gttgtgtact ttcgggagcc ggcccgggtc ggtcgactgg 20340
catgcgcaat tctcaacagc atcagcgcaa ctctatagct ataccagctg cgaacgaaga 20400
tggtagggat cgctatacat tgtcagtcaa tgagtgaact ggccatccaa aaggacctga 20460
agggtgatac ctaccagaag gcgtccctta tcacataagg gcctctccta atctaagagg 20520
cgtgaacttc aaaaacatgc cggtcagagg tgttatcctg tgtcgggctc tcgcctgggt 20580
ggctcgacaa tctgaggggt cgtcgctttt tcgggcaggt ggggcggtcc gccagtatgc 20640
agcacgcgga tttcacgctt ctgaaaagca agctcacatg ctggagcatc tcgcagttcc 20700
cgtttagctg acagtgattt cgcctggtat gtaaagttcc cgatcaagac ggtcaaacgc 20760
agtatagcta tggagtctga ccaccttcct gtaagtaagt acacaacgtt gaaggttcct 20820
gaacgtactc ccgcattttt tccgggactg actttgactc tagagcatct agtggggtga 20880
cacagaagtt gcgtgaatcg aaaccattcg acggaatgaa agcaacgctt ttcatatgtg 20940
cactgccgag ttaggaaccg tcgggtcttt ccttggcggc aacattagga gcaaagtttt 21000
cggttaccgt cagaagatgc caggtggccg tccctctaag atgtattatg acccaggagt 21060
gagcatcccc ctccccgaag tgtgtacgat atctatgacg tacccctaaa cggaaacctg 21120
gatggtcgta ccacgcgcct ctcgaaggca ggatcactga cgccccaacc caaattcggt 21180
gaagagtcta cgcctatggc tatgggatgt taagagttgg tgtttgtata tgatttactg 21240
gcgatgcttg aacctcccgc tttgacgcgc gtggcatctc attctgggga ctaataccac 21300
aatactcacc tgatgccgcg aatcgcgaac ttatgcgaag ggagggcgat ccccagacca 21360
ctcgaatcgt cctggagctt cgacgacacc tttgggtagc tattgatggg aatgcatgga 21420
ggttccactt tattgaatta ctcagtcgac ctagtcagtt tacagtgtgc cgacgtctct 21480
tctagaacgt tcaatttcgc caatgagatg cgcaaatcca aacgcggtgt aggcctacgg 21540
tcgagaggga ctcgatgacc ggctctctcg ttgaatctca cgagtaatgc acctagtccg 21600
acatttcatc cacgtgcaat catcatacgc ccctgtattc gtgataggga tcctccgggc 21660
gcctaccatc acaagtgcat caaggcgcca cgttacctgt tccggcattt gtcgtcgttc 21720
tctgcgaact tctaaacagc cccggctcga gggcttatat agggcctcct ttgctttata 21780
ttatcccaag tcagactccg aatcgtcgaa agatgctgca tacccagtga aaggagttat 21840
tcaactgctt ggtttcccat tgggtacagt tagctcgtat cagcagttcg gctgcaaagt 21900
tgctcttatc tagtaagatt ttctcatgta ctatgaagca aggtaattgg gaacgtcttt 21960
agctgagact cccatcccca ccacgaaatc cccaaagtcc agtgctttgg cctatccgtt 22020
agcagcggga tcgtcggacg gttaaagtac atgctagttt tcctgcagac acctggttga 22080
cttgtcgtgc aacaggacta gtatttgttc cttgacgtgt ctttacggta cgtcatcgag 22140
acaaccggag gagactattc accaaacgag cgcatcgtgt cctcccttat gctgataagc 22200
acgcaagcta tcattacacc atgagattcc gcttgcttgg ttgcgtacca ataccagttc 22260
tcatcttcct gacactgatg agctggttat taagtacagc acgtgaccat cttgaaactg 22320
cttcgctcgg aacgccgaca cccatgaccg actagaggat ggtagaagga tgtgcgcacc 22380
aggctcatgt aacacggtgg gtgttttcta ctgattgacg gctggattag cctcatgact 22440
aataaacctg ccaaggcggg gggagttgtc gccctacgcc cgtcatttga ccggaccacc 22500
gcgagtctgc ctttcgataa ttatctatat ttgtcagacc ggttatgtta ccgagattga 22560
gaacttaatt taaccctagg tgtaactaag taacagcaac tggaccttct tcccaaacat 22620
taggaacgcc tgaactagtt agcttgagtc ttcggccgag aaagcgagct aggatcggcg 22680
ggcgactatg tactaacgac aaaagggata tggtatattc aggtagcagg tgcctaggcg 22740
cgttgagccc gagtaagtac attggccacc tgactctcct ttagtcggga aacaatatat 22800
tgaatcttcg ggtctattca gcatccggtc aagggatgcg aagctttata atgcgggtta 22860
tgggagttcc agttgccgta taagtgccac caacagtgat ttagtccttc gattctgaaa 22920
ctaggacatt tggctgcgcg gtagcaccta tgtgtttact actggttctt agggccaacg 22980
ggtacagaga tgccgacaga caatacactg ccgaaaggtg cctaccgcgt ctacacggat 23040
cggcgccggt gtaaataacg aaaacgactt gacattaata catagagttg attacgcggt 23100
tgtaatcacc cagatttctt tcacggcact tatgaccctg cggaagaatg caactacggt 23160
acgggaagcc gcgtgttctc gtaagcactg agcttcgtta cgcgatagag aaattagggc 23220
ctcacgatat tctcgtcaag gattaccggc gacagaccct ataaatgctt aaatacgttc 23280
tgcactgcga gcgtgcctaa tacgccctgg tgttatagca acgatctttc gtgccgaaat 23340
gatatggacg aagtgtctaa tacaacaaca aaaaacttgt gggaaagctg acgcgatggt 23400
gattgacagc taaatgccag aatatgatca tacctccctg gttctgttgg tcgaaactgg 23460
atggtctgga gtgctgagct caacgttcca aacatcctgc agtagaaggt accattagga 23520
agcaggccga tcctcgcgta gtgtacagcc agaccaaaga ctaagcatac gagtacggtc 23580
atttataagt ttgcagtgcc tggcaatggg gaccattacg cggcacatgc gatatggggg 23640
tgacgccttg cttaggcaat gagtcaacct ctcattactc cgggcattac cccctcatac 23700
gaacatccag ctgaaactct agtcattggc acggggttaa gtagtcgtct agtaccacct 23760
aaaagcgctg gaaggaatac tataatattg gaaagccacc aggaggaaag ctagacacgg 23820
atgtgccgct tgtagatgcc taacaatatt ggtatcttta gggcttacca cctcgcactg 23880
agtcaaagtc tcgtcactgc gtcgaacttc tgtcgtgtag ggtcacaatc taagatgtga 23940
tagagccctc accgcctaca gtcgggaccg cctggctagc attcgatatc tgatgccggt 24000
actcggtaga ggccgtaaaa cattacaagc tggagagcat cgcgactact tgagatctgt 24060
ataaggccgt ctatcggatt acaaggcgtt cactaattat ccgtcgcagt atgtcaatat 24120
tctaagcggt tcccccacgg ctatttacag cagacatctt agagttcgct ggctagattg 24180
attacagcac gctcccacgt tgcgatggac gtcctccgac gctgccgatc agtgaaatga 24240
gatcccttcg actttggtcc tcctagtctg cttatgtcca gcaccaatgg taccgtgatg 24300
tgagggaatc taaagagata tcatcgttta ccctgacgta aagataaggg ttaagaccgg 24360
aacagaccgg gtgaacttaa tgcgcatggc cttgccgcgt ctcataggcg atcctccttt 24420
ccgagcgcag ccacgatacc caattgctgg tagaccagtg gggctacgca aaggtagact 24480
tttagtctgg ctttgtccta gttttcaatt aaaagcgggg tccgccgaca caactcccag 24540
acctttagag ggtcaacatt tgtcagtaac tggaagcacc tcatacttga ccgcgatcac 24600
caatcggggt acggtaatca tccgacaatt gatgtgttcc tcatcaagcc agcgaccccc 24660
agttgagacc cgacctcggt cactggcact cgggacgaaa gaataaggct tagtggacgg 24720
ctaatcgctc accaaatcgg gtcatagatc gctcccgtct gcgataccga gagcgcatat 24780
ttcgcatgat atcccccacc cgttacttac cttgcggagg ctaaacatta cggtacctcg 24840
catattgcaa agcgtgcaac tggccatgtc accgatttac gcacttagga ggccatgagc 24900
tcattcttat gttttcttag atgtggattc atgctacacg gggaaagatc gacaaatcag 24960
cggatgcgca ctcagtcgct ttgggctttg tcacaagtgt gatccggcta cggtgcacag 25020
ttcgtgcaat gcgatcggcg catcctgggt taagaattcc caggacgatc agctccagcc 25080
agcaaataag caaatcgcat tcggaatgga gtaacacgcg caacgaattt tggaactgga 25140
atgagatcga acaaacacta gggctaatgc tgtagtcaac ccttaatgag acatgacctt 25200
gcgtagacag gatggatata gcgaccacat aaagcggggt gtcatatggc ccgaggggcc 25260
agtggctgca gtaggcttag ttcgatcccg gtgcttgcaa tagtctctcc cacggtctat 25320
aaatgacaca gacaagacat cgacatcgtc gaagataaag ggcggaaacg atggcaaact 25380
ataaagctta tagtcgacac tttacgtgtg ggataggata gtactcaaaa tgtacgatat 25440
cgcttcatca aagctgcgcg agtccactac aggcgaaacg aatcccgcgc caaccgccta 25500
cgccgaccgc acaggttgcg gtacctatag tgaaaccaga tccgttctac acgcctgtga 25560
gatagcttgg tgtttaccgc tgggctgggg tgtaggaccg atagaccctt tgttgttggc 25620
gatttactgg tactcctaaa aatgcctttc tcaacgcatc acacctgtga cgtttaaagt 25680
gatgcatctc gcccaaatcc tagtaatcgt cggcttctct atgttaacca cactgcacac 25740
taatgatcgc tgtgacaaga cctgcttagt tcataccgaa agatcgccgg caagggcaag 25800
gaatagcacc tcgccaggtc cgctcaccta gggaaacgcg tatcgcatga agttcggtag 25860
gcgcatcacc tgtagaaact gccatcgggt cagggttacc agccgagttc tcgcatgtcc 25920
cgtagcgata ggcatccagc aagtgccggc tacgctgacc ggtatagaga ttatggagtc 25980
acagaatatc gtggggcaat gggccgaacc cagataaagt atccagggag ggtaatcttc 26040
aaacctaatc ccgttcttac gctagtcgtt gtagaacgct gctggatgat attgatgcca 26100
acaccgtcgg acgactggga ccgcagtgct gtattaagct ctatttaatc acattcaatt 26160
cacaatgttg atcagtcatc tccgcttgac cactagactt atgcagggca gaggaacatc 26220
gctaaggaca ctgtaatgtg cttagccatg aacagttcct agttcacatt ggcgcgcagg 26280
cgaccattgt aatcctcgct aaaaaataag tatgtgcctg aggaaacgaa gagacattcc 26340
aaaaaacgga attttgattg caacaaattc tgccgggtta gtagaaaaac accgatcgtt 26400
tcggtagttc aaccgttcca gcactcggat attcagtggt attctcttgc ggggttaaag 26460
atacaagctc gctattagat gaggaaccgg tgtgcactac ggctgtcgta tggtagaagg 26520
atatgccgca gtgctccggt ctcttttagg cggcactcag gtgaccaccg acatagcttg 26580
attgtccggg acattgagag gtaggtcctt gtgatccgtc tcggagcaat acgtcctcga 26640
ggcaatgggc ccccccgcgt acccaggggt tacggccatg gcctggatac tgaatttgaa 26700
aaccttttac aacgcacggg gggcatggat cacatgccat tttaccaaga ggatcttcac 26760
aacccccgaa caaaccaaga aaatacgaca tttatacgcc tgcccgcgta gatcactggg 26820
cttgttttct gcccgcactg gctgtacgat actagttatt tattttaaag ctctagactt 26880
cgggtcatta caaacaagcc gtgggcagga ttgaagctac cgcccaacta tacagtctca 26940
agcctgaccg tcttgtgtaa aaacattcca ctacccttcg gatagccaac gtcccgtatg 27000
acccccatag ccttagccaa ccaaactgat gggtgcttta ccaataagac taatcggaca 27060
agctccgttt ttgagggggc gatgagtatc caagactgca cgattgattg gggcatttct 27120
gaagcatgct gagatcaacg tgtacattaa ctatgttttc acctaatcgg tacgagttgg 27180
agaagttcca caattaaaag acagcgaatc accctagtca cgtatcgtaa gggttgaatt 27240
actacgcgta atactgctta tccacgccag ctaactccgg ttgtcagcaa ctttatgcaa 27300
ggcgtattgg attccatcac ctagcccacg cggtagaaag tgtaacctct ccgtttttca 27360
ttgtaggtgg aacatgcagc cgcccctccc cttagcgcct caccctctat ctgcagatct 27420
tcgtacagct acgaccaacg tcacatgaga cgaatgggga agttggcgga tttgcgacat 27480
aaaccttgaa ttacgggtgc tccagcgaac gggtgctatt gaactcaccc acgaagtcct 27540
atgcatgtaa atggactgga gtctattggt aagctctcca caggcatcct gccatcggtt 27600
atcttctgga ttctgtgcat cttcatgata agatactgaa aagggatagt atgatttatt 27660
taattataga gcaaaattcg agtcaatagc cgaaagtctg gcagggctat cctctccccg 27720
gctgcaagac tactactgcc aaaaggtcag agagaatacc tacaacatgg aataggacgc 27780
tcttatacgt gaaactgatg cattgcaatc tcaagtaatt agggtcctgg gaaactcagt 27840
tcggattttt cccactcccg ccgccagtat atggcaggta agagcgaaac aggccttggg 27900
ggcggcttgt caaaaggttc aggagtctgc acaccgtgtg ctccgcttgt ttctagcagg 27960
aggttcacct agccatggcg acgatagcta gcattaataa ctgtgtgcta gcctggggcg 28020
aagcagactg tgtagcatcg gtgactcatg ctcgaaatca cagccactgg gtcgaggagg 28080
ccgcgtcaag tcggcccgag ggacgtgggc tcccggtggg aatcaagggg tagagcaaca 28140
taacatctac actcacatca ggtcctcttg acgtacttga cgattcggct tcaatcacta 28200
cttcgttctt cacaaataaa gccactccag tagcgcacct ttcacaggct aagttccggt 28260
cactttatga catagatcta attgagtatg gttaaagagt tcgaataacg cagaccttac 28320
cgtaccttgg agacgaacgt tgaatagcct agggcccacg ggatggagag gttgacggtc 28380
tgtgctatac atcagcagcg gttagcaatc tctttttttt atctgatgct aatgtatcca 28440
gtgcgaggag ggcgcgagtg tcagaataaa catgggttgc ccacttatgg attgcgagtt 28500
tctagacgtc aggctccaaa ggtatgcccc tatgcttact agcatccgca cacggcgccg 28560
ctctgtggca accgctattg caaatcctat taccagtgat ttgtgaagtg ttgcaagatc 28620
tataaggtca ggctgtatct cctggcctcg aggattatgt gacatgggca cggtctcaca 28680
tcatactacg accgcctata atccatcagc gtcaaatctt gaagacgtag gctacacaac 28740
acttgaactt actgggctag tccgcccagc ccttctcgta ctcaaggcga gctcaggtta 28800
tccgcctgat gagacgagat gcgcgtgagc ttaaagccgc ttattgttgt gggtaaggat 28860
tcaacgctgg ggtaaatcag tcatgaatag gcagcttcga gttcctacgt gctctgtcga 28920
gtctaccgct cgcgtgtaat ccatccgcgc ctgtcatatc tactatgtta aagctcttta 28980
ataaatagtc tagcgaccgc ccgggcactc tctagtcttc cctccttcga agcagtaaac 29040
ataactttta tacaccaagc ttcgaattac cggcgcagtg gcgactattg ccgctaaggc 29100
tggaggtgga gagagaccta agactttgtt caagatgctc ttcgctgagt tcttaacgca 29160
agagggccta aagctcaaga cacacacttc cagaaaaaag attcggtttt tgactcccgg 29220
ccaacccagg atgggctttc atcggtcagg aacgaatctc gacccttgac tgtgccgatg 29280
taggacgacg atggcgtctt gcgggacgct gataactctc cccagttcct ccgcgattat 29340
gacgccctcg attctttatg acaatccagc gatgagacga gtctcaatga acacgcatct 29400
tattggacaa accttgtcgt gggttgatgg ggtacgtcag ttcttatgat aacagtttgg 29460
actctacagc cagattaact ccaacgcgaa gatgtcacag accagccgta ctatacttaa 29520
cttagagaaa tttcagagca ggaggcattg ggtgagctgt gaagtgactt tggggggccc 29580
gaacattcgg atctgggctg tttacattcg aggtctgtta tagcaaaagt gatagagagg 29640
ctggcgttcc atgtatcaag tgatgttgtt ttagagcggt ttcctagcca cgacatggga 29700
ctccgcatag cgggtggttc agcgttttgg ttctagcgga gactttgtgg ggctttttcg 29760
tcgagcctca ccacccttcc tttgaagtca gtattgtgtg attatagaaa cggggtatcg 29820
tcagacacta attagtgcag ctcgcgggtt cgggacaccc atacgcaaac cgaaaattcc 29880
tgggggccaa ccacgtatta cgcactgcct tctgcgatct ggtagacgac ggcgaatcgc 29940
tcgcttaagg agtcccggcg aacatccaaa aacaccttac agagactaat aagagtaccc 30000
tctgggcgct acgatcttta ctgaagtcct ccagctacac gaagtctgtg tagcggttct 30060
tagttcggac cagggagaga gttatcaaga cactcaatgc tagcgggacc ttctcgtacg 30120
gggaggtctc agcaaattgc tcttgtcact ggtgcggagg agattcagat tccgggccta 30180
ctcgagttcc ggtcatcttt ccgatgatac aggtggggaa ttcctacgtc gtcaacctgc 30240
tgcgtgaata ctttgtgtag gttaggattg cctttcagcc ggcgacaccc caatttgttc 30300
aatggacagt ctaaactcgg gcaaagctag acatcgtggg ctgactgtgc cgtgaatgca 30360
tacactagga tctacccttg gctctgcacc catgaaggta tcagctctgt caccggtagt 30420
acttacagac ggcgatacta tggccgatga aatatcctct ctcatttata gagggactgc 30480
cagacagggg tgtaaaccta aaaatgccca cctcacaact tcacccaagg agggagaggc 30540
gcaggccgcc ccgtaacagc tacacgatgg agtgtccggg agcgcagcag tttcttcaga 30600
tcggtataca gccgatgtaa tgcggccgaa tcataatacg ggaagagatc cttcgcccag 30660
cacattcggc actcgcgagt ggggatctcc tggtggccat ttctcgatta gagtccttgt 30720
ggtactgata tttcagagtg ttccagtggc gaaccataga gtcgcgtcag gcgtaccttt 30780
actaggctcc gaattagggt atcggaccca gctcgcgcca tagacccaat gaggcgtata 30840
gaacaccatt aaaacagctc aggccaggtc ctgaaggtaa atcgggttgc gaaaggaaac 30900
cgcaatctag agcgggagga accctctgat gcgaggacga tcgcagattt tagtggttct 30960
tgagacccta ggtcctgggg aagtactgta gtggtatggg ggggtgggcc tgattctgat 31020
tcaagactag gggctgactt cgatggccct cacgacctaa aaaagtggct cgtttggtag 31080
atacggagac cttttccgac ctttctgctt ccctaagtca gccacaagac cgtctccctt 31140
tatatttttt cgtaaaacct gatacctttg ccaacgcggc actcgtcaac cggcaaacaa 31200
gaccgggaag ctttcatgtc tcgtacgctt caatgcctcc cagagggcag cttttaacat 31260
gagttttcta cagggcctga gtagtgcact acgcggcagc accttcacct cttgacgaaa 31320
gcgtacgaat tgatataaag cacccttggg cagaatatct cggcgttggc cgtcgtggtg 31380
gatctgtcgc gcgtgaatat gcgactaaat gtagcctcct ctaggcccct ctccgtcgac 31440
ggtaacatta taaaatgctt ccatacatag gtatcaccgc cggcggacga gttccattcc 31500
tgttatggcc gttttctctt gtccacccgc gaggaagccg ggccttcaga cacggttaag 31560
gatgaaacgt ctcgctgagc atccaactca aattaaaagg atgacatctc aaattgtccc 31620
gcggtttgag accccctcgc ctttgacgaa tacttaccac gctatcagat tgatagctcc 31680
cttgctcctg ccatagcggc gtcgtagagg agtcagctac agctcaccgt actagcgaac 31740
ggcgctgact gtgatggctc caggattgta taaggtaaca ttcaaggtgg cggtggacca 31800
ccttaacgtg cgcgaccagt gacatagcag gttcgttgaa gactggctat aaatcagcgg 31860
ggtactgttc ataactacga ccagcttcgg aataaataaa gaagggcacg ctgaataaat 31920
cacgtgattt gtcggtccat cttatcaatg cttcaggatt cgtggtgtcc aattaccttc 31980
ttatggcgga agccgatgat cctcggaggt gccagacatt cataaaaatg attagaaaca 32040
tccgtctatc ggtattggct ctccatgcct tttcggccag gggtcaattt cacgagtatg 32100
caaaaagaat agggatagtt tatcaagctg gcaggcgtgc tacacgctag atgcggttcg 32160
tccggaagag acccgggggg actggtccag gcgtcatcca ggtcgtcccg gtggaaacta 32220
tggaaggaat acgtaaatca attcgcccct caagggcgga aggcccaaca tacacaggat 32280
tggttgctca tccatggacg attacgatca tcacagtcgc ggcttctggg gaccgcctcg 32340
cagcaatcct cctctcagtt agccggatat cgtacaaacg atttcttcca atcgaggtgt 32400
taccccgaac gtgctgaatg ccacagcagt ttttcagtgt cgactcctaa ctatactcaa 32460
ctgccagtga gcatcggtgc tacgcaaagg tgtcgcaggt ataaatactg aactagccac 32520
ccggggcgat aaccctcgcg agttaacctc gatgagcacg acgggtatgt gttgtcatcc 32580
cttatcgcca ttggcccgtg acctcccacg ctgctacttt ggccagtgct catacacatg 32640
tggaccttac gagtcccggg cgatttatgc gcctgtgttt tttcagactt atgatttatt 32700
ttatatcgtc agattgaagt acagctgtcc tgcttctgag tcgagttgtg tatgccacag 32760
gcgagtctag gatagcctcc aaacgcctcc caatctgcgc acgcagatac ctctcgaccg 32820
ggtttggctg tcaccttgcg tccgacccgg gtcggtaaca agcccccgtg cagagagata 32880
gcctattgca ctctctcacc caacgtgctg cctccgcgcg attctaccct acactagtac 32940
tggccgaata gcggcgtaat ccgcacatgt gacgctaaaa tgctcagatc acttgcctcg 33000
aagccgcatc gaaaatccta catcccaccc taaagggtcc ttcgtgttta gtcacttgag 33060
acgcattatc cgcgcatatg ttctataaac ttctatttga gtgctctcgg caacgttagc 33120
gttgccggaa ccagaggtcc aatggggaat taggtagcct agaaggagaa ttacttaata 33180
tcgcgggttt ctgttgggca gcgtacgatc ggcgtaacgt acacgctcaa cggatggact 33240
atcggtccaa cggggtaccg ggagcttggg gaaatttttc catccatcgc ctgagttata 33300
caaacctgct attggaccat tgaagcgggc attgcactga tgcgtatcca agcctgaaac 33360
acacgttcgt tcgtcaaata gcatgggcta cagcgccgaa cctgggtccg acggcccaag 33420
gaagtgtcga cagactggtg aggaaacgac ctacgtcagt cgccaggcga aatttgccgg 33480
ataccttgcc tgactatgga gataccgctt atttgacggt cttagagcga gccgaacgcg 33540
gactgtgccc tctggaagcg acaacccgaa atagaagtac cacgtatgag aaagcacgac 33600
tccaagtaac cggttttctc cgtatcgacg cagaccgcca gatatatcct tttcttatgc 33660
ttcagaaagg agccccacac gccgtatgcg tggtgggagc acgagtggag gcttagctta 33720
cgtgacgtgc tctgttaggc caaccagcga ctacactagg gttcttaaaa attcttagct 33780
cgggtcgacg acgcacccaa catagtacgg tccttttccc acgattgaaa aggctgcgtc 33840
ccagcgccgc atccgaaaag gcaaccaagg agctgcttaa cagggttacc gtctccattt 33900
cggattcgga acctaccgag tatagctctt cacccggtcg gcgcagaagt cctattgtag 33960
cccgacgcca ggtcacccgt atagagttgc aactgggagt aggccaattg cagcatccgg 34020
aaccgtccaa caccagggat tcagtacccg gtgtggatat tcgggaggct ctagtttgaa 34080
tgctacagtc tcaagatccc gaagaggacg gctgggtgct ggcgttgggg tttagagcgc 34140
tgatcggcat tttgccggat tcatagaatc aaatacgaag tttggccgcc tccgcgtccg 34200
gcttcgcaac attcggggtc ccatacaccg aacgtttatg ccctccttac cagattgggt 34260
gccaggactt cgtttatcta cgacgtgggt taatcggcat cactcaccgc ggcgaatccc 34320
gttatgatta tcttaaacat accacggctg ataaaacgcg atataaatcc ccaccccgag 34380
atactctcct atctgaggcg ctactgtgtc cgacatcaat acgtagtaac cagagggaat 34440
gggaaccgtc ttagcattat aaagagtatc gctttaccgg ttctctgcga ggaggtcgcg 34500
tggccgctta ctcaagggat ccgcggtcct tcttgagaag tacccgttta cgcgatattc 34560
tgtcatcgcc attgagcgat tatgattact aagatgcggt cctcgtcgga gcgactctta 34620
caccacaaaa tatctgttgt ctgactacag gcaatagtgg gtatcttaaa ggcgagtccg 34680
attgtataga ccgaataatt ttgaactcta cctcgcgcag tgactcggat aagacacacc 34740
gcaagtgcac tacttcccta cgaggggtcc cggttcccgg gcatcgaagg gtgagaaaat 34800
atctcgcgtg tcccgtcgaa gcagtcgcta gacgacgtcg tttgccacca cgaagaagac 34860
gctagtcaag cgttaaagct acgacttggt aaagtgcacg ccgttagccg ggacgagcta 34920
cgcatgcccg ttaaacacta ccatcgtcgg ctgctccagt gttaagctag ggacgtgtca 34980
ctgaggtatc caacacggca tcatgaaagc ggatctgtct gcggggggta cggttgggga 35040
tacagttatg aaccctgaga tataggttca ccagttcgta gagatagatt attcgagtgg 35100
ccccaaaata cacccgtttg atgtgaagct tcactacggc ttctggacaa cttaatggcg 35160
gagatccaag gatagcgtag gtgatcaact gcttcttttt aaaaagttga ccgagtgtat 35220
ccgcgtctga ggaatagaac cgcatcggga agggttgagc gaggagcgtg ggatgcattg 35280
gcaaaattga atcatcgatt ctcaactctc gacccgtcat ctcgcgtagt gtgaacatca 35340
agcaggcatc acgaaatact tgtaagagtc tctcgtagac gttacactta caggccattc 35400
tagttgtcgt gcaggcctcg gaccatcgca atgttagagt acggtccaat gatgcacccc 35460
ccaacccaac aagttccgac attcaatcaa cgaataagtc atggcgtgaa ccctttagct 35520
cacaacatat tggcagtcct tccatttggt tctgactgga gagtcggctt tacacacttc 35580
ggctgtccgg tatcctgcgt ctcggcacga ttcagtgaga tacgcttagt tcgtgaattt 35640
gtaataagct gattgaaggg cttcagccgg ttgccttttt ttataattcc ttgtgccata 35700
gaacagagag ttgttctcgt taaagctaga caacgttcca acccaaatat gttaaagagt 35760
aaacttatcc gcgaccgact cgaatccaca atcttttccc aagagcatat agttatgcct 35820
agacaggatc ctaggagcgt actttgcacg gtactaattc gccatatgaa aatgtacgat 35880
gctgtaccag gcggggaaga tcaaccctcc gcgtctaggc actcgtccgt aatcaccgga 35940
actagtcgtc ggctgcctgt tctgggagca aactgcacaa gacttcagat cgttatagtc 36000
gattgtggat tcctccaagc aggattgtac ggcgggatgt ttgttatgac tccgctctac 36060
caaatactgg ggtaaggcgg ccaccaccac ctgacggtgg taacaagtta gagaactcac 36120
caatcgacac ctgcagaaga ggtatgcgta ttcatccggg aggagtgcaa atcctaactg 36180
tagctcgtga agcggagtta cgaaaaaaga ttgtggtccg gccagggagc gctacatatt 36240
gagtaactct taccgggagg gccgaaatat tctagtgaag ccctcccatt aggcacggag 36300
ttgaggttat aatgaatgga tgcagcgtaa attctatcgt cggcctaatc ctacactttc 36360
tgcttgttca gtcgcgtcta gaacatacag aaaagatgct ataacagggt acgctttagt 36420
tgcgaaggct tctacggtag ctattcgtga atgactgtgg cgttattccc atgcgctaag 36480
caaggaaggg ggcggcgcct gttttctacc cgagggttta aagtatatca atagtatgct 36540
tacacctaga tgctggaacc taccaccaaa gcgtcgattg gtcggccgcc gcacatcact 36600
ggtagtgcag gtctggagcg aggtttcaac aaccgcactg gtttcgcgct tgatgcggtc 36660
gaccatttct cccttcaaag cagccgagcc aggtgatgtc ggggtgcact tttaccgatg 36720
cgtgtcgacc ctctttccca gtatactccg ctcattacgt taatctattg acaaccaacg 36780
gtcaagaaaa taagacccag acgctacgtg acatgggata ctaagtacct gagtgcctgg 36840
tcgataacac ctgctccacg tgatcagtaa ggccgcaact gcaatttata atggaccaga 36900
caacgacacc ttctgcgttt gccatcaaca cactgtcgtg tttgatgcaa tgaacctggt 36960
tcaataggct ggcaaaggtt caggaactcc aaactctagc ctccccgtcg accagcatgt 37020
aacatcgggg ttctgccgcg tcggagggga ggcttggaac gaaaagcctc tctgaagaac 37080
cgtttatcgt attgacaaat catccgtgca cggaggtgct acgttcagtc ctactttcca 37140
gagtcaaatt tattgcgtct ttacccccta gtgaggcgca attgatgttc aaccgctcca 37200
agacacaacg ctcccccagt ccgtgcgagt tattctactg cagaagttaa cctaaggcag 37260
gccgatgacg gtagtgctcc gacatgtggg acggagaacc tcgcggccga tccatgtcag 37320
ccgtagcggc gtggtatgta ggttattact ccggggccaa ttatttggat cagtcaaata 37380
acgtcgtcct caagacgtgt actctccttt tccatcgtgc caatgctctt tgcaacagga 37440
ctcgaatccc aatacttggc tgatcagaag catcatatta cggacctctc cgctgcatcg 37500
ttatactgcc ttgtgcgccg ctcgagtgga gaggggcacg caggctagcc cgcttctggg 37560
aattataaaa cgggtagctt accagaggat taaaggtcgc attttactat cgttcgaacg 37620
ggtgtcgcgg atgccgaccg ctcgatgccc acggcaaatg caagcaaacc agttcctaaa 37680
aaatccaatg gcgtgcctcg agttgctttt aatagcgagt ttccagggga ctagacttca 37740
ccgcaactgc gacccaacca attgaatccc ttacatagga tgttaccgtg aaactcagcg 37800
gatcccattg tgtctagttg ggcaattaaa aacgagaaac tataataccg tatagtaatt 37860
cctaattggg tcagtagagc gcacatccgg atctcaaatg ttcgttcgat tccttatgat 37920
agctaatgtt cttagtgagg gagacactca ggatatctaa ccactcatta agtagggccc 37980
tttccgttag gattcgtagt gcctatcaca agttgattaa gcgataagag tccctcgaat 38040
gtttacttgc cgacaggagt gtagatgcgt gcgaggtaag aaatgtcgta cgcttacgcg 38100
aacatgagtg ttcaggtgct ccgtaaatac ccactgcacc tttctcccta tcgcttcatc 38160
aacgtctctt aggggctgga tcctgttata aatgggcact cgcctagacc agtcagctag 38220
tttctaacag ccgatacatt cgcttgctaa cggatcatcg tacaggtatt cgtacaagac 38280
cgcttccact gctgagtgtt tctttgtgga agtcgcttag aagcgtccca tcgaggagat 38340
agctggaaat tctataggga cccgaggtta ggacaggcgc agcattctga ctcatgtgcg 38400
tccagattgt aatctagatg gttagggttc caattatgaa ggaagttatt acctacgctc 38460
ttatccatag tccaaggact gttgcttcct tccggacggt agttgcgagt acacaaggaa 38520
gtctttttag aaaatagtaa cagcaggtcc cattacgggc ccagcgcatc accgctaagc 38580
atacaagacg ttatcttagt gttcgggtaa ataaagacaa ttacgagtca tgggtgctgc 38640
ctcattccca ttcattcgtg agttgtctat cggtacagcg actagatggg ggaacgtggc 38700
ctaggacact gagtcgagcc ctcatgggcc attaagggct ctcaaccacc tacgtcggct 38760
tccgccggcg tccgcaaatc gattctctac tagtcctcgt ccaggtagcg tgacaacgtt 38820
gggcaatata aaagactgta ttaagtgcaa gcctctgggg caaagtgaat agtagtgagc 38880
cgaagccttc aacaagttat gatgtagcaa agaggttact gaccacgcgc ccgagatagc 38940
ggacctcctt tgtgtccatg accagtaagg gtcaacgttc cttatgcctt tggtgaactg 39000
tgagggcaca ataatttctt tcccctgaac gacgaactcc aatctacgcg tcaccggact 39060
gtaaaggtga gatcagatcg ttctgagtcg gcacatttag aacgagtctc gctatatgcc 39120
gcggggtcgt ggacgtattt actaataagc caatgatctc ggagcctcct ggccacgcca 39180
atagtctcgc cccccgtatt tacatttgca gactgagttg cccgtatgtc gtgcagcttt 39240
tggaatctaa ctgggaagcc tgtctgcctt tgatgggccc ctggccctaa ttcctattaa 39300
ctgaaaggtt acggcaggcg cggataaact cggcttgaac gttagtacat agagcccccg 39360
tctgcgcaat tgaggcccct gttggagata tcttgtcaaa tcaccgatct ctgggtcgtc 39420
taacgccttt atagatagaa gagacgactc ggcgccggtg cgtagcgttt cgaatgcaga 39480
gcacgctacg acaaccttgc tccgactgag cgacaatgca acttggtgag tggcttagat 39540
taaaatcagg cgtcctcaat tgttagagct cctccctttg taatagggag aggtttggtt 39600
ccgctcaagt aaccgttctc gaagggccgg cttttcgttg caagatacac ccacactgtt 39660
gttactgtaa cataggggag gtatcgcaac cgttacacgg cattccgctc taggggaaat 39720
cttatccttc aagcttgttc cacgagaaag tccgatctaa ctgaaatttt tagaaaaaaa 39780
gaagagggga cgagcagccg ttgttcgcac gtgtatccag caggcttggt ttaggctcct 39840
actcttccat gcgctatcct tataacctgc cttatccctg agtaaattga tacgttggga 39900
tcacagttag aggctaaaga catagctaag gatattgaat gcataaggat atagagagac 39960
gtttatgctt ctatggatct gccaaaagcc agtcgtaatc taacggcaag tcaatgcccg 40020
atacgtggaa aaaggcctgt ctgctagcgc ggctaagatg caggcgtcat ttccccacgc 40080
aagtgtctgg ttgaaatttt ccttatgcca gcggtactaa acccccggta agtttgtaat 40140
tctcattctg agttggcaac gtatatacat ggaacccacc ggtcagtatc cctcaattga 40200
caatggttaa attagaatgt tgtgggcgct ctacctactc ccacctgttt cttcgtactt 40260
ggggaatcgg tctgcaggct cagcatacta tagtatccaa tctcactgtg taacctcttc 40320
cactactcca acgacgcaaa tgtaggatac ccaatccgca taggaagtaa gcgggggggt 40380
attcggagcg ctccaaactg taaggaatca gcggagcgaa tggtatttaa atcgccgcta 40440
cgaaggcgta cctatctaaa agtcagattc ggcgtgtaga cgtatgcacg aacgtgatac 40500
<210> 2
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
atctagaatc aaaacgacac tttatttcca aaaagg 36
<210> 3
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
tattaggatc ggaatccatc tgcaa 25
<210> 4
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gaacgacaaa ccccgacaag taaca 25
<210> 5
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
ctgtattccg tctgacgaaa attttgtaat 30
<210> 6
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
tgtaatctcc gccacaatgg tttgt 25
<210> 7
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
acgtctccgg atttttaatc cgc 23
<210> 8
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
tttctttggc ggttaaactc acacatctat 30
<210> 9
<211> 34
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
gttaatagta tcacaccacc catatgaggt tagc 34
<210> 10
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
acgtcctgat ggatggagca attag 25
<210> 11
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
tagtttcagt aatgaatact gtctcaagct tcg 33
<210> 12
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
aacgccttaa agccaaataa agatcgaaac 30
<210> 13
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
tccacctcta aggctgtcat gtctatt 27
<210> 14
<211> 26
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
acgttataat ccctagtgcg taggtc 26
<210> 15
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
tcacggtgta attataaggt ccgtaacg 28
<210> 16
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
tccccgaagt gtgtacgata tctatgac 28
<210> 17
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
agcttgcgtg cttatcagca taag 24
<210> 18
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
tcatagatcg ctcccgtctg cgata 25
<210> 19
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
agcagcgttc tacaacgact agc 23
<210> 20
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
tgcacgattg attggggcat ttc 23
<210> 21
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
acacagttat taatgctagc tatcgtcg 28
<210> 22
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
ataacagttt ggactctaca gccagatt 28
<210> 23
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
tagtgtatgc attcacggca cagt 24
<210> 24
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
tctgcgcacg cagatacctc t 21
<210> 25
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
tggcctaaca gagcacgtca c 21
<210> 26
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
acctgctcca cgtgatcagt 20
<210> 27
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
aacgaacatt tgagatccgg atgtg 25
<210> 28
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
ttatccctga gtaaattgat acgttgg 27
<210> 29
<211> 31
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 29
caagggaaca ttatagggtg ttaagagtac t 31

Claims (10)

1.基于DNA的信息存储方法,包括:
将信息转换为二进制序列;
将所述二进制序列转换为DNA序列;
按照DNA序列合成DNA片段后,将其转化入微生物、保存。
2.根据权利要求1所述的信息存储方法,其特征在于,所述二进制序列转换为DNA序列的预设对应关系为:00→A,01→T,10→G,11→C。
3.根据权利要求1或2所述的信息存储方法,其特征在于,所述DNA序列的长度为10kbp~100kbp。
4.根据权利要求1或2所述的信息存储方法,其特征在于,所述DNA片段的制备方法包括:PCR扩增后进行酵母菌体内组装。
5.根据权利要求4所述的信息存储方法,其特征在于,所述酵母菌体内组装的片段长度为1~4kbp,片段之间同源序列的长度为30~150bp。
6.根据权利要求1或4所述的信息存储方法,其特征在于,所述酵母菌体内组装后,还包括提取的步骤。
7.根据权利要求1所述的信息存储方法,其特征在于,所述微生物为原核生物或真核生物;所述原核生物优选为大肠杆菌或芽孢杆菌;所述真核生物为酵母菌。
8.根据权利要求7所述的信息存储方法,其特征在于,所述微生物为酿酒酵母;DNA片段转化入的位点为ADE2基因。
9.根据权利要求1~8任一项所述的信息存储方法,其特征在于,还包括微生物扩繁的步骤。
10.根据权利要求1~8任一项所述的信息存储方法,其特征在于,还包括信息读取的步骤;具体包括,对微生物进行测序,将测得DNA序列转化为二进制序列,经译码获得二进制数据,从而获得存储的信息。
CN201811377712.XA 2018-11-19 2018-11-19 基于dna的信息存储方法 Active CN109460822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811377712.XA CN109460822B (zh) 2018-11-19 2018-11-19 基于dna的信息存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811377712.XA CN109460822B (zh) 2018-11-19 2018-11-19 基于dna的信息存储方法

Publications (2)

Publication Number Publication Date
CN109460822A true CN109460822A (zh) 2019-03-12
CN109460822B CN109460822B (zh) 2021-11-12

Family

ID=65610910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811377712.XA Active CN109460822B (zh) 2018-11-19 2018-11-19 基于dna的信息存储方法

Country Status (1)

Country Link
CN (1) CN109460822B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060734A (zh) * 2019-03-29 2019-07-26 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法
CN110190858A (zh) * 2019-05-30 2019-08-30 宋理富 一种聚合物分子信息存储纠错编解码系统
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN110706751A (zh) * 2019-09-25 2020-01-17 东南大学 一种dna存储加密编码方法
CN111243670A (zh) * 2020-01-23 2020-06-05 天津大学 一种满足生物约束的dna信息存储编码方法
CN111440827A (zh) * 2020-05-22 2020-07-24 苏州泓迅生物科技股份有限公司 一种信息存储介质、信息存储方法及应用
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN112002376A (zh) * 2020-08-13 2020-11-27 中国海洋大学 一种dna分子记录和读取信息的方法
CN112700819A (zh) * 2020-12-31 2021-04-23 云舟生物科技(广州)有限公司 基因序列的处理方法、计算机存储介质及电子设备
CN113205857A (zh) * 2021-07-02 2021-08-03 天津诺禾致源生物信息科技有限公司 基因组性染色体非同源区域的鉴定方法和装置
CN113300720A (zh) * 2021-05-25 2021-08-24 天津大学 长dna序列存储的插入删节分段识别方法
CN113380322A (zh) * 2021-06-25 2021-09-10 倍生生物科技(深圳)有限公司 人工核酸序列水印编码系统、水印字符串及编码和解码方法
CN115197956A (zh) * 2022-06-07 2022-10-18 南方科技大学 Dna数据存储方法及其应用
CN115197956B (zh) * 2022-06-07 2024-06-04 南方科技大学 Dna数据存储方法及其应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719908A (zh) * 2009-11-26 2010-06-02 大连大学 基于混沌理论和dna剪接模型的图像加密方法
CN104419701A (zh) * 2013-08-29 2015-03-18 天津大学 多片段dna的酵母快速组装方法
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
US20160358055A1 (en) * 2012-07-19 2016-12-08 President And Fellows Of Harvard College Methods of Storing Information Using Nucleic Acids
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
CN107798219A (zh) * 2016-08-30 2018-03-13 清华大学 将数据进行生物存储并还原的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719908A (zh) * 2009-11-26 2010-06-02 大连大学 基于混沌理论和dna剪接模型的图像加密方法
US20160358055A1 (en) * 2012-07-19 2016-12-08 President And Fellows Of Harvard College Methods of Storing Information Using Nucleic Acids
CN104419701A (zh) * 2013-08-29 2015-03-18 天津大学 多片段dna的酵母快速组装方法
CN105022935A (zh) * 2014-04-22 2015-11-04 中国科学院青岛生物能源与过程研究所 一种利用dna进行信息存储的编码方法和解码方法
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
CN107798219A (zh) * 2016-08-30 2018-03-13 清华大学 将数据进行生物存储并还原的方法
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ALDRINKAY-YUENYIM ET AL: ""The essential component in DNA-based information storage system robust error-tolerating module storagesystemrobusterror-toleratingmodule"", 《BIOENGINEERING AND BIOTECHNOLOGY》 *
GEORGE M. CHURCH等: ""Next-Generation Digital Information Stroage in DNA"", 《SCIENCE》 *
HANADI AHMED HAKAMI等: ""Review of Big Data Storage Based on DNA Computing"", 《2015 ASIA-PACIFIC CONFERENCE ON COMPUTER AIDED SYSTEM》 *
SETH L.SHIPMAN等: ""CRISPR–Cas encoding of a digital movie into the genomes of a population of living bacteria"", 《NATURE》 *
张林林等: ""纠正同步错误的反转级联水印码的迭代译码"", 《信号处理》 *
徐赫鸣等: ""酿酒酵母染色体设计与合成研究进展"", 《遗传 HEREDITAS (BEIJING)》 *
李雷等: ""DNA组装新方法的研究进展"", 《生物工程学报》 *
赵鹃等: ""合成生物学中的DNA组装技术"", 《生命科学》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060734B (zh) * 2019-03-29 2021-08-13 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法
CN110060734A (zh) * 2019-03-29 2019-07-26 天津大学 一种高鲁棒性dna测序用条形码生成和读取方法
CN110190858A (zh) * 2019-05-30 2019-08-30 宋理富 一种聚合物分子信息存储纠错编解码系统
CN110706751A (zh) * 2019-09-25 2020-01-17 东南大学 一种dna存储加密编码方法
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN111243670A (zh) * 2020-01-23 2020-06-05 天津大学 一种满足生物约束的dna信息存储编码方法
CN111440827A (zh) * 2020-05-22 2020-07-24 苏州泓迅生物科技股份有限公司 一种信息存储介质、信息存储方法及应用
CN111737955A (zh) * 2020-06-24 2020-10-02 任兆瑞 一种使用dna字符码存储文字点阵的方法
CN112002376A (zh) * 2020-08-13 2020-11-27 中国海洋大学 一种dna分子记录和读取信息的方法
CN112002376B (zh) * 2020-08-13 2024-03-19 中国海洋大学 一种dna分子记录和读取信息的方法
CN112700819A (zh) * 2020-12-31 2021-04-23 云舟生物科技(广州)有限公司 基因序列的处理方法、计算机存储介质及电子设备
CN113300720A (zh) * 2021-05-25 2021-08-24 天津大学 长dna序列存储的插入删节分段识别方法
CN113380322A (zh) * 2021-06-25 2021-09-10 倍生生物科技(深圳)有限公司 人工核酸序列水印编码系统、水印字符串及编码和解码方法
CN113380322B (zh) * 2021-06-25 2023-10-24 倍生生物科技(深圳)有限公司 人工核酸序列水印编码系统、水印字符串及编码和解码方法
CN113205857A (zh) * 2021-07-02 2021-08-03 天津诺禾致源生物信息科技有限公司 基因组性染色体非同源区域的鉴定方法和装置
CN115197956A (zh) * 2022-06-07 2022-10-18 南方科技大学 Dna数据存储方法及其应用
CN115197956B (zh) * 2022-06-07 2024-06-04 南方科技大学 Dna数据存储方法及其应用

Also Published As

Publication number Publication date
CN109460822B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN109460822A (zh) 基于dna的信息存储方法
Sanchez‐Baracaldo et al. Morphological and habitat evolution in the Cyanobacteria using a compartmentalization approach
Forterre The universal tree of life: an update
Meng et al. Genetic and functional properties of uncultivated MCG archaea assessed by metagenome and gene expression analyses
Cavicchioli Archaea—timeline of the third domain
Lema et al. Corals form characteristic associations with symbiotic nitrogen-fixing bacteria
Sullivan et al. Comparative sequence analysis of the symbiosis island of Mesorhizobium loti strain R7A
Antón et al. Extremely halophilic bacteria in crystallizer ponds from solar salterns
Slack et al. Leptospira kmetyi sp. nov., isolated from an environmental source in Malaysia
Skirnisdottir et al. Influence of sulfide and temperature on species composition and community structure of hot spring microbial mats
Camanocha et al. Host-associated bacterial taxa from Chlorobi, Chloroflexi, GN02, Synergistetes, SR1, TM7, and WPS-2 Phyla/candidate divisions
Tahon et al. Abditibacterium utsteinense sp. nov., the first cultivated member of candidate phylum FBP, isolated from ice-free Antarctic soil samples
Sjöling et al. High 16S rDNA bacterial diversity in glacial meltwater lake sediment, Bratina Island, Antarctica
Ivanova et al. Complete genome sequence of Truepera radiovictrix type strain (RQ-24 T)
Bartossek et al. Metagenomic analysis of ammonia-oxidizing archaea affiliated with the soil group
Crossman et al. A small predatory core genome in the divergent marine Bacteriovorax marinus SJ and the terrestrial Bdellovibrio bacteriovorus
Tan et al. The capricious nature of bacterial pathogens: phasevarions and vaccine development
Bird et al. Culture independent genomic comparisons reveal environmental adaptations for Altiarchaeales
Rodríguez‐Herva et al. Physiological and transcriptomic characterization of a fliA mutant of Pseudomonas putida KT2440
Welter et al. Free-living, psychrotrophic bacteria of the genus Psychrobacter are descendants of pathobionts
Mindlin et al. Acinetobacter plasmids: diversity and development of classification strategies
Itskovich et al. The number of endemic species of freshwater sponges (M alawispongiidae; S pongillina; P orifera) from L ake K inneret is overestimated
Hahn et al. Polynucleobacter wuianus sp. nov., a free-living freshwater bacterium affiliated with the cryptic species complex PnecC
Fitzgerald-Hayes et al. DNA and Biotechnology
Mindlin et al. Ubiquitous conjugative mega-plasmids of Acinetobacter species and their role in horizontal transfer of multi-drug resistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant