CN113462710A - 一种可随机重写的dna信息存储方法 - Google Patents

一种可随机重写的dna信息存储方法 Download PDF

Info

Publication number
CN113462710A
CN113462710A CN202110740705.7A CN202110740705A CN113462710A CN 113462710 A CN113462710 A CN 113462710A CN 202110740705 A CN202110740705 A CN 202110740705A CN 113462710 A CN113462710 A CN 113462710A
Authority
CN
China
Prior art keywords
information
dna
plasmid
sequence
information storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110740705.7A
Other languages
English (en)
Other versions
CN113462710B (zh
Inventor
刘凯
刘杨奕
张洪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110740705.7A priority Critical patent/CN113462710B/zh
Publication of CN113462710A publication Critical patent/CN113462710A/zh
Application granted granted Critical
Publication of CN113462710B publication Critical patent/CN113462710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/65Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression using markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Plant Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明提供了一种可随机重写的DNA信息存储方法。本发明提供了编码文本、密码本及图片数字信息至DNA分子的编码算法,同时利用CRISPR‑Cas12a‑λRed体系,可重新写入不同数字信息存储DNA片段,实现在体可随机的信息修改。本发明所构建的信息存写体系明显优于现有的体外信息存储和改写方法,开拓了DNA作为信息存储介质的应用潜力;可应用于数字信息存储、保密信息传输、信息伪装等领域。

Description

一种可随机重写的DNA信息存储方法
技术领域
本发明涉及基于DNA为介质的信息存储技术领域,尤其是涉及一种可随机重写的DNA信息存储方法。
背景技术
近几十年来,基于DNA为介质的信息存储技术研究受到越来越多的关注。DNA因其高密度的存储能力、简便稳定的扩增能力、高度折叠螺旋的压缩能力,使其成为了一种强大的信息存储介质。除携带生物体的基因信息外,也可将其开发成存储数字信息的新兴存储介质。目前针对于DNA为介质的信息存储技术已有一定的发展,但在已存储信息的修改领域存在技术空白。特别是针对于信息内容实现在体的信息修改或重写,不仅可以提高DNA信息存储的应用能力,同时也为信息存储加密提供了新思路。
CRISPR-Cas12a作为一种经典的微生物基因编辑工具,近些年来已经被广泛报道,其成熟的大肠杆菌基因组编辑功能已成为现阶段分子生物学的重要科研技术。但目前还未有将该技术应用于非天然基因序列编辑的报道,以人工合成的数字信息存储序列为编辑对象,利用CRISPR-Cas12a-λRed在大肠杆菌所含质粒上直接删除并插入新的人工合成DNA片段尚属首次。这一技术既填补了DNA信息存储改写技术的空白,也拓展了CRISPR-Cas12a体系的应用,因此这一在体的可随机重写的高密度DNA信息存储系统的开发极具潜力和发展空间。
发明内容
有鉴于此,本发明要解决的技术问题在于提供一种体内可随机重写的DNA信息存储方法,本发明DNA信息存储方法可高效存储文本信息、密码本信息和图片信息,并实现高成功率的信息修改。
一种可随机重写的DNA信息存储方法,包括以下步骤:
A)将待存储信息和改写信息的二进制编码通过算法分别转码为DNA序列1和DNA序列2,经体外合成分别获得DNA片段1和DNA片段2;
B)将所述DNA片段1、Cas12a蛋白导向crRNA的编码序列克隆至大肠杆菌质粒中,获得重组质粒;将所述重组质粒和含CRISPR-Cas12a-λRed的工具质粒共转化大肠杆菌,获得重组菌株;
C)利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待重写信息的编码DNA;
D)筛选含有DNA片段2的目的菌株,保存。
本发明提供了编码文本、密码本及图片数字信息至DNA分子的编码算法,同时利用CRISPR-Cas12a-λRed体系,通过优化诱导条件及诱导剂成分和浓度,可实现在体可随机的信息修改。本发明所构建的在体信息存写体系明显优于现有的体外信息存储和改写方法,开拓了DNA作为信息存储介质的应用潜力;本发明的在体信息存写体系可应用于数字信息存储、保密信息传输、信息伪装等领域。
本发明中,所述算法包括定长编码算法Base64和概率压缩算法Huffman,但不限于以上两种算法。
本发明中,所述存储信息的格式包括文本、密码本和图片。
所述待存储信息和改写信息分别转码为DNA序列1和DNA序列2后,,利用体外DNA固相合成仪按照DNA序列1和DNA序列2的序列将其分别合成双链DNA片段1和DNA片段2。
本发明步骤B)中,将所述DNA片段1、Cas12a蛋白导向crRNA的编码序列克隆至大肠杆菌质粒中,获得重组质粒。其中,在本发明的具体实施例中所述大肠杆菌质粒为pUC57-Kan质粒。
所述重组质粒含DNA片段1、30bp无义序列、带有前后20bp同源臂的无启动子GFP编码序列以及含PspeI启动子的Cas12a蛋白导向crRNA。
所述重组质粒的构建方法具体包括如下步骤:
将所述DNA片段1与30bp无义序列、带有前后20bp同源臂的无启动子GFP编码序列、含PspeI启动子的导向crRNA序列转入大肠杆菌pUC57-Kan质粒中,获得重组质粒,本发明中将其命名为信息质粒,结构示意图如图2。其中,所述DNA片段1的3’端连接有无启动子的GFP编码序列,用于信息改写的筛选。所述DNA片段1和所述无启动子的GFP编码序列之间还包括30bp无义序列;所述GFP编码序列的下游同源臂连接有含PspeI启动子的导向crRNA序列。
本发明中,若采用定长编码算法Base64对待存储信息进行存储,则设计Cas12a蛋白导向性crRNA的编码序列与待修改序列同源;若采用概率压缩算法Huffman,则设计Cas12a蛋白导向性crRNA的编码序列为非存储信息序列的定长外源序列。以上所述两种crRNA的编码序列均设计在信息存储质粒上,以供改写使用。
因Cas12a蛋白的识别特点,crRNA识别的同源序列前需还有富T序列的PAM位点,即TTTN。若使用定长编码的Base64算法编码的信息序列,crRNA选取在修改位点上;若使用概率压缩编码的Huffman算法编码的信息序列,crRNA选取在信息存储DNA序列与无启动子GFP编码序列之间的无义序列。
获得重组质粒后,将所述重组质粒和含有CRISPR-Cas12a-λRed的工具质粒p46Cpf-OP2-CmR共转化大肠杆菌,培养至双质粒体系稳定的状态。
其中,所述培养的培养条件为30℃、220rpm;培养所用的培养基为含50μg/mL卡那霉素、12.5μg/mL氯霉素和20mg/mL葡萄糖的LB培养基。
本发明中,所述步骤C)具体为:
C1)根据待改写信息的上、下游序列合成上、下游同源臂;同源臂的长度为300~600bp,优选为500bp;
C2)顺序连接上游同源臂、DNA片段2、GFP启动子和下游同源臂,获得重写DNA片段;
C3)采用电击法将所述重写DNA片段转入到所述重组菌株中,利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待改写信息的编码DNA。
其中,GFP启动子用于GFP的起始转录。一些具体实施例中,所述GFP启动子为38bptac启动子。
本发明中,在转入重写DNA片段之前还包括培养所述重组菌株,然后加入重组酶λRed表达诱导剂和Cas12a表达诱导剂诱导表达的步骤。
本发明中,所述诱导表达的温度为30℃,时间为2小时。
本发明中,所述重组酶λRed表达诱导剂为80ng/mL强力霉素,所述Cas12a表达诱导剂为5mg/mL L-阿拉伯糖。
本发明一个具体实施例中,培养所述重组菌株,然后加入重组酶λRed表达诱导剂和Cas12a表达诱导剂诱导表达的步骤具体包括:将所述含双质粒的重组菌株接种至50mL含50μg/mL卡那霉素、12.5μg/mL氯霉素的LB培养基中,30℃、220rpm的条件下培养至对数状态OD600为0.4,加入重组酶λRed表达诱导剂80ng/mL强力霉素和Cas12a表达诱导剂5mg/mL L-阿拉伯糖,30℃诱导两小时。以上强力霉素和L-阿拉伯糖的浓度均为工作浓度。
经上述诱导表达之后,将被诱导的菌体用4℃的10%甘油8000rpm低温高速离心清洗两遍,每1mL菌液用100μL预冷10%甘油重悬,最终菌液浓度达到1×1010至3×1010个/mL,分装为40μL菌液每管至于冰上,用于后续重写DNA片段的转入。
采用电击法将所述重写DNA片段转入到所述诱导之后的重组菌株中,具体方法包括:
(1)取所述重写DNA片段2μL加至40μL 10%甘油重悬的菌液中,冰浴1分钟后在0.1cm的电转杯中以2.5kV、200Ω、5ms的条件完成电击,并立即加入1mL的SOC培养基重悬;
(2)将所述的重悬菌液在30℃静置培养1小时后向培养基中加入诱导剂,使其终浓度达到强力霉素80ng/mL和L-阿拉伯糖5mg/mL再培养2小时;
(3)取所述100μL菌液涂布于含50μg/mL卡那霉素、12.5μg/mL氯霉素和5mg/mL L-阿拉伯糖的LB固体培养基上,30℃倒置培养;
(4)待所述固体培养基上出现单菌落,将平板发绿色荧光的单菌落挑起,保存。
本发明提供的DNA信息存储方法,所述步骤D)之后还包括信息读取步骤,所述信息读取具体为:提取目的菌株的质粒测序,通过解码算法将测得的序列转码为可读的重写后的存储信息。
用DNA测序仪以通用引物M13F为索引测序,得到改写后的DNA序列,通过对应解码算法读出改写后的存储信息。
本发明还提供了一种双质粒DNA信息存储系统,包括强表达克隆大肠杆菌菌株、工具质粒和信息质粒,信息质粒的信息来源为文本、密码本和图片三种格式,利用本发明改良的Base64算法和Huffman算法将数字信息编码为DNA序列。
本发明中,图1为可随机重写的高密度DNA信息存储系统示意图。
其中,原始信息经历算法运算转换成DNA序列,通过体外合成并连接到信息质粒上进行存储,通过电穿孔和试剂诱导将新信息(即改写信息)写入随机指定位点,通过解码算法读取目标菌落所携带信息。
本发明对于上述各部分来源以及具体设置不进行限定,本领域技术人员熟知的即可。
本发明提供的DNA信息存储方法,包括以下步骤:A)将待存储信息和改写信息的二进制编码通过算法分别转码为DNA序列1和DNA序列2,经体外合成分别获得DNA片段1和DNA片段2;B)将所述DNA片段1克隆至大肠杆菌质粒中,获得重组质粒;将所述重组质粒和含CRISPR-Cas12a-λRed的工具质粒共转化大肠杆菌,获得重组菌株;C)利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待重写信息的编码DNA;D)筛选含有DNA片段2的目的菌株,保存。
与现有技术相比,本发明提供了编码文本、密码本及图片数字信息至DNA分子的编码算法,同时利用CRISPR-Cas12a-λRed体系,通过优化诱导条件及诱导剂成分和浓度,可重新写入不同数字信息存储DNA片段,实现在体可随机的信息修改。本发明所构建的在体信息存写体系明显优于现有的体外信息存储和改写方法,开拓了DNA作为信息存储介质的应用潜力;本发明的在体信息存写体系可应用于数字信息存储、保密信息传输、信息伪装等领域。
附图说明
图1为本发明实例中的可随机重写的高密度DNA信息存储系统的示意图;
图2为本发明实例中信息改写前后质粒图谱对比;
图3为本发明实例的菌落生长情况统计图;
图4示实施例1Huffman算法编码的文本、图片和密码本信息的存储与改写后的测序结果;
图5示实施例2Base64算法编码的文本信息的存储与改写结果;
图6示实施例2图片信息的存储;
图7示实施例2图片信息的改写结果。
具体实施方式
本发明提供了一种构建可随机重写的高密度DNA信息存储系统的方法,本领域技术人员可以借鉴本文内容,适当改进工艺参数实现。特别需要指出的是,所有类似的替换和改动对本领域技术人员来说是显而易见的,它们都属于本发明保护的范围。本发明的方法及应用已经通过实例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合,来实现和应用本发明技术。
本发明提供一种可随机重写的DNA信息存储方法,包括以下步骤:
A)将待存储信息和改写信息的二进制编码通过算法分别转码为DNA序列1和DNA序列2,经体外合成分别获得DNA片段1和DNA片段2;
B)将所述DNA片段1、Cas12a蛋白导向crRNA的编码序列克隆至大肠杆菌质粒中,获得重组质粒;将获得的重组质粒和含CRISPR-Cas12a-λRed的工具质粒共转化大肠杆菌,获得重组菌株;
C)利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待重写信息的编码DNA;
D)筛选含有DNA片段2的目的菌株,保存。
本发明还提供了一种双质粒DNA信息存储系统,包括强表达克隆大肠杆菌菌株、工具质粒和信息质粒,信息质粒的信息来源为文本、密码本和图片三种格式,利用本发明改良的Base64算法和Huffman算法将数字信息编码为DNA序列。
本发明图1为可随机重写的高密度DNA信息存储系统示意图。
其中,原始信息经历算法运算转换成DNA序列,通过体外合成并连接到信息质粒上进行存储,通过电穿孔和试剂诱导将新信息写入随机指定位点,通过解码算法读取目标菌落所携带信息。
本发明对于上述各部分来源以及具体设置不进行限定,本领域技术人员熟知的即可。
本发明所述算法为定长编码算法Base64和概率压缩算法Huffman,但不限于以上两种算法。
本发明所述待存储信息转码为DNA序列后,利用体外DNA固相合成仪合成含信息的双链DNA片段。
本发明中需将所述存储信息的DNA片段重组在含有编辑位点的大肠杆菌pUC57-Kan质粒上,并将其电转至含有编辑工具质粒p46Cpf-OP2-CmR的大肠杆菌MG1655菌株中,以含50μg/mL卡那霉素、12.5μg/mL氯霉素和20mg/mL葡萄糖的LB培养基30℃、220rpm的条件培养至双质粒体系稳定的状态。
本发明所述存储信息的插入位点3’端连接有不含启动子的GFP编码序列,用于信息改写的筛选。
本发明所述存储过程若采用定长编码算法Base64存储文本信息,则设计Cas12a蛋白导向性crRNA的编码序列与待修改序列同源;若采用概率压缩算法Huffman,则涉及Cas12a蛋白导向性crRNA的编码序列为非存储信息序列的定长外源序列;以上所述两种crRNA的编码序列均设计在信息存储质粒(即所述重组质粒)上,以供改写使用。
本发明需将所述含有存储信息的双质粒菌株接种在50mL含50μg/mL卡那霉素、12.5μg/mL氯霉素的LB培养基中,30℃、220rpm的条件培养至对数状态OD600为0.4,加入重组酶λRed表达诱导剂80ng/mL强力霉素和Cas12a表达诱导剂5mg/mL L-阿拉伯糖,30℃诱导两小时。
本发明需将被诱导菌体用4℃的10%甘油8000rpm低温高速离心清洗两遍,每1mL菌液用100μL预冷10%甘油重悬,最终菌液浓度达到1×1010至3×1010个/mL,分装为40μL菌液每管至于冰上待用。
本发明需将所述要改写的信息的二进制编码通过定长编码算法Base64或概率压缩算法Huffman转码为重写的DNA序列,并根据信息插入的位点,分别在重写的DNA序列上下游融合插入位点前后500bp的序列,得到含有重组同源臂的重写DNA序列并使其浓度达到100至200ng/μL;
本发明中,首先合成含有改写信息(即DNA片段2)的重写DNA片段,然后将重写DNA片段转入步骤B)所述重组菌株(即双质粒体系),具体包括如下步骤:
C1)根据待改写信息的上、下游序列各300~600bp合成上、下游同源臂;
C2)顺序连接上游同源臂、DNA片段2、GFP启动子和下游同源臂,获得重写DNA片段;
C3)采用电击法将所述重写DNA片段转入到所述重组菌株中,利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待改写信息的编码DNA。
本发明中,取含有改写信息的编码DNA(即DNA片段2)的重写DNA片段2μL加至40μL10%甘油重悬的菌液中,冰浴1分钟后在0.1cm的电转杯中以2.5kV、200Ω、5ms的条件完成电击,并立即加入1mL的SOC培养基重悬;
本发明中,将所述的重悬菌液在30℃静置培养1小时后向培养基中加入诱导剂,使其终浓度达到强力霉素80ng/mL和L-阿拉伯糖5mg/mL再培养2小时;
本发明中,取所述100μL菌液涂布于含50μg/mL卡那霉素、12.5μg/mL氯霉素和5mg/mL L-阿拉伯糖的LB固体培养基上,30℃倒置培养;
本发明中,待所述固体培养基上出现单菌落,将平板发绿色荧光的单菌落挑起提取质粒,用DNA测序仪以通用引物M13F为索引测序得到改写后的DNA序列,通过对应的解码算法读出信息。
本发明所构建的在体信息存写体系明显优于现有的体外信息存储和改写方法,开拓了DNA作为信息存储介质的应用潜力;本发明的在体信息存写体系可应用于数字信息存储、保密信息传输、信息伪装等领域。
为了进一步说明本发明,以下结合实施例对本发明提供的一种可随机重写的DNA信息存储方法进行详细描述。
实施例1
参见示意图1,强表达克隆大肠杆菌菌株、工具质粒和信息质粒,信息质粒的信息来源为文本、密码本和图片三种格式,利用改良的Base64算法和Huffman算法将数字信息编码为DNA序列。
具体步骤如下:
(1)导向crRNA的设计:因Cas12a蛋白的识别特点,crRNA识别的同源序列前需还有富T序列的PAM位点,即TTTN。若使用定长编码的Base64算法编码的信息序列,crRNA的识别位点选取在修改位点(以文本信息为例:5’-CTACAGGCTGCGAGTCAGACTTCGTCAAA-3’)上;若使用概率压缩编码的Huffman算法编码的信息序列,crRNA的识别位点选取在信息存储DNA序列与无启动子GFP编码序列之间的无义序列(5’-TTTTATCTTCTGCTGGT GGTTCGTTCGGTA-3’)上。编码crRNA的DNA序列连接在GFP序列的3’末端,其携带有组成型启动crRNA编码序列转录的启动子PspeI,完整的crRNA编码序列为5’-TAATACGACTCACTATAGAATTTCTACTGTTGTAGATTCTTCTGCTGGTGGTTCGTTCGGTA-3’。
(2)构建信息质粒:利用无缝克隆技术,按照图2原始信息菌株中信息质粒的组成,依次将体外合成信息存储DNA序列、30bp无义序列、无启动子GFP编码序列、带有PspeI启动子的导向crRNA序列连接在pUC57-Kan质粒上。利用克隆菌株DH5α筛选重组成功的质粒携带株,提取质粒使其终浓度达到100ng/μL。
(3)构建信息、工具双质粒菌株:使用热击法将1μL上述信息质粒转入MG1655感受态细胞中,在含50μg/mL卡那霉素的LB固体培养基上37℃培养12小时,挑选并验证成功转入信息质粒的菌株,10%甘油讲菌株清洗重悬,分装为菌液浓度达到1×1010至3×1010个/mL的40μL每管,至于冰上待用;使用电击法将已含有信息质粒的MG1655菌株转入2μLp46Cpf-OP2质粒,在含50μg/mL卡那霉素、12.5μg/mL氯霉素和20mg/mL葡萄糖的LB固体培养基上30℃培养16小时,筛选得到稳定复制双质粒的高克隆表达菌株。
(4)改写信息的设计:按照图2所示,发生改写的信息质粒需通过设计500bp上下游同源臂及GFP表达用启动子Ptac(5’-GAGCTGTTGACAATTAATCATCGGCTCGTATAATGTGT-3’),连接于同样采用改良的Base64算法和Huffman算法将改写信息编码的DNA序列的3’端。使用PCR技术扩增这一含有重组同源臂的重写DNA序列,使其终浓度达到200ng/μL。
(5)信息质粒的改写:按照图1所示,双质粒菌株接种在50mL的含50μg/mL卡那霉素、12.5μg/mL氯霉素的LB培养基中,30℃、220rpm的条件培养至对数状态OD600为0.4。为提前诱导工具质粒翻译工具蛋白,加入重组酶λRed表达诱导剂80ng/mL强力霉素和Cas12a表达诱导剂5mg/mL L-阿拉伯糖,30℃诱导两小时。用10%甘油清洗重悬菌体使菌液浓度达到1×1010至3×1010个/mL,分装为40μL每管。并取含有重组同源臂的重写DNA序列2μL加至40μL 10%甘油重悬的菌液中,冰浴1分钟后在0.1cm的电转杯中以2.5kV、200Ω、5ms的条件完成电击,并立即加入1mL的SOC培养基重悬。重悬菌液在30℃静置培养1小时后向培养基中加入诱导剂,使其终浓度达到强力霉素80ng/mL和L-阿拉伯糖5mg/mL再培养2小时。取所述100μL菌液涂布于含50μg/mL卡那霉素、12.5μg/mL氯霉素和5mg/mL L-阿拉伯糖的LB固体培养基上,30℃倒置培养。
同时在诱导工具质粒翻译工具蛋白时设置平行对照组,其中不加L-阿拉伯糖并补加20mg/mL葡萄糖为Cas12a蛋白表达抑制组,单一表达λRed(+);其中不加强力霉素为λRed表达抑制组,单一表达Cas12a(+);其中既不加L-阿拉伯糖也不加强力霉素,只补加20mg/mL葡萄糖为空白组。
(6)筛选并读取信息:完成诱导修改的平板培养20小时后可观察菌落长势和颜色。
实施例2 Huffman算法进行编码
图3为Huffman算法编码的信息在改写后各处理组的菌落数目比较,结果显示在体存储和改写的信息种类不会对系统的稳定性造成影响。筛选平板上的绿色荧光菌落,利用M13F引物对重写信息质粒进行测序。比较了两种算法编码三类信息改写菌株测序结果解码读取的成功率,结果见表1和图4。
表1
Figure BDA0003141305390000101
表1通过比较四种情况下信息改写的情况,可以确定成功率均大于88%,说明本发明能够实现在体随机重写DNA存储的数字信息,其中Huffman算法存储的文本、密码本和图片改写成功率较高。特别是对文本的改写成功率高达94.97%,效率明显优于Base64算法编码的文本信息存储改写。Base64算法编码的文本信息存储改写过程见图5。
其中,采用Huffman算法对文本、密码本和图片信息进行编码的具体存储过程如下:
1.文本信息修改
(1)原始文本:IT WAS THE WORST OF TIMES.;
利用Huffman算法将文本信息转码为DNA序列,原始DNA序列如下:
0,CTATAAGAGCCAACTCTTGACCTCCTGGCCACTGGATAGCCCTAACGGCCGT,52
(2)按照上述序列体外合成DNA片段1,按照实施例1的步骤对该信息进行存储,并进行修改。改写的文本为:IT WAS THE BEST OF TIMES.利用Huffman算法将该改写的文本信息转码为DNA序列
改写DNA序列为:0,GCCCAGATCCTTTAGAGTCGATCTAGTAGACCGGAATCGCAGGCCATGCG,50。
(3)按照实施例1步骤(1)~(5)进行操作,提取目的菌株的质粒,进行测序,利用Huffman算法解码,读取改写后的文本信息。
存储与改写信息及对应的DNA序列见图4。读取的结果为:IT WAS THE BEST OFTIMES.与改写文本信息一致。
2.密码本信息修改
(1)原始密码本:
Figure BDA0003141305390000111
利用Huffman算法将密码本信息转码为DNA序列,原始DNA序列如下:
0,TGTCGTGGGACTCCCAAGTGGTGCGAATCAATTGAATTGGTCTAGGCGATACAAGTCCAACAATTGGAATGACTAGTACTTCTAGGCGATACAAGTAGACTACAATTGCTCGCAAATCGTGGGACTCCCAAGACTTGTGA,140。
(2)按照上述序列体外合成DNA片段1,按照实施例1的步骤对该信息进行存储,并进行修改。修改后密码本:
Figure BDA0003141305390000112
利用Huffman算法将该改写的密码本信息转码为DNA序列,修改后DNA序列:0,TGTCGTGGGACTCCCAAGTGGTGCGAATCAATTGAATTGGTCTAGGCGATACAAGTTTTGGCTGTCGATGTCGTCTCAAGACTACGACGACTAGTACTTTTGGCATTGCTCGCAAATCGTGGGACTCCCAAGACTTGTGA,140。
(3)按照实施例1步骤(1)~(5)进行操作,提取目的菌株的质粒,进行测序,利用Huffman算法解码,读取改写后的密码本信息。
存储与改写信息及对应的DNA序列见图4。读取的结果与改写密码本信息一致。
3、图片信息修改
(1)原始图片见图6。
利用Huffman算法将图片信息转码为DNA序列,原始DNA序列如下:
0,ACATCGTCGGCTCAACTGGTTTTAGCCGGTGACCAGGGCTCAACGCCGATAACTCAGGCTCAACTGGTGACCAGTTTAGCCGATAATCGGCTCAACTGGTGACCAGTTGTCTATAATCGGCTCAACTGGTGACCAGTTTAGCCGATAATCGGCTCAAATAGACAAATAGCCGATAATCGGCTCATCCTAGGTCCAAGCATTGCTACTACCTTGGCTCAACTGGTGACCAGTTTAGCCGATAAGCATTGCTACTACCTTGGATTCGAACGTCGTTGCCATCCTAGGTCCAATCGGCTCAACTGGTGAACGTCGTTGCCATCCTAGGTCCAAGCATTGCTACTACCTTGGATTCGACCAGTTTAGCCGATAAGCATTGCTACTACCTTGGCTCAACTGGTGAACGTCGTTGCCATCCTAGTTTAGCCGATAATCGGATTCGAACGTCGATAATCGGCTCAACTGGTGACCAGGTCCAAGCATTGGTGACCAGTTTAGCCGATAATCCGAAGTCATGGCAGTACTCAACTGCTACTACCTTGGCTCAACTGGTGACCAGTGGGCGATAATCGGCTCAACTGGTGACCAGTTTAGCCGATAATCGGCTCAACTGGGCGAGTTTAGACAAATAGACAAATAGACAAATAGACAAATCGGCTATTTGTCTATTTGTCTATTTGTCTCAACTCGCCCACTCGCCCACTCGCCCACTCGCCCAGTTTAGCCGATTTGTCTATTTGTCTATTTTAGC,748
(2)按照上述序列体外合成DNA片段1,按照实施例1的步骤对该信息进行存储,并进行修改。修改后图片见图7:
利用Huffman算法将该改写的图片信息转码为DNA序列,修改后DNA序列:
0,ACATAGGCGACTCGCCCAATCGCCCAATCTCGCCCATAGTGGGCACAATTTGCCCAGCGACTCGCCCAGGGCGACTAAGGGCGAACGTGGGCGACTCGCCCAATAGACTAGACTCGCCCAATAGACAATTTGTCTAGTGGCCACTAGACTCGCCCAACTTTAGGCTCCAGAATCGTGGGCGACTCGCCCAATAATGGTGCCGCAACTTTAGGCTCCAGAATCGTGGGCGACTCAAGTTTCGGGACCATAATGGTGCCGCAACTTTGTCTAGTGACGATACTGTAGTGGGCGACCATAATGGTGCGACTCGCCAGAATCGTGGGCGACTCGCCCAATAATGGTGCGACTCGCCCAATAATGGTGCCGCAATAGTTTCGGGACTCGCCCATTGTGGGCGACTCGCCCAATAGACAATTTGTCTAGTCGAGTCGCCAAAGTCTAGTGGCCCCAATTGGGCCACTAGAATTTGGCGACTCGACATTGTCGAGACAATTTGGCCCAATACTATAGAC,512
(3)按照实施例1步骤(1)~(5)进行操作,提取目的菌株的质粒,进行测序,利用Huffman算法解码,读取改写后的图片信息。
存储与改写信息及对应的DNA序列见图4。读取的结果与改写图片信息一致。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种可随机重写的DNA信息存储方法,其特征在于,包括以下步骤:
A)将待存储信息和改写信息的二进制编码通过算法分别转码为DNA序列1和DNA序列2,经体外合成分别获得DNA片段1和DNA片段2;
B)将所述DNA片段1、Cas12a蛋白导向crRNA的编码序列克隆至大肠杆菌质粒中,获得重组质粒;将所述重组质粒和含CRISPR-Cas12a-λRed的工具质粒共转化大肠杆菌,获得重组菌株;
C)利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待重写信息的编码DNA;
D)筛选含有DNA片段2的目的菌株,保存。
2.根据权利要求1所述的DNA信息存储方法,其特征在于,所述算法包括定长编码算法Base64和概率压缩算法Huffman;所述存储信息的格式包括文本、密码本和图片。
3.根据权利要求1所述的DNA信息存储方法,其特征在于,步骤B)具体为:将所述DNA片段1、30bp无义序列、无启动子GFP编码序列、带有PspeI启动子的导向crRNA序列转入大肠杆菌pUC57-Kan质粒中,然后将获得的重组质粒和含有CRISPR-Cas12a-λRed的工具质粒p46Cpf-OP2-CmR共转化大肠杆菌,培养至稳定的双质粒体系。
4.根据权利要求1所述的DNA信息存储方法,其特征在于,所述DNA片段1的3’端连接有无启动子的GFP编码序列,所述DNA片段1和所述无启动子的GFP编码序列之间还包括30bp无义序列。
5.根据权利要求1所述的DNA信息存储方法,其特征在于,若采用定长编码算法Base64对待存储信息进行存储,则设计Cas12a蛋白导向性crRNA的编码序列与待修改序列同源;若采用概率压缩算法Huffman,则设计Cas12a蛋白导向性crRNA的编码序列为非存储信息序列的定长外源序列。
6.根据权利要求1所述的DNA信息存储方法,其特征在于,所述步骤C)具体为:
C1)根据待改写信息的上、下游序列各300~600bp合成上、下游同源臂;
C2)顺序连接上游同源臂、DNA片段2、GFP启动子和下游同源臂,获得重写DNA片段;
C3)采用电击法将所述重写DNA片段转入到所述重组菌株中,利用CRISPR-Cas12a-λRed体系将DNA片段2插入到所述重组质粒的目标位置,替换掉待改写信息的编码DNA。
7.根据权利要求1所述的DNA信息存储方法,其特征在于,在转入DNA片段之间还包括向所述重组菌株中加入重组酶λRed表达诱导剂和Cas12a表达诱导剂诱导表达的步骤。
8.根据权利要求7所述的DNA信息存储方法,其特征在于,所述诱导表达的温度为30℃,时间为2小时;所述重组酶λRed表达诱导剂为80ng/mL强力霉素,所述Cas12a表达诱导剂为5mg/mL L-阿拉伯糖。
9.根据权利要求1~8任一项所述的DNA信息存储方法,其特征在于,所述步骤D)之后还包括信息读取步骤,所述信息读取具体为:提取目的菌株的质粒测序,通过解码算法将测得的序列转码为可读的重写后的存储信息。
10.一种DNA信息存储系统,其特征在于,包括强表达克隆大肠杆菌菌株、工具质粒和信息质粒;
所述工具质粒包含CRISPR-Cas12a-λRed编辑工具,所述信息质粒包括待存储信息的编码序列DNA片段1、30bp无义序列、无启动子GFP编码序列、带有PspeI启动子的导向crRNA。
CN202110740705.7A 2021-06-30 2021-06-30 一种可随机重写的dna信息存储方法 Active CN113462710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110740705.7A CN113462710B (zh) 2021-06-30 2021-06-30 一种可随机重写的dna信息存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110740705.7A CN113462710B (zh) 2021-06-30 2021-06-30 一种可随机重写的dna信息存储方法

Publications (2)

Publication Number Publication Date
CN113462710A true CN113462710A (zh) 2021-10-01
CN113462710B CN113462710B (zh) 2023-07-11

Family

ID=77876874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110740705.7A Active CN113462710B (zh) 2021-06-30 2021-06-30 一种可随机重写的dna信息存储方法

Country Status (1)

Country Link
CN (1) CN113462710B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108616A1 (zh) * 2021-12-17 2023-06-22 深圳华大生命科学研究院 利用dna进行信息存储的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013169867A1 (en) * 2012-05-08 2013-11-14 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for rewritable digital data storage in live cells
CN110427786A (zh) * 2019-05-31 2019-11-08 西藏自治区人民政府驻成都办事处医院 一种用dna作为文字信息高效存储介质的方法
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN111440827A (zh) * 2020-05-22 2020-07-24 苏州泓迅生物科技股份有限公司 一种信息存储介质、信息存储方法及应用
CN112288089A (zh) * 2020-09-28 2021-01-29 清华大学 阵列式核酸信息存储方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013169867A1 (en) * 2012-05-08 2013-11-14 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for rewritable digital data storage in live cells
CN110427786A (zh) * 2019-05-31 2019-11-08 西藏自治区人民政府驻成都办事处医院 一种用dna作为文字信息高效存储介质的方法
CN110684791A (zh) * 2019-11-15 2020-01-14 天津大学 一种利用dna在体内存储信息的方法
CN111440827A (zh) * 2020-05-22 2020-07-24 苏州泓迅生物科技股份有限公司 一种信息存储介质、信息存储方法及应用
CN112288089A (zh) * 2020-09-28 2021-01-29 清华大学 阵列式核酸信息存储方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SETH L. SHIPMAN ET AL.: "CRISPR–Cas encoding of a digital movie into the genomes of a population of living bacteria", 《NATURE》 *
YANGYI LIU ET AL.: "In vivo processing of digital information molecularly with targeted specificity and robust reliability", 《SCIENCE ADVANCES》 *
宋琪等: "DNA存储技术国际发展态势分析", 《世界科技研究与发展》 *
宋香明: "基于Huffman编码的DNA信息存储方法研究", 《中国硕士论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108616A1 (zh) * 2021-12-17 2023-06-22 深圳华大生命科学研究院 利用dna进行信息存储的方法和系统

Also Published As

Publication number Publication date
CN113462710B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
JP2005523716A5 (zh)
Ravin et al. Bidirectional replication from an internal ori site of the linear N15 plasmid prophage
Graf et al. Transfer and analysis of Salmonella pdu genes in a range of Gram‐negative bacteria demonstrate exogenous microcompartment expression across a variety of species
CN113462710B (zh) 一种可随机重写的dna信息存储方法
CN104630255B (zh) 一种用于莱茵衣藻多基因共表达的载体及其构建方法
WO2020232286A1 (en) Optimization of circular single stranded dna using m13 phage
WO1984001171A1 (en) Plasmids with conditional uncontrolled replication behaviour
CN107287331B (zh) 一种高效检测蓝藻细胞周期的方法
CN116286931B (zh) 用于富养罗尔斯通氏菌快速基因编辑的双质粒系统及应用
JPH10505746A (ja) 組換えタンパク質、プラスミド及び修飾細胞を生産するためのプロセス
CN112980891A (zh) 一种基于CRISPR-Cas的大肠杆菌基因组编辑工具
Zaleski et al. New cloning and expression vector derived from Escherichia coli plasmid pIGWZ12; a potential vector for a two-plasmid expression system
Srinivas et al. Escherichia coli vectors having stringently repressible replication origins allow a streamlining of Crispr/Cas9 gene editing
CN108330140A (zh) 一种免筛选原/真核双表达载体及其构建与应用
Lara et al. Design of a synthetic miniR1 plasmid and its production by engineered Escherichia coli
Yip et al. Counter-transcribed RNAs of Rhizobium leguminosarum repABC plasmids exert incompatibility effects only when highly expressed
Wen et al. A CRISPR/dCas9-assisted system to clone toxic genes in Escherichia coli
CN111893130A (zh) 一种pcci-2u质粒及其构建方法和应用
CN112375774A (zh) 一种重组蛋白表达用工程菌株的构建方法
KR102226714B1 (ko) tetA 유전자를 이용한 이중선별에 의한 대장균의 지놈 엔지니어링 방법
JP7487821B2 (ja) 組み換えベクター及び形質転換体
Wen et al. Genome editing of Corynebacterium glutamicum using CRISPR-cpf1 system
Bains et al. Differentially Marked IncP-1β R751 Plasmids for Cloning via Recombineering and Conjugation
WO2023233996A1 (ja) 改変プロモーター、発現ベクター、微生物、物質の生産方法、改変シアノバクテリア及び改変プロモーターの作製方法
JP4565113B2 (ja) 新規なプラスミドpAMI−1及びその誘導体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant