发明内容
本发明要解决的技术问题:针对现有DNA杂交存储技术尚未实现加密功能的问题,提供一种DNA杂交信息存储的加密方法,本发明通过给DNA编码链添加/去除发卡结构的方式分别对编码链进行封闭/激活,实现了DNA杂交存储技术的硬加密。本发明能够有效阻止信息的自由扩散,提高信息安全,促进DNA存储技术的实际应用。
为了解决上述技术问题,本发明采用的技术方案为:一种基于编码链发卡结构特异性移除的DNA杂交信息存储加密方法,包括:
1)将目标信息转换为二进制代码,并分割为众多等长的字段,每个字段对应一个数据单元,包含M个二进制数位;
2)将上述每个字段的M个二进制数位上的1/0值映射为M条DNA编码链的有/无组合,由此得到DNA存储盘上所有数据单元需要添加的编码链列表;
3)依上述列表将各DNA编码链以点样、喷墨或原位合成的方式固定在DNA存储盘表面各数据单元中,即完成目标信息在DNA存储盘上的写入;
4)DNA存储盘信息的读取,是通过编码链与互补荧光探针的杂交实现;杂交后进行荧光检测,以各数据单元中各色荧光的有无来判断对应编码链的有无,由此得到存储盘上所有数据单元中的编码链组合列表,再进一步还原为二进制代码,并最终还原出目标信息;
5)本发明的加密环节在于加密DNA编码链的设计和运用,包含以下步骤:
a.每条DNA寡核苷酸加密编码链(单链)均包含一个核心序列,加密编码链中只有核心序列参与存储信息编码,该序列与杂交检测时与之对应的DNA寡核苷酸探针互补,所有编码链包含的基本序列总数记为M;
b.在核心序列3’端添加一个限制性内切酶识别序列和一段衔接序列,构成发卡上半段;
c.在衔接序列3’端添加一段与发卡上半段反向互补的序列(即发卡下半段),与发卡上半段共同构成部分双链结构(即发卡结构);
d.在核心序列5’末端添加修饰基团,用于与存储盘表面基团进行共价交联;
e.针对M种核心序列中的每一种,均制备N条加密编码链,这N条链发卡结构中所包含的限制性内切酶识别序列各不相同(记为R1、R2、……、RN),所有M×N条加密编码链共同构成编码链库,由信息写入者(发送方)保藏;
f.与加密编码链发卡结构中限制性内切酶识别序列R1-RN对应的所有N种限制性内切酶(记为E1、E2、……、EN)构成内切酶库,由信息接收者保藏;
g.信息写入方式,是将特定的编码链组合以共价交联的形式固定到存储盘表面各数据单元中;信息写入前,从编码链库中随机选取一组覆盖所有核心序列的M条加密编码链,组内编码链的核心序列各不相同,但编码链发卡结构中包含的内切酶识别序列相同(记为Ri);
h.信息发送时,发送者将写有信息的DNA存储盘和相应荧光探针实物递送至接收者,同时将密钥(即正确的Ri信息)通过另一安全途径(如保密电话、密电码等)告知接收者;
i.接收者在进行DNA存储信息杂交读取之前,需先通过密钥信息从内切酶库中选取正确的酶Ei对固定于DNA存储盘表面的加密编码链进行酶切,将发卡结构连接处破坏,再通过加热变性去除发卡下半段,从而暴露出核心序列单链,激活编码链;
6)接收者进行DNA存储信息杂交读取时,将存储盘表面的激活编码链与荧光探针进行杂交(互补配对),并通过荧光检测得到各数据存储单元的杂交信号;若存储盘表面的加密编码链未被激活,则会因编码链发卡结构的存在而阻碍杂交,得不到有效的荧光检测信号;
7)为进一步提高加密编码链的安全性,可在加密编码链的5’末端修饰基团与核心序列之间再添加一段限制性内切酶识别序列组合,并在发卡结构3’末端添加该序列组合的互补链使其部分双链化,组合中的内切酶识别序列均与加密编码链发卡结构上下半段连接处的内切酶识别序列不同;这样,当使用与组合中任一识别序列对应的内切酶(错误密钥)对加密编码链进行处理时,将切除编码链的核心序列而导致存储盘自毁。
优选的,步骤1)中M的取值范围为1-8之间;
优选的,步骤3)中DNA存储盘为一块表面固定有特定化学基团的硬质材料,硬质材料包括但不限于玻璃、硅片、塑料、磁珠等;
优选的,步骤5)a中核心序列长度为8-30个核苷酸;
优选的,步骤5)b和7)中限制性内切酶识别序列或序列串的长度为4-60个核苷酸,衔接序列长度为2-20个核苷酸,且衔接序列与任意核心序列及其互补序列的相似度不得超过50%;
优选的,步骤5)d中DNA5’端修饰基团可包括但不限于氨基、醛基、巯基等; 存储盘基片表面固定的化学基团可包括但不限于氨基、醛基、巯基等;
优选的,步骤5)e中N的取值可达200以上,这是因为目前商业化的II型限制酶有超过200种特异性;
优选的,步骤6)中的杂交温度为25-55摄氏度之间,依寡核苷酸长度和GC含量而调整,所用荧光检测设备为市售酶标仪或生物芯片扫描仪;
和现有技术相比,本发明具有下述优点:
1、本发明实现了现有DNA杂交存储技术之前所不具备的硬加密功能;
2、相比通过信号编解码或软件方式实现加密的技术而言,本发明的硬加密从物理层面阻止了有效检测信号的获取,使第三方无法通过算法暴力破解,安全性更高。
具体实施方式
下文将以写入目标信息“加密”(两个汉字)为例,对本发明DNA信息存储加密方法进行进一步的详细说明。
下文将以写入目标信息“加密”(两个汉字)为例,对本发明DNA信息存储加密方法进行进一步的详细说明。
如图2所示,本实施例DNA信息存储并行寻址写入方法包括:
1)将目标信息即“加密”两个汉字转换为二进制代码,10111100110100111100001111011100并分割为8个字段,每个字段对应一个数据单元,包含4个二进制数位;
2)将上述每个字段的4个二进制数位上的1/0值映射为4条DNA编码链B1、B2、B3、B4的有/无组合;例如,第一个数位上(对应B1)有编码链,则该数位的值为1,反之则为0,由此得到DNA存储盘上所有数据单元需要添加的编码链列表;以上述8个数据单元为例,其对应的编码链组合如下表:
数据单元 |
1011 |
1100 |
1101 |
0011 |
1100 |
0011 |
1101 |
1100 |
编码链组合 |
B1 B3 B4 |
B1 B2 |
B1 B2 B4 |
B3 B4 |
B1 B2 |
B3 B4 |
B1 B2 B4 |
B1 B2 |
3)依上述列表将各DNA编码链以点样方式固定在DNA存储盘表面的8个数据单元微池中,即完成目标信息在DNA存储盘上的写入;
4)DNA存储盘信息的读取,是通过各编码链B1-B4与互补荧光探针R1-R4的杂交实现;杂交后进行荧光检测,以各数据单元中各色荧光的有无来判断对应编码链的有无;例如,杂交后检测得到上述第一个数据单元中没有R2的荧光信号,而有R1、R3、R4的荧光信号,即判断该数据单元的编码链组合为B1 B3 B4,对应的二进制数值为1011。由此,可得到存储盘上所有数据单元中的编码链组合列表,再进一步还原为二进制代码(如下表),
荧光信号 |
R1 R3 R4 |
R1 R2 |
R1 R2 R4 |
R3 R4 |
R1 R2 |
R3 R4 |
R1 R2 R4 |
R1 R2 |
转换编码链 |
B1 B3 B4 |
B1 B2 |
B1 B2 B4 |
B3 B4 |
B1 B2 |
B3 B4 |
B1 B2 B4 |
B1 B2 |
还原代码 |
1011 |
1100 |
1101 |
0011 |
1100 |
0011 |
1101 |
1100 |
并最终还原出目标信息(即两个汉字“加密”);
5)本发明的加密环节在于通过给编码链添加/移除发卡结构的方式对编码链进行加密/解密的设计和运用,如图1所示,包含以下步骤:
a.在本实施例4条DNA寡核苷酸加密编码链(单链)中,每条均包含一个特异性的核心序列(即B1、B2、B3、B4),加密编码链中只有核心序列参与存储信息编码,该序列与杂交检测时与之对应的DNA寡核苷酸探针互补;
b.在核心序列3’端添加一个限制性内切酶识别序列(例如EcoR I 识别序列GAATTC)和一段衔接序列(例如AAAA),构成发卡上半段;
c.在衔接序列3’端添加一段与发卡上半段反向互补的序列(即发卡下半段),与发卡上半段共同构成部分双链结构(即发卡结构);
d.在核心序列5’末端添加修饰基团(例如氨基、羟基、醛基),用于与存储盘表面基团进行共价交联;
e.针对4种核心序列中的每一种,均制备100条加密编码链,这100条链发卡结构中所包含的限制性内切酶识别序列各不相同(记为R1、R2、……、R100),所有400条加密编码链共同构成编码链库,由信息写入者(发送方)保藏;
f.与加密编码链发卡结构中限制性内切酶识别序列R1-R100对应的所有100种限制性内切酶(记为E1、E2、……、E100)构成内切酶库,由信息接收者保藏;
g.信息写入方式,是将特定的编码链组合以共价交联的形式固定到存储盘表面各数据单元中;信息写入前,从400条编码链库中随机选取一组覆盖所有4种核心序列的4条加密编码链,这4条编码链发卡结构中包含的内切酶识别序列相同(记为Ri);
h.信息发送时,发送者将写有信息的DNA存储盘和相应荧光探针实物递送至接收者,同时将密钥(即正确的Ri信息)通过另一安全途径(如保密电话、密电码等)告知接收者;
i.接收者在进行DNA存储信息杂交读取之前,先通过密钥信息从内切酶库中选取正确的酶Ei对固定于DNA存储盘表面的加密编码链进行酶切,将发卡结构连接处破坏,再通过加热变性及洗涤,去除发卡下半段,从而暴露出核心序列单链,激活编码链;
6)接收者进行DNA存储信息杂交读取时,将存储盘表面的激活编码链与荧光探针进行杂交(互补配对),并通过荧光检测得到各数据存储单元的杂交信号;若存储盘表面的加密编码链未被激活,则会因编码链发卡结构的存在而阻碍杂交,得不到有效的荧光检测信号;
7)为进一步提高加密编码链的安全性,可在加密编码链的5’末端修饰基团与核心序列之间再添加一段限制性内切酶识别序列(记为PRF,与其对应的内切酶记为ETF),并在发卡结构3’末端添加该序列组合的互补链使其部分双链化,PRF识别序列与该加密编码链发卡结构上下半段连接处的内切酶识别序列不同;这样,当使用与PRF识别序列对应的内切酶ETF(错误密钥)对加密编码链进行处理时,将切除编码链的核心序列而导致存储盘自毁。
本实施例中,步骤1)中数据单元的数位取值范围为1-8之间;
本实施例中,步骤3)中DNA存储盘为一块表面固定有特定化学基团的硬质材料,硬质材料包括但不限于玻璃、硅片、塑料、磁珠等,其表面的固定的末端化学基团包括但不限于氨基、醛基、巯基等;
本实施例中,步骤4)中不同荧光基团能在荧光检测仪器中被有效区分,可包括但不限于Alexa488、Cy3、Cy5、Cy7等相互间发射波长差异较大的荧光基团组合;
本实施例中,步骤5)a中核心序列长度为8-30个核苷酸;
本实施例中,步骤5)b和7)中限制性内切酶识别序列或序列串的长度为4-60个核苷酸;
本实施例中,步骤5)e中内切酶及其识别序列种类的取值可达200以上,这是因为目前商业化的II型限制酶有超过200种特异性;
本实施例中,步骤5)i中的变性温度为70-100摄氏度之间,依寡核苷酸长度和碱基GC含量而调整;
本实施例中,步骤6)中的杂交温度为25-55摄氏度之间,依寡核苷酸长度和GC含量而调整,所用荧光检测设备为市售酶标仪或生物芯片扫描仪;
综上所述,本实施例实现了现有DNA杂交存储技术之前所不具备的硬加密功能;相比通过信号编解码或软件方式实现加密的技术而言,本发明的硬加密从物理层面阻止了有效检测信号的获取,使第三方无法通过算法暴力破解,安全性更高,具有良好的应用前景。
作为一种优选的实施方式,本实施例中以高分子聚合物或二氧化硅作为存储基材,基材上密布按约定规则排列的数据存储微池,每个数据存储微池为一个信息存储单元。
在具体使用前述DNA信息存储介质时,将特定加密编码链组合以化学交联或原位合成方式固定在存储基片的数据单元(微池)中,完成信息写入;信息读取前,先将存储盘用特定的限制性内切酶处理而激活编码链,再加入与编码链互补的荧光探针混合液,与数据单元微池中对应的编码链进行充分的杂交反应。在杂交反应完成后,进行洗涤和荧光信息读取,并通过信号转换及解码而还原出原始信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。