CN107750361A

CN107750361A - 关系dna操作

Info

Publication number: CN107750361A
Application number: CN201680035799.5A
Authority: CN
Inventors: K·施特劳斯; B·G·佐恩; K·K·甘贾姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-06-16
Filing date: 2016-06-14
Publication date: 2018-03-02
Anticipated expiration: 2036-06-14
Also published as: CN107750361B; EP3311340A1; US9898579B2; WO2016205156A1; US20160371434A1; EP3311340B1

Abstract

一种通过存储在DNA分子中编码的信息而实现的数据库提供了高信息密度，但是信息比常规电子存储介质更难获取。关系数据库是通过使用多个相关表来组织信息的一种方式。在关系数据库上执行关系代数操作，以定位和操纵信息。本公开提供了在使用DNA分子来存储信息的关系数据库上，实现关系代数操作的技术。本公开的技术涉及用于存储信息的DNA分子的结构以及涉及关系代数操作和DNA分子操作之间的相关性。

Description

关系DNA操作

背景技术

脱氧核糖核酸(DNA)的聚合物能够以高密度存储信息。一克DNA含有约10²¹个DNA碱基，其可以编码约10⁸太字节的数据。DNA的信息密度比其他类型的存储介质更紧凑10⁸倍。不到100克的DNA可以存储世界上所有的人造数据。因此，由于其信息密度高，所以DNA作为一种信息存储技术而具有吸引力。在以人类可读的形式呈现之前，由DNA编码的信息首先被转换成可以通过数字计算技术处理的格式。无论何时检索信息，将整个DNA数字数据存储装置转换成电子格式都可能效率低下，并且使得将信息存储为DNA的优点无效。标识包含感兴趣信息的特定DNA分子的技术减少了被转换成电子格式的信息量，并且可以提高DNA作为信息存储介质的可用性。

发明内容

提供本发明内容是为了以简化形式介绍下文将在具体实施方式中进一步描述的概念的选择。本发明内容部分不是旨在标识所要求保护的主题的关键特征或必要特征，也不是旨在用于限制所要求保护的主题的范围。

本公开提供了操纵用于将信息存储在被组织为关系数据库的DNA数字数据存储装置中的DNA分子的技术。这些技术与在以电子方式存储信息的常规关系数据库上执行的关系代数操作相对应。在根据这些技术的操纵之后的DNA分子可以被测序，以将由DNA编码的信息转化成电子形式，以供进一步处理和使用。

与数据库管理系统(DBMS)对接的数字计算机可以接收指定DNA数字数据存储装置中的一个或多个表的一个或多个关系代数操作。该表可以由在包含来自该表的信息的DNA分子中编码的表ID序列而指定。数字计算机还可以标识与关系代数操作相对应的DNA操作。DNA操作可以包括：将互补DNA序列与表ID序列的至少部分混合。执行DNA操纵的指令被发送到DNA数字数据存储装置，以供由DBMS在DNA数字数据存储装置的DNA上实现。在DNA数字数据存储装置实现指令之后，数字计算机可以从DNA数字数据存储装置接收DNA序列。

附图说明

参照附图对具体实施方式进行阐述。在这些图中，附图标记的最左边的一个或多个数字标识附图标记首次出现在其中的附图。在不同的图中使用相同的附图标记表示相似或相同的项目。

图1示出了用于在数字计算机和DNA数字数据存储装置之间对接的说明性体系架构。

图2示出了用于操作DNA数字数据存储装置的说明性过程。

图3示出了用于与DNA数字数据存储装置交互的说明性过程。

图4示出了可用于DNA数字数据存储的DNA分子上的信息区域的说明性配置。

图5A和图5B示出了合成DNA分子的技术。

图6A和图6B示出了互补DNA分子的混合和变性。

图7A和图7B示出了从牢固支持物上附加和分离DNA分子。

图8示出了清洗包含具有不同序列的DNA分子的腔室，以移除未连接至牢固支持物的DNA分子。

图9示出了用于从DNA分子中移除未知DNA区域的技术。

图10示出了用于利用不同DNA序列替换已知DNA区域的技术。

图11示出了用于通过形成发夹环来标识包括相同序列的DNA分子的技术。

具体实施方式

被组织为关系数据库的DNA数字数据存储装置利用了由DNA提供的高信息密度的优点，并且使用关系数据库的概念组织结构。用于与在常规电子存储介质中实现的关系数据库交互的关系代数操作还可以与DNA数字数据存储装置一起使用。然而，对DNA分子实现关系数据库操作要求当利用电子数据库工作时，不需要的分子生物学技术。本公开提供了用于在关系数据库上实现关系代数操作的技术，该关系数据库使用DNA分子来存储信息。本公开的技术涉及被用于存储信息的DNA分子的结构以及关系代数操作和DNA分子的操纵之间的相关性。

关系数据库是根据具有行和列的表的隐喻组织所存储的信息的数据库。表在这个意义上被称为关系：它是每个都由表中的行表示的相同类型的实体或对象(例如，企业的雇员)的集合。表的每行(也被称为记录或元组)由唯一关键字表示，该关键字可以是描述性名称或唯一标识该行的任一数字和/或字母序列。字段(也被称为属性)被存储在一个表中，并且跨多个列而共享。行(例如，名为Smith的雇员)与列(例如，电话号码)的相交提供条目的字段值(例如，Smith的电话号码为867-5309)。表中的数据可以根据公共关键字或概念相关，并且从表集合中检索相关数据的能力是术语关系数据库的基础。关系数据库内的表之间的关系对于访问和操纵被存储在数据库中的信息是有用的。关系代数为关系数据库的管理提供了理论基础。关系代数包括许多基本或“原语”操作，从这些基本或“原语”操作中可以导出更复杂的操作。

尽管许多关系数据库当前被实现为可由数字计算机直接访问的电子记录，但是不要求以电子方式实现关系数据库。编码指令细胞机器如何构建蛋白质的生物信息的DNA也可以用作人类生成的信息的数据存储技术。DNA的人工合成允许利用任意系列的碱基胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T)和非标准碱基(诸如合成碱基)创建DNA分子。这四个碱基的各个单体以其被一起拼接成聚合物的顺序可以在数字计算机中以类似于0和1的方式表示信息。因此，可以利用四个DNA碱基的特定顺序来合成多个DNA分子并且编码大量信息。

当DNA被存储在液体溶液中时，DNA分子通常最容易通生物技术技术进行操纵。因此，DNA数字数据存储装置可以被实现为充满液体(在许多实现方式中为充满水以及数千、数百万或更多的单个DNA分子)的腔室。在许多实现方式中，通过测序获取由DNA分子编码的信息。测序使用机器、测序仪以读取在给定DNA分子中DNA碱基的顺序。测序器提供电子格式的输出，其可以由常规数字计算机操纵。人类用户通常会通过使用数字计算机，与DNA数字数据存储装置中包含的信息进行交互。向DNA数字数据存储装置添加新信息、对DNA数字数据存储装置进行查询、将信息改变为DNA数字数据存储装置以及其他类型的交互可以在数字计算机的用户接口处启动、可以部分或完全通过操纵溶液中的实际DNA分子来实现、并且可以导致通过测序某些DNA分子而生成的结果。

因此，在关系数据库上执行的关系代数操作是通过执行操纵DNA分子以便按照对应关系代数操作来访问信息的特定DNA操纵，而在DNA数字数据存储装置上被实现。对于一些关系代数操作，一旦DNA序列编码的信息被转换成电子形式，则DNA操纵可能不够充分并且将通过附加计算来补充。因此，对DNA执行的操纵可以用来标识和隔离来自存储在DNA数字数据存储装置中的大量分子中的DNA分子子集。一旦被隔离，这种数目减少的DNA分子的测序和电子形式的信息的后续处理变得比处理给定DNA数字数据存储装置中的所有DNA分子更有效。

关系代数操作包括选择、投影、相交、重命名、自然连接和笛卡尔乘积。这些操作都在下文进行讨论。作为应用于信息的代数或数学操作，关系代数操作无论是对电子信息还是对以另一种格式(诸如DNA)存储的信息都是相同的。编程语言(诸如结构化查询语言(SQL))通过对电子存储的信息实现关系代数操作，来管理关系数据库。还可以使用SQL来描述在DNA域上实现的操作。

选择是只有一个输入的操作，该输入被写为：其中是命题公式，其由不能进一步约简的简单公式和逻辑运算符∧(与)、∨(或)和(非)组成。这个选择选择在R中成立的所有的那些行。为了获取地址本中所有朋友或商业伙伴的列表，可以将选择写为σ_isFriend＝true∨isBusinessContact＝_true(addressBook)。结果可能是包含每个唯一记录的每个属性的关系，其中isFriend为真或isBusinessContact为真。

投影是只有一个输入的操作，该输入被写为Πa₁,...,a_n(R)，其中a₁，...，a_n是属性名称集合。这样投影的结果被定义为当R中的所有行都被约束到集合{a₁,...,a_n}时所获取的集合。这指定了要检索的列的特定子集(每行的属性)。为了从地址本中获取姓名和电话号码，投影可能被写为Π_{contactName,contactPhoneNumber}(addressBook)。该投影的结果可能是表，其只包含addressBook中每个唯一条目的contactName和contactPhoneNumber属性。

相交是产生两个或更多关系(即，表)共同共享的行集合的操作。关系R和S之间的相交操作被写为R∩S，并且返回R和S两者中都存在的行。相交是关联操作，其可以应用于两个以上的表。例如，为了查找朋友表和商业联系人表中存在的记录，∩_{isFriend/isBusinessContact}(addressBook)可以用来返回这两个表中都存在的那些行。

重命名是只有一个输入的操作，该输入被写为ρ_a/b(R)，其中除了所有行中的b属性被重命名为a属性之外，结果与R相同。这只是用来重命名表的属性或重命名表本身。为了在关系中将“isFriend”属性重命名为“isBusinessContact”，可以使用ρ_{isBusinessContact/isFriend}(addressBook)。

自然连接是二元运算符，其被写为其中R和S是关系。自然连接的结果是R和S中行的所有组合的集合，它们的公共属性名称相同。自然连接可以说是最重要操作符中的一个操作符，这是因为它是逻辑AND的关系对应物。更正式地，自然连接的语义被定义如下：其中Fun是谓词，其当且仅当它对于关系s是真时，才对于表R是真。其中对于元组t和s，f(t,s)为真。通常要求R和S必须至少有一个公共属性。

笛卡尔乘积是连接两个表的操作，而不受任何准则的约束，从而导致第一表的每一行与第二表的每一行匹配。在数学中，笛卡尔积是数学运算，其从多个集合中返回一个集合(或乘积集合或简单的就一个乘积)。也就是说，对于集合A和B，笛卡尔乘积A×B是所有有序对(a，b)的集合，其中a∈A和b∈B。乘积可以使用集合构建器符号来指定。A×B＝{(a，b)|a∈A和b∈B}。

上文所描述的关系代数原语可以通过在DNA上执行某些分子生物学技术而在构成关系DNA数字数据存储装置的DNA分子上实现，这些分子生物学技术在本文中被称为DNA操纵原语。

图1示出了用于实现DNA数字数据存储装置并且与其交互的说明性体系架构100。用户102与数字计算机104交互，以向DNA DBMS提供指令并且从DNA数字数据存储装置接收信息。如本文中所使用的，“数字计算机”意指计算设备，其包括至少一个硬件微处理器和能够存储二进制格式的信息的存储器。数字计算机104可以是台式计算机、笔记本电脑、平板电脑、游戏机、移动计算机、智能手机等。数字计算机104可以包括一个或多个输入/输出部件，诸如键盘、指向设备、触摸屏、麦克风、相机、显示器、扬声器、打印机等。

数字计算机104的存储器可以包括可移除存储装置、不可移除存储装置、本地存储装置和/或远程存储装置，以提供对计算机可读指令、数据结构、程序模块和其他数据的存储。存储器可以被实现为计算机可读介质。计算机可读介质至少包括两种类型的介质，即，计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术而实现的易失性和非易失性介质、可移除和不可移除介质。计算机可读存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或者可以用于存储信息以供计算设备访问的任何其他非传输介质。

相比之下，通信介质可以在诸如载波或其他传输机构之类的经调制的数据信号中实现计算机可读指令、数据结构、程序模块或其他数据。如本文中所定义的，计算机可读存储介质和通信介质是相互排斥的。

数字计算机104可以包括与用于与完全以电子形式存储的常规关系数据库进行交互的用户接口相类似的用户接口。在一个实现方式中，通信网络106为数字计算机104、一个或多个网络计算机108和操纵DNA数字数据存储装置中的DNA分子的自动化系统110之间的信息提供通信路径。一个或多个网络计算机108可以是服务器计算机、诸如服务器群之类的服务器计算机的集合、使用处理能力的云计算系统、存储器以及分布在多个地理位置的其他硬件资源等。网络106可以被实现为任何类型的通信网络，诸如局域网、广域网、网状网络、自组织网络、对等网络、因特网、有线网络、电话网络等。在一个实现方式中，数字计算机104可以直接连接到自动化系统110，而不存在中间网络。直接连接可以被实现为有线连接或无线连接。有线连接可以包括将数字计算机104物理连接到自动化系统110的一个或多个电线或电缆。例如，有线连接可以由耳机电缆、电话电缆、SCSI电缆、USB电缆、以太网电缆等来创建。无线连接可以通过射频(例如，蓝牙、ANT、Wi-Fi IEEE 802.11等的任何版本)、红外光等来创建。

自动化系统110可以由连接到网络106或直接连接到数字计算机104的控制器112而控制。控制器112接收用于操纵DNA分子的一系列指令。这些指令可以与一个或多个关系代数操作相对应。数字计算机104和/或网络计算机108可以(例如，从用户102或另一计算机)接收关系代数操作，并且将关系代数操作转换成用于操纵DNA分子的一系列指令。控制器112可以将指令序列传送给包括自动化系统110的特定硬件和设备。

在一个实现方式中，自动化系统110是微流体系统。微流体学是跨学科领域，其与工程、物理、化学、生物化学、纳米技术和生物技术交叉，并具有设计可以处理少量流体系统的实际应用。通常，流体被移动、混合、分离或以其他方式处理。许多应用采用被动流体控制技术，比如毛细管力。在一些应用中，外部致动附加地被用来定向传送介质。外部致动的示例包括旋转驱动，其施加离心力以用于无源芯片上的流体传送。主动微流体是指通过诸如微型泵或微型阀之类的主动(微型)部件对工作流体的定义的操纵。微型泵以连续方式供应流体或微型泵被用于配量。微型阀确定泵送液体的流动方向或移动模式。通常，在实验室中正在进行的过程在单个芯片上被小型化，以增强效率和移动性并且减少样本和试剂的体积。如本文中所使用的，自动化系统110包括用于操纵DNA的其他设备。例如，寡核苷酸合成仪、DNA测序仪、流式细胞仪等也可以是自动化系统110的部分。寡核苷酸合成仪可以被配置成合成与存在于DNA数字数据存储装置的DNA分子116中的一个DNA分子的全部或部分互补的DNA分子。DNA测序仪可以被配置成对DNA分子116中的一个DNA分子的全部或部分进行测序，并且向数字计算机104提供该序列。

如本文中所使用的术语“寡核苷酸”被定义为包含两个或更多核苷酸的分子。寡核苷酸包括探针和引物。用作探针或引物的寡核苷酸还可以包括核苷酸类似物，诸如硫代磷酸酯、硫代磷酸烷基酯、肽核酸或嵌入剂。为了积极地影响诸如混合动力学、混合形成的可逆性、寡核苷酸分子的稳定性等特点，引入这些修饰可能是有利的。

自动化系统110包括结构，诸如容纳DNA分子116的至少一个腔室114。DNA分子116可以以液体悬浮液、玻璃状(或玻璃体)状态、作为冻干产物或其他格式存在。诸如腔室114之类的结构可以被实现为将包括DNA的一定体积的液体保持到物理位置的任何类型的机械、生物或化学布置。例如，具有液滴存在于其上的单个平坦表面是腔室114的一种实现方式，其中即使未完全封闭在容器内，液滴也部分地由液体的表面张力保持。存在于腔室114中以及存在于DNA数字数据存储装置中的DNA116可以是单链DNA(ssDNA)、双链DNA(dsDNA)或其组合。

自动化系统110可以在DNA数字数据存储装置和/或所选的DNA分子上执行许多类型的操纵。自动化系统110可以被称为DNA DBMS。例如，自动化系统110可以被配置成响应于来自控制器112的一系列指令，将一定体积的液体从腔室114移动到另一腔室。一种类型的操纵是样本划分。许多方法可以用来将样本划分成离散分区(例如，液滴)。划分方法和系统的示例包括使用乳化、液滴致动、微流体平台、连续流动微流体、试剂固定及其组合中的一种或多种。在一些实施例中，执行划分以将样本划分成足够数目的分区，以使得每个分区含有一个或零个核酸分子。在一些实施例中，分区的数目和大小是基于大块样本的浓度和体积。

将大块体积划分成分区的微流体系统和方法包括乳化、“油包水”液滴的生成、单分散小滴的生成以及使用通道、阀门和泵。划分方法可以通过液滴操纵技术来增强，这些液滴操纵技术包括电学(例如，静电致动、介电泳)、磁性、热力(例如，热马朗戈尼效应、热毛细)、机械(例如，表面声波、微泵、蠕动)、光学(例如，光电润湿、光镊)和化学手段(例如，化学梯度)。在一些实施例中，液滴微致动器补充有微流体平台(例如，连续流动部件)。微流体系统的一些实现方式使用液滴微致动器。微滴微致动器能够实现微滴操纵和/或操作(诸如分配、分裂、传送、合并、混合、搅拌等)。

DNA分子副本数目的扩大是可以由自动化系统110执行的操作的附加示例。几种方法中的任一种方法可以被用来扩大来自样本的靶核酸。通常指靶核酸的副本数目的“指数”增加的术语“扩大”在本文中被用来描述核酸的选择靶序列数目的线性和指数两者的增加。术语“扩大反应混合物”是指包括被用于扩大靶核酸的各种试剂的水溶液。这些包括酶，其包括聚合酶和热稳定聚合酶，诸如DNA聚合酶、RNA聚合酶和逆转录酶、水性缓冲液、盐、扩大引物、靶核酸和核苷三磷酸酯。根据上下文，混合物可以是完全的或不完全的扩大反应混合物。用于扩大靶核酸的方法可以是本领域技术人员可用的任何方法。可以利用用于增殖核酸的靶序列的副本的任何体外手段。这些包括线性、对数或任何其他放大方法。说明性方法包括聚合酶链式反应(PCR)、等温过程(使用一种或多种RNA聚合酶、链置换、引物分子的部分破坏)、连接酶链式反应(LCR)、QβRNA复制酶系统、基于RNA转录的系统(如，TAS、3SR)、滚环扩大(RCA)以及链置换扩大(SDA)等。如本领域技术人员将理解的，许多系统适用于扩大靶核酸。

多种PCR技术是已知的并且可以被用于本文中所描述的测定中。通常使用PCR技术来扩大寡核苷酸的至少部分。将要测试存在分析物特异性序列的样本与第一寡核苷酸引物和第二寡核苷酸引物、核酸聚合酶、以及与要在PCR期间添加的核苷酸相对应的三磷酸核苷酸相接触。天然碱基三磷酸核苷酸包括dATP、dCTP、dGTP、dTTP以及dUTP。如果期望的或者需要的，则还可以添加非标准碱基的三磷酸核苷。用于PCR的合适的聚合酶是已知的，并且包括例如热稳定性聚合酶，诸如栖热菌种(包括但不限于水生栖热菌(Thermus aquaticus)(Taq)、黄栖热菌(Thermus flavus)(Tfl)和嗜热栖热菌(Thermus thermophilus))的天然聚合酶和更改的聚合酶、以及DNA聚合酶I和HIV-1聚合酶的Klenow片段。

附加类型的PCR是Droplet Digital^TM PCR(ddPCR^TM)(Bio-Rad Laboratories，Hercules，CA)。ddPCR技术使用微流体和表面活性剂化学的组合，将PCR样本划分成油包水液滴。液滴支持它们包含的靶模板分子的PCR扩大，并且使用与用于大多数标准的基于Taqman探针的测定相似的试剂和工作流程。在PCR之后，每个液滴在流式细胞仪中被分析或读取，以确定原始样本中部分PCR阳性液滴。然后，使用泊松统计分析这些数据以确定原始样本中的目标浓度。参见Bio-Rad Droplet Digital^TM(ddPCR ^TM)PCR技术。

尽管ddPCR^TM是一种spdPCR方法，但是还可以使用基于相同基本原理的其他样本分区PCR方法。样本的划分的核酸可以通过可以在spdPCR内实践的任何合适的PCR方法论来扩大。说明性PCR类型包括等位基因特异性PCR、拼接PCR、不对称PCR、终点PCR、热启动PCR、原位PCR、序列间特异性PCR、反向PCR、线性指数PCR、连接介导PCR、甲基化特异性PCR、微型引物PCR、多重连接依赖性探针扩大、多重PCR、嵌套PCR、重叠延伸PCR、聚合酶循环拼接、定性PCR、定量PCR、实时PCR、单细胞PCR、固相PCR，热不对称交错PCR、降落PCR、通用快速步移PCR等。还可以使用连接酶链式反应(LCR)。

自动化系统110可以执行技术，来确定DNA数字数据存储装置中是否存在给定序列，而无需测序。用于确定在DNA数字数据存储装置中是否存在给定序列的技术包括原位混合(ISH)、分子信标、基于核酸序列的扩大(NASBA)、链置换扩大(SDA)、环介导的扩大(LAMP)、侵入物测定，滚环扩大(RCA)、重组酶聚合酶扩大(RPA)、切口核酸内切酶信号扩大(NESA)/切口核酸内切酶辅助纳米粒子活化(NEANA)、外切核酸酶III辅助靶回收方法、接合或Y探针、基于酶活性的再激活的催化信标、信标引导的化学反应和非共价DNA催化反应、混合链式反应(HCR)，上述这些方法中每一个都是本领域普通技术人员所熟知的。

许多这样的技术使用荧光标记的探针，该探针产生可检测的信号，其中该探针与同源DNA混合。说明性类型的探针技术包括荧光能量转移、荧光共振能量转移、接触淬灭、荧光核酸混合探针、相邻探针、5'-核酸酶探针、分子信标探针、链置换探针以及普通技术人员所理解的其他类型的探针技术。因此，可以确定给定表ID、字段ID、数据值等的存在，而不需要在数字计算机上进行排序和分析。存在多种类型的荧光探针，使得可以诸如例如通过使用第一有色荧光探针来查询表ID并且使用第二有色荧光探针来查询字段ID而同时查询多个不同的匹配DNA序列的DNA数字数据存储装置。由荧光探针生成的信号的强度还可以用于近似DNA数字数据存储装置中匹配的数目，以确定例如第一数据值(例如，姓氏＝Smith)比第二数据值(例如，姓氏＝Jones)更常见还是更不常见。

网络计算机108可以提供数据库管理软件，其生成用于在数字计算机104上显示的用户接口。在该实现方式中，电子信息的大部分或全部处理可以由网络计算机108执行，并且数字计算机104可以用作仅向用户102提供输出设备和输入设备功能的瘦客户端或终端。在一个实现方式中，数字计算机104和/或网络计算机108可以维护关系数据库操作和DNA操纵原语之间的对应关系。在接收到执行一个或多个关系数据库操作的指令时，网络计算机108可以将那些操作转换成被传递到控制器112的一系列DNA操纵原语。在一个实现方式中，网络计算机108可以被省略，它们的功能中的所有或一些可以由数字计算机104来执行。

说明性过程

为了便于理解，在本公开中讨论的过程被描述为被表示为独立框的独立操作。然而，这些单独描述的操作不应该被解释为其执行必须依顺序而定。描述过程的顺序不旨在被解释为限制性的，并且任何数目的所描述的过程框可以以任何顺序组合，以实现该过程或备选过程。此外，所提供的操作中的一个或多个还可以被修改或省略。

图2示出了用于与DNA数字数据存储装置交互的过程200。过程200可以由图1所示的体系架构100来实现。

在202，将合成的DNA放置到DNA数字数据存储装置中。DNA分子的序列可以被专门设计成用于存储和组织信息。然后，可以根据这种设计合成DNA分子。本领域普通技术人员可以选择用于寡核苷酸合成的适当技术和技巧，以产生具有任意和预先设计的序列的DNA分子。合成DNA可以产生数千或数百万或更多的单个分子，每个分子在DNA数字数据存储装置内编码信息。在一个实现方式中，每个分子表示表的行。构成给定DNA数字数据存储装置的所有分子可以被放置在相同的腔室中。可替代地，DNA数字数据存储装置可以物理地分成多个腔室。将DNA数字数据存储装置分成多个腔室的一种布置是将与每个单独的表相对应的DNA分子放置在单独腔室中。尽管在一些示例中，DNA数字数据存储装置被讨论为仅包含一个表，但是应当理解，在不改变本文中所描述原理的情况下，DNA数字数据存储装置还可以包括多个表。

在204，根据DNA操纵原语，来操纵DNA数字数据存储装置中的DNA。在一个实现方式中，DNA可以以第一形式(例如，干燥、冻干等)存储，然后在操纵之前被换换成第二形式(例如，水溶液)。在实现方式中，可以通过PCR或其他技术复制一些或全部DNA分子。复制的DNA分子的一个副本集合可以被返回到第一形式用于存储，复制的DNA分子的另一副本可以被用作DNA操作原语的靶。如下文所详细描述的，DNA操纵原语可以包括诸如以下各项：根据DNA分子的特点，将来自腔室的DNA分成两个单独腔室，执行PCR以扩大DNA分子的选定部分，将来自单独的腔室的DNA分子组合成单个腔室等。网络计算机108和/或数字计算机104可以将DNA操纵原语提供给控制器112。

在206，从DNA数字数据存储装置获取由204处DNA操纵产生的DNA。该DNA表示DNA分子，其在DNA数字数据存储装置中通过在204处执行DNA操纵原语而被标识。使用DNA操作原语可以在DNA数字数据存储装置上执行部分或全部关系代数操作。为了完全实现关系代数操作，通过限制需要分析的DNA分子的数目，被测序的DNA的长度更短，并且使得在电子形式的信息上发生的任何进一步处理更加有效，这是因为必须处理的信息数量已经通过DNA操纵而得以减少。附加地，操纵作为DNA的DNA，而非首先转换成电子信息然后操纵，可以利用诸如大规模并行之类的DNA计算的特性的优点。还可以在分类DNA分子之前，并行执行DNA测序。如果需要分类，则可以由序列输出上的数字计算机执行。

在208，对在206获取的DNA进行测序。可以使用本领域技术人员已知的用于测序核酸的任何技术。DNA测序技术包括使用标记的终止子或引物的经典双脱氧测序反应(Sanger方法)以及平板或毛细管电泳中的凝胶分离。在一个实现方式中，下一代(NextGen)测序平台有利地被用于本发明的实践中。NextGen测序是指能够高吞吐量，同时对大量样本进行多重测序的若干个经典Sanger型测序方法中的任一种方法。当前NextGen测序平台能够在相同的测序运行中从多个不同核酸生成读取。吞吐量是变化的，其中每次运行1亿个碱基至600千兆个碱基，并且由于技术的改善所以吞吐量也在迅速增加。不同的NextGen测序平台的操作原理也不相同，并且该操作原理可以包括：使用可逆终止的标记的核苷酸的合成测序，焦磷酸测序，454测序，与标记的寡核苷酸探针库的等位基因特异性混合，使用与标记的克隆库的等位基因特异性混合随后连接的合成测序，标记的核苷酸在聚合步骤期间的掺入的实时监测，聚合酶克隆测序，单分子实时测序，纳米孔测序和SOLiD测序。

454测序涉及两个步骤。在第一步骤中，DNA被剪切成大约300个至800个碱基对的片段，并且片段被平端化。然后，寡核苷酸衔接头被连接到片段的末端。衔接头充当用于片段的扩大和测序的引物。片段可以使用例如包含5'-生物素标签的衔接头B被附加到DNA捕获珠子(例如，链霉亲和素包被的珠子)。附加到珠子的片段在油包水乳剂液滴内被PCR扩大。结果是在每个珠子上克隆扩大的DNA片段的多个副本。在第二步骤中，珠子被捕获在孔中(皮升大小的)。焦磷酸测序在每个DNA片段被并行地执行。添加一个或多个核苷酸生成光信号，该信号由测序仪器中的CCD相机记录。信号强度与所掺入的核苷酸的数目成比例。焦磷酸测序利用在核苷酸添加时所释放的焦磷酸(PPi)。PPi在腺苷5'磷酸硫酸酯的存在下，通过ATP硫酸化酶而被转换成ATP。萤光素酶使用ATP将萤光素转换成氧化萤光素，并且该反应生成被检测和分析的光。

可以使用的测序技术是Helicos针单分子测序(tSMS)。在tSMS技术中，DNA样本被裂解成大约100个至200个核苷酸的链，并且polyA序列被添加到每条DNA链的3’-末端。每条链通过添加荧光标记的腺苷核苷酸而进行标记。然后，DNA链被混合到流动细胞，该流动细胞包含数百万个固定在流动细胞表面的寡聚-T捕获位点。模板的密度可以为约1亿模板/cm²。然后，流动细胞被加载到仪器中(例如，HeliScope^TM测序仪)，并且激光照射流动细胞的表面，从而显露每个模板的位置。CCD相机可以映射流动细胞表面上模板的位置。然后，模板荧光标签被裂解并且洗掉。测序反应通过引入DNA聚合酶和荧光标记的核苷酸而开始。寡核-T核酸用作引物。聚合酶以模板引导的方式，将标记的核苷酸掺入到引物。聚合酶和未掺入的核苷酸被移除。通过对流动细胞表面进行成像，来检测已经引导掺入荧光标记的核苷酸的模板。在成像之后，裂解步骤移除荧光标记，并且用其他荧光标记的核苷酸重复该过程，直到达到所需的读取长度为止。通过每个核苷酸添加步骤收集序列信息。

可以使用的DNA测序技术的另一示例是SOLiD技术(Applied Biosystems)。在SOLiD测序中，基因组DNA被剪切成片段，并且衔接头被附加到片段的5'-末端和3'-末端以生成片段库。可替代地，内部衔接头可以通过以下各项来引入：将衔接头连接到片段的5'-末端和3'-末端，使片段环化，消化环化的片段以生成内部衔接头，以及将衔接头附加到所得片段的5'-末端和3'-末端来生成配对库。接下来，在含有珠子、引物、模板和PCR组分的微反应器中制备克隆珠子群体。在PCR之后，模板被变性，并且珠子被富集以利用延伸模板分离珠子。所选珠子上的模板经历3'修饰，其准许粘合到载玻片上。

可以使用的测序技术的另一示例是SOLEXA测序(Illumina)。SOLEXA测序是基于使用折返PCR和锚定引物在固体表面上的扩大DNA。基因组DNA被片段化，并且衔接头被添加到片段的5'-末端和3'-末端。附加到流动细胞通道的表面的DNA片段被延伸并且进行桥接扩大。片段变成双链，并且双链分子被变性。跟随有变性的固相扩大的多个循环可以在流动细胞的每个通道中产生相同模板的单链DNA分子的几百万个簇的大约1,000个副本。引物、DNA聚合酶和四个荧光团标记的可逆终止的核苷酸被用来执行序列测序。在核苷酸掺入之后，激光被用来激发荧光团，并且图像被捕获并且第一碱基的标识被记录。来自每个掺入的碱基的3'终止子和荧光团被移除，并且重复掺入、检测和鉴定步骤。

可以使用的测序技术的另一示例包括Pacific Biosciences的单分子实时(SMRT^TM)技术。在SMRT中，四个DNA碱基中的每个均附加到四个不同荧光染料中的一个荧光染料上。这些染料被磷酸化。单个DNA聚合酶利用模板单链DNA的单个分子固定在零模式波导(ZMW)的底部处。ZMW是限制结构，其使得能够观察到通过DNA聚合酶掺入的单个核苷酸对在ZMW外部快速(以微秒为单位)扩散的荧光核苷酸的背景的影响。将核苷酸掺入到正在生长的链中花费几毫秒时间。在该时间期间，荧光标签被激发并且产生荧光信号，并且荧光标记物被切除。染料的对应荧光的检测指示掺入哪个碱基。重复这个过程。

可以使用的测序技术的另一示例是纳米孔测序。纳米孔是直径为1纳米的小孔。纳米孔浸没在导电流体中，并且在其两端施加电势导致由于离子通过纳米孔的传导而产生少量电流。流动的电流量对纳米孔的尺寸敏感。在DNA分子穿过纳米孔时，DNA分子上的每个核苷酸都会以不同程度阻塞纳米孔。因此，在DNA分子穿过纳米孔时，经过纳米孔的电流的改变表示DNA序列的读数。

可以使用的测序技术的另一示例涉及使用化学敏感的场效应晶体管(chemFET)阵列对DNA进行测序。在该技术的一个示例中，DNA分子可以被放置到反应腔室中，并且模板分子可以被混合到粘合到聚合酶的测序引物。在测序引物的3'端将一个或多个三磷酸掺入到新核酸链中可以通过chemFET的电流改变而被检测。阵列可以有多个chemFET传感器。在另一示例中，单个核酸可以被附加到珠子上，并且可以在珠子上扩大核酸，并且可以将单个珠子转移到chemFET阵列上的各个反应腔室，其中每个腔室具有chemFET传感器，并且核酸可以被测序。

可以使用的测序技术的另一示例涉及使用电子显微镜。在该技术的一个示例中，使用金属标签标记各个DNA分子，该金属标签是使用电子显微镜而可区分的。然后，这些分子在平坦表面上被拉伸并且使用电子显微镜被成像，以测量序列。

通过排序生成的电子信息可以从系统110被发送到网络计算机108和/或数字计算机104，以用于数字形式的进一步处理，并且还用于在用户接口上呈现给用户102。

图3示出了用于与DNA数字数据存储装置交互的过程300。该过程300可以通过图1所示的数字计算机104、网络计算机108和控制器112的任何组合来实现。

在302，接收指明关系数据库中的表的关系代数操作。该表由表ID序列指定。表ID序列是DNA链中的DNA序列，其唯一标识关系数据库中的表。具体而言，表ID序列是提供唯一标识符的一系列DNA碱基。属于给定表的每条DNA链可以用相同表ID标记。当被实现为DNA数字数据存储装置时包含许多表的关系数据库将包含与多个不同表中的相应表相关联的多个DNA分子。DNA分子中的每个DNA分子可以包括表ID序列，该表ID序列标识与在该特定DNA分子中编码的信息相关联的表。

在304，标识与关系代数操作相对应的DNA操纵。DNA操纵包括：将互补DNA序列与包括在DNA链中的表ID序列的至少部分混合。其他DNA操纵包括：将DNA添加到腔室，移动来自腔室的DNA，将来自两个或更多单独腔室的DNA组合为单个腔室中，将DNA分子附加到牢固支持物上，从牢固支持物移除DNA分子，合成DNA，对DNA进行测序，扩大已知DNA序列，移除已知序列侧翼的DNA区域，用另一DNA序列取代部分预定义的DNA。这些操纵可以手动执行或通过机械化技术(诸如自动化系统110)来执行。

在306，确定互补DNA序列的可用性。

如果互补DNA序列尚不可用，则过程300进行到308，并且合成与表ID序列互补的DNA序列。该互补序列可以通过本领域技术人员已知的任何技术来合成。一旦互补DNA序列可用，可以用它来查询DNA数字数据存储装置，以标识包括表ID序列的所有DNA分子。响应于来自数字计算机的指令而合成互补序列可能由于生成新DNA序列所需的时间而导致延迟。然而，因为对生成的序列没有约束，所以这种技术提供了灵活性。

可替代地，在310，确定与表ID序列互补的DNA序列是预合成的并且其可用于查询DNA数字数据存储装置。预合成的DNA分子可以被存储在单独的腔室中、附加于牢固支持物(诸如基因芯片)或以某种其他格式获取。DNA分子可以被预合成，这是因为它们被用于先前查询，它们可以被预合成为DNA数字数据存储装置的创建的部分，或者由于另一原因而被预合成。已经预合成了哪些分子的记录可以以电子形式存储，以使数字计算机104和/或网络计算机108可以容易地搜索可用的经预先测序的DNA分子。如果确定用于表ID序列的互补序列由于预合成而已经存在，所以现有分子可以被用来查询DNA数字数据存储装置，而不用等待新的DNA分子被合成。这种技术具有提高速度的优点，但仅限于那些已经预合成的DNA分子。

在312，执行DNA操纵的指令被发送到实现对DNA数字数据存储装置的操纵的自动化系统110。在一个实现方式中，一些或全部指令可以从DBMS发送到控制器，该控制器控制作用于DNA数字数据存储装置上的自动化系统。在一个实现方式中，可以通过与设备一起工作的人类操作员来实现一些或全部DNA操纵以实现DNA操纵。多个操作可以组合起来以创建一个(或几个)DNA操纵。针对DNA操纵而执行的操作顺序可以被改变和优化。

在314，标识由DNA数字数据存储装置上的DNA操纵而产生的DNA分子。例如，可以通过使用DNA分子的物理特性将它们分成与DNA数字数据存储装置中的其他DNA分子分开的腔室，来标识DNA分子。可以基于在310执行的DNA操纵来标识DNA分子。所标识的DNA分子可以表示对与在302接收到的关系代数操作有关的信息进行编码的那些DNA分子。

在316，从DBMS接收DNA序列。DNA序列可以由DNA测序仪生成。DNA序列是诸如电子文件的电子数据，其包含一系列DNA碱基的表示，诸如字母A、G、C和T。在一个实现方式中，该DNA序列可以仅包括在312标识的DNA分子的序列，因此节省了对来自DNA数字数据存储装置的DNA分子的更大部分进行排序的时间和精力。电子文件可以被提供给数字计算机104和/或网络计算机108。包含在电子文件中的信息可以被进一步处理以完全实现关系代数操作。附加地或可替代地，来自电子文件的信息可以被转换成用于在用户接口上再现并且呈现给用户的不同格式。例如，DNA碱基序列被转换成在数字计算机104的用户接口上呈现给用户102的一段英语文本。说明性DNA分子

图4示出了可能存在于DNA数字数据存储装置中的DNA分子的两种示例配置。示意图400图示了具有多个区域的ssDNA的一段。ssDNA可以作为单链分子存在于DNA数字数据存储装置中，或者可以与互补的ssDNA分子混合以形成dsDNA。5'-末端序列402位于ssDNA分子的5’-末端。5’-末端序列402是促进ssDNA分子的操纵的预定义的序列。在一个实现方式中，5’-末端序列402包括一个或多个已知的引物位点。类似地，3'-末端序列404存在于ssDNA分子的3’-末端上。3’-末端序列404是还可以促进ssDNA分子的操纵的预定义的序列。在一个实现方式中，3’-末端序列404包括一个或多个已知的引物位点。在一个实现方式中，5’-末端序列402和/或3’-末端序列404可以包括Gibson拼接位点。Gibson拼接位点的存在可以促进DNA分子(例如，表行)的端到端连接。例如，某些DNA分子可以包含与其他DNA分子的末端序列互补的末端序列的部分。例如通过包括合成核苷酸，Gibson拼接位点可以被设计成相比于DNA数字数据存储中的其他序列是独特的。在一个实现方式中，5’-末端序列402和/或3’-末端序列404可以包括已知限制性位点。在一个实现方式中，5’-末端序列402和/或3’-末端序列404可以包括启动子结合位点和终止密码子，以控制由该DNA制备的RNA分子的转换。在一个实现方式中，5’-末端序列402和/或3’-末端序列404可以包括发夹形成序列。在一个实现方式中，5’-末端序列和/或3’-末端序列404可以仅用于结构目的，从而例如提供编码信息的DNA与DNA分子的末端之间的分离。5’-末端序列402和/或3’-末端序列404可以省略，并且在晚些时候被添加或者根据连接需要而被添加。

如本文中所使用的术语“引物”是指当置于与核酸链互补的引物产物的合成被诱导的条件下(即，在合适的温度和盐浓度下，在具有适当的酶的四种不同的三磷酸核苷酸的存在下)时能够充当核酸合成的起始点的寡核苷酸。具体的长度和顺序将取决于所需DNA靶的复杂性以及引物使用条件(诸如温度和离子强度)。在一些实现方式中，引物的长度可以是5个至50个核苷酸、10个至25个核苷酸或15个至20个核苷酸。在文献中，充分记载了扩大引物不必与对应模板序列完全匹配以保证适当扩大的事实。

DNA数字数据存储装置中可以包括在DNA分子中的附加区域是标识DNA数字数据存储装置中的表的表ID区域406。包括在给定表中的数据可以被存储在数百或数千个单独的DNA分子中。通过在每个DNA分子中包括对给定表的信息进行编码的表ID区域406，可能找到包括在所选表内的信息。表ID可以被设计成以使每个都足够不同于其他ID，以防止在用于操纵DNA数字数据存储的条件下的非特异性退火。在一个实现方式中，每个DNA分子与一个且仅一个表相关联。进一步地，在一个实现方式中，每个DNA分子对表的一个且仅一行的信息进行编码。如果表的一行中存在的信息量超过了可以存储在一个DNA分子中的信息量，则来自单行的信息可能被分裂跨过两个或更多个DNA分子。如上文所讨论的，表ID区域406可以是唯一标识给定表的任何DNA碱基序列。表1D区域406在示意图400中被示为与5’-末端序列402相邻，但是表ID区域406可以位于沿着DNA分子的任何位置。

字段ID区域408A、408B、...、408N(统称为408)标识表内的特定字段。类似于表ID区域406，字段ID区域408可以是唯一标识该字段的任意DNA碱基序列。可以跨不同表内的DNA分子而共享字段ID区域408。例如，如果该字段是“电话号码”，则该字段可以存在于雇员信息表中，并且存在于包含部门联系人信息的表中。当然，该字段内的单个条目(即，电话号码)的值可能不同。单个DNA分子可以包含来自多个字段的信息，因此可以有多个字段ID区域408A、408B、...、408N。字段ID可以被设计成以使每个字段与其他字段以及表ID充分不同，以防止在用于操纵DNA数字数据存储的条件下的非特异性退火。表ID区域406和字段ID区域408的组合允许标识给定表的特定字段。通过设计DNA数字数据存储装置以使得表的每一行由DNA分子表示，DNA分子提供该行，字段ID408提供该列，并且表ID106标识该表。在一些实现方式中，字段ID区域408可以被省略。

字段ID区域408与数据区域410相关联。数据区域410表示存储在表中的数据。因此，数据区域410可以包含表中给定条目的值，而非用于管理DNA数字数据存储装置的信息。信息被编码为一系列DNA碱基，但是其可以表示任何类型的数据，诸如文本、音频文件、视频文件或可以由电子计算机中的传统二进制数据记录编码的任何其他类型的数据。对于一些表，包含在数据区域410中的信息可以是用于管理DNA数字数据存储装置的元数据。图4中所示的DNA分子的各个区域不是按比例绘制的。数据区域410可以比任何其他区域更长，即数据区域410包括更多数目的DNA碱基。多个字段ID区域408A、408B、...、408N中的每个字段ID区域可以与相应的数据区域410A、410B、...、410N相关联。如示意图400所示，通过将字段ID区域408定位成与相关联的数据区域410相邻，字段ID区域408A、408B、...、408N可以与相应的数据区域410A、410B、...、410N相关联。

诸如例如数据区域410A和410B之类的两个数据区域可以被预定义的分隔符412分开。在数据区域410的每个实例与任何相邻数据区域之间可以存在相同的预定义的分隔符412。在一个实现方式中，预定义的分隔符412可以包括相关联(例如，相邻的)数据区域410的元数据。在一个实现方式中，数据区域410可以包含在数据库内针对给定行是唯一的行ID。行ID可以是一个或多个列，其唯一标识来数据库的表中存在的其他行中的行。行没有必要具有行ID(即，表可能具有重复行)。

示意图414图示了一段DNA上的区域的不同布置。示意图414与示意图400的不同之处在于，表ID区域406的单独实例被包括在与每个数据区域410A、410B、...、410N相邻的位置。尽管图4示出了DNA分子内两个区域的布置，但是本领域普通技术人员应当领会，相应区域的其他布置是可能的。

单个DNA分子可以编码少于或多于单个行或仅编码表的部分。单个DNA分子可以编码整个表、多个表、整个数据库(即，包括给定数据库的所有表)或多个数据库。编码整个表的DNA分子可以包括在DNA分子的编码DNA分子的不同行的区段之间的预定义的行分隔符。预定义的行分隔符标记从一行到另一行的改变。在单个DNA分子编码整个数据库的实现方式中，DNA分子可以包括在编码不同表的DNA分子的区段之间的预定义的表分隔符。当编码信息从一个表变化到另一表时，预定义的表分隔符标记DNA分子中的点。类似地，编码多个数据库的DNA分子可以包括预定义的数据库分隔符，其将编码不同数据库的DNA分子的部分彼此分开。预定义的分隔符(行、表和数据库)中的每个分隔符可以包括用于将单个DNA分子分成多个DNA分子的已知限制性酶位点。在实现方式中，所有预定义的行分隔符可以具有相同的限制性酶位点，从而使得能够将单个DNA分子分成单独的DNA分子，每个DNA分子包含表中的行中的一个行的信息。可以选择预定义的行分隔符中的限制性酶位点，以使在DNA分子的其他地方没有发现相同的限制性酶位点。类似地，预定义的表和数据库分隔符可以包含那些相应分隔符所特有的限制性酶位点。附加地，对于包含多个表的DNA分子内的每个表，用于预定义的行分隔符的限制性酶位点可以不同。类似地，对于包括多个数据库的DNA分子内的每个数据库，用于预定义的表分隔符的限制性酶位点可以不同。

说明性DNA操纵原语

图5至图11示出了可以在其上实现关系操作符的几种基本DNA操纵操作或者DNA操纵原语。这些具体操作都足以表达关系代数，并且具有操作在DNA上高效执行的性能和规模。

图5A示出了ssDNA分子的化学合成。通过添加各个三磷酸核苷酸碱基504来构建ssDNA分子500来产生更长的ssDNA分子506和二磷酸酯508，从而进行化学合成。例如通过常规磷酸三酯方法可以化学合成DNA分子。寡核苷酸合成仪可以用于合成与DNA数字数据存储装置中存在的DNA分子的表ID区域、字段ID区域或任何其他区域的序列互补的DNA分子。存在若干种DNA合成方法和商业寡核苷酸合成仪可供选择。DNA合成方法包括固相亚磷酰胺合成、基于微芯片的寡核苷酸合成、连接介导的拼接、PCR介导的拼接等。例如，可以使用规模为0.2微摩尔的ABI 394 DNA合成仪(Applied Biosystems，Foster City，Calif.)，然后进行标准裂解和例如使用28％氨水或3：1氨水/甲醇溶液的脱保护协议,来执行这种合成。如果需要，替代氨或除氨之外，本领域普通技术人员可以选择使用其他裂解剂(诸如甲胺)。

图5B示出了通过PCR扩大的DNA合成，其通过将单个核苷酸碱基504添加至与原始ssDNA分子500互补并且被混合到原始ssDNA分子500的生长ssDNA分子510，来产生原始ssDNA分子500的副本。互补核苷酸碱基504的顺序添加创建dsDNA分子。DNA分子还可以通过任何适当的技术来合成，其包括：如果需要通过在使用充足核酸酶时将克隆的质粒从后者中裂解出来并且根据分子量例如通过分馏回收它们，来克隆包含插入片段的重组质粒，该插入片段包括对应的核苷酸序列。

图6A示出了DNA混合的表示。如本文中所使用的“混合”意指将两个互补ssDNA分子置于允许混合以形成dsDNA分子或使得两个互补ssDNA分子混合并且形成dsDNA分子的条件下。混合可以在高度严格的条件下执行。高度严格的条件包括，例如在42℃下使用DIG标记的DNA探针(通过例如使用DIG标记系统制备的；Roche Diagnostics GmbH，68298Mannheim，Germany)在溶液(诸如DigEasyHyb溶液(Roche Diagnostics GmbH)或包括50％甲酰胺、5XSSC(150mM NaCl，15mM柠檬酸三钠)、0.02％十二烷基硫酸钠、0.1％N-月桂酰肌氨酸和2％封闭剂(Roche Diagnostics GmbH)的溶液中温育2小时至4天，然后在2XSSC和0.1％SDS中在室温下清洗过滤器两次5至15分钟，然后在0.5XSSC和0.1％SDS或0.1XSSC和0.1％SDS中在65℃至68℃下清洗两次15至30分钟。这里，第一ssDNA分子500和第二ssDNA分子602之间的部分混合创建部分混合的分子604。互补碱基对彼此混合，而由X表示的非互补碱基对彼此不混合。在一个实现方式中，ssDNA分子602可以是用于标识包括互补序列的ssDNA分子(诸如分子600)的探针。术语“探针”是指具有与待检测的靶寡核苷酸序列(靶)互补的序列的单链序列特异性寡核苷酸。如本文中使用的术语“互补”意指探针的序列正好与靶的序列混合。探针通常可以是5个至50个核苷酸长，在更具体实施例中，可以是10个至25个核苷酸或15个至20个核苷酸。核苷酸包括核糖核苷酸、脱氧核糖核苷酸和修饰的核苷酸，诸如肌苷或包含修饰基团的核苷酸，该修饰基团基本上不更改其混合特点。

在一个实现方式中，DNA分子602可以包括与表ID序列互补的DNA序列，并且用作标识包括表ID序列的靶分子(例如，DNA分子600)的探针。在DNA数字数据存储装置中，可以引入数百或数千个相同的探针，来标记和标识具有特定序列(诸如表ID序列、字段ID序列等)的DNA分子。诸如DNA序列602之类的探针可以包括标记物或标签，其允许标识用于进一步操纵互补DNA序列600。探针DNA分子602(或与靶寡核苷酸的至少部分互补的寡核苷酸)可以包括报告或用于附加报告的偶联剂。报告或偶联剂可以附加到聚合物主链或探针或互补寡核苷酸的碱基中的任一碱基上。已知用于将报告基团附加到核苷酸碱基(天然碱基和非标准碱基两者)的技术。报告基团的示例包括生物素、地高辛、自旋标记基团、放射性标记、DNA裂解部分、荧光素和荧光团(诸如荧光素)。偶联剂的示例包括生物素或包括反应性官能团的取代基。然后，报告基团附加到链霉抗生物素蛋白或包含与偶联剂相互作用的反应性官能团，以将报告基团结合至靶或互补寡核苷酸。

图6B示出了DNA变性的表示。还被称为DNA熔解的DNA变性是dsDNA通过破坏碱基之间的疏水堆叠吸引而解开并且分成ssDNA链的过程。可以通过加热、通过更改盐浓度或通过使用化学品(诸如甲醛或尿素)诱导分离来执行变性。本领域普通技术人员可容易地标识在给定条件集合下使DNA变性的适当技术。变性可以将部分混合的dsDNA分子604分离回到原始的ssDNA分子600和ssDNA分子602中。在用探针的分析操作完成之后，可以使用变性来移除探针。在一个实现方式中，ssDNA分子600可以在变性之后返回到DNA数字数据存储装置的不同腔室。

图7A示出了ssDNA分子700附加到牢固支持物702。自动化系统110可以被配置成将DNA分子附加到牢固支持物702。ssDNA分子700可以包括接头区域704，其将ssDNA分子700中的感兴趣区域与牢固支持物702分开。接头区域704可以是一系列任意的或随机的DNA碱基。接头区域704的使用可以允许酶和其他DNA分子与ssDNA分子700的远端相互作用，而没有来自牢固支持物702的空间位阻。许多DNA操纵可以至少部分地使用牢固支持物执行。通常，捕获的DNA分子被偶联或以其他方式被置于牢固支持物的表面上。可以使用多种不同的支持物。在一些实现方式中，牢固支持物是单个牢固支持物，诸如芯片或晶片、或者管、锥体或其他物品的内部或外部表面。牢固支持物由任何合适的材料制成，以提供如稳定性、尺寸、形状和表面光滑度等所需性能的最佳组合。优选材料不干扰核酸混合，并且未进行大量核酸的非特异性结合。合适的材料包括生物或非生物的有机或无机材料。例如，主阵列可以由任何合适的塑料或聚合物、硅、玻璃、陶瓷或金属制成，并且可以以固体、树脂、凝胶、刚性膜或柔性膜的形式而被提供。合适的聚合物包括例如聚苯乙烯、聚(烷基)甲基丙烯酸酯、聚(乙烯基二苯甲酮)、聚碳酸酯、聚乙烯、聚丙烯、聚酰胺、聚偏二氟乙烯等。

牢固支持物的尺寸是基于诸如期望的区域数目和待分析的分析物特异性序列的数目之类的因素而被确定。作为示例，可以提供平面尺寸为约0.5cm至约7.5cm长度和约0.5cm至约7.5cm宽度的牢固支持物。还可以将牢固支持物单独或多重地定位在其他支持物上(诸如例如，尺寸为约7.5cm×约2.5cm的显微镜载玻片或者甚至纳米级支持物或非平面的复杂结构)。牢固支持物的尺寸可以容易地适用于特定应用。

可以使用其他类型的牢固支持物。在一些实施例中，牢固支持物是微粒支持物。在这些实施例中，捕获寡核苷酸偶联至颗粒。通常，这些颗粒形成其中每组内的颗粒具有特定特点(诸如例如，颜色、荧光频率、密度、大小或形状)的组，这些特点可以用于将那些颗粒与其他组的颗粒相区分或分离。在一个实现方式中，可以使用技术(诸如例如，流式细胞术)来分离颗粒。

颗粒支持物可以由几乎任何不溶或固体材料制成。例如，可以由硅胶、玻璃、尼龙、树脂、Sephadex^TM、Sepharose^TM、纤维素、磁性材料、金属(例如，钢、金、银、铝、铜或合金)或金属(例如，聚乙烯、聚丙烯、聚酰胺、聚酯、聚偏1,1-二氟乙烯(PVDF))等以及它们的组合。合适颗粒的示例可从例如德克萨斯州奥斯汀的Luminex公司获取。

通常，支持物(无论是单个支持物还是颗粒支持物)能够以足够稳定的方式将捕获寡核苷酸结合或以其他方式保持到支持物表面，以实现本文中所描述的目的。这样的结合可以包括例如在支持物和捕获寡核苷酸之间形成共价键、离子键、配位键、氢键或范德华键、或者对带有正电荷或负电荷的支持物的吸引。捕获寡核苷酸直接或经由接头被附加到牢固支持物表面。在一个实施例中，捕获寡核苷酸通过利用一个或多个反应性基团提供或衍生化表面、寡核苷酸或这两者而被直接地附加到支持物表面。例如，Luminex^TM颗粒的表面可以利用例如羧酸酯、马来酰亚胺或酰肼官能团或抗生物素蛋白来修饰，并且玻璃表面可以利用例如硅烷或醛处理(以形成与DNA的席夫碱醛-胺偶联)。在一些实施例中，支持物或设置在支持物上的材料(例如，作为支持物上的涂层)包括反应性官能团，其可以与捕获寡核苷酸上的反应性官能团偶联。作为示例，可以使支持物官能化(例如，反应性官能化的金属或聚合物表面)或包含官能团(例如，具有未决官能团的聚合物)以提供用于偶联捕获寡核苷酸的位点。

作为备选方案，可以通过交联捕获寡核苷酸，将捕获寡核苷酸保留在表面上。优选地，交联的捕获寡核苷酸包括交联部分和捕获部分，其中捕获部分包括与靶寡核苷酸的标签序列相混合的分子识别序列。

作为又一备选方案，支持物可以部分或完全包被有结合剂，诸如抗生蛋白链菌素、抗体、抗原、酶、酶辅因子或抑制剂、激素或激素受体。结合剂通常是通过共价或非共价键合对另一分子或大分子具有高亲和力的生物或合成分子。捕获寡核苷酸与结合剂(例如，生物素、抗原、抗体、酶辅因子或抑制剂、酶、激素受体或激素)的互补偶联。然后使捕获寡核苷酸与结合剂接触，以将捕获寡核苷酸保持在支持物上。其他已知偶联技术可以很容易地适用于本文中所描述的系统和方法。

图7B示出了ssDNA分子700与牢固支持物702分离。可以通过破坏将ssDNA分子700保持到牢固支持物702的共价附加，将ssDNA分子700与牢固支持物702分离。附加地，分离可以通过切割ssDNA分子700的接头区域704来实现。在其中通过退火将ssDNA分子700保持在牢固支持物702上的实现方式中，ssDNA分子700可以由与牢固支持物702更强结合的另一分子显示。在一种实现方式中，蛋白质的诱导构象改变可以从牢固支持物702释放ssDNA分子700。例如，可以通过使用限制性酶来裂解接头区域704。

限制性酶(限制性内切核酸酶)存在于许多物种中，并且能够与DNA(在识别位点处)进行序列特异性结合，并且在结合位点处或附近裂解DNA。某些限制性酶(例如，IIS型)在从识别位点移除的位点处裂解DNA，并且具有可分离的结合域和裂解域。例如，IIS型酶Fok I在来自其一条链上的其识别位点的9个核苷酸和来自另一条链上的其识别位点的13个核苷酸处，催化DNA的双链裂解。

裂解域与结合域可分开的说明性IIS型限制性酶是Fok I。该特定酶作为二聚体是有活性的。因而，为了本公开的目的，在公开的融合蛋白中使用的Fok I酶的部分被认为是裂解半域。因此，对于使用锌指-Fok I融合物对细胞序列进行靶向双链裂解和/或靶向置换，可以使用两种融合蛋白(每个都包含Fok I裂解半域)来重构具有催化活性的裂解域。可替代地，还可以使用包含锌指结合域和两个Fok I裂解半域的单个多肽分子。使用锌指-FokI融合物进行靶向裂解和靶向序列更改的参数是本领域技术人员已知的。

图8示出了靶DNA分子800与被附加于牢固支持物804的捕获DNA分子802的选择性混合。未包括与捕获DNA分子802互补的区域的其他DNA分子806和808不与捕获DNA分子混合。捕获DNA分子802包括分子识别序列，其可以通过混合来捕获具有互补标签序列的靶DNA分子800。捕获DNA分子802的分子识别序列与靶DNA分子800的标记序列的混合导致靶DNA分子800与牢固支持物804的间接偶联。分子识别序列和标记序列可以与特定分析物特异性序列(也是靶DNA分子800的部分)相关联，因此如果发生混合则指示在原始样本中具有分析物特异性序列(或其互补物)的分析物的存在或浓度。

编码序列和标签序列通常包括至少6个核苷酸，并且在一些实例中，其至少包括8、10、15或20个或更多核苷酸。在如下文所描述的一些测定中，分子识别序列和标签序列包括一个或多个非标准碱基。在其他测定中，分子识别序列和标签序列不包含非标准碱基。

捕获DNA分子802还可以包括官能团，其准许捕获DNA分子802结合到固体支持体804或设置在牢固支持物804上或从牢固支持物804延伸的官能团。官能团可以直接附加到聚合物主链或可以附加到核苷酸序列中的碱基上。作为备选方案，如上文所描述的，捕获DNA分子802可以包括交联部分以促进交联，或者可以静电保持在表面上。捕获DNA分子802可以通过多种技术形成，这些技术包括例如固态合成、DNA复制、逆转录、限制性消化、第二轮转录等。

除了标记序列之外，靶DNA分子800还包括分析物特异性序列，其与分析物中感兴趣序列相对应或者是分析物中的感兴趣序列的互补序列。分析物特异性序列可以独立于标记序列，或者一些或全部标记序列可以是分析物特异性序列的部分。

可以针对期望的混合强度和动力学，优化捕获DNA分子802的长度。通常，分子识别序列的长度在6到20个(优选8到12个)核苷酸范围内。在优选实施例中，捕获DNA分子802的不同分子识别序列彼此不互补，并且更优选地，与任何已知DNA片段不互补，该任何已知DNA片段具有以相当数量存在于DNA数字数据存储装置中的显著可能性。因此，捕获DNA分子802的捕获分子识别序列将主要与靶DNA分子800的相应互补标记序列相混合。

清洗包含牢固支持物804的腔室可以移除DNA分子806和808，同时在清洗之后，保留靶DNA分子800，这是因为其与DNA分子802混合。这提供了基于混合来分离DNA分子的技术。可以调节清洗条件，以移除未混合的DNA分子(例如，DNA分子806和808)而不移除被混合(例如，靶DNA分子800)或以其他方式直接或间接被附加到牢固支持物804的DNA分子。根据清洗条件，在清洗期间可以移除与衬底具有相对较弱附加度(例如，在短区域上的不完全混合或混合)的DNA分子。因此，通过改变清洗条件，可以控制保留存在腔室中的DNA分子所需的混合特异性的水平。可以利用用于将DNA存储在DNA数字数据存储装置中的溶液来执行清洗。在一个实现方式中，清洗溶液可以是pH介于8至9之间的10mM的Tris。

一次或多次清洗可以在相同或不同水平的严格条件下执行。作为另一可选备选方案，在与一个或多个支持物和捕获DNA分子802接触之前，包含靶寡核苷酸的溶液可以进行例如大小排阻色谱法、差异沉淀法、离心柱或过滤柱，以移除尚未被扩大的引物或移除与靶寡核苷酸大小不同的其他材料。

在一些实施例中，多个保持器(例如，小瓶、试管等)被用来测定多个样本，或者在每个保持器内具有捕获DNA分子802(和相关联的牢固支持物804)的不同组合。作为另一备选方案，每个保持器可以包括单个类型的捕获DNA分子802(和相关联的牢固支持物804)。

作为另一示例，牢固支持物804可以是任选地偶联在一起的单独支撑表面组。例如，牢固支持物804可以包括单独的光纤或其他支持构件，该其他支持构件被单独地偶联至不同的捕获DNA分子802，然后被结合在一起以形成单个制品，诸如基体。

与牢固支持物804的分离可以通过被附加到结合链802的DNA链800变性来执行。这可能让DNA(例如，捕获DNA分子802)的谓词或查询部分仍然结合到衬底。可替代地，捕获DNA分子802可以与衬底804物理分离，并且与感兴趣DNA链(未示出)一起进入溶液。如果需要，则稍后的变性可以将捕获DNA分子802与靶DNA分子800分离。

图9示出了移除两个已知序列侧翼的DNA区域的技术。DNA分子900可以包含DNA区域902，该DNA区域902包含已知或未知序列。该区域902可以通过将DNA分子900和与待移除的区域902侧翼的序列互补的部分互补的DNA分子904混合来移除。待移除的DNA区域902形成单链环并且被移除。酶906移除单链环中的DNA。由区域902形成的环可以通过选择性消化ssDNA的绿豆核酸酶移除。绿豆核酸酶是从绿豆Vigna radiata的豆芽中纯化的单链特异性核酸酶。该酶将单链DNA或RNA降解为核苷5'-单磷酸酯，但不消化双链DNA、双链RNA或DNA/RNA杂合体。绿豆核酸酶催化单链DNA或RNA的特异性降解，并且产生携带由5'-P末端的单核苷酸和寡核苷酸。由区域902形成的环还可以被XPG内切核酸酶移除。XPG内切酶修复由紫外线(UV线)引起的DNA损伤。XPG内切酶通过被称为核苷酸切除修复的过程来修复DNA。XPG内切核酸酶也被标识为在移除发夹环中起作用。

在移除区域902之后，可以利用DNA连接酶修复DNA分子900的侧翼序列之间残留的缺口。DNA连接酶是特定类型的酶(即，连接酶)，其通过催化形成磷酸二酯键而促进DNA链连接在一起。DNA连接酶在修复双链DNA中的单链断裂中起作用。变性将互补DNA分子904与原始DNA分子900分离，该原始DNA分子900现在被还原成省略区域902的较短的DNA分子908。尽管被示为DNA链，但是区域902可以根据用于移除单链环的技术作为各个单独的核苷酸而存在。

图10示出了表示利用备选序列替换已知DNA序列的示意图。DNA分子1000包括被备选序列1004替换的区域1002。在一个实现方式中，通过使用同源重组来执行替换。DNA 1002的标识区域可以被任何重组酶(例如，Piggyback^TM、Cre-Loxp重组酶和Flp重组酶)切除。用于切除核酸序列的Piggyback^TM、Cre-Loxp重组酶、Flp重组酶的矢量设计是本领域已知的。如果需要，则矢量可以任选地包含引导位点特异性同源重组的侧翼核酸序列。本领域已知使用侧翼DNA序列，以准许同源重组成所需的遗传基因座。目前，优选的是，在编码序列两侧(或要通过同源重组插入到某个位置的本发明的任何其他序列)上的矢量中存在多达几千碱基或与插入位点相对应的更多侧翼DNA，以确保用外源DNA精确替换序列。

除了同源重组之外的其他位点特异性基因组编辑材料和方法在本领域中是已知的。在某些实施例中，位点特异性核酸酶被引入到宿主细胞，该位点特异性核酸酶能够引起基因组靶位点附近或内部的双链断裂。可以与DNA数字数据存储装置一起使用的位点特异性核酸酶包括但不限于，转录激活物样效应物核酸酶(TALEN)、锌指核酸酶(ZFN)和/或成簇规律间隔的短回文重复序列(CRISPR)/基于Cas的RNA引导的DNA内切核酸酶。TAL效应物核酸酶是一类核酸酶，其允许序列特异性DNA裂解，从而使得可以执行位点特异性DNA编辑。

在一个实现方式中，DNA结合域是CRISPR/Cas核酸酶系统的部分。编码该系统的RNA组分的CRISPR(聚类规律间隔的短回文重复序列)基因座和编码蛋白质的cas(CRISPR相关联的)基因座构成了CRISPR/Cas核酸酶系统的基因序列。微生物宿主中的CRISPR基因座包含CRISPR相关联的(Cas)基因以及能够编程CRISPR介导的核酸裂解的特异性的非编码RNA元件的组合。

II型CRISPR是被最充分表征的系统中的一个系统，并且其在四个连续步骤中执行靶向DNA双链断裂。首先，从CRISPR基因座转录两个非编码RNA，即pre-crRNA阵列和tracrRNA。其次，tracrRNA与pre-crRNA的重复区域混合，并且介导将pre-crRNA处理成包含各个间隔区序列的成熟crRNA。第三，成熟crRNA：tracrRNA复合物经由crRNA上的间隔区和原型间隔区相邻基序(PAM)旁边的靶DNA上的原型间隔区之间的Watson-Crick碱基配对，将Cas9引导至靶DNA，这是靶识别的附加要求。最后，Cas9介导靶DNA的裂解，以便在原型间隔区内创建双链断裂。CRISPR/Cas系统的活性包括三个步骤：(i)在被称为“适应”的过程中，将外源DNA序列插入到CRISPR阵列中以防止未来攻击；(ii)相关蛋白质的表达以及阵列的表达和处理；然后(iii)与异类核酸的RNA介导的干扰。因此，在细菌细胞中，几种所谓的“Cas”蛋白质涉及CRISPR/Cas系统的天然功能，并且起到诸如插入异类DNA等之类功能的作用。

在某些实施例中，Cas蛋白可以是天然存在的Cas蛋白的“功能衍生物”。天然序列多肽的“功能衍生物”是具有与天然序列多肽一样的定性生物学特性的化合物。“功能衍生物”包括但不限于，天然序列的片段和天然序列多肽及其片段的衍生物(在它们具有与对应的天然序列多肽相同的生物学活性的情况下)。本文所设想的生物学活性是功能衍生物将DNA衬底水解成片段的能力。术语“衍生物”涵盖多肽的氨基酸序列变体、共价修饰物及其融合物。Cas多肽或其片段的合适衍生物包括但不限于，Cas蛋白或其片段的突变体、融合物、共价修饰物。包括Cas蛋白或其片段的Cas蛋白以及Cas蛋白或其片段的衍生物可以从细胞中获取或化学合成或通过这两种程序的组合来被获取。细胞可以是天然产生Cas蛋白的细胞、或者天然产生Cas蛋白，并且是进行基因工程化以便产生表达水平更高的内源Cas蛋白或由外源导入的核酸产生Cas蛋白的细胞，该核酸编码与内源性Cas相同或不同的Cas。在一些情况下，细胞不会天然产生Cas蛋白并且细胞进行基因工程化以产生Cas蛋白。

图11示出了使用形成发夹环来标识不同DNA分子中同源区域的存在的技术。通过本文所描述的技术中的任一技术以及本领域已知的任何其他技术，DNA分子1100的多个副本被附加到牢固支持物1102。该DNA分子1100包含感兴趣区域1104，其例如可以是字段ID序列、数据区域或其他序列。附加到牢固支持物1102的DNA分子1100被用于查询其他DNA分子1106和1108，以确定是否存在与感兴趣区域1104的匹配。

可以来自不同于DNA分子1100的DNA数字数据存储装置中的一个或多个表的其他DNA分子1106和1108被连接到DNA分子1100中的一个的自由端，该DNA分子1100被附接到牢固支持物1102的。两个DNA分子在适当的互补DNA存在下，可以通过DNA连接酶进行端到端连接。例如，如果DNA分子1100的3’-末端连接到DNA分子1106的5’-末端，则互补DNA分子可以包括与DNA分子1100的3’-末端区域互补的DNA序列，其中该DNA分子1100的3’-末端区域与DNA分子1106的5’-末端互补。

DNA分子1106包括与感兴趣区域1104互补并且混合的区域1110。DNA分子1108不包括任何类似的互补序列。相同的DNA碱基序列不会被混合，而是互补序列混合，因此当该技术应用于分析DNA数字数据存储装置时，DNA序列1106和1108可以是由存在于DNA数字数据存储装置中的DNA分子而产生的互补序列。感兴趣的序列1104和序列1106之间的混合指示与DNA分子1106互补的DNA分子(即，DNA数字数据存储装置中的原始DNA分子)包含与感兴趣序列1104相同的序列。

DNA分子1100和1106之间的互补序列的混合可以形成与牢固支持物1102结合的发夹环，但是不包含互补序列的DNA分子1100和1108不形成发夹环。形成发夹环的DNA链的选择性隔离允许标识那些DNA分子对，其从不含同源序列(例如，DNA分子1100和1108)那些DNA分子对中标识包含同源序列(例如，DNA分子1100和1106)的那些DNA分子对。

可以使用任何合适的技术来选择性地隔离形成发夹环的DNA链。在一个实现方式中，开口足够大以允许ssDNA通过但是开口足够小以防止具有发夹环的DNA的转移的微流体系统，可以用于将具有发夹环的DNA分子与没有发夹环的DNA分子分离。通过电泳凝胶的差动行进速度还可以用来将具有发夹环的DNA分子与没有发夹环的DNA分子分离。在一个实现方式中，发夹环可以在引起发夹环围绕(即，环绕)另一条DNA链或其他纳米结构的环境中形成。例如，可以将该另一条DNA链(或其他结构)定位在距牢固支持物1102表面的一定距离处，该牢固支持物1102的表面位于如果DNA的互补序列存在则可能在其中形成发夹环的区域中。在分离DNA分子1100和1106以及1100和1108与牢固支持物1102时，ssDNA分子将在溶液中游离，而具有发夹环的DNA分子将通过像套索一样、围绕另一条DNA链(或其他结构)的发夹环而被锚定。清洗以移除溶液中的DNA分子将具有发夹环的那些DNA分子与没有发夹环的DNA分子分离。说明性DNA操纵-关系代数相关性

选择的关系代数操作可以通过将与由选择所靶向的表ID序列的部分互补的表ID互补序列附加到一个或多个牢固支持物，来至少部分地在DNA数字数据存储装置中实现。到牢固支持物的附加可以如图7A所示和所描述的。混合条件被创建，使得在清洗期间表ID互补序列将互补DNA序列保持在一起。如图8所示，在腔室上执行清洗，以移除溶液中游离的DNA分子。残留存在腔室中的DNA分子被隔离。因此，这允许标识属于特定表的所有DNA分子。

接下来，如图7B所示，DNA分子可以与牢固支持物分离。与选择所靶向的字段ID序列靶互补的字段ID互补序列被附加到牢固支持物。混合条件被创建，以使得字段ID互补序列通过混合将具有字段的DNA分子保持到牢固支持物。如上文所描述的执行清洗和隔离，从而仅产生具有表ID序列还具有字段ID序列的那些DNA分子。

选择的关系代数操作还可以通过将与表ID序列的部分互补的表ID互补序列和与由选择所靶向的字段ID序列互补的字段ID互补序列附加到一个或多个牢固支持物，而至少部分地在DNA数字数据存储装置中实现。到牢固支持物的附加可以如图7A所示和所描述的。可以选择表ID互补序列的长度和清洗条件(例如，压力、温度和离子浓度)，以使得表ID互补序列本身在清洗期间不将互补DNA序列保持在一起。因此，为了避免清洗期间混合链的移除，附加混合区域(即，字段ID互补序列)变得需要。

接下来，来自DNA数字数据存储装置的DNA在诸如图1所示的腔室114之类的腔室中，与表ID互补序列和字段ID互补序列混合。如图8所示，在腔室上执行清洗以移除溶液中游离的DNA分子。腔室中残留的DNA分子被隔离。隔离之后，DNA分子可以被测序或可以被进一步操纵。

针对不同特征的选择可以通过以下各项来迭代地应用：通过具有第一期望特点的退火，来固定所有DNA，清洗以便移除溶液中的DNA，从衬底释放DNA，然后再次重复选择和清洗步骤。

选择操作还可以用于通过使用在DNA分子(例如，在与数据区域相邻的预定义的分隔符412中，该预定义的分隔符412包括由范围查询靶向的值)中编码的元数据来实现该范围查询，该范围查询表示值的幅度或“二进制”。例如，数据库可能包含一个或多个表，其包含编码员工工资的数据区域。编码工资的每个数据区域可以与在DNA分子中单独编码的幅度相关联。幅度可以是$0至$9999、$10,000至$19,999、$20,000至$29,999、$30,000至$39,999、$40,000至$49,999，$50,000至$59,999、$60,000至$69,999、$70,000至$79,999、$80,000至$89,999、$90,000至$99,999和$100,000或更多。这些11个值的幅度或“二进制”的每个都可以由不同的DNA碱基序列表示。这些幅度序列是预先确定的并且已知的。因此，可以通过首先执行多个选择操作来实现对介于30000美元至60,000美元之间的雇员工资的范围查询，该选择操作选择具有与雇员工资的$30,000至$39,999、$40,000至$49,999、$50,000至$59,999和$60,000至$69,999相对应的幅度序列的那些DNA分子。因为在该范围查询中指定的范围和在DNA中编码的幅度的值之间没有直接的对应关系，所以这个查询所隔离的DNA分子实际上将覆盖$30,000至$69,999的工资范围。在一个实现方式中，这些DNA分子被排序，并且通过移除介于$60,001至$69,999之间的雇员工资的结果，来在数字计算机上完成范围查询。这是联合使用DNA操纵和数字计算机计算来返回结果的示例。

投影的关系代数操作可以通过合成与第一预定义的分隔符和第二预定义的分隔符互补的互补DNA而至少部分地在DNA数字数据存储装置中实现。预定义的分隔符可以是图4中所示的分隔符412。第一预定义的分隔符是来自DNA数字数据存储装置的DNA中的第一数据区和第二数据区之间的DNA序列，而第二预定义的分隔符是来自DNA数字数据存储装置的DNA中的第三数据区和第四数据区域之间的DNA序列。

接下来，如图9所示，来自DNA数字数据存储装置的DNA与形成ssDNA环的互补DNA混合。在第一预定义的字段分隔符和第二预定义的字段分隔符之间形成的DNA环被移除。这种DNA的移除导致从数据库中移除未包括在投影中的表中的字段。移除DNA环之后，使DNA与DNA连接酶接触以修复磷酸主链。剩余的DNA是投影的结果，并且包括与在投影的关系代数操作之后存在的字段相对应的DNA分子的部分。如图6B所示，在移除DNA环和连接之后，来自DNA数字数据存储装置的DNA通过变性与互补DNA分离。

相交的关系代数操作可以通过以下各项至少部分地在DNA数字数据存储装置中来实现：如图4所示，合成与预定义的分隔符(诸如预定义的分隔符412)互补的DNA；如图7A所示，将与预定义的分隔符互补的DNA附加到牢固支持物上；以及将来自DNA数字数据存储装置的表的DNA添加到诸如图1的腔室114之类的腔室。通过合成和与预定义的分隔符相关联的数据区域互补的DNA，来扩展与预定义的分隔符互补的DNA(附加到牢固支持物的DNA分子)，从而制作与数据区域混合的新DNA区段。

接下来，使与预定义的分隔符互补的DNA和与来自表的DNA的数据区域互补的DNA被变性，从而留下附加到牢固支持物的DNA分子，该DNA分子包括与数据区域互补的区域，通过该区域，执行相交操作。如图8所示，这之后清洗腔室以移除溶液中的DNA，并且将来自DNA数字数据存储装置的第二表中的DNA添加到腔室。如果来自第二表的DNA在数据区域中包括相同信息，则来自第二表的DNA和与附加到牢固支持物的数据区域互补的DNA混合。通过再次清洗腔室以移除溶液中的游离DNA分子，被混合到与数据区域互补的DNA的DNA分子表示表和第二表之间的相交，并且通过清洗来移除的DNA分子(其可以在单独的腔室被收集)表示集合差异。

重命名的关系代数操作可以通过以下各项来至少部分地在DNA数字数据存储装置中实现：将来自DNA数字数据存储装置的DNA与特定于字段ID序列的位点特异性核酸酶系统接触；在移除字段ID序列或利用与新字段ID序列互补的DNA序列替换字段ID序列之后，混合DNA；以及在DNA中合成或插入新字段ID序列。移除字段ID序列和添加新字段ID序列可以利用如图10所示和所描述的技术来执行。

在一个实现方式中，通过将字段ID序列的特定DNA碱基序列与新名称重新关联，可以在DNA数字数据存储装置的DBMS上实现重命名操作。这不会改变DNA分子，而会更改由序列的DBMS返回的、包括字段ID的DNA碱基序列的结果。

笛卡尔乘积的关系代数操作可以通过合成与以下各项互补的模板DNA来至少部分地在DNA数字数据存储装置中来实现：(i)具有该表ID序列的DNA链的5’-末端序列的至少部分和具有诸如表ID序列之类的第二已知序列的DNA链的3’-末端序列的至少部分；或(ii)具有表ID序列的DNA链的3’-末端序列的至少部分和具有第二已知序列的DNA链的5’-末端序列的至少部分。然后，模板DNA与具有表ID序列的DNA链和具有第二表ID序列的DNA链混合。

接下来，将混合的DNA与DNA连接酶接触，以创建包括具有表ID序列的DNA链和具有第二已知序列的DNA链的单个DNA分子。将来自单个DNA分子的模板DNA变性移除模板，从而留下新DNA分子，该新DNA分子表示具有第一表ID的表和具有第二已知序列的表的笛卡尔乘积。

可以对通过笛卡尔乘积操作创建的这个新表给出通过混合ssDNA链的新表ID分子，该ssDNA链包括与单个DNA的3’-末端序列或5’-末端序列互补的区域以及包括与新表ID互补的序列的区域。在混合之后，使用编码新表的DNA分子中的已知引物位点的PCR被用来将该DNA分子沿着与新表ID互补的序列延伸，从而将新表ID附加到编码新表的单个DNA分子上。本领域普通技术人员应当理解，包括对该技术的修改的技术可以被应用于将新表ID添加到由除了笛卡尔乘积之外的操作所创建的表。

自然连接的关系代数操作可以通过以下各项来至少部分地在DNA数字数据存储装置中实现：向诸如图1所示的腔室114之类的腔室提供具有表ID序列的DNA；如图5B所示，合成与所提供的DNA互补的互补DNA；以及如图7A所示，将互补DNA附加到一个或多个牢固支持物。在一个实现方式中，可以在向腔室提供具有表ID序列的DNA之前，合成互补DNA。

接下来，如图6B所示，通过变性将具有表ID的DNA与互补DNA分离。此后，如图8所示，清洗腔室。在腔室中留下互补DNA并且附加到牢固支持物上。从这一点开始，执行上文针对笛卡尔乘积操作的DNA操纵。如图11所示，这将导致发夹环在附加到牢固支持物的DNA分子中的一些DNA分子中形成。

将具有发夹环的DNA与没有发夹环的DNA分离标识了其中第一表和第二表具有相同数据区域值的DNA链。在一个实现方式中，通过选择性地将DNA的环部分与DNA分子的其余部分相分离，与牢固支持物结合并且具有发夹环的DNA可以与结合到牢固支持物上的其他DNA相分离。清洗可以从不形成发夹环、但仍保持附加到牢固支持物的DNA分子中移除在溶液中游离的DNA的环状部分。限制性酶可以被用于在发夹环的“颈部”处裂解dsDNA，以从保留附加到牢固支持物的DNA分子的部分释放环。回顾，发夹环可以由具有相同值(和相同的核苷酸序列)的数据区域形成，并且预定义的分隔符可以与数据区域相邻。如果预定义的分隔符(或DNA分子的其他部分)被设计成仅用于由存在于dsDNA中的限制性酶所识别的限制性酶位点，则预定义的分隔符提供用于切割DNA分子以选择性移除发夹环的点。

上文所描述的操作中的多个操作可以作为“流水线”而被串行执行。例如，由相交操作产生的DNA分子可以用作执行选择操作的起始点。使用多个DNA操纵原语的复杂操作可能具有多个中间步骤。所有或一些中间步骤可以创建新表，并且还可以向编码新表的DNA分子添加新表ID序列。新表ID可以被用于表标识(例如，通过选择性退火)以及产生“流水线”的其他关系代数操作。

说明性实施例

以下条款描述了用于实现本公开中所描述的特征的多个可能的实施例。本文中所描述的各种实施例并不限制任何给定实施例的每个特征都需要存在于另一实施例中。除非上下文另外明确指出，否则实施例中的任何两个或更多个实施例可以组合在一起。如本文中所使用的，“或”意指和/或。例如，“A或B”意指有A而没有B、有B而没有A、或A和B，如本文中所使用的，“包括”意指包括所有列出的特征并且可能包括未列出的其他特征的添加。“基本上由......组成”意指包括列出的特征以及那些实质上不会影响所列出的特征的基本和新颖特点的那些附加特征。“由......组成”仅指列出的特征，而不包括未列出的任何特征。

条款1.一种用于在DNA数字数据存储装置上执行关系代数操作的系统，该系统包括：

第一腔室，其包含多个DNA分子的液体悬浮液，每个DNA分子对来自关系数据库中的一个或多个表的表的至少一行进行编码；

控制器，其被配置成接收用于操纵DNA分子的一系列指令，其中指令与关系代数操作相对应；以及

自动化系统，其被配置成响应于来自控制器的一系列指令，将一定体积的液体从第一腔室移动到第二腔室。

条款2.根据条款1所述的系统，其中自动化系统还被配置成将多个DNA分子中的一些或全部DNA分子附加到牢固支持物。

条款3.根据条款1或2所述的系统，还包括寡核苷酸合成仪，其被配置成合成与多个DNA分子中的一个DNA分子的表ID区域、字段ID区域或数据区域互补的DNA分子。

条款4.根据条款1至3中的任一项所述的系统，还包括DNA测序仪，其被配置成确定多个DNA分子中的一个DNA分子的全部或部分的序列并且向数字计算机提供该序列。

条款5.根据条款1至4中的任一项所述的系统，还包括数字计算机，其被配置成接收关系代数操作并且将关系代数操作转换成一系列指令，该指令用于至少部分地基于表ID区域的序列或多个DNA分子中的一个DNA分子的字段ID区域的序列，来操纵DNA分子。

条款6.一种用于在DNA数字数据存储装置上执行关系代数操作的系统，该系统包括：

用于包含多个DNA分子的液体悬浮液的装置，其中每个DNA分子对来自关系数据库中的一个或多个表中的表的行进行编码；

用于接收用于操纵DNA分子的一系列指令的装置，其中该指令与关系代数操作相对应；以及

用于响应于来自控制器的一系列指令而将一定体积的液体从第一腔室移动到第二腔室的装置。

条款7.根据条款6所述的系统，还包括装置，其用于将多个DNA分子中的一些或全部DNA分子附加到牢固支持物。

条款8.根据条款6或7所述的系统，还包括装置，其用于合成与多个DNA分子中的一个DNA分子的表ID区域、字段ID区域或数据区域的序列互补的DNA分子。

条款9.根据条款6至8中的任一项所述的系统，还包括用于确定多个DNA分子中的一个DNA分子的全部或部分的序列并且向数字计算机提供该序列的装置。

条款10.根据条款6至9中的任一项所述的系统，还包括用于接收关系代数操作并且将关系代数操作转换成一系列指令装置，该指令用于至少部分地基于表ID区域的序列或多个DNA分子中的一个DNA分子的字段ID区域的序列，来操纵DNA分子。

条款11.一种方法，包括：

接收指明关系数据库中的表的关系代数操作，其中该表由表ID序列指定；

标识与关系代数操作相对应的DNA操纵，其包括：将互补DNA序列与包括在DNA分子中的表ID序列的至少部分混合；

向DNA DBMS发送执行DNA操纵的指令；以及

从DNA数字数据存储装置接收表示DNA序列的电子数据。

条款12.根据条款11所述的方法，其中关系代数操作是选择，并且该方法还包括标识DNA操纵以包括：

将与表ID序列的部分互补的表ID互补序列以及与选择所针对的字段ID序列互补的字段ID互补序列附加到一个或多个牢固支持物，其中表ID互补序列自身的长度在清洗期间不会将互补DNA序列保持在一起；

将来自DNA数字数据存储装置的DNA与表ID互补序列以及字段ID互补序列或腔室中的数据区域的值中的至少一个混合；

清洗腔室；以及

隔离留存在腔室中的DNA分子。

条款13.根据条款11所述的方法，其中关系代数操作是投影，并且该方法还包括标识DNA操纵以包括：

合成互补DNA，其与第一预定义的分隔符互补并且与第二预定义的分隔符互补，其中第一预定义的分隔符是在来自DNA数字数据存储装置的DNA中的第一数据区域和第二数据区域之间的DNA序列，并且第二预定义的分隔符是在来自DNA数字数据存储装置的DNA中的第三数据区域和第四数据区域之间的DNA序列；

将来自DNA数字数据存储装置的DNA与互补DNA混合；

移除在第一预定义的字段分隔符和第二预定义的字段分隔符之间形成的DNA环；

在利用DNA连接酶移除DNA环之后，接触DNA；以及

在从互补DNA中移除DNA环之后，将DNA从DNA数字数据存储装置中分离。

条款14.根据条款11所述的方法，其中关系代数操作是相交，并且方法还包括标识DNA操纵以包括：

其中表是第一表；

合成与预定义的分隔符互补的DNA；

将与预定义的分隔符互补的DNA附加到牢固支持物上；

将第一表的DNA添加到腔室；

通过合成与数据区域互补的DNA来扩展与预定义的分隔符互补的DNA，该数据区域与预定义的分隔符相关联；

使与预定义的分隔符互补的DNA以及与来自第一表的DNA的数据区域互补的DNA变性；

清洗腔室；

将来自DNA数字数据存储装置的第二表的DNA添加到腔室；

使来自第二表的DNA和与数据区域互补的DNA混合，该数据区域被附加到牢固支持物；以及

清洗腔室，其中被混合到与数据区域互补的DNA的DNA分子表示所述相交，并且通过清洗来移除的DNA分子表示集合差异。

条款15.根据条款11所述的方法，其中关系代数操作被重命名，并且该方法还包括标识DNA操纵以包括：

使来自DNA数字数据存储装置的DNA与位点特异性核酸酶系统相接触，该位点特异性核酸系统特定于字段ID序列；

将移除所述字段ID序列之后的DNA和与新字段ID序列互补的DNA序列混合；以及

合成在DNA中的新字段ID序列。

条款16.根据条款11所述的方法，其中关系代数操作是笛卡尔积，并且该方法进一步包括标识DNA操纵以包括：

合成模板DNA，模板DNA与以下各项互补：(i)具有表ID序列的DNA链的5'-末端序列的至少部分和具有第二表ID序列的DNA链的3'-末端序列的至少部分或者(ii)具有表ID序列的DNA链的3’-末端序列的至少部分和具有第二表ID序列的DNA链的5'-末端序列的至少部分；

将模板DNA与具有表ID序列的DNA链以及具有第二表ID序列的DNA链混合；

使混合的DNA与DNA连接酶接触，以创建单个DNA分子，该单个DNA分子包括具有表ID序列的DNA链和具有第二表ID序列的DNA链；以及

使来自单个DNA分子的模板DNA变性。

条款17.根据条款11所述的方法，其中关系代数操作是自然连接，并且该DNA操纵包括：

向腔室提供具有表ID序列的DNA；

合成与提供的DNA互补的互补DNA；

将互补DNA附加到一个或多个牢固支持物；

使来自互补DNA的具有表ID的DNA变性；

清洗腔室；

使用第二表ID序列执行根据条款16的DNA操纵；以及

将具有发夹环的DNA与不含发夹环的DNA分离，以标识来自第一表和第二表的DNA链，该DNA链具有相同数据区域值。

条款18.根据条款11至17中的一项所述的方法，还包括：标识DNA数字数据存储装置中的DNA分子集合，该DNA分子是涉及DNA操纵的关系代数操作的结果，并且其中来自DNA数字数据存储装置仅包括DNA序列集合的序列。

条款19.根据条款11至18所述的方法，还包括：发送合成互补DNA序列的指令。

条款20.根据条款11至18所述的方法，还包括：确定互补DNA序列是预合成的并且互补DNA序列可用于查询DNA数字数据存储装置。

条款21.一种在DNA数字数据存储中的合成ssDNA分子，该ssDNA分子包括：

表ID区域，其标识DNA数字数据存储装置中的表；

字段ID区域，其标识表的字段；以及

数据区域，其表示存储在表中的数据。

条款22.根据条款21所述的合成ssDNA分子，其中字段ID区域与数据区域相邻。

条款23.根据条款21或22所述的合成ssDNA分子，其进一步包括位于ssDNA分子的5’-末端的5'-末端序列和位于ssDNA分子的3’-末端的3'-末端序列，其中5’-末端序列或3’-末端序列中的至少一个包含预定义的引物位点。

条款24.根据条款21至23中的任一项所述的合成ssDNA分子，其进一步包括两个数据区域和在两个数据区之间的预定义的分隔符。

条款25.条款21至24中的任一项所述的合成ssDNA分子，其进一步包括两个数据区域和与两个数据区域中的每个相关联的表ID区域的单独实例。

结论

尽管已经以结构特征和/或方法动作专用的语言描述了主题，但是应当理解，所附权利要求中限定的主题不一定限于上文所描述的特定特征或动作。相反，特定特征和动作是作为实现权利要求的示例形式而被公开。

Claims

1.一种方法，包括：

接收关系代数操作，所述关系代数操作指明关系数据库中的表，其中所述表由表ID序列指定；

标识与所述关系代数操作相对应的DNA操纵，所述DNA操纵包括将互补DNA序列与包含在DNA分子中的所述表ID序列的至少部分混合；

向DNA DBMS发送执行所述DNA操纵的指令；以及

从DNA数字数据存储装置接收表示DNA序列的电子数据。

2.根据权利要求1所述的方法，其中所述关系代数操作是选择，并且所述方法还包括标识所述DNA操纵以包括：

将与所述表ID序列的部分互补的表ID互补序列以及与由所述选择所针对的字段ID序列互补的字段ID互补序列附加到一个或多个牢固支持物，其中所述表ID互补序列自身的长度在清洗期间不会将互补DNA序列保持在一起；

将来自所述DNA数字数据存储装置的DNA与所述表ID互补序列以及所述字段ID互补序列或腔室中的数据区域的值中的至少一个混合；

清洗所述腔室；以及

隔离留存在所述腔室中的所述DNA分子。

3.根据权利要求1所述的方法，其中所述关系代数操作是投影，并且所述方法还包括标识所述DNA操纵以包括：

合成互补DNA，所述互补DNA与第一预定义的分隔符互补并且与第二预定义的分隔符互补，其中第一预定义的分隔符是在来自所述DNA数字数据存储装置的DNA中的第一数据区域和第二数据区域之间的DNA序列，并且所述第二预定义的分隔符是在来自所述DNA数字数据存储装置的DNA中的第三数据区域和第四数据区域之间的DNA序列；

将来自所述DNA数字数据存储装置的所述DNA与所述互补DNA混合；

在利用DNA连接酶移除所述DNA环之后，接触所述DNA；以及

在从所述互补DNA中移除所述DNA环之后，将所述DNA从所述DNA数字数据存储装置中分离。

4.根据权利要求1所述的方法，其中所述关系代数操作是相交，并且所述方法还包括标识所述DNA操纵以包括：

其中所述表是第一表；

合成与预定义的分隔符互补的DNA；

将与所述预定义的分隔符互补的所述DNA附加到牢固支持物上；

将所述第一表的DNA添加到腔室；

通过合成与数据区域互补的DNA，来扩展与所述预定义的分隔符互补的所述DNA，所述数据区域与所述预定义的分隔符相关联；

使与所述预定义的分隔符互补的所述DNA以及与来自所述第一表的所述DNA的所述数据区域互补的所述DNA变性；

清洗所述腔室；

将来自所述DNA数字数据存储装置的所述第二表的DNA添加到所述腔室；

使来自所述第二表的所述DNA和与所述数据区域互补的所述DNA混合，所述数据区域被附加到所述牢固支持物；以及

清洗所述腔室，其中被混合到与所述数据区域互补的所述DNA的DNA分子表示所述相交，并且通过清洗而被移除的DNA分子表示集合差异。

5.根据权利要求1所述的方法，其中所述关系代数操作被重命名，并且所述方法还包括标识所述DNA操纵以包括：

使来自所述DNA数字数据存储装置的所述DNA与位点特异性核酸酶系统相接触，所述位点特异性核酸系统特定于字段ID序列；

将移除所述字段ID序列之后的所述DNA和与新字段ID序列互补的DNA序列混合；以及

合成在所述DNA中的所述新字段ID序列。

6.根据权利要求1所述的方法，其中所述关系代数操作是笛卡儿积，并且所述方法还包括标识所述DNA操纵以包括：

合成模板DNA，所述模板DNA与以下互补：(i)具有所述表ID序列的所述DNA链的5'-末端序列的至少部分和具有第二表ID序列的DNA链的3'-末端序列的至少部分，或者(ii)具有所述表ID序列的所述DNA链的3’-末端序列的至少部分和具有所述第二表ID序列的所述DNA链的5'-末端序列的至少部分；

将所述模板DNA与具有所述表ID序列的所述DNA链以及具有所述第二表ID序列的所述DNA链混合；

使所述混合的DNA与DNA连接酶相接触，以创建单个DNA分子，所述单个DNA分子包括具有所述表ID序列的所述DNA链和具有所述第二表ID序列的所述DNA链；以及

使来自所述单个DNA分子的所述模板DNA变性。

7.根据权利要求1所述的方法，其中所述关系代数操作是自然连接，并且所述DNA操纵包括：

向腔室提供具有所述表ID序列的DNA；

合成与提供的所述DNA互补的互补DNA；

将所述互补DNA附加到一个或多个牢固支持物；

使来自所述互补DNA的具有所述表ID的所述DNA变性；

清洗所述腔室；

使用所述第二表ID序列执行根据权利要求6所述的DNA操纵；以及

将具有发夹环的DNA与不具有发夹环的DNA分离，以标识来自所述第一表和所述第二表的DNA链，所述DNA链具有相同数据区域值。

8.根据权利要求1、2、3、4、5、6或7中的任一项所述的方法，还包括：发送合成所述互补DNA序列的指令。

9.根据权利要求1、2、3、4、5、6、7或8中的任一项所述的方法，还包括：确定所述互补DNA序列是预合成的并且可用于查询所述DNA数字数据存储装置。

10.根据权利要求1、2、3、4、5、6、7、8或9中的任一项所述的方法，还包括：标识所述DNA数字数据存储装置中的DNA分子集合，所述DNA分子集合是涉及所述DNA操纵的所述关系代数操作的结果，其中来自所述DNA数字数据存储装置的所述DNA序列仅包括所述DNA分子集合的序列。

11.一种用于在DNA数字数据存储装置上执行关系代数操作的系统，所述系统包括：

第一腔室，其包含多个DNA分子的液体悬浮液，每个DNA分子对来自关系数据库中的一个或多个表中的一个表的至少一行进行编码；

控制器，其被配置成接收用于操纵所述DNA分子的一系列指令，其中所述指令与关系代数操作相对应；以及

自动化系统，其被配置成响应于来自所述控制器的所述一系列指令而将一定体积的液体从所述第一腔室移动到第二腔室。

12.根据权利要求11所述的系统，其中所述自动化系统还被配置成将所述多个DNA分子中的一些或全部附加到牢固支持物。

13.根据权利要求11或12中的任一项所述的系统，所述系统还包括寡核苷酸合成仪，所述寡核苷酸合成仪被配置成合成如下DNA分子，所述DNA分子与所述多个DNA分子中的一个DNA分子的表ID区域、字段ID区域或数据区域的序列互补。

14.根据权利要求11、12或13中的任一项所述的系统，还包括DNA测序仪，所述DNA测序仪被配置成确定所述多个DNA分子中的一个DNA分子的全部或部分的序列，并且向数字计算机提供所述序列。

15.根据权利要求11、12、13或14中的任一项所述的系统，还包括数字计算机，所述数字计算机被配置成接收所述关系代数操作并且将所述关系代数操作转换成所述一系列指令，所述一系列指令用于至少部分基于所述多个DNA分子中的一个DNA分子的表ID区域的序列或字段ID区域的序列，来操纵所述DNA分子。