CN109071590A

CN109071590A - 用于分子探针的数据驱动设计、合成和应用的系统和方法

Info

Publication number: CN109071590A
Application number: CN201780024591.8A
Authority: CN
Inventors: 詹晟曦; 郭思明; 穆罕默德·A·卡迪尔
Original assignee: Fang Xin Genomics Co
Current assignee: Fang Xin Genomics Co
Priority date: 2016-03-01
Filing date: 2017-03-01
Publication date: 2018-12-21
Anticipated expiration: 2037-03-01
Also published as: EP3423463A4; CN109071590B; EP3423463A1; US20190080049A1; CA3016222A1; US11728009B2; WO2017147702A1

Abstract

本发明公开了用于设计和合成从样品的靶基因组捕获代表性基因组变体样本的探针的方法和系统。该方法包括提供多重序列比对(MSA)，设计多个代表性子序列，以及可选地合成核酸探针。设计步骤可以包括在MSA中指定多个间隔，移动每个MSA子集的起始位置，在每个调整的子集内聚类对齐的子序列，以及确定每个简化的MSA子集的代表性序列。本发明公开内容还包括使用本发明探针设计从样品中分离靶基因组亚区的多个核酸变体的方法，以及所述探针组合物。

Description

用于分子探针的数据驱动设计、合成和应用的系统和方法

相关申请的交叉引用

本申请要求2016年3月1日提交的美国临时申请No.62/302,078的权益，其公开内容通过引用整体并入本文。

技术领域

本发明提供了用于分子探针的合理设计、合成和应用的方法和系统。

关于序列表的声明

与本申请相关的序列表以文本格式而非纸件提供，并且通过引用结合到本说明书中。包含序列表的文本文件的名称是57930_Sequence_Final_2017-02-28.txt。文本文件大小为2KB，于2017年2月28日创建，并随同本说明书一并提交。

背景技术

一种捕获已知DNA片段(stretches)的早期手段是Southern blotting。该技术的变体，包括捕获RNA的Northernblotting，已经用于包括微阵列和液相杂交在内的许多现代应用。尽管DNA捕获概念已经经过更新并应用于许多其他发明中，但自20世纪70年代早期以来，基于互补DNA序列的探针作为“诱饵”的使用并没有改变。该常规探针设计取决于单个模板，其可以是参考序列或多数决定规则共有序列(其通常根据靶基因组区域的可获得的序列数据通过计算得到)。这种设计方法自Southernblotting/Northernblotting出现以来基本保持不变，其依赖于探针-靶分子结合来指示靶核酸的存在。虽然该方法简单，但这种设计方法并不总是理想的，因为它可能会引入靶标序列捕获偏差。

靶标序列捕获偏差发生在当探针优先与和探针更相似的核酸结合，而非与其他序列结合时。在目的是捕获高度可变核酸的代表性池的应用中，传统设计的探针是次优的。例如，流感基因组在感染期间快速突变，因此在感染患者体内表现为没有数千种也有数百种变体。当用于富集高度可变流感基因组时，传统设计的探针仅能捕获基因组的子集，因此获得非代表性的基因组抽样。为了获得偏差较少的抽样，人们可以不用常规设计的探针集合。然而，在如流感的情况下，遗传多样性非常高(例如，有成千上万的报告菌株)，而由于每个探针应当仅针对单一菌株，因此需要大量基于参考探针来完全捕获已知的遗传多样性。这种探针设计的可扩展性差，效率低且不经济。

在下一代测序(NGS)技术出现之前，不可能对高度可变的基因序列进行常规鉴定。基因序列可能在单个样本或多个生物相关样本中表现出很大的变异性，通常反映了深层的生物学。已经开发了几种技术来表征可变的基因序列。然而，没有一种在临床环境中得到成功应用。

由于显着低的错误率，Sanger测序是表征基因序列的事实上的金标准。然而，该方法在很大程度上取决于聚合酶链式反应(PCR)，它是一种指数扩增目标基因区域的化学反应。Sanger测序在稳定的基因区域上表现良好，在该区域，每个碱基都可以在没有信号模糊的情况下被确定。然而，当将其应用于快速变异(或高度可变)区域时，Sanger测序会有以下缺点：

1.通常，Sanger测序确定丰度最大的碱基。对于高度可变基因序列，在碱基识别(base calling)过程可能会遗漏丰度较低的碱基。

2.该方法要求引物结合位点稳定且特异。因此，许多感兴趣的基因区域对于Sanger测序来说可能太易变化，而不能起作用。

3.引物优先与引物本身显示出更高序列同源性的基因序列结合，从而会引起测序偏差。

NGS技术实现无偏基因测序。

全宏基因组测序是一种广泛使用的对临床或环境样品中细菌、病毒和真核来源的所有核酸进行测序的技术。采用NGS的全宏基因组测序研究揭示了先前未知的细菌和病毒的遗传多样性。这种隐藏的多样性可以提供有待被充分认识的有价值的信息(例如，关于丙型肝炎病毒的患者内遗传多样性的信息可以提供对病毒传播动态的深入了解)。虽然采用NGS的全宏基因组测序的功能强大，但其价格昂贵，且可能是低效的，特别是在仅对少数几个选择的遗传区域和/或生物体感兴趣的应用中。

当靶标生物和/或遗传区域已经预先确定，靶向宏基因组测序已作为全宏基因组测序的替代方案被提出。靶向测序是描述仅对感兴趣的遗传区域进行测序，而不是对给定样品中的所有遗传物质进行盲测序的技术的通用术语。例如，细菌中rRNA基因的扩增子NGS已成为一种广泛使用的用于调查环境样品的物种组成的技术。靶向测序的目标是提高NGS数据中的信噪比(即，需要的对不需要的序列)。可以使用各种方法实现靶向定位。这些方法包括基因特异性引物导向，液(或固)相杂交，蛋白质-核酸结合和酶促消化。每种方法都有其优缺点和预期的应用。液相杂交(LPH)与本发明最相关。LPH基于核酸互补结合的原理进行。当涉及易处理的(tractable)核酸片段(segments)集合时(例如，在流感亚型和菌株的鉴定中)，核酸(即DNA或RNA)分子的LPH是一种强有力的技术。该技术需要设计小的核酸(以下称为探针；请注意在PCR中，这种探针被称为引物)以结合并富集目标遗传区域。

尽管基因组采样和测序技术领域所具有的进步，仍然需要经济的、高效的方法来获得环境中可变基因组的综合采样。本发明针对该问题及相关需求提供解决方案。

发明内容

本发明这一部分以简化的形式对将要在具体实施方式中进一步描述的部分概念进行介绍。本发明内容并非旨在确定所要求保护的主题的关键特征，也不旨在用于帮助确定所要求保护的主题的范围。

在一个方面，本发明提供了一种用于分离靶基因组结构域的多个核酸变体的探针的设计方法。该方法包括：

(a)提供靶基因组结构域中观察到的变体的核酸序列的多重序列比对(MSA)；和

(b)设计多个代表性子序列，其中，设计步骤包括：

(i)在MSA的长度内指定多个间隔，其中每个间隔由具有所观察到的变体的比对的核酸子序列的MSA子集组成，其中每个MSA子集具有不同的起始位置；

(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数的位置，以提供经调整的MSA子集，其具有观察到的变体的比对的经调整的核酸子序列；

(iii)可选地，独立地评估每个经调整的MSA子集是否符合终止标准，如果经调整的MSA不符合终止标准，则重复步骤(ii)；

(iv)独立地在每个经调整的MSA子集内对比对的核酸子序列进行聚类，以提供对应于每个经调整的MSA子集的简化的(reduced)MSA子集；和

(v)确定每个简化的MSA子集的代表性子序列。

在一些实施方式中，该方法还包括合成对应于每个简化的MSA子集的至少一个核酸探针的步骤，其中每个核酸探针包含代表相应的提纯(distilled)的MSA子集的代表性子序列或其互补序列。

在一实施方式中，根据给定的空间限制指定MSA长度内的多个间隔。在一实施方式中，指定的间隔在MSA的长度上均匀分布。在一实施方式中，在MSA长度内的多个间隔被指定在包含高于MSA内平均保守序列含量的区域中。在一实施方式中，多个代表性子序列中的至少两个是非重叠的。在一实施方式中，步骤(b)(i)中的多个间隔是随机指定的。在一实施方式中，步骤(b)(i)的指定包括从多个指定的间隔中提取MSA子集，以在每个指定的间隔内提供比对的核酸子序列。在一实施方式中，每个MSA子集的起始位置位于子集的5'端或3'端。在一实施方式中，每个MSA子集起始位置移位的核酸位置的指定数目不超过相应MSA子集的长度。在一实施方式中，每个MSA子集的起始位置向5'端方向移位。在一实施方式中，每个MSA子集的起始位置向3'端方向移位。在一实施方式中，核酸位置的指定数目和/或用于独立移动每个MSA子集的指定方向增加了经调整的MSA子集内的保守位置的数量。在一实施方式中，由步骤(b)(ii)的移位产生的经调整后的MSA子集符合给定的空间限制。在一实施方式中，核酸位置的指定数目和/或用于独立地移动每个MSA子集的指定方向增加了保守位置在经调整的MSA子集的中心区域内的布局。在一实施方式中，步骤(b)(iii)的终止标准包括预设数量的移位迭代，经调整的MSA子集内的保守位置的预设百分比，用于定位保守位置的预设阈值等。在一实施方式中，步骤(b)(iv)的聚类包括使用距离度量按照相似性对每个经调整的MSA子集的调整后的核酸子序列进行分组，以为每个经调整的MSA子集提供一组或多组经调整的核酸子序列。在进一步的实施方式中，步骤(b)(iv)的聚类还包括根据由经调整的核酸子序列的数量定义的大小，对每个经调整的MSA子集的一组或多组调整的核酸子序列进行分级。在一实施方式中，简化的MSA子集由每个经调整的MSA的一组或多组满足或超过预设的大小阈值的经调整的核酸子序列组成。在一实施方式中，通过对任何假的变体的简化的MSA子集进行去噪，来确定代表性序列。在一实施方式中，代表性序列是相应的简化的MSA子集的共有序列。在一实施方式中，针对已知核酸序列的数据库，通过计算机筛选每个简化的MSA子集的代表性序列，其中，将与靶基因组结构域无关的已知序列具有高度相似性的任何代表性序列从后续步骤中省略。在一实施方式中，首先通过以增强MSA中同源核酸的比对的方式在较短序列中插入缺口，将MSA的序列转化为具有相同的长度。在一实施方式中，核酸探针包含代表性序列或其互补序列，且在核酸探针内是非连续的。在一实施方式中，核酸探针内的代表性序列(例如，共有序列)或其互补序列由促进发夹结构形成的序列所中断。

另一方面，本发明提供了从样品中分离靶基因组亚区的多个核酸变体的方法。该方法包括使多个探针与样品接触，其中每个探针包含简化的MSA子集的代表性子序列的序列或其互补序列；分离样品中与多个探针中的一个或多个探针杂交的核酸分子。在一实施方式中，多个探针通过以下步骤获得：

(a)提供靶基因组结构域的所观察到的变体的核酸序列的多重序列比对(MSA)；和

(b)设计多个代表性序列，包括：

(i)在MSA的长度内指定多个间隔，其中每个间隔由具有预测变体的比对的核酸子序列的MSA子集组成，其中每个MSA子集具有不同的起始位置；

(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数量的位置，以提供经调整的MSA子集，其具有观察到的变体的比对的经调整的核酸子序列；

(iv)独立地聚类每个经调整的MSA子集内的比对的核酸子序列，以提供对应于每个经调整的MSA子集的简化的MSA子集；和

(v)确定每个提取的MSA子集的代表性子序列。

在一实施方式中，该方法还包括合成多个探针的步骤。

在一实施方式中，每个代表性序列包含在多个探针内的至少一个探针中。在一实施方式中，该方法还包括对从样品中分离的核酸分子进行测序。

另一方面，本发明提供了通过本文公开的方法合成的一个或多个核酸探针。在一实施方式中，靶基因组结构域选自流感病毒的HA结构域和NA结构域。

另一方面，本发明提供了一种核酸探针，其包含第一靶结构域、第二靶结构域和设置在第一靶结构域和第二靶结构域之间的发夹结构域，其中发夹结构域形成发夹结构，其导致第一靶结构域和第二靶结构域极为贴近对齐(aligning in closeproximity)，使得它们一起能够与连续的互补靶序列杂交。在一实施方式中，发夹结构域进一步包含与其连接的配体。在一实施方式中，发夹结构域进一步包含限制性内切酶消化位点。在一实施方式中，通过本文描述的方法设计第一靶结构域和第二靶结构域。

附图说明

通过参考以下详细描述并结合附图，本发明的前述各个方面及其诸多优点将变得更容易理解，其中：

图1是对利用本发明所公开的方法和系统在更广泛的策略中，对来自特定环境的靶标生物的基因组变体的多样性进行抽样和分析的示例性方法进行概述的示意图。

图2是具有三个指定的MSA子集或“片段(slices)”的示例性序列比对(MSA)。其中，MSA的序列在本文中标为SEQ ID NO：1-5。

图3表示本发明一实施方式中基于感兴趣区域的初始的、多样化的序列集提供探针序列的方法和系统的示意图。

图4示出了可以生成以结合由本发明所公开的方法提供的代表性序列的示例性探针结构，但是其以非连续的方式结合代表性序列。在所示的实施方式中，代表性序列(与靶核酸比对)被分成两个区域并由发夹结构分开。

图5A和5B示出了由本发明所公开的方法和系统提供的设计构造的物理探针的两个代表性实施方式。图5A表示所提供的序列以单个、连续序列的方式与探针结构结合的一个实施方式。图5B表示所提供的序列以由发夹结构分开的多个、不连续的序列与探针结构结合的一个实施方式。

具体实施方式

本发明涉及用于合理设计探针的方法和系统，所述探针可以有效且全面地对高度可变的基因组进行抽样。所述合理设计利用可获得的序列数据来捕获感兴趣的遗传区域。与现有方法(例如天真地为遗传区域的每个不同变体(或在流感的情况下为每个菌株)创建一个探针)相反，本发明方法得到最小的探针集，其(1)最小化靶标捕获偏差(2)最大化覆盖目标遗传多样性。本发明基于发明人开发的系统和方法，用于根据序列数据设计探针，合成探针，最后通过靶向测序将探针应用于可解决的问题。本申请的发明人还通过使用这些合理设计的探针从临床样品中直接捕获来自病毒(例如流感)的可变基因组，证明了这些探针的实用性和性能。

本发明所公开的方法和系统的一个应用是捕获靶向遗传物质(即靶向富集)。然而，该方法和系统可用于消耗或去除不需要的遗传物质。另外，使用本发明所公开的方法设计的探针可以与任何核酸检测技术偶联。例如，虽然在NGS应用的背景下描述了该技术，但是显而易见的是，本发明方法也可用于产生适用于例如微阵列和微流体技术的探针。

为了说明潜在的应用性，可以将本发明的系统、方法和/或由其产生的探针整合到更广泛的策略中，以对特定环境中靶标生物的基因组变体的多样性进行抽样和分析。图1提供了这种方法的示意图。

本发明提出的一个新颖的方面是使用可获得的序列数据和机器学习技术进行探针设计。这不同于依赖于单一参考序列或共有序列的常规设计。相反，使用本发明的方法进行的探针设计构建包含关于目标区域的遗传多样性的信息。结果是减少了潜在的目标捕获偏差，并获得目标区域遗传多样性的最大覆盖范围。该方法还可利用机器学习技术来确定所需探针的最小数量而不牺牲遗传多样性的覆盖范围。因此，与常规设计的探针相比，使用本发明的方法设计的探针可提供优异的靶标捕获性能，特别是在涉及高度可变核酸的应用中(例如，快速进化的流感病毒基因组)。

根据前述内容，在一个方面，本发明提供了设计和/或合成用于分离靶基因组结构域的多个核酸变体的探针的方法。在一些实施方式中，该方法包括(a)提供靶基因组结构域的观察到的变体的核酸序列的多重序列比对(MSA)；(b)设计多个代表性子序列。

可以根据任何适当的方法生成MSA，其中许多方法是本领域常用的。参见以下对示例性实施方式的补充讨论。在一些实施方式中，MSA的产生包括在特定序列内插入缺口以增强比对。

在一些实施方式中，该方法进一步包括步骤(c)合成对应于每个简化的MSA子集的至少一个核酸探针，其中每个核酸探针包含代表相应提取的MSA子集的代表性子序列或其互补序列。

在一些实施方式中，设计多个代表性子序列的步骤(步骤(b))包括：

(v)确定每个提取的MSA子集的代表性子序列。

MSA的长度内的多个间隔可以根据给定的空间限制来指定，或者可以基于关于目标区域的现有知识来任意地分配MSA。最基本的空间限制包括MSA本身的末端边界(即，所有间隔完全位于MSA内)。其他可能的空间限制包括相邻间隔之间的冲突(collisions)或最小距离。

每个间隔由MSA的子集组成。术语“间隔”具体指的是MSA的所选区域的水平长度。术语MSA子集可以与术语“片段(slice)”互换使用，并且指的是间隔内的多个序列子串(substrings)的对齐(例如，子串1、子串2、子串3等的对齐)。图2所示的是包含示例性MSA的“片段”的若干非重叠间隔。在一些实施方式中，指定的间隔在MSA的长度上均匀地(或基本上均匀地)分布。在其他实施方式中，分布可以有偏差，例如，朝向显示高可变性的区域，这样可以受益于更高的探针覆盖范围或远离不需要的区域。在一些实施方式中，MSA长度内的多个间隔被指定在在MSA内表现出保守性(例如，高于平均保守性)的区域内。在一些实施方式中，多个间隔中的至少两个是非重叠的。在一些实施方式中，所有的所述多个间隔都是非重叠的。在一些实施方式中，多个间隔中的每一个具有不同的“起始点”。术语“起始点”可以定义为序列中的最左端或5'端侧位置。或者，术语“起始点”可以定义为序列中的最右端或3'端侧位置。每个间隔(或其中的MSA子集)可以具有指定的长度，不同间隔的长度可以不相同。

根据一实施方式，一旦指定了多个间隔，每个间隔沿着MSA的长度在指定位置移动指定核酸数目的位置，以提供经调整的MSA子集，其具有变体的比对的经调整的核酸子序列。每个间隔的移位是独立的，这样使得每个间隔可以根据相同或不同的标准移位。标准包括将起始位点移动一定核酸数量的位置。该移动还可以包括相应的末端位置的类似移位，使得移位导致在MSA上产生滑动的“窗口”，其中经调整的间隔保持相同的长度。在其他实施方式中，终止位点发生移位，但不移动相同数量的位置，使得间隔的大小增大或减小。最后，在一些实施方式中，当调整起始位点时，终止位置保持不变。移位可以是沿5'或向3'方向(对于起始位点和/或终止位点)。

有关移位的各个方面，包括位置的数量、移动起始和/或结束位置的选择、和/或其移位方向，可以增加新形成的经调整的MSA子集(即，经调整的“片段”)内的保守位置的数量。在一实施方式中，在一个或多个间隔中实施移位，以便以加权到经调整的MSA子集的中心区域的方式分配保守位置(例如，在中间50％左右的位置，而不是前25％左右或最后25％左右的位置)。或者，也可以采用移位标准使得经调整的MSA子集符合设定的空间限制，例如相邻间隔之间的最小距离。

在一些实施方式中，独立地评估经调整的间隔中的每个调整的MSA子集(调整的“片段”)是否符合终止标准。终止标准可包括MSA子集的任何期望特征，例如保守核酸的含量、特定常见序列基序的省略、序列熵、GC含量等。如果特定调整的MSA子集不符合终止标准，则可以进一步调整间隔以提供重新评估的另一个经调整的MSA子集。该循环可以根据需要重复多次，直到经调整的MSA子集达到优选标准。在一些实施方式中，可以限制移位操作的次数。

应当理解的是，当调整各个间隔时，若干个已调整的间隔可能会重叠或各自的相对位置会发生改变。

一旦调整了间隔，即可以对每个经调整的MSA子集(调整的“片段”)的子序列执行聚类步骤。该聚类步骤产生简化的MSA子集。该简化的MSA子集可以是MSA子集本身，或者在一些实施方式中，相对于经调整的间隔的MSA子集中的其他(被排除的)成员，简化的MSA子集的成员彼此更相似。例如，简化的MSA子集可以省略已被标记为噪声(即，不具代表性的异常值序列)的随机变量。此外，例如，可以丢弃或忽略发生率低于0.1％的罕见变体。随后，可以为每个简化的MSA子集确定代表性序列。“代表性序列”是指代表简化的MSA子集中存在的大多数序列的单个序列。代表性序列可以是共有序列，如通过本领域通常已知的用于此目的的任何适当技术所确定的共有序列。例如，参见以下更详细地的讨论。代表性序列可以在一个或多个位置处(即残基的身份保留了有限选择的多个可能的替代身份(例如，A/T，G/T，C/G/A，N(任何核苷酸)等)的位置)包含简并性。在一些实施方式中，可以用分布信息来指定简并性，例如在位置X处，碱基有20％的可能是A，20％的可能是T，50％的可能是G和10％的可能是C。

在一些实施方式中，聚类包括使用距离度量通过相似性对每个经调整的MSA子集的经调整的核酸子序列进行分组，以为每个经调整的MSA子集提供一组或多组经调整的核酸子序列。在进一步的实施方式中，聚类还包括根据由经调整的核酸子序列的数量定义的大小对每个经调整的MSA子集的一组或多组调整的核酸子序列进行分级。然后，简化的MSA子集可以由每个满足或超过预设的大小阈值的调整的MSA中的一组或多组经调整的核酸子序列组成。

在确定代表性序列后，可以检查与已知核酸序列的相似性，以避免最终使用会富集不相关或无关序列的探针。例如，可以根据已知核酸序列的数据库，在计算机上筛选经调整的MSA子集的已确定的代表性序列，其中，在该方法的后续步骤中省略与已知的与靶基因组结构域无关的序列表现出高度相似性的任何代表性序列。根据已知方法，可以通过标准条件下杂交的理论上的可能性，容易地确定“高相似性”的阈值。

如所指出的，可以基于由上述方法获得的代表性序列合成或获得探针。应当理解的是，探针本身不需要在一个连续序列中含有指定的代表性序列。相反，如下所述以及图4和图5B中所示，探针可含有中断代表性序列的其他序列，例如形成发夹结构的其他序列。如下所述，这种结构可以通过允许额外的捕获试剂(例如配体)的附着，来帮助探针构建体提高回收效率，同时避免若配体附着在探针构建体的末端时而可能发生的空间位阻。

本发明还提出一种方法，其中，通过所公开的探针(包含如本文所述的代表性序列，无论是否处于连续状态)与样品接触，所述探针用于分离与各探针的代表性序列杂交的任何核酸分子。如下文更详细的描述，实验结果表明，相比依赖于标准共有序列的传统方法，该方法能够成功富集多样性更高的靶序列变体。

另一方面，本发明提供了通过本文所述方法生成的分子探针。下面更详细地描述了探针的代表性结构。如所指出的，探针可以包含具有连续序列的代表性(亚)序列，或者可以包含被其他结构或序列(例如发夹结构)中断的(亚)序列结构域。

在一些实施方式中，探针包含流感病毒的代表性序列，例如，由来自流感病毒株的HA或NA结构域的MSA产生的代表性序列。同样，探针不需要包含连续状态的代表性序列，也可以包含包括代表性序列的结构域之间的干预结构(intervening structure)的中断的序列(interrupted sequences)。因此，本发明提供了一种核酸探针，其包含第一靶结构域，第二靶结构域，和设置在第一靶结构域和第二靶结构域之间的发夹结构域，其中发夹结构域形成发夹结构，使得第一靶结构域和第二靶结构域极为贴近对齐，从而能够与连续的互补靶序列进行杂交。

在一些实施方式中，发夹结构域进一步包含与其附着其上的配体。如下所述，配体可以是用于捕获目标的任何已知配体，例如生物素等。

另一方面，本发明提供了用于分离(富集)靶核酸变体的系统。该系统可包含如本文所述的探针，其包含配体，以及特异性与配体结合的受体。在一些实施方式中，受体是固定的。

根据上下文，就一个说明性实施例进行通常的描述。首先整理和组织被靶向的遗传区域(例如，来自NCBI流感病毒资源的流感基因组的HA区段的Sanger序列数据)的序列数据库。目的是创建一组代表目标遗传区域的序列。可选地，可以使用技术来减少可能存在的抽样偏差。然后，使用多重序列比对仪计算多重序列比对(MSA)，例如使用MUSCLE(EdgarRC.2004。MUSCLE：高精度和高通量多重序列比对。Nucleic Acids Research 32：1792-7)，MAFFT(Katoh K，Standley DM.2013。MAFFT多重序列比对工具版本7：在性能和可用性方面进行改进。MolBiolEvol 30：772-80)，或ClustalW(Larkin MA等，2007。ClustalW和ClustalX版本2。生物信息学23：2947-8)。

接下来，将先前步骤产生的MSA作为设计算法的输入(参见图2和图3)。算法的输出是探针序列的集合。然后可以使用BLAST(或另一种搜索工具)根据序列数据库(例如NCBIGenBank)检查这些探针序列，以确保它们与非靶标生物的核酸序列非高度相似。该质量控制步骤消除了捕获不需要的核酸的可能性。另外，可以对探针进行修饰。一种修饰是探针末端的化学修饰(1)以阻断对探针的测序用于防盗，和(2)增强探针储存的稳定性。另一种修饰是将独特的发夹序列插入探针序列中(1)以减轻探针对样品的污染，和(2)提高目标捕获效率。特别是关于靶标捕获，该方面通常可以通过生物素(其一端附着于探针)和链霉亲和素(其附着于某些表面)之间的结合来进行；更普遍地，靶标捕获通过配体和受体之间的结合实现。通过引入发夹(参见图4)，可以更好地定位生物素以防止由于空间位阻的影响降低生物素—链霉亲和素的结合效率(参见图5A和5B)。因此，可以通过增强生物素—链霉亲和素(或配体—受体)的结合效率来改善靶核酸的靶标捕获。

在本发明方法的后续步骤中，设计的探针序列用于合成所需的探针构建体。可以根据任何适用的实验方案将合成的探针用于靶标捕获步骤。例如，可以使用任何商业可得的NGS方法(例如使用Illumina和Life Technologies的仪器)对靶标富集的文库进行测序。

最后，可以使用已知的程序和分析方法分析由NGS机器生成的read数据。例如，在对流感HA和NA结构域进行抽样的情况下，使用read比对工具，例如BWA(Li H，DurbinR.2009。使用Burrows-WheelerTransform快速准确地进行短read比对。Bioinformatics25：1754-60)或Bowtie2(LangmeadB，Salzberg SL.2012。使用Bowtie 2进行快速间隙read比对。NatMethods 9：357-9。)，将获得的reads映射到每种识别的HA和NA亚型的参考序列。然后，将reads的映射位置总结在覆盖深度图(depth-of-coverageplots)中，通过reads显示对参考序列抽样的良好程度如何。支持良好的亚型的参考序列预期应该完全或几乎完全被覆盖。可以使用这些图来评估探针的目标捕获性能。

以下是用于设计能够对靶序列的不同变体进行抽样和富集的分子探针的说明性算法的描述。该描述具体说明了本发明抽样方法的第二步骤中的探针设计算法(参见图1中所示的方案)。

探针设计算法

在此对从输入的核酸序列组中设计分子探针序列集合的问题用公式进行阐述。

作为引文，为了帮助描述算法，定义了几个函数，其是算法中关键步骤的概括(在各种实施方式中，特定函数可以变化，但仍然可以实现目标)。在实践中，这些函数可以是由用户根据需要选择的特定的计算方法(例如，贝叶斯聚类可以用于聚类函数)或数学函数(例如，移位函数可以定义为经验期望与理论期望的偏差，假设是标准正态分布的情况)。因此，本文概述的算法代表了在给定感兴趣的遗传区域的核酸序列集的情况下，设计探针核酸序列的一般框架。有关特定实施方式变形的进一步讨论，请参见修改部分。

获得一组字符串S(其大小由|S|表示)，其字符属于字母表Σ＝{A,C,G,T}。注意，核苷酸尿嘧啶U的字母用字母T代替。

首先使用多重序列比对(MSA)算法将S中的字符串彼此进行比对。MSA算法可以是本领域中已知的任何合适算法。在下面的修改1中进一步讨论了几个示例性实施方式。

MSA中的每一行代表S中与S中所有其他字符串比对的转换版本的字符串。MSA中的所有行具有相同的长度L。作为MSA的结果，可以将表示插入或删除的间隙(表示为-)引入S中的字符串中。该组转换后的字符串用S'表示，其字符属于扩展字母表Σ'＝Σ∪{-}。

定义1：MSA是|S|乘L矩阵(|S|byLmatrix)，其元素r_i,j属于Σ关于i∈{1,...,|S|}和j∈{1,...,L}。

MSA用作示例性算法的输入。该算法涉及识别一组字符串P的问题，每个字符串P是S中字符串的子字符串，具有一些用户定义的长度k。

定义2：集合P中的每个字符串是S'中字符串的子字符串。它也是MSA中的一系列元素，并表示为p_i,j,k＝r_i,j,r_i,j+1,...,r_i,j+k-1,其中i∈{1,...,|S|}和j∈{1,...,L}。

该算法识别适用于探针设计的MSA中的间隔。它定位沿MSA间隔分布的非重叠间隔，满足给定的限制(有关如何满足空间限制的详细信息，参见定义5)。有关不同的间隔方案，参见修改2。该算法然后提取位于长度为k的那些间隔内的MSA的子集(称为“MSA子集”或“片段”)。片段的最左侧位置(例如，核酸序列中的5'位置)称为“起始位置”。例如，在图2中，从由5个转换的字符串组成的MSA中提取长度为4的片段。

定义3：函数slice(i,k)将MSA子集化(subsets)为|S|，通过i+k-1矩阵(即输出片段)，其中i∈{1,...,L}。

接下来，移位函数用公式表示以表示(1)片段在哪个方向的移位和(2)片段的移位程度。有关移位函数的各种说明性形式的讨论，见修改3。此函数的输出用于优化切片的起始位置，例如，最大化MSA中变换后的字符串的目标代表百分比(target percentrepresentation)。

定义4：函数shift(X)返回作为矩阵X的函数的正值或负值。值的符号表示片段的移位方向。

然后使用移位值来调整片段的开始位置。可以约束每个起始位置的可能位置。adjust函数将移位值应用于片段的起始位置，并检查起始位置是否满足空间限制。有关可替代的调整方案，参见修改4。

定义5：函数adjust(X,Y,A,B)取一个起始位置列表X，并根据Y中的移位值改变每个起始位置，同时确保调整后的起始位置在A中左边界位置的允许范围内和B中右边界位置的允许范围内。即，0≤a_i≤x_i+y_i且x_i+y_i+k-1≤b_i，其中x_i，y_i，a_i和b_i分别表示为X，Y，A和B中的i^th元素(第i个元素)，并且注意，X，Y，A和B具有相同的长度。该函数返回相应的调整后的起始位置列表。

在每次迭代中，探针设计算法(1)采用起始位置，(2)提取从那些起始位置开始的片段，(3)计算来自片段的移位值，然后(4)使用移位值调整起始位置。重复该过程直到满足指定的终止条件。终止条件可以是适合于预期分析的任何确定的标准。例如，在尝试了指定次数的迭代之后，或者对于5次连续迭代最大移位值为1。该算法的工作流程图如图3所示。

一旦起始位置调整完成，由新的起始位置产生的每个片段(即，也称为“经调整的MSA子集”)被输入到聚类函数中。有关说明性聚类方法的简要讨论，参见修改5。使用一些距离度量(例如，简单的汉明间距)通过相似性将输入片段的行字符串聚类在一起。

定义6：函数cluster(X,o)将矩阵X中的行字符串分成组，使得d(p,q)≤o，其中d(p,q)表示字符串p和q之间的成对距离，其中o是允许的最大距离。它返回类似字符串的组。

对于给定片段(经调整的MSA子集)，根据其大小对所得到的相似行字符串组进行排序。保留最大的行字符串组，它们共同包含S中z(一个输入参数)百分比以上的字符串，并且可以在最后一步中丢弃较小的行字符串组。最后，保留的每个相似字符串组作为输入到一致性函数(consensus function)中以创建代表性字符串，其是探针字符串本身——即集合P的元素。

定义7：一致性函数consensus(X)取矩阵X(takes amatrixX)并返回字符为c₁c₂...c_k的字符串，其中c_i是矩阵中第i列最常观察到的字符。输出字符串只是多数规则共有序列。注意，应从共有序列中删除间隙。

总之，提供上述定义，用公式表示探针设计算法，以在给定输入MSA和两个输入参数k(探针长度)和z(最小百分比)的情况下确定P。

质量检查

本文描述的探针设计算法的原始输出是用于靶向高通量测序的探针核酸序列的集合。优选使用诸如BLAST的搜索工具根据核酸序列数据库(例如NCBI GenBank)检查这些探针序列，以确保探针序列与报告的属于非靶标生物的核酸序列非高度相似。例如，对于设计用于靶向流感基因组的探针，在应用这些探针之前最好丢弃那些对NCBI GenBank中的任何非流感核酸序列显示高序列同一性(例如，超过75％)的潜在的探针序列。然后，可以将剩余的探针序列视为经质量检查的。另外，可以进行BLAST检查，以确保最终探针序列(其构建为共有序列，并因此可能与先前记录的天然序列不完全相同)表现出与已知流感核酸序列具有高度序列相似性。

修改

在各种实施方式中，可以修改探针设计算法中的步骤，以增强探针设计和/或使算法适应特定问题或环境。下面描述几个示例性修改。然而，应当认识到，本领域普通技术人员根据相同或类似目的可以提出进一步的修改。

示例性修改1–多重序列比对方法

在生物信息学文献中已经公开了多种工具，以解决使一组核苷酸(或氨基酸)序列彼此比对的经典问题。这些工具的产物是MSA矩阵，其列代表序列的同源位置。常用的比对工具包括ClustalW(Larkin MA等，2007。ClustalW和ClustalX版本2。Bioinformatics 23：2947-8)，MAFFT(Katoh K，Standley DM.2013。MAFFT多重序列比对工具版本7：在性能和可用性方面进行改进。MolBiolEvol 30：772-80)，MUSCLE(Edgar RC.2004。MUSCLE：高精度和高通量多重序列比对。NucleicAcidsRes 32：1792-7)和ProbCons(Do CB，MahabhashyamMSP，Brudno M和Batzoglou S.2005。PROBCONS：基于概率一致性的多重序列比对。GenomeRes 15：330-40)。这些比对工具具有不同的精度和速度。其中相比于其他工具，一些工具更擅长处理大的数据集或更难处理的数据集(例如，更多的发散序列(divergentsequences))。用户可能希望使用最适合于要分析的数据集的比对工具。然而，原则上可以使用任何比对工具，但必须强调的是MSA的质量可能影响探针设计算法的输出。

示例性修改2–初始间隔方案

可以使用简单的试探法初始确定(initially seeded)起始位置。例如，沿着MSA的整个长度均匀间隔。然而，可以设计更复杂的方案来优化片段之间的间隔。例如，可以首先将两个片段设置在MSA的末端，然后可以沿着未占用的MSA长度均匀地间隔设置剩余的片段。另一种可能是在MSA中使用结构信息以定位相对保守的区域，以设置初始片段。

示例性修改3–移位函数

移位函数的目的是确定如何基于片段的内容调整片段的位置。假设人们希望设置片段使得它们的核苷酸序列相对保守。移位函数的一个公式是“质量中心(centerofmass)”。该想法是移动片段使得片段中的序列(其在此处被视为质量体)的熵(或保守性)景观(landscape)的质量中心尽可能接近片段的中间点。可以使用除熵和保守性之外的不同公式来捕获片段中的信息。移位函数可以以不同方式定义，只要其有助于找到对于预期目标最佳的片段的位置(例如，最小化每个片段生成的探针的数量)。

示例性修改4–起始位置调整方案

在一实施方式中，探针设计算法顺序地优化起始位置。算法以升序不断迭代位置。然而，用户可能会发现其他排序方案更有用或更理想。例如，可以将起始位置随机化以进行优化。这可能影响起始位置的设置当要求片段应该至少相隔一定距离时(即，基于侧翼片段的起始位置(其在迭代之间可能不同)定义允许的片段边界)。

示例性修改5–聚类方法

机器学习文献中有一套庞大且不断增长的聚类算法。可以使用经典的分级聚类方法来基于距离度量(例如汉明间距(也可以使用汉明间距的变形方式或其他类型的距离度量))找到相似字符串的组。可以应用诸如贝叶斯分级聚类之类的更复杂的方法，其产生用于对字符串进行分组的概率阈值。原则上，任何聚类算法都可以适用于将字符串分成不同的组。来自聚类的关键信息是(1)将字符串分成的组的数量和(2)各组中有哪些字符串。用户可以探索各种聚类算法，并决定哪种算法最适合对手头的序列数据进行分组。

应注意的是，如本文所使用的，在权利要求书中术语“或”是指“和/或”，除非明确指出仅指代替代物或替代物是相互排斥的，即使仅指替代物以及“和/或”的定义能够得到本发明公开内容的支持。

根据存在已久的专利法，除非特别说明，当在权利要求书或说明书中词语“一(a)”和“一个(an)”与词语“包括”一起使用时，表示一个或多个的意思。

除非上下文明确要求，否则在整个说明书和权利要求书中，词语“包括”，“包含”等应以包含性的意义解释，而不是排他性或详尽的意思解释；也就是说，表示“包括，但不限于”的意思。使用单数或复数的词语也分别包括复数和单数。另外，当在本申请中使用词语“本文”、“以上”和“以下”以及类似含义的词语时，应当是指将本申请作为整体而不是本申请的任何特定部分。

本发明公开了可以用于所公开的方法和组合物的、可以与所公开的方法和组合物一起使用的、可以用于制备所公开的方法和组合物的、或者是所公开的方法和组合物的产品的材料、组合物和组分。应当理解的是，当这些材料的组合、子集、相互作用、群组等被公开时，即使没有明确披露特指这些化合物中的每种单一组合以及每一种置换，各种化合物的每一种及组合也是明确可以预期的。这一概念适用于本公开的所有方面，包括但不限于所描述的方法中包括的步骤。因此，任何前述实施方式中的特定元素可以被组合或被其他实施方式中的元素所替代。例如，如果可以执行的多个附加步骤，则应理解，这些附加步骤中的每一个可以利用本发明所公开方法的任何特定方法步骤或方法步骤的组合来执行，并且每个这样的组合或组合子集是明确可预期的，并且应当认为是已公开的。另外，应当理解，本文描述的实施方式可以使用任何合适的材料实施，例如本文其他地方所描述的或本领域已知的那些材料。

以下是本发明所公开的系统和方法的说明性应用的概念验证描述，所述系统和方法产生新的探针，其有效地富集和测序来自临床样品的流感病毒的多样性。

简介：本文描述的方法可以克服靶向测序应用中的靶标捕获偏差。所公开的方法特别便于应用于表现出显著异质性的靶标遗传区域。本文还描述，所公开的方法已应用于通常在临床样品中以微量存在的流感病毒基因组的富集和测序。采用常规设计探针的靶标捕获偏向于单一参考序列或共有序列。因此，现有的探针设计不能适用于靶核酸的快速突变性质。当靶分子与探针实质不同时，富集减少并偏向于与探针更类似的分子。本方法通过考虑靶遗传区域的已知序列集，产生涵盖靶向遗传区域的更广泛和更全面的变体谱系的探针池，来克服该问题。因此，本发明所公开的系统对于可从私人和/或公共来源(例如流感)获得的丰富序列数据的情况来说是最佳的。当与最佳靶向富集技术和测序仪器结合时，合理的数据驱动设计的探针能够提供一种捕获靶核酸的方法，当靶标显示出显著的序列多样性时，该方法能够降低靶标捕获偏差和提高检测灵敏度。

结果与讨论：设计并合成了靶向流感病毒的两个快速突变区段(即区段HA和NA)的探针。下载、组织公开途径可获得的序列数据(来自NCBI流感病毒资源)，然后将其作为本发明的探针设计算法部分的输入。针对HA(H1至H16)和NA(N1至N9)的每种已知亚型生成探针序列，然后在探针合成之前进行人工检查。通过商业寡核苷酸制造商订购探针。在靶标捕获步骤中，使用新设计的探针对三种细胞培养的样品(单个H3N2菌株；两种H1N1菌株和一种H3N2菌株的混合物；和没有流感病毒的阴性对照)执行整个程序。对于这些细胞培养的样品中的每一个，制备一系列稀释浓度以测试目标捕获步骤的灵敏度：所提供材料的100％、10％和1％。对于NGS步骤，在Illumina MiSeq机器上对所有9个样品(3个样品中的每一个有3个稀释水平)进行测序。在基本质量控制步骤之后，将得到的Illumina reads映射到16种HA和9种NA亚型中的每一种的代表性参考序列。结果表明，即使在1％的最低稀释水平下，探针也可以直接从样品中有效地检测出(pulling out)期望的流感HA和NA片段。这些初步实验表明，使用可获得的序列数据设计的探针可以高灵敏度地富集靶核酸。可以进行另外的实验以进一步证实和证明本发明所公开的系统和方法对其他临床样本的效用，及其对靶向测序优于使用常规探针的优越性能，以及不存在靶标富集的全宏基因组测序。

虽然已经说明和描述了说明性实施方式，还应当认识到，在不脱离本发明的精神和范围的情况下，可以在其中进行各种改变。

SEQUENCE LISTING

<110> 方馨基因组学公司

<120> 用于分子探针的数据驱动设计、合成和应用的系统和方法

<130> FGEN-1-57930

<150> US 62/302078

<151> 2016-03-01

<160> 5

<170> PatentIn version 3.5

<210> 1

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 1

atggtgatta gcacagatcg gactca 26

<210> 2

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 2

atgctgctta gcacagctcg ggctga 26

<210> 3

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 3

atggtgatta gcacacatgg agctga 26

<210> 4

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 4

acggtgatta gcacagatcg tactct 26

<210> 5

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的

<400> 5

atggtgctag cacatatcgg actca 25

Claims

1.以下权利要求书要求保护本发明的实施方式的排他的权利和特权。

一种用于分离靶基因组结构域的多个核酸变体的探针的合成方法，包括：

(a)提供所观察到的所述靶基因组结构域的变体的核酸序列的多重序列比对(MSA)；

(b)设计多个代表性子序列，包括：

(i)在MSA的长度内指定多个间隔，其中每个间隔由具有所观察到的变体的比对的核酸子序列的MSA子集组成，其中每个MSA子集有不同的起始位置；

(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数的位置，以提供经调整的MSA子集，其具有所述观察到的变体的比对的经调整的核酸子序列；

(iv)独立地在每个经调整的MSA子集内对比对的核酸子序列进行聚类，以提供对应于每个经调整的MSA子集的简化的MSA子集；和

(v)确定每个简化的MSA子集的代表性子序列；以及

(c)合成对应于每个简化的MSA子集的至少一个核酸探针，其中每个核酸探针包含代表相应的提纯的MSA子集的代表性子序列或其互补序列。

2.根据权利要求1所述的方法，其中，根据设定的空间限制，在MSA的长度内指定多个间隔。

3.根据权利要求2所述的方法，其中，所述指定的间隔在所述MSA的长度上均匀分布。

4.根据权利要求2所述的方法，其中，在MSA的长度内的所述多个间隔被指定在MSA内保守性高于平均水平的区域中。

5.根据权利要求1所述的方法，其中，所述多个代表性子序列中的至少两个是非重叠的。

6.根据权利要求1所述的方法，其中，步骤(b)(i)中的所述多个间隔是随机指定的。

7.根据权利要求1所述的方法，其中，步骤(b)(i)中的指定包括从所述多个指定的间隔中提取MSA子集，以在每个指定的间隔内提供比对的核酸子序列。

8.根据权利要求1所述的方法，其中，每个MSA子集的起始位置是位于子集的5'端或3'端的位置。

9.根据权利要求1所述的方法，其中，每个MSA子集起始位置移动的所述指定的核酸数的位置不超过相应MSA子集的长度。

10.根据权利要求1所述的方法，其中，每个MSA子集的起始位置向5'端方向移位。

11.根据权利要求1所述的方法，其中，每个MSA子集的起始位置向3'端方向移位。

12.根据权利要求1所述的方法，其中，用于独立移动每个MSA子集的所述指定的核酸数的位置和/或所述指定的方向增加在所述经调整的MSA子集内的保守位置的数量。

13.根据权利要求1所述的方法，其中，由步骤(b)(ii)的移位产生的经调整的MSA子集满足设定的空间限制。

14.根据权利要求1所述的方法，其中，用于独立移位每个MSA子集的所述指定的核酸数的位置和/或所述指定方向增加所述保守位置在所述经调整的MSA子集的中心区域内的设置。

15.根据权利要求1所述的方法，其中，步骤(b)(iii)的终止标准包括移位迭代的预设数量，经调整的MSA子集内的保守位置的预设百分比，用于定位保守位置的预设阈值等。

16.根据权利要求1所述的方法，其中，步骤(b)(iv)中的聚类包括使用距离度量按照相似性对每个经调整的MSA子集的经调整的核酸子序列进行分组，以为每个经调整的MSA提供一组或多组经调整的核酸子序列。

17.根据权利要求16所述的方法，其中，步骤(b)(iv)中的聚类进一步包括：根据由经调整的核酸子序列的数量定义的大小，对每个经调整的MSA子集的一组或多组经调整的核酸子序列进行分级。

18.根据权利要求17所述的方法，其中，所述简化的MSA子集由每个经调整的MSA的一组或多组经调整的核酸子序列组成，所述经调整的核酸子序列满足或超过预设的大小阈值。

19.根据权利要求1所述的方法，其中，通过对任何的假变体的简化的MSA子集进行去噪来确定代表性序列。

20.根据权利要求19所述的方法，其中，所述代表性序列是相应的简化的MSA子集的共有序列。

21.根据权利要求1所述的方法，其中，根据已知核酸序列数据库，由计算机筛选每个经简化的MSA子集的所述代表性序列，其中，将任何与靶基因组结构域无关的已知序列具有高度相似性的代表性序列从后续步骤中省略。

22.根据权利要求1所述的方法，其中，首先通过以增强MSA中同源核酸比对的方式在较短序列中插入缺口，将MSA的序列转化为具有相同的长度。

23.根据权利要求1所述的方法，其中，所述核酸探针包含所述代表性序列或其互补序列，在核酸探针内是非连续的。

24.根据权利要求23所述的方法，其中，所述核酸探针内的代表性序列或其互补序列被促进发夹结构形成的序列中断。

25.一种从样品中分离靶基因组亚区的多个核酸变体的方法，包括：

(b)设计多个代表性序列，包括：

(i)在MSA的长度内指定多个间隔，其中每个间隔由具有所预测的变体的比对的核酸子序列的MSA子集组成，其中每个MSA子集有不同的起始位置；

(v)确定每个提纯的MSA子集的代表性子序列；以及

(c)使多个探针与样品接触，其中每个探针包含简化的MSA子集的代表性子序列的序列或其互补序列；和

(d)分离所述样品中与所述多个探针中的一个或多个探针杂交的所述核酸分子。

26.根据权利要求25所述的方法，其中，每个代表性序列包含在所述多个探针内的至少一个探针中。

27.根据权利要求25所述的方法，其进一步包括对从样品中分离的核酸分子进行测序。

28.根据权利要求1所述的方法合成的一种或多种核酸探针。

29.根据权利要求28所述的一种或多种核酸探针，其中，所述靶基因组结构域选自流感病毒的HA结构域和NA结构域。

30.一种核酸探针，其包含第一靶结构域、第二靶结构域和设置在所述第一靶结构域和所述第二靶结构域之间的发夹结构域，其中，所述发夹结构域形成发夹结构，其导致所述第一靶结构域和所述第二靶结构域极为贴近对齐，使得它们一起能够与连续的互补靶序列杂交。

31.根据权利要求30所述的核酸探针，其中，所述发夹结构域进一步包含附着其上的配体。

32.根据权利要求30所述的核酸探针，其中，所述发夹结构域进一步包含限制性内切酶消化位点。