CN115109846A

CN115109846A - 用于准确的平行定量稀释或未纯化样品中的核酸的方法

Info

Publication number: CN115109846A
Application number: CN202210233240.0A
Authority: CN
Inventors: 朱哈-佩卡·珀斯黑默; 塔图·赫沃宁; 马努·塔米宁; 安托尼·科尔基亚科斯基
Original assignee: Kenomir Health
Current assignee: Kenomir Health
Priority date: 2021-03-18
Filing date: 2022-03-10
Publication date: 2022-09-27
Also published as: US11898202B2; ES2960777T3; JP2022145605A; EP4060052A1; EP4060049A1; EP4060049C0; US20220298566A1; TW202302861A; KR20220130591A; CA3149035A1; EP4060049B1

Abstract

本发明公开内容涉及下一代DNA测序方法，以及用于例如在大体积的未纯化的样品材料中，准确和大规模平行定量一种或多种核酸靶的用途。更具体地，本发明涉及包含用于检测且定量复杂样品中的遗传靶的探针的方法和试剂盒。本发明包括桥寡核苷酸或桥寡核苷酸复合物和每种遗传靶的一种或多种靶特异性核酸探针。

Description

用于准确的平行定量稀释或未纯化样品中的核酸的方法

技术领域

本发明公开内容涉及改进的下一代DNA测序方法，用于一种或多种核酸靶的准确且大规模的平行定量。更具体地，本公开内容涉及包含用于检测且定量复杂DNA池中的遗传靶的探针的方法和试剂盒，所述复杂DNA池主要用于遗传靶和变体检测。本发明特别适用于检测高度不纯样品例如从人体或动物体中获得的样品中的致病遗传改变，所述样品包括但不限于尿、活组织检查、唾液和其它分泌物、呼出的水分提取物、组织、血浆(液体活组织检查)等等。本发明使用桥寡核苷酸或桥寡核苷酸复合物和每种遗传靶的一种或多种靶特异性核酸探针(左探针和右探针)。

背景技术

随着研究遗传变异的技术的进步，在植物和动物中对其检测并不复杂。然而，尽管测序成本降低，但特别是在具有弱信号的样品中检测且准确定量遗传变异如突变目前仍是复杂、费力且昂贵的。可以更准确地表述各种问题，例如为了针对一致背景检测遗传信号的特异性、为了检测微弱遗传信号的灵敏度、用于准确定量检测信号的准确度、靶向遗传靶/测定的通量数目、成本/测定，确定当平行测定多重样品时的测定成本规模的缩放，以及确定从取样到结果的时间多长的周转。

目前，用于液体活组织检查和概念上相似的测定(如抗生素抗性基因检测)的典型定量方法包括定量PCR(qPCR)、阵列qPCR、数字PCR、多重连接依赖性探针扩增(MLPA)或来自下一代DNA测序数据的定量。虽然定量方法是稳固且充分确定的方法，但每种方法都与下文更详细地讨论的具体问题相关：

定量PCR：定量PCR(qPCR)是包括在PCR期间(即实时)扩增靶向DNA分子的技术。实时PCR可以定量(定量实时PCR)和半定量，即高于/低于一定量的DNA分子(半定量实时PCR)使用。定量PCR(qPCR)是遗传靶定量的黄金标准。目前，qPCR反应的实验室成本为大约$2。然而，将用于建立反应的大量动手时间(劳动力成本)、关于标准曲线的需要连同关于每个定量靶的重复计算在内，实际成本事实上要高得多。由于对于每种遗传靶都需要分开的定量实验，因此随着样品数目增加，动手时间的量急剧增加。

阵列PCR：PCR阵列是用于分析专注于相关通路或疾病的基因实验对象组表达的最可靠工具。每个96孔板、384孔板或100孔盘PCR阵列都包括SYBR Green优化的引物测定，用于充分研究集中的基因实验对象组的实验对象组。qPCR技术的较新迭代是使各个qPCR反应小型化的阵列qPCR。阵列PCR降低了各个qPCR反应的成本，并且改善了该方法对多重靶和样品的可缩放性。然而，该方法目前限于对来自12个样品的384种靶(或相反地来自384个样品的12种靶)进行概况分析，以数千美元/芯片的成本加上读出基础设施的大量资本成本。因此，使用前述设置对数千个样品进行概况分析仍然是非常昂贵的。

数字PCR：数字聚合酶链反应(数字PCR、DigitalPCR、dPCR或dePCR)是通过液滴-微流体和荧光检测提供靶的绝对定量的方法。该方法是相对成本效益的(一种靶/样品花费$3左右)，但是对于每个样品中的每种靶制备、设置和运行各个实验的动手时间很难扩展到数千个样品。

多重连接依赖性探针扩增(MLPA)提供了简化各个样品中的多重遗传靶检测的方法。然而，MLPA仅提供靶的相对定量，并且需要对于每个样品分开的检测实验。最近以来，MLPA的变体引入来自DNA条形码的概念。与传统的MLPA工作流相比，该概念允许更好的定量分辨率和样品多重化。

基于下一代测序的方法：下一代测序(NGS)，也称为高通量测序，其使得基于序列的基因表达分析成为模拟技术的“数字”替代方案。随着DNA测序的成本不断下降，来自下一代DNA测序数据的靶计数变得越来越有吸引力，并且目前用于例如NIPT筛查中。然而，目前的方法具有高测序文库制备成本和浪费在测序无关遗传靶上的测序工作的缺点。例如，在癌症相关的液体活组织检查中，非靶向方法导致对肿瘤学无关基因座的测序努力的浪费。在胎儿诊断中，基因座的非靶向取样相当大地限制了用于解释数据的统计选项。GuardantHealth Inc提供了更靶向的测序方法，其中RNA捕获探针的阵列富集了用于下一代DNA测序的靶。

Akhras等人(2007)PLoS ONE 2(2):e223公开了多重病原体检测测定，其涉及加上条形码的靶特异性探针、靶环化和测序。还公开了使用桥接寡核苷酸来连接靶特异性探针。

WO2019038372描述了下一代测序方法，其中目的靶序列被选择性地扩增且测序。虽然这种方法允许样品中的许多靶序列的准确和平行的检测和定量，但更复杂、大体积和/或不纯的样品仍然是挑战性的。

因此，鉴于前文讨论，需要通过核酸靶的准确和大规模平行定量来克服上述缺点，例如但不限于特异性、灵敏度、准确度、通量、成本、缩放和周转。

发明内容

本发明提供了使用下一代测序，用于例如来自大体积样品(高达数十毫升)和/或稀释和/或未纯化的样品材料的高度可缩放和准确靶定量的方法。

在第一个主要方面，本发明涉及用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

第一探针、第二探针和桥寡核苷酸或能够彼此退火以形成桥寡核苷酸复合物的多个寡核苷酸，

其中所述第一探针从分子的5'端开始包含第一桥寡核苷酸特异性序列、任选的第一序列条形码，以及在第一探针的3'端处的第一靶特异性部分；

并且其中所述第二探针从分子的5’端开始包含第二靶特异性部分、任选的第二序列条形码，以及在第二探针的3'端处的第二桥寡核苷酸特异性序列；

并且其中所述桥寡核苷酸或桥寡核苷酸复合物含有分别与第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

并且其中所述第一序列条形码或第二序列条形码或第三条形码中的至少一种分别存在于第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中；

并且其中所述第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中的至少一种包含第一捕获部分，

(ii)对于一种或多种靶核苷酸序列中的每种，优选地对于分开管中的每个样品，使第一探针和第二探针与桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸接触，并且允许自退火成多个连接复合物；

(iii)使待测试靶核苷酸序列的每个样品中存在的核酸与连接复合物接触；

(iv)允许第一探针和第二探针分别的第一靶特异性部分和第二靶特异性部分与靶序列上的基本上相邻的区段杂交，从而形成杂交复合物；

(v)使杂交复合物与包含第二捕获部分的固体支持物接触，并且允许第一捕获部分和第二捕获部分相互作用，使得杂交复合物变得与固体支持物连接；

(vi)将连接有固体支持物的杂交复合物与未连接到固体支持物的样品组分分开；

(vii)连接杂交复合物中的探针，以提供经连接的连接复合物；

(viii)合并来自多个样品的经连接的连接复合物；

(ix)由一种或多种经连接的连接复合物扩增核酸；

(x)使步骤(ix)中获得的核酸经受高通量测序技术，以确定条形码序列；和

(xi)通过确定第一靶特异性部分和/或第二靶特异性部分的至少一部分、和/或第一条形码和/或第二条形码的至少一部分，和/或第三条形码的至少一部分，来鉴定多个样品中的靶核苷酸序列的存在和/或数目，

其中步骤(vii)和(viii)可以以任何次序执行。

在第二个主要方面，本发明涉及用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

·单个探针，其从分子的5’端开始包含第一靶特异性部分、包含条形码的间隔子部分，以及在所述单个探针的3'端处的第二靶特异性部分，和

·桥寡核苷酸，其中所述桥寡核苷酸含有与单个探针的间隔子部分或间隔子部分的一部分互补的序列；

其中所述单个探针或桥寡核苷酸包含第一捕获部分，

(ii)对于一种或多种靶核苷酸序列中的每种，优选地对于分开管中的每个样品，使单个探针与桥寡核苷酸接触，并且允许自退火；

(iii)使待测试靶核苷酸序列的多个样品中存在的核酸与单个探针接触，所述单个探针对桥寡核苷酸退火；

(iv)允许单个探针的第一靶特异性部分和第二靶特异性部分与靶序列上的基本上相邻的区段杂交，从而形成杂交复合物；

(vii)连接单个探针的5'端和3'端，以提供连经接的连接复合物，

(viii)任选地合并来自多个样品的经连接的连接复合物，

(ix)由一种或多种经连接的连接复合物扩增核酸；

(xi)通过确定第一靶特异性部分和/或第二靶特异性部分的至少一部分，和/或第一条形码和/或第二条形码的至少一部分，和/或第三条形码的至少一部分，来鉴定多个样品中的靶核苷酸序列的存在和/或数目，

其中步骤(vii)和(viii)可以以任何次序执行。

附图说明

图1示出了根据本文的一个实施例的多重连接测定(MLA)的流程图；

图2A示出了根据本文的一个实施例，具有多个探针实体的探针三联体的原理结构；

图2B示出了根据本文的一个实施例，填充于第一探针和第二探针之间的间隙。

图2C示出了根据本文的一个实施例，填充于第一探针和第二探针与桥复合物之间的间隙。

图3使用实例中描述的工作流制备的两个DNA测序文库(泳道6-7)，以及其中对于探针提供不正确的寡核苷酸靶的两个阴性对照实验(泳道8-9)的凝胶电泳。

图4检测到的分子计数准确地反映了掺料合成寡核苷酸靶的量。每行代表指定突变的三个掺料浓度。应答跨越四个数量级呈线性。

图5检测到的信号对于探针及其寡核苷酸靶的存在/不存在是高度特异性的。对于PIK3CA，测试了两种不同的致癌变体。

具体实施方式

定义：

靶核苷酸序列：术语靶核苷酸序列可以是需要检测其的任何目的核苷酸序列。应理解，所给出的术语指邻接核苷酸的序列以及具有互补序列的核酸分子。在一些实施例中，靶序列是代表多态性或与多态性相关的核苷酸序列。

多态性：术语多态性指在群体中出现两个或更多个遗传上确定的替代序列或等位基因。多态性标记物或位点是在其处出现序列分歧的基因座。多态性基因座可以小至一个碱基对。

样品：术语样品在本文中用于含有两种或更多种靶序列的两个或更多个样品。可以制备如根据本发明的方法中提供的样品，以便至少提取靶核酸并且使得这些靶核酸可由如本发明中使用的探针接近。特别地，在一些实施例中，样品各自包含至少两种不同的靶序列，优选至少100种，更优选至少250种，更优选至少500种，最优选至少2000种或更多种。术语样品可以指但不限于从人体/动物体中获得的两个或更多个样品，包括尿、活组织检查、唾液和其它分泌物、呼出的水分提取物、组织、血浆(液体活组织检查)，或者从环境中获得的两个或更多个样品，包括水、废水、土壤、植物、含有病毒或细菌的样品等等。在一个实施例中，多个样品包括血液样品、唾液样品、尿样品或粪便样品、另一种体液样品或来自身体材料的提取物例如毛发或皮肤薄片。

探针：术语探针是可变长度(通常为50-1000个碱基长，优选50-200个碱基长)的DNA或RNA片段，其可以用于DNA或RNA样品中，以检测与探针中的序列互补的核苷酸序列(DNA或RNA靶)的存在。这样设计与靶序列互补的寡核苷酸探针的区段，使得对于样品中的每种靶序列，提供一对左探针和右探针，其中所述探针各自含有在其末端处的与靶序列的一部分互补的区段。可替代地，提供单个探针，其含有通过间隔区段分开的与靶序列的一部分互补的两个区段。此外，本公开内容描述了桥寡核苷酸或桥寡核苷酸复合物，其用于连接左探针和右探针或用于与单个探针的间隔区段杂交。

通用：当用于描述扩增程序时，术语通用指使得能够将单个引物或引物组用于多个扩增反应的序列。此类引物的使用极大地简化了多重化，因为只需要两个引物来扩增多个选定的核酸序列。当用于描述引发位点时，术语通用是通用引物将与之杂交的位点。还应注意，可以使用通用引发序列/引物“组”。

杂交：术语杂交(hybridization)(或杂交(hybridisation))描述了脱氧核糖核酸(DNA)或核糖核酸(RNA)分子对互补DNA或RNA退火的过程。DNA或RNA复制和DNA转录成RNA两者均依赖核苷酸杂交。

连接：术语连接是通过酶的作用连接两个核酸片段。DNA连接酶是能够催化在互补链上的相邻位点处结合的两条多核苷酸链(的端部)之间形成磷酸二酯键的酶。在一个实施例中，连接也可以用化学方法执行，特别是如果多核苷酸的两个相邻端部进行修饰以允许化学连接。

扩增：如本文使用的术语扩增表示使用基于聚合酶的反应，来增加核苷酸序列的混合物内的特定核苷酸序列的浓度。“PCR”或“聚合酶链反应”是用于特异性DNA/RNA区段的体外酶促扩增的快速程序。待扩增的DNA/RNA可以通过加热样品来变性。术语引物是RNA或DNA的短链(一般约18-22个碱基)，其充当DNA合成的起点。它是DNA复制所必需的，因为催化这一过程的酶，DNA聚合酶，只能将新的核苷酸加入现有的DNA链中。T7 RNA聚合酶能够将单个DNA分子转录且扩增成多重RNA拷贝，其可以转换回cDNA。

聚合酶：聚合酶是合成核酸长链或聚合物的酶。DNA聚合酶和RNA聚合酶分别通过使用碱基配对相互作用来拷贝DNA或RNA模板链，用于组装DNA和RNA分子。本文使用的具体聚合酶，T7 RNA聚合酶，是来自T7细菌噬菌体的RNA聚合酶，其在5'→3'方向上催化RNA的形成。T7 RNA聚合酶需要部分双链的DNA模板和Mg2+离子作为辅因子用于RNA的合成。T7 RNA聚合酶能够将单个DNA分子转录且扩增成多重RNA拷贝。本文使用的另一种具体聚合酶，phi29聚合酶是来自细菌噬菌体phi29的链置换DNA聚合酶。Phi29聚合酶是高度进行性的，并且因此是用于环状DNA模板的滚环扩增的理想聚合酶，以产生长的多联体(concatemeric)序列。

高通量：术语高通量表示同时加工且筛选大量DNA样品的能力；以及同时筛选单个DNA样品内的大量不同遗传基因座的能力。高通量测序或筛选，经常缩写为HTS，是用于尤其与同时有效筛选大量样品有关的科学实验的方法。

尿嘧啶特异性切除试剂(USER)：允许通过在脱氧尿苷核苷酸存在的地方切割，使环状DNA分子线性化的试剂。

如上所述，本公开内容涉及通过利用连接依赖性测定，在非常大量的样品中高通量检测靶核苷酸序列检测的方法。本公开内容提供了使用由下一代测序所允许的技术，用于确定复杂核酸池中的遗传靶序列的方法。本公开内容还提供了通过利用连接依赖性测定，对大量样品，优选非常大量的样品中的多重遗传靶进行概况分析的方法。本公开内容进一步提供了用于多重连接依赖性探针扩增的方法，使得能够查询多个样品中的不同靶核酸。本发明的方法对于不同的靶核酸提供多个不同的探针组，允许多个样品中的一种或多种靶核苷酸序列的测序。在处理测序数据时，独特的序列标识符(identifiers)用于遗传靶的鉴定和来自样品池的各个样品的绝对定量。

(i)对于每个样品中的每种靶核苷酸序列提供：

第一探针、第二探针和桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸，

(viii)合并来自多个样品的经连接的连接复合物；

(ix)由一种或多种经连接的连接复合物扩增核酸；

其中步骤(vii)和(viii)可以以任何次序执行。

图1提供了本发明的方法的一个实施例的非限制性图示。

本发明的方法利用三种或更多种核酸探针，其中两种靶特异性核酸探针(左探针和右探针)对于遗传靶是特异性的，并且一种核酸探针或复合物通常是通用的(桥寡核苷酸或桥寡核苷酸复合物)。左探针和右探针与桥探针或桥寡核苷酸复合物杂交，形成连接复合物。在样品DNA或RNA上具有靶鉴定位点的连接复合物(含有一个或多个条形码序列)被允许针对查询样品的互补靶序列杂交。在杂交后，左探针和右探针用化学方法进行连接或通过DNA连接酶进行酶促连接，以形成连接的连接复合物。在本发明中，在待分析的多个样品中的样品分析期间，将形成多个此类经连接的连接复合物。

在一个实施例中，“多个样品”可以指但不限于从人体或动物体中获得的两个或更多个样品，包括活组织检查、唾液和其它分泌物、呼出的水分提取物、组织、血浆(液体活组织检查)，从环境中获得的两个或更多个样品，包括水、废水、土壤、植物、含有病毒或细菌的样品等等。

在一个优选的实施例中，样品无需任何事先核酸纯化或浓缩而使用。在另一个实施例中，样品可以进行预处理，例如使细胞裂解以暴露核酸。

靶序列可以包括需要针对其检测的任何感兴趣的核苷酸序列。本公开内容的靶核苷酸序列可以得自(但不限于)患者的血液中的DNA级分或母体血液中的DNA级分。患者的血液中的DNA级分可能得自凋亡/坏死的癌细胞，或者来自胎儿和/或母体起源的母体血液中的DNA级分。进一步地，分析结果用于例如评价个体患给定类型癌症的风险，确定给定治疗针对给定癌症的功效，在肿瘤中的药物抗性有关突变的发展，或胎儿携带遗传病症例如常见的三体综合征唐氏综合征、帕陶综合征(Patau)和爱德华综合征的风险。在某些实施例中，该方法包括对于每种靶核苷酸序列提供多个不同的探针组。

如本文使用的，术语探针组包括第一探针、第二探针和桥寡核苷酸(或桥寡核苷酸复合物)，或：单个探针和桥寡核苷酸(或桥寡核苷酸复合物)。

在某些实施例中，第一探针从分子的5'端开始包括任选的5'磷酸盐、第一桥寡核苷酸特异性序列、任选的第一通用序列、任选的第一序列条形码，以及在其3'端处的第一靶特异性部分。在某些实施例中，第二探针从分子的5’端开始包括任选的5'磷酸盐、第二靶特异性部分、任选的第二序列条形码、任选的第二通用序列，以及在其3'端处的第二桥寡核苷酸特异性序列。

在一个优选的实施例中，第一探针或第二探针含有第一序列条形码或第二序列条形码中的至少一种。第一序列条形码或第二序列条形码或两者，可以是随机序列或者可以含有靶核苷酸序列标识符序列、样品标识符序列和/或用于靶计数的分子条形码。

在优选的实施例中，桥寡核苷酸或桥寡核苷酸复合物含有分别与第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，任选的通用序列，和/或可以含有第三条形码，其可以是随机序列或者可以含有样品或序列标识符序列。在这方面，第三条形码并不一定意味着已经存在第一条形码和第二条形码。如较早描述的，经连接的连接复合物中应该存在至少一种条形码，其使得能够独特地定义在测试的所有样品中的所有连接复合物内的该复合物。

此外，第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中的至少一种包含第一捕获部分。当在本文中使用时，第一捕获部分指允许探针、连接复合物或杂交复合物由连接到固体支持物的第二捕获部分捕获，即与之结合的部分，例如化学基团。本领域已知的任何合适的捕获部分都可以用于此目的。众所周知的合适例子是使用链霉亲和素包被的磁珠捕获生物素化的分子。因此，在一个实施例中，第一捕获部分是生物素部分，其可以与连接到固体支持物(如磁珠)的链霉亲和素或亲和素部分(第二捕获部分)相互作用。其它选项包括可以用于与链霉亲和素/亲和素缀合的生物素衍生物，例如双生物素、脱硫生物素或光可切割生物素。进一步的选项包括使用硫醇和丙烯酸酯基团用于丙烯酸酯/丙烯酰胺缀合，使用炔烃和叠氮基用于点击化学，以及使用地高辛配基用于抗地高辛配基抗体缀合。缀合配偶体可以在任何固体表面例如珠(磁性或其它方式)或固体支持物上提供。

在一些实施例中，第一探针、第二探针或者桥探针或桥寡核苷酸复合物含有关于T7RNA聚合酶的启动子序列。启动子序列允许在步骤(ix)中使用T7 RNA聚合酶扩增所连接的连接复合物。优选的是T7 RNA聚合酶的启动子序列存在于桥寡核苷酸或桥寡核苷酸复合物中，但代替存在于桥寡核苷酸或桥寡核苷酸复合物中的启动子，它也可以存在于第一探针或第二探针中。然而，在此类情况下，探针和寡核苷酸的设计必须是这样的，使得T7 RNA聚合酶能够转录对于样品和靶的鉴定以及靶序列的计数所需的所有序列。

第一靶特异性部分、第二靶特异性部分、第一桥寡核苷酸特异性序列和/或第二桥寡核苷酸特异性序列，优选彼此独立地含有至少一种化学修饰的核苷酸以增加探针结合。增加探针结合的化学修饰包括但不限于核糖核酸、肽核酸和锁核酸(例如，如通过引用并入本文的WO2019038372的图3中所示)。在一个实施例中，第一探针或第二探针或两者的桥接部分包含化学修饰的碱基，以改善与桥寡核苷酸或桥寡核苷酸复合物的结合。在另一个实施例中，第一靶特异性部分、第二靶特异性部分、第一桥寡核苷酸特异性序列和/或第二桥寡核苷酸特异性序列，彼此独立地含有一种或多种化学修饰的核苷酸。在某些实施例中，化学修饰允许相邻探针的化学连接。在一些实施例中，前述探针结合完全相邻的遗传基因座或相隔至多500个碱基对，例如相隔至多200个碱基对，例如相隔至多50个碱基对，优选相隔至多40个碱基对，更优选相隔至多30个碱基对，更优选相隔至多20个碱基对，更优选相隔至多10个碱基对，最优选相隔至多5个碱基对。

在使探针与包含靶序列的样品接触之前，优选地对于分开管中的每个样品，使第一探针和第二探针与桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸接触，并且允许自退火成连接复合物(步骤(ii))。在其中桥不是一个寡核苷酸，而是能够彼此退火以形成桥寡核苷酸复合物的多个寡核苷酸，例如三个或五个寡核苷酸(本文在图2C中示出)的一个实施例中，多个寡核苷酸可以在与第一探针和第二探针退火之前进行预退火，或所有退火步骤可以一次完成。

优选地，每种连接复合物对于第一靶特异性序列、第二靶特异性序列和一种或多种条形码序列的组合是独特的。这使得能够在扩增和分析结果后计数靶序列。

此后，使多个样品中的一种或多种靶核苷酸序列与多个连接复合物接触(步骤(iii))。第一探针和第二探针分别的第一靶特异性部分和第二靶特异性部分与靶序列上的基本上相邻的区段杂交，从而形成杂交复合物(步骤(iv))。在一些实施例中，样品具有多于100微升，例如多于1ml的体积。在一个进一步的实施例中，样品具有低于5pmol，例如低于1pmol，例如低于200fmol的核酸浓度。

随后，使杂交复合物与包含第二捕获部分的固体支持物接触，并且允许第一捕获部分和第二捕获部分相互作用，使得杂交复合物变得与固体支持物连接(步骤(v))。此后，将连接有固体支持物的杂交复合物与未连接到固体支持物的样品组分分开(步骤(vi))。如果固体支持物是磁珠，则可以使用磁体来固定珠，并且可以去除剩余的液体样品。任选地，在进行至步骤(vii)之前执行洗涤步骤。

步骤(v)和(vi)引起核酸的纯化和富集，改善特别是对于高度不纯的样品的结果。在一个实施例中，本发明的方法并不包括在步骤(vi)之前富集核酸的步骤。因此，在一个实施例中，该方法在步骤(vi)之前并不含有其中原始样品中的核酸被浓缩超过2倍、超过10倍或超过100倍的步骤。在另一个实施例中，本发明的方法并不包括在步骤(vii)中的连接之后的纯化步骤。

随后，用酶促或化学方法进行所形成的杂交复合物中的探针连接，以提供经连接的连接复合物(步骤(vii))。任选地，作为步骤(vii)的一部分，在第一探针和第二探针之间的间隙(如果存在的话)可以通过引入聚合酶和一种或多种核苷酸进行填充。聚合酶添加(a)与通用桥寡核苷酸序列或桥寡核苷酸复合物互补的核苷酸和/或(b)与条形码序列互补的核苷酸，从而填充第一探针和第二探针之间的两个间隙，引起连接的左探针和右探针以及通用序列和/或第三条形码序列包括到桥互补链内。桥寡核苷酸从与连接探针互补的5'位点或3'位点延伸，使得存在于第一探针或第二探针中的靶序列标识符序列整合到桥寡核苷酸内。优选地，使用不破坏双链DNA的聚合酶，例如Taq聚合酶，以便在第一探针和第二探针两者对靶序列退火时，不干扰第一探针与第二探针的连接。

然后合并来自一个或多个靶样品的经连接的连接复合物(步骤(viii))。步骤(vii)和(viii)可以以指定的次序执行，或可替代地以相反的次序执行。

接下来，由一种或多种经连接的连接复合物扩增核酸(步骤(ix))。

在一个实施例中，通过PCR使用与第一探针和第二探针的通用部分结合的引物来执行步骤(ix)中的扩增。

在另一个实施例中，第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中的至少一种包含关于核酸内切酶的识别序列，并且步骤(ix)通过以下执行：

(a)使用具有链置换聚合酶的滚环扩增，由一种或多种经连接的连接复合物扩增核酸，

(b)任选地使所获得的扩增的一种或多种单链多联体序列经受与含有所述识别序列的特异性寡核苷酸的退火，其中所述特异性寡核苷酸与所述识别序列退火，使得获得关于所述核酸内切酶的识别位点，和

(c)任选地用所述核酸内切酶切割所获得的单链多联体序列或所获得的退火复合物。合适的链置换聚合酶包括phi29聚合酶或Bst聚合酶。含有识别序列的特异性寡核苷酸通常含有在识别序列周围的一些另外的特异性序列，以便允许形成稳定的双螺旋用于切割。

在一些实施例中，并不进行切割，并且对多联体序列执行随后的高通量测序步骤(x)。

在另一个实施例中，步骤(ix)中的扩增使用T7 RNA聚合酶执行，所述T7 RNA聚合酶结合在经连接的连接复合物的寡核苷酸序列上的双链T7 RNA聚合酶启动子位点上，并且转录下游的RNA。例如通过使用乳液逆转录酶(RT)-PCR或T7 RNA聚合酶，可以进行从一种或多种经连接的连接复合物扩增合成的RNA。在通过T7 RNA聚合酶的RNA合成之后，但在cDNA合成或RT-PCR之前，通过将DNA特异性核酸外切酶和核酸内切酶加入合并的扩增反应中，可以进行游离样品和探针核酸的去除。在一个实施例中，探针或者桥寡核苷酸或桥寡核苷酸复合物中的任一种含有脱氧尿苷部分，其允许通过使用尿嘧啶特异性切除试剂(USER)的切割来线性化。这使得能够使用T7 RNA聚合酶从线性化的经连接的连接复合物转录RNA，所述T7 RNA聚合酶从嵌入桥寡核苷酸或桥寡核苷酸复合物或者第一探针或第二探针中的T7RNA聚合酶启动子开始RNA合成。T7 RNA聚合酶启动子序列和脱氧尿苷部分应该这样放置，以使得T7 RNA聚合酶能够转录对于不同样品中的不同靶计数所需的所有信息。在T7 RNA聚合酶和脱氧尿苷部分之间应该出现下述序列：使得能够鉴定靶的至少一个序列、使得能够鉴定样品的至少一个序列，以及使得能够确定该样品中的靶序列拷贝数的至少一个独特的条形码序列。任选地，使用与通用位点反向互补的DNA-寡核苷酸分子，从RNA分子制备cDNA。RNA分子任选地被转换为cDNA，并且任选地通过PCR或乳液PCR，使用与探针的通用部分结合的引物进行扩增。可替代地，可以使用RT-PCR或乳液RT-PCR。

任选地，在扩增后，去除固体支持物并且将上清液用于后续加工。例如，如果固体支持物是磁性颗粒，则这些磁性颗粒可以使用磁体去除。

在本发明的方法的另一个实施例中，第一捕获部分和第二捕获部分之间的相互作用在步骤(vi)之后、在步骤(vii)之后或在步骤(viii)之后立即被破坏。例如，如果第一捕获部分是生物素，而第二捕获部分是链霉亲和素，则可以通过添加过量的可溶性生物素来破坏相互作用。如果链霉亲和素与磁性颗粒结合，则它随后可以使用磁体去除。

不管步骤(ix)中的扩增方法如何，在一些实施例中，用第一引物和第二引物对核苷酸分子(RNA分子、DNA分子或cDNA分子)进行(进一步)扩增，以提供扩增产物。优选地，使用通用第一引物和通用第二引物，它们与连接复合物中存在的第一通用序列或第二通用序列反向互补。

例如使用包括但不限于Illumina iSeq、MiSeq、HiSeq、NextSeq或NovaSeq的下一代测序平台，通过高通量测序技术，通过确定第一靶特异性部分和/或第二靶特异性部分的至少一部分、第一条形码和/或第二条形码的至少一部分和/或第三条形码的至少一部分，可以执行多个样品中的靶核苷酸序列的存在和/或数目的鉴定(步骤(x)和(xi))。优选地，通过计数每种靶和每个样品的分子条形码数目来允许遗传靶计数。样品从序列数据中分离(解卷积)，并且在DNA测序后在计算机芯片上(in silico)定量序列靶。

如上所述，在第二个主要方面，本发明涉及用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

其中所述单个探针或桥寡核苷酸包含第一捕获部分，

(vii)连接单个探针的5'端和3'端，以提供经连接的连接复合物，

(viii)任选地合并来自多个样品的经连接的连接复合物，

(ix)由一种或多种经连接的连接复合物扩增核酸；

其中步骤(vii)和(viii)可以以任何次序执行。

用于本发明的第一个方面的上述实施例作必要的修正应用于本发明的该第二个方面。

在一个实施例中，单个探针包含已化学连接的两种或更多种寡核苷酸。

在一个实施例中，间隔子部分包含多于25个碱基，例如多于50个碱基，例如多于75个或多于100个碱基，例如20至1000个碱基，例如50至1000个碱基。

本发明的两个方面的优点包括但不限于：与传统核酸测序技术相比，具有低成本、高简单性、高特异性、高灵敏度、高准确度、高通量、高可缩放性和高周转的定量测定。本发明的另一个方面是本发明的方法允许多重样品包括人和动物群体，并且包括大体积的未纯化的样品材料中的多个核酸靶的准确和大规模平行定量。如提到的，在一个优选的实施例中，样品例如尿样品无需任何事先纯化或核酸浓缩而使用。在另一个实施例中，样品可以进行预处理，例如使细胞裂解以暴露核酸。本发明的一个特别优点在于使得能够使用独特的探针设计，即探针三联体来检测和扩增感兴趣的靶序列。探针被设计为具有特别放置的经修饰核苷酸，其改善了退火和结合效率。结合性质的改善带来更高的测定特异性、灵敏度和准确度。本发明的方法同样适用于研究遗传变体且可应用于诊断和预后，包括但不限于关于一种或多种序列和/或多态性例如SNP和/或插入缺失、癌症诊断或来自母体血液的胎儿染色体病症，对样品进行基因分型。在一个优选的实施例中，对于两个或更多个样品或者两个或更多个基因座/等位基因组合，条形码序列用于关于一种或多种序列和/或多态性例如SNP和/或插入缺失，对样品进行基因分型。

在另一本发明提供了用于本发明的方法中的试剂盒。在一个实施例中，多部分试剂盒(kit of parts)包括多个容器，其中至少一个容器包含一组或多组的第一探针和第二探针，并且至少一个容器包含一种或多种桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸，

其中所述第二探针从分子的5’端开始包含第二靶特异性部分、任选的第二序列条形码，以及在第二探针的3'端处的第二桥寡核苷酸特异性序列；

其中所述桥寡核苷酸或桥寡核苷酸复合物含有分别与第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

并且其中所述第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中的至少一种包含能够连接至第二捕获部分的第一捕获部分，所述第二捕获部分与固体支持物连接。

优选地，第一探针的3'端或第二探针的5'端或两者进行了修饰，以允许第一探针与第二探针的化学连接。

优选地，桥寡核苷酸或桥寡核苷酸复合物在与第一探针的序列互补的序列中或在与第二探针的序列互补的序列中或两者中包含一种或多种化学修饰的核苷酸。

任选地，第一探针、第二探针或者桥寡核苷酸或桥寡核苷酸复合物包含允许通过使用尿嘧啶特异性切除试剂的切割的线性化的脱氧尿苷部分。

优选地，第一探针或第二探针或两者的桥接部分包含化学修饰的碱基，以允许改善与桥寡核苷酸或桥寡核苷酸复合物的结合。

在一个具体实施例中，包含第一探针和第二探针组的至少一个容器，以及包含桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸的至少一个容器是同一个容器。在此类情况下，三种或更多种探针可以预先退火并且已形成连接复合物。

本发明的一个特别优点在于使得能够使用独特的探针设计，即探针三联体来检测和扩增感兴趣的靶序列。探针被设计为具有改善的结合性质，带来更高的测定特异性、灵敏度和准确度。本发明可应用于分子生物学、进化生物学、宏基因组学、基因分型领域，并且更具体而言(但不限于)癌症诊断或胎儿染色体病症，包括但不限于关于一种或多种序列和/或多态性例如SNP和/或插入缺失，对样品进行基因分型。

在一个特别优选的实施例中，桥寡核苷酸或桥寡核苷酸复合物包含鉴定样品的信息并且包括独特标识符。在此类情况下，第一探针和第二探针通用地适用于所有样品(并且仅包含鉴定靶的信息)。因此，在一个优选的实施例中，提供了根据本发明的方法或试剂盒，其中所述桥寡核苷酸或桥寡核苷酸复合物包含条形码，其包含使得能够计数每个样品的靶序列的独特序列。

在一个进一步方面，本发明涉及包括多个容器的多部分试剂盒，其中至少一个容器包含一种或多种单个探针，并且至少一个容器包含一种或多种桥寡核苷酸，

其中所述单个探针从分子的5’端开始包含第一靶特异性部分、包含条形码的间隔子部分，以及在所述单个探针的3'端处的第二靶特异性部分，

其中所述桥寡核苷酸含有与单个探针的间隔子部分或间隔子部分的一部分互补的序列；

并且其中所述单个探针或桥寡核苷酸包含能够连接至第二捕获部分的第一捕获部分，所述第二捕获部分与固体支持物连接。

此外，本发明涉及：

实施例1：一种用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

第一探针、第二探针和桥寡核苷酸，

并且其中所述桥寡核苷酸含有分别与第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

并且其中所述第一序列条形码或第二序列条形码或第三条形码中的至少一种分别存在于第一探针或第二探针或桥寡核苷酸中；

并且其中所述第一探针或第二探针或桥寡核苷酸中的至少一种包含第一捕获部分，

(ii)对于一种或多种靶核苷酸序列中的每种，优选地对于分开管中的每个样品，使第一探针和第二探针与桥寡核苷酸接触，并且允许自退火成多个连接复合物；

(viii)合并来自多个样品的经连接的连接复合物；

(ix)由一种或多种经连接的连接复合物扩增核酸；

其中步骤(vii)和(viii)可以以任何次序执行。

实施例2：根据实施例1的方法，其中所述多个样品包括血液样品、唾液样品、尿样品或粪便样品。

实施例3：根据实施例1或2的方法，其中所述第一捕获部分是生物素部分，并且所述第二捕获部分是链霉亲和素部分或亲和素部分。

实施例4：根据实施例1-3中任一项的方法，其中在步骤(vi)和(vii)之间执行洗涤步骤。

实施例5：根据实施例1-4中任一项的方法，其中所述测序借助于下一代DNA或RNA测序来进行。

实施例6：根据实施例1-5中任一项的方法，其中第一探针的3'端或第二探针的5'端或两者进行了修饰，以允许第一探针与第二探针的化学连接。

实施例7：根据实施例1-6中任一项的方法，其中所述第一探针或第二探针或两者的桥接部分包含化学修饰的碱基，以允许改善与桥寡核苷酸的结合。

实施例8：根据实施例1-7中任一项的方法，其中所述第一靶特异性部分、第二靶特异性部分、第一桥寡核苷酸特异性序列和/或第二桥寡核苷酸特异性序列，彼此独立地含有一种或多种化学修饰的核苷酸。

实施例9：根据实施例1-8中任一项的方法，其中关于T7 RNA聚合酶的启动子序列存在于第一探针、第二探针或桥寡核苷酸中，并且其中步骤(ix)中的扩增包括使用T7 RNA聚合酶从一种或多种经连接的连接复合物的RNA合成，所述T7 RNA聚合酶从嵌入经连接的连接复合物中的T7 RNA聚合酶启动子开始RNA合成。

实施例10：根据实施例9的方法，其中所述第一探针、第二探针或桥寡核苷酸包含脱氧尿苷部分，所述脱氧尿苷部分允许通过使用尿嘧啶特异性切除试剂进行切割来线性化。

实施例11：根据实施例9的方法，其中在步骤(x)之前，使用DNA-寡核苷酸分子从RNA分子制备cDNA，所述DNA-寡核苷酸分子与第一探针或第二探针或桥寡核苷酸中存在的通用位点反向互补。

实施例12：根据实施例1-8中任一项的方法，其中所述第一探针或第二探针或桥寡核苷酸中的至少一种包含关于核酸内切酶的识别序列，并且其中(a)使用链置换聚合酶通过滚环扩增来执行从步骤(ix)中的一种或多种经连接的连接复合物扩增核酸，随后为(b)任选地使所获得的经扩增的一种或多种单链多联体序列经受与含有所述识别序列的特异性寡核苷酸的退火，其中所述特异性寡核苷酸与识别序列退火，使得获得关于所述核酸内切酶的识别位点，并且(c)用所述核酸内切酶切割所获得的经扩增的一种或多种单链多联体序列或所获得的经退火复合物。

实施例13：根据实施例1-8中任一项的方法，其中使用与第一探针和第二探针的通用部分结合的引物通过PCR来执行步骤(ix)中的扩增。

实施例14：根据实施例1-13中任一项的方法，其中通过计算每种靶和每个样品的分子条形码数目来允许遗传靶计数。

实施例15：根据实施例9-14中任一项的方法，其中用第一引物和第二引物扩增所述核苷酸分子，以提供扩增产物。

实施例16：包括多个容器的多部分试剂盒，其中至少一个容器包含一组或多组的第一探针和第二探针，并且至少一个容器包含一种或多种桥寡核苷酸，

其中所述桥寡核苷酸包含含有与第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

并且其中所述第一探针或第二探针或桥寡核苷酸中的至少一种包含能够连接至第二捕获部分的第一捕获部分，所述第二捕获部分与固体支持物连接。

实例

方法

在一个实例中，原材料是5ml尿。该过程开始于通过将样品加热至+95℃共15分钟，使样品材料中的蛋白质变性。然后将样品材料以18 000x g离心10分钟，以去除沉淀的蛋白质和其它碎片，并且收集上清液用于后续步骤。

允许形成三部分探针复合物(如图2中所示)，其包含：

(a)第一探针，其从分子的5'端开始具有第一桥寡核苷酸特异性序列以及在第一探针的3'端处的第一靶特异性部分；

(b)第二探针，其从分子的5'端开始具有第二靶特异性部分、第二序列条形码，以及在第二探针的3'端处的第二桥寡核苷酸特异性序列；

以及(c)桥寡核苷酸，其具有分别与所述第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及5'生物素。

将三部分探针复合物以飞摩尔浓度加入样品上清液内且退火(如图1，步骤1中所示)。

然后将Dynabeads MyOne链霉亲和素C1磁性颗粒加入反应内，并且在室温下温育1小时，以允许生物素和链霉亲和素相互作用，使得杂交复合物变得与颗粒连接。然后使用磁体收获颗粒，并且使用含有Tween 20的TE缓冲液洗涤颗粒，因此去除样品杂质。

在洗涤步骤后，通过添加DreamTaq DNA聚合酶和Ampligase DNA连接酶的组合，并且在+45℃下温育1小时，使珠结合的探针复合物延伸(间隙填充)(图2B)并连接。通过添加靶向左侧探针中的尿嘧啶部分的尿嘧啶特异性酶混合物(New England Biolabs，根据制造商的说明书使用)，切割所得到的经延伸且连接的产物。

在延伸、连接和切割后，用T7反应缓冲液洗涤珠结合的分子，并且通过添加T7 RNA聚合酶和RiboLock RNase抑制剂的组合，并且在+37℃下温育1小时，进行RNA合成。然后使用磁体去除磁性颗粒，并且保留上清液用于后续加工。

通过添加互补寡核苷酸并在+75℃下温育5分钟，使上清液中的RNA引发用于cDNA合成。然后将RiboLock RNase抑制剂和M-MLV逆转录酶加入反应内，并且在+37℃下温育1小时。

随后，使用索引PCR引物以及通过Phusion Hot Start II DNA聚合酶的PCR扩增，将cDNA制备成Illumina相容的DNA测序文库。

最后，使用Illumina MiSeq或iSeq对文库进行测序，并且使用Unix命令行工具以及Python和R编程语言的组合来处理测序数据。简言之，关于序列处理的基本原理是鉴定每个读数内的探针序列，对它们之间的基因组区域进行测序，并且计数与每种遗传靶相关的分子条形码数目。

实验

在第一个实验中，尿样品用飞摩尔浓度的合成寡核苷酸进行掺料，所述合成寡核苷酸类似于基因如AKT1、CD74-ROS1、CHEK2、EGFR、EML4-ALK、KRAS、PIK3CA和TP53中的典型致癌突变。加入含有生物素的三部分探针以靶向这些基因。第一探针、第二探针和桥探针的长度分别为61、85和50nt。

掺料样品根据上述方法进行处理。通过凝胶电泳分析产物。典型结果的例子显示于图3中。

通过匹配每个读数内的探针序列，鉴定探针序列之间的基因组序列区域并计数分子条形码，在序列数据内检测靶基因。计数数据准确地反映了掺料模板分子的数目，并且应答跨越四个数量级呈线性(图4)。检测到的信号对于靶分子的存在/不存在是高度特异性的(图5)。

在另一个实例中，原材料是1ml唾液。该过程类似地进行，除了在执行测定之前将样品煮沸并离心之外。同样对于这些样品，检测到的信号对于靶分子的存在/不存在是高度特异性的。

图1和图2的详细描述

图1示出了本发明的一个实施例的工作流，其中T7 RNA聚合酶用于扩增。如所述的，替代的扩增方法也是可能的。在步骤1中，使样品(102)内的核酸(DNA或RNA)与一组连接复合物(104)接触。连接复合物在靶核酸(106)上退火。在步骤2中，从样品材料中捕获靶结合的连接复合物，留下样品杂质(103)。在步骤3中，将退火的连接复合物连接，得到经连接的连接复合物。在步骤4中，将来自多重样品(110)的经连接的连接复合物合并在一起(112)。在步骤5中，使用T7 RNA聚合酶，由经连接的连接复合物合成RNA。任选地使用核酸内切酶和核酸外切酶的混合物去除探针和样品DNA。将扩增的RNA转换成cDNA(116)，并且任选地使用PCR或乳液PCR进行扩增。在步骤6中，使用下一代DNA测序对扩增的DNA进行测序。在步骤7中，使用生物信息学管道，将DNA测序结果转换成靶计数。

图2A示出了根据本文的一个实施例，具有多个探针实体的探针三联体的原理结构。多个探针实体包括在样品退火之前组装的左探针、右探针和桥寡核苷酸。左探针的第一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5'端的修饰，称为修饰1(202)。左探针的15-25个碱基包括桥结合序列1(204)，其可以进一步包括用于有效桥寡核苷酸结合的化学修饰碱基，称为桥位点1。前述区段还任选地包括T7 RNA聚合酶启动子的反向互补序列。如先前所述的，该启动子序列可以存在于第一探针或第二探针中，而不是存在于桥寡核苷酸中，条件是这样设计寡核苷酸和探针，使得T7 RNA聚合酶能够转录用于计数不同样品中的靶序列的所有必要信息。左探针的随后15-30个碱基任选地包括用于PCR引物的通用结合位点，在本文中称为通用位点1，(206)。左探针进一步任选地包括自5'端的随后10-20个碱基，其包括形成分子特异性条形码或样品特异性条形码的随机核苷酸区段，称为条形码1(208)。左探针进一步包括自5'端的与遗传靶结合的随后15-30个碱基(210)。204或210的一些或全部核苷酸可以包括增加探针对靶或桥寡核苷酸(226)的亲和力的化学修饰。左探针的最后一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5'端的修饰，称为修饰1(212)。

右探针的第一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5’端的修饰，称为修饰2(214)。自右探针的5’端的15-30个碱基包括与遗传靶结合的右探针的一部分(216)。自右探针的5'端的随后10-20个碱基任选地包括随机核苷酸区段，其形成分子特异性条形码或样品特异性条形码，称为条形码2(218)。自右探针的5'端的随后15-30个碱基任选地包括用于PCR引物的通用结合位点，称为通用位点2(220)。右探针的最后15-25个碱基包括用于有效桥寡核苷酸结合的序列，称为桥序列2(222)。前述区段还任选地包括T7 RNA聚合酶启动子的反向互补序列。如先前所述的，该启动子序列可以存在于第一探针或第二探针中，而不是存在于桥寡核苷酸中，条件是这样设计寡核苷酸和探针，使得T7 RNA聚合酶能够转录用于计数不同样品中的靶序列的所有必要信息。216或222的一些或全部核苷酸可以包括增加探针对靶或桥寡核苷酸(224)的亲和力的化学修饰。右探针的最后一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5'端的修饰，称为修饰2。

自桥寡核苷酸的5’端的前15-25个碱基，称为桥序列3(226)，与左探针的桥序列1(204)反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。桥的随后15-25个碱基，称为桥序列4(224)，与右探针的桥序列2(222)序列反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。桥序列3(226)或桥序列4(224)任选地包括T7 RNA聚合酶启动子的序列。桥寡核苷酸的5'端包括用于捕获连接复合物的第一捕获部分(228)。

图2B示出了根据本文的一个实施例，填充于第一探针和第二探针之间的间隙。此处，桥寡核苷酸含有在桥序列3(226)和桥序列4(224)之间的间隙序列1(230)。间隙序列(230)可以任选地包括T7 RNA聚合酶启动子的序列。通过引入聚合酶和一种或多种核苷酸来填充左探针和右探针之间的间隙。对于这个过程，可以使用Stoffel片段、Taq聚合酶或Phusion聚合酶。聚合酶添加(a)与通用桥寡核苷酸序列互补的核苷酸和(b)与靶序列互补的核苷酸，从而填充两个间隙，即第一探针和第二探针之间的间隙1和间隙2，使得与桥寡核苷酸互补的左探针和右探针的连接。以这种方式，如果条形码存在于位置230中的桥寡核苷酸中，则该条形码被整合到互补序列中。任选地，桥寡核苷酸探针224从与经连接的探针互补的5'位点或3'位点延伸，使得如果条形码存在于探针1或探针2和/或靶序列210和216中，则该条形码被整合到桥寡核苷酸内，从而形成连接的连接复合物。然而，应注意聚合酶的作用并不干扰在靶序列的位点处的探针连接。例如，使用在它到达双链DNA部分时停止其作用的聚合酶是可能的，如例如存在于与靶序列杂交的第一探针和第二探针的部分处。T7 RNA聚合酶启动子序列可以嵌入连接复合物内的桥寡核苷酸的位置226、230或224内。脱氧尿苷部分可以嵌入位置204和206之间，或左探针中的206内。

图2C示出了根据本文的一个实施例，具有多个探针实体的探针五联体(quintet)的原理结构。多个探针实体包括左探针、右探针以及由三个寡核苷酸组成的桥。此处，探针复合物含有在左探针和第二桥(228和236)之间、在第二桥和右探针(240和222)之间、在第一桥寡核苷酸和第三桥寡核苷酸(238和242)之间，以及在左探针和右探针(208和216)之间的间隙。通过引入聚合酶和一种或多种核苷酸来填充这些间隙。对于这个过程，可以使用Stoffel片段、Taq聚合酶或Phusion聚合酶以及DNA连接酶(例如Ampligase)的混合物。聚合酶填充这些间隙，并且DNA连接酶的后续作用使得探针和桥寡核苷酸连接成环状复合物。

左探针的15-25个碱基包括桥结合序列1(228)，其任选地包括用于有效桥寡核苷酸结合的化学修饰碱基，称为桥序列1。左探针进一步任选地包括自5'端的随后10-20个碱基，其包括用于文库索引的通用序列(204)。左探针进一步任选地包括自5'端的随后10-20个碱基，其包括形成分子特异性条形码或样品特异性条形码的随机核苷酸区段，称为条形码1(206)。左探针进一步包括自5'端的与遗传靶结合的随后15-30个碱基(208)。228的一些或全部核苷酸可以包括增加探针对靶或桥(226)的亲和力的化学修饰。左探针的最后一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5'端的修饰，称为修饰1(210)。

右探针的第一个碱基任选地包括用于酶促连接的磷酸盐部分或允许化学连接到相邻探针的5’端的修饰，称为修饰2(214)。自右探针的5’端的15-30个碱基包括与遗传靶结合的右探针的一部分(216)。自右探针的5'端的随后10-20个碱基任选地包括随机核苷酸区段，其形成分子特异性条形码或样品特异性条形码，称为条形码2(218)。从右探针的5'端开始的随后10-20个碱基任选地包括通用序列(220)。右探针的最后15-25个碱基，称为桥序列8(222)，与第三桥寡核苷酸(224)的桥序列7反向互补。208、216、222或228的一些或全部核苷酸可以包括增加探针对靶或桥寡核苷酸的亲和力的化学修饰。

自第一桥寡核苷酸的5’端的前15-25个碱基，称为桥序列3(226)，与左探针的桥序列1(228)反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。第一桥寡核苷酸的最后15-25个碱基，称为桥序列2(238)，与第二桥寡核苷酸的桥序列4(236)序列反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。第一桥寡核苷酸的5'端任选地包括用于捕获连接复合物的捕获部分(230)。

自第二桥寡核苷酸的5'端的前15-25个碱基，称为桥序列5(240)，与第三桥寡核苷酸的桥序列6(242)反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。第二桥寡核苷酸的最后15-25个碱基，称为桥序列4(236)，与第一桥寡核苷酸的桥序列2(238)序列反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。

自5'端开始的第三桥寡核苷酸的前15-25个碱基，称为桥序列6(242)，与第二桥寡核苷酸的桥序列5(240)序列反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。第三桥寡核苷酸的最后15-25个碱基，称为桥序列7(224)，与右探针的桥序列8(222)序列反向互补，并且任选地包括化学修饰的核苷酸用于增加结合。第三桥寡核苷酸的3'端任选地包括磷酸盐(或其它可切割的)部分(234)，以防止在间隙填充期间的延伸。

T7 RNA聚合酶启动子序列可以嵌入连接复合物内的桥寡核苷酸的位置226、238或242或224内。脱氧尿苷部分可以嵌入位置204和228之间，或左探针中的206内。

序列表

<110> 基诺米尔健康公司

<120> 用于准确的平行定量稀释或未纯化样品中的核酸的方法

<130> Genomill002EP

<140> EP21163299.7

<141> 2021-03-18

<160> 31

<170> PatentIn version 3.5

<210> 1

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列

<400> 1

ggggcccgcc gtcgatcgga gccgttagga t 31

<210> 2

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 2

ttaaggtgcc gtcgatcgga gccgacgtac g 31

<210> 3

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 3

ttaaggtgcc gtcgatcgga gccgacgtac g 31

<210> 4

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 4

tataatagag gtcgtgcagt cacgacccgg t 31

<210> 5

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 5

accaggtgcc gtcgatcgga gccgacccgg t 31

<210> 6

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 6

gggccgggag gtcgtgcagt cacgttagga t 31

<210> 7

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 7

tccaggtgag tcgatccgtc acgtacgtac g 31

<210> 8

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 8

aaaattttag cgtacgtcgt acgtttagga t 31

<210> 9

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 9

tataatagag gtcgtgcagt cacgacccgg t 31

<210> 10

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 10

aggaccttga gtcgatccgc acgtacccgg t 31

<210> 11

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 11

agcgaccgag gtcgtgcagt cacgacgtac g 31

<210> 12

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 12

tataatagag gtcgtgcagt cacgacccgg t 31

<210> 13

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 13

ggaaaaagcc gtcgatcgga gccgttagga t 31

<210> 14

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 14

atatacagag gtcgtgcagt cacgttagga t 31

<210> 15

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 15

gagagccgag gtcgtgcagt cacgacccgg t 31

<210> 16

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 16

cgcacgcgag gtcgtgcagt cacgacgtac g 31

<210> 17

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 17

attacaagcc gtcgatcgga gccgacccgg t 31

<210> 18

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 18

tataatagag gtcgtgcagt cacgacccgg t 31

<210> 19

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 19

gggcaattag cgtacgtcgt acgtacgtac g 31

<210> 20

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 20

tatgcgagcc gtcgatcgga gccgacgtac g 31

<210> 21

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 21

aggaccttga gtcgatccgc acgtacccgg t 31

<210> 22

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 22

attacaagcc gtcgatcgga gccgacccgg t 31

<210> 23

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 23

gaagaattag cgtacgtcgt acgtttagga t 31

<210> 24

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 24

gggcaattag cgtacgtcgt acgtacgtac g 31

<210> 25

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 25

gggcaattag cgtacgtcgt acgtacgtac g 31

<210> 26

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 26

gagcacttag cgtacgtcgt acgtacccgg t 31

<210> 27

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 27

aaaggggcga gtcgatccgc acgtttagga t 31

<210> 28

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 28

agcgcgcgcc gtcgatcgga gccgttagga t 31

<210> 29

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<400> 29

cgacgacgac agaaccagat acacgacgta cgcacgacat 40

<210> 30

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<220>

<221> misc_feature

<222> (33)..(42)

<223> n是a、c、g或t

<400> 30

ggttctgtcg tcgtcggaca cgacgctccg ctnnnnnnnn nnagctgagc gtattcgat 59

<210> 31

<211> 68

<212> DNA

<213> 人工序列

<220>

<223> 随机序列 - 仅用于说明

<220>

<221> misc_feature

<222> (18)..(27)

<223> n是a、c、g或t

<400> 31

ctggatcgtc gtatgctnnn nnnnnnngat cgacccattg gagaagatga tgtcgtgcgg 60

tacgtcgt 68

Claims

1.一种用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

并且其中所述桥寡核苷酸或桥寡核苷酸复合物含有分别与所述第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

并且其中所述第一序列条形码或第二序列条形码或第三条形码中的至少一种分别存在于所述第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中；

(ii)对于一种或多种靶核苷酸序列中的每种，优选地对于分开管中的每个样品，使所述第一探针和第二探针与所述桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸接触，并且允许自退火成多个连接复合物；

(iii)使待测试靶核苷酸序列的每个样品中存在的核酸与所述连接复合物接触；

(v)使所述杂交复合物与包含第二捕获部分的固体支持物接触，并且允许所述第一捕获部分和第二捕获部分相互作用，使得所述杂交复合物变得与固体支持物连接；

(vii)连接所述杂交复合物中的探针，以提供经连接的连接复合物；

(viii)任选地合并来自多个样品的经连接的连接复合物；

(ix)由一种或多种经连接的连接复合物扩增核酸；

(xi)通过确定所述第一靶特异性部分和/或第二靶特异性部分的至少一部分，和/或所述第一条形码和/或第二条形码的至少一部分，和/或所述第三条形码的至少一部分，来鉴定多个样品中的靶核苷酸序列的存在和/或数目，

其中步骤(vii)和(viii)可以以任何次序执行。

2.根据权利要求1所述的方法，其中所述多个样品包括血液样品、唾液样品、尿样品、粪便样品、另一种体液样品或来自身体材料的提取物。

3.根据权利要求1或2所述的方法，其中所述第一捕获部分是生物素部分，并且所述第二捕获部分是链霉亲和素部分或亲和素部分。

4.根据权利要求1-3中任一项所述的方法，其中在步骤(vi)和(vii)之间执行洗涤步骤。

5.根据权利要求1-4中任一项所述的方法，其中所述测序借助于下一代DNA或RNA测序来进行。

6.根据权利要求1-5中任一项所述的方法，其中所述第一探针的3'端或所述第二探针的5'端或两者进行了修饰，以允许所述第一探针与所述第二探针的化学连接。

7.根据权利要求1-6中任一项所述的方法，其中所述第一探针或所述第二探针或两者的桥接部分包含化学修饰的碱基，以允许改善与所述桥寡核苷酸或桥寡核苷酸复合物的结合。

8.根据权利要求1-7中任一项所述的方法，其中所述第一靶特异性部分、所述第二靶特异性部分、所述第一桥寡核苷酸特异性序列和/或所述第二桥寡核苷酸特异性序列，彼此独立地含有一种或多种化学修饰的核苷酸。

9.根据权利要求1-8中任一项所述的方法，其中关于T7 RNA聚合酶的启动子序列存在于所述第一探针、所述第二探针或者所述桥寡核苷酸或桥寡核苷酸复合物中，并且其中步骤(ix)中的扩增包括使用T7 RNA聚合酶从一种或多种经连接的连接复合物进行RNA合成，所述T7 RNA聚合酶从嵌入经连接的连接复合物中的T7 RNA聚合酶启动子开始RNA合成。

10.根据权利要求9所述的方法，其中所述第一探针、所述第二探针或者所述桥寡核苷酸或桥寡核苷酸复合物包含脱氧尿苷部分，所述脱氧尿苷部分允许通过使用尿嘧啶特异性切除试剂进行切割来线性化。

11.根据权利要求9所述的方法，其中在步骤(x)之前，使用DNA-寡核苷酸分子从RNA分子制备cDNA，所述DNA-寡核苷酸分子与所述第一探针或者第二探针或者所述桥寡核苷酸或桥寡核苷酸复合物中存在的通用位点反向互补。

12.根据权利要求1-8中任一项所述的方法，其中所述第一探针或者第二探针或者桥寡核苷酸或桥寡核苷酸复合物中的至少一种包含核酸内切酶的识别序列，并且其中(a)使用链置换聚合酶通过滚环扩增来执行由步骤(ix)中的一种或多种经连接的连接复合物扩增核酸，随后为(b)任选地使所获得的经扩增的一种或多种单链多联体序列经受与含有所述识别序列的特异性寡核苷酸的退火，其中所述特异性寡核苷酸与所述识别序列退火，使得获得关于所述核酸内切酶的识别位点，以及(c)任选地用所述核酸内切酶切割所获得的经扩增的一种或多种单链多联体序列或所获得的经退火复合物。

13.根据权利要求1-8中任一项所述的方法，其中使用与所述第一探针和第二探针的通用部分结合的引物通过PCR来执行步骤(ix)中的扩增。

14.根据权利要求1-13中任一项所述的方法，其中通过计算每种靶和每个样品的分子条形码数目来允许遗传靶计数。

15.根据权利要求9-14中任一项所述的方法，其中用第一引物和第二引物扩增所述核苷酸分子，以提供扩增产物。

16.包括多个容器的多部分试剂盒，其中至少一个容器包含一组或多组的第一探针和第二探针，并且至少一个容器包含一种或多种桥寡核苷酸或能够形成桥寡核苷酸复合物的多个寡核苷酸，

其中所述桥寡核苷酸或桥寡核苷酸复合物含有分别与所述第一探针和第二探针中的第一桥寡核苷酸特异性序列和第二桥寡核苷酸特异性序列互补的序列，以及任选的第三条形码；

17.一种用于高通量检测多个样品中的一种或多种靶核苷酸序列的方法，所述方法包括以下步骤：

(i)对于每个样品中的每种靶核苷酸序列提供：

●单个探针，其从分子的5’端开始包含第一靶特异性部分、包含条形码的间隔子部分，以及在所述单个探针的3'端处的第二靶特异性部分，和

●桥寡核苷酸，其中所述桥寡核苷酸含有与所述单个探针的间隔子部分或间隔子部分的一部分互补的序列；

其中所述单个探针或桥寡核苷酸包含第一捕获部分，

(ii)对于一种或多种靶核苷酸序列中的每种，优选地对于分开管中的每个样品，使所述单个探针与所述桥寡核苷酸接触，并且允许自退火；

(iii)使待测试靶核苷酸序列的多个样品中存在的核酸与所述单个探针接触，所述单个探针对所述桥寡核苷酸退火；

(iv)允许所述单个探针的第一靶特异性部分和第二靶特异性部分与靶序列上的基本上相邻的区段杂交，从而形成杂交复合物；

(vii)连接所述单个探针的5'端和3'端，以提供经连接的连接复合物，

(viii)任选地合并来自多个样品的经连接的连接复合物，

(ix)由一种或多种经连接的连接复合物扩增核酸；

其中步骤(vii)和(viii)可以以任何次序执行。

18.根据权利要求17所述的方法，其中所述单个探针包含已化学连接的两种或更多种寡核苷酸。

19.根据权利要求17或18所述的方法，其进一步包括权利要求2至15中任一项的特征。

20.包括多个容器的多部分试剂盒，其中至少一个容器包含一种或多种单个探针，并且至少一个容器包含一种或多种桥寡核苷酸，

其中所述单个探针从分子的5’端开始包含第一靶特异性部分、含条形码的间隔子部分，以及在所述单个探针的3'端处的第二靶特异性部分，

其中所述桥寡核苷酸含有与所述单个探针的间隔子部分或间隔子部分的一部分互补的序列；