CN103998658B

CN103998658B - 用于标记dna-编码文库的方法

Info

Publication number: CN103998658B
Application number: CN201280053930.2A
Authority: CN
Inventors: 安东尼·D·基夫; 理查德·W·瓦格纳; 亚历山大·利托夫奇克; 马修·克拉克; 约翰·W·科佐; 保罗·A·森特雷拉; 克里斯托弗·D·赫普; 张颖
Original assignee: X Chem Inc
Current assignee: X Chem Inc
Priority date: 2011-09-07
Filing date: 2012-09-07
Publication date: 2021-06-18
Anticipated expiration: 2032-09-07
Also published as: IL231191A0; IL279796A; AP2014007483A0; KR20140059256A; AU2012304387B2; CN103998658A; ES2675111T3; KR102242879B1; EP3828271A1; CA3077662A1; NZ722289A; SG11201400374TA; AU2019200965B2; JP6674738B2; AU2017201146B2; JP2020176121A; EP3351631A2; AU2019200965A1; WO2013036810A1; EA201490534A1

Abstract

本发明涉及寡核苷酸编码的文库以及标记此类文库的方法。特别地，该方法和寡核苷酸可以包括：一种或多种2’‑取代的核苷酸，如2’‑O‑甲基核苷酸或2’‑氟代核苷酸；和，增强酶促连接的其他条件或试剂；或，支持化学连接的一种或多种化学官能度。

Description

用于标记DNA-编码文库的方法

相关申请的引用

本申请要求于2011年9月7日提交的美国临时专利申请号US61/531,820和于2011年9月20日提交的美国临时专利申请号US61/536,929的权益，它们各自通过引用并入本文。

背景技术

总体上，本发明涉及化合物的DNA-编码文库以及使用和创建此类文库的方法。本发明还涉及在此类文库中使用的组合物。

DNA编码的组合文库为药物发现提供了许多益处。这些文库可以提供可快速筛选和询问(interrogate)的大量不同的化合物。为了进一步增加复杂性，可以将发现方法的各种步骤编程并自动化。这些步骤包括采用多步的、裂池合成(split-and-pool synthesis)以将结构单元(building block)添加至原子或多原子支架(scaffold)并使用酶和/或化学连接反应以添加DNA标签，该DNA标签编码所述合成步骤和结构单元。

尽管有这些益处，但是当必需合成和解褶合(deconvoluted)非常大的或复杂的文库时，可能会出现很多问题。随着文库的大小增加，可能需要改良的方法以提供高产率的标签连接(tag ligation)。为了在不同的反应条件下创建文库，稳定连接后的核苷酸构建体将是有益的，例如在高pH和高温条件下是稳定的构建体。为了简化标签的解褶合，可以由DNA-或RNA-依赖性聚合酶来识别标签的序列，从而可以通过模板依赖性聚合和序列测定来确定标签群体统计。当要创建具有所有这些益处属性的文库时可能会出现困难。因此，需要在DNA-编码文库中筛选和识别小分子化合物的改进的、更可靠的方法。

发明内容

本发明描述了创建文库的方法以及在产生文库中使用的组合物，其中该方法包括改善标签的单链连接的一种或多种条件。示例性条件包括在标签中使用一种或多种2’-取代的碱基，如2'-O-甲基或2'-氟代；使用特定长度的标签；使用一种或多种酶；可选地在标签设计中包含错误识别能力；和/或在连接反应中使用一种或多种试剂。

因此，本发明描述了一种标记(tagging)第一文库的方法，该第一文库包括寡核苷酸编码的化学实体(chemical entity)，该方法包括：(i)提供具有第一官能团和第二官能团的头片段(headpiece)，其中该头片段包括至少一个2’-取代的核苷酸；(ii)使该头片段的第一官能团结合至该化学实体的第一组分上，其中该头片段直接地连接至第一组分或者该头片段通过双官能接头(例如，聚乙二醇接头或-(CH₂CH₂O)_nCH₂CH₂-，其n是1至50的整数)间接地连接至第一组分；和(iii)使该头片段的第二官能团结合至第一结构单元标签以形成复合物，其中可以以任何顺序来进行步骤(ii)和(iii)并且其中第一结构单元标签为步骤(ii)的结合反应进行编码，从而提供标记的文库。

在一些实施方式中，头片段在该头片段的5’-末端、3’-末端或内部位置中的一个或多个上包含2’-取代的核苷酸。在特定的实施方式中，头片段在5’-末端或3’-末端处包含2’-取代的核苷酸和第二官能团。

在其他实施方式中，第一结构单元标签包含至少一个(例如，至少两个、三个、四个、五个或更多个)2’-取代的核苷酸。在特定的实施方式中，第一结构单元标签在该第一结构单元标签的5’-末端、3’-末端或内部位置中的一个或多个上包含2’-取代的核苷酸(例如，在5'-和3'-末端同时具有2'-O-甲基核苷酸或2'-氟代核苷酸)。在一些实施方式中，第一结构单元标签在3’-末端或在5’-末端具有保护基团。

在本文的任一实施方式中，2’-取代的核苷酸是2'-O-甲基核苷酸(例如，2'-O-甲基鸟嘌呤或2'-O-甲基尿嘧啶)或2'-氟代核苷酸(例如，2'-氟鸟嘌呤或2'-氟尿嘧啶)。

在任一上述实施方式中，步骤(ii)可以包括使头片段直接接合(joining)、结合(binding)或操作性地缔合(associating)至第一组分(例如，支架或结构单元)。在又另一个实施方式中，步骤(ii)包括通过双官能接头使头片段间接地结合至第一组分(例如，支架或第一结构单元)(例如，该方法包括使头片段与该接头的第一官能团结合以及使第一组分与该接头的第二官能团结合)。

在任一上述实施方式中，方法可以进一步包括(iv)使第二结构单元标签结合至复合物的5’-末端或3’-末端；和(v)使化学文库的第二组分(例如，第一结构单元或第二结构单元)结合至第一组分，其中可以以任何顺序进行步骤(iv)和(v)。在一些实施方式中，第二结构单元标签为步骤(v)的结合反应编码。在其他实施方式中，步骤(iv)可以包括使第二结构单元标签结合至复合物的5’-末端；该复合物在5’-末端包括磷酸酯基团；并且该第二结构单元标签在3’-和5’-末端都包含羟基。在其他实施方式中，步骤(iv)可以进一步包括在结合第二结构单元标签之前纯化复合物并且使该复合物与多核苷酸激酶反应以在5’-末端上形成磷酸酯基团。在其他实施方式中，步骤(iv)可以包括将第二结构单元标签结合至复合物的3’-末端；该复合物在3’-末端包含保护基团；并且该第二结构单元标签在5’-末端包括磷酸酯基团并且在3’-末端包括保护基团。在又另一个实施方式中，步骤(iv)可以进一步包括在将第二结构单元标签结合至复合物之前使复合物与水解剂反应以从复合物中释放出保护基团。

在进一步的实施方式中，第二结构单元标签在该第二结构单元标签的5’-末端、3’-末端或内部位置中的一个或多个上包含2’-取代的核苷酸(例如，2'-O-甲基核苷酸或2'-氟代核苷酸)(例如在5’-和3’-末端上都有2'-O-甲基核苷酸和/或2'-氟代核苷酸)。

在一些实施方式中，步骤(iv)可以包括使用RNA连接酶(例如，T4RNA连接酶)和/或DNA连接酶(例如，ssDNA连接酶)将第二结构单元标签结合至复合物(例如，可以包括使用RNA连接酶和DNA连接酶两者)。

在其他实施方式中，步骤(iii)可以包括使用RNA连接酶(例如，T4RNA连接酶)和/或DNA连接酶(例如，ssDNA连接酶)将头片段结合至第一结构单元标签(例如，可以包括使用RNA连接酶和DNA连接酶两者)。

在进一步的实施方式中，步骤(iii)和/或步骤(iv)，如果存在，可以包括使用聚乙二醇和/或一种或多种可溶性多价阳离子(例如，氯化镁、氯化锰(II)或六胺氯化钴(III))。在一些实施方式中，聚乙二醇的量为约25％(w/v)至约35％(w/v)(例如，约25％(w/v)至约30％(w/v)、约30％(w/v)至约35％(w/v)或约30％(w/v))。在其他实施方式中，聚乙二醇具有约3,000至约5,500道尔顿(例如，约4,600道尔顿)的平均分子量。在其他实施方式中，一种或多种可溶性多价阳离子的量为约0.05mM至约10.5mM(例如，0.05mM至0.5mM、0.05mM至0.75mM、0.05mM至1.0mM、0.05mM至1.5mM、0.05mM至2.0mM、0.05mM至3.0mM、0.05mM至4.0mM、0.05mM至5.0mM、0.05mM至6.0mM、0.05mM至7.0mM、0.05mM至8.0mM、0.05mM至9.0mM、0.05mM至10.0mM、0.1mM至0.5mM、0.1mM至0.75mM、0.1mM至1.0mM、0.1mM至1.5mM、0.1mM至2.0mM、0.1mM至3.0mM、0.1mM至4.0mM、0.1mM至5.0mM、0.1mM至6.0mM、0.1mM至7.0mM、0.1mM至8.0mM、0.1mM至9.0mM、0.1mM至10.0mM、0.1mM至10.5mM、0.5mM至0.75mM、0.5mM至1.0mM、0.5mM至1.5mM、0.5mM至2.0mM、0.5mM至3.0mM、0.5mM至4.0mM、0.5mM至5.0mM、0.5mM至6.0mM、0.5mM至7.0mM、0.5mM至8.0mM、0.5mM至9.0mM、0.5mM至10.0mM、0.5mM至10.5mM、0.75mM至1.0mM、0.75mM至1.5mM、0.75mM至2.0mM、0.75mM至3.0mM、0.75mM至4.0mM、0.75mM至5.0mM、0.75mM至6.0mM、0.75mM至7.0mM、0.75mM至8.0mM、0.75mM至9.0mM、0.75mM至10.0mM、0.75mM至10.5mM、1.0mM至1.5mM、1.0mM至2.0mM、1.0mM至3.0mM、1.0mM至4.0mM、1.0mM至5.0mM、1.0mM至6.0mM、1.0mM至7.0mM、1.0mM至8.0mM、1.0mM至9.0mM、1.0mM至10.0mM、1.0mM至10.5mM、1.5mM至2.0mM、1.5mM至3.0mM、1.5mM至4.0mM、1.5mM至5.0mM、1.5mM至6.0mM、1.5mM至7.0mM、1.5mM至8.0mM、1.5mM至9.0mM、1.5mM至10.0mM、1.5mM至10.5mM、2.0mM至3.0mM、2.0mM至4.0mM、2.0mM至5.0mM、2.0mM至6.0mM、2.0mM至7.0mM、2.0mM至8.0mM、2.0mM至9.0mM、2.0mM至10.0mM和2.0mM至10.5mM)。在一些实施方式中，一种或多种多价阳离子的量为约1mM(例如，0.5mM至1.5mM)。在特定的实施方式中，多价阳离子为六胺氯化钴(III)的形式。

在其他实施方式中，方法进一步包括在结合步骤(ii)至(v)中的任何一个之前，将复合物与任何未反应的标签或未反应的头片段分离。在其他实施方式中，方法进一步包括在结合步骤(ii)至(v)中的任何一个之前纯化复合物。在其他实施方式中，方法进一步包括在结合步骤(ii)至(v)中的任何一个之后以任何顺序结合一个或多个另外的组分(例如，支架或第一结构单元)和一个或多个另外的结构单元标签。

本发明还描述了一种标记第一文库的方法，该第一文库包括寡核苷酸编码的化学实体，该方法包括：(i)提供具有第一官能团和第二官能团的头片段，其中该头片段包含在5’-末端的2’-取代的核苷酸、可选的在该头片段的内部位置的一个或多个核苷酸、和在3’-末端的2’-位置和/或3’-位置的保护基团；(ii)使该头片段的第一官能团结合至该化学实体的第一组分，其中该头片段直接连接至该第一组分或该顶部物通过双官能接头间接连接至该第一组分；和(iii)使该头片段的第二官能团结合至第一结构单元标签，其中该第一结构单元标签包括在5’-末端的2’-取代的核苷酸和羟基、可选地在该标签的内部位置处的一个或多个核苷酸、和在3’-末端的2’-取代的核苷酸和羟基；其中可以以任何顺序来进行步骤(ii)和(iii)，并且其中第一结构单元标签为步骤(ii)的结合反应编码，从而提供标记的(tagged)文库。

在一些实施方式中，2’-取代的核苷酸是2'-O-甲基核苷酸(例如，2'-O-甲基鸟嘌呤)或2'-氟代核苷酸(例如，2'-氟鸟嘌呤)。在其他实施方式中，在头片段的内部位置处的一个或多个核苷酸是2’-脱氧核苷酸。在又另一个实施方式中，双官能接头是聚乙二醇接头(例如，-(CH₂CH₂O)_nCH₂CH₂-，其中n为1至50的整数)。

在其他实施方式中，一个或多个核苷酸(例如，一个或多个2’-脱氧核苷酸)存在于头片段或标签的内部位置。

在其他实施方式中，步骤(iii)可以包括使用一种或多种可溶性多价阳离子(例如，氯化镁、氯化锰(II)或六胺氯化钴(III))、聚乙二醇(例如，具有约4,600道尔顿的平均分子量)和RNA连接酶(例如，T4RNA连接酶)。

在另一方面，本发明描述了用于识别和/或发现化学实体的方法，该方法包括标记包含寡核苷酸编码的化学实体的第一文库(例如，包括步骤(i)至(iii)和可选的包括步骤(iv)至(v))和选择特定的特征或功能(例如，选择至蛋白质靶的结合，包括使寡核苷酸编码的化学实体或化学实体暴露于蛋白质靶中并且选择结合至该蛋白质靶的一个或多个寡核苷酸编码的化学实体或化学实体(例如，通过使用尺寸排阻色谱法))。本发明还描述了一种包括头片段和结构单元标签的复合物，其中该标签包括5至20个核苷酸、在5’-末端的2’-取代的核苷酸、和在3’-末端的2’-取代的核苷酸。在一些实施方式中，在5’-末端和/或3’-末端的2’-取代的核苷酸是2'-O-甲基核苷酸(例如，2’-O-甲基鸟嘌呤或2’-O-甲基尿嘧啶)或2’-氟代核苷酸(例如2’-氟鸟嘌呤或2’-氟尿嘧啶)。在特定的实施方式中，头片段包括发夹结构。在一些实施方式中，头片段在该头片段的5’-末端、3’-末端或内部位置中的一个或多个上包含2’-取代的核苷酸。在其他实施方式中，头片段进一步包括预先腺苷酸化的5’-末端。在又其他的实施方式中，头片段包括5至20个核苷酸。

在任一上述实施方式中，头片段、第一结构单元标签、第二结构单元标签或一个或多个另外的结构单元标签(如果存在)包括预先腺苷酸化的5’-末端。

在任一上述实施方式中，方法进一步包括使一个或多个(例如一个、两个、三个、四个、五个、六个、七个、八个、九个或十个)另外的结构单元标签结合至复合物以及使一个或多个(例如一个、两个、三个、四个、五个、六个、七个、八个、九个或十个)另外的组分(例如支架或结构单元)结合至复合物，其中该一个或多个另外的结构单元标签为一个或多个另外的组分编码或为一个或多个另外的组分的结合反应编码，从而提供标记的文库。

在任一上述实施方式中，2’-取代的核苷酸是2’-O-甲基核苷酸，例如2’-O-甲基鸟嘌呤、2’-O-甲基尿嘧啶、2’-O-甲基腺苷、2’-O-甲基胸腺嘧啶、2’-O-甲基肌苷、2’-O-甲基胞苷或2’-O-甲基二氨基嘌呤。可替代地，在任一上述实施方式中，2’-取代的核苷酸是2’-氟代核苷酸，例如2’-氟鸟嘌呤、2’-氟尿嘧啶、2’-氟腺苷、2’-氟胸腺嘧啶、2’-氟肌苷、2’-氟胞苷或2’-氟二氨基嘌呤。

在任一上述实施方式中，RNA连接酶是T4RNA连接酶和/或DNA连接酶是ssDNA连接酶。

在任一上述实施方式中，方法包括多个头片段。在本方法的一些实施方式中，多个头片段中的每个头片段包括相同的序列区域和不同的编码区。在特定的实施方式中，相同的序列区域是引物结合区。在其他实施方式中，不同的编码区是为该头片段或为添加起始组分编码的起始结构单元标签。

在任一上述实施方式中，在步骤(ii)至(iv)(如果存在)中的至少一个中的结合包括酶促连接和/或化学连接。在一些实施方式中，酶促连接包括使用RNA连接酶(例如，T4RNA连接酶)或DNA连接酶(例如，ssDNA连接酶)。在其他实施方式中，酶促连接包括使用RNA连接酶(例如，T4RNA连接酶)和DNA连接酶(例如，ssDNA连接酶)。在一些实施方式中，化学连接包括使用一个或多个化学共反应性配对(chemically co-reactive pair)(例如，包括可选被取代的炔基与可选被取代的叠氮基的配对；包括可选被取代的具有4π电子体系的二烯(例如，可选被取代的1,3-不饱和化合物，如可选被取代的1,3-丁二烯、l-甲氧基-3-三甲基甲硅烷氧基-l,3-丁二烯、环戊二烯、环己二烯或呋喃)与可选被取代的亲双烯体或可选被取代的具有2π电子体系的杂亲双烯体(例如，可选被取代的烯基或可选被取代的炔基)的配对；包括亲核体(例如，可选被取代的胺或可选被取代的硫醇)与应变的杂环亲电体(例如可选被取代的环氧化物、氮丙啶、吖丙啶鎓离子或表锍离子(episulfonium ion))的配对；包含硫代磷酸酯基团与碘基的配对(例如，硫代磷酸酯基团在3’-末端而碘基在5’-末端)；或包含醛基与氨基(例如，伯氨基或仲氨基，包括酰肼基(hydrazido group)))的配对。在特定的实施方式中，化学共反应性配对产生具有约4至约24个原子(例如，约4至约10个原子)的产物间隔物(resultant spacer)。在其他实施方式，化学连接包括使用硫代磷酸酯基团(例如，在3’-末端)和碘基(例如，在5’-末端)。在进一步的实施方式中，化学连接包括结合反应中的夹板寡核苷酸(splint oligonucleotide)。在一些实施方式中，化学连接包括使用硫代磷酸酯基团(例如，在头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签(use tag)和/或来源标签(origin tag)的3’-末端，如果存在)、碘基(例如，在头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签的5’-末端，如果存在)、和结合反应中的夹板寡核苷酸，其中该使用避免了使用一个或多个保护基团。在其他实施方式中，多个标签的化学连接包括交替使用正交(orthogonal)化学共反应性配对(例如，本文所描述的两种或多个化学共反应性配对)用于连接连续的标签。

在任一上述实施方式中，头片段包括单链(例如，发夹)结构。

在任一上述实施方式中，头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)包括与本文的任何序列(例如，SEQ ID NO:6-SEQ ID NO:21、SEQ ID NO:26、SEQ ID NO:27或SEQ IDNO:29-SEQ ID NO:31中任一项的序列)基本相同(例如，至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同)的序列或者和与本文的任何序列(例如，SEQ ID NO:6-SEQ ID NO:21、SEQ ID NO:26、SEQ ID NO:27或SEQ ID NO:29-SEQ IDNO:31中任一项的序列)基本相同(例如，至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同)的序列互补的序列。在特定的实施方式中，第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)进一步包括与SEQ ID NO:1或SEQ ID NO:2的序列基本相同(例如至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同)的序列。

在任一上述实施方式中，方法或复合物只包括单链分子，其中头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签是单链的。在一些实施方式中，一个或多个单链分子具有发夹结构。在特定的实施方式中，头片段包含发夹结构并且一个或多个结构单元标签不包含发夹结构。

在任一上述实施方式中，如本文所描述的，方法进一步包括一个或多个可选的步骤以多样化文库或询问该文库中的成员。在一些实施方式中，方法进一步包括识别小类药性(small drug-like)文库成员，该小类药性文库成员结合或失活治疗目的的蛋白质。在其他实施方式中，方法进一步包括：在适合于该文库的至少一个成员结合至生物靶的条件下，使该文库的成员与该生物靶接触；去除不与靶结合的一个或多个文库成员；和分析与它们相关的一个或多个寡核苷酸标签。

如本文所描述的，使用单链分子(例如包括发夹分子)可以具有许多益处。因此，与包括一个或多个双链分子(例如，双链头片段或双链结构单元标签)的方法相比，在本文的任一实施方式中，方法和复合物包括具有降低的质量(mass)、增加的溶解度(例如在有机溶剂中)、降低的成本、提高的反应性、增加的靶可达性、降低的流体力学半径和/或提高的分析评估的准确度的头片段、一个或多个结构单元标签、复合物、化学实体、分子或标记的文库的任何成员。在一些实施方式中，结构单元标签(例如，第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签，如果存在)中的每一个都具有大约相同的质量(例如，每个结构单元标签都具有两个或多个结构单元标签之间的平均质量的约+/-10％的质量)。在特定的实施方式中，与双链标签(例如具有约为15,000道尔顿、约14,000道尔顿、约13,000道尔顿或约12,000道尔顿的质量的双链标签)相比，结构单元标签具有降低的质量(例如，小于约15,000道尔顿、约14,000道尔顿、约13,000道尔顿、约12,000道尔顿、约11,000道尔顿、约10,000道尔顿、约9,000道尔顿、约8,000道尔顿、约7,500道尔顿、约7,000道尔顿、约6,000道尔顿、约6,500道尔顿、约5,000道尔顿、约5,500道尔顿、约4,000道尔顿、约4,500道尔顿或约3,000道尔顿)。在其他实施方式中，与双链标签(例如，具有小于约20个核苷酸、小于约19个核苷酸、小于约18个核苷酸、小于约17个核苷酸、小于约16个核苷酸、小于约15个核苷酸、小于约14个核苷酸、小于约13个核苷酸、小于约12个核苷酸、小于约11个核苷酸、小于约10个核苷酸、小于约9个核苷酸、小于约8个核苷酸或小于约7个核苷酸长度的双链标签)相比，结构单元标签具有减少的长度。在一些实施方式中，一个或多个结构单元标签或文库的成员缺少引物结合区和/或恒定区(例如，在选择步骤中，如使用尺寸排阻色谱法的选择)。在一些实施方式中，一个或多个结构单元标签或文库的成员具有减小的恒定区(例如，长度小于约30个核苷酸、小于约25个核苷酸、小于约20个核苷酸、小于约19个核苷酸、小于约18个核苷酸、小于约17个核苷酸、小于约16个核苷酸、小于约15个核苷酸、小于约14个核苷酸、小于约13个核苷酸、小于约12个核苷酸、小于约11个核苷酸、小于约10个核苷酸、小于约9个核苷酸、小于约8个核苷酸或小于约7个核苷酸)。在其他实施方式中，方法包括头片段，其为分子、化学实体的部分、一个步骤的结合反应(例如化学连接或酶促连接)或文库的同一性进行编码，其中该编码头片段排除了对用于编码此类信息的另外结构单元标签的需求。

在任一上述实施方式中，寡核苷酸(例如，头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签，如果存在)为文库的同一性编码。在一些实施方式中，寡核苷酸(例如，头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签，如果存在)包括第一文库-识别序列，其中该序列为该第一文库的同一性编码。在特定的实施方式中，寡核苷酸为第一文库-识别标签。在一些实施方式中，方法包括提供第一文库-识别标签和/或将该第一文库-识别标签结合至复合物，其中该标签包括为第一文库编码的序列。在一些实施方式中，方法包括提供第二文库和将第一文库与第二文库组合。在进一步实施方式中，方法包括提供第二文库-识别标签，其中该标签包括为第二文库编码的序列。

在任一上述实施方式中，寡核苷酸(例如，头片段和/或一个或多个结构单元)为文库的成员的用途(例如，如本文所描述的，在选择步骤中或结合步骤中的用途)编码。在一些实施方式中，寡核苷酸(例如，头片段、第一结构单元标签、第二结构单元标签、和/或一个或多个另外的结构单元标签，如果存在)包括用途序列(use sequence)，其中该序列为文库中的成员的子集在一个或多个步骤(例如，选择步骤和/或结合步骤)中的用途编码。在特定的实施方式中，寡核苷酸为包括用途序列的用途标签。在一些实施方式中，寡核苷酸(例如，头片段和/或一个或多个结构单元)为文库的成员的来源(例如在该文库的特定部分中)编码。在一些实施方式中，寡核苷酸(例如，头片段、第一结构单元标签、第二结构单元标签、和/或一个或多个另外的结构单元标签，如果存在)包括来源序列(例如，具有约10、9、8、7或6个核苷酸长度的随机简并序列)，其中该序列为文库中的成员的来源编码。在特定的实施方式中，寡核苷酸为包括来源序列的来源标签。在一些实施方式中，方法进一步包括将用途标签和/或来源标签接合、结合或操作性地缔合至复合物。

在任一上述实施方式中，方法、组合物和复合物可选地包括尾片段(tailpiece)，其中该尾片段包括本文所描述的文库-识别序列、用途序列或来源序列中的一个或多个。在特定的实施方式中，方法进一步包括将尾片段(例如，包括文库-识别序列、用途序列或来源序列中的一个或多个)接合、结合或操作性地缔合至复合物。

在任一上述实施方式中，方法、组合物和复合物或其部分(例如，头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签，如果存在)包括在3’-末端的末端核苷酸与邻接该末端核苷酸的核苷酸之间的经修饰的磷酸酯基团(例如硫代磷酸酯或5'-N-亚磷酰胺键)。在特定的实施方式中，与两个缺少经修饰的磷酸酯基团的寡核苷酸之间的连接(例如，头片段与结构单元标签，或者第一结构单元标签与第二结构单元标签)相比，经修饰的磷酸酯基团在两个寡核苷酸之间的酶促连接过程中使改组(shuffling)最小化(例如，与待连接的两个寡核苷酸的序列(如在头片段与结构单元标签之间或在第一结构单元标签与第二结构单元标签之间)相比，使最终产物或复合物中内含另外核苷酸或切除核苷酸最小化)。在一些实施方式中，复合物可以包括硫代磷酸酯基团或三唑基团。

在任一上述实施方式中，方法、组合物和复合物或其部分(例如，头片段、第一结构单元标签、第二结构单元标签和/或一个或多个另外的结构单元标签，如果存在)包括支持在半水性、降低的水性或非水性(例如有机)条件下的溶解性的修饰。在一些实施方式中，双官能接头、头片段或一个或多个结构单元标签被修饰以提高所述DNA-编码的化学文库的成员在有机条件下的溶解度。在一些实施方式中，修饰为烷基链、聚乙二醇单元、具有正电荷的支链物质或疏水环结构中的一种或多种。在一些实施方式中，修饰包括具有疏水性部分的一个或多个经修饰的核苷酸(例如，以脂肪链在T或C碱基的C5位置进行修饰，如在5'-二甲氧三苯甲基-N4-二异丁基氨基甲叉基-5-(l-丙炔基)-2'-脱氧胞苷、3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5'-二甲氧三苯甲基-5-(l-丙炔基)-2'-脱氧尿苷、3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5'-二甲氧三苯甲基-5-氟-2'-脱氧尿苷、3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；和5'-二甲氧三苯甲基-5-(芘-1-基-乙炔基)-2'-脱氧尿苷或3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺中)或具有疏水性基团的插入物(例如偶氮苯)。在一些实施方式中，文库的成员具有约1.0至约2.5(例如约1.0至约1.5、约1.0至约2.0、约1.3至约1.5、约1.3至约2.0、约1.3至约2.5、约1.5至约2.0、约1.5至约2.5或约2.0至约2.5)的辛醇:水系数。

在任一上述实施方式中，头片段、尾片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)可以包括5至20个核苷酸(例如，5至7个核苷酸、5至8个核苷酸、5至9个核苷酸、5至10个核苷酸、5至11个核苷酸、5至12个核苷酸、5至13个核苷酸、5至14个核苷酸、5至15个核苷酸、5至16个核苷酸、5至17个核苷酸、5至18个核苷酸、5至19个核苷酸、6至7个核苷酸、6至8个核苷酸、6至9个核苷酸、6至10个核苷酸、6至11个核苷酸、6至12个核苷酸、6至13个核苷酸、6至14个核苷酸、6至15个核苷酸、6至16个核苷酸、6至17个核苷酸、6至18个核苷酸、6至19个核苷酸、6至20个核苷酸、7至8个核苷酸、7至9个核苷酸、7至10个核苷酸、7至11个核苷酸、7至12个核苷酸、7至13个核苷酸、7至14个核苷酸、7至15个核苷酸、7至16个核苷酸、7至17个核苷酸、7至18个核苷酸、7至19个核苷酸、7至20个核苷酸、8至9个核苷酸、8至10个核苷酸、8至11个核苷酸、8至12个核苷酸、8至13个核苷酸、8至14个核苷酸、8至15个核苷酸、8至16个核苷酸、8至17个核苷酸、8至18个核苷酸、8至19个核苷酸、8至20个核苷酸、9至10个核苷酸、9至11个核苷酸、9至12个核苷酸、9至13个核苷酸、9至14个核苷酸、9至15个核苷酸、9至16个核苷酸、9至17个核苷酸、9至18个核苷酸、9至19个核苷酸、9至20个核苷酸、10至11个核苷酸、10至12个核苷酸、10至13个核苷酸、10至14个核苷酸、10至15个核苷酸、10至16个核苷酸、10至17个核苷酸、10至18个核苷酸、10至19个核苷酸、10至20个核苷酸、11至12个核苷酸、11至13个核苷酸、11至14个核苷酸、11至15个核苷酸、11至16个核苷酸、11至17个核苷酸、11至18个核苷酸、11至19个核苷酸、11至20个核苷酸、12至13个核苷酸、12至14个核苷酸、12至15个核苷酸、12至16个核苷酸、12至17个核苷酸、12至18个核苷酸、12至19个核苷酸、12至20个核苷酸、13至14个核苷酸、13至15个核苷酸、13至16个核苷酸、13至17个核苷酸、13至18个核苷酸、13至19个核苷酸、13至20个核苷酸、14至15个核苷酸、14至16个核苷酸、14至17个核苷酸、14至18个核苷酸、14至19个核苷酸、14至20个核苷酸、15至16个核苷酸、15至17个核苷酸、15至18个核苷酸、15至19个核苷酸、15至20个核苷酸、16至17个核苷酸、16至18个核苷酸、16至19个核苷酸、16至20个核苷酸、17至18个核苷酸、17至19个核苷酸、17至20个核苷酸、18至19个核苷酸、18至20个核苷酸以及19至20个核苷酸)。在特定的实施方式中，头片段、第一结构单元标签、第二结构单元标签、一个或多个另外的结构单元标签、文库-识别标签、用途标签和/或来源标签(如果存在)具有小于20个核苷酸(例如，小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)的长度。

在特定的实施方式中，第一结构单元标签和第二结构单元标签包括相同数量的核苷酸。在其他实施方式中，第一结构单元标签或者第二结构单元标签包括多于8个核苷酸(例如，多于9个核苷酸、多于10个核苷酸、多于11个核苷酸、多于12个核苷酸、多于13个核苷酸、多于14个核苷酸以及多于15个核苷酸)。在一些实施方式中，第一结构单元标签为供体标签(例如，如本文所定义的)，其具有8至20个核苷酸(例如，8至9个核苷酸、8至10个核苷酸、8至11个核苷酸、8至12个核苷酸、8至13个核苷酸、8至14个核苷酸、8至15个核苷酸、8至16个核苷酸、8至17个核苷酸、8至18个核苷酸、8至19个核苷酸、8至20个核苷酸、9至10个核苷酸、9至11个核苷酸、9至12个核苷酸、9至13个核苷酸、9至14个核苷酸、9至15个核苷酸、9至16个核苷酸、9至17个核苷酸、9至18个核苷酸、9至19个核苷酸、9至20个核苷酸、10至11个核苷酸、10至12个核苷酸、10至13个核苷酸、10至14个核苷酸、10至15个核苷酸、10至16个核苷酸、10至17个核苷酸、10至18个核苷酸、10至19个核苷酸、10至20个核苷酸、11至12个核苷酸、11至13个核苷酸、11至14个核苷酸、11至15个核苷酸、11至16个核苷酸、11至17个核苷酸、11至18个核苷酸、11至19个核苷酸、11至20个核苷酸、12至13个核苷酸、12至14个核苷酸、12至15个核苷酸、12至16个核苷酸、12至17个核苷酸、12至18个核苷酸、12至19个核苷酸、12至20个核苷酸、13至14个核苷酸、13至15个核苷酸、13至16个核苷酸、13至17个核苷酸、13至18个核苷酸、13至19个核苷酸、13至20个核苷酸、14至15个核苷酸、14至16个核苷酸、14至17个核苷酸、14至18个核苷酸、14至19个核苷酸、14至20个核苷酸、15至16个核苷酸、15至17个核苷酸、15至18个核苷酸、15至19个核苷酸、15至20个核苷酸、16至17个核苷酸、16至18个核苷酸、16至19个核苷酸、16至20个核苷酸、17至18个核苷酸、17至19个核苷酸、17至20个核苷酸、18至19个核苷酸、18至20个核苷酸以及19至20个核苷酸)。

定义

“2’-取代的核苷酸”是指在碱基的核糖的2’-位上具有取代基的核苷酸碱基。

“约”是指所列举的数值的+/-10％。

“双官能”是指具有两个反应性基团，其允许结合两种化学基团。例如，本文的双官能接头为具有两个反应性基团以允许结合头片段和化学实体的接头。

“结合”是指通过共价键或非共价键的连接。非共价键包括通过范德华力、氢键、离子键、截留或物理封装、吸收、吸附和/或其他分子间力所形成的那些键。可以通过任何有用的方法来实现结合，如通过酶结合(例如酶促连接)或通过化学结合(例如化学连接)。

“结构单元”是指化学实体的结构单位(structural unit)，其中该单位直接连接至其他化学结构单位或通过支架间接地连接。当化学实体为聚合物或寡聚物时，结构单元是该聚合物或寡聚物的单体单位。结构单元可以具有一个或多个多样性节点，其允许添加一个或多个其他结构单元或支架。在大多数情况下，每个多样性节点都是能够与一个或多个结构单元或支架反应以形成化学实体的官能团。一般而言，结构单元具有至少两个多样性节点(或反应性官能团)，但一些结构单元可具有一个多样性节点(或反应性官能团)。可替代地，所编码的化学或结合步骤可以包括若干个化学组分(例如，多组分缩合反应或多步骤的过程)。在两个不同的结构单元上的反应性基团应该是互补的，即能够一起反应以形成共价键或非共价键。

“结构单元标签”是指文库的寡核苷酸部分，其编码组分(即支架或结构单元)的添加(例如通过结合反应)、文库中的头片段、文库的同一性、文库的用途和/或文库成员的来源。“受体标签”是指具有反应性实体(例如，在酶促连接的情形下在3’-末端的羟基)的结构单元标签。“供体标签”是指具有能够与受体标签上的反应性实体进行反应的实体(例如，在酶促连接的情形下在5’-末端的磷酰基)的结构单元标签。

“化学实体”是指包含一个或多个结构单元以及可选的支架的化合物。化学实体可以是设计或构建以具有一种或多种期望的性质的任何小分子或肽药物或药物候选物，一种或多种期望的性质例如结合生物靶的能力、溶解度、氢键供体和受体的可用度、键的自由旋转度、正电荷、负电荷等。在某些实施方式中，化学实体可以进一步作为双官能实体或三官能实体(或更多官能的实体)进行反应。

“化学共反应性配对”是指以高产率和高热力学增益参与分子反应的一对反应性基团，由此产生间隔物。示例性的反应和化学共反应性配对包括使用一对可选取代的炔基和可选被取代的叠氮基的惠斯更(Huisgen)1,3-偶极环化加成反应；使用一对具有4π电子体系的可选取代的二烯和具有2π电子体系的可选取代的亲二烯体或杂亲二烯体的狄尔斯-阿尔德(Diels-Alder)反应；使用亲核试剂和应变的杂环亲电试剂的开环反应；使用硫代磷酸酯基团和碘基的夹板连接反应；以及使用醛基和氨基的还原胺化反应，如本文所描述的。

“复合物”或“连接的复合物”是指头片段其通过共价键或非共价键操作性地与化学实体和/或一个或多个寡核苷酸标签缔合。复合物可以可选地包括在该化学实体和该头片段之间双官能接头。

化学实体的“组分”是指支架或结构单元。

“多样性节点”是指在支架或结构单元中的位置处的官能团，其允许添加另一个结构单元。

“头片段”是指用于文库合成的起始寡核苷酸，其操作性地连接至化学实体的组分并连接至结构单元标签。可选地，双官能接头将头片段连接至组分。

“文库”是指分子或化学实体的集合。可选地，分子或化学实体结合至为该分子或该化学实体的部分编码的一个或多个寡核苷酸。

“接头”是指将头片段连接至化学实体的化学连接实体。

“多价阳离子”是指能够与多于一种配体或阴离子形成多于一个键的阳离子。多价阳离子可以形成离子复合物或配位复合物。示例性的多价阳离子包括来源于碱土金属(例如镁)和过渡金属(例如，锰(II)或钴(III))的那些阳离子以及可选地结合至一种或多种阴离子和/或一种或多种单价或多齿配体(例如氯、胺和/或乙二胺)的那些阳离子。

“寡核苷酸”是指核苷酸的聚合物，其具有5’-末端、3’-末端以及在该5’-和3’-末端之间的位置处的一个或多个核苷酸。寡核苷酸可以包括DNA、RNA或本领域已知的可以合成并用于碱基对的识别的它们的任何衍生物。寡核苷酸不需要具有连续碱基，但是可以穿插有接头部分。寡核苷酸聚合物可以包括天然碱基(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷或二氨基嘌呤)、碱基类似物(例如，2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷)、修饰的核苷酸(例如，2’-取代的核苷酸，如2’-O-甲基化碱基和2’-氟碱基)、插入的碱基、修饰的糖(例如，2’-氟核糖、核糖、2’-脱氧核糖、阿拉伯糖和己糖)和/或修饰的磷酸基团(例如，硫代磷酸酯和5’-N-亚磷酰胺键)。本文描述了其他修饰的碱基。“受体寡核苷酸”是指具有反应性实体的寡核苷酸(例如，在酶促连接的情况下在3’-末端的羟基或在化学连接的情况下可选被取代的叠氮基)。“供体寡核苷酸”是指具有能够与受体寡核苷酸上的反应性实体反应的实体的寡核苷酸(例如，在酶促连接的情况下在5’-末端的磷酰基或在化学连接的情况下可选被取代的炔基)。

“操作性地连接”或“操作性地缔合”是指两个或多个化学结构以它们预期将经历的各种操作下保持连接的方式直接或间接地连接在一起。典型地，化学实体和头片段以间接的方式(例如通过适合的接头共价地)操作性地连接。例如，接头可以是具有连接化学实体的位点和连接头片段的位点的双官能部分。此外，化学实体和寡核苷酸标签可以直接或间接地(例如通过适合的接头共价地)操作性地连接。

“保护基团”是指在标记DNA-编码的文库的一个或多个结合步骤过程中用以保护寡核苷酸的3’-末端或5’-末端以防止不期望的反应的基团。常用的保护基团公开于Greene,“Protective Groups in Organic Synthesis,”第4版(John Wiley&Sons,NewYork,2007)中，其通过引用并入本文结合于此。示例性的保护基团包括不可逆的保护基团，如双脱氧核苷酸和双脱氧核苷(ddNTP或ddN)和更优选地用于羟基的可逆的保护基团，如酯基(例如，O-(α-甲氧基乙基)酯、O-异戊酯和O-乙酰丙酸酯)、三苯甲基基团(例如，二甲氧基三苯甲基和单甲氧基三苯甲基)、呫吨基团(例如，9-苯基呫吨-9-基和9-(对甲氧基苯基)呫吨-9-基)、酰基(例如，苯氧基乙酰基和乙酰基)以及甲硅烷基(例如，叔丁基二甲基甲硅烷基)。

“纯化”是指去除存在于反应混合物中的可能降低将要在后续步骤中使用的化学试剂或生物试剂的活性的任何未反应的产物或任何试剂。纯化可以包括待除去的未反应的产物或试剂的色谱分离、电泳分离和沉淀中的一种或多种。

“支架”是指以特定特殊的几何形状表现出一种或多种多样性节点的化学基团。多样性节点典型地在文库合成过程中连接至支架，但是在一些情况下，在文库合成之前可以将一个多样性节点连接至支架(例如，添加一个或多个结构单元和/或一个或多个标签)。在一些实施方式中，支架是经衍生化的，以便其在文库合成过程中可以正交脱保护并且随后与不同的多样性节点反应。

“小分子”药物或“小分子”药物候选物是指具有低于约1,000道尔顿的分子量的分子。小分子可以是分离的(例如，分离自化合物文库或天然源)或通过衍生化已知化合物得到的有机或无机物。

“基本同一性(substantial identity)”或“基本相同”是指分别与参考序列具有相同多肽或多核苷酸序列的多肽或多核苷酸序列，或者是指当两个序列进行最佳比对时，分别在对应于参考序列的位置具有特定百分比的氨基酸残基或核苷酸相同于该参考序列的多肽或多核苷酸序列。例如，“基本相同”于参考序列的氨基酸序列与该参考氨基酸序列具有至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的同一性。对于多肽，比较序列的长度一般为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续氨基酸，更优选地至少25、50、75、90、100、150、200、250、300或350个连续氨基酸，最优选全长氨基酸序列。对于核酸，比较序列的长度一般为至少5个连续核苷酸，优选地至少10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个连续的核苷酸，且最优选全长核苷酸序列。可以使用序列分析软件以默认设置(例如，Genetics Computer Group,University of Wisconsin Biotechnology Center,1710University Avenue,Madison,WI53705的序列分析软件包)来测量序列的同一性。此类软件可以通过对各种取代、缺失和其他修饰分配同源性程度来匹配相似的序列。

“尾片段”是指文库的寡核苷酸部分，其连接至添加完所有的结构单元标签之后的复合物，并且其为文库、文库的用途和/或文库成员的来源的同一性编码。

本发明的其他特征和优点在下列详细说明及权利要求中将是显而易见的。

附图说明

图1示出使用通过酶和/或化学连接依次接合的单链DNA标签的一般合成化学文库的示例性方法。“BB”是指结构单元。

图2A至图2B示出使用酶促连接的单链DNA标记文库的示例性方法。图2A示出使用单链酶促连接以保护的(重新装配的)5’-单磷酸酯(5’-P)寡核苷酸标记文库的示例性方法，其中灰色方块是指2’-OMe核苷酸，“X”是指保护基团或化学实体的组分，且“PNK”是指多核苷酸激酶。图2B示出使用单链连接以保护的3’-OH寡核苷酸标记文库的示例性方法，其中连接至-O-的黑色方块是指3’-OH末端的保护基团且“LC”是指保护基团的液相色谱分离。

图3示出使用单链连接以5’-预腺苷酸化的(标记为“5’-App”)寡核苷酸(头片段)和由例如化学实体封闭的3’-末端(标记为“X-3”)标记文库的示例性方法。该方法可以用来将5’-预腺苷酸化的寡核苷酸标签(标记为“标签A”)连接至头片段并且在ATP的存在下将具有3’-OH末端的另外的标签(标记为“标签B”和“标签C”)连接至复合物。

图4A至图4E示出示例性的复合物，其各自具有头片段、接头以及包括支架(“S”)和多样性节点A、B和C的小分子。深灰色方块是指2'-OMe核苷酸，虚线是指存在一个或多个互补碱基。图4A至图4B是具有单链线性寡核苷酸头片段的复合物的示意图，其中接头和小分子连接至头片段的3’-末端(图4A)或5’-末端(图4B)。图4C至图4D是具有单链发夹寡核苷酸头片段的复合物的示意图，其中接头和小分子连接至头片段的内部位置(图4C)或3’-末端(图4D)。图4E示出用于标记具有发夹寡核苷酸头片段的文库的示例性方法，其中星号是指化学基团且在3’-末端的“Y”是指保护基团。寡核苷酸标签被识别为1至4，并且接头序列(adapter sequence)为在5’-末端的黑线。

图5A至图5C示出由T4RNA连接酶或CircLigase^TMssDNA连接酶的寡核苷酸连接。图5A为酶促连接反应的示意图。供体寡核苷酸是5’-磷酸化的并且带有3’-荧光素标记、以3’-末端的化学实体模仿头片段。受体寡核苷酸是未磷酸化的。图5B示出在8M尿素/15％聚丙烯酰胺凝胶(PAAG)上的连接反应的凝胶电泳分析。“SM”是指荧光标记的供体，“产物”是指连接产物，且“腺苷酸化的供体”是指5’App-供体，如上所描述的。图5C示出T4RNA连接酶在高酶和寡核苷酸浓度下实现的高产率连接。

图6A至图6B表示了优化PEG分子量(图6A)和浓度(图6B)以由T4RNA连接酶获得最大连接产率。反应条件如图5至图5C中所描述的。图6A为量化在使用25％(w/v)具有300至20,000(20K)分子量的PEG孵育5小时或20小时后、用MNA/DNA15mer供体和受体标签的连接反应的电泳分析的图。图6B示出在5％至45％(w/v)的PEG4600的存在下孵育18至20小时后，浓度对连接的影响。

图7A至图7B示出由CircLigase^TM(图7A)和T4RNA连接酶(图7B)的连接效率与供体或受体寡核苷酸的长度之间的相关性。图7A描绘了量化CircLigase^TM连接反应中受体长度对连接产率的影响的图。图7B描绘了量化受体的核苷酸和供体MNA/DNA标签的长度对用T4RNA连接酶的单链连接的影响的图和表。这些数据表现通过荧光凝胶的光密度分析法在450nm激发下得到的两个独立实验的平均值。

图8A至图8B为在磷酸化之前和之后的MNA/DNA标签的LC-MS光谱。数据显示为在用T4多核苷酸激酶(每5nmol标签50单位)反应之前(图8A)和之后(图8B)的15mer标签5'-HO-mUAC GTA TAC GAC TGmG-OH-3'(SEQ ID NO:13)(在250μΜ)。

图9示出标签A至标签C的顺序单链连接的电泳凝胶。3’-末端包括荧光素以表示文库化合物(或化学实体)，且星号(*)指示在磷酸化之前纯化经连接的产物(或复合物)。

图10A至图10B示出得到5-原子“短”间隔物(图10A)和24-原子“长”间隔物(图10B)的供体与受体寡核苷酸之间的“化学共反应性配对”反应的示意图。

图11A至图11E示出含有图10A至图10B中所描绘的短或长单间隔物的75mer DNA模板的逆转录(RT)和PCR分析的结果。图11A为RT反应的示意图。同时在260nm和650nm下记录对照75mer DNA模板(图11B)、含有单个5-原子(“短”)间隔物的75mer DNA模板(图11C)和含有单个24-原子(“长”)间隔物的75mer DNA模板(图11D)的RT的LC-MS图谱。图11E示出对照75mer DNA模板(“templ75”)、具有5-原子间隔物的75mer DNA模板(“短点击(click)”)和具有24-原子间隔物的75mer DNA模板(“长点击”)的RT-PCR分析。

图12A至图12G示出在存在或不存在互补夹板寡核苷酸的条件下，5’-碘-修饰的DNA寡核苷酸和3’-硫代磷酸酯DNA寡核苷酸之间的化学连接反应的结果。图12A示出该反应的示例性示意图。在3’-末端用6-FAM标记5’-碘寡核苷酸，而在5’-末端用Cy5标记3’-硫代磷酸酯寡核苷酸。图12B示出在存在(+spl)或不存在(-spl)互补夹板的情况下连接反应的凝胶电泳分析。CCy5和CFL分别指示Cy5和荧光素-标记的起始材料的可见光波段。图12C示出在上述条件下的夹板连接反应的时间进程，使用Cy5(635nm)和荧光素(450nm)检测来对其进行定量。图12D示出在不存在(上，在260nm、495nm和650nm)和存在(下，在260nm、495nm和650nm)夹板的情况下，CFL和CCy5的连接的LC-MS分析，其中连接反应孵育了7天。图12E示出在不存在夹板(在260nm、495nm和650nm)下的CFL和CCy5的连接的LC-MS分析，其中连接反应孵育了8天。图12F示出CFL寡核苷酸与哌啶的反应的MS分析，其中该反应意在取代碘。反应条件包括100μΜ的寡核苷酸、40mM(400当量)的哌啶在100mM pH9.5的硼酸盐缓冲液中于室温下持续20小时(左)；以及400μΜ的寡核苷酸、2M(4,000当量)的哌啶在200mM pH9.5的硼酸盐缓冲液中于65℃下持续2小时(右)。图12G示出在存在400当量哌啶在100mM pH9.5的硼酸盐缓冲液中于室温下持续20小时进行的50μΜ的CFL和CCy5寡核苷酸的夹板连接反应的MS分析。

图13A至图13C示出使用经修饰的寡核苷酸以最小化改组。图13A示出5'-磷酸化的头片段ssHP(3,636Da)和具有2'-O甲基核苷酸的标签(标签15；2,469Da)的单链连接反应的LC-MS分析。该LC-MS分析显示出三个峰：峰1为标签(2,469Da)；峰2为腺苷化的头片段(3,965Da)；且峰3具有两个(有时情况下为三个)子峰，含有具有6,089Da分子量(预计的连接产物)、5,769Da(预计6,089Da-320Da)和6,409Da(预计6,089Da+320Da)的分子量的产物。这种320D的质量差异准确地对应于移除或添加一个另外的2'-O-Me C核苷酸。图13B-1至图13B-3示出非限制性的提议的核苷酸改组的机制，其中约90％的反应提供预期的(正常的)连接产物且10％的反应提供异常连接产物(“产物-1nt”和“产物+1nt”)。图13C示出头片段HP-PS与标签15的连接的LC-MS分析。该头片段HP-PS具有头片段ssHP的序列，但在5’-末端包括硫代磷酸酯键。LC分析显示出三个峰：峰1为标签(2,469)，峰2为腺苷酸化的头片段(3,984)，且峰3为单一的连接产物(6,107)，几乎没有观察到核苷酸改组。微量的+/-320峰可能对应于硫代磷酸酯键向天然磷酸二酯键的氧化转化或由于不完全硫化造成的。

图14为示出使用尺寸排阻色谱法分离文库成员的图，其中靶结合的文库成员(图的左边)比未结合的文库成员(图的右边)以更短的时间洗脱出。

图15A为示出使用非夹板依赖性的单一化学体(例如，5’-叠氮基/3’-炔基)化学连接编码DNA标签的示例性示意图。反应性基团存在于各标签(标签A、B和C)的3’和5’末端上，并且各末端上的反应基团中的一个(例如，3’末端)被保护以防止标签的环化、聚合或者错循环连接。标签连接的循环包括化学连接，随后通过对剩余的官能团脱保护以使得生长的连接的实体适用于连接的下一个循环。每个循环还包括添加一个或多个结构单元(BBA、BBB和BBC，它们分别是由标签A、B和C编码的)。化学连接过程可以可选地包括添加尾片段。

图15B为示出使用是夹板依赖性的单一化学来化学连接编码DNA标签的示例性示意图。这种途径的模板依赖性性质减少了标签聚合、标签环化以及错标记事件的发生频率。与图15A相似，这种示意图包括标签(标签A、B和C)以及一个或多个由标签(BBA、BBB和BBC)编码的结构单元。

图15C为示出使用一连串化学连接的标签作为用于模板依赖性聚合的模板、生成适用于PCR扩增和测序的cDNA以及使用能够读通(read through)化学连接的接点的模板依赖性聚合酶的示例性示意图。

图16A为示出使用TIPS-保护的炔基标签和“点击”化学进行化学连接编码DNA标签的示例性示意图。文库合成的每个循环包括将TIPS-保护的标签Cu(I)-催化化学连接至来自前一个循环的脱保护的炔。在该连接后，移除该TIPS基团(脱保护)，由此激活用于下一个化学连接步骤的炔。

图16B示出DMT-琥珀酰基-3’-O-TIPS-炔丙基尿苷CPG的结构，其用于引发固相合成在3’-末端携带有3’-O-TIPS-炔丙基尿苷的寡核苷酸。

图16C为示出使用一连串“点击”化学连接的标签作为用于模板依赖性聚合的模板、生成适用于PCR扩增和测序的cDNA以及使用能够读通该“点击”化学连接的接点的模板依赖性聚合酶的示例性示意图。

图17A至图17C示出5’-生物素化的、“单-点击”模板Y55和Y185的合成。图17A提供了示例性示意图。图17B和图17C分别示出Y55和Y185的LC-MS分析。

图18A至图18C提供了“单-点击”模板的“读通”的示例性测定。图18A示出示意图，其中FAM-标记的引物被退火至生物素化的模板并且根据制造商推荐的条件用模板依赖性聚合酶进行孵育。随后使用链亲和素珠(bead)孵育该复合物、洗涤、用NaOH洗脱、然后中和。中和后，通过LC-MC分析样品。图18B和图18C分别示出模板Y55和Y185的克列诺片段(Klenowfragment)复制的LC-MS数据。

图19A至图19D提供了使用TIPS-保护的炔基标签合成5’-生物素化的“双-点击”模板YDC和“三-点击模板”YTC。图19A和图19B示出这种合成的示例性示意图。图19C和图19D分别示出YDC和YTC模板的LC-MS分析。

图20A至图20C提供使用“双-点击”和“三-点击”模板的示例性点击“读通”检测。图20A为示意图，其中FAM-标记的引物被退火至生物素化的模板并且使用大肠杆菌DNA聚合酶I的克列诺片段根据制造商推荐的反应条件进行孵育。随后用链亲和素珠孵育该复合物、洗涤、用NaOH洗脱、并且中和。中和后，通过LC-MC分析样品。图20B和图20C分别示出克列诺片段复制的模板YDC和YTC的LC-MS数据。

图21是示出使用“单-点击”、“双-点击”和“三-点击”模板与对照“无点击”DNA模板的点击“读通”的效率的图。这些数据是使用本文所描述的“读通”测定获得的，并且通过LC-MS分析通过与内标物比较来测量产率。

图22A至图22C提供用正交化学的化学连接的示例性示意图。图22A用于DNA编码标签的化学连接策略的示意图，其(i)利用两个连续的正交化学用于(ii)可用的读通策略。每个标签含有两个正交反应性基团，由不同的符号标示出每个标签的5’-末端和3’-末端。在化学连接的每个连续的循环中，使用了正交化学。这种策略减少了错标记事件的发生频率并且也可以在未保护反应性末端基团的情况下使用。图22B为模板的模板依赖性聚合“读通”以生成cDNA的示意图，该模板是由正交DNA标签的正交化学连接来生成的，从该cDNA能够推导出该标签的序列。图22C与图22B相同，但是包括自吸式尾片段，其可以通过限制性消化来使得双链在PCR扩增过程中促进链分离。

图23为示出用于DNA编码标签的化学连接策略的示例性示意图，其利用两个特定的连续正交化学。每个标签都含有点击-反应性和硫代磷酸酯/碘反应性基团。在它们的3’和5’末端携带有正交反应性基团的标签不能聚合，并且具有降低的错标记事件的发生频率。为了不受到限制，这种途径可以消除对3’-炔的TIPS-保护的需求。在循环A中，使用夹板依赖连接将5’-碘/3’-炔基标签连接至3’-硫代磷酸酯头片段，留下反应性3’炔以在下一个化学连接循环中连接至5’-叠氮/3’-硫代磷酸酯标签。可以按所需的将正交连接循环重复多次。

图24A至图24B示出DNA标签上的3’-硫代磷酸酯/5’-碘基团的保护和使用。图24A示出为这些标签使用保护基团(PG)的示例性示意图。图24B示出使用3’-硫代磷酸酯/5’-碘基团以化学连接连续的编码DNA标签的示例性示意图，该编码DNA标签编码共价地装配在5’-末端的化学文库。

图25A至图25B示出DNA标签上的3’-硫代磷酸酯基团的保护和使用。图25A示出保护这些基团的方案。图25B示出使用3’-硫代磷酸基/5’-叠氮基和3’-炔丙基/5’-碘标签以化学连接一连串正交编码DNA标签的方案，该正交编码DNA标签编码共价地装配在5’-末端上的化学文库。

具体实施方式

本发明描述了使用单链连接以将寡核苷酸标签装配在化学实体-寡核苷酸复合物上的方法。这种方法通过确立特定标签与特定化学反应或结构单元之间的编码的关系，可以用来产生可选择性化学实体的多样文库。为了识别一种或多种化学实体，可以通过使用确立的关系来扩增、克隆、测序和关联寡核苷酸标签。特别地，识别出促进标签的单链连接的反应条件。这些条件包括在标签中使用一种或多种2’-取代的核苷酸(例如，2’-O-甲基核苷酸或2’-氟代核苷酸)、使用特定长度的标签(例如，5至15个核苷酸)、使用一种或多种酶(例如，RNA连接酶和/或DNA连接酶)、和/或在连接期间使用一种或多种试剂(例如，聚乙二醇和/或可溶性多价阳离子，如Co(NH₃)₆Cl₃)。这些方法另外地包括化学接合寡核苷酸的方法，从而该接合的寡核苷酸产物的序列可以被用作模板依赖性聚合酶反应的模板。以下详细的描述了产生和标记这些复合物的文库的方法。

用于标记编码的文库的方法

本发明描述了一种用于将寡核苷酸标签与化学实体操作性连接的方法，从而可以在该标签的序列与该化学实体的结构单位(或结构单元)之间确立编码关系。特别地，可以从寡核苷酸的碱基序列推断出化学实体的同一性和/或历史。使用这种方法，可以用特定的标签序列来处理(address)包括不同化学实体或成员(例如小分子或肽)的文库。

一般地，这些方法包括使用头片段，其具有可通过化学阐述(elaborate)的至少一个官能团以及单链寡核苷酸可以结合的(或连接的)至少一个官能团。可以通过任何有用的方法来完成结合，例如通过酶结合(例如，使用一种或多种RNA连接酶和/或DNA连接酶的连接)或通过化学结合(例如，通过两个官能团(如亲核试剂和离去基团)之间的取代反应)。

为了在文库中产生许多化学实体，可以将含有头片段的溶液分为多个等分试样，然后放置于多个物理隔离的隔室中，例如多孔板的孔中。一般地，这是“分配”步骤。在每个隔室或孔中，以每个等分试样的单链标签进行连续化学反应和连接步骤。记录化学反应条件与单链标签的序列之间的关系。可以以任何顺序进行反应和连接步骤。然后，将所反应和连接的等分试样合并或“汇集”并且在该点上可以进行可选的纯化。可选地可以重复这些分配和汇集步骤。

接着，如本文所描述的，可以测试和/或选择特定特征或功能。例如，可以将经标记的化学实体的混合物分离为至少两个群体，其中第一群体组合至特定的生物靶而第二个群体则不结合。然后，可以选择性地捕获(例如通过在提供了目标靶的柱上洗脱或者通过使用目标靶孵育等分试样)第一群体，和可选地进一步分析和测试，例如使用可选的洗涤、净化、阴性选择、阳性选择或分离步骤。

最后，可以通过操作性连接的寡核苷酸的序列确定所选择的群体中的一个或多个成员(或化学实体)的化学历史。一旦使序列与特定的结构单元相关联后，这种方法可以用选择的特征(例如，增加的结合到靶蛋白的倾向以及由此引起治疗效果)来识别文库的个体成员。为了进一步测试和优化，然后可以通过合成经识别的文库成员(具有或不具有它们相关的寡核苷酸标签)来制备候选治疗化合物。

图1至图3提供了使用单链连接以头片段标记文库的各种示例性方法，其中标签可以连接在头片段的5’-末端或3’-末端。为了控制其中标签被连接的顺序并且减少副反应，这些方法确保在连接过程中只有一个反应性5’-末端和一个反应性3’-末端存在。另外，这些示例性的方法在标签中使用2’-取代的核苷酸(例如，混合的2’-脱氧/2’-O-甲基核苷酸)，并且这些标签充当了能够以模板依赖性方式聚合核苷酸的DNA-或RNA-依赖性聚合酶的模板。为了不为理论所束缚，在标签中使用一种或多种2’-取代的核苷酸(例如，2’-O-甲基核苷酸和/或2’-氟代核苷酸)可以通过更加紧密地类似于RNA而促进由RNA连接酶的连接，同时保持记录介质的物理和化学耐用性以及使用模板依赖性聚合提取序列信息的能力。

图1提供了用于减少副反应的示例性方法，其中连接的复合物和标签经设计以避免反应性3’-OH与5’-单磷酸酯(“5’-P”)基团之间不希望的反应。特别地，这种方案描绘了磷酸化-连接循环方法。在连接过程中，只有一个3’-OH基团(在标签中)和一个5’-P基团(在头片段中)是可用的，由此，只可能有一个连接事件。在连接和纯化步骤之后，在复合物中形成了5’-OH基团，并且该基团可以转化为5’-P以用于添加随后的寡核苷酸标签。复合物的3’-末端被X所封闭，X可以是保护基团或化学实体的组分(例如，可选地包括在化学实体与头片段之间充当间隔物的接头)。

如图1所示，该示例性的方法包括将结构单元标签1(“标签1”)连接至头片段的5’-末端，由此产生复合物，并且进行至该复合物的5’-末端的连续连接。反应性5’-末端是复合物上的磷酸酯基团，并且反应性3’-末端是标签上的羟基。在添加每个标签之后，将连接的复合物与未反应的、未连接的头片段和标签以及与其他试剂(例如，磷酸酯、钴或在连接步骤中存在的其他试剂)分离。可以通过任何有用的方法(例如，通过色谱或电泳分离连接和非连接的产物或通过试剂的沉淀)来完成分离。然后，将连接的复合物暴露于试剂(例如，多核苷酸激酶或化学磷酸化试剂)以在该复合物的5’-末端上形成磷酸酯基团。可以以任何顺序进行分离和磷酸化步骤。特别地，如果在磷酸化步骤中使用了激酶，那么在添加也可能含有5’-OH基团的随后的标签之前应该失活或移除激酶，或者在磷酸化步骤之前应该从反应混合物中移除能够抑制激酶的任何试剂。

在另一个实施方式中，方法包括将从先前的连接的复合物的3’-末端结合连续的标签。在该方法中，该连接的复合物刚在连接步骤之后缺少反应性3’-OH基团，但是含有可以转化为3’-OH基团的基团(例如通过释放保护基团)。图2A提供了示出用于标记复合物的3’-末端的示例性方法的示意图，且图2B提供了含有可转化的3’-OH基团的经保护的3’-末端在释放3’-连接的保护基团时的示例性反应方案。如图2A所示，结构单元标签1(“标签1”)具有3’-保护的基团。在第一步骤中，该示例性的方法包括将该标签连接至该头片段的3’-末端，由此产生复合物。对该复合物的3’-末端进行连续的连接。反应性5’-末端是标签上的磷酸酯基团，并且反应性3’-末端是复合物上的羟基基团。在添加每个标签之后，对经连接的复合物进行脱保护(例如通过加入水解剂)以释放出3’-保护基团。

在又另一个实施方式中，方法包括通过使用5’-预腺苷酸化的(5’-App)寡核苷酸和连接酶(例如T4RNA连接酶)的结合连续的标签。在ATP的存在下，T4RNA连接酶在连接之前会使用ATP辅助因子以形成腺苷酸化的中间体。在没有ATP时，T4RNA连接酶将只连接预腺苷酸化的寡核苷酸，并且不会发生与5’-P寡核苷酸的可能副反应。因此，在5’-单磷酸化的标签的存在下，可以使用化学合成的5’-App寡核苷酸来进行具有减少副反应的单链连接，其中5’-App寡核苷酸可以在标记之前连接至头片段或在经过多轮标记之后连接至形成的复合物。

图3提供了示出用于标记预腺苷酸化的头片段的5’-末端的示例性方法的示意图。腺苷酸化5’-磷酸酯基团上的供体核苷酸是该连接反应中的第一步骤，并且这种反应一般需要一分子的ATP。在第二步骤中，受体寡核苷酸的3’-OH基团与腺苷酸化的供体反应并且在两个寡核苷酸之间形成二酯键，由此释放一个AMP分子。供体寡核苷酸的化学腺苷酸化的5’-磷酸酯基团模仿连接反应的第一步骤的产物，并且在没有ATP时可以连接至第二个寡核苷酸。在以下方案中，将5’-App头片段连接至5’-磷酸化的寡核苷酸标签(标记为“标签A”)的3’-OH基团。由于存在寡核苷酸的腺苷酸化的5’-末端，在没有ATP时可以发生连接。在这些条件下，标签A的5’-磷酸酯基团不作为连接供体。通过提供具有3’-OH末端的核苷酸在ATP的存在下可以连接结构单元标签B(标记为“标签B”)，并且可以包括另外的标签(标记为“标签C”)。

在图3中，可以使用任何保护基团(例如，不可逆的保护基团，如ddN，或可逆的保护基团)来封闭头片段的3’-末端。在第一步骤中，方法包括在不存在ATP的情况下将标签连接至头片段的5’-末端，由此产生复合物。在ATP的存在下对该复合物的5’-末端进行连续式连接。这种方法可以被修改以对复合物的3’-末端进行连续式连接。例如，该方法可以包括使用5’-预腺苷酸化的标签和具有反应性3’-OH末端的头片段。这种方法可以进一步需要封闭标签的3’-末端以避免标签之间的交叉反应，例如上文和图2中所描述的方法。

可以通过用头片段来替换引物来修改在图3中提供的通用方法。在这种情况下，头片段需要在5’-末端被化学地腺苷酸化，并且标签A在5’-末端被磷酸化。在本文所描述的相同标准条件但是省略ATP的情况下，发生这种磷酸化的标签A至腺苷酸化的头片段的连接。通过使用这种连接条件，可以防止磷酸化的5’末端的连接。在下一步骤中，标签B的连接要求这种标签在5’-末端具有游离的羟基(即，非磷酸化的)。可以在ATP的存在下进行连续式连接反应，如果期望进一步延伸标签(例如，图3中的标签C)，随后磷酸化所得到的寡核苷酸的5’-末端。

本文所描述的方法可以包括任意数量的可选步骤，以使文库多样化或询问该文库的成员。对于本文所描述的任何标记方法(例如，如图1至图3中的)，可以用另外的“n”数目的连接、分离和/或磷酸化步骤添加连续的“n”数目的标签。示例性的可选的步骤可以包括使用一种或多种限制性核酸内切酶限制文库成员；将一个或多个衔接子序列连接至文库末端的一个或两个(例如，如一个或多个衔接子序列)，以提供用于扩增和测序的引物序列或以提供用于固定序列的标记(如生物素)；使用逆转录酶、转录酶或另一种模板依赖性聚合酶对复合物中装配的标签进行逆转录或转录、可选随后的逆转录；使用例如PCR扩增复合物中装配的标签；例如，通过使用细菌转化、乳液形成、稀释、表面捕获技术等，生成复合物中装配的标签的一个或多个群体的克隆分离株；例如，通过使用克隆分离株作为用于核苷酸的模板依赖性聚合的模板，扩增复合物中装配的标签的一个或多个群体的克隆分离株；以及例如，通过使用克隆分离株作为具有荧光标记的核苷酸的模板依赖性聚合的模板，对复合物中装配的标签的一个或多个群体的克隆分离株进行序列测定。本文中描述了用于扩增和测序寡核苷酸标签的另外的方法。

这些方法可以用来识别和发现任何数目的具有特定特性或功能的化学实体，例如在选择步骤中。期望的特征或功能可被用作将文库划分为至少两个部分的基础，伴随的是富集文库中具有期望功能的成员或相关成员中的至少一种。在特定的实施方式中，该方法包括识别小类药性文库成员，其结合或灭活治疗目标的蛋白质。在另一个实施方式中，设计顺序的(a sequence of)化学反应并选择一组结构单元，以便在所定义的化学条件下所选择的结构单元的反应将生成组合的多个分子(或分子的文库)，其中一个或多个分子可具有作为用于特定蛋白质的治疗剂的效用。例如，选择化学反应和结构单元以产生具有通常存在于激酶抑制剂中的结构基团的文库。在任何这些情况下，标签编码文库成员的化学历史，并且在每种情况下，可以由任何特定的标签组合来表示化学可能性的集合。

在一个实施方式中，在适合于文库中的至少一个成员结合至靶的条件下，使化学实体的文库或其部分与生物靶接触，然后去除不与靶结合的文库成员，并且分析与它们相关联的一个或多个寡核苷酸标签。这种方法可以可选地包括通过本领域中已知的方法扩增标签。示例性的生物靶包括酶(例如，激酶、磷酸酶、甲基化酶、去甲基化酶、蛋白酶和DNA修复酶)、参与蛋白质:蛋白质相互作用的蛋白质(例如，用于受体的配体)、受体靶(例如，GPCR和RTK)、离子通道、细菌、病毒、寄生虫、DNA、RNA、朊病毒和糖类。

在另一个实施方式中，结合至靶的化学实体不进行扩增而是直接进行分析。示例性的分析方法包括微阵列分析，包括渐逝共振光子晶体分析；用于去卷积标签的以珠为基础的方法(例如，通过使用组氨酸标签(hig-tag))；无标记的光子晶体生物传感器分析(例如，来自SRU Biosystems,Inc.,Woburn,MA的

Reader)；或以杂交为基础的方法(例如，通过使用与存在于标签的文库中的序列互补的固定化寡核苷酸的阵列)。

此外，化学共反应性配对(或官能团)可以容易地被包括于固相寡核苷酸合成方案中并且将支持寡核苷酸的有效的化学连接。此外，所得到的连接的寡核苷酸可以充当使用一种或多种聚合酶的模板依赖性聚合的模板。因此，可以修改本文的任何用于标记编码的文库的结合步骤，以包括酶促连接和/或化学连接技术中的一种或多种。示例性的连接技术包括酶促连接，如使用一种或多种RNA连接酶和/或DNA连接酶；以及化学连接，如使用化学共反应性配对(例如，包括可选取代的炔基和叠氮官能团的配对)。

另外，在分配-混合(split-and-mix)步骤中组合一个或多个文库。为了允许混合两个或多种文库，文库成员可以包含一种或多种文库-识别序列，如本文所描述的，例如在文库-识别标签中、在连接的结构单元标签中或作为头片段序列的一部分。

具有降低质量的方法

单链编码策略的许多机能是来自于当与双链标签相比时降低的单链标签质量(mass)。降低的质量潜在地赋予了多种益处，包括增加溶解度、降低的成本、提高的反应性、增加的靶可达性、降低的流体力学半径、提高的分析评估准确度等。除了使用单链标记方法之外，可以通过包括使用下列的一种或多种来进一步降低质量：具有减少长度的一种或多种标签、恒定质量的标签集、编码头片段、缺少引物结合区和/或恒定区的文库的一个或多个成员、具有减少了恒定区的文库的一个或多个成员或本文的任何其他方法。

为了使得文库中的成员的质量最小化，可以减少一个或多个结构单元标签的长度，例如减少至尽可能短至编码每个分配大小的长度。特别地，标签可以少于20个核苷酸(例如，小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)。如下列实施例中的，较短的标签(例如，约10个核苷酸或更短)可以用于标签连接。

也可以使用恒定的质量策略，其可以在文库合成过程中有助于分析。另外，恒定质量的标签集可以允许识别所有单个错误的出现(例如，由误读序列或由标签的化学或酶促连接所产生的错误)以及大多数多个错误的出现。以下表1中概述了恒定质量单链标签集的长度与编码能力的关系(例如，支持特定结构单元分配大小或文库同一性等的最小长度等)。因此，恒定质量的标签集的用途可以用来提供有效的编码能力，同时在文库形成的过程中维持错误识别。

表1

为了使文库的质量最小，头片段不仅可以用来连接化学基团和标签，还可以用来为特定文库的同一性或特定步骤编码。例如，头片段例如通过使用与特定文库相关的特定序列可以编码信息，例如多个头片段编码第一分配或文库的同一性。

此外，在选择步骤过程中可以从DNA-编码的化学实体的文库中排除引物结合(或恒定)区。然后，在选择之后通过例如单链连接添加这些区。一种示例性的策略可以包括在编码寡核苷酸的5’-末端提供化学实体，基于任何有用的特定特性或功能选择特定的化学实体，和向该编码寡核苷酸的3’-末端连接尾片段寡核苷酸，该尾片段寡核苷酸包括引物结合序列并可以可选地包含一个或多个标签，例如本文中所描述的“用途”标签、“来源”标签等。然后可以使用该引物结合序列以引发模板依赖性聚合，从而生成与所选择的文库成员互补的cDNA(或cRNA)。然后可以将该cDNA或cRNA以其3’-末端连接至含有引物结合序列的寡核苷酸，并且由此通过引物结合序列将编码信息侧接于两侧，因此可以使用已经确定的方法(如本文中的任何确立的方法)来对寡核苷酸进行测序和/或扩增。

通过省略或减少分隔编码标签的一个或多个恒定序列的大小可以进一步降低质量。单链连接要求欲连接的末端之间或这些末端与夹板之间没有互补关系。因此，不需要固定的序列来支持酶促连接。标签之间的短固定区可有用于标签的信息学分析或其他在硅中(计算机模拟，in silico)反卷积方法。

寡核苷酸标签

本文所描述的寡核苷酸标签(例如，结构单元标签或部分的头片段)可以用来编码任何有用的信息，例如分子、化学实体的一部分、组分(例如支架或结构单元)的添加、文库中的头片段、文库的同一性、一个或多个文库成员的用途(例如，文库的等分试样的成员的用途)、和/或文库成的员的来源(例如，通过使用来源序列)。

可以使用寡核苷酸中的任何序列来编码任何信息。因此，一个寡核苷酸序列可以用于多个目的，例如用于编码两种或多种类型的信息或用于提供也为一种或多种类型的信息编码的起始寡核苷酸。例如，第一结构单元标签可以为第一结构单元的添加或为文库的识别进行编码。在另一个实例中，头片段可以用来提供操作性地将化学实体连接至结构单元标签的起始寡核苷酸，其中该头片段另外地包括为文库的同一性编码的序列(例如，文库-识别序列)。因此，本文所描述的任何信息都可以在单独的寡核苷酸标签中编码或可以被组合并在相同的寡核苷酸序列中(例如，寡核苷酸标签，如结构单元标签或头片段)编码。

结构单元序列为结构单元的同一性和/或使用结构单元进行的结合反应的类型编码。这种结构单元序列包括于结构单元标签中，其中该标签可以可选地包括以下所描述的一种或多种类型的序列(例如，文库-识别序列、用途序列和/或来源序列)。

文库-识别序列为特定文库的同一性进行编码。为了允许混合两个或多个文库，文库成员可以含有一个或多个文库-识别序列，如在文库-识别标签中(即，包括文库-识别序列的寡核苷酸)、在连接的结构单元标签中、在头片段序列的一部分中或在尾片段序列中。这些文库-识别序列可以用来推导编码关系，其中标签的序列被翻译并且与化学(合成)历史信息相关联。因此，这些文库-识别序列允许将两个或多个文库混合在一起以用于选择、扩增、纯化、测序等。

用途序列编码文库中的个别(individual)等分试样中的一个或多个文库成员的历史(即，用途)。例如，可以用不同的反应条件、结构单元和/或选择步骤来处理单独的等分试样。特别地，这种序列可以用来识别此种等分试样并且推断它们的历史(用途)，并由此允许将具有不同历史(用途)(例如，不同的选择实验)的相同文库的等分试样混合在一起，用于将样品混合在一起用于一起用于选择、扩增、纯化、测序等目的。这些用途序列可以包括于头片段、尾片段、结构单元标签、用途标签(即包括用途序列的寡核苷酸)或本文所描述的任何其他标签(例如，文库-识别标签或来源标签)中。

来源序列是任何有用长度(例如约六个寡核苷酸)的简并(随机)寡核苷酸序列，其为文库成员的来源编码。这种序列用于将在所有方面否则都相同的文库成员随机细分为通过序列信息可以区别的实体，以便源自独特祖代模板(例如，选定的文库成员)的扩增产物的观测能够区别于源自相同祖代模板(例如，选定的文库成员)的多重扩增产物的观测。例如，在文库形成后且在选择步骤之前，每个文库成员可以包括不同的来源序列，例如在来源标签中。在选择后，可以将选定的文库成员进行扩增以产生扩增产物，并且可以观察到预计包括来源序列(例如，在来源标签中)的部分文库成员并且可以将其与每一个其他文库成员中的来源序列进行比较。由于来源序列是简并的，所以每个文库成员的每种扩增的产物应该有不同的来源序列。然而，在扩增产物中观察到相同的来源序列可表明错误的来源，如产生重复的序列的序列中的扩增错误或环化错误，并且可以通过在使用该文库的每一步(例如，在各选择步骤或扩增步骤)观察来源序列来追踪这些错误的起始点或来源。这些来源序列可以包括在头片段、尾片段、结构单元标签、来源标签(即，包括来源序列的寡核苷酸)或本文所描述的任何标签(例如，文库-识别标签或用途标签)中。

本文所描述的任何类型的序列可以包括在头片段中。例如，头片段可以包括结构单元序列、文库-识别序列、用途序列或来源序列中的一种或多种。

任何本文所描述的这些序列都可以包括在尾片段中。例如，尾片段可以包括文库-识别序列、用途序列或来源序列中的一种或多种。

这些序列可以包括本文所描述的用于寡核苷酸的任何修饰，例如提高在有机溶剂中的溶解度(例如，任何本文所描述的，如对于头片段)、提供天然磷酸二酯键的类似物(例如，硫代磷酸酯类似物)或提供一种或多种非天然寡核苷酸(例如，2’-取代核苷酸，如2’-O-甲基化核苷酸和2’-氟代核苷酸或任何本文的)的一种或多种修饰。

这些序列可以包括本文的寡核苷酸的任何特性。例如，这些序列可以包括于少于20个核苷酸的标签中(例如，如本文所描述的)。在其他实例中，包括这些序列的一个或多个的标签具有大约相同的质量(例如，每个标签具有为两个或多个标签之间的平均质量的约+/-10％的质量)；缺少引物结合(例如恒定)区；缺少恒定区；或具有减短长度的恒定区(例如，长度少于30个核苷酸、少于25个核苷酸、少于20个核苷酸、少于19个核苷酸、少于18个核苷酸、少于17个核苷酸、少于16个核苷酸、少于15个核苷酸、少于14个核苷酸、少于13个核苷酸、少于12个核苷酸、少于11个核苷酸、少于10个核苷酸、少于9个核苷酸、少于8个核苷酸或少于7个核苷酸)。

用于这种长度的文库和寡核苷酸的测序策略可以可选地包括串联或连环策略以分别提高阅读保真度或深度测序。特别地，在文献中已经为SELEX描述了缺少引物结合区的编码的文库的选择，例如描述于Jarosch et al.,Nucleic Acids Res.34:e86(2006)中，其通过引用并入本文。例如，可以修饰文库成员(例如，在选择步骤之后)以在复合物的5’-末端上包括第一衔接子序列且在复合物的3’-末端上包括第二衔接子序列，其中该第一序列基本上与该第二序列互补，并且导致形成双链体。为了进一步提高产率，将两个固定的悬挂核苷酸(dangling nucleotide)(例如，CC)添加到5’-末端。在特定的实施方式中，第一衔接子序列是5'-GTGCTGC-3'(SEQ ID NO:1)，且第二衔接子序列是5'-GCAGCACCC-3'(SEQ IDNO:2)。

头片段

在文库中，头片段操作性地将每种化学实体连接至其编码寡核苷酸标签。一般地，头片段是具有两个可以进一步被衍生化的官能团的起始寡核苷酸，其中第一官能团操作性地将化学实体(或其组分)连接至该头片段且第二官能团操作性地将一个或多个标签连接至该头片段。可以可选地使用接头作为该头片段和该化学实体之间的间隔物。

头片段的官能团可以用来与化学实体的组分形成共价键并与标签形成另一个共价键。组分可以是小分子的任何部分，例如具有多样性节点或结构单元的支架。可替代地，可以将头片段衍生化以使官能团(例如，羟基、胺、羧基、巯基、炔基、叠氮基或者磷酸酯基团)终止的接头(即，将该头片段与欲形成于文库中的小分子隔开的间隔物)，接头用于与化学实体的组分形成共价键。该接头可以连接至头片段的5’-末端、在一个内部位置上或3’-末端。当该接头连接至一个内部位置时，可以使用本领域中众所周知的标准技术，将该接头可以操作性地连接至衍生的碱基(例如尿苷的C5位)或置于寡核苷酸的内部。本文中描述了示例性的接头。

头片段可以具有任何有用的结构。头片段可以为例如1至100个核苷酸的长度，优选5至20个核苷酸的长度，且更优选5至15个核苷酸的长度。如本文所描述的，头片段可以是单链或双链并且可以由天然的或经修饰的核苷酸构成。图4A至图4D中描述了头片段的特定的示例性实施方式。例如，化学基团可以操作性地连接至头片段的3’-末端(图4A)或5’-末端(图4B)。在特定的实施方式中，头片段包括由序列中的互补碱基形成的发夹结构。例如，化学基团可以操作性地连接至头片段的内部位置(图4C)、3’-末端(图4D)或5’-末端。

一般地，头片段在5’-或3’-末端上包括非互补序列，其允许通过聚合、酶促连接或化学反应来结合寡核苷酸标签。在图4E中，示例性头片段允许连接寡核苷酸标签(标记为1-4)，并且该方法包括纯化和磷酸化步骤。在添加标签4之后，可以向标签4的5’-末端添加另外的衔接子序列。示例性衔接子序列包括引物结合序列或具有标记(例如，生物素)的序列。在使用了许多结构单元和相应的标签的情况下(例如100个标签)，在寡核苷酸合成步骤过程中可以采用混-分合成法(mix and split)策略以产生必要数量的标签。此类用于DNA合成的混-分合成法策略在本领域中是众所周知的。在对结合实体相对目标靶的选择之后，通过PCR扩增所得到的文库成员。

头片段或复合物可以可选地包括一个或多个引物结合序列。例如，头片段可以在发夹的环区中具有用作用于扩增的引物结合区的序列，其中该引物结合区对于其互补引物(例如其可以包括侧翼区域标识符)比对于头片段中的序列具有更高的解链温度(meltingtemperature)。在其他实施方式中，复合物在编码一个或多个结构单元的一个或多个标签的每一侧上包括两个引物结构序列(例如，以使得PCR反应可行)。可替代地，头片段可以在5’-或3’-末端上含有一个引物结合序列。在另一个实施方式中，头片段是发夹，并且环区形成引物结合位点或该引物结合位点通过寡核苷酸的杂交而被导入至头片段的环的3’侧上。可以将含有与头片段的3’-末端的区同源并且在其5’-末端上携带有引物结合区(例如使得PCR反应可行)的引物寡核苷酸杂交到头片段上，并且该引物寡核苷酸可以含有编码结构单元或结构单元的添加的标签。该引物寡核苷酸可以含有另外的信息，例如随机核苷酸的区，例如2至16个核苷酸的长度，包括其以用于生物信息学分析。

头片段可以可选地包括发夹结构，其中这种结构可以通过任何有用的方法来实现。例如，头片段可以包括互补碱基，其形成分子间碱基配对伙伴，例如通过沃森-克里克(Watson-Crick)碱基配对(例如腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶)和/或通过摆动碱基配对(例如鸟嘌呤-尿嘧啶、肌苷-尿嘧啶、肌苷-腺嘌呤和肌苷-胞嘧啶)。在另一个实施方式中，头片段可以包括修饰的或取代的核苷酸，与未修饰的核苷酸相比，修饰的或取代的核苷酸可以形成更高亲和力的双链体形成物，此类修饰的或取代的核苷酸在本领域中是众所周知的。在又另一个实施方式中，头片段包括一个或多个交联的碱基以形成发夹结构。例如，可以例如通过使用补骨脂素将单链内的碱基或不同双链中的碱基交联。

头片段或复合物可以可选地包括一个或多个用于检测的标记。例如，头片段、一个或多个寡核苷酸标签、和/或一个或多个引物序列可以包括同位素、放射性成像剂、标志物、示踪物、荧光标记(例如，罗丹明或荧光素)、化学发光标记、量子点或报告分子(例如生物素或组氨酸标签)。

在其他实施方式中，可以修饰头片段或标签以支持在半水性、降低的水性或非水性(例如有机)条件下的溶解性。可以通过使用脂肪链修饰例如T或C碱基的C5位置，使得头片段或标签的核苷酸碱基的疏水性更强，而不显著破坏它们与它们的互补碱基形成氢键的能力。示例性的修饰的或取代的核苷酸是5’-二甲氧基三苯甲基-N4-二异丁基氨基亚甲基-5-(l-丙炔基)-2’-脱氧胞苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧基三苯甲基-5-(l-丙炔基)-2’-脱氧尿苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧基三苯甲基-5-氟-2’-脱氧尿苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；和5’-二甲氧基三苯甲基-5-(芘-1-基-乙炔基)-2’-脱氧尿苷或3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。

此外，头片段寡核苷酸可以穿插有提高在有机溶剂中的修饰。例如，偶氮苯亚磷酰胺可以将疏水基团导入至头片段的设计中。疏水性酰胺化物向头片段的此类插入可以发生在分子和任何位置。但是，如果用于标签去卷积，该插入不能干扰后续在文库合成期间使用另外DNA标签的标记或随后选择一旦完成后的PCR或微阵列分析。向本文的头片段设计中的此类添加可以使得该头片段可溶于例如15％、25％、30％、50％、75％、90％、95％、98％、99％或100％的有机溶剂中。因此，向头片段设计中添加的疏水残基得到了在半水性或非水性(例如有机)条件下的提高的溶解度，同时使得头片段能够用于寡核苷酸标记。另外，随后导入至文库中的DNA标签也可以在T或C碱基的C5位置进行修饰，如此，它们也使得文库更加疏水且可溶于用于文库合成的随后步骤的有机溶剂中。

在特定的实施方式中，头片段和第一结构单元标签可以是相同的实体，即可以构建多个头片段-标签实体，它们均共享通用部分(例如，引物结合区)且均在另一部分上(例如，编码区)不同。它们可以被用于“分配”步骤并且在它们编码的事件发生后将它们汇集。

在特定的实施方式中，头片段可以编码信息，例如通过包括编码第一分配步骤的序列或编码文库的同一性的序列，如通过使用与特定文库相关的特定序列。

酶促连接和化学连接技术

可以使用各种连接技术来添加支架、结构单元、接头、结构单元标签和/或头片段以生产复合物。因此，任何本文所描述的结合步骤都可以包括任何有用的连接技术，如酶促连接和/或化学连接。这些结合步骤可以包括添加一个或多个结构单元标签至头片段或复合物；添加接头至头片段；和添加一个或多个支架或结构单元至头片段或复合物。在特定的实施方式中，用于任何寡核苷酸的连接技术提供所得到的产物，该产物可以被转录和/或逆转录以允许对文库解码或允许使用一种或多种DNA或RNA聚合酶的模板依赖性聚合。

一般地，酶促连接产生具有天然磷酸二酯键的寡核苷酸，其可以被转录和/或逆转录。本文提供了酶促连接的示例性方法，并且包括使用一种或多种RNA或DNA连接酶，例如T4RNA连接酶、T4DNA连接酶、CircLigase^TMssDNA连接酶、CircLigase^TMII ssDNA连接酶和ThermoPhage^TMssDNA连接酶(Prokazyme Ltd.,Reykjavik,Iceland)。

也可以使用化学连接来生产能够被转录或逆转录的寡核苷酸。化学连接的益处之一是可以优化此类寡核苷酸的固相合成以支持高效的连接产率。然而，用于提供能够被转录或逆转录的寡核苷酸的化学连接技术的效能可能需要进行测试。可以通过任何有用的方法如液相色谱-质谱法、RT-PCR分析、和/或PCR分析测试这种效能。在实施例5中提供这些方法的实例。

在特定的实施方式中，化学连接包括使用一种或多种化学共反应性配对以提供可以被转录或逆转录的间隔物。特别地，适于化学共反应性配对的反应是环化过程的优选的候选者(Kolb et al.,Angew.Chem.Int.Ed.,40:2004-2021(2001)；Van der Eycken etal,QSAR Comb.Sci.,26:1115-1326(2007))。示例性的化学共反应性配对是包括如下的配对：可选被取代的炔基与可选被取代的叠氮基，以通过惠斯更1,3-偶极环加成反应形成三唑间隔物；可选被取代的具有4π电子体系的二烯(例如，可选被取代的1,3-不饱和化合物，如可选被取代的1,3-丁二烯、l-甲氧基-3-三甲基甲硅烷氧基-l,3-丁二烯、环戊二烯、环己二烯或呋喃)与可选被取代的亲双烯体或可选被取代的具有2π电子体系的杂亲双烯体(例如，可选被取代的烯基或可选被取代的炔基)，以通过狄尔斯-阿尔德反应形成环烯基间隔物；亲核体(例如，可选被取代的胺或可选被取代的硫醇)与应变的杂环亲电体(例如可选被取代的环氧化物、氮丙啶、吖丙啶鎓离子或表锍离子)，以通过开环反应形成杂烷基间隔物；硫代磷酸酯基团与碘基，例如在含有5’-碘dT的寡核苷酸与3’-硫代磷酸酯寡核苷酸的夹板连接中；以及醛基与氨基，例如3’-醛修饰的寡核苷酸(其可以可选地通过氧化市售的3’-甘油基修饰的寡核苷酸来获得)与5’-氨基寡核苷酸(即，在还原胺化反应中)或5’-酰肼基寡核苷酸的反应。

在其他实施方式中，化学连接包括导入磷酸二酯键的类似物，例如以用于选择后的PCR分析和测序。磷酸二酯的示例性类似物包括硫代磷酸酯键(例如通过使用硫代磷酸酯基团和离去基团(如碘基)所导入的)、磷酰胺键、二硫代磷酸酯键(例如，通过使用二硫代磷酸酯基团和离去基团(例如碘基)所导入的)。

促进酶促连接或化学连接的反应条件

本发明还描述了一种或多种促进头片段与标签之间或两个标签之间的酶或化学连接的反应条件。这些反应条件包括如本文所描述的在标签中使用经修饰的核苷酸；使用具有不同长度的供体标签和受体标签并且改变标签的浓度；使用不同类型的连接酶以及它们的组合(例如，CircLigase^TMDNA连接酶和/或T4RNA连接酶)，并且改变它们的浓度；使用具有不同分子量的聚乙二醇(PEG)并且改变它们的浓度；使用非-PEG群集试剂(crowdingagents)(例如甜菜碱或牛血清白蛋白)；改变用于连接的温度和持续时间；改变各种试剂的浓度，包括ATP、Co(NH₃)₆Cl₃和酵母无机焦磷酸酯；使用酶或化学磷酸化的寡核苷酸标签；使用3’-保护的标签；和使用预腺苷化的标签。这些反应条件也可以包括化学连接。

头片段和/或标签可以包括一种或多种经修饰的或取代的核苷酸。在优选的实施方式中，头片段和/或标签包括一种或多种促进酶促连接的经修饰的或取代的核苷酸，例如2’-O-甲基核苷酸(例如2’-O-甲基鸟嘌呤或2’-O-甲基尿嘧啶)、2’-氟代核苷酸或任何其他用作连接底物的经修饰的核苷酸。可替代地，头片段和/或标签经修饰以包括一个或多个化学反应性基团以支持化学连接(例如，可选被取代的炔基和可选被取代的叠氮基)。可选地，用化学反应性基团在两个末端对标签寡核苷酸进行官能化，并且可选地这些末端之一被保护，从而基团可以被独立地被处理(address)并且可以减少副反应(例如，减少聚合副反应)。

酶促连接可以包括一个或多个连接酶。示例性的连接酶包括CircLigase^TMssDNA连接酶(EPICENTRE Biotechnologies,Madison,WI)、CircLigase^TMII ssDNA连接酶(也来自EPICENTRE Biotechnologies)、ThermoPhage^TMssDNA连接酶(Prokazyme Ltd.,Reykjavik,Iceland)、T4RNA连接酶和T4DNA连接酶。在优选地实施方式中，连接包括使用RNA连接酶或RNA连接酶与DNA连接酶的组合。连接可以进一步包括一种或多种可溶性多价阳离子(如Co(NH₃)₆Cl₃)与一种或多种酶的组合。

在连接步骤之前或之后，出于三个原因可以纯化复合物。第一，可以纯化复合物以除去可能导致交叉反应并向编码过程中导入“噪音”的未反应的头片段或标签。第二，可以纯化复合物以去除能够抑制或降低连接酶的连接活性的任何试剂或未反应的起始原料。例如，磷酸盐可能导致降低连接活性。第三，需要去除被引入到化学或连接步骤中的实体以使得随后的化学或连接步骤可行。本文中描述了纯化复合物的方法。

酶和化学连接可以包括具有大于300道尔顿的平均分子量的聚乙二醇(例如，大于600道尔顿、3,000道尔顿、4,000道尔顿或4,500道尔顿)。在特定的实施方式中，聚乙二醇具有为约3,000道尔顿至9,000道尔顿的平均分子量(例如，3,000道尔顿至8,000道尔顿、3,000道尔顿至7,000道尔顿、3,000道尔顿至6,000道尔顿和3,000道尔顿至5,000道尔顿)。在优选的实施方式中，聚乙二醇具有为约3,000道尔顿至约6,000道尔顿的平均分子量(例如，3,300道尔顿至4,500道尔顿、3,300道尔顿至5,000道尔顿、3,300道尔顿至5,500道尔顿、3,300道尔顿至6,000道尔顿、3,500道尔顿至4,500道尔顿、3,500道尔顿至5,000道尔顿、3,500道尔顿至5,500道尔顿和3,500道尔顿至6,000道尔顿，如4,600道尔顿)。聚乙二醇可以以任何有用的量存在，如约25％(w/v)至约35％(w/v)，如30％(w/v)。

在本发明优选的实施方式中，使用如下概述的连接方案将单链寡核苷酸连接至单链寡核苷酸来装配结构单元标签：

在进一步的实施方式中，方案包括在37℃下孵育20小时。为了实际文库构建的目的，可以使用更高浓度的头片段、标签和/或连接酶，并且对这些浓度的此类改变对本领域技术人员而言将是显而易见的。

用于编码文库中的化学实体的方法

本发明的方法可以用来合成具有多样化的数量的由寡核苷酸标签编码的化学实体的文库。结构单元和编码DNA标签的实例可以在美国专利申请公开号US2007/0224607中找到，在此通过引用将其并入。

每个化学实体都是由一个或多个结构单元和可选的支架形成的。支架用于提供特定几何形状的一个或多个多样性节点(例如，三嗪提供围绕杂芳基环或线性几何形状而立体布置的三个节点)。

结构单元和它们的编码标签可以直接或间接地(例如通过接头)添加至头片段以形成复合物。当头片段包括接头时，结构单元或支架添加至该接头的末端。当不存在接头时，结构单元可以直接添加至头片段或者结构单元本身可以包括与头片段的官能团反应的接头。本文中描述了示例性的接头和头片段。

可以以任何有用的方式添加支架。例如，支架可以添加至接头或头片段的端部，并且可以将连续的结构单元添加至该支架的可用的多样性节点。在另一个实例中，首先将结构单元A_n添加至接头或头片段，然后使支架S的多样性节点与结构单元A_n中的官能团反应。可以可选地将编码特定支架的寡核苷酸标签添加至头片段或复合物。例如在n个反应容器将S_n添加至复合物，其中n是大于一的整数，并且标签S_n(即，标签S₁、S₂、……S_n-1、S_n)被结合至复合物的官能团。

可以在多个合成步骤中添加结构单元。例如，将等分试样的可选具有连接的接头的头片段分加到n个反应容器中，其中n为2或更大的整数。在第一步骤中，向n个反应容器的每一个中加入结构单元A_n(即，将结构单元A₁、A₂、……A_n-1、A_n添加至反应容器1、2、……n-1、n中)，其中n为整数且每个结构单元A_n是独特的。在第二步骤中，向每个反应容器中加入支架S以形成A_n-S复合物。可选地可以向每个反应容器中加入支架S_n以形成A_n-S_n复合物，其中n为大于2的整数，并且每个支架S_n可以是独特地。在第三步骤中，向含有A_n-S复合物的n个反应容器中的每一个加入结构单元B_n(即，将结构单元B₁、B₂、……B_n-1、B_n加入到含有A₁-S、A₂-S、……A_n-1-S、A_n-S复合物的反应容器1、2、……n-1、n中)，其中每个结构单元B_n是独特的。在进一步的步骤中，向含有B_n-A_n-S复合物的n个反应容器中的每一个加入结构单元C_n(即，将结构单元C₁、C₂、……C_n-1、C_n加入到含有B₁-A₁-S……B_n-A_n-S复合物的反应容器1、2、……n-1、n中)，其中每个结构单元C_n是独特的。所得到文库将具有n³数量的具有n³个标签的复合物。以这种方式，可以使用另外的合成步骤来结合另外的结构单元以进一步多样化文库。

在形成文库之后，可以可选的纯化所得到的文库并且将其经受使用一种或多种引物的聚合或连接反应。这种一般策略可以扩展至包括另外的多样性节点和结构单元(例如，D、E、F等)。例如，第一个多样性节点与结构单元和/或S反应并且由寡核苷酸标签来编码。然后，使另外的结构单元与该得到的复合物反应，并且通过另外的结构单元来衍生化随后的多样性节点，这是通过用于聚合或连接反应的引物来编码的。

为了形成编码的文库，在每个合成步骤之后或之前，向复合物中添加寡核苷酸标签。例如，在向每个反应容器中加入结构单元A_n之前或之后，将标签A_n结合至头片段的官能团(即，将标签A₁、A₂、……A_n-1、A_n添加至含有头片段的反应容器1、2、……n-1、n中)。每个标签A_n都具有与每个独特地结构单元A_n相关的独特序列，并且其决定着标签A_n的序列提供结构单元A_n的化学结构。以这种方式，使用另外的标签来为另外的结构单元或另外的支架进行编码。

另外，添加至复合物的最后一个标签可以包括引物序列或提供用于结合(例如，通过连接)引物序列的官能团。引物序列可以用于扩增和/或测序复合物的寡核苷酸标签。用于扩增和用于测试的示例性方法包括聚合酶链式反应(PCR)、直链扩增(LCR)、滚环扩增(RCA)或本领域众所周知的用于扩增或确定核酸序列的任何其他方法。

使用这些方法，可以形成具有大量编码的化学实体的大文库。例如，使头片段与接头和结构单元A_n反应，该结构单元A_n包括1,000个不同的变体(即，n＝1,000)。对于每个结构单元A_n，将DNA标签A_n连接至或引物延伸至头片段。这些反应可以在1,000-孔板或10x100孔板中进行。可以汇集反应物、可选地纯化并且分至第二组板中。接下来，可以用结构单元B_n来进行相同的工序，该结构单元B_n也包括1,000个不同的变体。可以将DNA标签B_n连接至A_n-头片段复合物，并且可以汇集所有的反应物。所得到的文库包含1,000x1,000个由1,000,000个不同组合的标签标记的A_n x B_n(即1,000,000化合物)的组合。可以将相同的工序延伸以添加结构单元C_n、D_n、E_n等。然后可以使用该生成的文库以识别结合靶的化合物。可以可选地通过PCR来评估结合至该文库的化学实体的结构，并且通过对DNA标签进行测序来识别所富集的化合物。

可以修改这种方法以避免在添加每个结构单元后的标记或避免汇集(或混合)。例如，可以通过向n个反应容器中添加结构单元A_n(其中n为大于1的整数)并且向每个孔中添加相同的结构单元B₁来修改方法。此处，对于每个化学实体B₁是相同的，因此不需要编码此结构单元的寡核苷酸标签。在添加结构单元后，可以将复合物汇集或不汇集。例如，在最后步骤的结构单元添加后，不将文库汇集，并且单独筛选每个池以识别结合至靶的一个或多个化学合物。在合成后为了避免汇集所有反应，例如可以使用

读出器(来自SRUBiosystems,Inc.)来监视以高通量形式在传感器表面上的结合(例如，384孔板和1,536孔板)。例如，可以用DNA标签A_n来编码结构单元A_n，而可以由其在孔板内的位置编码结构单元B_n。然后可以通过使用结合测定(例如，使用

Biosensor，也由SRU Biosystems,Inc.提供或使用ELISA测定)并且通过测序、微阵列分析和/或限制性消化分析来分析A_n标签来识别候选化合物。这种分析能够识别产生所需分子的结构单元A_n和B_n的组合。

扩增的方法可可选地包括形成水包油乳液以产生多个水微反应器。可以调节反应条件(例如，复合物的浓度和微反应器的大小)来提供平均上具有化合物的文库的至少一个成员的微反应器。每个微反应器中还可以含有靶、能够结合至复合物或该复合物的一部分(例如一个或多个标签)和/或结合该靶的单珠、和具有一种或多种用于进行核酸扩增的必要试剂的扩增反应液。在该微反应器中扩增标签之后，扩增的标签的复制品在该微反应器中可以结合至珠，并且可以通过任何有用的方法来识别包覆的珠。

一旦已经识别来自结合至目标靶的第一文库的结构单元，可以以迭代(iterative)方式来制备第二文库。例如，可以添加一个或多个另外的多样性的节点，并且如本文所描述的产生第二文库并且采样。根据需要，这种方法可以重要多次以产生具有所需的分子量和药物特性的分子。

可以使用各种连接技术来添加支架、结构单元、接头和结构单元标签。因此，本文所描述的任何结合步骤可以包括任何有用的连接技术或多种技术。示例性的连接技术包括酶促连接，如使用本文所描述的一种或多种RNA连接酶和/或DNA连接酶；和化学连接，如使用本文所描述的化学共反应性配对。

支架和结构单元

支架S可以是单原子或分子支架。示例性的单原子支架包括碳原子、硼原子、氮原子或磷原子等。示例性的多原子支架包括环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。杂芳基支架的特定实施方式包括三嗪，例如1,3,5-三嗪、1,2,3-三嗪或者1,2,4-三嗪；嘧啶；吡嗪；哒嗪；呋喃；吡咯；吡咯啉；吡咯烷；噁唑；吡唑；异噁唑；吡喃；吡啶；吲哚；吲唑；或嘌呤。

可以通过作何有用的方法将支架S操作性地连接至标签。在一个实例中，S为直接连接至头片段的三嗪。为了得到这种示例性的支架，可以使三氯三嗪(即，具有三个氯的氯化的三嗪前体)与头片段的亲核基团反应。使用这种方法，S具有可用于取代的有氯的三个位置，其中两个位置可用于多样性节点且一个位置连接至头片段。其次，将结构单元A_n添加至支架的多样性节点，并且将为结构单元A_n编码的标签A_n(“标签A_n”)连接至头片段，其中可以以任何顺序进行这两个步骤。然后，可以将结构单元B_n添加至剩余的多样性节点，并且将为结构单元B_n编码的标签B_n连接至标签A_n的端部。在另一个实例中，S为操作性地连接至标签的接头的三嗪，其中使三氯三嗪与PEG、标签的脂肪族或芳香族接头的亲核基团(例如，氨基)反应。如上所描述的，可以添加结构单元及相关的标签。

在又另一个实施方式中，S是操作性地连接至结构单元A_n的三嗪。为了获得这种支架，使具有两个多样性节点(例如，亲电基团和亲核基团，如Fmoc-氨基酸)的结构单元A_n与接头的亲核基团(例如，连接至头片段的PEG、脂肪族或芳香族接头的末端基团)反应。然后，使三氯三嗪与结构单元A_n的亲核基团反应。使用这种方法，S的所有三个氯位置都被用作结构单元的多样性节点。如本文所描述的，可以添加另外的结构单元和标签，并且可以添加另外的支架S_n。

示例性的结构单元A_n’包括例如氨基酸(例如，α-、β-、γ-、δ-和ε-氨基酸，以及天然和非天然氨基酸的衍生物)、具有胺的化学共反应性反应物(例如，叠氮化物或炔烃链)或硫醇反应物或它们的组合。结构单元A_n的选择取决于例如接头中使用的反应性基团的性质、支架部分的性质和用于化学合成的溶剂。

示例性的结构单元B_n’和C_n’包括包括化学实体的任何有用的结构单位，如可选取代的芳香族基团(例如，可选取代的苯基或苄基)、可选取代的杂环基团(例如，可选取代的喹啉基、异喹啉基、吲哚基、异吲哚基、氮杂吲哚基、苯并咪唑基、氮杂苯并咪唑基、苯并异噁唑、吡啶基、哌啶基或吡咯烷基)、可选取代的烷基(例如，可选取代的直链或支链的C_1-6烷基或可选取代的C_1-6氨基烷基)或可选取代的碳环基团(例如，可选取代的环丙基、环己基或环己烯基)。特别有用的结构单元B_n’和C_n’包括具有一个或多个反应性基团的那些，例如具有一个或可选的是反应性基团或者可以被化学改性以形成反应性基团的取代基的可选被取代的基团(例如，任何本文的)。示例性的反应性基团包括胺(-NR₂，其中每个R独立地为H或可选被取代的C_1-6烷基)、羟基、烷氧基(-OR，其中R是可选被取代的C_1-6烷基，如甲氧基)、羧基(-COOH)、酰胺或化学共反应性的取代基。例如，可以在标签B_n或C_n中导入限制性位点，其中可以通过进行PCR并用相应的限制性内切酶之一限制性消化来识别复合物。

接头

可以改变头片段和化学实体之间的双官能接头来提供适合的间隔物和/或增加头片段在有机溶剂中的溶解性。市售有大量的接头可以将头片段与小分子文库偶接(couple)。接头典型地由直链或支链构成并且可以包括C_1-10烷基、1至10个原子的杂烷基、C_2-10烯基、C_2-10炔基、C₅-₁₀芳基、3至20个原子的环状或多环系统、磷酸二酯、肽、寡糖、寡核苷酸、低聚物、聚合物或聚烷基乙二醇(例如，聚乙二醇，例如-(CH₂CH₂O)_nCH₂CH₂-，其中n为1至50的整数)或它们的组合。

双官能接头可以在头片段与文库的化学实体之间提供适合的间隔物。在某些实施方式中，双官能接头包括三个部分。部分1可以是反应性基团，其与DNA形成共价键，例如，如羧酸(优选由N-羟基琥珀酰亚胺(NHS)酯活化以与DNA上的氨基反应(例如，氨基修饰的dT))、用于修饰单链头片段的5’或3’-末端的亚酰胺(amidite)(通过标准寡核苷酸化学的方式来实现)、化学共反应性配对(例如，在Cu(I)的存在下的叠氮-炔环加成反应，或任何本文所描述的)或巯基反应性基团。部分2也可以是反应性基团，其与化学实体(结构单元A_n或支架)形成共价键。此类反应性基团可以是例如胺、硫醇、叠氮化物或炔。部分3可以是导入在部分1和部分2之间的可变长度的化学惰性间隔物。此类间隔物可以是乙二醇单元的链(例如，不同长度的PEG)、烷烃、烯烃、多烯链或肽链。接头可以含有具有疏水基团(例如，如苯环)的分支或插入以提高头片段在有机溶剂中的溶解性，以及含有用于文库检测目的的荧光基团(例如，荧光素或Cy-3)。可以通过接头设计来改变头片段设计中的疏水性残基以促进文库在有机溶剂中的合成。例如，设计头片段和接头的组合以具有适合的残基，其中辛醇:水系数(P_oct)为例如1.0至2.5。

对于给定的小分子文库设计可以根据经验选择接头，使得可以在有机溶剂中合成文库，例如在15％、25％、30％、50％、75％、90％、95％、98％、99％或100％有机溶剂中。在文库合成之前可以使用模型反应来改变接头以选择在有机溶剂中增加头片段的适合的链长度。示例性的接头包括具有增加的烷基链长度、增加的聚乙二醇单元、具有正电荷的支链物种(以中和头片段上的负磷酸根电荷)或增加量的疏水性(例如，添加苯环结构)的那些。

市售的接头的实例包括氨基-羧基接头，例如为肽的那些(例如，Z-Gly-Gly-Gly-Osu(N-α-苄氧基羰基-(甘氨酸)₃-N-琥珀酰亚胺酯)或Z-Gly-Gly-Gly-Gly-Gly-Gly-Osu(N-α-苄氧基羰基-(甘氨酸)₆-N-琥珀酰亚胺酯,SEQ ID NO:3))、PEG(例如，Fmoc-氨基PEG2000-NHS或氨基-PEG(12-24)-NHS)或烷酸链(例如，Boc-s-氨基己酸-Osu)；化学共反应性配对，例如与肽基团组合的本文所描述的那些化学共反应性配对(例如，叠氮高丙氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:4)或炔丙基甘氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:5))、PEG(例如，叠氮基-PEG-NHS)或烷烃酸链部分(例如，5-叠氮基戊酸、(S)-2-(叠氮基甲基)-l-Boc-吡咯烷、4-叠氮基苯胺或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯)；巯基反应性接头，例如为PEG的那些(例如，SM(PEG)n NHS-PEG-马来酰亚胺)、烷烃链(例如，3-(吡啶-2-基二氢硫基)-丙酸-Osu或磺基琥珀酰亚胺6-(3'-[2-吡啶二硫基]-丙酰胺基)己酸酯))；和用于寡核苷酸合成的亚酰胺，例如氨基改性剂(例如，6-(三氟乙酰基氨基)-己基-(2-氰乙基)-(N,N-二异丙基)-亚磷酰胺)、巯基改性剂(例如，S-三苯甲基-6-巯基己基-l-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺或化学共反应性配对改性剂(例如，6-己炔-1-基-(2-氰乙基)-(N,N-二异丙基)-亚磷酰胺、3-二甲氧基三苯甲基氧基-2-(3-(3-炔丙氧基丙酰胺基)丙酰胺基)丙基-l-O-琥珀酰基、长链烷基氨基CPG或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯))。其他的接头是本领域中众所周知的，并且可以在文库合成期间使用那些包括但不限于5'-O-二甲氧基三苯甲基-1’,2'-二脱氧核糖-3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；9-O-二甲氧基三苯甲基-三甘醇、1-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；3-(4,4'-二甲氧基三苯甲基氧基)丙基-1-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；和18-O-二甲氧基三苯甲基六乙二醇、l-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。本文的任何接头都可以以不同的组合串联地彼此添加以产生不同所需长度的接头。

接头也可以是支化的，其中支化的接头在本领域中是众所周知的，并且实例可以包括对称或不对称的二倍体(doubler)或对称的三倍体(trebler)。参见，例如Newcome etal.,Dendritic Molecules:Concepts,Synthesis,Perspectives,VCH Publishers(1996)；Boussif et al.,Proc.Natl.Acad.Sci.USA92:7297-7301(1995)；和Jansen et al,Science266:1226(1994)。

实施例1

提高DNA标签的单链连接的一般策略

对各种反应条件进行了探讨以提高标签的单链连接，从而形成编码的文库。这些反应条件包括在标签内使用修饰的核苷酸(例如，使用一种或多种具有2’-OMe基团的核苷酸以形成MNA/DNA标签，其中“MNA”是指具有至少一个2’-O-甲基核苷酸的寡核苷酸)；使用具有不同长度的供体标签和受体标签，并且改变标签的浓度；使用不同类型的连接酶以及它们的组合(例如，CircLigase^TMssDNA连接酶和/或T4RNA连接酶)，并且改变它们的浓度；通过去除未反应的起始原料来纯化复合物；使用具有不同分子量的聚乙二醇(PEG)并且改变它们的浓度；改变用于反应的温度和持续时间，例如连接反应；改变各种试剂的浓度，包括ATP、Co(NH₃)₆Cl₃和酵母无机焦磷酸盐；使用酶或化学磷酸化的寡核苷酸标签；使用3’-保护的标签；以及5’-化学腺苷化的标签。

经过对不同的条件进行全面分析后，发现了提供上达至90％连接效率的参数的最佳组合(例如，图5C)，这是由连接的最终产物与未连接的起始反应物的比例分数(fraction)(“连接的分数”)来确定的。图5A中显示了使用连接酶的连接反应的方案，并且在图5B中示出典型的变性聚丙烯酰胺凝胶电泳。供体寡核苷酸在3’-末端被标记，并且可以通过在Storm^TM800PhosphorImager上在450nm激发下扫描来检测。凝胶描绘了未连接的供体(或起始材料)和连接后的产物。特别地，在这种凝胶上可以解析腺苷酸化的供体并且可以与起始材料相区分。

表2提供了作为寡核苷酸的组成(即，具有全-DNA核苷酸的寡核苷酸相对于具有至少一个2’-O-甲基核苷酸(标记为“MNA”)的寡核苷酸)和连接酶的类型(即，RNA连接酶相对于ssDNA连接酶)的函数测量的连接效率。这些连接实验包括下列标签：具有5’-P-GCT GTGCAG GTA GAG TGC-6-FAM-3'(SEQ ID NO:6)的序列的全-DNA供体；具有5’-P-mGCT GTG CAGGTA GAG TGC-6-FAM-3’(SEQ ID NO:7)的序列的5’-MNA-DNA供体；具有5’-P-mGmUmGmCmAmG mGmUmA mGmAmG mUmGmC-6-FAM-3’(SEQ ID NO:8)的序列的全-MNA供体；具有5’-HO-TAC GTA TAC GAC TGmG-OH-3’(SEQ ID NO:9)的序列的DNA-3’MNA受体；具有5’-HO-GCAGAC TAC GTA TAC GAC TGG-OH-3’(SEQ ID NO:10)的序列的全-DNA受体；和具有5’-HO-mUmAmC mGmUmA mUmAmC mGmAmC mUmGmG-OH-3’(SEQ ID NO:11)的序列的全-MNA受体，其中“m”表示2’-OMe碱基，“P”表示磷酸化的核苷酸，且“FAM”表示荧光素。

连接效率是由凝胶光密度数据来计算的，其为来自连接产物的强度与来自连接产物和未连接的起始材料的强度的总和之间的比率。用于T4RNA连接酶的反应条件包括如下：各5μΜ的供体和受体寡核苷酸(15-18的核苷酸(nts)长)在pH7.5的含有50mM Tris HC1、10mM MgCl₂、1mM六胺氯化钴、1mM ATP、25％PEG4600和5单位的T4RNA连接酶(NEB-新单位)的缓冲溶液中。在37℃下孵育反应16小时。用于CircLigase^TM的反应条件如下：将各5μΜ的供体和受体寡核苷酸(长度15至18个nts)在具有20单位CircLigase^TM(Epicentre)的含有50mM MOPS(pH7.5)、10mM KC1、5mM MgCl₂、1mM DTT、0.05mM ATP、2.5mM MnCl₂和25％(w/v)PEG8000的缓冲液中在50℃下孵育16小时。在8M尿素/15％PAAG上解析反应，然后使用450nm的激发进行光密度测定。

表2

供体	受体	T4RNA连接酶	CircLigase<sup>TM</sup>
				全-DNA	全-DNA	9％	89％
全-DNA	全-MNA	14％	68％
				全-DNA	DNA-3’MNA	46％	85％
全-MNA	全-DNA	11％	84％
				全-MNA	全-MNA	20％	29％
全-MNA	DNA-3’MNA	32％	73％
				5’-MNA-DNA	全-DNA	29％	90％

5’-MNA-DNA	全-MNA	16％	46％
				5’-MNA-DNA	DNA-3’MNA	69％	81％

一般地，CircLigase^TM产生比T4RNA连接酶更高的连接产率(表2)。当供体和受体都为DNA/MNA杂交寡核苷酸时，用T4RNA连接酶实现了有效地连接。

图5C显示，对于T4RNA连接酶在高的酶浓度和寡核苷酸浓度下达到了高产率的连接。反应条件包括如下：各250μΜ的供体和受体寡核苷酸在含有50mM Tris HCl、10mMMgCl₂、1mM六胺氯化钴、2.5mM ATP、30％(w/v)PEG4600(pH7.5)、40单位/uL(NEB-新单元)不同量的T4RNA连接酶和0.1单位酵母无机焦磷酸酶的缓冲液中。将反应在37℃下孵育5小时和20小时，并且在8M尿素/15％PAAG上进行解析，然后使用450nm激发进行光密度测定。

总体上，这些数据显示，通过包括一种或多种经修饰的2’-核苷酸和/或通过使用RNA连接酶或DNA连接酶可以优化酶促连接。以下讨论了可有助于连接效率的若干其他测试条件的进一步细节，例如PEG或标签长度。

实施例2

PEG对单链连接的影响

为了确定PEG分子量(MW)对连接反应的影响，使单链标签与25％(w/v)具有300至20000道尔顿的MW的PEG连接。如图6A所示，对于具有3,350、4,000、6,000、8,000和20,000的MW的PEG，观察到80％或更高的连接。这些连接实验包括下列标签：具有5’-P-mGTG CAG GTAGAG TGC-6-FAM-3’(SEQ ID NO:12)的序列的15mer供体和具有5’-HO-mUAC GTA TAC GACTGmG-OH-3’(SEQ ID NO:13)的序列的15mer受体。这些寡核苷酸标签是具有一个或两个末端2’O-甲基(2'-OMe)RNA碱基(例如2'-OMe-U(mU)或2'-OMe-G(mG))的DNA序列。

还进行了用于确定PEG浓度的影响的实验。使单链标签与不同浓度的具有4,600道尔顿MW的PEG(PEG4600)连接。如图6B所示，对于25％(w/v)至35％(w/v)PEG4600，平均而言观察到70％或更高的连接。

实施例3

标签长度对单链连接的影响

为了确定标签长度对连接反应的影响，构建了不同长度的受体和供体标签。对于CircLigase^TM实验，使用了具有5'-P-mGTG CAG GTA GAG TGC-6-FAM-3'(SEQ ED NO:12)的序列的15mer供体，并且与10mer、12mer、14mer、16mer和18mer的DNA受体寡核苷酸进行搭配。对于T4RNA连接酶实验，标签包括一个或多个2’-OMe-碱基(指定为MNA/DNA标签)。表3提供了三个供体标签(15mer、8mer和5mer)和三个受体标签(15mer、8mer和5mer)的序列。

表3

寡核苷酸标签	序列*
		15mer供体	5’-P-mGTG CAG GTA GAG TGC-6-FAM-3’(SEQ ID NO:12)
15mer受体	5’-HO-mUAC GTA TAC GAC TGmG-OH-3’(SEQ ID NO:13)
		8mer供体	5’-P-mGT GAG TGC-6-FAM-3’(SEQ ID NO:14)
8mer受体	5’-HO-C A GAC TGmG-OH-3’(SEQ ID NO:15)
		5mer供体	5’-P-mGT GAC-6-FAM-3’(SEQ ID NO:16)
5mer受体	5’-HO-mAC TGmG-OH-3’(SEQ ID NO:17)

*“m”表示2’-OMe碱基，“P”表示磷酸化的核苷酸，且“FAM”表示荧光素。

通过电泳凝胶的光密度测定法来分析连接的程度(图7A-图7B)。CircLigase^TM反应的结果显示，连接产率对受体寡核苷酸的长度的强依赖性(图7A)。用18mer受体观察到了最高的连接产率(62％)，而用10mer受体的连接产率低于10％。T4RNA连接酶的反应结果显示，8mer受体与8mer供体的组合提供了最高的产率，并且具有15mer供体与任何测试受体的组合物提供大于75％的产率(图7B)。如果文库包括较短的标签(即，约10mer或更短)，那么T4RNA连接酶可优选用于标签连接。在其他情况下，可以通过使用CircLigase^TM或T4RNA连接酶与CircLigase^TM的组合来进一步优化连接。

实施例4

纯化对单链连接的影响

为了确定纯化对连接反应的影响，连接单链标签以模仿文库合成过程。对于这些实验，标签包括15mer供体和15mer受体标签，如上表3中所提供的。将化学实体结合至文库的3’-末端，其中在这个实例中化学实体是荧光素以有助于可视化。如图9所示(右)，在通过T4PNK磷酸化之后将连续的标签连接至复合物的5’-OH基团。

在PNK反应之前也通过纯化连接的产物(即，复合物)进行了实验，其中有用于连接反应的特定试剂(例如，磷酸盐、钴和/或未反应的标签)可以抑制用PNK的磷酸化反应或降低连接产率。如图9(左)所示，在PNK反应之前纯化复合物(即，最小的沉淀)增加了连接(参见标有*的数据，指示纯化)。图8A至图8B示出在磷酸化之前和之后的15mer MNA/DNA标签的LC-MS图谱。存在或不存DTT在对磷酸化没有影响。

实施例5

化学共反应性配对连接和接点的逆转录

本文的方法可以进一步包括化学共反应性配对连接技术以及酶促连接技术。因此，作为化学连接的实例，使用了示例性的化学共反应性配对(即，环加成反应中的炔和叠氮配对)，为两种变型：短化学共反应性配对和长化学共反应性配对。

材料

在第一种变型中，使用了短化学共反应性配对(图10A)。该配对包括(i)具有序列5’-GCG TGA ACA TGC ATC TCC CGT ATG CGT ACA GTC CAT T/炔丙基G/-3’(“5末端3炔丙基”，SEQ ID NO:18)的寡核苷酸和(ii)具有序列5’-/叠氮基T/ATA GCG CGA TAT ACA C ACTGG CGA GCT TGC GTA CTG-3’(“3末端5叠氮基”，SEQ ID NO:19)的寡核苷酸。这对寡核苷酸的是由TriLink BioTechnologies,Inc.(San Diego,CA)制备的。这些寡核苷酸经设计以在连接后在两个寡核苷酸之间产生短的间隔物，其中接头可以为5个原子长(从5末端3炔丙基寡核苷酸的C3’-位置开始至3末端5叠氮基寡核苷酸的C5’-位置止计数)。另外，5’-叠氮基寡核苷酸(3末端5叠氮基)是通过将相应的5’-碘寡核苷酸中的碘基转化为叠氮基来制备的。

在第二种变型中，使用了长化学共反应性配对(图10B)。该配对包括(i)具有序列5’-GCG TGA ACA TGC ATC TCC CGT ATG CGT ACA GTC CAT TG/间隔物7-叠氮化物/-3’(“5末端3叠氮化物”，SEQ ID NO:20)的寡核苷酸和(ii)具有序列5’-/己炔基/TA GCG CGA TATACA CAC TGG CGA GCT TGC GTA CTG-3’(“3末端5己炔基”，SEQ ID NO:21)的寡核苷酸。这对寡核苷酸的是由Integrated DNA Technologies,Inc.(IDT DNA,San Diego,CA,andCoralville,IA)制备的。5末端3叠氮化物寡核苷酸是通过使叠氮基丁酸酯N-羟基琥珀酰亚胺酯与3’-氨基-修饰剂C7(2-二甲氧基三苯甲基氧基甲基-6-芴基甲氧基羰基氨基-己烷-1-琥珀酰基-长链烷基氨基)反应来制备的，其是在寡核苷酸柱合成过程中导入的。这个配对经设计以在寡核苷酸之间产生24个原子长的间隔物(从5末端3叠氮化物寡核苷酸的C3’-位置开始至3末端5己炔基寡核苷酸的C5’-位置止计数)。

对于逆转录(如图11A中的示意图所示)，引物和模板包括如下：具有5’-/Cy5/CAGTAC GCA AGC TCG-3’("Cy5s_primerl5,"SEQ ID NO:22)的序列的逆转录引物；具有5’-GCGTGA ACA TGC ATC TCC CGT ATG CGT ACA GTC CAT TGT ATA GCG CGA TAT ACA CAC TGGCGA GCT TGC GTA CTG-3’(“empl75”，SEQ ID NO:23)的序列的对照模板；具有5’-GCG TGAACA TGC ATC TCC-3’(SEQ ID NO:24)的序列的5’-PCR引物；和具有5’-CAG TAC GCA AGCTCG CC-3’(SEQ ID NO:25)的序列的3’-PCR引物，其中这些序列是从IDT DNA获得的。在该实验中使用Cy5-标记的DNA引物以使得能够通过LC来单独检测逆转录产物。

实验条件

对于化学共反应性配对连接，在100当量的TBTA配体(三-[(l-苄基-lH-l,2,3-三唑-4-基)甲基]胺)和50当量的CuBr的水/二甲基乙酸酯混合物的存在下，将化学共反应性配对(如5末端3炔丙基+3末端5叠氮基(短)或5末端3叠氮化物+3末端5己炔基(长))的1mM溶液孵育12小时。在反应之后，加入过量的EDTA，并且使用Zeba离心脱盐柱(InvitrogenCorp.,Carlsbad,CA)对反应混合物进行脱盐，然后用乙醇沉淀。对于逆转录反应，在含有8M尿素的15％聚丙烯酰胺凝胶上纯化模板。

在Thermo Scientific LCQ Fleet上，使用ACE3CI8-300(50x2.1mm)柱和5分钟梯度的5％至35％的缓冲液B(使用了缓冲液A(1％六氟异丙醇(HFIP)、0.1％二-异丙基乙基胺(DIEA)、10μΜEDTA的水溶液)和缓冲液B(0.075％HFIP、0.0375％DIEA、10μΜEDTA、65％乙腈/35％水))，进行液相色谱-质谱法(LC-MS)。在260nm和650nm下监测LC。在负离子模式下检测MS，并且使用ProMass软件进行质量峰去卷积。

使用ThermoScript^TMRT(Invitrogen Corp.)根据制造商的方案在50℃下进行逆转录反应1至2小时。通过LC-MS并通过PCR分析结果。使用

SuperMix进行PCR并且在4％琼脂糖E-凝胶(两者都来自Invitrogen Corp.)上进行解析。在使用或未使用先前的RT反应下进行十一和十八个PCR循环。75mer模板未经逆转录而直接用于PCR扩增。

结果与讨论

在形成短间隔物和长间隔物的两个连接中，通过LC-MS分析，反应产率都较高，接近定量。因此，化学连接提高了一种高产率的技术以将头片段结合或操作性地缔合至一个或多个结构单元标签。

对于产生DNA-标记的文库的可行的化学连接策略，所得到的复合物应当能够经受用于进一步测序用途的PCR或RT-PCR。虽然PCR和RT-PCR对于酶促连接的标签(如上的)而言可能不是问题，但是如上所描述的，非天然的化学接头可能难以通过RNA或DNA聚合酶进行处理。图11B至图11E中提供的数据显示，具有特定长度的寡核苷酸可以被转录和/或逆转录。

在产生三唑-连接的寡核苷酸的化学共反应性配对接头的情况下，观察到对接头的长度的依赖性。对于短化学共反应性配对，所得到的模板被逆转录并且通过LC-MS分析。对于260nm，LC分析显示出在2.79min、3.47min和3.62min处三个主要吸收峰，其中在3.47min和3.62min处的峰在650nm下也提供了吸收峰。MS分析3.47min处的峰显示仅存在模板23097.3(计算值23098.8)，而在3.62min处的峰在约1.7:1的比率含有模板(23098.0)和完全延伸的引物(23670.8，计算值：23671.6)，提示该RT反应的产率为50至60％(图11C)。为了进行比较，具有全-DNA模板的对照的逆转录(RT)以大致相当于模板(23078.7)的量产生了延伸的引物(峰23068.9)，提示接近100％的产率(图11B)。

对于长化学共反应性配对，对于260nm，RT反应的LC显示出在2.77min和3.43min处的两个吸收峰，在中在3.43min处的峰在650nm下也提供了吸收峰，即，含有Cy5标记的材料，预计其为RT产物。MS分析3.43min处的峰显示为模板(观察值23526.6，计算值：23534.1)，以及延伸至接头(11569.1)的Cy5引物。由LC-MS未观察到全长产物，表明未以可测量的量发生RT反应(图11D)。

用以上所描述的模板进行了RT-PCR，并且显示只有短接头产生了逆转录产物，尽管为5至10的较低效率(图11E)。估计该RT的效率比模板(templ75)低约2-倍。例如，与全-DNA模板75(templ75)相比，短连接的模板的PCR产物在RT之后约低2-倍，且未经RT的约低5至10倍。因此，这此数据为使用化学连接来生产能够被逆转录和/或转录的复合物提供支持，并且化学连接的头片段和/或标签可以用于本文的任何结合步骤中以生产编码的文库。

实施例6

3’-硫代磷酸酯寡核苷酸与5’-碘寡核苷酸的连接

为了确定本文的方法的灵活性，测定了具有其他修饰的寡核苷酸的连接效率。特别地，天然磷酸二酯键的类似物(例如，硫代磷酸酯类似物)可以为后期选择的PCR分析和测序提供替代的基团。

由TriLink BioTechnologies,Inc.(San Diego,CA)合成了下列寡核苷酸：(i)5VCy5/CGA TAT ACA CAC TGG CGA GCT/硫代磷酸酯/-3'(“CCy5”，SEQ ID NO:26)，(ii)5'-/碘dT/GC GTA CTG AGC/6-FAM/-3’(“CFL”，SEQ ID NO:27)，如图12A所示，和(iii)具有序列CAG TAC GCA AGC TCG CC(“spl”，SEQ ID NO:28)的夹板寡核苷酸。在室温下在含有50mM Tris HC1(pH7.0)、100mM NaCl和10mM MgCl₂的缓冲液(“连接缓冲液”)中使用反应物寡核苷酸各100μM进行连接反应。连接反应补充有下列的任一个：100μM夹板寡核苷酸、10mMCo(NH₃)₆Cl₃、40％(w/v)的PEG4000或80％(w/v)的PEG300。使反应进行上达至48小时。通过LC-MS使用260nm、495nm和650nm下的检测来分析连接产物，以及通过8M尿素/15％聚丙烯酰胺凝胶(PAAG)在Storm^TM800磷光成像仪上在450和635nm激发下进一步扫描进行分析。

在不存在夹板寡核苷酸下，未观察到连接(图12B，标记“-spl”的泳道)。在夹板寡核苷酸的存在下，发生连接并且在48小时后达到约60％的部分连接(图12B至图12C)。LC-MS在色谱中显示出若干个峰，3.00min处的峰在260nm、495nm和650nm下有吸收。该峰的MS显示，大多数连接的产物在11539.6Da(计算值11540)，具有小于10％的CCy5寡核苷酸在7329.8Da(计算值7329.1)。在存在PEG和六胺钴时检测到了低水平的连接，其中六胺钴导致Cy5-标记的寡核苷酸的沉淀。这些数据显示，具有修饰的磷酸酯基团(例如，修饰的磷酸二酯键，如硫代磷酸酯键)的头片段和/或标签可以用于本文的任何结合步骤中以生产编码的文库。

为了进一步研究碘-硫代磷酸酯连接反应，在不同反应条件下，在不存在和存在夹板的条件下，进行5’-I dT-寡-3’-FAM(CFL)与5’-Cy5-寡-3’-PS(CCy5)的连接。

在第一组条件下，孵育7至8天来进行连接实验。这些实验是在相同于上述的连接缓冲液中用寡核苷酸各50μΜ并且在室温下孵育一周来进行的。图12D示出在不存在(上)和存在(下)夹板(阳性对照)的CFL和CCy5的连接的LC-MS分析，其中将连接反应孵育7天。在260nm(用于检测全部的核酸)、495nm(用于检测CFL寡核苷酸和连接产物)和650nm(用于检测CCy5寡核苷酸和连接产物)下记录每个反应的LC迹线。

在不存在夹板时，未发生连接，并且仅检测到起始材料CFL(4339Da)和CCy5(7329Da)(图12D，上)。当存在夹板核苷酸持续7天时，在495nm通道以2.98min的保留时间观察到特征峰，其对应于连接的产物(11542Da)(图12D，下)。该峰与在650nm通道下观察到的CCy5寡核苷酸的峰重叠，因此不能与650nm下的CCy5相区分。

图12E示出在不存在夹板时的CFL和CCy5的LC-MS分析，其中将连接反应在400μΜ各寡核苷酸下孵育8天。未检测到连接产物。峰1(在495nm)含有CFL起始材料(4339Da)、以及微量的碘产物(4211Da)的损失和未知的降解产物(4271Da，可能是乙硫醇置换物)。峰2(在650nm)含有CCy5起始材料(7329Da)和氧化的CCy5寡核苷酸(7317Da)。峰3(在650nm)含有二聚化的CCy5(14663Da)。

在第二组条件下，在哌啶的存在下并且在高于7.0的pH下进行碘置换反应。图12F示出CFL寡核苷酸与哌啶的反应的MS分析，其中该反应意在置换存在于CFL中的末端碘。一个反应条件包括100μΜ寡核苷酸、40mM哌啶(400当量)在100mM硼酸盐缓冲液中，pH9.5，室温下持续20小时(数据如图12F左侧窗格中所示)；而另一个反应条件包括400μΜ寡核苷酸、2M哌啶(4,000当量)在200mM硼酸盐缓冲液中，pH9.5，在65℃下持续2小时(数据如图12F右侧窗格中所示)。

在包括40mM哌啶的反应条件下(图12F，左)，未观察到哌啶的置换，并且检测到少量的水解产物(4229Da)。另外，观察到微量的碘损失(4211Da)和未知的降解产物(4271Da)。在含有2M哌啶的反应条件下(图12F，右)，观察到了哌啶的置换(4296Da)，并且起始材料的量大幅减少(4339Da)。另外，观察到了对应于碘的水解(通过OH的置换)、或杂质(4229Da)和碘的损失(4214Da)的峰。这些数据显示，胺的存在(例如，作为化学文库合成的一部分)不会不利地影响文库成员的寡核苷酸部分和/或干扰这种连接策略。

在第三组条件下，在哌啶的存在下并且在高于7.0的pH下进行夹板连接反应。图12G示出在400当量哌啶的存在下、在100mM的pH9.5的硼酸缓冲液中、于室温下50μΜ的CFL和CCy5寡核苷酸的夹板连接反应。在LC迹线(在495nm)中检测到的特征峰含有11541.3Da(计算值11540Da)的主要连接产物。基于这些结果，可以得出如下结论：哌啶不会损害酶促连接，并且其他胺类的存在(例如，作为化学文库合成的一部分)也不会干扰这种连接策略。

一并考虑，这些数据表明，这种连接策略可以在适用于范围广泛的化学转化的各种反应条件下进行，包括延长的孵育时间、升高的pH值条件和/或存在一种或多种胺。因此，本方法可以有用于以不同的反应条件来开发文库成员，并且排除缓冲液交换(如沉淀或其他资源密集型的方法)的必要性。

实施例7

用修饰的核苷酸最小化改组

在使用T4RNA连接酶的单链酶促连接过程中，可能发生低至中等程度的末端核苷酸的改组。改组可以导致核苷酸的内含或切除，其中与期望的连接序列(即，具有完整的受体和供体寡核苷酸两者的序列的序列)相比，最终的产物或复合物内含或排除了核苷酸。

虽然低水平的改组是可以容忍的，但是通过包括一个经修饰的磷酸酯基团可以将改组最小化。特别地，经修饰的磷酸酯基团是受体寡核苷酸的3’-末端上的末端核苷酸与邻接于该末端核苷酸的核苷酸之间的硫代磷酸酯键。通过使用这种硫代磷酸酯键，可以极大地减少改组。通过质谱只检测到残留改组，其中改组可能是由于天然磷酸二酯键向硫代磷酸酯键的不完全转化所导致的或由于硫化磷酸酯键在低水平氧化后转化为天然磷酸二酯键所导致的。将这种数据与实施例6中的连接数据合在一起考虑，可以在任何本文的寡核苷酸序列中(例如，在头片段、复合物、结构单元标签或本文的任何标签的3’-末端处的末端核苷酸与邻接于该末端核苷酸的核苷酸之间)包括一个或多个经修饰的磷酸酯基团(例如，硫代磷酸酯或5’-N-亚磷酰胺键)，从而在单链连接过程中最小化改组。

将单链头片段(ssHP，3636Da)在5’-末端进行磷酸化并且在3’-末端使用己基胺接头进行修饰以提供5’-P-mCGAGTC ACGTC/氨基己/-3’(SEQ ED NO:29)的序列。将头片段连接至具有5’-mCAGTGTCmA-3’(SEQ ID NO:30)的序列的标签(标签15，XTAGSS000015，2469Da)，其中mC和mA表示2’-O甲基核苷酸。LC-MS分析(图13A)显示，该连接产物峰含有上达至3种物种，其中部分通过LC分离并且具有如下分子量：6089Da(预期的)、5769Da(预期的-320Da)和6409Da(预期的+320Da)。320Da的这种质量差异精确对应于去除或添加一个另外的O-Me C核苷酸(“末端核苷酸改组”)。

以其他末端O-Me核苷酸以及末端2’-氟代核苷酸的实验，确认改组可能是通过切割供体寡核苷酸的5’-末端核苷酸来发生的，可能是在该供体寡核苷酸的腺苷酸化后发生的。该事件的机制是尚不清楚。为了不受到机制的限制，图13B图解说明在头片段与标签之间在T4RNA连接酶反应过程中核苷酸改组的可能方案，其中本领域技术人员可以理解，这种反应可以发生在任何供体和受体寡核苷酸之间(例如，在两个标签之间，其中一个标签为供体寡核苷酸而另一个标签为受体寡核苷酸)。

一般地，用T4RNA连接酶(T4Rnll)的大部分连接反应提供了期望的(正常的)具有供体和受体寡核苷酸两者的组合序列的连接产物(图13B-1，左侧的反应)。一小部分的反应提供了异常连接产物(图13B-1，右侧的反应)，其中这些异常产物包括具有去除或添加有末端核苷酸的那些(图13B-2中分别为“产物-1nt”和“产物+1nt”)。

为了不受机理的限制，可以通过与受体(“标签”)的3’-OH基团的反应来发生供体寡核苷酸(图13B-1中的“头片段”或“HP”)的切割，由此提供缺少一个核苷酸的5’-磷酸化的供体(“HP-1nt”)和具有可接近的3’-OH基团的腺苷酸化的核苷酸(“1nt”)。图13B-2示出头片段(HP)、标签、HP-1nt与1nt之间的反应的两个示例性的方案。为了提供具有切除末端核苷酸的产物(图13B-2，左)，缺少一个核苷酸的5’-磷酸化的供体(HP-1nt)作为连接事件的底物。将这种HP-1nt头片段通过T4RNA连接酶重新腺苷酸化(以提供图13B-2中的“腺苷酸化的HP-1nt”)并且连接至标签，得到减少了一个核苷酸的连接产物(“产物-1nt”)。为了提供具有增加的末端核苷酸的产物(图13B-2，左)，腺苷化的核苷酸(1nt)可能作为用于与标签连接的底物，由此产生具有比受体长一个核苷酸的寡核苷酸(“标签+1nt”)。这种标签+1nt寡核苷酸可能作为未改变的头片段的受体，其中这种反应提供具有增加的核苷酸的连接产物(“产物+1nt”)。进行了“产物”、“产物-1nt”和“产物+1nt”的LC-MS分析(图13B-3)。当将异常标签和异常头片段(即，分别为标签+1nt和HP-1nt)重组时，那么得到的连接产物不能与期望的产物相区分。

为了进一步研究末端核苷酸改组的机制，制备了具有5’P-mC*GAGTCACGTC/氨基己/-3’(SEQ ID NO:31)的序列的头片段(HP-PS)。头片段HP-PS具有与ssHP相同的序列，但是含有一个修饰，即在5’-末端核苷酸mC与随后的G之间的第一个磷酸二酯键，其合成为硫代磷酸酯键(一个非桥接磷酸酯氧被硫替换)。该HP-PS至标签15的连接的LC-MS分析显示，改组几乎被完全抑制(图13C)。微量的+/-320峰可能对应于硫代磷酸酯键至天然磷酸二酯键的氧化转化或不完成的硫化。

实施例8

文库成员的尺寸排阻色谱法

使用短的单链寡核苷酸作为编码元素产生的化学实体的文库非常适合于通过尺寸排阻色谱法(SEC)富集粘合物(粘合剂，binders)。SEC是一种基于尺寸来分离分子的色谱技术，其中具有较高分子量的较大分子比具有较低分子量的较小分子更快速地通过柱。

使用SEC可以容易地将蛋白质的复合物和ssDNA文库成员与未结合的文库成员分离。图14为来自SEC实验的紫外迹线，其中将共价地连接至短ssDNA(一系列具有在20至50mer范围内的确定长度的寡核苷酸)的小分子与已知的结合小分子的蛋白质靶混合。首先从柱中洗脱出的峰在11至13分钟时间范围内，表示靶-缔合的文库成员。随后的峰，从14至17分钟洗脱出，表示未结合的文库成员。蛋白质靶与文库分子的比率为2:1，因此在早期洗脱出的级分中应有约50％的文库分子与蛋白质关联，如图14中所观察到的。不能使用这种方法选择具有较大的双链寡核苷酸编码区的文库，因为在SEC上未结合的文库成员与结合的文库成员共迁移。因此，连接至20至50mer长度范围的编码单链寡核苷酸的小分子文库使得能够使用有力的分离技术，该分离技术具有显著提高信号-噪音比的潜力，而这种提高的信号-噪音比是有效选择一种或多种靶(例如，新型蛋白质靶，其为可选被标记的和/或野生型蛋白质)的小分子粘合物所需要的。特别地，这些方法能够识别编码组合性产生的文库中的靶-结合化学实体，而不需要标记或固定靶(例如，蛋白质靶)。

实施例9

对每个连接步骤使用相同的化学用化学连接的DNA标签编码

可以酶促连接或化学连接编码DNA标签。图15A中图解说明化学DNA标签连接的一般方法。每个标签都在其5’和3’末端携带共互补(co-complementary)的活性基团。为了防止标签的聚合或环化反应，(i)例如在TIPS-保护的3’炔的情况下，保护一个或两个反应性基团(图15A)，或者(ii)例如在5’-碘/3’-硫代磷酸酯连接的情况下，使用夹板依赖性连接化学(图15B)。对于(i)，在每个文库循环后可以去除或封端未连接的标签以防止脱保护的标签的误标记或聚合。对于(ii)，这个步骤是可选的，但仍可以被包括。也可以进行使用了能够读通化学连接的接点的引物延伸反应以论证连接的标签是可读的，并且因此可以通过选择后(post-selection)扩增和测序来恢复编码的信息(图15C)。

使用了“点击-化学”(Cu(I)催化的叠氮化物/炔环加成反应)的实现标签的连接的文库标记策略如图16A所示。这种策略的实施依赖于标签的精确连续连接、避免错误标记和标签的聚合的能力，以及依赖于将化学连接的DNA复制进入用于选择后扩增和测序的可扩增的天然DNA(cDNA)中的能力(图16C)。

为了实现准确的标签连接，使用了三异丙基甲硅烷基(TIPS)-保护的3’-炔丙基核苷酸(由用于寡核苷酸合成的CPG基质形式的炔丙基U合成得到的)(图16B)。可以通过使用四丁基氟化铵(TBAF)在DMF中于60℃下处理1至4小时来特异地去除TIPS保护基团。结果是，在文库合成过程中的连接包括5’-叠氮基/3’-TIPS-炔丙基核苷酸(标签A)与头片段的3’-炔丙基通过点击反应的反应。纯化后，用TBAF处理前一个循环以去除TIPS并产生反应性炔，其反过来与下一个循环的标签反应。按产生2、3或4或更多个连续装配的编码标签所必要的多个循环重复该步骤(图16A)。

材料和方法

寡核苷酸：由Trilink Biotechnologies,San Diego CA合成下列寡核苷酸：ss-HP-炔：5’-NH₂-TCG AAT GAC TCC GAT AT(3’-炔丙基G)-3’(SEQ ID NO:32)；ss-叠氮基-TP：5’-叠氮基dT ATA GCG CGA TAT ACA CAC TGG CGA GCT TGC GTA CTG-3’(SEQ ID NO:33)；和B-叠氮基：5’叠氮基dT ACA CAC TGG CGA GCT TGC GTA CTG-3’(SEQ ID NO:34)。

点击标签-TIPS：5’-叠氮基dT AT GCG TAC AGT CC(炔丙基U-TIPS)-3’(SEQ IDNO:35)和5’二甲氧基三苯甲基2’-琥珀酰基3’-O-(三异丙基甲硅烷基)炔丙基尿苷cpg，其是由Prime Organics,Woburn MA合成的。

由IDT DNA technologies,Coralville,LA合成下列寡核苷酸：FAM-点击-引物：(5’-6-FAM)CAG TAC GCA AGC TCG CC-3’(SEQ ID NO:36)和Cy5-点击-引物：(5’-Cy5)CAGTAC GCA AGC TCG CC-3’(SEQ LD NO:37)。

DNA55-对照：/5’生物素-TEG//ispC3//ispC3/-TCGAATGACTCCGATATGT ATA GCGCGA TAT ACA CAC TGG CGA GCT TGC GTA CTG-3’(SEQ LD NO:38)。

rDNA55-对照：/5生物素-TEG//ispC3//ispC3/-TCGAATGACTCCGATAT(riboG)T ATAGCG CGA TAT ACA CAC TGG CGA GCT TGC GTA CTG-3’(SEQ LD NO:39)。

模板的合成：以下列实例中，术语“化学连接的标签”或与它们相关的对照序列被称为“模板”，因为随后的步骤(“读”)利用它们作为模板依赖性聚合的模板。

标签连接：向1当量(1mM)ssHP-炔和1当量(1mM)ss-叠氮基TP于500mM pH7.0磷酸盐缓冲液中的溶液中，加入预混的2当量的乙酸Cu(II)(至2mM的最终浓度)、4当量的抗坏血酸钠(至4mM的最终浓度)、1当量TBTA(至1mM的最终浓度)于DMF/水中的溶液。将混合物在室温下孵育过夜。在LC-MS确认反应完成后，使用盐/乙醇来沉淀该反应。

分别通过ss-HP-炔与ss-叠氮基-TP和B-叠氮基的反应来合成“单点击”模板Y55和Y185。通过ss-HP-炔与点击标签-TIPS的点击连接、随后使用TBAF(四丁基氟化铵)在DMF中于60℃下1小时以脱保护TIPS、随后与ss-叠氮基TP点击连接来合成双点击模板和三点击模板(YDC和YTC)。对于三点击模板(YTC)，点击标签-TIPS的连接和脱保护被重复两次。

将模板与生物素-(EG)₄-NHS反应并且脱盐(图17A)。由RP HPLC和/或在15-20％聚丙烯酰胺凝胶/8M尿素上纯化终产物并且由LC-MS分析。

酶：下列DNA聚合酶和它们的反应缓冲液都是购自New England Biolabs的：大肠杆菌DNA聚合酶I的克列诺片段、克列诺片段(外-)、大肠杆菌DNA聚合酶I、Therminator^TM、9°N^TM、Superscript III^TM。

链霉抗生素蛋白磁性

M280购自Invitrogen。

模板依赖性聚合评估：用1当量Cy5或FAM点击引物在40至50μL相应的1x反应缓冲液中并使用每种酶，使用根据制造商指导的反应条件孵育每种模板(5μΜ)1小时。某些反应(如，SSII或SSIII转录)另外地补充有1mM MnCl₂。将反应产物加载于125μL预先洗涤的SA珠上，摇动30分钟。收集珠，并且丢弃流穿液。用1mL Tris-缓冲盐水(pH7.0)洗涤珠，并且用35μL的100mM NaOH洗脱。通过添加10μL的1M Tris HC1，pH7.0立即中和洗脱液。使用LC-MS分析产物。

结果与讨论

模板制备：合成了每个模板Y55、Y185(图17B和图17C)、YDC和YTC(图19)并且纯化至高于85％的纯度(主要杂质是未生物素化的模板)。LC-MS显示模板的以下MW：Y5517,624(计算值17,619)Da；YDC22,228(计算值22,228)Da；和YTC26,832(计算值26,837)Da。

由只携带有一个点击化学官能度(炔或叠氮化物)的寡核苷酸合成了单点击模板Y55和Y185(图17B和图17C)。在使用原位产生的Cu(I)催化剂的过夜反应中，点击反应(化学连接)的效率超过90％。

模板YDC和YTC(图19A至图19D)用来论证连续的化学连接。YDC和YTC两者都使用了同时含有叠氮基和TIPS-保护的炔官能度的标签。模板YTC显示出三个连续的循环的标签，其可以用于编码化学文库产生的三个步骤。

对所有上述模板都测试了引物延伸穿过并超出点击连接键，从而论证连接的标签是可读的并且因此所编码的信息是可恢复的。

使用“单-点击”模板Y55的模板依赖性聚合：测试了一大组聚合酶以读通三唑点击键(图18A)。使用Cy5-点击-引物进行初始实验。在此后的实验中，使用FAM-点击-引物。荧光团对模板的复制没有影响，即使用两种引物是等效的。作为对照，使用模板DNA55-对照和rDNA55-对照(以测试在模板中的单个核糖核苷酸的效果，因为用于点击连接的炔丙基-G是核糖核苷酸衍生物)。

在所有三个模板中的预计全长产物具有相同的分子量，其为17446(FAM引物)(图18B)或17443(Cy5引物)。对于一些聚合酶，还观察到对应于引物延伸上达至但停止在点击连接键处的少量产物(11880Da)。

发现了一组能够产生相当程度的读通点击键(产生全长cDNA)的聚合酶并且表列如下。

当使用克列诺片段在37℃下孵育时实现了最高的产率(在单点击接点处超过80％的读通)(图18B)。使用大肠杆菌DNA聚合酶I观察到稍低的产率。使用Therminator^TM和9°N^TM聚合酶以及克列诺片段外-实现了50％的产率。

当缓冲液中补充有1mM MnCl₂时，Superscript III^TM逆转录酶产生约50％产率的cDNA。但是，通过MS观察，锰导致核苷酸的错误插入，即降低了聚合保真度。

使用“单-点击”模板Y185的模板依赖性聚合：模板Y185采用与本实例中使用的所有模板相同的引物结合位点，但了是由于不同的尾片段B-叠氮基，该引物结合位点至点击键之间的距离为8个核苷酸，与Y55和所有其他模板中为20个核苷酸形成对比。使用该模板测试当酶处于启动-早期延伸构象时是否仍能够转录点击键。克列诺能够以与Y55相似的效率复制Y55模板，开启降低点击-连接的编码标签的长度的可能性(图18C)。

使用双和三点击连接的模板YDC和YTC的模板依赖性聚合：在确定了克列诺片段在所采用的试验条件下是读通点击连接键的最有效的酶后，也使用YDC和YTC模板产生了cDNA(图20A至图20C)。使用YDC和YTC模板的引物延伸反应产生了全长产物。构成总反应输出的约10-15％的其他观察到的产物对应于部分延伸的引物，停在每一次点击接点处，例如11880Da和16236Da。在内标物的存在下通过LC-MS分析产率，并且为约89至90％每接点(即，1点击为约85％，2点击为55％，且3点击为50％，参见图21)。

YDC转录的产物缺少1个dA核苷酸(计算值22110，观察值27197Da；-313dA，图20B)且YTC转录的产物缺少2个dA核苷酸(计算值26773，观察值26147；-6262xdA)(图20C)。这与模板中的炔丙基U核苷酸的数量相关。为了不受机理的限制，可以假定克列诺跳过了T-三唑-U接点中的那些U。相反地，第1个点击接点中的炔丙基G核苷酸被正确地复制。

实施例10

使用3’-硫代磷酸酯/5’-碘标签化学连接一连串编码DNA标签，该编码DNA标签编码共价地装配在5’-末端上的化学文库

保护标签上的3’-硫代磷酸酯：如图24A所示，将5’-碘-3’-硫代磷酸酯标签(1当量)溶解于水中以得到5mM的最终浓度。随后，加入甲基乙烯基砜(20当量)，在室温下将反应孵育过夜。在反应完成后，由乙醇沉淀产物。

文库合成(图24B)

循环A：向分配(split)中的各孔中加入单链DNA头片段(1当量，1mM在500mM pH9.5硼酸盐缓冲液中的溶液)、一个循环的A保护的标签(1.5当量)和夹板(1.2当量)。在室温下将化学连接孵育过夜。然后向每个孔(分配的)中加入一Fmoc氨基酸(100当量)，随后加入4-(4,6-二甲氧基-l,3,5-三嗪-2-基)-4-甲基吗啉鎓氯化物(100当量)。在室温下将化学反应孵育过夜。完成后，将所有的孔汇集并且使用乙醇沉淀产物。使用LC纯化循环A汇集体并且冷冻干燥，然后溶解于水中得到1mM的最终浓度并且加入哌啶(10％v/v)以进行循环A标签的脱保护(60℃，2h)。再次使用乙醇沉淀经脱保护的产物。

循环B：将经脱保护的循环A汇集体溶解于500mM pH9.5的硼酸盐缓冲液中以得到1mM的浓度，并且然后分配至单独的反应孔中(每个孔中1当量的循环A产物)。向每个孔中加入一循环B保护的标签(1.5当量)和夹板(1.2当量)。在室温下将化学连接孵育过夜。向每个孔(分配的)中加入一甲酰基酸(100当量)、二异丙基碳二亚胺(100当量)和1-羟基-7-氮杂-苯并三唑(100当量)的混合物。在室温下将化学反应孵育过夜。完成后，将所有的孔汇集并且使用乙醇沉淀产物。使用LC纯化该循环B汇集体并且冷冻干燥，然后溶液于水中以得到1mM的最终浓度，并且加入哌啶(10％v/v)以进行循环B标签的脱保护(60℃,2h)。再次使用乙醇沉淀经脱保护的产物。

循环C：将经脱保护的循环B汇集体溶解于500mM pH5.5的磷酸盐缓冲液中以得到1mM的浓度，然后分配至单独的反应孔中(每个孔中1当量循环B产物)。向每个孔中加入一循环C标签(1.5当量)和夹板(1.2当量)。在室温下将化学连接孵育过夜。向每个孔中(分配的)加入胺(80当量)和氰基硼氢化钠(80当量)。在60℃下将化学反应孵育16小时。完成后，将所有的孔汇集并且使用乙醇沉淀产物。使用LC纯化循环C汇集体并且冷冻干燥。

实施例11

对于每个连续的标签连接步骤使用一对正交的化学物质用化学连接的DNA标签进行编码

用于产生化学连接的编码DNA标签的另一种途径是使用一对正交的化学物质用于连续地连接(图22A)。在末端携带有正交的反应性基团的标签不会标签聚合或环化，并且连续连接步骤的正交性质会降低错误标记事件的频率。此类途径需要(i)可用于寡核苷酸缀合(conjugation)的具有至少两个正交的化学物质；和(ii)可用于每个由此产生的接点的读通策略(图22B和图22C)。这种途径也可以排除对保护基团和封端步骤的使用的需求，由此简化标签连接方法。

对于连接步骤利用了5’-叠氮基/3’-炔基和5’-碘/3'硫代磷酸酯连接的正交化学连接策略：使用两个正交的化学物质标签连接的实例是5’-叠氮基/3’-炔基和5’-碘/3’硫代磷酸酯连接的组合。图23示出使用这些连续连接化学物质的合成的3-循环正交化学连接标记策略的示例性方案。图25A至图25B示出使用3’-硫代磷酸酯/5’-叠氮基和3’-炔丙基/5’-碘标签来化学连接一连串正交编码DNA标签的实例，该编码DNA标签编码共价地装配在5’-末端上的化学文库。

保护标签上的3’-硫代磷酸酯：如图25A中所示的，将5’-叠氮基-3’-硫代磷酸酯标签(1当量)溶解于水中得到5mM的最终浓度。随后，加入甲基乙烯基砜(20当量)，并且在室温下将反应孵育过夜。在反应完成后，通过乙醇沉淀产物。

文库合成(图25B)

循环A：向分配的每个孔中加入单链DNA头片段(1当量，1mM在500mM pH9.5硼酸盐缓冲液中的溶液)、一循环A标签(1.5当量)和夹板(1.2当量)。在室温下将化学连接孵育过夜。然后向每个孔中(分配的)加入一Fmoc氨基酸(100当量)，随后加入4-(4,6-二甲氧基-l,3,5-三嗪-2-基)-4-甲基吗啉鎓氯化物(100当量)。在室温下将化学反应孵育过夜。完成后，将所有的孔汇集并且使用乙醇沉淀产物。使用LC纯化循环A汇集体并且冷冻干燥。通过用哌啶(10％v/v)在室温下将汇集体(1mM于水中)处理2小时以对循环A汇集体进行Fmoc脱保护。再次使用乙醇沉淀经脱保护的产物。

循环B：将纯化的循环A汇集体溶解于500mM pH7.0的磷酸盐缓冲液中以得到1mM的浓度，然后分配至单独的反应孔中(每个孔中1当量的循环A产物)。向每个孔中加入一循环B保护的标签(1.2当量)、乙酸铜(II)(2当量)、抗坏血酸钠(4当量)和三-(苄基三唑基甲基)胺(1当量)。在室温下将化学连接孵育过夜。完成后，使用乙醇沉淀产物(分配的)，然后用500mM pH9.5的硼酸盐缓冲液稀释至1mM的浓度。然后向每个孔(分配的)中加入一甲酰基酸(100当量)、二异丙基碳二亚胺(100当量)和1-羟基-7-氮杂苯并三唑(100当量)的混合物。在室温下将化学反应孵育过夜。完成后，将所有的孔汇集并且使用乙醇沉淀产物。然后将该循环B汇集体溶解于水中得到1mM的最终浓度，并且加入哌啶(10％v/v)以进行循环B标签的脱保护(室温，18小时)。再次使用乙醇沉淀经脱保护的产物。使用LC纯化经脱保护的循环B汇集体并且冷冻干燥。

循环C：将纯化的循环B汇集体溶解于500mM、pH5.5的磷酸盐缓冲液中以得到1mM的浓度，然后分配至单独的反应孔中(每个孔中1当量的循环B产物)。向每个孔中加入一循环C标签(1.5当量)和夹板(1.2当量)。在室温下将化学连接孵育过夜。向每个孔中(分配的)中加入胺(80当量)和氰基硼氢化钠(80当量)。在60℃下将化学反应孵育16小时。完成后，将所有的孔汇集并且使用乙醇沉淀产物。使用LC纯化该循环C汇集体并且冷冻干燥。

其他实施方式

本说明书中提及的所有出版物、专利申请和专利都通过引用并入本文。

在不脱离本发明的范围和精神的条件下，本发明所描述的方法和体系的各种修改和变型对本领域技术人员而言都将是显而易见的。尽管已经联系具体所需的实施方式描述了本发明，但应当理解的是，所要求保护的本发明不应当不适当的限制于此类具体实施方式。事实上，对于在医学领域、药物学领域或相关领域的技术人员而言是显而易见的对所描述用于实施本发明的方式的各种修改都意在处于本发明的范围内。

Claims

1.一种标记包含寡核苷酸编码的小分子或肽的文库的方法，所述方法包括：

(i)提供具有第一官能团和第二官能团的头片段，其中，所述头片段包含2’-取代的核苷酸，包含在所述头片段的3’-末端或5’-末端的所述第二官能团；

(ii)使所述头片段的所述第一官能团结合至所述小分子或肽的第一组分，其中，所述头片段直接连接至所述第一组分或者所述头片段通过双官能接头间接地连接至所述第一组分；和

(iii)使所述头片段的所述第二官能团连接至第一结构单元标签以形成复合物，其中，所述第一结构单元标签在5’-末端和/或3’-末端包含至少一个2’-取代的核苷酸，并且所述连接形成在所述头片段的所述2’-取代的核苷酸和在所述第一结构单元的核苷酸之间的共价键，其中，所述连接包括单链连接，

其中，可以以任何顺序进行所述步骤(ii)和所述步骤(iii)，

其中，所述第一结构单元标签为所述步骤(ii)的所述结合反应编码，并且

其中，每个2’-取代的核苷酸独立地是2’-O-甲基核苷酸或2’-氟代核苷酸，

由此提供标记的文库。

2.根据权利要求1所述的方法，其中，所述头片段在内部位置上进一步包含至少一个2’-取代的核苷酸。

3.根据权利要求1所述的方法，其中，所述头片段的全部核苷酸是2’-取代的核苷酸。

4.根据权利要求1所述的方法，其中，所述第一结构单元标签在内部位置上进一步包含至少一个2’-取代的核苷酸。

5.根据权利要求1所述的方法，其中，所述第一结构单元标签的全部核苷酸是2’-取代的核苷酸。

6.根据权利要求1所述的方法，其中，每个所述2’-取代的核苷酸独立地是包含以下各项的核苷酸：2’-O-甲基鸟嘌呤、2’-O-甲基尿嘧啶、2’-O-甲基腺苷、2’-O-甲基胸苷、2’-O-甲基肌苷、2’-O-甲基胞苷、2’-O-甲基二氨基嘌呤、2’-氟鸟嘌呤、2’-氟尿嘧啶、2’-氟腺苷、2’-氟胸苷、2’-氟肌苷、2’-氟胞苷和2’-氟二氨基嘌呤。

7.根据权利要求1所述的方法，其中，步骤(ii)包括使所述头片段直接结合至所述第一组分。

8.根据权利要求1所述的方法，其中，步骤(ii)包括使所述头片段通过双官能接头间接地结合至所述第一组分。

9.根据权利要求1所述的方法，进一步包括：

(iv)使第二结构单元标签连接至所述复合物的3’-末端或5’-末端；和

(v)使所述文库的第二组分结合至所述第一组分，其中，可以以任何顺序进行所述步骤(iv)和所述步骤(v)。

10.根据权利要求9所述的方法，其中，所述第二结构单元标签在所述第二结构单元标签的5’-末端、3’-末端和/或内部位置中的一个或多个上包含2’-取代的核苷酸。

11.根据权利要求10所述的方法，其中，所述第二结构单元标签的全部核苷酸是2’-取代的核苷酸。

12.根据权利要求9所述的方法，其中，步骤(iii)和/或步骤(iv)的所述连接包括酶促连接。

13.根据权利要求12所述的方法，其中，每个所述酶促连接独立地包括使用RNA连接酶和/或DNA连接酶。

14.根据权利要求13所述的方法，其中，所述酶促连接包括RNA连接酶。

15.根据权利要求13所述的方法，其中，所述酶促连接包括DNA连接酶。

16.根据权利要求13所述的方法，其中，所述酶促连接包括RNA连接酶和DNA连接酶。

17.根据权利要求14或16所述的方法，其中，所述RNA连接酶是T4RNA连接酶。

18.根据权利要求15或16所述的方法，其中，所述DNA连接酶是ssDNA连接酶或T4 DNA连接酶。

19.根据权利要求9所述的方法，其中，所述方法进一步包括在结合步骤(ii)至(v)中的任何一个之前，使所述复合物与任何未反应的标签或未反应的头片段分离，和/或包括在结合步骤(ii)至(v)中任何一个之前纯化所述复合物。

20.根据权利要求9所述的方法，其中，步骤(iii)和/或步骤(iv)的所述连接包括使用聚乙二醇和/或一种或多种可溶性多价阳离子。

21.根据权利要求1所述的方法，其中，所述方法进一步包括使一个或多个另外的结构单元标签连接至所述复合物，以及使一个或多个另外的结构单元标签结合至所述第一结构单元。

22.根据权利要求1所述的方法，其中，所述头片段包含发夹结构。

23.根据权利要求9所述的方法，其中，所述头片段、所述第一结构单元标签、和/或所述第二结构单元标签进一步包含第一文库-识别序列、用途序列和/或来源序列。

24.根据权利要求1所述的方法，其中，所述方法进一步包括使第一文库-识别标签、用途序列、来源序列和/或尾片段结合至所述复合物。

25.根据权利要求1所述的方法，其中，所述方法包括多个头片段。

26.根据权利要求1所述的方法，其中，所述连接形成所述头片段的2’-取代的核苷酸和所述第一结构单元标签的2’-取代的核苷酸之间的共价键。

27.根据权利要求26所述的方法，其中，所述连接形成在所述头片段的3’-末端的2’-取代的核苷酸和在所述第一结构单元标签的5’-末端的2’-取代的核苷酸之间的共价键。

28.根据权利要求26所述的方法，其中，所述连接形成在所述头片段的5’-末端的2’-取代的核苷酸和在所述第一结构单元标签的3’-末端的2’-取代的核苷酸之间的共价键。

29.一种包含单链头片段和单链结构单元标签的复合物，其中，

(a)所述头片段在3’-末端和/或5’-末端包含至少一个2’-取代的核苷酸；

(b)所述标签包含5至20个核苷酸、在5’-末端的2’-取代的核苷酸和在3’-末端的2’-取代的核苷酸；并且

(c)所述头片段和所述标签经由在所述头片段的3’-末端处的所述2’-取代的核苷酸和在所述标签的5’-末端处的2’-取代的核苷酸之间的共价键连接，或者所述头片段和所述标签经由在所述头片段的5’-末端处的所述2’-取代的核苷酸和在所述标签的3’-末端处的2’-取代的核苷酸之间的共价键连接；

其中，每个2’-取代的核苷酸独立地是2’-O-甲基核苷酸或2’-氟代核苷酸。

30.根据权利要求29所述的复合物，其中，所述头片段包含发夹结构。