CN107428795A

CN107428795A - 用于标记dna编码文库的方法

Info

Publication number: CN107428795A
Application number: CN201580077171.7A
Authority: CN
Inventors: A.D.基夫; A.利托夫基克; M.克拉克; R.W.沃纳
Original assignee: X-Chemical Co Ltd
Current assignee: X-Chemical Co Ltd
Priority date: 2014-12-30
Filing date: 2015-12-28
Publication date: 2017-12-01
Anticipated expiration: 2035-12-28
Also published as: IL253154B; JP6864621B2; MX2017008772A; IL278117A; WO2016109423A1; BR112017013904A2; JP2018501796A; WO2016109423A8; KR20170094445A; IL253154A0; MA41298A; AU2015374309A1; AU2020230345A1; AU2015374309B2; CA2972275A1; EP3240795A4; HK1246301A1; EA201791312A1; US20180002688A1; SG11201705350XA

Abstract

本发明涉及用于制备编码化学实体的方法。具体地，所述寡核苷酸及方法可包括编码化学实体，其具有通过化学连接技术形成的野生型键。本发明涉及使用氰基咪唑和Zn²⁺，利用野生型键(例如，磷酸二酯键)的寡核苷酸标记策略，所述野生型键来源于带有5'‑单磷酸和3'‑羟基末端的寡核苷酸对，和还来源于5'‑羟基和3'‑单磷酸末端，该策略提供了相对高的产率。这种化学连接方法是模板依赖性的，并且允许使用正交的3'‑和5'‑磷酸，导致以低的错掺率或错编率对编码寡核苷酸的序贯连接的高程度控制，包括在双链的情况下。

Description

用于标记DNA编码文库的方法

发明背景

DNA编码化学文库成员是通过组合化学合成方法产生的化学实体，其与编码寡核苷酸标记的组合缔合。可测定与个体文库成员缔合的标记组合并用于推导所缔合的文库成员的化学合成历史。

用于产生此类文库的一种方法是通过连续的拆分-混合步骤，将寡核苷酸标记连续化学连接至头片段寡核苷酸的方法，由此显示出一种化学生成的实体。在每个拆分步骤中，化学合成步骤连同寡核苷酸连接步骤一起进行。

化学介导的而非酶介导的寡核苷酸连接步骤，对于溶液条件具有更大的灵活性，并且可减少可能对于几千个小体积的各个分离的隔室必需的缓冲液交换步骤。

然而，由化学连接反应生成的大多数寡核苷酸键结构产生不能通过聚合酶来移位的键。这意味着此类键不能直接在使用聚合酶以解码个体文库成员的方法(例如测序)中利用。

本发明涉及利用化学连接技术，使用野生型键标记DNA编码化学实体的方法。这允许实现化学连接的优点，同时保留聚合酶可读的键的便利性。

发明内容

可利用的一种策略，其在利用化学连接作为编码化学历史的方法的同时还保留聚合酶直接恢复标记序列及关联信息的能力，以生成野生型磷酸二酯键的方式进行化学连接。在双链或模板情况下，此类方法一般利用冷凝剂如溴化氰或类似物连同5’-磷酸和3’-羟基寡核苷酸。相似地，溴化氰也已经显示化学连接作为5’-羟基和3’-磷酸的底物寡核苷酸对。然而，这些方法效率低下，使得它们不适合在迭代过程如标记DNA编码文库中使用。

本发明已经开发了一种寡核苷酸标记策略，其使用氰基咪唑和Zn²⁺，以相对高的产率，利用野生型键(例如磷酸二酯键)，所述野生型键源自具有5’-单磷酸和3’-羟基末端的寡核苷酸对，并且还源自5’-羟基和3’-单磷酸末端。因为这种化学连接方法是模板依赖性的并且允许使用正交的3’-和5’-磷酸，可在编码寡核苷酸的序贯连接过程中以低的错掺率或错编率施加高度控制，包括在双链的情况下。

因此，在第一方面，本发明的特征在于一种制备编码化学实体的方法。这种方法包括：(a)提供包含第一官能团和第二官能团的头片段；(b)使头片段的第一官能团结合至化学实体的组分，其中头片段直接连接至组分或者头片段通过双官能间隔子间接地连接至组分；以及(c)使头片段的第二官能团经由化学连接连接至第一寡核苷酸标记以形成编码化学实体，其中化学连接产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键；其中能够以任何顺序进行步骤(b)和步骤(c)，并且其中第一寡核苷酸标记为步骤(b)的结合反应编码，由此制备编码化学实体。

在另一方面，本发明的特征还在于一种制备编码化学实体的方法。这种方法包括：(a)提供包含第一官能团和第二官能团的头片段；(b)使头片段的第一官能团结合至化学实体的组分，其中头片段直接连接至组分或者头片段通过双官能间隔子间接地连接至组分；(c)使头片段的第二官能团经由化学连接连接至第一寡核苷酸标记以形成复合物，其中化学连接产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键；(d)结合n _c数量的编码化学实体的另外组分，其中n _c是1和10之间的整数；以及(e)连接n _t数量的另外的寡核苷酸标记(具有n _t个键)以形成编码化学实体，其中n _t是1和10之间的整数并且其中每个键介于两个相邻标记之间并且每个标记编码至少一个组分的身份；其中能够以任何顺序进行步骤(b)和步骤(c)，并且其中第一寡核苷酸标记为步骤(b)的结合反应编码；并且其中能够以任何顺序进行步骤(d)和(e)，并且其中每个另外的标记编码步骤(d)的每个另外的组分的结合反应，从而制备编码化学实体。

在一些实施方案中，n _t个键中的至少一个的连接不经由产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键的化学连接(例如n _t个键中的至少一个的连接经由产生可读键或不可读键的酶促连接或化学连接)。

在一些实施方案中，n _c和n _t各自独立地是介于1和2、1和3、1和4、1和5、1和6、1和7、1和8、1和9、1和10、2和3、2和4、2和5、2和6、2和7、2和8、2和9、2和10、3和4、3和5、3和6、3和7、3和8、3和9、3和10、4和5、4和6、4和7、4和8、4和9、4和10之间的整数。在某些实施方案中，n _c是1、2、3、4、5、6、7、8、9、或10。在一些实施方案中，n _t是1、2、3、4、5、6、7、8、9、或10。

在一些实施方案中，化学连接产生磷酸二酯键。在某些实施方案中，化学连接产生膦酸酯键。在一些实施方案中，化学连接产生硫代磷酸酯键。

在一些实施方案中，头片段包含双链寡核苷酸、单链寡核苷酸、或发夹寡核苷酸。在某些实施方案中，头片段包含双链寡核苷酸或发夹寡核苷酸。

在一些实施方案中，头片段包含第三官能团。在某些实施方案中，该方法还包括(d)使头片段的第三官能团经由化学连接连接至第二寡核苷酸标记，其中化学连接产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键。

在一些实施方案中，该方法还包括(d)使所述头片段的所述第三官能团连接至第二寡核苷酸标记，其中所述连接不是经由产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键的化学连接(例如该连接是产生可读键或不可读键的酶促连接或化学连接)。

在某些实施方案中，头片段包括在5’-末端和/或3’-末端的磷酸(例如头片段包括在5’-末端、3’-末端的磷酸，或者当头片段是双链或发夹寡核苷酸时，该头片段任选地包括在5’-末端和3’-末端的磷酸)。

在一些实施方案中，化学连接包括在所述头片段上的5’-或3’-磷酸与5’-或3’-羟基寡核苷酸的连接。在一些实施方案中，化学连接包括在头片段的5’-末端处的磷酸与5’-羟基寡核苷酸或3’-羟基寡核苷酸的连接。在某些实施方案中，化学连接包括在头片段的3’-末端处的磷酸与5’-羟基寡核苷酸或3’-羟基寡核苷酸的连接。

在一些实施方案中，化学连接包括在所述头片段上的5’-磷酸与3’-羟基寡核苷酸的连接和/或在所述头片段上的3’-磷酸与5’-羟基寡核苷酸的连接。在一些实施方案中，化学连接包括在头片段的5’-末端处的磷酸与3’-羟基寡核苷酸的连接和在头片段的3’-末端处的磷酸与5’-羟基寡核苷酸的连接。

在某些实施方案中，化学连接同时包括在所述头片段上的5’-磷酸与3’-羟基寡核苷酸的连接和在所述头片段上的3’-磷酸与5’-羟基寡核苷酸的连接。

在一些实施方案中，化学连接包括使用氰基咪唑。在某些实施方案中，化学连接还包括使用二价金属源(例如可溶性二价金属源)例如Zn²⁺源(例如任何可溶性Zn²⁺源如ZnF₂、ZnCl₂、ZnBr₂、ZnI₂、Zn(NO₃)₂、Zn(ClO₃)₂、ZnSO₄、或Zn(O₂CCH₃)₂或者原位氧化的元素锌)、Mn²⁺源(例如任何可溶性Mn²⁺源如MnSO₄、或MnCl₂)、或Co²⁺源(例如任何可溶性Co²⁺源如CoF₂、CoCl₂、CoBr₂、或CoI₂)。

在一些实施方案中，头片段通过双官能间隔子间接地连接至化学实体的组分(例如直链或支链，其包括C_1-10烷基、1至10个原子的杂烷基、C_2-10烯基、C_2-10炔基、C_5-10芳基、3至20个原子的环或多环体系、磷酸二酯、肽、寡糖、寡核苷酸、低聚物、聚合物或聚烷二醇(例如，聚乙二醇，如–(CH₂CH₂O)_nCH₂CH₂-，其中n是1至50的整数)。

在某些实施方案中，头片段直接连接至编码化学实体的组分。

在某些实施方案中，化学实体还包括一个或多个第一文库识别标记、用途标记、和/或来源标记。

在一些实施方案中，化学实体包括2至20个标记(例如2至17个构件或支架标记、一个第一文库识别标记、一个任选的用途标记、和一个来源标记)。在一些实施方案中，每个标记包括1至75个核苷酸(例如如本文所述，诸如约6至12个核苷酸)。在某些实施方案中，在单个标记组中的每个标记包括大致相同的质量。

在一些实施方案中，编码化学实体包括RNA、DNA、修饰DNA、和/或修饰RNA。在某些实施方案中，修饰DNA或修饰RNA为相同寡核苷酸内的PNA、LNA、GNA、TNA、或它们的混合物。

在某些实施方案中，编码化学实体包括用于可逆化固定的位点。在一些实施方案中，用于可逆化固定的位点在至少一个结合步骤之后被固定并在随后的结合步骤之前被释放。在一些实施方案中，用于可逆化固定的位点在多个结合步骤之后被固定并在随后的结合步骤之前被释放。

在一些实施方案中，用于可逆化固定的位点包括结合对的一员，例如核酸、诸如能够杂交的寡核苷酸(例如能够杂交的单链寡核苷酸)、肽、或小分子。

在另一方面，本发明的特征在于包括通过任何前述方法制备的一个或多个化学实体的文库。

在某些实施方案中，文库包括多个头片段。在一些实施方案中，多个头片段中的每个头片段包括相同的序列区(例如引物-结合区)和不同的编码区(例如第一标记，其编码文库的用途、文库的来源、文库的身份、文库的历史、连键、间隔子、或第一组分的加入；或者促进杂交、扩增、克隆、或测序技术的寡核苷酸序列)。

在某些实施方案中，文库包括约10²至10²⁰个化学实体(例如约10²至10³、10²至10⁴、10²至10⁵、10²至10⁶、10²至10⁷、10²至10⁸、10²至10⁹、10²至10¹⁰、10²至10¹¹、10²至10¹²、10²至10¹³、10²至10¹⁴、10²至10¹⁵、10²至10¹⁶、10²至10¹⁷、10²至10¹⁸、10²至10¹⁹、10⁴至10⁵、10⁴至10⁶、10⁴至10⁷、10⁴至10⁸、10⁴至10⁹、10⁴至10¹⁰、10⁴至10¹¹、10⁴至10¹²、10⁴至10¹³、10⁴至10¹⁴、10⁴至10¹⁵、10⁴至10¹⁶、10⁴至10¹⁷、10⁴至10¹⁸、10⁴至10¹⁹、10⁴至10²⁰、10⁵至10⁶、10⁵至10⁷、10⁵至10⁸、10⁵至10⁹、10⁵至10¹⁰、10⁵至10¹¹、10⁵至10¹²、10⁵至10¹³、10⁵至10¹⁴、10⁵至10¹⁵、10⁵至10¹⁶、10⁵至10¹⁷、10⁵至10¹⁸、10⁵至10¹⁹、或10⁵至10²⁰个复合物)。在文库的某些实施方案中，每个化学实体是不同的。

在另一方面，本发明的特征在于筛选多个编码化学实体的方法。这种方法包括：(a)使靶标接触通过任何前述方法制备的编码化学实体和/或任何前述文库；以及(b)选择与对照相比，对于所述靶标具有预定特征的一个或多个编码化学实体，从而筛选多个编码化学实体。

在一些实施方案中，预定特征包括与对照相比对于靶标的增加的结合。在某些实施方案中，预定特征包括与对照相比对于靶标的增加的抑制。在一些实施方案中，预定特征包括与对照相比靶标提高的活性。

在任何以上实施方案中，寡核苷酸(例如头片段、第一标记、和/或一个或多个另外的标记，如果存在的话)编码文库的身份。在一些实施方案中，寡核苷酸(例如头片段、第一标记、和/或一个或多个另外的标记，如果存在的话)包括第一文库识别序列，其中所述序列编码第一文库的身份。在特定实施方案中，寡核苷酸是第一文库识别标记。在一些实施方案中，所述方法包括提供第一文库识别标记，其中所述标记包括编码第一文库的序列，和/或使第一文库识别标记结合至复合物。在一些实施方案中，所述方法包括提供第二文库并组合第一文库与第二文库。在其它实施方案中，所述方法包括提供第二文库识别标记，其中所述标记包括编码第二文库的序列。在一些实施方案中，组合超过两个文库(例如三个、四个、五个、六个、七个、八个、九个、十个、或者更多个文库)。

在任何以上实施方案中，在一个或多个标记或多于一个标记的组合中提供编码信息。在一些实施方案中，编码信息由多于一个标记(例如两个、三个、四个、五个、六个、七个、八个、九个、十个、或者更多个标记)表示。在一些实施方案中，编码信息由多于一个标记表示，其中所有编码标记包含在编码序列内(例如使用特定标记组合以编码信息)。在一些实施方案中，编码信息由多于一个标记表示，其中少于所有编码标记包含在编码序列内(例如，通过使用来自一组多于一个个体标记的一个标记在个体编码序列内编码)。在一些实施方案中，正交地表示编码信息，其中由多于一个标记的组合表示编码信息，其中少于所有编码信息包含在个体文库成员内，使得多于一个相应文库成员需要进行测序以去卷积所述编码信息。在一些实施方案中，由单个标记表示多于一个化学构件(例如，对于外消旋构件，如二个、三个、四个、五个、六个、七个、八个、九个、十个或更多个由单个标记表示的构件)。

在任何以上实施方案中，寡核苷酸(例如，头片段和/或一个或多个构件)编码文库成员的用途(例如，如本文所述在选择步骤或结合步骤中的用途)。在一些实施方案中，寡核苷酸(例如头片段、第一标记、和/或一个或多个另外的标记，如果存在的话)包括用途序列，其中所述序列编码文库中的成员子组在一个或多个步骤(例如选择步骤和/或结合步骤)中的用途。在特定实施方案中，寡核苷酸是用途标记，其包括用途序列。在一些实施方案中，寡核苷酸(例如头片段和/或一个或多个寡核苷酸标记)编码文库成员的来源(例如在文库的特定部分中)。在一些实施方案中，寡核苷酸(例如头片段、第一标记、和/或一个或多个另外的标记，如果存在的话)包括来源序列(例如具有长度为约10、9、8、7或6个核苷酸的随机或简并序列)，其中所述序列能够区分来源于其它方面相同的文库成员的相同或不同情况下的扩增产物。在特定实施方案中，寡核苷酸是来源标记，其包括来源序列。在一些实施方案中，所述方法还包括接合、结合、或者可操作地缔合用途标记和/或来源标记与复合物。

在本文的任何实施方案中，所述方法、组合物和复合物任选地包括尾片段，其中所述尾片段包括如本文所述的一个或多个文库识别序列、用途序列、或来源序列。在特定实施方案中，所述方法还包括接合、结合、或者可操作地缔合尾片段(例如包括一个或多个文库识别序列、用途序列或来源序列)与复合物。

在任何以上实施方案中，所述方法、组合物、和复合物、或它们的部分(例如头片段、第一标记、和/或一个或多个另外的标记，如果存在的话)可包括支持在半水性、降低水性、或非水性(例如有机)条件下的溶解度的修饰。在一些实施方案中，修饰双官能间隔子、头片段、或一个或多个标记以提高所述DNA编码的化学文库的成员在有机条件下的溶解度。在一些实施方案中，修饰为烷基链、聚乙二醇单元、带有正电荷的支链物质、或疏水环结构中的一种或多种。在一些实施方案中，修饰包括具有疏水性部分的一个或多个修饰核苷酸(例如，以脂肪链在T或C碱基的C5位置进行修饰，如在5’-二甲氧三苯甲基-N4-二异丁基氨基甲叉基-5-(1-丙炔基)-2’-脱氧胞苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧三苯甲基-5-(1-丙炔基)-2’-脱氧尿苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧三苯甲基-5-氟-2’-脱氧尿苷、3’- [(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；和5’-二甲氧三苯甲基-5-(芘-1-基-乙炔基)-2’-脱氧尿苷、或3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺中)或具有疏水性部分的插入物(例如偶氮苯)。在一些实施方案中，文库的成员具有约1.0至约2.5(例如约1.0至约1.5、约1.0至约2.0、约1.3至约1.5、约1.3至约2.0、约1.3至约2.5、约1.5至约2.0、约1.5至约2.5、或约2.0至约2.5)的辛醇:水系数。

在任何以上实施方案中，聚合酶可具有降低的通读或移位通过编码化学实体的至少一个键的能力，如国际申请PCT/US13/50303所述，该国际申请以引用方式并入本文。在一些实施方案中，聚合酶具有降低的通读或移位通过编码化学实体的至少约10%(例如与对照相比约20%，25%，30%，35%，40%，45%，50%，55%，60%，65%，70%，75%，80%，85%，90%，95%，96%，97%，98%，99%，或者甚至100%)的键的能力。在特定实施方案中，聚合酶具有降低的通读或移位通过编码化学实体的约10%至约100%的键的能力(例如与对照相比(例如与缺失所述键的对照寡核苷酸相比)，20% 至100%，25% 至100%，50% 至100%，75% 至100%，90% 至100%，95%至100%，10% 至95%，20% 至95%，25% 至95%，50% 至95%，75% 至95%，90% 至95%，10% 至90%，20% 至90%，25% 至90%，50% 至90%，或75% 至90%)。

在一些实施方案中，编码化学实体的小于约10%(例如约10%、15%、20%、25%、30%、35%、 40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、或95%)的键包括酶促连键。在一些实施方案中，编码化学实体的连键包括0% 至90%(例如约0% 至40%、0% 至45%、0% 至50%、0% 至55%、0% 至60%、0% 至65%、0% 至70%、0% 至75%、0% 至80%、0% 至85%、0% 至90%、0% 至95%、0% 至96%、0% 至97%、0% 至98%、0% 至99%、5% 至40%、5% 至45%、5% 至50%、5% 至55%、5% 至60%、5% 至65%、5% 至70%、5% 至75%、5% 至80%、5% 至85%、5% 至90%、5% 至95%、5% 至96%、5% 至97%、5% 至98%、5% 至99%、10% 至40%、10% 至45%、10% 至50%、10% 至55%、10% 至60%、10% 至65%、10% 至70%、10% 至75%、10% 至80%、10% 至85%、10% 至90%、10% 至95%、10%至96%、10% 至97%、10% 至98%、10% 至99%、15% 至40%、15% 至45%、15% 至50%、15% 至55%、15% 至60%、15% 至65%、15% 至70%、15% 至75%、15% 至80%、15% 至85%、15% 至90%、15% 至95%、15% 至96%、15% 至97%、15% 至98%、15% 至99%、20% 至40%、20% 至45%、20% 至50%、20%至55%、20% 至60%、20% 至65%、20% 至70%、20% 至75%、20% 至80%、20% 至85%、20% 至90%、20% 至95%、20% 至96%、20% 至97%、20% 至98%、或20% 至99%)的酶促连键。

在一些实施方案中，编码化学实体的至少一个键包括化学键(例如化学反应性基团、光反应性基团、嵌入部分或交联寡核苷酸)。在特定实施方案中，至少一个(例如两个、三个、四个、五个、或更多个)化学反应性基团、光反应性基团或嵌入部分存在于在标记的5’-末端处或接近标记的5’-末端的5' -连接子中和/或在标记3' -末端处或接近标记3' -末端的3' -连接子中。在其它实施方案中，至少一个5' -连接子的序列与相邻3'-连接子的序列互补或相同或足够相似以允许杂交至互补寡核苷酸。在一些实施方案中，编码化学实体的至少10%(例如约20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、或者甚至100%)的连键是化学键。在其它实施方案中，编码化学实体的约10% 至约100%(例如20% 至100%、25% 至100%、50% 至100%、75% 至100%、90% 至100%、95% 至100%、10% 至95%、20% 至95%、25% 至95%、50% 至95%、75% 至95%、90% 至95%、10% 至90%、20% 至90%、25% 至90%、50% 至90%、或75% 至90%)的连键是化学键。

在一些实施方案中，化学反应性基团选自一对任选取代的炔基基团和任选取代的叠氮基基团；一对具有4 π-电子体系的任选取代的二烯和具有2 π-电子体系的任选取代的亲二烯体或任选取代的杂亲二烯体；一对亲核试剂和应变的杂环亲电子体；一对任选取代的氨基基团和醛或酮基团；一对任选取代的氨基基团和羧酸基团；一对任选取代的肼和醛或酮基团；一对任选取代的羟胺和醛或酮基团；一对亲核试剂和任选取代的烷基卤化物；铂复合物；烷基化试剂；或呋喃修饰的核苷酸。

在一些实施方案中，光反应性基团包括嵌入部分、补骨脂素衍生物、任选取代的氰乙烯基咔唑基团(例如，3-氰乙烯基咔唑基团，如3-氰乙烯基咔唑-1′-β-脱氧核苷-5′-三磷酸)、任选取代的乙烯基咔唑基团(例如，如本文所述的氨基乙烯基咔唑基团、羧基乙烯基咔唑基团、或C_2-7烷氧羰基乙烯基咔唑基团)、任选取代的氰乙烯基基团、任选取代的丙烯酰胺基团、任选取代的双吖丙啶(diazirine)基团、任选取代的二苯甲酮、或任选取代的叠氮基团。

在一些实施方案中，嵌入部分是补骨脂素衍生物(例如，补骨脂素、8-甲氧基补骨脂素或4-羟甲基-4,5,8-三甲基-补骨脂素(HMT-补骨脂素))、生物碱衍生物(例如，黄连素、巴马汀、甲氧檗因、血根碱(例如，其亚铵或烷醇胺形式、或马兜铃内酰胺-β-D-葡糖苷)、乙啡啶阳离子(例如溴化乙锭)、吖啶衍生物(例如，原黄素、吖啶黄或安吖啶)、蒽环类衍生物(例如，多柔比星、表柔比星、柔红霉素(道诺霉素)、伊达比星和阿柔比星)、或沙利度胺。

在一些实施方案中，化学键包括交联寡核苷酸，其中在交联寡核苷酸的5'-末端处的至少5个核苷酸的序列与在一个或多个标记的3' -末端处的至少5个核苷酸的序列互补或相同或足够相似以允许杂交至互补寡核苷酸，并且其中在交联寡核苷酸的3'-末端处的至少5个核苷酸的序列与在一个或多个标记的5'-末端处的至少5个核苷酸的序列互补或相同或足够相似以允许杂交至互补寡核苷酸。在特定实施方案中，一个或多个标记的3’-末端包括一个3’-连接子。在特定实施方案中，一个或多个标记的5’-末端包括一个5’-连接子。

在一些实施方案中，交联寡核苷酸的5'-末端和/或3'-末端包括可逆的共反应性基团(例如，如本文所述的氰乙烯基咔唑基团、氰乙烯基基团、丙烯酰胺基团、硫醇基团、或乙烯基砜基团)。

在一些实施方案中，3’-连接子和/或5’-连接子包括可逆的共反应性基团(例如，如本文所述的氰乙烯基咔唑基团、氰乙烯基基团、丙烯酰胺基团、硫醇基团、或乙烯基砜基团)。

在任何以上实施方案中，头片段、尾片段、第一标记、一个或多个另外的标记、文库识别标记、用途标记、和/或来源标记，如果存在的话，可包括约5个至约75个核苷酸(例如5至7个核苷酸、5至8个核苷酸、5至9个核苷酸、5至10个核苷酸、5至11个核苷酸、5至12个核苷酸、5至13个核苷酸、5至14个核苷酸、5至15个核苷酸、5至16个核苷酸、5至17个核苷酸、5至18个核苷酸、5至19个核苷酸、5至20个核苷酸、5至30个核苷酸、5至40个核苷酸、5至50个核苷酸、5至60个核苷酸、5至70个核苷酸、6至7个核苷酸、6至8个核苷酸、6至9个核苷酸、6至10个核苷酸、6至11个核苷酸、6至12个核苷酸、6至13个核苷酸、6至14个核苷酸、6至15个核苷酸、6至16个核苷酸、6至17个核苷酸、6至18个核苷酸、6至19个核苷酸、6至20个核苷酸、7至8个核苷酸、7至9个核苷酸、7至10个核苷酸、7至11个核苷酸、7至12个核苷酸、7至13个核苷酸、7至14个核苷酸、7至15个核苷酸、7至16个核苷酸、7至17个核苷酸、7至18个核苷酸、7至19个核苷酸、7至20个核苷酸、8至9个核苷酸、8至10个核苷酸、8至11个核苷酸、8至12个核苷酸、8至13个核苷酸、8至14个核苷酸、8至15个核苷酸、8至16个核苷酸、8至17个核苷酸、8至18个核苷酸、8至19个核苷酸、8至20个核苷酸、9至10个核苷酸、9至11个核苷酸、9至12个核苷酸、9至13个核苷酸、9至14个核苷酸、9至15个核苷酸、9至16个核苷酸、9至17个核苷酸、9至18个核苷酸、9至19个核苷酸、9至20个核苷酸、10至11个核苷酸、10至12个核苷酸、10至13个核苷酸、10至14个核苷酸、10至15个核苷酸、10至16个核苷酸、10至17个核苷酸、10至18个核苷酸、10至19个核苷酸、10至20个核苷酸、10至30个核苷酸、10至40个核苷酸、10至50个核苷酸、10至60个核苷酸、10至70个核苷酸、10至75个核苷酸、11至12个核苷酸、11至13个核苷酸、11至14个核苷酸、11至15个核苷酸、11至16个核苷酸、11至17个核苷酸、11至18个核苷酸、11至19个核苷酸、11至20个核苷酸、12至13个核苷酸、12至14个核苷酸、12至15个核苷酸、12至16个核苷酸、12至17个核苷酸、12至18个核苷酸、12至19个核苷酸、12至20个核苷酸、13至14个核苷酸、13至15个核苷酸、13至16个核苷酸、13至17个核苷酸、13至18个核苷酸、13至19个核苷酸、13至20个核苷酸、14至15个核苷酸、14至16个核苷酸、14至17个核苷酸、14至18个核苷酸、14至19个核苷酸、14至20个核苷酸、15至16个核苷酸、15至17个核苷酸、15至18个核苷酸、15至19个核苷酸、15至20个核苷酸、16至17个核苷酸、16至18个核苷酸、16至19个核苷酸、16至20个核苷酸、17至18个核苷酸、17至19个核苷酸、17至20个核苷酸、18至19个核苷酸、18至20个核苷酸、19至20个核苷酸、20至30个核苷酸、20至40个核苷酸、20至50个核苷酸、20至60个核苷酸、20至70个核苷酸、20至75个核苷酸、30至40个核苷酸、30至50个核苷酸、30至60个核苷酸、30至70个核苷酸、30至75个核苷酸、40至50个核苷酸、40至60个核苷酸、40至70个核苷酸、40至75个核苷酸、50至60个核苷酸、50至70个核苷酸、50至75个核苷酸、60至70个核苷酸、60至75个核苷酸、以及70至75个核苷酸)。在特定实施方案中，头片段、第一标记、第二标记、一个或多个另外的标记、文库识别标记、用途标记、和/或来源标记，如果存在的话，具有小于20个核苷酸的长度(例如小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸、或小于7个核苷酸)。

在任何以上实施方案中，编码序列(例如头片段、尾片段、第一标记、一个或多个另外的标记、文库识别标记、用途标记、和/或来源标记，如果存在的话)可包括多于20个核苷酸(例如多于25、30、35、40、45、50、55、60、65、70、或75个核苷酸)。

定义

“约”是指引用值的+/-10%。

“双官能”是指具有两个反应性基团，其允许结合两个化学部分。

“双官能间隔子”是指具有两个反应性基团的间隔部分，其允许结合化学实体并且编码复合物的信息。在一个非限制性示例中，在化学实体和标记之间提供双官能间隔子。在另一个非限制性示例中，在化学实体与头片段之间提供双官能间隔子。本文提供示例性双官能间隔子。

“结合”是指通过共价键或非共价键连接。非共价键包括通过范德华力、氢键、离子键、包埋或物理封装、吸收、吸附和/或其他分子间力形成的那些键。可以通过任何有用的方法完成结合，如通过酶促结合(例如，用于提供酶连接的酶促连接)或通过化学结合(例如，用于提供化学键的化学连接)。“连接”是指通过共价键连接。

“构件”是指化学实体的结构单元，其中单元直接连接至其它化学结构单元或通过支架间接地连接。当化学实体是聚合的或低聚的化学实体时，构件是聚合物或低聚物的单体单元。构件可以具有一个或多个多样性节点，其允许添加一个或多个其它构件或支架。在大多数情况下，每个多样性节点是能够与一个或多个构件或支架反应以形成化学实体的官能团。一般来讲，构件具有至少两个多样性节点(或反应性官能团)，但一些构件可以具有一个多样性节点(或反应性官能团)。另选地，所编码的化学或结合步骤可以包括若干化学组分(例如，多组分缩合反应或多步骤方法)。在两个不同构件上的反应性基团应是互补的，即，能够一起反应以形成共价或非共价键。

“化学实体”是指包括一个或多个构件、一个或多个支架、或用于可逆化固定的位点的化合物。化学实体可以是任何小分子、肽、核酸、肽药物、或候选药物，其被设计或制造以具有一个或多个期望特性，例如，结合生物靶标的能力、溶解度、氢键供体和受体的可用性、键的旋转自由度、正电荷、负电荷、或用于可逆化固定的位点。在某些实施方案中，化学实体可以进一步反应为双官能或三官能(或更多官能)的实体。

“化学反应性基团”是指参与模块化反应，因此产生键的反应性基团。示例性的反应和反应性基团包括选自以下的那些：具有一对任选取代的炔基基团和任选取代的叠氮基团的惠斯更(Huisgen)1,3-偶极环加成反应；具有一对具有4 π-电子体系的任选取代的二烯和具有2 π-电子体系的任选取代的亲二烯体或任选取代的杂亲二烯体的迪尔斯-阿尔德(Diels-Alder)反应；具有亲核试剂和应变的杂环亲电子体的开环反应；硫代磷酸酯基团和碘基团的夹板连接反应；和醛基基团和氨基基团的还原胺化反应，如本文所述。

“互补”是指如本文所定义的，序列能够杂交以形成二级结构(核酸分子的双链体或双链部分)。互补性不需要是完美的而是可以包括在一个、两个、三个或更多个核苷酸处的一个或多个错配。例如，互补序列可以包含核酸碱基，其可以形成根据沃森-克里克(Watson-Crick))碱基配对原则的氢键(例如，G与C、A与T或A与U)或其他氢键基序(例如，二氨基嘌呤与T、5-甲基C与G、2-硫代胸苷与A、肌苷与C、假异胞嘧啶与G)。序列和它的互补序列可存在于相同寡核苷酸或不同寡核苷酸中。

“复合物”或“连接的复合物”是指通过共价键或非共价键与化学实体和/或一个或多个寡核苷酸标记可操作地缔合的头片段。该复合物可以任选地包括在化学实体和头片段之间的双官能间隔子。

化学实体的“组分”是指支架或构件。

寡核苷酸标记的“连接子”是指在或靠近具有固定序列的5’-或3’-末端处的部分标记。5'-连接子位于或靠近寡核苷酸的5'-末端处，而3'-连接子位于或靠近寡核苷酸的3'-末端处。当存在于复合物中时，每个5'-连接子可以是相同或不同的，并且每个3'-连接子可以是相同或不同的。在具有多于一个标记的示例性的非限制性复合物中，每个标记可以包括5'-连接子和3'-连接子，其中每个5'-连接子具有相同的序列并且每个3'-连接子具有相同的序列(例如，其中5'-连接子的序列可与3'-连接子的序列相同或不同)。在另一个示例性、非限制性复合物中，5'-连接子的序列被设计成与3'-连接子的序列互补(例如，允许5'-连接子和3'-连接子之间的杂交)，如本文所定义。连接子可以任选地包括一个或多个允许键存在的基团(例如，对于其聚合酶具有降低的通读或移位通过能力的键，如化学键)。

“恒定”或“固定恒定”序列是指不编码信息的寡核苷酸的序列。具有恒定序列的复合物的非限制性、示例性的部分包括引物结合区、5’-连接子、或3’-连接子。本发明的头片段可以编码信息(因此为标记)或者另选地不编码信息(因此为恒定序列)。类似地，本发明的尾片段可以编码或不编码信息。

“交联寡核苷酸”是指寡核苷酸，如本文所定义，其可操作地缔合在复合物中两个相邻标记之间的特定结点处。在一个非限制性示例中，交联寡核苷酸的一个末端杂交至第一标记的3'-连接子，并且交联寡核苷酸的另一个末端杂交至相邻于第一标记的第二标记的5'-连接子。交联寡核苷酸的示例性、非限制性实施方式包括具有一个或多个反应性基团的那些(例如，化学反应性基团、光反应性基团、嵌入部分或可逆的共反应性基团、或任何本文所述的基团)，其可操作地与相邻标记或相邻标记的连接子缔合。

“多样性节点”是指在支架或构件中的位置处的官能团，其允许增加另一个构件。

“头片段”是指用于文库合成的化学结构，其可操作地连接至第一化学实体的组分、标记如起始寡核苷酸、以及包括用于可逆化固定的位点的第二化学实体。任选地，头片段可以包含很少的核苷酸或无核苷酸，但可以提供一个点，在该点处它们可被可操作地缔合。任选地，双官能间隔子将头片段连接至组分。

“杂交”是指在各种严格条件下配对以形成互补寡核苷酸之间的双链分子或其部分。(参见，例如Wahl，G. M.和S. L. Berger (1987) Methods Enzymol.152:399；Kimmel，A. R. (1987) Methods Enzymol.152:507.)例如，可以用以下盐浓度来获得高严格杂交，其通常小于约750mM NaCl和75mM柠檬酸三钠、小于约500mM NaCl和50mM柠檬酸三钠、或小于约250mM NaCl和25mM柠檬酸三钠。可以在不存在有机溶剂例如甲酰胺的条件下来获得低严格杂交，同时可以在至少约35% 甲酰胺或至少约50% 甲酰胺的存在下来获得高严格杂交。高严格杂交温度条件将通常包括至少约30℃、37℃或42℃的温度。改变另外的参数，如杂交时间、去污剂例如十二烷基硫酸钠(SDS)浓度和载体DNA的包含或排除是本领域技术人员所熟知的。通过根据需要组合这些不同条件来实现不同的严格水平。在一个实施方案中，杂交将发生在30℃，在750mM NaCl、75mM柠檬酸三钠和1% SDS中。在另选的实施方案中，杂交将发生在37℃，在500mM NaCl、50mM柠檬酸三钠、1% SDS、35% 甲酰胺和100μg/ml变性鲑精DNA(ssDNA)中。在其它另选的实施方案中，杂交将发生在42℃，在 250mM NaCl、25mM柠檬酸三钠、1% SDS、50% 甲酰胺和200μg/ml ssDNA中。关于这些条件的可用变化对于本领域技术人员将是显而易见的。

对于大多数应用而言，杂交之后的洗涤步骤也将在严格性方面变化。可以通过盐浓度和温度来限定洗涤严格条件。如上，可以通过降低盐浓度或通过增加温度来增加洗涤严格性。例如，用于洗涤步骤的高严格盐浓度可以是例如小于约30mM NaCl和3mM柠檬酸三钠或小于约15mM NaCl和1.5mM柠檬酸三钠。用于洗涤步骤的高严格温度条件将通常包括例如至少约25℃、42℃或68℃的温度。在一个实施方案中，洗涤步骤将发生在25℃，在30mMNaCl、3mM柠檬酸三钠和0.1% SDS中。在一个另选的实施方案中，洗涤步骤将发生在42℃，在15mM NaCl、1.5mM柠檬酸三钠和0.1% SDS中。在其它另选的实施方案中，洗涤步骤将发生在68℃，在15mM NaCl、1.5mM柠檬酸三钠和0.1% SDS中。关于这些条件的另外的变化对于本领域技术人员将是显而易见的。杂交技术是本领域技术人员所熟知的并且描述于例如Benton和Davis (Science 196:180，1977)；Grunstein和Hogness (Proc.Natl.Acad.Sci.，USA72:3961，1975)；Ausubel等人(Current Protocols in Molecular Biology，WileyInterscience，New York，2001)；Berger和Kimmel(Guide to Molecular CloningTechniques，1987，Academic Press，New York)；以及Sambrook等人，Molecular Cloning:ALaboratory Manual，Cold Spring Harbor Laboratory Press，New York。

“嵌入部分”是指产生包含两个或更多个核苷酸之间部分的反应性基团。在非限制性示例中，嵌入部分与一个或多个核苷酸反应以形成双链体或三链体寡核苷酸之间的链间或链内交联。在本文中描述示例性、非限制性嵌入部分。

“结点”是指复合物中两个相邻标记之间的缺口(缺少核苷酸间键)或空位(缺少一个或多个核苷酸)。结点也可以在存在于两个相邻标记中的两个相邻连接子之间(例如，在第一标记的3'-连接子和相邻于第一标记的第二标记的5'-连接子之间)。

“文库”是指分子或化学实体的集合。任选地，分子或化学实体结合至一个或多个寡核苷酸，其编码化学实体的分子或部分。

“键”是指化学连接实体，其允许可操作地缔合两个或更多个化学结构，其中键存在于头片段和一个或多个标记之间、两个标记之间、或标记和尾片段之间。化学连接实体可以是非共价键(例如，如本文所描述的)、共价键、或两个官能团之间的反应产物。“化学键”是指由两个官能团(如单磷酸和羟基)之间的非酶化学反应形成的键。示例性的非限制性官能团包括化学反应性基团、光反应性基团、嵌入部分或交联寡核苷酸(例如，如本文所述)。“酶连接”是指由酶形成的核苷酸间或核苷间连接(键)。示例性的非限制性酶包括激酶、聚合酶、连接酶、或它们的组合。“对于其聚合酶具有降低的通读或移位通过的能力”的键是指这样的键，当存在于寡核苷酸模板中时，与缺少该键的对照寡核苷酸相比，其提供降低量的由聚合酶延长和/或扩增产物。用于确定此类键的示例性的非限制性方法包括如由以下评估的引物延伸：PCR分析(例如定量PCR)、RT-PCR分析、液相色谱法-质谱法、序列群体统计或其他方法。示例性的非限制性聚合酶包括DNA聚合酶和RNA聚合酶，例如DNA聚合酶I、DNA聚合酶II、DNA聚合酶III、DNA聚合酶VI、Taq DNA聚合酶、Deep VentR™ DNA聚合酶(高保真嗜热性DNA聚合酶，可从New England Biolabs购得)、T7 DNA聚合酶、T4 DNA聚合酶、RNA聚合酶I、RNA聚合酶II、RNA聚合酶III、或T7 RNA聚合酶。

“多价阳离子”是指能够与多于一个配位体或阴离子形成多于一个键的阳离子。多价阳离子可以形成离子复合物或配位复合物。示例性多价阳离子包括来自碱土金属(例如，镁)和过渡金属(例如，锰(II)或钴(III))的那些和任选地结合至一个或多个阴离子和/或一个或多个一价或多配位基的配体如氯离子、胺和/或乙二胺的那些。

“寡核苷酸”是指具有5'-末端、3'-末端和在5'-和3'-末端之间的内部位置处的一个或多个核苷酸的核苷酸聚合物。寡核苷酸可以包括本领域中已知的DNA、RNA或它们的任何衍生物，其可合成并用于碱基对识别。寡核苷酸不必须具有连续碱基而是可以穿插有接头部分。寡核苷酸聚合物和核苷酸(例如，修饰的DNA或RNA)可包括天然碱基 (例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷或二氨基嘌呤)、碱基类似物(例如，2-氨基腺苷、2-硫代胸苷、肌苷、吡咯-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、和2-硫代胞苷)、修饰碱基(例如，2'-取代的核苷酸、如2'-0-甲基化的碱基和2'-氟代碱基)、嵌入碱基、修饰的糖(例如，2'-氟代核糖；核糖；2'-脱氧核糖；阿拉伯糖；己糖；脱水己糖醇；阿卓糖醇；甘露醇；环己基；环己烯基；也具有氨基磷酸酯主链的吗啉；锁核酸(LNA，例如其中核糖的2'-羟基由C_1-6亚烷基或C_1-6杂烷基桥连接至相同核糖的4'-碳，其中示例性桥接包括亚甲基、亚丙基、醚或氨基桥)；乙二醇核酸(GNA，例如， R-GNA或S-GNA，其中核糖由连接至磷酸二酯键的乙二醇单元取代)；苏糖核酸(TNA，其中用α-L-苏呋喃糖基-(3’→2’)取代)；和/或核糖中氧的取代(例如，以S、Se或亚烷基如亚甲基或亚乙基))、修饰的主链(例如，肽核酸(PNA)，其中2-氨基-乙基-甘氨酸键取代核糖和磷酸二酯主链)和/或修饰的磷酸酯基团(例如，硫代磷酸酯、5’-N-亚磷酰胺、硒代磷酸酯、硼代磷酸、硼代磷酸酯、氢膦酸酯、氨基磷酸酯、二氨基磷酸酯、烷基或芳基膦酸酯、磷酸三酯、桥接氨基磷酸酯、桥接硫代磷酸酯和桥接亚甲基-膦酸酯)。寡核苷酸可以是单链(例如，发夹结构)、双链或具有其它二级或三级结构(例如，茎-环结构、双螺旋、三链体、四链体等)。寡核苷酸也可包含一个或多个3’-3’或5’-5’键、或一个或多个倒置核苷酸。这可意味着它们包含两个3’-末端或两个5’-末端。寡核苷酸也可分支一次或多次，其中它们可包含多于两个末端。寡核苷酸也可发生环化，其中它们可包含少于两个末端并且可不含末端。

“结合对的一个成员”是指能够与其它互补化学实体形成用于可逆化固定的对的化学实体(例如核酸、肽、或小分子)。

“可操作地连接”或“可操作地缔合”是指两个或多个化学结构直接或间接地连接在一起，它们的连接方式使得它们经过预期经历的不同操作保持连接。典型地，化学实体和头片段可操作地以间接方式缔合(例如，经由适当间隔子共价缔合)。例如，间隔子可以是具有用于化学实体的连接位点和用于头片段的连接位点的双官能部分。

“磷酸二酯键”是指包括以下结构的键：或。

“膦酸酯键”是指包括以下结构的键：或。

“硫代磷酸酯键”是指包括以下结构的键：、、、或。

“光反应性基团”是指反应性基团，其参与由紫外线、可见光或红外线辐射的吸收引起的反应，因此形成键。在本文中描述示例性的非限制性光反应性基团。

“保护基团”是指在制备、加标记或使用寡核苷酸编码文库的一个或多个结合步骤中旨在保护寡核苷酸的3'-末端或5'-末端或保护化学实体、支架或构件的一个或多个官能团免于不期望的反应的基团。常用的保护基团在Greene，“Protective Groups in OrganicSynthesis,”第4版 (John Wiley & Sons，New York，2007)中公开，其以引用方式并入本文。用于寡核苷酸的示例性保护基团包括不可逆的保护基团，如双脱氧核苷酸和双脱氧核苷(ddNTP或ddN)，并且更优选地，用于羟基基团的可逆的保护基团，如酯基团(例如，O-甲氧基乙基)酯、O-异戊酰酯、和O-乙酰丙基酯)，三苯甲基基团(例如，二甲氧基三苯甲基和单甲氧基三苯甲基)、咕吨基基团(例如，9-苯基咕吨-9-基和9-(对-甲氧基苯基)咕吨-9-基)、酰基基团(例如，苯氧基乙酰基和乙酰基)和甲硅烷基基团(例如，叔丁基二甲基甲硅烷基)。用于化学实体、支架和构件的示例性的非限制性保护基团包括N-保护基团，其在合成过程中保护氨基基团免于不期望的反应 (例如酰基；芳酰基；氨基甲酰基团，如甲酰基、乙酰基、丙酰基、新戊酰基、叔丁基乙酰基、2-氯乙酰基、2-溴乙酰基、三氟乙酰基、三氯乙酰基、邻苯二甲酰基、邻-硝基苯氧乙酰基、α-氯丁酰基、苯甲酰基、4-氯苯甲酰基、4-溴苯甲酰基、4-硝基苯甲酰基和手性助剂，如保护或未受保护的D、L或D，L-氨基酸，如丙氨酸、亮氨酸、苯丙氨酸；含磺酰基的基团，如苯磺酰基、对-甲苯磺酰基等；氨基甲酸酯形成基团，如苄氧羰基、对-氯苄氧羰基、对-甲氧基苄氧羰基、对-硝基苄氧羰基、2-硝基苄氧羰基、对-溴苄氧羰基、3,4-二甲氧基苄氧羰基、3,5-二甲氧基苄氧羰基、2,4-二甲氧基苄氧羰基、4-甲氧基苄氧羰基、2-硝基-4,5-二甲氧基苄氧羰基、3,4,5-三甲氧基苄氧羰基、1-(对-联苯基)-1-甲基乙氧羰基、α,α-二甲基-3,5-二甲氧基苄氧羰基、二苯甲氧基羰基、叔丁氧羰基、二异丙基甲氧羰基、异丙氧基羰基、乙氧羰基、甲氧羰基、烯丙氧基羰基、2,2,2,-三氯乙氧羰基、苯氧羰基、4-硝基苯氧羰基、芴基-9-甲氧羰基、环戊氧基羰基、金刚烷氧羰基、环己氧基羰基、苯硫基羰基；烷芳基基团，如苄基、三苯甲基、苄氧甲基；和甲硅烷基基团，如三甲基甲硅烷基；其中优选的N-保护基团是甲酰基、乙酰基、苯甲酰基、新戊酰基、叔丁基乙酰基、丙氨酰基、苯基磺酰基、苄基、叔丁氧羰基(Boc)和苄氧羰基(Cbz))；在合成过程中保护羟基基团免于不期望的反应的O-保护基团(例如，烷基羰基基团，如酰基、乙酰基、新戊酰基；任选取代的芳基羰基基团，如苯甲酰基；甲硅烷基基团，如三甲基甲硅烷基(TMS)、叔丁基二甲基甲硅烷基(TBDMS)、三异丙基甲硅烷氧基甲基(T0M)、三异丙基甲硅烷基(TIPS)；与羟基形成醚的基团，如甲基、甲氧基甲基、四氢吡喃基、苄基、对-甲氧基苄基、二苯甲基；烷氧基羰基，如甲氧基羰基、乙氧基羰基、异丙氧基羰基、正-异丙氧基羰基、正-丁氧羰基、异丁氧羰基、仲丁氧羰基、叔丁氧羰基、2-乙基己氧羰基、环己氧羰基、甲氧羰基；烷氧烷氧羰基基团，如甲氧甲氧羰基、乙氧甲氧羰基、2-甲氧乙氧羰基、2-乙氧乙氧羰基、2-丁氧乙氧羰基、2-甲氧乙氧甲氧羰基、烯丙氧羰基、炔丙氧羰基、2-丁烯氧羰基、3-甲基-2-丁烯氧羰基；卤代烷氧基羰基，如2-氯乙氧羰基、2-氯乙氧羰基、2,2,2-三氯乙氧羰基；任选取代的芳基烷氧基羰基基团，如苄氧羰基、对-甲基苄氧羰基、对-甲氧基苄氧羰基、对-硝基苄氧羰基、2,4-二硝基苄氧羰基、3,5-二甲基苄氧羰基、对-氯苄氧羰基、对-溴苄氧羰基；和任选取代的芳氧羰基基团，如苯氧羰基、对-硝基苯氧羰基、邻-硝基苯氧羰基、2,4-二硝基苯氧羰基、对-甲基苯氧羰基、间-甲基苯氧羰基、邻-溴苯氧羰基、3,5-二甲基苯氧羰基、对-氯苯氧羰基、2-氯-4-硝基苯氧羰基)；羰基保护基团(例如，缩醛和缩酮基团，如二甲基缩醛、1,3-二氧戊环等；缩羰酯基团；和二噻烷基团，如1,3-二噻烷、1,3-二硫戊环)；羧酸保护基团(例如，酯基团，如甲酯、苄酯、叔丁酯、原酸酯；甲硅烷基基团，如三甲基甲硅烷基、以及任何本文所描述的基团；和噁唑啉基团)；和磷酸酯保护基团(例如，任选取代的酯基团，如甲酯、异丙酯、2-氰乙酯、烯丙酯、叔丁酯、苄酯、芴甲酯、2-(三甲基甲硅烷基)乙酯、2-(甲磺酰基)乙酯、2,2,2-三氯乙酯、3’,5’-二甲氧基苯偶姻酯、对-羟基苯甲酰酯)。

对寡核苷酸末端的“接近度(proximity)”或“接近(in proximity)”是指比其它剩余末端更邻近或更靠近于所述末端。例如，接近于寡核苷酸的3'-末端的部分或基团比5'-末端更邻近或更靠近于3'-末端。在特定实施方案中，接近于寡核苷酸的3'-末端的部分或基团距离3'-末端一个、二个、三个、四个、五个、六个、七个、八个、九个、十个、十五个或更多个核苷酸。在其它实施方案中，接近于寡核苷酸的5'-末端的部分或基团距离5'-末端一个、二个、三个、四个、五个、六个、七个、八个、九个、十个、十五个或更多个核苷酸。

“纯化”是指去除存在于反应混合物中的任何未反应的产物或任何试剂，其可能降低将要在连续步骤中使用的化学或生物试剂的活性。纯化可以包括要去除的未反应产物或试剂的一个或多个色谱分离、电泳分离和沉淀。纯化也可包括去除溶剂。

“可逆的共反应性基团”是指参与可逆反应的反应性基团。示例性的非限制性反应性基团包括光反应性基团，其中暴露于特定的吸收辐射引起光反应性基团之间形成键，并且暴露于不同的特定的吸收辐射引起所形成的键的断裂(例如，氰乙烯基咔唑基团、氰乙烯基基团和丙烯酰胺基团)。另一个示例性的非限制性反应性基团包括氧化还原反应性基团，其中此类基团可被可逆地还原或氧化(例如，硫醇基团)。

“可逆化固定”是指以以下方式固定复合物：该方式允许在温和条件下从载体中脱离(例如吸附、离子结合、亲和结合、螯合、二硫键形成、寡核苷酸杂交、小分子-小分子相互作用、可逆化学作用、蛋白质-蛋白质相互作用、和疏水相互作用)。

“支架”是指以特定的特殊几何形状显示一个或多个多样性节点的化学部分。在文库合成期间，多样性节点通常连接至支架，但在某些情况下，一个多样性节点可以在文库合成之前连接至支架(例如，添加一个或多个构件和/或一个或多个标记)。在一些实施方案中，支架被衍生，使得它可以在文库合成期间正交地去保护并且随后与不同的多样性节点反应。

“小分子”药物或“小分子”候选药物是指具有低于约1000道尔顿分子量的分子。小分子可以是有机或无机的、分离的(例如，来自化合物文库或天然来源)或通过已知化合物的衍生作用获得的。

“基本同一”或“基本相同”是指多肽或多核苷酸序列，其分别与参考序列具有相同的多肽或多核苷酸序列，或分别具有氨基酸残基或核苷酸的指定百分比，其当两个序列最佳对齐时在参考序列内的相应位置处是相同的。例如，“基本相同”于参考序列的氨基酸序列与参考氨基酸序列具有至少50%、60%、70%、75%、80%、85%、90%、95%、96%、 97%、98%、99% 或100% 的同一性。对于多肽，比较序列的长度一般为至少5、6、 7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续的氨基酸，更优选地至少25、50、75、90、100、150、200、250、300或350个连续的氨基酸，并且最优选全长氨基酸序列。对于核酸，比较序列的长度一般为至少5个连续的核苷酸，优选至少 10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个连续的核苷酸，并且最优选全长核苷酸序列。可以使用序列分析软件以默认设置来测量序列同一性(例如，Sequence Analysis Software Package of the Genetics ComputerGroup，University of Wisconsin Biotechnology Center, 1710University Avenue,Madison, WI53705)。此类软件可以通过对各种取代、缺失和其它修饰分配同源性程度匹配类似的序列。

“基本上”是指表现出所关注的特性或属性的完全或接近完全程度或度的定性状况。生物领域的普通技术人员将会理解生物和化学现象很少(如果有的话)完成和/或发展到完成或者取得或避免绝对结果。因此术语“基本上”本文用于涵盖在许多生物和化学现象中内在完成度的潜在缺失。

“标记”或“寡核苷酸标记”是指文库的寡核苷酸部分，其至少部分编码信息。此类信息的非限制性示例包括组分(即，支架或构件，如分别在支架标记或构件标记中)的添加(例如，通过结合反应)、文库中的头片段、文库的身份(即，如在身份标记中)、文库的用途(即，如在用途标记中)、和/或文库成员的来源(即，如在来源标记中)。标记组可任选地包含相同或几乎相同的质量标记，从而有利于通过质谱进行的文库分析评估。

“尾片段”是指文库的寡核苷酸部分，其在添加所有前述标记后连接至复合物并且编码文库的身份、文库的用途、和/或文库成员的来源。

“引物”是指寡核苷酸，其能够退火到寡核苷酸模板并且然后以模板依赖方式由聚合酶延伸。

从以下详细描述和权利要求书，本发明的其它特征和优点将显而易见。

附图说明

图1是示出双链发夹结构的图像，该发夹结构用作头片段寡核苷酸，其提供编码寡核苷酸标记和受保护的伯胺的两个化学连接的位点，用于合成共价连接的编码小分子。

图2是示出示例性连接反应进程的凝胶图像。

图3是示出示例性连接反应进程的两个LCMS迹线的图像。

图4A是示出受保护胺的去保护反应的图像。

图4B是示出去保护反应进程的凝胶图像。

图4C是示出去保护反应进程的LCMS迹线的图像。

图5A是HP006与1-氰基咪唑的反应产物的质谱图像。

图5B是示出HP006与1-氰基咪唑的反应的图像。

详细描述

编码化学实体

本发明特征在于制备编码化学实体的方法，所述编码化学实体包括化学实体、一个或多个标记、和可操作地缔合第一化学实体和一个或多个标记的头片段。下文进一步描述了化学实体、头片段、标记、键、和双官能间隔子。

化学实体

本发明的化学实体或成员(例如小分子或肽)可包括一个或多个构件并任选地包括一个或多个支架。

支架S可为单原子或分子支架。示例性的单原子支架包括碳原子、硼原子、氮原子或磷原子等。示例性的多原子支架包括环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。杂芳基支架的具体实施方案包括三嗪，例如1,3,5-三嗪、1,2,3-三嗪、或1,2,4-三嗪；嘧啶；吡嗪；哒嗪；呋喃；吡咯；吡咯啉；吡咯烷；噁唑；吡唑；异噁唑；吡喃；吡啶；吲哚；吲唑；或嘌呤。

可以通过任何可用的方法将支架S可操作地连接至标记。在一个示例中，S为直接连接至头片段的三嗪。为了得到这种示例性的支架，使三氯三嗪(即，具有三个氯的氯化三嗪前体)与头片段的亲核基团反应。使用这种方法，S具有可用于取代的有氯的三个位点，其中两个位点是可用的多样性节点且一个位点连接至头片段。接下来，将构件A_n添加至支架的多样性节点，并且将为构件A_n编码的标记A_n(“标记A_n”)连接至头片段，其中可以以任何顺序进行这两个步骤。然后，可以将构件B_n添加至剩余的多样性节点，并且将为构件B_n编码的标记B_n连接至标记A_n的端部。在另一个示例中，S为可操作性地连接至标记的三嗪，其中使三氯三嗪与PEG、标记的脂肪族或芳香族接头的亲核基团(例如，氨基)反应。如上所述，可以添加构件及缔合的标记。

在另一个示例中，S是可操作性地连接至构件A_n的三嗪。为了获得这种支架，使具有两个多样性节点(例如，亲电基团和亲核基团，如Fmoc-氨基酸)的构件A_n与接头的亲核基团(例如，连接至头片段的PEG、脂肪族或芳香族接头的末端基团)反应。然后，使三氯三嗪与构件A_n的亲核基团反应。使用这种方法，S的所有三个氯位点都被用作构件的多样性节点。如本文所述，可以添加另外的构件和标记，并且可以添加另外的支架S_n。

示例性的构件A_n’包括例如氨基酸(例如α-、β-、Y-、δ-和ε-氨基酸，以及天然和非天然氨基酸的衍生物)、具有胺的化学反应性反应物(例如，叠氮化物或炔烃链)、或硫醇反应物、或它们的组合。构件A_n的选择取决于例如接头中使用的反应性基团的性质、支架部分的性质、和用于化学合成的溶剂。

示例性的构件B_n’和C_n’包括化学实体的任何有用的结构单元，如任选取代的芳香族基团(例如，任选取代的苯基或苄基)、任选取代的杂环基团(例如，任选取代的喹啉基、异喹啉基、吲哚基、异吲哚基、氮杂吲哚基、苯并咪唑基、氮杂苯并咪唑基、苯并异噁唑、吡啶基、哌啶基或吡咯烷基)、任选取代的烷基(例如，任选取代的直链或支链的C_1-6烷基或任选取代的C_1-6氨基烷基)、或任选取代的碳环基团(例如，任选取代的环丙基、环己基或环己烯基)。特别有用的构件B_n’和C_n’包括具有一个或多个反应性基团的那些，例如具有一个或任选地是反应性基团或者可以被化学修饰以形成反应性基团的取代基的任选取代的基团(例如，任何本文所述的)。示例性的反应性基团包括胺(-NR₂，其中每个R独立地为H或任选取代的C_1-6烷基)、羟基、烷氧基(-0R，其中R是任选取代的C_1-6烷基，如甲氧基)、羧基(-C00H)、酰胺或化学反应性的取代基中的一个或多个。例如，可以在标记B_n或C_n中导入限制性位点，其中可以通过进行PCR并用相应的限制性内切酶之一限制性消化来识别复合物。

用于可逆化固定的位点

在一些实施方案中，编码化学实体任选地包括用于可逆化固定的位点。可逆化固定可用于促进在编码文库的拆分-混合合成期间的缓冲液交换和试剂/污染物去除。例如，在用于将构件添加至第一化学实体的化学反应后，复合物可发生可逆化固定。随后可去除多余的试剂和溶剂，加入用于连接反应的试剂和溶剂，并且然后可从载体中分离复合物。这种方法结合了固相合成的优点，例如易于纯化和/或去除与后续步骤不相容的溶剂和试剂，同时允许在溶液中、或者当新生文库发生可逆化固定时进行用于构建文库和寡核苷酸标记的步骤。

示例性的可逆化固定策略包括：寡核苷酸杂交，其包括取代的寡核苷酸(2’-修饰、PNA、LNA等)，包括双链和三链；寡核苷酸-离子交换相互作用(例如DEAE-纤维素)；小分子-小分子相互作用(例如金刚烷-环糊精)；可逆化学作用(例如二硫键形成)；可逆光化学作用(例如氰乙烯基尿苷光交联)；可逆化学交联(例如外源加入的反应性实体)；固定金属亲和色谱(例如带有His₆的固定Ni-NTA)；抗体-表位相互作用(例如固定抗-FLAG抗体和FLAG肽)；蛋白-蛋白相互作用；蛋白-小分子相互作用(例如固定链霉亲和素与亚氨基生物素或固定麦芽糖-结合蛋白和麦芽糖)；可逆寡核苷酸连接(例如连接限制性内切后的dsDNA，随后进行限制性内切)；以及疏水相互作用(例如氟标记和疏水表面)。在一些实施方案中，用于可逆化固定的位点包括本文所述的任何可逆化固定策略的结合对的一个成员，例如核酸、肽、或小分子。

头片段

在一个编码化学实体中，头片段将每个化学实体可操作地连接至它的编码寡核苷酸标记。一般来讲，头片段是具有至少两个可以进一步衍生的官能团的起始寡核苷酸，其中第一官能团将第一化学实体(或其组分)可操作地连接至头片段，并且第二官能团将头片段的一个或多个标记可操作地连接至头片段。双官能间隔子可以任选地用作头片段和化学实体之间的间隔部分。

头片段的官能团可以用于形成与化学实体组分的共价键和与标记的另一个共价键。该组分可以是小分子的任何部分，如具有多样性节点或构件的支架。另选地，头片段可以被衍生以提供终止于官能团(例如，羟基、胺、羧基、巯基、炔基、叠氮基或磷酸基团)中的间隔子(例如将头片段与将要在文库中形成的小分子分开的间隔部分)，其用于形成与化学实体组分的共价键。间隔子可在其中一个内部位点处连接至头片段的5'-末端、或3'-末端。当间隔子连接至其中一个内部位点时，间隔子可以使用本领域中已知的标准技术可操作地连接至衍生的碱基(例如，尿苷的C5位点)或内部放置在寡核苷酸内。本文描述示例性间隔子。

头片段可以具有任何有用的结构。头片段可以是，例如，1至100个核苷酸的长度，优选5至20个核苷酸的长度，并且最优选5至15个核苷酸的长度。如本文所述，头片段可以是单链或双链的，并且可由天然或修饰的核苷酸组成。例如，化学部分可操作地连接至头片段的3'-末端或5'-末端。在特定实施方案中，头片段包括由序列内的互补碱基形成的发夹结构。例如，化学部分可以可操作地连接至头片段的内部位点、3'-末端或5'-末端。

一般来讲，头片段包括5'-或3'-末端上的非自身互补序列，其允许通过聚合、酶促连接或化学反应结合寡核苷酸标记。头片段可以允许寡核苷酸标记的连接和任选的纯化和磷酸化步骤。在添加最后标记之后，另外的衔接子序列可添加至最后标记的5'-末端。示例性衔接子序列包括引物结合序列或具有标记(例如，生物素)的序列。在其中使用许多构件和相应标记的情况下(例如100个)，可以在寡核苷酸合成步骤期间采用混合-拆分策略以形成所需数量的标记。用于DNA合成的此类混合-拆分策略是本领域中已知的。可以通过PCR扩增所得文库成员，随后选择感兴趣的靶标的结合实体。

头片段或复合物可以任选地包括一个或多个引物结合序列。例如，头片段具有发夹环区中的序列，其用作用于扩增的引物结合区，其中引物结合区具有比头片段中的序列更高的用于其互补引物(例如，其可以包括侧接的标识符区域)的解链温度。在其它实施方案中，复合物包括在一个或多个标记(其编码一个或多个构件)两侧上的两个引物结合序列(例如，使得可以发生PCR反应)。另选地，头片段可在5’-或3’-末端上含有一个引物结合序列。在其它实施方案中，头片段是发夹，并且环区形成引物结合位点或该引物结合位点通过寡核苷酸的杂交而被引入头片段的环的3’侧上。可以将包含与头片段的3’-末端的区同源并且在其5’-末端上携带有引物结合区(例如使得PCR反应可行)的引物寡核苷酸杂交到头片段上，并且该引物寡核苷酸可包含编码构件或添加构件的标记。该引物寡核苷酸可以包含另外的信息，例如随机核苷酸区域，例如2至16个核苷酸的长度，其包括在内用于生物信息学分析。

头片段可任选地包括发夹结构，其中这种结构可以通过任何可用的方法来实现。例如，头片段可以包括互补碱基，其形成分子间碱基配对伙伴，例如通过沃森-克里克(Watson-Crick)碱基配对(例如腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶)和/或通过摆动碱基配对(例如鸟嘌呤-尿嘧啶、肌苷-尿嘧啶、肌苷-腺嘌呤和肌苷-胞嘧啶)。在另一个示例中，头片段可以包括修饰的或取代的核苷酸，与未修饰的核苷酸相比，修饰的或取代的核苷酸可以形成更高亲和力的双链体形成物，此类修饰的或取代的核苷酸在本领域中是已知的。在另一个示例中，头片段包括一个或多个交联的碱基以形成发夹结构。例如，可以例如通过使用补骨脂素将单链内的碱基或不同双链中的碱基交联。

头片段或复合物可以任选地包括一个或多个用于检测的标记。例如，头片段、一个或多个寡核苷酸标记、和/或一个或多个引物序列可以包括同位素、放射性成像剂、标志物、示踪物、荧光标记(例如，罗丹明或荧光素)、化学发光标记、量子点或报告分子(例如生物素或组氨酸标签)。

在其它实施方案中，可修饰头片段或标记以支持在半水性、降低水性或非水性(例如有机)条件下的溶解度。可以通过使用脂肪链修饰例如T或C碱基的C5位置，使得头片段或标记的核苷酸碱基的疏水性更强，并且不显著破坏它们与它们的互补碱基形成氢键的能力。示例性的修饰或取代的核苷酸是5’-二甲氧三苯甲基-N4-二异丁基氨基甲叉基-5-(1-丙炔基)-2’-脱氧胞苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧三苯甲基-5-(1-丙炔基)-2’-脱氧尿苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5’-二甲氧三苯甲基-5-氟-2’-脱氧尿苷、3’- [(2-氰乙基)-(N,N- 二异丙基)]-亚磷酰胺；和5’-二甲氧三苯甲基-5-(芘-1-基-乙炔基)-2’-脱氧尿苷、或3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。

此外，头片段寡核苷酸可以穿插有提高在有机溶剂中的溶解度的修饰。例如，偶氮苯亚磷酰胺可以将疏水部分导入至头片段的设计中。疏水性酰胺化物向头片段的此类插入可以发生在分子的任何位置。然而，如果用于标记去卷积，该插入不能干扰后续在文库合成期间使用另外DNA标记的标记或随后选择一旦完成后的PCR或微阵列分析。向本文所述的头片段设计中的此类添加可以使得该头片段可溶于例如15%、25%、30%、50%、75%、90%、95%、98%、99% 或100% 的有机溶剂中。因此，向头片段设计中添加的疏水残基得到了在半水性或非水性(例如有机)条件下的改善的溶解度，同时使得头片段能够用于寡核苷酸标记。另外，随后导入文库中的DNA标记也可以在T或C碱基的C5位点进行修饰，使得它们还致使文库更加疏水并且可溶于用于文库合成的随后步骤的有机溶剂中。

在特定实施方案中，头片段和第一标记可以是相同的实体，即，可以构建多个头片段-标记实体，它们均共享通用部分(例如，引物结合区)并且均在另一部分上(例如，编码区)不同。它们可用于“拆分”步骤并且在它们编码的事件已经发生后将它们汇集。

在特定实施方案中，头片段可以编码信息，例如通过包括编码第一拆分步骤的序列或编码文库的身份的序列，如通过使用与特定文库相关的特定序列。

寡核苷酸标记

本文所述的寡核苷酸标记(例如，标记或部分头片段或部分尾片段)可以用来编码任何有用的信息，例如分子、化学实体的一部分、组分(例如支架或结构单元)的添加、文库中的头片段、文库的身份、一个或多个文库成员的用途(例如，文库的等分试样的成员的用途)、和/或文库成员的来源(例如，通过使用来源序列)。

可以使用寡核苷酸中的任何序列来编码任何信息。因此，一个寡核苷酸序列可以用于多个目的，例如用于编码两种或更多种类型的信息或用于提供也为一种或多种类型的信息编码的起始寡核苷酸。例如，第一标记可以为第一构件的添加以及文库的识别编码。在另一个示例中，头片段可以用来提供可操作性地将化学实体连接至标记的起始寡核苷酸，其中该头片段另外地包括为文库的身份编码的序列(例如，文库识别序列)。因此，本文所述的任何信息都可以在单独的寡核苷酸标记中编码或可以被组合并在相同的寡核苷酸序列中(例如，寡核苷酸标记，如标记或头片段)编码。

构件序列为构件的身份和/或使用构件进行的结合反应的类型编码。这种构件序列包括于标记中，其中该标记可以任选地包括以下所述的一种或多种类型的序列(例如文库识别序列、用途序列和/或来源序列)。

文库识别序列为特定文库的身份进行编码。为了允许混合两个或多个文库，文库成员可以含有一个或多个文库识别序列，如在文库识别标记中(即，包括文库识别序列的寡核苷酸)、在连接的标记中、在头片段序列的一部分中、或在尾片段序列中。这些文库识别序列可以用来推导编码关系，其中标记的序列被翻译并且与化学(合成)历史信息相关联。因此，这些文库识别序列允许将两个或更多个文库混合在一起以用于选择、扩增、纯化、测序等。

用途序列编码文库中的个别等分试样中的一个或多个文库成员的历史(即，用途)。例如，可以用不同的反应条件、构件和/或选择步骤来处理单独的等分试样。具体地，这种序列可以用来识别此种等分试样并且推断它们的历史(用途)，并因此允许将具有不同历史(用途)(例如，不同的选择实验)的相同文库的等分试样混合在一起，用于将样品混合在一起用于一起用于选择、扩增、纯化、测序等目的。这些用途序列可以包括于头片段、尾片段、标记、用途标记(即包括用途序列的寡核苷酸)或本文所述的任何其它标记(例如，文库识别标记或来源标记)中。

来源序列是任何有用长度(例如约六个寡核苷酸)的简并(随机生成的)寡核苷酸序列，其为文库成员的来源编码。这种序列用于将在所有方面否则都相同的文库成员随机细分为通过序列信息可以区别的实体，使得源自特有祖代模板(例如，选定的文库成员)的扩增产物的观测能够区别于源自相同祖代模板(例如，选定的文库成员)的多重扩增产物的观测。例如，在文库形成后且在选择步骤之前，每个文库成员可以包括不同的来源序列，例如在来源标记中。在选择后，可以将选定的文库成员进行扩增以产生扩增产物，并且可以观察到预计包括来源序列(例如，在来源标记中)的部分文库成员并且可以将其与每一个其它文库成员中的来源序列进行比较。由于来源序列是简并的，所以每个文库成员的每种扩增产物应该有不同的来源序列。然而，在扩增产物中相同来源序列的观测可指示衍生自相同模板分子的多个扩增子。当期望在扩增前而不是扩增后确定编码标记的群体的统计数字和统计数据时，可以使用来源标记。这些来源序列可以包括在头片段、尾片段、标记、来源标记(即，包括来源序列的寡核苷酸)或本文所述的任何标记(例如，文库识别标记或用途标记)中。

本文所述的任何类型的序列可以包括在头片段中。例如，头片段可以包括构件序列、文库识别序列、用途序列或来源序列中的一种或多种。

任何本文所述的这些序列都可以包括在尾片段中。例如，尾片段可以包括文库识别序列、用途序列、或来源序列中的一种或多种。

本文所述的任何标记可以包括在具有固定序列的5'-或3'-末端处或接近于具有固定序列的5'-或3'-末端的连接子。通过提供反应性基团(例如，化学反应性基团或光反应性基团)或通过提供用于允许形成键的试剂(例如，在连接子或交联寡核苷酸中嵌入部分或可逆反应性基团的试剂)的位点，连接子促进键(例如，化学键)的形成。每个5'-连接子可以是相同的或不同的，并且每个3'-连接子可以是相同的或不同的。在具有多于一个标记的示例性的非限制性复合物中，每个标记可以包括5'-连接子和3'-连接子，其中每个5'-连接子具有相同的序列并且每个3'-连接子具有相同的序列(例如，其中5'-连接子的序列可与3'-连接子的序列相同或不同)。连接子提供可以用于一个或多个键的序列。为了允许结合传递引物或杂交交联寡核苷酸，连接子可以包括允许键形成的一个或多个官能团(例如，对于其聚合酶具有降低的通读或移位通过能力的键，如化学键)。

这些序列可以包括本文所述的用于寡核苷酸的任何修饰，如一个或多个修饰，其促进在有机溶剂中的溶解度(例如，任何本文所述的，如用于头片段)、其提供天然磷酸二酯键的类似物(例如，硫代磷酸酯类似物)、或其提供一个或多个非天然寡核苷酸(例如，2'-取代的核苷酸，如2'-O-甲基化核苷酸和2'-氟核苷酸，或任何本文所述的核苷酸)。

这些序列可以包括本文所述的用于寡核苷酸的任何特征。例如，这些序列可以包括在小于20个核苷酸的标记中(例如如本文所述的标记)。在其它示例中，包括一个或多个这些序列的标记具有大约相同的质量(例如，每个标记都有与特定标记组(其编码特定的变量)内的平均质量相差约+/-10% 的质量)；缺少引物结合(例如，恒定)区；缺少恒定区；或具有降低长度的恒定区(例如，长度小于30个核苷酸、小于25个核苷酸、小于20个核苷酸、小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于 10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)。

用于该长度的文库和寡核苷酸的测序策略可以任选地包括分别增加读取保真度或测序深度的串接(concatenation)或连锁(catenation)策略。特别是，已在对于SELEX的文献中描述选择缺少引物结合区的编码文库，如Jarosch等人，Nucleic Acids Res.34:e86 (2006) 中所描述的，其以引用方式并入本文。例如，可以修饰(例如，在选择步骤之后)文库成员以包括在复合物的5'-末端上的第一衔接子序列和在复合物的3'-末端上的第二衔接子序列，其中第一序列基本上互补于第二序列且引起形成双链体。为了进一步提高产量，将两个固定悬挂核苷酸(例如CC)添加至5'-末端。

键

本发明键存在于编码信息的寡核苷酸之间(例如存在于头片段和标记之间、两个标记之间、或标记和尾片段之间)。示例性的键包括磷酸二酯键、膦酸酯键、和硫代磷酸酯键。在一些实施方案中，聚合酶具有降低的通读或移位通过一个或多个键的能力。在某些实施方案中，化学键包括一个或多个化学反应性基团，诸如单磷酸和/或羟基、光反应性基团、嵌入部分、交联寡核苷酸、或可逆的共反应性基团。

可以测试键以确定聚合酶是否具有降低的通读或移位通过该键的能力。可以通过任何可用的方法测试这种能力，如液相色谱法-质谱法、RT-PCR分析、序列群体统计、和/或PCR分析。

在一些实施方案中，化学连接包括使用一个或多个化学反应对以提供键，例如单磷酸和羟基。如本文所述，可读键可通过化学连接合成，例如，通过在存在氰基咪唑和二价金属源(例如ZnCl₂)的情况下，在5’-或3’-末端上的单磷酸、单硫代磷酸、或单膦酸与在5’-或3’-末端上的羟基的反应。

其它示例性化学反应对是这样的对：其包括任选取代的炔基基团和任选取代的叠氮基团、经由惠斯更(Huisgen)1,3-偶极环加成反应以形成三唑；具有4 π-电子体系的任选取代的二烯(例如，任选取代的1,3-不饱和化合物，如任选取代的1,3-丁二烯、1-甲氧基-3-三甲基甲硅烷基-1,3-丁二烯、环戊二烯、环己二烯或呋喃)和具有2 π-电子体系的任选取代的亲二烯体或任选取代的杂亲二烯体(例如，任选取代的烯基基团或任选取代的炔基基团)、经由迪尔斯-阿尔德(Diels-Alder)反应以形成环烯；具有应变的杂环亲电子体(例如，任选取代的环氧化物、氮丙啶、吖丙啶离子或表硫鎓离子)的亲核试剂 (例如，任选取代的胺或任选取代的硫醇)、经由开环反应以形成杂烷基；具有碘基团的硫代磷酸酯基团，如在包含5'-碘dT的寡核苷酸与3'-硫代磷酸酯寡核苷酸的夹板连接中；任选取代的氨基基团与醛基团或酮基团的反应，如3'-醛修饰的寡核苷酸(其可任选地通过氧化市售获得的3'-甘油基修饰的寡核苷酸来获得)与5'-氨基寡核苷酸(即，在还原胺化反应中)或5'-肼寡核苷酸的反应；任选取代的氨基基团和羧酸基团或硫醇基团 (例如，有或没有使用反式-4-(马来酰亚胺甲基)环己烷-1-甲酸琥珀酰亚胺酯(SMCC)或1-乙基-3-(3-二甲氨基丙基)碳二亚胺(EDAC)的对；任选取代的肼和醛或酮基团的对；任选取代的羟胺和醛或酮基团的对；或亲核试剂和任选取代的烷基卤化物的对。

铂复合物、烷基化试剂或呋喃修饰的核苷酸也可用作化学反应性基团以形成链间或链内键。可以在两个寡核苷酸之间使用此类试剂，并且其可以任选地存在于交联寡核苷酸中。

示例性的非限制性铂复合物包括顺铂(顺式-二胺二氯铂(II)，例如，以形成GG链内键)、反铂(反式-二胺二氯铂(II)，例如，以形成GXG链间键，其中X可以是任何核苷酸)、卡铂、吡铂(ZD0473)、奥马铂、或奥沙利铂以形成例如GC、CG、AG或GG键。任何这些键可以是链间或链内键。

示例性的非限制性烷基化试剂包括氮芥(二氯甲二乙胺(，例如用于形成GG键)、苯丁酸氮芥、美法仑、环磷酰胺、环磷酰胺的前药形式(例如，4-氢过氧基环磷酰胺和异环磷酰胺))、1,3-双(2-氯乙基)-1-亚硝基脲(BCNU、卡莫司汀)、氮丙啶(例如，丝裂霉素C、三乙撑密胺或三乙撑硫代磷酰胺(硫替派)以形成GG或AG键)、六甲密胺、烷基磺酸酯(例如，白消安以形成GG键)或亚硝基脲(例如，2-氯亚硝脲以形成GG或CG键，如卡莫司汀(BCNU)、氯脲霉素、洛莫司汀(CCNU)和司莫司汀(甲基-CCNU))。任何这些键可以是链间或链内键。

呋喃修饰的核苷酸也可以用于形成键。一旦原位氧化(例如，用N-溴代琥珀酰亚胺(NBS))，呋喃部分形成反应性氧代烯醛衍生物，其与互补碱基反应以形成链间键。在一些实施方案中，呋喃修饰的核苷酸与互补A或C核苷酸形成键。示例性的非限制性呋喃修饰的核苷酸包括任何2'-(呋喃-2-基)丙酰基氨基-修饰的核苷酸；或2-(呋喃-2-基)乙基二醇核酸的无环修饰的核苷酸。

光反应性基团也可用作反应性基团。示例性的非限制性光反应性基团包括嵌入部分、补骨脂素衍生物(例如，补骨脂素、HMT-补骨脂素或8-甲氧基补骨脂素)、任选取代的氰乙烯基咔唑基团、任选取代的乙烯基咔唑基团、任选取代的氰乙烯基基团、任选取代的丙烯酰胺基团、任选取代的双吖丙啶基团、任选取代的二苯甲酮(例如，4-苯甲酰基苯甲酸的琥珀酰亚胺酯或二苯甲酮异硫氰酸酯)、任选取代的5-(羧基)乙烯基尿苷基团(例如，5-(羧基)乙烯基-2'-脱氧尿苷)、或任选取代的叠氮基团(例如，芳基叠氮或卤代芳基叠氮，如4-叠氮基-2,3,5,6-四氟苯甲酸(ATFB)的琥珀酰亚胺酯)。

嵌入部分也可用作反应性基团。示例性的非限制性嵌入部分包括补骨脂素衍生物、生物碱衍生物(例如，黄连素、巴马汀、甲氧檗因、血根碱(例如，其亚铵或烷醇胺形式、或马兜铃内酰胺-β-D-葡糖苷)、乙啡啶阳离子(例如溴化乙锭)、吖啶衍生物(例如，原黄素、吖啶黄或安吖啶)、蒽环类衍生物(例如，多柔比星、表柔比星、柔红霉素(道诺霉素)、伊达比星和阿柔比星)、或沙利度胺。

对于交联寡核苷酸，可以使用任何可用的反应性基团(例如，本文所述的基团)以形成链间或链内键。示例性反应性基团包括化学反应性基团、光反应性基团、嵌入部分和可逆的共反应性基团。用于与交联寡核苷酸一起使用的交联试剂包括但不限于烷基化试剂(例如，如本文所述的试剂)、顺铂(顺式-二胺二氯铂(II))、反式-二胺二氯铂(II)、补骨脂素、HMT-补骨脂素、8-甲氧基补骨脂素、呋喃修饰的核苷酸、2-氟-脱氧肌苷(2-F-dI)、5-溴-脱氧胞苷(5-Br-dC)、5-溴-脱氧尿苷(5-Br-dU)、5-碘-脱氧胞苷(5-I-dC)、 5-碘-脱氧尿苷(5-I-dU)、反式-4-(马来酰亚胺甲基)环己烷-1-甲酸琥珀酰亚胺酯、SMCC、EDAC、或乙酰基硫代乙酸琥珀酰亚胺基酯(SATA)。

寡核苷酸也可被修饰以包含硫醇部分，其可与各种硫醇反应性基团如马来酰亚胺、卤素、碘乙酰胺反应，因此可以用于使两个寡核苷酸交联。硫醇基团可连接至寡核苷酸的5'-或3'-末端。

对于在嘧啶(例如，胸苷)位置处的双链寡核苷酸之间的链间交联，可以选择嵌入的光反应部分补骨脂素。在用紫外光(约254nm)的照射时，补骨脂素嵌入到双链体中并且与嘧啶形成共价链间交联，优选在5'-TpA位点处。补骨脂素部分可以共价连接至修饰的寡核苷酸(例如，通过烷烃链，如C_1-10烷基或聚乙二醇基团，如–(CH₂CH₂O)_nCH₂CH₂-，其中n是1至50的整数)。也可以使用示例性补骨脂素衍生物，其中非限制性衍生物包括4'-(羟基乙氧基甲基)-4,5’,8-三甲基补骨脂素(HMT-补骨脂素)和8-甲氧基补骨脂素。

可以修饰交联寡核苷酸的各个部分以引入键。例如，寡核苷酸中的末端硫代磷酸酯也可以用于使两个相邻的寡核苷酸连接。卤代尿嘧啶/胞嘧啶也可用作寡核苷酸中的交联剂修饰。例如，2-氟-脱氧肌苷(2-F-dI)修饰的寡核苷酸可与含二硫化物的二胺或硫丙基胺反应以形成二硫化物键。

如下所述，可逆的共反应性基团包括选自以下的那些：氰乙烯基咔唑基团、氰乙烯基基团、丙烯酰胺基团、硫醇基团、或磺酰乙基硫醚。任选取代的氰乙烯基咔唑(CNV)基团也可用在寡核苷酸中以在互补链中交联到嘧啶碱基(例如，胞嘧啶、胸腺嘧啶和尿嘧啶、以及它们的修饰的碱基)。在366nm下照射后，CNV基团促进与相邻嘧啶碱基的[2+2]环加成，其引起链间交联。在312nm下照射逆转交联并由此提供用于寡核苷酸链的可逆交联的方法。非限制性CNV基团是3-氰乙烯基咔唑，其可以包括为羧基乙烯基咔唑核苷酸(例如，作为3-羧基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)。

可以修饰CNV基团以用另一个反应性基团取代反应氰基团以提供任选取代的乙烯基咔唑基团。对于乙烯基咔唑基团的示例性非限制性反应性基团包括-CONR_N1R_N2的酰胺基团，其中每个R_N1和R_N2可以是相同或不同的，并且独立地为H和C_1-6烷基，例如-CONH₂；-CO₂H的羧基基团；或C_2-7烷氧基羰基基团(例如，甲氧基羰基)。此外，反应性基团可位于乙烯基基团的α或β碳上。示例性乙烯基咔唑基团包括如本文所述的氰乙烯基咔唑基团；氨基乙烯基咔唑基团(例如，氨基乙烯基咔唑核苷酸，如3-氨基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)；羧基乙烯基咔唑基团(例如，羧基乙烯基咔唑核苷酸，如3-羧基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)；和C_2-7烷氧基羰基乙烯基咔唑基团(例如，烷氧基羰基乙烯基咔唑核苷酸，如3-甲氧羰基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)。具有此类基团的另外的任选取代的乙烯基咔唑基团和核苷酸提供在美国专利7,972,792和Yoshimura与Fujimoto，Org.Lett.10:3227-3230(2008)的化学式中，其均据此全文以引用方式并入本文。

其它可逆反应性基团包括硫醇基团和另一个硫醇基团以形成二硫化物，以及硫醇基团和乙烯基砜基团以形成磺酰乙基硫醚。硫醇-硫醇基团可以任选地包括由具有双-((N-碘乙酰基)哌嗪基)磺酰罗丹明的反应形成的键。其它可逆反应性基团(例如，如某些光反应性基团)包括任选取代的二苯甲酮基团。非限制性示例是二苯甲酮尿嘧啶(BPU)，其可以用于含BPU寡核苷酸双链体的链间交联的位点选择性形成和序列选择性形成。在加热时可以逆转该交联，提供用于两个寡聚核苷酸链的可逆交联的方法。

在其它实施方案中，化学连接包括引入磷酸二酯键的类似物，例如，用于选择后PCR分析和测序。磷酸二酯的示例性类似物包括硫代磷酸酯键(例如，如通过使用硫代磷酸酯基团和离去基团如碘基团所引入的键)、磷酰胺键或二硫代磷酸酯键(例如，如通过使用二硫代磷酸酯基团和离去基团如碘基团所引入的键)。

对于本文所述的任何基团(例如，化学反应性基团、光反应性基团、嵌入部分、交联寡核苷酸或可逆的共反应性基团)，该基团可以在寡核苷酸的末端处或接近于寡核苷酸的末端或在5'-和3'-末端之间掺入。此外，一个或多个基团可存在于每个寡核苷酸中。当需要反应性基团对时，则寡核苷酸可以被设计成促进基团对之间的反应。在与嘧啶碱基共反应的氰乙烯基咔唑基团的非限制性示例中，第一寡核苷酸可以被设计成包括在5'-末端处或接近于5'-末端的氰乙烯基咔唑基团。在这个示例中，第二寡核苷酸可以被设计成与第一寡核苷酸互补并包括在当第一和第二寡核苷酸杂交时与氰乙烯基咔唑基团对齐的位点处的共反应嘧啶碱基。本文的任何基团和具有一个或多个基团的任何寡核苷酸可以被设计成促进基团之间的反应以形成一个或多个键。

双官能间隔子

可以改变头片段和化学实体之间的双官能间隔子以提供适当的间隔部分和/或增加头片段在有机溶剂中的溶解度。多种间隔子是可市售获得的，其可以将头片段与小分子文库结合。间隔子通常由直链或支链组成，并且可以包括C_1-10烷基、1至10个原子的杂烷基、C_2-10烯基、C_2-10炔基、C_5-10芳基、3至20个原子的环或多环体系、磷酸二酯、肽、寡糖、寡核苷酸、低聚物、聚合物或聚烷二醇(例如，聚乙二醇，如–(CH₂CH₂O)_nCH₂CH₂-，其中n是1至50的整数)、或它们的组合。

双官能间隔子可以提供文库的头片段和化学实体之间的适当间隔部分。在某些实施方案中，双官能间隔子包括三个部分。部分1可以是反应性基团，其与DNA形成共价键，例如羧酸，优选地通过N-羟基琥珀酰亚胺(NHS)酯活化以与DNA上的氨基基团(例如，氨基修饰的dT)反应；亚酰胺，用于修饰单链头片段的5'或3'-末端(通过标准寡核苷酸化学作用的方法实现)；化学反应对(例如，在Cu(I)催化剂存在下的叠氮基-炔烃环加成或任何本文所述的)；或硫醇反应性基团。部分2也可以是反应性基团，其与化学实体、构件A_n或支架形成共价键。此类反应性基团可以是，例如，胺、硫醇、叠氮或炔烃。部分3可以是可变长度的化学惰性间隔部分，在部分1和2之间引入。此类间隔部分可以是乙二醇单元(例如，不同长度的PEG)的链、烷烃、烯烃、多烯链、或肽链。间隔子可以包含具有疏水部分(例如苯环)的分支或插入部分以改善有机溶剂中头片段的溶解度，以及用于文库检测目的的荧光部分(例如，荧光素或Cy-3)。头片段设计中的疏水残基可随着间隔子设计而变化以促进在有机溶剂中的文库合成。例如，设计头片段和间隔子组合以具有适当的残基，其中辛醇：水系数(P_oct)为例如1.0至2.5。

可凭经验选择间隔子用于给定的小分子文库设计，使得可以在有机溶剂中合成文库，例如在 15%、25%、30%、50%、75%、90%、95%、98%、99%、或100% 的有机溶剂中合成文库。可以在文库合成之前使用模拟反应来改变间隔子以选择适当的链长度，其溶解有机溶剂中的头片段。示例性间隔子包括以下那些：具有增加的烷基链长度、增加的聚乙二醇单元、具有正电荷(以中和头片段上的负磷酸电荷)的分支物质、或增加的疏水性的量(例如，添加苯环结构)。

市售获得的间隔子的示例包括氨基-羧酸间隔子，例如为肽的那些(例如，Z-Gly-Gly-Gly-Osu(N-α-苄氧羰基-(甘氨酸)₃-N-琥珀酰亚胺基酯)或Z-Gly-Gly-Gly-Gly-Gly-Gly-Osu(N-α-苄氧羰基-(甘氨酸)₆-N-琥珀酰亚胺基酯，SEQ ID N0:13))、PEG(例如，Fmoc-氨基PEG2000-NHS或氨基-PEG(12-24)-NHS)或烷烃酸链(例如，Boc-ε-氨基己酸-Osu)；化学反应对间隔子，例如结合肽部分的本文所述的那些化学反应对(例如，叠氮高丙氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:2)或炔丙基甘氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:3))、PEG(例如，叠氮基-PEG-NHS)、或烷烃酸链部分(例如，5-叠氮戊酸、(S)-2-(叠氮甲基)-1-Boc-吡咯烷、4-叠氮苯胺、或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯)；硫醇反应性间隔子，例如为PEG的那些(例如，SM(PEG)n NHS-PEG-马来酰亚胺)、烷烃链(例如，3-(吡啶-2-基二硫烷基)-丙酸-Osu或6-(3'-[2-吡啶基二硫]-丙酰胺基)己酸磺基琥珀酰亚胺基酯))；和用于寡核苷酸合成的亚酰胺，如氨基修饰剂(例如，6-(三氟乙酰氨基)-已基-(2-氰乙基)-(N，N-二异丙基)-亚磷酰胺)、硫醇修饰剂(例如，S-三苯甲基-6-巯基己基-1- [ (2-氰乙基)-(N，N-二异丙基)]-亚磷酰胺或化学反应对修饰剂(例如，6-己炔-1-基-(2-氰乙基)-(N, N-二异丙基)-亚磷酰胺、3-二甲氧基三苯甲基氧基-2-(3-(3-炔丙基氧基丙酰氨基)丙酰氨基)丙基-1-O-琥珀酰基、长链烷基氨基CPG、或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯))。另外的间隔子是本领域中已知的，并且可以在文库合成期间使用的那些包括但不限于5'-0-二甲氧基三苯甲基-1'，2'-双脱氧核糖-3'-[(2-氰乙基)-(N，N-二异丙基)]-亚磷酰胺；9-0-二甲氧基三苯甲基-三甘醇，1-[(2-氰乙基)-(N，N-二异丙基)]-亚磷酰胺；3-(4, 4'-二甲氧基三苯甲基氧基)丙基-1-[(2-氰乙基)-(N，N-二异丙基)]-亚磷酰胺；和18-O-二甲氧基三苯甲基六乙二醇，1-[(2-氰乙基)-(N，N-二异丙基)]-亚磷酰胺。本文的任何间隔子可以以不同的组合彼此串联地添加，以产生不同期望长度的间隔子。

间隔子也可以是分支的，其中分支的间隔子是本领域所熟知的，并且示例可由对称或不对称的双体或对称的三体组成。参见例如Newcome等人，Dendritic Molecules:Concepts，Synthesis，Perspectives，VCH Publishers(1996)；Boussif等人，Proc.Natl.Acad.Sci.USA 92:7297-7301(1995)；以及Jansen等人，Science 266:1226(1994)。

酶促连接和化学连接技术

各种连接技术可以用于添加标记至头片段以产生复合物。因此，本文所描述的任何结合步骤可以包括任何可用的连接技术，如酶促连接和/或化学连接。这些结合步骤可以包括将一个或多个标记添加至头片段或复合物。在特定实施方案中，用于任何寡核苷酸的连接技术提供所得产物，其可被转录和/或反转录以允许解码文库或用于用一个或多个DNA或RNA聚合酶进行模板依赖性聚合。

一般来讲，酶促连接产生具有天然磷酸二酯键的寡核苷酸，其可被转录和/或反转录。在本文中提供酶连接的示例性方法且包括使用一种或多种RNA或DNA连接酶，例如T4RNA连接酶1或2、T4 DNA连接酶、CircLigase^TM ssDNA连接酶、CircLigase^TM II ssDNA连接酶、和ThermoPhage^TM ssDNA连接酶(Prokazyme Ltd.，Reykjavik，Iceland)。

化学连接也可以用于产生能够被转录或反转录的寡核苷酸、或者换句话讲用作模板依赖性聚合酶的模板。可能需要测试提供能够被转录或反转录的寡核苷酸的化学连接技术的效力。可以通过任何可用的方法测试这种效力，如液相色谱法-质谱法、RT-PCR分析、PCR分析、电泳、和/或测序。在特定实施方案中，化学连接包括使用一个或多个化学反应对以提供可以被转录或反转录的间隔部分。本发明方法的一个示例在图1中示出，其中双链发夹结构用作双官能头片段寡核苷酸，其提供编码寡核苷酸标记的化学连接和受保护的伯胺的位点，用于合成共价连接的编码小分子。头片段具有3’-和5’-磷酸基团，它们每个可使用氰基咪唑和二价金属离子如Zn²⁺连接相应的互补未磷酸化的寡核苷酸。使用利用T4 DNA连接酶的酶促连接，相同构建体可能仅发生半连接，因为这种酶仅支持5’-磷酸与3’-羟基寡核苷酸的连接，不支持3’-磷酸与5’-羟基寡核苷酸的连接，如图1所示。观察到未保护的伯胺与氰基咪唑反应以提供胍加合物，然而，胺的Fmoc保护可能防止这一反应发生，并且受保护的胺在化学连接反应条件下不去保护。Fmoc易于用哌啶去除。

用于促进酶促连接或化学连接的反应条件

本文所述的方法可以包括一个或多个反应条件，其促进头片段和标记之间或两个标记之间的酶促连接或化学连接。这些反应条件包括使用如本文所述的标记内的修饰核苷酸；使用具有不同长度的供体标记和受体标记并且改变标记浓度；使用不同类型的连接酶，以及它们的组合(例如，CircLigase™ DNA连接酶和/或T4 RNA连接酶)，并改变它们的浓度；使用具有不同分子量的聚乙烯乙二醇(PEG)并改变它们的浓度；使用非PEG聚集试剂(例如，甜菜碱或牛血清白蛋白)；改变用于连接的温度和持续时间；改变各种试剂的浓度，其包括ATP、Co(NH₃)₆Cl₃、和酵母无机焦磷酸盐；使用酶或化学磷酸化的寡核苷酸标记；使用3'-保护的标记；并使用预腺苷化标记。这些反应条件也包括化学连接。

头片段和/或标记可以包括一个或多个修饰的或取代的核苷酸。在优选实施方案中，头片段和/或标记包括促进酶促连接的一个或多个修饰的或取代的核苷酸，如2’-O-甲基核苷酸(例如，2’-O-甲基鸟嘌呤或2’-O-甲基尿嘧啶)，2'-氟核苷酸或用作为连接底物利用的任何其它修饰的核苷酸。另选地，修饰头片段和/或标记以包括一个或多个化学反应性基团来支持化学连接(例如，任选取代的炔基基团和任选取代的叠氮基基团)。任选地，标记寡核苷酸在两个末端处用化学反应性基团功能化，并且任选地，保护这些末端之一，使得该基团可独立地被处理并且可减少副反应(例如，减少的聚合副反应)。

如本文所述，产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键的化学连接可在存在氰基咪唑和二价金属源如Zn²⁺的情况下，通过5’-或3’-磷酸、磷酸酯、或硫代磷酸酯与5’-或3’-羟基的反应进行。

酶促连接可包括一种或多种连接酶。示例性的连接酶包括CircLigase^TM ssDNA连接酶(EPICENTRE Biotechnologies，Madison，WI)、CircLigase^TM II ssDNA连接酶(也来自EPICENTRE Biotechnologies)、ThermoPhage^TM ssDNA连接酶(Prokazyme Ltd.，Reykjavik，Iceland)、T4 RNA连接酶、和T4 DNA连接酶。在优选的实施方案中，连接包括使用RNA连接酶或RNA连接酶和DNA连接酶的组合。连接还可包括一个或多个可溶性多价阳离子如Co(NH₃)₆Cl₃与一种或多种连接酶的组合。

在连接步骤之前或之后，可纯化复合物或编码化学实体。在一些实施方案中，可以纯化复合物或编码化学实体以去除未反应的头片段或标记，其可导致交叉反应并将“噪音”引入编码过程。在一些实施方案中，可以纯化复合物或编码化学实体以去除任何试剂或未反应的原料，其可以抑制或降低连接酶的连接活性。例如，磷酸可导致降低的连接活性。在某些实施方案中，可能需要去除引入到化学或连接步骤的实体以使能够进行随后的化学或连接步骤。在本文中描述纯化复合物或编码化学实体的方法。复合物的纯化可通过可逆化固定复合物，随后在下一步骤之前将其纯化并释放来进行。

酶和化学连接可以包括聚乙二醇，其具有超过300道尔顿的平均分子量(例如，超过600道尔顿，3000道尔顿，4,000道尔顿， 5,000，6,000，7,000，8,000，9,000，10,000，15,000，20,000，25,000，30,000，35,000，40,000，或45,000道尔顿)。在特定实施方案中，聚乙二醇具有约3,000道尔顿至9,000道尔顿(例如从3,000道尔顿至8,000道尔顿，从3,000道尔顿至7,000道尔顿，从3,000道尔顿至6,000道尔顿，以及从3,000道尔顿至5,000道尔顿)的平均分子量。在优选的实施方案中，聚乙二醇具有约3,000道尔顿至约6,000道尔顿(例如从3,300道尔顿至4,500道尔顿，从3,300道尔顿至5,000道尔顿，从3,300道尔顿至5,500道尔顿，从3,300道尔顿至6,000道尔顿，从3,500道尔顿至4,500道尔顿，从3,500道尔顿至5,000道尔顿，从3,500道尔顿至5,500道尔顿，以及从3,500道尔顿至6,000道尔顿，例如4,600道尔顿)的平均分子量。聚乙二醇可以任何有用的量存在，如从约25%(w/v)至约35%(w/v)，如30%(w/v)。

用于测定复合物的核苷酸序列的方法

本发明的特征在于用于测定复合物的核苷酸序列的方法，使得可以在装配标记序列的序列和化学实体的结构单元(或构件)之间建立编码关系。具体地，可以由寡核苷酸中的碱基序列推断化学实体的身份和/或历史。使用这种方法，可以用特定的标记序列处理包括不同化学实体或成员(例如，小分子或肽)的文库。

本文所描述的任何键可以是可逆或不可逆的。可逆的键包括光反应性键(例如，氰乙烯基咔唑基团和胸苷)和氧化还原键。在本文中描述另外的连接。

在另选的实施方案中，可以酶修复“不可读的”键以产生可读或至少可移位的键。酶修复过程是本领域技术人员所熟知的，并且包括但不限于嘧啶(例如，胸苷)二聚体修复机制(例如，使用光裂合酶或糖基化酶(例如，T4嘧啶二聚体糖基化酶(PDG)))、碱基切除修复机制(例如，使用糖基化酶、脱嘌呤/脱嘧啶(AP)核酸内切酶、Flap核酸内切酶、或聚ADP核糖聚合酶(例如，人脱嘌呤/脱嘧啶(AP)核酸内切酶，APE 1；核酸内切酶III(Nth)蛋白质；核酸内切酶IV；核酸内切酶V；甲酰氨基嘧啶[fapy]-DNA糖基化酶(Fpg)；人8-氧代鸟嘌呤糖基化酶1(α同种型)(hOGGl)；人核酸内切酶VIII样l(hNEILl)；尿嘧啶-DNA糖基化酶(UDG)；人单链选择性单功能尿嘧啶DNA糖基化酶 (SMUG1)；和人烷基腺嘌呤DNA糖基化酶(hAAG))，其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、甲基化修复机制(例如，使用甲基鸟嘌呤甲基转移酶)、AP修复机制(例如，使用脱嘌呤/脱嘧啶(AP)核酸内切酶(例如，APE1；核酸内切酶III；核酸内切酶IV；核酸内切酶V；Fpg；hOGGl；和hNEILl)，其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、核苷酸切除修复机制(例如，使用切除修复交叉互补蛋白质或切除核酸酶，其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、和错配修复机制(例如，使用核酸内切酶(例如T7核酸内切酶I；MutS、MutH和/或MutL)，其可以任选地与用于修复的一种或多种外切核酸酶、核酸内切酶、解旋酶、DNA或RNA聚合酶和/或连接酶组合)。商业酶混合物可以用于容易地提供这些类型的修复机制，例如，PreCR® RepairMix(New England Biolabs Inc.，Ipswich MA)，其包括Taq DNA连接酶、核酸内切酶 IV、Bst DNA聚合酶、Fpg、尿嘧啶-DNA糖基化酶(UDG)、T4 PDG(T4核酸内切酶V)和核酸内切酶VIII。

用于标记编码文库的方法

本发明的特征在于用于使寡核苷酸标记与化学实体可操作地缔合的方法，使得可以在标记的序列和化学实体的结构单元(或构件)之间建立编码关系。具体地，可以由寡核苷酸中的碱基序列推断化学实体的身份和/或历史。使用这种方法，可以用特定的标记序列编码包括不同化学实体或成员(例如，小分子或肽)的文库。

一般来讲，这些方法包括使用头片段，其具有至少一个可化学阐述的官能团和至少一个单链寡核苷酸可以与其结合(或连接)的官能团。可以通过任何有用的方式如通过酶结合(例如，用一个或多个RNA连接酶和/或DNA连接酶连接)或通过化学结合(例如，通过两个官能团，如亲核试剂和离去基团之间的取代反应)实现结合。

为了创建文库中的许多化学实体，包含头片段的溶液可分为多个等分试样，然后放入多个物理上分离的隔室中，如多孔板的孔。一般来讲，这是“拆分”步骤。在每个隔室或孔内，用每个等分试样内的寡核苷酸标记进行连续化学反应和连接步骤。记录化学反应条件和缔合标记的序列之间的关系。可以以任何顺序进行反应和连接步骤。然后，组合或“合并”经反应和连接的等分试样，并且任选地可以在此时进行纯化。纯化可通过可逆化固定复合物、去除溶剂和任何试剂/污染物、随后在下一步骤之前释放该复合物来进行。可以任选地重复这些拆分和合并步骤。

接下来，如本文所述可对于具体特征或功能测试和/或选择文库。例如，带标记的化学实体的混合物可分成至少两个群体，其中第一群体富集结合至特定的生物靶标的成员并且第二群体富集较少(例如，通过负选择或正选择)。然后可以选择地捕获第一群体(例如，通过提供感兴趣靶标的柱上的洗脱或通过用感兴趣靶标的等分试样孵育)，并且任选地进一步分析或测试，如进行任选的洗涤、纯化、负选择、正选择或分离步骤。

最后，所选群体中的一个或多个成员(或化学实体)的化学历史可以通过可操作地连接寡核苷酸的序列来测定。在序列与编码文库成员的化学历史关联时，该方法可以识别具有所选特征的文库的个体成员(例如，增加的结合至靶蛋白的倾向，从而引起治疗效果)。对于进一步测试和优化，可以随后通过合成具有或不具有其缔合寡核苷酸标记的识别文库成员来制备候选治疗化合物。

本文所述方法可以包括任意数量的可选步骤，以使文库多样化或询问该文库的成员。对于本文所述的任何标记方法，可以用另外的“n”数目的连接、分离和/或磷酸化步骤添加连续的“n”数目的标记。示例性的任选步骤包括使用一种或多种限制性核酸内切酶限制文库成员缔合的编码寡核苷酸；例如，使用任何修复酶、例如如本文所述的那些修复酶修复缔合的编码寡核苷酸；将一个或多个衔接子序列连接至用于文库成员缔合的编码寡核苷酸(例如一个或多个衔接子序列)的末端的一端或两端以提供用于扩增和测序的引物序列或提供用于序列的固定化的标记如生物素；使用反转录酶、转录酶或另一种模板依赖性聚合酶反转录或转录、任选地接着反转录复合物中的装配标记；使用例如PCR扩增复合物中的装配标记；例如，通过使用细菌转化、乳液形成、稀释、表面捕获技术等产生复合物中装配标记的一个或多个群体的克隆分离株；例如，通过使用克隆分离株做为用于核苷酸的模板依赖性聚合的模板扩增复合物中装配标记的一个或多个群体的克隆分离株；和例如通过使用克隆分离株做为用于用可逆终止化合物染料进行荧光标记的核苷酸的模板依赖性聚合的模板序列测定复合物中装配标记的一个或多个群体的克隆分离株。在本文中描述用于扩增和测序寡核苷酸标记的另外的方法。

这些方法可以用于识别和发现任何数量的具有特定特征或功能的化学实体，例如，在选择步骤中。所期望的特征或功能可用作用于将文库划分成至少两个部分的基础，该部分具有有着所期望功能的文库中至少一个成员或相关成员的伴随富集。在特定的实施方案中，方法包括识别小药物样文库成员，其结合或失活治疗目标的蛋白质。在另一个实施方案中，设计化学反应的序列，并且选择一组结构件，使得在所定义的化学条件下，所选的构件的反应将产生组合的多种分子(或分子的文库)，其中一种或多种分子可以具有作为用于特定蛋白质的治疗试剂的效用。例如，选择化学反应和构件以创建具有通常存在于激酶抑制剂中的结构基团的文库。在任何这些情况下，寡核苷酸标记编码文库成员的化学历史，并且在每种情况下，可由任何具体的标记组合来表示化学可能性的集合。

在一个实施方案中，在适合于文库的至少一个成员结合至靶标的条件下，化学实体的文库或其部分与生物靶标接触，接着是去除不结合至靶标的文库成员，并分析与靶标缔合的一个或多个寡核苷酸标记。该方法可以任选地包括通过本领域中已知的方法扩增标记。示例性的生物靶标包括酶(例如，激酶、磷酸酶、甲基化酶、去甲基化酶、蛋白酶、和DNA修复酶)、蛋白质，涉及以下蛋白质：蛋白质相互作用(例如，用于受体的配体)、受体靶(例如，GPCR和RTK)、离子通道、细菌、病毒、寄生虫、DNA、RNA、朊病毒(prion)和碳水化合物。

在另一个实施方案中，结合至靶的化学实体不进行扩增而直接分析。示例性的分析方法包括微阵列分析，其包括渐逝共振光子晶体分析；用于去卷积标记的基于珠粒的方法(例如，通过使用his-标记)；无标记的光子晶体生物传感器分析(例如，来自SRUBiosystems，Inc.，Woburn，MA的BIND® Reader)；或基于杂交的方法(例如，通过使用固定化寡核苷酸的阵列，其互补于存在于标记的文库中的序列)。

此外，化学反应对(或官能团)可容易地包括在固相寡核苷酸合成方案中，并且将支持寡核苷酸的有效化学连接。此外，所得连接的寡核苷酸可作为用于使用一种或多种聚合酶的模板依赖性聚合的模板。因此，可以修饰本文所描述的用于使编码文库加标记的任何结合步骤以包括一种或多种酶促连接和/或化学连接技术。示例性连接技术包括酶连接，如使用一种或多种RNA连接酶和/或DNA连接酶；和化学连接，如使用化学反应对(例如，包括任选取代的炔基和叠氮基官能团的对)。

此外，可以在拆分-混合步骤中组合一个或多个文库。为了允许两个或多个文库的混合，文库成员可以包含一个或多个文库识别序列，如在文库识别标记中、在连接标记中或作为头片段序列的一部分，如本文所述。

用于编码文库中化学实体的方法

本发明的方法可用于合成具有不同数量的由寡核苷酸标记编码的化学实体的文库。构件和编码DNA标记的示例可见于美国专利申请公布2007/0224607，其中的构件和标记以引用方式并入本文。

每个化学实体由一个或多个构件和任选的支架形成。支架用于提供在特定几何形状中的一个或多个多样性节点(例如，提供三个节点的三嗪，其空间上设置在杂芳基环或线性几何形状周围)。

可以将构件和它们的编码标记直接或间接地(例如，经由间隔子)添加至头片段以形成复合物。当该头片段包括间隔子时，将构件或支架添加至间隔子的末端。当不存在间隔子时，可以将构件直接添加至头片段或构件本身可以包括与头片段的官能团反应的间隔子。在本文中描述示例性间隔子和头片段。

可以以任何可用的方式添加支架。例如，支架可以被添加至间隔子或头片段的末端，并且可以将连续构件添加至支架的可用多样性节点。在另一个示例中，首先将构件A_n添加至间隔子或头片段，然后使支架S的多样性节点与构件A_n中的官能团反应。编码特定支架的寡核苷酸标记可以任选地添加至头片段或复合物。例如，将S_n添加至n个反应容器中的复合物，其中n是大于一的整数，并且标记S_n ( 即，标记S₁，S₂, …，S_n-1，S_n) 结合至复合物的官能团。

可以在多重合成步骤中添加构件。例如，将任选具有连接的间隔子的头片段的等分试样分到n个反应容器中，其中n是2或更大的整数。在第一步骤中，将构件A_n添加至每个n反应容器中(即，将构件A₁，A₂,… A_n-1，A_n添加至反应容器1，2,… n-1，n中)，其中n是整数，并且每个构件A_n是唯一的。在第二步骤中，将支架S添加至每个反应容器中，以形成A_n-S复合物。任选地，可以将支架S_n加至每个反应容器中以形成A_n-S_n复合物，其中n是大于二的整数，并且每个支架S_n可以是唯一的。在第三步骤中，将构件B_n添加至含有A_n-S复合物的每个n反应容器中(即，将构件B₁，B₂,… B_n-1，B_n添加至含有A₁-S，A₂-S,… A_n-1-S，A_n-S复合物的反应容器1，2,… n-1，n中)，其中每个构件B_n是唯一的。在另外的步骤中，可以将构件C_n添加至含有B_n-A_n-S复合物的每个n反应容器中(即，构件C₁，C₂,… C_n-1，C_n添加至含有B₁-A₁-S… B_n-A_n-S复合物的反应容器1，2,… n-1，n中)，其中每个构件C_n是唯一的。所得文库将具有n³数量的具有n³个标记的复合物。以这种方式，可以使用另外的合成步骤来结合另外的构件以进一步多样化文库。

在形成文库之后，所得复合物可以任选地进行纯化并且经受聚合或连接反应，例如，至头片段。这种一般策略可以被扩展至包括另外的多样性节点和构件(例如，D，E，F等)。例如，第一多样性节点与构件和/或S反应并且由寡核苷酸标记编码。然后，另外的构件与所得复合物反应，并且由另外的构件衍生随后的多样性节点，其由用于聚合或连接反应的引物编码。

为了形成编码文库，在每个合成步骤之后或之前将寡核苷酸标记添加至复合物。例如，在将构件A_n添加至每个反应容器中之前或之后，将标记A_n 结合至头片段的官能团(即，将标记A₁，A₂,…A_n-1，A_n添加至含有头片段的反应容器1，2,… n-1，n中)。每个标记A_n具有不同的序列，其与每个唯一的构件A_n关联，并且确定标记A_n的序列提供构件A_n的化学结构。以这种方式，使用另外的标记为另外的构件或另外的支架进行编码。

另外，添加至复合物的最后一个标记也可包括引物结合序列或提供允许结合(例如，通过连接)引物结合序列的官能团。引物结合序列可用于扩增和/或测序复合物的寡核苷酸标记。用于扩增和用于测序的示例性方法包括聚合酶链式反应(PCR)、直链扩增(LCR)、滚环扩增(RCA)或本领域已知的用于扩增或测定核酸序列的任何其他方法。

使用这些方法，可形成具有大量编码化学实体的大文库。例如，使头片段与间隔子和构件A_n反应，该构件包括1,000个不同的变体(即，n = 1,000)。对于每个构件A_n，将DNA标记A_n连接至或引物延伸至头片段。可以在1,000孔板或10 x 100孔板中进行这些反应。可以合并所有反应物、任选地纯化并且拆分成第二组板。接下来，可以用构件B_n进行相同程序，其也包括1,000种不同的变体。可以将DNA标记B_n连接至A_n-头片段复合物，并且可以合并所有反应。所得文库包括A_n x B_n的1,000 x 1,000个组合(即,000,000种化合物)，其由1,000,000种不同的标记组合标记。相同方法可扩展为添加构件C_n、D_n、E_n等。所产生的文库然后可以用于识别结合至靶标的化合物。可以任选地通过DNA标记的PCR和测序来评估结合至文库的化学实体的结构以识别所富集的化合物。

这种方法可以被修改以避免在添加每个构件之后加标记或避免合并(或混合)。例如，可以通过将构件A_n添加至n个反应容器(其中n是大于1的整数)、并且将相同构件B₁添加至每个反应孔来修改该方法。这里，对于每个化学实体B₁是相同的，并且因此，不需要编码这个构件的寡核苷酸标记。在添加构件之后，可合并或不合并复合物。例如，在构件添加的最终步骤后，不合并文库，并且分别筛选所述池(pool)以识别结合至靶标的化合物。为了避免在合成之后合并所有反应物，例如可以使用ELISA、SPR、ITC、Tm改变、SEC或类似试验来以高通量形式监测传感器表面上的结合 (例如,384孔板和1,536孔板)。例如，可以用DNA标记A_n编码构件A_n，并且可以通过其在孔板内的位置来编码构件B_n。然后可以通过使用结合试验(例如，ELISA、SPR、ITC、Tm shift、SEC或类似试验)、并且通过由测序、微阵列分析和/或限制消化分析进行A_n标记分析来识别候选化合物。这一分析允许识别产生所期望的分子的构件A_n和B_n的组合。

扩增方法可以任选地包括形成油包水乳液以形成多个水性微反应器。可以调整反应条件(例如，复合物的浓度和微反应器的尺寸)以提供(平均来说)具有化合物文库的至少一个成员的微反应器。每个微反应器也可以包含靶标、能够结合至复合物或复合物的一部分(例如，一个或多个标记)和/或结合靶标的单个珠粒、和具有一种或多种必需试剂以进行核酸扩增的扩增反应溶液。在扩增微反应器中的标记之后，标记的扩增拷贝将结合至微反应器中的珠粒，并且可以通过任何可用的方法来识别涂覆的珠粒。

一旦识别了来自结合至感兴趣靶标的第一文库的构件，可以以迭代的方式来制备第二文库。例如，可以添加一个或两个另外的多样性节点，并且形成并取样第二文库，如本文所述。可以根据需要重复这一过程多次以形成具有所期望分子和药学性能的分子。

各种连接技术可以用于添加支架、构件、间隔子、键和标记。因此，本文所述的任何结合步骤可以包括任何可用的连接技术或技术。示例性的连接技术包括酶促连接，例如使用一种或多种RNA连接酶和/或DNA连接酶的酶促连接，如本文所述；以及化学连接，例如使用化学反应对的化学连接，如本文所述。

实施例

实施例1.制备用于化学连接的组分(双链头片段和双链标记)

在5’末端化学磷酸化的头片段HP006，SEQ ID NO:1 -(p)CCTGTGTTZTTCACGGCCT，其中Z代表C6-氨基dT修饰，获取自Biosearch Inc。HP006随后通过使用以下方法，利用Fmoc-NH-PEG4-CH2CH2COOH(Chem Pep Inc)的DMT-MM酰化进行修饰。

50当量的Fmoc-NH-PEG4-CH2CH2COOH(Chem Pep Inc)溶解在DMA(二甲基乙酰胺，Acros)中，并且加入1当量溶解在pH9.5的0.5M硼酸盐缓冲液中的HP006以及新溶解在水中的50当量的DMT-MM(4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉盐酸盐，Acros)。使该反应进行2-4小时，随后第二次加入50当量的Fmoc-NH-PEG4-CH2CH2COOH和50当量的DMT-MM，并且然后使该反应进行过夜。通过LCMS监测反应完成。

用乙醇沉淀产物，并且通过尺寸排阻旋转过滤法，使用3,000 MW截止离心式旋转过滤器(Millipore)脱盐。产物的LCMS确认MW为6,803.3(计算分子量6,802.5)。

寡核苷酸TagZA1+_deltaC_5OH:SEQ ID NO:2 - 5’ CATCAAGACCCAGAAAG-3’、TagZB_CNIm_bot3OH；SEQ ID NO:3 - 5’-(p)TCTGGGTCTTGATGGCTATCC-3’(在5’末端化学磷酸化)、PrA_CNIm_bot5P；SEQ ID NO:4 - 5’-(p)TGGCTGAGG-3’(在5’末端化学磷酸化)和PrA_top_extraC_3P；SEQ ID NO:5 - 5’-(p)CAGCCAGGATAGC(p)-3’(在5’和3’末端化学磷酸化)获取自IDT DNA。

寡聚物tagZA1+_deltaC和TagZB_CNIm_bot3OH随后溶解在水中成2mM最终浓度，并且以等摩尔比值混合以制备1mM双链TagZA的溶液。

寡聚物PrA_CNIm_bot5P和PrA_top_extraC_3P也溶解在水中成2mM最终浓度，并且以等摩尔比值混合以制备1mM双链“CNIm-PrA”的溶液。

随后使用T4 DNA连接酶和标准连接方法将Fmoc-氨基-PEG4-HP006酶促连接至一当量的双链CNIm-PrA。所得寡聚物(Fmoc-氨基-PEG4-HP013)进行乙醇沉淀，并且使用Illustra NAP-5柱(GE Healthcare Life Science)脱盐。LCMS确认MW为13,772(计算分子量13,770.7)。

实施例2:双链头片段与双链标记的化学连接

Fmoc-氨基-PEG4-HP013和双链TagZA寡核苷酸溶解在pH6.0的80mM MES缓冲液(包含800mM NaCl和8mM ZnCl₂)中形成0.33mM的最终浓度。1-氰基咪唑新溶解在DMF中，浓度为1M，并且经12小时向反应进行1-2次添加，1-氰基咪唑的最终浓度为150mM。反应随后在4℃下孵育过夜。

通过变性凝胶电泳以及LCMS分析完成的反应。样品随后在15% 变性分析型TBE-8M尿素凝胶中分离并在TLC板上通过使用荧光染料(254nm)的UV造影(UV shadowing)可视化。LCMS确认形成双链连接产物，其具有MW 25,417.3(计算分子量25,415.3 )以及~70% 的转化率。观察MW 20,254.7和18,935.4的另外的产品，它们对应于(半连接)顶链或底链连接产物。

化学连接产物使用15% TBE-8M尿素变性凝胶的分析型凝胶电泳如图2所示:

1- 起始物质- Fmoc-氨基-PEG4-HP013

2- dsTag ZA，它是tagZA1_deltaC_5OH与TagZA1+_CNIm_bot3OH的等摩尔混合物

3，4，5- 氰基咪唑连接反应

6-酶促连接对照(T4 DNA连接酶)仅连接底链，在3’OH和5’磷酸之间的结点；这个酶不连接在3’磷酸和5’OH之间的结点。

化学连接产物的LCMS如图3所示。(在每个局部图中 – 顶部UV(260nm)LC迹线，中部- TIC，底部- 质谱)

A.- 起始物质：双链TagZA(MW 5,182和6,500.2 Da)以及Fmoc-氨基-PEG4-HP013(13,772)的混合物。

B- 化学连接反应的产物：双重连接的：MW 25,417.3(计算分子量25,415.3)。半连接(顶链或底链)产物：MW 20,254.7和18,935.4。

实施例3.化学连接反应产物的Fmoc去保护。

1-氰基咪唑连接反应的产物经乙醇沉淀、溶解在水中并通过在10% 哌啶中室温孵育2小时去保护。在这一去保护步骤后，在15% TBE-8M尿素凝胶上纯化该物质。对纯化后的样品进行的LC-MS确认存在去保护的氨基-PEG4-HP013-TagZA(MW 25,192.4，计算分子量25,193.2)以及两个半连接的去保护产物(MW 18,738.6和20,029.3)。

LC迹线的积分给出全长产物的相对产率为64%，而半连接产物每个为大约18%。每个链的连接效率经预测可为83%。

通过哌啶的氨基去保护如图4A所示。连接反应产物的凝胶纯化：15% TBE-尿素凝胶，UV造影如图4B所示。纯化物质的LCMS分析如图4C所示。全长连接产物MW 25,192.4 Da，半连接产物MW 18,738.6和20,029.3 Da。

实施例4.使用Fmoc的氨基保护的必要性的例示。

如上所述的HP006的特征在于在T处的氨基-C6接头，它在具有1-氰基咪唑的反应混合物中在4℃下孵育12小时。在孵育后，HP006经乙醇沉淀、在10% 哌啶中室温孵育2小时并再次乙醇沉淀。

这种物质的LCMS分析表明在该混合物中存在两种产物，MW 6,333.4 Da的HP006和MW 6,426.4的反应产物(30-40% 的转化率)。增加了94 Da对应于HP006的N-咪唑胍衍生物的形成。氨基基团的Fmoc保护完全消除了这种非期望的反应。

图5A示出HP006与1-氰基咪唑的反应产物的去卷积质谱图像。MW 6,333.4 Da对应于未修饰的HP006，MW 6,426.4对应于HP006的N-咪唑胍衍生物。

HP006的N-咪唑胍衍生物的生成示意图如图5B所示。

实施例5.用另选二价金属离子的化学连接

用替代的8mM另选二价金属，如上所述进行氰基咪唑介导的化学连接。观察到用CoCl₂(30% 全长产物，70% 的半连接产物)、MnCl₂(75% 全长产物，25% 的半连接产物)和ZnCl₂(60% 的全长产物与30% 的半连接产物)的显著连接产率。铅、镁、锡和铜的可溶性二价盐不产生显著连接。

实施例6.与另选的侧接核苷酸的化学连接

以下化学磷酸化寡核苷酸获取自IDT DNA

顶链，对1:

PrA_top:SEQ ID NO:6 - 5’-(p)CAGCCAGGATAG-3’；

Tag_ZA1+ :5’-(p)CCATCAAGACCCAGAAAG-3’；

顶链，对2:

PrA_top_extraC_3P:5’-(p)CAGCCAGGATAGCp-3’；

tagZA1_deltaC_5OH:5’-CATCAAGACCCAGAAAG-3’

(粗体字符为重叠序列)

底链，对A:

PrA_CNIm_bot5P:5’-pTGGCTGAGG-3’；

TagZB_CNIm_bot3OH:5’-pTCTGGGTCTTGATGGCTATCC-3’

底链，对B:

PrA_CNIm_bot5OH: 5’-TGGCTGAGG-3’:

TagZB_CNIm_bot3P:5’-pTCTGGGTCTTGATGGCTATCCp-3’

测试寡核苷酸的四个组合的1-氰基咪唑连接效率，如表2所示。虽然底链表现出与6-和7-核苷酸重叠一直高的连接产率(大于80%)，并且在测试的两个侧接核苷酸组合中(C与C和C与T)，顶链连接明显依赖侧接核苷酸的身份，例如C与G的连接无效，而C与C的结点以高产率连接。

表2：连接结点设计和化学连接产率综述

反应	重叠长度(nts)	连接结点(顶链)	底链连接结点	相对连接转化率(顶链)
					1-A	6	C-3’+ 5’pG	C-3’+ 5’pT	20%
1-B	6	C-3’+ 5’pG	Cp-3’+ 5’-T	25%
					2-A	7	Cp-3’+ 5’-C	C-3’+ 5’pT	90%
2-B	7	Cp-3’+ 5’-C	Cp-3’+ 5’-T	95%

其它实施方案

在不脱离本发明的范围和精神的情况下，本发明所述的方法和体系的各种修改和变型对本领域技术人员而言都将是显而易见的。尽管已经联系具体所需的实施方案描述了本发明，但应当理解的是，如所要求保护的本发明不应当不当地受到此类具体实施方案的限制。事实上，对于在医学领域、药物学领域或相关领域的技术人员而言是显而易见的对所述用于实施本发明的方式的各种修改都旨在处于本发明的范围内。

Claims

1.一种制备编码化学实体的方法，所述方法包括：

(a)提供包含第一官能团和第二官能团的头片段；

(b)使所述头片段的所述第一官能团结合至所述化学实体的组分，其中所述头片段直接连接至所述组分或者所述头片段通过双官能间隔子间接地连接至所述组分；

(c)使所述头片段的所述第二官能团经由化学连接连接至第一寡核苷酸标记以形成编码化学实体，其中所述化学连接产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键；

其中能够以任何顺序进行步骤(b)和步骤(c)，并且其中所述第一寡核苷酸标记为所述步骤(b)的结合反应编码，

由此制备编码化学实体。

2.根据权利要求1所述的方法，其中所述化学连接产生磷酸二酯键。

3.根据权利要求1或2所述的方法，其中所述头片段包含双链寡核苷酸、单链寡核苷酸、或发夹寡核苷酸。

4.根据权利要求3所述的方法，其中所述头片段包含双链寡核苷酸或发夹寡核苷酸。

5.根据权利要求4所述的方法，其中所述头片段包含第三官能团。

6.根据权利要求5所述的方法，其中所述方法还包括(d)使所述头片段的所述第三官能团经由化学连接连接至第二寡核苷酸标记，其中所述化学连接产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键。

7.根据权利要求5所述的方法，其中所述方法还包括(d)使所述头片段的所述第三官能团连接至第二寡核苷酸标记，其中所述连接不经由产生磷酸二酯键、膦酸酯键、或硫代磷酸酯键的化学连接。

8.根据权利要求2至7中任一项所述的方法，其中所述头片段在5’-末端和/或3’-末端均包含磷酸。

9.根据权利要求2至8中任一项所述的方法，其中所述化学连接包括在所述头片段上的5’-或3’-磷酸与5’-或3’-羟基寡核苷酸的所述连接。

10.根据权利要求9所述的方法，其中所述化学连接包括在所述头片段上的5’-磷酸与3’-羟基寡核苷酸的连接和/或在所述头片段上的3’-磷酸与5’-羟基寡核苷酸的连接。

11.根据权利要求10所述的方法，其中所述化学连接包括在所述头片段上的5’-磷酸与3’-羟基寡核苷酸和在所述头片段上的3’-磷酸与5’-羟基寡核苷酸的同时连接。

12.根据权利要求8至11中任一项所述的方法，其中所述化学连接包括使用氰基咪唑。

13.根据权利要求12所述的方法，其中所述化学连接还包括使用二价金属源。

14.根据权利要求13所述的方法，其中所述二价金属源是可溶性Zn²⁺源。

15.根据权利要求14所述的方法，其中所述可溶性Zn²⁺源是ZnCl₂。

16.根据权利要求1至15中任一项所述的方法，其中所述头片段通过双官能间隔子间接地连接至所述组分。

17.根据权利要求1至16中任一项所述的方法，其中所述头片段直接连接至所述组分。

18.一种文库，所述文库包含通过根据权利要求1至17中任一项所述的方法制备的一个或多个化学实体。

19.根据权利要求18所述的文库，其中所述文库包含多个头片段。

20.根据权利要求18或19所述的文库，其中每个化学实体是不同的。

21. 一种筛选多个化学实体的方法，所述方法包括：

(a) 使靶标接触根据权利要求1至16中任一项所述的方法制备的编码化学实体和/或根据权利要求17至19中任一项所述的文库；以及

(b) 选择与对照相比，对于所述靶标具有预定特征的一个或多个编码化学实体，从而筛选多个所述化学实体。

22.根据权利要求21所述的方法，其中所述预定特征包括与对照相比对于所述靶标的增加的结合。