CN114144522A

CN114144522A - 用于标记和编码预先存在的化合物文库的方法

Info

Publication number: CN114144522A
Application number: CN202080052718.9A
Authority: CN
Inventors: 安东尼·D·基夫; 陈阵
Original assignee: X Chem Inc
Current assignee: X Chem Inc
Priority date: 2019-07-25
Filing date: 2020-07-24
Publication date: 2022-03-04
Also published as: EP4004202A1; JP2022542756A; CA3144759A1; US20220275362A1; WO2021016525A1

Abstract

本公开涉及用寡核苷酸标签编码预先存在的化合物的方法。具体地，将预先存在的化合物的文库用寡核苷酸标记以便编码鉴定信息，从而改进筛选和鉴定具有所需性质的化合物的方法。

Description

用于标记和编码预先存在的化合物文库的方法

序列表

本申请包含已经以ASCII格式电子提交，并且据此全部内容以引用方式并入的序列表。所述ASCII副本创建于2020年7月23日，命名为50719-060WO2_Sequence_Listing_07.23.20_ST25，并且大小为3,747字节。

背景技术

通常，本发明涉及经DNA编码的化合物文库以及使用和创建这种文库的方法。本发明还涉及用于这种文库中的组合物。

预先存在的化合物文库可以提供大量不同的化合物，并且可有利于药物发现。用DNA标签编码此类文库可以允许快速筛选和查询针对大量靶标的大量预先存在的化合物。

发明内容

本发明的特征在于用寡核苷酸标签标记预先存在的化合物的大文库的方法，所述寡核苷酸标签用鉴定信息编码文库的每个成员。该方法任选地包括使用寡核苷酸标签的正交组合，以便有效地编码预先存在的化合物。例如，预先存在的化合物是在引入编码寡核苷酸标签之前合成的。寡核苷酸标签是共价附接的。预先存在的化合物的文库可以在没有有意引入交联基团的情况下合成。预先存在的化合物通过以下方式来编码：与双官能接头缀合，该双官能接头随后缀合至头段(headpiece)，该头段缀合至编码该化合物的身份的寡核苷酸标签。当标签组合身份被确定时，它可以用于确定所编码的分子的身份。

经DNA编码的化学文库包括化学合成小分子，所述化学合成小分子通过以下方式产生：在编码DNA序列上展示单个结构单元(building block)，并随后使用至少一个附加化学步骤和至少一个与附加编码寡核苷酸的附加缀合进行该单个结构单元的分化。此类文库含有由编码寡核苷酸的对应组合集聚(combinatorial assemblage)编码的化学合成结构单元的组合集聚。确定编码寡核苷酸的单独组合的序列使得能够确定它们所缀合至的经编码的化学实体的化学历史，这由此允许确定单独的经编码的化学结构，即使当其来源于复杂混合物时也如此。此类文库与亲和介导的探索过程的组合的利用在探索针对靶标(包括治疗相关靶标，诸如疾病相关蛋白)而组合产生的配体的情况下非常有用。

然而，并不是所有的化学结构都容易使用适用于组合过程的化学步骤获得。例如，并非所有可化学合成的分子都容易以与维持编码寡核苷酸的酶促完整性相容的方式产生。此外，许多潜在感兴趣的分子已经存在于传统的(例如，非编码的)筛选集合中，并且将它们以可连接形式重新合成可能是繁重、缓慢和昂贵的。

本发明提供了一种手段，该手段从预先存在的化合物的集合开始并在编码大量有用信息的过程中使用编码寡核苷酸的组合来编码所述集合的每个成员。然后可以针对混合物形式的靶标来筛选此类编码分子文库。筛选预先存在的化合物文库的连接形式以寻找针对靶标(例如，治疗性靶标，诸如蛋白质)的配体，实现了用于探索命中化合物(例如，药物先导物、药物候选物和/或工具化合物)的稳健方法。

在第一方面，本发明的特征在于一种产生经编码的化学实体的方法，该方法包括：(a)使化学实体与双官能接头在足以产生包含化学实体和第一交联基团的第一缀合物的条件下反应，该双官能接头包含碳烯前体基团和第一交联基团；(b)使第一缀合物与第二缀合物在足以产生包含化学实体和寡核苷酸头段的第三缀合物的条件下反应，该第二缀合物包含寡核苷酸头段和第二交联基团；以及(c)将第一寡核苷酸标签连接至第三缀合物的寡核苷酸头段，从而产生经编码的化学实体。

在一些实施方案中，双官能接头是挥发性的。

在一些实施方案中，双官能接头具有以下结构：

其中A是碳烯前体基团；L¹是接头；并且R¹是第一交联基团。

在一些实施方案中，碳烯前体基团是光反应性碳烯前体基团。

在一些实施方案中，光反应性碳烯前体基团是双吖丙啶。

在一些实施方案中，碳烯前体基团包含以下结构：

在一些实施方案中，L¹是C₁-C₆亚烷基。在特定实施方案中，L¹是C₂亚烷基。

在一些实施方案中，第一交联基团是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。

在一些实施方案中，第一交联基团是形成三唑的交联基团。

在一些实施方案中，第一交联基团是叠氮基。

在一些实施方案中，双官能接头具有以下结构：

在一些实施方案中，第二缀合物具有以下结构：

其中B是寡核苷酸头段；L²是接头；并且R²是第二交联基团。

在一些实施方案中，寡核苷酸头段包含发夹结构。

在一些实施方案中，第二交联基团是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。

在一些实施方案中，第二交联基团是形成三唑的交联基团。

在一些实施方案中，第二交联基团包括二苯并环辛炔基团。

在一些实施方案中，第二交联基团包含以下结构：

在一些实施方案中，该方法还包括通过使包含寡核苷酸头段和交联基团的第四缀合物与具有式III的结构的第五缀合物在足以产生第二缀合物的条件下反应来产生第二缀合物：

其中R³和R⁴独立地为交联基团；并且L³是接头。

在一些实施方案中，R³是形成三唑的交联基团。在特定实施方案中，R³包括二苯并环辛炔基团。在其他实施方案中，R³包含以下结构：

在一些实施方案中，R⁴是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。在特定实施方案中，R⁴是氨基反应性交联基团。在其他实施方案中，R⁴包括N-羟基琥珀酰亚胺基团。

在一些实施方案中，第二缀合物具有以下结构：

其中B是寡核苷酸头段；L⁴是接头；并且R⁵是第二交联基团。

在一些实施方案中，反应基团是氨基。

在一些实施方案中，该方法还包括，在步骤(c)之前，连接头段延伸序列(例如，恒定序列)以添加用于PCR的引物结合序列。

在一些实施方案中，该方法还包括在步骤(c)之后将一个或多个另外的标签连接至经编码的化学实体。

在一些实施方案中，该方法还包括在步骤(c)之后将至少三个另外的标签连接至经编码的化学实体。

在一些实施方案中，该方法包括一锅连接(one-pot ligation)。在一些实施方案中，一锅连接包括将头段延伸序列连接至头段，以及将至少三个另外的标签连接至经编码的化学实体。

在一些实施方案中，第一寡核苷酸标签和一个或多个另外的标签包括正交重叠架构。

在一些实施方案中，该方法任选包括将尾段(tailpiece)连接至缀合物或经编码的化学实体。在一些实施方案中，该方法还包括将尾段连接至缀合物或经编码的化学实体。

在一些实施方案中，尾段包括文库鉴定序列、用途序列或来源序列中的一者或多者，如本文所述。

在一些实施方案中，化学实体不包含N-H键或O-H键。

在一些实施方案中，步骤(b)的条件不包括金属催化剂。

在一些实施方案中，该方法还包括在步骤(c)之后纯化经编码的化学实体。

在一些实施方案中，纯化包括高效液相色谱(HPLC)。

在一些实施方案中，步骤(a)的条件包括辐照。

在另一个方面，本发明的特征在于一种文库，该文库包括通过前述方法中的任何方法产生的多个化学实体。

在一些实施方案中，该多个化学实体不是物理分离的。

在一些实施方案中，该多个化学实体包括至少1,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括至少5,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括至少10,000,000个不同的化合物。

在一些实施方案中，该多个化学实体包括约500,000个至约1,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括约1,000,000个至约5,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括约1,000,000个至约10,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括约5,000,000个至约10,000,000个不同的化合物。在一些实施方案中，该多个化学实体包括约5,000,000个至约15,000,000个不同的化合物。

在又一个方面，本发明的特征在于一种筛选多个化学实体的方法，该方法包括：使靶标与通过前述方法中的任何方法制备的经编码的化学实体和/或前述文库中的任何文库接触；以及选择一个或多个与对照相比具有针对靶标的预定特征的经编码的化学实体，从而筛选出多个化学实体。

在一些实施方案中，预定特征包括与对照相比，增加的对靶标的结合。

在一些实施方案中，该方法任选地包括将尾段连接至缀合物或经编码的化学实体。在一些实施方案中，该方法还包括将尾段连接至缀合物或经编码的化学实体。

定义

本领域技术人员将理解，本文所述的某些化合物可以以一种或多个不同的异构(例如，立体异构体、几何异构体、互变异构体)和/或同位素(例如，其中一个或多个原子已经被该原子的不同同位素取代，例如氢取代氘)形式存在。除非另有说明或从上下文清楚，否则所描绘的结构可以理解为单独或组合地代表任何这种异构或同位素形式。

本文所述的化合物可以是不对称的(例如，具有一个或多个立体中心)。除非另有说明，否则所有立体异构体(诸如对映异构体和非对映异构体)都是有意的。包含不对称取代的碳原子的本公开化合物可以光学活性或外消旋形式分离。关于如何从光学活性起始材料制备光学活性形式的方法是本领域中已知的，诸如通过外消旋混合物的拆分或通过立体选择性合成进行。烯烃、C＝N双键等的许多几何异构体也可以存在于本文所述的化合物中，并且所有此类稳定的异构体都在本公开中考虑。本公开化合物的顺式和反式几何异构体经描述，并且可以作为异构体的混合物或分离的异构形式分离。

在一些实施方案中，本文所述的一种或多种化合物可以不同的互变异构形式存在。如从上下文中将清楚的，除非明确排除，否则对此类化合物的引用涵盖所有此类互变异构形式。在一些实施方案中，互变异构形式由单键与相邻双键的交换以及伴随的质子迁移产生。在某些实施方案中，互变异构形式可以是质子转移互变异构体，该质子转移互变异构体是具有与参考形式相同的经验式和总电荷的异构质子化状态。具有质子转移互变异构形式的部分的示例是酮-烯醇对、酰胺-亚胺酸对、内酰胺-内酰亚胺对、酰胺-亚胺酸对、烯胺-亚胺对，以及其中质子可以占据杂环体系的两个或更多个位置的环状形式，诸如1H-咪唑和3H-咪唑、1H-1,2,4-三唑、2H-1,2,4-三唑和4H-1,2,4-三唑、1H-异吲哚和2H-异吲哚、以及1H-吡唑和2H-吡唑。在一些实施方案中，互变异构形式可以处于平衡中，或者通过适当的取代被空间锁定为一种形式。在某些实施方案中，互变异构形式由缩醛互变，例如以下方案中所示的互变产生：

本领域技术人员应理解，在一些实施方案中，可以根据本发明制备和/或利用本文所述的化合物的同位素。“同位素”是指具有相同原子序数但不同质量数的原子，该不同质量数是由原子核中不同数量的中子导致的。例如，氢的同位素包括氚和氘。在一些实施方案中，同位素取代(例如，用氘取代氢)可改变分子的物理化学性质，诸如代谢和/或手性中心的外消旋化速率。

如本领域已知的，许多化学实体(特别是许多有机分子和/或许多小分子)可以采用多种不同的固体形式，例如无定形形式和/或结晶形式(例如，多晶型物、水合物和溶剂合物)。在一些实施方案中，此类实体可以以任何形式，包括任何固体形式利用。在一些实施方案中，此类实体以特定形式，例如以特定固体形式利用。

在一些实施方案中，本文所述和/或描绘的化合物可以盐形式提供和/或利用。在某些实施方案中，本文所述和/或描绘的化合物可以水合物或溶剂合物形式提供和/或利用。

在本说明书的各个地方，本公开的化合物的取代基是以组形式或以范围形式公开的。这具体旨在表示，本公开包括此类组和范围的成员的每个单独子组合。例如，术语“C_1-6烷基”特别旨在单独公开甲基、乙基、C₃烷基、C₄烷基、C₅烷基、和C₆烷基。此外，在化合物包括多个位置，该多个位置的取代基以组或范围形式公开的情况下，除非另有说明，否则本公开旨在涵盖单独的化合物和成组的化合物(例如，属和亚属)，该成组的化合物包含在每个位置处的成员的每个单独子组合。

本文中形式为“任选经取代的X”(例如，任选经取代的烷基)的短语旨在等同于“X，其中X是任选经取代的”(例如，“烷基，其中所述烷基是任选经取代的”)。这并不旨在意味特征“X”(例如，烷基)本身是任选的。

“约”是指所述值的+/-10％。

如本文所用的术语“烷基”是指含有1个至20个(例如，1个至10个、或1个至6个)碳的饱和烃基。在一些实施方案中，烷基是非支化的(即，是直链的)；在一些实施方案中，烷基是支化的。烷基由以下例示：甲基、乙基、正丙基和异丙基、正丁基、仲丁基、异丁基和叔丁基、新戊基等，并且可以任选地被一个、两个、三个、或四个(在烷基具有两个或更多个碳的情况下)取代基取代，所述取代基独立地选自由以下组成的组：(1)C_1-6烷氧基；(2)C_1-6烷基亚磺酰基；(3)如本文所限定的氨基(例如，未取代的氨基(即，-NH₂)或经取代的氨基(即，-N(R^N1)₂，其中R^N1是针对氨基限定的)；(4)C_6-10芳基-C_1-6烷氧基；(5)叠氮基；(6)卤基；(7)(C_2-9杂环基)氧；(8)羟基，其任选被O-保护基团取代；(9)硝基；(10)氧基(例如，羧醛或酰基)；(11)C_1-7螺环基；(12)硫代烷氧基；(13)硫醇基；(14)-CO₂R^A′，其任选被O-保护基团取代并且其中R^A′选自由以下组成的组：(a)C_1-20烷基(例如，C_1-6烷基)、(b)C_2-20烯基(例如，C_2-6烯基)、(c)C_6-10芳基、(d)氢、(e)C_1-6亚烷基-C_6-10芳基、(f)氨基-C_1-20烷基、(g)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(15)-C(O)NR^B′R^C′，其中R^B′和R^C′中的每一者独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(16)-SO₂R^D′，其中R^D′选自由以下组成的组：(a)C_1-6烷基、(b)C_6-10芳基、(c)C_1-6亚烷基-C_6-10芳基、和(d)羟基；(17)-SO₂NR^E′R^F′，其中R^E′和R^F′中的每一者独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(18)-C(O)R^G′，其中R^G′选自由以下组成的组：(a)C_1-20烷基(例如，C_1-6烷基)，(b)C_2-20烯基(例如，C_2-6烯基)、(c)C_6-10芳基、(d)氢、(e)C_1-6亚烷基-C_6-10芳基、(f)氨基-C_1-20烷基、(g)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基、和(h)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(19)-NR^H′C(O)R^I′，其中R^H′选自由以下组成的组：(a1)氢和(b1)C_1-6烷基，并且R^I′选自由以下组成的组：(a2)C_1-20烷基(例如，C_1-6烷基)、(b2)C_2-20烯基(例如，C_2-6烯基)、(c2)C_6-10芳基、(d2)氢、(e2)C_1-6亚烷基-C_6-10芳基、(f2)氨基-C_1-20烷基、(g2)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h2)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(20)-NR^J′C(O)OR^K′，其中R^J′选自由以下组成的组：(a1)氢和(b1)C_1-6烷基，并且R^K′选自由以下组成的组：(a2)C_1-20烷基(例如，C_1-6烷基)、(b2)C_2-20烯基(例如，C_2-6烯基)、(c2)C_6-10芳基、(d2)氢、(e2)C_1-6亚烷基-C_6-10芳基、(f2)氨基-C_1-20烷基、(g2)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h2)--NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(21)脒；和(22)甲硅烷基，诸如三甲基甲硅烷基、叔丁基二甲基甲硅烷基和三异丙基甲硅烷基。在一些实施方案中，这些基团中的每个基团可以如本文所述被进一步取代。例如，C₁-烷芳基的亚烷基可以进一步被氧基基团取代，以得到相应的芳酰基取代基。

如本文所用的术语“亚烷基”和前缀“亚烷基-(alk-)”代表通过去除两个氢原子而衍生自直链或支链饱和烃的饱和二价烃基基团，并且由亚甲基、亚乙基、异亚丙基等例示。术语“C_x-y亚烷基”和前缀“C_x-y亚烷基”代表具有介于x个与y个之间的碳的亚烷基基团。x的示例性值是1、2、3、4、5和6，并且y的示例性值是2、3、4、5、6、7、8、9、10、12、14、16、18或20(例如，C_1-6、C_1-10、C_2-20、C_2-6、C_2-10、或C_2-20亚烷基)。在一些实施方案中，亚烷基可以进一步被1个、2个、3个或4个如本文中针对烷基基团所限定的取代基取代。

如本文所用的术语“烯基”代表含有一个或多个碳-碳双键的除非另外指定否则具有2个至20个碳(例如，2个至6个或2个至10个碳)的单价直链或支链基团，并且由乙烯基、1-丙烯基、2-丙烯基、2-甲基-1-丙烯基、1-丁烯基、2-丁烯基等例示。烯基包括顺式和反式异构体两者。烯基可以任选地被1个、2个、3个或4个取代基取代，所述取代基独立地选自如本文所定义的氨基、芳基、环烷基或杂环基(例如，杂芳基)，或本文所述的示例性烷基取代基中的任何示例性烷基取代基。

如本文所用的术语“炔基”代表含有碳-碳三键的具有2个至20个碳原子(例如，2个至4个、2个至6个、或2个至10个碳)的单价直链或支链基团，并且由乙炔基、1-丙炔基等例示。炔基可以任选地被1个、2个、3个或4个取代基取代，所述取代基独立地选自如本文所定义的芳基、环烷基或杂环基(例如，杂芳基)，或本文所述的示例性烷基取代基中的任何示例性烷基取代基。

如本文所用的术语“氨基”代表-N(R^N1)₂，其中每个R^N1独立地为H、OH、NO₂、N(R^N2)₂、SO₂OR^N2、SO₂R^N2、SOR^N2、N-保护基团、烷基、烯基、炔基、烷氧基、芳基、烷芳基、环烷基、烷基环烷基、羧基烷基(例如，任选经O-保护基团取代的，诸如任选经取代的芳基烷氧羰基基团或如本文所述的任何羧基烷基)、磺基烷基、酰基(例如，乙酰基、三氟乙酰基，或本文所述的其他酰基)、烷氧基羰基烷基(例如，任选经O-保护基团取代的，诸如任选经取代的芳基烷氧羰基或如本文所述的任何烷氧基羰基烷基)、杂环基(例如，杂芳基)、或烷基杂环基(例如，烷基杂芳基)，其中这些叙述的R^N1基团中的每一者可以如本文中针对每个基团所定义的任选经取代；或者两个R^N1组合以形成杂环基或N-保护基团，并且其中每个R^N2独立地为H、烷基、或芳基。氨基可以是未取代的氨基(即，-NH₂)或经取代的氨基(即，-N(R^N1)₂)。在优选实施方案中，氨基是-NH₂或-NHR^N1，其中R^N1独立地为OH、NO₂、NH₂、NR^N2 ₂、SO₂OR^N2、SO₂R^N2、SOR^N2、烷基、羧基烷基、磺基烷基、酰基(例如，乙酰基、三氟乙酰基、或如本文所述的其他酰基)、烷氧基羰基烷基(例如，叔丁氧基羰基烷基)或芳基，并且每个R^N2可以是H、C_1-20烷基(例如，C_1-6烷基)、或C_6-10芳基。

如本文所述的术语“氨基酸”是指具有侧链、氨基基团、和酸基团(例如，-CO₂H的羧基或-SO₃H的磺基)的分子，其中氨基酸通过侧链、氨基基团、或酸基团(例如，侧链)附接至母体分子基团。如本文所用，术语“氨基酸”在其最广泛的意义上是指能够例如通过形成一个或多个肽键而掺入多肽链中的任何化合物和/或物质。在一些实施方案中，氨基酸具有一般结构H₂N-C(H)(R)-COOH。在一些实施方案中，氨基酸是天然存在的氨基酸。在一些实施方案中，氨基酸是合成氨基酸；在一些实施方案中，氨基酸是D-氨基酸；在一些实施方案中，氨基酸是L-氨基酸。“标准氨基酸”是指天然存在的肽中常见的二十种标准L-氨基酸中的任何一种标准L-氨基酸。“非标准氨基酸”是指除标准氨基酸以外的任何氨基酸，无论其是合成制备的还是从天然来源获得的。在一些实施方案中，如与上述一般结构相比，氨基酸，包括多肽中的羧基端氨基酸和/或氨基端氨基酸，可以包含结构修饰。例如，在一些实施方案中，如与一般结构相比，氨基酸可以通过甲基化、酰胺化、乙酰化和/或取代进行修饰。在一些实施方案中，如与含有在其他方面相同的未修饰氨基酸的多肽相比，这种修饰可以例如改变含有经修饰的氨基酸的多肽的循环半衰期。在一些实施方案中，如与含有在其他方面相同的未修饰氨基酸的多肽相比，这种修饰不会显著改变含有经修饰的氨基酸的多肽的相关活性。如从上下文中将清楚的，在一些实施方案中，术语“氨基酸”用于指游离氨基酸；在一些实施方案中，它用于指多肽的氨基酸残基。在一些实施方案中，氨基酸通过羰基基团附接至母体分子基团，其中侧链或氨基基团附接至羰基基团。在一些实施方案中，氨基酸是α-氨基酸。在某些实施方案中，氨基酸是β-氨基酸。在一些实施方案中，氨基酸是γ-氨基酸。示例性的侧链包括任选经取代的烷基、芳基、杂环基、烷芳基、烷基杂环基、氨基烷基、氨基甲酰基烷基、和羧基烷基。示例性氨基酸包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酸、谷氨酰胺、甘氨酸、组氨酸、羟基正缬氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、正缬氨酸、鸟氨酸、苯丙氨酸、脯氨酸、吡咯赖氨酸、硒代半胱氨酸、丝氨酸、牛磺酸、苏氨酸、色氨酸、酪氨酸、和缬氨酸。氨基酸基团可以任选地被一个、两个、三个、或者四个(在氨基酸基团具有两个或更多个碳的情况下)取代基取代，所述取代基独立地选自由以下组成的组：(1)C_1-6烷氧基；(2)C_1-6烷基亚磺酰基；(3)如本文所定义的氨基(例如，未取代的氨基(即，-NH₂)或经取代的氨基(即，-N(R^N1)₂，其中R^N1是针对氨基定义的)；(4)C_6-10芳基-C_1-6烷氧基；(5)叠氮基；(6)卤基；(7)(C_2-9杂环基)氧；(8)羟基；(9)硝基；(10)氧基(例如，羧醛或酰基)；(11)C_1-7螺环基；(12)硫代烷氧基；(13)硫醇基；(14)-CO₂R^A′，其中R^A′选自由以下组成的组：(a)C_1-20烷基(例如，C_1-6烷基)、(b)C_2-20烯基(例如，C_2-6烯基)、(c)C_6-10芳基、(d)氢、(e)C_1-6亚烷基-C_6-10芳基、(f)氨基-C_1-20烷基、(g)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(15)-C(O)NR^B′R^C′，其中R^B′和R^C′中的每一者独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(16)-SO₂R^D′，其中R^D′选自由以下组成的组：(a)C_1-6烷基、(b)C_6-10芳基、(c)C_1-6亚烷基-C_6-10芳基、和(d)羟基；(17)-SO₂NR^E′R^F′，其中R^E′和R^F′中的每一者独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(18)-C(O)R^G′，其中R^G′选自由以下组成的组：(a)C_1-20烷基(例如，C_1-6烷基)，(b)C_2-20烯基(例如，C_2-6烯基)、(c)C_6-10芳基、(d)氢、(e)C_1-6亚烷基-C_6-10芳基、(f)氨基-C_1-20烷基、(g)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基、和(h)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(19)-NR^H′C(O)R^I′，其中R^H′选自由以下组成的组：(a1)氢和(b1)C_1-6烷基，并且R^I′选自由以下组成的组：(a2)C_1-20烷基(例如，C_1-6烷基)、(b2)C_2-20烯基(例如，C_2-6烯基)、(c2)C_6-10芳基、(d2)氢、(e2)C_1-6亚烷基-C_6-10芳基、(f2)氨基-C_1-20烷基、(g2)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h2)-NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；(20)-NR^J′C(O)OR^K′，其中R^J′选自由以下组成的组：(a1)氢和(b1)C_1-6烷基，并且R^K′选自由以下组成的组：(a2)C_1-20烷基(例如，C_1-6烷基)、(b2)C_2-20烯基(例如，C_2-6烯基)、(c2)C_6-10芳基、(d2)氢、(e2)C_1-6亚烷基-C_6-10芳基、(f2)氨基-C_1-20烷基、(g2)-(CH₂)_s2(OCH₂CH₂)_s1(CH₂)_s3OR′的聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且R′是H或C_1-20烷基，和(h2)--NR^N1(CH₂)_s2(CH₂CH₂O)_s1(CH₂)_s3NR^N1的氨基-聚乙二醇，其中s1是从1至10(例如，从1至6或从1至4)的整数，s2和s3中的每一者独立地为0至10(例如，从0至4、从0至6、从1至4、从1至6、或从1至10)的整数，并且每个R^N1独立地为氢或任选经取代的C_1-6烷基；及(21)脒。在一些实施方案中，这些基团中的每个基团可以如本文所述被进一步取代。

“氨基反应性”或“胺反应性”是指表现出与氨基基团(例如，伯氨基基团、仲氨基基团、或叔氨基基团)的反应性的基团。示例性的非限制性氨基反应性基团包括卤代烷、烯烃(例如，α,β-不饱和羰基或乙烯基砜)、环氧化物、醛、酮、酯(例如，N-羟基琥珀酰亚胺(NHS)酯)、羧酸、异氰酸酯、磺酰氯、酰基叠氮化物、酸酐、碳二亚胺、碳酸酯、亚氨酸酯、五氟苯基酯、和羟甲基膦。

如本文所用的术语“芳基”代表具有一个或两个芳族环的单环、双环或多环碳环环系并且由苯基、萘基、1,2-二氢萘基、1,2,3,4-四氢萘基、蒽基、菲基、芴基、茚满基、茚基等例示，并且可以任选地被1个、2个、3个、4个或5个取代基取代，所述取代基独立地选自由以下组成的组：(1)C_1-7酰基(例如，羧醛)；(2)C_1-20烷基(例如，C_1-6烷基、C_1-6烷氧基-C_1-6烷基、C_1-6烷基亚磺酰基-C_1-6烷基、氨基-C_1-6烷基、叠氮基C_1-6烷基、(羧醛)-C_1-6烷基、卤代-C_1-6烷基(例如，全氟烷基)、羟基-C_1-6烷基、硝基-C_1-6烷基、或C_1-6硫代烷氧基-C_1-6烷基)；(3)C_1-20烷氧基(例如，C_1-6烷氧基，诸如全氟烷氧基)；(4)C_1-6烷基亚磺酰基；(5)C_6-10芳基；(6)氨基；(7)C_1-6亚烷基-C_6-10芳基；(8)叠氮基；(9)C_3-8环烷基；(10)C_1-6亚烷基-C_3-8环烷基；(11)卤基；(12)C_1-12杂环基(例如，C_1-12杂芳基)；(13)(C_1-12杂环基)氧；(14)羟基；(15)硝基；(16)C_1-20硫代烷氧基(例如，C_1-6硫代烷氧基)；(17)-(CH₂)_qCO₂R^A′，其中q是从0至4的整数，并且R^A′选自由以下组成的组：(a)C_1-6烷基、(b)C_6-10芳基、(c)氢和(d)C_1-6亚烷基-C_6-10芳基；(18)-(CH₂)_qCONR^B′R^C′，其中q是从0至4的整数，并且其中R^B′和R^C′独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基和(d)C_1-6亚烷基-C_6-10芳基；(19)-(CH₂)_qSO₂R^D′，其中q是从0至4的整数，并且其中R^D′选自由以下项组成的组：(a)烷基、(b)C_6-10芳基和(c)亚烷基-C_6-10芳基；(20)-(CH₂)_qSO₂NR^E′R^F′，其中q是从0至4的整数，并且其中R^E′和R^F′各自独立地选自由以下项组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(21)硫醇基；(22)C_6-10芳氧基；(23)C_3-8环烷氧基；(24)C_6-10芳基-C_1-6烷氧基；(25)C_1-6亚烷基-C_1-12杂环基(例如，C_1-6亚烷基-C_1-12杂芳基)；(26)C_2-20烯基；和(27)C_2-20炔基。在一些实施方案中，这些基团中的每个基团可以如本文所述被进一步取代。例如，C₁烷芳基或C₁-烷基杂环基的亚烷基基团可以进一步被氧基基团取代，以得到相应的芳酰基和(杂环基)酰基取代基。

如本文所用的“芳烷基”基团代表如本文所定义的芳基通过如本文所定义的亚烷基附接至母体分子基团。示例性的未取代的芳烷基是7个至30个碳(例如，7个至16个或7个至20个碳，诸如C_1-6亚烷基-C_6-10芳基、C_1-10亚烷基-C_6-10芳基、或C_1-20亚烷基-C_6-10芳基)。在一些实施方案中，亚烷基和芳基均可以各自进一步被1个、2个、3个或4个如本文针对相应基团所定义的取代基取代。除非另有说明，否则前缀为“亚烷基-(alk-)”的其他基团以相同的方式定义，其中“亚烷基(alk)”是指C_1-6亚烷基，并且所附接的化学结构如本文所定义。

术语“叠氮基”代表-N₃基团，该基团也可以表示为-N＝N＝N。

“双官能”是指具有两个反应性基团，该两个反应性基团允许结合两个化学部分。

如本文所用的“双官能接头”是指具有两个反应性基团(例如，碳烯前体基团和交联基团)的接头，该接头结合至(i)化学实体(例如，预先存在的化合物)；和(ii)包含寡核苷酸头段和交联基团的缀合物。本文提供了示例性双官能接头。

“结合”是指通过共价键或非共价键附接。非共价键包括通过范德华力、氢键、离子键、截留或物理包封、吸收、吸附和/或其他分子间力形成的键。结合可以通过任何有用的手段实现，诸如通过酶促结合(例如，酶促连接以提供酶促键联)或通过化学结合(例如，化学连接以提供化学键联)。

“碳烯”是指具有效价2和两个非共享价电子的中性碳原子。包含碳烯基团的结构的通式如下：

其中R^C1和R^C2中的每一者是H、任选经取代的C₁-C₁₂烷基(例如，未取代的C₁-C₁₂烷基，或被卤基、氧基、C₁-C₁₂烷基、C₁-C₁₂杂烷基、C_3-C₁₀碳环基、C_6-C₁₀芳基、C_2-C₉杂环基、或C₂-C₉杂芳基中的一者或多者取代的C₁-C₁₂烷基)、或任选经取代的C₁-C₁₂杂烷基(例如，未取代的C₁-C₁₂杂烷基，或被卤基、氧基、C₁-C₁₂烷基、C₁-C₁₂杂烷基、C_3-C₁₀碳环基、C_6-C₁₀芳基、C_2-C₉杂环基、或C₂-C₉杂芳基中的一者或多者取代的C₁-C₁₂杂烷基)。

“碳烯前体基团”是指经历化学反应以生成碳烯基团的官能团。碳烯前体基团是本领域中已知的，例如双吖丙啶。

如本文所用的术语“碳环”和“碳环基”指任选经取代的C_3-12单环、双环或三环非芳环结构，其中所述环由碳原子形成。碳环结构包括环烷基、环烯基、和环炔基。

如本文所用的“碳环基烷基”基团表示如本文所定义的碳环基团通过如本文所定义的亚烷基附接至母体分子基团。示例性的未取代的碳环烷基是7个至30个碳(例如，7个至16个或7个至20个碳，诸如C_1-6亚烷基-C_6-10碳环基、C_1-10亚烷基-C_6-10碳环基、或C_1-20亚烷基-C_6-10碳环基)。在一些实施方案中，亚烷基和碳环基均可以进一步被1个、2个、3个或4个如本文针对相应基团所定义的取代基取代。除非另有说明，否则前缀为“亚烷基-(alk-)”的其他基团以相同的方式定义，其中“亚烷基(alk)”是指C_1-6亚烷基，并且所附接的化学结构如本文所定义。

如本文所用的术语“羰基”代表C(O)基团，其也可以表示为C＝O。

“羰基反应性”是指表现出与羰基的反应性的基团，即含有-C(O)-的基团(例如，醛、酮和酰基卤)。示例性的、非限制性的羰基反应性基团包括酰肼、胺(例如，烷氧基胺)、和羟基。

“羧基反应性”是指表现出与羧基(即-COOH)的反应性的基团。示例性的、非限制性的羧基反应性基团包括碳二亚胺、胺、和羟基。

如本文所用的术语“羧基”是指–CO₂H。

“化学实体”是指包含一个或多个结构单元和任选的一个或多个支架的化合物。化学实体可以是任何被设计或构建为具有一个或多个所需特征的小分子或肽药物或药物候选物，所述所需特征为例如结合生物靶标的能力、溶解度、氢键供体和受体的可用性、键的旋转自由度、正电荷、负电荷等。在某些实施方案中，化学实体可以作为双官能或三官能(或更大)实体进一步反应。

“化学反应性基团”是指参与模块化反应，从而产生键联的反应性基团。示例性的反应和反应性基团包括选自以下的那些：与任选经取代的炔基和任选经取代的叠氮基的三唑形成对的Huisgen 1,3-偶极环加成反应；与具有4π电子系的任选经取代的二烯和具有2π电子系的任选经取代的亲双烯体或任选经取代的异亲双烯体的对的狄尔斯-阿尔德反应(Diels-Alder reaction)；与亲核试剂和应变杂环基亲电试剂的开环反应；与硫代磷酸酯基团和碘代基团的夹板连接反应；以及与醛基基团及氨基基团的还原性氨基化反应，如本文所述。

“互补”是指如本文所定义的能够杂交以形成二级结构(核酸分子的双链体或双链部分)的序列。互补性不一定是完美的，而是可以包括一个、两个、三个或更多个核苷酸处的一个或多个错配。例如，互补序列可含有可根据沃森-克里克碱基配对规则形成氢键的核碱基(例如，G与C、A与T、或A与U)或其他氢键合基序(例如，二氨基嘌呤与T、5-甲基C与G、2-硫代胸腺嘧啶与A、肌苷与C、假异胞嘧啶与G)。该序列及其互补序列可以存在于同一寡核苷酸中或不同的寡核苷酸中。

寡核苷酸标签的“连接物(connector)”是指在5′-端或3′-端处或5′-端或3′-端附近具有固定序列的标签部分。5′-连接物位于或接近寡核苷酸的5′-端，并且3′-连接物位于或接近寡核苷酸的3′-端。当存在于缀合物或经编码的化学实体中时，每个5′-连接物可以是相同或不同的，并且每个3′-连接物可以是相同或不同的。在具有多于一个标签的示例性、非限制性的缀合物或经编码的化学实体中，每个标签可以包括5′-连接物和3′-连接物，其中每个5′-连接物具有相同的序列并且每个3′-连接物具有相同的序列(例如，其中5′-连接物的序列可以与3′-连接物的序列相同或不同)。在另一个示例性的、非限制性的缀合物或经编码的化学实体中，5′-连接物的序列被设计成如本文所定义与3′-连接物的序列互补(例如，以允许5′-连接物与3′-连接物之间的杂交)。连接物可以任选地包括一个或多个允许键联(例如，聚合酶对其具有降低的读段或易位能力的键联，诸如化学键联)的基团。

“恒定”或“固定的恒定”序列是指不编码信息的寡核苷酸序列。具有恒定序列的缀合物或经编码的化学实体的非限制性、示例性部分包括引物结合区、5′-连接物、或3′-连接物。头段可以编码信息(因此，标签)或者替代地不编码信息(因此，恒定序列)。类似地，尾段可以编码或不编码信息。

如本文所用，术语“交联基团”是指包含能够化学附接至蛋白质或其他分子上的特定官能团(例如，伯胺、巯基)的反应性官能团的基团。如本文所用的“能够与氨基酸发生化学选择性反应的部分”是指包含能够化学附接至天然或非天然氨基酸的官能团(例如，伯胺和仲胺、巯基、醇、羧基、羰基、或形成三唑的官能团(诸如叠氮化物或炔烃))的反应性官能团的部分。交联基团的示例包括巯基反应性交联基团(例如，包含马来酰亚胺、卤代乙酰基、吡啶基二硫化物、硫代磺酸根或乙烯基砜的基团)、胺反应性交联基团(例如，包含酯诸如NHS酯、亚氨酸酯和五氟苯基酯、或羟甲基膦的基团)、羧基反应性交联基团(例如，包含伯胺或仲胺、醇或硫醇的基团)、羰基反应性交联基团(例如，包含酰肼或烷氧基胺的基团)、和形成三唑的交联基团(例如，包含叠氮化物或炔烃的基团)。

如本文所用的术语“氰基”代表-CN基团。

除非另有说明，否则如本文所用的术语“环烷基”代表具有三个至八个碳的单价饱和或不饱和非芳族环状烃基，并且由环丙基、环丁基、环戊基、环己基、环庚基、双环庚基等例示。当环烷基包括一个碳-碳双键时，环烷基基团可以称为“环烯基”基团。示例性的环烯基基团包括环戊烯基、环己烯基等。本发明的环烷基基团可以任选地被以下基团取代：(1)C_1-7酰基(例如，羧醛)；(2)C_1-20烷基(例如，C_1-6烷基、C_1-6烷氧基-C_1-6烷基、C_1-6烷基亚磺酰基-C_1-6烷基、氨基-C_1-6烷基、叠氮基C_1-6烷基、(羧醛)-C_1-6烷基、卤代-C_1-6烷基(例如，全氟烷基)、羟基-C_1-6烷基、硝基-C_1-6烷基、或C_1-6硫代烷氧基-C_1-6烷基)；(3)C_1-20烷氧基(例如，C_1-6烷氧基，诸如全氟烷氧基)；(4)C_1-6烷基亚磺酰基；(5)C_6-10芳基；(6)氨基；(7)C_1-6亚烷基-C_6-10芳基；(8)叠氮基；(9)C_3-8环烷基；(10)C_1-6亚烷基-C_3-8环烷基；(11)卤基；(12)C_1-12杂环基(例如，C_1-12杂芳基)；(13)(C_1-12杂环基)氧；(14)羟基；(15)硝基；(16)C_1-20硫代烷氧基(例如，C_1-6硫代烷氧基)；(17)-(CH₂)_qCO₂R^A′，其中q是从0至4的整数，并且R^A′选自由以下组成的组：(a)C_1-6烷基、(b)C_6-10芳基、(c)氢和(d)C_1-6亚烷基-C_6-10芳基；(18)-(CH₂)_qCONR^B′R^C′，其中q是从0至4的整数，并且其中R^B′和R^C′独立地选自由以下组成的组：(a)氢、(b)C_6-10烷基、(c)C_6-10芳基和(d)C_1-6亚烷基-C_6-10芳基；(19)-(CH₂)_qSO₂R^D′，其中q是从0至4的整数，并且其中R^D′选自由以下项组成的组：(a)C_6-10烷基、(b)C_6-10芳基和(c)C_1-6亚烷基-C_6-10芳基；(20)-(CH₂)_qSO₂NR^E′R^F′，其中q是从0至4的整数，并且其中R^E′和R^F′各自独立地选自由以下项组成的组：(a)氢、(b)C_6-10烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(21)硫醇基；(22)C_6-10芳氧基；(23)C_3-8环烷氧基；(24)C_6-10芳基-C_1-6烷氧基；(25)C_1-6亚烷基-C_1-12杂环基(例如，C_1-6亚烷基-C_1-12杂芳基)；(26)氧基；(27)C_2-20烯基；和(28)C_2-20炔基。在一些实施方案中，这些基团中的每个基团可以如本文所述被进一步取代。例如，C₁烷芳基或C₁-烷基杂环基的亚烷基基团可以进一步被氧基基团取代，以得到相应的芳酰基和(杂环基)酰基取代基。

如本文所用的“环烷基烷基”代表如本文所定义的环烷基如本文所定义通过亚烷基(例如，具有1至4个、1至6个、1至10个或1至20个碳的亚烷基)附接至母体分子基团。在一些实施方案中，亚烷基和环烷基均可以进一步被1个、2个、3个或4个如本文针对相应基团所定义的取代基取代。

如本文所用的术语“非对映异构体”是指不是彼此的镜像并且不可相互重叠的立体异构体。

如本文所用的术语“对映体”是指化合物的每个单独的光学活性形式，该每个单独的光学活性形式的光学纯度或对映体过量(如通过本领域中的标准方法测定的)为至少80％(即，一种对映体为至少90％，并且另一种对映体为至多10％)，优选至少90％，更优选至少98％。

如本文所用的术语“卤基”代表选自溴、氯、碘、或氟的卤素。

“发夹结构”是指当单链寡核苷酸的两个当以相反方向读时，通常在核苷酸序列上互补的区域碱基配对以形成以不成对的环结束的双螺旋时形成的结构。

“头段”是指用于文库合成的化学结构，该化学结构可操作地连接至化学实体的组分并可操作地连接至标签，例如起始寡核苷酸。任选地，头段可以包含很少的核苷酸或不包含核苷酸，但是可以提供核苷酸可以操作性缔合的点。任选地，双官能接头将头段连接至该组分。

如本文所用的术语“杂烷基”是指如本文所定义的烷基，其中组成碳原子中的一个或两个组成碳原子各自已被氮、氧或硫替代。在一些实施方案中，杂烷基可以进一步被1个、2个、3个或4个如本文针对烷基所述的取代基取代。如本文所用的术语“杂烯基”和“杂炔基”分别指如本文所定义的烯基和炔基，其中组成碳原子中的一个或两个各自已被氮、氧或硫取代。在一些实施方案中，杂烯基和杂炔基可以进一步被1个、2个、3个或4个如本文针对烷基所述的取代基取代。

如本文所用的术语“杂芳基”代表如本文所定义的杂环基的子集，所述杂环基是芳族的：，即它们在单环或多环环系中包含4n+2π电子。示例性的未取代的杂芳基具有1至12个(例如，1至11个、1至10个、1至9个、2至12个、2至11个、2至10个、或2至9个)碳。在一些实施方案中，杂芳基被1个、2个、3个或4个如针对杂环基所定义的取代基取代。

术语“杂芳基烷基”是指如本文所定义的杂芳基通过如本文所定义的亚烷基附接至母体分子基团。示例性的未取代的杂芳基烷基是2至32个碳(例如，2至22个、2至18个、2至17个、2至16个、3至15个、2至14个、2至13个、或2至12个碳，诸如C_1-6亚烷基-C_1-12杂芳基、C_1-10亚烷基-C_1-12杂芳基、或C_1-20亚烷基-C_1-12杂芳基)。在一些实施方案中，亚烷基和杂芳基均可以进一步被1个、2个、3个或4个如本文针对相应基团所定义的取代基取代。杂芳基烷基是杂环烷基的子集。

除非另有说明，否则如本文所用的术语“杂环基”代表5元、6元或7元环，所述环含有一个、两个、三个或四个独立选自由氮、氧和硫组成的组的杂原子。5元环有0个至2个双键，并且6元环和7元环具有0个至3个双键。示例性的未取代的杂环基具有1至12个(例如，1至11个、1至10个、1至9个、2至12个、2至11个、2至10个、或2至9个)碳。术语“杂环基”还表示具有桥连的多环结构的杂环化合物，在该桥连的多环结构中一个或多个碳和/或杂原子桥连单环的两个非相邻成员，例如奎宁环基基团。术语“杂环基”包括双环、三环和四环基团，其中上述杂环中的任何杂环与一个、两个或三个碳环稠合，所述碳环为例如芳基环、环己烷环、环己烯环、环戊烷环、环戊烯环或另一个单环杂环，诸如吲哚基、喹啉基、异喹啉基、四氢喹啉基、苯并呋喃基、苯并噻吩基等。稠合杂环的示例包括托品烷和1,2,3,5,8,8a-六氢吲哚嗪。杂环包括吡咯基、吡咯啉基、吡咯烷基、吡唑基、吡唑啉基、吡唑烷基、咪唑基、咪唑啉基、咪唑烷基、吡啶基、哌啶基、高哌啶基、吡嗪基、哌嗪基、嘧啶基、哒嗪基、噁唑基、噁唑烷基、异噁唑基、异噁唑烷基、吗啉基、硫代吗啉基、噻唑基、噻唑烷基、异噻唑基、异噻唑烷基、吲哚基、吲唑基、喹啉基、异喹啉基、喹喔啉基、二氢喹喔啉基、喹唑啉基、噌啉基、酞嗪基、苯并咪唑基、苯并噻唑基、苯并噁唑基、苯并噻二唑基、呋喃基、噻吩基、噻唑烷基、异噻唑基、三唑基、四唑基、噁二唑基(例如，1,2,3-噁二唑基)、嘌呤基、噻二唑基(例如，1,2,3-噻二唑基)、四氢呋喃基、二氢呋喃基、四氢噻吩基、二氢噻吩基、二氢吲哚基、二氢喹啉基、四氢喹啉基、四氢异喹啉基、二氢异喹啉基、吡喃基、二氢吡喃基、二噻唑基、苯并呋喃基、异苯并呋喃基、苯并噻吩基等，包括它们的二氢和四氢形式，其中一个或多个双键被还原并被氢取代。其他示例性杂环基包括：2,3,4,5-四氢-2-氧代-噁唑基；2,3-二氢-2-氧代-1H-咪唑基；2,3,4,5-四氢-5-氧代-1H-吡唑基(例如，2,3,4,5-四氢-2-苯基-5-氧代-1H-吡唑基)；2,3,4,5-四氢-2,4-二氧代-1H-咪唑基(例如，2,3,4,5-四氢-2,4-二氧代-5-甲基-5-苯基-1H-咪唑基)；2,3-二氢-2-硫代-1,3,4-噁二唑基(例如，2,3-二氢-2-硫代-5-苯基-1,3,4-噁二唑基)；4,5-二氢-5-氧代-1H-三唑基(例如，4,5-二氢-3-甲基-4-氨基5-氧代-1H-三唑基)；1,2,3,4-四氢-2,4-二氧代吡啶基(例如，1,2,3,4-四氢-2,4-二氧-3,3-二乙基吡啶基)；2,6-二氧代-哌啶基(例如，2,6-二氧代-3-乙基-3-苯基哌啶基)；1,6-二氢-6-氧代啼啶基；1,6-二氢-4-氧代嘧啶基(例如，2-(甲硫基)-1,6-二氢-4-氧代-5-甲基嘧啶-1-基)；1,2,3,4-四氢-2,4-二氧代嘧啶基(例如，1,2,3,4-四氢-2,4-二氧代-3-乙基嘧啶基)；1,6-二氢-6-氧代-哒嗪基(例如，1,6-二氢-6-氧代-3-乙基哒嗪基)；1,6-二氢-6-氧代-1,2,4-三嗪基(例如，1,6-二氢-5-异丙基-6-氧代-1,2,4-三嗪基)；2,3-二氢-2-氧代-1H-吲哚基(例如，3,3-二甲基-2,3-二氢-2-氧代1H-吲哚基和2,3-二氢-2-氧代-3,3'-螺环丙烷-1H-吲哚-1-基)；1,3-二氢-1-氧代-2H-异吲哚基；1,3-二氢-1,3-二氧代-2H-异吲哚基；1H-苯并吡唑基(例如，1-(乙氧羰基)-1H-苯并吡唑基)；2,3-二氢-2-氧代-1H-苯并咪唑基(例如，3-乙基-2,3-二氢-2-氧代-1H-苯并咪唑基)；2,3-二氢-2-氧代-苯并噁唑基(例如，5-氯-2,3-二氢-2-氧代-苯并噁唑基)；2,3-二氢-2-氧代-苯并噁唑基；2-氧代-2H-苯并吡喃基；1,4-苯并二氧杂环己烷基；1,3-苯并二氧杂环己烷基；2,3-二氢-3-氧代,4H-1,3-苯并噻嗪基；3,4-二氢-4-氧代-3H-喹唑啉基(例如，2-甲基-3,4-二氢-4-氧代-3H-喹唑啉基)；1,2,3,4-四氢-2,4-二氧代-3H-喹唑啉基(例如，1-乙基-1,2,3,4-四氢-2,4-二氧代-3H-喹唑啉基)；1,2,3,6-四氢-2,6-二氧代-7H-嘌呤基(例如，1,2,3,6-四氢-1,3-二甲基-2,6-二氧代-7H-嘌呤基)；1,2,3,6-四氢-2,6-二氧代-1H-嘌呤基(例如，1,2,3,6-四氢-3,7-二甲基-2,6-二氧代-1H-嘌呤基)；2-氧代苯并[c,d]吲哚基；1,1-二氧代-2H-萘[1,8-c,d]异噻唑基；和1,8-亚萘基二甲酰胺基。附加杂环包括3,3a,4,5,6,6a-六氢-吡咯并[3,4-b]吡咯-(2H)-基、和2,5-二氮杂双环并[2.2.1]庚-2-基、高哌嗪基(或二氮杂环庚烷基)、四氢吡喃基、二噻唑啉基、苯并呋喃基、苯并噻吩基、氧杂环庚烷基、硫代环庚烷基、氮杂环辛烷基、氧杂环辛烷基、和硫杂环辛基。杂环基团还包括式

的基团，其中E'选自由-N-和-CH-组成的组；F'选自由以下组成的组：-N＝CH-、-NH-CH₂-、-NH-C(O)-、-NH-、-CH＝N-、-CH₂-NH-、-C(O)-NH-、-CH＝CH-、-CH₂-、-CH₂CH₂-、-CH₂O-、-OCH₂-、-O-、和-S-；并且G'选自由-CH-和-N-组成的组。本文提到的杂环基中的任何杂环基可以任选地被一个、两个、三个、四个或五个取代基取代，所述取代基独立地选自由以下组成的组：(1)C_1-7酰基(例如，羧醛)；(2)C_1-20烷基(例如，C_1-6烷基、C_1-6烷氧基-C_1-6烷基、C_1-6烷基亚磺酰基-C_1-6烷基、氨基-C_1-6烷基、叠氮基C_1-6烷基、(羧醛)-C_1-6烷基、卤代-C_1-6烷基(例如，全氟烷基)、羟基-C_1-6烷基、硝基-C_1-6烷基、或C_1-6硫代烷氧基-C_1-6烷基)；(3)C_1-20烷氧基(例如，C_1-6烷氧基，诸如全氟烷氧基)；(4)C_1-6烷基亚磺酰基；(5)C_6-10芳基；(6)氨基；(7)C_1-6亚烷基-C_6-10芳基；(8)叠氮基；(9)C_3-8环烷基；(10)C_1-6亚烷基-C_3-8环烷基；(11)卤基；(12)C_1-12杂环基(例如，C_2-12杂芳基)；(13)(C_1-12杂环基)氧；(14)羟基；(15)硝基；(16)C_1-20硫代烷氧基(例如，C_1-6硫代烷氧基)；(17)-(CH₂)_qCO₂R^A′，其中q是从0至4的整数，并且R^A′选自由以下组成的组：(a)C_1-6烷基、(b)C_6-10芳基、(c)氢和(d)C_1-6亚烷基-C_6-10芳基；(18)-(CH₂)_qCONR^B′R^C′，其中q是从0至4的整数，并且其中R^B′和R^C′独立地选自由以下组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基和(d)C_1-6亚烷基-C_6-10芳基；(19)-(CH₂)_qSO₂R^D′，其中q是从0至4的整数，并且其中R^D′选自由以下项组成的组：(a)C_1-6烷基、(b)C_6-10芳基和(c)C_1-6亚烷基-C_6-10芳基；(20)-(CH₂)_qSO₂NR^E′R^F′，其中q是从0至4的整数，并且其中R^E′和R^F′各自独立地选自由以下项组成的组：(a)氢、(b)C_1-6烷基、(c)C_6-10芳基、和(d)C_1-6亚烷基-C_6-10芳基；(21)硫醇基；(22)C_6-10芳氧基；(23)C_3-8环烷氧基；(24)芳烷氧基；(25)C_1-6亚烷基-C_1-12杂环基(例如，C_1-6亚烷基-C_1-12杂芳基)；(26)氧基；(27)(C_1-12杂环基)亚氨基；(28)C_2-20烯基；和(29)C_2-20炔基。在一些实施方案中，这些基团中的每个基团可以如本文所述被进一步取代。例如，C₁烷芳基或C₁-烷基杂环基的亚烷基基团可以进一步被氧基基团取代，以得到相应的芳酰基和(杂环基)酰基取代基。

如本文所用的“杂环烷基”基团表示如本文所定义的杂环基基团通过如本文所定义的亚烷基附接至母体分子基团。示例性的未取代的杂环烷基是2至32个碳(例如，2至22个、2至18个、2至17个、2至16个、3至15个、2至14个、2至13个、或2至12个碳，诸如C_1-6亚烷基-C_1-12杂环基、C_1-10亚烷基-C_1-12杂环基、或C_1-20亚烷基-C_1-12杂环基)。在一些实施方案中，亚烷基和杂环基均可以进一步被1个、2个、3个或4个如本文针对相应基团所定义的取代基取代。

“杂交”是指在各种严格条件下在互补寡核苷酸或其部分之间配对以形成双链分子。(参见例如，Wahl,G.M.和S.L.Berger(1987)Methods Enzymol.152:399；Kimmel,A.R.(1987)Methods Enzymol.152:507.)例如，使用通常小于约750mM的NaCl和75mM的柠檬酸三钠、小于约500mM的NaCl和50mM的柠檬酸三钠、或小于约250mM的NaCl和25mM的柠檬酸三钠的盐浓度，可以获得高严格性杂交。低严格性杂交可以在没有有机溶剂(例如，甲酰胺)的情况下获得，而高严格性杂交可以在至少约35％的甲酰胺或至少约50％的甲酰胺的存在下获得。高严格性杂交温度条件通常将包括至少约30℃、37℃或42℃的温度。变化的附加参数，诸如杂交时间、洗涤剂(例如，十二烷基硫酸钠(sodium dodecyl sulfate,SDS))的浓度、以及载体DNA的包含或排除，是本领域技术人员众所周知的。通过根据需要组合这些不同的条件，可以实现不同水平的严格性。在一个实施方案中，杂交将于30℃在750mM的NaCl、75mM的柠檬酸三钠和1％SDS中发生。在另一个实施方案中，杂交将于37℃在500mM NaCl、50mM柠檬酸三钠、1％SDS、35％甲酰胺和100μg/ml变性鲑鱼精液DNA(salmon sperm DNA,ssDNA)中发生。在另一个替代实施方案中，杂交将于42℃在250mM NaCl、25mM柠檬酸三钠、1％SDS、50％甲酰胺和200μg/ml的ssDNA中发生。这些条件的可用变化对本领域技术人员来说将是显而易见的。

对于大多数应用，杂交后的洗涤步骤在严格性上也会有所不同。洗涤严格性条件可以通过盐浓度和温度来限定。如上所述，可以通过降低盐浓度或通过提高温度来提高洗涤严格性。例如，用于洗涤步骤的高严格性盐浓度可以是例如小于约30mM NaCl和3mM柠檬酸三钠，或小于约15mM的NaCl和1.5mM柠檬酸三钠。用于洗涤步骤的高严格性温度条件通常包括例如至少约25℃、42℃、或68℃的温度。在一个实施方案中，洗涤步骤将于25℃在30mMNaCl、3mM柠檬酸三钠和0.1％SDS中发生。在另一个实施方案中，洗涤步骤将于42℃在15mMNaCl、1.5mM柠檬酸三钠和0.1％SDS中发生。在另一个替代实施方案中，洗涤步骤将于68℃在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中发生。这些条件的附加变化对本领域技术人员来说将是显而易见的。杂交技术是本领域技术人员众所周知的，并且例如在Benton和Davis(Science 196:180,1977)；Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975)；Ausubel等人(Current Protocols in Molecular Biology,WileyInterscience,New York,2001)；Berger和Kimmel(Guide to Molecular CloningTechniques,1987,Academic Press,New York)；和Sambrook等人，Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory Press,New York中有所描述。

如本文所用的术语“烃”代表仅由碳和氢原子组成的基团。

如本文所用的术语“羟基”代表-OH基团。在一些实施方案中，羟基可以被1个、2个、3个或4个如本文针对烷基所定义的取代基(例如，O保护基)取代。

如本文所用的术语“异构体”是指任何化合物的任何互变异构体、立体异构体、对映异构体或非对映异构体。公认的是，化合物可以具有一个或多个手性中心和/或双键，并且因此作为立体异构体，诸如双键异构体(即，几何E/Z异构体)或非对映异构体(例如，对映异构体(即，(+)或(-))或顺式/反式异构体)存在。根据本发明，本文所述的化学结构以及因此化合物涵盖所有对应的立体异构体，即立体异构体纯形式(例如，几何异构体纯、对映异构体纯或非对映异构体纯)和对映异构体和立体异构体混合物，例如外消旋体。化合物的对映异构体和立体异构体混合物通常可以通过众所周知的方法拆分成它们的组分对映异构体或立体异构体，所述众所周知的方法为诸如手性相气相色谱、手性相高效液相色谱、将化合物结晶为手性盐络合物、或将化合物在手性溶剂中结晶。对映异构体和立体异构体也可以通过众所周知的不对称合成方法从立体异构体或对映异构体纯的中间体、试剂和催化剂获得。

“文库”是指分子或化学实体的集合。任选地，分子或化学实体与一种或多种编码所述分子或化学实体的各部分的寡核苷酸结合。文库包括至少两个成员，并且可以包括至少1,000个成员、至少10,000个成员、至少100,000个成员、至少1,000,000个成员、至少5,000,000个成员、至少10,000,000个成员、至少100,000,000个成员、至少1,000,000,000个成员、至少10,000,000,000个成员、或至少100,000,000,000个成员。

“键联”是指化学连接实体，该化学连接实体允许可操作地缔合两个或更多个化学结构，例如，其中键联存在于头段与一个或多个标签之间、两个标签之间、或标签与尾段之间。化学连接实体可以是非共价键(例如，如本文所述)、共价键、或两个官能团之间的反应产物。“化学键联”是指由两个官能团之间的非酶促化学反应形成的键联。示例性、非限制性的官能团包括化学反应性基团、光反应性基团、嵌入部分、或交联寡核苷酸(例如，如本文所述)。“酶促键联”是指由酶形成的核苷酸间键联或核苷间键联。示例性、非限制性的酶包括激酶、聚合酶、连接酶、或它们的组合。“聚合酶对其具有降低的读段或易位能力”的键是指这样的键联，所述键联当存在于寡核苷酸模板中时，与缺少所述键联的对照寡核苷酸相比，通过聚合酶提供了减少量的伸长和/或扩增的产物。用于确定这种键联的示例性、非限制性方法包括如通过PCR分析(例如，定量PCR)、RT-PCR分析、液相色谱-质谱、序列人口统计学(sequence demographics)或其他方法评定的引物延伸。示例性、非限制性的聚合酶包括DNA聚合酶和RNA聚合酶，例如DNA聚合酶I、DNA聚合酶II、DNA聚合酶III、DNA聚合酶VI、TaqDNA聚合酶、Deep VentR^TMDNA聚合酶(高保真嗜热DNA聚合酶，可从New England Biolabs获得)、T7 DNA聚合酶、T4 DNA聚合酶、RNA聚合酶I、RNA聚合酶II、RNA聚合酶III、或T7 RNA聚合酶。

术语“N-保护氨基”指附接一个或两个如本文定义的N-保护基团的如本文定义的氨基。

如本文所用的，术语“N-保护基团”代表那些旨在保护氨基在合成程序期间免受不希望的反应的基团。常用的N-保护基团在Greene,“Protective Groups in OrganicSynthesis,”第3版(John Wiley&Sons,New York,1999)中公开，该文献以引用方式并入本文。N-保护基团包括酰基、芳酰基或氨甲酰基(诸如甲酰基)、乙酰基、丙酰基、新戊酰基、叔丁基乙酰基、2-氯乙酰基、2-溴乙酰基、三氟乙酰基、三氯乙酰基、邻苯二甲酰基、邻硝基苯氧基乙酰基、α-氯丁酰基、苯甲酰基、4-氯苯甲酰基、4-溴苯甲酰基、4-硝基苯甲酰基，以及手性助剂，诸如经保护或未保护的D-氨基酸、L-氨基酸、或D,L-氨基酸，诸如丙氨酸、亮氨酸、苯丙氨酸等；含磺酰基的基团，诸如苯磺酰基、对甲苯磺酰基等；形成氨基甲酸酯的基团，诸如苄氧羰基、对氯苄氧羰基、对甲氧基苄氧羰基、对硝基苄氧羰基、2-硝基苄氧羰基、对溴苄氧羰基、3,4-二甲氧基苄氧羰基、3,5-二甲氧基苄氧羰基、2,4-二甲氧基苄氧羰基、4-甲氧基苄氧羰基、2-硝基-4,5-二甲氧基苄氧羰基、3,4,5-三甲氧基苄氧羰基、1-(对联苯基)-1-甲基乙氧基羰基、α,α-二甲基-3,5-二甲氧基苄氧羰基、二苯甲氧羰基、叔丁氧羰基、二异丙基甲氧羰基、异丙氧羰基、乙氧羰基、甲氧羰基、烯丙氧羰基、2,2,2,-三氯乙氧羰基、苯氧羰基、4-硝基苯氧羰基、芴基-9-甲氧羰基、环戊氧羰基、金刚烷氧羰基、环己氧羰基、苯基硫代羰基等、烷芳基诸如苄基、三苯甲基、苄氧甲基等、和甲硅烷基诸如三甲基甲硅烷基等。优选的N-保护基团是甲酰基、乙酰基、苯甲酰基、新戊酰基、叔丁基乙酰基、丙氨酰基、苯磺酰基、苄基、叔丁氧羰基(Boc)、和苄氧羰基(Cbz)。

如本文所用的术语“硝基”代表-NO₂基团。

“寡核苷酸”是指具有5′-端、3′-端以及在5′-端与3′-端之间的内部位置处的一个或多个核苷酸的核苷酸聚合物。寡核苷酸可包括可合成并用于碱基对识别的本领域已知的DNA、RNA或它们的任何衍生物。寡核苷酸不必具有连续的碱基，而是可散布有接头部分。寡核苷酸聚合物和核苷酸(例如，经修饰的DNA或RNA)可包括天然碱基(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷、或二氨基嘌呤)、碱基类似物(例如，2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴代尿苷、C5-氟代尿苷、C5-碘代尿苷、C5-甲基胞苷、7-去氮腺苷、7-去氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、和2-硫代胞苷)、经修饰的碱基(例如，经2′取代的核苷酸，诸如经2′-O-甲基化的碱基和2′-氟代碱基)、插入的碱基、经修饰的糖(例如，2′-氟代核糖；核糖；2′-脱氧核糖；阿拉伯糖；己糖；脱水己醇；阿卓糖醇；甘露醇；环己烷基；环己烯基；还具有氨基磷酸酯骨架的吗啉代基；锁核酸(LNA，例如，其中核糖的2′-羟基通过C_1-6亚烷基或C_1-6杂亚烷基桥连接至相同核糖的4′-碳，其中示例性桥包括亚甲基、亚丙基、醚或氨基桥)；乙二醇核酸(GNA，例如R-GNA或S-GNA，其中核糖被附接到磷酸二酯键的乙二醇单元取代)；苏糖核酸(TNA，其中核糖被α-L-苏呋喃糖基-(3′→2′取代))；和/或核糖中的氧的取代(例如，用S、Se或亚烷基，诸如亚甲基或亚乙基))、经修饰的主链(例如，肽核酸(PNA)，其中2-氨基-乙基-甘氨酸键联取代核糖和磷酸二酯主链)、和/或经修饰的磷酸根基团(例如，硫代磷酸根、5′-N-亚磷酰胺、磷硒酸根、硼代磷酸根、硼代磷酸酯、氢膦酸根、氨基磷酸酯、二氨基磷酸酯、烷基或芳基膦酸根、磷酸三酯、桥连的氨基磷酸酯、桥连的硫代磷酸酯、和桥连的亚甲基-膦酸酯)。寡核苷酸可以是单链的(例如，发夹)，双链的，或具有其他二级或三级结构(例如，茎环结构、双螺旋、三链体、四链体等)。

“一锅连接”是指在一个反应器或一个反应容器中一起进行至少两个连续连接(例如，两个连接、三个连接、四个连接、五个连接、六个连接、七个连接、八个连接、九个连接、十个连接、或多于十个连接)的连接方法。通常，一锅连接避免了分离过程步骤和中间体的纯化。

“可操作地连接”或“可操作地缔合”是指两种或更多种化学结构以某种方式直接或间接地连接在一起，以便通过它们预期经历的各种操纵保持连接。通常，化学实体和头段以间接方式可操作地缔合(例如，通过合适的接头共价地缔合)。例如，接头可以是双官能部分，该双官能部分具有化学实体附接位点和头段附接位点。

如本文所用的术语“O保护基”代表那些旨在保护含氧(例如，苯酚、羟基、或羰基)基团在合成程序期间免受不希望的反应的基团。常用的O-保护基团在Greene,“ProtectiveGroups in Organic Synthesis,”第3版(John Wiley&Sons,New York,1999)中公开，该文献以引用方式并入本文。示例性的O-保护基团包括酰基、芳酰基、或氨甲酰基，诸如甲酰基、乙酰基、丙酰基、新戊酰基、叔丁基乙酰基、2-氯乙酰基、2-溴乙酰基、三氟乙酰基、三氯乙酰基、邻苯二甲酰基、邻硝基苯氧基乙酰基、α-氯丁酰基、苯甲酰基、4-氯苯甲酰基、4-溴苯甲酰基、t-丁基二甲基甲硅烷基、三-异-丙基甲硅烷氧基甲基、4,4′-二甲氧基三苯甲基、异丁酰基、苯氧乙酰基、4-异丙基苯氧乙酰基、二甲基亚胺甲基氨基、和4-硝基苯甲酰基；烷基羰基基团，诸如酰基、乙酰基、丙酰基、新戊酰基等；任选经取代的芳基羰基基团，诸如苯甲酰基；甲硅烷基基团，诸如三甲基甲硅烷基(TMS)、叔丁基二甲基甲硅烷基(TBDMS)、三-异-丙基甲硅烷氧基甲基(TOM)、三异丙基甲硅烷基(TIPS)等；与羟基形成醚的基团，诸如甲基、甲氧基甲基、四氢吡喃基、苄基、对甲氧基苄基、三苯甲基等；烷氧羰基，诸如甲氧羰基、乙氧羰基、异丙氧羰基、n-异丙氧羰基、正丁氧羰基、异丁氧羰基、仲丁氧羰基、叔丁氧羰基、2-乙基己氧羰基、环己氧羰基、甲氧羰基等；烷氧基烷氧羰基基团，诸如甲氧基甲氧基羰基、乙氧基甲氧基羰基、2-甲氧基乙氧基羰基、2-乙氧基乙氧基羰基、2-丁氧基乙氧基羰基、2-甲氧基乙氧基甲氧基羰基、烯丙氧基羰基、炔丙氧基羰基、2-丁烯氧基羰基、3-甲基-2-丁烯氧基羰基等；卤代烷氧羰基，诸如2-氯乙氧基羰基、2-氯乙氧基羰基、2,2,2-三氯乙氧基羰基等；任选经取代的芳基烷氧羰基基团，诸如苄氧羰基、对甲基苄氧羰基、对甲氧基苄氧羰基、对硝基苄氧羰基、2,4-二硝基苯氧羰基、3,5-二甲基苄氧羰基、对氯苄氧羰基、对溴苄氧-羰基、芴基甲氧羰基等；和任选经取代的芳氧羰基基团，诸如苯氧羰基、对硝基苯氧羰基、邻硝基苯氧羰基、2,4-二硝基苯氧羰基、对甲基苯氧羰基、间甲基苯氧羰基、邻溴苯氧羰基、3,5-二甲基苯氧羰基、对氯苯氧羰基、2-氯-4-硝基苯氧-羰基等)；经取代的烷基、芳基和烷芳基醚(例如，三苯甲基；甲基硫代甲基；甲氧基甲基；苄氧甲基；甲硅烷氧基甲基；2,2,2,-三氯乙氧基甲基；四氢吡喃基；四氢呋喃基；乙氧基乙基；1-[2-(三甲基甲硅烷基)乙氧基]乙基；2-三甲基甲硅烷基乙基；叔丁基醚；对氯苯基、对甲氧基苯基、对硝基苯基、苄基、对甲氧基苄基、和硝基苄基)；甲硅烷基醚(例如，三甲基甲硅烷基；三乙基甲硅烷基；三异丙基甲硅烷基；二甲基异丙基甲硅烷基；叔丁基二甲基甲硅烷基；叔丁基二苯基甲硅烷基；三苄基甲硅烷基；三苯基甲硅烷基；和二苯基甲基甲硅烷基)；碳酸根(例如，甲基、甲氧基甲基、9-芴基甲基；乙基；2,2,2-三氯乙基；2-(三甲基甲硅烷基)乙基；乙烯基、烯丙基、硝基苯基；苄基；甲氧基苄基；3,4-二甲氧基苄基；和硝基苄基)；羰基保护基团(例如，缩醛和缩酮基团，诸如二甲基缩醛、1,3-二氧戊环等；缩羰酯基团；和二噻烷基团，诸如1,3-二噻烷、1,3-二噻茂烷等)；羧酸保护基团(例如，酯基，诸如甲酯、苄酯、叔丁酯、原酸酯等；和噁唑啉基团。

“正交重叠架构”是指如下一对双链寡核苷酸，其中每个双链寡核苷酸的每个重叠区仅与另一个双链寡核苷酸的重叠区互补。互补的重叠区域可以作为连接两个寡核苷酸的模板，以增加连接的选择性和效率。特别地，这种架构可以允许在相同的反应容器(例如，一锅连接)中添加多个标签，因为重叠区模板化了仅具有互补重叠区的标签之间的连接事件，从而导致连接选择性。

如本文所用的术语“氧基”代表＝O。

如本文所用的前缀“全氟”代表如本文所定义的烷基，其中与烷基键合的每个氢基都已被氟基取代。例如，全氟烷基基团由三氟甲基、五氟乙基等例示。

如本文所用的术语“受保护的羟基”是指与O-保护基团键合的氧原子。

“光反应性基团”是指参与由紫外辐射、可见光辐射或红外辐射的吸收引起的反应，从而产生键联的反应性基团。本文描述了示例性的、非限制性的光反应基团。

“引物”是指能够与寡核苷酸模板退火，然后被聚合酶以模板依赖性方式延伸的寡核苷酸。

“保护基团”是指旨在保护寡核苷酸的3′-端或5′-端，或保护化学实体、支架或结构单元的一个或多个官能团在制造、标记或使用经寡核苷酸编码的文库的一个或多个结合步骤期间免受不希望的反应的基团。常用的保护基团在Greene,“Protective Groups inOrganic Synthesis,”第4版(John Wiley&Sons,New York,2007)中公开，该文献以引用方式并入本文。寡核苷酸的示例性保护基团包括不可逆保护基团，诸如双脱氧核苷酸和双脱氧核苷(ddNTP或ddN)，更优选地是羟基的可逆保护基团，诸如酯基团(例如，O-(α-甲氧基乙基)酯、O-异戊酰基酯和O-乙酰丙酯)、三苯甲基(例如，二甲氧基三苯甲基和单甲氧基三苯甲基)、呫吨基基团(例如，9-苯基呫吨-9-基和9-(对甲氧基苯基)呫吨-9-基)、酰基基团(例如苯氧乙酰基和乙酰基)、和甲硅烷基基团(例如，叔丁基二甲基甲硅烷基)。用于化学实体、支架和结构单元的示例性、非限制性保护基团包括用于保护氨基在合成过程期间免受不希望的反应的N-保护基团(例如，酰基；芳酰基；氨甲酰基，诸如甲酰基、乙酰基、丙酰基、新戊酰基、叔丁基乙酰基、2-氯乙酰基、2-溴乙酰基、三氟乙酰基、三氯乙酰基、邻苯二甲酰基、邻硝基苯氧基乙酰基、α-氯丁酰基、苯甲酰基、4-氯苯甲酰基、4-溴苯甲酰基、4-硝基苯甲酰基，以及手性助剂，诸如经保护或未保护的D-氨基酸、L-氨基酸、或D,L-氨基酸，诸如丙氨酸、亮氨酸、苯丙氨酸等；含磺酰基的基团，诸如苯磺酰基、对甲苯磺酰基等；形成氨基甲酸酯的基团，诸如苄氧羰基、对氯苄氧羰基、对甲氧基苄氧羰基、对硝基苄氧羰基、2-硝基苄氧羰基、对溴苄氧羰基、3,4-二甲氧基苄氧羰基、3,5-二甲氧基苄氧羰基、2,4-二甲氧基苄氧羰基、4-甲氧基苄氧羰基、2-硝基-4,5-二甲氧基苄氧羰基、3,4,5-三甲氧基苄氧羰基、1-(对联苯基)-1-甲基乙氧基羰基、α,α-二甲基-3,5二甲氧基苄氧基羰基、二苯甲氧基羰基、叔丁氧羰基、二异丙基甲氧羰基、异丙氧羰基、乙氧羰基、甲氧羰基、烯丙氧基羰基、2,2,2,-三氯乙氧基羰基、苯氧基羰基、4-硝基苯氧基羰基、芴基-9-甲氧羰基、环戊氧羰基、金刚烷氧羰基、环己氧羰基、苯基硫代羰基等；烷芳基基团，诸如苄基、三苯基甲基、苄氧甲基等；和甲硅烷基，诸如三甲基甲硅烷基等；其中优选的N-保护基团是甲酰基、乙酰基、苯甲酰基、新戊酰基、叔丁基乙酰基、丙氨酰基、苯磺酰基、苄基、叔丁氧羰基(Boc)和苄氧羰基(Cbz))；用于保护羟基免受合成过程期间的不希望反应的O-保护基团(例如，烷基羰基基团，诸如酰基、乙酰基、新戊酰基等；任选经取代的芳基羰基基团，诸如苯甲酰基；甲硅烷基基团，诸如三甲基甲硅烷基(TMS)、叔丁基二甲基甲硅烷基(TBDMS)、三-异-丙基甲硅烷氧基甲基(TOM)、三异丙基甲硅烷基(TIPS)等；与羟基形成醚的基团，诸如甲基、甲氧基甲基、四氢吡喃基、苄基、对甲氧基苄基、三苯甲基等；烷氧羰基，诸如甲氧羰基、乙氧羰基、异丙氧羰基、n-异丙氧羰基、正丁氧羰基、异丁氧羰基、仲丁氧羰基、叔丁氧羰基、2-乙基己氧羰基、环己氧羰基、甲氧羰基等；烷氧基烷氧羰基基团，诸如甲氧基甲氧基羰基、乙氧基甲氧基羰基、2-甲氧基乙氧基羰基、2-乙氧基乙氧基羰基、2-丁氧基乙氧基羰基、2-甲氧基乙氧基甲氧基羰基、烯丙氧基羰基、炔丙氧基羰基、2-丁烯氧基羰基、3-甲基-2-丁烯氧基羰基等；卤代烷氧羰基，诸如2-氯乙氧基羰基、2-氯乙氧基羰基、2,2,2-三氯乙氧基羰基等；任选经取代的芳基烷氧羰基基团，诸如苄氧羰基、对甲基苄氧羰基、对甲氧基苄氧羰基、对硝基苄氧羰基、2,4-二硝基苄氧羰基、3,5-二甲基苄氧羰基、对氯苄氧羰基、对溴苄氧羰基等；和任选经取代的芳氧羰基基团，诸如苯氧羰基、对硝基苯氧羰基、邻硝基苯氧羰基、2,4-二硝基苯氧羰基、对甲基苯氧羰基、间甲基苯氧羰基、邻溴苯氧羰基、3,5-二甲基苯氧羰基、对氯苯氧羰基、2-氯-4-硝基苯氧基-羰基等)；羰基保护基团(例如，缩醛和缩酮基团，诸如二甲基缩醛、1,3-二氧戊环等；缩羰酯基团；和二噻烷基团，诸如1,3-二噻烷、1,3-二噻茂烷等)；羧酸保护基团(例如，酯基团，诸如甲酯、苄酯、叔丁酯、原酸酯等；甲硅烷基基团，诸如三甲基甲硅烷基，以及本文所述的任何甲硅烷基；和噁唑啉基团)；和磷酸根保护基团(例如，任选经取代的酯基团，诸如甲酯、异丙酯、2-氰基乙酯、烯丙酯、叔丁酯、苄酯、芴基甲酯、2-(三甲基甲硅烷基)乙酯、2-(甲磺酰基)乙酯、2,2,2-三氯乙酯、3′,5′-二甲氧基苯偶因酯、对羟基苯甲酰甲基酯等)。

“接近寡核苷酸的端”或“在寡核苷酸的端附近”是指与其他剩余端相比更接近或更接近所述端。例如，在寡核苷酸的3′-端附近的部分或基团与5′-端相比接近或更接近3′-端。在特定实施方案中，在寡核苷酸的3′-端附近的部分或基团在距3′-端一个、两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个或更多个核苷酸内。在其他实施方案中，在寡核苷酸的5′-端附近的部分或基团在距5′-端一个、两个、三个、四个、五个、六个、七个、八个、九个、十个、十五个或更多个核苷酸内。

“纯化”是指除去反应混合物中存在的任何未反应的产物或任何可能降低要在后续步骤中使用的化学或生物剂的活性的剂。纯化可以包括待去除的未反应产物或试剂的色谱分离、电泳分离和沉淀中的一者或多者。

“传递引物(relay primer)”是指能够与寡核苷酸模板退火的寡核苷酸，该寡核苷酸模板在与引物杂交的模板区域中包含至少一个核苷酸间键联，该至少一个核苷酸间键联降低了聚合酶读段或易位的能力。在杂交时，一个或多个传递引物允许由聚合酶以模板依赖性方式延伸。

如本文所用的“重组”是指作为至少两个不同杂交事件的结果的聚合酶产物的生成。

“可逆固定”是指以允许在温和条件下从支持物上脱离的方式固定缀合物或经编码的化学实体(例如，吸附、离子结合、亲和结合、螯合、二硫键形成、寡核苷酸杂交、小分子-小分子相互作用、可逆化学、蛋白质-蛋白质相互作用、和疏水相互作用)。

“小分子”药物或“小分子”药物候选物是指分子量低于约1000道尔顿的分子。小分子可以是有机的或无机的，分离的(例如，从化合物文库或天然来源分离的)，或通过已知化合物的衍生获得的。

如本文所用的术语“螺环基”代表C_2-7亚烷基双自由基，其两端键合至母体基团的相同碳原子以形成螺环基；以及还有C_1-6杂亚烷基二自由基，其两端键合至相同的原子。形成螺环基基团的杂烯基可以含有一个、两个、三个或四个独立选自由氮、氧和硫组成的组的杂原子。在一些实施方案中，螺环基基团包括一个至七个碳，不包括双自由基附接至的碳原子。螺环基基团可以任选地被1个、2个、3个或4个取代基取代，所述取代基在本文中提供为环烷基和/或杂环基基团的任选取代基。

如本文所用的术语“立体异构体”是指化合物可能具有的所有可能的不同异构和构象形式(例如，本文所述的任何式的化合物)，特别是基本分子结构的所有可能的立体化学和构象异构形式，所有非对映异构体、对映异构体和/或构象异构体。本发明的一些化合物可以以不同的互变异构形式存在，所有互变异构形式都包括在本发明的范围内。

“基本上”是指表现出感兴趣的特征或特性的全部或接近全部范围或程度的定性条件。生物学领域中的普通技术人员应理解，生物学和化学现象很少(如果有的话)进行完全和/或行进至完全或实现或避免绝对结果。因此，在本文中使用术语“基本上”来获取许多生物学和化学现象中固有的潜在完全性不足。

“基本上同一性”或“基本上同一”是指当两个序列进行最佳比对时，多肽或多核苷酸序列分别具有与参考序列相同的多肽或多核苷酸序列，或者分别具有特定百分比的氨基酸残基或核苷酸与参考序列内对应位置处的氨基酸残基或核苷酸相同。例如，与参考序列“基本上同一”的氨基酸序列与参考氨基酸序列具有至少50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的同一性。对于多肽，比较序列的长度将通常为至少5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个连续氨基酸，更优选至少25个、50个、75个、90个、100个、150个、200个、250个、300个或350个连续氨基酸，并且最优选全长氨基酸序列。对于核酸，比较序列的长度通常为至少5个连续核苷酸，优选至少10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个连续核苷酸，最优选全长核苷酸序列。序列同一性可以使用序列分析软件(例如，Genetics Computer Group,University of Wisconsin BiotechnologyCenter,1710University Avenue,Madison,WI 53705的序列分析软件包)在默认设置下进行测量。这种软件可以通过对各种取代、缺失和其他修饰分配同源性程度来匹配相似的序列。

“巯基反应性”是指表现出与巯基(即，-SH)的反应性的基团。示例性的、非限制性的巯基反应性基团包括卤代乙酰基、马来酰亚胺、氮丙啶、丙烯酰基、烯烃(例如，α,β-不饱和羰基或乙烯基砜)、和二硫键(例如，吡啶基二硫化物)。

如本文所用的术语“磺酰基”代表-S(O)₂-基团。

“标签”或“寡核苷酸标签”是指这样的寡核苷酸，该寡核苷酸的至少部分编码信息。这种信息的非限制性示例包括(例如，通过结合反应)添加组分(即，支架或结构单元，如分别在支架标签或结构单元标签中)、文库中的头段、文库的身份(即，如在身份标签中)、文库的用途(即，如在用途标签中)和/或文库成员的来源(即，如在来源标签中)。

“尾段”是指文库的寡核苷酸部分，其在添加所有前述标签后附接至缀合物或经编码的化学实体，并编码文库的身份、文库的用途和/或文库成员的来源。

如本文所用的术语“硫醇”代表-SH基团。

“形成三唑的基团”是指在反应(例如，Huisgen 1,3-偶极环加成)中与第二个形成三唑的基团(例如，任选经取代的叠氮基)反应以形成三唑基团的基团(例如，任选经取代的炔基)。

“挥发性”是指在大气压下或在低于大气压的压力下，在约25℃(例如，约20-30℃)下容易蒸发。挥发性化合物的示例是沸点在15℃与100℃之间(例如，在15℃与50℃之间、在20℃与50℃之间、在25℃与50℃之间、或在30℃与50℃之间)的化合物。包含该挥发性化合物的混合物可以通过蒸发该挥发性化合物来分离，从而留下一种或多种挥发性较低的化合物。

根据以下具体实施方式和权利要求书，其他特征和优点将变得显而易见。

附图说明

图1A和图1B示出了经纯化的DBCO-HP006的LCMS。

图2A和图2B示出了与接头1和DBCO-HP006缀合的它莫西芬(tamoxifen)的LCMS。

图3A和图3B图示了与接头1和DBCO-HP006缀合的elacestrant(RAD1901)的LCMS。

图4A和图4B示出了与接头1和DBCO-HP006缀合的巴多昔芬(bazedoxifene)的LCMS。

图5A和图5B示出了与接头1和DBCO-HP006缀合的17β-雌二醇的LCMS。

图6A和图6B示出了与接头1和DBCO-HP006缀合的(Z)-4-羟基它莫西芬的LCMS。

图7A和图7B示出了与接头1和DBCO-HP006缀合的1,3,5-三(4-羟基苯基)-4-丙基-1H-吡唑(PPT)的LCMS。

图8A和图8B示出了与接头1和DBCO-HP006缀合的1,3-双(4-羟基苯基)-4-甲基-5-[4-(2-哌啶基乙氧基)苯酚]-1H-吡唑(MPP)的LCMS。

图9A和图9B示出了与接头1和DBCO-HP006缀合的WAY 200070的LCMS。

图10A和图10B示出了与接头1和DBCO-HP006缀合的雌三醇的LCMS。

图11A和图11B示出了与接头1和DBCO-HP006缀合的二芳基丙腈(diarylpropionitrile,DPN)的LCMS。

图12示出了寡核苷酸头段、头段延伸、和四个标签的一锅连接的产物，并示出了产物的凝胶图像。

具体实施方式

本公开的特征在于一种用寡核苷酸标签标记预先存在的化合物的大文库(例如，包含数百万个单独化合物的文库)，以便用鉴定信息编码文库的每个成员的方法。然后，可以针对作为单独经编码的化合物的混合物的靶标(例如，治疗靶标，诸如蛋白质)来筛选所得的经编码的文库。这实现了用于鉴定感兴趣的化合物(例如，药物先导物、药物候选物、和/或工具化合物)的稳健且快速的方法。

经编码的化学实体

本发明的特征在于经编码的化学实体，所述经编码的化学实体包含化学实体(例如，预先存在的化学实体)、双官能接头、一个或多个寡核苷酸标签、和头段，所述头段(i)通过双官能接头与化学实体可操作地缔合；和(ii)与一个或多个寡核苷酸标签可操作地缔合。下面进一步描述了包含化学实体、双官能接头、一个或多个寡核苷酸标签和头段的经编码的化学实体的文库。

化学实体

预先存在的化学实体(例如，化合物)或成员的文库可包括一种或多种独特的化合物。

双官能接头

头段与化学实体之间的双官能接头可以变化以提供合适的连接部分和/或以增加头段在有机溶剂中的溶解度。多种可将头段与小分子文库偶联起来的接头是商购可得的。双官能接头通常由直链或支链组成，并且可包含C_1-10烷基、具有1至10个原子的杂烷基、C_2-10烯基、C_2-10炔基、C_5-10芳基、具有3至20个原子的环系或多环系、磷酸二酯、肽、寡糖、寡核苷酸、低聚物、聚合物、或聚烷基乙二醇(例如，聚乙二醇，诸如-(CH₂CH₂O)_nCH₂CH₂-，其中n是从1至50的整数)，或它们的组合。

双官能接头可以在头段与文库的化学实体之间提供合适的连接部分。在某些实施方案中，双官能接头包括三个部分。部分1可以是与DNA形成共价键的反应性基团，例如羧酸，其优选由N-羟基琥珀酰亚胺(NHS)酯活化以与DNA上的氨基基团(例如，经氨基修饰的dT)反应；用于(借助于标准寡核苷酸化学实现)修饰单链头段的5′-端或3′-端的亚酰胺；化学反应性对(例如，任选在Cu(I)催化剂存在下的叠氮基-炔烃环加成，或本文所述的任何化学反应性对)；或者硫醇反应性基团。部分2也可以是反应基团，其与化学实体形成共价键，该化学实体可以是结构单元A_n或支架。这种反应性基团是例如胺、硫醇、叠氮化物、或炔烃。部分3可以是在部分1与部分2之间引入的具有可变长度的化学惰性连接部分。这种连接部分可以是乙二醇单元链(例如，不同长度的PEG)、烷烃、烯烃、多烯链、或肽链。接头可包含分支或插入物，所述分支或插入物具有用于提高头段在有机溶剂中的溶解度的疏水部分(诸如，苯环)，以及用于文库检测目的的荧光部分(例如荧光素或Cy-3)。头段设计中的疏水残基可随接头设计而变化，以促进在有机溶剂中的文库合成。例如，头段和接头的组合被设计为具有适当的残基，其中辛醇:水系数(P_oct)是例如1.0至2.5。

对于给定的小分子文库设计，可以根据经验选择接头，使得文库可以在有机溶剂中合成，例如在15％、25％、30％、50％、75％、90％、95％、98％、99％、或100％的有机溶剂中合成。在文库合成之前，可以使用模型反应来改变接头，以选择对于将头段溶解在有机溶剂中来说合适的链长。示例性的接头包括那些具有增加的烷基链长度、增加的聚乙二醇单元、带正电荷的支化物质(以中和头段上的磷酸根负电荷)、或增加量的疏水性(例如，添加苯环结构)的接头。

接头也可以是支化的，其中支化接头在本领域中是众所周知的，并且示例可以由对称或不对称的二倍子(doubler)或对称的三倍子(treb ler)组成。参见例如，Newcome等人，Dendritic Molecules:Concepts,Synthesis,Perspectives,VCH Publishers(1996)；Boussif等人，Pro c.Natl.Acad.Sci.USA 92:7297-7301(1995)；和Jansen等人，Science266:1226(1994)。

接头任选地包含一个或多个交联基团。交联基团的示例包括叠氮化物、碳烯前体基团、和炔烃。

交联基团

交联基团是指包含能够化学附接至蛋白质或其他分子上的特定官能团(例如，伯胺、巯基)的反应性官能团的基团。交联基团的示例包括巯基反应性交联基团(例如，包含马来酰亚胺、卤代乙酰基、吡啶基二硫化物、硫代磺酸根或乙烯基砜的基团)、胺反应性交联基团(例如，包含酯诸如NHS酯、亚氨酸酯和五氟苯基酯、或羟甲基膦的基团)、羧基反应性交联基团(例如，包含伯胺或仲胺、醇或硫醇的基团)、羰基反应性交联基团(例如，包含酰肼或烷氧基胺的基团)、和形成三唑的交联基团(例如，包含叠氮化物或炔烃的基团)、或生成碳烯的基团(诸如氮丙啶)。

可以与交联基团反应的化学反应性官能团的示例包括但不限于氨基、羟基、巯基、羧基、羰基、碳水化合物基团、邻位二醇、硫醚、2-氨基醇、2-氨基硫醇、胍基、咪唑基、和酚基团。

巯基反应性部分的示例包括XCH₂CO-型的α-卤代乙酰基化合物(其中X＝Br、Cl、或I)，该化合物表现出对巯基的特殊反应性，但是也可用于修饰咪唑基、硫醚、苯酚和氨基，如由Gurd,Methods Enzymol.11:532(1967)所述。N-马来酰亚胺衍生物也被认为对巯基基团有选择性，但是在某些条件下可另外用于偶联至氨基基团。如果连接是通过形成二硫桥发生的，则通过氨基转化引入巯基的试剂，诸如2-亚氨基硫杂环戊烷(Traut等人，Biochemistry 12:3266(1973))，可认为是巯基试剂。

为氨基反应性的反应性部分的示例包括例如烷基化剂和酰化剂。代表性的烷基化剂包括：

(i)α-卤代乙酰基化合物，其在不存在反应性硫醇基团的情况下显示出对氨基基团的特异性，并且是XCH₂CO-型的(其中X＝Br、Cl、或I)，例如，如由Wong Biochemistry 24:5337(1979)所述；

(ii)N-马来酰亚胺衍生物，其可以通过迈克尔型反应或通过加成到环羰基基团上的酰化作用与氨基反应，例如如Smyth等人，J.Am.Chem.Soc.82:4600(1960)和Biochem.J.91:589(1964)所述；

(iii)芳基卤化物，诸如反应性硝基卤代芳族化合物；

(iv)烷基卤化物，如例如由McKenzie等人，J.Protein Chem.7:581(1988)所述；

(v)能够与氨基基团形成希夫碱的醛和酮，所形成的加合物通常通过还原稳定化以得到稳定的胺；

(vi)环氧衍生物，诸如表氯醇和双环氧乙烷，所述环氧衍生物可以与氨基、巯基或酚羟基基团反应；

(vii)s-三嗪的含氯衍生物，其对亲核试剂诸如氨基、巯基和羟基有很强反应性；

(viii)基于以上详述的s-三嗪化合物的氮丙啶，例如如由Ross,J.Adv.CancerRes.2:1(1954)所述，该氮丙啶通过开环与亲核试剂诸如氨基反应；

(ix)方酸二乙酯，如由Tietze,Chem.Ber.124:1215(1991)所述；和

(x)α-卤代烷基醚，其是由于由醚氧原子引起的活化作用而比普通烷基卤化物更具反应性的烷基化剂，如由Benneche等人，Eur.J.Med.Chem.28:463(1993)所述。

代表性的氨基反应性酰化剂包括：

(i)异氰酸酯和异硫氰酸酯，特别是芳族衍生物，它们分别形成稳定的脲和硫脲衍生物；

(ii)磺酰氯，其已经由Herzig等人，Biopolymers 2:349(1964)进行了描述；

(iii)酰卤；

(iv)活性酯，诸如硝基苯酯或N-羟基琥珀酰亚胺酯；

(v)酸酐，诸如混合的、对称的、或N-羧基酸酐；

(vi)用于酰胺键形成的其他有用试剂，例如如由M.Bodansky,Principles ofPeptide Synthesis,Springer-Verlag,1984所述；

(vii)酰基叠氮化物，例如，其中叠氮基是使用亚硝酸钠从预制的酰肼衍生物生成的，如由Wetz等人，Anal.Biochem.58:347(1974)所述；

(viii)亚氨酸酯，其在与氨基反应时形成稳定的脒，例如如由Hunter和Ludwig,J.Am.Chem.Soc.84:3491(1962)所述；和

(ix)卤代杂芳基基团，诸如卤代吡啶或卤代嘧啶。

醛和酮可以与胺反应以形成希夫碱，该希夫碱可以通过还原性胺化而有利地稳定化。烷氧基氨基部分容易地与酮和醛反应以产生稳定的烷氧基胺，例如如由Webb等人在Bioconjugate Chem.1:96(1990)中所述。

为“羧基反应性”的反应性部分的示例包括重氮化合物，诸如重氮乙酸酯和重氮乙酰胺，它们以高特异性反应以生成酯基团，例如如由Herriot,Adv.Protein Chem.3:169(1947)所述。也可以采用羧基改性试剂，诸如碳二亚胺，其通过O-酰脲形成之后是酰胺键形成进行反应。

示例性的交联基团包括2′-吡啶基二硫化物、4′-吡啶基二硫化物碘乙酰基、马来酰亚胺、硫酯、烷基二硫化物、烷基胺二硫化物、硝基苯甲酸二硫化物、酸酐、NHS酯、醛、烷基氯化物、炔烃、和叠氮化物。

头段

在文库中，头段将每个化学实体可操作地连接至其编码寡核苷酸标签。通常，头段是具有两个可进一步衍生化的官能团的起始寡核苷酸，其中第一官能团将化学实体(或其组分)可操作地连接至头段，并且第二官能团将一个或多个标签可操作地连接至头段。双官能接头可以任选地用作头段与化学实体之间的连接部分。

头段的官能团可用于与化学实体的组分形成共价键，并与标签形成另一个共价键。该组分可以是小分子的任何部分，诸如具有多样性节点的支架或结构单元。或者，头段可经衍生化以提供终止于官能团(例如，羟基、胺、羧基、巯基、炔基、叠氮基或磷酸根基团)中的接头(即，将头段与文库中待形成的小分子分离的连接部分)，该接头用于与化学实体的组分形成共价键联。接头可以在内部位置中的一个内部位置处附接至5′-端，或者附接至头段的3′-端。当接头附接至内部位置中的一个内部位置时，接头可以可操作地连接至经衍生化的碱基(例如，尿苷的C5位置)上，或者使用本领域已知的标准技术置于寡核苷酸内部。本文描述了示例性接头。

头段可以有任何有用的结构。头段的长度可以是例如1个至100个核苷酸，优选5个至20个核苷酸，并且最优选5个至15个核苷酸。头段可以是单链或双链的，并且可以由天然或经修饰的核苷酸组成，如本文所述。例如，化学部分可以可操作地连接至头段的3′-端或5′-端。在特定实施方案中，头段包括由序列内的互补碱基形成的发夹结构。例如，化学部分可以可操作地连接至头段的内部位置、3′-端、或5′-端。

通常，头段在5′-端或3′-端上包含非自身互补序列，该非自身互补序列允许通过聚合、酶促连接或化学反应结合寡核苷酸标签。头段可以允许连接寡核苷酸标签和任选的纯化和磷酸化步骤。在添加最后一个标签之后，可以向最后一个标签的5′-端添加附加的衔接子序列。示例性的衔接子序列包括引物结合序列或具有标记(例如，生物素)的序列。在使用许多(例如，100个)结构单元和对应标签的情况下，可以在寡核苷酸合成步骤期间采用混合及拆分策略来产生必要数量的标签。这种用于DNA合成的混合及拆分策略在本领域中是已知的。在针对感兴趣的靶标选择结合实体之后，可以通过PCR扩增所得的文库成员。

经编码的化学实体的寡核苷酸头段可以任选地包含一个或多个引物结合序列。例如，头段在发夹的环区域中具有如下序列，该序列用作用于扩增的引物结合区域，其中与头段中的序列相比，该引物结合区域具有更高的针对其互补引物(例如，其可以包含侧接的标识符区域)的解链温度。在其他实施方案中，经编码的化学实体在编码一个或多个结构单元的一个或多个标签的任一侧上包含两个引物结合序列(例如，为了能够进行PCR)。或者，头段可以在5′-端或3′-端上含有一个引物结合序列。在其他实施方案中，头段是发夹，并且环区域形成引物结合位点，或者引物结合位点通过寡核苷酸与环的3′侧上的头段杂交而引入。含有与头段的3′-端同源的区域并且在其5′-端携带引物结合区(例如，为了能够进行PCR反应)的引物寡核苷酸可与头段杂交，并且可含有编码结构单元的标签、或结构单元的加成。引物寡核苷酸可含有附加信息，诸如随机化核苷酸的区域，例如长度为2至16个核苷酸的随机化核苷酸区域，该附加信息被包括以供用于生物信息学分析。

头段可任选地包含发夹结构，其中该结构可以通过任何有用的方法实现。例如，头段可包含诸如通过沃森-克里克DNA碱基配对(例如，腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶)和/或通过摆动碱基配对(例如，鸟嘌呤-尿嘧啶、肌苷-尿嘧啶、肌苷-腺嘌呤、和肌苷-胞嘧啶)形成分子间碱基配对伴侣的互补碱基。在另一个示例中，头段可包含经修饰或取代的核苷酸，与未修饰的核苷酸相比，该经修饰或取代的核苷酸可形成更高亲和力的双链体，这种经修饰或取代的核苷酸是本领域中已知的。

经编码的化学实体的寡核苷酸头段可以任选地包含一个或多个允许进行检测的标记。例如，头段、一个或多个寡核苷酸标签、和/或一个或多个引物序列可包含同位素、放射成像剂、标记物、示踪剂、荧光标记(例如，罗丹明或荧光素)、化学发光标记、量子点、和报告分子(例如，生物素或his标签)。

在其他实施方案中，头段或标签可以经修饰以支持在半水、还原或非水(例如，有机)条件下的溶解度。头段或标签的核苷酸碱基可以通过以下方式变得更疏水：用脂肪族链修饰例如T或C碱基的C5位置，而不会显著破坏它们与其互补碱基氢键键合的能力。示例性的经修饰或取代的核苷酸是5′-二甲氧基三苯甲基-N4-二异丁基氨基亚甲基-5-(1-丙炔基)-2′-脱氧胞苷、3′-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5′-二甲氧基三苯甲基-5-(1-丙炔基)-2′-脱氧尿苷、3′-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；5′-二甲氧基三苯甲基-5-氟-2′-脱氧尿苷、3′-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺；和5′-二甲氧基三苯甲基-5-(芘-1-基-乙炔基)-2′-脱氧尿苷、或3′-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。

此外，头段寡核苷酸可以散布有促进在有机溶剂中的溶解度的修饰。例如，偶氮苯亚磷酰胺可将疏水部分引入头段设计中。疏水亚酰胺到头段中的这种插入可以发生在分子中的任何地方。然而，一旦选择完成或如果使用微阵列分析进行标签解卷积，插入就不能干扰在文库合成或随后的PCR期间使用附加DNA标签的后续标记。对本文所述的头段设计的这种加成将使头段可溶于例如15％、25％、30％、50％、75％、90％、95％、98％、99％、或100％的有机溶剂中。因此，将疏水残基加成到头段设计中允许改善在半水或非水(例如，有机)条件下的溶解度，与此同时使头段能够进行寡核苷酸标记。此外，随后引入文库中的DNA标签也可以在T或C碱基的C5位置处进行修饰，使得它们也使文库更疏水并可溶于有机溶剂中，以供用于文库合成的后续步骤。

在特定实施方案中，头段和第一标签可以是相同的实体，即，可以构建多个头段-标签实体，该多个头段-标签实体均共享共同的部分(例如，引物结合区)并且都在另一部分(例如，编码区)中不同。这些可以在“拆分”步骤中利用，并在它们正在编码的事件发生后合并。

在特定实施方案中，头段可以编码信息，例如通过包含编码第一拆分步骤的序列或编码文库身份的序列，诸如通过使用与特定文库相关的特定序列。

寡核苷酸标签

本文所述的寡核苷酸标签(例如，标签、或头段的一部分、或尾段的一部分)可用于编码任何有用的信息，诸如分子、化学实体的一部分、组分(例如，支架或结构单元)的加成、文库中的头段、文库身份、一个或多个文库成员的使用(例如，在文库的等分试样中的成员的使用)、和/或文库成员的来源(例如，通过使用来源序列)。

寡核苷酸中的任何序列都可用来编码任何信息。因此，一个寡核苷酸序列可以用于多于一个目的，诸如用于编码两种或更多种类型的信息、或用于提供还编码一种或多种类型的信息的起始寡核苷酸。例如，第一标签可编码第一结构单元的加成以及文库的鉴定。在另一个示例中，头段可用于提供起始寡核苷酸，该起始寡核苷酸将化学实体可操作地连接至标签，其中头段另外包含编码文库身份的序列(即，文库鉴定序列)。因此，本文所述的信息中的任何信息都可以编码在单独的寡核苷酸标签中，或者可以组合并编码在相同的寡核苷酸序列(例如，寡核苷酸标签，诸如标签、或头段)中。

结构单元序列编码结构单元的身份和/或与使用结构单元进行的结合反应的类型。该结构单元序列被包含在标签中，其中该标签可任选地包含下述一种或多种类型的序列(例如，文库鉴定序列、用途序列和/或来源序列)。

文库鉴定序列编码特定文库的身份。为了允许混合两个或更多个文库，文库成员可诸如在文库鉴定标签(即，包含文库鉴定序列的寡核苷酸)中、在连接的标签中、在头段序列的一部分中、或在尾段序列中包含一个或多个文库鉴定序列。这些文库鉴定序列可用于推导编码关系，其中标签的序列被翻译并与化学(合成)历史信息相关联。因此，这些文库鉴定序列允许将两个或更多个文库混合在一起以进行选择、扩增、纯化、测序等。

用途序列编码文库的单个等分试样中的一个或多个文库成员的历史(即，用途)。例如，可以用不同的反应条件、结构单元和/或选择步骤来处理单独的等分试样。具体而言，该序列可用于鉴定此类等分试样并推断它们的历史(用途)，从而允许将具有不同历史(用途)(例如，不同的选择实验)的相同文库的等分试样混合在一起，以便将样品混合在一起以供用于选择、扩增、纯化、测序等。这些用途序列可以包含在头段、尾段、标签、用途标签(即，包含用途序列的寡核苷酸)、或本文所述的任何其他标签(例如，文库鉴定标签或来源标签)中。

来源序列是具有任何有用长度(例如，约6个寡核苷酸)的简并(随机、随机产生的)寡核苷酸序列，其编码文库成员的来源。该序列用于随机地将在各方面在其他方面都相同的文库成员细分为可通过序列信息区分的实体，使得对衍生自独特祖先模板(例如，选定的文库成员)的扩增产物的观察结果可以与对衍生自同一祖先模板(例如，选定的文库成员)的多个扩增产物的观察结果区分开来。例如，在文库形成之后和选择步骤之前，每个文库成员可包含不同的来源序列，诸如在来源标签中包含不同的来源序列。在选择之后，可以扩增选定的文库成员以产生扩增产物，并且可以观察预期包含来源序列(例如，在来源标签中)的文库成员部分，并将其与其他文库成员中的每个文库成员中的来源序列进行比较。由于来源序列是简并的，所以每个文库成员的每个扩增产物都应具有不同的来源序列。然而，在扩增产物中观察到相同的来源序列可指示来源于相同模板分子的多个扩增子。当需要在扩增前而不是扩增后确定编码标签群体的统计学和人口统计学时，可以使用来源标签。这些来源序列可以包含在头段、尾段、标签、来源标签(即，包含来源序列的寡核苷酸)、或本文所述的任何其他标签(例如，文库鉴定标签或用途标签)中。

本文所述的任何类型的序列都可以包含在头段中。例如，头段可包含结构单元序列、文库鉴定序列、用途序列、或来源序列中的一者或多者。

本文所述的这些序列中的任一序列都可以包含在尾段中。例如，尾段可包含文库鉴定序列、用途序列、或来源序列中的一者或多者。

本文所述的任何标签可以包含在5′-端或3′-端处或附近的具有固定序列的连接物。该连接物通过提供反应性基团(例如，化学反应性基团或光反应性基团)或通过为允许键联的剂(例如，连接物中的嵌入部分或可逆反应性基团的试剂或为交联寡核苷酸的剂)提供位点来促进键联(例如，化学键联)的形成。每个5′-连接物可为相同或不同的，并且每个3′-连接物可为相同或不同的。在具有多于一个标签的示例性、非限制性的缀合物或经编码的化学实体中，每个标签可以包括5′-连接物和3′-连接物，其中每个5′-连接物具有相同的序列并且每个3′-连接物具有相同的序列(例如，其中5′-连接物的序列可以与3′-连接物的序列相同或不同)。连接物提供了可用于一个或多个键联的序列。为了允许进行传递引物的结合或交联寡核苷酸的杂交，连接物可包含一个或多个允许联键(例如，聚合酶对其具有降低的读段或易位能力的键联，诸如化学键联)的官能团。

这些序列可包含本文针对寡核苷酸所述的任何修饰，诸如一种或多种促进在有机溶剂(例如，本文所述的任何有机溶剂，诸如针对头段的有机溶剂)中的溶解度、提供天然磷酸二酯键联的类似物(例如，硫代磷酸酯类似物)、或提供一种或多种非天然寡核苷酸(例如，经2′-取代的核苷酸，诸如经2′-O-甲基化的核苷酸和2′-氟代核苷酸，或本文所述的任何非天然寡核苷酸)的修饰。

这些序列可包含本文针对寡核苷酸所述的任何特征。例如，这些序列可包含在少于20个核苷酸的标签中(例如，如本文所述)。在其他示例中，包含这些序列中的一个或多个序列的标签具有大致相同的质量(例如，每个标签具有的质量与编码特定变量的特定标签组内的平均质量相差约+/-10％)；缺乏引物结合(例如，恒定)区；缺乏恒定区；或者具有长度减小(例如，长度小于30个核苷酸、小于25个核苷酸、小于20个核苷酸、小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸、或小于7个核苷酸)的恒定区。

用于这种长度的文库和寡核苷酸的测序策略可以任选地包括串联或连锁策略以分别增加读段保真度或测序深度。特别地，缺乏引物结合区的经编码的文库的选择已在针对SELEX的文献中有所描述，诸如描述于Jarosch等人，Nucleic Acids Res.34:e86(2006)中，该文献以引用方式并入本文。例如，文库成员可以经修饰(例如，在选择步骤之后)以在缀合物或经编码的化学实体的5′-端上包含第一衔接子序列并且在缀合物或经编码的化学实体的3′-端上包含第二衔接子序列，其中第一序列与第二序列基本上互补并导致形成双链体。为了进一步提高产量，将两个固定的悬垂核苷酸(例如，CC)添加至5′-端。在特定实施方案中，第一衔接子序列是5′-GTGCTGC-3′(SEQ ID NO:1)，并且第二衔接子序列是5′-GCAGCACCC-3′(SEQ ID NO:2)。

酶促连接和化学连接技术

各种连接技术可用于将标签添加至头段以产生经编码的化学实体。因此，本文所述的结合步骤中的任何结合步骤可包括任何有用的连接技术，诸如酶促连接和/或化学连接。这些结合步骤可包括将一个或多个标签添加至经编码的化学实体的寡核苷酸头段。在特定实施方案中，用于任何寡核苷酸的连接技术提供了所得产物，该所得产物可经转录和/或逆转录以允许对文库进行解码或以允许使用一种或多种DNA或RNA聚合酶进行模板依赖性聚合。

通常，酶促连接产生具有天然磷酸二酯键的寡核苷酸，该寡核苷酸可以被转录和/或逆转录。示例性酶连接方法在本文中提供，并且包括使用一种或多种RNA或DNA连接酶，诸如T4 RNA连接酶1或2、T4 DNA连接酶、CircLigase^TM ssDNA连接酶、CircLigase^TM II ssDNA连接酶、和ThermoPhage^TM ssDNA连接酶(Prokazyme Ltd.,Reykjavik,Iceland)。

化学连接也可用于产生能够被转录或逆转录的寡核苷酸，或者以其他方式用作用于模板依赖性聚合酶的模板。可能需要测试化学连接技术提供能够被转录或逆转录的寡核苷酸的功效。这种功效可以通过任何有用的方法，诸如液相色谱-质谱、RT-PCR分析、PCR分析、电泳和/或测序来测试。

用于促进酶促连接或化学连接的反应条件

本文所述的方法可包括一种或多种促进头段与标签之间或两个标签之间的酶促或化学连接的反应条件。这些反应条件包括：如本文所述在标签内使用经修饰的核苷酸；使用具有不同长度的供体标签和受体标签并改变标签的浓度；使用不同类型的连接酶，以及它们的组合(例如，CircLigase^TM DNA连接酶和/或T4 RNA连接酶)，并改变它们的浓度；使用具有不同分子量的聚乙二醇(PEG)，并改变它们的浓度；使用非PEG拥挤剂(例如，甜菜碱或牛血清白蛋白)；改变连接的温度和持续时间；改变各种剂的浓度，所述试剂包括ATP、Co(NH₃)₆Cl₃、酵母无机焦磷酸盐；使用酶促或化学磷酸化的寡核苷酸标签；使用经3′-保护的标签；和使用预腺苷化的标签。这些反应条件还包括化学连接。

头段和/或标签可包括一个或多个经修饰或经取代的核苷酸。在优选的实施方案中，头段和/或标签包含一个或多个促进酶促连接的经修饰或经取代的核苷酸，诸如2′-O-甲基核苷酸(例如，2′-O-甲基鸟嘌呤或2′-O-甲基尿嘧啶)、2′-氟核苷酸、或用作连接底物的任何其他经修饰的核苷酸。或者，头段和/或标签经修饰以包含一个或多个化学反应性基团以支持化学连接(例如，任选经取代的炔基和任选经取代的叠氮基)。任选地，标签寡核苷酸在两个端处被化学反应性基团官能化，并且任选地，这些端中的一个端被保护，使得可以独立地处理所述基团并且可以减少副反应(例如，减少聚合副反应)。

如本文所述，产生磷酸二酯、膦酸酯或硫代磷酸酯键联的化学连接可以通过使5′-磷酸酯或3′-磷酸酯、膦酸酯、或硫代磷酸酯与5′-羟基基团或3′-羟基基团在氰基咪唑和二价金属离子诸如Zn²⁺存在下的反应来执行。

酶促连接可包含一种或多种连接酶。示例性连接酶包括CircLigase^TM ssDNA连接酶(EPICENTRE Biotechnologies,Madison,WI)、CircLigase^TM II ssDNA连接酶(也来自EPICENTRE Biotechnologies)、ThermoPhage^TM ssDNA连接酶(Prokazyme Ltd.,Reykjavik,Iceland)、T4 RNA连接酶、和T4 DNA连接酶。在优选实施方案中，连接包括使用RNA连接酶、或RNA连接酶和DNA连接酶的组合。连接还可包括一个或多个可溶性多价阳离子(诸如Co(NH₃)₆Cl₃)与一种或多种连接酶的组合。

在连接步骤之前或之后，可以纯化缀合物或经编码的化学实体。在一些实施方案中，可以纯化缀合物或经编码的化学实体以去除可能导致交叉反应并向编码过程中引入“噪声”的未反应的头段或标签。在一些实施方案中，可以纯化缀合物或经编码的化学实体以去除任何可抑制或降低连接酶的连接活性的试剂或未反应的起始材料。例如，正磷酸盐可能导致连接活性降低。在某些实施方案中，可能需要去除引入到化学或连接步骤中的实体，以使得能够进行后续的化学或连接步骤。本文描述了纯化缀合物或经编码的化学实体的方法。缀合物或经编码的化学实体的纯化可以通过可逆地固定缀合物或经编码的化学实体，之后在后续步骤之前进行纯化和释放来进行。

酶促连接和化学连接可包括平均分子量大于300道尔顿(例如，大于600道尔顿、3,000道尔顿、4,000道尔顿、5,000道尔顿、6,000道尔顿、7,000道尔顿、8,000道尔顿、9,000道尔顿、10,000道尔顿、15,000道尔顿、20,000道尔顿、25,000道尔顿、30,000道尔顿、35,000道尔顿、40,000道尔顿、或45,000道尔顿)的聚乙二醇。在特定实施方案中，聚乙二醇的平均分子量是约3,000道尔顿至9,000道尔顿(例如，3,000道尔顿至8,000道尔顿、3,000道尔顿至7,000道尔顿、3,000道尔顿至6,000道尔顿、和3,000道尔顿至5,000道尔顿)。在优选实施方案中，聚乙二醇的平均分子量为约3,000道尔顿至约6,000道尔顿(例如，3,300道尔顿至4,500道尔顿、3,300道尔顿至5,000道尔顿、3,300道尔顿至5,500道尔顿、3,300道尔顿至6,000道尔顿、3,500道尔顿至4,500道尔顿、3,500道尔顿至5,000道尔顿、3,500道尔顿至5,500道尔顿，以及3,500道尔顿至6,000道尔顿，诸如4,600道尔顿)。聚乙二醇可以以任何有用的量，诸如约25％(w/v)至约35％(w/v)，诸如30％(w/v)存在。

用于标记经编码的文库的方法

本文所述的方法可用于合成具有多种由寡核苷酸标签编码的化学实体的文库。本发明的特征在于用于将寡核苷酸标签与化学实体(例如，化合物，诸如预先存在的化合物)可操作地缔合，使得可以在标签的序列与化学实体的身份之间建立编码关系的方法。特别地，化学实体的身份可以从寡核苷酸中的碱基序列推断出来。使用这种方法，包含不同化学实体的文库可以用一组特定的标签进行编码。

通常，这些方法包括使用i)化学实体；ii)包含碳烯前体基团和交联基团的双官能接头；iii)包含寡核苷酸头段和交联基团的缀合物；和iv)被设计为彼此连接的寡核苷酸标签或标签的独特组合。一个寡核苷酸标签结合至寡核苷酸头段。结合可以通过任何有用的手段实现，诸如通过酶促结合(例如，与RNA连接酶和/或DNA连接酶中的一者或多者连接)或通过化学结合(例如，通过两个官能团之间，诸如亲核试剂与离去基团之间的取代反应)。

本发明描述了一种使用编码寡核苷酸的独特组合编码数百万个单独化学实体(例如，预先存在的化合物)的实用方法。作为示例，其中每个最终串连的标签集合具有设计化合物-接头-头段-标签A-标签B-标签C-标签D-尾段的编码策略可以用一个寡核苷酸头段、50个独特寡核苷酸标签A、50个独特寡核苷酸标签B、50个独特寡核苷酸标签C、50个独特寡核苷酸标签D和一个寡核苷酸尾段独特地编码625万(50×50×50×50)个化合物。这总共有200个独特的寡核苷酸标签、一个寡核苷酸头段和一个寡核苷酸尾段。头段和尾段可含有恒定引物结合序列，或者提供允许结合(例如，通过连接)引物结合序列的官能团，该引物结合序列用于扩增并且任选地用于聚类和测序。引物结合序列可用于对缀合物或经编码的化学实体的寡核苷酸标签进行扩增和/或测序。用于扩增和测序的示例性方法包括聚合酶链式反应(polymerase chain reaction,PCR)、直链扩增(linear chain amplification,LCR)、滚环扩增(rolling circle amplification,RCA)、或本领域已知的用于扩增或确定核酸序列的任何其他方法。分发这些寡核苷酸标签与它们将编码的单独化合物的良好特异性组合是很容易自动化的。

寡核苷酸标签可以是单链或双链的并且含有正交连接重叠，该正交连接重叠允许寡核苷酸标签以精确的空间次序连接，即使所有寡核苷酸被同时引入“一锅”反应混合物中也如此。寡核苷酸经适当修饰以供连接(例如，通过5′-磷酸化)。

用于筛选经编码的文库的方法

接下来，如本文所述，可以针对特征或功能测试和/或选择该文库。例如，经标记的化学实体的混合物可以被分成至少两个群体，其中第一群体富集了结合特定生物靶标的成员，并且第二群体是富集较少的(例如，通过阴性选择或阳性选择)。然后第一群体可以选择性地捕获(例如，通过从柱洗脱从而提供感兴趣的靶标，或者通过将等分试样与感兴趣的靶标一起孵育之后捕获蛋白质以及相关的文库成员并随后洗脱文库成员)，并且任选地进一步分析或测试，诸如使用任选的洗涤、纯化、阴性选择、阳性选择或分离步骤进行分析或测试。当包括文库洗脱步骤，该文库洗脱步骤例如使用限制性内切酶或蛋白酶裂解在文库成员的编码标签和基质内或它们之间或靶蛋白内的至少一个共价键时，这些方法的修改可以产生可逆或不可逆的共价靶标修饰物。

一旦已经鉴定出了来自第一文库的与感兴趣的靶标结合的预先存在的化合物，就可以针对感兴趣的靶标对预先存在的化合物的第二文库进行编码和筛选。

用于解码经编码的文库的方法

最后，选定群体中的经编码的化学实体的身份可以通过寡核苷酸标签的序列来确定。在将序列与经编码的文库成员标记历史相关联时，该方法可以鉴定文库的具有选定特征(例如，增加的与靶蛋白结合的趋势，并由此引发治疗效应)的单独成员。为了进一步测试和优化，然后可以通过合成带有或不带有它们相关联的寡核苷酸标签的经鉴定的文库成员，或者通过在使用或不使用通过反应性或光反应性接头元件进行的修饰的情况下直接获得用于构建文库的单独的预先存在的化合物，来制备候选治疗化合物。

本文所述的方法可包括任意数量的任选步骤以使库多样化或询问库的成员。对于本文所述的任何标记方法，连续“n”个标记可以用附加“n”个连接、分离和/或磷酸化步骤添加，或者替代地用“一锅”反应中发生的“连续”连接添加，以提供独特的组合连环标记集合。示例性任选步骤包括使用一种或多种限制性内切酶限制文库成员相关联的编码寡核苷酸；例如用任何修复酶(诸如本文所述的那些)修复相关联的编码寡核苷酸；将一个或多个衔接子序列连接至文库成员相关联的编码寡核苷酸(诸如一个或多个衔接子序列)的端中的一个或两个端，以提供用于扩增和测序的引发序列或提供用于固定化该序列的标记，诸如生物素；使用逆转录酶、转录酶或另一种模板依赖性聚合酶对缀合物或经编码的化学实体中的经装配的标签进行逆转录或转录，任选地之后进行逆转录；使用例如PCR扩增缀合物或经编码的化学实体中的经装配的标签；例如通过使用细菌转化、乳液形成、稀释、表面捕获技术等，生成缀合物或经编码的化学实体中的经装配的标签的一个或多个群体的克隆分离物；例如通过使用克隆分离物作为模板进行核苷酸的模板依赖性聚合，扩增该缀合物或经编码的化学实体中的经装配的标签的一个或多个群体的克隆分离物；以及例如，通过使用克隆分离物作为模板以用经荧光标记的核苷酸和可逆终止子化学进行模板依赖性聚合，来对该缀合物或经编码的化学实体中的经装配的标签的一个或多个群体的克隆分离物进行序列测定。本文描述了附加的用于对寡核苷酸标签进行扩增和测序的方法。

这些方法可用于例如在选择步骤中，鉴定和探索任何数量的具有特定特征或功能的化学实体。期望的特征或功能可以用作将文库划分成至少两个部分以及伴随地富集文库中具有所需功能的成员或相关成员中的至少一个的基础。在特定实施方案中，该方法包括鉴定小的药物样文库成员，该小的药物样文库成员结合治疗上感兴趣的蛋白质或使治疗上感兴趣的蛋白质失活。在这些情况中的任何情况下，寡核苷酸标签编码文库成员的化学历史，并且在每种情况下，化学可能性的集合可以由任何特定的标签组合来表示。

在一个实施方案中，使化学实体的文库或其一部分与生物靶标在适合于使文库的至少一个成员与该靶标结合的条件下接触，之后去除未与该靶标结合的文库成员，并分析与该靶标相关联的一个或多个寡核苷酸标签。该方法可以任选地包括通过本领域已知的方法扩增标签。示例性生物靶标包括酶(例如，激酶、磷酸酶、甲基化酶、去甲基化酶、蛋白酶、和DNA修复酶)、参与蛋白质:蛋白质相互作用的蛋白质(例如，受体的配体)、受体靶标(例如，GPCR和RTK)、离子通道、细菌、病毒、寄生虫、DNA、RNA、朊病毒、和碳水化合物。

在另一个实施方案中，与靶标结合的经编码的化学实体不进行扩增，而是直接进行分析。示例性分析方法包括微阵列分析，包括渐逝共振光子晶体分析；用于(例如，通过使用his标签)对标签进行解卷积的基于珠粒的方法；无标记光子晶体生物传感器分析(例如，来自SRU Biosystems,Inc.,Woburn,MA的

读取器)；或者基于杂交的方法(例如，通过使用与标签文库中存在的序列互补的经固定化的寡核苷酸的阵列)。

此外，化学反应性对可以容易地被包括在固相寡核苷酸合成方案中，并且将支持寡核苷酸的有效化学连接。此外，所得的经连接的寡核苷酸可以充当模板来用于使用一种或多种聚合酶进行模板依赖性聚合。因此，本文所述的用于标记经编码的文库的结合步骤中的任何结合步骤可以经修改以包括酶促连接和/或化学连接技术中的一者或多者。示例性连接技术包括酶促连接，诸如使用一种或多种RNA连接酶和/或DNA连接酶；和化学连接，诸如使用化学反应性对(例如，包括任选经取代的炔基和叠氮基官能团的对)。

在一些实施方案中，扩增可以任选地包括形成油包水乳液以产生多个水性微反应器。可以调节反应条件(例如，缀合物或经编码的化学实体的浓度和微反应器的大小)，以平均提供具有化合物文库的至少一个成员的微反应器。每个微反应器还可含有靶标、能够结合经编码的化学实体或该经编码的化学实体的一部分(例如，一个或多个标签)和/或结合靶标的单个珠粒、以及具有一种或多种执行核酸扩增所必需的试剂的扩增反应溶液。在微反应器中扩增标签后，标签的经扩增拷贝将与微反应器中的珠粒结合，并且可以通过任何有用的方法鉴定被包被的珠粒。

用于标记、筛选和解码预先存在的化学实体的经编码文库的一般策略

本文所述的方法可涉及在单化合物、单孔基础上将整个化学实体文库(例如，化合物集合)作为单独化学实体(例如，化合物)引入每个孔，类似于通常用于生成即用型分析板(assay-ready plate)的过程。在此之后可以在有机溶剂中以高相对浓度引入双官能接头(例如，3-(2-叠氮乙基)-3-甲基-3H-双吖丙啶)，之后进行辐照以活化氮丙啶基团，并允许在双官能接头与待编码化合物之间形成共价键联。随后的减压可以去除过量未反应的双官能接头和任选的有机溶剂中的全部或部分有机溶剂。在随后的步骤中，可以将双官能头段寡核苷酸与编码标签、连接酶和连接酶有适应力的缓冲液(ligase-competent buffer)的孔特异性组合一起引入每个孔中。编码标签被设计为通过仔细设计它们的连接接合部来以精确确定的次序连接至头段和彼此。头段还包含应变炔烃，该应变炔烃将在无铜点击反应中与连接至待编码的化合物的叠氮化物反应，因为铜可能干扰连接效率或特异性。

随后，可以将各个孔的内容物淬灭、合并，然后进一步纯化和浓缩为混合物，然后连接至含有文库鉴定编码序列以及其他标签序列(根据需要)的尾段。一旦生成，文库的等分试样就可以与其他经编码的文库组合地或不与其他经编码的文库组合地用于亲和介导的筛选。

标签的孔特异性组合的一锅连接允许标记预先存在的化合物的较大文库(例如，具有数百万种化合物的文库，而不是具有数千种化合物的文库)。此外，本发明允许将预先存在的化合物与挥发性双吖丙啶-叠氮化物接头一起孵育，该接头在辐照时可将所得碳烯插入化合物上的潜在多个反应位点中。此外，该方法允许在低压下去除未反应的交联剂，之后将叠氮化物缀合至头段。将预先存在的化合物的文库的HTS即用板通过单一连接用寡核苷酸标签的孔特异性组合编码。

传统的HTS通过以下方式利用靶标调节分子的基于活性的探索：检测它们对具有来源于生物化学(例如底物的酶促转化)、生物物理(例如经标记的探针置换)或生物(例如基于细胞的)的读出值的测定的影响。一般来说，这些测定是用低浓度的靶标(例如蛋白质)和高浓度的推定靶标调节分子(例如，为预先存在的化合物的文库的一部分的小分子化合物)进行的。这种筛选在很大程度上受到高浓度的小分子(诸如聚集介导的或不溶性介导的信号)导致的假象的混淆。

对相同但由寡核苷酸标签编码的化合物文库运行亲和介导的筛选的机会提供了确定在完全不同的测定环境下(例如，单独化合物浓度低)哪些化合物集合成员与靶蛋白相互作用的机会。此外，溶解度由经缀合的寡核苷酸赋予，从而提供了正交测定数据，该正交测定数据有助于从原始筛选中鉴定真正的命中。在许多情况下，利用预先存在的组合生成的经DNA编码的化学文库的项目的时间线的大于一半专门用于重新合成在亲和介导的文库筛选中富集的分子的脱DNA(off-DNA)形式。因此，预先存在的化合物的文库的编码加快了项目时间线，因为没有必要对在筛选中鉴定出的富集化合物进行重新合成，因为所有化合物都预先存在于原始文库或集合中。

预先存在的化合物的文库可以是制药公司用来探索靶蛋白的调节剂的化合物的集合。集合的单独成员可以等分到单独的隔室(例如多壁板的单独孔(例如96孔板、384孔板、或1536孔板))中。每个孔内的每种化合物可以通过与接头(例如挥发性双官能接头)一起孵育而反应。挥发性双官能接头的一个示例是低分子量化合物，该低分子量化合物包括双吖丙啶基团(碳烯前体)和叠氮化物基团(交联基团)。使双吖丙啶官能团与化合物在合适的反应条件(例如，通过辐照实现的光化学条件)下反应。辐照活化双吖丙啶基团，从而将其转化为碳烯。光化学活化的双吖丙啶可以将自身插入一系列共价键中，从而与设计时没有考虑缀合的分子形成共价键联，并且因为它们可以在单独分子内的多个位点反应，所以它们可以从多个载体中展示，从而允许探索通过在某些位置缀合而失活的分子。然后可以使用减压来去除挥发性的未反应双官能接头，接着可以将残余的官能化HTS化合物缀合至叠氮化物反应性寡核苷酸，然后通过引入寡核苷酸的组合进行编码，所述寡核苷酸已经被设计为以确定的次序彼此连接和与叠氮化物反应性寡核苷酸连接以生成寡核苷酸标签和引物结合序列的可扩增的串联集合。合适的挥发性双官能交联剂的示例有3-(2-叠氮乙基)-3-甲基-3H-双吖丙啶。

可以将单独可扩增的经编码的寡核苷酸-HTS甲板化合物(deck compound)进行组合，任选地进一步纯化和浓缩为混合物，并进行亲和介导的筛选，之后进行聚合酶介导的扩增和测序，以鉴定富集的文库成员。然后，可以通过在适当的活性测定中测试脱DNA形式的单独HTS甲板化合物来确定单独富集的HTS甲板化合物的靶标调节活性。不需要重新合成未标记的化合物，因为它们已经存在。

实施例

实施例1-标记预先存在的化合物

使化学实体与包含碳烯前体基团和第一交联基团的双官能接头反应以产生第一缀合物

化学实体来源于预先存在的化合物的文库，并分装到多孔板中，每孔一种化合物。这些化学实体可以在溶液中或干燥的，并且可以放置在96孔、384孔或1536孔或其他空间隔离的隔室中。

双官能接头(例如，挥发性双官能接头(volatile bifunctional linker,VBL))是合成或商业获得的。VBL的一个反应性基团可以光化学地反应以产生碳烯。另一个反应性基团是适用于点击化学的叠氮化物交联基团。VBL的示例是：

接头1(3-(2-叠氮基乙基)-3-甲基-3H-双吖丙啶)的合成报告于Liang等人，Angew.Chem.Int.编著Engl.56(10):2744-2748(2017)中。

然后将接头1和二甲基亚砜(DMSO)加入到该一系列多孔板的每个孔中，或其它空间上可寻址的隔室中，并在365nm下辐照30分钟。通过在减压(例如，约400托)和高温(例如，约25-30℃)下蒸发去除未反应的接头1，纯化每个孔中所得的第一缀合物。

每个第一缀合物具有以下结构：

其中CE表示包含学实体化的结构。

包含寡核苷酸头段和交联基团的第二缀合物的合成

包含寡核苷酸头段和交联基团的第二缀合物是从伯胺封端的寡核苷酸头段和包含二苯并环辛炔-氨基(DBCO)基团的接头合成的。胺封端的寡核苷酸头段的示例是头段1(SEQ ID NO:3)，其具有以下结构：

包含DBCO基团的接头的示例是接头2，其具有以下结构：

使头段1和接头2一起反应，使得接头2的NHS酯基团与头段1的胺基团反应以生成缀合物(缀合物2；SEQ ID NO:4)，该缀合物包含寡核苷酸头段和DBCO交联基团：

使用HPLC纯化缀合物2。

使第一缀合物与第二缀合物反应以产生第三缀合物

然后向每个孔中加入缀合物2在含水缓冲液中的溶液，并将所得混合物孵育以允许缀合物1的叠氮化物与缀合物2的应变炔烃之间的反应(例如，点击化学)，以产生缀合物3(SEQ ID NO:5)，该缀合物具有以下结构：

如本文所用的缀合物3的简化图示如下所示：

将寡核苷酸标签连接至第三缀合物的寡核苷酸头段

随后加入孔特异性，并且因此是化合物特异性的DNA标签的集合的水溶液，所述DNA标签通过仔细设计正交重叠架构而被设计为只允许一种连接次序。

编码策略的示例如下所示：

在该示例中，化合物集合是使用四寄存器标签系统(four-register tag system)编码的，在该四寄存器标签系统中化合物(例如，预先存在的化合物)呈现在板中，并且标签A编码每个板的行的身份，标签B编码每个板的列的身份，标签C编码每个板的身份，并且标签D的变化允许前面的标签随后在不同的情境中重复使用。如果总共有400个标签可用，在每个寄存器中平均分配，则总共有1亿个化合物可以被独特地编码。

在连接孵育完成后，将每个孔中的内容物合并并淬灭，例如用EDTA淬灭，从而将构成整个文库的单独经编码的化合物汇集在一起。将文库通过沉淀浓缩，并通过HPLC纯化。然后通过封闭标签或尾段的进一步连接封闭文库，这在扩增期间引入文库鉴定序列和用于引物结合的恒定序列，并且可以任选地含有有助于下游操作(包括聚类和测序)的其他标签和/或序列。

经编码的文库的筛选

然后，使用这种文库通过以下方式来探索能够与感兴趣的蛋白质或其他靶标结合的单独成员：与感兴趣的靶标一起孵育；捕获靶标、洗去未结合的文库成员；以及通过蛋白质变性、标签切割或特异性洗脱来洗脱蛋白质相关联的成员。然后对输出群体的编码DNA进行扩增和测序，并与来源于输入群体的对应样品进行比较，以鉴定在输出中富集的化合物。然后从预先存在的集合中获得感兴趣的化合物，并在靶标调节测定中进行测试，以确定哪些化合物可以被认为是命中。

实施例2-包含寡核苷酸头段和交联基团的缀合物DBCO-HP006的合成

利用头段HP006，该头段在其5′端被化学磷酸化，其序列为(p)CCTGTGTTZTTCACAGGCCT(SEQ ID NO:6)，其中Z代表mdC(TEG-氨基)修饰。

向300μL的HP006(10mM)水溶液中加入8μL水、25μL的Pierce 1M硼酸盐缓冲液pH8.5(Thermo Fisher)和167uL的DBCO-PEG4-NHS酯(BroadPharm)(30mM)的DMSO溶液。将混合物在室温下静置2天。向该混合物的62μL级分中加入乙醇(560μL)，并在离心后收集沉淀。将沉淀用80％乙醇(650μL)洗涤。将经洗涤的沉淀通过暴露于空气中进行干燥，然后在水(125μL)中重构。产物DBCO-HP006的浓度在纳米滴UV分光光度计上测定为2.7mM(90％)。

产物DBCO-HP006的LCMS如图1A和图1B所示。质谱证实了产物的身份(在负离子模式下观察到的m/z：857.2,979.7,1143.0；计算的m/z：[M-8H]^8-：857.2,[M-7H]^7-：979.8,[M-6H]^6-：1143.2)。

实施例3-将预先存在的化合物缀合至接头1和DBCO-HP006

向96孔天然彩色聚丙烯PCR板的每个孔的底部加入含有18mM或6mM的预先存在的化合物和200mM接头1的DMSO溶液。将该板在Alpha Innotech AIML-26透照仪上以365nm(6×8W)辐照10分钟。然后将每种反应混合物的2μL级分混合到20μL的25μMDBCO-HP006在1XT4 DNA连接酶缓冲液(由来自Thermo Fisher的10X连接酶缓冲液制成)中的溶液中，并在室温下静置过夜。

对12种预先存在的化合物进行这种缀合程序(表1)。通过LCMS分析粗缀合混合物。对于这十二种起始化合物中的十种，可以检测到具有预期m/z值的缀合产物。结果汇总在表1中。LCMS数据如图2A、图2B、图3A、图3B、图4A、图4B、图5A、图5B、图6A、图6B、图7A、图7B、图8A、图8B、图9A、图9B、图10A、图10B、图11A、图11B所示。

表1.将预先存在的化合物缀合至接头1和DBCO-HP006的LCMS分析结果的汇总

实施例4-寡核苷酸头段、头段延伸和四个可用于编码化合物身份的标签的一锅连接

将在其相应的5′端被化学磷酸化，序列为(p)TGGCTATCCTGGCTGAGG(SEQ ID NO:7)和(p)CAGCCAGGATAG(SEQ ID NO:8)的两种DNA寡核苷酸以等摩尔比混合以制成1mM双链EXT00001溶液。

将在其相应的5′端被化学磷酸化，序列为(p)CCAAAGAGTGGAGCTAAG(SEQ ID NO:9)和(p)AGCTCCACTCTT(SEQ ID NO:10)的两种DNA寡核苷酸用作预混的1mM双链标签A溶液。

将在其相应的5′端被化学磷酸化，序列为(p)GCTATGGAGCCACTACTT(SEQ ID NO:11)和(p)TAGTGGCTCCAT(SEQ ID NO:12)的两种DNA寡核苷酸用作预混的1mM双链标签B溶液。

将在其相应的5′端被化学磷酸化，序列为(p)AGCGGATCTAGCCAATGC(SEQ ID NO:13)和(p)TTGGCTAGATCC(SEQ ID NO:14)的两种DNA寡核苷酸用作预混的1mM双链标签C溶液。

将在其相应的5′端被化学磷酸化，序列为(p)CATACATACGCGACTGCA(SEQ ID NO:15)和(p)AGTCGCGTATGT(SEQ ID NO:16)的两种DNA寡核苷酸用作预混的1mM双链标签D溶液。

向六种双链寡核苷酸组分(最终浓度：20μM HP006、1.05摩尔当量的EXT00001、1.1摩尔当量的标签A、1.15摩尔当量的标签B、1.2摩尔当量的标签C、1.25摩尔当量的标签D)在1X连接酶缓冲液(使用来自Thermo Fisher的10X连接酶缓冲液)中的50μL混合物中加入1.5ul的T4 DNA连接酶(Thermo Fisher)。用相同的程序建立六个阴性对照反应，不同之处在于在每个阴性对照反应中，用等体积的水代替双链寡核苷酸组分中的一种双链寡核苷酸组分。将反应在热循环器中于16℃孵育2天。将反应混合物通过在含有溴化乙锭的4％E-凝胶高分辨率琼脂糖凝胶上进行电泳来进行分析。凝胶图像如图12所示。

一锅连接反应产生了一个比通过所有阴性对照反应产生的主要产物更长的主要DNA连接产物，证明了一锅连接反应以确定的顺序连接了所有寡核苷酸组分。

其他实施方案

本说明书中提到的所有出版物、专利申请和专利都以引用方式并入本文。

在不偏离本发明的范围和精神的情况下，所述方法和系统的各种修改和变化对于本领域技术人员而言将是明显的。尽管已结合具体实施方案对本发明进行了描述，但是应当理解所要求保护的本发明不应当不适当地限于此类具体所需实施方案。实际上，用于进行本发明的所述方式的各种修改对于医学、药理学或相关领域的技术人员而言是明显的，并且旨在包含在本发明的范围内。

序列表

<110> X-化学有限公司

<120> 用于标记和编码预先存在的化合物文库的方法

<130> 50719-060WO2

<150> US 62/878,563

<151> 2019-07-25

<160> 16

<170> PatentIn version 3.5

<210> 1

<211> 7

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 1

gtgctgc 7

<210> 2

<211> 9

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 2

gcagcaccc 9

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<220>

<221> 杂项特征

<222> (9)..(9)

<223> N是经TEG-氨基修饰的胸腺嘧啶

<400> 3

cctgtgttnt tcacaggcct 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<220>

<221> 杂项特征

<222> (9)..(9)

<223> N是经TEG-氨基和二苯并环辛炔-氨基修饰的胸腺嘧啶

<400> 4

cctgtgttnt tcacaggcct 20

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<220>

<221> 杂项特征

<222> (9)..(9)

<223> N是经TEG-氨基和三唑-氨基修饰的胸腺嘧啶

<400> 5

cctgtgttnt tcacaggcct 20

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<220>

<221> 杂项特征

<222> (9)..(9)

<223> N是经TEG-氨基修饰的胞嘧啶

<400> 6

cctgtgttnt tcacaggcct 20

<210> 7

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 7

tggctatcct ggctgagg 18

<210> 8

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 8

cagccaggat ag 12

<210> 9

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 9

ccaaagagtg gagctaag 18

<210> 10

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 10

agctccactc tt 12

<210> 11

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 11

gctatggagc cactactt 18

<210> 12

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 12

tagtggctcc at 12

<210> 13

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 13

agcggatcta gccaatgc 18

<210> 14

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 14

ttggctagat cc 12

<210> 15

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 15

catacatacg cgactgca 18

<210> 16

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成构建体

<400> 16

agtcgcgtat gt 12

Claims

1.一种产生经编码的化学实体的方法，所述方法包括：

(a)使化学实体与双官能接头在足以产生包含所述化学实体和第一交联基团的第一缀合物的条件下反应，所述双官能接头包含碳烯前体基团和所述第一交联基团；

(b)使所述第一缀合物与第二缀合物在足以产生包含所述化学实体和寡核苷酸头段的第三缀合物的条件下反应，所述第二缀合物包含所述寡核苷酸头段和第二交联基团；以及

(c)将第一寡核苷酸标签连接至所述第三缀合物的所述寡核苷酸头段，

从而产生经编码的化学实体。

2.如权利要求1所述的方法，其中所述双官能接头是挥发性的。

3.如权利要求1或2所述的方法，其中所述双官能接头具有以下结构：

A-L¹-R¹

式I

其中A是所述碳烯前体基团；

L¹是接头；并且

R¹是所述第一交联基团。

4.如权利要求1至3中任一项所述的方法，其中所述碳烯前体基团是光反应性碳烯前体基团。

5.如权利要求4所述的方法，其中所述光反应性碳烯前体基团是双吖丙啶。

6.如权利要求1至5中任一项所述的方法，其中所述碳烯前体基团包含以下结构：

7.如权利要求3至6中任一项所述的方法，其中L¹是C₁-C₆亚烷基。

8.如权利要求7所述的方法，其中L¹是C₂亚烷基。

9.如权利要求1至8中任一项所述的方法，其中所述第一交联基团是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。

10.如权利要求9所述的方法，其中所述第一交联基团是形成三唑的交联基团。

11.如权利要求1至10中任一项所述的方法，其中所述第一交联基团是叠氮基。

12.如权利要求1至11中任一项所述的方法，其中所述双官能接头具有以下结构：

13.如权利要求1至12中任一项所述的方法，其中所述第二缀合物具有以下结构：

B-L²-R²

式II

其中B是所述寡核苷酸头段；

L²是接头；并且

R²是所述第二交联基团。

14.如权利要求1至13中任一项所述的方法，其中所述寡核苷酸头段包含发夹结构。

15.如权利要求13或14所述的方法，其中所述第二交联基团是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。

16.如权利要求15所述的方法，其中所述第二交联基团是形成三唑的交联基团。

17.如权利要求16所述的方法，其中所述第二交联基团包括二苯并环辛炔基团。

18.如权利要求17所述的方法，其中所述第二交联基团包含以下结构：

19.如权利要求1至18中任一项所述的方法，其中所述方法还包括通过使包含寡核苷酸头段和交联基团的第四缀合物与式III的第五缀合物在足以产生所述第二缀合物的条件下反应来产生所述第二缀合物：

R³-L³-R⁴

式III

其中R³和R⁴独立地为交联基团；并且

L³是接头。

20.如权利要求19所述的方法，其中R³是形成三唑的交联基团。

21.如权利要求20所述的方法，其中R³包括二苯并环辛炔基团。

22.如权利要求20所述的方法，其中R³包含以下结构：

23.如权利要求19至22中任一项所述的方法，其中R⁴是巯基反应性交联基团、氨基反应性交联基团、羧基反应性交联基团、羰基反应性交联基团、或形成三唑的交联基团。

24.如权利要求23所述的方法，其中R⁴是氨基反应性交联基团。

25.如权利要求24所述的方法，其中R⁴包含N-羟基琥珀酰亚胺基团。

26.如权利要求19至25中任一项所述的方法，其中所述第二缀合物具有以下结构：

B-L⁴-R⁵

式IV

其中B是所述寡核苷酸头段；

L⁴是接头；并且

R⁵是所述第二交联基团。

27.如权利要求26所述的方法，其中所述第二交联基团是氨基基团。

28.如权利要求1至27中任一项所述的方法，其中所述方法还包括在步骤(c)之前，将头段延伸序列连接至所述头段。

29.如权利要求1至28中任一项所述的方法，其中所述方法还包括在步骤(c)之后将一个或多个另外的标签连接至所述经编码的化学实体。

30.如权利要求29所述的方法，其中所述方法还包括在步骤(c)之后将至少三个另外的标签连接至所述经编码的化学实体。

31.如权利要求30所述的方法，其中所述方法包括一锅连接。

32.如权利要求31所述的方法，其中所述一锅连接包括将所述头段延伸序列连接至所述头段，以及将所述至少三个另外的标签连接至所述经编码的化学实体。

33.如权利要求29至32中任一项所述的方法，其中所述第一寡核苷酸标签和所述一个或多个另外的标签包括正交重叠架构。

34.如权利要求1至33中任一项所述的方法，其中所述方法还包括将尾段连接至所述经编码的化学实体。

35.如权利要求1至34中任一项所述的方法，其中所述化学实体不包含N-H键或O-H键。

36.如权利要求1至35中任一项所述的方法，其中步骤(b)的所述条件不包括金属催化剂。

37.如权利要求1至36中任一项所述的方法，其中所述方法还包括在步骤(c)之后纯化所述经编码的化学实体。

38.如权利要求37所述的方法，其中所述纯化包括高效液相色谱(HPLC)。

39.如权利要求1至38中任一项所述的方法，其中步骤(a)的所述条件包括辐照。

40.一种文库，其包含通过权利要求1至39中任一项所述的方法产生的多个经编码的化学实体。

41.如权利要求40所述的文库，其中所述多个经编码的化学实体不是物理分离的。

42.如权利要求40或41所述的文库，其中所述多个经编码的化学实体包括至少1,000,000个不同的化学实体。

43.如权利要求40至42中任一项所述的文库，其中所述多个经编码的化学实体包括至少5,000,000个不同的化学实体。

44.如权利要求40至43中任一项所述的文库，其中所述多个经编码的化学实体包括至少10,000,000个不同的化学实体。

45.如权利要求40或41所述的文库，其中所述多个经编码的化学实体包括约1,000,000个至约5,000,000个不同的化学实体。

46.如权利要求40或41所述的文库，其中所述多个经编码的化学实体包括约5,000,000个至约10,000,000个不同的化学实体。

47.一种筛选多个化学实体的方法，所述方法包括：

(a)使靶标与通过权利要求1至39中任一项所述的方法制备的经编码的化学实体和/或权利要求40至46中任一项所述的文库接触；以及

(b)选择一个或多个与对照相比具有针对所述靶标的预定特征的经编码的化学实体，从而筛选出多个所述化学实体。

48.如权利要求47所述的方法，其中所述预定特征包括与对照相比，增加的对所述靶标的结合。