CN111295444A

CN111295444A - 用于寡核苷酸指导的组合化学的多项式编码

Info

Publication number: CN111295444A
Application number: CN201880070757.4A
Authority: CN
Inventors: 理查德·爱德华·瓦特斯; 迪维娅·卡尼卡尔
Original assignee: Haystack Sciences Corp
Current assignee: Haystack Sciences Corp
Priority date: 2017-09-25
Filing date: 2018-09-24
Publication date: 2020-06-16
Also published as: EP3688156A4; CA3076755C; EP3688156A1; US20200263163A1; CA3076755A1; WO2019060856A1

Abstract

本公开涉及多官能分子，包括根据式(I‑A)[(B1)_M‑L₁]_O‑G所述的分子和根据式(I)[(B₁)_M‑L₁]_O‑G‑[(L₂‑(B₂)_K]_P所述的分子，其中B₁、M、L₁、O、G、L₂、B₂、K和P在本文中定义，其中每个位置结构单元B1通过G中的1至5个编码区来鉴定，并且以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。还公开了制备这种多官能分子的方法，以及连续富集寡核苷酸编码文库的方法。本公开还涉及制备和使用这种多官能分子来鉴定能够结合靶分子的编码分子的方法。

Description

用于寡核苷酸指导的组合化学的多项式编码

技术领域

本公开涉及多官能分子，以及制备和使用所述多官能分子的多项式方法。所公开的方法的益处可以包括降低成本，提高产量和/或减少合成寡核苷酸编码分子所需的时间。本公开还提供了使用多官能分子来鉴定能够结合靶分子或具有其它所需性质如靶分子选择性或细胞渗透性的编码分子的方法。

背景技术

寡核苷酸编码文库可以提供指导大量具有不同性质和反应性的不同分子的组合合成和鉴定的有用方法。通常，寡核苷酸编码分子可包括拴系于寡核苷酸部分的编码部分，其中每个寡核苷酸编码区单独地与寡核苷酸部分所连接的编码部分相关联或鉴定其结构。寡核苷酸编码文库可含有数百万个寡核苷酸编码分子，并且可以对这些文库进行测定或选择实验，所述测定或选择实验被设计用于将具有所需性状的那些寡核苷酸编码分子与不具有所需性状的那些寡核苷酸编码分子分离。分离后，然后可通过PCR(聚合酶链反应)扩增具有所需性状的寡核苷酸编码分子的寡核苷酸部分，并使用常见的寡核苷酸测序技术进行测序。通过将序列信息与用于合成寡核苷酸编码分子的编码部分的合成步骤相关联，可以鉴定或推导具有所需特性的分子的身份。

合成寡核苷酸编码分子的一些方法要求每个合成步骤通过将寡核苷酸部分的编码区选择性地结合到固定在固体支撑物上的互补寡核苷酸阵列上，将多官能分子分选成子池。通过将寡核苷酸的特定序列选择性地结合到序列特异性杂交阵列，每个合成步骤分离、指导和编码构建寡核苷酸编码分子的编码部分的合成反应。因此，在过去的方法中，阵列中不同特征的数量限定了可以在每个合成步骤中使用的不同化学结构单元的最大数量。合成寡核苷酸编码分子的文库的传统方法还要求在每个合成步骤之前将序列特异性杂交阵列的每个特征暴露于要构建的多官能分子的寡核苷酸部分。该要求施加了寡核苷酸部分的编码区与被添加到编码部分的结构单元的严格一对一的关联性。该要求的益处包括一对一地推导或鉴定用于编码寡核苷酸编码分子的编码部分的合成步骤。另一个益处在于，寡核苷酸部分中不同编码区的数量越高，可以反应以构建编码部分的不同结构单元组合的数量就越高。

发明内容

如本文所认识到的，合成寡核苷酸编码分子的传统方法具有若干缺点。首先，文库中可能的不同寡核苷酸编码分子的数量随序列特异性杂交阵列上不同特征的数量而增加。因此，所需的不同寡核苷酸编码分子的数量越大，必须购买并固定以形成序列特异性杂交阵列的昂贵寡核苷酸的数量就越大。该费用可能成为显著的负担。

为了从数百万个不同分子的多样化文库中获得足够产量的寡核苷酸编码分子，必须为文库的每个成员提供足够的时间并使其与阵列的每个特征足够接近，以实现准确的分选。例如，一个分子上可能仅存在一个能够与杂交阵列的一个特征反应的编码区，因此确保这种分子具有足够的与所述一个特征反应的机会变得至关重要。这通常需要使整个分子文库以溶液形式流过或浸泡在串联杂交阵列的每个特征上。该方法施加了不切实际的高处理时间。另外，因为寡核苷酸上的编码区同时暴露于固定在杂交阵列上的大量不同寡核苷酸，所以交叉/错误杂交和错误分选的可能性相当大。

举例来说，假设杂交阵列具有两个特征，并且文库具有两个编码区。如果一半文库溶液通过一个特征，而同时一半文库溶液通过第二个特征，则一半文库将被捕获，即一半通过特征的文库DNA将具有正确的序列，一半则不具有。此外，假设通过两个特征的溶液被收集在同一小瓶中，然后分开，并且一半流过第一特征，而一半流过第二特征。同样，剩余DNA的一半将被捕获。每次将溶液收集在同一小瓶中，混合并流过所述两个特征时，剩余DNA的另一半将被捕获。在具有4个特征和4个编码区的相同方案下，每次通过将捕获全部DNA的仅1/4。如果存在384个特征和384个编码区，则每次通过仅捕获剩余DNA的1/384。因此，将文库同时暴露于杂交阵列的多个特征是缓慢分选、低产量和不准确合成的原因(recipe)。

考虑第二个实例：流过第一特征的溶液的一半独立地流过第二特征。然后，流过第二特征的溶液的一半独立地流过第一特征。该连续方法仅需两次操作即可捕获寡核苷酸的所有编码区。但是，特征数量越大，连续处理方法就变得越不实用。例如，虽然可以通过手动移取通过阵列的384个特征，但一次只能移取一个特征，由于操作、泄漏、溢出导致的蒸发和错误会降低该方法的效率和实用性，或导致需要昂贵的仪器。

因此，本文中认识到需要一种更有效的合成寡核苷酸编码分子的方法，所述方法具有更低的成本和/或更短的处理时间，同时保持或提供更高的产量、更大的简便性和更准确的合成。

本公开涉及多项式寡核苷酸指导和记录的多官能分子的组合合成的方法和分子，其特征为例如提高的产量、提高的分选保真度和提高的结构单元编码特异性。在某些实施方案中，所述多官能分子是根据式(I)所述的分子，

(I)[(B₁)_M—L₁]_O—G—[(L₂—(B₂)_K]_P

其中

G包括寡核苷酸，所述寡核苷酸包含至少两个编码区，其中所述至少两个编码区是单链的；

B₁是位置结构单元并且M表示1至20的整数；

B₂是位置结构单元并且K表示1至20的整数，其中B₁和B₂相同或不同，其中M和K相同或不同；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

其中在位置M处的每个位置结构单元B₁和/或在位置K处的每个位置结构单元B₂通过1至5个编码区来鉴定，并且以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。

在式(I)分子的某些实施方案中，G包括由式(C_N—(Z_N—C_N+1)_A)或(Z_N—(C_N—Z_N+1)_A)表示的序列，其中C是编码区，Z是非编码区，N是1至20的整数，并且A是1至20的整数；其中每个非编码区含有0至50个核苷酸并且任选是双链的。在式(I)分子的某些实施方案中，每个编码区含有6至50个核苷酸。在式(I)分子的某些实施方案中，每个编码区含有8至30个核苷酸。在式(I)分子的某些实施方案中，O或P中的至少一个是0。在式(I)分子的某些实施方案中，以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。在式(I)分子的某些实施方案中，以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。在式(I)分子的某些实施方案中，P是0；O是1；并且以位置结构单元的总数计约30％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。在式(I)分子的某些实施方案中，O是0；P是1；并且以位置结构单元的总数计约30％至100％的在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

公开了一种鉴定能够结合或选择靶分子的探针分子的方法。在鉴定探针分子的方法的某些实施方案中，所述方法包括：

将所述靶分子暴露于探针分子池，其中所述探针分子是根据式(I)、式(III)和/或式(IV)所述的，

去除至少一个不与所述靶分子结合的探针分子，

从没有从所述靶分子去除的至少一个探针分子扩增G的寡核苷酸以形成拷贝序列，

对所述拷贝序列进行测序以鉴定探针分子的每个编码区和编码区的组合，以进一步鉴定在位置M处的每个位置结构单元B₁和/或在位置K处的每个位置结构单元B₂。在鉴定探针分子的方法的某些实施方案中，所述方法包括对拷贝序列进行测序以鉴定探针分子的每个编码区和2至3个独立编码区的组合以进一步鉴定在位置M处的每个位置结构单元B₁和在位置K处的每个位置结构单元B₂中的至少一个。

本文公开了形成式(I)的分子的方法。在形成式(I)分子的方法的某些实施方案中，所述方法包括：

提供至少一个第一杂交阵列，所述至少一个第一杂交阵列包含固定在所述至少一个第一杂交阵列上的至少一个第一单链反密码子寡聚物，其中固定在所述至少一个第一杂交阵列上的所述至少一个第一单链反密码子寡聚物能够与式(II)分子的第一编码区杂交：

(II)[(B₁)_(M-1)—L₁]_O—G—[(L₂—(B₂)_(K-1))_P

其中

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

其中在位置M处的每个位置结构单元B₁和/或在位置K处的每个位置结构单元B₂通过1至5个编码区来鉴定，并且以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定；

通过使式(II)分子的第一编码区与固定在所述至少一个第一杂交阵列上的所述至少一个第一单链反密码子寡聚物杂交，将式(II)分子池分选成第一组子池；

将所述式(II)分子的第一组子池从所述至少一个第一杂交阵列释放到单独的容器中；

提供至少一个第二杂交阵列，所述至少一个第二杂交阵列包含固定在所述至少一个第二杂交阵列上的至少一个第二单链反密码子寡聚物，其中固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物能够与式(II)分子的第二编码区杂交；

通过将所述式(II)分子的第二编码区与固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物杂交，将式(II)分子的第一组子池中的每一个或至少一个独立地分选成第二组子池；

提供结构单元B₁和B₂中的至少一个；以及

使所述结构单元B₁和B₂中的至少一个与所述式(II)分子反应以形成式(I)分子的子池：

(I)[(B₁)_M—L₁]_O—G—[(L₂—(B₂)_K]_P

其中

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

在形成式(I)分子的方法的某些实施方案中，所述方法进一步包括，在反应步骤的步骤之前，(a)使式(II)分子的第二组子池从至少一个第二杂交阵列释放到第二组单独容器中；(b)提供至少一个第三杂交阵列，所述至少一个第三杂交阵列包含固定在所述至少一个第三杂交阵列上的至少一个第三单链反密码子寡聚物，其中固定在所述至少一个第三杂交阵列上的所述至少一个第三单链反密码子寡聚物能够与式(II)分子的第三编码区杂交；(c)通过使所述式(II)分子的第三组子池的第三编码区与固定在所述至少一个第三第二杂交阵列上的所述至少一个第三单链反密码子寡聚物杂交，将至少一个子池从式(II)分子的第二组子池独立地分选成第三组子池；以及任选地，重复步骤(a)、(b)和(c)。在形成式(I)分子的方法的某些实施方案中，每个编码区含有6至50个核苷酸。在形成式(I)分子的方法的某些实施方案中，每个编码区含有8至30个核苷酸。在形成式(I)分子的方法的某些实施方案中，O或P中的至少一个是0。在形成式(I)分子的方法的某些实施方案中，以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。在形成式(I)分子的方法的某些实施方案中，以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。在形成式(I)分子的方法的某些实施方案中，P是0；O是1；并且以位置结构单元的总数计约30％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。在形成式(I)分子的方法的某些实施方案中，O是0；P是1；并且以位置结构单元的总数计约30％至100％的在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

附图说明

当结合附图阅读时，将更好地理解前述发明内容以及实施方案的以下详细描述。为了说明的目的，在附图中示出一些实施方案，它们可能是优选的。应理解，所描绘的实施方案不限于所示的精确细节。

图1是使用单个编码区来指导合成多官能分子的步骤的方法的一个实施方案的图示。

图2是说明使用单个编码区来指导多官能分子的合成的两个步骤的流程图。

图3是使用两个编码区的组合来指导合成多官能分子的步骤的方法的一个实施方案的图示。

图4是说明使用两个编码区的组合来指导多官能分子的合成的两个步骤的流程图。

图5是凝胶电泳实验的照片，其中分子的实施方案被消化并分离以确定基于特异性杂交的富集是否正在发生。

具体实施方式

除非另有说明，否则所有测量均以标准公制单位计。

除非另有说明，否则不带具体数量的指称物的所有情形都可以指一个或多于一个指称物。

除非另有说明，否则短语“至少一个”是指一个或多于一个的对象。例如，“H₁和H₂中的至少一个”是指H₁、H₂或两者。

除非另有说明，否则术语“约”是指所描述并四舍五入为最接近整数的非百分数的±10％。例如，约100mm将包括90至110mm。除非另有说明，否则术语“约”是指百分数的±5％。例如，约20％将包括15％至25％。当关于范围来讨论术语“约”时，则所述术语是指小于下限和大于上限的适当量。例如，约100至约200mm将包括90至220mm。

除非另有说明，否则术语“杂交”和“杂交的”包括Watson-Crick碱基配对，其对于DNA来说包括鸟嘌呤-胞嘧啶和腺嘌呤-胸腺嘧啶(G-C和A-T)配对，以及对于RNA来说包括鸟嘌呤-胞嘧啶和腺嘌呤-尿嘧啶(G-C和A-U)配对。通常，对于称为反密码子或反编码区的核苷酸互补链，这些术语用于核苷酸链选择性识别的情形。

术语“选择性杂交”、“选择性分选”和“选择性识别”是指互补寡核苷酸链相对于非互补寡核苷酸链的选择性为3:1至100:1以上。

术语“多官能分子”是指含有寡核苷酸和至少一个编码部分的本公开的分子。

术语“编码部分”是指多官能分子的一个或多个部分，其仅含有结构单元，例如位置结构单元B₁和B₂。术语“编码部分”不包括例如接头，即使这些结构可以作为编码部分的合成过程的一部分添加。

术语“编码分子”是指在多官能分子的编码部分从多官能分子的其余部分去除或分离时将成为或形成的分子。

术语“探针分子”是指用于确定多官能分子的哪个编码部分或哪个编码分子能够结合靶分子或选择所需特性如靶分子选择性或细胞渗透性的分子。术语“探针分子”可包括多官能分子。

术语“靶分子”是指分子或结构。例如，结构包括多聚大分子复合物，例如核糖体和脂质体。

术语“编码探针分子”与术语多官能分子可互换使用。

短语“位置结构单元的总数”是指每个编码部分中存在的结构单元的总数。

术语“鉴定的”或“鉴定”是指寡核苷酸部分的编码区或编码区组合与多官能分子的编码部分的结构单元的结构和/或序列之间存在的关联性。编码区序列的这种关联性可以与用于构建编码部分的合成步骤的知识相结合，以允许推导或鉴定编码部分的结构、预测结构和/或序列，即使所述序列是从多官能分子的PCR生成拷贝间接获得的。

术语“第一”、“第二”等应理解为仅指定或区分所指对象的术语，并且通常是基于首先碰巧遇到的任何一个的序列。例如，“第一”阵列是在“第二”阵列之前使用的阵列，并且第一编码区是碰巧能够固定在第一阵列上的编码区。除非另有说明，否则术语“第一”、“第二”等不是指DNA链分子内的位置。例如，应理解，在寡核苷酸部分内，第一编码区和第二编码区可以是或可以不是依序的，并且可以彼此靠近或可以不彼此靠近。

在本公开中，分子式中的连字符或破折号表示所述式的各部分通过共价键或杂交彼此直接连接。

除非另有说明，否则核苷酸、整数值和百分比的所有范围均包括所有中间整数以及端点。例如，5至10个寡核苷酸的范围应理解为包括5、6、7、8、9和10个核苷酸。

在某些实施方案中，本公开涉及含有至少一个寡核苷酸部分和至少一个编码部分的多官能分子，其中所述寡核苷酸部分指导或编码所述至少一个编码部分使用组合化学的合成。在某些实施方案中，多官能分子的寡核苷酸部分可以鉴定或促进对多官能分子的至少一个编码部分的推导。在某些实施方案中，本公开的多官能分子含有至少一个寡核苷酸或寡核苷酸部分，其含有至少两个编码区，其中所述至少两个编码区的组合对应于并且可用于鉴定或推导编码部分中的结构单元的序列或编码部分的结构。在某些实施方案中，可以通过PCR扩增至少一个寡核苷酸或寡核苷酸部分以产生至少一个寡核苷酸或寡核苷酸部分的拷贝，并且可以对原始物或拷贝进行测序以确定多官能分子的至少两个编码区的组合的身份。在某些实施方案中，至少两个编码区的组合的身份可以与用于合成PCR拷贝所对应的多官能分子的编码部分的一系列组合化学步骤相关联。

在某些实施方案中，本公开还涉及形成多官能分子的方法，并且涉及将靶分子暴露于多官能分子以鉴定或促进推导哪个编码部分以及因此哪个编码分子表现出所需特性的方法，所述特性包括但不限于结合一个或多个靶分子的能力，不结合其它抗靶分子的能力，抵抗由酶造成的化学变化的能力，易于被酶化学改变的能力，具有水溶性程度的能力，具有组织渗透性的能力，以及具有细胞渗透性的能力。

在某些实施方案中，使用两个或更多个编码区的组合来指导结构单元的合成或编码的益处可以包括大大减少了许多分选任务。例如，如果杂交阵列按顺序使用，而不是大规模平行使用，则在合成步骤期间或之前可以使用较少的寡核苷酸来实现选择性分离。类似地，如果杂交阵列按顺序使用，而不是大规模平行使用，则杂交阵列上的寡核苷酸可设计成具有足够的序列不相似性，以使错误杂交最小化或消除错误杂交。

参照图1和图2，在本发明人开创的先前的寡核苷酸指导或编码的合成下，合成过程可以描述为“分裂、反应、混合过程”，其中分裂步骤需要大规模平行杂交阵列。参照图3和图4，在一个实施方案中，本公开的过程可以描述为“分裂、分裂、反应、混合过程”或“(分裂)^2-5、反应、混合过程”的顺序，其中分裂次数是两次或更多次，通常是2至5次，并且分裂或分选步骤可以使用具有较少特征数量的阵列，因此杂交阵列中的寡核苷酸链和/或多官能分子的编码部分较少。这个发现非常违反直觉，因为例如半导体行业或基因组测序行业中的许多高通量处理都是基于越来越大的平行处理来减少处理时间和成本。然而，由于通过寡核苷酸杂交施加了独特的选择性要求，因此已发现本公开的方法可以通过将几个依序的分选步骤引入到其它方面平行的过程中而极大地改善多官能分子和探针分子的有效和准确的合成。

举例来说，为了分选384个不同的序列，上面引言部分中讨论的传统的合成寡核苷酸编码分子的方法可以编码384个特征，但是将施加小于1/384的产量，或者一系列384个分选步骤。相反，由本公开的过程的实施方案处理的384个特征文库可以在具有16个特征的大规模阵列上分选文库。然后，可以将16个子池中的每一个在24个相同的小规模阵列上平行分选。以这种方式，40个不同的寡核苷酸可以编码384个不同的结构单元。即使使用较少的序列，这些寡核苷酸也可以有效地编码384个结构单元。本公开的方法的一个益处是，合成成本大大降低，因为在实践中，购买各20纳摩尔的40种寡核苷酸(“oligos”)比购买各1纳摩尔的384种修饰寡核苷酸具有远远更高的成本效益。

在某些实施方案中，所述式(I)的分子是多官能分子。在式(I)分子的某些实施方案中，G包括指导或选择用于合成编码部分的寡核苷酸。在式(I)分子的某些实施方案中，(B₁)_M和(Β₂)_K各自表示编码部分。在式(I)分子的某些实施方案中，所述分子含有寡核苷酸部分和至少一个编码部分。应理解，本文针对G中寡核苷酸的许多结构特征，就其指导或编码式(I)分子的至少一个编码部分的合成以及这种合成过程施加于多官能分子结构的分子结构关系或关联性进行了讨论。应理解，关于式(I)分子的G中的寡核苷酸的许多结构特征，就G或其PCR拷贝中的寡核苷酸鉴定、关联或促进用于制备式(I)分子的合成步骤的推导的能力进行了讨论。因此，应理解，在编码部分的结构单元的序列和/或结构与寡核苷酸部分的编码区的序列或序列组合之间存在关联性。

在式(I)分子的某些实施方案中，G包括寡核苷酸或为寡核苷酸。在某些实施方案中，寡核苷酸含有至少两个编码区，其中1％至100％(包括约50％至100％，包括约90％至100％)的编码区是单链的。在某些实施方案中，G中的寡核苷酸含有至少一个末端编码区，其中一个或两个末端编码区是单链的。在某些实施方案中，G中的寡核苷酸含有至少一个末端编码区，其中一个或两个末端编码区是双链的。

在式(I)分子的某些实施方案中，G可包括包含寡核苷酸的发夹结构。在某些实施方案中，G不包括发夹结构，例如在式(III)和式(IV)中，如下文所讨论。如本公开中所用的术语“发夹结构”是指含有按质量百分比计60％至100％的核苷酸并且可以与寡核苷酸G的末端编码区杂交或在G中包含末端编码区的分子结构。在发夹结构的某些实施方案中，发夹结构形成单个连续的聚合物链，并含有至少一个重叠部分(通常称为“茎(stem)”)，其中所述重叠部分含有与具有相同发夹结构的互补序列杂交的核苷酸序列。在发夹结构的某些实施方案中，桥结构连接两个独立的寡核苷酸链；所述桥结构可以由2至20个PEG单元(包括3至15个PEG单元，包括6至12个PEG单元)的聚乙二醇(PEG)聚合物构成。在发夹结构的某些实施方案中，桥结构可以由至多30个碳的烷烃链构成，或由至多20个单元的聚甘氨酸链构成，或由带有反应性官能团的一些其它链构成。

在式(I)分子的某些实施方案中，G中的寡核苷酸含有至少两个编码区，包括2至约21个编码区，包括3至10个编码区，包括3至5个编码区。在某些实施方案中，如果编码区的数量低于2，则编码区的组合将不可能。在某些实施方案中，如果编码区的数量超过20，则合成效率低下将干扰准确的合成。

在式(I)分子的某些实施方案中，至少两个编码区的约50％至100％含有约6至约50个核苷酸，包括约12至约40个核苷酸，包括约8至约30个核苷酸。在某些实施方案中，如果编码区含有少于约6个核苷酸，则编码区不能准确地指导编码部分的合成。在某些实施方案中，如果编码区含有多于约50个核苷酸，则编码区可能变得交叉反应。这种交叉反应性将干扰编码区准确地指导和鉴定用于合成式(I)分子的编码部分的合成步骤的能力。

在式(I)分子的某些实施方案中，G中的寡核苷酸的目的是通过选择性地与互补的反编码链杂交来指导式(I)分子的至少一个编码部分的合成。在某些实施方案中，编码区是单链的，以促进与互补链的杂交。在某些实施方案中，70％至100％(包括80％至99％，包括80％至95％)的编码区是单链的。应理解，如果存在编码区的互补链，则可以在合成过程中在式(I)分子的编码部分的编码步骤之后添加所述互补链。

在某些实施方案中，寡核苷酸可含有天然和非天然核苷酸。合适的核苷酸包括DNA(脱氧核糖核酸)的天然核苷酸，包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)，以及RNA(核糖核酸)的天然核苷酸，腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)和胞嘧啶(C)。其它合适的碱基包括天然碱基，例如脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷、二氨基嘌呤；碱基类似物，例如2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、4-((3-(2-(2-(3-氨基丙氧基)乙氧基)乙氧基)丙基)氨基)嘧啶-2(1H)-酮、4-氨基-5-(庚-1,5-二炔-1-基)嘧啶-2(1H)-酮、6-甲基-3,7-二氢-2H-吡咯并[2,3-d]嘧啶-2-酮、3H-苯并[b]嘧啶并[4,5-e][1,4]

嗪-2(10H)-酮和2-硫代胞苷；修饰核苷酸，例如2'-取代核苷酸，包括2'-O-甲基化碱基和2'-氟碱基；以及修饰糖，例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖；和/或修饰磷酸酯基团，例如硫代磷酸酯和5'-N-亚磷酰胺键。应理解，寡核苷酸是核苷酸的聚合物。术语“聚合物”和“寡聚物”在本文中可互换使用。在某些实施方案中，寡核苷酸不一定含有连续碱基。在某些实施方案中，寡核苷酸可以间杂有接头部分或非核苷酸分子。

在式(I)分子的某些实施方案中，G中的寡核苷酸含有约60％至100％(包括约80％至99％，包括约80％至95％)的DNA核苷酸。在某些实施方案中，寡核苷酸含有约60％至100％(包括约80％至99％，包括约80％至95％)的RNA核苷酸。

在式(I)分子的某些实施方案中，G中的寡核苷酸含有至少两个编码区，其中所述至少两个编码区重叠以共延伸，条件是重叠的编码区仅共用约30％至1％(包括约20％至1％，包括约10％至2％)的相同核苷酸。在式(I)分子的某些实施方案中，G中的寡核苷酸中约30％至100％(包括约60％至100％，包括约80％至100％)是单链的。在式(I)分子的某些实施方案中，G中的寡核苷酸含有至少两个编码区，其中至少两个编码区是相邻的。在式(I)分子的某些实施方案中，G中的寡核苷酸含有至少两个编码区，其中所述至少两个编码区由不指导或记录式(I)分子的编码部分合成的核苷酸区域隔开。

术语“非编码区”当存在时是指不能与核苷酸的互补链杂交以指导式(I)分子的编码部分的合成或不对应于在合成过程中用于分选式(I)分子的任何反编码寡核苷酸的寡核苷酸区域。在某些实施方案中，非编码区是任选的。在某些实施方案中，寡核苷酸含有1至约20个非编码区，包括2至约9个非编码区，包括2至约4个非编码区。在某些实施方案中，非编码区含有约4至约50个核苷酸，包括约12至约40个核苷酸，并且包括约8至约30个核苷酸。

在式(I)分子的某些实施方案中，非编码区的一个目的是分离编码区以避免或减少交叉杂交，因为交叉杂交会干扰式(I)分子的编码部分的准确编码。在某些实施方案中，非编码区的一个目的是向式(I)分子添加除了仅仅杂交或编码之外的功能。在某些实施方案中，一个或多个非编码区可以是被标记物(例如荧光标记物或放射性标记物)修饰的寡核苷酸区域。这样的标记物可以促进式(I)分子的可视化或定量。在某些实施方案中，一个或多个非编码区用促进加工的官能团或系链修饰。在某些实施方案中，一个或多个非编码区是双链的，这减少了交叉杂交。在某些实施方案中，应理解，非编码区是任选的。在某些实施方案中，合适的非编码区不干扰寡核苷酸的PCR扩增。

在某些实施方案中，一个或多个编码区可以是G中被标记物(例如荧光标记物或放射性标记物)修饰的寡核苷酸区域。这样的标记物可以促进式(I)分子的可视化或定量。在某些实施方案中，一个或多个编码区用促进加工的官能团或系链修饰。

在式(I)分子的某些实施方案中，G包含由式(C_N—(Z_N—C_N+1)_A)或(Z_N—(C_N—Z_N+1)_A)表示的序列，其中C是编码区，Z是非编码区，N是1至20的整数，并且A是1至20的整数；其中每个非编码区含有0至50个核苷酸并且任选是双链的。在式(I)分子的某些实施方案中，每个或大多数编码区含有6至50个核苷酸。在式(I)分子的某些实施方案中，每个或大多数编码区含有8至30个核苷酸。

在式(I)分子的某些实施方案中，约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约30％至100％，包括约50％至100％，包括约70％至100％，包括约90％至100％。相反，在式(I)分子的某些实施方案中，0至约90％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂与单个编码区相关联或通过单个编码区来鉴定，包括0至约10％，包括0至约20％，包括0至约30％，包括0至约50％，包括0至约70％。

在式(I)分子的某些实施方案中，B表示位置结构单元。如本公开中所用的短语“位置结构单元”是指结合在一起作为形成较大分子的分子结构的亚单元的一系列单独结构单元中的一个单元。在某些实施方案中，(B₁)_M和(B₂)_K各自独立地表示结合在一起以形成分别具有M和K个单元数的聚合物链的一系列单独的结构单元。例如，其中M是10，则(B)₁₀是指一连串的结构单元：B₁₀—B₉—B₈—B₇—B₆—B₅—B₄—B₃—B₂—B₁。例如，如果M是3并且K是2，则式(I)可以用下式准确表示：

[((B₁)₃—(B₁)₂—(B₁)₁—L₁]_O—G—[(L₂—(B₂)₁—(B₂)₂]_P。

应理解，M和K各自独立地用作B的每个单独单元的位置标识符，并且B₁或B₂的“1”或“2”仅用于区分所指的是哪条链。

本公开中的术语“结构单元”的精确定义取决于其上下文。“结构单元”是能够与其它化学结构单元化学连接的化学结构单元。在某些实施方案中，结构单元具有一个、两个或更多个反应性化学基团，其允许所述结构单元进行化学反应，该化学反应将该结构单元连接到其它化学结构单元。应理解，当结构单元发生反应形成化学键时，结构单元的部分或全部反应性化学基团可能会丢失。例如，溶液中的结构单元可以具有两个反应性化学基团。在该实例中，溶液中的结构单元可以与作为结构单元链的一部分的结构单元的反应性化学基团反应，以增加链的长度，或从该链延伸分支。当在溶液的上下文中或作为反应物提及结构单元时，则所述结构单元应理解为含有至少一个反应性化学基团，但可以含有两个或更多个反应性化学基团。当在聚合物、寡聚物或大于结构单元本身的分子的上下文中提及结构单元时，则所述结构单元将被理解为具有作为较大分子的(单体)单元的结构单元的结构，即使一个或多个化学反应性基团已经反应。

可以用作结构单元的分子或化合物的类型通常不受限制，只要一个结构单元能够与另一结构单元一起反应形成共价键即可。在某些实施方案中，结构单元具有一个化学反应性基团以用作末端单元。在某些实施方案中，结构单元具有1、2、3、4、5或6个合适的反应性化学基团。在某些实施方案中，B的位置结构单元各自独立地具有1、2、3、4、5或6个合适的反应性化学基团。用于结构单元的合适的反应性化学基团包括伯胺，仲胺，羧酸，伯醇，酯，硫醇，异氰酸酯，氯甲酸酯，磺酰氯，硫代碳酸酯，杂芳基卤化物，醛，卤代乙酸酯，芳基卤化物，叠氮化物，卤化物，三氟甲磺酸酯，二烯，亲二烯体，硼酸，炔烃和烯烃。

任何偶联化学都可用于连接结构单元，条件是偶联化学与寡核苷酸的存在相容。示例性的偶联化学包括通过胺(例如DNA连接的胺)与Fmoc保护的氨基酸或其它各种取代的羧酸的反应形成酰胺；通过胺(包括DNA连接的胺)与异氰酸酯和另一种胺的反应形成脲(脲化)；通过胺(包括DNA连接的胺)与氯甲酸酯(氨基甲酸酯化)和醇的反应形成氨基甲酸酯；通过胺(包括DNA连接的胺)与磺酰氯的反应形成磺酰胺；通过胺(包括DNA连接的胺)与硫代碳酸酯和另一种胺的反应形成硫脲(硫脲化)；通过胺(包括DNA连接的胺)与杂芳基卤化物(SNAr)的反应形成苯胺；通过胺(包括DNA连接的胺)与醛的反应并接着还原形成仲胺(还原性胺化)；通过用氯乙酸酯将胺(包括DNA连接的胺)酰化并接着用另一种胺置换氯来形成类肽(SN2反应)；通过用被芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化并接着用被取代的炔烃置换卤化物来形成含炔烃的化合物(Sonogashira反应)；通过用被芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化并接着用被取代的硼酸置换卤化物来形成联芳基化合物(Suzuki反应)；通过使胺(包括DNA连接的胺)与氰尿酰氯反应并接着与另一种胺、苯酚或硫醇反应来形成被取代的三嗪(氰尿酰化、芳族取代)；通过用被合适的离去基团如卤化物或三氟甲磺酸酯取代的羧酸将胺(包括DNA连接的胺)酰化并接着用另一种胺置换离去基团来形成仲胺(SN2/SN1反应)；以及通过用带有烯烃或炔烃的化合物取代胺并使产物与叠氮化物或烯烃反应来形成环状化合物(Diehls-Alder和Huisgen反应)。在反应的某些实施方案中，与胺基(包括伯胺、仲胺)、羧酸、伯醇、酯、硫醇、异氰酸酯、氯甲酸酯、磺酰氯、硫代碳酸酯、杂芳基卤化物、醛、氯乙酸酯、芳基卤化物、烯烃、卤化物、硼酸、炔烃和烯烃反应的分子的分子量为约30至约330道尔顿。

在偶联反应的某些实施方案中，可以通过使用以上任何化学用带有二级反应性基团的分子如胺、硫醇、卤化物、硼酸、炔烃或烯烃取代胺(包括DNA连接的胺)来添加第一结构单元。然而，应理解，该步骤不限于上述化学。然后，所述二级反应性基团可以与带有适当反应性基团的结构单元反应。示例性的二级反应性基团偶联化学包括：用Fmoc-氨基酸将胺(包括DNA连接的胺)酰化，接着去除保护基团，并用醛和硼氢化物将新脱保护的胺还原性胺化；用醛和硼氢化物将胺(包括DNA连接的胺)还原性胺化，接着使现已取代的胺与氰尿酰氯反应，接着用硫醇、苯酚或另一种胺从三嗪中置换另一种氯化物；用被杂芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化，接着与另一种胺或硫醇进行SNAr反应以置换卤化物并形成苯胺或硫醚；以及用被卤代芳族基团取代的羧酸将胺(包括DNA连接的胺)酰化，接着在Sonogashira反应中用炔烃取代卤化物；或在硼酸酯介导的Suzuki反应中用芳基基团取代卤化物。

在某些实施方案中，偶联化学是基于合适的成键反应，例如在例如March,Advanced Organic Chemistry(高等有机化学),第四版,New York:John Wiley and Sons(1992),第10至16章；Carey和Sundberg,Advanced Organic Chemistry(高等有机化学),B部分,Plenum(1990),第1-11章；和Coltman等,Principles and Applications ofOrganotransition Metal Chemistry(有机过渡金属化学的原理与应用),UniversityScience Books,Mill Valley,Calif.(1987),第13至20章中所述的那些；所述文献中的每一个均通过引用整体并入本文。

在某些实施方案中，结构单元除包括用于连接结构单元的一个或多个反应性基团之外，还可包括一个或多个官能团。可以保护这些额外官能团中的一个或多个，以防止这些官能团发生不希望的反应。可以使用适用于各种官能团的保护基团(例如，Greene和Wuts,Protective Groups in Organic Synthesis(有机合成中的保护基团),第二版,New York:John Wiley and Sons(1991)，其通过引用整体并入本文)。特别有用的保护基团包括叔丁酯和醚，缩醛，三苯甲基醚和胺，乙酰基酯，三甲基甲硅烷基醚，三氯乙基醚和酯以及氨基甲酸酯。

结构单元的类型通常不受限制，只要所述结构单元可与能够和其它结构单元形成共价键的一个或多个反应性基团相容即可。合适的结构单元包括但不限于肽，糖，糖脂，脂质，蛋白聚糖，糖肽，磺酰胺，核蛋白，脲，氨基甲酸酯，插烯多肽(vinylogouspolypeptide)，酰胺，插烯磺酰胺肽，酯，糖，碳酸酯，肽基膦酸酯，多酰基酰肼(azatide)，类肽(寡聚N取代甘氨酸)，醚，乙氧基缩甲醛寡聚物，硫醚，乙烯，乙二醇，二硫化物，亚芳基硫化物，核苷酸，吗啉，亚胺，吡咯烷酮，乙烯亚胺，乙酸酯，苯乙烯，乙炔，乙烯基，磷脂，硅氧烷，异氰化物，异氰酸酯和甲基丙烯酸酯。在某些实施方案中，式(I)的(B₁)_M或(B₂)_K各自分别独立地表示这些具有M或K个单元的结构单元的聚合物，包括多肽、多糖、多糖脂、多脂、聚蛋白聚糖、聚糖肽、聚磺酰胺、多核蛋白、聚脲、聚氨基甲酸酯、聚插烯多肽、聚酰胺、聚插烯磺酰胺肽、聚酯、多糖、聚碳酸酯、聚肽基膦酸酯、聚多酰基酰肼(polyazatide)、聚类肽(寡聚N取代甘氨酸)、聚醚、聚乙氧基缩甲醛寡聚物、聚硫醚、聚乙烯、聚乙二醇、聚二硫化物、聚亚芳基硫化物、多核苷酸、聚吗啉、聚亚胺、聚吡咯烷酮、聚乙烯亚胺、聚乙酸酯、聚苯乙烯、聚乙炔、聚乙烯、聚磷脂、聚硅氧烷、聚异氰化物、聚异氰酸酯和聚甲基丙烯酸酯。在式(I)分子的某些实施方案中，约50％至约100％(包括约60％至约95％，并且包括约70％至约90％)的结构单元的分子量为约30至约500道尔顿，包括约40至约350道尔顿，包括约50至约200道尔顿。

应理解，具有两个反应性基团的结构单元将形成线性寡聚物或聚合物结构，或线性非聚合物分子，其含有每个结构单元作为单元。还应理解，具有三个或更多个反应性基团的结构单元可以形成在每个具有三个或更多个反应性基团的结构单元上带有分支的分子。

在式(I)分子的某些实施方案中，L₁和L₂各自独立地表示接头。术语“接头分子”是指具有两个或更多个能够反应形成接头的反应性基团的分子。术语“接头”是指将G或发夹结构可操作地连接或共价键合至结构单元的分子的一部分。术语“可操作地连接”意指两个或更多个化学结构以一定的方式连接或共价键合在一起，使得在多官能分子预期经历的各种操作(包括PCR扩增)中保持连接。

在式(I)分子的某些实施方案中，L₁是将B₁可操作地连接到G的接头。在式(I)分子的某些实施方案中，L₂是将B₂可操作地连接到G的接头。在某些实施方案中，L₁和L₂各自独立地是双官能分子，其通过不按特定顺序使L₁的一个反应性官能团与B₁的反应性基团反应以及使L₁的另一个反应性官能团与G的反应性官能团反应将B₁与G连接，以及通过不按特定顺序使L₂的一个反应性官能团与B₂的反应性基团反应以及使L₂的另一个反应性官能团与G的反应性官能团反应将L₂与G连接。在式(I)分子的某些实施方案中，L₁和L₂各自独立地是由B₁和G或B₂和G的化学反应性基团与市售接头分子反应形成的接头，所述市售接头分子包括PEG(例如叠氮基-PEG-NHS或叠氮基-PEG-胺或二叠氮基-PEG)，或烷烃酸链部分(例如5-叠氮基戊酸、(S)-2-(叠氮基甲基)-1-Boc-吡咯烷、4-叠氮基苯胺或4-叠氮基-丁烷-1-酸N-羟基琥珀酰亚胺酯)；硫醇反应性接头，例如作为以下的那些：PEG(例如SM(PEG)n NHS-PEG-马来酰亚胺)、烷烃链(例如3-(吡啶-2-基二硫基)-丙酸-Osu或磺基琥珀酰亚胺基6-(3'-[[2-吡啶基二硫代]-丙酰胺基)己酸酯))；以及用于寡核苷酸合成的亚酰胺(amidite)，例如氨基修饰剂(例如6-(三氟乙酰氨基)-己基-(2-氰乙基)-(N,N-二异丙基)-亚磷酰胺)，硫醇修饰剂(例如5-三苯甲基-6-巯基己基-1-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺或化学上共反应的成对修饰剂(例如6-己炔-1-基-(2-氰基乙基)-(N,N-二异丙基)-亚磷酰胺、3-二甲氧基三苯甲基氧基-2-(3-(3-丙炔氧基丙酰胺基)丙酰胺基)丙基-1-O-琥珀酰基、长链烷基氨基CPG或4-叠氮基-丁烷-1-酸N-羟基琥珀酰亚胺酯))；及其相容组合。

在某些实施方案中，所述多官能分子是式(I-A)的分子：

(I-A)[(B₁)_M—L₁]_O—G，

其中B₁、M、L₁、O和G如上文对于式(I)所定义。

在式(I-A)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约25％至100％，包括约30％至100％，包括约35％至100％，包括约40％至100％，包括约45％至100％，包括约50％至100％，包括约55％至100％，包括约60％至100％，包括约65％至100％，包括约70％至100％，包括约75％至100％，包括约80％至100％，包括约90％至100％。相反，在式(I-A)分子的某些实施方案中，1至约0至约90％的在位置M处的位置结构单元B₁与单个编码区相关联或通过单个编码区来鉴定，包括0至约10％，包括10％至约15％，包括10％至约20％，包括10％至约20％，包括10％至约25％，包括10％至约30％，包括10％至约35％，包括10％至约40％，包括10％至约45％，包括10％至约50％，包括10％至约55％，包括10％至约60％，包括10％至约65％，包括10％至约70％，包括10％至约80％，包括10％至约85％，包括10％至约90％。

在某些实施方案中，所述多官能分子是式(I-B)的分子：

(I-B)[(B₁)_M-L₁]_O—G—L₂，

其中B₁、M、L₁、O、G和L₂如上文对于式(I)所定义。

在式(I-B)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约25％至100％，包括约30％至100％，包括约35％至100％，包括约40％至100％，包括约45％至100％，包括约50％至100％，包括约55％至100％，包括约60％至100％，包括约65％至100％，包括约70％至100％，包括约75％至100％，包括约80％至100％，包括约90％至100％。相反，在式(I-B)分子的某些实施方案中，10％至约90％的在位置M处的位置结构单元B₁与单个编码区相关联或通过单个编码区来鉴定，包括10％至约10％，包括10％至约15％，包括10％至约20％，包括10％至约20％，包括10％至约25％，包括10％至约30％，包括10％至约35％，包括10％至约40％，包括10％至约45％，包括10％至约50％，包括10％至约55％，包括10％至约60％，包括10％至约65％，包括10％至约70％，包括10％至约80％，包括10％至约85％，包括10％至约90％。

在某些实施方案中，所述多官能分子是式(I-C)的分子：

(I-C)G—[(L₂—(B₂)_K]_P，

其中G、L₂、B₂、K和P如上文对于式(I)所定义。

在式(I-C)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置K处的位置结构单元B₂与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约25％至100％，包括约30％至100％，包括约35％至100％，包括约40％至100％，包括约45％至100％，包括约50％至100％，包括约55％至100％，包括约60％至100％，包括约65％至100％，包括约70％至100％，包括约75％至100％，包括约80％至100％，包括约90％至100％。相反，在式(I-C)分子的某些实施方案中，以位置结构单元的总数计10％至约90％的在位置K处的位置结构单元B₂与单个编码区相关联或通过单个编码区来鉴定，包括10％至约10％，包括10％至约15％，包括10％至约20％，包括10％至约20％，包括10％至约25％，包括10％至约30％，包括10％至约35％，包括10％至约40％，包括10％至约45％，包括10％至约50％，包括10％至约55％，包括10％至约60％，包括10％至约65％，包括10％至约70％，包括10％至约80％，包括10％至约85％，包括10％至约90％。

在某些实施方案中，所述多官能分子是式(I-D)的分子：

(I-D)L₁—G—[(L₂—(B₂)_K]_P，

其中G、L₂、B₂、K、P及L₁如上文对于式(I)所定义。

在式(I-D)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置K处的位置结构单元B₂与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约25％至100％，包括约30％至100％，包括约35％至100％，包括约40％至100％，包括约45％至100％，包括约50％至100％，包括约55％至100％，包括约60％至100％，包括约65％至100％，包括约70％至100％，包括约75％至100％，包括约80％至100％，包括约90％至100％。相反，在式(I-D)分子的某些实施方案中，以位置结构单元的总数计10％至约90％的在位置K处的位置结构单元B₂与单个编码区相关联或通过单个编码区来鉴定，包括10％至约10％，包括10％至约15％，包括10％至约20％，包括10％至约20％，包括10％至约25％，包括10％至约30％，包括10％至约35％，包括10％至约40％，包括10％至约45％，包括10％至约50％，包括10％至约55％，包括10％至约60％，包括10％至约65％，包括10％至约70％，包括10％至约80％，包括10％至约85％，包括10％至约90％。

根据一些实施方案，式(I)的分子可以适合于在G的一个或多个末端上多个编码部分的多重显示。在某些实施方案中，G包括至少一个发夹结构和式(I：

(III)([(B₁)_M—L₁]_Y)_O—G—([L₂—(B₂)_K]_W)_P

其中B₁、M、L₁、O、L₂、B₂和P如上文对于式(I)所定义，

G包括寡核苷酸，所述寡核苷酸包含至少两个编码区，其中所述至少两个编码区是单链的，并且其中G包括至少一个发夹结构；

Y是1至5的整数；并且

W是1至5的整数。

在式(III)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁或在位置K处的位置结构单元B₂与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约25％至100％，包括约30％至100％，包括约35％至100％，包括约40％至100％，包括约45％至100％，包括约50％至100％，包括约55％至100％，包括约60％至100％，包括约65％至100％，包括约70％至100％，包括约75％至100％，包括约80％至100％，包括约90％至100％。相反，在式(III)分子的某些实施方案中，以位置结构单元的总数计10％至约90％的在位置M处的位置结构单元B₁或在位置K处的位置结构单元B₂与单个编码区相关联或通过单个编码区来鉴定，包括10％至约10％，包括10％至约15％，包括10％至约20％，包括10％至约20％，包括10％至约25％，包括10％至约30％，包括10％至约35％，包括10％至约40％，包括10％至约45％，包括10％至约50％，包括10％至约55％，包括10％至约60％，包括10％至约65％，包括10％至约70％，包括10％至约80％，包括10％至约85％，包括10％至约90％。

还公开了式(IV)的分子，

(IV)([(B₁)_M—D—L₁]_Y—H₁)_O—G'—(H₂—[L₂—E—(B₂)_K]_W)_P

其中，

G包括寡核苷酸，所述寡核苷酸包含至少两个编码区和至少一个末端编码区，其中所述至少两个编码区是单链的并且所述至少一个末端编码区是单链或双链的；

H₁是包含寡核苷酸的发夹结构，其中H₁终止于5'端并连接到寡核苷酸G的末端；

H₂是包含寡核苷酸的发夹结构，其中H₂终止于3'端并连接到寡核苷酸G的末端；

D是第一结构单元；

E是第二结构单元，其中D和E相同或不同；

B₁是位置结构单元并且M表示1至20的整数；

L₁是将H₁可操作地连接到D的接头；

L₂是将H₂可操作地连接到E的接头；

O是0至1的整数；

P是0至1的整数；

条件是O和P中的至少一个是1；

Y是1至5的整数；

W是1至5的整数；并且

其中在位置M处的每个位置结构单元B₁和/或在位置K处的每个位置结构单元B₂通过1至5个编码区来鉴定，

以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定，并且

其中第一结构单元D和第二结构单元E中的至少一个通过至少一个末端编码区来鉴定。

对于式(III)，除非另有说明，否则B₁、M、L₁、O、L₂、B₂、K和P如上文对于式(I)所述。

在式(IV)的某些实施方案中，寡核苷酸G'含有至少一个末端编码区，其中一个或两个末端编码区是单链的。在某些实施方案中，寡核苷酸G'含有至少一个末端编码区，其中一个或两个末端编码区是双链的。

在式(IV)分子的某些实施方案中，寡核苷酸含有至少一个(包括一至两个)末端编码区。在某些实施方案中，末端编码区是不直接与发夹结构结合并且终止于5'端或3'端的核苷酸序列。在某些实施方案中，末端编码区是直接结合至发夹结构的核苷酸序列。应理解，基于核苷酸的潜在取向，寡核苷酸将具有5'和3'方向，即使寡核苷酸的两端被发夹结构结合。

在式(IV)分子的某些实施方案中，末端编码区的一个目的是在式(IV)分子的合成期间促进含有互补序列的发夹结构与寡核苷酸的末端的选择性杂交。在某些实施方案中，末端编码区含有约6至约50个核苷酸，包括约12至约40个核苷酸，并且包括约8至约30个核苷酸。在某些实施方案中，如果末端编码区含有少于约6个核苷酸，则可用的非交叉反应序列的数量将太少，这会干扰式(IV)分子的编码部分的准确编码。在某些实施方案中，如果末端编码区含有多于约50个核苷酸，则末端编码区可能变得具交叉反应性并且失去太多的特异性以致于不能选择性地仅与一个发夹结构杂交。这样的交叉反应性会干扰编码区准确编码第一结构单元D和/或第二结构单元E的添加的能力。在式(IV)分子的某些实施方案中，末端编码区是单链或双链的。

在式(IV)分子的某些实施方案中，H₁和H₂各自独立地是发夹结构。如本公开中所用的术语“发夹结构”是指含有按质量百分比计60％至100％的核苷酸并且可以与寡核苷酸G'的末端编码区杂交的分子结构。在发夹结构的某些实施方案中，发夹结构形成单个连续聚合物链，并含有至少一个重叠部分(通常称为“茎”)，其中所述重叠部分含有与相同发夹结构的互补序列杂交的核苷酸序列。在发夹结构的某些实施方案中，桥结构连接两个独立的寡核苷酸链；所述桥结构可以由2至20个PEG单元(包括3至15个PEG单元，包括6至12个PEG单元)的聚乙二醇(PEG)聚合物构成。在发夹结构的某些实施方案中，桥结构可以由至多30个碳的烷烃链或至多20个单元的聚甘氨酸链构成，或由带有反应性官能团的一些其它链构成。在式(I)分子的某些实施方案中，H₁和/或H₂的重叠部分结合或连接到寡核苷酸G'的末端编码区。在某些实施方案中，H₁和H₂各自独立地含有一个、两个、三个或四个环。

在式(IV)分子的某些实施方案中，H₁和H₂各自独立地包括约20至约90个核苷酸，包括约32至约80个核苷酸，包括约45至约80个核苷酸。在某些实施方案中，H₁和H₂各自独立地含有1、2、3、4、5、6、7、8、9或10个(包括1至5个，包括2至4个，包括2至3个)核苷酸，所述核苷酸用合适的官能团修饰以促进与接头分子反应，或在一些情况下与结构单元反应，包括以下情况：其中H₁和H₂各自独立地已使用碱基合成，所述碱基如但不限于5'-二甲氧基三苯甲基-5-乙炔基-2'-脱氧尿苷，3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为5-乙炔基-dU-CE亚磷酰胺，购自Glen Research,Sterling VA)。在某些实施方案中，H₁和H₂各自独立地包括具有适合于促进与接头分子反应或在一些情况下与结构单元反应的官能团的非核苷酸，包括但不限于3-二甲氧基三苯甲氧基-2-(3-(5-己炔酰胺基)丙酰胺基)丙基-1-O-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为炔烃修饰剂丝氨醇亚磷酰胺，来自Glen Research,Sterling VA)和无碱基炔烃CEP(来自IBA GmbH,Goettingen,Germany)。在某些实施方案中，H₁和H₂各自独立地包括具有已带有接头的修饰碱基的核苷酸，例如，H₁和H₂各自独立地可以使用碱基合成，所述碱基如但不限于5'-二甲氧基三苯甲基-N6-苯甲酰基-N8-[6-(三氟乙酰基氨基)-己-1-基]-8-氨基-2'-脱氧腺苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6 dA，购自Glen Research,Sterling VA)，5'-二甲氧基三苯甲基-N2-[6-(三氟乙酰氨基)-己-1-基]-2'-脱氧鸟苷-3'-[(2-氰基乙基)-(N,N-二异丙基]]-亚磷酰胺(也称为氨基修饰剂C6 dG，购自Glen Research,Sterling,VA)，5'-二甲氧基三苯甲基-5-[3-甲基-丙烯酸酯]-2'-脱氧尿苷，3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为羧基dT，购自Glen Research,Sterling VA)，5'-二甲氧基三苯甲基-5-N-(((9-芴基甲氧基羰基)-氨基己基)-3-丙烯酰亚胺基]-2'-脱氧尿苷，3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为Fmoc-氨基修饰剂C6 dT，GlenResearch,Sterling,VA)，5'-二甲氧基三苯甲基-5-(辛-1,7-二炔基)-2'-脱氧尿苷，3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为C8炔烃dT，Glen Research,SterlingVA)，5'-(4,4'-二甲氧基三苯甲基)-5-[N-(6-(3-(苯甲酰基硫代丙酰基)-氨基己基))-3-丙烯酰胺基]-2'脱氧尿苷，3'-[((2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为S-Bz-硫醇修饰剂C6-dT，Glen Research,Sterling VA)和5-羧基dC CEP(来自IBA GmbH,Goettingen,Germany)，N4-TriGl-氨基2'脱氧胞苷(来自IBA GmbH,Goettingen,Germany)。适用于H₁和H₂中的修饰的核苷酸和非核苷酸的官能团包括但不限于伯胺，仲胺，羧酸，伯醇，酯，硫醇，异氰酸酯，氯甲酸酯，磺酰氯，硫代碳酸酯，杂芳基卤化物，醛，氯乙酸酯，芳基卤化物，卤化物，硼酸，炔烃，叠氮化物和烯烃。

在某些实施方案中，发夹结构H₁和H₂中的一个或多个可以用标记物(例如荧光标记物或放射性标记物)修饰。这样的标记物可以促进式(IV)分子的可视化或定量。在某些实施方案中，发夹结构H₁和H₂中的一个或多个用促进加工的官能团或系链修饰。

在式(IV)分子的某些实施方案中，H₁和H₂的发夹结构的益处是一个或两个可以允许在式(IV)分子的一端或两端的多个编码部分的多重显示。不希望受理论的束缚，据信本公开的多官能分子的一端或两端的多个编码部分的多重显示在某些条件下提供了改进的选择特性。

在式(IV)分子的某些实施方案中，D是第一结构单元。在某些实施方案中，当存在D时，D被直接连接到H₁的G'的末端编码区编码或选择。在某些实施方案中，被定位成与D最接近的G'的末端编码区对应于第一结构单元D并且可用于鉴定第一结构单元D。

在式(IV)分子的某些实施方案中，E是第二结构单元。在某些实施方案中，当存在E时，E被直接连接到H₂的G的末端编码区编码或选择。在某些实施方案中，被定位成与E最接近的G'的末端编码区对应于第一结构单元E并且可用于鉴定第一结构单元E。在某些实施方案中，第一结构单元D和第二结构单元E可以相同或不同。应理解，第一结构单元和第二结构单元都是如上文对于式(I)所述的“结构单元”。

在式(IV)分子的某些实施方案中，以位置结构单元的总数计约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂与2、3、4或5个编码区的组合相关联，包括约20％至100％，包括约30％至100％，包括约50％至100％，包括约70％至100％，包括约90％至100％。相反，在式(IV)分子的某些实施方案中，0至约90％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂与单个编码区相关联或通过单个编码区来鉴定，包括0至约10％，包括0至约20％，包括0至约30％，包括0至约50％，包括0至约70％。

本公开涉及合成多官能分子的方法，所述多官能分子包括式(I)的分子。如图1-4所描绘，在合成式(I)分子的方法的某些实施方案中，所述方法使用一系列“分选和反应”步骤，其中通过多官能分子的一个或多个编码区与固定在杂交阵列上的反编码寡聚物的选择性杂交将含有编码区的不同组合的多官能分子的混合物分选成子池。在所述方法的某些实施方案中，将多官能分子分选成子池的益处在于，这种分离允许每个子池与位置结构单元B(包括B₁和/或B₂)在单独的反应条件下反应，然后将多官能分子的子池合并或混合用于进一步化学加工。在所述方法的某些实施方案中，可以重复分选和反应过程以添加一系列位置结构单元。在所述方法的某些实施方案中，使用分选和反应方法添加结构单元的益处在于，分子的编码部分的每个位置结构单元的身份可以与在添加结构单元之前用于选择性分离或分选多官能分子的1、2、3、4或5个编码区相关联。

在某些实施方案中，如图1-2中所描绘，可通过使用单个分选步骤将多官能分子分离成子池，使多官能分子与结构单元反应，然后再混合来添加一个或多个结构单元。在这样的实施方案中，用于在合成期间对多官能分子进行分选的一个编码区将根据其位置独一地鉴定结构单元或与结构单元相关联，因为所用的编码区的身份可以与用于添加结构单元的反应的身份相关联，其将包括所添加的位置结构单元的身份。

在某些实施方案中，如图3-4中所描绘，可以通过2、3、4或5个分选步骤，使多官能分子与结构单元反应，然后再混合，来添加一个或多个结构单元。在这样的实施方案中，用于在合成期间对多官能分子进行分选的编码区的组合或系列将根据其位置独一地鉴定结构单元或与结构单元相关联，因为所用的编码区的组合或系列可以与用于添加结构单元的反应的身份相关联，其将包括所添加的位置结构单元的身份或结构。

在某些实施方案中，根据需要，合成方法可以独立地从单个分选步骤(单项式)或一系列分选步骤(多项式)切换。在所述方法的某些实施方案中，约10％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过一系列的2、3、4或5个分选步骤添加，包括约20％至100％，包括约30％至100％，包括约50％至100％，包括约70％至100％，包括约90％至100％。

应理解，式(I)的分子可以包括在池中的分子之间或之中相同的一个或多个编码区，但是也应该理解，池中的绝大多数分子将具有编码区的不同组合。在所述方法的某些实施方案中，具有不同编码区组合的分子池的益处在于不同组合可以编码具有多个不同编码部分的多官能分子。

在某些实施方案中，所述方法包括提供至少一个杂交阵列。提供杂交阵列的步骤通常不受限制，并且包括使用各种技术制造杂交阵列，或获得阵列。在所述方法的某些实施方案中，杂交阵列包括在其表面上具有固定的反密码子寡聚物的至少两个单独区域的基底。在某些实施方案中，杂交阵列的每个区域含有不同的固定化反密码子寡聚物，其中所述反密码子寡聚物是能够与式(I)分子的一个或多个编码区杂交的寡核苷酸序列。在所述方法的某些实施方案中，杂交阵列使用两个或更多个腔室。在所述方法的某些实施方案中，杂交阵列的腔室含有固体基质或颗粒，例如珠粒，其在颗粒表面上具有固定化反密码子寡聚物。在所述方法的某些实施方案中，将式(I)分子固定在阵列上的益处在于，该步骤允许基于一个或多个编码区的特定寡核苷酸序列将分子分选或选择性地分离成分子子池。在某些实施方案中，然后可以将分离的分子子池单独地从阵列中释放或移除到反应腔室中，以进行进一步的化学加工。在某些实施方案中，释放步骤是任选的，不受一般限制，并且可包括通过加热，使用变性剂或将分子暴露于pH≥12的缓冲液中使分子去杂交。在某些实施方案中，含有不同的固定化寡核苷酸的阵列的腔室或区域可以定位成使得每个腔室或区域的内容物流入孔阵列中，以进行进一步的化学加工。

在某些实施方案中，所述方法包括使至少一个结构单元B(包括B₁和/或B₂)与多官能分子反应以形成式(I)分子的子池，其中B₁和/或B₂如上文对于式(I)所定义。在某些实施方案中，结构单元B₁和/或B₂可以在式(I)的分子之前、期间或之后添加到容器中。应理解，所述容器可以在酸性(例如pH为4-7)、碱性或中性条件下含有溶剂和共反应物，这取决于用于使结构单元B₁和/或B₂与多官能分子反应形成式(I)分子的偶联化学。

公开了一种鉴定能够结合或选择靶分子的探针分子的方法。在某些实施方案中，所述方法包括使靶分子暴露于多官能分子(例如式(I)分子)池，以确定所述多官能分子之一是否能够结合所述靶分子。在某些实施方案中，术语“暴露”包括使靶分子与探针分子(包括式(I)分子)接触的任何方式。在某些实施方案中，通过去除方法去除不结合靶分子的探针分子，所述去除方法包括使用过量的溶剂将未结合的探针分子从靶分子上洗去。在某些实施方案中，所述靶分子被固定在表面上。在某些实施方案中，所述靶分子包括蛋白质、酶、脂质、寡糖和具有三级结构的核酸。

在所述方法的某些实施方案中，扩增步骤包括在式(I)的G中使用PCR技术寡核苷酸。在所述方法的某些实施方案中，拷贝序列含有式(I)的至少两个编码区的拷贝。在某些实施方案中，从至少一个探针分子扩增G中的寡核苷酸的一个益处包括检测多官能分子的哪些编码部分能够结合靶分子的能力，即使所述多官能分子不能轻易地从靶分子上去除。在某些实施方案中，扩增的益处在于它允许生成具有巨大多样性的分子的文库。这种巨大的多样性是以任何给定的式(I)分子的数量低为代价的。PCR扩增允许通过增加这些数量直至达到容易检测的数量来鉴定以非常少的数量存在的寡核苷酸序列。然后，拷贝序列的DNA测序和分析可以鉴定能够结合靶标的式(I)的多官能分子的编码部分或与能够结合靶标的式(I)的多官能分子的编码部分相关联。

杂交阵列的构造描述如下。简而言之，在某些实施方案中，杂交阵列是含有固体支撑物的在空间上分离的特征的阵列。在某些实施方案中，在这些支撑物上是共价拴系的ssDNA寡核苷酸，其序列与被分选的编码区的序列互补。在某些实施方案中，通过使带有多个编码序列的式(I)分子的文库流经或流过带有给定反编码序列的固体支撑物，可以将具有互补编码序列的文库成员特异性地固定化。在某些实施方案中，使文库流经或流过固体支撑物阵列，每个固体支撑物带有不同的固定化反编码序列，这将基于编码序列将文库分选成子池。在某些实施方案中，每个序列特异性子池然后可以与特定结构单元(位置结构单元)独立地反应，以建立与结构单元对应的序列。在一些实施方案中，可以将序列特异性子池进一步分选成更多序列特异性子池。这种合成将在下文更详细地描述，并且可以在杂交阵列上进行，或者在将子池从阵列中的子池中洗脱到合适的环境(例如单独的容器)中进行反应之后进行。

可以用相同的方式在编码序列和/或编码序列的组合与结构单元之间建立对应关系，唯一的区别是适当地使用带有不同组反编码序列的不同杂交阵列。

寡核苷酸G中的编码区也可以编码其它信息。在某些实施方案中，在文库翻译完成后，可能希望基于索引编码区序列对文库进行分选。在某些实施方案中，索引编码区序列可以编码预期目的，或其文库的相应子池的选择历史。例如，多个靶标的文库可以同时一起翻译，然后按索引编码区分选成子池。因此，预期用于不同靶标和/或用于在不同条件下选择的子池可以彼此分离并且准备好用于其相应应用中。因此，可以在索引区域中记录针对各种特性经历多轮选择的文库成员的选择历史。

许多种化学可用于本发明。理论上，可以使用不会化学改变DNA的任何化学反应。已知可与DNA相容的反应包括但不限于：Wittig反应，Heck反应，Horner-Wadsworth-Emmons反应，Henry反应，Suzuki偶联，Sonogashira偶联，Huisgen反应，还原性胺化，还原性烷基化，肽键反应，类肽键形成反应，酰化，SN2反应，SNAr反应，磺酰化，脲化，硫脲化，氨基甲酰化，形成苯并咪唑、咪唑烷酮、喹唑啉酮、异吲哚啉酮、噻唑、咪唑并吡啶，二醇裂解形成乙二醛，Diels-Alder反应，吲哚-苯乙烯偶联，Michael加成，烯烃-炔烃氧化偶联，醛醇反应，Fmoc脱保护，三氟乙酰胺脱保护，Alloc脱保护，Nvoc脱保护和Boc脱保护。(参见Handbookfor DNA-Encoded Chemistry(DNA编码化学手册)(Goodnow R.A.,Jr.编)第319-347页,2014Wiley,New York.March,Advanced Organic Chemistry(高等有机化学),第四版,NewYork:John Wiley and Sons(1992),第10至16章；Carey和Sundberg,Advanced OrganicChemistry(高等有机化学),B部分,Plenum(1990),第1-11章；以及Coltman等,Principlesand Applications of Organotransition Metal Chemistry(有机过渡金属化学的原理与应用),University Science Books,Mill Valley,Calif.(1987),第13至20章；所述文献中的每一个均通过引用整体并入本文。)

应理解，可以将各种各样的不同组合支架并入本公开的多官能分子中。一般类别支架的种类的实例包括但不限于以下：(a)端到端连接的双官能结构单元的链，肽和类肽是这种支架的两个实例；应理解，并非链中的每个双官能结构单元都具有相同的一对官能团，并且一些结构单元可能仅具有一个官能团，例如末端结构单元，(b)双官能结构单元的支链，其包括一些三官能结构单元，并且可能包括或可能不包括单官能结构单元，(c)由单一多官能结构单元和一组单官能结构单元构成的分子；在一个实施方案中，这样的分子可以具有作为中心核的多官能结构单元，向其上添加其它单官能结构单元作为多样性元件，(d)由两个或更多个多官能结构单元构成的分子，其上连接有一组单官能或双官能结构单元作为多样性元件，(e)任何上述支架，其包括通过使在较早步骤中安装的接头或结构单元上的部分与在稍后步骤中安装的结构单元或接头上的部分反应而形成环。也可以并入其它支架或化学结构门，并且这些通用结构支架仅受到从业者在设计合成它们的化学途径中的独创性的限制。

在某些实施方案中，离子交换色谱法以两种方式促进在栓系到DNA的基质上进行的化学反应。对于在水性溶剂中进行的反应，可以通过将反应物倒在离子交换树脂如

或

SuperQ 650M上而容易地实现纯化。在某些实施方案中，DNA将通过离子交换与树脂结合，并且可以用水性缓冲液、有机溶剂或两者的混合物洗去未使用的反应物、副产物和其它反应组分。对于在有机溶剂中作用最好的反应，存在一个实际问题：DNA在有机溶剂中的溶解性非常差，并且这些反应具有低产率。在这些情况下，可以将文库DNA固定在离子交换树脂上，通过水混溶性有机溶剂洗去残留的水，并且在可能与水混溶或可能不与水混溶的有机溶剂中进行反应。参见例如R.M.Franzini等,Bioconjugate Chemistry(生物共轭化学)2014 25(8),1453-1461及其中的参考文献。存在许多类型和种类的离子交换介质，它们都具有可能更适合或不太适合不同的化学或应用的不同性质，并且其可从许多公司如

SIGMA

和

(仅举几例)购得。应理解，存在许多可能的方法和介质，通过这些方法和介质可以固定或溶解文库DNA，以进行化学反应来安装结构单元，或去除保护基团，或激活一部分用于进一步修饰，它们未在这里列出。

在某些实施方案中，杂交阵列包括用于通过ssDNA序列与以位置可寻址格式固定的互补寡核苷酸的序列特异性杂交来分选ssDNA序列的异质混合物的装置。参见例如美国专利第5,759,779号。应理解，杂交阵列可以采取许多物理形式。在某些实施方案中，杂交阵列具有使异源样品或ssDNA(即式(I)化合物文库)与已经固定在阵列表面上的互补寡核苷酸接触的能力。互补寡核苷酸将以能够实现、允许或促进ssDNA与固定化寡核苷酸的序列特异性杂交的方式固定在阵列的表面上，从而也固定ssDNA。在某些实施方案中，可以从阵列中独立地去除通过共同序列固定的ssDNA以形成子池。

在一些实施方案中，杂交阵列将是包括0.1至100mm厚的矩形塑料片的底盘，其中已经切割了一系列孔，称为“特征”。在某些实施方案中，在片材的下面和顶部粘附过滤膜。在某些实施方案中，在特征中，被截留在过滤膜之间的是固体表面或固体表面的集合，称为“固体支撑物”。在某些实施方案中，寡核苷酸的单个序列将被固定在任何给定特征中的固体支撑物上。

在某些实施方案中，通过使文库的水溶液流经和流过所述特征，可以在阵列上分选式(I)分子文库。在某些实施方案中，当文库成员与带有互补序列的特征中的寡核苷酸接触时，它们变得固定在特征内。在某些实施方案中，在杂交完成后，阵列的特征可以被定位在接收容器如96孔板或384孔板上。在某些实施方案中，可以将导致DNA去杂交的碱性溶液添加到每个特征中，并且所述溶液将携带现在可移动的文库进入接收容器。其它去杂交方法也是可能的，如使用热缓冲剂或变性剂。因此，在某些实施方案中，分子文库可以序列特异性方式分选成子池。

应理解，上述底盘可以由塑料、陶瓷、玻璃、聚合物或金属构成。应理解，固体支撑物可以由树脂、玻璃、金属、塑料、聚合物或陶瓷构成，并且支撑物可以是多孔的或无孔的。应理解，固体支撑物上的较高表面积允许固定更大量的互补寡核苷酸，并且可以在特征中捕获更大量的文库子池。应理解，固体支撑物可以通过由尼龙、塑料、布、聚合物、玻璃、陶瓷或金属制成的过滤膜保持在它们各自的特征中。应理解，固体支撑物可以通过除过滤膜之外的方式保持在它们各自的特征内，所述方式如胶水，粘合剂，或支撑物与底盘和/或其它支撑物的共价键合。应理解，所述特征可以是或可以不是底盘中的孔，而是可以从底盘中取出或放置在底盘中的独立构建体。应理解，底盘的形状不需要是具有以二维布置的特征的矩形，而是可以是具有以一维或三维布置的特征的圆柱形或矩形棱柱。参见例如美国专利第5,759,779号。

式(I)分子的文库可以被认为是栓系于其相应基因型的表型群体。这样的群体可以经受选择压力，其从群体中去除不太适合的个体，并允许更适合的成员幸存。第二代群体的G基因型中的寡核苷酸，即选择中幸存的那些，可以通过PCR扩增，重新翻译，并且针对相同的性状进行另一种更严格的选择，或者对于一些正交性状进行选择。通常也可以使用深度测序或下一代测序技术，对选择中幸存的亚群进行测序，并且可以分析测序数据以鉴定最适合的编码部分(表型)。

可以执行许多种选择。进行最典型的选择以找出群体中能够结合靶蛋白的个体。在某些实施方案中，进行这种选择的方法是将靶蛋白固定在固体支撑物上，如NUNC

板中的孔的表面，或通过将靶标生物素化并固定在链霉亲和素包被的磁珠上。在某些实施方案中，在靶标固定后，将式(I)分子群体与支撑物上的靶标一起温育。所有那些能够结合靶标的个体都会这样，并且本身被固定。用适当的缓冲液洗涤固体支撑物，去除了非结合剂。在某些实施方案中，编码结合剂的DNA可以通过PCR扩增，并送去测序以重新翻译并进行另一轮选择。

在某些实施方案中，可以用选择结合一种靶蛋白的个体以排除不同的抗靶蛋白或一组抗靶蛋白的方式进行选择。在这种情况下，一种选择方法需要将靶标和抗靶标固定在分开的容器中的固体支撑物上。在某些实施方案中，文库首先与抗靶标一起温育，并且可以结合抗靶标的个体也是如此。在某些实施方案中，小心地从容器中移出非结合剂并转移到含有靶标的容器中。以这种方式，针对结合靶标的能力被选择的群体在能够结合抗靶标的个体中首先被耗尽，并且所述选择产生了其适合性被表征为结合靶标或排除抗靶标的能力的个体。

在某些实施方案中，鉴定相比于另一靶标选择性地结合一个靶标的编码部分的第二种方法是对两个靶标进行平行选择，然后在分析测序数据期间消除表现出对两个靶标的亲和力的编码部分。

在某些实施方案中，还可以通过使用固定化靶标和游离靶标的混合物来选择具有低解离速率的结合剂而进行选择。在某些实施方案中，将所述文库与固定化靶标一起温育，从而允许结合剂结合。然后加入过量的游离靶标并温育预定量的时间。在此期间，从固定化靶标释放并且然后重新结合的任何结合剂具有重新结合到游离靶标的高概率。洗去非结合剂后，游离靶标和与其结合的任何物质也将被洗去。在游离靶标之后留下的唯一结合剂是解离速率比游离靶标的预定温育时间长的那些结合剂。

前述段落中描述的选择方法可见于关于噬菌体展示、核糖体展示和mRNA展示的文献中。参见例如Amstutz,Patrick等,Cell biology:a laboratory handbook(细胞生物学：实验室手册),第3版,ELSEVIER,Amsterdam(2006):497-509，以及其中的参考文献。

原则上，可以对任何特性进行选择，条件是可以构建对群体中具有所述特性的个体相比于不具有所述特性的那些个体进行选择性扩增的方法。原则上可选择除靶标结合之外的药理学相关性质，并且实例包括但不限于对水溶性、细胞膜渗透性和无毒性进行选择。

还应理解，以足够的量合成文库可以允许在给定的一轮中进行多于一次的选择。在某些实施方案中，在针对靶标亲和力进行选择之后的幸存者亚群可以被分离，并且针对对相同或不同靶标的亲和力进行第二次选择，或者针对正交特性进行选择。在一些情况下，在针对靶标亲和力进行选择之后和针对亲和力进行第二次选择之前，纯化幸存者的亚群。在某些实施方案中，然后通过PCR扩增幸存者子池并测序，或者将其扩增并重新翻译以供进一步选择。

在某些实施方案中，通过比较选择之前和之后群体中的文库成员的表现来分析测序数据。在某些实施方案中，在选择后较少表现的成员通常被认为不太适合，而在选择后更多表现的成员被认为更适合。另外，在一些情况下，分析数据以确定哪个单独的结构单元赋予适合性，当在相同编码部分中偶联时哪些结构单元对赋予适合性，以及哪些结构单元的三元组赋予适合性。在某些实施方案中，分析数据以确定不同结构单元内和不同编码部分内的哪些结构元件向所选文库成员赋予适合性。在某些实施方案中，这些分析告知应合成哪些成员用于独立测试，并建议应该制备和测试的类似分子，其可能不是文库的原生成员。在某些实施方案中，三维对接算法也可以告知这些过程。

在某些实施方案中，在数据分析中鉴定的文库成员可以在存在或不存在寡核苷酸部分的情况下合成，通常使用与制备文库中所用相同或相似的合成条件。在某些实施方案中，这些独立合成的样品然后可以进行各种测试，所述测试表征其物理和化学性质并表明其对所需任务的一般适合性。在某些实施方案中，这些性质包括但不限于测量文库成员与其靶标结合的紧密度的解离常数或KD，如通过水:辛醇分配所测量的水溶性，以及在CaCo细胞中测量的细胞渗透率。

在某些实施方案中，所鉴定的结合生物分子的文库成员可用于确定该生物分子的生物学功能。在某些实施方案中，许多蛋白质的功能尚未知晓，并且本公开的方法提供了一种发现分子探针以帮助阐明这些功能的现成途径。在某些实施方案中，通过本公开方法鉴定的文库成员可用于帮助确定生物分子是否特别适合于小分子发现和靶向以进行药物干预。

在某些实施方案中，可以在体外测定中或在体内测定中，在基于细胞的测定中或在基于非细胞的测定中测定其对结合文库成员的生物分子功能的影响。对于具有已知功能的生物分子，可以评估所鉴定的文库成员对该功能的影响。如果生物分子是酶，则可以评估对其活性率的影响。如果它是信号蛋白，则可以评估对细胞功能的影响，包括细胞活力、细胞基因表达或细胞表型表达。如果靶标是病毒蛋白，则可以评估文库成员对病毒增殖和活力的影响。

在某些实施方案中，还可以评价通过选择鉴定的文库成员在体内实验中对动物和人类和植物健康的影响。

在某些实施方案中，通过选择鉴定的文库成员也可以用作亲和试剂，以用于纯化生物分子靶标。在某些实施方案中，所鉴定的编码部分可以被固定在固体支撑物上，并且含有靶标的异质溶液可以流经固体支撑物。在某些实施方案中，靶标将与编码部分结合，并被固定化。在某些实施方案中，混合物的所有其它组分可以被洗去，留下纯化的靶标样品。

通过以下实施例说明但不限制本发明。本领域技术人员将认识到用于实现本文列举的步骤或步骤部分的许多等同技术。

实施例

式(I)分子的一个实施方案如下构建。

实施例1：16M成员基因文库(式G分子)的构建。

实施例1a.设计和提供基因文库的密码子。16种双链DNA(“dsDNA”)序列是从基因合成公司如Piscataway NJ的Genscript、Monmouth Junction NJ的Synbio Technologies、Wilmington DE的Biomatik、Sugarland TX的Epoch Life Sciences等提供或购买的。这些序列包含6个编码区，每个编码区20个碱基。每个密码子侧接有20个碱基的非编码区(构成总共7个非编码区)。所有编码区序列都是独一的，并被选择成与其它编码序列和非编码区不发生交叉反应。DNA分子中的7个非编码区具有不同的序列，但每个位置的序列在所有DNA中都是保守的。

编码区和非编码区的计算机设计如下。所有编码区和非编码区均设计为具有相似的熔融温度(通常在58℃至62℃之间)。DNA序列在计算机中随机生成。一旦生成，就使用最近邻法计算序列熔融温度和热力学性质(熔融的ΔH、ΔS和ΔG)。如果所计算的Tm和其它热力学性质不在文库所需的预定范围内，则排除该序列。通过序列相似性算法对可接受的序列进行分析。由算法预测为足够非同源的序列被假定是非交叉反应的并得以保留。其它被排除。编码和非编码区有时选自显示为非交叉杂交的寡核苷酸的经验列表。参见GiaeverG,Chu A,Ni L,Connelly C,Riles L等,(2002).Functional profiling of theSaccharomyces cerevisiae genome(酿酒酵母基因组的功能谱分析).Nature 418:387-391。该参考文献列出了10,000个非交叉反应的寡核苷酸。计算各自的Tm，并且通过序列同源性算法分析落在预定范围内的那些。保留具有足够非同源性的那些。

每个非编码区均包含独一的限制性位点。模板链5'端的非编码区含有从5'端起第13-18位碱基处的SacI识别位点。编码链3'端的非编码区含有从模板链3'端起第14-19位碱基处的EcoRI限制性位点。从模板链5'端起第二、第三、第四、第五和第六非编码区分别在第8-13位碱基处具有HindIII、NcoI、BamHI、NsiI和SphI识别位点。

实施例1b.DNA被限制性消化以使所有密码子彼此解偶联。将DNA序列汇集，并以约20μg/ml的浓度溶解在来自New England Biolabs(NEB,Massachusetts)的

缓冲液中。加入内部限制性酶，并按照酶制造商的方案在37℃下消化1小时。将酶在80℃下热灭活20分钟。灭活后，将反应在60℃下保持30分钟，然后冷却至45℃并保持30分钟，然后冷却至16℃。

实施例1c.将密码子组合重新分类以产生基因文库。为了将消化反应中产生的各个编码区重新组装成全长基因，根据制造商的方案，将来自NEB的T4 DNA连接酶加入到反应中至50U/ml，加入二硫苏糖醇(DTT，Thermo Fisher Scientific,Massachusetts)至10mM，并且加入5'-三磷酸腺苷(ATP，来自NEB)至1mM。连接反应进行2小时，并且通过琼脂糖凝胶电泳纯化产物。因为在所提供基因的非编码区中的一个位点处消化产生的粘性末端只会与同一位点上所有其它消化产物的粘性末端退火，因此将发生完全的组合重新分类。因此，在6个编码位置的每一个位置处有16个编码序列，并使用其中需要2个编码区来编码给定的结构单元的二项式编码策略，可以编码的文库成员数为((16²)³＝)1680万个成员。

实施例2a：通过替代方法制备基因文库。实施例1描述了通过在所提供的文库基因序列的所有内部非编码区处进行限制性消化并接着进行连接，同时对所有密码子进行组合重新分类。在一些情况下，此过程是以逐步方式进行的。使用相同的消化反应条件，其中例外的是添加单个限制性核酸内切酶而不是所有核酸内切酶。然后，使用相同的连接反应条件，将限制性消化产物重新连接在一起。连接产物通过琼脂糖凝胶电泳纯化，通过PCR扩增，然后通过下一个限制性酶切割。重复该过程直到基因文库完成。

实施例2b：通过第二种替代方法制备基因文库。在一些实施方案中，密码子的不完全组合重新分类以产生具有显著较低复杂性的群体将是有利的。通过以下来产生这种基因文库：首先将实施例1中所述的16个基因序列的混合物分成几个等分试样。然后，使用相同的反应条件，通过内部限制性酶的不同组合对每个等分试样进行限制性消化。在限制性酶的热灭活后，按照方案重新连接独立的消化产物。将产物汇集并通过琼脂糖凝胶电泳纯化，通过PCR扩增，并且按照以下实施例进行其余文库制备以及翻译和选择。

实施例2c.通过第三种替代方法制备基因文库。所述文库如前述制备，但有以下例外。所述文库是通过购买两组寡核苷酸即寡核苷酸的编码链组和寡核苷酸的反编码链组来构建的。每个组包含与存在的编码区同样多的子集，并且每个子集中存在与编码区的不同编码序列同样多的不同序列。编码链寡核苷酸的每个子集中的每个寡核苷酸包含编码序列和在一些情况下5'非编码区。反编码链寡核苷酸的每个子集中的每个寡核苷酸包含反编码序列和在一些情况下5'非编码区互补序列。为了促进该过程下游的连接，除编码和反编码链的5'末端之外的所有寡核苷酸以5'磷酸化购买，或者根据制造商的方案用来自NEB的T4PNK磷酸化。将具有编码链5'末端编码序列的寡核苷酸子集与具有3'末端反编码序列的子集组合在来自NEB的T4 DNA连接酶缓冲液中，并允许两组杂交。这样做产生的产物包含编码链上的单链5'悬端非编码区，双链编码区，和反编码链上的任选的单链5'悬端非编码区。对于寡核苷酸子集的每个编码/反编码对，分别进行该杂交程序。例如，将编码从5'端起的第二编码区的序列子集与其互补反编码子集杂交，将编码从5'端起的第三编码区的子集与其互补子集杂交，等等。将杂交的子集对汇集，并在一些情况下通过琼脂糖凝胶电泳来纯化。如果文库中的基因具有长度为1个碱基以上的非编码区，并且如果编码区之间的非编码区是独一的，则将等摩尔量的每个杂交的子集对添加到单个容器中。单链非编码区杂交，并使用制造商的方案通过来自NEB的T4 DNA连接酶彼此连接。如果非编码区的长度是1个碱基以上，但不是独一的，则将两个相邻的杂交子集添加到一个容器中，单链非编码区退火，并用T4 DNA连接酶进行连接。在反应完成后，在一些情况下通过琼脂糖凝胶电泳纯化产物，并加入与连接产物的一个末端相邻的第三杂交子集，退火并连接。重复该过程直到完成文库的构建。应理解，通过该方法构建了包含任意数量的编码区的文库。对于当前的目的，出于与文库构建无关的原因，超过20个编码区的文库可能是不切实际的。应理解，本领域技术人员通常进行钝端连接，并且编码区在不插入非编码区的情况下进行连接，但是对于在任一端不具有非编码区的杂交子集，连接提供了正义和反义产物两者。通过制备文库并在所有杂交阵列上依次分选，将具有正义的产物从具有反义的产物中纯化出来。在每个杂交步骤中在阵列上捕获的文库的部分具有正义。应理解，仅包含独一限制性位点序列的非编码区是该方法的有吸引力的选择。

实施例2d.购买基因文库。类似于实施例1和2中所述的基因文库可以购自TwistBioscience(500Terry Francois Boulevard,San Francisco,CA 94158)。

实施例3：制备准备好用于翻译的单链寡核苷酸G。

实施例3a.通过PCR扩增基因文库。通过延伸PCR将T7启动子附加到非模板链的5'端，所述PCR对于50μL反应使用以下这些反应物：5x

高保真度DNA聚合酶(“

聚合酶”，NEB)，10μL；脱氧核苷酸(dNTP)溶液混合物，200μΜ最终浓度；正向引物，最终浓度750nM；反向引物最终浓度，750nM；模板(应使用足够的模板对文库进行充分的过采样)；二甲亚砜(DMSO)，2.5uL；“

聚合酶”，2μL。使用57℃的退火温度和72℃的延伸温度进行PCR。每个循环退火5秒钟；每个循环延伸5秒钟。通过琼脂糖凝胶电泳分析产物。

实施例3b.将DNA转录成RNA。在PCR产物未经纯化的情况下，使用以下反应物进行250μL转录反应：PCR产物，25μL；无RNA酶的水，90μL；三磷酸核苷(NTP)，各自最终浓度为6mM；5xT7缓冲液，50μL；NEB T7 RNA聚合酶250个单位；在一些情况下，可加入

核糖核酸酶抑制剂(Promega Corporation,WI)至200U/ml；在一些情况下，可加入焦磷酸酶至10μg/ml。5xT7缓冲液含有：1M HEPES-KOH(4-(2-羟乙基)-1-哌嗪乙磺酸)pH 7.5；150mM乙酸镁；10mM亚精胺；200mM DTT。反应在37℃下进行4小时。通过氯化锂沉淀来纯化RNA。用1体积的水稀释转录反应。加入LiCl至3M。在4℃以最大g旋转至少1小时。倾析上清液并保留。洁净的球粒将是透明的玻璃状凝胶，其难以溶解。温和加热(在70℃下一分钟)和温和涡旋的交替将导致球粒重新悬浮。通过琼脂糖凝胶电泳分析，定量，并尽可能快地冷冻以避免降解。参见例如Analytical Biochemistry 195,第207-213页.(1991)；和AnalyticalBiochemistry 220,第420-423页,(1994)。

实施例3c.将RNA逆转录成DNA。使用来自Thermo Fisher Scientific的

III逆转录酶和所提供的第一链缓冲液，以两步骤程序将单链RNA(“ssRNA”)逆转录。第一步骤是用这些最终浓度的下列组分来进行的：dNTP，各660μM；RNA模板，～5μM；引物，5.25μM。将步骤1的组分加热到65℃持续5分钟，然后冰冻至少2分钟。步骤2组分的最终浓度为：第一链缓冲液，1x；DTT，5mM；RNA酶抑制剂(NEB)，0.01U/uL，

III逆转录酶，0.2U/μl。将步骤2的组分合并，温热至37℃，并且在将步骤1的组分冰冻2分钟后，将步骤2的混合物添加到步骤1的混合物中。将合并的部分在37℃下反应12小时。反应后进行琼脂糖凝胶电泳。取出已知原料RNA和已知产物或已知产物类似物如PCR产物文库的反应的样品。向所有样品中加入乙二胺四乙酸(“EDTA”)，加热至65℃，2分钟，快速冷却，然后在琼脂糖凝胶上电泳。ssRNA应从互补DNA(“cDNA”)产物中离析。通过以下来纯化cDNA产物：加入1.5体积的异丙醇和乙酸铵至2.5M，接着以48,000g离心1小时。将cDNA球粒重悬于蒸馏水(“dH₂O”)中，并且通过加入LiOH至pH 13使RNA链水解。将溶液加热至95℃持续10分钟。加入1.05当量的非编码区特异性引物，用三(羟基甲基)氨基甲烷(“Tris”)和乙酸使pH达到中性，并使反应缓慢冷却至室温，然后将其浓缩并在一些情况下纯化。

实施例3d：制备在逆转录期间在5'端具有接头和反应性官能团的G。可以通过遵循上述逆转录方案将反应性化学官能团栓系到寡核苷酸上，其中例外的是用于逆转录反应的引物具有位于引物5'端处或附近的接头。适当的接头是可商购的，并且包括烷基链、肽链、聚乙二醇链，并且在本文中对其进行了更全面的讨论。适当的化学官能团是可商购的，已经栓系到接头，并且包括胺、炔烃、羧酸、硫醇、醇，并且在本文中进行了更全面的讨论。可以作为寡核苷酸引物的一部分购买的带接头的官能团的一个实例是N4-TriGl-氨基2'脱氧胞苷(来自IBA,Goettingen,Germany)。如此处所述的引物可购自DNA寡核苷酸合成公司，如Sigma Aldrich，Coralville,IA的Integrated DNA Technologies，或Louisville,KY的Eurofins MWG。

实施例4.通过将寡核苷酸G的文库分选成第一组子池，然后将每个子池分选成第二组子池并进行对每个子池具特异性的化学来制备式(I)和式(II)的分子。

实施例4a.杂交阵列的制备。杂交阵列由～2mm厚的TECAFORM^TM(乙缩醛共聚物)底盘构建，具有由计算机数控机器切割的孔。使用来自Nitto Denko的P905双面胶将来自ELKOFILTERING的尼龙40微米网粘附在底盘底部。然后用已经用叠氮基团官能化的CM

树脂(Sigma Aldrich)的固体支撑物填充孔。使用购自Broadpharm(SanDiego,CA)的具有8个PEG单元的叠氮基-PEG-胺将树脂官能化。将45ml的包装的CM

装入烧结漏斗中并用DMF洗涤。然后将树脂悬浮在90ml DMF中，并与4.5mM叠氮基-PEG-胺、75mM EDC、7.5mM HOAt在室温下反应12小时。用DMF、水、异丙醇洗涤树脂，并在4℃下储存在20％乙醇中。然后将尼龙40微米网粘附到底盘的顶部。叠氮基团允许使用点击化学将炔烃连接的寡核苷酸栓系到固体支撑物上。将阵列放置在阵列-孔板衔接子中，并将衔接子固定在孔板上使得捕获寡核苷酸能够互相对准地“点击”到叠氮基-

上。将含有1nmol炔基寡核苷酸、硫酸铜、625μM三(3-羟基-丙基-三唑基-甲基)胺(“THPTA”)(配体)、3.1mM氨基-胍、12.5mM抗坏血酸盐、12.5mM磷酸盐缓冲液pH 7的30μl溶液(100mM)加入到阵列-孔板衔接子的每个孔中，并使其吸附到

支撑物上。10分钟后，将溶液在离心机中从阵列中旋出并进入板中，然后将其互相对准地重新吸移回到阵列上，以进行反应的第二个回合。在第二次10分钟反应后，将反应溶液旋入孔板中，并将孔板放在一边。用1mM EDTA充分洗涤阵列，并储存在含有0.05％叠氮化钠的磷酸盐缓冲溶液(“PBS”)中。将反应溶液各自用dH₂O稀释至100μl，加载到二乙基氨基乙基(DEAE)离子交换树脂上，用dH₂O洗涤以去除除了用1.5M NaCl+50mM NaOH洗脱的任何未并入的寡核苷酸之外的所有试剂和反应副产物。通过高效液相色谱法(HPLC)分析这些溶液，以通过原料消失确定并入程度。一个阵列带有与模板文库中的一个编码位置互补的寡核苷酸。对每个编码位置制造单独的阵列。

在一些情况下，捕获寡核苷酸可以如上所述固定在固体支撑物上，但是可以在一系列柱中以代替阵列。除CM

外的许多不同固体支撑物是可用的，包括纤维素、带有亲水性涂层的无孔珠粒等。

实施例4b.通过在第一编码区的序列特异性杂交对文库进行分选。将准备好用于杂交的文库在1x杂交缓冲液(2x盐水柠檬酸钠(SSC)、+15mM Tris pH7.4+0.005％

X100、0.02％SDS、0.05％叠氮化钠)中稀释至13ml。添加10μg带有正交序列的“空”DNA以阻断非特异性核酸结合位点。选择对应于模板文库中所需编码位置的阵列。将阵列置于腔室中，所述腔室在任一侧提供1-2mm的间隙，并倒入13ml文库溶液。将腔室密封并在37℃下轻轻摇动48小时。在一些情况下，将阵列放置在允许含有文库的溶液被定向泵送通过预先图案化的路径中的各种特征的装置中，作为更快地对阵列上的文库进行分选的方法。

实施例4c.从杂交阵列洗脱出分选的文库。通过开启腔室并用新鲜的1x杂交缓冲液替换杂交溶液，接着在37℃摇动30分钟来洗涤阵列。用杂交缓冲液重复洗涤3次，然后用1/4x杂交缓冲液重复洗涤2次。然后从阵列中洗脱出文库。将阵列置于阵列-孔板衔接子中，并向每个孔中加入30μl的10mM NaOH、0.005％

X-100并温育2分钟。将溶液在离心机中旋转通过阵列进入孔板中。洗脱程序进行3次。通过向每个孔中依次添加9μl 1MTris pH 7.4和9μl 1M HOAc来中和所分选的文库溶液。

实施例4d.通过在第二编码区的序列特异性杂交对文库进行分选。然后，通过在与第二编码区互补的阵列上对每个第一子池进行分选，将通过第一次分选生成的每个子池独立地分选成第二组子池。例如，如果第一次分选是通过与带有捕获寡核苷酸的阵列杂交来进行的，所述捕获寡核苷酸与最接近寡核苷酸5'端的编码区互补，则那些子池中的每一个可以在带有与任何其它预定编码区互补的捕获寡核苷酸的阵列上独立地进行分选。

实施例4e.在分选文库上进行类肽偶联化学步骤。将15μl SuperQ 650M树脂等分试样加入到滤板的每个孔中，并用100μl的10mM HOAc洗涤。将分选的文库转移到带有离子交换树脂的孔板中。树脂和文库用1x90μl 10mM HOAc、2x90μl dH₂O、2x90μl DMF、1x90μl哌啶洗涤。另外，制备含有100mM氯乙酸钠和150mM 4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉鎓氯化物的甲醇溶液。将40μl的该溶液加入到树脂的每个孔中并在室温下反应30分钟。用3x90 ul甲醇洗涤树脂，然后重复偶联并用3x90μl甲醇、3x90μl DMSO洗涤。另外，制备2M(或在必要时饱和)仲胺的DMSO溶液。向树脂的每个孔中加入40μl的一种仲胺溶液，并在37℃下反应12小时。用3x90μl DMSO、3x90μl 10mM乙酸(HOAc)、3x90μl dH₂O洗涤树脂。用1.5M NaCl、50mM NaOH、0.005％

X-100以3×30μl份洗脱出离子交换树脂中的DNA文库。汇集所有反应物，并通过加入Tris至15mM和HOAc至pH 7.4来中和溶液。浓缩并缓冲液交换到1X杂交缓冲液中。

实施例4f.完成文库的合成。使用上文关于杂交阵列上的文库分选的方案，以及使用上文关于进行肽或类肽化学的方案，或者下文在其它实施例中进行其它化学步骤的方案，进行更多的分选和合成步骤，并且将文库完全翻译。

实施例4g.通过在第一编码区的序列特异性杂交对文库进行分选。

在1x杂交缓冲液(2x盐水柠檬酸钠(SSC)、+15mM Tris pH 7.4+0.005％

X100、0.02％SDS、0.05％叠氮化钠)中将11nmol准备好用于杂交的文库稀释至22ml。加入10μg的tRNA以阻断非特异性核酸结合位点。阵列带有4个不同的捕获序列，这些捕获序列对应于模板文库中从5'端起第4个编码位置。将阵列置于腔室中，所述腔室在任一侧提供1-2mm的间隙，并倒入22ml文库溶液。将腔室密封并在61℃轻轻摇动20小时，然后在56℃摇动2小时，并在52℃下摇动1小时和在42℃下摇动1小时。通过将阵列在具有50ml 5x杂交缓冲液的腔室中于56℃摇动15分钟，接着在0.2x杂交缓冲液中于38℃摇动15分钟来洗涤阵列。然后将阵列置于衔接子装置中，并通过向每个孔中加入70ul 0.2x杂交缓冲液并将洗涤缓冲液旋转通过阵列进入接收板中进行洗涤。通过加入30ul阵列洗脱缓冲液(10mMKOH+0.02％SDS)并且将缓冲液旋转通过阵列进入384孔UV透明板中来洗脱杂交的DNA。将这种洗脱进行3次。阵列上第1、第2、第3和第4序列上文库的产量分别为：1.6nmol、1.2nmol、2.0nmol和4.8nmol。使用该程序进行分选后，产生的子池保真度>90％。可以重复该程序，直到已分选出足够数量的文库用于下一步骤。

实施例4h.通过在第二编码区的序列特异性杂交对文库进行分选。

在1x杂交缓冲液(2x盐水柠檬酸钠(SSC)、+15mM Tris pH 7.4+0.005％

X100、0.02％SDS、0.05％叠氮化钠)+700mM NaCl中将11nmol准备好用于杂交的文库稀释至22ml，使缓冲液中NaCl的总浓度达到1M。加入10μg的tRNA以阻断非特异性核酸结合位点。阵列带有96个不同的捕获序列，这些捕获序列对应于模板文库中从5'端起第5个编码位置。将阵列置于腔室中，所述腔室在任一侧提供1-2mm的间隙，并倒入22ml文库溶液。将腔室密封并在61℃轻轻摇动20小时，然后在56℃摇动2小时，并在52℃下摇动1小时和在42℃下摇动1小时。通过将阵列在具有50ml 5x杂交缓冲液的腔室内于56℃摇动15分钟，接着在0.2x杂交缓冲液中于38℃摇动15分钟来洗涤阵列。然后将阵列置于衔接子装置中，并通过向每个孔中加入70ul 0.2x杂交缓冲液并将洗涤缓冲液旋转通过特征进入接收板中进行洗涤。通过加入30ul阵列洗脱缓冲液(10mM KOH+0.02％SDS)并且将缓冲液旋转通过阵列进入384孔UV透明板中来洗脱杂交的DNA。该洗脱进行3次。文库的总产量为6.6nmol。带有96个不同序列的文库的平均捕获量为68pmol，用序列捕获的最大量为90pmol，并且用序列捕获的最小量为12pmol。

实施例4i.多项式编码的演示，以及缺少双链非编码区的文库的使用。制备两个文库成员，即一个实验文库成员和一个对照文库成员。实验寡核苷酸具有2个相邻的编码区，其与固定在2种不同

树脂样品上的2个捕获寡核苷酸同源，但是该实验文库成员在两个相邻的编码区之间不具有双链非编码区。相反，它具有单链序列AAATTT。对照文库成员具有与树脂上的两个捕获寡核苷酸中的任一个非同源的2个编码区，它还具有在其非同源编码区之间带有NcoI限制性位点的双链非编码区。将显著过量的对照文库成员添加到实验文库成员，并将它们混合并使其与第一树脂杂交。将树脂沥干，洗涤并洗脱，并且分别收集流通液、洗涤液和洗脱液。将洗脱的材料与第二显著过量的对照文库成员混合，并且将该样品与第二树脂上的第二捕获寡核苷酸杂交。将树脂沥干，洗涤并洗脱。分别收集流通液、洗涤液和洗脱液。用NcoI对所有收集的样品进行限制性消化。参照图5，文库成员的初始混合物显示3个条带，与对照文库成员不完全消化成2个片段(和亲本)一致，实验文库成员太微弱以致于不能直接通过凝胶观察。第一流通液和第一洗涤液也显示相同的3条带图案，但是洗涤样品含有足够的实验文库成员，以便其开始在凝胶上可见。第一次洗脱仅显示一个强条带，与样品中仅未消化的实验文库成员的存在一致。这表明杂交对于实验寡核苷酸具有的第一编码区是特异性的。包含第一洗脱文库成员和对照文库成员的第二等分试样的第二混合物在限制性消化后显示3条带模式，第二流通液和第二洗涤液也是如此。这与实验文库成员和对照文库成员的存在一致。第二次洗脱显示实验文库成员相比于对照的显著优势，这与通过在第二树脂上的特异性杂交富集实验文库成员一致。

参照图5，

泳道1：梯带

泳道2：对照文库成员亲本和来自NcoI消化的2个片段条带

泳道3：未被NcoI消化的实验文库成员(应注意：实验文库成员比对照短约14个碱基，因此可从其中离析)

泳道4：在第一次杂交之前的实验文库成员和对照文库成员的第一混合物

泳道5：第一杂交流通液

泳道6：第一杂交洗涤液

泳道7：第一洗脱液，显示极大过量的实验文库成员

泳道8：在第二次杂交之前实验文库成员和对照文库成员的第二混合物(应注意：该泳道中对照文库成员的完全消化，以及对照文库成员和实验文库成员的相对浓度)

泳道9：第二杂交流通液

泳道10：第二洗涤液

泳道11：第二洗脱液(应注意：此泳道中的对照文库成员已被完全消化，并且实验文库成员与对照文库成员的相对比例显著增加)

泳道12和13未使用。

实施例5.进行编码分子的选择

实施例5a.制备文库以供选择。

在一些情况下，一旦文库翻译完成，就通过将小于或等于1.0μM的作为模板的文库、1x DREAMTAQ^TM缓冲液、1000x dNTP[模板]、0.2U/μl的DREAMTAQ^TM聚合酶和等摩尔量的MgCl₂的补充物(对于每个dNTP)组合在dH₂O中，使单链区成为双链的。应注意，与3'末端非编码区互补的寡核苷酸或在3'端的反应位点衔接子将充当该反应的引物。将混合物加热至95℃持续2分钟，然后在57℃退火10秒，并且在72℃延伸10分钟。通过乙醇沉淀来纯化反应。

实施例5b.选择与所关注的蛋白质靶标结合的配体。将100μl PBS中的5μg链霉亲和素固定在MAXISORP^TM板的4个孔中，并在4℃摇动过夜。用PBST 4x340ul洗涤孔。两个孔用200μl酪蛋白封闭，并且另外两个孔用5mg/ml BSA在室温下封闭2小时。用4x340μl PBST洗涤孔。将100μl PBS中的5μg生物素化靶蛋白加入到用酪蛋白封闭的孔中，并加入到用BSA封闭的孔中，并在室温下摇动温育1小时(关于蛋白质生物素化的方案，参见Elia,G.2010.Protein Biotinylation(蛋白质生物素化).Current Protocols in ProteinScience.60:3.6:3.6.1-3.6.21)。将含有Tween 20的PBS(PBST)中的100μl翻译文库等分试样加入到未接收靶蛋白的每个孔中，并将100μl PBST加入到接收靶蛋白的两个孔中。将样品在室温下摇动温育1小时。从仅含有固定化靶蛋白和PBST的孔中小心吸出缓冲液。将不含靶标的孔中含有文库的缓冲液小心地转移到含靶标的孔中。将100μl PBST加入到不含靶标的孔中。全部在室温下摇动温育4小时。用移液管小心地移出文库并储存。用4x340μl PBST洗涤孔。为了洗脱与靶蛋白紧密结合的文库成员，将100μl PBST中过量的生物素加入到孔中并在37℃下温育1小时。小心吸出缓冲液并用作PCR反应的模板。也可以使用收集缓冲液在足以使靶蛋白变性的温度下洗脱紧密结合剂。

实施例6.分析选择结果。来自选择之前和之后的文库的PCR产物使用DNA测序服务供应商所要求的引物和方案进行深度测序。供应商包括Fremont CA的Seqmatic和Hayward,CA的Elim BioPharm。分析在每个测序链的末端和内部编码区处的编码序列，以推导出用于合成编码部分的结构单元。在选择之前和之后鉴定的文库成员的相对频率表明通过选择使文库成员在群体中富集的程度。对包含选择中幸存的文库成员的各种化学亚组的分析显示了这些部分向文库成员赋予适合性的程度，并且用于进化更适合的分子或预测用于独立合成和分析的类似分子。

实施例7：式(I)的索引分子。预留或添加编码区以用作索引区域。在根据实施例1-4制备和翻译文库之后，通过预留用于索引的编码区在杂交阵列上对文库进行分选。通过这种分选生成的子池用于不同目的，针对不同特性、针对不同靶标或针对不同条件下的相同靶标进行选择。在一些情况下，通过PCR独立地扩增不同选择的产物，与其它子池重新汇集，并如实施例1-4中那样重新翻译。

实施例8：对文库进行基因改组或交叉反应。文库经过翻译和选择后，进行基因改组将产生先前不存在于该文库中的新的后代表型，或者产生对选择中幸存的表型进行重新采样的后代表型。通过PCR扩增选择后文库。将PCR产物分成多个等分试样，并且每个等分试样均进行实施例2b中所述的方案。在一些情况下，每个等分试样都进行实施例1中所述的方案，其中DNA被限制性消化以使所有密码子彼此解偶联，并且所述密码子被组合地重新分类以产生基因文库。如实施例2中所述将消化/再连接产物汇集，纯化和扩增，并按照上述实施例进行随后轮次的文库制备、翻译和选择。

实施例9：使用Suzuki偶联化学合成编码部分。将带有芳基碘(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入50当量的呈200mM二甲基乙酰胺储备溶液形式的硼酸，300当量的呈200mM水溶液形式的碳酸钠，0.8当量的呈10mM二甲基乙酰胺储备溶液形式的乙酸钯和预混合的20当量的呈100mM水溶液形式的3,3',3"膦烷三基三(苯磺酸)三钠盐。混合物在65℃下反应1小时，然后通过乙醇沉淀来纯化。将DNA文库溶解在缓冲液中至1mM并且加入120当量的呈400mM水溶液形式的硫化钠，然后在65℃下反应1小时。用dH2O将产物稀释至200μl并通过离子交换色谱法纯化。(参见Gouliaev,A.H.,Franch,T.P.O.,Godskesen,M.A.和Jensen,K.B.(2012)Bi-functional Complexes and methods for making and usingsuch complexes(双官能复合物以及这种复合物的制备和使用方法).专利申请WO 2011/127933 A1。)

实施例10：合成并有咪唑并吡啶的编码部分。将带有芳基醛(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH9.4中。向其中加入50当量的呈200mM DMA储备溶液形式的2-氨基吡啶，和2500当量的呈1M水溶液形式的NaCN，并在90℃下反应10小时。通过乙醇沉淀或离子交换色谱法来纯化产物。(参见(1)Alexander Lee Satz,Jianping Cai,Yi Chen,RobertGoodnow,Felix Gruber,Agnieszka Kowalczyk,Ann Petersen,Goli Naderi-Oboodi,Lucja Orzechowski和Quentin Strebel.DNA Compatible Multistep Synthesis andApplications to DNA Encoded Libraries(DNA相容性多步骤合成及其在DNA编码文库中的应用).Bioconjugate Chemistry 2015 26(8),1623-1632；(2)Beatch,G.N.,Liu,Y.和Plouvier,B.M.C.PCT国际申请2001096335,2001年12月20日；(3)Inglis,S.R.,Jones,R.K.,Booker,G.W.和Pyke,S.M.(2006)Synthesis of N-benzylated-2-aminoquinolinesas ligands for the Tec SH3 domain(作为Tec SH3结构域的配体的N-苄基化-2-氨基喹啉的合成).Bioorg.Med.Chem.Lett.16,387-390。)

实施例11：使用Sonogashira偶联化学合成编码部分。将带有芳基碘(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入100当量的呈200mM二甲基乙酰胺储备溶液形式的炔烃，300当量的呈200mM二甲基乙酰胺储备溶液形式的吡咯烷，0.4当量的呈10mM二甲基乙酰胺储备溶液形式的乙酸钯，2当量的呈100mM水溶液形式的3,3',3"膦烷三基三(苯磺酸)三钠盐。反应在65℃下进行2小时，然后通过乙醇沉淀或通过离子交换色谱法纯化。(参见(1)Liang,B.,Dai,M.,Chen,J.和Yang,Z.(2005)Cooper-free sonogashira couplingreaction with PdCl2 in water under aerobic conditions(在有氧条件下在水中与PdCl2的不含铜的sonogashira偶联反应).J.Org.Chem.70,391-393；(2)Li,N.,Lim,R.K.V.,Edwardraja,S.和Lin,Q.(2011)Copper-free Sonogashira cross-coupling forfunctionalization of alkyne encoded proteins in aqueous medium and inbacterial cells(用于在水性介质中和细菌细胞中炔烃编码的蛋白质的官能化的不含铜的Sonogashira交叉偶联).J.Am.Chem.Soc.133,15316-15319；(3)Marziale,A.N.,Schlüter,J.和Eppinger,J.(2011)An efficient protocol for copper-free palladium-catalyzed Sonogashira crosscoupling in aqueous media at low temperatures(在水性介质中在低温下不含铜的钯催化的Sonogashira交叉偶联的有效方案).TetrahedronLett.52,6355-6358；(4)Kanan,M.W.,Rozenman,M.M.,Sakurai,K.,Snyder,T.M.和Liu,D.R.(2004)Reaction discovery enabled by DNA-templated synthesis and in vitroselection(通过DNA模板合成和体外选择实现的反应发现).Nature 431,545-549。)

实施例12：使用氨基甲酰化合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入1:4v/v的三乙胺、50当量的呈200mM二甲基乙酰胺储备溶液形式的碳酸二-2-吡啶基酯。所述反应在室温下进行2小时，然后在室温下加入40当量的呈200mM二甲基乙酰胺储备溶液形式的胺持续2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Artuso,E.,Degani,I.和Fochi,R.(2007)Preparation of mono-,di-,andtrisubstituted ureas by carbonylation of aliphatic amines with S,S-dimethyldithiocarbonate(通过用S,S-二甲基二硫代碳酸酯将脂族胺羰基化来制备单、二和三取代的脲).Synthesis 22,3497-3506；(2)Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)

实施例13：使用硫脲化合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。在室温下向其中加入20当量的呈200mM二甲基乙酰胺储备溶液形式的2-吡啶基硫代碳酸酯持续30分钟。然后在室温下加入40当量的呈200mM二甲基乙酰胺储备溶液形式的胺并缓慢升温至60℃并反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Deprez-Poulain,R.F.,Charton,J.,Leroux,V.和Deprez,B.P.(2007)Convenientsynthesis of 4H-1,2,4-triazole-3-thiols using di-2-pyridylthionocarbonate(使用二-2-吡啶基硫代碳酸酯方便地合成4H-1,2,4-三唑-3-硫醇).Tetrahedron Lett.48,8157-8162。)

实施例14：使用胺的还原性单烷基化合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入40当量的呈200mM二甲基乙酰胺储备溶液形式的醛，并在室温下反应1小时。然后加入40当量的呈200mM乙腈储备溶液形式的硼氢化钠，并在室温下反应1小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Abdel-Magid,A.F.,Carson,K.G.,Harris,B.D.,Maryanoff,C.A.和Shah,R.D.(1996)Reductive amination ofaldehydes and ketones with sodium triacetoxyborohydride(用三乙酰氧基硼氢化钠对醛和酮进行还原性胺化).J.Org.Chem.61,3849-3862。)

实施例15：使用SNAr与杂芳基化合物合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入60当量的呈200mM二甲基乙酰胺储备溶液形式的杂芳基卤化物，并在60℃下反应12小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods forefficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)

实施例16：使用Horner-Wadsworth-Emmons化学合成编码部分。将带有醛(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入50当量的呈200mM二甲基乙酰胺储备溶液形式的2-(二乙氧基膦酰基)乙酸乙酯和50当量的呈200mM水溶液形式的碳酸铯，并在室温下反应16小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Manocci,L.,Leimbacher,M.,Wichert,M.,Scheuermann,J.和Neri,D.(2011)20years of DNA-encodedchemical libraries(20年的DNA编码化学文库).Chem.Commun.47,12747-12753。)

实施例17：使用磺酰化合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入40当量的呈200mM二甲基乙酰胺储备溶液形式的磺酰氯，并在室温下反应16小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods forefficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)

实施例18：使用三氯-硝基-嘧啶合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。在5℃下向其中加入20当量的呈200mM二甲基乙酰胺储备溶液形式的三氯-硝基-嘧啶(TCNP)。将反应在一个小时内升温至室温，并通过乙醇沉淀来纯化。将DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中，并加入40当量的呈200mM二甲基乙酰胺储备溶液形式的胺、100当量的纯三乙胺，并在室温下反应2小时。所述文库通过乙醇沉淀来纯化。将DNA文库立即溶解在硼酸盐缓冲液中以立即反应，或者将其汇集，在阵列上重新分选，然后溶解在硼酸盐缓冲液中，随后使其与50当量的呈200mM二甲基乙酰胺储备溶液形式的胺和100当量的三乙胺反应并在室温下反应24小时。通过乙醇沉淀或离子交换色谱法来纯化产物。(参见Roughley,S.D.和Jordan,A.M.(2011)The medicinal chemist'stoolbox:an analysis of reactions used in the pursuit of drug candidates(药物化学家的工具箱：用于寻求药物候选物的反应的分析).J.Med.Chem.54,3451-3479。)

实施例19：使用三氯嘧啶合成编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入50当量的呈200mM DMA储备溶液形式的2,4,6三氯嘧啶，并在室温下反应3.5小时。DNA在乙醇中沉淀，然后以1mM重新溶解在硼酸盐缓冲液pH9.4中。向其中加入40当量的呈200mM乙腈储备溶液形式的胺，并在60-80℃下反应16小时。通过乙醇沉淀来纯化产物，然后将DNA文库立即溶解在硼酸盐缓冲液中以立即反应，或者将其汇集，在阵列上重新分选，然后溶解在硼酸盐缓冲液中，随后使其与60当量的呈200mM二甲基乙酰胺(DMA)储备溶液形式的硼酸和200当量的呈500mM水溶液形式的氢氧化钠、2当量的呈10mM DMA储备溶液形式的乙酸钯和20当量的呈100mM水溶液形式的三(3-磺基苯基)膦三钠盐(TPPTS)反应，并在75℃下反应3小时。DNA在乙醇中沉淀，然后以1mM溶解在水中，并与120当量的呈400mM储备水溶液形式的硫化钠在65℃下反应1小时。通过乙醇沉淀或离子交换色谱法纯化产物。

实施例20：使用Boc脱保护合成编码部分。将带有Boc保护的胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以0.5mM溶解在硼酸盐缓冲液pH 9.4中，并加热至90℃持续16小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,DeLeon,D.等,Enzymatic encoding methods for efficient synthesis of largelibraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)

实施例21：使用叔丁酯的水解合成编码部分。将带有叔丁酯(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液中，并在80℃下反应2小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)

实施例22：使用Alloc脱保护合成编码部分。将带有Alloc保护的胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入10当量的呈10mM DMA储备溶液形式的四(三苯基膦)钯和10当量的呈200mM乙腈储备溶液形式的硼氢化钠并在室温下反应2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Beugelmans,R.,Neuville,M.B.-C,Chastanet,J.和Zhu,J.(1995)Ρalladium catalyzed reductive deprotection ofAlloc:Transprotection and peptide bond formation(钯催化的Alloc还原脱保护：转保护和肽键形成).Tetrahedron Lett.36,3129。)

实施例23：使用甲基/乙基酯的水解合成编码部分。将带有甲基或乙基酯(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解于硼酸盐缓冲液中，并与100当量的NaOH在60℃下反应2小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesisof large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664A2,2007。)

实施例24：使用硝基的还原合成编码部分。将带有硝基(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在水中。向其中加入10％体积当量的雷尼镍(Raney nickel)浆料、10％体积当量的呈400mM水溶液形式的肼并在室温下摇动反应2-24小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Balcom,D.和Furst,A.(1953)Reductions with hydrazine hydratecatalyzed by Raney nickel(雷尼镍催化的水合肼的还原).J.Am.Chem.Soc.76,4334-4334。)

实施例25：使用“点击”化学合成编码部分。将带有炔烃或叠氮基团(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在100mM磷酸盐缓冲液中。向其中加入硫酸铜至625μΜ，THPTA(配体)至3.1mM，氨基-胍至12.5mM，抗坏血酸盐至12.5mM，以及叠氮化物至1mM(如果DNA带有炔烃)或炔烃至1mM(如果DNA带有叠氮化物)。反应在室温下进行4小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Hong,V.,Presolski,Stanislav I.,Ma,C.和Finn,M.G.(2009),Analysis and Optimization of Copper-Catalyzed Azide-AlkyneCycloaddition for Bioconjugation(用于生物共轭的铜催化叠氮化物-炔烃环加成的分析与优化).Angewandte Chemie International Edition,48:9879-9883。)

实施例26：合成并有苯并咪唑的编码部分。将带有芳基邻二胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入60当量的呈200mM DMA储备溶液形式的醛并在60℃下反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Mandal,P.,Berger,S.B.,Pillay,S.,Moriwaki,K.,Huang,C,Guo,H.,Lich,J.D.,Finger,J.,Kasparcova,V.,Votta,B.等,(2014)RIP3 induces apoptosis independent ofpronecrotic kinase activity(RIP3诱导细胞凋亡而与促坏死激酶活性无关).Mol.Cell56,481-495；(2)Gouliaev,A.H.,Franch,T.P.-O.,Godskesen,M.A.和Jensen,K.B.(2012)Bi-functional Complexes and methods for making and using such complexes(双官能复合物以及这种复合物的制备和使用方法).专利申请WO 2011/127933 A1；(3)Mukhopadhyay,C和Tapaswi,P.K.(2008)Dowex 50W:A highly efficient and recyclablegreen catalyst for the construction of the 2-substituted benzimidazole moietyin aqueous medium(Dowex 50W：一种用于在水性介质中构建2-取代的苯并咪唑部分的高效且可再循环的绿色催化剂).Catal.Commun.9,2392-2394。)

实施例27：合成并有咪唑烷酮的编码部分。将带有α-氨基-酰胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在1:3甲醇:硼酸盐缓冲液pH 9.4中。向其中加入60当量的呈200mM DMA储备溶液形式的醛并在60℃下反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Barrow,J.C,Rittle,K.E.,Ngo,P.L.,Selnick,H.G.,Graham,S.L.,Pitzenberger,S.M.,McGaughey,G.B.,Colussi,D.,Lai,M.-T.,Huang,Q.等,(2007)Design and synthesis of2,3,5-substituted imidazolidin-4-one inhibitors of BACE-1(BACE-1的2,3,5-取代的咪唑烷-4-酮抑制剂的设计和合成).Chem.Med.Chem.2,995-999；(2)Wang,X.-I,Frutos,R.P.,Zhang,L.,Sun,X.,Xu,Y.,Wirth,T.,Nicola,T.,Nummy,L.I,Krishnamurthy,D.,Busacca,C.A.,Yee,N.和Senanayake,C.H.(2011)Asymmetric synthesis of LFA-1inhibitor BIRT2584 on metric ton scale(公吨规模的LFA-1抑制剂BIRT2584的不对称合成).Org.Process Res.Dev.15,1185-1191；(3)Blass,B.E.,Janusz,J.M.,Wu,S.,Ridgeway,J.M.II,Coburn,K.,Lee,W.,Fluxe,A.J.,White,R.E.,Jackson,C.M.和Fairweather,N.4-Imidazolidinones as KV1.5 Potassium channel inhibitors(作为KV1.5钾通道抑制剂的4-咪唑烷酮).WIPO WO2009/079624 Al,2009。)

实施例28：合成并有喹唑啉酮的编码部分。将带有2-苯胺基-1-苯甲酰胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入200当量的呈1M水溶液形式的NaOH和呈200mM DMA储备溶液形式的醛并在90℃下反应14小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Witt,A.和Bergmann,J.(2000)Synthesis and reactions ofsome 2-vinyl-3H-quinazolin-4-ones(一些2-乙烯基-3H-喹唑啉-4-酮的合成和反应).Tetrahedron 56,7245-7253。)

实施例29：合成并有异吲哚啉酮的编码部分。将带有胺(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入呈200mM DMA储备溶液形式的4-溴2-烯甲基酯并在60℃下反应2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Chauleta,C,Croixa,C,Alagillea,D.,Normand,S.,Delwailb,A.,Favotb,L.,Lecronb,J.-C和Viaud-Massuarda,M.C.(2011)Design,synthesis and biological evaluation of newthalidomide analogues as TNF-αand IL-6 production inhibitors(作为TNF-α和IL-6产生抑制剂的新型沙利度胺类似物的设计、合成和生物学评价).Bioorg.Med.Chem.Lett.21,1019-1022。)

实施例30：合成并有噻唑的编码部分。将带有硫脲(作为反应位点衔接子上的反应位点、作为装载反应位点衔接子上的结构单元或作为部分翻译分子)的DNA文库以1mM溶解在硼酸盐缓冲液pH 9.4中。向其中加入50当量的呈200mM DMA储备溶液形式的溴代酮并在室温下反应24小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Potewar,T.M.,Ingale,S.A.和Srinivasan,K.V.(2008)Catalyst-free efficient synthesis of 2-aminothiazoles in water at ambient temperature(在环境温度下在水中在无催化剂条件下有效合成2-氨基噻唑).Tetrahedron 64,5019-5022。)

实施例31a：使用各种其它化学合成编码部分。在Handbook for DNA-EncodedChemistry(DNA编码化学手册)(Goodnow R.A.,Jr.编)第319-347页,2014Wiley,New York中参考列出了31种相容的化学反应。它们包括三氯三嗪的SNAr反应，二醇氧化成乙二醛化合物，Msec脱保护，Ns脱保护，Nvoc脱保护，戊烯酰基脱保护，吲哚-苯乙烯偶联，Diels-Alder反应，Wittig反应，Michael加成，Heck反应，Henry反应，硝酮与活化烯烃的1,3-偶极环加成，

唑烷的形成，三氟乙酰胺脱保护，烯烃-炔烃氧化偶联，闭环复分解和醛醇反应。在该参考文献中公开了其它可能在DNA存在下起作用并且适合使用的反应。

实施例31b.用于装载反应位点衔接子的化学。应理解，实施例9-31中描述的任何化学都适用于装载反应位点衔接子。在水溶液中，在水性/有机混合物中或者当固定在固体支撑物上时，向反应位点衔接子装载结构单元。用于向反应位点衔接子装载结构单元的化学不限于在反应位点衔接子固定在固体支撑物如DEAE或Super Q650M上时进行的反应；也不限于在溶液相中进行的反应。

实施例32：在文库制备中使用不同的限制性酶。应理解，在其它实施例中命名的限制性酶是代表性的，并且其它限制性酶可以在平等或有利的情况下提供相同的目的。

实施例33.使用替代方法进行对于结合靶分子的选择。根据实施例5进行鉴定能够结合靶分子的文库成员的选择，其中例外的是靶分子被固定在塑料板如

板、

板或通常用于固定生物大分子以进行ELISA的其它板的表面上，或者靶分子被生物素化并固定在链霉亲和素包被的表面或中性亲和素包被的表面或亲和素包被的表面上，包括磁珠、由合成聚合物制成的珠粒、由多糖或修饰多糖制成的珠粒、板孔、管和树脂。应理解，鉴定具有所需性状的文库成员的选择将在与DNA相容、与保持任何靶分子处于天然构象相容、与选择或扩增过程中使用的任何酶相容、且与性状阳性文库成员的鉴定相容的缓冲液中进行。这些缓冲液包括但不限于用磷酸盐、柠檬酸盐和TRIS制成的缓冲液。此类缓冲液还可包括但不限于钾、钠、铵、钙、镁和其它阳离子以及氯离子、碘离子、乙酸根离子、磷酸根离子、柠檬酸根离子和其它阴离子的盐。此类缓冲液可包括但不限于表面活性剂，如

TRITON^TM和Chaps(3-[(3-胆酰胺基丙基)二甲基铵基]-1-丙磺酸盐)。

实施例34.选择具有低解离速率的结合剂。如实施例5中所述，进行选择以鉴定文库群体中具有结合靶分子能力的个体。如下选择以低解离速率结合靶分子的个体。靶分子通过生物素化被固定，并与链霉亲和素包被的表面一起温育，或者在一些情况下，在未经生物素化的情况下固定在塑料表面如

板或一些适合于结合蛋白质的用于ELISA样测定的其它板上，或通过实施例35中所述的方法或通过另一种方法而被固定。将文库群体与固定化靶标在适当的缓冲液中温育0.1至8小时。温育的持续时间将取决于样品中每个单独文库成员的估计拷贝数和固定的靶分子数。随着个体拷贝数越高和靶分子负载越高，持续时间可能会缩短。随着拷贝数越小和/或靶分子负载越小，持续时间可能会延长。目标是确保群体中的每名个体都有机会与靶标完全相互作用。在将文库与固定的靶标温育后，假定文库中的结合剂与靶标结合。此时，将过量的非固定化靶标加入到系统中，并继续温育约1至约24小时。具有高解离速率的与固定化靶标结合的任何个体可以从固定化靶标释放，并且在重新结合后将分成被游离靶标结合和被固定靶标结合。以低解离速率结合的个体将保持与固定化靶标结合。洗涤固定化表面优先去除非结合剂和具有快速解离速率的结合剂，从而选择具有低解离速率的个体。如上文实施例3和5中所述进行编码低解离速率结合剂的DNA的扩增。

实施例35.用移动靶标进行选择。进行选择，其中靶分子被生物素化，然后与文库一起温育适当的持续时间。然后将混合物固定在例如链霉亲和素表面上，于是靶标被固定，并且与靶标结合的任何文库成员也被固定。洗涤表面去除了非结合剂。如上述进行编码结合剂的DNA的扩增。

实施例36.针对靶标特异性进行选择。进行选择以鉴定文库群体中与所需靶分子结合的个体，以排除其它抗靶标分子。抗靶标分子(或多个抗靶标分子，如果存在多于一个的话)被生物素化并固定在链霉亲和素包被的表面上，或者在一些情况下固定在塑料表面如

板或一些适合于结合蛋白质的用于ELISA样测定的其它板上。在单独的容器中，靶分子通过生物素化被固定，并与链霉亲和素包被的表面一起温育，或者在一些情况下固定在塑料表面如

板或一些适合于结合蛋白质的用于ELISA样测定的其它板上。首先将文库与抗靶标一起温育。这耗尽了结合抗靶标分子的个体群体。在与抗靶标温育后，将文库转移到具有所需靶标的容器中并温育适当的持续时间。洗涤去除了非结合剂。根据实施例1进行编码低解离速率结合剂的DNA的扩增。所鉴定的靶标结合剂与抗靶标相比选择性结合靶标的概率提高。在一些情况下，通过固定靶标，过量添加游离的移动抗靶标，然后添加文库并温育适当的持续时间来进行对靶标的亲和力的选择。在该方案下，对抗靶标具有亲和力的个体优先被抗靶标结合，因为它过量存在，因此可以在表面洗涤期间被去除。根据实施例3和5进行编码结合剂的DNA的扩增。

实施例37.基于差异迁移率的选择。基于文库成员当在靶分子或多聚大分子结构与文库成员相互作用时形成的复合物中时的迁移率差异，基于文库群体中的个体与靶分子或多聚大分子结构相互作用的能力进行选择。允许靶分子或结构和文库成员相互作用，然后使混合物通过尺寸排阻介质，可导致不与靶分子或结构相互作用的文库成员与发生相互作用的文库成员物理分离，因为相互作用的文库成员和靶分子或结构的复合物将大于非相互作用的文库成员，因此以不同的迁移率移动通过介质。应理解，在不存在尺寸排阻介质的情况下，迁移率的差异可以是扩散的函数，可以通过包括但不限于重力流、电泳和扩散的多种方法来诱导迁移率。

实施例38.其它选择的一般策略。本领域技术人员将理解，对于几乎任何特性进行选择，条件是所设计的测定法(a)将文库群体中具有所需特性的个体与不具有所需特性的个体物理分离，或(b)允许编码文库群体中具有所需特性的个体的DNA相比于编码不具有所述特性的文库成员的DNA优先被扩增。固定靶分子的许多方法都是合适的，包括用His标签标记靶分子并固定在镍表面上，用flag标签标记靶分子并用抗flag抗体固定，或用接头标记靶分子并将其共价固定在表面上。应理解，允许文库成员结合靶标并且允许靶标被固定的事件的顺序是按照所使用的固定化方法所指示或能够实现的各种顺序进行的。应理解，进行选择，其中不需要固定化或物理分离性状阳性个体与性状阴性个体。例如，性状阳性个体募集能够扩增其DNA的因子，而性状阴性的成员则不会。性状阳性个体用PCR引物标记，而性状阴性个体则没有。差异扩增性状阳性个体的任何方法都适合使用。

实施例39.结构单元的缺失是可编码的多样性元件。在文库合成过程中，当多个结构单元独立地安装在具有不同序列的各种文库子池上时，产生多样性。结构单元的缺失是任选的多样性元件。结构单元的缺失完全按照实施例1-4进行编码，其中例外的是在所需的化学步骤中，文库的一个或多个序列特异性子池不用任何化学处理以安装结构单元。在这种情况下，那些子池的序列由此对结构单元缺失进行编码。

实施例40.由其它材料构成的杂交阵列。杂交阵列可以完成2项关键任务：(a)它们可以通过序列特异性杂交对至少部分单链DNA的异质混合物进行分选，并且(b)阵列可以实现或允许从阵列中独立去除所分选的子池。其中固定有反编码寡核苷酸的阵列的特征可以按满足上述标准的任何三维取向排列，但是二维矩形网格阵列目前最具吸引力，因为大量可商购的实验室器具已经以该格式(例如96孔板、384孔板)大量生产。

固定有反编码寡核苷酸的阵列特征中的固体支撑物可以实现4个任务：(a)它可以永久地固定反编码寡核苷酸，(b)它可以实现或允许通过与固定化寡核苷酸的序列特异性杂交来捕获文库DNA，(c)它可以具有文库DNA的低背景或非特异性结合，和(d)它对于加工条件可以是化学稳定的，包括在高pH下进行的步骤。CM

已经通过在叠氮基-PEG-胺的胺与CM

树脂表面上的羧基基团之间形成肽键而用叠氮基-PEG-胺(具有9个PEG单元)官能化。带有炔基修饰剂的反编码寡核苷酸在铜介导的1,3-偶极环加成(Huisgen)中被“点击”到叠氮化物上。

其它合适的固体支撑物包括亲水性珠粒，或具有亲水性表面涂层的聚苯乙烯珠粒，具有亲水性表面涂层的聚甲基丙烯酸甲酯珠粒，以及具有也带有反应性官能团如羧酸酯、胺或环氧化物的亲水性表面的其它珠粒，适当官能化的反编码寡核苷酸被固定在其上。其它合适的支撑物包括整料和水凝胶。参见例如J Chromatogr A.2002年6月14日；959(1-2):121-9；J Chromatogr A.2011年4月29日；1218(17):2362-7；J Chromatogr A.2011年12月9日；1218(49):8897-902；Trends in Microbiology,第16卷,第11期,543-551；J.Polym.Sci.A Polym.Chem,35:1013-1021；J.Mol.Recognit.2006；19:305-312；J.Sep.Sci.2004,27,828-836。通常，具有较大表面积的固体支撑物捕获更大量的文库DNA，并且具有较小直径的珠粒产生高得多的背压和抗流动性。通过使用具有非常高的表面积但背压较低的多孔支撑物或水凝胶，部分地改善了这些限制。通常，具有正电荷的珠粒产生更大程度的DNA的非特异性结合。

杂交阵列的底盘可以完成3个任务：(a)它必须保持特征之间的物理分离，(b)实现或允许文库流经或流过特征，以及(c)实现或允许从不同特征独立去除所分选的文库DNA。底盘由具有足够刚性、在加工条件下化学稳定并且与在特征内固定支撑物所需的任何方法相容的任何材料构成。底盘的典型材料包括塑料如

或聚醚醚酮(PEEK)，陶瓷，和金属如铝或不锈钢。

实施例41.通过将寡核苷酸G的文库分选成第一组子池，然后将每个子池分选成第二组子池，然后将每个子池分选成第n组子池并执行每个子池的特异性化学，来制备式(IV)和式(II)的分子。可以使用三个或更多个独立的编码区来编码结构单元。在这种方案下，如上所述制备文库，并且如上所述制备杂交阵列或柱。然后通过第一编码区在第一阵列上对文库进行分选，以产生一组子池。然后，将每个子池在第二阵列上分选成第二组子池，每个子池可以进一步分选成第三组子池，随后进行化学以子池特异性方式安装结构单元或多样性元件。在这种方案下，使用3个编码区来编码单个多样性元件或结构单元。

例如，可以如上所述制备在6个编码区的每一个处具有16个编码序列的文库，并对于每个编码区制备杂交阵列。可以基于最接近5'端的编码区的编码序列将文库分选成16个子池。这样做将产生16个子池。这些子池中的每个子池可基于最接近3'端的编码区(或任何其它预定编码区)的编码序列本身被分选成16个子池。这样做将产生256个子池。这些子池中的每一个可以基于从3'端起的第二编码区(或任何其它预定编码区)的编码序列进一步分选成16个子池。这样做将产生4096个子池。这些子池中的每一个将基于三个编码序列进行分选，并且可以在每个子池上进行不同的化学。随后，可将文库汇集并通过以预定顺序在三个剩余的编码区上进行依序分选而分选成第二组4096个子池。然后，可以按照实施例9-31以子池特异性方式进行不同的独立化学。

实施例42.制备具有不同数量的编码序列和编码区的文库。应理解，(a)在任何给定的编码区处的编码序列的数量可以变化，(b)在设计的文库中的编码区的数量可以变化，(c)在不同的编码区处的编码序列的数量可以相同或不同，以及(d)可以制备一个文库，其中单个编码区编码一些结构单元，而多个编码区编码其它结构单元。

例如，可以制备具有5个编码区的文库，其中2个编码区中的每一个有32个编码序列，第3个区域有96个编码序列，第4个区域有2个编码序列，以及第5个区域有1536个编码序列。本领域技术人员还应理解，使用编码区进行分选的顺序可能因文库的不同实施而变化，但是该顺序将预先确定，并且在每个独立的实施过程中都将专门使用，从而保留适当解码和结果分析所需的序列与编码分子的对应关系。

实施例43.使用单项式和多项式编码的文库的制备。制备具有5个编码区的文库，其中2个编码区中的每一个有32个编码序列，第3个区域有96个编码序列，第4个区域有2个编码序列，以及第5个区域有768个编码序列。

所述文库如实施例2c中制备或如实施例2d中购买。如实施例3中制备文库以用于翻译。如实施例4中进行文库翻译，其中例外的是，通过在具有与具有32个编码序列的第一编码区互补的捕获寡核苷酸的阵列上进行分选，接着在具有与具有32个序列的第二编码区互补的32个编码序列的第二阵列上进行分选，将文库分选成1024个子池，然后按照实施例4e或实施例9至实施例31进行子池特异性化学。以这种方式，需要两个编码区来编码单个结构单元。

然后将文库汇集，并通过在一个或多个具有768个捕获寡核苷酸的阵列上进行分选而分选成768个子池，所述捕获寡核苷酸与具有768个编码序列的编码区互补。然后，按照实施例4e或实施例9至实施例31进行子池特异性化学。以这种方式，需要一个编码区来编码单个结构单元。

然后将文库汇集并通过以下方式分选成192个子池：首先在带有2个与具有2个编码序列的编码区互补的寡核苷酸的阵列上进行分选，然后在具有96个编码序列的第二阵列上进行分选。然后，根据实施例4e或实施例9至实施例31进行子池特异性化学。以这种方式，需要两个编码区来编码单个结构单元。

本领域技术人员将认识到，每个编码区处的序列数量可以变化，并且编码区的数量也可以变化。

实施例44.使用单项式和多项式编码来制备文库的替代方法。制备具有5个编码区的文库，其中2个末端编码区中的每一个有1536个编码序列，第3个区域有2个编码序列，第4个区域有8个编码序列，并且第5个区域有96个编码序列。所述文库按照实施例2c制备或按照实施例2d购买。如实施例3中制备文库以用于翻译，但有以下例外。

实施例44a.去除末端非编码区。将与使非编码区为双链的互补寡核苷酸反应的ssDNA逆转录产物以100μg/ml的浓度悬浮在NEB

缓冲液中。将来自NEB的限制性酶

和

加入浓度为1U/μg的DNA中。将消化物在37℃下温育1小时，然后将酶在65℃下热灭活20分钟。

实施例44b.提供反应位点衔接子。提供两组1536个反应位点衔接子，各自包含反编码序列，并且在一些情况下包含发夹环和具有形成所述反编码序列的悬端的茎。一组具有3'反编码序列，其与去除3'末端非编码区后出现的模板链的3'末端编码区特异性杂交；另一组具有5'反编码序列，其与去除5'末端非编码区后出现的模板链的5'末端编码区特异性杂交。带有3'反编码序列的组具有5'磷酰基基团。在该实施例中，每组的茎区具有先前通过限制性消化去除的相应末端非编码区的相同序列。每组的环区带有用带接头的反应位点N4-TriGl-氨基2'脱氧胞苷(来自IBA,Goettingen,Germany)修饰的碱基。如这里所述的衔接子可以购自DNA寡核苷酸合成公司，如Sigma Aldrich，Coralville,IA的Integrated DNATechnologies，或Louisville,KY的Eurofins MWG。

实施例44c.反应位点衔接子的装载。将两组1536个反应位点衔接子提供在单独的孔中，并溶解在TE缓冲液(Promega,MA)中。将15μl的

SuperQ-650M(Sigma-Aldrich,St.Louis,MO)离子交换树脂置于滤板的每个孔中，并用100μl的10mMHOAc洗涤。将与模板链的数量成比例的每个反应位点衔接子的等分试样转移到滤板的单独孔中，其中它们被固定在树脂上。固定在树脂上的衔接子用dH₂O洗涤，然后用哌啶洗涤，然后用二甲基甲酰胺(“DMF”)洗涤。分别制备2×1536个反应溶液，每个溶液含有：50μl DMF，75mM的Fmoc保护的氨基酸，75mM的4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉鎓四氟硼酸盐，90mM的N-甲基吗啉。使这些混合物在室温下活化酸十分钟，然后加入到树脂中并反应30分钟。然后将树脂用4x100μl DMF洗涤，并用新鲜制备的反应混合物重复偶联步骤，再次用DMF洗涤，并通过向每个孔中加入50μl的20％哌啶的DMF溶液并在室温下温育2小时来去除Fmoc保护基团。将树脂再次用4×100μl DMF洗涤，然后用3×100μl dH₂O洗涤。用1.5M NaCl、50mM KOH、0.01％TRITON^TM X-100将装载反应位点衔接子从树脂上洗脱下来。通过加入Tris至15mM和HOAc至pH 7.4来中和溶液。然后将装载反应位点衔接子汇集并通过经过ZEBA^TM 7K MWCO(Thermo Fisher Scientific,MA)脱盐滤筒进行脱盐。或者，可如上述进行反应，其中例外的是在不存在离子交换树脂的情况下在溶液相的DMF和水的混合物中进行，并且通过乙醇沉淀来纯化。

实施例44d.将装载反应位点衔接子与文库连接。在25℃下使用ZEBA^TM 30K MWCO(Thermo Fisher Scientific,MA)离心浓缩器将限制性消化的模板文库进行缓冲液交换至50mM Tris-HCl、10mM MgCl₂、25mM NaCl pH 7.5。加入1.1当量的对模板链的3'端具特异性的装载反应位点衔接子；加入1.1当量的对模板链的5'端具特异性的装载反应位点衔接子，并将混合物用相同的缓冲液稀释至1μM的模板链浓度。将反应温热至65℃持续10分钟，并在1小时内冷却至45℃，并在45℃下保持4小时。冷却至室温后，加入DTT至10mM，加入ATP至1mM，并且加入T4 DNA连接酶至50U/mL。连接反应在室温下进行12小时，然后将酶在65℃下热灭活10分钟，并且将反应缓慢冷却至室温。将反应物进行缓冲液交换并用30K分子量截止(MWCO)离心浓缩器浓缩到150mM NaCl、20mM柠檬酸盐、15mM Tris、0.02％十二烷基硫酸钠(“SDS”)、0.05％Tween20(来自Sigma-Aldrich)，pH 7.5。

实施例44e.翻译完成。将文库如上所述在带有与具有2个编码序列的编码区的序列互补的捕获寡核苷酸的阵列上分选成2个子池；然后通过在带有与具有8个编码序列的编码区的序列互补的捕获寡核苷酸的阵列上进行分选而分选成16个子池；然后通过在带有与具有96个编码序列的编码区的序列互补的互补寡核苷酸的阵列上第三次分选而分选成768个子池。然后，如实施例4e或实施例9-31中所述进行子池特异性化学。

这样的文库将具有～240万个成员。在5'端将有1536x768个结构单元的组合，而在3'端将有1536x768个结构单元的另一组合。尽管在寡核苷酸G任一端的编码分子中由内部编码区进行多项式编码的结构单元是相同的，但是由两个末端编码区进行单项式编码的结构单元只能在每1536个文库成员中有1个相同。

实施例45.制备和翻译具有单个反应位点衔接子的文库。完全按照实施例44制备具有单个反应位点衔接子的文库，其中例外的是省去以下步骤：(a)去除末端非编码区之一，和(b)连接相应的反应位点衔接子。例如，为了制备在G的编码链的3'端具有单个反应位点衔接子的文库，可以完全如上文制备文库，其中例外的是唯一添加的限制性核酸内切酶应该是EcoRI。这样做将去除3'末端非编码区，使得3'装载反应位点衔接子可以适当地杂交并连接到模板链。仅使用对3'末端非编码区中的识别位点具有特异性的限制性核酸内切酶，而忽略对5'末端非编码区中的识别位点具有特异性的限制性核酸内切酶，则会使5'末端非编码区留在原位，从而禁止将5'反应位点衔接子连接到所述末端。如上文进行3'装载反应位点衔接子的添加。省略了5'装载反应位点衔接子的添加。本领域技术人员应理解，可以在3'末端编码区中设计其它限制性位点，并且可以将不同的限制性酶用于该目的。

实施例46a.制备和翻译在5'端具有单个反应位点衔接子的文库的替代方法。

如实施例2c中制备文库或如实施例2d中购买文库，其中例外的是在20个碱基的非编码序列的从5'端起第14-19位的编码链的5'末端非编码区中使用BsaI限制性位点。如实施例3a中对文库进行PCR之后，通过如实施例1b中所述用来自NEB的BsaI-HF消化来去除编码链的5'端的末端非编码区。如上所述将文库转录。

实施例46b.提供替代反应位点衔接子。

提供替代反应位点衔接子，每个衔接子包含5'非编码区和编码序列。所述非编码区在一些情况下包含发夹环和茎区。所述编码序列与RNA模板链的3'末端编码区特异性杂交。在该实施例中，每个衔接子的非编码区带有用带接头的反应位点N4-TriGl-氨基2'脱氧胞苷(来自IBA,Goettingen,Germany)和编码的结构单元修饰的碱基。如此处所述的衔接子可以购自DNA寡核苷酸合成公司，如Sigma Aldrich，Coralville,IA的Integrated DNATechnologies，或Louisville,KY的Eurofins MWG。

实施例46c.如上文实施例44c中所述装载替代反应位点衔接子。

实施例46d.通过逆转录安装5'反应位点衔接子。

如实施例3c中所述进行逆转录，但有以下例外。将实施例46的装载反应位点衔接子用作逆转录反应的引物。

实施例47.制备和翻译在合成期间在不同点连接有反应位点衔接子的文库。

可以制备具有2个反应位点衔接子的文库，其中一个反应位点衔接子安装在模板寡核苷酸G上，然后在其上安装一个或多个位置结构单元，然后再将第二反应位点衔接子安装在G上。若干方案可用于实现此目的：如实施例46中所述，可以在逆转录期间将装载反应位点衔接子安装在5'端，然后可以通过单项式或多项式编码和化学合成将文库分选成子池，然后如实施例45中所述可以在3'端安装装载(或未装载)反应位点衔接子。

实施例48.制备和翻译每个反应位点衔接子具有2个或更多个反应位点的文库。

可以完全按照上述制备在单个衔接子上具有多个反应位点的文库，其中例外的是提供的反应位点衔接子带有2个(或更多个)如实施例44b中所述用反应位点修饰的碱基。反应位点修饰碱基的几种安置是可能的，包括将带有反应位点的碱基安置在反应位点衔接子中彼此更接近或更远离的位置。当仅使用一个衔接子时或者当使用两个衔接子时，可以在衔接子上安置多个反应位点。此类反应位点衔接子是合成的或购自DNA寡核苷酸合成公司如Coralville,IA的IDT或Louisville,KY的Eurofins MWG。

实施例49.制备和翻译在反应位点衔接子中具有替代发夹的文库。

可以使用实施例44-46中描述的相同方案在各种情形中制造和使用众多形式的发夹。在较小发夹有利的情况下，茎可以包含少至5个碱基对。此外，在互补茎序列之间包含6-PEG接头的发夹可以代替较大的DNA环。参见Durand,M.等,"Circular dichroism studiesof an oligodeoxyribonucleotide containing a hairpin loop made of ahexaethylene glycol chain:conformation and stability(含有由六乙二醇链构成的发夹环的寡脱氧核糖核苷酸的圆二色谱研究：构象和稳定性)."Nucleic acids research18.21(1990):6353-6359)。对于多重显示有利的情况，给定发夹上多个编码部分之间的距离以及这些编码部分的安置可能是重要的，并且可以通过在衔接子中的不同位置处合理安置多个带有接头的碱基来设计。例如，通过在环区中或附近安置一个接头，使茎中的核苷酸数量保持恒定，但是沿着茎的长度改变第二接头的位置，可以使编码部分之间的距离更大或更小。

如果发夹上编码部分的安置是重要的，例如，如果沿着茎安置的编码部分与安置在环中的编码部分相比对靶分子的接近性不同，则使用具有多个环和茎的发夹。在一个实施方案中，发夹可具有2或3个环和2个茎。该发夹可包含连接到第一茎区的第一链的反编码区，所述第一茎区连接到第一环区，所述第一环区连接到第二茎区的第一链，所述第二茎区连接到第二环区，所述第二环区连接到第二茎区的第二链，所述第二茎区在一些情况下连接到第三环区，然后连接到第一茎区的第二链，或者直接连接到第一茎区的第二链。按照特定项目所需，一个或多个接头被安置在一个或多个环中，以及安置在一个或多个茎区中。

本领域技术人员将理解，大量的发夹三级结构是可能的，其合并了许多二级结构，包括但不限于内环、凸起和十字形结构，如以下文献中所述：Svoboda,P.等,Cellular andMolecular Life Sciences CMLS,2006年4月,第63卷,第7期,第901-908页；以及Bikard等,Microbiology And Molecular Biology Reviews,2010年12月,第570-588页；以及Kari等人,DNA Computing Volume 3892of the series Lecture Notes in Computer Science第158-170页；以及Domaratzki,Theory Comput Syst(2009)44:432-454；Brazda等,BMCMolecular Biology 2011 12:33。本领域技术人员将理解，合并有这种二级和三级结构的发夹寡核苷酸序列由许多DNA合成公司合成，如Sigma-Aldrich、Integrated DNATechnologies(Coralville,Iowa)、Eurofins MWG(Louisville,KY)。应理解，带有用于安装接头的反应位点或带有接头和反应位点的修饰碱基可以在合成过程期间安置在发夹中的任何所需位置。本领域技术人员将理解，具有更多二级结构和/或更多信息的发夹将倾向于由更长的核苷酸序列构成。

实施例50.制备和翻译具有在反应位点衔接子中具有其它功能的发夹的文库。按照实施例44-49中描述的相同方案在各种情形中制造和使用众多形式的发夹。反应位点衔接子的茎区序列可含有一个或多个限制性位点，以允许在茎区中或附近切割。这可以实现与固定化靶标的非常紧密结合剂的释放，并通过去除环区促进PCR扩增，这将使引物能够适当退火。其它信息也可以编码在反应位点衔接子发夹DNA中。一个实例是并入环区中的一系列不同的碱基。当在选择后扩增时，这些不同的碱基将有助于鉴定由于扩增偏差或作为人工产物而在选择中富集的文库成员。另一个实例是指示关于分子的选择或合成历史的信息的特定序列，其类似于实施例7中描述的索引序列。发夹还可以包含荧光标记的碱基或碱基类似物，放射性标记的碱基或碱基类似物，用于定量和分析文库的各个方面及其合成或性能。发夹还可含有碱基或带有促进加工的官能团如生物素的修饰碱基。这样的发夹可以购自定制DNA寡核苷酸的信誉良好的供应商，如Coralville,IA的IDT，Sigma Aldrich，或Louisville,KY的Eurofins MWG。

实施例51.用其它化学将反应位点衔接子连接到模板链。根据实施例44或45，将反应位点衔接子与模板基因的末端编码区退火。可以使用共价栓系反应位点衔接子的其它方法，包括化学或酶促方法。一些这样的方法涉及使用水溶性碳化二亚胺和溴化氰的反应，如以下文献中所进行的：Shabarova等,(1991)Nucleic Acids Research,19,4247-4251；Fed-erova等,(1996)Nucleosides and Ncleotides,15,1137-1147；GryaZnov,Sergei M.等,J.Am.Chem.Soc,第115卷:3808-3809(1993)；以及Carriero和Damlia(2003)Journal ofOrganic Chemistry,68,8328-8338。在一些情况下，使用乙腈中的5M溴化氰以1:10v/v的比率与5'磷酸化的DNA在pH 7.6的含有1M MES和20mM MgCl₂的缓冲液中进行化学连接，反应在0℃下进行5分钟。也可以使用制造商的方案通过拓扑异构酶、聚合酶和连接酶进行连接。

实施例52.制备和翻译具有单链末端编码区的文库。通过从反应位点衔接子的末端编码区去除寡核苷酸以使末端编码区是单链来制备具有较小空间体积的文库。在一些情况下，去除寡核苷酸以使茎区的全部或部分成为单链的。这完全按照实施例44、45或46进行，但有以下例外。在反编码序列中的位置处和反编码区的末端与最近的接头之间的茎中的位置处，将脱氧尿苷并入所提供的反应位点衔接子中。将装载反应位点衔接子安装到模板链上后，将文库缓冲液交换到来自NEB的1x UDG反应缓冲液中，以20U/ml的浓度加入尿嘧啶-DNA糖基化酶(“UDG”)，并按照制造商的方案在37℃温育30分钟。随后在pH 12下加热至95℃持续20分钟，使发夹中的无嘧啶位点水解。通过利用保持在65℃的缓冲液执行的尺寸排阻，去除产生的小ssDNA片段。

实施例53.在一些情况下，在实施例44-46的执行过程中的若干点从反应位点衔接子的末端编码区去除寡核苷酸。在一些情况下，寡核苷酸可以完全按照实施例52去除，其中例外的是在连接装载反应位点衔接子之后但在添加第一位置结构单元之前进行。在一些情况下，可以完全按照实施例52去除寡核苷酸，其中例外的是该程序是在添加第一位置结构单元之后但在添加任何后续位置结构单元之前进行的。在一些情况下，可以完全按照实施例52去除寡核苷酸，其中例外的是该程序是在添加所有位置结构单元之后进行的。本领域技术人员将理解，以许多方式实现在所需位置处切割DNA链的任务，并且存在大量可商购的酶和公开的方案来促进该任务；例如，New England Bio Labs出售至少10种切口内切核酸酶，并公开其使用方案。这里给出的具体实例是示例性的，并且不排除实现使末端编码区以及在一些情况下部分发夹是单链的任务的其它方法。

实施例54a.使用UDG去除5'末端非编码区。用于去除实施例44和实施例45中的5'末端非编码区的限制性消化被消除，并用UDG处理和随后的无嘧啶位点的碱性水解来代替。完全按照实施例44制备文库，但其中引发逆转录的寡核苷酸在引物的3'端处或附近并入dU碱基。在逆转录和RNA链的碱基水解后，UDG可以去除尿嘧啶，产生无嘧啶位点，所述无嘧啶位点随后通过热和碱而被切割(关于UDG的使用和反应条件，参见实施例5)，产生准备好用于连接装载反应位点衔接子的末端编码区。本领域技术人员将理解，存在多种在所需位置处切割单链或双链DNA的方法，并且存在大量可商购的酶和公开方案以促进该任务。这里给出的具体实例是示例性的，并且不排除实现去除5'末端非编码区的任务的其它方法。

实施例54b.使用限制性酶NdeI去除5'末端非编码区或3'末端非编码区。

用于去除5'末端编码区或3'末端编码区或两者的限制性消化是通过在末端非编码区中包括NdeI的识别位点并在逆转录步骤后进行限制性消化来实现的。NdeI具有切割RNA/DNA杂合体以及切割单链DNA的能力。因此，NdeI用于在RNA链的碱基水解之前或之后或者在RNA链的碱基水解之前和之后切割。

实施例54c.使用逆转录引物中的RNA碱基去除5'末端非编码区。

使用实施例44-45的确切方案去除5'末端非编码区，其中例外的是在步骤“将RNA逆转录成DNA”中使用的引物含有RNA碱基。按照实施例3水解逆转录产物的RNA链后，DNA引物中的RNA碱基也将水解，从而去除在RNA碱基的5'的DNA引物部分。

实施例55.制备和翻译具有替代反应位点官能团和接头的文库。以若干种方式来制备使用与游离胺不同的初始反应位点的文库。一种方法是用带有所需初始反应位点官能团的双官能分子将现有的初始反应位点官能团封端。完全按照实施例44c装载反应位点衔接子，其中例外的是在需要不同初始反应位点的每个反应位点衔接子上，使用该步骤中列出的肽偶联反应条件，利用带有羧酸和所需初始反应位点官能团的双官能化合物，对初始反应位点官能团胺形成肽键。例如，5-羟基戊酸可与游离胺反应形成肽键，并且建立羟基官能团作为用于合成文库的初始反应位点。

第二种方法是并入用不同反应位点修饰的不同碱基，其能够或促进安装其它所需的初始反应位点官能团。一种这样的碱基是由弗吉尼亚州的Glen Research出售的5-乙炔基-dU-CE亚磷酰胺(“乙炔基-dU”)。在一些情况下，用带有叠氮化物和所需初始反应位点官能团的双官能接头化合物对它进行修饰。例如，5-叠氮基戊酸可以在实施例25中存在的条件下在“点击”反应(Huisgen反应)中与炔基部分反应，从而建立羧酸作为初始反应位点官能团。作为另一个代表性但非包括性的实例，5-叠氮基1-戊醛可以在“点击”反应(Huisgen反应)中与炔基部分反应，从而建立醛作为初始反应位点官能团。作为另一个代表性实例，4-叠氮基,1-溴甲基苯可以在“点击”反应(Huisgen反应)中与炔基部分反应，从而建立苄基卤化物作为初始反应位点官能团。在一些实施方案中，该碱基用作文库合成的炔基初始反应位点，所述文库合成使用选自实施例9-31的适合于炔烃的化学。期望的初始反应位点包括但不限于胺、叠氮化物、羧酸、醛、烯烃、丙烯酰基团、苄基卤化物、α-羰基卤化物和1,3-二烯。

第三种方法是在合成反应位点衔接子期间并入用接头和初始反应位点官能团两者修饰的碱基。例如，在衔接子合成期间在关键位置处并入5'-二甲氧基三苯甲基-N6-苯甲酰基-N8-[6-(三氟乙酰基氨基)-己-1-基]-8-氨基-2'-脱氧腺苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6 dA，购自Glen Research,Sterling VA)将建立游离胺作为初始反应位点官能团和6碳烷基链作为接头，并入5'-二甲氧基三苯甲基-N2-[6-(三氟乙酰基氨基)-己-1-基]-2'-脱氧鸟苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6 dG，购自Glen Research,Sterling,VA)也是如此。在衔接子合成期间在关键位置处并入5'-二甲氧基三苯甲基-5-[3-甲基-丙烯酸酯]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为羧基dT，购自Glen Research,Sterling VA)将建立羧酸作为初始反应位点官能团和2碳链作为接头。在衔接子合成期间在关键位置处并入5'-二甲氧基三苯甲基-5-N-((9-芴基甲氧基羰基)-氨基己基)-3-丙烯酰亚胺基]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为Fmoc-氨基修饰剂C6 dT，Glen Research,Sterling,VA)将建立Fmoc保护的胺作为初始反应位点官能团和6碳烷基链作为接头。在衔接子合成期间在关键位置处并入5'-二甲氧基三苯甲基-5-(辛-1,7-二炔基)-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为C8炔烃dT，Glen Research,Sterling VA)将建立炔烃作为初始反应位点官能团和8碳链作为接头。在衔接子合成期间在关键位置处并入5'-(4,4'-二甲氧基三苯甲基)-5-[N-(6-(3-苯甲酰基硫代丙酰基)-氨基己基)-3-丙烯酰胺基]-2'脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为S-Bz-硫醇修饰剂C6-dT，Glen Research,SterlingVA)将建立硫醇作为初始反应位点官能团和14原子链作为接头。在衔接子合成期间在关键位置处并入N4-TriGl-氨基2'脱氧胞苷(来自IBA GmbH,Goettingen,Germany)将建立胺作为初始反应位点官能团和3-乙二醇单元链作为接头。

合适的接头执行两个关键功能：(i)它们将衔接子(或模板链，或DNA编码链，或文库链)共价栓系到结构单元上，和(ii)它们不干扰式(I)分子的合成或使用中的其它关键功能。因此，在一些实施方案中，接头是烷基链或PEG链，因为(a)它们是高度柔性的，允许在选择期间适当且自由地将编码部分呈递给靶分子，和(b)因为它们是相对化学惰性的并且在式(I)分子的合成期间通常不发生副反应。为了充分执行大多数但不是所有的任务，接头无需包含大于约8个PEG单元的总长度。本领域技术人员将理解，当其中文库DNA必须保持尽可能远离靶分子或靶结构或靶表面进行选择时，显著更长的接头和/或显著更硬的接头如肽α螺旋将是有用且有吸引力的。其它期望的接头可包括聚甘氨酸、聚丙氨酸或多肽。还使用以与编码部分结合正交或者与编码部分结合互补的方式并入荧光团、放射性标记物或用于结合式(I)分子的功能部分的接头。在一些实施方案中，在接头中并入生物素以固定文库。在其它实施方案中，将已知的配体并入靶分子的一个结合口袋中以允许对可结合相同靶分子的第二结合口袋的编码部分进行选择。

在一些实施方案中，在不同的反应位点衔接子上使用不同的接头和不同的化学来制备文库。5'反应位点衔接子上的一个或多个接头可以带有一种类型的接头和一种类型的反应位点官能团，而3'反应位点衔接子带有不同的接头和相同的反应位点官能团，或者不同的接头和不同的反应位点官能团。本文所述的任何接头和官能团都适用于本实施例，条件是后续安装位置结构单元所需的化学与第一结构单元D和第二结构单元E上的官能团相容，所述官能团与其相应发夹上的反应位点官能团反应。

该相容性具有两种模式。在第一种模式中，使用不同的化学来装载反应位点衔接子，但第一结构单元D和第二结构单元E都能够在下一步或后续的下游步骤中进行相同的化学转化。在第二种模式中，使用不同的化学来装载反应位点衔接子，并且后续的下游步骤需要不同的化学。该第二种模式要求新生5'编码部分上的官能团、5'端的进入位置结构单元上的官能团以及用于该偶联的化学，与新生3'编码部分上存在的官能团不发生反应。同样，该第二种模式要求新生3'编码部分上的官能团、3'端的进入位置结构单元上的官能团以及用于该偶联的化学，与新生5'编码部分上存在的官能团不发生反应。在3'和5'反应位点衔接子上使用正交化学安装结构单元的步骤可以按任何顺序进行。此外，本领域技术人员将理解，在给定合成步骤中安装的多样性结构单元中，不执行任何结构单元的安装是重要的多样性元件。用于这些步骤的适当化学包括但不限于实施例9-31和实施例44-46中所述的化学。

实施例56.构建具有相应末端编码区的基因文库。构建文库，其中5'末端编码区和3'末端编码区编码相同的结构单元或相同的成对的不同结构单元。如果基因文库中具有给定5'末端编码序列的每个成员仅具有一个3'末端编码序列，则可以实现这一点。使用实施例2d的方法构建这种文库，其中例外的是不汇集用于5'末端编码区和3'末端编码区的杂交子集对。按照实施例2d汇集并连接所有内部编码区。连接所有内部编码区的产物被分成等分试样，并将一个等分试样加入到每个5'末端杂交子集序列中并连接。每个孔中的连接产物具有单个5'末端编码序列，但是具有所有内部编码区处所有序列的组合混合物。将这些具有单个5'末端编码序列的连接产物独立地转移到含有单个3'末端杂交子集序列的孔中并连接。每个孔中的产物是这样的基因，该基因包含单个5'末端编码序列、单个3'末端编码序列以及所有内部编码区处所有序列的组合混合物。应理解，存在产生相同所得文库的其它方法。

实施例57.由较短的DNA序列构成的编码区。较短的序列可用于单项式编码、多项式编码和非编码区。将某些修饰碱基并入捕获寡核苷酸或反应位点衔接子编码序列中将增加在这种捕获寡核苷酸和编码链之间形成的杂合体的Tm，使得较短的编码序列与较长的序列一样有效。可用于完成这个任务的修饰碱基包括但不限于：2-氨基-dA，5-甲基dC，5-丙炔基dC，7-丙炔基-8-氮杂-7-脱氮嘌呤-2,6-二胺2'脱氧核糖核苷和锁核酸(LNA)。(参见参考文献(a)Y.Lebedev等,Genetic Analysis-Biomolecular Engineering,1996,13,15-21.(b)L.E.Xodo,G.Manzini,F.Quadrifoglio,G.A.v.d.Marel和J.H.v.Boom,Nucleic AcidsRes.,1991,19,5625-5631.(c)B.C.Froehler,S.Wadwani,T.J.Terhorst和S.R.Gerrard,Tetrahedron Lett.,1992,33,5307-5310.(d)I.V.Kutyavin,R.L.Rhinehart,E.A.Lukhtanov,V.V.Gorn,R.B.Meyer和H.B.Gamper,Biochemistry,1996,35,11170-11176.(e)H.K.Nguyen,P.Auffray,U.Asseline,D.Dupret和N.T.Thuong,Nucleic AcidsRes.,1997,25,3059-65.(f)https://en.wikipedia.org/wiki/Locked_nucleic_acid(g)http://www.exiqon.com/lna-technology)

Claims

1.一种根据式(I-A)所述的分子，

(I-A) [(B₁)_M—L₁]_O—G，

其中：

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

O是1；

其中每个位置结构单元B₁通过1至5个编码区来鉴定，并且以位置结构单元的总数计约10％至100％的所述位置结构单元B₁通过2至5个独立编码区的组合来鉴定。

2.如权利要求1所述的分子，其中G包含由式(C_N—(Z_N—C_N+1)_A)或(Z_N—(C_N—Z_N+1)_A)表示的序列，其中C是编码区，Z是非编码区，N是1至20的整数，并且A是1至20的整数。

3.如权利要求2所述的分子，其中每个非编码区含有0至50个核苷酸并且任选是双链的。

4.如权利要求1所述的分子，其中每个编码区含有6至50个核苷酸。

5.如权利要求1所述的分子，其中每个编码区含有8至30个核苷酸。

6.如权利要求1所述的分子，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁通过2至5个独立编码区的组合来鉴定。

7.如权利要求1所述的分子，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。

8.如权利要求1所述的分子，其中以位置结构单元的总数计约30％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。

9.一种根据式(I)所述的分子，

(I) [(B₁)_M—L₁]_O—G—[(L₂—(B₂)_K]_P

其中

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

10.如权利要求9所述的分子，其中G包含由式(C_N—(Z_N—C_N+1)_A)或(Z_N—(C_N—Z_N+1)_A)表示的序列，其中C是编码区，Z是非编码区，N是1至20的整数，并且A是1至20的整数；

其中每个非编码区含有0至50个核苷酸并且任选是双链的。

11.如权利要求9所述的分子，其中每个编码区含有6至50个核苷酸。

12.如权利要求9所述的分子，其中每个编码区含有8至30个核苷酸。

13.如权利要求9所述的分子，其中O或P中的至少一个是0。

14.如权利要求9所述的分子，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。

15.如权利要求9所述的分子，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

16.如权利要求9所述的分子，其中P是0；O是1；并且以位置结构单元的总数计约30％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。

17.如权利要求9所述的分子，其中O是0；P是1；并且以位置结构单元的总数计约30％至100％的在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

18.一种鉴定能够结合或选择靶分子的探针分子的方法，所述方法包括：

使所述靶分子暴露于探针分子池，其中所述探针分子是根据权利要求1所述的，

去除至少一个不与所述靶分子结合的探针分子，

对所述拷贝序列进行测序以鉴定所述探针分子的每个编码区和编码区的组合，以进一步鉴定在位置M处的每个位置结构单元B₁和/或在位置K处的每个位置结构单元B₂。

19.如权利要求18所述的方法，所述方法包括：

对所述拷贝序列进行测序以鉴定所述探针分子的每个编码区和2至3个独立编码区的组合，以进一步鉴定在位置M处的每个位置结构单元B₁和在位置K处的每个位置结构单元B₂中的至少一个。

20.一种形成式(I)分子的方法，所述方法包括：

提供至少一个第一杂交阵列，所述至少一个第一杂交阵列包括固定在所述至少一个第一杂交阵列上的至少一个第一单链反密码子寡聚物，其中固定在所述至少一个第一杂交阵列上的所述至少一个第一单链反密码子寡聚物能够与式(II)分子的第一编码区杂交：

(II) [(B₁)_(M-1)—L₁]_O—G—[(L₂—(B₂)_(K-1))_P

其中

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

提供至少一个第二杂交阵列，所述至少一个第二杂交阵列包含固定在所述至少一个第二杂交阵列上的至少一个第二单链反密码子寡聚物，其中固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物能够与式(II)分子的第二编码区杂交：

通过将所述式(II)分子的第二编码区与固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物杂交，将所述式(II)分子的第一组子池中的每一个或至少一个独立地分选成第二组子池；

提供结构单元B₁和B₂中的至少一个；以及

(I) [(B₁)_M-L₁]_O-G-[(L₂-(B₂)_K]_P

其中

B₁是位置结构单元并且M表示1至20的整数；

L₁是将B₁可操作地连接到G的接头；

L₂是将B₂可操作地连接到G的接头；

O是0或1；

P是0或1；

条件是O和P中的至少一个是1；并且

21.如权利要求20所述的方法，其进一步包括，在反应步骤的步骤之前，

(a)将所述式(II)分子的第二组子池从所述至少一个第二杂交阵列释放到第二组单独的容器中；

(b)提供至少一个第三杂交阵列，所述至少一个第三杂交阵列包含固定在所述至少一个第三杂交阵列上的至少一个第三单链反密码子寡聚物，其中固定在所述至少一个第三杂交阵列上的所述至少一个第三单链反密码子寡聚物能够与式(II)分子的第三编码区杂交；

(c)通过使式(II)分子的第三组子池的第三编码区与固定在所述至少一个第三第二杂交阵列上的所述至少一个第三单链反密码子寡聚物杂交，将至少一个子池从所述式(II)分子的第二组子池独立地分选成第三组子池；以及

任选地，重复步骤(a)、(b)和(c)。

22.如权利要求20所述的方法，其中每个编码区含有6至50个核苷酸。

23.如权利要求20所述的方法，其中每个编码区含有8至30个核苷酸。

24.如权利要求20所述的方法，其中O或P中的至少一个是0。

25.如权利要求20所述的方法，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至5个独立编码区的组合来鉴定。

26.如权利要求20所述的方法，其中以位置结构单元的总数计约20％至100％的在位置M处的位置结构单元B₁和/或在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

27.如权利要求21所述的方法，其中P是0；O是1；并且以位置结构单元的总数计约30％至100％的在位置M处的位置结构单元B₁通过2至3个独立编码区的组合来鉴定。

28.如权利要求20所述的方法，其中O是0；P是1；并且以位置结构单元的总数计约30％至100％的在位置K处的位置结构单元B₂通过2至3个独立编码区的组合来鉴定。

29.一种形成寡核苷酸编码分子的方法，所述方法包括：

(a)提供至少一个第一杂交阵列，所述至少一个第一杂交阵列包含固定在所述至少一个第一杂交阵列上的至少一个第一单链反密码子寡聚物，其中固定在所述至少一个第一杂交阵列上的所述至少一个第一单链反密码子寡聚物能够与寡核苷酸分子G的第一编码区杂交，所述寡核苷酸分子G包含：

(i)至少第一编码区和第二编码区，其中所述第一编码区和所述第二编码区是单链的，并且其中所述第一编码区和所述第二编码区是不同的；和

(ii)在G的3'末端上或在所述至少第一编码区和第二编码区的5'的内部核苷酸上或在所述至少第一编码区和第二编码区的3'的内部核苷酸上的反应位点；

(b)通过使所述寡核苷酸的所述第一编码区与固定在所述至少一个第一杂交阵列上的所述至少一个第一单链反密码子寡聚物杂交，将寡核苷酸G池分选成第一组子池；

(c)提供至少一个第二杂交阵列，所述至少一个第二杂交阵列包含固定在所述至少一个第二杂交阵列上的至少一个第二单链反密码子寡聚物，其中固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物能够与所述寡核苷酸的所述第二编码区杂交；

(d)通过将所述寡核苷酸的所述第二编码区与固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物杂交，将所述寡核苷酸的第一组子池中的至少一个独立地分选成第二组子池。

30.如权利要求29所述的方法，其进一步包括(e)使来自所述第二组子池的寡核苷酸G上的反应位点与至少一个结构单元B₁反应，以形成寡核苷酸-结构单元缀合物的子池，其中B₁不包含寡核苷酸。

31.如权利要求29所述的方法，其中所述反应位点在所述3'末端上。

32.如权利要求29所述的方法，其中所述反应位点在所述至少第一编码区和第二编码区的5'的内部核苷酸上。

33.如权利要求29所述的方法，其中所述反应位点在所述至少第一编码区和第二编码区的3'的内部核苷酸上。

34.如权利要求29所述的方法，其进一步包括在(d)之前从所述至少一个第一杂交阵列释放所述寡核苷酸G的第一组子池。

35.如权利要求34所述的方法，其进一步包括在(e)之前从所述至少一个第二杂交阵列释放所述寡核苷酸G的第二组子池。

36.如权利要求30所述的方法，其进一步包括，在(d)之后和在(e)之前：

(i)提供至少一个第Z个杂交阵列，所述至少一个第Z个杂交阵列包含固定在所述至少一个第二杂交阵列上的至少一个第Z个单链反密码子寡聚物，其中固定在所述至少一个第二杂交阵列上的所述至少一个第二单链反密码子寡聚物能够与所述寡核苷酸的第Z个编码区杂交；

(ii)通过使所述寡核苷酸的第Z个编码区与固定在所述至少一个第Z个杂交阵列上的所述至少一个第Z个单链反密码子寡聚物杂交，将所述寡核苷酸的第一组子池中的每一个或至少一个独立地分选成第二组子池；以及

(iii)从所述至少一个第Z个杂交阵列释放所述寡核苷酸G的第Z组子池；

其中Z在3至5之间，并且(i)-(iii)进行(Z-2)次。

37.如权利要求29所述的方法，其中所述反应位点是芳基碘，芳基醛，胺，醛，叔丁酯，boc保护的胺，alloc保护的胺，甲基或乙基酯，硝基基团，叠氮化物，炔烃，硫脲或α-氨基-酰胺。

38.如权利要求29所述的方法，其中G另外在其5'端包含核苷酸-茎-环，并且所述第一编码区和所述第二编码区的5'的内部核苷酸是所述环的核苷酸。

39.如权利要求29所述的方法，其中G的每个编码区包含6至50个寡核苷酸。

40.如权利要求29所述的方法，其中G的所述编码区被50个以下核苷酸的双链非编码区隔开。

41.一种连续富集寡核苷酸编码文库的方法，所述方法包括：

i)获得包含第一编码序列和第二编码区的寡核苷酸的集合；

ii)通过使所述第一编码区与固定在至少一个第一杂交阵列上的至少一个第一单链反密码子寡聚物杂交，将所述寡核苷酸的集合分选成第一组子池；

iii)将所述第一组子池从所述至少一个第一杂交阵列释放到单独的容器中，从而产生第一富集组的寡核苷酸；

iv)通过使所述第二编码区与固定在至少一个第二杂交阵列上的至少一个第二单链反密码子寡聚物杂交，将所述第一富集组的寡核苷酸分选成第二组子池，从而连续富集包含第一编码区和第二编码区的寡核苷酸的寡核苷酸编码文库。

42.如权利要求41所述的方法，其进一步包括v)将所述第二组子池从所述至少一个第二杂交阵列释放到单独的容器中，从而产生第二富集组的寡核苷酸。

43.如权利要求41所述的方法，其进一步包括

vi)通过使第三编码区与固定在至少一个第三杂交阵列上的至少一个第三单链反密码子寡聚物杂交，将所述第二富集组的寡核苷酸分选成第三组子池，从而连续富集包含所述第一编码区、所述第二编码区和所述第三编码区的寡核苷酸的寡核苷酸编码文库。

44.如权利要求43所述的方法，其进一步包括

vii)将所述第三组子池从所述至少一个第三杂交阵列释放到单独的容器中，从而产生第三富集组的寡核苷酸。

45.如权利要求43所述的方法，其进一步包括

viii)通过使第四编码区与固定在至少一个第四杂交阵列上的至少一个第四单链反密码子寡聚物杂交，将所述第三富集组的寡核苷酸分选成第四组子池，从而连续富集包含所述第一编码区、所述第二编码区、所述第三编码区和所述第四区的寡核苷酸的寡核苷酸编码文库。

46.如权利要求45所述的方法，其进一步包括

ix)将所述第三组子池从所述至少一个第三杂交阵列释放到单独的容器中，从而产生第四富集组的寡核苷酸。

47.如权利要求46所述的方法，其进一步包括

x)通过使第五编码区与固定在至少一个第五杂交阵列上的至少一个第五单链反密码子寡聚物杂交，将所述第四富集组的寡核苷酸分选成第五组子池，从而连续富集包含所述第一编码区、所述第二编码区、所述第三编码区、所述第四区和所述第五编码区的寡核苷酸的寡核苷酸编码文库。

48.如权利要求41至47中任一项所述的方法，其中至少一个编码区含有6至50个核苷酸。

49.如权利要求41至47中任一项所述的方法，其中至少一个编码区含有8至30个核苷酸。

50.一种制备寡核苷酸缀合物分子文库的方法，所述方法包括：

a)提供寡核苷酸G的文库，其中所述寡核苷酸G包含至少两个编码区，其中所述至少两个编码区是单链的；以及

b)在所述寡核苷酸G的5'端或所述寡核苷酸G的3'端安装包含反应位点衔接子的结构单元Bx。

51.如权利要求50所述的方法，其中安装所述结构单元Bx包括逆转录。

52.如权利要求50至51中任一项所述的方法，其中安装所述结构单元Bx包括连接。

53.如权利要求50至52中任一项所述的方法，其中包含反应位点衔接子的所述结构单元Bx安装在所述寡核苷酸G的3'端。

54.如权利要求53所述的方法，其中所述反应位点衔接子在其5'端包含核苷酸-茎-环。

55.如权利要求50至52中任一项所述的方法，其中包含反应位点衔接子的所述结构单元Bx安装在所述寡核苷酸G的5'端。

56.如权利要求55所述的方法，其中所述反应位点衔接子在其3'端包含核苷酸-茎-环。

57.如权利要求50至56中任一项所述的方法，其中所述反应位点衔接子上的反应位点在所述核苷酸-茎-环的所述环的内部核苷酸上并且选自芳基碘、芳基醛、胺、醛、叔丁酯、boc保护的胺、alloc保护的胺、甲基或乙基酯、硝基基团、叠氮化物、炔烃、硫脲或α-氨基-酰胺。

58.如权利要求50至56中任一项所述的方法，其进一步包括通过使所述寡核苷酸的第一编码区与固定在至少一个第一杂交阵列上的至少一个第一单链反密码子寡聚物杂交，将寡核苷酸G池分选成第一组子池。

59.如权利要求50至58中任一项所述的方法，其进一步包括通过使所述寡核苷酸的第二编码区与固定在至少一个第二杂交阵列上的至少一个第二单链反密码子寡聚物杂交，将所述寡核苷酸的第一组子池中的至少一个分选成第二组子池。

60.如权利要求50至59中任一项所述的方法，其进一步包括使来自所述第二组子池的所述寡核苷酸G上的反应位点与至少一个结构单元B_x+1反应，以形成寡核苷酸-结构单元缀合物的子池，其中B_x+1不包含寡核苷酸。