CN102392014A

CN102392014A - 合成编码文库的方法

Info

Publication number: CN102392014A
Application number: CN2011102198704A
Authority: CN
Inventors: B·摩根; S·黑尔; C·C·阿里科-米恩德尔; M·克拉克; R·瓦格纳; M·J·卡瓦拉纳; S·P·克里泽; G·J·富兰克林; P·A·森特雷拉; D·I·伊斯雷尔; M·L·格夫特; D·本杰明; N·J·V·汉森; R·A·阿卡雅
Original assignee: GlaxoSmithKline China Investment Co Ltd
Current assignee: GlaxoSmithKline China Investment Co Ltd
Priority date: 2005-06-09
Filing date: 2006-06-09
Publication date: 2012-03-28
Also published as: ES2365534T3; BRPI0613566B1; DK201170734A; DK177345B1; IL187977A0; JP2008543289A; ZA201004791B; DK1910538T3; CY1112036T1; RU2008100035A; EP2311786A3; AU2006257915A1; HK1120546A1; RU2011101778A; HRP20110528T1; JP2014039550A; HK1150454A1; EP2258870A3; BRPI0613566A2; DK2258870T3

Abstract

本发明提供合成编码文库的方法，具体来说，提供一种合成包含编码寡核苷酸标签的分子文库的方法。

Description

合成编码文库的方法

本申请是申请日为2006年6月9日、申请号为200680027615.7、发明名称为“合成编码文库的方法”的发明专利申请的分案申请。

相关申请

本申请是2004年12月17日提交的未决的美国专利申请号11/015458的部分继续申请，该未决的申请与2003年12月17日提交的美国临时专利申请序列号60/530854、2004年1月30日提交的美国临时专利申请序列号60/540681、2004年3月15日提交的美国临时专利申请序列号60/553,715和2004年7月16日提交的美国临时专利申请序列号60/588,672相关。本申请也要求2005年6月9日提交的美国临时专利申请序列号60/689,466和2005年10月28日提交的美国临时专利申请序列号60/731,041的优先权。上述申请的全部内容均在此引入作为参考。

背景技术

探索鉴定具有有用生物活性的化合物的更有效方法，导致发展了筛选大量不同化合物的方法，这些化合物存在于被称为组合文库的集合中。这样的文库可含有10⁵种或更多不同的化合物。有许多方法用于产生组合文库，并且已经报道了肽、拟肽和有机小分子的组合合成。

组合方法应用于药物发现的两个主要挑战是非常复杂的文库的合成和在所用筛选中有活性的分子的鉴定。通常知道文库的复杂程度越高，即文库中存在的不同结构的数量越多，该文库含有具有目标活性的分子的可能性就越大。因此，文库合成中使用的化学方法必须能够在合理时间范围内生成大量化合物。但是对于给定的克式浓度和总浓度来说，提高文库内不同成员的数目降低了任何特定文库成员的浓度。这使得从高复杂性文库中鉴定活性分子变得复杂。

克服这些障碍的一种方法是发展编码文库，特别是其中每个化合物均包含可扩增标签的文库。这样的文库包括DNA-编码文库，其中用于标识文库成员的DNA标签能够用分子生物学技术如聚合酶链反应扩增。但是，这些方法在产生很大文库中的应用尚未得到证明，显然，为了实现该方法用于药物发现的可能性，需要改进产生这种文库的方法。

发明内容

本发明提供一种合成包含编码寡核苷酸标签的分子文库的方法。该方法使用“分离-组合(split and pool)”策略，其中将含有起始物的溶液分成(“分离”)多个部分，该起始物包括连接有一编码寡核苷酸的第一结构单元(building block)。在每个部分中，起始物与独特的第二结构单元和标识该第二结构单元的独特的第二寡核苷酸反应。这些反应可以同时或相继进行，如果是相继进行，则任一反应都可以在另一反应之前。将每个部分中产生的二聚体分子合并(“组合”)，然后再分为多个部分。这些部分中的每一个然后与独特的(部分特异性的)第三结构单元和编码该结构单元的独特的第三寡核苷酸反应。产物文库中存在的独特分子的数目是以下数值的函数：(1)在合成的每一步使用的不同结构单元的数目，和(2)组合和分离步骤的重复次数。

在一个实施方案中，本发明提供一种合成分子的方法，该分子包含与编码寡核苷酸有效连接的功能部分或由如此连接的该功能部分组成。该方法包括下列步骤：(1)提供由包含n个结构单元的功能部分组成的起始化合物，其中n是1或大于1的整数，其中该功能部分含有至少一个反应基团，并且其中该功能部分与起始寡核苷酸有效连接；(2)将该起始化合物与包含至少一个互补反应基团的结构单元反应，其中该至少一个互补反应基团与步骤(1)的反应基团互补，反应条件适合所述反应基团与互补反应基团反应形成共价键；(3)将起始寡核苷酸与标识步骤(b)的结构单元的引入寡核苷酸(incoming oligonucleotide)反应，反应条件适合所述引入寡核苷酸与起始寡核苷酸连接，并存在催化所述起始寡核苷酸与引入寡核苷酸连接的酶，从而产生包含功能部分或由该功能部分组成的分子，该功能部分含有n+1个结构单元，并且与编码寡核苷酸有效连接。如果步骤(3)的功能部分包含反应基团，则步骤1-3可以重复一次或多次，从而形成循环1至i，其中i是2或大于2的整数，循环s的步骤(3)的产物成为循环s+1的起始化合物，其中s是i-1或更小的整数。

在一个实施方案中，本发明提供一种合成化合物文库的方法，其中所述化合物包含功能部分，该功能部分包含两个或更多的结构单元，并且与标识该功能部分的结构的寡核苷酸有效连接。该方法包括下列步骤：(1)提供包含m种起始化合物的溶液，其中m是1或大于1的整数，其中起始化合物由包含n个结构单元的功能部分组成，其中n是1或大于1的整数，该功能部分与标识该n个结构单元的起始寡核苷酸有效连接；(2)将步骤(1)的溶液分成r个部分，其中r是2或大于2的整数；(3)每个部分中的起始化合物与r个结构单元之一反应，从而产生r个部分，这些部分包含由与起始寡核苷酸有效连接的功能部分组成的化合物，该功能部分包含n+1个结构单元；(4)每个部分中的起始寡核苷酸与一组r个不同引入寡核苷酸之一反应，反应条件适合所述引入寡核苷酸与起始寡核苷酸进行酶连接，并存在催化所述引入寡核苷酸与起始寡核苷酸连接的酶，从而产生r个等份，这些等份包含由与延长的寡核苷酸有效连接的功能部分组成的分子，该功能部分包含n+1个结构单元，该延长的寡核苷酸编码该n+1个结构单元。任选地，该方法可进一步包括步骤(5)：重新组合步骤(4)产生的r个部分，从而产生包含由功能部分组成的化合物的溶液，该功能部分包含n+1个结构单元并且与延长的寡核苷酸有效连接。步骤(1)至(5)可以进行一次或多次，以产生循环1至i，其中i是2或大于2的整数。在循环s+1中(其中s是i-1或更小的整数)，步骤(1)的含有m种起始化合物的溶液是循环s的步骤(5)的溶液。同样，循环s+1的步骤(1)的起始化合物是循环s的步骤(5)的化合物。

在一个优选实施方案中，在每一步骤中用常规化学反应来偶联结构单元。可以将结构单元偶联产生直链或分支聚合物或低聚物，如肽、拟肽和类肽，或非低聚物分子，如包含连接有一个或多个其他化学部分的支架结构的分子。例如，如果结构单元是氨基酸残基，则该结构单元可以用标准肽合成方法偶联，如本领域公知的、应用适当保护/脱保护策略的溶液相或固相合成。优选地，结构单元采用溶液相化学法偶联。编码寡核苷酸是单链或双链寡核苷酸，优选双链寡核苷酸。编码寡核苷酸优选是每个结构单元有4-12个碱基或碱基对的寡核苷酸；编码寡核苷酸可以利用标准溶液相或固相寡核苷酸合成法偶联，但是优选利用溶液相酶法偶联。例如，如果编码寡核苷酸的序列包含用于用一种这样的酶进行连接的起始序列的话，则该寡核苷酸可以利用拓扑异构酶、连接酶或DNA聚合酶偶联。编码寡核苷酸的酶偶联具有以下优点：(1)比标准合成(非酶)偶联更高的添加精确度；和(2)应用更简单的保护/脱保护策略。

另一方面，本发明提供式I的化合物：

其中X是包含一个或多个结构单元的功能部分；Z是在其3’末端与B连接的寡核苷酸；Y是在其5’末端与C连接的寡核苷酸；A是与X形成共价键的官能团；B是与Z的3’-末端形成键的官能团；C是与Y的5’-末端形成键的官能团；D、F和E各自独立地是双功能连接基团；且S是原子或分子支架。这样的化合物包括应用本发明的方法合成的那些化合物。

本发明进一步涉及一种化合物文库，其包含含有功能部分的化合物，该功能部分包含两个或多个结构单元，并且与编码该功能部分结构的寡核苷酸有效连接。这样的文库可包含约10²至约10¹²或更多种不同的成员，例如10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²或更多不同的成员，即不同的分子结构。

在一个实施方案中，该化合物文库包含各自独立地为式I的化合物：

其中X是包含一个或多个结构单元的功能部分；Z是在其3’末端与B连接的寡核苷酸；Y是在其5’末端与C连接的寡核苷酸；A是与X形成共价键的官能团；B是与Z的3’-末端形成键的官能团；C是与Y的5’-末端形成键的官能团；D、F和E各自独立地是双功能连接基团；且S是原子或分子支架。这样的文库包括应用本发明的方法合成的那些文库。

另一方面，本发明提供一种鉴定与生物靶标结合的化合物的方法，该方法包括以下步骤：(a)使该生物靶标接触本发明的化合物文库，其中该化合物文库包括含有功能部分的化合物，该功能部分包含两个或多个结构单元，并且与编码该功能部分的结构的寡核苷酸有效连接。该步骤在适合化合物文库的至少一个成员与该靶标结合的条件下进行；(2)除去不与该靶标结合的文库成员；(3)扩增能与该靶标结合的化合物文库至少一个成员的编码寡核苷酸；(4)对步骤(3)的编码寡核苷酸进行测序；和利用步骤(5)测定的序列确定能与该生物靶标结合的化合物文库成员的功能部分的结构。

本发明在鉴定具有所需性质的分子方面具有几个优点。例如，本发明的方法允许在寡核苷酸标签的存在下使用许多化学反应来构建分子。本发明的方法也提供了向这样产生的化学结构中引入寡核苷酸标签的高保真度手段。另外，它们能够合成具有高拷贝数的每个成员的文库，从而允许对生物靶标进行多轮筛选，而在最后一轮后剩余足够数量的分子用于寡核苷酸标签的扩增和测序。

附图说明

图1是双链寡核苷酸的连接的示意图，其中起始寡核苷酸具有与引入寡核苷酸的突出端互补的突出端。起始链显示为游离的、与氨基己基连接体偶联的、或通过氨基己基连接体与苯丙氨酸残基偶联的。

图2是使用夹板(splint)链进行寡核苷酸连接的示意图。在该实施方案中，夹板是12-mer的寡核苷酸，其序列与单链起始寡核苷酸和单链引入寡核苷酸互补。

图3是当起始寡核苷酸是具有共价连接链的双链，并且引入寡核苷酸是双链时，起始寡核苷酸与引入寡核苷酸连接的示意图。

图4是使用聚合酶延长寡核苷酸的示意图。起始链表示为游离的、与氨基己基连接体偶联的、或通过氨基己基连接体与苯丙氨酸残基偶联的。

图5是本发明的一个实施方案的合成循环的示意图。

图6是应用本发明的文库进行多轮筛选过程的示意图。

图7是实施例1所述循环1至5中每一个的产物以及在封闭引物连接后的产物的电泳凝胶。分子量标准显示于泳道1，用于DNA定量的hyperladder的指定量显示于泳道9至12中。

图8是利用叠氮化物-炔环加成作用偶联结构单元的示意图。

图9和图10说明通过氯代三嗪上的亲核芳族取代偶联结构单元。

图11显示适合在功能部分合成中使用的代表性氯代杂芳环结构。

图12说明应用叠氮化物/炔环加成反应环化直链肽。

图13A是如实施例2所述在循环4之后产生的文库的层析图。

图13B是如实施例2所述在循环4之后产生的文库的质谱图。

具体实施方式

本发明涉及制备化合物和组合化合物文库的方法，通过本发明的方法制备的化合物和文库，和利用该文库鉴定具有所需性质如所需生物活性的化合物的方法。本发明进一步涉及应用这些方法鉴定的化合物。

已经应用了多种方法来产生和筛查组合化学文库。例子包括将文库的各成员彼此物理分离的方法，例如当在多个反应容器的每一个中合成单一化合物时。但是，这些文库一般一次筛选一种化合物，或者最多一次筛选几种化合物，因此不能获得最有效的筛选过程。在另外一些方法中，在固体支持体上合成化合物。这样的固体支持体包括芯片，其中特定化合物占据芯片或膜上的特定区域(“可定位的位置”)。在另外一些方法中，在珠上合成化合物，每个珠含有不同的化学结构。

在筛查大文库时遇到的两个困难是(1)可以筛选的不同化合物的数量；和(2)在筛选中有活性的化合物的鉴定。在一种方法中，在筛选中有活性的化合物如下鉴定：将原始文库缩小为更小的部分或亚部，在每种情况下都选择含有活性化合物的部分或亚部，并且进一步再分，直到获得含有一组化合物的足够小的活性亚部，以致该亚部的所有成员能够单独合成，并且评价所需的活性。这是一项单调的、费时的工作。

解析组合文库筛查结果的另外一种方法是利用这样的文库，其中该文库的成员用标识标签进行标记，即，该文库中存在的每个标签都与该文库中存在的不同化合物结构相关，因此该标签的标识指出了标记分子的结构。一种标记文库的方法使用寡核苷酸标签，如美国专利号5,573,905；5,708,153；5,723,598，6,060,596，公开的PCT申请WO93/06121；WO 93/20242；WO 94/13623；WO 00/23458；WO 02/074929和WO 02/103008，Brenner和Lerner(Proc.Natl.Acad.Sci.USA 89，5381-5383(1992)；Nielsen和Janda(Methods：A Companion to Methods inEnzymology 6，361-371(1994)；Nielsen，Brenner和Janda(J.Am.Chem.Soc.115，9812-9813(1993))所述，这些文献均在此全文引用作为参考。这样的标签可以利用如聚合酶链反应扩增，产生多个标签拷贝，并且通过测序鉴定该标签。标签的序列标识了结合分子的结构，这些分子可以以纯的形式合成并且检测。本发明提供了产生DNA-编码文库的方法的改进，以及利用溶液相合成法合成功能部分的DNA编码分子大(10⁵个或更多成员的)文库的首批实例。

本发明提供了一种方法，该方法允许容易地合成寡核苷酸编码的组合文库，并且提供向大分子集合的每个成员上添加这种寡核苷酸标签的有效、高保真的手段。

本发明的方法包括合成双功能分子的方法，该双功能分子包含由结构单元组成的第一部分(“功能部分”)，和与第一部分有效连接的第二部分，第二部分包含标识第一部分的结构的寡核苷酸标签，即该寡核苷酸标签指示在第一部分构建中使用了哪些结构单元，以及结构单元连接的顺序。通常，寡核苷酸标签提供的信息足以确定用来构建活性部分的结构单元。在某些实施方案中，寡核苷酸标签的序列足以确定功能部分中结构单元的排列，例如，对于拟肽，为氨基酸序列。

如本文所用的术语“功能部分”是指包含一个或多个结构单元的化学部分。优选地，功能部分中的结构单元不是核酸。功能部分可以是直链或支链或环形的聚合物或寡聚物或有机小分子。

如本文所用的术语“结构单元”是与其他化学结构单位连接的，或者能够与其他这样的单位连接的化学结构单位。当功能部分是多聚的或寡聚的时，结构单元是聚合物或寡聚物的单体单元。结构单元也可以包括支架结构(“支架结构单元”)，支架结构上连接有或者可以连接一个或多个其他的结构(“周围结构单元”)。

应当理解，本文使用的术语“结构单元”是指存在于功能部分中的，也指以反应性形式用于合成功能部分的化学结构单位。在功能部分内，结构单元不含由于将该结构单元掺入功能部分中而丢失的结构单元的任何部分。例如，在键形成反应释放小分子的情况中(见下文)，存在于功能部分中的结构单元是“结构单元残基”，即，在贡献释放分子的原子丢失后在合成中使用的结构单元的剩余部分。

结构单元可以是互补的任何化学化合物，即结构单元必须能够一起反应，形成含有两个或多个结构单元的结构。一般地说，使用的所有结构单元都具有至少两个反应基团，尽管也可能有一些使用的结构单元(例如在寡聚功能部分中的最后一个结构单元)各自只含有一个反应基团。两个不同结构单元上的反应基团应当互补，即，能够一起反应形成共价键，任选地伴随小分子如水、HCl、HF等的丢失。

为了本目的，如果两个反应基团能够一起反应形成共价键，则它们互补。在一个优选实施方案中，键形成反应在环境条件下快速发生，基本不形成副产物。优选地，特定反应基团与特定互补反应基团正好反应一次。在一个实施方案中，两个结构单元的互补反应基团(例如)通过亲核取代反应，形成共价键。在一个实施方案中，一对互补反应基团的一个成员是亲电子基团，而另一个成员是亲核基团。

互补亲电子和亲核基团包括在适当条件下通过亲核取代反应形成共价键的任何两个基团。许多合适的键形成反应在本领域中公知。参见，例如，March，Advanced Organic Chemistry，第四版，New York：JohnWiley and Sons(1992)，第10-16章；Carey和Sundberg，Advanced OrganicChemistry，Part B，Plenum(1990)，第1-11章；和Collman等，Principles andApplications of Organotransition Metal Chemistry，University ScienceBooks，Mill Valley，Calif.(1987)，第13-20章；均在此全文引用作为参考。合适的亲电子基团的例子包括反应性羰基，如酰氯基，酯基，包括羰基五氟苯酯和琥珀酰亚胺酯，酮基和醛基；反应性磺酰基，如磺酰氯基，和反应性膦酰基。其他亲电子基团包括末端环氧基、异氰酸酯基和烷基卤基团。合适的亲核基团包括伯氨基、仲氨基、羟基和羧基。

合适的互补反应基团在下面描述。本领域技术人员能够容易地确定可在本方法中使用的其他反应基团对，本文提供的实例不是限制性的。

在第一个实施方案中，互补反应基团包括活化的羧基、反应性磺酰基或反应性膦酰基或它们的组合，和伯氨基或仲氨基。在该实施方案中，互补反应基团在适当条件下反应，形成酰胺、磺酰胺或磷酰胺键。

在第二个实施方案中，互补反应基团包括环氧基和伯氨基或仲氨基。含环氧化物的结构单元与含胺的结构单元在适当条件下反应，形成碳-氮键，生成β-氨基醇。

在另一个实施方案中，互补反应基团包括吖丙啶基和伯氨基或仲氨基。在适当条件下，含吖丙啶的结构单元与含胺的结构单元反应，形成碳-氮键，生成1，2-二胺。在第三个实施方案中，互补反应基团包括异氰酸酯基和伯氨基或仲氨基。含异氰酸酯的结构单元将与含胺的结构单元在适当条件下反应，形成碳-氮键，生成脲基。

在第四个实施方案中，互补反应基团包括异氰酸酯基和羟基。含异氰酸酯的结构单元将与含羟基的结构单元在适当条件下反应，形成碳-氧键，生成氨基甲酸酯基。

在第五个实施方案中，互补反应基团包括氨基和含羰基的基团，如醛基或酮基。胺与这些基团通过还原性胺化反应，形成新的碳-氮键。

在第六个实施方案中，互补反应基团包括磷叶立德基和醛基或酮基。含磷叶立德的结构单元将与含醛或酮的结构单元在适当条件下反应，形成碳-碳双键，生成烯。

在第七个实施方案中，互补反应基团通过环加成作用反应，形成环结构。这样的互补反应基团的一个例子是炔和有机叠氮化物，它们在适当条件下反应，形成三唑环结构。使用这种反应连接两个结构单元的一个例子在图8中显示。用于这样的反应的适当条件在本领域中公知，包括WO 03/101972公开的那些，该专利的全部内容在此引用作为参考。

在第八个实施方案中，互补反应基团是烷基卤和亲核基团，如氨基、羟基或羧基。这些基团在适当条件下反应，形成碳-氮(烷基卤加胺)或碳-氧(烷基卤加羟基或羧基)。

在第九个实施方案中，互补官能团是卤代杂芳基和亲核基团，结构单元在适当条件下通过芳香亲核取代连接。合适的卤代杂芳基包括氯代嘧啶、三嗪和嘌呤，它们与亲核物质如胺在水溶液中在温和条件下反应。寡核苷酸标记的三氯三嗪与胺反应的代表性例子在图9和10中显示。合适的氯代杂芳基的例子在图11中显示。

可以在本发明分子和文库合成中用来连接结构单元的其他键形成反应包括以下所示的那些。以下所示的反应强调了反应性官能团。各种取代基可以存在于反应物中，包括标记的R₁、R₂、R₃和R₄。可以被取代的可能的位置包括但不限于R₁、R₂、R₃和R₄所示的位置。这些取代基可以包括任何合适的化学部分，但优选地限于不干扰或不显著抑制所述反应的那些，除非另外说明，可以包括氢、烷基、取代的烷基、芳基、取代的芳基、杂芳基、取代的杂芳基、烷氧基、芳氧基、芳烷基、取代的芳烷基、氨基、取代的氨基、和本领域公知的其他基团。这些基团上的合适的取代基包括烷基、芳基、杂芳基、氰基、卤素、羟基、硝基、氨基、巯基、羧基和羧酰胺。当说明时，合适的吸电子基团包括硝基、羧基、卤代烷基如三氟甲基，和本领域公知的其他基团。合适的供电子基团的例子包括烷基、烷氧基、羟基、氨基、卤素、乙酰氨基和本领域公知的其他基团。

向链烯上添加伯胺：

亲核取代：

胺的还原烷基化：

钯催化的碳-碳键形成反应：

Ugi缩合反应：

亲电子芳香取代反应：

X是供电子基团。

亚胺/iminium/烯胺形成反应：

环加成反应：

Diels-Alder环加成

1，3-二极性环加成，X-Y-Z＝C-N-O，C-N-S，N₃

亲核芳香取代反应：

W是吸电子基团

合适的取代基X和Y的实例包括取代或未取代的氨基、取代或未取代的烷氧基、取代或未取代的硫代烷氧基、取代或未取代的芳氧基、和取代或未取代的硫代芳氧基。

Heck反应：

缩醛形成：

合适的取代基X和Y的实例包括取代和未取代的氨基、羟基和巯基；Y是连接X和Y的连接体，并且适合形成在反应产物中发现的环结构。

醛醇反应：

合适的取代基X的实例包括O、S和NR₃。

可以用来形成本发明的分子和文库的支架结构单元包括具有两个或多个官能团的支架结构单元，这些官能团可能参加与周围结构单元前体的键形成反应，例如，利用上述一种或多种键形成反应。支架部分也可以在构建本发明的文库和分子过程中合成，例如，利用可以以特定方式反应形成含有附着有周围官能团的中心分子部分的分子的结构单元前体。在一个实施方案中，本发明的文库包含含有恒定支架部分、但是含有不同的周围部分或不同的周围部分排列的分子。在某些文库中，所有文库成员含有恒定支架部分；其他文库也可以含有具有两个或多个不同支架部分的分子。可以在构建本发明的分子和文库中使用的支架部分形成反应的实例如表8所示。表中提到的参考文献整体引入本文作为参考。对基团R₁、R₂、R₃和R₄仅有的限制是它们应当不干扰或不明显抑制所述反应，可以包括氢、烷基、取代的烷基、杂烷基、取代的杂烷基、环烷基、杂环烷基、取代的环烷基、取代的杂环烷基、芳基、取代的芳基、芳烷基、杂芳烷基、取代的芳烷基、取代的杂芳烷基、杂芳基、取代的杂芳基、卤素、烷氧基、芳氧基、氨基、取代的氨基和本领域公知的其他基团。合适的取代基包括但不限于烷基、烷氧基、硫代烷氧基、硝基、羟基、巯基、芳氧基、芳基-S-、卤素、羧基、氨基、烷基氨基、二烷基氨基、芳基氨基、氰基、氰酸酯、腈、异氰酸酯、硫氰酸酯、氨甲酰基和取代的氨甲酰基。

应当理解，功能部分的合成可以通过一种特定类型的偶联反应进行，例如但不限于以上所述反应中的一种，或者通过两种或多种偶联反应如以上所述的两种或多种偶联反应的组合进行。例如，在一个实施方案中，通过酰胺键形成(氨基和羧酸互补基团)和还原性胺化(氨基和醛或酮互补基团)的组合，将结构单元连接在一起。可以使用任何偶联化学方法，只要它与寡核苷酸的存在相匹配。在本发明某些实施方案中使用的双链(双链体)寡核苷酸标签在化学上比单链标签更强，因此，容许较宽的反应条件范围，并且能够采用用单链标签不可能进行的键形成反应。

除了反应基团或用于形成功能部分的基团以外，结构单元还可包含一个或多个官能团。一个或多个这样的其他官能团可以受到保护，以阻止这些官能团的不需要的反应。用于多种官能团的合适的保护基在本领域中公知(Greene和Wuts，Protective Groups in Organic Synthesis，第二版，New York：John Wiley and Sons(1991)，在此引用作为参考)。特别有用的保护基包括叔丁基酯和醚、缩醛、三苯甲基醚和胺、乙酰基酯、三甲基硅烷基醚、三氯乙基醚和酯和氨基甲酸酯。

在一个实施方案中，每个结构单元都含有两个反应基团，这两个反应基团可以相同也可以不同。例如，在循环s中添加的每个结构单元可以包含两个相同的反应基团，但是它们均与步骤s-1和s+1添加的结构单元的反应基团互补。在另外一个实施方案中，每个结构单元都含有两个自身互补的反应基团。例如，包含聚酰胺分子的文库可以通过含有两个伯氨基的结构单元与含有两个活化羧基的结构单元反应产生。产生的化合物没有N-末端或C-末端，因为交替的酰胺基具有相反的方向性。或者，聚酰胺文库也可以用各自含有氨基和活化羧基的结构单元产生。在该实施方案中，在循环的步骤n中添加的结构单元具有游离的反应基团，该反应基团与n-1结构单元上可用的反应基团互补，同时优选地，第n个结构单元上的另一反应基团受到保护。例如，如果该文库的成员从C向N方向合成，则添加的结构单元将包含活化的羧基和受到保护的氨基。

功能部分可以是多聚或寡聚部分，如肽、拟肽、肽核酸或类肽，或者它们可以是非聚合的小分子，例如具有包含中央支架的结构和绕支架周围排列的结构的分子。直链多聚或寡聚文库通过使用具有两个反应基团的结构单元产生，而分支多聚或寡聚文库通过使用具有三个或更多反应基团的结构单元(任选地与只具有两个反应基团的结构单元组合)产生。这样的分子可以表示为通式X₁X₂...X_n，其中每一个X都是含有n个单体单元的聚合物的单体单元，其中n是大于1的整数。对于寡聚或多聚化合物，末端结构单元不需要含有两个官能团。例如，对于聚酰胺文库，C-末端结构单元可包含氨基，但是羧基的存在是任选的。类似地，N末端的结构单元可包含羧基，但是不需要含有氨基。

也可以合成分支寡聚或多聚化合物，只要至少一个结构单元包含三个可与其他结构单元反应的官能团。本发明的文库可包含直链分子、支链分子或它们的组合。

也可以应用如含有两个或多个反应基团的支架结构单元，与只具有一个可用反应基团的其他结构单元组合，来构建文库，例如在任何其他反应基团被保护或者不与该支架结构单元中存在的其他反应基团反应时。在一个实施方案中，例如，合成的分子可以表示为通式X(Y)_n，其中X是支架结构单元；每个Y都是与X连接的结构单元，n是至少为2的整数，优选2至大约6的整数。在一个优选实施方案中，循环1的起始结构单元是支架结构单元。在通式X(Y)_n的分子中，每个Y可以相同或不同，但是在典型文库的大多数成员中，每个Y都将不同。

在一个实施方案中，本发明的文库包含聚酰胺化合物。聚酰胺化合物可以由来源于任何氨基酸的结构单元组成，这些氨基酸包括20个天然存在的α-氨基酸，如丙氨酸(Ala；A)、甘氨酸(Gly；G)、天冬酰胺(Asn；N)、天冬氨酸(Asp；D)、谷氨酸(Glu；E)、组氨酸(His；H)、亮氨酸(Leu；L)、赖氨酸(Lys；K)、苯丙氨酸(Phe；F)、酪氨酸(Tyr；Y)、苏氨酸(Thr；T)、丝氨酸(Ser；S)、精氨酸(Arg；R)、缬氨酸(Val；V)、谷氨酰胺(Gln；Q)、异亮氨酸(Ile；I)、半胱氨酸(Cys；C)、甲硫氨酸(Met；M)、脯氨酸(Pro；P)和色氨酸(Trp；W)，其中给出了每个氨基酸的三字母和单字母编码。在它们的天然存在的形式中，上述每个氨基酸都以L-构型存在，除非另外指出，本文中即这样假设。但是在本方法中，也可以使用这些氨基酸的D-构型形式。这些D-氨基酸在本文中用小写三字母或单字母编码表示，即，ala(a)、gly(g)、leu(l)、gln(q)、thr(t)、ser(s)等。结构单元也可以来源于其他α-氨基酸，包括但不限于3-芳基丙氨酸，如萘基丙氨酸、苯基取代的苯丙氨酸，包括4-氟-、4-氯、4-溴和4-甲基苯丙氨酸；3-杂芳基丙氨酸，如3-吡啶基丙氨酸、3-噻吩基丙氨酸、3-喹啉基丙氨酸和3-咪唑基丙氨酸；鸟氨酸；瓜氨酸；高瓜氨酸；肌氨酸；高脯氨酸；高半胱氨酸；取代的脯氨酸，如羟脯氨酸和氟脯氨酸；脱氢脯氨酸；正亮氨酸；O-甲基酪氨酸；O-甲基丝氨酸；O-甲基苏氨酸和3-环己基丙氨酸。上述每个氨基酸都可以以D-或L-构型使用。

结构单元也可以是非α-氨基酸的氨基酸，如α-氮杂氨基酸；β，γ，δ，

氨基酸，和N-取代的氨基酸，如N-取代的甘氨酸，其中N-取代基可以是(例如)取代的或未取代的烷基、芳基、杂芳基、芳烷基或杂芳烷基。在一个实施方案中，N-取代基是来自天然存在的或非天然存在的α-氨基酸的侧链。

结构单元也可以是拟肽结构，如二肽、三肽、四肽或五肽模拟物。这样的拟肽结构单元优选地来源于氨基酰基化合物，使得将这些结构单元添加到正在延长的聚(氨基酰基)上的化学与用于其他结构单元的化学相同或相似。结构单元也可以是能够形成与肽键电子等排的键的分子，以形成包含肽骨架修饰的拟肽功能部分，如ψ[CH₂S]、ψ[CH₂NH]、ψ[CSNH₂]、ψ[NHCO]、ψ[COCH₂]和ψ[(E)或(Z)CH＝CH]。在以上使用的命名中，ψ表示不存在酰胺键。代替酰胺基的结构在括号内指出。

在一个实施方案中，本发明提供一种合成化合物的方法，该化合物包含与编码寡核苷酸有效连接的功能部分或由如此连接的该功能部分组成。该方法包括下列步骤：(1)提供由包含n个结构单元的起始功能部分组成的起始化合物，其中n是1或大于1的整数，其中该起始功能部分含有至少一个反应基团，并且其中该起始功能部分与编码n个结构单元的起始寡核苷酸有效连接；(2)将该起始化合物与包含至少一个互补反应基团的结构单元反应，其中该至少一个互补反应基团与步骤(1)的反应基团互补，反应条件适合所述反应基团与互补反应基团反应形成共价键；(3)将起始寡核苷酸与引入寡核苷酸反应，反应条件适合所述引入寡核苷酸与起始寡核苷酸连接，并存在催化所述起始寡核苷酸与引入寡核苷酸连接的酶，从而产生包含功能部分或由该功能部分组成的分子，该功能部分含有n+1个结构单元，并且与编码寡核苷酸有效连接。如果步骤(3)的功能部分包含反应基团，则步骤1-3可以重复一次或多次，从而形成循环1至i，其中i是2或大于2的整数，循环s-1的步骤(3)的产物成为循环s的步骤(1)的起始化合物，其中s是i或更小的整数。在每个循环中，一个结构单元添加到正在延长的功能部分上，并且编码新结构单元的一个寡核苷酸序列添加到正在延长的编码寡核苷酸上。

在一个实施方案中，通过使第一结构单元与寡核苷酸(例如，包括PCR引物序列或起始寡核苷酸的寡核苷酸)或与连接有这种寡核苷酸的连接体反应而产生最初的起始化合物。在图5所示的实施方案中，连接体包含用于连接第一结构单元的反应基团，并且连接到起始寡核苷酸上。在该实施方案中，结构单元(或在多个等份的每一个中，结构单元集合中的一个)与连接体的反应基团的反应以及向起始寡核苷酸上添加编码结构单元的寡核苷酸产生上述过程的一种或多种最初的起始化合物。

在一个优选实施方案中，每个单个结构单元与不同的寡核苷酸相关联，使得在特定循环中添加的寡核苷酸中的核苷酸序列标识在同一循环中添加的结构单元。

结构单元的偶联和寡核苷酸的连接通常在相似浓度的起始材料和试剂中发生。例如，为了使结构单元有效偶联，优选约为微摩尔至毫摩尔级例如约10μM至约10mM的反应物浓度。

在某些实施方案中，该方法在步骤(2)之后进一步包括清除任何未反应的起始功能部分的步骤。清除特定循环中任何未反应的起始功能部分防止了该循环的起始功能部分与后一循环中添加的结构单元反应。这样的反应可导致产生丢失了一个或多个结构单元的功能部分，可能产生对应于特定寡核苷酸序列的一系列功能部分结构。这种清除可以通过任何剩余的起始功能部分与可与步骤(2)的反应基团反应的化合物进行反应来实现。优选地，清除化合物与步骤(2)的反应基团快速反应，并且不含能够与后一循环中添加的结构单元反应的另外的反应基团。例如，在其中步骤(2)的反应基团是氨基的化合物合成中，适合的清除化合物是N-羟基琥珀酰亚胺酯，如乙酸N-羟基琥珀酰亚胺酯。

在另一实施方案中，本发明提供一种制备化合物文库的方法，其中每个化合物都包含功能部分，该功能部分包含两个或多个结构单元残基，并且与寡核苷酸有效连接。在一个优选实施方案中，每个分子中存在的寡核苷酸提供了足以标识该分子内的结构单元和任选的结构单元添加顺序的信息。在该实施方案中，本发明的方法包括一种合成化合物文库的方法，其中该化合物包含功能部分，该功能部分包括两个或多个结构单元，并且与标识该功能部分结构的寡核苷酸有效连接。该方法包括步骤：(1)提供包含m种起始化合物的溶液，其中m是1或大于1的整数，其中起始化合物由包含n个结构单元的功能部分组成，其中n是1或大于1的整数，该功能部分与标识该n个结构单元的起始寡核苷酸有效连接；(2)将步骤(1)的溶液分配为至少r个部分，其中r是2或大于2的整数；(3)将每个部分与r个结构单元之一反应，从而产生r个部分，该r个部分包含由功能部分组成的化合物，该功能部分包含n+1个结构单元，并且与起始寡核苷酸有效连接；(4)将步骤(3)的r个部分中的每一个与一组r个不同引入寡核苷酸之一反应，反应条件适合所述引入寡核苷酸与起始寡核苷酸发生酶连接，从而产生r个部分，该部分包含由功能部分组成的分子，该功能部分包含n+1个结构单元，并且与编码该n+1个结构单元的延长的寡核苷酸有效连接。任选地，该方法可进一步包括步骤(5)重新组合步骤(4)中产生的r个部分，从而产生包含由功能部分组成的分子的溶液，该功能部分包含n+1个结构单元，并且与编码该n+1个结构单元的延长的寡核苷酸有效连接。步骤(1)至(5)可以进行一次或多次，以产生循环1至i，其中i是2或大于2的整数。在循环s+1中(其中s是i-1或更小的整数)，步骤(1)的含有m种起始化合物的溶液是循环s的步骤(5)的溶液。同样，循环s+1的步骤(1)的起始化合物是循环s的步骤(4)的产物。

优选地，在文库合成的每个循环中将步骤(2)的溶液分成r个部分。在该实施方案中，每个部分与独特结构单元反应。

在本发明的方法中，结构单元和引入寡核苷酸的添加顺序不是关键，分子合成的步骤(2)和(3)，和文库合成中的步骤(3)和(4)可以颠倒，即在添加新结构单元之前，引入寡核苷酸可以与起始寡核苷酸连接。在某些实施方案中，可以同时进行这两个步骤。

在一个实施方案中，通过评价候选结构单元与适当互补官能团在用于合成文库的条件下反应的能力，从一组候选结构单元中选择文库合成中使用的结构单元。然后可以选择在这些条件下显示适当反应性的结构单元，用于引入文库中。任选地可以纯化特定循环的产物。当循环是中间循环，即，最终循环之前的任何循环时，这些产物是中间产物，可以在下一循环开始前纯化。如果该循环是最后一次循环，则该循环的产物是终产物，可以在该化合物的任何应用前纯化。该纯化步骤可以例如除去未反应的或过量的反应物和用于寡核苷酸连接的酶。可以使用适合将产物与溶液中存在的其他物质进行分离的任何方法，包括液相色谱，如高效液相色谱(HPLC)，和用合适的共溶剂如乙醇沉淀。合适的纯化方法依赖于产物的性质和用于合成的溶剂系统。

反应优选地在水溶液如缓冲水溶液中进行，但是也可以在与结构单元、寡核苷酸、中间产物和终产物的溶解性质和用于催化寡核苷酸连接的酶相匹配的混合水/有机介质中进行。

应当理解，上述方法中特定循环产生的化合物的理论数目是该循环中使用的不同起始化合物的数目m与循环中添加的不同结构单元的数目r的积。循环中产生的不同化合物的实际数目可以高达r和m的积(r×m)，但是如果某些结构单元与某些其他结构单元的反应性有差异的话，则可能较低。例如，向特定起始化合物上添加特定结构单元的动力学可能是，在合成循环的时间尺度上，可能产生很少的反应产物，甚至不产生产物。

在某些实施方案中，在循环1之前、最后一次循环之后或任意两次循环之间加入通用结构单元。例如，当功能部分是聚酰胺时，可以在最后一次循环后加入通用N-末端加帽结构单元。也可以在任意两个循环之间引入通用结构单元，例如添加官能团，如炔基或叠氮基，它们可以在文库合成后例如通过环化用来修饰功能部分。

如本文所用的术语“有效连接”是指两个化学结构以一种方式连接在一起，使得它们经受预期的各种操作后仍保持连接。一般来说，功能部分和编码寡核苷酸通过合适的连接基团共价连接。该连接基团是具有寡核苷酸连接部位和功能部分连接部位的二价部分。例如，当功能部分是聚酰胺化合物时，该聚酰胺化合物可以与连接基团在其N-末端、C-末端或通过一个侧链上的官能团连接。该连接基团足以通过至少一个原子，优选一个以上原子，如至少两个、至少三个、至少四个、至少五个或至少六个原子，分隔聚酰胺化合物和寡核苷酸。优选地，该连接基团具有充分的柔性，可使聚酰胺化合物与靶分子以不依赖于该寡核苷酸的方式结合。

在一个实施方案中，连接基团与聚酰胺化合物的N-末端和寡核苷酸的5’-磷酸基连接。例如，连接基团可以来源于在一个末端上含有活化羧基而在另一末端上含有活化酯的连接基团前体。连接基团前体与N-末端氮原子的反应将形成一个酰胺键，将该连接基团与聚酰胺化合物或N-末端结构单元连接在一起，而连接基团前体与寡核苷酸的5’-羟基的反应将导致寡核苷酸与连接基团通过酯键连接。连接基团可包括，例如聚亚甲基链，如-(CH₂)_n-链，或聚(乙二醇)链，如-(CH₂CH₂O)_n链，其中在两种情况中，n都是1至约20的整数。优选地，n为2至约12，更优选约4至约10。在一个实施方案中，连接基团包括环己基(-(CH₂)₆-)。

当结构单元是氨基酸残基时，得到的功能部分是聚酰胺。可以利用用于形成酰胺键的任何合适的化学方法将氨基酸偶联。优选地，氨基酸结构单元的偶联在与寡核苷酸的酶连接相匹配的条件下进行，例如在中性或接近中性的pH和水溶液中进行。在一个实施方案中，聚酰胺化合物以C-末端到N-末端的方向合成。在该实施方案中，第一个或者C-末端的结构单元在其羧基处与寡核苷酸通过合适的连接基团连接。第一个结构单元与第二个结构单元反应，第二个结构单元优选具有活化的羧基和受到保护的氨基。可以使用适合溶液相酰胺键形成的任何活化/保护基团策略。例如，合适的活化羧基类型包括酰氟(美国专利号5,360,928，在此全文引用作为参考)、对称酸酐和N-羟基琥珀酰亚胺酯。如本领域所知，通过与合适的活化化合物反应，酰基也可以在原位活化。合适的活化化合物包括二环己基碳二亚胺(DCC)、二异丙基碳二亚胺(DIC)、1-乙氧羰基-2-乙氧基-1，2-二氢喹啉(EEDQ)、1-乙基-3-(3-二甲基氨丙基)碳二亚胺盐酸盐(EDC)、正丙烷-膦酸酐(PPA)、N，N-二(2-氧-3-噁唑烷基)亚氨基-磷酰氯(BOP-Cl)、溴-三-吡咯烷基磷六氟磷酸(PyBrop)、二苯基磷酰基叠氮化物(DPPA)、Castro′s试剂(BOP，PyBop)、O-苯并三唑基-N，N，N′，N′-四甲基脲盐(HBTU)、二乙基磷酰氰(DEPCN)、2，5-联苯基-2，3-二氢-3-氧-4-羟基-噻吩二氧化物(Steglich′s试剂；HOTDO)、1，1′-羰基-二咪唑(CDI)和4-(4，6-二甲氧基-1，3，5-三嗪-2-基)-4-甲基吗啉氯(DMT-MM)。偶联试剂可以单独使用或者与诸如N，N-二甲基-4-氨基吡啶(DMAP)、N-羟基-苯并三唑(HOBt)、N-羟基苯并三嗪(HOOBt)、N-羟基琥珀酰亚胺(HOSu)、N-羟基氮杂苯并三唑(HOAt)、氮杂苯并三唑基-四甲基脲盐(HATU，HAPyU)或2-羟基吡啶等添加剂组合使用。在某些实施方案中，文库的合成需要使用两个或多个活化策略，以能够使用结构上多样化的一组结构单元。对于每个结构单元，本领域技术人员能够确定合适的活化策略。

N末端保护基可以是与该方法的条件相匹配的任何保护基，例如，适合溶液相合成条件的保护基。一种优选的保护基是芴甲氧羰基(“Fmoc”)。氨酰基结构单元侧链上的任何潜在反应性官能团也可能需要适当保护。优选地，侧链保护基与N末端保护基正交，即，在不同于除去N末端保护基所需条件的条件下除去该侧链保护基。合适的侧链保护基包括硝基藜芦基，它可以用来既保护侧链羧基又保护侧链氨基。另外一种合适的侧链胺保护基是N-戊-4-烯酰基。

结构单元可以在掺入功能部分后修饰，例如，通过涉及一个或多个结构单元上的官能团的适当反应进行。结构单元修饰可以在添加最后一个结构单元后发生，或者在功能部分合成的任一中间点发生，例如，在合成过程的任一循环后发生。当合成本发明的双功能分子文库时，可以对整个文库或文库的一部分进行结构单元修饰，从而提高文库的复杂程度。合适的结构单元修饰反应包括可以在与功能部分和编码寡核苷酸相匹配的条件下进行的那些反应。这样的反应的例子包括氨基或羟基的酰化和磺化、氨基的烷基化、羧基的酯化或硫酯化、羧基的酰胺化、烯的环氧化和本领域公知的其他反应。当功能部分包括含有炔或叠氮官能团的结构单元时，可以利用叠氮/炔的环加成反应衍生化该结构单元。例如，包含炔的结构单元可与有机叠氮化物反应，或者包含叠氮的结构单元可与炔反应，在任一种情况下都形成三唑。结构单元修饰反应可以在添加最后一个结构单元后发生，或者在合成过程的中间点处发生，并且能够用来向功能部分上添加多种化学结构，包括碳水化合物、金属结合部分和用于靶向某些生物分子或组织类型的结构。

在另一个实施方案中，功能部分包含一系列直链结构单元，该直链系列利用适当的反应环化。例如，如果直链排列的至少两个结构单元包括巯基，则可以将巯基氧化形成二硫键，从而环化该直链系列。例如，功能部分可以是包含两个或多个L或D-半胱氨酸和/或L或D-高半胱氨酸部分的寡肽。结构单元也可以包含能够一起反应环化直链系列的其他官能团，如羧基和氨基或羟基。

在一个优选实施方案中，直链系列中的一个结构单元包含炔基，而直键系列中的另一个结构单元包含叠氮基。可以诱导叠氮基和炔基通过环加成作用反应，导致形成大环结构。在图9所示的实施例中，功能部分是在C末端包含炔丙基甘氨酸结构单元而在N末端包含叠氮基乙酰基的多肽。炔基与叠氮基在适当条件下的反应导致环状化合物的形成，该化合物包括大环内的三唑结构。对于文库的情况，在一个实施方案中，文库的每个成员都包含含炔和叠氮基的结构单元，并且可以以这种方式环化。在第二个实施方案中，文库的所有成员都包含含炔和叠氮基的结构单元，但是只有文库的一部分环化。在第三个实施方案中，只有某些功能部分包含含炔和叠氮基的结构单元，并且只有这些分子环化。在上述第二个和第三个实施方案中，该文库在环加成反应后既包含环状功能部分也包含直链功能部分。

在其中在特定合成步骤过程中向文库的每个和全部部分中添加相同的功能部分例如三嗪的一些实施方案中，可能不必添加编码该功能部分的寡核苷酸标签。

寡核苷酸可以通过化学或酶法连接。在一个实施方案中，寡核苷酸可以通过化学方法连接。DNA和RNA的化学连接可以如Shabarova等人(1991)Nucleic Acids Research，19，4247-4251，Federova等人(1996)Nucleosides and Nucleotides，15，1137-1147，和Carriero和Damha(2003)Journal of Organic Chemistry，68，8328-8338所教导的使用诸如水溶性碳二亚胺和溴化氰的试剂进行。在一个实施方案中，使用比例为1∶10v/v的乙腈中的5M溴化氰和pH 7.6缓冲液(1M MES+20mM MgCl₂)中的5’磷酸化寡核苷酸，在0℃下进行化学连接1-5分钟。在另一实施方案中，寡核苷酸使用酶法连接。在任一实施方案中，寡核苷酸都可以是双链的，优选地具有约5个到约14个碱基的突出端。寡核苷酸也可以是单链的，在该情况中，用与将要连接的每一寡核苷酸有大约6个碱基重叠的夹板(splint)彼此靠近地定位反应性5’和3’部分。

在一个实施方案中，起始结构单元与起始寡核苷酸有效连接。在第二结构单元与起始结构单元偶联之前或之后，标识第二结构单元的第二寡核苷酸序列与起始寡核苷酸连接。用于连接起始寡核苷酸序列和引入寡核苷酸序列的方法在图1和图2中描述。在图1中，起始寡核苷酸是双链，一条链包含与第二寡核苷酸的一个末端互补的突出端序列，并且使第二寡核苷酸接触起始寡核苷酸。优选地，起始寡核苷酸的突出序列和第二寡核苷酸的互补序列都为至少约4个碱基；更优选地两个序列长度相同。可以用合适的酶将起始寡核苷酸和第二寡核苷酸连接起来。如果起始寡核苷酸在一条链(“顶链”)的5’末端与第一结构单元连接，则与该顶链互补的链(“底链”)将在其5’末端包含突出端序列，第二寡核苷酸将在其5’末端包含互补序列。在第二寡核苷酸连接后，可以添加与第二寡核苷酸的序列互补的一条链，其位于突出端互补序列的3’方向，并且包含另外的突出端序列。

在一个实施方案中，寡核苷酸如图2所示延长。定位与正在延长的功能部分结合的寡核苷酸和引入寡核苷酸，用于利用“夹板”序列连接，该序列包括与起始寡核苷酸的3’末端互补的区域和与引入寡核苷酸的5’末端互补的区域。夹板使寡核苷酸的5’末端靠近引入寡核苷酸的3’末端，并且利用酶连接完成连接。在图2所示的实施例中，起始寡核苷酸由16个核碱基组成，夹板与3’末端的6个碱基互补。引入寡核苷酸由12个核碱基组成，夹板与5’末端的6个碱基互补。夹板的长度和互补区的长度不是关键的。但是，互补区应当足够长，以便在连接条件下能够形成稳定的二聚体，而不是在终分子中产生过大的编码核苷酸。互补区的长度优选为约4个碱基至约12个碱基，更优选约5个碱基至约10个碱基，最优选约5个碱基至约8个碱基。

用于本文所述的文库合成方法的分离-组合法确保每个独特的功能部分与至少一个标识该功能部分的独特的寡核苷酸序列有效连接。如果在至少一个合成循环中至少一个结构单元使用2种或多种不同的寡核苷酸标签，则包含该结构单元的每个不同的功能部分将由多种寡核苷酸编码。例如，如果在合成4循环文库过程中每个结构单元使用2种寡核苷酸标签，则将有16种DNA序列(2⁴)编码每个独特功能部分。用多种序列编码每个独特功能部分具有几个潜在的优点。首先，编码相同功能部分的标签序列的不同组合的选择确保这些分子被独立地选择。其次，编码相同功能部分的标签序列的不同组合的选择消除了该选择基于寡核苷酸序列的可能性。第三，如果序列分析提示特定功能部分高度富集，但是在多种可能性中只出现一种序列组合，则可以认为是技术上的人工产物。多重标记可以通过使独立的分反应具有相同的结构单元但是不同的寡核苷酸标签来实现。或者，多重标记可以通过在一个标记反应中混合适当比例的每种标签和各个结构单元来实现。

在一个实施方案中，起始寡核苷酸是双链，且两条链共价连接。共价连接两条链的一种手段如图3所示，其中利用连接部分例如连接体连接两条链和功能部分。该连接部分可以是任何化学结构，其包含适合与结构单元反应的第一官能团，适合与寡核苷酸的3’-末端反应的第二官能团，和适合与寡核苷酸的5’-末端反应的第三官能团。优选地，第二和第三官能团的定向使两条寡核苷酸链为相对的方向，这可使两条链杂交。例如，连接部分例如连接体可以具有通式结构(I)：

其中A是能够与结构单元形成共价键的官能团，B是能够与寡核苷酸的5’-末端形成键的官能团，C是能够与寡核苷酸的3’-末端形成键的官能团。D、F和E是将官能团A、C和B与S连接的化学基团，S为核心原子或支架。优选地，D、E和F各自独立地为原子链，如亚烷基链或低聚(乙二醇)链，D、E和F可以相同或不同，并且优选地有效地使两个寡核苷酸杂交及功能部分合成。在一个实施方案中，三价连接部分是具有以下结构的连接体

在该实施方案中，NH基可用于连接结构单元，而末端磷酸基可用于连接寡核苷酸。

在起始寡核苷酸是双链的实施方案中，引入寡核苷酸也是双链。如图3所示，起始寡核苷酸的一条链可以比另一条长，提供突出端序列。在该实施方案中，引入寡核苷酸包括与起始寡核苷酸的突出端序列互补的突出端序列。两个互补突出端序列的杂交使引入寡核苷酸进入与起始寡核苷酸连接的位置。这种连接可以用DNA或RNA连接酶酶促进行。引入寡核苷酸和起始寡核苷酸的突出端序列优选地长度相同，并且由两个或多个核苷酸、优选地2个至约10个核苷酸、更优选2个至约6个核苷酸组成。在一个优选的实施方案中，引入寡核苷酸是在每一末端都有一个突出端序列的双链寡核苷酸。在一个末端处的突出端序列与起始寡核苷酸的突出端序列互补，而在引入寡核苷酸与起始寡核苷酸连接后，在另一末端处的突出端序列成为下一循环的起始寡核苷酸的突出端序列。在一个实施方案中，三个突出端序列长度均为2至6个核苷酸，引入寡核苷酸的编码序列长度为3至10个核苷酸，优选3至6个核苷酸。在一个特定实施方案中，突出端序列的长度均为2个核苷酸，编码序列的长度为5个核苷酸。

在图4所示的实施方案中，引入链在其3’末端具有与起始寡核苷酸的3’末端互补的区域，在两条链的5’末端留有突出端。5’末端可以利用(如)DNA聚合酶如vent聚合酶补平，产生双链的延长寡核苷酸。可以除去该寡核苷酸的底链，并利用相同的方法向顶链的3’末端添加另外的序列。

连续添加标识每个连续结构单元的寡核苷酸导致形成编码寡核苷酸标签。在本发明方法的一个实施方案中，连续寡核苷酸标签可以通过酶连接偶联，产生编码寡核苷酸。

酶催化的寡核苷酸连接可以用具有连接核酸片段能力的任何酶进行。酶的例子包括连接酶、聚合酶和拓扑异构酶。在本发明的特定实施方案中，应用DNA连接酶(EC 6.5.1.1)、DNA聚合酶(EC 2.7.7.7)、RNA聚合酶(EC 2.7.7.6)或拓扑异构酶(EC 5.99.1.2)连接寡核苷酸。每个EC类别中所含的酶可见于如Bairoch(2000)Nucleic Acids Research 28：304-5所述。

在一个优选实施方案中，在本发明方法中使用的寡核苷酸是寡脱氧核苷酸，用来催化寡核苷酸连接的酶是DNA连接酶。为了在连接酶存在下发生连接，即为了在两个寡核苷酸之间形成磷酸二酯键，一个寡核苷酸必须具有游离的5’磷酸基，而另一个寡核苷酸必须具有游离的3’羟基。可以在本发明的方法中使用的DNA连接酶的例子包括T4DNA连接酶、Taq DNA连接酶、T₄RNA连接酶、DNA连接酶(大肠杆菌)(均获自如New England Biolabs，MA)。

本领域技术人员应当理解，用于连接的各种酶在特定条件如温度、缓冲液浓度、pH和时间下具有最佳活性。这些条件中的每一个都可以调节，例如根据制造商说明进行调节，以获得寡核苷酸标签的最佳连接。

引入寡核苷酸可以是任何需要的长度，但优选长度为至少三个核碱基。更优选地，引入寡核苷酸的长度为4个或更多的核碱基。在一个实施方案中，引入寡核苷酸的长度为3至约12个核碱基。本发明文库中的分子的寡核苷酸优选具有共同的末端序列，如本领域所知，该序列可以用作PCR的引物。这种共同末端序列可以在文库合成的最后一个循环中引入作为引入寡核苷酸的末端，或者可以在文库合成后添加，例如利用本文公开的酶连接方法添加。

本发明方法的一个优选实施方案如图5所示。该过程开始于在5’末端与连接体连接的合成DNA序列，该连接体终止于氨基。在步骤1中，在Tris缓冲液中在夹板DNA链、DNA连接酶和二硫苏糖醇的存在下，该起始DNA序列与引入DNA序列连接。产生标记DNA序列，该序列然后可以直接用于下一步骤中，或者在进行下一步骤之前例如利用HPLC或乙醇沉淀纯化。在步骤2中，标记DNA与被保护的活化氨基酸反应，在该实施例中，与Fmoc-保护的氨基酸氟化物反应，产生被保护的氨基酸-DNA偶联物。在步骤3中，例如在哌啶的存在下将被保护的氨基酸-DNA偶联物脱保护，任选地例如通过HPLC或乙醇沉淀纯化产生的脱保护的偶联物。脱保护的偶联物是第一合成循环的产物，并且成为第二循环的起始材料，第二循环向脱保护偶联物的游离氨基上添加第二氨基酸残基。

在利用PCR扩增和/或测序所选分子的编码寡核苷酸的实施方案中，该编码寡核苷酸可以包括例如PCR引物序列和/或测序引物(例如引物，例如3’-GACTACCGCGCTCCCTCCG-5’和3’-GACTCGCCCGACCGTTCCG-5’)。例如，在合成的第一循环之前，PCR引物序列可以包含在起始寡核苷酸中，和/或可以与第一引入寡核苷酸一起包含，和/或可以在文库合成的最后一个循环后与编码寡核苷酸连接，和/或可以包含在最后一个循环的引入寡核苷酸中。在文库合成最后一个循环后和/或在引入寡核苷酸中添加的PCR引物序列在本文中称为“加帽序列”。

在一个实施方案中，PCR引物序列设计为编码寡核苷酸标签。例如，PCR引物序列可以引入起始寡核苷酸标签中，和/或可以引入最终寡核苷酸标签中。在一个实施方案中，将相同的PCR引物序列引入起始和最终寡核苷酸标签中。在另一个实施方案中，将第一PCR引物序列引入起始寡核苷酸标签中，将第二PCR引物序列引入最终寡核苷酸标签中。或者，第二PCR引物序列可以引入如本文所述的加帽序列中。在优选实施方案中，PCR引物序列的长度至少约为5、7、10、13、15、17、20、22或25个核苷酸。

适合在本发明的文库中使用的PCR引物序列在本领域中公知；合适的引物和方法例如描述在Innis等人，编，PCR Protocols：A Guide toMethods and Applications，San Diego：Academic Press(1990)中，其内容在此全文引用作为参考。用于构建本文所述文库的其他合适的引物是PCT公布WO 2004/069849和WO 2005/003375所述的引物，其完整内容引入本文作为参考。

如本文所用的术语“多核苷酸”用于引物、探针和将要通过引物延伸合成的核酸片段或区段时，定义为由两个或多个、优选三个以上脱氧核糖核苷酸组成的分子。

如本文所用的术语“引物”是指从核酸限制性消化物中纯化的或合成产生的多核苷酸，当置于诱导合成与核酸链互补的引物延伸产物的条件下时，即在核苷酸和聚合试剂如DNA聚合酶、逆转录酶等的存在下，以及在合适的温度和pH下，它能够作为核酸合成的起点。为了效率最高，引物优选是单链，但是也可以是双链形式。如果是双链，则在用来制备延伸产物之前首先处理该引物，使它与互补链分开。优选地，引物是一种聚脱氧核糖核苷酸。引物必须足够长，以在聚合试剂存在下引发延伸产物的合成。引物的确切长度取决于许多因素，包括温度和引物来源。

本文所用的引物选择为与所要扩增的每个特定序列的不同链“基本”互补。意思是引物必须充分互补，以便与相应的模板链非随机地杂交。因此，引物序列可能反映或者可能不反映模板的准确序列。

多核苷酸引物可以用任何合适的方法制备，例如Narang等人，(1979)Meth.Enzymol.，68：90；美国专利号4,356,270，美国专利号4,458,066，美国专利号4,416,988，美国专利号4,293,652；和Brown等人，(1979)Meth.Enzymol.，68：109所述的磷酸三酯或磷酸二酯法。上述所有文献的内容在此引用作为参考。

在引入寡核苷酸包含PCR引物序列的情况中，这些引入寡核苷酸优选地明显长于在其他循环中添加的引入寡核苷酸，因为它们既包含编码序列也包含PCR引物序列。

在一个实施方案中，在添加最后的结构单元和最后的引入寡核苷酸后添加加帽序列，如本文所述的文库的合成包括将加帽序列与编码寡核苷酸连接的步骤，使得基本所有文库成员的寡核苷酸部分终止于包含PCR引物序列的序列中。优选地，通过与作为最后合成循环的产物的组合组分连接，添加该加帽序列。加帽序列可以用文库构建中使用的酶法添加。

在一个实施方案中，相同的加帽序列连接到文库的每个成员上。在另一实施方案中，使用多个加帽序列。在该实施方案中，含有可变碱基的寡核苷酸加帽序列例如在最后的合成循环后连接到文库成员上。在一个实施方案中，在最后的合成循环后，合并部分，然后再次分成部分，每一部分添加不同的加帽序列。或者，可以在最后的合成循环后向合并的文库中添加多种加帽序列。在这两个实施方案中，最终的文库成员包括含有连接到标识寡核苷酸(包括两种或多种不同的加帽序列)上的特定功能部分的分子。

在一个实施方案中，加帽引物包含含有可变(即简并)核苷酸的寡核苷酸序列。加帽引物内的这些简并碱基允许通过确定结构单元组合是PCR复制的结果(相同序列)还是独立出现的分子(不同序列)来标识目标文库分子。例如，这些简并碱基可以减少在生物学筛查编码文库过程中鉴定的潜在的假阳性数。

在一个实施方案中，简并加帽引物包含或者具有以下序列：

5’-CAGCGTTCGA-3’

其中N可以是4种碱基中的任意一种，允许1024种不同的序列(4⁵)。在连接到文库和引物延伸后，引物具有以下序列：

5’-CAGCGTTCGAN’N’N’N’N’CAGACAAGCTTCACCTGC-3’

3’-AAGTCGCAAGCTNNNNNGTCTGTTCGAAGTGGACG-5’

在另一实施方案中，加帽引物包含或者具有以下序列：

其中B可以是C、G或T中的任一种，允许19683种不同序列(3⁹)。该引物中的简并区的设计改善了DNA序列分析，因为在简并B碱基侧翼并打断B碱基的A碱基阻止超过3个碱基的均聚延伸，并且有利于序列比对。

在一个实施方案中，使用合适的酶将简并加帽寡核苷酸连接到文库成员上，随后使用合适的酶如DNA聚合酶聚合简并加帽寡核苷酸的上链。

在另一个实施方案中，PCR引物序列是“通用衔接子”或“通用引物”。本文使用的“通用衔接子”或“通用引物”是含有独特PCR引发区的寡核苷酸，例如，其长度大约为5、7、10、13、15、17、20、22或25个核苷酸，并且位于独特测序引发区的附近，例如，该测序引发区的长度大约为5、7、10、13、15、17、20、22或25个核苷酸，任选地随后是由4种脱氧核糖核苷酸(即A、C、G、T)中的至少一种组成的独特识别关键序列(或样品标识序列)。

本文使用的术语“识别关键序列”或“样品标识序列”是指可以用来从样品中独特标记分子群体的序列。多种样品(每种含有独特的样品标识序列)可以混合，测序，并在DNA测序后重新分选，用于分析单独的样品。对整个文库可以使用相同的识别序列，或者，可以利用不同的识别关键序列追踪不同的文库。在一个实施方案中，识别关键序列在5’PCR引物上、3’PCR引物上或这两种引物上。如果两种PCR引物都含有样品标识序列，则可以用独特样品标识序列合并的不同样品数是每种引物上样品标识序列数的积。因此，10种不同的5’样品标识序列引物可以与10种不同的3’样品标识序列引物组合，产生100种不同的样品标识序列组合。

含有识别关键序列的5’和3’独特PCR引物的非限制性实例包括以下：

5’引物(可变位点用粗体和斜体标出)

5’A-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG；

5’C-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG；

5’G-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG；

5’T-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG；

5’AA-GCCTTGCCAGCCCGCTCAGTGACTCCCAAATCGATGTG；

5’AC-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG；

5’AG-GCCTTGCCAGCCCGCTCAGTGACTCCCAAATCGATGTG；

5’AT-GCCTTGCCAGCCCGCTCAGTGACTCCCAAATCGATGTG；和

5’CA-GCCTTGCCAGCCCGCTCAG

TGACTCCCAAATCGATGTG。

3’SID引物(可变位点用粗体和斜体标出)

3’A-GCCTCCCTCGCGCCATCAGGCAGGTGAAGCTTGTCTG；

3’C-GCCTCCCTCGCGCCATCAG

GCAGGTGAAGCTTGTCTG；

3’G-GCCTCCCTCGCGCCATCAGGCAGGTGAAGCTTGTCTG；

3’T-GCCTCCCTCGCGCCATCAG

GCAGGTGAAGCTTGTCTG；

3’AA-GCCTCCCTCGCGCCATCAG

GCAGGTGAAGCTTGTCTG；

3’AC-GCCTCCCTCGCGCCATCAGGCAGGTGAAGCTTGTCTG；

3’AG-GCCTCCCTCGCGCCATCAG

GCAGGTGAAGCTTGTCTG；

3’AT-GCCTCCCTCGCGCCATCAG

GCAGGTGAAGCTTGTCTG；和

3’CA-GCCTCCCTCGCGCCATCAGGCAGGTGAAGCTTGTCTG

在一个实施方案中，识别关键序列的长度为大约4、5、6、7、8、9或10个核苷酸。在另一个实施方案中，识别关键序列是大约1-4个核苷酸的组合。在另一个实施方案中，每个通用衔接子的长度大约为44个核苷酸。在一个实施方案中，使用T4DNA连接酶将通用衔接子连接到编码寡核苷酸的末端上。可以为每个文库制品具体设计不同的通用衔接子，因此为每个文库提供独特的标识。本领域技术人员在认为必要时可以改变通用衔接子的大小和序列。

如上所述，作为本发明方法一部分的寡核苷酸标签的核苷酸序列可以用聚合酶链反应(PCR)确定。

寡核苷酸标签由标识构成如本文所述功能部分的结构单元的多核苷酸组成。寡核苷酸标签的核酸序列通过如下所述对寡核苷酸标签进行PCR反应来测定。适当样品与PCR引物对接触，该引物对的每个成员具有预先选择的核苷酸序列。该PCR引物对通过与编码寡核苷酸标签上的PCR引物结合部位杂交，能够启动引物延伸反应。该PCR引物结合部位优选地设计在编码寡核苷酸标签内部。例如，PCR引物结合部位可以掺入起始寡核苷酸标签内，而第二PCR引物结合部位可以位于最终寡核苷酸标签内。或者，第二PCR引物结合部位可以掺入如本文所述的加帽序列中。在优选实施方案中，该PCR引物结合部位的长度至少为约5、7、10、13、15、17、20、22或25个核苷酸。

通过将PCR引物对(优选预定量的该引物对)与编码寡核苷酸标签的核酸(优选预定量的该核酸)在PCR缓冲液中混合形成PCR反应混合物，进行PCR反应。将该混合物热循环一定的循环数，该循环数一般预先确定，足以形成PCR反应产物。足够量的产物是能够以足以进行DNA序列测定的量分离的产物。

PCR一般通过热循环进行，即在一个温度范围内重复地提高和降低PCR反应混合物的温度，该范围的下限为约30℃至约55℃，上限为约90℃至约100℃。提高和降低可以是连续的，但优选是阶段的，在有利于多核苷酸合成、变性和杂交的各个温度下保持相对温度稳定的时间段。

PCR反应用任何适当的方法进行。通常在缓冲的水溶液即PCR缓冲液中进行，优选为pH 7-9。优选含有摩尔过量的引物。为了提高该方法的效率，优选较大的摩尔过量。

PCR缓冲液还含有脱氧核糖核苷酸三磷酸(多核苷酸合成底物)dATP、dCTP、dGTP和dTTP，和聚合酶，一般是热稳定的聚合酶，都是足以进行引物延伸(多核苷酸合成)反应的量。得到的溶液(PCR混合物)加热至约90℃-100℃约1-10分钟，优选1-4分钟。该加热阶段之后将溶液冷却至54℃，该温度是引物杂交优选的。合成反应可以在一定温度下发生，该温度的范围从室温到高于该温度聚合酶(诱导剂)即不再有效作用的温度。因此，例如，如果使用DNA聚合酶，则温度通常不高于约40℃。重复该热循环，直到产生所需量的PCR产物。一种典型的PCR缓冲液每100微升缓冲液含有下列试剂：50mM KCl；10mMTris-HCl pH 8.3；1.5mM MgCl₂；0.001％(wt/vol)明胶，200μM dATP；200μM dTTP；200μM dCTP；200μM dGTP；和2.5单位栖热水生菌(Thermus aquaticus)(Taq)DNA聚合酶I。

用于延伸引物序列的合适的酶包括例如大肠杆菌DNA聚合酶I、Taq DNA聚合酶、大肠杆菌DNA聚合酶I的Klenow片段、T4DNA聚合酶、其他可以使用的DNA聚合酶、逆转录酶，和其他酶，包括热稳定的酶，其有利于以适当的方式组合核苷酸，形成与每条核酸链互补的引物延伸产物。合成通常开始于每个引物的3′末端，并沿着模板链以5′方向前进，直到合成终止，产生不同长度的分子。

新合成的DNA链与其互补链形成双链分子，该双链分子可以在分析方法的后续步骤中使用。

PCR扩增方法在美国专利号4,683,192、4,683,202、4,800,159和4,965,188中详细描述，并且至少在PCR Technology：Principles andApplications for DNA Amplification，H.Erlich，ed.，Stockton Press，NewYork(1989)；和PCR Protocols：A Guide to Methods and Applications，Innis等人，编，Academic Press，San Diego，Calif.(1990)中详细描述。上述所有文献的内容在此引用作为参考。

一旦扩增出编码寡核苷酸标签，即可应用核酸序列分析确定该标签的序列，并最终确定选择的分子的组成，核酸序列分析是用于测定核苷酸序列的众所周知的方法。核酸序列分析通过以下方法的组合进行：(a)基于探针链与其互补靶标杂交或变性的理化技术，和(b)与聚合酶的酶反应。

本发明进一步涉及可以用本发明的方法制备的化合物，和这样的化合物的集合，它们作为分离的物质或组合形成化学结构文库。本发明的化合物包括下式的化合物：

其中X是包含一个或多个结构单元的功能部分，Z是在其3’末端与B连接的寡核苷酸，Y是在其5’末端与C连接的寡核苷酸。A是与X形成共价键的官能团，B是与Z的3’-末端形成键的官能团，C是与Y的5’-末端形成键的官能团。D、F和E是将官能团A、C和B与S连接的化学基团，S是核心原子或支架。优选地，D、E和F各自独立地是原子链，如亚烷基链或低聚(乙二醇)链，D、E和F可以相同或不同，优选地有效地使两个寡核苷酸杂交以及功能部分合成。

优选地，Y和Z基本互补，并且在化合物中定向，从而能够在合适条件下发生Watson-Crick碱基配对和双链体形成。Y和Z的长度相同或不同。优选地，Y和Z的长度相同，或者Y和Z之一比另一个长1至10个碱基。在一个优选实施方案中，Y和Z各自为10个或更多碱基的长度，并且具有10个或更多个碱基对的互补区。更优选地，Y和Z在其全长上基本互补，即它们每十个碱基对的错配不超过1个。最优选地，Y和Z在其全长上互补，即，除了Y或Z上的任何突出端区域之外，这些链通过Watson-Crick碱基配对杂交，在它们的全长上没有错配。

S可以是单一原子或分子支架。例如，S可以是碳原子、硼原子、氮原子或磷原子，或多原子支架，如磷酸基或环基，如环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。在一个实施方案中，连接体是如下结构的基团：

其中n、m和p各自独立地是1至约20的整数，优选2至8，更优选3至6。在一个特定实施方案中，连接体具有以下所示的结构。

在一个实施方案中，本发明的文库包括由功能部分组成的分子，该功能部分由结构单元组成，其中每个功能部分都与编码寡核苷酸有效连接。编码寡核苷酸的核苷酸序列指示功能部分中存在的结构单元，在一些实施方案中，指示结构单元的连接性或排列。本发明具有以下优点，用来构建功能部分及用来构建寡核苷酸标签的方法可以在相同的反应介质中、优选地在水性介质中进行，从而与现有技术的方法相比简化了制备文库的方法。在寡核苷酸连接步骤和结构单元添加步骤都可以在水性介质中进行的某些实施方案中，每个反应都具有不同的最适pH。在这些实施方案中，结构单元添加反应可以在合适的含水缓冲液中在合适的pH和温度下进行。然后缓冲液可以用提供适于寡核苷酸连接之pH的含水缓冲液替换。

在另一个实施方案中，本发明提供式II的化合物和含有这些化合物的文库

Z-L-A_t-X(Y)_n (II)

其中X是分子支架，每个Y独立地是周围部分，n是1-6的整数。每个A独立地是结构单元，n是0至约5的整数。L是连接部分，Z是标识结构-A_t-X(Y)_n的单链或双链寡核苷酸。结构X(Y)_n可以是例如表8所示的一种支架结构(见下文)。在一个实施方案中，本发明提供式III的化合物和含有这些化合物的文库：

其中t是0至大约5的整数，优选0-3的整数，A独立地是结构单元。L是连接部分，Z是标识每个A和R₁、R₂、R₃和R₄的单链或双链寡核苷酸。R₁、R₂、R₃和R₄各自独立地是取代基。选自氢、烷基、取代的烷基、杂烷基、取代的杂烷基、环烷基、杂环烷基、取代的环烷基、取代的杂环烷基、芳基、取代的芳基、芳烷基、杂芳烷基、取代的芳烷基、取代的杂芳烷基、杂芳基、取代的杂芳基、烷氧基、芳氧基、氨基和取代的氨基。在一个实施方案中，每个A是氨基酸残基。

包含式II或式III的化合物的文库可以包含至少约100、1000、10,000、100,000、1,000,000或10,000,000种式II或式III的化合物。在一个实施方案中，通过设计用于产生至少含有约100、1000、10,000、100,000、1,000,000或10,000,000种式II或式III的化合物的文库的方法制备文库。

本发明的方法的一个优点是它们能够用来制备含有大量化合物的文库。利用公知方法如聚合酶链反应(“PCR”)扩增编码寡核苷酸序列的能力意味着，即使回收的拷贝较少，也能够鉴定选择的分子。这允许实际应用极大的文库，其由于高度复杂性，要么包含相对较少拷贝的任何特定文库成员，要么需要使用极大的体积。例如，由10⁸个独特结构组成的文库(其中每个结构具有1×10¹²个拷贝(约1皮摩尔))需要约100L的1μM有效浓度的溶液。对于相同的文库，如果每个成员有1,000,000个拷贝，则在1μM有效浓度下需要的体积为100μL。

在一个优选实施方案中，文库包含约10³至约10¹⁵个拷贝的每个文库成员。假定文库成员之间的合成效率有差异，则不同文库成员在任何特定文库中可能具有不同的拷贝数。因此，尽管文库中理论存在的每个成员的拷贝数可能相同，但是任何特定文库成员的实际拷贝数与任何其他成员的拷贝数无关。更优选地，本发明的化合物文库包括至少约10⁵、10⁶或10⁷个拷贝的每个文库成员，或基本上所有文库成员。“基本上所有”文库成员含意是至少约85％的文库成员，优选至少约90％，更优选至少约95％的文库成员。

优选地，文库包含足够拷贝数的每个成员，可对生物靶标进行多轮(即两轮或两轮以上)选择，在最后一轮选择后剩余足够数量的结合分子，使剩余的分子的寡核苷酸标签能够扩增，因此能够标识结合分子的功能部分。这种选择方法的示意图在图6中显示，其中1和2代表文库成员，B是靶分子，X是与B有效连接的部分，使得能够从选择介质中除去B。在该实例中，化合物1与B结合，而化合物2不与B结合。如第1轮所示，该选择过程包括(I)在适合化合物1与B结合的条件下使包含化合物1和2的文库接触B-X；(II)除去未结合的化合物2，(III)从B上解离化合物1，并从反应介质中除去BX。第1轮的结果是相对于化合物2富含化合物1的分子集合。后续使用步骤I-III的几轮导致化合物1相对于化合物2的进一步富集。尽管图6显示了3轮选择，但是实际上可以使用任何轮数，例如1至10轮，以实现所需的结合分子相对于非结合分子的富集。

在图6所示的实施方案中，在任何选择轮数之后剩余的化合物没有扩增(更多拷贝的合成)。这样的扩增可以产生与选择后剩余的化合物的相对量不一致的化合物的混合物。这种不一致是由于这一事实，即某些化合物可能比其他化合物更容易合成，因此可能在选择后以与其存在不成比例的方式扩增。例如，如果化合物2比化合物1更容易合成，则第2轮后剩余的分子的扩增将导致化合物2相对于化合物1的不成比例扩增，获得的化合物的混合物具有更低的(如果有的话)化合物1相对于化合物2的富集。

在一个实施方案中，利用任何公知的固定技术将靶标固定在固体支持体上。该固体支持体可以是，例如层析柱或膜中所含的水不溶性基质。编码文库可以加到层析柱中所含的水不溶性基质上。然后洗柱，除去非特异性结合物。然后通过改变pH、盐浓度、有机溶剂浓度或其他方法，如与已知配体竞争靶标，使与靶标结合的化合物解离。

在另外一个实施方案中，靶标在溶液中游离，并与编码文库温育。通过大小分离步骤，如凝胶过滤或超滤，选择性分离与靶标(在此也称作“配体”)结合的化合物。在一个实施方案中，编码化合物与靶生物分子的混合物通过大小排阻层析柱(凝胶过滤)，从未结合的化合物中分离任何配体-靶标复合物。将该配体-靶标复合物转移到反相层析柱上，将配体与靶标解离。解离的配体然后通过PCR扩增和编码寡核苷酸的序列分析进行分析。在靶标的固定可导致活性丧失的情况下，该方法特别有利。

在本发明的一些实施方案中，选择方法可以包括在测序之前扩增可与靶标结合的化合物文库的至少一个成员的编码寡核苷酸。

在一个实施方案中，包含编码寡核苷酸的化合物文库在序列分析之前扩增，以使选择的文库混合物中存在的DNA分子群体分布中的任何潜在不对称(skew)最小化。例如，在选择步骤后只回收少量文库，一般在序列分析之前利用PCR扩增。PCR具有产生在选择的文库混合物中存在的DNA分子群体分布不对称的潜力。当输入分子数较少而输入分子是较差的PCR模板时这尤其是一个问题。早期循环产生的PCR产物是比共价双链体文库更有效的模板，因此这些分子在最终扩增的群体中的频率可能远高于在原始输入模板中的频率。

因此，为了使这种潜在的PCR不对称最小化，在本发明的一个实施方案中，例如在一个反应中利用一种引物产生对应于各个文库成员的单链寡核苷酸群体，然后使用两种引物进行PCR扩增。这样，在使用PCR进行指数扩增之前，单链引物延伸产物线性积累，积累的引物延伸产物中的分子的多样性和分布更精确地反映了原始输入模板中存在的分子的多样性和分布，因为指数扩增阶段只在引物延伸反应过程中产生的分子群体中代表存在的多数原始分子多样性之后才发生。

一旦通过上述方法鉴定了单一配体，即可以应用各种水平的分析获得结构-活性关系的信息，并指导配体的亲和力、特异性和生物活性的进一步优化。对于来源于同一支架的配体，可以利用三维分子模建鉴定这些配体共同的显著结构特征，从而产生可能在靶生物分子上共同部位结合的小分子配体家族。

可以应用多种筛选方法获得对一个靶标具有高亲和力而对于另一个密切相关的靶标具有显著较弱亲和力的配体。一种筛选策略是在平行实验中鉴定这两个生物分子的配体，接着通过交叉参考对比排除共同的配体。在该方法中，每个生物分子的配体都可以如以上所述单独鉴定。该方法既适合于固定的靶生物分子也适合于在溶液中游离的靶生物分子。

对于固定的靶生物分子，另外一种策略是增加一个从文库中排除与非靶生物分子结合的所有配体的预选步骤。例如，第一生物分子可以如上所述与文库接触。然后从形成的任何第一生物分子-配体复合物中分离不与第一生物分子结合的化合物。然后第二生物分子接触不与第一生物分子结合的化合物。与第二生物分子结合的化合物可以如上所述鉴定，它们对于第二生物分子比对于第一生物分子具有显著较高的亲和力。

也可以使用通过上述方法鉴定的具有未知功能的生物分子的配体，来确定该生物分子的生物功能。这是有利的，因为尽管新的基因序列不断鉴定，但是这些序列编码的蛋白质的功能和这些蛋白质作为新药发现及开发靶标的有效性难以确定，并且可能是应用基因组信息治疗疾病的最大障碍。通过本发明所述方法获得的靶标特异性配体可以在全细胞生物测定或适当的动物模型中应用，用于理解靶蛋白质的功能和靶蛋白质用于治疗性干预的有效性。该方法也可证实靶标特别适合小分子药物发现。

在一个实施方案中，本发明的文库中的一种或多种化合物鉴定为特定生物分子的配体。然后可以在体外试验中评价这些化合物与生物分子结合的能力。优选地，合成结合化合物的功能部分，其不含寡核苷酸标签或连接体部分，并且评价这些功能部分与生物分子结合的能力。

也可以用体外无细胞或基于细胞的试验评价功能部分与生物分子结合对生物分子功能的影响。对于具有已知功能的生物分子，该试验可以包括比较在存在及不存在配体的情况下生物分子的活性，例如，通过直接测定活性，如酶活性，或者通过间接测定例如该生物分子影响的细胞功能。如果该生物分子具有未知的功能，则表达该生物分子的细胞可以接触配体，并且评价该配体对该细胞的生存力、功能、表型和/或基因表达的影响。这样的体外试验可以是，例如，细胞死亡测定、细胞增殖测定或病毒复制试验。例如，如果该生物分子是病毒表达的蛋白质，则感染病毒的细胞可以与该蛋白质的配体接触。然后可以评价该配体与蛋白质的结合对病毒生存力的影响。

利用本发明的方法鉴定的配体也可以在体内模型中或在人体内进行评价。例如，配体可以在产生该生物分子的动物或生物体中进行评价。可以测定动物或生物体在健康状态(例如疾病进展)上发生的任何变化。

对于一种未知功能的生物分子，如蛋白质或核酸分子，与生物分子结合的配体对产生该生物分子的细胞或生物体的影响可以提供关于该生物分子生物功能的信息。例如，观察到特定细胞过程在配体存在下受到抑制，指示该过程至少部分依赖于该生物分子的功能。

利用本发明的方法鉴定的配体也可以用作与它们结合的生物分子的亲和试剂。在一个实施方案中，利用这样的配体实现生物分子的亲和纯化，例如，通过利用连接有一种或多种这样的配体的固相对含有该生物分子的溶液进行层析。

通过下面的实施例进一步说明本发明，这些实施例不应视为限制。在本申请全文中引用的所有参考文献、专利和公布的专利申请以及附图和序列表的内容，都在此引用作为参考。

实施例

实施例1：成员数为10⁵数量级的文库的合成和表征

含有10⁵数量级的不同成员的文库的合成使用下列试剂完成：

化合物1：

脱氧核糖核苷酸的单字母密码：

A＝腺苷

C＝胞苷

G＝鸟苷

T＝胸苷

结构单元前体：

寡核苷酸标签：

1×连接酶缓冲液：50mM Tris，pH 7.5；10mM二硫苏糖醇；10mMMgCl₂；2.5mM ATP；50mM NaCl。

10×连接酶缓冲液：500mM Tris，pH 7.5；100mM二硫苏糖醇；100mM MgCl₂；25mM ATP；500mM NaCl。

循环1

向12个PCR管的每一个中加入50μL 1mM化合物1的水溶液；75μL 0.80mM标签1.1-1.12之一的溶液；15μL 10×连接酶缓冲液和10μL去离子水。将这些管加热到95℃1分钟，然后冷却到16℃10分钟。向每个管中加入在50μl1×连接酶缓冲液中的5,000单位的T4 DNA连接酶(2.5μL，2,000,000单位/mL溶液(New England Biolabs，目录号M0202))，获得的溶液在16℃下温育16小时。

连接后，将样品转移到1.5ml Eppendorf管中，用20μL 5M NaCl水溶液和500μL冷(-20℃)乙醇处理，在-20℃下保持1小时。离心后，弃去上清液，用70％乙醇水溶液在-20℃下洗涤沉淀物。然后将每个沉淀物溶解于150μL 150mM硼酸钠缓冲液，pH 9.4中。

在DMF中制备含有浓度分别为0.25M的结构单元前体BB1至BB12之一、N，N-二异丙基乙醇胺和O-(7-氮杂苯并三唑-1-基)-1，1，3，3-四甲基脲六氟磷酸的贮存液，并在室温下搅拌20分钟。向上述每个沉淀溶液中添加结构单元前体溶液，以提供相对于连接体10倍过量的结构单元前体。搅拌获得的溶液。20分钟后向反应混合物中加入另外10个当量的结构单元前体，40分钟后加入另外10个当量。DMF在反应混合物中的终浓度为22％。然后在4℃下搅拌反应溶液过夜。使用50mM乙酸四乙铵水溶液(pH＝7.5)和乙腈，和2-46％乙腈的梯度，通过RP-HPLC在14分钟内监测反应的进展。当约95％的起始材料(连接体)被酰化时终止反应。酰化后合并反应混合物，并冻干至干燥。然后通过HPLC纯化冻干的物质，合并对应于文库的级分(酰化产物)，并冻干。

将该文库溶解于2.5ml 0.01M磷酸钠缓冲液(pH＝8.2)中，向其中加入0.1ml哌啶(4％v/v)。加入哌啶产生在混合时不溶解的混浊。将反应混合物在室温下搅拌50分钟，然后离心(14,000rpm)混浊的溶液，用200μl移液管除去上清液，将沉淀物重悬浮于0.1ml水中。含水洗液与上清液混合，弃去沉淀。通过加入过量的冰冷的乙醇使乙醇在反应液中的终浓度为70％v/v，从溶液中沉淀脱保护的文库。离心含水乙醇混合物，产生含有该文库的白色沉淀物。用冷70％乙醇水溶液洗涤沉淀物一次。除去溶剂后，使沉淀物风干(约5分钟)，以除去痕量的乙醇，然后在循环2中使用。在第1轮中使用的标签和相应的结构单元前体在下面的表1中列出。

表1

循环2-5

对于其中每一个循环，将前一循环产生的混合的溶液分成12等份，每份50μl，置于PCR管中。向每管中加入含有不同标签的溶液，除循环3-5省略循环1所述的HPLC纯化步骤之外，如循环1所述进行连接、纯化和酰化。用于循环2-5的标签与结构单元前体的对应关系在表2中给出。

利用以上所述的标签连接的方法，将循环5的产物与以下所示的封闭引物连接。

5’-PO₃-GGCACATTGATTTGGGAGTCA

GTGTAACTAAACCCTCAGT-PO₃-5’

表2

结果：

上述合成过程具有产生含有12⁵(约249,000)个不同结构的文库的能力。通过对每一循环的产物进行凝胶电泳，监测文库的合成。5个循环中每一个的结果和封闭引物连接后的最终文库在图7中显示。标为“头片”的化合物是化合物1。该图显示每个循环导致预期的分子量增加，每一循环的产物在分子量上基本均匀。

实施例2：成员数为10⁸数量级的文库的合成和表征

含有10⁸数量级的不同成员的文库的合成使用下列试剂实现：

化合物2：

脱氧核糖核苷酸的单字母密码：

A＝腺苷

C＝胞苷

G＝鸟苷

T＝胸苷

结构单元前体：

表3：循环1中使用的寡核苷酸标签：

表4：循环2中使用的寡核苷酸标签：

表5.循环3中使用的寡核苷酸标签

表6.循环4中使用的寡核苷酸标签

表7：用于循环1-4的结构单元和寡核苷酸标签之间的对应关系

1×连接酶缓冲液：50mM Tris，pH 7.5；10mM二硫苏糖醇；10mMMgCl₂；2mM ATP；50mM NaCl。

10×连接酶缓冲液：500mM Tris，pH 7.5；100mM二硫苏糖醇；100mM MgCl₂；20mM ATP；500mM NaCl。

水溶性间隔基与化合物2的连接

向冷却到4℃的化合物2在硼酸钠缓冲液(150mM，pH 9.4)中的溶液(60mL，1mM)中加入在N，N-二甲基甲酰胺(DMF)(16mL，0.15M)中的40当量的N-Fmoc-15-氨基-4，7，10，13-四氧杂硬脂酸(S-Ado)，接着加入40当量的4-(4，6-二甲氧基[1.3.5]三嗪-2-基)-4-甲基吗啉氯化物水合物(DMTMM)的水溶液(9.6mL，0.25M)。混合物在4℃下轻轻振荡2小时，之后加入40当量的S-Ado和DMTMM，并在4℃下再振荡16小时。

酰化后，加入0.1×体积的5M NaCl水溶液和2.5×体积的冷(-20℃)乙醇，使该混合物在-20℃下静置至少1小时。然后在4℃下以14,000rpm离心该混合物15分钟，获得白色沉淀物，用冷EtOH洗涤，然后在冻干机中室温干燥30分钟。将固体溶解在40mL水中，使用WatersXterra RP₁₈柱通过反相HPLC纯化。使用50mM乙酸三乙铵缓冲液pH7.5和99％乙腈/1％水溶液，利用二元流动相梯度分布洗脱产物。通过冻干浓缩纯化的物质，将获得的残余物溶解于5mL水中。向溶液中加入0.1×体积的哌啶，在室温下轻轻振荡混合物45分钟。然后如上所述通过乙醇沉淀纯化产物，并且离心分离。将获得的沉淀物用冷EtOH洗涤两次，通过冻干干燥，获得纯化的化合物3。

循环1

向96孔板的每个孔中加入12.5μL 4mM化合物3的水溶液；100μL如表3所示的寡核苷酸标签1.1至1.96之一的1mM溶液(化合物3与标签的摩尔比为1∶2)。将板加热至95℃1分钟，然后冷却至16℃10分钟。向每孔中加入10μL 10×连接酶缓冲液、30单位T4DNA连接酶(1μL 30单位/μL溶液(FermentasLife Science，目录号EL0013))、76.5μl水，获得的溶液在16℃下温育16小时。

连接反应后，向每孔中直接加入20μL 5M NaCl水溶液，然后加入500μL冷(-20℃)乙醇，在-20℃下保持1小时。在Beckman Coulter Allegra6R离心机上，使用Beckman Microplus Carriers，以3200g将板离心1小时。通过将板倒置小心地除去上清液，用-20℃的70％冷乙醇水溶液洗涤沉淀物。然后将每种沉淀物溶解于硼酸钠缓冲液(50μL，150mM，pH 9.4)中至浓度为1mM，并冷却至4℃。

向每种溶液中加入在DMF中的40当量的96种结构单元前体之一(13μL，0.15M)，然后加入40当量的DMT-MM水溶液(8μL，0.25M)，溶液在4℃下轻轻振荡。2小时后，加入另外40当量的各种结构单元前体之一和DMTMM，溶液在4℃下轻轻振荡16小时。酰化后，向每种溶液中加入在DMF中的10当量乙酸-N-羟基-琥珀酰亚胺酯(2μL，0.25M)，轻轻振荡10分钟。

酰化后，合并96个反应混合物，加入0.1倍体积的5M NaCl水溶液和2.5倍体积的冷无水乙醇，使溶液在-20℃下静置至少1小时。然后离心该混合物。离心后，用微量移液器除去尽可能多的上清液，用冷乙醇洗涤沉淀物，再次离心。用200μL移液管除去上清液。向管中加入70％冷乙醇，获得的混合物在4℃下离心5分钟。

弃去上清液，通过在室温下冻干10分钟除去剩余的乙醇。然后将沉淀物溶解在2mL水中，并使用Waters Xterra RP₁₈柱通过反相HPLC纯化。使用50mM乙酸三乙铵水缓冲液pH 7.5和99％乙腈/1％水溶液，利用二元流动相梯度分布来洗脱文库。收集、合并和冻干含有该文库的级分。将获得的残余物溶解在2.5mL水中，加入250μL哌啶。轻轻振荡溶液45分钟，然后如前所述用乙醇沉淀。获得的沉淀物通过冻干干燥，然后溶解在硼酸钠缓冲液(4.8mL，150mM，pH 9.4)中至浓度为1mM。

将溶液冷却至4℃，加入各40当量的N-Fmoc-炔丙基甘氨酸的DMF溶液(1.2mL，0.15M)和DMT-MM水溶液(7.7mL，0.25M)。混合物在4℃下轻轻振荡2小时，之后加入另外40当量的N-Fmoc-炔丙基甘氨酸和DMT-MM，溶液再振荡16小时。稍后如上所述通过EtOH沉淀和反相HPLC纯化该混合物，并且如前所述用哌啶处理除去N-Fmoc基团。在通过EtOH沉淀进行最终纯化后，冻干干燥获得的沉淀物，并进入合成的下一循环。

循环2-4

对于这些循环中的每一个，将来自前一循环的干燥沉淀物溶解在水中，并且根据文库DNA成分的消光系数，通过分光光度法测定文库的浓度，其中化合物2的初始消光系数为131,500L/(mole.cm)。用水调节文库的浓度，使后续连接反应中的终浓度为0.25mM。然后将文库在96孔板中分成96个等份。向每个孔中加入含有不同标签的溶液(文库与标签的摩尔比为1∶2)，如循环1所述进行连接。循环2、3、4中使用的寡核苷酸标签分别在表4、5、6中列出。对于循环1-4中的每一个，标签与结构单元前体之间的对应关系在表7中提供。如以上对于循环1所述，通过加入乙醇来沉淀文库，并将其溶解在硼酸钠缓冲液(150mM，pH 9.4)中至浓度为1mM。随后的酰化和纯化如循环1所述进行，不同之处在于循环3中省略了HPLC纯化。

利用以上所述的标签连接的方法，将循环4的产物与以下所示的封闭引物连接。

5’-PO₃-CAG AAG ACA GAC AAG CTT CAC CTG C(SEQ ID NO：889)

5’-PO₃-GCA GGT GAA GCT TGT CTG TCTTCT GAA(SEQ ID NO：890)

结果：

上述合成程序能够产生含有96⁴(约10⁸)个不同结构的文库。通过对每一循环的产物进行凝胶电泳和LC/MS，监测文库的合成。完成后，用几种方法分析文库。图13A是循环4后，但在封闭引物连接前的文库的层析图；图13B是同一合成阶段的文库的质谱图。平均分子量通过负离子LC/MS分析测定。离子信号用ProMass软件解析。该结果与预测的该文库的平均质量一致。

通过琼脂糖凝胶电泳分析文库的DNA成分，显示文库物质中的大多数对应于正确大小的连接产物。对从文库采样获得的PCR产物的分子克隆进行DNA序列分析，显示DNA连接高保真度地发生，并且接近于完成。

文库环化

在循环4结束时，在通常的酰化条件下，用叠氮基乙酸将文库的一部分在N-末端加帽。将通过EtOH沉淀纯化的产物溶解在磷酸钠缓冲液(150mM，pH 8)中至浓度为1mM，并加入各为4当量的CuSO₄水溶液(200mM)、抗坏血酸水溶液(200mM)和以下所示化合物的DMF溶液(200mM)。反应混合物然后在室温下轻轻振荡2小时。

为了测定环化程度，从文库环化反应体系中取出5μL等份，用如实施例4所述制备的荧光标记的叠氮化物或炔(1μL 100mM DMF贮存液)处理。16小时后，根据500nm下的HPLC分析，炔或叠氮化物标记都未掺入文库中。该结果表示该文库不再含有能够环加成的叠氮基或炔基，因此该文库一定已经通过环化或分子间反应与自身发生了反应。如前所述通过反相HPLC纯化环化的文库。用未环化的文库进行的对照实验显示上述荧光标记完全掺入。

实施例4：用于环化测定的荧光标记的制备：

在单独的管中，炔丙基甘氨酸或2-氨基-3-苯丙基叠氮(各8μmol)与FAM-OSu(Molecular Probes Inc.)(1.2当量)在pH 9.4的硼酸盐缓冲液(250μL)中混合。反应在室温下进行3小时，然后冻干过夜。经HPLC纯化以定量产率获得需要的荧光炔和叠氮化物。

实施例5：利用叠氮/炔环加成反应环化各化合物

叠氮基乙酰基-Gly-Pro-Phe-Pra-NH₂的制备：

利用0.3mmol Rink-酰胺树脂，以Fmoc-保护的氨基酸和HATU为活化剂，用标准固相合成技术合成指定的序列(Pra＝C-炔丙基甘氨酸)。使用叠氮基乙酸对该四肽加帽。用20％TFA/DCM从树脂上切割肽4小时。经RP HPLC纯化获得为白色固体的产物(75mg，51％)。¹H NMR(DMSO-d₆，400MHz)：8.4-7.8(m，3H)，7.4-7.1(m，7H)，4.6-4.4(m，1H)，4.4-4.2(m，2H)，4.0-3.9(m，2H)，3.74(dd，1H，J＝6Hz，17Hz)，3.5-3.3(m，2H)，3.07(dt，1H，J＝5Hz，14Hz)，2.92(dd，1H，J＝5Hz，16Hz)，2.86(t，1H，J＝2Hz)，2.85-2.75(m，1H)，2.6-2.4(m，2H)，2.2-1.6(m，4H)。IR(mull)2900，2100，1450，1300cm^-1。ESIMS 497.4([M+H]，100％)，993.4([2M+H]，50％)。离子源破碎的ESIMS：519.3([M+Na]，100％)，491.3(100％)，480.1([M-NH₂]，90％)，452.2([M-NH₂-CO]，20％)，424.2(20％)，385.1([M-Pra]，50％)，357.1([M-Pra-CO]，40％)，238.0([M-Pra-Phe]，100％)。

叠氮基乙酰基-Gly-Pro-Phe-Pra-NH₂的环化：

叠氮基乙酰基肽(31mg，0.62mmol)溶解在MeCN(30mL)中。加入二异丙基乙胺(DIEA，1mL)和Cu(MeCN)₄PF₆(1mg)。搅拌1.5小时后，蒸发该溶液，将获得的残余物回收在20％MeCN/H₂O中。离心除去不溶性盐后，对溶液进行制备型反相HPLC。分离需要的环肽，其为白色固体(10mg，32％)。¹H NMR(DMSO-d₆，400MHz)：8.28(t，1H，J＝5Hz)，7.77(s，1H)，7.2-6.9(m，9H)，4.98(m，2H)，4.48(m，1H)，4.28(m，1H)，4.1-3.9(m，2H)，3.63(dd，1H，J＝5Hz，16Hz)，3.33(m，2H)，3.0(m，3H)，2.48(dd，1H，J＝11Hz，14Hz)，1.75(m，1H0，1.55(m，1H)，1.32(m，1H)，1.05(m，1H)。IR(mull)2900，1475，1400cm^-1。ESIMS 497.2([M+H]，100％)，993.2([2M+H]，30％)，1015.2([2M+Na]，15％)。离子源破碎的ESIMS：535.2(70％)，519.3([M+Na]，100％)，497.2([M+H]，80％)，480.1([M-NH₂]，30％)，452.2([M-NH₂-CO]，40％)，208.1(60％)。

叠氮基乙酰基-Gly-Pro-Phe-Pra-Gly-OH的制备：

利用0.3mmol甘氨酸-Wang树脂，以Fmoc-保护的氨基酸和HATU为活化剂，合成指定的序列。在最后的偶联步骤中使用叠氮基乙酸对该五肽加帽。用50％TFA/DCM切割该肽2小时。经RP HPLC纯化获得为白色固体的肽(83mg；50％)。¹H NMR(DMSO-d₆，400MHz)：8.4-7.9(m，4H)，7.2(m，5H)，4.7-4.2(m，3H)，4.0-3.7(m，4H)，3.5-3.3(m，2H)，3.1(m，1H)，2.91(dd，1H，J＝4Hz，16Hz)，2.84(t，1H，J＝2.5Hz)，2.78(m，1H)，2.6-2.4(m，2H)，2.2-1.6(m，4H)。IR(mull)2900，2100，1450，1350cm^-1。ESIMS 555.3([M+H]，100％)。离子源破碎的ESIMS：577.1([M+Na]，90％)，555.3([M+H]，80％)，480.1([M-Gly]，100％)，385.1([M-Gly-Pra]，70％)，357.1([M-Gly-Pra-CO]，40％)，238.0([M-Gly-Pra-Phe]，80％)。

叠氮基乙酰基-Gly-Pro-Phe-Pra-Gly-OH的环化：

将肽(32mg，0.058mmol)溶解于MeCN(60mL)中。加入二异丙基乙胺(1mL)和Cu(MeCN)₄PF₆(1mg)，搅拌该溶液2小时。蒸发溶剂，对粗产物进行RP HPLC以除去二聚体和三聚体。分离环状单体，其为无色玻璃状物(6mg，20％)。ESIMS 555.6([M+H]，100％)，1109.3([2M+H]，20％)，1131.2([2M+Na]，15％)。离子源破碎的ESIMS：555.3([M+H]，100％)，480.4([M-Gly]，30％)，452.2([M-Gly-CO]，25％)，424.5([M-Gly-2CO]，10％，只在环形结构中才有可能)。

直链肽与DNA的偶联：

化合物2(45nmol)溶解在45μL硼酸钠缓冲液(pH 9.4；150mM)中。在4℃下加入直链肽(18μL在DMF中的100mM贮存液；180nmol；40当量)，然后加入DMT-MM(3.6μL 500mM在水中的贮存液；180nmol；40当量)。搅拌2小时后，LCMS显示完全反应，经乙醇沉淀分离产物。ESIMS 1823.0([M-3H]/3，20％)，1367.2([M-4H]/4，20％)，1093.7([M-5H]/5，40％)，911.4([M-6H]/6，100％)。

环肽与DNA的偶联：

化合物2(20nmol)溶解在20μL硼酸钠缓冲液(pH 9.4，150mM)中。在4℃下加入直链肽(8μL 100mM在DMF中的贮存液；80nmol；40当量)，然后加入DMT-MM(1.6μL 500mM在水中的贮存液；80nmol；40当量)。搅拌2小时后，LCMS显示完全反应，经乙醇沉淀分离产物。ESIMS 1823.0([M-3H]/3，20％)，1367.2([M-4H]/4，20％)，1093.7([M-5H]/5，40％)，911.4([M-6H]/6，100％)。

DNA-连接的肽的环化：

直链肽-DNA偶联物(10nmol)溶解在pH 8的磷酸钠缓冲液(10μL，150mm)中。在室温下加入各为4当量的CuSO₄、抗坏血酸和Sharpless配体(0.2μL 200mM贮存液)。反应进行过夜。RP HPLC显示没有直链肽-DNA，产物与标准环肽-DNA共洗脱。未见痕量二聚体或其他寡聚体。

4.48分钟时洗脱 4.27分钟时洗脱

LC条件：Targa C18，2.1×40mm，10-40％MeCN

在40mM TEAA水溶液中，8分钟

实施例6：芳香亲核取代反应应用于功能部分的合成

用氰尿酰氯对化合物3进行芳基化的一般程序：

化合物2以1mM的浓度溶解在pH 9.4的硼酸钠缓冲液中。将溶液冷却至4℃，然后加入20当量的氰尿酰氯，作为在MeCN中的500mM溶液。2小时后，经LCMS证实反应完全，获得的二氯三嗪-DNA偶联物经乙醇沉淀分离。

二氯三嗪-DNA的胺取代程序：

二氯三嗪-DNA偶联物以1mM的浓度溶解在pH 9.5硼酸盐缓冲液中。在室温下作为DMF溶液加入40当量的脂肪族胺。该反应后进行LCMS，通常在2小时后完成。获得的烷基氨基-一氯三嗪-DNA偶联物经乙醇沉淀分离。

一氯三嗪-DNA的胺取代程序：

烷基氨基-一氯三嗪-DNA偶联物以1mM的浓度溶解在pH 9.5硼酸盐缓冲液中。在42℃下作为DMF溶液加入40当量的第二种脂肪族胺。该反应后进行LCMS，通常在2小时后完成。获得的二氨基三嗪-DNA偶联物经乙醇沉淀分离。

实施例7：还原性胺化反应应用于功能部分的合成

含仲胺的DNA-连接体与醛结构单元的还原性胺化的一般程序：

化合物2与N-末端脯氨酸残基偶联。获得的化合物以1mM的浓度溶解在磷酸钠缓冲液(50μL，150mM，pH 5.5)中。向该溶液中加入各为40当量的DMF中的醛结构单元(8μL，0.25M)和DMF中的氰基硼氢化钠(8μL，0.25M)，将溶液在80℃下加热2小时。烷基化后，通过乙醇沉淀纯化该溶液。

含醛的DNA-连接体与胺结构单元的还原性胺化的一般程序：

与含醛基的结构单元偶联的化合物2以1mM的浓度溶解在磷酸钠缓冲液(50μL，250mM，pH 5.5)中。向该溶液中加入各为40当量的DMF中的胺结构单元(8μL，0.25M)和DMF中的氰基硼氢化钠(8μL，0.25M)，将溶液在80℃下加热2小时。烷基化后，通过乙醇沉淀纯化该溶液。

实施例8：类肽构建反应应用于功能部分的合成

在DNA-连接体上进行类肽合成的一般程序：

化合物2以1mM的浓度溶解在硼酸钠缓冲液(50μL，150mM，pH9.4)中，冷却到4℃。向该溶液中加入40当量的DMF中的N-羟基琥珀酰亚氨基溴乙酸酯(13μL，0.15M)，该溶液在4℃下轻轻振荡2小时。酰化后，DNA-连接体经乙醇沉淀纯化，以1mM的浓度再溶解在硼酸钠缓冲液(50μL，150mM，pH 9.4)中，并冷却到4℃。向该溶液中加入40当量的DMF中的胺结构单元(13μL，0.15M)，溶液在4℃下轻轻振荡16小时。烷化后，DNA-连接体经乙醇沉淀纯化，以1mM的浓度再溶解在硼酸钠缓冲液(50μL，150mM，pH 9.4)中，并冷却到4℃。通过分步加入N-羟基琥珀酰亚氨基溴乙酸酯，接着加入胺结构单元，继续类肽合成。

实施例9：叠氮化物-炔环加成反应应用于功能部分合成

一般程序

含炔的DNA偶联物以约1mM的浓度溶解在pH 8.0的磷酸盐缓冲液中。在室温下向该混合物中加入10当量的有机叠氮化物和各为5当量的硫酸铜(II)、抗坏血酸和配体(三-((1-苄基三唑-4-基)甲基)胺)。该反应后进行LCMS，通常在1-2小时后完成。获得的三唑-DNA偶联物可通过乙醇沉淀分离。

实施例10：从编码文库内鉴定Abl激酶的配体

为了鉴定对治疗目标具有确定性质的单一化合物，在DNA-编码文库中相对于不需要的文库成员富集目标分子的能力是极为重要的。为了证明这种富集能力，合成了rhAbl激酶(GenBank U07563)的已知结合分子(描述于Shah等人，Science 305，399-401(2004)，在此引用作为参考)。利用标准化学方法将该化合物通过前面实施例中所述的连接体连接到双链DNA寡核苷酸上，产生与通过实施例1和2所述方法产生的产物(与寡核苷酸连接的功能部分)相类似的分子。通常如实施例2所述产生的文库和DNA-连接的Abl激酶结合分子设计为具有独特的DNA序列，使两种物质都能进行qPCR分析。DNA-连接的Abl激酶结合分子与文库以1∶1000的比例混合。该混合物用rhAble激酶平衡，该酶在固相上捕获，洗涤除去未结合的文库成员，洗脱结合的分子。洗脱物中文库分子与DNA-连接的Abl激酶抑制剂的比例为1∶1，表示DNA-连接的Abl-激酶结合分子获得500倍以上的富集，与文库分子相比1000-倍过量。

等同方案

本领域技术人员应当认识到，或者仅应用常规实验就能够确定本文所述的本发明的特定实施方案的许多等同方案。这些等同方案包括在权利要求书的范围之内。

Claims

1.一种合成包含与编码寡核苷酸有效连接的功能部分的分子的方法，该方法包括以下步骤：

(a)提供由包含n个结构单元的起始功能部分组成的起始化合物，其中n是1或大于1的整数，其中该起始功能部分包含至少一个反应基团，并且与起始寡核苷酸有效连接；

(b)将该起始化合物与包含至少一个互补反应基团的结构单元反应，其中该至少一个互补反应基团与步骤(a)的反应基团互补，反应条件适合所述互补反应基团反应形成共价键；

(c)将所述起始寡核苷酸与标识步骤(b)的结构单元的引入寡核苷酸反应，反应条件适合所述引入寡核苷酸与起始寡核苷酸连接形成编码寡核苷酸，并存在催化起始寡核苷酸与引入寡核苷酸连接的酶；

从而产生包含功能部分的分子，该功能部分含有n+1个结构单元，并且与编码寡核苷酸有效连接。

2.权利要求1的方法，其中步骤(c)的功能部分包含反应基团，重复步骤(a)至(c)一次或多次，从而形成循环1至i，其中i是2或大于2的整数，其中循环s的步骤(c)的产物是循环s+1的起始化合物，其中s是i-1或更小的整数。

3.权利要求1的方法，其中步骤(c)在步骤(b)之前，或者步骤(b)在步骤(c)之前。

4.权利要求1的方法，其中所述结构单元的至少一个是氨基酸或活化的氨基酸。

5.权利要求1的方法，其中所述反应基团和互补反应基团选自氨基、羧基、磺酰基、膦酰基、环氧基、吖丙啶基和异氰酸酯基。

6.权利要求1的方法，其中所述反应基团和互补反应基团选自羟基、羧基、磺酰基、膦酰基、环氧基、吖丙啶基和异氰酸酯基。

7.权利要求1的方法，其中所述反应基团和互补反应基团选自氨基和醛基或酮基。

8.权利要求7的方法，其中所述反应基团与互补反应基团之间的反应在还原条件下进行。

9.权利要求1的方法，其中所述反应基团和互补反应基团选自磷叶立德基和醛基或酮基。

10.权利要求1的方法，其中所述反应基团和互补反应基团通过环加成作用反应，形成环结构。

11.权利要求10的方法，其中所述反应基团和互补反应基团选自炔和叠氮基。

12.权利要求10的方法，其中所述反应基团和互补反应基团选自卤代杂芳基和亲核基团。

13.权利要求12的方法，其中所述卤代杂芳基选自氯代嘧啶、氯代三嗪和氯代嘌呤。

14.权利要求12的方法，其中所述亲核基团是氨基。

15.权利要求1的方法，其中所述酶选自DNA连接酶、RNA连接酶、DNA聚合酶、RNA聚合酶和拓扑异构酶。

16.权利要求1的方法，其中所述起始寡核苷酸是双链或单链的。

17.权利要求16的方法，其中所述起始寡核苷酸包含PCR引物序列。

18.权利要求16的方法，其中所述起始寡核苷酸是单链的，且引入寡核苷酸是单链的；或者起始寡核苷酸是双链的，且引入寡核苷酸是双链的。

19.权利要求18的方法，其中起始功能部分和起始寡核苷酸通过连接部分连接。

20.权利要求19的方法，其中所述起始寡核苷酸是双链的，所述连接部分与起始功能部分和与起始寡核苷酸的两条链共价偶联。

21.权利要求1的方法，其中所述引入寡核苷酸的长度为3到10个核苷酸。

22.权利要求2的方法，其中循环i的引入寡核苷酸包含PCR封闭引物。

23.权利要求2的方法，其在循环i中进一步包括以下步骤：

(d)将包含封闭PCR引物序列的寡核苷酸与编码寡核苷酸连接。

24.权利要求23的方法，其中在催化所述连接的酶的存在下，将包含封闭PCR引物序列的寡核苷酸与编码寡核苷酸连接。

25.权利要求2的方法，其在循环i后进一步包括以下步骤：

(e)环化所述功能部分。

26.权利要求25的方法，其中所述功能部分包含炔基和叠氮基，且将该化合物在适合炔基和叠氮基环加成作用形成三唑基的条件下处理，从而环化该功能部分。

27.一种合成化合物文库的方法，其中所述化合物包含功能部分，该功能部分包含两个或多个结构单元并且与标识该功能部分结构的起始寡核苷酸有效连接，该方法包括下列步骤：

(a)提供包含m种起始化合物的溶液，其中m是1或大于1的整数，其中起始化合物由包含n个结构单元的功能部分组成，其中n是1或大于1的整数，该功能部分与标识该n个结构单元的起始寡核苷酸有效连接；

(b)将步骤(a)的溶液分配到r个反应容器中，其中r是2或大于2的整数，从而产生r个等份的溶液；

(c)将每个反应容器中的起始化合物与r个结构单元之一反应，从而产生r个等份，该等份包含由功能部分组成的化合物，该功能部分包含n+1个结构单元，并且与起始寡核苷酸有效连接；和

(d)在适合引入寡核苷酸与起始寡核苷酸发生酶连接的条件下，在催化引入寡核苷酸与起始寡核苷酸连接的酶的存在下，将每个等份中的起始寡核苷酸与一组r个不同引入寡核苷酸之一反应；

从而产生r个等份，这些等份包含由功能部分组成的分子，该功能部分包含n+1个结构单元，并且与编码该n+1个结构单元的延长的寡核苷酸有效连接。

28.权利要求27的方法，其进一步包括以下步骤：

(e)组合所述r个等份中的两个或多个等份，从而产生包含多个由功能部分组成的分子的溶液，该功能部分包含n+1个结构单元，并且与编码该n+1个结构单元的延长的寡核苷酸有效连接。

29.权利要求28的方法，其中混合r个等份。

30.权利要求28的方法，其中步骤(a)至(e)进行一次或多次，产生循环1至i，其中i是2或大于2的整数，其中在循环s+1中，其中s是i-1或更小的整数，步骤(a)的含m种起始化合物的溶液是循环s的步骤(e)的溶液。

31.权利要求7或权利要求8的方法，其中在循环1至i的至少一个中，步骤(d)在步骤(c)之前。

32.权利要求28的方法，其中至少一个结构单元是氨基酸。

33.权利要求7的方法，其中所述酶是DNA连接酶、RNA连接酶、DNA聚合酶、RNA聚合酶或拓扑异构酶。

34.权利要求28的方法，其中所述起始寡核苷酸是双链寡核苷酸。

35.权利要求34的方法，其中所述引入寡核苷酸是双链寡核苷酸。

36.权利要求28的方法，其中所述起始化合物包含连接体部分，该连接体部分包含适合与结构单元键合的第一官能团、适合与寡核苷酸的5’末端键合的第二官能团，和适合与寡核苷酸的3’末端键合的第三官能团。

37.权利要求36的方法，其中所述连接体部分具有结构：

其中

A是适合与结构单元键合的官能团；

B是适合与寡核苷酸的5’末端键合的官能团；

C是适合与寡核苷酸的3’末端键合的官能团；

S是原子或支架；

D是将A与S相连接的化学结构；

E是将B与S相连接的化学结构；且

F是将C与S相连接的化学结构。

38.权利要求37的方法，其中：

A是氨基；

B是磷酸基；且

C是磷酸基。

39.权利要求37的方法，其中D、E和F各自独立地为亚烷基或低聚(乙二醇)基。

40.权利要求37的方法，其中S是碳原子、氮原子、磷原子、硼原子、磷酸基、环基或多环基。

41.权利要求40的方法，其中连接体部分具有结构：

其中n、m和p各自独立地为1至约20的整数。

42.权利要求41的方法，其中n、m和p各自独立地为2至8的整数。

43.权利要求42的方法，其中n、m和p各自独立地为3至6的整数。

44.权利要求41的方法，其中连接体部分具有结构：

45.权利要求27的方法，其中所述起始化合物中的每一个都包含反应基团，并且其中所述r个结构单元中的每一个都包含与所述反应基团互补的互补反应基团。

46.权利要求45的方法，其中所述反应基团和互补反应基团选自氨基、羧基、磺酰基、膦酰基、环氧基、吖丙啶基和异氰酸酯基。

47.权利要求45的方法，其中所述反应基团和互补反应基团选自羟基、羧基、磺酰基、膦酰基、环氧基、吖丙啶基团和异氰酸酯基。

48.权利要求45的方法，其中所述反应基团和互补反应基团选自氨基和醛基或酮基。

49.权利要求45的方法，其中所述反应基团与互补反应基团之间的反应在还原条件下进行。

50.权利要求45的方法，其中所述反应基团和互补反应基团选自磷叶立德基和醛基或酮基。

51.权利要求45的方法，其中所述反应基团和互补反应基团通过环加成作用反应，形成环结构。

52.权利要求51的方法，其中所述反应基团和互补反应基团选自炔和叠氮基。

53.权利要求45的方法，其中所述反应基团和互补官能团选自卤代杂芳基和亲核基团。

54.权利要求53的方法，其中所述卤代杂芳基选自氯代嘧啶、氯代三嗪和氯代嘌呤。

55.权利要求53的方法，其中所述亲核基团是氨基。

56.权利要求28的方法，其在循环i后进一步包括以下步骤：

(f)环化一个或多个功能部分。

57.权利要求56的方法，其中步骤(f)的功能部分包含叠氮基和炔基。

58.权利要求57的方法，其中所述功能部分保持在适合叠氮基和炔基环加成反应形成三唑基的条件下，从而形成环状功能部分。

59.权利要求58的方法，其中所述环加成反应在铜催化剂的存在下进行。

60.权利要求59的方法，其中步骤(f)的一个或多个功能部分中的至少一个包含至少两个巯基，并且该功能部分保持在适合两个巯基反应形成二硫基的条件下，从而环化该功能部分。

61.权利要求27的方法，其中所述起始寡核苷酸包含PCR引物序列。

62.权利要求28的方法，其中循环i的引入寡核苷酸包含PCR封闭引物。

63.权利要求28的方法，其在循环i后进一步包括以下步骤：

(d)将包含封闭PCR引物序列的寡核苷酸与编码寡核苷酸连接。

64.权利要求63的方法，其中在催化所述连接的酶的存在下，所述包含封闭PCR引物序列的寡核苷酸与编码寡核苷酸连接。

65.下式的化合物：

其中：

X是包含一个或多个结构单元的功能部分；

Z是在其3’末端与B连接的寡核苷酸；

Y是在其5’末端与C连接的寡核苷酸；

A是与X形成共价键的官能团；

B是与Z的3’-末端形成键的官能团；

C是与Y的5’-末端形成键的官能团；

D、F和E各自独立地是双功能连接基团；且

S是原子或分子支架。

66.权利要求65的化合物，其中D、E和F各自独立地是亚烷基链或低聚(乙二醇)链。

67.权利要求65的化合物，其中Y和Z基本互补，并且在化合物中定向，从而在适当条件下能够发生Watson-Crick碱基配对和双链体形成。

68.权利要求65的化合物，其中Y和Z具有相同的长度或不同的长度。

69.权利要求68的化合物，其中Y和Z具有相同的长度。

70.权利要求65的化合物，其中Y和Z的长度各为10个或更多碱基，并且具有10个或更多碱基对的互补区。

71.权利要求65的化合物，其中S是碳原子、硼原子、氮原子、磷原子或多原子支架。

72.权利要求71的化合物，其中S是磷酸基或环基。

73.权利要求72的化合物，其中S是环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。

74.权利要求65的化合物，其中连接体部分具有结构：

其中n、m和p各自独立地为1至约20的整数。

75.权利要求74的化合物，其中n、m和p各自独立地为2至8的整数。

76.权利要求75的化合物，其中n、m和p各自独立地为3至6的整数。

77.权利要求65的化合物，其中连接体部分具有结构：

78.权利要求65的化合物，其中X和Y包含PCR引物序列。

79.一种包含至少约10²种不同化合物的化合物文库，所述化合物包含功能部分，该功能部分包含两个或多个结构单元并且与标识该功能部分的结构的寡核苷酸有效连接。

80.权利要求79的化合物文库，该文库包含各为至少约10⁵个拷贝的不同化合物。

81.权利要求79的化合物文库，该文库包含各为至少约10⁶个拷贝的不同化合物。

82.权利要求79的化合物文库，其包含至少约10⁴种不同的化合物。

83.权利要求79的化合物文库，其包含至少约10⁶种不同的化合物。

84.权利要求79的化合物文库，其包含至少约10⁸种不同的化合物。

85.权利要求79的化合物文库，其包含至少约10¹⁰种不同的化合物。

86.权利要求79的化合物文库，其包含至少约10¹²种不同的化合物。

87.权利要求79的化合物文库，其中该文库包含多种独立地为式I的化合物：

其中：

X是包含一个或多个结构单元的功能部分；

Z是在其3’末端与B连接的寡核苷酸；

Y是在其5’末端与C连接的寡核苷酸；

A是与X形成共价键的官能团；

B是与Z的3’-末端形成键的官能团；

C是与Y的5’-末端形成键的官能团；

D、F和E各自独立地是双功能连接基团；且

S是原子或分子支架。

88.权利要求87的化合物文库，其中对于每一种式I的化合物，A、B、C、D、E、F和S各自具有相同的身份。

89.权利要求87的化合物文库，该文库基本由多种式I的化合物组成。

90.权利要求87的化合物文库，其中D、E和F各自独立地是亚烷基链或低聚(乙二醇)链。

91.权利要求87的化合物文库，其中Y和Z基本互补，并且在化合物中定向，从而在适当条件下能够发生Watson-Crick碱基配对和双链体形成。

92.权利要求87的化合物文库，其中Y和Z具有相同的长度或不同的长度。

93.权利要求87的化合物文库，其中Y和Z具有相同的长度。

94.权利要求87的化合物文库，其中Y和Z的长度各自为10个或更多碱基，并且具有10个或更多碱基对的互补区。

95.权利要求87的化合物文库，其中S是碳原子、硼原子、氮原子、磷原子或多原子支架。

96.权利要求87的化合物文库，其中S是磷酸基或环基。

97.权利要求96的化合物文库，其中S是环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。

98.权利要求87的化合物文库，其中连接体部分具有结构：

其中n、m和p各自独立地是1至约20的整数。

99.权利要求98的化合物文库，其中n、m和p各自独立地是2至8的整数。

100.权利要求99的化合物，其中n、m和p各自独立地是3至6的整数。

101.权利要求87的化合物，其中连接体部分具有结构：

102.权利要求87的化合物文库，其中X和Z包含PCR引物序列。

103.由权利要求1的方法制备的一种化合物。

104.由权利要求27的方法制备的一种化合物文库。

105.一种鉴定能与生物靶标结合的一种或多种化合物的方法，该方法包括以下步骤：

(a)在适合化合物文库的至少一个成员与靶标结合的条件下，使该生物靶标接触通过权利要求27的方法制备的化合物文库；

(b)除去不与该靶标结合的文库成员；

(c)扩增能与该靶标结合的化合物文库至少一个成员的编码寡核苷酸；

(d)对步骤(c)的编码寡核苷酸进行测序；和

(e)利用步骤(d)测定的序列确定能与该生物靶标结合的化合物文库成员的功能部分的结构；

从而鉴定能与生物靶标结合的一种或多种化合物。

106.一种鉴定能与生物靶标结合的化合物的方法，该方法包括以下步骤：

(a)在适合化合物文库的至少一个成员与靶标结合的条件下，使生物靶标接触包含至少约102种不同化合物的化合物文库，该化合物包含功能部分，该功能部分包含两个或多个结构单元，并且与标识该功能部分的结构的寡核苷酸有效连接；

(b)除去不与该靶标结合的文库成员；

(d)对步骤(c)的编码寡核苷酸进行测序；和

从而鉴定能与该生物靶标结合的一种或多种化合物。

107.权利要求106的方法，其中所述文库包含各为至少约10⁵个拷贝的不同化合物。

108.权利要求106的方法，其中所述文库包含各为至少约10⁶个拷贝的不同化合物。

109.权利要求106的方法，其中所述文库包含至少约10⁴种不同的化合物。

110.权利要求106的方法，其中所述文库包含至少约10⁶种不同的化合物。

111.权利要求106的方法，其中所述文库包含至少约10⁸种不同的化合物。

112.权利要求106的方法，其中所述文库包含至少约10¹⁰种不同的化合物。

113.权利要求106的方法，其中所述化合物文库包含至少约10¹²种不同的化合物。

114.权利要求106的方法，其中所述化合物文库包含多种独立地为式I的化合物：

其中：

X是包含一个或多个结构单元的功能部分；

Z是在其3’末端与B连接的寡核苷酸；

Y是在其5’末端与C连接的寡核苷酸；

A是与X形成共价键的官能团；

B是与Z的3’-末端形成键的官能团；

C是与Y的5’-末端形成键的官能团；

D、F和E各自独立地是双功能连接基团；且

S是原子或分子支架。

115.权利要求114的方法，其中对于每一种式I的化合物，A、B、C、D、E、F和S各自具有相同的身份。

116.权利要求114的方法，其中所述化合物文库基本由多种式I的化合物组成。

117.权利要求114的方法，其中D、E和F各自独立地是亚烷基链或低聚(乙二醇)链。

118.权利要求114的方法，其中Y和Z基本互补，并且在化合物中定向，从而在适当条件下能够发生Watson-Crick碱基配对和双链体形成。

119.权利要求114的方法，其中Y和Z具有相同的长度或不同的长度。

120.权利要求119的方法，其中Y和Z具有相同的长度。

121.权利要求114的方法，其中Y和Z的长度各自为10个或更多碱基，并且具有10个或更多碱基对的互补区。

122.权利要求114的方法，其中S是碳原子、硼原子、氮原子、磷原子或多原子支架。

123.权利要求114的方法，其中S是磷酸基或环基。

124.权利要求123的方法，其中S是环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。

125.权利要求114的方法，其中连接体部分具有结构：

其中n、m和p各自独立地为1至约20的整数。

126.权利要求125的方法，其中n、m和p各自独立地为2至8的整数。

127.权利要求126的方法，其中n、m和p各自独立地为3至6的整数。

128.权利要求127的方法，其中连接体部分具有结构：

129.权利要求114的方法，其中X和Z包含PCR引物序列。