CN114555810A

CN114555810A - 用于蛋白质和肽测序的方法和组合物

Info

Publication number: CN114555810A
Application number: CN202080061216.2A
Authority: CN
Inventors: 安娜莉莎·玛丽·波洛斯基; 扎卡里·卡茨; 杰西卡·洪; 雪莉·京·绍; 安娜·勒; 戴安娜·特丽·吴; 萨拉·阿哈迪; 亚历山大·朱利安·特兰; 阿里·巴希尔; 迈克尔·吉本斯; 玛丽亚·查瓦哈; 艾玛·凯瑟琳·科斯塔; 菲利普·杰斯; 维多利亚·A·丘奇; 马克·伯恩德尔; 陈晔; 塞缪尔·杨; 米歇尔·特蕾丝·霍纳尔·戴蒙; 劳伦·希夫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-13
Filing date: 2020-09-11
Publication date: 2022-05-27
Also published as: EP3990634A1; WO2021051011A1; AU2020346959A1; AU2020346959B2; CA3149852A1

Abstract

本公开描述了用于蛋白质和肽测序的方法和组合物。

Description

用于蛋白质和肽测序的方法和组合物

技术领域

本公开总的来说涉及用于蛋白质和肽测序的方法和组合物。

背景技术

在过去十年中，DNA测序技术的快速改进产生了大量分子信息。并且尽管读取基因组的能力已经彻底改变了生物学研究，但大量的表型和疾病状态信息无法从基因组推断出来。RNA测序提供了对基因组功能元件及其表达水平的更深入了解。然而，围绕着将蛋白质与mRNA表达水平相关联的努力仍然存在重大挑战(de Sousa,Abreu,Penalva,Marcotte,&Vogel,2009)(Vogel&Marcotte,2012)，导致难以理解精确的蛋白质定量、修饰或甚至序列，导致细胞状态信息的丢失。在评估血清中的蛋白质时，RNA分析无法预测蛋白质的存在，因为蛋白质可能从细胞中排出并在整个血液系统中循环，导致RNA序列与其翻译的靶之间的空间连接丧失。此外，蛋白质测序可以揭示许多未知蛋白质，即存在于宿主的血流中并影响宿主生物体的来自于其他生物体(例如病毒、细菌等)的蛋白质。

RNA和DNA测序对抗体序列的了解有限，因为抗体库的多样性由体细胞超突变事件产生。为了捕获在DNA加工和分泌后出现的信息例如翻译后蛋白质修饰、翻译保真度、蛋白质折叠完整性等，科学家们必须能够直接从感兴趣的样品测序蛋白质(即读取它们的氨基酸序列)，来推断蛋白质水平与其酶促作用之间的相关性。从头蛋白质测序可以导致从任何生物体(例如各种不同组织、病原体、突变的癌细胞)或从任何含蛋白质样品(例如血液、皮肤、脑脊液、粪便)中发现稀有的和新的蛋白质。通过允许在疾病治疗过程中进行广泛的生理监测，蛋白质测序也可以充当治疗功效的衡量标准。然而，目前尚不存在跨越蛋白质表达的整个动态范围的蛋白质和蛋白质组的大规模高通量测序的成本和时间有效的策略。也没有一种可靠的方法对非靶低表达蛋白质进行测序。因此，使用当前技术进行抗体和低表达蛋白质的测序仍然存在障碍，并且除了最专业的研究工作之外实际上难以企及。

发明内容

本公开描述了一系列方法和组合物，它们形成了开发和使用利用与N-端氨基酸特异性结合的适体的蛋白质测序平台的流水线(图1)。氨基酸特异性适体可以使用本文中描述的新方法(RCHT-SELEX和NTAA-SELEX)产生。此类氨基酸特异性适体可用于将蛋白质或肽的每个氨基酸识别、鉴定并转变成DNA序列(PROSEQ)，或者此类氨基酸特异性适体可用于基于视觉信号识别或鉴定蛋白质或肽的每个氨基酸(PROSEQ-VIS)。此外，可以同时产生许多不同的靶特异性适体，并且可以将它们用于产生和筛选大量结合物(多重化(MULTIPLEX))。同时和特异性适体选择依赖于靶的可靠鉴定。带有核酸条形码的靶的产生可以在体内通过利用RNA结合蛋白的肽或蛋白质与其相应的识别序列之间的非共价键来实现(TURDUCKEN)。最后，成功的SELEX实验要求在仅为所有可能的DNA序列的一小部分的10¹⁴-10¹⁵个候选序列的原始池中包括对分子靶具有一定特异性结合偏好性和亲和性的适体。人工智能(AI)、深度学习(DL)和机器学习(ML)可以优化实验性种子结合物，因此与常规SELEX实验不同，最优结合物不必存在于最初的起始文库中，而是可以从实验发现的结合物的特点产生。构建计算衍生的、可定制的DNA文库以使用受控的输入池来进行SELEX筛选的能力，可以通过系统地分析包含具有已知结合特性的序列(LEGO)的适体候选物来显著增加探索空间。

一方面，提供了获得对靶具有亲和性和特异性的适体的方法。此类方法通常包括：(a)提供多个适体；(b)任选地对所述多个适体进行负选择；(c)任选地在PCR扩增之前在所述多个适体中掺入对照寡核苷酸；(d)任选地扩增所述多个适体；(e)将所述多个适体与多个潜在靶在允许所述多个适体与所述多个潜在靶结合的条件下温育；(f)任选地对于平行实验来说，将所述多个扩增的适体与多个潜在靶或无效靶在不同的反应中，在允许所述多个扩增的适体与所述多个潜在靶结合的条件下温育；(g)除去未结合的适体；(h)对靶结合的适体进行测序；以及(i)将步骤(a)-(h)重复多次，从而获得对所述靶具有亲和性和特异性的适体。

在某些实施方式中，所述潜在靶是多肽、氨基酸、核酸、小分子、完整蛋白质或蛋白质复合体或细胞。

在某些实施方式中，所述方法还包括在单次培育扩增步骤或双重培育扩增步骤中扩增初始的随机文库或ML设计的文库中的多个适体候选物，以产生含有适体候选物的多个拷贝的SELEX的输入池。

在某些实施方式中，所述同一个培育针对多个靶、在平行实验中或其组合进行测定。

在某些实施方式中，所述方法任选地还包括在扩增所述多个适体的步骤之前在所述样品中引入已知量的已知寡核苷酸。

在某些实施方式中，所述方法任选地还包括在所述测序步骤之前在所述样品中引入已知量的已知寡核苷酸。

在某些实施方式中，观察掺入的所述已知寡核苷酸的测序数据以检测实验误差。

在某些实施方式中，所述方法还包括在每次重复所述步骤时扩增标准化的量的来自于每个样品的靶结合的适体。

在某些实施方式中，所述方法还包括在为所使用的特定引物优化以获得最大扩增和最小偏差的条件下扩增所述多个适体。

在某些实施方式中，所述方法还包括将所述PCR后的dsDNA消化成ssDNA，以便保留所需的链。

在某些实施方式中，所述方法还包括在丰富的产生所需ssDNA的引物存在下扩增所述多个适体。

在某些实施方式中，所述方法还包括在每次dsDNA消化之前进行单元测试，以确定每个样品的最佳消化条件。

在某些实施方式中，所述方法还包括在将所述多个适体与潜在靶温育的步骤重复多次之前改变与所述多个适体的每个成员相关的引物序列，以鉴定不依赖于所述引物区域的强结合物。

在某些实施方式中，对于其中所需适体是特异性结合到分子的较小部分而不是整个分子的适体的实验来说，所述方法还包括在步骤(a)-(h)的每次重复之间交替具有不同的局部环境结合区域的靶。

在某些实施方式中，所述方法还包括在方法1的步骤(e)之前对所述适体池的小量样品进行相同的PCR反应但不针对珠子或靶进行分析，以评估使用选定的选择组分进行SELEX的效果。

在某些实施方式中，所述方法还包括：(a)将所述多个适体与多个不同的靶在同一反应中，在允许所述多个适体与所述多个潜在靶结合的条件下温育；(b)除去未结合的适体；(c)扩增靶结合的适体；(d)对靶结合的适体进行测序；(e)将步骤(a)-(d)重复多次；(f)对于每个不同的靶来说在每个实验中将所述多个适体与多个单一靶温育；(g)重复步骤(b)-(d)；由此鉴定与多个靶结合的适体结合物。

在某些实施方式中，在分开的反应中将权利要求1的步骤(e)重复多次，每个反应含有潜在靶。

本文中描述的在本文中被称为RCHT SELEX的SELEX方法，被设计成具有对于将机器学习(ML)整合到SELEX流程中来说理想的流程(例如优先考虑计算需求)。还描述了另外的SELEX方法，其在本文中被称为N-端SELEX(或N-端氨基酸(NTAA)SELEX)，并被设计成具有对于小的和/或困难的靶来说理想的流程(例如优先考虑实验需求)。

尽管所述两种SELEX方法均可以根据需要进行修改，但所述两种方法之间的差异可以包括：

(a)在被称为SELEX-RCHT的方法中培育通常在所述方法的SELEX部分开始之前进行，从而将初始输入池减少到10^12个分子。另一方面，在被称为SELEX-NTAA的方法中通常不包括培育，并且在某些情况下没有培育效果会更好。因此，SELEX-NTAA方法通常从10^14-10^15个随机适体的池开始。

(b)使用SELEX-RCHT方法的反应通常使用平行进行的平行样(例如2至3个平行反应)；使用SELEX-NTAA方法时平行反应通常不是必需的，以便可以平行进行尽可能多的实验。

(c)使用SELEX-RCHT方法的对照反应通常以平行反应进行，其占用12个可能的培育输入中的3个；当使用SELEX-NTAA方法时对照反应的平行样不是必需的，尽管建议在每个实验中运行一个靶以确定总体实验失败或污染。(4)RCHT需要一些噪声测量(例如假SELEX)以确定模型的PCR偏差；NTAA不需要将背景真值与噪声测量值分开，但信号从富集曲线和测试排名靠前的候选物确定。

(d)SELEX-NTAA方法使用靶切换步骤，这允许追寻小的或困难的靶(或较大靶的子区域)；SELEX-RCHT方法通常不使用这个额外的步骤。

(e)SELEX-NTAA方法并入了反选择的额外步骤，特别是在追寻靶的子区域时，以分离最佳的实验结合物。SELEX-RCHT方法不包括反选择步骤，然而反选择步骤可用于SELEX-RCHT方法，只要这种反选择步骤单独地或与所述方法的其他步骤相组合小心地使用以避免使结果偏差即可。

一方面，提供了对蛋白质或肽测序的方法。此类方法通常包括：(a)将所述蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含肽结合性ssDNA区域和指示所述第一测序轮次和相关的肽结合性ssDNA区域的独特条形码序列；(b)将所述结合到蛋白质或肽的N-端的DNA适体连接到其近端的DNA条形码构建物上；(c)从所述DNA适体移除所述肽结合序列，从而仅留下所述DNA适体的条形码和用于后续连接的短的共有序列共价附连到所述DNA条形码构建物上，以便记录所述结合物的身份以及因此所述肽的N-端的假设氨基酸的身份；(d)从所述蛋白质或肽移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；(e)将所述N-端氨基酸缩短的蛋白质或肽与对至少一个氨基酸表现出结合特异性的适体的文库在其中一个或多个适体特异性结合到所述N-端氨基酸缩短的蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含肽结合性ssDNA区域和指示所述第二测序轮次和相关的肽结合性ssDNA区域的独特条形码序列；(f)将所述结合到蛋白质或肽的N-端的DNA适体连接到其近端的DNA条形码构建物上；(g)从所述DNA适体移除所述肽结合序列，从而仅留下所述DNA适体的条形码和用于后续连接的短的共有序列共价附连到所述DNA条形码构建物上，以便记录所述结合物的身份以及因此所述肽的N-端的假设氨基酸的身份；(h)从所述N-端氨基酸缩短的蛋白质或肽移除所述N-端氨基酸；(i)将步骤(a)-(d)重复多次，以构建对应于所述蛋白质或肽中的连续N-端氨基酸的位置条形码的链；以及(j)对所述位置条形码的链进行测序，由此获得所述蛋白质或肽的序列。

在某些实施方式中，所述蛋白质或肽来自于合成样品、生物学样品或其组合。在某些实施方式中，所述生物学样品选自血液、尿液、唾液、组织活检样品、痰液、粪便、单个细胞、环境样品、细菌拭子或含有肽或蛋白质的任何样品。

在某些实施方式中，所述蛋白质或肽是全长蛋白质、肽片段或包含在复合体内的蛋白质或肽。在某些实施方式中，所述方法还包括在步骤(a)之前将所述蛋白质或肽片段化。在某些实施方式中，所述片段化步骤包括将所述蛋白质或肽用胰蛋白酶、Lys-C、另一种片段化酶、可选的蛋白质片段化或降解方法或其组合片段化。

在某些实施方式中，将所述蛋白质或肽的C-端末端附连到固相支持物。在某些实施方式中，将所述蛋白质或肽的C-端末端附连到寡核苷酸尾部。在某些实施方式中，移除所述适体包括使用限制性酶在限制性位点处切割所述适体。在某些实施方式中，利用流体静力学方法将所述适体附连到所述条形码，并且所述肽结合序列的移除通过氢键破坏(而不是通过限制性酶的DNA切割)来介导。

在某些实施方式中，所述移除N-端氨基酸的步骤包括所述蛋白质或肽的Edman降解、用一种或多种氨肽酶、热、pH或其组合切割所述蛋白质或肽。在某些实施方式中，所述测序步骤使用下一代测序(NGS)平台。在某些实施方式中，分析与已知蛋白质的氨基酸序列相关的测序读出的数目，以确定样品中蛋白质的相对量。

在某些情况下，提供了鉴定新的生物标志物的方法。此类方法通常包括：(a)根据本文中描述的方法提供来自于感兴趣的生物学样品和对照或比较生物学样品的蛋白质样品；(b)任选地除去非常高浓度的已知蛋白质；(c)执行本文中描述的方法的步骤(a)-(j)；(d)除去与通常高表达的蛋白质或污染物相关的高浓度DNA条形码构建物序列，以便提高与低表达蛋白质相比于高表达蛋白质相关的DNA条形码构建物的比率，从而产生比率调整过的DNA条形码；(e)对所述sup-diff后的DNA条形码构建物进行PCR扩增；以及(f)将与来自于对照样品的每种低表达蛋白质相关的测序读出的数目与感兴趣的样品进行比较，从而鉴定在对照样品与感兴趣的样品之间具有显著不同的相对表达水平的假设的生物标志物。

在某些实施方式中，提供了使用本文中描述的蛋白质测序方法评估疾病状态、评估对治疗的反应、预测治疗反应或其组合的方法，其中所述疾病的一种或多种征兆是已知蛋白质生物标志物的异常表达水平。此类方法通常包括：(a)根据本文中描述的方法提供来自于患者样品的蛋白质样品；(b)任选地剥离非常高浓度的已知蛋白质；(c)执行本文中描述的方法的步骤(a)-(j)；(d)除去与通常高表达的蛋白质或污染物相关的高浓度DNA条形码构建物序列，以便提高与低表达蛋白质相比于高表达蛋白质相关的DNA条形码构建物的比率，从而产生比率调整过的DNA条形码；(e)对所述sup-diff后的DNA条形码构建物进行PCR扩增；(f)通过分析与已知蛋白质生物标志物相关的测序读出的数目来确定已知生物标志物的相对量；以及(g)确定存在或不存在已知生物标志物的表达水平与标准值的偏离，从而评估疾病状态、评估对治疗的反应、预测治疗反应或其组合。

在某些实施方式中，所述适体文库使用本文中描述的RCHT-SELEX方法产生。在某些实施方式中，所述适体对一个N-端氨基酸表现出结合特异性。在某些实施方式中，所述适体对两个或更多个N-端氨基酸表现出结合特异性。在某些实施方式中，所述指示适体的相关肽结合性ssDNA区域和测序轮次的独特条形码序列包括约6至约20个核苷酸。在某些实施方式中，所述适体构建物的BCS相容性部分可以包含与本文中所描述的适体杂交的一个或多个互补DNA序列。在某些实施方式中，近端DNA条形码基底含有指示所述相关蛋白质或肽(如果已知的话)或所述蛋白质或肽所源自的样品的独特条形码。

另一方面，提供了用于蛋白质或肽测序的制品。此类制品通常包括DNA适体的文库，其中所述文库的每个成员对至少一个N-端氨基酸表现出结合特异性。

在某些实施方式中，所述文库的每个成员包含指示循环数(例如第一、第二、第三等)的共同序列和独特条形码序列。在某些实施方式中，所述文库的每个成员包含限制性位点。在某些实施方式中，所述文库的每个成员还包含用于连接、退火或其组合的至少一个序列。

本文中描述的方法也可用于测序全长蛋白质。

本文中描述的方法也可用于测序蛋白质复合体内的蛋白质。

本文中描述的方法也可用于测序复杂蛋白质池内的蛋白质。

本文中还描述了克服由于作为Edman降解的结果而使测序芯片表面上的功能性P5接头被移除而产生的困难的其他方法。测序芯片表面上功能性P5接头的丧失阻止了DNA条形码构建物的簇集，并因此阻止了在同一芯片上直接测序的能力。

在某些实施方式中，在建立了含有指示肽的适体结合顺序的DNA条形码的链的DNA条形码构建物后，可以将所述构建物在芯片上扩增，或从芯片上切割下来并在溶液中扩增。使用的扩增方法可以包括但不限于PCR、环介导等温扩增、基于核酸序列的扩增、链置换扩增和多重置换扩增。此外，可以将原始DNA条形码构建物在芯片上转录成大量RNA构建物，然后可以将其转变成包括原始DNA条形码的许多拷贝的cDNA文库。所述作为原始DNA条形码构建物的拷贝的扩增产物可以从微流体室中移除，并使用标准的DNA测序方法包括但不限于Sanger测序、NGS、离子半导体测序、SOLiD技术、cPAS等测序。读出的数目可以被归一化到PCR循环的数目，用于估算从所述初始样品测序的每种蛋白质或肽的量。

在某些实施方式中，本文描述的方法可以利用芯片上可用的空P7接头来进行簇产生。在建立DNA条形码构建物后，可以将至少含有(a)反义限制性位点和(b)芯片上的P7接头的反向互补链的第二测序引物接头连接到所述条形码构建物的3’末端。在所述条形码构建物的桥扩增后，可以选择性地切割所述反向链以允许在每个单独的簇中进行准确的碱基调用。

另一方面，提供了记录多个假设结合物与多个靶之间的一个或多个结合事件的方法(BCS结合测定法)。此类方法通常包括：(a)将已知的假设结合配偶体与带有DNA条形码的结合亲和性和特异性未知的结合物的文库温育，其中所述文库内的每个结合物包含靶结合物和指示所述相关结合物的独特条形码序列；(b)将所述靶结合物的DNA条形码连接到它的近端DNA条形码构建物上，所述构建物本身可能含有独特条形码；(c)任选地移除所述靶结合物，从而仅留下所述靶结合物的条形码和用于后续连接的短的共有序列共价附连到所述DNA条形码构建物，以便记录所述结合物的身份以及因此所述结合的靶的假设身份；(d)任选地重复步骤(b)-(c)用于多轮验证；(e)任选地，如果所述结合物是适体，则在步骤(c)中不移除所述靶结合物，而是连接测序接头，以便测序将通过所述结合物的核酸序列直接进行；并且(f)连接适合的测序接头；以及(g)测通所述基底和结合物条形码，从而鉴定多个靶和它们的结合配偶体。

代表性的结合物包括但不限于适体、抗体和其他小分子结合物。代表性的靶包括但不限于肽、蛋白质和蛋白质复合体、脂类分子、病毒、超微细菌和无机分子。

在某些实施方式中，所述假设的结合物被连接在固体基材上，并且所述靶用DNA条形码尾部并在溶液中修饰。

一方面，提供了使用带荧光标签的适体对蛋白质或肽进行测序的方法。此类方法通常包括：(a)提供附连有至少一个蛋白质或肽的固相支持物，其中所述至少一个蛋白质或肽通过核酸连接物附连到所述固相支持物，其中所述核酸连接物包含测序接头序列；(b)将所述蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含独特光学特征；(c)检测所述独特光学特征和所述独特光学特征的位置；(d)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；(e)将所述N-端氨基酸缩短的蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含肽结合性ssDNA区域和独特条形码序列，所述条形码序列包含指示所述第一次探针迭代和相关的肽结合性ssDNA区域的单个DNA条形码；(f)检测所述独特光学特征和所述独特光学特征的位置；(g)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；(h)将步骤(b)-(g)重复多次，以构建光学条形码的位置链；由此获得所述蛋白质或肽的序列。

另一方面，提供了使用与带荧光标签的探针互补的适体对蛋白质或肽进行测序的方法。此类方法通常包括：(a)提供附连有至少一个蛋白质或肽的固相支持物，其中所述至少一个蛋白质或肽通过核酸连接物附连到所述固相支持物，其中所述核酸连接物包含测序接头序列；(b)将所述蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含一系列与指示所述测序轮次和相关的肽结合性ssDNA区域的光学标记的核酸探针互补的一个或多个序列，并且其中所述探针杂交区域被杂交到保护性互补寡核苷酸；(c)变性并洗掉所述保护性互补寡核苷酸；(d)将所述结合的适体与互补于所述适体条形码尾部的特定区域的带荧光标签的寡核苷酸探针温育；(e)检测所述独特光学特征和所述独特光学特征的位置；(f)变性并洗掉结合的探针；(g)将步骤(d)-(f)重复所需的迭代次数；(h)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；(i)将步骤(b)-(h)重复多次，以构建光学条形码的位置链；由此获得所述蛋白质或肽的序列。

另一方面，提供了使用本文中描述的任何蛋白质测序方法鉴定新的生物标志物的方法。此类方法通常包括：(a)提供来自于感兴趣的生物学样品和对照或比较生物学样品的蛋白质样品；(b)任选地除去非常高浓度的已知蛋白质；(c)执行权利要求1所述的方法的步骤(a)-(h)或权利要求2所述的步骤(a)-(i)；(d)将与来自于对照样品的每种低表达蛋白质相关的光学条形码读出的数目与感兴趣的样品进行比较；由此鉴定在对照样品与感兴趣的样品之间具有显著不同的相对表达水平的假设的生物标志物。

另一方面，提供了使用本文描述的蛋白质测序方法来评估疾病状态、评估对治疗的反应、预测治疗反应或其组合的方法，其中所述疾病的一种或多种征兆是已知蛋白质标志物的异常表达水平。此类方法通常包括：(a)提供来自于患者样品的蛋白质样品；(b)任选地剥离非常高浓度的已知蛋白质；(c)执行权利要求1所述的方法的步骤(a)-(h)或权利要求2所述的步骤(a)-(i)；(d)通过分析与已知蛋白质生物标志物相关的光学条形码读出的数目来确定已知生物标志物的相对量；由此确定存在或不存在已知生物标志物的表达水平与标准值的偏离。

另一方面，提供了使用本文中描述的蛋白质测序方法来筛选潜在抗体的方法。此类方法通常包括：(a)提供来自于已免疫接种和未免疫接种生物学样品的血浆样品；(b)任选地剥离非常高浓度的已知蛋白质；(c)任选地分离免疫球蛋白；(d)执行本文中描述的方法的步骤(a)-(h)或本文中描述的方法的步骤(a)-(i)；(e)将与来自于未免疫接种样品的每种多肽相关的光学条形码读出的数目与感兴趣的已免疫接种样品进行比较；由此鉴定在未免疫接种样品与感兴趣的已免疫接种样品之间具有显著不同的相对表达水平的假设的抗体。

在某些实施方式中，所述方法还包括在步骤(a)之间将所述蛋白质或肽片段化。在某些实施方式中，所述片段化步骤包括使用胰蛋白酶、另一种片段化酶或其组合将所述蛋白质或肽片段化。

在某些实施方式中，所述蛋白质或肽的C-端末端被附连到固相支持物。在某些实施方式中，所述蛋白质或肽的C-端末端被附连到寡核苷酸尾部。在某些实施方式中，在步骤(b)之后和步骤(c)之前将所述适体任选地交联到所述N-端氨基酸。

在某些实施方式中，所述蛋白质或肽来自于生物学样品。在某些实施方式中，所述生物学样品选自血液、尿液、唾液、组织活检样品、痰液、粪便、单个细胞、环境样品、细菌拭子或含有肽或蛋白质的任何样品。在某些实施方式中，所述蛋白质或肽是全长蛋白质、肽片段或包含在复合体内的蛋白质或肽。

在某些实施方式中，所述独特的标记物选自荧光团、染料、纳米镧系元素和量子点。在某些实施方式中，所述光学标记的探针是与条形码序列互补的寡核苷酸。在某些实施方式中，在探针温育的同一次迭代中将一种或多种颜色的一种或多种寡核苷酸探针杂交到所述适体条形码尾部。在某些实施方式中，所述检测步骤使用光学成像、全内反射荧光(TIRF)、超分辨率显微镜、结构光学显微镜、广视野显微镜或共聚焦显微镜来进行。

在某些实施方式中，所述适体文库包含在与适体结合无关的区域中部分为dsDNA的适体。在某些实施方式中，将所述dsDNA变性并将所述保护性互补寡核苷酸洗掉。在某些实施方式中，将所述结合的适体用PFA交联到所述N-端氨基酸。在某些实施方式中，所述移除适体的步骤包括用限制性酶切割所述适体。在某些实施方式中，所述移除N-端氨基酸的步骤包括所述蛋白质或肽的Edman降解、用一种或多种氨肽酶、热、pH或其组合切割所述蛋白质或肽。

在某些实施方式中，所述被适体文库中的成员识别的氨基酸是天然氨基酸、未修饰的氨基酸和修饰的氨基酸。在某些实施方式中，所述适体文库使用本文中描述的RCHT-SELEX方法来产生。在某些实施方式中，所述适体对一个N-端氨基酸表现出结合特异性。在某些实施方式中，所述适体对两个或更多个N-端氨基酸表现出结合特异性。

一方面，提供了筛选DNA适体文库中蛋白质或肽结合配偶体的方法。此类方法通常包括：(a)将多个蛋白质或肽与可能对蛋白质或肽表现出结合特异性的DNA适体候选物的文库在所述适体特异性结合到所述多个蛋白质或肽中的蛋白质或肽的条件下温育，其中所述多个蛋白质或肽中的每个蛋白质或肽包含DNA桥退火序列和独特的DNA条形码，其中所述文库内的每个适体包含DNA桥退火序列；(b)将所述带条形码的蛋白质或肽和DNA适体候选物的池与短寡核苷酸桥温育，其中所述短寡核苷酸桥的一部分与所述适体的3’末端处的桥退火序列互补，并且其中所述短寡核苷酸桥的另外的部分与偶联到5’肽尾部的桥退火序列互补；(c)将所述适体文库的每个元件的特异性结合到多肽的桥退火部分连接到那些通过寡核苷酸桥相连的多肽的桥退火部分；(d)扩增所述文库内特异性结合到所述蛋白质或肽的适体；(e)将步骤(a)-(d)重复多次，以鉴定对每个蛋白质或肽表现出结合特异性的适体；以及(f)对所述退火的适体和DNA条形码进行测序；从而鉴定多个多肽和它们的适体结合配偶体。

在某些实施方式中，所述扩增步骤包括进行嵌套PCR。在某些实施方式中，所述方法还任选地包括在步骤(d)之前将所述蛋白质或肽与它们特异性结合的适体分开并纯化所述适体。在某些实施方式中，所述测序步骤使用下一代测序(NGS)平台。

一方面，提供了产生带条形码的多肽的方法。此类方法通常包括：在每个细胞中引入约一个构建物的条件下将表达构建物转化到微生物细胞中，其中所述表达构建物包含的核酸编码：(a)包含所述多肽、纯化标签和核酸结合蛋白(naBP)的融合蛋白；和(b)被所述naBP识别的核酸序列和独特的核酸条形码；以及将所述微生物在所述构建物被表达，并且所述融合蛋白的naBP部分与所述naBP识别序列结合的条件下培养，从而产生带条形码的多肽。

在某些实施方式中，所述微生物细胞选自选自真核或原核细胞。在某些实施方式中，所述方法还包括纯化所述带条形码的多肽。在某些实施方式中，所述表达构建物包含任何拷贝数的与所述宿主生物体相容的复制原点。在某些实施方式中，表达由与所述宿主生物体相容的组成型、诱导型或阻遏型启动子的任何组合驱动。在某些实施方式中，所述系统的组分使用不同的启动子来表达。在某些实施方式中，所述系统的组分使用存在于所述表达构建物内的不同位置处的相同启动子来表达。在某些实施方式中，所述组分使用Gal 1,10-双向启动子、ADH1、GDS、TEF、CMV、EF1a、SV40、T7、lac或与所述宿主生物体相容的任何其他启动子和启动子组合来表达。

在某些实施方式中，所述纯化步骤包括使用与所述编码的纯化标签对应的下拉法下拉所述带条形码的多肽。在某些实施方式中，所述免疫沉淀步骤包括用蛋白质纯化磁珠(例如抗His抗体、琼脂糖、镍等)下拉所述带条形码的多肽。在某些实施方式中，所述方法还包括使用温和的洗脱缓冲液例如甘氨酸从所述珠子洗脱所述带条形码的多肽，以在不使所述RNA-蛋白质/肽结合变性的情况下释放出所述融合肽。

在某些实施方式中，所述多肽包含一个或多个位点特异性蛋白酶切割位点，以便使用位点特异性蛋白酶(例如肠激酶、因子Xa、烟草蚀纹病毒蛋白酶、凝血酶)从抗亲和标签珠子释放出所述带条形码的多肽。在某些实施方式中，所述核酸序列包含限制性酶切割位点，以便使用限制性核酸内切酶从所述珠子释放出所述带条形码的多肽。

在某些实施方式中，所述被核酸结合蛋白识别的核酸序列和所述核酸结合蛋白是MS2 RNA发夹或其变体和MS2噬菌体外壳蛋白或其突变体。在某些实施方式中，所述被核酸结合蛋白识别的核酸和所述核酸结合蛋白是boxB序列或其变体和噬菌体抗终止蛋白N(λN)。

在某些实施方式中，在带条形码的多肽纯化之前将所述细胞用UV辐射照射。在某些实施方式中，将所述纯化的复合体用UV辐射照射。

另一方面，提供了通过本文中描述的方法制造的带DNA条形码的多肽或蛋白质。

另一方面，提供了产生对序列内容具有高度控制的dsDNA寡核苷酸的方法。此类方法通常包括：(a)使用dsDNA连接酶将在序列延伸方向上具有5’磷酸化的单核苷酸突出部的dsDNA第一位LEGO块连接到在每个末端处均具有5’磷酸化的单核苷酸突出部的dsDNA第二位LEGO块，所述第二位LEGO块的一个突出部与所述第一位LEGO块的突出部互补，另一个突出部不互补，从而在所述第二位LEGO块上在序列延伸方向上留下一个5’磷酸化的单核苷酸突出部；(b)使用dsDNA连接酶将所述dsDNA第二位LEGO块连接到在每个末端处均具有5’磷酸化的单核苷酸突出部的dsDNA第三位LEGO块，所述第三位LEGO块的一个突出部与所述第二位LEGO块的突出部互补，另一个突出部不互补，从而在所述第三位LEGO块上在序列延伸方向上留下一个5’磷酸化的单核苷酸突出部；(c)将步骤(a)-(b)重复多次，直至序列构建物比所需长度短一个LEGO块；以及(d)将所述序列构建物连接到在序列延伸的相反方向上具有5’磷酸化的单核苷酸突出部的dsDNA最后位LEGO块。

在某些实施方式中，所述LEGO块的3’或5’修饰与所使用的dsDNA连接酶相容。在某些实施方式中，为了产生随机文库，在需要多样性的特定位置处使用LEGO块的非均质池。在某些实施方式中，所述双链LEGO块使用T4 DNA连接酶或与所选连接酶利用的3’或5’末端修饰相容的任何其他dsDNA连接酶进行酶法连接。在某些实施方式中，所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。在某些实施方式中，所述第一位dsDNA LEGO块是PCR引物。在某些实施方式中，所述最后位dsDNA LEGO块是PCR引物。在某些实施方式中，将所述dsDNA产物PCR扩增以产生具有平行样的文库。在某些实施方式中，将所述PCR扩增后的dsDNA产物消化，以产生ssDNA文库。

另一方面，提供了产生对序列内容具有高度控制的ssDNA寡核苷酸的方法。此类方法通常包括：(a)将ssDNA第一位LEGO块的3’末端连接到第二位ssDNA LEGO块的5’末端，其中参与所述连接的末端之一被磷酸化；(b)将所述ssDNA第二位LEGO块的3’末端连接到第三位ssDNA LEGO块的5’末端，其中参与所述连接的末端之一被磷酸化；(c)将步骤(a)-(b)重复多次，直至序列构建物比所需长度短一个LEGO块；以及(d)将所述序列构建物连接到最后位LEGO块。

在某些实施方式中，所述LEGO块的3’或5’修饰与所使用的ssDNA或RNA连接酶相容。在某些实施方式中，单链LEGO块使用RtcB ssRNA连接酶、CircLigase或与所选连接酶所需的3’或5’末端修饰相容的任何其他ssDNA或RNA连接酶进行酶法连接。在一个实施方式中，所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。在某些实施方式中，所述第一位ssDNA LEGO块是PCR引物。在某些实施方式中，所述最后位ssDNA LEGO块是PCR引物。在某些实施方式中，将所述ssDNA产物PCR扩增以产生双链平行样的文库。在某些实施方式中，将所述PCR扩增后的dsDNA产物消化以产生ssDNA文库。

另一方面，提供了产生对序列内容具有高度控制的RNA寡核苷酸的方法。此类方法通常包括：(a)将RNA第一位LEGO块的3’末端连接到第二位RNA LEGO块的5’末端，其中参与所述连接的末端之一被磷酸化；(b)将所述RNA第二位LEGO块的3’末端连接到第三位RNALEGO块的5’末端，其中参与所述连接的末端之一被磷酸化；(c)将步骤(a)-(b)重复多次，直至序列构建物比所需长度短一个LEGO块；以及(d)将所述序列构建物连接到最后位LEGO块。

在某些实施方式中，所述LEGO块的3’或5’修饰与所使用的RNA连接酶相容。在某些实施方式中，RNA LEGO块使用与所选连接酶所需的3’或5’末端修饰相容的任何RNA连接酶进行酶法连接。在某些实施方式中，所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。在某些实施方式中，所述第一位RNA LEGO块是PCR引物。在某些实施方式中，所述最后位RNA LEGO块是PCR引物。在某些实施方式中，为了产生ssDNA文库，将所述RNA产物反转录成cDNA，用DNA聚合酶合成第二链，将所述dsDNA产物PCR扩增，并消化反义链。

另一方面，提供了通过本文中描述的任何方法制造的寡核苷酸池。

定义

核酸可以是单链或双链的，这通常取决于它的目标用途。当在本文中使用时，“分离的”核酸分子是不含在所述分离的核酸分子所源自的生物体的基因组中天然位于所述核酸的一个或两个末端侧翼的序列的核酸分子(例如通过PCR或限制性核酸内切酶消化产生的cDNA或基因组DNA片段)。这种分离的核酸分子通常被引入到载体(例如克隆载体或表达载体)中以便于操作或产生融合核酸分子，其在下文更详细讨论。此外，分离的核酸分子可以是工程化改造的核酸分子例如重组或合成的核酸分子。

适体是单链核酸序列，其可以由RNA、DNA、XNA例如TNA、修饰的核酸(例如将天然DNA核苷酸用可选的官能团替换(Chelsea等，2019和Pfeiffer等，2017))或其他合成核酸类似物构成。适体通常使用SELEX测定法鉴定，所述测定法主要依赖于使用PCR一轮轮扩增的序列的多样化池的演变。适体序列通常具有20-45个碱基对(bp)加上另外的侧翼引物区(对于正向和反向引物来说通常各自具有20-23bp的长度)。毛细管电泳SELEX(CE-SELEX)不依赖于使用带有引物区的适体，然而CE-SELEX限于nL级的工作体积，从而将最初的序列起始池从10¹⁴-10¹⁶限制到10⁸-10⁹。

当在本文中使用时，“纯化的”多肽是已从天然与其相伴的细胞组分中分离或纯化的多肽。通常，当多肽以干重计至少70％(例如至少75％、80％、85％、90％、95％或99％)不是天然与其相伴的多肽和天然存在的分子时，它被认为是“纯化的”。由于化学合成的多肽从本质上说与天然与其相伴的组分分开，因此合成的多肽是“纯化的”。

核酸可以使用本领域中常规的技术来分离。例如，核酸可以使用包括但不限于重组核酸技术和/或聚合酶链反应(PCR)的任何方法来分离。普通PCR技术描述在例如《PCR引物实验指南》(PCR Primer:A Laboratory Manual)，Dieffenbach&Dveksler主编，ColdSpring Harbor Laboratory Press,1995中。重组核酸技术包括例如限制性酶消化和连接，其可用于分离核酸。分离的核酸也可以通过传统方法例如珠子纯化、酶消化、柱纯化等，作为单一核酸分子或作为一系列寡核苷酸被化学合成。

多肽可以通过已知的方法例如DEAE离子交换、凝胶过滤、HIS标签珠子下拉法、亲和层析和羟基磷灰石层析，从天然来源(例如生物学样品)纯化。多肽也可以例如通过将核酸在表达载体中表达来纯化。此外，纯化的多肽可以通过化学合成来获得。多肽的纯度可以使用任何适合的方法来测量，例如柱层析、聚丙烯酰胺凝胶电泳或HPLC分析。

还提供了含有核酸(例如编码多肽的核酸)的载体。包括表达载体在内的载体是可商购的，或者可以通过本领域中常规的重组DNA技术产生。含有核酸的载体可以具有可操作连接到此类核酸的表达元件，并且还可以包括诸如编码可选择标志物的序列(例如抗生素抗性基因)。含有核酸的载体可以编码嵌合或融合多肽(例如可操作连接到异源多肽的多肽，所述异源多肽可以在所述多肽的N-端或C-端处)。代表性的异源多肽是可用于所述编码多肽的纯化的多肽(例如6xHis标签、谷胱甘肽S-转移酶(GST))。

表达元件包括指导和调控核酸编码序列的表达的核酸序列。表达元件的一个实例是启动子序列。表达元件也可以包括调节核酸表达的内含子、增强子序列、响应元件或诱导型元件。表达元件可以是细菌、酵母、昆虫、哺乳动物或病毒来源的，并且载体可以含有来自于不同来源的元件的组合。当在本文中使用时，可操作连接意味着启动子或其他表达元件在载体中相对于核酸以指导或调控所述核酸的表达的方式放置。

本文中描述的载体可以被引入到宿主细胞中。当在本文中使用时，“宿主细胞”是指核酸被引入到其中的特定细胞，并且也包括此类细胞的带有所述载体的后代。宿主细胞可以是任何原核或真核细胞。例如，核酸可以在细菌细胞例如大肠杆菌中或在昆虫细胞、酵母或哺乳动物细胞(例如中华仓鼠卵巢细胞(CHO)或COS细胞)中表达。其他适合的宿主细胞对于本领域技术人员来说是已知的。用于在体外和体内将核酸引入到宿主细胞中的许多方法对于本领域技术人员来说是公知的，并且包括但不限于电穿孔、磷酸钙沉淀、聚乙二醇(PEG)转化、热冲击、脂染、微注射和病毒介导的核酸转移。

当在本文中使用时，“特异性”识别或“特异性”结合是指分子在已知操作浓度范围内对给定靶表现出高底物特异性，并且对任何其他靶表现出非常低或没有底物特异性。

当在本文中使用时，“半特异性”识别或“半特异性”结合是指分子对已知靶表现出高底物特异性，并对一部分其他靶表现出中至低结合特异性。

当在本文中使用时，“前缀”至少是指N-端氨基酸，并且也可能包括在蛋白质或肽的N-端的倒数第二位N-端氨基酸。

当在本文中使用时，“后缀”是指在肽中在如上所定义的“前缀”氨基酸的C-端的一个或多个氨基酸。

当在本文中使用时，“DNA条形码”是指带有指示至少一个分子的身份的信息的寡核苷酸序列。尽管条形码在整个本文中被称为“DNA”的构建物，但条形码分子实际上可能包含DNA、RNA、XNA、修饰的核酸或其组合。

当在本文中使用时，“DNA条形码构建物”是指包含至少两个DNA条形码的DNA链。

当在本文中使用时，“条形码测序(BCS)相容的”适体是指一种部分双链的适体，其中不参与靶结合的一个或多个区域可以与互补的寡核苷酸杂交，并且可以含有也可以不含突出部。

当在本文中使用时，“阻断的适体”是指一种部分双链的适体，其中至少所述适体的引物区而不是适体区本身可以与保护性互补寡核苷酸杂交。

当在本文中使用时，“sup-diff”是指一种除去高表达蛋白质的DNA条形码构建物的方法。

当在本文中使用时，“光学条形码”或“光学特征”是指直接整合到寡核苷酸中或通过一个或多个结合物附连的带有荧光标签的分子的检测。

当在本文中使用时，“光学条形码”是指光学特征的有序组合。

当在本文中使用时，“dsDNA LEGO块”是指在一个或两个末端处带有5’核苷酸突出部(例如一个或多个核苷酸)的5个或更多个碱基对长的DNA寡核苷酸，其中在至少一条链上最5’-端的核苷酸被磷酸化。

当在本文中使用时，“ssDNA LEGO块”是指具有磷酸化的3’或5’末端的5个或更多个核苷酸长的DNA寡核苷酸。

当在本文中使用时，“RNA LEGO块”指具有磷酸化的3’或5’末端的5个或更多个核苷酸长的RNA寡核苷酸。

除非另有定义，否则本文中使用的所有技术和科学术语均具有与主题方法和组合物所属领域的普通技术人员通常理解的相同的含义。尽管与本文中所描述的相似或等同的方法和材料可用于主题方法和组合物的实践或试验，但在下文中描述了适合的方法和材料。此外，所述材料、方法和实例仅仅是说明性的而不打算是限制性的。本文中提到的所有出版物、专利申请、专利和其他参考文献整体通过参考并入本文。

附图说明

图1是描绘了本文中描述的所有各个发明如何组成开发PROSEQ平台的流水线的示意图。

图2是示出了双氨基酸身份冗余方案的示意图，其中每个二肽适体结合事件提供了两个N-端氨基酸的假设的身份，而每一轮降解仅移除一个氨基酸从而允许除了原始的N-端氨基酸之外的每个氨基酸暴露于两轮适体结合。

图3A是示出了代表性常规SELEX方法中的步骤的示意图。

图3B是示出了本文中描述的ML-SELEX方法的一个实施方式中的步骤的示意图。

图4A的示意图显示，常规的SELEX方法除了与所需靶结合的适体(“特异性高亲和性结合物”)之外还可以不合需要地富集与选择过程的组分结合的适体(“非特异性高亲和性结合物”)。

图4B的示意图显示，在本文描述的SELEX方法中增加负选择步骤，通过在培育扩增或输入到SELEX中之前首先除去与珠子、生物素、寡核苷酸或其他选择组分结合的适体，可以减少与选择组分非特异性结合的适体的最终富集。

图5A是演示了RCHT-SELEX程序中的各个不同步骤(来自于图2)的示意图，在所述程序中可以并入单次培育实验、双重培育实验和/或实验内平行样。

图5B是演示了在本文中描述的RCHT-SELEX方法期间可以平行或顺序使用的单次培育实验、双重培育实验、实验内平行样和全珠子对照实验的示意图。

图6是示出了RCHT-SELEX的基于珠子的多重化版本的示意图，其允许在每次实验中选择针对多个靶的适体。在RCHT-SELEX的基于珠子的多重化版本中鉴定的适体可以在最后一轮中，通过将那些适体分别与偶联到初始靶中的仅仅一者的珠子温育而去多重化。

图7是不依赖于肽的后缀尾部组成而特异性结合到N-端氨基酸前缀的适体的鉴定方法的示意图，所述方法包括在迭代的轮次中测定适体，其中在不同轮次中肽后缀被改变，而所需的N-端氨基酸前缀保持相同。示出了四种类型的迭代：二肽切换(第1列)，其中N-端氨基酸保持相同，而后缀被切换；单个氨基酸切换(第2列)；始终如一的肽靶(第3列)；完全切换或空(第4列)，其中在交替的轮次之间肽靶完全不同。

图8是示出了可以如何使用λ核酸外切酶将双链(ds)DNA转变成单链(ss)DNA的示意图。λ核酸外切酶以大约20:1的比率偏向于降解在5’末端上磷酸化的靶。为了折叠并与肽结合，适体必须是单链的，因此将结合的适体用特异性保护/磷酸化的引物进行PCR扩增，这产生dsDNA，然后用λ核酸外切酶消化以转化扩增的产物，以使正向ssDNA适体存活。

图9A–9C是电泳图，显示了在Agilent的Bioanalyzer Chip系统上使用Small RNA试剂盒监测随机适体文库的λ内切核酸酶消化程度。示出了对应于(A)dsDNA、(B)部分消化的DNA和(C)ssDNA适体的代表性生物分析仪曲线。数据被显示在每个电泳图右侧的凝胶样图像中，绿色线代表RNA标志物。在将每个适体文库引入到每个新的RCHT-SELEX轮次之前，进行向ssDNA的完全转化的确认。

图10A–10C是示意图，示出了在本文描述的SELEX方法中可以使用掺有寡核苷酸的对照和假实验。在96孔板的特定孔中添加的位置掺入物可用于确定孔之间的局部污染(A)。在SELEX的不同阶段(即在培育之前、每轮温育后PCR扩增之前和每个NGS样品中)添加不同的掺入物，以确定每个步骤的PCR偏差步骤(B)。在假SELEX中，将取出的培育物在不存在珠子和靶的情况下温育并进行PCR扩增(C)。

图11A是示出了阈值PCR的示意图，其中对来自于不同浓度的不同样品的相近浓度的DNA进行PCR扩增，以确保在后续的SELEX轮次中在每个反应中引入相近的输入量。

图11B是显示了来自于阈值PCR之前(上图)和之后(下图)的DNA池的测序运行的每个8mer组合的表达强度的图。X和Y轴是每个可能的4mer DNA序列。池之间的表达强度比较极为相近，对数方差为0.132。

图11C是热图，报告了图11B中来自于阈值PCR之后和之前的DNA池的测序运行的每个8mer组合的表达强度的商的对数比率。最小的(黑色)信号证实阈值PCR可以减少复合偏差的影响。

图12是示意图，示出了引物切换可用于选择不依赖于引物区的具有结合亲和性的适体。

图13是示出了本文中描述的肽测序方法的示意图。步骤0包括建立由5’磷酸化的条形码基底、正向和反向共定位连接物和带有以3’末端连接到蛋白质或肽和游离的磷酸化的5’末端取向的C-端寡核苷酸序列标签的蛋白质或肽靶(PT)构成的基底；步骤1包括将所述肽-基底复合体连接在固体基材上；步骤2包括将所述结合的蛋白质或肽与带条形码的适体文库在允许适合的适体特异性结合到适合的N-端氨基酸的条件下温育；步骤3包括将适体尾部连接到结合到所述基材的第二寡核苷酸上；并且步骤4包括切掉所述适体，留下与结合到所述第二寡核苷酸的特定氨基酸结合的DNA条形码。在使用Edman降解和/或氨肽酶从所述蛋白质或肽除去N-端氨基酸后，重复步骤2-5，产生可用于鉴定每个后续N-端氨基酸的DNA条形码的链。

图14是示出了适体尾部和桥寡核苷酸的构建物的示意图。图14A是描绘了条形码特异性桥的示意图，其中所述桥与包括条形码区适体尾部完全互补，除了3’单链突出部区之外。图14B是描绘了通用桥的示意图，其中所述桥仅与在所有适体中保守并位于条形码侧翼的限制性位点间隔物和共有序列两者互补。

图15A是示出了本文中描述的肽或蛋白质测序方法的示意图，其中所述肽或蛋白质序列在DNA序列的基础上确定。在这个实施方式中，步骤1包括将蛋白质或肽的C-端末端附连到结合到基材上的DNA引物寡核苷酸；步骤2包括将所述结合的蛋白质或肽与带条形码的适体文库在允许适合的适体特异性结合到适合的N-端氨基酸的条件下温育；步骤3包括将适体尾部连接到结合到基材上的第二寡核苷酸；并且步骤4包括切掉所述适体，留下与结合到所述第二寡核苷酸的特定氨基酸结合的DNA条形码。在使用Edman降解和/或氨肽酶从所述蛋白质或肽除去N-端氨基酸后，重复步骤1-4，产生可用于鉴定每个后续N-端氨基酸的DNA条形码的链。

图15B是示出了单个氨基酸与相应的适体条形码之间的相关性的实例的示意图。

图16是示意图，示出了除去与已知靶结合的DNA构建物或未知但高浓度的DNA构建物的先验和非先验sup-diff策略。

图17示出了PROSEQ平台中的步骤的变化形式的实例。

图18是热图，示出了对于每个具有多达100个结合物的结合物文库来说潜在可识别的人类蛋白质组的估算百分率，每个所述结合物与ProSeq平台上的多达400种不同的二肽结合，其中将蛋白质在每个赖氨酸处消化，产生12mer或更小的肽。进行模拟以获得假设结合物集合的蛋白质组覆盖率百分数的详细情况如下：(a)用LysC将蛋白质消化成片段，(b)当蛋白质的片段之一具有在蛋白质组中独特的匹配条形码时，其片段之一被独特地鉴定，此时蛋白被鉴定，(c)从400种可能的二肽中随机选择结合物对其具有亲和性的二肽(成对氨基酸)的集合，(d)随机选择20个结合物的集合，(e)给定所述结合物集合和每个结合物对其具有亲和性的二肽，确定每个蛋白质片段的条形码读出并确定独特鉴定的蛋白质的数目，(f)对每个片段进行12轮的Edman降解、结合和条形码确定。所述模拟不模拟噪声(结合物在应该结合时没有结合或在不应结合时结合)。在真实系统中，通过二肽读取中的冗余并通过读取同一蛋白质的多个拷贝，可以减少一些噪声。此外，为了获得匹配百分率只评估了20个可能的集合，因此对于特异性较低的结合物集合来说预期曲线会更加平滑。

图19是示出了本文中描述的结合确认方法的示意图。步骤0包括建立由5’磷酸化的条形码基底、正向和反向共定位连接物和带有以3’末端连接到蛋白质或肽和游离的磷酸化的5’末端取向的C-端寡核苷酸序列标签的靶构成的基底；步骤1包括将所述靶-基底复合体连接在固体基材上；步骤2包括将所述靶与带条形码的假设的文库在允许假设的结合物结合到靶的条件下温育；步骤3包括将所述寡核苷酸条形码尾部连接到结合到基材的第二近端基底寡核苷酸条形码；并且步骤4包括切掉所述结合物条形码尾部，留下与连接到基底寡核苷酸条形码的特定假设结合物结合的条形码。任选地，在从所述连接的靶除去所述假设的结合物后，重复步骤2-5，产生可用于鉴定多个结合事件的DNA条形码的链。注意结合事件不限于N-端氨基酸或附连的靶游离末端，并且可以在所述靶的任何暴露的区域处发生。

图20是本文描述的肽测序方法的概述，其中所述肽或蛋白质序列使用荧光和显微镜来确定。将肽连接到芯片上的已知接头(A)。将为特定N-端氨基酸结合性质而选择的荧光染料偶联的适体的文库流过所述肽，与靶温育，并从芯片洗掉未结合的适体(B)。将结合的适体的光学条形码成像。对于每一轮来说，获取图像的z轴多层扫描，以便产生N-端氨基酸的光谱特征(C)。除去所述固定的肽上的N-端氨基酸，将样品清洗，并将同样的适体池在其上流过，以质询新暴露的N-端氨基酸(D)。在载片上重复这一系列步骤后，通过将每种肽的光学条形码与生物体蛋白质组进行比较，可以计算推演出每一轮的连续N-端氨基酸的身份。

图21是示出了本文中描述的方法的一个实施方式的示意图，其中将蛋白质从细胞分离并加工，然后再将所述蛋白质连接到固体基材。例如，可以将细胞(A)裂解并分离蛋白质(B)，然后变性并消化(C)。可以对所述肽的侧链和N-端进行保护(D)，将C-端氨基酸用寡核苷酸或连接物修饰(E)，并连接到固体基材(F)。可以将光学标记的适体流过所述复合体(G)，捕获图像，并重复所述过程。

图22是示意图，示出了具有与互补的带荧光标签的寡核苷酸结合的区域的适体的构建。所述适体包含(a)有效结合区，(b)任选的间隔物，和(c)指示探测迭代次数和荧光标签的条形码单元(BC)的一种或多种组合的条形码尾部，其中每个BC与带荧光标签的寡核苷酸互补。条形码尾部设计有两种变化形式：(1)BC在空间上分开，并且可以同时与一个或多达所有的独特互补探针退火，以及(2)BC被设计成使得BC序列交叠，并且只能同时与互补于非交叠BC的探针退火。注意由于BC序列本身含有探测迭代次数的信息，因此BC不必按照探针温育迭代的时间顺序在空间上定向(如图中所示)。

图23是示出了本文中描述的肽测序方法的示意图。步骤1包括将肽-寡核苷酸靶固定在固体基材上；步骤2包括将所述结合的蛋白质或肽与带条形码的适体文库在允许适合的适体特异性结合到适合的N-端氨基酸的条件下温育；步骤3包括除去所述保护性互补寡核苷酸，暴露出条形码区用于探针退火；步骤4包括与杂交到指示探针迭代1的条形码区的探针的文库温育；步骤5包括洗掉未结合的探针并对结合的探针进行成像；步骤6包括将所述结合的探针从适体上变性，并将所述探针从基材上洗掉；步骤7包括对适体鉴定所需的所有探针迭代重复步骤4-6。在使用Edman降解和/或氨肽酶从所述蛋白质或肽除去N-端氨基酸后，重复步骤2-8，产生可用于鉴定每个后续N-端氨基酸的一系列光学条形码。

图24是描绘了当适体探针的文库由特异性结合到独特的N-端氨基酸前缀的高亲和性结合物组成时，本文中描述的用于PROSEQ VIS的方法的示意图。指示所探测的N-端氨基酸前缀的假设身份的单个结合事件，通过检测直接偶联到染料的独特组合的适体或与所述适体杂交的染料偶联的寡核苷酸的组合来观察。在步骤1中，将肽定位到测序平台，并与识别特定N-端二肽的适体温育。在步骤2中，每个适体具有染料偶联的结合物的多个结合位点。这些强结合物可以同时与适体杂交并仍保持结合。通过评估在每个位置处检测到的颜色的组合来确定适体的身份，并由此扩展到N-端氨基酸的身份(SEQ ID NO：121)。在步骤3中，将适体洗掉并通过降解暴露出新的N-端氨基酸。对于剩余的氨基酸(SEQ ID NO：122)重复所述循环。

图25是描绘了当适体探针的文库由非特异性结合到一组N-端氨基酸前缀并对每个独特的结合对具有可变的概率分布的中亲和性结合物组成时，本文中描述的用于PROSEQVIS的方法的示意图。指示所探测的N-端氨基酸前缀的假设身份的多个结合事件，通过在每次进行温育和洗掉的多个循环中检测染料修饰的适体来观察。在步骤1中，将肽定位到测序平台，并与识别一组N-端二肽的适体温育。在步骤2中，染料偶联的结合物杂交到所述适体的单链部分，但由于它们是“弱”结合物，因此它们缺少更强结合物的特异性。随着循环追踪在每个肽位置处发荧光的染料偶联的结合物，以确定氨基酸的访问率的准确性。可以与各个颜色或光学条形码一起使用。在步骤3中，通过将观察到的荧光信号的组合与每个适体与每个N-端氨基酸前缀(SEQ ID NO：123)的结合事件的概率分布进行比较，计算推演出每个轮次时N-端氨基酸的身份。

图26A-26C是示出了本文描述的多重化方法的示意图。将适体文库(A)与未结合的带DNA条形码的蛋白质或肽靶(图18B)温育。在适体结合到带条形码的靶后，将单链适体的3’末端通过与所述适体的3’末端半互补并且与ssDNA条形码的5’末端半互补的ssDNA桥，联结到特异性针对靶身份的ssDNA条形码(C)。所述适体与ssDNA肽条形码之间的缺口可以被连接并测通，以获得适体序列和肽条形码，它们进而提供了所述适体结合到的靶。

图26D是示意图，指示了可以将多重化技术并入其中的SELEX程序(来自于图3)的步骤。

图27是肽-寡核苷酸偶联物(POC)的示意图，所述偶联物包括单链(ss)DNA尾部(a)，其3’末端被共价连接到肽或蛋白质靶(b)的C-端。所述ssDNA尾部(a)包括3’引物区(c)、独特的DNA条形码(d)和5’桥结合序列(e)。适体(f)包括3’桥结合序列(g)。一半与在适体(f)的3’末端处的3’桥结合序列(g)互补并且另一半与ssDNA尾部(a)的5’桥结合序列(e)互补的短寡核苷酸桥(h)可用于将适体(f)连接到肽(b)。

图28是多重化中的嵌套PCR技术的示意图。

图29是示出在在本文中描述的TURDUCKEN方法中，在体内产生的带条形码(D)的感兴趣的蛋白质(POI)(A)复合体。这种方法利用RNA结合蛋白(B)与其相应的结合位点(C)之间的非共价相互作用。

图30A-30C是示出了本文中描述的TURDUCKEN方法的一个实施方式的示意图。将含有各种不同的感兴趣的蛋白质(POI)-RNA结合蛋白(RBP)融合基因以及它们相应的RNA条形码序列的质粒的池以每个细胞1个质粒的近似稀释率转化到细胞中(A)，所述POI-RBP融合体被表达并结合它们相应的RNA条形码(B)，然后将其纯化(C)。

图30D是示意图，指示了可以将TURDUCKEN方法并入其中的SELEX程序(来自于图3)的步骤。

图31A-31B是示出了本文描述的LEGO方法的用于dsDNA(A)连接以及ssDNA和RNA连接(B)的实施方式的示意图。

图32A-32C是示出了本文描述的LEGO方法的一个实施方式的示意图。将第一位、第二位、第三位等的LEGO块的池(A)顺序连接(B)，并进行PCR扩增以产生平行样。然后将得到的dsDNA消化成ssDNA，以形成折叠的适体的文库(C)。

图32D是示意图，指示了可以将LEGO方法并入其中的SELEX程序(来自于图3)的步骤。

图33是所有SELEX(RCHT-SELEX和NTAA-SELEX)实验的通用工作流程的示意图。

图34A是示意图，描绘了本文描述的SELEX方法用来为PROSEQ和PROSEQ VIS寻找适体的400种可能的氨基酸前缀。

图34B是描绘了所述400种可能的氨基酸前缀如何组织成16个组块的示意图。

图34C是示意图，描绘了与2-mer前缀配对的后缀如何在奇数和偶数轮次之间交替，在所有4轮中只有2-mer前缀具有恒定的肽组成。

图34D是在前缀保持相同时如何将后缀(“骨架”)在交替的轮次中切换，以在不论后缀如何(DD/DD，SEQ ID NO：124-127；DC/DC，SEQ ID NO：128-131；DD/DC，SEQ ID NO：132-135)的情况下发现特异性针对DD和DC前缀的适体的具体实例。也将相同的培育物用于测定具有交替的骨架和与挑出的不对DD和DX特异的适体相似的前缀的靶。

图35是SELEX适体与肽温育的三种变化形式(变型1-3)的实施方式与BCS条件(BCS)的比较。

图36是示出了对于96种条件来说，来自于培育后DNA池的测序运行的每种12-mer组合的表达水平除以培育前的表达水平的比率的对数的图，其中两种条件失败(右下方的两张图)。每张图的X和Y轴是可能的每个6-mer DNA序列。红色或蓝色比例高的图显示出与高斯分布的方差增加，表明实验条件扰乱了随机输入池，使其进一步偏离输入时的状况。

图37是两张表，显示了来自于一轮假SELEX和SELEX后适体池中100,000个读出的随机采样的排名前20的常见序列的序列和读出计数。源自于假SELEX的序列(SEQ ID NO：136-155)全都不同于来自于SELEX的序列(SEQ ID NO：156-175)，表明通过肽靶拉下的适体表现出比随机序列更高的亲和性。

图38是显示了使用相同的培育池进行的9个实验(3个靶各3个平行实验)之间的平行样序列的计数的表。将各个轮次的所有平行实验合并在一起，并通过珠子对照扣除法过滤掉非特异性适体。用红色强调的计数是在不同靶的实验中发现的相同序列的计数。缓激肽1r5意味着靶是缓激肽，第1位，平行样1和SELEX第5轮。GNRH4r5意味着靶是GnRH，第4位，平行样1和SELEX第5轮。在用红色区域指示的最靠近的平行样之间发生序列污染，其在改变自动化流程和靶在板上的位置后显著降低。

图39是使用本文中的RCHT-SELEX方法针对小肽选择的适体的两个实例：一个针对血管升压素(SEQ ID NO：176-179)，另一个针对缓激肽(SEQ ID NO：180-183)。适体结构是通过IDT的特许UNAFold软件获得的最低吉布斯自由能结构。

图40报告了在肽切换ML-SELEX实验中鉴定到的在具有N-端赖氨酸(SEQ ID NO：184-188)或N-端半胱氨酸(SEQ ID NO：189-193)前缀的肽存在下特异性连续富集的排名前5的适体序列。这些结果说明了ML-SELEX发现针对各个氨基酸的独特适体的能力。

图41A是实施例2的N-端氨基酸SELEX实验策略的示意图。将包含每种靶混合物的平行样的12个选择平行运行5轮。工作流程始于将ssDNA的初始池针对链亲合素珠子进行负选择，并分成12个随机池。对每种对照参比靶进行2个平行选择，并对在交替的轮次中进行和不进行骨架切换(C和D骨架)的靶(脯氨酸-脯氨酸)进行3个平行选择。对来自于每个选择的每一轮的ssDNA的代表性池进行测序，并分析不同轮次的序列富集。

图41B报告了非切换和切换SELEX中的靶组成和氨基酸序列(SEQ ID NO：194-203)。

图42报告了每轮的排名前10的最富集序列的测序计数。X轴是SELEX的轮次，Y轴是在所述10个序列的测序期间看到的计数数目。展示的10个序列因它们的计算富集值而被选出。

图43A是概述了每种靶的排名靠前的适体的富集的箱线图。具体来说，从第2轮至第5轮计算富集。每个箱线图示出了来自于为给定靶进行的每个选择的排名前十的适体的概要(最小值、第一四分位数、中位数、第三四分位数和最大值)。(对于骨架、缓激肽、珠子来说序列总数＝20，对于PP-C和PPCD来说序列总数＝30)。X轴采用对数刻度并示出了富集。Y轴是每个选择的靶。PPCD切换的富集中位数高于阴性对照(珠子)但低于阳性对照(缓激肽)。

图43B是分类散点图，报告了每个靶的每个选择的排名最高的富集序列之间的富集差异。对骨架、珠子和缓激肽各进行2个选择。对PPC和PPCD进行3个选择。(对于骨架、缓激肽、珠子来说序列总数＝20，对于PPC和PPCD来说序列总数＝30)。Y轴是靶，x轴是富集(惩罚生长)。对于某些选择/平行样来说，对相同的靶观察到更高的富集。例如，对于平行样2中的3个独特序列来说观察到高富集(>3，等同于1000倍)，而在对靶骨架进行的选择中平行样1中只有1个独特序列观察到高富集。

图44是每个靶(骨架、珠子、缓激肽、PP-C、PP-CD)的每个平行样的排名前10的富集序列的混淆矩阵。0表示在两个选择之间没有序列交叠，1表示一个序列交叠等。-1表示相同的选择。在这些选择中，观察到存在一定的序列交叠(1-2序列)。该信息可以被并入到最终的候选物选择中。PP-CD的候选适体可以被选择成与其他对照靶(骨架、珠子、缓激肽)没有交叠，但允许选择可以识别PP-C和PP-CD切换的候选物，因为它们可以识别N-端上的PP。

图45是10种潜在适体候选物的单点结合测定的结果。对100nM的10种适体测量用荧光信号(y轴)指示的结合。适体4与对照(非适体和缓冲液)相比对靶PP-C显示出更高的结合。适体1、适体2、适体3、适体4、适体7、适体8、适体9与对照相比对PP-D显示出更高的结合。数据被归一化到阳性对照(直接偶联到珠子的FAM)。

图46A和46B分别是适体1和适体4的结合曲线。适体1(图A)对PP-D显示出提高的信号，远高于对PP-C的信号。它看起来对PP-C饱和，而对PP-D不饱和，表明非特异性结合。适体4(图B)对PP-D显示出饱和结合并对PP-C无结合。

图47是来自于Agilent生物分析仪测定的电泳图的实例，在60秒处具有所需峰形，表明PCR产物被正确消化成ssDNA。

图48是来自于Agilent生物分析仪测定的电泳图的实例，具有表明大多数产物具有所需长度(对于本文中描述的实例来说86nt)的所需峰形。

图49是BCS核心测序单元的示意图。

图50A是热图，报告了对于12个条形码连接循环来说，在条形码构建物的每个位置处在每个循环中添加的条形码的读出计数，每个条形码在所述条形码构建物上具有预期的位置。在理想情况下，在第n个循环中添加的条形码应该在条形码构建物上的第n个位置处。在x个失败连接或无适体结合事件的情况下，将在第(n-x)个位置中观察到条形码。结果证实，有可能在预期的位置中实现12个条形码的串联连接。注意，在第1-6个循环中使用的条形码以相同的顺序在第7-12个循环中重复，并且没有对结果进行去多重化；因此，来自于预期的第1-6个循环的每个加框数字的少部分计数可能归因于在其右侧五格的格子(用*标注)，意味着对于这些序列来说，至少在第6个循环后没有条形码未被连接。

图50B是箭头图，描绘了在由通用桥设计介导的3轮连接中3个条形码被成功连接成一行，证实了使用通用桥有可能实现串联连接。

图51是热图，报告了每个靶基底使用与其连接的适体条形码测序的情况。图51A报告了总计数(SEQ ID NO：204-243)，而图51B报告了归一化的百分率(SEQ ID NO：244-279)。通过RCTH-SELEX鉴定的精氨酸加压素适体(用红色强调)对精氨酸加压素显示出超过缓激肽靶和具有DD N-端的肽靶(DD靶)的特异性，因为它们的条形码被连接到所有类型的精氨酸加压素基底上，但很少或不连接到空对照、缓激肽和DD靶基底上。

图52是表面附连有缓激肽的流动室在Edman降解前和两轮Edman降解后的荧光图像。流动室用荧光缓激肽抗体探测并通过555通道成像。减小但未消失的信号表明抗体结合降低，这可能表明肽被部分降解但仍保持附连到流动室表面。

图53A是100％堆叠的柱状图，描绘了从以重量计0.000125％的序列9、0.01％的序列13、0.1％的序列11、10％的序列12和89％的序列10的原始池和各种不同浓度的体外转录酶(IVT)产生的与5种不同序列(9、13、11、12、19)互补的RNA诱饵的分布。RNA诱饵序列的频率变化表明用不同浓度的IVT处理可以产生不同比率的RNA诱饵序列。

图53B是报告了使用各种不同浓度的IVT产生的每种RNA诱饵序列的计数百分率的表。

图54是电泳迁移率变动分析(EMSA)凝胶的图像，证实了Spot-tag纳米抗体被偶联到寡核苷酸(VHH-寡核苷酸)。前4个凝胶道示出了未偶联的Spot-tag纳米抗体自身的电泳迁移率。在随后的道中，在凝胶上观察到多个更高分子量的条带，推测对应于多个偶联到单个纳米抗体的寡核苷酸。

图55是每个靶的完整核心测序单元构建物和它们的连接在测序芯片上的相应结构在连接和甲酰胺清洗后的示意图。DNA靶充当阳性对照。5’Phos.O1对照用于与连接到所有肽靶的完整寡核苷酸尾部相关的噪声，而CLR.Null.Block.Br对照用于与测序芯片组分相关的噪声。

图56是热图，报告了当Spot-tag纳米抗体被偶联到寡核苷酸时，用连接到基底的结合物条形码测序的每个靶基底的情况。对照运行三份平行样，每个平行样具有不同的相关条形码，并且DNA和Spot-tag实验使用6个实验平行样运行。DNA对照(Kd pM)以高保真度(在测序计数方面)结合并标记互补的寡核苷酸，Spot-tag纳米抗体以强保真度结合并标记Spot-tag肽(Kd 6nM)。实验平行样之间测序计数的差异被认为是由用于每个平行样的条形码的差异造成的。对条形码序列的影响进行筛选和分析，以推导出用于下游实验的一组条形码。在靶类型(DNA相比于纳米抗体等)之外，未发现已知的变量(GC含量、顺序碱基对等)与条形码对测序噪声的影响相关。实验被重复并确认，证实了该方案可用于DNA：DNA结合系统和肽：纳米抗体结合系统。

图57是热图，报告了当Spot-tag纳米抗体不被偶联到寡核苷酸时，用连接到基底的结合物条形码测序的每个靶基底的情况。实验运行三份平行样，每个平行样具有不同的相关条形码。实验平行样之间测序计数的差异被认为是由用于每个平行样的条形码的差异造成的。对条形码序列的影响进行筛选和分析，以推导出用于下游实验的一组条形码。在靶类型(DNA相比于纳米抗体等)之外，未发现已知的变量(GC含量、顺序碱基对等)与条形码对测序噪声的影响相关。对于该实验来说，只有DNA结合物AV.B4.U2.SA4.2及其相应的靶(SP9)具有高的测序计数。实验被重复并确认，证实了该方案可用于DNA：DNA结合系统和肽：纳米抗体结合系统。

图58是对于单分子肽来说从成像到肽鉴定的结果和计算解卷积过程的实施方式。图58A是对于在芯片上的位置(X,Y)处的单个肽分子来说，通过探针温育的4次迭代产生的一系列图像的实施方式。图58B是报告了通过每个通道(350、433、532、555、647)观察到的荧光信号的表，其反映了图58A的结果。彩色区域指示高于噪声阈值的信号，它们一起组成结合的适体的光学特征。图58C是将每个适体身份匹配到通过多次迭代观察到的光学特征的查阅表的实施方式。图58D是从8轮适体温育计算出的在芯片上的位置(X,Y)处观察到的一系列适体的实施方式。来自于双氨基酸身份冗余方案的交叠的N-端氨基酸调用用黑色指示，而有异议的调用用红色指示。图58E是序列调用策略的示意图，其中将通过本文描述的肽测序方法产生的计算序列匹配到已知肽的数据库或参比蛋白质组。

图59是玻璃载片上(单分子对照)和结合到测序芯片上的单一寡核苷酸的荧光珠子-链亲合素偶联物的放大20x、60x和100x的图像。在芯片上的荧光珠子与测序芯片之间观察到的斑点尺寸的相似性表明在测序芯片上观察到的斑点是单个分子。

图60A是测序芯片上的荧光珠子-链亲合素偶联物的荧光图像和在使用局部阈值进行背景扣除之后的强度测量。所述阈值是像素的局部邻域(30x 30像素)的中值强度。

图60B是图60A中的所有荧光斑点的阈值化的强度分布。

图61是报告了多重化的选择性性能的热图。在5个靶(GNRH、NC2、NC3、T1、血管升压素)测定中，首先对适体进行丰度过滤(至少12个读出)，并将针对每个靶的排名前5的序列在选择性(针对所需靶的读出数/针对所有靶的读出数)的基础上排序。示出了脱靶命中，并且选择性用红色(低特异性)到蓝色(较大特异性)的颜色梯度强调。对于每个靶来说，排名前5的靶特异性适体表现出0.500至0.923的选择性，表明每个适体的至少一半的读出与它的目标靶结合。相比较而言，同一适体的不超过25.0％的读出与任何单个的非目标靶结合。

图62示出了在多重化实验中使用的肽靶序列(SEQ ID NO：280-285)。

图63是SDS-PAGE凝胶的图像，显示出使用抗His抗体亲和下拉测定法纯化的变性肽具有dMS-EmGFP和dMS2的预期尺寸，表明dMS-EmGFP和dMS2两者均被表达。包含BSA作为标准品。

图64是电泳迁移率变动分析(EMSA)凝胶的图像，证实了dMS2-EmGFP融合蛋白结合到2nM含有MS2外壳蛋白结合位点的RNA(在结合反应中使用的蛋白质浓度标注在顶上，nM)。

图65是EMSA凝胶的图像，显示出dMS2蛋白(不含EmGFP)结合到～2nM含有MS2外壳蛋白结合位点的RNA(在结合反应中使用的蛋白质浓度标注在顶上，nM)，验证了dMS2蛋白的身份。

图66是小提琴图，展示了来自于每个实验的作为使用具有1个碱基对突出部的10mer dsDNA块获得的所需全长构建物的序列的百分率，其中之一达到78.9％的效率。

图67报告了在来自于图66的LEGO实验87P中产生的独特序列的百分率，其中78.9％的构建物是具有所需长度、顺序和取向的LEGO块的序列。

具体实施方式

本公开描述了形成开发和使用利用特异性结合到N-端氨基酸的适体的蛋白质测序平台的流水线的方法和组合物(图1)。本文描述的蛋白质测序方法主要依靠取决于具体应用而具有各种不同特点的适体。例如，使用本文描述的新方法(RCHT-SELEX或NTAA-SELEX)可以产生氨基酸特异性适体。此类氨基酸特异性适体可用于识别、鉴定并通过带核酸条形码的区域将蛋白质或肽的1-2个氨基酸残基转变成DNA序列(PROSEQ)，或者此类氨基酸特异性适体可以被产生并用于在视觉信号的基础上识别和鉴定蛋白质或肽的每个氨基酸(PROSEQ-VIS)。此外，可以同时产生许多靶特异性适体，并将其用于产生和筛选大量结合物(多重化)。同时和特异性适体选择依赖于靶的可靠鉴定。带有核酸条形码的靶的产生可以在体内通过利用RNA结合蛋白的肽或蛋白质与其相应的识别序列之间的非共价键来实现(TURDUCKEN)。最后，成功的SELEX实验要求在仅为所有可能的DNA序列的一小部分的10¹⁴-10¹⁵个候选序列的原始池中包括对分子靶具有一定特异性结合偏好性和亲和性的适体。机器学习(ML)可以帮助优化实验性种子结合物，因此与常规SELEX实验不同，最优结合物不必定存在于实验数据集中。构建计算衍生的、可定制的DNA文库以使用受控的输入池来进行SELEX筛选的能力，可以通过系统地分析包含具有已知有效结合特性的序列(LEGO)的适体候选物来显著定制探索空间。

适体

适体是短的单链核酸链，可以由RNA、DNA、修饰的核酸或其他合成的核酸类似物构成，其折叠成独特的构型，允许获得与生物学靶例如蛋白质和肽的结合特异性(Mckeague&Derosa,2012)。适体在包括药物开发、诊断学、成像和基础科学在内的大量研究领域中被用于检查涉及分子靶的结合相互作用。具体来说，适体以高特异性和亲和性与靶结合，与抗体相比可以更快速并以更低的成本来产生和修饰，具有比抗体更宽的潜在靶范围(Zhou&Rossi,2016)，并且与抗体相比不太可能引起免疫学副作用(Bouchard,Hutabarat,&Thompson,2010)。然而，适体在临床或工业使用中尚未获得广泛成功，这主要是由于发现和鉴定具有所需结合特性的适体的艰难性(Zhou&Rossi,2016)。此外，在孤立环境中发现的(即针对纯化的靶选择的)适体在实验条件下表现出高结合亲和性，但在体内条件下不能结合到它的目标靶(Chen等，2016)。本公开提供了对肽链N-端末端处的氨基酸残基具有非常特异的结合特性的适体的制造和使用方法。

具有高的肽结合亲和性的适体与具有较低结合亲和性的适体相比具有更高的结合和产生结合事件记录的机会。特异性适体仅与少量可能的肽结合，并因此产生关于哪些分子存在的信息的记录。因此，具有高亲和性(K_ds<30nM)和特异性(与其他靶相比对所需靶具有10x结合偏好性)的适体对本文中的蛋白质测序技术来说是合乎需要的，然而，具有各种不同亲和性的成组适体可用于检索关于蛋白质序列的信息“位”(即PROSEQ和PROSEQ-VIZ)。在端对端模拟中，结果表明仅具有适度结合亲和性(K_ds≥30nM)和选择性的适体能够使我们相对容易地准确定量已知蛋白质的混合物。对于非从头应用来说，PROSEQ和PROSEQ-VIZ技术可以使用蛋白质组图谱来解析数据中的任何分辨率差距。此外，可以在移除氨基酸之前重复后续的循环，以允许在切割之前获得额外的信息位。最后，如果PROSEQ和PROSEQ-VIZ仅限于选择性结合到N-端二肽前缀的适体，则甚至对于从头测序来说高特异性适体也不是必需的。来自于特异性降低的噪声通过双氨基酸身份冗余方案产生的额外观察到的结合事件来补偿，因为它允许每个氨基酸观察两个结合事件(除了第一个N-端氨基酸之外)来确认其身份(图2)。每个二肽适体结合事件提供了关于两个N-端氨基酸的身份的解读，而每轮降解仅除去一个氨基酸，从而允许除了原始的N-端和C-端氨基酸(其仅被读取一次)之外的每个氨基酸被暴露到两轮的适体结合。在氨基酸鉴定错误的情况下，可以使用下游计算算法以一定的置信水平来校正或检测不准确的读位结果。

稳健和压缩的高通量-通过指数富集进行的配体系统进化(RCHT-SELEX)和N-端氨基酸SELEX(NTAA-SELEX)

通过指数富集进行的配体系统进化(SELEX)是一种已知的高通量筛选(HTS)过程，已被用于鉴定在体外选择中与特异性靶配体结合的适体(Tuerk&Gold,1990)。常规SELEX方案通常包括针对单一肽或蛋白质靶来筛选多样且随机的寡核苷酸文库，其包括将适体在珠子结合的靶上流过，并通过多轮选择消除弱结合适体，在所述选择中将弱结合适体和非结合适体洗掉(Blind&Blank,2015)。

常规SELEX方法始于为寡核苷酸文库合成约10¹⁴-10¹⁵个独特序列，然后进行10-20个迭代轮次的：a)将单一靶与候选适体序列的随机池温育，以促进适体/靶结合；b)将靶结合的寡核苷酸与未结合的序列分离开；和c)结合的适体的扩增和表征(图3A)。已开发了原始SELEX方法的几种变化形式例如毛细管电泳SELEX(CE-SELEX)、微流体SELEX和CELLSELEX，以满足不同的研究需求。

常规SELEX方法的目的是提高通过实验筛选鉴定到的适体的结合亲和性。用于鉴定适体的常规SELEX方法有两个主要问题阻碍了大规模筛选：

·常规SELEX方法依靠重复的筛选过程，其中实验误差可以在后续的每一轮筛选中复合。例如，在每一轮中，适体经历PCR扩增、DNA清理和通过分离或酶消化从双链转变成单链DNA。在各个轮次和/或实验之间这些过程中的一者或多者的可变性，可以促进被工程化改造以承受特定实验设置的选择过程的适体池的偏倚选择。

·使用同一输入文库针对对照和平行样进行的平行选择的缺乏阻止了(a)分别的实验间和实验内比较、(b)信噪比分析和(c)背景真值测量，所有这些都使下游计算分析、数据清理和预测建模例如ML的应用变得复杂。模型被吸引到最强的信号，不论来源如何。在生物学实验的情况下，通常存在操作者误差/噪声、仪器噪声、生物学过程噪声和由物理试剂的操作(即污染)造成的噪声，并且所有这些不同的噪声要素的组合通常可以淹没实验信号。因此，模型通常基于非常嘈杂的信号进行预测，除非它们预先针对不同的噪声要素进行了训练。为此，设计了几种不同的特点(培育、平行样、掺入物对照、假SELEX等)以在模型前数据处理期间计算和除去噪声，或在预测阶段中针对所述噪声要素训练模型。此外，有几类模型在线性范围之外具有有限的预测能力，并且在生物学中，过程通常是非线性的(例如PCR)。线性模型的优势在于它们研究充分、计算成本低廉并且通常提供可靠的预测。然而，当应用于非线性数据集时，线性模型通常给出不正确的预测。另一方面，非线性建模方法可能计算成本更加昂贵并且也容易过度拟合(例如对稀疏数据的多项式建模)，但当线性模型无法准确描述数据集时通常需要使用它。因此，运行了大量单元测试来计算线性和非线性过程的区域，以便最好地确定可以应用哪种类型的建模方法。

·常规SELEX方法允许一次仅针对一个肽或蛋白质靶来筛选适体池。也就是说，每个蛋白质或肽靶必须被孤立地筛选，以便能够鉴定所述靶。因此，使用常规SELEX方法针对1,000个肽靶进行筛选将需要1,000个独立的SELEX实验，每个实验包括多轮筛选。

此外，对于例如40-mer ssDNA寡核苷酸来说，可以产生10²⁴种可能的寡核苷酸，并且10^12-15的总可能实验空间的探索可能导致难以发现针对靶的独特适体。目前，高效筛选这样大量的候选物存在大量障碍：

·低命中率：成功的SELEX实验要求在10¹⁴-10¹⁵个候选序列的原始池中包含对分子靶具有高亲和性的适体。对于10¹⁴个样品来说，可能的DNA序列的实验空间只有8.27x 10^-11％被探索，使得在实践中，即使是最为优化的实验也具有高的失败概率。

·过分耗时：为了鉴定特异性适体候选物通常花费超过6个月至一年。

·非特异性：传统SELEX实验将候选物一次与一个靶温育，这仅证实候选适体的相对亲和性而不是它们在竞争性环境中的特异性。

·不能用于直接比较：由于大多数实验始于输入寡核苷酸的新的随机池，因此跨实验的直接比较是不可能的。

·难以变换到与发现条件不同的环境：发现的适体由于它们与发现环境相关的敏感结构性质，它们的变换也可能充满困难。由于结构决定功能，因此在特定环境中选择的适体在条件与实验条件不同时可能不以相同的方式折叠并与它们的靶结合。

在当前的SELEX方案中存在两个显著缺漏。现有方法均未被定制成适应于在每一轮之间对多个靶进行大规模计算分析，其目的是使用实验数据来补充通过计算得出的适体。如果存在可工作的方案，则经验数据集可以与机器学习分析和预测流水线顺利整合，允许使用计算机预测针对靶的适体。计算预测的适体允许探索更广泛的序列以获得最佳适体靶，并且也在适体搜索查询中节省资源和时间。此外，对于与较大靶的一小部分结合并且可用作N-端氨基酸结合物的适体候选物来说，SELEX方案缺少以高分辨率发现结合物的精度和分辨率。下文详细描述为解决这两个缺漏而开发的方法。在A部分中提供了一种新的SELEX方法(在本文中被称为RCHT-SELEX)，其通过现有技术和新技术的创造性组合以时间高效的方式优化了高亲和性和特异性适体的选择，以致力于解决在开发ML相容性经验数据集中的缺漏。此外，在B部分中提供了另一种新的SELEX方法，其被开发用于优先发现N-端氨基酸特异性结合物(在本文中被称为NTAA-SELEX)。

A部分：RCHT-SELEX

图3是示出了如何改良常规SELEX方法(图3A)以产生RCHT-SELEX(图3B)的示意图。所述两项技术的主要区别强调如下：

·常规SELEX的步骤#1不扩增输入池；RCHT-SELEX在负选择步骤和添加掺入物之后扩增输入池(“培育”)，使得：(a)存在每种适体结合物的大约100个拷贝，并且(b)在各个实验中使用相同的输入池。

·常规SELEX的步骤#2是将单一靶与适体文库温育的单一实验；相反，RCHT-SELEX

ο在几种靶的许多实验中将培育池分成平行运行的三份平行样(包括3个实验用仅有珠子的对照)，并且

ο在不同轮次中针对具有交替区域的靶测定所述适体，使得不论靶的邻近区域如何，只有驱动选择过程的恒定区是用户希望发现其特异性结合物的区域。

·常规SELEX的步骤#4在重复步骤#2-#5的8-20轮后对进化的适体池进行测序，而RCHT-SELEX的步骤#4包括在每一轮选择后进行测序以及用于在每个实验中最大化和标准化输入到下一轮中的DNA的量的多种技术。

·常规SELEX的步骤#5包括获得在前一轮中结合到靶蛋白质的适体，使得通过将步骤#2、#3、#4和#5重复8-20轮，那些适体可以继续所述选择过程；RCHT-SELEX可以在仅仅4轮中进行，并在引物区被可选引物序列代替后再次针对靶测定所述适体。

由于在RCHT-SELEX中平行地运行几个实验，并且目标是减少每个实验之间的实验偏差，因此向RCHT-SELEX方案添加了几个额外的步骤以支持同时运行>36个实验。RCHT-SELEX可以包括诸如下述的技术：

·阈值化相同量的DNA作为后续轮次的输入物，以减少PCR偏差(“阈值PCR”)

·优化用于特定候选物池的PCR条件(“PCR优化”)

·在每次消化之前进行单元测试，以确定每个样品的最佳消化条件(“dsDNA消化”)。

RCHT-SELEX的其他改变可以包括：

·在早期轮次中使用合并在一起的多个靶测定同一个适体候选物池，并通过在最后一轮中将适体针对每个靶独立地温育来去多重化(“基于珠子的多重化-SELEX”)

·对于所需适体是特异性结合到分子的较小部分而不是整个分子的适体的实验来说，在RCHT-SELEX的交替轮次之间交替使用具有可变的局部环境结合区的靶(“切换”)

·在实验中间切换引物以鉴定作为不依赖于引物区的强结合物的适体(“引物切换”)。

负SELEX：

可用于减少针对不想要的靶的适体的富集的一种技术是筛选适体候选物的初始池中与在SELEX实验中使用的选择组分(例如珠子、链亲合素)结合的适体。对选择组分表现出结合亲和性的适体对靶是非特异性的，并且可以从候选物池中移除，使得只有不结合选择组分的适体将会成为针对靶进行分析的适体候选物池的一部分。参见例如图4。单次培育、双重培育和实验内平行样：

例如，从10¹⁵的原始池中选择10¹²个DNA适体的池，并使用未修饰的引物通过13个循环的PCR进行扩增，产生每种适体的大约2000个拷贝。扩增依赖于引物序列和PCR条件，并且可以对每个单独文库调整培育PCR方案。目标是使得每个实验中存在大多数序列的至少100个拷贝，并且存在每个适体序列的至少30个拷贝。在方案优化阶段中对文库进行测序，以帮助获得序列之间近似均匀的扩增拷贝数。

在扩增后，将每种适体的约2000个拷贝分配到12个样品中，导致在每个初始的起始文库池中具有每种适体的大约166个拷贝。在开始选择之前获得存在相同适体的多个拷贝的过程，允许对相同初始培育物的结果直接进行相互比较。在计算上，这个特点允许并行地进行直接实验平行样，并且也提供了训练模型走向特定靶并远离另一个靶的能力。由于确定10¹²个序列的准确扩增将会花费许多测序运行，因此可以进行4亿个读出的单次NextSeq运行作为跨整个池的文库扩增特点的近似。单次培育止于这个步骤。

对于双重培育来说，通过从第一次培育物取出每种适体的约75个拷贝，并使用受保护的磷酸化的引物将其通过6个循环进行扩增，来进行第二次培育，这允许在大约300个实验之间比较来自于相同初始培育物的结果(从单次培育得到每种适体的大约2000个拷贝，选择75个适体得到26个可能的抽取物；每个75个适体的组将产生用于12个实验的双重培育池，因此12*26＝总共312个实验；注意，在纯化、消化和其他过程中可能存在一定的损失，并且扩增得率与引物和PCR主混合物的组分的性质高度相关)。来自于每次培育的适体候选物的扩增也提高了强和中等结合物度过早期轮次的可能性。参见例如图5B，其示意性地演示了本文中描述的单次和双重培育和实验平行样，以及图5A，其示意性地演示了在RCHT-SELEX方法中可以使用单次和双重培育和实验平行样。

基于珠子的多重化-SELEX

在例如使用合并在一起的多种珠子结合的靶进行四轮RCHT-SELEX后，可以在第5轮中通过将扩增的适体的池分别与偶联到仅仅一种初始靶的珠子温育，将适体去多重化(参见例如图6)。基于珠子的多重化-SELEX添加了竞争性靶环境，并改变了可以在同一实验中探索的靶的数量。

肽切换

在设计用于蛋白质测序的结合物时，必须实现4个目标：(1)靶向特定氨基酸，(2)靶向N-端位置中的特定氨基酸，(3)不与非N-端位置中的相同氨基酸结合，和(4)不论邻近氨基酸如何均稳健地结合到所靶向的N-端氨基酸。目标#4的基本原理是局部生物化学环境(例如邻近氨基酸)可以影响适体的结合活性，降低它们的有效K_d。由于蛋白质测序的目的是建立可以在跨整个蛋白质组的肽串中利用的结合物，因此结合物设计必须考虑局部环境的影响。为了实现目标#4，在结合物选择期间引入了不断改变的局部环境变化，以开发与邻近氨基酸无关的结合物。这通过将1-2个氨基酸固定在肽串内的精确位置(通常为N-端位置)中，并在不同轮次中改变相连的或周围的氨基酸来进行。图7示出了不依赖于肽的后缀尾部的组成而特异性结合到N-端氨基酸前缀的适体的鉴定方法。这种被标注为“肽切换”的技术在迭代的轮次中进化适体，在所述迭代轮次中只有肽后缀被改变而所需的N-端氨基酸前缀保持相同，除去了阴性结合物。肽切换实验也可以包括空的、乱序的或“假的”靶来定义混杂的结合物，以消除假阳性。

PCR优化

可以对PCR条件进行优化，以最大化DNA输出同时最小化不想要的产物例如串联体。必须为每个文库进行PCR优化。在SELEX实验中，在实验之间初始文库引物必须被经常替换，以防止实验中的PCR污染。对于每个文库来说，在每次改变文库引物后进行主混合物和PCR优化单元测试，其包括调整尽可能多的参数(缓冲液条件、循环数、酶、引物浓度、受保护的碱基对数目等)，然后可以将SELEX文库用于实验。使用测序、Qubit、TapeStation、生物分析仪和消化单元测试对结果进行分析，以便为各个文库选择理想的优化设置。例如，扩增可以在50μL反应体积中进行，其由38.49μL无核酸酶水、0.30μL 1mM与前6个核苷酸互补的正向引物(被称为6XP)、0.30μL 1mM磷酸化的反向引物(被称为RP04)、0.50μL

II融合DNA聚合酶、10μL Herc缓冲液、0.40μL 25mM dNTP和0.01μL模板组成。PCR可以使用Eppendorf Mastercycler nexus eco PCR机进行。热循环可以被编程为在95℃初始变性5分钟，然后是13个循环的95℃变性30秒、55℃退火30秒和72℃延伸30秒，最后在72℃延伸5分钟。退火条件是引物依赖性的，并且可以对使用的不同引物集重新优化。

dsDNA的消化

λ核酸外切酶是一种高活性外切脱氧核糖核酸酶，其偏好消化dsDNA的5-磷酸化的链，并对ssDNA和非磷酸化的DNA具有明显更低的活性(Little,1967)(Mitsis&Kwagh,1999)。λ核酸外切酶可用于在下述三个步骤中将PCR扩增的dsDNA高效消化成ssDNA：a)用于获得最佳消化条件的单元测试，b)将预先消化的文库分成三份，和c)生物分析仪质量控制(QC)测定，以测试ssDNA相比于dsDNA的量。单链PCR产物可以如下产生：首先使用两个不同引物(例如与不想要的反向链互补的3’-硫代磷酸酯保护的引物和与所需正向链互补的5’-磷酸化的引物)进行PCR，然后进行PCR扩增，其中然后可以通过用λ核酸外切酶消化来除去PCR产物的磷酸化的链。生物分析仪系统的RNA试剂盒可以被重新利用以定量ssDNA，因为RNA试剂盒中的染料也结合ssDNA。尽管测量输出未针对ssDNA进行校准，但可以从条带和峰进行推断。参见例如图8。生物分析仪系统的RNA试剂盒可以被修改，以定量样品中ssDNA相对于dsDNA的量，因为所述RNA试剂盒中的染料与ssDNA和dsDNA两者都结合。当在生物分析仪上通过毛细管电泳对含有ssDNA和dsDNA两者的样品进行处理时，为ssDNA和dsDNA产生独特的不重叠的峰，其中每条曲线下的相对面积描绘了样品中归属于ssDNA和dsDNA的百分率。在消化测定中使用RNA生物分析仪试剂盒分析的目的是确认所有dsDNA均已被转变成ssDNA，而没有ssDNA文库的过度消化。尽管测量输出未针对ssDNA进行校准，但可以从条带和峰做出关于DNA混合物的本质的推断。

在实验期间，数据表明PCR产出物的质量和数量影响预测λ核酸外切酶的消化行为的能力。含有额外的串联体产物的文库消化得非常缓慢或非常迅速，这取决于所述串联体序列中存在的受保护或磷酸化的碱基对的分数。因此，在评估新文库时可以进行单元测试，以防止样品的完全消化。在对所有PCR产物进行消化之前，可以进行单元测试以便为每个样品确定高效ssDNA生产的最佳反应时间。通过将纯化的PCR产物的小量样品在37℃温育例如2、5、10、15或20分钟，在75℃温育10分钟，并在4℃保持后，对其进行λ核酸外切酶消化的时间过程分析。可以对每个样品运行RNA生物分析仪以评估消化并确定最佳消化条件，以应用于其余PCR产物样品。

整个样品的λ核酸外切酶消化可以如下进行：在37℃温育通过时间过程分析确定的最佳时间，然后将酶在75℃热失活10min，并在4℃保持。

可以将最终λ核酸外切酶消化混合物的代表性样品在另一个RNA生物分析仪芯片上运行，以在下一轮RCHT-SELEX之前确保PCR产物被充分消化成ssDNA(图9)。如果消化不完全，可以掺入更多λ核酸酶和ATP。

另外的对照：珠子对照、掺入物和假SELEX

·掺入物寡核苷酸：在整个RCHT-SELEX的各个步骤中可以添加已知适体模拟物的少量掺入物作为对照，以检测实验误差。例如，在PCR之前可以添加序列已知的具有3种代表性序列和3种不同的GC含量水平(例如40％、50％、60％)的9种寡核苷酸的混合物(即“9-寡核苷酸混合物”)，以提供与PCR差异相关的样品可变性的相关信息。参见例如图10A。可选地或此外，可以向每个孔添加已知序列(例如位置掺入物)，以提供关于在例如96孔板上的空间位置的信息。参见例如图10B。

·全珠子对照：全珠子对照包括平行和顺序对照。参见例如图10B。对于平行实验来说，可以与实验一起运行一式三份全珠子对照(例如未偶联肽的珠子样品)，以确定来自于培育池的仅与珠子结合的适体的数量。此外，这些对照可用于确定孔间污染水平或来自于每个实验的噪声。顺序珠子对照可以在每一轮RCHT-SELEX后使用，其中将与肽偶联的珠子结合的适体与未偶联到肽的珠子温育。如果需要，可以对结合到空珠子的适体进行测序，以鉴定结合到空珠子的适体中的共同序列。

·假SELEX：在每一轮RCHT-SELEX之前，可以移除原始输入物的小量样品并保持在室温下作为对照，以确定PCR偏差的影响，因为不存在靶。参见例如图10C。

阈值PCR

来自于基于珠子的RCHT-SELEX实验的结合的适体可以直接在磁珠上扩增。因此，在运行PCR之前不需要将适体从珠子上变性，限制了在SELEX测定法中的敏感阶段中处理、操作和潜在的文库损失步骤的数目(Hoon,Zhou,Janda,Brenner,&Scolnick,2011)。然而，PCR反应可以达到饱和点，此时试剂变得有限或者浓度对于继续进行均匀复制来说变得过高。由于在PCR扩增之前结合的适体的浓度是未知的，并且只能估计，因此不能精确地确定在发生扩增饱和之前需要多少个扩增循环。此外，PCR扩增可能受到一些被牛血清白蛋白(BSA)包被的磁珠的影响，其中如果BSA的浓度过高，则通过PCR产生的总产物减少。此外，内部实验证实在珠子之间存在适体的不均匀分布，使得如果在扩增之前将珠子上的适体文库物理拆分成单独的溶液，则将在拆分物间将观察到不想要的PCR产物的不同的终点量和方差，导致未知的引入的样品间方差。为了(a)解决引入不可量化的样品间偏差的复杂性，(b)将每个文库扩增到相同的浓度终点和(c)减轻由PCR饱和和BSA的存在引起的问题，PCR扩增分两个阶段进行：(1)在珠子上的PCR和(2)阈值PCR。如果问题随消化而发生，则分两个阶段进行PCR扩增提供了文库冗余的益处。

当从相同的培育池平行运行许多实验时，PCR反应可以产生根据在每个实验中下拉的DNA的量而具有不同终点浓度(例如低、中和高)的适体的混合物(图11)。为了在许多实验之间进行计算比较，并且为了平衡可以自动化操作的最小材料量(例如用于磁珠的最小移液体积)的实验要求，在第二个扩增步骤之前将输入文库的量归一化。输入DNA模板量的差异可以影响PCR偏差的效果。在珠子上的PCR后可以测量每个文库的DNA浓度，并且可以将具有最低DNA浓度或标准量的PCR后文库用作阈值量的标准品。然后将其余的样品调整到所述阈值量并进行后续轮次的PCR，然后产生用于后续RCHT-SELEX轮次的输入物。参见例如图11A。大量对照实验证实，使用这种阈值PCR方法，序列分布的形状不改变(图11B和11C)。

引物切换

适体候选物的构建物可以包括a)参与或促进与靶的结合的DNA的随机序列，和b)DNA引物可以与其杂交以便可以对适体序列进行PCR扩增的一个或多个区域。引物区可能对适体的结构和与靶分子的结合亲和性有贡献。所述引物区可以交替使用不同的引物序列或完全移除，并且可以再次对适体进行测定，以分离不依赖于引物区而对靶分子具有高亲和性的适体。参见例如图12。

在每一轮后测序适体池

在阈值PCR之前，对来自于每个选择的每一轮的dsDNA的代表性抽取物进行测序，并分析序列轮对轮的富集。在阈值PCR之前和之后进行了测序的单元测试，证实了在阈值PCR期间序列的分布不改变。由于序列分布没有变化，并且对于计算分析来说在SELEX的每个阶段的直接比较点是理想的，因此对阈值PCR前的阶段进行选择，以：(1)减少SELEX实验结束时的额外步骤，并(2)允许以更高的浓度和减少的体积储存DNA样品而不需额外的操作(即SpeedVac等)。

正如本文中讨论的，RCHT-SELEX方法并入了几个新的改良：(1)同时筛选多达300种不同的靶，(2)在选择轮次之间维持高DNA浓度并且PCR偏差降低，(3)用于包括不论在哪天进行的每个可能的实验之间的比较在内的高级事后计算分析的额外特点，和(4)提高对小分子靶例如小肽或氨基酸靶的结合特异性。这些能力可以加速针对生物学靶的适体的大规模鉴定，在诊断学、治疗学和基础科学研究中具有潜在用途。本文描述的RCHT-SELEX方法的新特点包括但不限于：

·单次或双重培育允许对来自于相同初始培育物的靶、实验和/或平行样之间的结果进行直接比较；

·实验内平行样的分析强化了阳性信号，并节省了测试不想要的适体候选物的时间和金钱；

·阈值PCR产生了稳健的适体文库输入以用于多个平行实验并具有最小化的PCR偏差，如果存在与将PCR后dsDNA文库转变成ssDNA文库相关的实验问题则提供了较早的恢复点，并减少了由串联体造成的文库损失；

·切换允许检测特异性针对靶的特定位置处的所需序列(例如较大分子的小片段)的适体；

·基于珠子的多重化SELEX增加了同一实验内的靶，并揭示出适体在竞争性环境中的结合能力；

·掺入物浓度可用于检测实验误差和PCR偏差；

·在每一轮进行的下一代测序(NGS)与敏感性分析的组合可以：(a)更早地定位结合物，并(b)产生用于机器学习(ML)模型的输入数据。ML模型可以用更少的SELEX轮次预测高特异性新适体并探索比实验可能做到的更大的DNA输入物空间。ML在适体预测中的使用可以提高本文描述的SELEX方法的功效，同时节省宝贵的研究经费和时间。

本文描述的RCHT-SELEX方法减少劳动力和试剂成本，同时更重要的是改善数据质量、下游分析和拓宽筛选能力。此外，本文描述的多重化方法可以产生在具有多个可用靶的环境(例如细胞表面、人类血液)中特异性结合到靶的适体，因此极大增加了适体的应用流水线的发现。

本文描述的RCHT-SELEX方法可用于检查DNA：肽相互作用之外的物质结合。例如，可以检查大量生物学靶之间的结合，只要两种靶都包括可以彼此连接的寡核苷酸即可。例如，类似的技术可用于筛选结合小分子靶或蛋白质复合体的RNA适体。

另外，可以做出许多程序修改以使这种方法适合于不同应用。例如但不限于，可以筛选其他“输入物”核酸例如RNA或修饰的核酸碱基与感兴趣的分子靶的结合亲和性，或筛选与蛋白质或肽之外的靶(例如小分子、完整蛋白质、其他核酸、特定细胞系)结合的适体。修改的另一个实例是用不对称PCR代替λ核酸外切酶dsDNA消化，以产生输入到后续轮次的SELEX中的ssDNA。

本文描述的RCHT-SELEX方法可用于筛选对竞争性的多种肽环境中的特定肽靶具有选择性结合的适体。像选择性抗体一样，得到的适体可以单独地或与两种或更多种适体组合使用，以产生表现出多靶结合分布的复合体。例如，各自对不同的靶具有高选择性的两种适体可以被顺序、串联或联结在一起使用，以便产生与两种独立的靶结合的单一构建物。或者，可以将具有相同的主要靶但具有不同脱靶结合分布的两种适体联结在一起，以通过亲合力提高与它们的共同靶结合的选择性，并同时减少脱靶效应。

除了用于测量适体与靶之间的结合之外，本文描述的RCHT-SELEX方法也可用于测量以前描述的任何分子类别的不同混合物之间的结合(例如通过用带有DNA条形码并具有3’C-突出臂的分子代替适体)，能够对包括但不限于肽与蛋白质、蛋白质-蛋白质、抗体-蛋白质、小分子-蛋白质、肽-细胞表面标志物、抗体-细胞表面标志物等的分子类别组合中的任一者进行双向多路竞争性测量。在某些实施方式中，可以从来自于任何上述类别的分子的混合物中抽出两种结合分子(例如结合物和靶)，允许测量在复杂的竞争性环境中的交叉结合。

B部分：NTAA-SELEX

我们通过现有技术和新技术的创造性组合开发了一种新的SELEX方法，以时间高效的方式来优化高亲和性和特异性适体的选择：

1)负选择

减少适体向不想要的靶(例如磁珠、PEG、结合缓冲液中的试剂(例如BSA等))的富集的一种常用技术是在适体候选物的初始池中筛选与在SELEX实验中使用的选择组分结合的适体，所述组分在我们的情形中是SELEX缓冲液(1x PBS，0.025％Tween-20，0.1mg/mLBSA，1mM MgCl₂)中的链亲合素珠子。对选择组分表现出结合亲和性的适体对靶是非特异性的，并从候选物池中移除，使得只有不结合选择组分的适体成为针对靶进行测定的适体候选物池的一部分。在开始SELEX轮次之前，可以对文库进行单轮或多轮负选择。在选择靶文库尺寸(例如10¹⁴个分子)时，对于负选择来说需要使用较大的文库，以确保上清液包含足够的分子用于下游SELEX实验。

2)肽骨架切换

在每个平行选择期间，可以对感兴趣的靶的每个平行样进行肽切换。具体来说，可以开发具有不同的骨架序列的“切换”靶，例如所述肽靶的氨基酸序列除了例如N-端处的两个氨基酸之外均有所不同。通过在轮换的轮次中在至少两个不同的骨架之间切换，降低了富集与不是感兴趣的二肽的任何物质结合的适体的机会。

3)多种平行靶的筛选

在这项技术中，可以将DNA适体的平行选择用于密切相关以及无关的靶。可以在靶之间使用以下指标：1)通过NGS测序确定的每一轮中每种适体的计数，2)每种适体轮对轮的富集，和3)从测序的第一轮到测序的最后一轮的富集。通过在不同靶选择之间比较这些指标，人们能够确定对于结合到以前被显示为是“适体原性”的已知靶的“真结合物”来说结合信号看起来是什么样的，以及对于非特异性结合到固定靶的表面(例如珠子)的“非特异性结合物”来说结合信号看起来是什么样的。平行靶筛选之间的这些指标允许跟踪适体的特异性并防止未知的污染影响。

4)平行样靶筛选

在这项技术中，可以将DNA适体的平行选择用于同一个靶。可以将独特的随机DNA文库用于同时对同一个靶进行2或3次SELEX。这允许实验人员对上述每种适体的指标建立信心，特别是如果它们属于同一个数量级的话。此外，它允许实验者观察所述适体池中是否存在异常值。例如，如果在寻找最终适体候选物时一个随机文库与另一个随机文库相比具有明显更低的富集，则实验人员可以选择仅用来自于显示出较高富集的文库的前导适体候选物来工作。

5)反SELEX

反SELEX是一项与负选择相似的技术，区别在于将适体文库与珠子上的与所需靶相似的分子温育，用磁铁将所述珠子下拉，并且得到的上清液含有不与所述相似靶结合的适体的文库。然后可以将所述上清液用于下游实验，以帮助富集N-端结合物。反SELEX可以在实验开始时与负选择平行或顺序地进行，并且可以在单个或多个循环中运行。反SELEX可以在常规SELEX轮次之间或在最后一轮SELEX之后运行，以增强文库池中N-端适体结合物的信号。

在反SELEX期间可以使用许多类型的分子。反SELEX可用于本质上与靶相似但具有略微修饰的靶(例如为了将翻译后修饰的N-端氨基酸与未修饰的N-端氨基酸区分开)、在肽切换期间使用的肽骨架(或后缀)或针对代表蛋白质组的靶的大型池，以确保针对独特的目标靶的特异性N-端适体结合物。

如果在肽切换实验中使用多种骨架，则在反SELEX实验期间可以顺序使用多种肽后缀。例如，如果将两种不同的骨架用于肽切换，则可以在SELEX轮次之间对靶的混合物运行平行反SELEX，其中用于反SELEX的“靶”池由结合到珠子的一个骨架的一半和结合到珠子的另一个骨架的一半组成。其他实施方式可以改变严紧性和/或引入其他分子的组合例如随机肽文库、各种不同的骨架设计、具有其他N-端二肽后缀的骨架。

6)PCR和消化技术

PCR优化、阈值PCR和dsDNA消化技术可用于NTAA-SELEX，并描述在部分A：RCHT-SELEX中。

本文描述的NTAA-SELEX方法的新特点包括但不限于：

1)这个方案提供了发现针对N-端氨基酸的适体结合物的途径，这可以革新方法以便能够进行蛋白质序列的高分辨率鉴定和高通量蛋白质测序分析。核酸的稳定性和柔性使得适体成为用于蛋白质测序和定量技术的多种方法、包括成像和本文中描述的DNA条形码方法的通用工具；

2)多个平行SELEX实验可以允许规模化适体发现并移除作为多种肽靶的非特异性结合物的适体；

3)反SELEX实验的测序可以促使发现N-端结合物并移除针对沿着靶的其他区域的适体结合物；

4)可以在每个SELEX实验中运行对照靶，以允许评估实验间比较指标；

5)肽骨架切换允许检测特异性针对较大肽的N-端氨基酸的适体，或者如果需要的话，产生针对肽串内部的氨基酸序列或修饰的氨基酸的适体。

蛋白质或肽测序(PROSEQ)

本文描述的PROSEQ方法使用带条形码的氨基酸特异性适体将蛋白质序列转变成在下一代测序(NGS)平台上可读的DNA信号。质谱术(MS)是在蛋白质的鉴定和定量中常用的工具之一，然而所述技术缺少检测复杂样品中的低表达蛋白质所需的覆盖宽动态范围的能力(Schiess,Wollscheid,&Aebersold,2008)。其他现有的特异性蛋白质定量测定法包括抗体或适体结合测定法，其中可检测的抗体、适体或其他小分子结合物与已知蛋白质特异性结合，因此不能从头测序或测量尚未发现特异性结合物的蛋白质。本文描述的PROSEQ蛋白质测序方法可用于小量样品输入(包括单个细胞或小体积血液)以鉴定整个蛋白质组，包括低表达蛋白质和单氨基酸突变，以更好地了解由异常或变性的蛋白质引起的疾病。此外，本文描述的PROSEQ方法能够平行地测序非均质样品或多种样品，因为蛋白质可以用独特的DNA标签带上条形码，其可以被并入到编码蛋白质序列信息的DNA序列中。此外，本文描述的方法能够进行比现有方法例如质谱术明显更深的测序，因为DNA序列从单一肽衍生、扩增并从测序仪读出(DR 100-10⁹)，其不经受与质谱术相同的动态范围限制(DR>10⁵)(Yates,Ruse,&Nakorchevsky,2009)。此外，可以通过下述方法对样品进行处理，以除去与样品中的高丰度蛋白质相关的读出：1)在进入PROSEQ的原始输入池中除去高丰度蛋白质，或2)分离出与高丰度蛋白质相关的DNA条形码，以增加与低丰度蛋白质相关的DNA序列的NGS读出计数。

本文描述的PROSEQ方法可以在临床背景中用于定量蛋白质表达水平或鉴定新的蛋白质融合体或来自于个体患者样品的与疾病相关的突变，以帮助患者诊断和疾病发作。此外，本文描述的方法可以被广泛用于分子和细胞生物学和蛋白质工程的研究领域，例如：测序蛋白质，发现新的生物标志物，分析整个蛋白质组或宏蛋白质组，评估与蛋白质丰度有关的机制等。

1)适体提供进行从头测序的能力。

本文描述的方法依靠特异性针对一个或两个N-端氨基酸的独特组合的适体的文库，其中每个残基或残基对具有至少一个或多个可能的适体结合物。ssDNA适体被设计成含有用于连接的5’磷酸酯、独特的DNA条形码(其指示特定适体的身份和相应的循环数)、用于后续条形码连接的间隔物/共有区(例如连接共有序列)、带有间隔物的限制性酶位点和氨基酸识别序列(例如单链DNA适体序列)。参见例如图13。可以将这些适体与肽靶在含有或不含覆盖一些或所有条形码序列、连接共有序列和带有间隔物的限制性酶位点的互补DNA链的情况下温育。在这些区域未被覆盖的情况下，与连接和限制性位点互补的DNA可以在温育后杂交，以分别便于连接和限制。

本文描述的适体可以以下述方式中的任一方式用于测序蛋白质或肽：

(A)来自于在溶液中或在固体基材上加工的蛋白质的肽片段

可以从样品(例如血液样品、细胞裂解液或单细胞)获得蛋白质，将其变性、偶联到寡核苷酸并消化成肽片段。应该理解，有多种方法可以获得和消化蛋白质并在测序步骤之前将肽片段偶联到寡核苷酸。一种这样的策略包括使用温和的表面活性剂变性蛋白质，并还原和烷基化所述变性的蛋白质以保护半胱氨酸侧链。例如，使用氰基硼氢化钠将赖氨酸氨基酸侧链上的氨基与醛修饰的寡核苷酸通过还原胺化反应进行反应。蛋白质可以用Lys-C消化，其在赖氨酸的C-端一侧上切割蛋白质。通过使用这种方法，每个消化的肽均具有附连到寡核苷酸尾部的赖氨酸残基。还原胺化反应也可以在赖氨酸的侧链与带有醛官能团的炔烃之间发生，将其制备成用于与叠氮化物修饰的DNA寡核苷酸发生点击化学反应。在另一种方法中，可以将蛋白质的侧链保护，用寡核苷酸或点击化学连接物修饰，然后切割成肽片段，例如使用在赖氨酸和精氨酸处切断的常规胰蛋白酶方法和/或在随机氨基酸位点处切割的其他片段化酶(图13，步骤2)，或者可以将它们在溶液中加工(参见下文的修饰)。此时，可以将DNA偶联的蛋白质片段连接到测序基材表面上的DNA寡核苷酸，在那里它们将在整个DNA条形码编码过程中保持连接，并在DNA测序之前移除。

适体可以从SELEX实验直接获取，并通过BCS相容性适体池的生成而应用于BCS测定法，在所述生成中将SELEX引物区之一转变成BCS柄。将结合物的适体区测序并当作所述结合物的“条形码”。为了产生BCS相容性适体池，在将肽靶与适体温育前，将单链适体池与部分互补于适体尾部并部分互补于条形码基底(BF)上的条形码序列上的连接区(图14中示出的单链突出部)的桥寡核苷酸温育，以(a)促进适体尾部与条形码序列的结合，和(b)阻断不参与靶结合的适体的ssDNA区，以免于影响正确的适体折叠。可以将杂交到桥的BCS相容性适体的带DNA条形码的文库流过肽并温育，允许适合的适体特异性结合到N-端氨基酸残基(图13，步骤3)。

在适体结合后，将未结合的适体洗掉，并且可以将结合的适体的尾部连接到与肽共定位的第二个玻璃固定化的DNA寡核苷酸(图13，步骤4)。包含在适体条形码远端的限制性酶位点可用于切割适体的剩余部分，留下附连到邻近寡核苷酸的DNA条形码(图13，步骤5)。然后，可以使用Edman降解和/或氨肽酶从所述固定的肽移除N-端氨基酸。在Edman降解中，一旦新的N-端氨基酸被暴露，就可以引入具有指示靶识别序列和循环数的独特DNA条形码的另一个适体池，并且可以进行DNA条形码连接的另一个循环。在将这一系列步骤重复多次后，可以建立DNA条形码的链，其指示了肽的适体结合顺序，可以使用常规NGS技术读取。使用该信息，可以获得结合的肽的氨基酸序列。在氨肽酶的情况下，可以以可控性较低的方式一次切割超过一个N-端氨基酸，这尽管不利于从头测序，但可以揭示用于非从头测序方法的信息。

(B)在溶液中加工的全长蛋白质

对于全长蛋白质来说，方案与上述相似，但存在一些重要差异。可以进行下述步骤：(a)裂解细胞(如果蛋白质从细胞获得的话)，分离或纯化、变性和保护蛋白质，(b)保护氨基酸残基的反应性侧链(例如巯基、羧基和胺基)，(c)将ssDNA寡核苷酸偶联到蛋白质的C-端，其中所述ssDNA寡核苷酸含有引物区、独特条形码和初始连接区，(d)将所有侧链保护基团去保护，(e)将蛋白质与适体池温育，其中所述适体可以含有包括用于连接的5’磷酸酯的尾部、独特的DNA条形码(其提供关于适体结合序列加上测序轮次的信息)、用于后续条形码连接的间隔物/共有区(例如连接共有序列)、带有间隔物的限制性酶位点和N-端氨基酸识别序列(例如单链DNA适体序列)，(f)将所述结合的适体连接到所述蛋白质的DNA尾部，(g)使用与蛋白质/DNA偶联物分子的引物区具有互补性的生物素化的试剂下拉所述蛋白质/适体复合体，(h)洗掉未结合的适体池，(i)切掉所述适体的结合区，留下其DNA条形码附连到所述蛋白质的DNA尾部，(j)切掉N-端氨基酸，(k)将所述蛋白质从其生物素化的寡核苷酸上变性，(l)收集带DNA条形码的蛋白质的上清液，(m)重复步骤(c)-(l)，直至整个蛋白质已被转变成DNA链，然后进行PCR扩增并测序所述DNA条形码。如果在此时结合物保持结合并在蛋白质-适体复合体下拉期间破坏，则步骤(g)也可以在将所述结合的适体连接到蛋白质的DNA尾部之前进行[结合、下拉、清洗、连接](步骤f)。还应该理解，在适体温育(步骤e)期间可以添加与蛋白质/DNA偶联物分子的引物区具有互补性的生物素化的试剂，以防止适体结合到肽靶的DNA区而不是N-端前缀。

包括突出部在内的条形码的长度可以是约8至约26个核苷酸(nt)(例如长度为约9、10、12、15、16、18、20、21、22、23、24或26nt)。NGS技术当前被优化用于短读出序列或最多约300-600个循环。对于许多蛋白质来说，可以进行长测序实验(例如通过PacBio)，或者可以将DNA链片段化成较小的区域并在测序后重新对齐。

(C)在溶液中加工的蛋白质复合体和随后的固体基材步骤

对于蛋白质复合体来说，可以将蛋白质复合体内的蛋白质通过氨基酸侧链添加DNA寡核苷酸标签，并可以将近端侧链连接在一起，然后将蛋白质变性，然后在不存在片段化的情况下进行上文(例如在(B)部分下)概述的方案。可以对方案进行优化，使得只有紧邻的蛋白质(例如结合的复合体)带上可以彼此连接的寡核苷酸标签。可以将所述蛋白质复合体下拉并附连到固体基材，所述固体基材可以具有特定放置的DNA接头，使得蛋白质复合体可以在本地加工。芯片上的DNA接头可以具有独特的DNA起始条形码，其在分离和测序时，可以揭示出关于相邻的被测序肽片段以及因此蛋白质复合体的身份的信息。

本文描述的PROSEQ方法不依靠蛋白质或蛋白质复合体的现有知识(正如在使用例如质谱术时所需的)，并提供了用于从头测序的途径。一旦将蛋白质或肽分子转变成DNA分子后，可以使用常规工具例如PCR扩增、生物素下拉法和/或消化来扩增、增强和修饰所述序列，以允许合并许多样品或确定样品中的低表达分子。使用PROSEQ的许多非从头应用也可以获得许多新的生物学信息，例如高分辨率蛋白质定量，这在当前使用常规的蛋白质测序技术是不可能做到的。

图15A是另一个示意图，示出了本文描述的基于适体的肽测序方法的实例，其中将肽的C-端末端偶联到结合到基材的胺修饰的寡核苷酸，或使用其他策略例如点击化学或SMCC连接物(4-(N-马来酰亚胺甲基)环己烷-1-甲酸琥珀酰亚胺基酯)将肽共价结合到寡核苷酸(1)，将所述结合的肽与带DNA条形码的适体文库温育(2)，将与肽结合的适体连接到固定在固体基材上的第二寡核苷酸(3)，并且切割所述适体，留下DNA条形码附连到所述第二寡核苷酸(4)。图15B是示出了针对不同氨基酸的代表性适体和相应的适体条形码的示意图，所述条形码的序列鉴定了该位置处的特定氨基酸。

2)本文描述的蛋白质测序方法克服了Edman降解的加工性限制

本文描述的方法克服了Edman降解的加工性限制。例如，在通过Edman降解切割后，通常使用液相色谱(LC)来鉴定末端氨基酸。标准Edman降解中的假设缺点是在物理上，N-端氨基酸的准确降解和检测存在最大循环数(～10个循环)。由于本发明的方法不测量被切掉的氨基酸，因此被切割氨基酸的检测限制不是障碍。此外，本文描述的PROSEQ方法中的任何加工性限制可以通过在使用Edman降解和氨肽酶(例如胰蛋白酶和胃蛋白酶)切割末端氨基酸之间轮换来克服。在例如大约30个循环后，本文描述的方法可以使用外肽酶在特定氨基酸位点处切割所述肽，这允许测序从所述肽的新区域再次开始。

3)本文描述的蛋白质测序方法允许对非均质蛋白质池进行测序

本文描述的PROSEQ方法的重要特点之一是对蛋白质的大型池进行测序的能力，在所述池中一种或多种感兴趣的蛋白质(例如靶蛋白)以低水平或极低水平表达(例如以百亿分之一存在的蛋白质；使用本文描述的“Sup-Diff”方法时可能甚至更低)。这在处理诸如血浆的样品时特别有用，所述血浆(1)易于从患者获取，(b)允许纵向研究，并且(c)由于在血流中存在生物标志物，可以为难以研究的疾病例如神经变性疾病提供信息。在血浆中，13种蛋白质加上白蛋白占蛋白质样品的96％，一些最感兴趣的分子例如组织渗漏产物和细胞因子占样品的最后4％，并发现它们完全在MS的仪器检测分辨率极限之下(Schiess,Wollscheid,&Aebersold,2008)。因此，使用MS鉴定血浆样品中的生物标志物或新蛋白质可能极为困难。与HPLC和MS不同，在适体结合的基础上鉴定氨基酸不受限于样品中单个蛋白质高浓度的检测限制。由于实际测序的终产物是DNA而不是蛋白质，因此存在充分开发的工具用于扩增、退火和下拉感兴趣的特定DNA群体。在DNA条形码链形成后，DNA测序仪平台可以克隆地扩增所述序列(例如使用桥扩增)。成千上万簇的每一种DNA序列产生了比其来自于低表达蛋白质的初始输入物信号更大的可读信号，而绕过了单分子技术。这种对大型非均质池进行测序的能力允许对横跨整个生物体蛋白质组的数千个抗原进行测序。

对于具有大的动态范围的样品来说，可以使用被称为“sup-diff”的方法来除去高表达蛋白质的DNA条形码构建物，导致留在待测序的寡核苷酸池中的低表达肽或蛋白质簇的DNA条形码构建物的比例提高。例如，有两种方法用于提高所需或低表达肽的比例：先验和非先验方法。总体策略是开发一种ssDNA诱饵池，其含有与ssDNA的初始多样化池中的某些序列互补的生物素化的RNA序列(Diatchenko等，1996)(Gnirke等，2009)。所述RNA诱饵池被用于通过溶液中杂交和随后在链亲合素包被的磁珠上的下拉来捕获ssDNA靶。

先验方法与非先验方法之间的主要区别在于先验方法仅拉出已知序列，而非先验方法拉出分布和组成未知的池中的高丰度序列。在先验方法中，首先对ssDNA的多样化池进行测序，然后用户可以设计特异性针对用户想要从所述池拉出的序列的诱饵，这可以包括可能是污染物的非常高浓度的序列。先验方法富集没有被所述设计的诱饵下拉的序列，因此减少了针对最初希望从所述池拉出的靶的NGS测序读出。在非先验方法中，将ssDNA的初始多样化池直接用于产生RNA诱饵池。所述RNA诱饵池可以具有与原始靶池相同的级分分布或略微偏向初始的高丰度序列的分布。假设较高丰度的靶序列在优化的时间、温度和总体诱饵与靶的比率的条件下更可能找到它们的RNA诱饵配偶体，当将所述RNA诱饵与ssDNA的初始多样化池杂交时，高浓度序列更可能被拉出。参见例如图16。

4)本文描述的蛋白质测序方法允许使用多种DNA测序技术对DNA条形码进行测序

本文描述的用于测序蛋白质的方法可以与任何现有的DNA测序技术联合进行。使用具有以指定方式打印在玻璃上的DNA的定制流动室和自动化流体系统，可以如前面的部分中所述建立条形码，而无需重编程或改变现有DNA测序平台的用途。然后可以将这些代表蛋白质/肽序列的DNA条形码在任何现有的DNA测序平台或技术上测序。

5)本文描述的蛋白质测序方法包括确保稳健的蛋白质和DNA测序能力的策略，尽管Edman降解要求严苛的化学

本文描述的ProSeq方法使用带条形码的氨基酸特异性适体将蛋白质序列转变成在下一代测序(NGS)平台上可读的DNA信号。本文描述的方法克服了由Edman降解引起的蛋白质测序平台组分的变形，所述变形阻止了DNA条形码构建物的簇集以及因此阻止了直接在同一芯片上的测序。三氟乙酸(TFA)和在Edman降解期间发生的pH波动导致两个主要问题：(1)通过芯片上的P5和P7 DNA接头的移除或修饰而引起的DNA簇产生的丧失，(2)构建的DNA条形码的修饰，引起序列信息和扩增能力的丧失。

(A)DNA条形码的芯片外测序

在建立了含有指示肽的适体结合顺序的DNA条形码的链的DNA条形码构建物后，将所述构建物在芯片上扩增或从芯片切下并在溶液中扩增。使用的扩增方法包括但不限于PCR、环介导等温扩增、基于核酸序列的扩增、链置换扩增和多重置换扩增。此外，可以将原始的DNA条形码构建物在芯片上转录成大量RNA构建物，然后可以将它们转变成由原始DNA条形码的许多拷贝组成的cDNA文库。所述扩增产物、即原始DNA条形码构建物的拷贝，可以从微流体室中取出，并使用标准的DNA测序方法包括但不限于Sanger测序、NGS、离子半导体测序、SOLiD技术、cPAS等进行测序。将读出的数目归一化到使用的PCR循环的数目，以估算从初始样品测序的每种蛋白质或肽的量。

(B)XNA或修饰的DNA/RNA接头、基底和条形码

本文描述的方法是一种单芯片策略，通过利用具有下述性质的XNA或修饰的DNA/RNA来克服BCS平台上DNA组分的降解：(a)对由Edman降解或高酸性条件造成的转化有抗性，(b)能够被制造成与常规DNA核苷酸的嵌合体，并且(c)与可以扩增这些非天然核酸或将修饰的序列转变成常规DNA bp的现有聚合酶相容。此类修饰的核酸可以包括增强其水解稳定性的对核糖的2’碳的修饰或对嘌呤碱基自身的修饰(Watt等，2009)。实例包括但不限于2'-O-甲基化RNA、2'-氟代脱氧腺苷、7-去氮杂-2'-脱氧腺苷和7-去氮杂-8-氮杂-脱氧鸟苷。

·向降解的P7添加XNA或修饰的DNA/RNA接头：本文的方法可以利用芯片上可用的降解的P7接头作为定制XNA或修饰的DNA/RNA接头的基础。在使P7和P5接头经历酸性条件后，P5接头至少被部分移除并且P7被降解。在条形码簇产生后添加用于连接和条形码产生柄的新接头的两种方法是：

ο方法1：可以进行几轮Edman降解以除去P5并将P7脱嘌呤，并且可以将XNA或修饰的DNA/RNA接头连接到P7的剩余区域。XNA接头连接的一种方法是将带有磷酸化的5’末端的XNA或修饰的DNA/RNA接头连接到P7的3’末端。如果所述修饰的核酸类似物降低连接酶效率，则所述接头序列可以是在其处5’末端具有一个或多个标准的胞嘧啶或胸腺嘧啶核苷酸的嵌合XNA或修饰的DNA/RNA分子。

ο方法2：进行几轮Edman降解以除去P5并将P7脱嘌呤，并使用点击化学将XNA或修饰的DNA/RNA接头附连到P7的剩余区域。添加XNA接头的另一种策略是通过在P7的3’末端上连接在3’末端处具有反应性基团的寡核苷酸连接物，将XNA或修饰的DNA/RNA接头附连到P7上。化学反应可以将任选地含有切割位点并在其连接到寡核苷酸连接物的5’末端处具有相应的反应性基团的功能性XNA或修饰的DNA/RNA接头附连到P7。成对的反应性基团的实例包括但不限于NHS酯与胺(叠氮化物反应)、叠氮化物与炔(三唑反应)、马来酰亚胺与硫醇(硫醚反应)和四嗪与烯烃。P7和连接物可以被阻断，以免于在适体温育期间与部分互补于P7和扩展物寡核苷酸两者的寡核苷酸的不想要的退火。

·XNA或修饰的DNA/RNA基底和条形码：本文的方法的基底片段、适体的结合区、BCS盒式组分、适体条形码区或其组合可以包含XNA或修饰的DNA/RNA。

一旦不再检测到P5接头，Illumina测序方案就结束测序运行，因此在其中P5从测序平台移除的实施方式中，可能需要另外的步骤来防止过早的测序停止。这些步骤可以单独或组合地包括：

·在最后一轮Edman降解后通过酶法或化学法向芯片添加多个P5

·改编测序仪器方案代码，以在不存在P5的情况下继续测序运行

·通过酶法或化学法将定制的引物序列附连到改变的P7链的切割位点中，并改编测序方案代码，以检测所述定制的引物序列而不是P5来确定是否终止测序运行。

6)本文描述的蛋白质测序方法的示例性变化形式包括但不限于(图17)：

·多个适体结合轮次：在某些情况下(例如如果存在适体特异性结合问题)，在继续进行N-端氨基酸降解之前可以进行几轮适体结合/DNA条形码编制/适体变性，用于误差校正。所述额外的数据采集允许下游计算分析，以减少每一个测量的噪声。

·针对两个氨基酸的适体：在某些情况下(例如如果针对单个氨基酸的适体不具有足够高的亲和性或对方法来说不够特异)，则可以产生针对两个或更多个连续氨基酸的适体(图18)。结合并编码两个氨基酸的适体的附加的益处在于由于每个氨基酸(除了N-和C-端之外)被读取两次，因此信噪比提高。

·基材：这种条形码测序方法也可以在具有在随机或图案化事件中打印或化学连接的DNA寡核苷酸的玻璃或石英基材上进行。此类芯片可以定制或购买；例如，学术实验室利用洁净室和DNA点样机制造芯片，Agilent在玻璃上打印以斑点图案的具有已知寡核苷酸序列的微阵列，并且Illumina的下一代测序芯片是玻璃载片，具有连接到固体表面的随机分布的针对P5和P7序列结合位点的DNA接头。在定制玻璃载片或基材的情况下，DNA寡核苷酸可以具有特定的图案以降低脱靶连接噪声。

·不同的寡核苷酸取向：本文描述的蛋白质测序方法将DNA条形码序列定向为使得5’末端附连到芯片上的DNA接头。使用可选或定制芯片，可以代之以将条形码序列的3’末端附连到芯片表面。

·在溶液中：通过将DNA条形码直接连接到肽的C-端，可以完全消除对固体基材的需要。肽的C-端最初可以含有短的寡核苷酸序列，允许适体末端与例如通过5-mer寡核苷酸桥接的肽尾部之间的连接。在Edman降解后，可以将后续的DNA条形码连接到肽尾部的游离末端上。然后可以将得到的条形码序列PCR扩增并使用标准的NGS技术测序。

·溶液中的珠子：可以将肽和寡核苷酸连接到珠子(磁性、玻璃、玻璃覆盖的磁性珠子，或用耐酸材料包被的其他珠子)，并且可以通过珠子在溶液中的浸泡和分离进行连续肽测序步骤(例如适体结合、条形码并入和肽降解)。在所需数目的测序循环后，可以将提供肽的序列的DNA条形码直接在珠子上PCR扩增，并使用标准的NGS技术测序(Hoon,Zhou,Janda,Brenner,&Scolnick,2011)。

·不同的结合物：除了适体之外，带条形码的结合物例如RNA、肽、蛋白质、纳米抗体或其他小分子也可用于识别氨基酸。

·不同的蛋白酶：在加工蛋白质样品时，可以使用不同的蛋白酶例如上述的Lys-C、胰蛋白酶或多种蛋白酶的组合。此外，可以将样品分成多个样品，用多种蛋白质水解策略处理，以建立不同的蛋白质组图谱。

·单一平台相比于步骤的分开：肽的Edman降解和DNA条形码的产生可以在测序仪平台之外进行，或者建立完整的端到端自动化单一平台。DNA条形码链可以在分开的步骤中固定和测序。

·桥设计：桥是与具有3’单链突出部的适体尾部部分互补的寡核苷酸，其退火到限制性位点间隔物和条形码(图14)。可以对桥进行设计，使得它们可以是(a)条形码特异性桥，其中桥与除了3’单链突出部区域之外的包括条形码区在内的适体尾部完全互补，使得每个独特适体具有与其相关的独特桥(图14A)，或者是(b)通用桥，其中桥只与限制性位点间隔物和共有序列互补，这两者在所有适体中都是保守的，并在适体尾部上位于条形码的两侧，使得所有独特适体共有相同的桥寡核苷酸(图14B)。对于通用桥来说，与适体尾部上的条形码形成双链体的区域可以由下述序列组成：(a)通用碱基类似物例如5-硝基吲哚、3-硝基吡咯和4-硝基苯并咪唑等的序列，或(b)没有碱基的间隙，使得通用桥由退火到条形码两侧的区域的两个分开的寡核苷酸组成。

·连接方法：DNA条形码可以化学连接而不是酶法连接在一起。

·不同的读出物：代替使用DNA条形码，为了鉴定氨基酸结合物，人们可以使用荧光染料、珠子、纳米粒子等(也参见本文中描述的PROSEQ-VIS方法)。

·顺序氨基酸降解：在轮次之间切掉单个氨基酸可以通过酶法或化学法进行，例如通过Edman降解。

·测序方向性：可以从N-端末端或C-端末端切掉单个氨基酸(Casagranda和Wilshire，1994)(Cederlund等，2001)。在本文中详细描述了从N-端末端开始的蛋白质测序。在本公开的基础上，应该认识到可以将类似的方法与被设计成特异性识别并结合一个或多个C-端氨基酸的适体相结合，应用于从C-端末端开始的蛋白质测序。对于C-端测序来说，除去C-端氨基酸并产生C-端氨基酸缩短的蛋白质或肽的方法(代替使用例如Edman降解来产生N-端氨基酸缩短的蛋白质或肽)在本领域中是已知的，并且可以使用包括但不限于Bergman等(2001,Anal.Biochem.,290(1):74-82)和Casagranda和Wilshire(1994,MethodsMol.Biol.,32:335-49)。

应该理解，本文中描述的PROSEQ方法也可充当大规模高通量结合特异性测定法，以表征不同物质结合情景中的相互作用(BCS结合测定法)。这种测定法的关键优点在于它允许在一个实验中记录许多假设结合物与许多靶之间的一个或多个结合事件。一旦将所需靶偶联到共定位基底后，可以将所述基底固定到玻璃基材上或在溶液中加工。然后将多样化的带DNA条形码的假设的结合物文库(PBL)与所需靶和非目标靶温育，允许发生结合。每个带DNA条形码的假设的结合物包含偶联到DNA序列的结合物分子，所述DNA序列至少含有a)限制性位点，b)连接位点(例如第一连接位点)，c)指示假设的结合物的身份和结合循环的独特的DNA条形码，和d)另一个连接位点(例如第二连接位点)。当假设的结合物结合固定的靶时，它的DNA条形码尾部连接到与所述靶共定位的近端的靶-带条形码的DNA基底。将所述连接的条形码用限制性酶切割，暴露出DNA条形码构建物，其在下一轮中被连接到另一个结合物条形码。在芯片上重复这一系列步骤后，可以使用常规DNA NGS技术读出含有关于结合物和靶的身份以及结合事件的顺序的信息的DNA条形码的链(图19)。使用该信息，可以推导出在各种不同环境中与所需靶和非目标靶结合的假设结合物的概率分布。

本文描述的PROSEQ方法产生大量优点，包括但不限于能够：

·在一个混合物中，通过对同一个靶质询多次来产生结合事件的概率分布；

·通过用于固态方法的清洗步骤将结合事件与未结合的结合物分子分离开。结合和连接事件的分开减少了脱靶连接事件。

·在各种不同环境中(例如在非目标靶、其他感兴趣的靶等存在下)测定假设结合物的大型文库。对于通过其中结合物在隔离其他假设靶的情况下选择的选择过程鉴定，但将在存在各种不同靶的应用中使用的结合物来说，这是特别重要的；

·在高噪声环境中检测稀有结合事件(由于NGS中的高分辨率数据)；

·确定结合物的功能性缓冲条件的动态范围；

·如果反应不在溶液中进行，通过简单地使清洗缓冲液流过来简化分离结合和未结合配体的过程。

伴有可视化的肽或蛋白质测序(PROSEQ-VIS)

本文描述的PROSEQ-VIS方法将氨基酸序列转变成光学条形码。在本文中描述的PROSEQ-VIS方法中，可以使用荧光团偶联的适体将氨基酸序列解卷积，允许从头蛋白质测序。本文描述的PROSEQ-VIS方法能够测序多种多样的样品，特别是其中一种或多种感兴趣的蛋白质(例如靶蛋白质)以低或极低浓度存在(例如以百亿分之一存在的蛋白质)的样品。本文描述的PROSEQ-VIS方法也提供了计算工具，以在观察到的结合事件的独特光谱特征的基础上确定N-端氨基酸的身份。

本文描述的PROSEQ-VIS方法使用氨基酸特异性适体结合将蛋白质序列转变成一系列荧光图像或“光学条形码”，其可以通过显微镜成像来读取。所述光学荧光团可以被指派到它们的适体，揭示出隐含的蛋白质序列。参见例如图20。这种蛋白质测序方法可用于小量样品(包括单细胞或小体积血液)，以鉴定整个表达蛋白质组、低表达蛋白质和单氨基酸突变，以更好地了解复杂的疾病表型。此外，本文描述的PROSEQ-VIS方法可以在完整细胞和组织上进行，以不仅可视化蛋白质的序列，而且可视化在样品中的位置。参见例如表1。

表1

本文描述的PROSEQ-VIS方法可用于临床背景中，用于鉴定新的蛋白质融合体或来自于个体患者样品的与疾病有关的突变，开发诊断或预后，评估患者对治疗的反应，或预测对某些治疗的可能的反应的可能性。此外，本文描述的方法可以广泛地用于表征蛋白质，发现新的生物标志物，分析全蛋白质组或宏蛋白质组，建立细胞系和评估与蛋白质丰度、序列或功能有关的机制。

1)适体提供进行从头测序的能力

本文描述的PROSEQ-VIS方法使用本文中描述的特异性针对一个或两个N-端氨基酸的独特组合的适体的文库，其中每个残基对具有至少一个(例如超过一个，例如多个)适体结合物。所述ssDNA适体被设计成含有包括荧光团的区域或用于退火短的染料偶联的ssDNA探针的区域，以便可以通过N-端氨基酸与其相应的适体之间的结合事件的独特光谱特征来鉴定N-端氨基酸。

可以从样品(例如血液样品、细胞裂解或单细胞)获得蛋白质，将其变性、阻断并切割成肽片段。尽管变性的完整蛋白质不需切割即可进行分析，但切割成较小肽片段的蛋白质是最佳的，因为：(1)Edman的轮次提高了成像中的本底噪声，因此可以使用更少的测序轮次来确定肽片段的序列，并且(2)某些成像模式(如TIRF)具有窄的聚焦窗口(10s-100s的nms)，并且信号检测高度依赖于样品被充分包含在最佳成像窗口内。蛋白质可以使用例如在赖氨酸和精氨酸处切割的常规胰蛋白酶方法和/或在随机氨基酸位点处切割的其他片段化酶切割成肽片段。两种方法的组合可以帮助减少测序后计算比对中的误差。一旦将蛋白质转变成短肽后，就可以将游离且未阻断的C-端末端偶联到玻璃基材上的DNA引物寡核苷酸或直接偶联到玻璃(图21)。然后，可以将适体文库流过肽进行温育，允许适体与N-端氨基酸残基特异性结合。存在许多对适体尾部进行荧光标记的方式。两个可能的成像选项是所述适体尾部可以具有：(a)用于成像的带光学条形码的尾部，或(b)其中一个或多个短的带荧光标签的DNA探针可以退火到适体：氨基酸复合体的区域。

1.1直接适体-染料偶联

在适体与N-端前缀结合后，适体的光学特征(a)可以通过多通道单分子落射荧光或全内反射荧光(TIRF)成像设置来成像。对于每个N-端前缀读出(“轮”)来说，将未结合的适体洗掉，并且可以在温育期间获得图像的z轴多层扫描，以便确认N-端氨基酸的光谱特征。然后通过使用Edman降解和/或氨肽酶除去固定的肽上的N-端氨基酸，开始下一轮。然后可以使用同一适体池质询新暴露的N-端氨基酸(图20A-20D)。在重复这一系列步骤后，通过将为每个肽观察到的结合事件针对每个适体-氨基酸复合体的结合事件的概率分布进行比较，可以在每一轮时计算推导出每个N-端氨基酸的身份。使用这个信息，可以在成像和降解的连续轮次中获得的一系列氨基酸特征的基础上推导出每个肽的氨基酸序列。参见例如图20E。

1.2寡核苷酸偶联的染料与适体的杂交

在使用具有与互补的带荧光标签的寡核苷酸结合的区域的适体的情况下，所述测定法的每“轮”N-端前缀读出包括探针温育和成像的多次“迭代”。所述适体包括3个区域：(a)有效结合区，(b)任选的间隔物，和(c)具有指示探测迭代次数和荧光标签的条形码单元的一种或多种组合的条形码尾部，其中每个条形码与带有荧光标签的寡核苷酸互补(图22)。为了防止条形码区影响适体的结合区的折叠，当适体文库流过时，与N-端前缀结合无关的寡核苷酸区域可以通过与互补寡核苷酸杂交以形成具有部分双链的适体来部分或完全保护。可以将所述适体：氨基酸复合体与杂交到指示探针迭代1的条形码区的探针的文库温育。每次迭代可以使用的独特荧光标签的数目取决于成像装置中的通道的数目、荧光染料的性质和发射滤光片以及检测器的灵敏度。在每次迭代期间，每个适体可以杂交到一个或多个寡核苷酸结合的探针以用于多重化，只要对于该迭代来说适体上的互补条形码单元不交叠即可。然后可以洗掉未结合的探针，并且可以将结合的探针成像，以获得第一段光学条形码。随后，可以将结合的适体与杂交到指示探针迭代2的条形码区的下一组探针温育。可以重复探针温育、成像和清洗的迭代，直至获得完全的光学条形码。最后，可以进行Edman降解以除去N-端氨基酸和与其结合的适体，以暴露出下一个N-端氨基酸用于下一轮测序(图23)。

应该理解，可以特别是对成像和下游信号解卷积策略做出程序性改良，以顾及用于探测N-端氨基酸的适体的亲和性和特异性。在利用高特异性结合物的情况下，将特异性针对独特N-端氨基酸前缀并具有低K_d(紧密结合)的适体的文库流过，洗掉未结合的适体，并且如上所述观察光学条形码(图24)。在具有中至低特异性的适体的情况下，可以将荧光团偶联的适体的文库流过肽进行温育，允许适体半特异性结合到一组N-端氨基酸残基。此类适体偏好性地与给定靶结合，并且也可能与已知N-端氨基酸的子集结合，其中每个结合对具有已知概率分布。对于每轮测序来说，可以在适体温育的循环之前(获得背景)、之后(获得特异性结合)或期间(K_on、K_off测定)获取图像，以便产生由多个结合事件组成的N-端氨基酸前缀的光谱特征，然后再移除所述N-端氨基酸以暴露出待探测的下一个氨基酸。在通过Edman除去N-端氨基酸之前可以进行几轮温育和检测，以便提高检测到的信号的可信度。在重复多轮的适体结合后，通过将为每个肽观察到的结合事件针对每个适体氨基酸前缀的结合事件的已知概率分布进行比较，可以在每一轮时计算推导出N-端氨基酸的身份，因为对于给定中强度结合物的池来说，每个独特的N-端氨基酸预期具有自身独特的结合特征(图25)。此外，除了适体之外或作为适体的替代物，可以使用诸如RNA或小分子的结合物来识别氨基酸。

本文描述的方法不依靠蛋白质的已有知识(例如在质谱术中所需的肽数据库)，并为从头测序提供了一种途径。然而，如果蛋白质的数据库可用，则为了将肽片段准确映射回全长蛋白质，可能只需要鉴定一部分氨基酸。此外，如果在测序之前对蛋白质进行纯化或选择(例如通过分子量、电荷或对已知分子的亲和性)，它将在所鉴定的全长蛋白质的一部分氨基酸序列的基础上进一步聚焦候选物名单。

本文描述的PROSEQ-VIS方法具有大量优点和应用，包括但不限于能够：

1)对肽进行测序，无论肽浓度如何；

2)将蛋白质序列转变成光学序列，这允许分离低表达蛋白质的信号；

3)进行从头蛋白质测序(以例如允许直接发现分子例如细胞因子中的序列)；

4)处理小体积样品，小至单细胞蛋白质测序；和

5)对肽进行原位测序，以获得蛋白质在完整组织中的定位数据。

代替使用荧光团偶联的适体或寡核苷酸探针来鉴定氨基酸，也可以使用其他光学方法例如量子点、染料偶联的纳米粒子等。代替TIRF，其他显微镜手段可用于成像，具有不同程度的分辨率质量。最后，在本文描述PROSEQ-VIS方法中用另一种类型的用光学条形码编制条形码的N-端氨基酸结合性小分子代替适体，同样允许在PROSEQ-VIS平台上进行蛋白质测序。

多个靶的同时筛选(多重化)

由其他人使用SELEX针对多个靶进行筛选的尝试，已在一个SELEX实验中成功地多重化了多达30个生物学相似的靶(例如BasePair的VENN多重化SELEX)。尽管实现这一点的具体方法尚不知道，但可能是将靶结合到具有不同光谱内容的珠子并与适体候选物温育，然后通过荧光激活细胞分拣(FACS)进行分拣。由于机器的光学限制，这种方法限制了人们可以一次多重化的靶的数量。

本文描述的多重化方法允许一次筛选多个肽或蛋白质靶的结合物。此外，本文描述的多重化方法允许在高噪声环境中检测稀有结合事件，提高靶特异性，并进行特异性测定用于多靶交叉确认矩阵分析和机器学习分析。本文描述的多重化方法可用于鉴定基本上任两种生物学分子(例如两个带DNA或RNA条形码的分子例如寡核苷酸和分子靶、蛋白质和抗体、小分子和带条形码的蛋白质)之间的相互作用，只要两个靶均可以被偶联到寡核苷酸，所述寡核苷酸随后可以彼此连接即可。

本文描述的多重化方法涉及将适体候选物(图26A)与未结合的带DNA条形码的肽靶的多样化池(图26B)温育。在适体结合后，单链适体的3’末端连接到肽的ssDNA条形码(图26C)，并将DNA部分通过PCR扩增。对所述适体和它的共价附连的DNA条形码进行测序提供了适体序列以及指示了所述适体结合到的靶的独特标识符，从而消除了鉴定哪些适体被结合到哪些靶的障碍。图26D是指示了可以在其中并入多重化的SELEX程序的步骤(来自于图3)的示意图。

本文描述的多重化方法可以减少劳动力和试剂成本，同时改进数据质量并拓宽筛选能力。此外，本文描述的多重化方法可以产生在具有大量可用靶的环境(例如细胞表面、人类血液)中与它们的独特靶特异性结合的适体，从而极大增加了适体发现到应用的流水线。

1)使用DNA条形码鉴定肽或蛋白质靶

如上所述，在本文描述的多重化方法中，靶是肽-寡核苷酸偶联物(POC)，参考图27，它们是3’末端被共价连接到肽或蛋白质靶(b)的C-端的单链(ss)DNA尾部(a)。ssDNA尾部(a)包括3’引物区(c)、独特的DNA条形码(d)和5’桥结合序列(e)。适体(f)包括3’桥结合序列(g)。在POC-适体在溶液中结合后，可以引入短的寡核苷酸桥(h)，其中所述短的寡核苷酸桥(h)的一半与适体(f)3’末端处的3’桥结合序列(g)互补，另一半与ss DNA尾部(a)的5’桥结合序列(e)互补。在所述桥寡核苷酸结合所述适体和肽尾部两者后，可以添加连接酶以封闭缺口，未使用的桥寡核苷酸可以被降解和/或移除，并将连接酶失活。这产生适体(f)与肽(b)的共价连键。

在连接后，可以获得珠子结合的POC靶(例如利用与生物素化寡核苷酸的互补性下拉)，然后除去(例如洗掉)未结合的适体。可以经所述ssDNA尾部和适体在珠子上进行PCR，并对得到的DNA构建物进行测序，以获得适体序列以及它的蛋白质结合配偶体的条形码标识符(图27中的加框区)。

2)使用邻近依赖性DNA连接从全局噪声中鉴定局部适体结合事件

在本文公开的多重化方法中遇到的一个困难是以有利于结合的配偶体的连接超过溶液中随机可用的物质的连接的方式约束所述测定法，这是因为在物理上紧邻在一起的肽尾部和适体与自由漂浮的DNA相比更可能彼此连接。因此，可以开发并优化连接反应条件，通过优化几个实验测试的参数包括但不限于反应时间、底物浓度、温度和反应溶液来最大化局部信号。此外，可以设计不同长度的尾部和不同长度的桥区域并对其进行表征，以优化高噪声环境中的局部相互作用。

3)用于多重化-SELEX的额外轮次的嵌套PCR

为了在本文描述的多重化方法中实现多个轮次，可以对连接的适体-条形码产物的适体区段进行重新扩增(例如使用在适体序列两侧的引物对连接的复合体进行嵌套PCR)和加工(例如通过自动电泳凝胶分离进行纯化)，然后转变成ssDNA(例如使用酶消化)。参见图28。

4)多重化方法的可选形式和变化形式

可以做出许多程序性改良以使本文描述的多重化方法适合于不同的应用。

本文描述的多重化方法可用于检查不同物质结合场景中的相互作用；例如但不限于：a)DNA–肽结合，其中相互作用区域包括结合到肽靶的适体；b)DNA–DNA结合，其中相互作用区域包括两条DNA链之间的碱基互补区域。对于DNA–DNA相互作用，已在结合配偶体占500nM浓度的溶液中总池的低至0.001％的情况下证实了鉴定局部信号的能力，证实了本文描述的多重化方法的灵敏性

此外，本文描述的多重化方法可用于检查DNA–DNA或DNA–肽相互作用之外的物质结合。例如，本文描述的多重化方法可用于检查任何数目的生物学靶之间的结合，只要两个靶可以彼此结合(例如通过寡核苷酸的连接)即可。例如，与本文描述的相似的多重化方法可用于筛选结合小分子靶或蛋白质复合体的RNA适体。

可以使用任何不同的技术将ssDNA尾部附连到肽或蛋白质的C-端，所述技术包括但不限于化学连接物(例如点击化学、SMCC连接物、EMCS连接物等)、生物学连接物(例如生物素-链亲合素系统)、交联(例如使用甲醛或UV)等。

此外，可以认识到，可以将ssDNA尾部附连到蛋白质或肽的不同区域(即C-端之外)。例如，可以将所述ssDNA尾部附连到N-端、特定官能团、氨基酸侧链等。此外或可选地，可以将多个ssDNA尾部附连到单一肽或蛋白质。

DNA末端之间的连接可以以多种方式发生。可以使用在水性溶液中的酶连接，但是也可以化学连接DNA末端。在某些实施方式中，可以将桥的可选末端用于连接。也可以对突出部和/或桥进行修饰以包含碱基对错配从而引入结合相互作用的梯度，使得结合物与靶之间的结合相互作用优先于桥的结合相互作用。

应该理解，本文描述的多重化方法可以在水性溶液中进行，或者它们可以被定制以用于不同系统中，例如在固定表面上、珠子上、体内、凝胶中等。

本文描述的多重化方法已被用于鉴定在竞争性多种肽环境中与肽靶具有选择性结合的适体。类似于选择性抗体，得到的适体适合于单独或两种或更多种相组合使用，以产生控制它们的多靶结合分布的构建物。例如，可以将各自对不同的靶具有高选择性的两种适体联结在一起，以便产生结合两个独立的靶的构建物；或者，可以向池平行或顺序地添加具有相同的主要靶但具有不同脱靶结合分布的两种适体，以通过重叠分布区域的分析提高与它们的共同靶的结合读出。

在本文描述的多重化方法中用已带DNA条形码并具有3’C-突出臂的分子代替适体，允许测量任何前述分子类别的不同混合物之间的结合，能够对任何分子类别的组合进行双向多路竞争性测量，所述组合包括肽与蛋白质、蛋白质-蛋白质、抗体-蛋白质、小分子-蛋白质、肽-细胞表面标志物、抗体-细胞表面标志物等。在某些实施方式中，可以从任何上述类别的分子的任何混合物中抽取结合物和靶分子两者，允许在复杂竞争性环境中测量交叉结合。

本文描述的多重化方法提供了一种在大型物质池中检测低水平结合事件的高灵敏度工具。本文描述的多重化方法减少了对大量SELEX轮次(例如8至20轮)的需要，并同时允许对一种溶液中的几种肽靶进行多重化。作为轮次减少的结果，本文描述的多重化方法将必须对适体池进行的PCR扩增的次数降至最低，并因此将由每轮扩增引入的偏差降至最低。特异性提高和脱靶结合的减少是本文描述的多重化方法中的额外益处。例如，如果分离到与含有1-10号靶的混合物中的1号肽靶结合的独特适体，则也知道所述适体除了与1号靶结合之外，不与2-10号靶结合(在那些相同条件下)。这降低了选择除了感兴趣的靶之外还可能结合其他靶的非特异性适体的可能性。

靶蛋白和RNA结合蛋白融合体(TURDUCKEN)

在包括药物开发、诊断学和基础研究的大量研究领域内，结合相互作用的分类是非常合乎需要的。蛋白质和肽文库含有感兴趣的生物学靶的库，可以针对所述靶筛选结合物(例如适体、小分子、抗体等)。目前，筛选通常在其中蛋白质或肽靶的身份已知的单个反应中进行，使得特别是未知靶的大规模筛选的成本和劳动力令人望而却步。合并并一次筛选几个靶允许规模缩放并获得更高的结合特异性，然而，目前没有可用的方法能够产生可以容易地推演出池中的每个靶的身份的靶文库。

用于产生蛋白质或肽文库的生物学方法依赖于将每种蛋白质单独地克隆到模型系统例如酵母或大肠杆菌中并纯化(Jia&Jeon,2016)。为了产生1,000种独特蛋白质的文库，研究人员必须进行1,000个独立的转化反应、蛋白质纯化和QC过程，最后将所述蛋白质合并在一起。化学合成可以可靠地产生肽池，并对于较大蛋白质和蛋白质复合体来说可能很快变得在成本上令人望而却步并且在技术上具有挑战性。

重要的是，用于产生文库的现有方法不能使科学家在组分合并后容易地鉴定各个要素。用于鉴定蛋白质的常用技术包括质谱术、抗体结合测定法和亲和性标签结合测定法(Miteva,Budayeva,&Cristea,2012)。蛋白质池中的独特要素的浓度阈值限制了将质谱术用于鉴定来自于大型池的低表达个体蛋白质；对于新的靶来说，抗体通常是不一致、不存在或成本过高的；并且亲和性标签方法将池的多样性限制到可用的独特亲和性标签的数量。

本文描述的TURDUCKEN方法允许制造数千种独特蛋白质的混合物，向其添加标签，在一个池中筛选和鉴定。本文描述的TURDUCKEN方法允许产生多样化蛋白质的池并筛选这种多样化蛋白质池。

1)蛋白质表达

描述了一种在酿酒酵母(S.cerevisiae)和大肠杆菌(E.coli)中的体内系统，其中每个转化的细胞被工程化改造以产生不同的感兴趣蛋白质(POI)，所述蛋白质可以被非共价连接到其序列可用于鉴定所述POI的RNA条形码；所述非共价连键依赖于RNA结合位点与其相应的RNA结合蛋白(RBP)之间的天然相互作用。参见例如图29。可用于此类构建物的代表性RNA结合位点和它们相应的RBP包括但不限于被MS2噬菌体外壳蛋白结合的MS2 RNA发夹和被噬菌体抗终止蛋白N(λN)结合的boxB序列。每个POI(图29A)可以被表达成与RNA结合蛋白(图29的部分B)的融合蛋白，其中POI可以被非共价连接到被RNA结合蛋白识别的特定RNA结合位点(图29的部分C)和独特条形码(图29的部分D)。池中的每个构建物通常含有融合到RBP的POI、编码被所述RBP识别的RNA序列的DNA序列、独特的RNA条形码和用于驱动表达的启动子。代表性启动子包括例如Gal 1,10双向启动子、ADH1、GDS、TEF、CMV、EF1a、SV40、T7、lac或与宿主生物体相容的任何其他启动子和启动子组合。可以将含有各种不同POI-RBP融合基因及其相应的RNA条形码序列的质粒的池以每个细胞1个质粒的近似稀释度转化到酿酒酵母中(图30A)。在体内制造的POI融合体然后在细胞内结合它们相应的RNA条形码(图30B)，然后可以将其纯化(图30C)。图30D是演示了相对于SELEX方法(图3)，本文描述的TURDUCKEN的产物可以使用的地方的示意图。

2)蛋白质纯化

POI-RNA复合体可以使用多种方法中的任一种获得，导致只收集含有POI融合蛋白和RNA条形码两者的复合体。简单举例，可以通过His标签或其他纯化标签从细胞裂解液下拉所述复合体，所述纯化标签可以被包括在所述POI的蛋白质融合体组分中。然后可以将POI清洗并从抗His珠子或与使用的纯化标签相容的其他下拉法中释放出来，并使用链亲合素包被的珠子和与RNA条形码中的序列反向互补的生物素化的寡核苷酸进一步纯化。在这个下拉步骤后，获得结合到POI-RNA复合体、与随机RNA序列退火的生物素化的寡核苷酸或没有结合的珠子的混合物。通过加热和清洗所述混合物以将RNA和生物素化的寡核苷酸变性或通过使用限制性核酸内切酶释放所述复合体，可以将所述POI-RNA复合体从链亲合素包被的珠子上释放并纯化。

3)用于适体结合测定的蛋白质池

来自于这种方法的最终产物是蛋白质的多样化池，每种蛋白质可以通过附连的RNA条形码鉴定。这种设计允许将这种蛋白质池用于多重化适体筛选测定法中。例如，可以将也含有它们自身的独特核酸条形码的潜在适体的池与所述蛋白质池一起温育，并且允许来自于潜在适体池的适体结合它们的靶。通过受控酶连接(例如参见本文描述的多重化方法)，可以将所述非共价结合的适体的条形码连接(例如共价地)到所述POI-RNA复合体条形码。通过经连接产物的测序，可以获得适体序列，其提供了它的靶的身份。

本文描述的TURDUCKEN方法允许：

a)使用核酸条形码在体内标记蛋白质；

b)在单个转化反应中产生大型、多样化的蛋白质池；

c)使用NGS测序鉴定所述蛋白质池的每个组分；并且

d)在一个合并的反应中针对多个靶进行筛选。

产生带DNA条形码的蛋白质的其他方法例如化学合成不能大规模操作，并且必须在单个样品或孔中进行。本文描述的TURDUCKEN方法提供了在体内，在同一池中表达数千至数百万个不同蛋白质并以低的蛋白质错误标记率向其添加条形码的能力。这种方法显著节省时间和金钱。此外，本文描述的TURDUCKEN方法提供了能够一次同时筛选许多靶的优点。

应该理解，可以做出程序性改良以使本文描述的TURDUCKEN方法适合于不同应用。例如：

·可以将除了酵母之外的任何生物体(例如大肠杆菌、哺乳动物CHO细胞)工程化改造，以产生感兴趣的蛋白质和核酸(POI-NA)复合体。

·在本文描述的TURDUCKEN方法中使用的核酸可以从各种不同的构建物或载体(例如环状质粒、线性插入物或染色体整合的DNA)表达。

·用于在体内连接两种物质以产生POI-NA复合体的可选策略(例如不同的RNA结合蛋白例如MS2或BoxB/λN系统、HUH-内切核酸酶结构域、CRISPR相关蛋白)。

·使用连接物系统例如Spycatcher/Spytag、TALE等，可以用DNA条形码代替RNA条形码。

由本文描述的TURDUCKEN方法提供的体内蛋白质标记存在许多潜在用途。例如，本文描述的TURDUCKEN方法可用于研究分子靶(例如适体、小分子等)之间的相互作用，用于基础或转化型研究。例如，与POI-DNA复合体杂交的荧光探针可用于在体内可视化蛋白质，作为药物发现应用的筛选工具。例如，本文描述的TURDUCKEN方法可用于挖掘适体，所述适体随后可用作抗体的替代物(例如作为分子探针，用于靶向药物递送等)。

通过连接产生大型、多样化和受控的DNA文库(LEGO)

指数富集配体系统进化(SELEX)是一种生物分子技术，传统上用于鉴定适体，其被被设计用于从随机适体候选物的大型池分离强结合物，因为合成特定序列的这种大型池极为困难且昂贵。然而，如果人们能够产生他们自己的初始SELEX起始适体池，则SELEX实验的场景可以允许专门的改编，例如使用ML为靶预测的序列作为起始适体池。为了实现此类大型、多样化并仍然受控或已知的文库的产生，开发了一种被称为LEGO的方案。对于40-merssDNA寡核苷酸来说，存在10²⁴种可以被探索的可能的寡核苷酸，但每个SELEX实验仅测定总的可能实验空间中的10⁸-10¹⁴种。这只代表所有可能的DNA序列中的一小部分，使得在实践中，即使是最优化的实验也具有发现特定靶的最佳适体的低概率。研究证实，存在在适体中常常看到的特殊二维结构或二级结构例如G-四链体(Tucker,Shum,&Tanner,2012)，并且假设这些二级结构提高适体的结合能力。产生初始输入文库而不是限于使用偏向流行的二级结构超过非结构化适体的随机文库的能力将加速结合物发现。此外，由于人工智能预测算法例如ML提高了它们的预测能力，因此用于适体实验的ML指导的输入文库将显著提高起始池中潜在适体候选物与非候选物的相对比例，并可能减少发现同样高的亲和性适体的轮次数。结果，使用较少的SELEX轮次，可以更快地发现适体候选物，需要更低的发现成本，并且发现的候选物受到来自于实验噪声例如PCR偏差的影响降低。换句话说，为了确认排名靠前的适体候选物是真正的结合物而不是PCR进行得极好而不特异性偏好感兴趣的靶的适体候选物，需要进行的下游质量控制测定更少。此外，人们可以考虑将方法迭代，在所述方法中从随机文库进行几轮SELEX，将文库测序，并将得到的数据输入到ML模型中，所述模型预测下一个初始起始池应该是什么样子(诸如二级结构或GC含量的特点或直接的序列)，然后产生新的文库，开始新的、更加定向的SELEX实验。

尽管随机文库可以廉价地合成，但目前没有成本效益高的方法用于产生其参数(例如GC含量、重复出现的基序、固定的区域、长度等)可以被容易地确定和操纵的大型池。当前用于合成短(>200bp)DNA池的方法提供了：

a)高度多样性但对序列内容控制很小：具有可定制引物区的随机DNA文库可以以低成本化学合成(例如在$300以下，TriLink Biotech)。然而，通过常规微阵列合成产生10¹⁴个指定序列昂贵得令人望而却步(例如Integrated DNA Technologies：1千个200bp长的序列$2000；Agilent：24.4万个最大90-bp的序列$13,000；Twist Biosciences：1百万个序列$46k)。

b)对序列内容高度控制但序列多样性有限：研究组开发了通过在一锅反应中使用12个碱基的片段(Fujishima等，2015)或在固定化系统上顺序使用8个碱基的片段(Horspool等，2010)将构建组块拼接在一起来构建DNA文库的方法。这两种方法都具有局限性，限制了它们用于适体文库构建。

本文描述的LEGO方法允许构建计算衍生的、可定制的DNA文库，允许科学家使用受控的输入池以合理的成本进行SELEX筛选。它利用可商购的连接酶从5-mer或更长的DNALEGO块的顺序连接来组装随机的40-mer的文库。这可以通过至少两种方式做到：通过使用dsDNA连接酶例如T4 DNA连接酶的双链连接(图31A)，或通过使用ssDNA或ssRNA连接酶例如RNA连接酶RtcB的不依赖于模板的单链连接(图31B)。在两种策略中，连接始于正向PCR引物连接到第一LEGO块，并通过一次添加一个LEGO块来继续。最终的连接反应发生在最后的LEGO块与反向PCR引物之间(图32A–32B)。在产生所述带有引物的40-mer后可以执行扩增方法，例如使用受保护的正向引物和磷酸化的反向引物进行PCR。PCR产物可以使用任何优选的方法来清洁，并使用尺寸选择方法例如自动化PippinHT程序来选择具有正确碱基对长度的产物。然后可以例如使用λ核酸外切酶消化将所述文库从双链转变成单链DNA，并且可以将所述单链产物清洁和浓缩(图32C)。图32D是演示了相对于SELEX方法(图3)，本文描述的LEGO的产物可以用在何处的示意图。

本文描述的方法具有几个独特的特点，使其最适合用于产生适体文库：

1)独特的突出部设计允许对dsDNA连接进行位置控制

两个双链DNA片段之间的成功连接需要在两个片段上具有互补的单碱基突出部。具有相容的突出部(例如A和T、G和C)的一对DNA组块优选地连接在一起。具有不相容的突出部(例如A和C、G和T等)的组块显著更少地连接在一起。通过使用具有A、T、C和G突出部的不同组合的组块，可以控制组块定位。例如，通过对组块进行设计使得组块1和2的突出部相容而组块1和3的突出部不相容，可以促进组块以1-2-3而不是2-1-3、3-1-2等的顺序组装。

2)短的构建组块允许探索包括难以合成的序列在内的整个DNA空间

使用较短的LEGO块可以产生与通过其他连接方法产生的文库相比多样性高几个数量级的文库。使用1,024个5-mer的库，可以产生40-mer DNA文库的整个空间(10²⁴个独特序列)。使用单个1536孔板，可以组装出实验要求的任何40-mer适体或特征间隔文库。此外，某些序列(例如G的长链)难以通过常规方法准确地合成。将许多较短的组块拼接在一起提供了获得这些序列的有用方式。

应该理解，可以对本文描述的方法做出许多改良。例如：

·文库设计：尽管本文描述的方法使用5-mer来构建40-mer，但可以从不同长度/多种长度的构建组块建造不同长度/多种长度的文库。在DNA合成期间，由于来自于玻璃基材的空间相互作用，短的(即<6nt)寡核苷酸的5’磷酸化比率低。增加使用的构建物的长度将提高磷酸化的寡核苷酸试剂的百分率。然而，增加寡核苷酸块的长度需要使用更大量的不同寡核苷酸块来组装具有序列的所需统计分布的文库。

·构建组块设计：本文描述的使用dsDNA的方法使用在两条链的5’末端上具有磷酸酯基团修饰的组块，以便于组块与生长的链的连接和与序列中的下一个块的连接。相反，其上仅具有一个5’磷酸化的块可以被用于减少翻转的DNA组块被整合/连接到生长序列上的可能性。或者，可以在5’或3’链上添加抑制连接的修饰，以阻止翻转的块的连接。对于ssDNA连接来说，本文描述的方法使用具有RtcB酶所需的3’磷酸化修饰的块，以促进这个反应。

·起始原料：XNA、RNA、修饰的RNA、单链DNA或修饰的DNA而不是未修饰的双链DNA，可用于使用相容的连接酶构建文库。

·连接方法：有多种方式可以将DNA的链连接在一起。本文描述的方法使用T4 DNA连接酶或RtcB ssRNA连接酶将DNA构建组块酶法连接在一起。可以使用不同的连接酶(例如大肠杆菌DNA连接酶、CircLigase、热稳定连接酶等)或者通过化学方法(例如点击化学)连接构建组块。

·连接方法：代替进行一锅顺序连接反应，可以进行几个更小的连接反应以产生大的组块，然后将产物合并以将大的组块连接在一起。这可以提高对组块位置的控制。

·介质：代替在溶液中进行文库构建，反应可以在珠子上、固相支持物上、凝胶中等进行。

·尺寸选择：在将这些小的DNA块连接在一起中，连接产物通常不具有所需的长度。为了纯化全长产物，可以使用手动和自动尺寸选择方法例如PippinHT自动DNA尺寸选择系统。

此外，尽管本文描述的方法可用于产生用于SELEX适体筛选的随机文库，但本文描述的方法也可用于产生用于不同应用的DNA文库，例如：

·建立ML衍生的DNA文库用于通过翻译产生肽/蛋白质。本文描述的SELEX适体筛选中的优先事项是发现对它们的氨基酸靶特异的适体。为此，可以将随机适体的同一池与不同序列的肽温育。鉴于通常需要测试同一序列的许多不同变化形式，从销售商获得可能需要的所有不同肽序列可能相当昂贵。为了扩大可获得的用于SELEX的随机肽的空间，能够内部生产这些肽将是有帮助的。本文描述的随机DNA文库产生方法可以通过无细胞翻译试剂盒或细胞中的常规DNA质粒转化实验产生这些肽文库。启动子序列可以包含在接头区组块的设计中，或者在文库产生后连接，并且可以从这些序列在体内或体外产生肽。

·扩建DNA条形码的序列。进行蛋白质测序的关键是编码和随后读出氨基酸序列的能力。在本文描述的许多蛋白质测序方法中，DNA条形码可用于编码氨基酸序列的被鉴定的区域。在这些方法中，当适体与蛋白质或肽的被测序的部分结合时，适体上的DNA条形码区通过任何适合的连接方法附连到生长的条形码链上。本文描述的酶连接方法可用于将条形码连接在一起以形成条形码链，或将条形码附连到通用接头。

·修改PROSEQ试剂。在本文描述的许多蛋白质测序方法中，有功能的适体和加工过的肽含有诸如间隔物、条形码和连接共有区的DNA区域。对于待测序的肽来说，可以将较短的寡核苷酸连接物(例如≥6nt)偶联到氨基酸残基以提高反应速率，然后再以类似LEGO的方式连接其余的DNA元件。对于在SELEX中发现的适体来说，可以使用单链连接酶例如RtcB，将包括指示适体身份、循环数的独特条形码和限制性位点等的DNA尾部直接连接到适体的5’末端上。此外，可以使用不对称PCR将在SELEX中发现的结合物修改成直接用于PROSEQ平台上。

本文描述的LEGO方法允许产生可以被定制成具有某些性质(例如GC含量、重复出现的基序等)的寡核苷酸文库。这些文库的多样性比通过其他连接方法产生的文库高几个数量级，并且可以以合理的成本组装。

根据本发明，可以使用本领域技术范围之内的常规分子生物学、微生物学、生物化学和重组DNA技术。这些技术在文献中有充分的解释。本发明将在下述实施例中进一步描述，所述实施例不限制权利要求书中描述的主题方法和组合物的范围。

实施例

RCHT和N-端氨基酸SELEX实验两者的相关信息

下面将描述以下内容：

A.用于所有SELEX实验的通用方法

B.RCHT-SELEX实验

B.1RCHT-SELEX通用实验第I部分

B.2RCHT-SELEX温育变化形式

B.3RCHT-SELEX通用实验第II部分

B.4RCHT-SELEX的其他组分

C.RCHT-SELEX结果

D.N-端氨基酸SELEX实验

E.N-端氨基酸SELEX结果

F.通用SELEX方案

所有SELEX(RCHT-SELEX和N-端氨基酸SELEX)实验的通用工作流程示出在图33中。

试剂

适体文库购自TriLink Biotechnologies和IDT，所有其他寡核苷酸购自IDT或通过K&A

H-8DNA&RNA合成仪内部合成。所有寡核苷酸通过HPLC纯化(IDT内部系统或内部Agilent 1290 Infinity II)。所有自动化程序在Agilent Bravo NGS工作站中或Opentrons OT-2上进行。所有SPRI纯化利用来自于Omega Biotek的Mag-BindTotalPure NGS珠子。所有DNA定量使用dsDNA和/或ssDNA High Sensitivity Qubit荧光定量测定法(Thermofisher A9932)获得。使用的所有水均为Ambion^TM无核酸酶水。

文库

单链N40适体文库由40个随机碱基构成，两侧带有定制引物区。为了减轻来自于过去实验的过量富集的适体的污染，每2-3个月切换N40文库上的引物。初始的N40文库(TAGGGAAGAGAAGGACATATGATNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTTGACTAGTACATGACCACTTGA(SEQ ID NO：1))从TriLink Technologies直接订购。后续的定制引物使用随机序列产生器工具设计以产生假设的序列，针对内部引物集进行交叉验证以避免过度相似的序列，然后使用IDT寡核苷酸分析仪检查解链温度以及自身二聚体和异二聚体。定制引物在用于完整SELEX过程之前也使用简短SELEX循环进行质量检查。

使用的N40文库：

·SELEX N40文库1(也被称为TriLink文库)：TAGGGAAGAGAAGGACATATGATNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTTGACTAGTACATGACCACTTGA(SEQ ID NO：2)

·SELEX N40文库2(也被称为OMB63)：(TTGACTAGTACATGACCACTTGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCACATCAGACTGGACGACAGAA(SEQ ID NO：3))

·SELEX N40文库3(也被称为OMB105或Wolverine2)：

TGATGCTATGCGACTTATTGTACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTACTTGGCGTTCTTACCACCA(SEQ ID NO：4)

肽

生物素化的肽由Genscript合成。为了促进肽与生物素的附连，所有C-端残基均为赖氨酸。每个肽的构建物如下：N-端-(2-mer前缀)-(8-mer后缀)-C-端-生物素。

2-mer前缀：仅20种天然存在的氨基酸前缀分成4组，每组5种氨基酸。2-mer前缀通过组块内氨基酸的彼此配对和与来自于其他组的氨基酸的配对来确定。因此每个2-mer前缀属于16个组块之一(每个组块具有25种可能的2-mer)。总共存在400种可能的2-mer前缀。作为参考，所述400种可能的前缀描绘在图34A中。所述16个组块描绘在图34B中。

8-mer后缀：对于二肽切换实验来说，每个2-mer前缀与4个可能的后缀中的2个后缀相关联。此外，末端上存在K还是C分别取决于肽被生物素化(未附连DNA寡核苷酸)还是被制造成带有附连的DNA寡核苷酸(PoC)。这些后缀是：

·A'后缀：ADRWADR(K或C)(SEQ ID NO：5)

·B'后缀：MSQPLQP(K或C)(SEQ ID NO：6)

·C'后缀：NHFENEI(K或C)(SEQ ID NO：7)

·D'后缀：TKYVGTG(K或C)(SEQ ID NO：8)

·E'后缀：TAYVETE(K或C)(SEQ ID NO：9)

·F'后缀：QGHSIDN(K或C)(SEQ ID NO：10)

对所述指派给每个2-mer前缀的两个后缀进行选择，以避免与所述2-mer前缀的相似性。例如，来自于AB组块的2-mer前缀应该与C'和D'后缀而不是A'和B'后缀相关联。

在奇数和偶数轮次之间交替与所述2-mer前缀配对的后缀，只有所述2-mer前缀恒定肽组合在所有4轮中对适体施加选择压力(图34C)。用于DD和DC前缀实验的后缀和前缀组合的实例描绘在图34D中。

B部分.RCHT-SELEX实验

B.1 RCHT-SELEX通用实验第I部分

实施例1—RCHT-SELEX实验

方法

SELEX前循环方法：

培育

取决于实验需要，培育通过三种变化形式之一来进行。所有培育均使用50微升PCR反应来进行，使用Herculase II融合DNA聚合酶(Agilent Technologies)。PCR使用Mag-Bind TotalPure NGS珠子(Omega-Biotek)并在Bravo自动化液体操作平台(Agilent)上添加100％乙醇，以0.6X的比率SPRI纯化。用于这个和所有后续PCR反应(除了NGS制备之外)的扩增条件如下：在95℃初始变性5分钟，然后是13个95℃变性30秒、55℃退火30秒和72℃延伸30秒的扩增循环，最后在72℃延伸5分钟。

为了促进用于适体温育(在关于消化的部分中详述)的ssDNA文库的再生，使用受保护和磷酸化的引物。对于下述引物构建物来说，*表明核苷酸被修饰，使得磷酸酯骨架中的氧原子被硫原子代替以获得硫代磷酸酯，这使得序列对核酸酶消化抗性更高。

·SELEX N40文库1(也被称为TriLink文库)：

ο正向引物：5'-T*A*G*G*G*A*AGAGAAGGACATATGAT-3'(SEQ ID NO：11)

ο反向引物：/5Phos/-TCAAGTGGTCATGTACTAGTCAA-3'(SEQ ID NO：12)

·SELEX N40文库2(也被称为OMB63)：

ο正向引物：5'-T*T*G*A*C*T*AGTACATGACCACTTGA-3'(SEQ ID NO：13)

ο反向引物：/5Phos/-TTCTGTCGTCCAGTCTGATGTG-3'(SEQ ID NO：14)

·SELEX N40文库3(也被称为OMB105或Wolverine2)：

ο正向引物：5'-T*G*A*T*G*C*TAT GCG ACT TAT TGT AC-3'(SEQ ID NO：15)

ο反向引物：/5phos/-TGG TGG TAA GAACGCCAAGTA-3'(SEQ ID NO：16)

培育变化形式

选项1(主要使用的)：

将来自于单链N40文库的10¹²个序列的样品(～48ng)在288个各50微升的反应中扩增。将所有288个反应的SPRI纯化的产物合并，为我们提供了多样性为10¹²个序列并具有大约1200个拷贝的最终培育物，将其分到12个SELEX反应中。这种方法被用于鉴定针对生物学对照缓激肽、精氨酸加压素和GnRH的适体以及一部分二肽切换实验。

选项2：

将来自于单链N40文库的两个10¹²个序列的样品(各～48ng，共～96ng)在576个各50微升的反应中扩增。将所有576个反应的SPRI纯化的产物合并，为我们提供了多样性为2x10¹²个序列的最终培育物，将其分到36个SELEX反应中。这种方法提供了用于大多数二肽切换实验的输入池。

选项3：双重培育：

采用变化形式1的方式进行培育，但使用未修饰的引物代替受保护和磷酸化的版本。将纯化的培育物(具有10¹²个序列的多样性)的等分试样作为dsDNA输入文库用于使用修饰引物的第二次培育(变化形式1或2)。将总共～48ng的每个dsDNA等分试样在288个反应中扩增。双重培育允许在多组实验中使用10¹²个序列的相同输入物，远超通常由其分布所限的惯用的12-18个SELEX反应。

培育：掺入物

取决于实验需求，将具有已知序列的N40构建物掺入到所述培育物中并完成后续轮次的SELEX。这些序列是：

·A6：high_gc_5：TAGGGAAGAGAAGGACATATGATCACCGCATCCTGAGGCCGGTGTGGAGGGCACGAAGTCTGGTTGACTAGTACATGACCACTTGA(SEQ ID NO：17)

·C2：high_gc_5：TAGGGAAGAGAAGGACATATGATCTAGCATGGTGCCCTTACCCTCAGAGCGGAAGTACCTGATTTGACTAGTACATGACCACTTGA(SEQ ID NO：18)

在初始培育期间，在每个50ul反应中存在每种掺入物～5.39百万个分子，使得每种掺入物比随机N40序列平均值丰富53,947倍。

重折叠

将适体文库加热至95℃5分钟，然后在冰上冷却30分钟，以使DNA二级结构重折叠成它们最低的能量状态。

负选择

为了除去原本与在整个测定中一直存在于样品中的试剂结合的适体，寡核苷酸文库在用作SELEX的输入物之前经历负选择。向500ug链亲合素包被的珠子(取决于实验的需要，C1、T1、M270或M280)添加166.62pmol(4650ng)重折叠的ssDNA文库，并使最终体积为400ul，浓度为1X PBS、0.025％Tween和10mg/ml BSA。将反应在22-24℃的室温(RT)下旋转温育30分钟，然后收集上清液。

在使用肽-寡核苷酸偶联物时，对仅具有寡核苷酸的尾部进行选择。将寡核苷酸尾部与全长互补于所述寡核苷酸尾部的5’生物素化的寡核苷酸以1：2的尾部：互补体的比例温育。然后将含有1.67pmol寡核苷酸尾部和3.34pmol互补体的样品添加到166.62pmol的以前针对珠子负选择过的重折叠的ssDNA文库中。将反应在室温RT下旋转温育30分钟，然后添加200ug链亲合素包被的珠子并继续温育30分钟。然后收集来自于该温育的上清液，作为最终负选择过的输入物。

消化

将扩增的文库通过使用λ核酸外切酶(New England BioLabs)的酶消化转变成单链DNA(ssDNA)，并通过自动化珠子清理进行SPRI纯化。ssDNA消化完成在生物分析仪2100(Agilent)上使用小RNA试剂盒(Agilent)来定性，并且在清洁后通过ssDNA Qubit测定法(Thermofisher)对浓度进行定量。

SELEX循环方法：

重折叠

在每次SELEX温育温育之前，将适体文库加热至95℃5分钟，然后在冰上冷却30分钟，以在每次SELEX温育之前使DNA二级结构重折叠成它们最低的能量状态。

B.2 RCHT-SELEX温育变化形式

SELEX温育：

关于如何将肽与ssDNA适体温育，存在三种变化形式。使用变型1，初始的SELEX温育在链亲合素珠子存在下发生(变化形式1：SsDNA与肽-珠子偶联物温育)；使用变型2，链亲合素珠子在大部分温育完成后添加(变化形式2：SsDNA与肽-寡核苷酸靶温育，然后进行珠子下拉)。使用变型3，将肽-寡核苷酸靶与生物素化的引物温育，然后添加部分双链的适体(变化形式3：(5’)阻断的适体与肽-寡核苷酸偶联物温育，使用珠子下拉)。参见图35。

在所有情况下，在温育前将ssDNA池加热至95℃5分钟，然后在冰上快速冷却。对于每个反应来说，将至多166.62pmol(4650ng)重折叠的适体添加到肽或肽-珠子偶联物，并使总体积为400ul，终浓度为1X PBS和0.025％TWEEN20。变形3的最终温育缓冲液也并入有终浓度为10mg/ml的BSA。这些缓冲液条件可以被分辨为：

·SELEX缓冲液V.1(也被称为SELEX缓冲液)：1X PBS和0.025％TWEEN20

·SELEX缓冲液V.2(也被称为富集有BSA的SELEX缓冲液)：1X PBS，0.025％TWEEN20，10mg/ml BSA

这些缓冲液从10X PBS(Sigma-Aldrich)、TWEEN20(Sigma Aldrich)和粉状牛血清白蛋白(Sigma Aldrich)制备。

变化形式1：SsDNA与肽-珠子偶联物温育

肽与珠子的偶联

在决定SELEX实验的浓度梯度后，可以预先在一个大的批量中制造珠子上的肽靶，以避免由多次偶联造成的轮对轮误差。可以将珠子冷冻并融化一次而没有任何实验缺陷。制造用于每一轮的等分试样，并在Eppendorf LoBind或Nunc板中在-20℃储存，直至取出融化。为了确保性质相近，对新鲜偶联的珠子和冷冻的珠子进行单元测试并比较，并且没有发现差异。生产用靶的量应该基于轮次数、第一轮的起始浓度以及在存在实验灾难的情况下缓冲液储用物。在这个实例中，使用1:10的靶：DNA适体的起始比例。使用Bravo自动化液体操作平台(Agilent)，将18.5pmol肽与87.2ug(8.72ul的10mg/ml储用物)MyOne链亲合素C1珠子(ThermoFisher)混合温育30分钟。在用SELEX缓冲液额外清洗2次后，将每个18.5pmol肽和87.2ug珠子的初始混合物重悬浮在50ul SELEX缓冲液中。将这些数字按比例规模放大以便产生大体积珠子偶联物储用液，其可以在每个实验开始时分成等分试样并冷冻。对于1：10的靶：ssDNA严紧性实验来说，可以将50ul该储用物添加到4650ng输入ssDNA，并且对于使用少于4650ng输入ssDNA的实验来说直接规模缩小至较小体积。对于使用1：25的较高严紧性的实验来说，使用0.6X的倍数将添加的肽-珠子偶联物的体积进一步规模缩小。

取决于实验需要，使用BSA阻断的M280或T1珠子或未阻断的M270或C1珠子。M280和M270珠子具有2.7um的直径，并且C1和T1珠子具有1um的直径。单元测试证实了制造商指示对于自动化来说最佳的C1珠子与M280、M270和T1珠子相比，从培育物下拉不同的适体序列。该结果的机制未知。作为单元测试的结果，选择M280珠子用于下一步实验，因为为了防止选择结合到珠子表面的适体，BSA阻断是优选的，并且较大表面积的靶可以提供将各个肽放置得更加分开的平台，减少了对偏好肽二聚化的适体的选择。

空白珠子“偶联物”通过在相同的自动化Bravo方案中放置珠子和水的混合物，总共进行30分钟温育和2-3次清洗循环来产生。也将每个87.2ug珠子的初始输入物重悬浮在50ul SELEX缓冲液中，并在晚些时候以每4650ng ssDNA 87.2ug珠子(对于1:10严紧性反应来说)或每4650ng ssDNA 34.88ug珠子(1:25严紧性反应)的比例添加到ssDNA。

SELEX温育

向166.62pmol(4650ng)折叠的适体添加至多50ul珠子偶联物，并在RT旋转温育2小时。

链亲合素-生物素下拉

以存在的每51.02pmol肽83.33ug的量向SELEX温育添加链亲合素M280珠子(Invitrogen)，在旋转下30分钟。

变化形式2：SsDNA与肽-寡核苷酸温育和适体温育，然后进行珠子下拉

肽偶联

对于这种变化形式来说，在温育之前不需偶联。靶是肽-寡核苷酸。

SELEX温育

添加的靶的量取决于所需的严紧性梯度。通常，对于小分子靶来说，1:1至1:10(靶：ssDNA)范围的严紧性条件被用作起始条件，保持通过靶切换轮次，然后在后续轮次中提高靶：DNA之间的比例，直至测序数据证实适体的富集。在这里，描述了始于1:10的靶:ssDNA的方案所使用的方法。对于第1轮和第2轮来说，对于1:10的靶:ssDNA严紧性来说将166.62pmol(4650ng)折叠的适体直接添加到18.51pmol肽-寡核苷酸构建物。考虑到在第3轮和第4轮中1:25的降低的严紧性，将166.62pmol(4650ng)适体直接添加到7.40pmol肽。将所述肽和ssDNA在RT旋转温育2小时。

链亲合素-生物素下拉

在靶具有DNA寡核苷酸尾部的情况下，将退火到寡核苷酸尾部的一部分的生物素化的引物(5’生物素TAGGGAAGAGAAGGACATATGAT 3’(SEQ ID NO：19))对于存在的每51.02pmol肽来说以1:2的肽：生物素化寡核苷酸比例添加到SELEX温育，在旋转下30分钟。所述引物具有两个功能：(1)防止适体结合到DNA寡核苷酸尾部，和(2)允许通过将在温育后进行生物素-链亲合素反应下拉所述靶。

然后将链亲合素M280珠子(Invitrogen)以存在的每51.02pmol肽83.33ug的量添加到SELEX温育，在旋转下30分钟。在与珠子的温育允许生物素-链亲合素反应完成后，使用磁铁将所述珠子下拉(手动或自动)，清洗，并准备用于PCR。

变化形式3：(5’)阻断的适体与肽-寡核苷酸偶联物的温育，使用珠子下拉

温育溶液制备(POC和生物素化的引物温育)

除了阻断肽-寡核苷酸偶联物(POC)的尾部的区域之外，也可以阻断适体的一部分以防止适体的引物区与POC上的DNA尾部的区域之间的不需要的结合。以1:2的POC：生物素化引物比例将POC添加到与寡核苷酸尾部的长度互补的5’生物素化引物。添加10X PBS、TWEEN-20、BSA和水以使每个反应含有最终265ul溶液和1X PBS、0.025％TWEEN-20和0.1509mg/ml BSA。将整个溶液在RT下旋转温育30分钟。

用于每个反应的POC输入量由预期的适体输入量决定。下面陈述了用于1:10的靶:ssDNA严紧性轮次的示例性方法。对于第1轮和第2轮来说，为166.62pmol(4650ng)适体的输入量准备18.5pmol POC，最终达到1:10的靶:ssDNA的严紧性。在这个特定梯度中，在两轮1:10的严紧性后，接下来的两轮被加速到1:25的严紧性，以增加富集的适体的信号。应该指出，严紧性提高过快或起始严紧性过高会导致真正适体信号的损失或消失。然而，严紧性提高过慢或起始严紧性不在结合物之间产生竞争，会导致由可以观察到富集之前所需的额外SELEX轮次造成的时间和资源的损失。在这个实例中，考虑到在第3轮和第4轮中1:25的严紧性所需的靶减少，为166.62pmol(4650ng)适体输入量准备的POC的量被减少到7.40pmol。

SELEX温育

将所述肽和ssDNA在RT下旋转温育2小时。用于400ul反应的最终温育缓冲液是1XPBS、0.025％TWEEN20和与BCS实验中使用的杂交缓冲液匹配的浓度的BSA(参见下文实施例3—ProSeq实验和实施例4—BCS结合测定实验，在0.10mg/ml-10mg/ml范围内变化)。

POC对照

对于SELEX的变化形式3的阴性对照来说，将适体仅与POC的寡核苷酸尾部而不与肽温育。

用于这个目的的可能的寡核苷酸尾部如下：

·/5phos/cttagatgcacgtggataATCATATGTCCTTCTCTTCCCTA(SEQ ID NO：20)

·/5phos/cttagatgcacgcagcatATCATATGTCCTTCTCTTCCCTA(SEQ ID NO：21)

链亲合素-生物素下拉

将M280珠子(Invitrogen)以存在的每51.02pmol肽83.33ug的量添加到SELEX温育，在旋转下30分钟。

B.3 RCHT-SELEX通用实验第II部分

SELEX后循环方法：

温育后清洗(适用于所有变形)

在Bravo上使用自动清洗方案收集珠子-肽-适体偶联物。将每个SELEX反应在磁性板上温育2分钟。吸出含有未结合的适体的上清液，并将珠子用SELEX缓冲液清洗两次，最后用1X PBS清洗。在方案结束时吸出所述1X PBS。

珠子上的PCR

在自动清洗方案完成后，立即将50ul PCR溶液添加到含有珠子的每个孔中。使用培育引物的未修饰的变体扩增86nt的构建物，除了对于Wolverine2文库来说构建物长为84nt(前文在文库的描述中提供的全文库构建物)。

NGS制备

在珠子上的PCR扩增后，通过Qubit dsDNA测定法测量DNA浓度，并取出10ng珠子上的SPRI纯化的PCR样品用于NGS制备。从这些样品的测序鉴定到的每个适体具有假定它们在溶液中结合到的肽的6bp条形码。Illumina测序所需的P5和P7接头通过使用定制NGS引物(5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNN-(正向引物)-3')(SEQ ID NO：22)和5'-AATGATACGGCGACCACCGAGATCTACACNNNNNN-(反向引物)-3')(SEQ ID NO：23)的PCR并入。所述正向和反向引物区是可变的，取决于用于SELEX的N40文库。用于这些PCR反应的扩增条件如下：在95℃初始变性5分钟，然后是95℃变性30秒、65℃退火30秒和72℃延伸30秒的10个循环，最后在72℃延伸5分钟。将最终的NGS文库SPRI纯化，合并，并通过PippinHT(Sage Science)对177bp构建物进行尺寸选择。

阈值PCR

对于每个SELEX反应来说，将4.08ng来自于珠子上的PCR的SPRI纯化的产物在24个50ul PCR反应中，使用为每个文库定制的修饰的引物(序列提供在培育部分中)进行扩增。该文库的SPRI纯化的dsDNA产物是86-bp(或者对于Wolverine2文库来说84-bp)的扩增子，具有与原始N40文库相同的构建物，具有受保护和磷酸化的末端以促进反向链的酶消化。所述再生的ssDNA文库充当下一轮SELEX的输入物。

SELEX循环

可以将适体重折叠、靶选择、适体温育、未结合物分离、清洗、扩增、NGS样品抽取、阈值扩增、ssDNA文库产生和重折叠之间的方案步骤作为“SELEX轮次”重复，直至在NGS测序数据中发现富集的适体。在轮次之间不重复培育和初始负选择。

B.4RCHT-SELEX的额外组分

假SELEX

在SELEX的变化形式2的前2个小时期间，将阴性对照仅仅与水和SELEX缓冲液温育。在每轮SELEX后，将来自于假SELEX的样品测序，以便确定PCR偏差的影响(因为由于缺少靶，不应发生富集)。假SELEX可用于适体的计算分析和ML建模，以训练模型聚焦于适体计数的富集信号而不是操作者误差、污染、PCR偏差的噪声或其他实验或仪器噪声。

BCS相容性适体制备

BCS或DNA适体在ProSeq中的应用需要对适体的引物区进行修改以包括正确的连接、限制性酶和间隔物序列，从而促进BCS中的结合和记录事件。然而，不需要独特条形码，因为测序可以经过完整的适体序列进行，以便记录哪个适体结合到BCS芯片上的哪个靶。有几种方式可以将适体文库转变成BCS相容性文库，然而最快、最廉价和最高通量的方法是使用PCR来修改适体的引物区。为此，以1:10的适体：桥模拟物比例将ssDNA池(每个反应至多166.62pmol)添加到与适体的正向引物区互补的23nt寡核苷酸“桥模拟物”。将溶液补足到135ul溶液并具有1X PBS和0.25％TWEEN 20。将所述混合物加热至95℃5分钟，在冰上快速冷却，然后添加到温育溶液。

对于SELEX N40文库3(也被称为OMB105，Wolverine2)来说，所述文库具有下述构建物

·5’TGATGCTATGCGACTTATTGTACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTACTTGGCGTTCTTACCACCA 3’(SEQ ID NO：24)

和下述正向引物

·5’TGATGCTATGCGACTTATTGTAC 3’(SEQ ID NO：25)

使用的桥模拟物是5’GTACAATAAGTCGCATAGCATCA 3’(SEQ ID NO：26)。

基于珠子的多重化SELEX

这种测定法与SELEX几乎一致，区别在于向每个反应添加多个肽。在实验开始时将肽分别与珠子偶联并等分等单个储用物，在SELEX温育开始时以等摩尔比例混合。前四轮通过惯用的培育/阈值PCR、消化、温育、自动清洗和珠子上的PCR循环进行处理。为了在最后一轮中去多重化，将N*4.08ng的从珠子上的PCR得到的每个反应在N*24个反应中扩增，其中N是与适体池同时温育的肽的数目。将来自于该反应的SsDNA以1:50的严紧性在各个SELEX反应中温育，在每个反应中仅存在一种肽。

在使用Bravo的自动清洗方案洗掉未结合的适体后，向每个去多重化的孔添加50ul PCR溶液。将每个这些PCR反应的SPRI纯化的产物在NGS制备期间用条形码编码并测序，以揭示出与分离的每个肽相关的适体。

引物切换

在不同轮次之间将N40区域两侧的定制引物切下并用可选引物序列替换。这种引物切换的目的是减少由来自于使用同一N40文库的实验的过度富集的适体造成的污染。

当前的引物切换设计被设计成用于TriLink N40文库。通过用引物TriLinkFwd_FokI(5’TAGGGAAGAGGGATGAAGGACATATGAT(SEQ ID NO：28))和TriLinkRev_FokI(5’TCAAGTGGTCGGATGATGTACTAGTCAA(SEQ ID NO：29))扩增初始N40构建物(5’TAGGGAAGAGAAGGACATATGATNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTTGACTAGTACATGACCACTTGA(SEQID NO：27))，引入了Fok1限制性位点以产生新的全长构建物(5’TAGGGAAGAGGGATGAAGGACATATGATNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTTGACTAGTACATCATCCGACCACTTGA(SEQ ID NO：30))。

通过用在其限制性位点下游9bp和13bp切割(5’...GGATG(N)₉/3’...CCTAC(N)₁₃(SEQ ID NO：31))的核酸酶Fok1(NEB)消化这种改变的PCR产物，我们切掉了(5’TAGGGAAGAGGGATGAAGGACATA(SEQ ID NO：32)和5’TTGACTAGTACATCATCCGACCACTTGA(SEQ IDNO：33))，留下粘性末端。用Klenow片段(NEB)对该构建物进行末端填充导致产生了平末端。将该平末端化的双链文库与新的双链引物和连接酶温育完成了所述方案，为我们留下了其中换入有新的引物组的原始N40文库。每个消化和连接事件的成功通过生物分析仪小RNA试剂盒(Agilent)来分析。

板布局

为了最小化邻近孔之间的局部污染的影响，将技术平行样(每种实验条件3个)在空间上随机分布在不同的行和/或不同的板中。对于二肽切换实验，没有技术平行样彼此相邻。这允许在测序后分析期间对噪声进行计算过滤。

C部分：RCHT-SELEX结果

培育

对于培育来说，进行了96个单元测试以确定每个文库的最佳培育条件，其被定义为在培育进行后在可能的6-mer的所有组合的表达水平上引入最小偏差或变差的条件。将培育后来自于DNA池的测序运行的可能的6-mer的每种组合的表达强度除以培育之前的表达强度。对于OMB63文库来说，在6-mer的每种组合的表达水平上引起最小变差的最佳条件是11个PCR扩增循环，使用Herculase II融合DNA聚合酶和0％DMSA，并且输入10¹⁰个DNA分子(图36)。

假SELEX

来自于从假SELEX样品和真实SELEX轮次随机取样的100,000个序列的排名前20的序列被证实是不同的，表明SELEX温育后的DNA池由于珠子偶联的靶而不是下拉随机序列的结果而被改变(图37)。假SELEX分析可用于确定SELEX实验期间的PCR偏差要素，并且也用于训练模型朝向阳性适体信号的背景真值。

消化

生物分析仪小RNA试剂盒迹线显示出在消化过程后在大约75nt处具有单个清晰的峰，考虑到技术中的测量误差，其与所需的ssDNA产物尺寸相关(对于大多数SELEX文库来说86bp)(图9C)。dsDNA PCR产物向ssDNA的完全转化的确认发生在将每个适体文库引入到每个新一轮SELEX中之前。

阈值PCR

单元测试显示，阈值PCR引入极小的偏差。阈值PCR运行之前和之后DNA的测序数据的比较表明，在阈值PCR之前和之后的池之间的序列分布中，阈值PCR引起低方差(对数比的方差为0.132)(图11B和图11C)。

平行实验

将来自于同一培育物的适体序列在同一靶的实验之间进行平行实验直至第5轮，在鉴定的适体中提供了更高可信度。在其中进行缓激肽和GNRH实验的孔在同一块板上物理上相邻。在生物对照SELEX实验中检测到靶缓激肽与GNRH之间的显著渗出，允许检测空间污染(图38)。因此，在每块板上进行样品放置的随机化，其中不同的靶被放置在同一行上并且在每个实验之间没有间隔，并且同一个靶的平行样被放置成在每个平行样之间具有2列的距离以减少污染。在显著性评估后，发现观察到的污染是试剂从自动化被带出的结果。

适体

生物对照

作为RCHT-SELEX方法的概念验证，针对精氨酸加压素(肽序列：CYFQNCPRG{LYS(生物素)}(SEQ ID NO：34))和缓激肽(肽序列：RPPGFSPFR{LYS(生物素)}(SEQ ID NO：35))的DNA适体被鉴定为具有高的结合亲和性，在SELEX温育的实验条件的基础上估算的平衡解离常数(K_d)值为45nM(图39)。可以对适体进行进一步表征，以确定使用和不使用引物时的K_d。为每个靶鉴定到的适体的N40结合区序列是：

·精氨酸加压素：5’-ATATTCTAGGTTGGTAGGGAAGGCATGTATCTAATTCCTG-3’(SEQ IDNO：36)

·缓激肽：5’-CAAATCGGTGCCGGCCGGGAAGGGGCAAAAACAGTGCAAC-3’(SEQ ID NO：37)

在RCHT-SELEX期间，两种适体在两侧具有下述引物：

·正向引物:TAGGGAAGAGAAGGACATATGAT(SEQ ID NO：38)

·反向引物反向互补体：TTGACTAGTACATGACCACTTGA(SEQ ID NO：39)

在每个靶的3个平行实验中将同一培育物针对精氨酸加压素和缓激肽进行测定；鉴定到的序列在同一个靶的实验中得出一致结果，并且在使用不同靶的实验中不得出一致结果。所述发现表明这些适体可能是针对精氨酸加压素和缓激肽的特异性适体，并且可用于在样品中检测这些靶。

肽切换

在组块A肽切换实验中，序列针对特定N-端氨基酸连续富集。在图40中报告了对于赖氨酸和半胱氨酸来说代表性的排名靠前的适体，其被定义为在对噪声过滤后具有最高序列计数的适体。在RCHT-SELEX期间，两组适体在两侧均带有下述引物：

·正向引物：TAGGGAAGAGAAGGACATATGAT(SEQ ID NO：40)

·反向引物反向互补体：TTGACTAGTACATGACCACTTGA(SEQ ID NO：41)

可以进行进一步实验来表征和验证鉴定到的适体，以便用于蛋白质测序。

D部分：N-端氨基酸SELEX实验

实施例2—N-端氨基酸SELEX

试剂

DNA文库购自TriLink Biotechnologies，所有DNA引物购自Integrated DNATechnologies并进行HPLC纯化。所有肽均购自Genscript。10X PBS和Tween-20购自Sigma-Aldrich。λ核酸外切酶和缓冲液购自New England Biolabs。Mag-Bind Total Pure NGS珠子购自Omega-Biotek。生物分析仪和所有试剂、Bravo液体操作器以及Herculase IIPhusion聚合酶和缓冲液购自Agilent。试管、板和热循环仪购自Eppendorf。Nunc板购自VWR。70％和无水乙醇购自Fisher Scientific。无核酸酶水、MgCl₂、牛血清白蛋白、dNTP混合物、Dynabeads M280链亲合素和QuBit试剂购自Thermo Scientific。

方法

在本实施例中，使用N-端氨基酸SELEX方法分离了特异性针对二肽脯氨酸-脯氨酸(PP)的适体(图41)。针对总共5个靶(2个感兴趣的靶和3个对照靶)平行地运行了12个选择。针对每个感兴趣的靶运行3个选择并针对每个对照靶运行2个选择。将所有阳性选择轮次测序，并用于跨轮次和靶进行富集分析。此外，在几个步骤中使用自动化，以确保最小化跨样品的潜在误差并便于运行平行选择。对于该实验来说，选择二肽PP作为感兴趣的N-端二肽，因为它的大体积环状侧链允许多个潜在的结合位点。PP靶是10-mer肽，具有N-端的两个脯氨酸和8个其他氨基酸的区域(“骨架”)，然后是C-端偶联的生物素(生物素化的靶)或DNA尾部(PoC靶)。为了提高分离特异性针对N-端PP二肽的适体的机会，利用了“切换”和“无切换”靶两者，对每一者进行了多个选择。对于具有C骨架(“无切换”)的PP靶来说，靶被称为PP-C，或者对于具有D骨架(“无切换”)的PP靶来说，被称为PP-D。如果在选择中使用两种靶(“切换”)，它们被称为PPCD。

靶-珠子偶联

靶-珠子偶联在每轮温育之前新鲜地进行。使用Agilent Bravo液体操作平台将生物素化的肽靶偶联到M280链亲合素珠子。对于每个偶联反应来说，将珠子涡旋振荡到均质，然后将25uL珠子添加到适合体积的75ng肽靶。将珠子和靶在冷却板(4℃)上温育2分钟，以允许生物素和链亲合素相互作用并形成紧密键合，然后将珠子用SELEX缓冲液(1x PBS，0.025％Tween-20，0.1mg/mL BSA，1mM MgCl₂)清洗几次。将珠子偶联反应的最终产物重悬浮在50uL SELEX缓冲液中。

负SELEX

使用涉及溶液中的适体和偶联到链亲合素珠子的生物素化的靶的方案进行DNA适体产生。从文库储用物取出10¹⁵个适体的初始文库，并针对50ul SELEX缓冲液中的10mg/mL链亲合素珠子进行30分钟的负选择。保留上清液并直接放置在针对肽靶的正选择中。该正选择是使用下述工作流程的5轮SELEX的第一步：选择，扩增(小规模PCR和大规模PCR)，和单链产生。

正SELEX

在每个选择步骤之前，将适体在重折叠缓冲液(1x PBS，0.025％Tween-20，1mMMgCl₂)中在95℃退火5分钟并在22-24℃的室温(RT)温育至少30分钟。选择在SELEX缓冲液中旋转进行30分钟(负选择)或1小时(正选择)。对于“切换”和“无切换”来说，每轮的严紧性报告在表2.1中。

表2.1严紧性随轮次和靶类型的变化

轮次	“无切换”严紧性	“切换”严紧性	“切换”骨架
				1	1:1	1:1	C
2	1:2	1:1	D
				3	1:5	1:2	C
4	1:10	1:2	D
				5	1:25	1:5	C

扩增分两步进行：小规模PCR和大规模PCR。在洗掉非结合物后，将剩余的靶-适体偶联物直接置于小规模PCR反应中，每个样品1个反应(50uL)。PCR反应条件包括从清洗步骤保留的所有DNA、3uM正向引物、3uM反向引物、Herculase缓冲液、0.2mM DNTP、0.0.5单位/LHerculase聚合酶，终体积为50uL。

在将该PCR反应清洁后，将产物的等分试样置于大规模PCR中，进行24个各50uL的反应。该大规模PCR的目的是扩增尽可能多的DNA而不引入过多的PCR偏差。PCR反应条件包括0.17ng DNA、6uM正向引物、6uM反向引物、1X Herculase缓冲液、0.2mM DNTP、0.5单位/uLHerculase聚合酶，终体积为50uL。

小规模和大规模PCR两者均使用Mastercycler Nexus，使用下述条件来进行：95℃5min，95℃30秒、55℃30秒和72℃30秒的13个循环，和72℃5分钟。PCR反应使用来自于OmegaBio-Tek的

TotalPure NGS珠子纯化，并使用Agilent Bravo液体操作平台进行。将ssDNA和

TotalPure NGS珠子以3:5的比例温育，并用70％乙醇清洗。

为了从大规模PCR产物产生单链DNA，以优化的时间用λ核酸外切酶进行消化。消化使用生物分析仪定性跟踪。将清洁后的消化物定量，并作为输入物用于下一个选择。

NGS制备和测序

将SELEX轮次后的样品制备，以用于测序。将所述样品归一化到10ng/ul的浓度。为每个样品建立50ul PCR反应(2ul 6.25uM正向和反向引物，10ul 10ng/ul DNA样品，36ul主混合物)以扩增DNA，并且所述反应使用Mastercycler Nexus进行(PCR条件：98℃5分钟，98℃30秒、65℃30秒、72℃30秒的10个循环，和72℃5min)。在所述反应后，将PCR产物清洁(Agilent Bravo液体操作平台)。然后使用Tapestation对PCR产物的尺寸进行定量，以确定PCR反应是否成功。样品应该具有170-190bp的DNA尺寸。使用qubit dsDNA测定法确定PCR产物的浓度。然后将PCR产物根据每种产物的浓度合并在试管中。使用qubit dsDNA测定法确定合并的产物的浓度。通过选择177bp的DNA尺寸对PCR产物进行纯化(Pippin Prepsystem,Sage Science)。使用qubit dsDNA测定法确定所述纯化的产物的浓度。在纯化后，将10uL纯化的产物最后送去NGS测序。

分析

从第2轮至第3轮观察到所有靶的富集的快速增加，并在第3轮至第5轮达到平台期(图42)。此外，对于结合到缓激肽、PP-C和PP-CD靶的适体来说，分别观察到3.5、3.2和3.0左右的对数富集值，表明这些靶具有假设的结合物(图43A)。为了进一步检查这些结合物，将对于每个靶的每个平行样根据富集获得的排名前10的结合物抽出(图43B)。在实验平行样之间针对每个靶的结合物的富集簇集，表明对这些靶的选择正在分离感兴趣的结合物。针对靶的结合物的实验平行样的进一步分析表明，在不同平行样中结合物之间的交叠总体上很少(图44)。由于初始随机池的尺寸，在不同实验平行样中或针对不同靶存在相同序列的机会很小，表明它们反而是污染序列，允许在测试之前过滤掉这些可能的污染序列。将这些候选物进一步过滤缩小到短的候选物名单，以在体外测试结合特性。

为了鉴定最终的适体序列以进行充分表征，进行了两个过滤步骤。选择来自于PP-CD靶的具有高富集(大于2，其与从R2至R5提高至少100倍相关)并选择性结合到PP-CD(不结合其他靶的结合物)的候选适体。对候选序列进行过滤产生26个候选物，选择其中的10个用于最终测试。这10个最终候选物在各种不同因素的基础上选择：最高的富集比率，总测序计数，在每个选择平行样内的代表性，以及在选择平行样中的零序列污染。

富集计算(定义生长和惩罚生长的公式)：

给定适体序列在测序数据集中出现的次数是适体计数。将“前”和“后”两轮SELEX定义为测序数据的子集，以追踪独特的适体序列。“前”是来自于第2轮的子集，“后”是来自于第5轮的子集。向每个适体计数应用对数比例因子以适应从0至10⁵的宽范围的适体计数：

前＝log₁₀(前_ct+1)

后＝log₁₀(后_ct+1)

生长被定义为给定适体在“前”轮(第2轮)与“后”轮(第5轮)之间的富集。

生长＝后-前＝log₁₀[(前_ct+1)/(后_ct+1)]

计算了惩罚在第2轮和第5轮均具有低计数数目的序列的原始惩罚值，将其乘以因子γ，并通过减去γ与原始惩罚的积将其应用于生长因子。

γ＝1.26

惩罚生长＝生长-γ×原始惩罚

技术细节：如果前<c，则c可代之以用于公式中，其中：

K_d测量

按照制造商的方案将200pmol肽(PP-C、PP-D)偶联到100uL Dynabeads^TMM-280链亲合素(Thermo Scientific)，并在SELEX缓冲液中重悬浮到原始浓度。将5mg荧光素生物素(Biotinium,#80019)重悬浮在DMSO中。按照制造商的方案将650pmol荧光素生物素偶联到100uL Dynabeads^TMM-280链亲合素(Thermo Scientific)作为阳性对照，并重悬浮到原始浓度。5’末端FAM标记的适体候选物#1-10购自IDT。适体使用正向引物和反向引物互补体合成，并被测试为具有全长。每个适体的全序列如下：5’-TTGACTAGTACATGACCACTTGA-N40-TTCTGTCGTCCAGTCTGATGTG-3’(SEQ ID NO：42)。测试的适体的N40序列报告在表2.2中。

表2.2测试的适体候选物序列

将肽偶联的珠子稀释到0.03mg/mL或原始浓度的1:320，以用于结合测定法。将100uL稀释的肽偶联的珠子或荧光素偶联的珠子等分到96孔板的各个孔中。将板在磁性架上放置2分钟并除去上清液。向适合的孔添加100uL在SELEX缓冲液中稀释的不同浓度(0、100nM、250nM、500nM、750nM、1uM、2.5uM、5uM、10uM、20uM)的5’末端FAM标记的适体候选物。将板用板密封物(AB 0558胶黏性PCR薄膜，ThermoFisher)密封，并在暗处在室温旋转1小时。在温育后，除去密封物，将珠子用100uL SELEX缓冲液清洗3次并重悬浮在100uL SELEX缓冲液中。将珠子转移到黑色板中，并使用读板器(Biotek)测量单终点荧光读数。

注意，这是进行结合测定法以测量K_d的一种方法。产生甚至更准确测量的其他方法包括：微尺度热泳，生物层干涉测量术，流式细胞术和表面等离子体共振。

E部分：N-端SELEX结果

通过上述基于板的K_d测量方法测试适体。在单一浓度(100nM)下，与对照(无适体，只有缓冲液)相比，7个适体对靶PP-D显示出更高的荧光信号。与对照相比，1个适体对靶PP-C显示出更高的荧光信号(图45)。选择了两个适体即适体1和适体4用于进一步测试。适体1对PP-C显示出可能的饱和结合，但对PP-D没有特异性结合(图46A)。适体4对PP-D显示出饱和结合但对PP-C没有结合(图46B)。

F部分：通用SELEX方案

上面列出了各种不同的方法，它们被使用、优化并利用以便从SELEX结果获得适体结合物，然而，对于本文描述的SELEX：(1)用于ML分析的RCHT-SELEX或(2)使用NTAA-SELEX的N-端结合物适体的每种应用来说，存在所使用的方法的不同组合。下面是可用于破译所需方法的组合的模板方案。

总体工作流程：

1.负选择

2.珠子偶联

3.扩增

4.培育物的单链产生/反义消化

5.温育

6.从温育珠子扩增

7.阈值扩增

8.阈值扩增物的单链产生/反义消化

9.反选择

设备方案：

1.Qubit：Qubit被用于按照制造商的方案测量DNA浓度。

2.Bravo：在Bravo液体操作仪上运行三种类型的方案：(1)PCR清洁(“大体积”和“可变体积”)，(2)珠子偶联(“珠子偶联”)和(3)珠子清洗(“SELEX后清洗但不洗脱”)。对于PCR清洁来说，将Bravo编程以遵照制造商的使用Mag-Bind TotalPure NGS的指南。对于珠子偶联来说，将Bravo编程以遵照制造商的使用Dynabeads^TMM-280链亲合素的指南。为偶联的肽优化温育时间和缓冲液。对于珠子清洗来说，将Bravo编程以对肽珠子(在与适体温育后)进行3次清洗。将板在磁铁上温育2分钟。前两次清洗使用SELEX缓冲液进行，最后一次清洗使用1x PBS进行。在最后一次清洗后，不将珠子重悬浮而是留在板中，用于SELEX方案的下一步。

3.生物分析仪：在带有2100Expert软件的Agilent 2100生物分析仪上运行两种类型的方案。文库质量检查和PCR后质量检查使用高灵敏度DNA芯片，按照制造商的说明书使用高灵敏度DNA方案来进行。消化/单链产生后质量检查使用小RNA芯片，按照制造商的说明书使用小RNA II系列方案来进行。

表2.3 SELEX严紧性梯度：

	R1	R2	R3	R4	R5
						梯度1	1:10	1:10	1:25	1:25	n/a
梯度2	1:5	1:10	1:25	1:50	1:100

SELEX缓冲液：1X PBS，0.025％tween-20，1mM MgCl₂，0.1mg/mL BSA，无核酸酶H₂O

技术术语：

Fwd RC：正向的适体5’末端的反向互补体。这是在BCS中使用的桥的模拟物，因为它使适体的5’末端成为双链。

POC：肽-寡核苷酸偶联物：这是SELEX的靶，即我们正在寻找的适体结合物所针对的物质。POC从10-mer肽和41nt ssDNA尾部产生。

bt肽寡核苷酸互补体：也被称为肽引物、生物素化的引物、DNA尾部互补体、阻断片段。该片段是肽-寡核苷酸偶联物(POC)的ssDNA“尾部”区的互补体。这个片段在3’侧上具有生物素以与链亲合素珠子结合，并且是POC的寡核苷酸尾部的完全“阻断物”。将它与POC以2:1的比例温育，然后再将该靶与适体温育。

尾部：是指偶联到PoC中的肽的DNA尾部(但是可以单独使用而不附连有肽)。

骨架：也被称为后缀。这是二肽靶(生物素化的靶和PoC两者)上在N-端二肽与C-端偶联的生物素(生物素化的靶)或DNA尾部(PoC靶)之间的8-mer区域。骨架按照下述惯例命名：[字母]’(例如C’或D’)。

严紧性：这对应于靶：适体的比例。例如，1:10的严紧性意味着每1个靶存在10个适体序列，相反，10:1的严紧性意味着每1个适体存在10个靶。10:1不是非常严紧，而1:100极为严紧。

正选择：将适体与它们的靶温育，下拉，并舍弃上清液(含有非结合物)的选择。

负选择：将适体针对随机表面(试管侧壁、珠子等)温育并保留上清液(含有不结合到随机表面的序列)的选择。

反选择：将适体针对与靶密切类似的物质(例如不同的二肽或仅仅骨架)温育并保留上清液的选择。

工作流程

负选择(仅仅珠子或珠子+尾部)

目的：为了从文库中消除对珠子具有高结合亲和性的适体。

1.将输入ssDNA(10¹⁵个分子)在重折叠溶液(1X PBS，0.025％Tween-20，1mMMgCl₂，NF H₂O)中稀释。总体积为150uL。

2.退火(重折叠适体)：加热至95℃5分钟，并在工作台上冷却30分钟。

3.将55uL 10mg/mL M280珠子在500uL SELEX缓冲液中清洗3次。重悬浮在55uLSELEX缓冲液中。

4.在1.5mL低结合试管中，将50uL清洗过的M280珠子在200uL改良SELEX缓冲液(1XPBS，0.025％Tween-20，1mM MgCl₂，0.16mg/mL BSA，NF H₂O)中与冷却的退火文库溶液(150uL)旋转温育30分钟。

5.将试管放置在磁性架上并等待1分钟，使珠子完全聚集到磁铁附近。

6.取出上清液(～200uL)并转移到新试管。

7.使用Qubit ssDNA试剂盒测量DNA浓度。典型的预期浓度在8-20ng/uL的范围内。

珠子偶联

目的：将生物素化的肽靶偶联到链亲合素珠子，其在温育期间磁性下拉适体结合物。

注：肽-珠子偶联物可以预先制造并等分在96孔eppendorf板中用于冷冻(最多1个冻融循环)，或在每次温育之前制造以新鲜使用。

1.将储用肽稀释到适合的浓度，使得肽和珠子可以以200pmol肽靶比1mgDynabeads M280珠子的比例合并(按照制造商的流程)。

2.吸取相应量的肽和水到96孔eppendorf板中的每个孔中至体积为50uL。

3.吸取相应量的M280链亲合素珠子到NUNC板中，仅装填将要使用的孔。

4.使用液体操作仪运行“珠子偶联”方案。这执行制造商所定义的温育、混合和清洗步骤。

5.将肽珠子稀释到适合的严紧性，分成等分试样并在在-20℃储存。

扩增(培育)

目的：产生负选择过的文库的每种适体的多个拷贝。

1.使用50mL锥形管制备主混合物。主混合物：3uM正向引物，3uM反向引物，Herculase缓冲液，0.2mM dNTP，0.5单位/uL Herculase聚合酶，在16000uL终体积中(这是总共320个反应，每个反应50uL)。每个50uL反应应该具有0.17ng DNA。

2.将主混合物等分在3个96孔板中，每个反应50uL。

3.密封96孔板并置于热循环仪中，使用下述PCR方案：95℃5min，(95℃30sec，55℃30sec，72℃30sec)x 13个循环，72℃5min，保持在4℃。

4.将3块板合并在1块150uL反应的板中。

5.在液体操作仪上使用“大体积”方案清洁。这使用制造商的用于Mag-BindTotalPure NGS珠子的方案。

6.将培育物合并在1个5mL eppendorf低结合管中。

7.使用QuBit dsDNA试剂盒测量双链DNA的浓度以检查浓度。通常，浓度在40-90ng/uL的范围内。

单链产生(培育物的消化)

目的：使用λ核酸外切酶消化双链DNA的反义链。为了使适体可以与靶结合，必须产生ssDNA。

1.按照λ核酸外切酶(M0262，NEB)制造商的说明书建立单链产生反应(对于50uL反应来说，使用至多5ug DNA、5uL 10x反应缓冲液、1uLλ核酸外切酶和至多50uL H₂O)。首先向DNA添加10x反应缓冲液，涡旋振荡混合。接下来添加λ，吸打混合。

2.取决于DNA输入物浓度，将反应在37℃温育10-20分钟。

3.通过在72℃温育10分钟将所述核酸外切酶热失活，保持在4℃。

4.在消化后通过将DNA产物在生物分析仪小RNA试剂盒上按照制造商的方案运行，检查DNA的质量。如果迹线显示仍存在双链产物，则添加与原始反应相同量的λ核酸外切酶，将37℃温育延长5-10分钟。再次检查质量。

5.将DNA合并在1个板中，并在液体操作仪上使用“可变体积”方案清洁。这按照制造商的方案使用Mag-Bind TotalPure NGS珠子。

6.使用QuBit ssDNA试剂盒检查DNA浓度。通常浓度在30ng/ul左右或更高。

PoC靶温育-没有珠子偶联

目的：将适体文库与靶温育，以观察哪些适体与靶结合。

这个温育只用于PoC靶，其中将PoC暴露到适体，然后再引入珠子并下拉。对于使用珠子偶联的任何方案来说，使用生物素化的靶温育。

1.将输入ssDNA(10¹⁵个分子)和如果使用的话FWD RC/桥在重折叠溶液(1X PBS，0.025％Tween-20，1mM MgCl₂，NF H₂O)中稀释。总体积为150uL。

3.靶尾部阻断温育：将靶与bt肽寡核苷酸互补体引物以1:2的比例在总体积为250uL的改良SELEX缓冲液(1X PBS，0.025％Tween-20，1mM MgCl₂，0.16mg/mL BSA，NF H₂O)中，在密封的NUNC板中旋转温育30分钟。靶浓度将随着严紧性梯度而变。

4.选择温育：将150uL重折叠溶液中的冷却的ssDNA与250uL改良SELEX缓冲液中的靶和退火的生物素化的肽寡核苷酸互补体合并，总体积为400uL，在密封的NUNC板中旋转温育1小时。

5.分离/下拉温育：预先将M280珠子在SELEX缓冲液中清洗3次，并以原始浓度重悬浮在SELEX缓冲液中。完成后将珠子添加到400uL选择温育反应中并温育30分钟。

6.使用液体操作仪从靶珠子上洗掉非特异性结合或未结合的DNA(方案：“清洗但不洗脱”)。

生物素化的靶温育-使用珠子偶联

目的：将我们的适体文库与靶温育，以观察哪些适体与靶结合。

这个温育方案应该用于在SELEX开始之前偶联到珠子的任何靶(生物素化的或PoC)。注意在这个方案中适体被暴露于靶和珠子，这与“PoC靶温育”方案相反，在后者中将PoC暴露于适体，然后再引入珠子并下拉。

3.融化冷冻的珠子偶联物板，添加改良的SELEX缓冲液(1X PBS，0.025％Tween-20，1mM MgCl₂，0.16mg/mL BSA，NF H₂O)至总体积为250uL。

4.将150uL重折叠溶液中的冷却的ssDNA与250uL改良SELEX缓冲液中的珠子靶偶联物合并，总体积为400uL，并在密封的NUNC板中旋转温育1小时。

5.使用液体操作仪从靶珠子上洗掉非特异性结合或未结合的DNA(方案：“清洗但不洗脱”)。

扩增(从珠子PCR[PoB])

目的：使用PCR扩增结合到靶的适体。此时，适体仍结合到靶，并且所有非特异性DNA已被洗掉。

1.在清洗方案结束后立即向孔添加主混合物(3μM正向引物，3uM反向引物，Herculase缓冲液，0.2mM DNTP，0.5单位/μL Herculase聚合酶，终体积为50uL)，以避免珠子干燥。

2.转移到Eppendorf低结合96孔板，密封并置于热循环仪中，使用下述PCR方案：95℃5min，(95℃30sec，55℃30sec，72℃30sec)x 13个循环，72℃5min，保持在4℃。

3.在液体操作仪上使用“可变体积”方案清洁。

4.在读板器上使用QuBit dsDNA试剂盒测量双链DNA的浓度以检查浓度。典型的浓度在4-20ng/uL的范围内。

阈值PCR

目的，使用受保护的引物扩增适体文库(正向引物具有6个硫醇硫酸酯，反向引物具有5’磷酸酯)。

1.使用50mL锥形管制备主混合物。主混合物：3μM正向引物，3uM反向引物，Herculase缓冲液，0.2mM dNTP，0.5单位/μL Herculase聚合酶，终体积为16000uL(这是总共320个反应，每个反应50uL)。

2.制造PoB DNA的1:10稀释液，并通过每50uL反应吸取0.17ng dsDNA将输入物浓度归一化。通过向每个孔添加4.3ng dsDNA、300uL H2O和954uL主混合物制备每种样品的储用溶液。将每种样品储用溶液等分成每个反应50uL。

3.将板密封并置于热循环仪中，使用下述PCR方案：95℃5min，(95℃30sec，55℃30sec，72℃30sec)x 13个循环，72℃5min，保持在4℃。

4.在液体操作仪上使用“大体积”方案清洁DNA。

5.在读板器上使用QuBit dsDNA试剂盒测量双链DNA的浓度以检查浓度。通常，浓度在30-90ng/uL的范围内。

单链再生(阈值PCR产物的消化)

目的：产生ssDNA用于下一轮SELEX。这需要作为多个反应进行，因为每个选择具有不同的DNA浓度。

1.根据λ核酸外切酶(M0262，NEB)制造商的说明书建立单链产生反应(对于50uL反应来说，使用至多5ug DNA、5uL 10x反应缓冲液、1uLλ核酸外切酶和至多50uL H₂O)。首先向DNA添加10x反应缓冲液，涡旋振荡混合。接下来添加λ，吸打混合。

2.取决于DNA输入浓度将反应在37℃温育10-20分钟。根据反应时间将反应在不同的板上分组。

4.在消化后通过将DNA产物在生物分析仪小RNA试剂盒上按照制造商的方案运行来检查DNA的质量。如果迹线显示仍存在双链产物，则添加与原始反应相同量的λ核酸外切酶并将37℃温育延长5-10分钟。再次检查质量。

5.将DNA合并在一个板上并使用“可变体积”方案清洁。这按照制造商的方案使用Mag-Bind TotalPure NGS珠子。

6.使用QuBit ssDNA试剂盒检查DNA浓度。通常，所述浓度在30ng/uL左右或更高。

反选择

目的：将靶针对在一个或多个方面与所述靶密切相似的其他靶进行温育，以确保被富集的适体是特异的并实际上与靶本身结合。这与正选择非常相似，区别在于靶是不同的并且没有“清洗但不洗脱”步骤。

1.取决于实验，将适体重折叠，并按照上文列出的PoC或生物素化的温育步骤建立温育。

2.在温育后，将板置于磁铁上2分钟，以允许所有珠子被磁铁聚集。

3.从每个孔除去上清液，并储存在干净的eppendorf 96孔PCR板中。

4.使用Qubit ssDNA试剂盒测量DNA浓度。

NGS制备

对来自于第2轮往后的PoB DNA进行测序。使用NextSeq方案制备样品(NGS制备)。

另外的方案：

消化后生物分析仪检查(小RNA试剂盒)：

生物分析仪测试的目的是核实来自于培育/阈值PCR的dsDNA已被λ核酸外切酶有效消化成ssDNA。按照制造商的说明书使用小RNA试剂盒。

为了分析生物分析仪测定法的结果，查找ssDNA和dsDNA峰的位置。ssDNA峰在60秒处，dsDNA峰在40秒处。如果存在串联体，则它们在55-65秒处被观察到(宽的不均匀的峰)。当在60秒处看到尖峰时，消化完成。示例性电泳图参见图47。

dsDNA生物分析仪检查

这种生物分析仪测试的目的是根据尺寸(碱基尺寸)评估PCR后/培育+清洁后dsDNA的质量。我们按照制造商的说明书使用高灵敏度DNA试剂盒。

为了分析这个测定的结果，寻找35bp处的下标志物和10380bp处的上标志物。检查适体长度与预期文库长度(在本实施例中是86bp)的匹配。示例性电泳图参见图48。

实施例3—PROSEQ实验

下文将描述下述内容：

A部分：ProSeq实验方法

B部分：ProSeq结果

C部分：通用ProSeq方案

A部分：ProSeq实验方法

试剂

适体和基底寡核苷酸购自IDT或通过K&A

TE H-8 DNA&RNA合成仪内部合成并通过HPLC(Agilent 1290Infinity II)纯化。肽-寡核苷酸构建物缓激肽、精氨酸加压素和GNRH从Genscript商购。适体温育和晚些时候的DNA条形码测序在补充有PhiXControl v3的NextSeq或MiSeq试剂盒上进行，并在MiSeq500(Illumina)上测序。使用T4连接酶(平端/TA主混合物制剂)将结合的适体连接到条形码基底并在

缓冲液中用EcoRI切割，所有这些试剂均购自New England Biolabs。用

缓冲液洗掉过量的适体和杂交缓冲液。对于Edman降解来说，将肽在偶联缓冲液(3:2(v/v)的吡啶：水中的0.4M二甲基烯丙基胺，pH 9.5)中与异硫氰酸苯酯(PITC)偶联，在三氟乙酸(TFA)中切割，并在氮气流下干燥。用于Edman降解的所有试剂均购自Sigma-Aldrich。所有缓冲液均用Ambion^TM无核酸酶水稀释。NGS数据的分析使用在Colaboratory笔记本环境上运行的自定义分析流水线来完成。

方法

蛋白质测序

建造基底并将其固定到固体基材

核心测序单元由4个独立的DNA片段构成：5’磷酸化的条形码基底(BF)，正向和反向共定位连接物(FC和RC)和带有C-端寡核苷酸序列标签的蛋白质或肽靶(PT)，所述标签以3’末端连接到所述蛋白质或肽并具有游离的磷酸化的5’末端取向。所述BF序列的5’末端与FC的5’末端互补以允许杂交，而BF的3’末端含有独特条形码(用于样品多重化或相关的PT鉴定)和与桥序列互补以便于适体连接到BF的短的共有序列。所述FC包含5’末端处的BF互补区，然后是与玻璃结合的寡核苷酸互补的序列，然后是柔性T-间隔物，以及在3’末端处的与RC互补的短的高GC含量序列。反过来，RC的3’末端与FC的3’末端互补，然后是长的T-间隔物，然后是与玻璃结合的寡核苷酸互补的序列，然后是与PT结合的寡核苷酸互补的序列。同样地，在将PT附连到3’末端之前，所述PT寡核苷酸的5’末端与RC的5’末端互补，然后是间隔物(图49)。

然后将这四个片段合并并在溶液中杂交，使得PT通过FC和RC连接到独特的BF，允许PT鉴定(在确认和掺入物对照的情况下)或样品去多重化(在多个肽池被同时测序的情况下)。在杂交后，将所述四组分复合体在寡核苷酸接种的玻璃基材上温育。FC和RC杂交到玻璃结合的寡核苷酸，并通过添加DNA连接酶，将BF和PT寡核苷酸通过连接(在这种情况下是“缺口修复”连接)共价连接到玻璃结合的寡核苷酸。通过这种方式，BF-PT对被共定位，并在空间上与所有其他BF-PT对分开，以确保给定PT的结合事件局限于单一BF。此外，BF和PT向玻璃的共价附连促进了在多轮PT测序后BF和PT保持共定位，尽管PT降解所需的试剂严苛。一旦BF和PT被共价附连到玻璃结合的寡核苷酸后，使用甲酰胺洗掉与BF和PT退火的正向和反向共定位连接物。

适体温育

在BF和PT被共价附连到基材后，如下开始测序过程：将第一BCS相容性适体池温育，然后洗掉未结合的适体并添加连接酶，以将适体共价连接到BF。将这个温育和连接的循环进行多次，其中连接在每次温育后或在所有适体池已被引入之后进行。在将肽靶与适体温育之前，将单链适体池与桥寡核苷酸温育，以形成BCS相容性适体的文库。应该指出，在限制性消化(如下所述)的循环之间只有单个条形码被记录。在连接后，引入限制性酶(以及过量的与限制性位点和间隔物互补的序列)以从5’末端上的适体条形码切下适体的肽结合序列，只留下适体条形码和用于后续连接的短的共有序列附连到BF。在限制后，使用Edman降解、氨肽酶或任何其他加工性降解过程将PT从N-端逐步降解。显然，建造编码适体的条形码序列的技术同样可以应用于C-端到N-端肽或蛋白质测序，因为所述条形码序列合成过程与PT在其寡核苷酸系链上的取向无关。此外，在PT降解之前可以使用多轮的适体温育、连接和限制，以多次质询同一个N-端氨基酸序列，从而更准确地鉴定N-端组成。

在降解后，将另一个适体池温育并重复所述过程。每一轮中的适体含有独特条形码(即使在肽结合序列相同时)，以便可以容易地鉴定错过的并入事件(例如明显的缺失)并在后续的数据分析步骤中做出解释。

DNA条形码构建物测序

测序过程中的最后步骤是添加PCR或下一代测序(NGS)接头。使用相同的共有和桥序列，将接头连接到适体条形码序列的3’末端，所述适体条形码代表了一系列适体结合事件，进而被用于确定PT的序列。使用玻璃结合的寡核苷酸序列和/或BF的5’序列作为一个引物并使用PCR/NGS接头作为另一个引物从芯片扩增条形码构建物并使用标准的NGS技术测序，或者在NGS测序流动室充当PT测序平台并且NGS接头具有适合设计的情况下，不需进一步加工在NGS流动室上直接扩增并测序所述条形码构建物。

Sup-Diff

先验Sup-Diff

生物素化的RNA诱饵产生

先验Sup-Diff在BCS条形码构建物的池上进行。初步NGS数据集揭示出具有高读出计数的序列作为通过Sup-Diff剥离的靶。所述靶由IDT或通过内部K&A H8 DNA合成仪与其他池组成成分分开制造。使用标准正向引物和含有T7 RNA聚合酶启动子序列的反向引物对靶序列进行PCR。将PCR产物按照自动化Bravo清洗方案清洁(～1-2ug)，然后用作模板，以在20ul TranscriptAid T7高产率转录试剂盒(Thermo Scientific)反应中通过体外转录产生互补的生物素化的RNA诱饵，所述反应含有10mM ATP、CTP和GTP，7.5mM UTP和2.5mM生物素-16-UTP(Roche)。在37℃下4-6小时后，通过DNase I(NEB)处理和RNeasy小量试剂盒柱过滤(Qiagen)除去DNA模板和未掺入的核苷酸。

溶液中杂交和珠子下拉

将含有靶池和无核酸酶水的混合物在95℃加热5分钟，在冰上冷却2min，然后与生物素化的RNA诱饵和SUPERase In RNase抑制剂(Invitrogen)在预加温(65℃)的2X杂交缓冲液(10X SSPE，10X Denhardt’s，10mM EDTA和0.2％SDS)中混合。在65℃下16小时后，将所述杂交混合物添加到清洗三次并重悬浮在2X B&W缓冲液(10mM Tris-HCl(pH 7.5)，1mMEDTA，2M NaCl)中的MyOne C1链亲合素Dynabeads(Invitrogen)。在RT下30分钟后，将珠子下拉并保留上清液。

“汤”加工和测序

将上清液(“汤”)用RNase H(NEB)和RNase A(Zymo)两种RNA酶的混合物在37℃处理30分钟。然后将处理过的ssDNA扩增18个或更多个循环。初始变性是95℃5min。每个循环是95℃30秒，55℃30s和72℃30s。最后的延伸是72℃5min。然后将Bravo清洗过的PCR产物进行NGS制备，以便使用定制引物在Illumina Miseq上测序。

非先验Sup-Diff

也可能存在着可能需要Sup-Diff的非先验版本的情况。在这种情况下，可以将靶池的样品用作体外转录(IVT)的模板。作为概念验证，进行IVT优化以使RNA诱饵池中的诱饵代表偏向于高丰度种类。

RNA诱饵池产生

产生SELEX掺入序列的梯度(质量％)：序列9(0.000125％)，序列13(0.01％)，序列11(1％)，序列12(10％)，序列10(88.98％)。将该ssDNA梯度池作为模板用于20ulTranscriptAid T7高产率转录试剂盒(Thermo Scientific)反应中，所述反应含有0.1mM、0.25mM、1mM、2.5mM或10mM rNTP(无生物素化的UTP)。在37℃下4-6小时后，通过DNase I(NEB)处理和RNeasy小量试剂盒柱过滤(Qiagen)除去DNA模板和未掺入的核苷酸。

反转录

然后使用Maxima反转录试剂盒(Thermo Fisher)将纯化的RNA诱饵池反转录成cDNA。28ul初始反应含有500ng RNA诱饵池、15-20pmol TriLink正向引物、0.5mM dNTP等摩尔混合物和无核酸酶水，将其在65℃温育5min。然后添加8ul 5X反转录酶缓冲液、2ulSUPERase In RNase抑制剂(Invitrogen)和2ul Maxima反转录酶，并将所述反应在50℃温育30min，然后在85℃热失活5min。将得到的cDNA池用RNase H(NEB)和RNase A(Zymo)两种RNA酶的混合物在37℃处理30min。

扩增和测序

然后将处理过的ssDNA扩增13个或更多个循环。初始变性是95℃5min。每个循环是95℃30秒，55℃30秒和72℃30秒。最后的延伸是72℃5min。然后将Bravo清洗过的PCR产物进行NGS制备，以便使用定制引物在Illumina Miseq上测序。使用Miseq V2 Nano试剂盒进行41x8x6读出。

B部分：ProSeq结果

结果-条形码序列合成的概念验证

作为合成代表一系列结合事件、进而代表待测序的蛋白质或肽的假设氨基酸序列的DNA条形码的概念验证，使用“模拟适体”DNA-DNA结合(例如杂交)系统进行了条形码合成过程。通过这种方式，降低了结合动力学和结合物-靶特异性的不确定性以产生“理想的”结合物-靶系统，以在其中证实连续条形码添加策略。此外，这些DNA-DNA结合物可以在将来的实验中用作内部对照，以评估总体运行质量。

使用该带有条形码特异性桥的理想化平台，进行了多达12个适体条形码连接和限制的循环，根据完美的12/12读出的数目效率高达63.8％，并且对于条形码并入的3个循环来说每个循环的效率高达75.5％(图50A)。这与当前为每个步骤效率的估算相符，其中正确的结合物-靶相互作用的假设效率是～90％，靶结合的适体与其相关条形码序列连接的效率>99％，并且限制的效率被估算(保守)为85％。在所述平台上的理想化条件中，限制性酶效率经测量为>95％，这意味着假如在完整测序循环的情形中结合物特异性适度提高(至95％准确性)并且限制性条件理想化，则每个循环的条形码并入效率应该可以达到高于90％。

使用通用桥设计5’CTGCGCCTATACGAATTCGTTATC############CTCTCCGTTATC(SEQID NO：53)，其中每个#是5-硝基吲哚，三个连续条形码连接中的三个实现了正确的顺序和取向，估算的每个循环的效率为71％(图50B)。在同一个实验中，与独特基底(基底11)相关的读出中>36％含有顺序正确的所有三个适体条形码，证实了使用通用桥有可能实现连续连接和限制。

结果-肽靶鉴定的概念验证

使用具有源自于针对生物学相关的10-mer肽的RCHT-SELEX实验的结合序列的适体的初步结果显示，在SELEX衍生的序列的给定池中，存在着具有亚纳摩尔范围内的亲和性的结合物。

在RCHT-SELEX和PROSEQ条件的组合中，示出了适体与10-mer精氨酸加压素生物肽特异性结合的初始证据。当将精氨酸加压素的有希望的适体的文库与附连到精氨酸加压素、缓激肽、DD、DNA或未附连靶(空对照)的基底在溶液中温育时，有希望的缓激肽适体的条形码被连接到所有类型的精氨酸加压素连接的条形码基底并且连接到无DD连接的条形码基底(图51)。排名靠前的带有DNA条形码尾部的特异性精氨酸加压素适体的序列是：

·/5Phos/GAGAGTAAAGCCGATAGGATAACGAATTCGTATAGGCGCAGGATGGACTTGATAACCTTCTGCTGCGTGCCTTGATGTGCTTACTTGGCGTTCTTACCACCA(SEQ ID NO：54)

·/5Phos/GAGAGTTAGTCAGCAGGGATAACGAATTCGTATAGGCGCAGCATTTGATTCTGCTGCGTGCATACCCCTGTGTGTTATCCCTACTTGGCGTTCTTACCACCA(SEQ ID NO：55)

·/5Phos/GAGAGTCCACGTGCACAGATAACGAATTCGTATAGGCGCAGCATACATCGGACATACATCCTGCGTGCATCCACCTTTGCATACTTGGCGTTCTTACCACCA(SEQ ID NO：56)

上述所有三种适体的条形码在所有不同的精氨酸加压素基底上具有超过100个命中并且没有脱靶命中。该数据表明源自于RCHT-SELEX方法的精氨酸加压素适体偏好性结合精氨酸加压素超过DD肽和缓激肽。它们也不与附连到所有靶的寡核苷酸结合，正如精氨酸加压素适体条形码针对空基底缺少计数所显示的。此外，尽管在RCHT-SELEX中分离的适体没有与PROSEQ相容所必需的适体条形码，但在将适体尾部序列添加到5’末端后仍保留了特异性。

结果-降解

对通过寡核苷酸固定到玻璃基材的生物学相关肽(缓激肽)进行的Edman降解的初步研究表明，所述寡核苷酸系链是稳定的(例如抗体染色显示在降解之前和之后均具有强信号)。此外，在多个Edman降解的循环后，来自于抗体染色的信号降低但不完全消失，表明所述肽在TFA暴露后仍在位，并且信号的降低是由于氨基酸切割引起的抗体结合的丧失造成的(图52)。

结果-Sup-Diff

关于IVT优化的初步数据显示出非先验Sup-Diff方法是有希望的。使用标准的10mM rNTP IVT方案从具有下述分布的靶池产生RNA诱饵的池：89％的序列10，10％的序列12，1％的序列11，0.01％的序列13和0.000125％的序列9，产生了具有下述组成的RNA池：81％的序列10，18.5％的序列12，0.6％的序列11，0.008％的序列13和0.0055％的序列9。随着每种rNTP的终浓度的降低实现了RNA诱饵分布的迁移，使得针对高丰度靶的RNA诱饵的频率提高。从10mM rNTP终浓度到0.25mM rNTP终浓度，针对最高浓度的靶、即序列10的RNA诱饵的频率平均提高8.5％(图53)。这证实了从靶池产生的RNA诱饵池的分布可能偏向于高丰度序列，允许在RNA诱饵池被杂交到靶序列池时偏好性地下拉高丰度物质。

C部分：通用ProSeq方案

下面是在发展性实验中使用的模板方案。

技术术语

PoC(蛋白质-寡核苷酸偶联物)：偶联到寡核苷酸的3’末端的蛋白质或肽，所述寡核苷酸含有连接物区、与反向共定位连接物的5’末端互补的序列和5’磷酸酯基团。

RC(反向共定位连接物)：RC的3’末端与正向共定位连接物的3’末端互补，然后是柔性T-间隔物，然后是与玻璃结合的寡核苷酸接头互补的序列，然后是与PoC上的寡核苷酸互补的序列。

FC(正向共定位连接物)：FC包括5’末端处的基底互补区，然后是与玻璃结合的寡核苷酸接头互补的序列，然后是柔性T-间隔物，以及在3’末端处的与RC互补的短的高GC含量序列。

基底：含有特异性针对靶的条形码并在其上建立有结合到靶的DNA条形码的寡核苷酸。基底序列的5’末端与FC的5’末端互补以允许杂交，而3’末端含有独特条形码(用于样品多重化或相关PT的鉴定)和与桥序列互补以便于结合物DNA条形码连接到所述基底的短的共有序列。

共定位化构建物：完整的核心测序单元，由杂交在一起的PoC、RC、FC和基底片段构成。

限制/共有桥：与BCS盒中的限制消化序列互补的寡核苷酸。该序列在限制消化步骤期间添加以与适体的5’末端杂交，其在通用桥已被洗掉的情况下连接到基底/以前的适体条形码的3’末端，使得消化仍可以发生。提高消化反应的效率。

表3.1缓冲液

基底杂交和流动室制备

基底杂交

目的：将共定位连接物、基底和靶以正确的比例杂交以形成共定位化构建物。

目的是得到～120pM总基底浓度的终浓度，旨在在脱靶连接的测序失败风险高，即首次使用新的池/适体集的情况下获得较低浓度。

1.将测序单元组分(FC/RC储用物、基底和靶)在冰上融化

2.将测序单元组分在10nM正向共定位连接物浓度(基底、靶、反向共定位连接物过量)下杂交。在96孔板中，以下述顺序合并测序单元组分(每个靶1个孔)：

a.91uL杂交缓冲液

b.1uL1 uM共定位连接物(1uM储用物具有FC:RC 1:2)

c.5uL 1uM基底储用物(从96孔板储用物多通道)

d.3uL 10uM靶储用物(最低终浓度为至少50nM)

e.总共100uL

3.在热循环仪上使用下述循环参数变性/退火基底、共定位连接物和靶：

a.95℃5分钟

b.85℃1分钟

c.75℃2分钟

d.65℃3分钟

e.55℃5分钟

f.45℃5分钟

g.35℃5分钟

h.25℃40分钟→在起始步骤5中5分钟

4.得到10nM共定位化构建物

5.在变性/退火热循环中保留大约35分钟后，开始第1轮中的适体的重折叠(稀释参见下文)

基底连接

目的：将共定位化构建物连接到流动室，以确保靶和基底可用于适体温育。

1.将10nM共定位化构建物1:20稀释，得到在杂交缓冲液中的500pM工作溶液

a.95uL杂交缓冲液+5ul 10nM共定位化构建物混合物

2.在单个基底连接管中合并：

a.等量的每种靶基底(所有基底的终浓度均为120pM，即12uL 1nM基底——可能需要1:20稀释以避免小体积移液)

b.10uL 2x平端/TA MM(T4)连接酶

c.在杂交缓冲液中稀释以获得100uL的总体积

3.注：根据需要调整基底体积和NF H₂O体积以降低载样浓度，从而避免过度簇集

4.轻柔吸打混合至少15秒或直至来自于连接酶的甘油完全均匀

5.用30uL基底连接混合物清洗芯片

6.向芯片添加30uL基底混合物两次

7.在28℃温育15分钟

8.用100uL 100％甲酰胺清洗芯片

9.在40℃温育90秒

添加条形码循环的开始(为每个循环重复)

寡核苷酸尾部阻断+BSA阻断

目的：在适体温育期间降低流动室表面的可利用性和因适体的非特异性结合连接到流动室的ssDNA。

1.用500uL结合缓冲液清洗芯片

2.用30uL芯片阻断溶液清洗芯片

a.制备100uL芯片阻断缓冲液：

i.60uL阻断缓冲液(0.025％TWEEN-20+10mg/mL BSA，在1x PBS中)

ii.10uL 100uM P5互补体(终浓度10uM)(序列在表3.1中)

iii.10uL 100uM P7互补体(终浓度10uM)(序列在表3.1中)

iv.10uL 100uM POC尾部组块(终浓度10uM)(序列在表3.1中)

v.10uL 100uM基底基本组块(终浓度10uM)

3.向芯片添加30uL芯片阻断缓冲液两次

4.在37℃温育15分钟

适体温育

目的：将流动室上的靶暴露于适体，以起始(1)靶与适体的结合区之间和(2)基底与适体的BCS盒之间的结合。

1.适体温育溶液制备：

a.杂交缓冲液中1:2比例的适体+桥

b.将适体混合物在PCR管中加热至95℃5分钟(放置在条的中间以防止PCR管的熔体压缩)

c.将适体管在实验台上RT冷却1小时

d.在即将在芯片上温育适体和桥之前，添加10mg/mL BSA以获得100ug/mL的BSA终浓度

i.实例：向99uL适体混合物添加1uL 10mg/mL BSA

2.在芯片阻断缓冲液温育15分钟后，用100uL杂交缓冲液清洗芯片60秒

3.重复60秒杂交缓冲液清洗

4.用30uL适体温育溶液清洗一次

5.向芯片装载30uL适体温育溶液

6.在25℃温育30分钟

适体连接

目的：将结合到靶的适体连接到共定位化基底，以便可以对适体条形码测序。

1.用100uL适体温育缓冲液清洗3x 90秒

2.制备连接溶液：

a.63uL NF H₂O+7uL 2x平端/TA MM连接酶

3.用30uL连接溶液清洗一次

4.装载30uL连接溶液

5.在28℃温育3分钟

适体限制性消化

目的：制备连接到基底的适体条形码的3’末端，以便用于NGS连接，使得它可以被测序。

1.在1x Cutsmart缓冲液中清洗3x 90秒

2.制备限制性溶液：

a.77uL NF H2O

b.10uL 10x Cutsmart

c.3uL 10uM限制/共有桥

d.10uL EcoRI HF(100,000U/ml)

3.用30uL限制性溶液清洗一次

4.装载30uL限制性溶液

5.在40℃温育30分钟

6.用100uL 100％甲酰胺清洗芯片

7.在40℃温育90秒

8.用500uL SELEX缓冲液清洗芯片

[为每个循环重复]

最终添加条形码循环的结束

NGS接头连接

目的：将P5互补序列连接到条形码构建物的3’末端，使得它在测序期间被读取。

1.制备NGS连接混合物：

a.63.5uL NF H₂O

b.1.5uL NGS接头+桥(1uM NGS接头，2uM桥)

c.10uL 10x Cutsmart缓冲液

d.25uL平端/TA MM连接酶

2.吸打混合物溶液直至连接酶充分并入

3.装载2x 30uL NGS连接混合物

4.在40℃温育165秒

5.用500uL NF H₂O清洗2次，每次清洗温育90秒

将芯片装载到测序仪上

目的：为测序运行准备流动室和MiSeq。

1.改变样品表以反映出读出长度、实验/样品名称

2.将580uL HT1缓冲液中的20uL 20pM变性PhiX(用测序卡盒供应)装载到Miseq卡盒上的样品端口中

3.启动测序仪

a.如果在运行前检查期间出现流动错误，则将流动室上含有垫圈的塑料铰接零件用来自于旧流动室的同一零件替换(在用70％乙醇和NF H₂O充分漂洗后)

实施例4—BCS结合测定

试剂

适体基底寡核苷酸和DNA靶通过HPLC或PAGE纯化并购自IDT。Spot-Tag和缓激肽肽-寡核苷酸构建物从Genscript商购。Spot-tag纳米抗体购自Chromotek。Spot-tag纳米抗体-寡核苷酸偶联物使用SoluLINK蛋白质–寡核苷酸偶联试剂盒制备。适体温育和DNA条形码测序在补充有PhiX对照v3的MiSeq Reagent Nano v2试剂盒上进行，并在MiSeq500(Illumina)上测序。使用T4连接酶(平端/TA主混合物制剂)将结合的适体连接到条形码基底，并用EcoRI在CutSmart缓冲液中切割，所有这些试剂均购自New England Biolabs。过量的适体和杂交缓冲液用购自Millipore Sigma的100％甲酰胺洗掉。NGS数据的分析使用在Colaboratory笔记本环境上允许的自定义分析流水线来完成。

方法

将Spot-Tag纳米抗体偶联到DNA尾部

使用SoluLINK蛋白质-寡核苷酸偶联试剂盒，按照制造商的说明书将可商业获得的Spot-tag纳米抗体(Chromotek)以非位点指导性方式偶联到5’磷酸化的寡核苷酸(3'ATCCCTTCTCTTCCTGTATACTAATAGGTGCACGTAGATTC/5Phos/(SEQ ID NO：60))的3’末端。

Spot-tag纳米抗体-寡核苷酸偶联的成功通过PAGE电泳来确认(图54)。蛋白质的标记不是位点指导的，而是可以使用分选酶方法实现。在凝胶上观察到多个较高分子量条带，推测对应于偶联到单一纳米抗体的多种寡核苷酸。重要的是，对于BCS实验来说这些构建物不太值得关注，因为它们1)没有功能，在这种情况下它们将不结合Spot-Tag并且被洗掉，或者2)会与Spot-Tag结合，然后多个尾部中的任一者可以被连接到附近的基底。

建造基底并将其固定到固体基材

作为验证BCS平台记录复杂环境中的特定结合事件的能力的概念验证实验，将Spot-Tag-寡核苷酸偶联物(Spot-Tag.O1)和6个其他对照靶接种在MiSeq Nano v2测序芯片上。另一个肽靶是偶联到5’磷酸化的DNA尾部的缓激肽(Brady.O1)。2个空靶(没有靶的寡核苷酸尾部)包含5’磷酸化的寡核苷酸(5’Phos.O1)和缺少5’磷酸酯并因此不能附连到芯片的寡核苷酸(CLR.Null.Block)。2个DNA对照(SP6.O1和SP4.O1)是连续的寡核苷酸序列，其含有用于连接到P7引物的5’磷酸化的连接区和用于与互补链杂交的结合区两者，充当阳性对照(图55)。每个靶的结合区和DNA尾部序列报告在表4.1中。

表4.1.靶和寡核苷酸尾部的序列

*肽靶的C-端通过半胱氨酸直接偶联到一个DNA尾部的3’末端

**DNA靶的结合序列和DNA尾部是连续寡核苷酸而不是通过另一种化学偶联方法偶联的。

为了将靶-寡核苷酸偶联物和含有指示其相关靶的序列的DNA条形码基底彼此邻近地固定到固体基材，必须进一步组装成核心测序单元。BCS平台的核心测序单元由4个独立的DNA或寡核苷酸偶联的分子的片段构成：5’磷酸化的条形码基底(BF)，正向和反向共定位连接物(FC和RC)，以及带有C-端寡核苷酸序列标签(以3’末端连接到靶的取向)和游离的磷酸化的5’末端的靶。BF序列的5’末端与FC的5’末端互补以允许杂交，而BF的3’末端含有独特条形码(用于样品多重化或相关靶的鉴定)和与桥序列互补以便于适体与BF的连接的短的共有序列。所述FC包括在5’末端处的BF互补区，然后是与玻璃结合的寡核苷酸互补的序列，然后是柔性T-间隔物，以及在3’末端处与RC互补的短的高GC含量序列。反过来，RC的3’末端与FC的3’末端互补，然后是长的T-间隔物，然后是与玻璃结合的寡核苷酸互补的序列，然后是与靶偶联的寡核苷酸互补的序列。同样地，在3’末端处附连靶之前，靶寡核苷酸的5’末端与RC的5’末端互补，然后是间隔物(图49)。

每个对照靶在三份平行实验中测试，并且Spot-Tag在六份平行实验中测试。将它们相应的FC、RC和BF在冰上融化，然后将每套测序单元在分开的孔中合并在91uL杂交缓冲液(1x PBS中的0.025％TWEEN20)中，以产生10nM FC，并且RC、BF和靶过量。在这个实验中，所有靶均使用相同的FC序列(5’CATCAGCTCGCAGTCGATCTCGTATGCCGTCTTCTGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTCCAGCCACCGCCAACCATCC-3’(SEQ ID NO：69))和RC序列(5’ATTATCCACGTGCATCTAAGATCTCGTATGCCGTCTTCTGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTGGATGGTTGGCGGTGGCTGG-3’(SEQ ID NO：70))。将FC和RC保持在储用溶液中，所述储用溶液在杂交缓冲液中含有比例为3:1的FC:RC。所述组分以杂交缓冲液、FC和RC储用物和BF的顺序添加。在即将杂交之前向所述混合物添加靶。每组靶、FC、RC和BF的序列和浓度报告在表4.2中。各个片段的最终比例是：

·5:1BF:FC

·3:1FC:RC

·10:1靶:RC

为了组装所述测序单元，将完全混合物充分混合，离心30秒，密封，并在热循环仪中使用下述条件加热：95℃5分钟，85℃1分钟，75℃2分钟，65℃3分钟，55℃5分钟，45℃5分钟，35℃5分钟，25℃40分钟。

表4.2.每个靶平行样的基底序列

*靶序列参见表4.1

在接种共定位化构建物之前，将测序芯片用100uL杂交缓冲液清洗两次。将每个共定位化构建物的混合物稀释到0.5nM，并将1.14uL每种混合物与10uL 2x平端/TA MM连接酶主混合物和44uL杂交缓冲液合并，轻柔混合，以获得终浓度为120pM的共定位化构建物。为了将所述共定位化构建物连接到芯片上，将测序芯片用30uL基底混合物清洗两次，并在加热板上在28℃加热15分钟。然后将它用100uL 100％甲酰胺清洗一次，以除去未连接的共定位化构建物。将芯片在加热板上再次在40℃加热90秒，用500uL阻断缓冲液(1x PBS中的0.025％TWEEN20+10mg/ml BSA)清洗一次，用30uL芯片阻断溶液(10uM P5互补寡核苷酸(5’-TCTCGGTGGTCGCCGTATCATT-3’(SEQ ID NO：92))/P7互补寡核苷酸(5’-ATCTCGTATGCCGTCTTCTGCTTG-3’(SEQ ID NO：93))序列+10uM POC尾部阻断序列(5’-TAGGGAAGAGAAGGACATATGATTATCCACGTGCATCTAAG-3’(SEQ ID NO：94)))清洗两次，在加热板上37℃温育15分钟，并用100uL杂交缓冲液清洗两次，每次60秒，然后立即装载制备的结合物文库(参见下面的带条形码的结合物文库制备部分)。

带条形码的结合物文库制备

将4个带DNA条形码的“结合物”与靶温育，每个结合物由结合物区、DNA间隔物区、限制性位点、指示结合物区域身份的DNA条形码和连接位点构成。2个DNA结合物U4.SA1.3和U4.SA2.3含有由分别与SP4.O1和SP6.O1互补的DNA构成的结合物区。这些结合物是应以高亲和性和特异性结合到SP4.O1和SP6.O1的阳性对照。另一种DNA结合物U4.SA4.2含有由将不与存在的靶结合的乱序DNA序列构成的结合物区，充当阴性对照用于测量噪声。最后一种结合物是Spot-tag纳米抗体-寡核苷酸偶联物。

在温育之前，将每种结合物杂交到通用桥(5’-CTGCGCCTATAGGAATTCGTTATC/i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd/GGACACGGCCGTTATC-3’(SEQ IDNO：95))，这是与限制性位点间隔物部分互补并与共有序列部分互补的寡核苷酸(图14B)。每个/i5NitInd/是5-硝基吲哚，是表现出高的双链体稳定性并且与四种天然碱基中的每一者不加选择地杂交的通用碱基类似物(Loakes和Brown，1994)。将DNA结合物和Spot-tag纳米抗体靶在独立的反应中与它们相应的桥杂交。将所述DNA结合物添加到杂交缓冲液中每个DNA结合物2x过量的桥寡核苷酸，以产生50uL每种DNA结合物的终浓度为200nM(所有DNA结合物合起来为600nM)的溶液。将所述溶液加热至95℃5分钟，并在室温(RT)(22-24℃)放置1小时。

为了将Spot-tag纳米抗体靶杂交到通用桥，将它添加到杂交缓冲液中每个Spot-tag纳米抗体靶5x过量的桥，以产生49uL Spot-tag纳米抗体靶的终浓度为大约400nM的溶液。在纳米抗体-寡核苷酸偶联物的制备中，所述DNA尾部过量添加并且不被纯化掉。溶液中存在的过量的未偶联的DNA尾部有可能杂交到Spot-tag-寡核苷酸偶联物，阻止后续Spot-tag纳米抗体条形码与邻近基底的连接所需的通用桥的杂交。使用比例为5:1的桥:Spot-tag纳米抗体靶，使得来自于蛋白质-寡核苷酸偶联反应的在溶液中但未偶联到Spot-tag纳米抗体靶的任何过量的DNA尾部被杂交到桥，促进桥与偶联到Spot-tag纳米抗体靶的所有寡核苷酸尾部的杂交。将该溶液加热至37℃30分钟，并在RT冷却30分钟。冷却后，将含有均杂交到通用桥的DNA结合物和Spot-tag纳米抗体靶的溶液合并，并添加1uL阻断缓冲液(1xPBS中的0.025％TWEEN20+10mg/ml BSA)。最终的结合物文库溶液具有浓度为100nM的每种DNA结合物(所有DNA结合物合在一起为300nM)和200nM的Spot-tag纳米抗体靶。

带条形码的结合物文库温育、结合物条形码连接和限制性消化

在用100uL杂交缓冲液清洗测序芯片两次各60秒的步骤(参见上文建造基底并将其固定到固体基材部分)之后，将芯片用适体温育缓冲液(1x PBS中的0.025％TWEEN20+0.1mg/ml BSA)清洗60秒。将结合物文库轻柔混合，并将测序芯片用30uL结合物文库溶液缓慢装载两次。将测序芯片与结合物文库溶液在加热板上在25℃温育30分钟。在温育后，将芯片用100uL适体温育缓冲液清洗90秒共三次，以洗掉未结合和弱结合的结合物。

为了制备连接反应，将7uL 2x平端/TA MM连接酶溶液在63uL杂交缓冲液中稀释并轻柔混合。将30uL稀释的连接酶溶液装载到芯片上两次，然后将芯片在加热板中在28℃温育5分钟，以将结合物的DNA尾部连接到其结合的靶的相应的基底寡核苷酸。通过用100uL1x CutSmart溶液将板清洗60秒共三次，来终止所述连接反应。

使用限制性消化反应将所述结合物的除了共有区和结合物条形码之外的其余部分从条形码-基底构建物移除。所述限制性酶混合物通过向30uL 10uM限制桥(5’-CTGCGCCTATACGAATTCGTTATC-3’(SEQ ID NO：96))添加10uL 20单位/uL EcoRI、10uL 10xCutSmart溶液和77uL无核酸酶H₂O，然后将内含物轻柔混合来制备。将30uL限制性酶混合物装载到芯片上两次，并在加热板上在40℃温育30分钟。为了终止连接反应并洗掉任何杂交的DNA，将芯片用100uL 100％甲酰胺装载，在加热板上在40℃温育90秒，并用500uL杂交缓冲液清洗。

测序

测序过程中的最后一步是添加下一代测序(NGS)接头。将1.5uL2:1的1uM通用NGS接头(/5Phos/AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT(SEQ IDNO：97))+通用NGS接头桥9/5(5’-TTCCGATCTCGTTA-3’(SEQ ID NO：98))添加到10uL 10xCutSmart、25uL 2x平端/TA MM连接酶，并在63.5uL无核酸酶H₂O中稀释。将30uL NGS连接混合物装载到测序芯片上两次，并将芯片在加热板上在40℃温育2分45秒。将芯片用500uL无核酸酶H₂O清洗两次，在清洗之间停留90秒。将20uL 20pM变性的PhiX(Illumina)在580uLHT1缓冲液(Illumina)中稀释，并装载到测序卡盒的样品孔中。使用MiSeq V2化学进行45个循环读出。

结果

将Spot-Tag纳米抗体偶联到DNA尾部

蛋白质的标记不是位点指导的，因为它是使用分选酶介导的方法进行的。在凝胶上观察到多个较高分子量的条带，推测对应于与单一纳米抗体偶联的多个寡核苷酸。重要的是，对于BCS实验来说这些构建物不太值得关注，因为它们1)没有功能，在这种情况下它们不结合Spot-Tag并且被洗掉，或者2)会与Spot-Tag结合，然后多个尾部中的任一者可以被连接到附近的基底。

结果-BCS结合测定法概念验证

在BCS平台上调整针对其已知肽靶的纳米抗体的初步结果显示，在复杂环境中，可以在DNA信号中记录到在亚微摩尔范围内的与结合物的特异性结合事件并将其解卷积。当将有希望的结合物的文库与附连到缓激肽(Brady.O1)、没有靶(作为空对照的CLR.Null.Blk和5’Phos.O1)、DNA靶(作为阳性对照的SP4.O1和SP6)或Spot-Tag蛋白(Spot-Tag.O1)的基底温育时，Spot-Tag结合物的条形码以与对应于其他靶的基底相比明显更高的比率连接到与Spot-tag靶相关的所有基底。连接到Spot-tag靶基底相比于其他基底的Spot-tag结合物条形码的测序计数是3383-10630相比于0-1617的计数(图56)。测序计数显示，32-73％的Spot-tag靶基底被连接到Spot-tag结合物条形码，而0.3-10.7％的其他基底被连接到Spot-tag结合物条形码。对于阳性靶对照SP4.O1和SP6.O1来说，测序计数报告了与其他靶的基底相比，大量DNA结合物条形码被连接到其目标靶的基底。连接到任何结合物条形码的空对照靶和用于非特异性结合的肽靶对照(Brady.O1)的基底等于或低于本底噪声。对于阴性对照结合物AV.B4.U2.SA4.2来说，没有观察到测序计数。

为了确认观察到真正的信号，在其中仅将未偶联的Spot纳米抗体和寡核苷酸装载到测序芯片上的实验中，在相应的基底上未观察到Spot-tag纳米抗体条形码(图57)。为了进一步优化实验，重要的是使用经仔细纯化的蛋白质-寡核苷酸偶联物工作，使用由两个部分构成的寡核苷酸尾部验证BCS方法以便能够实现设计的模块化，使用具有低亲和性的基于蛋白质的结合物例如Myc标签验证BCS平台，并使用跨越不同的亲和性和浓度范围的结合物表征BCS的性能。

实施例5—PROSEQ-VIS实验

方法

肽固定

从细胞分离蛋白质，将其消化并处理，然后将肽片段固定到固体基材。首先将细胞裂解，然后通过沉淀分离蛋白质。将分离的蛋白质用表面活性剂变性，然后还原并烷基化，以保护半胱氨酸侧链。为了将寡核苷酸链附连到赖氨酸的氨基侧链，将蛋白质在磷酸钠缓冲液(pH 4-5)、氰基硼氢化钠、去离子水和在3’末端上用醛修饰并在5’末端处具有磷酸酯基团的寡核苷酸的反应混合物中温育。然后将蛋白质用Lys-C消化，产生在每个C-端处具有寡核苷酸修饰的赖氨酸的肽片段。然后用DNA连接酶将寡核苷酸的5’末端共价附连到流动室上的3’接头上，将肽-寡核苷酸构建物固定到固体基材。

适体温育和成像

在将寡核苷酸-肽构建物共价附连到基材后，通过温育第一适体池，然后洗掉未结合的适体，来开始测序过程。在单个芯片上，可以跨过多个视野固定2千5百万至50亿个肽片段。在靶固定后，将具有杂交到保护性互补寡核苷酸的独特条形码尾部的独特适体的文库与芯片温育，以允许靶结合。将未结合的适体洗掉。将结合的适体用聚甲醛(PFA)处理，然后将dsDNA部分变性并洗掉保护性互补寡核苷酸，以暴露出含有条形码的区域用于探针杂交。将所述适体：氨基酸复合体与杂交到指示探针迭代1的条形码区的探针的文库温育。然后将未结合的探针洗掉并将结合的探针成像，以获得第一段光学条形码。在成像后，将结合的探针从适体条形码尾部变性并从芯片洗下。然后，将结合的适体与杂交到指示探针迭代2的条形码区的下一组探针温育。重复探针温育、成像和清洗的迭代，直至获得全部光学条形码。使用Edman降解、氨肽酶或任何其他加工性降解过程，将肽以及共价结合的适体从N-端逐步降解。然后，将适体温育、探针温育和单分子成像的迭代和氨基酸切割的循环重复多轮，以获得肽分子的序列(图23)。

作为可以在不使用TIRF显微术的情况下实现单分子成像的概念验证，将正向和反向共定位连接物(FC和RC)用荧光链亲合素珠子标记并在流动室上成像。FC包括5’末端处的条形码基底互补区，然后是与玻璃结合的寡核苷酸互补的序列，然后是柔性T-间隔物，以及3’末端处与RC互补的短的高GC含量序列。反过来，RC的3’末端与FC的3’末端互补，然后是长的T-间隔物，然后是与玻璃结合的寡核苷酸互补的序列，然后是与另一个寡核苷酸互补的序列。FC和RC在5’末端被生物素化。将FC、LC和链亲合素珠子以及流动室表面分开地用BSA缓冲液(1x PBS，0.05％Tween，10mg/ml BSA)在RT阻断1小时。在两个独立反应中，将FC与0.04μm的黄绿色荧光(505/515)的FluoSpheres^TM链亲合素标记的微球并将RC与0.04μm(488/645)的TransFluoSpheres^TM链亲合素标记的微球以1：4的寡核苷酸与珠子的比例在RT温育30分钟，使得每个生物素化的寡核苷酸可能与至少一个珠子结合。将FC和RC以1：2的比例在RT合并1小时。将所述溶液装载到Illumina MiSeq v2(50个循环)芯片上并在37℃温育30分钟，以允许FC和RC杂交到芯片中的P7接头。成像系统是带有20X Nikon物镜(NA＝0.75)的广视野直立式荧光显微镜。从卡盒中取出芯片的玻璃片，并对芯片的外部上表面进行成像。将芯片内部的珠子用SPECTRA X LED光引擎在488nm处激发，并在515nm(使用520/35带通发射滤光片)和645nm(使用676/29nm带通发射滤光片)处收集发射的荧光信号。图像使用Andor EMCCD相机，以16微米像素尺寸和2秒的曝光时间采集。

光学条形码解卷积

在载片上重复这一系列步骤后，通过共定位光学条形码并产生肽序列计算推导出每一轮的连续N-端氨基酸的身份。一旦肽序列产生后，将它们针对生物体蛋白质组进行比较，用于蛋白质鉴定和定量。

结果

单分子成像

在探针温育和成像的每次迭代中，在芯片上的已知位置(即指定的坐标(X,Y))处的单一肽分子产生空间上交叠的荧光信号(图58A)，它们可以通过独立的通道检测(图58B)。

初步数据显示，单寡核苷酸成像可以使用广视野荧光显微术来实现。由于每个生物素化的寡核苷酸与至少一个链亲合素珠子结合，因此每个荧光斑点代表至少一个珠子(图59)。在每个生物素化的寡核苷酸被结合到一簇珠子的情况下，斑点显得更大或者比相同尺寸的斑点更亮。将未结合寡核苷酸的链亲合素珠子在玻璃上成像作为对照(图58)。在所述芯片和测序芯片上的荧光珠子之间观察到的斑点的尺寸的相似性表明在测序芯片上观察到的斑点是单分子。图60B示出了图像快照中所有荧光斑点的强度分布。每10,000个灰度计数的局部最大值(在通道1的情况下：488nm激发和645nm发射，图60B)可用于区分具有各种不同峰强度的斑点。例如，图60B中的第一个间隔(灰度计数从0-10,000个灰度计数)表明只有一个链亲合素珠子与一个生物素化的寡核苷酸结合。第二或第三个间隔表明一簇(两个或三个)链亲合素珠子结合到一个生物素化的寡核苷酸。来自于尺寸比较分析和强度分布的数据表明检测到单个寡核苷酸分子。

荧光信号解卷积成适体身份

将合并了一轮的每次迭代的每个通道中的荧光信号的荧光特征针对每个独特适体的已知光学条形码进行比较，由此在针对每个前缀的每个适体的结合事件的概率分布的基础上推导结合的N-端前缀的可能身份(图58C)。

适体身份到蛋白质序列

对于芯片上已知位置处的每个单一肽分子来说，使用来自于每一轮的N-端前缀调用来计算推导固定在(X,Y)处的肽的可能的氨基酸序列。如果与记录到的适体的ssDNA结合区相关的N-端前缀交叠，使得一轮的第二个氨基酸与后一轮的第一个氨基酸相同，则计算推导的肽序列具有更大可信度(图58D)。

全蛋白质的蛋白质测序

在支架中的一系列通过测定推导的不连续肽序列中，通过拼接交叠的序列将连续的肽序列连接在一起，以产生全长蛋白质的序列。将所述序列针对蛋白质组图谱作图，以鉴定样品中的已知蛋白质，例如精氨酸加压素(图58E)。从与独特蛋白质/肽相关的推导出的肽序列的数目，来计算样品中该蛋白质/肽的相对定量。

实施例6—多重化实验

试剂

适体文库购自TriLink Biotechnologies，所有其他寡核苷酸购自IDT。肽寡核苷酸偶联物从Genscript订购。所有自动化程序在Agilent Bravo NGS工作站上进行。所有DNA定量使用dsDNA和/或ssDNA高灵敏度Qubit荧光定量测定(Thermofisher)获得。使用的所有水均为Ambion^TM无核酸酶水。

方法

培育

N40适体文库由两侧带有定制引物区的40个随机碱基构成。这些初始文库(TTGACTAGTACATGACCACTTGANNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNCACATCAGACTGGACGACAGAA(SEQ ID NO：99))的等分试样从TriLink订购。将来自于该初始文库的10¹²个序列的样品(～48ng)使用Herculase II融合DNA聚合酶(Agilent Technologies)在288个各50微升的反应中扩增，并在Bravo自动化液体操作平台(Agilent)上使用Mag-Bind TotalPureNGS珠子进行SPRI纯化。用于这个和所有后续PCR反应(除了NGS制备之外)的扩增条件如下：在95℃初始变性5分钟，然后是13个95℃变性30秒、55℃退火30秒和72℃延伸30秒的扩增循环，最后在72℃延伸5分钟。

消化

通过使用λ核酸外切酶(NEB)的酶消化将扩增的文库转变成单链DNA(ssDNA)，并通过自动珠子清洁进行纯化。ssDNA消化完成在生物分析仪2100(Agilent)上使用小RNA试剂盒(Agilent)来定性，并且浓度在清洁后通过ssDNA Qubit测定法(Thermofisher)来定量。

肽-寡核苷酸构建物

肽-寡核苷酸构建物由Genscript合成(完整构建物：(N-端)-NNNNNNNNN-Cys(SEQID NO：100)(C-端)-3’ATCCCTTCTCTTCCTGTATACTANNNNNNGCACGTAGATTC 5’磷酸酯(SEQ IDNO：101))。将10-mer肽(除了为11-mer的GnRH和为9-mer的精氨酸加压素之外)的C-端附连到41个核苷酸的寡核苷酸的3'末端。所述肽的除了最后一个之外的所有氨基酸残基源自于天然存在的肽(例如GnRH、缓激肽和精氨酸加压素)或合成肽设计，并且保留N-端残基用于半胱氨酸，以促进肽附连到所述寡核苷酸。所述41个核苷酸(nt)的寡核苷酸的特点在于3'末端处的9个核苷酸的桥结合区、3nt间隔物、与肽独特地相关的6nt DNA条形码和5'末端处的23nt引物。

温育

在与肽温育之前，将SsDNA池加热至95℃5分钟，然后在冰上快速冷却。对于多重化的第一轮和第二轮中的理想实验条件来说，将166.62pmol(4650ng)折叠的适体添加到18.51pmol的肽-寡核苷酸构建物(最终严紧性为1:10的靶：DNA)。在每个单独实验中根据可用于温育的ssDNA的量将这些数字按比例缩放。对于第3轮和第4轮来说，将严紧性提高到1:25。最终的缓冲液从10X PBS(Sigma-Aldrich)、TWEEN20(Sigma Aldrich)和HiFi Taq连接酶缓冲液(NEB)制备，以得到总体积为400ul的最终温育溶液，浓度为1X PBS、1X HiFi Taq连接酶缓冲液和0.025％TWEEN20。允许所述肽-寡核苷酸构建物和适体在RT和旋转下结合2小时。

连接

向400ul适体和肽-寡核苷酸构建物的混合物添加HiFi Taq连接酶(NEB)和18-merDNA桥(GCAUCUAAGUUCUGUCGU(SEQ ID NO：102))，使得每50ul温育溶液含有1ul HiFi Taq并且18-mer桥的终浓度为100nmol。连接在25℃进行30分钟。然后通过添加USER酶(NEB)和10Xcutsmart并将溶液在37℃温育15分钟，将桥降解。

与生物素温育

以与肽-寡核苷酸构建物等摩尔的比例向反应添加与肽寡核苷酸构建物的5'-ATCATATGTCCTTCTCTTCCCTA-3'(SEQ ID NO：104)区域杂交的生物素化的寡核苷酸(/5Biosg/TAGGGAAGAGAAGGACATATGAT-3'(SEQ ID NO：103))。将所述反应在旋转下温育30分钟。

链亲合素-生物素下拉

将链亲合素C1珠子(Invitrogen)以存在的每51.02pmol肽83.33ug的量与所述溶液温育30分钟。在Bravo上使用自动清洗方案收集珠子结合的肽适体构建物。将所述多重化反应在磁性板上温育2分钟。吸出含有未结合的适体的上清液并将珠子用SELEX缓冲液清洗两次，然后用1X PBS最后清洗。在所述方案结束时吸出所述1X PBS。

珠子上的PCR

在自动清洗方案完成后，立即向珠子添加50ul PCR主混合物溶液。使用引物5'-TAGGGAAGAGAAGGACATATGAT-3'(SEQ ID NO：105)和TTGACTAGTACATGACCACTTGA-3'(SEQ IDNO：106)扩增126nt的构建物(5'TTGACTAGTACATGACCACTTGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCACATCAGACTGGACGACAGAACTTAGATGCACGNNNNNNATCATATGTCCTTCTCTTCCCTA3'(SEQ ID NO：107))。

NGS制备

取10ng SPRI纯化的珠子上的PCR的样品用于NGS制备。从这些样品的测序鉴定到的每个适体具有假设它们在溶液中所结合到的肽的6bp条形码。Illumina测序所需的P5和P7接头通过使用定制NGS引物(5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGCGTGCGTGCTTCTGTCGTCCAGTCTGATGTG-3'(SEQ ID NO：108)和5'-AATGATACGGCGACCACCGAGATCTACACNNNNNNGCATGCAGCCGGTTGACTAGTACATGACCACTTGA-3'(SEQ ID NO：109))的PCR并入。用于这些PCR反应的扩增条件如下：在95℃初始变性5分钟，然后是10个95℃变性30秒、65℃退火30秒和72℃延伸30秒的扩增循环，最后在72℃延伸5分钟。将最终的NGS文库SPRI纯化，合并，并通过PippinHT(Sage Science)清洁。

阈值PCR/嵌套PCR

对于每个多重化反应来说，使用5'-T*A*G*G*G*A*AGAGAAGGACATATGAT-3'(SEQ IDNO：110)和/5Phos'/-TTGACTAGTACATGACCACTTGA-3'(SEQ ID NO：111))将4.08ng SPRI纯化的产物在24个50ul PCR反应中扩增，其中*指示被修饰的核苷酸，使得磷酸酯骨架中的氧原子被替换成硫代磷酸酯键中的硫原子，这使序列对核酸酶消化更具抗性。这个嵌套PCR的终产物是与原始的N40文库匹配的86-bp扩增子。它可以通过酶消化转变成ssDNA，并用于另一轮多重化。

结果

得到的数据提供了关于在同一实验中适体如何偏好性地结合到可选靶的信息。目前，通过多重化已同时评估了多达6个靶。

在给定的多重化实验中，靶特异性序列对它们的相关靶显示出选择性结合行为(图61)。分析将选择性计算为在第4轮时针对所需靶的读出除以针对所有靶的读出。每个靶(GNRH、NC2、NC3、T1、Vaso)的排名前5的序列对它们的目标靶显示出0.500至0.924的选择性，对任一个非目标靶表现出不超过0.250的选择性。

在多重化实验中，靶之间存在显著的渗出，不存在仅用单一靶鉴定到的适体(尽管第4轮适体在高达58.3％的时间用精氨酸加压素鉴定到，在50％的时间用GnRH鉴定到，并且在高达83.3％的时间用靶1_NC2鉴定到)。由于所述6个靶中的3个具有相似序列的肽(靶1：(N-端)-YQNTSQNTS-Cys(C-端)(SEQ ID NO：112)；靶1_NC2：(N-端)-KQNTYQNTS-Cys(C-端)(SEQ ID NO：113)；靶1_NC3：(N-端)-QNTSYQNTS-Cys(C-端)(SEQ ID NO：114))，因此它们可以下拉相同的适体并不令人吃惊(图62)。

实施例7—Turducken实验

试剂

用于RNA结合蛋白和RNA序列的表达的构建物使用分子生物学的标准工具和方法例如PCR扩增、限制性消化、Infusion组装或连接来组装。感兴趣的基因或编码RNA发夹的DNA序列作为基因组块订购或通过PCR组装。通过PCR扩增的所有区域在最终的细菌克隆中通过Sanger测序来验证。用于RNA结合蛋白和RNA两者的表达构建物的克隆顺序进行，首先插入编码RNA结合蛋白的基因，然后将这些载体限制性消化并插入编码RNA发夹的DNA片段，以产生表达所述RBP和RNA两者的载体。实验使用带有用于亲和纯化的9xHis基序标签的MS2外壳蛋白(dMS2)的串联融合体进行，所述融合体与或不与Emerald GFP(EmGFP)分子融合。MS2结合位点含有U至C的突变，这提高了RNA-蛋白质相互作用的亲和性。对于细菌表达来说，使用Infusion(Takara)克隆将dMS2-EmGFP或dMS2克隆到pRSFDuet1载体中T7启动子的控制之下，并转化到NEB Turbo细胞中进行质粒扩增。使用标准的小量制备试剂盒(Zymo或Thermo)从NEB Turbo细胞纯化质粒并进行序列验证。使用的所有水均为Ambion^TM无核酸酶水。

方法

转化

为了在细菌中过表达蛋白质，将带有dMS2-EmGFP或dMS2的质粒转化到来自于NEB的T7 Express lysY/Iq大肠杆菌感受态细胞中，并在卡那霉素抗生素选择板(50ug/ml)上铺板，在37℃过夜。

蛋白质表达

将单菌落重悬浮在5ml含有50ug/ml卡那霉素的LB液体培养基中，并在37℃下振摇温育直至OD600达到0.4-0.8，以产生起始培养物。使用50-500ul起始培养物接种5ml含有50ug/ml卡那霉素的新鲜LB培养基，并通过添加0.1-1mM IPTG，在22-27℃振摇过夜或在37℃振摇3-5小时来诱导蛋白质生产。

蛋白质分离

在蛋白质诱导后，通过以3,000-5,000g离心5分钟将细胞沉积，用1ml冰冷的PBS清洗一次，并重悬浮在200-1000ul增补有Halt蛋白酶抑制剂混合物的Y-PER加可透析酵母蛋白提取试剂中。按照制造商的推荐，用细胞沉积物的重量决定添加的Y-PER试剂的体积。将所述混合物在室温轻柔搅拌20分钟，并通过以14,000×g离心10分钟将可溶性蛋白质与细胞碎片分离开。

取出含有可溶性细胞蛋白的上清液，通过SDS-PAGE和考马斯染色或BCA测定进行分析。通过Dynabeads^TMHis-Tag分离和下拉试剂盒，使用制造商的方案进一步分离dMS2或dMS2-EmGFP。简单来说，将来自于5-ml液体培养物的裂解液与100ul Dynabeads在700-1400ul的终体积中温育，其中使用结合/清洗缓冲液(50mM磷酸钠，pH 8.0，300mM NaCl，0.01％Tween-20)来调整裂解液体积。在温育5-10分钟后，将珠子用300-600ul结合/清洗缓冲液清洗4次，其间在每次清洗后舍弃上清液并将珠子充分重悬浮。

为了洗脱蛋白质，在最终清洗后将珠子在滚筒上与100-200ul含有300mM咪唑的结合/清洗缓冲液温育10分钟。使用10kDa Amicon Ultra-0.5装置将洗脱的蛋白质交换到PBS中并浓缩至～1mg/ml。纯化的蛋白质使用Pierce BCA蛋白质测定试剂盒或用SimplyBlueSafeStain染色的SDS-PAGE凝胶来定量。

结合验证

dMS2-EmGFP和dMS2与MS2 RNA的结合通过电泳迁移率变动分析(EMSA)来验证。

产物定量

使用TranscriptAid T7高产率转录试剂盒通过体外转录产生含有MS2结合位点的～350-nt长的RNA，使用Qiagen RNeasy小量试剂盒纯化，并使用Nanodrop定量。

产物身份验证

正确产物的存在通过纯化后的琼脂糖凝胶电泳来验证。将RNA在TE缓冲液中稀释到1-10uM的终浓度并储存在-80℃下。在结合实验之前，将RNA加热至70-80℃5分钟，并在冰上快速冷却5分钟。通过将1-3nM RNA与浓度逐渐提高的蛋白质(0-200nM)在80mM KCl、10mMMgCl₂、100mM Hepes、pH 7.5(20ul终体积)中在室温温育30-60min，进行电泳迁移率变动分析。向所有结合反应添加SUPERase RNA酶抑制剂。RNA和RNA-蛋白质复合体使用Novex 4-12％Tris-甘氨酸凝胶，在Novex Tris-甘氨酸非变性运行缓冲液中通过非变性PAGE来分离。RNA使用SYBR绿色核酸染色剂染色，并使用E-Gel成像仪对凝胶成像。

结果

表达验证

SDS-PAGE证实了变性的使用抗His亲和下拉法纯化的肽或蛋白质具有为dMS-EmGFP和dMS2预计的尺寸，表明dMS-EmGFP和dMS2两者均被表达。包含BSA作为标准品(图63)。

结合验证

EMSA证实了dMS2-EmGFP融合蛋白与～2nM含有MS2外壳蛋白结合位点的RNA结合(图64)。

产物验证

EMSA证实了dMS2蛋白质(不含EmGFP)与～2nM含有MS2外壳蛋白结合位点的RNA结合，验证了所述蛋白质的身份。(图65)。

实施例8—LEGO实验

试剂

双链DNA引物(TriLink正向：TAGGGAAGAGAAGGACATAT GAT(SEQ ID NO：115)；带有LEGO 4的TriLink反向：GCTCTACAGTA TTGACTAGTACATGACCACTTGA(SEQ ID NO：116))和LEGO块(具有5’磷酸化的单碱基对突出部的10-mer)从IDT获得。所述LEGO序列是：

·LEGO 1：AATGCTGAGC(SEQ ID NO：117)

·LEGO 2：CACTACAGCC(SEQ ID NO：118)

·LEGO 3：TAGCACTGAG(SEQ ID NO：119)

·带有TriLink反向引物的LEGO 4：GCTCTACAGTATTGACTAG TACATGACCACTTGA(SEQID NO：120)

方法

连接反应

初始连接反应使用2ul 2.5uM TriLink正向dsDNA引物、2ul 2.5uM初始dsDNALEGO块(LEGO 1)、2ul 10X CutSmart缓冲液(NEB)、5ul平端/TA连接酶主混合物(NEB)、1uL2mM ATP和10uL水，在25℃(在热循环仪上)进行15分钟。通过向所述初始反应添加2uL2.5uM的LEGO 2和5ul平端/TA连接酶MM并允许它在25℃温育15min，将后续的LEGO块连接到所述延长的产物上。将这个过程再重复两次，直至添加了带有LEGO 4的TriLink反向dsDNA引物。

后处理和测序

使用在Bravo自动液体操作平台(Agilent)上运行的清洁法收集连接产物，PCR扩增，然后用相同的Bravo方案再次清洁。将所述清洁的PCR产物进行NGS制备，以便用于使用定制引物进行测序。将使用PippinHT自动凝胶提取系统对所述NGS制备的样品进行尺寸选择，选出177-bp长的产物。使用NextSeq V2.5化学进行40x8x6x38(读出1xi7xi5x读出2)读出。

结果

测序结果证实，使用顺序连接和独特的单碱基突出部，可以指导10-mer以～80％的效率组装成目标40-mer序列(在每个末端上带有一个23bp引物)(图66和67)。这些结果表明产生在各个不同位置中具有离散序列的多样化池是可行的。

参考文献

Blind,M.,&Blank,M.(2015)，适体选择技术和最新进展(Aptamer SelectionTechnology and Recent Advances)，Molecular Therapy-Nucleic Acids,4.doi:10.1038/mtna.2014.74

Bergman,T.,Cederlund,E.,&amp；

H.(2001)，化学C-端蛋白质序列分析：改善的灵敏度、降解长度、脯氨酸通过以及与Edman降解的组合(Chemical C-TerminalProtein Sequence Analysis:Improved Sensitivity,Length of Degradation,ProlinePassage,and Combination with Edman Degradation)，Analytical Biochemistry,290(1),74-82.doi:10.1006/abio.2000.4922

Bouchard,P.,Hutabarat,R.,&Thompson,K.(2010)，治疗性适体的发现和开发(Discovery and Development of Therapeutic Aptamers)，Annual Review ofPharmacology and Toxicology,50(1),237-257.doi:10.1146/annurev.pharmtox.010909.105547

Casagranda,F.,&amp；Wilshire,J.F.(1994)，肽的C-端测序：硫代氰酸酯降解方法(C-Terminal Sequencing of Peptides:The Thiocyanate Degradation Method)，Basic Protein and Peptide Protocols,335-350.doi:10.1385/0-89603-268-x:335

Chelsea K.L.Gordon,Diana Wu,Trevor A.Feagin,Anusha Pusuluri,AndrewT.Csordas,Michael Eisenstein,Craig J.Hawker,Jia Niu,H.Tom Soh.(2019)，点击-PD：一种用于碱基修饰的适体发现的定量方法(Click-PD:A Quantitative Method for Base-Modified Aptamer Discovery)，bioRxiv 626572；doi:https://doi.org/10.1101/626572

Chen,M.,Yu,Y.,Jiang,F.,Zhou,J.,Li,Y.,Liang,C.,...Zhang,G.(2016)，细胞SELEX技术的开发及其在癌症诊断和治疗中的应用(Development of Cell-SELEXTechnology and Its Application in Cancer Diagnosis and Therapy)，InternationalJournal of Molecular Sciences,17(12),2079.doi:10.3390/ijms17122079

de Sousa Abreu,R.D.,Penalva,L.O.,Marcotte,E.M.,&Vogel,C.(2009)，蛋白质和mRNA表达水平的全局特征(Global signatures of protein and mRNA expressionlevels)，Molecular BioSystems.doi:10.1039/b908315d

Diatchenko,L.,Lau,Y.F.,Campbell,A.P.,Chenchik,A.,Moqadam,F.,Huang,B.,...Siebert,P.D.(1996)，抑制消减杂交：一种用于产生差异调控的或组织特异性cDNA探针和文库的方法(Suppression subtractive hybridization:A method forgenerating differentially regulated or tissue-specific cDNA probes andlibraries.)，Proceedings of the National Academy of Sciences,93(12),6025-6030.doi:10.1073/pnas.93.12.6025

Fujishima,K.,Venter,C.,Wang,K.,Ferreira,R.,&Rothschild,L.J.(2015)，用于产生定制随机文库的基于突出部的DNA组块改组方法(An overhang-based DNA blockshuffling method for creating a customized random library)，ScientificReports,5(1).doi:10.1038/srep09740

Hoon,S.,Zhou,B.,Janda,K.,Brenner,S.,&amp；Scolnick,J.(2011)，通过高通量测序和信息分析进行的适体选择(Aptamer selection by high-throughput sequencingand informatic analysis)，BioTechniques,51(6).doi:10.2144/000113786

Horspool,D.R.,Coope,R.J.,&Holt,R.A.(2010)，使用T4 DNA连接酶高效组装极短寡核苷酸(Efficient assembly of very short oligonucleotides using T4 DNALigase)，BMC Research Notes,3(1),291.doi:10.1186/1756-0500-3-291

Jia,B.,&Jeon,C.O.(2016)，大肠杆菌中的高通量重组蛋白质表达：现状和未来展望(High-throughput recombinant protein expression in Escherichia coli:Currentstatus and future perspectives)，Open Biology,6(8),160196.doi:10.1098/rsob.160196

Little,J.W.(1967)，由λ噬菌体诱导的核酸外切酶。II.酶反应的本质(Anexonuclease induced by bacteriophage lambda.II.Nature of the enzymaticreaction)，J.Biol.Chem.1967；242:679–686.

Loakes,D.,&Brown,D.M.(1994)，5-硝基吲哚作为通用碱基类似物(5-Nitroindole as an universal base analogue)，Nucleic acids research,22(20),4039–4043.https://doi.org/10.1093/nar/22.20.4039

Mckeague,M.,&Derosa,M.C.(2012)，小分子适体开发的挑战和机遇(Challengesand Opportunities for Small Molecule Aptamer Development)，Journal of NucleicAcids,2012,1-20.doi:10.1155/2012/748913

Miteva,Y.V.,Budayeva,H.G.,&Cristea,I.M.(2012)，用于蛋白质-蛋白质相互作用的发现、定量和确认的基于蛋白质组学的方法(Proteomics-Based Methods forDiscovery,Quantification,and Validation of Protein–ProteinInteractions.Analytical Chemistry)，Analytical Chemistry,85(2),749-768.doi:10.1021/ac3033257

Mitsis,P.G.,&Kwagh,J.G.(1999)，λ核酸外切酶与DNA的末端的相互作用的表征(Characterization of the interaction of lambda exonuclease with the ends ofDNA)，Nucleic acids research,27(15),3057–3063.https://doi.org/10.1093/nar/27.15.3057

Pfeiffer,F.,Rosenthal,M.,Siegl,J.,Ewers,J.,&Mayer,G.(2017)，用于增强适体选择和性能的定制核酸文库(Customised nucleic acid libraries for enhancedaptamer selection and performance)，Current opinion in biotechnology,48,111-118

Schiess,R.,Wollscheid,B.,&Aebersold,R.(2008)，用于临床生物标志物发现的定向蛋白质组策略(Targeted proteomic strategy for clinical biomarkerdiscovery)，Molecular Oncology,3(1),33-44.doi:10.1016/j.molonc.2008.12.001

Tucker,W.O.,Shum,K.T.,&amp；Tanner,J.A.(2012)，G-四链体DNA适体及其配体：结构、功能和应用(G-quadruplex DNA Aptamers and their Ligands:Structure,Function and Application)，Current Pharmaceutical Design,18(14),2014-2026.doi:10.2174/138161212799958477

Tuerk,C.,&Gold,L.(1990)，通过指数富集进行配体的系统进化：针对噬菌体T4DNA聚合酶的RNA配体(Systematic evolution of ligands by exponential enrichment:RNA ligands to bacteriophage T4 DNA polymerase)，Science,249(4968),505-510.doi:10.1126/science.2200121

Vogel,C.,&Marcotte,E.M.(2012)，来自于蛋白质组学和转录组学分析的对蛋白质丰度调控的见解(Insights into the regulation of protein abundance fromproteomic and transcriptomic analyses)，Nature Reviews Genetics,13(4),227-232.doi:10.1038/nrg3185

Yates,J.R.,Ruse,C.I.,&Nakorchevsky,A.(2009)，通过质谱术进行的蛋白质组学：方法、进展和应用(Proteomics by Mass Spectrometry:Approaches,Advances,andApplications)，Annual Review of Biomedical Engineering,11(1),49-79.doi:10.1146/annurev-bioeng-061008-1249

Zhou,J.,&Rossi,J.(2016)，作为靶向治疗剂的适体：目前的潜力和挑战(Aptamers as targeted therapeutics:Current potential and challenges)，NatureReviews Drug Discovery,16(3),181-202.doi:10.1038/nrd.2016.199

应该理解，尽管在本文中已结合大量不同方面对方法和物质组合物进行了描述，但上面各个不同方面的描述旨在说明而不是限制所述方法和物质组合物的范围。其他的方面、优点和修改在权利要求书的范围之内。

公开了可用于所公开的方法和组合物、可以与它们联合使用、可用于制备它们或者是它们的产物的方法和组合物。这些和其他材料在本文中公开，并且应该理解这些方法和组合物的组合、子集、相互作用、组等也被公开。也就是说，尽管可能没有明确公开具体提及这些组合物和方法的各种不同的个体和集体组合和排列中的每一者，但本文具体设想并描述了每一者。例如，如果公开并讨论了特定物质组合物或特定方法并且讨论了许多组合物或方法，则所述组合物和方法的每一种组合和排列也被具体地设想，除非明确说明不是如此。同样地，它们的任何子集或组合也被具体设想和公开。

Claims

1.一种产生带条形码的多肽的方法，所述方法包括：

在每个细胞中引入约一个构建物的条件下将表达构建物转化到微生物细胞中，其中所述表达构建物包含的核酸编码：(a)包含所述多肽、纯化标签和核酸结合蛋白(naBP)的融合蛋白；和(b)被所述naBP识别的核酸序列和独特的核酸条形码；并且

将所述微生物在所述构建物被表达并且所述融合蛋白的naBP部分与naBP识别序列结合的条件下培养，从而产生带条形码的多肽。

2.根据权利要求1所述的方法，其中所述微生物细胞选自真核或原核细胞。

3.根据权利要求1或2所述的方法，其还包括纯化所述带条形码的多肽。

4.根据权利要求1-3中的任一项所述的方法，其中所述表达构建物包含任何拷贝数的与宿主生物体相容的复制原点。

5.根据权利要求1-4中的任一项所述的方法，其中表达由与宿主生物体相容的组成型、诱导型或阻遏型启动子的任何组合驱动。

6.根据权利要求1-5中的任一项所述的方法，其中所述系统的组分使用不同的启动子来表达。

7.根据权利要求1-6中的任一项所述的方法，其中所述系统的组分使用存在于所述表达构建物内的不同位置处的相同启动子来表达。

8.根据权利要求1-7中的任一项所述的方法，其中所述组分使用Gal 1,10-双向启动子、ADH1、GDS、TEF、CMV、EF1a、SV40、T7、lac或与宿主生物体相容的任何其他启动子和启动子组合来表达。

9.根据权利要求1-8中的任一项所述的方法，其中所述纯化步骤包括使用与编码的纯化标签对应的下拉法下拉所述带条形码的多肽。

10.根据权利要求1-9中的任一项所述的方法，其中所述免疫沉淀步骤包括用蛋白质纯化磁珠(例如抗His抗体、琼脂糖、镍等)下拉所述带条形码的多肽。

11.根据权利要求1-10中的任一项所述的方法，其还包括使用温和的洗脱缓冲液例如甘氨酸从所述珠子洗脱所述带条形码的多肽，以在不使RNA-蛋白质/肽结合变性的情况下释放出所述融合肽。

12.根据权利要求1-11中的任一项所述的方法，其中所述多肽包含一个或多个位点特异性蛋白酶切割位点，以便使用位点特异性蛋白酶(例如肠激酶、因子Xa、烟草蚀纹病毒蛋白酶、凝血酶)从抗亲和标签珠子释放出所述带条形码的多肽。

13.根据权利要求1-12中的任一项所述的方法，其中所述核酸序列包含限制性酶切割位点，以便使用限制性核酸内切酶从所述珠子释放出所述带条形码的多肽。

14.根据权利要求1-13中的任一项所述的方法，其中被核酸结合蛋白识别的核酸序列和所述核酸结合蛋白是MS2 RNA发夹或其变体和MS2噬菌体外壳蛋白或其突变体。

15.根据权利要求1-14中的任一项所述的方法，其中被核酸结合蛋白识别的核酸和所述核酸结合蛋白是boxB序列或其变体和噬菌体抗终止蛋白N(λN)。

16.根据权利要求1-15中的任一项所述的方法，其中在带条形码的多肽纯化之前将所述细胞用UV辐射照射。

17.根据权利要求1-16中的任一项所述的方法，其中将纯化的复合体用UV辐射照射。

18.一种带DNA条形码的多肽或蛋白质，其通过根据权利要求1-17中的任一项所述的方法来制造。

19.一种使用带荧光标签的适体对蛋白质或肽进行测序的方法，所述方法包括：

(a)提供附连有至少一个蛋白质或肽的固相支持物，其中所述至少一个蛋白质或肽通过核酸连接物附连到所述固相支持物，其中所述核酸连接物包含测序接头序列；

(b)将所述蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含独特光学特征；

(c)检测所述独特光学特征和所述独特光学特征的位置；

(d)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；

(e)将所述N-端氨基酸缩短的蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含肽结合性ssDNA区域和独特条形码序列，所述条形码序列包含指示第一次探针迭代和相关的肽结合性ssDNA区域的单个DNA条形码；

(f)检测所述独特光学特征和所述独特光学特征的位置；

(g)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；

(h)将步骤(b)-(g)重复多次，以构建光学条形码的位置链；

由此获得所述蛋白质或肽的序列。

20.一种使用与带荧光标签的探针互补的适体对蛋白质或肽进行测序的方法，所述方法包括：

(b)将所述蛋白质或肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述蛋白质或肽的至少一个N-端氨基酸的条件下温育，其中所述文库内的每个适体包含一系列与指示所述测序轮次和相关的肽结合性ssDNA区域的光学标记的核酸探针互补的一个或多个序列，并且其中所述探针杂交区域被杂交到保护性互补寡核苷酸；

(c)变性并洗掉所述保护性互补寡核苷酸；

(d)将结合的适体与互补于所述适体条形码尾部的特定区域的带荧光标签的寡核苷酸探针温育；

(e)检测所述独特光学特征和所述独特光学特征的位置；

(f)变性并洗掉结合的探针；

(g)将步骤(d)-(f)重复所需的迭代次数；

(h)从所述蛋白质或肽移除所述适体并移除所述N-端氨基酸，以产生N-端氨基酸缩短的蛋白质或肽；

(i)将步骤(b)-(h)重复多次，以构建光学条形码的位置链；

由此获得所述蛋白质或肽的序列。

21.一种使用根据权利要求19或20所述的蛋白质测序方法来鉴定新的生物标志物的方法，所述方法包括：

(a)提供来自于感兴趣的生物学样品和对照或比较生物学样品的蛋白质样品；

(b)任选地除去非常高浓度的已知蛋白质；

(c)执行根据权利要求19所述的方法的步骤(a)-(h)或根据权利要求20所述的步骤(a)-(i)；

(d)将与来自于对照样品的每种低表达蛋白质相关的光学条形码读出的数目与感兴趣的样品进行比较；

由此鉴定在对照样品与感兴趣的样品之间具有显著不同的相对表达水平的假设的生物标志物。

22.一种使用根据权利要求19或20所述的蛋白质测序方法来评估疾病状态、评估对治疗的反应、预测治疗反应或其组合的方法，其中所述疾病的一种或多种征兆是已知蛋白质标志物的异常表达水平，所述方法包括：

(a)提供来自于患者样品的蛋白质样品；

(b)任选地剥离非常高浓度的已知蛋白质；

(d)通过分析与已知蛋白质生物标志物相关的光学条形码读出的数目来确定已知生物标志物的相对量；

由此确定存在或不存在已知生物标志物的表达水平与标准值的偏离。

23.一种使用根据权利要求19或20所述的蛋白质测序方法来筛选潜在抗体的方法，所述方法包括：

(a)提供来自于已免疫接种和未免疫接种生物学样品的血浆样品；

(b)任选地剥离非常高浓度的已知蛋白质；

(c)任地分离免疫球蛋白；

(d)执行根据权利要求1所述的步骤(a)-(h)或根据权利要求20所述的步骤(a)-(i)；

(e)将与来自于未免疫接种样品的每种肽相关的光学条形码读出的数目与感兴趣的已免疫接种样品进行比较；

由此鉴定在未免疫接种样品与感兴趣的已免疫接种样品之间具有显著不同的相对表达水平的假设的抗体。

24.根据权利要求19或20所述的方法，其还包括在步骤(a)之前将所述蛋白质或肽片段化。

25.根据权利要求24所述的方法，其中所述片段化步骤包括用胰蛋白酶、另一种片段化酶或其组合将所述蛋白质或肽片段化。

26.根据权利要求19-25中的任一项所述的方法，其中所述蛋白质或肽的C-端末端被附连到固相支持物。

27.根据权利要求19-25中的任一项所述的方法，其中所述蛋白质或肽的C-端末端被附连到寡核苷酸尾部。

28.根据权利要求19-25中的任一项所述的方法，其中所述蛋白质或肽来自于生物学样品。

29.根据权利要求19-25中的任一项所述的方法，其中所述生物学样品选自血液、尿液、唾液、组织活检样品、痰液、粪便、单个细胞、环境样品、细菌拭子或含有肽或蛋白质的任何样品。

30.根据权利要求19-25中的任一项所述的方法，其中所述蛋白质或肽是全长蛋白质、肽片段或包含在复合体内的蛋白质或肽。

31.根据权利要求19-25中的任一项所述的方法，其中所述独特的标记物选自荧光团、染料、纳米镧系元素和量子点。

32.根据权利要求20-25中的任一项所述的方法，其中所述光学标记的探针是与条形码序列互补的寡核苷酸。

33.根据权利要求20-25中的任一项所述的方法，其中在探针温育的同一次迭代中将一种或多种颜色的一种或多种寡核苷酸探针杂交到所述适体条形码尾部。

34.根据权利要求19-25中的任一项所述的方法，其中所述检测步骤使用光学成像、全内反射荧光(TIRF)、超分辨率显微镜、结构光学显微镜、广视野显微镜或共聚焦显微镜来进行。

35.根据权利要求19-25中的任一项所述的方法，其中所述适体文库包含在与适体结合无关的区域中部分为dsDNA的适体。

36.根据权利要求19-25中的任一项所述的方法，其中将所述dsDNA变性并将所述保护性互补寡核苷酸洗掉。

37.根据权利要求19所述的方法，其中所述移除适体的步骤包括用限制性酶切割所述适体。

38.根据权利要求19-25中的任一项所述的方法，其中所述移除N-端氨基酸的步骤包括所述蛋白质或肽的Edman降解、用一种或多种氨肽酶、热、pH或其组合切割所述蛋白质或肽。

39.根据权利要求19-25中的任一项所述的方法，其中被适体文库中的成员识别的氨基酸是天然氨基酸、未修饰的氨基酸和修饰的氨基酸。

40.根据权利要求19-25中的任一项所述的方法，其中所述适体文库使用RCHT-SELEX或NTTA-SELEX方法来产生。

41.根据权利要求19-25中的任一项所述的方法，其中所述适体对一个N-端氨基酸表现出结合特异性。

42.根据权利要求19-25中的任一项所述的方法，其中所述适体对两个或更多个N-端氨基酸表现出结合特异性。

43.一种产生对序列内容具有高度控制的dsDNA寡核苷酸的方法，所述方法包括：

(a)使用dsDNA连接酶将在序列延伸方向上具有5’磷酸化的单核苷酸突出部的dsDNA第一位lego块连接到在每个末端处均具有5’磷酸化的单核苷酸突出部的dsDNA第二位lego块，所述第二位lego块的一个突出部与所述第一位lego块的突出部互补，另一个突出部不互补，从而在所述第二位lego块上在序列延伸方向上留下一个5’磷酸化的单核苷酸突出部；

(b)使用dsDNA连接酶将所述dsDNA第二位lego块连接到在每个末端处均具有5’磷酸化的一个或多个核苷酸突出部的dsDNA第三位lego块，所述第三位lego块的一个突出部与所述第二位lego块的突出部互补，另一个突出部不互补，从而在所述第三位lego块上在序列延伸方向上留下一个5’磷酸化的单核苷酸突出部；

(c)将步骤(a)-(b)重复多次，直至序列构建物比所需长度短一个lego块；以及

(d)将所述序列构建物连接到在序列延伸的相反方向上具有5’磷酸化的单核苷酸突出部的dsDNA最后位lego块。

44.根据权利要求43所述的方法，其中所述lego块的3’或5’修饰与所使用的dsDNA连接酶相容。

45.根据权利要求43或44所述的方法，其中为了产生随机文库，在需要多样性的特定位置处使用lego块的非均质池。

46.根据权利要求43-45中的任一项所述的方法，其中所述双链lego块使用T4 DNA连接酶或与所选连接酶利用的3’或5’末端修饰相容的任何其他dsDNA连接酶进行酶法连接。

47.根据权利要求43-46中的任一项所述的方法，其中所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。

48.根据权利要求43-47中的任一项所述的方法，其中所述第一位dsDNAlego块是PCR引物。

49.根据权利要求43-48中的任一项所述的方法，其中所述最后位dsDNAlego块是PCR引物。

50.根据权利要求43-49中的任一项所述的方法，其中将所述dsDNA产物PCR扩增以产生具有平行样的文库。

51.根据权利要求43-50中的任一项所述的方法，其中将PCR扩增后的dsDNA产物消化，以产生ssDNA文库。

52.一种产生对序列内容具有高度控制的ssDNA寡核苷酸的方法，所述方法包括：

(a)将ssDNA第一位lego块的3’末端连接到第二位ssDNA lego块的5’末端，其中参与所述连接的末端之一被磷酸化；

(b)将所述ssDNA第二位lego块的3’末端连接到第三位ssDNA lego块的5’末端，其中参与所述连接的末端之一被磷酸化；

(d)将所述序列构建物连接到最后位lego块。

53.根据权利要求52所述的方法，其中所述lego块的3’或5’修饰与所使用的ssDNA或RNA连接酶相容。

54.根据权利要求52或53所述的方法，其中单链lego块使用RtcB ssRNA连接酶、CircLigase或与所选连接酶所需的3’或5’末端修饰相容的任何其他ssDNA或RNA连接酶进行酶法连接。

55.根据权利要求52-54中的任一项所述的方法，其中所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。

56.根据权利要求52-55中的任一项所述的方法，其中所述第一位ssDNAlego块是PCR引物。

57.根据权利要求52-56中的任一项所述的方法，其中所述最后位ssDNAlego块是PCR引物。

58.根据权利要求52-57中的任一项所述的方法，其中将所述ssDNA产物PCR扩增以产生双链平行样的文库。

59.根据权利要求52-58中的任一项所述的方法，其中将PCR扩增后的dsDNA产物消化以产生ssDNA文库。

60.一种产生对序列内容具有高度控制的RNA寡核苷酸的方法，所述方法包括：

(a)将RNA第一位lego块的3’末端连接到第二位RNAlego块的5’末端，其中参与所述连接的末端之一被磷酸化；

(b)将所述RNA第二位lego块的3’末端连接到第三位RNAlego块的5’末端，其中参与所述连接的末端之一被磷酸化；

(d)将所述序列构建物连接到最后位lego块。

61.根据权利要求60所述的方法，其中所述lego块的3’或5’修饰与所述RNA连接酶相容。

62.根据权利要求60或61所述的方法，其中RNAlego块使用与所选连接酶所需的3’或5’末端修饰相容的任何RNA连接酶进行酶法连接。

63.根据权利要求60-62中的任一项所述的方法，其中所述连接反应在溶液中、珠子上、固相支持物上、凝胶中等进行。

64.根据权利要求60-63中的任一项所述的方法，其中所述第一位RNAlego块是PCR引物。

65.根据权利要求60-64中的任一项所述的方法，其中所述最后位RNAlego块是PCR引物。

66.根据权利要求60-65中的任一项所述的方法，其中为了产生ssDNA文库，将所述RNA产物反转录成cDNA，用DNA聚合酶合成第二链，将所述dsDNA产物PCR扩增，并消化反义链。

67.一种寡核苷酸池，其通过根据权利要求43-66中的任一项所述的方法来制造。

68.一种对肽进行测序的方法，所述方法包括：

(a)将所述肽与对至少一个N-端氨基酸表现出结合特异性的DNA适体的文库在其中一个或多个适体特异性结合到所述肽的至少一个N-端氨基酸的条件下温育，其中所述文库中的每个适体均包含肽结合性ssDNA区域和指示第一结合轮次和相关的肽结合性ssDNA区域的独特条形码序列；

(b)将结合到肽的N-端的DNA适体连接到近端DNA条形码构建物上；

(c)从所述DNA适体移除肽结合序列，从而留下共价附连到所述DNA条形码构建物的所述DNA适体的条形码；

(d)从所述肽移除所述N-端氨基酸，产生N-端氨基酸缩短的肽；

(e)将所述N-端氨基酸缩短的肽与对至少一个N-端氨基酸表现出结合特异性的适体的文库在其中一个或多个适体特异性结合到所述N-端氨基酸缩短的肽的至少一个N-端氨基酸的条件下温育，其中所述文库中的每个适体均包含肽结合性ssDNA区域和指示第二结合轮次和相关的肽结合性ssDNA区域的独特条形码序列；

(f)将结合到肽的N-端的DNA适体连接到所述近端DNA条形码构建物上；

(g)从所述DNA适体移除肽结合序列，从而留下共价附连到所述DNA条形码构建物的所述DNA适体的条形码；

(h)从所述N-端氨基酸缩短的肽移除所述N-端氨基酸；

(i)将步骤(a)-(d)重复多次，以构建对应于所述肽中的顺序N-端氨基酸的位置条形码的链；以及

(j)对所述位置条形码的链进行测序，由此获得所述肽的序列。

69.根据权利要求68所述的方法，其中所述肽来自于合成样品、生物学样品或其组合。

70.根据权利要求68或69所述的方法，其中所述生物学样品选自血液、尿液、唾液、组织活检样品、痰液、粪便、单个细胞、环境样品和细菌拭子。

71.根据权利要求68-70中的任一项所述的方法，其中所述肽是全长蛋白质或包含在复合体中的肽。

72.根据权利要求68-71中的任一项所述的方法，其还包括在步骤(a)之前将所述肽片段化。

73.根据权利要求72所述的方法，其中所述片段化步骤包括将所述肽暴露到片段化酶。

74.根据权利要求68-73中的任一项所述的方法，其中所述肽的C-端末端被附连到固相支持物。

75.根据权利要求68-74中的任一项所述的方法，其中所述肽的C-端末端被附连到寡核苷酸尾部。

76.根据权利要求68中的任一项所述的方法，其中从所述DNA适体移除肽结合序列的步骤包括用限制性酶切割所述适体。

77.根据权利要求68-76中的任一项所述的方法，其中所述肽结合序列从所述DNA适体的移除由氢键破坏介导。

78.根据权利要求68-77中的任一项所述的方法，其中移除所述N-端氨基酸的步骤包括所述肽的Edman降解、用一种或多种氨肽酶、热、pH或其组合切割所述肽。

79.根据权利要求68-78中的任一项所述的方法，其中所述测序步骤使用下一代测序(NGS)平台。

80.一种鉴定新的生物标志物的方法，所述方法包括：

(b)任选地除去以高浓度存在的蛋白质；

(c)执行根据权利要求1所述的方法的步骤(a)-(j)；

(d)进行sup-diff以除去与高表达蛋白质或污染物相关的高浓度DNA条形码构建物序列，使得与低表达蛋白质相关的DNA条形码构建物相比于与高表达蛋白质相关的DNA条形码构建物的比率提高，从而产生比率调整过的DNA条形码；

(e)扩增所述比率调整过的DNA条形码；以及

(f)将与来自于对照样品的每种低表达蛋白质相关的测序读出的数目与感兴趣的样品进行比较；

从而鉴定在所述对照样品与感兴趣的生物学样品之间具有不同相对表达水平的生物标志物。

81.一种评估疾病状态、评估对治疗疾病的反应、预测对治疗疾病的反应或其组合的方法，其中所述疾病包含至少一种已知蛋白质生物标志物的异常表达水平，所述方法包括：

(a)提供来自于患者样品的蛋白质样品；

(b)任选地剥离以高浓度存在的蛋白质；

(c)执行根据权利要求1所述的方法中的步骤(a)-(j)；

(e)扩增所述比率调整过的DNA条形码；

(f)分析与已知蛋白质生物标志物相关的测序读出的数目，以确定其相对量；

(g)确定存在或不存在已知蛋白质生物标志物的表达水平与一个或多个标准值的偏离；

从而评估所述疾病状态、评估对治疗疾病的反应、预测对治疗疾病的反应或其组合。

82.根据权利要求68-81中的任一项所述的方法，其中所述适体的文库使用RCHT-SELEX方法来产生。

83.根据权利要求68-82中的任一项所述的方法，其中所述适体文库中的每个适体均对一个N-端氨基酸表现出结合特异性。

84.根据权利要求68-83中的任一项所述的方法，其中所述适体文库中的每个适体均对两个或更多个N-端氨基酸表现出结合特异性。

85.根据权利要求68-84中的任一项所述的方法，其中指示所述适体的相关肽结合性ssDNA区域和结合轮次的独特条形码序列包含约6至约20个核苷酸。

86.根据权利要求68-85中的任一项所述的方法，其中所述适体文库中的每个适体均包含BCS相容性部分。

87.根据权利要求86所述的方法，其中每个适体的所述BCS相容性部分包含与所述适体互补的一个或多个DNA序列。

88.根据权利要求68-87中的任一项所述的方法，其中所述条形码序列包含指示所述肽或所述肽所源自的样品的独特条形码。

89.一种用于蛋白质或肽测序的制品，其包含：

DNA适体的文库，其中所述文库的每个成员均对至少一个N-端氨基酸表现出结合特异性。

90.根据权利要求89所述的制品，其中所述文库的每个成员还包含指示循环次数的共同序列。

91.根据权利要求89或90所述的制品，其中所述文库的每个成员还包含限制性位点。

92.根据权利要求89-91中的任一项所述的制品，其中所述文库的每个成员还包含至少一个用于连接、退火或其组合的序列。

93.一种鉴定多个结合物与多个结合靶之间的一个或多个结合事件的方法，所述方法包括：

(a)将多个已知结合靶与未知结合物的文库温育，其中一个或多个结合物特异性结合到一个或多个结合靶，其中所述文库中的每个结合物均包含靶结合物序列和指示相关结合物的独特条形码序列；

(b)将所述靶结合物序列的条形码序列连接到近端DNA条形码上，由此产生DNA条形码构建物；

(c)任选地移除所述靶结合物序列，从而留下附连到所述DNA条形码构建物的条形码序列，以便识别所述结合物的身份以及因此所述结合靶的身份；

(d)任选地重复步骤(b)-(c)；

(f)将测序接头连接到所述DNA条形码构建物上；以及

(g)对所述DNA条形码构建物进行测序；

从而鉴定多个结合物与多个结合靶之间的一个或多个结合事件。

94.根据权利要求93所述的方法，其中所述结合物文库选自适体、抗体和其他小分子结合物。

95.根据权利要求93或94所述的方法，其中所述多个结合靶选自肽、蛋白质和蛋白质复合体、脂类分子、病毒、超微细菌和无机分子。

96.根据权利要求93-95中的任一项所述的方法，其中所述结合物文库被固定化在固体基材上。

97.根据权利要求93-96中的任一项所述的方法，其中所述固体基材是玻璃。

98.根据权利要求93-97中的任一项所述的方法，其中将所述多个结合靶用DNA条形码尾部进行修饰。

99.根据权利要求93-98中的任一项所述的方法，其中所述多个结合靶在溶液中进行修饰。

100.根据权利要求93-99中的任一项所述的方法，其中当所述结合物文库是适体时，所述方法还包括将序列接头连接到所述结合物文库。

101.根据权利要求93-100中的任一项所述的方法，其中所述连接是酶法连接。

102.根据权利要求93-101中的任一项所述的方法，其中所述测序使用下一代测序(NGS)平台。

103.一种使用DNA适体文库筛选多个肽的方法，所述方法包括：

(a)将多个肽与DNA适体文库在其中所述适体文库的一个或多个成员特异性结合到所述多个肽中的一个或多个肽的条件下合并，其中所述适体文库的一个或多个成员对所述多个肽中的一个或多个肽表现出结合特异性，其中所述多个肽中的每个肽均包含第一DNA桥退火序列和独特的肽DNA条形码，其中所述适体文库中的每个适体均包含第二DNA桥退火序列；

(b)将所述多个带条形码的肽和DNA适体文库的组合与寡核苷酸桥温育，其中所述寡核苷酸桥的第一部分与所述适体的第二DNA桥退火序列互补，并且其中所述寡核苷酸桥的第二部分与所述肽的第一DNA桥退火序列互补；

(c)对于所述适体文库的特异性结合到所述多个肽中的肽的每个成员来说，将所述寡核苷酸桥连接到所述第一DNA桥退火序列和第二DNA桥退火序列；

(d)任选地，扩增所述适体文库的特异性结合到所述多个肽中的所述一个或多个肽的每个成员；

(e)任选地将步骤(a)-(d)重复多次；以及

(f)对所述肽DNA条形码进行测序；

从而从所述多个肽中鉴定所述一个或多个肽。

104.根据权利要求103所述的方法，其中所述多个肽在细胞中或来自于细胞。

105.根据权利要求104所述的方法，其中所述细胞是处理过的细胞或诱导过的细胞。

106.根据权利要求103-105中的任一项所述的方法，其中所述多个肽在生物学样品或环境样品中或来自于生物学样品或环境样品。

107.根据权利要求103-106中的任一项所述的方法，其中所述多个肽包含至少100个肽。

108.根据权利要求103-107中的任一项所述的方法，其中所述寡核苷酸桥的长度为约8个核苷酸至约30个核苷酸。

109.根据权利要求103-108中的任一项所述的方法，其中所述第一桥退火序列和第二桥退火序列的长度各自为约8个核苷酸至约30个核苷酸。

110.根据权利要求103-109中的任一项所述的方法，其中所述连接步骤是酶法连接。

111.根据权利要求103-110中的任一项所述的方法，其中所述扩增步骤包括进行PCR。

112.根据权利要求111所述的方法，其中所述PCR是嵌套PCR。

113.根据权利要求103-112中的任一项所述的方法，其中所述测序步骤使用下一代测序(NGS)平台。

114.根据权利要求103-113所述的方法，其还包括在步骤(d)之前任选地将所述肽与它们特异性结合的适体分开并纯化所述适体。

115.根据权利要求103-114中的任一项所述的方法，其中所述适体文库中的每个适体还包含独特的适体DNA条形码。

116.一种获得对靶具有亲和性和特异性的适体的方法，所述方法包括：

(a)提供多个适体；

(b)对所述多个适体进行负选择；

(c)任选地在所述多个适体中掺入对照寡核苷酸；

(d)任选地扩增所述多个适体；

(e)将所述多个适体与多个潜在靶在允许所述多个适体与所述多个潜在靶结合的条件下温育；

(f)任选地，将所述多个适体与至少一个无效靶在允许所述多个适体与所述至少一个无效靶结合的条件下温育；

(g)除去未结合的适体；

(h)对靶结合的适体进行测序；以及

(i)将步骤(a)-(h)重复多次；

从而获得对所述靶具有亲和性和特异性的适体。

117.根据权利要求116所述的方法，其中所述多个潜在靶是多肽、氨基酸、核酸、小分子、完整蛋白质或蛋白质复合体或细胞。

118.根据权利要求116或117所述的方法，其中扩增所述多个适体的步骤遵照单次培育步骤或双重培育步骤。

119.根据权利要求116-118中的任一项所述的方法，其中所述培育扩增步骤针对多个靶、在平行实验中或其组合来测定。

120.根据权利要求116-119中的任一项所述的方法，其任选地还包括在扩增所述多个适体的步骤之前引入已知量的已知寡核苷酸。

121.根据权利要求116-120中的任一项所述的方法，其任选地还包括在所述测序步骤之前引入已知量的已知寡核苷酸。

122.根据权利要求116-121中的任一项所述的方法，其中所述已知寡核苷酸的测序检测实验误差。

123.根据权利要求116-122中的任一项所述的方法，其还包括从每个样品扩增标准化的量的靶结合的适体。

124.根据权利要求116-123中的任一项所述的方法，其还包括在被优化以获得最大化扩增并最小化偏差的条件下扩增所述多个适体。

125.根据权利要求116-124中的任一项所述的方法，其还包括将扩增的多个适体消化成ssDNA。

126.根据权利要求116-125中的任一项所述的方法，其还包括在产生所需ssDNA的丰富引物存在下扩增所述多个适体。

127.根据权利要求126所述的方法，其还包括在每个消化步骤之前进行单元测试，以确定每个样品的最佳消化条件。

128.根据权利要求116-127中的任一项所述的方法，其还包括在每个扩增步骤期间改变与所述多个适体的每个成员相关的引物序列，以鉴定不依赖于所述扩增步骤的强结合物。

129.根据权利要求116-128中的任一项所述的方法，其还包括在每次重复之前将所述多个潜在靶与不同的局部环境结合区域交替。

130.根据权利要求116-129中的任一项所述的方法，其还包括在不存在潜在靶的情况下对所述多个适体的一部分进行所述扩增步骤。

131.一种获得对多个靶具有亲和性和特异性的适体的方法，所述方法包括：

(a)将多个适体与多个不同的靶在允许所述多个适体与所述多个潜在靶结合的条件下在反应中温育；

(b)除去未结合的适体；

(c)扩增靶结合的适体；

(d)对靶结合的适体进行测序；

(e)将步骤(a)-(d)重复多次；

(f)将多个适体与多个单一靶温育；

(g)重复步骤(b)-(d)；

从而鉴定与多个靶结合的适体。

132.根据权利要求131所述的方法，其中将步骤(e)在分开的反应中重复多次，每个反应含有不同的靶。

133.根据权利要求116-132中的任一项所述的方法，其中将步骤(e)在分开的反应中重复多次，每个反应含有相同的靶。