CN110730822A - 鉴定化合物的方法 - Google Patents

鉴定化合物的方法 Download PDF

Info

Publication number
CN110730822A
CN110730822A CN201880040438.9A CN201880040438A CN110730822A CN 110730822 A CN110730822 A CN 110730822A CN 201880040438 A CN201880040438 A CN 201880040438A CN 110730822 A CN110730822 A CN 110730822A
Authority
CN
China
Prior art keywords
compound
binding interaction
binding
target protein
findings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880040438.9A
Other languages
English (en)
Other versions
CN110730822B (zh
Inventor
E.A.西格尔
L.薛
C.J.马尔赫恩
D.J.莫西亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
X-Chemical Co Ltd
Original Assignee
X-Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by X-Chemical Co Ltd filed Critical X-Chemical Co Ltd
Publication of CN110730822A publication Critical patent/CN110730822A/zh
Application granted granted Critical
Publication of CN110730822B publication Critical patent/CN110730822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/10Libraries containing peptides or polypeptides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biochemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Plant Pathology (AREA)
  • Bioethics (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)

Abstract

本公开提供了利用来自核苷酸编码文库(例如,DNA编码文库)的数据集的虚拟筛选方法。这些方法允许对候选化合物与用于开发治疗剂的感兴趣蛋白之间的结合相互作用进行高置信度预测。

Description

鉴定化合物的方法
背景
虚拟筛选方法能够扩展给定目标的可用筛选选项,并且可以增加成功优化的可能性。虚拟筛选可以是鉴定将用作优化起点的多个支架的快速且廉价的方法。虚拟筛选的能力通常受限于所使用的实验确定数据集的大小,因为它依赖于与已知实验数据的比较来产生虚拟数据。因此,需要将稳健的计算方法与极大的数据集相结合以在计算预测中产生足够的置信度来代替传统的高通量筛选方法的方法。
发明概述
本公开提供了用于鉴定可用作治疗剂和/或可用作治疗剂开发中优化的起点的化合物的方法。这些方法将用于预测化合物与蛋白之间结合的计算方法与使用核苷酸编码文库(例如DNA编码文库)获得的实验数据的大数据集结合。用核苷酸编码文库产生的数据和计算方法的组合允许候选化合物与感兴趣蛋白之间的结合相互作用的高置信度预测。
因此,在一个方面,本公开提供了一种方法,包括以下步骤:(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现(例如,至少250,000个发现),所述物理计算装置具有一组候选化合物(例如,小分子化合物)的表现,其中所述多个结合相互作用发现中的至少50%(例如,至少60%、至少70%、至少80%、至少90%、至少95%、至少99%)代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物(例如,DNA编码文库的成员)之间的结合相互作用;(b)使用所述多个结合相互作用发现使用所述计算装置产生所述候选化合物的估计的结合相互作用;和(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
在一些实施方案中,所述多个结合相互作用发现包括至少250,000(例如,至少500,000、至少一百万、至少两百万、至少五百万、至少一千万、至少二千五百万)个结合相互作用发现。
在一些实施方案中,通过使包含编码化合物身份的核苷酸标记的多个(例如,至少250,000、至少500,000、至少一百万、至少两百万、至少五百万、至少一千万)化合物与靶蛋白同时(例如,在相同反应容器中同时)接触来确定所述多个结合相互作用发现中的至少50%。例如,在一些实施方案中,在单个实验中在单个反应容器中确定用于产生估计的结合相互作用的DNA编码文库成员的至少50%的结合相互作用发现。
在一些实施方案中,所述方法还包括提供一种或多种另外的靶蛋白的一个或多个另外的多个结合相互作用发现,其中所述一个或多个另外的多个结合相互作用发现中的至少50%代表所述另外的靶蛋白与来自与步骤(a)的靶蛋白的所述多个结合相互作用发现的化合物之间的结合相互作用。在一些实施方案中,所述方法还包括提供一个或多个阴性对照实验的一个或多个另外的多个结合相互作用发现,其中所述多个结合相互作用发现中的至少50%代表来自与步骤(a)的靶蛋白的所述多个结合相互作用发现的化合物的阴性对照。在一些实施方案中,所述方法还包括提供一个或多个对照实验的一个或多个另外的多个结合相互作用发现,其中所述多个结合相互作用发现包括具有与步骤(a)的靶蛋白的已知结合相互作用的化合物(例如,已知的抑制剂或天然配体)的结合相互作用发现。在一些实施方案中,所述方法包括通过将化合物或候选化合物与靶蛋白的结合或估计结合与化合物或候选化合物与所述一种或多种另外的靶蛋白和/或阴性对照的结合或估计结合进行比较,产生选择性评分。在一些实施方案中,候选化合物列表能够通过选择性评分显示和分级。在一些实施方案中,所述一种或多种另外的靶蛋白包含所述靶蛋白的突变体。
在一些实施方案中,使用化学结构比较例如利用分子表现产生估计的结合相互作用。分子表现包括但不限于基于原子、特征或官能团及其连接性的拓扑表现(例如,指纹、连接表、分子连接性和/或分子图形表现)、静电表现(例如,表面电子)、几何表现(例如,药效团、药效团指纹、基于形状的指纹和/或使用原子、特征或官能团的3D分子坐标)或量子化学表现。在一些实施方案中,使用基于原子、特征或官能团及其连接性的拓扑表现(例如,指纹、连接表、分子连接性和/或分子图形表现)产生估计的结合相互作用。在一些实施方案中,使用静电表现(例如,表面电子)产生估计的结合相互作用。在一些实施方案中,使用几何表现(例如,药效团、药效团指纹、基于形状的指纹和/或使用原子、特征或官能团的3D分子坐标)产生估计的结合相互作用。在一些实施方案中,使用量子化学表现产生估计的结合相互作用。在一些实施方案中,使用化学指纹产生估计的结合相互作用。
化学指纹可用于聚集化合物的结构信息和结合相互作用数据,以鉴定指示与靶蛋白结合的结构模式。因此,在一些实施方案中,所述方法还包括(i)提供多种化合物的多个化学指纹(例如,化学指纹如ECFP6、FCFP6、ECFP4、MACCS或具有不同位数(例如,166、512、1024)的摩根/环形指纹);和(ii)在估计的结合相互作用的产生中利用所述多个化学指纹。在一些实施方案中,例如在训练集中,所述多个化学指纹包括包含编码化合物身份的核苷酸标记的化合物中的一种或多种的化学指纹,例如化学指纹是没有核苷酸标记的化合物的结构的表现。在一些实施方案中,例如在预测集中,所述多个化学指纹包括一种或多种候选化合物的化学指纹。在一些实施方案中,化学指纹是ECFP6指纹。
在一些实施方案中,所述方法还包括提供这组候选化合物的一个或多个性质发现(例如,分子量和/或clogP)。在一些实施方案中,利用所述一个或多个性质发现产生估计的结合相互作用。在一些实施方案中,候选化合物列表能够由所述一个或多个性质发现显示和分级
在一些实施方案中,所述方法还包括通过互联网或向显示设备发送候选化合物列表。在一些实施方案中,物理计算装置通过互联网访问和操作。
在一些实施方案中,所述方法还包括对候选化合物的每个估计的结合相互作用产生可信度评分,其中所述可信度评分使用所述候选化合物与来自步骤(a)的靶蛋白的所述多个结合相互作用的一种或多种化合物之间的化学结构比较(例如,主成分分析)来产生。例如,在一些实施方案中,通过比较候选化合物与由来自步骤(a)的所述多个结合相互作用的化合物所定义的化学空间,通过确定候选化合物的化学空间的距离如由主组分分析定义的维度上的欧几里得距离,来产生可信度评分。在一些实施方案中,候选化合物列表能够由候选化合物的估计的结合相互作用的可信度评分显示和分级。
在一些实施方案中,所述方法还包括(d)合成来自候选化合物列表的一种或多种所述候选化合物。
在一些实施方案中,所述方法还包括(e)使一种或多种合成的候选化合物与靶蛋白接触以确定一种或多种实验性结合相互作用。
在一方面,本公开提供了一种计算机可读介质,其上存储有用于指导物理计算装置以实施包括以下步骤的方法的可执行指令:
(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现,所述物理计算装置具有一组候选化合物的表现,
其中所述多个结合相互作用发现中的至少90%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用;
(b)使用所述多个结合相互作用发现使用所述计算装置以产生所述候选化合物的估计的结合相互作用;和
(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
在一方面,本公开提供了一种物理计算装置,其具有一组候选化合物的表现并且用可执行指令编程以指导所述装置实施包括以下步骤的方法:
(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现,所述物理计算装置具有一组候选化合物的表现,
其中所述多个结合相互作用发现中的至少90%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用;
(b)使用所述多个结合相互作用发现使用所述计算装置以产生所述候选化合物的估计的结合相互作用;和
(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
定义
本文所用的“可信度评分”是指这样的计算结果,其基于候选化合物与用于准备该估计的数据集中的一种或多种化合物之间的结构相似性指示候选化合物的估计的结合相互作用的置信度。
本文所用的术语“结合相互作用”是指两个或更多个实体之间的关联(例如,非共价或共价的)。“直接”结合涉及实体或部分之间的物理接触;间接结合涉及通过与一个或多个中间实体的物理接触的方式的物理相互作用。两个或更多个实体之间的结合通常可以在多种背景中的任何一种中评估—包括其中相互作用的实体或部分被单独地研究或在更复杂系统的背景中研究(例如,当与载体实体共价地或以其它方式关联时和/或在生物系统或细胞中)。
分子X对其配偶体Y的亲和力通常可以由解离常数(KD)表示。亲和力可以通过本领域已知的常规方法测量,包括本文所述的那些。本文所用的术语“KD”意指特定化合物-蛋白或复合物-蛋白相互作用的解离平衡常数。通常,本发明的化合物以小于约10-6 M,如小于约10-7 M、10-8 M、10-9 M或10-10 M或甚至更低的解离平衡常数(KD)结合呈递蛋白,例如当通过表面等离子体共振(SPR)技术使用呈递蛋白作为分析物且该化合物作为配体测定时。在一些实施方案中,本发明的化合物以小于约10-6 M,如小于约10-7 M、10-8 M、10-9 M或10-10 M或甚至更低的解离平衡常数(KD)结合靶蛋白(例如真核靶蛋白如哺乳动物靶蛋白或真菌靶蛋白或原核靶蛋白如细菌靶蛋白),例如当通过表面等离子体共振(SPR)技术使用靶蛋白作为分析物且该化合物作为配体测定时。
本文所用的“结合相互作用发现”是指化合物与蛋白(例如靶蛋白)之间的结合相互作用或缺乏该结合相互作用,这已经通过例如SPR进行实验测定。例如,在一些实施方案中,结合相互作用发现是指确定化合物不与蛋白(例如,靶蛋白)相互作用。
术语“分子表现”例如是指化合物的拓扑表现、静电表现、几何表现或量子化学表现。分子表现包括例如化学指纹。
术语“静电表现”是指一种类型的分子表现,包括诸如表面电子的信息。
本文所用的“估计的结合相互作用”是指已经使用计算分析预测的结合相互作用。在一些实施方案中,候选化合物与靶蛋白的估计的结合相互作用通过将候选化合物的化学结构与已经通过实验确定了与靶蛋白的结合相互作用的一种或多种化合物的化学结构进行比较来产生。
本文所用的术语“化学指纹”是指化合物的机器可读分子表现,如位串,即一列二进制值(0或1),其表征分子的二维和/或三维结构。产生化学指纹的示例性方法是本领域已知的,包括但不限于MACCS、扩展连接性指纹(ECFP)、功能性类别指纹(FCFP)、摩根/循环指纹和化学散列指纹。
本文所用的术语“clogP”是指分子或分子的一部分的计算的分配系数。分配系数是平衡时化合物在两种不混溶相(例如辛醇和水)的混合物中的浓度比并量度化合物的疏水性或亲水性。在本领域中有多种方法可用于确定clogP,例如,在一些实施方案中,可以使用本领域已知的定量结构-性质关系算法(例如,使用基于片段的预测方法,该方法通过确定化合物的非重叠分子片段的总和来预测化合物的logP)来确定clogP。用于计算clogP的若干算法在本领域中是已知的,包括由分子编辑软件例如CHEMDRAW® Pro, 12.0.2.1092版本 (Cambridgesoft, Cambridge, MA)和MARVINSKETCH® (ChemAxon, Budapest,Hungary)使用的那些。
本文所用的术语“相当的”是指这样的两种或更多种化合物、实体、情形、条件集等,它们可以彼此不完全相同,但足够类似以允许在它们之间进行比较,使得可基于观察到的差异或相似性合理地得出结论。在一些实施方案中,相当的条件集、环境、个体或群体的特征在于多个基本上完全相同的特征和一个或少量变化的特征。本领域普通技术人员在背景中将会理解,在任何给定的情形下,对于两种或更多种这样的化合物、实体、情形、条件集等,需要什么程度的同一性才被认为是相当的。例如,本领域普通技术人员将理解,当环境、个体或群体的集合的特征在于足够数量和类型的基本上完全相同的特征以保证合理的结论(该结论即在环境、个体或群体的不同集合下或用环境、个体或群体的不同集合获得的结果或观察到的现象差异是由变化的那些特征的变化引起的或指示变化的那些特征的变化)时,它们是彼此相当的。
本文描述的许多方法包括“确定”步骤。本领域普通技术人员在阅读本说明书时将理解,这种“确定”可以利用本领域技术人员可用的各种技术中的任何一种或通过使用本领域技术人员可用的各种技术中的任何一种来实现,包括例如本文明确提到的具体技术。在一些实施方案中,确定涉及物理样品的操作。在一些实施方案中,确定涉及数据或信息的考量和/或处理,例如利用计算机或适于执行相关分析的其它处理单元。在一些实施方案中,确定包括从源接收相关信息和/或材料。在一些实施方案中,确定包括将样品或实体的一个或多个特征与相当的参考物进行比较。
术语“几何表现”是指一种类型的分子表现。几何表现可以包括关于例如药效团、药效团指纹、基于形状的指纹和/或使用原子、特征或官能团的3D分子坐标的信息。
本文所用的术语“文库”是指2、5、10、102、103、104、105、106、107、108、109个或更多个不同分子的集合。在一些实施方案中,文库中至少10%(例如,至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少99%或100%)的化合物是包括编码其身份的核苷酸标记的化合物,如DNA编码化合物。
本文所用的术语“阴性对照”是指其中不存在靶蛋白的确定结合相互作用的实验。
术语“极性表面积”是指分子或分子的一部分的所有极性原子(包括它们连接的氢)的表面之和。使用诸如CHEMDRAW® Pro, Version 12.0.2.1092(Cambridgesoft,Cambridge, MA)的程序通过计算机确定极性表面积。
本文所用的术语“阳性对照”是指确定结合相互作用的实验,其中与靶蛋白接触的化合物的结合亲和力是已知的。
本文所用的“性质发现”是指特定化合物的计算的或实验确定的性质(例如,clogP、极性表面积、分子量)。
当提及具有活性的化合物时使用的术语“选择性”,本领域技术人员理解为是指该化合物在潜在的靶实体或状态之间有区别。例如,在一些实施方案中,如果化合物在一种或多种竞争性备选靶标的存在下优先与某靶标结合,则称该化合物“选择性”结合该靶标。在许多实施方案中,选择性相互作用取决于靶实体的特定结构特征(例如表位、裂口、结合位点)的存在。应该理解,选择性不必是绝对的。在一些实施方案中,可以相对于结合剂对一种或多种其它潜在靶实体(例如竞争物)的选择性来评估选择性。在一些实施方案中,相对于参考选择性结合剂的选择性来评估选择性。在一些实施方案中,相对于参考非选择性结合剂的选择性来评估选择性。在一些实施方案中,在与其靶实体结合的条件下,试剂或实体可检测地不与竞争性备选靶标结合。在一些实施方案中,与竞争性备选靶标相比,结合剂以更高的结合速率、更低的解离速率、增加的亲和力、降低的解离和/或增加的稳定性结合其靶实体。
本文所用的“选择性评分”是指化合物对靶蛋白的特异性的计算结果。在一些实施方案中,选择性评分可以通过比较化合物与靶蛋白的结合和化合物与另一种蛋白(例如,靶蛋白的突变体或无关蛋白)的结合来计算。在其它实施方案中,选择性评分可通过比较化合物与靶蛋白和阴性对照的结合来计算。
术语“小分子”是指低分子量有机和/或无机化合物。通常,“小分子”是大小小于约5千道尔顿(kD)的分子。在一些实施方案中,小分子小于约4 kD、3 kD、约2 kD或约1 kD。在一些实施方案中,小分子小于约800道尔顿(D)、约600D、约500D、约400D、约300D、约200D或约100 D。在一些实施方案中,小分子小于约2000g/mol、小于约1500g/mol、小于约1000g/mol、小于约800g/mol或小于约500g/mol。在一些实施方案中,小分子不是聚合物。在一些实施方案中,小分子不包括聚合部分。在一些实施方案中,小分子不是蛋白或多肽(例如,不是寡肽或肽)。在一些实施方案中,小分子不是多核苷酸(例如,不是寡核苷酸)。在一些实施方案中,小分子不是多糖。在一些实施方案中,小分子不包括多糖(例如,不是糖蛋白、蛋白聚糖、糖脂等)。在一些实施方案中,小分子不是脂质。在一些实施方案中,小分子是调节化合物。在一些实施方案中,小分子是生物活性的。在一些实施方案中,小分子是可检测的(例如,包含至少一个可检测部分)。在一些实施方案中,小分子是治疗剂。
本领域普通技术人员在阅读本公开内容时将理解,本文所述的某些小分子化合物可以多种形式中的任一种提供和/或利用,所述形式例如盐形式、受保护形式、前药形式、酯形式、异构形式(例如,光学和/或结构异构体)、同位素形式等。在一些实施方案中,提及特定化合物可涉及该化合物的特定形式。在一些实施方案中,提及特定化合物可涉及任何形式的该化合物。在一些实施方案中,当化合物是存在于或发现于自然界中的化合物时,可以根据本发明以不同于其存在于或发现于自然界中的形式提供和/或利用该化合物。本领域普通技术人员将理解,包括与化合物的参考制剂或来源(例如,天然来源)不同水平、量或比率的一种或多种单独形式的化合物制剂可被认为是本文所述化合物的不同形式。因此,在一些实施方案中,例如,化合物的单一立体异构体的制剂可认为是与该化合物的外消旋混合物不同的化合物形式;化合物的特定盐可以认为是与该化合物的另一种盐形式不同的形式;包含双键的一个构象异构体((Z)或(E))的制剂可以认为是与包含双键的另一个构象异构体((E)或(Z))的制剂不同的形式;其中一个或多个原子是与存在于参考制剂中的同位素不同的同位素的制剂可认为是不同的形式;等等。
本文所用的术语“特异性结合”或“对……有特异性”或“对……具有特异性”是指结合剂和靶实体之间的相互作用。如普通技术人员将理解,如果在存在备选相互作用的情况下该相互作用有利,则认为该相互作用是“特异性的”,例如,KD小于10μM的结合(例如,小于5μM、小于1μM、小于500 nM、小于200 nM、小于100 nM、小于75 nM、小于50 nM、小于25 nM、小于10 nM或10 nM至100 nM、50 nM至250 nM、100 nM至500 nM、250 nM至1μM、500 nM至2μM、1μM至5μM)。在许多实施方案中,特异性相互作用取决于靶实体的特定结构特征(例如表位、裂口、结合位点)的存在。应该理解特异性不必是绝对的。在一些实施方案中,可以相对于结合剂对一种或多种其它潜在靶实体(例如竞争物)的特异性来评估特异性。在一些实施方案中,相对于参考特异性结合剂的特异性来评估特异性。在一些实施方案中,相对于参考非特异性结合剂的特异性来评估特异性。
术语“结构相似性”是指在一种或多种不同化合物中原子或部分相对于彼此的二维或三维排列和/或取向的相似性(例如:感兴趣的试剂和参照试剂之间的距离和/或角度)。
术语“基本上”是指表现出感兴趣的特性或属性的完全或接近完全程度或度的定性状况。生物领域的普通技术人员将会理解生物和化学现象很少(如果有的话)发展到完成和/或进行到完全或者实现或避免某个绝对结果。因此本文中的术语“基本上”用于涵盖在许多生物和化学现象中固有的完全的潜在缺失。
本文所用的术语“基本上不结合”特定蛋白可以例如通过对靶标具有10-4M或更大、或者10-5M或更大、或者10-6M或更大、或者10-7M或更大、或者10-8M或更大、或者10-9M或更大、或者10-10M或更大、或者10-11M或更大、或者10-12M或更大的KD,或者10-4M至10-12M、或10-6M至10-10M、或10-7M至10-9M范围的KD的分子或分子的一部分来显示。
术语“靶蛋白”是指与小分子结合的蛋白。在一些实施方案中,靶蛋白参与与疾病、病症或病况相关的生物学途径。在一些实施方案中,靶蛋白是天然存在的蛋白;在一些这样的实施方案中,靶蛋白天然存在于某些哺乳动物细胞(例如,哺乳动物靶蛋白)、真菌细胞(例如,真菌靶蛋白)、细菌细胞(例如,细菌靶蛋白)或植物细胞(例如,植物靶蛋白)中。在一些实施方案中,靶蛋白的特征在于与一种或多种天然呈递蛋白/天然小分子复合物的天然相互作用。在一些实施方案中,靶蛋白的特征在于与多种不同的天然呈递蛋白/天然小分子复合物的天然相互作用;在一些这样的实施方案中,一些或所有的所述复合物利用相同的呈递蛋白(和不同的小分子)。靶蛋白可以是天然存在的,例如野生型。或者,靶蛋白可以不同于野生型蛋白,但仍保留生物学功能,例如作为等位基因变体、剪接突变体或生物学活性片段。示例性的哺乳动物靶蛋白是GTPase、GTPase活化蛋白、鸟氨酸核苷酸交换因子、热休克蛋白、离子通道、卷曲螺旋蛋白、激酶、磷酸酶、泛素连接酶、转录因子、染色质修饰因子/重塑因子、具有经典蛋白-蛋白相互作用结构域和基序的蛋白,或参与与疾病、病症或病况相关的生物学途径的任何其它蛋白。
术语“拓扑表现”是指一种分子表现类型,其取决于分子的拓扑结构,并且其指示各个原子的位置和它们之间的键合连接。拓扑表现可以基于原子、特征或官能团以及它们的连接性(例如,指纹、连接表、分子连接性和/或分子图形表现)。拓扑表现可以基于分子图形表现来计算。
术语“量子化学表现”是指一种分子表现类型。量子化学表现可以包括关于例如化合物的能量或电子性质的信息。
附图简述
图1是说明随着文库数量增加结合相互作用的预测的图。
图2是说明由于预测模型的改进随时间多次预测试验的图。
发明详述
本公开提供了用于鉴定可用作治疗剂和/或可用作治疗剂开发中优化的起点化合物的虚拟筛选方法。这些方法利用使用DNA编码文库获得的实验数据的大数据集,以产生候选化合物与感兴趣的蛋白之间的结合相互作用的高置信度预测。
编码化合物
本发明特征在于利用编码化学实体(包括化学实体、一个或多个标记、和可操作地缔合第一化学实体和一个或多个标记的头片段)的方法。下文进一步描述了化学实体、头片段、标记、键和双官能间隔子。
化学实体
本发明的方法中利用的编码化合物(例如小分子)可包括一个或多个构件并任选地包括一个或多个支架。
支架S可为单原子或分子支架。示例性的单原子支架包括碳原子、硼原子、氮原子或磷原子等。示例性的多原子支架包括环烷基、环烯基、杂环烷基、杂环烯基、芳基或杂芳基。杂芳基支架的具体实施方案包括三嗪,例如1,3,5-三嗪、1,2,3-三嗪、或1,2,4-三嗪;嘧啶;吡嗪;哒嗪;呋喃;吡咯;吡咯啉;吡咯烷;噁唑;吡唑;异噁唑;吡喃;吡啶;吲哚;吲唑;或嘌呤。
可以通过任何可用的方法将支架S可操作地连接至标记。在一个示例中,S为直接连接至头片段的三嗪。为了得到这种示例性的支架,使三氯三嗪(即,具有三个氯的氯化三嗪前体)与头片段的亲核基团反应。使用这种方法,S具有可用于取代的有氯的三个位点,其中两个位点是可用的多样性节点且一个位点连接至头片段。接下来,将构件An添加至支架的多样性节点,并且将为构件An编码的标记An(“标记An”)连接至头片段,其中可以以任何顺序进行这两个步骤。然后,可以将构件Bn添加至剩余的多样性节点,并且将为构件Bn编码的标记Bn连接至标记An的端部。在另一个示例中,S为可操作性地连接至标记的三嗪,其中使三氯三嗪与PEG、标记的脂肪族或芳香族接头的亲核基团(例如,氨基)反应。如上所述,可以添加构件及缔合的标记。
在另一个示例中,S是可操作性地连接至构件An的三嗪。为了获得这种支架,使具有两个多样性节点(例如,亲电基团和亲核基团,如Fmoc-氨基酸)的构件An与接头的亲核基团(例如,连接至头片段的PEG、脂肪族或芳香族接头的末端基团)反应。然后,使三氯三嗪与构件An的亲核基团反应。使用这种方法,S的所有三个氯位点都被用作构件的多样性节点。如本文所述,可以添加另外的构件和标记,并且可以添加另外的支架Sn
示例性的构件An’包括例如氨基酸(例如α-、β-、Y-、δ-和ε-氨基酸,以及天然和非天然氨基酸的衍生物)、具有胺的化学反应性反应物(例如,叠氮化物或炔烃链)、或硫醇反应物、或它们的组合。构件An的选择取决于例如接头中使用的反应性基团的性质、支架部分的性质、和用于化学合成的溶剂。
示例性的构件Bn’和Cn’包括化学实体的任何有用的结构单元,如任选取代的芳香族基团(例如,任选取代的苯基或苄基)、任选取代的杂环基团(例如,任选取代的喹啉基、异喹啉基、吲哚基、异吲哚基、氮杂吲哚基、苯并咪唑基、氮杂苯并咪唑基、苯并异噁唑、吡啶基、哌啶基或吡咯烷基)、任选取代的烷基(例如,任选取代的直链或支链的C1-6烷基或任选取代的C1-6氨基烷基)、或任选取代的碳环基团(例如,任选取代的环丙基、环己基或环己烯基)。特别有用的构件Bn’和Cn’包括具有一个或多个反应性基团的那些,例如具有一个或任选地是反应性基团或者可以被化学修饰以形成反应性基团的取代基的任选取代的基团(例如,任何本文所述的)。示例性的反应性基团包括胺(-NR2,其中每个R独立地为H或任选取代的C1-6烷基)、羟基、烷氧基(-OR,其中R是任选取代的C1-6烷基,如甲氧基)、羧基(-COOH)、酰胺或化学反应性的取代基中的一个或多个。例如,可以在标记Bn或Cn中导入限制性位点,其中可以通过进行PCR并用相应的限制性内切酶之一限制性消化来识别复合物。
头片段
在一个编码化学实体中,头片段将每个化学实体可操作地连接至它的编码寡核苷酸标记。一般来讲,头片段是具有至少两个可以进一步衍生的官能团的起始寡核苷酸,其中第一官能团将第一化学实体(或其组分)可操作地连接至头片段,并且第二官能团将头片段的一个或多个标记可操作地连接至头片段。双官能间隔子可以任选地用作头片段和化学实体之间的间隔部分。
头片段的官能团可以用于形成与化学实体组分的共价键和与标记的另一个共价键。该组分可以是小分子的任何部分,如具有多样性节点或构件的支架。另选地,头片段可以被衍生以提供终止于官能团(例如,羟基、胺、羧基、巯基、炔基、叠氮基或磷酸基团)中的间隔子(例如将头片段与将要在文库中形成的小分子分开的间隔部分),其用于形成与化学实体组分的共价键。间隔子可在其中一个内部位点处连接至头片段的5'-末端、或3'-末端。当间隔子连接至其中一个内部位点时,间隔子可以使用本领域中已知的标准技术可操作地连接至衍生的碱基(例如,尿苷的C5位点)或内部放置在寡核苷酸内。本文描述示例性间隔子。
头片段可以具有任何有用的结构。头片段可以是,例如,1至100个核苷酸的长度,优选5至20个核苷酸的长度,并且最优选5至15个核苷酸的长度。如本文所述,头片段可以是单链或双链的,并且可由天然或修饰的核苷酸组成。例如,化学部分可操作地连接至头片段的3'-末端或5'-末端。在特定实施方案中,头片段包括由序列内的互补碱基形成的发夹结构。例如,化学部分可以可操作地连接至头片段的内部位点、3'-末端或5'-末端。
一般来讲,头片段包括5'-或3'-末端上的非自身互补序列,其允许通过聚合、酶促连接或化学反应结合寡核苷酸标记。头片段可以允许寡核苷酸标记的连接和任选的纯化和磷酸化步骤。在添加最后标记之后,另外的衔接子序列可添加至最后标记的5'-末端。示例性衔接子序列包括引物结合序列或具有标记(例如,生物素)的序列。在其中使用许多构件和相应标记的情况下(例如100个),可以在寡核苷酸合成步骤期间采用混合-拆分策略以形成所需数量的标记。用于DNA合成的此类混合-拆分策略是本领域中已知的。可以通过PCR扩增所得文库成员,随后选择感兴趣的靶标的结合实体。
头片段或复合物可以任选地包括一个或多个引物结合序列。例如,头片段具有发夹环区中的序列,其用作用于扩增的引物结合区,其中引物结合区具有比头片段中的序列更高的用于其互补引物(例如,其可以包括侧接的标识符区域)的解链温度。在其它实施方案中,复合物包括在一个或多个标记(其编码一个或多个构件)两侧上的两个引物结合序列(例如,使得可以发生PCR反应)。另选地,头片段可在5’-或3’-末端上含有一个引物结合序列。在其它实施方案中,头片段是发夹,并且环区形成引物结合位点或该引物结合位点通过寡核苷酸的杂交而被引入头片段的环的3’侧上。可以将包含与头片段的3’-末端的区同源并且在其5’-末端上携带有引物结合区(例如使得PCR反应可行)的引物寡核苷酸杂交到头片段上,并且该引物寡核苷酸可包含编码构件或添加构件的标记。该引物寡核苷酸可以包含另外的信息,例如随机核苷酸区域,例如2至16个核苷酸的长度,其包括在内用于生物信息学分析。
头片段可任选地包括发夹结构,其中这种结构可以通过任何可用的方法来实现。例如,头片段可以包括互补碱基,其形成分子间碱基配对伙伴,例如通过沃森-克里克(Watson-Crick)碱基配对(例如腺嘌呤-胸腺嘧啶和鸟嘌呤-胞嘧啶)和/或通过摆动碱基配对(例如鸟嘌呤-尿嘧啶、肌苷-尿嘧啶、肌苷-腺嘌呤和肌苷-胞嘧啶)。在另一个示例中,头片段可以包括修饰的或取代的核苷酸,与未修饰的核苷酸相比,修饰的或取代的核苷酸可以形成更高亲和力的双链体形成物,此类修饰的或取代的核苷酸在本领域中是已知的。在另一个示例中,头片段包括一个或多个交联的碱基以形成发夹结构。例如,可以例如通过使用补骨脂素将单链内的碱基或不同双链中的碱基交联。
头片段或复合物可以任选地包括一个或多个用于检测的标记。例如,头片段、一个或多个寡核苷酸标记、和/或一个或多个引物序列可以包括同位素、放射性成像剂、标志物、示踪物、荧光标记(例如,罗丹明或荧光素)、化学发光标记、量子点或报告分子(例如生物素或组氨酸标签)。
在其它实施方案中,可修饰头片段或标记以支持在半水性、降低水性或非水性(例如有机)条件下的溶解度。可以通过使用脂肪链修饰例如T或C碱基的C5位置,使得头片段或标记的核苷酸碱基的疏水性更强,并且不显著破坏它们与它们的互补碱基形成氢键的能力。示例性的修饰或取代的核苷酸是5’-二甲氧三苯甲基-N4-二异丁基氨基甲叉基-5-(1-丙炔基)-2’-脱氧胞苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;5’-二甲氧三苯甲基-5-(1-丙炔基)-2’-脱氧尿苷、3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;5’-二甲氧三苯甲基-5-氟-2’-脱氧尿苷、3’- [(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;和5’-二甲氧三苯甲基-5-(芘-1-基-乙炔基)-2’-脱氧尿苷、或3’-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。
此外,头片段寡核苷酸可以穿插有提高在有机溶剂中的溶解度的修饰。例如,偶氮苯亚磷酰胺可以将疏水部分导入至头片段的设计中。疏水性酰胺化物向头片段的此类插入可以发生在分子的任何位置。然而,如果用于标记去卷积,该插入不能干扰后续在文库合成期间使用另外DNA标记的标记或随后选择一旦完成后的PCR或微阵列分析。向本文所述的头片段设计中的此类添加可以使得该头片段可溶于例如15%、25%、30%、50%、75%、90%、95%、98%、99% 或100% 的有机溶剂中。因此,向头片段设计中添加的疏水残基得到了在半水性或非水性(例如有机)条件下的改善的溶解度,同时使得头片段能够用于寡核苷酸标记。另外,随后导入文库中的DNA标记也可以在T或C碱基的C5位点进行修饰,使得它们还致使文库更加疏水并且可溶于用于文库合成的随后步骤的有机溶剂中。
在特定实施方案中,头片段和第一标记可以是相同的实体,即,可以构建多个头片段-标记实体,它们均共享通用部分(例如,引物结合区)并且均在另一部分上(例如,编码区)不同。它们可用于“拆分”步骤并且在它们编码的事件已经发生后将它们汇集。
在特定实施方案中,头片段可以编码信息,例如通过包括编码第一拆分步骤的序列或编码文库的身份的序列,如通过使用与特定文库相关的特定序列。
寡核苷酸标记
本文所述的寡核苷酸标记(例如,标记或部分头片段或部分尾片段)可以用来编码任何有用的信息,例如分子、化学实体的一部分、组分(例如支架或结构单元)的添加、文库中的头片段、文库的身份、一个或多个文库成员的用途(例如,文库的等分试样的成员的用途)、和/或文库成员的来源(例如,通过使用来源序列)。
可以使用寡核苷酸中的任何序列来编码任何信息。因此,一个寡核苷酸序列可以用于多个目的,例如用于编码两种或更多种类型的信息或用于提供也为一种或多种类型的信息编码的起始寡核苷酸。例如,第一标记可以为第一构件的添加以及文库的识别编码。在另一个示例中,头片段可以用来提供可操作性地将化学实体连接至标记的起始寡核苷酸,其中该头片段另外地包括为文库的身份编码的序列(例如,文库识别序列)。因此,本文所述的任何信息都可以在单独的寡核苷酸标记中编码或可以被组合并在相同的寡核苷酸序列中(例如,寡核苷酸标记,如标记或头片段)编码。
构件序列为构件的身份和/或使用构件进行的结合反应的类型编码。这种构件序列包括于标记中,其中该标记可以任选地包括以下所述的一种或多种类型的序列(例如文库识别序列、用途序列和/或来源序列)。
文库识别序列为特定文库的身份进行编码。为了允许混合两个或多个文库,文库成员可以含有一个或多个文库识别序列,如在文库识别标记中(即,包括文库识别序列的寡核苷酸)、在连接的标记中、在头片段序列的一部分中、或在尾片段序列中。这些文库识别序列可以用来推导编码关系,其中标记的序列被翻译并且与化学(合成)历史信息相关联。因此,这些文库识别序列允许将两个或更多个文库混合在一起以用于选择、扩增、纯化、测序等。
用途序列编码文库中的个别等分试样中的一个或多个文库成员的历史(即,用途)。例如,可以用不同的反应条件、构件和/或选择步骤来处理单独的等分试样。具体地,这种序列可以用来识别此种等分试样并且推断它们的历史(用途),并因此允许将具有不同历史(用途)(例如,不同的选择实验)的相同文库的等分试样混合在一起,用于将样品混合在一起用于一起用于选择、扩增、纯化、测序等目的。这些用途序列可以包括于头片段、尾片段、标记、用途标记(即包括用途序列的寡核苷酸)或本文所述的任何其它标记(例如,文库识别标记或来源标记)中。
来源序列是任何有用长度(例如约六个寡核苷酸)的简并(随机生成的)寡核苷酸序列,其为文库成员的来源编码。这种序列用于将在所有方面否则都相同的文库成员随机细分为通过序列信息可以区别的实体,使得源自特有祖代模板(例如,选定的文库成员)的扩增产物的观测能够区别于源自相同祖代模板(例如,选定的文库成员)的多重扩增产物的观测。例如,在文库形成后且在选择步骤之前,每个文库成员可以包括不同的来源序列,例如在来源标记中。在选择后,可以将选定的文库成员进行扩增以产生扩增产物,并且可以观察到预计包括来源序列(例如,在来源标记中)的部分文库成员并且可以将其与每一个其它文库成员中的来源序列进行比较。由于来源序列是简并的,所以每个文库成员的每种扩增产物应该有不同的来源序列。然而,在扩增产物中相同来源序列的观测可指示衍生自相同模板分子的多个扩增子。当期望在扩增前而不是扩增后确定编码标记的群体的统计数字和统计数据时,可以使用来源标记。这些来源序列可以包括在头片段、尾片段、标记、来源标记(即,包括来源序列的寡核苷酸)或本文所述的任何标记(例如,文库识别标记或用途标记)中。
本文所述的任何类型的序列可以包括在头片段中。例如,头片段可以包括构件序列、文库识别序列、用途序列或来源序列中的一种或多种。
任何本文所述的这些序列都可以包括在尾片段中。例如,尾片段可以包括文库识别序列、用途序列、或来源序列中的一种或多种。
本文所述的任何标记可以包括在具有固定序列的5'-或3'-末端处或接近于具有固定序列的5'-或3'-末端的连接子。通过提供反应性基团(例如,化学反应性基团或光反应性基团)或通过提供用于允许形成键的试剂(例如,在连接子或交联寡核苷酸中嵌入部分或可逆反应性基团的试剂)的位点,连接子促进键(例如,化学键)的形成。每个5'-连接子可以是相同的或不同的,并且每个3'-连接子可以是相同的或不同的。在具有多于一个标记的示例性的非限制性复合物中,每个标记可以包括5'-连接子和3'-连接子,其中每个5'-连接子具有相同的序列并且每个3'-连接子具有相同的序列(例如,其中5'-连接子的序列可与3'-连接子的序列相同或不同)。连接子提供可以用于一个或多个键的序列。为了允许结合传递引物或杂交交联寡核苷酸,连接子可以包括允许键形成的一个或多个官能团(例如,对于其聚合酶具有降低的通读或移位通过能力的键,如化学键)。
这些序列可以包括本文所述的用于寡核苷酸的任何修饰,如一个或多个修饰,其促进在有机溶剂中的溶解度(例如,任何本文所述的,如用于头片段)、其提供天然磷酸二酯键的类似物(例如,硫代磷酸酯类似物)、或其提供一个或多个非天然寡核苷酸(例如,2'-取代的核苷酸,如2'-O-甲基化核苷酸和2'-氟核苷酸,或任何本文所述的核苷酸)。
这些序列可以包括本文所述的用于寡核苷酸的任何特征。例如,这些序列可以包括在小于20个核苷酸的标记中(例如如本文所述的标记)。在其它示例中,包括一个或多个这些序列的标记具有大约相同的质量(例如,每个标记都有与特定标记组(其编码特定的变量)内的平均质量相差约+/-10% 的质量);缺少引物结合(例如,恒定)区;缺少恒定区;或具有降低长度的恒定区(例如,长度小于30个核苷酸、小于25个核苷酸、小于20个核苷酸、小于19个核苷酸、小于18个核苷酸、小于17个核苷酸、小于16个核苷酸、小于15个核苷酸、小于14个核苷酸、小于13个核苷酸、小于12个核苷酸、小于11个核苷酸、小于10个核苷酸、小于9个核苷酸、小于8个核苷酸或小于7个核苷酸)。
用于该长度的文库和寡核苷酸的测序策略可以任选地包括分别增加读取保真度或测序深度的串接(concatenation)或连锁(catenation)策略。特别是,已在对于SELEX的文献中描述选择缺少引物结合区的编码文库,如Jarosch等人,Nucleic Acids Res.34:e86 (2006) 中所描述的,其以引用方式并入本文。例如,可以修饰(例如,在选择步骤之后)文库成员以包括在复合物的5'-末端上的第一衔接子序列和在复合物的3'-末端上的第二衔接子序列,其中第一序列基本上互补于第二序列且引起形成双链体。为了进一步提高产量,将两个固定悬挂核苷酸(例如CC)添加至5'-末端。
本发明的键存在于编码信息的寡核苷酸之间(例如存在于头片段和标记之间、两个标记之间、或标记和尾片段之间)。示例性的键包括磷酸二酯键、膦酸酯键、和硫代磷酸酯键。在一些实施方案中,聚合酶具有降低的通读或移位通过一个或多个键的能力。在某些实施方案中,化学键包括一个或多个化学反应性基团,诸如单磷酸和/或羟基、光反应性基团、嵌入部分、交联寡核苷酸、或可逆的共反应性基团。
可以测试键以确定聚合酶是否具有降低的通读或移位通过该键的能力。可以通过任何可用的方法测试这种能力,如液相色谱法-质谱法、RT-PCR分析、序列群体统计、和/或PCR分析。在一些实施方案中,化学连接包括使用一个或多个化学反应对以提供键,例如单磷酸和羟基。如本文所述,可读键可通过化学连接合成,例如,通过在存在氰基咪唑和二价金属源(例如ZnCl2)的情况下,在5’-或3’-末端上的单磷酸、单硫代磷酸、或单膦酸与在5’-或3’-末端上的羟基的反应。
其它示例性化学反应对是这样的对:其包括任选取代的炔基基团和任选取代的叠氮基团、经由惠斯更(Huisgen)1,3-偶极环加成反应以形成三唑;具有4 π-电子体系的任选取代的二烯(例如,任选取代的1,3-不饱和化合物,如任选取代的1,3-丁二烯、1-甲氧基-3-三甲基甲硅烷基-1,3-丁二烯、环戊二烯、环己二烯或呋喃)和具有2 π-电子体系的任选取代的亲二烯体或任选取代的杂亲二烯体(例如,任选取代的烯基基团或任选取代的炔基基团)、经由迪尔斯-阿尔德(Diels-Alder)反应以形成环烯;具有应变的杂环亲电子体(例如,任选取代的环氧化物、氮丙啶、吖丙啶离子或表硫鎓离子)的亲核试剂 (例如,任选取代的胺或任选取代的硫醇)、经由开环反应以形成杂烷基;具有碘基团的硫代磷酸酯基团,如在包含5'-碘dT的寡核苷酸与3'-硫代磷酸酯寡核苷酸的夹板连接中;任选取代的氨基基团与醛基团或酮基团的反应,如3'-醛修饰的寡核苷酸(其可任选地通过氧化市售获得的3'-甘油基修饰的寡核苷酸来获得)与5'-氨基寡核苷酸(即,在还原胺化反应中)或5'-肼寡核苷酸的反应;任选取代的氨基基团和羧酸基团或硫醇基团 (例如,有或没有使用反式-4-(马来酰亚胺甲基)环己烷-1-甲酸琥珀酰亚胺酯(SMCC)或1-乙基-3-(3-二甲氨基丙基)碳二亚胺(EDAC)的对;任选取代的肼和醛或酮基团的对;任选取代的羟胺和醛或酮基团的对;或亲核试剂和任选取代的烷基卤化物的对。
铂复合物、烷基化试剂或呋喃修饰的核苷酸也可用作化学反应性基团以形成链间或链内键。可以在两个寡核苷酸之间使用此类试剂,并且其可以任选地存在于交联寡核苷酸中。
示例性的非限制性铂复合物包括顺铂(顺式-二胺二氯铂(II),例如,以形成GG链内键)、反铂(反式-二胺二氯铂(II),例如,以形成GXG链间键,其中X可以是任何核苷酸)、卡铂、吡铂(ZD0473)、奥马铂、或奥沙利铂以形成例如GC、CG、AG或GG键。任何这些键可以是链间或链内键。
示例性的非限制性烷基化试剂包括氮芥(二氯甲二乙胺(,例如用于形成GG键)、苯丁酸氮芥、美法仑、环磷酰胺、环磷酰胺的前药形式(例如,4-氢过氧基环磷酰胺和异环磷酰胺))、1,3-双(2-氯乙基)-1-亚硝基脲(BCNU、卡莫司汀)、氮丙啶(例如,丝裂霉素C、三乙撑密胺或三乙撑硫代磷酰胺(硫替派)以形成GG或AG键)、六甲密胺、烷基磺酸酯(例如,白消安以形成GG键)或亚硝基脲(例如,2-氯亚硝脲以形成GG或CG键,如卡莫司汀(BCNU)、氯脲霉素、洛莫司汀(CCNU)和司莫司汀(甲基-CCNU))。任何这些键可以是链间或链内键。
呋喃修饰的核苷酸也可以用于形成键。一旦原位氧化(例如,用N-溴代琥珀酰亚胺(NBS)),呋喃部分形成反应性氧代烯醛衍生物,其与互补碱基反应以形成链间键。在一些实施方案中,呋喃修饰的核苷酸与互补A或C核苷酸形成键。示例性的非限制性呋喃修饰的核苷酸包括任何2'-(呋喃-2-基)丙酰基氨基-修饰的核苷酸;或2-(呋喃-2-基)乙基二醇核酸的无环修饰的核苷酸。
光反应性基团也可用作反应性基团。示例性的非限制性光反应性基团包括嵌入部分、补骨脂素衍生物(例如,补骨脂素、HMT-补骨脂素或8-甲氧基补骨脂素)、任选取代的氰乙烯基咔唑基团、任选取代的乙烯基咔唑基团、任选取代的氰乙烯基基团、任选取代的丙烯酰胺基团、任选取代的双吖丙啶基团、任选取代的二苯甲酮(例如,4-苯甲酰基苯甲酸的琥珀酰亚胺酯或二苯甲酮异硫氰酸酯)、任选取代的5-(羧基)乙烯基尿苷基团(例如,5-(羧基)乙烯基-2'-脱氧尿苷)、或任选取代的叠氮基团(例如,芳基叠氮或卤代芳基叠氮,如4-叠氮基-2,3,5,6-四氟苯甲酸(ATFB)的琥珀酰亚胺酯)。
嵌入部分也可用作反应性基团。示例性的非限制性嵌入部分包括补骨脂素衍生物、生物碱衍生物(例如,黄连素、巴马汀、甲氧檗因、血根碱(例如,其亚铵或烷醇胺形式、或马兜铃内酰胺-β-D-葡糖苷)、乙啡啶阳离子(例如溴化乙锭)、吖啶衍生物(例如,原黄素、吖啶黄或安吖啶)、蒽环类衍生物(例如,多柔比星、表柔比星、柔红霉素(道诺霉素)、伊达比星和阿柔比星)、或沙利度胺。
对于交联寡核苷酸,可以使用任何可用的反应性基团(例如,本文所述的基团)以形成链间或链内键。示例性反应性基团包括化学反应性基团、光反应性基团、嵌入部分和可逆的共反应性基团。用于与交联寡核苷酸一起使用的交联试剂包括但不限于烷基化试剂(例如,如本文所述的试剂)、顺铂(顺式-二胺二氯铂(II))、反式-二胺二氯铂(II)、补骨脂素、HMT-补骨脂素、8-甲氧基补骨脂素、呋喃修饰的核苷酸、2-氟-脱氧肌苷(2-F-dI)、5-溴-脱氧胞苷(5-Br-dC)、5-溴-脱氧尿苷(5-Br-dU)、5-碘-脱氧胞苷(5-I-dC)、5-碘-脱氧尿苷(5-I-dU)、反式-4-(马来酰亚胺甲基)环己烷-1-甲酸琥珀酰亚胺酯、SMCC、EDAC、或乙酰基硫代乙酸琥珀酰亚胺基酯(SATA)。
寡核苷酸也可被修饰以包含硫醇部分,其可与各种硫醇反应性基团如马来酰亚胺、卤素、碘乙酰胺反应,因此可以用于使两个寡核苷酸交联。硫醇基团可连接至寡核苷酸的5'-或3'-末端。
对于在嘧啶(例如,胸苷)位置处的双链寡核苷酸之间的链间交联,可以选择嵌入的光反应部分补骨脂素。在用紫外光(约254nm)的照射时,补骨脂素嵌入到双链体中并且与嘧啶形成共价链间交联,优选在5'-TpA位点处。补骨脂素部分可以共价连接至修饰的寡核苷酸(例如,通过烷烃链,如C1-10烷基或聚乙二醇基团,如–(CH2CH2O)nCH2CH2-,其中n是1至50的整数)。也可以使用示例性补骨脂素衍生物,其中非限制性衍生物包括4'-(羟基乙氧基甲基)-4,5’,8-三甲基补骨脂素(HMT-补骨脂素)和8-甲氧基补骨脂素。
可以修饰交联寡核苷酸的各个部分以引入键。例如,寡核苷酸中的末端硫代磷酸酯也可以用于使两个相邻的寡核苷酸连接。卤代尿嘧啶/胞嘧啶也可用作寡核苷酸中的交联剂修饰。例如,2-氟-脱氧肌苷(2-F-dI)修饰的寡核苷酸可与含二硫化物的二胺或硫丙基胺反应以形成二硫化物键。
如下所述,可逆的共反应性基团包括选自以下的那些:氰乙烯基咔唑基团、氰乙烯基基团、丙烯酰胺基团、硫醇基团、或磺酰乙基硫醚。任选取代的氰乙烯基咔唑(CNV)基团也可用在寡核苷酸中以在互补链中交联到嘧啶碱基(例如,胞嘧啶、胸腺嘧啶和尿嘧啶、以及它们的修饰的碱基)。在366nm下照射后,CNV基团促进与相邻嘧啶碱基的[2+2]环加成,其引起链间交联。在312nm下照射逆转交联并由此提供用于寡核苷酸链的可逆交联的方法。非限制性CNV基团是3-氰乙烯基咔唑,其可以包括为羧基乙烯基咔唑核苷酸(例如,作为3-羧基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)。
可以修饰CNV基团以用另一个反应性基团取代反应氰基团以提供任选取代的乙烯基咔唑基团。对于乙烯基咔唑基团的示例性非限制性反应性基团包括-CONRN1RN2的酰胺基团,其中每个RN1和RN2可以是相同或不同的,并且独立地为H和C1-6烷基,例如-CONH2;-CO2H的羧基基团;或C2-7烷氧基羰基基团(例如,甲氧基羰基)。此外,反应性基团可位于乙烯基基团的α或β碳上。示例性乙烯基咔唑基团包括如本文所述的氰乙烯基咔唑基团;氨基乙烯基咔唑基团(例如,氨基乙烯基咔唑核苷酸,如3-氨基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸);羧基乙烯基咔唑基团(例如,羧基乙烯基咔唑核苷酸,如3-羧基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸);和C2-7烷氧基羰基乙烯基咔唑基团(例如,烷氧基羰基乙烯基咔唑核苷酸,如3-甲氧羰基乙烯基咔唑-1′-β-脱氧核苷-5'-三磷酸)。具有此类基团的另外的任选取代的乙烯基咔唑基团和核苷酸提供在美国专利7,972,792和Yoshimura与Fujimoto,Org.Lett.10:3227-3230(2008)的化学式中,其均据此全文以引用方式并入本文。
其它可逆反应性基团包括硫醇基团和另一个硫醇基团以形成二硫化物,以及硫醇基团和乙烯基砜基团以形成磺酰乙基硫醚。硫醇-硫醇基团可以任选地包括由具有双-((N-碘乙酰基)哌嗪基)磺酰罗丹明的反应形成的键。其它可逆反应性基团(例如,如某些光反应性基团)包括任选取代的二苯甲酮基团。非限制性示例是二苯甲酮尿嘧啶(BPU),其可以用于含BPU寡核苷酸双链体的链间交联的位点选择性形成和序列选择性形成。在加热时可以逆转该交联,提供用于两个寡聚核苷酸链的可逆交联的方法。
在其它实施方案中,化学连接包括引入磷酸二酯键的类似物,例如,用于选择后PCR分析和测序。磷酸二酯的示例性类似物包括硫代磷酸酯键(例如,如通过使用硫代磷酸酯基团和离去基团如碘基团所引入的键)、磷酰胺键或二硫代磷酸酯键(例如,如通过使用二硫代磷酸酯基团和离去基团如碘基团所引入的键)。
对于本文所述的任何基团(例如,化学反应性基团、光反应性基团、嵌入部分、交联寡核苷酸或可逆的共反应性基团),该基团可以在寡核苷酸的末端处或接近于寡核苷酸的末端或在5'-和3'-末端之间掺入。此外,一个或多个基团可存在于每个寡核苷酸中。当需要反应性基团对时,则寡核苷酸可以被设计成促进基团对之间的反应。在与嘧啶碱基共反应的氰乙烯基咔唑基团的非限制性示例中,第一寡核苷酸可以被设计成包括在5'-末端处或接近于5'-末端的氰乙烯基咔唑基团。在这个示例中,第二寡核苷酸可以被设计成与第一寡核苷酸互补并包括在当第一和第二寡核苷酸杂交时与氰乙烯基咔唑基团对齐的位点处的共反应嘧啶碱基。本文的任何基团和具有一个或多个基团的任何寡核苷酸可以被设计成促进基团之间的反应以形成一个或多个键。
双官能间隔子
可以改变头片段和化学实体之间的双官能间隔子以提供适当的间隔部分和/或增加头片段在有机溶剂中的溶解度。多种间隔子是可市售获得的,其可以将头片段与小分子文库结合。间隔子通常由直链或支链组成,并且可以包括C1-10烷基、1至10个原子的杂烷基、C2-10烯基、C2-10炔基、C5-10芳基、3至20个原子的环或多环体系、磷酸二酯、肽、寡糖、寡核苷酸、低聚物、聚合物或聚烷二醇(例如,聚乙二醇,如-(CH2CH2O)nCH2CH2-,其中n是1至50的整数)、或它们的组合。
双官能间隔子可以提供文库的头片段和化学实体之间的适当间隔部分。在某些实施方案中,双官能间隔子包括三个部分。部分1可以是反应性基团,其与DNA形成共价键,例如羧酸,优选地通过N-羟基琥珀酰亚胺(NHS)酯活化以与DNA上的氨基基团(例如,氨基修饰的dT)反应;亚酰胺,用于修饰单链头片段的5'或3'-末端(通过标准寡核苷酸化学作用的方法实现);化学反应对(例如,在Cu(I)催化剂存在下的叠氮基-炔烃环加成或任何本文所述的);或硫醇反应性基团。部分2也可以是反应性基团,其与化学实体、构件An或支架形成共价键。此类反应性基团可以是,例如,胺、硫醇、叠氮或炔烃。部分3可以是可变长度的化学惰性间隔部分,在部分1和2之间引入。此类间隔部分可以是乙二醇单元(例如,不同长度的PEG)的链、烷烃、烯烃、多烯链、或肽链。间隔子可以包含具有疏水部分(例如苯环)的分支或插入部分以改善有机溶剂中头片段的溶解度,以及用于文库检测目的的荧光部分(例如,荧光素或Cy-3)。头片段设计中的疏水残基可随着间隔子设计而变化以促进在有机溶剂中的文库合成。例如,设计头片段和间隔子组合以具有适当的残基,其中辛醇:水系数(Poct)为例如1.0至2.5。可凭经验选择间隔子用于给定的小分子文库设计,使得可以在有机溶剂中合成文库,例如在 15%、25%、30%、50%、75%、90%、95%、98%、99%、或100% 的有机溶剂中合成文库。可以在文库合成之前使用模拟反应来改变间隔子以选择适当的链长度,其溶解有机溶剂中的头片段。示例性间隔子包括以下那些:具有增加的烷基链长度、增加的聚乙二醇单元、具有正电荷(以中和头片段上的负磷酸电荷)的分支物质、或增加的疏水性的量(例如,添加苯环结构)。
市售获得的间隔子的示例包括氨基-羧酸间隔子,例如为肽的那些(例如,Z-Gly-Gly-Gly-Osu(N-α-苄氧羰基-(甘氨酸)3-N-琥珀酰亚胺基酯)或Z-Gly-Gly-Gly-Gly-Gly-Gly-Osu(N-α-苄氧羰基-(甘氨酸)6-N-琥珀酰亚胺基酯,SEQ ID N0:13))、PEG(例如,Fmoc-氨基PEG2000-NHS或氨基-PEG(12-24)-NHS)或烷烃酸链(例如,Boc-ε-氨基己酸-Osu);化学反应对间隔子,例如结合肽部分的本文所述的那些化学反应对(例如,叠氮高丙氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:2)或炔丙基甘氨酸-Gly-Gly-Gly-OSu(SEQ ID NO:3))、PEG(例如,叠氮基-PEG-NHS)、或烷烃酸链部分(例如,5-叠氮戊酸、(S)-2-(叠氮甲基)-1-Boc-吡咯烷、4-叠氮苯胺、或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯);硫醇反应 性间隔子,例如为PEG的那些(例如,SM(PEG)n NHS-PEG-马来酰亚胺)、烷烃链(例如,3-(吡啶-2-基二硫烷基)-丙酸-Osu或6-(3'-[2-吡啶基二硫]-丙酰胺基)己酸磺基琥珀酰亚胺基酯));和用于寡核苷酸合成的亚酰胺,如氨基修饰剂(例如,6-(三氟乙酰氨基)-已基-(2-氰乙基)-(N,N-二异丙基)-亚磷酰胺)、硫醇修饰剂(例如,S-三苯甲基-6-巯基己基-1- [ (2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺或化学反应对修饰剂(例如,6-己炔-1-基-(2-氰乙基)-(N, N-二异丙基)-亚磷酰胺、3-二甲氧基三苯甲基氧基-2-(3-(3-炔丙基氧基丙酰氨基)丙酰氨基)丙基-1-O-琥珀酰基、长链烷基氨基CPG、或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯))。另外的间隔子是本领域中已知的,并且可以在文库合成期间使用的那些包括但不限于5'-0-二甲氧基三苯甲基-1',2'-双脱氧核糖-3'-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;9-0-二甲氧基三苯甲基-三甘醇,1-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;3-(4, 4'-二甲氧基三苯甲基氧基)丙基-1-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺;和18-O-二甲氧基三苯甲基六乙二醇,1-[(2-氰乙基)-(N,N-二异丙基)]-亚磷酰胺。本文的任何间隔子可以以不同的组合彼此串联地添加,以产生不同期望长度的间隔子。
间隔子也可以是分支的,其中分支的间隔子是本领域所熟知的,并且示例可由对称或不对称的双体或对称的三体组成。参见例如Newcome等人,Dendritic Molecules:Concepts,Synthesis,Perspectives,VCH Publishers(1996);Boussif等人,Proc.Natl.Acad.Sci.USA 92:7297-7301(1995);以及Jansen等人,Science 266:1226(1994)。
用于确定复合物的核苷酸序列的方法
本发明的特征在于包括确定复合物的核苷酸序列的方法,使得可以在装配标记序列的序列和化学实体的结构单元(或构件)之间建立编码关系。具体地,可以由寡核苷酸中的碱基序列推断化学实体的身份和/或历史。使用这种方法,可以用特定的标记序列处理包括不同化学实体或成员(例如,小分子或肽)的文库。
本文所描述的任何键可以是可逆或不可逆的。可逆的键包括光反应性键(例如,氰乙烯基咔唑基团和胸苷)和氧化还原键。在本文中描述另外的连接。
在另选的实施方案中,可以酶修复“不可读的”键以产生可读或至少可移位的键。酶修复过程是本领域技术人员所熟知的,并且包括但不限于嘧啶(例如,胸苷)二聚体修复机制(例如,使用光裂合酶或糖基化酶(例如,T4嘧啶二聚体糖基化酶(PDG)))、碱基切除修复机制(例如,使用糖基化酶、脱嘌呤/脱嘧啶(AP)核酸内切酶、Flap核酸内切酶、或聚ADP核糖聚合酶(例如,人脱嘌呤/脱嘧啶(AP)核酸内切酶,APE 1;核酸内切酶III(Nth)蛋白质;核酸内切酶IV;核酸内切酶V;甲酰氨基嘧啶[fapy]-DNA糖基化酶(Fpg);人8-氧代鸟嘌呤糖基化酶1(α同种型)(hOGGl);人核酸内切酶VIII样l(hNEILl);尿嘧啶-DNA糖基化酶(UDG);人单链选择性单功能尿嘧啶DNA糖基化酶 (SMUG1);和人烷基腺嘌呤DNA糖基化酶(hAAG)),其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、甲基化修复机制(例如,使用甲基鸟嘌呤甲基转移酶)、AP修复机制(例如,使用脱嘌呤/脱嘧啶(AP)核酸内切酶(例如,APE1;核酸内切酶III;核酸内切酶IV;核酸内切酶V;Fpg;hOGGl;和hNEILl),其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、核苷酸切除修复机制(例如,使用切除修复交叉互补蛋白质或切除核酸酶,其可以任选地与用于修复的一种或多种核酸内切酶、DNA或RNA聚合酶、和/或连接酶组合)、和错配修复机制(例如,使用核酸内切酶(例如T7核酸内切酶I;MutS、MutH和/或MutL),其可以任选地与用于修复的一种或多种外切核酸酶、核酸内切酶、解旋酶、DNA或RNA聚合酶和/或连接酶组合)。商业酶混合物可以用于容易地提供这些类型的修复机制,例如,PreCR® RepairMix(New England Biolabs Inc.,Ipswich MA),其包括Taq DNA连接酶、核酸内切酶 IV、Bst DNA聚合酶、Fpg、尿嘧啶-DNA糖基化酶(UDG)、T4 PDG(T4核酸内切酶V)和核酸内切酶VIII。
用于编码文库内化学实体的方法
本发明的方法可利用具有不同数量的由寡核苷酸标记编码的化学实体的文库。构件和编码DNA标记的示例可见于美国专利申请公布2007/0224607,其中的构件和标记以引用方式并入本文。
每个化学实体由一个或多个构件和任选的支架形成。支架用于提供在特定几何形状中的一个或多个多样性节点(例如,提供三个节点的三嗪,其空间上设置在杂芳基环或线性几何形状周围)。
可以将构件和它们的编码标记直接或间接地(例如,经由间隔子)添加至头片段以形成复合物。当该头片段包括间隔子时,将构件或支架添加至间隔子的末端。当不存在间隔子时,可以将构件直接添加至头片段或构件本身可以包括与头片段的官能团反应的间隔子。在本文中描述示例性间隔子和头片段。
可以以任何可用的方式添加支架。例如,支架可以被添加至间隔子或头片段的末端,并且可以将连续构件添加至支架的可用多样性节点。在另一个示例中,首先将构件An添加至间隔子或头片段,然后使支架S的多样性节点与构件An中的官能团反应。编码特定支架的寡核苷酸标记可以任选地添加至头片段或复合物。例如,将Sn添加至n个反应容器中的复合物,其中n是大于1的整数,并且标记Sn (即,标记S1,S2, …,Sn-1,Sn)结合至复合物的官能团。
可以在多重合成步骤中添加构件。例如,将任选具有连接的间隔子的头片段的等分试样分到n个反应容器中,其中n是2或更大的整数。在第一步骤中,将构件An添加至每个n反应容器中(即,将构件A1,A2,… An-1,An添加至反应容器1,2,… n-1,n中),其中n是整数,并且每个构件An是唯一的。在第二步骤中,将支架S添加至每个反应容器中,以形成An-S复合物。任选地,可以将支架Sn加至每个反应容器中以形成An-Sn复合物,其中n是大于二的整数,并且每个支架Sn可以是唯一的。在第三步骤中,将构件Bn添加至含有An-S复合物的每个n反应容器中(即,将构件B1,B2,… Bn-1,Bn添加至含有A1-S,A2-S,… An-1-S,An-S复合物的反应容器1,2,… n-1,n中),其中每个构件Bn是唯一的。在另外的步骤中,可以将构件Cn添加至含有Bn-An-S复合物的每个n反应容器中(即,构件C1,C2,… Cn-1,Cn添加至含有B1-A1-S… Bn-An-S复合物的反应容器1,2,… n-1,n中),其中每个构件Cn是唯一的。所得文库将具有n3数量的具有n3个标记的复合物。以这种方式,可以使用另外的合成步骤来结合另外的构件以进一步多样化文库。
在形成文库之后,所得复合物可以任选地进行纯化并且经受聚合或连接反应,例如,至头片段。这种一般策略可以被扩展至包括另外的多样性节点和构件(例如,D,E,F等)。例如,第一多样性节点与构件和/或S反应并且由寡核苷酸标记编码。然后,另外的构件与所得复合物反应,并且由另外的构件衍生随后的多样性节点,其由用于聚合或连接反应的引物编码。
为了形成编码文库,在每个合成步骤之后或之前将寡核苷酸标记添加至复合物。例如,在将构件An添加至每个反应容器中之前或之后,将标记An结合至头片段的官能团(即,将标记A1,A2,…An-1,An添加至含有头片段的反应容器1,2,… n-1,n中)。每个标记An具有不同的序列,其与每个唯一的构件An关联,并且确定标记An的序列提供构件An的化学结构。以这种方式,使用另外的标记为另外的构件或另外的支架进行编码。
另外,添加至复合物的最后一个标记也可包括引物结合序列或提供允许结合(例如,通过连接)引物结合序列的官能团。引物结合序列可用于扩增和/或测序复合物的寡核苷酸标记。用于扩增和用于测序的示例性方法包括聚合酶链式反应(PCR)、直链扩增(LCR)、滚环扩增(RCA)或本领域已知的用于扩增或测定核酸序列的任何其它方法。
使用这些方法,可形成具有大量编码化学实体的大文库。例如,使头片段与间隔子和构件An反应,该构件包括1,000个不同的变体(即,n = 1,000)。对于每个构件An,将DNA标记An连接至或引物延伸至头片段。可以在1,000孔板或10 x 100孔板中进行这些反应。可以合并所有反应物、任选地纯化并且拆分成第二组板。接下来,可以用构件Bn进行相同程序,其也包括1,000种不同的变体。可以将DNA标记Bn连接至An-头片段复合物,并且可以合并所有反应。所得文库包括An x Bn的1,000 x 1,000个组合(即,000,000种化合物),其由1,000,000种不同的标记组合标记。相同方法可扩展为添加构件Cn、Dn、En等。所产生的文库然后可以用于识别结合至靶标的化合物。可以任选地通过DNA标记的PCR和测序来评估结合至文库的化学实体的结构以识别所富集的化合物。
这种方法可以被修改以避免在添加每个构件之后加标记或避免合并(或混合)。例如,可以通过将构件An添加至n个反应容器(其中n是大于1的整数)、并且将相同构件B1添加至每个反应孔来修改该方法。这里,对于每个化学实体B1是相同的,并且因此,不需要编码这个构件的寡核苷酸标记。在添加构件之后,可合并或不合并复合物。例如,在构件添加的最终步骤后,不合并文库,并且分别筛选所述池(pool)以识别结合至靶标的化合物。为了避免在合成之后合并所有反应物,例如可以使用ELISA、SPR、ITC、Tm改变、SEC或类似试验来以高通量形式监测传感器表面上的结合(例如384孔板和1,536孔板)。例如,可以用DNA标记An编码构件An,并且可以通过其在孔板内的位置来编码构件Bn。然后可以通过使用结合试验(例如,ELISA、SPR、ITC、Tm shift、SEC或类似试验)、并且通过由测序、微阵列分析和/或限制消化分析进行An标记分析来识别候选化合物。这一分析允许识别产生所期望的分子的构件An和Bn的组合。
扩增方法可以任选地包括形成油包水乳液以形成多个水性微反应器。可以调整反应条件(例如,复合物的浓度和微反应器的尺寸)以提供(平均来说)具有化合物文库的至少一个成员的微反应器。每个微反应器也可以包含靶标、能够结合至复合物或复合物的一部分(例如,一个或多个标记)和/或结合靶标的单个珠粒、和具有一种或多种必需试剂以进行核酸扩增的扩增反应溶液。在扩增微反应器中的标记之后,标记的扩增拷贝将结合至微反应器中的珠粒,并且可以通过任何可用的方法来识别涂覆的珠粒。
一旦识别了来自结合至感兴趣靶标的第一文库的构件,可以以迭代的方式来制备第二文库。例如,可以添加一个或两个另外的多样性节点,并且形成并取样第二文库,如本文所述。可以根据需要重复这一过程多次以形成具有所期望分子和药学性能的分子。
各种连接技术可以用于添加支架、构件、间隔子、键和标记。因此,本文所述的任何结合步骤可以包括任何可用的连接技术或技术。示例性的连接技术包括酶促连接,例如使用一种或多种RNA连接酶和/或DNA连接酶的酶促连接,如本文所述;以及化学连接,例如使用化学反应对的化学连接,如本文所述。
筛选方法
有多种已建立的技术方法来确定化合物与蛋白的结合,例如通过确定Kd。用于检测或定量化合物与靶蛋白结合的方法包括例如吸光度、荧光、拉曼散射、磷光、发光、荧光素酶测定和放射性。示例性技术包括表面等离子体共振(SPR)和荧光偏振(FP)。SPR测量当化合物与固定在金属表面上的蛋白结合时该金属表面的折射率的变化,而FP使用入射光的偏振损失测量化合物与蛋白结合时所引起的翻滚速率(tumbling rate)的变化。在一些实施方案中,这些方法可用于实验性地确定使用本发明的方法预测的候选化合物结合靶蛋白的结合。
或者,可以使用基于亲和力的方法鉴定结合靶蛋白的化合物。例如,具有亲和标记(例如poly-His标记)的靶蛋白可以与饱和浓度的一种或多种候选化合物预温育。随后的亲和纯化和化合物鉴定(例如,通过利用身份标记)将允许鉴定结合靶蛋白的化合物。
靶蛋白
靶蛋白(例如真核靶蛋白如哺乳动物靶蛋白或真菌靶蛋白或原核靶蛋白如细菌靶蛋白)是介导疾病状况或疾病状况症状的蛋白。因此,通过调节(抑制或增加)其活性可以获得期望的治疗效果。
靶蛋白可以是天然存在的,例如野生型。或者,靶蛋白可以不同于野生型蛋白,但仍保留生物学功能,例如作为等位基因变体、剪接突变体或生物学活性片段。
在一些实施方案中,靶蛋白是酶(例如激酶)。在一些实施方案中,靶蛋白是跨膜蛋白。在一些实施方案中,靶蛋白具有卷曲螺旋结构。在某些实施方案中,靶蛋白是一种二聚体复合物蛋白。
在一些实施方案中,靶蛋白是GTPase,如DIRAS1、DIRAS2、DIRAS3、ERAS、GEM、HRAS、KRAS、MRAS、NKIRAS1、NKIRAS2、NRAS、RALA、RALB、RAP1A、RAP1B、RAP2A、RAP2B、RAP2C、RASD1、RASD2、RASL10A、RASL10B、RASL11A、RASL11B、RASL12、REM1、REM2、RERG、RERGL、RRAD、RRAS、RRAS2、RHOA、RHOB、RHOBTB1、RHOBTB2、RHOBTB3、RHOC、RHOD、RHOF、RHOG、RHOH、RHOJ、RHOQ、RHOU、RHOV、RND1、RND2、RND3、RAC1、RAC2、RAC3、CDC42、RAB1A、RAB1B、RAB2、RAB3A、RAB3B、RAB3C、RAB3D、RAB4A、RAB4B、RAB5A、RAB5B、RAB5C、RAB6A、RAB6B、RAB6C、RAB7A、RAB7B、RAB7L1、RAB8A、RAB8B、RAB9、RAB9B、RABL2A、RABL2B、RABL4、RAB10、RAB11A、RAB11B、RAB12、RAB13、RAB14、RAB15、RAB17、RAB18、RAB19、RAB20、RAB21、RAB22A、RAB23、RAB24、RAB25、RAB26、RAB27A、RAB27B、RAB28、RAB2B、RAB30、RAB31、RAB32、RAB33A、RAB33B、RAB34、RAB35、RAB36、RAB37、RAB38、RAB39、RAB39B、RAB40A、RAB40AL、RAB40B、RAB40C、RAB41、RAB42、RAB43、RAP1A、RAP1B、RAP2A、RAP2B、RAP2C、ARF1、ARF3、ARF4、ARF5、ARF6、ARL1、ARL2、ARL3、ARL4、ARL5、ARL5C、ARL6、ARL7、ARL8、ARL9、ARL10A、ARL10B、ARL10C、ARL11、ARL13A、ARL13B、ARL14、ARL15、ARL16、ARL17、TRIM23、ARL4D、ARFRP1、ARL13B、RAN、RHEB、RHEBL1、RRAD、GEM、REM、REM2、RIT1、RIT2、RHOT1或RHOT2。在一些实施方案中,靶蛋白是GTPase活化蛋白,如NF1、IQGAP1、PLEXIN-B1、RASAL1、RASAL2、ARHGAP5、ARHGAP8、ARHGAP12、ARHGAP22、ARHGAP25、BCR、DLC1、DLC2、DLC3、GRAF、RALBP1、RAP1GAP、SIPA1、TSC2、AGAP2、ASAP1或ASAP3。在一些实施方案中,靶蛋白是鸟苷酸交换因子,如CNRASGEF、RASGEF1A、RASGRF2、RASGRP1、RASGRP4、SOS1、RALGDS、RGL1、RGL2、RGR、ARHGEF10、ASEF/ARHGEF4、ASEF2、DBS、ECT2、GEF-H1、LARG、NET1、OBSCURIN、P-REX1、P-REX2、PDZ-RHOGEF、TEM4、TIAM1、TRIO、VAV1、VAV2、VAV3、DOCK1、DOCK2、DOCK3、DOCK4、DOCK8、DOCK10、C3G、BIG2/ARFGEF2、EFA6、FBX8或GEP100。在某些实施方案中,靶蛋白是具有蛋白-蛋白相互作用结构域的蛋白,如ARM;BAR;BEACH;BH;BIR;BRCT;BROMO;BTB;C1;C2;CARD;CC;CALM;CH;CHROMO;CUE;DEATH;DED;DEP;DH;EF-hand;EH;ENTH;EVH1;F-box;FERM;FF;FH2;FHA;FYVE;GAT;GEL;GLUE;GRAM;GRIP;GYF;HEAT;HECT;IQ;LRR;MBT;MH1;MH2;MIU;NZF;PAS;PB1;PDZ;PH;POLO-Box;PTB;PUF;PWWP;PX;RGS;RING;SAM;SC;SH2;SH3;SOCS;SPRY;START;SWIRM;TIR;TPR;TRAF;SNARE;TUBBY;TUDOR;UBA;UEV;UIM;VHL;VHS;WD40;WW;SH2;SH3;TRAF;溴区结构域;或TPR。在一些实施方案中,靶蛋白是热休克蛋白,如Hsp20、Hsp27、Hsp70、Hsp84、αB晶体、TRAP-1、hsf1或Hsp90。在某些实施方案中,靶蛋白是离子通道,如Cav2.2、Cav3.2、IKACh、Kv1.5、TRPA1、NAv1.7、Nav1.8、Nav1.9、P2X3或P2X4。在一些实施方案中,靶蛋白是螺旋卷曲蛋白如geminin、SPAG4、VAV1、MAD1、ROCK1、RNF31、NEDP1、HCCM、EEA1、Vimentin、ATF4、Nemo、SNAP25、Syntaxin 1a、FYCO1或CEP250。在某些实施方案中,靶蛋白是激酶,如ABL、ALK、AXL、BTK、EGFR、FMS、FAK、FGFR1、2、3、4、FLT3、HER2/ErbB2、HER3/ErbB3、HER4/ErbB4、IGF1R、INSR、JAK1、JAK2、JAK3、KIT、MET、PDGFRA、PDGFRB、RET RON、ROR1、ROR2、ROS、SRC、SYK、TIE1、TIE2、TRKA、TRKB、KDR、AKT1、AKT2、AKT3、PDK1、PKC、RHO、ROCK1、RSK1、RKS2、RKS3、ATM、ATR、CDK1、CDK2、CDK3、CDK4、CDK5、CDK6、CDK7、CDK8、CDK9、CDK10、ERK1、ERK2、ERK3、ERK4、GSK3A、GSK3B、JNK1、JNK2、JNK3、AurA、ARuB、PLK1、PLK2、PLK3、PLK4、IKK、KIN1、cRaf、PKN3、c-Src、Fak、PyK2或AMPK。在一些实施方案中,靶蛋白是磷酸酶,如WIP1、SHP2、SHP1、PRL-3、PTP1B或STEP。在某些实施方案中,靶蛋白是泛素连接酶,如BMI-1、MDM2、NEDD4-1、β-TRCP、SKP2、E6AP或APC/C。在一些实施方案中,靶蛋白是染色质修饰因子/重建因子,如由基因BRG1、BRM、ATRX、PRDM3、ASH1L、CBP、KAT6A、KAT6B、MLL、NSD1、SETD2、EP300、KAT2A或CREBBP编码的染色质修饰因子/重建因子。在一些实施方案中,靶蛋白是转录因子,如由以下基因编码的转录因子:EHF、ELF1、ELF3、ELF4、ELF5、ELK1、ELK3、ELK4、ERF、ERG、ETS1、ETV1、ETV2、ETV3、ETV4、ETV5、ETV6、FEV、FLI1、GAVPA、SPDEF、SPI1、SPIC、SPIB、E2F1、E2F2、E2F3、E2F4、E2F7、E2F8、ARNTL、BHLHA15、BHLHB2、BHLBHB3、BHLHE22、BHLHE23、BHLHE41、CLOCK、FIGLA、HAS5、HES7、HEY1、HEY2、ID4、MAX、MESP1、MLX、MLXIPL、MNT、MSC、MYF6、NEUROD2、NEUROG2、NHLH1、OLIG1、OLIG2、OLIG3、SREBF2、TCF3、TCF4、TFAP4、TFE3、TFEB、TFEC、USF1、ARF4、ATF7、BATF3、CEBPB、CEBPD、CEBPG、CREB3、CREB3L1、DBP、HLF、JDP2、MAFF、MAFG、MAFK、NRL、NFE2、NFIL3、TEF、XBP1、PROX1、TEAD1、TEAD3、TEAD4、ONECUT3、ALX3、ALX4、ARX、BARHL2、BARX、BSX、CART1、CDX1、CDX2、DLX1、DLX2、DLX3、DLX4、DLX5、DLX6、DMBX1、DPRX、DRGX、DUXA、EMX1、EMX2、EN1、EN2、ESX1、EVX1、EVX2、GBX1、GBX2、GSC、GSC2、GSX1、GSX2、HESX1、HMX1、HMX2、HMX3、HNF1A、HNF1B、HOMEZ、HOXA1、HOXA10、HOXA13、HOXA2、HOXAB13、HOXB2、HOXB3、HOXB5、HOXC10、HOXC11、HOXC12、HOXC13、HOXD11、HOXD12、HOXD13、HOXD8、IRX2、IRX5、ISL2、ISX、LBX2、LHX2、LHX6、LHX9、LMX1A、LMX1B、MEIS1、MEIS2、MEIS3、MEOX1、MEOX2、MIXL1、MNX1、MSX1、MSX2、NKX2-3、NKX2-8、NKX3-1、NKX3-2、NKX6-1、NKX6-2、NOTO、ONECUT1、ONECUT2、OTX1、OTX2、PDX1、PHOX2A、PHOX2B、PITX1、PITX3、PKNOX1、PROP1、PRRX1、PRRX2、RAX、RAXL1、RHOXF1、SHOX、SHOX2、TGIF1、TGIF2、TGIF2LX、UNCX、VAX1、VAX2、VENTX、VSX1、VSX2、CUX1、CUX2、POU1F1、POU2F1、POU2F2、POU2F3、POU3F1、POU3F2、POU3F3、POU3F4、POU4F1、POU4F2、POU4F3、POU5F1P1、POU6F2、RFX2、RFX3、RFX4、RFX5、TFAP2A、TFAP2B、TFAP2C、GRHL1、TFCP2、NFIA、NFIB、NFIX、GCM1、GCM2、HSF1、HSF2、HSF4、HSFY2、EBF1、IRF3、IRF4、IRF5、IRF7、IRF8、IRF9、MEF2A、MEF2B、MEF2D、SRF、NRF1、CPEB1、GMEB2、MYBL1、MYBL2、SMAD3、CENPB、PAX1、PAX2、PAX9、PAX3、PAX4、PAX5、PAX6、PAX7、BCL6B、EGR1、EGR2、EGR3、EGR4、GLIS1、GLIS2、GLI2、GLIS3、HIC2、HINFP1、KLF13、KLF14、KLF16、MTF1、PRDM1、PRDM4、SCRT1、SCRT2、SNAI2、SP1、SP3、SP4、SP8、YY1、YY2、ZBED1、ZBTB7A、ZBTB7B、ZBTB7C、ZIC1、ZIC3、ZIC4、ZNF143、ZNF232、ZNF238、ZNF282、ZNF306、ZNF410、ZNF435、ZBTB49、ZNF524、ZNF713、ZNF740、ZNF75A、ZNF784、ZSCAN4、CTCF、LEF1、SOX10、SOX14、SOX15、SOX18、SOX2、SOX21、SOX4、SOX7、SOX8、SOX9、SRY、TCF7L1、FOXO3、FOXB1、FOXC1、FOXC2、FOXD2、FOXD3、FOXG1、FOXI1、FOXJ2、FOXJ3、FOXK1、FOXL1、FOXO1、FOXO4、FOXO6、FOXP3、EOMES、MGA、NFAT5、NFATC1、NFKB1、NFKB2、TP63、RUNX2、RUNX3、T、TBR1、TBX1、TBX15、TBX19、TBX2、TBX20、TBX21、TBX4、TBX5、AR、ESR1、ESRRA、ESRRB、ESRRG、HNF4A、NR2C2、NR2E1、NR2F1、NR2F6、NR3C1、NR3C2、NR4A2、RARA、RARB、RARG、RORA、RXRA、RXRB、RXRG、THRA、THRB、VDR、GATA3、GATA4或GATA5;或C-myc、Max、Stat3、雄激素受体、C-Jun、C-Fox、N-Myc、L-Myc、MITF、Hif-1α、Hif-2α、Bcl6、E2F1、NF-kappa B、Stat5或ER(coact)。在某些实施方案中,靶蛋白是TrkA、P2Y14、mPEGS、ASK1、ALK、Bcl-2、BCL-XL、mSIN1、RORγt、IL17RA、eIF4E、TLR7 R、PCSK9、IgE R、CD40、CD40L、Shn-3、TNFR1、TNFR2、IL31RA、OSMR、IL12 β1,2、Tau、FASN、KCTD 6、KCTD 9、Raptor、Rictor、RALGAPA、RALGAPB、膜连蛋白家族成员、BCOR、NCOR、β连环蛋白、AAC 11、PLD1、PLD2、Frizzled7、RaLP、MLL-1、Myb、Ezh2、RhoGD12、EGFR、CTLA4R、GCGC (coact)、Adiponectin R2、GPR 81、IMPDH2、IL-4R、IL-13R、IL-1R、IL2-R、IL-6R、IL-22R、TNF-R、TLR4、Nrlp3或OTR。
虚拟筛选方法
数据收集和统计结果的产生
在一些实施方案中,本发明的虚拟筛选方法中的步骤包括获得源自针对靶蛋白的DNA编码文库选择实验(例如,基于亲和力的实验)的数据。选择数据作为DNA序列读出,然后将其聚集成统计学读出,例如序列计数。聚集成统计结果基于对常见编码化合物的分组,例如,由DNA编码的推定化学结构(实例水平)或编码化学结构的部分亚结构(单、二或三合成子水平)。使用来自一个或多个选择条件的测序获得的统计结果的截止值来确定化合物或部分化合物是否与靶标(结合剂)结合。每个选择条件使用数百万到千万(或甚至上亿)个序列,以便收集反映真正潜在的小分子/蛋白结合的显著性统计结果。
机器学习
机器学习方法在本领域中是已知的,例如,非限制性机器学习方法包括朴素贝叶斯(Naïve Bayes)、随机森林(Random Forest)、决策树(Decision Tree)、支持向量机(SupportVector Machine)、神经网络(Neural Net)和深度学习(Deep Learning)。
在一些实施方案中,来自数据收集步骤的每个数据点用于训练机器学习算法。每个数据点包括从来自DNA编码文库的化合物的分子结构(完整或部分)得到的信息和来自一个或多个选择实验的相关统计结果。该结构用于产生数字输入(计算的化学性质,例如分子量、cLogP)和二进制串(例如反映结构内的原子、原子团和连接性的化学指纹)。这些分子计算的读出结果被用作输入列来用于训练和通过机器学习算法预测。在一些实施方案中,构建模型使得所需的输入仅为直接源自分子结构的那些。在一些实施方案中,可以计算这些指纹和性质的任何结构可以产生预测。
在一些实施方案中,化合物的进一步的结构衍生物(例如,去除侧链的核心分析)可以用于产生进一步的指纹和性质计算结果,或用于训练和预测的替代结构指纹。
在一些实施方案中,使用源自一个或多个DNA编码文库选择的数据来评估分子是否被认为代表结合剂(阳性)、非结合剂(阴性)或非特异性结合剂(阴性)的示例。尽管评估(阳性或阴性)基于编码分子在至少一个DNA编码文库选择中的行为,但是来自其它来源的额外信息可用于评估用于训练的阳性和阴性分类。另外值得注意的是,已知已在文库中合成但不显示任何来自测序的计数的结构被认为是训练中的阴性示例。在一些实施方案中,阳性对照包括在数据集内。例如,可以包括来自对靶蛋白具有已知结合亲和力的化合物(例如,已知抑制剂或天然配体)的结合相互作用数据。
在一个实施方案中,输入分子的结合的评估通过检测在包含靶蛋白的选择中的统计学显著富集(升高的序列计数)来确定。在不包括靶蛋白的对照条件下的富集也用于评估结合的特异性。这种条件通常包括用于在选择期间捕获蛋白的树脂,但不加入该蛋白。可以使用另外的信息来确定特定分子或部分分子被标记为阳性,例如,在另外的条件下或当针对相关蛋白进行选择时富集或不富集。也可使用源自针对许多非靶蛋白的选择的信息,例如,给定分子或部分分子在选择中已显示对其表现出富集的蛋白总数的计数。例如,检测针对数据库中的若干另外的靶标给定分子的富集可能由于缺乏特异性而导致阴性指示。
分子表现
在本发明的一些实施方案中,使用分子表现来产生估计的结合计算结果。分子表现包括例如拓扑表现、静电表现、几何表现或量子化学表现。拓扑表现可以基于原子、特征或官能团以及它们的连接性(例如,指纹、连接表、分子连接性和/或分子图形表现)。静电表现包括例如表面电子。几何表现是例如药效团、药效团指纹、基于形状的指纹,和/或使用原子、特征或官能团的3D分子坐标。在一些实施方案中,使用量子化学表现。在一些实施方案中,电子分子表现是化学指纹。
在一些实施方案中,本发明的虚拟筛选方法中的步骤包括产生已产生结合相互作用数据的化合物和候选化合物二者的化学指纹。化学指纹可以使用本领域已知的任何方法产生,例如ECFP6、FCFP6、ECFP4、MACCS或摩根/环形指纹。然后分析化学指纹以鉴定模式,例如鉴定增加或减少与靶蛋白结合的结构特征。与较少数目的化合物、例如100,000个以下的化合物的化学指纹比较相比,从大量化合物(例如至少250,000个分子)的化学指纹比较产生的信息可用于增加产生的估计的结合相互作用的准确度。在一些实施方案中,化学指纹在该方法中用作机器学习的主要信息。
例如,8位指纹的示例性训练集输入可以包括:
Figure DEST_PATH_IMAGE001
指纹是化学实体的表现。通过输入训练行(即,每个化合物的各列(即指纹位)加上指示其是阳性还是阴性实施例的训练列)进行机器学习。
各种算法(随机森林(RF)、朴素贝叶斯、深度学习、神经网络等)通过寻找与真或假指示相关的模式来操作。这些模式可以涉及一个或多个位。它们可以通过明确地分析统计结果(例如,朴素贝叶斯、随机森林)或通过来自变化模型参数的经验反馈(例如,神经网络)来发现。
可以使用的另一种方法是除了指纹之外还加入计算性质列(例如MW、cLogP、tPSA)。在这种情况下,机器学习算法可以在其统计分析或其模型参数搜索中利用这些其它的列。与不使用性质而执行的预测相比,在分析中使用性质可以提高预测的准确度。
在该方法中随后预测的分子以与在训练集中表示的那些完全相同的方式表示,关键区别在于上面看到的训练列现在是未知的。该模型产生待填写到结合特征列(例如,结合预测列)中的预测值。在一些实施方案中,该列是Boolean (T/F)、分类的(例如,非结合剂、竞争性结合剂、非竞争性结合剂、非竞争性结合剂)或数字的(例如,反映结合剂的概率评分)。
Figure 614224DEST_PATH_IMAGE002
仅包括指纹列的待预测的分子可以与由上述第一实施例产生的模型一起使用。
Figure DEST_PATH_IMAGE003
以下是具有扩展为包括可与由以上第二实施例创建的模型一起使用的性质的输入信息的示例性预测。
Figure 469047DEST_PATH_IMAGE004
输出
在一些实施方案中,所生成的模型将产生指示候选化合物是阳性还是阴性的二进制评分,或指示候选化合物的活性/结合是阳性还是阴性的模型指派可能性的概率评分(例如,从0至1)。然后,该值可用于对给定分子作出通过/不通过决定(二进制情况下)或告知候选化合物的优先次序(概率评分)。
实施例
实施例1
使用源自一组文库的可溶性环氧水解酶(sEH)的选择数据来训练若干机器学习模型(随机森林、朴素贝叶斯或神经网络)中的一种,然后用于针对相同靶标预测来自未包括在训练集中的文库的分子的选择行为。在训练集中使用的文库包括具有25,844,065个化合物的线性肽文库、具有3,976,320个化合物的3-环吡唑文库、具有5,079,459个化合物的2-环吡啶文库和具有1,511,399,304个化合物的4-环大环文库。用于预测集的文库包括具有221,580,000个化合物的3-环线性肽文库、具有285,917,292个化合物的3-环吡啶文库和具有1,622,820个化合物的2-环苯并咪唑文库。
如图1所示,在预测集中看到结合剂的富集。图中的4个象限表示使用增加的文库数(从左到右,从上到下)的阳性双合成子的预测。Y轴代表与从原始群体随机选择相比,在预测集中阳性的富集。Y轴显示了在预测集中发现的在原始集中的阳性百分比。结果表明,对于训练集和测试集(保持双合成子不在训练集中,但来自相同文库),预测集的富集始终是原始群体的2-2.5倍。预测集是来自未用于训练的文库的双合成子。在这种情况下,与原始群体相比,增加用于训练的文库的数目显示预测群体中增加的阳性率。
实施例2
来自与实施例1相同文库用于sEH的选择数据与机器学习算法(RF、MLP、深度学习)一起使用,以训练和产生用于预测未在DNA编码文库中发现的分子的活性的模型。例如,输入数据并产生可在常规高通量筛选(HTS)实验(即10K至1Ms分子的自动测试)中预测被测试分子活性的模型。将通过该模型的预测用作滤器以从10,000至100,000个或更多分子的初始列表产生一个列表(例如,100个化合物)。目标是鉴定该短列表中的分子,使得最终列表比在初始集中发现的活性分子的潜在速率大大富集(10X至100X)。
如图2所示,与随机选择相比,已经观察到大于40X的预测分子的富集。图2示出了由于预测模型的改进随时间的多次试验。该趋势显示,与随机选择相比,在预测集中主要HTS命中和更严格确认的活性物的富集增加。将确认的活性物进行第二次、证实性生物化学测定并证明活性。最佳结果显示,与来自原始群体的随机选择的分子相比,所得的预测集改善了>40倍。
实施例3. 预测的优化
对于给定的一个或多个目标,存在已知的一组HTS数据。测试多个参数设置以便实现高预测率。实际上,高预测率是根据HTS结果精调预测的结果。使用HTS来证实适用性,然后可以使用该模型预测新化合物或现有化合物(例如,可商购获得的或来自预先存在的私有化合物库)。然后可在预测集内以更高活性物率(例如,大于1%或10%的活性分子)预期来测试这些分子,而不管随机样品的潜在活性物率。
实施例4. 预测的优化
来自针对给定靶标但在不同条件下(例如,使用不同的蛋白片段、突变体、同种型、使用密切相关的靶标、使用已知小分子竞争物等)的选择的数据用于进一步细化用于训练模型的训练集中的阳性数据的定义。
实施例5. 预测的优化
来自针对10至100种蛋白靶标、突变体、同种型等的选择的数据用作一系列另外的数据列,以便定义用于训练机器学习模型的阳性或阴性示例。
其它实施方案
在不脱离本发明的范围和精神的情况下,所描述的本发明的方法和系统的各种修改和变化对于本领域技术人员将是显而易见的。尽管已经结合具体的所需实施方案描述了本发明,但应当理解,所要求保护的本发明不应当过度地受限于这些具体的实施方案。实际上,对于医学、药理学或相关领域的技术人员显而易见的用于实施本发明的所述模式的各种修改旨在本发明的范围内。
本申请要求保护的是以下内容。

Claims (26)

1.一种方法,其包括以下步骤:
(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现,所述物理计算装置具有一组候选化合物的表现,
其中所述多个结合相互作用发现中的至少90%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用;
(b)使用所述多个结合相互作用发现使用所述计算装置以产生所述候选化合物的估计的结合相互作用;和
(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
2.根据权利要求1所述的方法,其中所述多个结合相互作用发现包括至少一百万个结合相互作用发现。
3.根据权利要求1或2所述的方法,其中所述多个结合相互作用发现中的至少95%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用。
4.根据权利要求1至3中任一项所述的方法,其中所述多个结合相互作用发现中的至少99%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用。
5.根据权利要求1至4中任一项所述的方法,其中所述多个结合相互作用发现中的至少50%通过使包含编码化合物身份的核苷酸标记的多个化合物同时与靶蛋白接触来确定。
6.根据权利要求1至5中任一项所述的方法,其中所述方法还包括提供一种或多种另外的靶蛋白的一个或多个另外的多个结合相互作用发现,其中所述多个结合相互作用发现中的至少50%代表所述另外的靶蛋白与来自与所述靶蛋白的所述多个结合相互作用的化合物之间的结合相互作用。
7.根据权利要求6所述的方法,其中所述候选化合物列表能够由候选化合物相对于所述一种或多种另外的靶蛋白对所述靶蛋白的选择性来显示和分级。
8.根据权利要求6或7所述的方法,其中所述一种或多种另外的靶蛋白包含所述靶蛋白的突变体。
9.根据权利要求1至8中任一项所述的方法,其中所述方法还包括提供一个或多个阴性对照实验的一个或多个另外的多个结合相互作用发现,其中所述多个结合相互作用发现中的至少50%代表来自与所述靶蛋白的所述多个结合相互作用的化合物的阴性对照实验。
10.根据权利要求1至9中任一项所述的方法,其中所述方法还包括通过互联网或向显示装置传送候选化合物列表。
11.根据权利要求1至10中任一项所述的方法,其中所述物理计算装置通过互联网访问和操作。
12.根据权利要求1至11中任一项所述的方法,其中所述估计的结合相互作用使用化学结构比较来产生。
13.根据权利要求12所述的方法,其中所述化学结构比较利用分子表现。
14.根据权利要求13所述的方法,其中所述分子表现包括化学指纹。
15.根据权利要求14所述的方法,其中所述化学指纹分析是ECFP6、FCFP6、ECFP4、MACCS或摩根/环形指纹。
16.根据权利要求1至15中任一项所述的方法,其中所述方法还包括对候选化合物的每个估计的结合相互作用产生可信度评分,其中所述可信度评分使用所述候选化合物与来自与所述靶蛋白的所述多个结合相互作用的一种或多种化合物的化学结构比较来产生。
17.根据权利要求16所述的方法,其中所述化学结构比较是主成分分析。
18.根据权利要求16或17所述的方法,其中所述候选化合物列表能够由所述候选化合物的所述估计的结合相互作用的可信度评分来显示和分级。
19.根据权利要求1至18中任一项所述的方法,其中所述方法还包括提供这组候选化合物的一个或多个性质发现。
20.根据权利要求19所述的方法,其中所述一个或多个性质发现包括分子量和/或clogP。
21.根据权利要求19或20所述的方法,其中利用所述一个或多个性质发现来产生所述估计的结合相互作用。
22.根据权利要求19至21中任一项所述的方法,其中所述候选化合物列表能够由所述一个或多个性质发现来显示和分级。
23.根据权利要求1至22中任一项所述的方法,其中所述方法还包括(d)合成来自所述候选化合物列表的一种或多种所述候选化合物。
24.根据权利要求23所述的方法,其中所述方法还包括使所述一种或多种合成的候选化合物与所述靶蛋白接触以确定一种或多种实验性结合相互作用。
25.一种计算机可读介质,其上存储有用于指导物理计算装置实施包括以下步骤的方法的可执行指令:
(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现,所述物理计算装置具有一组候选化合物的表现,
其中所述多个结合相互作用发现中的至少90%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用;
(b)使用所述多个结合相互作用发现使用所述计算装置以产生所述候选化合物的估计的结合相互作用;和
(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
26.一种物理计算装置,其具有一组候选化合物的表现并且用可执行指令编程以指导所述装置实施包括以下步骤的方法:
(a)在物理计算装置中提供靶蛋白的多个结合相互作用发现,所述物理计算装置具有一组候选化合物的表现,
其中所述多个结合相互作用发现中的至少90%代表所述靶蛋白与包含编码化合物身份的核苷酸标记的化合物之间的结合相互作用;
(b)使用所述多个结合相互作用发现使用所述计算装置以产生所述候选化合物的估计的结合相互作用;和
(c)输出能够由最高估计的结合相互作用显示和分级的候选化合物列表。
CN201880040438.9A 2017-04-18 2018-04-18 鉴定化合物的方法 Active CN110730822B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762486692P 2017-04-18 2017-04-18
US62/486692 2017-04-18
PCT/US2018/028050 WO2018195134A1 (en) 2017-04-18 2018-04-18 Methods for identifying compounds

Publications (2)

Publication Number Publication Date
CN110730822A true CN110730822A (zh) 2020-01-24
CN110730822B CN110730822B (zh) 2024-03-08

Family

ID=63856100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880040438.9A Active CN110730822B (zh) 2017-04-18 2018-04-18 鉴定化合物的方法

Country Status (9)

Country Link
US (1) US20200143903A1 (zh)
EP (1) EP3612545A4 (zh)
JP (2) JP7277378B2 (zh)
CN (1) CN110730822B (zh)
AU (2) AU2018256367A1 (zh)
BR (1) BR112019021786A2 (zh)
EA (1) EA201992476A1 (zh)
MA (1) MA51864A (zh)
WO (1) WO2018195134A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112021024915A2 (pt) * 2019-06-12 2022-01-18 Quantum Si Inc Técnicas para a identificação de proteína ao usar aprendizagem de máquina e sistemas e métodos relacionados
US20210303762A1 (en) * 2020-03-31 2021-09-30 International Business Machines Corporation Expert-in-the-loop ai for materials discovery
CN111863120B (zh) * 2020-06-28 2022-05-13 深圳晶泰科技有限公司 晶体复合物的药物虚拟筛选系统及方法
CN112086145B (zh) * 2020-09-02 2024-04-16 腾讯科技(深圳)有限公司 一种化合物活性预测方法、装置、电子设备和存储介质
WO2023069592A1 (en) * 2021-10-21 2023-04-27 Google Llc Multi-label neural architecture for modeling dna-encoded libraries data
WO2023239720A1 (en) * 2022-06-06 2023-12-14 The Trustees Of Indiana University Method of predicting ms/ms spectra and properties of chemical compounds

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659087A (zh) * 2013-06-13 2016-06-08 比奥德赛公司 筛选靶向靶生物实体的候选生物实体的方法
TW201629069A (zh) * 2015-01-09 2016-08-16 霍普驅動生物科技股份有限公司 參與協同結合之化合物及其用途

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998020437A2 (en) * 1996-11-04 1998-05-14 3-Dimensional Pharmaceuticals, Inc. System, method and computer program product for identifying chemical compounds having desired properties
US20040010376A1 (en) * 2001-04-17 2004-01-15 Peizhi Luo Generation and selection of protein library in silico
JP2005526518A (ja) * 2002-05-20 2005-09-08 アブマクシス,インコーポレイティド タンパク質ライブラリーのinsilico作成と選択
WO2006078228A1 (en) * 2002-09-16 2006-07-27 Plexxikon, Inc. Methods for the design of molecular scaffolds and ligands
DK2872680T3 (en) * 2012-07-13 2018-07-09 X Chem Inc DNA-encoded libraries with coding oligonucleotide compounds that cannot be read with polymerases
MA41298A (fr) * 2014-12-30 2017-11-07 X Chem Inc Procédés de marquage de banques codées par de l'adn

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659087A (zh) * 2013-06-13 2016-06-08 比奥德赛公司 筛选靶向靶生物实体的候选生物实体的方法
TW201629069A (zh) * 2015-01-09 2016-08-16 霍普驅動生物科技股份有限公司 參與協同結合之化合物及其用途

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANTIAGO VILAR等: "Computational Drug Target Screening through Protein Interaction Profiles" *
WILLY DECURTINS等: "Automated screening for small organic ligands using DNAencoded chemical libraries" *

Also Published As

Publication number Publication date
EP3612545A4 (en) 2021-01-13
JP2023113620A (ja) 2023-08-16
WO2018195134A1 (en) 2018-10-25
CN110730822B (zh) 2024-03-08
JP2020518898A (ja) 2020-06-25
AU2018256367A1 (en) 2019-11-28
MA51864A (fr) 2020-02-26
AU2023206117A1 (en) 2023-08-10
JP7277378B2 (ja) 2023-05-18
US20200143903A1 (en) 2020-05-07
EP3612545A1 (en) 2020-02-26
BR112019021786A2 (pt) 2020-05-05
EA201992476A1 (ru) 2020-02-25

Similar Documents

Publication Publication Date Title
CN110730822A (zh) 鉴定化合物的方法
AU2018202665B2 (en) DNA-encoded libraries having encoding oligonucleotide linkages not readable by polymerases
JP2020182491A (ja) 合成核酸スパイクイン
CN107428795B (zh) 用于标记dna编码文库的方法
CN106795553A (zh) 分析来自单个细胞或细胞群体的核酸的方法
Akoopie et al. A GTP-synthesizing ribozyme selected by metabolic coupling to an RNA polymerase ribozyme
US20200109446A1 (en) Chip hybridized association-mapping platform and methods of use
US11365441B2 (en) Method and apparatus for simultaneous targeted sequencing of DNA, RNA and protein
US10655162B1 (en) Identification of biomolecular interactions
WO2023091683A1 (en) Nucleic acid storage for blockchain and non-fungible tokens
DK2771485T3 (en) PROCEDURE FOR IDENTIFICATION OF APTAMER
EA042768B1 (ru) Способы идентификации соединений
Rath et al. Programmable design of functional ribonucleoprotein complexes
WO2022162211A1 (en) Rna aptamers and their use
US20230016731A1 (en) Affinity purification sequencing
EP4314339A1 (en) Chimeric artefact detection method
Meek Pushing the Boundaries of Selex for the Generation of Aptamers with Unique Functionality
Klaesson Development of DNA-based methods for analysis of protein interactions
Slaughter Article Watch: July 2019
CA3214604A1 (en) Fixed point number representation and computation circuits
RU2021108530A (ru) Высокопроизводительные библиотеки одиночных ядер и одиночных клеток и способы их получения и использования
WO2023168085A1 (en) Dna microarrays and component level sequencing for nucleic acid-based data storage and processing
JP2022542756A (ja) 既存の化合物ライブラリーのタグ付け及びコード付けのための方法
Chircus High Throughput Technologies for Studying Nucleic Acid-Protein Interactions
CN112105748A (zh) 测序和生产核酸序列的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40017902

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant