CN113728390A

CN113728390A - 使用合成数据预测药物结合的方法和系统

Info

Publication number: CN113728390A
Application number: CN202080018155.1A
Authority: CN
Inventors: S·S·麦金农; Z·萨菲克哈尼; R·弗农; A·E·布里尔顿; A·温德穆特
Original assignee: Cyclica Inc
Current assignee: Cyclica Inc
Priority date: 2019-01-04
Filing date: 2020-01-02
Publication date: 2021-11-30
Also published as: KR20210136982A; US20220108766A1; EP3906556A4; CA3125513A1; EP3906556A1; JP2022516344A; IL284550A; WO2020140156A1

Abstract

用于使用合成增强的数据预测药物‑靶标结合的方法涉及为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；使用所述多个幻影配体为药物‑靶标相互作用(DTI)数据库中的蛋白质和配体生成多个DTI特征；使用多个DTI特征生成机器学习模型；和使用机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

Description

使用合成数据预测药物结合的方法和系统

相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求2019年1月4日提交的美国临时申请第62/788,682号的优先权，所述临时申请具有与本申请相同的至少一名发明人，并且标题为“使用合成数据预测药物结合的方法和系统”。将美国临时申请第62/788,682号通过引用并入本文。

背景技术

存在计算方法来预测配体和蛋白质之间的相互作用。根据用于进行预测的信息类型，它们通常被归类为‘基于配体’或‘基于结构’。

基于蛋白质的预测具有学习生物物理兼容性的潜力，因此可能更具普遍性，但具有高度的数据约束性。具体而言，基于蛋白质的预测使用与蛋白质共结晶的配体的3D分子结构来评估或预测相互作用。这些方法对计算要求很高，而且它们往往只针对100到1000种不同的蛋白质进行训练。针对这些的神经网络往往具有非常高的特征空间与数据比率。结果，当应用于以前未见的蛋白质系统或药物支架时，该方法可在对接中产生大量的假阴性和/或假阳性。

可以使用具有数百万条记录的药物靶标相互作用(DTI)数据库执行基于配体的预测。公开可用的DTI数据库的实例包括ChEMBL、NCBI的Bioassay和STITCH。然而，这些记录往往只代表20,000种人类蛋白质中的约2,000种。由于配体与蛋白质的数据比率高，一种标准方法是为2,000种蛋白质中的每一种衍生许多不同的模型。这些往往是成功的，甚至在许多情况下超过了高通量实验结果，但其(1)仅代表约10％的人类蛋白质，(2)当单个蛋白质的例子之间没有太多化学多样性时，可能会更弱，和(3)各个模型不学习药物-蛋白质相容性的物理属性，缺少从用于生成其他模型的数据中受益。

发明内容

一般而言，在一个方面，一个或多个实施例涉及一种用于使用合成增强的数据预测药物-靶标结合的方法，该方法包括：为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；使用所述多个幻影配体为药物-靶标相互作用(DTI)数据库中的蛋白质和配体生成多个DTI特征；使用多个DTI特征生成机器学习模型；和使用机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

一般而言，在一方面，一个或多个实施例涉及一种非暂时性计算机可读介质，其包括用于使用合成增强的数据预测药物-靶标结合的计算机可读程序代码，该计算机可读程序代码使计算机系统：为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；使用所述多个幻影配体为药物-靶标相互作用(DTI)数据库中的蛋白质和配体生成多个DTI特征；使用DTI特征生成机器学习模型；和使用机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

一般而言，在一方面，一个或多个实施例涉及一种用于差异药物发现的系统，该系统包括：蛋白质结构数据库；幻影配体识别引擎，其被配置成为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；存储多个幻影配体的幻影配体数据库；存储蛋白质和配体的药物-靶标相互作用(DTI)数据库；特征生成引擎，其被配置为使用幻影配体数据库中的多个幻影配体为DTI数据库中的蛋白质和配体生成多个DTI特征；机器学习模型训练引擎，其配置为使用DTI特征生成机器学习模型；和DTI预测引擎，其被配置为使用机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

附图说明

通过实例的方式绘示了本实施方式，并且这些实施方式并不意图受到附图的图的限制。

图1A示出了根据一个或多个实施例的用于预测药物结合的系统的框图。

图1B示出了根据一个或多个实施例的蛋白质结构数据库的框图。

图1C示出了根据一个或多个实施例的幻影配体数据库的框图。

图1D示出了根据一个或多个实施例的药物-靶标相互作用数据库的框图。

图1E示出了根据一个或多个实施例的蛋白质注释数据库的框图。

图2示出了描述根据一个或多个实施例的用于训练用于预测药物-靶标相互作用的机器学习模型的方法的流程图。

图3示出了描述根据一个或多个实施例的用于生成幻影配体数据库的方法的流程图。

图4示出了描述根据一个或多个实施例的用于生成药物-靶标相互作用(DTI)特征的方法的流程图。

图5示出了描述根据一个或多个实施例的用于生成用于DTI预测的机器学习模型的方法的流程图。

图6显示了描述根据一个或多个实施例的用于预测查询蛋白质和查询配体之间相互作用的方法的流程图。

图7A显示了根据一个或多个实施例的用于产生幻影配体的实例。

图7B示出了根据一个或多个实施例的用于获得结合位点特征的同心壳模型的图示。

图8示出了根据一个或多个实施例的机器学习模型的训练数据的生成。

图9示出了本公开的实施例与传统方法的性能比较。

图10A和图10B示出了根据一个或多个实施例的计算系统。

具体实施方式

现在将参考附图详细描述本文公开的具体实施方式。为了一致性，各图中的相同要素可以用相同的附图标记和/或相同的名称来表示。

以下详细描述本质上仅是示例性的，并不意图限制本文公开的实施方式或本文公开的实施方式的应用和使用。此外，并不意图受到前述技术领域、背景技术、发明内容或以下具体实施方式中提出的任何明示或暗示的理论的约束。

在以下对本文公开的一些实施方式的详细描述中，阐述了许多具体细节，以便提供对本文公开的各种实施方式的更全面的理解。然而，对于本领域的普通技术人员将显而易见的是，可在没有这些具体细节的情况下实践实施方式。在其它情况下，没有详细描述众所周知的特征，以避免不必要地使描述复杂化。

在整个申请中，序数(例如，第一、第二、第三等)可以用作用于要素(即申请中的任何名词)的形容词。序数的使用并不暗示或创建要素的任何特定顺序，也不是将任何要素限制为仅是单个要素，除非明确公开，诸如通过使用术语“之前”、“之后”、“单个”和其它此类术语。相反，序数的使用是为了在要素之间进行区分。通过实例的方式，第一要素不同于第二要素，并且第一要素可以包含一个以上要素，并且在要素的顺序中在第二要素之后(或之前)。

在本发明的一个或多个实施例中，可以组合基于蛋白质的预测方法和基于配体的预测方法的要素以获得药物-靶标相互作用的优异预测。在本发明的一个或多个实施例中，机器学习模型用于预测药物-靶标相互作用(DTI)。

DTI数据库中存在大量关于蛋白质-配体相互作用的数据点。例如，ChEMBL数据库包含约15,000,000条记录，将蛋白质和配体对描述为结合或非结合(并且经常提供亲和力或置信度的度量)。然而，使用这些DTI数据库的内容来预测新的蛋白质和配体对的相互作用有一定的局限性，例如人类蛋白质组的覆盖范围有限，以及当单个蛋白质实例之间的多样性有限时预测能力弱。因此，仅在DTI数据库记录上运行的机器学习模型的预测质量可能是有限的。或者，机器学习模型可以针对与蛋白质共结晶的配体的3D分子结构进行操作，以捕获蛋白质和配体之间相互作用的生物物理学。存在一些捕获蛋白质-配体相互作用的数据库(例如，sc-PDB)，但这些数据库包含相对较少的数据点并且往往是高度冗余的。此外，这些数据库往往缺乏蛋白质结构多样性和化学型多样性。因此，由于数据量不足，在这些数据点上训练机器学习模型可能具有挑战性。特别是，对与蛋白质共结晶的配体的3D分子结构进行操作的机器学习模型具有高维特征空间，再加上合适训练样本的有限可用性，使机器学习模型容易过拟合。

在本公开的一个或多个实施例中，机器学习模型结合使用局部3D特征和DTI记录以实现预测优于上述常规基于蛋白质和基于配体的预测。更具体地，合成数据是通过投射DTI记录到已知蛋白质-配体复合物的3D结构模型上生成的，以生成否则无法获得的局部蛋白质特征。以此方式生成的合成数据可用于训练机器学习模型。然后可以使用机器学习模型对查询蛋白质和查询配体对进行预测。

转到图1A，示出了根据一个或多个实施例的使用合成数据预测药物结合的系统。系统(100)可以包括幻影配体识别引擎(110)、特征生成引擎(120)、机器学习模型训练引擎(130)、药物-靶标相互作用预测引擎(150)、蛋白质结构数据库(160)、幻影配体数据库(170)、药物-靶标相互作用数据库(180)和蛋白质注释数据库(190)。随后将描述这些部件中的每一个。

根据一个或多个实施例，幻影配体识别引擎(110)包括计算机可读程序代码形式的指令以执行图2和3中描述的步骤中的至少一个，以从蛋白质结构数据库(160)中的蛋白质生成幻影配体和相关置信度分数的幻影配体数据库(170)。幻影配体识别引擎(110)可以通过在结构上对齐已知同源物并在对齐位点将这些已知同源物的配体投影到蛋白质上获得蛋白质的幻影配体。虽然这些幻影配体可能不与蛋白质相互作用，但它们可以作为占位者，表明幻影配体与蛋白质的对齐位点之间的结构相容性。幻影配体识别引擎(110)可操作地连接到蛋白质结构数据库(160)和幻影配体数据库(170)。

根据一个或多个实施例，特征生成引擎(120)包括计算机可读程序代码形式的指令以执行图2和4中描述的步骤中的至少一个，以生成用于训练机器学习模型以进行DTI预测的药物-靶标相互作用(DTI)特征。特征生成引擎(110)可以使用来自幻影配体数据库(170)、药物-靶标相互作用数据库(180)和蛋白质注释数据库(190)的数据生成蛋白质和配体的特征。因此，特征生成引擎(120)可操作地连接到幻影配体数据库(170)、药物-靶标相互作用数据库(180)和蛋白质注释数据库(190)。

继续图1A，根据一个或多个实施例的机器学习模型训练引擎(130)包括计算机可读程序代码形式的指令以执行图2和5中描述的步骤中的至少一个，以训练用于DTI预测的机器学习模型(140)。机器学习模型训练引擎(130)可以使用特征生成引擎(120)生成的DTI特征进行训练。因此，机器学习模型训练引擎(130)可操作地连接到特征生成引擎(120)。用于DTI预测的最终机器学习模型(140)可以是能够预测查询药物和查询蛋白质之间的相互作用的任何类型的分类器。在一个或多个实施例中，用于DTI预测的机器学习模型(140)是深度神经网络。

根据一个或多个实施例，药物-靶标相互作用(DTI)预测引擎(150)包括计算机可读程序代码形式的指令以执行图6中描述的步骤中的至少一个，以使用机器学习模型(140)预测查询药物和查询蛋白质的药物-靶标相互作用。DTI预测引擎(150)生成与查询药物相关的查询蛋白质和查询配体的特征，其与机器学习模型(140)兼容，然后基于所述特征并使用由机器学习模型训练引擎(130)训练的相同的机器学习模型(140)计算相互作用的可能性。在各种实施例中，可以使用一个或多个相同和/或不同的机器学习模型。

根据一个或多个实施例的蛋白质结构数据库(160)可以是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其他存储机制)。下面参考图1B描述蛋白质结构数据库(160)。

根据一个或多个实施例的幻影配体数据库(170)可以是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其他存储机制)。下面参考图1C描述幻影配体数据库(170)。

根据一个或多个实施例的药物-靶标相互作用数据库(180)可以是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其他存储机制)。下面参考图1D描述药物-靶标相互作用数据库(180)。

根据一个或多个实施例的蛋白质注释数据库(190)可以是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其他存储机制)。下面参考图1D描述蛋白质注释数据库(190)。

转到图1B，显示了根据一个或多个实施例的蛋白质结构数据库(160)。蛋白质结构数据库(160)可以存储蛋白质的3D模型(162A、162B、162N)。每个3D模型可以与同源物模型(164A、164B、164N)和/或实验模型(166A、166B、166N)相关联。公开可用的蛋白质结构数据库(160)的实例包括但不限于蛋白质数据库(PDB)和SWISS-MODEL。

转到图1C，显示了根据一个或多个实施例的幻影配体数据库(170)。对于蛋白质的多个3D模型(例如，172A、172B、172N)，幻影配体数据库(170)可以存储所识别的幻影配体(例如，174A、174B、174N)。此外，对于每个识别的幻影配体，包括可基于相似性的置信度分数(例如，176A、176B、176N)。幻影配体数据库可以如图3中所述建立。

转到图1D，显示了根据一个或多个实施例的药物-靶标相互作用数据库(180)。药物-靶标相互作用数据库(180)可以为多对药物(例如，182A、182B、182N)和靶标(例如，184A、184B、184N)存储相互作用置信度(例如，186A、186B、186N)。公开可用的药物-靶标相互作用数据库(180)的例子包括但不限于STITCH和ChEMBL。这些数据库可包含许多数据点(～15,000,000ChEMBL)。

转到图1E，显示了根据一个或多个实施例的蛋白质注释数据库(190)。蛋白质注释数据库(190)可以为多个蛋白质(例如192A、192B、192N)存储相关注释(例如194A、192B、194N)。与蛋白质相关的注释可以包括关于蛋白质的任何可用信息，并且可以手动或计算地添加到蛋白质注释数据库中。例如，可以使用UniProt数据库。

图2、图3、图4、图5和图6示出了根据一个或多个实施例的流程图。图2、图3、图4和图5的流程图描绘了用于训练机器学习模型以预测药物-靶标相互作用的方法，以及图6的流程图描绘了使用机器学习模型来预测药物-靶标相互作用的方法。可以通过以上参考图1A讨论的系统(100)的组成部分执行图2、图3、图4、图5和图6的一个或多个步骤。在一个或多个实施例中，可以省略、重复图2、图3、图4、图5和图6中所示的一个或多个步骤和/或以与图2、图3、图4、图5和图6所示的顺序不同的顺序执行。可以进一步执行附加的步骤。因此，本发明的范围不应被认为限于图2、图3、图4、图5和图6所示的步骤的具体布置。

转到图2的流程图，显示了一种生成机器学习模型以预测药物-靶标相互作用(DTI)的方法。虽然图2旨在介绍生成机器学习模型的主要步骤，但随后讨论的流程图提供了更详细的描述。在完成图2的方法之后，得到的机器学习模型可用于进行预测，如图6中所述。

在步骤200中，根据从蛋白质结构数据库中获得的蛋白质产生幻影配体数据库。图3中提供了步骤200的详细描述。

在步骤202中，产生药物-靶标相互作用(DTI)特征，包括配体特征和蛋白质特征。图4提供了步骤202的详细描述。

在步骤204中，生成用于DTI预测的机器学习模型。图5提供了步骤204的详细描述。

转到图3的流程图，描述了一种生成幻影配体数据库的方法。随后描述的步骤用于利用蛋白质之间的同源关系将已知配体映射到其同源物的结构(实验和同源模型)，称为“幻影”。

在步骤300中，从蛋白质结构数据库中获得蛋白质。对于每个蛋白质，可以检索3D模型。

在步骤302中，将获得的蛋白质按序列或域进行聚类。在一个或多个实施例中，蛋白质聚类被定义为在一级序列或三维拓扑结构(通常称为折叠)中共享相似性的两个或多个蛋白质的任何集合。蛋白质聚类可以直接从公共可用的数据库中获得，例如PDB、SCOP、CATH、PFAM或Uniprot。例如，可以使用蛋白质序列比对工具和聚类工具(例如BLAST、CD-HIT或UCLUST)基于序列相似性手动创建蛋白质聚类。或者，具有三维结构模型的蛋白质可以通过对共享共同拓扑结构或折叠的不相关蛋白质进行分组来聚类。

在步骤304中，选择聚类之一进行进一步处理。

在步骤306中，对所选聚类中的所有蛋白质进行成对结构比对。图7A显示了蛋白质3D结构的结构比对的例子。三维(3d)结构比对试图建立两种蛋白质之间的位置等效性。结构比对可以通过对一种蛋白质的坐标应用旋转和/或平移变换来进行，以最小化等效残基之间的平均距离。例如，结构比对可以在完整的蛋白质结构或残基的亚选择上进行，例如单个结构域或配体结合位点周围的残基。用于3d结构比对的配体结合位点残基的选择是映射幻影配体的最佳启发式方法。

在步骤308中，通过将每个配体投影到聚类对等体来获得幻影配体。可以获得每个投影的置信度分数，其由代表对配体投影不同分量的置信度的各个分数组成。将配体投射到聚类对等体的例子在图7A中提供。置信度分数可以基于量化选择来模拟DTI相互作用的启发式定义的结构表示中的不确定性的任何度量。在这一步，置信度分数可以包括同源性模型质量度量，例如序列同一性百分比、序列相似性或QMEAN。置信度分数还可以包括描述结构比对质量的度量，例如局部或全局比对的均方根偏差。也可以使用多个置信度分数。

在步骤310中，幻影配体和相关的置信度分数被存储在幻影配体数据库中。

在步骤312中，确定是否还有额外的聚类要处理。如果还有额外的聚类，则该方法的执行可以返回到步骤304以选择另一个聚类进行如步骤306-310中所述的处理。如果没有剩余额外的聚类，则该方法的执行可以终止。一旦图3的方法终止，幻影配体数据库可包含如所述处理的所有蛋白质的幻影配体和相关置信度分数的综合集合。

转到图4的流程图，描述了一种用于生成药物-靶标相互作用(DTI)特征的方法。生成的特征包括配体的特征和蛋白质的特征。这些特征随后可用于训练用于预测药物-靶标相互作用的机器学习模型。可以生成蛋白质和配体的许多组合的特征，以确保足够的训练样本的可用性。

在步骤400中，从DTI数据库中选择配体和蛋白质的组合的药物-靶标相互作用。针对这种考虑的配体和蛋白质的组合执行随后的步骤。稍后可以针对配体和蛋白质的其他组合重复这些步骤。

在步骤402中，为所选配体生成特征。这些特征可包括配体指纹和配体描述符。指纹可以以描述符格式捕获配体的结构并且可以基于使用固定长度向量的潜在分子的微笑表示。例如，分子指纹法可以包括原子对、扩展连接指纹、基于图的指纹、扭转指纹或药效团指纹。例如分子量、可旋转键数、氢键供体数、氢键受体数、疏水性、芳香性和官能团组成可用作配体描述符。也可以使用分子形状描述符，例如椭圆度、几何描述符、分支描述符或手性描述符。

在步骤404中，从所选蛋白质的幻影配体数据库中检索幻影配体。

在步骤406中，基于每个幻影配体与药物的差异，或更具体地，与所选配体的差异，对每个幻影配体进行评分。更高的相似性导致更高的分数。例如，可以使用用于比较分子指纹的距离度量来对配体之间的相似性进行评分，例如谷本距离、D冰距离或余弦距离。

可以对可用于所选蛋白质的所有蛋白质模型(例如，同源模型或实验衍生模型)执行步骤404和406。

在步骤408中，选择与所选配体最相似的幻影配体进行进一步处理。

在步骤410中，为DTI特征生成置信度向量，其由代表对DTI特征的不同分量及其代表性幻影配体的置信度的各个分数组成。置信度向量可以包括表示来自步骤308的幻影配体投影的置信度分数。置信度向量还可以包括所选择的配体和在步骤408中选择的最相似的幻影配体之间指纹相似度的置信度分数。此外，置信度向量可以包括所选DTI的置信度的分数。可以基于DTI数据的来源对所选DTI的置信度进行评分(例如，可以根据DTI数据是使用高通量筛选还是低通量筛选等获得的来分配不同的分数)。

在步骤412中，获得围绕最相似幻影配体的所选蛋白质的局部特征。局部特征可以包括存在于半径增加的同心壳中的结合位点特征，如图7B所示。对于每个同心壳，提供了多个描述符，例如指定壳内存在原子的原子类型描述符。例如，每个壳半径可以提供70个原子类型描述符。描述符还可包括但不限于壳区内结合位点的柔性或刚性、壳区内的残基接触、和/或任何其他代表生物物理学和间接结合位点几何形状的因素。然而，这些特征可能不会指定原子的确切位置或坐标。局部特征还可包括配体结合位点的图形描述，其以网络格式描述配体结合位点周围的氨基酸之间的距离。局部特征也可以由口袋的形状来定义，对应于未被蛋白质残基占据的空隙。口袋空隙可以通过口袋检测方法确定，例如溢流填充、凹度或溶剂可及性。由口袋空隙空间定义的局部特征可以包括空隙空间的形状，包括体积、椭圆度、曲率、分支模式或基于附近残基动态的空间稳定性。例如，由与口袋空隙空间相邻的残基定义的局部特征可以包括残基的取向、氢键供体和受体基团的几何可用性、疏水性、芳香性或π堆积相互作用的几何可用性。局部特征还可能包括配体结合通道的描述，其包括配体结合位点附近的溶剂暴露残基，这些残基不与处于稳定结合状态的配体直接接触。配体结合通道预期在结合和解离的动态过程中与配体形成瞬时相互作用。配体结合通道特征可以包括类似于限定口袋的那些特征，例如残基的方向、氨基酸组成、氢键供体和受体的可用性。

在步骤414中，通过扩展到具有如步骤412中所述大半径的外壳，获得所选蛋白质的结构和/或序列的全局特征。对应于局部特征的壳半径可以包括例如

或

的阈值。对应于域级描述或全局蛋白质描述的壳半径可具有例如

或

的更大的距离阈值，或者可没有距离阈值。全局特征还可以包括域或折叠的描述，并且可以从诸如SCOP、CATH或PFAM等公开可用的数据库中导出。例如，全局特征还可以包括源自蛋白质序列的特征并且可以包括共同序列基序的存在。全局特征可以包括蛋白质折叠状态的描述，例如固有无序区域、铰链、环、有序区域或调节域的存在和生物物理特性。还可以根据与配体结合位点的距离来描述全局特征。

在步骤416中，获得所选蛋白质的功能注释。功能注释可以从蛋白质注释数据库中获得。功能注释可能包括例如酶委员会(EC)编号、基因本体论(GO)注释或Uniprot关键字。功能注释还可以包括记录的蛋白质位置特异性特性的存在或不存在，例如催化位点、翻译后修饰、疾病关联或遗传变异。

在步骤418中，为所选蛋白质生成特征。这些特征可以包括局部特征、全局特征和/或功能注释。

在步骤420中，确定是否还有额外的DTI待处理。如果还有额外的DTI，则该方法的执行可以返回到步骤400以选择另一个DTI进行处理，如步骤402-418中所述。如果没有剩余额外的聚类，则该方法的执行可以终止。一旦图4的方法终止，就可以使用DTI数据库中列举的配体和蛋白质的综合特征集合。

转到图5的流程图，描述了用于生成用于DTI预测的机器学习模型的方法。基于如图4所述获得的DTI特征，获得了反映蛋白质环境和配体属性之间相容性的机器学习模型。

在步骤500中，获得配体特征和蛋白质特征。配体和蛋白质特征的获得可以如图4的步骤402和418中所述进行。

在步骤502中，通过图4的步骤408中建立的置信度向量的函数过滤配体和蛋白质。过滤可以实现置信度阈值，只有高于置信度阈值的样本才被考虑用于进一步处理。置信度函数可以将置信度向量转化为单个分数以进行过滤。例如，置信度函数可以将置信度分数转换为概率并应用贝叶斯统计来评估组合概率。置信度函数可以将单独的截止阈值应用于置信度向量的每个元素，作为选择哪些样本适合用于机器学习的手段。置信度函数阈值或方程可以通过自动测试不同组合作为机器学习算法的超参数来设置。

在步骤504中，连接配体和蛋白质特征以生成正训练样本。

在步骤506中，将配体和蛋白质特征随机排列(shuffle)。将随机排列后的配体和蛋白质特征连接起来以生成负训练样本。此步骤可能会重复多次以评估不同的正负训练样本比例，例如1:1、1:5、1:10、1:19或1:20。

在步骤508中，使用正负训练样本训练用于DTI预测的机器学习模型。例如，可以使用基于反向传播的学习算法。在一个或多个实施例中，可以基于训练样本的相关置信度向量对训练样本进行加权。在一个或多个实施例中，迁移学习用于更有效地训练机器学习模型。最初，可以通过在步骤502中应用初始置信度阈值训练机器学习模型。在随后的再训练阶段，可以增加置信度阈值以减少训练实例的数量并提高其质量。另外或可选地，随后的再训练阶段可限制训练实例以选择药物或靶标的类别。机器学习模型可以是监督判别分类或回归模型，例如随机森林、支持向量机、单层感知器或多层人工神经网络。考虑到训练数据点的数量(100,000s至10,000,000s)和训练数据特征的维数(1000s至10,000s)，人工神经网络特别适合这项任务。在一个实施例中，人工神经网络表示采用全连接网络的形式，具有特征输入层、两个隐藏层，例如分别具有512和256个节点，以及对应于交互和非交互对的两个输出节点。在一个实施例中，具有多个隐藏层的人工神经网络省略了输入类型之间的连接，用于创建代表配体指纹、全局蛋白质特征、局部蛋白质特征和蛋白质功能特征的单独潜在空间。

转到图6的流程图，描述了用于预测查询蛋白质和查询配体之间相互作用的方法。通过将机器学习模型应用于对应于查询配体的DTI特征和查询蛋白质的至少一个已知结合位点的集合，如参考图2-5所描述训练的机器学习模型可用于测试查询蛋白质和查询化合物的“相容性”。

在步骤600中，获得查询蛋白质和查询配体。查询蛋白质和查询配体可以从想要获得查询蛋白质和查询配体之间相互作用的预测的用户获得。

在步骤602中，如先前在图4的步骤404-412中所述，获得查询蛋白质的可能结合位点和相关局部特征。因此，一个或多个结合位点可以从一个或多个实验或同源模型中获得。或者，结合位点和相关的局部特征可以从用户获得，例如，如果用户希望指定特定的结合位点。

在步骤604中，获取查询蛋白质的全局特征和蛋白质注释。全局特征和蛋白质注释可以如先前在图4的步骤414和416中描述的那样获得。

在步骤606中，为查询蛋白质生成特征。这些特征可以包括局部特征、全局特征和/或功能注释。

在步骤608中，如先前在图4的步骤402中所述，获得配体指纹和配体描述符。

在步骤610中，为查询配体生成特征。这些特征可能包括配体指纹和配体描述符。

在步骤612中，将用于DTI预测的机器学习模型应用于查询配体的特征和查询蛋白质的特征，以获得查询配体和查询蛋白质之间相互作用的可能性的数值分数。

以下段落基于各种实例进一步说明了本公开的实施例。本领域技术人员将理解，本公开不限于这些实例。

(i)样本幻影配体：

转到图7A，显示了用于产生幻影配体的实例(700)。显示了三种假设的蛋白质结构(顶行)。三种假设的蛋白质结构中有两个与配体发生实际相互作用(顶行，左和中列)。中间一行显示了三种假设蛋白质的各种结构排列。作为结构排列的结果，配体可以投射到其他蛋白质上。基于结合位点的相似性，分配置信度分数。实际配体-蛋白质配对的置信度分数为1.0，但幻影配体-蛋白质配对的置信度分数较低。底行显示了生成的幻影配体-蛋白质配对，因为它们可存储在幻影配体数据库中。

图7B示出了根据一个或多个实施例的用于获得结合位点特征的同心壳模型(750)的图示。半径(r)增加的同心壳包围着一个中心化学结构，该结构被认为是结合位点的一部分。内壳主要捕获结合位点附近的局部特征，而外壳则捕获越来越多的全局特征。代表蛋白质的特征可以基于同心壳模型，从而捕获蛋白质的局部和全局特征，而不指定精确的3D几何结构(例如，在原子水平上)。

(ii)样本置信度向量：

本公开的实施例依赖于启发式过程以使用假定的三维结构表示来增加药物-靶标相互作用(DTI)数据。这些假设的DTI表示可为机器学习提供信息丰富的特征，改进旨在预测蛋白质-配体相互作用的模型。为任何给定的DTI数据点获得这些近似的DTI表示需要在图2的步骤200和202中概述的几个假设。例如，用于表示DTI的三维蛋白质结构可来自同源模型，而不是直接来自实验坐标。

置信度向量由多个度量组成，这些度量描述了近似DTI表示中的可测量不确定性。这些度量在幻影配体数据库的创建(步骤200)和将已知的DTI数据投影到幻影配体数据库上(步骤202)中累积。在一个例子中，置信度向量包含四个元素，包括：(1)代表DTI蛋白的同源模型与其源模板之间的序列同一性百分比，(2)来自幻影配体的源结构和代表DTI蛋白的同源模型之间比对的RMSD，(3)DTI配体的morgan3指纹与幻影配体模板之间的Tanimoto相似性，(4)DTI数据点的置信度。

在该实例中，药物-靶标相互作用(DTI)数据库表明配体吉非替尼与蛋白Aurora激酶A相互作用。DTI数据库根据源生物物理实验的准确性为相互作用分配了85％的概率。源三维结构数据库中不存在吉非替尼和Aurora激酶A之间的特定相互作用。在创建幻影配体数据库时，Aurora激酶A蛋白的同源模型是从共有72.5％序列同一性的密切同源物Aurora激酶B创建的。成功映射到同源模型上的与吉非替尼最接近的分子是厄洛替尼，其共有0.372的Morgan3指纹Tanimoto相似度。基于Aurora激酶A同源模型和厄洛替尼-EGFR复合物晶体结构之间的结构比对来近似厄洛替尼幻影配体位置，其配体结合位点RMSD为

因此，相应的置信度向量将是：[85％,72.5％,0.372,

]。

(iii)样本训练数据和负随机排列：

所描述的方法侧重于以通过一系列确定性可映射关系和启发式建模特征(局部结构特征)获得的相关特征的混合，从DTI数据库中增加药物-靶标相互作用(DTI)对。DTI数据库中的每一行都可以被转换成一个特征向量，如图8所示例，显示训练数据(800)的生成，具有来自相应药物的配体特征(标记为“配体特征”的列)和蛋白质特征(标记为“全局特征”、“功能特征”和“局部特征”的列)。可以使用数据库查找和蛋白质标识符映射的标准做法从任何蛋白质中检索蛋白质的全局和功能特征。局部蛋白质特征可以是本专利中概述的启发式定义过程的结果。它们是建模的，因此可能不准确。每个数据行也有一个对应的置信度向量(上面有描述但图中没有显示)，它可以用来暗示训练机器学习模型的硬截断或权重。

当神经网络仅通过从药物-靶标相互作用数据集中提取的真实药物-靶标相互作用正实例进行训练时，模型可能学会忽略相互作用的核心和明显模式，因为它们不会向模型提供任何信号。此外，可能有必要控制对药物-靶标相互作用数据集中高度代表性的药物和靶标的潜在显著偏见。因此，使用每种药物和靶标的相对比例对负实例进行采样可能是有益的。结果，模型可以基于正实例和负实例学习模式。在图8中，随机化负结果将特征向量的配体分量(白色)与特征向量的蛋白质分量(三种灰色阴影)随机排列。产生的负实例可用于训练分类引擎，平衡单个配体或蛋白质特征的存在。在正和负集合中平等使用单个配体和/或蛋白质特征避免了网络学习，即任何单个特征通常与结合特别相关。

本公开的实施例使用幻影配体从蛋白质-配体数据集创建用于蛋白质化学计量学(PCM)的局部蛋白质特征。更具体地，药物-靶标相互作用(DTI)数据被连接(thread)到蛋白质-配体复合物的3D原子模型上，以推导出局部蛋白质特征。PCM的混合特征数据集可以包括局部(口袋)、区域(域)和全局(全蛋白)注释和/或功能注释。

传统上，机器学习的训练数据应该是高置信度的‘模型质量数据’。根据一个或多个实施例，使用预测(幻影配体+连接(thread))来产生机器学习算法的训练数据似乎是违反直觉的。具体来说，如果启发式方法不够准确，那么，传统观点认为，引入源自幻影配体和连接组合的局部特征有可能引入额外的噪声，从而降低传统DTI PMC的性能。然而，如图9的性能比较(900)所示，通过引入通过本专利中描述的方法导出的局部特征来实现性能的提高。省略由这种方法导出的局部特征相当于单独通过DTI PMC实现的性能。

具体地，图9显示了对小分子配体和8717蛋白质的结合可能性进行排序的性能比较。为了测试排名，从训练数据中随机移除100个分子并用于测试。该图绘制了这些100个随机药物的已知相互作用的预测排序。例如，在没有局部特征的情况下，在8717中前300个蛋白质(前约3.5％)(虚线)的预测中仅观察到约63％的实际相互作用。包括通过此程序估计的局部特征，对于相同的阈值(实线)，发现率增加到约75％。

本公开的各个实施例具有以下优点中的一个或多个。本发明的实施例能够使用反映蛋白质环境和配体属性之间的相容性的机器学习模型来预测药物-靶标相互作用(DTI)。创建本地化3D特征来表示结合位点，即使在考虑中的相互作用没有可用的3D信息时也是如此。

将已知的药物-靶标相互作用映射到同源模型综合地增强了丰富的DTI训练数据，其具有高维生物物理信息，以训练深度神经网络。因此，该方法能够使用综合的DTI数据库，即使不一定知道药物与蛋白质的结合位置，也可以用于DTI数据库的条目。

根据一种或多种实施例的方法不需要蛋白质-配体相互作用的生物物理学的详细知识。因此，不需要原子的精确3D坐标，从而能够使用DTI数据库和同源模型将药物-靶标相互作用映射到蛋白质口袋上。

相比于依赖于3D原子坐标的基于结构的深度学习方法，本公开的实施例需要减少的特征空间并允许大得多的训练数据。此外，发现本公开的实施例能够很好地概括。初步性能评估表明，与对接模拟相比，上述方法的执行速度快了约1,000,000倍。根据一个或多个实施例的方法不需要人工干预。具体来说，最可能的蛋白质表示和结合位点会被自动识别。正如附件A和B所讨论的，根据一个或多个实施例的方法可用作预测药物-靶标相互作用的其他计算机内和/或实验方法的准确的计算机内替代方案或附加方案。

本公开的实施例可以具有各种应用。例如，实施例可用于蛋白质组筛选(例如，执行毒性预测或表型解卷积预测)、虚拟筛选以及一般的药物发现和开发。

本公开的实施例可在计算系统上实现。可以使用移动、台式机、服务器、路由器、交换机、嵌入式装置或其它类型的硬件的任何组合。例如，如在图10A中示出的，计算系统(1000)可以包括一个或多个计算机处理器(1002)、非持久性存储装置(1004)(例如，易失性存储器，诸如随机存取存储器(RAM)、高速缓冲存储器)、持久性存储装置(1006)(例如，硬盘、光盘驱动器，诸如光盘(CD)驱动器或数字多功能盘(DVD)驱动器、快闪存储器等)、通信接口(1012)(例如，蓝牙接口、红外接口、网络接口、光学接口等)、以及许多其它要素和功能。

(一个或多个)计算机处理器(1002)可以是用于处理指令的集成电路。例如，(一个或多个)计算机处理器可以是处理器的一个或多个核或微核。计算系统(1000)还可以包括一个或多个输入装置(1010)，诸如触摸屏、键盘、鼠标、麦克风、触摸板、电子笔或任何其它类型的输入装置。

通信接口(1012)可以包括集成电路，用于将计算系统(1000)连接到网络(未示出)(例如，局域网(LAN)、诸如因特网的广域网(WAN)、移动网络或任何其它类型的网络)和/或另一个装置，诸如另一个计算装置。

此外，计算系统(1000)可以包括一个或多个输出装置(1008)，诸如屏幕(例如，液晶显示器(LCD)、等离子显示器、触摸屏、阴极射线管(CRT)监测器、投影仪或其它显示装置)、打印机、外部存储装置或任何其它输出装置。输出装置中的一个或多个可以与(一个或多个)输入装置相同或不同。(一个或多个)输入和输出装置可以本地或远程地连接到(一个或多个)计算机处理器(1002)、非持久性存储装置(1004)和持久性存储装置(1006)。存在许多不同类型的计算系统，并且前述(一个或多个)输入和输出装置可以采取其它形式。

用于执行本公开实施方式的计算机可读程序代码形式的软件指令可以全部或部分地、临时或永久地存储在非暂时性计算机可读介质(诸如CD、DVD、存储装置、磁盘、磁带、快闪存储器、物理存储器或任何其它计算机可读存储介质)上。具体地说，软件指令可以对应于计算机可读程序代码，所述计算机可读程序代码在由(一个或多个)处理器执行时被配置成执行本公开的一个或多个实施方式。

图10A中的计算系统(1000)可以连接到网络或者是网络的一部分。例如，如在图10B中示出的，网络(1020)可以包括多个节点(例如，节点X(1022)、节点Y(1024))。每个节点可以对应于计算系统，诸如在图10A中示出的计算系统或者组合的一组节点可以对应于图10A中示出的计算系统。举例而言，本公开的实施方式可在连接到其它节点的分布式系统的节点上实现。作为另一个实例，本公开的实施方式可在具有多个节点的分布式计算系统上实现，其中本公开的每个部分可以位于分布式计算系统内的不同节点上。此外，前述计算系统(1000)的一个或多个要素可以位于远程位置并且通过网络连接到其它要素。

尽管在图10B中未示出，所述节点可以对应于服务器机箱中的经由背板连接到其它节点的刀片。作为另一个实例，所述节点可以对应于数据中心中的服务器。作为另一个实例，节点可以对应于具有共享存储器和/或资源的计算机处理器或计算机处理器的微核。

网络(1020)中的节点(例如，节点X(1022)、节点Y(1024))可以被配置成向客户端装置(1026)提供服务。例如，节点可以是云计算系统的一部分。节点可以包括用于从客户端装置接收请求(1026)和向客户端装置传输响应(1026)的功能。客户端装置(1026)可以是计算系统，诸如在图10A中示出的计算系统。此外，客户端装置(1026)可以包括和/或执行本公开的一个或多个实施方式的全部或一部分。

在图10A和图10B中描述的计算系统或计算系统组可以包括执行本文公开的多种运算的功能。例如，(一个或多个)计算系统可在相同或不同系统上的过程之间执行通信。采用某种形式的主动或被动通信的多种机制可以便于同一装置上的过程之间的数据交换。代表这些过程间通信的实例包括但不限于文件、信号、套接字、消息队列、流水线、信号量、共享存储器、消息传达和存储器映射文件的实现。下面提供与这些非限制性实例中的几个相关的其它细节。

基于客户机-服务器网络模型，套接字可以用作接口或通信信道端点，使能在同一装置上的过程之间的双向数据传送。首先，遵循客户机-服务器网络模型，服务器过程(例如，提供数据的过程)可以创建第一套接字对象。接下来，服务器过程结合第一套接字对象，从而将第一套接字对象与唯一的名称和/或地址相关联。在创建并且结合第一套接字对象之后，服务器过程然后等待并且监听来自一个或多个客户端过程(例如，寻找数据的过程)的传入连接请求。此时，当客户端过程希望从服务器过程获得数据时，客户端过程通过创建第二个套接字对象开始。然后，客户端过程继续生成连接请求，所述连接请求至少包括第二套接字对象和与第一套接字对象相关联的唯一名称和/或地址。然后，客户端过程将连接请求传输到服务器过程。取决于可用性，服务器过程可以接受连接请求，与客户端过程建立通信信道，或者忙于处理其它运算的服务器过程可将连接请求在缓冲器中排队，直到服务器过程准备好。所建立的连接通知客户端过程通信可以开始。作为响应，客户端过程可以生成指定客户端过程希望获得的数据的数据请求。数据请求随后被传输到服务器过程。在接收到数据请求时，服务器过程分析所述请求并且收集所请求的数据。最后，服务器过程然后生成至少包括所请求的数据的回复，并且将所述回复传输到客户端过程。更常见地，数据可以作为数据报或字符流(例如，字节)来传送。

共享存储器是指虚拟存储器空间的分配，以便证实可由多个过程传达数据和/或访问数据的机制。在实现共享存储器时，初始化过程首先在持久性或非持久性存储装置中创建可共享段。创建后，初始化过程然后装载可共享段，随后将可共享段映射到与初始化过程相关联的地址空间中。在装载之后，初始化过程继续标识一个或多个授权过程并且向其授予访问权限，所述一个或多个授权过程还可以向可共享段写入数据和从可共享段读取数据。通过一个过程对可共享段中的数据所做的更改可能会立即影响也链接到可共享段的其它过程。此外，当授权过程中的一个访问可共享段时，可共享段映射到所述授权过程的地址空间。通常，在任何给定时间，除了初始化过程之外，仅一个授权过程可以装载可共享段。

在不脱离本公开的范围的情况下，可以使用其它技术来在过程之间共享数据，诸如本申请中描述的各种数据。这些过程可以是相同或不同应用的一部分，并且可在相同或不同的计算系统上执行。

代替或除了在过程之间共享数据，执行本公开的一个或多个实施方式的计算系统可以包括从用户接收数据的功能。例如，在一个或多个实施方式中，用户可以经由用户装置上的图形用户接口(GUI)来提交数据。可以通过用户选择一个或多个图形用户接口小部件或者使用触摸板、键盘、鼠标或任何其它输入装置将文本和其它数据插入图形用户接口小部件中来经由图形用户接口提交数据。响应于选择特定项目，可由计算机处理器从持久性或非持久性存储装置获得关于所述特定项目的信息。在用户选择项目时，可以响应于用户的选择而在用户装置上显示所获得的关于特定项目的数据的内容。

作为另一个实例，获得关于特定项目的数据的请求可以被发送到通过网络可运算地连接到用户装置的服务器。例如，用户可以选择用户装置的网络客户端内的统一资源定位符(URL)链接，从而启动向与所述URL相关联的网络主机发送超文本传送协议(HTTP)或其它协议请求。响应于所述请求，服务器可以提取关于特定选定项目的数据，并且将所述数据发送给启动所述请求的装置。一旦用户装置已经接收到关于特定项目的数据，就可以响应于用户的选择在用户装置上显示所接收到的关于特定项目的数据的内容。继上述实例，在选择了URL链接之后从服务器接收到的数据可以提供可由网络客户端呈现并且显示在用户装置上的超文本标记语言(HTML)的网页。

一旦获得数据，诸如通过使用上述技术或来自存储装置，计算系统在执行本公开的一个或多个实施方式时可以从所获得的数据中提取一个或多个数据项。例如，可由图10A中的计算系统如下执行所述提取。首先，确定数据的组织模式(例如，语法、模式、布局)，这可以基于以下中的一个或多个：位置(例如，位或列位置、数据流中的第N个令牌等)；属性(其中属性与一个或多个值相关联)；或分层/树结构(包括不同细节级别的节点层，诸如在嵌套的包标题或嵌套的文档区段中)。然后，在组织模式的上下文中，原始的、未处理的数据符号流被解析成令牌流(或分层结构)(其中每个令牌都可以具有相关联的令牌“类型”)。

接下来，提取标准用于从令牌流或结构中提取一个或多个数据项，其中根据组织模式处理提取标准以提取一个或多个令牌(或来自分层结构的节点)。对于基于位置的数据，提取由提取标准标识的(一个或多个)位置处的(一个或多个)令牌。对于基于属性/值的数据，提取与满足提取标准的(一个或多个)属性相关联的(一个或多个)令牌和/或(一个或多个)节点。对于分层/分层数据，提取与匹配提取标准的(一个或多个)节点相关联的(一个或多个)令牌。提取标准可以像标识符字符串一样简单，或者可以是提供给结构化数据储存库的查询(其中可以根据数据库模式或数据格式(诸如，XML)来组织数据储存库)。

所提取的数据可以用于由计算系统进一步处理。例如，图10A的计算系统在执行本公开的一个或多个实施方式时，可以执行数据比较。数据比较可用于比较两个或多个数据值(例如，A、B)。例如，一个或多个实施方式可以确定是否A>B，A＝B，A！＝B、A<B等。可以通过将指定与比较相关的运算的运算码A、B提交到算术逻辑单元(ALU)(即，对两个数据值执行算术和/或逐位逻辑运算的电路)来执行比较。ALU输出运算的数值结果和/或与数值结果相关的一个或多个状态标志。例如，状态标志可以指示数值结果是正数、负数、零等。通过选择适当的运算码，然后读取数值结果和/或状态标志，可以执行比较。例如，为了确定是否A>B，可以从A中减去B(即A-B)，并且可以读取状态标志来确定结果是否为正(即，如果A>B，则A-B>0)。在一个或多个实施方式中，如使用ALU所确定的，如果A＝B或如果A>B，则B可以被视为阈值，并且A被视为满足阈值。在本公开的一个或多个实施方式中，A和B可以是向量，并且将A与B进行比较需要将向量A的第一要素与向量B的第一要素进行比较，将向量A的第二要素与向量B的第二要素进行比较等。在一个或多个实施方式中，如果A和B是字符串，则可以比较字符串的二进制值。

图10A中的计算系统可以实现和/或连接到数据储存库。例如，一种类型的数据储存库是数据库。数据库是被配置成便于数据检索、修改、重新组织和删除的信息的集合。数据库管理系统(DBMS)是一个软件应用，其为用户限定、创建、查询、更新或管理数据库提供接口。

用户或软件应用可以将语句或查询提交到DBMS中。然后DBMS解释所述语句。所述语句可以是请求信息的选择语句、更新语句、创建语句、删除语句等。而且，所述语句可以包括参数，所述参数指定数据或数据容器(数据库、表、记录、列、视图等)、(一个或多个)标识符、病症(比较运算符)、功能(例如，联接、完全联接、计数、平均等)、排序(如升序、降序)或其它。DBMS可以执行所述语句。例如，DBMS可以访问存储器缓冲区、引用或索引文件以进行读取、写入、删除或其任何组合，以响应所述语句。DBMS可以从持久性或非持久性存储装置加载数据，并且执行计算来响应查询。DBMS可以将(一个或多个)结果返回给用户或软件应用。

图10A的计算系统可以包括提供原始和/或处理的数据(诸如比较和其它处理的结果)的功能。例如，可以通过各种呈现方法来完成提供数据。具体地说，可以通过由计算装置提供的用户接口来提供数据。用户接口可以包括在显示装置(计算机监测器或手持计算机装置上的触摸屏)上显示信息的GUI。GUI可以包括各种GUI小部件，所述GUI小部件组织示出什么数据以及如何向用户提供数据。此外，GUI可以直接向用户提供数据，例如，通过文本作为实际数据值提供的数据，或者由计算装置呈现为数据的视觉表示，诸如通过可视化数据模型。

例如，GUI可以首先从软件应用获得请求在GUI内提供特定数据对象的通知。接下来，GUI可以例如，通过从数据对象内标识数据对象类型的数据属性获得数据来标识与特定数据对象相关联的数据对象类型。然后，GUI可以确定指定用于显示所述数据对象类型的任何规则，例如，由软件框架为数据对象类指定的规则或者根据由GUI限定的用于呈现所述数据对象类型的任何本地参数指定的规则。最后，GUI可以从特定数据对象获得数据值，并且根据用于所述数据对象类型的指定规则在显示装置内呈现数据值的视觉表示。

还可以通过各种音频方法来提供数据。特别地，数据可以被呈现为音频格式，并且通过可运算地连接到计算装置的一个或多个扬声器作为声音提供。

数据还可以通过触觉方法提供给用户。例如，触觉方法可以包括由计算系统产生的振动或其它物理信号。例如，可以使用具有预定持续时间和振动强度的手持计算机装置产生的振动来向用户提供数据以传达数据。

以上对功能的描述仅呈现了由图10A的计算系统和/或图10B中的客户端装置执行的功能的几个实例。可以使用本公开的一个或多个实施方式来执行其它功能。

尽管已经关于有限数量的实施方式描述了本公开，但是受益于本公开的本领域技术人员将会理解，可以设计出不脱离本文公开的本公开的范围的其它实施方式。因此，本公开的范围应仅由所附权利要求来限定。

本文阐述的实施方式和实例是为了最好地解释本发明及其特定应用，从而使本领域技术人员能够制造和使用本发明。然而，本领域技术人员将认识到，前面的描述和实例仅是为了绘示和实例的目的而呈现的。所阐述的描述并不意图穷举或将本发明限制于所公开的精确形式。

尽管已经关于有限数量的实施方式描述了本发明，但是受益于本公开的本领域技术人员将会理解，可以设计出不脱离本文公开的本发明的范围的其它实施方式。因此，本发明的范围应仅由所附权利要求来限定。

Claims

1.一种使用合成增强数据预测药物-靶标结合的方法，所述方法包括：

为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；

使用所述多个幻影配体为药物-靶标相互作用(DTI)数据库中的蛋白质和配体生成多个DTI特征；

使用所述多个DTI特征生成机器学习模型；和

使用所述机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

2.根据权利要求1所述的方法，其中生成所述多个幻影配体包括：

对于选自所述多个蛋白质的蛋白质聚类：

对所述蛋白质聚类中的蛋白质进行结构比对；

在所述结构比对之后，通过将所述聚类中的蛋白质之一的配体投射到所述聚类中的所有其他蛋白质上，获得所述多个幻影配体；

为所述多个幻影配体中的每一个，获得置信度分数。

3.根据权利要求2所述的方法，其中所述蛋白质聚类基于选自由以下组成的组中的一个获得：

序列的相似性，

三维拓扑结构的相似性，以及

数据库中的现有聚类。

4.根据权利要求2所述的方法，其中所述置信度分数量化相关联的幻影配体的不确定性。

5.根据权利要求1所述的方法，其中生成所述多个DTI特征包括：

对于所述DTI数据库中配体和蛋白质的多种组合中的每一种：

从所述多个幻影配体中选择与考虑用于所述组合的所述配体最相似的幻影配体；和

为考虑用于所述组合的蛋白质生成特征，其中所生成的特征表征了考虑用于所述组合的蛋白质。

6.根据权利要求5所述的方法，其中所述生成的特征包括从由以下各项组成的组中选择的一个：

至少一个局部特征，其包括半径增加的同心壳中的结合位点特征，

除了所述结合位点特征之外的至少一个全局特征，以及

至少一个功能注释。

7.根据权利要求5所述的方法，其中基于距离度量来执行所述最相似的幻影配体的选择。

8.根据权利要求5所述的方法，其中生成所述多个DTI特征还包括：

获得表示对与所述最相似的幻影配体相关联的DTI特征的多个分量中的置信度的置信度向量。

9.根据权利要求8所述的方法，其中所述多个分量的置信度包括选自由以下各项组成的组中的至少一个：

量化与所述最相似的幻影配体相关的不确定性的第一置信度分数，

量化考虑用于所述组合的配体与所述最相似的幻影配体之间的指纹相似性的第二置信度分数，和

取决于获得所述DTI特征的来源的第三置信度分数。

10.根据权利要求1所述的方法，其中生成所述机器学习模型包括：

基于蛋白质和配体的所述多个DTI特征获得正训练样本；

通过对蛋白质和配体的所述多个DTI特征进行至少一次随机排列，基于所述多个DTI特征获得负训练样本；

使用所述正训练样本和所述负训练样本，训练所述机器学习模型进行DTI预测。

11.根据权利要求10所述的方法，其中生成所述机器学习模型包括，在获得所述正训练样本和所述负训练样本之前：

使用应用于与所述多个DTI特征相关联的置信度向量的置信度阈值，过滤蛋白质和配体的所述多个DTI特征。

12.根据权利要求1所述的方法，其中所述机器学习模型是选自分类器模型和回归模型中的一种。

13.根据权利要求1所述的方法，其中预测所述查询蛋白质和所述查询配体的组合的相互作用的可能性包括：

基于所述多个幻影配体获得查询蛋白质的可能结合位点和相关局部特征；

生成所述查询蛋白质的特征，所述查询蛋白质的特征包括所述局部特征；

生成所述查询配体的特征，所述查询配体的特征包括配体指纹和配体描述符；和

将所述机器学习模型应用于所述查询蛋白质的特征和所述查询配体的特征，以获得所述查询配体与所述查询蛋白质之间相互作用的可能性。

14.根据权利要求13所述的方法，其中所述查询蛋白的特征还包括选自由全局特征和功能注释组成的组中的至少一种。

15.一种非暂时性计算机可读介质，其包含用于使用综合增强数据预测药物-靶标结合的计算机可读程序代码，所述计算机可读程序代码使得计算机系统：

为蛋白质结构数据库中的多个蛋白质生成多个幻影配体；

使用所述DTI特征生成机器学习模型；和

16.一种用于差异药物发现的系统，所述系统包含：

蛋白质结构数据库；

幻影配体识别引擎，其被配置成为所述蛋白质结构数据库中的多个蛋白质生成多个幻影配体；

存储所述多个幻影配体的幻影配体数据库；

存储蛋白质和配体的药物-靶标相互作用(DTI)数据库；

特征生成引擎，其被配置为使用所述幻影配体数据库中的所述多个幻影配体为所述DTI数据库中的蛋白质和配体生成多个DTI特征；

机器学习模型训练引擎，其配置为使用所述DTI特征生成机器学习模型；和

DTI预测引擎，其被配置为使用所述机器学习模型预测查询蛋白质和查询配体的组合的相互作用的可能性。

17.根据权利要求16所述的系统，其中生成所述多个DTI特征包括：

对于所述DTI数据库中配体和蛋白质的多种组合中的每一种：

18.根据权利要求17所述的方法，其中所述生成的特征包括从由以下各项组成的组中选择的一个：

除了所述结合位点特征之外的至少一个全局特征，以及

至少一个功能注释。

19.根据权利要求17所述的系统，其中生成所述多个DTI特征还包括：

获得表示对与所述最相似的幻影配体相关联的DTI特征的多个分量中的置信度的置信度向量，

其中所述多个分量的置信度包括选自由以下各项组成的组中的至少一个：

取决于获得所述DTI特征的来源的第三置信度分数。

20.根据权利要求16所述的系统，其中预测所述查询蛋白质和所述查询配体的组合的相互作用的可能性包括：