CN109155148A

CN109155148A - 用于蛋白组对接以识别蛋白－配体相互作用的方法

Info

Publication number: CN109155148A
Application number: CN201580085846.2A
Authority: CN
Inventors: 斯蒂芬·斯科特·麦金农; 伦纳德·大卫·莫雷奈斯; 詹森·米塔基迪斯; 福阿德·G·格瓦德里
Original assignee: Cisco Likang Co Ltd
Current assignee: Cisco Likang Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2019-01-04
Anticipated expiration: 2035-12-31
Also published as: CA3010226C; JP2019508821A; WO2017113004A1; CA3010226A1; EP3398102A1; CN109155148B; EP3398102A4; US20190018924A1; EP3398102B1; EP3398102C0

Abstract

本发明涉及一种方法用于识别目标蛋白。本发明涉及：接收基于配体识别目标蛋白的请求；使用所述配体识别第一蛋白，其中所述配体结合于所述第一蛋白以形成配体－蛋白复合物；对于所述第一蛋白生成第一结合部位简档，其中所述第一结合部位简档描述所述第一蛋白的分子特性；对于多个蛋白从受控服务器获取描述表面分子特性的结构数据，其中所述多个蛋白包括所述目标蛋白；使用所述第一结合部位简档和所述结构数据识别所述目标蛋白；将所述目标蛋白呈现于用户。

Description

用于蛋白组对接以识别蛋白－配体相互作用的方法

背景技术

用于识别蛋白-配体相互作用的顶层化学基因组映射和蛋白目标识别方法利用定量结构－活性关系(QSAR)和药效团建模。这些方法利用机器学习以将查询配体与已知配体数据库比较，其中假定药品自身的结构相似性对应于生物活性的相似性(例如，生物靶标、毒性、效力，等等)。基于结构数据的蛋白－配体相互作用映像通常受限于受体支架(scaffolds)和/或药物支架。

发明内容

通常，在一个方面，各实施例涉及用于识别目标蛋白的方法。该方法包括：接收基于配体识别目标蛋白的请求。该方法进一步包括：使用所述配体识别第一蛋白，其中所述配体结合于所述第一蛋白以形成配体－蛋白复合物。该方法进一步包括：对于所述第一蛋白生成第一结合部位简档，其中，所述第一结合部位简档描述所述第一蛋白的分子特性。该方法进一步包括：从受控服务器获取描述多个蛋白的表面的分子特性的结构数据，其中所述多个蛋白包括所述目标蛋白。该方法进一步包括：使用所述第一结合部位简档和所述结构数据识别所述目标蛋白。该方法进一步包括：将所述目标蛋白呈现于用户。

通常，在一个方面，各实施例涉及用于识别目标蛋白的系统。该系统包括：数据储存库，其存储描述多个蛋白的表面的分子特性的结构数据。该系统进一步包括：受控服务器，其包括计算机处理器和可由处理器执行的存储器。存储器包括以下功能：接收基于配体识别目标蛋白的请求。存储器进一步包括以下功能：使用所述配体识别第一蛋白，其中，所述配体结合于所述第一蛋白以形成配体－蛋白复合物。存储器进一步包括以下功能：对于所述第一蛋白生成第一结合部位简档，其中，所述第一结合部位简档描述所述第一蛋白的分子特性。存储器进一步包括以下功能：从受控服务器获取描述多个蛋白的表面的分子特性的结构数据，其中所述多个蛋白包括所述目标蛋白。存储器进一步包括以下功能：使用所述第一结合部位简档和所述结构数据识别所述目标蛋白。存储器进一步包括以下功能：将所述目标蛋白呈现于用户。

通常，在一个方面，各实施例涉及一种非暂时计算机可读介质(CRM)，其包括存储各种用于识别目标蛋白的指令。指令包括以下功能：接收基于配体识别目标蛋白的请求。指令进一步包括以下功能：使用所述配体识别第一蛋白，其中，所述配体结合于所述第一蛋白以形成配体－蛋白复合物。指令进一步包括以下功能：对于所述第一蛋白生成第一结合部位简档，其中，所述第一结合部位简档描述所述第一蛋白的分子特性。指令进一步包括以下功能：从受控服务器获取描述多个蛋白的表面的分子特性的结构数据，其中所述多个蛋白包括所述目标蛋白。指令进一步包括以下功能：使用所述第一结合部位简档和所述结构数据识别所述目标蛋白。指令进一步包括以下功能：将所述目标蛋白呈现于用户。

本发明的其它方面通过以下描述和所附权利要求书而将显见。

附图说明

图1显示出根据本发明一个或多个实施例的系统。

图2,3A,3B显示出根据本发明一个或多个实施例的流程图。

图4A,4B,4C,4D,4E显示出根据本发明一个或多个实施例的示例。

图5显示出根据本发明一个或多个实施例的计算系统。

具体实施方式

本发明的特定实施例现在将参照附图详细描述。各个图中相同/相似的元件总是通过相同/相似的附图标记表示。

在以下对本发明实施例的详细描述中，呈现多个具体细节以提供对本发明的更透彻理解。不过，本领域普通技术人员应认识到，本发明可以在没有这些具体细节的情况下实施。在其它情况下，未详细描述公知特征以避免不必要地使描述复杂化。

在本申请的全文中，序数(例如第一、第二、第三等等)可用作元件(即，本申请中的任意名词)的形容词。除非明确公开，否则使用序数并非暗示或产生各元件的特定顺序，也不会限制任何元件仅为单个元件，例如，使用用词“之前”、“之后”、“单个”、和其它类似用词。而是，使用序数是为了各元件之间加以区分。在示例中，第一元件区别于第二元件，第一元件可涵盖多于一个元件，并在元件排序中晚于(或早于)第二元件。

本发明的一个或多个实施例包括一种方法、一种系统、和一种非瞬时计算机可读介质，用于蛋白组对接以识别蛋白－配体相互作用。本发明可接受任意分子以识别分子和各个蛋白质结构之间的相互作用。例如，本发明的实施例可接受尺寸大至1000道尔顿的分子。本领域普通技术人员应认识到，其它尺寸的分子也是允许的。特别地，一个或多个实施例涉及：接收基于配体识别目标蛋白的请求。进一步地，一个或多个实施例涉及：使用配体识别第一蛋白。在一个或多个实施例中，配体结合于第一蛋白以形成配体－蛋白复合物。另外地，一个或多个实施例涉及：针对第一蛋白生成第一结合部位简档。在一个或多个实施例中，第一结合部位简档描述第一蛋白的分子特性。进一步地，一个或多个实施例涉及：从受控服务器获取描述针对多个蛋白的表面分子特性的结构数据。在一个或多个实施例中，所述多个蛋白包括所述目标蛋白。另外，一个或多个实施例涉及：使用第一结合部位简档和结构数据来识别目标蛋白。另外地，一个或多个实施例涉及：将目标蛋白呈现于用户。

图1显示出根据本发明一个或多个实施例的系统的示意图。虽然图1显示出各部件的构造，不过在不背离本发明的范围的情况下，也可使用其它构造。例如，各个部件可组合形成单个部件。作为另一示例，由单个部件执行的功能可由两个或更多个部件执行。

转到图1，根据本发明一个或多个实施例，系统(100)可包括一个或多个受控服务器(110)。在一个或多个实施例中，受控服务器(110)包括各个模块，例如，对接模拟器(111)，对接得分生成器(113)，简档生成器(115)。

受控服务器(110)可将各种数据(例如，分子数据(121)，蛋白数据(130))存储在数据储存库(例如数据储存库(120))内的各种数据结构中。在本发明一个或多个实施例中，数据储存库(120)是任意类型的存储单元和/或设备(例如，文件系统、数据库、表单集合、或任何其它存储机制)，用以存储数据。进一步地，数据储存库(120)可包括多个不同的存储单元和/或设备。多个不同的存储单元和/或设备可为相同类型或者位于相同物理地点。

在一个或多个实施例中，受控服务器(110)经网络(105)可操作地连接到远程服务器(160)。远程服务器(160)可将各种数据(例如基准分子数据(161)、基准蛋白数据(162))存储在数据储存库(未示出)内的各种数据结构中。

在一个或多个实施例中，分子数据(121)包括：配体数据(122)。通常，配体可为原子、分子、离子、和/或可结合到蛋白的化学化合物。在一个或多个实施例中，配体被描述为药物、候选药物、营养品、维生素、辅因子和/或毒质。配体数据(122)可包括基于配体的分子结构和/或化学功能的配体的分子特性。进一步地，配体数据(122)可包括配体的化学性能、物理性能和/或结构性能。例如，配体数据(122)可描述检测配体在体内和/或体外的生物活性和/或药理活性。在另一个示例中，配体数据(122)可描述检测配体当与各种无机和/或有机试剂化学反应时表现出的效果。进一步地，配体数据(122)可描述配体与紫外－可见(UV-VIS)和红外(IR)辐射相互作用时采取的方式。另外，配体数据(122)可包括配体的核磁共振(NMR)谱，其中NMR波谱法确定配体的一个或多个原子的物理和化学性能。

进一步地，根据一个或多个实施例，分子数据(121)包括：由受控服务器(110)生成的一个或多个分子的分子指纹。分子指纹可为表现配体一个或多个分子特性的量化值。例如，检测配体的分子特性可转换为二进制数字串并存储在数据储存库中作为分子指纹，其中，每个二进制数字和/或二进制数字组对应于检测配体的特定分子特性。进一步地，分子指纹可表现出检测配体内是否存在特定分子子结构。在一个或多个实施例中，分子指纹描述分子量、分子体积、摩尔折射率、分配系数、渗透率、生物利用度、原子数量、原子类型、键数量、键长度、环数量、连接性指数、溶剂可用表面积、主惯性矩、部分电荷、极性指数、热力学性能、和/或静电表面描述符。

一个或多个分子的描述符可存储在分子数据(121)中。描述符可被限定为可以表征一个或多个分子的分子特性的数字值。在一个或多个实施例中，关于一个或多个分子的描述符用于生成一个或多个分子的分子指纹。描述符可用于分子特性计算(QSPR，即，定量结构－性能关系)或者化学活性(QSAR，即，定量结构－活性关系)计算。在一个或多个实施例中，分子的描述符包括零维(0D)描述符(即，构成描述符，计数描述符、键计数、分子量、原子计数)、一维(1D)描述符(即，结构片断清单、指纹、氢键受体和/或供体)、二维(2D)描述符(即，图不变量)、三维(3D)描述符(即，几何形状描述符、表面特性、3D-MoRSE描述符、WHIM描述符、GETAWAY描述符、量子化学描述符、尺寸、立体空间、表面和/或体积描述符)、和/或四维(4D)描述符(即，源自网格(GRID)和/或比较分子场分析(CoMFA)方法，Volsurf)

在一个或多个实施例中，分子数据(121)包括类似配体数据(123)。类似配体数据(123)可包括关于一个或多个分子的分子特性，其可基于它们与配体数据(122)中存储的配体的相似性而被识别。例如，一个或多个类似配体可由可操作地连接到受控服务器(110)的计算设备(未示出)的计算机处理器(未示出)识别，其中，类似配体可基于与配体数据(122)中存储的检测配体的分子特性相似的分子特性、生物性能、和/或化学性能而被识别。在一个或多个实施例中，类似配体数据(123)描述与前文中关于配体数据(122)中存储的检测配体的性能所公开内容相同类型的类似配体的分子特性。

在一个或多个实施例中，分子数据(121)包括用于一个或多个蛋白组结合简档的蛋白组结合简档数据(125)。蛋白组结合简档数据(125)可包括用于一个或多个配体的蛋白组结合简档。进一步地，蛋白组结合简档可描述与配体数据(122)或类似配体数据(123)中所存储的分子相互作用的一个或多个蛋白。例如，蛋白组结合简档数据(125)可包括配体数据(122)中存储的检测配体的蛋白组结合简档，其中蛋白组结合简档描述成功结合于检测配体以形成配体－蛋白复合物的蛋白。在一个或多个实施例中，配体－蛋白复合物是由于配体对于蛋白的一个或多个结合部位表现出亲和性而使配体成功结合于蛋白时的结果结构。在另一示例中，配体数据(122)中存储的检测配体可经历与一个或多个蛋白的对接模拟，并且具有满足阈值的对接得分的结果蛋白可插入到检测配体的蛋白组结合简档中。进一步地，蛋白组结合简档可以包括完整组的蛋白以及其结合亲和性，其被预测为相互作用和/或结合于检测配体。在一个或多个实施例中，分子数据(121)在分子的实际和/或实体实验室检测过程中被实验性地确定。在一个或多个实施例中，分子数据(121)从存储于远程服务器(160)的基准分子数据(161)中获取。在一个或多个实施例中，分子数据(121)包括：从虚拟对接模拟和/或计算结合预测(通过一个或多个蛋白与一个或多个配体的对接模拟器(111)执行)中获取的数据。

在一个或多个实施例中，蛋白数据(130)包括蛋白结构数据(131)。蛋白结构数据(131)可包括分子特性，例如一个或多个蛋白的几何形状和/或生理性能。进一步地，蛋白结构数据(131)可包括蛋白表面描述符，其描述一个或多个蛋白的分子特性，例如形状、平面性、几何形状、静电性能、氨基酸残余组分、原子组成、尺寸、疏水性、极性、和/或适应性。在一个或多个实施例中，蛋白结构数据(131)包括描述一个或多个蛋白的生物和/或生化活性的非分子属性。在一个或多个实施例中，蛋白结构数据(131)源自于实验确定的结构、源自同源模建的蛋白结构、蛋白结构预测、和/或蛋白构象集合。在一个或多个实施例中，蛋白结构数据(131)包括以二进制数字和/或字母数字形式存储的蛋白表面分子特性，以允许匹配和识别表现出相似分子特性的其它蛋白。

在一个或多个实施例中，蛋白数据(130)包括目标蛋白数据(133)。目标蛋白数据(133)可包括被预测结合于检测配体以形成配体－蛋白复合物的一个或多个蛋白的分子特性。在一个或多个实施例中，目标蛋白基于与其它蛋白(其结合于与检测配体相似的分子)的分子相似性被识别。例如，目标蛋白可基于目标蛋白的表面的分子特性与结合于类似分子的蛋白的分子特性之间的相似性因子被识别。相似性因子可为由用户人工设定的阈值，或者可由计算设备计算和设定。

在一个或多个实施例中，蛋白数据(130)包括：用于一个或多个结合部位简档的结合部位简档数据(134)。结合部位简档数据(134)可包括：用于一个或多个蛋白的结合部位简档。在一个或多个实施例中，结合部位简档包括分子特性，其描述蛋白的一个或多个结合部位的化学和几何形状特征。在一个或多个实施例中，蛋白的结合部位简档包括：一个或多个配体对于蛋白的结合亲和性。在一个或多个实施例中，蛋白数据(130)包括：在蛋白的实际实验室检测过程中取得的实验数据。在一个或多个实施例中，蛋白数据(130)包括：从虚拟的对接模拟中获取的数据，该对接模拟是通过一个或多个蛋白与一个或多个配体的对接模拟器(111)执行的。在一个或多个实施例中，蛋白数据(130)从远程服务器(160)存储的基准蛋白数据(162)获取。在一个或多个实施例中，结合部位简档数据(135)包括以二进制数字和/或字母数字形式存储的分子特性，以允许匹配于表现出相似分子特性的其它蛋白。

在一个或多个实施例中，对接模拟器(111)从分子数据(121)获取并提取配体的分子特性，并从蛋白数据(130)获取并提取蛋白的分子特性，以模拟配体与蛋白的一个或多个结合部位之间的结合。进一步地，对接可被描述为配体结合于蛋白的一个或多个结合部位的计算模拟。进一步地，对接模拟可被描述为当配体结合于蛋白的结合部位之后预测、再现和/或合成配体－蛋白复合物的结果结构。在一个或多个实施例中，对接得分生成器(113)对于每个配体－蛋白对形成对接得分，其中对接得分直接相关于配体与蛋白的一个或多个结合部位之间的相容性程度、和/或结果配体－蛋白复合物的稳定性程度。进一步地，对接得分可相关于使配体－蛋白复合物的稳定性增大的有利分子间相互作用的数量，例如氢键合、金属配位、疏水力、范德化力、π-π相互作用、卤键合、静电和/或电磁效应。对接得分的置信度可通过以下方式计算：将预测的配体－蛋白复合物对接得分与通过将相同配体和随机选择的蛋白对接而获取的得分进行比较。在一个或多个实施例中，对接模拟和对接得分生成可采用统计分析以推断和预测配体与蛋白结合部位之间的相互作用。对接模拟器(111)可执行一个或多个对接模拟算法，例如，GOLD、FlexX、TarFisDock、TarSearch-X、和/或TarSearch-M。本领域普通技术人员应认识到，其它对接模拟算法可兼容于对接模拟器(111)并由对接模拟器(111)执行。

在一个或多个实施例中，简档生成器(115)产生存储于蛋白组结合简档数据(125)中的一个或多个蛋白组结合简档。例如，简档生成器(115)可获取并提取关于结合于检测配体的一个或多个蛋白的蛋白数据(130)，以生成针对检测配体的蛋白组结合简档。在一个或多个实施例中，简档生成器(115)产生存储于结合部位简档数据(134)中的一个或多个结合部位简档。例如，简档生成器(115)可获取并提取蛋白数据(130)和/或分子数据(121)，以生成结合部位简档，该结合部位简档描述目标蛋白的一个或多个结合部位的分子特性以及描述成功结合于目标蛋白的一个或多个结合部位的配体的分子特性。

系统(100)可包括一个或多个计算设备。该计算设备可采取专用计算机系统的形式。计算设备可实现为与结合图5所示的专用计算机系统的类型相同或不同。在一个或多个实施例中，计算设备可为：被构造以使用显示设备显示数据的硬件和软件的组合。例如，计算设备可为移动电话、台式电脑、笔记本电脑、平板电脑、或任意其它被构造以如在此所述操作的设备。

图2,3A,3B显示出根据本发明一个或多个实施例的流程图。虽然各个步骤在这些流程图中依次呈现和描述，不过，本领域普通技术人员应认识到，一些或所有步骤可按不同顺序执行，可组合或省略，而且一些或所有步骤可并行执行。另外，各步骤可主动或被动执行。在示例中，确定步骤可能不需要计算机处理器处理指令，除非接收到中断以表示根据本发明一个或多个实施例的条件存在。

图2显示的流程图描述根据本发明一个或多个实施例的识别目标蛋白的方法。在步骤200中，一个或多个实施例涉及接收基于配体识别目标蛋白的请求。在一个或多个实施例中，步骤200中接收的配体也称为检测配体。在一个或多个实施例中，响应于步骤200中接收的请求，在步骤210中第一蛋白由计算设备识别，其中检测配体结合于第一蛋白以形成配体－蛋白复合物。第一蛋白可如图3A的步骤300－步骤322所述进行识别。

在步骤220中，根据一个或多个实施例，计算设备生成针对第一蛋白的结合部位简档。结合部位简档可描述第一蛋白的一个或多个结合部位的分子特性和几何形状特征。

在步骤230中，根据一个或多个实施例，计算设备提取描述一个或多个蛋白的表面的分子特性的蛋白结构数据。在一个或多个实施例中，蛋白结构数据从由受控服务器操控的私有数据库获取。

在步骤240中，根据一个或多个实施例，使用第一蛋白的结合部位简档和蛋白结构数据来识别目标蛋白。可通过蛋白结构数据内一个或多个蛋白的表面的分子特性确定第一蛋白的结合部位是否满足相似性阈值。进一步地，如果蛋白从表现出匹配于第一蛋白的结合部位简档内分子特性的分子特性的蛋白结构数据识别，则从蛋白结构数据识别的匹配蛋白可标记为目标蛋白。

在步骤250中，根据一个或多个实施例，目标蛋白传送到一个或多个计算设备以呈现于用户。在一个或多个实施例中，例如，目标蛋白和检测配体传送到计算设备以显示在相应的计算设备上。也可传送与目标蛋白和/或检测配体相关的各种分子特性以显示在计算设备上。

图3A和3B显示的流程图描述根据本发明一个或多个实施例的识别目标蛋白的方法。在步骤300中，一个或多个实施例涉及接收基于配体识别目标蛋白的请求。进一步地，响应于所述请求，计算设备可识别配体的分子特性。例如可识别检测配体的化学性能、物理性能、结构性能、药理性能、和/或生物性能。下一步，基于检测配体的分子特性，可生成检测配体的分子指纹。例如，检测配体的分子特性可转换为二进制数字串并存储在数据储存库中，作为检测配体的分子指纹。

在步骤302中，根据一个或多个实施例并响应于步骤300中所接收的请求，计算设备获取并提取包括一个或多个分子的分子特性的分子数据。在一个或多个实施例中，分子数据从提供一个或多个分子的化学和结构性能的可公开访问的基准分子数据库获取。在一个或多个实施例中，分子数据从由受控服务器操控的私有数据库获取。

在步骤304中，根据一个或多个实施例并响应于步骤302中所提取的分子数据，提取来自分子数据的一个或多个分子的分子指纹。在一个或多个实施例中，使用步骤302中提取的分子数据生成一个或多个分子的分子指纹。进一步地，在结构上和/或分子组成上类似于检测配体的一个或多个分子基于其分子指纹被识别。例如，计算设备的计算机处理器可识别具有与步骤300中所生成的检测配体的分子指纹类似的分子指纹的一个或多个分子。以另一方式而言，计算机处理器可识别具有分子指纹重叠于检测配体分子指纹的一个或多个分子。另外，具有与检测配体的分子指纹相似的分子指纹的一个或多个分子可由计算机处理器标记为类似配体。例如，其分子指纹在与检测配体的分子指纹比较时满足相似性阈值的分子可由计算机处理器标记为类似配体。

在步骤306中，根据一个或多个实施例并响应于步骤304中识别类似配体，计算设备获取并提取包括一个或多个蛋白的分子特性的蛋白数据。在一个或多个实施例中，蛋白数据从提供一个或多个蛋白的化学和结构性能的可公开访问的基准蛋白数据库获取。在一个或多个实施例中，蛋白数据从由受控服务器操控的私有数据库获取。

在步骤308中，根据一个或多个实施例并响应于步骤306中提取蛋白数据，蛋白数据和分子数据用于识别与类似配体结合的多个第一蛋白。例如，计算机处理器可使用特定类似配体的分子特性来识别与所述特定类似配体相互作用以形成配体－蛋白复合物的一个或多个蛋白。

在步骤310中，根据一个或多个实施例并响应于步骤306中的识别与类似配体结合的多个第一蛋白，从多个第一蛋白中选出特定蛋白。例如，通过计算设备从多个第一蛋白中迭代选择蛋白，随后，在后续步骤中将检测配体对接于所选择的蛋白中。

在步骤312中，根据一个或多个实施例，并响应于从多个第一蛋白中选择蛋白，通过所选择的蛋白和检测配体执行对接模拟。在此，所选择蛋白的分子特性和检测配体的分子特性可被提取以模拟所选择蛋白与检测配体之间的相互作用。例如，计算机处理器可使用检测配体的分子指纹和所选择蛋白的分子特性执行计算，以模拟检测配体与所选择蛋白的结合部位之间的结合。在一个或多个实施例中，计算机处理器将检测配体对接于所选择蛋白的一个或多个结合部位中。

在步骤314中，根据一个或多个实施例并响应于执行对接模拟，生成针对所选择蛋白的对接得分。对接得分可相关于检测配体与所选择蛋白的一个或多个结合部位之间的相容程度。例如，高对接得分可指示检测配体对于所选择蛋白的结合部位的高亲和性。

在步骤316中，响应于生成针对所选择蛋白的对接得分，根据一个或多个实施例，使用计算设备确定所选择蛋白的对接得分是否满足和/或超过对接得分阈值。对接得分阈值可由用户人工设定，或者可由计算机处理器计算和设定。如果对接得分满足对接得分阈值则过程行进到步骤318。如果对接得分不满足对接得分阈值则过程行进到步骤310以迭代选择多个第一蛋白中的下一个蛋白。

在步骤318中，响应于确定所选择蛋白的对接得分满足对接得分阈值，根据一个或多个实施例，所选择蛋白被插入多个第一蛋白的子组中。例如，如果所选择蛋白满足对接得分阈值，则所选择蛋白可插入子组中以在后续步骤中进一步处理。如果所选择蛋白不满足对接得分阈值，则所选择蛋白可被认为与检测配体不相容，过程可返回步骤310以迭代选择不同的蛋白。

在步骤320中，响应于将所选择蛋白插入到多个第一蛋白的子组中，根据一个或多个实施例，生成针对所选择蛋白的结合部位简档。结合部位简档可描述所选择蛋白的一个或多个结合部位的分子特性和几何形状特征。在一个或多个实施例中，所选择蛋白的结合部位简档包括：一个或多个配体对于所选择蛋白的一个或多个结合部位的结合亲和性。进一步地，所选择蛋白的结合部位简档可描述特定的分子特性和/或分子指纹，所述特定的分子特性和/或分子指纹可导致对于所选择蛋白的一个或多个结合部位具有高亲和性的潜在配体。

在步骤322中，根据一个或多个实施例，使用计算设备确定是否有额外的蛋白保留在多个第一蛋白中。例如，计算机处理器可确定是否有额外的蛋白仍在多个第一蛋白中被选择用于对接模拟。如果没有检测到额外蛋白，则过程行进到步骤324。如果检测到额外蛋白，则过程行进到步骤310以在多个第一蛋白中迭代选择下一个蛋白。

在步骤324中，根据一个或多个实施例，计算设备提取：描述一个或多个蛋白的表面的分子特性的蛋白结构数据。在步骤326中，根据一个或多个实施例，特定蛋白从多个第一蛋白的子组选择。例如，使用计算设备将蛋白从多个第一蛋白的子组迭代选择。此外，所选择蛋白的结合部位简档也可以使用计算设备来提取。

在步骤328中，根据一个或多个实施例，使用所选择蛋白的结合部位简档和蛋白结构数据来识别目标蛋白。然后通过蛋白结构数据内的一个或多个蛋白的分子特性来确定所选择蛋白的结合部位是否满足相似性阈值。如果从蛋白结构数据内识别到蛋白表现出与所选择蛋白的结合部位简档相匹配的分子特性，则从蛋白结构数据识别的所述蛋白可被识别为目标蛋白。可聚集一个或多个蛋白的通过氨基酸序列的多个匹配表面，且所述多个匹配表面可根据分子特性的相似性而排名。

在一个或多个实施例中，基于一个或多个蛋白的表面的分子特性(例如，蛋白表面的几何形状和静电特征)执行匹配，而同时考虑配体和/或结合部位的适应性。适应性可以指：模拟一个或多个位置和/或配体构象和/或蛋白结合部位的算法。例如，对接模拟可通过沿配体的平移、旋转和/或扭转平面的操控执行。进一步地，对接模拟可通过配体的各个构象(例如沿单键的旋转)而执行，以确定配体结合蛋白一个或多个结合部位的最优取向。相似地，对接模拟可通过蛋白的结合部位的结构的各种调节而执行，以实现蛋白与配体之间的构象和/或取向，使得配体－蛋白相互作用的吉布斯(Gibbs)自由能最小。另外，配体与蛋白结合部位的相对取向可影响所产生信号的类型，因此对接模拟可预测配体对于蛋白结合部位的结合亲和性以及在形成配体－蛋白复合物时所产生信号的类型。

在步骤330中，根据一个或多个实施例并响应于从蛋白结构数据识别目标蛋白，通过目标蛋白和检测配体执行对接模拟。在此，可提取目标蛋白的分子特性和检测配体的分子特性以模拟目标蛋白与检测配体之间的相互作用。例如，计算机处理器可使用检测配体的分子指纹和目标蛋白的分子特性和/或蛋白结构数据来执行计算以模拟检测配体与目标蛋白结合部位之间的结合。在一个或多个实施例中，计算机处理器将检测配体对接到目标蛋白的一个或多个结合部位中。检测配体可基于对接得分直接对接到最高匹配表面，最高匹配表面可被限制到目标蛋白的匹配表面周围的局部区域。

在步骤332中，根据一个或多个实施例并响应于执行对接模拟，生成目标蛋白的对接得分。对接得分可相关于检测配体与目标蛋白的一个或多个结合部位之间的相容程度。例如，高对接得分可指示检测配体对于目标蛋白的结合部位的高亲和性。

在步骤334中，根据一个或多个实施例，响应于生成针对目标蛋白的对接得分，确定目标蛋白的对接得分是否满足和/或超过对接得分阈值。如果对接得分满足对接得分阈值，则过程行进到步骤336。如果对接得分不满足对接得分阈值，则处理过程到步骤340。

在步骤336中，根据一个或多个实施例，响应于确定目标蛋白的对接得分满足对接得分阈值，目标蛋白被插入检测配体的蛋白组结合简档中。检测配体的蛋白组结合简档可包括：被预测和/或已被实验性确定结合于检测配体的一个或多个蛋白。例如，如果目标蛋白满足对接得分阈值，则目标蛋白可插入到检测配体的蛋白组结合简档中。如果目标蛋白不满足对接得分阈值，则所选择蛋白的结构可被认为与检测配体不相容，且过程可行进到步骤340。与检测配体相似的额外分子可被包括在对接模拟步骤中以直接比较在分子组成上相关化合物的蛋白组结合简档。蛋白组结合简档可用于聚集不同的分子及其相应的预测的蛋白结合部位。通过生成预测蛋白相互作用的清单，在此所述方法可桥接共享第一程度蛋白相互作用的各分子。

在步骤338中，根据一个或多个实施例，目标蛋白传送到一个或多个计算设备以呈现于用户。在一个或多个实施例中，例如，目标蛋白和检测配体传送到计算设备以显示在相应计算设备上。与目标蛋白和/或检测配体相关联的各种分子特性也可被传送以显示在计算设备上。

在步骤340中，根据一个或多个实施例，基于所选择蛋白来确定是否仍存在额外目标蛋白。例如，计算设备的计算机处理器可基于步骤326中选择的蛋白的分子特性来确定在步骤328中是否识别出额外的目标蛋白。如果未探测到额外目标蛋白，则过程行进到步骤342。如果探测到额外目标蛋白，则过程行进到步骤330以使计算机处理器迭代选择下一个目标蛋白，并通过下一个目标蛋白与检测配体进行对接模拟。

在步骤342中，根据一个或多个实施例，通过计算设备来确定多个第一蛋白的子组中是否仍有额外蛋白。例如，计算设备的计算机处理器可确定多个第一蛋白的子组中是否仍有额外蛋白供选择，以识别用于对接模拟的目标蛋白。如果未探测到额外蛋白，则过程结束。如果探测到额外蛋白，则过程行进到步骤326以在多个第一蛋白的子组中迭代选择下一个蛋白。

在一个或多个实施例中，受控服务器包括：描述一个或多个蛋白的功能的蛋白数据。例如，由受控服务器操控的蛋白数据可描述：与一个或多个蛋白相关联的生物作用和/或生物通路。在另一示例中，蛋白数据可描述与一个或多个蛋白的活性相关的一种或多种疾病和/或治疗。因此，检测配体可被预测以促进和/或抑制与在步骤336中识别的目标蛋白相关联的生物作用。进一步地，检测配体的作用机制可基于对被预测成检测配体目标的特定蛋白的识别而确定。例如，如果用于治疗第一疾病的药品被预测与关系到第二疾病的特定蛋白相互作用，则所述药品可重新设置用于治疗第二疾病。也就是说，在此所述的方法可允许识别现有化合物的新用途。进一步地，在此所述的方法可允许识别药品的额外目标蛋白。例如，用于药品的单个目标蛋白可被识别，不过，该药品可具有与额外蛋白相互作用的潜力。因此，在此所述的方法可预测在药品与额外蛋白之间的潜在的相互作用。此外，基于额外蛋白的生物作用，可预测药品的潜在的有益效果、不良效果、和/或毒性。

蛋白结合相互作用的预测可允许包含可公开获取的基准数据库，包括药品－靶标关联性、基因－疾病关联性、蛋白－蛋白相互作用、和通路分析。蛋白－蛋白相互作用(PPI)可当两个或更多个蛋白物理关联以执行细胞功能时发生。结合于给定蛋白的配体也可影响到周围蛋白的活性。在此所述的方法结合PPI相互作用数据库可允许识别第二程度的蛋白相互作用。此外，通路分析可允许识别各种蛋白的生物过程。进一步地，目标蛋白可与药品靶标关联性数据库交叉引用以识别潜在的协同或拮抗的药品－药品相互作用。另外，目标蛋白也可与基因－疾病关联性数据库交叉引用以揭示通过检测配体进行治疗应用或组合药品治疗的新的可能性。

图4A,4B,4C,4D,4E显示出根据本发明一个或多个实施例用于识别目标蛋白的示例。以下示例仅用于阐释目的，并不会限制本发明的范围。仅为示例目的，考虑以下场景：其中候选药品(401)通过受控服务器或其它计算设备(未示出)被接收为检测配体。在此示例中，受控服务器或其它计算设备包括(或可访问)数据储存库(410)，其中数据储存库(410)存储关于候选药品(401)、在分子组成上与候选药品(401)相似的一个或多个配体(例如类似分子A(403A)、类似分子B(403B))、和能够结合于候选药品和/或一个或多个类似分子的一个或多个蛋白(例如相容蛋白A(405A)、相容蛋白B(405B)、相容蛋白C(405C)、相容蛋白D(405D))。进一步地，数据储存库(410)包括蛋白结构数据(411)，蛋白结构数据(411)描述一个或多个蛋白(例如蛋白α(412A)、蛋白β(412B)、蛋白N(412N))的表面的分子特性(例如几何形状和/或生理性能)。在此示例中，受控服务器操作性地连接到存储一个或多个分子和/或蛋白的基准分子数据的一个或多个远程服务器(未示出)。

转到图4A，受控服务器(或者使用某些类型处理器的任意计算设备)基于候选药品(401)的分子特性生成分子指纹，并将分子指纹存储在数据储存库(410)中。用于生成分子指纹的分子特性可通过对候选药品(401)的直接实验室检测而确定。此外，分子特性可从基准分子数据库获取。

下一步，访问基准分子数据库以获取关于一个或多个分子的基准分子数据。一个或多个分子指纹可针对各种分子使用基准分子数据生成以存储在数据储存库(410)中。在此，候选药品(401)的分子指纹和基准分子数据用于识别一个或多个类似分子(例如类似分子A(403A)、类似分子B(403B))，其中候选药品的分子指纹和类似分子的分子指纹满足相似性阈值。

一旦类似分子被识别，则访问基准蛋白数据库以获取关于一个或多个蛋白的基准蛋白数据。基准蛋白数据和基准分子数据然后用于识别结合于类似分子的一个或多个蛋白(例如相容蛋白A(405A)、相容蛋白B(405B)、相容蛋白C(405C)、相容蛋白D(405D))。

下一步，从相容蛋白中选择特定蛋白以进行对接模拟。例如，从相容蛋白的清单中通过计算设备迭代选择蛋白，并随后将候选药品对接到所选择蛋白中。在此，提取所选择蛋白的分子特性和候选药品的分子特性以模拟所选择蛋白与候选药品之间的相互作用。响应于执行对接模拟，对于所选择蛋白生成对接得分。如图4B中所示，在候选药品(401)与相容蛋白A(405A)之间的对接模拟产生超过对接得分阈值的对接得分。此外，在候选药品(401)与相容蛋白B(405B)之间的对接模拟产生超过对接得分阈值的对接得分。不过在此示例中，在候选药品(401)与相容蛋白C(405C)之间、在候选药品与相容蛋白D(405D)之间的对接模拟不满足对接得分阈值。因此，对于相容蛋白A(例如结合部位简档A(407A))和对于相容蛋白B(例如结合部位简档B(407B))生成结合部位简档。

进一步地，计算设备提取描述一个或多个蛋白的表面的分子特性的蛋白结构数据。然后一个或多个蛋白(例如蛋白α(412A)、蛋白β(412B))使用相容蛋白(例如结合部位简档A(407A)、结合部位简档B(407B))的结合部位简档和蛋白结构数据(例如结合部位简档α(413A)、结合部位简档β(413B))来识别。在此示例中，通过蛋白结构数据(例如结合部位简档α(413A)、结合部位简档β(413B)、结合部位简档N(413N))内的一个或多个蛋白的分子特性来确定相容蛋白的结合部位简档(例如结合部位简档A(407A)、结合部位简档B(407B))是否满足相似性阈值。被识别的结果蛋白被标记为相互作用候选蛋白(例如蛋白α(412A)、蛋白β(412B))。

另外，通过相互作用候选者和候选药品执行对接模拟。在此，提取候选药品的分子特性和相互作用候选者的分子特性，以模拟相互作用候选者与候选药品之间的相互作用。如图4D中所示，候选药品(401)与相互作用候选蛋白β(412B)之间的对接模拟产生超过对接得分阈值的对接得分。不过，在此示例中，在候选药品(401)与相互作用候选蛋白α(412A)之间的对接模拟不满足对接得分阈值。因此，如图4E中所示，针对候选药品(401)生成蛋白组结合简档(415)，其包括蛋白β(412B)。

本发明的实施例可在计算系统上实施。可以使用移动式、台式、服务器、嵌入式、或其他类型的硬件的任意组合。例如，如图5中所示，计算系统(500)可包括：一个或多个计算机处理器(502)；相关联的存储器(504)(例如随机存取存储器(RAM)、高速缓冲存储器、闪速存储器，等等)；一个或多个存储设备(506)(例如硬盘、光学驱动器(例如光盘(CD)驱动器或数字视盘(DVD)驱动器)、闪存棒，等等)；和多种其它元件和功能结构。计算机处理器(502)可为用于处理指令的集成电路。例如，计算机处理器可以是单核或多核、或微核处理器、。计算系统(500)还可包括一个或多个输入设备(510)，例如触摸屏、键盘、鼠标、麦克风、触摸板、电子笔、或者任何其他类型的输入装置。进一步地，计算系统(500)可包括一个或多个输出装置(508)，例如屏(例如液晶显示器(LCD)、等离子体显示器、触摸屏、阴极射线管(CRT)监控器、投影仪、或其它显示设备)、打印机、外部存储器。或任何其它输出装置。输出设备中的一个或多个可与输入设备相同或不同。计算系统(500)可经网络接口连接结构(未示出)连接到网络(512)(例如局域网(LAN)、广域网(WAN)(例如互联网)、移动网、或任何其他类型的网络)。输入装置和输出设备可以本地或远程连接到计算机处理器(502)、存储器(504)、和存储设备(506)。存在多种不同类型的计算系统以及不同类型的前述输入设备和输出设备。

采取计算机可读程序代码形式以执行本发明实施例的软件指令可全部地或部分地、暂时地或持久地存储在非瞬时性计算机可读介质上，例如CD、DVD、存储设备、磁盘、磁带、闪存、物理存储器、或任何其它计算机可读存储介质。特别地，软件指令可对应于计算机可读程序代码，当其由计算机处理器执行时被配置成执行本发明的实施例。

进一步地，前述计算系统(500)的一个或多个元件可位于远程位置并经由网络(512)连接到其它元件。进一步地，本发明的实施例可在具有多个节点的分布式系统上实施，其中本发明的每个部分可位于分布式系统内的不同节点上。在本发明的一个实施例中，节点对应于独立计算设备。可替代地，节点可对应于具有相关联物理存储器的计算机处理器。节点可替代地可对应于有共享存储器和/或资源的计算机处理器或计算机处理器的微核。

虽然本发明已通过有限数量的实施例进行描述，不过得益于本公开内容的本领域技术人员将认识到，在不背离如在此公开的本发明的范围的情况下，可设想其它实施例。相应地，本发明的范围应仅由所附权利要求书限定。

Claims

1.一种用于识别目标蛋白的方法，包括：

接收基于配体识别目标蛋白的请求；

使用所述配体识别第一蛋白，其中，所述配体结合于所述第一蛋白以形成配体－蛋白复合物；

针对所述第一蛋白生成第一结合部位简档，其中，所述第一结合部位简档描述所述第一蛋白的分子特性；

从受控服务器获取描述多个蛋白的表面的分子特性的结构数据，其中所述多个蛋白包括所述目标蛋白；

使用所述第一结合部位简档和所述结构数据识别所述目标蛋白；以及

将所述目标蛋白呈现于用户。

2.如权利要求1所述的方法，

其中，所述目标蛋白包括多个目标结合部位；且

其中，所述结构数据进一步描述所述多个目标结合部位的分子特性。

3.如权利要求2所述的方法，其中，识别所述目标蛋白进一步包括：

使用所述第一结合部位简档和所述结构数据识别所述多个目标结合部位中的目标结合部位；

将所述目标结合部位呈现于用户。

4.如权利要求1所述的方法，其中，识别所述目标蛋白进一步包括：

通过比较所述第一结合部位简档与所述目标蛋白的所述结构数据来生成相似性测量值；

确定所述相似性测量值超过预定阈值。

5.如权利要求1所述的方法，其中，识别所述第一蛋白包括：

从基准分子数据库中提取包括多个分子的分子特性的分子数据；

使用所述配体和所述分子数据来识别类似配体，其中，所述类似配体在分子组成上相关于所述配体；

从基准蛋白数据库中提取蛋白数据，其中，所述蛋白数据识别结合于所述类似配体以形成配体－蛋白复合物的多个第一蛋白；

使用所述配体和所述多个第一蛋白执行多个对接模拟以识别所述多个第一蛋白的子组，其中所述多个第一蛋白的所述子组包括所述第一蛋白。

6.如权利要求5所述的方法，其中，执行所述多个对接模拟进一步包括：

将所述配体对接到所述多个第一蛋白中的每个蛋白中；

响应于将所述配体对接到所述多个第一蛋白中，针对所述多个第一蛋白中的每个蛋白生成对接得分；

执行确定：所述多个第一蛋白的所述子组的每个蛋白的对接得分超过预定阈值；以及

响应于所述确定，针对所述多个第一蛋白的所述子组的每个蛋白生成结合部位简档。

7.如权利要求6所述的方法，其中，所述多个第一蛋白中的每个蛋白包括多个结合部位。

8.如权利要求7所述的方法，其中，执行所述多个对接模拟进一步包括将所述配体对接到所述多个结合部位中的每个结合部位中。

9.如权利要求6所述的方法，进一步包括：

响应于所述确定，生成针对所述配体的蛋白组结合简档，其中所述蛋白组结合简档包括所述多个第一蛋白的结合于所述配体以形成配体－蛋白复合物的所述子组。

10.一种用于识别目标蛋白的系统，包括：

数据储存库，所述数据储存库存储描述多个蛋白的表面的分子特性的结构数据；

受控服务器，所述受控服务器包括计算机处理器，所述计算机处理器具有能够执行以下步骤的指令：

接收基于配体识别目标蛋白的请求；

获取描述所述多个蛋白的表面的分子特性的所述结构数据，其中所述多个蛋白包括所述目标蛋白；

使用所述第一结合部位简档和所述结构数据来识别所述目标蛋白；以及

将所述目标蛋白呈现于用户。

11.如权利要求10所述的系统，

其中，所述目标蛋白包括多个目标结合部位；且

12.如权利要求11所述的系统，其中，能够识别所述目标蛋白的指令进一步包括：

使用所述第一结合部位简档和所述结构数据来识别所述多个目标结合部位中的目标结合部位；

将所述目标结合部位呈现于所述用户。

13.如权利要求10所述的系统，其中，能够识别所述目标蛋白的指令进一步包括：

通过比较所述第一结合部位简档与所述目标蛋白的所述结构数据生成相似性测量值；

确定所述相似性测量值超过预定阈值。

14.如权利要求10所述的系统，其中，能够识别所述第一蛋白的指令包括：

使用所述配体和所述分子数据识别类似配体，其中，所述类似配体在分子组成上相关于所述配体；

从基准蛋白数据库中提取蛋白数据，其中，所述蛋白数据识别结合于所述类似配体以形成配体－蛋白复合物的多个第一蛋白；以及

15.如权利要求14所述的系统，其中，能够执行所述多个对接模拟的指令进一步包括：

将所述配体对接到所述多个第一蛋白中的每个蛋白中；

16.如权利要求15所述的系统，其中，所述多个第一蛋白中的每个蛋白包括多个结合部位。

17.如权利要求16所述的系统，其中，能够执行所述多个对接模拟的指令进一步包括：将所述配体对接到所述多个结合部位中的每个结合部位中。

18.如权利要求15所述的系统，其中，能够执行所述多个对接模拟的指令进一步包括：

19.一种非瞬时计算机可读介质，其包括能够在计算机处理器上执行以执行用于识别目标蛋白的方法的指令，所述方法包括：

接收基于配体识别目标蛋白的请求；

将所述目标蛋白呈现于用户。