CN107679362B

CN107679362B - 化合物-蛋白质相互作用亲和力识别方法、系统和装置

Info

Publication number: CN107679362B
Application number: CN201710852009.9A
Authority: CN
Inventors: 李占潮; 邹小勇; 戴宗
Original assignee: Guangdong Pharmaceutical University; Sun Yat Sen University
Current assignee: Guangdong Pharmaceutical University; Sun Yat Sen University
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2020-12-08
Anticipated expiration: 2037-09-19
Also published as: CN107679362A

Abstract

本发明公开了一种化合物‑蛋白质相互作用亲和力识别方法、系统及装置，该方法包括获取物质相互关系数据、构建化合物‑蛋白质相互作用组网络、计算化合物‑蛋白质相互作用组网络的拓扑结构特征、利用随机森林算法模型对所述拓扑结构特征进行处理，从而识别化合物‑蛋白质相互作用亲和力等步骤；该系统包括数据模块、网络模块、计算模块、处理模块等功能模块；该装置包括用于存储数据和程序的存储器以及用于执行化合物‑蛋白质相互作用亲和力识别方法程序的处理器。本发明将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题，从而寻找潜在的药物小分子，可用于计算机辅助药物设计技术领域。

Description

化合物-蛋白质相互作用亲和力识别方法、系统和装置

技术领域

本发明涉及计算机辅助药物设计技术领域，尤其是化合物-蛋白质相互作用亲和力识别方法、系统和装置。

背景技术

新药研发费时、费力、成功率低。一个新的药物从先导化合物的识别，到临床三期实验至上市销售，通常需要耗时十多年和花费数十亿美元。近年来，美国食品药品管理局每年批准的新药数目程逐年下降的趋势。一个主要原因就是缺乏化合物-蛋白质相互作用的亲和力等相关信息。现有药物大部分都是具有生物活性的小分子化合物，主要通过与疾病相关蛋白质的特异性结合，阻断异常的信号转导或者代谢路径等生物过程发挥疗效。因此，为了寻找潜在的药物小分子，需要更先进的技术去识别化合物-蛋白质的相互作用亲和力。

发明内容

为了解决上述技术问题，本发明的第一目的是提供化合物-蛋白质相互作用亲和力识别方法；本发明的第二目的是提供化合物-蛋白质相互作用亲和力识别系统；本发明的第三目的是提供化合物-蛋白质相互作用亲和力识别装置。

本发明所采取的第一技术方案是：

化合物-蛋白质相互作用亲和力识别方法，包括以下步骤：

获取物质相互关系数据；

根据所述物质相互关系数据，构建化合物-蛋白质相互作用组网络；

计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征；

利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理，从而输出化合物-蛋白质相互作用亲和力识别结果。

进一步地，所述物质相互关系数据包括：蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据。

进一步地，所述根据物质相互关系数据，构建化合物-蛋白质相互作用组网络这一步骤，具体包括：

将化合物和蛋白质分别映射为一个节点；

根据所述蛋白质相互作用数据判断两种蛋白质之间是否发生相互作用，若判断结果为是，则用一条边连接两种蛋白质分别对应的节点，否则不做处理；然后，将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络；

根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性，若判断结果为是，则用一条边连接两种化合物分别对应的节点，否则不做处理；然后，将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络；

根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质之间是否发生相互作用，若判断结果为是，则用一条边连接该种化合物和该种蛋白质分别对应的节点，否则不做处理；然后，将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络；

根据蛋白质和化合物在数据库中的ID号，对蛋白质和化合物进行匹配，从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络。

进一步地，所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

获取蛋白质一级结构特征，以蛋白质一级结构特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权；

获取化合物分子指纹特征，以化合物分子指纹特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权；

获取所有任意两种化合物的结构相似性系数，以化合物结构相似性系数为权重对化合物相似性子网络中对应的边加权；

获取所有任意两种蛋白质相互作用得分，以蛋白质相互作用得分为权重对蛋白质相互作用子网络中对应的边加权；

获取所有任意一种化合物与任意一种蛋白质之间的相互作用亲和力，以化合物与蛋白质之间的相互作用亲和力为权重对化合物-蛋白质相互作用组网络中对应的边加权；

根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。

进一步地，所述根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

根据节点的权重与边的权重，计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征；

根据节点的权重与边的权重，计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征；

根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。

进一步地，所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

CNTF_c是化合物c在化合物相似性子网络中的拓扑结构特征；

C_c(i)是化合物相似性子网络中化合物c的第i个节点权重；

C_j(i)是化合物相似性子网络中化合物j的第i个节点权重；

C_k(i)是化合物相似性子网络中化合物k的第i个节点权重；

E_c,j是化合物相似性子网络中化合物c与化合物j对应的边权重；

E_c,k是化合物相似性子网络中化合物c和化合物k对应的边权重；

N_c是化合物相似性子网络中化合物c的所有直接邻居的集合；

M_c是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合。

进一步地，所述计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

PNTF_p是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征；

P_p(i)是蛋白质相互作用子网络中蛋白质p的第i个节点权重；

P_j(i)是蛋白质相互作用子网络中蛋白质j的第i个节点权重；

P_k(i)是蛋白质相互作用子网络中蛋白质k的第i个节点权重；

E_p,j是蛋白质相互作用子网络中蛋白质p和蛋白质j对应的边权重；

E_p,k是蛋白质相互作用子网络中蛋白质p和蛋白质k对应的边权重；

N_p是蛋白质相互作用子网络中蛋白质p的所有直接邻居的集合；

M_p是蛋白质相互作用子网络中所有与化合物c具有已知的相互作用亲和力信息且与蛋白质p是直接邻居关系的所有蛋白质的集合。

进一步地，所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

CPNTF_c,p是化合物c和蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，CNTF_c是化合物c在相似性子网络中的拓扑结构特征，PNTF_p是蛋白质p在相互作用子网络中的拓扑结构特征，

表示将化合物c在化合物相似性子网络中的拓扑结构特征和蛋白质p在蛋白质相互作用子网络中的拓扑结构特征连接起来。

本发明所采取的第二技术方案是：

化合物-蛋白质相互作用亲和力识别系统，包括：

数据模块，用于获取物质相互关系数据；

网络模块，用于根据所述物质相互关系数据，构建化合物-蛋白质相互作用组网络；

计算模块，用于计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征；

处理模块，用于利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理，从而输出化合物-蛋白质相互作用亲和力识别结果。

本发明所采取的第三技术方案是：

化合物-蛋白质相互作用亲和力识别装置，包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序并执行以下步骤：

获取物质相互关系数据；

本发明的第一有益效果是：本发明方法通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络，对构建的化合物-蛋白质相互作用组网络的节点和边加权，采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究，考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性，将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本方法简单、快速、准确，并且具有鲁棒性。

本发明的第二有益效果是：使用模块化系统实现化合物-蛋白质相互作用亲和力识别方法，通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络，对构建的化合物-蛋白质相互作用组网络的节点和边加权，采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究，考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性，将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本系统简单、快速、准确，并且具有鲁棒性。

本发明的第三有益效果是：使用包括存储器和处理器的装置实现化合物-蛋白质相互作用亲和力识别方法，通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络，对构建的化合物-蛋白质相互作用组网络的节点和边加权，采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究，考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性，将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本装置简单、快速、准确，并且具有鲁棒性。

附图说明

图1是本发明化合物-蛋白质相互作用亲和力识别方法的流程图；

图2是构建化合物-蛋白质相互作用组网络的具体流程图；

图3是化合物-蛋白质相互作用组网络的结构图；

图4是本发明化合物-蛋白质相互作用亲和力识别系统的结构图；

图5是本发明化合物-蛋白质相互作用亲和力识别装置的结构图。

具体实施方式

实施例1

本发明公开的化合物-蛋白质相互作用亲和力识别方法，如图1所示，包括以下步骤：

获取物质相互关系数据；

作为一种优选的实施方式，所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据。

作为一种优选的实施方式，如图2所示，所述根据所述物质相互关系数据，构建化合物-蛋白质相互作用组网络这一步骤，具体包括：

将化合物和蛋白质分别映射为一个节点；

根据所述蛋白质相互作用数据判断两种蛋白质是否发生相互作用，若判断结果为是，则用一条边连接两种蛋白质分别对应的节点，否则不做处理，然后，将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络；

根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性，若判断结果为是，则用一条边连接两种化合物分别对应的节点，否则不做处理，然后，将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络；

根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质是否发生相互作用，若判断结果为是，则用一条边连接该种化合物和该种蛋白质分别对应的节点，否则不做处理，然后，将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络；

根据蛋白质和化合物在数据库中的ID号，对蛋白质和化合物进行匹配，从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络，如图3所示，图中，标号为1的部分是蛋白质相互作用子网络，标号为2的部分是化合物相似性子网络，标号为3的部分是化合物-蛋白质相互作用子网络，这三个子网络融合为一个整体，成为化合物-蛋白质相互作用组网络。

作为一种优选的实施方式，所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

作为一种优选的实施方式，所述根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

作为一种优选的实施方式，使用如下公式计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征：

作为一种优选的实施方式，使用如下公式计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征：

作为一种优选的实施方式，使用如下公式计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征：

其中，

P_p(i)、P_j(i)和P_k(i)分别是蛋白质相互作用子网络中蛋白质p,j和k的第i个节点权重；

E_p,j和E_p,k分别是蛋白质相互作用子网络中蛋白质p和j、蛋白质p和k对应的边权重；

N_p是蛋白质相互作用子网络中所有蛋白质p的直接邻居的集合；

M_p是蛋白质相互作用子网络中所有与化合物c具有已知的相互作用亲和力信息且与蛋白质p是直接邻居关系的所有蛋白质的集合；

C_c(i)、C_j(i)和C_k(i)分别是化合物相似性子网络中化合物c,j和k的第i个节点权重；

E_c,j和E_c,k分别是是化合物相似性子网络中化合物c与j、化合物c和k对应的边权重；

N_c是化合物相似性子网络中化合物c的所有直接邻居的集合；

M_c是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合；

表示连接两个网络拓扑结构特征的运算，将化合物在化合物相似性子网络的拓扑结构特征与蛋白质在蛋白质相互作用子网络的拓扑结构特征连接起来，得到此化合物与此蛋白质组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络的拓扑结构特征。

作为一种优选的实施方式，所述分子指纹特征为CDK分子指纹特征。

实施例2

图4示意了一种实现本发明化合物-蛋白质相互作用亲和力识别方法的系统的结构。该系统包括用于获取物质相互关系数据的数据模块，用于根据所述物质相互关系数据，构建化合物-蛋白质相互作用组网络的网络模块，用于计算所述化合物-蛋白质相互作用组网络的拓扑结构特征的计算模块，以及用于利用随机森林算法构建模型，对所述拓扑结构特征进行处理，根据处理结果，识别化合物-蛋白质相互作用亲和力的处理模块。通过上述四个功能模块，分别实现本发明化合物-蛋白质相互作用亲和力识别方法的各个步骤。

实施例3

图5示意了一种实现本发明化合物-蛋白质相互作用亲和力识别方法的装置的结构。该装置包括用于存储数据和至少一个实现本发明化合物-蛋白质相互作用亲和力识别方法的程序的存储器，以及用于加载执行存储器所存储的程序的处理器。

实施例4

以下结合本实施例的优选内容对本发明做进一步的阐述。本实施例的化合物-蛋白质相互作用亲和力识别方法可以通过实施例2中的化合物-蛋白质相互作用亲和力识别系统以及实施例3中的化合物-蛋白质相互作用亲和力识别装置实现。

作为一种优选的实施方式，构建蛋白质相互作用子网络的步骤具体为：从HIPPIE数据库收集人类蛋白质相互作用信息，去除重复相互作用信息和自相互作用信息；根据蛋白质ID号，从UniprotKB/Swiss-Prot数据库获取蛋白质氨基酸序列信息；获取氨基酸组成、二肽组成、各种自相关，以及组成、转变和分布等蛋白质一级结构特征；将蛋白质分别映射为一个点，并且根据蛋白质相互作用信息作出判断，如果某两种蛋白质能够发生相互作用，那么就用一条边连接这两种蛋白质所对应的两个点，对HIPPIE数据库中所有的蛋白质进行上述处理后，得到一个由节点和边构成的网络，将这个网络作为蛋白质相互作用子网络。

作为一种优选的实施方式，构建化合物相似性子网络的步骤具体为：采用PaDEL-Descriptor软件计算化合物的CDK分子指纹特征，根据CDK分子指纹特征判断任意两种化合物之间是否具有结构相似性。将化合物分别映射为一个点，如果某两种化合物具有结构相似性，那么就用一条边连接这两种化合物所对应的两个点，对所有的化合物进行上述处理后，得到一个由节点和边构成的网络，将这个网络作为化合物相似性子网络。

作为一种优选的实施方式，构建化合物-蛋白质相互作用子网络的步骤具体为：从BindingDB数据库收集化合物与人类蛋白质相互作用信息，去除没有确定的亲合力数值的相互作用；去除没有对应分子结构信息的相互作用、去除分子量大于1000的相互作用、去除没有对应蛋白质序列信息的相互作用、去除相互作用亲和力大于10μmol的相互作用。判断任意一种化合物与任意一种任意一种是否具有相互作用，如果某这种化合物与蛋白质具有相互作用，那么就用一条边连接这种化合物与蛋白质所对应的两个点，对所有的化合物和蛋白质进行上述处理后，得到一个由节点和边构成的网络，将这个网络作为化合物-蛋白质相互作用子网络。

将上述步骤得到的蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络合并为化合物-蛋白质相互作用组网络。

作为一种优选的实施方式，将三个子网络合并为化合物-蛋白质相互作用组网络的具体操作为：根据蛋白质在Uniprot/Swiss-Prot数据库的ID号和化合物在BindingDB数据库中的ID号，采用正则表达式匹配蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络这三个子网络中的化合物和蛋白质ID号，然后合并三个子网络，构建融合为化合物-蛋白质相互作用组网络。根据上述HIPPIE数据库、UniprotKB/Swiss-Prot数据库及BindingDB数据库等数据库获取的数据所构建的化合物-蛋白质相互作用组网络，包含637354889条边和51065个节点；其中，211794条边表示蛋白质与蛋白质相互作用，637084360条边表示化合物与化合物相似性关系，58735条表示化合物-蛋白质相互作用；在所有的节点中，15369个是蛋白质，35696个是药物小分子。

对各个网络的节点和边进行加权，具体步骤如下：对于得到的化合物-蛋白质相互作用组网络，首先获取所有蛋白质一级结构特征，而从UniprotKB/Swiss-Prot数据库中获取的蛋白质一级结构特征是一个1767维特征向量，包括氨基酸组成、二肽组成、各种自相关特征以及组成、转变和分布特征等信息，以蛋白质一级结构特征为权重对蛋白质在所述化合物-蛋白质相互作用组网络中对应的节点加权；获取所有化合物的分子指纹特征，而CDK化合物分子指纹特征是一个1024维二进制特征向量，包括化合物分子具有特定的分子结构和不具有特定的分子结构的信息，以所述CDK分子指纹特征为权重对化合物在所述化合物-蛋白质相互作用组网络中对应的节点加权；获取所有任意两种化合物的结构相似性系数，以所述结构相似性系数为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权；获取所有任意两种蛋白质相互作用得分，以所述相互作用得分为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权；获取所有任意一种化合物与任意一种蛋白质的相互作用亲和力，以所述相互作用亲和力为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权。

上述步骤构建了化合物-蛋白质相互作用组网络，并且化合物-蛋白质相互作用组网络中的节点和边也被赋予了相应的权重，下面以化合物c和蛋白质p为例，进一步说明如何获取化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，从而对化合物c和蛋白质p的相互作用亲和力进行识别。

为了得到化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，具体分为如下的三个步骤：

计算化合物c在化合物相似性子网络中的拓扑结构特征；

计算蛋白质p在蛋白质相互作用子网络中的拓扑结构特征；

根据化合物c在化合物相似性子网络中的拓扑结构特征和蛋白质p在蛋白质相互作用子网络中的拓扑结构特征，计算化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。

(1)蛋白质p在蛋白质相互作用子网络中的拓扑结构特征的计算：

在蛋白质相互作用子网络中，查找能够与蛋白质p发生相互作用的蛋白质，以及不仅能够与蛋白质p发生相互作用，而且还能够与化合物c发生相互作用的蛋白质。基于图论，考虑网络拓扑结构以及节点和边权重信息，采用下式计算蛋白质p的网络拓扑结构特征：

式中，

PNTF_p是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征；

P_p(i)、P_j(i)和P_k(i)分别表示蛋白质p,j和k的第i个节点权重；

E_p,j和E_p,k表示蛋白质p和j,蛋白质p和k的边权重(即蛋白质相互作用得分)；

N_p表示蛋白质集合，其中的蛋白质是蛋白质p的直接邻居；

M_p表示蛋白质集合，其中的蛋白质不仅是蛋白质p的直接邻居，而且与化合物c具有已知的相互作用亲和力信息。

上述i＝1,2,……,1767是由于使用了1767维的蛋白质一级结构特征。最终计算得到的PNTF_p为一个1767维特征向量。

(2)化合物c在化合物相似性子网络的拓扑结构特征的计算：

在化合物相似性子网络中，查找与化合物c具有结构相似性的直接邻居化合物，以及不仅能够与蛋白质p相互作用，并且是化合物c的直接邻居的化合物。基于图论，考虑网络拓扑结构以及节点和边权重信息，采用下式计算化合物c的网络拓扑结构特征：

式中，

CNTF_c是化合物c在化合物相似性子网络中的拓扑结构特征；

C_c(i)、C_j(i)和C_k(i)分别表示化合物c,j和k的第i个节点权重；

E_c,j和E_c,k表示化合物c和j,化合物c和k的边权重(即结构相似性系数)；

N_c表示化合物集合，其中的化合物是化合物c的直接邻居；

M_c表示化合物集合，其中的化合物不仅是化合物c的直接邻居，而且与蛋白质p具有已知的相互作用亲和力信息。

上述i＝1,2,……,1024是由于使用了1024维的CDK分子指纹特征。最终计算得到的CNTF_c为一个1024维特征向量。

(3)化合物c与蛋白质p组成的化合物-蛋白质对在相互作用子网络中的拓扑结构特征的计算：

式中，CPNTF_c,p是化合物c和蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，

表示连接化合物相似性子网络的拓扑结构特征和蛋白质相互作用子网络的拓扑结构特征的运算，由于CNTF_c是一个1024维特征向量，PNTF_p是一个1767维特征向量，最终计算得到的CPNTF_c,p为一个2791维的特征向量。

使用随机森林算法模型对上述计算所得的CPNTF_c,p进行处理，从而输出化合物c与蛋白质p相互作用亲和力识别结果。

下面采用随机森林算法构建模型，通过10-折交叉验证优化模型参数，提供预测精度，并预测潜在与疾病相关化合物-蛋白质相互作用，发现先导化合物。

优选地，随机森林算法优化的模型参数如下：森林中树的数目是500，叶节点选择变量的数目是总变量数目的平方根。

在采用随机森林算法构建模型的过程中，森林中树的数目按照步长100，从100到1000改变，每一个叶节点特征的数目按照步长2¹，从2⁰到2¹⁰改变。采用格点搜索方法选择两个参数的最优组合。整个数据集平均分为10等分，每一次随机选择1份作为测试集验证模型的性能，剩余的9份作为训练集构建模型。整个数据集被平均分配10次，每一次均执行10折交叉验证，平均结果和相对标准偏差如表1所示。

基于当前方法获得的平均斯皮尔曼相关系数和皮尔逊相关系数分别是0.7866和0.7917，相对标准偏差均是0.07％，均方差和相对标准偏是0.5490和0.22％。平均相关系数大于0.7，均方根差小于0.6，表明获得的模型具有良好的泛化能力，能够精确地预测潜在的化合物-蛋白质相互作用；相关系数的相对标准偏差均为0.07％，表明当前方法具有较好的鲁棒性，随机分配整个数据集1次执行10-折交叉验证是可行的。

表1 基于各种分子指纹特征的10-折交叉验证统计平均结果

(2)分子指纹特征除了CDK特征指纹，最常见的还有CDK extended，Estate，CDKgraph only，MACCS，Pubchem，Substrcture，Klekota-Roth和2D atom pairs等多种分子指纹特征。我们进一步采用基于这些分子指纹特征，执行了10-折交叉验证测试，统计平均结果如表1所示。

CDK extended类分子指纹特征获得了0.7844和0.7909的斯皮尔曼和皮尔逊相关系数，仅比CDK类特征获得的结果低了0.0022和0.0008。CDK graph only类分子指纹特征获得了0.7731和0.7795的斯皮尔曼和皮尔逊相关系数、仅比CDK获得结果低了0.0135和0.0122。事实上，CDK，CDK extended和CDK graph only属于同一类分子指纹特征，他们仅有微小的差别。例如，在CDK特征中，每一个描述符是“1”或者“0”，分别表示分子有或者没有特定的分子结构。在CDK extended中，描述符不是“1”或者“0”，而是分子包含特定分子结构的数目。在CDK graph only中，描述符仍然是“1”或者“0”，但是没有考虑分子结构中化学键的顺序。

Pubchem和Klekota-Roth两类指纹特征获得了大约0.77和0.78的斯皮尔曼和皮尔逊相关系数。Pubchem特征是由PubChem数据库定义的分子指纹特征，该特征是一个881维的二进制特征向量。Klekota-Roth是由Klekota等人定义的分子指纹特征，该特征是一个4860维的二进制特征向量。相关系数结果表明，这两类分子指纹特征的性能稍逊于CDK分子指纹特征。另外，除了MACCS获得了大约0.75和0.76的斯皮尔曼和皮尔逊相关系数以外，其它特征获得的相关系数均小于0.74。这些结果表明，CDK分子指纹特征具有最好的性能，能够充分表征化合物的分子结构，当前模型获得了最好的预测性。

(3)通过改变蛋白质相互作用得分阈值为0.1，0.2，……，0.9，构建了9个蛋白质相互作用子网络，计算蛋白质网络拓扑结构特征，验证蛋白质相互作用假阳性对本发明方向性能的影响，结果如表2所示。

表2 基于不同蛋白质相互作用得分阈值的10-折交叉验证结果

当相互作用得分阈值从0.1变化到0.9式，斯皮尔曼和皮尔逊相关系数始终大于0.78和0.79，仅有微小波动；均方差始终介于0.54和0.56之间，仅有微小变动。这些结果表明，当前发明方法对蛋白质相互作用假阳性具有较好的鲁棒性，在蛋白质相互作用子网络中添加较多的假阳性信息，对模型的预测性能影响较小。

(4)通过改变化合物相似性阈值为0.1，0.2，……，0.9，构建了9个化合物相似性子网络，计算化合物网络拓扑结构特征，验证化合物相似性对本发明方向性能的影响，结果如表3所示。

表3 基于各种化合物相似性阈值的10-折交叉验证结果

当化合物相似性阈值从0.9减少到0.4时，虽然模型10-折交叉验证的斯皮尔曼相关系数逐渐变小，但是始终高于0.77；皮尔逊相关系数仅从0.7914减小到了0.7804，并且始终高于0.78；阈值进一步减少到0.3和0.2时，模型仍然获得了较高的预测性能，斯皮尔曼和皮尔逊相关系数分别为0.7568和0.7551、0.7636和0.7615。当阈值设置为0.1时，斯皮尔曼和皮尔逊相关系数仍然大于0.75。这些结果表明，当前发明方法对化合物的结果相似性具有鲁棒性，在化合物相似性子网络中添加具有较高或者较低结构相似性的化合物，对模型预测性能影响较小。

实施例4的内容均适用于实施例1～3。以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.化合物-蛋白质相互作用亲和力识别方法，其特征在于，包括以下步骤：

获取物质相互关系数据；所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据；

利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理，从而输出化合物-蛋白质相互作用亲和力识别结果；

所述根据物质相互关系数据，构建化合物-蛋白质相互作用组网络这一步骤，具体包括：

将化合物和蛋白质分别映射为一个节点；

根据蛋白质和化合物在数据库中的ID号，对蛋白质和化合物进行匹配，从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络；

所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征；

所述根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，具体包括：

根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征；

所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

CNTF_c是化合物c在化合物相似性子网络中的拓扑结构特征；

C_c(i)是化合物相似性子网络中化合物c的第i个节点权重；

C_j(i)是化合物相似性子网络中化合物j的第i个节点权重；

C_k(i)是化合物相似性子网络中化合物k的第i个节点权重；

N_c是化合物相似性子网络中化合物c的所有直接邻居的集合；

2.根据权利要求1所述的化合物-蛋白质相互作用亲和力识别方法，其特征在于，所述计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

PNTF_p是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征；

P_p(i)是蛋白质相互作用子网络中蛋白质p的第i个节点权重；

P_j(i)是蛋白质相互作用子网络中蛋白质j的第i个节点权重；

P_k(i)是蛋白质相互作用子网络中蛋白质k的第i个节点权重；

3.根据权利要求1所述的化合物-蛋白质相互作用亲和力识别方法，其特征在于，所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤，其所采用的计算公式如下所示：

式中，

4.化合物-蛋白质相互作用亲和力识别系统，其特征在于，包括：

数据模块，用于获取物质相互关系数据；所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据；

处理模块，用于利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理，从而输出化合物-蛋白质相互作用亲和力识别结果；

所述根据物质相互关系数据，构建化合物-蛋白质相互作用组网络，具体包括：

将化合物和蛋白质分别映射为一个节点；

所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，具体包括：

所述根据节点的权重与边的权重，计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征，具体包括：

所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征，其所采用的计算公式如下所示：

式中，

CNTF_c是化合物c在化合物相似性子网络中的拓扑结构特征；

C_c(i)是化合物相似性子网络中化合物c的第i个节点权重；

C_j(i)是化合物相似性子网络中化合物j的第i个节点权重；

C_k(i)是化合物相似性子网络中化合物k的第i个节点权重；

N_c是化合物相似性子网络中化合物c的所有直接邻居的集合；

5.化合物-蛋白质相互作用亲和力识别装置，其特征在于，包括：

存储器，用于存储至少一个程序；

处理器，用于加载所述至少一个程序以执行权利要求1-3任一项所述的化合物-蛋白质相互作用亲和力识别。