CN107679362B - 化合物-蛋白质相互作用亲和力识别方法、系统和装置 - Google Patents

化合物-蛋白质相互作用亲和力识别方法、系统和装置 Download PDF

Info

Publication number
CN107679362B
CN107679362B CN201710852009.9A CN201710852009A CN107679362B CN 107679362 B CN107679362 B CN 107679362B CN 201710852009 A CN201710852009 A CN 201710852009A CN 107679362 B CN107679362 B CN 107679362B
Authority
CN
China
Prior art keywords
compound
protein
network
protein interaction
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710852009.9A
Other languages
English (en)
Other versions
CN107679362A (zh
Inventor
李占潮
邹小勇
戴宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Pharmaceutical University
Sun Yat Sen University
Original Assignee
Guangdong Pharmaceutical University
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Pharmaceutical University, Sun Yat Sen University filed Critical Guangdong Pharmaceutical University
Priority to CN201710852009.9A priority Critical patent/CN107679362B/zh
Publication of CN107679362A publication Critical patent/CN107679362A/zh
Application granted granted Critical
Publication of CN107679362B publication Critical patent/CN107679362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种化合物‑蛋白质相互作用亲和力识别方法、系统及装置,该方法包括获取物质相互关系数据、构建化合物‑蛋白质相互作用组网络、计算化合物‑蛋白质相互作用组网络的拓扑结构特征、利用随机森林算法模型对所述拓扑结构特征进行处理,从而识别化合物‑蛋白质相互作用亲和力等步骤;该系统包括数据模块、网络模块、计算模块、处理模块等功能模块;该装置包括用于存储数据和程序的存储器以及用于执行化合物‑蛋白质相互作用亲和力识别方法程序的处理器。本发明将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题,从而寻找潜在的药物小分子,可用于计算机辅助药物设计技术领域。

Description

化合物-蛋白质相互作用亲和力识别方法、系统和装置
技术领域
本发明涉及计算机辅助药物设计技术领域,尤其是化合物-蛋白质相互作用亲和力识别方法、系统和装置。
背景技术
新药研发费时、费力、成功率低。一个新的药物从先导化合物的识别,到临床三期实验至上市销售,通常需要耗时十多年和花费数十亿美元。近年来,美国食品药品管理局每年批准的新药数目程逐年下降的趋势。一个主要原因就是缺乏化合物-蛋白质相互作用的亲和力等相关信息。现有药物大部分都是具有生物活性的小分子化合物,主要通过与疾病相关蛋白质的特异性结合,阻断异常的信号转导或者代谢路径等生物过程发挥疗效。因此,为了寻找潜在的药物小分子,需要更先进的技术去识别化合物-蛋白质的相互作用亲和力。
发明内容
为了解决上述技术问题,本发明的第一目的是提供化合物-蛋白质相互作用亲和力识别方法;本发明的第二目的是提供化合物-蛋白质相互作用亲和力识别系统;本发明的第三目的是提供化合物-蛋白质相互作用亲和力识别装置。
本发明所采取的第一技术方案是:
化合物-蛋白质相互作用亲和力识别方法,包括以下步骤:
获取物质相互关系数据;
根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果。
进一步地,所述物质相互关系数据包括:蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据。
进一步地,所述根据物质相互关系数据,构建化合物-蛋白质相互作用组网络这一步骤,具体包括:
将化合物和蛋白质分别映射为一个节点;
根据所述蛋白质相互作用数据判断两种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接两种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络;
根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性,若判断结果为是,则用一条边连接两种化合物分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络;
根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接该种化合物和该种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络;
根据蛋白质和化合物在数据库中的ID号,对蛋白质和化合物进行匹配,从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络。
进一步地,所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
获取蛋白质一级结构特征,以蛋白质一级结构特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取化合物分子指纹特征,以化合物分子指纹特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取所有任意两种化合物的结构相似性系数,以化合物结构相似性系数为权重对化合物相似性子网络中对应的边加权;
获取所有任意两种蛋白质相互作用得分,以蛋白质相互作用得分为权重对蛋白质相互作用子网络中对应的边加权;
获取所有任意一种化合物与任意一种蛋白质之间的相互作用亲和力,以化合物与蛋白质之间的相互作用亲和力为权重对化合物-蛋白质相互作用组网络中对应的边加权;
根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。
进一步地,所述根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
根据节点的权重与边的权重,计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征;
根据节点的权重与边的权重,计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征;
根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。
进一步地,所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure BDA0001412157660000031
式中,
CNTFc是化合物c在化合物相似性子网络中的拓扑结构特征;
Cc(i)是化合物相似性子网络中化合物c的第i个节点权重;
Cj(i)是化合物相似性子网络中化合物j的第i个节点权重;
Ck(i)是化合物相似性子网络中化合物k的第i个节点权重;
Ec,j是化合物相似性子网络中化合物c与化合物j对应的边权重;
Ec,k是化合物相似性子网络中化合物c和化合物k对应的边权重;
Nc是化合物相似性子网络中化合物c的所有直接邻居的集合;
Mc是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合。
进一步地,所述计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure BDA0001412157660000032
式中,
PNTFp是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征;
Pp(i)是蛋白质相互作用子网络中蛋白质p的第i个节点权重;
Pj(i)是蛋白质相互作用子网络中蛋白质j的第i个节点权重;
Pk(i)是蛋白质相互作用子网络中蛋白质k的第i个节点权重;
Ep,j是蛋白质相互作用子网络中蛋白质p和蛋白质j对应的边权重;
Ep,k是蛋白质相互作用子网络中蛋白质p和蛋白质k对应的边权重;
Np是蛋白质相互作用子网络中蛋白质p的所有直接邻居的集合;
Mp是蛋白质相互作用子网络中所有与化合物c具有已知的相互作用亲和力信息且与蛋白质p是直接邻居关系的所有蛋白质的集合。
进一步地,所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure BDA0001412157660000041
式中,
CPNTFc,p是化合物c和蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,CNTFc是化合物c在相似性子网络中的拓扑结构特征,PNTFp是蛋白质p在相互作用子网络中的拓扑结构特征,
Figure BDA0001412157660000042
表示将化合物c在化合物相似性子网络中的拓扑结构特征和蛋白质p在蛋白质相互作用子网络中的拓扑结构特征连接起来。
本发明所采取的第二技术方案是:
化合物-蛋白质相互作用亲和力识别系统,包括:
数据模块,用于获取物质相互关系数据;
网络模块,用于根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算模块,用于计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
处理模块,用于利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果。
本发明所采取的第三技术方案是:
化合物-蛋白质相互作用亲和力识别装置,包括:
存储器,用于存储至少一个程序;
处理器,用于加载所述至少一个程序并执行以下步骤:
获取物质相互关系数据;
根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果。
本发明的第一有益效果是:本发明方法通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络,对构建的化合物-蛋白质相互作用组网络的节点和边加权,采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究,考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性,将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本方法简单、快速、准确,并且具有鲁棒性。
本发明的第二有益效果是:使用模块化系统实现化合物-蛋白质相互作用亲和力识别方法,通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络,对构建的化合物-蛋白质相互作用组网络的节点和边加权,采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究,考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性,将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本系统简单、快速、准确,并且具有鲁棒性。
本发明的第三有益效果是:使用包括存储器和处理器的装置实现化合物-蛋白质相互作用亲和力识别方法,通过构建包含蛋白质相互作用子网络、化合物相似性子网络和化合物-蛋白质相互作用子网络在内的融合化合物-蛋白质相互作用组网络,对构建的化合物-蛋白质相互作用组网络的节点和边加权,采用随机森林算法构建模型对化合物-蛋白质相互作用亲合力进行识别研究,考虑了化合物和蛋白质的物理化学等性质、蛋白质之间相互作用的假阳性和化合物结构之间的相似性,将化合物能否与蛋白质相互作用问题转化为化合物与蛋白质的相互作用亲合力识别问题。本装置简单、快速、准确,并且具有鲁棒性。
附图说明
图1是本发明化合物-蛋白质相互作用亲和力识别方法的流程图;
图2是构建化合物-蛋白质相互作用组网络的具体流程图;
图3是化合物-蛋白质相互作用组网络的结构图;
图4是本发明化合物-蛋白质相互作用亲和力识别系统的结构图;
图5是本发明化合物-蛋白质相互作用亲和力识别装置的结构图。
具体实施方式
实施例1
本发明公开的化合物-蛋白质相互作用亲和力识别方法,如图1所示,包括以下步骤:
获取物质相互关系数据;
根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果。
作为一种优选的实施方式,所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据。
作为一种优选的实施方式,如图2所示,所述根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络这一步骤,具体包括:
将化合物和蛋白质分别映射为一个节点;
根据所述蛋白质相互作用数据判断两种蛋白质是否发生相互作用,若判断结果为是,则用一条边连接两种蛋白质分别对应的节点,否则不做处理,然后,将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络;
根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性,若判断结果为是,则用一条边连接两种化合物分别对应的节点,否则不做处理,然后,将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络;
根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质是否发生相互作用,若判断结果为是,则用一条边连接该种化合物和该种蛋白质分别对应的节点,否则不做处理,然后,将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络;
根据蛋白质和化合物在数据库中的ID号,对蛋白质和化合物进行匹配,从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络,如图3所示,图中,标号为1的部分是蛋白质相互作用子网络,标号为2的部分是化合物相似性子网络,标号为3的部分是化合物-蛋白质相互作用子网络,这三个子网络融合为一个整体,成为化合物-蛋白质相互作用组网络。
作为一种优选的实施方式,所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
获取蛋白质一级结构特征,以蛋白质一级结构特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取化合物分子指纹特征,以化合物分子指纹特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取所有任意两种化合物的结构相似性系数,以化合物结构相似性系数为权重对化合物相似性子网络中对应的边加权;
获取所有任意两种蛋白质相互作用得分,以蛋白质相互作用得分为权重对蛋白质相互作用子网络中对应的边加权;
获取所有任意一种化合物与任意一种蛋白质之间的相互作用亲和力,以化合物与蛋白质之间的相互作用亲和力为权重对化合物-蛋白质相互作用组网络中对应的边加权;
根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。
作为一种优选的实施方式,所述根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
根据节点的权重与边的权重,计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征;
根据节点的权重与边的权重,计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征;
根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。
作为一种优选的实施方式,使用如下公式计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征:
Figure BDA0001412157660000071
作为一种优选的实施方式,使用如下公式计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征:
Figure BDA0001412157660000072
作为一种优选的实施方式,使用如下公式计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征:
Figure BDA0001412157660000081
其中,
Pp(i)、Pj(i)和Pk(i)分别是蛋白质相互作用子网络中蛋白质p,j和k的第i个节点权重;
Ep,j和Ep,k分别是蛋白质相互作用子网络中蛋白质p和j、蛋白质p和k对应的边权重;
Np是蛋白质相互作用子网络中所有蛋白质p的直接邻居的集合;
Mp是蛋白质相互作用子网络中所有与化合物c具有已知的相互作用亲和力信息且与蛋白质p是直接邻居关系的所有蛋白质的集合;
Cc(i)、Cj(i)和Ck(i)分别是化合物相似性子网络中化合物c,j和k的第i个节点权重;
Ec,j和Ec,k分别是是化合物相似性子网络中化合物c与j、化合物c和k对应的边权重;
Nc是化合物相似性子网络中化合物c的所有直接邻居的集合;
Mc是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合;
Figure BDA0001412157660000082
表示连接两个网络拓扑结构特征的运算,将化合物在化合物相似性子网络的拓扑结构特征与蛋白质在蛋白质相互作用子网络的拓扑结构特征连接起来,得到此化合物与此蛋白质组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络的拓扑结构特征。
作为一种优选的实施方式,所述分子指纹特征为CDK分子指纹特征。
实施例2
图4示意了一种实现本发明化合物-蛋白质相互作用亲和力识别方法的系统的结构。该系统包括用于获取物质相互关系数据的数据模块,用于根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络的网络模块,用于计算所述化合物-蛋白质相互作用组网络的拓扑结构特征的计算模块,以及用于利用随机森林算法构建模型,对所述拓扑结构特征进行处理,根据处理结果,识别化合物-蛋白质相互作用亲和力的处理模块。通过上述四个功能模块,分别实现本发明化合物-蛋白质相互作用亲和力识别方法的各个步骤。
实施例3
图5示意了一种实现本发明化合物-蛋白质相互作用亲和力识别方法的装置的结构。该装置包括用于存储数据和至少一个实现本发明化合物-蛋白质相互作用亲和力识别方法的程序的存储器,以及用于加载执行存储器所存储的程序的处理器。
实施例4
以下结合本实施例的优选内容对本发明做进一步的阐述。本实施例的化合物-蛋白质相互作用亲和力识别方法可以通过实施例2中的化合物-蛋白质相互作用亲和力识别系统以及实施例3中的化合物-蛋白质相互作用亲和力识别装置实现。
作为一种优选的实施方式,构建蛋白质相互作用子网络的步骤具体为:从HIPPIE数据库收集人类蛋白质相互作用信息,去除重复相互作用信息和自相互作用信息;根据蛋白质ID号,从UniprotKB/Swiss-Prot数据库获取蛋白质氨基酸序列信息;获取氨基酸组成、二肽组成、各种自相关,以及组成、转变和分布等蛋白质一级结构特征;将蛋白质分别映射为一个点,并且根据蛋白质相互作用信息作出判断,如果某两种蛋白质能够发生相互作用,那么就用一条边连接这两种蛋白质所对应的两个点,对HIPPIE数据库中所有的蛋白质进行上述处理后,得到一个由节点和边构成的网络,将这个网络作为蛋白质相互作用子网络。
作为一种优选的实施方式,构建化合物相似性子网络的步骤具体为:采用PaDEL-Descriptor软件计算化合物的CDK分子指纹特征,根据CDK分子指纹特征判断任意两种化合物之间是否具有结构相似性。将化合物分别映射为一个点,如果某两种化合物具有结构相似性,那么就用一条边连接这两种化合物所对应的两个点,对所有的化合物进行上述处理后,得到一个由节点和边构成的网络,将这个网络作为化合物相似性子网络。
作为一种优选的实施方式,构建化合物-蛋白质相互作用子网络的步骤具体为:从BindingDB数据库收集化合物与人类蛋白质相互作用信息,去除没有确定的亲合力数值的相互作用;去除没有对应分子结构信息的相互作用、去除分子量大于1000的相互作用、去除没有对应蛋白质序列信息的相互作用、去除相互作用亲和力大于10μmol的相互作用。判断任意一种化合物与任意一种任意一种是否具有相互作用,如果某这种化合物与蛋白质具有相互作用,那么就用一条边连接这种化合物与蛋白质所对应的两个点,对所有的化合物和蛋白质进行上述处理后,得到一个由节点和边构成的网络,将这个网络作为化合物-蛋白质相互作用子网络。
将上述步骤得到的蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络合并为化合物-蛋白质相互作用组网络。
作为一种优选的实施方式,将三个子网络合并为化合物-蛋白质相互作用组网络的具体操作为:根据蛋白质在Uniprot/Swiss-Prot数据库的ID号和化合物在BindingDB数据库中的ID号,采用正则表达式匹配蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络这三个子网络中的化合物和蛋白质ID号,然后合并三个子网络,构建融合为化合物-蛋白质相互作用组网络。根据上述HIPPIE数据库、UniprotKB/Swiss-Prot数据库及BindingDB数据库等数据库获取的数据所构建的化合物-蛋白质相互作用组网络,包含637354889条边和51065个节点;其中,211794条边表示蛋白质与蛋白质相互作用,637084360条边表示化合物与化合物相似性关系,58735条表示化合物-蛋白质相互作用;在所有的节点中,15369个是蛋白质,35696个是药物小分子。
对各个网络的节点和边进行加权,具体步骤如下:对于得到的化合物-蛋白质相互作用组网络,首先获取所有蛋白质一级结构特征,而从UniprotKB/Swiss-Prot数据库中获取的蛋白质一级结构特征是一个1767维特征向量,包括氨基酸组成、二肽组成、各种自相关特征以及组成、转变和分布特征等信息,以蛋白质一级结构特征为权重对蛋白质在所述化合物-蛋白质相互作用组网络中对应的节点加权;获取所有化合物的分子指纹特征,而CDK化合物分子指纹特征是一个1024维二进制特征向量,包括化合物分子具有特定的分子结构和不具有特定的分子结构的信息,以所述CDK分子指纹特征为权重对化合物在所述化合物-蛋白质相互作用组网络中对应的节点加权;获取所有任意两种化合物的结构相似性系数,以所述结构相似性系数为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权;获取所有任意两种蛋白质相互作用得分,以所述相互作用得分为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权;获取所有任意一种化合物与任意一种蛋白质的相互作用亲和力,以所述相互作用亲和力为权重对在所述化合物-蛋白质相互作用组网络中对应的边加权。
上述步骤构建了化合物-蛋白质相互作用组网络,并且化合物-蛋白质相互作用组网络中的节点和边也被赋予了相应的权重,下面以化合物c和蛋白质p为例,进一步说明如何获取化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,从而对化合物c和蛋白质p的相互作用亲和力进行识别。
为了得到化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,具体分为如下的三个步骤:
计算化合物c在化合物相似性子网络中的拓扑结构特征;
计算蛋白质p在蛋白质相互作用子网络中的拓扑结构特征;
根据化合物c在化合物相似性子网络中的拓扑结构特征和蛋白质p在蛋白质相互作用子网络中的拓扑结构特征,计算化合物c与蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征。
(1)蛋白质p在蛋白质相互作用子网络中的拓扑结构特征的计算:
在蛋白质相互作用子网络中,查找能够与蛋白质p发生相互作用的蛋白质,以及不仅能够与蛋白质p发生相互作用,而且还能够与化合物c发生相互作用的蛋白质。基于图论,考虑网络拓扑结构以及节点和边权重信息,采用下式计算蛋白质p的网络拓扑结构特征:
Figure BDA0001412157660000111
式中,
PNTFp是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征;
Pp(i)、Pj(i)和Pk(i)分别表示蛋白质p,j和k的第i个节点权重;
Ep,j和Ep,k表示蛋白质p和j,蛋白质p和k的边权重(即蛋白质相互作用得分);
Np表示蛋白质集合,其中的蛋白质是蛋白质p的直接邻居;
Mp表示蛋白质集合,其中的蛋白质不仅是蛋白质p的直接邻居,而且与化合物c具有已知的相互作用亲和力信息。
上述i=1,2,……,1767是由于使用了1767维的蛋白质一级结构特征。最终计算得到的PNTFp为一个1767维特征向量。
(2)化合物c在化合物相似性子网络的拓扑结构特征的计算:
在化合物相似性子网络中,查找与化合物c具有结构相似性的直接邻居化合物,以及不仅能够与蛋白质p相互作用,并且是化合物c的直接邻居的化合物。基于图论,考虑网络拓扑结构以及节点和边权重信息,采用下式计算化合物c的网络拓扑结构特征:
Figure BDA0001412157660000112
式中,
CNTFc是化合物c在化合物相似性子网络中的拓扑结构特征;
Cc(i)、Cj(i)和Ck(i)分别表示化合物c,j和k的第i个节点权重;
Ec,j和Ec,k表示化合物c和j,化合物c和k的边权重(即结构相似性系数);
Nc表示化合物集合,其中的化合物是化合物c的直接邻居;
Mc表示化合物集合,其中的化合物不仅是化合物c的直接邻居,而且与蛋白质p具有已知的相互作用亲和力信息。
上述i=1,2,……,1024是由于使用了1024维的CDK分子指纹特征。最终计算得到的CNTFc为一个1024维特征向量。
(3)化合物c与蛋白质p组成的化合物-蛋白质对在相互作用子网络中的拓扑结构特征的计算:
Figure BDA0001412157660000121
式中,CPNTFc,p是化合物c和蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,
Figure BDA0001412157660000122
表示连接化合物相似性子网络的拓扑结构特征和蛋白质相互作用子网络的拓扑结构特征的运算,由于CNTFc是一个1024维特征向量,PNTFp是一个1767维特征向量,最终计算得到的CPNTFc,p为一个2791维的特征向量。
使用随机森林算法模型对上述计算所得的CPNTFc,p进行处理,从而输出化合物c与蛋白质p相互作用亲和力识别结果。
下面采用随机森林算法构建模型,通过10-折交叉验证优化模型参数,提供预测精度,并预测潜在与疾病相关化合物-蛋白质相互作用,发现先导化合物。
优选地,随机森林算法优化的模型参数如下:森林中树的数目是500,叶节点选择变量的数目是总变量数目的平方根。
在采用随机森林算法构建模型的过程中,森林中树的数目按照步长100,从100到1000改变,每一个叶节点特征的数目按照步长21,从20到210改变。采用格点搜索方法选择两个参数的最优组合。整个数据集平均分为10等分,每一次随机选择1份作为测试集验证模型的性能,剩余的9份作为训练集构建模型。整个数据集被平均分配10次,每一次均执行10折交叉验证,平均结果和相对标准偏差如表1所示。
基于当前方法获得的平均斯皮尔曼相关系数和皮尔逊相关系数分别是0.7866和0.7917,相对标准偏差均是0.07%,均方差和相对标准偏是0.5490和0.22%。平均相关系数大于0.7,均方根差小于0.6,表明获得的模型具有良好的泛化能力,能够精确地预测潜在的化合物-蛋白质相互作用;相关系数的相对标准偏差均为0.07%,表明当前方法具有较好的鲁棒性,随机分配整个数据集1次执行10-折交叉验证是可行的。
表1 基于各种分子指纹特征的10-折交叉验证统计平均结果
Figure BDA0001412157660000123
Figure BDA0001412157660000131
(2)分子指纹特征除了CDK特征指纹,最常见的还有CDK extended,Estate,CDKgraph only,MACCS,Pubchem,Substrcture,Klekota-Roth和2D atom pairs等多种分子指纹特征。我们进一步采用基于这些分子指纹特征,执行了10-折交叉验证测试,统计平均结果如表1所示。
CDK extended类分子指纹特征获得了0.7844和0.7909的斯皮尔曼和皮尔逊相关系数,仅比CDK类特征获得的结果低了0.0022和0.0008。CDK graph only类分子指纹特征获得了0.7731和0.7795的斯皮尔曼和皮尔逊相关系数、仅比CDK获得结果低了0.0135和0.0122。事实上,CDK,CDK extended和CDK graph only属于同一类分子指纹特征,他们仅有微小的差别。例如,在CDK特征中,每一个描述符是“1”或者“0”,分别表示分子有或者没有特定的分子结构。在CDK extended中,描述符不是“1”或者“0”,而是分子包含特定分子结构的数目。在CDK graph only中,描述符仍然是“1”或者“0”,但是没有考虑分子结构中化学键的顺序。
Pubchem和Klekota-Roth两类指纹特征获得了大约0.77和0.78的斯皮尔曼和皮尔逊相关系数。Pubchem特征是由PubChem数据库定义的分子指纹特征,该特征是一个881维的二进制特征向量。Klekota-Roth是由Klekota等人定义的分子指纹特征,该特征是一个4860维的二进制特征向量。相关系数结果表明,这两类分子指纹特征的性能稍逊于CDK分子指纹特征。另外,除了MACCS获得了大约0.75和0.76的斯皮尔曼和皮尔逊相关系数以外,其它特征获得的相关系数均小于0.74。这些结果表明,CDK分子指纹特征具有最好的性能,能够充分表征化合物的分子结构,当前模型获得了最好的预测性。
(3)通过改变蛋白质相互作用得分阈值为0.1,0.2,……,0.9,构建了9个蛋白质相互作用子网络,计算蛋白质网络拓扑结构特征,验证蛋白质相互作用假阳性对本发明方向性能的影响,结果如表2所示。
表2 基于不同蛋白质相互作用得分阈值的10-折交叉验证结果
Figure BDA0001412157660000141
当相互作用得分阈值从0.1变化到0.9式,斯皮尔曼和皮尔逊相关系数始终大于0.78和0.79,仅有微小波动;均方差始终介于0.54和0.56之间,仅有微小变动。这些结果表明,当前发明方法对蛋白质相互作用假阳性具有较好的鲁棒性,在蛋白质相互作用子网络中添加较多的假阳性信息,对模型的预测性能影响较小。
(4)通过改变化合物相似性阈值为0.1,0.2,……,0.9,构建了9个化合物相似性子网络,计算化合物网络拓扑结构特征,验证化合物相似性对本发明方向性能的影响,结果如表3所示。
表3 基于各种化合物相似性阈值的10-折交叉验证结果
Figure BDA0001412157660000142
Figure BDA0001412157660000151
当化合物相似性阈值从0.9减少到0.4时,虽然模型10-折交叉验证的斯皮尔曼相关系数逐渐变小,但是始终高于0.77;皮尔逊相关系数仅从0.7914减小到了0.7804,并且始终高于0.78;阈值进一步减少到0.3和0.2时,模型仍然获得了较高的预测性能,斯皮尔曼和皮尔逊相关系数分别为0.7568和0.7551、0.7636和0.7615。当阈值设置为0.1时,斯皮尔曼和皮尔逊相关系数仍然大于0.75。这些结果表明,当前发明方法对化合物的结果相似性具有鲁棒性,在化合物相似性子网络中添加具有较高或者较低结构相似性的化合物,对模型预测性能影响较小。
实施例4的内容均适用于实施例1~3。以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.化合物-蛋白质相互作用亲和力识别方法,其特征在于,包括以下步骤:
获取物质相互关系数据;所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据;
根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果;
所述根据物质相互关系数据,构建化合物-蛋白质相互作用组网络这一步骤,具体包括:
将化合物和蛋白质分别映射为一个节点;
根据所述蛋白质相互作用数据判断两种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接两种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络;
根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性,若判断结果为是,则用一条边连接两种化合物分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络;
根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接该种化合物和该种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络;
根据蛋白质和化合物在数据库中的ID号,对蛋白质和化合物进行匹配,从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络;
所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
获取蛋白质一级结构特征,以蛋白质一级结构特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取化合物分子指纹特征,以化合物分子指纹特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取所有任意两种化合物的结构相似性系数,以化合物结构相似性系数为权重对化合物相似性子网络中对应的边加权;
获取所有任意两种蛋白质相互作用得分,以蛋白质相互作用得分为权重对蛋白质相互作用子网络中对应的边加权;
获取所有任意一种化合物与任意一种蛋白质之间的相互作用亲和力,以化合物与蛋白质之间的相互作用亲和力为权重对化合物-蛋白质相互作用组网络中对应的边加权;
根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
所述根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,具体包括:
根据节点的权重与边的权重,计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征;
根据节点的权重与边的权重,计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征;
根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure FDA0002716784070000021
式中,
CNTFc是化合物c在化合物相似性子网络中的拓扑结构特征;
Cc(i)是化合物相似性子网络中化合物c的第i个节点权重;
Cj(i)是化合物相似性子网络中化合物j的第i个节点权重;
Ck(i)是化合物相似性子网络中化合物k的第i个节点权重;
Ec,j是化合物相似性子网络中化合物c与化合物j对应的边权重;
Ec,k是化合物相似性子网络中化合物c和化合物k对应的边权重;
Nc是化合物相似性子网络中化合物c的所有直接邻居的集合;
Mc是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合。
2.根据权利要求1所述的化合物-蛋白质相互作用亲和力识别方法,其特征在于,所述计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure FDA0002716784070000031
式中,
PNTFp是蛋白质p在蛋白质相互作用子网络中的拓扑结构特征;
Pp(i)是蛋白质相互作用子网络中蛋白质p的第i个节点权重;
Pj(i)是蛋白质相互作用子网络中蛋白质j的第i个节点权重;
Pk(i)是蛋白质相互作用子网络中蛋白质k的第i个节点权重;
Ep,j是蛋白质相互作用子网络中蛋白质p和蛋白质j对应的边权重;
Ep,k是蛋白质相互作用子网络中蛋白质p和蛋白质k对应的边权重;
Np是蛋白质相互作用子网络中蛋白质p的所有直接邻居的集合;
Mp是蛋白质相互作用子网络中所有与化合物c具有已知的相互作用亲和力信息且与蛋白质p是直接邻居关系的所有蛋白质的集合。
3.根据权利要求1所述的化合物-蛋白质相互作用亲和力识别方法,其特征在于,所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征这一步骤,其所采用的计算公式如下所示:
Figure FDA0002716784070000032
式中,
CPNTFc,p是化合物c和蛋白质p组成的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,CNTFc是化合物c在相似性子网络中的拓扑结构特征,PNTFp是蛋白质p在相互作用子网络中的拓扑结构特征,
Figure FDA0002716784070000033
表示将化合物c在化合物相似性子网络中的拓扑结构特征和蛋白质p在蛋白质相互作用子网络中的拓扑结构特征连接起来。
4.化合物-蛋白质相互作用亲和力识别系统,其特征在于,包括:
数据模块,用于获取物质相互关系数据;所述物质相互关系数据包括蛋白质相互作用数据、化合物分子指纹特征和化合物与蛋白质相互作用数据;
网络模块,用于根据所述物质相互关系数据,构建化合物-蛋白质相互作用组网络;
计算模块,用于计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
处理模块,用于利用随机森林算法模型对化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征进行处理,从而输出化合物-蛋白质相互作用亲和力识别结果;
所述根据物质相互关系数据,构建化合物-蛋白质相互作用组网络,具体包括:
将化合物和蛋白质分别映射为一个节点;
根据所述蛋白质相互作用数据判断两种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接两种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为蛋白质相互作用子网络;
根据所述化合物分子指纹特征判断两种化合物是否具有结构相似性,若判断结果为是,则用一条边连接两种化合物分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物相似性子网络;
根据所述化合物与蛋白质相互作用数据判断一种化合物和一种蛋白质之间是否发生相互作用,若判断结果为是,则用一条边连接该种化合物和该种蛋白质分别对应的节点,否则不做处理;然后,将所有得到的边以及被边连接的节点构成的网络作为化合物-蛋白质相互作用子网络;
根据蛋白质和化合物在数据库中的ID号,对蛋白质和化合物进行匹配,从而将蛋白质相互作用子网络、化合物相似性子网络与化合物-蛋白质相互作用子网络融合为所需构建的化合物-蛋白质相互作用组网络;
所述计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,具体包括:
获取蛋白质一级结构特征,以蛋白质一级结构特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取化合物分子指纹特征,以化合物分子指纹特征为权重对化合物-蛋白质相互作用组网络中对应的节点加权;
获取所有任意两种化合物的结构相似性系数,以化合物结构相似性系数为权重对化合物相似性子网络中对应的边加权;
获取所有任意两种蛋白质相互作用得分,以蛋白质相互作用得分为权重对蛋白质相互作用子网络中对应的边加权;
获取所有任意一种化合物与任意一种蛋白质之间的相互作用亲和力,以化合物与蛋白质之间的相互作用亲和力为权重对化合物-蛋白质相互作用组网络中对应的边加权;
根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
所述根据节点的权重与边的权重,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征,具体包括:
根据节点的权重与边的权重,计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征;
根据节点的权重与边的权重,计算化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征;
根据化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征和化合物-蛋白质对中的蛋白质在蛋白质相互作用子网络中的拓扑结构特征,计算待识别的化合物-蛋白质对在化合物-蛋白质相互作用组网络中的拓扑结构特征;
所述计算化合物-蛋白质对中的化合物在化合物相似性子网络中的拓扑结构特征,其所采用的计算公式如下所示:
Figure FDA0002716784070000051
式中,
CNTFc是化合物c在化合物相似性子网络中的拓扑结构特征;
Cc(i)是化合物相似性子网络中化合物c的第i个节点权重;
Cj(i)是化合物相似性子网络中化合物j的第i个节点权重;
Ck(i)是化合物相似性子网络中化合物k的第i个节点权重;
Ec,j是化合物相似性子网络中化合物c与化合物j对应的边权重;
Ec,k是化合物相似性子网络中化合物c和化合物k对应的边权重;
Nc是化合物相似性子网络中化合物c的所有直接邻居的集合;
Mc是化合物相似性子网络中与蛋白质p具有已知的相互作用亲和力信息且与化合物c是直接邻居关系的所有化合物的集合。
5.化合物-蛋白质相互作用亲和力识别装置,其特征在于,包括:
存储器,用于存储至少一个程序;
处理器,用于加载所述至少一个程序以执行权利要求1-3任一项所述的化合物-蛋白质相互作用亲和力识别。
CN201710852009.9A 2017-09-19 2017-09-19 化合物-蛋白质相互作用亲和力识别方法、系统和装置 Active CN107679362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710852009.9A CN107679362B (zh) 2017-09-19 2017-09-19 化合物-蛋白质相互作用亲和力识别方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710852009.9A CN107679362B (zh) 2017-09-19 2017-09-19 化合物-蛋白质相互作用亲和力识别方法、系统和装置

Publications (2)

Publication Number Publication Date
CN107679362A CN107679362A (zh) 2018-02-09
CN107679362B true CN107679362B (zh) 2020-12-08

Family

ID=61136420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710852009.9A Active CN107679362B (zh) 2017-09-19 2017-09-19 化合物-蛋白质相互作用亲和力识别方法、系统和装置

Country Status (1)

Country Link
CN (1) CN107679362B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767809B (zh) * 2019-01-16 2023-06-06 中南大学 蛋白质相互作用网络的对齐方法
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN110428864A (zh) * 2019-07-17 2019-11-08 大连大学 用于构建蛋白质和小分子的亲和力预测模型的方法
CN112309509B (zh) * 2019-10-15 2021-05-28 腾讯科技(深圳)有限公司 化合物性质预测方法、装置、计算机设备及可读存储介质
CN110957002B (zh) * 2019-12-17 2023-04-28 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112331273B (zh) * 2020-10-28 2023-12-15 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102362279A (zh) * 2009-04-07 2012-02-22 拜奥尼茨生命科学公司 复杂疾病的体外诊断方法
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN104239751A (zh) * 2014-09-05 2014-12-24 南京理工大学 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法
CN105117618A (zh) * 2015-08-12 2015-12-02 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004088274A2 (en) * 2003-03-26 2004-10-14 Curagen Corporation Psychoactive compound associated markers and method of use thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102362279A (zh) * 2009-04-07 2012-02-22 拜奥尼茨生命科学公司 复杂疾病的体外诊断方法
CN103116713A (zh) * 2013-02-25 2013-05-22 浙江大学 基于随机森林的化合物和蛋白质相互作用预测方法
CN104239751A (zh) * 2014-09-05 2014-12-24 南京理工大学 基于后处理学习的g蛋白偶联受体-药物交互作用预测方法
CN105117618A (zh) * 2015-08-12 2015-12-02 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法

Also Published As

Publication number Publication date
CN107679362A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679362B (zh) 化合物-蛋白质相互作用亲和力识别方法、系统和装置
Sahu et al. A novel feature representation method based on Chou's pseudo amino acid composition for protein structural class prediction
CN108830045B (zh) 一种基于多组学的生物标记物系统筛选方法
CN105117618B (zh) 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Hou et al. Remote homolog detection using local sequence–structure correlations
CN111477344B (zh) 一种基于自加权多核学习的药物副作用识别方法
CN104156634A (zh) 基于亚细胞定位特异性的关键蛋白质识别方法
Akbar et al. Identifying neuropeptides via evolutionary and sequential based multi-perspective descriptors by incorporation with ensemble classification strategy
Chapman et al. A comparative phylogenetic approach for dating whole genome duplication events
CN114141361A (zh) 基于症状术语映射与深度学习的中医处方推荐方法
Yue et al. A systematic review on the state-of-the-art strategies for protein representation
Kepple et al. Constructing an olfactory perceptual space and predicting percepts from molecular structure
Liu et al. Design of abnormal data detection system for protein gene library based on data mining technology
Cassotti et al. Application of the weighted Power-Weakness Ratio (wPWR) as a fusion rule in ligand-based virtual screening
Ramachandran et al. Deep learning for better variant calling for cancer diagnosis and treatment
Periwal et al. A novel binary k-mer approach for classification of coding and non-coding RNAs across diverse species
Narra et al. Use of extended phylogenetic profiles with E-values and support vector machines for protein family classification
Ksouri et al. Motif analysis in co-expression networks reveals regulatory elements in plants: The peach as a model
Datta et al. A neural network based approach for protein structural class prediction
Biswas et al. CNCTDiscriminator: coding and noncoding transcript discriminator—an excursion through hypothesis learning and ensemble learning approaches
Zhang et al. Unsupervised prediction method for drug-target interactions based on structural similarity
Hussein et al. DTBAPred: Improved Prediction Drug-Target Binding Affinity using Machine Learning Approach
Sun et al. An enhanced LRMC method for drug repositioning via gcn-based HIN embedding
Salem et al. Iterative non-sequential protein structural alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant