CN114822683A - 药物与靶标的相互作用预测方法、装置、设备及存储介质 - Google Patents

药物与靶标的相互作用预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114822683A
CN114822683A CN202210508983.4A CN202210508983A CN114822683A CN 114822683 A CN114822683 A CN 114822683A CN 202210508983 A CN202210508983 A CN 202210508983A CN 114822683 A CN114822683 A CN 114822683A
Authority
CN
China
Prior art keywords
drug
molecular
target
graph
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210508983.4A
Other languages
English (en)
Inventor
郑喜民
王天誉
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210508983.4A priority Critical patent/CN114822683A/zh
Publication of CN114822683A publication Critical patent/CN114822683A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明为人工智能技术的神经网络技术领域,本发明提供了一种药物与靶标的相互作用预测方法、装置、设备及存储介质,其中,所述方法包括:调用预先构建的图神经网络提取药物的分子图中的药物特征,根据重启随机游走算法对分子图进行处理,预测分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息,将全局结构信息输入预设的深度神经网络中,得到药物的低维特征信息,获取靶标的蛋白质序列,调用长短期记忆网络对蛋白质序列进行处理,得到蛋白质特征,将低维特征信息及蛋白质特征输入预设的全连接层,以预测药物与靶标的相互作用结果,以有针对性的提取出药物和蛋白质序列内包含的信息,提升了药物与靶标相互作用的预测效率。

Description

药物与靶标的相互作用预测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术的神经网络技术领域,具体而言,本发明涉及一种药物与靶标的相互作用预测方法、装置、设备及存储介质。
背景技术
药物研发是一个系统工程,面临着高成本、长周期、低成功率等挑战。确定分子是否能作为药物的第一步就是分析药物与特定靶标相互作用的能力,以确定哪些药物的功能需要增加或抑制,因此预测药物-靶标相互作用是药物发现和重新定位研究中的关键问题,有助于分析药物分子的有效性,是药物开发和再利用的关键步骤,还可以了解药物作用机制、疾病病理、最大限度地减少药物分子造成的不良副作用,进而辅助治疗药物的开发过程,对疾病的治疗具有重要意义。
然而,由于精度和成本的限制,传统的生物实验方法往往难以实现获得大规模的药物与靶标相互作用对,导致已经被实验鉴定和验证的药物与靶标相互作用对至今非常有限,因此传统的通过生物实验方法进行大规模验证效率较低,且成本较高。
发明内容
本发明的主要目的为提供一种药物与靶标的相互作用预测方法、装置、设备及存储介质,以提升药物与靶标相互作用的预测效率,并降低成本。
为了实现上述发明目的,本发明提供一种药物与靶标的相互作用预测方法,其包括:
获取药物的分子图;
调用预先构建的图神经网络提取所述分子图中的药物特征;
根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
优选地,所述将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果,包括:
将所述低维特征信息及蛋白质特征输入预设的全连接层,得到所述全连接层输出的布尔值;
根据所述布尔值确定所述药物与所述靶标的相互作用结果。
优选地,所述获取药物的分子图,包括:
从数据库中获取所述药物的SMILES表达式;
通过RDKit工具,以所述药物的每个原子作为节点,原子与原子之间的元素键作为边,将所述药物的SMILES表达式转换为分子图。
优选地,所述获取药物的分子图,包括:
从数据库中获取所述药物的SMILES表达式;
将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图。
进一步地,所述将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图之前,还包括:
获取训练集;其中,所述训练集包括多个药物的标准SMILES表达式及对应的标准分子图;
根据所述训练集对神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为分子图模型。
优选地,所述判断所述训练结果是否满足要求,包括:
根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
判断所述损失值是否低于预设损失值;
若是,判定所述训练结果满足要求;
若否,判定所述训练结果不满足要求。
优选地,所述预测所述分子图中相邻两个节点之间的药物特征的相似度,包括:
将所述分子图中相邻两个节点之间的药物特征转换为向量,得到相邻两个节点对应的第一向量及第二向量;
计算所述第一向量与第二向量之间的夹角的余弦值;
根据所述余弦值确定所述分子图中相邻两个节点之间的药物特征的相似度。
本发明还提供一种药物与靶标的相互作用预测装置,其包括:
获取模块,用于获取药物的分子图;
第一调用模块,用于调用预先构建的图神经网络提取所述分子图中的药物特征;
预测模块,用于根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
第一输入模块,用于将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
第二调用模块,用于获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
第二输入模块,用于将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本发明所提供的一种药物与靶标的相互作用预测方法、装置、设备及存储介质,通过获取药物的分子图,调用预先构建的图神经网络提取分子图中的药物特征,根据重启随机游走算法对分子图进行处理,预测分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息,将全局结构信息输入预设的深度神经网络中,得到药物的低维特征信息,获取靶标的蛋白质序列,调用长短期记忆网络对蛋白质序列进行处理,得到蛋白质特征,将低维特征信息及蛋白质特征输入预设的全连接层,以预测药物与靶标的相互作用结果,以结合图神经网络和长短期记忆网络的特点来处理药物与靶标的相互作用的问题,有针对性的提取出药物和蛋白质序列内包含的信息,提升了药物与靶标相互作用的预测效率,并降低成本;此外,通过使用重启随机游走算法捕捉分子图中不同节点之间多方面的关系,得到相似度的全局结构信息,有助于提升预测准确度和预测性能。
附图说明
图1为本发明一实施例的药物与靶标的相互作用预测方法的流程示意图;
图2为本发明又一实施例的药物与靶标的相互作用预测方法的流程示意图;
图3为本发明又一实施例的药物与靶标的相互作用预测方法的流程示意图;
图4为本发明另一实施例的药物与靶标的相互作用预测方法的流程示意图;
图5为本发明又一实施例的药物与靶标的相互作用预测方法的流程示意图;
图6为本发明另一实施例的药物与靶标的相互作用预测方法的流程示意图;
图7为本发明又一实施例的药物与靶标的相互作用预测方法的流程示意图;
图8为本发明一实施例的药物与靶标的相互作用预测装置的结构示意框图;
图9为本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提出一种药物与靶标的相互作用预测方法,本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提出的一种药物与靶标的相互作用预测方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
该药物与靶标的相互作用预测方法用于解决传统的通过生物实验方法以获得大规模的药物与靶标相互作用对的效率较低,且成本较高的技术问题。参考图1,其中一个实施例中,该药物与靶标的相互作用预测方法包括以下步骤S11-S16:
S11、获取药物的分子图;
S12、调用预先构建的图神经网络提取所述分子图中的药物特征;
S13、根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
S14、将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
S15、获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
S16、将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
如上述步骤S11所述,该药物为需要预测其与靶标的相互作用的药物,药物的分子图可通过RDKit工具包转换而来,药物的分子图以构成药物的原子为结点,原子间的连接为边;该分子图可以是以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,例如每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
如上述步骤S12所述,可以调用预先构建的图神经网络提取分子图中的药物特征,药物特征为分子图中节点的分子特征。其中,图神经网络(Graph Neural Network,GNN)是深度学习在图结构数据上的一类模型。图神经网络的输入通常是一个图结构,其最终输出一般取决于具体的任务。以图性质预测为例,图神经网络根据图结构和输入节点属性,训练图中每个节点的隐式向量表示,其目标是让该向量表示包含足够强大的表达信息,使其能够帮助每个节点进行信息抽取,最后通过平均池化等方式,可以获得整个图的信息向量表示。
如上述步骤S13-S14所述,将药物转换成分子图后,使用重启随机游走算法对该分子图进行处理,重启随机游走算法最早是一种用于图像分割的算法,其迭代地探索分子图的整体结构,以估计两个节点之间的相似度或亲和力分数。从一个节点开始,每一步都面临两个选择:移动到随机选择的相邻节点,或跳回到开始节点,该算法只包含一个固定参数r,称为“重启概率”(1-r表示移动到相邻节点的概率)。在迭代达到稳定后,稳定概率向量包含了分子图中所有节点与起始节点的相似度,平稳后得到的概率分布可被看作是受开始节点影响的分布。
本实施例可通过重启随机游走算法,可以捕捉分子图中两个节点之间多方面的关系,进而得到描述整个分子图中相邻两个节点之间的药物特征的相似度的全局结构信息,随后再送入预设的深度神经网络中,提取出药物的低维特征信息。
如上述步骤S15所述,对于靶标的蛋白质序列,本发明使用带有自注意力机制的长短期记忆网络LSTM来进行处理,使用线性自注意力机制的方法,减少了运行速度和内存消耗,同时为注意力矩阵构建一个无偏的估计量来提升对蛋白质序列处理的效果。
其中,长短期记忆网络包含两个输出:所有时间步输出O=[O_1,O_2,…,O_D]和最后时间步D的隐藏状态H_D。
由于O=[O_1,O_2,…,O_D]表示字/词的特征,H_D表示文本的特征,为了识别字对于文本的重要性,需要建立H_D与O的自注意力关系,即建立各时间步输出O_t对于H_D的权重,由于长短期记忆网络本身考虑了位置信息,因此不需要额外设置位置编码,自注意力机制在长短期记忆网络中的实现方法为加法注意力:将最后时间步的隐藏状态和各时间步输出拼接作为Query,各时间步输出线性变换后作为Value,线性变换矩阵作为Key,Query和Value相乘后作为结果矩阵z。本发明使用线性注意力机制的方法将注意力矩阵分解为原始query和key的随机非线性函数的乘积,即所谓的随机特征(random feature),这样就可以更加高效地对相似度进行编码,能够提供注意力机制的可扩展低方差、无偏估计,在保持线性空间和时间复杂度的同时,也保证了准确率。
如上述步骤S16所述,分别从药物提取出低维特征信息和蛋白质的蛋白质特征后,将这些特征连接起来输入预设的全连接层,进而依据已知存在相互作用的药物-靶标相互作用对来预测所述药物与所述靶标的相互作用结果。
本发明所提供的一种药物与靶标的相互作用预测方法,通过获取药物的分子图,调用预先构建的图神经网络提取分子图中的药物特征,根据重启随机游走算法对分子图进行处理,预测分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息,将全局结构信息输入预设的深度神经网络中,得到药物的低维特征信息,获取靶标的蛋白质序列,调用长短期记忆网络对蛋白质序列进行处理,得到蛋白质特征,将低维特征信息及蛋白质特征输入预设的全连接层,以预测药物与靶标的相互作用结果,以结合图神经网络和长短期记忆网络的特点来处理药物与靶标的相互作用的问题,有针对性的提取出药物和蛋白质序列内包含的信息,提升了药物与靶标相互作用的预测效率,并降低成本;此外,通过使用重启随机游走算法捕捉分子图中不同节点之间多方面的关系,得到相似度的全局结构信息,有助于提升预测准确度和预测性能。
在一实施例中,参考图2所示,所述将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果,可具体包括以下步骤S21-S22:
S21、将所述低维特征信息及蛋白质特征输入预设的全连接层,得到所述全连接层输出的布尔值;
S22、根据所述布尔值确定所述药物与所述靶标的相互作用结果。
在本实施例中,将药物的低维特征信息和蛋白质特征输入至预设的全连接层,通过全连接层中的分支-预训练分子图模型输出药物的特征向量,蛋白质特征通过全连接层中的分支-预训练蛋白序列语言模型输出蛋白质特征对应的特征向量,全连接层中的神经网络进一步根据药物的特征向量和蛋白质特征对应的特征向量,预测药物是否能够对靶标产生有效作用,得到所述全连接层输出的布尔值。例如,如果药物能够对靶标产生有效作用,全连接层输出True,否则输出False。由此,只需药物的分子图和蛋白质序列,便可直接输出药物与靶标产生的相互作用结果,这种端到端的学习,不需要进行序列比对、运行更方便、具有很好的泛化能力等,因此在药物与靶标的相互作用预测任务上具有很高的潜力。
在一实施例中,参考图3所示,所述获取药物的分子图,可具体包括以下步骤S31-S32:
S31、从数据库中获取所述药物的SMILES表达式;
S32、通过RDKit工具,以所述药物的每个原子作为节点,原子与原子之间的元素键作为边,将所述药物的SMILES表达式转换为分子图。
其中,药物的分子式可预先存储于数据库中,可以是药物的分子结构的字符串表达形式,例如,药物的SMILES表达式。其中,SMILES(Simplified Molecular Input LineEntry Specification)为简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。药物的分子式具有唯一性,不同药物的分子式不同。相应地,在分子式为SMILES表达式的情况下,药物的SMILES表达式也具有唯一性,不同药物的SMILES表达式也不同。
对于药物分子,本发明使用RDKit工具将药物的SMILES表达式建模为分子图,并使用图神经网络提取其中的药物特征。
其中,RDKit是开源化学信息学与机器学习工具包,可实现从SMILES表达式到图数据格式的转换。图数据包含节点和边,节点包含了实体信息(如药物分子中的原子),边包含实体间的关系信息(如药物分子中原子间的化学键),把每个原子看作图中的节点,原子键视作边,那么一个分子就可以看作一张图。
其中,药物的图结构数据中,节点有原子的属性特征,边有连接各原子的化学键对应的化学键属性特征,统一构成药物的药物特征。
在一实施例中,参考图4所示,所述获取药物的分子图,可具体包括以下步骤S41-S42:
S41、从数据库中获取所述药物的SMILES表达式;
S42、将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图。
本实施例利用预先训练好的分子图模型将药物的SMILES表达式转换为分子图,提高分子图的转换效率。其中,分子图模型为神经网络模型,具体可以是图神经网络(GraphNeural Network,GNN)模型。
在一实施例中,参考图5所示,所述将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图之前,还可包括以下步骤S51-S54:
S51、获取训练集;其中,所述训练集包括多个药物的标准SMILES表达式及对应的标准分子图;
S52、根据所述训练集对神经网络模型进行训练;
S53、获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
S54、若是,将训练后的所述神经网络模型作为分子图模型。
本实施例的训练集包括多个药物的标准SMILES表达式,以及每个标准SMILES表达式对应的标准分子图,利用训练集对神经网络模型进行训练之前,可设置神经网络模型的迭代条件,迭代条件包括训练次数或训练时长等等,当神经网络模型满足迭代条件时,则结束训练,此时获取神经网络模型完成训练后的训练结果,判断训练结果是否满足要求,在判定训练结果满足要求时,则将训练后的所述神经网络模型作为分子图模型,用于将药物的SMILES表达式转换成对应的分子图。
此外,本发明的训练集及训练好的分子图模型能够存储于区块链中,以使服务器需要使用是对区块链进行广播,并调用训练好的分子图模型。该区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一实施例中,参考图6所示,所述判断所述训练结果是否满足要求,可具体包括以下步骤S61-S64:
S61、根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
S62、判断所述损失值是否低于预设损失值;
S63、若是,判定所述训练结果满足要求;
S64、若否,判定所述训练结果不满足要求。
在本实施例中,在对神经网络模型进行训练后,可利用预设的交叉熵损失函数计算训练完成后的神经网络模型的损失值,并在损失值满足预设阈值或小于预设损失值时,即神经网络模型的训练结果满足要求,则表明神经网络模型达到训练要求,完成分子图模型的训练,以提高分子图模型对SMILES表达式的转换准确率。
其中,交叉熵损失函数用来评价分子图模型的预测值和真实值不一样的程度,损失函数越好,通常分子图模型的性能越好。此外,交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。此外,本实施例的损失函数不做具体限定,例如可以是均方差函数、协方差函数等等。另外,本实施例的预设损失值可以根据实际情况而定,而且该预设损失值与分子图模型最终训练好时对应的损失阈值不同,一般这里的预设损失值大于分子图模型最终训练好时对应的损失阈值。
当分子图模型的损失值不小于预设损失值时,则可根据损失值在分子图模型的神经网络结构中进行前向传递,调整分子图模型的相关参数,将参考图像对输入重新设置相关参数的分子图模型进行重新训练,直至分子图模型的损失值小于预设损失值时为止,至此分子图模型训练结束,得到训练结果满足要求的分子图模型,以得到训练好的分子图模型。
在一实施例中,参考图7所示,所述预测所述分子图中相邻两个节点之间的药物特征的相似度,可具体包括以下步骤S71-S73:
S71、将所述分子图中相邻两个节点之间的药物特征转换为向量,得到相邻两个节点对应的第一向量及第二向量;
S72、计算所述第一向量与第二向量之间的夹角的余弦值;
S73、根据所述余弦值确定所述分子图中相邻两个节点之间的药物特征的相似度。
在本实施例中,对于分子图中相邻两个节点之间的药物特征的相似度的衡量,常用的方式是计算药物特征之间的余弦值。其中,余弦值可以体现空间中两个向量间的差异性,将两个相近的语义关系进行聚集,以完成所有语义关系的聚集,并从中筛选出最聚集的语义关系作为药物特征的语义识别结果,如当大多数的语义关系聚集在区域A时,则从区域A中选取距离区域A的中心最近的语义关系作为语义识别结果。
当药物特征以文本形式进行描述时,本实施例可利用Word2Vec词向量模型分别将分子图中相邻两个节点之间的药物特征转换为向量,得到相邻两个节点对应的第一向量及第二向量,然后计算第一向量与第二向量的余弦值,将余弦值作为该相似度。其中,Word2Vec词向量模型是从大量文本中学习语义知识的一种模型,采用无监督的方式。其通过训练大量文本,将文本中的词用向量形式表示,这个向量我们称之为词向量,可以通过计算两个词的词向量之间的距离,从而得知两个词之间的联系。
参照图8,本发明实施例中还提供一种药物与靶标的相互作用预测装置,所述装置包括:
获取模块11,用于获取药物的分子图;
第一调用模块12,用于调用预先构建的图神经网络提取所述分子图中的药物特征;
预测模块13,用于根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
第一输入模块14,用于将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
第二调用模块15,用于获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
第二输入模块16,用于将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
该药物为需要预测其与靶标的相互作用的药物,药物的分子图可通过RDKit工具包转换而来,药物的分子图以构成药物的原子为结点,原子间的连接为边;该分子图可以是以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,例如每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
本发明可以调用预先构建的图神经网络提取分子图中的药物特征,药物特征为分子图中节点的分子特征。其中,图神经网络(Graph Neural Network,GNN)是深度学习在图结构数据上的一类模型。图神经网络的输入通常是一个图结构,其最终输出一般取决于具体的任务。以图性质预测为例,图神经网络根据图结构和输入节点属性,训练图中每个节点的隐式向量表示,其目标是让该向量表示包含足够强大的表达信息,使其能够帮助每个节点进行信息抽取,最后通过平均池化等方式,可以获得整个图的信息向量表示。
将药物转换成分子图后,使用重启随机游走算法对该分子图进行处理,重启随机游走算法最早是一种用于图像分割的算法,其迭代地探索分子图的整体结构,以估计两个节点之间的相似度或亲和力分数。从一个节点开始,每一步都面临两个选择:移动到随机选择的相邻节点,或跳回到开始节点,该算法只包含一个固定参数r,称为“重启概率”(1-r表示移动到相邻节点的概率)。在迭代达到稳定后,稳定概率向量包含了分子图中所有节点与起始节点的相似度,平稳后得到的概率分布可被看作是受开始节点影响的分布。
本实施例可通过重启随机游走算法,可以捕捉分子图中两个节点之间多方面的关系,进而得到描述整个分子图中相邻两个节点之间的药物特征的相似度的全局结构信息,随后再送入预设的深度神经网络中,提取出药物的低维特征信息。
对于靶标的蛋白质序列,本发明使用带有自注意力机制的长短期记忆网络LSTM来进行处理,使用线性自注意力机制的方法,减少了运行速度和内存消耗,同时为注意力矩阵构建一个无偏的估计量来提升对蛋白质序列处理的效果。
其中,长短期记忆网络包含两个输出:所有时间步输出O=[O_1,O_2,…,O_D]和最后时间步D的隐藏状态H_D。
由于O=[O_1,O_2,…,O_D]表示字/词的特征,H_D表示文本的特征,为了识别字对于文本的重要性,需要建立H_D与O的自注意力关系,即建立各时间步输出O_t对于H_D的权重,由于长短期记忆网络本身考虑了位置信息,因此不需要额外设置位置编码,自注意力机制在长短期记忆网络中的实现方法为加法注意力:将最后时间步的隐藏状态和各时间步输出拼接作为Query,各时间步输出线性变换后作为Value,线性变换矩阵作为Key,Query和Value相乘后作为结果矩阵z。本发明使用线性注意力机制的方法将注意力矩阵分解为原始query和key的随机非线性函数的乘积,即所谓的随机特征(random feature),这样就可以更加高效地对相似度进行编码,能够提供注意力机制的可扩展低方差、无偏估计,在保持线性空间和时间复杂度的同时,也保证了准确率。
本发明分别从药物提取出低维特征信息和蛋白质的蛋白质特征后,将这些特征连接起来输入预设的全连接层,进而依据已知存在相互作用的药物-靶标相互作用对来预测所述药物与所述靶标的相互作用结果。
如上所述,可以理解地,本发明中提出的所述药物与靶标的相互作用预测装置的各组成部分可以实现如上所述药物与靶标的相互作用预测方法任一项的功能,具体结构不再赘述。
参照图9,本发明实施例中还提供一种计算机设备,其内部结构可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述药物与靶标的相互作用预测方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种药物与靶标的相互作用预测方法。
上述处理器执行上述的药物与靶标的相互作用预测方法,包括:
获取药物的分子图;
调用预先构建的图神经网络提取所述分子图中的药物特征;
根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种药物与靶标的相互作用预测方法,包括步骤:
获取药物的分子图;
调用预先构建的图神经网络提取所述分子图中的药物特征;
根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明的最大有益效果在于:
本发明所提供的一种药物与靶标的相互作用预测方法、装置、设备及存储介质,通过获取药物的分子图,调用预先构建的图神经网络提取分子图中的药物特征,根据重启随机游走算法对分子图进行处理,预测分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息,将全局结构信息输入预设的深度神经网络中,得到药物的低维特征信息,获取靶标的蛋白质序列,调用长短期记忆网络对蛋白质序列进行处理,得到蛋白质特征,将低维特征信息及蛋白质特征输入预设的全连接层,以预测药物与靶标的相互作用结果,以结合图神经网络和长短期记忆网络的特点来处理药物与靶标的相互作用的问题,有针对性的提取出药物和蛋白质序列内包含的信息,提升了药物与靶标相互作用的预测效率,并降低成本;此外,通过使用重启随机游走算法捕捉分子图中不同节点之间多方面的关系,得到相似度的全局结构信息,有助于提升预测准确度和预测性能。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种药物与靶标的相互作用预测方法,其特征在于,所述方法包括:
获取药物的分子图;
调用预先构建的图神经网络提取所述分子图中的药物特征;
根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果,包括:
将所述低维特征信息及蛋白质特征输入预设的全连接层,得到所述全连接层输出的布尔值;
根据所述布尔值确定所述药物与所述靶标的相互作用结果。
3.根据权利要求1所述的方法,其特征在于,所述获取药物的分子图,包括:
从数据库中获取所述药物的SMILES表达式;
通过RDKit工具,以所述药物的每个原子作为节点,原子与原子之间的元素键作为边,将所述药物的SMILES表达式转换为分子图。
4.根据权利要求1所述的方法,其特征在于,所述获取药物的分子图,包括:
从数据库中获取所述药物的SMILES表达式;
将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图。
5.根据权利要求4所述的方法,其特征在于,所述将所述SMILES表达式输入预先训练好的分子图模型中,得到所述药物的分子图之前,还包括:
获取训练集;其中,所述训练集包括多个药物的标准SMILES表达式及对应的标准分子图;
根据所述训练集对神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为分子图模型。
6.根据权利要求5所述的方法,其特征在于,所述判断所述训练结果是否满足要求,包括:
根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
判断所述损失值是否低于预设损失值;
若是,判定所述训练结果满足要求;
若否,判定所述训练结果不满足要求。
7.根据权利要求1所述的方法,其特征在于,所述预测所述分子图中相邻两个节点之间的药物特征的相似度,包括:
将所述分子图中相邻两个节点之间的药物特征转换为向量,得到相邻两个节点对应的第一向量及第二向量;
计算所述第一向量与第二向量之间的夹角的余弦值;
根据所述余弦值确定所述分子图中相邻两个节点之间的药物特征的相似度。
8.一种药物与靶标的相互作用预测装置,其特征在于,所述装置包括:
获取模块,用于获取药物的分子图;
第一调用模块,用于调用预先构建的图神经网络提取所述分子图中的药物特征;
预测模块,用于根据重启随机游走算法对所述分子图进行处理,预测所述分子图中相邻两个节点之间的药物特征的相似度,得到全局结构信息;其中,所述全局结构信息用于描述所述分子图中相邻两个节点之间的药物特征的相似度;
第一输入模块,用于将所述全局结构信息输入预设的深度神经网络中,得到所述药物的低维特征信息;
第二调用模块,用于获取靶标的蛋白质序列,调用长短期记忆网络对所述蛋白质序列进行处理,得到蛋白质特征;
第二输入模块,用于将所述低维特征信息及蛋白质特征输入预设的全连接层,以预测所述药物与所述靶标的相互作用结果。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
其中,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的药物与靶标的相互作用预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的药物与靶标的相互作用预测方法。
CN202210508983.4A 2022-05-10 2022-05-10 药物与靶标的相互作用预测方法、装置、设备及存储介质 Pending CN114822683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210508983.4A CN114822683A (zh) 2022-05-10 2022-05-10 药物与靶标的相互作用预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210508983.4A CN114822683A (zh) 2022-05-10 2022-05-10 药物与靶标的相互作用预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114822683A true CN114822683A (zh) 2022-07-29

Family

ID=82512651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210508983.4A Pending CN114822683A (zh) 2022-05-10 2022-05-10 药物与靶标的相互作用预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114822683A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115662509A (zh) * 2022-10-09 2023-01-31 北京科技大学 基于图神经网的表观遗传靶点预测的分类方法及装置
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
WO2024037526A1 (zh) * 2022-08-18 2024-02-22 京东方科技集团股份有限公司 药物与靶标的相互作用预测方法、装置及存储介质
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037526A1 (zh) * 2022-08-18 2024-02-22 京东方科技集团股份有限公司 药物与靶标的相互作用预测方法、装置及存储介质
CN115662509A (zh) * 2022-10-09 2023-01-31 北京科技大学 基于图神经网的表观遗传靶点预测的分类方法及装置
CN115662509B (zh) * 2022-10-09 2023-08-08 北京科技大学 基于图神经网的表观遗传靶点预测的分类方法及装置
CN115458061A (zh) * 2022-10-13 2022-12-09 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN115458061B (zh) * 2022-10-13 2024-01-23 南开大学 一种药物-蛋白质相互作用预测方法及系统
CN116646001A (zh) * 2023-06-05 2023-08-25 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN116646001B (zh) * 2023-06-05 2024-05-24 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN117912591A (zh) * 2024-03-19 2024-04-19 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法
CN117912591B (zh) * 2024-03-19 2024-05-31 鲁东大学 一种基于深度对比学习的激酶药物相互作用预测方法

Similar Documents

Publication Publication Date Title
CN114822683A (zh) 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN111368993B (zh) 一种数据处理方法及相关设备
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112308326B (zh) 一种基于元路径和双向编码器的生物网络链接预测方法
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN112131888B (zh) 分析语义情感的方法、装置、设备及存储介质
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
WO2022116905A1 (zh) 一种数据处理方法以及装置
CN112035611A (zh) 目标用户推荐方法、装置、计算机设备和存储介质
CN114417986A (zh) 基于人工智能的药物特征信息确定方法及装置
US20240046067A1 (en) Data processing method and related device
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN113342927B (zh) 敏感词识别方法、装置、设备及存储介质
Conte et al. Interactive online learning for graph matching using active strategies
CN113343711A (zh) 工单生成方法、装置、设备及存储介质
Zhou et al. Spectral transform forms scalable transformer
CN114332469A (zh) 模型训练方法、装置、设备及存储介质
CN112949307A (zh) 预测语句实体的方法、装置和计算机设备
CN117637029B (zh) 基于深度学习模型的抗体可开发性预测方法和装置
WO2023226310A1 (zh) 一种分子优化方法以及装置
WO2023143262A1 (zh) 一种数据处理方法及相关设备
CN117976245A (zh) 非对称式的药物相互作用预测方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination