CN115620807B - 靶点蛋白分子与药物分子之间相互作用强度的预测方法 - Google Patents

靶点蛋白分子与药物分子之间相互作用强度的预测方法 Download PDF

Info

Publication number
CN115620807B
CN115620807B CN202211632637.3A CN202211632637A CN115620807B CN 115620807 B CN115620807 B CN 115620807B CN 202211632637 A CN202211632637 A CN 202211632637A CN 115620807 B CN115620807 B CN 115620807B
Authority
CN
China
Prior art keywords
graph
training
target
neural network
molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211632637.3A
Other languages
English (en)
Other versions
CN115620807A (zh
Inventor
刘子敬
熊袁鹏
幺宝刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202211632637.3A priority Critical patent/CN115620807B/zh
Publication of CN115620807A publication Critical patent/CN115620807A/zh
Application granted granted Critical
Publication of CN115620807B publication Critical patent/CN115620807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明所提供的靶点蛋白分子与药物分子之间相互作用强度的预测方法,包括:获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;其中,所述图神经网络中包括边的自注意力机制图网络。本发明通过使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而提高了图神经网络预测两个分子之间相互作用强度的准确率。

Description

靶点蛋白分子与药物分子之间相互作用强度的预测方法
技术领域
本发明涉及人工智能技术领域,尤其涉及的是一种靶点蛋白分子与药物分子之间相互作用强度的预测方法。
背景技术
随着AI(Artificial Intelligence)技术和理论的日益成熟以及数据量的不断增长,AI算法被越来越多地运用到药物发现中。在AI算法中,图神经网络能够能很好地建模药物分子,在药物发现的任务中得到了广泛的应用。在药物开发中,需要找出与靶点蛋白分子结合强度高的药物分子,进入下一步开发,为了更有效地对候选药物分子进行筛选,需要通过计算对药物分子和靶点蛋白分子之间的结合强度做出预测。特别的,在知道候选药物分子和靶点蛋白分子结合构象的情况下,利用AI来预测药物分子和靶点蛋白分子之间的相互作用强度可以大大提高药物筛选的效率。
在预测药物分子和靶点蛋白分子之间的相互作用强度时,现有的图神经网络都是针对两个分子构建的图的节点进行运算,边的信息作为辅助,难以对边的信息进行有效更新,导致对药物分子和靶点蛋白分子之间的相互作用强度的预测并不准确。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种靶点蛋白分子与药物分子之间相互作用强度的预测方法,旨在解决现有技术中现有的图神经网络难以对边的信息进行有效更新,导致对药物分子和靶点蛋白分子之间的相互作用强度的预测并不准确的问题。
本发明解决技术问题所采用的技术方案如下:
一种靶点蛋白分子与药物分子之间相互作用强度的预测方法,所述方法包括:
获取待预测的目标靶点蛋白分子与药物分子的复合物;
对所述复合物进行图构建处理,得到目标分子图;
将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;
其中,所述图神经网络中包括边的自注意力机制图网络。
在一种实现方式中,所述获取待预测的目标靶点蛋白分子与药物分子的复合物,包括:
获取待预测的目标靶点蛋白分子和药物分子候选集合;
利用计算化学方法或者机器学习方法计算得到所述目标靶点蛋白分子与所述药物分子候选集合中各个药物分子的复合物。
在一种实现方式中,对所述复合物进行图构建处理,得到目标分子图,包括:
将所述复合物中的原子构建为节点;
若两个原子之间存在化学键,则在两个原子之间构建一条边;
若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
根据构建的节点和边得到所述复合物对应的目标分子图。
在一种实现方式中,根据构建的节点和边得到所述复合物对应的目标分子图,包括:
根据构建的节点和边得到所述复合物的初始分子图;
截取所述初始分子图中的药物分子结合部位作为目标分子图;
其中,所述药物分子结合部位上的目标靶点蛋白分子与药物分子之间的距离处于预设范围内。
在一种实现方式中,将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值,包括:
将所述目标分子图上的节点特征和边特征共同输入预先训练的图神经网络,所述图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
所述目标分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述复合物中目标靶点蛋白分子与药物分子之间的相互作用强度预测值。
在一种实现方式中,将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值之后,还包括:
获取预测得到的各个所述复合物对应的相互作用强度预测值;
按照相互作用强度预测值由大到小的顺序对所述药物分子候选集合中的各个药物分子进行排序。
在一种实现方式中,所述图神经网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括训练复合物,以及所述训练复合物中目标靶点蛋白分子与训练药物分子的相互作用强度训练值;
对所述训练复合物进行图构建处理,得到目标训练分子图;
将所述目标训练分子图输入初始图神经网络,以所述相互作用强度训练值为优化目标对所述初始图神经网络进行训练;
训练完成后,得到已训练的图神经网络;
其中,所述初始图神经网络中包括边的自注意力机制图网络。
在一种实现方式中,所述训练复合物的获取步骤包括:
获取目标靶点蛋白分子和训练药物分子候选集合;
利用分子对接方法或自由能微扰方法得到所述目标靶点蛋白分子和所述训练药物分子候选集合中各个训练药物分子的训练复合物。
在一种实现方式中,所述训练药物分子候选集合为随机选取预设候选分子库中的药物分子得来。
在一种实现方式中,所述相互作用强度训练值是利用分子对接方法或者自由能微扰方法计算得到。
在一种实现方式中,对所述训练复合物进行图构建处理,得到目标训练分子图,包括:
将所述训练复合物中的原子构建为节点;
若两个原子之间存在化学键,则在两个原子之间构建一条边;
若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
根据构建的节点和边得到所述训练复合物对应的目标训练分子图。
在一种实现方式中,根据构建的节点和边得到所述训练复合物对应的目标训练分子图,包括:
根据构建的节点和边得到所述训练复合物的初始训练分子图;
截取所述初始训练分子图中的药物分子结合部位作为目标训练分子图;
其中,所述药物分子结合部位上的目标靶点蛋白分子与训练药物分子之间的距离处于预设范围内。
在一种实现方式中,将所述目标训练分子图输入初始图神经网络,以所述相互作用强度训练值为优化目标对所述初始图神经网络进行训练,包括:
将所述目标训练分子图上的节点特征和边特征共同输入初始图神经网络,所述初始图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
所述目标训练分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标训练分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述训练复合物中目标靶点蛋白分子与训练药物分子之间的相互作用强度预测值;
利用计算损失函数或者梯度下降方法对所述初始图神经网络进行训练,以使所述相互作用强度预测值接近所述相互作用强度训练值。
本发明还提供一种靶点蛋白分子与药物分子之间相互作用强度的预测装置,所述装置包括:
获取模块,用于获取待预测的目标靶点蛋白分子与药物分子的复合物;
构建模块,用于对所述复合物进行图构建处理,得到目标分子图;
预测模块,用于将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;
其中,所述图神经网络中包括边的自注意力机制图网络。
本发明还提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的靶点蛋白分子与药物分子之间相互作用强度的预测程序,所述靶点蛋白分子与药物分子之间相互作用强度的预测程序被所述处理器执行时实现如上所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
本发明所提供的靶点蛋白分子与药物分子之间相互作用强度的预测方法,包括:获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;其中,所述图神经网络中包括边的自注意力机制图网络。本发明通过使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而提高了图神经网络预测两个分子之间相互作用强度的准确率。
附图说明
图1是本发明中靶点蛋白分子与药物分子之间相互作用强度的预测方法较佳实施例的流程图。
图2是本发明中图神经网络的工作原理示意图。
图3是本发明中靶点蛋白分子与药物分子之间相互作用强度的预测装置的较佳实施例的功能原理框图。
图4是本发明中终端的较佳实施例的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有图神经网络用于预测两个分子之间的相互作用强度时,都是针对两个分子构建的图的节点进行运算,边的信息作为辅助,难以对边的信息进行有效更新。这是由于现有的图神经网络中信息传递机制对边的信息操作相对简单,从而不利于对边的信息进行有效更新。
并且,现有图神经网络一般是通过两个分子对应的分子图上的节点之间的注意力进行两个分子相互作用强度的计算,难以直接对两个分子之间的相互作用进行建模。这是由于现有的图神经网络考虑的是两个分子对应的分子图的节点之间的相互作用,间接建模相互结合强度,对相互作用本身没有直接建模。
因此,导致了现有的图神经网络对药物分子和目标靶点蛋白分子之间的相互作用强度的预测并不准确。
针对现有技术的上述缺陷,本实施例通过获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;所述图神经网络中包括边的自注意力机制图网络。本发明使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而能够提高图神经网络预测两个分子之间相互作用强度的准确率。
请参见图1,图1是本发明中靶点蛋白分子与药物分子之间相互作用强度的预测方法的流程图。如图1所示,本发明实施例所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法包括以下步骤:
步骤S100、获取待预测的目标靶点蛋白分子与药物分子的复合物。
具体地,首先获取待预测的复合物,所述复合物是指目标靶点蛋白分子与药物分子结合后的复合物。
在一种实现方式中,所述步骤S100具体包括:
步骤S110、获取待预测的目标靶点蛋白分子和药物分子候选集合;
步骤S120、利用计算化学方法或者机器学习方法计算得到所述目标靶点蛋白分子与所述药物分子候选集合中各个药物分子的复合物。
具体地,在药物开发中,需要找出与目标靶点蛋白分子结合强度高的药物分子,进入下一步开发。本实施例提供目标靶点蛋白分子A和包含n个不同药物分子的药物分子候选集合D,可以使用分子对接方法得到所述目标靶点蛋白分子A与所述药物分子候选集合D={D_1,...,D_n}中各个药物分子结合后的复合物(E_1,...,E_n)。本实施例利用计算化学方法或者机器学习方法计算出各个药物分子的复合物,以便于预测各个复合物的相互作用强度值,进而能够实现根据各个复合物的相互作用强度值筛选符合要求的药物分子,为药物开发提供条件。
如图1所示,本发明实施例所述的方法还包括:
步骤S200、对所述复合物进行图构建处理,得到目标分子图。
具体地,本实施例将结合在一起的复合物E_i(i=1,...,n)抽象为一个图来进行表示,以便于图神经网络对复合物进行处理。
在一种实现方式中,所述步骤S200具体包括:
步骤S210、将所述复合物中的原子构建为节点;
步骤S220、若两个原子之间存在化学键,则在两个原子之间构建一条边;
步骤S230、若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
步骤S240、根据构建的节点和边得到所述复合物对应的目标分子图。
具体地,本实施例在进行图表示时,按照步骤S210、步骤S220和步骤S230的规则来进行处理。其中,所述预设距离阈值可以设置为5埃到8埃之间的数值。即,分子图中的节点是复合物中的原子,当一对原子之间存在化学键,或者当两个原子之间的距离小于预设距离阈值时,均在两个原子之间加入一条边。本实施例按照以上规则进行具体的图构建,对两个原子之间存在化学键以及两个原子之间的距离小于预设距离阈值这两种情况,均构建了边,以便于图神经网络对目标分子图中边的信息进行有效更新。
在一种实施例中,所述步骤S240具体包括:
步骤S241、根据构建的节点和边得到所述复合物的初始分子图;
步骤S242、截取所述初始分子图中的药物分子结合部位作为目标分子图。
其中,所述药物分子结合部位上的目标靶点蛋白分子与药物分子之间的距离处于预设范围内。
具体地,由于包含整个目标靶点蛋白分子A的分子图的节点数量可能很大,因此,本实施例为了加快计算速度,并没有将构建好的初始分子图全部输入图神经网络中去,而是在复合物的初始分子图中截取距离药物分子一定范围内的子图(如15埃到20埃),截取的子图作为目标分子图。本实施例通过截取初始分子图中的药物分子结合部位作为目标分子图,以便于输入图神经网络,进而降低了图神经网络的计算量,提高了计算效率。
如图1所示,本发明实施例所述的方法还包括:
步骤S300、将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值。
其中,所述图神经网络中包括边的自注意力机制图网络。本实施例的图神经网络结构在连接两个分子之间的边上使用了注意力机制,能够对边的信息进行有效更新,进而提高了预测两个分子之间相互作用强度的准确率,即,得到的相互作用强度预测值(yd_1,...,yd_n)更加准确。
在一种实现方式中,所述步骤S300具体包括:
步骤S310、将所述目标分子图上的节点特征和边特征共同输入预先训练的图神经网络,所述图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
步骤S320、所述目标分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
步骤S330、从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述复合物中目标靶点蛋白分子与药物分子之间的相互作用强度预测值。
具体地,所述目标分子图在输入图神经网络时,被识别为节点特征和边特征。目标分子图的每个节点和边可以用化学和几何方法得到相应的特征。本发明的图神经网络包括:节点自注意力机制图网络、边的自注意力机制图网络,以及池化和全连接神经网络。节点自注意力机制图网络能够对节点特征进行处理,使得目标分子图中的节点使用注意力机制,边的自注意力机制图网络能够对边特征进行处理,使得两个分子连接的边上使用注意力机制。
也就是说,本实施例在对图中节点进行运算的同时,能够直接对两个分子之间的相互作用进行建模,也能够对边的信息进行有效更新,进而提高了预测两个分子之间相互作用强度的准确率。
在一种实施例中,所述步骤S300之后还包括:
步骤S410、获取预测得到的各个所述复合物对应的相互作用强度预测值;
步骤S420、按照相互作用强度预测值由大到小的顺序对所述药物分子候选集合中的各个药物分子进行排序。
具体地,对每个复合物进行预测后,得到每个复合物对应的相互作用强度预测值,从而对药物分子候选集合D中的药物分子进行排序,排序规则可以是按照相互作用强度预测值由大到小的顺序,这样,可以筛选出相互作用强度预测值最高的药物分子作为候选药物分子进入药物研发的下一个环节。本实施例通过使用准确度高的图神经网络得到相互作用强度,提高了计算效率,进而提高了药物研发的效率。
在一种实现方式中,所述图神经网络的训练步骤包括:
步骤A100、获取训练数据集,所述训练数据集中包括训练复合物,以及所述训练复合物中目标靶点蛋白分子与训练药物分子的相互作用强度训练值;
步骤A200、对所述训练复合物进行图构建处理,得到目标训练分子图;
步骤A300、将所述目标训练分子图输入初始图神经网络,以所述相互作用强度训练值为优化目标对所述初始图神经网络进行训练;
步骤A400、训练完成后,得到已训练的图神经网络。
其中,所述初始图神经网络中包括边的自注意力机制图网络。
具体地,本实施例使用边的自注意力机制图网络对边的信息进行更新,能够更好地建模分子之间的相互作用,使得模型能更精确地对两个分子之间的相互作用强度进行建模,提升训练之后模型的预测准确度。
在一种实施例中,在所述步骤A100中,所述训练复合物的获取步骤包括:获取目标靶点蛋白分子和训练药物分子候选集合;利用计算化学方法,例如,分子对接方法或自由能微扰方法得到所述目标靶点蛋白分子和所述训练药物分子候选集合中各个训练药物分子的训练复合物。
具体地,本发明利用计算化学方法,比如但不限于如分子对接(Moleculardocking),自由能微扰(Free Energy Perturbation, FEP)等方法,来计算目标靶点蛋白分子和训练药物分子候选集合中各个训练药物分子的训练复合物。本发明提供目标靶点蛋白分子A和包含m个训练药物分子的训练药物分子候选集合B,利用分子对接方法(Moleculardocking),得到目标靶点蛋白分子A和集合B={B_1,...,B_m}中每个分子B_i的复合物集合C=(C_1,...,C_m) (i=1,...,m)。本实施例通过选取训练药物分子候选集合,以获得较多数量的复合物,进一步提升训练之后模型的预测准确度。
在一种实现方式中,所述训练药物分子候选集合为随机选取预设候选分子库中的药物分子得来。也就是说,本实施例可以提供预设候选分子库,在所述预设候选分子库中随机选取药物分子,形成训练药物分子候选集合。这样,本实施例的训练药物分子候选集合中的药物分子是随机选取,使得训练数据具有全面性,进一步提升了训练之后模型的预测准确度。
在一种实现方式中,所述相互作用强度训练值是利用分子对接方法或者自由能微扰方法计算得到。本实施例是以相互作用强度训练值(y_1,...,y_m)对初始图神经网络进行训练,相互作用强度训练值可以是分子对接方法或者自由能微扰方法计算得到,将相互作用强度训练值作为复合物的标签来进行训练。分子对接方法可以得到复合物结构,但是计算相互作用强度的准确性不够高,可以用来做初步筛选。自由能微扰方法的计算速度很慢,例如,计算一对相互作用强度需要10小时。因此,本发明利用分子对接方法或者自由能微扰方法计算得到相互作用强度训练值作为训练标签,以对初始图神经网络进行训练,进一步通过已训练的模型来预测各个复合物对应的相互作用强度,从而提高计算相互作用强度的效率。
在本实施例中,在预设候选分子库中随机选取一些药物分子形成训练药物分子候选集合,在预测时,就可以将所述预设候选分子库中除所述训练药物分子候选集合以外的药物分子利用已训练的图神经网络进行预测,以提高预测效率。
在一种实施例中,所述步骤A200具体包括:
步骤A210、将所述训练复合物中的原子构建为节点;
步骤A220、若两个原子之间存在化学键,则在两个原子之间构建一条边;
步骤A230、若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
步骤A240、根据构建的节点和边得到所述训练复合物对应的目标训练分子图。
具体地,本实施例训练过程中,在进行图表示时,按照步骤A210、步骤A220和步骤A230的规则来进行处理。其中,所述预设距离阈值可以设置为5埃到8埃之间的数值。即,分子图中的节点是复合物中的原子,当一对原子之间存在化学键,或者当两个原子之间的距离小于预设距离阈值时,均在两个原子之间加入一条边。本实施例按照以上规则进行具体的图构建,对两个原子之间存在化学键以及两个原子之间的距离小于预设距离阈值这两种情况,均构建了边,以便于训练图神经网络对目标分子图中边的信息进行有效更新。
在一种实现方式中,所述步骤A240具体包括:
步骤A241、根据构建的节点和边得到所述训练复合物的初始训练分子图;
步骤A242、截取所述初始训练分子图中的药物分子结合部位作为目标训练分子图。
其中,所述药物分子结合部位上的目标靶点蛋白分子与训练药物分子之间的距离处于预设范围内。
具体地,由于包含整个目标靶点蛋白分子A的分子图的节点数量可能很大,因此,本实施例为了加快图神经网络的计算速度,在训练复合物的初始训练分子图中截取距离训练药物分子一定范围内的子图(如15埃到20埃),截取的子图作为目标训练分子图。本实施例通过截取初始训练分子图中的药物分子结合部位作为目标训练分子图,以便于输入图神经网络,进而降低了图神经网络的计算量,提高了计算效率。
在一种实施例中,所述步骤A300具体包括:
步骤A310、将所述目标训练分子图上的节点特征和边特征共同输入初始图神经网络,所述初始图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
步骤A320、所述目标训练分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标训练分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
步骤A330、从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述训练复合物中目标靶点蛋白分子与训练药物分子之间的相互作用强度预测值;
步骤A340、利用计算损失函数或者梯度下降方法对所述初始图神经网络进行训练,以使所述相互作用强度预测值接近所述相互作用强度训练值。
具体地,依次将目标训练分子图输入初始图神经网络,所述目标训练分子图在输入图神经网络时,被识别为节点特征和边特征。目标训练分子图的每个节点和边可以用化学和几何方法得到相应的特征。本发明的初始图神经网络包括:节点自注意力机制图网络、边的自注意力机制图网络,以及池化和全连接神经网络。节点自注意力机制图网络能够对节点特征进行处理,使得目标分子图中的节点使用注意力机制,边的自注意力机制图网络能够对边特征进行处理,使得两个分子连接的边上使用注意力机制。本实施例以相互作用强度训练值作为标签,可以使用例如均方误差等损失函数和梯度下降的方法,训练初始图神经网络,使得相互作用强度训练值和相互作用强度预测值尽可能接近。
也就是说,本实施例在对图中节点进行运算的同时,能够直接对两个分子之间的相互作用进行建模,也能够对边的信息进行有效更新,进而提高了预测两个分子之间相互作用强度的准确率。
如图2所示,更新节点特征和边的特征这个过程重复N次。相互作用的边指的是,目标靶点蛋白分子和药物分子之间的边,不包含蛋白分子或者药物分子内部的边。池化(pooling)是指把边特征和节点特征组合得到一个特征。全连接神经网络(FC)是一个多层感知机(MLP),由线性层组成。
对于图2中节点自注意力机制图网络,用h和E分别表示图上节点特征和边的特征。
headk = Attention(QhWQ k, KhWK k, VhWV k)=Attention(Qk, Kk, Vk);
Figure 435528DEST_PATH_IMAGE001
Figure 883827DEST_PATH_IMAGE002
h’= concat(head1, …,headk);
E’= concat(E1, …,Ek);
其中,headk表示第k个自注意力的输出,Attention()表示自注意力机制,(Qk, Kk,Vk)是自注意力机制的参数矩阵,Qh, Kh, Vh分别表示节点特征h的查询矩阵、键矩阵和值矩阵,d表示自注意力机制中的向量维度,T表示转置,h’是更新后节点特征,E’是更新后的边的特征,concat()表示拼接操作。
对于图2中边的自注意力机制图网络,用E分别表示图上边的特征。
headk = Attention(QEWQ k, KEWK k, VEWV k);
Figure 257039DEST_PATH_IMAGE003
E’=concat(head1, …,headk);
其中headk表示第k个自注意力的输出,Attention()表示自注意力机制,WQ k,WK k,WV k是自注意力机制的参数矩阵,QE,KE,VE分别表示边的特征E的查询矩阵、键矩阵和值矩阵,d表示自注意力机制中的向量维度,T表示转置,E’是更新后的边的特征,concat()表示拼接操作。
进一步地,如图3所示,基于上述靶点蛋白分子与药物分子之间相互作用强度的预测方法,本发明还相应提供了一种靶点蛋白分子与药物分子之间相互作用强度的预测装置,包括:
获取模块100,用于获取待预测的目标靶点蛋白分子与药物分子的复合物;
构建模块200,用于对所述复合物进行图构建处理,得到目标分子图;
预测模块300,用于将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;
其中,所述图神经网络中包括边的自注意力机制图网络。
进一步地,如图4所示,基于上述靶点蛋白分子与药物分子之间相互作用强度的预测方法,本发明还相应提供了一种终端,包括:存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的靶点蛋白分子与药物分子之间相互作用强度的预测程序30,所述靶点蛋白分子与药物分子之间相互作用强度的预测程序30被所述处理器执行时实现如上所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
综上所述,本发明公开的靶点蛋白分子与药物分子之间相互作用强度的预测方法,包括:获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;其中,所述图神经网络中包括边的自注意力机制图网络。本发明通过使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而提高了图神经网络预测两个分子之间相互作用强度的准确率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (15)

1.一种靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述方法包括:
获取待预测的目标靶点蛋白分子与药物分子的复合物;
对所述复合物进行图构建处理,得到目标分子图;
将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;
其中,所述图神经网络中包括边的自注意力机制图网络;
将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值,包括:
将所述目标分子图上的节点特征和边特征共同输入预先训练的图神经网络,所述图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
所述目标分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述复合物中目标靶点蛋白分子与药物分子之间的相互作用强度预测值。
2.根据权利要求1所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述获取待预测的目标靶点蛋白分子与药物分子的复合物,包括:
获取待预测的目标靶点蛋白分子和药物分子候选集合;
利用计算化学方法或者机器学习方法计算得到所述目标靶点蛋白分子与所述药物分子候选集合中各个药物分子的复合物。
3.根据权利要求1所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,对所述复合物进行图构建处理,得到目标分子图,包括:
将所述复合物中的原子构建为节点;
若两个原子之间存在化学键,则在两个原子之间构建一条边;
若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
根据构建的节点和边得到所述复合物对应的目标分子图。
4.根据权利要求3所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,根据构建的节点和边得到所述复合物对应的目标分子图,包括:
根据构建的节点和边得到所述复合物的初始分子图;
截取所述初始分子图中的药物分子结合部位作为目标分子图;
其中,所述药物分子结合部位上的目标靶点蛋白分子与药物分子之间的距离处于预设范围内。
5.根据权利要求2所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值之后,还包括:
获取预测得到的各个所述复合物对应的相互作用强度预测值;
按照相互作用强度预测值由大到小的顺序对所述药物分子候选集合中的各个药物分子进行排序。
6.根据权利要求1所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述图神经网络的训练步骤包括:
获取训练数据集,所述训练数据集中包括训练复合物,以及所述训练复合物中目标靶点蛋白分子与训练药物分子的相互作用强度训练值;
对所述训练复合物进行图构建处理,得到目标训练分子图;
将所述目标训练分子图输入初始图神经网络,以所述相互作用强度训练值为优化目标对所述初始图神经网络进行训练;
训练完成后,得到已训练的图神经网络;
其中,所述初始图神经网络中包括边的自注意力机制图网络。
7.根据权利要求6所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述训练复合物的获取步骤包括:
获取目标靶点蛋白分子和训练药物分子候选集合;
利用分子对接方法或自由能微扰方法得到所述目标靶点蛋白分子和所述训练药物分子候选集合中各个训练药物分子的训练复合物。
8.根据权利要求6所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述训练药物分子候选集合为随机选取预设候选分子库中的药物分子得来。
9.根据权利要求6所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,所述相互作用强度训练值是利用分子对接方法或者自由能微扰方法计算得到。
10.根据权利要求6所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,对所述训练复合物进行图构建处理,得到目标训练分子图,包括:将所述训练复合物中的原子构建为节点;
若两个原子之间存在化学键,则在两个原子之间构建一条边;
若两个原子之间的距离小于预设距离阈值,则在两个原子之间构建一条边;
根据构建的节点和边得到所述训练复合物对应的目标训练分子图。
11.根据权利要求10所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,根据构建的节点和边得到所述训练复合物对应的目标训练分子图,包括:
根据构建的节点和边得到所述训练复合物的初始训练分子图;
截取所述初始训练分子图中的药物分子结合部位作为目标训练分子图;
其中,所述药物分子结合部位上的目标靶点蛋白分子与训练药物分子之间的距离处于预设范围内。
12.根据权利要求6所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法,其特征在于,将所述目标训练分子图输入初始图神经网络,以所述相互作用强度训练值为优化目标对所述初始图神经网络进行训练,包括:
将所述目标训练分子图上的节点特征和边特征共同输入初始图神经网络,所述初始图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
所述目标训练分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标训练分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述训练复合物中目标靶点蛋白分子与训练药物分子之间的相互作用强度预测值;
利用计算损失函数或者梯度下降方法对所述初始图神经网络进行训练,以使所述相互作用强度预测值接近所述相互作用强度训练值。
13.一种靶点蛋白分子与药物分子之间相互作用强度的预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测的目标靶点蛋白分子与药物分子的复合物;
构建模块,用于对所述复合物进行图构建处理,得到目标分子图;
预测模块,用于将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;
其中,所述图神经网络中包括边的自注意力机制图网络;
将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值,包括:
将所述目标分子图上的节点特征和边特征共同输入预先训练的图神经网络,所述图神经网络中还包括:节点自注意力机制图网络以及池化和全连接神经网络;
所述目标分子图上的节点特征经所述节点自注意力机制图网络处理后得到新的节点特征,所述目标分子图上的边特征经所述节点自注意力机制图网络及所述边的自注意力机制图网络处理后得到新的边特征;
从新的边特征中提取相互作用的边,将提取的相互作用的边和新的节点特征共同输入到所述池化和全连接神经网络,得到所述复合物中目标靶点蛋白分子与药物分子之间的相互作用强度预测值。
14.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的靶点蛋白分子与药物分子之间相互作用强度的预测程序,所述靶点蛋白分子与药物分子之间相互作用强度的预测程序被所述处理器执行时实现如权利要求1~12任意一项所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1~12任意一项所述的靶点蛋白分子与药物分子之间相互作用强度的预测方法的步骤。
CN202211632637.3A 2022-12-19 2022-12-19 靶点蛋白分子与药物分子之间相互作用强度的预测方法 Active CN115620807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211632637.3A CN115620807B (zh) 2022-12-19 2022-12-19 靶点蛋白分子与药物分子之间相互作用强度的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211632637.3A CN115620807B (zh) 2022-12-19 2022-12-19 靶点蛋白分子与药物分子之间相互作用强度的预测方法

Publications (2)

Publication Number Publication Date
CN115620807A CN115620807A (zh) 2023-01-17
CN115620807B true CN115620807B (zh) 2023-05-23

Family

ID=84880492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211632637.3A Active CN115620807B (zh) 2022-12-19 2022-12-19 靶点蛋白分子与药物分子之间相互作用强度的预测方法

Country Status (1)

Country Link
CN (1) CN115620807B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型
US11256995B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity using point-cloud machine learning

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120239367A1 (en) * 2009-09-25 2012-09-20 Joo Chuan Victor Tong Method and system for evaluating a potential ligand-receptor interaction
CN111916145B (zh) * 2020-07-24 2022-03-11 湖南大学 基于图表示学习的新冠病毒靶标预测和药物发现方法
CN112908429A (zh) * 2021-04-06 2021-06-04 北京百度网讯科技有限公司 一种药物与靶点间的相关性确定方法、装置及电子设备
CN114333986A (zh) * 2021-09-06 2022-04-12 腾讯科技(深圳)有限公司 模型训练、药物筛选和亲和力预测的方法与装置
CN114743600A (zh) * 2022-04-15 2022-07-12 大连理工大学 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256995B1 (en) * 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity using point-cloud machine learning
CN113593633A (zh) * 2021-08-02 2021-11-02 中国石油大学(华东) 基于卷积神经网络的药物-蛋白相互作用预测模型

Also Published As

Publication number Publication date
CN115620807A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN110782015A (zh) 神经网络的网络结构优化器的训练方法、装置及存储介质
US20210232376A1 (en) Vectorized representation method of software source code
CN112101190A (zh) 一种遥感图像分类方法、存储介质及计算设备
Shukla Neuro-genetic prediction of software development effort
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN111640425B (zh) 一种模型训练和意图识别方法、装置、设备及存储介质
CN112905801A (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
Zheng et al. Ddpnas: Efficient neural architecture search via dynamic distribution pruning
CN114900346B (zh) 基于知识图谱的网络安全测试方法及系统
CN114417739B (zh) 一种异常工况的工艺参数推荐方法及装置
CN114627980A (zh) 一种化学逆合成分析方法及系统
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113095501A (zh) 一种基于深度强化学习的不平衡分类决策树生成方法
CN117334271A (zh) 一种基于指定属性生成分子的方法
CN115620807B (zh) 靶点蛋白分子与药物分子之间相互作用强度的预测方法
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Uyar et al. The analysis and optimization of CNN Hyperparameters with fuzzy tree modelfor image classification
CN111859785B (zh) 流体特征提取方法、系统、计算机可读存储介质及设备
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN112200208B (zh) 基于多维度特征融合的云工作流任务执行时间预测方法
Betin et al. A mechanism for a solution search within the formalism of functional neural networks
CN116805384A (zh) 自动搜索方法、自动搜索的性能预测模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant