CN111798933B - 一种基于深度学习的分子对接判别方法 - Google Patents

一种基于深度学习的分子对接判别方法 Download PDF

Info

Publication number
CN111798933B
CN111798933B CN202010578183.0A CN202010578183A CN111798933B CN 111798933 B CN111798933 B CN 111798933B CN 202010578183 A CN202010578183 A CN 202010578183A CN 111798933 B CN111798933 B CN 111798933B
Authority
CN
China
Prior art keywords
module
information
molecular
data structure
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010578183.0A
Other languages
English (en)
Other versions
CN111798933A (zh
Inventor
蔡翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Limaoda Pharmaceutical Technology Co ltd
Original Assignee
Suzhou Puyi Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Puyi Intelligent Medical Technology Co ltd filed Critical Suzhou Puyi Intelligent Medical Technology Co ltd
Priority to CN202010578183.0A priority Critical patent/CN111798933B/zh
Publication of CN111798933A publication Critical patent/CN111798933A/zh
Application granted granted Critical
Publication of CN111798933B publication Critical patent/CN111798933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于深度学习的分子对接判别方法,包括训练过程和基于所述训练过程后的应用过程,所述训练过程包括对化学分子式进行预处理步骤,将化学分子式转换为图数据结构的形式进行存储,所述图数据结构包括节点的种类、节点间的连接信息,所述节点种类通过自然数表示。本发明的有益效果体现在:将化学分子式转换为图数据结构的形式,并结合神经网络进行提取分析,快速有效的实现了分子对接判别,实现了大规模的并行计算。

Description

一种基于深度学习的分子对接判别方法
技术领域
本发明属于计算机应用技术领域,尤其涉及一种基于深度学习的分子对接判别方法。
背景技术
分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要通过研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法。近年来,分子对接方法已成为计算机辅助药物研究领域的一项重要技术,同时其在药物设计,材料设计等领域,也有着广泛的应用。
传统的药物分子对接技术,主要为空间识别和能量识别两种,空间识别是根据空间节点计算的方式,对分子空间几何信息进行匹配计算。而能量识别的方式,则使用物理势能的定义,最优化能量。但这两种方式在大分子,超大分子对接中,需要非常大的计算量,并且处理方式繁琐,人为设计步骤过多。
有鉴于此,引入深度学习的新型人工智能技术,对复杂的大分子结构信息进行分析,并运用于分子对接判别,利用神经网络并行计算,机器学习的优势,有着很好的前景。
发明内容
为了解决现有技术的不足,本发明提供了一种基于深度学习的分子对接判别方法。
本发明的目的通过以下技术方案来实现:
一种基于深度学习的分子对接判别方法,包括训练过程和基于所述训练过程后的应用过程,所述训练过程包括对化学分子式进行预处理步骤,
S1、将化学分子式转换为图数据结构的形式,所述图数据结构包括节点的种类、节点间的连接信息,所述节点种类通过自然数表示。
优选地,所述训练过程还包括如下步骤:
S2、将S1中转换后的图数据结构形式的信息传输到嵌入模块中进行向量的转换,将离散化的数据变成连续值;
S3、将S1中转化好的图数据结构信息及S2中经过向量转换后的信息发送至图结构特征提取模块中进行处理,形成高维向量;
S4、将每个分子节点的位置信息传输至位置信息描述模块中进行高维非线性转换;
S5、将S3和S4获取的结果传输至融合模块进行融合;
S6、将融合和的信息传输至判别模块进行判别得到判别结果;
S7、将S6判别后的网络输出结果和标准答案共同组成损失函数,进行网络输出结果的质量评判,计算完损失函数后,利用梯度回传算法进行参数更新,重复S1-S7步骤进行不断更新,直至损失函数降到设定的阈值之下,表明训练过程完成。
优选地,所述应用过程包括如下步骤:
S8,将待判别的分子结构转换为图数据结构形式,位置信息转化为位置表达,再依次分别传输至嵌入向量模块、图结构特征提取模块、融合模块,判别模块,最终得到判别网络结果。
优选地,所述S4中的位置信息包括分子节点的空间坐标位置,化学键间的夹角。
优选地,所述S5中融合信息模块的融合为将两种信息向量进行合并,成为一个向量,所述融合方法为相加、相减、合并、卷积中的一种或一种以上组合。
优选地,所述S6中的判别步骤包括多层非线性变换和线性变换步骤。
优选地,所述S7中的损失函数为二值交叉熵损失函数。
本发明的有益效果体现在:将化学分子式转换为图数据结构的形式,并结合神经网络进行提取分析,快速有效的实现了分子对接判别,实现了大规模的并行计算。
附图说明
图1:本发明的基于深度学习的分子对接判别方法的框架结构示意图。
具体实施方式
本发明揭示了一种基于深度学习的分子对接判别方法,所述方法基于图神经网络框架和残差网络的扩展。
本发明的判别方法包括训练过程和基于所述训练过程后的应用过程,所述训练过程包括如下步骤,
S1、将化学分子式转换为图数据结构的形式,所述图数据结构包括节点的种类、节点间的连接信息,所述节点种类通过自然数表示。图数据结构是由顶点和连接顶点的边构成的离散结构。
S2、将S1中转换后的图数据结构形式的信息传输到嵌入模块中进行向量的转换,将离散化的数据变成连续值;
S3、将S1中转化好的图数据结构信息及S2中经过向量转换后的信息发送至图结构特征提取模块中进行处理,形成高维向量;
S4、将每个分子节点的位置信息传输至位置信息描述模块中进行高维非线性转换;所述位置信息包括分子节点的空间坐标位置,化学键间的夹角。
S5、将S3和S4获取的结果传输至融合模块进行融合;所述融合为将两种信息向量进行合并,成为一个向量,其方法为相加、相减、合并、卷积中的一种或一种以上组合。
S6、将融合和的信息传输至判别模块进行判别得到判别结果;所述判别步骤包括多层非线性变换和线性变换步骤。
S7、将S6判别后的网络输出结果和标准答案共同组成损失函数,进行网络输出结果的质量评判,计算完损失函数后,利用梯度回传算法进行参数更新,重复S1-S7步骤进行不断更新,直至损失函数降到设定的阈值之下,表明训练过程完成。所述损失函数为二值交叉熵损失函数。在深度学习中,交叉熵用于刻画两个概率分布的距离。
所述应用过程包括如下步骤:
S8,将待判别的分子结构转换为图数据结构形式,位置信息转化为位置表达,再依次分别传输至嵌入向量模块、图结构特征提取模块、融合模块,判别模块,最终得到判别网络结果。
本发明中的模块均由多层神经网络层构成,包括多层卷积层,长短时记忆模块和全连接层。
全连接(FC)是非线性变换的具体实现,也是神经网络层中比较基础的一种,通常用来做特征维度变换或者特征映射。卷积层(CNN)也是一种神经网络层,用于对局部信息的特征提取。长短时记忆网络(LSTM)是另外一种神经网络层,该操作善于对长序列整体信息进行融合和提取。本发明不仅采用了化学分子的二维信息(分子结构式),同时将化学分子的三位空间信息(位置和夹角)也一同融入,利用神经网络的深度学习技术对复杂的信息进行学习和分析。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于深度学习的分子对接判别方法,包括训练过程和基于所述训练过程后的应用过程,其特征在于,所述训练过程包括对化学分子式进行预处理步骤,
S1、将化学分子式转换为图数据结构的形式进行存储,所述图数据结构包括节点的种类、节点间的连接信息,所述节点种类通过自然数表示;
所述训练过程还包括如下步骤:
S2、将S1中转换后的图数据结构形式的信息传输到嵌入模块中进行向量的转换,将离散化的数据变成连续值;
S3、将S1中转化好的图数据结构信息及S2中经过向量转换后的信息发送至图结构特征提取模块中进行处理,形成高维向量;
S4、将每个分子节点的位置信息传输至位置信息描述模块中进行高维非线性转换;
S5、将S3和S4获取的结果传输至融合模块进行融合;
S6、将融合和的信息传输至判别模块进行判别得到判别结果;
S7、将S6判别后的网络输出结果和标准答案共同组成损失函数,进行网络输出结果的质量评判,计算完损失函数后,利用梯度回传算法进行参数更新,重复S1-S7步骤进行不断更新,直至损失函数降到设定的阈值之下,表明训练过程完成;
S8,将待判别的分子结构转换为图数据结构形式,位置信息转化为位置表达,再依次分别传输至嵌入向量模块、图结构特征提取模块、融合模块,判别模块,最终得到判别网络结果。
2.如权利要求1所述的基于深度学习的分子对接判别方法,其特征在于:所述S4中的位置信息包括分子节点的空间坐标位置,化学键间的夹角。
3.如权利要求1所述的基于深度学习的分子对接判别方法,其特征在于:所述S5中融合信息模块的融合为将两种信息向量进行合并,成为一个向量,所述融合方法为相加、相减、合并、卷积中的一种或一种以上组合。
4.如权利要求1所述的基于深度学习的分子对接判别方法,其特征在于:所述S6中的判别步骤包括多层非线性变换和线性变换步骤。
5.如权利要求1所述的基于深度学习的分子对接判别方法,其特征在于:所述S7中的损失函数为二值交叉熵损失函数。
CN202010578183.0A 2020-06-23 2020-06-23 一种基于深度学习的分子对接判别方法 Active CN111798933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578183.0A CN111798933B (zh) 2020-06-23 2020-06-23 一种基于深度学习的分子对接判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578183.0A CN111798933B (zh) 2020-06-23 2020-06-23 一种基于深度学习的分子对接判别方法

Publications (2)

Publication Number Publication Date
CN111798933A CN111798933A (zh) 2020-10-20
CN111798933B true CN111798933B (zh) 2024-03-01

Family

ID=72803083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578183.0A Active CN111798933B (zh) 2020-06-23 2020-06-23 一种基于深度学习的分子对接判别方法

Country Status (1)

Country Link
CN (1) CN111798933B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767266A (zh) * 2019-11-04 2020-02-07 山东省计算中心(国家超级计算济南中心) 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657179B2 (en) * 2017-09-01 2020-05-19 X Development Llc Bipartite graph structure
US10622098B2 (en) * 2017-09-12 2020-04-14 Massachusetts Institute Of Technology Systems and methods for predicting chemical reactions
US11024403B2 (en) * 2018-01-22 2021-06-01 X Development Llc Method for analyzing and optimizing metabolic networks
US11537719B2 (en) * 2018-05-18 2022-12-27 Deepmind Technologies Limited Deep neural network system for similarity-based graph representations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767266A (zh) * 2019-11-04 2020-02-07 山东省计算中心(国家超级计算济南中心) 基于图卷积的面向ErbB靶向蛋白家族的打分函数构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences;Masashi Tsubaki et al.;《Bioinformatics》;第35卷(第2期);第3-6节,图1 *

Also Published As

Publication number Publication date
CN111798933A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN114386694B (zh) 基于对比学习的药物分子性质预测方法、装置及设备
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN108062551A (zh) 一种基于邻接矩阵的图特征提取系统、图分类系统和方法
CN114418954A (zh) 一种基于互学习的半监督医学图像分割方法及其系统
CN111292195A (zh) 风险账户的识别方法及装置
CN115862747B (zh) 一种序列-结构-功能耦合的蛋白质预训练模型构建方法
CN110516724A (zh) 可视化作战场景的高性能多层字典学习特征图像处理方法
Sun et al. Vicinity vision transformer
CN117036760A (zh) 一种基于图对比学习的多视图聚类模型实现方法
CN112633154A (zh) 一种异源人脸特征向量之间的转换方法及系统
CN114970326A (zh) 一种基于改进胶囊神经网络的油井故障诊断方法
Wu et al. [Retracted] English Feature Recognition Based on GA‐BP Neural Network Algorithm and Data Mining
Tan et al. Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning
Song et al. A potential vision-based measurements technology: Information flow fusion detection method using RGB-thermal infrared images
CN113450870B (zh) 一种药物与靶点蛋白的匹配方法及系统
Hwang et al. Object Detection for Cargo Unloading System Based on Fuzzy C Means.
CN111798933B (zh) 一种基于深度学习的分子对接判别方法
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
CN117012304A (zh) 融合ggnn-gan的深度学习分子生成系统及方法
CN111798934A (zh) 一种基于图神经网络的分子性质预测方法
Wu et al. A non-local attention feature fusion network for multiscale object detection
Zhang et al. MQENet: A mesh quality evaluation neural network based on dynamic graph attention
CN111612047B (zh) 基于属性特征向量和可逆生成模型的零样本图像识别方法
Hsieh et al. Mean-Shift Based Differentiable Architecture Search
Jadeja et al. Convolutional Neural Networks: A Comprehensive Review of Architectures and Application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240601

Address after: Room 109, Building 1, No. 1, Qingshan Road, High-tech Zone, Suzhou, Jiangsu 215000

Patentee after: Suzhou Limaoda Pharmaceutical Technology Co.,Ltd.

Country or region after: China

Address before: R2010, Unit 201, Building B6, Biopharmaceutical Industrial Park Phase I Project, No. 218 Xinghu Street, Industrial Park, Suzhou City, Jiangsu Province, 215000

Patentee before: Suzhou Puyi Intelligent Medical Technology Co.,Ltd.

Country or region before: China