CN111210878A - 一种基于深度学习的药物预测方法 - Google Patents

一种基于深度学习的药物预测方法 Download PDF

Info

Publication number
CN111210878A
CN111210878A CN202010009558.1A CN202010009558A CN111210878A CN 111210878 A CN111210878 A CN 111210878A CN 202010009558 A CN202010009558 A CN 202010009558A CN 111210878 A CN111210878 A CN 111210878A
Authority
CN
China
Prior art keywords
vector
atoms
vectors
chemical formula
simle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010009558.1A
Other languages
English (en)
Inventor
全哲
刘彦
何楠
乐羽泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010009558.1A priority Critical patent/CN111210878A/zh
Publication of CN111210878A publication Critical patent/CN111210878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于深度学习的药物预测方法。本发明基于药物发现进行原子层面的学习,从而进行毒性预测。通过将SIMLE格式的数据通过原子向量切分,word2vec向量映射转化为一组向量,然后将这组向量放入LSTM神经网络中进行训练,最后将LSTM输出的结果放入sigmoid分类器中,得到分子是否有毒,相对现有的预测方法具有良好的可行性和优越性。

Description

一种基于深度学习的药物预测方法
技术领域
本发明属于信息处理领域,特别涉及一种基于深度学习的药物预测方法。
背景技术
药物发现、药物毒性预测在化学、生物领域起着至关重要的作用。但是传统的药物发现、药物毒性预测方法存在着实验时间长、实验花费大的特点。近几年随着机器学习的快速发展,也可以使用机器学习的方法进行药物毒性预测。
过去的十年里,已经在可用的化合物的活性和生物医学数据的量显着增加。更大的数据量与更多的自动化技术相结合促进了机器学习的进一步应用。在药物研发领域机器学习和深度学习正在迅速发展。在药物发现领域中深度学习对特征的依赖更加严重。现有流行的方法有Graph Convolutions。Graph Convolutions过分强调关联而忽视了个体自身的特点。
药物预测包括药物不良事件(ADEs)、药物不良反应(ADRs)、药物相互作用(DDIs)等。对于药物不良事件用到的方法有通过关系学习识别药物不良事件。对于药物不良反应,可以通过从论坛帖子和推文中提取药物不良反应来解决。对于药物与药物的相互作用,可以通过二分预测的方法进行解决(有相互作用和无相互作用)。但是现有技术主要致力于开发其他任务的技术,而不是单任务和多任务分类,且现在流行的Graph Convolutions方法忽视了原子的自身特点。
发明内容
为了克服以上问题,本发明提供了一种基于深度学习的药物预测方法。本发明基于药物发现进行原子层面的学习,从而进行毒性预测。通过将SIMLE格式的数据通过原子向量切分,word2vec向量映射转化为一组向量,然后将这组向量放入LSTM神经网络中进行训练,最后将LSTM输出的结果放入sigmoid分类器中,得到分子是否有毒,相对现有的预测方法具有良好的可行性和优越性。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习的药物预测方法,包括如下步骤:
步骤一、将已知毒性的药物分子按照SIMLE格式的化学式进行输入,将SIMLE格式的化学式按原子进行切分,然后将原子表示为高维向量作为为下一层的输入;
步骤二、将步骤一中的高维向量和对应的毒性作为样本输入LSTM神经网络中进行训练,将训练后的样本发送到sigmoid分类器,进行单任务或多任务分类;
步骤三、将未知毒性的药物分子按照SIMLE格式的化学式进行输入,将SIMLE格式的化学式按原子进行切分,然后将原子表示为高维向量作为为下一层的输入;
步骤四、将步骤二中的高维向量输入步骤二的LSTM神经网络训练模型,得到LSTM输出的结果,LSTM输出的结果放入sigmoid分类器得到未知毒性的药物分子是否有毒的预测结果。
进一步的改进,所述步骤一和步骤三中,均将smile格式的化学式按原子进行切分后使用ONE-HOT进行编码,再使用Word2Vec的方法提取向量将原子表示为高维向量为下一层的输入。
进一步的改进,所述步骤二和四中,每一个包含特殊符号的原子都有一个对于的时间步长;与每个时间步长相关的中间状态称为 hidden state vector;hidden statevector用于封装和汇总前一个时间步中出现的所有信息;Hidden state vector是当前原子向量和前一步的hidden state vector的函数,Hidden state vector的值ht
ht=σ(WH ht-1+WX Xt)
其中WH和WX代表着权重矩阵,WH的值在所有的时间步长中保持不变,但WX的值会发生变化,这些值的大小不仅受当前向量的影响,还受到之前隐藏层的影响。很容易观察到,当WH和WX发生变化的时候, ht的值也会收到影响。例如当WH的变化大于WX时,ht受ht-1的影响大于Xt;σ表示sigmoid函数,Xt表示当前输入。
附图说明
图1为本发明的的流程示意图;
图2步骤一的处理流程图;
图3为步骤四的流程示意图。
具体实施方式
下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:
图1是本发明的总流程图。本发明步骤如下:
1)、选择合适的分子表征是基于计算机的化学分析的核心, smile的编码规则遵循严格的语法,由表示元素类型、键值、环形闭包和分支组件的起始和结束位置的符号组成。Smile串能很好的表示和存储分子数据,为了应用机器学习方法来学习特征,我们需要将smile分子式转换成适合使用的新格式。我们直接将smile串转换成原子向量。首先将smile格式的分子按原子进行切分,然后将原子表示为高维向量,图2中Input到Preprocess说明了这一部分的工作过程。 2)、在第一步中,我们将smile分子切分成原子,对于所有预处理过的原子,我们通过ONE-HOT对它们进行编码,这样就可以将原子转换成特定的向量。但是这样处理得到的向量包含的特征信息很少。于是我们采用Word2Vec的方法提取向量,得到的向量作为下一层的输入。这就相当于图2的Preprocess到Mapping所表示的工作流程.
在特征提取之前,我们将已经表示过的特征信息进行忽略。例如,在smile中,甲苯表示为Cc1ccccc1,苯环表示为数字“1”,而c和c表示芳香碳和脂肪族碳原子,本质上意味着苯环的存在,所以出现过的苯环会被忽略。因此,SFL忽略一些已经表达的特征信息。这些策略确保了特征信息的简单性和完整性。
3)、这一步将会生成一个矩阵,方便后续步骤的模型训练。矩阵大小取决于你的输入大小和一些限制大小(比如原子向量的长度)。注意,每个向量Vi都使用一个n位状态寄存器进行编码。每个状态都有自己的寄存器位,并且在任何时候只有一个是有效的
4)、与处理自然语言处理(NLP)中语义相似度的方法相似,我们使用了循环神经网络LSTM进行模型的构建。LSTM利用所谓的记忆单元 (由输入、输出和遗忘门)来代替传统的神经元,以克服传统RNN的梯度消失问题。简而言之,LSTM是一类特殊的RNN,它能捕获很长的句子中的关系。
因为LSTM中有着输入门,输出门,遗忘门的存在,这样我们就可以学习和识别需要保留或遗忘的信息。在我们的方法中,每一个原子都有一个对于的时间步长。与每个时间步长相关的中间状态称为 hidden state vector。这个向量用于封装和汇总前一个时间步中出现的所有信息。Hidden state vector是当前原子向量和前一步的 hidden statevector的函数。它的值为
ht=σ(WH ht-1+WX Xt)
其中WH和WX代表着权重矩阵。WH和WX的值会发生变化,这些值的大小不仅受当前向量的影响,还受到之前隐藏层的影响。很容易观察到,当WX发生变化的时候,ht的值也会收到影响。例如当WH的变化大于 WX时,ht受ht-1的影响大于Xt。换句话说,当前的hidden statevector 更关心先前的原子向量和,而不是当前原子向量和。最后将隐藏层的状态发送给分类器(比如sigmoid)进行任务分类或毒性预测。因此我们所设计的方法在具有学习能力的同时能进行分子的毒性预测。
相比与传统的机器学习方法(随机森林、支持向量机、逻辑回归、 KNN、决策树)我们对BACE、BBBP、TOX21、SIDER数据集进行了实验,采用ROC-AUC评分作为我们的评判标准,可以看到我们的方法在绝大部分的数据集上都取得了最好的效果。表1为BACE和BBBP的实验结果。
表1 BACE和BBBP的ROC-AUC评分
Figure RE-GDA0002420473050000061
表2为TOX21实验结果:
表2 TOX21中每个任务的ROC-AUC评分
Figure RE-GDA0002420473050000062
表3为SIDER数据集实验结果。
表3SIDER中每个任务的ROC-AUC评分
Figure RE-GDA0002420473050000063
Figure RE-GDA0002420473050000071
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (3)

1.一种基于深度学习的药物预测方法,其特征在于,包括如下步骤:
步骤一、将已知毒性的药物分子按照SIMLE格式的化学式进行输入,将SIMLE格式的化学式按原子进行切分,然后将原子表示为高维向量作为为下一层的输入;
步骤二、将步骤一中的高维向量和对应的毒性作为样本输入LSTM神经网络中进行训练,将训练后的样本发送到sigmoid分类器,进行单任务或多任务分类;
步骤三、将未知毒性的药物分子按照SIMLE格式的化学式进行输入,将SIMLE格式的化学式按原子进行切分,然后将原子表示为高维向量作为为下一层的输入;
步骤四、将步骤二中的高维向量输入步骤二的LSTM神经网络训练模型,得到LSTM输出的结果,LSTM输出的结果放入sigmoid分类器得到未知毒性的药物分子是否有毒的预测结果。
2.如权利要求1所述的基于深度学习的药物预测方法,其特征在于,所述步骤一和步骤三中,均将smile格式的化学式按原子进行切分后使用ONE-HOT进行编码,再使用Word2Vec的方法提取向量将原子表示为高维向量为下一层的输入。
3.如权利要求1所述的基于深度学习的药物预测方法,其特征在于,所述步骤二和四中,每一个包含特殊符号的原子都有一个对于的时间步长;与每个时间步长相关的中间状态称为hidden state vector;hidden state vector用于封装和汇总前一个时间步中出现的所有信息;Hidden state vector是当前原子向量和前一步的hidden state vector的函数,Hidden state vector的值ht
ht=σ(WHht-1+WXXt)
其中WH和WX代表着权重矩阵,WH的值在所有的时间步长中保持不变,σ表示sigmoid函数,Xt表示当前输入。
CN202010009558.1A 2020-01-06 2020-01-06 一种基于深度学习的药物预测方法 Pending CN111210878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010009558.1A CN111210878A (zh) 2020-01-06 2020-01-06 一种基于深度学习的药物预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010009558.1A CN111210878A (zh) 2020-01-06 2020-01-06 一种基于深度学习的药物预测方法

Publications (1)

Publication Number Publication Date
CN111210878A true CN111210878A (zh) 2020-05-29

Family

ID=70787385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010009558.1A Pending CN111210878A (zh) 2020-01-06 2020-01-06 一种基于深度学习的药物预测方法

Country Status (1)

Country Link
CN (1) CN111210878A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN112562869A (zh) * 2021-02-24 2021-03-26 北京中医药大学东直门医院 一种药物联用安全评测系统、方法和装置
CN114496303A (zh) * 2022-01-06 2022-05-13 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277173A (zh) * 2019-05-21 2019-09-24 湖南大学 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHE QUAN 等: "A System for Learning Atoms Based on Long Short-Term Memory Recurrent Neural Networks" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933225A (zh) * 2020-09-27 2020-11-13 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN111933225B (zh) * 2020-09-27 2021-01-05 平安科技(深圳)有限公司 药物分类方法、装置、终端设备以及存储介质
CN112562869A (zh) * 2021-02-24 2021-03-26 北京中医药大学东直门医院 一种药物联用安全评测系统、方法和装置
CN114496303A (zh) * 2022-01-06 2022-05-13 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法
CN114496303B (zh) * 2022-01-06 2024-06-04 湖南大学 一种基于多通道神经网络的抗癌药物筛选方法

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
Chen et al. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization
CN109766277B (zh) 一种基于迁移学习与dnn的软件故障诊断方法
Hassan et al. Sentiment analysis on bangla and romanized bangla text using deep recurrent models
CN110362684A (zh) 一种文本分类方法、装置及计算机设备
CN108399230A (zh) 一种基于卷积神经网络的中文财经新闻文本分类方法
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN111210878A (zh) 一种基于深度学习的药物预测方法
Hassan et al. Sentiment analysis on bangla and romanized bangla text (BRBT) using deep recurrent models
CN112308326B (zh) 一种基于元路径和双向编码器的生物网络链接预测方法
Shanmugavadivel et al. An analysis of machine learning models for sentiment analysis of Tamil code-mixed data
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111832287A (zh) 一种实体关系联合抽取方法及装置
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
Yang et al. Hierarchical sequence-to-sequence model for multi-label text classification
Jiang et al. Candidate region aware nested named entity recognition
Huang et al. Dafd: Domain adaptation framework for fake news detection
Steur et al. Next-generation neural networks: Capsule networks with routing-by-agreement for text classification
Athavale et al. Predicting algorithm classes for programming word problems
Wang et al. Joint Character‐Level Convolutional and Generative Adversarial Networks for Text Classification
Majewski et al. Sentence recognition using artificial neural networks
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination