CN111210878A

CN111210878A - 一种基于深度学习的药物预测方法

Info

Publication number: CN111210878A
Application number: CN202010009558.1A
Authority: CN
Inventors: 全哲; 刘彦; 何楠; 乐羽泉
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-29

Abstract

本发明公开了一种基于深度学习的药物预测方法。本发明基于药物发现进行原子层面的学习，从而进行毒性预测。通过将SIMLE格式的数据通过原子向量切分，word2vec向量映射转化为一组向量，然后将这组向量放入LSTM神经网络中进行训练，最后将LSTM输出的结果放入sigmoid分类器中，得到分子是否有毒，相对现有的预测方法具有良好的可行性和优越性。

Description

一种基于深度学习的药物预测方法

技术领域

本发明属于信息处理领域，特别涉及一种基于深度学习的药物预测方法。

背景技术

药物发现、药物毒性预测在化学、生物领域起着至关重要的作用。但是传统的药物发现、药物毒性预测方法存在着实验时间长、实验花费大的特点。近几年随着机器学习的快速发展，也可以使用机器学习的方法进行药物毒性预测。

过去的十年里，已经在可用的化合物的活性和生物医学数据的量显着增加。更大的数据量与更多的自动化技术相结合促进了机器学习的进一步应用。在药物研发领域机器学习和深度学习正在迅速发展。在药物发现领域中深度学习对特征的依赖更加严重。现有流行的方法有Graph Convolutions。Graph Convolutions过分强调关联而忽视了个体自身的特点。

药物预测包括药物不良事件(ADEs)、药物不良反应(ADRs)、药物相互作用(DDIs)等。对于药物不良事件用到的方法有通过关系学习识别药物不良事件。对于药物不良反应，可以通过从论坛帖子和推文中提取药物不良反应来解决。对于药物与药物的相互作用，可以通过二分预测的方法进行解决(有相互作用和无相互作用)。但是现有技术主要致力于开发其他任务的技术，而不是单任务和多任务分类，且现在流行的Graph Convolutions方法忽视了原子的自身特点。

发明内容

为了克服以上问题，本发明提供了一种基于深度学习的药物预测方法。本发明基于药物发现进行原子层面的学习，从而进行毒性预测。通过将SIMLE格式的数据通过原子向量切分，word2vec向量映射转化为一组向量，然后将这组向量放入LSTM神经网络中进行训练，最后将LSTM输出的结果放入sigmoid分类器中，得到分子是否有毒，相对现有的预测方法具有良好的可行性和优越性。

本发明解决其技术问题所采用的技术方案是:

一种基于深度学习的药物预测方法，包括如下步骤：

步骤一、将已知毒性的药物分子按照SIMLE格式的化学式进行输入，将SIMLE格式的化学式按原子进行切分，然后将原子表示为高维向量作为为下一层的输入；

步骤二、将步骤一中的高维向量和对应的毒性作为样本输入LSTM神经网络中进行训练，将训练后的样本发送到sigmoid分类器，进行单任务或多任务分类；

步骤三、将未知毒性的药物分子按照SIMLE格式的化学式进行输入，将SIMLE格式的化学式按原子进行切分，然后将原子表示为高维向量作为为下一层的输入；

步骤四、将步骤二中的高维向量输入步骤二的LSTM神经网络训练模型，得到LSTM输出的结果，LSTM输出的结果放入sigmoid分类器得到未知毒性的药物分子是否有毒的预测结果。

进一步的改进，所述步骤一和步骤三中，均将smile格式的化学式按原子进行切分后使用ONE-HOT进行编码，再使用Word2Vec的方法提取向量将原子表示为高维向量为下一层的输入。

进一步的改进，所述步骤二和四中，每一个包含特殊符号的原子都有一个对于的时间步长；与每个时间步长相关的中间状态称为 hidden state vector；hidden statevector用于封装和汇总前一个时间步中出现的所有信息；Hidden state vector是当前原子向量和前一步的hidden state vector的函数，Hidden state vector的值h_t为

h_t＝σ(W^H h_t-1+W^X Xt)

其中W^H和W^X代表着权重矩阵，W^H的值在所有的时间步长中保持不变，但W^X的值会发生变化，这些值的大小不仅受当前向量的影响，还受到之前隐藏层的影响。很容易观察到，当W^H和W^X发生变化的时候， h_t的值也会收到影响。例如当W^H的变化大于W^X时，h_t受ht-1的影响大于Xt；σ表示sigmoid函数，Xt表示当前输入。

附图说明

图1为本发明的的流程示意图；

图2步骤一的处理流程图；

图3为步骤四的流程示意图。

具体实施方式

下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:

图1是本发明的总流程图。本发明步骤如下：

1)、选择合适的分子表征是基于计算机的化学分析的核心， smile的编码规则遵循严格的语法，由表示元素类型、键值、环形闭包和分支组件的起始和结束位置的符号组成。Smile串能很好的表示和存储分子数据，为了应用机器学习方法来学习特征，我们需要将smile分子式转换成适合使用的新格式。我们直接将smile串转换成原子向量。首先将smile格式的分子按原子进行切分，然后将原子表示为高维向量，图2中Input到Preprocess说明了这一部分的工作过程。 2)、在第一步中，我们将smile分子切分成原子，对于所有预处理过的原子，我们通过ONE-HOT对它们进行编码，这样就可以将原子转换成特定的向量。但是这样处理得到的向量包含的特征信息很少。于是我们采用Word2Vec的方法提取向量，得到的向量作为下一层的输入。这就相当于图2的Preprocess到Mapping所表示的工作流程.

在特征提取之前，我们将已经表示过的特征信息进行忽略。例如，在smile中，甲苯表示为Cc1ccccc1，苯环表示为数字“1”，而c和c表示芳香碳和脂肪族碳原子，本质上意味着苯环的存在,所以出现过的苯环会被忽略。因此，SFL忽略一些已经表达的特征信息。这些策略确保了特征信息的简单性和完整性。

3)、这一步将会生成一个矩阵，方便后续步骤的模型训练。矩阵大小取决于你的输入大小和一些限制大小(比如原子向量的长度)。注意，每个向量Vi都使用一个n位状态寄存器进行编码。每个状态都有自己的寄存器位，并且在任何时候只有一个是有效的

4)、与处理自然语言处理(NLP)中语义相似度的方法相似，我们使用了循环神经网络LSTM进行模型的构建。LSTM利用所谓的记忆单元 (由输入、输出和遗忘门)来代替传统的神经元，以克服传统RNN的梯度消失问题。简而言之，LSTM是一类特殊的RNN，它能捕获很长的句子中的关系。

因为LSTM中有着输入门，输出门，遗忘门的存在，这样我们就可以学习和识别需要保留或遗忘的信息。在我们的方法中，每一个原子都有一个对于的时间步长。与每个时间步长相关的中间状态称为 hidden state vector。这个向量用于封装和汇总前一个时间步中出现的所有信息。Hidden state vector是当前原子向量和前一步的 hidden statevector的函数。它的值为

h_t＝σ(W_H h_t-1+W_X X_t)

其中W_H和W_X代表着权重矩阵。W_H和W_X的值会发生变化，这些值的大小不仅受当前向量的影响，还受到之前隐藏层的影响。很容易观察到，当W_X发生变化的时候，ht的值也会收到影响。例如当W_H的变化大于 W_X时，h_t受h_t-1的影响大于X_t。换句话说，当前的hidden statevector 更关心先前的原子向量和，而不是当前原子向量和。最后将隐藏层的状态发送给分类器(比如sigmoid)进行任务分类或毒性预测。因此我们所设计的方法在具有学习能力的同时能进行分子的毒性预测。

相比与传统的机器学习方法(随机森林、支持向量机、逻辑回归、 KNN、决策树)我们对BACE、BBBP、TOX21、SIDER数据集进行了实验，采用ROC-AUC评分作为我们的评判标准，可以看到我们的方法在绝大部分的数据集上都取得了最好的效果。表1为BACE和BBBP的实验结果。

表1 BACE和BBBP的ROC-AUC评分

表2为TOX21实验结果：

表2 TOX21中每个任务的ROC-AUC评分

表3为SIDER数据集实验结果。

表3SIDER中每个任务的ROC-AUC评分

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于深度学习的药物预测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度学习的药物预测方法，其特征在于，所述步骤一和步骤三中，均将smile格式的化学式按原子进行切分后使用ONE-HOT进行编码，再使用Word2Vec的方法提取向量将原子表示为高维向量为下一层的输入。

3.如权利要求1所述的基于深度学习的药物预测方法，其特征在于，所述步骤二和四中，每一个包含特殊符号的原子都有一个对于的时间步长；与每个时间步长相关的中间状态称为hidden state vector；hidden state vector用于封装和汇总前一个时间步中出现的所有信息；Hidden state vector是当前原子向量和前一步的hidden state vector的函数，Hidden state vector的值h_t为

h_t＝σ(W^Hh_t-1+W^XXt)

其中W^H和W^X代表着权重矩阵，W^H的值在所有的时间步长中保持不变，σ表示sigmoid函数，Xt表示当前输入。