CN111370073B

CN111370073B - 一种基于深度学习的药物互作规则预测方法

Info

Publication number: CN111370073B
Application number: CN202010122995.4A
Authority: CN
Inventors: 翁祖铨; 钟意; 罗衡
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-04-07
Anticipated expiration: 2040-02-27
Also published as: CN111370073A

Abstract

本发明涉及一种基于深度学习的药物互作规则预测方法。使用大量具有药物互作规则的药物对标签训练基于图卷积以及全连的深度学习网络。网络首先训练三层权重共享的图卷积(GCNN)以及注意力池化来提取到输入药物对的高纬度特征，然后通过三层全连接(FN)神经网络进行进一步特征提取，最后通过一个多分类函数进行药物互作规则的预测。将训练好的网络应用到当前需要预测的药物对，在决策层即可获得输入药物对的互作结果。本发明中的网络可以有效地识别115种药物相互作用规则，不仅可以在药物发现过程中对候选分子可能药物互作的预测，而且同时可以指导合理地用药，促进用药安全。

Description

一种基于深度学习的药物互作规则预测方法

技术领域

本发明属于计算机视觉以及自然语言处理，药物设计和医药领域，具体涉及一种基于深度学习的药物互作规则预测方法。

背景技术

药物相互作用的识别和预测有助于用药安全以及药物研发，药物互作和药物不良反应的发生密切相关，此外药物互作也是致使药物在研发过程失败的一大重要因素。目前主要使用两种策略来预测药物互作，一种是实验鉴定，另一种是计算的方法挖掘。前者主要专注于生物学和临床的实验来确定药物间互作，但是这种鉴定方式非常耗时耗力，而且还不能鉴定出所有的药物间的互作。对于计算机预测识别的方式，近些年由于得益于大数据挖掘以及机器学习算法的提升，其在药物特征提取及副作用预测方面得到了很好地应用。此外，对于大数据的处理，采用机器学习中深度学习的方式，相比于其它机器学习方法(如逻辑回归，随机森林等),深度学习更能高效并且自动提取药物的特征(如代谢，结构，基因等)。

深度学习在不同领域也得到了很好的应用，针对不同的领域，有其对应的先进的算法，如卷积神经网络应用于图像处理领域，长短期记忆网络应用于自然语言处理领域。对于图像处理领域，卷积神经网络算法也在不断的进行优化，特别是在处理不规则的图结构(如分子结构，社交网络等)时,也提出了针对不规则图的卷积算法以实现更好的预测性能。

由于药物或化学物质的结构可以被理解成图的结构，因此研究化学结构和其性质的关系特别适合用图神经网络进行处理，可以提升其预测性能。此外在目前预测药物互作的模型，大多都结合了药物的各种性质(如代谢数据，表型数据，副作用数据等)，但这些数据在大多数情况下时不可准确获得的。但是对于药物或者化学物质的化学结构，其有很好的易得性。因此本发明正是利用图卷积神经网络以及药物化学结构来实现对药物互作规则的识别的目的。

发明内容

本发明的目的在于提供一种基于深度学习的药物互作规则预测方法，结合孪生神经网络，图卷积神经网络，注意力机制，提高了模型的预测性能以及模型的鲁棒性，并且模型具有可解释性。

为实现上述目的，本发明的技术方案是：一种基于深度学习的药物互作规则预测方法，该方法基于大数据的智能学习方法，通过学习药物结构的特征来捕获其与相互作用间的关系，包括如下步骤：

步骤S1、获取到已知的药物-药物相互作用对及其相互作用规则的自然语言描述，建立药物互作与互作规则间的药物互作-互作规则类别标签的数据集；

步骤S2、预处理输入药物对的分子结构SMILES，并分别将分子结构处理成矩阵作为共享网络的输入；

步骤S3、利用图卷积层，注意力池化，全连接层，批归一化，激活函数为ReLu函数，决策函数SoftMax和孪生网络结构构建权重共享的图卷积神经深度网络GCNN；

步骤S4、将步骤S2中处理好的药物对分子分别输入到权重共享的GCNN中，通过若干轮的迭代训练，获得网络模型的权重参数；

步骤S5、使用步骤S4中训练好的GCNN模型，输入需要预测的药物对，待模型提取到药物对的结构特征后，通过决策函数输出药物对所对应的相互作用规则类别。

在本发明一实施例中，所述步骤S1具体实现过程为：从现有的知识数据中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则，将提取到的药物互作规则分为115类作为药物相互作用的训练及预测标签；同时建立药物对-规则标签的对应关系并构建数据集；数据集分为训练样本和测试样本两类。

在本发明一实施例中，所述步骤S2具体实现过程为：共享网络模型有两个输入，即药物对，其中两个输入的形式是两种药物分子的分子线性输入规范，即分子结构SMILES，共享网络模型会自动对输入的分子结构SMILES进行拓扑结构的提取，将其转换成一个65×62的矩阵。

在本发明一实施例中，所述步骤S3的GCNN的建立中，池化方式采用注意力池化的方法，包括三层图卷积层以及三层全连接层，注意力池化定义为：

P＝tan h(A^TWB)

[a_A]_i＝max_1≤j≤LbP_i,j及[a_B]_i＝max_1≤j≤LaP_i,j

rA＝P×soft max(a_A)及rB=P×soft max(a_B)

其中，A和B分别是药物对中两个药物通过权重共享的GCNN所提取的特征矩阵，P是A，B矩阵间的作用的注意力对齐矩阵，a_A和a_B分别对P做行和列的最大池化，最后通过SoftMax函数得到药物对间的注意力权重rA，rB。

在本发明一实施例中，所述步骤S4中GCNN训练过程中，使用预处理好的训练样本作为输入进行有监督的模型训练，通过反向传播更新权重，通过图形处理器GPU进行模型推理，在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性；预处理好的测试样本输入网络对网络性能进行测试；模型优化的目标函数为多分类交叉熵，其定义为：

L_i=-∑_it_i,jlog(p_i,j)

其中，p为预测值，t为真实值，i为数据点，j为数据所属的类别，L为损失值。

相较于现有技术，本发明具有以下有益效果：本发明只需要通过药物的化学结构，不需要其它的药物信息就可以推理出药物间是否具有相互作用以及其互作规则。结合孪生神经网络，图卷积神经网络，注意力机制，提高了模型的预测性能以及模型的鲁棒性，并且模型具有可解释性。

附图说明

图1为本发明的整体学习及预测示意图。

图2为本发明的深度神经网络结构示意图。

图3为本发明所能预测的药物互作规则。

具体实施方式

下面结合附图1-3，对本发明的技术方案进行具体说明。

如图1所示，本发明提供了一种基于深度学习的药物互作规则预测方法，该方法基于大数据的智能学习方法，通过学习药物结构的特征来捕获其与相互作用间的关系，包括如下步骤：

步骤S3、利用图卷积层，注意力池化，全连接层，批归一化，激活函数为ReLu，决策函数SoftMax和孪生网络结构构建权重共享的图卷积神经深度网络GCNN；

以下为本发明一具体实例。

实施例1

如图1所示，本发明一种基于深度学习的药物互作规则预测方法，包括以下步骤：

(1)从现有的知识数据(数据库，文献)中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则，将提取到的药物互作规则分为141类作为药物相互作用的训练及预测标签。同时建立药物对-规则标签的对应关系并构建数据集。并将数据集随机分为训练样本(90％)和测试样本(10％)两类。

(2)药物分子结构预处理：模型有两个输入(药物对)，其中两个输入的形式是两种药物分子的分子线性输入规范(SMILES)(一种计算机可解码的分子结构形式)，模型会自动对输入的分子结构经行拓扑结构的提取，将其转换成一个65×68的矩阵。对于每一个分子结构的输入，利用Python中的分子处理库RdKit进行化学结构的解码，在解码之前，先对分子中每个原子以及键进行one-hot化，每个原子及键分别对应62维和6维的特征。由于每个分子中原子个数不一致，因此将所有分子的原子个数通过零填充的方式填充到65。

(3)模型结构搭建：模型在搭建过程中使用了孪生神经网络来实现图卷积神经网络的权重共享。池化层采用了注意力池化的方法。其中包含三层图卷积层以及三层全连接层。如图2所示。

图卷积：每一个分子被认为是一张图的结构，网络正向传播过程中，图神经网络会随机选择一个原子作为中心，并将其输入的初始化特征作为第零层，第一层这是将离中心原子的最近的邻居原子的特征加和到中心原子身上，依次这样迭代，中心原子就获得了临近所有原子的所有特征并将其作为最终中心原子的特征。对于分子中的每一个原子，在获得其临近原子的所有特征后，再经过池化及以原子加和即可获得分子的特征。其过程可定义为：

其中L代表图卷积的层数，

代表每个原子在不同层下的特征，

代表权重矩阵，N代表原子邻居的个数。

注意力池化为：

P=tan h(A^TWB)

[a_A]_i=max_1≤j≤LbP_i,j及[a_B]_i＝max_1≤j≤LaP_i,j

rA＝P×soft max(a_A)及rB=P×soft max(a_B)

激活函数σ：

采用ReLu,其定义为f(x)＝max(0,x)

(4)模型训练：训练使用预处理好的训练样本作为输入进行有监督的模型训练，通过反向传播更新权重，通过图形处理器(GPU)进行模型推理，在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性。预处理好的测试样本输入网络对网络性能进行测试。模型优化的目标函数为多分类交叉熵，其定义为：L_i＝-∑_it_i,jlog(p_i,j)，其中，p为预测值，t为真实值，i为数据点，j为数据所属的类别，L为损失值。

模型权重更新，采用梯度下降：

其中η是学习率

(5)未知药物对互作规则预测：模型训练完成后对测试集(约50000个药物对)进行预测，并将其归类到对应的类别。以预测准确度以及受试者工作特-曲线下面积(ROC-AUC)来衡量模型的性能。测试样本准确率达0.95，模型ROC-AUC达0.989。

如图3所示，从结果看，本发明构建的模型具有较好的预测效果以良好的性能。其证明此发明的可靠性。从输入为药物分子结构，通过图卷积神经网络及孪生神经网络来提取药物特征来预测药物间的互作规则(包括是否有药物间互作)，最终得到预测结果。目前神经网络可预测115种药物间的相互作用规则类型。越来越多的相互作用规则类型将会纳入到本发明中。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于深度学习的药物互作规则预测方法，该方法基于大数据的智能学习方法，通过学习药物结构的特征来捕获其与相互作用间的关系，其特征在于，包括如下步骤：

步骤S5、使用步骤S4中训练好的GCNN模型，输入需要预测的药物对，待模型提取到药物对的结构特征后，通过决策函数输出药物对所对应的相互作用规则类别；

所述步骤S3的GCNN的建立中，池化方式采用注意力池化的方法，包括三层图卷积层以及三层全连接层，注意力池化定义为：

P＝tanh(A^TWB)

[a_A]_i＝max_1≤j≤LbP_i,j及[a_B]_i＝max_1≤j≤LaP_i,j

rA＝P×softmax(a_A)及rB＝P×softmax(a_B)

其中，A和B分别是药物对中两个药物通过权重共享的GCNN所提取的特征矩阵，P是A，B矩阵间的作用的注意力对齐矩阵，a_A和a_B分别对P做行和列的最大池化，最后通过SoftMax函数得到药物对间的注意力权重rA，rB；

所述步骤S4中GCNN训练过程中，使用预处理好的训练样本作为输入进行有监督的模型训练，通过反向传播更新权重，通过图形处理器GPU进行模型推理，在模型过程中采用五倍交叉验证帮助调整超参数及验证模型稳定性；预处理好的测试样本输入网络对网络性能进行测试；模型优化的目标函数为多分类交叉熵，其定义为：

L_i＝-∑_it_i,jlog(p_i,j)

2.根据权利要求1所述的一种基于深度学习的药物互作规则预测方法，其特征在于，所述步骤S1具体实现过程为：从现有的知识数据中提取药物-药物互作的对应的药物分子名称和结构以及其互作规则，将提取到的药物互作规则分为141类作为药物相互作用的训练及预测标签；同时建立药物对-规则标签的对应关系并构建数据集；数据集分为训练集和测试集两类。

3.根据权利要求1所述的一种基于深度学习的药物互作规则预测方法，其特征在于，所述步骤S2具体实现过程为：共享网络模型有两个输入，即药物对，其中两个输入的形式是两种药物分子的分子线性输入规范，即分子结构SMILES，共享网络模型会自动对输入的分子结构SMILES进行拓扑结构的提取，将其转换成一个65×62的矩阵。