CN113488112A

CN113488112A - 一种共价结合预测方法及装置

Info

Publication number: CN113488112A
Application number: CN202110650884.5A
Authority: CN
Inventors: 胡立钊; 严鑫; 徐峻
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-08

Abstract

本发明公开了一种共价结合预测方法及装置，所述方法包括：先将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵；再将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。采用本发明实施例提高了共价结合预测的准确率，能够通过自注意机制权重来解释模型。

Description

一种共价结合预测方法及装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种共价结合预测方法及装置。

背景技术

共价结合预测模型可以应用在开发和筛选共价结合药物上，通过筛选数据库中小分子能否与目标蛋白发生共价结合，来减少需要做实验的成本。

现有技术中SVM共价结合预测模型的使用需要提供化学描述符，而化学描述符是通过人工挑选后输入模型的，所以人为干扰因素大，共价结合预测的准确率不高，而且无法从共价原理上解释模型。

发明内容

本发明实施例提供一种共价结合预测方法及装置，提高了共价结合预测的准确率，能够通过自注意机制权重来解释模型。

本申请实施例的第一方面提供了一种共价结合预测方法，包括：

获取分子编码序列；其中，分子编码序列包括：小分子SMILES编码序列和蛋白质编码序列；

将分子编码序列输入共价结合预测模型中，以使共价结合预测模型进行共价结合预测，得到预测结果；其中，共价预测模型用于根据分子编码序列生成隐藏层矩阵，继而根据隐藏层矩阵得到自注意分子嵌入矩阵，并将自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。

在第一方面的一种可能的实现方式中，根据分子编码序列生成隐藏层矩阵，具体为：

使用BiLSTM对分子编码序列进行处理，得到多个隐藏层向量；

建立多个隐藏层向量中的依赖关系后按照时间顺序排列多个隐藏层向量，得到隐藏层矩阵。

在第一方面的一种可能的实现方式中，根据隐藏层矩阵得到自注意分子嵌入矩阵，具体为：

将隐藏层矩阵输入自注意机制中，得到权重向量；

将权重向量输入多头自注意机制中，得到权重矩阵；

权重矩阵与隐藏层矩阵相乘后得到自注意分子嵌入矩阵。

本申请实施例的第二方面提供了一种共价结合预测装置，包括：获取模块和预测模块；

其中，获取模块用于将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据隐藏层矩阵得到自注意分子嵌入矩阵；

预测模块用于将自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。

在第二方面的一种可能的实现方式中，根据分子编码序列生成隐藏层矩阵，具体为：

使用BiLSTM对分子编码序列进行处理，得到多个隐藏层向量；

在第二方面的一种可能的实现方式中，根据隐藏层矩阵得到自注意分子嵌入矩阵，具体为：

将隐藏层矩阵输入自注意机制中，得到权重向量；

将权重向量输入多头自注意机制中，得到权重矩阵；

权重矩阵与隐藏层矩阵相乘后得到自注意分子嵌入矩阵。

相比于现有技术，本发明实施例提供的一种共价结合预测方法及装置，其有益效果在于：本发明实施例的预测方法，先将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵；再将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。上述方法提高了共价结合预测的准确率，能够通过自注意机制权重来解释模型。

附图说明

图1是本发明一实施例提供的一种共价结合预测方法的流程示意图；

图2是本发明一实施例提供的一种共价结合预测方法的具体流程示意图；

图3是本发明一实施例提供的一种共价结合预测模型使用效果示意图；

图4是本发明一实施例提供的一种共价结合预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，是本发明一实施例提供的一种共价结合预测方法的流程示意图，包括：

S101：获取分子编码序列。

在本实施例中，所述分子编码序列包括：小分子SMILES编码序列和蛋白质编码序列。

S102：将分子编码序列输入共价结合预测模型中，以使共价结合预测模型进行共价结合预测，得到预测结果。

在本实施例中，所述共价预测模型用于根据所述分子编码序列生成隐藏层矩阵，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵，并将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。

在一具体实施例中，所述根据所述分子编码序列生成隐藏层矩阵，具体为：

使用BiLSTM对所述分子编码序列进行处理，得到多个隐藏层向量；

建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量，得到隐藏层矩阵。

在一具体实施例中，所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵，具体为：

将所述隐藏层矩阵输入自注意机制中，得到权重向量；

将所述权重向量输入多头自注意机制中，得到权重矩阵；

所述权重矩阵与所述隐藏层矩阵相乘后得到自注意分子嵌入矩阵。

在一优选的实施例中，所述共价结合预测模型进行共价结合预测，得到预测结果，具体为：

所述共价结合预测模型包括三个部分：1、双向长短期记忆模式(BiLSTM)；2、自注意(self-attention,SA)机制；3、属性预测的全连接层。

其中，双向长短期记忆模式(BiLSTM)用于将分子编码序列转换为计算机可识别的隐藏层矩阵，具体为：

使用BiLSTM对所述分子编码序列进行处理，得到多个隐藏层向量，由以下公式可得：

其中，

为正向第i个分子编码层、

为反向第i个分子编码层、

为正向第i-1个分子编码层、

为反向第i+1个分子编码层、t_i为d维度表示的分子的第i个标签的向量。

将

连接后得到隐藏层向量h_i，可由以下公式表示：

建立多个所述隐藏层向量中的依赖关系后按照时间顺序排列多个所述隐藏层向量，得到隐藏层矩阵H，可由以下公式表示：

H＝(h₀，h₁...h_n)

其中，如果每个LSTM的单元长度为u，那么H的大小为n×2u。

在本实施例中，将分子编码序列直接转化为计算机语言后输入模型进行预测，便能够不需要像现有技术一样：需要通过人工选取化学描述符后输入模型才能进行共价结合预测。本发明仅需分子编码序列便能进行共价结合预测，避免了人为因素的干扰，提高了共价结合预测的准确率。

自注意(self-attention,SA)机制的构建过程如下：将LSTM的隐藏层矩阵H作为自注意机制的输入，输出为权重向量a，可由以下公式表示：

a＝softmax(w₂tanh(W₁H^T))

其中，W1是大小为da×2u的权重矩阵，w2是大小为da的超参数向量。a是大小为n的权重向量。Softmax函数确保所有计算的权重归一化。

采用多自注意机制，将超参数向量w2扩展为尺寸为r×da的超参数矩阵W2，从而将权重向量a则变为权重矩阵A。其中，r为多自注意机制的数量。可由以下公式表示：

A＝softmax(W₂tanh(W₁H^T))

将权重矩阵A和LSTM的隐藏层矩阵H相乘来计算r的加权和，得到自注意分子嵌入矩阵Ma，可由以下公式表示：

M_a＝AH

其中，自注意分子嵌入矩阵Ma是一个自注意机制的分子嵌入，包含标签和目标特性之间的潜在关系，尺寸是r×2u。

最后，自注意分子嵌入矩阵Ma与属性预测的全连接层组合以进行共价结合预测。

在本实施例中，由于自注意机制会给分子编码序列一个权重值，通过比较权重值，可以得知小分子中和蛋白质中对模型影响最大的局部片段位置，能够找到小分子和蛋白质在共价结合中的弹头和结合位点，便能从共价原理上解释模型。

为了进一步说明共价结合预测方法的具体流程，请参照图2，图2是本发明一实施例提供的一种共价结合预测方法的具体流程示意图。

由图2可得，将小分子SMILES编码序列和蛋白质编码序列输入至BiLSTM中进行一系列处理后，得到隐藏层矩阵。先将隐藏层矩阵输入到自注意机制中得到权重矩阵后，再将权重矩阵与隐藏层矩阵MatMul(相乘)，得到自注意分子嵌入矩阵。自注意分子嵌入矩阵与全连接层组合后，便可以进行共价结合预测，生成预测结果。

为了具体地说明共价结合预测模型使用的效果，请参照图3，图3是本发明一实施例提供的一种共价结合预测模型使用效果示意图。

图3中，model为模型名字，LR为逻辑回归模型、RF为随机森林模型、SVM为支持向量机模型、SA-BiLSTM为本发明实施例提出的共价结合预测模型。

AUC表示真阳性率与假阳性率曲线的面积，AUC值1.0表示完全分离，值0.5表示随机分离。Accuracy表示分类器中预测正确的样本的占总样本的比例，取值范围为[0,1]，取值越大，模型预测能力越好。Recall是分类器所预测正确的正样本占所有正样本的比例，取值范围为[0,1]，取值越大，模型预测能力越好。Precision是分类器预测的正样本中预测正确的比例，取值范围为[0,1]，取值越大，模型预测能力越好。MCC是应用在机器学习中，用以测量二分类的分类性能的指标。该指标考虑了真阳性、真阴性和假阳性和假阴性，通常认为该指标是一个比较均衡的指标，即使是在两类别的样本含量差别很大时，也可以应用它。MCC本质上是一个描述实际分类与预测分类之间的相关系数，它的取值范围为[-1,1]，取值为1时表示对受试对象的完美预测，取值为0时表示预测的结果近似于随机预测的结果，-1是指预测分类和实际分类完全不一致。

则由图3的数据可得，在所有模型中，SA-BiLSTM共价结合预测模型的AUC值最高、最接近1，即最接近完全分离；SA-BiLSTM共价结合预测模型的Accuracy值最高、最接近1，模型预测能力在所有模型中是最好；SA-BiLSTM共价结合预测模型的Recall值最高、最接近1，模型预测能力在所有模型中是最好；SA-BiLSTM共价结合预测模型的Precision值最高、最接近1，模型预测能力在所有模型中是最好；SA-BiLSTM共价结合预测模型的MCC值最高、最接近1，模型预测结果的完美程度在所有模型中最高。

所以通过图3的数据，可以清楚得到，本发明实施例提出的SA-BiLSTM共价结合预测模型能够有效提高共价结合预测的准确率，而且预测能力领先于LR为逻辑回归模型、RF为随机森林模型、SVM为支持向量机模型等模型。

为了进一步说明共价结合预测装置，请参照图4，图4是本发明一实施例提供的一种共价结合预测装置的结构示意图，包括：获取模块201和预测模块202；

其中，所述获取模块201用于将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵。

所述预测模块202用于将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。

将所述隐藏层矩阵输入自注意机制中，得到权重向量；

将所述权重向量输入多头自注意机制中，得到权重矩阵；

本发明实施例先通过获取模块201将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵；再通过预测模块202将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。本发明实施例仅根据分子编码序列便能进行共价结合预测，便能够不需要像现有技术一样：需要通过人工选取化学描述符后输入模型才能进行共价结合预测。从而避免了人为因素的干扰，提高了共价结合预测的准确率。此外，由于自注意机制会给分子编码序列一个权重值，通过比较权重值，可以得知小分子中和蛋白质中对模型影响最大的局部片段位置，能够找到小分子和蛋白质在共价结合中的弹头和结合位点，便能从共价原理上解释模型。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种共价结合预测方法，其特征在于，包括：

获取分子编码序列；其中，所述分子编码序列包括：小分子SMILES编码序列和蛋白质编码序列；

将所述分子编码序列输入共价结合预测模型中，以使所述共价结合预测模型进行共价结合预测，得到预测结果；其中，所述共价预测模型用于根据所述分子编码序列生成隐藏层矩阵，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵，并将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测。

2.根据权利要求1所述的一种共价结合预测方法，其特征在于，所述根据所述分子编码序列生成隐藏层矩阵，具体为：

3.根据权利要求2所述的一种共价结合预测方法，其特征在于，所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵，具体为：

将所述隐藏层矩阵输入自注意机制中，得到权重向量；

将所述权重向量输入多头自注意机制中，得到权重矩阵；

4.一种共价结合预测装置，其特征在于，包括：获取模块和预测模块；

其中，所述获取模块用于将输入模型的分子编码序列转换为隐藏层矩阵后，继而根据所述隐藏层矩阵得到自注意分子嵌入矩阵；

所述预测模块用于将所述自注意分子嵌入矩阵与全连接层组合后进行共价结合预测，得到预测结果。

5.根据权利要求4所述的一种共价结合预测装置，其特征在于，所述根据所述分子编码序列生成隐藏层矩阵，具体为：

6.根据权利要求5所述的一种共价结合预测装置，其特征在于，所述根据所述隐藏层矩阵得到自注意分子嵌入矩阵，具体为：

将所述隐藏层矩阵输入自注意机制中，得到权重向量；

将所述权重向量输入多头自注意机制中，得到权重矩阵；