CN113936735A

CN113936735A - 一种药物分子与靶标蛋白的结合亲和力预测方法

Info

Publication number: CN113936735A
Application number: CN202111291440.3A
Authority: CN
Inventors: 靳远; 杨旸
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-01-14

Abstract

本发明涉及一种药物分子与靶标蛋白的结合亲和力预测方法，包括：获取药物分子的SMILES序列和靶标蛋白的氨基酸序列；对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图；分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示；获取氨基酸序列的特征嵌入表示；将药物分子和氨基酸的特征嵌入表示拼接，得到拼接嵌入特征表示；基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力预测值。上述方案，能够自适应的学习药物分子和靶标蛋白的序列和结构信息，优化药物分子与靶标蛋白的结合亲和力预测结果。

Description

一种药物分子与靶标蛋白的结合亲和力预测方法

技术领域

本发明涉及生物和药物信息学以及人工智能领域，尤其涉及一种基于多层次图划分和神经网络的药物分子与靶标蛋白的结合亲和力预测方法。

背景技术

药物发现是识别具有潜在治疗作用的新候选药物化合物的过程，在此过程中，预测药物分子-靶标蛋白的相互作用(DTI)研究是一个必不可少的步骤。蛋白质是重要的药物靶标，药物通过与各种靶标相互作用在人体中发挥重要作用，可以增强或抑制其功能，发挥调控作用以达到治疗某一种疾病目的。因此，识别DTIs可以帮助理解药物的作用机制，对新靶点的发现、药物的重定位等有着至关重要的作用。在过去的几十年里，高通量筛选(HTS)实验大大加速了药物分子-靶标蛋白相互作用的识别。然而，HTS实验成本高且费力，无法满足数百万个现有药物化合物和数千个靶标蛋白的相互作用揭示的需要。因此，非常需要开发高效的计算方法，以充分利用已知药物分子-靶标蛋白相互作用的异质生物学数据来厘清药物在人体中的作用机理。

公共数据库中DTI数据的快速增加，如ChEMBL、DrugBank和SuperTarget，已经实现了对药物分子-靶标蛋白相互作用的大规模识别。计算药物分子和靶标蛋白结合亲和力的方法主要分为三类，即基于对接、基于相似性搜索和基于特征的方法。

对于基于对接的方法，通过考虑靶标蛋白配体的各种转变和旋转以获得不同的结合构象，使用靶标蛋白的三维结构来模拟药物分子和靶标蛋白的结合位置和方向。这些方法通过设计评分函数来预测有效的化合物-配体结合，从而最大限度地减少结合自由能。对接方法的功效取决于蛋白质3D结构信息，而许多靶标蛋白的3D结构仍然未知，例如GPCR。此外，对接过程的模拟比较耗时，只能在预测规模较小的情况下使用。

基于相似性搜索的方法假设具有相似结构或理化性质的小分子化合物可以作用于具有相同或相似性质的靶标蛋白。由于公共数据库中药物化合物信息和靶标蛋白注释信息的迅速增加，基于相似性搜索的方法近年来得到了广泛应用。然而，它们仅适用于预测与已知靶标蛋白相似的蛋白质的结合，而无法识别新靶标的结合亲和力。

与基于对接和基于相似性搜索的方法不同，基于特征的方法利用从药物化合物和靶标蛋白中提取的各种类型的特征，主要采用机器学习模型来预测药物分子和靶标蛋白的结合亲和力。基于特征的方法大致可以分为两类。第一类采用协同矩阵分解技术。这种方法将已知的药物分子-靶标蛋白关系矩阵分解为分别代表药物分子和靶标蛋白的两个低维特征矩阵。基于药物分子和靶标蛋白特征矩阵，可以通过取特征向量的内积来估计药物分子和靶标蛋白的相似度矩阵。给定药物分子-靶标蛋白关系矩阵以及药物分子和靶标蛋白的相似度矩阵，可以推断出潜在的药物分子-靶标蛋白的相互作用。

第二种基于特征的方法分别提取的药物化合物和靶标蛋白的特征描述符，并将药物分子与靶标蛋白相互作用预测建模为二元分类(是否存在相互作用)或回归问题(输出为结合亲和力的预测值)。分子指纹通常用作药物子结构的描述符，而组成、转变和分布(CTD)通常用作蛋白质描述符。

近年来，基于特征的方法得到了更广泛的应用，因为它们对输入信息源几乎没有限制。然而，它们的性能在很大程度上依赖于药物分子和靶标蛋白的初始特征表示。在现有的药物分子和靶标蛋白的初始特征描述符中，分子结构信息往往缺失，从而导致预测结果不理想。

由于深度神经网络(DNN)在图像识别和自然语言处理的序列数据的自动特征学习方面取得了巨大成功，一些深度学习模型也被提出来预测药物分子和靶标蛋白之间的结合亲和力。通过输入原始药物分子和靶标蛋白序列数据，DNN可以提取有用的信息进行预测。尽管深度学习的方法近几年取得了进展，但仍有很大空间可以改进药物分子与靶标蛋白的特征嵌入表示以增强药物分子与靶标蛋白的结合亲和力预测。

发明内容

本发明的目的在于提供一种药物分子与靶标蛋白的结合亲和力预测方法。

本发明提供的药物分子与靶标蛋白的结合亲和力预测方法，帮助药物领域的研究专家研究药物分子与靶标蛋白的相互作用以及结合亲和力强弱，为下游的新药设计、老药新用提供了理论和实践依据。例如普萘洛尔本是治疗冠心病和高血压的经典药物，最近被发现可用于骨质疏松症和黑色素瘤的治疗；西咪替丁本是治疗消化性胃溃疡的革命性药物，最近被用于治疗慢性阻塞性肺疾病、HIV病毒感染等。由于深度神经网络(DNN)在图像识别和自然语言处理的序列数据的自动特征学习方面取得了巨大成功，利用注意力机制和多层图卷积神经网络可以很好的提取药物分子的特征嵌入表示；利用自然语言处理中的语言模型和一维卷积神经网络可以提取靶标蛋白的氨基酸序列的特征嵌入表示。学习的药物分子特征嵌入表示融合了药物领域知识以及化合物结构特性，靶标蛋白的氨基酸序列特征嵌入表示融合了氨基酸领域知识和蛋白质结构信息，可以对药物分子和靶标蛋白的结合亲和力有更准确的预测。

为达到上述目的，本发明提供如下技术方案，包括以下步骤：

(1)获取药物分子的SMILES序列和靶标蛋白的氨基酸序列；

(2)对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图；

(3)分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示；

(4)对于氨基酸序列，利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练，再对其进行特征提取，从而获得氨基酸序列的特征嵌入表示；

(5)对药物分子和氨基酸的特征嵌入表示进行拼接，得到拼接嵌入表示；

(6)基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力预测值。

步骤(1)中，所述的获取药物分子的SMILES序列和靶标蛋白的氨基酸序列包括：获取药物分子的SMILES简化分子线性输入规范序列；获取靶标蛋白的氨基酸序列。

步骤(2)中，所述的对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图包括：基于药物分子SMILES序列，构建基于原子的药物原子结构图；基于药物分子SMILES序列，划分药物子结构，构建基于子结构的药物子结构结构图。

其中，基于药物分子SMILES序列，划分药物子结构，构建基于子结构的药物子结构结构图包括：得到药物分子的药物原子结构图；为药物原子结构图中的原子节点编号；初始化药物子结构集合C为空集；构建集合V₁为所有化学键的集合；构建集合V₂为所有简单环的集合；如果V₁中的化学键不属于任何一个简单环，将其加入药物子结构集合C中；循环遍历V₂中的所有环，将V₂中大于等于3个公共原子的环合并为新的环，直到V₂中所有的环都不存在三个或者三个以上的公共原子为止；将V₂中所有环添加到药物子结构集合C中；形成最终的药物子结构集合C；基于药物分子的子结构集合，构建基于子结构的药物子结构结构图。

步骤(3)中，分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示包括：利用深度学习神经网络和注意力机制提取药物原子结构图的每个原子节点的特征嵌入表示；对药物原子结构图中的每个原子节点的特征嵌入表示进行最大池化操作，得到药物原子结构图的特征嵌入表示；利用深度学习神经网络和注意力机制提取药物子结构结构图的每个子结构节点的特征嵌入表示；对药物子结构结构图中的每个子结构节点的特征嵌入表示进行最大池化操作，得到药物子结构结构图的特征嵌入表示。

其中，利用深度学习神经网络和注意力机制提取药物原子结构图的每个原子节点的特征嵌入表示包括：利用注意力机制提取每个原子节点在所述药物原子结构图中的相对重要性权重；利用深度学习神经网络的图卷积神经网络提取药物原子结构图的相邻原子节点间的邻接关系表示和原子节点的初始特征表示；对邻接关系表示和初始特征表示进行训练，将训练后的嵌入表示作为原子节点的特征嵌入表示。

对邻接关系表示和初始特征表示进行训练，将训练后的嵌入表示作为原子节点的特征嵌入表示包括：将训练后的嵌入表示作为原子节点的初始特征表示，不断循环执行利用图卷积神经网络训练提取药物原子结构图的原子节点的特征嵌入表示；当循环提取原子节点的特征嵌入表示达到指定次数之后，将最好的一次训练结果作为药物原子结构图的原子节点的特征嵌入表示。

其中，利用深度学习神经网络和注意力机制提取药物子结构结构图的每个子结构节点的特征嵌入表示包括：利用注意力机制提取每个子结构节点在所述药物子结构结构图中的相对重要性权重；利用深度学习神经网络的图卷积神经网络提取药物子结构结构图的相邻子结构节点间的邻接关系表示和子结构节点的初始特征表示；将邻接关系表示和初始特征表示进行训练，将训练后的嵌入表示作为子结构节点的特征嵌入表示。

将邻接关系表示和初始特征表示进行训练，将训练后的嵌入表示作为子结构节点的特征嵌入表示包括：将训练后的嵌入表示作为子结构节点的初始特征表示，不断循环执行利用图卷积神经网络训练提取药物子结构图的子结构节点的特征嵌入表示；当循环提取子结构节点的特征嵌入表示达到指定次数之后，将最好的一次训练结果作为所述药物子结构结构图的子结构节点的特征嵌入表示。

步骤(4)中，对于氨基酸序列，利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练，再对其进行特征提取，从而获得氨基酸序列的特征嵌入表示包括：利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练，得到每一个氨基酸的初始特征表示；利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示；将多个氨基酸的特征嵌入表示进行最大池化操作，得到靶标蛋白的氨基酸序列的特征嵌入表示。

其中，利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练，得到每一个氨基酸的初始特征表示包括：将靶标蛋白序列中的每一个氨基酸看作为自然语言处理文本序列中的一个单词，进行氨基酸单词划分；构建氨基酸单词的共现矩阵；基于最小二乘原理的回归方法训练得到每一个氨基酸的初始特征嵌入表示。

其中，利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示包括：将每一个氨基酸的初始特征嵌入表示输入一维卷积网络中循环训练，得到多个氨基酸的特征嵌入表示；当循环提取多个氨基酸的特征嵌入表示达到指定次数之后，将最后一次的训练结果作为最终多个氨基酸的特征嵌入表示。

步骤(5)中，基于药物分子和氨基酸序列的特征嵌入表示进行拼接，得到拼接嵌入表示包括：将所述的药物原子结构图的特征嵌入表示、药物子结构结构图的特征嵌入表示以及氨基酸序列的特征嵌入表示进行收尾拼接，得到拼接嵌入表示。

步骤(6)中，基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力值包括：将拼接嵌入表示输入多层的全连接神经网络，得到药物分子与靶标蛋白的结合亲和力的预测值。

上述技术方案，实现了对药物分子和靶标蛋白结合亲和力的预测，具有较高的预测准确度；同时整个技术方案能够自适应的实现分别对药物分子SMILES序列和靶标蛋白序列的表示学习，能够自动学习它们的隐式特征表示而不需要依赖大量的药物和生物领域专家经验。本发明将药物分子SMILES序列重构为药物原子结构图和药物子结构结构图，利用图卷积神经网络提取药物分子结构图的节点特征嵌入表示，从而将二维数据转化成一维数据。为了利用来自药物分子的丰富结构信息，本发明将每个药物分子建模为药物原子结构图和药物子结构结构图。同时本发明提出了用于分割子结构并提取其特征的算法。实验结果表明，两个不同维度的药物分子结构图表示有助于显着提高药物分子与靶标蛋白结合亲和力的预测能力。为了充分利用靶标蛋白序列信息，我们使用自然语言处理中语言模型的词嵌入方法通过大型语料库预训练氨基酸的初始特征嵌入表示，可以学习氨基酸之间的潜在语义相关性。此外，本申请进一步采用一维卷积神经网络来学习蛋白质的高级抽象特征嵌入表示。同时，本发明针对药物分子在图卷积神经网络之前添加了一种注意力机制，用于识别药物原子结构图和药物子结构结构图中重要的节点以及它们在结构图中的相互作用，这为药物发现提供了有用的提示。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本发明。

附图说明

图1是本发明药物分子与靶标蛋白的结合亲和力预测方法的流程图；

图2表示药物分子中不同化学键在药物原子结构图中的不同意义；

图3是药物分子子结构的划分示例图；

图4是药物分子子结构切割算法流程图；

图5是药物原子/子结构结构图的注意力传播示意图；

图6是药物原子/子结构结构图的GCN训练流程图；

图7是本发明EmbedDTI的模型结构图；

图8是在Davis数据集的测试集上，真实结合亲和力和EmbedDTI预测的结合亲和力的分布图；

图9是在KIBA数据集的测试集上，真实结合亲和力和EmbedDTI预测的结合亲和力的分布图。

具体实施方式

为使本发明的目的、技术方案和优点更加的清楚，下面结合说明书附图，对本发明的技术方案进行更清楚、完整地表述。

如图1所示，图1是本发明基于多层次图划分和神经网络的药物分子与靶标蛋白的结合亲和力预测方法的流程图。具体而言，包括如下步骤：

步骤S11:获取药物分子的SMILES序列和靶标蛋白的氨基酸序列。

开发一种新药大约需要花费26亿美元，FDA批准可能需要长达17年的时间。为已获批准的药物寻找新用途可以避免昂贵且漫长的药物开发过程。为了有效地重新利用药物，了解哪些蛋白质被哪些药物靶向是有用的。高通量筛选实验通常用于检查药物对其靶标蛋白的结合亲和力；然而，这些实验既昂贵又费时，而且详尽的搜索是不可行的，因为有数百万种类似药物的化合物和数百个潜在的靶标蛋白。因此，本发明有强烈的动机可以根据先前的药物分子-靶标蛋白实验建立计算模型估计新药物分子-靶标蛋白对的相互作用强度。

SMILES(Simplified molecular input line entry specification)，即简化分子线性输入规范，是一种用ASCII字符串明确描述分子结构的规范。SMILES序列是药物分子的线形表示符号，用于用单行文本表达化合物的结构，可以表示药物分子的原子类型以及原子之间的连接关系等信息。由于SMILES用一串字符来描述一个三维化学结构，它必然要将化学结构转化成一个生成树，它采用纵向优先遍历树算法。转化时，先去掉氢，再把环打开。表示时，被拆掉的键端的原子用数字标记，支链写在小括号里。通过开源化学信息软件RDKit可以将药物分子SMILES序列转化为药物分子的结构图。

每一条蛋白质序列是由二十余种氨基酸排列组合形成的。所述的氨基酸序列包含了氨基酸的类型以及氨基酸之间位置关系的信息，同时也是蛋白质的一级氨基酸序列表示。

步骤S12:对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图。具体而言，包括如下步骤：

药物分子的原子结构图可以从SMILES字符串转换得到。化合物在计算机中通常表示为图形结构的数据，其中图形的顶点和边分别对应于原子和化学键，这与药物分子的原子结构图相符。通过开源化学信息软件RDKit提供的函数可以将药物分子SMILES序列转化为药物分子的原子结构图，并为图中的每一个原子进行编号。

药物分子的原子结构图可以表示短距离原子之间的结构信息，但忽略了化合物中的子结构，这些子结构在决定化合物的性质和反应中起着重要作用。例如，苯环中的单个原子可以了解其相邻原子的信息，但很难从整体上了解整个苯环的结构以及其在药物分子中发挥的作用。因此，我们定义了子结构，并将原始的基于原子的药物原子结构图转换为更高级别的药物子结构结构图，其中药物子结构结构图中的节点和边分别对应于子结构和子结构之间的连接。

药物分子的原子结构图的一个主要限制是它平等对待所有的边并从单个顶点提取信息，然而原子和它相关边通常成对发挥作用。以图2为例，S22表示的化学键对整个分子很重要，因此，药物分子中独立的化学键对整个分子的结构和化学性质起着关键作用。然而如果从苯环子结构S23中分离出来，S21表示的化学键在结构和化学性质上是没有意义的。

因此，本发明提出了一种分割药物分子的方法，并获得了完整的药物的子结构集合，以确保数据库中的所有化合物都可以由集合中的子结构组成。

如图3所示，我们将整个药物分子切割成子结构。图3中左边的图为基于原子的药物原子结构图，其中药物分子的子结构用虚线椭圆型标记，如S1-S15所示；右边的图为基于子结构的药物子结构结构图，其中每一个子结构由图中的节点所表示；左边的S1-S15与右边的S1-S15一一对应。因此，子结构由一个环状子结构或者由不属于环的化学键连接的一对原子组成。这样，药物分子化合物就可以看成是由子结构连接起来的拓扑图。子结构切割算法在图4中制定，主要包括以下步骤：

步骤S41:得到药物分子的药物原子结构图；

步骤S42:为药物原子结构图中的原子节点编号；

步骤S43:初始化药物子结构集合C为空集；

步骤S44:构建集合V₁为所有化学键的集合；

步骤S45:构建集合V₂为所有简单环的集合；

步骤S46:如果V₁中的化学键不属于任何一个简单环，将其加入药物子结构集合C中；

步骤S47:循环遍历V₂中的所有环，将V₂中大于等于3个公共原子的环合并为新的环，直到V₂中所有的环都不存在三个或者三个以上的公共原子为止；

步骤S48:将V₂中所有环添加到药物子结构集合C中；

步骤S49:形成最终的药物子结构集合C。

其中，药物原子结构图是通过RDKit中的Chem.MolFromSmiles函数获得的。V₁和V₂分别表示独立的化学键构成的集合和简单环构成的集合。独立的化学键是从RDKit的GetBonds函数中提取的，而简单环状结构是从RDKit的Chem.GetSymmSSSR函数中提取的。最后，我们建立了由不属于任何环中的化学键以及与其他环共享的原子少于3个的独立环构成的子结构集合。

步骤S13:分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示。具体而言，学习药物原子结构图的特征表示包括如下步骤：

(1)利用深度学习神经网络和注意力机制提取药物原子结构图的每个原子节点的特征嵌入表示；

卷积神经网络(CNN)不仅在计算机视觉和自然语言处理方面取得了巨大的成功，而且在各种与图相关的学习任务中表现出良好的性能，区别在于图中的节点位于非欧几里得空间，引入图卷积神经网络(GCN)旨在捕获图上节点信号的局部相关性。由于药物分子化合物可以以图的形式表示，因此在本发明中使用GCN来学习药物原子结构图的特征嵌入表示。

对于图G＝(V,E)，其中V是图中所有节点(药物分子中的原子)的集合，E是图中所有边(药物分子中的化学键)的集合。每一个节点i都有其特征x_i，所有的节点特征x_i构成了一个特征矩阵

其中N表示节点数，d表示每一个节点的特征数，即每一个节点特征向量的维数。本发明利用开源化学信息软件RDKit提取每一个原子节点的初始特征。将每个原子节点的初始特征表示为一个one-hot特征向量，包含八种信息(原子符号、原子在药物分子中的度数、原子所连接的显式和隐式氢原子总数、隐式连接的氢原子数，显式和隐式原子的总价数，原子的电荷数，原子是否属于芳香族，以及原子是否在环中)，从而为每个原子节点得到一个101维的one-hot初始特征向量表示。

图中药物原子节点之间的连接关系形成了一个N×N维的邻接矩阵A。原子节点的初始特征矩阵

和邻接矩阵

是GCN的输入。GCN层之间的传播可以用公式

表示，其中

是邻接矩阵A加上自连接边得到的矩阵，

是

的度矩阵，H^(l)表示第l层GCN的原子节点特征嵌入表示矩阵，σ()是一个激活函数(例如ReLU函数)。对于输入层GCN，H⁽⁰⁾等于初始特征矩阵X。

此外，在药物原子结构图的邻接矩阵和初始特征矩阵输入之前,我们添加了一个注意力机制矩阵W来帮助学习每个原子节点在结构图中的相对重要性权重。此时，H⁽⁰⁾等于W×X。图5说明了注意力机制的传播过程。

(2)对所述每个原子节点的特征嵌入表示进行最大池化操作，得到所述药物原子结构图的特征嵌入表示；

GCN模型学习到药物分子的原子节点特征嵌入矩阵表示输出

其中F表示图卷积层过滤器的数量。为了获得药物原子结构图的特征嵌入表示，本发明在GCN层之后添加了一个最大池化层。与传统CNN中的池化操作类似，最大池化是对图的合理缩小。

通过不断循环执行利用图卷积神经网络训练提取药物原子结构图的原子节点的特征嵌入表示，当循环提取原子节点的特征嵌入表示达到指定次数之后，将最好的一次训练结果作为所述药物原子结构图的原子节点的特征嵌入表示。

(3)将所述药物原子结构图的特征嵌入表示转换为128维的药物原子结构图的特征嵌入表示向量。

将所述药物原子结构图的特征嵌入表示输入两个全连接层神经网络进行训练，输出获得128维的药物原子结构图的特征嵌入表示向量。图6显示了药物原子结构图的GCN学习过程。

从药物子结构结构图中学习药物分子的特征表示包括如下步骤：

(1)利用深度学习神经网络和注意力机制提取药物子结构结构图的每个子结构节点的特征嵌入表示；

本发明同样使用GCN来学习药物子结构结构图的特征。和药物原子结构图提取原子节点的初始特征向量表示类似，本发明利用开源化学信息软件RDKit提取每一个子结构节点的特征。每个子结构节点特征表示为一个one-hot特征向量，包含基于图论的五种信息(原子数，和其他子结构连接的边数，显式和隐式的氢原子数，是否含有环，是否含有不属于简单环的化学键)，从而为每个子结构节点得到一个35维的one-hot向量初始特征表示。

训练学习药物子结构结构图的每个子结构节点的特征嵌入表示过程与得到药物原子结构图的每个原子节点的特征嵌入表示一致。

(2)对所述每个子结构节点的特征嵌入表示进行最大池化操作，得到所述药物子结构结构图的特征嵌入表示。

得到药物子结构结构图的特征嵌入表示与得到药物原子结构图的特征嵌入表示一致。

(3)将所述药物子结构结构图的特征嵌入表示转换为128维的药物子结构结构图的特征嵌入表示向量。

将所述药物子结构结构图的特征嵌入表示输入两个全连接层神经网络进行训练，输出获得128维的药物子结构结构图的特征嵌入表示向量。

步骤S14:对于氨基酸序列，利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练，再对其进行特征提取，从而获得氨基酸序列的特征嵌入表示。具体而言，包括如下步骤：

(1)利用所述的自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练，得到每一个氨基酸的初始特征嵌入表示；

在本发明中，蛋白质的输入特征是从氨基酸序列中提取的。为了获得氨基酸序列的良好表示，我们利用自然语言处理中语言模型的词嵌入技术对大型蛋白质数据库UniRef50进行预训练，并获得氨基酸的初始特征嵌入向量。UniProt参考簇UniRef提供来自UniProt知识库(包括同种型)和选定的UniParc记录的序列聚类集，以便在多个分辨率下获得序列空间的完整覆盖，同时隐藏冗余序列(但不是它们的描述信息)。与UniParc不同的是，UniRef中的序列片段是合并的：UniRef100数据库将来自任何生物体的具有11个或更多残基的相同序列和子片段合并到一个UniRef条目中，显示代表性蛋白质的序列、所有合并的登录号条目和链接到相应的UniProtKB和UniParc记录。UniRef90是通过使用MMseqs2算法对具有11个或更多残基的UniRef100序列进行聚类而构建的，这样每个聚类都由具有至少90％的序列同一性和80％与集群的最长序列(又名种子序列)重叠的序列构建的。类似地，UniRef50是通过对UniRef90种子序列进行聚类而构建的，这些种子序列与簇中最长的序列具有至少50％的序列同一性和80％的重叠。UniRef90和UniRef50分别使数据库大小减少了大约58％和79％，从而提供了更快的序列相似性搜索。本发明中使用UniRef50数据库作为预训练的语料库，包括48,524,161条氨基酸序列。

本发明通过GloVe模型用于获得氨基酸的初始特征嵌入表示。GloVe是一种无监督模型，可以从可变长度的文本中学习固定长度的特征向量表示，它基于语料库的全局词-词共现统计。本发明中将每个氨基酸视为一个自然语言处理的语言模型中的一个单词，得到每一个氨基酸的初始特征嵌入表示e_i。

(2)利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示；

所有的氨基酸的初始特征嵌入表示e_i构成了整条氨基酸序列的初始特征嵌入矩阵E。将氨基酸序列的初始特征嵌入矩阵E作为深度卷积神经网络(CNN)的输入用于进一步特征表示学习。本发明采用一维CNN模型(即TextCNN),通过在氨基酸附近操作的卷积核提取局部序列特征，因此训练得到的氨基酸特征嵌入表示可以包含该氨基酸的结构以及化学性质信息。通过多个卷积核的卷积操作，获得了多个氨基酸的特征嵌入表示。

(3)将所述的多个氨基酸的特征嵌入表示进行最大池化操作，得到所述靶标蛋白的氨基酸序列的特征嵌入表示。

不同大小的卷积核的卷积操作，得到的多个氨基酸的特征嵌入表示也不同。将多个氨基酸的特征嵌入表示汇聚之后，对其进行最大池化操作，得到所述靶标蛋白的氨基酸序列的特征嵌入表示。

(4)将所述靶标蛋白的氨基酸序列的特征嵌入表示转换为128维的靶标蛋白特征嵌入表示向量。

将所述靶标蛋白的氨基酸序列的特征嵌入表示输入一个全连接层神经网络进行训练，输出得到一个128维的靶标蛋白特征嵌入表示向量。

步骤S15:基于药物分子和氨基酸序列的特征嵌入表示进行拼接，得到拼接嵌入表示；

将128维的药物原子结构图特征嵌入表示向量、128维的药物子结构结构图特征嵌入表示向量和128维的靶标蛋白特征嵌入表示向量首尾拼接，得到一个384维的拼接嵌入表示向量。

步骤S16:基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力值；

将所述的拼接嵌入表示向量输入三层的全连接层神经网络，得到药物分子与靶标蛋白的结合亲和力值。三层的全连接神经网络分别有1024，512，1个隐藏单元。

本发明提出了EmbedDTI模型，用来预测药物分子与靶标蛋白的结合亲和力值。模型对药物分子与靶标蛋白进行特征提取和隐式嵌入表示，最终完成药物分子与靶标蛋白的结合亲和力预测，整个过程为以上所述的步骤S11-S16。模型结构图如图7所示。一维的药物分子SMILES序列和一维的靶标蛋白的氨基酸序列作为EmbedDTI模型的输入。对于靶标蛋白的氨基酸序列，本发明首先利用自然语言处理的语言模型对语料库中的单个氨基酸进行预训练，得到每个氨基酸的初始特征嵌入表示；紧接着，将氨基酸序列表示为每个氨基酸的初始特征嵌入表示向量构成的初始特征矩阵输入三层的TextCNN网络中进行特征提取，再经过一个全连接层获得128维的靶标蛋白特征嵌入表示。对于药物分子的SMILES序列，首先利用开源化学信息软件RDKit将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图。对于药物原子结构图，得到其原子之间的邻接关系矩阵和初始特征矩阵，通过注意力机制，帮助学习每个原子节点的相对重要性权重；将药物原子结构图的邻接关系矩阵和初始特征矩阵输入三层的图卷积神经网络中进行特征提取得到每个原子节点的特征嵌入表示；通过最大池化操作将原子节点的特征嵌入表示进行融合得到药物原子结构图的特征嵌入表示，最后通过两个全连接层得到标准的药物原子结构图128维的特征嵌入表示。对于药物子结构结构图，训练得到标准的药物子结构结构图的128维特征嵌入表示与药物原子结构图一致，区别在于输入图卷积神经网络的邻接关系矩阵和初始特征矩阵不同。最后，将128维的药物原子结构图的特征嵌入表示、128维的药物子结构结构图特征嵌入表示和128维的靶标蛋白特征嵌入表示进行首尾拼接，得到的拼接嵌入表示经过三个全连接层获得预测的药物分子与靶标蛋白的结合亲和力值。

实验数据集：本发明中在两个基准集上评估EmbedDTI模型，分别是Kinase Davis和KIBA数据集。结合亲和力提供有关药物分子-靶标蛋白对之间相互作用的特定信息。它可以通过半数最大抑制浓度(IC₅₀)、解离常数(K_d)、抑制常数(K_i)和结合常数(K_a)等指标来衡量。IC₅₀代表抑制一半指定生物过程(或过程中的一种成分，如酶、受体、细胞等)所需的药物或抑制剂的浓度。K_i反映了抑制剂对靶标蛋白的抑制强度。该值越小，抑制能力越强。K_d反映了药物化合物对靶标蛋白的亲和力。该值越小，亲和力越强。在某些情况下，它相当于K_i。K_a是K_d的倒数。因此，K_a的值越大，结合亲和力越强。遵循先前研究的做法，本发明采用对数转换的K_d，即

作为模型输出。Davis数据集收集了临床相关激酶蛋白家族和相关抑制剂及其各自的解离常数K_d值，而KIBA数据集是一个更通用的数据集，比Davis大得多。Davis数据集中包含30056个药物-靶标蛋白对相互作用，涵盖442个靶标蛋白和68个药物化合物分子。在Davis数据集中，只有K_d被用来衡量激酶抑制剂的生物活性；而KIBA结合K_i、K_d和IC₅₀得到蛋白质家族和相关抑制剂的KIBA分数。KIBA数据集中涉及229种蛋白质和2111种药物化合物。表1总结了两个数据集中靶标蛋白、药物分子和药物分子-靶标蛋白对相互作用的数量。

表1 Davis和KIBA数据集摘要

数据集	药物分子数量	靶标蛋白数量	药物-靶标对相互作用数量
				Davis	68	442	30,056
KIBA	2,111	229	118,254

实验设置：本发明评估了EmbedDTI在两个基准集Davis数据集和KIBA数据集上的性能。针对每一个数据集，本发明将其划分为6等份，一部分做为独立测试集，剩余的五部分用于训练。本发明在训练集中执行五折交叉验证以搜索最佳的超参数。对于每个超参数，使用网格搜索将搜索范围缩小到最优参数的邻域，然后进行细化搜索。在特征提取的过程中，对于靶标蛋白我们使用了三个大小不同的过滤器卷积层；用于学习药物原子结构图和药物子结构结构图的GCN也包含了三个图卷积层。模型训练过程的参数如表2所示。

表2 EmbedDTI的参数设置

参数	设置的值
		Batch size	512
Learning rate	0.0005
		Epoch	1500
Dropout	0.2
		Optimizer	Adam
三层CNN的过滤器数量	1000，256，32
		三层CNN的过滤器大小	8，8，3
三层GCN的输入维度	N，N，2N
		三层GCN的输出维度	N，2N，4N
拼接后三层全连接层的隐藏单元数	1024，512，1

^*其中，N代表输入特征向量的维度

实验分析：由于本发明将DTI视为预测药物分子-靶标蛋白对之间结合亲和力的回归问题，因此我们使用均方误差(MSE)作为损失函数。MSE测量预测值(P)与目标变量的真实值(Y)之间的差异。MSE越小，预测值越接近真实值，反之亦然。

其中N表示样本的数量。另外，用来评估性能的另一个指标是一致性指数(CI)，它用于计算模型的预测值和真实值之间的区别。

其中b_x是相对于真实较大结合亲和力δ_x的预测结合亲和力，b_y是相对于真实较小结合亲和力δ_y的预测结合亲和力，h(x)是一个步骤方程，

Z是用于将值映射到区间[0,1]的归一化常数。CI指标衡量两个随机选择的药物靶标对的预测亲和力值是否在真实数据集中保持相似的相对顺序。CI值越大，结果越好。

为了评估EmbedDTI的性能，本发明将其与下面列出的五个最先进的模型进行了比较。

KronRLS：它采用Smith-Waterman算法计算蛋白质之间的相似度，并采用PubChem结构聚类服务计算药物化合物之间的相似度。然后它使用基于内核的方法来计算Kronecker乘积，并在最小二乘回归(RLS)框架内集成多个异构信息源。

SimBoost：它对蛋白质和药物化合物的表示与KronRLS相同。它为药物、靶点和药物靶点对构建特征，并通过特征工程提取药物靶点对的特征向量来训练梯度提升机来预测结合亲和力。

DeepDTA：它编码原始的一维蛋白质序列和药物分析SMILES序列。编码后的向量通过两个独立的CNN模块得到对应的表示向量，拼接后通过全连接层输出预测的结合亲和力。

WideDTA：它在DeepDTA的基础上增加了蛋白质域和膜体信息，以及最大公共子结构词，加上原始信息共有四个部分一起训练模型。

GraphDTA：它使用TextCNN对一维蛋白质序列进行特征学习。对于药物分子SMILES序列，它使用了GCN、GAT、GIN、GAT_GCN四种模型，得到了SMILES序列的表示向量。

此外，我们通过比较EmbedDTI的三个变体，即EmbedDTI_noPre，EmbedDTI_noClq和EmbedDTI_noAttn对EmbedDTI进行了消融研究。

(1)EmbedDTI_noPre：没有对靶标蛋白的氨基酸序列进行GloVe预训练；

(2)EmbedDTI_noClq：没有药物子结构结构图表示，即对于药物分子序列，只将其表示为基于原子的药物原子结构图；

(3)EmbedDTI_noAttn：GCN中前不加注意力模块。即将初始特征表示矩阵之间输入GCN中，不考虑节点在图中的相对重要性权重。

表3显示了与5个基线模型相比，EmbedDTI在独立的Davis测试数据集上的MSE和CI分数。可以看出，EmbedDTI实现了最低的MSE和最高的CI，与最先进的方法GraphDTA相比，MSE降低了9.5％，CI提高了2.5％。性能提升可归因于以下三个因素。

首先，我们使用图形来表示化合物，与基于原始序列的方法相比，它保留了更多的结构信息。此外，我们用两种图结构表示化合物，更多的保留了原子和子结构级别的结构和功能信息，而不是像GraphDTA这样的大多数现有方法中只使用一种基于原子的药物原子结构图。

其次，GCN之前的注意力机制有助于学习节点(原子或子结构)的相对重要性权重。通过输出每个节点的注意力分数，我们可以观察到模型关注的焦点节点。

第三，预训练通过引入一些先验背景知识来提高靶标蛋白的氨基酸序列的表示，这也提高了EmbedDTI的整体性能。预测的结合亲和力和真实的结合亲和力绘制在图8中。可以观察到，大多数点都靠近线x＝y，说明在Davis数据集上，EmbedDTI模型对药物分子-靶标蛋白对之间结合亲和力的预测较准确。

表4在KIBA数据集上EmbedDTI与其他5个基线模型的MSE和CI分数。尽管KIBA比Davis的数据规模大得多，但这些模型的性能与在Davis数据集上的表现趋势相同。基于原子和子结构的两个结构图的药物表示大大提高了性能，MSE比WideDTA提升了0.268，比GraghDTA提升了0.058，CI比GraphDTA提高了0.012。预测的结合亲和力和真实的结合亲和力绘制在图9中。可以观察到，大多数点都靠近线x＝y，说明在KIBA数据集上，EmbedDTI模型对药物分子-靶标蛋白对之间结合亲和力的预测较准确。

表3与基线模型在Davis数据集上的比较结果

表4与基线模型在KIBA数据集上的比较结果

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，包括以下步骤：

获取药物分子的SMILES序列和靶标蛋白的氨基酸序列；

对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图；

分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示；

对于氨基酸序列，利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练，再对其进行特征提取，从而获得氨基酸序列的特征嵌入表示；

将药物分子和氨基酸的特征嵌入表示拼接，得到拼接嵌入特征表示；

基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力预测值。

2.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，获取药物分子的SMILES序列与靶标蛋白的氨基酸序列，包括以下步骤：

获取所述的药物分子的SMILES简化分子线性输入规范序列；

获取所述的靶标蛋白的氨基酸序列。

3.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，对于药物分子SMILES序列，将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图，包括以下步骤：

基于所述的药物分子SMILES序列，构建基于原子的药物原子结构图；

基于所述的药物分子SMILES序列，划分药物子结构，构建基于子结构的药物子结构结构图。

4.对于权利要求3所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，基于药物分子SMILES序列，划分药物子结构，构建基于子结构的药物子结构结构图，包括以下步骤：

得到所述的药物分子的药物原子结构图；

为所述的药物原子结构图中的原子节点编号；

初始化药物子结构集合C为空集；

构建集合V₁为所有化学键的集合；

构建集合V₂为所有简单环的集合；

如果V₁中的化学键不属于任何一个简单环，将其加入药物子结构集合C中；

循环遍历V₂中的所有环，将V₂中大于等于3个公共原子的环合并为新的环，直到V₂中所有的环都不存在三个或者三个以上的公共原子为止；

将V₂中所有环添加到药物子结构集合C中；

形成最终的药物子结构集合C；

基于药物分子的子结构集合，构建基于子结构的药物子结构结构图。

5.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，分别对药物原子结构图和药物子结构结构图进行表征学习，从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示，包括以下步骤：

利用注意力机制提取每个原子节点在所述药物原子结构图中的相对重要性权重；

利用深度学习神经网络的图卷积神经网络提取所述的药物原子结构图的相邻原子节点间的邻接关系表示和原子节点的初始特征表示；

将训练后的嵌入表示作为原子节点的初始特征表示，不断循环执行利用图卷积神经网络训练提取药物原子结构图的原子节点的特征嵌入表示；

当循环提取原子节点的特征嵌入表示达到指定次数之后，将最好的一次训练结果作为药物原子结构图的原子节点的特征嵌入表示；

对所述的药物原子结构图中的每个原子节点的特征嵌入表示进行最大池化操作，得到药物原子结构图的特征嵌入表示；

利用注意力机制提取每个子结构节点在所述药物子结构结构图中的相对重要性权重；

利用深度学习神经网络的图卷积神经网络提取所述的药物子结构结构图的相邻子结构节点间的邻接关系表示和子结构节点的初始特征表示；

将训练后的嵌入表示作为子结构节点的初始特征表示，不断循环执行利用图卷积神经网络训练提取药物子结构图的子结构节点的特征嵌入表示；

当循环提取子结构节点的特征嵌入表示达到指定次数之后，将最好的一次训练结果作为所述药物子结构结构图的子结构节点的特征嵌入表示；

对所述的药物子结构结构图中的每个子结构节点的特征嵌入表示进行最大池化操作，得到药物子结构结构图的特征嵌入表示。

6.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，对于氨基酸序列，利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练，再对其进行特征提取，从而获得氨基酸序列的特征嵌入表示，包括以下步骤：

利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练，得到每一个氨基酸的初始特征表示；

利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示；

将多个氨基酸的特征嵌入表示进行最大池化操作，得到靶标蛋白的氨基酸序列的特征嵌入表示。

7.对于权利要求6所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练，得到每一个氨基酸的初始特征表示，包括以下步骤：

将靶标蛋白序列中的每一个氨基酸看作为自然语言处理文本序列中的一个单词，进行氨基酸单词划分；

构建氨基酸单词的共现矩阵；

基于最小二乘原理的回归方法训练得到每一个氨基酸的初始特征嵌入表示。

8.对于权利要求6所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示，包括以下步骤：

将每一个氨基酸的初始特征嵌入表示输入一维卷积网络中循环训练，得到多个氨基酸的特征嵌入表示；

当循环提取多个氨基酸的特征嵌入表示达到指定次数之后，将最后一次的训练结果作为最终多个氨基酸的特征嵌入表示。

9.根据权利要求1所述的基于药物分子和氨基酸序列的特征嵌入表示进行拼接，得到拼接嵌入表示，其特征在于，包括以下步骤：

将所述的药物原子结构图的特征嵌入表示、药物子结构结构图的特征嵌入表示以及氨基酸序列的特征嵌入表示进行首尾拼接，得到拼接嵌入表示。

10.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法，其特征在于，基于拼接嵌入表示，获得药物分子与靶标蛋白的结合亲和力值，包括以下步骤：

将拼接嵌入表示输入多层的全连接神经网络，获得药物分子与靶标蛋白的结合亲和力的预测值。