CN113160894A

CN113160894A - 药物与靶标的相互作用预测方法、装置、设备及存储介质

Info

Publication number: CN113160894A
Application number: CN202110442966.0A
Authority: CN
Inventors: 王俊; 高鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23
Anticipated expiration: 2041-04-23
Also published as: WO2022222231A1; CN113160894B

Abstract

本申请属于智能决策技术领域，提供了一种药物与靶标的相互作用预测方法、装置、设备及存储介质，该方法包括：根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；获取有标签药物‑靶标对的训练集，根据训练集中的药物‑靶标对和表示药物‑靶标对相互作用信息的信息标签，结合预训练分子图模型和预训练蛋白序列语言模型，训练药物‑靶标相互作用的预测模型，得到目标预测模型；通过目标预测模型待预测药物分子与目标靶标的相互作用进行预测。本申请能够提升药物与靶标相互作用预测的效率和准确性。

Description

药物与靶标的相互作用预测方法、装置、设备及存储介质

技术领域

本申请涉及智能决策技术领域，尤其涉及一种药物与靶标的相互作用预测方法、装置、设备及存储介质。

背景技术

药物发现是确定具有潜在治疗作用的新候选化合物的过程，而药物与靶标相互作用的预测是药物发现过程中必不可少的一步。药物的疗效取决于它们对靶标蛋白或受体的亲和力。对靶标蛋白没有任何相互作用或亲和力的药物将不能提供治疗反应。在某些情况下，开发出的药物可能与非预期的蛋白质或受体相互作用，导致毒性。所以，药物与靶标的相互作用(drug-target interactions，DTI)预测具有重要的意义。

然而，而生物实验验证DTI既费时又耗费资源。相关技术中采用传统的机器学习方法实现DTI预测，但该方式以分子描述符作为特征输入，需要进行繁复、耗时的特征工程，同时不同的分子描述符的选择对机器学习模型的性能影响较大，因此该方式效率低下，准确性也并不理想。

相关技术中还采用深度学习方法实现DTI预测，深度学习模型的性能与训练数据的质量呈正相关，要求训练数据满足体量大、多样性、携带标注等条件，目前因医疗领域的专业性较难实现，例如面向新冠病毒的抑制药物，目前也只有少量的相互作用测定实验数据可供使用，说明该方式无法应对复杂多变的实际情况，准确性也难以保证。

发明内容

本申请的主要目的在于提供一种药物与靶标的相互作用预测方法、装置、计算机设备及计算机可读存储介质，旨在解决现有预测药物与靶标的相互作用的方式效率低且不够准确的技术问题。

第一方面，本申请提供了一种药物与靶标的相互作用预测方法，所述方法包括：

根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；

获取有标签药物-靶标对的训练集，并根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；

获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果。

第二方面，本申请还提供了一种药物与靶标的相互作用预测装置，所述装置包括：

预训练模块，用于根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；

训练模块，用于获取有标签药物-靶标对的训练集，并根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；

预测模块，用于获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的药物与靶标的相互作用预测方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的药物与靶标的相互作用预测方法。

本申请公开了一种药物与靶标的相互作用预测方法、装置、设备及存储介质，该药物与靶标的相互作用预测方法，首先根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；然后获取有标签药物-靶标对的训练集，根据训练集中的药物-靶标对、表示所述药物-靶标对相互作用信息的信息标签，结合预训练分子图模型和预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过目标预测模型，分析待预测药物分子的SMILES序列数据和目标靶标的蛋白序列数据，最终预测出待预测药物分子与目标靶标的相互作用结果，实现了基于融合了预训练分子图模型和预训练蛋白序列语言模型的目标预测模型，以端到端的方式对药物分子与靶标的相互作用进行预测，提升了便捷性和效率，而且为药物分子与靶标的相互作用预测提供了较为详细的分析依据，提升了预测准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种药物与靶标的相互作用预测方法的流程示意图；

图2为本申请实施例提供的一种药物与靶标的相互作用预测方法的应用场景示例图；

图3为本申请实施例提供的蛋白质序列示例图；

图4为本申请实施例提供的一种药物与靶标的相互作用预测装置的示意性框图；

图5为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种药物与靶标的相互作用预测方法、装置、设备及计算机可读存储介质。其中，该药物与靶标的相互作用预测方法主要应用于药物与靶标的相互作用预测设备，该药物与靶标的相互作用预测设备可以是PC(个人计算机personalcomputer)、单个服务器或由多台服务器组成的分布式服务器集群等具有数据处理功能的设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种药物与靶标的相互作用预测方法的流程示意图。

如图1所示，该药物与靶标的相互作用预测方法包括步骤S101至步骤S105。

步骤S101，根据基于无标签药物分子的简化分子线性输入规范SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型。

如图2所示，图2为该药物与靶标的相互作用预测方法的示例图，该药物与靶标的相互作用预测方法包括预训练阶段，训练阶段和预测阶段。其中，通过预训练阶段，学习已知的药物分子的特征得到预训练分子图模型，以及学习已知的蛋白靶点序列的特征得到预训练蛋白序列语言模型；通过训练阶段，将基于注意力机制Attention的神经网络与预训练阶段得到的预训练分子图模型和预训练蛋白序列语言模型进行组合，在有标签药物-靶标对的训练集上训练药物-靶标相互作用的预测模型，得到训练好的端到端目标预测模型；通过预测阶段，将训练好的目标预测模型用于预测待预测药物分子与目标靶标的相互作用结果。

步骤S101对应上述预训练阶段，即在基于无标签药物分子的SMILES序列数据建立的第一预训练集上预训练得到预训练分子图模型，以及在基于无标签蛋白序列数据建立的第二预训练集上训练得到预训练蛋白序列语言模型，其中，SMILES(Simplified MolecularInput Line Entry Specification，简化分子线性输入规范)是一种用ASCII字符串明确描述分子结构的字符序列。

在一实施例中，所述根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，包括：获取无标签药物分子的SMILES序列数据，并对所述无标签药物分子的SMILES序列数据进行预处理，得到无标签药物分子的图结构样本；根据所述无标签药物分子的图结构样本建立第一预训练集，并根据所述第一预训练集对图神经网络GNN进行预训练，得到预训练分子图模型。

预训练分子图模型是一种图神经网络(GNN，Graph Neural Network)模型。预训练分子图模型能够对输入的药物分子进行分析，输出药物分子相对于其他药物分子的特征向量(药物分子表征)。

首先，获取大规模无标签药物分子的SMILES序列数据。示例性的，获取大规模无标签药物分子的SMILES序列数据的方式例如，从已有开放的大型药物化学数据库ZINC15和ChemBL中下载大量通过药理实验或已投入医学治疗的药物分子的SMILES序列数据。然后，对获取的无标签药物分子的SMILES序列数据进行预处理。

在一实施例中，所述对所述无标签药物分子的SMILES序列数据进行预处理，得到无标签药物分子的图结构样本，具体为：将所述无标签药物分子的SMILES序列数据转换为无标签药物分子的图结构数据；对所述无标签药物分子的图结构数据进行mask掩盖，得到无标签药物分子的图结构样本。

通过RDKit工具包将采集的无标签药物分子的SMILES序列数据转换为无标签药物分子的图结构数据，以及对无标签药物分子的图结构数据进行mask掩膜，最终得到无标签药物分子的图结构样本。

其中，RDKit是开源化学信息学与机器学习工具包，可实现从SMILES序列格式到图数据格式的转换。图数据包含节点(node)和边(edge)，节点(node)包含了实体(entity)信息(如药物分子中的原子)，边(edge)包含实体间的关系(relation)信息(如药物分子中原子间的化学键)，把每个原子看作图中的节点，原子键视作边，那么一个分子(Molecule)就可以看作一张图。通过RDKit工具包可以将无标签药物分子的SMILES序列数据转换为以原子为节点并通过化学键连接的图结构数据。换而言之，药物分子的图结构数据中，节点(node)有原子的属性特征(如下表1)，边(edge)有连接各原子的化学键对应的化学键属性特征(如下表2)。

表1：node节点的属性特征

表2：edge边的属性特征

综上，药物分子的图结构数据包括多个原子间的连接关系和各原子的原子属性特征，以及连接各原子的化学键对应的化学键属性特征。其中，原子属性特征包括原子类型、化学键个数、形式电荷、原子手性、连接氢原子个数、原子轨道、芳香性等中的一个或者多个；化学键属性特征包括化学键类型、共轭特征、环键特征和分子立体化学特征等中的一个或者多个。

示例性的，对无标签药物分子的图结构数据进行mask掩膜的方式例如，从无标签药物分子的图结构数据的邻接矩阵中，随机mask掩盖掉约预设比例的节点或者节点的属性，以此来扰动无标签药物分子的图结构数据的完整性，得到无标签药物分子的图结构样本，其中，预设比例可以根据实际需要灵活进行设置。比如无标签药物分子的图结构数据有20个节点，随机从中掩盖掉15％左右的3个节点，邻接矩阵也相应扰动变换。

由无标签药物分子的图结构样本即可建立预训练集(定义为第一预训练集)，对图神经网络GNN进行预训练，得到预训练分子图模型。

图神经网络GNN模型学习的主要过程是通过迭代对无标签药物分子的图结构样本中节点的邻居信息进行聚合和更新。在一次迭代中，每一个节点通过聚合邻居节点的特征及自己在上一层的特征来更新自己的信息，通常也会对聚合后的信息进行非线性变换。通过堆叠多层网络，每个节点可以获取到相应跳数内的邻居节点信息。

其中，图神经网络GNN模型的学习以节点消息传递的方式理解的话，涉及到两个过程，信息传递(message passing)阶段和读出(readout)阶段。信息传递阶段就是前向传播阶段，该阶段循环运行T个跳数(steps)，并通过函数M_t获取信息，通过函数U_t更新节点，该阶段方程如下，

其中，e_vw表示从节点v到w的边的特征向量。

读出阶段计算一个特征向量用于整个图结构的表达(representation)，使用函数R实现，

其中，T表示整个时间step数，上述函数M_t，U_t和R可以预先进行设置。

换而言之，对于药物分子的图结构样本，图神经网络GNN模型的中心思想可以这么理解：假如我们用初始特征向量分别表达不同的节点和不同的边，可以通过消息传播的迭代方式，找到节点最终稳定的特征向量表达方式。经过固定步骤比如T步骤以后，每个节点对应的特征向量可以一定程度趋于平衡不再变化。于是，有了每个节点的最终稳定的特征向量，相比于原始的节点特征向量，每个节点最终的特征向量还包含了其邻居节点和整个图的信息(例如，药物分子中的某些原子节点，假设其对分子毒性的贡献最大，在最终的特征向量中就会有相应的更特异的表达，一个形象的比喻是，以社交网络中的某个体人为例，在经过多轮的消息传递训练之后，对于每个节点个体，除了原始的其个人的信息，还可以通过网络的学习获得他的社群政治倾向、潜在消费习惯，在社会中的职业分工等信息)，整个药物分子的特征向量可以把各个节点的特征向量相加起来求平均，从而得到表达药物分子的最终的特征向量。

通过上述方式，对于药物分子，提出的图全局级别的预训练策略，可以高效地计算的同时学到关键的关于药物分子的图表示信息，捕捉到不同图数据中的通用结构规律，进而赋予其在下游药物-靶点相互作用预测任务上的拟合能力，比传统的分子指纹等具有更好的预测表现。

在一实施例中，所述根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型，具体为：获取无标签蛋白序列数据，并对所述无标签蛋白序列数据进行预处理，得到无标签蛋白序列样本；根据所述无标签蛋白序列样本建立第二预训练集，并根据所述第二预训练集对Transformer模型进行预训练，得到预训练蛋白序列语言模型。

其中，预训练蛋白序列语言模型基本构架是的Transformer，Transformer是目前自然语言处理(NLP)领域中的一类常用模型，Transformer的基本思想是通过学习序列补全的方法来学习隐藏在序列中的结构信息。由于氨基酸序列组成的蛋白质某种程度上可以视为一种语言，因此可以使用Transformer模型来学习隐藏在蛋白质序列中的结构信息。

首先，获取大规模无标签蛋白序列数据。示例性的，获取大规模无标签蛋白序列数据的方式例如，从已有开放的大型蛋白质数据库PDB(Protein Data Bank)中下载大量大规模无标签蛋白序列数据。然后，对获取的无标签蛋白序列数据进行预处理。

在一实施例中，所述对所述无标签蛋白序列数据进行预处理，得到无标签蛋白序列样本，具体为：对所述无标签蛋白序列数据以氨基酸单位进行分组，得到无标签蛋白序列组；对所述无标签蛋白序列组进行mask掩盖，得到无标签蛋白序列样本。

蛋白质是由共价键连接的氨基酸的线性链，一共有20个标准氨基酸，这些标准氨基酸"字母"使我们可以把蛋白质标记为一串序列，这种离散序列表示称为蛋白质的主要结构，如图3所示。由于蛋白质用氨基酸序列表示，将蛋白序列以氨基酸为单位进行分组，按3个氨基酸为一组，然后随机mask掩盖掉预设比例(比如15％)的组，即可得到无标签蛋白序列样本，如此，通过掩盖序列中的部分蛋白序列来构造学习目标，后续让Transformer模型通过学习预测被掩盖内容的方式来学习蛋白序列数据的紧凑低维的信息表达(即要求Transformer模型根据其他序列信息来预测这些被掩盖的序列，从而得到表达整个蛋白序列数据的特征向量)。

之后，根据无标签蛋白序列样本建立第二预训练集，并根据第二预训练集对Transformer模型进行预训练，得到预训练蛋白序列语言模型。

即，要求Transformer模型根据无标签蛋白序列样本学习蛋白序列间的关联信息，以获得能够表达整个蛋白序列的特征向量，学习完成后即可得到预训练蛋白序列语言模型。预训练蛋白序列语言模型能够对输入的蛋白序列进行分析，输出蛋白序列的特征向量(蛋白表征)。

具体地，Transformer模型包括encoder(编码)层和decoder(解码)层。将第二预训练集中的无标签蛋白序列样本输入至Transformer进行预训练，Transformer学习时提取无标签蛋白序列样本的全局信息进行embedding和positional embedding(positionalembedding的目的就是获取蛋白序列的顺序信息)，让embedding和positional embedding相加，得到整体的embedding，将整体的embedding输入至encoder层，encoder层将整体的embedding转换为一个总体的特征向量，输入至decoder层，decoder层根据输入的特征向量生成无标签蛋白序列样本对应的特征向量。如果Transformer模型能够预测出被掩盖的部分，说明Transformer模型已经学到了关于蛋白数据的基本知识，进而能够输出无标签蛋白序列样本对应的的特征向量，即可作为预训练蛋白序列语言模型。

通过上述方式，由于上述两个预训练模型可以从大规模无标签数据中学习到数据中的通用规律，通常情况下得到的模型具有较好的泛化性，当需要解决具体的药物发现任务时，我们可以直接使用上述两个预训练模型来进行微调(比如既能支持新冠病毒抑制药物，也能支持阿兹海默症的治疗药物预测等)，从而避免为每一个目标疾病或者病毒的药物预测任务从零开始训练全新的模型。

步骤S102，获取有标签药物-靶标对的训练集，并根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型。

步骤S102对应前述训练阶段，即将带有Attention weights注意机制的神经网络与预训练阶段得到的预训练分子图模型和预训练蛋白序列语言模型进行组合，在有标签药物-靶标对的训练集上训练药物-靶标相互作用的预测模型，得到目标预测模型。

首先获取有标签药物分子-靶标对的训练集，训练集包含多个药物-靶标对，每个药物-靶标对包含一个药物分子的SMILES序列和一个靶标的蛋白序列，每个药物-靶标对携带信息标签，通过信息标签表示药物与靶标之间的相互作用信息，比如当药物-靶标对具有已知的正相互作用时，该药物-标靶对的信息标签为Y，当药物-靶标对不具有已知的正相互作用时，该药物-标靶对的信息标签为N。药物与靶标之间存在正相互作用是指药物与靶标相互结合能够发挥疗效。示例性的，获取有标签药物-靶标对的训练集的方式例如，从已有开放的Human数据集和/或C.elegans数据集中选取若干药物-靶标对，其中，Human数据集包含1052个的药物分子化合物和852个蛋白质之间的369个正相互作用，C.elegans数据集包含1434个药物分子化合物和2504个蛋白质之间的4000个正相互作用。

在一实施例中，所述根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型，具体为:将神经网络、所述预训练分子图模型和所述预训练蛋白序列语言模型进行组合，得到药物-靶标相互作用的预测模型；将所述训练集中的药物-靶标对和所述信息标签输入至所述药物-靶标相互作用的预测模型中进行训练，以计算损失；根据计算的所述损失对所述神经网络的权重进行更新，得到目标预测模型。

将带有Attention weights注意机制的神经网络与预训练阶段得到的预训练分子图模型和预训练蛋白序列语言模型进行组合，作为初始的药物-靶标相互作用的预测模型，根据训练集中的各个药物-靶标对、表示每个药物-靶标对相互作用信息的信息标签，对初始的药物-靶标相互作用的预测模型进行训练，得到训练好的药物-靶标相互作用的预测模型(定义为目标预测模型)。具体地，将训练集输入至带有Attention weights注意机制的神经网络与预训练分子图模型和预训练蛋白序列语言模型的组合中，对于训练集中任何一个药物-靶标对，药物分子的SMILES序列通过作为分支的预训练分子图模型分析输出药物分子的特征向量，靶标的蛋白序列通过作为分支的预训练蛋白序列语言模型分析输出靶标蛋白的特征向量，再将预训练分子图模型输出的药物分子的特征向量，以及预训练蛋白序列语言模型输出的靶标蛋白的特征向量，输入至带有Attention weights注意机制的神经网络，得到预测标签，根据预测标签以及药物-靶标对携带的表示药物-靶标对相互作用信息的信息标签计算损失，根据计算的损失对神经网络的权重进行更新，得到目标预测模型。目标预测模型的输出为一个表示是否相互作用的布尔值。

步骤S103，获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果。

步骤103对应上述预测阶段，即将目标预测模型用于预测待预测药物分子与目标靶标的相互作用结果。

在一实施例中，所述通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果，具体为：分别对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行预处理，得到所述待预测药物分子的图结构数据和所述目标靶标的蛋白序列组；将所述待预测药物分子的图结构数据和所述目标靶标的蛋白序列组输入至所述目标预测模型中进行分析，得出所述目标预测模型输出的布尔值；根据所述布尔值确定所述待预测药物分子与所述目标靶标的相互作用结果。

首先将待预测药物分子的SMILES序列数据转换为待预测药物分子的图结构数据，对目标靶标的蛋白序列数据以氨基酸单位进行分组，得到目标靶标的蛋白序列组，然后将待预测药物分子的图结构数据和目标靶标的蛋白序列组输入至目标预测模型，待预测药物分子的图结构数据通过目标预测模型中的分支-预训练分子图模型输出待预测药物分子的特征向量，目标靶标的蛋白序列组通过目标预测模型中的分支-预训练蛋白序列语言模型输出目标靶标的蛋白序列对应的特征向量，目标预测模型中的神经网络进一步根据待预测药物分子的特征向量和目标靶标的蛋白序列对应的特征向量，预测待预测药物分子是否能够对目标靶标产生有效作用，如果待预测药物分子能够对目标靶标产生有效作用，目标预测模型输出True，否则输出False。由此，只将待预测药物分子的图结构数据和目标靶标的蛋白序列组输入至目标预测模型，目标预测模型便可直接输出待预测药物分子与目标靶标产生的相互作用结果，这种端到端的学习，相比传统有许多潜在的优势，不需要进行序列比对、运行更方便、具有很好的泛化能力等，因此在DTI预测任务上具有很高的潜力；也可用于目标是不同靶点蛋白的多种疾病或者病毒的药物预测任务，只需要少量的有标签数据即可获得良好的精度结果，具有良好的可扩展性。

上述实施例提供的药物与靶标的相互作用预测方法，首先根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；然后获取有标签药物-靶标对的训练集，根据训练集中的药物-靶标对、表示所述药物-靶标对相互作用信息的标签，结合预训练分子图模型和预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过目标预测模型，分析待预测药物分子的SMILES序列数据和目标靶标的蛋白序列数据，最终预测出待预测药物分子与目标靶标的相互作用结果，实现了基于融合了预训练分子图模型和预训练蛋白序列语言模型的目标预测模型，以端到端的方式对药物分子与靶标的相互作用进行预测，便捷性和效率都得到了提升，而且为药物分子与靶标的相互作用预测提供了较为详细的分析依据，提升了预测准确性。

请参照图4，图4为本申请实施例提供的一种药物与靶标的相互作用预测装置的示意性框图。

如图4所示，该药物与靶标的相互作用预测装置400，包括：预训练模块401、训练模块402和预测模块403。

预训练模块401，用于根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；

训练模块402，用于获取有标签药物-靶标对的训练集，并根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；

预测模块403，用于获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述药物与靶标的相互作用预测方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是个人计算机(personal computer，PC)、服务器等具有数据处理功能的设备。

如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种药物与靶标的相互作用预测方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种药物与靶标的相互作用预测方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

根据基于无标签药物分子的简化分子线性输入规范SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；获取有标签药物-靶标对的训练集，并根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型；获取待预测药物分子的SMILES序列数据与目标靶标的蛋白序列数据，通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果。

在一些实施例中，所述处理器实现所述根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型，包括:

将神经网络、所述预训练分子图模型和所述预训练蛋白序列语言模型进行组合，得到药物-靶标相互作用的预测模型；

将所述训练集中的药物-靶标对和所述信息标签输入至所述药物-靶标相互作用的预测模型中进行训练，以计算损失；

根据计算的所述损失对所述神经网络的权重进行更新，得到目标预测模型。

在一些实施例中，所述处理器实现所述通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果，包括：

分别对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行预处理，得到所述待预测药物分子的图结构数据和所述目标靶标的蛋白序列组；

将所述待预测药物分子的图结构数据和所述目标靶标的蛋白序列组输入至所述目标预测模型中进行分析，得出所述目标预测模型输出的布尔值；

根据所述布尔值确定所述待预测药物分子与所述目标靶标的相互作用结果。

在一些实施例中，所述处理器实现所述根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，包括：

获取无标签药物分子的SMILES序列数据，并对所述无标签药物分子的SMILES序列数据进行预处理，得到无标签药物分子的图结构样本；

根据所述无标签药物分子的图结构样本建立第一预训练集，并根据所述第一预训练集对图神经网络GNN进行预训练，得到预训练分子图模型。

在一些实施例中，所述处理器实现所述根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型，包括：

获取无标签蛋白序列数据，并对所述无标签蛋白序列数据进行预处理，得到无标签蛋白序列样本；

根据所述无标签蛋白序列样本建立第二预训练集，并根据所述第二预训练集对Transformer模型进行预训练，得到预训练蛋白序列语言模型。

在一些实施例中，所述处理器实现所述对所述无标签药物分子的SMILES序列数据进行预处理，得到无标签药物分子的图结构样本，包括：

将所述无标签药物分子的SMILES序列数据转换为无标签药物分子的图结构数据；

对所述无标签药物分子的图结构数据进行mask掩盖，得到无标签药物分子的图结构样本。

在一些实施例中，所述处理器实现所述对所述无标签蛋白序列数据进行预处理，得到无标签蛋白序列样本，还包括：

对所述无标签蛋白序列数据以氨基酸单位进行分组，得到无标签蛋白序列组；

对所述无标签蛋白序列组进行mask掩盖，得到无标签蛋白序列样本。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请药物与靶标的相互作用预测方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种药物与靶标的相互作用预测方法，其特征在于，所述方法包括以下步骤：

根据基于无标签药物分子的简化分子线性输入规范SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，以及根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型；

2.根据权利要求1所述的药物与靶标的相互作用预测方法，其特征在于，所述根据所述训练集中的药物-靶标对和表示所述药物-靶标对相互作用信息的信息标签，结合所述预训练分子图模型和所述预训练蛋白序列语言模型，训练药物-靶标相互作用的预测模型，得到目标预测模型，包括:

3.根据权利要求1所述的药物与靶标的相互作用预测方法，其特征在于，所述通过所述目标预测模型对所述待预测药物分子的SMILES序列数据和所述目标靶标的蛋白序列数据进行分析，以预测所述待预测药物分子与所述目标靶标的相互作用结果，包括：

4.根据权利要求1所述的药物与靶标的相互作用预测方法，其特征在于，所述根据基于无标签药物分子的SMILES序列数据建立的第一预训练集预训练得到预训练分子图模型，包括：

5.根据权利要求1所述的药物与靶标的相互作用预测方法，其特征在于，所述根据基于无标签蛋白序列数据建立的第二预训练集训练得到预训练蛋白序列语言模型，包括：

6.根据权利要求4所述的药物与靶标的相互作用预测方法，其特征在于，所述对所述无标签药物分子的SMILES序列数据进行预处理，得到无标签药物分子的图结构样本，包括：

7.根据权利要求5所述的药物与靶标的相互作用预测方法，其特征在于，所述对所述无标签蛋白序列数据进行预处理，得到无标签蛋白序列样本，还包括：

8.一种药物与靶标的相互作用预测装置，其特征在于，所述药物与靶标的相互作用预测装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的药物与靶标的相互作用预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的药物与靶标的相互作用预测方法的步骤。