CN114882970B

CN114882970B - 基于预训练模型和分子图的药物相互作用效果预测方法

Info

Publication number: CN114882970B
Application number: CN202210625334.2A
Authority: CN
Inventors: 鱼亮; 任姝洁
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2024-04-16
Anticipated expiration: 2042-06-02
Also published as: CN114882970A

Abstract

本发明提出一种基于预训练模型和分子图的药物相互作用效果预测方法，主要解决现有技术缺失对药物分子的特定表示策略和对药物相互作用预测精度较低的问题，其方案为：对不同来源的药物数据进行搜集整理，构建大规模无标签数据集和有标签的下游任务数据集；对每个数据集进行数据清洗、数据生成和数据划分；根据分子之间的信息聚合和药物分子对表示学习的预训练任务构建预训练模型，并基于无标签大样本数据集对其进行预训练得到分子编码器；对分子编码器进行精调后得到预测器，通过预测器对药物‑药物相互作用关系和有效药物组合进行预测。本发明实验流程明晰、耗费资源小、对药物的预测结果准确性高，可用于生物实验。

Description

基于预训练模型和分子图的药物相互作用效果预测方法

本发明属于生物信息学技术领域，特别涉及一种药物相互作用效果的预测方法，可用于生物实验。

背景技术

面对复杂疾病，医疗人员通常会采取多种药物同时作用的手段，因为大多数人类疾病都归因于复杂的生物过程，而错综复杂的生物过程可以抵抗许多单一药物的活性，从而无法达到预期的治疗效果。同时，一种疾病的发生往往伴随着许多并发症的出现，单一的药物难以达到患者的治疗效果，通常需要进行联合治疗，即使用两种或两种以上的药物来改善临床效果。这种联合治疗的方案与单药治疗相比具有多种优势：它能够发挥药物的协同治疗作用以提高疗效，延迟或减少耐药性的发生，或通过降低个别药物的剂量来降低不良反应的风险等。与此同时，当一种药物与特定的食物成分一起使用时，其疗效也可能会发生显著改变。据估计，药物相互作用与所报道的近30％的药物不良事件密切相关，这也是许多药物退出市场的主要原因之一。因此，了解药物相互作用机制，对于减少意外药物不良事件和在治疗疾病时最大限度地发挥协同效益至关重要。

近年来，进行药物相互作用和药物组合预测的方法大致可被分为两类：传统的剂量筛选法和数据驱动的计算方法。

传统的剂量筛选法主要以HSA、Bliss、Loewe、ZIP等协同模型为基础，通过绘制剂量-反应曲线来判别药物之间的相互作用程度和相互作用方向，然后选择在所有筛选的药物组合中协同作用分数最高的药物组合进行进一步开发和测试，以实现安全有效的治疗方案。这些模型不仅被用于建模药物对的协同关系，也被用来对高阶药物相互作用进行建模，即涉及三个及三个以上的药物。但由于该类方法严重依赖于被选择的模型，并且在其发展初期，模型所依赖的不同理论基础之间有一定的相背性，导致筛选结果有较大差异，这类传统方法逐渐淡出了人们的视野。

数据驱动的计算方法又可被划分为三个子类：1)多特征加机器学习或深度学习，2)网络上的链路预测或模式挖掘，3)以药物结构为主导的预测方法。其中：

第1类多特征加机器学习或深度学习方法与特征工程息息相关，尤其是对于机器学习的问题，数据和特征决定了学习效果的上限，而模型和算法只是在逼近这个上限。同时，特征的设计、选择和表示具有很高的主观性，如何去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系是一个有待解决的关键问题。

第2类网络上的链路预测或模式挖掘方法旨在构造一个包含以药物为节点的大型网络，边的关系代表着是否相互作用或相互作用的类型，然后通过已知的网络节点以及网络的结构信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。该类方法的核心基础都是一个预先构建的图网络，这也就使得预测器无法跳出当前的图来进行新药的相互作用关系预测，大大加重了模型的局限性。

第3类以药物结构为主导的预测方法，是在已知的药物化学式的基础上，将药物分子图转化为基于原子和化学键的二维无向图，接着采用图神经网络或图自编码器等图表示学习方法进行图特征的提取，进而完成药物相互作用的预测。但是在基于图的化学分子表示模型中，缺失对多药物分子图专门设计的图表示学习策略，与此同时，也缺乏为药物分子图专门构建的预训练任务，这使得图表示学习结合预训练的思想在药物发现领域中的发展受到了约束，进而使得有限的数据无法得到充分利用。

发明内容

本发明的目的在于提供一种基于预训练模型和分子图的药物相互作效果预测方法，以解决现有技术中缺失对药物分子图的特定表示策略，对药物相互作用预测精度较低和实验流程复杂、模型扩展性低的问题。

本发明的技术思路是：使用药物的分子图结构数据和药物的靶标数据对多药物表示模型进行预训练，将预训练模型迁移至下游任务，利用学习得到的药物之间和药物内部潜在特征表示完成药物-药物相互作用和有效药物组合的预测。

根据上述思路，本发明的技术方案包括如下：

(1)对不同来源的药物数据进行搜集整理，构建大规模无标签数据集D_P；

(2)搜集整理已知的药物-药物相互作用关系数据和已批准的药物组合数据，构建有标签的下游任务数据集：D_F＝{D₁,D₂,D₃,D₄}，其中，数据集D₁和D₂表示药物相互作用的二分类数据集，D₃表示药物相互作用的多分类数据集，D₄表示有效药物组合数据集；

(3)从已有研究中获取人类蛋白质相互作用网络N，从DrugBank数据库中收集所有存在靶标的药物所对应的靶标构成靶标集T；

(4)对无标签数据集D_P中的所有药物进行两两组合，得到仅包括药物结构信息的D_L数据集，对无标签数据集D_P中的药物进行过滤和组合，得到包括靶标信息和药物的结构信息的D_S数据集，并将二者共同组成预训练数据集D_P'＝{D_L,D_S}，将其中10％的数据作为测试样本，90％的数据作为训练样本；

(5)对有标签的下游任务数据集D_F，将其中所包含的已知相互作用的药物对作为正样本，并随机采取与正样本等量的负样本，得到由正负样本构成的精调数据集D_F'，将其中20％的数据作为测试样本，80％的数据作为训练样本；

(6)基于预训练数据集D_P'和精调数据集D_F'，构建总预训练图集合G_P和总精调图集合G_F：

(7)基于药物分子对表示学习的预训练任务构建药物分子对表示学习模型：

(7a)分别设置药物分子对表示学习的遮蔽原子预测和S_AB分数预测这两种预训练任务的损失函数，其中，“遮蔽原子预测”用于学习分子图的上下文信息和拓扑信息，“S_AB分数预测”用于学习药物分子之间的靶标重叠信息；

(7b)构建由定长向量表示的两个并行输入层，即对于“遮蔽原子预测”任务，输入向量为长度为300的原子列表，对于“S_AB分数预测”任务，输入向量为长度为1的靶标邻近分数；

(7c)建立由N个Transformer编码器堆叠构成的隐藏层；

(7d)建立由全连接的神经网络构成的输出层，即对于“遮蔽原子预测”任务，输出层为与字典相同维度的全连接神经网络，对于“S_AB分数预测”任务，输出层为输出维度为1的全连接神经网络；

(7e)将(7b)中的输入层、(7c)中的隐藏层和(7d)中的输出层依次串联，得到药物分子对表示学习模型；

(8)使用总预训练图集合G_P，通过标准批量梯度下降算法、反向传播算法和Adam优化器对药物分子对表示学习模型进行预训练，预训练过程中的损失函数为交叉熵损失和均方误差损失之和，最终获得一个能够输出节点低维嵌入的分子编码器E；

(9)固定分子编码器E的输入层和Transforme层，并将其预训练头替换为下游任务相关的预测头，使用总精调图集合G_F的训练样本集，通过Adam优化器和提前停止策略对分子编码器E中的参数进行微调，得到预测器P；

(10)使用预测器P在总精调图集合G_F的测试样本集上进行药物相互作用效果预测：

对于多分类样本D₃，其预测分数最高的相互作用类别即为预测结果；

对于二分类样本D₁、D₂和D₄，其预测分数大于0.5的表示存在相互作用，反之不存在相互作用。

本发明与现有的预测药物相互作用和有效药物组合技术相比，具有以下优点：

1)本发明将药物的靶标作为特有信息引入预训练任务“S_AB分数预测”的构建，且通过多个任务组合学习从多方面挖掘药物的潜在特征，解决了现有研究中缺乏专门进行药物表示学习相关预训练任务的问题；

2)本发明着眼于可拓展的多药物分子表示，提出了两种分子图的信息聚合策略来整合多个药物的潜在特征，突破了以往分子表示学习方法中只进行单分子表示的界限，具有更广泛的应用场景；

3)本发明在所使用的数据方面摒弃了冗杂的特性搜集与整合，仅采用了药物的结构信息和靶标信息，可使大量无标签的药物数据能得到充分利用，解决了现有研究中通常受复杂的特征工程阻碍所带来的资源耗费大、成本高的问题。

附图说明

图1是本发明的实现流程图。

具体实施方式

以下结合附图对本发明的具体实施例和效果作进一步详细描述。

参照图1，本实例的实现步骤如下：

步骤1，对不同来源的药物数据进行搜集整理，构建大规模无标签数据集D_P。

1.1)从DrugBank数据库下载所有与药物相关的结构数据，选用的数据类型为带有“approve”标签的药物，构成包含2675个已批准药物的数据集D_A；

1.2)在pubChem数据库中搜索表示药物结构信息的分子输入线性表示字符串SMILE，用于对D_A数据集中缺省的数据进行补充，并对该数据集中无法转换的SMILE字符串进行替换，得到包含2501个药物的数据集D_P。

步骤2，搜集整理已知的药物-药物相互作用关系数据和已批准的药物组合数据，构建有标签的下游任务数据集D_F。

2.1)从Marinka等人的文章中获取下游任务数据集BIOSNAP，该数据集包含了来自于不同出版物的1322种获得批准的药物和41520个带标记的药物-药物相互作用，构成下游任务第一数据集D₁；

2.2)从Zhang等人的文章中获取下游任务数据集，该数据集包含了548个药物和48584个成对药物-药物相互作用，构成下游任务第二数据集D₂；

2.3)从Ryu等人的文章中获取下游任务数据集DEEPDDI，该数据集由DrugBank中的1710种药物和86种不同的相互作用类型组成，捕获了192284个药物-药物对作为样本，构成下游任务第三数据集D₃；

2.4)下载DCDB数据库中的有效药物组合数据，本实例从该数据集中仅选取成对的药物相互作用，不考虑高阶药物组合，即将三个及三个以上药物的相互作用数据剔除后得到下游任务第四数据集D₄；

2.5)将上述四个数据集整合，得到精调数据集D_F＝{D₁,D₂,D₃,D₄}，其中，下游任务第一数据集D₁和下游任务第二数据集D₂表示药物相互作用的二分类数据集，下游任务第三数据集D₃表示药物相互作用的多分类数据集，下游任务第四数据集D₄表示有效药物组合的二分类数据集。

步骤3，从已有研究中获取人类蛋白质相互作用网络N和靶标集T。

3.1)从Cheng等人文章中搜集所包含的人类蛋白质-蛋白质相互作用网络N；

3.2)下载DrugBank数据库中所有带有靶标信息的药物和每个药物对应的靶标，共计药物2560个，其对应靶标构成靶标集T。

步骤4，对无标签数据集D_P中的所有药物进行过滤和组合，得到预训练数据集D_P'。

4.1)对无标签数据集D_P中的2501个已批准药物进行两两组合，得到仅包括药物结构信息的D_L数据集，其中药物对数量为310万；

4.2)统计蛋白质相互作用网络N中所有编码蛋白质结点的基因信息，得到基因集合X_G，统计无标签数据集D_P中每个药物的靶标基因，过滤掉不在基因集X_G中的靶标基因，若对应药物的靶标信息为空，则删除该药物，对于剩余药物将其进行两两组合，得到包括靶标信息和药物的结构信息的D_S数据集，其中药物对数量为130万；

4.3)将上述两个数据集整合，得到预训练数据集D_P'＝{D_L,D_S}。

步骤5，对有标签的下游任务数据集D_F随机采取负样本得到精调数据集D_F'。

5.1)对于有标签的下游任务数据集D_F＝{D₁,D₂,D₃,D₄}中缺失负样本的药物相互作用的二分类数据集D₂，其由药物-药物相互作用关系矩阵构成，该矩阵中的1值代表存在相互作用，0值代表相互作用未知或不存在；提取矩阵中对应值为1的药物对构成正样本集合，并在相互作用关系值为0的药物对中随机选取与正样本等量的药物对，构成药物相互作用二分类数据集D₂的负样本集合；

5.2)对于有标签的下游任务数据集D_F＝{D₁,D₂,D₃,D₄}中缺失负样本的有效药物组合数据集D₄，为了避免正负样本规模差异过大，通过其正样本来生成负样本，得到有效药物组合数据集D₄的负样本集合：

5.2.1)将有效药物组合数据集D₄中包含的二元药物相互作用作为正样本集，统计正样本集中所涉及的所有药物，构成药物集X_D；

5.2.2)对于每一条正样本，随机保留两药物中的一个药物，并随机选取药物集X_D中相异于保留药物的另一药物，将保留药物和选取药物构成药物对，并判断正样本集中是否包含该药物对：

若不包含，则将药物对中的两药物记作一条负样本；

若包含，则重新随机选择药物集X_D中另一药物构造新的药物对，直至正样本集中不包含该对药物，最终将新药物对中的两药物记作一条负样本；

5.2.3)重复5.2.2)，得到与正样本集规模相同的负样本集，即为有效药物组合数据集D₄的负样本集合；

5.3)将5.1)和5.2)的结果加入有标签的下游任务数据集D_F中，得到精调数据集D_F'。

步骤6，基于预训练数据集D_P'和精调数据集D_F'构建总预训练图集合G_P和总精调图集合G_F。

6.1)构建第一预训练图集合G_P1和第一精调图集合G_F1：

6.1.1)为预训练数据集D_P'和精调数据集D_F'中的一组样本中包含的两个药物所对应的分子图均引入一个超节点，使用虚拟边将超节点与两图中的所有原子连接，得到第一聚合后的分子对图；

6.1.2)根据第一聚合后的分子对图得到图的第一邻接矩阵和第一原子列表；

6.1.3)重复6.1.1)和6.1.2)，用所有样本的第一邻接矩阵和第一原子列表构成第一预训练图集合G_P1和第一精调图集合G_F1；

6.2)构建第二预训练图集合G_P2和第二精调图集合G_F2：

6.2.1)为预训练数据集D_P'和精调数据集D_F'中的一组样本中包含的两个药物所对应的分子图均引入三个超节点，先使用虚拟边将其中两个超节点与各自对应药物分子图中的所有原子进行连接，再使用一个全局超节点连接每个药物对应的超节点，得到第二聚合后的分子对图；

6.2.2)根据第二聚合后的分子对图得到图的第二邻接矩阵和第二原子列表；

6.2.3)重复6.2.1)和6.2.2)，用所有样本的第二邻接矩阵和第二原子列表构成第二预训练图集合G_P2和第二精调图集合G_F2；

6.3)根据6.1)和6.2)的结果，得到总预训练图集合G_P＝{G_P1,G_P2}和总精调图集合G_F＝{G_F1,G_F2}。

步骤7，基于药物分子对表示学习的预训练任务构建药物分子对表示学习模型。

7.1)分别设置药物分子对表示学习的遮蔽原子预测和S_AB分数预测这两种预训练任务的损失函数：

7.1.1)设置药物分子对表示学习的“遮蔽原子预测”训练任务的损失函数：

7.1.1.1)随机选择药物对分子图中15％的原子，对于只有很少量原子的图，确保至少选择一个原子进行遮蔽，且不允许选择超级节点；

7.1.1.2)对于每个选定的原子，以80％的概率将其遮蔽，10％的概率将其随机替换为其它原子，10％的概率令其保持不变；

7.1.1.3)以原始原子标签作为训练模型的基本事实，该预测任务的损失函数选取交叉熵损失，且仅在被遮蔽原子处计算损失；

7.1.2)设置药物分子对表示学习的“S_AB分数预测”训练任务的损失函数：

7.1.2.1)对于包括靶标信息和药物的结构信息的D_S数据集中的每一对药物A和药物B，将其对应的所有靶标基因投影至人类蛋白质相互作用网络N中；

7.1.2.2)计算靶标重叠分数S_AB值，以描述药物A的靶标模块与药物B的靶标模块之间的网络邻近度：

其中，<d_AB>表示药物A的靶标模块与药物B的靶标模块之间的平均最短距离，<d_AA>表示药物A的靶标模块内部结点之间的平均最短距离，<d_BB>表示药物B的靶标模块内部结点之间的平均最短距离，若S_AB<0，则两个药物的靶标模块在同一个网络邻域内重叠，若S_AB≥0，则两个药物的靶标模块在该网络上拓扑分离；

7.1.2.3)将计算得到的靶标重叠分数S_AB记为对应样本的回归标签S，使用两种不同的归一化方法来处理回归标签S，得到归一化后的回归标签S^*，

使用min-max方法归一化：

使用z-score方法归一化：

其中min(S)和max(S)分别表示所有S中的最小值和最大值，μ表示所有S值的均值，σ表示所有S值的方差；

7.1.2.4)由归一化后的回归标签值S^*计算均方差损失，作为“S_AB分数预测”训练任务的损失函数；

7.2)构建由定长向量表示的两个并行输入层；

7.2.1)构建一个存储原子类型的字典，用于描述分子图中的原子：

7.2.1.1)统计分析DrugBank数据库中的药物分子，将13个出现频率最高的原子类型收录进字典，分别为：[H],[C],[N],[O],[F],[S],[Cl],[P],[Br],[I],[Na],[Fe],[Mg]；

7.2.1.2)对于其它少遇到的原子类型，引入未知标签，统一用[UNK]表示；

7.2.1.3)对于引入的超节点，统一采用标记[SUP]来表示；

7.2.1.4)整合上述信息，构建出包含[H]、[C]、[N]、[O]、[F]、[S]、[Cl]、[P]、[Br]、[I],[Na],[Fe],[Mg],[UNK],[SUP],[MASK]这些字符的字典；

7.2.2)根据第一聚合后的分子对图和第二聚合后的分子对图得到两种类型的原子列表

L，将原子列表L通过7.2.1)中的字典字符表示，并根据“S_AB分数预测”任务得到回归

标签S，再将二者拼接得到模型输入层的两种定长向量；

7.3)建立由N个Transformer编码器堆叠构成的隐藏层；

7.4)建立由全连接的神经网络构成的输出层，即对于“遮蔽原子预测”任务，输出层为与字典相同维度的全连接神经网络，对于“S_AB分数预测”任务，输出层为输出维度为1的全连接神经网络；

7.5)将7.2)中的输入层、7.3)中的隐藏层和7.4)中的输出层依次串联，得到药物分子对表示学习模型。

步骤8，对药物分子对表示学习模型进行预训练，得到分子编码器E。

8.1)将输入层、编码模块和预训练相关模块的所有参数随机初始化；

8.2)将总预训练图集合G_P中的药物对输入到分子对表示学习模型的隐藏层，得到总预训练图集合G_P中样本对应的低维特征和超节点嵌入向量；

8.3)将预训练图集合G_P中样本对应的低维特征输入到药物分子对表示学习模型的输出层，得到每个被遮蔽原子所对应原子的概率值集合，计算被遮蔽原子与原子本身标签之间的交叉熵损失，作为分类损失L_C：

其中m是样本数，y_i是样本i的标签，p_i是样本i被预测为正类的概率；

8.4)将预训练图集合G_P中样本对应的超节点嵌入向量输入到药物分子对表示学习模型的输出层，通过输出层将其转换为一维向量，并与预先计算的S_AB分数计算均方误差损失，作为回归损失L_R：

其中，m为样本数，y_i为样本i的标签，y_i′是模型输出的预测分数；

8.5)将交叉熵损失和均方误差损失的总和定义为药物分子对表示学习模型的整体损失L_T，即L_T＝L_C+L_R；

8.6)设置最大迭代次数T为10，当前迭代次数为i，学习率为1e-4，批次大小选择为64或128，Transformer编码器的层数为3，计算多头注意力分数时的头数为2，隐藏层输出的嵌入向量维数选自[64,128,256]；

8.7)根据第i次迭代预测所得的y′_i和p_i由公式L_T计算当前迭代下的损失，将该损失进行反向传播，并根据其计算隐藏层和输出层中的参数梯度，再采用标准批量梯度下降算法和Adam优化器更新隐藏层和输出层中的参数；

8.8)重复8.7)，直至损失值L_T不再降低或达到最大迭代次数T，则停止参数更新，获得训练好的分子编码器E。

步骤9，对分子编码器E进行精调得到预测器P。

9.1)固定预训练模型的嵌入层和Transformer层，并将预训练头，即预训练阶段的最后一层替换为下游任务相关的预测头，根据下游任务的不同，构建不同的预测头；

9.2)针对不同的分类任务，选取相应的交叉熵作为预测头处的损失函数L_C'，

在二分类任务中，其公式为：

在多分类任务中，其计算公式为：

其中，k表示样本标签值，第i个样本预测为第k个标签的概率为p_i,k，N为样本数；

9.3)经多次试验评估，设置最大精调迭代次数F为250，当前迭代次数为t，学习率为5e-5，批次大小为64，dropout rate为0.5；

9.4)根据第t-1次迭代时，预测头处预测所得的第i个样本预测为第k个标签的概率p_i,k，通过预测头处的损失函数L_C'计算当前迭代t下的损失，将该损失进行反向传播，并先根据其计算预测头中的参数梯度，再采用标准批量梯度下降算法、Adam优化器和提前停止策略对预测头中的参数进行更新；

9.5)重复9.4)，直至损失L_C'不再降低或达到最大迭代次数F，则停止参数更新，完成对分子编码器E的精调，获得预测器P。

步骤10，通过预测器P获得药物相互作用效果的预测结果。

将总精调图集合G_F的测试样本集输入预测器P进行药物相互作用效果预测：

对于多分类样本D₃，预测器P输出一个86维的向量，分别对应86种药物相互作用，其中预测分数最高的相互作用类别即为预测结果；

对于二分类样本D₁、D₂和D₄，预测器P输出一个1维的预测分数，若预测分数大于0.5，则表示存在相互作用；反之，不存在相互作用。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1.仿真条件

仿真实验在Intel(R)Xeon(R)Gold 5115 CPU(20核心)、主频2.40GHz，内存48G，Ubuntu平台上的Python 3.7结合tensorflow2.0框架进行。

数据集：二分类药物相互作用数据集D₁、D₂，多分类药物相互作用数据集D₃和有效药物组合二分类数据集D₄；

2.仿真内容：

仿真1,在二分类药物相互作用数据集D₁上，分别采用本发明和现有6种药物相互作用预测的方法LR、Nat.Prot、Mol2Vec、MolVAE、DeepDDI和CASTER，在相同超参数下进行预测，结果如表1所示。其中：

ROC-AUC是接受者操作特性曲线ROC的曲线下面积，PR-AUC是精确召回曲线下面积，ROC-AUC和PR-AUC均是衡量预测准确率的指标，F1是综合了召回率和精度的综合指标，数值越大性能越好，#Parameters表示模型训练过程中的总参数量，下划线所标识的结果为本项性能所对应的最优结果。

表1不同模型在二分类的药物相互作用数据集上的性能对比

模型名称	ROC-AUC	PR-AUC	F1	#Parameters
					LR	0.802±0.001	0.779±0.001	0.741±0.002	1,723
Nat.Prot	0.853±0.001	0.848±0.001	0.714±0.001	N/A
					Mol2Vec	0.879±0.006	0.861±0.005	0.798±0.007	8,061,953
MolVAE	0.892±0.009	0.877±0.009	0.788±0.033	8,012,292
					DeepDDI	0.886±0.007	0.871±0.007	0.817±0.007	8,517,633
CASTER	0.910±0.005	0.887±0.008	0.843±0.005	7,813,429
					本发明	0.994±0.001	0.993±0.002	0.965±0.001	416,257

由表1可见，本发明在各项性能上均优于现有同任务模型，且在具有更高精度的同时，也具有较低的波动性，其参数规模较小，相较于现有方法Mol2Vec、MolVAE、DeepDDI和CASTER本发明的参数量要低一个数量级，更便于模型的存储与迁移。

仿真2,在多分类药物相互作用数据集D₃上，分别采用本发明和现有5种药物相互作用预测的方法ComplEx、KBGAN、SimplE、RotatE和Dai et al.，在相同超参数下进行预测，结果如表2所示。

表2不同模型在多分类的药物相互作用数据集上的性能对比

模型名称	ROC-AUC	PR-AUC
			ComplEx	0.9355	0.7419
KBGAN	0.9436	0.7562
			SimplE	0.9310	0.7499
RotatE	0.9348	0.7676
			Daietal.(ComplEx)	0.9527	0.7615
Daietal.(SimplE)	0.9431	0.7693
			Daietal.(RotatE)	0.9480	0.7899
本发明	0.9781	0.9129

表2中ROC-AUC是接受者操作特性曲线ROC的曲线下面积，PR-AUC是精确召回曲线下面积，ROC-AUC和PR-AUC均是衡量预测准确率的指标，下划线所标识的结果为本项性能所对应的最优结果。

由表2可见，本发明在上述两项性能上均优于现有同任务模型。

仿真3,在二分类药物数据集D₁、D₂和D₄对应的测试数据上，使用本发明的预测器P进行新型药物相互作用的预测，并对预测结果进行排名。

对于前两个药物相互作用数据集D₁和D₂，其测试集中的样本量分别为19,016和16,608，其选取排名前1000的药物对中新预测出的药物对。

对于有效药物组合数据集D₄，其测试集中的样本量只有142个，选取排名前10的药物对中新预测出的药物对。

对上述三种数据集新预测的药物对排名结果如表3所示，其中标有√则说明该新预测的药物对之间的相互作用关系能够从多方文献中得到验证。

表3不同数据集所对应的测试数据上新预测所得的药物的验证结果

由表3可见，本发明提出的方法具有预测新的药物-药物相互作用和有效药物组合的潜能，且预测所得的结果具有很高的可靠性，能够从多方面进行验证。

上述仿真结果表明，本发明无论是在多分类数据集上还是二分类数据集上都可以取得良好的预测结果，其具有良好的应用前景。

Claims

1.一种基于预训练模型和分子图的药物相互作用效果预测方法，其特征在于，包括如下：

(7c)建立由N个Transformer编码器堆叠构成的隐藏层；

2.根据权利要求1所述的方法，其中，所述(1)中对不同来源的药物数据进行搜集整理，构建大规模无标签数据集D_P，实现如下：

(1a)从DrugBank数据库下载所有与药物相关的结构数据，选用的数据类型为“approve”，构成包含2675个已批准药物的数据集D_A；

(1b)在pubChem数据库中搜索表示药物结构信息的分子输入线性表示字符串SMILE，用于对D_A数据集中缺省的数据进行补充，并对该数据集中无法转换的SMILE字符串进行替换，得到包含2501个药物的数据集D_P。

3.根据权利要求1所述的方法，其中，所述(4)中对无标签数据集D_P中的所有药物进行过滤和组合得到预训练数据集D_P'＝{D_L,D_S}，实现如下：

(4a)对无标签数据集D_P中的所有药物进行两两组合，得到仅包括药物结构信息的D_L数据集，其中药物对数量为310万；

(4b)统计蛋白质相互作用网络N中所有编码蛋白质结点的基因信息，得到基因集合X_G，统计无标签数据集D_P中每个药物的靶标信息，过滤掉不在基因集X_G中的靶标，若对应药物的靶标信息为空，则删除该药物，对于剩余药物将其进行两两组合，得到包括靶标信息和药物的结构信息的D_S数据集，其中药物对数量为130万。

4.根据权利要求1所述的方法，其中，所述(5)中对有标签的下游任务数据集D_F随机采取负样本得到精调数据集D_F'，实现如下：

(5a)对于有标签的下游任务数据集D_F＝{D₁,D₂,D₃,D₄}中缺失负样本的药物相互作用二分类数据集D₂，提取其中药物-药物相互作用关系矩阵中对应值为1的药物对构成正样本集合，并在相互作用关系值为0的药物对中随机选取与正样本等量的药物对，构成药物相互作用二分类数据集D₂的负样本集合；

(5b)对于有标签的下游任务数据集D_F＝{D₁,D₂,D₃,D₄}中缺失负样本的有效药物组合数据集D₄，通过其正样本来生成负样本，得到有效药物组合数据集D₄的负样本集合：

(5b1)统计有效药物组合数据集D₄的正样本集中所涉及的所有药物，构成药物集X_D；

(5b2)对于每一条正样本，随机保留其药物对中的一个药物，并随机选取药物集X_D中相异于保留药物的另一药物，若保留药物和选取药物构成的药物对是正样本集中的有效药物对，则重新随机选择药物集X_D中另一药物，直至正样本集中不存在该对药物，并将两药物记作一条负样本药物对；

(5b3)重复(5b2)，得到与正样本集规模相同的负样本集，即为有效药物组合数据集D₄的负样本集合；

(5c)将(5a)和(5b)的结果加入有标签的下游任务数据集D_F中，得到精调数据集D_F'。

5.根据权利要求1所述的方法，其中，所述(6)中基于预训练数据集D_P'和精调数据集D_F'构建总预训练图集合G_P和总精调图集合G_F，实现如下：

(6a)构建第一预训练图集合G_P1和第一精调图集合G_F1：

(6a1)为预训练数据集D_P'和精调数据集D_F'中的一组样本中包含的两个药物所对应的分子图引入一个超节点，使用虚拟边将超节点与两图中的所有原子连接，得到第一聚合后的分子对图；

(6a2)根据第一聚合后的分子对图得到图的第一邻接矩阵和第一原子列表；

(6a3)重复(6a1)和(6a2)，用所有样本的第一邻接矩阵和第一原子列表构成第一预训练图集合G_P1和第一精调图集合G_F1；

(6b)构建第二预训练图集合G_P2和第二精调图集合G_F2：

(6b1)为预训练数据集D_P'和精调数据集D_F'中的一组样本中包含的两个药物所对应的分子图引入三个超节点，先使用虚拟边将其中两个超节点与各自对应药物分子图中的所有原子进行连接，再使用一个全局超节点连接每个药物对应的超节点，得到第二聚合后的分子对图；

(6b2)根据第二聚合后的分子对图得到图的第二邻接矩阵和第二原子列表；

(6b3)重复(6b1)和(6b2)，所有样本的第二邻接矩阵和第二原子列表构成第二预训练图集合G_P2和第二精调图集合G_F2；

(6c)根据(6a)和(6b)的结果，得到总预训练图集合G_P＝{G_P1,G_P2}和总精调图集合G_F＝{G_F1,G_F2}。

6.根据权利要求1所述的方法，其中，所述(7a)中设置药物分子对表示学习的“遮蔽原子预测”训练任务的损失函数，实现如下：

(7a1)随机选择药物对分子图中15％的原子，对于只有很少量原子的图，确保至少选择一个原子进行遮蔽，且不允许选择超级节点；

(7a2)对于每个选定的原子，以80％的概率将其遮蔽，10％的概率将其随机替换为其它原子，10％的概率令其保持不变；

(7a3)以原始原子标签作为训练模型的基本事实，该训练任务的损失函数选取交叉熵损失，且仅在被遮蔽原子处计算损失。

7.根据权利要求1所述的方法，其中，所述(7a)中设置药物分子对表示学习的“S_AB分数预测”训练任务的损失函数，实现如下：

(7a4)对于包括靶标信息和药物的结构信息的D_S数据集中的每一对药物A和B，将其靶标投影至人类蛋白质相互作用网络N中；

(7a5)计算靶标重叠分数S_AB值，以描述药物A的靶标模块与药物B的靶标模块之间的网络邻近度：

其中，d_AB表示药物A的靶标模块与药物B的靶标模块之间的平均最短距离，d_AA表示药物A的靶标模块内部结点之间的平均最短距离，d_BB表示药物B的靶标模块内部结点之间的平均最短距离；

(7a6)将计算得到的靶标重叠分数S_AB记为对应样本的回归标签S，使用两种不同的归一化方法来处理回归标签S，得到归一化后的回归标签S^*，

使用min-max方法归一化：

使用z-score方法归一化：

(7a7)“S_AB分数预测”训练任务的损失函数为由归一化后的回归标签值S^*计算所得的均方差损失。

8.根据权利要求1所述的方法，其中，所述(7b)中构建模型输入层的定长向量，实现如下：

(7b1)构建一个存储原子类型的字典，用于描述分子图中的原子：

(7b11)统计分析DrugBank中的药物分子，将13个出现频率最高的原子类型收录进字典，分别为：[H],[C],[N],[O],[F],[S],[Cl],[P],[Br],[I],[Na],[Fe],[Mg]；

(7b12)对于其它原子类型，引入未知标签，统一用[UNK]表示；

(7b13)对于引入的超节点，统一采用标记[SUP]来表示；

(7b14)整合上述信息，构建出包含[H]、[C]、[N]、[O]、[F]、[S]、[Cl]、[P]、[Br]、[I],[Na],[Fe],[Mg],[UNK],[SUP]这些字符的字典；

(7b2)根据聚合超节点后的分子对图得到原子列表L，将原子列表L通过(7b1)中的字典字符表示，并根据(7a)所述的“S_AB分数预测”任务得到回归标签S，再将二者拼接得到模型输入层的定长向量。

9.根据权利要求1所述的方法，其中，所述(8)中对药物分子对表示学习模型进行预训练得到分子编码器E，实现如下：

(8a)将输入层、编码模块和预训练相关模块的所有参数随机初始化；

(8b)将总预训练图集合G_P中的药物对输入到分子对表示学习模型的隐藏层，得到总预训练图集合G_P中样本对应的低维特征和超节点嵌入向量；

(8c)将预训练图集合G_P中样本对应的低维特征输入到药物分子对表示学习模型的输出层，得到每个被遮蔽原子所对应原子的概率值集合，计算被遮蔽原子与原子本身标签之间的交叉熵损失：L_C代表分类损失，其中m是样本数，y_i是样本i的标签，p_i是样本i被预测为正类的概率；

(8d)将预训练图集合G_P中样本对应的超节点嵌入向量输入药物分子对表示学习模型的输出层，通过输出层将其转换为一维向量，并与预先计算的S_AB分数计算均方误差损失：其中L_R代表回归损失，m为样本数，y_i为样本i的标签，y′_i是模型输出的预测分数；

(8e)将药物分子对表示学习模型整体损失L_T定义为交叉熵损失和均方误差损失的总和，即L_T＝L_C+L_R；

(8f)设置最大迭代次数为T，当前迭代次数为i；

(8g)根据第i次迭代预测所得的y′_i和p_i由公式L_T计算当前迭代下的损失，将该损失进行反向传播，并根据其计算隐藏层和输出层中的参数梯度，再采用标准批量梯度下降算法和Adam优化器更新隐藏层和输出层中的参数；

(8h)重复(8g)，直至损失值L_T不再降低或达到最大迭代次数T，则停止参数更新，获得训练好的分子编码器E。

10.根据权利要求1所述的方法，其中，所述(9)中对分子编码器E进行精调得到预测器P，实现如下：

(9a)固定预训练模型的嵌入层和Transformer层，并将预训练头，即预训练阶段的最后一层替换为下游任务相关的预测头，根据下游任务的不同，构建不同的预测头；

(9b)选取交叉熵作为预测头处的损失函数：

在二分类任务中，其公式为：

在多分类任务中，其计算公式为：

其中k表示样本标签值，第i个样本预测为第k个标签的概率为p_i,k，N为样本数；

(9c)设置最大精调迭代次数为F，当前迭代次数为i；

(9d)根据第i次迭代预测所得的第i个样本预测为第k个标签的概率p_i,k，由预测头处的损失函数L_C’计算当前迭代下的损失，将该损失进行反向传播，并根据其计算预测头中的参数梯度，再采用标准批量梯度下降算法、Adam优化器和提前停止策略对预测头中的参数进行更新；

(9e)重复(9d)，直至损失L_C'不再降低或达到最大迭代次数F，则停止参数更新，完成对分子编码器E的精调，获得预测器P。