CN116313153A

CN116313153A - 一种结合非临床数据的药物不良反应预测方法和系统

Info

Publication number: CN116313153A
Application number: CN202310530341.9A
Authority: CN
Inventors: 周晓华; 李昊轩; 胡陶钧
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-06-23
Anticipated expiration: 2043-05-12
Also published as: CN116313153B

Abstract

本发明涉及一种结合非临床数据的药物不良反应预测方法和系统，属于药物不良反应预测技术领域，解决了现有技术中未利用非临床数据、预测准确性和效率低的问题。方法包括以下步骤：获取药物的非临床数据以及药物与不良反应关系数据，基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据；构建结合深度药物表示和浅层协同过滤的联合训练网络模型，基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型；获取待预测药物的非临床数据，基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。提高了药物不良反应预测的准确性和预测效率。

Description

一种结合非临床数据的药物不良反应预测方法和系统

技术领域

本发明涉及药物不良反应预测技术领域，尤其涉及一种结合非临床数据的药物不良反应预测方法和系统。

背景技术

药物不良反应是指由药物引起的有害效应，这些效应对患者的正常治疗具有负面影响。迄今为止，已经报道了数千种不良反应(Adverse Drug Reaction，ADR)，其中许多导致了严重的不良后果。及时和有效地预警ADR可以帮助调整和指导药物生产，减少副作用。因此，在医疗保健和药物发现方面，准确预测ADR对于减少患者死亡和提高药物安全性至关重要。

许多以往的方法基于关联规则挖掘和统计显著性检验，以确定药物-ADR关联的重要性，但在预测任务上表现受限。一类替代的基于深度学习的方法采用药物监测网络、集成方法和深度神经模型，已经为特定的不良反应实现了良好的预测性能。然而，由于药物可能同时引起多种ADR，直接使用单标签预测方法会导致预测性能低下且耗时较长。多标签预测仍然存在巨大的挑战，例如数据稀疏性和信息可用性。

协同过滤方法可以高效、准确地预测药物和多种ADR之间的关系。其基本动机是在临床数据中，具有相似相互作用的药物往往具有相似的ADR。例如，矩阵分解和神经矩阵分解首先为每个药物和ADR学习潜在嵌入，然后执行药物-ADR预测。然而，与用户和物品具有对称性的推荐系统不同，药物和ADR的数据通常包含非临床药物特征和记录的临床药物-ADR相互作用，而ADR特征（例如咳嗽和发热）几乎无法获取和处理。因此，那些基于潜在嵌入的协同过滤方法忽略了这些可用的非临床数据（例如药物描述符），这些数据可以显著提高预测性能。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种结合非临床数据的药物不良反应预测方法和系统，用以解决现有预测方法未利用非临床数据、预测准确性和效率低的问题。

一方面，本发明实施例提供了一种结合非临床数据的药物不良反应预测方法，包括以下步骤：

获取药物的非临床数据以及药物与不良反应关系数据，基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据；

构建结合深度药物表示和浅层协同过滤的联合训练网络模型，基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型；

获取待预测药物的非临床数据，基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。

基于上述技术方案的进一步改进，所述联合训练网络模型包括：

深度药物表示模块，用于基于药物的非临床数据提取药物的药物表示；

浅层潜在协同过滤模块，用于分别学习药物和不良反应的潜在向量，基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量；

药物协同过滤模块，用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量；

预测模块，用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。

基于上述技术方案的进一步改进，浅层潜在协同过滤模块将药物的潜在向量和不良反应的潜在向量拼接，将拼接后的向量输入前馈神将网络中提取协同过滤向量。

基于上述技术方案的进一步改进，所述药物协同过滤模块将药物的药物表示和不良反应的潜在向量按位相乘得到药物协同过滤向量。

基于上述技术方案的进一步改进，药物的非临床数据包括药物的物理化学描述符和生物描述符。

基于上述技术方案的进一步改进，所述深度药物表示模块将所述物理化学描述符和生物描述符拼接，将拼接后的描述符输入前馈神经网络得到药物的药物表示。

基于上述技术方案的进一步改进，所述联合训练网络模型的损失函数表示为：

；

其中，

表示第/>

种药物和第/>

种不良反应间的真实交互关系，/>

表示模型预测得到的第/>

种药物到第/>

种不良反应的发生率，/>

表示模型参数，/>

表示药物的数量，/>

表示不良反应的数量。

基于上述技术方案的进一步改进，基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据，包括：

对所有药物和不良反应进行编码；

以药物的编码、不良反应编码以及药物的非临床数据为训练样本的输入数据，以药物和不良反应的关系作为训练样本的标签构建训练样本数据。

与现有技术相比，本发明实施例提供的结合非临床数据的药物不良反应预测方法，将多标签ADR预测问题形式化为非对称协同过滤问题，通过结合非临床数据全面考虑药物的临床和非临床数据，为准确预测药物的不良反应提供数据基础，通过构建结合深度药物表示和浅层协同过滤的联合训练网络模型，从而融合学习药物和不良反应的低维潜在嵌入以及药物的高维深度表示，从而捕获不同水平的药物-ADR关联关系，提高了药物不良反应预测的准确性和效率。可及时预警ADR，降低患者因副作用导致死亡的情况发生率，从而减少不良事件的发生，提高药品的安全性。

另一方面，本发明实施例提供了一种结合非临床数据的药物不良反应预测系统，包括以下模块：

训练样本构建模块，用于获取药物的非临床数据以及药物与不良反应关系数据，基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据；

模型训练模块，用于构建结合深度药物表示和浅层协同过滤的联合训练网络模型，基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型；

关系预测模块，用于获取待预测药物的非临床数据，基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例结合非临床数据的药物不良反应预测方法的流程图；

图2为本发明实施例结合非临床数据的药物不良反应预测系统的框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种结合非临床数据的药物不良反应预测方法，如图1所示。

S1、获取药物的非临床数据以及药物与不良反应关系数据，基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据；

S2、构建结合深度药物表示和浅层协同过滤的联合训练网络模型，基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型；

S3、获取待预测药物的非临床数据，基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。

具体的，临床数据包含来自电子健康或不良事件报告系统的药物-ADR记录。根据临床数据可以得到药物与不良反应关系数据，即药物-ADR交互矩阵

，其中，

表示药物的数量，/>

表示不良反应的数量。交互矩阵/>

中的每个元素/>

表示为：

。

药物的非临床数据包括药物的物理化学描述符和生物描述符，通过药物的物理化学描述符和生物描述符从而全面的考虑药物的物理、化学和生物特征信息，由于ADR是对药物生物学复杂反应的结果，这些非临床数据对ADR预测非常有用，通过结合临床数据和非临床数据，显著提高了预测性能。

实施时，采用PubChem作为药物的物理、化学描述符（PC-描述符），使用Bio2RDF作为药物的生物描述符（BIO-描述符），并分别用

和/>

表示。对于每个药物，PubChem提供了881位结构化PC描述符，而Bio2RDF提供了6,712维度的化学、物理和生物学BIO描述符。将这些PC-描述符和BIO-描述符连接成7,593维度。

具体的，步骤S1中基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据，包括：

S11、对所有药物和不良反应进行编码。

实施时，可采用onehot编码方式分别对药物和不良反应进行编码。

S12、以药物的编码、不良反应编码以及药物的非临床数据为训练样本的输入数据，以药物和不良反应的关系作为训练样本的标签构建训练样本数据。

实施时，以药物的物理、化学、生物描述符非临床数据，药物的onehot编码以及不良反应的onehot编码作为训练样本中的输入数据，以药物与不良反应的关系（交互矩阵中元素

的值）为标签，构建训练样本数据。

通过构建药物-ADR交互矩阵，多标签 ADR 预测问题被形式化为一个协同过滤问题，以准确预测药物-ADR发生率。

具体而言，基于模型的预测方法被抽象为学习

，其中

是第/>

种药物至第/>

种ADR的预测发生率，/>

是参数化预测模型，/>

是模型参数。

为了在协同过滤中准确估计参数

，我们将每个药物和ADR关联到一个实值隐含特征向量，分别表示为/>

和/>

，并通过神经网络进行训练,现有方法采用许多标准的协同过滤方法，例如矩阵分解(MF)，使用/>

和/>

的内积来预测药物-ADR 交互，形式化表示为：

，

其中，

表示潜在空间的维度，/>

和/>

均为/>

维的向量。也可以使用神经网络代替矩阵分解作为模型主干：

，

其中，

，/>

分别表示药物和ADR的潜在因子矩阵。然而，现有方法没有充分利用易于获取的非临床数据中的药物特征，导致在实践中性能亚优，即预测准确率低。

本发明考虑基于内容的协同过滤，通过构建结合深度药物表示和浅层协同过滤的联合训练网络模型，进一步利用包含有关药物的化学、物理和生物信息的非临床数据，从而提高药物-ADR关系预测的准确性。

得到训练样本数据后，构建结合深度药物表示和浅层协同过滤的联合训练网络模型（表示为ADRNet）。具体的，构建的联合训练网络模型包括：

具体的，所述深度药物表示模块将所述物理化学描述符和生物描述符拼接，将拼接后的描述符输入前馈神经网络得到药物的药物表示。通过深度药物表示模块从非临床数据中提取深度药物特征，为准确预测药物与多种ADR之间的关系提供指导。

具体的，浅层潜在协同过滤模块不直接使用药物特征，而是学习药物和不良反应的潜在向量，采用纯协同过滤方法，提取药物和不良反应的协同过滤特征。

实施时，浅层潜在协同过滤模块的输入为药物编码和不良反应编码，模块通过学习得到每个药物和每种不良反应分别对应的潜在向量，即药物的潜在向量

和不良反应的潜在向量/>

是模型的更新参数。实施时，每个药物的潜在向量和每个不良反应的潜在向量均为/>

维的向量。

具体的，浅层潜在协同过滤模块将药物的潜在向量和不良反应的潜在向量拼接，将拼接后的向量输入前馈神将网络中提取协同过滤向量，从而捕捉学习到的药物的潜在向量

和不良反应的潜在向量/>

之间交互的非线性特征。与深度药物表示模块相比，浅层潜在协同过滤模块不直接使用药物特征，因此具有更浅的层数。然而，与神经协同过滤(NCF)相比，由于采用联合训练，学习到的药物表示可以进一步指导ADR潜在向量的训练，这提供了比仅使用临床交互进行协同过滤更强的监督信号，从而使得模型具有更准确的预测结果。

并且，由于采用深层网络和浅层网络的联合训练，可以进一步提高模型的“记忆”和“泛化”能力。具体而言，“记忆”能力意味着模型直接学习并利用样本数据中药物和ADR的共现频率。对于某些特定的药物生物特征，它们是如此“强大”，以至于会引起特定的ADR，因此可以预测更加准确。与深度网络相比，简单模型对于这些“强大”的特征具有更好的“记忆”能力。相反，“泛化”能力是指让模型挖掘药物-ADR的关联性，期望模型能够准确地预测稀疏甚至未观察到的药物或ADR特征。深度模型执行比简单模型更高阶的特征交叉，从而具有更强的“泛化”能力。与仅基于观察到的特征的Wide&Deep模型不同，本发明的联合训练网络模型有效地将深度药物表示网络和浅层协同过滤网络相结合，并相互协同训练，从而具有更高的准确性和模型泛化能力。

为了进一步将结合非临床数据和临床数据，本发明构建的联合训练网络模型还包括药物协同过滤模块，所述药物协同过滤模块将药物的药物表示和不良反应的潜在向量按位相乘得到药物协同过滤向量。

通过药物协同过滤模块将药物表示与不良反应ADR的潜在向量相结合，从而使得药物表示保持与ADR的强关联，由于药物表示是从广泛的非临床数据中获得的，包含了药物的广泛结构、化学、物理和生物特征，并且ADR潜在向量是在深度表述与浅层协同过滤之间共享的，从而更加准确的进行药物-ADR预测。

得到药物表示、协同过滤向量和药物协同过滤向量后，联合训练网络模型通过预测模块进行药物与ADR关系预测。例如可将药物表示、协同过滤向量和药物协同过滤向量输入全连接层得到药物与不良反应关系预测值。ADRNet具有浅层协同过滤层和深层药物表示层，可以学习不良事件的低维潜在嵌入，并利用高维药物描述符来结合协同过滤和表示学习的优点，从而具有高的预测性能。

实施时，可采用mini-batch随机优化算法来反向传播深浅网络的梯度，并通过最小化训练损失函数来训练预测模型的神经网络参数，以及药物潜在向量

和ADR潜在向量

。模型的损失函数表示为：

；

其中，

表示第/>

种药物和第/>

种不良反应间的真实交互关系，/>

表示模型预测得到的第/>

种药物到第/>

种不良反应的发生率，/>

表示模型参数，/>

表示药物的数量，/>

表示不良反应的数量。

本发明有效地结合了临床和包含药物结构、物理、化学和生物信息的非临床数据，可以高效准确地预测药物和多种ADR之间的关系，并且由于结合浅层网络和深层网络进行联合学习，从而具有更好的“记忆”和“泛化”能力，进一步提高了模型的预测性能。可以同时预测药物可能引发的多种ADR，可以更全面地评估药物的不良反应风险，避免由于单标签预测方法的局限性导致的误判和漏判。从而减少不良事件的发生，提高药品的安全性。可及时预警ADR，降低患者因副作用导致死亡的情况发生率。

为了进一步说明本发明的效果，在两个常用的真实临床数据集Liu's 和AEOLUS上采用本发明提出的结合非临床数据的药物不良反应预测方法进行药物-不良反应预测。实施时，只选择在DrugBank中出现过的药物，并且对每个不良反应要求至少在50个药物上发生过。具体来说，Liu's 数据集包含了828种药物和1,385种不良反应的58,810条药物-不良反应关系，而AEOLUS数据集包含了1,358种药物和2,707种不良反应的605,121条药物-不良反应关系。具体数据信息如表1所示。

表1 数据集信息

非临床数据的药物描述符来自数据集PubChem和Bio2RDF。

采用两个常见的指标来评估本发明的预测性能，即ROC曲线下面积（AUC）和精度召回曲线下面积（AUPR）。实施时，所有实验都是在PyTorch上实现的，以Adam作为优化器，使用NVIDIA GeForce RTX 3090作为计算资源。在{0.001,0.005,0.01,0.05}范围内调整学习率，在{1e-6,…

,1e-3}范围内调整权重衰减，以及在{16,32,64,128,256,512,1024}范围内调整

和ADR潜在向量/>

的维度/>

。使用10折交叉验证进行评估。

本发明的模型与现有模型在Liu's和AEOLUS数据集上的表现如表2和表3所示。在表2和表3中，我们将最佳模型加粗，将最佳单标签预测模型和协同过滤模型分别加下划线，

表示使用配对t校验与最佳基准模型相比，结果具有统计显著性（p-value≤0.01）。通过表2和表3的结果可以看出，SVM和Wide&Deep分别作为最佳单标签预测模型和协同过滤，而本发明提出的ADRNet在AUC和AUPR方面优于最佳基线，在0.01的统计显著性水平上表现更佳。一方面，与纯协同过滤（例如MF、NCF和NMF）相比，ADRNet显示出明显的性能提升，这是由于有效利用非临床数据中的药物描述符所解释的。另一方面，与基于内容的协同过滤（例如PNN、FNN和Wide&Deep）相比，ADRNet进一步结合了药物和ADR的潜在向量。由于潜在变量模型和基于特征的深度模型通常捕获不同水平的药物-ADR关联，ADRNet可以有效地将两者结合起来，在实践中实现更强的性能。

此外，表2和表3中比较了各种方法的运行时间。基于单标签的SVM具有最昂贵的时间成本，而基于注意机制的AFM在两个数据集中的时间最短，这是由于通过用注意机制替换深度网络显着减少了参数数量。与基于内容的协同过滤相比，由于深度网络与潜在协同过滤的联合训练导致更快的收敛，本发明的ADRNet具有更短的运行时间。

表2在Liu's数据集上药物-不良反应预测模型的性能比较

表3在AEOLUS数据集上药物-不良反应预测模型的性能比较

本发明的一个具体实施例，公开了一种结合非临床数据的药物不良反应预测系统，如图2所示，包括以下模块：

上述方法实施例和系统实施例，基于相同的原理，其相关之处可相互借鉴，且能达到相同的技术效果。具体实施过程参见前述实施例，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。