CN116313153A - 一种结合非临床数据的药物不良反应预测方法和系统 - Google Patents

一种结合非临床数据的药物不良反应预测方法和系统 Download PDF

Info

Publication number
CN116313153A
CN116313153A CN202310530341.9A CN202310530341A CN116313153A CN 116313153 A CN116313153 A CN 116313153A CN 202310530341 A CN202310530341 A CN 202310530341A CN 116313153 A CN116313153 A CN 116313153A
Authority
CN
China
Prior art keywords
drug
medicine
adverse reaction
clinical data
adverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310530341.9A
Other languages
English (en)
Other versions
CN116313153B (zh
Inventor
周晓华
李昊轩
胡陶钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202310530341.9A priority Critical patent/CN116313153B/zh
Publication of CN116313153A publication Critical patent/CN116313153A/zh
Application granted granted Critical
Publication of CN116313153B publication Critical patent/CN116313153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种结合非临床数据的药物不良反应预测方法和系统,属于药物不良反应预测技术领域,解决了现有技术中未利用非临床数据、预测准确性和效率低的问题。方法包括以下步骤:获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。提高了药物不良反应预测的准确性和预测效率。

Description

一种结合非临床数据的药物不良反应预测方法和系统
技术领域
本发明涉及药物不良反应预测技术领域,尤其涉及一种结合非临床数据的药物不良反应预测方法和系统。
背景技术
药物不良反应是指由药物引起的有害效应,这些效应对患者的正常治疗具有负面影响。迄今为止,已经报道了数千种不良反应(Adverse Drug Reaction,ADR),其中许多导致了严重的不良后果。及时和有效地预警ADR可以帮助调整和指导药物生产,减少副作用。因此,在医疗保健和药物发现方面,准确预测ADR对于减少患者死亡和提高药物安全性至关重要。
许多以往的方法基于关联规则挖掘和统计显著性检验,以确定药物-ADR关联的重要性,但在预测任务上表现受限。一类替代的基于深度学习的方法采用药物监测网络、集成方法和深度神经模型,已经为特定的不良反应实现了良好的预测性能。然而,由于药物可能同时引起多种ADR,直接使用单标签预测方法会导致预测性能低下且耗时较长。多标签预测仍然存在巨大的挑战,例如数据稀疏性和信息可用性。
协同过滤方法可以高效、准确地预测药物和多种ADR之间的关系。其基本动机是在临床数据中,具有相似相互作用的药物往往具有相似的ADR。例如,矩阵分解和神经矩阵分解首先为每个药物和ADR学习潜在嵌入,然后执行药物-ADR预测。然而,与用户和物品具有对称性的推荐系统不同,药物和ADR的数据通常包含非临床药物特征和记录的临床药物-ADR相互作用,而ADR特征(例如咳嗽和发热)几乎无法获取和处理。因此,那些基于潜在嵌入的协同过滤方法忽略了这些可用的非临床数据(例如药物描述符),这些数据可以显著提高预测性能。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种结合非临床数据的药物不良反应预测方法和系统,用以解决现有预测方法未利用非临床数据、预测准确性和效率低的问题。
一方面,本发明实施例提供了一种结合非临床数据的药物不良反应预测方法,包括以下步骤:
获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
基于上述技术方案的进一步改进,所述联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
基于上述技术方案的进一步改进,浅层潜在协同过滤模块将药物的潜在向量和不良反应的潜在向量拼接,将拼接后的向量输入前馈神将网络中提取协同过滤向量。
基于上述技术方案的进一步改进,所述药物协同过滤模块将药物的药物表示和不良反应的潜在向量按位相乘得到药物协同过滤向量。
基于上述技术方案的进一步改进,药物的非临床数据包括药物的物理化学描述符和生物描述符。
基于上述技术方案的进一步改进,所述深度药物表示模块将所述物理化学描述符和生物描述符拼接,将拼接后的描述符输入前馈神经网络得到药物的药物表示。
基于上述技术方案的进一步改进,所述联合训练网络模型的损失函数表示为:
Figure SMS_1
其中,
Figure SMS_3
表示第/>
Figure SMS_7
种药物和第/>
Figure SMS_8
种不良反应间的真实交互关系,/>
Figure SMS_4
表示模型预测得到的第/>
Figure SMS_6
种药物到第/>
Figure SMS_9
种不良反应的发生率,/>
Figure SMS_10
表示模型参数,/>
Figure SMS_2
表示药物的数量,/>
Figure SMS_5
表示不良反应的数量。
基于上述技术方案的进一步改进,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据,包括:
对所有药物和不良反应进行编码;
以药物的编码、不良反应编码以及药物的非临床数据为训练样本的输入数据,以药物和不良反应的关系作为训练样本的标签构建训练样本数据。
与现有技术相比,本发明实施例提供的结合非临床数据的药物不良反应预测方法,将多标签ADR预测问题形式化为非对称协同过滤问题,通过结合非临床数据全面考虑药物的临床和非临床数据,为准确预测药物的不良反应提供数据基础,通过构建结合深度药物表示和浅层协同过滤的联合训练网络模型,从而融合学习药物和不良反应的低维潜在嵌入以及药物的高维深度表示,从而捕获不同水平的药物-ADR关联关系,提高了药物不良反应预测的准确性和效率。可及时预警ADR,降低患者因副作用导致死亡的情况发生率,从而减少不良事件的发生,提高药品的安全性。
另一方面,本发明实施例提供了一种结合非临床数据的药物不良反应预测系统,包括以下模块:
训练样本构建模块,用于获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
模型训练模块,用于构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
关系预测模块,用于获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
基于上述技术方案的进一步改进,所述联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例结合非临床数据的药物不良反应预测方法的流程图;
图2为本发明实施例结合非临床数据的药物不良反应预测系统的框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种结合非临床数据的药物不良反应预测方法,如图1所示。
S1、获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
S2、构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
S3、获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
与现有技术相比,本发明实施例提供的结合非临床数据的药物不良反应预测方法,将多标签ADR预测问题形式化为非对称协同过滤问题,通过结合非临床数据全面考虑药物的临床和非临床数据,为准确预测药物的不良反应提供数据基础,通过构建结合深度药物表示和浅层协同过滤的联合训练网络模型,从而融合学习药物和不良反应的低维潜在嵌入以及药物的高维深度表示,从而捕获不同水平的药物-ADR关联关系,提高了药物不良反应预测的准确性和效率。可及时预警ADR,降低患者因副作用导致死亡的情况发生率,从而减少不良事件的发生,提高药品的安全性。
具体的,临床数据包含来自电子健康或不良事件报告系统的药物-ADR记录。根据临床数据可以得到药物与不良反应关系数据,即药物-ADR交互矩阵
Figure SMS_11
,其中,
Figure SMS_12
表示药物的数量,/>
Figure SMS_13
表示不良反应的数量。交互矩阵/>
Figure SMS_14
中的每个元素/>
Figure SMS_15
表示为:
Figure SMS_16
药物的非临床数据包括药物的物理化学描述符和生物描述符,通过药物的物理化学描述符和生物描述符从而全面的考虑药物的物理、化学和生物特征信息,由于ADR是对药物生物学复杂反应的结果,这些非临床数据对ADR预测非常有用,通过结合临床数据和非临床数据,显著提高了预测性能。
实施时,采用PubChem作为药物的物理、化学描述符(PC-描述符),使用Bio2RDF作为药物的生物描述符(BIO-描述符),并分别用
Figure SMS_17
和/>
Figure SMS_18
表示。对于每个药物,PubChem提供了881位结构化PC描述符,而Bio2RDF提供了6,712维度的化学、物理和生物学BIO描述符。将这些PC-描述符和BIO-描述符连接成7,593维度。
具体的,步骤S1中基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据,包括:
S11、对所有药物和不良反应进行编码。
实施时,可采用onehot编码方式分别对药物和不良反应进行编码。
S12、以药物的编码、不良反应编码以及药物的非临床数据为训练样本的输入数据,以药物和不良反应的关系作为训练样本的标签构建训练样本数据。
实施时,以药物的物理、化学、生物描述符非临床数据,药物的onehot编码以及不良反应的onehot编码作为训练样本中的输入数据,以药物与不良反应的关系(交互矩阵中元素
Figure SMS_19
的值)为标签,构建训练样本数据。
通过构建药物-ADR交互矩阵,多标签 ADR 预测问题被形式化为一个协同过滤问题,以准确预测药物-ADR发生率。
具体而言,基于模型的预测方法被抽象为学习
Figure SMS_20
,其中
Figure SMS_21
是第/>
Figure SMS_22
种药物至第/>
Figure SMS_23
种ADR的预测发生率,/>
Figure SMS_24
是参数化预测模型,/>
Figure SMS_25
是模型参数。
为了在协同过滤中准确估计参数
Figure SMS_26
,我们将每个药物和ADR关联到一个实值隐含特征向量,分别表示为/>
Figure SMS_27
和/>
Figure SMS_28
,并通过神经网络进行训练,现有方法采用许多标准的协同过滤方法,例如矩阵分解(MF),使用/>
Figure SMS_29
和/>
Figure SMS_30
的内积来预测药物-ADR 交互,形式化表示为:
Figure SMS_31
其中,
Figure SMS_32
表示潜在空间的维度,/>
Figure SMS_33
和/>
Figure SMS_34
均为/>
Figure SMS_35
维的向量。也可以使用神经网络代替矩阵分解作为模型主干:
Figure SMS_36
其中,
Figure SMS_37
,/>
Figure SMS_38
分别表示药物和ADR的潜在因子矩阵。然而,现有方法没有充分利用易于获取的非临床数据中的药物特征,导致在实践中性能亚优,即预测准确率低。
本发明考虑基于内容的协同过滤,通过构建结合深度药物表示和浅层协同过滤的联合训练网络模型,进一步利用包含有关药物的化学、物理和生物信息的非临床数据,从而提高药物-ADR关系预测的准确性。
得到训练样本数据后,构建结合深度药物表示和浅层协同过滤的联合训练网络模型(表示为ADRNet)。具体的,构建的联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
具体的,所述深度药物表示模块将所述物理化学描述符和生物描述符拼接,将拼接后的描述符输入前馈神经网络得到药物的药物表示。通过深度药物表示模块从非临床数据中提取深度药物特征,为准确预测药物与多种ADR之间的关系提供指导。
具体的,浅层潜在协同过滤模块不直接使用药物特征,而是学习药物和不良反应的潜在向量,采用纯协同过滤方法,提取药物和不良反应的协同过滤特征。
实施时,浅层潜在协同过滤模块的输入为药物编码和不良反应编码,模块通过学习得到每个药物和每种不良反应分别对应的潜在向量,即药物的潜在向量
Figure SMS_39
和不良反应的潜在向量/>
Figure SMS_40
是模型的更新参数。实施时,每个药物的潜在向量和每个不良反应的潜在向量均为/>
Figure SMS_41
维的向量。
具体的,浅层潜在协同过滤模块将药物的潜在向量和不良反应的潜在向量拼接,将拼接后的向量输入前馈神将网络中提取协同过滤向量,从而捕捉学习到的药物的潜在向量
Figure SMS_42
和不良反应的潜在向量/>
Figure SMS_43
之间交互的非线性特征。与深度药物表示模块相比,浅层潜在协同过滤模块不直接使用药物特征,因此具有更浅的层数。然而,与神经协同过滤(NCF)相比,由于采用联合训练,学习到的药物表示可以进一步指导ADR潜在向量的训练,这提供了比仅使用临床交互进行协同过滤更强的监督信号,从而使得模型具有更准确的预测结果。
并且,由于采用深层网络和浅层网络的联合训练,可以进一步提高模型的“记忆”和“泛化”能力。具体而言,“记忆”能力意味着模型直接学习并利用样本数据中药物和ADR的共现频率。对于某些特定的药物生物特征,它们是如此“强大”,以至于会引起特定的ADR,因此可以预测更加准确。与深度网络相比,简单模型对于这些“强大”的特征具有更好的“记忆”能力。相反,“泛化”能力是指让模型挖掘药物-ADR的关联性,期望模型能够准确地预测稀疏甚至未观察到的药物或ADR特征。深度模型执行比简单模型更高阶的特征交叉,从而具有更强的“泛化”能力。与仅基于观察到的特征的Wide&Deep模型不同,本发明的联合训练网络模型有效地将深度药物表示网络和浅层协同过滤网络相结合,并相互协同训练,从而具有更高的准确性和模型泛化能力。
为了进一步将结合非临床数据和临床数据,本发明构建的联合训练网络模型还包括药物协同过滤模块,所述药物协同过滤模块将药物的药物表示和不良反应的潜在向量按位相乘得到药物协同过滤向量。
通过药物协同过滤模块将药物表示与不良反应ADR的潜在向量相结合,从而使得药物表示保持与ADR的强关联,由于药物表示是从广泛的非临床数据中获得的,包含了药物的广泛结构、化学、物理和生物特征,并且ADR潜在向量是在深度表述与浅层协同过滤之间共享的,从而更加准确的进行药物-ADR预测。
得到药物表示、协同过滤向量和药物协同过滤向量后,联合训练网络模型通过预测模块进行药物与ADR关系预测。例如可将药物表示、协同过滤向量和药物协同过滤向量输入全连接层得到药物与不良反应关系预测值。ADRNet具有浅层协同过滤层和深层药物表示层,可以学习不良事件的低维潜在嵌入,并利用高维药物描述符来结合协同过滤和表示学习的优点,从而具有高的预测性能。
实施时,可采用mini-batch随机优化算法来反向传播深浅网络的梯度,并通过最小化训练损失函数来训练预测模型的神经网络参数,以及药物潜在向量
Figure SMS_44
和ADR潜在向量
Figure SMS_45
。模型的损失函数表示为:
Figure SMS_46
其中,
Figure SMS_49
表示第/>
Figure SMS_52
种药物和第/>
Figure SMS_55
种不良反应间的真实交互关系,/>
Figure SMS_48
表示模型预测得到的第/>
Figure SMS_51
种药物到第/>
Figure SMS_53
种不良反应的发生率,/>
Figure SMS_54
表示模型参数,/>
Figure SMS_47
表示药物的数量,/>
Figure SMS_50
表示不良反应的数量。
本发明有效地结合了临床和包含药物结构、物理、化学和生物信息的非临床数据,可以高效准确地预测药物和多种ADR之间的关系,并且由于结合浅层网络和深层网络进行联合学习,从而具有更好的“记忆”和“泛化”能力,进一步提高了模型的预测性能。可以同时预测药物可能引发的多种ADR,可以更全面地评估药物的不良反应风险,避免由于单标签预测方法的局限性导致的误判和漏判。从而减少不良事件的发生,提高药品的安全性。可及时预警ADR,降低患者因副作用导致死亡的情况发生率。
为了进一步说明本发明的效果,在两个常用的真实临床数据集Liu's 和AEOLUS上采用本发明提出的结合非临床数据的药物不良反应预测方法进行药物-不良反应预测。实施时,只选择在DrugBank中出现过的药物,并且对每个不良反应要求至少在50个药物上发生过。具体来说,Liu's 数据集包含了828种药物和1,385种不良反应的58,810条药物-不良反应关系,而AEOLUS数据集包含了1,358种药物和2,707种不良反应的605,121条药物-不良反应关系。具体数据信息如表1所示。
表1 数据集信息
Figure SMS_56
非临床数据的药物描述符来自数据集PubChem和Bio2RDF。
采用两个常见的指标来评估本发明的预测性能,即ROC曲线下面积(AUC)和精度召回曲线下面积(AUPR)。实施时,所有实验都是在PyTorch上实现的,以Adam作为优化器,使用NVIDIA GeForce RTX 3090作为计算资源。在{0.001,0.005,0.01,0.05}范围内调整学习率,在{1e-6,…
,1e-3}范围内调整权重衰减,以及在{16,32,64,128,256,512,1024}范围内调整
Figure SMS_57
和ADR潜在向量/>
Figure SMS_58
的维度/>
Figure SMS_59
。使用10折交叉验证进行评估。
本发明的模型与现有模型在Liu's和AEOLUS数据集上的表现如表2和表3所示。在表2和表3中,我们将最佳模型加粗,将最佳单标签预测模型和协同过滤模型分别加下划线,
Figure SMS_60
表示使用配对t校验与最佳基准模型相比,结果具有统计显著性(p-value≤0.01)。通过表2和表3的结果可以看出,SVM和Wide&Deep分别作为最佳单标签预测模型和协同过滤,而本发明提出的ADRNet在AUC和AUPR方面优于最佳基线,在0.01的统计显著性水平上表现更佳。一方面,与纯协同过滤(例如MF、NCF和NMF)相比,ADRNet显示出明显的性能提升,这是由于有效利用非临床数据中的药物描述符所解释的。另一方面,与基于内容的协同过滤(例如PNN、FNN和Wide&Deep)相比,ADRNet进一步结合了药物和ADR的潜在向量。由于潜在变量模型和基于特征的深度模型通常捕获不同水平的药物-ADR关联,ADRNet可以有效地将两者结合起来,在实践中实现更强的性能。
此外,表2和表3中比较了各种方法的运行时间。基于单标签的SVM具有最昂贵的时间成本,而基于注意机制的AFM在两个数据集中的时间最短,这是由于通过用注意机制替换深度网络显着减少了参数数量。与基于内容的协同过滤相比,由于深度网络与潜在协同过滤的联合训练导致更快的收敛,本发明的ADRNet具有更短的运行时间。
表2在Liu's数据集上药物-不良反应预测模型的性能比较
Figure SMS_61
表3在AEOLUS数据集上药物-不良反应预测模型的性能比较
Figure SMS_62
本发明的一个具体实施例,公开了一种结合非临床数据的药物不良反应预测系统,如图2所示,包括以下模块:
训练样本构建模块,用于获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
模型训练模块,用于构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
关系预测模块,用于获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
基于上述技术方案的进一步改进,所述联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
上述方法实施例和系统实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。具体实施过程参见前述实施例,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种结合非临床数据的药物不良反应预测方法,其特征在于,包括以下步骤:
获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
2.根据权利要求1所述的结合非临床数据的药物不良反应预测方法,其特征在于,所述联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
3.根据权利要求2所述的结合非临床数据的药物不良反应预测方法,其特征在于,浅层潜在协同过滤模块将药物的潜在向量和不良反应的潜在向量拼接,将拼接后的向量输入前馈神将网络中提取协同过滤向量。
4.根据权利要求2所述的结合非临床数据的药物不良反应预测方法,其特征在于,所述药物协同过滤模块将药物的药物表示和不良反应的潜在向量按位相乘得到药物协同过滤向量。
5.根据权利要求2所述的结合非临床数据的药物不良反应预测方法,其特征在于,药物的非临床数据包括药物的物理化学描述符和生物描述符。
6.根据权利要求5所述的结合非临床数据的药物不良反应预测方法,其特征在于,所述深度药物表示模块将所述物理化学描述符和生物描述符拼接,将拼接后的描述符输入前馈神经网络得到药物的药物表示。
7.根据权利要求2所述的结合非临床数据的药物不良反应预测方法,其特征在于,所述联合训练网络模型的损失函数表示为:
Figure QLYQS_1
其中,
Figure QLYQS_3
表示第/>
Figure QLYQS_6
种药物和第/>
Figure QLYQS_9
种不良反应间的真实交互关系,/>
Figure QLYQS_4
表示模型预测得到的第/>
Figure QLYQS_5
种药物到第/>
Figure QLYQS_8
种不良反应的发生率,/>
Figure QLYQS_10
表示模型参数,/>
Figure QLYQS_2
表示药物的数量,/>
Figure QLYQS_7
表示不良反应的数量。
8.根据权利要求1所述的结合非临床数据的药物不良反应预测方法,其特征在于,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据,包括:
对所有药物和不良反应进行编码;
以药物的编码、不良反应编码以及药物的非临床数据为训练样本的输入数据,以药物和不良反应的关系作为训练样本的标签构建训练样本数据。
9.一种结合非临床数据的药物不良反应预测系统,其特征在于,包括以下模块:
训练样本构建模块,用于获取药物的非临床数据以及药物与不良反应关系数据,基于药物的非临床数据以及药物与不良反应的关系数据构建训练样本数据;
模型训练模块,用于构建结合深度药物表示和浅层协同过滤的联合训练网络模型,基于所述训练样本数据训练所述联合训练网络模型得到训练好的药物与不良反应关系预测模型;
关系预测模块,用于获取待预测药物的非临床数据,基于待预测药物的非临床数据和所述药物与不良反应关系预测网络得到待预测药物与不良反应的关系。
10.根据权利要求9所述的结合非临床数据的药物不良反应预测系统,其特征在于,所述联合训练网络模型包括:
深度药物表示模块,用于基于药物的非临床数据提取药物的药物表示;
浅层潜在协同过滤模块,用于分别学习药物和不良反应的潜在向量,基于药物和不良反应的潜在向量提取药物和不良反应的协同过滤向量;
药物协同过滤模块,用于融合药物的药物表示和不良反应的潜在向量得到药物协同过滤向量;
预测模块,用于基于药物表示、协同过滤向量和药物协同过滤向量进行药物与不良反应关系预测。
CN202310530341.9A 2023-05-12 2023-05-12 一种结合非临床数据的药物不良反应预测方法和系统 Active CN116313153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310530341.9A CN116313153B (zh) 2023-05-12 2023-05-12 一种结合非临床数据的药物不良反应预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310530341.9A CN116313153B (zh) 2023-05-12 2023-05-12 一种结合非临床数据的药物不良反应预测方法和系统

Publications (2)

Publication Number Publication Date
CN116313153A true CN116313153A (zh) 2023-06-23
CN116313153B CN116313153B (zh) 2023-08-01

Family

ID=86824244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310530341.9A Active CN116313153B (zh) 2023-05-12 2023-05-12 一种结合非临床数据的药物不良反应预测方法和系统

Country Status (1)

Country Link
CN (1) CN116313153B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150376703A1 (en) * 2013-03-15 2015-12-31 Pathway Genomics Corporation Method and system to predict response to pain treatments
CN112382410A (zh) * 2020-10-29 2021-02-19 电子科技大学 一种基于药物依赖性的药对不良反应预测方法
CN113901207A (zh) * 2021-09-15 2022-01-07 昆明理工大学 一种基于数据增强和半监督学习的药物不良反应检测方法
CN114429796A (zh) * 2021-12-21 2022-05-03 哈尔滨理工大学 一种基于多核学习的药物不良反应预测方法
CN114722217A (zh) * 2022-05-17 2022-07-08 青岛百洋智能科技股份有限公司 一种基于链接预测和协同过滤的内容推送方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150376703A1 (en) * 2013-03-15 2015-12-31 Pathway Genomics Corporation Method and system to predict response to pain treatments
CN112382410A (zh) * 2020-10-29 2021-02-19 电子科技大学 一种基于药物依赖性的药对不良反应预测方法
CN113901207A (zh) * 2021-09-15 2022-01-07 昆明理工大学 一种基于数据增强和半监督学习的药物不良反应检测方法
CN114429796A (zh) * 2021-12-21 2022-05-03 哈尔滨理工大学 一种基于多核学习的药物不良反应预测方法
CN114722217A (zh) * 2022-05-17 2022-07-08 青岛百洋智能科技股份有限公司 一种基于链接预测和协同过滤的内容推送方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANGYU ZHOU: "Interpretable Drug-to-Drug Network Features for Predicting Adverse Drug Reactions", 《MDPI》 *
钱仪敏;李华;马;: "抗肿瘤免疫检查点抑制剂的不良反应研究进展", 中国新药杂志, no. 08 *

Also Published As

Publication number Publication date
CN116313153B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Mirza et al. Machine learning and integrative analysis of biomedical big data
Shickel et al. Deep EHR: a survey of recent advances in deep learning techniques for electronic health record (EHR) analysis
Dhayne et al. In search of big medical data integration solutions-a comprehensive survey
Lee et al. Big healthcare data analytics: Challenges and applications
Martin-Sanchez et al. Big data in medicine is driving big changes
Mihaylov et al. Application of machine learning models for survival prognosis in breast cancer studies
Bakumenko et al. Detecting anomalies in financial data using machine learning algorithms
US20220188654A1 (en) System and method for clinical trial analysis and predictions using machine learning and edge computing
Dipaola et al. Artificial intelligence algorithms and natural language processing for the recognition of syncope patients on emergency department medical records
Imrana et al. χ 2-bidlstm: a feature driven intrusion detection system based on χ 2 statistical model and bidirectional lstm
Gupta et al. A novel deep similarity learning approach to electronic health records data
Seneviratne et al. Merging heterogeneous clinical data to enable knowledge discovery
Najm et al. Drug target identification with machine learning: How to choose negative examples
Alotaibi Biserial Miyaguchi–Preneel blockchain-based Ruzicka-indexed deep perceptive learning for malware detection in IoMT
Theodorou et al. Synthesize high-dimensional longitudinal electronic health records via hierarchical autoregressive language model
Dizaji et al. Deep large-scale multitask learning network for gene expression inference
Cahan et al. Multimodal fusion models for pulmonary embolism mortality prediction
Bhachawat et al. Leveraging computational intelligence techniques for diagnosing degenerative nerve diseases: a comprehensive review, open challenges, and future research directions
Xu et al. A three-dimensional ResNet and transformer-based approach to anomaly detection in multivariate temporal–spatial data
Wen et al. A novel convolutional adversarial framework for multivariate time series anomaly detection and explanation in cloud environment
Mustafa et al. An ensembled framework for human breast cancer survivability prediction using deep learning
Sampath et al. Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction
Strickler et al. Exploring a global interpretation mechanism for deep learning networks when predicting sepsis
Tao et al. Automated confirmation of protein annotation using NLP and the UniProtKB database
CN116313153B (zh) 一种结合非临床数据的药物不良反应预测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant