CN111863281B - 一种个性化药物不良反应预测系统、设备及介质 - Google Patents

一种个性化药物不良反应预测系统、设备及介质 Download PDF

Info

Publication number
CN111863281B
CN111863281B CN202010745145.XA CN202010745145A CN111863281B CN 111863281 B CN111863281 B CN 111863281B CN 202010745145 A CN202010745145 A CN 202010745145A CN 111863281 B CN111863281 B CN 111863281B
Authority
CN
China
Prior art keywords
function
model
adrs
patient
adr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010745145.XA
Other languages
English (en)
Other versions
CN111863281A (zh
Inventor
杨帆
薛付忠
江冰
薛浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010745145.XA priority Critical patent/CN111863281B/zh
Publication of CN111863281A publication Critical patent/CN111863281A/zh
Application granted granted Critical
Publication of CN111863281B publication Critical patent/CN111863281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种个性化药物不良反应预测方法、系统、设备及介质,属于生物医学技术领域。本发明提出了基于多核函数学习的多任务学习模型(KEMULA),以替代传统的“一刀切”和“完全个性化”的学习方法。更具体地说,该模型通过假设该模型的共享函数来学习一个受约束的个性化ADR排序函数来计算和排序每个患者的ADR发展风险。该函数称为个性化ADR排序函数,其是计算患者发生相关ADR风险的几个评分函数的线性组合。该模型还结合了拉普拉斯正则化,以确保相似患者的personADRank函数所训练的变量信息接近,这可以提升该模型对给定患者与相应ADR之间关联的因果关系(真阳性),因此本发明具有良好的实际应用之价值。

Description

一种个性化药物不良反应预测系统、设备及介质
技术领域
本发明属于生物医学技术领域,具体涉及一种个性化药物不良反应预测方法、系统、设备及介质。
背景技术
公开该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不必被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。
世界卫生组织将药物不良反应(ADRs)描述为“对有毒和意外的药物反应,这种反应通常发生在人类正常使用的剂量范围内”。ADRs 对公共卫生安全构成严重挑战。仅在美国,2004年就有超过21,000例ADRs报告,据估计,每年大概有6-7%的住院患者出现药物不良反应。此外,与药物相关的发病率和死亡率每年造成1,170亿美元的损失。在英国,国民健康服务(NHS)每年的由于药物不良反应造成的财务成本为4.66亿GB。ADRs每年可能导致大约10万人死亡,使其成为美国国内第四大死因。因此,有必要和迫切地研究ADRs,特别是研究那些未报告和罕见的药物不良反应。
药物警戒(PhV)的主要目的是监测药物不良反应(ADRs)信号(即,识别潜在的药物和不良反应关联关系,这些关联在性质、剂量和/或频率方面可能是新发现的)。世界卫生组织将信号定义为“关于不良反应事件和药物之间可能的因果关系的报告信息,这种关系是未知的或没有完全记录的”。在现有的ADR信号传递方法中,传统统计方法或数据挖掘方法,如不相称性分析(DPA)方法、A-priori算法和基于< 药物,不良反应>网络的推理方法,通常用于挖掘和监测药物与ADRs之间的信号关联。
DPA方法,如相对报告率(RRR),通常用于产生假设,旨在量化药物-ADR联合发生的“不成比例”的程度,与没有关联情况下报告频数进行比较。然而,这些信号检测方法通常只提取出一些假阳性<药物-ADR>关联关系。此外,DPA是一种完全基于频率的方法,难以挖掘和监测出罕见的药物与ADR关联关系。基于<药物,ADR>网络的推理方法通过计算由<药物,ADR>和<ADR,ADR>二元组组成的二分网络图中药物及其相关不良反应ADRs,邻居药物节点的交集,预测潜在的药物-ADR相关性。然而,这些方法只能挖掘和监测单一药物和单一ADR之间的关联信号;它们不能捕获药物组合与多项不良反应(ADRs)之间的关联关系。此外,基于网络的推理方法没有考虑药物的化学分子结构和基因组序列等特征,以及没有考虑药物之间的相似性,从而导致所监测到的药物不良反应信号准确性较低。
与上述标准的数据挖掘和传统统计方法相比,ADRs信号建模由于患者的异质性而具有挑战性。患者的异质性来自于表型数据特征相似但可从被不同的治疗方法和医疗条件所区分。为了解决患者的异质性,我们可以通过考虑患者的内在特异性来建立个性化的ADRs信号监测模型。一种实现个性化模型的简单方法是为每个患者建立一个特有的ADRs信号监测模型。然而,发明人发现,这种完全个性化的建模策略的缺点是:其模型计算性能在时间和空间复杂性方面效率不高,尤其是当ADRs或与ADRs相关的历史记录患者数量很大时。
发明内容
针对上述现有技术存在的不足,本发明提供一种个性化药物不良反应预测方法、系统、设备及介质,本发明中提出了基于多核函数多任务学习模型(KEMULA),以替代传统的“一刀切”和“完全个性化”的学习方法。具体地说,KEMULA模型通过假设该模型的局部函数来共享学习一个受约束的个性化ADRs排序函数来计算和对每个患者发生ADRs的风险得分进行排序。该函数称为个性化ADR排序函数(personalizedADR ranking function,orpersonADRank)。Personal ADRank是计算患者发生相关ADR风险的多项评分函数的线性组合。 KEMULA模型通过拉普拉斯正则化,以避免全局目标函数过拟合,并确保相似患者的personADRank函数所训练的参数向量正交,这可以提升该模型对给定患者与相应ADR之间关联的因果关系(真阳性),因此本发明具有良好的实际应用价值。
为实现上述目的,本发明采用下述技术方案:
本发明的第一个方面,提供一种个性化药物不良反应预测方法,所述预测方法包括:
获取受试者的临床数据;
将临床数据导入已建立的KEMULA预测模型中,得到受试者的个性化药物不良反应结果;
所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息(在本发明中称为适应症)。
所述KEMULA预测模型包括一种个性化ADRs排序函数,其具体为计算患者发生相关ADRs风险的多项评分函数的线性组合。
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数。
其中,所述函数为个性化多核多任务学习函数。
本发明的第二个方面,提供一种个性化药物不良反应预测系统,所述预测系统包括:
临床数据获取模块:获取受试者临床数据;
预测模型构建模块:基于KEMULA预测模型对受试者进行预测,得到受试者的个性化药物不良反应预测结果。
其中,所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息(在本发明中称为适应症)。
所述KEMULA预测模型包括一种个性化ADRs排序函数,其具体为计算患者发生相关ADRs风险的自适应评分函数的凸优化组合。
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数。
其中,所述函数为个性化多核多任务学习函数。
本发明的第三个方面,提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述个性化药物不良反应预测方法所进行的步骤。
本发明的第四个方面,提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述个性化药物不良反应预测方法所进行的步骤。
上述一个或多个技术方案的有益技术效果:
上述技术方案提供了一个多核多任务学习模型KEMULA,用来监测不同频率发生的已报告和未报告的ADRs。提出的模型可以成功地从真实的自发呈报式(SpontaneousReporting System,SRS)数据集中监测到有符合临床意义的ADRs信息。一些被监测到的ADRs在现实生活中非常罕见,这种药物不良反应信息的捕捉可以帮助医生、药物不良反应监测机构对其进行有价值的学术研究。此外,对被KEMULA 模型预测出但未报告的ADRs进行进一步调查和研究,这可以帮助制药业在药物上市前开发新的方法,在临床试验期间测试潜在的不良反应,并可缩短新药临床实验周期,因此具有良好的实际应用之价值。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中个性化ADRs排名。Θ表示我们提出的模型;p代表与小分子药物特征m,生物技术药物特征b和适应症特征 i有关的患者;a代表药物不良反应ADR,Sxy是由Θ生成的分数表示患者p发生ADRa的风险。
图2为本发明实施例中基于Tanimoto评估模型KEMULA的评估结果。
图3为本发明实施例中基于SW,NW,SW&NW,一致性核函数KEMULA模型预测药物不良反应性能评估。
图4为本发明实施例中使用MI内核(MIK)、LMI内核(LMIK)、PS内核(PSK)和身份内核(IK)作为指示特征的KEMULA的评估结果。
图5为本发明实施例中基于α-HR@n(n∈[1,2,3])衡量指标关于模型μregorth变量性能评估。
图6为本发明实施例中模型KEMULA基于o-HRfr@2|fr∈[c,u,r,v]衡量指标关于预测常见、不常见、罕见、及罕见药物不良反应预测性能。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。应理解,本发明的保护范围不局限于下述特定的具体实施方式;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方式,而不是为了限制本发明的保护范围。下列具体实施方式中如果未注明具体条件的实验方法,通常按照本领域技术内的常规方法和条件。
本发明的一个典型实施方式中,提供一种个性化药物不良反应预测方法,所述预测方法包括:
获取受试者的临床数据;
将临床数据导入已建立的KEMULA预测模型中,得到受试者的个性化药物不良反应结果;
所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息(在本发明中称为适应症)。
所述KEMULA预测模型包括一种个性化ADRs排序函数,其具体为计算患者发生相关ADRs风险的多项评分函数的线性组合。
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数。
其中,所述函数为核函数。
具体的,所述KEMULA模型可以从在不同验证集及其组合上获得的一组内核功能中进行选择;每个患者均由nF维特征向量表示,该向量由小分子药物特征,生化药物特征和所患疾病特征组成。
本发明的又一具体实施方式中,KEMULA预测模型构建过程中,为保证多核函数线性组合的凸优化性,定义用于组合一组满足凸优化性质的
Figure BDA0002608110330000031
的核函数池,从而确保目标函数能够在有限次迭代后达到收敛,并取得全局最优值。
更具体的,所述KEMULA预测模型可以是:
Figure BDA0002608110330000032
其中
Figure BDA0002608110330000033
是优化参数的集合;Dtri是所有成对风险的集合,
Figure BDA0002608110330000034
定义了任务之间的内在关联性:(1)通过
Figure BDA0002608110330000035
正交约束保证来自不同任务的权重向量的正交性,以及 (2)
Figure BDA0002608110330000036
保证来自相同任务的权重向量归一标准化。
本发明的又一具体实施方式中,对上述函数进行拉普拉斯正则化处理,以确保相似患者的personADRank函数所训练的变量信息接近,从而提升该模型对给定患者与相应ADR之间关联的因果关系(真阳性);
本发明的又一具体实施方式中,所述拉普拉斯正则化处理具体方法为:
采用拉格朗日优化模型Θ=[M,W]:
Figure BDA0002608110330000041
其中Reg(Θ)是为避免目标函数过拟合的正则惩罚项,它控制模型的复杂度并引发涉及向量{md}和{wd}的任务相关性。
通过使用二次惩罚函数将等式(10)中的约束条件合并到正则项Reg(Θ)中,可以对其进行软正则约束。因此,正则化函数变为
Figure BDA0002608110330000042
其中,μreg和μorth是权重向量的惩罚参数,用于控制泛化误差与M和W的方差之间的权衡。隶属度受参数γ的限制,项
Figure BDA0002608110330000043
是弗罗贝尼乌斯范数,用来控制M的复杂性。
Figure BDA0002608110330000044
Figure BDA0002608110330000045
I通过BPR 损失函数惩罚ws|s∈{m,b,i}拟合的方差。通过定义矩阵
Figure BDA00026081103300000413
和权重矩阵集合W,等式12可等价地写为:
Figure BDA0002608110330000046
ΛM是具有γmuu·项的对角矩阵。
Figure BDA0002608110330000047
是一个对角矩阵,其具有用于拉普拉斯学习任务的μreg,ΛW是包含
Figure BDA0002608110330000048
的对角矩阵。
Figure BDA0002608110330000049
Figure BDA00026081103300000410
是含有μorth空心矩阵 (也称为零对角线矩阵)用于拉普拉斯学习任务,
Figure BDA00026081103300000411
是包含
Figure BDA00026081103300000412
的空心矩阵。
本发明的又一具体实施方式中,提供一种个性化药物不良反应预测系统,所述预测系统包括:
临床数据获取模块:获取受试者临床数据;
预测模型构建模块:基于KEMULA预测模型对受试者进行预测,得到受试者的个性化药物不良反应结果。
其中,所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息(在本发明中称为适应症)。
所述KEMULA预测模型包括一种个性化ADR排序函数,其具体为计算患者发生相关ADR风险的若干评分函数的线性组合。
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数。
其中,所述函数为核函数。
具体的,所述KEMULA模型可以从在不同验证集及其组合上获得的一组内核功能中进行选择;每个患者均由nF维特征向量表示,该向量由小分子药物特征,生化药物特征和所患疾病特征组成。
本发明的又一具体实施方式中,KEMULA预测模型构建过程中,为保证多核函数线性组合的凸优化性,定义用于组合满足凸优化性质的的
Figure BDA0002608110330000051
核函数池,从而可以在训练期间对模型进行优化。
本发明的又一具体实施方式中,所述KEMULA预测模型可以是:
Figure BDA0002608110330000052
其中,
Figure BDA0002608110330000053
是优化参数的集合;Dtri是所有成对风险的集合,
Figure BDA0002608110330000054
定义了任务之间的内在关联性:(1)通过
Figure BDA0002608110330000055
正交约束保证来自不同任务的权重向量的正交性,以及(2)
Figure BDA0002608110330000056
保证来自相同任务的权重向量归一标准化。
本发明的又一具体实施方式中,对上述函数进行拉普拉斯正则化处理,以确保相似患者的personADRank函数所训练的变量信息接近,从而提升该模型对给定患者与相应ADR之间关联的因果关系(真阳性);
所述拉普拉斯正则化处理具体方法为:
采用拉格朗日优化模型Θ=[M,W]:
Figure BDA0002608110330000057
其中Reg(Θ)是一个正则化函数项,它控制模型的复杂度并引发涉及向量{md}和{wd}的任务相关性。
通过使用二次惩罚函数将等式(10)中的约束条件合并到正则项Reg(Θ)中,可以对其进行软正则约束。因此,正则化函数变为
Figure BDA0002608110330000061
其中,μreg和μorth是权重向量上的惩罚参数,用于控制泛化误差与M和W的方差之间的权衡。隶属度受参数γ的限制,项
Figure BDA0002608110330000062
是弗罗贝尼乌斯范数,用来控制M的复杂性。
Figure BDA0002608110330000063
Figure BDA0002608110330000064
通过 BPR贝叶斯个性化排序损失函数惩罚ws|s∈{m,b,i}拟合的误差。通过定义矩阵
Figure BDA00026081103300000611
和权重矩阵集合W,等式12等价地写为
Figure BDA0002608110330000065
其中,ΛM是具有γmuu·项的对角矩阵。
Figure BDA0002608110330000066
是一个对角矩阵,其具有用于拉普拉斯学习任务的μreg,ΛW是包含
Figure BDA0002608110330000067
的对角矩阵。
Figure BDA0002608110330000068
是含有μorth零对角线矩阵用于拉普拉斯学习任务,
Figure BDA0002608110330000069
是包含
Figure BDA00026081103300000610
的零对角线矩阵。
本发明的又一具体实施方式中,提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述个性化药物不良反应预测方法所进行的步骤。
本发明的又一具体实施方式中,提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述个性化药物不良反应预测方法所进行的步骤。
为了使得本领域技术人员能够更加清楚地了解本发明的技术方案,以下将结合具体的实施例详细说明本发明的技术方案。
实施例1
本实施例提出了基于多核函数多任务学习模型(KEMULA),以替代传统的“一刀切”和“完全个性化”的学习方法。更具体地说, KEMULA模型通过假设该模型的共享函数来学习一个受约束的个性化ADRs排序函数来计算和排序每个患者的ADRs发生风险得分。该函数称为个性化ADRs排序函数(personalized ADR ranking function,or personADRank)。Personal ADRank是计算患者发生相关ADRs风险的多项评分函数的线性组合。KEMULA模型还结合了拉普拉斯正则化,以确保相似患者的personADRank函数所训练的变量信息接近,这可以提升该模型对给定患者与相应ADRs之间关联的因果关系(真阳性)。personADRank的示意图如图1所示。
当有多个相关的任务函数进行学习(训练)时,相比于进行单任务学习,同时进行所有任务学习(训练)可以提升目标函数的预测准确性。这种多任务学习方法的目的是通过隐式合并任务关系,并同时学习任务模型来提高模型泛化性能。由于每个患者的特征向量都与三种特征(小分子药物、生物技术药物和所患疾病)相关联,所以我们采用多个核函数学习方法为每种特征寻找最佳的核函数。然后,将这些核函数进行组合,得到多任务多核函数学习模型。我们使用从FDA不良事件报告系统(FAERS)提取的数据集对我们的模型的性能进行了实验性验证,并将其与其他比较方法的性能进行了比较。结果表明,我们的模型在挖掘监测药物不良反应关联信号,以及基于<药物-不良反应>关联关系中因果关系(根据关联的不同频率最有可能出现的因果关系)排序的准确性,要优于所比较的方法。
1.符号定义
我们将使用“已报告ADR”一词来表示FAERS的患者报告中包括的ADRs,并使用“未报告ADR”一词来表示FAERS的临床报告中未包括的ADRs。所有向量都用粗体小写字母表示(例如,fi)。所有矩阵(例如,A)都用粗体大写字母表示。行向量由表示转置的上标T的来表示(例如,
Figure BDA0002608110330000071
);其他的在默认情况下,假设向量采取列向量的形式。符号p表示单个患者。所有患者和所有ADR的集合由分别是大写意大利字体P和R。我们使用小写字母n和相应的下标来表示集合的大小(例如,np表示P的大小)。
每个患者都有一个对应的特征向量,其中包含有关适应症和与该患者相关的药物的信息。矩阵
Figure BDA0002608110330000072
中包含所有患者的特征向量,其中
Figure BDA0002608110330000073
表示第i个患者的特征向量。整个患者和ADRs的集合由患者ADR矩阵
Figure BDA0002608110330000074
表示,如果在FAERS 数据库中,有第i个患者和第j个ADR之间的关联关系,则用aij等于1进行表示,否则等于0。表1总结了本实施例使用的符号。
2.方法
在这一部分中,我们正式介绍个性化ADR信号监测模型的问题。然后,我们讨论未使用多核函数学习方法的个性化模型存在的问题。本文中提出的KEMULA模型则正是用于解决这些问题。最后,我们讨论了该模型的学习过程,并给出了该模型的凸优化分析。
2.1问题定义
ADR信号监测的任务是为每个单独的患者计算出其所患对应的ADRs风险评分r,其中每个患者由个体特征、药物特征、所患疾病构成的特征向量表示。我们根据函数r(p,u)=P×R→{1,…,|P|}|p∈P,u∈R来表示该风险得分,其中r(p,u)是患者p的ADRu的风险得分。根据得分函数sim(p,u)来建模相似度计算函数,该得分函数本身由一组模型参数Θ进行参数化。对于任何评分模型,都可以通过计算所有ADRs(针对每个单独的患者)的评分,
表1.本发明中所使用的数学及公式符号
Figure BDA0002608110330000081
并根据其评分对其进行排序来执行排名。在ADRs信号监测的上下文中,分数代表给定患者在所患当前疾病服用当前药物组合后,所发生不良反应ADRs的风险。本文中所提出的排序模型可以为每个患者生成唯一的ADRs列表,这是个性化排序问题,或者称为PR问题。
2.2针对PR问题的单任务学习方法
在PR问题中,风险得分r和评分函数sim(·,·)之间由公式(1)决定,称为基本模型,或BM:
Figure BDA0002608110330000091
其中Pu是发生ADRu的在FAERS数据库中已报告的患者集合;fp和fq分别是给定患者p和第q个报告的ADRu历史患者的特征向量。
公式(1)中的方法受到Billsus和Pazzani的K近邻模型的启发,该技术依赖于k近邻分类。上述方案假设k的值足够大,以包括所有报告的ADR历史患者。然而,每个患者只包括少数已报道的不良反应,因此,公式(1)不能满足这一假设。此外,BM还存在以下两个缺点。首先,针对患者p计算的ADR u得分完全取决于FAERS数据中已记录的与ADR u所关联的患者情况。其次,风险得分函数是预定义的,所有ADRs均使用相同的风险得分函数。但,这种方法存在一个缺点,即:无法说明不同患者在服用不同的药物组合时可能会产生不同的ADRs。
将给定感兴趣的患者和ADR的评分函数视为单任务回归问题。然后,使用线性学习模型将BM进一步扩展到单任务学习问题,称为 PRSTL。具体地说,公式(2)给出了ADRu和患者p的线性学习模型。
Figure BDA0002608110330000092
其中
Figure BDA0002608110330000093
是基于元素的Hadamard乘积运算符,并且w是长度为nF的向量,其中每个条目表示相应特征对计分函数的贡献。然而,PRSTL 模型存在一个问题,即从现有任务函数中学习的参数不能迁移到新的学习函数。
2.3针对PR问题的多任务学习方法
为了克服上述方法的缺点,我们通过多任务学习对PRSTL模型进行了扩展,得到了PRMTL模型。PRMTL模型将针对患者和ADR 之间的每个关联的个性化排序模型的开发视为单个学习任务,并假设所有这些学习任务都是相关的。因此,它同时执行所有相关的学习任务,并利用这些任务之间的共享信息来提高其整体排名性能。
与PRSTL相比,在PRMTL中,所有任务的总训练误差最小,共同优化了所有任务的模型参数,并且改进了所得模型的泛化性能。 PRMTL并未在单任务学习设置中将经验示例归纳为新数据,而是尝试将学习到的知识归纳为新学习任务。可以基于从其他任务提取的信息来接近一个任务,从而:(1)产生比通过独立学习单个任务可以实现的更好的性能,以及(2)使得能够进一步概括先前学到的知识以有益于新的学习任务。
在PRMTL模型中,(1)对于每个不同的患者,每个ADRs都与不同的评分函数相关联,这导致了更高程度的个性化;(2)这些患者的特定评分函数被导出为固定数量的独立ADRs评分函数的线性组合,称为全局评分函数。这些全局评分函数对于所有ADRs都是相同的,但是它们以特定于每个ADRs的方式组合,从而产生不同的关联特定的个性化ADRs排名函数;(3)全局评分函数是通过计算来自其他病历中ADRs的信息来估计的。因此,每个患者的ADRs排名使用模型参数Θ通过评分函数sim(·,·)。多任务学习模型可以通过对所有ADRs 按其分数排序并选择得分最高的n个ADRs来实现。
估计患有ADRu的患者P的信号评分rp,u计算函数如下:
Figure BDA0002608110330000101
其中gsimd(·)是第d个全局评分函数,nG是全局评分函数的个数,mu,d是一个标量,决定了第d个全局评分函数对患者-ADR对p的贡献程度。wd是一个长度为nF的向量,表示第d个评分函数下对应特征的权重。在PRMTL中,每个任务通过个性化参数md进行区分。
上述公式(3)的缺点是不能表示特征之间的相似性(如小分子药物Tizanidine和Carisoprodol之间的相似性,这两种药物的功能类似于肌松药,但具有不同的通用名)。这种缺点很难计算具有相似药物特征向量的病人ADRs的特异性。
2.4针对PR问题核函数化的多任务学习方法
表2.患者服用药物产生不良反应示例
Figure BDA0002608110330000102
假设我们希望通过参考两个已知患者p1(发生ADR肌病)和p2(发生ADR心律不齐)来对给定患者p的ADRs发出信号,如表2所示。由于患者p与p1没有共同的特征,但有一个小分子药物特征,二甲双胍,与p2相同,PRMTL预测心律失常作为p的信号ADRs;然而,这是不正确的。他汀类药物(表2中包括辛伐他汀、阿托伐他汀和普伐他汀)与肌肉综合征有关,肌病为“横切肌紊乱”,因此根据调节活动医学词典属于肌肉紊乱亚类。因此,p的因果关联的ADRs应是肌病。
为了克服PRMTL的局限性,我们提出KEMULA模型。KEMULA是一种多任务学习方法,它结合了多个不同的核函数,用于不同类型的特征,为个别患者发出ADRs信号。不同的核函数不是一个特定的核函数,而是由多个核函数构成一个加权核函数的线性组合,将不同的特征输入到不同的核函数中,然后,由固定或受过训练的训练器合并产生的相似性:
Figure BDA0002608110330000111
其中,m,b和i分别代表小分子药物特征,生物技术药物特征和所患疾病特征;整体核函数
Figure BDA0002608110330000112
被公式化为三种特征的函数的线性组合,
Figure BDA0002608110330000113
其中
Figure BDA0002608110330000114
Ds是相应特征表示的维度;η表示内核权重,用于参数化总体内核函数。η的元素表示各个内核对ADRs预测性能的相对重要性。我们使用Tanabe等人定义的η规则评估ηs
Figure BDA0002608110330000115
其中,π是仅使用内核ks实现的信号精度,δ是一个阈值应该小于或等于KEMULA使用一致性核函数实现的最小精度。
我们可以通过将多个核函数求和来获得有效的核函数。我们知道矩阵K是半正定的当且仅当
Figure BDA0002608110330000116
在等式 (4)中,线性核函数组合
Figure BDA0002608110330000117
的结果产生一个正半定核矩阵:
vTKηv=vTmKmbKbiKi)v =ηmvTKmv+ηovTKbv+ηivTKiv≥0
KEMULA不像PRMTL那样需要统一核函数,而是可以从在不同验证集及其组合上获得的一组一致性核函数中进行选择。每个患者均由nF维特征向量表示,该向量由小分子药物特征,生化药物特征和所患疾病特征组成。我们将在2.5节中讨论每种特征的核函数。
为了在一个通用且计算效率高的框架中将多任务学习与多核函数学习集成在一起,我们对每个任务使用泛化的核函数记忆核参数。因此,可以通过使用多个核函数来扩展PRMTL,如公式(5)所示:
Figure BDA0002608110330000118
其中,wm,wb和wi表示三种类型的特征对于目标患者的相对重要性;
Figure BDA0002608110330000121
Figure BDA0002608110330000122
分别代表小分子药物,生物技术药物和适应症的内核的再生内核Hilbert空间;
Figure BDA0002608110330000123
表示患者p的特征类型s的维数;km,kb和ki表示这三种特征的核函数;
Figure BDA0002608110330000124
Figure BDA0002608110330000125
分别代表患者 p的第j个和第o个小分子药物特征值;
Figure BDA0002608110330000126
Figure BDA0002608110330000127
值分别代表患者p的第l个和第t个生物科技药物特征值;
Figure BDA0002608110330000128
Figure BDA0002608110330000129
分别表示患者 p的第y个和第t个指示特征值。
2.5核函数
为了利用不同患者特征之间的相似性,我们评估了针对每种特征类型的核函数池,并根据不同特征确定最佳的核函数。
2.5.1小分子药物核函数
Tanimoto核函数。对于每种小分子药物,我们构建其包含的分子片段的稀疏频率向量,使用AFGen程序提取的GF描述符表示。我们使用Tanimoto核函数来计算两种小分子药物之间的相似度。i和j代表两种小分子药物,Tanimoto核函数定义如下:
Figure BDA00026081103300001210
其中gi和gj是分别表示药物i和j的分子片段载体。
一致性核函数。小分子的同构性核使用一致性函数来指示两个特征之间的相似性;该核函数对于等价特征取值1,对于不等价特征取值0。其定义如下:
Figure BDA00026081103300001211
2.5.2生物技术药物核函数
序列比对核函数。因为生物技术药物是由蛋白质序列表示的,我们使用目前最流行的成对序列比对核函数,Smith-Waterman核函数和Needleman-Wunsch核函数,用于计算生物技术药物的相似性。
一致性核函数。该核函数对于等价特征取值1,对于不等价特征取值0。
2.5.3所患疾病特征核函数
有关患者医疗状况的信息(在本文中称为适应症)尚未在ADRs信号监测中得到充分研究。但利用患者适应症的特征数据有两个优点: (1)能够用于揭示可测量的人类对治疗的反应行为或生理变化,可有效提升预测ADRs的准确率;(2)来自人们对真实世界的直接观察,与药物信息相比,它可以无偏差的转换为ADRs信息及知识传递。因此,在本专利研究中,我们将患者所患疾病信息整合到了ADR信号任务中。
分布核函数。我们假设,如果两个症状频繁并发,则可以认为它们是相似的症状。因此,我们通过计算两个患者适应症的同时出现率来采用分布核函数,以衡量其适应症特征的相似性。我们评估了互信息(MI),词典互信息(LMI)和泊松重要性(LMI)等多种核函数,以选择精度最佳的核函数。
互信息核函数。在所有患者中出现i的概率可以近似为所报告的比率
Figure BDA0002608110330000131
的情况下,所有患者中两个症状i和j共同出现的概率为
Figure BDA0002608110330000132
分布式内核使用MI度量,如下所示:
Figure BDA0002608110330000133
其中,nP是患者总数;ni和nj分别是指征i和j的报告频率;nij是i和j同时出现的报告频率。
词典编纂者互信息核函数。LMI度量是MI度量的修改版本,它包括与共现频率的附加乘法:
Figure BDA0002608110330000134
泊松显著性核函数。由于大多数适应症的发生频率远小于患者总数,因此本研究工作使用PS量度来实现分布核。
Figure BDA0002608110330000135
一致性核函数。用于指示特征的身份内核类似于用于小分子药物和生物技术药物特征的身份内核。
2.6模型拟合及学习
KEMULA学习一个模型Θ=[M,W],其中W=[wm,wb,wi],M是nR×nG矩阵。在学习模型Θ之前,我们需要指定要学习的全局评分函数的数量。学习过程的输入是:患者-ADR矩阵A、患者-特征矩阵F、用于估计核权重的阈值δ、以及我们希望学习的全局评分函数nG的数量。
2.6.1模型KEMULA
目标函数。KEMULA使用Rendle等人提出的BPR损失函数。这个想法是为患者p区分其已报告的ADR
Figure BDA0002608110330000136
和未报告的ADRs
Figure BDA0002608110330000137
对于给定的患者p,已报告的ADR u应高于未报告的ADR v:
Figure BDA0002608110330000138
成对等级与模型之间的联系表示为
r(u>pv):=σ(rpu(Θ)-rpv(Θ)),(7)
其中σ(*)是一个Sigmoid函数,其中*表示相对于患者p的已报告ADRu和未报告ADRv之间的相对排名。目标是最大化正确排序风险的可能性:
Figure BDA0002608110330000139
这等价于将求负对数似然最小值:
Figure BDA0002608110330000141
具体如下:
Figure BDA0002608110330000142
其中
Figure BDA0002608110330000143
是优化参数的集合;Dtri是所有成对风险的集合,
Figure BDA0002608110330000144
我们定义了任务之间的内在关联性:(1)约束
Figure BDA0002608110330000145
保证来自不同任务的权重向量的正交性,以及 (2)
Figure BDA0002608110330000146
保证来自相同任务的权重向量进行单位标准化。
拉格朗日。我们采用拉格朗日优化模型Θ=[M,W]:
Figure BDA0002608110330000147
其中,Reg(Θ)是一个正则化函数项,它控制模型的复杂度并引发涉及向量{md}和{wd}的任务相关性。
通过使用对偶惩罚函数将等式(10)中的约束条件合并到正则项Reg(Θ)中,可以对其进行弱正则化。因此,正则化函数变为
Figure BDA0002608110330000148
其中,μreg和μorth是权重向量上的惩罚参数,用于控制泛化误差与M和W的方差之间的权衡。隶属度受参数γ的限制,项
Figure BDA0002608110330000149
是弗罗贝尼乌斯范数,用来控制M的复杂性。
Figure BDA00026081103300001410
Figure BDA00026081103300001411
I通过 BPR损失函数惩罚ws|s∈{m,b,i}拟合的方差。通过定义矩阵
Figure BDA00026081103300001413
和权重矩阵集合W,等式12等价地写为
Figure BDA00026081103300001412
ΛM是具有γmuu·项的对角矩阵。
Figure BDA0002608110330000151
是一个对角矩阵,其具有用于拉普拉斯学习任务的μreg,ΛW是包含
Figure BDA0002608110330000152
的对角矩阵。
Figure BDA0002608110330000153
是含有μorth空心矩阵(也称为零对角线矩阵)用于拉普拉斯学习任务,
Figure BDA0002608110330000154
是包含
Figure BDA0002608110330000155
的空心矩阵。
2.6.2梯度优化
本工作采用成对排名对与71,817例患者相关的7,824份ADR进行排名。通过步长梯度下降学习模型的时间复杂度为
Figure BDA0002608110330000156
为进行大规模海量数据学习并降低计算成本,本工作采用随机梯度下降(SGD)来学习Θ=[M,W],此后时间复杂度变为
Figure BDA0002608110330000157
从而显着降低了成本。KEMULA将公式(9)的BPR损失函数和公式(12)的正则化函数合并到最小化过程中,并使用SGD来学习Θ=[M,W]。
为了避免在优化开始时出现较大的学习率,我们将学习率表述为
Figure BDA0002608110330000158
这样可以确保学习率λt从预定的小值λ0开始并且渐近地减小,如(θt)-1。算法1显示了该过程及其梯度更新规则的详细信息。重复此过程,直到模型收敛到全局最小值。
为了简化模型推导的表示,我们使用ws(ws)代替wm(wm),wb(wb)和wi(wi)来表示这三种特征类型的权重(权重向量)。然后,根据三元组(p,u,v)的相对等级更新M和W的步骤如公式(14)~(20):
Figure BDA0002608110330000161
Figure BDA0002608110330000162
Figure BDA0002608110330000163
Figure BDA0002608110330000164
梯度
Figure BDA0002608110330000165
用于更新w,用于更新m的梯度
Figure BDA0002608110330000166
Figure BDA0002608110330000167
公式如下:
Figure BDA0002608110330000168
Figure BDA0002608110330000169
Figure BDA00026081103300001610
在(14)式中的梯度
Figure BDA00026081103300001611
Figure BDA00026081103300001612
是根据式(21)和式(22)来估计的:
Figure BDA0002608110330000171
Figure BDA0002608110330000172
2.7模型KEMULA的收敛分析
KEMULA模型是凸优化的,它通过满足以下条件而达到全局最小值:(1)损失函数二阶导数大于0,如式(23)所示;(2)正则化函数是Frobenius范数函数;(3)约束函数
Figure BDA0002608110330000173
是满足仿射性质,而
Figure BDA0002608110330000174
是线性的。
Figure BDA0002608110330000175
3模型验证
3.1材料
3.1.1数据处理
在这项研究中,我们使用了来自FDA的FAERS系统的数据;本研究中使用的FAERS数据集的统计数据如表3所示。这些数据包括了从2004年到2016年全年收集的FAERS病历数据。
表3:FAERS报告统计
Figure BDA0002608110330000176
为获得高质量和可靠的数据集,我们根据FAERS文档使用以下标准过滤:(1)我们保存了来自医生、药剂师和其他卫生专业人员的报告, (2)我们保存了药品名称为经过验证的商品名称的报告。
3.1.2药物名称规则化
KEMULA的两个主要挑战是:数据粒度和FAERS数据库中用于描述药物术语的差异性,这两个方面都会降低预测ADRs信号的准确性。由于不同的商标、专利和市场需求,药物通常有几个替代名称、品牌名称以及术语同义词。此外,药物名称通常以自由文本形式输入;因此,它们可能以各种不同的格式呈现,并容易出现拼写、输入错误。这些名称替代和排列必须首先映射到标准化形式。DrugBank 是一个公共化学和生物学知识库,其中包含有关化学结构和药物靶标的信息。此外,它包含药物的通用名称和替代名称。
因此,在本工作中,我们创建一个包含DrugBank收录的由FDA批准的1,151种小分子药物和114种生物技术药物的标准药物名称词典,并将FAERS数据库中所有药物映射到该标准药物名称词典,进行标准化工作。
3.2衡量
因为很难找到任何能够作为衡量“药物-ADRs”因果关系的“因果标准”的客观指标,所以我们改用先前工作(Analytical Methods,vol.5, no.21,pp.6120–6127,2013;BMCBioinformatics,vol.11,no.Suppl 9,p.S7,2010.)中定义的参考标准来评估模型KEMULA的预测及监测准确性和精度。本参考标准使用已报道的药物-ADRs关联关系作为可观测循证证据。如果模型所预测的ADRs与给定患者已上报的ADRs 重叠,则可以将其视为该患者的因果ADRs。
我们将KEMULA的性能与预测药物不良反应领域中三种基准方法和两种最新方法(多项目关联规则挖掘方法和基于网络的相似性方法)进行了比较。此外,作为参考,我们还将KEMULA模型与其两种变体进行了比较:一种是完全个性化的ADRs预测模型FPS,一种是PRMTL,即非核函数化的药物不良反应多任务学习模型。
Figure BDA0002608110330000181
3.3所比较的方法-三种基准方法
3.3.1非个性化ADRs预测模型
余弦相似度方法,cosSim。余弦相似度方法也称为基于向量的相似度,其中将两个样本的特征空间视为特征向量,并将它们之间的相似度定义为这些向量之间的夹角。
Jaccard相似系数JacSim。雅卡德系数测量两个样本集之间的相似度,并定义为这些集合的交集大小除以它们的并集大小:
Figure BDA0002608110330000191
|fp∩fk|是给定患者p的特征向量与已知患者集合中第k个患者特征向量的交集数量,|fp∪fk|是给定患者p的特征向量与已知患者集合中第k个患者特征向量的并集数量。
基于流行度的相似度方法,popSim。在这种情况下,ADRs的发生频度指的是与ADRs相关报告患者数量。在这种方法中,我们假设 ADRs越普遍(频繁)与越多的患者相关。等级函数定义为交比的和:
Figure BDA0002608110330000192
其中Rp是患者p已报告地ADRs集合,R*表示从患者p最受欢迎的ADRs列表中随机选择n次Rp
基于关联规则挖掘的方法,ARM。Harpaz等人将药品与不良反应之间的关联关系视为数据挖掘中定义的事务。他们采用扩展A-priori 算法,在FAERS(2008年的全年报告)样本报告中发现多种药物(最多6种)与ADRs之间的关联关系,并使用报告比率(RR=2)而不是置信度作为感兴趣的衡量标准;该数量的计算公式为:
Figure BDA0002608110330000193
其中,ntrain是训练集中的事务数量,D是所有药物的集合,R是所有ADRs的集合,
Figure BDA0002608110330000194
表示规则的报告频率,
Figure BDA0002608110330000195
是在独立性假设下ADRs的报告频率。
基于网络的相似性方法。Lin等基于药品ADR关联的双向网络,预测了单一药物和单一ADR之间的未知关联。他们创建了三个双向网络:药品-ADRs网络,单药-单药网络和ADRs-ADRs网络。药品-ADRs网络用于表示药物和ADRs之间的关联。单药-单药网络代表了诱发相同ADRs的药品之间的关系。ADRs-ADRs网络代表由相同药物诱发的ADRs之间的关系。
这些网络通过以下过程可以预测药物和ADRs之间的未知链接是否是关联:(1)从未知链接中寻求单一药物和单个ADR之间的外部链接;(2)通过计算药物与其关联的ADR的药物邻居的交集来计算每个外部链接的排名得分,然后选择排名最高的前n个外部链接作为预测关联。
3.3.2替代方法
完全个性化的ADRs预测模型,FPS。该模型是一种单任务学习方法,其中模型是针对每个ADR独立学习,并为每个ADR估计nF维的特征权重向量wu,以反映特征对该ADR的相对重要性。患者p和ADR u的排名分数ru,p估计如下:
Figure BDA0002608110330000201
为训练FPS模型,我们为每个ADRu采样三元组(u,p,q),每个三元组由相关的已报告患者p和未报告患者q组成,公式如下:
Figure BDA0002608110330000202
其中
Figure BDA0002608110330000203
是已报告的ADR u患者集合,
Figure BDA0002608110330000204
表示未报告ADR u的患者集合。
表4:世界卫生组织对ADR频率的定义
Figure BDA0002608110330000205
为减少ADRs的预测误差,我们使用Z-score算法对排名分数进行了归一化。由于验证集和测试集是从整个数据集中自动选择的,因此它们的大小相同且不会重叠;因此,它们具有相同的均值和方差。然后,在训练集上学习每个ADR的模型Θ=[w],在验证集上相对于Z-score进行归一化,然后在测试集上进行评估。
KEMULA的非核函数化版本,PRMTL。我们还将KEMULA与PRMTL进行了比较,这在我们之前的出版物(2014IEEE International Conference on.IEEE,2014,pp.593–596)中有描述。在该方法中,采用单一的相似性策略来使用一致性核函数来衡量每个患者的药物不良反应。
3.4衡量指标
3.4.1对于已记录ADRs挖掘效果的衡量
为了评估模型预测ADRs的性能,本工作定义了如下度量标准,即平均命中率α-HR@n,如公式(28)所示:
Figure BDA0002608110330000206
式中,
Figure BDA0002608110330000207
为所有患者的集合;
Figure BDA0002608110330000208
Figure BDA0002608110330000209
的个数;Rp为p患者报告的ADRs集合;|Rp|为Rp的大小;
Figure BDA00026081103300002010
为正整数,|Hitsp@n| 表示Rp与患者p的
Figure BDA00026081103300002011
所预测ADRs的交集。这一指标是对每个给定患者进行估计,并对所有患者进行平均。
3.4.2对不同频率ADRs监测准确性的衡量
我们采用世界卫生组织WHO发布的关于药物不良反应绝对风险发生频率类别标准,来作为对本工作中关于ADRs的分类标准(常见,不常见,罕见和非常罕见),如表4所示。此外,根据Ulrich等人研究表明,罕见的副作用是药物安全领域要解决的最具挑战性的ADRs 类型之一。而且在检测此类ADRs时遇到的极端困难使它们对患者更加危险。罕见的副作用通常被认为仅影响十分之一的人和十分之一的人。
为了衡量模型在预测不同频率ADRs的能力,我们提出了衡量总体命中率o-HR@n的指标来衡量常见、非常见、罕见和非常罕见的 ADR效果,o-HR@n计算方法如下:
Figure BDA0002608110330000211
其中,fr表示特定的ADR频率;
Figure BDA0002608110330000212
是患者p的频率为fr的已报告ADRs数量;四个小写字母c,u,r,v分别代表常见、不常见、罕见和非常罕见的频率ADR;
Figure BDA0002608110330000213
是频率类型为fr∈[c,u,r,v]的
Figure BDA0002608110330000214
和患者p的
Figure BDA0002608110330000215
所预测ADRs之间的交集。
3.5模型选择
我们使用以下过程评估不同方法的性能。我们将患者-ADR的关联矩阵A分为两个矩阵:Atrain和Atest。矩阵Atest包含对A列的10%的随机选择,矩阵Atrain包含了其余90%的列。由于每一列都对应一个患者,因此Atest中包含的患者与Atrain中包含的那些患者不相交。Atrain中的信息用于训练每个模型,然后将其用于表示Atest患者中每个ADR的风险评分。然后,将这些风险评分用于按风险的非递增顺序对ADRs进行排序,并返回前n个ADRs作为每位患者的前n个所预测的ADRs。
为估计KEMULA参数,本工作将训练集Atrain进一步分为权重分别为90%和10%的训练集和验证集。使用训练集对模型进行训练,验证集用于检测收敛。在算法1的每个随机梯度下降迭代之后,在验证集上估计模型Θ=[M,W]。
4实验设置
我们将实验结果的呈现分为四个部分。从4.1节到4.3节,我们将介绍核函数评估的细节。在4.4节中,我们展示了全局评分函数对模型的评估效果。第4.5节介绍了我们的模型的最终性能,分别是关于α-HR@n和o-HR@n。在本节的最后,我们提供了一个ADRs 预测结果样本集,该预测结果是目前还未被临床发现,但已经过世界四个权威药物不良反应机构,通过大数据技术和上报记录挖掘分析进行公布。
4.1针对小分子药物核函数的选择
每种小分子药物均由分子指纹表示,该分子指纹将其分子结构编码为一系列二进制数字(位),表示分子中是否存在特定的亚结构。然后,我们创建一个小分子药物编码矩阵,其中行和列代表药物,每个单元格代表相应药物对之间的TC。
在图2中,我们给出了使用Tanimoto核函数和一致性核函数用于小分子药物特征的性能评估,其中小分子药物特征的全局相似性函数的数量为nM=[1~10],以α-HR@2.来进行模型衡量。该图显示,Tanimoto核函数比一致性核函数具有更优的预测性能。
4.2针对生物技术药物核函数的选择
每种生物技术药物均以FASTA格式的蛋白质序列表示,该格式从DrugBank获得。本工作针对生物技术药物特征使用了四种核函数进行评估:(1)Smith-Waterman(SW)局部序列比对核函数,(2)Needleman-Wunsch(NW)全局序列比对核函数,(3)SW&NW多项式核函数,以及(4)一致性核函数。
由于生物技术药物是长链蛋白序列,因此本工作采用BLOSUM62蛋白序列矩阵,并测试了两种最常用的空位罚分策略,即12-1和 8-2空位罚分。实验结果(图3)表明,当使用8-2间隙罚分时,与使用12-1间隙罚分相比,SW,NW和SW&NW核函数都可以实现更好的性能。因此,我们采用了基于BLOSUM62的序列比对算法,选择8-2空位惩罚策略。对生物技术药物特征进行核函数评估的结果(图 3)表明,当将一致性核函数用于生物技术药物特征时,该模型可实现最佳预测精度。
4.3对于所患疾病核函数的评估
图4显示了使用不同核函数作为所患疾病特征的模型评估性能,这表明当LMI度量用于指示特征的核函数时,该模型获得了最佳的预测性能。
4.4对于全局得分函数的衡量
图5和图6显示了通过在定义域[1e-1~1e-5]上改变全局评分函数的学习率μreg和μorth而获得的KEMULA性能,并根据α-HR@n|n∈[1,2]和o-HRfr@n|n=2&fr∈[c,u,r,v]在区间
Figure BDA0002608110330000221
上改变全局评分函数nM的数量。
这些结果表明,模型预测ADRs性能不会因这些参数的变化而发生显著变化。KEMULA在相对较少的整体评分函数下表现良好的原因是,它的基本模型能够精确地捕捉不同患者的偏好,即使这些偏好非常不同。
4.5基于α-HR@n和o-HR@n评价标准的模型预测准确度评估
4.5.1评价模型预测已记录ADRs准确度
表5显示了KEMULA模型与其他方法在α-HR@n(n∈[1,2,3])方面的比较结果。这些结果表明,与其他方法相比,本工作提出的模型具有更好的性能。
表5:在α-HR@n|n∈[1,2,3]下KEMULA与其他方法的性能比较
Figure BDA0002608110330000231
4.5.2评价模型预测不同频率ADRs准确度
表6显示了基于o-HR@n评价标准,本工作提出的模型与其他方法比较的结果,即评价模型在预测四种不同发生频率的药物不良反应方面的结果。如表所示,本工作提出的模型具有预测各种频率下发生的ADRs的能力,甚至是非常罕见的ADRs。并由此可看出,该模型的泛化能力较强,可以覆盖广泛的ADRs,从常见的反应(例如死亡,呕吐和腹泻)到非常罕见的反应(例如黄褐斑,睡眠麻痹和钙化异常)。
表6:在o-HRfr@n|n∈[1,2,3]&fr∈[c,u,,v]下KEMULA与其他方法的性比较
Figure BDA0002608110330000232
4.6对于模型预测FDA未报告的潜在ADRs的结果分析
如FDA所述,FAERS“是一个包含有关药物不良反应事件和提交给FDA的用药错误报告的数据库” (http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/)。根据FAERS的定义,任何未报告的ADRs都不能被视为假阳性信号(假因果关系),而应被识别为未报告的潜在不良反应。表7报告了由KEMULA确定的前n个未报告的 ADRs的几种情况,这些由KEMULA模型预测出的潜在ADRs结果,已在国际上四个权威ADR监测机构进行了验证(Drugs.com, druginfomer.com,ehealthme.com和factmed.com)。
表7:FAERS尚未记录的药物不良反应实例
Figure BDA0002608110330000241
在本实施例中,本工作提出了一个多任务多核函数学习模型KEMULA,用来挖掘及预测不同频率发生的已报告和未报告的ADRs。提出的模型可以成功地从真实的SRS数据集中预测有意义的ADRs信号。其中,一些挖掘的ADRs在现实生活中非常罕见,其可以帮助医生和药物不良反应监测机构对其进行研究。这可以帮助制药业在药物上市前通过本工作提出的模型发现临床测试期间无法发现的潜在的药物不良反应,极大缩减新药临床实验周期和极大降低新药研发成本。
实施例2
一种个性化药物不良反应预测系统,所述预测系统包括:
临床数据获取模块:获取受试者临床数据;
预测模型构建模块:基于KEMULA预测模型对受试者进行预测,得到受试者的个性化药物不良反应结果。
其中,所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息(在本发明中称为适应症)。
所述KEMULA预测模型包括一种个性化ADR排序函数,其具体为计算患者发生相关ADRs风险的若干个性化评分函数的线性组合。
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数。
其中,所述函数为核函数。
具体的,所述KEMULA模型可以从在不同验证集及其组合上获得的一组核函数池中进行选择;每个患者均由nF维特征向量表示,该向量由小分子药物特征,生化药物特征和所患疾病特征组成。
KEMULA预测模型构建过程中,为保证多核函数线性组合的凸优化性,定义用于组合一组内核的η为凸和
Figure BDA0002608110330000251
从而可以在训练期间对模型进行优化。
更具体的,所述KEMULA预测模型可以是:
Figure BDA0002608110330000252
其中
Figure BDA0002608110330000253
是优化参数的集合;Dtri是所有成对风险的集合,
Figure BDA0002608110330000254
定义任务之间的内在关联性:(1)约束
Figure BDA0002608110330000255
保证来自不同任务的权重向量的正交性,以及 (2)
Figure BDA0002608110330000256
保证来自相同任务的权重向量标准化为单位向量。
对上述函数进行拉普拉斯正则化处理,以确保相似患者的personADRank函数所训练的变量权重接近,从而提升该模型对给定患者与相应ADRs之间关联的因果关系(真阳性);
所述拉普拉斯正则化处理具体方法为:
采用拉格朗日优化模型Θ=[M,W]:
Figure BDA0002608110330000257
其中Reg(Θ)是一个正则化函数项,它控制模型的复杂度并引发涉及向量{md}和{wd}的任务相关性。
通过使用二次惩罚函数将等式(10)中的约束条件合并到正则项Reg(Θ)中,可以对其进行软应用。因此,正则化函数变为
Figure BDA0002608110330000258
其中,μreg和μorth是用于避免模型过拟合的权重向量惩罚参数,并控制泛化误差与M和W的方差之间的权衡。隶属度受参数γ的限制,项
Figure BDA0002608110330000261
是弗罗贝尼乌斯范数,用来控制M的复杂性。
Figure BDA0002608110330000262
Figure BDA0002608110330000263
通过BPR损失函数惩罚ws|s∈{m,b,i}拟合的方差。通过定义矩阵
Figure BDA00026081103300002610
和权重矩阵集合W,等式12等价地写为
Figure BDA0002608110330000264
ΛM是具有γmuu·项的对角矩阵。
Figure BDA0002608110330000265
是一个对角矩阵,其具有用于拉普拉斯学习任务的μreg,ΛW是包含
Figure BDA0002608110330000266
的对角矩阵。
Figure BDA0002608110330000267
是含有μorth空心矩阵(也称为零对角线矩阵)用于拉普拉斯学习任务,
Figure BDA0002608110330000268
是包含
Figure BDA0002608110330000269
的空心矩阵。
实施例3
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1方法中的各个操作,为了简洁,在此不再赘述。
所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(Smart Phone,如Android手机、 IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。
应理解,在本发明中,该处理器可以是中央处理单元CPU,该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意的是,以上实例仅用于说明本发明的技术方案而非对其进行限制。尽管参照所给出的实例对本发明进行了详细说明,但是本领域的普通技术人员可根据需要对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (3)

1.一种个性化药物不良反应预测系统,其特征在于,所述预测系统包括:
临床数据获取模块:获取受试者临床数据;
预测模型构建模块:基于KEMULA预测模型对受试者进行预测,得到受试者的个性化药物不良反应结果;
其中,所述受试者的临床数据至少包括受试者服用小分子药物、生物技术药物和受试者医疗状况的信息;
所述KEMULA预测模型包括一种个性化ADR排序函数,其具体为计算患者发生相关ADR风险的若干评分函数的线性组合;
所述评分函数至少包括小分子药物函数、生物技术药物函数和所患疾病特征函数;
所述函数为核函数;
所述KEMULA模型从在不同验证集及其组合上获得的一组内核功能中进行选择;每个患者均由nF维特征向量表示,该向量由小分子药物特征,生化药物特征和所患疾病特征组成;
KEMULA预测模型构建过程中,定义用于组合一组满足凸优化性质的
Figure FDA0003132909410000011
的核函数池;
所述KEMULA预测模型是:
Figure FDA0003132909410000012
其中
Figure FDA0003132909410000013
是优化参数的集合;Dtri是所有成对风险的集合,
Figure FDA0003132909410000014
其中P是指患者集合,R是指ADR集合;
Figure FDA0003132909410000015
其中σ是一个Sigmoid函数;
对上述函数进行拉普拉斯正则化处理;
所述拉普拉斯正则化处理具体方法为:
采用拉格朗日优化模型θ=[M,W]:
Figure FDA0003132909410000021
其中
Figure FDA0003132909410000022
是一个正则化函数项,它控制模型的复杂度并引发涉及向量{md}和{wd}的任务相关性;
通过使用二次惩罚函数将等式(10)中的约束条件合并到正则项
Figure FDA0003132909410000023
中,对其进行软应用;因此,正则化函数变为
Figure FDA0003132909410000024
其中,μreg和μorth是权重向量上的惩罚参数,用于控制泛化误差与M和W的方差之间的权衡;隶属度受参数γ的限制,项
Figure FDA0003132909410000025
是弗罗贝尼乌斯范数,用来控制M的复杂性;
Figure FDA0003132909410000026
Figure FDA0003132909410000027
通过BPR损失函数惩罚ωs|s∈{m,b,i}拟合的方差;通过定义矩阵
Figure FDA0003132909410000028
和权重矩阵集合W,等式12等价地写为
Figure FDA0003132909410000029
其中,ΛM是具有γmuu·项的对角矩阵;
Figure FDA00031329094100000210
Figure FDA00031329094100000211
是一个对角矩阵,其具有用于拉普拉斯学习任务的μreg,ΛW是包含
Figure FDA00031329094100000212
的对角矩阵;
Figure FDA00031329094100000213
Figure FDA00031329094100000214
是含有μorth空心矩阵用于拉普拉斯学习任务,
Figure FDA00031329094100000215
是包含
Figure FDA00031329094100000216
的空心矩阵。
2.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,其特征在于,所述计算机指令被处理器运行时,完成权利要求1所述个性化药物不良反应预测方法所述步骤。
3.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1所述个性化药物不良反应预测方法所述步骤。
CN202010745145.XA 2020-07-29 2020-07-29 一种个性化药物不良反应预测系统、设备及介质 Active CN111863281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010745145.XA CN111863281B (zh) 2020-07-29 2020-07-29 一种个性化药物不良反应预测系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010745145.XA CN111863281B (zh) 2020-07-29 2020-07-29 一种个性化药物不良反应预测系统、设备及介质

Publications (2)

Publication Number Publication Date
CN111863281A CN111863281A (zh) 2020-10-30
CN111863281B true CN111863281B (zh) 2021-08-06

Family

ID=72945293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010745145.XA Active CN111863281B (zh) 2020-07-29 2020-07-29 一种个性化药物不良反应预测系统、设备及介质

Country Status (1)

Country Link
CN (1) CN111863281B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562868B (zh) * 2020-12-24 2023-10-27 四川省人民医院 基于患者个体化特征的高灵敏度、高特异性前置药物不良反应预测方法及系统
CN113035298B (zh) * 2021-04-02 2023-06-20 南京信息工程大学 递归生成大阶数行限制覆盖阵列的药物临床试验设计方法
CN113362886B (zh) * 2021-07-26 2022-04-15 北京航空航天大学 基于药物显隐式特征融合相似性的不良反应预测方法
CN114005503B (zh) * 2021-12-31 2022-03-18 四川省医学科学院·四川省人民医院 一种药源性疾病主动监测预警系统
CN115424741B (zh) * 2022-11-02 2023-03-24 之江实验室 基于因果发现的药物不良反应信号发现方法及系统
CN115662656B (zh) * 2022-11-04 2023-11-07 上海康黎医学检验所有限公司 一种药物副作用的评价方法、系统和电子设备
CN116153462B (zh) * 2023-04-20 2023-06-27 南京引光医药科技有限公司 一种药物警戒系统及药物警戒反馈数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760698A (zh) * 2016-03-18 2016-07-13 华中科技大学同济医学院附属协和医院 一种药品不良反应预警分析系统及方法
CN110880362A (zh) * 2019-11-12 2020-03-13 南京航空航天大学 一种大规模医疗数据知识挖掘与治疗方案推荐系统
CN110998739A (zh) * 2017-08-08 2020-04-10 国际商业机器公司 不良药物反应的预测

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355367B2 (en) * 2013-03-07 2016-05-31 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
US11120913B2 (en) * 2018-01-24 2021-09-14 International Business Machines Corporation Evaluating drug-adverse event causality based on an integration of heterogeneous drug safety causality models
US11164678B2 (en) * 2018-03-06 2021-11-02 International Business Machines Corporation Finding precise causal multi-drug-drug interactions for adverse drug reaction analysis
CN109215780B (zh) * 2018-08-24 2022-05-31 齐鲁工业大学 高拉普拉斯正则化低秩表示的多模态数据分析方法及系统
CN109559786B (zh) * 2018-11-08 2022-04-08 三峡大学 基于量子群智能优化的先导化合物发现与合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760698A (zh) * 2016-03-18 2016-07-13 华中科技大学同济医学院附属协和医院 一种药品不良反应预警分析系统及方法
CN110998739A (zh) * 2017-08-08 2020-04-10 国际商业机器公司 不良药物反应的预测
CN110880362A (zh) * 2019-11-12 2020-03-13 南京航空航天大学 一种大规模医疗数据知识挖掘与治疗方案推荐系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习方法的药物不良反应预测及分析;杨帆;《中国博士学位论文全文数据库 医药卫生科技辑》;20170815;第2017年卷(第08期);第E079-36页 *

Also Published As

Publication number Publication date
CN111863281A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111863281B (zh) 一种个性化药物不良反应预测系统、设备及介质
US10867702B2 (en) Individual and cohort pharmacological phenotype prediction platform
Turgeman et al. Insights from a machine learning model for predicting the hospital Length of Stay (LOS) at the time of admission
US11037684B2 (en) Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity
Spirtes et al. An algorithm for fast recovery of sparse causal graphs
Corradi et al. Prediction of incident delirium using a random forest classifier
Williams et al. Applying machine learning to pediatric critical care data
US11276495B2 (en) Systems and methods for predicting multiple health care outcomes
JP2017537365A (ja) 患者データに基づく健康診断および治療のためのベイジアン因果関係ネットワークモデル
US20220130541A1 (en) Disease-gene prioritization method and system
Nsugbe Toward a self-supervised architecture for semen quality prediction using environmental and lifestyle factors
Rosnati et al. MGP-AttTCN: An interpretable machine learning model for the prediction of sepsis
US20220188654A1 (en) System and method for clinical trial analysis and predictions using machine learning and edge computing
Sengupta et al. A statistical model for stroke outcome prediction and treatment planning
Manduchi et al. T-dpsom: An interpretable clustering method for unsupervised learning of patient health states
Ali et al. Multitask deep learning for cost-effective prediction of patient's length of stay and readmission state using multimodal physical activity sensory data
Wen et al. Time-to-event modeling for hospital length of stay prediction for COVID-19 patients
Shi et al. LASSO-Patternsearch algorithm with application to ophthalmology and genomic data
Sampath et al. Ensemble Nonlinear Machine Learning Model for Chronic Kidney Diseases Prediction
Yang et al. Kernelized multitask learning method for personalized signaling adverse drug reactions
Gamalo-Siebers et al. Flexible shrinkage estimation of subgroup effects through Dirichlet process priors
Oflaz et al. Estimation of disease progression for ischemic heart disease using latent Markov with covariates
Gao et al. A comprehensive benchmark for COVID-19 predictive modeling using electronic health records in intensive care
Zhang et al. MTPGraph: A data-driven approach to predict medical risk based on temporal profile graph
Silva et al. A multi-cohort study on prediction of acute brain dysfunction states using selective state space models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant