CN113362886B - 基于药物显隐式特征融合相似性的不良反应预测方法 - Google Patents

基于药物显隐式特征融合相似性的不良反应预测方法 Download PDF

Info

Publication number
CN113362886B
CN113362886B CN202110846348.2A CN202110846348A CN113362886B CN 113362886 B CN113362886 B CN 113362886B CN 202110846348 A CN202110846348 A CN 202110846348A CN 113362886 B CN113362886 B CN 113362886B
Authority
CN
China
Prior art keywords
drug
implicit
similarity
adverse reaction
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110846348.2A
Other languages
English (en)
Other versions
CN113362886A (zh
Inventor
王磊
梁锦威
张建
石岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110846348.2A priority Critical patent/CN113362886B/zh
Publication of CN113362886A publication Critical patent/CN113362886A/zh
Application granted granted Critical
Publication of CN113362886B publication Critical patent/CN113362886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了基于药物显隐式特征融合相似性的不良反应预测方法,该方法基于相似的药物有可能会具有相似的不良反应的假设,利用药物的显式特征和隐式特征,通过将药物的显式特征相似性和药物的隐式特征相似性相融合,改进药物相似性的度量方法,找出与目标药物相似性最高的Nk个药物(Nk个最近邻居),通过这些最近邻居对目标不良反应的关联来预测目标药物对目标不良反应的关联强度,最后根据预测得出的目标药物对各个不良反应的关联强度的排序,选取关联强度较高的TOPK个不良反应作为目标药物的不良反应,从而实现对药物潜在不良反应的预测。

Description

基于药物显隐式特征融合相似性的不良反应预测方法
技术领域
本发明涉及药物安全监测、数据挖掘及机器学习领域,具体是一种基于药物显隐式特征融合相似性的不良反应预测方法。
背景技术
随着社会的发展和医疗水平的不断提高,越来越多的疾病可以通过药物来进行医治,人们的生活质量也因此得到了明显提高。然而药物本身具有两重性:一方面能够发挥治疗作用治疗疾病,另一方面药物本身也有一定的毒副作用,并可能导致药物不良反应(Adverse Drug Reaction,ADR)的发生。根据世界卫生组织(World Health Organization,WHO)国际药物检测合作中心的定义,所谓药物不良反应,指的是合格药物在正常使用的情况下,出现的与用药目的无关的有害副作用、毒性反应、过敏反应、三致作用(致畸形、致突变、致癌等)、后遗反应、继发性反应等。据不完全统计,我国所有住院患者中,有20%左右的患者出现了ADR事件。世界卫生组织也表示,在全世界所有的死亡病例当中,约有50%的患者死于药物不良反应。
由于药物不良反应的危害性与严重性,我们需要采取措施对上市药物的安全进行严格的监测,一旦发现高度疑似不良反应信号,就必须上报给相关单位进行研究、分析和管理,减少用药隐患。
在传统的不良反应信号检测方法中,有基于统计学的比例失衡分析法(Disproportionality Analysis,DPA),例如比例报告比值比法(proportional reportingratio,PRR)、报告比值比法(reporting odds ratio,ROR)、贝叶斯置信度递进神经网络法(bayesian confidence propagation neural network,BCPNN)、多项经验贝叶斯伽马泊松分布缩减法(multiple item empirical bayesian gamma poisson shrinker,MGPS)等。随着大数据的兴起,基于大数据的机器学习方法也逐渐用于药物-不良反应信号的检测,主要的检测方法分为两大类:基于相似性的方法和基于分类模型的方法。基于相似性的方法采用相似的药品有可能发生着相同不良反应的这一假设;而基于分类模型的方法是把药物-不良反应的预测问题看作二分类问题,利用传统的数据挖掘或机器学习方法进行检测。
由于基于相似性的方法预测性能更好,可解释性更强,更能说明药物引发不良反应的原因,因而在本发明中,提出一种基于药物显隐式特征融合相似性的不良反应关联强度预测方法,通过该方法对药物-不良反应的关联强度进行预测,并按照关联强度降序排序,将关联强度较高的TOP K个不良反应作为药物的不良反应,从而实现药物潜在不良反应的预测,为医药安全领域提供参考。
发明内容
本发明提供一种基于药物显隐式特征融合相似性的不良反应预测方法,该方法基于相似的药物有可能会具有相似的不良反应的假设,利用药物的显式特征和隐式特征,通过将药物的显式特征相似性和药物的隐式特征相似性相融合,改进药物相似性的度量方法,找出与目标药物相似性最高的Nk个邻居(Nk个最近邻居),通过这些最近邻居来预测目标药物对目标不良反应的关联强度,最后根据预测得出的目标药物对各个不良反应的关联强度的排序,选取关联强度较高的TOPK个不良反应作为目标药物的不良反应,从而实现对药物潜在不良反应的预测。
本发明的具体内容如下:
本发明提供了一种基于药物显隐式特征融合相似性的不良反应预测方法,其核心在于药物显隐式特征融合相似性的计算,而该相似性的计算又依赖于药物的显式特征向量和药物的隐式特征向量,因而,先介绍药物显式特征向量和隐式特征向量的获取。
在本发明中,药物的显式特征向量主要基于药物的化学结构特征、药物的适应症特征以及药物的生物信息特征来构造,具体如下:
优选的,本发明使用PubChem数据库(有机小分子生物活性数据库)(参见https://www.ncbi.nlm.nih.gov/pccompound)来提取每一个药物的化学结构特征,PubChem是一种化学模组的数据库,包含三个子数据库:PubChem BioAssay库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献;PubChem Compound库用于存储整理后的化合物化学结构信息;PubChem Substance用于存储机构和个人上传的化合物原始数据。本发明基于PubChem数据库提取的药物化学结构特征,记为Fchem。
优选的,本发明从SIDER(Side Effect Resource)数据库(药物和副作用资源数据库)(参见http://sideeffects.embl.de/)来提取每一个药物的适应症特征,SIDER数据库包含了有关上市药物及其记录的不良反应的信息和适应症信息,其中很多信息是通过文本挖掘技术从公共文档和资料中提取,主要包括药物副作用频率、药物和副作用的分类以及相关信息。本发明基于SIDER数据库提取的药物适应症特征,记为Findi
优选的,本发明从DrugBank数据库(药物数据库)(参见https://go.drugbank.com/)提取每一个药物的生物信息特征,包括靶标、酶、转运蛋白、载体等。DrugBank数据库整合了生物信息学和化学信息学资源,并提供详细的药物数据与药物靶标信息及其机制的全面分子信息,包括药物化学、药理学、药代动力学、ADME及其相互作用信息。本发明基于DmgBank数据库提取的药物生物信息特征,记为Fmole
优选的,将药物的化学结构特征Fchem、药物的适应症特征Findi以及药物的生物信息特征Fmole组合,作为药物的显式特征向量F=[Fchem,Findi,Fmole]。
由于本发明的药物隐式特征是由矩阵分解算法得到的,因而首先引入矩阵分解算法。
矩阵分解(Matrix Factorization)算法的思想是把一个高秩的大矩阵,近似分解成两个低秩小矩阵的乘积,在后续计算时不再使用大矩阵,而是使用分解得到的两个小矩阵。在药物-不良反应的预测中,令药物-不良反应关联矩阵S的形式如下所示:
Figure BDA0003180701980000021
其中,N表示药物的数量,M表示不良反应的数量,矩阵的行代表药物对所有不良反应的关联强度,矩阵的列代表所有药物对某一个不良反应的关联强度,矩阵中的行和列的交叉处代表相应的药物对不良反应的关联强度。在现实中,由于药物的数量与不良反应的数量非常多,不可能获得每个药物对每个不良反应的关联强度,因而药物-不良反应的关联矩阵S中存在着大量缺失值(为0的元素),在药物-不良反应的关联强度为0的情况下,有可能是该药物与该不良反应不存在关联,也有可能是该不良反应是该药物尚未发现的潜在不良反应,这就无法判断关联强度为0的位置药物与不良反应之间的关联关系。因而,本发明方法的目标是,基于已知的药物-不良反应的关联强度,预测未知的药物-不良反应关联强度。
矩阵分解算法的示意图如图1所示,根据矩阵分解的示意图,原来N×M的大矩阵会分解成N×K和K×M的两个小矩阵,这里多出来一个维度K,这个K维向量称为隐因子向量(Latent Factor Vector),其每一个元素称为隐因子(Latent Factor)。矩阵分解算法法的核心假设是用隐因子向量来表达药物和不良反应,药物和不良反应的隐因子向量的乘积为原始的关联强度。这种假设之所以成立,是因为我们认为实际的关联强度是在一系列的隐变量的影响下产生的,这些隐变量代表了药物和不良反应一部分共有的特征,在不良反应上表现为属性特征,在药物上表现为偏好特征,只不过这些因子并不具有实际意义,也不一定具有非常好的可解释性,每一个维度也没有确定的标签名字,所以才会叫做“隐因子”。而矩阵分解后得到的两个包含隐因子的小矩阵,一个代表药物的隐含特征,一个代表不良反应的隐含特征,矩阵的元素值代表着相应药物或不良反应对各项隐因子的符合程度。
矩阵分解算法中的隐因子与神经网络中的隐藏层相似,都很难解释隐因子具体指的是什么,与最终结果有什么直观的联系,但这对矩阵分解算法学习隐因子向量表示并不重要,只需要根据数据集学习到最优的隐特征,使得目标函数达到最优就可以。
那么矩阵分解算法的原理可以表述如下:
Figure BDA0003180701980000022
其中,N表示药物的数量,M表示不良反应的数量,K表示隐特征的维度,s表示原始的药物-不良反应的关联矩阵,其元素sui表示药物u对不良反应i的关联强度;
Figure BDA0003180701980000023
表示经过矩阵分解后重构的药物-不良反应的关联矩阵,其元素
Figure BDA0003180701980000024
表示药物u对不良反应i的预测关联强度;P矩阵表示药物的隐因子特征矩阵,每一行代表一个药物的隐因子向量,行与列的交叉处代表药物对某一个隐因子的分值;Q矩阵表示不良反应的隐因子特征矩阵,每一列代表一个不良反应的隐因子向量,行与列的交叉处代表不良反应对某一个隐因子的分值。
矩阵分解算法就是要将原矩阵S分解为矩阵P和矩阵Q的乘积,即通过矩阵中的隐因子特征将药物和不良反应联系起来,并且使得矩阵分解后重构的矩阵
Figure BDA0003180701980000031
尽可能的接近原矩阵S。从上述矩阵转换关系中可以得到矩阵分解算法计算药物u对不良反应i的关联强度的预测公式为:
Figure BDA0003180701980000032
其中
Figure BDA0003180701980000033
为药物u对不良反应i的预测关联强度,pu为矩阵P的第u行,表示药物u的隐因子特征向量,qi为矩阵Q的第i列,表示不良反应i的隐因子向量,puk和qki表示药物u和不良反应i的第k个隐因子。上述矩阵分解算法的目标是让原始的药物-不良反应的关联强度sui和预测的关联强度
Figure BDA00031807019800000317
之间的误差尽可能的小,因此使用平方误差作为损失函数,并且为了防止过拟合,加入一个L2正则化项,通过梯度下降法对损失函数进行优化,迭代求解矩阵P和矩阵Q,损失函数如下式所示:
Figure BDA0003180701980000034
其中J为损失函数,P,Q分别为药物的隐因子特征矩阵和不良反应隐因子特征矩阵,sui(u=1,2,...,N,i=1,2,...,M)表示药物u对不良反应i的关联强度,N,M分别为药物的数量和不良反应的数量,K表示隐特征维度,puk,qki表示药物u和不良反应i的第k个隐因子,λ为正则化系数,
Figure BDA0003180701980000035
分别为药物u和不良反应i的隐特征向量的L2正则化。当算法收敛后,即得到药物隐因子特征矩阵P及不良反应隐因子特征矩阵Q。
注意到,矩阵分解算法不仅仅是对药物-不良反应关联矩阵进行降维,同时它还进行特征的自动提取,得到降维后的药物隐因子特征矩阵P和不良反应隐因子特征矩阵Q。在本发明中,基于药物隐因子特征矩阵P构造药物的隐式特征向量。
药物隐因子特征矩阵P为一个N×K的矩阵,可以把药物隐因子特征矩阵看成N个药物在K个特征上的分布,每一行为一个药物的隐因子向量,将其作为药物的隐式特征向量。
在本发明中,认为融入药物的隐因子特征能够更好的度量药物的相似性,因而提出将药物的显式特征相似性和隐式特征相似性进行融合,并改进相似性的计算方法。将药物u和药物v的显式特征向量记为U和V,将药物u和药物v的隐式特征向量记为
Figure BDA00031807019800000318
Figure BDA00031807019800000319
优选的,药物显式特征相似性的计算采用Jaccard(杰卡德)相似度:
Figure BDA00031807019800000320
其中U,V表示药物u和药物v的显式特征向量,simiJaccard(U,V)表示药物u和药物v的显式特征Jaccard相似性,|U∩V|表示药物u和药物v所有特征的交集的大小,|U∪V|表示药物u和药物v所有特征的并集的大小。
优选的,药物隐式特征相似性的计算采用余弦相似度:
Figure BDA0003180701980000036
其中
Figure BDA0003180701980000037
为药物u和药物v的隐式特征向量,
Figure BDA0003180701980000038
Figure BDA0003180701980000039
的第i个隐因子特征,K为隐因子特征维度,
Figure BDA00031807019800000310
表示药物u的隐式特征
Figure BDA00031807019800000311
和药物v的隐式特征
Figure BDA00031807019800000312
的余弦相似度。
注意到,传统的余弦相似度在实际使用过程中存在一些弊端,它只考虑了两个向量之间的线性关系,例如药物u的隐式特征向量
Figure BDA00031807019800000313
与药物v的隐式特征向量
Figure BDA00031807019800000314
可以看出药物u对各个隐因子的分值较低,而药物v对各个隐因子的分值较高,两个药物隐式特征向量之间存在较大差异,但是利用余弦相似度计算时,相似度却高达0.94,与实际有出入;再如药物u的隐式特征向量
Figure BDA00031807019800000315
与药物v的隐式特征向量
Figure BDA00031807019800000316
同样利用余弦相似度计算时,相似度为1,但我们可以看出这两个药物对各个隐因子的分值是有相当大的差异的。出现这个现象的原因是余弦相似度忽略了药物隐式特征向量之间对各个隐因子的分值的差异性,导致相似度计算结果发生偏差。为了改善这个情况,本发明引入平均平方误差(Mean squared difference,MSD)来对余弦相似度进行改进。
MSD通过计算两个向量的各元素取值的平均平方误差来衡量两个向量的差异性,其计算公式如下:
Figure BDA0003180701980000041
其中
Figure BDA0003180701980000042
为药物的隐式特征向量,
Figure BDA0003180701980000043
Figure BDA0003180701980000044
的第i个隐因子特征,K为药物隐特征维度。MSD越大,两个向量的元素取值的差异越大,即两个向量越不相似。可以看到,MSD仅仅考虑了两个向量各元素取值的差异性,其没有考虑到两个向量之间的相关性,而余弦相似度仅仅考虑了两个向量之间的相关性,没有考虑到向量之间各元素取值的差异性,因而通过将MSD和余弦相似度进行结合,能够更加准确的计算药物之间隐式特征向量的相似性。
将药物隐式特征向量之间对各个隐因子的分值的差异性用MSD进行度量,将
Figure BDA00031807019800000416
称为药物隐式特征向量之间的隐因子分值差异度,将其与余弦相似度进行结合,那么改进的余弦相似度计算公式如下:
Figure BDA0003180701980000045
上述公式即为药物隐式特征相似性的计算公式。由于MSD越大,两个隐式特征向量之间的隐因子分值差异度越大,即两个药物的相似度越低,因而通过
Figure BDA0003180701980000046
来衡量药物隐式特征向量之间的各隐因子的分值的相似性,将
Figure BDA0003180701980000047
称为药物隐式特征向量之间的隐因子分值相似度。如果两个药物u和v的隐式特征向量的
Figure BDA0003180701980000048
越大,那么
Figure BDA0003180701980000049
越小,表明药物u和药物v的隐式特征向量之间的隐因子分值相似度越低,通过
Figure BDA00031807019800000410
可以降低药物u和药物v的余弦相似度;反之,如果药物u和药物v的隐式特征向量之间的
Figure BDA00031807019800000411
越小,那么
Figure BDA00031807019800000412
越接近1,表明药物隐式特征向量之间的隐因子分值相似度越高,则
Figure BDA00031807019800000413
可以增强药物u和药物v的余弦相似度。
对于上述提出的药物显式特征相似性和药物隐式特征相似性,可以通过加权的方式对药物的显隐式特征相似性进行融合,计算出最终的药物相似性。融合后的药物相似性的计算公式为:
Figure BDA00031807019800000417
其中,simi(u,v)为药物u与药物v的显隐式特征融合相似性,simiJaccard(U,V)为药物之间的显式特征相似性,
Figure BDA00031807019800000414
为药物之间的隐式特征相似性,γ为融合系数,取值范围为[0,1],该参数可以调整药物显式特征相似性和隐式特征相似性的融合比例,当γ=0时,只考虑药物的隐式特征相似性,当γ=1时,只考虑药物的显式特征相似性。选取适当的参数可以使得计算结果更加准确。
那么,本发明的基于药物显隐式特征融合相似性的不良反应预测方法可以描述如下:
具体思路如下:
首先基于相似的药物有可能会具有相似的不良反应的假设,利用药物的显式特征和隐式特征,通过本发明提出的药物显隐式特征融合相似性计算出各个药物之间的相似性,之后找出与目标药物相似性最高的Nk个邻居(Nk个最近邻居)构成最近邻居集合N(u),通过这些最近邻居来预测目标药物对目标不良反应的关联强度,最后根据预测得出的目标药物对各个不良反应的关联强度的排序,选取关联强度较高的TOPK个不良反应作为目标药物的不良反应,从而实现对药物潜在不良反应的预测。
具体步骤为:
1)根据药物的显式特征向量,基于Jaccard相似度计算药物之间的显式特征相似性:
Figure BDA00031807019800000415
其中,U,V为药物u和药物v的显式特征向量,simiJaccard(U,V)表示药物u和药物v的显式特征Jaccard相似性,|U∩V|表示药物u和药物v所有特征的交集的大小,|U∪V|表示药物u和药物v所有特征的并集的大小。
2)根据药物-不良反应关联矩阵S,通过矩阵分解算法构建药物隐因子特征矩阵:
S≈PN×K×QK×M
其中S为原始的药物-不良反应关联强度矩阵,N为药物数量,M为不良反应数量,P为药物隐因子特征矩阵,Q为不良反应隐因子特征矩阵,K为隐因子特征维数。
3)根据药物隐因子特征矩阵获取隐式特征向量,基于改进的余弦相似度计算药物之间的隐式特征相似性:
Figure BDA0003180701980000051
Figure BDA0003180701980000052
其中,
Figure BDA0003180701980000053
为药物u和药物v的隐式特征向量,
Figure BDA0003180701980000054
Figure BDA0003180701980000055
的第i个隐因子特征,K为隐因子特征维度,
Figure BDA0003180701980000056
为药物隐式特征向量之间的隐因子分值差异度,
Figure BDA0003180701980000057
表示药物u和药物v的隐式特征相似性。
4)融合药物显式特征相似性和药物隐式特征相似性得到药物显隐式特征融合相似性;
Figure BDA0003180701980000058
其中,simi(u,v)为药物u与药物v的显隐式特征融合相似性,simiJaccard(U,V)为药物之间的显式特征相似性,
Figure BDA0003180701980000059
为药物之间的隐式特征相似性,γ为融合系数,取值范围为[0,1]。
5)寻找目标药物最近邻居集合并对所有不良反应进行关联强度预测:
Figure BDA00031807019800000510
其中,
Figure BDA00031807019800000511
为药物u对不良反应i的关联强度的预测,
Figure BDA00031807019800000512
为药物u对所有不良反应关联强度的平均值,N(u)为药物u的最近邻居集合,simi(u,v)为药物u与邻居集合里的药物v的显隐式特征融合相似性,svi为最近邻居集合里的药物v对不良反应i的关联强度,
Figure BDA00031807019800000516
为邻居集合里的药物v对所有不良反应的关联强度的平均值。
需要说明的是,在矩阵分解算法中的药物u对不良反应i的预测关联强度
Figure BDA00031807019800000517
只是用于计算矩阵分解算法的损失函数,并通过梯度下降算法迭代求解药物隐因子特征矩阵P和不良反应隐因子特征矩阵Q,最后利用药物隐因子特征矩阵P构建药物隐式特征向量,基于改进的余弦相似度计算药物隐式特征相似性。
Figure BDA00031807019800000513
并非是本发明方法的最终预测结果,
Figure BDA00031807019800000514
才是本发明方法的最终预测的药物u对不良反应i的关联强度。
6)对关联强度进行排序,选取关联强度较大的TOPK个不良反应作为该药物潜在的不良反应。
具体的方法流程如下:
Figure BDA00031807019800000515
Figure BDA0003180701980000061
与现有技术相比,本发明具有如下创新点:
(1)本发明提供一种基于药物显隐式特征融合相似性的不良反应预测方法,该方法基于相似的药物有可能会具有相似的不良反应的假设,利用药物的显式特征和隐式特征,通过将药物的显式特征相似性和药物的隐式特征相似性相融合,改进药物相似性的度量方法,找出与目标药物相似性最高的Nk个邻居(Nk个最近邻居),通过这些最近邻居来预测目标药物对目标不良反应的关联强度,最后根据预测得出的目标药物对各个不良反应的关联强度的排序,选取关联强度较高的TOPK个不良反应作为目标药物的不良反应,从而实现对药物潜在不良反应的预测。
(2)本发明在计算药物相似性时,不仅考虑了药物的显式特征相似性,同时基于矩阵分解算法构造药物的隐式特征向量,计算了药物的隐式特征相似性,通过将药物的显式特征相似性和药物的隐式特征相似性相融合,改进了药物相似性的计算方法,能够提高相似性的计算准确度,从而降低预测方法的误差,改善方法的预测性能。
(3)本发明在计算药物隐式特征相似性时,对传统的余弦相似度算法进行了改进,引入平均平方误差(MSD)来度量药物隐式特征向量之间对各个隐因子取值的相似性,能够使得药物隐式特征相似的计算更加准确,进一步改善方法的性能。
附图说明
图1为本发明的矩阵分解算法的示意图。
图2为本发明的基于药物显隐式特征融合相似性的不良反应预测方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
实施例1:
本实施例的数据来自于美国食品与药品监督管理局(Food and DrugAdministration,FDA)的美国药品不良事件报告系统(FDAAdverse Events ReportingSystem,FAERS)(参见https://fis.fda.gov/extensions/FPD-QDE-FAERS/FPD-QDE-FAERS.html#collapse_older),FAERS数据库中包含了大量药物引发不良反应的上报数据,这些数据主要来自MedWatch(药物安全信息与不良反应监管计划)收集到的自发事件报告和FDA强制性要求制药企业定期上报的药物不良事件报告。基于这些数据,利用比例失衡分析法,如比例报告比值比法(PRR)、报告比值比法(ROR)、贝叶斯置信度递进神经网络法(BCPNN)、多项经验贝叶斯伽马泊松分布缩减法(MGPS)之一计算药物与不良反应的关联强度,构造药物-不良反应关联矩阵S,其中行表示药物,列表示不良反应,每一个元素值sui表示药物u对不良反应i的关联强度,将药物的数量记为N,不良反应的数量记为M。可以理解的,在药物-不良反应关联矩阵S中,只有一部分元素有值(非0),有一部分元素值为0,元素值为0的部分表示这部分元素对应的药物与不良反应的关系未知。本发明方法的目标就是基于已知的药物-不良反应的关联强度,预测未知的药物-不良反应的关联强度,并按照关联强度的大小进行降序排序,将TOPK个关联强度较大的不良反应作为该药物的潜在不良反应,从而实现对药物潜在不良反应的预测。
优选的,在本实施例中,基于PubChem数据库提取的药物化学结构特征为一个881维的化学指纹(fingerprint)向量,向量的每一位由{0,1}组成,表示该药物是否具有该维度表示的化学子结构。
优选的,在本实施例中,基于SIDER数据库提取的药物适应症特征为一个包含了1187个高频适应症的独热(one-hot)向量,向量的每一位由{0,1}组成,表示该药物是否具有该维度表示的适应症。
优选的,在本实施例中,基于DrugBank数据库提取的药物生物信息特征为一个包含82个载体蛋白、450个酶、4382个靶标蛋白以及269个转运蛋白的向量,向量的每一位由{0,1}组成,表示该药物是否具有该维度表示的载体蛋白/酶/靶标蛋白/转运蛋白。
在构造药物隐式特征向量时,存在一个超参数:隐特征维度K。优选的,该参数通过交叉验证,选择使得矩阵分解算法预测误差最小的K作为最优的药物隐式特征维度。
那么,本发明实施例的方法步骤可以描述如下:
1)从FAERS数据库中获取药物不良反应的上报数据,利用比例失衡分析法,如比例报告比值比法(PRR)、报告比值比法(ROR)、贝叶斯置信度递进神经网络法(BCPNN)、多项经验贝叶斯伽马泊松分布缩减法(MGPS)之一计算药物与不良反应的关联强度,构造药物-不良反应关联矩阵s:
Figure BDA0003180701980000071
其中,N表示药物的数量,M表示不良反应的数量,矩阵的行代表药物对所有不良反应的关联强度,矩阵的列代表所有药物对某一个不良反应的关联强度,矩阵中的行和列的交叉处代表相应的药物对不良反应的关联强度。例如,在本实施例中,选用PRR法计算药物-不良反应的关联强度,其计算公式如下:
Figure BDA0003180701980000072
其中,u表示药物u,i表示不良反应i,PRRui表示药物u对不良反应i的关联强度,a表示药物u产生不良反应i的报告例数,b表示药物u产生其他不良反应的报告例数,c表示其他药物产生不良反应i的报告例数,d表示其他药物产生其他不良反应的报告例数。
2)基于PubChem数据库提取药物的化学结构特征,基于SIDER数据库提取药物的适应症特征,基于SIDER数据库提取药物的适应症特征,将药物的化学结构特征,药物的适应症特征以及药物的适应症特征组合,构造药物显式特征向量。
3)根据药物的显式特征向量,基于Jaccard相似度计算药物之间的显式特征相似性:
Figure BDA0003180701980000073
其中,U,V为药物u和药物v的显式特征向量,simiJaccard(U,V)表示药物u和药物v的显式特征Jaccard相似性,|U∩V|表示药物u和药物v所有特征的交集的大小,|U∪V|表示药物u和药物v所有特征的并集的大小。
4)根据药物-不良反应关联矩阵S,使用交叉验证对矩阵分解算法进行优化,选择使得矩阵分解算法预测误差最小的K作为最优的药物隐式特征维度。
5)通过矩阵分解算法构建药物隐式特征向量:
SN×M≈PK×QK×M
其中S为原始的药物-不良反应关联强度矩阵,N为药物数量,M为不良反应数量,P为药物隐因子特征矩阵,Q为不良反应隐因子特征矩阵,K为最优的药物隐式特征维度。
6)根据药物的隐式特征向量,基于改进的余弦相似度计算药物之间的隐式特征相似性:
Figure BDA0003180701980000074
Figure BDA0003180701980000075
其中,
Figure BDA0003180701980000081
为药物u和药物v的隐式特征向量,
Figure BDA0003180701980000082
Figure BDA0003180701980000083
的第i个隐因子特征,K为隐因子特征维度,
Figure BDA0003180701980000084
为药物隐式特征向量之间的隐因子分值差异度,
Figure BDA0003180701980000085
表示药物u和药物v的隐式特征相似性。
7)融合药物显式特征相似性和药物隐式特征相似性得到药物显隐式特征融合相似性;
Figure BDA0003180701980000086
其中,simi(u,v)为药物u与药物v的显隐式特征融合相似性,simiJaccard(U,V)为药物之间的显式特征相似性,
Figure BDA0003180701980000087
为药物之间的隐式特征相似性,γ为融合系数,取值范围为[0,1]。
8)寻找目标药物最近邻居集合并对所有不良反应进行关联强度预测:
Figure BDA0003180701980000088
其中,
Figure BDA0003180701980000089
为药物u对不良反应i的关联强度的预测,
Figure BDA00031807019800000810
为药物u对所有不良反应关联强度的平均值,N(u)为药物u的最近邻居集合,simi(u,v)为药物u与邻居集合里的药物v的显隐式特征融合相似性,svi为最近邻居集合里的药物v对不良反应i的关联强度,
Figure BDA00031807019800000811
为邻居集合里的药物v对所有不良反应的关联强度的平均值。
9)对关联强度进行排序,选取关联强度较大的TOPK个不良反应作为该药物潜在的不良反应。
10)通过对目标药物进行预测,得到的TOPK个不良反应可作为该药物最有可能引发的不良反应,从而警示医务人员合理用药,及时防止高危不良反应的发生。
根据本申请实施例提供的方法执行流程,运行在例如个人计算机、服务器、嵌入式计算设备、云计算平台等设备中。

Claims (10)

1.基于药物显式特征相似性与隐式特征相似性融合的不良反应预测方法,包括:
对于药物u与v,使用Jaccard相似度
Figure FDA0003532287100000011
计算两个药物u与v之间的显式特征相似性,其中,U与V分别为药物u和药物v的显式特征向量;
将已知的药物-不良反应关联强度矩阵S分解为P×Q,其中SN×M≈PN×K×QK×M,以及其中N为矩阵S所代表的药物数量,M为不良反应数量,P为药物隐因子特征矩阵,Q为不良反应隐因子特征矩阵,K为隐因子特征维度;
根据药物隐因子特征矩阵构建药物隐式特征向量,基于改进的余弦相似度计算药物u和药物v之间的隐式特征相似性:
Figure FDA0003532287100000012
其中,
Figure FDA0003532287100000013
Figure FDA0003532287100000014
分别为药物u和药物v的隐式特征向量,其中将药物在药物隐因子特征矩阵P中对应的行作为药物的隐式特征向量,
Figure FDA0003532287100000015
表示药物u和药物v的隐式特征向量的余弦相似度,
Figure FDA0003532287100000016
为药物隐式特征向量之间的隐因子分值差异度:
Figure FDA0003532287100000017
Figure FDA0003532287100000018
Figure FDA0003532287100000019
Figure FDA00035322871000000110
的第i个隐因子特征,K为隐因子特征维度;
对药物u与v的显式特征相似性与隐式特征相似性进行融合,计算
Figure FDA00035322871000000111
其中,simi(u,v)为药物u与药物v的显隐式特征融合相似性,simiJaccard(U,V)为药物u与药物v之间的显式特征相似性,
Figure FDA00035322871000000112
为药物u与药物v之间的隐式特征相似性,γ为融合系数,取值范围为[0,1];
计算药物u与多个已知药物的显隐式特征融合相似性,找出与药物u的显隐式特征融合相似性最高的Nk个药物,构成药物u的最近邻居集合N(u);
根据药物u的最近邻居集合N(u),计算药物u对不良反应i的关联强度预测
Figure FDA0003532287100000021
其中
Figure FDA0003532287100000022
其中,
Figure FDA0003532287100000023
为药物u对已知不良反应关联强度的平均值,svi为药物u的最近邻居集合N(u)里的药物v对不良反应i的关联强度,
Figure FDA0003532287100000024
为最近邻居集合N(u)里的药物v对已知不良反应的关联强度的平均值;以及其中,所述svi为药物-不良反应关联强度矩阵S中的元素,S中的元素表示药物对不良反应的关联强度;
对药物u对各个不良反应的关联强度预测排序,将关联强度预测大的指定数量的不良反应作为预测的药物u的不良反应。
2.根据权利要求1所述的方法,其中
药物的显式特征向量F=[Fchem,Findi,Fbio],其中Fchem是药物的化学结构特征,Findi是药物的适应症特征,以及Fmole是药物的生物信息特征;
药物的化学结构特征Fchem从PubChem数据库获取;
药物的适应症特征Findi从SIDER数据库提取;以及
药物的生物信息特征Fmole从DrugBank数据库提取。
3.根据权利要求1所述的方法,其中
通过已有的比例报告比值比法PRR、报告比值比法ROR、贝叶斯置信度递进神经网络法BCPNN、多项经验贝叶斯伽马泊松分布缩减法MGPS之一的统计学方法计算药物与不良反应的关联强度,构造药物-不良反应关联矩阵S,
Figure FDA0003532287100000025
其中,N表示药物的数量,M表示不良反应的数量,矩阵的行代表药物对已知不良反应的关联强度,矩阵的列代表已知药物对某一个不良反应的关联强度,矩阵中的行和列的交叉处代表相应的药物对不良反应的关联强度。
4.根据权利要求3所述的方法,其中,
选用PRR法计算药物-不良反应的关联强度,其计算公式如下:
Figure FDA0003532287100000031
其中,u表示药物u,i表示不良反应i,PRRui表示药物u对不良反应i的关联强度,a表示药物u产生不良反应i的报告例数,b表示药物u产生其他不良反应的报告例数,c表示其他药物产生不良反应i的报告例数,d表示其他药物产生其他不良反应的报告例数。
5.根据权利要求1或3或4所述的方法,其中,
将已知的药物-不良反应关联强度矩阵S分解为P×Q,以优化损失函数为目标寻找N×K维矩阵P与K×M维矩阵Q,使得
SN×M≈PN×K×QK×M
其中损失函数为
Figure FDA0003532287100000032
其中,P,Q分别为药物的隐因子特征矩阵和不良反应隐因子特征矩阵,sui表示作为药物-不良反应关联强度矩阵SN×M中的元素的药物u对不良反应i的关联强度,u=1,2,...,N,而i=1,2,...,M,以及其中puk与qki分别表示药物u和不良反应i的第k个隐因子,K为隐因子特征维度,λ为正则化系数,
Figure FDA0003532287100000033
分别为药物u和不良反应i的隐特征向量的L2正则化。
6.根据权利要求5所述方法,其中
隐因子特征维度K通过交叉验证确定,选择使得矩阵分解算法预测误差最小的K作为最优的药物隐式特征维度。
7.根据权利要求6所述方法,其中
将所述药物隐因子特征矩阵P的每一行作为每一个药物的隐式特征向量。
8.根据权利要求7所述方法,其中
基于平均平方误差MSD改进余弦相似度,计算药物u和药物v之间的隐式特征相似性:
Figure FDA0003532287100000034
其中,
Figure FDA0003532287100000035
Figure FDA0003532287100000036
分别为药物u和药物v的所述隐式特征向量,
Figure FDA0003532287100000037
表示药物u和药物v的隐式特征向量的余弦相似度,
Figure FDA0003532287100000041
为药物隐式特征向量之间的隐因子分值差异度:
Figure FDA0003532287100000042
Figure FDA0003532287100000043
Figure FDA0003532287100000044
Figure FDA0003532287100000045
的第i个隐因子特征,K为隐因子特征维度。
9.根据权利要求8所述方法,其中
药物u与v的显式特征相似性与隐式特征相似性通过线性加权进行融合
Figure FDA0003532287100000046
其中,simi(u,v)为药物u与药物v的显隐式特征融合相似性,simiJaccard(U,V)为药物u与药物v之间的显式特征相似性,
Figure FDA0003532287100000047
为药物u与药物v之间的隐式特征相似性,γ为融合系数,取值范围为[0,1]。
10.一种信息处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1-9之一所述的方法。
CN202110846348.2A 2021-07-26 2021-07-26 基于药物显隐式特征融合相似性的不良反应预测方法 Active CN113362886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110846348.2A CN113362886B (zh) 2021-07-26 2021-07-26 基于药物显隐式特征融合相似性的不良反应预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110846348.2A CN113362886B (zh) 2021-07-26 2021-07-26 基于药物显隐式特征融合相似性的不良反应预测方法

Publications (2)

Publication Number Publication Date
CN113362886A CN113362886A (zh) 2021-09-07
CN113362886B true CN113362886B (zh) 2022-04-15

Family

ID=77540631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110846348.2A Active CN113362886B (zh) 2021-07-26 2021-07-26 基于药物显隐式特征融合相似性的不良反应预测方法

Country Status (1)

Country Link
CN (1) CN113362886B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114300159A (zh) * 2021-12-29 2022-04-08 浙江太美医疗科技股份有限公司 药物警戒信号生成方法、装置、设备和介质
CN117652002A (zh) * 2022-05-27 2024-03-05 京东方科技集团股份有限公司 关联度预测方法和装置、机器学习模型训练方法和装置
CN116504331A (zh) * 2023-04-28 2023-07-28 东北林业大学 基于多模态和多任务的药物副作用的频率分数预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055879A (zh) * 2016-05-24 2016-10-26 北京千安哲信息技术有限公司 药物不良反应挖掘方法和系统
CN106960131A (zh) * 2017-05-05 2017-07-18 华东师范大学 一种基于多特征融合的药物副作用预测方法
CN111863281A (zh) * 2020-07-29 2020-10-30 山东大学 一种个性化药物不良反应预测方法、系统、设备及介质
CN112382410A (zh) * 2020-10-29 2021-02-19 电子科技大学 一种基于药物依赖性的药对不良反应预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116376A1 (en) * 2015-10-22 2017-04-27 International Business Machines Corporation Prediction of adverse drug events

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055879A (zh) * 2016-05-24 2016-10-26 北京千安哲信息技术有限公司 药物不良反应挖掘方法和系统
CN106960131A (zh) * 2017-05-05 2017-07-18 华东师范大学 一种基于多特征融合的药物副作用预测方法
CN111863281A (zh) * 2020-07-29 2020-10-30 山东大学 一种个性化药物不良反应预测方法、系统、设备及介质
CN112382410A (zh) * 2020-10-29 2021-02-19 电子科技大学 一种基于药物依赖性的药对不良反应预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lexicon Knowledge Boosted Interaction Graph Network for Adverse Drug Reaction Recognition From Social Media;Zhiheng Li 等;《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》;20201204;第25卷(第7期);第2777-2876页 *
基于机器学习的药物—靶标相互作用预测研究;王磊;《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》;10190115(第01期);全文 *
药物不良反应知识发现与利用模型研究;魏巍;《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》;20190715(第07期);全文 *

Also Published As

Publication number Publication date
CN113362886A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113362886B (zh) 基于药物显隐式特征融合相似性的不良反应预测方法
Staszak et al. Machine learning in drug design: Use of artificial intelligence to explore the chemical structure–biological activity relationship
Cocchi Data fusion methodology and applications
Kong et al. A multivariate approach for integrating genome-wide expression data and biological knowledge
CN111863281B (zh) 一种个性化药物不良反应预测系统、设备及介质
Cui et al. A TastePeptides-Meta system including an umami/bitter classification model Umami_YYDS, a TastePeptidesDB database and an open-source package Auto_Taste_ML
Zhao et al. Handling temporality of clinical events for drug safety surveillance
Debik et al. Multivariate analysis of NMR‐based metabolomic data
Kim et al. Analyzing adverse drug reaction using statistical and machine learning methods: A systematic review
WO2016118771A1 (en) System and method for drug target and biomarker discovery and diagnosis using a multidimensional multiscale module map
Warchal et al. Evaluation of machine learning classifiers to predict compound mechanism of action when transferred across distinct cell lines
CA3154621A1 (en) Single cell rna-seq data processing
Rifaioglu et al. Large‐scale automated function prediction of protein sequences and an experimental case study validation on PTEN transcript variants
Moler et al. Integrating naive Bayes models and external knowledge to examine copper and iron homeostasis in S. cerevisiae
Zhu et al. MTMA: Multi-task multi-attribute learning for the prediction of adverse drug–drug interaction
Yang et al. A novel multi-layer prediction approach for sweetness evaluation based on systematic machine learning modeling
Spang Diagnostic signatures from microarrays: a bioinformatics concept for personalized medicine
Ng Mixture modelling for medical and health sciences
Fatemi et al. Classification of drugs according to their milk/plasma concentration ratio
Valentini et al. Computational intelligence and machine learning in bioinformatics
Chen et al. Clinical arrays of laboratory measures, or “clinarrays”, built from an electronic health record enable disease subtyping by severity
Dong et al. SIMVI reveals intrinsic and spatial-induced states in spatial omics data
Vyas Advances in Bioengineering
Fang Compound annotation with real time cellular activity profiles to improve drug discovery
Beaulac et al. Neuroimaging feature extraction using a neural network classifier for imaging genetics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant