CN117953993A - 一种潜在药物相互作用预测方法、系统、设备及介质 - Google Patents
一种潜在药物相互作用预测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117953993A CN117953993A CN202311845104.8A CN202311845104A CN117953993A CN 117953993 A CN117953993 A CN 117953993A CN 202311845104 A CN202311845104 A CN 202311845104A CN 117953993 A CN117953993 A CN 117953993A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- drug
- drug interaction
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010013710 Drug interaction Diseases 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000003814 drug Substances 0.000 claims abstract description 44
- 229940079593 drug Drugs 0.000 claims abstract description 34
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000013459 approach Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 8
- 102000004190 Enzymes Human genes 0.000 claims description 6
- 108090000790 Enzymes Proteins 0.000 claims description 6
- 230000037361 pathway Effects 0.000 claims description 6
- 239000003596 drug target Substances 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 230000008406 drug-drug interaction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000002648 combination therapy Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000036470 plasma concentration Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于药物相互作用预测技术领域,并公开了一种潜在药物相互作用预测方法、系统、设备及介质,包括:获取生物信息数据;将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。本发明所述技术方案在能够有效地捕捉药物节点的高阶信息,通过对提取到多个网络中的特征进行融合,可以消除某一个特定特征可能引入噪声或过拟合的风险,全面性的展示底层数据和原始关键数据的特性。
Description
技术领域
本发明属于药物相互作用预测技术领域,特别是涉及一种潜在药物相互作用预测方法、系统、设备及介质。
背景技术
药物-药物相互作用(drug–drug interactions,DDIs)是指不同药物在临床上同时或先后服用时会使药物血浆浓度发生改变,影响药物的疗效和毒性,引发不良反应。
联合治疗在临床医学中已经成为一种不可或缺的治疗手段。有关报道指出,在过去30天内服用三种或三种以上处方药的美国人占20.8%,服用五种或五种以上药物的占10.1%。药物不良反应事件占所有不良反应事件的19.4%,DDIs每年导致约7万次急诊室就诊和19.5万名患者入院。
识别药物相互作用阶段一般分为临床前阶段和临床阶段,前者主要是对候选药物进行体外试验或动物试验,后者主要是对志愿者和患者进行体内试验。在药物研发过程中,新药的留存率约为1/5000,临床实验阶段至少要花费3—5年的时间。传统方法对DDIs的监测不但耗时长,而且监测时还会存在DDIs延迟、临床识别DDIs困难等问题。因此,如何在这个过程中及时识别潜在的DDIs已经成为亟待解决的重要问题。
随着计算机技术和高通量测序技术的进步,越来越多的计算方法被用于预测潜在的DDIs。这种方法不仅能够指导实验人员在药物研发中有针对性地进行试验,还能为临床中联合治疗提供有价值的参考。目前,预测DDIs的计算方法主要分为三类:(1)基于相似性的计算机方法;(2)基于网络的计算机方法;(3)基于知识图谱的计算机方法。
虽然现有的计算方法在DDIs预测任务中已经展现出了显著的潜力,为生物医学领域的进步提供了有价值的参考。但目前的方法仍存在很多的局限性:(1)目前经验证的数据有限,构建的DDIs关联矩阵相对稀疏,无法降低由于频率偏差和节点边际概率偏差引起的误差。(2)在特征提取和融合时会引入不相关的变化导致保留了原始数据的噪声,无法从高密集数据中学习多层次、无噪声、鲁棒性的抽象表示。(3)在特征融合时,未能充分考虑多特征之间的关系和过拟合风险,无法全面捕捉数据的复杂结构和模式。
发明内容
本发明的目的是提供一种潜在药物相互作用预测方法、系统、设备及介质,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种潜在药物相互作用预测方法,包括:
获取生物信息数据;
将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。
可选的,所述生物信息数据,具体包括:
药物化学亚结构数据、靶点数据、酶数据、药物途径数据和药物相互作用数据。
可选的,所述药物相互作用模型的训练方法,具体包括:
获取训练数据;所述训练数据包括生物信息训练数据及对应的潜在药物相互作用预测数据;
将所述训练数据输入所述药物相互作用模型进行相互作用预测,并以融合后的初始训练结果与所述生物信息数据对应的潜在药物相互作用预测数据之间的损失最小为目标,进行训练,得到所述药物相互作用模型。
可选的,所述药物相互作用模型的处理过程,具体包括:
将所述生物信息数据输入所述数据处理子模型进行数据预处理,得到生物信息数据中各数据的种类集合数据,基于各所述种类集合数据构建若干二分网络;
将各所述若干二分网络输入随机冲浪采样子模型中,以概率转移的方式生成节点序列;
基于堆叠去噪自编码器对节点序列进行逐层无监督的预训练和有监督的微调,得到预训练和微调完成后的若干二分网络;
通过所述特征融合预测子模型对各二分网络进行特征提取和相互作用预测,得到所述潜在药物相互作用预测数据。
可选的,所述二分网络包括:药物-结构网络、药物-靶点网络、药物-酶网络、药物-通路网络和药物相互作用网络。
可选的,将各所述若干二分网络输入随机冲浪采样子模型中,以概率转移的方式生成节点序列,具体包括:
基于随机冲浪采样子模型获取各所述二分网络的图邻接矩阵作为节点转移概率矩阵,基于PMI指标和各节点转移概率矩阵获取各节点的相关性数据,基于各节点的相关性数据生成节点序列。
可选的,通过所述特征融合预测子模型对各二分网络进行特征提取和相互作用预测,得到所述潜在药物相互作用预测数据,具体包括:
通过所述特征融合预测子模型对各二分网络进行特征提取,得到若干表征向量,基于各所述表征向量得到若干不同特征组合的药物特征向量,将各所述不同特征组合的药物特征向量作为平衡数据集,将所述平衡数据集输入随机森林分类器进行相互作用预测,得到所述潜在药物相互作用预测数据。
一种潜在药物相互作用预测系统,包括:
数据采集模块,用于获取生物信息数据;
潜在药物相互作用预测模块,用于将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行所述的一种潜在药物相互作用预测方法。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如所述的一种潜在药物相互作用预测方法。
本发明的技术效果为:
本发明利用随机冲浪的采样方法计算概率转移矩阵,充分考虑了在特征提取中难以详细衡量边际节点之间关联性的问题,更为有效地捕捉了药物节点的高阶信息。
本发明引入高斯噪声,对多个堆叠的去噪自编码器进行无监督的逐层预训练迫使神经网络学习更具鲁棒性的、不同抽象层次的药物特征,使学习到的药物特征更具表达力和泛化能力。本发明通过对提取到多个网络中的特征进行融合,可以消除某一个特定特征可能引入噪声或过拟合的风险,全面性的展示底层数据和原始关键数据的特性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的药物相互作用模型结构示意图;
图2为本发明实施例中的五折交叉验证的曲线图,其中,图2中(a)为五折交叉验证的AOC曲线图,图2中(b)为五折交叉验证的PR曲线图;
图3为本发明实施例中的不同嵌入的对比示意图;
图4为本发明实施例中的多特征相互组合的性能表现示意图;
图5为本发明实施例中的不同维度的特征对模型性能的影响示意图;
图6为本发明实施例中的α取值对模型性能的影响示意图;
图7为本发明实施例中的不同分类器的对比示意图;
图8为本发明实施例中的潜在药物相互作用预测流程图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法。在与任何并入的文献冲突时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”“包括”“具有”“含有”等等,均为开放性的用语,即意指包含但不限于。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
如图1-图8所示,本实施例中提供了一种潜在药物相互作用预测方法,包括:
获取生物信息数据;
将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。
本实施例利用随机冲浪的采样方法计算概率转移矩阵,充分考虑了在特征提取中难以详细衡量边际节点之间关联性的问题,更为有效地捕捉了药物节点的高阶信息。
本实施例引入高斯噪声,对多个堆叠的去噪自编码器进行无监督的逐层预训练迫使神经网络学习更具鲁棒性的、不同抽象层次的药物特征,使学习到的药物特征更具表达力和泛化能力。本实施例通过对提取到多个网络中的特征进行融合,可以消除某一个特定特征可能引入噪声或过拟合的风险,全面性的展示底层数据和原始关键数据的特性。
数据集:DrugBank数据库整合了生物信息学和化学信息学资源,提供了详细的药物数据,包括药物化学亚结构、靶点、酶、途径和药物相互作用。本实施例从DrugBank数据库获取了药物靶点信息,然后通过ID将其映射到KEGG,进而获取药物途径信息。最终,本实施例构建了一个包含药物化学亚结构、靶点、酶、途径和药物相互作用的数据集。该数据集包括841种药物,619种化学亚结构,1333个靶点,214个酶,307个途径和82,620个已知的DDIs。为了更好验证所提模型的有效性和可靠性,本实施例需要在实验中构建平衡的数据集,将已知的相互作用视为正样本,并随机选择相同数量的未知相互作用对作为负样本。本实施例所使用的数据集和数据来源如表1所示。
表1数据集来源和类型的描述
本实施例提出了一种名为MPMDAE的计算方法来预测潜在的DDIs。MPMDAE的流程示意图如图1所示。具体而言,该方法主要通过4个步骤预测潜在的DDIs:(1)基于已知实体构建二分图,分别为药物-结构网络、药物-靶点网络、药物-酶网络、药物-通路网络和药物相互作用网络;(2)使用随机冲浪技术计算二分图的状态转移概率矩阵以衡量药物节点之间的关联性;(3)使用堆叠去噪自编码器对网络节点进行逐层无监督的预训练和有监督的微调,确保学习到网络中节点的多层次、无噪声的高阶纯度特征;(4)获得平衡数据集的药物对特征表示,之后引入随机森林分类器对平衡数据集进行训练预测潜在的DDIs。
多个特征网络的构建:本实施例对原始数据进行预处理,将不同类型的数据视为一个集合可表示为vd,vs,vt,ve,vp,分别代表药物种类的集合,子结构种类的集合、靶标种类的集合、酶种类的集合和通路种类的集合。对数据进行处理可捕捉到vd与其他4种集合的关系,将其建模为不同的二分图,可表示为G={V,E}。其中, 按照这种方式,本实施例构建了5个药物特征网络,分别为药物-结构网络、药物-靶点网络、药物-酶网络、药物-通路网络和药物相互作用网络,记作Graph_dd,Graph_ds,Garaph_dt,Graph_de和Graph_dp。5个药物特征网络中节点和边的数量如表2所示。
表2网络节点的种类和数量的描述
随机游走的采样方式主要关注节点的低阶邻居,无法充分利用边缘节点的信息,这种方式生成的游走序列一定,节点包含的全局信息也相对有限。为了得到节点的全局信息,本实施例考虑使用概率转移来描述节点关系。
二分图中的图邻接矩阵通过矩阵缩放可以转化成概率分布,用于表示节点的邻居关系的概率,记作转移概率矩阵。假设是当前节点i的起始状态,初始为一个单位矩阵。是节点i转移k步之后的概率,/>每步都是a的概率进行随机过程,以(1-a)的概率回到原点并重启,这个过程可表示为:
若在转移过程中没有重启,则转移k步的转移概率可以表示为:
根据节点游走的步数去权衡节点远近关系是非常重要的。按照这种方式,第i个节点的顶点表示可以构造为:
其中w(k)是随节点间距离衰减的函数。
由于本实施例构造的二分图中节点表示的是药物的不同种类,实体之间不用考虑距离的远近,经过max_step次迭代后节点达到稳定状态不再发生显著性的变化。所以网络中节点i可以表示为:
PMI(Pointwise Mutual Information)可以评估两个随机变量之间的统计依赖关系,它对罕见事件或共同发生情况特别敏感。因此,本实施例使用PMI的方法捕捉网络节点之间的相关程度,可表示为:
为强调节点之间的正相关性,本实施例将PMI矩阵中所有的负值都设置为零,由此对节点之间的关联性建模为:
P′(di,dj)=max(0,P(di,dj)) (7)
重建分子矩阵特征并不能保证提取到有用的特征,因为它只是简单的复制,为了学习多层次、无噪声的表征,本实施例创新地引入了堆叠去噪自编码器SDAE来处理分子特征矩阵。在输入的特征矩阵中加入特定噪声,训练DAE从损坏的特征中重建干净的输入,以便它可以学习有用的特征提取,获得鲁棒性的高纯度特征。
首先,本实施例将高斯噪声添加到原始特征D中,获得被破坏的输入通过sigmoid函数将被破坏的特征映射到隐藏层中,可表示为:
之后,训练参数重构误差,使重构的输出ReD尽可能的接近未损坏的输入原始特征D,重构函数为:
ReD=gθ′(y) (9)
原始分子特征矩阵的损坏维度会极大程度的影响重构误差,本实施例为损坏的特征维度赋予超参数α,为未损坏的特征维度赋予超参数β。其均方损失函数,可建模为:
对于交叉熵损失函数,可以表示为:
优化器使用RMSprop算法,该算法以指数速度丢弃历史梯度,同时采用移动平均方法形成对学习速率的约束。这种算法会使学习速率拥有更长的存活时间,达到处理非平稳数据的目标。其代价函数梯度可以表示为:
其中m为数据个数,ρ、r是学习速率,初始迭代次数t=0,gt表示第t次的梯度值。
多特征融合:使用上述方式对构建的5个药物特征网络提取获得药物的5个表征向量,分别表示为和/>为了验证不同信息源的贡献值,本实施例依次增加药物的表征向量构建完整的药物特征。对于药物i,不同特征组合的药物特征向量可定义为:
药物对不同特征的组合可以表示为:
其中fusion=(1,2,3,4,5) (20)
评价标准:本实施例引入了五折交叉验证来评估模型的性能。五折交叉验证随机将数据集分成五部分,每次使用一个子集作为测试集,执行五次独立验证,最后取五组实验的平均值作为模型的结果。在本实施例中引入ACC、Precision、Recall和F1-Score、作为模型的评价标准,其计算公式为:
其中TP和FP分别为正确预测的阳性样本数和阴性样本数。TN和FN分别为错误预测的阳性样本个数和阴性样本个数。此外,本实施例还绘制了ROC曲线图并且计算了ROC曲线下的面积来展示模型的性能。
模型性能的评估:本实施例使用五折交叉验证的方法来评估MPMDAE在数据集上的性能。在提取节点特征的过程中,重启参数的选择决定了保留节点信息的原始程度,本实施例将实验的重启参数设置为0.98。在特征融合过程中不同特征的组合对实验结果起决定性的作用,因此本实施例融合了所有子网络的特征进行实验验证。实验的详细结果均列于表3中。从表中可以看出,MPMDAE模型在平衡数据集上的平均AUC分数为94.33%,各折的结果分别为94.32%、94.23%、94.16%、94.42%和94.54%。其他评估标准,包括AUPR、Prec、Rec、F1分数和ACC,其平均值分别为93.72%、86.55%、88.55%、87.44%和87.40%,其标准差为0.18%、0.35%、0.37%、0.30%、0.30%。图2为五折交叉验证的ROC和PR曲线。
表3五折交叉验证结果
Test | AUC(%) | AUPR(%) | Prec(%) | Recall(%) | F(%) | ACC(%) |
1 | 94.32 | 93.61 | 86.43 | 88.64 | 87.52 | 87.36 |
2 | 94.23 | 93.8 | 86.11 | 88.71 | 87.39 | 87.2 |
3 | 94.16 | 93.44 | 86.39 | 87.92 | 87.15 | 87.04 |
4 | 94.42 | 93.88 | 86.88 | 88.57 | 87.22 | 87.6 |
5 | 94.54 | 93.84 | 86.95 | 88.9 | 87.91 | 87.78 |
Mean | 94.33 | 93.72 | 86.55 | 88.55 | 87.44 | 87.40 |
SD | ±0.13 | ±0.18 | ±0.35 | ±0.37 | ±0.44 | ±0.30 |
为了证明本实施例方法的有效性,本实施例选择图因子分解(GraphFactorization,GF),大规模信息网络嵌入(Large-scale Information NetworkEmbedding,LINE)、结构深度网络嵌入(Structural Deep Network Embedding,SDNE),三种嵌入方法与本实施例方法进行实验对比,实验中所有参数均设置一样。实验结果如表4所示。为方便比较本实施例将结果呈现到图3中。
表4本实施例提出的方法与其他嵌入方法的对比
由上述结果分析可知,图分解(Graph Factorization,GF)算法遵循矩阵分解原理分解给定的图邻接矩阵,数据加载过程中可能会丢失图的边缘信息,只能保留数据的一阶特征,所得的AUC值只有90.05%。LINE算法为顶点定义了两个联合概率分布函数用于提取一阶特征和二阶特征,相比于GF算法,它保留了更多的节点局部特征和全局特征,AUC值达到了92.04%。SDNE算法也保留了网络的一阶和二阶相似性,实验结果和LINE算法的结果基本相同,AUC分数为92.21%。本实施例提出的方法不仅考虑了节点的全局特性还兼顾了图边缘的信息,AUC值达到94.33%,极大程度的证明了本实施例所提方法的有效性。
不同特征的组合对模型性能的影响:为了充分利用各种信息源,本实施例结合不同特征以获得药物的最终嵌入向量,从而实现特征的互补目标。这种信息融合策略不仅可以减轻个别特征的潜在缺陷,还可以在一定程度上整合来自不同数据源的各种特征,增强数据的抗干扰性。数据融合的结果如表5所示。可视化效果如图4所示。由结果分析可得,药物-药物子网络中蕴含的节点特征最丰富,当5个子网络完全融合时,节点特征被多角度的描述,此刻模型全面捕捉到了节点的社会属性,模型的预测效果最优,AUC值达到了94.33%,ACC值达到了87.4%。
表5多特征相互组合的性能表现
较小维度可能会导致欠拟合,模型无法完全学习顶点的特征,因此只能捕捉到节点的局部信息。较大的维度可能导致过拟合,模型学习了过多噪声和不相关细节,因此失去节点的具体细节。为了在局部和全局信息之间取得平衡,本实施例采用了相同的实验配置分别提取32维度、64维度、128维度、512维度和1024维度的特征对模型进行预测。实验结果如表6所示,同时为了直观地比较不同维度对模型性能的影响,本实施例将数据展示到图5中。
表6不同维度的特征对模型性能的影响
维度 | AUC(%) | AUPR(%) | Precsion(%) | F(%) | ACC(%) |
32 | 92.07±0.19 | 91.14±0.22 | 82.42±0.29 | 85.01±0.18 | 84.52±0.20 |
64 | 93.24±0.18 | 92.57±0.18 | 84.55±0.26 | 86.34±0.19 | 86.05±0.20 |
128 | 94.33±0.15 | 93.72±0.18 | 86.55±0.35 | 87.44±0.30 | 87.40±0.30 |
256 | 93.27±0.18 | 92.64±0.22 | 84.88±0.40 | 86.27±0.23 | 86.04±0.26 |
512 | 92.96±0.12 | 92.33±0.10 | 84.10±0.28 | 85.93±0.22 | 85.62±0.23 |
实验结果表明,随着特征维度的变化,预测结果呈现正态化的分布。具体而言,当特征的维度为128时,模型的预测性能达到最优水平,其AUC值为94.33%。
α取值对模型性能的影响:参数α决定了在每次迭代中随机选择重启的概率。当α值较小时,即引入了较少的随机性,算法更倾向于保留原始图的拓扑结构;当α值较大时,算法引入更多的随机性,算法更倾向于破坏原始图的拓扑结构,可以更好的捕捉全局信息,具有更强的鲁棒性。为了选择合适的α值,本实施例选取0.95、0.98和1对α的取值进行实验验证,实验结果如表7所示,可视化效果如图6所示。
表7α取值对模型性能的影响
实验结果表明,当α=0.98时学习到的药物特征向量会在保留原始图拓扑结构的情况下更多的获取药物的全局信息,此时模型表现的最好。
与其他分类器的对比:本实施例引用随机森林作为预测DDIs的分类器,为了验证RF的性能,设置相同的参数,选择朴素贝叶斯(NB)、线性判别分析(LDA)、逻辑回归(LR)、K最近邻(KNN)和决策树(DT)方法对DDIs进行预测。实验详细结果如表8所示。结果表明,RF分类器的AUC值相比于KNN方法高了近七个百分点,AUPR值高了十个百分点,表现出更好的性能。实验对比结果如图7所示。
表8不同分类器的对比
分类器 | AUC(%) | AUPR(%) | Precsion(%) | Recall(%) | F(%) | ACC(%) |
LR | 82.63±0.34 | 81.81±0.31 | 73.69±0.26 | 76.86±0.43 | 75.24±0.26 | 74.71±0.24 |
KNN | 87.20±0.18 | 83.57±0.25 | 77.23±0.19 | 84.46±0.13 | 80.68±0.10 | 79.78±0.12 |
DT | 78.39±0.15 | 72.41±0.16 | 77.04±0.18 | 78.84±0.26 | 77.93±0.17 | 77.67±0.16 |
LDA | 83.48±0.26 | 82.86±0.24 | 74.32±0.17 | 78.04±0.38 | 76.14±0.18 | 75.54±0.15 |
NB | 66.12±0.15 | 60.44±0.10 | 59.54±0.12 | 85.62±0.28 | 70.23±0.10 | 63.72±0.14 |
RF | 94.33±0.15 | 93.72±0.18 | 86.55±0.35 | 88.55±0.37 | 87.44±0.30 | 87.40±0.30 |
为了验证MPMDAE方法预测潜在DDIs的能力,本实施例使用已知的DDIs来训练模型,然后将训练好的模型预测未知的DDIs。本实施例根据预测评分对未知的DDIs排序,然后在数据库中进行检索,结果如表9所示,排名前30的预测评分中,有26对DDIs已经被证实存在相互作用。这一事实证明了本实施例模型的预测能力和可信度,同时也验证了MPMDAE方法的优越性能。
表9预测评分排名前30的DDIs
/>
本实施例提出了一个基于随机冲浪方式和堆叠去噪自编码器表征学习的方法来预测潜在DDIs。该方法利用概率转移的方式克服特征提取中无法细致衡量边际节点关联性的问题、利用堆叠的去噪自编码器模型克服特征提取中无法获取原始关键特征的问题、利用多特征融合的方法克服无法全面展示底层数据特性的问题。实验结果表明,MPMDAE可以很好的学习节点全局信息的表征,在DDIs预测方面展示了卓越的性能。
一种潜在药物相互作用预测系统,包括:
数据采集模块,用于获取生物信息数据;
潜在药物相互作用预测模块,用于将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行所述的一种潜在药物相互作用预测方法。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如所述的一种潜在药物相互作用预测方法。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种潜在药物相互作用预测方法,其特征在于,包括:
获取生物信息数据;
将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;所述药物相互作用模型是基于随机冲浪方式和堆叠去噪自编码器构建的。
2.根据权利要求1所述的一种潜在药物相互作用预测方法,其特征在于,所述生物信息数据,具体包括:
药物化学亚结构数据、靶点数据、酶数据、药物途径数据和药物相互作用数据。
3.根据权利要求1所述的一种潜在药物相互作用预测方法,其特征在于,所述药物相互作用模型的训练方法,具体包括:
获取训练数据;所述训练数据包括生物信息训练数据及对应的潜在药物相互作用预测数据;
将所述训练数据输入所述药物相互作用模型进行相互作用预测,并以融合后的初始训练结果与所述生物信息数据对应的潜在药物相互作用预测数据之间的损失最小为目标,进行训练,得到所述药物相互作用模型。
4.根据权利要求1所述的一种潜在药物相互作用预测方法,其特征在于,所述药物相互作用模型的处理过程,具体包括:
将所述生物信息数据输入所述数据处理子模型进行数据预处理,得到生物信息数据中各数据的种类集合数据,基于各所述种类集合数据构建若干二分网络;
将各所述若干二分网络输入随机冲浪采样子模型中,以概率转移的方式生成节点序列;
基于堆叠去噪自编码器对节点序列进行逐层无监督的预训练和有监督的微调,得到预训练和微调完成后的若干二分网络;
通过所述特征融合预测子模型对各二分网络进行特征提取和相互作用预测,得到所述潜在药物相互作用预测数据。
5.根据权利要求4所述的一种潜在药物相互作用预测方法,其特征在于,所述二分网络包括:
药物-结构网络、药物-靶点网络、药物-酶网络、药物-通路网络和药物相互作用网络。
6.根据权利要求4所述的一种潜在药物相互作用预测方法,其特征在于,将各所述若干二分网络输入随机冲浪采样子模型中,以概率转移的方式生成节点序列,具体包括:
基于随机冲浪采样子模型获取各所述二分网络的图邻接矩阵作为节点转移概率矩阵,基于PMI指标和各节点转移概率矩阵获取各节点的相关性数据,基于各节点的相关性数据生成节点序列。
7.根据权利要求4所述的一种潜在药物相互作用预测方法,其特征在于,通过所述特征融合预测子模型对各二分网络进行特征提取和相互作用预测,得到所述潜在药物相互作用预测数据,具体包括:
通过所述特征融合预测子模型对各二分网络进行特征提取,得到若干表征向量,基于各所述表征向量得到若干不同特征组合的药物特征向量,将各所述不同特征组合的药物特征向量作为平衡数据集,将所述平衡数据集输入随机森林分类器进行相互作用预测,得到所述潜在药物相互作用预测数据。
8.一种潜在药物相互作用预测系统,其特征在于,包括:
数据采集模块,用于获取生物信息数据;
潜在药物相互作用预测模块,用于将所述生物信息数据输入药物相互作用模型中进行相互作用预测,得到潜在药物相互作用预测数据;所述药物相互作用模型包括顺次连接的数据处理子模型、随机冲浪采样子模型和特征融合预测子模型;各子模型均为引入高斯噪声进行训练优化后的模型。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1-7中任一项所述的一种潜在药物相互作用预测方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的一种潜在药物相互作用预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311845104.8A CN117953993A (zh) | 2023-12-29 | 2023-12-29 | 一种潜在药物相互作用预测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311845104.8A CN117953993A (zh) | 2023-12-29 | 2023-12-29 | 一种潜在药物相互作用预测方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953993A true CN117953993A (zh) | 2024-04-30 |
Family
ID=90804779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311845104.8A Pending CN117953993A (zh) | 2023-12-29 | 2023-12-29 | 一种潜在药物相互作用预测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953993A (zh) |
-
2023
- 2023-12-29 CN CN202311845104.8A patent/CN117953993A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Che et al. | Deep computational phenotyping | |
Piao et al. | A new ensemble method with feature space partitioning for high‐dimensional data classification | |
Tran et al. | An effective and efficient approach to classification with incomplete data | |
Rahman et al. | Prediction of brain stroke using machine learning algorithms and deep neural network techniques | |
Mehmood et al. | Systematic Framework to Predict Early‐Stage Liver Carcinoma Using Hybrid of Feature Selection Techniques and Regression Techniques | |
Li et al. | Predicting clinical outcomes with patient stratification via deep mixture neural networks | |
Wu et al. | AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder | |
Fadhil et al. | Multiple efficient data mining algorithms with genetic selection for prediction of SARS-CoV2 | |
Sudharson et al. | Enhancing the Efficiency of Lung Disease Prediction using CatBoost and Expectation Maximization Algorithms | |
AV et al. | Evaluation of Recurrent Neural Network Models for Parkinson's Disease Classification Using Drawing Data | |
Du et al. | The effects of deep network topology on mortality prediction | |
Leke et al. | Proposition of a theoretical model for missing data imputation using deep learning and evolutionary algorithms | |
Das et al. | Missing value imputation a review | |
Yousif | Classification of mental disorders figures based on soft computing methods | |
Duman et al. | Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis | |
CN116798653A (zh) | 药物相互作用预测方法、装置、电子设备及存储介质 | |
CN117953993A (zh) | 一种潜在药物相互作用预测方法、系统、设备及介质 | |
Pan et al. | Liver disease detection: evaluation of machine learning algorithms performances with optimal thresholds | |
D'Souza et al. | Diabetes Detection Using Machine Learning Algorithms | |
Zhuang et al. | MS-ADR: predicting drug–drug adverse reactions base on multi-source heterogeneous convolutional signed network | |
Fekihal et al. | Self-organizing map approach for identifying mental disorders | |
Yin et al. | Stroke risk prediction: Comparing different sampling algorithms | |
Shamami et al. | Community Detection on a Modified Adjacency Matrix: A Novel Network Approach in Drug-Drug Interaction | |
Jeipratha et al. | Optimal gene prioritization and disease prediction using knowledge based ontology structure | |
Seigneuric et al. | Decoding artificial intelligence and machine learning concepts for cancer research applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |