CN114429796A

CN114429796A - 一种基于多核学习的药物不良反应预测方法

Info

Publication number: CN114429796A
Application number: CN202111571878.7A
Authority: CN
Inventors: 仲伟峰; 李蛟
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-03

Abstract

本发明公开了一种基于多核学习的药物不良反应预测方法，涉及数据挖掘技术领域，它的方法如下：步骤一、研究药物不良反应预测需要对药物特征信息和已知的药物和不良反应信息进行提取；步骤二、药物的化学结构信息转化为药物的指纹向量，构建药物和不良反应信息的邻接矩阵；步骤三、构造核矩阵使用多核学习将核矩阵融合在同一特征空间中；步骤四、使用基于图的半监督学习方法构建预测器，先对构建的药物核和不良反应核进行稀疏化处理然后采用局部和全局一致性算法构建药物不良反应的预测模型；步骤五、采用5倍交叉验证的方法对AUC和AUPR来进行对预测效果的对比评估。通过上述方式，本发明能够使得药物不良反应的预测性能得以优化。

Description

一种基于多核学习的药物不良反应预测方法

技术领域

本发明涉及数据挖掘领域，具体涉及一种基于多核学习的药物不良反应预测方法。

背景技术

随着社会的发展和医疗水平的不断提高，越来越多的疾病可以通过药物进行医治，也使得人们的生活质量得到了明显提高。然而药物是一把双刃剑，它在治疗疾病的同时也能导致其他疾病的发生，即引起各种不良反应。药物不良反应(adverse drug reaction，ADR)是一种与用药目的无关或者意料之外的有害反应,是在正常用量下常规用法下使用合格药物过程中出现的。这些年，人们对药物的依赖与药物本身的副作用这一对立问题一直困扰着我们，其中潜在的药物不良反应更是直接危及我们的生命和财产。据不完全统计，我国所有住院患者中，有20％左右出现了ADR事件。近些年,大量药品不断上市,在人类防病、治病、保障人民健康过程中发挥了重要作用,同时人们也逐渐认识其不良反应给人类带来的危害。据1998年美国153家医院研究指出:从1966年到1996年,在美国的住院患者中,严重药物不良反应发生率为6.9％,由此而致死的约为0.32％。即使按照医师的医嘱适时适量服药,1994年全美国仍然有221.6万住院患者对所服药物发生药物不良反应,其中10.6万人因此而死亡。其死亡比例在住院患者死因排序中占第五位。因此当今药物的不良反应不仅在我国有很多影响，药物不良反应或副作用已经在全球成为一个主要的公共卫生问题。药物副作用关联指的是每种治疗药物应用后的不良反应。副作用包括毒性作用(毒性反应)、后效(后作用)、过敏反应、特异反应、继发性感染、依赖性和致突变性等。几乎所有的药物都会引起不良反应，但是药物不良反应的程度和发生率可能不同。随着药物种类的增加，药物不良反应的发生率也在不断增加。这是药物研发过程中失败的主要原因之一，也是药物一旦进入市场就退出市场的主要原因之一。据估计，严重的药物副作用是美国第四大死亡原因，它每年导致10万人死亡，同时药物不良反应将带来巨大的经济负担。此外广泛的体外安全性药理学分析仍然具有挑战性。

根据法律规定，新药物在上市前必须进行大量的实验研究，如实验室研究、动物实验和临床实验等，以保证该药物不会对人体产生致命危害。但是药物上市前进行的研究具有研究时间太短、病例太少、试验对象年龄范围太窄、用药对象条件控制太严格以及试验情况单一等局限性，再加之药理和人的生理都十分复杂，我们无法完全掌握药物的作用机制，所以现实中很难将患者服用药物后可能产生的所有后果都研究透彻。这样就留下了隐患，使得一些药物的潜在危害没有被发现或者没有引起足够的重视，如果医生或患者在不知情的情况下使用了该药物，就可能会造成生命财产的损失。为了降低这些风险，识别药物新的副作用对药物研发具有重要意义。因为传统的实验方法费时费钱，近些年有许多计算方法用来处理这个问题，这些方法被用来预测药物和副作用之间新的潜在联系。如今用机器学习检测药物副作用关联已经成为了主流方法，它已经广泛应用于生物信息学的许多研究领域。

发明内容

本发明主要解决的技术问题是药物不良反应的预测，能够解决通过计算机预测药物潜在不良反应的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于多核学习的药物不良反应预测方法，它的方法如下：

步骤一、研究药物不良反应预测需要对药物特征信息进行提取，主要提取药物的化学结构特征进行药物不良反应的预测。并且同时需要提取已知的药物和不良反应信息。所以在方法的研究之前，需要对药物的特征信息和已知的药物不良反应信息进行的信息采集，为后续研究做好铺垫；

步骤二、在构建预测器模型之前，药物的化学结构信息需要转化为药物的指纹向量，同时需要将已知的药物不良反应信息转化为药物和不良反应信息的邻接矩阵。通过指纹向量提取出化学结构谱，在邻接矩阵中可以提取出药物谱和不良反应谱；

步骤三、将提取好的药物化学结构谱、药物谱和不良反应谱利用相似度量的方法构造核矩阵使用多核学习将核矩阵融合在同一特征空间中，整合多源信息提高预测性能，对预测性能达到优化；

步骤四、使用基于图的半监督学习方法构建预测器，先对构建的药物核和不良反应核进行稀疏化处理，提高对药物和不良反应局部的紧密联系的预测。然后采用局部和全局一致性算法构建药物不良反应的预测模型，进行药物不良反应的预测；

步骤五、采用5倍交叉验证的方法对预测性能进行验证，通过对工作特性曲线下的面积(AUC)和精确召回曲线(AUPR)测量下的面积来进行对预测效果的对比评估

与现有技术相比，本发明的有益效果为：

一、能够实现潜在药物不良反应的预测，且能够保证预测的准确度。

二、针对药物信息多源化的特性，使用多核学习来预测药物不良反应的预测效果实现进一步优化。

具体实施方式

本具体实施方式采用以下技术方案：它的方法如下：

步骤三、将提取好的药物化学结构谱、药物谱和不良反应谱利用4种相似度量的方法构造核矩阵使用多核学习将核矩阵融合在同一特征空间中，整合多源信息提高预测性能，对预测性能达到优化；

步骤五、采用5倍交叉验证的方法对预测性能进行验证，通过对工作特性曲线下的面积(AUC)和精确召回曲线(AUPR)测量下的面积来进行对预测效果进行对比评估，来比较多核学习下药物不良反应预测的准确性是否较单核的药物不良反应预测有明显提升。

本具体实施方式的具体实施方法如下：

设计主要是通过药物本身的特征和已知的药物不良反应去预测药物和不良反应之间的潜在联系。在使用基于图的半监督学习学习的基础上同时进行多核学习来预测药物和不良反应之间的潜在联系使得预测效果的性能得以优化。依据相似药物具有相同的不良反应，通过提取药物的化学结构作为特征信息并且用相似性度量来构建核矩阵同时利用半监督的学习算法建立药物不良反应的预测器。药物和药物不良反应的已知关联可以作为一个数据集，其中包括n种药物和m种不良反应。D＝{d₁，d₂，…，d_n}和S＝{s₁，s₂，…，s_m}表示分别为药物和不良反应组。n×m邻接矩阵F可以表示药物和不良反应之间的关联。1就是有关联，0就是无关联。

主要分为以下的几个步骤：

1.数据集的构建与数据预处理

研究药物不良反应预测需要对药物特征信息进行提取，所以在此次设计中就对药物的特征信息和已知的药物不良反应信息进行的信息采集。主要应用的药物库有SIDER包含上市药物的副作用和不良反应表型特征；PubChem包含药物的化学结构；DrugBank和KEGG中收集生物特性(包含药物-蛋白质靶点、转运蛋白、酶、以及蛋白质靶点获得的信息通道)等等进行数据的处理提取有效信息。并且可以采用开源数据集，主要采用的开源数据集是Pauwels的数据集,Mizutani的数据集和Liu的数据集。

2.药物表示和邻接矩阵的构建

从DrugBank中下载药物分子的化学结构(存储在SMILES文件中)，从SMILES文件可以提取出分子指纹信息。指纹是一个二元载体，它记录了某一药物的某些特定亚结构是否存在。用881个化学亚结构的药物指纹图谱来表示药物的化学结构，并且要将已知的药物不良反应信息转化为药物和不良反应信息的邻接矩阵。通过指纹向量提取出化学结构谱，在邻接矩阵中可以提取出药物谱和不良反应谱。

3.核矩阵的构建和多核合成

将提取好的药物化学结构谱、药物谱和不良反应谱利用4种相似度量的方法构造核矩阵使用多核学习将核矩阵融合在同一特征空间中。

本发明采用四种相似度度量方法构造核矩阵:高斯交互轮廓核(GIP)、相关系数(Corr)、余弦相似度(COS)和互信息(MI)。根据4种相似度量分别计算出4种药物化学结构核、药物核、不良反应核，4种药物化学结构核和4种药物核统称为药物核。所以构建了8个药物核和4种不良反应核。

为了在同一特征空间中融合不同的核，我们对这些核进行线性组合积分。我们采用核学习算法来获得核的最优线性组合，并且依据核对齐的方式进行定义目标函数。本发明的目标是最大化余弦相似度(MCS)。理想的核是目标核，它包含已知的关联信息。即最大化余弦相似度的多核学习(MCS-MKL)进行核的合成。并且通过MCS得到药物核和不良反应核的权重为预测器做好准备。

4.预测器的构建和性能评估

本发明使用基于图的半监督学习方法可以估计药物不良反应关联数据的全局结构。由于可能忽略了在一小部分密切相关的药物和不良反应中强大的联系，因此先使用药物和不良反应的最近邻域来预处理核矩阵使得核矩阵稀疏化。最后将处理好的核矩阵通过局部和全局一致性算法建立药物不良反应关联的预测模型。预测器的构建主要分为以下几个步骤：

4.1、计算药物核和不良反应核；

4.2、使用MCS计算药物核的权重和不良反应核的权重；

4.3、分别计算合成的药物核和不良反应核；

4.4、利用WKNKN算法对已知的药物和不良反应关联序列进行预处理；

4.5、对合成的药物核和不良反应核进行稀疏化处理；

4.6、计算局部全局一致性算法所需要的标准化拉普拉斯矩阵，根据局部全局一致性算法来对药物和不良反应进行预测。

采用5倍交叉验证来评估模型，数据集粗略的被分为大小大致相同的5等份，每个组依次作为测试集，其余四组作为训练集。并且要为了保证实验的准确性，要保证相同的实验环境。根据接收器工作特性曲线下的面积(AUC)和精确召回曲线(AUPR)测量下的面积利用这些数据来评估方法的预测性能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于多核学习的药物不良反应预测方法，可以预测药物和不良反应之间的潜在联系，其特征在于，它的方法如下：

步骤五、采用5倍交叉验证的方法对预测性能进行验证，通过对工作特性曲线下的面积(AUC)和精确召回曲线(AUPR)测量下的面积来进行对预测效果的对比评估。