CN113793696A

CN113793696A - 一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质

Info

Publication number: CN113793696A
Application number: CN202111084151.6A
Authority: CN
Inventors: 王建新; 赵皓晨; 郑凯; 赵其昌
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Anticipated expiration: 2041-09-15
Also published as: CN113793696B

Abstract

本发明公开了一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质，其获取药物、副作用相似性信息和已知的药物副作用发生频率信息，再生成药物相似性向量和副作用相似性向量；进而针对每种类型的药物相似性与副作用相似性生成一个交互图并通过神经网络捕获药物与副作用的交互信息；使用多层感知机分别对药物和副作用相似性向量进行编码产生药物嵌入和副作用嵌入；最后将药物嵌入、副作用嵌入和药物‑副作用交互嵌入拼接，再利用多层感知机对药物的副作用和副作用的发生频率进行预测。本发明不依赖于已知的药物副作用发生频率信息，能够对新药物的副作用发生频率进行预测，填补了当前新药副作用发生频率预测技术空缺。

Description

一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质

技术领域

本发明属于计算机生物信息学和机器学习技术领域，具体涉及一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质。

背景技术

药物的副作用发生频率的估计在药物风险-收益评估中至关重要。目前，药物的副作用频率是通过在随机对照试验中使用干预组和安慰剂组估计的。尽管它们是消除临床医学中选择偏倚的标准方法，但是这些试验受到样本量和时间复杂度的限制。另一方面，众所周知，许多药物的副作用不会在临床试验中观察到，它们在已经进入市场之后才会被人们识别。由于这个原因，药物的副作用仍然是医疗保健中发病率和死亡率的主要原因，每年造成数十亿美元的损失。例如，一种名为Fen-Phen的食欲抑制剂在许多服用该抑制剂的患者死亡后退出市场。因此，利用生物信息学手段对药物的副作用进行分析和预测具有重要的现实意义。

近年来，已经开发了许多计算模型来预测基于药物相关数据库的药物副作用。然而，大多数方法只探讨一种药物是否有一种或多种副作用，而不能确定副作用的发生频率。副作用的发生频率是药物风险收益评估的核心问题。准确估计药物副作用的发生频率不仅对临床实践中的患者护理至关重要，而且对制药公司也很重要，因为它降低了从市场撤出药物的风险。尽管已经提出了两个方法来预测药物副作用的发生频率，但它们都严重依赖于已知的药物副作用关联或频率，不能对新药的副作用发生频率进行预测。例如，基于已知的药物副作用频率，Galeano等人构建了药物副作用邻接矩阵，并提出了一种新的矩阵分解模型来预测潜在药物副作用的频率。该模型实现了良好的预测性能，但是当给定的样本是一种没有副作用信息的新药时，依赖于已知药物副作用频率的方法将无法预测其潜在的副作用。此外，赵等人开发了一种深度学习框架，通过整合化学结构相似性、已知药物副作用频率评分、副作用语义相似性和预训练词向量表示来预测药物的副作用频率。该模型的核心是构建一个药物副作用二部图，并基于注意力机制从节点的直接邻居中学习图中节点的特征表示。然而，不属于训练数据集的药物在构建的异构图中没有邻居节点，因此该模型也无法预测新药的副作用发生频率。

因此，提供一种能够预测新药的副作用发生频率的方法是极为重要的。

发明内容

本发明针对现有技术中缺乏能够预测新药的副作用发生频率方法的技术问题，根据多种类型的药物和副作用相似性信息，提出了一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质。所述方法充分利用相似性中丰富的信息构成药物相似性向量、副作用相似向量以及药物-副作用对交互图，从而进行网络训练构建出药物副作用发生频率预测模型，能够帮助生物实验研究者进一步准确的发现新药的副作用并确定副作用的发生频率。

一方面，本发明一种基于相似性的新药副作用发生频率预测方法，其包括以下步骤：

步骤1：基于已知药物-副作用频率信息构建训练数据集；

步骤2：获取药物相似性信息以及副作用相似性信息；

步骤3：基于所述药物相似性信息和副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量；

步骤4：基于药物的特征向量和副作用的特征向量构建药物-副作用对交互图；

步骤5：搭建药物副作用发生频率预测模型的网络架构，并利用所述训练数据集及其药物、副作用数据进行网络训练得到训练好的药物副作用发生频率预测模型；

其中，所述训练数据集中已知药物-副作用频率信息为标签，步骤5中的所述药物、副作用数据至少包含药物-副作用对交互图；

步骤6：针对待预测新药物，获取新药物的药物相似性信息，并按照步骤3以及步骤4的方式处理药物数据，再输入至训练好的药物副作用发生频率预测模型得到新药物副作用发生频率预测结果。

本发明提供的所述新药副作用发生频率预测方法实现了新药物的副作用预测。

可选地，若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分是否已知进行编码的数据，则步骤5中所述药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系，所述药物副作用发生频率预测模型的训练过程如下：

步骤5.1：搭建基于深度卷积神经网络和多层感知机的药物副作用发生频率预测模型的网络架构；

其中，利用深度卷积神经网络对药物-副作用对交互图进行特征提取得到药物-副作用交互嵌入数据，利用多层感知机分别对药物特征向量和副作用特征向量分别进行特征提取得到药物嵌入数据以及副作用嵌入数据；再将所述药物-副作用交互嵌入数据、药物嵌入数据以及副作用嵌入数据进行拼接，输入至多层感知机得到药物-副作用关联对的预测得分；

当药物-副作用关联对的预测得分小于预设判断阈值，视所述药物不具有对应副作用；当药物-副作用关联对的预测得分大于或等于预设判断阈值，视所述药物具有对应副作用；

譬如在一些实现方式中，将判断阈值设置为0.5，若药物不具有对应副作用，输出药物与该副作用之间的发生频率得分为0。

步骤5.2：以药物特征向量、副作用特征向量、药物-副作用对交互图作为网络输入，训练数据集中已知药物-副作用频率信息为标签进行网络训练。

可选地，若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分数值进行编码的数据，则步骤5中所述药物副作用发生频率预测模型用于预测基于编码规则的新药物与副作用的频率数据；所述药物副作用发生频率预测模型的训练过程如下：

步骤5-1：搭建药物副作用发生频率预测模型的网络架构；

其中，利用深度卷积神经网络对药物-副作用对交互图进行特征提取得到药物-副作用交互嵌入数据，利用多层感知机分别对药物特征向量和副作用特征向量分别进行特征提取得到药物嵌入数据以及副作用嵌入数据；再将所述药物-副作用交互嵌入数据、药物嵌入数据以及副作用嵌入数据进行拼接，拼接后向量输入多层感知机得到基于编码规则的药物-副作用关联对的频率数据；

步骤5-2：以药物特征向量、副作用特征向量、药物-副作用对交互图作为网络输入，训练数据集中基于编码规则的新药物与副作用的频率数据为标签进行网络训练。

可选地，若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分是否已知进行编码的邻接矩阵DMA和以药物与副作用的频率得分数值进行编码的邻接矩阵DMF；则步骤5中所述药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系，以及针对存在关联关系的新药物与副作用进一步预测基于编码规则的新药物与副作用的频率数据；所述药物副作用发生频率预测模型的训练过程如下：

S5-1：搭建基于深度卷积神经网络和多层感知机的药物副作用发生频率预测模型的网络架构；

当药物-副作用关联对的预测得分小于预设判断阈值，视所述药物不具有对应副作用；当药物-副作用关联对的预测得分大于或等于预设判断阈值，视所述药物具有对应副作用，再将拼接后向量输入新的多层感知机得到基于编码规则的药物-副作用关联对的频率数据；

S5-2：以药物特征向量、副作用特征向量、药物-副作用对交互图作为网络输入，训练数据集中已知药物-副作用频率信息为标签进行网络训练。

可选地，步骤3中药物、副作用的特征向量的公式如下所示：

针对药物d_i的一类相似性特征向量为：

表示药物d_i针对第k类相似性的特征向量，P_k是线性转移矩阵，维度为r*N_d，N_d是训练集中药物的种类数量；

为药物d_i针对第k类相似性的相似性向量，r为经过线性转移矩阵变换后相似性向量的维度；

针对副作用s_j的一类相似性特征向量为：

表示副作用s_j针对第l类相似性的特征向量，Q_l是线性转移矩阵，维度为r*N_s，N_s是训练集中副作用的种类数量，

为副作用s_j的针对第l类相似性的相似性向量。

可选地，步骤4中所述药物-副作用对交互图的构建过程如下：

针对药物d_i的一类药物相似性与副作用s_j的一类副作用相似性，生成一个药物-副作用对交互图，表示为：药物d_i的特征向量

与副作用s_j的特征向量

的外积，如下：

式中，

为药物d_i的第k类药物相似性与副作用s_j的第l类副作用相似性之间的药物-副作用对交互图，

表示药物d_i的第k类相似性的特征向量，

表示副作用s_j的第l类相似性的特征向量；

每个药物与每个副作用之间的药物-副作用对交互图由所述药物和所述副作用对应的各个药物相似性类别和各个副作用相似性类别所产生的药物-副作用对交互图构成。

可选地，药物相似性信息由药物相似性矩阵SMD_Similarity,SMD_Experimental,SMD_Database,SMD_{Text_mining},SMD_{Combined_score},SMD_Structure,SMD_Target,SMD_Word中的部分或全部构成，副作用相似性信息由副作用相似性矩阵SME_Semantic,SME_Word构成。

第二方面，本发明提供一种基于上述新药副作用发生频率预测方法的系统，其包括：

训练数据集构建模块，用于基于已知药物-副作用频率信息构建训练数据集；

药物相似性信息获取模块，用于获取药物相似性信息；

副作用相似性信息获取模块，用于获取副作用相似性信息；

药物、副作用的特征向量生成模块，用于基于药物相似性信息和所述副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量；

药物-副作用对交互图构建模块，用于基于药物的特征向量和副作用的特征向量构建药物-副作用对交互图；

药物副作用发生频率预测模型构建模块，用于搭建药物副作用发生频率预测模型的网络架构，并利用所述训练数据集及其药物、副作用数据进行网络训练得到训练好的药物副作用发生频率预测模型；

预测模块，用于针对待预测新药物，将其按照步骤2-4处理后的药物数据输入至训练好的药物副作用发生频率预测模型得到新药物副作用发生频率预测结果。

第三方面，本发明提供一种终端，其包括：

一个或多个处理器；

存储了一个或多个计算机程序的存储器；

所述处理器调用所述存储器存储的计算机程序以实现：

一种基于相似性的新药副作用发生频率预测方法的步骤。

第四方面，本发明提供一种可读存储介质，其存储了计算机程序，所述计算机程序被处理器调用以实现：

一种基于相似性的新药副作用发生频率预测方法的步骤。

有益效果

1.本发明基于药物、副作用的相似性信息提出了一种基于相似性的新药副作用发生频率预测方法，充分利用相似性中丰富的信息构成药物相似性向量、副作用相似向量以及药物-副作用对交互图，从而进行网络训练构建出药物副作用发生频率预测模型。本发明创造性的实现了对新药的药物副作用频率进行预测，能够帮助生物实验研究者进一步准确的发现新药的副作用并确定副作用的发生频率。

2.本发明进一步的优选方案中，选用了多种类型的相似性信息，提升了预测结果的可靠性。

3.本发明进一步的优选方案中，使用了卷积神经网络以及多层感知机进行特征提取和预测，尤其是实现了新药物与副作用是否存在关联关系的预测以及进一步实现了新药物与副作用的频率预测。

附图说明

图1本发明实施例1提供的一种基于相似性的新药副作用发生频率预测方法的流程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。下面将结合实施例对本发明做进一步的说明。

实施例1：

本实施例提供一种基于相似性的新药副作用发生频率预测方法，其包括以下步骤：

S1：基于已知药物-副作用频率信息构建训练数据集。

本实施例中数据集是包括以药物与副作用的频率得分是否已知进行编码的邻接矩阵DMA和以药物与副作用的频率得分数值进行编码的邻接矩阵DMF构成。其中，邻接矩阵DMA和DMF的维度均为N_d*N_s；N_d为训练集中药物的种类数量，N_s为训练集中副作用的种类数量。

譬如，已知药物-副作用频率信息数据集是基于SIDER v4.0数据库收集；其中构建的邻接矩阵DMA和DMF的维度均为757*994；757为数据集中药物的种类数量，994为数据集中副作用的种类数量；所述关系邻接矩阵DMA中每个元素的值是依据对应一种药物与一种副作用的频率得分是否是已知的来进行编码，如果数据集中存在某个药物与某个副作用的频率得分，则DMA中对应位置为1，否则为0；DMF中的每个元素的值是依据对应一种药物与一种副作用的具体频率得分来进行编码，基于Galeano等人的研究，将药物的副作用频率划分为五个级别：非常罕见(频率＝1)、罕见(频率＝2)、不频繁(频率＝3)、频繁(频率＝4)和非常频繁(频率＝5)，如果数据集中存在某个药物与某个副作用的频率得分，则DMA中对应位置为该频率得分，否则为0。其他可行的实施例中，针对编码规则可以根据应用需求进行调整，此处仅为举例说明，应当理解，样本基于哪类编码规则设置的，对应的预测结果也是对应该类编码规则，如上，若样本是基于上述评分规则划分级别以及打分，那得到的预测结果是：新药副作用发生频率的得分，对应可知在上述五个级别中的所属级别。若样本是直接利用发生频率值，那么得到预测结果是新药副作用发生频率。

S2：获取药物相似性信息以及副作用相似性信息。

本实施例中，为训练集中的药物和副作用构建了8个不同相似性类型的药物相似性矩阵以及2个不同相似性类型的副作用相似性矩阵。

药物相似性矩阵如下：

SMD_Similarity,SMD_Experimental,SMD_Database,SMD_{Text_mining},SMD_{Combined_score},SMD_Structure,SMD_Target,SMD_Word。

副作用相似性矩阵如下：

基于副作用的语义描述符得到矩阵SME_Semantic,、基于副作用的词向量信息得到的矩阵SME_Word。

其中，药物相似矩阵SMD_Similarity、SMD_Experimental、SMD_Database,SMD_{Text_mining}和SMD_{Combined_score}根据STITCH数据库中已知的药物之间的关联信息直接构建；STITCH数据库中收集了名为‘Similarity’、‘Experimental’、‘Database’、‘Text Mining’和‘CombinedScore’5种类型的相似性得分。SMD_Structure为基于结构信息得到的矩阵，SMD_Target为基于药物的靶标信息得到的矩阵，SMD_Word为基于药物的词向量信息得到的矩阵。

药物相似性矩阵SMD_Structure是根据药物的SMILES序列信息构建的；药物的SMILES序列是从Pubchem数据库中收集的；将收集到的SMILES序列输入Python工具包Rdkit，可以为每一个药物分配一个2048维的分子字符描述指纹向量；基于分子描述符指纹向量，药物相似性矩阵SMD_Structure可以通过如下方式构建：

式中，SMD_Structure(i,j)为药物d_i和药物d_j对应在药物相似性矩阵SMD_Structure的值，FV_i和FV_j表示药物d_i和药物d_j基于SMILES序列信息得到的分子字符描述指纹向量。

针对SMD_Target，在本实例中通过Drugbank数据库收集药物的已知蛋白质靶标信息，每一种药物都可以用一个847维的靶标特征向量来表示。向量的每一维代表一个蛋白质，如果该蛋白质是药物靶向的，则其值设置为1，否则设置为0。再根据余弦相似系数计算两种药物之间的靶标相似度：

式中，SMD_Target(i,j)为药物d_i和d_j对应在矩阵SMD_Target的值，TVⁱ和TV^j分别表示任意两个药物d_i和d_j的靶标特征向量，

和

分别表示靶标特征向量的第k位，最后通过计算所有药物之间的靶标相似性值构建药物相似性矩阵SMD_Target。

药物相似性矩阵SMD_Word根据SMILES序列信息构建，如下：

首先，从Pubchem数据库中收集药物的SMILES序列信息，然后将序列信息输入经过预训练的Mol2vec模型得到药物词编码向量；采用余弦角相似性方法计算任意两个药物之间的词编码向量之间的相似性作为该药物对之间的词编码相似性值；最后通过计算所有药物之间的靶标相似性值构建药物相似性矩阵SMD_Word。

副作用相似性矩阵SME_Semantic根据所有副作用的语义描述信息构建，一个副作用对应一个或多个语义描述符，从而利用这些与副作用有关的语义描述符以及副作用本身的语义描述符为每个副作用构建一个DAG，如下：

在本实例中，基于ADReCS数据库，收集副作用的语义描述符；然后，数据集中的每个副作用根据语义描述符构建出对应有向无环图(DAG)，图中的节点代表副作用的语义描述符，图中的有向边代表语义描述符之间的关系，例如某一副作用s_i表示为

其中

表示副作用s_i的描述符及其祖先节点集，

表示图中连接这些描述符的边集。根据每个副作用的有向无环图DAG可以计算图中每个节点对该副作用的贡献值：

式中，θ为语义贡献衰减因子，表示随着节点t与副作用s_i的描述符之间的距离的增加，其对副作用s_i的描述符的语义的贡献减小。t^*表示DAG中节点t的子孙节点。然后，通过以下公式计算得到副作用的语义相似性矩阵SME_Semantic：

副作用相似性矩阵SME_Word根据副作用的名称构建，如下：

首先，从数据库中收集副作用的名称，然后将名称输入经过预训练的词向量Glove模型得到副作用词编码向量；采用余弦角相似性方法计算任意两个副作用之间的词编码向量之间的相似性作为副作用对之间的词编码相似性值并构建副作用词相似性矩阵SMD_Word。

本实施例中，8个不同类型的药物相似性矩阵的维度都为757*757，4个不同类型的副作用相似性矩阵的维度都为994*994。

应当理解，其他可行的实施例中，可以选择上述部分相似性矩阵组合或者在上述相似性矩阵的基础上增设其他相似性矩阵，本发明对此不进行具体的限定。

S3：基于药物相似性信息和所述副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量。

在本实例中，为药物和副作用收集多种类型的相似性向量具体是指：定义药物相似性矩阵集合

和副作用相似性矩阵集合

再分别根据

和

收集药物和副作用的特征。

其中，药物相似性矩阵集合：

定义副作用相似性矩阵集合：

以

中的第k个相似性矩阵为例，药物d_i可以收集一个相似性向量：

其中，

为第k个相似性矩阵中药物d_i对应的元素值。

对于

中第l个相似性矩阵，副作用s_j可以收集一个相似性向量：

其中，

为第k个相似性矩阵中副作用s_j对应的元素值。

按照上述方法对集合

和

中每一个元素进行遍历，可以收集多种类型的相似性向量。即针对每一个药物，其针对每一类药物相似性都可以得到一个相似性向量；针对每个副作用，其针对每一类副作用相似性都可以得到一个相似性向量。

将所有的相似向量进行特征映射是指将药物和副作用的多个相似性向量投影到同一维度的特征映射空间中，得到药物和副作用各自的初始特征向量；以药物d_i和副作用s_j为例，对于第k个药物相似性向量

和第l个副作用相似性向量，d_i和s_j的特征向量分别如下所示：

其中，P_k和Q_l是线性转移矩阵，P_k的维度为r*757，Q_l的维度为r*994；其中r是经过线性转移矩阵变换后，相似性向量的维度。本实施例中，r通过十倍交叉验证试验得到，设定为32。

本发明将所有的相似性向量进行特征映射，可以获取多个相同维度的药物和副作用特征向量。

S4：对步骤S3中不同类型的相似性产生的药物特征向量和副作用特征向量依次进行外积操作，得到多个药物-副作用对交互图。

在本实例中，外积操作具体如下：

式中

是一个矩阵，也称为药物-副作用对交互图，维度大小为r*r。通过对每一个药物的特征向量和副作用特征向量依次进行外积操作。譬如，本实施例一个药物-副作用pair包含16个交互图，这是基于8类药物相似性和2类副作用相似性构成的。

S5：搭建药物副作用发生频率预测模型的网络架构，并利用所述训练数据集及其药物、副作用数据进行网络训练得到训练好的药物副作用发生频率预测模型。

本实施例中用深度卷积神经网络对药物-副作用对交互图进行特征提取得到药物-副作用交互嵌入数据，利用多层感知机分别对药物特征向量和副作用特征向量分别进行特征提取得到药物嵌入数据以及副作用嵌入数据；再将所述药物-副作用交互嵌入数据、药物嵌入数据以及副作用嵌入数据进行拼接，输入至多层感知机得到药物-副作用关联对的预测得分；

当药物-副作用关联对的预测得分小于预设判断阈值(取值0.5)，视所述药物不具有对应副作用，输出药物与该副作用之间的发生频率得分为0；当药物-副作用关联对的预测得分大于或等于预设判断阈值(取值0.5)，视所述药物具有对应副作用，再将拼接后向量输入新的多层感知机得到基于编码规则的药物-副作用关联对的频率数据。

本实施例中，所述深层卷积神经网络由6个隐藏层组成，每一个隐藏层的通道数为32，步长为2，卷积核为2*2；所述多个多层感知机由3个隐藏层组成，每一层维度都为r，r的值通过在训练集合上进行10折交叉验证实验确定；判断阈值为0.5。其他可行的实施例中，网络参数的设置可以进行优化或者调整。

训练过程中现将模型参数初始化，然后将训练库中的数据以及药物特征向量、副作用特征向量、药物-副作用对交互图按照上述内容进行输入，并以采用均方损失函数作为整个模型的损失函数进行逐层反向传播，并利用Adam迭代更新模型中的参数。

对于药物-副作用对之间关联关系的预测，均方损失函数Loss₁的表达式如下：

式中，M₁和M₂分别代表训练集中正负样本数，

和

分别代表训练数据的真实关联标签和预测标签。对于药物-副作用对之间频率得分的预测，损失函数Loss₂定义如下：

式中，

和

分别代表训练数据中正样本的真实关联标签和预测标签。联合训练两个损失函数，整体损失函数Loss_total变为：

式中，M₃和M₄代表模型中参数的个数，μ为决定正则化影响程度的超参数，设置为0.0005。

其他可行的实施例中，针对模型训练过程，也可以选择其他算法进行参数优化。

S6：针对待预测新药物，获取新药物的药物相似性信息，并按照步骤3以及步骤4的方式处理药物数据，再输入至训练好的药物副作用发生频率预测模型得到新药物副作用发生频率预测结果。

譬如，本实施例中针对每个未知频率信息的新药进行预测，将预测结果按照从大到小排序，生成药物-副作用对的潜在频率列表。

本实施例中，药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系，以及针对预测出存在关联关系的新药物与副作用进一步预测基于编码规则的新药物与副作用的频率数据，如本实施例中频率得分：非常罕见(频率＝1)、罕见(频率＝2)、不频繁(频率＝3)、频繁(频率＝4)和非常频繁(频率＝5)。因此，本实施例中药物副作用发生频率预测模型是先预测是否存在关联关系，针对存在关联关系的药物与副作用进一步预测其频率得分。

其他可行的实施例中，根据应用需求，也可以设定药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系即可，或者根据应用需求，设定药物副作用发生频率预测模型用于预测基于编码规则的新药物与副作用的频率数据。对应的训练集的数据，即标签进行相应调整。

实施例2：

本实施例提供一种基于上述新药副作用发生频率预测方法的系统，其包括：训练数据集构建模块、药物相似性信息获取模块、副作用相似性信息获取模块，药物、副作用的特征向量生成模块、药物-副作用对交互图构建模块、药物副作用发生频率预测模型构建模块以及预测模块。

其中，训练数据集构建模块用于基于已知药物-副作用频率信息构建训练数据集；药物相似性信息获取模块用于获取药物相似性信息；副作用相似性信息获取模块用于获取副作用相似性信息；药物、副作用的特征向量生成模块用于基于药物相似性信息和所述副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量；药物-副作用对交互图构建模块用于基于药物的特征向量和副作用的特征向量构建药物-副作用对交互图；药物副作用发生频率预测模型构建模块用于搭建药物副作用发生频率预测模型的网络架构，并利用所述训练数据集及其药物、副作用数据进行网络训练得到训练好的药物副作用发生频率预测模型；预测模块用于针对待预测新药物，将其按照步骤2-4处理后的药物数据输入至训练好的药物副作用发生频率预测模型得到新药物副作用发生频率预测结果。

其中，各个单元模块的具体实现过程请参照前述方法的对应过程，本发明在此不进行具体的赘述，且上述功能模块单元的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

实施例3：

本实施例提供一种终端，其包括：一个或多个处理器以及存储了一个或多个计算机程序的存储器。其中，所述处理器调用所述存储器存储的计算机程序以实现：一种基于相似性的新药副作用发生频率预测方法的步骤。具体执行：

步骤1：基于已知药物-副作用频率信息构建训练数据集；

步骤2：获取药物相似性信息以及副作用相似性信息；

步骤3：基于药物相似性信息和所述副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量；

其中，实现过程可以参照实施例1及其扩展说明。

该终端还包括：通信接口，用于与外界设备进行通信，进行数据交互传输。

其中，存储器可能包含高速RAM存储器，也可能还包括非易失性除颤器，例如至少一个磁盘存储器。

如果存储器、处理器和通信接口独立实现，则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线，外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。

可选的，在具体实现上，如果存储器、处理器和通信接口集成在一块芯片上，则存储器、处理器即通信接口可以通过内部接口完成相互之间的通信。

各个步骤的具体实现过程请参照前述方法的阐述。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

实施例4：

本实施例提供一种可读存储介质，其存储了计算机程序，所述计算机程序被处理器调用以实现：一种基于相似性的新药副作用发生频率预测方法的步骤。具体执行：

步骤1：基于已知药物-副作用频率信息构建训练数据集；

步骤2：获取药物相似性信息以及副作用相似性信息；

其中，实现过程可以参照实施例1及其扩展说明。

各个步骤的具体实现过程请参照前述方法的阐述。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

仿真与验证：

为了验证本发明的有效性，我们参考其他相关领域计算模型的验证标准，采用了两种验证方式：(1)十倍交叉验证；(2)局部5倍交叉验证和四个评价指标：AUC(theareasunder ROC curves)，AUPR(thearea under theprecision-recall curve)，RMSE(root mean squared error)和MAE(mean absolute error)对模型进行评估。在十倍交叉验证中，将数据集随机分成10份，依次轮流选择1份为测试集，剩下的9份为训练集，重复10次。在局部5倍交叉验证测试中，将数据集中的药物随机分成5份，依次轮流选择1份，并收集与该份药物相关的所有已知药物-副作用频率对为测试集，数据集中剩下的已知药物-副作用频率对为训练集，重复执行5次。

为了验证本发明所提出的方法(SDPred)在药物副作用频率方面的有效性，将SDPred与目前仅有的针对药物副作用频率预测问题的两个方法Galeano’s method和MGPred进行比较。表1显示了Galeano等人的方法、MGPred和SDPred的比较结果。我们的方法在AUROC、AUPRC、RMSE和MAE方面比第二好的MGPred分别提高了1.4％、2.0％、7.9％和9.4％。结果表明，即使MGPred利用了神经网络，它也只是从三个角度收集信息，并没有合理提取药物和副作用之间的相互作用信息，因此其性能不如我们的方法。

表1十倍交叉验证中的算法性能指标

SDPred是目前第一个可以对新药副作用频率进行预测的方法，为了验证SDPred对新药副作用的预测的可靠性，基于Guo等人构建的数据集对SDPred与对针对新药-副作用关联关系预测问题的CMF，CRMF，NRLMF和TMF方法进行比较。表2展示了5个模型的比较结果，可以发现本发明SDPred优于其他方法。另一方面，在表2中看到由于对新的化合物的预测缺少其已知的药物-副作用频率关系，在AUC值和AUPR上比表1中的十倍交叉验证要低，这个间接说明了已知药物-副作用频率关系的重要性。

表2局部五倍交叉验证中的算法性能指标

为了验证SDPred确实可以预测出药物的潜在副作用以及副作用的发生频率，对其中一个药物进行了案例分析，分析结果如表3所示。案例分析结果表明，SDPred预测出的药物escitalopram前10个未知的副作用中，有8个在SIDER和PubMed数据库中发现了确实存在，并且在存在大量参考文献提到了该药物的这些副作用，说明这些副作用具有相当高的发生频率。这进一步证明了本发明SDPred能够帮助生物实验研究者进一步发现准确的药物副作用以及副作用的发生频率。

表3 SDPred对药物escitalopram案例分析结果

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于相似性的新药副作用发生频率预测方法，其特征在于：包括以下步骤：

步骤1：基于已知药物-副作用频率信息构建训练数据集；

步骤2：获取药物相似性信息以及副作用相似性信息；

步骤3：基于所述药物相似性信息和所述副作用相似信息构建每个药物的相似性向量和每个副作用的相似性向量，并映射到同一维度的特征映射空间中得到药物、副作用的特征向量；

2.根据权利要求1所述的方法，其特征在于：若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分是否已知进行编码的数据，则步骤5中所述药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系；

所述药物副作用发生频率预测模型的训练过程如下：

3.根据权利要求1所述的方法，其特征在于：若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分数值进行编码的数据，则步骤5中所述药物副作用发生频率预测模型用于预测基于编码规则的新药物与副作用的频率数据；

所述药物副作用发生频率预测模型的训练过程如下：

步骤5-1：搭建药物副作用发生频率预测模型的网络架构；

4.根据权利要求1所述的方法，其特征在于：若步骤1中已知药物-副作用频率信息包括以药物与副作用的频率得分是否已知进行编码的邻接矩阵DMA和以药物与副作用的频率得分数值进行编码的邻接矩阵DMF；则步骤5中所述药物副作用发生频率预测模型用于预测新药物与副作用是否存在关联关系，以及针对存在关联关系的新药物与副作用进一步预测基于编码规则的新药物与副作用的频率数据；

所述药物副作用发生频率预测模型的训练过程如下：

5.根据权利要求1所述的方法，其特征在于：步骤3中药物、副作用的特征向量的公式如下所示：

针对药物d_i的一类相似性特征向量为：

针对副作用s_j的一类相似性特征向量为：

为副作用s_j的针对第l类相似性的相似性向量。

6.根据权利要求1所述的方法，其特征在于：步骤4中所述药物-副作用对交互图的构建过程如下：

与副作用s_j的特征向量

的外积，如下：

式中，

表示药物d_i的第k类相似性的特征向量，

表示副作用s_j的第l类相似性的特征向量；

7.根据权利要求1所述的方法，其特征在于：药物相似性信息由药物相似性矩阵SMD_Similarity，SMD_Experimental，SMD_Database，SMD_{Text_mining}，SMD_{Combined_score}，SMD_Structure，SMD_Target，SMD_Word中的部分或全部构成，副作用相似性信息由副作用相似性矩阵SME_Semantic，SME_Word构成。

8.一种基于权利要求1-7任一项所述方法的系统，其特征在于：包括：

药物相似性信息获取模块，用于获取药物相似性信息；

副作用相似性信息获取模块，用于获取副作用相似性信息；

9.一种终端，其特征在于：包括：

一个或多个处理器；

存储了一个或多个计算机程序的存储器；

所述处理器调用所述存储器存储的计算机程序以实现：

权利要求1-7任一项所述方法的步骤。

10.一种可读存储介质，其特征在于：存储了计算机程序，所述计算机程序被处理器调用以实现：

权利要求1-7任一项所述方法的步骤。