CN109767817B

CN109767817B - 一种基于神经网络语言模型的药物潜在不良反应发现方法

Info

Publication number: CN109767817B
Application number: CN201910039475.4A
Authority: CN
Inventors: 王理; 姜磊; 施维; 张远鹏
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2023-05-30
Anticipated expiration: 2039-01-16
Also published as: CN109767817A

Abstract

一种基于神经网络语言模型的药物潜在不良反应发现方法，涉及药物潜在不良反应发现方法领域，包括以下步骤，数据获取及清洗；模型优化，修改原始的Skip‑gram算法，用于从FDA的AERS报告和DrugBank DDI数据集中进行特征提取；拓展相互作用库，选取5种不良反应大类：肾损伤、心脏毒性、肝毒性、血压异常和神经毒性，以这5种不良反应大类作为Logistic回归验证药物、不良反应向量的范围并在这5大类范围内拓展DrugBank药物相互作用库；Logistic回归验证向量效果，使用Scikit‑learn完成CM‑TF‑IDF模型构建及分布式向量生成。该基于神经网络语言模型的药物潜在不良反应发现方法，解决了现有的方法数据处理速度较慢，不适合处理大规模数据集，同时不能快速进行特征学习的问题。

Description

一种基于神经网络语言模型的药物潜在不良反应发现方法

技术领域

本发明涉及药物潜在不良反应发现方法领域，为一种基于神经网络语言模型的药物潜在不良反应发现方法。

背景技术

药品不良反应事件一直是世界各国卫生医疗机构的关注点，药物临床实验是在较小范围和特殊群体的人群中进行药品评价，受试人员在数量和人群差异方面都不能很好的覆盖市场上药品受众群体。同时，由于试验周期短，药物所有的不良反应在临床的试验阶段不能完全揭露。存有未知潜在药物不良反应的药物流向市场会对公众健康构成威胁。FDA从医疗保健专业人员和消费者等收取有关疑似药品不良反应事件的报告以及药品制造商强制性报告，经过初步的人工核验后录入数据库。这些报告中包含病人的统计信息、药物信息、尽可能多的相关药物(包含怀疑药物和伴随药物)及使用专业医学术语集编码的不良反应。

药物-药物相互作用(Drug-drug interactions,DDI)占所有药物不良反应事件30％以上。然而，大量的药物-药物相互作用在暴露一段时间后才显现出来。因此，AERS报告成为了检测挖掘药物-药物相互作用的基石。DDI的计算预测和评估的发展对药监局以及制药公司具有强大的吸引力。Harpaz,Chase和Friedman开发了一种分类学，表征这些关联，并预测了几种潜在的多项药物不良反应。Tatonetti等人构建了药物反应频率矩阵，并使用Fisher精确检验从频率矩阵中提取特征用于DDI预测，最后将Logistic回归用于分类。Cheng和Zhao综合了药物的表型，治疗，化学和基因组特性来预测DDI。这四种类型的药物相似性被计算为用于预测的每种药物对的特征。他们发现多数据源的集成可以提高DDI预测的性能。Cami等人提出了预测药物相互作用网络，他们利用所有已知DDI的网络结构，结合药物的各种分类和内在特性来预测未知的DDI。虽然这些方法表现良好，但其局限性也是显而易见的。从以上看，基于相似性的方法依赖于各种各样的概况，包括药物分子结构概况，药物相互作用概况，药代动力学概况等。首先，以前的工作在利用AERS报告之前几乎没有采取系统的数据预处理方法。其次，特征文件的整合需要大量的手动检查并且可能导致选择偏差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于神经网络语言模型的药物潜在不良反应发现方法，解决了现有的药物潜在不良反应发现方法数据处理速度较慢，不适合处理大规模数据集，同时不能快速进行特征学习的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于神经网络语言模型的药物潜在不良反应发现方法，包括以下步骤，

(1)数据获取及清洗，首先，以XML格式存在AERS报告被抽取存储到7个独立的数据表中并加载到PostgreSQL数据库中，其次，使用患者年龄、性别、地市和案例日期字段组成样例表，2012年以前的AERS报告被称为LAERS数据，而2012年以后的AERS报告被称为FAERS数据，独立的键值表示在这两者中同时出现的案例，然后进行重复数据删除逻辑清洗重复数据；

(2)模型优化，修改原始的Skip-gram算法，用于从FDA的AERS报告和DrugBank DDI数据集中进行特征提取；

(3)拓展相互作用库，选取5种不良反应大类：肾损伤、心脏毒性、肝毒性、血压异常和神经毒性，以这5种不良反应大类作为Logistic回归验证药物、不良反应向量的范围并在这5大类范围内拓展DrugBank药物相互作用库；

(4)Logistic回归验证向量效果，使用Scikit-learn完成CM-TF-IDF模型构建及分布式向量生成。

优选的，所述LAERS和FAERS数据合并为一个包含遗留和当前病例标识符的单一表格，如果在LAERS和FAERS数据中都有案例报告，那么只有一个案例，即最新的案例会被保留。

优选的，所述重复数据删除逻辑包括核心关键的实体对齐，包括以下步骤，第一步，使用正则表达式，将药物字符串名称映射到OHDSI标准词汇概念；第二步，FAERS数据还包括一个单独的字段，其中包含一些特定的活性成分药物名称。

优选的，所述AERS报告中选择10作为筛选药物概念的阈值，至少需要10个AERS报告来支持一个给定的药物概念。

优选的，所述修改后的Skip-gram算法为：

c为一份不良反应报告事件中药品和不良反应实体，当w表示药物的时候，w_j表示当前报告中的不良反应，当w表示不良反应的时候，w_j表示当前报告中的药物实体。P(w|w_j)的计算如：

其中，e′(w)为药物w的向量，w′是实体词典V中的一个药物或不良反应实体。

优选的，所述修改后的Skip-gram的核心计算逻辑包括以下步骤：

步骤1：读取训练文档中的待训练词语，构建哈夫曼树。将参数向量θ初始化为100维的零向量，并将词向量初始化为100维的随机值；

步骤2：并寻找上下文，计算上下文词向量之和；

步骤3：根据上下文与中心词，在HuffMan树中寻找从根节点到达中心词的路径；

步骤4：根据贝叶斯公式，求在上下文context出现的条件下，中心词W出现的概率P(W|context)，并对概率取对数，得到目标函数。

条件概率如公式

目标函数如公式

步骤5：分别对目标函数求对θ偏导数和对ν偏导数；

对

偏导如公式

对X_w偏导如公式

步骤6：分别计算θ和x_w的误差值，并重新计算θ和x_w；

θ更新公式如公式

x_w更新公式如公式

其中η为神经网络的学习率，根据文本的学习进度进行调整；步骤7：判断是否到达文件末尾，否则重复步骤6到步骤10；

步骤8：输出词向量。

优选的，所述优化后的Skip-gram模型在初始化时根据词频构建哈夫曼树，每个节点的激活函数为softmax。

优选的，所述方法交叉结合三个数据集：DrugBank_Toxicity、DrugBank_DDI和SIDER，并设定了三个规则策略完成训练集及测试集的构建：

第一，如果当前药物对中至少有一个存在于SIDER指定的不良反应类的药物列表中，这个药物对就被标记为正样本；

第二，如果当前药物对中至少有一个存在于DrugBank_Toxicity指定的药物毒性描述中，这个药物对就被标记为正样本；

第三，如果当前药物对存在于DrugBank已知的不良反应描述中，这个药物对就被标记为正样本。通过以上三种策略，成功构建了正样本数据集。

优选的，所述方法使用主成分分析，即PCA对CM-TF-IDF生成的分布式向量的特征维数降低。

(三)有益效果

本发明提供了一种基于神经网络语言模型的药物潜在不良反应发现方法，具备以下有益效果：

基于神经网络语言模型的药物潜在不良反应发现方法，通过基于tfidf的共现矩阵在数据量大的时候会产生维度灾难的问题，在PCA的过程中必定会丢失某些特征。MSG模型中在初始化时候就限定了空间向量的维度，这样避免了二次特征工程的工作，也就避免了信息的丢失，其次，优化后的Skip-gram模型在初始化时根据词频构建了哈夫曼树，每个节点的激活函数为softmax，也就大大缩短了在学习过程中更新权重及向量的时间，能应用于大规模的数据集，并能快速进行特征学习。

附图说明

图1为本发明原始Skip-gram模型结构；

图2为本发明modified Skip-gram模型学习窗口；

图3为本发明CM-TF-IDF模型的矩阵构建策略图；

图4为本发明基于MSG模型的十个逻辑回归模型的ROC曲线图；

图5为本发明基于CM-TF-IDF模型的十个逻辑回归模型的ROC曲线图；

图6为本发明二十个逻辑回归模型的AUROC值对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供一种技术方案：

数据获取及清洗

尽管FDA的AERS报告是免费公开的，但是在整合所有相关数据的时候仍然会有许多障碍。为了获得可信赖的结果并且保证实验的可重复性，本方法参考了OHDSI(Observational Health Data Sciences and Informatics)的框架并将Banda et al的方法付诸于实践，完成了AERS报告的清洗和标准化工作。

首先，以XML格式存在AERS报告被抽取存储到7个独立的数据表中并加载到PostgreSQL数据库中。其次，为了解决缺失值填充及案例重复问题，一个由患者年龄、性别、地市、案例日期等字段组成的样例表完成了这两项工作。2012年以前的AERS报告被称为LAERS数据，而2012年以后的AERS报告被称为FAERS数据。在这两大数据集合中，一个案例可能会在这两者中同时出现，独立的键值被用来解决这个问题。最后，正则表达式被用来作为药品及不良反应概念映射的主要技术。下面将详细介绍下清洗及实体对齐的步骤及内容。

作为数据整理过程的第一步，LAERS和FAERS药物数据(DRUGyyQq)都合并为一个包含遗留和当前病例标识符(isr和primaryid)的单一表格。如果在LAERS和FAERS数据中都有案例报告，那么只有一个案例(最新的案例)会被保留。为了药物安全性方法和药物警戒的可移植性，一些原始字段被忽略，但当通过案例标识符将原始FDA数据加入此资源时可以轻松检索。每个季度FAERS/LAERS数据文件就被分成七个单独的表格，如表1所述。每个表格可以加载到数据库中或直接操作。LAERS和FAERS数据之间的主要区别在于重新命名关键字段：isr和case到primaryid和caseid。在某条记录加入两组数据时，本方法保留了两个名称，以允许后续将每份报告追溯到其原始数据源。在不同的数据集之间添加了额外的字段，但由于它们在本方法的数据处理中没有发挥作用，所以提供包含在FDAAERS源文件中的文档以获取详细信息。在缺失值插补和重复数据删除的步骤中使用了DEMOyyQq表。这里提供DRUGyyQq和INDIyyQq表的增强和集成版本，其中分别通过RxNorm概念唯一标识符(CUI)和SNOMED-CT标识符映射到OHDSI标准概念标识符。对原始DRUGyyQq表格清洗时，本方法通过五个不同的步骤将文本药物名称映射到OHDSI标准概念标识符。使用MedDRA代码的类似过程在INDICATION和REACTION映射部分对药物适应症INDIyyQq映射进行了概述。

表1不良反应报告系统中元数据的表结构

在LAERS/FAERS中，案例可能有多个版本，除了初始案例版本之外，还可能存在一个或多个后续案例版本。另外，旧的LAERS数据集和/或新的FAERS数据集中可能存在一个案例。因此，重复数据删除逻辑考虑了多个案例版本和两个数据集之间的差异。核心关键的实体对齐步骤分为两步：第一步，使用正则表达式，本方法将药物字符串名称映射到OHDSI标准词汇概念；第二步，FAERS数据还包括一个单独的字段，其中包含本方法也绘制的一些特定的活性成分药物名称。

最后清洗完成的不良反应报告如表2和表3所示。其中，字段Primary_id表示每一份不良反应报告编号，Drug_id则为药物经过RxNorm映射后的标准id，Outcome_id则为不良反应经过MedDRA词典映射后的标准id。最后通过表连接查询，得到每份报告的药物和不良反应结果。

表2整合DRUGyyQq表后的结果示例

表3整合REACyyQq表后的结果示例

本方法预处理了2004年到2016年AERS报告，共现成有4,493,179份报告，其中713,441份报告明确列出了两种药物。为了确保合理的估计和统计显着性，本方法设置了一个规则：至少需要十个AERS报告来支持一个给定的药物概念。本方法选择了10作为筛选AERS报告中药物概念的阈值。因此，675种药物概念被过滤出来，并同时存在于DrugBank DDI数据集药物实体集中。这675种药物被列为参考药物列表(Reference Drug List,RDL)。

Skip-gram模型优化

2013年，Mikolov等人提出了Skip-gram模型，它没有隐藏层，每次从目标词的上下文(w_i-(n-1)/2；w_i-1；w_i+1；w_i+(n-1)/2)中选择一个词，将其词向量作为模型的输入。其中，n决定了上下文窗口的大小，n越大，在一次训练中的时间就会线性增加，也能带来更好的结果。

本方法修改了原始的Skip-gram算法，用于从FDA的AERS报告和DrugBank DDI数据集中进行特征提取。根据分布假说理论，一个词的语义信息是它的周围词汇所构成的。词向量将单词的语义含义编码成低维矢量，因此理论上可以将药物和不良反应的共现关系编码成低维矢量。本方法修改的Skip-gram模型是通过分层softmax来训练的。Modified Skip-gram的目标是最大化对数似然，如公式(1)所示。

在公式(1)中，c为一份不良反应报告事件中药品和不良反应实体。当w表示药物的时候，w_j表示当前报告中的不良反应，当w表示不良反应的时候，w_j表示当前报告中的药物实体。在公式(1)中，P(w|w_j)的计算如公式(2)所示：

原始的Skip-gram和modified Skip-gram之间的主要区别在于本方法定义“上下文”的方式。在原始的Skip-gram中，上下文在当前单词周围是2n个单词。2n个单词由当前词向前n个单词以及当前词向后n个单词组成。默认情况下，n被设置为5。考虑到药物-药物相互作用的特殊性，每种药物的“上下文”都是当前AERS报告中的每一个不良反应；当遇到不良反应实体时，每种不良反应的“上下文”就是当前AERS报告中的每一个药品实体。

Drug₁的上下文是Reaction₁,Reaction₂和Reaction₃；而当模型窗口移动到不良反应时，Reaction₁的上下文即Drug₁和Drug₂。

MSG的核心计算逻辑如下步骤：

步骤1：读取训练文档中的待训练词语，构建哈夫曼树。将参数向量θ初始化为100维的零向量，并将词向量初始化为100维的随机值。

步骤2：并寻找上下文，计算上下文词向量之和；

条件概率公式如公式(3)：

目标函数如公式(4)：

步骤5：分别对目标函数求对θ偏导数和对v偏导数；

对

偏导如公式(5)所示：

对X_w偏导如公式(6)所示：

步骤6：分别计算θ和x_w的误差值，并重新计算θ和x_w；

θ更新公式如公式(7)所示：

x_w更新公式如公式(8)所示：

注：η为神经网络的学习率，根据文本的学习进度进行调整；

步骤7：判断是否到达文件末尾，否则重复步骤6到步骤10；

步骤8：输出词向量。

上述步骤的参数详见表4：

表4modified Skip-gram参数表

在表4中，学习率根据文档进度进行自调整。学习率的动态调整计算公式如公式(9)所示：word_count_actual已经训练的词数，train_words文档中的总词数。

在具体代码实现的时候，MSG模型依然采用和原始Skip-gram相同的随机梯度上升来提升训练速度，随机梯度上升的伪代码如下：

五种不良反应大类及DrugBank药物相互作用库知识拓展

本方法参考了Tatonetti等人提出的8种严重不良反应，经过整合本方法选取了5种不良反应大类：肾损伤、心脏毒性、肝毒性、血压异常、神经毒性。以这5种不良反应大类作为Logistic回归验证药物、不良反应向量的范围并在这5大类范围内拓展了DrugBank药物相互作用库知识拓展。

根据分布式假说，如果两个词有相似的上下文，它们的向量在高维空间中是靠近的。由此所推，理论上，药物的分布式向量在高维空间中与其中的相互作用也是靠近的。因此，本方法将这一想法扩展到DrugBank数据库中药物-药物相互作用记录，通过计算药物分布式向量与不良反应分布式向量的余弦值来排序。尽管modified Skip-gram模型生成了药物和不良反应的分布式向量，但是模型并不能产生药物-药物对的分布式向量。如公式(10)所示，一个药物对的分布式向量是由两个药物分布式向量线性加和，e_Drug1＝(a₁，a₂，...，a_n)，e_Drug2＝(b₁，b₂，...，b_n)，a_i和b_i是药物分布式向量每一维的值。余弦值的计算如公式(11)所示，e_Reaction＝（r₁，r₂，...，r_n).r₁是不良反应分布式向量每一维的值。

e_{(Drug1，Drug2)}＝(a₁+b₁，a₂+b₂，...，a_n+b_n) (10)

最终，排序的前20个不良反应被用来计算拓展DrugBank药物-药物相互作用数据库的效果。

Logistic回归验证向量效果

为了验证modified Skip-gram模型生成的向量的质量，本方法对比了modifiedSkip-gram模型生成的向量与基于TF-IDF共现矩阵的向量。Term frequency-inversedocument frequency(TF-IDF)是一个公认的用来评估一个词在语料库中的一份文件重要度的统计学方法。TF-IDF的核心思想是：一个词对于一份文档重要度随着在当前文档中出现的次数增加而增加，但同时随着这个词在整个语料中出现的次数的增多而减少。在公式(12)中，m_i，j是词t_i出现在文档d_j中出现的次数，∑_kn_k，j所有在文档d_j中出现的词的总次数，|D|表示语料库中出现的文档总个数，|{j：t_i∈d_j}|表示在语料库中包含词t_i的文档的总个数。

本方法建立了基于TF-IDF建立了一个药物/不良反应与报告共现矩阵(Co-occurrence matrix based on term frequency-inverse document frequency,CM-TF-IDF)，用于药物及不良反应特征向量化。

本方法使用Scikit-learn完成了CM-TF-IDF模型构建及分布式向量生成。Scikit-learn是一个Python模块，它集成了各种流行通用的机器学习算法，用于中等规模的监督和无监督问题。由于它依赖于科学的Python生态系统，因此它可以轻松地集成到传统统计数据分析范围之外的应用程序中。重要的是，以高级语言实现的算法可以用作特定于用例的方法的构建块。如图所示，tfidf_vectors函数接收文档地址作为入参，出参“dict_tf”为一个主键为词，值为向量的字典。通过PCA函数将高维特征限制为100维。

“经过整合本方法选取了5种不良反应大类：肾损伤、心脏毒性、肝毒性、异常血压、神经毒性”。因此，5个逻辑回归模型就需要5组包含正负样本的标签。逻辑回归需要构建正样本及负样本来预测一组药物-药物是否与某不良反应大类相关。因为没有公认的金标准来完成这个测试集，本方法交叉结合了三个数据集：DrugBank_Toxicity、DrugBank_DDI和SIDER[57][58]，并设定了三个规则策略完成训练集及测试集的构建：

第三，如果当前药物对存在于DrugBank已知的不良反应描述中，这个药物对就被标记为正样本。通过以上三种策略，本方法成功构建了正样本数据集。

本方法训练并验证了肾损伤(Renal impairment，REI)，肝毒性(Hepatotoxic，HTT)，异常血压(Abnormal blood pressure，ABP)，心脏毒性(Cardiotoxicity，CDT)和神经毒性(Neurotoxic，NET)的逻辑回归模型。当验证MSG产生的分布式向量时，五个不良事件类别中的每一个类都训练两个分别基于AERS报告和DrugBank DDI数据集的逻辑回归模型。当验证CM-TF-IDF生成的向量时，总共十个逻辑回归模型也像MSG一样训练。为了避免CM-TF-IDF的维数灾难，本方法使用主成分分析(PCA)对CM-TF-IDF生成的分布式向量的特征维数降低。

本方法计算了1,650个DrugBank药物-药物相互作用对的余弦用于拓展记录，并采用MedDRA知识库来验证拓展有效性。正如本方法所知，MedDRA层次结构中有五个级别，从特定到一般：{组织系统类(SOC)}，{高级组术语(HLGT)}，{高级术语(HLT)}，{首选术语(PT)}和{最低级别术语(LLT)}。为了验证DrugBank中药物-药物相互作用的拓展有效性，本方法一共考虑了二十七个{系统器官类(SOC)}级的类别。以神经毒性(NET)的不良反应大类为例，当本方法验证神经毒性(NET)中药物-药物相互作用记录拓展时，{系统器官类(SOC)}中的{神经系统紊乱}被设定为神经毒性(NET)中正确反应的金标准。如果药物对余弦值排列的前二十个中的至少一个不良反应在{神经系统疾病}类别下，那么本方法定义当前药物对在神经毒性(NET)中的拓展描述是有效的。例如，在心脏毒性(CDT)类中药物对<地高辛，表柔比星>的描述拓展在表中示出。在系统器官类(SOC)中的{心脏疾病}下验证了六种粗体字不良反应：心脏药物水平增加、心力衰竭、长QT综合征、心室停搏、心功能检查异常、心房纤颤，因此描述拓展对药物对<地高辛，表柔比星>有效。

表5显示了五类DrugBank药物-药物相互作用描述拓展的细节。共验证了1,456个DrugBank药物-药物相互作用对，平均准确率为0.882424，说明采用MSG模型可以有效拓展DrugBank中药物-药物相互作用的描述。

表5五大类Drugbank药物-药物相互作用知识拓展准确率

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，包括以下步骤，

(2)模型优化，修改原始的Skip-gram算法，用于从FDA的AERS报告和DrugBank DDI数据集中进行特征提取，所述修改后的Skip-gram算法为：

c为一份不良反应报告事件中药品和不良反应实体，当w表示药物的时候，w_j表示当前报告中的不良反应，当w表示不良反应的时候，w_j表示当前报告中的药物实体；P(w|w_j)的计算如：

其中，e'(w)为药物w的向量，w'是实体词典V中的一个药物或不良反应实体；

2.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述LAERS和FAERS数据合并为一个包含遗留和当前病例标识符的单一表格，如果在LAERS和FAERS数据中都有案例报告，那么只有一个案例，即最新的案例会被保留。

3.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述重复数据删除逻辑包括核心关键的实体对齐，包括以下步骤，第一步，使用正则表达式，将药物字符串名称映射到OHDSI标准词汇概念；第二步，FAERS数据还包括一个单独的字段，其中包含活性成分药物名称。

4.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述AERS报告中选择10作为筛选药物概念的阈值，至少需要10个AERS报告来支持一个给定的药物概念。

5.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述修改后的Skip-gram的核心计算逻辑包括以下步骤：

步骤1：读取训练文档中的待训练词语，构建哈夫曼树；将参数向量θ初始化为100维的零向量，并将词向量初始化为100维的随机值；

步骤2：并寻找上下文，计算上下文词向量之和；

步骤4：根据贝叶斯公式，求在上下文context出现的条件下，中心词W出现的概率P(W|context)，并对概率取对数，得到目标函数；

条件概率如公式

目标函数如公式

步骤5：分别对目标函数求对θ偏导数和对ν偏导数；

对

偏导如公式

对X_w偏导如公式

步骤6：分别计算θ和x_w的误差值，并重新计算θ和x_w；

θ更新公式如公式

x_w更新公式如公式

步骤8：输出词向量。

6.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述优化后的Skip-gram模型在初始化时根据词频构建哈夫曼树，每个节点的激活函数为softmax。

7.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述方法交叉结合三个数据集：DrugBank_Toxicity、DrugBank_DDI和SIDER，并设定了三个规则策略完成训练集及测试集的构建：

第三，如果当前药物对存在于DrugBank已知的不良反应描述中，这个药物对就被标记为正样本；通过以上三个规则策略，成功构建了正样本数据集。

8.根据权利要求1所述的一种基于神经网络语言模型的药物潜在不良反应发现方法，其特征在于，所述方法使用主成分分析，即PCA对CM-TF-IDF生成的分布式向量的特征维数降低。