CN109446338A

CN109446338A - 基于神经网络的药物疾病关系分类方法

Info

Publication number: CN109446338A
Application number: CN201811100933.2A
Authority: CN
Inventors: 郑巍; 林鸿飞
Original assignee: Dalian Jiaotong University
Current assignee: Dalian Jiaotong University
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-08
Anticipated expiration: 2038-09-20
Also published as: CN109446338B

Abstract

基于神经网络的药物疾病关系分类方法，属于生物医学文本挖掘和数据挖掘技术领域，对于生物医学文献中已标注的药物疾病实体，解决对药物疾病间的诱发关系进行更为准确且有效地分类的问题，包括S1、构建药物疾病候选关系实例集；S2、对生物医学文献进行文本处理；S3、构建领域知识；S4、构建输入向量；S5、构建篇章级语义信息子网络模型；S6、采用Attention机制形成知识的最终表示；S7、构建药物疾病关系分类模型；S8、预测生物医学文献中的药物疾病关系。本方法能够有效地自动识别句间和句内的药物疾病实体关系，克服了现有多数系统基于传统机器学习方法利用大量特征工程的方法。

Description

基于神经网络的药物疾病关系分类方法

技术领域

本发明涉及生物医学文本挖掘和数据挖掘技术领域，尤其是基于神经网络的药物疾病关系分类方法。

背景技术

海量的非结构化生物医学文献中蕴含着丰富的、前沿的及潜在的生物医学知识，是生物医学领域相关从业人员重要的知识来源。应用文本挖掘技术从这座知识宝库中自动高效的提取相关知识的需求变得非常迫切。药物、疾病和它们的关系是世界范围内PubMed用户搜索最多的主题之一，反映了它们在诸如药物发现和安全预警等生物医学领域及医疗保健领域的中心地位。药物和疾病间具有多种关系，如治疗关系。此外，药物和疾病还经常有下面两种关系。一个是推断的机制关系(putative mechanistic relationships)，即药物在疾病的病因学上扮演了重要的作用，如某药可致癌。另一个是生物指标关系(biomarkerrelations)，即药物的生化指标与疾病有关，例如药X在脑部增长的数量与Alzheimer病有关。这两种关系都是药物对疾病产生的副作用。因此，虽然开发药物的最终目标是治愈疾病，但是识别药物与疾病间的副作用对改善药物安全和毒性研究以及改进药类化合物残存筛选实验也具有极其重要的作用。本发明的目的就是自动地从生物文章中识别出药物和疾病间的关系，是副作用，还是非副作用关系,即药物疾病关系的二元分类。

就关系抽取任务基于的文本粒度来说，常用的有句子文本和篇章文本。篇章(标题和摘要)与句子级关系抽取的主要区别在于，抽取出的关系不仅包括句内关系还要求句间关系的提取。此外，关系中的两个实体也不再是出现的实体逐一匹配组成的对，而是概念级的实体之间在整篇文章上体现的关系。因此，篇章级关系的提出扩大了关系抽取文本的范围，能更全面地提取文献中出现的实体关系。但另一方面，这又增加了关系提取的难度。

虽然有一些系统在篇章级文本上完成药物疾病关系的识别，但这些系统主要依赖的是特征工程，多数模型使用的特征在20个左右。其他一些系统探索了特征的自动学习，但是对于自动学习过程基于的文本，有的系统限定为候选实体共现的一个句子，有的系统按照某种规则对距离最近的药物疾病实体对存在的文本进行截取。

其次，文本和知识的有效融合可以改善自然语言处理任务的性能，结合领域知识与文本信息的系统比单纯使用文本信息的系统在性能上更具优势。然而，尽管存在的药物疾病关系分类系统探索了知识的利用，但是这些系统并没有区分不同知识对一篇特定文章中药物疾病语义表示的影响。

发明内容

本发明的目的是提供基于神经网络的药物疾病关系分类方法，结合领域知识，自动学习医学文本中的篇章级特征，从而对于生物医学文献中已标注的药物疾病实体，解决对药物疾病间的诱发关系进行更为准确且有效地分类的问题。

本发明解决现有技术问题所采用的技术方案：基于神经网络的药物疾病关系分类方法，包括以下步骤：

S1、构建药物疾病候选关系实例集：采集公开已标注的数据集，数据集中的文章只包含标题和摘要；对于共现在一篇文章里的所有药物和疾病实体，按照穷举法一一匹配候选实体<药物MeSH ID,疾病MeSH ID>从而产生候选实例，其中的MeSH表示美国国立医学图书馆编制的医学主题词表，ID表示实体在MeSH中的标识符；每个共现的候选药物和疾病对允许跨越标题摘要边界，也允许跨越句子边界；每个候选对被标注为正例还是负例，主要依赖于两个原则：(a)这个候选对是否在一篇文章里已经被标注，如果已经标注为药物诱发疾病关系则为正例，否则为负例；(b)限制句间的候选对为那些连续的K个句子之间的实体对，对于超出句子跨度K的候选实例标定为负例；

S2、对生物医学文献进行文本处理：利用文本处理技术对文本进行基本文本处理、标记候选实体、分句以及对单词进行词性PoS标记，其处理方法如下：

A1、基本文本处理：每篇文章作为每对候选实例关系提取的文本，每篇文章包含整个摘要和相应的标题；对于没有出现在药物或疾病实体中的数字串，用一个特殊的字符串“ZHWNUM”代替；删除不包含候选药物或疾病的括号内的文本；出现在文章中的每个药物或者疾病用它相应的MeSH ID代替；而且，在药物MeSH ID前加了前缀“C_”，在疾病MeSH ID前加了前缀“D_”，以此区分一个MeSH ID是药物还是疾病；

A2、标记候选实体：在候选实体前后添加特殊的符号以突出不同的候选实体；以下面进行了替换的句子为例，“Calcitonin injection resulted in a potentiation ofch_start C_D006220ch_end induced ds_start D_D002375ds_end.”，在这个句子里，C_D006220是一个加了前缀的药物MeSH ID，D_D002375是一个加了前缀的疾病MeSH ID；字符“start”和“end”分别表示候选实体的开始位置和结束位置；字符“ch_”和“ds_”分别表示候选实体的类别为药物和疾病；

A3、分句和对单词进行词性PoS标记：使用Stanford CoreNLP工具，完成文章的分句以及对句子中每个词的词性标记；

A4、固定文章和句子的输入长度：设定每篇文章包括m个句子，每个句子有固定长度n；m的值为所有文章具有的最大句子数，对于少于m个句子的文章，以空集补齐；n的值为所有句子中最多的单词数，对于少于n个单词的句子，用一个特殊的符号在句子后面补齐；

S3、构建领域知识：从包含药物疾病关系的相关数据库提取所有药物疾病三元关系组，构建领域知识。每个三元组包括药物MeSH ID、疾病MeSH ID和它们的关系；每个候选实例的初始知识为包含相应药物和疾病MeSH ID的三元组中的关系；

S4、构建输入向量：所述模型输入向量包括输入特征向量和知识向量，其处理方法如下：

B1、输入特征向量的构建：给定一个包含m个句子的文章D＝{S₁,S₂,…,S_i,…,S_m}，有固定长度n的每个句子可以表示为S_i＝{w₁,w₂,...,w_j,...,w_n}；联合一个词和它的词性PoS标记区分一个词在不同句子中的语义；每个单词w_j可以表示为两个特征向量：单词自身word和它的词性PoS标记，分别表示为和每个特征组有一个嵌入字典；假设是第k个特征组的嵌入字典，其中m_k是一个特征嵌入向量的维数，l_k是字典V_k包含的特征数目；每个嵌入字典中的词可以被随机初始化，或者用预先训练的词嵌入向量初始化；对一个单词w_i来说，通过查相应的嵌入字典可以映射每个特征在字典中的索引符号为一个实值行向量，从而得到单词w_i的word和词性PoS特征对应的嵌入向量和

B2、知识向量的构建：一对药物疾病从领域数据库中提取的的关系称为知识，可以表示为R＝{r₁,r₂,r₃,…,r_k}，k表示从领域数据库中可能提取的关系的最多个数；如果从领域数据库中提取某药物和疾病的关系类别数少于k，通过赋值为null将R长度补齐为k；每个知识r_j的向量表示为知识R可以表示成关系嵌入向量的数组对于步骤S3中从包含药物疾病关系相关数据库提取的所有药物疾病三元关系组，用transE工具进行训练生成知识向量嵌入字典；transE可以把大规模知识图谱中的实体和关系转换进包含潜在语义的连续向量空间；对一个知识r_j来说，通过查知识向量嵌入字典可以映射每个关系在字典中的索引符号为一个实值行向量，从而得到知识r_j对应的嵌入向量

B3、句子向量的构建：

构建向量用以表示单词w_j的语义，其中x_j∈R^d,d＝m₁+m₂，m₁和m₂分别是单词和词性PoS嵌入向量的维数；d表示向量x_j的维数，R^d表示d维的实数向量空间；“||”表示连接操作；句子S_i可以表示为单词嵌入向量形成的数组

S5、构建篇章级语义信息子网络模型：利用双向长短期记忆网络LSTM和卷积神经网络CNN建立学习文章基本语义信息的网络子模型；包括：嵌入层，双向LSTM层1，双向LSTM层2，卷积层，最大池化层、双向LSTM层3以及合并层；子网络模型的输出即合并层的输出向量D'表示文章的基本语义；

C1、学习不同粒度文本语义的双向LSTM网络：双向LSTM层采用双向LSTM网络，它由一个前向LSTM和一个后向LSTM组成；对于一篇文章的句子S_i来说，前向和后向两个LSTM在最后时刻n的输出分别为和它们连接在一起形成一个新的向量符号“||”表示连接操作，S_i'反映了句子S_i的高层语义；于是，文档D可以表示成一个句子嵌入向量的数组D^emb＝[S'₁,S'₂,...,S_i',...,S'_m]；双向LSTM层2和双向LSTM层3的网络结构与双向LSTM1相同；双向LSTM层2在时刻m的输出表示一篇文章里相关句子间基于时序上下文的高层语义D′_l；双向LSTM层3在时刻n的输出表示一篇文章的主题语义D′_t；

C2、学习句间局部依存语义的卷积神经网络CNN和最大池化层：句子间的局部特征通过作用在D^emb上的CNN来捕获，并且这个CNN带有固定大小的窗口w和f个过滤器，窗口w表示捕获相邻的w个句子的局部语义特征，其公式如下：

Z＝ReLU(WD^emb+b)

其中，W是权矩阵，b是偏置向量；ReLU是修正的线性激活函数；卷积层的作用是探测输入特征的局部连接，池化层的作用是把语义上相似的特征合并起来减少特征表示的维度；最大池化操作用来从句子间的局部依存中收集对全局重要的特征，这可以看作候选药物疾病在整篇文章中的语义表示D'_c，其体现了邻接句子间的局部上下文信息；最大池化的定义如下公式所示：

D′_c＝max Z(·,i)0≤i＜f

其中，Z(·,i)表示矩阵Z的第i列，max函数表示取第i列中的最大值；

C3、表示文章基本语义信息的合并层：合并层表示为D'＝D′_l||D'_c||D'_t，D'表示一个特定候选实例学习到的文章的基本语义信息，其为子网络模型的输出；

S6、采用Attention机制形成知识的最终表示：依赖于S5中学习到的文章基本语义信息D'，应用Attention机制到B2中的知识向量；利用一个行向量α中的每一项αj来量化知识中每个关系知识rj相对于一篇文章语义的相关程度；其中j∈[1,k]，k表示上面从领域数据库中提取的关系的最多数目；αj的定义如下公式所示：

其中，D'是S5中子网络模型的输出，是知识r_j的嵌入向量，exp表示以e为底的幂指数函数，表示从领域数据库中提取的第j'个关系知识的向量表示，s表示相关程度计算函数，其定义如下：

其中，W是需要学习的权矩阵，v是知识向量的维度，dot表示点积操作；知识中每个关系最初的嵌入向量和学到的相关程度因子αj进行面向元素的乘法从而获得知识的新表示r'_j，其定义如下：

然后，面向一对特定药物疾病的知识最终可表示为K'，K'可通过提取的知识中所有关系的累加和实现，其公式如下：

K'＝∑r′_j

S7、构建药物疾病关系分类模型：连接S6中的K'和S5中子网络模型的输出D'，得到融合知识后候选实例所在文章的表示D_s＝D'||K'，然后进行有监督学习建模；利用带有softmax函数的逻辑斯谛回归分类器作为候选实例的分类器；softmax函数以融合知识后的文章的表示D_s作为输入，其输出y表示候选实例在每个不同的关系类别标签上的概率分布；第j类标签的概率分布表示为p(y＝j|D)＝softmax(D_sW_s+b_s)，D表示给定的文章，W_s是需要学习的权矩阵，b_s是偏置向量，j表示关系类别标签索引；概率最大的类别对应的标签为候选实例的关系类型，表示为其中C是药物疾病分类可能有的标签的集合；设定用于预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数，上标k表示第k个被分类的文章，θ为模型中的所有参数，采用RMSprop优化算法(Resilient mean square propagation)来更新损失函数的参数，其训练方法如下：

D1:设置RMSprop优化算法中的参数学习率η、动量项参数β、初始速率v、梯度累计量衰减速率ρ、梯度累计量r以及最大迭代次数maxIter和最小批m。

D2:初始化梯度累计量r＝0，迭代次数iterCount＝0，初始化当前误差和上一次误差为无穷大，即currError＝lastError＝0，随机初始化参数θ；

D3:按照如下方法更新模型中的参数θ：

θ←θ+v

其中⊙表示按位计算的乘法。

D4:迭代次数iterCount加1，按照步骤S7中的损失函数计算出当前误差，若当前误差大于上一次误差即currError>lastError，或者迭代次数等于最大迭代次数即iterCount＝maxIter，则满足收敛条件转到步骤D5；否则，lastError＝currError，继续D3；

D5:保存模型中的所有参数θ到文件中。

S8、预测生物医学文献中的药物疾病关系：读取步骤D5训练得到的参数值θ传递给S7中的网络模型；提取生物医学文献中包括药物和疾病的文章并且对出现的药物和疾病标注出位置和MeSH ID，利用步骤S1中的方法构建候选实例，步骤S2中的A1方法对文章进行初始处理；然后利用步骤S2中的A2方法标记候选实体，A3方法进行分句，进而获取句子中的单词以及每个单词的词性PoS标签，A4方法对文章和句子长度进行补齐；利用步骤S3中方法获得每个候选实例在领域数据库中的初始知识；然后查相应向量字典得到这些特征的索引符号；基于输入，模型会输出每对候选实例在各个类别上的概率值，其中概率值最大的那一类即为候选实例对应的类别标签，从而得到药物疾病间的关系类型；

本发明的有益效果在于：本发明依据跨句关系的特性和文章的主题，依赖文章基本语义利用Attention机制加权领域知识表示，进而有机融合文章和知识二者的语义表示，创新性地提出了一个层次的篇章级神经网络模型进行药物疾病关系分类。仅仅利用两种输入向量，本方法能够有效地自动识别句间和句内的药物疾病实体关系，克服了现有多数系统基于传统机器学习方法利用大量特征工程的方法。此外，本发明通过Attention机制表示的领域知识可以区别不同知识对于一篇文章中出现的特殊候选实体的作用，改善了药物疾病关系抽取系统的性能，尤其对跨句关系的提取性能。对于实施例2015年BioCreative V提出的CDR挑战数据集，相对于其上现有的先进系统，本发明在主要评价指标F-score上有明显的提高，验证了本发明方法对生物医学文献中药物疾病关系分类的有效性。

附图说明

图1为本发明关系分类方法的流程示意图；

图2为本发明融合领域知识的基于神经网络的篇章级药物疾病关系分类模型示意图；

图3为本发明实施例知识Attention的可视化。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

实施例：

根据上述针对于本发明所涉及方法和系统具体实施方式的描述，结合具体实施例进行说明。

本实施例使用2015年BioCreative V提出的CDR(药物疾病关系)挑战中任务2识别药物诱发的疾病(chemical-induced disease，CID)关系提供的语料。CDR语料对1500篇文章进行了标注，包括概念级的4409种药物、5818种疾病以及3116条药物疾病关系，其规模是目前最大的药物疾病关系数据集。CDR语料包含总计1500篇仅仅包括摘要和标题的Medline文章，训练集、开发集和测试集每个数据集500篇文章。实验过程中，合并了初始的训练集和开发集以扩大训练的数据集。合并后的并集中的实例被随机地划分成10个相等子集，其中的9个子集形成新的训练集，1个子集用作新的开发集，初始的测试集不变。

基于神经网络的药物疾病关系分类方法具体步骤如下：

S1、构建药物疾病候选关系实例集：采集上述已标注的数据集，按照所述原则利用穷举法一一匹配候选实体<药物MeSH ID,疾病MeSH ID>从而产生候选实例。

S2、对生物医学文献进行文本处理：按照步骤S2所述方法，利用文本处理技术对文本进行基本文本处理、标记候选实体、分句以及对句子中的单词进行词性PoS标记，设定每篇文章的句子数m为所有文章具有的最大句子数30，对于少于30个句子的文章，以空集补齐；每个句子的固定长度n为所有句子中最多的单词数120，对于少于120个单词的句子，用空字符串在句子后面补齐。

S3、构建领域知识：从可比较的毒理基因组学数据库(comparativetoxicogenomics database，CTD)下载数据包“CTD_chemicals_diseases.xml.gz”，提取了所有药物疾病关系对(2048652对)中相应的药物MeSH ID、疾病MeSH ID和它们的关系三元组。每个候选实例的初始知识为包含相应药物和疾病MeSH ID的三元组中的关系。

(1)、词(word)嵌入向量的预训练语料(大约22G)包含两部分。一部分是来源于CDR的语料。另一部分是从PubTator下载的包括药物和疾病标注的生物概念(bioconcepts)包中的文本。PubTator是为了改善人工标注的效率和精度而构建的一个基于web的辅助生物标注系统，提供了类似PubMed的查询界面。它包含了弱标记的18410个摘要和33224个CID关系。这些摘要提取自带有文档级标注的CTD-Pfizer中，在CTD-Pfizer中对药物-疾病(drug-disease)和药物-显形(drug-phenotype)交互进行了标注。本文只利用了提供的摘要文本作为词嵌入向量的训练语料。

词性PoS训练语料随机地从上述词嵌入训练语料中选取了五分之一，然后用stanford CoreNLP完成分句和词性PoS标注。这两部分训练语料分别由开源工具word2vec采用Skip-Gram模型和负采样方法完成嵌入向量的训练。词嵌入向量的维数设置为m1＝100，词性PoS嵌入向量的维数m2设置为10。

(2)、知识向量的构建：CTD数据库提供了人工标注的药物、基因和疾病等之间的交互关系，可以从CTD中提取药物疾病三元关系组作为CDR中相应实例关系的知识初始表示。因此，下载了CTD数据库里的包“CTD_chemicals_diseases.xml.gz”，提取了所有药物疾病关系对(2048652对)中相应的药物MeSH ID、疾病MeSH ID和它们的关系三元组。此外，这些从CTD中提取的所有药物疾病三元关系组作为领域知识嵌入向量的预训练语料，由开源工具transE进行训练生成知识向量嵌入字典，知识嵌入向量的维数设置为v＝200。在CTD数据库中，药物疾病间的关系k最多为4种，如果对于一对特定的药物疾病对，从领域数据库中提取的关系数少于4，将通赋值为null的方式，将R长度补齐为4。

(3)、句子向量的构建：

连接词嵌入向量和词性PoS嵌入向量，构建向量用以表示单词w_j的语义，其中d＝110。由此，句子S_i可以表示为单词嵌入向量形成的数组

S5、构建篇章级语义信息子网络模型：把前述步骤处理过的训练集数据传递到如附图2所示的学习文章基本语义信息的子网络模型，由嵌入层获得词和词性PoS的嵌入向量表示，进而把得到的两种词向量继续传递到后续层，利用双向长短期记忆网络LSTM和卷积神经网络CNN建立学习文章基本语义信息的网络子模型。

(1)、学习不同粒度文本语义的双向LSTM网络：对于一个句子中的单词w_i来说，两个LSTM分别由前向后和由后向前收集可利用的上下文信息。LSTM的三个自适应门的计算依靠以前的状态h_t-1和当前的输入状态x_t，其公式如下所示：

i_t＝σ(W_i·x_t+U_i·h_t-1+b_i)

f_t＝σ(W_f·x_t+U_f·h_t-1+b_f)

o_t＝σ(W_o·x_t+U_o·h_t-1+b_o)

其中σ表示sigmoid函数，三个门的取值范围是[0,1]。有了三个门之后，通过以前的细胞状态C_t-1和候选状态的联合作用确定当前细胞状态C_t。LSTM单元的输出h_t是由输出门限定的细胞状态，其更新如下公式所示：

双向LSTM1在时刻n＝120的输出是两个方向上LSTM输出向量的连接其中，LSTM隐含单元数设置为与LSTM输入相同的维数110，h_n的维数为220。

双向LSTM层2和双向LSTM层3的网络结构与双向LSTM1相同；双向LSTM层2在时刻m＝30的输出表示一篇文章里相关句子间基于时序上下文的高层语义D′_l，其维数为440；双向LSTM层3在时刻n＝120的输出表示一篇文章的主题语义D′_t，其维数为220。

(2)、学习句间局部依存语义的卷积神经网络CNN和最大池化层：句子间的局部特征通过作用在D^emb上的CNN来捕获，并且这个CNN带有固定大小的窗口w＝5和f＝300个过滤器，窗口w＝5表示捕获相邻的5个句子的局部语义特征，其公式如下：

Z＝ReLU(WD^emb+b)

D′_c＝max Z(·,i)0≤i＜f

(3)、表示文章基本语义信息的合并层：合并层表示为D'＝D′_l||D'_c||D'_t，其维数为960。D'表示一个特定候选实例学习到的文章的基本语义信息，其为子网络模型的输出。

S6、采用Attention机制形成知识的最终表示：依赖于步骤S5中学习到的文章基本语义信息D'，应用Attention机制到B2中的知识向量；利用一个行向量α中的每一项来量化知识中每个关系rj相对于一篇文章语义的相关程度因子。相关程度计算函数s为知识向量的维度v＝200，点积操作用来完成公式中的计算。知识中每个关系最初的嵌入向量和学到的相关程度因子αj进行面向元素的乘法从而获得知识的新表示然后，面向一对特定药物疾病的知识最终表示可通过提取的知识中所有关系的累加和实现，表示为K'＝∑r′_j。

对于句子语料中的句子如“Synergismwas alsonotedwhenentity0wascombinedwithentity1andentity2.”，利用上面的公式α_i计算出来的词级Attention的结果如图3所示。从图中可以发现，单词“synergism”、“combined”和“when”相对于其他词有更高的Attention权值。由于两个候选实体entity0和entity1之间的真正关系是“effect”，因此，这些计算出来的Attention值是合理的。接下来，α_i作用到最初词嵌入向量上得到面向候选实体的词嵌入向量其中符号*表示按位计算的乘法。以测试集中DocID为439781的一篇文章为例，这篇文章里，消炎痛药(indomethacin)对钠减少的老鼠会诱发低血压(hypotension)。indomethacin和hypotension形成的候选对包含CTD中的4种关系。图3显示了本发明提出的模型学到的每个关系的Attention值。对于一个真正的CID关系来说，关系类型marker/mechanism的权值比其他几个关系类型的权值相对要高，这是合理的。作为比较，图3还显示了另外一个不是CID的例子(来源于Doc ID为24158386中的D002945和D006689)。从这个例子里可以看到，关系类型therapeutic具有比marker/mechanism相对更高的权值，而这个结果与文章的语义是一致的。因此，关于知识与语义的融合，本发明提出的模型通过引入Attention机制靶标文章的篇章级语义到知识表示上，从而能对不同领域知识做以区别，因此使知识能更有效地对关系抽取发挥其作用。

S7、构建药物疾病关系分类模型：用向量连接操作连接步骤S6中的K'和步骤S5中子网络模型的输出D'，得到融合知识后候选实例所在文章的表示D_s＝D'||K'，然后进行有监督学习建模；利用带有softmax函数的逻辑斯谛回归分类器作为候选实例的分类器；softmax函数以融合知识后的文章的表示D_s作为输入，其输出y表示候选实例在每个不同的关系类别标签上的概率分布；第j类标签的概率分布表示为p(y＝j|D)＝softmax(D_sW_s+b_s)，D表示给定的文章，W_s是需要学习的权矩阵，b_s是偏置向量，j表示关系类别标签索引；概率最大的类别对应的标签为候选实例的关系类型，表示为符号C＝2；设定用于预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数，上标k表示第k个被分类的文章，θ为模型中的所有参数。用RMSprop优化算法来更新损失函数的参数，其中参数学习率η＝0.001、动量项参数β＝0.9。在新开发集上进行了参数的优化和调整，保存获得的参数到文件中。

S8、预测生物医学文献中的药物疾病关系：读取步骤S7训练得到的参数值θ传递给图2中的网络模型；提取生物医学文献中包括药物和疾病的文章并且对出现的药物和疾病标注出位置和MeSH ID，利用步骤S1中的方法构建候选实例，步骤S2中的A1方法对文章进行初始处理；然后利用步骤S2中的A2方法标记候选实体，A3方法进行分句，进而获取句子中的单词以及每个单词的词性PoS标签，A4方法对文章和句子长度进行补齐；利用步骤S3中方法获得每个候选实例在CTD数据库中的初始知识；然后查相应向量字典得到这些特征的索引符号；基于输入，模型会输出每对候选实例在各个类别上的概率值，其中概率值最大的那一类即为候选实例对应的类别标签，从而得到药物疾病间的关系类型；

为了验证方法的有效性，实验选择了两类五种对比方法：

(1)基于卷积神经网络和知识的方法：Li等^[1]的系统仅仅以一种简单的方式对知识进行了融合。该系统基于距离最近出现的药物疾病文本构建了mention(出现的实体)级别的候选实例，用CNN学习句子的基本语义，用一个隐藏层把所有知识的one-hot表示转换成稠密的实值向量，然后转换后的知识与候选实例的文本语义进行连接。对不同文章中同名的药物疾病对，这个系统并没有区分CTD中不同关系类型对这些不同候选对的影响。

(2)基于SVM和知识的方法：对于挑战赛中排名第一的Xu等^[2]的系统，该系统融合了包括MeSH、SIDER、MEDI和CTD在内的四个领域资源后设计了大量的特征。Peng等^[3]的系统联合了基于规则和传统机器学习方法优势。基于规则的Lowe等^[4]的系统从包括MeSH、Disease Ontology和Wikipedia在内的三个知识来源构建了字典以方便实体到MeSH ID的映射。Alam等^[5]的系统利用了SVM和CTD数据库。基于SVM的系统没有区别CTD中不同关系对一篇特殊的文章的重要性。包括直接和间接利用的知识，这些系统探索了大量的特征(20种左右)。句子级特征包括常用的实体特征、上下文特征、依存图和语法解析树等。篇章级特征包括邻接句、统计特征和关键字等。然而，人工设计的规则和特征不仅代价巨大而且领域依存。

表1给出了包括本发明方法和5个对比方法在内的6种方法在前文所述CDR实验语料测试集上药物疾病关系分类的F-score评价指标测试结果。F-score是文本领域关系提取经常采用的标准的评价指标，它的定义如下：

其中P表示精度，R表示召回率，TP(true positives，真正正例)代表分类器预测为正例实例中实际也为正例的个数，FP(false positives，虚假正例)代表分类器预测为正例实例中实际为负例的个数，FN(false negatives，虚假负例)代表分类器预测为负例的实例中实际为正例的个数。精度P和召回率R分别考虑了算法的查准性和查全性。但这两个指标不能较全面地体现一个分类系统的性能，因此，通常用在精度P和召回率R间起到一个平衡作用的F-score(F)值来评价一个算法的整体性能。

表1中第3列表示候选实例构建所基于的文本粒度和概念级别。“Doc”表示篇章级，“Sen”表示句子级；“_E”表示基于实体的候选对，“_M”表示基于mention的候选对。表中所有的结果来自于CDR挑战后相应改善的系统。

表1不同系统在OVERALL测试集上关系分类的性能比较

除本发明的方法外，表中各比较组的具体实施方法，请参见如下文献记载：

[1]Li H,Chen Q,Tang B,et al.Chemical-induced disease extraction viaconvolutional neural networks with Attention[C].Bioinformatics andBiomedicine(BIBM),2017IEEE InternationalConferenceon.IEEE,2017:1276-1279

[2]Xu J,Wu Y,Zhang Y,et al.CD-REST:a system for extracting chemical-induced disease relationinliterature[J].Database,2016.

[3]PengY,Wei C-H,LuZ.Improving chemical disease relation extractionwith rich features and weakly labeleddata[J].Journalofcheminformatics,2016,8(1):53.

[4]Lowe D M,O’Boyle N M,Sayle R A.Efficient chemical-diseaseidentification and relationship extractionusingWikipediato improverecall[J].Database,2016.

[5]AlamF,Corazza A,Lavelli A,et al.A knowledge-poor approach tochemical-disease relation extraction[J].Database,2016.

从表1所列的实验结果可以看出本发明所提出的方法在CDR实验数据集上获得了好的综合性能，其主要评价指标F-score相对于其他方法有明显提高，验证了本发明方法对生物医学文献中药物疾病关系分类的有效性。对于融合知识的系统，本发明方法使文本与知识表示的学习过程互相依存，从而在一定程度上避免了模型在机器学习过程中孤立地学习它们的表示。

由上述方案，本发明仅仅使用了三个嵌入向量，能够自动学习药物疾病关系在篇章级别的关系(包含了跨句关系)，避免了传统方法中的特征工程。此外，由于本发明构建的模型基于整个文章，避免了基于句子级共现构建的模型为了提取跨句关系制定规则带来的不必要错误。本发明首先针对生物医学文献中的文章构建篇章级的药物疾病候选关系实例集，并且在文章中对候选药物疾病进行相应标记；然后通过构建考虑了相关句子间的邻接性、时序性和文章主题的网络子模型学习文章基本语义；依赖于学习到的语义知识构建采用Attention机制，加权领域知识形成知识的最终的表示，进而对知识和文本的语义表示进行有机融合。本发明在建立了基于神经网络的篇章级药物疾病关系分类模型的基础上，采用了Attention机制加权领域知识的方法，进而能区别不同知识对一对特殊药物疾病关系分类的影响程度，从而能高效地对包含跨句关系的生物医学文章中的药物疾病关系进行分类。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.基于神经网络的药物疾病关系分类方法，其特征在于，包括以下步骤:

S1、构建药物疾病候选关系实例集；

S2、对生物医学文献进行文本处理；

S3、构建领域知识；

S4、构建输入向量；

S5、构建篇章级语义信息子网络模型；

S6、采用Attention机制形成知识的最终表示；

S7、构建药物疾病关系分类模型；

S8、预测生物医学文献中的药物疾病关系。

2.根据权利要求1所述的基于神经网络的药物疾病关系分类方法，其特征在于，所述的步骤：

S1、构建药物疾病候选关系实例集：采集公开已标注的数据集，数据集中的文章只包含标题和摘要；对于共现在一篇文章里的所有药物和疾病实体，抽取候选实体<药物MeSH ID,疾病MeSH ID>，从而产生候选实例，其中的MeSH表示美国国立医学图书馆编制的医学主题词表，ID表示实体在MeSH中的标识符；对每对实体进行标注；

S2、对生物医学文献进行文本处理：利用文本处理技术对文本进行基本文本处理、标记候选实体、分句以及对单词进行词性PoS标记；

S3、构建领域知识：从包含药物疾病关系的相关数据库提取所有药物疾病三元关系组，构建领域知识；每个三元组包括药物MeSH ID、疾病MeSH ID和它们的关系；每个候选实例的初始知识为包含相应药物和疾病MeSH ID的三元组中的关系；

S4、构建输入向量：输入向量包括输入特征向量和知识向量，其处理方法如下：

B1、输入特征向量的构建：给定一个包含m个句子的文章D＝{S₁,S₂,…,S_i,…,S_m}，有固定长度n的每个句子表示为S_i＝{w₁,w₂,...,w_j,...,w_n}；联合一个词和它的词性PoS标记区分一个词在不同句子中的语义；每个单词w_j可以表示为两个特征向量：单词自身word和它的词性PoS标记，分别表示为和

B2、知识向量的构建：一对药物疾病从领域数据库中提取的的关系称为知识，表示为R＝{r₁,r₂,r₃,…,r_k}，k表示从领域数据库中可能提取的关系的最多个数；如果从领域数据库中提取某药物和疾病的关系类别数少于k，通过赋值为null将R长度补齐为k；每个知识r_j的向量表示为知识R表示成关系嵌入向量的数组

B3、句子向量的构建：

构建向量用以表示单词w_j的语义，其中x_j∈R^d,d＝m₁+m₂，d表示向量x_j的维数，R^d表示d维的实数向量空间；m₁和m₂分别是单词和词性PoS嵌入向量的维数；“||”表示连接操作；句子S_i表示为单词嵌入向量形成的数组

S5、构建篇章级语义信息子网络模型：利用双向长短期记忆网络LSTM和卷积神经网络CNN建立学习文章基本语义信息的网络子模型；包括：嵌入层，双向LSTM层1，双向LSTM层2，卷积层，最大池化层、双向LSTM层3以及合并层；子网络模型的输出即合并层的输出向量D'用以表示文章的基本语义；

S6、采用Attention机制形成知识的最终表示：依赖于S5中学习到的文章基本语义信息D'，应用Attention机制到步骤B2中的知识向量；利用一个行向量α中的每一项α_j来量化知识中每个关系知识r_j相对于一篇文章语义的相关程度；其中j∈[1,k]，k表示上面从领域数据库中提取的关系的最多数目；α_j的定义如下公式所示：

其中，D'是步骤S5中子网络模型的输出，是知识r_j的嵌入向量，exp表示以e为底的幂指数函数，s表示相关程度计算函数，表示从领域数据库中提取的第j'个关系知识r_j'的向量表示，其定义如下：

其中，W是需要学习的权矩阵，v是知识向量的维度，dot表示点积操作；知识中每个关系最初的嵌入向量和学到的相关程度因子α_j进行面向元素的乘法从而获得知识的新表示r'_j，其定义如下：

然后，面向一对特定药物疾病的知识最终表示为K'，K'通过提取的知识中所有关系的累加和实现，其公式如下：

K'＝∑r′_j

S7、构建药物疾病关系分类模型：用向量连接操作连接步骤S6中的K'和步骤S5中子网络模型的输出D'，得到融合知识后的候选实例所在文章的表示D_s＝D'||K'，然后进行有监督学习建模；利用带有softmax函数的逻辑斯谛回归分类器作为候选实例的分类器；softmax函数以融合知识后的文章的表示D_s作为输入，其输出y表示候选实例在每个不同的关系类别标签上的概率分布；第j类标签的概率分布表示为p(y＝j|D)＝soft max(D_sW_s+b_s)，D表示给定的文章，W_s是需要学习的权矩阵，b_s是偏置向量，j表示关系类别标签索引；概率最大的类别对应的标签为候选实例的关系类型，表示为其中C是药物疾病分类可能有的标签的集合；设定用于预测误差的损失函数为交叉熵损失函数l是训练集中标注的样本数，上标k表示第k个被分类的文章，θ为模型中的所有参数；

S8、预测生物医学文献中的药物疾病关系：利用步骤S1中的方法构建候选实例，步骤S2中的A1方法对文章进行初始处理；然后利用步骤S2中的A2方法标记候选实体，A3方法进行分句，进而获取句子中的单词以及每个单词的词性PoS标签，A4方法对文章和句子长度进行补齐；利用步骤S3中方法获得每个候选实例在领域数据库中的初始知识；然后查相应向量字典得到这些特征的索引符号；基于输入，模型会输出每对候选实例在各个类别上的概率值，其中概率值最大的那一类即为候选实例对应的类别标签，从而得到药物疾病间的关系类型。

3.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于步骤S1中，所述的对每对实体进行标注的具体方法为，每个候选对被标注为正例还是负例，主要依赖于：这个候选对是否在一篇文章里已经被标注，如果已经标注为药物诱发疾病关系则为正例，否则为负例；限制句间的候选对应为连续的K个句子之间的实体对，对于超出句子跨度K的候选实例标定为负例。

4.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于步骤S2中，所述的基本文本处理、标记候选实体、分句以及对单词进行词性PoS标记，其处理方法为：

A2、标记候选实体：在候选实体前后添加特殊的符号以突出不同的候选实体；以下面进行了替换的句子为例，“Calcitonin injection resulted in a potentiation of ch_start C_D006220 ch_end induced ds_start D_D002375 ds_end.”，在这个句子里，C_D006220是一个加了前缀的药物MeSH ID，D_D002375是一个加了前缀的疾病MeSH ID；字符“start”和“end”分别表示候选实体的开始位置和结束位置；字符“ch_”和“ds_”分别表示候选实体的类别为药物和疾病；

A4、固定文章和句子的输入长度：设定每篇文章包括m个句子，每个句子有固定长度n；m的值为所有文章具有的最大句子数，对于少于m个句子的文章，以空集补齐；n的值为所有句子中最多的单词数，对于少于n个单词的句子，用一个特殊的符号在句子后面补齐。

5.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于，步骤S4中，步骤B1所述的和获取方法如下：

每个特征组有一个嵌入字典；假设是第k个特征组的嵌入字典，其中m_k是一个特征嵌入向量的维数，l_k是字典V_k包含的特征数目；每个嵌入字典中的词被随机初始化，或者用预先训练的词嵌入向量初始化；对一个单词w_i来说，通过查相应的嵌入字典可以映射每个特征在字典中的索引符号为一个实值行向量，从而得到单词w_i的word和词性PoS特征对应的嵌入向量和

6.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于，步骤S4中，步骤B2所述的知识r_j的向量表示的获取方法如下：

从包含药物疾病关系相关数据库提取的所有药物疾病三元关系组，用transE工具进行训练，生成知识向量嵌入字典；对一个知识r_j来说，通过查知识向量嵌入字典可以映射每个关系在字典中的索引符号为一个实值行向量，从而得到知识r_j对应的嵌入向量

7.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于，在步骤S5中，双向LSTM层采用双向LSTM网络，它由一个前向LSTM和一个后向LSTM组成；对于一篇文章的句子S_i来说，前向和后向两个LSTM在最后时刻n的输出分别为和它们连接在一起形成一个新的向量符号“||”表示连接操作，S′_i反映了句子S_i的高层语义；于是，文档D表示成一个句子嵌入向量的数组D^emb＝[S'₁,S'₂,...,S′_i,...,S'_m]；双向LSTM层2和双向LSTM层3的网络结构与双向LSTM1相同；双向LSTM层2在时刻m的输出表示一篇文章里相关句子间基于时序上下文的高层语义D′_l；双向LSTM层3在时刻n的输出表示一篇文章的主题语义D′_t。

8.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于，在步骤S5中卷积层和最大池化层表示如下：句子间的局部特征通过作用在D^emb上的CNN来捕获，并且这个CNN带有固定大小的窗口w和f个过滤器，窗口w表示捕获相邻的w个句子的局部语义特征，其公式如下：

Z＝ReLU(WD^emb+b)

其中，W是权矩阵，b是偏置向量；ReLU是修正的线性激活函数；卷积层的作用是探测输入特征的局部连接，池化层的作用是把语义上相似的特征合并起来减少特征表示的维度；最大池化操作用来从句子间的局部依存中收集对全局重要的特征，看作是候选药物疾病在整篇文章中的语义表示D'_c，其体现了邻接句子间的局部上下文信息；最大池化的定义如下公式所示：

D′_c＝max Z(·,i)0≤i＜f

其中，Z(·,i)表示矩阵Z的第i列，max函数表示取第i列中的最大值。

9.根据权利要求2所述的基于神经网络的药物疾病关系分类方法，其特征在于，在步骤S7中，采用RMSprop优化算法来更新损失函数。