CN111276258A

CN111276258A - 一种基于领域知识的药物致病关系抽取方法

Info

Publication number: CN111276258A
Application number: CN202010039800.XA
Authority: CN
Inventors: 杨志豪; 李智恒
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12
Anticipated expiration: 2040-01-15
Also published as: CN111276258B

Abstract

本发明属于生物医学文本挖掘技术领域，一种基于领域知识的药物致病关系抽取方法，包括以下步骤：(1)处理药物致病关系数据集，(2)构建领域知识集合，(3)根据领域知识构建实体‑关系图，(4)实例中词语的向量表示，(5)搭建KB‑GCN神经网络模型。本发明一种基于领域知识的药物致病关系抽取方法切实可行且结构清晰，具有参考价值。本发明适应于应用数据库中的领域知识从生物医学文本中自动的识别药物致病关系，将有助于构建药物致病数据库，辅助药物副作用预测等方面中的应用。

Description

一种基于领域知识的药物致病关系抽取方法

技术领域

本发明涉及一种基于领域知识的药物致病关系抽取方法，属于生物医学文本挖掘技术领域。

背景技术

药物致病是指人在服用某种药物期间由于药物副作用导致某种疾病或病症的过程。药物致病关系的研究在药物开发、测试及服用阶段受到广发的关注。同时，以比较毒理基因组学数据库为例，其中人为的收录了一些已知的药物导致疾病的关系信息。此外，仍然有许多药物致病关系的描述存在于大量的生物医学文献中。这些药物致病关系对于扩充病理毒理相关数据库、指导药物研发与测试具有重大的理论价值和使用价值。

通过人工方法阅读生物医学文献并从中抽取出药物致病关系，需要生物医学背景知识的支持。这种人工抽取的方法耗时耗力且成本昂贵。随着文本挖掘技术的发展，利用机器学习的方法可以自动地从海量生物医学文本中抽取出药物致病关系。机器学习将药物致病关系抽取任务看作一个分类问题，该方法可以通过对人工标注的有限数量的训练样本进行建模，通过多轮迭代的训练方法得到模型，并应用在测试语料上。机器学习方法与人工方法相比具有成本低、效率高的优势。但是，现有机器学习方法往往忽略了已有数据库中的领域知识，关系抽取的准确率和召回率都有待提升。

发明内容

针对现有技术中存在的不足，本发明目的是提供一种基于领域知识的药物致病关系抽取方法。该方法可以通过对人工标注的有限数量的训练样本进行建模，通过多轮迭代的训练方法得到模型，并应用在测试语料上，克服了人工抽取的方法耗时、耗力且成本昂贵的问题。

为了实现上述发明目的，解决已有技术中存在的问题，本发明采取的技术方案是：一种基于领域知识的药物致病关系抽取方法，包括以下步骤：

步骤1、处理药物致病关系数据集，从已有的药物致病关系抽取评测任务中收集药物致病关系数据集，数据集中已标注出药物实体和疾病实体，以句子为单位，将药物实体与疾病实体组成实体对，按照训练集中标注的关系，处理成句子级别的实例，再将实例进行去重，词干化，去停用词，确定每个词语相对于实体的位置信息，最终得到句子级别的训练集；

步骤2、构建领域知识集合，将训练实例中的药物实体和疾病实体进行统计，并在比较毒理基因组学数据库中找到相关实体信息，获得与训练集中的实体相关的药物实体和疾病实体，并组成药物-疾病关系对，由于比较毒理基因组学数据库中记录了药物和疾病的诱导关系，因此，组成的药物-疾病关系对为药物致病关系对；除此之外，比较毒理基因组学数据库中还记录了基因、蛋白质和药物、疾病之间的关系，抽取出所有的关系，以三元组的形式构建成领域知识集合；

步骤3、根据领域知识构建实体-关系图，对于每一个实例，首先利用命名实体识别工具识别出句子中的所有基因、蛋白质实体，识别出的基因、蛋白质实体和数据集中预标的药物、疾病实体由多个词语组成，对于多个词语组成的命名实体，在实例中用边将实体名称与组成该实体名称的词语连接起来，形成实体图；另外，将实例中的所有实体进行两两组队，若两个实体组成的实体对出现在领域知识集合中，则将实例中这两个实体之间构建一条边，由此，得到以实例中所有词语和实体名称短语为节点，实体内部和实体间的关系作为边的图；

步骤4、实例中词语的向量表示，利用无监督训练模型对实例中的词语进行分布式表示，将实例中的每个词语表示为向量形式，作为词向量，具体作法为：对于实例中的每个词语定义一个d维实数向量，每一维实数向量为一个变量，每个词语与其前后k个词组成词语序列，其中d、k为自然数，使用Skip-Gram模型，将d维实数向量作为Skip-Gram模型的输入变量，通过损失函数和求导公式对Skip-Gram模型中的参数与输入变量进行更新，最后，将更新后得到的d维实数向量作为当前词语的词向量；除了词语的词向量之外，词语的位置向量也很重要，根据步骤1得到的每个词语相对于实体的位置信息，随机初始化成位置向量，拼接在词向量后面，得到词语的向量表示；

步骤5、搭建KB-GCN神经网络模型，具体包括以下子步骤：

(a)、确定KB-GCN神经网络模型的整体结构，该模型由基于双向长短时记忆神经网络的句子序列编码层，基于图神经网络的关系图编码层及在特征融合层后置softmax分类层所构成，最终得到药物致病关系的预测结果；

(b)、搭建基于双向长短时记忆神经网络LSTM的编码层，该编码层包含一个正向和一个反向的长短时记忆神经网络结构，用于对词语进行编码，然后通过双向的长短时记忆神经网络的最终时刻的向量拼接得到编码后的文本特征表示，基于双向长短时记忆神经网络编码层对词语进行编码的过程通过公式(1)-(3)进行描述，

式中，LSTM^f()表示正向的长短时记忆神经网络，LSTM^b()表示反向的长短时记忆神经网络，w_t ^emb为第t个词的向量表示，其中包括预训练的词向量和随机初始化的位置向量，h^f _t-1为第t-1个词的正向隐层表示，h^b _t+1为第t+1个词的反向隐层表示，

为第t个词的正向的隐层表示，h_t ^b为第t个词的反向的隐层表示，H_s表示实例的句子序列向量；

(c)、搭建基于图神经网络的关系图编码层，该编码层包含两个图卷积神经网络GCN层，用于对结合领域知识构建的实体-关系图进行编码，该编码层的过程通过公式(4)进行描述，

式中，A_ij表示图的邻接矩阵，W^(l)表示权重矩阵，b^(l)表示权重向量，ρ表示RELU激活函数，g_i ^(l)为第l层图卷积神经网络中第i个节点的向量表示，由于图中的每个节点即为输入句子中的词语，得到每个节点的编码表示之后，对整个图沿句子长度进行最大池化操作，最终得到图的整体表示，通过公式(5)进行描述，

G_i＝max(g_i) (5)

式中，g_i表示节点向量中的第i维度数值，G_i表示该维度数值中的最大值，将每一维度的表示进行拼接，即可得到图的整体表示G_s；

(d)、对基于双向长短时记忆神经网络LSTM的编码层和基于图神经网络的关系图编码层得到的特征向量进行拼接，通过线性映射操作以及使用softmax函数进行归一化处理，得到该输入实例的分类结果，通过公式(6)进行描述，

y_s＝Softmax(W[H_s；G_s]) (6)

式中，y_s表示KB-GCN神经网络模型的输出向量，向量的每个值表示该词语属于每个标签的概率，通过对输出向量y_s进行argmax操作得到最终分类的预测结果。

本发明有益效果是：一种基于领域知识的药物致病关系抽取方法，包括以下步骤：(1)处理药物致病关系数据集，(2)构建领域知识集合，(3)根据领域知识构建实体-关系图，(4)实例中词语的向量表示，(5)搭建KB-GCN神经网络模型。与已有技术相比，本发明一种基于领域知识的药物致病关系抽取方法切实可行且结构清晰，具有参考价值。本发明适应于应用数据库中的领域知识从生物医学文本中自动的识别药物致病关系，将有助于构建药物致病数据库，辅助药物副作用预测等方面中的应用。

附图说明

图1是本发明方法步骤流程图。

图2是本发明中的KB-GCN神经网络模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于领域知识的药物致病关系抽取方法，包括以下步骤：

步骤5、搭建KB-GCN神经网络模型，具体包括以下子步骤：

G_i＝max(g_i) (5)

y_s＝Softmax(W[H_s；G_s]) (6)