CN114048727B

CN114048727B - 一种面向医学领域的关系抽取方法

Info

Publication number: CN114048727B
Application number: CN202111383236.4A
Authority: CN
Inventors: 李瑞瑞; 于沛; 赵伟
Original assignee: Beijing Futong Oriental Technology Co ltd
Current assignee: Beijing Futong Oriental Technology Co ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-07-29
Anticipated expiration: 2041-11-22
Also published as: CN114048727A

Abstract

公开了一种面向医学领域的关系抽取方法，包括：S1：设置关系抽取模型的超参数；S2：获取待抽取关系的语句；S3：对待抽取关系的语句进行向量化，得到语句向量化结果；S4：将语句向量化结果输入关系抽取模型；S5：得到关系抽取结果。通过上述方式，能够从海量的非结构化文本中抽取出有用的信息并转化成三元组格式，与知识图谱格式相同，为医疗知识图谱补充结构化数据。

Description

一种面向医学领域的关系抽取方法

技术领域

所述涉及关系抽取领域，特别是涉及一种面向医学领域的关系抽取方法。

背景技术

在智慧医疗中，知识图谱作为一种语义网络拥有极强的表达能力和建模灵活性，提供了实体之间复杂的语义关联，有助于提升系统的准确性、多样性和可解释性。医疗知识图谱的构建需要大量的结构化数据，而在现实生活中，能够获取的数据都是非结构化数据，这时就需要用到信息抽取技术。

信息抽取在自然语言处理中是一项很重要的工作，特别是在当今信息爆炸的背景下，从海量的非结构化文本中抽取出有用的信息，并结构化成下游任务可用的格式，这是信息抽取的存在意义。信息抽取又可分为命名实体识别、关系抽取以及事件抽取等。其中，关系抽取可以简单理解为一个分类问题：给定两个实体和两个实体共同出现的句子文本，来判别两个实体之间的关系。其得到的结果是三元组格式，与知识图谱格式相同。

深度学习深入影响了NLP的各个方向，极大推动了NLP的发展。目前，面向自然语言文本序列已经有很多神经网络模型，例如循环神经网络（RNN、LSTM、GRU）、卷积神经网络（CNN）和Transformer等，这些模型可以很好地完成关系抽取任务。由于RNN结构较简单，在反向传播过程中，存在梯度爆炸和梯度消失问题，当序列过长时，会遗忘前面传过来的信息。

发明内容

本发明主要解决的技术问题是提供一种面向医学领域的关系抽取方法，能够解决RNN中经常遇到梯度消失和梯度爆炸和难以捕捉长期依赖关系的问题。

为解决上述技术问题，所述采用的一个技术方案是：提供一种面向医学领域的关系抽取方法，包括：

S1：设置关系抽取模型的超参数；

S2：获取待抽取关系的语句；

S3：对待抽取关系的语句进行向量化，得到语句向量化结果；

S4：将语句向量化结果输入关系抽取模型；

S5：得到关系抽取结果。

进一步的，所述超参数，包括：

词向量大小、关系类别数目、GRU神经元数目、语句最大长度和位置编码最大长度。

进一步的，所述待抽取关系的语句，由用户输入，格式为：

实体1实体2语句，

所述实体及语句间使用空格进行间隔。

进一步的，所述对待抽取关系的语句进行向量化，包括：

S31：读取词向量表并进行编码，用字典储存；

S32：对关系类别进行编码，用字典储存；

S33：根据语句最大长度创建空列表；

S34：获取空字符编码以及待抽取关系的语句中实体1、实体2与当前位置的位置编码；

S35：按词对待抽取关系的语句进行遍历，若该词不在词向量表中，则将原有的空字符编码替换为未登录字符编码；若该词在词表中，则将原有的空字符编码替换为该词在词向量表中所对应的编码；

S36：得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量。

进一步的，所述关系抽取模型，包括：

输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层和关系类别层；

所述输入层，输入格式为句子；

所述Bi-GRU+字符级Attention层，选择Bi-GRU模型，对语句中的每一个中文字符输入进行字符级embedding以及加入字符级Attention；

所述输出层，对每个输入序列输出一个关系；

所述语句级Attention层，针对每个关系类别的所有语句进行向量化，并加入语句级Attention，同时对关系类别设置权重；

所述关系类别层，输出label结果；

所述权重，代表该语句包含着该关系的可能性。

进一步的，所述字符级Attention，

将由Bi-GRU模型产生的输出向量定义为

，其中

为语句长度；

语句的关系类别

由所述输出向量的加权和构成：

，

，

，

最后得到用于分类的语句对表示：

。

进一步的，所述语句级Attention，

给定包含一个实体和n个语句的集合

,将n个语句向量化表示为

，加入语句级Attention时，权重定义为：

，

，

，

其中，函数

体现了语句对于该关系的匹配程度，

为语句向量，

表示权重

的对角矩阵，即矩阵

的主对角线元素为权重

的元素值，其他位置的元素均为0；

代表该关系的向量；

得到语句集合向量后，再通过一层网络得到语句对表示：

；

其中，

是所有实体关系的向量所组成的矩阵，

为随机初始化的偏置向量。

本发明的有益效果是：通过使用双向门控循环单元（Bi-GRU）代替传统的RNN，并采用双重Attention，从而提高RNN的编码能力和关系抽取结果的准确性。

附图说明

图1是一种面向医学领域的关系抽取方法的流程图；

图2是一种面向医学领域的关系抽取方法的整体框架图；

图3 是一种面向医学领域的关系抽取方法的双向门控循环单元。

具体实施方式

下面结合附图对所述的较佳实施例进行详细阐述，以使所述的优点和看特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1和图2，所述实施例包括：

为解决上述技术问题，所述的采用的一个技术方案是：提供种面向医学领域的关系抽取方法，包括：

S1：设置关系抽取模型的超参数；

S2：获取待抽取关系的语句；

S4：将语句向量化结果输入关系抽取模型；

S5：得到关系抽取结果。

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述超参数，包括：

词向量大小、关系类别数目、GRU神经元数目、语句最大长度、位置编码最大长度。

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述待抽取关系的语句，由用户输入，格式为：

实体1实体2语句，

所述实体及语句间使用空格进行间隔。

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述对待抽取关系的语句进行向量化，包括：

S31：读取词向量表并进行编码，用字典储存；

S32：对关系类别进行编码，用字典储存；

S33：根据语句最大长度创建空列表；

S34：获取空字符编码以及待抽取关系的语句中两实体与当前位置的位置编码；

S35：按词对待抽取关系的语句进行遍历，若该词不在词表中，则将原有的空字符编码替换为未登录字符编码；若该词在词表中，则将原有的空字符编码替换为该词在词表中所对应的编码；

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述关系抽取模型，包括：

输入层、Bi-GRU+字符级Attention层、输出层、语句级Attention层、关系类别层；

所述输入层，输入格式为句子；

所述输出层，对每个输入序列输出一个关系；

所述关系类别层，输出label结果；

所述权重，代表该语句包含着该关系的可能性。

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述字符级Attention，

将由Bi-GRU模型产生的输出向量定义为

，其中

为语句长度；

语句的关系类别

由所述输出向量的加权和构成：

，

，

，

最后得到用于分类的语句对表示：

。

进一步地，所述语句级Attention，

给定包含一个实体和n个语句的集合

,将n个语句向量化表示为

，加入语句级Attention时，权重定义为：

，

，

，

其中，函数

体现了语句对于该关系的匹配程度，

为语句向量，

表示权重

的对角矩阵，即矩阵

的主对角线元素为权重

的元素值，其他位置的元素均为0；

代表该关系的向量；

得到语句集合向量后，再通过一层网络得到语句对表示：

；

其中，

是所有实体关系的向量所组成的矩阵，

为随机初始化的偏置向量。

在另一个实施例中，以一个具体实例对本方法进行说明：

提供一种面向医学领域的关系抽取方法，包括：

S1：设置关系抽取模型的超参数；

S2：获取待抽取关系的语句；

S4：将语句向量化结果输入关系抽取模型；

S5：得到关系抽取结果。

在本实施例中，各个超参数分别设置为：

词向量大小vocab：16693词；

关系类别数目num_classes：5个；

GRU神经元数目：230个；

句子最大长度：70字；

位置编码最大长度：60字；

实体1实体2语句，

所述实体及语句间使用空格进行间隔。

S31：读取词向量表并进行编码，用字典储存；

在本实施例中，对词向量表进行读取，并且对其进行编码，即16693个词分别记为

，还需增加空字符和未登录词字符编码，分别记为16693和16694，用字典存储；

S32：对关系类别进行编码，用字典储存；

在本实施例中，对五种关系类别进行编码，记为

，用字典存储；

S33：根据语句最大长度创建空列表；

所述输入层，输入格式为句子；

所述输出层，对每个输入序列输出一个关系；

所述关系类别层，输出label结果；

所述权重，代表该语句包含着该关系的可能性。

将由Bi-GRU模型产生的输出向量定义为

，其中

为语句长度；

语句的关系类别

由所述输出向量的加权和构成：

，

，

，

最后得到用于分类的语句对表示：

。

进一步地，所述的一种面向医学领域的关系抽取方法，其特征在于，所述语句级Attention，

给定包含一个实体和n个语句的集合

,将n个语句向量化表示为

，加入语句级Attention时，权重定义为：

，

，

，

其中，函数

体现了语句对于该关系的匹配程度，

为语句向量，

表示权重

的对角矩阵，即矩阵

的主对角线元素为权重

的元素值，其他位置的元素均为0；

代表该关系的向量；

得到语句集合向量后，再通过一层网络得到语句对表示：

；

其中，

是所有实体关系的向量所组成的矩阵，

为随机初始化的偏置向量。

以上所述仅为所述的实施例，并非因此限制本所述的专利范围，凡是利用所述说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在所述的专利保护范围内。

Claims

1.一种面向医学领域的关系抽取方法，包括：

S1：设置关系抽取模型的超参数，包括：词向量大小、关系类别数目、GRU神经元数目、语句最大长度和位置编码最大长度；

S2：获取待抽取关系的语句；

S4：将语句向量化结果输入关系抽取模型；

S5：得到关系抽取结果；

所述待抽取关系的语句，由用户输入，格式为：

实体1实体2语句，

所述实体及语句间使用空格进行间隔；

所述对待抽取关系的语句进行向量化，包括：

S31：读取词向量表并进行编码，用字典储存；

S32：对关系类别进行编码，用字典储存；

S33：根据语句最大长度创建空列表；

S36：得到待抽取关系的语句每个词对应编码的向量、待抽取关系的语句中每个位置对应实体1的向量、待抽取关系的语句中每个位置对应实体2的向量；

所述关系抽取模型，包括：

所述输入层，输入格式为句子；

所述输出层，对每个输入序列输出一个关系；

所述关系类别层，输出label结果；

所述权重，代表该语句包含着该关系的可能性。

2.如权利要求1所述的一种面向医学领域的关系抽取方法，其特征在于，所述字符级Attention，

将由Bi-GRU模型产生的输出向量定义为

，其中

为语句长度；

语句的关系类别

由所述输出向量的加权和构成：

；

；

；

最后得到用于分类的语句对表示：

。

3.如权利要求1所述的一种面向医学领域的关系抽取方法，其特征在于，所述语句级Attention，

给定包含一个实体和n个语句的集合

,将n个语句向量化表示为

，加入语句级Attention时，权重定义为：

；

；

；

其中，函数

体现了语句对于该关系的匹配程度，

为语句向量，

表示权重

的对角矩阵，即矩阵

的主对角线元素为权重

的元素值，其他位置的元素均为0；

代表该关系的向量；

得到语句集合向量后，再通过一层网络得到语句对表示：

；

其中，

是所有实体关系的向量所组成的矩阵，

为随机初始化的偏置向量。