CN109284398A

CN109284398A - 一种改进双向gru和注意力模型的实体关系抽取方法

Info

Publication number: CN109284398A
Application number: CN201811150004.2A
Authority: CN
Inventors: 金勇�; 谢先招
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-01-29

Abstract

本发明公开了一种改进双向GRU和注意力模型的实体关系抽取方法，包括以下步骤：S1、获取输入的文本；S2、对输入的文本进行断句处理；S3、保留相关人名的实体句子，剔除没有人名的部分；S4、利用人名识别算法识别人名，以使实体名称不变；S5、利用#替换人名，以使实体位置不变；S6、利用深度学习方法训练关系抽取模型；本发明对双向GRU和注意力机制模型的训练数据做了适当处理，充分考虑了中文字向量在人名表达中的局限性，使得改进的人物关系挖掘方法效果更好。

Description

一种改进双向GRU和注意力模型的实体关系抽取方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种改进双向GRU和注意力模型的实体关系抽取方法。

背景技术

自然语言处理是目前人工智能领域很重要的研究课题，其中关系抽取是构建知识图谱等上层自然语言处理应用的基础。监督性关系挖掘方法在目前被认为是抽取效果较好的一种方法，它是将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。基于开源项目工程(中文信息抽取，双向GRU和注意力模型)：https://github.com/thunlp/TensorFlow-NRE，此方法将主要学习人物实体之间的关系，主要涉及12类人物关系，包括“父母”，“夫妻”，“祖孙”，“师生”，“兄弟姐妹”，“合作”，“情侣”，“好友”，“亲戚”，“同门”，“上下级”，以及“unknown”。但是此方法存在一定的局限性。

因此，本发明基于此深度学习方法提出了一种改进的方法，使得人物关系的抽取效果达到更好，从而有效的从大量文本中挖掘人物实体关系信息，为知识图谱的建设提供支持，从而提升业务应用价值。

发明内容

为了解决上述现有技术的问题，本发明提供一种能够提高正确率的基于对偶神经网络模型的文本情感分类方法。

本发明解决其技术问题所采用的技术方案是：

一种改进双向GRU和注意力模型的实体关系抽取方法，包括以下步骤：

S1、获取输入的文本；

S2、对输入的文本进行断句处理；

S3、保留相关人名的实体句子，剔除没有人名的部分；

S4、利用人名识别算法识别人名，以使实体名称不变；

S5、利用#替换人名，以使实体位置不变；

S6、利用深度学习方法训练关系抽取模型。

本发明进一步改进在于，所述步骤S2中断句处理为，对输入的文本做标点符号的切割。

本发明进一步改进在于，所述步骤S3中通过对断句处理后的文本进行人名实体识别，选取只包含人名实体的句子集。

本发明进一步改进在于，所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤；

所述姓名抽取步骤为：利用姓名字典和分词词典，对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合；

所述姓名消歧步骤为：针对初始姓名及分词的集合，按最小间隙建立邻接矩阵，利用Floyd算法计算从开始到末尾的最短路径，判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。

与现有技术相比，本发明的有益效果是：

本发明对双向GRU和注意力机制模型的训练数据做了适当处理，充分考虑了中文字向量在人名表达中的局限性，使得改进的人物关系挖掘方法效果更好。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种改进双向GRU和注意力模型的实体关系抽取方法，包括以下步骤：

S1、获取输入的文本；

S2、对输入的文本进行断句处理；

S3、保留相关人名的实体句子，剔除没有人名的部分，提高针对性；

S4、利用人名识别算法识别人名，以使实体名称不变；

S5、利用#替换人名，以使实体位置不变；

S6、利用深度学习方法训练关系抽取模型。

具体实施时，所述步骤S2中断句处理为，对输入的文本做标点符号的切割。

具体实施时，所述步骤S3中通过对断句处理后的文本进行人名实体识别，选取只包含人名实体的句子集。

具体实施时，所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤；

本发明提供的方法是基于双向GRU和注意力机制模型的关系抽取方法在不改变任何实验条件的前提下进行的，准确率大约为70％，本发明充分考虑句子长度变化容易引起的语义混淆，以及中文字向量在人名中的解释局限性，主要从如下三方面对此进行改进从而提升关系抽取的效果：

(1)句子长度不可变。此方法中当两个人物出现在不同长度的文本中，关系可能会变化。反之，句子长度的变化不应直接引起关系的变化。如：文本“1936年8月27日，赵兰坤在西安生下连震东”的“赵兰坤”和“连震东”和另一个文本“1936年8月27日，中华人民共和国张遭遇最危难时刻，赵兰坤在西安生下连震东”中的关系不一致，但实际上应该是一致的。本文提出了一种分句处理的方法解决此问题。具体如下：

a)对输入的文本做标点符号的切割，如文本1切分为{s1，s2}，文本2切分为{s1’，s2’，s3’}

b)对文本经过a)处理后，对文本进行人名实体识别，选取只包含人名实体的句子集，因此得到的预处理后的文本1为{s1，s2}，文本2为{s1’，s3’}；

通过上述处理后得到的关系抽取结果是一致的。

(2)实体名称不可变。当语言环境不改变，而实体名称改变时，关系可能会变化。反之，实体名称的改变在相同的语言环境下应该不影响实体之间的关系。例如，在两端文本句子“赵幂与陈小威的细节显示两人已结婚”和“刘花与李晓阳的细节显示两人已结婚”中，“赵幂”和“陈小威”的关系与“刘花”和“李晓阳”关系不一致，但是实际上都是夫妻关系。产生此不一致的根本原因是人名中的每个字对应的字向量是没有意义的，需要特别处理。本发明的处理办法是：对文本处理后包含实体的句子进行人名实体识别，并将实体1和实体2分别以#代替，文本1经过处理后得到的句子集{s1＝‘##与###细节暴露两人婚姻’}，文本2经过处理后得到的句子集{s1’＝‘##与###细节暴露两人婚姻’}，即人名对于实际语言环境不产生任何影响。

通过此处理后得到的关系抽取结果是一致的。

(3)实体位置不可变。当语言环境不变，只改变实体在文中的位置，实体关系类型可能会变化。反之，实体的位置颠倒只可能会引起实体关系的反转，而不会引起关系类型的变化。例如，“赵兰坤在西安生下连震东”与“连震东在西安生下赵兰坤”，不做任何处理的情况下前者“赵兰坤”与“连震东”是父母关系，而后者是夫妻关系，而实际两者关系类型都属于父母关系。产生本情形的原因与(2)类似，处理办法也类似，将姓名的中文字符用‘#’代替。通过处理后得到的关系抽取结果也保持一致。

作为本发明一个较佳的实施例，所述人名识别算法在实施时，所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。

所述姓名抽取具体步骤包括：

a、利用结巴分词对输入的文本进行精确模式分词，并取出词性为nr的词作为候选姓名集，记为list1；

b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集，记为list2；

c、利用结巴分词对文本进行搜索引擎模式分词，得到分词集合，记为list3；

d、将list1～list3组合成一个list，并按list中词语的位置及词语长度进行排序，排序规则为，按位置升序，按长度降序。

所述姓名消岐步骤包括：

e、将步骤d得到的所有list按最小间隙建立邻接矩阵；

f、根据邻接矩阵，利用Floyd算法计算从文本起点单词到末尾单词所在位置的最小距离，达到姓名消歧的效果，同时抽取出最准确的姓名。

在上述方案的基础上，对于输入文本“欧阳春艳是新闻网的记者”，利用本发明中的人名识别过程进行说明如下：

(1)、首先利用结巴分词对文本进行分词，取得词性为“nr”的词语作为候选人名(结巴分词结果出现多个词性，是加入用户词典所致，不影响结果)；

分词结果为：[pair('欧阳春','nr'),pair('艳','a'),pair('是','v'),pair('新闻网','n\n'),pair('的','uj'),pair('记者','n\n')]，

取出人名：list1＝[(0,'欧阳春')]；

(2)、利用姓氏及姓名字典得到所有姓名候选集：

list2＝[(0,'欧阳春艳'),(0,'欧阳春')]；

(3)、利用结巴搜索引擎模式分词得到分词集合：

list3＝[(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')]；

(4)、对list1～list3组合排序(去重)：

list＝[(0,'欧阳春艳'),(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')]；

(5)、根据最小间隙对list建立邻接矩阵，如表1所示：

表1

其中，表中数值表示词i到词j的间隔，999表示不可到达。

(6)、利用Floyd算法计算最小距离为0，其对应的最佳路径为[0,5,6,8,9]，数值表示矩阵的第i行(列)，则对应的最佳分词组合为：[(0,'欧阳春艳'),(4,'是'),(5,'新闻网'),(8,'的'),(9,'记者')]，消除了“欧阳春”的干扰信息，得到最终的人名为：[(0,'欧阳春艳')]。

本发明实验中采用上述改进的双向GRU和注意力机制模型进行关系挖掘，对于约80000条标注数据，取80％为训练数据，剩下的20％为测试数据，经过测试，关系抽取的准确率从初始的70％提高到86％左右，具体实验流程如图1。

该方法对双向GRU和注意力机制模型的训练数据做了适当处理，充分考虑了中文字向量在人名表达中的局限性，使得改进的人物关系挖掘方法效果更好。本发明提供了一种较简单的方法来改进现有的深度学习模型，效果较之前有明显提升，进而为知识工程建设提供了有利的技术支撑。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种改进双向GRU和注意力模型的实体关系抽取方法，其特征在于，包括以下步骤：

S1、获取输入的文本；

S2、对输入的文本进行断句处理；

S3、保留相关人名的实体句子，剔除没有人名的部分；

S4、利用人名识别算法识别人名，以使实体名称不变；

S5、利用#替换人名，以使实体位置不变；

S6、利用深度学习方法训练关系抽取模型。

2.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法，其特征在于：所述步骤S2中断句处理为，对输入的文本做标点符号的切割。

3.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法，其特征在于：所述步骤S3中通过对断句处理后的文本进行人名实体识别，选取只包含人名实体的句子集。

4.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法，其特征在于：所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤；