CN109284398A - 一种改进双向gru和注意力模型的实体关系抽取方法 - Google Patents
一种改进双向gru和注意力模型的实体关系抽取方法 Download PDFInfo
- Publication number
- CN109284398A CN109284398A CN201811150004.2A CN201811150004A CN109284398A CN 109284398 A CN109284398 A CN 109284398A CN 201811150004 A CN201811150004 A CN 201811150004A CN 109284398 A CN109284398 A CN 109284398A
- Authority
- CN
- China
- Prior art keywords
- name
- entity
- text
- relation extraction
- improving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种改进双向GRU和注意力模型的实体关系抽取方法,包括以下步骤:S1、获取输入的文本;S2、对输入的文本进行断句处理;S3、保留相关人名的实体句子,剔除没有人名的部分;S4、利用人名识别算法识别人名,以使实体名称不变;S5、利用#替换人名,以使实体位置不变;S6、利用深度学习方法训练关系抽取模型;本发明对双向GRU和注意力机制模型的训练数据做了适当处理,充分考虑了中文字向量在人名表达中的局限性,使得改进的人物关系挖掘方法效果更好。
Description
技术领域
本发明涉及自然语言处理应用技术领域,具体的说是一种改进双向GRU和注意力模型的实体关系抽取方法。
背景技术
自然语言处理是目前人工智能领域很重要的研究课题,其中关系抽取是构建知识图谱等上层自然语言处理应用的基础。监督性关系挖掘方法在目前被认为是抽取效果较好的一种方法,它是将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。基于开源项目工程(中文信息抽取,双向GRU和注意力模型):https://github.com/thunlp/TensorFlow-NRE,此方法将主要学习人物实体之间的关系,主要涉及12类人物关系,包括“父母”,“夫妻”,“祖孙”,“师生”,“兄弟姐妹”,“合作”,“情侣”,“好友”,“亲戚”,“同门”,“上下级”,以及“unknown”。但是此方法存在一定的局限性。
因此,本发明基于此深度学习方法提出了一种改进的方法,使得人物关系的抽取效果达到更好,从而有效的从大量文本中挖掘人物实体关系信息,为知识图谱的建设提供支持,从而提升业务应用价值。
发明内容
为了解决上述现有技术的问题,本发明提供一种能够提高正确率的基于对偶神经网络模型的文本情感分类方法。
本发明解决其技术问题所采用的技术方案是:
一种改进双向GRU和注意力模型的实体关系抽取方法,包括以下步骤:
S1、获取输入的文本;
S2、对输入的文本进行断句处理;
S3、保留相关人名的实体句子,剔除没有人名的部分;
S4、利用人名识别算法识别人名,以使实体名称不变;
S5、利用#替换人名,以使实体位置不变;
S6、利用深度学习方法训练关系抽取模型。
本发明进一步改进在于,所述步骤S2中断句处理为,对输入的文本做标点符号的切割。
本发明进一步改进在于,所述步骤S3中通过对断句处理后的文本进行人名实体识别,选取只包含人名实体的句子集。
本发明进一步改进在于,所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤;
所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;
所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。
与现有技术相比,本发明的有益效果是:
本发明对双向GRU和注意力机制模型的训练数据做了适当处理,充分考虑了中文字向量在人名表达中的局限性,使得改进的人物关系挖掘方法效果更好。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种改进双向GRU和注意力模型的实体关系抽取方法,包括以下步骤:
S1、获取输入的文本;
S2、对输入的文本进行断句处理;
S3、保留相关人名的实体句子,剔除没有人名的部分,提高针对性;
S4、利用人名识别算法识别人名,以使实体名称不变;
S5、利用#替换人名,以使实体位置不变;
S6、利用深度学习方法训练关系抽取模型。
具体实施时,所述步骤S2中断句处理为,对输入的文本做标点符号的切割。
具体实施时,所述步骤S3中通过对断句处理后的文本进行人名实体识别,选取只包含人名实体的句子集。
具体实施时,所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤;
所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;
所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。
本发明提供的方法是基于双向GRU和注意力机制模型的关系抽取方法在不改变任何实验条件的前提下进行的,准确率大约为70%,本发明充分考虑句子长度变化容易引起的语义混淆,以及中文字向量在人名中的解释局限性,主要从如下三方面对此进行改进从而提升关系抽取的效果:
(1)句子长度不可变。此方法中当两个人物出现在不同长度的文本中,关系可能会变化。反之,句子长度的变化不应直接引起关系的变化。如:文本“1936年8月27日,赵兰坤在西安生下连震东”的“赵兰坤”和“连震东”和另一个文本“1936年8月27日,中华人民共和国张遭遇最危难时刻,赵兰坤在西安生下连震东”中的关系不一致,但实际上应该是一致的。本文提出了一种分句处理的方法解决此问题。具体如下:
a)对输入的文本做标点符号的切割,如文本1切分为{s1,s2},文本2切分为{s1’,s2’,s3’}
b)对文本经过a)处理后,对文本进行人名实体识别,选取只包含人名实体的句子集,因此得到的预处理后的文本1为{s1,s2},文本2为{s1’,s3’};
通过上述处理后得到的关系抽取结果是一致的。
(2)实体名称不可变。当语言环境不改变,而实体名称改变时,关系可能会变化。反之,实体名称的改变在相同的语言环境下应该不影响实体之间的关系。例如,在两端文本句子“赵幂与陈小威的细节显示两人已结婚”和“刘花与李晓阳的细节显示两人已结婚”中,“赵幂”和“陈小威”的关系与“刘花”和“李晓阳”关系不一致,但是实际上都是夫妻关系。产生此不一致的根本原因是人名中的每个字对应的字向量是没有意义的,需要特别处理。本发明的处理办法是:对文本处理后包含实体的句子进行人名实体识别,并将实体1和实体2分别以#代替,文本1经过处理后得到的句子集{s1=‘##与###细节暴露两人婚姻’},文本2经过处理后得到的句子集{s1’=‘##与###细节暴露两人婚姻’},即人名对于实际语言环境不产生任何影响。
通过此处理后得到的关系抽取结果是一致的。
(3)实体位置不可变。当语言环境不变,只改变实体在文中的位置,实体关系类型可能会变化。反之,实体的位置颠倒只可能会引起实体关系的反转,而不会引起关系类型的变化。例如,“赵兰坤在西安生下连震东”与“连震东在西安生下赵兰坤”,不做任何处理的情况下前者“赵兰坤”与“连震东”是父母关系,而后者是夫妻关系,而实际两者关系类型都属于父母关系。产生本情形的原因与(2)类似,处理办法也类似,将姓名的中文字符用‘#’代替。通过处理后得到的关系抽取结果也保持一致。
作为本发明一个较佳的实施例,所述人名识别算法在实施时,所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。
所述姓名抽取具体步骤包括:
a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;
b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集,记为list2;
c、利用结巴分词对文本进行搜索引擎模式分词,得到分词集合,记为list3;
d、将list1~list3组合成一个list,并按list中词语的位置及词语长度进行排序,排序规则为,按位置升序,按长度降序。
所述姓名消岐步骤包括:
e、将步骤d得到的所有list按最小间隙建立邻接矩阵;
f、根据邻接矩阵,利用Floyd算法计算从文本起点单词到末尾单词所在位置的最小距离,达到姓名消歧的效果,同时抽取出最准确的姓名。
在上述方案的基础上,对于输入文本“欧阳春艳是新闻网的记者”,利用本发明中的人名识别过程进行说明如下:
(1)、首先利用结巴分词对文本进行分词,取得词性为“nr”的词语作为候选人名(结巴分词结果出现多个词性,是加入用户词典所致,不影响结果);
分词结果为:[pair('欧阳春','nr'),pair('艳','a'),pair('是','v'),pair('新闻网','n\n'),pair('的','uj'),pair('记者','n\n')],
取出人名:list1=[(0,'欧阳春')];
(2)、利用姓氏及姓名字典得到所有姓名候选集:
list2=[(0,'欧阳春艳'),(0,'欧阳春')];
(3)、利用结巴搜索引擎模式分词得到分词集合:
list3=[(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')];
(4)、对list1~list3组合排序(去重):
list=[(0,'欧阳春艳'),(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')];
(5)、根据最小间隙对list建立邻接矩阵,如表1所示:
表1
其中,表中数值表示词i到词j的间隔,999表示不可到达。
(6)、利用Floyd算法计算最小距离为0,其对应的最佳路径为[0,5,6,8,9],数值表示矩阵的第i行(列),则对应的最佳分词组合为:[(0,'欧阳春艳'),(4,'是'),(5,'新闻网'),(8,'的'),(9,'记者')],消除了“欧阳春”的干扰信息,得到最终的人名为:[(0,'欧阳春艳')]。
本发明实验中采用上述改进的双向GRU和注意力机制模型进行关系挖掘,对于约80000条标注数据,取80%为训练数据,剩下的20%为测试数据,经过测试,关系抽取的准确率从初始的70%提高到86%左右,具体实验流程如图1。
该方法对双向GRU和注意力机制模型的训练数据做了适当处理,充分考虑了中文字向量在人名表达中的局限性,使得改进的人物关系挖掘方法效果更好。本发明提供了一种较简单的方法来改进现有的深度学习模型,效果较之前有明显提升,进而为知识工程建设提供了有利的技术支撑。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种改进双向GRU和注意力模型的实体关系抽取方法,其特征在于,包括以下步骤:
S1、获取输入的文本;
S2、对输入的文本进行断句处理;
S3、保留相关人名的实体句子,剔除没有人名的部分;
S4、利用人名识别算法识别人名,以使实体名称不变;
S5、利用#替换人名,以使实体位置不变;
S6、利用深度学习方法训练关系抽取模型。
2.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法,其特征在于:所述步骤S2中断句处理为,对输入的文本做标点符号的切割。
3.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法,其特征在于:所述步骤S3中通过对断句处理后的文本进行人名实体识别,选取只包含人名实体的句子集。
4.根据权利要求1所述的一种改进双向GRU和注意力模型的实体关系抽取方法,其特征在于:所述步骤S4中人名识别算法包括姓名抽取和姓名消歧步骤;
所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;
所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150004.2A CN109284398A (zh) | 2018-09-29 | 2018-09-29 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150004.2A CN109284398A (zh) | 2018-09-29 | 2018-09-29 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284398A true CN109284398A (zh) | 2019-01-29 |
Family
ID=65182315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811150004.2A Pending CN109284398A (zh) | 2018-09-29 | 2018-09-29 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284398A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443291A (zh) * | 2019-07-24 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置及设备 |
CN110674640A (zh) * | 2019-09-25 | 2020-01-10 | 北京明略软件系统有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN113361280A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练模型的方法、预测方法、装置、电子设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
US20170060509A1 (en) * | 2015-08-28 | 2017-03-02 | Vinuth Tulasi | System and method for minimizing screen space required for displaying auxiliary content |
CN106778878A (zh) * | 2016-12-21 | 2017-05-31 | 东方网力科技股份有限公司 | 一种人物关系分类方法及装置 |
CN108132932A (zh) * | 2017-12-27 | 2018-06-08 | 苏州大学 | 带有复制机制的神经机器翻译方法 |
-
2018
- 2018-09-29 CN CN201811150004.2A patent/CN109284398A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060509A1 (en) * | 2015-08-28 | 2017-03-02 | Vinuth Tulasi | System and method for minimizing screen space required for displaying auxiliary content |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN106778878A (zh) * | 2016-12-21 | 2017-05-31 | 东方网力科技股份有限公司 | 一种人物关系分类方法及装置 |
CN108132932A (zh) * | 2017-12-27 | 2018-06-08 | 苏州大学 | 带有复制机制的神经机器翻译方法 |
Non-Patent Citations (1)
Title |
---|
ROYHOO: "ansj人名识别", 《HTTPS://WWW.CNBLOGS.COM/ROYHOO/P/6716468.HTML》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443291A (zh) * | 2019-07-24 | 2019-11-12 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置及设备 |
CN110443291B (zh) * | 2019-07-24 | 2023-04-14 | 创新先进技术有限公司 | 一种模型训练方法、装置及设备 |
CN110674640A (zh) * | 2019-09-25 | 2020-01-10 | 北京明略软件系统有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN110674640B (zh) * | 2019-09-25 | 2022-10-25 | 北京明略软件系统有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN113361280A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练模型的方法、预测方法、装置、电子设备以及存储介质 |
CN113361280B (zh) * | 2021-06-30 | 2023-10-31 | 北京百度网讯科技有限公司 | 训练模型的方法、预测方法、装置、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN107168945B (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN106156004A (zh) | 基于词向量的针对电影评论信息的情感分析系统及方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
US11783179B2 (en) | System and method for domain- and language-independent definition extraction using deep neural networks | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN109284398A (zh) | 一种改进双向gru和注意力模型的实体关系抽取方法 | |
CN111310458A (zh) | 一种基于多特征融合的主观题自动评分方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN110413768A (zh) | 一种文章题目自动生成方法 | |
CN117349275B (zh) | 一种基于大语言模型的文本结构化方法和系统 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
CN108388554A (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN114443846B (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN110334362B (zh) | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116720520B (zh) | 一种面向文本数据的别名实体快速识别方法及系统 | |
KR20190023722A (ko) | 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법 | |
CN115203429B (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
CN112988999B (zh) | 佛学问答对的构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190129 |
|
RJ01 | Rejection of invention patent application after publication |