CN113505598A

CN113505598A - 一种基于混合神经网络的网络文本实体关系抽取算法

Info

Publication number: CN113505598A
Application number: CN202110903583.9A
Authority: CN
Inventors: 廖一星; 王亮; 朱勇; 刘作国; 綦云华; 李子灿; 姬科盛; 柏富强; 徐亮
Original assignee: Guizhou Jiangnan Aerospace Information Network Communication Co ltd
Current assignee: Guizhou Jiangnan Aerospace Information Network Communication Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-10-15

Abstract

本发明公开了一种基于混合神经网络的网络文本实体关系抽取算法，将网络文本分成两份内容一致的文本，将标注后的段落根据序号段落进行归类整理，得到段落文本归类数据,根据名词实体关系进行分类，并进行归纳标注，得到名词文本归类数据，实现对两份文本数据的实体文本信息的抽取。本发明通过对网络文本分成两部分，分别通过段落文本归类和名词实体文本归类划分编码，分别利用主题建模类别划分识别的方式和指针生成网络摘取识别的方式实现对段落文本内的数据实体关系的提取，通过TF‑IDF信息处理和重复二分聚类算法处理实现对名词实体的关系抽取，再对两种方式得到的数据进行整合，能高效精准的提取到实体关键词之间的关系属性。

Description

一种基于混合神经网络的网络文本实体关系抽取算法

技术领域

本发明涉及网络文本关系算法技术领域，尤其涉及一种基于混合神经网络的网络文本实体关系抽取算法。

背景技术

随着互联网时代的到来，在数据与算力的双重加持下，深度学习引发的人工智能浪潮席卷全球，为了让计算机做到对语言的精准理解，需要赋予其大量的先验知识，这些知识主要以结构化知识进行表示。可是与现实世界快速增长的知识量相比，结构化知识的覆盖度仍未赶上。为解决这个问题，研究人员使用实体关系抽取算法自动抽取文本中蕴含的知识，但在非英文环境下，由于数据量和文本表示的问题，算法的抽取结果与英文算法的抽取结果间存在巨大差距。为了消除语言间的差异，目前方法多采用参数迁移，标注投影等启发式方法进行跨语言信息抽取，这些方法没有考虑语言间的差异，且多数需要给定严格的限制以保证效果。针对不同语言实体关系抽取模型之间的性能差距大，现有方法在语言间信息迁移效率不高的问题，实体关系抽取是信息抽取的一个重要分支，它是指通过信息抽取技术，从自然文本抽取出实体及其之间的关系，即将非结构化数据变成半结构化数据或结构化数据的技术。随着互联网的日益普及和广泛应用，互联网数据急剧膨胀，海量无标签数据中富含大量命名实体及其关系属性，如人物、机构以及他们之间的关系，如何从海量数据中高效、精准的抽取出这些实体及关系属性，成为目前实体关系抽取面临的重大挑战。

发明内容

本发明的目的是为了解决现有技术中的缺点，而提出的一种基于混合神经网络的网络文本实体关系抽取算法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于混合神经网络的网络文本实体关系抽取算法，该算法包括如下步骤：

S1、将网络文本分成两份内容一致的文本，一部分将文本以段落在文本的位置关系进行分序，并进行逐一序号标注，将标注后的段落根据序号段落进行归类整理，得到段落文本归类数据；

S2、将另一部分的文本内的名词实体进行识别归纳，根据名词实体关系进行分类，并进行归纳标注，得到名词文本归类数据，实现对两份文本数据的实体文本信息的抽取；

S3、对段落文本归类数据进行解码建模，采用主题建模类别划分识别的方式和指针生成网络摘取识别两种方式实现对网络文本中的大数据的提取计算；

S4、将名词文本归类数据分别通过TF-IDF信息处理和重复二分聚类算法处理，根据名词文本归类数据内的关键词的识别与计算，得出大数据中的实体关系抽取。

优选地，所述加码与解码分别通过编码层使用Bi-LSTM来进行编码；解码层再使用LSTM进行解码，从而实现数据的转换。

优选地，所述S3建模模型中有两个双向的LSTM-RNN，一个基于wordsequence用于实体检测；一个基于TreeStructures用于关系抽取；后者叠加在前者上，前者的输出和隐含层作为后者输入的一部分。

优选地，所述S3中指针生成网络摘取识别包括主要为抽取式识别方式，抽取式识别方式是将文本中词语重要性、句子重要性进行排序，抽取出重要度高的句子，形成摘要得到实体关系数据。

优选地，所述S4中TF-IDF信息处理是对名词文本归类数据中频繁出现的名词进行记录并判定，实现评估一个名词实体对于一个段落或一个文本中的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降，利用TF-IDF信息处理摘取重要的名词实体信息。

优选地，所述S4中重复二分聚类算法处理从下至上的进行寻找频繁出现的名词实体，并进行设计网格，通过逐级二分每个网格成为等体积的两部分，借此找到数据集中聚类原型的候选，以得到名词实体信息。

优选地，所述S2中的名词关系包括以下的几种或一种：实体中词的位置信息、实体关系类型信息、实体角色信息和主体与客体之间的语境关系。

相比现有技术，本发明的有益效果为：

本发明通过对网络文本分成两部分，分别通过段落文本归类和名词实体文本归类划分编码，分别利用主题建模类别划分识别的方式和指针生成网络摘取识别的方式实现对段落文本内的数据实体关系的提取，通过TF-IDF信息处理和重复二分聚类算法处理实现对名词实体的关系抽取，再对两种方式得到的数据进行整合，能高效精准的提取到实体关键词之间的关系属性。

附图说明

图1为本发明提出的一种基于混合神经网络的网络文本实体关系抽取算法流程关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种基于混合神经网络的网络文本实体关系抽取算法，该算法包括如下步骤：将网络文本分成两份内容一致的文本，一部分将文本以段落在文本的位置关系进行分序，并进行逐一序号标注，将标注后的段落根据序号段落进行归类整理，得到段落文本归类数据；

将另一部分的文本内的名词实体进行识别归纳，根据名词实体关系进行分类，并进行归纳标注，得到名词文本归类数据，实现对两份文本数据的实体文本信息的抽取；名词关系包括以下的几种或一种：实体中词的位置信息、实体关系类型信息、实体角色信息和主体与客体之间的语境关系。

对段落文本归类数据进行解码建模，采用主题建模类别划分识别的方式和指针生成网络摘取识别两种方式实现对网络文本中的大数据的提取计算；建模模型中有两个双向的LSTM-RNN，一个基于wordsequence用于实体检测；一个基于TreeStructures用于关系抽取；后者叠加在前者上，前者的输出和隐含层作为后者输入的一部分，主题模型可以给出其所包含的每一个词语的主题类别，词语以主题类别进行划分，权重越高，重要性越大，如此提取出来的关键词，不仅重要性高，而且兼顾主题覆盖的全面性，指针生成网络摘取识别包括主要为抽取式识别方式，抽取式识别方式是将文本中词语重要性、句子重要性进行排序，抽取出重要度高的句子，形成摘要得到实体关系数据。

将名词文本归类数据分别通过TF-IDF信息处理和重复二分聚类算法处理，根据名词文本归类数据内的关键词的识别与计算，得出大数据中的实体关系抽取；TF-IDF信息处理是对名词文本归类数据中频繁出现的名词进行记录并判定，实现评估一个名词实体对于一个段落或一个文本中的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降，利用TF-IDF信息处理摘取重要的名词实体信息，使用TF-IDF提取关键词的方法十分好理解，TF衡量了一个词在文档中出现的频率，一个文档中多次出现的词总是有一定的特殊意义，但并不是所有多次出现的词都是有意义的，如果一个词在所有的文档中都多次出现，那么这个词就没有什么价值了，从而进行摒弃；

重复二分聚类算法处理从下至上的进行寻找频繁出现的名词实体，并进行设计网格，通过逐级二分每个网格成为等体积的两部分，借此找到数据集中聚类原型的候选，以得到名词实体信息；

利用主题建模类别划分识别的方式和指针生成网络摘取识别的方式实现对段落文本内的数据实体关系的提取，通过TF-IDF信息处理和重复二分聚类算法处理实现对名词实体的关系抽取，再对两种方式得到的数据进行整合，能高效精准的提取到实体关键词之间的关系属性

加码与解码分别通过编码层使用Bi-LSTM来进行编码；解码层再使用LSTM进行解码，从而实现数据的转换，其为本领域常用的编码解码方式。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，该算法包括如下步骤：

2.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述加码与解码分别通过编码层使用Bi-LSTM来进行编码；解码层再使用LSTM进行解码，从而实现数据的转换。

3.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述S3建模模型中有两个双向的LSTM-RNN，一个基于wordsequence用于实体检测；一个基于TreeStructures用于关系抽取；后者叠加在前者上，前者的输出和隐含层作为后者输入的一部分。

4.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述S3中指针生成网络摘取识别包括主要为抽取式识别方式，抽取式识别方式是将文本中词语重要性、句子重要性进行排序，抽取出重要度高的句子，形成摘要得到实体关系数据。

5.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述S4中TF-IDF信息处理是对名词文本归类数据中频繁出现的名词进行记录并判定，实现评估一个名词实体对于一个段落或一个文本中的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降，利用TF-IDF信息处理摘取重要的名词实体信息。

6.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述S4中重复二分聚类算法处理从下至上的进行寻找频繁出现的名词实体，并进行设计网格，通过逐级二分每个网格成为等体积的两部分，借此找到数据集中聚类原型的候选，以得到名词实体信息。

7.根据权利要求1所述的一种基于混合神经网络的网络文本实体关系抽取算法，其特征在于，所述S2中的名词关系包括以下的几种或一种：实体中词的位置信息、实体关系类型信息、实体角色信息和主体与客体之间的语境关系。