CN116227496A

CN116227496A - 一种基于深度学习的电力舆情实体关系抽取方法及系统

Info

Publication number: CN116227496A
Application number: CN202310498522.8A
Authority: CN
Inventors: 张强; 周飞; 付慧; 宋博川; 刘同阳; 马径坦
Original assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-06-06
Anticipated expiration: 2043-05-06
Also published as: CN116227496B

Abstract

本发明涉及自然语言处理技术领域，具体提供了一种基于深度学习的电力舆情实体关系抽取方法及系统，包括：将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案，可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来。

Description

一种基于深度学习的电力舆情实体关系抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于深度学习的电力舆情实体关系抽取方法及系统。

背景技术

随着网络技术的发展，每天会产生大量的文本数据，人们需要处理的数据量呈现爆炸性激增的趋势。在文本数据的研究中，信息抽取作为一种基本的文本处理方式，主要有三个子任务：实体识别、关系抽取和事件抽取。在自然语言处理领域，实体关系抽取是信息抽取、信息检索中的核心任务和重要的环节，即从文本中抽取出其中包含的实体内容以及实体之间的关系。

在进行实体关系抽取的过程中，有众多的学者通过多种的相关技术在该领域进行深入的研究，其中经典的实体关系抽取方法有监督、半监督、弱监督和无监督的实体关系抽取方法，但是经典的方法在特征的提取方面是存在误差传播的情况，这些问题的存在极大的影响着实体关系抽取的一个结果。

发明内容

为了克服上述缺陷，本发明提出了一种基于深度学习的电力舆情实体关系抽取方法及系统。

第一方面，提供一种基于深度学习的电力舆情实体关系抽取方法，所述基于深度学习的电力舆情实体关系抽取方法包括：

将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；

获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。

优选的，所述方法还包括：

将所述属性特征作为预先构建的实体抽取模型的输入，得到所述预先构建的实体抽取模型输出的电力舆情文本的实体标注结果；

判断所述电力舆情文本的实体关系标注结果标注出的实体集合是否属于所述电力舆情文本的实体标注结果中标注出的实体集合，若是，则所述电力舆情文本的实体关系标注结果正确，否则，删除所述电力舆情文本的实体关系标注结果中不属于所述电力舆情文本的实体标注结果中标注出的实体集合的标注。

优选的，所述属性特征包括下述中的至少一种：五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。

进一步的，所述BERT特征的获取过程包括：将所述电力舆情文本代入BERT模型进行特征提取，得到BERT模型输出的BERT特征。

进一步的，所述预先构建的关系抽取模型包括：依次连接的BERT模型、全连接层和sigmoid激活函层；

所述预先构建的实体抽取模型包括：依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型；

所述预先构建的实体关系抽取模型包括：依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型；

所述第一特征融合层，用于将所述属性特征进行特征融合，得到第一融合特征；

所述第二特征融合层，用于将所述属性特征和关系特征标注结果进行特征融合，得到第二融合特征。

进一步的，所述预先构建的关系抽取模型的获取过程包括：

利用含关系特征标注结果的电力舆情文本建立训练数据，其中，若电力舆情文本的字的含义表示关系，则该字的关系特征标注结果为S，否则，该字的关系特征标注结果为空；

利用所述训练数据对初始关系抽取模型进行训练，得到所述预先构建的关系抽取模型。

进一步的，所述预先构建的实体抽取模型的获取过程包括：

利用含实体标注结果的电力舆情文本建立训练数据，其中，当电力舆情文本的字为实体名称的起始字时，该字的实体标注结果为B，当电力舆情文本的字为实体名称除起始字以外的字时，该字的实体标注结果为I，当电力舆情文本的字不是实体名称中的字时，该字的实体特征标注结果为空；

利用所述训练数据对初始实体抽取模型进行训练，得到所述预先构建的实体抽取模型。

进一步的，所述预先构建的实体关系抽取模型的获取过程包括：

利用含实体关系特征标注结果的电力舆情文本建立训练数据；

利用所述训练数据对初始实体关系抽取模型进行训练，得到所述预先构建的实体关系抽取模型。

进一步的，所述利用含实体关系特征标注结果的电力舆情文本建立训练数据，包括：

当电力舆情文本的字的含义表示关系时，该字的关系特征标注结果为S，当电力舆情文本的字为主体名称的起始字时，该字的实体关系标注结果为B-o，当电力舆情文本的字为主体名称除起始字以外的字时，该字的实体关系标注结果为I-o，当电力舆情文本的字为客体名称的起始字时，该字的实体关系标注结果为B-s，当电力舆情文本的字为客体名称除起始字以外的字时，该字的实体关系标注结果为I-s，当电力舆情文本的字的含义不表示关系且不是实体名称中的字时，该字的实体关系特征标注结果为空。

第二方面，提供一种基于深度学习的电力舆情实体关系抽取系统，所述基于深度学习的电力舆情实体关系抽取系统包括：

第一分析模块，用于将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；

第二分析模块，用于获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。

优选的，所述系统还包括第一分析模块，具体用于：

进一步的，所述预先构建的关系抽取模型的获取过程包括：

进一步的，所述预先构建的实体抽取模型的获取过程包括：

第三方面，提供一种计算机设备，包括：一个或多个处理器；

所述处理器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现所述的基于深度学习的电力舆情实体关系抽取方法。

第四方面，提供一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现所述的基于深度学习的电力舆情实体关系抽取方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明提供了一种基于深度学习的电力舆情实体关系抽取方法及系统，包括：将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案，可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来；

进一步的，从大量的电力舆情文本中进行分析每条文本中包含的实体名称以及各个名称之间的关系是一项繁杂且低效的工作，通过本发明提供的技术方案，可以大大减少人工的工作量，提高效率，节约成本；

本发明提供的技术方案通过使用电力舆情文本的五笔顺序、偏旁部首和拼音等多种编码方式进行特征的提取，从而使得到的实体更加准确；

本发明提供的技术方案通过采用实体抽取，关系抽取，主体名称客体名称的关系抽取模型，综合来进行实体关系抽取，提高了整体实体关系抽取的准确率。

附图说明

图1是本发明实施例的基于深度学习的电力舆情实体关系抽取方法的主要步骤流程示意图；

图2是本发明实施例的关系抽取模型结构示意图；

图3是本发明实施例的实体抽取模型结构示意图；

图4是本发明实施例的实体关系抽取模型结构示意图；

图5是本发明实施例的基于深度学习的电力舆情实体关系抽取方法的原理示意图；

图6是本发明实施例的基于深度学习的电力舆情实体关系抽取系统的主要结构框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如背景技术中所公开的，随着网络技术的发展，每天会产生大量的文本数据，人们需要处理的数据量呈现爆炸性激增的趋势。在文本数据的研究中，信息抽取作为一种基本的文本处理方式，主要有三个子任务：实体识别、关系抽取和事件抽取。在自然语言处理领域，实体关系抽取是信息抽取、信息检索中的核心任务和重要的环节，即从文本中抽取出其中包含的实体内容以及实体之间的关系。

为了改善上述问题，本发明提供了一种基于深度学习的电力舆情实体关系抽取方法及系统，包括：将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。本发明提供的技术方案，可以有效的从电力舆情文本中自动的将包含的实体内容与实体之间的关系抽取出来；

本发明提供的技术方案通过采用实体抽取，关系抽取，主体名称客体名称的关系抽取模型，综合来进行实体关系抽取，提高了整体实体关系抽取的准确率。下面对上述方案进行详细阐述。

实施例1

参阅附图1，图1是本发明的一个实施例的基于深度学习的电力舆情实体关系抽取方法的主要步骤流程示意图。如图1所示，本发明实施例中的基于深度学习的电力舆情实体关系抽取方法主要包括以下步骤：

步骤S101：将电力舆情文本作为预先构建的关系抽取模型的输入，得到所述预先构建的关系抽取模型输出的电力舆情文本的关系特征标注结果；

步骤S102：获取电力舆情文本的属性特征，并将所述属性特征和关系特征标注结果作为预先构建的实体关系抽取模型的输入，得到所述预先构建的实体关系抽取模型输出的电力舆情文本的实体关系标注结果。

本实施例中，所述方法还包括：

其中，所述属性特征包括下述中的至少一种：五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。

在一个实施方式中，所述BERT特征的获取过程包括：将所述电力舆情文本代入BERT模型进行特征提取，得到BERT模型输出的BERT特征。

在一个实施方式中，如图2所示，所述预先构建的关系抽取模型包括：依次连接的BERT模型、全连接层和sigmoid激活函层；

如图3所示，所述预先构建的实体抽取模型包括：依次连接的第一特征融合层、第一双向长短时记忆网络和第一条件随机场模型；

如图4所示，所述预先构建的实体关系抽取模型包括：依次连接的第二特征融合层、第二双向长短时记忆网络和第二条件随机场模型；

上述模型的获取过程中均需要建立训练数据，本发明提供的技术方案中，通过电力舆情文本的数据，采用人工标记的方式，对于数据中包含的实体内容进行标注，并且对于实体与实体之间的关系进行标注，从而生成电力舆情语料库；

对于标注好的实体关系数据又可以形成种子关系对数据集，通过这些种子关系对对未标注的电力舆情文本进行实体关系的抽取，从而对电力舆情语料库进行补充，进而得到训练数据；

本发明通过分类算法将电力舆情文本进行关系分类，其中对于每一句电力舆情文本，其中可能包含一种或多种实体关系，也可能一种关系都没有包含，因此，所述预先构建的关系抽取模型的获取过程包括：

在一个具体的实施方式中，按下述方式获取所述预先构建的关系抽取模型：

步骤一：将电力舆情文本数据中的每一句都拆分成单个字形式，通过使用BERT预训练模型来对电力舆情文本进行特征提取，得到其对应的BERT特征向量；

步骤二：对每一句文本中所包含的实体之间的关系进行分类，在一条文本中可能含有一个或者多组的实体关系对，也可能其中不包含任何关系；

步骤三：添加一个全连接层链接，并且通过sigmoid激活函数得到每个类别的概率，取0.5作为关系概率通过的阈值，即某个关系的概率大于0.5，就将该类别作为电力舆情文本中所包含的实体之间可能存在的关系。

本发明对电力舆情文本数据中的实体进行抽取，获得电力舆情文本中所包含的实体内容，因此，所述预先构建的实体抽取模型的获取过程包括：

在一个实施方式中，按下述方式得到所述预先构建的实体抽取模型：

步骤一：模型搭建：实体抽取模型是通过BERT预训练模型、双向长短时记忆网络和条件随机场模型来进行搭建。其中BERT从每个字的语义出发，通过BERT预训练模型得到BERT模型返回的特征向量。通过使用电力舆情文本的五笔顺序、偏旁部首和拼音等进行编码作为双向长短时记忆网络的输入，得到相应的特征向量。五笔顺序、偏旁部首和拼音得到的特征向量与BERT模型得到的特征向量进行融合，作为条件随机场的输入。条件随机场模型被广泛的运用到实体识别的场景，并且取得了很好的实体识别效果，其可以使最终的识别结果中标签的标注结果更合理一些，去除了那些不合理的标签内容。

步骤二：数据处理：采用BIO标注方式进行标注，其中“B”表示实体开始的标签，“I”表示一组实体中除了起始第一个字符外其他位置的标签。将用户问句作为实体识别模型的输入，通过采用One-Hot编码的方式，来获得五笔顺序、偏旁部首和拼音的特征向量。使用BERT预训练模型来获取BERT对应的特征向量。

步骤三：实体的抽取：将五笔顺序、偏旁部首和拼音的特征向量与BERT预训练模型获得的特征向量进行融合作为条件随机场模型的输入，获得对应输入文本中每一个字的标记标签的概率，这些标签概率作为条件随机场的输入来计算出每一个标记标签，对于不合理的标签结果进行去除。

本发明根据电力舆情文本的实体关系抽取模型，从文本中得到实体之间的关系。因此，所述预先构建的实体关系抽取模型的获取过程包括：

在一个实施方式中，所述利用含实体关系特征标注结果的电力舆情文本建立训练数据，包括：

在一个具体的实施方式中，按下述方式获取所述预先构建的实体关系抽取模型：

步骤一：搭建实体关系抽取模型，该模型是在实体抽取模型的基础上添加对关系标注的部分。在训练电力舆情文本实体关系抽取模型时，通过使用电力舆情相关的关系语料库中的语料，对于每条文本中存在的实体关系都通过关系三元组的形式进行标注。

步骤二：采用的是BIO标注策略，其中“B-o”表示主体名称开始的标签，“I-o”表示一组主体名称中除了起始第一个字符外其他位置的标签，“B-s”表示客体名称开始的标签，“I-s”表示一组客体名称中除了起始第一个字符外其他位置的标签。其中“S”表示关系的标签。

步骤三：将标注的电力舆情文本数据输入到电力舆情实体关系抽取模型中，其基本流程与实体抽取模型类似。实体关系抽取模型部分是将实体之间的关系在电力舆情文本后进行实体关系标注的拼接从而得到完整的实体关系标注内容。

通过实体关系抽取模型得到电力舆情文本中‘实体—关系—实体’三元组的形式表示的实体关系组，如图5所示。在进行实体抽取时，可以得到文本中含有的更全的实体名称。通过实体关系抽取模型可以从包含的关系中抽取出文本中对应的主体名称和客体名称，这些主体与客体名称与实体抽取模型抽取出的实体内容进行对比融合，从而最终得到更加准确的实体关系三元组。

实施例2

基于同一种发明构思，本发明还提供了一种基于深度学习的电力舆情实体关系抽取系统，如图6所示，所述基于深度学习的电力舆情实体关系抽取系统包括：

优选的，所述系统还包括第一分析模块，具体用于：

进一步的，所述预先构建的关系抽取模型的获取过程包括：

进一步的，所述预先构建的实体抽取模型的获取过程包括：

实施例3

基于同一种发明构思，本发明还提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能，以实现上述实施例中一种基于深度学习的电力舆情实体关系抽取方法的步骤。

实施例4

基于同一种发明构思，本发明还提供了一种存储介质，具体为计算机可读存储介质（Memory），所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM 存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中一种基于深度学习的电力舆情实体关系抽取方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度学习的电力舆情实体关系抽取方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述属性特征包括下述中的至少一种：五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。

4.如权利要求3所述的方法，其特征在于，所述BERT特征的获取过程包括：将所述电力舆情文本代入BERT模型进行特征提取，得到BERT模型输出的BERT特征。

5.如权利要求2所述的方法，其特征在于，所述预先构建的关系抽取模型包括：依次连接的BERT模型、全连接层和sigmoid激活函层；

6.如权利要求5所述的方法，其特征在于，所述预先构建的关系抽取模型的获取过程包括：

7.如权利要求5所述的方法，其特征在于，所述预先构建的实体抽取模型的获取过程包括：

8.如权利要求5所述的方法，其特征在于，所述预先构建的实体关系抽取模型的获取过程包括：

9.如权利要求8所述的方法，其特征在于，所述利用含实体关系特征标注结果的电力舆情文本建立训练数据，包括：

10.一种基于深度学习的电力舆情实体关系抽取系统，其特征在于，所述系统包括：

11.如权利要求10所述的系统，其特征在于，所述系统还包括第一分析模块，具体用于：

12.如权利要求10所述的系统，其特征在于，所述属性特征包括下述中的至少一种：五笔顺序对应的One-Hot编码、偏旁部首对应的One-Hot编码、拼音向量对应的One-Hot编码、BERT特征。

13.如权利要求12所述的系统，其特征在于，所述BERT特征的获取过程包括：将所述电力舆情文本代入BERT模型进行特征提取，得到BERT模型输出的BERT特征。

14.如权利要求11所述的系统，其特征在于，所述预先构建的关系抽取模型包括：依次连接的BERT模型、全连接层和sigmoid激活函层；

15.如权利要求14所述的系统，其特征在于，所述预先构建的关系抽取模型的获取过程包括：

16.如权利要求14所述的系统，其特征在于，所述预先构建的实体抽取模型的获取过程包括：

17.如权利要求14所述的系统，其特征在于，所述预先构建的实体关系抽取模型的获取过程包括：

18.如权利要求17所述的系统，其特征在于，所述利用含实体关系特征标注结果的电力舆情文本建立训练数据，包括：

19.一种计算机设备，其特征在于，包括：一个或多个处理器；

所述处理器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至9中任意一项所述的基于深度学习的电力舆情实体关系抽取方法。

20.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1至9中任意一项所述的基于深度学习的电力舆情实体关系抽取方法。