CN112036179A

CN112036179A - 基于文本分类与语义框架的电力预案信息抽取方法

Info

Publication number: CN112036179A
Application number: CN202010891712.2A
Authority: CN
Inventors: 杨群; 郭榕; 刘绍翰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-04
Anticipated expiration: 2040-08-28
Also published as: CN112036179B

Abstract

本发明公开一种基于文本分类与语义框架的电力预案信息抽取方法。方法包括：获取电力预案文本并做文本类别标注；针对电力预案文本的预处理；针对电力预案文本的文本分类模型与训练方法；针对不同类别的电力预案文本，定义不同语义槽；针对不同类别的电力预案文本，构建不同的语义框架进行信息抽取。本发明首先对电力预案文本进行分类，在分类的基础上为每类文本构建相应语义框架，将信息抽取任务转化为槽填充任务，解决了从大量半结构化和非结构化的电力预案文本中抽取信息的问题，能有效地提高电力预案文本的信息抽取效率与准确度，可以减少进行信息抽取所需要的人工劳动，对电力事故后电网快速恢复具有重大和迫切的现实意义。

Description

基于文本分类与语义框架的电力预案信息抽取方法

技术领域

本发明涉及自然语言处理以及深度学习领域，特别是涉及一种针对电力预案的信息抽取方法。

背景技术

电力预案的编写旨在防止和减少电力事故对社会的影响，保证电力事故应急工作高效、有序地进行，提高电力事故应急处理能力，最大限度地减少事故中的人员伤亡和财产损失。在电网发生故障时，电网调度系统运行变得紧张，通过人工查阅的方式从半结构或非结构的电力预案文本获取处置信息，不仅效率低下而且将使调度员的工作强度变大，容易发出不当调度指令，不利于电力事故应急工作的有效进行。因此，需要事先将电力预案文本中的信息进行抽取并存储，在电网发生故障时通过信息检索快速地找到相应的处置动作，这对电力事故后电网快速恢复具有重大和迫切的现实意义。然而，目前电力预案信息的抽取工作往往依靠人工进行，不仅需要投入大量的人力，费时费力，而且对人员的专业知识有很高的要求。此外，由于主观因素和经验差异，信息抽取工作的正确性、规范性难以保证。

发明内容

本发明为了解决上述问题，提供一种基于文本分类与语义框架的电力预案信息抽取方法，可以代替人工进行电力预案信息抽取，并提高电力预案文本信息抽取的效率与准确度。所述方法包括：

101.获取电力预案文本并做文本类别标注。

102.针对电力预案文本的预处理方法；所述的预处理包括：长句切分，分词与词性标注。

103.针对电力预案文本的文本分类模型与训练方法；将已标注类别的电力预案文本作为训练集微调BERT预训练模型获得所述文本的特征向量，利用获得的特征向量训练Softmax回归模型得到电力预案文本分类的模型。

104.针对不同类别的电力预案文本，定义不同的语义槽；把待抽取的信息定义为语义槽，将信息抽取任务转换为槽填充任务，并根据各类别文本所需抽取的不同信息，定义不同的语义槽s_j。

105.针对不同类别的电力预案文本，构建不同的语义框架进行信息抽取；将步骤104中定义的语义槽组成语义框架f_i＝{s_j}，利用文本搜索和正则匹配的方法，填充框架中的语义槽。

进一步的，所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于针对电力预案文本的预处理方法，具体包括：

总结预案文本的句式结构特点并建立长文本切分标志集，据此编写针对电力预案文本的分句规则将预案文本中的长句切分为多个短句；

从大量电力预案中先以规则总结辅以专家人工校正建立专业词典，通过导入电力预案专业词典，进行分词与词性标注。

进一步的，所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于针对电力预案文本的文本分类模型与训练方法，具体包括：

给出电力预案文本分类训练集

来自于步骤101中已标注类别的电力预案文本数据集，其中x_i为每条电力预案文本，y_i为文本对应的类别，预案文本类别由电力专家分析共形成八类。通过BERT预处理语言模型在训练集D上进行微调，得到训练集D对应的特征表示为V＝(v₁，v₂，...，v_N)，其中v_i是每条短文本x_i对应的句子级别的特征向量，i＝1，2，...，N；

将得到的特征表示V输入Softmax回归模型进行训练，得到电力预案文本分类的模型M；

训练方法包括参数设置以及迭代轮数和准确率分析。

进一步的，根据权利要求1所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于，针对不同类别的电力预案文本，定义不同语义槽，具体包括：

将预案文本中待抽取的关键信息定义为语义槽，把信息抽取任务转换为槽填充任务，每种类别的预案文本将被抽取出限定的信息用于语义槽的填充。根据每种类别的预案文本所需抽取的信息，定义相应的语义槽组{s_j}，j＝1，2，...，n_k，n_k为此类别文本对应的语义槽数量。

进一步的，所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于，针对不同类别的电力预案文本，构建不同的语义框架进行信息抽取，具体包括：

通过对不同类别的电力预案文本进行语句模式归纳总结，结合步骤104中定义的语义槽构造出相应的语义框架f_i＝{s_j}。考虑到槽缺失的情况，进一步将框架中的语义槽分为必要槽和可选槽。利用构建的语义框架进行信息抽取的过程如下：

a.将待抽取的文本进行文本分类，给定待抽取的电力预案文本集

其中x_i为每条电力预案文本。待抽取电力预案文本T经过文本分类模型M分类得到分类结果t₁，t₂，...，t_N，其中t_i是类别i对应的文本集合，i＝1，2，...，N；

b.对分类结果t₁，t₂，...，t_N依据其文本类型调用对应的语义框架f₁，f₂，...，f_N。其中，f_i＝{s_j}表示对应于分类结果t_i的语义框架，i＝1，2，...，N，s_j表示语义框架f_i包含的语义槽，j＝1，2，...，n_k；

c.根据调用的语义框架f_i＝{s_j}，利用文本搜索和正则匹配的方法，填充框架中的语义槽，完成信息的抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于文本分类与语义框架的电力预案信息抽取方法的流程示意图；

图2为本发明实施例针对电力预案文本的语义框架填充流程示意图；

图3为本发明实施例针对电力预案文本信息抽取的文本分类模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的基于文本分类与语义框架的电力预案信息抽取方法的流程示意图，所述方法包括：

步骤101：获取电力预案文本并做文本类别标注，具体包括：

收集电力预案文本数据集并进行人工文本类别标注，得到文本分类训练集

其中x_i为每条电力预案文本，y_i为文本对应的类别。

步骤102：针对电力预案文本的预处理方法，具体包括：

长句切分。电力预案中包含许多由多个短句组成的长句，对长句进行信息抽取的复杂度明显高于短句并且抽取效果也不如短句。因此本发明从大量电力预案中总结出文本的句式结构特点并建立长文本切分标志集，据此编写针对电力预案文本的分句规则将预案文本中的长句切分为多个短句；

构建专业词典进行分词与词性标注。电力预案文本包含大量专业字词，而且语法也和日常用语有很大差别，因此使用通用的分词与词性标注工具处理预案文本效果并不理想。本发明从大量电力预案中先以规则总结辅以专家人工校正建立专业词典，通过导入电力预案专业词典，可以避免日常用语的干扰，提高分词与词性标注的准确度。

步骤103：针对电力预案文本的文本分类模型与训练方法，具体包括：

给出电力预案文本分类训练集

来自于步骤101中已标注类别的电力预案文本数据集，预案文本类别由电力专家分析共形成八类。将数据集进行随机划分，按8∶1∶1的比例划分为训练集、验证集和测试集。

选择合适的训练参数，用训练集微调BERT预处理语言模型。本施例中将BERT预处理语言模型的序列长度最大值设为128，以节省大量内存；学习率为2e-5；将Dropout随机失活率设置为0.1防止过拟合；模型迭代的轮次为5；每批训练集数据大小为32。经过训练得到训练集D对应的特征表示为V＝(v₁，v₂，...，v_N)，其中v_i是每条短文本x_i对应的句子级别的特征向量，i＝1，2，...，N；

在模型训练完成后此步骤将以测试集对模型M进行评估，评价标准为分类的平均准确率以及每种类别的准确率。本实施例中，平均准确率达到了97％。

步骤104：针对不同类别的电力预案文本，定义不同语义槽，具体包括：

针对不同类别的预案文本进行语法结构分析，将预案文本中待抽取的关键信息定义为语义槽，每种类别的预案文本将被抽取出限定的信息用于语义槽的填充。其中，将所有类别的文本都具有的语义槽定义为通用语义槽，通用的语义槽包括：故障类型、故障设备/厂站；在通用语义槽的基础上，根据不同类别的预案文本所需抽取的不同信息，定义不同的语义槽组{s_j}，j＝1，2，...，n_k，n_k为此场景下语义槽的数量。

步骤105：针对不同类别的电力预案文本，构建不同的语义框架进行信息抽取，具体包括：

考虑到电力预案是一种受限制的小规模语言，其用词范围、语法格式通常固定，存在固定的语句模式。因此，对不同类别的电力预案文本进行语句模式归纳总结，根据每类文本的句式结构特点，利用定义的语义槽构造出相应的语义框架f_i＝{s_j}。考虑到预案文本并非都能将语义框架填充完整，会存在槽缺失的情况，因此，根据信息的重要程度进一步将框架中的语义槽分为必要槽和可选槽，可选槽允许为空。如图2所示，以一条电力预案文本为例分析利用构建的语义框架进行信息抽取的过程：

待处理文本为：山西调出浙南地区备用出力，快减嘉二厂500kV系统机组出力。

201.利用文本分类模型对待抽取的文本进行文本分类，给定待抽取的电力预案文本集

202.对分类结果t₁，t₂，...，t_N依据其文本类型调用对应的语义框架f₁，f₂，...，f_N。其中，f_i＝{s_j}表示对应于分类结果t_i的语义框架，i＝1，2，...，N，s_j表示语义框架f_i包含的语义槽，j＝1，2，...，n_k。例如，样例文本的类别为“出力调整类”，该类文本所对应的语义框架为f＝{调度者，调整对象，调整动作，调整指标，指标量}。

203.根据调用的语义框架f_i＝{s_j}，利用文本搜索结合规则推理的方法抽取出电力预案文本中的文字信息。首先对文本进行分词与词性标注处理，之后从文本首个词开始，取每个词作为比较单位与字典词进行匹配，匹配成功则填充框架中的文字语义槽s_j，否则下移一个词位置，继续比较。例如，在样例文本中首先搜索“调度者”语义槽的信息，该槽位需填入词性为“ns(电力设备/厂站)”的电力名词。根据文本词性匹配，该槽位搜索到的结果为：“山西”、“浙南地区”、“嘉二厂”。根据规则推理，“调度者”应后接词性为“v(动作)”的“调度动作”，以此剔除“浙南地区”和“嘉二厂”，最终在语义槽中填入“山西”。后续的槽位同样的地利用文本搜索结合各自槽位的规则完成填充。

抽取完文字信息后，利用正则表达式提取符合正则文法的数量词，并将数字信息推导下去，最终导出标准数字量，将数字量填入语义框架中的数字量语义槽。因样例文本中未包含语义框架的数字量语义槽“指标量”中的信息，所以此语义槽为空。

图3为本发明实施例针对电力预案文本信息抽取的文本分类模型示意图。网络模型的输入输出分别为完整的电力预案句子和分类类别，电力预案文本输入后首先会被映射为相应的句子特征向量随后利用分类器进行类别分类。模型结构如图3所示：

301.输入层，输入层将电力预案的原始文本进行分词处理，并在在文本前插入一个[CLS]符号，并将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类。

302.嵌入层，嵌入层通过查询词向量表将输入的每个词转换为一维向量。嵌入层的输出则是输入各词对应的融合全文语义信息后的向量表示。此外，模型输入除了词向量，还包含另外两个部分：

文本向量，该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合

位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异。

303.BERT模型，BERT模型的主要组成部分是双向Transformer编码器，由嵌入层传入的向量经过双向的Transformer编码器，就可以得到文本的向量化表示，即文本的向量化表示主要是通过Transformer编码器而实现的。

304.分类器，经过BERT模型处理后，获得了电力预案文本的向量化表示(z)，本发明使用Softmax回归模型对电力预案文本的表示向量进行线性变换，得到电力预案特征向量对应各文本类别的概率得分，将概率得分最大的文本类别作为分类器的结果输出。公式如下：

o＝soft max(W_oz+b_o)

其中，W_o是参数矩阵，b_o是偏置项，o线性回归模型的输出结果。

本发明提供了一种基于文本分类与语义框架的电力预案信息抽取方法，解决了从大量半结构化和非结构化的电力预案文本中准确抽取信息的问题，能有效地提高电力预案文本的信息抽取效率与准确度，可以减少进行信息抽取所需要的人工劳动，对电力事故后电网快速恢复具有重大和迫切的现实意义。

Claims

1.基于文本分类与语义框架的电力预案信息抽取方法，其特征在于所述方法包括：

101.获取电力预案文本并做文本类别标注。

102.针对电力预案文本的预处理；所述的预处理包括：长句切分，分词与词性标注。

2.根据权利要求1所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于针对电力预案文本的预处理方法，具体包括：

3.根据权利要求1所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于针对电力预案文本的文本分类模型与训练方法，具体包括：

给出电力预案文本分类训练集

训练方法包括参数设置以及迭代轮数和准确率分析。

4.根据权利要求1所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于，针对不同类别的电力预案文本，定义不同语义槽，具体包括：

5.根据权利要求1所述的基于文本分类与语义框架的电力预案信息抽取方法，其特征在于，针对不同类别的电力预案文本，构建不同的语义框架进行信息抽取，具体包括：