CN112036163A

CN112036163A - 电力预案文本序列标注中集外词处理方法

Info

Publication number: CN112036163A
Application number: CN202010891713.7A
Authority: CN
Inventors: 杨群; 黄香鸿; 刘绍翰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-04

Abstract

本发明公开一种基于电力预案文本序列标注中集外词处理方法。方法包括：构建电力预案文本中对应词的词嵌入；构建电力预案文本中的部首词典；提取训练模型所需要的特征；训练集外词处理模型；采用集外词处理模型处理集外词。使用上述方法构造的集外词模型可产生处理电力预案序列标注中产生的集外词的词嵌入，使用生成的词嵌入作为电力预案序列标注模型的输入可以生成正确的标签，进而提高电力预案序列标注模型的准确度。

Description

电力预案文本序列标注中集外词处理方法

技术领域

本发明涉及自然语言处理以及深度学习领域，特别是涉及一种针对电力预案文本的集外词处理技术。

背景技术

电力调度预案是针对电力调度现象的应对措施，该调度现象和应对预案以文本文件形式存储。是本电网工作调度的行之有效工作经验的积累。在面临电调度现象时候和调度预案由电力系统专业的语法、词汇描述的。其动词具有特定的含义，语法和描述方式与自然语言也不同，描述的对象范围和属性，范围更窄，语法更严格。由于突发安全事件引发原因、发生时间、影响范围的不确定性和突发性，尤其在发生大面积停电事件的情况下，负责应急指挥的领导和技术人员需要掌握电网的运行状况，及时分析事故原因，判断故障位置，为抢修指挥提供方便支持。这就必须建立一个高效、透明、畅通的信息系统作为支撑。在应急指挥状态下，需要应急指挥中心能向指挥人员提供电网运行信息、变电站音视频信息、故障现场音视频信息、各类应急预案以及各类辅助决策信息，并通过技术支持系统，指挥电网调度，协调应急队伍，调用各类应急资源参与应急处理全过程。同时，指挥中心还能通过信息发布平台进行人员召集和事故处理进展状况等信息的发布。

现有的基于深度学习的电力调度预案模型对电力预案文本序列标注准确率较高，然而，不同地区的电力预案文本所包含的内容差异较大，这就导致原先使用一个地区的预案数据训练的模型在处理另一个地区的预案数据时会遇到大量的集外词，这必将导致模型的准确率大幅度下降，如何对集外词进行处理对于电力预案文本序列标注模型的性能至关重要。

发明内容

本发明的目的是提供一种基于电力预案文本序列标注中集外词处理方法，提高电力预案文本序列模型对集外词的标注能力。为实现上述目的，本发明提供了如下方案：

101.构建电力预案文本中对应词的词嵌入：生成电力预案文本的嵌入矩阵，用于模型训练；

102.构建电力预案文本中的部首词典：部首词典用于后续进行部首特征提取；

103.提取训练模型所需要的特征：对训练模型所需要的部首特征，上下文特征，字符序特征进行提取；

104.训练集外词处理模型：以上述提取的特征和S1得到的词嵌入为输入，词嵌入为目标，训练集外词处理模型；

105.采用集外词处理模型处理集外词：训练好的集外词处理模型能够生成集外词的词嵌入，生成的词嵌入可用于电力预案文本序列标注任务；

可选的，构建电力预案文本中对应词的词嵌入，具体包括：

使用Word2vec的模型训练原始的电力预案文本，对Word2vec中的超参数进行调整以提高模型的训练速度，并对原始的预案文本抽样进行测试，使用效果最好的模型作为最终的Word2vec模型，使用训练好的Word2vec模型产生电力预案文本对应的词向量。

可选的，构建电力预案文本中的部首词典，具体包括：

部首词典是从大量电力预案中先总结出每个汉字对应的部首，然后人工进行校正，为电力预案文本中的每个字与其对应的部首建立一一映射关系，以电力预案文本中的汉字为索引，部首为对应的值建立部首词典。

可选的，提取训练模型所需要的特征，具体包括：

使用输入的电力预案文本序列为索引，找到其中组成汉字的对应的部首作为模型的部首特征，以矩阵的形式进行保存。

对于输入的电力预案文本序列，通过关键词匹配找到需要提取上下文的单词，将该单词所处的句子转换成对应的上下文序列，将不同的上下文序列之间用中括号隔开，以矩阵的形式进行保存。

将电力预案文本中每个词组成的汉字序列提取出来，以对应的矩阵进行保存。

可选的，训练集外词处理模型，具体包括：

使用Transformer Encoder作为训练模型，选择合适的神经网络激活函数，配置相应的神经网络隐层以防止过拟合现象的产生，使用上述的词嵌入，上下文特征，汉字序列特征，部首特征作为模型的输入训练模型。

可选的，采用集外词处理模型处理集外词，具体包括：

将训练好的模型加入电力预案序列标注模型，在遇到集外词时先使用集外词处理模型生成集外词的词嵌入，然后将生成的词嵌入输入序列标注模型中产生对应的标签，将产生的标签数与真实的标签数一并进行计算，得到集外词处理的准确率。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种基于电力预案信息抽取中集外词处理方法。它主要包括构建电力预案文本中对应词的词嵌入；构建电力预案文本中的部首词典；提取训练模型所需要的特征；训练集外词处理模型；采用集外词处理模型处理集外词。使用上述方法构造的集外词模型可产生处理电力预案信息抽取中产生的集外词的词嵌入，使用生成的词嵌入作为电力预案序列标注模型的输入可以生成正确的标签，进而提高电力预案序列标注模型的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例针对电力预案文本集外词处理的Transformer模型训练流程图；

图2为本发明实施例针对电力预案文本集外词处理的Transformer模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例针对电力预案文本集外词处理的Transformer模型训练流程图。本发明实例基于深度学习工具包pytorch实现。大体过程为对于给定的电力预案数据进行预处理处理并训练一个基于Transformer的深度神经网络模型用于对电力预案数据集外词进行处理。给定数据首先会被分为训练集和测试集比例为4∶1。下面如图1所示，针对电力预案文本集外词处理模型训练步骤有：

步骤101：构建电力预案文本中对应词的词嵌入，主要是使用Word2Vec方法对原始电力预案文本中的单词进行嵌入，将得到的词嵌入整合成嵌入表，表中包含每个单词对应的词嵌入矩阵。

步骤102：构建电力预案文本中的部首词典，基于部首词典提取每个预案文本中词的部首特征，主要是建立一个电力预案领域的专业部首词典。部首词典内容为从大量与电力预案相关的文本中整合而来的专业字词与这些词对应的部首映射，这类字词在日常用语中很少出现因此现有的分词工具难以处理，所以这步工作是由电力专家使用一些文本处理工具人工完成的。

步骤103：基于102完成的电力预案专业部首词典对训练集和测试集中的电力预案文本进行部首特征提取处理。本施例中提取的工具选用python实现，对于专业部首词典中未出现的词则按通用部首处理提取电力预案文本中每个词的上下文特征，提取电力预案文本中每个词的汉字序列特征。针对电力预案涉及到的多种应用场景做了分类，针对不同场景预案文本将会被提取成不同长度的上下文。预案文本由电力专家分析共形成十多类类场景，每个场景其中包含的单词的上下文长度也不一致。特殊的样本形式是每个单词对应多个上下文，不同的上下文之间用中括号隔开，将这些单词的上下文以矩阵的形式进行保存。将电力预案文本中每个词组成的汉字序列提取出来，转换成对应的矩阵进行保存。

步骤104：使用上述的词嵌入，上下文特征，汉字序列特征，部首特征训练集外词处理模型，使用Transformer Encoder作为训练模型，选择合适的神经网络激活函数，配置相应的神经网络隐层以防止过拟合现象的产生，使用上述的词嵌入，上下文特征，部首特征作为模型的输入训练模型。本实施例基于pytorch实现Transformer网络模型，输入为每个词的上下文特征的嵌入，每个词对应的部首嵌入和每个词组成的字的嵌入，这些嵌入均为100维向量，输出为100维集外词向量。训练过程分为4个epoch每个1000次迭代，使用GPU训练，时间与训练数据成正比。

步骤105：在模型训练完成后此步骤将以测试集对模型进行评估，使用模型生成测试集中所有集外词的词向量，将这些词的词向量作为电力预案文本序列标注模型的输入，通过F1分数评价标注模型生成的标注的准确程度，在包含大量集外词的数据集中取得了很高的F1分数。

图2为本发明实施例针对电力预案文本集外词处理的Transformer模型示意图。如图2所示：

网络模型的输入分别为集外词的上下文特征，偏旁部首特征和文字序列特征，目标为词嵌入，输出为集外词的词嵌入，上述特征输入后首先会被映射为相应的嵌入随后进行网络计算。本实施例的Transformer相对于BiLSTM能够更好地解决长依赖问题，并且因为Transformer能够并行地计算隐层权重，因此模型的训练时间相对于BiLSTM更短。

Claims

1.一种基于电力预案文本序列标注中集外词处理方法，所述方法包括：

103.提取训练模型所需要的特征：对训练模型所需要的部首特征、上下文特征和字符序特征进行提取；

104.训练集外词处理模型：以上述提取的特征和101得到的词嵌入为输入，词嵌入为目标，训练集外词处理模型；

105.采用集外词处理模型处理集外词：训练好的集外词处理模型能够生成集外词的词嵌入，生成的词嵌入可用于电力预案文本序列标注任务。

2.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述构建电力预案文本中对应词的词嵌入的具体操作是：

3.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述构建电力预案文本中的部首词典的具体操作是：

4.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述提取训练模型所需要的特征的具体操作是：

5.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述训练集外词处理模型的具体操作是：

使用Transformer Encoder作为训练模型，选择合适的神经网络激活函数，配置相应的神经网络隐层以防止过拟合现象的产生，使用词嵌入，上下文特征，汉字序列特征，部首特征作为模型的输入，训练集外词处理模型。

6.根据权利要求1所述的电力预案文本序列标注中集外词处理方法，其特征在于所述采用集外词处理模型处理集外词的具体操作是：

将训练好的模型作为电力预案序列标注模型的数据预处理模型，在遇到集外词时先使用集外词处理模型生成集外词的词嵌入，将生成的词嵌入输入到序列标注模型中，产生对应每个词的标签，将产生的标签数与真实的标签数一并进行计算，得到集外词处理的准确率。