CN112528663A

CN112528663A - 一种电网领域调度场景下的文本纠错方法及系统

Info

Publication number: CN112528663A
Application number: CN202011509488.2A
Authority: CN
Inventors: 孙雁斌; 辛阔; 范展滔; 程哲; 吴小刚; 张坤; 单政博; 陈兴望; 王子强; 许士锦; 吕耀棠
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-19
Anticipated expiration: 2040-12-18
Also published as: CN112528663B

Abstract

本发明公开了一种电网领域调度场景下的文本纠错方法及系统，方法包括：对文本中句子进行分词和命名实体识别，获得分词集合和命名实体集合；将命名实体集合与知识库做实体链接确定实体的真实信息；用命名实体识别集合对分词集合进行词边界修正以更新分词集合；对分词集合中各词添加拼音特征生成新的分词集合；将新的分词集合输入概率模型获得各个词出现的概率，并根据概率确定可疑错别字；根据可疑错别字的拼音从拼音字典中获得此词的候选集；将候选集中候选词逐个带入句子，重新生成特征带入概率模型，并根据概率确定最优候选。本发明结合概率模型来定位可疑错别字，可提高文本纠错的效率。

Description

一种电网领域调度场景下的文本纠错方法及系统

技术领域

本发明属于电网调度技术领域，具体涉及一种电网领域调度场景下的文本纠错方法，还涉及一种电网领域调度场景下的文本纠错系统。

背景技术

在调度场景，有大量的工作需要通过电话等语音方式沟通询问或者下达工作指令，现在相关工作面临智能化推荐的问题，而其中最为重要的环节之一就是语音翻译，而调度及其现场工作人员，分布在全国各个地方，地方方言和工作人员自身声带音调问题，给语音翻译工作带了极大的困扰，甚至难以克服，且调度场景下的领域内用语较为复杂，但是对精度的要求非常高。

中文文本纠错任务，常见错误类型包括：谐音字词、混淆音字词、字词顺序颠倒、字词补全、形似字错误、中文拼音全拼、中文拼音缩写和语法错误。目前来看，纠错算法分为两个方向：基于规则、深度模型；

中文纠错分为两步走，第一步是错误检测，第二步是错误纠正。错误检测部分先通过结巴中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，形成疑似错误位置候选集。错误纠正部分，是遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，然后通过语言模型计算句子困惑度，对所有候选集结果比较并排序，得到最优纠正词。

目前市面上，百度腾讯京东都有相关文本纠错产品，但是由于电网领域尤其特别，如果不针对性调整，很难达到其效果，如还有部分开源产品，中文单词自动纠错Cn_Speck_Checker和Autochecker&autocorrecter for chinese等，目前相关算法在各种自测数据集中表现效果尚且一般，用在调度领域更是难以作为。

面对以上矛盾，特提出该应用型发明，用来在调度场景下全方位的提高语音翻译的精度。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种电网领域调度场景下的文本纠错方法，结合概率模型来定位可疑错别字，可提高文本纠错的效率。

为解决上述技术问题，本发明提供了一种电网领域调度场景下的文本纠错方法，其特征是，包括以下过程：

对文本中句子进行分词和命名实体识别，获得分词集合和命名实体集合；

将命名实体集合与知识库做实体链接确定实体的真实信息；

用命名实体识别集合对分词集合进行词边界修正以更新分词集合；

对分词集合中各词添加拼音特征生成新的分词集合；

将新的分词集合输入概率模型获得各个词出现的概率，并根据概率确定可疑错别字；

根据可疑错别字的拼音从拼音字典中获得此词的候选集；

将候选集中候选词逐个带入句子，重新生成特征带入概率模型，并根据概率确定最优候选。

进一步的，所述对文本中句子处理前还包括：删除语气词重复词。

进一步的，所述从List集合中提取设备类实体组成实体类集合，包括：

遍历List集合后，复制设备类实体，并记录词位置，到一个List集合中组成实体类集合。

进一步的，所述将命名实体集合与知识库做实体链接，确定实体的真实信息，包括：

从命名实体集合中提取设备类实体组成实体类集合；遍历实体类集合中各设备类实体，将各设备类实体与知识库中同类型的实体做文本距离分析；

选取所有实体中文本距离最接近的实体作为当前遍历设备类实体的真实值。

进一步的，所述生成新的分词集合后，还包括对新的分词集合进行符号转译，具体包括：

数字根据拼音做转换：

0读洞；1读妖；2读两；3读三；4读四；5读五；6读六；7读拐；8读八；9读勾。

进一步的，所述概率模型为Transformer+Bi-LSTM模型。

进一步的，所述将新的分词集合输入概率模型获得各个词出现的概率，包括：

将新的分词集合通过word2vec模型转换为词向量；

将词向量输入Transformer+Bi-LSTM模型，输出各个词在句子中出现的概率。

进一步的，所述根据概率确定可疑错别字，包括：

将概率小于阈值的词认为是可疑错别字。

进一步的，所述获取候选集后，还包括：对候选集中各词进行合法性检查，具体过程为：

删除候选集中包含的敏感词和自定义函数，所述自定义函数包括：候选词不在基于电网语料训练的词向量中，和命名实体被作为错别字。

进一步的，所述根据概率确定最优候选，包括：

选取概率最大的候选词作为最优候选。

相应的，本发明还提供了一种电网领域调度场景下的文本纠错系统，包括：

集合获取模块，用于对文本中句子进行分词和命名实体识别，获得分词集合和命名实体集合；

实体链接模块，用于将实体类集合与知识库做实体链接确定实体的真实信息；

分词修正模块，用于用命名实体识别集合对分词集合进行词边界修正以更新分词集合；

词序列模块，用于对分词集合中各词添加拼音生成新的分词集合；

错别字定位模块，用于将新的分词集合输入概率模型获得各个词出现的概率，并根据概率确定可疑错别字；

候选生成模块，用于根据可疑错别字的拼音从拼音字典中获得此词的候选集；

最优候选确定模块，用于将候选集中候选词逐个带入句子，重新生成特征带入概率模型，并根据概率确定最优候选。

与现有技术相比，本发明所达到的有益效果是：本发明结合概率模型来定位可疑错别字，提高文本纠错精度。

附图说明

图1为本发明方法的具体流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明中涉及到的名词解释：

Transformer+Bi-LSTM：一种目前较为流行的深度学习模型；

Word2vec：一种深度学习模型，主要训练大量的文本语料，得出结果就是一组很长向量，来代替词语本身，是一种词语数字化表示手段；

实体:指的是具有可区别性且独立存在的某种事物。电网领域多指：电网公司、调度机构、各种厂站、线路和各种设备；

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

实施例1

本发明的一种电网领域调度场景下的文本纠错方法，该流程方案还需要三个前期准备工作，分别是命名实体识别模型、实体知识库、维护拼音字典和基于大量通话记录的文本文件所训练的概率模型，概率模型可以是n-gram或者LSTM类似深度学习模型，本发明采用的是Transformer+Bi-LSTM，该模型的输入为一句话，在一句话中，会设定一些指定类型，如果实体是相关类型，则替换为对象类型，来作为特征词输入，输出为各个词的概率。

准备工作完成后，现以“恩，啊查看下中山变，1亩母线上，中性点避雷器上的姐弟刀闸是否和尚”为例子，参见图1所示，文本纠错的流程如下所示：

步骤1：将文本中语气词重复词剔除

如字面意思，删除重复的语气词，如“啊”，“恩”，“明白，明白”，语气词可以定义和扩展；

经过步骤1后，句子变为“查看下中山变，1亩母线上，中性点避雷器上的姐弟刀闸是否和尚”。

步骤2：对文本进行分词并抽取命名实体，得到各自List集合

对文本中句子，分词并抽取命名实体，获得分词集合(List集合)和命名实体集合(List集合)。

此次命名实体是电网领域特殊标注的命名实体，如“电网设备”、“电网规章”等，将文本输入预先准备好的命名实体识别模型，分词提取实体，该处的实体，主要是电网设备类实体，如“中山变”、“***母线”、“**刀闸”，并预存起来，已做备用；分词是基于开发域语料训练训练的算法模型，命名实体识别是电网语料训练的算法模型，分词和命名实体分别缓存到两个LIST集合中，然后采用命名实体识别集合对原分词集合进行词边界修正，更新分词集合。

步骤3：提取设备类实体组成实体类集合

根据步骤2的命名实体识别结果，遍历命名实体集合后，复制设备类实体，并记录词位置，到一个List集合中组成实体类集合，实体类集合格式为：

[

{word:”中山变”，begin：3，end:5},

{word:”1亩母线”，begin：7，end:10},

*******

]

实体类集合转入步骤10，用命名实体识别集合对分词集合进行词边界修正以更新分词集合，分词List集合中剩下内容结构不变，转入步骤4；

步骤4：词序列

对分词集合结合预先整理的电网语料拼音字典进行汉语拼音转换，在原集合数据基础上，增加拼音特征，生成新的分词集合作为词序列：

[

{word：“查看”，begin:0,end:1,pingyin:”cha kan”},

**********************

{},

]

步骤5：符号转译

电网数字的读法，沿用军队的读法，要根据下面所列的内容，根据拼音做转换：

还有电网线路的读法的1亩，2亩，在文本表示里面多用1#，2#，此处也要做转换。

步骤6：模型定位错别字

根据电网语料训练一个word2vec模型，此次定义为模型1，根据日常生活类模型，训练一个word2vec，此处定义为模型2，两个模型的向量大小一致都为60；先根据步骤5返回的集合，结合模型1和模型2，整理特征，输入上文中的Transformer+Bi-LSTM模型(简单的用n-gram来替代同样可行)，因为Transformer+Bi-LSTM的输出是概率，如果一个词在当句子中出现的概率小于0.1，认为该词是可疑错别字，并指出返回；

如例子中返回：[

{word:”姐弟”,begin:21,end:22},

{word:”和尚”,begin:27,end:28}

]

步骤7：生成候选集

根据步骤6返回的结果，获取其拼音，根据拼音字典返回同是此拼音的候选集；

[

{pingyin:”jiedi”,result:[“接地”,”揭底”,”姐弟”,”结缔”,”阶地”]}，

{pingyin:”hesang”,result:[“和尚”,”合上”,”河上”,”喝上”,”何尚”]}

]

步骤8：合法性检查

合法性检查主要是对步骤7的结果做一个过滤，包含敏感词检查和自定义函数，自定义函数本设计中有两个：一是如果当前候选词不在基于电网语料训练的词向量中，则删除，二是如果是命名实体被作为错别字，则直接删除。

步骤9：选最优候选

根据步骤8的过滤结果，候选词逐个带入句子，重新生成特征带入Transformer+Bi-LSTM模型，根据其概率做排序，选取概率最大的候选词作为最优候选；

根据例子，当前返回：

[

{word:”接地”，begin:21,end:22},

{word:”合上”,begin:27,end:28}

]

然后流程走向步骤12；

步骤10：实体链接分析

根据步骤4的结果，遍历命名实体，根据实体类型和知识库中同类型的实体，做文本距离分析，并排序；

步骤11：返回知识库实体

根据步骤10的结果，选取所有实体中文本距离最接近的实体，作为当前遍历实体的真实值，如中山变，返回结果是中山变电站，1亩母线，返回结果是1#母线，然后判断所有实体，在图库中是否可以连接，可以连接则返回，不能连接，给出疑问提醒，然后结束。

步骤12：结束。

本发明解决了电网领域内，语音识别精度难以实用，需要文本纠错来提高精度，以达到一定程度的实用化目的。

实施例2

本系统中各模块的实现方案参见实施例1方法中各步骤的实现过程。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种电网领域调度场景下的文本纠错方法，其特征是，包括以下过程：

将命名实体集合与知识库做实体链接确定实体的真实信息；

对分词集合中各词添加拼音特征生成新的分词集合；

根据可疑错别字的拼音从拼音字典中获得此词的候选集；

2.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述对文本中句子处理前还包括：删除语气词重复词。

3.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述将命名实体集合与知识库做实体链接，确定实体的真实信息，包括：

从命名实体集合中提取设备类实体组成实体类集合；

遍历实体类集合中各设备类实体，将各设备类实体与知识库中同类型的实体做文本距离分析；

4.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述生成新的分词集合后，还包括对新的分词集合进行符号转译，具体包括：

数字根据拼音做转换：

5.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述概率模型为Transformer+Bi-LSTM模型。

6.根据权利要求5所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述将新的分词集合输入概率模型获得各个词出现的概率，包括：

将新的分词集合通过word2vec模型转换为词向量；

7.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述根据概率确定可疑错别字，包括：

将概率小于阈值的词认为是可疑错别字。

8.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述获取候选集后，还包括：对候选集中各词进行合法性检查，具体过程为：

删除候选集中包含的敏感词和自定义函数，所述自定义函数包括：候选词不在基于电网语料训练的词向量中和命名实体被作为错别字。

9.根据权利要求1所述的一种电网领域调度场景下的文本纠错方法，其特征是，所述根据概率确定最优候选，包括：

选取概率最大的候选词作为最优候选。

10.一种电网领域调度场景下的文本纠错系统，其特征是，包括：