CN114118065A

CN114118065A - 一种电力领域中文文本纠错方法、装置、存储介质及计算设备

Info

Publication number: CN114118065A
Application number: CN202111259401.5A
Authority: CN
Inventors: 刘子全; 杨景刚; 胡成博; 王真; 朱雪琼; 高山; 马径坦; 刘咏飞; 赵科; 路永玲
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-03-01

Abstract

本发明公开了一种电力领域中文文本纠错方法、装置、存储介质及计算设备，该方法包括：将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域预训练语言模型中，得到句子中每个字的预测字符序列；对每个字的预测字符序列进行筛选得到句子中每个字的语义候选集；将同一句子分别输入到拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中，得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错。本发明采用预训练语言模型来代替统计语言模型，构建针对电力行业的文本纠错方案，可以有效提升文本纠错的效果。

Description

一种电力领域中文文本纠错方法、装置、存储介质及计算设备

技术领域

本发明公开了一种电力领域中文文本纠错方法、装置、存储介质及计算设备，属于电力领域语言处理技术领域。

背景技术

中文文本纠错是对中文文本进行错误检测和纠正。中文文本纠错技术是自然语言处理领域底层的核心技术，广泛应用于智能对话、搜索引擎、辅助创作等不同的业务场景，一直受到业界的广泛关注。

中文文本拼写错误主要分为拼音错误和字形错误。随着电力行业信息化建设的越来越完善，各种文本数据也逐渐增多。构建符合电力领域的文本纠错模型，可以有效提升电力行业下智能对话、搜索引擎的效果，助力电力行业信息化、智能化转型。

传统的中文文本纠错方法首先检测拼写错误的字符，并使用统计语言模型生成候选集，然后通过计算文本困惑度或设定规则等方法过滤错误的候选字符。但是由于统计语言模型的语义表征效果限制，导致需要通过大量的规则来进行候选字符过滤。该方法不仅耗时耗力且泛化性不高。

发明内容

本发明的目的在于提供一种电力领域中文文本纠错方法、装置、存储介质及计算设备，采用预训练语言模型来代替统计语言模型，构建针对电力行业的文本纠错方案，可以有效提升文本纠错的效果。

为实现上述目的，本发明采用的技术方案如下：

本发明提供一种电力领域中文文本纠错方法，包括：

将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域PLOME预训练语言模型中，对输出结果进行筛选，得到句子中每个字的候选语义候选集；

将同一句子分别输入到预先构建的拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中，得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；

基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错。

进一步的，还包括：

收集电力领域文本；

基于字符替换规则对收集的电力领域文本进行替换，得到错误文本和正确文本；

将错误文本作为PLOME预训练语言模型的输入，将正确文本作为标签，对PLOME预训练语言模型进行训练，得到电力领域PLOME预训练语言模型。

进一步的，所述字符替换规则包括：字音混淆词替换、字形混淆词替换、随机替换和原词不变四种方式。

进一步的，对电力领域文本进行替换中，仅替换原句中15％的字。

进一步的，对电力领域文本进行替换中，4种替换方式占比为：60％、15％、10％和15％。

进一步的，对PLOME预训练语言模型进行训练过程中，

对输入的错误文本的每个字分别进行字符嵌入、位置嵌入、语音嵌入和形状嵌入，得到字符嵌入向量、位置嵌入向量、语音嵌入向量和形状嵌入向量；

将得到的字符嵌入向量、语音嵌入向量和形状嵌入向量进行拼接；采用位置嵌入向量对拼接后的向量进行点乘，得到最终的词嵌入向量；

将输入的错误文本得到的词嵌入向量输入到Transformer编码器得到文本序列向量；

以文本序列向量作为预测分类器的输入，对错误文本中每个字都进行预测，预测得到预定义的词表中每个词的出现概率。

进一步的，

进行字符嵌入包括：将输入的错误文本进行标准化、子词切割和长度截断填充；通过预定义的大小为21178的词表将处理后文本中的词编码为独热向量；通过大小为[21178,768]的词嵌入矩阵，得到错误文本中每个字的字符嵌入向量；

进行位置嵌入包括：设定一个固定长度的位置向量，基于错误文本对填充位置填充“0”，其余填充“1”，得到位置嵌入向量；

进行语音嵌入包括：基于统汉字数据库得到字符-拼音的映射表；通过映射表寻找错误文本中的每个字的拼音；将每一个字的拼音字母序列编码为独热向量输入到GRU网络中，得到该字的拼音嵌入向量；

进行形状嵌入包括：基于汉语拆字字典数据库得到字形的笔画顺序；将字形的笔画顺序编码为独热向量输入到GRU网络中，得到该字的字形嵌入向量。

进一步的，

将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域PLOME预训练语言模型中，对句子中每个字都预测得到预定义的词表中每个词的出现概率；

将出现概率最高的前N个词作为该字的语义候选集。

进一步的，所述N取5。

进一步的，还包括：

基于开源的拼音混淆库来构建拼音混淆词典，并利用Pypinyin工具包对拼音混淆词典进行扩充；

基于开源的字形混淆库来构建字形混淆词典；

以及，

基于电力领域的常用术语和关键词构建电力领域自定义混淆词典。

进一步的，所述基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错，包括：

如果待纠错的字符已经存在于语义候选集中，则不进行纠错。

如果待纠错的字符不存在于语义候选集中，且语义候选集与拼音混淆集、字形混淆集、自定义混淆集中任意一个存在交集，则将语义候选集中出现概率最高的词进行替换；否则不进行纠错。

本发明还提供一种电力领域中文文本纠错装置，包括：

电力领域PLOME预训练语言模型，用于以需要纠错的电力领域中文文本中的句子为输入，对句子中的每个字，预测预定义的词表中每个词的出现概率；

筛选模块，用于基于每个词的出现概率进行筛选得到每个字的语义候选集；

预测模块，用于基于拼音混淆词典、字形混淆词典和电力领域自定义混淆词典，预测得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；

以及，

纠错输出模块，用于基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错。

进一步的，所述电力领域PLOME预训练语言模型包括词嵌入模块、Transformer编码模块和输出模块；

所述词嵌入模块用于，对输入的文本的每个字分别进行字符嵌入、位置嵌入、语音嵌入和形状嵌入，得到字符嵌入向量、位置嵌入向量、语音嵌入向量和形状嵌入向量；以及，将得到的字符嵌入向量、语音嵌入向量和形状嵌入向量进行拼接，并采用位置嵌入向量对拼接后的向量进行点乘，得到最终的词嵌入向量；

所述Transformer编码模块用于，对词嵌入向量进行编码得到文本序列向量；

所述输出模块用于以文本序列向量为输入，对输入的文本的每个字均采用预测分类器进行预测，预测得到预定义的词表中每个词的出现概率。

进一步的，所述Transformer编码模块采用12层Transformer编码器。

进一步的，所述筛选模块具体用于，

筛选出现概率最高的前N个词作为该字的语义候选集。

进一步的，所述纠错输出模块具体用于，

判断待纠错的字符是否在语义候选集中，

本发明第三方面还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据前述的方法中的任一方法。

本发明第四方面还提供一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据前述的方法中的任一方法的指令。

本发明的有益效果为：

(1)本发明通过构建电力领域的PLOME预训练语言模型，可以有效提升电力行业文本纠错的效果。

(2)本发明方法可以有效应用于电力行业智能对话、搜索引擎、辅助创作等不同的业务场景。

附图说明

图1为本发明实施例提供的一种电力领域中文文本纠错方法流程图；

图2为本发明实施例中构建的PLOME预训练语言模型结构。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种电力领域中文文本纠错方法，基于预训练语言模型实现，包括：

将需要纠错的电力领域中文文本中的句子输入到训练好的电力领域PLOME预训练语言模型中，对每个字均进行预测，预测得到预定义的词表中每个词的出现概率；

对每个词的出现概率进行筛选得到句子中每个字的语义候选集；

将同一句子分别输入到拼音混淆词典、字形混淆词典和电力领域自定义混淆词典中，得到句子中每个字的拼音混淆集、字形混淆集和自定义混淆集；

作为本发明的一种优选实施方式，对收集的电力领域文本，采用字符替换的方式得到错误文本和正确文本，将错误文本作为PLOME预训练语言模型的输入，将正确文本作为标签，对PLOME预训练语言模型进行训练，得到针对电力领域的PLOME预训练语言模型。

作为本发明的一种优选实施方式，字符替换规则包括：字音混淆词替换、字形混淆词替换、随机替换和原词不变四种方式。

作为本发明的一种优选实施方式，字符替换仅替换原句中15％的字，且4种替换方式占比分别为:60％、15％、10％、15％。

作为本发明的一种优选实施方式，选取预测概率最高的前N个词作为该字的语义候选集。

作为本发明的一种优选实施方式，如果原词在语义候选集中，则不进行纠错。如果原词不在语义候选集中，且语义候选集和字音/字形/电力领域混淆集存在交集，则将语义候选集中的词进行替换；否则不进行纠错。

本发明的一个实施例提供一种电力领域中文文本纠错方法，参见图1，包括以下步骤：

步骤1、收集大量的电力领域文本，将这些电力领域文本通过字符替换规则进行替换后，得到错误文本和正确文本。

将得到的电力领域错误文本输入到基于纠错知识优化的遮盖预训练语言模型中(英文名：Pre-trained masked language model with misspelled knowledge，以下简称：PLOME纠错预训练语言模型)。将电力领域正确文本作为标签，对PLOME纠错预训练语言模型进行训练，得到针对电力领域的PLOME纠错预训练语言模型。

PLOME纠错预训练语言模型的字符替换规则主要是基于以下4种：字音混淆词替换、字形混淆词替换、随机替换、原词不变。其中，原词不变即为正确文本。

在电力领域文本字符替换案例如下表1所示。PLOME纠错预训练语言模型的字符替换策略仅替换原句中15％的字，且4种遮盖策略占比分别为:60％、15％、10％、15％。

表1电力领域文本字符替换案例

PLOME纠错预训练语言模型主要包括词嵌入模块、Transformer编码模块和输出模块。具体结构如图2所示。

词嵌入模块：

在词嵌入模块中，PLOME采用了字符嵌入、位置嵌入、语音嵌入和形状嵌入四种方式。

字符嵌入：PLOME纠错预训练语言模型构建了一个大小为21178的词表。随后将输入的电力领域错误文本进行标准化(tokenization)、子词切割(subword segmentation)、长度截断填充等预处理操作。其次，通过词表将预处理后文本中的词编码为独热向量(one-hot向量)，并通过大小为[21178,768]的词嵌入矩阵，得到电力领域错误文本中每个字的字符嵌入向量。

位置嵌入：PLOME纠错预训练语言模型的位置嵌入是一个固定长度的位置向量。该位置向量对填充位置填充“0”，其余填充“1”，得到位置嵌入向量。

语音嵌入：基于统汉字数据库(Unihan)得到字符-拼音的映射表(不考虑音调)，通过映射表寻找到错误文本中的每个字的拼音。随后将每一个字的多个拼音字母序列编码为独热向量，并输入到GRU网络中，得到该字的拼音嵌入向量。

形状嵌入：基于汉语拆字字典数据库(Chaizi)得到字形的笔画顺序，然后将字形的笔画顺序编码为独热向量，并输入到GRU网络中，得到该字的字形嵌入向量。

将字符嵌入向量、语音嵌入向量、形状嵌入向量进行向量序列拼接；然后为了区分填充字符，使用位置嵌入向量对拼接后的向量进行点乘，得到最终的词嵌入向量。

Transformer编码模块：

Transformer模型是2017年Google研究团队发表的端到端文本生成模型(出自论文《Attention is all you need》)。Transformer模型主要包括编码器和解码器2个模块。该模型在编码器和解码器中主要使用了多头自注意力机制来更好地捕捉句子中不同词之间的依赖关系。鉴于Transformer模型高效的文本建模能力，BERT预训练语言模型(出自2019年论文《bert:Bidirectional Encoder Representations from Transformers》)通过堆叠12层Transformer模型的编码器来构建BERT的编码模块。

PLOME纠错预训练语言模型的Transformer编码模块和BERT预训练语言模型的Transformer编码模块一样，都采用了12层Transformer编码器对文本进行编码。每层Transformer编码器包括了多头自注意力机制(Multi-Head Self-Attention)、残差网络(Add&Norm)以及全连接层(Feed Froward)。多头自注意力机制由12个自注意力机制的编码结果合并得到。

将词嵌入模块中得到的词嵌入向量输入到PLOME纠错预训练语言模型的Transformer编码模块中进行编码，得到PLOME纠错预训练语言模型的文本序列向量。

模型输出模块：

在模型输出模块，PLOME纠错预训练语言模型训练了2个任务，并且这2个任务都是将Transformer编码模块中输出的文本序列向量作为预测分类器的输入，这两个任务具体为：

A、字符预测：PLOME纠错预训练语言模型对于待纠错句子中的每个字符，都使用Softmax分类器来预测词表中每个词的出现概率，并选取预测概率最高的词作为待纠错字符的纠正结果。这里的词表指的是PLOME纠错预训练语言模型构建的大小为21178的词表。

B、拼音预测：由于在中文纠错任务(Chinese Sentence Correction，简称CSC)中有80％的错误都是同音或近音错误，因此为了学习在语音层面上拼写纠错的相关知识，将拼音预测作为PLOME的预训练任务，即预测被遮盖的词的正确发音。

比如在表1中，PLOME训练数据的“档卡完整可靠”通过字形混淆词替换规则被替换为“挡卡完整可靠”。训练PLOME时，需要将替换的“挡”预测成原本的“档”，这就是字符预测；同时，还需要预测原本“挡”的拼音“dang”，这就是拼音预测。

步骤2、将需要纠错的句子输入到电力领域PLOME预训练语言模型中，通过PLOME预训练语言模型的字符预测任务，预测得到句子中每一个字的语义候选集。

由于字符预测任务会对于待纠错句子中的每个字符，都预测词表中每个词的出现概率。因此在本实施例中，为了提升纠错任务的召回性能，将词表中预测概率最高的前5个词作为待纠错字符的语义候选集。比如对于“挡”这个词，选取字预测概率最高的前5个词为“档”、“当”、“裆”、“铛”、“荡”，那么这5个词就是“挡”的语义候选集。

需要说明的是，在实际进行文本纠错的时候，只需要使用PLOME的字符预测能力即可，不需要拼音预测能力。

步骤3、构建拼音混淆词典、字形混淆词典和电力领域自定义混淆词典，并分别加载这些混淆词典，然后将待纠错的句子作为输入，得到每个字的拼音混淆集、字形混淆集和自定义混淆集。拼音混淆词典、字形混淆词典、电力领域自定义混淆词典的构建逻辑如下所示：

拼音混淆词典：主要基于开源的拼音混淆库来构建拼音混淆词典，其次基于设定混淆拼音的相关规则并利用Pypinyin等工具包(可以将中文转为拼音或者将拼音转为中文)对拼音混淆词典进行扩充。拼音混淆词典举例：“在”的拼音混淆词为：[“再”、“载”、“仔”、“灾”、...]

字形混淆词典：基于开源的字形混淆库来构建字形混淆词典。字形混淆词典举例：“谷”的字形混淆词为：[“俗”、“裕”、“浴”、“豁”...]

电力领域自定义混淆词典：针对电力领域的常用术语、关键词等构建其混淆词典。举例：“额定短路开断电流”：“额定断路开断电流”等

步骤4、基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集构建文本纠错逻辑。具体纠错逻辑如下：

(4A)如果待纠错的字符已经存在于语义候选集中，那么就不进行纠错。

(4B)如果待纠错的字符不存在于语义候选集中，且语义候选集和字音/字形/电力领域混淆集中任意一个存在交集，则将语义候选集中PLOME模型预测概率最高的词进行替换；否则就不进行纠错。

本发明另一个实施例提供一种电力领域中文文本纠错装置，包括：

以及，

作为一种优选的实施方式，筛选模块具体用于，

筛选出现概率最高的前N个词作为该字的语义候选集。

作为一种优选的实施方式，纠错输出模块具体用于，

判断待纠错的字符是否在语义候选集中，

本发明第三个实施例还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据前述的方法中的任一方法。

本发明第四个实施例还提供一种计算设备，包括，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力领域中文文本纠错方法，其特征在于，包括：

2.根据权利要求1所述的一种电力领域中文文本纠错方法，其特征在于，还包括：

收集电力领域文本；

3.根据权利要求2所述的一种电力领域中文文本纠错方法，其特征在于，所述字符替换规则包括：字音混淆词替换、字形混淆词替换、随机替换和原词不变四种方式。

4.根据权利要求3所述的一种电力领域中文文本纠错方法，其特征在于，对电力领域文本进行替换中，仅替换原句中15％的字。

5.根据权利要求4所述的一种电力领域中文文本纠错方法，其特征在于，对电力领域文本进行替换中，4种替换方式占比为：60％、15％、10％和15％。

6.根据权利要求2所述的一种电力领域中文文本纠错方法，其特征在于，对PLOME预训练语言模型进行训练过程中，

7.根据权利要求6所述的一种电力领域中文文本纠错方法，其特征在于，

8.根据权利要求7所述的一种电力领域中文文本纠错方法，其特征在于，

将出现概率最高的前N个词作为该字的语义候选集。

9.根据权利要求8所述的一种电力领域中文文本纠错方法，其特征在于，所述N取5。

10.根据权利要求1所述的一种电力领域中文文本纠错方法，其特征在于，还包括：

基于开源的字形混淆库来构建字形混淆词典；

以及，

11.根据权利要求1所述的一种电力领域中文文本纠错方法，其特征在于，所述基于语义候选集、拼音混淆集、字形混淆集和自定义混淆集对句子中的字进行纠错，包括：

12.一种电力领域中文文本纠错装置，其特征在于，包括：

以及，

13.根据权利要求12所述的一种电力领域中文文本纠错方法，其特征在于，所述电力领域PLOME预训练语言模型包括词嵌入模块、Transformer编码模块和输出模块；

14.根据权利要求13所述的一种电力领域中文文本纠错装置，其特征在于，所述Transformer编码模块采用12层Transformer编码器。

15.根据权利要求12所述的一种电力领域中文文本纠错装置，其特征在于，所述筛选模块具体用于，筛选出现概率最高的前N个词作为该字的语义候选集。

16.根据权利要求12所述的一种电力领域中文文本纠错装置，其特征在于，所述纠错输出模块具体用于，

判断待纠错的字符是否在语义候选集中，

17.一种存储一个或多个程序的计算机可读存储介质，其特征在于：所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至11所述的方法中的任一方法。

18.一种计算设备，其特征在于：包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至11所述的方法中的任一方法的指令。