CN113705203A

CN113705203A - 文本纠错方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113705203A
Application number: CN202111026986.6A
Authority: CN
Inventors: 董慧智; 王晓平; 金明; 孟令波; 陈琪琪
Original assignee: Shanghai Jilian Network Technology Co ltd
Current assignee: Shanghai Jilian Network Technology Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-26
Anticipated expiration: 2041-09-02
Also published as: CN113705203B

Abstract

本申请提供一种文本纠错方法、装置、电子设备及计算机可读存储介质，属于数据处理技术的领域，该文本纠错方法包括：对待处理文本进行分词，得到分词结果，并将分词结果中连续的孤立字单元进行拼接得到变体词，再查询预先构建的变体词库中是否包含所述变体词，若不包含，则对待处理文本中的变体词进行掩膜得到掩码文本，采用掩码语言模型，对掩码文本中的掩码区域进行预测，得到多个预测词，接着判断各预测词中是否存在与变体词匹配的预测词，若是，则将掩码文本中的变体词替换为该匹配的预测词，以得到纠错后的文本，结合变体词库中变体词查询和掩码语言模型的预测，实现双重纠错，从而能够提高对文本的纠错效果。

Description

文本纠错方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术，尤其是涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。

背景技术

随着计算机网络的飞速发展，诸多网络社交平台如微博、微信、聊天社区、视频弹幕等走进了人们的生活，这些网络平台每天都在持续不断地产生海量的用户交互数据，如文本数据。相比于正式场合的文本语言，产生自网络平台的网络语言有着明显的多变性和随意性，具体变现为，文本语言的表述存在着大量的音同字异、网络习惯替代用语、形近字替代、同义词变体、音字混合、拼音缩写等诸多情形。

面对这类包含网络语言的网络文本，使用传统的基于指定关键字或者基于配通符弹性匹配的信息检索方法已经不能胜任，从而给网络场景下有效的信息审核和监管带来了困难。目前，通常使用基于N-Gram模型的文本纠错方法对这类网络文本进行纠错处理，但是这种方法受限于模型本身，N-Gram模型中的N值若较小，则不能有效捕捉上下文信息，而N值较大则会面临数据稀疏的问题，从而导致训练出的N-Gram模型在现实中的纠错效果较差。

发明内容

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

本申请的目的包括，提供一种文本纠错方法、系统、电子设备及计算机可读存储介质，在一定程度上能够改善目前的文本纠错方法纠错效果较差的问题。

第一方面，本申请提供一种文本纠错方法，采用如下的技术方案：

一种文本纠错方法，所述方法包括：

对待处理文本进行分词，得到分词结果，并将所述分词结果中连续的孤立字单元进行拼接得到变体词；

查询预先构建的变体词库中是否包含所述变体词，若不包含，则对所述待处理文本中的所述变体词进行掩膜得到掩码文本，采用掩码语言模型，对所述掩码文本中的掩码区域进行预测，得到多个预测词；

判断各所述预测词中是否存在与所述变体词匹配的预测词，若是，则将所述掩码文本中的所述变体词替换为该匹配的预测词，以得到纠错后的文本。

在一种可能的实施方式中，所述方法还包括：

若各所述预测词中不存在与所述变体词匹配的预测词，则将所述待处理文本进行拼音化处理，得到拼音文本，采用拼音文字转换模型对所述拼音文本进行处理，得到文字文本；

根据所述变体词在所述待处理文本中的位置，在所述文字文本中找到该位置对应的词或词组，将所述待处理文本中的所述变体词替换为所述词或词组，以得到纠错后的文本。

在一种可能的实施方式中，所述判断各所述预测词中是否存在与所述变体词匹配的预测词的步骤，包括：

将各所述预测词和所述变体词进行拼音化处理，将拼音化后的各所述预测词与所述变体词的拼音进行比较；

若匹配到与所述变体词的拼音一致的预测词，则判定各所述预测词中存在与所述变体词匹配的预测词；

否则，判定各所述预测词中不存在与所述变体词匹配的预测词。

在一种可能的实施方式中，所述将拼音化后的各所述预测词与所述变体词的拼音进行比较的步骤，包括：

将各所述预测词按照各自的置信度进行降序排列，将拼音化后的各所述预测词按照排列顺序依次与所述变体词的拼音进行比较；

其中，所述置信度由采用掩码语言模型对所述掩码文本中的掩码区域进行预测而获得。

在一种可能的实施方式中，所述方法还包括：

若预先构建的所述变体词库中包含所述变体词，则用所述变体词库中与该变体词具有对应关系的原形词替换所述待处理文本中的该变体词，以得到纠错后的文本。

在一种可能的实施方式中，所述对待处理文本进行分词，得到分词结果，并将所述分词结果中连续的孤立字单元进行拼接得到变体词的步骤，包括：

对待处理文本进行分词，得到分词结果，所述分词结果包括多个词组单元；

从多个所述词组单元中确定孤立字单元，并判断是否有连续的孤立字单元；

若是，则将该连续的孤立字单元进行拼接得到变体词。

在一种可能的实施方式中，所述方法还包括预先构建变体词库的步骤，该步骤包括：

获取网络中所使用的变体词，并获取每个所述变体词的原形词；

针对每个所述变体词，将该变体词与该变体词的原形词以结构体数组的形式存储于变体词库中。

第二方面，本申请提供一种文本纠错装置，采用如下的技术方案：

一种文本从纠错装置，包括：

分词模块，用于对待处理文本进行分词，得到分词结果，并将所述分词结果中连续的孤立字单元进行拼接得到变体词；

预测词获取模块，用于查询预先构建的变体词库中是否包含所述变体词，若不包含，则对所述待处理文本中的所述变体词进行掩膜得到掩码文本，采用掩码语言模型，对所述掩码文本中的掩码区域进行预测，得到多个预测词；

匹配处理模块，用于判断各所述预测词中是否存在与所述变体词匹配的预测词，若是，则将所述掩码文本中的所述变体词替换为该匹配的预测词，以得到纠错后的文本。

第三方面，本申请提供一种电子设备，采用如下技术方案：

一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的方法。

第四方案，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在的电子设备执行第一方面所述的方法。

本申请实施方式的有益效果包括，例如：

本申请实施方式提供一种纠错方法、装置、电子设备和计算机可读存储介质,利用分词工具蕴含的概率语言模型能力，对待处理文本进行分词，根据分词结果中连续的孤立字单元得到变体词，当查询到变体词库中不包含该变体词时，将变体词进行掩膜得到掩码文本，采用掩码语言模型对掩码文本进行预测，得到掩码语言模型对掩码文本中该掩码区域的预测词，从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词，以得到纠错后的文本，结合变体词库中变体词查询和掩码语言模型的预测，实现双重纠错，从而能够提高对文本的纠错效果。

附图说明

为了更清楚地说明本公开的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施方式，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一种实施方式的电子设备的结构框图。

图2为一种实施方式的文本纠错方法的流程示意图。

图3为另一种实施方式的文本纠错方法的流程示意图。

图4为又另一种实施方式的文本纠错方法的流程示意图。

图5为图2步骤S101的子步骤的一种实施方式的流程示意图。

图6为图2步骤S104的子步骤的一种实施方式的流程示意图。

图7为一种实施方式的预先构建变体词库的流程示意图。

图8为一种实施方式的文本纠错装置的结构框图。

附图标记说明：01-电子设备；02-处理器；03-存储器；04-分词模块；05-预测词获取模块；06-匹配处理模块；07-第二替换模块；08-拼音文字转换模块；09-第一替换模块。

具体实施方式

为使本申请实施方式的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。通常在此处附图中描述和示出的本申请实施方式的组件可以以各自不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施方式的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下获得的所有其他实施方式，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

参照图1，为本申请实施方式提供的一种电子设备的方框结构示意图，该电子设备01可以包括但不限于存储器03和处理器02。

其中，处理器02和存储器03均位于电子设备01中却二者分离设置。然而，应当理解的是，存储器03可以替换成计算机可读存储介质，且存储器03和计算机可读存储介质都可以是独立于电子设备01之外，且可以由处理器02通过总线接口来访问。此外，存储器03可以集成到处理器02中，例如，可以是高速缓存和/或通用寄存器。

在本实施方式中，计算机可读存储介质和存储器03均可用于存储计算机程序，处理器02执行计算机程序时，能够实现本申请实施方式给出的文本纠错方法。

需要说明的是，图1所示的电子设备01的结构示意图，电子设备01还可以包括比图1中所示更多或更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。电子设备01可以是，但不限于计算机、手机、IPad、服务器、笔记本电脑、移动上网设备等。

在一种实施方式中，提供了一种文本纠错方法，如图2所示，包括以下步骤：

步骤S101，对待处理文本进行分词，得到分词结果，并将分词结果中连续的孤立字单元进行拼接得到变体词。

步骤S102，查询预先构建的变体词库中是否包含变体词。

若不包含，则执行步骤S103。

步骤S103，对待处理文本中的变体词进行掩膜得到掩码文本，采用掩码语言模型，对掩码文本中的掩码区域进行预测，得到多个预测词。

步骤S104，判断各预测词中是否存在与变体词匹配的预测词。

若是，则执行步骤S105。

步骤S105，将掩码文本中的变体词替换为该匹配的预测词，以得到纠错后的文本。

其中，掩码语言模型为采用全词掩码(Whole Word Masking，WWM)方式，采用机器学习算法，基于大文本数据训练得到，能够根据掩码文本的上下文，对掩码区域进行预测。

上述文本纠错方法，先利用了分词工具蕴含的概率语言模型能力，对待处理文本进行分词，根据分词结果中连续的孤立字单元得到变体词，当查询到变体词库中不包含该变体词时，再将变体词进行掩膜得到掩码文本，采用掩码语言模型对掩码文本进行预测，得到掩码语言模型对掩码文本中该掩码区域的预测词，从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词，以得到纠错后的文本，结合变体词库中变体词查询和掩码语言模型的预测，实现双重纠错，从而能够提高对文本的纠错效果。

在一种实施方式中，训练掩码语言模型(Masked Language Modeling，MLM)时，可以采用BERT(Bidirectional Encoder Representation from Transformers)、RoBERTa、ALBERT等模型中任一种模型。

需要说明的是，在上述步骤S103中，掩码语言模型预测出K个预测词，且同时输出每个预测词的置信度，该置信度用于表示该预测词为掩码区域的变体词所对应的原形词的概率。其中，K值可以根据实际需要或按照井眼进行设置。

在一种实施方式中，如图3所示，为本纠错方法还包括以下步骤：

若预先构建的变体词库中包含变体词，则执行步骤S106。

步骤S106，用变体词库中与该变体词具有对应关系的原形词替换待处理文本中的该变体词，以得到纠错后的文本。

具体地，在上述步骤S102中判定预先构建的变体词库中包含由孤立字单元拼接得到的变体词，则执行步骤S106。若步骤S102中判定预先构建的变体词库中不包括由孤立字单元拼接得到的变体词，则执行步骤S103。

在一种实施方式中，如图4所示，文本纠错方法还包括如下步骤：

若各预测词中不存在与所述变体词匹配的预测词，则执行步骤S107。

步骤S107，将待处理文本进行拼音化处理，得到拼音文本，采用拼音文字转换模型对拼音文本进行处理，得到文字文本。

步骤S108，根据变体词在待处理文本中的位置，在文字文本中找到该位置对应的词或词组，将待处理文本中的变体词替换为词或词组，以得到纠错后的文本。

其中，拼音文字转换模型为预先训练好的模型，能够将拼音文本转换为文字文本。

具体地，在上述步骤S104中判定各预测词中存在与变体词匹配的预测词，则执行步骤S105。若步骤S104中判定各预测词中不存在与变体词匹配的预测词，则执行步骤S107，接着执行步骤S108。

在本实施方式的文本纠错方法中，综合利用了变体词库纠错的准确性和可靠性，掩码语言模型基于大文本数据训练的强大的上下文分析纠错能力，以及拼音文字转换模型的映射纠错能力，并将上述三种纠错方法进行级联设置，多环节对待处理文本进行纠错，极大增强整体纠错能力，进而极大地提高了纠错效果。同时，一旦其中某个环节已经获取到变体词的原形词，则纠错结束，无需执行完所有环节，从而在一定程度上保证了纠错处理的高效性。

在一种实施方式中，拼音文字转换模型的训练方式包括：

以大量文字拼音数据作为训练集，训练集中的每个拼音文本均有其对应的文字文本。

采用机器学习模型，以拼音文本作为输入，对应的文字文本作为输出，进行训练，得到拼音文字转换模型。

其中，机器学习模型包括Seq2Seq模型、Transformer模型等自然语言处理模型中的任几种。

在一种实施方式中，如图5所示，为步骤S101的一种子步骤的流程示意图，包括如下步骤：

步骤S201，对待处理文本进行分词，得到分词结果。

其中，所述分词结果包括多个词组单元。各个词组单元可能是孤立字单元，也可能是多字单元。

步骤S202，从多个词组单元中确定孤立字单元。

步骤S203，判断是否有连续的孤立字单元。

若是，则执行步骤S204。

否则，则该待处理文本为无需纠错的文本。

步骤S204，将该连续的孤立字单元进行拼接得到变体词。

变体词大多为音同字异、网络习惯替代用语、形近字替代、同义词变体、音字混合、拼音缩写，故而大多数变体词经过分词处理后字与字不能成词。因此，先对待处理文本进行分词后得到孤立字单元，连续的孤立字单元为变体词的几率较大，从而能够快速查找出待处理文本中的变体词。

在一种实施方式中，如图6所示，为步骤S104的一种子步骤的流程示意图，包括以下步骤：

步骤S301，将各预测词和变体词进行拼音化处理，将拼音化后的各预测词与变体词的拼音进行比较。

若匹配到与变体词的拼音一致的预测词，则执行步骤S302。

否则，执行步骤S303。

步骤S302，判定各预测词中存在与变体词匹配的预测词。

步骤S303，判定各预测词中不存在与变体词匹配的预测词。

将预测词和变体词都进行拼音化之后，再进行比较，在一定程度上能够判断出该变体词与预测词是否为音同字异、音字混合、拼音缩写等情形。

由于网络文本中的变体词大多为音同字异、音字混合、拼音缩写，因此，将预测词和变体词都进行拼音化之后，再进行比较，能够更为全面地进行变体词匹配。

在一种实施方式中，上述步骤S301包括：

将各预测词按照各自的置信度进行降序排列，将拼音化后的各预测词按照排列顺序依次与变体词的拼音进行比较。

其中，置信度由采用掩码语言模型对掩码文本中的掩码区域进行预测而获得。

置信度表示掩码语音模型所预测的预测词为掩码区域的变体词的原形词的概率，按照置信度从高到低的顺序，将拼音化的预测词依次与拼音化后的变体词进行比较，一旦有拼音化的预测词与该拼音化后的变体词匹配，则结束比较，可提高匹配速度，以提高快速匹配到预测词的几率。

在一种实施方式中，提供的文本纠错方法还包括预先构建变体词库的步骤，如图7所示，该步骤包括：

步骤S401，获取网络中所使用的变体词，并获取每个变体词的原形词。

步骤S402，针对每个变体词，将该变体词与该变体词的原形词以结构体数组的形式存储于变体词库中。

具体地，变体词库中的数据格式设计为key—value结构，key为变体词，value为变体词所对应的原形词。

需要说明的是，使用文本纠错方法进行文本纠错时，无需每次都进行步骤S401-步骤S402。具体地，每隔一段时间可以进行步骤S401-步骤S402的方法，以更新变体词库中的变体词。

在一种实施方式中，如图8所示，提供了一种文本纠错装置，包括：分词模块04、预测词获取模块05和匹配处理模块06，其中：

分词模块04，用于对待处理文本进行分词，得到分词结果，并将分词结果中连续的孤立字单元进行拼接得到变体词。

预测词获取模块05，用于查询预先构建的变体词库中是否包含变体词，若不包含，则对待处理文本中的变体词进行掩膜得到掩码文本，采用掩码语言模型，对掩码文本中的掩码区域进行预测，得到多个预测词。

匹配处理模块06，用于判断各预测词中是否存在与变体词匹配的预测词，若是，则将掩码文本中的所述变体词替换为该匹配的预测词，以得到纠错后的文本。

在一种实施方式中，该文本纠错装置还包括：拼音文字转换模块08和第一替换模块09。

拼音文字转换模块08，用于若各预测词中不存在与变体词匹配的预测词，则将待处理文本进行拼音化处理，得到拼音文本，采用拼音文字转换模型对拼音文本进行处理，得到文字文本。

第一替换模块09，用于根据变体词在待处理文本中的位置，在文字文本中找到该位置对应的词或词组，将待处理文本中的变体词替换为词或词组，以得到纠错后的文本。

在一种实施方式中，该文本纠错装置还包括第二替换模块07。

第二替换模块07，用于若预先构建的变体词库中包含变体词，则用变体词库中与该变体词具有对应关系的原形词替换待处理文本中的该变体词，以得到纠错后的文本。

进一步的，上述匹配处理模块06包括比较单元和判定单元。

比较单元，用于将各预测词和所述变体词进行拼音化处理，将拼音化后的各预测词与变体词的拼音进行比较。

判定单元，用于若匹配到与变体词的拼音一致的预测词，则判定各预测词中存在与变体词匹配的预测词，否则，判定各预测词中不存在与变体词匹配的预测词。

上述文本纠错装置，先利用了分词工具蕴含的概率语言模型能力，对待处理文本进行分词，根据分词结果中连续的孤立字单元得到变体词，当查询到变体词库中不包含该变体词时，再将变体词进行掩膜得到掩码文本，采用掩码语言模型对掩码文本进行预测，得到掩码语言模型对掩码文本中该掩码区域的预测词，从预测词中选择与该变体词匹配的预测词来替换掩码文本中的变体词，以得到纠错后的文本，结合变体词库中变体词查询和掩码语言模型的预测，实现双重纠错，从而能够提高对文本的纠错效果。

在本公开所提供的几个实施方式中，应该理解到，所揭露的装置、系统图和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施方式中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备01，或者网络设备等)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器03(ROM，Read-Only Memory)、随机存取存储器03(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本公开的可选实施方式而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述判断各所述预测词中是否存在与所述变体词匹配的预测词的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述将拼音化后的各所述预测词与所述变体词的拼音进行比较的步骤，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1或2所述的方法，其特征在于，所述对待处理文本进行分词，得到分词结果，并将所述分词结果中连续的孤立字单元进行拼接得到变体词的步骤，包括：

若是，则将该连续的孤立字单元进行拼接得到变体词。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括预先构建变体词库的步骤，该步骤包括：

8.一种文本纠错装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在的电子设备执行权利要求1至7任一项所述的方法。