CN117010367A

CN117010367A - 一种中文文本的规范性检测方法及装置

Info

Publication number: CN117010367A
Application number: CN202310981771.2A
Authority: CN
Inventors: 单宇翔; 高扬华; 金泳
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-07

Abstract

本申请公开了一种中文文本的规范性检测方法及装置，方法包括：将输入文本转换为对应的中文读音特征；基于中文读音特征预测与中文读音特征对应的中文词语组合；将中文词语组合与输入文本进行比对，确定输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果；输出第一纠错结果。本申请基于读音的拼写纠错方法，通过探索字词间的相关性，对易错词组进行针对性的预测，提高了预测的准确率，通过纠错规范文本的内容和格式，提高文本纠错的效率和准确性。

Description

一种中文文本的规范性检测方法及装置

技术领域

本申请涉及自然语言处理技术领域，更具体地，涉及一种中文文本的规范性检测方法及装置。

背景技术

随着计算机和人工智能技术的飞速发展，人们越来越依赖文本进行交流和信息传递，例如合同文本。但是，由于人的语言表达能力和注意力等方面的局限，文本错误屡见不鲜。例如，在编写文本合同时，可能会出现标点、拼写、语法、语义错误等文本错误，因合同条款用语含糊、矛盾、错误造成的合同缺陷，不仅影响了文本的可读性和可信度，也会给读者带来困扰，导致误解和矛盾，会对后续业务的进行造成严重影响。因此，文本纠错在自然语言处理领域中具有极其重要的意义。

传统的文本纠错方法主要基于规则、统计和机器学习等技术，但是这些方法往往需要大量的人工参与和语言专业知识的支持。此外，在处理复杂的文本错误时，这些方法的效果往往不尽如人意。与此相比，基于深度学习技术的文本纠错方法可以构建大规模的语料库和强大的语言模型，从而更加准确地预测和纠正文本中的错误。目前，基于深度学习技术的文本纠错方法已经成为主流，取得了很大的进展和成就。

然而，与英文文本纠错相比，中文文本纠错存在着一些特殊的问题和挑战。主要问题包括多音字、同音字、词汇歧义、易错词组等等，这些问题给中文文本纠错带来了很大的困难。

发明内容

本申请提供一种中文文本的规范性检测方法及装置，基于读音的拼写纠错方法，通过探索字词间的相关性，对易错词组进行针对性的预测，提高了预测的准确率，通过纠错规范文本的内容和格式，提高文本纠错的效率和准确性。

本申请提供了一种中文文本的规范性检测方法，包括：

将输入文本转换为对应的中文读音特征；

基于中文读音特征预测与中文读音特征对应的中文词语组合；

将中文词语组合与输入文本进行比对，确定输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果；

输出第一纠错结果。

优选地，中文文本的规范性检测方法还包括：

对输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议，形成第二纠错结果；

将第一纠错结果和第二纠错结果进行融合，获得第三纠错结果并输出。

优选地，采用加权平均法对第一纠错结果和第二纠错结果进行融合。

优选地，采用加权平均法时，依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。

优选地，基于中文读音特征预测与中文读音特征对应的中文词语组合之前，还包括对中文读音特征中的特殊拼音进行规范化处理。

本申请还提供一种中文文本的规范性检测装置，包括读音转换模块、词语组合预测模块、比对模块以及输出模块；

读音转换模块用于将输入文本转换为对应的中文读音特征；

词语组合预测模块用于基于中文读音特征预测与中文读音特征对应的中文词语组合；

比对模块用于将中文词语组合与输入文本进行比对，确定输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果；

输出模块用于输出第一纠错结果。

优选地，中文文本的规范性检测装置还包括直接检测模块和融合模块；

直接检测模块用于对输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议，形成第二纠错结果；

融合模块用于将第一纠错结果和第二纠错结果进行融合，获得第三纠错结果并输出。

优选地，融合模块用于采用加权平均法对第一纠错结果和第二纠错结果进行融合。

优选地，融合模块用于采用加权平均法时，依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。

优选地，中文文本的规范性检测装置还包括读音规范模块，读音规范模块用于对中文读音特征中的特殊拼音进行规范化处理。

通过以下参照附图对本申请的示例性实施例的详细描述，本申请的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且连同其说明一起用于解释本申请的原理。

图1为本申请提供的中文文本的规范性检测方法的一个优选实施例的流程图；

图2为本申请提供的中文文本的规范性检测方法的一个优选实施例的原理示意图；

图3为BART模型的原理示意图；

图4为本申请提供的中文文本的规范性检测装置的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

本申请提供一种中文文本的规范性检测方法及装置，基于读音的拼写纠错方法，通过探索字词间的相关性，对易错词组进行针对性的预测，提高了预测的准确率，通过纠错规范文本的内容和格式，提高文本纠错的效率和准确性。进一步地，本申请还利用了中文汉字的读音特征，直接对文本中的拼写错误进行检测和修正，有效地解决了多音字、同音字、词汇歧义等问题。在此基础上，将通过读音拼写和直接的文本拼写纠错结果融合在一起，最终得出修正建议，这种方法有效地综合了两种模型的优点，提高了纠错的准确性和完整性。

如图1所示，作为一个实施例，本申请提供的中文文本的规范性检测方法包括：

S110：将输入文本转换为对应的中文读音特征。

需要说明的是，本申请中，输入文本为含有中文语法错误的文本，错误类型包括标点、拼写、语法和语义错误等。

作为一个实施例，输入文本来自多国语言学习交流平台Lang 8数据集，Lang-8数据集是一组高质量的多语言文本数据，其特点在于文本已经被母语为该语言的人进行了纠正和注释，可用于自然语言处理、机器学习、语言学习等领域的模型训练和评估。该数据集覆盖了多种语言，包括英语、日语、中文、西班牙语、法语等。数据集中的文本经过了真实用户的提交和纠正，其质量很高。同时，该数据集也具有一定的代表性，能够反映出不同语言使用者的写作习惯和语法错误。

具体地，采用正则表达式将用于检测的一段长文本按匹配规则切分为长度较短的多条语句，形成输入文本Text1，在消除额外影响的同时保留上下文语境信息。

获得输入文本后，首先将原始的输入文本Text1按照一定规则进行分词，得到分词后的词组p₁，p₂，...，p_x，然后将分词后的词组输入读音转换工具，提取中文读音特征。优选地，在获得中文读音特征之后，还对中文读音特征中的特殊拼音进行规范化处理，例如‘lue’规范化为‘lve’，以消除声调的影响。

S120：基于中文读音特征预测与中文读音特征对应的中文词语组合。

作为一个实施例，中文读音转换模型基于维特比(Viterbi)算法将中文读音特征转换为对应的中文词语组合phrase₁，phrase₂，...，phrase_x。Viterbi算法是一种动态规划算法，常用于序列标注问题中，其基本思想是利用动态规划的方法，递归地求解每个时刻的最优状态序列，并利用路径回溯的方式得到最优路径。

Viterbi算法的基本原理：假设给定隐式马尔可夫模型(HMM)状态空间S，共有k个状态，初始状态i的概率为π_i，从状态i到状态j的转移概率为a_i，j。令观察到的输出为y₁，…，y_T。产生该观察结果的最有可能的状态序列x₁，…，x_T由递推关系给出：

V_1，k＝P(y₁|k)·π_k (1)

其中，V_1，k是t＝1时最终状态为k的观测结果对应的状态序列的概率，P(y₁|k)是在状态k下观察到输出为y₁的概率，V_t，k是前t个最终状态为k的观测结果最有可能对应的状态序列的概率，P(y_t|k)是在状态k下观察到输出为y_t的概率。通过保存向后制作记住在等式(2)中用到的状态x可以获得Viterbi路径。其中，通过函数Ptr(k，t)返回每个状态序列值，若t＞1，则该函数返回的是V_t，k用到的x值；若t＝1，则该函数返回的是状态k，这样：

x_t-1＝Ptr(x_t，t) (4)

基于Viterbi算法，将汉字作为隐藏状态，拼音作为观测值，可以将多个拼音转换成合理的汉字。

S130：将中文词语组合与输入文本进行比对，确定输入文本的第一错误点位置和第一纠错建议S1，形成第一纠错结果。

具体地，将转换后的中文词语组合phrase₁，phrase₂，...，phrase_x作为参考值，与原的始输入文本Text1进行比对，确定第一错误点位置，并给出第一纠错建议。

作为一个实施例，在获得第一纠错结果后执行S160：输出第一纠错结果。

上述基于读音的拼写纠错方法通过探索字词间的相关性，对易错词组进行针对性的预测，提高了预测的准确率，从而提高了纠错的准确率。

在上述基础上，优选地，结合图2，本申请的中文文本的规范性检测方法还包括：

S140：对输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议S2，形成第二纠错结果。

作为一个实施例，采用掩码预测模型对输入文本直接进行错误检测，其对输入文本Text1中可能存在的标点、拼写、语法、语义等错误进行检测，预测正确文本Text2。

本申请主要采用基于Transformer的序列到序列(seq2seq)方法建模文本纠错任务，具体中文BART(Bidirectional and Auto-Regressive Transformers，双向自回归变压器)作为预训练模型。BART是一个Encoder-Decoder的结构，其Encoder端的输入是加了噪音的序列，Decoder端的输入是Right-shifted的序列，Decoder端的目标是原序列。模型设计的目的很明确，就是在利用Encoder端的双向建模能力的同时，保留自回归的特性，以适用于生成任务。BART吸收了BERT的Bidirectional Encoder(双向编码)和GPT的Left-to-Right Decoder(左-右解码)的特点，建立在标准的seq2seq Transformer Model的基础之上，这使得它比BERT更适合文本生成的场景；相比GPT，也多了双向上下文语境信息。在生成任务上获得进步的同时，它也可以在一些文本理解类任务上取得当前最优的性能表现。

如图3示出了BART的主要结构，编码器输入与解码器输出无需对齐，即允许任意噪声变换，使用掩码符号替换文本段，从而破坏文本，使用双向模型编码破坏的文本，然后使用自回归解码器计算原始文档的似然。输入时先MASK句子的一部分，例如，句子的内容是[x₁，x₂，x₃，x₄，x₅，x₆，x₇，x₈](图3中给出了另一个例子)，从中MASK了[x₃，x₄，x₅，x₆]，那么Encoder的输入变成了[x₁，x₂，[M]，[M]，[M]，[M]，x₇，x₈]。而在Decoder中，它的输入包括Attention加权后的Encoder编码的特征向量，以及当前时间片之前已经预测的内容。经Decoder预测出被MASK的内容，作为正确文本Text2。

随后对比预测出来的正确文本Text2和原始的输入文本Text1，找出原始的输入文本中出现错误的位置(第二错误点位置)，并根据模型检测出的错误类型，给出“插入”、“删除”、“修改”等纠错建议(第二纠错建议)。

利用了BART预训练模型中的掩码机制，通过对文本中的错别字进行预测和替换，实现了对文本纠错的处理。

S150：将第一纠错结果和第二纠错结果进行融合，获得第三纠错结果S3。随后执行S160，将第三纠错结果输出。

作为一个实施例，采用加权平均法对第一纠错结果和第二纠错结果进行融合。

若第一纠错结果和第二纠错结果分别为x₁，x₂，对应的权值为w₁，w₂，加权平均融合法的结果为y，则有：

y＝(w₁·x₁+w₂·x₂)/(w1+w2) (5)

其中，权值w₁，w₂根据模型性能设定，一般要求满足w₁+w₂＝1。

优选地，采用加权平均法时，依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。具体地，先判断输入文本的长度是否大于阈值。若是，则按照第一权重组合对第一纠错结果和第二纠错结果进行融合，其中，第一纠错结果的权重为w1，第二纠错结果的权重为w2，其中w1＜w2，使得第三纠错结果更偏向直接文本检测给出的预测值；否则，按照第二权重组合对第一纠错结果和第二纠错结果进行融合，其中，第一纠错结果的权重为w₁’，第二纠错结果的权重为w₂’，其中w₁’＞w₂’，使得第三纠错结果更偏向读音转换给出的预测值。

经融合后，若系统判定原始的输入文本Text1没有问题，则不会修改原始输入文本Text1，即认为原始的输入文本无相关类型的错误，则输出提示信息，不给出修改建议。若系统判定原始的输入文本Text1中至少存在一处存在规范性问题，则根据修改类型，给出“增加”、“删除”、“修改”的修改建议，并输出修改后的文本内容。

基于上述中文文本的规范性检测，本申请还提供一种中文文本的规范性检测装置。如图4所示，中文文本的规范性检测装置包括读音转换模块410、词语组合预测模块420、比对模块430以及输出模块440。

读音转换模块410用于将输入文本转换为对应的中文读音特征。

词语组合预测模块420用于基于中文读音特征预测与中文读音特征对应的中文词语组合。

比对模块430用于将中文词语组合与输入文本进行比对，确定输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果。

输出模块440用于输出第一纠错结果。

优选地，中文文本的规范性检测装置还包括直接检测模块450和融合模块460。

直接检测模块450用于对输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议，形成第二纠错结果。

融合模块460用于将第一纠错结果和第二纠错结果进行融合，获得第三纠错结果并输出。

优选地，融合模块460用于采用加权平均法对第一纠错结果和第二纠错结果进行融合。

优选地，融合模块460用于采用加权平均法时，依据输入文本的长度确定第一纠错结果和第二纠错结果的权重。

优选地，中文文本的规范性检测装置还包括读音规范模块470，读音规范模块470用于对中文读音特征中的特殊拼音进行规范化处理。

本申请利用中文汉字的读音特征，采用基于拼音和音形码的拼写纠错方法，同时利用掩码预测方法进行文本纠错，对文本中的拼写错误进行检测和修正，最后基于加权平均法将两种模型的修正结果进行融合，综合两种模型的优点，进一步提高了纠错的准确性和完整性，本方法可以较好地处理错误的分词问题，使得文本纠错的效果更加准确和鲁棒，通过实验验证，本申请的方法在中文文本纠错领域取得了很好的效果，并具有很高的实用价值。

虽然已经通过例子对本申请的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本申请的范围。本领域的技术人员应该理解，可在不脱离本申请的范围和精神的情况下，对以上实施例进行修改。本申请的范围由所附权利要求来限定。

Claims

1.一种中文文本的规范性检测方法，其特征在于，包括：

将输入文本转换为对应的中文读音特征；

基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合；

将所述中文词语组合与所述输入文本进行比对，确定所述输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果；

输出所述第一纠错结果。

2.根据权利要求1所述的中文文本的规范性检测方法，其特征在于，还包括：

对所述输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议，形成第二纠错结果；

将所述第一纠错结果和所述第二纠错结果进行融合，获得第三纠错结果并输出。

3.根据权利要求2所述的中文文本的规范性检测方法，其特征在于，采用加权平均法对所述第一纠错结果和所述第二纠错结果进行融合。

4.根据权利要求3所述的中文文本的规范性检测方法，其特征在于，采用加权平均法时，依据所述输入文本的长度确定所述第一纠错结果和所述第二纠错结果的权重。

5.根据权利要求1所述的中文文本的规范性检测方法，其特征在于，基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合之前，还包括对所述中文读音特征中的特殊拼音进行规范化处理。

6.一种中文文本的规范性检测装置，其特征在于，包括读音转换模块、词语组合预测模块、比对模块以及输出模块；

所述读音转换模块用于将输入文本转换为对应的中文读音特征；

所述词语组合预测模块用于基于所述中文读音特征预测与所述中文读音特征对应的中文词语组合；

所述比对模块用于将所述中文词语组合与所述输入文本进行比对，确定所述输入文本的第一错误点位置和第一纠错建议，形成第一纠错结果；

所述输出模块用于输出所述第一纠错结果。

7.根据权利要求6所述的中文文本的规范性检测装置，其特征在于，还包括直接检测模块和融合模块；

所述直接检测模块用于对所述输入文本直接进行错误检测，获得第二错误点位置和第二纠错建议，形成第二纠错结果；

所述融合模块用于将所述第一纠错结果和所述第二纠错结果进行融合，获得第三纠错结果并输出。

8.根据权利要求7所述的中文文本的规范性检测装置，其特征在于，所述融合模块用于采用加权平均法对所述第一纠错结果和所述第二纠错结果进行融合。

9.根据权利要求8所述的中文文本的规范性检测装置，其特征在于，所述融合模块用于采用加权平均法时，依据所述输入文本的长度确定所述第一纠错结果和所述第二纠错结果的权重。

10.根据权利要求6所述的中文文本的规范性检测装置，其特征在于，还包括读音规范模块，所述读音规范模块用于对所述中文读音特征中的特殊拼音进行规范化处理。