CN117591634A

CN117591634A - 一种文本纠错方法、装置、电子设备及存储介质

Info

Publication number: CN117591634A
Application number: CN202311641883.XA
Authority: CN
Inventors: 麦淼; 李梓华; 王梦环; 罗小龙
Original assignee: Guangdong Southern Intelligent Media Technology Co ltd
Current assignee: Guangdong Southern Intelligent Media Technology Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-02-23
Anticipated expiration: 2043-12-04
Also published as: CN117591634B

Abstract

本发明涉及一种文本纠错方法、装置、电子设备及存储介质，该方法包括：构建重点校对词库，重点校对词库包括若干个重点词条以及用于校对文本的词条最大错误值；将待处理文本输入到重点校对词库中进行校对处理，校对处理完毕后输出纠错结果。本发明与现有技术相比，其显著优点是：解决了传统文本分段需要根据语义或分词词库进行切分，受限于语义或词库不完善，存在分词误差的问题；优化了文本的纠错条件，能够准确识别出文本中的多字、漏字、顺序错乱的错误；具有灵活度高、可控性与可解释性强、纠错准确率高，词库维护成本与计算资源成本较低，实现低成本高能效的效果。

Description

一种文本纠错方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，特别是一种文本纠错方法、装置、电子设备及存储介质。

背景技术

文本纠错的目的是检测和纠正文本中的语法、拼写和标点错误，以使其更加易于阅读和理解。尤其在编辑新闻文本时，由于不同的输入法以及输入软件的操作导致打字词条出现同音字、近义词等情况，例如输入“部署”可能会出现“布署”、“部属”等情况，为保证新闻文稿的准确性，需要预先进行校正、修改。

传统的文本纠错是通过校对词库全匹配检索的方式来检测错误，而智媒体时代的数据量爆发式增长，错误类型庞杂、信息真假难辨，高精准的全匹配检索需要依赖数据量庞大、知识丰富的校对词库作为重要支撑，丰富的校对词库需要巨大的人力成本和时间成本来长期维护，无法达到一劳永逸的效果，反而变相加大人工审核难度，难以达到技术高效赋能业务的效果。

业界也存在使用“AI+人工”的形式管控文稿安全，但只适用于传统的基础审核，比如错别字纠错、词条润色等，基础审核的文稿可修改度较高、纠错结果不唯一、容错性较强；面对重点/专题性文本审核则存在安全风险，由于AI模型的参数量庞大，推理过程复杂，导致AI模型的可解释性较差，且受训练数据影响，生成的纠错结果可控性较低，无疑加大重点/专题性文本生产的安全风险和复审难度。因此无论是传统的校对词库匹配，还是AI模型推理计算，都难以在灵活与严谨之间做好平衡与取舍，无法真正解决文稿审校工作的业务痛点。

文献1：中国发明专利CN201811509815.7公开了一种校正文本的方法、装置及设备，通过预设语句分隔库与词汇库匹配确定纠错，在对纠错进行关键词搜索后放入目标文本校正；整个文本纠错过程涉及多种词汇库和文本数据，这种方式对词库质量要求较高，词库数据的收集途径和类型也要随着应用场景的不同而频繁更换，适用性不强。

发明内容

本发明的目的在于提供一种文本纠错方法、装置、电子设备及存储介质，提出“分桶算法”将文本长度作为唯一标准，直接取词条长度，快速匹配对应的标准词条完成差集统计，利用“最大错误值”对差集进行优化，保证了输出校正结果的准确度。

实现本发明目的的技术解决方案为：

一种文本纠错方法，该方法包括：

构建重点校对词库，重点校对词库包括若干个重点词条以及用于校对文本的词条最大错误值；

将待处理文本输入到重点校对词库中进行校对处理，校对处理完毕后输出纠错结果。

进一步的，在重点校对词库设立若干个分桶区间，每个分桶区间对应不同词条长度区间，并为每个分桶区间预置不同的词条最大错误值，将若干个重点词条按照词条长度分别存入对应的分桶区间。

进一步的，校对处理流程为：

根据待处理文本的文字、每个重点词条，分别生成对应的文字列表；

将待处理文本的文字列表与每个重点词条的文字列表分别进行差集统计，得到若干个第一差集；其中，第一差集的内容为待处理文本的文字列表与每个重点词条的文字列表不一致的文字，第一差集的长度为待处理文本的文字列表与每个重点词条的文字列表不一致的文字个数；

将每个第一差集的长度与对应的重点词条所在分桶区间预置的词条最大错误值进行比较，保留长度小于等于对应词条最大错误值的第一差集，结合所保留第一差集对应的重点词条给出待处理文本的修改建议，生成纠错结果。

进一步的，将待处理文本输入到重点校对词库中进行校对处理，校对处理完毕后输出纠错结果之后，还包括：

构建同音易错校对词库，同音易错校对词库包括若干个重点词条，并且预置有同音最大错误值；将待处理文本输入到同音易错校对词库中进行复验处理，复验处理完毕后输出复验结果。

进一步的，根据待处理文本、每个所保留第一差集对应的重点词条，生成其对应的拼音列表；

将待处理文本的拼音列表与所保留第一差集对应的重点词条的拼音列表分别进行差集统计，得到若干个第二差集；其中，第二差集的内容为待处理文本的拼音列表与每个重点词条的拼音列表不一致的拼音，第二差集的长度为待处理文本的拼音列表与每个重点词条的拼音列表不一致的拼音个数；

将每个第二差集的长度与同音最大错误值进行比较，保留长度小于等于同音最大错误值的第二差集，结合所保留第二差集对应的重点词条给出待处理文本的修改建议，生成复验结果。

进一步的，拼音列表的生成，根据如下文字转换拼音格式生成拼音列表：将翘平舌音统一转换为平舌音以及将前后鼻音统一转换为前鼻音。

进一步的，在进行差集统计时，按照拼音列表的拼音顺序，将待处理文本的拼音列表与每个重点词条的拼音列表中相同位置的拼音进行比较。

一种文本纠错装置，该装置包括：

数据单元，用于存储重点校对词库、同音易错校对词库以及纠错结果，其中，重点校对词库包括若干个重点词条以及用于校对文本的词条最大错误值，同音易错校对词库包括待处理文本、每个重点词条的文字转换拼音格式以及预置有同音最大错误值；

预处理单元，用于获取待处理文本，并将待处理文本生成文字列表或拼音列表用于重点校对词库、同音易错校对词库的校对处理；

校对单元，用于首先将待处理文本的文字列表输入重点校对词库中进行校对处理，得到纠错结果；将纠错结果中的重点词条以及待处理文本的拼音列表输入同音易错校对词库中进行复验处理，输出纠错结果。

一种文本纠错设备，包括存储器和处理器，其中：

存储器，用于存储程序；

处理器，用于执行程序，实现如文本纠错方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现如文本纠错方法的各个步骤。

本发明与现有技术相比，其显著优点是：

(1)本发明提出的“分桶算法”将词条长度作为唯一标准，能够直接依据重点词条的分桶属性，对待处理文本进行预处理，不存在分词误差的问题；解决了传统文本分段需要根据语义或分词词库进行切分，受限于语义或词库不完善，存在分词误差的问题；

(2)本发明通过“最大错误值”优化了待处理文本的纠错条件，能够准确识别出待处理文本中的多字、漏字、顺序错乱的错误；解决了传统错别字纠错算法需要满足校对文本与词库词条文本长度均一致的前提条件纠错，且无法同步多字、漏字、顺序错乱等功能的问题；

(3)本发明还设计了“同音校对”，根据词条的拼音顺序、同音性，灵活预置同音最大错误值，解决了传统的混淆拼音纠错需要基于正确词库与混淆拼音词库，每个正确词条存在成千上万种拼音错误类型，数据收集工作量繁琐，人力成本高和维护周期长的问题。

附图说明

图1是本发明的实施例中文本纠错方法的流程示意图。

图2是本发明的实施例中文本纠错方法的应用场景示意图。

具体实施方式

以下结合附图，详细说明本发明的实施方式。

如图1所示，一种文本纠错方法，该方法包括：

具体的，在重点校对词库设立若干个分桶区间，每个分桶区间对应不同词条长度区间，并为每个分桶区间预置不同的词条最大错误值，将若干个重点词条按照词条长度分别存入对应的分桶区间。

具体的，校对处理流程为：

具体的，将待处理文本输入到重点校对词库中进行校对处理，校对处理完毕后输出纠错结果之后，还包括：

具体的，根据待处理文本、每个所保留第一差集对应的重点词条，生成其对应的拼音列表；

具体的，拼音列表的生成，根据如下文字转换拼音格式生成拼音列表：将翘平舌音统一转换为平舌音以及将前后鼻音统一转换为前鼻音。

具体的，在进行差集统计时，按照拼音列表的拼音顺序，将待处理文本的拼音列表与每个重点词条的拼音列表中相同位置的拼音进行比较。

一种文本纠错装置，该装置包括：

一种文本纠错设备，包括存储器和处理器，其中：

存储器，用于存储程序；

处理器，用于执行程序，实现如文本纠错方法的各个步骤。

如图2所示，下面结合本发明的实际应用场景，详细说明文本纠错方法的操作过程。

S1、用户输入待处理文本“系统布署架构”。

S2、建立重点校对词库，词库内容包含正确的技科技术语、专业名词等重点内容词条。

S3、根据重点词条长度进行分桶，通过计算词条的文本长度，将整个校对词条放入对应长度区间的桶，共分为5个桶[A桶，B桶，C桶，D桶，E桶]，分别对应的词条长度区间为[A桶->[1,5]，B桶->[6,8]，C桶->[9,11]，D桶->[12,14]，E桶->[15,+∞]]，每个桶的长度区间可根据用户需求灵活调整。

分桶概念与文本分段并非同一概念，分桶逻辑是直接取词条总长度，可以精确分配到对应的桶中。而文本切分需要根据内容语义或分词词典进行切分，当内容语义理解错误或分词词典不完善的情况，存在分词误差，进而影响纠错效果，而本发明提出的分桶算法是将文本长度作为唯一标准，不存在分桶误差的问题。

S4、每个桶主要区别在于“最大错误值”不同，[桶A，桶B，桶C，桶D，桶E]对应的“最大错误值”分别是[A桶->1，B桶->2，C桶->3，D桶->4，E桶->5]，最大长度可根据用户需求灵活调整。

其中，最大错误值是判断待处理文本是否存在错误的阈值，当重点词条与用户校对词条之间的文字差集小于等于最大错误值，则视为待处理文本存在错误，反之，则直接忽略。

S5、对步骤S1中的待处理文本进行文字统计，得到对应的文字列表包括[系，统，布，署，架，构]。

S6、重点校对词库存在“系统部署架构”、“系统部署方案”、“系统部署结构”、“系统部署”等词条，对重点词条进行文字统计，得到对应的文字列表[系，统，部，署，架，构]、[系，统，部，署，方，案]、[系，统，部，署，结，构]、[系，统，部，署]。

S7、将步骤S1中待处理文本与步骤S6中重点词条的文字列表进行差集统计，得到差集的内容和长度。如下表：

S8、重点词条“系统部署架构”、“系统部署方案”、“系统部署结构”长度为6，均属于B桶，因此所对应的“最大错误值”为2；“系统部署”长度为4，属于A桶，因此所对应的“最大错误值”为1；步骤S7中的差集长度满足小于等于“最大错误值”的条件，则校对结果为“系统布署架构”存在错误，建议修改为：[“系统部署架构”、“系统部署”]。

校对结果是指待处理文本中存在错误的地方；纠错结果是指待处理文本中错误的地方对应的修改建议。

S9、以上步骤S3-S7完成一个重点词条与待处理文本的校对工作，而重点校对词库中有多个重点词条，完整的校对流程是要将待处理文本与词库中每一个词条进行以上步骤3-7的校对处理，因此需要将重点校对词库中的所有词条进行迭代判断，重复以上步骤3-7的判断逻辑，迭代完成后得到多个纠错结果。

因此，本发明提出的重点内容校对算法相较于传统的错别字纠错算法，主要优势体现在：(1)传统的错别字纠错算法需要基于正确词库与错误词库，而每个正确词条存在成千上万种错误类型，导致错误词库的数据收集工作量十分繁琐，需要巨大的人力成本和时间成本来长期维护，而本发明无需依赖错误词库，节省了大量的词库人力与时间的维护成本；(2)传统的错别字纠错算法需要满足校对文本与词库词条文本长度两两一致的前提条件下进行错别字纠错，因此无法支持，多字、漏字、顺序错乱的纠错工作，而本发明通过“最大错误值”分桶算法不仅实现错别字纠错，并实现多字、漏字、顺序错乱纠错，如：“系统部署的架构”、“部署架构”、“部署系统架构”分别属于多字、漏字、顺序错乱，通过“最大错误值”分桶算法计算得到步骤7中的差集长度分别为1、2、0，均满足小于等于“最大错误值”的纠错条件，准确识别出内容中的多字、漏字、顺序错乱的错误。

S10、建立同音易错校对词库，词库内容包含科技术语、专业名词等重点内容词条，并由人工定义其“同音最大错误值”为0。

同音最大错误值是判断待处理文本是否存在错误的阈值，当同音易错词条与待处理文本的词条之间的同音错别字小于等于同音最大错误值，则视为待处理文本存在错误，反之，则视为正确。

S11、将步骤S1中的待处理文本进行文字转换拼音格式，并将翘平舌统一转换为平舌，前后鼻音统一转换为前鼻音(翘平舌、前后鼻音在这里都视为同音，因为同音差错中往往存在翘平舌不分、前后鼻音不分的情况)，得到拼音列表

[xi,tong,bu,su,jia,gou]。

S12、同音易错校对词库存在“系统部署架构”、“系统部署方案”重点词条，对二者的同音易错词条进行文字转换拼音格式，并将翘平舌统一转换为平舌，前后鼻音统一转换为前鼻音(翘平舌、前后鼻音在这里都视为同音，因为同音差错中往往存在翘平舌不分、前后鼻音不分的情况)，得到拼音列表[xi,tong,bu,su,jia,gou]、

[xi,tong,bu,su,fan,an]。如下表：

类别	[系，统，部，署，架，构]	[系，统，部，署，方，案]
			拼音列表	[xi,tong,bu,su,jia,gou]	[xi,tong,bu,su,fan,an]
同音最大错误值	1	1
			实际比较错误值	0	2
复验结果	发音一致	发音不一致

S13、当同音易错词条与待处理文本的每个发音完全一致时，判断两者之间文字不相同的个数(存在顺序关系，如：“部署”与“布署”文字不相同个数为1，“部署”与“署布”文字不相同个数为2)，当文字不相同的个数满足小于等于“同音最大错误值”，则视为待处理文本存在错误，反之，则直接忽略。该例子中，同音易错词条与待处理文本两两之前的每个发音完全一致，且两两文字列表差集为1，满足小于等于“同音最大错误值”，则校对结果为“系统布署架构”存在错误，建议修改为：[“系统部署架构”]。

对比两两拼音列表，按顺序依次取两两集合相同位置的元素进行比对，如果两两列表中每个元素比对后都两两相等，则判断为同音易错词条与待处理文本两两之间的每个发音完全一致，若有任一元素比对后两两不相等，则判断为同音易错词条与待处理文本两两之间的发音不完全一致。

当判断为存在错误时，修改建议即是重点校对词库的重点词条的内容。如：待处理文本“系统布署架构”与同音易错词条“系统部署架构”进行校对时，满足判错条件，则修改建议直接是同音易错词条的内容“系统部署架构”，因为同音易错词条的内容一定是正确的。

S14、将同音易错校对词库中的所有词条进行迭代判断，重复以上步骤S11-S13的判断逻辑，得到纠错结果。

因此，本发明提出的同音易错纠错算法相较于传统的混淆拼音纠错算法，主要优势体现在：①传统的混淆拼音纠错算法需要基于正确词库与混淆拼音词库，而每个正确词条存在成千上万种拼音错误类型，导致混淆拼音词库的数据收集工作量十分繁琐，需要巨大的人力成本和时间成本来长期维护，而本发明无需依赖混淆拼音词库，节省了大量的词库人力与时间的维护成本。②本发明提出的同音易错纠错算法，根据词条的顺序、拼音，灵活预设“同音最大错误值”，如“应急指挥调度系统”词条的严谨等级较高，则用户可将“应急指挥调度系统”词条的“同音最大错误值”设置为3，增加同音错误的校对范围，如：应急调度系统、因急指挥调度系统、应急通信的调度指挥系统等错误词语都能识别出来。

传统的词库全匹配检索纠错在错误类型庞杂的情况下，校对效果不尽人意，如：系统部署架构中的“署”字，与之相似错误的有“暑”、“薯”、“属”等，词库需要收录以上所有错别字，方可完整地识别出上述的错别字，而本发明的文本纠错方法只需词库中录入一个正确的“系统部署架构”词条，即可完整地识别“暑”、“薯”、“属”等错别字，词库的数据量仅仅是全匹配检索词库的1/3，能够有效提升校对算法的识别率，降低词库的人工维护成本。

其中，AI模型在错别字识别方面有较好的校对效果，能灵活识别完整识别出“暑”、“薯”、“属”等错别字，但对于乱序差错的识别能力并不高；在新闻写稿中，文本乱序也是常见的差错类型，如：用户输入“部署系统架构”中并无错别字，语义和语法层面也并无差错，导致AI模型难以精准识别到内容存在乱序错误，但正确的说法应该是“系统部署架构”，而本发明的文本纠错方法能够通过判断最大错误值的方式检测出文本存在乱序错误，并且文本纠错方法所采用的计算处理器是CPU类型，而AI模型采用的计算处理器是GPU类型，服务器成本远小于AI模型，也无需依赖大数据的训练样本来训练模型，功能开发成本远低于AI模型。

综上所述，本发明提出的文本纠错方法对比现有技术，优势主要体现在文本纠错方法的灵活度高、可控性与可解释性强、纠错准确率高，同时对词库的维护成本与计算资源成本较低，实现低成本高能效的效果。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本纠错方法，其特征在于：所述方法包括：

2.根据权利要求1所述的文本纠错方法，其特征在于：在所述重点校对词库设立若干个分桶区间，每个分桶区间对应不同词条长度区间，并为每个分桶区间预置不同的词条最大错误值，将若干个所述重点词条按照词条长度分别存入对应的分桶区间。

3.根据权利要求2所述的文本纠错方法，其特征在于：所述校对处理流程为：

根据所述待处理文本的文字、每个所述重点词条，分别生成对应的文字列表；

将所述待处理文本的文字列表与每个所述重点词条的文字列表分别进行差集统计，得到若干个第一差集；其中，第一差集的内容为所述待处理文本的文字列表与每个重点词条的文字列表不一致的文字，第一差集的长度为所述待处理文本的文字列表与每个重点词条的文字列表不一致的文字个数；

将每个第一差集的长度与对应的重点词条所在分桶区间预置的词条最大错误值进行比较，保留长度小于等于对应词条最大错误值的第一差集，结合所保留第一差集对应的重点词条给出所述待处理文本的修改建议，生成纠错结果。

4.根据权利要求3所述的文本纠错方法，其特征在于：所述将待处理文本输入到重点校对词库中进行校对处理，校对处理完毕后输出纠错结果之后，还包括：

构建同音易错校对词库，所述同音易错校对词库包括若干个所述重点词条，并且预置有同音最大错误值；将待处理文本输入到同音易错校对词库中进行复验处理，复验处理完毕后输出复验结果。

5.根据权利要求4所述的文本纠错方法，其特征在于：所述复验处理流程为：根据所述待处理文本、每个所保留第一差集对应的重点词条，生成其对应的拼音列表；

将所述待处理文本的拼音列表与所保留第一差集对应的重点词条的拼音列表分别进行差集统计，得到若干个第二差集；其中，第二差集的内容为所述待处理文本的拼音列表与每个重点词条的拼音列表不一致的拼音，第二差集的长度为所述待处理文本的拼音列表与每个重点词条的拼音列表不一致的拼音个数；

将每个第二差集的长度与同音最大错误值进行比较，保留长度小于等于同音最大错误值的第二差集，结合所保留第二差集对应的重点词条给出所述待处理文本的修改建议，生成复验结果。

6.根据权利要求5所述的文本纠错方法，其特征在于：所述拼音列表的生成，根据如下文字转换拼音格式生成所述拼音列表：将翘平舌音统一转换为平舌音以及将前后鼻音统一转换为前鼻音。

7.根据权利要求6所述的文本纠错方法，其特征在于：在进行差集统计时，按照拼音列表的拼音顺序，将所述待处理文本的拼音列表与每个所述重点词条的拼音列表中相同位置的拼音进行比较。

8.一种文本纠错装置，其特征在于：所述装置包括：

数据单元，用于存储重点校对词库、同音易错校对词库以及纠错结果，其中，重点校对词库包括若干个重点词条以及用于校对文本的词条最大错误值，同音易错校对词库包括待处理文本、每个所述重点词条的文字转换拼音格式以及预置有同音最大错误值；

9.一种文本纠错设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至7中任一项所述的文本纠错方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的文本纠错方法的各个步骤。