CN116306601B

CN116306601B - 小语种纠错模型训练方法、纠错方法、系统、介质及设备

Info

Publication number: CN116306601B
Application number: CN202310552320.7A
Authority: CN
Inventors: 杨子昭
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-08
Anticipated expiration: 2043-05-17
Also published as: CN116306601A

Abstract

本发明提供一种小语种纠错模型训练方法、纠错方法、系统、介质及设备，所述小语种纠错模型训练方法包括：基于多语言语料库识别mt5模型中关于选定的小语种词典；基于所述选定的小语种词典裁剪mt5模型以获取选定的小语种纠错模型；基于选定的小语种语料库对所述小语种纠错模型进行训练。本发明提供的小语种纠错模型训练方法、纠错方法、系统、介质及设备，快速地检测和纠正文本中的错误，提高纠错的准确率和覆盖率，同时能根据错误文本进行迭代，满足实时处理的要求。

Description

小语种纠错模型训练方法、纠错方法、系统、介质及设备

技术领域

本发明涉及一种语言纠错方法，特别是涉及一种小语种纠错模型训练方法、纠错方法、系统、介质及设备。

背景技术

小语种是相对英语这类应用面很广用者甚众的外语而言，只在少数国家或少数民族应用的外语语种。由于对小语种学习研究的人员并不多，小语种文本中经常会出现常见的拼写错误等。这毫无疑问会对理解小语种文本的正确含义造成阻碍。

目前，常用的对小语种进行纠错的方法是基于规则进行。即采用小语种的语法和拼写规则，建立规则库，利用规则库对小语种文本进行错误检测和纠正。基于规则进行纠错的方式易于实现和理解。但是，这一纠错方式需要人工编写规则，处理效率低下，难以满足实时处理的要求。并且由于小语种的语法和拼写规则都较为复杂，纠错难度提高，现有基于规则的纠错方法往往只能检测出部分错误，不能完全识别出小语种文本中的各项错误，纠错的准确度和覆盖度较低，不够智能化。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种小语种纠错模型训练方法、纠错方法、系统、介质及设备，用于解决现有技术依赖于人工编写规则以对小语种文本纠错的问题。

为实现上述目的及其他相关目的，本发明的第一方面提供一种小语种纠错模型的训练方法，包括基于多语言语料库识别mt5模型中关于选定的小语种词典；基于所述选定的小语种词典裁剪mt5模型以获取选定的小语种纠错模型；基于选定的小语种语料库对所述小语种纠错模型进行训练。

于所述第一方面的一实施例中，所述基于选定的小语种语料库对所述小语种纠错模型进行训练包括获取选定的小语种语料库；基于所述小语种语料库构造小语种的纠错训练数据；基于所述纠错训练数据对所述小语种纠错模型进行训练。

于所述第一方面的一实施例中，所述基于所述小语种语料库构造小语种的纠错训练数据包括标注所述小语种语料库中的错误并进行纠正以获取对应的小语种正确形式；基于所述错误和所述小语种正确形式构造所述小语种的纠错训练数据；所述纠错训练数据包括所述错误和所述小语种正确形式组合成的语句对。

于所述第一方面的一实施例中，基于所述小语种语料库构造小语种的纠错训练数据还包括对所述小语种语料库进行数据清洗。

本发明的第二方面提供一种小语种纠错方法，包括获取待纠错的小语种文本；基于小语种纠错模型对所述小语种文本进行纠错；所述小语种纠错模型为经第一方面所述的训练方法训练好的小语种纠错模型。

于所述第二方面的一实施例中，所述基于小语种纠错模型对所述小语种文本进行纠错包括：对所述小语种文本进行错误检测；根据错误检测结果提供纠错建议；基于所述纠错建议对所述小语种文本进行纠错以获取小语种正确文本。

于所述第二方面的一实施例中，所述错误检测包括拼写错误检测、语法错误检测、语义错误检测。

本发明的第三方面提供一种小语种纠错系统，包括获取模块，用于获取待纠错的小语种文本；纠错模块，用于基于小语种纠错模型对所述小语种文本进行纠错；所述小语种纠错模型为经第一方面所述的训练方法训练好的小语种纠错模型。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面所述的小语种纠错模型的训练方法和/或本发明第二方面所述的小语种纠错方法。

本发明的第五方面提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本发明第一方面所述的小语种纠错模型的训练方法和/或本发明第二方面所述的小语种纠错方法。

如上所述，本发明实施例提供的小语种纠错模型训练方法、纠错方法、系统、介质及设备，具有以下有益效果：利用深度学习和神经网络等技术，基于小语种纠错模型，能够快速地检测和纠正文本中的错误，提高纠错的准确率和覆盖率，同时能根据错误文本进行迭代，满足实时处理的要求。

附图说明

图1显示为本发明实施例中小语种纠错模型的训练方法的流程示意图。

图2显示为本发明实施例中小语种纠错模型的训练方法的流程示意图。

图3显示为本发明实施例中小语种纠错模型的训练方法的流程示意图。

图4显示为本发明实施例中小语种纠错模型的训练方法的流程示意图。

图5显示为本发明实施例中小语种纠错方法的流程示意图。

图6显示为本发明实施例中小语种纠错方法的流程示意图。

图7显示为本发明实施例中小语种纠错系统的结构示意图。

图8显示为本发明实施例中电子设备的结构示意图。

元件标号说明

20 获取模块

30 纠错模块

50 电子设备

501 存储器

502 处理器

503 显示器

S1~S3 步骤

S21~S23 步骤

S31~S33 步骤

S321~S322 步骤

S4~S5 步骤

S51~S53 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。此外，在本文中，诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本发明提供一种小语种纠错模型训练方法、纠错方法、系统、介质及设备，能够快速地检测和纠正文本中的错误，提高纠错的准确率和覆盖率，同时能根据错误文本进行迭代，满足实时处理的要求。

接下来将通过具体实施例结合附图的方式对本发明提供的小语种纠错模型训练方法、纠错方法、系统、介质及设备进行描述。

如图 1 所示，于一实施例中，本发明的小语种纠错模型训练方法包括步骤S1~S3：

S1：基于多语言语料库识别mt5模型中关于选定的小语种词典。

具体的，mt5模型是多语言模型，其使用了101种语言，其中包括了多种小语种。为了减少显存浪费以及进一步提高纠错的精确性，避免其他语言对所待纠错的小语种文本造成干扰，步骤S1先选定所需要纠错的小语种种类，之后基于多语言语料库对mt5模型中的词典进行识别，从而确定所选定的小语种词典。

优选的，多语言语料库选择Lang-8语料库。该语料库是Lang-8是由语言学习者编写的大型文本语料库，语言学习者还对这些文本进行了用户注释的修正。

S2：基于所述选定的小语种词典裁剪mt5模型以获取选定的小语种纠错模型。

具体的，基于所述选定的小语种词典裁剪mt5模型的实现方式包括对mt5模型进行剪枝，以减少mt5模型的参数运算量，提高运算速度。即将关于非选定小语种的参数设置为0，消除其与后面节点之间的联系，进而建立选定的小语种纠错模型。

具体的，可以通过利用神经网络智能（NNI）中的剪枝算法将其余小语种的对应位置设为0，实现基于选定的目标小语种词典裁剪mt5模型。如图2所示，步骤S2包括步骤S21~S23。

S21：选定剪枝算法并实例化相应的剪枝器（pruner）。

具体的，可以选择NNI提供的Taylor、Movement、ADMM、Slim、AGP、ActivationAPoZ、Activation Mean等16种前沿剪枝算法。无论选择哪一剪枝算法，需向mt5模型中传入config_list参数，定义需要剪枝的运算名、运算类别及稀疏度等。

在一实施例中，选择Movement剪枝算法，还需要设置其他参数，例如：evaluator参数，用于训练感知的模型压缩过程；movement_mode 参数，共有“soft“和”hard“两种模式，若为”soft”，则难以精确地控制模型剪枝后的稀疏度，但是可以得到性能更好的模型；regular_scale参数，用于控制剪枝的稀疏度，该参数越大，模型剪枝后的稀疏度越高。

S22：对mt5模型中的多头自注意力模块进行剪枝。

具体的，调用 pruner.compress() 即可执行对模型的剪枝过程，并得到剪枝后的模型和 attention_mask。其中，attention_mask给出了需要剪枝的子模块的参数剪枝范围，0代表该位置被剪掉，1代表该位置被保留。

需要说明的是，可以通过NNI的SpeedUp 模块将被mask住的参数和计算从模型中删除，以真正减少模型参数量。

在一实施例中，将乌兹别克语对应的位置设为1进行保留，其余位置均设为0。

S23：对嵌入层和前馈神经网络进行剪枝。

具体的，使用Taylor 剪枝算法对嵌入层和前馈神经网络进行剪枝。定义config_list、evaluator参数及taylor_pruner_steps参数。由于嵌入层的维度与后续模型中的维度具有相关性。因此，基于上述参数，在嵌入层的剪枝过程中将剪枝模式mode设置为了“dependency-aware”模式，并传入模型的输入dummy_input，以帮助pruner捕捉和嵌入层维度具有依赖关系的子模型。之后，使用pruner对mt5模型的前馈神经网络和嵌入层进行剪枝。

在一实施例中，步骤S1利用Lang-8语料库识别mt5模型中关于乌兹别克语的词典，之后，通过步骤S21~S23对mt5模型进行裁剪最终获取针对乌兹别克语的小语种纠错模型。

S3：基于选定的小语种语料库对所述小语种纠错模型进行训练。

具体的，如图3所示，步骤S3包括步骤S31~S33：

S31：获取选定的小语种语料库。

具体的，语料库是自然语言处理（NLP）领域中非常重要的资源，其中包含了大量的自然语言数据，可以用来训练和评估各种机器学习模型。通过收集包含各种错误的选定的小语种语料库，例如语法错误、拼写错误等，作为构建纠错训练数据的一个起点。

需要说明的是，除获取小语种语料库外，在一些优选实施例中，还可以获取用户输入、人工标注或机器翻译来构建纠错训练数据。

其中，在一优选实施例中，用户输入是指收集用户在各种应用程序中输入的数据，例如电子邮件、社交媒体、搜索引擎等，这些数据中包含了大量的错误，可以用来构建纠错训练数据。同时，还可以通过对用户输入进行统计分析，找到一些常见的错误模式。这可以作为原始数据，用来构建纠错训练数据。

其中，在一优选实施例中，人工标注是指收集一些由专业人员标注过的数据，这些数据中包含了大量的错误和其纠正后的正确形式，可以作为原始数据用来构建高质量的纠错训练数据。

其中，在一优选实施例中，机器翻译：机器翻译系统是自然语言处理领域中一个非常重要的应用，可以将一种语言翻译成另一种语言。机器翻译系统中也存在一些错误，例如语法错误、词序错误等，这些错误也作为原始数据，被用来构建纠错训练数据。

S32：基于所述小语种语料库构造小语种的纠错训练数据。

具体的，如图4所示，步骤S32包括步骤S321和步骤S322。

S321：标注所述小语种语料库中的错误并进行纠正以获取对应的小语种正确形式。

具体的，首先需要标注原始数据中的错误，包括错误类型和位置。常见的错误类型包括语法错误、拼写错误、词汇错误、语义错误等，错误位置可以是一个单词、一句话或者一个段落等。标注错误的过程可以通过人工标注或自动标注实现。

在标注错误后，要对错误进行纠正。通过人工纠正、自动纠正或者混合方式实现。人工纠正是指由专业人员对错误进行手动纠正，自动纠正是指使用算法对错误进行自动纠正。在一实施例中，使用拼写纠正算法对拼写错误进行纠正。

S322：基于所述错误和所述小语种正确形式构造所述小语种的纠错训练数据。

具体的，纠错训练数据包括错误和所述小语种正确形式组合成的语句对。即在错误纠正完成后，需要将标注出的错误和纠正后的正确形式组合成一个对，分别是含有错误的语句，以及相应的纠正后的正确语句。

需要说明的是，构造纠错训练数据可以通过原始数据中的错误和纠正后的正确形式来构造，也可以通过在正确语句中插入错误来构造。

需要说明的是，步骤S322构造纠错训练数据时还需要保证数据中保证正样本和负样本的数量相等。

需要说明的是，构造小语种的纠错训练数据还包括对所述小语种语料库进行数据清洗。即去除一些无效数据和错误数据，以此确保数据的质量和可用性。

S33：基于所述纠错训练数据对所述小语种纠错模型进行训练。

利用构造好的纠错训练数据，训练选定的小语种纠错模型，帮助模型更好学习和纠正自然语言中的错误。

如图5所示，本发明还提供了一种小语种纠错方法，包括步骤S4~S5：

S4：获取待纠错的小语种文本。

S5：基于小语种纠错模型对所述小语种文本进行纠错。

具体的，如图6所示，步骤S5包括步骤S51~步骤S53：

S51：对所述小语种文本进行错误检测。

利用通过步骤S1~S3获取并训练好的小语种纠错模型对小语种文本进行特征提取，检测文本中可能存在的错误，包括拼写错误检测、语法错误检测、语义错误检测。

在一实施例中，步骤S4获取的待纠错的小语种文本为乌兹别克语文本。该语言文本中存在：1.时态错误：Kelajakda o'zbekistonga bordim；2.句子结构错误， Siz burasm yoqadimi?；3.主谓不一致错误， Siz qayarda o'qiyman?

S52：根据错误检测结果提供纠错建议。

具体的，根据所述错误检测结果提供纠错建议，包括拼写建议、语法纠正建议、语义使用建议等。用户可以对纠错建议进行选择。

S53：基于所述纠错建议对所述小语种文本进行纠错以获取小语种正确文本。

具体的，小语种纠错模型会根据用户选定的纠错建议对小语种文本进行纠错以获取小语种正确文本。

在一实施例中，步骤S52对步骤S51中检测到的乌兹别克语文本提供如下纠错建议，以此获取正确文本：

1.时态错误：Kelajakda o'zbekistonga bordim修正为：Kelajakda o'zbekistonga bormoqchiman.

2.句子结构错误， Siz bu rasm yoqadimi? 修正为：Sizga bu rasm yoqadimi?

3.主谓不一致错误， Siz qayarda o'qiyman? 修正为：Siz qayarda o'qiysiz?

如图7所示，本发明还提供了一种小语种纠错系统，包括获取模块20和纠错模块30。

其中，获取模块20用于获取待纠错的小语种文本。

其中，纠错模块30，用于基于小语种纠错模型对所述小语种文本进行纠错；所述小语种纠错模型为经步骤S1~S3训练好的小语种纠错模型。

具体的，在一实施例中，获取模块获取待纠错的乌兹别克语文本，纠错模块30通过小语种纠错模型乌兹别克语文本进行特征提取，检测文本中可能存在的错误，包括拼写错误检测、语法错误检测、语义错误检测。之后，纠错模块30还会根据所述错误检测结果提供纠错建议，包括拼写建议、语法纠正建议、语义使用建议，并根据用户选定的纠错建议对乌兹别克语文本进行纠错以获取乌兹别克语正确文本。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序。该计算机程序被处理器执行时实现本发明实施例中提供的小语种纠错模型的训练方法，和/或实现本发明实施例中提供的小语种纠错方法。

本发明中，可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本发明还提供一种电子设备。图8显示为本发明一实施例中电子设备50的结构示意图。如图8所示，本实施例中电子设备50包括存储器501和处理器502。

存储器501用于存储计算机程序；优选地，存储器501包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

具体地，存储器501可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）和/或高速缓存存储器。电子设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器501可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

处理器502与存储器501相连，用于执行存储器501存储的计算机程序，以使电子设备50执行本发明实施例中提供的小语种纠错模型的训练方法，和/或执行本发明实施例中提供的小语种纠错方法。

优选地，处理器502可以是通用处理器，包括中央处理器（Central ProcessingUnit，简称CPU）、网络处理器（Network Processor，简称NP）等；还可以是数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application SpecificIntegrated Circuit，简称ASIC）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

优选地，本实施例中电子设备50还可以包括显示器503。显示器503与存储器501和处理器502通信相连，用于显示小语种纠错模型的训练方法和/或小语种纠错方法的相关GUI交互界面。

本发明所述的小语种纠错模型的训练方法和/或小语种纠错方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

综上所述，本发明实施例提供了一种小语种纠错模型训练方法、纠错方法、系统、介质及设备。所述小语种纠错模型训练方法利用深度学习和神经网络等技术获取并训练小语种纠错模型，基于该模型，能够快速地检测和纠正文本中的错误，提高纠错的准确率和覆盖率，同时能根据错误文本进行迭代，满足实时处理的要求。因此，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种小语种纠错模型的训练方法，其特征在于，包括：

基于多语言语料库识别mt5模型中关于选定的小语种词典；

基于所述选定的小语种词典裁剪mt5模型以获取选定的小语种纠错模型；

基于选定的小语种语料库对所述小语种纠错模型进行训练；

其中，裁剪mt5模型的实现方式包括：选定剪枝算法以对mt5模型中的多头自注意力模块、嵌入层和前馈神经网络进行剪枝。

2.根据权利要求1所述的一种小语种纠错模型的训练方法，其特征在于，所述基于选定的小语种语料库对所述小语种纠错模型进行训练包括：

获取选定的小语种语料库；

基于所述小语种语料库构造小语种的纠错训练数据；

基于所述纠错训练数据对所述小语种纠错模型进行训练。

3.根据权利要求2所述的一种小语种纠错模型的训练方法，其特征在于，所述基于所述小语种语料库构造小语种的纠错训练数据包括：

标注所述小语种语料库中的错误并进行纠正以获取对应的小语种正确形式；

基于所述错误和所述小语种正确形式构造所述小语种的纠错训练数据；所述纠错训练数据包括所述错误和所述小语种正确形式组合成的语句对。

4.根据权利要求2所述的一种小语种纠错模型的训练方法，其特征在于，基于所述小语种语料库构造小语种的纠错训练数据还包括对所述小语种语料库进行数据清洗。

5.一种小语种纠错方法，其特征在于，包括：

获取待纠错的小语种文本；

基于小语种纠错模型对所述小语种文本进行纠错；所述小语种纠错模型为经权利要求1～4任一项所述的训练方法训练好的小语种纠错模型。

6.根据权利要求5所述的小语种纠错方法，其特征在于，所述基于小语种纠错模型对所述小语种文本进行纠错包括：

对所述小语种文本进行错误检测；

根据错误检测结果提供纠错建议；

基于所述纠错建议对所述小语种文本进行纠错以获取小语种正确文本。

7.根据权利要求6所述的小语种纠错方法，其特征在于，所述错误检测包括拼写错误检测、语法错误检测、语义错误检测。

8.一种小语种纠错系统，其特征在于，包括：

获取模块，用于获取待纠错的小语种文本；

纠错模块，用于基于小语种纠错模型对所述小语种文本进行纠错；所述小语种纠错模型为经权利要求1～4任一项所述的训练方法训练好的小语种纠错模型。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权利要求1至4中任一项所述的小语种纠错模型的训练方法和/或权利要求5至7中任一项所述的小语种纠错方法。

10.一种设备，其特征在于，所述设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至4中任一项所述的小语种纠错模型的训练方法和/或权利要求5至7中任一项所述的小语种纠错方法。