CN115146621A

CN115146621A - 一种文本纠错模型的训练方法、应用方法、装置及设备

Info

Publication number: CN115146621A
Application number: CN202210499932.XA
Authority: CN
Inventors: 刘树林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-10-04

Abstract

本申请实施例公开了一种文本纠错模型的训练方法、应用方法、装置及设备，相关实施例可应用于人工智能等各种场景，用于提高对错别字的识别精度。本申请实施例方法包括：通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值，对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，获取噪声样本中每个文字对应的第二文本概率分布，基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值，基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

Description

一种文本纠错模型的训练方法、应用方法、装置及设备

技术领域

本申请实施例涉及自然语言处理技术领域，尤其涉及一种文本纠错模型的训练方法、应用方法、装置及设备。

背景技术

在自然语言处理中，文本纠错是通过检测一段文字是否存在错别字，以及将错别字进行纠正的技术。文本纠错一般用于文本预处理阶段，同时还被广泛应用于解决智能识别如语音识别或图像识别等不准确以及智能检索不准确等问题。

传统的文本纠错方法一般依赖于人工构建的错别字词典来进行错误匹配和纠正，文本纠错的智能性较低，且耗费的人力成本和时间成本较高。

而近几年神经网络逐渐兴起，也有使用神经网络进行文本纠错的尝试。但是尝试的方向比较少，常用深度模型预测掩码位置的词，并直接选取分值最高词作为正确词，都是根据错别字周边的上下文去识别并纠正错别字，当句子里包含多个错别字时，上下文中就会有噪声，那么基于有噪声的上下文去识别并纠正错别字会产生严重的识别误差，影响纠错模型的识别效果。

发明内容

本申请实施例提供了一种文本纠错模型的训练方法、应用方法、装置及设备，用于通过为有且仅有一个原始错别字待纠错训练样本构造带噪声的噪声样本，以使噪声样本对应的第二文本概率分布和待纠错训练样本对应的第一文本概率分布尽量一致，使得文本纠错模型学习到对噪声文本的识别能力，从而提高文本纠错模型对文本中错别字的识别精度。

本申请实施例一方面提供了一种文本纠错模型的训练方法，包括：

将待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，其中，待纠错训练样本有且仅有一个原始错别字；

基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值；

对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本；

获取噪声样本中每个文字对应的第二文本概率分布；

基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值；

基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

本申请另一方面提供了一种文本纠错模型的训练装置，包括：

处理单元，用于将待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，其中，待纠错训练样本有且仅有一个原始错别字；

处理单元，还用于基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值；

处理单元，还用于对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本；

获取单元，用于获取噪声样本中每个文字对应的第二文本概率分布；

处理单元，还用于基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值；

确定单元，用于基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，处理单元具体可以用于：

基于第一文本概率分布和第二文本概率分布，分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度；

基于第一散度和第二散度，计算噪声损失值。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，获取单元具体可以用于：

将噪声样本输入至文本纠错辅助模型，通过文本纠错辅助模型输出噪声样本中每个文字对应的第二文本概率分布，其中，文本纠错辅助模型与文本纠错模型共享参数。

将待纠错训练样本输入至文本纠错辅助模型，通过文本纠错辅助模型输出待纠错训练样本中每个文字对应的第三文本概率分布；

基于第一文本概率分布和第二文本概率分布，分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度，包括：

基于第一文本概率分布和第三文本概率分布，分别计算第一文本概率分布向第三文本概率分布的第一散度，以及计算第三文本概率分布向第一文本概率分布的第二散度。

对待纠错训练样本除原始错别字以外的其他原始文字进行随机噪声位置采样，得到目标噪声位置；

将目标噪声位置对应的原始文字进行替换，以构造待纠错训练样本对应的噪声样本。

将原始错别字作为起始点，按照采样长度，从原始错别字对应的上下文中确定噪声采样区域；

从噪声采样区域中随机选取一个噪声位置作为目标噪声位置。

将原始错别字作为起始点，按照五个字符长度，从原始错别字对应的上下文中，分别选取五个字符长度对应的文字区域作为噪声采样区域。

从目标噪声位置对应的原始文字所对应的混淆集中随机选取一个待替换文字；

将目标噪声位置对应的原始文字变更为待替换文字，得到噪声样本。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，

处理单元，还用于将待纠错训练样本转换为待纠错训练字序列；

处理单元具体可以用于：将待纠错训练字序列输入至文本纠错模型，通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布；

处理单元具体可以用于：基于每个文字对应的第一文本概率分布，计算待纠错训练字序列对应的纠正损失值。

通过文本纠错模型对待纠错训练字序列中的每个文字进行编码，得到每个文字对应的嵌入向量；

基于嵌入向量，计算待纠错训练字序列中的每个文字对应的第一文本概率分布。

获取单元，还用于获取待纠错训练字序列中每个文字对应的复制概率分布；

处理单元具体可以用于：

基于复制概率分布以及第一文本概率分布，确定待纠错训练字序列中每个文字对应的输出概率分布；

基于每个文字对应的输出概率分布，计算待纠错训练字序列对应的纠正损失值。

在一种可能的设计中，本申请实施例另一方面的一种实现方式中，确定单元具体可以用于：

基于损失权重，对纠正损失值以及噪声损失值进行加权计算，得到总损失值；

基于总损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

本申请另一方面提供了一种文本纠错模型的应用方法，包括：

获取待纠错文本；

将待纠错文本输入至上述各方面的方法的目标文本纠错模型，通过目标文本纠错模型的纠正模块计算待纠错文本中的每个文字对应的文本概率分布；

从文本概率分布中，选取待纠错文本中的每个文字对应的最大文本概率；

将最大文本概率对应的字表文字作为目标纠正文字，以得到待纠错文本对应的目标纠正文本。

本申请另一方面提供了一种文本纠错模型的应用装置，包括：

获取单元，用于获取待纠错文本；

处理单元，用于将待纠错文本输入至上述各方面的方法的目标文本纠错模型，通过目标文本纠错模型的纠正模块计算待纠错文本中的每个文字对应的文本概率分布；

处理单元，用于从文本概率分布中，选取待纠错文本中的每个文字对应的最大文本概率；

获取单元，还用于将最大文本概率对应的字表文字作为目标纠正文字，以得到待纠错文本对应的目标纠正文本。

本申请另一方面提供了一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序时实现如上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下有益效果：

通过文本纠错模型输出有且仅有一个原始错别字的待纠错训练样本中每个文字对应的第一文本概率分布，基于每个文字对应的第一文本概率分布，可以计算得到待纠错训练样本对应的纠正损失值，并对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，进而，可以获取噪声样本中每个文字对应的第二文本概率分布，然后，基于第一文本概率分布和第二文本概率分布，可以计算得到待纠错训练样本对应的噪声损失值，并基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，以获取到目标文本纠错模型。通过上述方式，通过为有且仅有一个原始错别字待纠错训练样本构造带噪声的噪声样本，可以基于噪声样本中每个文字对应的第二文本概率分布以及待纠错训练样本中每个文字对应的第一文本概率分布计算噪声损失值，并结合纠正损失值以及噪声建模损失值对文本纠错模型进行联合的参数调整，以使第二文本概率分布和第一文本概率分布尽量一致，使得文本纠错模型学习到对噪声文本的识别能力，无需通过错别字周边的上下文去识别并纠正错别字，能够减少识别误差，从而提高文本纠错模型对文本中错别字的识别精度。

附图说明

图1是本申请实施例中文本纠错控制系统的一个架构示意图；

图2是本申请实施例中文本纠错模型的训练方法的一个实施例流程图；

图3是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图4是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图5是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图6是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图7是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图8是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图9是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图10是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图11是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图12是本申请实施例中文本纠错模型的训练方法的另一个实施例流程图；

图13是本申请实施例中文本纠错模型的应用方法的一个实施例流程图；

图14是本申请实施例中文本纠错模型的训练方法的一个原理流程示意图；

图15是本申请实施例中文本纠错模型的训练方法的另一个原理流程示意图；

图16是本申请实施例中文本纠错模型的训练方法的一个噪声位置采样的示意图；

图17是本申请实施例中文本纠错模型的应用方法的一个原理流程示意图；

图18是本申请实施例中文本纠错模型的训练装置的一个实施例示意图；

图19是本申请实施例中文本纠错模型的应用装置的一个实施例示意图；

图20是本申请实施例中计算机设备的一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在本申请的具体实施方式中，涉及到待纠错文本以及待纠错训练样本等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可以理解的是，如本申请所公开的文本纠错模型的训练方法，涉及人工智能(Artificial Intelligence，AI)技术，下面进一步地对人工智能技术进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其次，自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

其次，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

应理解的是，本申请提供的文本纠错模型的训练方法可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等，用于通过训练文本纠错模型对文本进行纠错以基于纠错后的文本完成智能识别或智能检索或智能翻译等场景。

为了解决上述问题，本申请提出了一种文本纠错模型的训练方法，该方法应用于图1所示的文本纠错控制系统，请参阅图1，图1为本申请实施例中文本纠错控制系统的一个架构示意图，如图1所示，服务器通过将获取到的终端设备提供的待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出有且仅有一个原始错别字的待纠错训练样本中每个文字对应的第一文本概率分布，基于每个文字对应的第一文本概率分布，可以计算得到待纠错训练样本对应的纠正损失值，并对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，进而，可以获取噪声样本中每个文字对应的第二文本概率分布，然后，基于第一文本概率分布和第二文本概率分布，可以计算得到待纠错训练样本对应的噪声损失值，并基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，以获取到目标文本纠错模型。通过上述方式，通过为有且仅有一个原始错别字待纠错训练样本构造带噪声的噪声样本，可以基于噪声样本中每个文字对应的第二文本概率分布以及待纠错训练样本中每个文字对应的第一文本概率分布计算噪声损失值，并结合纠正损失值以及噪声建模损失值对文本纠错模型进行联合的参数调整，以使第二文本概率分布和第一文本概率分布尽量一致，使得文本纠错模型学习到对噪声文本的识别能力，无需通过错别字周边的上下文去识别并纠正错别字，能够减少识别误差，从而提高文本纠错模型对文本中错别字的识别精度。

可以理解的是，图1中仅示出了一种终端设备，在实际场景中可以由更多种类的终端设备参与到数据处理的过程中，终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，具体数量和种类因实际场景而定，具体此处不做限定。另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，服务器的数量因实际场景而定，具体此处不做限定。

需要注意的是，本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端设备以及服务器可以连接组成区块链网络，本申请在此不做限制。

结合上述介绍，下面将对本申请中文本纠错模型的训练方法进行介绍，请参阅图2，本申请实施例中文本纠错模型的训练方法一个实施例包括：

在步骤S101中，将待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，其中，待纠错训练样本有且仅有一个原始错别字；

在本实施例中，如图14所示，由于在多媒体社交平台或检索文库等平台可以支持千上万的文章或文字评论，为了能够获取到错别字较少，文字质量较高的文章或资讯等，可以通过收集海量的存在错别字的文本作为训练数据集，可以将收集到的训练数据集中的待纠错训练样本输入至文本纠错模型，并通过文本纠错模型对待纠错训练样本中的每个文字进行预测，输出待纠错训练样本中每个文字对应的第一文本概率分布。

其中，待纠错训练样本预先收集到的带有错别字的文本，待纠错训练样本具体可以表现为有且仅有一个原始错别字的句子，如图13所示意的一个待纠错训练样本为“做为学生”，存在一个错别字“做”。错别字是指汉字误用带来的错误，常见的有近音字误用以及形近字误用等，如下表1所示意的这两类错别字的例子：

表1

其中，文本纠错模型具体可以表现为基于BERT的纠错模型，还可以表现为其他模型，此处不作具体限制。例如，如图14所示，文本纠错模型包括编码器(TransformerEncoder)以及生成块(Generative Block)等，其中，Transformer Encoder是一个12层的BERT模型，Generative Block是一个全连接网络，用于预测纠正的文字。

具体地，在获取到待纠错训练样本之后，可以将待纠错训练样本输入至文本纠错模型中，通过Transformer Encoder对待纠错训练样本中的每个文字进行层层编码，得到最后一个Transformer层输出的向量，然后可以将最后一个Transformer层输出的向量作为Generative Block的输入，可以基于预设的字表中的文字，来预测给待纠错训练样本中的每个文字可以纠正为字表中每个文字分别对应的概率，以获取到待纠错训练样本中的每个文字纠正为字表中每个文字对应的概率分布，即第一文本概率分布。

例如，如图14所示，可以将一个待纠错训练样本“做为学生”输入至文本纠错模型中，通过该文本纠错模型输出待纠错训练样本“做为学生”中的每个文字可以纠正为字表中每个文字分别对应的概率，从而获取到每个文字对应的第一文本概率分布。

在步骤S102中，基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值；

在本实施例中，在获取到第一文本概率分布之后，可以根据预设的纠正损失函数，对每个文字对应的第一文本概率分布进行纠正损失计算，以获取到待纠错训练样本对应的纠正损失值，以通过纠正损失值来更好反映文本纠错模型的预测值和真实值不一样的程度，以帮助文本纠错模型更好地学习到对文本中的错别字的识别能力，从而可以在一定程度上提高文本纠错模型的识别精度，可以理解的是，损失函数越好，通常模型的性能越好。

具体地，在获取到第一文本概率分布之后，考虑到文本中的文字不属于错别字的情形，因此，基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值具体可以是通过获取待纠错训练字序列中每个文字对应的复制概率分布，然后，可以基于复制概率分布以及第一文本概率分布，计算得到待纠错训练字序列中每个文字对应的输出概率分布，并基于每个文字对应的输出概率分布，进一步计算得到待纠错训练字序列对应的纠正损失值。

在步骤S103中，对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本；

在本实施例中，如图14所示，在获取到待纠错训练样本之后，可以对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，以使后续可以基于噪声样本鼓励文本纠错模型对原始的待纠错训练样本和存在噪声上下文的噪声样本产生相似的分布，来增强文本纠错模型对噪声文本中的错别字的识别能力，从而可以用于解决上下文错误文字干扰模型识别的问题。

其中，噪声样本具体可以表现为比有且仅有一个错别字的待纠错训练样本多一个错别字的文本，例如，如图14所示意的一个噪声样本“做为雪生”，存在两个错别字如“做”和“雪”。

具体地，如图14所示，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于随机噪声位置采样策略，或其他采样策略，此处不作具体限制，能够从待纠错训练样本除原始错别字以外的其他原始文字中，确定一个原始文字进行替换，以获取到噪声样本。

在步骤S104中，获取噪声样本中每个文字对应的第二文本概率分布；

在本实施例中，在获取到噪声样本之后，可以噪声样本中的每个文字进行预测，以获取到噪声样本中每个文字对应的第二文本概率分布。

具体地，如图14所示，在通过Noisy Block获取到噪声样本之后，获取噪声样本中每个文字对应的第二文本概率分布具体可以是通过复用文本纠错模型，即将噪声样本输入至文本纠错模型中，通过Transformer Encoder对噪声样本中的每个文字进行层层编码，得到最后一个Transformer层输出的向量，然后可以将最后一个Transformer层输出的向量作为Generative Block的输入，可以基于预设的字表中的文字，来预测给噪声样本中的每个文字可以纠正为字表中每个文字分别对应的概率，以获取到噪声样本中的每个文字纠正为字表中每个文字对应的概率分布，即第二文本概率分布。可以理解的是，为了提高模型的训练效率，本实施例，还可以采用如图15所示的文本纠错辅助模型来获取噪声样本中每个文字对应的第二文本概率分布，此处不作具体限制。

在步骤S105中，基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值；

在本实施例中，在获取到第一文本概率分布和第二文本概率分布之后，可以基于第一文本概率分布和第二文本概率分布，计算得到待纠错训练样本对应的噪声损失值，以后续可以基于噪声损失值使得文本纠错模型在原始的待纠错训练样本和存在噪声上下文的噪声样本产生相似的分布，来增强文本纠错模型对噪声文本中的错别字的识别能力，从而可以在一定程度上提高文本纠错模型识别错别字的精度。

具体地，在获取到第一文本概率分布和第二文本概率分布之后，基于第一文本概率分布和第二文本概率分布，计算得到待纠错训练样本对应的噪声损失值具体可以是基于第一文本概率分布和第二文本概率分布，计算第一文本概率分布与第二文本概率分布之间的双向散度，然后可以通过最小化第一文本概率分布与第二文本概率分布对应的双向散度，以获取到噪声损失值。

在步骤S106中，基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

在本实施例中，在获取到噪声损失值之后，可以基于纠正损失值以及噪声损失值联合对文本纠错模型进行参数调整，直到模型参数趋向于稳定，文本纠错模型收敛，以获取到具有噪声文本的识别能力目标文本纠错模型。

具体地，在获取到噪声损失值之后，基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型具体可以是基于损失权重，对纠正损失值以及噪声损失值进行加权计算，以获取到总损失值，然后可以基于总损失值对文本纠错模型进行参数调整，直到模型参数趋向于稳定，文本纠错模型收敛，以获取到目标文本纠错模型。

在本申请实施例中，提供了一种文本纠错模型的训练方法，通过上述方式，通过为有且仅有一个原始错别字待纠错训练样本构造带噪声的噪声样本，可以基于噪声样本中每个文字对应的第二文本概率分布以及待纠错训练样本中每个文字对应的第一文本概率分布计算噪声损失值，并结合纠正损失值以及噪声建模损失值对文本纠错模型进行联合的参数调整，以使第二文本概率分布和第一文本概率分布尽量一致，使得文本纠错模型学习到对噪声文本的识别能力，无需通过错别字周边的上下文去识别并纠正错别字，能够减少识别误差，从而提高文本纠错模型对文本中错别字的识别精度。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图3所示，步骤S105基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值，包括：

在步骤S301中，基于第一文本概率分布和第二文本概率分布，分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度；

在步骤S302中，基于第一散度和第二散度，计算噪声损失值。

在本实施例中，在获取到第一文本概率分布和第二文本概率分布之后，可以基于第一文本概率分布和第二文本概率分布，计算第一文本概率分布与第二文本概率分布之间的双向散度，即分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度，然后，可以基于第一散度和第二散度，计算得到噪声损失值，以使得第二文本概率分布和第一文本概率分布能够尽量一致，以使后续可以基于噪声损失值提高文本纠错模型对噪声的学习能力，从而可以在一定程度上提高文本纠错模型对错别字的识别精度。

具体地，在获取到第一文本概率分布和第二文本概率分布之后，由于KL距离(Kullback-Leibler Divergence)可以用于来衡量第一文本概率分布和第二文本概率分布的相似性，因此，可以基于第一文本概率分布和第二文本概率分布，采用如下公式(1)先分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度，然后，可以通过最小化第一文本概率分布与第二文本概率分布的KL距离，即最小化第一散度和第二散度来使得第二文本概率分布和第一文本概率分布能够尽量一致，以获取到噪声损失值：

其中，L_KL用于表示最小化第一文本概率分布与第二文本概率分布的KL距离；

用于表示第一文本概率分布向第二文本概率分布的第一散度；

用于表示第二文本概率分布向第一文本概率分布的第二散度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图4所示，步骤S104获取噪声样本中每个文字对应的第二文本概率分布，包括：

在步骤S401中，将噪声样本输入至文本纠错辅助模型，通过文本纠错辅助模型输出噪声样本中每个文字对应的第二文本概率分布，其中，文本纠错辅助模型与文本纠错模型共享参数。

在本实施例中，在通过Noisy Block获取到噪声样本之后，可以将噪声样本输入至文本纠错辅助模型，通过文本纠错辅助模型对噪声样本中的每个文字进行预测，以获取到噪声样本中每个文字对应的第二文本概率分布，能够基于文本纠错模型，以及与文本纠错模型共享参数的文本纠错辅助模型，来并行对待纠错训练样本和噪声样本进行并行处理，能够在一定程度上提高对文本纠错模型的训练效率。

其中，文本纠错辅助模型与文本纠错模型共享参数，可以理解的是，文本纠错辅助模型也可以与文本纠错模型的参数不同。在本实施例中，文本纠错辅助模型采用与文本纠错模型相同的模型框架并共享参数，文本纠错辅助模型具体可以表现为基于BERT的纠错模型，还可以表现为其他模型，此处不作具体限制。例如，如图15所示，文本纠错辅助模型包括编码器(Transformer Encoder)以及生成块(Generative Block)等，其中，文本纠错辅助模型的Transformer Encoder也是一个12层的BERT模型，可以与文本纠错模型中的Transformer Encoder共享参数，文本纠错辅助模型的Generative Block也是一个全连接网络，用于预测纠正的文字，可以与文本纠错辅助模型的Generative Block共享参数。

具体地，如图15所示，在通过Noisy Block获取到噪声样本之后，获取噪声样本中每个文字对应的第二文本概率分布具体可以是通过使用与文本纠错模型共享模型参数的文本纠错辅助模型，即将噪声样本输入至文本纠错辅助模型中，通过Transformer Encoder对噪声样本中的每个文字进行层层编码，得到最后一个Transformer层输出的向量，然后可以将最后一个Transformer层输出的向量作为Generative Block的输入，可以基于预设的字表中的文字，来预测给噪声样本中的每个文字可以纠正为字表中每个文字分别对应的概率，以获取到噪声样本中的每个文字纠正为字表中每个文字对应的概率分布。

例如，如图15所示，可以将一个待纠错训练样本“做为学生”对应的噪声样本“做为雪生”输入至文本纠错辅助模型中，通过该文本纠错辅助模型输出噪声样本“做为雪生”中的每个文字可以纠正为字表中每个文字分别对应的概率，从而获取到每个文字对应的第二文本概率分布。

可选地，在上述图4对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图5所示，当待纠错训练样本不存在原始错别字或者有至少两个原始错别字时；步骤S401将噪声样本输入至文本纠错辅助模型，通过文本纠错辅助模型输出噪声样本中每个文字对应的第二文本概率分布，包括：步骤S501；步骤S301包括：步骤S502；

在步骤S501中，将待纠错训练样本输入至文本纠错辅助模型，通过文本纠错辅助模型输出待纠错训练样本中每个文字对应的第三文本概率分布；

在步骤S502中，基于第一文本概率分布和第三文本概率分布，分别计算第一文本概率分布向第三文本概率分布的第一散度，以及计算第三文本概率分布向第一文本概率分布的第二散度。

在本实施例中，当待纠错训练样本不存在原始错别字或者有至少两个原始错别字时，可以将待纠错训练样本直接输入至文本纠错辅助模型中，并通过文本纠错辅助模型输出待纠错训练样本中每个文字对应的第三文本概率分布，然后，可以基于第一文本概率分布和第三文本概率分布，分别计算得到第一文本概率分布向第三文本概率分布的第一散度，以及计算得到第三文本概率分布向第一文本概率分布的第二散度，以使后续可以基于待纠错训练样本不存在原始错别字或者有至少两个原始错别字基础上得到的第一散度和第二散度，来更好地计算得到噪声损失值，以提高文本纠错模型对噪声的学习能力，从而可以在一定程度上提高文本纠错模型对错别字的识别精度。

具体地，由于经实验可知，对待纠错训练样本进行多个文字替换会降低文本纠错模型的性能，可以理解为，进行多个文字替换会导致待纠错训练样本的上下文中产生太多的噪音，从而降低了文本纠错模型对非多个打字错误文本的学习能力，故如果待纠错训练样本不存在原始错别字，则Noisy Block可以将直接输出或复制待纠错训练样本，并输入至文本纠错辅助模型中，不进行任何文字替换，或者，如果在待纠错训练样本中存在至少两个原始错别字，也不会不进行任何文字替换，即当待纠错训练样本不存在原始错别字或者有至少两个原始错别字时，可以将待纠错训练样本直接输入至文本纠错辅助模型中，并通过文本纠错辅助模型输出待纠错训练样本中的每个文字进行预测，以获取到待纠错训练样本中每个文字对应的第三文本概率分布，以使后续可以采用与步骤S301基于第一文本概率分布和第二文本概率分布，分别计算第一文本概率分布向第二文本概率分布的第一散度，以及计算第二文本概率分布向第一文本概率分布的第二散度的相似方式，来基于第一文本概率分布和第三文本概率分布，分别计算第一文本概率分布向第三文本概率分布的第一散度，以及计算第三文本概率分布向第一文本概率分布的第二散度，此处不再赘述。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图6所示，步骤S103对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本，包括：

在步骤S601中，对待纠错训练样本除原始错别字以外的其他原始文字进行随机噪声位置采样，得到目标噪声位置；

在步骤S602中，将目标噪声位置对应的原始文字进行替换，以构造待纠错训练样本对应的噪声样本。

在本实施例中，如图14所示，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于随机噪声位置采样策略，即对待纠错训练样本除原始错别字以外的其他原始文字进行随机噪声位置采样，以获取到目标噪声位置，然后，可以将目标噪声位置对应的原始文字进行替换，以更好地为待纠错训练样本构造噪声样本。

具体地，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于随机噪声位置采样策略，例如，图16所示，对一个待纠错训练样本“投票将在五月十好登场，选举一触即发”除原始错别字“好”以外的其他原始文字进行随机噪声位置采样，如采样“票”字的位置作为目标噪声位置，然后，可以将目标噪声位置对应的原始文字“票”进行替换，如将“票”替换为近音字“漂”，以构造待纠错训练样本“投票将在五月十好登场，选举一触即发”对应的噪声样本“投漂将在五月十好登场，选举一触即发”。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图7所示，步骤S601对待纠错训练样本除原始错别字以外的其他原始文字进行随机噪声位置采样，得到目标噪声位置，包括：

在步骤S701中，将原始错别字作为起始点，按照采样长度，从原始错别字对应的上下文中确定噪声采样区域；

在步骤S702中，从噪声采样区域中随机选取一个噪声位置作为目标噪声位置。

在本实施例中，如图14所示，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于围绕原始错别字随机采样的策略，即将原始错别字作为起始点，按照采样长度，从原始错别字对应的上下文中确定噪声采样区域，然后，从噪声采样区域中随机选取一个噪声位置作为目标噪声位置，以时后续可以基于目标噪声位置更好地为待纠错训练样本构造噪声样本。

具体地，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于围绕原始错别字随机采样的策略，例如，图16所示，对一个待纠错训练样本“投票将在五月十好登场，选举一触即发”将原始错别字“好”作为起始点，按照采样长度，从原始错别字对应的上下文中确定噪声采样区域，如向原始错别字“好”的左边按照采样长度采样一定长度的文字位置即噪声位置，作为一个噪声采样区域，同理，向原始错别字“好”的右边按照采样长度采样一定长度的文字位置，作为另一个噪声采样区域，然后，可以从两个噪声采样区域中随机选取一个噪声位置作为目标噪声位置。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，采样长度设置为五个字符长度；步骤S701将原始错别字作为起始点，按照采样长度，从原始错别字对应的上下文中确定噪声采样区域，包括：

在本实施例中，由于经实验可知，当采样窗口对应的采样长度大于5时，形成的噪声样本的有效性不佳，不利于增强文本纠错模型学习噪声文本的能力，而当采样窗口对应的采样长度小于5时，形成的噪声样本的差异性和多样性不足，文本纠错模型不能很好地拟合，因此，本实施例可以将采样长度设置为五个字符长度，既能满足采样的多样性和差异性，也能满足采样的有效性，则可以将原始错别字作为起始点，按照五个字符长度，从原始错别字对应的上下文中，分别选取五个字符长度对应的文字区域作为噪声采样区域，可以使得后续基于该噪声采样区域能够更好地为待纠错训练样本构造噪声样本。

具体地，在获取到待纠错训练样本之后，可以将待纠错训练样本通过噪声块(Noisy Block)中，在Noisy Block中基于围绕原始错别字随机采样的策略，例如，图16所示，对一个待纠错训练样本“投票将在五月十好登场，选举一触即发”将原始错别字“好”作为起始点，按照采样长度为五个字符长度，即5个字的采样窗口，从原始错别字对应的上下文中，分别选取五个字符长度对应的文字区域作为噪声采样区域，如向原始错别字“好”的左边采样5个字作为一个噪声采样区域，如“将在五月十”，同理，向原始错别字“好”的左边采样5个字作为另一个噪声采样区域，如“登场，选举”。

可选地，在上述图6对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图8所示，步骤S602将目标噪声位置对应的原始文字进行替换，以构造待纠错训练样本对应的噪声样本，包括：

在步骤S801中，从目标噪声位置对应的原始文字所对应的混淆集中随机选取一个待替换文字；

在步骤S802中，将目标噪声位置对应的原始文字变更为待替换文字，得到噪声样本。

在本实施例中，在获取到目标噪声位置之后，可以从目标噪声位置对应的原始文字所对应的混淆集中随机选取一个待替换文字，然后，将目标噪声位置对应的原始文字变更为待替换文字，可以更好地为待纠错训练样本构造噪声样本。

其中，混淆集是容易与原始文字混淆的文字的集合，混淆集存储了易错字的对应关系，总体可以分为三类：如同音字、近音字和形近字，其中，如下表2展示了不同类型的混淆集示例。

表2

具体地，如图16所示，例如，如向原始错别字“好”的左边采样5个字作为一个噪声采样区域，如“将在五月十”，以及向原始错别字“好”的左边采样5个字作为另一个噪声采样区域，如“登场，选举”，可以随机选取噪声采样区域中的一个噪声位置作为目标噪声位置如“月”字所在位置之后，可以从目标噪声位置对应的原始文字“月”所对应的混淆集中随机选取一个待替换文字如“约”，然后，将目标噪声位置对应的原始文字“月”变更为待替换文字“约”，即可以得到待纠错训练样本“投票将在五月十好登场，选举一触即发”对应的噪声样本“投票将在五约十好登场，选举一触即发”。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图9所示，在步骤S101将待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布之前，该方法还包括：步骤S901，以及步骤S101包括：步骤S902；步骤S102包括：步骤S903；

在步骤S901中，将待纠错训练样本转换为待纠错训练字序列；

在步骤S902中，将待纠错训练字序列输入至文本纠错模型，通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布；

在步骤S903中，基于每个文字对应的第一文本概率分布，计算待纠错训练字序列对应的纠正损失值。

在本实施例中，如图15所示，可以将待纠错训练样本转换为待纠错训练字序列之后，将待纠错训练字序列输入至文本纠错模型，通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布，并基于每个文字对应的第一文本概率分布，计算待纠错训练字序列对应的纠正损失值，通过将待纠错训练样本转换为待纠错训练字序列进行处理，以便于文本纠错模型进行识别和处理，从而可以在一定程度上提高文本纠错模型的学习效率。

具体地，如图15所示，由于文本纠错模型是一个基于BERT的纠错模型，因此，在待纠错训练样本进入文本纠错模型之前会被拆成字序列，然后，可以将待纠错训练字序列输入至文本纠错模型，使得文本纠错模型的Transformer Encoder可以对待纠错训练样本中的每个文字进行同步处理，以提高文本纠错模型的学习效率通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布，并基于每个文字对应的第一文本概率分布，更好地计算得到待纠错训练字序列对应的纠正损失值。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图10所示，步骤S902将待纠错训练字序列输入至文本纠错模型，通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布，包括：

在步骤S1001中，通过文本纠错模型对待纠错训练字序列中的每个文字进行编码，得到每个文字对应的嵌入向量；

在步骤S1002中，基于嵌入向量，计算待纠错训练字序列中的每个文字对应的第一文本概率分布。

在本实施例中，在获取到待纠错训练字序列之后，可以通过文本纠错模型对待纠错训练字序列中的每个文字进行编码，以获取到每个文字对应的嵌入向量，并基于嵌入向量，可以更好更准确地计算得到待纠错训练字序列中的每个文字对应的第一文本概率分布。

具体地，如图15所示，在获取到待纠错训练字序列之后，可以通过文本纠错模型的Transformer Encoder对待纠错训练字序列中的每个文字进行编码，以获取到最后一个Transformer层输出的每个文字对应的嵌入向量，然后，可以将嵌入向量作为GenerativeBlock的输入，采用如下公式(2)基于预设的字表中的文字，来预测给待纠错训练样本中的每个文字可以纠正为字表中每个文字分别对应的概率，以获取到待纠错训练字序列中的每个文字纠正为字表中每个文字对应的概率分布，即第一文本概率分布：

P_g(Y_i＝j|X)＝soft max(W_ch_i+b_c)[j] (2)；

其中，X用于表示待纠错训练字序列，i用于表示待纠错训练字序列中的第i个文字，j用于表示字表中的第j个文字，P_g(Y_i＝j|X)用于表示待纠错训练字序列中的第i个文字被纠正为字表中第j个文字的概率，h_i是第i个token经过BERT的最后一个Transformer层输出的嵌入向量，W_c、b_c是汉字分类器参数。

可选地，在上述图9对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图11所示，在步骤S903基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值之前，该方法还包括：步骤S1101；步骤S903包括：步骤S1102至步骤S1103；

在步骤S1101中，获取待纠错训练字序列中每个文字对应的复制概率分布；

在步骤S1102中，基于复制概率分布以及第一文本概率分布，确定待纠错训练字序列中每个文字对应的输出概率分布；

在步骤S1103中，基于每个文字对应的输出概率分布，计算待纠错训练字序列对应的纠正损失值。

在本实施例中，在获取到待纠错训练字序列之后，可以获取待纠错训练字序列中每个文字对应的复制概率分布，然后，基于复制概率分布以及第一文本概率分布，可以计算得到待纠错训练字序列中每个文字对应的输出概率分布，并基于每个文字对应的输出概率分布，可以更好地计算得到待纠错训练字序列对应的纠正损失值。

具体地，如图15所示，考虑到文本中的文字不属于错别字的情形，因此，通过文本纠错模型输出待纠错训练字序列中每个文字对应的复制概率分布，其中，每个文字对应的复制概率是一个热独向量表示如下公式(3)：

其中，P_c[k]用于表示待纠错训练字序列中第i个文字的输出为该第i个文字的复制概率。

进一步地，基于复制概率分布以及第一文本概率分布，可以采用如下条件(4)至条件(6)以及如下公式(7)计算得到待纠错训练字序列中每个文字对应的输出概率分布：

h_c＝W_chf_ln(h_i)+b_ch (4)；

h′_c＝f_ln(f_act(h_c)) (5)；

ω＝Sigmoid(W_ch′_c) (6)；

P＝ω×P_c+(1-ω)P_g (7)；

其中，ω∈R用于表示权重；

b_ch∈R^dc、

均为文本纠错模型的参数；f_act是激活函数；f_ln是规范化函数；P用于表示输出概率分布。

进一步地，基于每个文字对应的输出概率分布，采用如下公式(8)计算得到待纠错训练字序列对应的纠正损失值：

其中，L_c用于表示第一文本概率分布，P用于表示输出概率分布，X用于表示待纠错训练字序列，Y_i用于表示待纠错训练字序列中的第i个文字。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练方法另一个可选实施例中，如图12所示，基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型，包括：

在步骤S1201中，基于损失权重，对纠正损失值以及噪声损失值进行加权计算，得到总损失值；

在步骤S1202中，基于总损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

在本实施例中，在获取到噪声损失值之后，可以基于预设的损失权重，对纠正损失值以及噪声损失值进行加权计算，以获取到总损失值，然后，可以基于总损失值对文本纠错模型进行参数调整，以更好地获取到目标文本纠错模型。

具体地，在获取到噪声损失值之后，可以基于预设的损失权重，采用如下公式(9)以及公式(10)对纠正损失值以及噪声损失值进行加权计算，以获取到总损失值：

L＝(1-α)L_C+αL_KL (9)；

其中，L用于表示总损失值；α用于表示预设的损失权重，α可以根据实际应用需求进行设置，此处不作具体限制，通常可以设置为0.05。

下面将对本申请中文本纠错模型的应用方法进行介绍，请参阅图13，本申请实施例中文本纠错模型的应用方法一个实施例包括：

在步骤S1301中，获取待纠错文本；

在步骤S1302中，将待纠错文本输入至目标文本纠错模型，通过目标文本纠错模型的纠正模块计算待纠错文本中的每个文字对应的文本概率分布；

在步骤S1303中，从文本概率分布中，选取待纠错文本中的每个文字对应的最大文本概率；

在步骤S1304中，将最大文本概率对应的字表文字作为目标纠正文字，以得到待纠错文本对应的目标纠正文本。

在本实施例中，当文本纠错模型完成训练后，可以获取到目标文本纠错模型，使得在获取到待纠错文本之后，可以将将待纠错文本输入至目标文本纠错模型，通过目标文本纠错模型的纠正模块计算待纠错文本中的每个文字对应的文本概率分布，然后，可以从文本概率分布中，选取出待纠错文本中的每个文字对应的最大文本概率，并将最大文本概率对应的字表文字作为目标纠正文字，以整理得到待纠错文本对应的目标纠正文本，能够更加目标文本纠错模型更加准确地识别出待纠错文本如文章或评论中的错别字，从而可以及时过滤掉低质文章或评论等，以提升用户体验。

具体地，待纠错文本具体可以表现为一篇待纠错的文章、段落或句子等，还可以是其他表示，此处不作具体限制，进而，可以对获取到的待纠错文本进行分句处理，然后将处理得到句子转换为字序列，再输入至训练好的目标文本纠错模型中，以通过目标纠错文本模型对字序列中的每个文字进行预测，以获取到待纠错文本中的每个文字对应的文本概率分布。

进一步地，在获取到待纠错文本中的每个文字对应的文本概率分布之后，可以从文本概率分布中，筛选出待纠错文本中的每个文字对应的最大文本概率，并将最大文本概率对应的字表文字作为目标纠正文字，从而可以整理得到待纠错文本对应的目标纠正文本，以使后续可以将纠正好的目标纠正文本应用于智能识别以及智能检索等场景。

下面对本申请中的文本纠错模型的训练装置进行详细描述，请参阅图18，图18为本申请实施例中文本纠错模型的训练装置的一个实施例示意图，文本纠错模型的训练装置20包括：

处理单元201，用于将待纠错训练样本输入至文本纠错模型，通过文本纠错模型输出待纠错训练样本中每个文字对应的第一文本概率分布，其中，待纠错训练样本有且仅有一个原始错别字；

处理单元201，还用于基于每个文字对应的第一文本概率分布，计算待纠错训练样本对应的纠正损失值；

处理单元201，还用于对待纠错训练样本中除原始错别字以外的其他任一原始文字进行替换，以构造待纠错训练样本对应的噪声样本；

获取单元202，用于获取噪声样本中每个文字对应的第二文本概率分布；

处理单元201，还用于基于第一文本概率分布和第二文本概率分布，计算待纠错训练样本对应的噪声损失值；

确定单元203，用于基于纠正损失值以及噪声损失值对文本纠错模型进行参数调整，得到目标文本纠错模型。

可选地，在上述图18对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练装置的另一实施例中，处理单元201具体可以用于：

基于第一散度和第二散度，计算噪声损失值。

可选地，在上述图18对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练装置的另一实施例中，获取单元202具体可以用于：

可选地，在上述图18对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练装置的另一实施例中，

处理单元201，还用于将待纠错训练样本转换为待纠错训练字序列；

处理单元201具体可以用于：将待纠错训练字序列输入至文本纠错模型，通过文本纠错模型输出待纠错训练字序列中每个文字对应的第一文本概率分布；

处理单元201具体可以用于：基于每个文字对应的第一文本概率分布，计算待纠错训练字序列对应的纠正损失值。

获取单元202，还用于获取待纠错训练字序列中每个文字对应的复制概率分布；

处理单元201具体可以用于：

可选地，在上述图18对应的实施例的基础上，本申请实施例提供的文本纠错模型的训练装置的另一实施例中，确定单元203具体可以用于：

下面对本申请中的文本纠错模型的应用装置进行详细描述，请参阅图19，图19为本申请实施例中文本纠错模型的应用装置的一个实施例示意图，文本纠错模型的应用装置30包括：

获取单元301，用于获取待纠错文本；

处理单元302，用于将待纠错文本输入至上述各方面的方法的目标文本纠错模型，通过目标文本纠错模型的纠正模块计算待纠错文本中的每个文字对应的文本概率分布；

处理单元302，用于从文本概率分布中，选取待纠错文本中的每个文字对应的最大文本概率；

获取单元301，还用于将最大文本概率对应的字表文字作为目标纠正文字，以得到待纠错文本对应的目标纠正文本。

本申请另一方面提供了另一种计算机设备示意图，如图20所示，图20是本申请实施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地，中央处理器310可以设置为与存储介质330通信，在计算机设备300上执行存储介质330中的一系列指令操作。

计算机设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统333，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

上述计算机设备300还用于执行如图2至图12对应的实施例中的步骤，以及执行如图13对应的实施例中的步骤。

本申请的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序被处理器执行时实现如图2至图12所示实施例描述的方法中的步骤，以及执行如图13所示实施例描述的方法中的步骤。

本申请的另一方面提供了一种包含计算机程序的计算机程序产品，当计算机程序被处理器执行时实现如图2至图12所示实施例描述的方法中的步骤，以及执行如图13所示实施例描述的方法中的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本纠错模型的训练方法，其特征在于，包括：

将待纠错训练样本输入至文本纠错模型，通过所述文本纠错模型输出所述待纠错训练样本中每个文字对应的第一文本概率分布，其中，所述待纠错训练样本有且仅有一个原始错别字；

基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练样本对应的纠正损失值；

对所述待纠错训练样本中除所述原始错别字以外的其他任一原始文字进行替换，以构造所述待纠错训练样本对应的噪声样本；

获取所述噪声样本中每个文字对应的第二文本概率分布；

基于所述第一文本概率分布和所述第二文本概率分布，计算所述待纠错训练样本对应的噪声损失值；

基于所述纠正损失值以及所述噪声损失值对所述文本纠错模型进行参数调整，得到目标文本纠错模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本概率分布和所述第二文本概率分布，计算所述待纠错训练样本对应的噪声损失值，包括：

基于所述第一文本概率分布和所述第二文本概率分布，分别计算所述第一文本概率分布向所述第二文本概率分布的第一散度，以及计算所述第二文本概率分布向所述第一文本概率分布的第二散度；

基于所述第一散度和所述第二散度，计算所述噪声损失值。

3.根据权利要求2所述的方法，其特征在于，所述获取所述噪声样本中每个文字对应的第二文本概率分布，包括：

将所述噪声样本输入至文本纠错辅助模型，通过所述文本纠错辅助模型输出所述噪声样本中每个文字对应的所述第二文本概率分布，其中，所述文本纠错辅助模型与所述文本纠错模型共享参数。

4.根据权利要求3所述的方法，其特征在于，当所述待纠错训练样本不存在所述原始错别字或者有至少两个所述原始错别字时；

所述将所述噪声样本输入至文本纠错辅助模型，通过所述文本纠错辅助模型输出所述噪声样本中每个文字对应的所述第二文本概率分布，包括：

将所述待纠错训练样本输入至所述文本纠错辅助模型，通过所述文本纠错辅助模型输出所述待纠错训练样本中每个文字对应的所述第三文本概率分布；

所述基于所述第一文本概率分布和所述第二文本概率分布，分别计算所述第一文本概率分布向所述第二文本概率分布的第一散度，以及计算所述第二文本概率分布向所述第一文本概率分布的第二散度，包括：

基于所述第一文本概率分布和所述第三文本概率分布，分别计算所述第一文本概率分布向所述第三文本概率分布的第一散度，以及计算所述第三文本概率分布向所述第一文本概率分布的第二散度。

5.根据权利要求1所述的方法，其特征在于，所述对所述待纠错训练样本中除所述原始错别字以外的其他任一原始文字进行替换，以构造所述待纠错训练样本对应的噪声样本，包括：

对所述待纠错训练样本除所述原始错别字以外的其他原始文字进行随机噪声位置采样，得到目标噪声位置；

将所述目标噪声位置对应的原始文字进行替换，以构造所述待纠错训练样本对应的噪声样本。

6.根据权利要求5所述的方法，其特征在于，所述对所述待纠错训练样本除所述原始错别字以外的其他原始文字进行随机噪声位置采样，得到目标噪声位置，包括：

将所述原始错别字作为起始点，按照采样长度，从所述原始错别字对应的上下文中确定噪声采样区域；

从所述噪声采样区域中随机选取一个噪声位置作为所述目标噪声位置。

7.根据权利要求6所述的方法，其特征在于，所述采样长度设置为五个字符长度；

所述将所述原始错别字作为起始点，按照采样长度，从所述原始错别字对应的上下文中确定噪声采样区域，包括：

将所述原始错别字作为起始点，按照所述五个字符长度，从所述原始错别字对应的上下文中，分别选取五个字符长度对应的文字区域作为所述噪声采样区域。

8.根据权利要求5所述的方法，其特征在于，所述将所述目标噪声位置对应的原始文字进行替换，以构造所述待纠错训练样本对应的噪声样本，包括：

从所述目标噪声位置对应的原始文字所对应的混淆集中随机选取一个待替换文字；

将所述目标噪声位置对应的原始文字变更为所述待替换文字，得到所述噪声样本。

9.根据权利要求1所述的方法，其特征在于，所述将待纠错训练样本输入至文本纠错模型，通过所述文本纠错模型输出所述待纠错训练样本中每个文字对应的第一文本概率分布之前，所述方法还包括：

将所述待纠错训练样本转换为待纠错训练字序列；

所述将待纠错训练样本输入至文本纠错模型，通过所述文本纠错模型输出所述待纠错训练样本中每个文字对应的第一文本概率分布，包括：

将所述待纠错训练字序列输入至所述文本纠错模型，通过所述文本纠错模型输出所述待纠错训练字序列中每个文字对应的第一文本概率分布；

所述基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练样本对应的纠正损失值，包括：

基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练字序列对应的纠正损失值。

10.根据权利要求9所述的方法，其特征在于，所述将所述待纠错训练字序列输入至所述文本纠错模型，通过所述文本纠错模型输出所述待纠错训练字序列中每个文字对应的第一文本概率分布，包括：

通过所述文本纠错模型对所述待纠错训练字序列中的每个文字进行编码，得到所述每个文字对应的嵌入向量；

基于所述嵌入向量，计算所述待纠错训练字序列中的所述每个文字对应的第一文本概率分布。

11.根据权利要求9所述的方法，其特征在于，所述基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练样本对应的纠正损失值之前，所述方法还包括：

获取所述待纠错训练字序列中每个文字对应的复制概率分布；

所述基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练字序列对应的纠正损失值，包括：

基于所述复制概率分布以及所述第一文本概率分布，确定所述待纠错训练字序列中每个文字对应的输出概率分布；

基于所述每个文字对应的输出概率分布，计算所述待纠错训练字序列对应的纠正损失值。

12.根据权利要求1所述的方法，其特征在于，所述基于所述纠正损失值以及所述噪声损失值对所述文本纠错模型进行参数调整，得到目标文本纠错模型，包括：

基于损失权重，对所述纠正损失值以及所述噪声损失值进行加权计算，得到总损失值；

基于所述总损失值对所述文本纠错模型进行参数调整，得到所述目标文本纠错模型。

13.一种文本纠错模型的应用方法，其特征在于，包括：

获取待纠错文本；

将所述待纠错文本输入至权利要求1至12中任一项所述的方法的目标文本纠错模型，通过所述目标文本纠错模型的纠正模块计算所述待纠错文本中的每个文字对应的文本概率分布；

从所述文本概率分布中，选取所述待纠错文本中的每个文字对应的最大文本概率；

将所述最大文本概率对应的字表文字作为目标纠正文字，以得到所述待纠错文本对应的目标纠正文本。

14.一种文本纠错模型的训练装置，其特征在于，包括：

处理单元，用于将待纠错训练样本输入至文本纠错模型，通过所述文本纠错模型输出所述待纠错训练样本中每个文字对应的第一文本概率分布，其中，所述待纠错训练样本有且仅有一个原始错别字；

所述处理单元，还用于基于所述每个文字对应的第一文本概率分布，计算所述待纠错训练样本对应的纠正损失值；

所述处理单元，还用于对所述待纠错训练样本中除所述原始错别字以外的其他任一原始文字进行替换，以构造所述待纠错训练样本对应的噪声样本；

获取单元，用于获取所述噪声样本中每个文字对应的第二文本概率分布；

所述处理单元，还用于基于所述第一文本概率分布和所述第二文本概率分布，计算所述待纠错训练样本对应的噪声损失值；

确定单元，用于基于所述纠正损失值以及所述噪声损失值对所述文本纠错模型进行参数调整，得到目标文本纠错模型。

15.一种文本纠错模型的应用装置，其特征在于，包括：

获取单元，用于获取待纠错文本；

处理单元，用于将待纠错文本输入至权利要求1至12中任一项所述的方法的目标文本纠错模型，通过所述目标文本纠错模型的纠正模块计算所述待纠错文本中的每个文字对应的文本概率分布；

所述处理单元，用于从所述文本概率分布中，选取所述待纠错文本中的每个文字对应的最大文本概率；

所述获取单元，还用于将所述最大文本概率对应的字表文字作为目标纠正文字，以得到所述待纠错文本对应的目标纠正文本。

16.一种计算机设备，包括存储器、处理器以及总线系统，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤，以及实现权利要求13所述的方法的步骤；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤，以及实现权利要求13所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤，以及实现权利要求13所述的方法的步骤。