CN114048733A

CN114048733A - 文本纠错模型的训练方法、文本纠错方法及装置

Info

Publication number: CN114048733A
Application number: CN202111348233.7A
Authority: CN
Inventors: 张睿卿; 刘辉; 何中军; 吴华; 李芝
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-15

Abstract

本公开提供了文本纠错模型的训练方法、文本纠错方法及装置，涉及计算机技术领域，尤其涉及自然语言处理领域。文本纠错模型的训练方法包括：获取样本语句和样本语句中代词的实际指代对象，并获取样本语句的历史语句；对样本语句中的代词进行第一指定长度的掩码；第一指定长度是基于历史语句中候选名词的字符长度确定出的；基于样本语句、历史语句、掩码后的样本语句和代词的实际指代对象，对文本纠错模型进行训练，直至文本纠错模型收敛。本公开的技术方案可得到精度较高的文本纠错模型，进而提升文本纠错的准确率，提升用户体验。

Description

文本纠错模型的训练方法、文本纠错方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理领域，具体涉及一种文本纠错模型的训练方法、文本纠错方法及装置。

背景技术

在自然语言处理领域，同声传译产品可实时对发言人说话内容进行语音识别并输出，当发言人说话内容中先后出现多个人物或事物的名词，并在随后的内容中出现代词时，代词的输出经常不准确，例如将“他”输出为“它”，进而影响语音识别输出的准确性，影响用户体验。

发明内容

本公开提供了一种文本纠错模型的训练方法、文本纠错方法及装置。

根据本公开的第一方面，提供了一种文本纠错模型的训练方法，包括：

获取样本语句和样本语句中代词的实际指代对象，并获取样本语句的历史语句；

对样本语句中的代词进行第一指定长度的掩码；第一指定长度是基于历史语句中候选名词的字符长度确定出的；

基于样本语句、历史语句、掩码后的样本语句和代词的实际指代对象，对文本纠错模型进行训练，直至文本纠错模型收敛。

根据本公开的第二方面，提供了一种文本纠错方法，包括：

获取目标语句，并获取目标语句的历史语句；

对目标语句中的代词进行第二指定长度的掩码；第二指定长度是基于目标语句的历史语句中候选名词的字符长度确定出的；

将目标语句、目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于文本纠错模型的输出得到掩码位置的指代概率分布；文本纠错模型是通过本公开任一实施例提供的文本纠错模型的训练方法预先训练出的；

根据指代概率分布确定目标语句中代词的指代对象；

根据目标语句中代词的指代对象更新目标语句中代词的文本内容。

根据本公开的第三方面，提供了一种文本纠错模型的训练装置，包括：

第一获取模块，用于获取样本语句和样本语句中代词的实际指代对象，并获取样本语句的历史语句；

第一掩码模块，用于对样本语句中的代词进行第一指定长度的掩码；第一指定长度是基于历史语句中候选名词的字符长度确定出的；

训练模块，用于基于样本语句、历史语句、掩码后的样本语句和代词的实际指代对象，对文本纠错模型进行训练，直至初始文本纠错模型收敛。

根据本公开的第四方面，提供了一种文本纠错装置，包括：

第二获取模块，用于获取目标语句，并获取目标语句的历史语句；

第二掩码模块，用于对目标语句中的代词进行第二指定长度的掩码；第二指定长度是基于目标语句的历史语句中候选名词的字符长度确定出的；

概率确定模块，用于将目标语句、目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于文本纠错模型的输出得到掩码位置的指代概率分布；文本纠错模型是通过本公开任一实施例提供的文本纠错模型的训练装置预先训练出的；

对象确定模块，用于根据指代概率分布确定目标语句中代词的指代对象；

更新模块，用于根据目标语句中代词的指代对象更新目标语句中代词的文本内容。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

本公开的技术方案可至少实现如下有益效果：

用于训练文本纠错模型的样本数据包括样本语句和样本语句的历史语句，该样本语句和历史语句包含了较为完整的上下文信息；基于历史语句中候选名词的字符长度对样本语句中的代词进行掩码，可提高掩码长度与候选名词的字符长度的适配度；基于上下文信息以及对样本语句中代词的掩码对文本纠错模型进行训练，可提升训练出的文本纠错模型的精度，基于训练出的文本纠错模型以及对目标语句中代词的掩码对目标语句中的代词进行纠错，可提升纠错的准确率，得到更准确的文本内容，进而可提升用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是相关技术中语音识别错误的示意图；

图2是相关技术中对语音识别错误进行纠正的原理示意图；

图3是本公开实施例提供的一种文本纠错模型的训练方法的流程示意图；

图4是本公开实施例提供的另一种文本纠错模型的训练方法的部分流程示意图；

图5是本公开实施例提供的一种文本纠错方法的流程示意图；

图6为本公开实施例提供的文本纠错方法的一种原理示意图；

图7为本公开实施例提供的一种文本纠错模型的训练装置的结构框架示意图；

图8为本公开实施例提供的一种文本纠错装置的结构框架示意图；

图9是本公开实施例提供的一种电子设备的结构框架示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了目前的同声传译产品在进行语音识别输出的过程中的三个示例，三个示例中均出现了代词的错误识别。第一个示例中，根据前后文之间的关系，第三句话(此处以句号和问号分割不同的句子)中的“他”的实际指代对象为表示人物的名词“我太太”，第三句话中的“他”应为“她”，但在图1中被错误地识别；第二个示例中，根据前后文之间的关系，第三句话中的“他”的实际指代对象为表示事物的名词“ipad”，第三句话中的“他”应为“它”，但在图1中被错误地识别；第三个示例中，根据前后文之间的有关系，第三句话中的“他”的实际指代对象是表示事物的名词“几十部剧”，第三句话中的“他”应为“它”，但在图1中被错误地识别。

针对上述问题，目前通常采用如图2所示的基于分词的预训练语言模型SpanBERT来预测每个代词y_i的指代对象是前文某个名词x_i的概率，选择概率最高的名词作为预测出的指代对象。

在图2中，Fixed-length spans表示定长区间，即给定的前文中的候选名词和后文中的候选代词均为同一字符长度，在图2中该长度为3；Span Embeddings表示区间表征向量，x_i表示候选名词的Transformer编码即表征向量，y_i表示候选代词的Transformer编码即表征向量，s(x_i,y_i)表示集成了候选项目编码x_i和y_i的x_i和y_i之间的相关性，s_c(x_i,y_i)表示未集成候选项目编码x_i和y_i的x_i和y_i之间的相关性，p(x_i|y_i)表示y_i的指代对象为x_i的概率。

图2所示的方式只考虑候选名词和候选代词而不考虑前后文的全部信息，模型无法根据候选名词和候选代词的输入形成句子或篇章的完整理解，进而无法对候选代词的指代对象进行准确的识别。

此外，图2所示的方式要求输入序列是定长的，这就导致有些候选在输入时需要做扩充或裁剪。如图2所示的示例，输入的所有候选都必须是3个字符(token)，“ipad”为一个字符，需要进行扩充，图2中扩充为“ipad上面”；“他”为一个字符，需要进行扩充，图2中扩充为“他脑子”；“几十部剧”为四个字符，需要进行裁剪，图2中裁剪为“几十部”。扩充会引入多余的信息，裁剪会损失关键信息，两种情况均会导致无法对候选代词的指代对象进行准确的识别。

下面以具体实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。

根据本公开的实施例，本公开提供了一种文本纠错模型的训练方法，如图3所示，该训练方法包括：

S301，获取样本语句和样本语句中代词的实际指代对象，并获取样本语句的历史语句。

本公开实施例中，样本语句可以包括任意多个包括代词且代词的文本内容有误的语句。样本语句的历史语句可以是样本语句之前的指定范围的语句，例如样本语句的前M个语句，M为正整数，M的具体数值可根据实际需求设置。

本公开实施例中，对各个语句的划分可以指定的标点符号为准划分，两个指定的标点符号之间的内容为一个语句。在一个示例中，指定的标点符号可以包括句号、问号和感叹号，在其它示例中，根据实际需求，还可以将其它的标点符号作为指定的标点符号。

在一种可选的实施方式中，获取样本语句的历史语句，包括：获取预先标注有候选名词的所述样本语句的历史语句。在一个示例中，历史语句中的候选名词可通过词性标记模型来标注，词性标注(Part-Of-Speech tagging，POS tagging)模型可用于标注输入的历史语句中的全部名词作为候选名词，还可以用于标注所输入的历史语句中其它词性，例如动词、代词等。在其它示例中，根据实际需求的不同，也可以将词性标注模型标注出的部分名词作为候选名词。

本公开实施例中的词性标注模型可以是隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场(Conditional Random Fields，CRFs)等模型中的任意一种，本公开实施例对此不做限定，可实现本公开实施例中在历史语句中标注候选名词的功能即可。

预先标注了候选名词的历史语句，不仅可以为后续的文本纠错模型的训练提供较为完整的前文信息，还可提供具体的候选名词，使文本纠错模型的训练过程中可以基于候选名词针对性的训练，可提升训练精度和训练效率。

在另一种可选的实施方式中，样本语句的历史语句可以是未预先标注候选名词的语句，此时可将该历史语句所有的词均视为候选名词。

S302，对样本语句中的代词进行第一指定长度的掩码。

第一指定长度是基于样本语句的历史语句中候选名词的字符长度确定出的。

在一个可选的实施方式中，在样本语句的历史语句中包括一个候选名词的情况下，基于该一个候选名词的字符长度(作为第一指定长度)，对样本语句中的代词进行掩码。

在另一个可选的实施方式中，在历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度；基于该最大字符长度，对样本语句中的代词进行掩码。

可选地，在对样本语句中的代词进行第一指定长度的掩码时，可对样本语句中的代词进行掩码([MASK])，然后将掩码的长度扩展到第一指定长度，掩码过程可由如下表达式表达：

s＝masked(S_N) 表达式(1)

在表达式(1)中，S_N为样本语句，s为掩码后的样本语句。

在一个示例中，若样本语句为“他昨天出差了”，前文中多个候选名词的最大字符长度为2，则对该样本语句中的代词“他”进行最大字符长度的掩码后得到的语句为“[MASK][MASK]昨天出差了”。

基于多个候选名词的字符长度中的最大字符长度，对样本语句中的代词进行掩码，可使掩码长度足够大，以满足将每个候选名词和掩码位置进行匹配的需求，无需对候选名词做裁剪。

S303，基于样本语句、样本语句的历史语句、掩码后的样本语句和样本语句中代词的实际指代对象，对文本纠错模型进行训练，直至文本纠错模型收敛。

在一种可选的实施方式中，上述对文本纠错模型的训练包括至少一次迭代训练，每次迭代训练包括：

将样本语句、样本语句的历史语句和掩码后的样本语句输入当前文本纠错模型，基于当前文本纠错模型的输出得到掩码位置的指代概率分布；根据样本语句中代词的实际指代对象和当前文本纠错模型输出的指代概率分布，确定当前文本纠错模型的损失函数值，根据损失函数值调整当前文本纠错模型的参数；其中，当前文本纠错模型为初始的文本纠错模型或上一次迭代训练出的文本纠错模型。

在将样本语句、样本语句的历史语句和掩码后的样本语句输入当前文本纠错模型时，将样本语句、样本语句的历史语句和掩码后的样本语句的全部文本内容均输入当前文本纠错模型，基于样本语句、样本语句的历史语句和掩码后的样本语句的全部文本内容对当前文本纠错模型进行训练，以提升训练精度。

本公开实施例中，对文本纠错模型进行迭代训练可提升训练效果，所获取的样本语句及其历史语句可以是多组，以满足迭代训练的需求，当样本语句及其历史语句的数量足够多时，可训练出精度较高的文本纠错模型。

在一种可选的实施方式中，如图4所示，将样本语句、样本语句的历史语句和掩码后的样本语句输入当前文本纠错模型，基于当前文本纠错模型的输出得到代词的当前指代对象，包括如下步骤S401-S403：

S401，将样本语句和样本语句的历史语句输入当前文本纠错模型中的编码器(Encoder)，基于编码器的输出得到样本语句的编码结果和样本语句的历史语句的编码结果。

本公开实施例中，编码器可以包括Transformer网络或Hierarchy Transformer网络，也可以是其它网络，本公开实施例对此不作限定，可以实现本公开实施例中编码器的功能即可。编码器的编码结果包括样本语句的隐状态(hidden states)和样本语句的历史语句的隐状态，具体包括样本语句中每个词的隐状态和样本语句的历史语句的每个词的隐状态。

在一个示例中，编码器的编码方式可由如下表达式来表达：

e_i＝Encoder(S_i) 表达式(2)

在表达式(2)中，S_i表示样本语句的历史语句和样本语句中的第i个语句，例如在样本语句“如果说他脑子里装了500个T，我觉得那都是保守了。”、以及该样本语句的历史语句“啊我太太ipad上面都是几十部剧在热播。多少？”中，“啊我太太ipad上面都是几十部剧在热播。”为第1个语句即S₁，“多少？”为第2个语句即S₂，“如果说他脑子里装了500个T，我觉得那都是保守了。”为第3个语句即S₃。e_i为S_i的隐状态，包括S_i中的各个词的隐状态。

在将样本语句及其历史语句、以及掩码后的样本语句输入编码器时，将样本语句及其历史语句、以及掩码后的样本语句的全部文本内容均输入编码器，可实现基于上下文内容的篇章级编码。

S402，将样本语句的编码结果、样本语句的历史语句的编码结果和掩码后的样本语句输入当前文本纠错模型中的解码器(Decoder)，基于解码器的输出得到掩码后的样本语句的解码结果。

本公开实施例中，解码器可以包括Transformer网络和交叉注意力网络，其中Tranformer网络还可以由其它网络代替，例如HierarchyTransformer网络，交叉注意力网络还可以由其它网络代替，本公开实施例对此不作限定，可实现本公开实施例解码器的功能即可。

在一个示例中，解码器解码过程可由如下表达式表达：

x＝Transformer(s) 表达式(3)

h＝Decoder(x,e₁,e₂,…) 表达式(4)

在表达式(3)中，s表示掩码后的样本语句，x表示Transformer网络输出的掩码后的样本语句s的语义表示。

在表达式(4)中，e₁表示编码器输出的第1个语句的隐状态；e₂表示编码器输出的第2个语句的隐状态；h表示解码器输出的掩码后的样本语句s的向量表示，h有大小可以是N*d，N为原始语句的字符长度，d可根据实际情况确定，例如将d设置为512或1024。

在一个示例中，上述表达式(4)的具体实现方式可由如下表达式表达：

α_ij＝softmax(x_i,e_j) 表达式(5)

h_i＝α_ij·e_j 表达式(6)

在表达式(5)中，x_i表示Transformer网络输出的掩码后的样本语句s中第i个字符的语义表示；e_j表示编码器输出的第j个语句的隐状态；α_ij表示x_i集中到e_j的注意力。

在表达式(6)中，h_i表示解码器输出的掩码后的样本语句s中第i个字符的向量表示。

解码器的输入不仅包括样本语句及其历史语句的编码结果，还包括掩码后的样本语句的内容，可强化解码器对样本语句和历史语句的逻辑关系的理解，有助于对掩码后的样本语句得到可靠性更高的解码结果。

S403，对解码结果中掩码位置的解码结果进行序列标注，得到掩码位置的指代概率分布。

本公开实施例对实现序列标注的具体方式不作限定，可实现本公开实施例中序列标注的功能即可。在一个示例中，可通过softmax激活函数对掩码位置的解码结果进行序列标注，序列标注的结果为所有候选词在掩码位置的概率分布，其中所有候选词可以是预设的词典中所有字符形成的第一指定长度的字符组合。该方式的表达式如下：

t_i＝softmax(h_i) 表达式(7)

在表达式(7)中，h_i的含义同表达式(6)，t_i表示对h_i进行序列标注得到的概率分布，该概率分布具体为预设的词典中所有字符在语句s中第i个字符位置上的概率分布。

在针对掩码位置进行序列标注的具体场景中，表达式(7)中i的取值只需要考虑语句s中掩码位置，无需考虑语句s中的其它位置，且预设的词典中通常包括历史语句中形成候选名词的各字符，进而可得到候选名词的各字符在语句s中每个掩码位置上的概率分布(作为代词的概率分布)，该概率分布由各候选名词在各掩码位置形成的掩码部分的概率值形成。

在一个示例中，若掩码后的样本语句为“[MASK][MASK]昨天出差了”，候选名词为“太太”和“朋友”，则可通过表达式(7)得到“太”、“朋”、“友”三个字符分别在每个掩码位置[MASK]上的概率值，可分别表示为P(t1-太)、P(t2-太)、P(t1-朋)、P(t2-朋)、P(t1-友)、P(t2-友)。若几个候选名词的字符长度不相同，长度的差异部分可用特殊字符被全，特殊字符可以是ε，进而可以根据上述方式确定出特殊字符ε在每个掩码位置[MASK]上的概率值P(t1-ε)、P(t2-ε)。

将概率值P(t1-太)和P(t2-太)相乘可得到候选名词“太太”在两个掩码位置[MASK][MASK]上的概率值，将概率值P(t1-朋)和P(t2-友)相乘可得到候选名词“朋友”在两个掩码位置上的概率值，由此可得到候选名词“太太”和“朋友”在两个掩码位置[MASK][MASK]上的概率分布。

本公开实施例中的序列标注操作可基于解码结果，确定出各候选名词在对样本语句的掩码位置的概率分布，可在模型的应用阶段为后续指代对象的确定提供有限的范围(由各候选名词形成的选择范围)，便于在该范围中快速选择中代词正确的指代对象。解码器可支持不同长度的候选名词的输入，在确定概率分布的过程，可将候选名词的长度用特殊字符补齐，使各候选名词的长度一致，便于使用。

在一种可选的实施方式中，在对文本纠错模型进行训练的过程中，损失函数可以是交叉熵函数，其表达式为：

L＝cross_entropy(t_i,golden_i) 表达式(8)

在表达式(8)中，t_i的含义同表达式(7)，golden_i为样本语句中第i个字符位置的指代对象。在针对掩码位置进行序列标注的具体场景中，表达式(8)中i的取值只需要考虑语句s中掩码位置，无需考虑语句s中的其它位置。根据表达式(8)得到的损失函数值可调整编码器和解码器的各参数。

根据本公开的实施例，本公开还提供了一种文本纠错方法，如图5所示，该文本纠错方法包括：

S501，获取目标语句，并获取目标语句的历史语句。

本公开实施例中，在同声传译产品实时地对发言人的发言内容进行语音识别时，目标语句可以是实时语音识别得到的当前语句，在其它非实时语音识别的场景中，目标语句还可以是指定的文本范围中任意一个待纠错的语句。目标语句的历史语句可以是目标语句之前的指定范围的语句，例如目标语句的前M个语句，M为正整数，M的具体数值可根据实际需求设置，在本公开实施例的后续内容中，将以M为2的情况作为示例进行具体介绍。

在一种可选的实施方式中，获取目标语句的历史语句，包括：获取预先标注有候选名词的目标语句的历史语句。参照前面的实施例内容，该历史语句中的候选名词可通过词性标记模型来标注，词性标注模型可用于标注输入的历史语句中的全部名词或部分名词作为候选名词，还可以用于标注所输入的历史语句中其它词性，例如动词、代词等。词性标注模型的具体类型可参照前面实施例的相关内容，此处不再赘述。

预先标注了候选名词的历史语句，不仅可以为文本纠错模型提供较为完整的前文信息，还可提供具体的候选名词，缩小指代对象的选择范围，从而可以基于候选名词快速确定出正确的指代对象，可提升对目标语句中的代词进行纠错的准确度和效率。

在另一种可选的实施方式中，目标语句的历史语句可以是未预先标注候选名词的语句，此时可将该历史语句所有的词均视为候选名词。

S502，对目标语句中的代词进行第二指定长度的掩码。

第二指定长度是基于目标语句的历史语句中候选名词的字符长度确定出的。

在一个可选的实施方式中，在目标语句的历史语句中包括一个候选名词的情况下，基于该一个候选名词的字符长度(作为第二指定长度)，对目标语句中的代词进行掩码。

在一种可选的实施方式中，在目标语句的历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度(作为第二指定长度)；基于该最大字符长度，对目标语句中的代词进行掩码。

可选地，在对目标语句中的代词进行第二指定长度的掩码时，可对目标语句中的代词进行掩码([MASK])，然后将掩码的长度扩展到第二指定长度，掩码过程的表达式可参照前面的表达式(1)。

在一个示例中，如图6所示，若目标语句为语句S₃“如果说他脑子里装了500T，我觉得那都是保守了”，前文中多个候选名词的最大字符长度为4，则对该目标语句中的代词“他”进行最大字符长度的掩码后得到的语句为“如果说[MASK][MASK][MASK][MASK]脑子里装了500T，我觉得那都是保守了”。

基于多个候选名词的字符长度中的最大字符长度，对目标语句中的代词进行掩码，可使掩码长度足够大，以满足将每个候选名词和掩码位置进行匹配的需求，无需对候选名词做裁剪。

S503，将目标语句、目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于文本纠错模型的输出得到掩码位置的指代概率分布。

文本纠错模型是通过本公开任一实施例提供的文本纠错模型的训练方法预先训练出的。

在一种可选的实施方式中，将目标语句和目标语句的历史语句输入文本纠错模型中的编码器(Encoder)，基于编码器的输出得到目标语句及其历史语句的编码结果；将目标语句及其历史语句的编码结果、和掩码后的样本语句输入文本纠错模型中的解码器(Decoder)，基于解码器的输出得到掩码后的目标语句的解码结果；对该解码结果中掩码位置的解码结果进行序列标注，得到该掩码位置的指代概率分布。

编码器、解码器以及序列标注的具体实现方式可参照前面的实施例内容，例如表达式(2)至(7)的相关内容，将样本语句的内容替换为目标语句的内容即可。

S504，根据目标语句中掩码位置的指代概率分布确定目标语句中代词的指代对象。

在一种可选的实施方式中，可在该指代概率分布中各候选名词在掩码位置上的概率值中选择最大的概率值，将该最大的概率值对应的候选名词作为目标语句中代词的指代对象。其中，指代概率分布的具体确定方式可参照表达式(7)的相关内容。

在如图6所示的示例中，掩码后的目标语句为“如果说[MASK][MASK][MASK][MASK]脑子里装了500T，我觉得那都是保守了”，历史语句S₁和S₂中的候选名词为“我太太”、“ipad”和“几十部剧”，则可通过表达式(7)得到“我”、“太”、“ipad”、“几”、“十”、“部”、“剧”七个字符以及特殊字符ε分别在每个掩码位置[MASK]上的概率值，进而可得到补全的候选名词“我太太ε”、“ipadεεε”和“几十部剧”在四个掩码位置[MASK][MASK][MASK][MASK]上的概率分布，即为掩码位置的指代概率分布。

在一个示例中，若“我太太ε”、“ipadεεε”、“几十部剧”在掩码位置[MASK][MASK][MASK][MASK]上的概率值分别为0.38、0.22、0.05，则可将概率值最大的候选名词“我太太”。

S505，根据目标语句中代词的指代对象更新目标语句中代词的文本内容。

具体地，根据目标语句中代词的指代对象、以及名词与代词的关联关系，确定目标语句中代词的正确文本内容，用正确文本内容替换之前的错误文本内容。其中，指代对象与代词的关联关系可预先设置，例如表示男性人物的名词与代词“他”具有关联关系，表示女性人物的名词与代词“她”具有关联关系，表示事物或动物的名词与代词“它”具有关联关系。

在如图6所示的示例中，确定出的代词“他”的正确指代对象为“我太太”，将代词“他”更新为“她”。

根据本公开的实施例，本公开还提供了一种文本纠错模型的训练装置，如图7所示，该训练装置包括：第一获取模块701、第一掩码模块702和训练模块703。

第一获取模块701，用于获取样本语句和样本语句中代词的实际指代对象，并获取样本语句的历史语句。

第一掩码模块702，用于对样本语句中的代词进行第一指定长度的掩码；第一指定长度是基于历史语句中候选名词的字符长度确定出的。

训练模块703，用于基于样本语句、历史语句、掩码后的样本语句和代词的实际指代对象，对文本纠错模型进行训练，直至文本纠错模型收敛。

在一种可选的实施方式中，第一获取模块701具体用于：获取预先标注有候选名词的样本语句的历史语句。

在一种可选的实施方式中，第一掩码模块702具体用于：在历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度；基于该最大字符长度，对样本语句中的代词进行掩码。

在一种可选的实施方式中，对文本纠错模型的训练包括至少一次迭代训练；训练模块703具体用于：在每次迭代训练中，将样本语句、历史语句和掩码后的样本语句输入当前文本纠错模型，基于当前文本纠错模型的输出得到掩码位置的指代概率分布；当前文本纠错模型为初始的文本纠错模型或上一次迭代训练出的文本纠错模型；根据实际指代对象和指代概率分布，确定当前文本纠错模型的损失函数值，根据损失函数值调整当前文本纠错模型的参数。

在一种可选的实施方式中，训练模块703具体用于：将样本语句和历史语句输入当前文本纠错模型中的编码器，基于编码器的输出得到样本语句的编码结果和历史语句的编码结果；将样本语句的编码结果、历史语句的编码结果和掩码后的样本语句输入当前文本纠错模型中的解码器，基于解码器的输出得到掩码后的样本语句的解码结果；对解码结果中掩码位置的解码结果进行序列标注，得到掩码位置的指代概率分布。

本公开实施例提供的文本纠错模型的训练装置中的各模块的功能，可以参见本公开实施例提供的文本纠错模型的训练方法的实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种文本纠错装置，如图8所示，该装置包括：第二获取模块801、第二掩码模块802、概率确定模块803、对象确定模块804和更新模块805。

第二获取模块801，用于获取目标语句，并获取目标语句的历史语句。

第二掩码模块802，用于对目标语句中的代词进行第二指定长度的掩码；第二指定长度是基于目标语句的历史语句中候选名词的字符长度确定出的。

概率确定模块803，用于将目标语句、目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于文本纠错模型的输出得到掩码位置的指代概率分布；文本纠错模型是通过本公开任一实施例提供的文本纠错模型的训练装置预先训练出的。

对象确定模块804，用于根据指代概率分布确定目标语句中代词的指代对象。

更新模块805，用于根据目标语句中代词的指代对象更新目标语句中代词的文本内容。

在一种可选的实施方式中，第二获取模块801具体用于：获取预先标注有候选名词的目标语句的历史语句。

在一种可选的实施方式中，第二掩码模块802具体用于：在目标语句的历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度；基于该最大字符长度，对目标语句中的代词进行掩码。

本公开实施例提供的文本纠错装置中的各模块的功能，可以参见本公开实施例提供的文本纠错方法的实施例中的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种非瞬时计算机可读存储介质和一种计算机程序产品。

本公开提供的电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

本公开提供的非瞬时计算机可读存储介质，存储有计算机指令，该计算机指令用于使计算机执行本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

本公开提供的计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开任一实施例提供的文本纠错模型的训练方法或文本纠错方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口805也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如，在一些实施例中，上述方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本纠错模型的训练方法，包括：

获取样本语句和所述样本语句中代词的实际指代对象，并获取所述样本语句的历史语句；

对所述样本语句中的代词进行第一指定长度的掩码；所述第一指定长度是基于所述历史语句中候选名词的字符长度确定出的；

基于所述样本语句、所述历史语句、掩码后的样本语句和所述代词的实际指代对象，对文本纠错模型进行训练，直至所述文本纠错模型收敛。

2.根据权利要求1所述的文本纠错模型的训练方法，其中，所述获取所述样本语句的历史语句，包括：

获取预先标注有候选名词的所述样本语句的历史语句。

3.根据权利要求1所述的文本纠错模型的训练方法，其中，所述对所述样本语句中的代词进行第一指定长度的掩码，包括：

在所述历史语句包括多个候选名词的情况下，在所述多个候选名词的字符长度中确定出最大字符长度；

基于该最大字符长度，对所述样本语句中的代词进行掩码。

4.根据权利要求1-3中任一项所述的文本纠错模型的训练方法，其中，所述训练包括至少一次迭代训练，每次迭代训练包括：

将所述样本语句、所述历史语句和所述掩码后的样本语句输入当前文本纠错模型，基于所述当前文本纠错模型的输出得到掩码位置的指代概率分布；所述当前文本纠错模型为初始的文本纠错模型或上一次迭代训练出的文本纠错模型；

根据所述实际指代对象和所述指代概率分布，确定所述当前文本纠错模型的损失函数值，根据所述损失函数值调整所述当前文本纠错模型的参数。

5.根据权利要求4所述的文本纠错模型的训练方法，其中，所述将所述样本语句、所述历史语句和所述掩码后的样本语句输入当前文本纠错模型，基于所述当前文本纠错模型的输出得到所述掩码位置的指代概率分布，包括：

将所述样本语句和所述历史语句输入所述当前文本纠错模型中的编码器，基于所述编码器的输出得到所述样本语句的编码结果和所述历史语句的编码结果；

将所述样本语句的编码结果、所述历史语句的编码结果和所述掩码后的样本语句输入所述当前文本纠错模型中的解码器，基于所述解码器的输出得到所述掩码后的样本语句的解码结果；

对所述解码结果中掩码位置的解码结果进行序列标注，得到所述掩码位置的指代概率分布。

6.一种文本纠错方法，包括：

获取目标语句，并获取所述目标语句的历史语句；

对所述目标语句中的代词进行第二指定长度的掩码；所述第二指定长度是基于所述目标语句的历史语句中候选名词的字符长度确定出的；

将所述目标语句、所述目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于所述文本纠错模型的输出得到掩码位置的指代概率分布；所述文本纠错模型是通过如权利要求1-5中任一项所述的文本纠错模型的训练方法预先训练出的；

根据所述指代概率分布确定所述目标语句中代词的指代对象；

根据所述目标语句中代词的指代对象更新所述目标语句中代词的文本内容。

7.根据权利要求6所述的文本纠错方法，其中，所述获取所述目标语句的历史语句，包括：

获取预先标注有候选名词的所述目标语句的历史语句。

8.根据权利要求6所述的文本纠错方法，其中，所述对所述目标语句中的代词进行第二指定长度的掩码，包括：

在所述目标语句的历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度；

基于该最大字符长度，对所述目标语句中的代词进行掩码。

9.一种文本纠错模型的训练装置，包括：

第一获取模块，用于获取样本语句和所述样本语句中代词的实际指代对象，并获取所述样本语句的历史语句；

第一掩码模块，用于对所述样本语句中的代词进行第一指定长度的掩码；所述第一指定长度是基于所述历史语句中候选名词的字符长度确定出的；

训练模块，用于基于所述样本语句、所述历史语句、掩码后的样本语句和所述代词的实际指代对象，对文本纠错模型进行训练，直至所述文本纠错模型收敛。

10.根据权利要求9所述的文本纠错模型的训练装置，其中，所述第一获取模块具体用于：

获取预先标注有候选名词的所述样本语句的历史语句。

11.根据权利要求9所述的文本纠错模型的训练装置，其中，所述第一掩码模块具体用于：

在所述历史语句包括多个候选名词的情况下，在所述多个候选名词的字符长度中确定出最大字符长度；基于该最大字符长度，对所述样本语句中的代词进行掩码。

12.根据权利要求9-11中任一项所述的文本纠错模型的训练装置，其中，所述训练包括至少一次迭代训练；

所述训练模块具体用于：在每次迭代训练中，将所述样本语句、所述历史语句和所述掩码后的样本语句输入当前文本纠错模型，基于所述当前文本纠错模型的输出得到掩码位置的指代概率分布；所述当前文本纠错模型为初始的文本纠错模型或上一次迭代训练出的文本纠错模型；根据所述实际指代对象和所述指代概率分布，确定所述当前文本纠错模型的损失函数值，根据所述损失函数值调整所述当前文本纠错模型的参数。

13.根据权利要求12所述的文本纠错模型的训练装置，其中，所述训练模块具体用于：

14.一种文本纠错装置，包括：

第二获取模块，用于获取目标语句，并获取所述目标语句的历史语句；

第二掩码模块，用于对所述目标语句中的代词进行第二指定长度的掩码；所述第二指定长度是基于所述目标语句的历史语句中候选名词的字符长度确定出的；

概率确定模块，用于将所述目标语句、所述目标语句的历史语句和掩码后的目标语句输入文本纠错模型，基于所述文本纠错模型的输出得到掩码位置的指代概率分布；所述文本纠错模型是通过如权利要求9-13中任一项所述的文本纠错模型的训练装置预先训练出的；

对象确定模块，用于根据所述指代概率分布确定所述目标语句中代词的指代对象；

更新模块，用于根据所述目标语句中代词的指代对象更新所述目标语句中代词的文本内容。

15.根据权利要求14所述的文本纠错装置，其中，所述第二获取模块具体用于：

获取预先标注有候选名词的所述目标语句的历史语句。

16.根据权利要求14所述的文本纠错装置，其中，所述第二掩码模块具体用于：

在所述目标语句的历史语句包括多个候选名词的情况下，在该多个候选名词的字符长度中确定出最大字符长度；基于该最大字符长度，对所述目标语句中的代词进行掩码。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的文本纠错模型的训练方法，或，权利要求6-8中任一项所述的文本纠错方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的文本纠错模型的训练方法，或，权利要求6-8中任一项所述的文本纠错方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的文本纠错模型的训练方法，或，权利要求6-8中任一项所述的文本纠错方法。