CN112528634A

CN112528634A - 文本纠错模型训练、识别方法、装置、设备及存储介质

Info

Publication number: CN112528634A
Application number: CN202011453441.9A
Authority: CN
Inventors: 邓悦; 郑立颖; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-19
Also published as: WO2022121178A1

Abstract

本发明涉及人工智能技术领域，公开了一种基于软掩码的文本纠错模型训练方法、识别方法、装置、计算机设备及计算机可读存储介质，该方法包括：通过获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息；根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数；基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态；若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型，通过软掩码对字词进行处理，实现了在不需要大量训练预料的情况下，不仅缩短模型的训练时长，还对数据进行拟合，并提高了模型的准确率。

Description

文本纠错模型训练、识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于软掩码的文本纠错模型训练方法、识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

文本纠错一直是当前自然语言比较关注的一个场景，例如，对会议的纪要或者政府的公文进行纠错。目前市面上使用的文本纠错语法模型分成两大类：机器学习模型，通过错误识别，将候选生成和选择最佳候选进行替换；另外一种则是深度学习模型，通过序列到序列的语法纠错方式。但机器学习模型无法对数据进行拟合，导致准确率较低；而深度学习模型需要大量的语料，对于训练语料量有巨大的需求同时训练时间长。

发明内容

本申请的主要目的在于提供一种基于软掩码的文本纠错模型训练方法、识别方法、装置、计算机设备及计算机可读存储介质，旨在解决现有器学习模型无法对数据进行拟合，导致准确率较低，而深度学习模型需要大量的语料，对于训练语料量有巨大的需求同时训练时间长的技术问题。

第一方面，本申请提供一种基于软掩码的文本纠错模型训练方法，所述基于软掩码的文本纠错模型训练方法包括以下步骤：

获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息；

根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数；

基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态；

若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型。

第二方面，本申请提供一种基于软掩码的文本纠错模型识别方法，所述基于软掩码的文本纠错模型识别方法包括以下步骤：

获取待纠错文本；

基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为上述的基于软掩码的文本纠错模型训练方法得到的。

第三方面，本申请还提供一种基于软掩码的文本纠错模型训练装置，所述基于软掩码的文本纠错模型训练装置包括：

获取及转换模块，用于获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息；

获取模块，用于根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数；

更新及确定模块，用于基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态；

生成模块，用于若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型。

第四方面，本申请还提供一种基于软掩码的文本纠错模型识别装置，所述基于软掩码的文本纠错模型识别装置包括：

第一获取模块，用于获取待纠错文本；

第二获取模块，用于基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为上述的基于软掩码的文本纠错模型训练方法得到的。

第五方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现上述的基于软掩码的文本纠错模型训练方法的步骤，实现上述的基于软掩码的文本纠错模型识别方法的步骤。

第六方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现上述的基于软掩码的文本纠错模型训练方法的步骤，实现上述的基于软掩码的文本纠错模型识别方法的步骤。

本申请提供一种基于软掩码的文本纠错模型训练方法、识别方法、装置、计算机设备及计算机可读存储介质，通过获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息；根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数；基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态；若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型，通过软掩码对字词进行处理，实现了在不需要大量训练预料的情况下，不仅缩短模型的训练时长，还对数据进行拟合，并提高了模型的准确率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于软掩码的文本纠错模型训练方法的流程示意图；

图2为图1中的基于软掩码的文本纠错模型训练方法的子步骤流程示意图；

图3为图1中的基于软掩码的文本纠错模型训练方法的子步骤流程示意图；

图4为本申请实施例提供的一种基于软掩码的文本纠错模型识别方法的流程示意图；

图5为本申请实施例提供的一种基于软掩码的文本纠错模型训练装置的示意性框图；

图6为本申请实施例提供的一种基于软掩码的文本纠错模型识别装置的示意性框图；

图7为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种基于软掩码的文本纠错模型训练方法、识别方法、装置、计算机设备及计算机可读存储介质。其中，该基于软掩码的文本纠错模型训练方法和基于软掩码的文本纠错模型识别方法可应用于计算机设备中，该计算机设备可以是笔记本电脑、台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种基于软掩码的文本纠错模型训练方法的流程示意图。

如图1所示，该基于软掩码的文本纠错模型训练方法包括步骤S101至步骤S104。

步骤S101、获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息。

示范性的，获取待修改文本，该待修改文本可以是短句、短文本等。其中，获取该待修改文本的方式包括从预置存储路径中获取，例如，从预置区块链中获取。在获取到到待修改文本时，将该待修改文本转换为各个字词的字词的向量信息，其中转换的方式包括预置模型或预置软掩码语言模型。例如，基于预置模型或预置软掩码语言模型对该待修改文本进行转换，得到该待修改文本的各个字词的字词向量。例如，该待修改文本包括10个字词，该预置模型为预先训练好的模型，字词向量的长度为768，通过该预置模型对该待修改文本进行转换，得到各个字词长度为768的字词向量信息，例如字词向量信息为(10,768)。

步骤S102、根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数。

示例性的，在获取到待修改文本的各个字词的字词向量时，通过各个字词的字词向量信息训练预置软掩码语言模型，得到对应的损失函数。例如，通过该各个字词的字词向量训练预置软掩码语言模型，获取到该各个字词的修改率和各个目标字词替换各个字词的替换率。通过该各个字词的修改率和替换率，得到对应的损失函数，其中，该替换率为各个字词对应各个替换单词的替换率。

在一实施例中，具体地，参照图2，步骤S102包括：子步骤S1021至子步骤S1027。

子步骤S1021、根据所述检测网络模型和各个所述字词的字词向量信息，得到各个所述字词的软掩码分量信息。

示范性的，将该待修改文本的各个字词的字词向量信息分别输入到预置软掩码语言模型中，该预置软掩码模型包括检测网络模型和修改器网络模型。通过该检测网络模型的隐藏层对输入的各个字词的字词向量信息进行处理，得到该各个字词的软掩码分量信息，其中，该软掩码分量信息为通过隐藏层中的掩码对各个字词的分量信息。

在一实施例中，所述检测网络模型包括双向门递归神经网络，所述双向门递归神经网络包括前向门递归神经网络和后向门递归神经网络；所述根据所述检测网络模型和各个所述字词的字词向量信息，得到各个所述字词的软掩码分量信息，包括：基于所述前向门递归神经网络和各个所述字词的字词向量信息，获取各个所述字词的字词向量信息对应的第一最终隐层向量信息；基于所述后向门递归神经网络和各个所述字词的字词向量信息，获取各个所述字词的字词向量信息对应的第二最终隐层向量信息；根据合并各个所述字词的第一最终隐层向量信息和各个所述字词的第二最终隐层向量信息，得到各个所述字词的软掩码分量信息。

示范性的，该检测网络模型包括双向门递归神经网络，该双向门递归神经网络包括前向门递归神经网络和后向门递归神经网络，其中该双向门递归神经网络的作用是获取各个字词的上下文信息，从而得到各个字词的软掩码分量信息。示范例的，通过前向门递归神经网络和各个字词的字词向量信息，得到各个字词的字词向量信息对应的第一最终隐层向量信息。其中，该前向门递归神经网络模型包括更新门、重置门、候选隐藏状态和隐藏状态。

更新门控制整个门单元在当前层往后输出的更新比例，通过更新门和各个字词的字词向量信息，得到该更新门输出的第一数值，该第一数值包括1和0，其中1表示输出由当前的隐层信息决定，即完全更新；0，表示当前的输出被遗忘，输出由之前的隐层信息决定，不需要更新或不需要完全更新。例如，通过预置更新门公式

得到更新门对应的第一数值，其中，

为更新门对应的第一数值，σ为预置sigmoid激活函数，

为上一层的隐藏输出，x_t为字词的字词向量信息，

和

为预置常量。

通过重置门控制着上一层传来的前文信息利用的比例，1代表完全利用，即完全不重置，0代表没有完全利用，即需要重置，通过该重置门和各个字词的字词向量信息，得到该重置门对应的第二数值。例如，通过预置重置门公式

得到该重置门对应的第二数值，其中，

为重置门对应的第二数值，σ为预置sigmoid激活函数，

为上一层的隐藏输出，x_t为字词的字词向量信息，

和

为预置常量。

通过候选隐藏状态来辅助之后的隐藏状态计算，通过该候选隐藏状态、第二数值以及各个字词的字词向量信息，得到当前候选隐藏状态的信息。例如，如果重置门中元素值接近0，该重置门对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态。如果元素值接近1，那么表示保留上一时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连结，再通过含激活函数tan的全连接层计算出候选隐藏状态，其所有元素的值域为[-1,1]。通过候选隐藏状态公式

为当前候选隐藏状态的信息，

为重置门对应的第二数值，

为上一层的隐藏输出，x_t为字词的字词向量信息，

和

为预置常量，Θ为元素相乘符号。

隐藏状态为本层隐藏层输出的候选信息，通过更新门对应的第一数值和候选隐藏状态的信息得到本层隐藏层输出的候选信息。例如，通过预置隐藏状态公式

其中，

为本层隐藏层输出的候选信息，

为更新门对应的第一数值，

为上一层的隐藏输出，

为当前候选隐藏状态的信息，Θ为元素相乘符号，将本层隐藏层输出的候选信息最为第一最终隐层向量信息。

通过后向门递归神经网络和各个字词的字词向量信息，得到各个字词的字词向量信息对应的第二最终隐层向量信息。其中，该后向门递归神经网络模型包括更新门、重置门、候选隐藏状态和隐藏状态。

更新门控制整个门单元在当前层往后输出的更新比例，通过更新门和各个字词的字词向量信息，得到该更新门输出的第一数值，该第一数值包括1和0，其中1表示输出由当前的隐层信息决定，即完全更新0，表示当前的输出被遗忘，输出由之前的隐层信息决定，不需要更新或不需要完全更新。例如，通过预置更新门公式

得到更新门对应的第一数值，其中，

为更新门对应的第一数值，σ为预置sigmoid激活函数，

为上一层的隐藏输出，x_t为字词的字词向量信息，

和

为预置常量。

通过重置门控制着上一层传来的后文信息利用的比例，1代表完全利用，即完全不重置，0代表没有完全利用，即需要重置，通过该重置门和各个字词的字词向量信息，得到该重置门对应的第二数值。例如，通过预置重置门公式

得到该重置门对应的第二数值，其中，

为重置门对应的第二数值，σ为预置sigmoid激活函数，

为上一层的隐藏输出，x_t为字词的字词向量信息，

和

为预置常量。

通过候选隐藏状态来辅助之后的隐藏状态计算，通过该候选隐藏状态、第二数值以及各个字词的字词向量信息，得到当前候选隐藏状态的信息。例如，如果重置门中元素值接近0，该重置门对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态。如果元素值接近1，那么表示保留上一时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连结，再通过含激活函数tan的全连接层计算出候选隐藏状态，其所有元素的值域为[-1,1]。通过候

和

为预置常量，Θ为元素相乘符号。

隐藏状态为本层隐藏层输出的候选信息，通过更新门对应的第一数值和候选隐藏状态的信息得到本层隐藏层输出的候选信息。例如，通过预置隐藏

信息，Θ为元素相乘符号，将本层隐藏层输出的候选信息最为第二最终隐层向量信息。

在得到前向门递归神经网络的各个字词的第一最终隐层向量信息和后向门递归神经网络的各个字词的第二最终隐层向量信息，将各个字词的第一最终隐层向量信息和各个字词的第二最终隐层向量信息进行合并，得到各个字词的软掩码分量信息。例如，通过合并公式

其中

为各个字词的第一最终隐层向量信息，

为各个字词的第二最终隐层向量信息，h_ti为各个字词的软掩码分量信息。

子步骤S1022、基于各个所述字词的软掩码分量信息和第一预置激活函数，得到各个所述字词的软掩码修改概率。

示范性的，该第一预置激活函数处于第一预置激活层中，该第一预置激活函数为Softmax激活函数，该Softmax激活函数用于多于一个输出的神经元，保证输出神经元之和为1.0，一般输出的是小于1的概率值。将各个字词的软掩码分量信息分别输入到第一预置激活层中，通过该第一预置激活层中的Softmax激活函数，得到各个字词的软掩码修改概率。例如，将h_t输入到第一预置激活层，通过该第一第一预置激活层中的Softmax激活函数对该h_t进行计算，得到该h_t对应的软掩码修改概率，该h_t为任意字词中的一个软掩码分量信息。

子步骤S1023、根据所述各个所述字词的软掩码修改概率和各个所述字词的字词向量信息，得到各个所述字词的的软掩码覆盖率向量信息。

示范性的，在得到各个字词的软掩码修改概率时，通过该各个字词的字词向量信息，得到各个字词的的软掩码覆盖率向量信息，该软掩码覆盖率向量信息为掩码对各个字词的覆盖率的向量信息。例如，通过预置软掩码覆盖率向量信息公式e'_i＝p_i*e_mask+(1-p_i)*e_i，其中，e'_i为各个字词的覆盖率的向量信息，p_i为各个字词的软掩码修改概率，e_mask为预置一个掩码的词向量，e_i为当前各个字词的字词向量信息。

子步骤S1024、基于各个所述字词的软掩码概率，获取所述检测网络模型的第一损失函数。

示范性的，在获取到各个字词的字词的软掩码概率，通过第一预置损失函数和各个字词的软掩码概率，得到该检测网络模型对应的第一损失函数。例如，通过第一预置损失函数

其中，X为预置给定序列，n为预置给定序列X的预置长度，p_d(g_i|X)为检测网络模型输出的第i个字词对应的软掩码概率，得到检测网络对应的第一损失函数。

子步骤S1025、根据所述修改器网络模型和各个所述字词的软掩码覆盖率向量信息，得到各个所述字词对应目标字词的替换概率。

示范性的，将获取到的各个字词的软掩码覆盖率向量信息输入到修改器网络模型中，通过该修改器网络模型对输入的各个字词的软掩码覆盖率向量信息进行处理，输出各个字词对应目标字词的替换概率，目标字词为字词的替换字词，其中，该修改器网络模型包括注意力机制，且该注意力机制可以是点乘注意力机制，也可以是多头注意力机制。例如，通过该点乘注意力机制和/或多头注意力机制对输入的各个字词的软掩码覆盖率向量信息进行处理，得到各个字词对应的注意向量信息。该该修改器网络模型还包括第二预置激活函数，该第二预置激活函数处于预置线性层中，该第二预置激活函数为Softmax激活函数，该Softmax激活函数用于多于一个输出的神经元，保证输出神经元之和为1.0，一般输出的是小于1的概率值。将该各个字词对应的注意向量信息输入到预置线性层中，通过该预置线性层中中的Softmax激活函数对各个字词对应的注意向量信息进行计算，得到各个字词对应各个目标字词的替换概率。

在一实施例中，所述修改器网络模型包括注意力机制，所述注意力机制包括点乘注意力机制和多头注意力机制；所述根据所述修改器网络模型和各个所述字词的软掩码覆盖率向量信息，得到各个所述字词对应目标字词的替换概率，包括：根据所述点乘注意力机制和各个所述字词的软掩码覆盖率向量信息得到各个所述字词的点乘注意力向量信息；根据所述多头注意力机制和各个所述字词的点乘注意力向量信息，得到各个字词的多头注意力向量信息；基于各个字词的多头注意力向量信息和预置线性层，得到各个所述字词对应目标字词的替换概率。

示范性的，该修改器网络模型包括注意力机制，且该注意机制包括点乘注意力机制和多头注意力机制，该点乘注意力机制和多头注意力机制为12层，每一层包括至少一个该点乘注意力机制和至少一个多头注意力机制。

点乘注意力机制预先为各个字词的软掩码覆盖率向量设置三个向量，该三个向量为寻找向量Q(Query)，重要程度向量k(Key)和评分向量v(Value)，通过寻找向量Q和重要程度向量k将将进行相乘，计算出各个字词的评分程度，在通过该各个字词的评分程度除以当前各个字词的预置字词维度的平方根，得到各个字词的重要程度分数，该重要程度分数为需要给字词放置多少的重要程度。例如，通过预置重要程度公式

得到各个单词的重要程度分数，其中，Score为各个字词的重要程度分数，Q为各个字词的寻找向量，k为各个字词的重要程度向量，T为预置转职乘法，d_k为当前各个字词的预置字词维度。在得到各个字词的重要程度分数时，对各个字词的重要程度分数进行归一化处理，得到各个单词对当前字词的重要程度分数的总和为1，其中，各个单词为各个字词对应目标字词的替换字词。在将该各个字词的重要程度分数进行归一化处理后的重要程度分数乘以评分向量V，得到各个单词对当前字词的字词的点乘注意力向量信息。例如，通过预置点乘注意力向量公式

得到各个单词对当前字词的点乘注意分数，其中，Score为各个字词的重要程度分数，Q为各个字词的寻找向量，k为各个字词的重要程度向量，V为各个字词的评分向量，T为预置转职乘法，d_k为当前各个字词的预置字词维度。

点乘注意力机制是通过三个不同的向量计算一句话中的不同单词之间的重要程度。同时引入了多头注意力机制，多头注意力机制是多个不同的点乘注意力机制，其中多头注意力机制中的各个参数互不共享，同时使用不同的注意力机制去关注不同的信息，不同的注意力机制最终将从不同的角度对句子进行分析。每个点乘注意力机制都会获取一个词向量的输出，例如，有10个不同的点乘注意力机制，而词向量的维度为768，最终获取到的向量大小为(768，10)，并对向量大小为(768，10)进行压缩为1个，得到的向量为(768，1)。将该向量(768，1)乘以预置权重向量(10，1)，即做一个注意力得分维度的加权平均，最终就可以获得(768，1)的向量，并将该(768，1)的向量作为多头注意力机制的的第一输出向量。

当获取到多头注意力机制的第一输出向量，将该输出的多头注意力机制的第一输出向量连接到一个前向反馈网络当中，修改器网络模型中使用了几层不同的注意力机制进行叠加，例如，当修改器网络模型使用了12层，每一层都经过多头注意力机制加前向网络输入到下一层中。例如，即先通过一个线性全连接输入Re l u激活函数层，再通过线性全连接层输入下一层，该Re l u激活函数层包括Re l u激活函数。例如，Re l u激活函数为FN(X)＝max(0,XW₁+b₁)W₂+b₂，得到多头注意力机制的第二输出向量，其中，W₁、b₁、W₂、b₂为预置参数，X为多头注意力机制输出的第一向量，FN(X)为多头注意力机制输出的第二向量在获取到多头注意力机制输出的各个字词的第二向量时，将多头注意力机制输出的各个字词的第二向量与各个字词的字词向量信息相加，得到各个字词的残差向量，并将该残差向量作为各个字词的多头注意力向量信息。将得到的各个字词的多头注意力向量信息分别输入到预置线性层中，通过预置线性层对各个字词的多头注意力向量信息进行计算，得到各个字词对应各个目标字词的替换概率。

子步骤S1026、基于各个所述字词对应目标字词的替换概率，获取所述修改器网络模型的第二损失函数。

示范性的，在获取到各个字词对应目标字词的替换概率，通过第二预置损失函数和各个字词对应目标字词的替换概率，得到该修改器网络模型对应的第二损失函数。例如，通过第二预置损失函数

其中，X为预置给定序列，n为预置给定序列X的预置长度，p_c(y_iX)为修改器网络模型输出的第i个字词对应各个目标字词的替换概率，得到修改器网络对应的第二损失函数。

子步骤S1027、根据所述第一损失函数和所述第二损失函数，获取所述预置软掩码语言模型的第三损失函数。

示范性的，在得到检测网络模型的第一损失函数和修改器网络模型的第二损失函数时，通过第三预置损失函数公式，得到预置软掩码语言模型的第三损失函数。例如，第三预置损失函数公式为L＝λ*L_d+(1-λ)*L_C，其中，λ为预置参数，L_d为当前检测网络模型的梯度值，L_C为当前修改器网络模型的梯度值，该λ的预置参数为0.8。

步骤S103、基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态。

示范性的，在得到损失函数时，基于该损失函数计算对应的梯度值，通过该梯度值对预置软掩码语言模型中的模型参数进行优化，例如，该模型参数包括变量参数，通过该梯度值对该预置软掩码语言模型中的变量参数进行优化。在通过损失函数更新预置软掩码语言模型的模型参数后，确定该预置软掩码语言模型是否处于收敛状态。例如，在得到对应的损失函数时，获取该损失函数对应的梯度值，将该梯度值与预置梯度值进行比对，若该梯度值小于或等于预置梯度值，则确定该预置软掩码语言模型处于收敛状态。或者，获取更新后的预置软掩码语言模型的变量参数，将该变量参数与预置变量参数进行比对，若该变量参数小于预置变量参数，则确定该预置软掩码语言模型处于收敛状态。

在一实施例中，具体地，参照图3，步骤S103包括：子步骤S1031至子步骤S1032。

子步骤S1031、基于所述第一损失函数更新所述检测网络模型的模型参数。

示范性的，在得到第一损失函

其中，X为预置给定序列，n为预置给定序列X的预置长度，p_d(g_i|X)为检测网络模型输出的第i个字词对应软掩码修改概率，将该X、n、p_d(g_i|X)p_c(y_i|X)代入到该第一损失函数中，得到该当前检测网络模型的梯度值L_d，通过该梯度值L_d对该检测网络模型的模型参数进行优化。

子步骤S1032、基于所述第二损失函更新所述修改器网络模型的模型参数。

示范性的，在得到第二损失函

其中，X为预置给定序列，n为预置给定序列X的预置长度，p_c(y_i|X)为修改器网络模型输出的第i个字词对应各个目标字词的替换概率，将该X、n、p_c(y_i|X)代入到该第一损失函数中，得到该当前修改器网络模型的梯度值L_C，通过该梯度值L_C对该修改器网络模型的模型参数进行优化。

子步骤S1033、基于所述第三损失函数更新所述预置软掩码语言模型的模型参数。

示范性的，在得到第三损失函L＝λ*L_d+(1-λ)*L_C，其中，λ为预置参数，L_d为当前检测网络模型的梯度值，L_C为当前修改器网络模型的梯度值，该λ的预置参数为0.8，将λ、梯度值L_d、梯度值L_C代入到该第三损失函中，得到梯度值L，通过该梯度值L对该预置软掩码语言模型的模型参数进行优化。

步骤S104、若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型。

示范例的，若确定该预置软掩码语言模型处于收敛状态，则将该预置软掩码语言模型生成对应的文本纠错模型，该文本纠错模型能识别出文本中的错别字，并预测该错别字对应的替换字来完成文本纠错。

在本申请实施例中，通过待修改文本训练预置软掩码语言模型，得到对应的损失函数，并通过该损失函数对该预置软掩码语言模型的模型参数进行优化，生成对应的文本纠错模型，通过软掩码对字词进行处理，实现了在不需要大量训练预料的情况下，不仅缩短模型的训练时长，还对数据进行拟合，并提高了模型的准确率。

请参照图4，图4为本申请的实施例提供的一种基于软掩码的文本纠错模型识别方法的流程示意图。

如图4所示，该基于软掩码的文本纠错模型识别方法包括步骤S201至步骤S202。

步骤S201、获取待纠错文本。

示范性的，获取待纠错本，该待纠错文本可以是无字词错别文本，且待纠错文本包括短句文本等。

步骤S202、基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为上述的基于软掩码的文本纠错模型训练方法得到的。

示范性的，在获取到待纠错文本时，将该待纠错文本输入到文本纠错模型中，将该待纠错文本转换为对应各个字词的向量信息。该文本纠错模型包括检测网络模型和修改器网络模型，通过该检测网络模型对该各个字词的向量信息进行检测，确定该各个字词是否需要修改。例如，通过检测网络模型中的双向门递归神经网络模型对各个字词的向量信息进行处理，得到各个字词的软掩码修改概率，通过该各个字词的软掩码修改概率确定各个字词是否需要修改。在确定各个字中需要修改的修改字词，通过修改字词的软掩码修改概率和修改字词的向量信息，得到修改字词的软掩码覆盖率向量信息。通过修改器网络修改字词进行处理，得到该修改字词对对应替换字词的替换率。例如，通过修改器网络模型中的点乘注意机制和都头注意力机制对该修改字词的软掩码覆盖率向量信息进行处理，得到该修改字词对对应替换字词的替换率，通过该该修改字词对对应替换字词的替换率，确定替换该修改字词的替换字词。将该替换字词替换该待纠错文本中的修改字词，得到纠错后的文本。

在本申请实施例中，通过文本纠错模型对待纠错文本进行字词纠错，得到字词纠错后的文本，通过该文本纠错模型中的检测网络模型和修改器网络模型，快速准确的得到字词纠错后的文本。

请参照图5，图5为本申请实施例提供的一种基于软掩码的文本纠错模型训练装置的示意性框图。

如图5所示，该基于软掩码的文本纠错模型训练装置400，包括：获取及转换模块401、获取模块402、更新及确定模块403、生成模块404。

获取及转换模块401，用于获取待修改文本，并将所述待修改文本转换为各个字词的字词向量信息；

获取模块402，用于根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数；

更新及确定模块403，用于基于损失函数更新所述预置软掩码语言模型的模型参数，并确定所述预置软掩码语言模型是否处于收敛状态；

生成模块404，用于若确定所述预置软掩码语言模型处于收敛状态，则生成对应的文本纠错模型。

其中，获取模块402具体还用于：

根据所述检测网络模型和各个所述字词的字词向量信息，得到各个所述字词的软掩码分量信息；

基于各个所述字词的软掩码分量信息和第一预置激活函数，得到各个所述字词的软掩码修改概率；

根据所述各个所述字词的软掩码修改概率和各个所述字词的字词向量信息，得到各个所述字词的的软掩码覆盖率向量信息；

基于各个所述字词的软掩码概率，获取所述检测网络模型的第一损失函数；

根据所述修改器网络模型和各个所述字词的软掩码覆盖率向量信息，得到各个所述字词对应目标字词的替换概率；

基于各个所述字词对应目标字词的替换概率，获取所述修改器网络模型的第二损失函数；

根据所述第一损失函数和所述第二损失函数，获取所述预置软掩码语言模型的第三损失函数。

其中，获取模块402具体还用于：

基于所述前向门递归神经网络和各个所述字词的字词向量信息，获取各个所述字词的字词向量信息对应的第一最终隐层向量信息；

基于所述后向门递归神经网络和各个所述字词的字词向量信息，获取各个所述字词的字词向量信息对应的第二最终隐层向量信息；

根据合并各个所述字词的第一最终隐层向量信息和各个所述字词的第二最终隐层向量信息，得到各个所述字词的软掩码分量信息。

其中，获取模块402具体还用于：

所述根据所述修改器网络模型和各个所述字词的软掩码覆盖率向量信息，得到各个所述字词对应目标字词的替换概率，包括：

根据所述点乘注意力机制和各个所述字词的软掩码覆盖率向量信息得到各个所述字词的点乘注意力向量信息；

根据所述多头注意力机制和各个所述字词的点乘注意力向量信息，得到各个字词的多头注意力向量信息；

基于各个字词的多头注意力向量信息和预置线性层，得到各个所述字词对应目标字词的替换概率。

其中，更新及确定模块403具体还用于：

基于所述第一损失函数更新所述检测网络模型的模型参数；

基于所述第二损失函更新所述修改器网络模型的模型参数；

基于所述第三损失函数更新所述预置软掩码语言模型的模型参数。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述基于软掩码的文本纠错模型训练装置实施例中的对应过程，在此不再赘述。

请参照图6，图6为本申请实施例提供的一种基于软掩码的文本纠错模型识别方法的示意性框图。

如图6所示，该种基于软掩码的文本纠错模型识别方法500，包括：第一获取模块501、第二获取模块502。

第一获取模块501，用于获取待纠错文本；

第二获取模块502，用于基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为上述的基于软掩码的文本纠错模型训练方法得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述基于软掩码的文本纠错模型识别方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于软掩码的文本纠错模型训练方法和基于软掩码的文本纠错模型识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于软掩码的文本纠错模型训练方法和基于软掩码的文本纠错模型识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digita l Signa l Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器所述预置软掩码语言模型包括检测网络模型和修改器网络模型，所述损失函数包括第一损失函数、第二损失函数和第三损失函数；所述根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数实现时，用于实现：

在一个实施例中，所述处理器所述检测网络模型包括双向门递归神经网络，所述双向门递归神经网络包括前向门递归神经网络和后向门递归神经网络；所述根据所述检测网络模型和各个所述字词的字词向量信息，得到各个所述字词的软掩码分量信息实现时，用于实现：

在一个实施例中，所述处理器所述修改器网络模型包括注意力机制，所述注意力机制包括点乘注意力机制和多头注意力机制；所述根据所述修改器网络模型和各个所述字词的软掩码覆盖率向量信息，得到各个所述字词对应目标字词的替换概率实现时，用于实现：

在一个实施例中，所述处理器所述所述基于损失函数更新所述预置软掩码语言模型的模型参数实现时，用于实现：

基于所述第一损失函数更新所述检测网络模型的模型参数；

基于所述第二损失函更新所述修改器网络模型的模型参数；

获取待纠错文本；

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请基于软掩码的文本纠错模型训练方法和基于软掩码的文本纠错模型识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是预置软掩码语言模型模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于软掩码的文本纠错模型训练方法，其特征在于，包括：

2.如权利要求1所述的基于软掩码的文本纠错模型训练方法，其特征在于，所述预置软掩码语言模型包括检测网络模型和修改器网络模型，所述损失函数包括第一损失函数、第二损失函数和第三损失函数；

所述根据各个所述字词的字词向量信息训练预置软掩码语言模型，获取对应的损失函数，包括：

3.如权利要求2所述的基于软掩码的文本纠错模型训练方法，其特征在于，所述检测网络模型包括双向门递归神经网络，所述双向门递归神经网络包括前向门递归神经网络和后向门递归神经网络；

所述根据所述检测网络模型和各个所述字词的字词向量信息，得到各个所述字词的软掩码分量信息，包括：

4.如权利要求2所述的基于软掩码的文本纠错模型训练方法，其特征在于，所述修改器网络模型包括注意力机制，所述注意力机制包括点乘注意力机制和多头注意力机制；

5.如权利要求2所述的基于软掩码的文本纠错模型训练方法，其特征在于，所述基于损失函数更新所述预置软掩码语言模型的模型参数，包括：

基于所述第一损失函数更新所述检测网络模型的模型参数；

基于所述第二损失函更新所述修改器网络模型的模型参数；

6.一种基于软掩码的文本纠错模型识别方法，其特征在于，所述方法包括：

获取待纠错文本；

基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为如权利要求1-5所述的基于软掩码的文本纠错模型训练方法得到的。

7.一种基于软掩码的文本纠错模型训练装置，其特征在于，包括：

8.一种基于软掩码的文本纠错模型识别装置，其特征在于，包括：

第一获取模块，用于获取待纠错文本；

第二获取模块，用于基于文本纠错模型对所述待纠错文本将进行字词纠错，获取对所述待纠错文本进行字词纠错后的文本，其中，所述文本纠错模型为如权利要求1-5所述的基于软掩码的文本纠错模型训练方法得到的。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的基于软掩码的文本纠错模型训练方法的步骤，实现如权利要求6所述的基于软掩码的文本纠错模型识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的基于软掩码的文本纠错模型训练方法的步骤，实现如权利要求6所述的基于软掩码的文本纠错模型识别方法的步骤。