CN112905737B

CN112905737B - 文本纠错方法、装置、设备及存储介质

Info

Publication number: CN112905737B
Application number: CN202110117570.9A
Authority: CN
Inventors: 邓悦; 郑立颖; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-07-28
Anticipated expiration: 2041-01-28
Also published as: CN112905737A; WO2022160447A1

Abstract

本发明涉及人工智能技术领域，公开了文本纠错方法、装置、设备及存储介质，用于解决待纠错语料文本未对齐的问题，提高文本纠错的准确率。文本纠错方法包括：获取待纠错文本语料，并将待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；将待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；按照词向量的位置信息对待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；将覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于预先训练好的纠错网络还原纠错后的文本语料，生成目标文本语料，纠错后的文本语料包括占位符。此外，本发明还涉及区块链技术，待纠错文本语料可存储于区块链中。

Description

文本纠错方法、装置、设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种文本纠错方法、装置、设备及存储介质。

背景技术

在公文撰写、文案编辑、输入法纠错、以及语音识别后的文本结果输出等与自然语言文本相关的处理环节中，多字、错字、漏字等情况是时有发生的，针对这种情况设置专门的人工校对核验需要较高的人工成本和时间成本，同时很多时候也无法保证较高的纠正准确率。因此，出现了一些文本纠错的相关人工智能模型，其广泛的应用到现实场景之中。

在现有技术中，传统的机器学习或统计相关的模型在文本纠错领域的表现不尽如人意，主要利用双向预训练语言模型对文本进行纠错，但是这种纠错方式对英文这种非对齐语料进行文本纠错的纠错准确率较低。

发明内容

本发明提供了一种文本纠错方法、装置、设备及存储介质，用于解决待纠错语料文本未对齐的问题，提高文本纠错的准确率。

本发明第一方面提供了一种文本纠错方法，包括：获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符。

可选的，在本发明第一方面的第一种实现方式中，所述获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组包括：获取待纠错文本语料，并对所述待纠错文本语料进行独热编码，生成待纠错文本编码；从预先训练好的嵌入层中读取映射矩阵，并将所述待纠错文本编码输入所述预先训练好的嵌入层中，将所述待纠错文本编码与所述映射矩阵相乘，生成待纠错词向量组。

可选的，在本发明第一方面的第二种实现方式中，所述将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息包括：将所述待纠错词向量组和所述待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，所述检测线性层位于预先训练好的检测判别器中；按照预置的标识符概率公式对所述待计算向量组进行概率计算，生成位置概率；基于所述位置概率确定词向量的位置信息。

可选的，在本发明第一方面的第三种实现方式中，所述按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组包括：获取预置的修改幅度参数，所述修改幅度参数为自然数；基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量，所述目标待纠错词向量的位置信息为错别字词向量的位置信息；基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

可选的，在本发明第一方面的第四种实现方式中，所述将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符包括：将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符；基于所述预先训练好的纠错网络对所述占位符进行预测，生成预测后的占位符语料；基于所述预测后的占位符语料和所述纠错后的文本语料，生成目标文本语料。

可选的，在本发明第一方面的第五种实现方式中，所述将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符包括：将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成隐藏层文本信息；对所述隐藏层文本信息进行初始化，生成初始化向量序列；基于注意力机制对所述初始化向量序列进行计算，生成多个注意力权重得分；将所述多个注意力权重得分和所述隐藏层文本信息输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符。

可选的，在本发明第一方面的第六种实现方式中，在所述获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组之前，所述文本纠错方法还包括：获取文本语料训练数据集和文本语料验证数据集，并采用所述文本语料训练数据进行生成器的训练和判别器的训练，生成初始检测生成器和初始检测判别器；采用所述文本语料验证数据集，基于所述初始检测生成器和初始检测判别器进行调整，生成预先训练好的检测判别器。

本发明第二方面提供了一种文本纠错装置，包括：获取模块，用于获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；位置信息生成模块，用于将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；覆盖模块，用于按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；文本语料生成模块，用于将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块还可以具体用于：获取待纠错文本语料，并对所述待纠错文本语料进行独热编码，生成待纠错文本编码；从预先训练好的嵌入层中读取映射矩阵，并将所述待纠错文本编码输入所述预先训练好的嵌入层中，将所述待纠错文本编码与所述映射矩阵相乘，生成待纠错词向量组。

可选的，在本发明第二方面的第二种实现方式中，所述位置信息生成模块还可以具体用于：将所述待纠错词向量组和所述待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，所述检测线性层位于预先训练好的检测判别器中；按照预置的标识符概率公式对所述待计算向量组进行概率计算，生成位置概率；基于所述位置概率确定词向量的位置信息。

可选的，在本发明第二方面的第三种实现方式中，所述覆盖模块还可以具体用于：获取预置的修改幅度参数，所述修改幅度参数为自然数；基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量，所述目标待纠错词向量的位置信息为错别字词向量的位置信息；基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

可选的，在本发明第二方面的第四种实现方式中，所述文本语料生成模块包括：计算单元，用于将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符；预测单元，用于基于所述预先训练好的纠错网络对所述占位符进行预测，生成预测后的占位符语料；文本语料生成单元，用于基于所述预测后的占位符语料和所述纠错后的文本语料，生成目标文本语料。

可选的，在本发明第二方面的第五种实现方式中，所述计算单元还可以具体用于：将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成隐藏层文本信息；对所述隐藏层文本信息进行初始化，生成初始化向量序列；基于注意力机制对所述初始化向量序列进行计算，生成多个注意力权重得分；将所述多个注意力权重得分和所述隐藏层文本信息输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符。

可选的，在本发明第二方面的第六种实现方式中，所述文本纠错装置还包括：训练模块，用于获取文本语料训练数据集和文本语料验证数据集，并采用所述文本语料训练数据进行生成器的训练和判别器的训练，生成初始检测生成器和初始检测判别器；调整模块，用于采用所述文本语料验证数据集，基于所述初始检测生成器和初始检测判别器进行调整，生成预先训练好的检测判别器。

本发明第三方面提供了一种文本纠错设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本纠错设备执行上述的文本纠错方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本纠错方法。

本发明提供的技术方案中，获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符。本发明实施例中，利用掩码覆盖错别字的词向量，生成覆盖后的词向量组，然后基于预先训练好的纠错网络进行纠错以及添加占位符，生成纠错后的文本语料，最后还原纠错后的文本语料，生成目标文本语料，解决了待纠错语料文本未对齐的问题，从而提高了文本纠错的准确率。

附图说明

图1为本发明实施例中文本纠错方法的一个实施例示意图；

图2为本发明实施例中文本纠错方法的另一个实施例示意图；

图3为本发明实施例中文本纠错装置的一个实施例示意图；

图4为本发明实施例中文本纠错装置的另一个实施例示意图；

图5为本发明实施例中文本纠错设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种文本纠错方法、装置、设备及存储介质，用于解决待纠错语料文本未对齐的问题，提高文本纠错的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文本纠错方法的一个实施例包括：

101、获取待纠错文本语料，并将待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；

服务器获取待纠错文本语料，并将该待纠错文本语料输入预先训练好的嵌入层中进行向量化，生成待纠错词向量组。需要强调的是，为进一步保证上述待纠错文本语料的私密和安全性，上述待纠错文本语料还可以存储于一区块链的节点中。

待纠错文本语料为输入文本转换的待纠错文本语料，也可以为输入语音转换的待纠错文本语料，待纠错文本语料既可以为中文文本语料，例如“我来自上海”，也可以为英文文本语料，例如“I come from Shanghai”。当获取到待纠错文本语料时，服务器将为中文的待纠错文本语料或者将为英文的待纠错文本语料输入余弦训练好的嵌入层，即Embedding层中进行量化，生成待纠错向量组。

可以理解的是，本发明的执行主体可以为文本纠错装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、将待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；

服务器将待纠错词向量组输入预先训练好的检测判别器中进行词向量位置的判别，生成词向量的位置信息。

例如，假设待纠错词向量组为(h₁,h₂,…,h_n)，服务器将(h₁,h₂,…,h_n)输入预先训练好的检测判别器中，通过预先训练好的检测判别器将待纠错词向量组中的每个词向量的位置信息识别出来，生成包括错别字词向量的位置信息。例如(h₁,h₂,…,h_n)是待纠错词向量组为“我好自上海”的向量组，服务器则将该待纠错向量组输入预先训练好的检测判别器中，经过预先训练好的检测判别器对该待纠错向量组进行判别，生成词向量的位置信息(0，1，0，0，0)，其中“0”代表该位置的词向量是正确的词向量，“1”代表该位置的词向量是错误的词向量。

103、按照词向量的位置信息对待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；

服务器采用掩码按照词向量的位置信息对待纠错词向量组进行覆盖，生成覆盖后的词向量组。

在本实施例中，按照词向量的位置信息对待纠错词向量组进行掩码覆盖，可以将此过程理解为按照词向量的位置信息将待纠错词向量组中错别字对应的待纠错词向量进行覆盖，从而只保留正确字的词向量和覆盖错别字词向量的掩码向量，从而得到覆盖后的词向量组。例如“我好自上海”的待纠错词向量组(h₁,h₂,…,h_n)，对应的词向量的位置信息(0，1，0，0，0)，服务器则按照(0，1，0，0，0)对“(h₁,h₂,…,h_n)”的待纠错词向量组进行掩码覆盖，生成的词向量组，即覆盖后的词向量组。

104、将覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于预先训练好的纠错网络还原纠错后的文本语料，生成目标文本语料，纠错后的文本语料包括占位符。

服务器将覆盖后的词向量组输入预先训练好的纠错网络中，首先生成纠错后的文本语料，然后在该预先训练好的纠错网络中对包括占位符的纠错后的文本语料进行还原，生成目标文本语料。

对于一些未对齐的待纠错文本语料，通过添加占位符，可以解决语料未对齐造成文本纠错准确率较低的问题。在本实施例中，服务器首先将覆盖后的词向量组输入预先训练好的纠错网络中进行第一次文本还原并添加占位符，从而生成纠错后的文本语料“我来自[NONE]上海”，然后服务器在预先训练好的纠错网络中对“我来自[NONE]上海”进行还原，生成目标文本语料“我来自上海”。

本发明实施例中，利用掩码覆盖错别字的词向量，生成覆盖后的词向量组，然后基于预先训练好的纠错网络进行纠错以及添加占位符，生成纠错后的文本语料，最后还原纠错后的文本语料，生成目标文本语料，解决了待纠错语料文本未对齐的问题，从而提高了文本纠错的准确率。

请参阅图2，本发明实施例中文本纠错方法的另一个实施例包括：

201、获取文本语料训练数据集和文本语料验证数据集，并采用文本语料训练数据进行生成器的训练和判别器的训练，生成初始检测生成器和初始检测判别器；

服务器首先获取文本语料训练数据集和文本语料验证数据集，然后采用其中的文本语料训练数据集进行检测生成器和检测判别器的训练，生成初始检测生成器和初始检测判别器。

关于初始检测生成器，涉及的计算公式为：

其中，e为可以训练的参数，即可以调整的参数，h为词向量，h'为文本语料训练数据，t为词的位置。

关于初始检测判别器，涉及的计算公式为：

p_D(h',t)＝sigmoid(w^Th_G,t)

其中，p_D(h',t)为位置概率，h'为文本语料训练数据，t为词的位置，w^Th_G,t是向量，其中T是一个运算符号，代表矩阵的“转置(Transpose)”。

202、采用文本语料验证数据集，基于初始检测生成器和初始检测判别器进行调整，生成预先训练好的检测判别器；

在生成初始检测生成器和初始检测判别器之后，再采用文本语料验证数据集对初始检测生成器和初始检测判别器进行协同调整，从而生成预先训练好的检测判别器。

在本实施例中，主要采用预先训练好的检测判别器进行后面的文本纠错，因此最后只保留预先训练好的检测判别器进行使用，但是在训练和调整的过程中，需要参考检测生成器的输出结果对检测判别器进行训练或者调整，因此，对检测生成器和检测判别器进行协同训练和调整。在得到初始检测生成器和初始检测判别器之后，服务器采用对应的损失函数分别初始检测生成器和初始检测判别器进行调整。

关于初始检测生成器，涉及的损失函数为：

其中，I为掩码位置的集合，p_G(h_t|h')为初始检测生成器的输出结果，采用该损失函数对初始检测网络生成器进行调整，生成过渡检测生成器。

关于初始检测判别器，涉及的损失函数为：

其中，p_D(h',t)为初始检测判别器的输出结果，服务器采用该损失函数对初始检测网络判别器进行调整，生成过渡检测判别器。

最后服务器采用融合公式，基于预置的比例对上述两个损失函数进行融合，从而最小化损失函数，生成预先训练好的检测网络判别器，融合公式为：

其中，λ为预置的比例，在本实施例中，该比例为50％。

203、获取待纠错文本语料，并将待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；

具体的，服务器首先获取待纠错文本语料，并对该待纠错文本语料进行独热编码，生成待纠错文本编码；然后服务器从预先训练好的嵌入层中读取映射矩阵，并将待纠错文本编码输入预先训练好的嵌入层中，在预先训练好的嵌入层中将待纠错文本编码与映射矩阵相乘，生成待纠错词向量组。

需要说明的是，嵌入层，即Embedding层是一个全连接层。通过该嵌入层，服务器可以将待纠错文本语料从一个空间映射到另外一个空间，从而得到待纠错词向量组。具体的，服务器可以从全连接层中读取一个映射矩阵，然后将待纠错文本语料与该映射矩阵相乘，即可得到待纠错向量组。

服务器首先对待纠错文本语料进行独热编码，即one-hot，生成待纠错文本编码(x₁,x₂,…,x_n)，然后服务器从预先训练好的嵌入层中读取映射矩阵，映射矩阵为：

最后服务器将(x₁,x₂,…,x_n)与映射矩阵相乘，生成待纠错词向量组(h₁,h₂,…,h_n)。

204、将待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；

具体的，服务器首先将待纠错词向量组和待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，检测线性层位于预先训练好的检测判别器中；然后服务器按照预置的标识符概率公式对待计算向量组进行概率计算，生成位置概率；最后服务器基于位置概率确定词向量的位置信息。

服务器将待纠错词向量组和待纠错文本语料并行输入预先训练好的检测判别器中的检测线性层中，在该检测线性层中参考待纠错文本语料对待纠错词向量进行计算，生成待计算向量组，然后采用一个预置的标识符概率公式，即激活函数，对待计算向量组进行计算，生成位置概率；最后参考位置概率、待纠错文本语料和待纠错词向量确定词向量的位置信息。标识符概率公式为：

p_D(h',t)＝sigmoid(w^Th_G,t)

其中，p_D(h',t)为位置概率，h'为待纠错文本语料，t为词的位置，w^Th_G,t是待计算向量组，其中T是一个运算符号，代表矩阵的“转置(Transpose)”，但是在本实施例中的作用是对矩阵W和矩阵h的内积，其中矩阵W和矩阵h是在线性层中基于待纠错词向量组计算得到的。

然后服务器将最大的位置概率确定为错别字位置概率。例如待纠错文本语料为“我好自上海”，其中“我”为第一个位置，“好”为第二个位置，“自”为第三个位置，“上”为第四个位置，“海”为第五个位置，服务器经过上述计算，生成多个位置概率0.5、0.9、0.65、0.6以及0.55，服务器根据该位置概率生成词向量的位置信息(0，1，0，0，0)，其中“0”代表该位置的词向量是正确的词向量，“1”代表该位置的词向量是错误的词向量。

205、按照词向量的位置信息对待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；

具体的，服务器首先获取为自然数的修改幅度参数，然后基于词向量的位置信息在待纠错词向量组中确定与错别字词向量的位置信息对应的目标待纠错词向量，最后基于修改幅度参数对目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

需要说明的是，修改幅度参数为0、1、2、3这类自然数，在本实施例中，例如修改幅度参数为2，词向量的位置信息为(0，1，0，0，0)，待纠错词向量组为“我好自上海”的词向量组，服务器基于词向量的位置信息确定目标待纠错词向量为“好”的目标待纠错词向量，服务器采用[MASK]的向量覆盖目标待纠错词向量，生成“我[MASK][MASK]上海”的词向量组，即覆盖后的词向量组

206、将覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于预先训练好的纠错网络还原纠错后的文本语料，生成目标文本语料，纠错后的文本语料包括占位符。

具体的，服务器首先将覆盖后的词向量组输入纠错隐藏层中进行计算，生成包括占位符的纠错后的文本语料，纠错隐藏层位于预先训练好的纠错网络中；然后服务器基于预先训练好的纠错网络对占位符进行预测，生成预测后的占位符语料；最后服务器基于预测后的占位符语料和纠错后的文本语料，生成目标文本语料。

需要说明的是，在本实施例中，占位符为[NONE]，在其他实施例中，占位符还可以为其他，占位符的数量小于等于掩码的数量。

例如，覆盖后的词向量组为服务器将该覆盖后的词向量输入纠错隐藏层中，生成纠错后的文本语料“我来自[NONE]上海”，其中[NONE]为占位符，服务器对该占位符进行预测，此时服务器预测该占位符为空值，生成预测后的占位符语料“空值”，采用预测后的占位符语料替换纠错后的文本语料中的占位符，生成“我来自上海”的目标文本语料。

服务器将覆盖后的词向量组输入纠错隐藏层中进行计算，生成包括占位符的纠错后的文本语料，纠错隐藏层位于预先训练好的纠错网络中具体包括：

服务器首先将覆盖后的词向量组输入预先训练好的纠错网络中，生成隐藏层文本信息；服务器初始化隐藏层文本信息，生成初始化向量序列；然后服务器基于注意力机制对初始化向量序列进行得分计算，生成注意力权重得分；最后服务器将注意力权重得分和隐藏层文本输入纠错隐藏层中进行计算，生成包括占位符的纠错后的文本语料。

初始化涉及到的公式为：

Q＝W_Qx_input

K＝W_Kx_input

V＝W_Vx_input

其中，W_Q、W_K、W_V为随机获取的权重参数，且W_Q＝W_K＝W_V，x_input隐藏层文本信息。Q、K、V为初始化向量序列，服务器基于注意力机制进行计算，计算公式为：

在本式中，T为词的位置，T＝1则代表计算第一个字的注意力权重得分，经过计算，生成多个注意力权重得分，然后服务器将多个注意力权重得分输入预纠错隐藏层中进行计算，生成包括占位符的纠错后的文本语料。

例如前文的例子“我[MASK]自上海”中，当前注意力得分“上海”最高，而“自”的注意力权重的分也较高，预先训练好的纠错网络则能够学习到所需要还原的大概是地名前的一个动词，且是以“自”作为结尾的动词，因此生成“我来自[NONE]上海”的纠错后的文本语料。

上面对本发明实施例中文本纠错方法进行了描述，下面对本发明实施例中文本纠错装置进行描述，请参阅图3，本发明实施例中文本纠错装置一个实施例包括：

获取模块301，用于获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；

位置信息生成模块302，用于将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；

覆盖模块303，用于按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；

文本语料生成模块304，用于将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符。

请参阅图4，本发明实施例中文本纠错装置的另一个实施例包括：

可选的，获取模块301还可以具体用于：

获取待纠错文本语料，并对所述待纠错文本语料进行独热编码，生成待纠错文本编码；

从预先训练好的嵌入层中读取映射矩阵，并将所述待纠错文本编码输入所述预先训练好的嵌入层中，将所述待纠错文本编码与所述映射矩阵相乘，生成待纠错词向量组。

可选的，位置信息生成模块302还可以具体用于：

将所述待纠错词向量组和所述待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，所述检测线性层位于预先训练好的检测判别器中；

按照预置的标识符概率公式对所述待计算向量组进行概率计算，生成位置概率；

基于所述位置概率确定词向量的位置信息。

可选的，覆盖模块303还可以具体用于：

获取预置的修改幅度参数，所述修改幅度参数为自然数；

基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量，所述目标待纠错词向量的位置信息为错别字词向量的位置信息；

基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

可选的，文本语料生成模块304包括：

计算单元3041，用于将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符；

预测单元3042，用于基于所述预先训练好的纠错网络对所述占位符进行预测，生成预测后的占位符语料；

文本语料生成单元3043，用于基于所述预测后的占位符语料和所述纠错后的文本语料，生成目标文本语料。

可选的，计算单元3041还可以具体用于：

将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成隐藏层文本信息；

对所述隐藏层文本信息进行初始化，生成初始化向量序列；

基于注意力机制对所述初始化向量序列进行计算，生成多个注意力权重得分；

将所述多个注意力权重得分和所述隐藏层文本信息输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符。

可选的，文本纠错装置还包括：

训练模块305，用于获取文本语料训练数据集和文本语料验证数据集，并采用所述文本语料训练数据进行生成器的训练和判别器的训练，生成初始检测生成器和初始检测判别器；

调整模块306，用于采用所述文本语料验证数据集，基于所述初始检测生成器和初始检测判别器进行调整，生成预先训练好的检测判别器。

上面图3和图4从模块化功能实体的角度对本发明实施例中的文本纠错装置进行详细描述，下面从硬件处理的角度对本发明实施例中文本纠错设备进行详细描述。

图5是本发明实施例提供的一种文本纠错设备的结构示意图，该文本纠错设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文本纠错设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在文本纠错设备500上执行存储介质530中的一系列指令操作。

文本纠错设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的文本纠错设备结构并不构成对文本纠错设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种文本纠错设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述文本纠错方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述文本纠错方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本纠错方法，其特征在于，所述文本纠错方法包括：

获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；

将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；所述词向量的位置信息包括0和1；其中，所述位置信息中0代表所述位置的词向量是正确的词向量，1代表所述位置的词向量是错误的词向量；

按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；

将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符；

所述将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息包括：将所述待纠错词向量组和所述待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，所述检测线性层位于预先训练好的检测判别器中；按照预置的标识符概率公式对所述待计算向量组进行概率计算，生成位置概率；基于所述位置概率确定词向量的位置信息；将最大的位置概率确定为错别字位置概率；

所述按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组包括：获取预置的修改幅度参数，所述修改幅度参数为自然数；基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量，所述目标待纠错词向量的位置信息为错别字词向量的位置信息；基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

2.根据权利要求1所述的文本纠错方法，其特征在于，所述获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组包括：

3.根据权利要求1所述的文本纠错方法，其特征在于，所述将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符包括：

将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符；

基于所述预先训练好的纠错网络对所述占位符进行预测，生成预测后的占位符语料；

基于所述预测后的占位符语料和所述纠错后的文本语料，生成目标文本语料。

4.根据权利要求3所述的文本纠错方法，其特征在于，所述将所述覆盖后的词向量组输入纠错隐藏层中进行计算，生成纠错后的文本语料，所述纠错隐藏层位于预先训练好的纠错网络中，所述纠错后的文本语料包括占位符包括：

对所述隐藏层文本信息进行初始化，生成初始化向量序列；

5.根据权利要求1-4中任意一项所述的文本纠错方法，其特征在于，在所述获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组之前，所述文本纠错方法还包括：

获取文本语料训练数据集和文本语料验证数据集，并采用所述文本语料训练数据进行生成器的训练和判别器的训练，生成初始检测生成器和初始检测判别器；

采用所述文本语料验证数据集，基于所述初始检测生成器和初始检测判别器进行调整，生成预先训练好的检测判别器。

6.一种文本纠错装置，其特征在于，所述文本纠错装置包括：

获取模块，用于获取待纠错文本语料，并将所述待纠错文本语料输入预先训练好的嵌入层，生成待纠错词向量组；

位置信息生成模块，用于将所述待纠错词向量组输入预先训练好的检测判别器中，生成词向量的位置信息；所述词向量的位置信息包括0和1；其中，所述位置信息中0代表所述位置的词向量是正确的词向量，1代表所述位置的词向量是错误的词向量；

覆盖模块，用于按照所述词向量的位置信息对所述待纠错词向量组进行掩码覆盖，生成覆盖后的词向量组；

文本语料生成模块，用于将所述覆盖后的词向量组输入预先训练好的纠错网络中，生成纠错后的文本语料，并基于所述预先训练好的纠错网络还原所述纠错后的文本语料，生成目标文本语料，所述纠错后的文本语料包括占位符；

所述位置信息生成模块，还用于将所述待纠错词向量组和所述待纠错文本语料，输入检测线性层中进行计算，生成待计算向量组，所述检测线性层位于预先训练好的检测判别器中；按照预置的标识符概率公式对所述待计算向量组进行概率计算，生成位置概率；基于所述位置概率确定词向量的位置信息；将最大的位置概率确定为错别字位置概率；

所述覆盖模块，还用于获取预置的修改幅度参数，所述修改幅度参数为自然数；基于所述词向量的位置信息在所述待纠错词向量组中确定目标待纠错词向量，所述目标待纠错词向量的位置信息为错别字词向量的位置信息；基于所述修改幅度参数对所述目标待纠错词向量进行掩码覆盖，生成覆盖后的词向量组。

7.一种文本纠错设备，其特征在于，所述文本纠错设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本纠错设备执行如权利要求1-5中任意一项所述的文本纠错方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述文本纠错方法。