CN111460793A

CN111460793A - 纠错方法、装置、设备及存储介质

Info

Publication number: CN111460793A
Application number: CN202010161825.7A
Authority: CN
Inventors: 曾增烽; 刘东煜
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-28

Abstract

本发明涉及人工智能技术领域，公开了一种纠错方法，在检测到文本中存在待纠错对象后，基于待纠错对象所在的位置上提取其上下文内容，并且对应的相似对象，根据上下文内容和相似对象输入到纠错模型中得到其对应的备选概率，基于备选概率从其中选择对应的一个作为替换对象对待纠错对象进行替换处理；本发明还提供了一种纠错装置、设备及存储介质，通过同时基于待纠错对象和上下文内容来预测待纠错对象的信息，可以降低语言模型在识别语义时的困惑度，从而提取到较为准确的相似对象，然后基于纠错模型结合上下文内容来计算出每个相似对象的备选概率，从中选择较大的对象，这样不仅提高了每个字或词的概率，还提高最后的纠错的准确率。

Description

纠错方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种纠错方法、装置、设备及存储介质。

背景技术

现有技术的开源NLP(Natural Language Processing，自然语言处理)纠错，仅仅靠文本语序进行纠错，具体是通过语言模型来实现，而语言模型分为统计语言模型和神经网络语言模型；统计语言模型受限于上下文窗口大小，实际使用中，窗口大小很少超过4，在文字限制的情况下，大大降低了对输入字或词的检测筛选。

目前学术界和工业界使用较多的是神经网络语言模型，但是传统的神经网络语言模型基本都是用上文的字符串来预测当前的字或词，不能够带入当前字或词的信息，这种语言模型的困惑度往往比较高，这里的困惑度指的是语言模型的评价指标，其越低越好，同时传统神经网络语言模型，在做预测时候，我们会预测整个字典里的所有的字或词；这样的预测会导致每个字或词的概率都很小，导致最后的纠错的准确率也不高。

发明内容

本发明的主要目的在于提供一种纠错方法、装置、设备及存储介质，旨在解决现有的纠错方式中，由于筛选的词汇量过多，而导致纠错的准确度较低的技术问题。

为解决上述的问题，在本发明的第一方面中提供了一种纠错方法，所述纠错方法包括：检测待纠错的文本中是否存在待纠错对象，所述待纠错对象包括字和词组；若存在，则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集，其中，所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容；根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集，所述预设的纠错库为预先构建的纠错词典，在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象；以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

可选的，本发明第一方面的一个可行实施方式中，所述根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集包括：根据所述位置信息从所述文本中选定所述待纠错对象；根据所述样本长度，计算出基于所述位置信息截取上文段落和下文段落的字节长度；以所述位置信息所在的位置作为切割的基点，并向所述位置的上文和下文方向分别延长所述字节长度，并采用文本切割技术将其从所述文本中切取出来，形成所述纠错数据集。

可选的，本发明第一方面的一个可行实施方式中，在所述根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集之后，还包括：若所述待纠错对象为字时，分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段，其中，N小于所述字节长度；若所述待纠错对象为词组时，分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段，其中，2N小于所述字节长度；将截取到的字段替换所述上下文内容，与所述待纠错对象形成第二纠错数据集。

可选的，本发明第一方面的一个可行实施方式中，在所述根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集之前，还包括：提取所述待纠错对象和所述上下文内容的多维度特征，其中，所述多维度特征包括中文文字特征和拼音特征，以及所述中文文字特征和拼音特征的相似特征中的至少一种，所述相似特征为读音相似的特征；

所述根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集包括：根据所述中文文字特征、拼音特征和相似特征，从所述预设的纠错库中查询出对应的相似目标集；根据所述上下文内容，判断所述相似目标集是否能与截取到的字段形成词组；根据判断的结果，从所述相似目标集中选择相似对象，形成所述相似对象集。

可选的，本发明第一方面的一个可行实施方式中，所述提取所述待纠错对象和所述上下文内容的多维度特征包括：利用声学模型对所述待纠错对象和上下文内容进行发音训练，基于所述发音训练识别出对应的拼音音节，得到对应的发音特征；以神经网络的编码器作为编码模型，将所述待纠错对象和上下文内容的发音特征依次输入所述编码模型内，所述编码模型逐字产生对应拼音字符，直到编码完成后，输出与所述待纠错对象和上下文内容对应的拼音特征；计算所述待纠错对象和上下文内容的拼音特征的发音相似度，并基于所述发音相似度确定其相似的拼音特征。

可选的，本发明第一方面的一个可行实施方式中，所述以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率包括：通过所述编码模型，将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码，形成多个拼音序列；将所述拼音序列，以及所述待纠错对象和上下文内容的中文文字特征进行特征合并，得到合并特征；将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率。

可选的，本发明第一方面的一个可行实施方式中，所述将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率包括：利用预设的备选概率计算规则，确定所述上下文内容中每个字段的维度向量数；根据所述字段的维度向量数，计算出合并特征后的总维度向量数；根据所述总维度向量数和预设的备选概率的计算公式，计算每个所述相似对象的备选概率。

此外，为解决上述的问题，在本发明的第二方面中提供了一种纠错装置，其特征在于，所述纠错装置包括：检测模块，用于检测待纠错的文本中是否存在待纠错对象，所述待纠错对象包括字和词组；第一计算模块，用于在检测到待纠错对象时，计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；提取模块，用于根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集，其中，所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容；查询模块，用于根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集，所述预设的纠错库为预先构建的纠错词典，在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象；第二计算模块，用于以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；纠错模块，用于根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

可选的，本发明第二方面的一个可行实施方式中，所述提取模块包括选定单元、测量单元和切割单元；所述选定单元用于根据所述位置信息从所述文本中选定所述待纠错对象；所述测量单元用于根据所述样本长度，计算出基于所述位置信息截取上文段落和下文段落的字节长度；所述切割单元用于以所述位置信息所在的位置作为切割的基点，并向所述位置的上文和下文方向分别延长所述字节长度，并采用文本切割技术将其从所述文本中切取出来，形成所述纠错数据集。

可选的，本发明第二方面的一个可行实施方式中，所述纠错装置还包括：截取模块，用于在所述待纠错对象为字时，分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段，其中，N小于所述字节长度；以及在所述待纠错对象为词组时，分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段，其中，2N小于所述字节长度；将截取到的字段替换所述上下文内容，与所述待纠错对象形成第二纠错数据集。

可选的，本发明第二方面的一个可行实施方式中，所述纠错装置还包括：特征扩展模块，用于提取所述待纠错对象和所述上下文内容的多维度特征，其中，所述多维度特征包括中文文字特征和拼音特征，以及所述中文文字特征和拼音特征的相似特征中的至少一种，所述相似特征为读音相似的特征；

所述查询模块包括查询单元、判断单元和词组构建单元；所述查询单元用于根据所述中文文字特征、拼音特征和相似特征，从所述预设的纠错库中查询出对应的相似目标集；所述判断单元用于根据所述上下文内容，判断所述相似目标集是否能与截取到的字段形成词组；所述词组构建单元用于根据判断的结果，从所述相似目标集中选择相似对象，形成所述相似对象集。

可选的，本发明第二方面的一个可行实施方式中，所述特征扩展模块包括发音识别单元、编码单元和特征确定单元；所述发音识别单元用于利用声学模型对所述待纠错对象和上下文内容进行发音训练，基于所述发音训练识别出对应的拼音音节，得到对应的发音特征；所述编码单元用于以神经网络的编码器作为编码模型，将所述待纠错对象和上下文内容的发音特征依次输入所述编码模型内，所述编码模型逐字产生对应拼音字符，直到编码完成后，输出与所述待纠错对象和上下文内容对应的拼音特征；所述特征确定单元用于计算所述待纠错对象和上下文内容的拼音特征的发音相似度，并基于所述发音相似度确定其相似的拼音特征。

可选的，本发明第二方面的一个可行实施方式中，所述编码单元包括拼音编码子单元、特征合并子单元和概率计算子单元；所述拼音编码子单元用于通过所述编码模型，将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码，形成多个拼音序列；所述特征合并子单元用于将所述拼音序列，以及所述待纠错对象和上下文内容的中文文字特征进行特征合并，得到合并特征；所述概率计算子单元用于将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率。

可选的，本发明第二方面的一个可行实施方式中，所述概率计算子单元具体用于利用预设的备选概率计算规则，确定所述上下文内容中每个字段的维度向量数；根据所述字段的维度向量数，计算出合并特征后的总维度向量数；根据所述总维度向量数和预设的备选概率的计算公式，计算每个所述相似对象的备选概率。

此外，为解决上述的问题，在本发明的第三方面中提供了一种纠错设备，所述纠错设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读程序，所述计算机可读程序被所述处理器执行时实现如上任一项所述的纠错方法。

此外，为解决上述的问题，在本发明的第四方面中提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读程序，所述计算机可读程序被一个或多个处理器执行时实现如上任一项所述的纠错方法。

本发明通过提供一种纠错方法、装置、设备及存储介质，通过神经网络语言模型实现根据待纠错的对象的上下文内容来提取计算概率的特征，基于提取的特征以及待纠错的对象本身和上下文内容预测与待纠错的对象的相似对象的概率，基于该概率进行选择，并将选择到的相似对象替换待纠错的对象，通过该方法的实现，可以提高相似对象的选择概率，并且通过上下文内容来选择相似对象的方式，大大提高的选择的相似对象的精准度，并且基于提取特征来计算概率，相比于现有技术来说，可以减少大量的相似对象的概率计算量，从而提高待纠错字或词的选定概率，提高纠错的准确度。

附图说明

图1为本发明提供的终端的结构示意图；

图2为本发明提供的纠错方法第一实施例的流程示意图；

图3为本发明提供的纠错方法第二实施例的流程示意图；

图4为本发明提供的词组截取的示意图；

图5为本发明提供的语言模型的模型示意图；

图6为本发明提供的邮件生成装置一实施例的功能模块示意图；

图7为本发明提供的邮件生成装置的另一实施的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本发明实施例提供了一种基于神经网络的语言模型的纠错方法，该方法主要是通过神经网络语言模型实现根据待纠错的对象的上下文内容来来提取计算概率的特征，基于提取的特征以及待纠错的对象本身和上下文内容预测与待纠错的对象的相似对象的概率，基于该概率进行选择，并将选择到的相似对象替换待纠错的对象，通过该方法的实现，可以提高相似对象的选择概率，并且通过上下文内容来选择相似对象的方式，大大提高的选择的相似对象的精准度，并且基于提取特征来计算概率，相比于现有技术来说，可以减少大量的相似对象的概率计算量，从而提高纠错的准确度。

图2为本发明实施例提供的纠错方法的流程图，该方法主要是用于实现在输入信息时，可以快速对输入的内容中的错误信息进行快速的识别纠错，同时还可以被应用于对某些文档的检查纠错处理，该纠错方法具体包括以下步骤：

101，检测待纠错的文本中是否存在待纠错对象；

在本实施例中，在检测文本中的待纠错对象时，具体可以采用语法检测模型来实现检测，所述语法检测模型可以理解为是用来检测文本中的语句是否通顺，用词是否错误的检测算法，在实际应用中，在使用语法检测模型对文本进行检测时，具体包括以下几个方面，分别是分词、词性检测、语句成分分析和错误检查，通过上述的几个过程后实现对文本中存在错误的部分检测标注出来，其标注具体是通过下滑线标注的方式提示可能存在错误。

在本实施例中，所述待纠错对象包括字和词组，当为词组时，该语法检测模型可以采用中文多元文法模型来实现，例如：二元文法模型，其具体原理为：通过对给定中文字符串检测，如果句子中有错误，错误单词将出现在中文分词后的一个连续的单词串中。一般，连续句的长度在没有错误的句子的分裂之后不超过2。根据这个判断，当连续词的长度等于2时，系统将采用双元文法模型来检测和纠正错误。

例如，像这个句子“张三的确是一个问提”的切割分词后，其结果是“张三/的确/是/一个/问/提”，而在“问”之后接着的词或字的词性应该是名词词性才对，而在句子中是动词的词性，所以会存在问题，对“提”进行标注。

如果存在多个连续单词长度等于2的地方，这意味着句子可能存在多处拼写错误，那么我们在相应的地方使用二元文法模型。例如，在切词之后，句子“张三的是的确是一个温题”将是“张三/的/是/的确/是/一个/温/题”，其中第一“是”应该是“事”，而“温”应该是“问”。基于这种分词检测后，对其进行标注，

进一步的，若语句中存在多个连续词组时，其出现错误的概率可能会提高，在这种情况下，我们使用三元模型来检测和纠正错误。在三元文法模型中，对词语的似然概率的近似只依赖于其前面两个单词的似然概率值。

在本实施例中，具体还可以通过遍历所述待纠错的文本的每一个单字；根据预存的词语库，判断各单字是否与位于其前后的其他字组成词的方式来实现待纠错对象的检测。

102,若存在，则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；

在该步骤中，确定其存在，具体可以是通过检测文本中的标注信息来确定，例如检测文本中是否存在下划线的标注，若存在，则说明存在待纠错对象，并读取该待纠错对象在文本中具体位置，例如坐标位置，行页字节位置。

在实际应用中，对于位置信息的获取，可以是基于文本中的段落标记进行计算，也可以是根据文本中的方格位置进行确定，甚至还可以是通过基于文本所在的载体构建二维坐标系，基于该坐标系，确定所述待纠错对象所在的坐标信息；例如，当所述文本为office文档时，则可以使用基于所述段落标记来确定位置信息，具体的开启office软件中的段落标记功能，所述软件通过检测文档中每一页文本中的回车字符，其中一个回车字符代表一个段落，并在文档边缘显示出来，首先根据下划线的标注确定大概的位置，基于大概的位置确定文本所在文档中的页数，然后检测该页中回车字符，从而确定所述下划线的标注所在的段落位置，在确定段落位置后，统计段落的行数和每行的字数，基于行数和字数来确定下划线的标注的具体位置。

在本实施例中，在计算所述样本长度时，具体是根据对象的提取规则与所述位置信息，确定待提取的对象的样本长度；所述提取规则指的是根据待纠错对象如何获取纠错样本的获取方法，具体的通过文本分割方式基于待纠错对象的上下文进行切割一定大小的文本段落内容，例如分别从上下文中截取10bit长度的内容。基于这种规则计算出需要截取的样本的总大小以及截取的样本小段的大小。在实际应用中，对于上下文内容的样本长度一般是截取样本总大小的一半。

103，根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集；

在该步骤中，所述样本包括待纠错对象和待纠错对象的上下文内容的片段，所述样本大小包括样本总大小和组成样本的内容小段的大小，在提取接错数据集时，具体是首先根据位置信息确定待纠错对象的位置，计算样本长度减去待纠错对象后的一半，得到截取文本段落的长度值，基于所述长度值分别从待纠错对象的位置的前文和后文中截取长度值大小的段落，并且在截取时，在待纠错对象的位置向上文方向截取长度值大小的文段，在待纠错对象的位置向下文方向截取长度值大小的文段，然后将截取到的两端的文段和待纠错对象合并后形成纠错数据集。也即是说截取出来的文段和待纠错对象必须是连续不间断的文段内容。

104，根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集；

在该步骤之前，还包括：预先设置纠错库，所述纠错库中包含同音字字典和/或相似字字典；其中所述同音字字典中包括同一拼音与不同字形的对应关系，所述相似字字典包括同型字与不同偏旁的对应关系。

在本实施例中，在匹配对应的相似对象时，具体是通过获取所述待纠错对象的拼音；查找所述同音字字典获取所述拼音对应的同音不同形的对象为候选对象；将所述候选对象字显示在提示框中供用户选择；接收用户的选择指令，并根据所述选择指令确定用户选择的对象；若用户选择的对象与所述待纠错对象不同，则将所述待纠错对象替换成用户选择的对象。

105，以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；

在该步骤中，所述纠错模型具体是通过上下文内容来计算备选概率，具体的是根据待纠错对象的维度特征和其对应的上下文内容来组成向量特征，基于该向量特征来估计计算相似对象代替所述待纠错对象的备选概率。

106，根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

在该步骤中，具体还包括根据计算的备选概率对所述相似对象进行排序，并根据排序选择排序靠前的X个相似对象作为替换对象。

在实际应用中，在X个相似对象中还可以将其与上下文内容进行结合，并编译每个相似对象与上下文内容组合后的语义，根据语义判断哪个相似对象的语义与预设的语义最为接近，从而选择出最终用来替换待纠错对象的相似对象。

通过对上述方法的实施，在检测到文本中存在待纠错对象后，基于待纠错对象所在的位置上提取其上下文内容，并且对应的相似对象，根据上下文内容和相似对象输入到纠错模型中得到其对应的备选概率，基于备选概率从其中选择对应的一个作为替换对象对待纠错对象进行替换处理；在本申请中，通过同时基于待纠错对象和上下文内容来预测待纠错对象的信息，可以降低语言模型在识别语义时的困惑度，从而可以提取到较为准确的相似对象，然后基于纠错模型结合上下文内容来计算出每个相似对象的备选概率，从而从其中中选择较大的一个，这样的方式大大提高了每个字或词的概率，从而提高最后的纠错的准确率。

图3为本发明实施例提供的纠错方法的第二种实现流程，该实施方式主要是根据待纠错对象的拼音特征和发音特征来筛选相似对象，然后从相似对象中选定一个最接近的来实现纠错的替换处理，其具体实现步骤如下：

201，获取待纠错文本的数据；

202，检测待纠错文本中是否存在待纠错对象；

在实际应用中，检测待纠错对象时，可以利用现有的检测方式进行检测，优选的，本实施例中，选择使用二元文法模型，其具体原理为：通过对给定中文字符串检测，如果句子中有错误，错误单词将出现在中文分词后的一个连续的单词串中。一般，连续句的长度在没有错误的句子的分裂之后不超过2。根据这个判断，当连续词的长度等于2时，系统将采用双元文法模型来检测和纠正错误。

203，若存在，计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；

在本实施例中，这里的位置信息指的是行页字节坐标，具体的通过检测文本中的标注信息来确定，例如检测文本中是否存在下划线的标注，若存在，则说明存在待纠错对象，并读取该待纠错对象在文本中具体位置，例如坐标位置，行页字节坐标，在文本中的第几页第几行第几个字节。

204，根据所述位置信息从所述文本中选定所述待纠错对象；

205，根据所述样本长度，计算出基于所述位置信息截取上文段落和下文段落的字节长度；

206，以所述位置信息所在的位置作为切割的基点，并向所述位置的上文和下文方向分别延长所述字节长度，并采用文本切割技术将其从所述文本中切取出来，形成所述纠错数据集；

基于该步骤切割到纠错数据集后，还包括将给纠错数据集作为初级数据集，为了减少纠错的计算量，将该纠错数据集做进一步的缩减，执行步骤207-210。

207，判断所述待纠错对象是字或者是词组；

208，若所述待纠错对象为字时，分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段，其中，N小于所述字节长度；

209,若所述待纠错对象为词组时，分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段，其中，2N小于所述字节长度；

210，将截取到的字段替换所述上下文内容，与所述待纠错对象形成第二纠错数据集；

在实际应用中，假设截取出来的纠错数据集为“新生儿吸入洋水投保”，若基于该数据集计算“洋”字的概率时，应该以上述的9个字作为特征进行计算，并且在本实施例中，还需要根据这9个特征扩展出其他的特征进行一起计算，这样的话其计算量就比较大，并且该数据集中有一些是对于纠错的概率计算是不存在帮助的，基于上述的缩减方式可以缩少一些无用的特征，仅截取其有用的特征即可。

211，提取所述待纠错对象和所述上下文内容的多维度特征；

在该步骤中，所述多维度特征包括中文文字特征和拼音特征，以及所述中文文字特征和拼音特征的相似特征中的至少一种，所述相似特征为读音相似的特征。

212，根据所述中文文字特征、拼音特征和相似特征，从所述预设的纠错库中查询出对应的相似目标集；

213，根据所述上下文内容，判断所述相似目标集是否能与截取到的字段形成词组；

214，根据判断的结果，从所述相似目标集中选择相似对象，形成所述相似对象集；

在实际应用中，对于待纠错对象来说提取的特征包括中文文字特征、拼音特征和拼音特征的相似特征，而上下文内容的特征包括中文文字特征和拼音特征，这里的中文文字特征即是数据集中的单字本身，基于单词，编码出其对应的拼音特征。

在截取字段和特征扩展时，可以采用图4所示的方式来实现，其中纠错数据集为“新生儿吸入洋水投保”，通过上述的数据集缩减方式，取上下文前窗口为n个字和其拼音，比如上例中的n为2；比如“新生儿吸入洋水投保”错别字是“洋”，我们要预测正确的“羊”字，可以取上下文窗口为2的字，如(吸，入，水，投)；同时取上下文窗口为2的拼音和当前的“洋”字的拼音(xi ru yang shui tou)；将这9个特征合并的字向量合并起来一起来预测“羊”字的概率，假设原来“吸”用一个150维的向量表述该字，现在把9个特征进行合并就变成9*150＝1350维的向量；

通过这种带入拼音特征的方式，除了带入上下文的信息以外，还可以带入当前要预测的字的一些信息，比如“洋”字带入了拼音特征“yang”；我们正确的候选“羊”也有相同的拼音；可以极大提高语言模型预测当前正确“羊”字的概率；

在实际应用中，通过带入拼音，可以将要预测的字限定在一定范围内，比如本例中，将要预测的字限定在拼音为“yang”的字表里面，语言模型预测时候，只能从相同或在相近的拼音中选择候选字，比如从(羊，样，养，洋，烟)这些拼音都是“yang”的字表中选择候选字；语言模型不需要对整个字表中的词都做均等权重的预测，可以着重的预测那些拼音是“yang”的字表；可以极大提高拼音为“yang”的字和那些拼音不是为“yang”的概率的比值；增加模型的区分度；

利用该模型，我们可以产生类似于字表大小字的概率分布，比如在预测“吸入性洋水投保”的正确“羊”字时候，可以参数一个候选概率表“羊-0.62；烟-0.048；洋-0.0064”；可以从这个候选概率表中挑选出概率值最大的那个字，比如本例中的“羊”，如果概率值最大那个字是原来的待预测的字，比如“洋”那么可以认为该位置没有发生错误。

在本实施例中，所述提取所述待纠错对象和所述上下文内容的多维度特征具体的通过声学模型来实现对相似对象的生成，具体的步骤如下：

利用声学模型对所述待纠错对象和上下文内容进行发音训练，基于所述发音训练识别出对应的拼音音节，得到对应的发音特征；

以神经网络的编码器作为编码模型，将所述待纠错对象和上下文内容的发音特征依次输入所述编码模型内，所述编码模型逐字产生对应拼音字符，直到编码完成后，输出与所述待纠错对象和上下文内容对应的拼音特征；

计算所述待纠错对象和上下文内容的拼音特征的发音相似度，并基于所述发音相似度确定其相似的拼音特征。

在实际应用中，将数据集中的中文文本序列一一转化为其对应的音频，音频作为模型输入信息，例如：“哪”，“家”，“医”，“院”，输入至声学模型中，输出“na”，“jia”，“yi”，“yuan”的音频序列。

基于该音频序列输入到编码模型中，编码模型根据当前音频序列产生隐藏层向量/矩阵ht’。将隐藏层向量/矩阵ht’与编码模型编码每一个拼音字符对应的隐藏层向量/矩阵ht，采用注意机制产生一组加权系数，再将编码模型编码所有拼音字符对应的隐藏层根据产生的加权系数相加，并最终产生一个拼音特征序列。

215，以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；

在实际应用中，该步骤具体是通过所述编码模型，将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码，形成多个拼音序列；

将所述拼音序列，以及所述待纠错对象和上下文内容的中文文字特征进行特征合并，得到合并特征；

将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率。

进一步的，在合并特征时，具体是利用预设的备选概率计算规则，确定所述上下文内容中每个字段的维度向量数；

根据所述字段的维度向量数，计算出合并特征后的总维度向量数；

根据所述总维度向量数和预设的备选概率的计算公式，计算每个所述相似对象的备选概率。

216，根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

在本实施例中，对上述步骤211-215均可以在语言模型中实现，具体是采用具有三层结构的语言模型，如图5所示，该语言模型包括输入层、隐藏层和输出层，其中，输入层是一个随机初始化的5000*150的向量，5000是字表大小，150表述每个字用150维度向量表示；隐藏层也可以理解为是一个特征扩展和合并层，是一个1350*256的向量，主要用于将计算复杂度降低，如果没有该层原来一条数据要计算1350*5000＝675万次，现在只需要计算1350*256+256*5000＝163万次，极大减少减少计算量；输出层是256*5000的向量，预测出字表中每个字的概率。即是通过截取的数据集信息来产生出其他的预测特征，例如带入要预测字的信息，以降低语言模型困惑度，从而实现将要预测的字限定在一定范围，提高正确字与其他字的区分度。

在本实施例中，根据待纠错的对象的上下文内容来来提取计算概率的特征，基于提取的特征以及待纠错的对象本身和上下文内容预测与待纠错的对象的相似对象的概率，基于该概率进行选择，并将选择到的相似对象替换待纠错的对象，即是通过语言模型来对纠错文本中的错字和其对应的上下文信息扩展更多的特征，基于这些特征来计算纠错替换字的概率，从而减少计算量和提高纠错的精准度。

为了解决上述的问题，本发明实施例还提供了一种纠错装置，如图6所示，所述纠错装置包括：

检测模块501，用于检测待纠错的文本中是否存在待纠错对象，所述待纠错对象包括字和词组；

第一计算模块502，用于在检测到待纠错对象时，计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；

提取模块503，用于根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集，其中，所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容；

查询模块504，用于根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集，所述预设的纠错库为预先构建的纠错词典，在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象；

第二计算模块505，用于以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；

纠错模块506，用于根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

通过上述的装置实现文本的词组或者字段的纠错处理，根据待纠错的对象的上下文内容来提取计算概率的特征，基于提取的特征以及待纠错的对象本身和上下文内容预测与待纠错的对象的相似对象的概率，基于该概率进行选择，并将选择到的相似对象替换待纠错的对象，从而提高相似对象的选择概率，并且通过上下文内容来选择相似对象的方式，大大提高的选择的相似对象的精准度，进一步的提高纠错的准确度。

如图7所示，本发明实施例还提供了另一种纠错装置，该装置包括：

在本发明的另一实施方式中，所述提取模块503具体包括以下单元实现：

选定单元5031，用于根据所述位置信息从所述文本中选定所述待纠错对象；

测量单元5032，用于根据所述样本长度，计算出基于所述位置信息截取上文段落和下文段落的字节长度；

切割单元5033，用于以所述位置信息所在的位置作为切割的基点，并向所述位置的上文和下文方向分别延长所述字节长度，并采用文本切割技术将其从所述文本中切取出来，形成所述纠错数据集。

在本发明的另一实施方式中，所述纠错装置还包括：

截取模块507，用于在所述待纠错对象为字时，分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段，其中，N小于所述字节长度；以及在所述待纠错对象为词组时，分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段，其中，2N小于所述字节长度；将截取到的字段替换所述上下文内容，与所述待纠错对象形成第二纠错数据集。

在本发明的另一实施方式中，所述纠错装置还包括：

特征扩展模块508，用于提取所述待纠错对象和所述上下文内容的多维度特征，其中，所述多维度特征包括中文文字特征和拼音特征，以及所述中文文字特征和拼音特征的相似特征中的至少一种，所述相似特征为读音相似的特征。

这时，所述查询模块504具体包括以下单元实现：

查询单元5041，用于根据所述中文文字特征、拼音特征和相似特征，从所述预设的纠错库中查询出对应的相似目标集；

判断单元5042，用于根据所述上下文内容，判断所述相似目标集是否能与截取到的字段形成词组；

词组构建单元5043，用于根据判断的结果，从所述相似目标集中选择相似对象，形成所述相似对象集。

在本发明的另一实施方式中，所述特征扩展模块508具体包括以下组成单元：

发音识别单元5081，用于利用声学模型对所述待纠错对象和上下文内容进行发音训练，基于所述发音训练识别出对应的拼音音节，得到对应的发音特征；

编码单元5082，用于以神经网络的编码器作为编码模型，将所述待纠错对象和上下文内容的发音特征依次输入所述编码模型内，所述编码模型逐字产生对应拼音字符，直到编码完成后，输出与所述待纠错对象和上下文内容对应的拼音特征；

特征确定单元5083，用于计算所述待纠错对象和上下文内容的拼音特征的发音相似度，并基于所述发音相似度确定其相似的拼音特征。

在本发明的另一实施方式中，所述编码单元5082包括拼音编码子单元、特征合并子单元和概率计算子单元；所述拼音编码子单元用于通过所述编码模型，将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码，形成多个拼音序列；所述特征合并子单元用于将所述拼音序列，以及所述待纠错对象和上下文内容的中文文字特征进行特征合并，得到合并特征；所述概率计算子单元用于将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率。

在本发明的另一实施方式中，所述概率计算子单元具体用于利用预设的备选概率计算规则，确定所述上下文内容中每个字段的维度向量数；根据所述字段的维度向量数，计算出合并特征后的总维度向量数；根据所述总维度向量数和预设的备选概率的计算公式，计算每个所述相似对象的备选概率。

基于本装置的执行功能和功能对应的执行流程与上述本发明实施例的纠错方法实施例说明内容相同的，因此本实施例对纠错装置的实施例内容不做过多赘述。

在本发明实施例中，对于纠错装置的实现具体可以是以服务器的形式实现，即是将实现上述纠错方法的装置设置为输入法系统中的服务器上的一个功能。

本发明还提供了一种纠错设备，所述纠错设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读程序，所述计算机可读程序被所述处理器执行时所实现的方法可参照本发明纠错方法的各个实施例，因此不再过多赘述。

在实际应用中，这里的纠错设备可以是现有的终端结构，常用的是移动终端，通过移动终端的扫描功能来启动纠错功能，而该功能通过设置一个计算机可读程序来实现上述的纠错方法的功能即可，如图1所示，本发明实施例方案涉及的终端的运行环境的结构示意图。

如图6所示，该终端包括：处理器601，例如CPU，通信总线602、用户接口603，网络接口604，存储器605。其中，通信总线602用于实现这些组件之间的连接通信。用户接口603可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口604可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器605可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器605可选地还可以是独立于前述处理器601的存储装置。

本领域技术人员可以理解，图1中示出的终端的硬件结构并不构成对本发明中的纠错装置和设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器605中可以包括操作系统、网络通信程序模块、用户接口程序模块以及用于实现邮件转发方法的计算机可读程序/指令。其中，操作系统是调度终端中各模块之间的通信以及执行存储器中存储的计算机可读程序/指令，上述实施例中的纠错方法。

在图1所示的终端的硬件结构中，网络接口604主要用于接入网络；用户接口603主要用于监控并获取待发送的邮件数据，其中所述邮件数据可以是线上的邮件，也可以是线下的函件，而处理器601可以用于调用存储器605中存储的计算机可读程序，并执行以下纠错方法的各实施例的操作。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有计算机可读程序，所述计算机可读程序被一个或多个处理器执行时所实现的方法可参照本发明纠错方法的各个实施例，因此不再过多赘述。

在本发明实施例提供的方法和装置，在检测到文本中存在待纠错对象后，基于待纠错对象所在的位置上提取其上下文内容，并且对应的相似对象，根据上下文内容和相似对象输入到纠错模型中得到其对应的备选概率，基于备选概率从其中选择对应的一个作为替换对象对待纠错对象进行替换处理；在本申请中，通过同时基于待纠错对象和上下文内容来预测待纠错对象的信息，可以降低语言模型在识别语义时的困惑度，从而可以提取到较为准确的相似对象，然后基于纠错模型结合上下文内容来计算出每个相似对象的备选概率，从而从其中中选择较大的一个，这样的方式大大提高了每个字或词的概率，从而提高最后的纠错的准确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种纠错方法，其特征在于，所述纠错方法包括：

检测待纠错的文本中是否存在待纠错对象，所述待纠错对象包括字和词组；

若存在，则计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；

根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集，其中，所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容；

根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集，所述预设的纠错库为预先构建的纠错词典，在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象；

以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；

根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

2.根据权利要求1所述的纠错方法，其特征在于，所述根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集包括：

根据所述位置信息从所述文本中选定所述待纠错对象；

根据所述样本长度，计算出基于所述位置信息截取上文段落和下文段落的字节长度；

以所述位置信息所在的位置作为切割的基点，并向所述位置的上文和下文方向分别延长所述字节长度，并采用文本切割技术将其从所述文本中切取出来，形成所述纠错数据集。

3.根据权利要求2所述的纠错方法，其特征在于，在所述根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集之后，还包括：

若所述待纠错对象为字时，分别从所述上文内容和靠近所述位置信息一侧的上文内容中截取N个字节的字段，其中，N小于所述字节长度；

若所述待纠错对象为词组时，分别从所述上文内容和靠近所述位置信息一侧的下文内容中截取2N个字节的字段，其中，2N小于所述字节长度；

将截取到的字段替换所述上下文内容，与所述待纠错对象形成第二纠错数据集。

4.根据权利要求3所述的纠错方法，其特征在于，在所述根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集之前，还包括：

提取所述待纠错对象和所述上下文内容的多维度特征，其中，所述多维度特征包括中文文字特征和拼音特征，以及所述中文文字特征和拼音特征的相似特征中的至少一种，所述相似特征为读音相似的特征；

所述根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集包括：

根据所述中文文字特征、拼音特征和相似特征，从所述预设的纠错库中查询出对应的相似目标集；

根据所述上下文内容，判断所述相似目标集是否能与截取到的字段形成词组；

根据判断的结果，从所述相似目标集中选择相似对象，形成所述相似对象集。

5.如权利要求4所述的纠错方法，其特征在于，所述提取所述待纠错对象和所述上下文内容的多维度特征包括：

6.如权利要求5所述的纠错方法，其特征在于，所述以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率包括：

通过所述编码模型，将所述上下文内容的拼音特征、所述待纠错对象的拼音特征及其相似特征编码，形成多个拼音序列；

7.如权利要求6所述的纠错方法，其特征在于，所述将所述合并特征输入至所述纠错模型中，计算所述相似对象集中每个相似对象的备选概率包括：

利用预设的备选概率计算规则，确定所述上下文内容中每个字段的维度向量数；

8.一种纠错装置，其特征在于，所述纠错装置包括：

检测模块，用于检测待纠错的文本中是否存在待纠错对象，所述待纠错对象包括字和词组；

第一计算模块，用于在检测到待纠错对象时，计算所述待纠错对象在所述文本中的位置信息以及所述待纠错对象的样本长度；

提取模块，用于根据所述位置信息和样本长度，将所述待纠错对象从所述文本中提取出来，得到纠错数据集，其中，所述纠错数据集包括所述待纠错对象和所述待纠错对象所在位置的上下文内容；

查询模块，用于根据所述待纠错对象和其对应的上下文内容，从预设的纠错库中查找与所述待纠错对象匹配的相似对象集，所述预设的纠错库为预先构建的纠错词典，在所述目标词典中存储的与所述待纠错对象相对应的多个相似对象；

第二计算模块，用于以神经网络的语言模型作为纠错模型，将所述相似对象集和所述纠错数据集中的上下文内容输入至所述纠错模型中，计算出每个相似对象的备选概率；

纠错模块，用于根据所述备选概率，选择最大的备选概率对应的相似对象作为替换对象，对所述待纠错对象进行替换操作。

9.一种纠错设备，其特征在于，所述纠错设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机可读程序，所述计算机可读程序被所述处理器执行时实现如权利要求1-7中任一项所述的纠错方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读程序被一个或多个处理器执行时实现如权利要求1-7中任一项所述的纠错方法。