CN111695343A

CN111695343A - 错词纠正方法、装置、设备及存储介质

Info

Publication number: CN111695343A
Application number: CN202010581289.6A
Authority: CN
Inventors: 邱煜
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-22

Abstract

本发明涉及人工智能领域，公开了一种基于错词纠正方法、装置、设备及存储介质。错词纠正方法包括：获取待处理的自然语言文本；基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型；基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本；计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。此外，本发明还涉及区块链技术，易错词库和候选字词表存储于区块链中。本发明能够对自然语言文本识别中的专业词和生僻字进行纠错，扩大错词纠正的应用范围。

Description

错词纠正方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种错词纠正方法、装置、设备及存储介质。

背景技术

NLP(Natural Language Processing，自然语言处理)是人工智能领域的一个子域，它主要解决人际交互问题。NLP通过计算技术学习、理解然后产生人类语言。NLP的第一步是获取目标语句。目前通过ORC(Optical Character Recognition，光学字符识别)、ASR(Automatic Speech Recognition，自动语音识)及用户自动输入等方式获取目标语句。因此当第一步获取的目标语句存在错字问题，会严重影响后续的分析过程。所以获取目标语句后需要先对目标语句进行纠正，以保证之后的分析都建立在正确的语句上进行。

目前在这些识别方法中都有纠正模块。例如在ASR中，将语音转换为数字信号，并结合发音词典、语言模型，将输入的型号匹配出对应的词串和句子，在通过对语音中上下文进行语音分析，最后通过卷积神经网络模型对词进行纠正。但是这些纠正模块中采用的技术聚焦在常用词错误，易混易错。在实际操作过程中，OCR，ASR识别错误或用户用拼音打错，手写选错的有时候是形近或音近的生僻字，例如“银川”误选为“锒川”。因此，针对包含专业字词和生僻字词的自然语言，目前缺乏能够有效纠正的手段。

发明内容

本发明的主要目的在于解决自然语言处理中的缺乏针对专业词、生僻字的纠正方法的技术的问题。

本发明第一方面提供了一种错词纠正方法，包括：

获取待处理的自然语言文本；

基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

可选的，在本发明第一方面的第一种实现方式中，所述易错词库存储于区块链中，所述基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本包括：

对所述自然语言文本进行分词，得到多个词语；

基于网页爬取生成的易错词库，筛选所述各词语中的易错词，其中所述易错词库包括易错词和对应的正确词；

将所述正确词写入所述自然语言文本中易错词的位置，以替换所述易错词，得到所述第一文本。

可选的，在本发明第一方面的第二种实现方式中，所述对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类包括：

以字为单位，对所述第一文本进行分词，得到所述第一文本对应的文本子词；

对所述文本子词进行位置编码，得到所述文本子词的向量；

对所述向量对应的文本子词进行序列标注，得到所述文本子词对应的标注类型。

可选的，在本发明第一方面的第三种实现方式中，所述对所述向量对应的文本子词进行序列标注，得到所述文本子词对应的标注类型包括：

将所述向量映射到预置标注类型矩阵中，得到所述向量在各个标注类型下的评价分数，其中，所述标注类型矩阵的标注类型包括正确类、错误起点类和错误内容类；

根据预置分数阈值，将小于所述分数阈值的评价分数减为零；

将对所述评价分数进行归一化，得到将所述向量对应的文本子词对应各个标注类型的标注概率值；

对所述标注概率值进行大小比较，并将所述标注概率值最大的标注类型作为所述文本子词对应的标注类型。

可选的，在本发明第一方面的第四种实现方式中，所述候选字词表存储于区块链中，所述基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本包括：

将所述错误起点类和所述错误内容类的文本子词作为候选错词；

根据所述候选字词表，确定所述候选错词对应的候选字词；

将所述候选字词进行随机组合，得到所述候选错词对应的备选字词；

所述备选字词依次写入所述第一文本中的对应位置，以替换所述候选错词，分别得到对应的第二文本。

可选的，在本发明第一方面的第五种实现方式中，所述计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出包括：

基于预置n-gram语言模型，计算各所述第二文本的困惑度值；

对各所述困惑度值进行大小比较；

将最小困惑度值对应的第二文本作为正确文本输出。

可选的，在本发明第一方面的第六种实现方式中，在所述基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本之前，还包括：

读取预置字库或词库中的字词，所述字库包括常用字库，所述词库包括常用词库和专业词库；

计算所述常用字库中第一常用字和第二常用字的拼音编辑距离和四角码编辑距离；

将所述拼音编辑距离和所述四角码编辑距离小于预设距离值的第一常用字和第二常用字互为常用字候选字；

对所述常用词库中的第一常用词和第二常用词进行转换，分别得到所述第一常用词和所述第二常用词对应的拼音序列和模糊音序列；

将所述拼音序列或所述模糊音序列相同的第一常用词和第二常用词互为常用词候选词；

将所述专业字词库中专业字词进行分词，得到专业词子词；

将预置随机字词及所述专业词子词的对应的常用字候选字和/或常用词候选词写入所述专业词中，得到专业词候选词；

将所述常用字候选字、所述常用词候选词和所述专业词候选词写入预置空白字词表中，得到候选字词表。

本发明第二方面提供了一种错词纠正装置，包括：

获取模块，用于获取待处理的自然语言文本；

预纠正模块，用于基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

序列标注模块，用于对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

生成模块，用于基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

输出模块，用于计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

可选的，在本发明第二方面的第一种实现方式中，所述易错词库存储于区块链中，所述预纠正模块具体用于：

对所述自然语言文本进行分词，得到多个词语；

可选的，在本发明第二方面的第二种实现方式中，所述序列标注模块包括：

分词单元，用于以字为单位，对所述第一文本进行分词，得到所述第一文本对应的文本子词；

编码单元，用于对所述文本子词进行位置编码，得到所述文本子词的向量；

序列标注单元，用于对所述向量对应的文本子词进行序列标注，得到所述文本子词对应的标注类型。

可选的，在本发明第二方面的第三种实现方式中，所述序列标注单元具体用于：

对所述标注概率值进行大小比较，并将所述标注概率值最大的标注类型为所述文本子词对应的标注类型。

可选的，在本发明第二方面的第四种实现方式中，所述候选字词表存储于区块链中，所述生成模块具体用于：

根据所述候选字词表，确定所述候选错词对应的候选字词；

可选的，在本发明第二方面的第五种实现方式中，所述输出模块具体用于：

基于预置n-gram语言模型，计算各所述第二文本的困惑度值；

对各所述困惑度值进行大小比较；

将最小困惑度值对应的第二文本作为正确文本输出。

可选的，在本发明第二方面的第六种实现方式中，所述错词纠正装置还包括候选字词表模块，所述候选字词表模块具体用于：

将所述专业字词库中专业字词进行分词，得到专业词子词；

本发明第三方面提供了一种错词纠正设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述错词纠正设备执行上述的错词纠正方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的错词纠正方法。

在本发明中，获取自然语言后，对自然语言先进行预纠正，将自然语言中的易错词进行纠正。然后将第一文本以字为单位进行分词得到第一文本的文本子词，然后将分得的每个字输入预置的序列标注中进行序列标注，其中标注类型分为正确类、错误起点类和错误终点类。基于预置的候选字词表生成错误起点类和错误内容类的文本子词的备选字词，然后将备选字词替换第一文本中错误起点类和错误内容类的文本子词，得到第二文本，最后对得到的第二文本进行困惑度值计算，选出其中困惑度值最小的第二文本作为正确文本进行输出。由于本方法预置的候选字词表中包括所有汉字的音近字，形近字组成的候选字表，词语的拼音或模糊音相同的候选常用词表以及通过候选常用词和候选字表随机组合形成的专业词表，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。此外，序列标注过程中会获得每个文本子词在不同的标注类型下的分数，可以通过对分数阈值的设置，灵活地调整本方法对错词的灵敏度，增加了对不同应用场景的适用性。

附图说明

图1为本发明实施例中错词纠正方法的第一个实施例示意图；

图2为本发明实施例中错词纠正方法的第二个实施例示意图；

图3为本发明实施例中错词纠正方法的第三个实施例示意图；

图4为本发明实施例中错词纠正方法的第四个实施例示意图；

图5为本发明实施例中错词纠正方法的第五个实施例示意图；

图6为本发明实施例中错词纠正装置的一个实施例示意图；

图7为本发明实施例中错词纠正装置的另一个实施例示意图；

图8为本发明实施例中错词纠正设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种错词纠正方法、装置、设备及存储介质，在本发明中，先通过易错词进行预纠正，得到第一文本，后基于预置的候选字词表，对第一文本进行第二次纠正，得到正确文本。由于预置的候选字词表中包括常用字候选字、常用词候选词和专业词候选词，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。此外本发明中，对第一文本中的错误字词，采用序列标注方式标注得到，序列标注过程中会获得每个文本子词在不同的标注类型下的分数，可以通过对分数阈值的设置，灵活地调整本方法对错词的灵敏度，增加了对不同应用场景的适用性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中错词纠正方法的一个实施例包括：

101、获取待处理的自然语言文本；

可以理解的是，本发明的执行主体可以为错词纠正装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以错词纠正装置为执行主体为例进行说明。

本实施例中，自然语言文本可以保存在可移动介质中，也可以是直接输入的。自然语言输入设备可以是电脑键盘，手机键盘，麦克风，摄像头等。

在本实施例中，用户使用麦克风输入一段语音，经过预置的语音识别装置，将其转换为自然语言文本并传递给错词纠正装置。

102、基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

预先通过爬虫，从网页中爬取易错词，并将其写入易错词库中。在本实施例中，自然语言文本为“大楼发生暴炸”，可采用正向最大匹配法，对自然语言文本进行分词，自然语言文本被分词得到“大楼”“发生”“暴炸”。

基于易错词库，可在自然语言文本“大楼发生暴炸”筛选到第一错词为“暴炸”。后将“爆炸”替换自然语言文本中的“暴炸”，得到第一文本，即“大楼发生爆炸”。

103、对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

以字为单位，对第一文本进行分词，从而得到第一文本对应的文本子词。再对文本子词进行序列标注。序列标注采用的方法有很多，如通过训练好的Bert模型等神经网络中，从而得到为该标注类型的标注概率，再将最高的标注类型确定为该文本子词的标注类型。

104、基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

预先设置候选字词表，该候选字词表中包括常用字候选字、常用词候选词和专业词候选词。这些常用字词的候选字词通过拼音编辑距离、四角码编辑距离、拼音序列、拼音序列比较得到，而专业词候选词通过常用字候选字和常用词候选词替换得到。

将标注为错误起点类和错误内容类作为候选错词，并根据候选字词表，确定候选错词的备选字词，在将备选字词写入第一文本中对应的位置，从而生成第一文本纠正后的第二文本。

105、计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

将预置n-gram模型作为困惑度值计算模型，计算第二文本的困惑度值。并将困惑度值最小的第二文本作为正确文本并输出。

在本发明中，先通过易错词进行预纠正，得到第一文本，后基于预置的候选字词表，对第一文本进行第二次纠正，得到正确文本。由于预置的候选字词表中包括常用字候选字、常用词候选词和专业词候选词，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。

请参阅图2，本发明实施例中错词纠正方法的另一个实施例包括：

201、获取待处理的自然语言文本；

202、对所述自然语言文本进行分词，得到多个词语；

本实施例中，进行预纠正所采用的分词方法，优选正向最大匹配法。

自然语言文本为“大楼发生暴炸”，根据正向最大匹配法后，分词得到“大楼”“发生”“暴炸”这几个词语。

203、基于网页爬取生成的易错词库，筛选所述各词语中的易错词，其中所述易错词库包括易错词和对应的正确词；

将分词得到的词语与易错词库中的词语进行比对以筛选出易错词。易错词库中的易错词可以从常见错别字汇总网站上爬虫得到。易错词库中包含了易错词和对应的正确词，如“暴炸”与“爆炸”、“歪门斜道”与“歪门邪道”、“喝采”与“喝彩”。基于易错词库，可筛选到易错词“暴炸”。

需要强调的是，为进一步保证上述易错词库的私密和安全性，上述易错词库还可以存储于一区块链的节点中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

204、将所述正确词写入所述自然语言文本中易错词的位置，以替换所述易错词，得到所述第一文本；

筛选到易错词后，将易错词对应的正确词写入自然语言文本中的易错词的位置。将“爆炸”替换“暴炸”，得到第一文本，即“大楼发生爆炸”。

205、对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

206、基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词写入所述第一文本中对应的位置，得到第二文本；

207、计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

本实施例在上一实施例基础上，详细描述通过网页爬取得到的易错词库，对自然语言文本进行预纠正，得到第一文本的过程。通过预纠正，减少后续对专业词、生僻字纠正的压力，提高了纠正效率。

请参阅图3，本发明实施例中错词纠正方法的第三个实施例包括：

301、获取待处理的自然语言文本；

302、基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

303、对所述文本子词进行位置编码，得到所述文本子词的向量；

位置编码的本质是将文本子词转换为可被计算机计算处理的数字形式。将文本子词进行位置编码的方式有很多，如1-of-N，bad-of-words等。

304、将所述向量映射到预置标注类型矩阵中，得到所述向量在各个标注类型下的评价分数，其中，所述标注类型矩阵的标注类型包括正确类、错误起点类和错误内容类；

预先设定标注类型矩阵中包含三种标注类型，分别为正确类[O]，错误起点类[B-E]和错误内容类[I-E]。

首先将每个子词的向量向标注类型矩阵的embedding矩阵进行映射，得到低位稠密的字向量，然后将字向量从m维映射到k维，m为embedding矩阵的纬度，k表示标注类型矩阵中的标注数，从而提取到该文本子词的特征。最后将每个子词与预置标注类型矩阵中的(k+2)x(k+2)的A_ij矩阵进行映射，从而得到对应的评价分数。

305、根据预置分数阈值，将小于所述分数阈值的评价分数减为零；

预先设置一个分数阈值。将小于这个分数阈值的评价分数减为0，从而能够通过设置不同的分数阈值，调整该序列标注的敏感度，以适应不同的应用场景。

306、将对所述评价分数进行归一化，得到将所述向量对应的文本子词对应各个标注类型的标注概率值；

本实施例优选采用softmax进行分数的归一化。将一个文本子词在三个标注类型下的评价分数之和作为1，得到对应三个标注类型的概率，即标注概率值。

307、对所述标注概率值进行大小比较，并将所述标注概率值最大的标注类型作为所述文本子词对应的标注类型；

对每个文本子词所有的标注概率值进行大小比较，如标注为[O]概率为20％，标注为[B-E]为10％，标注为[I-E]为70％，则该文本子词最终标注为错误内容类。

308、基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

309、计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

本实施例在上一实施例基础上，详细描述序列标注过程。序列标注过程中会获得每个文本子词在不同的标注类型下的分数，可以通过对分数阈值的设置，灵活地调整本方法对错词的灵敏度，增加了对不同应用场景的适用性。

参阅图4，本发明实施例中错词纠正方法的第四个实施例包括：

401、获取待处理的自然语言文本；

402、基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

403、读取预置字库或词库中的字词，所述字库包括常用字库，所述词库包括常用词库和专业词库；

字库或词库可以通过字典，专业网站等方式获得，在此不一一进行描述。

404、计算所述常用字库中第一常用字和第二常用字的拼音编辑距离和四角码编辑距离；

由于汉字的输入方式又拼音和笔画，因此在判断两个字之间的相似度的，可选择拼音编辑距离和四角码编辑距离两种方式进行判断。计算常用字库中第一常用字和第二常用字对应的拼音编辑距离和四角码编辑距离。

405、将所述拼音编辑距离和所述四角码编辑距离小于预设距离值的第一常用字和第二常用字互为常用字候选字；

预设一个距离值，如第一常用字和第二常用字分别为“思”和“恩”，两者的四角码编辑距离比预设距离值小，故将这两个互相作为常用字候选字。

406、对所述常用词库中的第一常用词和第二常用词进行转换，分别得到所述第一常用词和所述第二常用词对应的拼音序列和模糊音序列；

模糊音是指词语中每个字的拼音首字母组成的模糊音。如“凶险”和“xx”。在本实施例中，将第一常用词和第二常用词进行转换，得到其模糊音和拼音。如“凶险”和“雄县”，模糊音和拼音皆为“xx”和“xiongxian”。

407、将所述拼音序列或所述模糊音序列相同的第一常用词和第二常用词互为常用词候选词；

由于“凶险”和“雄县”的模糊音和拼音相同，因此将这两个词作为常用词候选词。

408、将所述专业词库中专业词进行分词，得到专业词子词；

对专业词库中专业词进行分词，如“阿司匹林”经过分词得到“阿”“思”“匹”“林”或者“阿司”“匹林”。根据分词方式的不同得到的结果也不相同。

409、将预置随机字词及所述专业词子词的对应的常用字候选字和/或常用词候选词写入所述专业词中，得到专业词候选词；

以分词得到“阿司”“匹林”为例进行说明。如将“阿司”的备选词“阿斯”“暗示”等词替换“阿司”，“匹林”的备选词“毗邻”“频率”等词替换“匹林”。也可使用随机获取的字词替换“阿司”和“匹林”，如得到“阿夏匹林”。

410、将所述常用字候选字、所述常用词候选词和所述专业词候选词写入预置空白字词表中，得到候选字词表；

需要强调的是，为进一步保证上述候选字词表的私密和安全性，上述候选字词表还可以存储于一区块链的节点中。

411、将所述错误起点类和所述错误内容类的文本子词作为候选错词；

在本实施例中，第一文本为“她购买了阿思皮林”，序列标注后为“她”[O]“购”[O]“买”[O]“了”[O]“阿”[B-E]“思”[I-E]“皮”[I-E]“林”[I-E]，因此候选错词为“阿思皮林”。

412、根据所述候选字词表，确定所述候选错词对应的候选字词；

将“阿思皮林”的每个字和词与候选字词表进行匹配，从而确定其对应的候选字词为“阿”“四批”“临”“阿司匹林”“阿司毗邻”等。

413、将所述候选字词进行随机组合，得到所述候选错词对应的备选字词；

将候选字词进行随机组合，如“阿”“四批”“临”组合为“阿四批临”，得到备选字词。随机组合的形式也包括与自身进行组合，如“阿司匹林”与自身组合后为“阿司匹林”，作为备选字词。

413、所述备选字词依次写入所述第一文本中的对应位置，以替换所述候选错词，分别得到对应的第二文本；

将“阿司匹林”写入第一文本的“阿思皮林”的位置，得到第二文本为“她购买了阿司匹林”。

415、计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

本实施例在上一实施例基础上，详细描述候选子词表和备选字词的生成过程。预置的候选字词表中包括所有汉字的音近字，形近字组成的候选字表，词语的拼音或模糊音相同的候选常用词表以及通过候选常用词和候选字表随机组合形成的专业词表，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。

参阅图5，本发明实施例中错词纠正方法的第五个实施例包括：

501、获取待处理的自然语言文本；

502、基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

503、对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

504、基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词写入所述第一文本中对应的位置，得到第二文本；

505、基于预置n-gram语言模型，计算各所述第二文本的困惑度值；

n-gram模型是自然语言处理方法之一，其主要原理是将连续n个字组成元素，对文本进行分解处理。以“她购买了阿司匹林”为例，若n＝3，则拆分后的得到的文字块集合为“她购买”“买了阿”“了阿司”等等。

因此计算这句话正确的概率P(她，购，买，了，阿，司，匹，林)＝P(买|她，购)*P(了|购，买)...P(林|司匹)。

结合文本长度计算得到困惑度值

S表示第二文本，困惑度值越小，p(wi)越大，这句话出现的概率越高，因此这句话是正确文本的概率越高。

506、对各所述困惑度值进行大小比较；

507、将最小困惑度值对应的第二文本作为正确文本输出。

本实施例中，描述了通过n-gram模型就散第二文本的困惑度值，困惑度值越低，第二文本为正确文本的概率越高，因为将困惑度值最小的第二文本作为正确文本。

上面对本发明实施例中错词纠正方法进行了描述，下面对本发明实施例中错词纠正装置进行描述，请参阅图6，本发明实施例中错词纠正装置一个实施例包括：

获取模块601，用于获取待处理的自然语言文本；

预纠正模块602，用于基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

序列标注模块603，用于对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

生成模块604，用于基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

输出模块606，用于计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

在本实施例中，由于预置的候选字词表中包括常用字候选字、常用词候选词和专业词候选词，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。

请参阅图7，本发明实施例中错词纠正装置的另一个实施例包括：

获取模块701，用于获取待处理的自然语言文本；

预纠正模块702，用于基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本；

序列标注模块703，用于对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型，其中所述标注类型包括正确类、错误起点类和错误内容类；

生成模块704，用于基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本，其中，所述候选字词表包括常用字候选字、常用词候选词和专业词候选词；

输出模块705，用于计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出。

可选的，所述易错词库存储于区块链中，所述预纠正模块702具体用于：

对所述自然语言文本进行分词，得到多个词语；

其中，所述序列标注模块703包括：

分词单元7031，用于以字为单位，对所述第一文本进行分词，得到所述第一文本对应的文本子词；

编码单元7032，用于对所述文本子词进行位置编码，得到所述文本子词的向量；

序列标注单元7033，用于对所述向量对应的文本子词进行序列标注，得到所述文本子词对应的标注类型。

可选的，所述序列标注单元7033具体用于：

可选的，所述候选字词表存储于区块链中，所述生成模块704具体用于：

根据所述候选字词表，确定所述候选错词对应的候选字词；

可选的，所述输出模块705具体用于：

基于预置n-gram语言模型，计算各所述第二文本的困惑度值；

对各所述困惑度值进行大小比较；

将最小困惑度值对应的第二文本作为正确文本输出。

其中，所述错词纠正装置还包括候选字词表模块707，所述候选字词表模块707具体用于：

将所述专业字词库中专业字词进行分词，得到专业子词；

将预置随机字词及所述专业子词的对应的常用字候选字和/或常用词候选词写入所述专业词中，得到专业候选字词；

将所述常用字候选字、常用词候选词和专业候选字词写入预置空白字词表中，得到候选字词表。

在上一实施例基础上，本实施例中预置的候选字词表包括所有汉字的音近字，形近字组成的候选字表，词语的拼音或模糊音相同的候选常用词表以及通过候选常用词和候选字表随机组合形成的专业词表，因此通过本方法可以对自然语言中的专业词，生僻字错误进行很好的纠正。此外序列标注过程中会获得每个文本子词在不同的标注类型下的分数，可以通过对分数阈值的设置，灵活地调整本方法对错词的灵敏度，从而增加了对不同应用场景的适用性。

上面图6和图7从模块化功能实体的角度对本发明实施例中的错词纠正装置进行详细描述，下面从硬件处理的角度对本发明实施例中错词纠正设备进行详细描述。

图8是本发明实施例提供的一种错词纠正设备的结构示意图，该错词纠正设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对错词纠正设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在错词纠正设备800上执行存储介质830中的一系列指令操作。

基于错词纠正设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的错词纠正设备结构并不构成对基于错词纠正设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述错词纠正方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种错词纠正方法，其特征在于，所述错词纠正方法包括：

获取待处理的自然语言文本；

2.根据权利要求1所述的错词纠正方法，其特征在于，所述易错词库存储于区块链中，所述基于网页爬取生成的易错词库，对所述自然语言文本进行预纠正，得到第一文本包括：

对所述自然语言文本进行分词，得到多个词语；

3.根据权利要求1所述的错词纠正方法，其特征在于，所述对所述第一文本进行分词和序列标注，得到文本子词和对应的标注类型包括：

对所述文本子词进行位置编码，得到所述文本子词的向量；

4.根据权利要求3所述的错词纠正方法，其特征在于，所述对所述向量对应的文本子词进行序列标注，得到所述文本子词对应的标注类型包括：

5.根据权利要求1所述的错词纠正方法，其特征在于，所述候选字词表存储于区块链中，所述基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词依次写入所述第一文本中的对应位置，分别得到对应的第二文本包括：

根据所述候选字词表，确定所述候选错词对应的候选字词；

6.根据权利要求1所述的错词纠正方法，其特征在于，所述计算各所述第二文本的困惑度值并相互进行大小比较，将最小困惑度值对应的第二文本作为正确文本输出包括：

基于预置n-gram语言模型，计算各所述第二文本的困惑度值；

对各所述困惑度值进行大小比较；

将最小困惑度值对应的第二文本作为正确文本输出。

7.根据权利要求1-6中任一所述的错词纠正方法，其特征在于，在所述基于预置候选字词表，生成所述错误起点类和所述错误内容类的文本子词对应的备选字词，并将所述备选字词写入所述第一文本中对应的位置，得到第二文本之前，还包括：

将所述专业字词库中专业词进行分词，得到专业词子词；

8.一种错词纠正装置，其特征在于，所述错词纠正装置包括：

获取模块，用于获取待处理的自然语言文本；

9.一种错词纠正设备，其特征在于，所述错词纠正设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述错词纠正设备执行如权利要求1-7中任一项所述的错词纠正方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的错词纠正方法。