CN111523532A

CN111523532A - 一种矫正ocr文字识别错误的方法及终端设备

Info

Publication number: CN111523532A
Application number: CN202010292411.8A
Authority: CN
Inventors: 祁健升
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11

Abstract

本发明实施例公开了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质，用于基于第一英文单词识别结果，先利用OCR加权编辑距离算法进行相似单词的筛选，然后通过语句通顺度模型输出矫正后的英文单词，从而提升OCR准确率，为用户在使用指尖查单词中提供更精准的单词识别结果。本发明实施例方法包括：对图片进行英文OCR处理，得到第一英文单词识别结果；对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

Description

一种矫正OCR文字识别错误的方法及终端设备

技术领域

本发明涉及教育技术领域，尤其涉及一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质。

背景技术

在现有技术中，通过OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件。软件可以把图片转换成可以编辑的文字。但是，在现有的识别技术中，英语OCR识别出图片中的英文单词并不通过任何检测判断是否OCR正确逻辑将结果呈现给用户，所以，存在OCR准确率低等缺点。

发明内容

本发明实施例提供了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质，用于基于第一英文单词识别结果，先利用OCR加权编辑距离算法进行相似单词的筛选，然后通过语句通顺度模型输出矫正后的英文单词，从而提升OCR准确率，为用户在使用指尖查单词中提供更精准的单词识别结果。

有鉴于此，本发明第一方面提供了一种矫正OCR文字识别错误的方法，可以包括：

对图片进行英文OCR处理，得到第一英文单词识别结果；

对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；

将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；

将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

可选的，在本发明的一些实施例中，所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；

其中，所述拼写检查模型包括预先编辑的N-gram表，所述第一英文单词识别结果包括英文单词输入串；

所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，包括：

对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；

若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词；

其中，所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种；

所述得到与所述错误单词对应的候选正确单词，包括：

使用所述编辑距离校正方法和OCR距离校正方法中的至少一种，计算得到与所述错误单词对应的候选正确单词。

可选的，在本发明的一些实施例中，所述对图片进行英文OCR处理，得到第一英文单词识别结果，包括：

当所述图片为非英文图片时，将所述非英文图片中的非英文翻译成英文；

获取包括所述英文的图片；

对包括所述英文的图片进行英文OCR处理，得到所述第一英文单词识别结果。

可选的，在本发明的一些实施例中，所述方法还包括：

对所述第二英文单词识别结果与标准单词识别结果进行匹配；

确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例；

若所述比例为百分百，则确定所述第二英文单词识别结果完全准确，生成并输出第一提示信息，所述第一提示信息包括所述第二英文单词识别结果完全准确的指示信息；

若所述比例大于第一阈值小于百分百，则确定所述第二英文单词识别结果为高准确率，生成并输出第二提示信息，所述第二提示信息包括所述第二英文单词识别结果为高准确率但不完全准确的指示信息；

若所述比例大于第二阈值小于所述第一阈值，则确定所述第二英文单词识别结果为中准确率，生成并输出第三提示信息，所述第三提示信息包括所述第二英文单词识别结果为中准确率，以及是否需要重新进行OCR文字识别的指示信息；

若所述比例小于所述第二阈值，则确定所述第二英文单词识别结果为低准确率，生成并输出第四提示信息，所述第四提示信息包括所述第二英文单词识别结果为高准确率，以及需要重新进行OCR文字识别的指示信息。

可选的，在本发明的一些实施例中，所述输出第二英文单词识别结果，包括：

通过语音播放的方式，输出所述第二英文单词识别结果；或者，

通过屏幕显示的方式，输出所述第二英文单词识别结果；或者，

通过投影显示的方式，输出所述第二英文单词识别结果；或者，

通过投影显示和语音播放的方式，输出所述第二英文单词识别结果；或者，

通过屏幕显示和语音播放的方式，输出所述第二英文单词识别结果。

可选的，在本发明的一些实施例中，所述通过语音播放的方式，输出所述第二英文单词识别结果，包括：

监听所述用户在点读过程中的环境音；

判断所述环境音是否大于预置阈值；

若大于，则检测终端设备是否连接无线耳机；

若连接，则通过所述无线耳机输出所述第二英文单词识别结果。

本发明实施例第二方面提供一种终端设备，可以包括：

识别模块，用于对图片进行英文OCR处理，得到第一英文单词识别结果；

确定模块，用于对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；

输出模块，用于将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

所述确定模块，具体用于对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词；

所述确定模块，具体用于使用所述编辑距离校正方法和OCR距离校正方法中的至少一种，计算得到与所述错误单词对应的候选正确单词。

可选的，在本发明的一些实施例中，

所述识别模块，具体用于当所述图片为非英文图片时，将所述非英文图片中的非英文翻译成英文；获取包括所述英文的图片；对包括所述英文的图片进行英文OCR处理，得到所述第一英文单词识别结果。

可选的，在本发明的一些实施例中，

所述确定模块，还用于对所述第二英文单词识别结果与标准单词识别结果进行匹配；确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例；

可选的，在本发明的一些实施例中，

所述输出模块，具体用于通过语音播放的方式，输出所述第二英文单词识别结果；或者，

所述输出模块，具体用于通过屏幕显示的方式，输出所述第二英文单词识别结果；或者，

所述输出模块，具体用于通过投影显示的方式，输出所述第二英文单词识别结果；或者，

所述输出模块，具体用于通过投影显示和语音播放的方式，输出所述第二英文单词识别结果；或者，

所述输出模块，具体用于通过屏幕显示和语音播放的方式，输出所述第二英文单词识别结果。

可选的，在本发明的一些实施例中，

所述输出模块，具体用于监听所述用户在点读过程中的环境音；判断所述环境音是否大于预置阈值；若大于，则检测终端设备是否连接无线耳机；若连接，则通过所述无线耳机输出所述第二英文单词识别结果。

本发明第三方面提供一种终端设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行如本发明第一方面及第一方面任一可选实现方式中所述的矫正OCR文字识别错误的方法的步骤。

本发明实施例第四方面提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面及第一方面任一可选实现方式中所述的矫正OCR文字识别错误的方法的步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的任意一种矫正OCR文字识别错误的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的任意一种矫正OCR文字识别错误的方法的部分或全部步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，对图片进行英文OCR处理，得到第一英文单词识别结果；对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。可以基于第一英文单词识别结果，先利用OCR加权编辑距离算法进行相似单词的筛选，然后通过语句通顺度模型输出矫正后的英文单词，从而提升OCR准确率，为用户在使用指尖查单词中提供更精准的单词识别结果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，还可以根据这些附图获得其它的附图。

图1为本发明实施例中矫正OCR文字识别错误的方法的一个实施例示意图；

图2为本发明实施例中矫正OCR文字识别错误的方法的另一个实施例示意图；

图3为本发明实施例中终端设备的一个实施例示意图；

图4为本发明实施例中终端设备的另一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，都应当属于本发明保护的范围。

在本发明实施例中，示例性的，终端设备可以包括一般的手持电子终端，诸如智能电话、便携式终端、终端、个人数字助理(Personal Digital Assistant，PDA)、便携式多媒体播放器(Personal Media Player，PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband，Wibro)终端、平板电脑(personal computer，PC)和智能PC。本申请还可应用于非便携式电子装置，诸如提供相机功能的智能电视。

终端设备也可以包括可穿戴设备。可穿戴设备即可以直接穿戴在用户身上，或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备，更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能，比如：计算功能、定位功能、报警功能，同时还可以连接手机及各类终端。可穿戴设备可以包括但不限于以手腕为支撑的watch类(比如手表、手腕等产品)，以脚为支撑的shoes类(比如鞋、袜子或者其他腿上佩戴产品)，以头部为支撑的Glass类(比如眼镜、头盔、头带等)以及智能服装，书包、拐杖、配饰等各类非主流产品形态。

下面以实施例的方式对本发明技术方案做进一步的说明，如图1所示，为本发明实施例中矫正OCR文字识别错误的方法的一个实施例示意图，可以包括：

101、对图片进行英文OCR处理，得到第一英文单词识别结果。

终端设备对图片进行英文OCR处理，得到第一英文单词识别结果，可以包括：当所述图片为非英文图片时，将所述非英文图片中的非英文翻译成英文；获取包括所述英文的图片；对包括所述英文的图片进行英文OCR处理，得到所述第一英文单词识别结果。

即可以理解的是，当该图片为英文图片时，可以直接对该图片进行英文OCR处理，得到第一英文单词识别结果。如果该图片是非英文单词时，可以进行对应的非英文OCR处理，得到对应的非英文，再将对应的非英文翻译为英文，然后可以得到包括该英文的图片，对包括该英文的图片进行英文OCR处理，得到所述第一英文单词识别结果。

示例性的，从非英文翻译为英文，再得到包括该英文的图片可以是通过触发相应的控件，将翻译的英文截图，也可以是通过摄像头对翻译的英文进行拍照，也可以是其他的方式，得到包括该英文的图片，具体此处不做限定。

102、对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词。

终端设备可以对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词。其中，如果错误单词的个数为多个，那么对每个错误单词都会对应得到候选正确单词。候选正确单词的个数可以为一个或多个。

需要说明的是，OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；其中，所述拼写检查模型包括预先编辑的N-gram表，所述第一英文单词识别结果包括英文单词输入串；所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，可以包括：对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词。

示例性的，对于输入串中的每个n元串(n一般取2或3)，在事先编辑好的一个N-gram表中查找，看他是否在该表中存在，以及在该表中出现的频率，如果不存在，或者出现的频率小于预设阈值，则可以确定该n元串是可能的拼写错误。

其中，所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种；所述得到与所述错误单词对应的候选正确单词，可以包括：使用所述编辑距离校正方法和OCR距离校正方法中的至少一种，计算得到与所述错误单词对应的候选正确单词。

示例性的，编辑距离校正方法就是将一个单词经过增、删、改的操作转化为另一个单词所要的最少操作次数，编辑距离不考虑“输入方式”产生错误的可能性大小，而将每次改变的权值定为1。即编辑距离校正方法中涉及的编辑距离，主要是指字符串P和W之间的编辑距离，即由P变换到W所需要的最少编辑操作数目。

令P和W的长度分别为n和m，计算P和W的编辑距离ed(P，W)的过程就是给一个n行m列的矩阵edit赋值的过程。edit矩阵赋值过程如下：

edit(0，0)＝0

edit(i，0)＝i

edit(0，j)＝j

edit(i，j)＝min(edit(i-1，j)+2，edit(i，j-1)+2)，edit(i-1，j-1)+ed(Pi，Wj)

其中，Pi和Wj分别表示P的第i个字符和W的第j个字符。若Pi＝Wj，则ed(Pi，Wj)＝0，否则ed(Pi，Wj)＝1。该算法的时间复杂度和空间复杂度均为O(n×m)，算法执行结束后，edit矩阵第n行第m列元素值即为P与W的编辑距离。

示例性的，OCR距离校正方法，因为在OCR识别较易产生的拼写错误和正确词之间的距离，称为OCR-Distance，它是对编辑距离的修正，并且应当比编辑距离小。OCR-Distance定义如下：

令P和W的长度分别为n和m，计算P和W的OCR-Distance od(P，W)的过程就是给一个n行m列的矩阵OCRD赋值的过程。OCRD赋值的过程如下：

OCRD(0，0)＝0

OCRD(i，0)＝i*2

OCRD(0，j)＝j*2

OCRD(i，j)＝min(OCRD(i-1，j)+2，OCRD(i，j-1)+2)，OCRD(i-1，j-1)+od(Pi，Wj)

而对于od(Pi，Wj)函数，除了考虑Pi，Wj是否相等外，加入如下判断规则：

如果Pi＝～并且Pi-1＝Wi-1，Pi+1＝Wi+1，则od(Pi，Wj)为1.5；

如果(Pi，Pi+1…)和(Wj，Wj+1)满足预先定义的OCR替换规则，则替换位置处的od(Pi，Wj)为1；其中，OCR替换规则是基于光学扫描识别易出现错误的替换规则。

如果被替换的是多个字母，则被替换的每一个od(Pi+k，Wj+1)值都为0。

执行完成后，OCRD(n，m)就是OCR-Distance。

对于校比对范围内的每一个词，计算OCR-Distance，并按照从小到大的次序排列，最终排在队列最前面的词就是选中的候选词，即候选正确单词。

103、将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词。

终端设备将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词。即终端设备可以从多个候选正确单词中，通过语句通顺度模型，确定出目标正确单词。

可以理解的是，语句通顺度模型例如为N-gram，N-gram是自然语言处理中常见一种基于统计的语言模型。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进行比对可以得到所给语句中每个gram出现的概率。N-gram在判断句子合理性、句子相似度比较、分词等方面有突出的表现。

N-gram是一种语言模型N-gram模型是一种语言模型(Language Model，LM)，语言模型是一个基于概率的判别模型，它的输入是一句话(单词的顺序序列)，输出是这句话的概率，即这些单词的联合概率(joint probability)。

比如：假设你在和一个外国人交流，他说了一句“I have a gun”,但是由于他的发音不标准，到你耳朵里可能是“I have a gun”、“I have a gull”或“I have a gub”。那么哪句话是正确的呢？。假设你根据经验觉得有80％的概率是“I have a gun”，那么你已经得到一个N-gram的输出。即：P(****I have a gun)＝80％。

N-gram本身也指一个由N个单词组成的集合，各单词具有先后顺序，且不要求单词之间互不相同。常用的有Bi-gram(N＝2)和Tri-gram(N＝3)，一般已经够用了。例如在“Ilove deep learning”这句话里，可以分解的**Bi-gram**和Tri-gram：

**Bi-gram:{I,love},{love,deep},{love,deep},{deep,learning}

Tri-gram:**{I,love,deep},{love,deep,learning}

104、将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

终端设备将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。其中，输出第二英文单词识别结果，可以包括但不限于以下实现方式：通过语音播放的方式，输出所述第二英文单词识别结果；或者，通过屏幕显示的方式，输出所述第二英文单词识别结果；或者，通过投影显示的方式，输出所述第二英文单词识别结果；或者，通过投影显示和语音播放的方式，输出所述第二英文单词识别结果；或者，通过屏幕显示和语音播放的方式，输出所述第二英文单词识别结果。

可选的，所述通过语音播放的方式，输出所述第二英文单词识别结果，包括：监听所述用户在点读过程中的环境音；判断所述环境音是否大于预置阈值；若大于，则检测终端设备是否连接无线耳机；若连接，则通过所述无线耳机输出所述第二英文单词识别结果。

可以理解的是，终端设备可以检测是否连接无线耳机，因为环境音如果太大的话，通过终端设备的扬声器播放的话，播放的效果不好，用户可能听不清楚。所以，如果终端设备判断环境音大于预置阈值的话，可以检测是否连接无线耳机。若连接，则终端设备可以通过所述无线耳机播放第二英文单词识别结果，这样的话，用户听到的内容很清晰，提高了用户学习的效率。

可选的，在本发明的一些实施例中，终端设备剔除音量小于第二预设音量阈值的环境音，得到删除后的环境音。终端设备判断所述删除后的环境音是否大于预置阈值；若大于，则终端设备检测终端设备是否连接无线耳机；若连接，则终端设备通过所述无线耳机播放第二英文单词识别结果。

如图2所示，为本发明实施例中矫正OCR文字识别错误的方法的另一个实施例示意图，可以包括：

201、对图片进行英文OCR处理，得到第一英文单词识别结果。

202、对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词。

203、将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词。

204、将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

需要说明的是，本发明实施例中的步骤201-204与图1所示实施例中的步骤101-104类似，此处不再赘述。

205、对所述第二英文单词识别结果与标准单词识别结果进行匹配；确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例。

示例性的，研发者在投入市场之前，需要对该矫正OCR文字识别错误的方法进行准确率的判定，所以，可以预先获取标准单词识别结果，然后，将第二英文单词识别结果与该标准单词识别结果进行匹配。其中，可以理解的是，第二英文单词识别结果为顺序，那么标准单词识别结果也为顺序时，才可以匹配，如果第二英文单词识别结果为倒序，那么，标准单词识别结果也为倒序时，才可以匹配。终端设备结果可以根据第二英文单词识别结果和标准单词识别结果的匹配结果，来确定该匹配结果中相同单词的比例。

206、若所述比例为百分百，则确定所述第二英文单词识别结果完全准确，生成并输出第一提示信息，所述第一提示信息包括所述第二英文单词识别结果完全准确的指示信息。

207、若所述比例大于第一阈值小于百分百，则确定所述第二英文单词识别结果为高准确率，生成并输出第二提示信息，所述第二提示信息包括所述第二英文单词识别结果为高准确率但不完全准确的指示信息。

208、若所述比例大于第二阈值小于所述第一阈值，则确定所述第二英文单词识别结果为中准确率，生成并输出第三提示信息，所述第三提示信息包括所述第二英文单词识别结果为中准确率，以及是否需要重新进行OCR文字识别的指示信息。

209、若所述比例小于所述第二阈值，则确定所述第二英文单词识别结果为低准确率，生成并输出第四提示信息，所述第四提示信息包括所述第二英文单词识别结果为高准确率，以及需要重新进行OCR文字识别的指示信息。

其中，上述输出第一提示信息、第二提示信息、第三提示信息或者第四提示信息的方式，可以参考前文中输出第二英文单词识别结果中可实现方式的描述，此处不再赘述。

需要说明的是，步骤206-209是并列的几个步骤，并没有时序的限定。

可选的，在本发明的一些实施例中，当所述第二英文识别结果指示为目标位置时，可以推荐周围相关的目标位置；展示关于到目标位置的路线、时长等。

示例性的，当所述第二英文识别结果指示为银行时，可以推荐周围相关的银行；当所述第二英文识别结果指示为美食时，可以推荐周围相关的景点；当所述第二英文识别结果指示为酒店时，可以推荐周围相关的酒店；当所述第二英文识别结果指示为加油站时，可以推荐周围相关的加油站；当所述第二英文识别结果指示为商场时，可以推荐周围相关的商场；当所述第二英文识别结果指示为超市时，可以推荐周围相关的超市；当所述第二英文识别结果指示为公园时，可以推荐周围相关的公园；当所述第二英文识别结果指示为地铁站时，可以推荐周围相关的地铁站；当所述第二英文识别结果指示为电影院时，可以推荐周围相关的电影院。

可选的，在本发明的一些实施例中，若所述第二英文单词识别结果为积极向上的语言，将所述第二英文单词识别结果作为屏幕保护、应用程序背景图等方式进行显示。

可选的，在本发明的一些实施例中，将所述第二英文单词识别结果添加至学习软件，供用户学习。

可选的，在本发明的一些实施例中，响应用户在所述第二英文单词识别结果中输入的标注操作，将目标英文单词识别结果进行备注保存，或者，显示所述目标英文单词的中文释义、关联语句、语法等信息。

如图3所示，为本发明实施例中终端设备的一个实施例示意图，可以包括：

识别模块301，用于对图片进行英文OCR处理，得到第一英文单词识别结果；

确定模块302，用于对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；

输出模块303，用于将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

确定模块302，具体用于对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词；

确定模块302，具体用于使用所述编辑距离校正方法和OCR距离校正方法中的至少一种，计算得到与所述错误单词对应的候选正确单词。

可选的，在本发明的一些实施例中，

识别模块301，具体用于当所述图片为非英文图片时，将所述非英文图片中的非英文翻译成英文；获取包括所述英文的图片；对包括所述英文的图片进行英文OCR处理，得到所述第一英文单词识别结果。

可选的，在本发明的一些实施例中，

确定模块302，还用于对所述第二英文单词识别结果与标准单词识别结果进行匹配；确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例；

可选的，在本发明的一些实施例中，

输出模块303，具体用于通过语音播放的方式，输出所述第二英文单词识别结果；或者，

输出模块303，具体用于通过屏幕显示的方式，输出所述第二英文单词识别结果；或者，

输出模块303，具体用于通过投影显示的方式，输出所述第二英文单词识别结果；或者，

输出模块303，具体用于通过投影显示和语音播放的方式，输出所述第二英文单词识别结果；或者，

输出模块303，具体用于通过屏幕显示和语音播放的方式，输出所述第二英文单词识别结果。

可选的，在本发明的一些实施例中，

输出模块303，具体用于监听所述用户在点读过程中的环境音；判断所述环境音是否大于预置阈值；若大于，则检测终端设备是否连接无线耳机；若连接，则通过所述无线耳机输出所述第二英文单词识别结果。

如图4所示，为本发明实施例中终端设备的另一个实施例示意图，可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的所述可执行程序代码，用于执行如下步骤：

对图片进行英文OCR处理，得到第一英文单词识别结果；

可选的，在本发明的一些实施例中，所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；其中，所述拼写检查模型包括预先编辑的N-gram表，所述第一英文单词识别结果包括英文单词输入串；其中，所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种；

处理器402调用存储器401中存储的所述可执行程序代码，还用于执行如下步骤：

对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词；

可选的，在本发明的一些实施例中，处理器402调用存储器401中存储的所述可执行程序代码，还用于执行如下步骤：

获取包括所述英文的图片；

监听所述用户在点读过程中的环境音；

判断所述环境音是否大于预置阈值；

若大于，则检测终端设备是否连接无线耳机；

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种矫正OCR文字识别错误的方法，其特征在于，包括：

对图片进行英文OCR处理，得到第一英文单词识别结果；

2.根据权利要求1所述的方法，其特征在于，所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；

所述得到与所述错误单词对应的候选正确单词，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对图片进行英文OCR处理，得到第一英文单词识别结果，包括：

获取包括所述英文的图片；

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述输出第二英文单词识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过语音播放的方式，输出所述第二英文单词识别结果，包括：

监听所述用户在点读过程中的环境音；

判断所述环境音是否大于预置阈值；

若大于，则检测终端设备是否连接无线耳机；

7.一种终端设备，其特征在于，包括：

8.根据权利要求7所述的终端设备，其特征在于，所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；

9.根据权利要求7或8所述的终端设备，其特征在于，

10.根据权利要求7或8所述的终端设备，其特征在于，

11.根据权利要求7或8所述的终端设备，其特征在于，

12.根据权利要求7或8所述的终端设备，其特征在于，