CN103390155B

CN103390155B - 一种图文识别方法及图文识别装置

Info

Publication number: CN103390155B
Application number: CN201210146093.XA
Authority: CN
Inventors: 陈波; 王冬; 黄橙蓝; 饶丰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2012-05-11
Filing date: 2012-05-11
Publication date: 2017-05-17
Anticipated expiration: 2032-05-11
Also published as: CN103390155A

Abstract

本发明涉及一种图文识别方法，其包括：在显示屏中显示一个画面；在该画面上方显示第一指标；针对该画面以该第一指标处执行图文识别程序；以及当该图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态。上述图文识别方法通过改变第二指标的状态，可以让用户在使用过程中直观的看到文字或者图像识别成功，提升了用户使用体能。另外，本发明还提供一种图文识别装置。

Description

一种图文识别方法及图文识别装置

技术领域

本发明涉及文字/图像识别技术，尤其涉及一种图文识别方法及图文识别装置。

背景技术

当前，各种移动终端及相关应用得到了飞速发展。各种计算机软件也基本迁移到了各种移动平台中。而且结合移动终端的特性，部分移动应用还实现了个人电脑(PC)版本无法实现的功能。例如，现有的PC版本的翻译/字典软件一般可以实现查词、屏幕取词功能。然而，移动版本的翻译软件中，由于移动终端一般配置有一个或多个摄像头，可以方便的利用摄像头拍摄非电子媒介中的文字或者图片，结合光学字符识别(Optical CharacterRecognition，OCR)技术就可以实现实时拍摄并识别功能。

但是，可以理解，移动终端具其局限性，例如尺寸较小硬件性能受到限制，一般都是由用户手持因此稳定性不佳，因此，如何使得移动终端使用方便，最大程度提高用户使用体验就成为移动终端及其应用开发所着重考虑的问题之一。

发明内容

有鉴于此，有必要提供一种能提升用户使用体验的图文识别方法及图文识别装置。

上述的图文识别方法及图文识别装置是通过以下技术方案实现的：

一种图文识别方法，其包括：在显示屏中显示一个画面；在该画面上方显示第一指标；针对该画面以该第一指标处执行图文识别程序；以及当该图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态。

作为上述图文识别方法的进一步改进，其还包括：在该画面上方显示围绕该第一指标的第二指标；以及当该图文识别程序成功识别文字或者图像则调整该第二指标使其轮廓与该文字或者图像匹配。

作为上述图文识别方法的进一步改进，其还包括：显示第三指标；根据用户的操作旋转该第三指标；以及根据该第三指标的角度切换该图文识别程序。

作为上述图文识别方法的进一步改进，该画面是采用摄像装置实时获取的。

作为上述图文识别方法的进一步改进，其还包括：当该图文识别程序成功识别文字或者图像则使该显示屏显示的该画面定格。

作为上述图文识别方法的进一步改进，该图文识别程序为文字识别程序，该文字识别程序包括字符切割步骤，该字符切割步骤中以该第一指标处为中心向两侧进行直至检测到空格。

作为上述图文识别方法的进一步改进，当该图文识别程序未成功识别文字或者图像则重新执行该图文识别程序。

一种图文识别装置，其包括：显示屏，用于显示画面；显示模块，用于在该画面上显示第一指标；图文识别模块，用于对该画面位于该第一指标处进行文字或者图像识别；以及调整模块，用于当该图文识别模块成功识别文字或图像时改变该第一指标的状态。

作为上述图文识别装置的进一步改进，该显示模块还用于在该画面上方显示围绕该第一指标的第二指标，该调整模块还用于当该图文识别程序成功识别文字或者图像则调整该第二指标使其轮廓与该文字或者图像匹配。

作为上述图文识别装置的进一步改进，该显示模块还用于显示第三指标，该调整模块还用于根据用户的操作旋转该第三指标，及根据该第三指标的角度切换该图文识别模块的功能或者接口。

作为上述图文识别装置的进一步改进，该智能终端还包括摄像装置，用于实时获取该画面。

作为上述图文识别装置的进一步改进，其还包括定格模块，用于当该图文识别程序成功识别文字或者图像则使该显示屏显示的该画面定格。

作为上述图文识别装置的进一步改进，该图文识别模块为文字识别模块，该文字识别模块包括字符切割单元，用于以该第一指标处为中心向两侧进行字符切割直至检测到空格。

作为上述图文识别装置的进一步改进，该图文识别模块还用于当该图文识别程序未成功识别文字或者图像则重新执行该图文识别程序。

在上述图文识别方法有图文识别装置中，通过改变第二指标的状态，可以让用户在使用过程中直观的看到文字或者图像识别成功；通过改变第二指标的状态，可以使实时拍摄取词过程具有动感效果；通过字符切割的改进，减少了字符切割及识别的时间；而通第三指标可以方便的实现不同功能或者接口之间的切换。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1为本发明所揭示的一种图文识别方法的流程图。

图2为本发明所揭示的图文识别方法第一实施例的示意图。

图3为本发明所揭示的图文识别方法第一实施例中字符切割流程图。

图4为本发明所揭示的图文识别方法第一实施例的另一示意图。

图5为本发明所揭示的图文识别方法第二实施例的示意图。

图6为本发明所揭示的图文识别方法第三实施例的示意图。

图7为本发明所揭示的图文识别方法第四实施例的示意图。

图8为本发明所揭示的图文识别方法第四实施例的另一示意图。

图9为本发明所揭示的图文识别装置的结构框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的图文识别方法及图文识别装置的具体实施方式、结构、特征及其功效，详细说明如后。

图1为本发明揭示的一种图文识别方法流程图。如图1所示，该方法包括以下步骤：

步骤S101，在显示屏中显示一个画面；

步骤S102，在画面上方显示第一指标；

步骤S103，对画面以第一指标处执行图文识别程序；以及

步骤S104，当图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态。

上述图文识别方法中，当图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态，在用户调整智能终端时可以直观的得知已经准确瞄准要识别的字词或者图像，提升了用户使用体验。

图文识别方法第一实施例

本实施例中，显示屏例如是一个移动智能终端如平板电脑、智能手机的触控显示屏。图2为显示屏显示的一个画面的示意图，此画面的内容例如为存储在移动智能终端内的一篇英文文档的部分内容或者直接使用移动智能终端的摄像装置实时获取的画面。

第一指标110呈类似于眼睛的形状。此外，除第一指标110外，画面中还显示有第二指标120。第二指标120呈环状，而第一指标110位于第二指标120的中心处。用户可以通过触控显示屏移动第一指标110与第二指标120。

本实施例中，由于显示的画面是英文，因此步骤S103中需要启动英文单词识别程序。参阅图3，一般来说，文字识别程序，无论是针对英文还是中文，其具体可包括以下步骤：

步骤S131，对显示的画面进行二值化操作以得二值化后的图像；

步骤S132，根据二值化后的图像进行聚类版面分析，此步骤的作用是主要用于完成文档图像中的文字域、表格域、图形、图像域分割工作；

步骤S133，针对文字域，进行行提取分析切分操作，此步骤的作用主要是用于将文字域拆分为多行；

步骤S134，中心行确定，具体地，定位第一指示110所在的行为中心行；

步骤S135，对中心行进行文字识别程序。

以上针对文字识别程序的描述仅为其大体流程，其具体算法属于OCR技术领域所熟知的内容，在此不再赘述。

如图4所示，当步骤S103中成功识别英文单词“programming”时在下方显示英汉字典结果130。此外，相比于图3，将第一指标110的状态，从而变成图4中的第一指标110a。此处的状态可以是指第一指标的颜色、大小、图案等。例如，在图2所示的状态中，第一指标110为空心的图案，而图4中，则变成蓝色、绿色等颜色部分或全部填充的图案。可以理解，以上方式仅为示例，任意前后有较明显差异的方式均可用于区分第一指标110与110a本实施例中。

此外，当显示的画面是摄像装置实时获取的并且上述图文识别程序成功完成识别后还可将显示的画面定格，以防止画面晃动；反之，当显示的画面是摄像装置实时获取的但并未成功识别时则需要重新执行图文识别程序。

本实施例的图文识别方法中，当图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态，在用户调整智能终端时可以直观的得知已经准确瞄准要识别的字词或者图像，提升了用户使用体验。

图文识别方法第二实施例

第二实施例的图文识别方法与第一实施例相似，其不同之处在于当步骤S103中成功识别英文单词“programming”时除了改变第一指标110的状态外还改变第二指标120的状态。如图5所示，调整第二指标120的大小使其轮廓与英文单词“programming”相匹配。换言之，第二指标120变为第二指标120a，而“programming”恰好被框在第二指标120a内。从图4到图5的状态变化过程可以是渐变的，当然此渐变过程可以在一个较短的时间例如0.5秒内进行，从而使用户具有英文单词“programming”被定位的动态感觉，进一步提升用户使用体验。

可以理解，上述轮廓与英文单词“programming”相匹配仍然依赖于第二指标120的形状。例如，当第二指标120为圆形时，使其直径约大于英文单词“programming”的长度并使“programming”恰好被框在第二指标120a内即可，值得注意的是，此时第二指标120顶部及底部与“programming”仍然相距一定距离。当第二指标120呈矩形时，其轮廓可以最大程度的匹配“programming”。

图文识别方法第三实施例

第三实施例的图文识别方法与第一实施例相似，其不同之处在于针对步骤103中的文字识别程序作进一步优化。

可以理解，在OCR识别算法中，一个重要的过程就是进行字符切割，将代表一行文字的图像拆分成多个字符的图像。如图6所示，本实施例中，字符切割步骤是以第一指标110(a)为中心向两侧进行。对于具有分隔符的文字例如英文或者其他拉丁语系来说，位于两个空格之间的一个或多个字符构成一个单词，因此识别出空格即得到单词的边界，亦即上述字符切割步骤进行到检测空格为止。然而对于无分隔符的语言例如中文则无法通过分隔符区分词组的边界，此时可以预先确定字符长度k，字符切割步骤仅针对以第一指标110(a)为中心距离-k到k之间的字符，此时得到的字符数为2k+1，k可由经验或者统计规则确定，一般来说中文词组字符数不会超过7，例如可以确定k为7。

本实施例中，字符切割引擎检测到了‘p’–‘g’等共11个字符，值得注意的是，此时字符仍未被识别，上述‘p’、‘g’仅为标识，切割后的字符可以传递给字符识别模块进行识别。识别后的字符串可以送入词典中查询。

当待识别的文字为中文时，还需要针对识别后的2k+1个字符进行词组匹配，其具体过程如下：

步骤一、以第一指标110(a)指向的字符为中心，设为index＝0；

步骤二、从index＝-k的位置开始遍历，将长度为N的单词送入词典中验证，N从k-index到2递减，如果发现单词则跳出。

步骤三、index加1，重复步骤二的操作，直到index＝0跳出。

通过此词组匹配步骤可能匹配得到多个单词，可以选出其中最靠近第一指标110(a)输出。

可以看出，本实施例的字符切割步骤仅针对要识别的单词或者预定距离范围内的字符，减少了字符切割的时间，并且降低了字符识别的字符个数，从而减少了识别时间。

图文识别方法第四实施例

第四实施例的图文识别方法与第一实施例相似，如图7所示，其不同之处在于除了第一指标110、第二指标120外，还显示第三指标130。第三指标130呈弧状，位于显示屏的底部，其可包括多个子指标，每个子指标代表一项功能，第三指标130位于屏幕中间部位的子指标表示当前功能。例如图7中相机状图案表示当前功能为实时拍摄取词，在此状态下，步骤S103启动的就是文字识别程序。

用户可以通过点击激活第三指标130，然后通过旋转操作转转动第三指标130。对比图7与图8，将第三指标130逆时针方向转动后即可将当前功能切换，例如，切换至图8中所示的明星脸识别功能，在此状态下，步骤S103中启动的就是人脸识别程序。

此外，根据当前活动的子指标的不同，还可改变第二指标120的形状，例如将第二指标120改变为人脸形状。

本实施例的图文识别方法中，通过第三指标130可以方便的实现不同功能之间的便利切换。

图9为本发明所揭示的一种图文识别装置的结构框图。如图1所示，图文识别装置600包括处理器60、显示屏61及摄像装置62。在具体实现上，图文识别装置600例如可为台式电脑、笔记本电脑、平板电脑、智能手机等。显示屏61例如可为触控式液晶显示屏。摄像装置62例如可为相机模组。

处理器60包括显示模块610、图文识别模块620、调整模块630、及定格模块640。

显示模块610用于在显示屏61中显示一画面，在该画面上方显示第一指标、围绕第一指标的第二指标及第三指标。上述画面可以是摄像装置62实时获取的，或者源自图文识别装置600内的文档。

图文识别模块620用于对画面位于第一指标处进行文字或者图像识别。用于识别文字时，图文识别模块620可为文字识别模块，该文字识别模块包括字符切割单元，用于以该第一指标处为中心向两侧进行直至检测到空格从而完成字符切割。当画面是摄像装置62实时获取时，如果图文识别模块620没有成功识别文字或者图像，图文识别模块620可以立刻或间隔一时间后再次进行图文识别程序。

调整模块630用于当图文识别模块620成功识别文字或图像时改变该第一指标的状态及改变第二指标的状态，用于当图文识别模块620成功识别文字或者图像则调整第二指标使其轮廓与被识别的文字或者图像匹配，用于根据用户的操作旋转第三指标，及根据该第三指标的角度切换该图文识别模块620的功能或者接口。改变第一指标的状态例如是指改变第一指标的颜色，填充图案等；改变第二指标的状态例如是指改变第二指标的轮廓使其与被识别的文字或者图像匹配。

定格模块640用于当图文识别模块620成功识别文字或者图像则使该显示屏61显示的画面定格以防止画面晃动。

本实施例的图文识别装置100中，通过改变第二指标的状态，可以让用户在使用过程中直观的看到文字或者图像识别成功；通过改变第二指标的状态，可以使实时拍摄取词过程具有动感效果；通过字符切割单元的改进，减少了字符切割及识别的时间；而通第三指标可以方便的实现不同功能或者接口之间的切换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种图文识别方法，其特征在于包括：

在显示屏中显示一个画面；

在该画面上方显示第一指标，该第一指标通过在该画面上移动以选择需要被识别的文字或者图像；

针对该画面以该第一指标处执行图文识别程序，其中，该图文识别程序为文字识别程序，该文字识别程序包括字符切割步骤，该字符切割步骤中以该第一指标处为中心向两侧进行直至检测到空格；以及

当该图文识别程序成功识别文字或者图像则显示识别结果并改变该第一指标的状态；其中，

所述图文识别方法还包括：

在该画面上方显示围绕该第一指标的第二指标；以及

当该图文识别程序成功识别文字或者图像则调整该第二指标使其轮廓与该文字或者图像匹配。

2.如权利要求1所述的图文识别方法，其特征在于，还包括：

显示第三指标；

根据用户的操作旋转该第三指标；以及

根据该第三指标的角度切换该图文识别程序。

3.如权利要求1所述的图文识别方法，其特征在于，该画面是采用摄像装置实时获取的。

4.如权利要求3所述的图文识别方法，其特征在于，还包括：当该图文识别程序成功识别文字或者图像则使该显示屏显示的该画面定格。

5.如权利要求1所述的图文识别方法，其特征在于，当该图文识别程序未成功识别文字或者图像则重新执行该图文识别程序。

6.一种图文识别装置，其特征在于包括：

显示屏，用于显示画面；

显示模块，用于在该画面上显示第一指标，该第一指标通过在该画面上移动以选择需要被识别的文字或者图像；

图文识别模块，用于对该画面位于该第一指标处进行文字或者图像识别，其中，该图文识别模块为文字识别模块，该文字识别模块包括字符切割单元，用于以该第一指标处为中心向两侧进行字符切割直至检测到空格；以及

调整模块，用于当该图文识别模块成功识别文字或图像时改变该第一指标的状态；其中，

该显示模块还用于在该画面上方显示围绕该第一指标的第二指标，该调整模块还用于当该图文识别程序成功识别文字或者图像则调整该第二指标使其轮廓与该文字或者图像匹配。

7.如权利要求6所述的图文识别装置，其特征在于，该显示模块还用于显示第三指标，该调整模块还用于根据用户的操作旋转该第三指标，及根据该第三指标的角度切换该图文识别模块的功能或者接口。

8.如权利要求6所述的图文识别装置，其特征在于，该图文识别装置还包括摄像装置，用于实时获取该画面。

9.如权利要求8所述的图文识别装置，其特征在于，还包括：

定格模块，用于当该图文识别程序成功识别文字或者图像则使该显示屏显示的该画面定格。

10.如权利要求6所述的图文识别装置，其特征在于，该图文识别模块还用于当该图文识别程序未成功识别文字或者图像则重新执行该图文识别程序。