CN202093528U

CN202093528U - 基于手势动作的字符识别系统及翻译系统

Info

Publication number: CN202093528U
Application number: CN2011200990662U
Authority: CN
Inventors: 马磊
Original assignee: LUOYANG LEISHI SOFTWARE TECHNOLOGY Co Ltd
Current assignee: LUOYANG LEISHI SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2011-04-01
Filing date: 2011-04-01
Publication date: 2011-12-28
Anticipated expiration: 2021-04-01

Abstract

本实用新型是有关于一种基于手势动作的字符识别系统及翻译系统。其中的基于手势动作的字符识别系统具体包括：摄像模块、显示模块、检测模块、区域模块、以及识别模块。摄取图像的摄像模块与显示所述图像的显示模块连接；所述检测模块与所述区域模块连接，所述检测模块输出检测到的用户在所述显示的图像上的手势动作信息；所述区域模块接收所述检测模块输出的手势动作信息，并输出所述手势动作信息对应的用户关注的文字所在的区域；所述识别模块接收所述区域模块输出的区域，并输出所述区域内的图像的光学字符识别后获得的文本格式的字符。本实用新型提供的技术方案能够方便快捷准确的实现字符识别，有利于字符识别应用的推广，非常适于实用。

Description

基于手势动作的字符识别系统及翻译系统

技术领域

本实用新型涉及一种字符识别技术，特别是涉及一种针对摄像装置摄取的图像的基于手势动作的字符识别系统及翻译系统。

背景技术

目前，针对摄像装置摄取的图像进行字符识别的方法通常为：先利用移动电话等具有摄像装置的便携式电子终端设备摄取图像，其次，将摄取到的图像以图片的形式传输给服务器，服务器利用结构分析(LayoutAnalysis)模块对接收到的图片进行分析，以提取图片中的字符，之后服务器可以对提取出的字符进行翻译等处理，并将处理结果返回给电子终端设备。

发明人在实现本实用新型过程中发现：在网络带宽有限的情况下，电子终端设备向服务器发送图片的时间会较长，从而使该应用存在体验较差的问题，不利于推广应用。另外，不论是否将摄取的图片发送给服务器，即不论是由电子终端设备自身对图片进行字符识别处理，还是由服务器对图片进行字符识别处理，利用结构分析模块从整个图片中分析出字符不但存在计算时间较长、容易出现分析错误的现象，而且，针对一些画面复杂的图片，基本上没有办法识别出字符。另外，用户关注的内容也许仅仅是图片中的部分内容，如个别的单词或者某个电话等，而对整个图片进行字符分析无疑会造成资源的浪费。

有鉴于上述现有的字符识别方法存在的缺陷，本发明人基于从事此类产品设计制造多年丰富的实务经验及专业知识，并配合学理的运用，积极加以研究创新，以期创设一种新的基于手势动作的字符识别装置及翻译系统，能够克服现有的字符识别方法存在的问题，使其更具有实用性。经过不断的研究、设计，经过反复试作样品及改进后，终于创设出确具实用价值的本实用新型。

实用新型内容

本实用新型的目的在于，克服现有的字符识别方法存在的缺陷，而提供一种新的基于手势动作的字符识别系统及翻译系统，所要解决的技术问题是，使字符的识别过程更加快捷，有利于字符识别应用的推广，非常适于实用。

本实用新型的目的以及解决其技术问题可以采用以下的技术方案来实现。

依据本实用新型提出的一种基于手势动作的字符识别系统，所述系统包括：摄像模块、显示模块、监测模块、区域模块、以及识别模块；摄取图像的摄像模块与显示所述图像的显示模块连接；所述检测模块与所述区域模块连接，所述检测模块输出检测到的用户在所述显示的图像上的手势动作信息；所述区域模块接收所述检测模块输出的手势动作信息，并输出所述手势动作信息对应的用户关注的文字所在的区域；所述识别模块接收所述区域模块输出的区域，并输出所述区域内的图像的光学字符识别后获得的文本格式的字符。

本实用新型的目的以及解决其技术问题还可以采用以下的技术措施来进一步实现。

较佳的，前述的基于手势动作的字符识别系统，其中摄像模块、显示模块、和检测模块设置于一电子终端设备中，所述区域模块和识别模块设置于服务器中，且所述检测模块检测到的手势动作的数据和所述摄像模块摄取的图像通过所述电子终端设备中的无线收发模块发送给所述服务器。

较佳的，前述的基于手势动作的字符识别系统，其中摄像模块、显示模块、检测模块和区域模块设置于一电子终端设备中，所述识别模块设置于服务器中，且所述区域模块确定出的区域的图像通过所述电子终端设备中的无线收发模块发送给所述服务器。

较佳的，前述的基于手势动作的字符识别系统，其中所述各模块均设置于一电子终端设备中。

较佳的，前述的基于手势动作的字符识别系统，其中系统还包括：压缩模块；所述压缩模块接收所述摄像模块摄取的图像，并输出彩色图像压缩为2色或者4色后的图像，所述区域模块接收所述压缩后的图像。

较佳的，前述的基于手势动作的字符识别系统，其中所述区域模块包括：第一子模块；所述第一子模块接收所述检测模块输出的手势动作信息，并向识别模块输出在对手势动作周围的预定区域进行颜色直方图转换且在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例后确定出的用户关注的文字所在的区域。

较佳的，前述的基于手势动作的字符识别系统，其中所述区域模块包括：第二子模块；所述第二子模块接收所述检测模块输出的手势动作信息，并向识别模块输出在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作且根据颜色填充操作的结果确定出的文字所在的区域。

较佳的，前述的基于手势动作的字符识别系统，其中所述区域模块包括：第一子模块、第二子模块、和第三子模块；

所述第一子模块接收所述检测模块输出的手势动作信息，并输出在对手势动作周围的预定区域进行颜色直方图转换且在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例后确定出的用户关注的文字所在的区域；

所述第二子模块接收所述检测模块输出的手势动作信息，并输出在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作且根据颜色填充操作的结果确定出的文字所在的区域；

所述第三子模块接收所述第一子模块和所述第二子模块的输出结果，并向识别模块输出文字所在的区域。。

依据本实用新型提出的一种翻译系统，所述系统包括上述的基于手势动作的字符识别系统，且该翻译系统还包括：翻译模块，所述翻译模块与所述识别模块连接，所述翻译模块输出所述识别模块识别出的文本格式的字符对应的翻译结果。

较佳的，前述的翻译系统，所述翻译模块设置于具有摄像功能的便携式电子终端设备中或者设置于服务器中；在所述翻译模块设置于服务器中的情况下，所述翻译系统通过其收发模块将所述翻译模块的翻译结果发送给电子终端设备。

借由上述技术方案，本实用新型的基于手势动作的字符识别系统及翻译系统至少具有下列优点及有益效果：本实用新型通过检测用户在摄取到的图像上所进行的选取需要进行字符识别的内容的手势动作，并根据该手势动作确定用户关注的字符所在的区域，不但可以减少网络的传送时间，还可以有针对性的进行字符识别，从而使字符识别的过程更加方便快捷，有利于字符识别技术的推广应用。

综上所述，本实用新型在技术上有显著的进步，并具有明显的积极效果，诚为一新颖、进步、实用的新设计。

上述说明仅是本实用新型技术方案的概述，为了能够更清楚了解本实用新型的技术手段，而可依照说明书的内容予以实施，并且为了让本实用新型的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本实用新型的设置于电子终端设备和服务器中的基于手势动作的字符识别系统的示意图；

图2为本实用新型的设置于电子终端设备中的基于手势动作的字符识别系统的示意图；

图3为本实用新型的设置于电子终端设备和服务器中的翻译系统的示意图；

图4为本实用新型的设置于电子终端设备中的翻译系统的示意图；

图5为本实用新型的翻译过程的示意图；

图6A为一彩色图片；

图6B为一压缩后的索引图像；

图6C为在图像上划线后的结果示意图；

图6D为在图像上圈选出的文字示意图；

图6E为在图像上选取的区域；

图6F为光学字符识别示意图；

图6G为显示翻译结果信息示意图；

图7为本实用新型的手势定义示意图；

图8为本实用新型的手势采集的曲线示意图。

具体实施方式

为更进一步阐述本实用新型为达成预定实用新型目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本实用新型提出的基于手势动作的字符识别系统及翻译系统其具体实施方式、结构、步骤、特征及其功效，详细说明如后。

实施例一、基于手势动作的字符识别系统。

本实用新型实施例提供的基于手势动作的字符识别系统可以设置于电子终端设备中，也可以设置于电子终端设备和服务器中。即本实用新型实施例提供的基于手势动作的字符识别系统可以具体表现为一具有摄像功能的电子终端设备，也可以具体表现为一具有摄像功能的电子终端设备和与该电子终端设备无线连接的一服务器。当然，该服务器可以同时与多个电子终端设备均无线连接。

本实用新型实施例中的电子终端设备可以为移动电话、PDA(个人数字助理器)、或者掌上计算机等具有摄像功能的便携式数字设备。本实用新型不限制电子终端设备的具体表现形式。

下面结合附图1对设置于电子终端设备和服务器中的基于手势动作的字符识别系统进行说明。

图1中示出的基于手势动作的字符识别系统中的摄像模块1、显示模块2、以及检测模块3设置于电子终端设备中，基于手势动作的字符识别系统中的区域模块4、以及识别模块5设置于服务器中。另外，在基于手势动作的字符识别系统还包括压缩模块6的情况下，压缩模块6设置于电子终端设备中。

摄像模块1可以为电子终端设备本身自带的摄像单元。摄像模块1主要用于摄取图像。由于现有的电子终端设备自带的摄像单元摄取的图像基本上为彩色图像，因此，该摄像模块1摄取的图像通常为彩色图像。

压缩模块6主要用于将摄像模块1摄取的彩色图像压缩为2色或者4色的图像，压缩后的图像可以提供给显示模块2，由显示模块2显示该压缩后的图像。在压缩后的图像不提供给显示模块2的情况下，摄像模块1摄取的图像直接通过显示模块2显示出来。

显示模块2主要用于显示摄像模块1摄取的图像或者主要用于显示压缩模块6压缩后的图像。该显示模块2可以包括电子终端设备本身自带的显示屏、以及显示驱动模块等。用于显示图像的显示屏可以为触摸屏，也可以为非触摸屏。

检测模块3主要用于检测用户在显示模块2显示的图像上所进行的手势动作。该手势动作即选取需要进行字符识别的内容的手势动作。也就是说，通过该手势动作可以明确获知用户需要对显示的图像上的哪一部分内容进行字符识别。上述手势动作可以具体为画点、划线(如直线、或者曲线)、或者划区(如具有封闭空间的区域)等等。在手势动作为划线的情况下，用户需要进行字符识别的内容是针对该线所经过的图像中的内容的。

检测模块3检测到的手势动作可以是用户利用手指或者触笔等辅助工具在触摸屏上所作的手势动作，例如，用户利用手指在触摸屏上划线，该划出的线条可以显示在屏幕上，且该显示的线条可以覆盖在显示的图像上。

检测模块3检测到的手势动作也可以是用户通过键盘在显示屏上所作的手势动作等。一个具体的例子：用户利用上下左右键调整默认大小的选择框的位置，用户利用“*”键在水平方向上放大选择框，利用“#”键在垂直方向上放大选择框，利用“确定”键来确定当前的选择框即为手势动作；另一个具体的例子：用户利用上下左右键调整默认长短的选择线条的位置，利用“*”键在水平方向上拉伸选择线条，利用“#”键在水平方向上缩短选择线条，利用“确定”键来确定当前的选择线条即为手势动作。

检测模块3检测到的手势动作信息以及摄像模块1摄取的图像可以通过电子终端设备中的无线收发模块向服务器发送，例如，电子终端设备中的无线收发模块基于GPRS、3G、或者WIFI向服务器发送手势动作信息和图像。另外，在基于手势动作的字符识别系统中包括压缩模块6的情况下，电子终端设备向服务器发送的信息可以是手势动作信息和压缩后的图像信息。

区域模块4主要用于接收到的手势动作信息和图像信息确定图像中用户关注的文字(如中文、或者英文等外文、或者数字等)所在的区域。这里的用户关注的文字所在的区域即需要进行字符识别的图片内容区域。由于手势动作可能是划点或者划线或者划圈等，可能并没有将需要进行字符识别的内容完全覆盖住，因此，区域模块4需要根据手势动作进行上下左右探索，以确定需要进行字符识别的完整的内容区域。例如，以划线覆盖的颜色为基准在预定大小字符(如半个字符)范围内搜索具有相同颜色的区域。本实用新型中的区域模块4可以不借助现有的结构分析模块来进行区域的确定。

区域模块4确定出的区域可以是对图像中的需要进行字符识别的文字的圈选，即勾勒出图像中的需要进行字符识别的文字的轮廓。

区域模块4的一个具体的例子为：区域模块4包括第一子模块、第二子模块和第三子模块。第一子模块主要用于对手势动作周围的预定区域进行颜色直方图转换，并在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例来确定用户关注的文字所在的区域。例如，在手势线条周围取20像素宽的区域作为初始区域，对初始区域进行颜色直方图操作，获得的颜色直方图在大多数情况下有两个主峰，即前景色和背景色，分别假设这两种颜色为前景色，在手势线条的上下范围内寻找文字的边界，在寻找到文字的边界后根据区域的连通性(背景倾向于连在一起)和前景色占总区域面积的比例(通常字符区域应占总区域面积的75％以上)来确定用户关注的文字所在的区域。当然，前述的前景色所占的总区域面积的比例也可以为前景色与背景色的比例。

针对文本颜色一致的情况，第一子模块可以准确的确定出文字所在的区域。

第二子模块主要用于在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作，并根据颜色填充结果操作的结果确定用户关注的文字所在的区域。例如，在单词中的每个字母都是独立颜色的情况下，颜色直方图可能会存在若干个尖峰，第一子模块判断文字所在的区域较不准确；第二子模块可以在手势线条穿越的路径上，分别用路径上的颜色向线条两端进行封闭区域颜色填充，背景色的填充结果可能是充满整个区域且连接在一起，也可能是形成若干个小的区域(对于花色背景的情况)，第二子模块可以根据上述填充的结果确定用户关注的文字的边界，即确定用户关注的文字所在的区域。

第三子模块主要用于根据第一子模块和第二子模块的输出结果确定用户关注的文字所在的区域。在第一子模块和第二子模块的判断结果不一致时，第三子模块可以采用权重值等算法来确定出用户关注的文字所在的区域。本实用新型不限制第三子模块确定用户关注的文字所在区域时所采用的具体算法。

另外，区域模块4也可以仅包括第一子模块和第二子模块中的一个。还有，区域模块4也可以采用现有的其它方法来确定用户关注的文字所在的区域。

需要特别说明的是，如果区域模块4设置在电子终端设备中，则区域模块4确定出的字符所在的区域会通过电子终端设备中的无线收发模块向服务器发送，例如，电子终端设备中的无线收发模块基于GPRS、3G、或者WIFI向服务器发送区域模块4确定出的字符所在的区域的内容。由于电子终端设备向服务器发送的内容仅仅是区域模块4确定出的字符所在的区域的内容，因此，向服务器发送的图片的大小会远远小于电子终端设备摄取的图像的大小，从而可以极大的节约传输资源、缩短传输时间，进而提高用户体验。

识别模块5主要用于对区域模块4确定出的区域内的图像进行光学字符识别，以获得文本格式的字符。该文本格式的字符可以用于后续的多种应用，如翻译、解释、存储、朗诵、或者查询价格等等。识别模块5可以利用现有的光学字符识别技术进行字符识别。

服务器将识别模块5识别出的文本格式的字符通过其收发模块返回给电子终端设备，电子终端设备通过其无线收发模块接收到服务器返回的文本格式的字符后，可以通过显示模块2显示该文本格式的字符，电子终端设备还可以存储该文本格式的字符。

本实施例可以将电子终端设备中的无线收发模块、以及服务器中的收发模块作为基于手势动作的字符识别系统中的一部分。

下面结合附图2对设置于电子终端设备中的基于手势动作的字符识别系统进行说明。

图1中示出的设置于电子终端设备中的基于手势动作的字符识别系统具体包括：摄像模块1、显示模块2、检测模块3、区域模块4、以及识别模块5。另外，该基于手势动作的字符识别系统还包括：压缩模块6。

图2中示出的各模块与图1中示出的各模块所作的操作基本相同，其区别包括：检测模块3检测出的手势动作信息和摄像模块1摄取的图像信息并不会通过电子终端设备中的无线收发模块向服务器发送，而是提供给设置在电子终端设备内部的区域模块4；或者区域模块4确定出的图像中的用户关注的文字所在的区域并不会通过电子终端设备中的无线收发模块向服务器发送，而是提供给设置在电子终端设备中的识别模块5。另外，其区别还可以包括：识别模块5获得的文本格式的字符不再需要在电子终端设备与服务器之间传输，识别模块5获得的文本格式的字符可以直接提供给显示模块2进行显示，也可以存储在电子终端设备中。

实施例二、翻译系统。

本实用新型实施例提供的翻译系统可以设置于电子终端设备和服务器中(如附图3所示)，也可以设置于电子终端设备中(如附图4所示)。即本实用新型实施例提供的翻译系统可以具体表现为一具有摄像功能的电子终端设备，也可以具体表现为一具有摄像功能的电子终端设备和与该电子终端设备无线连接的一服务器。当然，该服务器可以同时与多个电子终端设备均无线连接。

本实施例中的电子终端设备同样可以具体为移动电话、PDA(个人数字助理器)、或者掌上计算机等具有摄像功能的便携式数字设备。本实用新型不限制电子终端设备的具体表现形式。

本实施例的翻译系统在包含有上述实施例一的基于手势动作的字符识别系统中的各模块之外，还包含有翻译模块7。翻译系统中包含的基于手势动作的字符识别系统中的各模块所执行的操作基本上与上述实施例中的描述相同，相同的内容在此不再重复说明。

翻译模块7主要用于对将识别模块5识别出的文本格式的字符进行翻译。这里的翻译是指不同语言之间的翻译，例如将外文(如英文等)翻译为中文、或者将中文翻译为外文、或者不同外文之间的翻译等等。

翻译模块7的翻译结果应由电子终端设备的显示模块2显示出来。在翻译模块7设置于服务器中的情况下，翻译模块7的翻译结果可以通过服务器的收发模块向电子终端设备发送。电子终端设备中的无线收发模块接收到服务器发送来的翻译结果信息后，该翻译结果信息由电子终端设备中的显示模块2显示出来。

显示模块2显示翻译结果信息的一个具体的例子：显示模块2可以将翻译结果信息显示在摄像模块1摄取的图像中的相应区域附近，例如显示模块2将翻译结果信息显示在区域模块4确定出的区域的左上角或者右上角或者左下角或者右下角方位等等。本实施例不限制翻译结果信息的具体显示方式。

下面结合附图5-附图7、以移动电话为例对本实用新型实施例的包含字符识别过程在内的翻译过程进行详细说明。

附图5是包含字符识别过程在内的翻译过程的示意图。

图5中，首先，移动电话摄取图像。

在移动电话具有150万以上像素、且具有自动聚焦功能的情况下，可以取得较好的字符识别效果。移动电话摄取的全彩色图像如附图6A所示。

对于200万像素的移动电话，如果使用JPGE压缩格式，则该全彩色图像的数据量大小通常在700KB左右。

在移动电话摄取了全彩色图像之后，对该全彩色图像进行压缩。可以将该全彩色图像根据色彩直方图压缩成2色或者4色的图像(可以称为索引图像)，如附图6B所示。压缩后的图像的数据量大约在70KB左右。对于数据传输能力比较强的网络，如WIFI、以及3G数据网络，前述的压缩步骤可以省略。

移动电话检测用户的手势动作，以获取手势动作信息(也可以称为手势动作数据)。这里的手势动作(Gesture)可以定义为用户和图像内容直接交互的方式。实际上，对于需要翻译的内容，通常用户是有明确的翻译目标的，例如，该翻译目标可能是用户不认识的一个单词，也可能是一个包含若干个单词的短语的含义，甚至一句话。通过手势动作可以明确的表示出翻译目标，该翻译目标可以称为焦点。

对于具有触摸屏的移动电话，本实施例可以涉及如附图7所示的三种手势动作来确定焦点，即点击、划线(如直线、曲线、或者斜线等)、以及选取(选取也可以称为划区)。一个具体的例子：采用划线的手势动作在图6A摄取的图像上进行划线后的结果可以如附图6C所示，即用户需要对图像中的“Proceedings”、“Analysis”、以及“Recognition”进行翻译。

对于不具有触摸屏的移动电话，用户可以通过键盘进行点击、划线、以及选取操作，如先默认用户点击了屏幕中央，之后根据用户的按键情况确定手势动作数据。

从数据角度来看，不同的手势动作对应的手势动作数据的内容并不相同：对于点击，手势动作数据是一个或多个2D的坐标值；对于划线，手势动作数据是一个或多个线段；对于选取，手势动作数据是一个平面范围。

检测出的曲线的一个具体的例子如附图8所示，即移动电话中的应用程序会以一个固定的时间间隔(如100ms)反复查询指尖在屏幕上的位置(x，y)，这样，从指尖接触屏幕到抬起的整个过程，就会得到由若干个坐标点组成的序列(x1，y1)，(x2，y2)，…，(xn，yn)，将这些坐标点连成线绘制在图片上，就构成了画在单词上的手势动作曲线。

手势动作的一个具体的例子为：在使用手势动作选择单词的时候，可以先通过图片的缩放功能将待翻译的内容(如单词)清晰显示在移动电话的屏幕上，然后，用手指从想要翻译的单词的第一个字母依次划到最后一个字母，如果字母排列不是在一条直线上，可以按照字母排列的方向划线。

移动电话将压缩的图像数据和手势动作数据作为客户端数据向服务器传输。服务器接收移动电话传输来的图像数据和手势动作数据。

服务器根据接收到的手势动作数据来确定焦点区域。焦点区域可以理解为在移动电话摄取的图像内，用户感兴趣的需要翻译的内容所在的区域，即用户关注的区域，该焦点区域可以表示为一个或多个矩形框。

根据不同的手势动作，服务器可以采用不同的焦点区域提取方式，例如：对于点击，服务器可以将包含点击位置在内的若干个单词框确定为焦点区域；对于划线，服务器可以将该线条划过的若干个连续的单词框确定为焦点区域；对于选取，服务器可以将选取框中包含的若干个单词确定为焦点区域。

在焦点区域的提取过程中，可以使用上述第一子模块、第二子模块、以及第三子模块，以帮助准确的提取焦点区域。在确定焦点区域过程中可以忽略图像中的文字所在的背景。另外，可以根据手势划过区域的颜色确定文本的颜色。

确定焦点区域的一个具体的例子包括：在手势划过的路径上，向路径两侧搜索具有文本颜色的每一个字符区域的完整大小(即联通区域)。在字符竖向0.5个字符内范围、以及水平向1个字符范围内搜索是否还有具有该颜色的字符，如果有，则将该字符加入进来，其目的是不要漏掉字母“i”和字母“j”上的点、以及手势没有完全选进来的单词的字母。将手势线条划过的灰白色区域连接起来就构成了文本的选择范围(即焦点区域)。

使用第一子模块、第二子模块、以及第三子模块勾勒出的单词的轮廓的一个具体例子如附图6D所示，则焦点区域的提取结果如附图6E和附图6F的左侧所示。

在提取了焦点区域之后，用户需要翻译的若干单词就变成了若干个需要识别的包含单词的图像(小的图像区域)。

服务器进行文本识别过程，即服务器将包含单词的图像转换成文字本身(即文本格式的字符)，文本识别过程也可以被称为OCR(OpticalCharacter Recognition，光学字符识别)，识别出的文字为计算机可以识别的字符。一个具体的例子，针对附图6E提取的焦点区域进行文本识别后的结果如附图6F的右侧所示。

在文本识别后，服务器通过查词典就可以实现翻译，从而将用户选择的内容翻译为用户预先设定的目标语言。

一个具体的例子，在对附图6F的右侧所示的文本格式的单词进行词典查询后，翻译的结果具体为：Proceedings→n.论文集；Analysis→n.分析；Recognition→n.识别。

附图6F中包含“Recognition”单词的JPEG图片的大小是7.6KB，如果由移动电话来确定焦点区域，则即使移动电话使用2G网络也可以在不到1s的时间内传输完成，从而大大的提高了用户体验。

服务器将翻译结果和翻译结果在图像中的位置信息作为服务器端数据向移动电话发送。移动电话根据接收到的位置信息将翻译结果显示给用户，在显示过程中，移动电话可以进行用户界面的显示渲染，显示渲染的一个具体例子如附图6G所示。

以上所述仅是本实用新型的较佳实施例而已，并非对本实用新型作任何形式上的限制，虽然本实用新型已以较佳实施例揭露如上，然而并非用以限定本实用新型，任何熟悉本专业的技术人员在不脱离本实用新型技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本实用新型技术方案的内容，依据本实用新型的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本实用新型技术方案的范围内。

Claims

1.一种基于手势动作的字符识别系统，其特征在于，所述系统包括：摄像模块、显示模块、监测模块、区域模块、以及识别模块；

摄取图像的摄像模块与显示所述图像的显示模块连接；

所述检测模块与所述区域模块连接，所述检测模块输出检测到的用户在所述显示的图像上的手势动作信息；

所述区域模块接收所述检测模块输出的手势动作信息，并输出所述手势动作信息对应的用户关注的文字所在的区域；

所述识别模块接收所述区域模块输出的区域，并输出所述区域内的图像的光学字符识别后获得的文本格式的字符。

2.如权利要求1所述的基于手势动作的字符识别系统，其特征在于：

所述摄像模块、显示模块、和检测模块设置于一电子终端设备中，所述区域模块和识别模块设置于服务器中，且所述检测模块检测到的手势动作的数据和所述摄像模块摄取的图像通过所述电子终端设备中的无线收发模块发送给所述服务器。

3.如权利要求1所述的基于手势动作的字符识别系统，其特征在于：

所述摄像模块、显示模块、检测模块和区域模块设置于一电子终端设备中，所述识别模块设置于服务器中，且所述区域模块确定出的区域的图像通过所述电子终端设备中的无线收发模块发送给所述服务器。

4.如权利要求1所述的基于手势动作的字符识别系统，其特征在于：

所述各模块均设置于一电子终端设备中。

5.如权利要求2或3或4所述的基于手势动作的字符识别系统，其特征在于，所述系统还包括：压缩模块；

所述压缩模块接收所述摄像模块摄取的图像，并输出彩色图像压缩为2色或者4色后的图像，所述区域模块接收所述压缩后的图像。

6.如权利要求1或2或3或4所述的基于手势动作的字符识别系统，其特征在于，所述区域模块包括：第一子模块；

所述第一子模块接收所述检测模块输出的手势动作信息，并向识别模块输出在对手势动作周围的预定区域进行颜色直方图转换且在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例后确定出的用户关注的文字所在的区域。

7.如权利要求1或2或3或4所述的基于手势动作的字符识别系统，其特征在于，所述区域模块包括：第二子模块；

所述第二子模块接收所述检测模块输出的手势动作信息，并向识别模块输出在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作且根据颜色填充操作的结果确定出的文字所在的区域。

8.如权利要求1或2或3或4所述的基于手势动作的字符识别系统，其特征在于，所述区域模块包括：第一子模块、第二子模块、和第三子模块；

所述第三子模块接收所述第一子模块和所述第二子模块的输出结果，并向识别模块输出文字所在的区域。

9.一种翻译系统，其特征在于，所述系统包括上述权利要求1-8中任一权利要求所述的基于手势动作的字符识别系统，且该翻译系统还包括：

翻译模块，所述翻译模块与所述识别模块连接，所述翻译模块输出所述识别模块识别出的文本格式的字符对应的翻译结果。

10.如权利要求9所述的翻译系统，其特征在于：

所述翻译模块设置于具有摄像功能的便携式电子终端设备中或者设置于服务器中；

在所述翻译模块设置于服务器中的情况下，所述翻译系统通过其收发模块将所述翻译模块的翻译结果发送给电子终端设备。