CN102737238A - 基于手势动作的字符识别系统、方法、及其应用 - Google Patents
基于手势动作的字符识别系统、方法、及其应用 Download PDFInfo
- Publication number
- CN102737238A CN102737238A CN2011100845979A CN201110084597A CN102737238A CN 102737238 A CN102737238 A CN 102737238A CN 2011100845979 A CN2011100845979 A CN 2011100845979A CN 201110084597 A CN201110084597 A CN 201110084597A CN 102737238 A CN102737238 A CN 102737238A
- Authority
- CN
- China
- Prior art keywords
- module
- gesture motion
- image
- character
- terminal equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明是有关于一种基于手势动作的字符识别系统、方法、及其应用。其中的基于手势动作的字符识别系统具体包括:摄像模块、显示模块、检测模块、区域模块、以及识别模块。摄像模块用于摄取图像;显示模块用于显示所述摄取的图像;检测模块用于检测用户在所述显示的图像上所进行的选取手势动作;区域模块用于根据所述检测到的手势动作确定所述图像中用户关注的文字所在的区域;识别模块用于对所述区域内的图像进行光学字符识别,以获得文本格式的字符。本发明提供的技术方案能够方便快捷准确的实现字符识别,有利于字符识别应用的推广,非常适于实用。
Description
技术领域
本发明涉及一种字符识别技术,特别是涉及一种针对摄像装置摄取的图像的基于手势动作的字符识别系统、方法、及其应用。
背景技术
目前,针对摄像装置摄取的图像进行字符识别的方法通常为:先利用移动电话等具有摄像装置的便携式电子终端设备摄取图像,其次,将摄取到的图像以图片的形式传输给服务器,服务器利用结构分析(LayoutAnalysis)模块对接收到的图片进行分析,以提取图片中的字符,之后服务器可以对提取出的字符进行翻译等处理,并将处理结果返回给电子终端设备。
发明人在实现本发明过程中发现:在网络带宽有限的情况下,电子终端设备向服务器发送图片的时间会较长,从而使该应用存在体验较差的问题,不利于推广应用。另外,不论是否将摄取的图片发送给服务器,即不论是由电子终端设备自身对图片进行字符识别处理,还是由服务器对图片进行字符识别处理,利用结构分析模块从整个图片中分析出字符不但存在计算时间较长、容易出现分析错误的现象,而且,针对一些画面复杂的图片,基本上没有办法识别出字符。另外,用户关注的内容也许仅仅是图片中的部分内容,如个别的单词或者某个电话等,而对整个图片进行字符分析无疑会造成资源的浪费。
有鉴于上述现有的字符识别方法存在的缺陷,本发明人基于从事此类产品设计制造多年丰富的实务经验及专业知识,并配合学理的运用,积极加以研究创新,以期创设一种新的基于手势动作的字符识别装置、方法、及其应用,能够克服现有的字符识别方法存在的问题,使其更具有实用性。经过不断的研究、设计,经过反复试作样品及改进后,终于创设出确具实用价值的本发明。
发明内容
本发明的目的在于,克服现有的字符识别方法存在的缺陷,而提供一种新的基于手势动作的字符识别系统、方法、及其应用,所要解决的技术问题是,使字符的识别过程更加快捷,有利于字符识别应用的推广,非常适于实用。
本发明的目的以及解决其技术问题可以采用以下的技术方案来实现。
依据本发明提出的一种基于手势动作的字符识别系统,包括:摄像模块,用于摄取图像;显示模块,用于显示所述摄取的图像;检测模块,用于检测用户在所述显示的图像上所进行的选取需要进行字符识别的内容的手势动作;区域模块,用于根据所述检测到的手势动作确定所述图像中用户关注的文字所在的区域;识别模块,用于对所述区域内的图像进行光学字符识别,以获得文本格式的字符。
本发明的目的以及解决其技术问题还可以采用以下的技术措施来进一步实现。
较佳的,前述的基于手势动作的字符识别系统,其中,摄像模块、显示模块、和检测模块设置于一电子终端设备中,所述区域模块和识别模块设置于服务器中,且所述检测模块检测到的手势动作的数据和所述摄像模块摄取的图像通过所述电子终端设备中的无线收发模块发送给所述服务器;或者,所述摄像模块、显示模块、检测模块和区域模块设置于一电子终端设备中,所述识别模块设置于服务器中,且所述区域模块确定出的区域的图像通过所述电子终端设备中的无线收发模块发送给所述服务器;或者,所述各模块均设置于一电子终端设备中。
较佳的,前述的基于手势动作的字符识别系统,其中系统还包括:压缩模块,用于将摄像模块摄取的彩色图像压缩为2色或者4色的图像,并将压缩后的图像提供给区域模块。
较佳的,前述的基于手势动作的字符识别系统,其中所述区域模块包括:第一子模块:用于时手势动作周围的预定区域进行颜色直方图转换,在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例确定文字所在的区域;和/或,第二子模块,用于在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作,根据颜色填充操作的结果确定文字所在的区域;在所述区域模块包括第一子模块和第二子模块时,所述区域模块还包括:第三子模块,用于根据第一子模块和第二子模块的输出结果确定文字所在的区域。
依据本发明提出的一种翻译系统,所述系统包括上述基于手势动作的字符识别系统,且该翻译系统还包括:翻译模块,用于对所述识别模块识别出的文本格式的字符进行翻译。
较佳的,前述的翻译系统,其中所述翻译模块设置于具有摄像功能的便携式电子终端设备中或者设置于服务器中;在所述翻译模块设置于服务器中的情况下,所述翻译系统通过其收发模块将所述翻译模块的翻译结果发送给电子终端设备,并由所述电子终端设备中的显示模块显示所述翻译结果。
依据本发明提出的一种基于手势动作的字符识别方法,包括:摄取图像;显示所述摄取的图像;检测用户在所述显示的图像上所进行的选取需要进行字符识别的内容的手势动作;根据所述检测到的手势动作确定所述图像中用户关注的文字所在的区域;对所述区域内的图像进行光学字符识别,以获得文本格式的字符。
较佳的,前述的基于手势动作的字符识别方法,所述根据所述检测到的手势动作确定所述图像中的文字所在的区域包括:将摄取的彩色图像压缩为2色或者4色的图像,并根据所述检测到的手势动作确定所述压缩后的图像中的文字所在的区域。
较佳的,前述的基于手势动作的字符识别方法,该手势动作包括:画点、划线、或者划区。
依据本发明提出的一种翻译方法,所述方法包括上述基于手势动作的字符识别方法,且所述翻译方法还包括:对文本格式的字符进行翻译,并显示所述翻译的结果。
借由上述技术方案,本发明的基于手势动作的字符识别系统、方法及其应用至少具有下列优点及有益效果:本发明通过检测用户在摄取到的图像上所进行的选取需要进行字符识别的内容的手势动作,并根据该手势动作确定用户关注的字符所在的区域,不但可以减少网络的传送时间,还可以有针对性的进行字符识别,从而使字符识别的过程更加方便快捷,有利于字符识别技术的推广应用。
综上所述,本发明在技术上有显著的进步,并具有明显的积极技术效果,诚为一新颖、进步、实用的新设计。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明的设置于电子终端设备和服务器中的基于手势动作的字符识别系统的示意图;
图2为本发明的设置于电子终端设备中的基于手势动作的字符识别系统的示意图;
图3为本发明的设置于电子终端设备和服务器中的翻译系统的示意图;
图4为本发明的设置于电子终端设备中的翻译系统的示意图;
图5为本发明的基于手势动作的字符识别方法的流程图;
图6为本发明的翻译方法的流程图;
图7为本发明的翻译过程的示意图;
图8A为一彩色图片;
图8B为一压缩后的索引图像;
图8C为在图像上划线后的结果示意图;
图8D为在图像上圈选出的文字示意图;
图8E为在图像上选取的区域;
图8F为光学字符识别示意图;
图8G为显示翻译结果信息示意图;
图9为本发明的手势定义示意图;
图10为本发明的手势采集的曲线示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于手势动作的字符识别系统、方法及其应用其具体实施方式、结构、步骤、特征及其功效,详细说明如后。
实施例一、基于手势动作的字符识别系统。
本发明实施例提供的基于手势动作的字符识别系统可以设置于电子终端设备中,也可以设置于电子终端设备和服务器中。即本发明实施例提供的基于手势动作的字符识别系统可以具体表现为一具有摄像功能的电子终端设备,也可以具体表现为一具有摄像功能的电子终端设备和与该电子终端设备无线连接的一服务器。当然,该服务器可以同时与多个电子终端设备均无线连接。
本发明实施例中的电子终端设备可以为移动电话、PDA(个人数字助理器)、或者掌上计算机等具有摄像功能的便携式数字设备。本发明不限制电子终端设备的具体表现形式。
下面结合附图1对设置于电子终端设备和服务器中的基于手势动作的字符识别系统进行说明。
图1中示出的基于手势动作的字符识别系统中的摄像模块1、显示模块2、以及检测模块3设置于电子终端设备中,基于手势动作的字符识别系统中的区域模块4、以及识别模块5设置于服务器中。另外,在基于手势动作的字符识别系统还包括压缩模块6的情况下,压缩模块6设置于电子终端设备中。
摄像模块1可以为电子终端设备本身自带的摄像单元。摄像模块1主要用于摄取图像。由于现有的电子终端设备自带的摄像单元摄取的图像基本上为彩色图像,因此,该摄像模块1摄取的图像通常为彩色图像。
压缩模块6主要用于将摄像模块1摄取的彩色图像压缩为2色或者4色的图像,压缩后的图像可以提供给显示模块2,由显示模块2显示该压缩后的图像。在压缩后的图像不提供给显示模块2的情况下,摄像模块1摄取的图像直接通过显示模块2显示出来。
显示模块2主要用于显示摄像模块1摄取的图像或者主要用于显示压缩模块6压缩后的图像。该显示模块2可以包括电子终端设备本身自带的显示屏、以及显示驱动模块等。用于显示图像的显示屏可以为触摸屏,也可以为非触摸屏。
检测模块3主要用于检测用户在显示模块2显示的图像上所进行的手势动作。该手势动作即选取需要进行字符识别的内容的手势动作。也就是说,通过该手势动作可以明确获知用户需要对显示的图像上的哪一部分内容进行字符识别。上述手势动作可以具体为画点、划线(如直线、或者曲线)、或者划区(如具有封闭空间的区域)等等。在手势动作为划线的情况下,用户需要进行字符识别的内容是针对该线所经过的图像中的内容的。
检测模块3检测到的手势动作可以是用户利用手指或者触笔等辅助工具在触摸屏上所作的手势动作,例如,用户利用手指在触摸屏上划线,该划出的线条可以显示在屏幕上,且该显示的线条可以覆盖在显示的图像上。
检测模块3检测到的手势动作也可以是用户通过键盘在显示屏上所作的手势动作等。一个具体的例子:用户利用上下左右键调整默认大小的选择框的位置,用户利用“*”键在水平方向上放大选择框,利用“#”键在垂直方向上放大选择框,利用“确定”键来确定当前的选择框即为手势动作;另一个具体的例子:用户利用上下左右键调整默认长短的选择线条的位置,利用“*”键在水平方向上拉伸选择线条,利用“#”键在水平方向上缩短选择线条,利用“确定”键来确定当前的选择线条即为手势动作。
检测模块3检测到的手势动作信息以及摄像模块1摄取的图像可以通过电子终端设备中的无线收发模块向服务器发送,例如,电子终端设备中的无线收发模块基于GPRS、3G、或者WIFI向服务器发送手势动作信息和图像。另外,在基于手势动作的字符识别系统中包括压缩模块6的情况下,电子终端设备向服务器发送的信息可以是手势动作信息和压缩后的图像信息。
区域模块4主要用于接收到的手势动作信息和图像信息确定图像中用户关注的文字(如中文、或者英文等外文、或者数字等)所在的区域。这里的用户关注的文字所在的区域即需要进行字符识别的图片内容区域。由于手势动作可能是划点或者划线或者划圈等,可能并没有将需要进行字符识别的内容完全覆盖住,因此,区域模块4需要根据手势动作进行上下左右探索,以确定需要进行字符识别的完整的内容区域。例如,以划线覆盖的颜色为基准在预定大小字符(如半个字符)范围内搜索具有相同颜色的区域。本发明中的区域模块4可以不借助现有的结构分析模块来进行区域的确定。
区域模块4确定出的区域可以是对图像中的需要进行字符识别的文字的圈选,即勾勒出图像中的需要进行字符识别的文字的轮廓。
区域模块4的一个具体的例子为:区域模块4包括第一子模块、第二子模块和第三子模块。
第一子模块主要用于对手势动作周围的预定区域进行颜色直方图转换,并在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例来确定用户关注的文字所在的区域。例如,在手势线条周围取20像素宽的区域作为初始区域,对初始区域进行颜色直方图操作,获得的颜色直方图在大多数情况下有两个主峰,即前景色和背景色,分别假设这两种颜色为前景色,在手势线条的上下范围内寻找文字的边界,在寻找到文字的边界后根据区域的连通性(背景倾向于连在一起)和前景色占总区域面积的比例(通常字符区域应占总区域面积的75%以上)来确定用户关注的文字所在的区域。当然,前述的前景色所占的总区域面积的比例也可以为前景色与背景色的比例。
针对文本颜色一致的情况,第一子模块可以准确的确定出文字所在的区域。
第二子模块主要用于在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作,并根据颜色填充操作的结果确定用户关注的文字所在的区域。例如,在单词中的每个字母都是独立颜色的情况下,颜色直方图可能会存在若干个尖峰,第一子模块判断文字所在的区域较不准确;第二子模块可以在手势线条穿越的路径上,分别用路径上的颜色向线条两端进行封闭区域颜色填充,背景色的填充结果可能是充满整个区域且连接在一起,也可能是形成若干个小的区域(对于花色背景的情况),第二子模块可以根据上述填充的结果确定用户关注的文字的边界,即确定用户关注的文字所在的区域。
第三子模块主要用于根据第一子模块和第二子模块的输出结果确定用户关注的文字所在的区域。在第一子模块和第二子模块的判断结果不一致时,第三子模块可以采用权重值等算法来确定出用户关注的文字所在的区域。本发明不限制第三子模块确定用户关注的文字所在区域时所采用的具体算法。
另外,区域模块4也可以仅包括第一子模块和第二子模块中的一个。还有,区域模块4也可以采用现有的其它方法来确定用户关注的文字所在的区域。
需要特别说明的是,如果区域模块4设置在电子终端设备中,则区域模块4确定出的字符所在的区域会通过电子终端设备中的无线收发模块向服务器发送,例如,电子终端设备中的无线收发模块基于GPRS、3G、或者WIFI向服务器发送区域模块4确定出的字符所在的区域的内容。由于电子终端设备向服务器发送的内容仅仅是区域模块4确定出的字符所在的区域的内容,因此,向服务器发送的图片的大小会远远小于电子终端设备摄取的图像的大小,从而可以极大的节约传输资源、缩短传输时间,进而提高用户体验。
识别模块5主要用于对区域模块4确定出的区域内的图像进行光学字符识别,以获得文本格式的字符。该文本格式的字符可以用于后续的多种应用,如翻译、解释、存储、朗诵、或者查询价格等等。识别模块5可以利用现有的光学字符识别技术进行字符识别。
服务器将识别模块5识别出的文本格式的字符通过其收发模块返回给电子终端设备,电子终端设备通过其无线收发模块接收到服务器返回的文本格式的字符后,可以通过显示模块2显示该文本格式的字符,电子终端设备还可以存储该文本格式的字符。
本实施例可以将电子终端设备中的无线收发模块、以及服务器中的收发模块作为基于手势动作的字符识别系统中的一部分。
下面结合附图2对设置于电子终端设备中的基于手势动作的字符识别系统进行说明。
图1中示出的设置于电子终端设备中的基于手势动作的字符识别系统具体包括:摄像模块1、显示模块2、检测模块3、区域模块4、以及识别模块5。另外,该基于手势动作的字符识别系统还包括:压缩模块6。
图2中示出的各模块与图1中示出的各模块所作的操作基本相同,其区别包括:检测模块3检测出的手势动作信息和摄像模块1摄取的图像信息并不会通过电子终端设备中的无线收发模块向服务器发送,而是提供给设置在电子终端设备内部的区域模块4;或者区域模块4确定出的图像中的用户关注的文字所在的区域并不会通过电子终端设备中的无线收发模块向服务器发送,而是提供给设置在电子终端设备中的识别模块5。另外,其区别还可以包括:识别模块5获得的文本格式的字符不再需要在电子终端设备与服务器之间传输,识别模块5获得的文本格式的字符可以直接提供给显示模块2进行显示,也可以存储在电子终端设备中。
实施例二、翻译系统。
本发明实施例提供的翻译系统可以设置于电子终端设备和服务器中(如附图3所示),也可以设置于电子终端设备中(如附图4所示)。即本发明实施例提供的翻译系统可以具体表现为一具有摄像功能的电子终端设备,也可以具体表现为一具有摄像功能的电子终端设备和与该电子终端设备无线连接的一服务器。当然,该服务器可以同时与多个电子终端设备均无线连接。
本实施例中的电子终端设备同样可以具体为移动电话、PDA(个人数字助理器)、或者掌上计算机等具有摄像功能的便携式数字设备。本发明不限制电子终端设备的具体表现形式。
本实施例的翻译系统在包含有上述实施例一的基于手势动作的字符识别系统中的各模块之外,还包含有翻译模块7。翻译系统中包含的基于手势动作的字符识别系统中的各模块所执行的操作基本上与上述实施例中的描述相同,相同的内容在此不再重复说明。
翻译模块7主要用于对将识别模块5识别出的文本格式的字符进行翻译。这里的翻译是指不同语言之间的翻译,例如将外文(如英文等)翻译为中文、或者将中文翻译为外文、或者不同外文之间的翻译等等。
翻译模块7的翻译结果应由电子终端设备的显示模块2显示出来。在翻译模块7设置于服务器中的情况下,翻译模块7的翻译结果可以通过服务器的收发模块向电子终端设备发送。电子终端设备中的无线收发模块接收到服务器发送来的翻译结果信息后,该翻译结果信息由电子终端设备中的显示模块2显示出来。
显示模块2显示翻译结果信息的一个具体的例子:显示模块2可以将翻译结果信息显示在摄像模块1摄取的图像中的相应区域附近,例如显示模块2将翻译结果信息显示在区域模块4确定出的区域的左上角或者右上角或者左下角或者右下角方位等等。本实施例不限制翻译结果信息的具体显示方式。
实施例三、基于手势动作的字符识别方法。该方法如附图5所示。
图5中,步骤500、电子终端设备摄取图像,并显示其摄取的图像。
电子终端设备可以通过其本身自带的摄像单元摄取图像。由于现有的电子终端设备自带的摄像单元摄取的图像基本上为彩色图像,因此,电子终端设备摄取的图像通常为彩色图像。
电子终端设备可以直接显示其摄取的彩色图像,也可以先将其摄取的彩色图像压缩为2色或者4色的图像,之后,再显示该压缩后的图像。
该电子设备的显示屏可以为触摸屏,也可以为非触摸屏。
步骤510、电子终端设备检测用户在该显示的图像上所进行的手势动作,该手势动作即选取需要进行字符识别的内容的手势动作。也就是说,通过该手势动作可以明确获知用户需要对显示的图像上的哪一部分内容进行字符识别。
上述手势动作可以具体为画点、划线(如直线、或者曲线)、或者划区(如具有封闭空间的区域)等等。在手势动作为划线的情况下,用户需要进行字符识别的内容是针对该线所经过的图像中的内容的。
电子终端设备检测到的手势动作可以是用户利用手指或者触笔等辅助工具在触摸屏上所作的手势动作,例如用户利用手指在触摸屏上划线,该划出的线条可以显示在屏幕上,且该显示的线条可以覆盖在显示的图像上。
电子终端设备检测到的手势动作也可以是用户通过键盘在显示屏上所作的手势动作等。具体例子如上述实施例一中的描述,在此不再重复说明。
步骤520、电子终端设备向服务器发送其摄取的图像和检测到的手势动作信息。如果电子终端设备对其摄取的图像进行了压缩,则电子终端设备向服务器发送的图像应该是压缩后的图像。
步骤530、服务器根据接收到的手势动作信息和图像信息确定图像中用户关注的文字(如中文、或者英文等外文、或者数字等)所在的区域。该用户关注的文字所在的区域即需要进行字符识别的内容区域。
由于手势动作可能是划点或者划线或者划圈等,可能并没有将需要进行字符识别的内容完全覆盖住,因此,服务器需要根据手势动作进行上下左右探索,以确定需要进行字符识别的完整的内容区域。服务器可以借助上述第一子模块、第二子模块、以及第三子模块来进行区域的确定。
服务器确定出的区域可以是对图像中的需要进行字符识别的文字的圈选,即勾勒出图像中的需要进行字符识别的文字的轮廓。
需要说明的是,服务器执行的步骤530的操作也可以由电子终端设备来执行,在这种情况下,步骤520可以省略,且在电子终端设备执行了步骤530之后,电子终端设备将其确定出的区域的图片向服务器发送。由于电子终端设备向服务器发送的内容仅仅是电子终端设备确定出的字符所在的区域的内容,因此,电子终端设备向服务器发送的图片的大小基本上会远远小于电子终端设备摄取的图像的大小,从而本实施例可以极大的节约传输资源、缩短传输时间,进而提高用户体验。
步骤540、服务器对上述确定出的区域进行光学字符识别,以获得文本格式的字符,并向电子终端设备发送该文本格式的字符。该文本格式的字符可以用于后续的多种应用,如翻译、解释、存储、朗诵、或者查询价格等等。服务器可以利用现有的光学字符识别技术进行字符识别。
电子终端设备可以在接收到服务器返回的文本格式的字符后,显示并存储该文本格式的字符。电子终端设备可以将该文本格式的字符显示在其摄取的图像中的相应区域附近。
上述实施例三是以服务器进行光学字符识别操作为例进行描述的,如果由电子终端设备自身进行光学字符识别操作,则可以取消上述步骤中电子终端设备与服务器之间的传输操作。
实施例四、翻译方法。该方法如附图6所示。
图6中的步骤600-630与图5中的步骤500-530基本相同,在此不再重复说明。
步骤640、服务器对确定出的区域中的内容进行光学字符识别,以获得文本格式的字符,并对该文本格式的字符进行翻译,之后,服务器向电子终端设备发送该翻译的结果信息。
具体的,服务器可以利用现有的光学字符识别技术进行字符识别,并利用现有的翻译软件进行文本格式的字符的翻译。
电子终端设备在接收到服务器返回的翻译结果信息后,显示该翻译结果信息。电子终端设备可以将该翻译结果信息显示在其摄取的图像中的相应区域附近。
上述实施例四是以服务器进行光学字符识别、以及翻译操作为例进行描述的,如果由电子终端设备自身进行光学字符识别操作和翻译操作,则可以取消上述步骤中电子终端设备与服务器之间的传输操作。
下面结合附图7-附图9、以移动电话为例对本发明实施例的包含字符识别过程在内的翻译过程进行详细说明。
附图7是包含字符识别过程在内的翻译过程的示意图。
图7中,首先,移动电话摄取图像。
在移动电话具有150万以上像素、且具有自动聚焦功能的情况下,可以取得较好的字符识别效果。移动电话摄取的全彩色图像如附图8A所示。
对于200万像素的移动电话,如果使用JPGE压缩格式,则该全彩色图像的数据量大小通常在700KB左右。
在移动电话摄取了全彩色图像之后,对该全彩色图像进行压缩。可以将该全彩色图像根据色彩直方图压缩成2色或者4色的图像(可以称为索引图像),如附图8B所示。压缩后的图像的数据量大约在70KB左右。对于数据传输能力比较强的网络,如WIFI、以及3G数据网络,前述的压缩步骤可以省略。
移动电话检测用户的手势动作,以获取手势动作信息(也可以称为手势动作数据)。这里的手势动作(Gesture)可以定义为用户和图像内容直接交互的方式。实际上,对于需要翻译的内容,通常用户是有明确的翻译目标的,例如,该翻译目标可能是用户不认识的一个单词,也可能是一个包含若干个单词的短语的含义,甚至一句话。通过手势动作可以明确的表示出翻译目标,该翻译目标可以称为焦点。
对于具有触摸屏的移动电话,本实施例可以涉及如附图9所示的三种手势动作来确定焦点,即点击、划线(如直线、曲线、或者斜线等)、以及选取(选取也可以称为划区)。一个具体的例子:采用划线的手势动作在图8A摄取的图像上进行划线后的结果可以如附图8C所示,即用户需要对图像中的“Proceedings”、“Analysis”、以及“Recognition”进行翻译。
对于不具有触摸屏的移动电话,用户可以通过键盘进行点击、划线、以及选取操作,如先默认用户点击了屏幕中央,之后根据用户的按键情况确定手势动作数据。
从数据角度来看,不同的手势动作对应的手势动作数据的内容并不相同:对于点击,手势动作数据是一个或多个2D的坐标值;对于划线,手势动作数据是一个或多个线段;对于选取,手势动作数据是一个平面范围。
检测出的曲线的一个具体的例子如附图10所示,即移动电话中的应用程序会以一个固定的时间间隔(如100ms)反复查询指尖在屏幕上的位置(x,y),这样,从指尖接触屏幕到抬起的整个过程,就会得到由若干个坐标点组成的序列(x1,y1),(x2,y2),…,(xn,yn),将这些坐标点连成线绘制在图片上,就构成了画在单词上的手势动作曲线。
手势动作的一个具体的例子为:在使用手势动作选择单词的时候,可以先通过图片的缩放功能将待翻译的内容(如单词)清晰显示在移动电话的屏幕上,然后,用手指从想要翻译的单词的第一个字母依次划到最后一个字母,如果字母排列不是在一条直线上,可以按照字母排列的方向划线。
移动电话将压缩的图像数据和手势动作数据作为客户端数据向服务器传输。服务器接收移动电话传输来的图像数据和手势动作数据。
服务器根据接收到的手势动作数据来确定焦点区域。焦点区域可以理解为在移动电话摄取的图像内,用户感兴趣的需要翻译的内容所在的区域,即用户关注的区域,该焦点区域可以表示为一个或多个矩形框。
根据不同的手势动作,服务器可以采用不同的焦点区域提取方式,例如:对于点击,服务器可以将包含点击位置在内的若干个单词框确定为焦点区域;对于划线,服务器可以将该线条划过的若干个连续的单词框确定为焦点区域;对于选取,服务器可以将选取框中包含的若干个单词确定为焦点区域。
在焦点区域的提取过程中,可以使用上述第一子模块、第二子模块、以及第三子模块,以帮助准确的提取焦点区域。在确定焦点区域过程中可以忽略图像中的文字所在的背景。另外,可以根据手势划过区域的颜色确定文本的顾色。
确定焦点区域的一个具体的例子包括:在手势划过的路径上,向路径两侧搜索具有文本颜色的每一个字符区域的完整大小(即联通区域)。在字符竖向0.5个字符内范围、以及水平向1个字符范围内搜索是否还有具有该颜色的字符,如果有,则将该字符加入进来,其目的是不要漏掉字母‘i”和字母“j”上的点、以及手势没有完全选进来的单词的字母。将手势线条划过的灰白色区域连接起来就构成了文本的选择范围(即焦点区域)。
使用第一子模块、第二子模块、以及第三子模块勾勒出的单词的轮廓的一个具体例子如附图8D所示,则焦点区域的提取结果如附图8E和附图8F的左侧所示。
在提取了焦点区域之后,用户需要翻译的若干单词就变成了若干个需要识别的包含单词的图像(小的图像区域)。
服务器进行文本识别过程,即服务器将包含单词的图像转换成文字本身(即文本格式的字符),文本识别过程也可以被称为OCR(OpticalCharacter Recognition,光学字符识别),识别出的文字为计算机可以识别的字符。一个具体的例子,针对附图8E提取的焦点区域进行文本识别后的结果如附图8F的右侧所示。
在文本识别后,服务器通过查词典就可以实现翻译,从而将用户选择的内容翻译为用户预先设定的目标语言。
一个具体的例子,在对附图8F的右侧所示的文本格式的单词进行词典查询后,翻译的结果具体为:Proceedings→n.论文集;Analysis→n.分析;Recognition→n.识别。
附图8F中包含“Recognition”单词的JPEG图片的大小是7.6KB,如果由移动电话来确定焦点区域,则即使移动电话使用2G网络也可以在不到1s的时间内传输完成,从而大大的提高了用户体验。
服务器将翻译结果和翻译结果在图像中的位置信息作为服务器端数据向移动电话发送。移动电话根据接收到的位置信息将翻译结果显示给用户,在显示过程中,移动电话可以进行用户界面的显示渲染,显示渲染的一个具体例子如附图8G所示。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (10)
1.一种基于手势动作的字符识别系统,其特征在于,所述系统包括:
摄像模块,用于摄取图像;
显示模块,用于显示所述摄取的图像;
检测模块,用于检测用户在所述显示的图像上所进行的选取需要进行字符识别的内容的手势动作;
区域模块,用于根据所述检测到的手势动作确定所述图像中用户关注的文字所在的区域;
识别模块,用于对所述区域内的图像进行光学字符识别,以获得文本格式的字符。
2.如权利要求1所述的基于手势动作的字符识别系统,其特征在于:
所述摄像模块、显示模块、和检测模块设置于一电子终端设备中,所述区域模块和识别模块设置于服务器中,且所述检测模块检测到的手势动作的数据和所述摄像模块摄取的图像通过所述电子终端设备中的无线收发模块发送给所述服务器;或者
所述摄像模块、显示模块、检测模块和区域模块设置于一电子终端设备中,所述识别模块设置于服务器中,且所述区域模块确定出的区域的图像通过所述电子终端设备中的无线收发模块发送给所述服务器;或者
所述各模块均设置于一电子终端设备中。
3.如权利要求2所述的基于手势动作的字符识别系统,其特征在于,所述系统还包括:
压缩模块,用于将摄像模块摄取的彩色图像压缩为2色或者4色的图像,并将压缩后的图像提供给区域模块。
4.如权利要求1或2或3所述的基于手势动作的字符识别系统,其特征在于,所述区域模块包括:
第一子模块:用于对手势动作周围的预定区域进行颜色直方图转换,在颜色直方图转换后的预定区域中基于区域连通性和/或占用面积的比例确定文字所在的区域;和/或
第二子模块,用于在手势动作穿过的图像上的颜色向手势动作周围的预定区域中进行封闭区域颜色填充操作,根据颜色填充操作的结果确定文字所在的区域;
在所述区域模块包括第一子模块和第二子模块时,所述区域模块还包括:
第三子模块,用于根据第一子模块和第二子模块的输出结果确定文字所在的区域。
5.一种翻译系统,其特征在于,所述系统包括上述权利要求1-4中任一权利要求所述的基于手势动作的字符识别系统,且该翻译系统还包括:
翻译模块,用于对所述识别模块识别出的文本格式的字符进行翻译。
6.如权利要求5所述的翻译系统,其特征在于:
所述翻译模块设置于具有摄像功能的便携式电子终端设备中或者设置于服务器中;
在所述翻译模块设置于服务器中的情况下,所述翻译系统通过其收发模块将所述翻译模块的翻译结果发送给电子终端设备,并由所述电子终端设备中的显示模块显示所述翻译结果。
7.一种基于手势动作的字符识别方法,其特征在于,所述方法包括:
摄取图像;
显示所述摄取的图像;
检测用户在所述显示的图像上所进行的选取需要进行字符识别的内容的手势动作;
根据所述检测到的手势动作确定所述图像中用户关注的文字所在的区域;
对所述区域内的图像进行光学字符识别,以获得文本格式的字符。
8.如权利要求7所述的基于手势动作的字符识别方法,其特征在于,所述根据所述检测到的手势动作确定所述图像中的文字所在的区域包括:
将摄取的彩色图像压缩为2色或者4色的图像,并根据所述检测到的手势动作确定所述压缩后的图像中的文字所在的区域。
9.如权利要求7或8所述的基于手势动作的字符识别方法,其特征在于,所述手势动作包括:画点、划线、或者划区。
10.一种翻译方法,其特征在于,所述方法包括上述权利要求7或8所述的基于手势动作的字符识别方法,且所述翻译方法还包括:
对所述文本格式的字符进行翻译,并显示所述翻译的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100845979A CN102737238A (zh) | 2011-04-01 | 2011-04-01 | 基于手势动作的字符识别系统、方法、及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100845979A CN102737238A (zh) | 2011-04-01 | 2011-04-01 | 基于手势动作的字符识别系统、方法、及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737238A true CN102737238A (zh) | 2012-10-17 |
Family
ID=46992707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100845979A Pending CN102737238A (zh) | 2011-04-01 | 2011-04-01 | 基于手势动作的字符识别系统、方法、及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737238A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034855A (zh) * | 2012-12-05 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 在图像中识别字符区域的方法 |
CN104090648A (zh) * | 2014-05-21 | 2014-10-08 | 中兴通讯股份有限公司 | 数据录入方法及终端 |
CN104598289A (zh) * | 2013-10-31 | 2015-05-06 | 联想(北京)有限公司 | 一种识别方法及一种电子设备 |
CN105184838A (zh) * | 2015-09-21 | 2015-12-23 | 深圳市金立通信设备有限公司 | 一种图片处理方法及终端 |
CN105488504A (zh) * | 2015-12-28 | 2016-04-13 | 四川长虹网络科技有限责任公司 | 基于摄像头的汉字识别方法 |
CN105607852A (zh) * | 2015-12-18 | 2016-05-25 | 北京奇虎科技有限公司 | 输入文本的方法及电子设备 |
CN106384351A (zh) * | 2016-08-25 | 2017-02-08 | 成都市晶林科技有限公司 | 基于红外图像直方图的红外图像背景识别方法 |
WO2017041588A1 (zh) * | 2015-09-07 | 2017-03-16 | 广州视睿电子科技有限公司 | 擦除框的范围确定方法和系统 |
CN106781073A (zh) * | 2016-12-15 | 2017-05-31 | 高格(天津)信息科技发展有限公司 | 基于手写文字的快递储物箱 |
CN107004122A (zh) * | 2014-11-18 | 2017-08-01 | 索尼公司 | 补充信息的基于屏幕截图的指示 |
CN107656922A (zh) * | 2017-09-25 | 2018-02-02 | 广东小天才科技有限公司 | 一种翻译方法、装置、终端及存储介质 |
CN107851096A (zh) * | 2015-07-30 | 2018-03-27 | 三星电子株式会社 | 用于提供翻译服务的用户终端装置及其控制方法 |
CN107885449A (zh) * | 2017-11-09 | 2018-04-06 | 广东小天才科技有限公司 | 一种拍照搜索方法、装置、终端设备和存储介质 |
CN108055462A (zh) * | 2017-12-21 | 2018-05-18 | 广东小天才科技有限公司 | 一种数据录入方法及装置 |
CN108073922A (zh) * | 2017-12-21 | 2018-05-25 | 广东小天才科技有限公司 | 一种基于颜色限定的信息搜索方法及电子设备 |
CN108182184A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108182183A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108536686A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 一种图片翻译方法、装置、终端及存储介质 |
CN108959274A (zh) * | 2018-06-27 | 2018-12-07 | 维沃移动通信有限公司 | 一种应用程序的翻译方法及服务器 |
CN109670497A (zh) * | 2018-09-26 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 图片上传方法、装置、设备及可读存储介质 |
CN112118491A (zh) * | 2020-09-25 | 2020-12-22 | 深圳创维-Rgb电子有限公司 | 弹幕生成方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101339617A (zh) * | 2007-07-06 | 2009-01-07 | 上海思必得通讯技术有限公司 | 手机拍照翻译装置 |
CN101551860A (zh) * | 2008-03-31 | 2009-10-07 | 联想(北京)有限公司 | 一种便携式设备及其文字识别翻译方法 |
CN101702154A (zh) * | 2008-07-10 | 2010-05-05 | 三星电子株式会社 | 对基于照相机的图像中的字符进行识别和翻译的方法 |
CN101883197A (zh) * | 2005-06-20 | 2010-11-10 | 三星电子株式会社 | 用于向用户提供图像相关信息的方法和系统及其移动终端 |
CN101968865A (zh) * | 2010-11-17 | 2011-02-09 | 上海合合信息科技发展有限公司 | 在电子日历中添加提醒事件的方法 |
-
2011
- 2011-04-01 CN CN2011100845979A patent/CN102737238A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101883197A (zh) * | 2005-06-20 | 2010-11-10 | 三星电子株式会社 | 用于向用户提供图像相关信息的方法和系统及其移动终端 |
CN101339617A (zh) * | 2007-07-06 | 2009-01-07 | 上海思必得通讯技术有限公司 | 手机拍照翻译装置 |
CN101551860A (zh) * | 2008-03-31 | 2009-10-07 | 联想(北京)有限公司 | 一种便携式设备及其文字识别翻译方法 |
CN101702154A (zh) * | 2008-07-10 | 2010-05-05 | 三星电子株式会社 | 对基于照相机的图像中的字符进行识别和翻译的方法 |
CN101968865A (zh) * | 2010-11-17 | 2011-02-09 | 上海合合信息科技发展有限公司 | 在电子日历中添加提醒事件的方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034855A (zh) * | 2012-12-05 | 2013-04-10 | 曙光信息产业(北京)有限公司 | 在图像中识别字符区域的方法 |
CN104598289A (zh) * | 2013-10-31 | 2015-05-06 | 联想(北京)有限公司 | 一种识别方法及一种电子设备 |
CN104598289B (zh) * | 2013-10-31 | 2018-04-27 | 联想(北京)有限公司 | 一种识别方法及一种电子设备 |
CN104090648A (zh) * | 2014-05-21 | 2014-10-08 | 中兴通讯股份有限公司 | 数据录入方法及终端 |
CN104090648B (zh) * | 2014-05-21 | 2017-08-25 | 中兴通讯股份有限公司 | 数据录入方法及终端 |
CN107004122A (zh) * | 2014-11-18 | 2017-08-01 | 索尼公司 | 补充信息的基于屏幕截图的指示 |
CN107851096A (zh) * | 2015-07-30 | 2018-03-27 | 三星电子株式会社 | 用于提供翻译服务的用户终端装置及其控制方法 |
WO2017041588A1 (zh) * | 2015-09-07 | 2017-03-16 | 广州视睿电子科技有限公司 | 擦除框的范围确定方法和系统 |
CN105184838A (zh) * | 2015-09-21 | 2015-12-23 | 深圳市金立通信设备有限公司 | 一种图片处理方法及终端 |
CN105607852A (zh) * | 2015-12-18 | 2016-05-25 | 北京奇虎科技有限公司 | 输入文本的方法及电子设备 |
CN105488504A (zh) * | 2015-12-28 | 2016-04-13 | 四川长虹网络科技有限责任公司 | 基于摄像头的汉字识别方法 |
CN106384351A (zh) * | 2016-08-25 | 2017-02-08 | 成都市晶林科技有限公司 | 基于红外图像直方图的红外图像背景识别方法 |
CN106781073A (zh) * | 2016-12-15 | 2017-05-31 | 高格(天津)信息科技发展有限公司 | 基于手写文字的快递储物箱 |
CN107656922A (zh) * | 2017-09-25 | 2018-02-02 | 广东小天才科技有限公司 | 一种翻译方法、装置、终端及存储介质 |
CN107885449A (zh) * | 2017-11-09 | 2018-04-06 | 广东小天才科技有限公司 | 一种拍照搜索方法、装置、终端设备和存储介质 |
CN107885449B (zh) * | 2017-11-09 | 2020-01-03 | 广东小天才科技有限公司 | 一种拍照搜索方法、装置、终端设备和存储介质 |
CN108055462A (zh) * | 2017-12-21 | 2018-05-18 | 广东小天才科技有限公司 | 一种数据录入方法及装置 |
CN108073922A (zh) * | 2017-12-21 | 2018-05-25 | 广东小天才科技有限公司 | 一种基于颜色限定的信息搜索方法及电子设备 |
CN108182183A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108182184A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108182183B (zh) * | 2017-12-27 | 2021-09-17 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108182184B (zh) * | 2017-12-27 | 2021-11-02 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
CN108536686A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 一种图片翻译方法、装置、终端及存储介质 |
CN108536686B (zh) * | 2018-04-11 | 2022-05-24 | 百度在线网络技术(北京)有限公司 | 一种图片翻译方法、装置、终端及存储介质 |
CN108959274A (zh) * | 2018-06-27 | 2018-12-07 | 维沃移动通信有限公司 | 一种应用程序的翻译方法及服务器 |
CN108959274B (zh) * | 2018-06-27 | 2022-09-02 | 维沃移动通信有限公司 | 一种应用程序的翻译方法及服务器 |
CN109670497A (zh) * | 2018-09-26 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 图片上传方法、装置、设备及可读存储介质 |
CN112118491A (zh) * | 2020-09-25 | 2020-12-22 | 深圳创维-Rgb电子有限公司 | 弹幕生成方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737238A (zh) | 基于手势动作的字符识别系统、方法、及其应用 | |
US20160358030A1 (en) | Server-assisted object recognition and tracking for mobile devices | |
US10013624B2 (en) | Text entity recognition | |
CN103518179B (zh) | 虚拟键盘及其提供方法 | |
US9055384B2 (en) | Adaptive thresholding for image recognition | |
CN202093528U (zh) | 基于手势动作的字符识别系统及翻译系统 | |
US20140111542A1 (en) | Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text | |
JP2019505872A (ja) | 動的な効果を有する2次元コード画像を生成するための方法および装置 | |
WO2016149918A1 (zh) | 用户地理位置的确定 | |
CN104123520A (zh) | 二维码扫描方法及装置 | |
US9984486B2 (en) | Method and apparatus for voice information augmentation and displaying, picture categorization and retrieving | |
CN102214222A (zh) | 通过手机摄像获取景物资讯的预分类及交互系统和方法 | |
US20080137958A1 (en) | Method of utilizing mobile communication device to convert image character into text and system thereof | |
US20190155883A1 (en) | Apparatus, method and computer program product for recovering editable slide | |
CN106200942B (zh) | 信息处理方法及电子设备 | |
Foong et al. | Text signage recognition in Android mobile devices | |
JP2013004001A (ja) | 表示制御装置、表示制御方法、およびプログラム | |
CN202275357U (zh) | 人机互动系统 | |
KR20220079432A (ko) | 스크린샷 이미지로부터 추출된 태그 정보를 사용자에게 제공하는 방법 및 시스템 | |
KR20100124952A (ko) | 문자인식을 이용한 휴대형 단말기의 증강현실 기반 실시간 ar컨텐츠 제공시스템 및 그 방법 | |
Jayashree et al. | Voice based application as medicine spotter for visually impaired | |
JP2016025625A (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20150101846A (ko) | 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
KR101193485B1 (ko) | 모바일 카메라를 이용한 다중 정보 인식 및 이를 이용한 검색 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
Farhath et al. | Development of shopping assistant using extraction of text images for visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121017 |