发明内容
鉴于上述原因,本发明提供一种字符方向判断方法及装置,其通过统计多个方向中识别出的字符数量,来判定字符的正确方向。
根据本发明的一个方面,提供一种字符方向判断方法,包括:在将字符旋转0°、90°、180°和270°的四个方向上,分别对字符进行识别,输出置信度高的字符;分别统计所述四个方向上的识别后输出的所述置信度高的字符的数量;将输出的所述置信度高的字符的数量最多的方向判定为正确的字符方向。
根据本发明的另一方面,在所述对字符进行识别中,仅识别字符中的数字,并输出置信度高的数字。
根据本发明的另一方面,仅输出具有至少两个连续出现的数字串中的数字。
根据本发明的另一方面,在所述对字符进行识别中,仅识别字符中的英文字母,并输出置信度高的英文字母。
根据本发明的另一方面,在所述对字符进行识别中,仅识别字符中的常用文字,并输出置信度高的常用文字。
根据本发明的另一方面,在所述对字符进行识别中,使用光学字符识别(OCR)引擎对字符进行识别。
根据本发明的另一方面,提供一种字符方向判断装置,包括:字符识别单元,用于在将字符旋转0°、90°、180°和270°的四个方向上,分别对字符进行识别,输出置信度高的字符;统计单元,用于分别统计所述四个方向上的识别后输出的所述置信度高的字符的数量;判定单元,用于将输出的所述置信度高的字符的数量最多的方向判定为正确的字符方向。
根据本发明的另一方面,所述字符识别单元仅识别字符中的数字,并输出置信度高的数字。
根据本发明的另一方面,所述字符识别单元仅输出具有至少两个连续出现的数字串中的数字。
根据本发明的另一方面,所述字符识别单元仅识别字符中的英文字母,并输出置信度高的英文字母。
根据本发明的另一方面,所述字符识别单元仅识别字符中的常用文字,并输出置信度高的常用文字。
根据本发明的另一方面,所述字符识别装置使用光学字符识别(OCR)引擎对字符进行识别。
通过统计多个方向中识别出的字符数量,来判定字符的正确方向,使得可以自动快速的识别图像中的字符方向而不用考虑图像的拍摄方向。通过使用数字、字母或常用字识别,可以提高方向判断的速度和准确度。
该字符方向判断方法和字符方向判断装置对名片等包含字符的图像的字符方向判断是特别有利的。
具体实施方式
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
现在将仅通过示例性方式来详细地描述本发明的各种实施方式。
图1是根据本发明优选实施例的一字符方向判断方法的流程图。该方法可典型地用于名片中的常用词的识别。该方法具体包括下列步骤:
首先执行步骤S11,在将字符旋转0°、90°、180°和270°的四个方向上,分别对字符进行识别,输出置信度高的字符。包括字符的图片通常通过拍摄而获得。在一个典型的应用中,用户通过移动设备,例如手机上的照相机对名片进行拍摄。由于用户手持照相机相对于名片的方位可能是随意的,因而拍摄出来的正常方向的图片中的名片及其中的字符可能是正确方向的,也可能是旋转90°、180°或270°的。通过将该图像及其中的字符自动旋转0°、90°、180°和270°,并分别对该四个方向上的图像中的字符进行识别,获得每个方向中的图像中识别出的置信度相对高的若干字符。可以对置信度设定合适的阈值来筛选置信度相对高的若干字符。
可以通过光学字符识别(OCR)引擎对字符进行识别。光学字符识别(OCR)引擎是用于识别图像中的字符的公知的技术,因而在此不再赘述。
然后执行步骤S12,分别统计所述四个方向上的识别后输出的所述置信度高的字符的数量。正确的字符方向上的置信度高的字符数量显然应该明显地多于其他三个方向的。
然后执行步骤S13,将输出的所述置信度高的字符的数量最多的方向判定为正确的字符方向。置信度高的字符的数量最多,说明了该方向中字符被识别的概率最高,因而该方向为正确字符方向的可能性最大,由此判定该方向为字符的正确方向。在判定正确的字符方向后,可以在该方向的图像中识别所有的字符信息,从而进行后续处理。
在第一优选实施方式中,在步骤S11中,仅识别字符中的数字,并输出置信度高的数字。由于数字仅包括0-9的十个不同值,且数字的图形结构相对文字更为简单,因而识别数字的OCR引擎更为简单,且识别速度和准确率都更高。在例如名片等通常都必然包含数字的字符方向判断中,尤其适合使用OCR数字识别引擎来识别字符中的数字,作为判断字符方向的依据。
优选地,仅输出具有至少两个连续出现的数字串中的数字,而将识别出的其他单个出现的数字排除掉。因为单个的数字是引擎识别错误或图像不清晰造成的错误识别的可能性较大,而连续出现的数字串被误识别的概率较小。通过排除单个数字,可以使得统计的置信度高的数字的数量更加准确。该方法尤其适用例如名片的识别,因为名片中通常存在连续的数字串,例如电话号码等,而很少出现单个的数字,因此这种情况下单个数字更可能是误识别的结果。
在第二优选实施方式中,在步骤S11中,仅识别字符中的英文字母,并输出置信度高的英文字母。由于英文字母仅包括a-z的26个小写字母和A-Z的26个大写字母,使用英文字母OCR引擎识别字符中的英文字母也可以获得相对文字识别更快的速度和准确率。在通常包含英文字母的图像中,例如英文名片等,使用该方法来判断字符方向是合适的。
在第三优选实施方式中,在步骤S11中,仅识别字符中的常用文字,并输出置信度高的常用文字。识别各种文字的OCR引擎是相对复杂的,且识别各种文字的速度和准确率是较低的,但是如果仅用OCR引擎识别有限的几个文字,OCR引擎就比较简单,而且识别速度和准确率也就相对高。例如,对于名片信息,其中必然包括“电话”、“地址”等文字。将OCR引擎配置为仅用于识别“电话”、“地址”等常用文字中的一个或多个,然后使用该OCR引擎识别上述四个方向中的图像中的字符,在错误的字符方向误识别为以上有限个常用文字的可能性很低,而在正确的字符方向很容易识别出上述常用文字,因而能够使得正确字符方向的输出字符数量能明显多于其他方向,从而准确判定字符的正确方向。而且,由于仅识别有限的数个常用文字,相比识别各种可能的文字而言,识别速度将会更快,而OCR引擎的开发也将更容易。
该字符方向判断方法适于通过计算机程序来实现。
图2是适于用来实践本发明实施方式的字符方向判断装置的示意性框图。在图2中,字符方向判断装置200包括:字符识别单元201,用于在将字符旋转0°、90°、180°和270°的四个方向上,分别对字符进行识别,输出置信度高的字符;统计单元202,用于分别统计所述四个方向上的识别后输出的所述置信度高的字符的数量;判定单元203,用于将输出的所述置信度高的字符的数量最多的方向判定为正确的字符方向。
优选地,所述字符识别单元仅识别字符中的数字,并输出置信度高的数字。
优选地,所述字符识别单元仅输出具有至少两个连续出现的数字串中的数字。
优选地,所述字符识别单元仅识别字符中的英文字母,并输出置信度高的英文字母。
优选地,所述字符识别单元仅识别字符中的常用文字,并输出置信度高的常用文字。
优选地,所述字符识别装置使用光学字符识别(OCR)引擎对字符进行识别。
该字符方向判断装置200适于执行以上所述的各种字符方向判断方法。
该字符方向判断装置适于通过载入以上字符方向判断方法的计算机硬件来实现。该字符方向判断装置尤其适于通过载入以上字符方向判断算法的、具有计算处理功能的手机等移动设备来实现。该移动设备优选还具有数码相机,用于拍摄名片等包含文字的图像信息。该移动设备可通过载入的算法程序,即时对拍摄的名片等图像中的字符进行提取、识别、方向判断、存储。
下面参考图3,其示出了适于用来实践本发明实施方式的移动终端300的示意性框图。在图3所示的示例中,移动终端300是一个具有无线通信能力的移动设备。然而,可以理解,这仅仅是示例性而非限制性的。其他类型的移动终端也可以容易地采用本发明的实施方式,诸如便携式数字助理(PDA)、寻呼机、移动计算机、移动电视、游戏设备、膝上型计算机、照相机、录像机、GPS设备以及其他类型的语音和文本通信系统。固定式移动终端同样可以容易地使用本发明的实施方式。
移动终端300包括一个或天线312,其可操作地与发射机314和接收机316进行通信。移动终端300还包括处理器312或者其他处理元件,其分别提供去往发射机314的信号和接收来自接收机316的信号。信号包括按照适当蜂窝系统的空中接口标准的信令信息,并且还包括用户语音、接收的数据和/或用户生成的数据。在此方面,移动终端300能够利用一个或多个空中接口标准、通信协议、调制类型以及接入类型来进行操作。作为示范,移动终端300能够根据多个第一代、第二代、第三代和/或第四代通信协议等中的任何协议来进行操作。例如,移动终端300可以能够按照第二代(G)无线通信协议IS-136(TDMA)、GSM和IS-95(CDMA)来进行操作,或者按照诸如UMTS、CDMA2000、WCDMA和TD-SCDMA的第三代(G)无线通信协议来进行操作,或者按照第四代(4G)无线通信协议和/或类似协议进行操作。
可以理解,处理器312包括实现移动终端300的功能所需的电路。例如,处理器312可以包括数字信号处理器设备、微处理器设备、各种模数转换器、数模转换器和其他支持电路。移动终端300的控制和信号处理功能按照这些设备各自的能力在其间分配。处理器312由此还可以包括在调制和传输之前对消息和数据进行卷积编码和交织的功能。处理器312还可以另外包括内部语音编码器,并且可以包括内部数据调制解调器。此外,处理器312可以包括对可以存储在存储器中的一个或多个软件程序进行操作的功能。例如,处理器312可以能够操作连接程序,诸如传统的Web浏览器。连接程序继而可以允许移动终端300例如按照无线应用协议(WAP)、超文本传输协议(HTTP)等来发射和接收Web内容(诸如基于位置的内容和/或其他web页面内容)。
移动终端300还可以包括用户接口,其例如可以包括耳机或者扬声器324、振铃器322、麦克风326、显示屏328以及输入接口331,所有这些设备都耦合至处理器312。移动终端300可以包括小键盘330。小键盘330可以包括传统的数字键(0-9)和相关键(#、*),以及用于操作移动终端300的其他键。备选地,小键盘330可以包括传统的QWERTY小键盘布置。小键盘330还可以包括与功能相关联的各种软键。移动终端300还可以包括相机模块336,用于捕获静态和/或动态图像。
特别地,显示屏328可以包括触摸式屏幕和/或邻近式屏幕,用户可以通过直接操作屏幕而操作移动终端300。此时,显示屏328同时充当输入设备和输出设备二者。在这样的实施方式中,输入接口331可以配置用于接收用户通过例如普通的笔、专用触笔和/或手指在显示屏328上提供的输入,包括指点输入和手势输入。处理器312可配置用于检测此类输入,并且识别出用户的手势。
此外,移动终端300可以包括诸如操纵杆的接口设备或者其他用于输入接口。移动终端300还包括电池334,诸如振动电池组,用于为操作移动终端300所需的各种电路供电,以及可选地提供机械振动作为可检测输出。
移动终端300可以进一步包括用户标识模块(UIM)338。UIM 338通常是具有内置处理器的存储器设备。UIM 338例如可以包括订户标识模块(SIM)、通用集成电路卡(UICC)、通用订户标识模块(USIM)、可移动用户标识模块(R-UIM)等。UIM 338通常存储与移动订户相关的信元。
移动终端300还可以具有存储器。例如,移动终端300可以包括易失性存储器340,例如包括用于数据临时存储的高速缓存区域的易失性随机存取存储器(RAM)。移动终端300还可以包括其他非易失性存储器342,其可以是嵌入式的和/或可移动的。非易失性存储器342可以附加地或者可选地包括例如EEPROM和闪存等。存储器可以存储移动终端300所使用的多个信息片段和数据中的任意项,以实现移动终端300的功能。
所述移动终端300可以配置用于实现上文结合图1描述的方法以及作为结合图2描述的装置。
应当理解,图3所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。
已经出于示出和描述的目的给出了本发明的说明书,但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解,本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。
因此,实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的,即,在不脱离本发明精神的前提下,做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。