CN1773523A

CN1773523A - 带摄像头的便携式信息终端机的文字识别及声音输出的装置和方法

Info

Publication number: CN1773523A
Application number: CN 200410067969
Authority: CN
Inventors: 申铉定; 安男皓
Original assignee: LG Electronics Kunshan Computer Co Ltd
Current assignee: LG Electronics Kunshan Computer Co Ltd
Priority date: 2004-11-08
Filing date: 2004-11-08
Publication date: 2006-05-17

Abstract

本发明是有关带摄像头的便携式信息终端机的文字识别及声音输出的装置和方法的。它由以下四个部分组成：①影像输入部。它能够以帧为单位接收反拍摄的影像，并对规定的选择区域进行放大和缩小等处理。②影像前处理部。它能够在频率区域内将上述影像输入部接收的影像进行数据信号处理从而获得文字区域并将文字的笔画、幅度等信息做二进制处理。③文字识别引擎部。它能够将上述二进制化的文字信息与以统计方法预先设置的字符数据基础的字符进行比较，然后搜索出在构造和统计上最少的字符。④声音合成处理部。它能够将上述文字识别引擎部识别出的文字经过声音合成处理后变换成声音。

Description

带摄像头的便携式信息终端机的文字识别及声音输出的装置和方法

【技术领域】

本发明是有关带摄像头的便携式信息终端机的文字识别及声音输出的装置和方法的。详细地说，就是通过灵活运用以统计方法为基础的字符数据基础、只对最少的文字数据采样取值从而进行文字识别的方法，来减少文字识别引擎的计算量，进而更快地进行文字识别，然后通过声音输出识别出的文字信息，从而提高用户的方便程度。

【背景技术】

一般情况下，所谓便携式信息终端机是指具有中央处理装置、存储器和显示装置(它能向用户提供影像)的体积小、便于携带的终端机。它包括可设置数字摄像头的移动通信终端机、PDA(个人携带信息终端)等。

最近的各种便携式信息终端机得益于数字技术的飞跃性发展，除了通信功能、PDA之外还增加了设置高性能数字摄像头的功能。尤其是高性能数字摄像头，由于CCD/CMOS等传感技术的发展而达到兆像素级以上，因而解像度也正在迅速地提高。它能够利用光学变焦和数字变焦来进行数字影像处理，使影像的扩大和缩小等处理功能与过去相比更加精巧。

设置有上述高性能数字摄像头的便携式信息终端机通过应用摄像机，不仅可以提供静止影像的捕获与集合等功能，还可以提供动影像的拍摄与读取等功能。另外，类似的各种功能(如：在没有其他扫描设备的情况下也可以进行文字识别)也都处在开发当中。

尤其是在文字识别方面，目前正通过进一步完善对肉眼难以识别的文字的判读和受现有视力局限的文字信息的获取体制，来持续进行提高那些附加价值高并且能向用户传送更清晰的文字识别及文字信息方法的便利性的研究。

但是，原有的文字识别方法由于文字识别引擎计算量大，不仅文字识别的速度慢，而且对肉眼难以识别的小字的识别正确率也非常低。

【发明内容】

因此，本发明就是为了解决上述问题而创造出来的，它灵活运用了以统计方法为基础的字符数据基础，只对最小的文字数据取值来进行文字识别，通过以上方法来减少文字识别引擎的计算量，从而能够更快地进行文字识别。然后通过声音将已识别的文字信息输出，以此来提高用户的方便性。本发明的目的就是提供带摄像头的便携式信息终端机文字识别及声音输出的装置和方法。

为了达到上述目的，本发明由以下四个部分组成：①影像输入部。它能够以帧为单位接收反拍摄的影像，并对规定的选择区域进行放大和缩小等处理。②影像前处理部。它能够在频率区域内将上述‘影像输入部’接收的影像进行数据信号处理从而获得文字区域并将文字的笔画、幅度等信息做二进制处理。③文字识别引擎部。它能够将上述二进制化的文字信息与以统计方法预先设置的字符数据基础的字符进行比较，然后搜索出在构造和统计上最少的字符。④声音合成处理部。它能够将上述文字识别引擎部识别出的文字经过声音合成处理后变换成声音。

而且，为了达到上述目的，本发明包含了以下几个步骤：①接收拍摄的影像，用最大的‘解像度’重新设定规定的选择区域，从而确保‘高解像度’影像的步骤。②在频率区域内有选择性地过滤通过上述‘高解像度’获得的选择区域影像的步骤。③将经上述过滤的影像中除背景影像方块之外的、相当于文字区域的方块分割成多个小文字区域的步骤。④利用统计方法将上述小文字区域的文字和预先设定的字符数据基础的字符相比较，从而搜索出最少的字符的步骤。⑤以经过上述搜索而选择的标准文字数据为基础再次进行标本化之后，对上述各小文字区域另行标本化的文字数据进行综合的步骤。⑥将上述综合的文字数据显示在画面上或经过声音合成过程输出声音的步骤。

本发明的主旨是提供能够灵活运用设置在便携式信息终端机上数字摄像头的数字影像扩大和数字影像处理的功能，通过统计性的文字识别来提高对肉眼难以识别的小字的文字信息认知度，通过随后的影像处理和声音合成将识别的文字以声音形式输出并告知用户，从而提高用户方便性的装置和方法。

如上所述，本发明的带摄像头的便携式信息终端机的文字识别及声音输出的装置和方法，通过灵活运用以统计方法为基础的字符数据基础、只对最少的文字数据取值后进行文字的识别，来减少文字识别引擎的计算量，进而达到更快速识别文字的目的。通过将识别后的文字信息以声音形式输出，来达到提高用户方便性的效果。

【附图说明】

图1是本发明中带摄像头的便携式信息终端机的文字识别及声音输出装置的构成方块图。

图2是对本发明中便携式信息终端机拍摄的影像进行前处理的文字识别过程顺序图。

【具体实施方式】

下面将参照附图对本发明的理想实施例进行详细说明。

图1是本发明中带摄像头的便携式信息终端机的文字识别及声音输出的装置的构成方块图。如图所示，该装置由以下几个部分构成：①将被拍摄物体转换成电信号的数据摄像传感部101。②通过上述数据摄像传感部101以帧为单位接收被拍摄物体的影像，针对规定的选择区域进行影像扩大和缩小等处理的影像输入部102。③在频率区域内将影像输入部102接收的影像进行数据信号处理，从而取得文字区域并将文字的笔画和幅度等文字信息做二进制处理的影像前处理部103。④将上述二进制化的文字信息与以统计方法预先设置的字符数据基础的字符进行比较，然后搜索出在构造和统计上最少的字符的‘文字识别引擎部’104。⑤通过上述文字识别引擎部104对文字和背景进行影像处理，进而将识别出的文字更清晰地展现给用户的影像后处理部105。⑥通过上述文字识别引擎部104将识别的文字进行声音合成从而转换成声音的声音合成处理部106。⑦显示经过上述影像后处理部处理过的文字和输出经过声音合成处理部变换的声音的用户界面107。

下面将说明一下具有上述构成的带摄像头的便携式信息终端机的文字识别和声音输出装置的动作及作用。

当用户通过便携式信息终端机内置的数据摄像头来判读由于用户视力下降而难以用肉眼识别的文字(远处的广告板或道路标示牌等)时，用户可以利用相关文字区域的摄像头的变焦功能进行适当的扩大以提高解像度，进而捕获影像。

如此，在影像前处理部103，被捕获的影像通过频率区域的过滤有选择性地取得比背景影像频率高的文字信息，以被判断为文字区域的部分为单位进行细部分割并正规化之后，与具有数据基础(对多种形态的文字进行统计化的数据基础)的字符数据相比较，将文字的笔画和幅度重新标本化，删除不必要的信息，只对文字识别引擎所需的数据进行二进位转换。

然后，以经上述方法获得的二进制数据为基础，以文字的构成性、统计性特征为依据，在文字识别引擎内进行文字识别并取得文字信息，通过字符数据将文字信息再次合成为具有规定大小和形态的文字，为了使这些文字更清晰地表现出来，影像后处理部105对背景影像进行再处理以提高文字的清晰度，之后再通过用户界面107的显示装置进行输出。

而且，在声音合成处理部106，以经过文字识别引擎部104识别的文字信息为基础合成符合相关文字的声音，通过用户界面107的声音输出装置进行输出，从而将上述识别的文字信息通过声音和画面准确地告知给用户。

另外，图2是对用本发明的便携式信息终端机拍摄的影像进行再处理的文字识别过程顺序图。它包括以下几个过程：①所拍摄影像以帧为单位通过影像输入部进行接收S201，②利用最大的解像度将采用数字变焦等的用户选择区域进行重新选定并扩大影像S202，③经上述最大‘解像度’所获得的选择区域影像在频率区域进行有选择性的过滤S203，④然后将过滤后影像中除背景影像方块之外的相当于文字区域的方块细分成多个小文字区域S204、S205，⑤将上述细分出来的文字区域的文字与利用统计方法预先设置的字符数据基础的字符相比较，搜索出最小的字符S206，⑥以上述搜索所选择的标准字符为基础进行重新标本化S207，⑦然后与上述各小文字区域另行标本化的文字数据综合起来S208，⑧经过影像后处理过程显示在画面上或经过声音合成过程输出声音S209。

即，上述影像前处理过程是通过摄像头由用户以帧为单位来指定被输入影像数据的选择区域，在此基础上，用最大的解像度在选择区域内重新取得影像数据，然后通过频率区域的过滤取得区别于背景影像的文字影像数据，再将背景影像删除，将相当于文字区域的影像分成小文字区域。

然后，参照字符数据基础(将多种形态的文字统计化所得的数据基础)来分别比较上述各小文字区域的最恰当字符，对搜索后所选择的字符进行重新取样，以此作为相关小文字区域的代表值，将各小文字区域的‘代表值’综合起来重新构成文字区域之后，将这个值二进制化后输入文字识别引擎来使用。

以上述方式的影像前处理为依据的文字识别引擎中的文字识别过程，由于在字符数据基础中只对用于文字识别的最少的文字影像数据进行取值，因而减少文字识别引擎的计算量、提高文字识别过程的准确性，并缩短了所需时间，进而能够提供更快的应答速度。

综上所述，本发明中利用带摄像头便携式信息终端的文字识别及声音输出方法，能够用最大的解像度将用户选择区域(利用光学变焦或数据变焦的选择区域)扩大来进行文字识别，并且在清晰地显示文字的同时能够通过声音合成来以声音形式输出文字。通过以上方式来为识别肉眼难以识别的文字(远处的广告板或道路标示牌等)及告知用户提供便利，通过以统计方法将文字影像数据二进位化，来减少文字识别引擎的计算量，同时提高文字识别的准确度，进而提供整体识别系统的更快的应答速度，更快地将准确的文字信息提供给用户。

Claims

1、带摄像头的便携式信息终端机的文字识别及声音输出的装置，包括：

影像输入部，以帧为单位接收拍摄的影像，并对规定的选择区域进行放大和缩小处理；

影像前处理部，在频率区域内将上述影像输入部接收的影像进行数据信号处理从而获得文字区域并将文字的笔画、幅度等信息做二进制处理；

文字识别引擎部，它能够将上述二进制化的文字信息以统计的方法与预先设置的字符数据基础的字符进行比较，然后搜索出在构造和统计上最少的字符；

声音合成处理部，将上述文字识别引擎部识别出的文字经过声音合成处理后变换成声音。

2、如权利要求1所述的带摄像头的便携式信息终端机的文字识别及声音输出的装置，其特征在于，

上述字符数据基础是通过将多种形态的文字统计化而构成的数据基础。

3、如权利要求1所述的带摄像头的便携式信息终端机的文字识别及声音输出的装置，其特征在于，

上述选择区域是利用光学变焦或数据变焦构成的可以进行选择的区域。

4、如权利要求1所述的带摄像头的便携式信息终端机的文字识别及声音输出的装置，其特征在于，所述装置进一步包括：

影像后处理部，对文字和背景进行影像处理，以便将通过上述文字识别引擎部识别的文字更清晰地显示给用户；

用户界面，显示通过上述影像后处理部处理的文字和输出通过上述声音合成部变换的声音。

5、带摄像头的便携式信息终端机的文字识别及声音输出的方法，包括：

接收所拍摄影像，并利用最大的解像度将规定的选择区域进行重新选定并确保高解像度影像的步骤；

在频率区域内对上述通过高解像度获得的选择区域进行有选择性采样的步骤；

将上述被采样的影像中除背景影像之外的、相当于文字区域的方块分成多个小文字区域的步骤；

将上述小文字区域的文字与利用统计方法预先设置的字符数据基础的字符相比较，搜索出最少的字符的步骤；

以上述搜索出的标准字符为基础进行再次标本化之后，将上述各小文字区域另行标本化的文字数据综合起来的步骤；

将上述综合后的文字数据显示在画面上或通过声音合成过程输出声音的步骤。