CN101609505B

CN101609505B - 识别字符的方法和装置

Info

Publication number: CN101609505B
Application number: CN2009101406740A
Authority: CN
Inventors: 金玄水; 黄星泽; 吴尚昱; 金尚镐; 吴润济; 郑熙远; 金成喆
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2008-06-19
Filing date: 2009-06-12
Publication date: 2013-05-08
Anticipated expiration: 2029-06-12
Also published as: CN101609505A; KR20090132482A; KR101002899B1

Abstract

公开了一种用于使用图像识别字符的方法和装置。根据字符识别请求激活照相机，以及设置预览模式以实时地显示通过照相机拍摄的一个或多个图像。控制照相机的自动聚焦，以及从预览模式下获得的图像中获得具有预定水平的清晰度的用于字符识别的图像。字符识别处理所述用于字符识别的图像以便提取识别结果数据。从识别结果数据中提取出排除了非字符数据的最终的识别字符行。组合第一字使其包括最终的识别字符行的至少一个字符和预定最大数目的字符。并且使用第一字搜索存储关于各种语言的字典信息的字典数据库，以便为用户提供相应的字。

Description

识别字符的方法和装置

技术领域

本发明一般涉及用于识别字符的方法和装置，更具体地，涉及用于使用照相机识别字符的方法和装置。

背景技术

随着电子技术的发展，诸如移动通信终端、个人数字助理(PDA)和便携式游戏设备的便携式终端除了它们的一两个专有功能之外，还已经合并有各种功能。例如，除通信功能需要的设备之外，移动通信终端也可以包括数字照相机或音乐文件再现设备，以便为用户提供照相功能或音乐再现功能。此外，这样增加的设备与其它应用相连接，以便提供各种功能。例如，包括照相机的便携式终端在与字符识别应用连接时，还可以使用静止图像提供字符识别的功能。

一般说来，包括照相机的便携式终端产生和存储用于字符识别的静止图像，然后字符识别应用读取存储的静止图像以便执行字符识别。识别的结果可以被用于另一个应用。具体地说，字符识别可以用来省去复杂的处理，诸如用户的字符键输入。字符识别还可以用来输入那些不能通过包括在便携式终端中的键输入的字符，或者用来输入用户不知道的字符。

但是，传统字符识别方法不能实时地快速地识别连续字，因为用户按下快门来获取字符的图片，由拍摄的结果获得静止图像，然后执行字符识别处理。在这点上，如果存在许多要被识别的字符，则需要一种高效快速地执行字符识别并且提供识别结果的方法。

发明内容

做出本发明以解决至少上述问题和/或缺点并且提供至少下述优点。因此，本发明的一方面提供一种用于识别字符的方法和装置，当用户使用照相机识别字符时，该方法和装置实时地快速地识别多个字符并且为用户提供识别的结果。

根据本发明的一方面，提供了一种在字符识别装置中识别字符的方法。根据字符识别请求激活照相机，以及设置预览模式以实时地显示通过照相机拍摄的一个或多个图像。控制照相机的自动聚焦，以及从预览模式下获得的图像中获得具有预定水平的清晰度的图像作为用于字符识别的图像。对用于字符识别的图像进行字符识别处理以便提取识别结果数据。从识别结果数据中提取出排除了非字符数据的最终的识别字符行。

用于识别字符的方法还可以包括：根据字符识别请求激活照相机并且设置预览模式，该预览模式实时地显示通过照相机拍摄的一个或多个图像；从用于字符识别的图像中检测字符；以及如果没有字符存在，则获得通过预览模式首先显示的预览图像，或者如果存在字符，则检测由用户引起的字符识别装置的运动是否存在。

用于识别字符的方法还可以包括：如果字符识别装置的运动存在，则获得通过预览模式首先显示的预览图像；以及如果没有运动存在，则控制照相机的自动聚焦，并且从预览模式下获得的图像中获得具有预定水平的清晰度的图像作为用于字符识别的图像。

用于识别字符的方法还可以包括：组合包括最终的识别字符行的字符和预定的最大数目的字符的第一字，并且使用第一字搜索存储关于各种语言的字典信息的字典数据库，以便为用户提供相应的字。

附图说明

通过下面结合附图的详细描述，本发明的上述方面、特征和优点将更加明显，其中：

图1是示出根据本发明的实施例的字符识别装置的结构的图；

图2是示出根据本发明的实施例的字符识别装置的操作方法的流程图；

图3是示出根据本发明的实施例的控制字符识别装置的自动聚焦功能的过程的流程图；

图4是示出根据本发明的实施例的字典搜索过程的图；

图5是示出根据本发明的另一个实施例的字典搜索过程的图；

图6是示出根据本发明的另一个实施例的字符识别装置的操作过程的流程图；

图7是示出根据本发明的实施例的确定字符的存在的过程的流程图；

图8是示出根据本发明的实施例的确定运动的存在的过程的流程图；

图9是示出根据本发明的实施例应用了字符检测和运动检测的结果的图。

具体实施方式

下面参考附图详细描述本发明的优选实施例。虽然它们在不同的附图中，但是相同的或相似的元件可以由相同的或相似的参考数字指定。本领域已知的结构或处理的详细描述可以被省略以避免混淆本发明的主题。

参考图1描述本发明的字符识别装置的结构。根据本发明的字符识别装置可以被安装在诸如移动通信终端或便携式媒体播放机(PMP)的便携式终端上。如图1所示，字符识别装置包括识别控制单元10、照相机20、存储器30、字典数据库40、显示单元60和键输入单元50。

照相机20根据识别控制单元10的控制，使用固态图像捕获设备等将通过物镜和取景器接收的对象的模拟图像转换成数字信息，以便将转换后的信息存储在存储器30中。

显示单元60在识别控制单元10的控制下，将存储在存储器30中的各种图像和数据信息显示在屏幕上。当照相机功能被激活时，操作照相机20以便执行预览模式，该预览模式实时地将通过镜头捕获的图像显示在显示单元60的屏幕上。当在期望的对象被显示在显示单元60的液晶显示器(LCD)上的状态下用户按下照相按钮时，图像通过照相机20的镜头被捕获，以及捕获的图像被压缩，以存储在存储器30中。此外，显示单元60显示字符识别结果、字符识别状态等等。

键输入单元50包括数字键、方向键或对应于字符识别装置的各种功能的功能键，并且为识别控制单元10提供与用户按下的键对应的键输入数据。

字典数据库40存储对应于各种语言的字典信息。

存储器30存储用于处理并控制识别控制单元10的程序、参考数据、各种可更新的数据存储器数据等等，其被提供给识别控制单元10的工作存储器。此外，存储器30存储由照相机20产生的图像数据。

识别控制单元10控制字符识别装置的各种操作，处理数据，根据本发明识别字符，使用识别的字符搜索字典数据库40，以及为用户提供搜索结果。

参考图2描述识别控制单元10的操作。图2示出了根据本发明的实施例的识别控制单元10的操作。

参考图2，如果用户请求字符识别，则识别控制单元10在步骤101激活照相机20，设置预览模式，以及实时地将通过照相机20拍摄的图像显示在显示单元60上。识别控制单元10在屏幕上指示输入起始点。输入起始点有助于提高字符识别率并且表示用于识别的字符在屏幕上的位置。当预览模式被设置并且图像被显示在显示单元60上时，用户将照相机20的镜头对准字符。用户可以调整照相机20的位置以使得字符在输入起始点上。

在上述过程中，照相机20由用户移动以使得照相机20和对象字符之间的距离可能被改变，从而引起聚焦损失以及图像的模糊。模糊是指图像中的对象的轮廓模糊的现象。在严重模糊的图像中是不可能识别出字符的，因此必须获得具有一定水平的清晰图像。因此，在本发明中的识别控制单元10在步骤103中控制自动聚焦，其实时地检测图像输入的模糊并且自动地调整聚焦。

自动聚焦的控制如图3所示。识别控制单元10在步骤201获得预览图像并且在步骤203检测模糊。识别控制单元10在步骤205识别预览图像中是否存在模糊，以及如果存在模糊，则在步骤209执行自动聚焦。但是，如果不存在模糊，则识别控制单元10在步骤207获得预览图像作为用于字符识别的图像。

在使用模糊检测方法中，如果当前图像的对象的轮廓不如预定的参考值清晰，则识别控制单元10确定产生了模糊并且当前图像的焦距是不完全的(incomplete)。识别控制单元10然后控制照相机20以便执行自动聚焦。如果根据模糊检测结果，包括在当前图像中的对象的轮廓与预定的参考值一样清晰或者比预定的参考值更清晰，即具有大于或等于参考值的值的清晰度，则该图像被获得作为用于识别的图像。因为识别控制单元10通过自动聚焦控制有条件地执行自动聚焦，因此它可以快速地获得用于识别的图像。与其中存储特定的静止图像、读取所存储的静止图像、然后将读取的静止图像用作用于识别的静止图像的传统字符识别相反，在本发明中，从预览模式中获得的没有模糊的预览图像用于识别，以便减小字符识别的处理时间。

返回到图2，在步骤105通过上述过程获得用于识别的图像，并且在步骤107，识别控制单元10执行字符识别预处理。在字符识别预处理中，识别控制单元10调整图像的亮度或光强，或者调整轮廓使其清晰，以提高当前获得的用于识别的图像的识别率。然后，识别控制单元10提取包括字符的感兴趣区域(ROI)。

识别控制单元10在步骤109使用其中字符识别预处理已经完成的预处理的图像来识别字符，并且在步骤111执行字符识别后处理。字符识别后处理是一种字典搜索的预处理，其去掉可能由于错误识别而导致的识别结果。例如，在识别‘Korea XXX’(其中X不是字符，而是不同的语言、符号或者输入图像中的特殊字符)时，需要提取用于确定从识别结果中准确地识别出实际字符的字符码(即，作为通过由识别装置识别图像获得的结果的码，例如ASCII配置)。此外，识别控制单元10考虑识别的字符的各自语言的特性，以处理它们，使得能够更快速且准确地获得字典搜索结果。

因为韩国语中的字的变换很复杂，因此如果没有进行用于词素分析或变换的处理，则很难获得准确的字典搜索结果。例如，对于字‘sylphic’，字典一般仅仅包括‘sylph’或‘sylphid’。即使识别器准确地识别出‘sylphic’，一般字典也不包括字的每一个形式，从而使得搜索期望的字失败。此外，对于字‘outputted’，当在字典中仅仅搜索‘output’时，可以获得迅速的结果。因而，应该应用基于语言的唯一语法规则，以便转换字，从而使得能够进行快速且准确的字典搜索。此外，如果在从预处理的图像中提取的识别结果数据中存在不能被识别为数字或语言的数据，则去掉该无效(null)数据。无效数据的例子包括特定的符号、空格等等，并且无效数据的类型或图案被预先存储在存储器30中。例如，如果识别的结果是‘fan～tastic！！’，则特定的符号“～”和“！！”被去掉，以使得该字符被重建为“fantastic”。通过此过程，可以获得用于搜索的准确的字符。

返回参考图2，识别控制单元10在步骤113使用字符识别后处理完成后的最终识别的字符或字符的组合来搜索字典数据库40，以便在步骤115在显示单元60上显示字典搜索结果。因此，可以提供被识别为存在于字典中的字的字符行。

根据本发明的实施例，识别控制单元10将最终识别的字符行组合成为包括最大数目的字符的第一字，并且使用组合的字搜索字典数据库40。没有用户的请求，包括在字中的字符的排列顺序就不改变。此外，如果作为字典数据库40的搜索结果不存在相应的字，则识别控制单元10使用其中从第一字中去掉一个字符的第二字来搜索字典数据库40。识别控制单元10使用其中连续地去掉一个字符的字来搜索字典数据库40，直到相应的字被找到。继续字典搜索直到仅有一个字符剩余，即搜索包括一个字符的字，并且每个搜索结果可以被提供给用户。移动字符的顺序是预定的。此外，去掉字符的顺序或最大搜索字的字符的最大数目可以由用户设置。

例如，如果识别的字符的数目是4并且搜索字的字符的最大数目被设置为4，则包括4个字符的字被首先搜索。如果不存在搜索结果，则在逐个减少字符数的同时执行搜索。也就是说，如果从开始位置起识别结果是‘A’、‘B’、℃’、‘D’并且搜索字的最大字符数是4，则搜索被执行为依次具有ABCD、ABC、AB和A。如果在搜索期间输出搜索结果，则搜索可以被中断。

如图4所示，如果识别的字符行是“TONE”，则最大字符数是4，并且被设置以提供每个搜索结果，在第一次搜索301中搜索到“TONE”，在第二次搜索303中搜索到“TON”，在第三次搜索305中搜索到“TO”，在第四次搜索307中搜索到“T”。

识别的字或字符附近的其它字或字符可以已存在于识别的结果中。因此，为了避免再识别相邻的字或字符的处理，可以移动基于该字或字符的左右键，以使得在当前识别的字符行当中有选择地执行字典搜索。例如，如果在显示单元60上显示在步骤111中获得的最终识别的字符行的状态下从用户接收到选择字符行的一部分的键输入，则识别控制单元10可以选择对应于该键输入的字符并且搜索包括所选择的字符的字。如图5所示，在显示“RUNWAY”的状态下，用户可以在步骤401通过输入左/右方向键来仅选择前面部分“RUN”或仅选择后面部分“WAY”。因此，识别控制单元10对于选择的字执行字典搜索。

返回到图2，如果在步骤117用户请求更详细地查看当前显示的字典搜索结果，则识别控制单元10进行到步骤119以便提供详细的字典信息。此外，如果用户请求再识别该字符，则识别控制单元10返回到步骤103以便重复执行上述步骤。

本发明的前述字符识别过程描述了当用户将字符识别装置放置在要被识别的字符上时的一系列过程。但是，当用户移动以利用字符识别装置识别另一个字符时，照相机的自动聚焦和字符识别过程被执行并且非期望的结果被显示，引起了照相机的自动聚焦控制和识别的不必要的执行。这使得由于功率消耗和计算量而引起照相机的输入图像的帧速率减小，因此当用户带着照相机一起移动时，发生照相机预览中断现象等。

为了控制前述基本操作顺序，根据图6所示的另一个实施例，在步骤501获得预览图像，在步骤503检测字符，以确定字符是否存在于当前输入的图像中，以便在步骤505根据结果确定字符的存在。如果字符存在，则在步骤507通过比较当前输入的图像和先前图像来检测运动，以确定用户是否移动照相机，以便在步骤509确定运动的存在。如果没有运动，即，只有当用户将照相机放置在要被识别的字符上时，以类似于图2的方式在步骤511、513、515、517、519和521中执行自动聚焦和识别。如果确定没有字符存在或运动存在，则再次执行获得照相机预览图像的步骤501。

在上述实施例中，提供了确定字符的存在并且还检测运动的情况。但是，根据本发明的实施例，可以构想以使得仅确定字符的存在并且然后根据结果执行自动聚焦和识别过程，或者仅在未检测到运动时执行自动聚焦和识别过程。

图7示出了用于确定字符的存在的实施例。因为字符具有可识别的尺寸，因此用于确定字符的存在的边界值可以被设置为基于该尺寸的实验值。此外，使用表示字符的开始的指示器，其使得用户能够容易地聚焦该字符。基于该指示器选择其中获得边缘的数目的区域。参考图7，识别控制单元10在步骤601获得预览图像，在步骤603从预览图像中获得字符检测区域，在步骤605执行边缘过滤，以及在步骤607计算边缘的数目。此外，如果在步骤609中边缘的数目大于或等于边界值，则在步骤611确定字符存在。为了更准确地确定运动，需要确定实际检测的边缘是否为该字符的边缘或另一个对象的边缘。但是，如果要被用户识别的对象是文档，则用户将照相机移动到书的侧面附近，以使得假定用户将照相机放置在文档的侧面附近的情况，以便于描述本发明的实施例。

图8示出了用于确定运动的特定实施例。由于有必要比较当前图像和先前图像以确定运动，因此识别控制单元10存储先前的图像帧，以考虑与计算量相比较的适当的性能。此外，识别控制单元10通过比较存储的先前图像帧与当前图像帧来计算能够确定运动的值，并且将边界值应用于计算值以便确定运动的存在。可以通过基于可变的边界值反映适当的实验值来设置边界值，其中考虑包括在用于确定当前运动的区域中的字符的尺寸。可以增加先前图像帧的数目或反映用于确定运动的值的历史，以用于更准确地确定运动。

参考图8，识别控制单元10在步骤701获得预览图像，在步骤703获得字符检测区域，在步骤705执行在获得的字符检测区域中的边缘过滤，以及在步骤707存储过滤处理的图像。边缘过滤对应于图7的步骤605。然后，识别控制单元10在步骤709比较存储的图像当中的最当前的帧和其前一帧之间的处理后的图像并且计算图像之间的差，以及在步骤711计算用于确定运动的运动确定边界值。其后，识别控制单元10比较计算的差值与该运动确定边界值。如果该差值小于运动确定边界值，则在步骤715确定没有运动存在以便执行下一个识别过程。如果差值大于或等于运动确定边界值，则确定运动已经发生。

图9示出了前述字符区域检测和运动检测的测试结果。可以通过比较运动差计算的值和运动确定边界值来确定没有运动的时间点。此外，与存在于当前字符中的边缘的数目成比例地计算运动确定边界值，以使得可以更准确地改变运动确定边界值。字符存在确定值是用于确定当前图像中字符的存在的值，其是指在没有字符的图中具有值为0的区域，即是指照相机位于字符附近的空白区域或文档的空格处的情况。因而，通过检测字符和运动的存在控制识别装置的总流程，可以在照相机位于要被识别的视点或字符上时识别字符同时保持实时预览。

因而，本发明在照相机的预览屏幕中实时地识别字符以便快速且连续地为用户提供识别结果。此外，本发明已经建议了提高识别率的错误控制方法和预处理方法以及使得对于识别的结果能够进行有效字典搜索的后处理方法。通过本发明的字符识别方法，可以快速地识别字符而不会使得识别率退化。此外，本发明可以在运动期间检测用户的运动程度并且执行字符识别功能，以使得不浪费识别非期望的字符的不必要的时间，从而提供了快速的字符识别和字典搜索。

尽管已经参考本发明的特定优选实施例和附图对本发明进行了示出和描述，但是本领域技术人员应当理解，在不脱离由所附权利要求书所定义的本发明的精神和范围的情况下，可以对本发明做出形式和细节上的各种修改。

Claims

1.一种用于在字符识别装置中识别字符的方法，该方法包括步骤：

根据字符识别请求激活照相机，以及设置预览模式以实时地显示通过照相机拍摄的一个或多个图像；

获得在预览模式中获得的一个或多个图像；

在该一个或多个图像中获得字符检测区域；

执行边缘过滤以便提取多个边缘；

当提取的边缘的数目大于或等于边界值时确定字符存在；

控制照相机的自动聚焦，以及从预览模式下获得的一个或多个图像中获得具有预定水平的清晰度的用于字符识别的图像；

对所述用于字符识别的图像进行字符识别处理以便提取识别结果数据；

通过从识别结果数据中排除不能被识别为数字或语言的数据来确定具有至少一个由字符识别处理识别的字符的最终的识别字符行；

将最终的识别字符行的字符组合为字；

使用该字搜索存储关于各种语言的字典信息的字典数据库；以及

当作为搜索字典数据库的结果搜索到相应的字时，向用户提供搜索到的字。

2.如权利要求1所述的方法，其中所述控制照相机的自动聚焦的步骤包括：

识别存在的字符的轮廓是否与预定水平的清晰度一样清晰；

当存在的字符的轮廓不如预定水平的清晰度一样清晰时，确定在该一个或多个图像中的包括所述存在的字符的图像中存在模糊，并且执行照相机的自动聚焦。

3.如权利要求1所述的方法，其中所述获得具有预定水平的清晰度的用于字符识别的图像的步骤包括：

比较在预览模式下获得的当前图像和先前图像以便检测运动的存在；以及

当作为检测的结果没有运动存在时，控制照相机的自动聚焦，以及从预览模式下获得的所述当前图像和先前图像中获得具有预定水平的清晰度的用于字符识别的图像。

4.如权利要求3所述的方法，其中所述检测运动的存在的步骤包括：

获得在预览模式中获得的一个或多个图像；

在该一个或多个图像中获得字符检测区域；

当确定字符存在时，通过对字符检测区域进行边缘过滤来存储边缘过滤处理的图像；

比较存储的图像当中的经边缘过滤处理的当前帧的图像与经边缘过滤处理的前一帧的图像，并且根据所述图像之间的差计算一个值；

当计算的值小于运动确定边界值时，确定不存在运动；以及

当计算的值大于或等于运动确定边界值时确定运动存在，并且再执行检测运动的存在的步骤。

5.如权利要求1所述的方法，还包括：组合最终的识别字符行的一个或多个字符作为具有预定最大字符数的第一字，并且使用第一字搜索存储关于各种语言的字典信息的字典数据库，以便为用户提供相应的字；以及逐个从第一字中排除字符并且组合具有至少一个字符的新字，并且使用该各个新字来搜索字典数据库，以便为用户提供相应的字。

6.如权利要求5所述的方法，还包括：使用具有由用户从所述第一字或从最终的识别字符行中选择的一个或多个字符的字来搜索字典数据库，以便为用户提供相应的字。

7.一种字符识别装置，包括：

照相机，其根据字符识别请求被激活；

显示单元，用于显示通过照相机拍摄的一个或多个图像；以及

识别控制单元，用于设置预览模式，该预览模式根据字符识别请求实时地显示通过照相机拍摄的一个或多个图像，该识别控制单元还用于在预览模式中获得特定图像，在该特定图像中获得字符检测区域，对该字符检测区域执行边缘过滤以便提取边缘的数目，当提取的边缘的数目大于或等于边界值时确定字符存在，控制照相机的自动聚焦，从预览模式下获得的一个或多个图像中获得具有预定水平的清晰度的用于字符识别的图像，对所述用于字符识别的图像进行字符识别处理以便提取识别结果数据，以及通过从识别结果数据中排除不能被识别为数字或语言的数据来确定具有至少一个由字符识别处理识别的字符的最终的识别字符行，

其中所述识别控制单元将最终的识别字符行的字符组合为字，使用该字搜索存储关于各种语言的字典信息的字典数据库，而且当作为搜索字典数据库的结果搜索到相应的字时，向用户提供搜索到的字。

8.如权利要求7所述的字符识别装置，其中所述识别控制单元识别存在的字符的轮廓是否与预定水平的清晰度一样清晰，以及当存在的字符的轮廓不如预定水平的清晰度一样清晰时，确定在该一个或多个图像中的包括所述存在的字符的图像中存在模糊，并且执行照相机的自动聚焦。

9.如权利要求7所述的字符识别装置，其中所述识别控制单元比较在预览模式下获得的当前图像和先前图像以便检测运动的存在，以及当检测到没有运动时控制自动聚焦。

10.如权利要求9所述的字符识别装置，其中为了检测运动的存在，所述识别控制单元获得在预览模式中获得的一个或多个图像，在该一个或多个图像中获得字符检测区域，当确定字符存在时，通过对字符检测区域进行边缘过滤来存储边缘过滤处理的图像，比较存储的图像当中的经边缘过滤处理的当前帧的图像与经边缘过滤处理的前一帧的图像，根据所述图像之间的差计算一个值，当计算的值小于运动确定边界值时，确定不存在运动，以及当计算的值大于或等于运动确定边界值时确定运动存在，并且再执行检测运动的存在的步骤。

11.如权利要求9所述的字符识别装置，其中所述识别控制单元组合最终的识别字符行的一个或多个字符作为具有预定最大字符数的第一字，并且使用第一字搜索存储关于各种语言的字典信息的字典数据库，以便为用户提供相应的字，逐个从第一字中排除字符并且组合具有至少一个字符的新字，并且使用各个新字来搜索字典数据库，以便为用户提供相应的字。

12.如权利要求11所述的字符识别装置，其中所述识别控制单元使用具有由用户从最终的识别字符行或从所述第一字中选择的一个或多个字符的字来搜索字典数据库，以便为用户提供相应的字。