CN103198311B

CN103198311B - 基于拍摄的图像来识别字符的方法及装置

Info

Publication number: CN103198311B
Application number: CN201210539101.7A
Authority: CN
Inventors: 金尚镐; 姜宇声; 权茂植; 金桢林; 朴正完
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-12-13
Filing date: 2012-12-13
Publication date: 2017-10-24
Anticipated expiration: 2032-12-13
Also published as: EP2605186A2; EP2605186B1; US9235779B2; CN103198311A; EP2605186A3; US9082039B2; KR101907414B1; KR20130066819A; US20150278630A1; US20130148899A1

Abstract

提供了一种基于拍摄的图像来识别字符的方法和装置。所述装置包括图像确定单元、图像效果单元、二值化单元和字符识别单元。所述图像确定单元被配置为：用于当输入图像被输入时，从输入图像中选择将用于图像分析的感兴趣的区域（ROI），并且对选定的ROI进行分析，以确定输入图像的类型。如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的，则所述图像效果单元被配置为将用于区分显示屏幕中的字符区域和背景区域的图像效果应用到输入图像上。所述二值化单元被配置为根据输入图像的确定类型对输入图像或图像效果单元的输出进行二值化。所述字符识别单元被配置为从二值化输入图像中识别字符。

Description

基于拍摄的图像来识别字符的方法及装置

技术领域

本发明一般地涉及用于识别字符的方法和装置，并且更具体地，涉及用于识别在由照相机拍摄的显示屏幕图像中的字符的方法和装置。

背景技术

随着智能手机变得越来越流行，从通过智能手机的照相机拍摄文件、名片等所获得的图像中识别字符的应用的使用也得到增加。在此，在用于识别字符的功能中，光学字符识别功能具有很高的可能性被用作多模态软件输入面板，其向智能手机提供了除了触摸键盘、语音识别等之外的另一种基本输入功能。

识别由移动照相机所拍摄的字符图像的方法向用户提供了经由电子邮件或文本消息来向另一个用户传送识别结果的功能、连接到因特网（Internet）的功能等。具体而言，在通过照相机来对字符进行拍摄而识别出计算机屏幕上显示的字符时，用户可以容易地从计算机将各种字符信息传送到智能手机，并且出于各种目的而使用该信息，从而提高了用户的便利性。

通过使用移动相机来识别在计算机屏幕上字符的方法要求与用于识别书籍、杂志、等的常规方法不同的技术方法。当通过使用高分辨率移动相机来拍摄在计算机屏幕上显示的字符时，照相机图像的分辨率通常大于计算机屏幕的分辨率，这将导致会使得对于每个像素的位置上的字符识别性能劣化的图像噪声。因此，传统的字符识别系统的使用是受限的，并且将计算机屏幕图像锐化的操作和将具有低分辨率的屏幕图像转换为具有高分辨率的图像的操作不适用于一般的基于照相机的字符识别系统。

发明内容

因此，本发明的一个方面是为了解决在现有技术中发生的至少一个上述问题，并且本发明实施例的进一步的目的是提供了用于识别从通过拍摄诸如计算机屏幕、TV屏幕的显示屏幕、以及诸如报纸、书籍、杂志等的文件而获取的拍摄图像中识别字符的方法和装置。

根据本发明的第一方面，提供了一种基于拍摄的图像的字符识别装置，所述装置包括：图像确定单元，被配置用于当输入图像被输入时，从输入图像中选择将用于图像分析的感兴趣的区域（ROI），并且对选定的ROI进行分析，以确定输入图像的类型；图像效果单元，其被配置为如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的，则将用于区分显示屏幕中的字符区域和背景区域的图像效果应用到输入图像上；二值化单元，其被配置为根据输入图像的确定的类型对输入图像或图像效果单元的输出进行二值化；以及字符识别单元，其被配置为从二值化的输入图像中识别字符。

根据本发明的第二方面，提供了一种基于拍摄的图像的字符识别方法，所述方法包括：当输入图像被输入时，从输入图像中选择将用于图像分析的感兴趣的区域（ROI）；通过分析选定的ROI来确定输入图像的类型；如果输入图像的类型指示输入图像是通过拍摄显示屏幕而获得的，则向输入图像应用用于区分显示屏幕中的字符区域和背景区域的图像效果；根据输入图像的确定的类型对输入图像或具有应用的图像效果的输入图像进行二值化;以及从二值化的输入图像中识别字符。

根据本发明的另一方面，提供了一种包括指令的计算机程序，所述指令被布置为当被执行时实现根据上述各方面的任意一个方面的方法和/或装置。进一步的方法提供存储这样的程序的机器可读存储器。

附图说明

结合附图，从下面的详细描述中，本发明的上述和其他方面、特征、和优点将变得更加明显：

图1是示出了根据本发明的实施例的字符识别装置的视图；

图2是示出在其中，根据本发明的实施例，基于确定结果，字符识别装置确定输入图像的类型和识别字符的处理的流程图；

图3是示出在其中，根据本发明的实施例的图像确定单元确定输入图像的类别的处理的流程图；

图4至10是示出在其中根据本发明的实施例的图像确定单元确定输入图像的类别的处理的视图；

图11是示出了在其中根据本发明的实施例的图像效果单元将效果应用到输入图像的处理的视图;

图12是示出了根据本发明的实施例的结果输出单元输出的字符识别结果的视图；以及

图13是示出了根据本发明实施例的，当通过拍摄文件而获得图像时，通过图像确定单元来确定输入图像的示例的视图。

具体实施方式

在下文中，将参照附图来详细描述本发明的实施例。在下面的描述中，已知功能和配置的详细描述被省略，以避免模糊本发明的主题。

图1示出了根据本发明的实施例的字符识别装置。

字符识别装置包括：照相机单元10、图像确定单元20、图像效果单元30、二值化单元40、字符识别单元50、以及结果输出单元60。

通过将输入光信号转换成图像帧，相机单元10输出输入图像。

图像确定单元20确定与输入图像相对应的所拍摄图像的类型，并且基于确定的结果，向图像效果单元30或二值化单元40输出输入图像。例如，图像确定单元20确定输入图像是对应于通过拍摄诸如计算机屏幕或TV屏幕的显示屏幕而获得的图像，或者是对应于通过拍摄诸如报纸、书籍、杂志等的文件而获得的图像。当结果显示输入图像是通过拍摄显示屏幕而获得的图像时，图像确定单元20将输入图像输出到图像效果单元30。当输入图像是通过拍摄文件而获得的图像时，图像确定单元20将输入图像输出到二值化单元40。

具体而言，图像确定单元20可以使用频域分析方法和基于分类器（classifier-based）的方法来分析输入图像的类型。

首先，频率域分析方法可以在输入图像中选择感兴趣的区域（ROI），并从选定的ROI中提取频率分布特性，以分析所提取的频率分布特性。在此，ROI可指在整个图像区域中的感兴趣的几个区域。

随后，基于分类器的方法提取与计算机屏幕对应于的图像的特性和剩余图像的特征，通过使用分类器来学习所提取的特征而生成二进制分类器，并且将二进制分类器应用到特性识别系统。

根据本发明的一个方面，将离散余弦变换（DCT）方法应用作为频率分析方法。

如果确定的结果指示该输入图像是通过拍摄显示屏幕获得的图像，则图像效果单元30将预定的效果应用到输入的拍摄图像上，并且输出改变后的图像。具体而言，图像效果单元30将图像模糊（blurring）效果应用到所拍摄的图像，以减少在字符区域和背景区域之间的颜色的差异。

二值化单元40可以将该改变后的图像（应用了该效果的输入图像）二值化，或者将从图像确定单元20输入的拍摄图像二值化，以生成二值化图像。具体而言，二值化单元40对拍摄的图像进行二值化，以将拍摄的图像转换为计算机能够识别为诸如0和1的代码。二值化单元40将输入图像或改变后的图像转换为二值化图像。例如，二值化单元40可以通过将具有超过阈值的亮度、强度和/或颜色的全部像素值替换为1，并将其他全部像素值替换为0来从一图像创建二进制图像（二值化图像）。

字符识别单元50从二值化图像中识别字符。具体而言，字符识别单元50基于光学字符识别方案来识别字符。

结果输出单元60输出字符识别的结果值。

根据本发明的实施例，确定输入图像是对应于通过拍摄显示屏幕而获得的图像或者对应于通过拍摄文件而获得的图像，并且因此，可以准确识别通过拍摄显示屏幕而获得的图像中包括的字符。

图2示出了在其中，根据本发明的实施例，基于确定结果，字符识别装置确定输入图像的类型和识别字符的处理。

在步骤200，照相机单元10可以捕获输入图像。在步骤201中，图像确定单元20可以分析在输入图像中的ROI，以确定输入图像的类型。例如，图像确定单元20确定输入图像的类型是对应于通过拍摄计算机屏幕而获得的计算机屏幕图像，或者是对应于其他的图像。

在步骤202中，图像确定单元20确定输入图像是否是计算机屏幕图像，并且当输入图像被确定为计算机屏幕图像时，可以行进到步骤204。当输入图像与计算机屏幕图像不同时，图像确定单元20可以行进到步骤203，在其中，二值化单元40对输入图像进行二值化，以生成二值化图像。

在步骤204中，图像效果单元30将效果应用到输入图像，使得在输入图像中的背景区域和字符区域之间的色差得以减小。在这个例子中，效果是模糊效果。

在步骤205中，二值化单元40对应用了效果的输入图像进行二值化，以生成二值化图像。

行进到步骤203至步骤206的字符识别单元50从生成的二值化图像中识别字符。在这个例子中，基于OCR方案来执行识别。

在步骤207中，结果输出单元60输出字符识别的结果，并且能够完成字符识别处理。

根据本发明的实施例，确定输入图像是对应于通过拍摄显示屏幕而获得的图像，或者是对应于通过拍摄文件而获得的图像，并且因此，可以准确地识别通过拍摄显示屏幕而获取的图像中包含的字符。

将参考图3至10来说明用于确定输入图像的类型的图像确定单元20的操作。根据本发明的实施例，图像确定单元20可以基于DCT方法来分析图像。

图3示出了在其中，根据本发明的实施例，图像确定单元确定输入图像的类型的处理。图4至10示出了在其中，根据本发明的实施例，图像确定单元确定输入图像的类型的处理。

参照图3，在步骤300中，图像确定单元20可以从输入图像中选择预定的ROI，以分析图像的类型。例如，如图4中所示，图像确定单元20可以从输入图像中选择具有预定尺寸的ROI 400。一般来说，照相机图像的分辨率大于显示屏幕的分辨率，因此，ROI 400可以具有如图5中所示的栅格（lattice）噪声。

在步骤301中，图像确定单元20可以将ROI 400分割成预定尺寸的分析区域。例如，如图6中所示，图像确定单元20可以将宽度为8×n像素和高度为8×m像素的ROI分割成预定尺寸的分析块，例如，具有预定尺寸并且位于第一行和第一列中的第一分析块、具有预定尺寸并且位于第i行和第j列中的第i分析块、以及具有预定尺寸并且位于第n行和第m列的第n分析块。在此，i、j、n、和m是正整数。

ROI的大小被设置为8×8的DCT分析块的倍数，或设置为具有另一种DCT分析块的形式。此外，可以设置一个或多个ROI。

在步骤302中，图像确定单元20通过重叠分割的分析块以匹配对应于相同位置处的每个像素生成代表性的分析块。具体而言，图像确定单元20可以重叠第一分析块、...、第i分析块、...、和第n分析块，使得分析块的相同位置中的像素可以匹配，并且可以如图7和图8所示，产生代表性的分析块。在此示例中，图像确定单元20执行重叠，以使得与第一分析块的a11的位置对应的像素、...、与第i分析块的a11的位置对应的像素、...、以及与第n分析块的a11的位置对应的像素可以匹配，并且以此方式，与剩余位置对应的像素可以匹配，并且因此生成代表性的分析块。

在步骤303中，图像确定单元20计算在生成的代表性分析块中的用于每个像素的代表性颜色值。具体而言，图像确定单元20可以计算重叠的分析块，例如，第1分析块、...、第i分析块、...、和第n分析块的相应像素的颜色值的总和，以作为在代表性分析块中的每个像素的代表性颜色值。例如，与图8的A11的位置对应的像素的代表性颜色值通过与第一分析块的a11的位置对应的像素的颜色值、...、与第i分析块的a11的位置对应的像素的颜色值、...、以及与第n分析块的a11的位置对应的像素的颜色值的总和来表示。

在步骤304中，图像确定单元20计算与第一行的位置对应的像素和与第一列的位置对应的像素的第一平均代表性颜色值，排除在代表性分析块中具有最大代表性颜色值的像素。在这个例子中，与第一行对应的像素和与第一列对应的像素可以指示在存在具有相对高的代表性颜色值的、像素的列中包括的像素和行中包括的像素。一般来说，向其应用DCT分析方法的显示屏幕图像可以具有DCT分析图案块，诸如，在图9的ROI 400的预定区域900。DCT分析图案块可以对应于分析块，并且与第一行和第一列对应的像素，诸如，图8的A11的位置处的像素可以具有最大的代表性颜色值。

也就是说，如图10所示，图像确定单元20计算对应于A12、A13、...、和A18 1000的像素，和对应于A21、A31、...、和A81 1001的像素的第一平均代表性颜色值，而排除相应于A11的像素。

在步骤305中，图像确定单元20可以计算代表性分析块的其余像素的第二平均代表性颜色值。具体而言，如在图10所示，图像确定单元20计算对应于A22、A23、...、A32、A33、...、A42、A43、...、A52、A53、...、A62、A63、...、A72、A73、...、A82、A83、...、A88 1002的像素的第二平均代表性颜色值。

在步骤306中，图像确定单元20确定在第一平均代表性颜色值和第二平均代表性颜色值之间的差值是否大于或等于预定的阈值颜色值，并且当差值大于或等于预定的阈值颜色值时，可以行进到步骤308。否则，在步骤307中，图像确定单元20确定输入图像为一般图像。在此，预定的阈值颜色值是预定的参考值，其用于确定输入图像是否是显示屏幕图像。

在步骤308中，图像确定单元20将输入图像确定为诸如计算机屏幕图像的显示屏幕图像。

在步骤309中，图像确定单元20输出确定的结果，并且可以完成图像确定处理。

图11示出了在其中根据本发明的实施例的图像效果单元将效果应用到输入图像的处理。

参照图11，图像效果单元30生成通过将模糊效果应用到输入图像1100而获得的效果应用图像1101，以清楚地区分字符区域和背景区域。噪声，例如栅格噪声可能会发生在如图11中示出的输入图像1100中，因此，当在输入图像1100上执行字符识别时，字符区域可能不会被准确地识别。因此，图像效果单元30应用图像模糊效果，以使得在字符区域的颜色值的和背景区域的颜色值之间的差值大于或等于预定的阈值差值，因此，字符区域和背景区域被清楚地区别。效果应用图像1101可以减少诸如在图11中所示的栅格噪声的噪声，因此，字符和背景被清楚地彼此区分。当通过二值化单元40来对效果应用图像1101进行二值化时，产生如图11中所示的二值化图像1102。在二值化图像1102中，字符区域明显区别于背景区域，以使得清楚地识别字符区域。

图12示出了根据本发明的实施例的结果输出单元输出的字符识别结果。

当如图12所示，通过拍摄计算机屏幕而获得的图像1200被输入时，通过上述的处理来确定输入图像的类型，并且基于确定的结果，结果输出单元60输出通过使用字符识别方法而执行的字符识别的结果图像1201。

图13示出了根据本发明实施例的，当通过拍摄文件而获得图像时，通过图像确定单元来确定输入图像的示例。

参照图13，图像确定单元20可以从输入图像1300中选择预定的ROI，并且通过分析ROI来确定输入图像1300的类型。在这个例子中，当输入图像是通过拍摄文件而获得的图像时，基于DCT分析方法，通过分析ROI而获得诸如块1301的DCT分析图案块。

通过分析DCT分析图案块，图像确定单元20将输入图像1300确定作为文件图像。

根据本发明的实施例，确定输入图像是对应于通过拍摄显示屏幕而获得的图像，或者是通过拍摄文件而获得的图像，因此，能够准确地识别通过拍摄显示屏幕而获得的图像中包含的字符。

根据本发明的实施例，可以在没有复杂处理，例如，用于无线连接或者因特网接入的处理的情况下，通过使用便携式终端而容易地共享在可变地显示各种信息的屏幕上显示的字符信息。

根据本发明的实施例，在显示屏幕上显示的字符可以通过使用便携式终端而方便地识别。

应该理解，本发明的实施例可以硬件、软件或硬件与软件的组合的形式来实现。任何这样的软件可以易失性或非易失性存储的形式进行存储，例如类似ROM的存储装置（无论是否可擦除或可重写），或者以诸如RAM、存储芯片、器件或集成电路之类的存储形式，或者在诸如CD、DVD、磁盘或磁带等等的光学的或磁性的可读介质上进行存储。应该理解，存储装置和存储媒体是机器可读存储器的实施例，适于存储包括指令的一个或多个程序，该程序在执行时实现本发明的实施例。

因此，实施例提供一种包括代码的程序以及存储这样的程序的机器可读存储器，所述代码用于实现在本申请文件的任一权利要求中请求保护的装置或方法。而且，这样的程序可以经由任何介质被电子地传达，介质诸如经由有线或无线连接以及适于包括其的实施例而携载的通信信号。

遍及本申请文件的说明书和权利要求书，术语“包括”和“包含”以及该术语的衍生词（例如“包括着”）意思是“包括但不限于”，并且不意欲排除（并且不排除）其他组件、整数或步骤。

遍及本申请文件的说明书和权利要求书，单数形式的含义包括复数形式的含义，除非上下文有要求。具体地，当使用单数形式时，应理解本申请文件意欲包含单数形式以及复数形式，除非上下文有要求。

结合本发明的特定方面、实施例或示例描述的特征、整数或特性应理解为可适用于这里描述的任何其他方面、实施例或示例，除非与其不兼容。

还应理解，遍及本申请文件的说明书和权利要求书，通常形式的“用于Y的X”（其中Y是一些动作、活动或步骤，而X是一些执行动作、活动或步骤的装置）的语言包含适于或者被具体安排执行Y（但不排他地）的X。

虽然已参照本发明某些实施例中示出和描述了本发明，本领域的技术人员应当理解，可以在不脱离通过所附权利要求而限定的本发明的精神和范围的情况下，可以对其在形式和细节上进行各种改变。

Claims

1.一种基于拍摄的图像来识别字符的装置，所述装置包括：

图像确定单元，所述图像确定单元被配置为用于从输入图像中选择感兴趣的区域(ROI)，并分析所选择的ROI以通过分析所拍摄的图像的类型确定是否通过拍摄另一设备的显示屏幕获得所拍摄的图像；

图像效果单元，如果确定通过拍摄另一设备的显示屏幕获得所拍摄的图像，则所述图像效果单元被配置为将用于区分所拍摄的图像中的字符区域和背景区域的图像效果应用到输入图像上；

二值化单元，所述二值化单元被配置为对所拍摄的图像或应用了图像效果的图像进行二值化；以及

字符识别单元，所述字符识别单元被配置为从二值化图像中识别字符。

2.根据权利要求1所述的装置，其中，所述图像确定单元被配置为将所选择的ROI分割成预定尺寸的分析块；通过重叠所分割的分析块来生成代表性分析块，以匹配对应于相同位置的每个像素；计算在代表性分析块中包括的每个像素的代表性颜色值；以及基于每个计算的代表性颜色值来分析输入图像。

3.根据权利要求2所述的装置，其中，所述图像确定单元被配置为计算在代表性分析块中的、存在具有高代表性颜色值的像素的行和列中包括的像素的第一平均代表性颜色值，排除在代表性分析块中具有最大的代表性颜色值的像素；计算剩余像素的第二平均代表性颜色值；将所述第一平均代表性颜色值和所述第二平均代表性颜色值进行比较；以及基于比较的结果来确定输入图像的类型。

4.根据权利要求3所述的装置，其中，所述图像确定单元被配置为确定在所述第一平均代表性颜色值和所述第二平均代表性颜色值之间的差值是否大于或者等于预定的阈值颜色值，当所述差值大于或者等于所述阈值颜色值时，确定通过拍摄另一设备的显示屏幕获得所拍摄的图像，并且当所述差值小于所述阈值颜色值时，确定不通过拍摄另一设备的显示屏幕获得所拍摄的图像。

5.根据权利要求1所述的装置，其中，所述图像效果单元被配置为将模糊效果应用到输入图像，以使得在所拍摄的图像的字符区域的颜色值和背景区域的颜色值之间的差值大于或者等于预定的阈值差值。

6.一种识别拍摄的图像中的字符的方法，所述方法包括：

从所拍摄的图像中选择感兴趣的区域(ROI)；

分析所选择的ROI以确定(201)是否通过拍摄另一设备的显示屏幕获得所拍摄的图像；

如果确定通过拍摄另一设备的显示屏幕获得所拍摄的图像，则将用于区分所拍摄的图像中的字符区域和背景区域的图像效果应用到所拍摄的图像上；

对所拍摄的图像或应用了图像效果的图像进行二值化；以及

从二值化图像中识别字符。

7.根据权利要求6所述的方法，其中，确定所拍摄的图像的类型包括：

将所选择的ROI分割成预定尺寸的分析块；

通过重叠所分割的分析块来生成代表性分析块，以匹配对应于相同位置的每个像素；

计算在代表性分析块中包括的每个像素的代表性颜色值；以及

基于每个计算的代表性颜色值来分析输入图像。

8.根据权利要求7所述的方法，其中，分析所述输入图像包括：

计算在代表性分析块中的、存在具有高代表性颜色值的像素的行和列中包括的像素的第一平均代表性颜色值，排除在代表性分析块中具有最大的代表性颜色值的像素；

计算剩余像素的第二平均代表性颜色值；以及

将所述第一平均代表性颜色值和所述第二平均代表性颜色值进行比较，以基于比较的结果来确定输入图像的类型。

9.根据权利要求8所述的方法，其中，确定所拍摄的图像的类型包括：

确定在所述第一平均代表性颜色值和所述第二平均代表性颜色值之间的差值是否大于或者等于预定的阈值颜色值；

当所述差值大于或者等于所述阈值颜色值时，确定通过拍摄另一设备的显示屏幕获得所拍摄的图像；并且

当所述差值小于所述阈值颜色值时，确定不通过拍摄另一设备的显示屏幕获得所拍摄的图像。

10.根据权利要求6所述的方法，其中，应用用于区分字符区域和背景区域的所述图像效果包括：

将模糊效果应用到输入图像，以使得在所述输入图像的字符区域的颜色值和背景区域的颜色值之间的差值大于或者等于预定的阈值差值。