CN101206719A

CN101206719A - 用于检测和处理图像中特定图案的方法和设备

Info

Publication number: CN101206719A
Application number: CNA2007101606150A
Authority: CN
Inventors: 鸟居宽; 真继优和; 森克彦; 佐藤博; 御手洗裕辅
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-12-22
Filing date: 2007-12-21
Publication date: 2008-06-25
Also published as: US20120275650A1; US9239946B2; US8265350B2; US20080212879A1; JP4845715B2; JP2008158774A

Abstract

本发明涉及一种用于检测和处理图像中特定图案的方法和设备。在其内检测到脸图案的图像中，当肤色像素的比率等于或小于第一区域中的第一阈值并且肤色像素的比率等于或大于第二区域中的第二阈值时，将第一区域的附近判断为可能存在脸图案的脸候选位置。对脸候选位置进行脸检测。将第二区域布置在相对于第一区域的预定位置。

Description

用于检测和处理图像中特定图案的方法和设备

技术领域

本发明涉及一种用于进行如图像识别或图像变换等处理的图像处理方法和设备。

背景技术

当对图像应用图像处理时，可以仅对图像的所选择的部分进行处理。可选地，视情况而定，可以对图像的每个区域进行不同的图像处理操作。在任何一种情况下，有必要判断使用给定的处理操作要对图像的哪个区域进行处理。

在各种软件应用程序中，用户可以选择要进行图像处理的图像的区域。例如，在如微软公司(Microsoft Corporation)的照片编辑器^(Photo Editor^)等图像编辑应用程序中，在对图像应用如正/反倒置(negative/positive inversion)等图像处理前，用户可以使用鼠标指定要处理的区域。

可选地，在引起沉重处理负荷的识别处理开始之前，一些图像识别方法通过具有轻的处理负荷的滤波处理对候选区域进行提炼(refine)。在“HMM-based Sign Language Recognitionusing Hand Gesture and Hand Posture”(Yanagi，Yagyu，Tokuda，Kitamura，Proceedings of the Institute of Electronics，Informationand Communication Engineers(IEICE)General Conference(Vol.2004))中，提取了图像中的肤色区域，将连续的肤色区域的中心点定义为候选位置，然后可以获得手形。

另一方面，还有一种图案识别方法，在该方法中，将肤色像素存在的所有部分定义为候选位置，如日本特开2002-312796中所讨论的。在此方法中，在获得了候选位置之后进行高精度的图案检测。有多种用于获得肤色像素的方法，例如，在“Analysis of Human Skin Color Images for a Large Set of ColorSpaces and for Different Camera Systems”(Terrillon，Pilpre，Niwa，Yamamoto，IAPR Workshop on Machine VisionApplications(MVA 2002))中讨论了其中的一些方法。

在上面说明的传统技术中，用户指定应用图像处理的区域。在期望反映用户意图的许多情况下这种方法是有效的。然而，这种方法不适合用于如图像识别中期望自动感测的情况。

此外，在检测手的情况下，如果仅将连续肤色区域中的一个点定义为手候选位置，则手的检测极有可能将失败。这是因为自然图像一般在除手外的部分中也具有肤色像素，并且如果在手周围有肤色像素，则候选点的位置可能会根据肤色的分布状态而偏移。

另一方面，如果将肤色像素存在的所有部分定义为脸候选位置，则通常不能有效地进行脸候选位置的提炼。特别地，在存在类似于肤色的单色的墙的情况下，将墙的整个表面定义为脸候选位置。因此，频繁地执行脸检测处理，从处理速度的观点来看，这是不令人满意的。

因此，期望一种比传统方法更有效地提炼候选区的方法。

发明内容

本发明的实施例是关于具有高精度和良好的处理效率的图案检测方法和设备。

根据本发明的一个方面，实施例关于一种图像处理方法，包括：在图像的第一区域中判定具有第一属性的像素的比率以生成第一判定结果；在所述图像的第二区域中判定具有第二属性的像素的比率以生成第二判定结果，其中，将所述第二区域布置在相对于所述第一区域的预定位置；基于所述第一判定结果和所述第二判定结果来判断所述第一区域附近是否能够存在预定图案；以及当判断出能够存在所述预定图案时，在所述第一区域附近检测所述图案。

根据本发明的另一方面，实施例关于一种图像处理方法，包括：关于包括图像中的旋转对称图的一个或更多个图，判定每个图内具有预定属性的像素的比率；基于比率判定结果，判断所述图的附近是否能够存在预定图案；以及在所述图像的被判断出能够存在所述预定图案的部分中，检测所述预定图案和通过旋转所述预定图案所获得的图案。

根据本发明的另一方面，实施例关于一种图像处理设备，包括：第一比率判定单元，用于在图像第一区域中判定具有第一属性的像素的比率；第二比率判定单元，用于在所述图像的布置在相对于所述第一区域的预定位置的第二区域中判定具有第二属性的像素的比率；判断单元，用于基于所述第一比率判定单元和所述第二比率判定单元的判定结果判断在所述第一区域附近是否能够存在预定图案；以及检测单元，用于当判断出能够存在所述预定图案时，在所述第一区域附近检测图案。

根据本发明的另一方面，实施例关于一种图像处理设备，包括：比率判定单元，用于关于包括图像中的旋转对称图的一个或更多个图，判定每个图内具有预定属性的像素的比率；判断单元，用于基于比率判定的结果，判断图的周围是否能够存在预定图案；以及检测单元，用于在所述图像的被判断出能够存在所述预定图形的部分中，检测所述预定图案和通过旋转所述预定图案所获得的图案。

根据下面参考附图对典型实施例的详细说明，本发明的其它特征和方面将变得显而易见。

附图说明

包含在说明书中并构成说明书的一部分的附图示出本发明的典型实施例、特征和方面，并和说明书一起用来解释本发明的原理。

图1是示出根据本发明第一实施例的信息处理设备的硬件结构的框图。

图2是示出根据本发明第一实施例的信息处理设备的功能结构的框图。

图3是示出根据本发明第一实施例的选择并复制包含脸的图像的处理的流程图。

图4是示出根据本发明第一实施例的进行脸检测的数据流的示意图。

图5是示出根据本发明第一实施例的脸候选位置信息的格式的视图。

图6是示出根据本发明第一实施例的可能性信息格式的视图。

图7是示出根据本发明第一实施例的筛选(screening)中的大矩形和小矩形之间的关系的视图。

图8是示出根据本发明第一实施例的筛选的详细数据流的示意图。

图9是示出根据本发明第一实施例的用于筛选的操作过程的流程图。

图10是示出根据本发明第二实施例的信息处理设备的功能结构的框图。

图11是示出根据本发明第二实施例的RAM的存储映射结构的视图。

图12是示出根据本发明第二实施例的进行字符识别的数据流的视图。

图13是示出根据本发明第二实施例的字符类型筛选的概念的视图。

图14是布置在本发明第二实施例中使用的矩形的表。

图15是示出根据本发明第二实施例的用于字符类型筛选的操作过程的流程图。

图16是示出根据本发明第二实施例的用于字符识别的操作过程的流程图。

图17是示出根据本发明第二实施例的在用于字符识别的操作过程中要参考的查找表的表。

具体实施方式

下面将参考附图详细说明本发明的各种典型实施例、特征以及方面。

第一典型实施例

本发明的第一实施例说明了用于检查存储在数据库中的图像并找出包括如人脸图像等预定图案的图像的信息处理设备。

图1是示出根据本发明第一实施例的信息处理设备的硬件结构的框图。中央处理单元(CPU)100根据程序执行在本实施例中说明的图像处理方法。程序存储器101存储由CPU 100执行的程序。随机存取存储器(RAM)102是用于当CPU 100执行程序时临时存储各种信息的存储器。

图像数据库103存储如图像文件等文件。CPU 100可以从闪存105读取信息或向闪存105写入信息。闪存105是可拆卸的，使得用户可以携带写入存储器中的信息。总线110用于将这些单元互相连接，并传送数据或控制信号。此外，信息处理设备可以包括如键盘或定点装置等输入装置以及显示装置。

图2是示出根据第一实施例的信息处理设备的功能结构的框图。在实施例中，通过CPU 100执行程序来实现所示的功能。为了说明，假设存储在图像数据库103中的一些图像文件包括拍摄到的脸而一些图像不包括拍摄到的脸。此外，图像中的一些包含的拍摄到的脸是倾斜的而其它拍摄到的脸不是倾斜的。

通过图像读取单元201将每个图像文件存储在RAM 102中。脸检测单元202检测在写入RAM 102的图像中是否存在脸。图像写入单元203将写入RAM 102中的图像写入闪存105中。

图3是示出从存储在图像数据库103的图像选择包括脸的图像然后将所选择的图像复制到闪存105的处理的流程图。

首先，在步骤S300，CPU 100初始化图像指针，使得图像指针指向第一图像。图像指针是用于相继指向存储在图像数据库103中的图像文件的变量。

在下一步骤S301中，CPU 100判断在图像数据库103中是否仍存在要处理的图像。如果仍存在图像(步骤S301中为“是”)，执行直到步骤S303或S305的循环。另一方面，如果所有的图像已被处理(步骤S301中为“否”)，则处理结束。

在步骤S302中，CPU 100将此时的图像指针所指示的图像读入RAM 102。然后，在步骤S303中，CPU 100判断读取图像中是否包含脸。后面将说明判断的方法。如果判断出读取图像中不包含脸(步骤S303中为“否”)，则处理返回步骤S301。如果判断出读取图像中包含了脸(步骤S303中为“是”)，则处理进入步骤S304。

在步骤S304中，CPU 100将读入RAM 102中的图像写入闪存105。然后，在步骤S305，CPU 100通过将图像指针前进1以指向下一图像文件。当进行步骤S305时，处理返回步骤S301。

图4示出当在图3的步骤S303中进行脸检测时的数据流。肤色提取处理408判断读入RAM 102中的图像401的像素是否是肤色并创建二值图像的肤色掩码(mask)409。对于肤色提取处理，在“Analysis of Human Skin Color Images for a Large Set ofColor Spaces and for Different Camera Systems”中说明了各种方法。

在筛选402中，使用肤色掩码409判断脸可能存在于图像401中的位置。将判断结果写入脸候选位置信息403中。下面将详细说明筛选402。参考图6下面将说明脸候选位置信息403的内容。

在脸检测处理404中，基于脸候选位置信息403判断在图像401的相应部分是否存在脸。然后，将结果写入可能性信息405中。下面也将说明可能性信息405的格式。

进行图像401的旋转/缩减410，以通过一种类型的检测处理来检测多种倾斜或尺寸的脸。将结果存储为旋转/缩减图像411。脸检测处理404使用旋转/缩减图像411。

检测判断处理406参考可能性信息405来判断图像401中是否存在脸。在可能性超过给定阈值的情况下，将信息“存在”写为下一检测结果信息407。否则，将“无”写为检测结果信息407。

在如上所述的本实施例中，在脸检测处理404之前进行筛选处理402，从而减少了执行具有相对重的计算负荷的脸检测处理404的次数。

图5示出图4中脸候选位置信息403的格式的概念性示图。在本实施例中，假设脸检测单元202处理0度、90度、180度、以及270度的脸倾斜，以及原始、两倍和四倍的脸尺寸。脸尺寸为原始即表示最小脸尺寸。在实际情况下，例如其表示脸宽度为30像素。脸尺寸为两倍即表示脸宽度为60像素。在本说明书中，具体的脸尺寸与本发明的实际本质不相关，因此由放大倍率表示脸尺寸以简化尺寸比率。

说明图像401以供参考。候选位置信息500、510和520是脸候选位置信息403的内容。候选位置信息500、510和520中的每个均是二值的二维阵列，并在RAM 102中光栅化。基于一对一的原则，每个二维阵列的一点对应于图像401的一点，并表示预定尺寸的脸是否有可能存在于这一点的邻近区域中。即，上述一点表示是否有必要对该区域应用图4的脸检测处理404。

候选500是与尺寸为原始的脸有关的候选位置信息，并且关于原始尺寸的脸是否有可能存在于图像401的区域中的信息被存储在二维阵列的相应元素中。例如，原始尺寸的候选位置信息500的一点(x，y)表示原始尺寸的脸是否有可能存在于由图像401上的坐标(x-s/2，y-s/2)和(x+s/2，y+s/2)的对角线所定义的正方形内。小写字母“s”表示任意的宽度和操作中调整的参数。

类似地，候选510表示与尺寸为两倍的脸有关的候选位置信息，且候选520表示与尺寸为四倍的脸有关的候选位置信息。在图5中，与尺寸为两倍或四倍的脸有关的候选位置信息的维数是与尺寸为原始的脸有关的候选位置信息的维数的1/2倍或1/4倍。这是因为，即使尺寸为两倍的脸的位置偏移了一个像素或即使尺寸为四倍大小的脸的位置偏移了三个像素，在精度方面也没有出现重大的问题。

因此，在图4的筛选处理402中，对于两倍的脸尺寸，对每两个像素进行脸是否可能存在的判断，而对于四倍的脸尺寸，对每四个像素进行脸是否可能存在的判断。还可以对所有像素进行判断，以获得具有更高精度的位置信息。这里，重要的是每个候选位置信息不依赖于脸倾斜度。即，一次即可判断是否可能存在倾斜度为0度、90度、180度、270度的脸。

图6示出了可能性信息405的格式的概念性示图。说明图像401以供参考。可能性信息600至623的项示出了可能性信息405的内容。可能性信息600是关于倾斜度为0度且尺寸是原始的脸。将倾斜度为0度且尺寸是原始的脸存在于图像401的相应区域中的可能性存储在二维阵列的每个元素中。

类似地，可能性信息601是关于倾斜度为90度并且尺寸是原始的脸，可能性信息602是关于倾斜度为180度并且尺寸是原始的脸，并且可能性信息603是关于倾斜度为270度并且尺寸是原始的脸。可能性信息610是关于倾斜度为0度并且尺寸是两倍的脸；可能性信息611是关于倾斜度为90度并且尺寸是两倍的脸；并且可能性信息622是关于倾斜度为180度并且尺寸是四倍的脸。对可能性信息612、613、620、621和623也同样适用。

在图6中，与尺寸为两倍或四倍的脸有关的可能性信息的维数是与尺寸为原始的脸有关的可能性信息的维数的1/2倍或1/4倍。这是因为，在图像401缩减时，使用相同的辨识器来辨识尺寸为两倍或四倍的脸。在本实施例中，如果输入了缩减图像，则辨识器输出维数相应较小的可能性信息。

可能性信息600至623的各项是二维阵列，并在RAM 102上进行光栅化。每个二维阵列的一点对应于图像401的区域，并表示在该区域中存在预定倾斜度/尺寸的脸的可能性。例如，0度且原始尺寸的可能性信息600的一点(x，y)表示在由图像401上(x-w/2，y-h/2)和(x+w/2，y+h/2)的对角线所定义的矩形内存在0度和相同尺寸的脸的可能性。小写字母“w”表示原始尺寸的脸宽度，小写字母“h”表示原始尺寸的脸高度。

此外，90度和n倍的可能性信息的一点(x，y)表示在由图像401上(n(y-h/2)，H-n(x+w/2))和(n(y+h/2)，(H-n(x-w/2))的对角线所定义的矩形内存在90度和n倍的脸的可能性。“W”表示图像401的宽度，而“H”表示图像401的高度。类似地，180度和n倍的可能性信息的一点(x，y)表示在由图像401上坐标(W-n(x+w/2)，H-n(y+h/2))和(W-n(x-w/2)，H-n(y-h/2))所定义的矩形内存在180度和n倍的脸的可能性。对270度和n倍的脸也同样适用。

在详细说明筛选402之前，首先，将说明累积图像的概念。称为累积图像的是由在本实施例中应用于二值图像的Crow(Crow，″Summed-area Tables For Texture Mapping″，Computer Graphics，Vol.18，No.3，1984)引入的总计区域表(summed-region table)。当二值图像在一点(x，y)的值是I(x，y)，累积图像在一点(x，y)的值S(x，y)是由下面的公式(1)表示。

S (x, y) = \underset{y^{'} \leq y}{\underset{x^{'} \leq x}{Σ}} I (x^{'}, y^{'}) - - - (1)

这里，当x＜0或y＜0时，S(x，y)＝0。如果这样定义累积图像，则(x₀，y₀)为左上顶点而(x₁，y₁)为右下顶点的二值图像上的矩形内“1”的数量S(x₀，y₀；x₁，y₁)是由下面的公式(2)表示。

S(x₀，y₀；x₁，y₁)＝S(x₀-1，y₀-1)-S(x₀-1，y₁)-S(x₁，y₀-1)+S(x₁，y₁) (2)

如果预先准备了累积图像，仅参考累积图像内的4点就可以获得在任意矩形内“1”的数量。

接着，将详细说明筛选402。图7中示出了筛选中的基本概念。对于图像中的脸，如图7中所示准备了包含眼睛的大矩形701和不包含眼睛或鼻子的小矩形702。然后，可以认为大矩形701包含非肤色像素而小矩形702的内部大部分显示为肤色。在此情况下，大矩形701和小矩形702是具有相互一致的中心的正方形。

例如，在大矩阵701中的肤色像素比率是t_L或更少而小矩阵702中的肤色像素比率是t_s或更多的条件下扫描肤色掩码409。例如，t_L＝0.7且t_S＝0.9。然后，当满足条件时可以获得脸候选位置。筛选402是根据上述概念而设计的。

图8是详细示出筛选402的数据流示意图。首先，累积图像生成处理801根据公式(1)的定义，从肤色掩码409生成累积图像802。接着，内矩形密度判断处理803通过累积图像802检查矩形内的肤色像素的密度(比率)，并将结果写入脸候选位置信息403中。将在下面详细说明内矩形密度判断803。

图9是示出用于筛选402的操作过程的流程图。首先，在步骤S901中，CPU 100使用定义累积图像的公式1生成累积图像。仅有一个累积图像就足够。接着，处理进入从步骤S902到S903的循环。对于每个脸尺寸，该循环为“n”设置值，并重复循环。在本实施例中，对“n”设置值“1”、“2”、“4”。这些值必须根据要检测的脸尺寸来调整。

接着，在步骤S904中，CPU 100确保用于脸候选位置信息403的存储区域。参考图5说明了脸候选位置信息403的内容。然后，在步骤S905中，CPU 100将脸候选位置信息初始化为0。接着，CPU 100对脸候选位置信息403的点重复从步骤S906到S907的循环。

如果大矩形的宽度/高度是SL而小矩形的宽度/高度是SS，则与脸候选位置信息的点(x，y)相对应的图像401的大矩形是由连接(n(x-SL/2)，n(y-SL/2))和(n(x+SL/2)，n(y+SL/2))的对角线所定义的正方形。此外，与点(x，y)相对应的图像401的小矩形是由连接(n(x-SS/2)，(y-SS/2))和(n(x+SS/2)，n(y+SS/2))的对角线所定义的正方形。这些矩形的每个中的肤色像素的数量通过上述的公式(2)所获得。

在步骤S908中，CPU 100判断大矩形中的肤色像素的比率是否为70％或更少。在下一步骤S909中，CPU 100判断小矩形中的肤色像素的比率是否为90％或更多。当满足了这两个条件时，CPU 100在步骤S910中将“1”写入脸候选位置信息403的点(x，y)。如上所述，在筛选402中进行脸候选位置的提炼，并且将结果写入脸候选位置信息403。

脸检测处理404判断在与所生成的脸候选位置信息403中写入了“1”的部分相对应的图像401的点附近是否存在脸。将旋转/缩减图像411用于此判断。例如，如果r度和n倍的可能性信息中的点(x，y)的值是“1”，则在旋转/缩减处理410中以r度旋转图像401，并且缩减到1/n倍。在脸检测处理404中，判断在由连接作为旋转/缩减处理410的结果所获得的旋转/缩减图像411的(x-w/2，y-w/2)和(x+w/2，y+w/2)的对角线所定义的矩形中是否存在脸。将该结果写入可能性信息405中。

有多种方法用于实现脸检测处理404。例如，在“Robust FaceDetection System based on Conventional Neutral networks UsingSelective Activation of Modules”(Yusuke Mitarai，KatsuhikoMori，Masakazu Matsugu；Forum on Information Technology(FIT)，2003)中提出的神经网络。

如上所述，根据本实施例的结构，通过检查两个矩形中存在的肤色像素的密度，可以高速地在通过提取肤色所生成的肤色掩码上提炼脸候选区域。作为结果，限制后续的脸检测处理的执行，并且整体处理的速度得以提高。

此外，通过使用正方形作为两个矩形并对准各自的中心点，通过一次扫描可以提炼多个倾斜度的脸候选位置并可以实现更高速度的处理。此外，通过在计算肤色像素的密度时使用累积图像来实现密度计算的高速处理。

尽管本发明是关于对应于脸倾斜度为0度、90度、180度和270度的信息处理设备，但在仅有一个倾斜度需要处理的情况下可以放松对用于筛选处理的图案的限制。更具体地，不需要存在4倍的旋转对称图案。相反，可以使用矩形、其它多边形和椭圆形作为替代。此外，不需要对准各个图案的中心点。

在上述实施例中，在筛选处理中已经使用了肤色像素比率。然而，色度、亮度、色调、色饱和度和明亮度也可以用来作为计算像素比率的属性值。

第二典型实施例

本发明的第二典型实施例涉及这样一种信息处理设备：在该信息处理设备中关于指定的二值图像进行字符识别，并将图像内一个字符的字符代码存储在存储器上。与图1中的典型实施例相比，根据本典型实施例的信息处理设备的硬件结构不包含闪存105。然而，可选地，可以将硬件配置成与图1中所示的第一典型实施例一样。第二典型实施例与第一典型实施例的不同之处在于：在第二典型实施例中还将字符识别的结果存储在RAM 102中。

图10是示出根据本实施例的信息处理设备的功能结构的框图。通过CPU 100执行程序来实现这些功能。存储在图像数据库103中的图像文件中的一些图像文件包含拍摄到的字符，而一些图像文件不包含拍摄到的字符。通过图像读取单元201将各自的图像文件存储在RAM 102中。如果在写入RAM 102的图像中存在字符，则字符辨识单元1001辨识该字符。然后，将辨识结果写入RAM 102的预定地址中。

图11是示出RAM 102的存储器结构的视图。将该信息处理设备的操作系统(OS)放置在区域1101中。将本典型实施例的程序放置在区域1102中。字符辨识单元1001将辨识结果写入区域1103。图像读取单元201将图像写入区域1104。区域1105是用于除上述之外的目的。区域1106是未使用的区域。

在实际设备中，上述区域的前后顺序可以根据操作系统的规格而与图11中的有所改变。此外，附图中每个区域的尺寸没有反映实际存储器区域的尺寸。

图12是在字符辨识单元1001中进行字符辨识时的数据流程图。将二值图像1201存储在RAM 102中，且“0”或“1”可以作为二值图像的每个元素的值。在下文中，将二值图像的值“1”作为字符颜色。然而，即使在将值“0”作为字符颜色的情况下，也可实现类似的有利效果。

字符类型筛选1202从图像1201选取字符可能存在的位置，并对字符的类型进行了粗略地划分。字符类型筛选将在下面详细说明。将字符类型筛选1202的结果写入字符候选信息1205中，并且字符辨识处理1203接收该结果。

在字符辨识处理1203中，使用字符类型筛选1202的结果来判断存在于二值图像1201中相应的位置处的字符的类型。如果辨识了字符，则将结果写入字符代码信息1204中。在字符辨识处理1203没有检测出字符的情况下，将0写入字符代码信息1204中。

如上所述，在本实施例中，将字符类型筛选处理1202置于字符辨识处理1203之前。因此，减少了执行具有相对沉重的计算负荷的字符辨识处理1203的次数。此外，在字符类型筛选1202中一定程度地进行了字符类型的提炼，因此，通过字符辨识处理1203可以进行最优辨识。

然后，将详细说明字符类型筛选处理1202。将参考图13说明字符类型筛选的基本概念。在典型的字符中，可以认为在限制字符的矩形内字符颜色的像素数量是在指定范围内。此外，如图13所示，如果关于某一字符进行分割字符区域，可以认为字符颜色的像素数量是在各区域中的指定范围内。因此，准备了覆盖字符的多个矩形。

考虑到每个矩形中像素数量的分布，如果选择并执行了与该分布相对应的字符辨识处理，可以进行该分布所专有的辨识处理。以这样的方法，可以降低在个别辨识处理中的学习负荷，从而能够以更高的精度进行辨识。

在本实施例中，采用了图14中布置的灰色矩形1400至1408。在图14中，单独布置了9个矩形以明确复制状态。然而，实际上，如矩形1410所示来布局这些矩形，在矩形1410中对准并重叠厚的帧。提供图14中所示出的矩形仅用于说明例子。根据实施例，有必要根据要鉴别的如日本汉字(kanji)图形字符或字母文字等字符类型来改变并选择最优矩形。

这里使用的术语“字符类型”不表示特定字符而是字符的集合。即，将多个字符作为整体称为字符类型。然而，有可能该集合仅包含一个字符。

将字符类型筛选1202中的字符类型表示为二值矢量。这里，对矩形1400至1408定义阈值t0至t8。如果矩形中字符颜色的像素数量超过相应的阈值，将“1”指定给矩形。否则，将“0”指定给矩形。通过布置这些数字“0”和“1”所获得的矢量表示字符类型。

例如，假设矩形1400内的总像素数量P＝400，且将t0＝132，t1＝28，t2＝96，t3＝96，t4＝28，t5＝96，t6＝28，t7＝96，t8＝28作为矩形的阈值。此外，假设获得了要辨识的图像的矩形1400至1408中字符颜色的像素数量分别为c0＝132，c1＝44，c2＝88，c3＝88，c4＝44，c5＝88，c6＝44，c7＝88，c8＝44。在该情况下，表示字符类型的矢量是(0，1，0，0，1，0，1，0，1)。以二维阵列布置图12中的字符候选信息1205，使得将二值图像1201的每个点(x，y)中字符类型矢量定义为阵列的(x，y)元素。

图15是示出字符类型筛选处理1202的处理的流程图。首先，将矩形1400定义为第0矩形；将矩形1401定义为第1矩形；将矩形1402定义为第2矩形；并以同样的方式定义矩形1403至1408。然后，在从矩形1400的左上点的相对坐标系中，将第i矩形的左上点和右下点分别定义为(xi0，yi0)和(xi1，yi1)。

字符类型筛选1202从步骤S1501至1502的循环开始执行。在此循环中，CPU 100对图12中二值图像1201内的每个点(x，y)重复执行。在此循环中，CPU 100还执行从步骤S1503至S1504的循环。在此循环中，在变量“i”从“0”增加至“8”时，重复下一步骤S1505、步骤S1506、或步骤S1507。

在步骤S1505中，CPU 100检查在由连接(x+xi0，y+yi0)和(x+xi1，y+yi1)的对角线所定义的第i矩形中字符颜色的像素数量“ci”，并检查该像素数量是否等于或小于“ti”。如果该像素数量等于或小于“ti”(步骤S1505中为“是”)，则处理进入步骤S1506。在步骤S1506中，CPU 100用“0”替换变量“vi”。如果像素数量大于“ti”(步骤S1505中为“否”)，则处理进入步骤S1507。在步骤S1507中，CPU 100用“1”替换变量“vi”。

当已经完成执行从步骤S1501至1502的循环完成时，CPU100生成布置了vi(i＝0～8)的矢量“v”并在步骤S1508中将此矢量定义为字符类型。然后，在步骤S 1509中，CPU 100用在步骤S1508中获得的向量“v”替换字符候选信息1205的(x，y)元素。

图16示出字符辨识处理1203的流程图。首先，CPU 100对字符候选信息1205的每个元素(x，y)重复从步骤S1601至S1602的循环。在步骤S1603中，CPU 100用字符候选信息1205的(x，y)元素替换变量“v”。在步骤S1604中，CPU 100选择与变量“v”相对应的辨识器。

在步骤S1604中，参照如图17所示的、将辨识器的标识符布置成字符类型矢量“v”的512值的查找表等表，然后选择辨识器。在图17中，左侧9栏表示字符类型矢量的值，且将相对应的辨识器的标识符写在右侧。在将“无”指定为辨识器的地方表示没有对应于该值的有效辨识器。

在步骤S1609中，CPU 100判断步骤S1604中的所选择的辨识器的标识符是否为“无”。在标识符是“无”的情况下(步骤S1609中为“否”)，则不存在有效的辨识器。因此，CPU 100继续从步骤S1601至步骤S1602的循环而不执行辨识。在步骤S1609中的标识符不是“无”的情况下(步骤S1609中为“是”)，处理进入步骤S1605。在步骤S1605中，CPU 100利用在步骤S1604中所选择的辨识器对在由连接二值图像1201的(x，y)和(x+x01，y+y01)的对角线所定义的矩形内的图像执行字符辨识。

然后，在步骤S1606中，CPU 100判断字符是否被已执行的辨识处理辨识出来。在字符辨识成功的情况下(步骤S1606中为“是”)，处理从步骤S1601至步骤S1602的循环退出，并进入步骤S1607。在步骤S1607中，CPU 100用辨识器检测出的字符的字符代码替换字符代码信息1204。另一方面，在判断结果为否定的情况下(步骤S1606中为“否”)，则CPU 100继续从步骤S1601到步骤S1602的循环。

在字符不能在字符候选信息1205的每个点中都被辨识出来的情况下，在步骤S1608中CPU 100用0替换字符代码信息1204。作为步骤S1605中使用的辨识器，例如，可使用一般的多层神经网络。此外，如反向传播算法(backpropagation algorithm)等技术可作为用于多层神经网络的学习方法。可选地，还可以使用如支持向量机(support vector machine，SVM)等其它图案识别技术。

无论如何，通过根据字符类型矢量来准备不同的辨识器可以改善识别性能。这是因为每个识别器需要学习仅由相同的字符类型矢量所表示的字符。以此方式，每个识别器需要学习仅在有限特征空间内的图案，并且可以降低单个识别器中的学习负荷。

这里使用的术语“不同的辨识器”可以是使用不同技术的辨识器或是使用同样技术而具有不同参数的辨识器。可选地，如图17中所示，可以在多个字符类型矢量中使用相同的辨识器。

如上所述，根据本实施例的结构，可以通过检查布置在预定布局中的图形内的字符颜色的像素数量来提炼字符候选位置。结果，限制了后续的字符辨识处理的执行，并且整个处理的速度得以提高。

此外，可以通过检查每个图形中字符颜色的像素数量的分布来改变字符识别处理，从而改善辨识精度。尽管本实施例假设字符尺寸是恒定的，但通过如在第一实施例中示出的缩减二值图像的方式可以识别字符的多种尺寸。

根据上面所述的实施例，可以方便且有效地提炼用于执行图案检测的目标区域。

本发明包含这样一种情况：在该情况中，基于计算机读取程序代码的指令，如OS等运行在计算机上的系统执行实际处理部分或全部，并且通过这些处理实现前述实施例的功能。

此外，本发明还包含这样一种情况：在该情况中，基于从存储介质读取的并写入配备在扩展板或扩展单元上的存储器中的程序代码的指令，通过装配到扩展板或扩展单元的CPU的处理来实现前述实施例的功能。

例如，可以使用如下作为用于提供程序代码的存储介质：软盘、硬盘、光盘、磁光盘、CD、DVD、磁带、非易失性存储卡、ROM等。

此外，本发明还包含这样一种情况：在图像输入装置、信息存储装置或将这些装置相互结合在其中的设备中，安装在两个设备或者设备任意之一中的CPU进行部分或全部实际处理，从而实现前述实施例的功能。

可以使用如下作为如上所述的图像输入装置：如摄像机、数字照相机、以及监视照相机等利用多个CCD的照相机或扫描器；以及可通过AD转换将来自模拟图像输入装置的模拟图像转换为数字图像的图像输入装置。如外部硬盘或视频记录器等设备可以用来作为信息存储装置。

尽管已经参考典型实施例对本发明进行了说明，但应当理解，本发明不局限于已经公开的典型实施例。所附权利要求书的范围符合最宽的解释，以包含所有这类修改、等同结构和功能。

Claims

1.一种图像处理方法，包括：

在图像的第一区域中判定具有第一属性的像素的比率以生成第一判定结果；

在所述图像的第二区域中判定具有第二属性的像素的比率以生成第二判定结果，其中，将所述第二区域布置在相对于所述第一区域的预定位置；

基于所述第一判定结果和所述第二判定结果来判断所述第一区域附近是否能够存在预定图案；以及

当判断出能够存在所述预定图案时，在所述第一区域附近检测所述图案。

2.根据权利要求1所述的图像处理方法，其特征在于，基于具有所述第一属性的所述像素的比率是否在第一范围内，生成所述第一判定结果。

3.根据权利要求2所述的图像处理方法，其特征在于，基于具有所述第二属性的所述像素的比率是否在第二范围内，生成所述第二判定结果。

4.根据权利要求1所述的图像处理方法，其特征在于，所述第一区域和所述第二区域是具有一致的中心的两个旋转对称图。

5.根据权利要求4所述的图像处理方法，其特征在于，所述第一区域是第一矩形区域，所述第二区域包含在所述第一矩形区域中并且是具有平行于所述第一矩形区域的边的第二矩形区域。

6.根据权利要求1所述的图像处理方法，其特征在于，所述像素的属性是像素色度、亮度、色调、色饱和度、或明亮度。

7.根据权利要求1所述的图像处理方法，其特征在于，还包括生成图像的累积图像，其中，在判定第一比率和判定第二比率时，通过使用所述累积图像来判断所述像素的比率。

8.根据权利要求1所述的图像处理方法，其特征在于，所述第一属性和所述第二属性与肤色相关联，并且所述预定图案对应于人脸图像。

9.一种图像处理方法，包括：

关于包括图像中的旋转对称图的一个或更多个图，判定每个图内具有预定属性的像素的比率；

基于比率判定结果，判断所述图的附近是否能够存在预定图案；以及

在所述图像的被判断出能够存在所述预定图案的部分中，检测所述预定图案和通过旋转所述预定图案所获得的图案。

10.根据权利要求9所述的图像处理方法，其特征在于，在所述比率判定中，判断具有所述预定属性的像素的比率是否在预定范围内。

11.根据权利要求9所述的图像处理方法，其特征在于，所述一个或更多个图是布置在预定相关位置的两个或更多个图。

12.根据权利要求9所述的图像处理方法，其特征在于，所述一个或更多个图是两个或更多个具有一致的中心的旋转对称图。

13.根据权利要求9所述的图像处理方法，其特征在于，所述像素的属性是像素色度、亮度、色调、色饱和度、或明亮度。

14.根据权利要求9所述的图像处理方法，其特征在于，还包括生成图像的累积图像，其中，在判定第一比率和判定第二比率时，通过使用所述累积图像来判定所属像素的比率。

15.一种图像处理设备，包括：

第一比率判定单元，用于在图像第一区域中判定具有第一属性的像素的比率；

第二比率判定单元，用于在所述图像的布置在相对于所述第一区域的预定位置的第二区域中判定具有第二属性的像素的比率；

判断单元，用于基于所述第一比率判定单元和所述第二比率判定单元的判定结果判断在所述第一区域附近是否能够存在预定图案；以及

检测单元，用于当判断出能够存在所述预定图案时，在所述第一区域附近检测图案。

16.根据权利要求15所述的图像处理设备，其特征在于，所述第一比率判定单元用于在所述图像的所述第一区域中判定具有肤色属性的像素的比率，所述第二比率判定单元用于在所述图像的所述第二区域中判定具有所述肤色属性的像素的比率；以及

其中，当在所述第一区域中具有所述肤色属性的所述像素的比率小于第一阈值而在所述第二区域中具有所述肤色属性的所述像素的比率大于第二阈值时，所述判断单元判断出在所述第一区域附近能够存在脸图案。

17.根据权利要求16所述的图像处理设备，其特征在于，当由所述判断单元判断出在所述第一区域附近能够存在脸图案时，所述判断单元在所述第一区域附近进行脸检测。

18.一种图像处理设备，包括：

比率判定单元，用于关于包括图像中的旋转对称图的一个或更多个图，判定每个图内具有预定属性的像素的比率；

判断单元，用于基于比率判定的结果，判断图的周围是否能够存在预定图案；以及

检测单元，用于在所述图像的被判断出能够存在所述预定图形的部分中，检测所述预定图案和通过旋转所述预定图案所获得的图案。