CN102799854B

CN102799854B - 图像识别装置以及图像识别方法

Info

Publication number: CN102799854B
Application number: CN201210082473.1A
Authority: CN
Inventors: 棚瀬宁; 三浦健; 等等力康弘; 椎野寿树; 羽深兼介; 滨田哲也; 安田泰代
Original assignee: NTT Docomo Inc; Morpho Inc
Current assignee: NTT Docomo Inc; Morpho Inc
Priority date: 2011-05-23
Filing date: 2012-03-26
Publication date: 2016-09-28
Anticipated expiration: 2032-03-26
Also published as: CN102799854A; JP5668932B2; JP2012243197A; US8600162B2; US20120301015A1; EP2528017B1; EP2528017A1

Abstract

本发明提供图像识别装置以及图像识别方法。在采用分离平面将块图像分类为类别的图像识别装置中，具备：输入对象图像的对象图像输入部；生成块图像的块图像生成部；计算块图像的特征量的特征量计算部；以及判别块图像是否被分类为类别的类别判别部，特征量计算部采用该块图像的局部特征量以及对象图像整体的整体特征量，并且在以块图像的多个特征为坐标轴的第2特征量空间中，采用组合多个局部特征量而成的特征量矢量的坐标位置和第2特征量空间的一个或多个任意区域，在整体特征量中包含对具有属于区域的特征量矢量的块图像按照每个区域进行计数后得到的块图像的数量。

Description

图像识别装置以及图像识别方法

技术领域

本发明的各个方面以及实施方式涉及图像识别装置以及图像识别方法。

背景技术

以往，作为图像识别装置，公知有如下这样的装置：将作为识别对象的对象图像分割为块状而生成块图像并将块图像分类为预先设定的多个类别(例如，参照专利文献1)。专利文献1所述的装置采用教师图像在将图像特征作为坐标轴的特征量空间中按照每个类别来学习分离平面，并根据分离平面以及与块图像的特征量的大小对应的坐标位置，将块图像分类为类别。块图像的特征量是该块图像的图像信息(颜色空间信息以及频率分量)。

【专利文献2】日本特开2010-45613号公报

但是，在专利文献1所述的图像识别装置中，有时难以将块图像分类为合适的类别。例如，在块图像是蓝色一种颜色的情况下，难以判断该块的类别为“天空”还是“水池”。

发明内容

在本技术领域中，期望一种能够提高分割对象图像而获得的块图像的分类精度的图像识别装置以及图像识别方法。

本发明一个方面的图像识别装置的特征在于，构成为一种图像识别装置，在以图像的特征为坐标轴的第1特征量空间中，预先学习为了将所述图像分类为预先设定的类别而采用的分离平面，并利用所述分离平面，将分割对象图像而获得的块图像分类为所述类别，该图像识别装置的特征在于，具备：输入部，其输入所述对象图像；块图像生成部，其将所述对象图像分割为多个块而生成多个所述块图像；特征量计算部，其计算所述块图像的特征量；以及类别判别部，其采用与所述第1特征量空间中的所述块图像的特征量的大小对应的坐标位置以及所述分离平面，判别所述块图像是否被分类为所述类别，所述特征量计算部采用根据该块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的整体特征量，作为所述块图像的特征量，并且，

在以所述块图像的多个特征为坐标轴的第2特征量空间中，采用组合所述块图像的多个所述局部特征量而成的特征量矢量的坐标位置和所述第2特征量空间的一个或多个任意区域，按照每个区域对具有属于所述区域的所述特征量矢量的所述块图像进行计数，将按照每个区域计得的所述块图像的数量包含在所述整体特征量中。

根据本发明一各方面的图像识别装置，作为块图像的特征量，不仅采用根据该块图像的图像信息算出的局部特征量，还采用根据对象图像整体的图像信息算出的整体特征量，所以不仅能利用块图像其本身的信息还可以考虑块图像与对象图像之间的关系而对块图像进行分类。因此，在仅利用块图像无法判断类别的情况下，有时只要观察对象图像整体就能够判断块图像的类别。此外，作为整体特征量，包含：在以块图像的多个特征为坐标轴的第2特征量空间中，采用组合块图像的多个局部特征量而成的特征量矢量的坐标位置和第2特征量空间的一个或多个任意区域，对具有属于区域的特征量矢量的块图像按照每个区域进行计数后得到的块图像的数量。因此，可以组合多个局部特征量来构成新的特征量，并采用新的特征量进行分类。由此，能够避免偏向一个局部特征量进行分类的情况。所以，能够提高块图像的分类精度。

这里，所述特征量计算部还可以在所述整体特征量中包含：在整个所述对象图像整体中包含的所述块图像中所述局部特征量的大小为预定值以上的所述块图像的数量、或者所述局部特征量的大小小于所述预定值的所述块图像的数量。通过这样的结构，整体特征量不仅仅为反映了对象图像整体的特征(例如局部特征的位置关系)的特征量，还可以为进一步强烈地反映了局部特征本身的特征量。因此，利用局部特征量影响强的整体特征量来弥补当根据对象图像整体的特征量进行判断时误识别的块图像，从而能够正确地进行识别。因此，可提高块图像的分类精度。

此外，所述图像识别装置具备对象区域图像提取部，该对象区域图像提取部从所述对象图像中提取对象区域而作为对象区域图像，所述块图像生成部将所述对象区域图像分割成多个块而生成多个所述块图像。通过这样的结构，利用对象区域图像提取部，从对象图像中提取对象区域图像，并对所提取的对象区域图像以块为单位进行识别处理。因此，即使是比例变化或被摄体位置偏移了的对象图像也能够适当地进行分类。

另外，本发明另一个方面的图像识别方法的特征在于，构成为一种图像识别方法，在以图像的特征为坐标轴的第1特征量空间中，预先学习为了将所述图像分类为预先设定的类别而采用的分离平面，并采用所述分离平面，将分割对象图像而获得的块图像分类为所述类别，该图像识别方法的特征在于，具备以下步骤：输入步骤，输入所述对象图像；块图像生成步骤，将所述对象图像分割成多个块而生成多个所述块图像；特征量计算步骤，计算所述块图像的特征量；以及类别判别步骤，采用与所述第1特征量空间中的所述块图像的特征量大小对应的坐标位置以及所述分离平面，判别所述块图像是否被分类为所述类别，在所述特征量计算步骤中，采用根据该块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的整体特征量，作为所述块图像的特征量，并且在以所述块图像的多个特征为坐标轴的第2特征量空间中，采用组合所述块图像的多个所述局部特征量而成的特征量矢量的坐标位置和所述第2特征量空间的一个或多个任意区域，按照每个区域对具有属于所述区域的所述特征量矢量的所述块图像进行计数，将按照每个区域计得的所述块图像的数量包含在所述整体特征量中。

根据上述图像识别方法，可起到与上述本发明的图像识别装置同样的效果。

以上，根据本发明的各个方面以及实施方式，能够提高分割对象图像而获得的块图像的分类精度。

附图说明

图1是安装了第1实施方式的图像识别装置的便携终端的功能框图。

图2是安装了图1中的图像识别装置的便携终端的硬件结构图。

图3是说明对象图像的块单位的图像识别的概要图。(A)是对象图像，(B)是块分割后的对象图像，(C)是按照块单位被分类的对象图像。

图4是块单位的图像特征量的一例。

图5是说明局部特征量的概要图。

图6是像素值(亮度值以及色差度)的直方图的一例。(A)是Y分量的直方图，(B)是U分量的直方图，(C)是V分量的直方图。

图7是说明邻近特征量的概要图。

图8是说明下位整体特征量的概要图。(A)是在纵方向以及横方向上扩展的区域，(B)是示出在纵方向上延伸的区域和在横方向上延伸的区域的概要图。

图9是说明整体特征量的概要图。(A)是示出全部区域的概要图，(B)是示出四角区域的概要图。

图10是说明边缘尺寸的特征量的概要图。

图11(A)是组合了多个局部特征量的整体特征量的一例。(B)是整体特征量的直方图。

图12是整体特征量的一例。

图13是学习分离超平面的装置的功能框图。

图14(A)是训练数据的一例。(B)是说明块单位的学习的概要图。

图15是用于说明分离超平面的概要图。

图16是示出图1中的图像识别装置的动作的流程图。

图17是安装了第2实施方式的图像识别装置的便携终端的功能框图。

图18是示出图17中的图像识别装置的动作的流程图。

图19是说明从对象图像中提取出的对象区域图像的概要图。

图20是说明采用了对象区域图像的图像识别的概要图。

标号说明

1...图像识别装置，2...学习装置，10...对象图像输入部(输入部)，11...块图像生成部，12...特征量计算部，13...类别判别部，100...对象区域图像提取部。

具体实施方式

以下，参照附图来说明本发明的实施方式。此外，对附图说明中相同的元素标注同一标号并省略重复的说明。另外，附图的尺寸比率未必与说明中的比率一致。

(第1实施方式)

本实施方式的图像识别装置是将对象图像分割为固定尺寸的块图像并以块为单位来识别被摄体的装置，例如，安装于移动电话、数字照相机、PDA(Personal DigitalAssistant：个人数字助理)或通用计算机系统等中的装置。此外，下面考虑到便于理解，将安装在便携终端中的图像识别装置作为本发明的图像识别装置的一例进行说明。

图1是具备本实施方式的图像识别装置1的便携终端3的功能框图。图1所示的便携终端3是例如由用户携带的移动终端，其具有图2所示的硬件结构。图2是便携终端3的硬件结构图。如图2所示，便携终端3物理上构成为包含CPU(CentralProcessing Unit：中央处理器)100、ROM(Read Only Memory：只读存储器)101以及RAM(Random Access Memory：随机存取存储器)102等主存储装置、照相机或键盘等输入设备103、显示器等输出设备104、硬盘等辅助存储装置105等在内的通用计算机系统。通过在CPU 100、ROM 101、RAM 102等硬件上读入预定的计算机软件，根据CPU 100的控制，使输入设备103以及输出设备104动作，并且读出以及写入主存储装置及辅助存储装置105中的数据，由此来实现后述便携终端3以及图像识别装置1的各个功能。此外，在上述说明中作为便携终端3的硬件结构进行了说明，但图像识别装置1还可以构成为包含CPU 100、ROM 101以及RAM 102等主存储装置、输入设备103、输出设备104、辅助存储装置105等在内的通用计算机系统。另外，便携终端3可具备通信模块等。

如图1所示，便携终端3具备图像识别装置1、分离超平面数据(分离平面数据)31以及类别数据32。

图像识别装置1具备对象图像输入部10、块图像生成部11、特征量计算部12以及类别判别部13。对象图像输入部10具有输入对象图像30作为识别对象的图像数据的功能。对象图像输入部10例如可输入由安装在便携终端3上的照相机所拍摄的对象图像30，也可以经由通信而输入对象图像30。对象图像输入部10例如在便携终端3的主存储装置或辅助存储装置105中记录对象图像30。

块图像生成部11具有将输入的对象图像30分割为固定区域的块而生成块图像的功能。例如，块图像生成部11将图3(A)所示的对象图像G1如图3(B)所示分割为多个块图像BL。块图像生成部11如图中那样将对象图像G1分割为纵4块×横6块。此外，块图像生成部11也可以将对象图像G1分割为纵16块×横16块，也可以按照其它比例进行分割。块图像生成部11也可以在将对象图像G1的长边调整为预定值以下之后再进行分割。块图像生成部11具有将块图像输出给特征量计算部12的功能。

特征量计算部12具有计算块图像BL各自的特征量的功能。特征量计算部12根据块图像BL的像素值或边缘信息等图像信息来计算特征量。即，特征量反映了被摄体的特征。此外，特征量的大小在以特征为坐标轴的特征量空间(第1特征量空间)中可以表现为位置坐标。例如，如果是p维的特征量，则特征量的大小是(β1、β2、...、βp)的坐标位置。下面对特征量进行详细叙述。特征量计算部12具有将块图像BL各自的特征量输出给类别判别部13的功能。

类别判别部13具有根据块图像BL的特征量将块图像BL分类为预定的类别的功能。预定的类别例如可列举：“大海”、“山”、“天空”、“晚霞”、“红叶”、“樱花”、“雪”、“文字/记录”，“人”，“料理”、“沙滩”、“花”、“绿”、“狗”或“建筑物”等。另外，作为预定的类别也可以包含“空集合”。通过预先设定“空集合”，当不存在正确的类别时，不强制性地判断为属于现有的类别，而可以判断为属于“空集合”(即，哪个都不属于)。因此，可减小误判定。分离超平面数据31包含根据训练数据按照上述每个类别预先学习的分离超平面。当将p维的特征量数据设为J＝(α1，α2，...，αp)、矢量＝(w1，w2，...，wp)、常数为z时，分离超平面可用下式1来表示。

w1·α1+w2·α2+...+wp·αp+z＝0 ...(1)

此外，对分离超平面数据31的学习处理将在后面进行叙述。类别判别部13参照分离超平面数据31将块图像BL分类为上述类别。类别判别部13判别块图像BL是否被分类为上述类别。类别判别部13对块图像BL的特征量与某类别的分离超平面进行比较，在特征量大于分离超平面的情况下，判定为属于该类别。另一方面，类别判别部13在特征量不大于分离超平面的情况下，判定为不属于该类别。例如预先设定4个类别A～D，假设各个分离超平面已学习完毕。类别判别部13如图3(C)所示，针对各个块图像BL，比较特征量与每个类别A～D的分离超平面而分类为类别A～D。更详细地说，类别判别部13在特征量空间中比较上述式1表示的每个类别的分离超平面与由特征量计算部12获得的p维的特征量数据O＝(β1、β2、...、βp)。例如，类别判别部13将通过图像特征量计算处理求出的特征量数据代入每个类别的上述1式的左边，计算分离超平面与特征量空间的坐标(β1、β2、...、βp)之间的带符号的距离，并判定距离的符号。此外，类别判别部13在判定为块图像BL的特征量不大于所有的分离超平面时，认为“不合适”。另外，在块图像BL属于2个以上的类别时，类别判别部13判定为其属于比较顺序中最早被分类的类别。类别判别部13将输出结果输出给类别数据32。

接着，对特征量进行详细说明。特征量计算部12如图4所示，采用以下的4个特征量作为块图像的特征量。图4示出对象图像(图像ID：○○○○)中的块No.1～No.256的每个块的特征量。

第1特征量是局部特征量(local特征量)。根据作为对象的块图像本身的图像信息来计算局部特征量。例如，采用图5所示的对象图像G1的预定对象块图像B0的图像信息来计算局部特征量。局部特征量例如包括：对象块图像B0的像素值(Y分量、U分量、V分量)各自的平均值以及方差值、对象块图像B0中的横方向的边缘尺寸以及纵方向的边缘尺寸、对象块图像B0中的横方向的边缘尺寸以及纵方向的边缘尺寸之比、对象块图像B0中的Y分量的直方图或对象块图像B0的像素值与肤色的相似度。

此外，对象块图像B0的像素值与肤色的相似度是为了识别类别“人”而包含的特征量，在预先设定的类别中不包含“人”的情况下也可以不采用。

对包含像素值的直方图作为特征量的情况进行说明。图6(A)～(C)是像素值各个分量的直方图，横轴是像素值分量，纵轴是频度。如图6所示，像素值分量以预定范围间隔被分类为层级。例如图6(A)所示，Y分量的0～255被分类为X1～Xn(n是2以上的整数)层级。另外，如图6(B)所示，U分量的0～255被分类为X1～Xm(m是2以上的整数)层级。另外，如图6(C)所示，V分量的0～255被分类为X1～Xs(s是2以上的整数)层级。例如，在块图像内，如果属于Y分量的层级X1的像素值的像素具有2个，则“2”为特征量。第1特征量包含Y分量的直方图所示的层级X1～Xm各自的次数作为特征量。

第2特征量是邻近特征量(neighbor特征量)。根据包围对象块图像周围的块图像即周边块图像的图像信息来计算邻近特征量。例如，根据包围图7所示的对象图像G1的预定的对象块图像B0周围的周边块图像B1～B8的图像信息来计算邻近特征量。邻近特征量例如包括：周边块图像B1～B8的局部特征量、将周边块图像B4、B5合并后的像素值(Y、U、V)的平均值以及方差值、或将周边块图像B6、B8合并后的像素值(Y、U、V)的平均值以及方差值。

与周边块图像B4、B5相关的特征量以及与周边块图像B6、B8相关的特征量用于判定周边块图像的对称性。例如，如果类别是“天空”则具有平均为均匀的倾向，如果类别是“人”则具有其周围在背景中平均为均匀的倾向。这样，可采用从8个周边块图像中选择出的周边块图像来计算特征量。

第3特征量是下位整体特征量(sub-global特征量)。关于下位整体特征量，可根据由多个块图像构成的部分区域的、包含对象块图像的部分区域的图像信息来计算。例如图8(A)所示，根据包含对象图像G1的预定的对象块图像B0的部分区域R2的图像信息来计算。此外，也可以根据以对象块图像为中心的一定大小的圆内的区域的图像信息来计算。另外，如图8(B)所示，也可以根据包含对象图像G1的预定的对象块图像B0的部分区域的、由一纵列的块图像构成的部分区域R3或由一横列的块图像构成的部分区域R4的图像信息来计算。另外，还可以根据将部分区域R3、R4二等分后的区域中对象块图像B0所属的部分区域的图像信息来计算。即，下位整体特征量例如包含：部分区域内的横方向以及纵方向的全部像素的像素值(Y、U、V)的平均值以及方差值、将部分区域内的横方向以及纵方向的全部像素二等分后的区域中对象块图像所属的区域的像素值(Y、U、V)的平均值以及方差值、或包括对象块图像的一定大小的区域中的像素的像素值(Y、U、V)的平均值以及方差值。

可以采用由一纵列的块图像构成的部分区域R3的图像信息及部分区域内的纵方向的图像信息作为反映了每个类别不同的纵方向的变化的特征量。另外，可以采用由一横列的块图像构成的部分区域R4的图像信息及部分区域内的横方向的图像信息作为易于判别类别“天空”等的具有在横方向配置同样的像素的倾向的类别的特征量。

第4特征量是整体特征量(global特征量)。关于整体特征量，可根据对象图像整体的图像信息来计算。例如，根据图9(A)所示的对象图像G1整体(整体区域R5)的图像信息来计算。另外，作为整体特征量，可根据图9(B)所示的四边形状的对象图像G1中的四角区域R6～R9的图像信息来计算。即，整体特征量例如包含：对象图像G1的像素值(Y、U、V)的平均值以及方差值、对象图像G1横方向的边缘尺寸以及纵方向的边缘尺寸、对象图像G1的U分量的直方图中的层级X1～Xm各自的次数、对象图像G1的V分量的直方图中的层级X1～Xs各自的次数、对象图像G1的四角区域R6～R9中的像素值(Y、U、V)的平均值以及方差值、对象图像G1的四角区域R6～R9中横方向的边缘尺寸以及纵方向的边缘尺寸、或者对象图像所包括的块图像在每45度的各个方向上的边缘尺寸的直方图中的层级X1～Xk(k是2以上的整数)各自的次数。

通过包含对象图像G1的四角区域R6～R9中的像素值(Y、U、V)、对象图像G1的四角区域R6～R9中的横方向的边缘尺寸以及纵方向的边缘尺寸，可采用在对象图像G1的角落的区域所表示的特征来进行分类。在人们对餐具等圆形物进行拍摄时，根据拍摄时的美学思想，大多拍摄为在四个角落分配有餐具的边缘部分。因此，可通过采用四角区域R6～R9中的图像信息来对圆形物进行适当分类。在对象图像所包含的块图像的每45度(0°、45°、90°、135°)的各个方向中，与图6(A)同样地将各个边缘尺寸作为层级X1～Xk、将属于层级X1～Xk的像素数作为特征量，由此在从上面拍摄配置有多个餐具的套餐等的情况下，能够对多个圆形物的边缘部分进行适当分类。此外，也可以对整体图像G1进行16分割或9分割，组合分割区域四角的边缘的累计值作为特征量。在此情况下，同样能够对多个圆形物的边缘部分进行适当分类。

关于对象图像G1的U分量的直方图中的层级X1～Xm各自的次数以及对象图像G1的V分量的直方图中的层级X1～Xs各自的次数与图6(B)、(C)所示的内容相同。另外，关于边缘的大小，也可以当为预定值以上时相反地成为低评价。例如图10所示，边缘尺寸与特征量的关系可以是：在边缘尺寸成为预定阈值Hd之前，特征量单调增加，当边缘尺寸成为预定阈值Hd以上时特征量可单调减少。此时，能够区分边缘尺寸为中等程度的情况、边缘小的情况以及边缘大的情况。例如，可区分边缘尺寸大的“文字”和边缘尺寸中等程度的“大海”。

这里，关于整体特征量，除了上述特征量之外，还包括将涉及特征量的大小而满足预定条件的块图像的数量作为特征量。例如，当以亮度值为例时，包含亮度值Y的大小是预定值以上的块图像的数量作为特征量，或者，包含亮度值Y的大小比预定值小的块图像的数量作为特征量。因为可以将特征量类似的块作为特征量，所以与上述整体特征量相比可设定强烈反映了块图像各自的特征的特征量。此外，作为预定条件，可以是特征量属于预定的范围内这样的条件。当以亮度值为例时，还可以包含亮度值Y的大小是第1阈值以上第2阈值以下的块图像的数量作为特征量。这样，作为预定条件，不仅仅是采用特征量大于预定值或小于预定值这样的二元化条件，还可以采用是否包含于预定的范围内这样的条件，由此可以将特征量是否是中等程度作为判断材料。

另外，关于整体特征量，还可以包含涉及多个特征量的大小而满足预定条件的块图像的数量作为特征量。例如，以像素值(Y、U、V)为例进行说明。可以将像素值的Y分量、U分量以及V分量的大小分别划分为低、中、高这3个层级，各个层级的组合成为3×3×3的27个图案(pattern)。可以通过按照各个特征量设定多个阈值(预定值)来设定多个层级。针对每个块图像来判定块图像内的Y分量、U分量以及V分量的大小的各个平均值属于层级组合后的27个图案中的哪个，将属于各个图案的块图像的数量(次数)作为特征量。例如图11(A)所示，将与块图像内的像素值(Y、U、V)的大小各自的平均值为(高、高、高)的组合图案Xq对应的块图像数作为特征量。通过组合特征量的层级，如图11(B)所示，图案X1～Xq成为新的层级，属于该层级的块图像的数量(次数)为特征量。通过采用组合的层级，可同时取得特征量类似的块。另外，组合多个特征量来形成新的层级并将次数作为特征量，由此可避免偏向某一个特征量进行判断的情况。

在上述例中，对像素值的组合进行了说明，但在组合中使用的特征量不仅限于像素值。可通过各不相同的各特征量的组合来构成表现复杂特征的新特征量。关于新特征量，例如在以u个特征为坐标轴的特征量空间(u维：第2特征量空间)中，将多个局部特征量作为u维的特征量矢量(f1、f2、...、fu)来使用。将u维的特征量空间预先分割为q个区域。由此，在各个区域中，区域内的任意矢量间的距离变小，多个局部特征量变得类似。因此，容易提取多个局部特征量间的共性。因为各块图像属于q个区域中的某一个，所以判定全部图像所包含的所有块图像分别属于哪个区域，计数属于任意区域Zi(1≤i≤q)的块图像的数量，并将每个区域的计数值用于整体特征量。这样，通过采用各特征量的组合，不仅利用上述颜色的组合还可以加入作为完全不同种类的特征量的边缘信息来同时进行判断。例如，在识别樱花瓣的情况下，需要将粉色及细小的边缘作为特征进行捕捉。通过组合作为用于识别“粉色”的特征量的红色的颜色成分、蓝色的颜色成分以及绿色的颜色成分和用于识别“细小的边缘”的边缘，来取得“粉色及细小的边缘”的块图像的数量，即与樱花瓣相似的块图像的数量作为特征量。图12是为了识别例如图3(A)所示的“狗”而集中的特征量空间。例如，当将“呈现绿色且在边缘没有方向性的种类(class)”设为a、将“狗的表皮这样的种类”设为b、将“呈现黑色且边缘直立的种类”设为d时，在集中的特征量空间内，属于各个种类(区域)的块图像的数量分别为特征量。

另外，用于组合的多个特征量其数量没有限制。例如图4所示，可组合块图像内像素值的Y分量、U分量以及V分量各自的大小的平均值或方差值、块图像的纵方向的边缘尺寸和块图像内的横方向的边缘尺寸这5个特征量来作成图案，并将次数作为特征量。在将各个层级分为3个的情况下，形成3⁵＝243图案。

接着，说明在图像识别装置1的动作前进行的分离超平面数据31的学习处理。图13是具有学习装置2的便携终端3的功能框图。如图13所示，便携终端3具备学习装置2以及分离超平面数据31。此外，学习装置2可根据需要通过与便携终端3分开的计算机来实现。

图像识别装置1具备训练数据输入部15、块图像生成部11、特征量计算部12以及分离超平面计算部16。训练数据输入部15具有输入教师图像33作为学习对象的图像数据的功能。图14(A)是用于学习类别“花”的正确答案的教师图像G2的一例。另外，如图14(B)所示，训练数据中还包含在块Bt的位置处描绘“花”这样的信息。即，图14的训练数据是对正确类别附带了标记的图像块。作为训练数据还可包含对非正确答案的类别附带了标记的图像块。训练数据按照预定的类别来准备。训练数据输入部15例如可输入由安装于便携终端3的照相机所拍摄的教师图像33，或者可经由通信来输入教师图像33。训练数据输入部15例如在便携终端3的主存储装置或辅助存储装置105中记录对象图像30。

块图像生成部11具有如上所述的将输入的教师图像33分割为固定区域的块并生成块图像的功能。特征量计算部12如上所述具有计算块图像各自的特征量的功能。特征量计算部12具有将块图像各自的特征量向分离超平面计算部16输出的功能。

分离超平面计算部16具有输入每个类别的图像特征量而按照每个类别计算分离超平面的功能。分离超平面计算部16例如利用作为学习算法而广泛使用的线形SVM(support vector machine：支持向量机)的专用库来计算分离超平面。以下，考虑到便于理解，来说明二维的图像特征量α1、α2中的特征量平面的分离超直线。如图15所示，将图像特征量α1作为纵轴，将图像特征量α2作为横轴，将正确答案的训练数据C1和非正确答案的训练数据C2作成曲线。在此情况下，分离超平面计算部16利用线形SVM，来学习分离正确答案的训练数据C1与非正确答案的训练数据C2的直线即分离超直线L1。将学习结果记录为分离超平面数据31。此外，在p维(p＞2：p是整数)的情况下，特征量平面为特征量空间，分离超直线为分离超平面。因此，分离超平面是包含分离超直线的概念，特征量空间是包含特征量平面的概念。

接着，说明本实施方式的图像识别装置1的动作。图16是示出本实施方式的图像识别装置1的识别动作的流程图。图16所示的控制处理是在执行了上述学习处理之后，例如在便携终端3所具备的处理开始按钮接通的时机执行。

如图16所示，对象图像输入部10输入对象图像(S10：输入步骤)。当S10的处理结束时，向块图像生成处理转移(S12：块图像生成步骤)。在S12的处理中，块图像生成部11分割在S10的处理中输入的对象图像而生成块图像。当S12的处理结束时，向特征量计算处理转移(S14：特征量计算步骤)。在S14的处理中，特征量计算部12针对在S12的处理中生成的块图像分别计算特征量。例如，针对各个块图像计算图4所示的特征量。当S14的处理结束时，向分类处理转移(S16：类别判别步骤)。在S16的处理中，类别判别部13对在S16的处理中计算出的每个块图像的特征量与已学习完毕的分离超平面数据31进行比较，针对具有比预定类别的分离超平面大的特征量的块图像，判定为属于该类别。当针对全部的块图像判定了类别时，结束图16所示的控制处理。

接着，说明用于使便携终端3(计算机)作为图像识别装置1发挥功能的图像识别程序。

图像识别程序具备主模块、输入模块以及计算处理模块。主模块是统一控制图像处理的部分。输入模块使便携终端3动作以取得输入图像。计算处理模块具备块图像分割模块、特征量计算模块以及类别判别模块。通过执行主模块、输入模块以及计算处理模块来实现的功能与上述图像识别装置1的对象图像输入部10、块图像生成部11、特征量计算部12以及类别判别部13的功能分别相同。

例如，图像识别程序可通过ROM等存储介质或半导体存储器来提供。另外，也可以经由网络作为数据信号来提供图像识别程序。

以上，根据第1实施方式的图像识别装置1，作为块图像B0的特征量，不仅使用根据该块图像B0的图像信息计算出的局部特征量，还采用根据对象图像G1整体的图像信息计算出的整体特征量，所以不仅仅利用块图像B0其本身的信息还可以考虑块图像B0与对象图像G1之间的关系来对块图像B0进行分类。因此，即使在仅利用块图像B0不能判断类别的情况下，有时只要观察整个对象图像G1就能够判断块图像B0的类别。例如，在块图像B0为蓝色的情况下，难以根据块图像B0的图像信息来判断类别是“天空”还是“大海”。但是，在整体特征量中，只要能够取得用于判断是“天空”还是“大海”的特征量，就可以判断块图像B0的类别。

另外，作为整体特征量，在不包含局部特征量的大小为预定值以上的块图像的数量的情况下，存在整体模糊的简化特征的倾向。例如，在学习拍摄了“大海”和“沙滩”的图像时，获得了“大海位于沙滩上侧”这样的整体特征。在这种学习结果的情况下，当判别描绘了茶色桌子的对象图像时，描绘桌子的区域被正确识别为类别“不适合”，但当判别在茶色桌子上配置有蓝色物体的对象图像时，有时将蓝色物体误识别为“大海”，将桌子误识别为“沙滩”。与此相对，作为整体特征量，通过包括整个对象图像G1所包含的块图像中的局部特征量大小为预定值以上的块图像的数量或局部特征量大小小于预定值的上述块图像的数量作为特征量，由此，整体特征量不仅仅为反映了对象图像G1整体的特征(例如局部特征的位置关系)的特征量、还可以为进一步强调地反映了局部特征其本身的特征量。因此，可利用局部特征量影响较强的整体特征量来弥补当根据对象图像G1整体的特征量进行判断时误识别的块图像B0，由此能够正确地进行识别。当以上述例进行说明时，可将蓝色物体的特征作为块数反映于整体特征量，可判断为与“大海”的情况相比块数少，所以能够判断为蓝色物体本身不是“大海”。因此，能够避免将桌子分类为“沙滩”的情况。由此，能够提高块图像的分类精度。

另外，根据第1实施方式的图像识别装置1，可组合多个局部特征量来构成新特征量，并采用新特征量进行分类，所以能够避免偏向一个局部特征量进行分类的情况。由此，能够消除偏向的判断。

此外，根据第1实施方式的图像识别装置1，整体特征量根据局部特征量的大小将局部特征量分类为多个层级，并包含具有属于层级的局部特征量的块图像的数量作为特征量，所以在组合多个局部特征量之后可成为更详细的特征量。

(第2实施方式)

第2实施方式的图像识别装置1的结构为与第1实施方式的图像识别装置1大致相同，不同点是从对象图像中提取多个区域，并分割所提取的区域，生成块图像而进行分类。以下，以与第1实施方式的图像识别装置1的不同点为中心进行说明，并省略重复部分的说明。

图17是具备第2实施方式的图像识别装置1的便携终端的功能框图。此外，硬件结构与第1实施方式的图像识别装置1相同。如图17所示，图像识别装置1具备对象区域图像提取部100。

对象区域图像提取部100从对象图像中提取预定大小的对象区域图像。例如，从对象图像中提取相互重叠的多个对象区域而分别构成对象区域图像。对象区域图像提取部100向块图像生成部11输出对象区域图像。块图像生成部11具有将对象区域图像分割为固定区域的块而生成块图像的功能。另外，类别判别部13将每个对象区域图像的分类结果重复作为对象图像中的块图像的分类结果。其它结构与第1实施方式的图像识别装置1相同。

接着，对本实施方式的图像识别装置1的动作进行说明。图18是示出本实施方式的图像识别装置1的动作的流程图。图18所示的控制处理是在执行第1实施方式所说明的学习处理之后，例如在便携终端3所具备的处理开始按钮被接通的时机执行。

如图18所示，对象图像输入部10输入对象图像(S20)。当S20的处理结束时，转移至对象区域图像的提取处理(S22)。

在S22的处理中，对象区域图像提取部100从在S20的处理中输入的对象图像中提取多个对象区域图像。例如图19(A)所示，从对象图像G3的左上区域中提取对象区域图像Rt₁。同样，如图19(B)所示，从对象图像G3的右上区域中提取对象区域图像Rt₂，如图19(C)所示，从对象图像G3的右下区域中提取对象区域图像Rt₃，如图19(D)所示，从对象图像G3的左下区域中提取对象区域图像Rt₄，如图19(E)所示，从对象图像G3的中央区域中提取对象区域图像Rt₅。此外，以分别重叠的方式提取对象区域图像Rt₁～Rt₅。当S22的处理结束时，转移至图像选择处理(S24)。

在S24的处理中，对象区域图像提取部100从在S22的处理中提取出的对象区域图像Rt₁～Rt₅内选择1个图像。当S24的处理结束时，转移至块图像生成处理(S26)。

在S26的处理中，块图像生成部11分割在S24的处理中选择出的对象区域图像而生成块图像。当S26的处理结束时，向特征量计算处理转移(S28)。在S28的处理中，特征量计算部12针对在S26的处理中生成的块图像分别算出特征量。当S28的处理结束时，向分类处理转移(S30)。在S30的处理中，类别判别部13比较在S28的处理中计算出的每个块图像的特征量与已学习完毕的分离超平面数据31，针对具有比预定类别的分离超平面大的特征量的块图像，判定为属于该类别。当针对全部块图像判定类别时，向选择判定处理转移(S32)。

在S32的处理中，对象区域图像提取部100判定是否针对在S22的处理中提取出的全部对象区域图像Rt₁～Rt₅进行了分类处理。当判定为存在还未选择的对象区域图像Rt₁～Rt₅时，再次向S24的处理转移。并且，对象区域图像提取部100选择还未选择的对象区域图像。针对所选择的对象区域图像执行S26～S30的处理。这样，反复执行S24～S32的处理，直到针对全部对象区域图像Rt₁～Rt₅执行了分类处理。另一方面，在判定为针对全部对象区域图像Rt₁～Rt₅执行了分类处理时，向结果输出处理转移(S34)。

在S34的处理中，类别判别部13重复对象区域图像Rt₁～Rt₅的块单位的分类结果而输出作为对象图像G3的块单位的分类结果。当S34的处理结束时，结束图18所示的控制处理。

以上，结束图18所示的控制处理。通过执行图18所示的控制处理，即使是产生了图像比例的变化及被摄体的偏移的对象图像也能够适当进行分类。例如图20(A)所示，假设存在被摄体从中央向右上偏移而被描绘得较小的对象图像G3。在此情况下，根据现有的图像识别装置，因为与形状相关的特征等和学习时不同，所以有时难以进行识别。与此相对，根据第2实施方式的图像识别装置1，利用对象区域图像提取部100，从对象图像G3中提取对象区域图像Rt₁～Rt₅，并针对所提取的对象区域图像Rt₁～Rt₅以块为单位进行识别处理。因此，如图20(B)所示，可采用被摄体在中央被描绘得较大的对象区域图像Rt2以块为单位进行识别处理。由此，即使是比例变化及被摄体位置偏移的对象图像G3也能够适当地进行分类。

此外，上述实施方式示出本发明的图像识别装置、图像识别方法、图像识别程序以及记录介质的一例，而不仅限于实施方式的装置、方法、程序以及记录介质，还可以应用于变形或者其它的方式。

例如，在上述实施方式中说明了作为图像的特征量除了局部特征量之外还采用整体特征量、邻近特征量以及下位整体特征量的情况，即使在仅采用局部特征量以及整体特征量的情况下，也能够提高分割对象图像而获得的块图像的分类精度。

Claims

1.一种图像识别装置，该图像识别装置在以图像的特征为坐标轴的第1特征量空间中，预先学习为了将所述图像分类为预先设定的类别而采用的分离平面，并利用所述分离平面将分割对象图像而获得的块图像分类为所述类别，该图像识别装置的特征在于，具备：

输入部，其输入所述对象图像；

块图像生成部，其将所述对象图像分割为多个块而生成多个所述块图像；

特征量计算部，其计算所述块图像的特征量；以及

类别判别部，其采用与所述第1特征量空间中的所述块图像的特征量的大小对应的坐标位置以及所述分离平面，判别所述块图像是否被分类为所述类别，

所述特征量计算部采用根据该块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的整体特征量，作为所述块图像的特征量，并且，

2.根据权利要求1所述的图像识别装置，其中，

所述特征量计算部将如下所述块图像的数量包含在所述整体特征量中：在整个所述对象图像中包含的所述块图像中所述局部特征量的大小为预定值以上的所述块图像的数量、或者所述局部特征量的大小小于所述预定值的所述块图像的数量。

3.根据权利要求1或2所述的图像识别装置，其特征在于，

所述图像识别装置具备对象区域图像提取部，该对象区域图像提取部从所述对象图像中提取对象区域而作为对象区域图像，

所述块图像生成部将所述对象区域图像分割成多个块而生成多个所述块图像。

4.一种图像识别方法，在以图像的特征为坐标轴的第1特征量空间中，预先学习为了将所述图像分类为预先设定的类别而采用的分离平面，并采用所述分离平面将分割对象图像而获得的块图像分类为所述类别，该图像识别方法的特征在于，具备以下步骤：

输入步骤，输入所述对象图像；

块图像生成步骤，将所述对象图像分割成多个块而生成多个所述块图像；

特征量计算步骤，计算所述块图像的特征量；以及

类别判别步骤，采用与所述第1特征量空间中的所述块图像的特征量的大小对应的坐标位置以及所述分离平面，判别所述块图像是否被分类为所述类别，

在所述特征量计算步骤中，

采用根据该块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的整体特征量，作为所述块图像的特征量，并且