CN102800080A - 图像识别装置以及图像识别方法 - Google Patents
图像识别装置以及图像识别方法 Download PDFInfo
- Publication number
- CN102800080A CN102800080A CN2012101210633A CN201210121063A CN102800080A CN 102800080 A CN102800080 A CN 102800080A CN 2012101210633 A CN2012101210633 A CN 2012101210633A CN 201210121063 A CN201210121063 A CN 201210121063A CN 102800080 A CN102800080 A CN 102800080A
- Authority
- CN
- China
- Prior art keywords
- image
- characteristic quantity
- classification
- block
- piece image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供图像识别装置以及图像识别方法。在按照预先设定的类别利用已预先学习完毕的分离平面将分割对象图像而获得的块图像分类为类别的图像识别装置中,具备:输入部,其输入对象图像;块图像生成部,其将对象图像分割为多个块而生成多个块图像;特征量计算部,其计算块图像的特征量;以及类别判别部,其采用与特征量空间中的块图像的特征量的大小对应的坐标位置以及分离平面,判别块图像是否被分类为类别,特征量计算部采用根据该块图像的图像信息算出的局部特征量以及根据对象图像整体的图像信息算出的全局特征量,作为块图像的特征量。
Description
技术领域
本发明的各个方面以及实施方式涉及图像识别装置以及图像识别方法。
背景技术
以往,作为图像识别装置,公知有如下这样的装置:将作为识别对象的对象图像分割为块状而生成块图像并将块图像分类为预先设定的多个类别(例如,参照专利文献1)。专利文献1所述的装置采用训练图像在将图像特征作为坐标轴的特征量空间中按照每个类别来学习分离平面,并根据分离平面以及与块图像的特征量的大小对应的坐标位置,将块图像分类为类别。块图像的特征量是该块图像的图像信息(颜色空间信息以及频率分量)。
【专利文献2】日本特开2010-45613号公报
但是,在专利文献1所述的图像识别装置中,有时难以将块图像分类为合适的类别。例如,在块图像是蓝色一种颜色的情况下,难以判断该块的类别为“天空”还是“水池”。
发明内容
在本技术领域中,期望一种能够提高分割对象图像而获得的块图像的分类精度的图像识别装置以及图像识别方法。
即,本发明一个方面的图像识别装置的特征在于,该图像识别装置在以图像的特征为坐标轴的特征量空间中,预先学习为了将所述图像分类为预先设定的类别而采用的分离平面,并利用所述分离平面将分割对象图像而获得的块图像分类为所述类别,该图像识别装置的特征在于,具备:输入部,其输入所述对象图像;块图像生成部,其将所述对象图像分割为多个块而生成多个所述块图像;特征量计算部,其计算所述块图像的特征量;以及类别判别部,其采用所述特征量空间中的与所述块图像的特征量的大小对应的坐标位置以及所述分离平面,判别所述块图像是否被分类为所述类别,所述特征量计算部采用根据所述块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的全局特征量,作为该块图像的特征量。
根据本发明一个方面的图像识别装置,作为块图像的特征量,不仅采用根据该块图像的图像信息算出的局部特征量,还采用根据对象图像整体的图像信息算出的全局特征量,所以不仅能利用块图像其本身的信息还可以考虑块图像与对象图像之间的关系而对块图像进行分类。因此,在仅利用块图像无法判断类别的情况下,有时只要观察对象图像整体就能够判断块图像的类别。所以,能够提高块图像的分类精度。
这里,上述特征量计算部可采用根据四边形状的上述对象图像中的四角区域的图像信息算出的特征量作为上述全局特征量。通过这样的结构,可包含在将圆形物作为被摄体时出现的特征作为块图像的特征量。
另外,作为上述块图像的特征量,上述特征量计算部可采用根据包围该块图像周围的上述块图像即周边块图像的图像信息算出的邻近特征量。通过这样的结构,可考虑块图像与在其周围存在的块图像之间的关系来对该块图像进行分类。
另外,上述特征量计算部可采用根据从上述周边块图像中选择出的上述块图像的图像信息算出的特征量作为上述邻近特征量。通过这样的结构,可在块图像的特征量中包含周边块图像的对称性,所以可进一步考虑块图像与其周围的块图像之间的关系而进行分类。
另外,上述特征量计算部也可以选择上述块图像的上述周边块图像中的处于以该块图像为中心对称的位置处的上述周边块图像。通过这样的结构,不仅能够分别单独地算出周边块的特征量,还能够算出针对具有对称性的块的组的特征量,所以可对在左右/上下方向等上具有形状对称性的被摄体和背景进行分类。
另外,作为上述块图像的特征量,上述特征量计算部可采用根据由多个上述块图像构成的部分区域中的包含该块图像的上述部分区域的图像信息算出的半全局特征量。通过这样的结构,可考虑块图像与在其周围存在的块图像之间的关系来对该块图像进行分类。
此外,上述特征量计算部采用根据由包含该块图像的横长区域的上述块图像构成的上述部分区域的图像信息算出的特征量以及根据由包含该块图像的纵长区域的上述块图像构成的上述部分区域的图像信息算出的特征量作为上述半全局特征量。通过这样的结构,可适当识别在水平方向/垂直方向上具有特征的被摄体/背景等而对块图像进行分类。
另外,本发明另一个方面的图像识别方法,其特征在于,在以图像的特征为坐标轴的特征量空间中,预先学习为了将所述图像分类为预先设定的类别而采用的分离平面,并利用所述分离平面将分割对象图像而获得的块图像分类为所述类别,该图像识别方法的特征在于,具备以下步骤:输入步骤,输入所述对象图像;块图像生成步骤,将所述对象图像分割为多个块而生成多个所述块图像;特征量计算步骤,计算所述块图像的特征量;以及类别判别步骤,采用所述特征量空间中的与所述块图像的特征量的大小对应的坐标位置以及所述分离平面,判别所述块图像是否被分类为所述类别,在所述特征量计算步骤中,采用根据所述块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的全局特征量,作为该块图像的特征量。
根据上述图像识别方法,可起到与上述本发明的图像识别装置同样的效果。
以上,根据本发明的各个方面以及实施方式,能够提高分割对象图像而获得的块图像的分类精度。
附图说明
图1是安装了实施例的图像识别装置的便携终端的功能框图。
图2是安装了图1中的图像识别装置的便携终端的硬件结构图。
图3是说明对象图像的块单位的图像识别的概要图。(A)是对象图像,(B)是块分割后的对象图像,(C)是按照块单位被分类的对象图像。
图4是块单位的图像特征量的一例。
图5是说明局部特征量的概要图。
图6是亮度值以及色差值的直方图的一例。(A)是Y分量的直方图,(B)是U分量的直方图,(C)是V分量的直方图。
图7是说明邻近特征量的概要图。
图8是说明半全局特征量的概要图。(A)是在纵方向以及横方向上扩展的区域,(B)是示出在纵方向上延伸的区域和在横方向上延伸的区域的概要图。
图9是说明全局特征量的概要图。(A)是示出全部区域的概要图,(B)是示出四角区域的概要图。
图10是说明边缘尺寸的特征量的概要图。
图11是学习分离超平面的装置的功能框图。
图12(A)是训练数据的一例。(B)是说明块单位的学习的概要图。
图13是用于说明分离超平面的概要图。
图14是示出图1中的图像识别装置的动作的流程图。
标号说明
1...图像识别装置,2...学习装置,10...对象图像输入部(输入部),11...块图像生成部,12...特征量计算部,13...类别判别部。
具体实施方式
以下,参照附图来说明本发明的实施方式。此外,对附图说明中相同的元素标注同一标号并省略重复的说明。另外,附图的尺寸比率未必与说明中的比率一致。
本实施方式的图像识别装置是将对象图像分割为固定尺寸的块图像并以块为单位来识别被摄体的装置,例如,安装于移动电话、数字照相机、PDA(Personal DigitalAssistant:个人数字助理)或通用计算机系统等中的装置。此外,下面考虑到便于理解,将安装在便携终端中的图像识别装置作为本发明的图像识别装置的一例进行说明。
图1是具备本实施方式的图像识别装置1的便携终端3的功能框图。图1所示的便携终端3是例如由用户携带的移动终端,其具有图2所示的硬件结构。图2是便携终端3的硬件结构图。如图2所示,便携终端3物理上构成为包含CPU(CentralProcessing Unit:中央处理器)100、ROM(Read Only Memory:只读存储器)101以及RAM(Random Access Memory:随机存取存储器)102等主存储装置、照相机或键盘等输入设备103、显示器等输出设备104、硬盘等辅助存储装置105等在内的通用计算机系统。通过在CPU 100、ROM 101、RAM 102等硬件上读入预定的计算机软件,根据CPU 100的控制,使输入设备103以及输出设备104动作,并且读出以及写入主存储装置及辅助存储装置105中的数据,由此来实现后述便携终端3以及图像识别装置1的各个功能。此外,在上述说明中作为便携终端3的硬件结构进行了说明,但图像识别装置1还可以构成为包含CPU 100、ROM 101以及RAM 102等主存储装置、输入设备103、输出设备104、辅助存储装置105等在内的通用计算机系统。另外,便携终端3可具备通信模块等。
如图1所示,便携终端3具备图像识别装置1、分离超平面数据(分离平面数据)31以及类别数据32。
图像识别装置1具备对象图像输入部10、块图像生成部11、特征量计算部12以及类别判别部13。对象图像输入部10具有输入对象图像30作为识别对象的图像数据的功能。对象图像输入部10例如可输入由安装在便携终端3上的照相机所拍摄的对象图像30,也可以经由通信而输入对象图像30。对象图像输入部10例如将对象图像30记录在便携终端3的主存储装置或辅助存储装置105中。
块图像生成部11具有将输入的对象图像30分割为固定区域的块而生成块图像的功能。例如,块图像生成部11将图3(A)所示的对象图像G1如图3(B)所示分割为多个块图像BL。块图像生成部11如图中那样将对象图像G1分割为纵4块×横6块。此外,块图像生成部11也可以将对象图像G1分割为纵16块×横16块,也可以按照其它比例进行分割。块图像生成部11也可以在将对象图像G1的长边调整为预定值以下之后再进行分割。块图像生成部11具有将块图像输出给特征量计算部12的功能。
特征量计算部12具有计算块图像BL各自的特征量的功能。特征量计算部12根据块图像BL的像素值或边缘信息等图像信息来计算特征量。即,特征量反映了被摄体的特征。此外,特征量的大小在以特征为坐标轴的特征量空间中可表现为位置坐标。例如,如果是p维的特征量,则特征量的大小是(β1、β2、...、βp)的坐标位置。后面将对特征量进行详细叙述。特征量计算部12具有将块图像BL各自的特征量输出给类别判别部13的功能。
类别判别部13具有根据块图像BL的特征量将块图像BL分类为预定的类别的功能。预定的类别例如可列举:“大海”、“山”、“天空”、“晚霞”、“红叶”、“樱花”、“雪”、“文字/记录”,“人”,“料理”、“沙滩”、“花”、“绿”、“狗”或“建筑物”等。另外,作为预定的类别也可以包含“空集合”。通过预先设定“空集合”,当不存在正确的类别时,不强制性地判断为属于现有的类别,而可以判断为属于“空集合”(即,哪个都不属于)。因此,可减小误判定。分离超平面数据31包含根据训练数据按照上述每个类别预先学习的分离超平面。当将p维的特征量数据设为J=(α1,α2,...,αp)、矢量=(w1,w2,...,wp)、常数为z时,分离超平面可用下式1来表示。
w1·α1+w2·α2+...·+wp·αp+z=0 ...(1)
此外,对分离超平面数据31的学习处理将在后面进行叙述。类别判别部13参照分离超平面数据31将块图像BL分类为上述类别。类别判别部13判别块图像BL是否被分类为上述类别。类别判别部13对块图像BL的特征量与某类别的分离超平面进行比较,在特征量大于分离超平面的情况下,判定为属于该类别。另一方面,类别判别部13在特征量不大于分离超平面的情况下,判定为不属于该类别。例如预先设定4个类别A~D,假设各个分离超平面已学习完毕。类别判别部13如图3(C)所示,针对各个块图像BL,比较特征量与每个类别A~D的分离超平面而分类为类别A~D。更详细地说,类别判别部13在特征量空间中比较用上述式1表示的每个类别的分离超平面与通过特征量计算部12获得的p维的特征量数据O=(β1、β2、...、βp)。例如,类别判别部13将通过图像特征量计算处理求出的特征量数据代入每个类别的上述1式的左边,计算分离超平面与特征量空间的坐标(β1、β2、...、βp)之间的带符号的距离,并判定距离的符号。此外,类别判别部13在判定为块图像BL的特征量不大于所有的分离超平面时,认为“不合适”。另外,在块图像BL属于2个以上类别的情况下,类别判别部13判定为属于预先设定的优先顺序的类别。类别判别部13将输出结果输出给类别数据32。
接着,对特征量进行详细说明。特征量计算部12如图4所示,采用以下的4个特征量作为块图像的特征量。图4示出对象图像(图像ID:○○○○)中的块No.1~No.256的每个块的特征量。
第1特征量是局部特征量(local特征量)。根据作为对象的块图像本身的图像信息来计算局部特征量。例如,采用图5所示的对象图像G1的预定对象块图像B0的图像信息来计算局部特征量。局部特征量例如包含对象块图像B0的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)各自的平均值以及方差值、对象块图像B0中的横方向的边缘尺寸以及纵方向的边缘尺寸、对象块图像B0中的横方向的边缘尺寸与纵方向的边缘尺寸之比、对象块图像B0中的Y分量的直方图或对象块图像B0的像素值与肤色的相似度。
此外,对象块图像B0的像素值与肤色的相似度是为了识别类别“人”而包含的特征量,在预先设定的类别中不包含“人”的情况下也可以不采用。
对包含亮度值以及色差值的直方图作为特征量的情况进行说明。图6(A)~(C)是亮度值以及色差值的各个分量的直方图,横轴是亮度值分量或色差值分量,纵轴是频度。如图6所示,亮度值分量以及色差值分量以预定范围间隔被分类为层级。例如图6(A)所示,Y分量的0~255被分类为X1~Xn(n是2以上的整数)层级。另外,如图6(B)所示,U分量的0~255被分类为X1~Xm(m是2以上的整数)层级。另外,如图6(C)所示,V分量的0~255被分类为X1~Xs(s是2以上的整数)层级。例如,在块图像内,如果属于Y分量的层级X1的像素值的像素具有2个,则“2”为特征量。第1特征量包含Y分量的直方图所示的层级X1~Xm各自的次数作为特征量。
第2特征量是邻近特征量(neighbor特征量)。根据包围对象块图像周围的块图像即周边块图像的图像信息来计算邻近特征量。例如,根据包围图7所示的对象图像G1的预定的对象块图像B0周围的周边块图像B1~B8的图像信息来计算邻近特征量。邻近的特征量例如包含周边块图像B1~B8的局部特征量、合并了周边块图像B4、B5的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值或合并了周边块图像B6、B8的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值。
与周边块图像B4、B5相关的特征量以及与周边块图像B6、B8相关的特征量用于判定周边块图像的对称性。例如,如果类别是“天空”则具有平均为均匀的倾向,如果类别是“人”则具有其周围在背景中平均为均匀的倾向。这样,可采用从8个周边块图像中选择出的周边块图像来计算特征量。作为选择方法例如考虑了选择周边块图像中以对象块图像为中心对称的周边块图像的方法。
第3特征量是半全局特征量(sub-global特征量)。关于半全局特征量,可根据由多个块图像构成的部分区域中含有对象块图像的部分区域的图像信息来计算。例如图8(A)所示,根据包含对象图像G1的预定的对象块图像B0的部分区域R2的图像信息来计算。此外,也可以根据以对象块图像为中心的一定大小的圆内的区域的图像信息来计算。另外,如图8(B)所示,也可以根据包含对象图像G1的预定的对象块图像B0的部分区域的、由一纵列的块图像构成的部分区域R3或由一横列的块图像构成的部分区域R4的图像信息来计算。此外,部分区域R3、R4不仅限于一列,还可以是包含其上下左右的几列的纵长或横长的区域。另外,还可以根据将部分区域R3、R4二等分后的区域中对象块图像B0所属的部分区域的图像信息来计算。即,半全局特征量例如包含:部分区域内的横方向以及纵方向的全部像素的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值、将部分区域内的横方向以及纵方向的全部像素二等分后的区域中对象块图像所属的区域的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值或包含对象块图像的一定大小区域中的像素的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值。
可以采用由一纵列的块图像构成的部分区域R3的图像信息及部分区域内的纵方向的图像信息作为反映了每个类别不同的纵方向的变化的特征量。另外,可以采用由一横列的块图像构成的部分区域R4的图像信息及部分区域内的横方向的图像信息作为易于判别类别“天空”等的具有在横方向配置同样的像素的倾向的类别的特征量。
第4特征量是全局特征量(global特征量)。关于全局特征量,可根据对象图像整体的图像信息来计算。例如,根据图9(A)所示的对象图像G1整体(整体区域R5)的图像信息来计算。另外,作为全局特征量,可根据图9(B)所示的四边形状的对象图像G1中的四角区域R6~R9的图像信息来计算。即,全局特征量例如包含:对象图像G1的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值、对象图像G1的横方向的边缘尺寸以及纵方向的边缘尺寸、对象图像G1的U分量的直方图中的层级X1~Xm各自的次数、对象图像G1的V分量的直方图中的层级X1~Xs各自的次数、对象图像G1的四角区域R6~R9中的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)的平均值以及方差值、对象图像G1的四角区域R6~R9中的横方向的边缘尺寸以及纵方向的边缘尺寸或对象图像所包含的块图像在每45度的各个方向上的边缘尺寸的直方图中的层级X1~Xk(k是2以上的整数)各自的次数。
通过包含对象图像G1的四角区域R6~R9中的亮度值(Y分量)、色差值(U分量、V分量)以及色度值(S分量)、对象图像G1的四角区域R6~R9中的横方向的边缘尺寸以及纵方向的边缘尺寸,可采用在对象图像G1的角区域内表现出的特征进行分类。在人们对餐具等圆形物进行拍摄时,根据拍摄时的美学思想,大多拍摄为在四个角落分配有餐具的边缘部分。因此,可通过采用四角区域R6~R9中的图像信息来对圆形物进行适当分类。在对象图像所包含的块图像的每45度(0°、45°、90°、135°)的各个方向中,与图6(A)同样地将各个边缘尺寸作为层级X1~Xk、将属于层级X1~Xk的像素数作为特征量,由此在从上面拍摄配置有多个餐具的套餐等的情况下,能够对多个圆形物的边缘部分进行适当分类。此外,也可以对整体图像G1进行16分割或9分割,组合分割区域四角的边缘的累计值作为特征量。在此情况下,同样能够对多个圆形物的边缘部分进行适当分类。
关于对象图像G1的U分量的直方图中的层级X1~Xm各自的次数以及对象图像G1的V分量的直方图中的层级X1~Xs各自的次数与图6(B)、(C)所示的内容相同。另外,关于边缘的大小,也可以当为预定值以上时相反地成为低评价。例如图10所示,边缘尺寸与特征量的关系可以是:在边缘尺寸成为预定阈值Hd之前,特征量单调增加,当边缘尺寸成为预定阈值Hd以上时特征量可单调减少。此时,能够区分边缘尺寸为中等程度的情况、边缘小的情况以及边缘大的情况。例如,可区分边缘尺寸大的“文字”和边缘尺寸中等程度的“大海”。
接着,说明在图像识别装置1的动作前进行的分离超平面数据31的学习处理。图11是具有学习装置2的便携终端3的功能框图。如图11所示,便携终端3具备学习装置2以及分离超平面数据31。此外,学习装置2可根据需要通过与便携终端3分开的计算机来实现。
图像识别装置1具备训练数据输入部15、块图像生成部11、特征量计算部12以及分离超平面计算部16。训练数据输入部15具有输入训练图像33作为学习对象的图像数据的功能。图12(A)是用于学习类别“花”的正确答案的训练图像G2的一例。另外,如图12(B)所示,训练数据中还包含在块Bt的位置处描绘“花”这样的信息。即,图12的训练数据是对正确类别附带了标记的图像块。作为训练数据还可包含对非正确答案的类别附带了标记的图像块。训练数据按照预定的类别来准备。训练数据输入部15例如可输入由安装于便携终端3的照相机所拍摄的训练图像33,或者可经由通信来输入训练图像33。训练数据输入部15例如在便携终端3的主存储装置或辅助存储装置105中记录对象图像30。
块图像生成部11具有如上所述的将输入的训练图像33分割为固定区域的块并生成块图像的功能。特征量计算部12如上所述具有计算块图像各自的特征量的功能。特征量计算部12具有将块图像各自的特征量向分离超平面计算部16输出的功能。
分离超平面计算部16具有输入每个类别的图像特征量而按照每个类别计算分离超平面的功能。分离超平面计算部16例如利用作为学习算法而广泛使用的线形SVM(support vector machine:支持向量机)的专用库来计算分离超平面。以下,考虑到便于理解,说明二维的图像特征量α1、α2中的特征量平面的分离超直线。如图13所示,将图像特征量α1作为纵轴,将图像特征量α2作为横轴,将正确答案的训练数据C1和非正确答案的训练数据C2作成曲线。在此情况下,分离超平面计算部16利用线形SVM,来学习分离正确答案的训练数据C1与非正确答案的训练数据C2的直线即分离超直线L1。将学习结果记录为分离超平面数据31。此外,在d维(d>2:d是整数)的情况下,特征量平面为特征量空间,分离超直线为分离超平面。因此,分离超平面是包含分离超直线的概念,特征量空间是包含特征量平面的概念。
接着,说明本实施方式的图像识别装置1的动作。图14是示出本实施方式的图像识别装置1的识别动作的流程图。图14所示的控制处理是在执行了上述学习处理之后,例如在便携终端3所具备的处理开始按钮接通的时机执行。
如图14所示,对象图像输入部10输入对象图像(S10:输入步骤)。当S10的处理结束时,向块图像生成处理转移(S12:块图像生成步骤)。在S12的处理中,块图像生成部11分割在S10的处理中输入的对象图像而生成块图像。当S12的处理结束时,向特征量计算处理转移(S14:特征量计算步骤)。在S14的处理中,特征量计算部12针对在S12的处理中生成的块图像分别计算特征量。例如,针对各个块图像计算图4所示的特征量。当S14的处理结束时,向分类处理转移(S16:类别判别步骤)。在S16的处理中,类别判别部13对在S16的处理中计算出的每个块图像的特征量与已学习完毕的分离超平面数据31进行比较,针对具有比预定类别的分离超平面大的特征量的块图像,判定为属于该类别。当针对全部的块图像判定了类别时,结束图14所示的控制处理。
接着,说明用于使便携终端3(计算机)作为图像识别装置1发挥功能的图像识别程序。
图像识别程序具备主模块、输入模块以及计算处理模块。主模块是统一控制图像处理的部分。输入模块使便携终端3动作以取得输入图像。计算处理模块具备块图像分割模块、特征量计算模块以及类别判别模块。通过执行主模块、输入模块以及计算处理模块而实现的功能与上述图像识别装置1的对象图像输入部10、块图像生成部11、特征量计算部12以及类别判别部13的功能分别相同。
例如,图像识别程序可通过ROM等存储介质或半导体存储器来提供。另外,也可以经由网络作为数据信号来提供图像识别程序。
以上,根据本实施方式的图像识别装置1,作为块图像B0的特征量,不仅使用根据该块图像B0的图像信息计算出的局部特征量,还采用根据对象图像G1整体的图像信息计算出的全局特征量,所以不仅仅利用块图像B0其本身的信息还可以考虑块图像B0与对象图像G1之间的关系来对块图像B0进行分类。因此,即使在仅利用块图像B0不能判断类别的情况下,有时只要观察整个对象图像G1就能够判断块图像B0的类别。例如,在块图像B0为蓝色的情况下,难以根据块图像B0的图像信息来判断类别是“天空”还是“大海”。但是,在全局特征量中,只要能够取得用于判断是“天空”还是“大海”的特征量,就可以判断块图像B0的类别。因此,可提高块图像B0的分类精度。
另外,根据本实施方式的图像识别装置1,特征量计算部12采用根据四边形状的对象图像G1中的四角区域R6~R9的图像信息算出的特征量作为全局特征量,所以可包含在圆形物为被摄体时出现的特征作为块图像B0的特征量。
另外,根据本实施方式的图像识别装置1,特征量计算部12采用根据包围该块图像B0周围的周边块图像B1~B8的图像信息算出的邻近特征量作为块图像B0的特征量,所以可以考虑块图像B0与在其周围存在的周边块图像B1~B8之间的关系对该块图像B0进行分类。
另外,根据本实施方式的图像识别装置1,特征量计算部12采用根据从周边块图像B1~B8中选择出的块图像B0的图像信息算出的特征量作为邻近特征量,所以可以在块图像B0的特征量中包含周边块图像B1~B8的对称性。由此,可进一步考虑块图像B0与周边块图像B1~B8之间的关系而进行分类。
另外,根据本实施方式的图像识别装置1,特征量计算部12从周边块图像B1~B8中选择以该块图像B0为中心对称的上述周边块图像,所以不仅可以分别独立地算出周边块图像B1~B8的特征量,还可以算出针对具有对称性的块图像组的特征量,因此可以对在左右/上下方向等上具有形状对称性的被摄体和背景进行分类。例如,可以对人物或人脸等进行分类。
另外,根据本实施方式的图像识别装置1,特征量计算部12采用根据由多个块图像构成的部分区域中的包含该块图像B0的部分区域R2~R4的图像信息计算出的半全局特征量作为块图像B0的特征量,所以可考虑块图像B0与在其周围存在的块图像之间的关系而对该块图像进行分类。
另外,根据本实施方式的图像识别装置1,特征量计算部12采用根据由包含该块图像B0的一纵列的块图像构成的部分区域R3的图像信息计算出的特征量以及根据由包含该块图像B0的一横列的块图像构成的部分区域R4的图像信息计算出的特征量作为半全局特征量,所以能够适当地识别在水平方向/垂直方向上具有特征的被摄体/背景等而对块图像进行分类。
此外,上述实施方式示出本发明的图像识别装置、图像识别方法、图像识别程序以及记录介质的一例,但不限于实施方式所涉及的装置、方法、程序以及记录介质,还可以应用于变形或者其它的方式。
例如,在上述实施方式中说明了除了局部特征量之外还采用全局特征量、邻近特征量以及半全局特征量作为图像特征量的情况,在除局部特征量以外采用从全局特征量、邻近特征量以及半全局特征量中选出的至少1个特征量时,也能够提高分割对象图像而获得的块图像的分类精度。
Claims (8)
1.一种图像识别装置,该图像识别装置在以图像的特征为坐标轴的特征量空间中,预先学习为了将所述图像分类为预先设定的类别而采用的分离平面,并利用所述分离平面将分割对象图像而获得的块图像分类为所述类别,该图像识别装置的特征在于,具备:
输入部,其输入所述对象图像;
块图像生成部,其将所述对象图像分割为多个块而生成多个所述块图像;
特征量计算部,其计算所述块图像的特征量;以及
类别判别部,其采用所述特征量空间中的与所述块图像的特征量的大小对应的坐标位置以及所述分离平面,判别所述块图像是否被分类为所述类别,
所述特征量计算部采用根据所述块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的全局特征量,作为该块图像的特征量。
2.根据权利要求1所述的图像识别装置,其中,
所述特征量计算部采用根据四边形状的所述对象图像中的四角区域的图像信息算出的特征量,作为所述全局特征量。
3.根据权利要求1或2所述的图像识别装置,其中,
作为所述块图像的特征量,所述特征量计算部采用根据包围该块图像周围的所述块图像即周边块图像的图像信息算出的邻近特征量。
4.根据权利要求3所述的图像识别装置,其中,
所述特征量计算部采用根据从所述周边块图像中选择出的所述块图像的图像信息算出的特征量,作为所述邻近特征量。
5.根据权利要求4所述的图像识别装置,其中,
所述特征量计算部选择所述块图像的所述周边块图像中的处于以该块图像为中心对称的位置处的所述周边块图像。
6.根据权利要求1~5中任意一项所述的图像识别装置,其中,
作为所述块图像的特征量,所述特征量计算部采用根据由多个所述块图像构成的部分区域中的包含该块图像的所述部分区域的图像信息算出的半全局特征量。
7.根据权利要求6所述的图像识别装置,其中,
所述特征量计算部采用根据由包含该块图像的横长区域的所述块图像构成的所述部分区域的图像信息算出的特征量以及根据由包含该块图像的纵长区域的所述块图像构成的所述部分区域的图像信息算出的特征量,作为所述半全局特征量。
8.一种图像识别方法,在以图像的特征为坐标轴的特征量空间中,预先学习为了将所述图像分类为预先设定的类别而采用的分离平面,并利用所述分离平面将分割对象图像而获得的块图像分类为所述类别,该图像识别方法的特征在于,具备以下步骤:
输入步骤,输入所述对象图像;
块图像生成步骤,将所述对象图像分割为多个块而生成多个所述块图像;
特征量计算步骤,计算所述块图像的特征量;以及
类别判别步骤,采用所述特征量空间中的与所述块图像的特征量的大小对应的坐标位置以及所述分离平面,判别所述块图像是否被分类为所述类别,
在所述特征量计算步骤中,采用根据所述块图像的图像信息算出的局部特征量以及根据所述对象图像整体的图像信息算出的全局特征量,作为该块图像的特征量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011114660A JP5401695B2 (ja) | 2011-05-23 | 2011-05-23 | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP2011-114660 | 2011-05-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102800080A true CN102800080A (zh) | 2012-11-28 |
Family
ID=46545225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101210633A Pending CN102800080A (zh) | 2011-05-23 | 2012-04-23 | 图像识别装置以及图像识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8855368B2 (zh) |
EP (1) | EP2528020A3 (zh) |
JP (1) | JP5401695B2 (zh) |
CN (1) | CN102800080A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239906A (zh) * | 2013-06-24 | 2014-12-24 | 富士通株式会社 | 构建装置和方法、图像分类装置和方法以及电子设备 |
CN105814582A (zh) * | 2013-11-30 | 2016-07-27 | 北京市商汤科技开发有限公司 | 用于识别人脸的方法和系统 |
CN108446709A (zh) * | 2017-02-16 | 2018-08-24 | 现代自动车株式会社 | 象形图识别装置、象形图识别系统和象形图识别方法 |
CN109284749A (zh) * | 2017-07-19 | 2019-01-29 | 微软技术许可有限责任公司 | 精细化图像识别 |
CN112513926A (zh) * | 2018-07-31 | 2021-03-16 | 奥林巴斯株式会社 | 图像解析装置及图像解析方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5668932B2 (ja) * | 2011-05-23 | 2015-02-12 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP5401695B2 (ja) * | 2011-05-23 | 2014-01-29 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP5656082B2 (ja) * | 2011-05-25 | 2015-01-21 | 株式会社日立ソリューションズ | 画像処理装置、画像生成装置、画像処理方法、および、画像生成方法 |
US9053359B2 (en) * | 2012-06-07 | 2015-06-09 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for document authentication using Krawtchouk decomposition of image patches for image comparison |
JP6075809B2 (ja) * | 2013-07-29 | 2017-02-08 | Necソリューションイノベータ株式会社 | 3dプリンタ装置、3dプリント方法及び立体造形物の製造方法 |
CN103400391B (zh) * | 2013-08-09 | 2016-08-10 | 北京博思廷科技有限公司 | 一种基于改进的随机森林的多目标跟踪方法及装置 |
US9934577B2 (en) * | 2014-01-17 | 2018-04-03 | Microsoft Technology Licensing, Llc | Digital image edge detection |
KR101598873B1 (ko) * | 2014-01-20 | 2016-03-02 | 한국과학기술원 | 영상의 다변수화를 이용한 영상 구별 특징 자동 선별 장치 및 방법 |
US20180107660A1 (en) * | 2014-06-27 | 2018-04-19 | Amazon Technologies, Inc. | System, method and apparatus for organizing photographs stored on a mobile computing device |
JP6448325B2 (ja) * | 2014-11-19 | 2019-01-09 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
JP6905850B2 (ja) * | 2017-03-31 | 2021-07-21 | 綜合警備保障株式会社 | 画像処理システム、撮像装置、学習モデル作成方法、情報処理装置 |
WO2019205015A1 (en) * | 2018-04-25 | 2019-10-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for shaking action recognition based on facial feature points |
JP2020003837A (ja) * | 2018-06-25 | 2020-01-09 | 日本電気株式会社 | 識別装置および識別方法 |
CN109711432A (zh) * | 2018-11-29 | 2019-05-03 | 昆明理工大学 | 一种基于颜色方差的图像相似判定方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101630405A (zh) * | 2009-08-14 | 2010-01-20 | 重庆市勘测院 | 一种利用核Fisher分类与冗余小波变换的多聚焦图像融合方法 |
CN101650783A (zh) * | 2008-08-13 | 2010-02-17 | 株式会社Ntt都科摩 | 图像识别方法以及摄像装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000022942A (ja) * | 1998-06-30 | 2000-01-21 | Minolta Co Ltd | 画像領域判別装置および方法ならびに画像領域判別プログラムを記録した記録媒体 |
US6707465B2 (en) * | 2000-02-09 | 2004-03-16 | Canon Kabushiki Kaisha | Data processing apparatus and method, and storage medium |
US7194134B2 (en) * | 2001-01-02 | 2007-03-20 | Microsoft Corporation | Hierarchical, probabilistic, localized, semantic image classifier |
JP2009123234A (ja) * | 2002-07-30 | 2009-06-04 | Fujifilm Corp | オブジェクト識別方法および装置ならびにプログラム |
GB2409028A (en) * | 2003-12-11 | 2005-06-15 | Sony Uk Ltd | Face detection |
JP4768451B2 (ja) * | 2006-01-18 | 2011-09-07 | 株式会社リコー | 画像処理装置、画像形成装置、プログラムおよび画像処理方法 |
US7860320B2 (en) * | 2006-06-26 | 2010-12-28 | Eastman Kodak Company | Classifying image regions based on picture location |
JP4826531B2 (ja) * | 2007-04-16 | 2011-11-30 | セイコーエプソン株式会社 | シーン識別装置、及び、シーン識別方法 |
JP2008282267A (ja) * | 2007-05-11 | 2008-11-20 | Seiko Epson Corp | シーン識別装置、及び、シーン識別方法 |
JP5668932B2 (ja) * | 2011-05-23 | 2015-02-12 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP5401695B2 (ja) * | 2011-05-23 | 2014-01-29 | 株式会社モルフォ | 画像識別装置、画像識別方法、画像識別プログラム及び記録媒体 |
JP5656082B2 (ja) * | 2011-05-25 | 2015-01-21 | 株式会社日立ソリューションズ | 画像処理装置、画像生成装置、画像処理方法、および、画像生成方法 |
-
2011
- 2011-05-23 JP JP2011114660A patent/JP5401695B2/ja not_active Expired - Fee Related
-
2012
- 2012-04-23 CN CN2012101210633A patent/CN102800080A/zh active Pending
- 2012-05-22 EP EP12168859.2A patent/EP2528020A3/en not_active Withdrawn
- 2012-05-22 US US13/477,612 patent/US8855368B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650783A (zh) * | 2008-08-13 | 2010-02-17 | 株式会社Ntt都科摩 | 图像识别方法以及摄像装置 |
CN101630405A (zh) * | 2009-08-14 | 2010-01-20 | 重庆市勘测院 | 一种利用核Fisher分类与冗余小波变换的多聚焦图像融合方法 |
Non-Patent Citations (3)
Title |
---|
ADITYA VAILAYA, ET AL.: "Detecting sky and vegetation in outdoor images", 《PROCEEDINGS OF SPIE》 * |
ADITYA VAILAYA, ET AL.: "ON IMAGE CLASSIFICATION: CITY IMAGES VS. LANDSCAPES", 《PATTERN RECOGNITION》 * |
倪蓉蓉 等: "一种基于迭代映射和图像内容的自适应水印算法", 《通信学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239906A (zh) * | 2013-06-24 | 2014-12-24 | 富士通株式会社 | 构建装置和方法、图像分类装置和方法以及电子设备 |
CN104239906B (zh) * | 2013-06-24 | 2017-07-07 | 富士通株式会社 | 构建装置和方法、图像分类装置和方法以及电子设备 |
CN105814582A (zh) * | 2013-11-30 | 2016-07-27 | 北京市商汤科技开发有限公司 | 用于识别人脸的方法和系统 |
CN105814582B (zh) * | 2013-11-30 | 2020-04-24 | 北京市商汤科技开发有限公司 | 用于识别人脸的方法和系统 |
CN108446709A (zh) * | 2017-02-16 | 2018-08-24 | 现代自动车株式会社 | 象形图识别装置、象形图识别系统和象形图识别方法 |
CN108446709B (zh) * | 2017-02-16 | 2023-06-02 | 现代自动车株式会社 | 象形图识别装置、象形图识别系统和象形图识别方法 |
CN109284749A (zh) * | 2017-07-19 | 2019-01-29 | 微软技术许可有限责任公司 | 精细化图像识别 |
US11670071B2 (en) | 2017-07-19 | 2023-06-06 | Microsoft Technology Licensing, Llc | Fine-grained image recognition |
CN112513926A (zh) * | 2018-07-31 | 2021-03-16 | 奥林巴斯株式会社 | 图像解析装置及图像解析方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2528020A2 (en) | 2012-11-28 |
US20120300982A1 (en) | 2012-11-29 |
JP5401695B2 (ja) | 2014-01-29 |
EP2528020A3 (en) | 2013-06-19 |
US8855368B2 (en) | 2014-10-07 |
JP2012243196A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102800080A (zh) | 图像识别装置以及图像识别方法 | |
CN102799854B (zh) | 图像识别装置以及图像识别方法 | |
CN106485183B (zh) | 一种二维码定位方法及系统 | |
CN107665351B (zh) | 基于难样本挖掘的机场检测方法 | |
CN112016591A (zh) | 一种图像识别模型的训练方法及图像识别方法 | |
CN107636589A (zh) | 用于减少多个限界区的系统和方法 | |
CN108470354A (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN110443128A (zh) | 一种基于surf特征点精确匹配的指静脉识别方法 | |
CN108090459B (zh) | 一种适用于车载视觉系统的交通标志检测识别方法 | |
CN109740572A (zh) | 一种基于局部彩色纹理特征的人脸活体检测方法 | |
CN103577840B (zh) | 物品识别方法 | |
CN109886267A (zh) | 一种基于最优特征选择的低对比度图像显著性检测方法 | |
US20190108398A1 (en) | A method and system for tracking objects | |
CN104732534B (zh) | 一种图像中显著目标的抠取方法及系统 | |
CN108021920A (zh) | 一种图像对象协同发现的方法 | |
CN111539483B (zh) | 基于gan网络的虚假图像鉴别系统及构建方法 | |
CN112241736B (zh) | 一种文本检测的方法及装置 | |
Christen et al. | Target marker: A visual marker for long distances and detection in realtime on mobile devices | |
CN102750718B (zh) | 一种背景蒙版生成方法 | |
Wang et al. | Robust color image segmentation by Karhunen-Loeve transform based Otsu multi-thresholding and K-means clustering | |
CN115620242B (zh) | 多行人目标重识别方法、装置及应用 | |
CN104616302A (zh) | 一种目标实时识别方法 | |
Lu et al. | Clustering based road detection method | |
CN111798473A (zh) | 基于弱监督学习的图像协同分割方法 | |
JP5907125B2 (ja) | 画像処理装置、プログラム及び画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121128 |