CN111164604A - 信息处理装置 - Google Patents

信息处理装置 Download PDF

Info

Publication number
CN111164604A
CN111164604A CN201880062230.7A CN201880062230A CN111164604A CN 111164604 A CN111164604 A CN 111164604A CN 201880062230 A CN201880062230 A CN 201880062230A CN 111164604 A CN111164604 A CN 111164604A
Authority
CN
China
Prior art keywords
discrimination
unit
feature amount
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880062230.7A
Other languages
English (en)
Other versions
CN111164604B (zh
Inventor
山田英夫
村松竜弥
柴田雅聪
田向権
榎田修一
山崎裕太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Aisin Corp
Original Assignee
Kyushu Institute of Technology NUC
Equos Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC, Equos Research Co Ltd filed Critical Kyushu Institute of Technology NUC
Publication of CN111164604A publication Critical patent/CN111164604A/zh
Application granted granted Critical
Publication of CN111164604B publication Critical patent/CN111164604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的在于实现处理成本的减少。图像识别装置(200)具备:图像处理装置(21),从图像获取特征量;以及辨别装置(201),使用获取到的特征量来判定图像中是否存在规定的辨别对象,并辨别该辨别对象。辨别装置(201)具备预先学习了辨别对象的BNN,并通过利用BNN对图像处理装置(21)获取到的特征量进行二进制计算,来进行辨别处理。此时,辨别装置(201)选择图像处理装置(21)输出的高维度特征量中对辨别有效的部分来减少在辨别处理中所使用的维度,或复制图像处理装置(21)输出的低维度特征量来增加维度。通过选择、复制特征量的维度,从而确保所需的辨别精度的同时,能够适当地调节用于辨别的特征量的维度,所以能够将辨别装置(201)安装于小规模、低消耗电力的硬件电路。

Description

信息处理装置
技术领域
本发明涉及信息处理装置,例如涉及辨别学习到的对象的信息处理装置。
背景技术
近年来,从由相机拍摄到的图像识别特定的对象,并对该特定的对象进行辨别的技术迅速地发展,例如在汽车的驾驶辅助、医疗的诊断辅助等多个方面被利用。
这些在图像识别技术中,通过某些手法从图像数据提取特征量,并将该特征量与辨别对象(例如人物)的特征量进行比较,来判断该图像数据中是否存在辨别对象。
进行这样的图像识别的技术有非专利文献1以及非专利文献2的技术。
这些技术是从图像提取被称为HOG特征量的特征量,并将该特征量与预先从辨别对象映现的图像学习到的HOG特征量进行比较来检测辨别对象。
除此以外,从图像提取特征量的技术中有与HOG特征量相比具有稳健性的CoHOG特征量、更具有稳健性的MRCoHOG特征量等。
然而,由于这些图像识别技术使用高维度的特征量,所以在安装于硬件的情况下,导致电路复杂化、大规模化,如何减少处理成本,并以较小的资源实现成为课题。
如果该图像识别技术能够在半导体晶片上安装,则预料搭载到车辆或飞机等移动体上,或者搭载到移动终端或可穿戴的终端等所有场景中的利用。
另一方面,使神经网络学习对象,并使用该学习的学习结果(神经网络),通过所输入的数据来识别对象,并辨别对象的技术迅速地发展。
可是,神经网络通过使用了教师信号的反向传播等进行学习,但该学习处理需要庞大的计算处理,若输入数据数(特征量的维数)变多,则存在需要非常大的量的计算这个问题。
另外,在将神经网络安装于硬件的情况下,输入数据数的增加也会引起电路的复杂化、大规模化的问题。
非专利文献1:Tomoki Watanabe,Satoshi Ito etc.;”Co-occurrenceHistograms of Oriented Gradients for Human Detection”,IPSJ Transactions onComputer Vision and Applications,Vol.2pp.39-47,2010
非专利文献2:Navneet Dalal,Bill Triggs.:”Histgrams of OrientedGradients for Human Detection”,IEEE Computer Society Conference on ComputerVision&Pattern Recognition,Vol.1pp.886-893,2005。
发明内容
本发明的目的在于实现处理成本的减少。
(1)本发明为了实现上述目的,在技术方案1所述的发明中提供一种信息处理装置,该信息处理装置的特征在于,具备:特征量获取单元,获取辨别对象数据的特征量;选择单元,从上述特征量获取单元获取到的特征量选择用于辨别的预先指定的部分的特征量;辨别单元,使用多值化的加权来学习辨别对象;输入单元,将上述选择单元选择的部分的特征量输入至上述辨别单元;以及输出单元,输出上述辨别单元使用上述输入单元输入的部分的特征量所辨别出的辨别结果。
(2)在技术方案2所述的发明中,提供技术方案1所述的信息处理装置,其特征在于,上述辨别单元通过二值化的加权进行上述辨别对象的学习。
(3)在技术方案3所述的发明中,提供技术方案1或技术方案2所述的信息处理装置,其特征在于,上述选择单元从上述特征量获取单元获取到的特征量选择通过RAdB等辨别算法预先指定的部分的特征量。
(4)在技术方案4所述的发明中,提供技术方案3所述的信息处理装置,其特征在于,上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、上述辨别单元的辨别精度变高的部分的特征量。
(5)在技术方案5所述的发明中,提供技术方案3所述的信息处理装置,其特征在于,上述特征量获取单元获取基于特征量提取单元从作为辨别对象数据的图像数据提取出的亮度梯度的共生分布的特征量,上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、简化了上述特征量提取单元的提取处理或者提取电路结构的部分的特征量。
(6)在技术方案6所述的发明中,提供技术方案1至技术方案5中任意一项技术方案所述的信息处理装置,特征在于,上述辨别单元是二进制神经网络。
(7)在技术方案7所述的发明中,提供技术方案6所述的信息处理装置,其特征在于,上述二进制神经网络使用对上述部分的特征量进行二值化并相加的加法器、和对上述加法器的输出进行计数的计数器而构成。
(8)在技术方案8所述的发明中,提供技术方案1至技术方案6中的任意一项技术方案所述的信息处理装置,其特征在于,上述信息处理装置具备复制单元,上述复制单元对上述选择单元选择的部分的特征量进行复制,上述输入单元将上述选择单元选择的部分的特征量和上述复制单元复制的部分的特征量输入至上述辨别单元。
本发明通过选择用于辨别的特征量,能够减少处理成本。
附图说明
图1是表示安装了图像识别装置的计算机的结构的一个例子的图。
图2是用于对BNN的结构进行说明的图。
图3是示出区域的部分的图。
图4是示出区域的部分的图。
图5是用于对辨别装置进行说明的图。
图6是示出实验结果的图。
图7是示出实验结果的图。
图8是示出实验结果的图。
图9是对电路规模进行比较的表。
图10是对存储器的容量进行比较的表。
图11是用于对图像识别装置的动作进行说明的流程图。
图12是用于对辨别装置进行说明的图。
图13是对特征量的复制所带来的辨别精度的提高进行考察的图。
图14是示出实验结果的图。
图15是用于对图像识别装置的动作进行说明的流程图。
图16是用于对辨别装置进行说明的图。
图17是用于对图像识别装置的动作进行说明的流程图。
图18是用于对HOG特征量的概念进行说明的图。
图19是用于对CoHOG特征量的概念进行说明的图。
图20是用于对MRCoHOG特征量的概念进行说明的图。
图21是用于对计算方法进行说明的图。
图22是示出图像处理装置的电路结构的图。
图23是用于对分辨率转换处理进行说明的图。
图24是用于对梯度方向计算部等的动作进行说明的图。
图25是用于对垂直方向的数据延长处理进行说明的图。
图26是用于对水平方向的数据延长处理进行说明的图。
图27是用于对计算共生矩阵的结构进行说明的图。
图28是用于对图像处理顺序进行说明的流程图。
图29是示出半导体装置的构成例子的图。
具体实施方式
(1)实施方式的概要
图像识别装置200(图1)具备从由相机84拍摄到的图像提取特征量的图像处理装置21、和使用获取到的特征量来判定图像中是否存在规定的辨别对象,并辨别该对象的辨别装置201。
图像处理装置21从图像获取HOG特征量、CoHOG特征量、MRCoHOG特征量、Haar-like特征量等各种特征量,作为特征量。
辨别装置201具备预先学习了辨别对象的BNN(二进制神经网络),通过利用BNN对图像处理装置21获取到的特征量进行二进制计算来进行辨别处理。基于BNN的辨别对象的学习是将图像处理装置21从图像获取到的特征量作为输入数据,将应从该图像识别的结果作为教师信号,对网络的加权进行最优化。
对于由相机84拍摄到的图像而言,由图像处理装置21从该图像获取高维度特征量,并输入至学习完毕的BNN,输出对该图像的识别结果。
在第一实施方式中,对于该学习完毕的BNN,并不是将图像处理装置21输出的高维度特征量全部作为输入对象,而选择高维度特征量中对辨别有效的部分,从而减少用于辨别处理的维度(输入对象数据数)。另外,在第二实施方式中,复制图像处理装置21输出的低维度特征量来增加维度(输入对象数据数)。在第三实施方式中,组合了第一实施方式和第二实施方式,选择图像处理装置21输出的高维度的特征量中有利于辨别的部分,并且复制所选择的特征量来使其增加。
与需要使用了浮点数的乘法等的一般的神经网络相比,BNN能够通过二进制的加法进行计算,而且,通过选择、复制特征量的维度,从而确保所需的辨别精度的同时,能够适当地调节用于辨别的特征量的维度,所以能够将辨别装置201安装于小规模、低消耗电力的硬件电路。
(2)实施方式的详细
图1是示出安装了本实施方式的图像识别装置200的计算机80的结构的一个例子的图。
计算机80例如搭载在车辆上,用于自动驾驶、导航等驾驶辅助。
此外,以下,对计算机80进行图像识别处理的情况进行说明,但该技术能够广泛应用于声音识别、医疗诊断等人工智能进行的辨别处理。
计算机80由CPU(Central Processing Unit:中央处理器)81、ROM(Read OnlyMemory:只读存储器)82、RAM(Random Access Memory:随机存取存储器)83、相机84、图像识别装置200、存储装置85、输入装置87、输出装置88等构成。
CPU81除了按照存储装置85中存储的应用程序进行所希望的处理之外,还进行计算机80的各部的控制等。
ROM82是读取专用的存储器,存储有用于CPU81使计算机80进行动作的基本的程序、参数等。
RAM83是能够读写的存储器,提供用于CPU81发挥应用功能的工作存储器。
图像识别装置200进行的图像识别的辨别结果被存储至RAM83,按照应用程序被利用。
相机84是视频拍摄相机,对被拍摄体进行视频拍摄并将由视频帧构成的图像数据按照时间序列输出至图像识别装置200。该图像数据作为记录辨别对象的记录数据发挥作用。
图像识别装置200是由硬件装置构成的信息处理装置,从图像数据辨别作为图像识别对象的人物(此处,不是特定的人物而意味着一般的行人等),并输出其辨别结果,且具备从图像数据提取特征量并获取的图像处理装置21、和从该提取到的特征量识别辨别对象来进行辨别的辨别装置201。图像处理装置21作为特征描述部发挥作用。
这样,一般,图像识别系统构成为获取特征量的模块和辨别特征量的模块这两个模块成为一组。
图像处理装置21通过半导体装置71而被半导体晶片化(IC芯片化),该IC芯片被安装在视频采集板86。图像处理装置21的电路结构的详细后述(参照图22等)。
然而,图像识别技术有从图像提取亮度梯度分布作为特征量,并将该亮度梯度分布与预先学习到的图像的亮度梯度分布进行比较来识别对象的技术。
作为基于亮度梯度分布的特征量,HOG特征量(Histograms of OrientedGradients:方向梯度直方图)是有名的,正在积极研究。
使HOG特征量发展后的特征量有CoHOG特征量(Co-occurrence HOG:共生方向梯度直方图),与HOG特征量相比具有稳健性(鲁棒性)。
而且,近年来,提出与CoHOG特征量相比更具有稳健性的MRCoHOG特征量(MultiResolution CoHOG:多分辨率共生梯度方向直方图)。
通过实验能够明确MRCoHOG特征量具有极高的稳健性。
而且,也存在Haar-like特征量这样的其它的特征。
能够在图像处理装置21中应用这些特征量。作为一个例子,在本说明书的后半部分中对使用了MRCoHOG特征量的图像处理装置21的硬件构成例子进行说明。
辨别装置201是预先学习了辨别对象的BNN(Binarized Neural Networks,在日本也被称为二进制神经网络),接受图像处理装置21输出的特征量的输入,辨别图像数据中是否存在辨别对象。
辨别装置201也被IC芯片化。虽然没有进行图示,但也能够将辨别装置201与半导体装置71一起安装在视频采集板86上,通过一体的视频采集板86来实现图像识别装置200。
另外,也能够将图像处理装置21和辨别装置201一体形成于半导体装置71,并将其安装在视频采集板86。
存储装置85例如是使用了硬盘、半导体存储器等存储介质的存储装置,存储有用于使CPU81进行使用了图像识别的辨别结果的应用处理的应用程序等。
另外,存储装置85也具备存储应用程序的动作设定等的数据存储部。
对于该动作设定,例如在图像识别装置200检测到人物的情况下,由用户设置是否向驾驶员发出警报这样的内容。
输入装置87是向计算机80输入各种信息的装置,由用于用户操作计算机80的操作按钮等输入设备构成。
输出装置88是供计算机80输出各种信息的装置,例如由显示操作画面,或在相机84拍摄到的视频上以矩形包围图像识别装置200检测到的人物来进行显示的液晶显示器等输出设备构成。
接下来,对辨别装置201进行说明。
辨别装置201通过BNN,即,二值化后的神经网络来辨别特征量。如后述那样,辨别装置201具备作为辨别单元发挥作用的辨别部231,该辨别单元使用多值化后的加权来学习了辨别对象(图5、图12、图16)。
在辨别装置201中使用BNN是因为在一般的使用浮点数的神经网络中,因为进行乘法等而硬件电路成为大面积,较难安装到半导体装置。
如后述那样,由于BNN能够将权重设为1和-1这二值,并使用加法器和计数器等而构成,所以电路面积例如变为使用浮点数的情况下的1%左右,容易安装到硬件,并且消耗电力也变小。而且,如后述那样,虽然是小规模的电路结构,但发挥可足以经受实用的辨别性能。
图2是用于对辨别装置201使用的BNN的结构进行说明的图。
BNN210具有由输入单元211-i(i=1、2、3)构成的输入层、由构成隐藏单元的中间单元213-j(j=1、2)构成的中间层(隐藏层)以及由输出单元215-k(k=1、2、3)构成的输出层。
此外,构成输入层、中间层、输出层的单元的数量是一个例子,能够设为任意数。
这些单元是构成神经网络的节点的计算单元(感知器),通过在各相间使各单元全结合来形成神经网络。
以下,在没有特别区分输入单元211-i的情况下,仅记载为输入单元211,中间单元213和输出单元215也是同样的。
对于从输入单元211-i向中间单元213-j的输出,设定取{-1,1}的二值之一的值的计算的权重Wji。
另外,对于从中间单元213-j向输出单元215-k的输出,也设定取{-1,1}二值之一的值的计算的权重Wkj。
此外,在图中,用下标表示i、j、k,但在说明书中,为了防止乱码而用通常的大小记载。其它要素也是同样的。
另外,在图中,用小写记载变量x、y、z、w,但在说明书中,为了使变量和下标的可视性变得良好,而用X、Y、Z、W的大写记载它们。
向输入单元211-i的输入Xi是图像处理装置21输出的特征量的成分。
中间单元213的激活函数被二值化为{-1,1},中间单元213-j的输出Yj取{-1,1}的二值之一。
输出单元215-k对中间单元213的输出进行合计,用{-1,1}的二值输出其符号。
输出单元215-k的输出Zk与第k个辨别对象对应。例如,输出单元215-1与人物对应,在辨别出人物的情况下,输出Z1=1,在未检测到人物的情况下,输出Z1=-1。其它输出单元215也是同样的。以下,对这些运算进行说明。
图3是示出图2的部分220(输入层和中间层的一部分)的图。
输入单元211-i进行基于所输入的XiWji的运算f(Xi,Wji)并输出至中间单元213-j。该运算是使Xi的符合与Wji的符号一致,如果Wji为1则f(Xi,Wji)=Xi,如果Wji为-1则f(Xi,Wji)=-Xi。
在图的例子中,输入单元211-2、211-3分别计算f(X2,W22)和f(X3,W23),并输出至中间单元213-2。
与此相对,中间单元213-j按照式225将各输入单元211-i对中间单元213-j输出的值相加,如果合计值为0以上则输出Yj=1,如果小于零则输出Yj=-1,从而输出其符号。这样,中间单元213对于输入单元211作为加法器发挥作用。
在图的例子中,中间单元213-2将输入单元211-2、211-3的输出值相加。
图4是示出图2的部分221的图。
中间单元213-j按照式226中的Xnor(Yj,Wkj),取Yj和Wkj的同或门,并将其结果输出至输出单元215-k。
具体而言,在(Yj,Wkj)为(1,1)以及(-1,-1)的情况下,中间单元213-j向输出单元215-k输出1,在其它情况下输出-1。
另一方面,输出单元215-k使用计数器而构成,按照式226将从各中间单元213-j发送来的二值的值相加,如果为0以上则输出Zk=1,如果小于零则输出Zk=-1,从而输出其符号。在输出层中不应用激活函数。
在图的例子中,输出单元215-2通过式226来计算中间单元213-1、213-2的输出值。
以上,使用图2~4,对BNN210进行了说明,然而通过学习来设定这些权重Wji、Wkj。
例如,设定为:在从输入层输入的特征量为人物的情况下,输出单元215-1为1,其它输出单元215为-1,在背景的情况下,输出单元215-2为1,其它输出单元215为-1,在其它对象物(例如猫)的情况下,输出单元215-3为1,其它输出单元215为-1。
如前面所述,在一般的使用浮点数的神经网络的情况下,由于权重等为实数,所以需要浮点数的乘法计算,但BNN210能够由使用了加法器和计数器的加法(减法也是加法的一种)电路构成
因此,BNN210无需进行使用浮点数的乘法,加法就足够,所以电路结构简单,能够减小电路面积。
这样,二进制神经网络(BNN210)使用对特征量进行二值化并相加的加法器、和对该加法器的输出进行计数的计数器而构成。
以上说明的BNN210的中间层为一层,但还能够设为多层。该情况下,中间层全部进行与中间单元213同样的基于二值的激活函数的计算。
另外,将中间层的单元数设定得少于输入层或输出层,但也能够将中间层的单元数设定得多于输入层或输出层。在中间层较少的情况下,能够进一步缩小所输入的特征量,在较多的情况下,特征量的维度增加,容易分离辨别对象。中间层的单元数具有这种性质,并反复试验等求出适当的数量。
另外,BNN210利用二值来计算,但也能够构成为利用三值以上的离散值来计算。
(第一实施方式)
图5是用于对本实施方式的辨别装置201进行说明的图。
辨别装置201具备选择部230和辨别部231。
图像处理装置21从视频帧的图像数据提取高维度的特征量,并将该特征量输出至选择部230。
这样,图像处理装置21作为获取辨别对象数据(图像数据)的特征量的特征量获取单元发挥作用。
此处,作为一个例子,将特征量设为MRCoHOG特征量。MR-CoHOG特征量是具有32592维的高维度的矢量数据(以规定的顺序排列成分,具体而言,如后述为直方图),由32592个成分构成。
此外,将特征量设为高维度是因为在高维度的情况下图像识别装置200特别有效,也可以使用不是高维度的特征量。
选择部230从由图像处理装置21输入的选择前特征量233选择由预先指定的规定的部分构成的成分,并将所选择的选择后特征量234输入至辨别部231。
这样,选择部230作为选择单元发挥作用,从通过提取而获取到的特征量选择用于辨别的预先指定的部分。
通过选择和间隔剔除高维度的特征量,能够减少用于辨别的特征量的成分。由此,能够使辨别装置201的电路小型化,并减少电路面积。另外,伴随于此,消耗电力也变小。
特征量的选择的部分也可以随机指定,但在本实施方式中,为了提高辨别性能,而将对辨别精度(能够准确检测对象的检测精度)的提高有效的部分指定为选择用。
而且,在本实施方式中,使用被称为Real AdaBoost(以下,称为RAdB)的辨别器的算法来决定有利于辨别精度的提高的特征量的部分。
RadB是广泛使用于辨别器的算法,但在本实施方式中,不是用于辨别,而用于选择特征量。
若指定所选择的特征量的成分的个数,则RAdB自动地指定并输出该个数量的成分。这样,本申请发明人开拓出RAdB的新的使用方法。
此处,选择单元从特征量选择通过RAdB等辨别算法预先指定的部分。
而且,选择单元从特征量选择通过辨别算法预先指定的、辨别单元的辨别精度变高的部分。
此外,选择的部分的指定单元并不限于此,也可以根据各特征描述的特性来决定。
另外,由于能够将选择前特征量233的输入端子列视为输入层,并将选择后特征量234的输出端子列、和由输入单元211构成的输入层视为由两层构成的中间层,所以作为学习的一环,可以使选择的成分变化的同时搜索辨别精度变高的部分。
这样,在指定要选择的成分的阶段中,选择部230利用RAdB,但在指定一次后,固定使用它,所以将选择前特征量233的端子和选择后特征量234的端子接线,选择前特征量233的其它端子不接线而作为终端,由此能够实现选择功能。
另外,在以上的例子中,虽然从指定在辨别时效果较大的成分这个观点来决定要选择的部分,但还能够从简化图像处理装置21的电路这个观点来决定要选择的成分。
即,特征量的某个成分的集合取决于图像处理装置21的某个电路,即使不选择该成分的集合,给予辨别性能的影响也较小,并且即使省略该电路,在图像处理装置21能够计算其它特征量的情况下,也能够将属于该集合的成分连计算它的电路一起从图像处理装置21省略。
例如,在MR-CoHOG特征量中,在低分辨率图像、中分辨率图像、高分辨率图像之间将亮度梯度的共生的直方图设为特征量,但取得低分辨率图像与高分辨率图像之间的共生就获得所希望的辨别精度的情况下,不需要中分辨率图像,能够从图像处理装置21省略生成中分辨率图像,或计算所生成的中分辨率图像的亮度梯度,或对中分辨率图像与低分辨率图像以及高分辨率图像之间的亮度梯度的共生进行计测的电路结构。
因此,从选择有助于辨别精度的成分这个观点、和简化图像处理装置21的电路结构这个观点双方出发,寻求获得所希望的辨别精度的特征量的部分,由此,也能够设定要选择的成分。
该情况下,特征量获取单元获取基于特征量提取单元从作为辨别对象数据的图像数据提取出的亮度梯度的共生分布的特征量,选择单元从特征量选择通过辨别算法预先指定的、简化特征量提取单元的提取处理或者提取电路结构的部分。
辨别部231使用BNN210,使用从选择前特征量233的端子列选择的选择后特征量234来进行辨别处理。
这样,辨别部231具备将所选择的部分输入至辨别单元的输入单元,由通过二值化后的加权已经进行了辨别对象(在该例子中,人物和背景)的学习的二进制神经网络构成。
辨别部231通过辨别处理将对象辨别为人物的情况下,将输出单元215-1设定为1,将输出单元215-2设定为-1,并输出辨别结果,在将对象辨别为背景(没有映现人物=背景)的情况下,将输出单元215-1设定为-1,将输出单元215-2设定为1,并输出辨别结果。
这样,辨别部231具备输出单元,该输出单元输出辨别单元使用所输入的部分而辨别出的辨别结果。
在构成这样的图像识别装置200后,本申请发明人进行了各种实验,验证能够通过选择将特征量的成分数缩小到何种程度,或者能够将辨别部231的电路结构简化到何种程度。
接下来,对这些实验进行说明。任何一个实验都使用MR-CoHOG特征量来进行。
图6是示出不进行特征量的选择而将输入维度度数保持32592维(即,输入单元211有32592个),减少中间层的中间单元213的单元数的情况下的辨别精度的变化的实验结果。
为了比较,也记载由RAdB构成辨别装置201的情况下的辨别精度。
如图所示,RAdB的情况下的辨别精度为97.59%。
另一方面,在使中间层的单元数逐渐减少到1024、256、64、16、4、2、1的情况下的辨别精度分别是98.32%、98.29%、98.41%、98.31%、98.26%、98.12%、98.29%。
从实验结果可知,即使中间单元213的数量为一个,辨别精度也有98%以上,能够足以耐实用。
图7是示出在通过选择特征量来将输入维度减少到500维的状态下(即,输入单元211有500个),减少中间单元213的单元数的情况下的辨别精度的变化的实验结果。
如图所示,RAdB的情况下的辨别精度是97.59%。
另一方面,将中间层的单元数依次减少到1024、256、64、16、4、2、1的情况下的辨别精度分别是98.37%、98.37%、97.97%、97.74%、97.39%、97.39%、97.05%。
从实验结果可知,即使中间单元213的数量为一个,辨别精度也有97%以上,能够足以耐实用。
图8是示出将中间单元213选为一个,并将要选择的特征量的输入维度从500依次减少的情况下(即,将输入单元211从500减少的情况下)的辨别精度的变化的实验结果。
如图所示,将输入维度减少到500、200、100、64、32、16、8、4的情况下的辨别精度分别是97.13%、95.79%、94.52%、93.30%、91.79%、90.03%、88.57%、83.96%。
从实验结果可知,即使输入维度为4维,中间单元213为一个,辨别精度也有83%以上,根据用途,能够耐实用。另外,在输入维度为16维以上时,辨别精度有90%以上,能够足以耐实用。
以上,使用图6~图8对实验结果进行了说明,然而学习在每次使输入维度或单元数变化时进行。
图9是对由RAdB构成辨别装置的情况和由辨别装置201构成辨别装置的情况的电路规模进行比较的表。关于辨别装置201,示出中间单元213为一个情况。
Resister为小容量的存储器,在RAdB的情况下,需要137个Resister,而在辨别装置201的情况下,16个就足够了。
LUTs是检查表,是用简单的排列的参照处理置换复杂的计算处理。
RAdB的情况下,需要1226个LUTs,而辨别装置201的情况下,8个就足够了。
DSP是数字信号处理器,RAdB的情况下,需要20个DSP,而在辨别装置201的情况下,不需要。
Block RAM是大容量的存储器,RAdB的情况下,需要2个Block RAM,而在辨别装置201的情况下,不需要。
如以上那样,与以往被用作辨别器的RAdB相比,辨别装置201能够由小规模的电路构成,适合半导体装置化,即,IC芯片化。
图10是对由RAdB构成辨别装置的情况、和由中间单元为一个的辨别装置201构成辨别装置的情况下所需的存储器的容量进行比较的表。
如表所示,RAdB需要1024千比特,而辨别装置201仅需要0.5千比特(在将要选择的特征量设为500维的情况下)。
图11是用于对本实施方式的图像识别装置200的动作进行说明的流程图。
以下的处理由图像处理装置21和辨别装置201的硬件电路进行。
首先,图像处理装置21接受相机84输出的视频帧的输入(步骤105)。
接下来,图像处理装置21按照电路对视频帧进行处理,提取视频帧的选择前特征量233,并输出至辨别装置201(步骤110)。
另一方面,辨别装置201通过选择部230选择从图像处理装置21接受输入的选择前特征量233(步骤115),并将选择后特征量234输入至辨别部231(步骤120)。
接下来,辨别装置201通过利用BNN210计算选择后特征量234来进行辨别处理,并输出计算的结果得到的辨别结果(步骤125)。
接下来,图像识别装置200判断是否结束处理,在结束处理的情况下(步骤130:“是”),结束图像辨别处理,在不结束处理的情况下(步骤130:“否”),返回到步骤105,对下一个视频帧进行图像识别处理。
是否结束该处理的判断例如通过用户是否从未图示的菜单画面指示了结束进行判断。
根据以上所述的第一实施方式,能够获得如下那样的效果。
(1)图像识别装置200能够在使用BNN210进行辨别时,从高维度的特征量选择对辨别重要的特征,并将该特征向BNN210的输入层输入。
在非专利文献1的以往技术中,由于使用全部的高维度特征量进行计算,所以处理成本变大,但通过这样进行输入的特征量的选择,能够减少计算成本、硬件资源。
(2)通过辨别部231使用BNN210,对中间层(向中间层的输入和从中间层的输出)的权重和激活函数进行二值化,能够实现处理成本的减少。另外,在BNN210安装于硬件时,能够通过加法器以及计数器进行计算,所以能够以小成本进行安装。
(3)能够使用RAdB来指定对辨别重要的特征量的选择。由此,选择有效作用于辨别精度的特征量的部分,所以可以实现维数和中间单元213的大幅度的减少。
(4)即使在选择特征量来输入的情况下,也能够确保较高的辨别性能,在电路规模方面,也能够比RAdB轻型安装。
(5)在本实施方式中,通过硬件来实现辨别装置201,但在通过软件实现的情况下,也容易构建。
(第二实施方式)
根据图像处理装置21,有时使用低维度的特征量。
例如,在非专利文献2的技术中,由于由低维度的特征量(例如约500维)进行辨别,所以人物的检测精度受到限制。
在进行更高精度的检测的情况下,需要计算高维度的特征量,但如果直接计算全部的特征量则计算成本增大。
另外,为了确保所需辨别精度,也进行进一步对BNN进行多值化的研究。
然而,如果对特征量进行高维度化,或对神经网络进行多值化,则电路复杂化,电路面积增大。
与此相对,本申请发明人成功通过使神经网络保持二值化,并复制低维度的特征量来提高辨别精度。
以下,对基于该复制的图像识别处理进行说明。
图12是用于对本实施方式的辨别装置201进行说明的图。
图像识别装置200由图像处理装置21和辨别装置201构成,辨别装置201具备复制部240和辨别部231。
图像处理装置21将从视频帧提取的特征量输出至复制部240。
作为一个例子,图像处理装置21从视频帧提取100维左右的低维度的HOG特征量(即,成分存在100个左右),并输出至复制部240。
此处,图像处理装置21作为特征量获取单元发挥作用,从记录了辨别对象的记录数据(视频帧的图像数据)获取该辨别对象的特征量,辨别装置201具备获取该特征量作为辨别对象数据的辨别对象数据获取单元。
而且,特征量获取单元获取该图像数据中的例如基于HOG特征量的亮度梯度的共生分布作为特征量。
复制部240将从图像处理装置21输入的复制前特征量243复制规定的数量来创建复制后特征量244(在图的例子中,复制两倍),并将复制后特征量输入至辨别部231。
这样,复制部240具备对辨别对象数据进行复制的复制单元。
例如通过使复制前特征量243的输出端子与多个复制后特征量244的输入端子并联接线来进行复制。
另外,可以通过将复制前特征量243的输出目的地重定向为多个复制后特征量244的端子,而依次输出复制前特征量243来将各成分多次输入至辨别部231,该情况也包含在复制中。
辨别部231使用BNN210,使用从复制前特征量243选择的复制后特征量244来进行辨别处理。
这样,辨别部231具备将复制的辨别对象数据输入至辨别单元的输入单元,由通过二值化后的加权已经进行了辨别对象(在该例子中,如接下来所述那样,人物和背景)的学习的二进制神经网络构成。
而且,构成该二进制神经网络的BNN210使用对复制的辨别对象数据进行多值化并相加的加法器、和对加法器的输出进行计数的计数器而构成。
辨别部231通过辨别处理将对象辨别为人物的情况下,输出将输出单元215-1设定为1,将输出单元215-2设定为-1的辨别结果,在将对象辨别为背景(没有映现人物=背景)的情况下,将输出单元215-1设定为-1,将输出单元215-2设定为1,并输出辨别结果。
这样,辨别部231具备输出单元,该输出单元输出使用所输入的部分而辨别出的辨别结果。
图13是对特征量的复制对辨别精度的提高进行考察的图。
如后面的实验结果所示,如果通过复制特征量来增加维度并输入至辨别部231,则辨别精度提高。
这是因为,在未进行复制的情况下,如图13的左图所示,由于中间层的计算对权重和激活函数进行二值化,所以能够从特征量的一个成分在网络内部表现的值被限制为{-X,X},而在复制成两倍的情况下,如右图所示,能够表现的值如{-2X,0,2X}那样增加。如果复制3倍以上,则能够表现的值进一步增加。
图14是示出复制所带来的辨别精度的变化的实验结果。
在从原始的图像数据获取到的特征量为100维且没有进行复制的情况下、将该特征量复制两倍(复制一次)而成为200维的情况下、进一步将该特征量复制3倍(复制两次)而成为300维的情况下、将该特征量复制四倍(复制三次)而成为400维的情况下、将该特征量复制5倍(复制四次)而成为500维的情况下、以及特征量为500维而没有进行复制的情况下的辨别精度分别是94.52%、95.56%、95.81%、96.18%、96.09%、97.13%。
这样,每增加复制的数量就提高辨别精度,能够确保94.5%~96%左右的辨别精度,所以能够足以耐实用。
通过该实验可知,即使不使用高维度的特征量或将神经网络多值化为3值以上,通过复制低维度的特征量这个简单的处理,辨别精度也提高。
图15是用于对本实施方式的图像识别装置200的动作进行说明的流程图。
以下的处理由图像处理装置21和辨别装置201的硬件电路进行。
首先,图像处理装置21接受相机84输出的视频帧的输入(步骤105)。
接下来,图像处理装置21按照电路对视频帧进行处理,提取视频帧的特征量(复制前特征量243),并输出至辨别装置201(步骤110)。
另一方面,辨别装置201对从图像处理装置21接受输入的复制前特征量243进行复制(步骤150),并将所生成的复制后特征量244输入至辨别部231(步骤120)。
接下来,辨别装置201通过辨别部231对所输入的复制后特征量244进行计算,并输出计算的结果得到的辨别结果(步骤125)。
接下来,图像识别装置200判断是否结束处理,在结束处理的情况下(步骤130:是),结束图像识别处理,在不结束处理的情况下(步骤130:“否”),返回到步骤105,对下一个视频帧进行图像识别处理。
是否结束该处理的判断例如通过用户是否从未图示的菜单画面指示结束进行判断。
此外,在本实施方式中,从视频帧的图像数据提取特征量,但图像识别装置200也可以不具备图像处理装置21,而将视频帧的图像数据直接输入至辨别装置201。
该情况下,辨别数据获取单元获取的辨别对象数据成为视频帧的图像数据(相当于记录数据)。
另外,也可以如特征量的第一成分复制2个,第二成分复制四个这样按照每个成分使复制的个数变化。
根据以上所述的第二实施方式,能够获得如下那样的效果。
(1)在使用BNN210进行辨别时,进行特征量的复制,并将特征量向BNN210的输入层输入。通过进行输入的特征量的复制,能够增加可以在网络内部表现的值,并实现辨别部231的辨别性能的提高。
(2)通过辨别部231使用BNN210,中间层的计算对权重和激活函数进行二值化,能够实现处理成本的减少。另外,在BNN210安装于硬件时,能够通过加法器以及计数器进行计算,所以能够以小成本进行安装。
(3)即使在输入低维度的特征量的情况,也进行复制而不必新提取其它的特征量,所以能够减少图像处理装置21中的计算成本。
(4)由于BNN210在安装于硬件时能够由加法器以及计数器构成,所以即使由于特征量的复制而增加输入,也能够以低成本进行安装。
(5)在本实施方式中,通过硬件来实现辨别装置201,但在通过软件实现的情况下,也容易构建。
(第三实施方式)
图16是用于对本实施方式的辨别装置201进行说明的图。
本实施方式的辨别装置201是组合第一实施方式和第二实施方式而成的。
辨别装置201具备选择部230、复制部240以及辨别部231,它们的结构与上面的实施方式中所说明的相同。
图像处理装置21将特征量输出至选择部230,选择部230选择用于辨别的成分并输入至复制部240。
与此对应地,复制部240对从选择部230输入的特征量进行复制,并输入至辨别部231。
而且,辨别部231计算所复制的特征量来辨别图像识别对象。
此外,也可以不设置复制后特征量244,而在辨别装置201内设置布线,辨别装置201的输入单元进行复制。
这样,本实施方式的图像识别装置200具备从特征量选择用于辨别的预先指定的部分的选择单元、对该选择单元选择的部分进行复制的复制单元、以及将选择单元选择的部分和复制单元复制的部分输入至辨别单元的输入单元。
图17是用于对本实施方式的图像识别装置200的动作进行说明的流程图。
以下的处理由图像处理装置21和辨别装置201的硬件电路进行。
首先,图像处理装置21接受相机84输出的视频帧的输入(步骤105)。
接下来,图像处理装置21按照电路对视频帧进行处理,提取视频帧的特征量(选择前特征量233),并输出至辨别装置201(步骤110)。
另一方面,辨别装置201通过选择部230选择从图像处理装置21接受到输入的选择前特征量233(步骤115),并将选择后特征量234输入至复制部240。
复制部240接受从选择部230输入的选择后特征量234作为复制前特征量243,并对此进行复制(步骤150),且将复制后特征量244输入至辨别部231(步骤120)
接下来,辨别装置201通过利用辨别部231的BNN210计算复制后的特征量来进行辨别处理,并输出计算的结果得到的辨别结果(步骤125)。
接下来,图像识别装置200判断是否结束处理,在结束处理的情况下(步骤130:是),结束图像识别处理,在不结束处理的情况下(步骤130:“否”),返回到步骤105,对下一个视频帧进行图像识别处理。
是否结束该处理的判断例如通过用户是否从未图示的菜单画面指示结束进行判断。
如以上那样,在选择之后进行复制,但也可以更换复制部240和选择部230的顺序,在复制特征量之后进行选择。
以上所述的、第一实施方式~第三实施方式能够如下那样构成。
(第十一结构)
一种信息处理装置,其特征在于,具备:
特征量获取单元,获取辨别对象数据的特征量;选择单元,从上述特征量获取单元获取到的特征量选择用于辨别的预先指定的部分的特征量;辨别单元,使用多值化后的加权来学习辨别对象;输入单元,将上述选择单元选择的部分的特征量输入至上述辨别单元;以及输出单元,输出上述辨别单元使用上述输入单元输入的部分的特征量所辨别出的辨别结果。
(第十二结构)
根据第十一结构所述的信息处理装置,其特征在于,
上述辨别单元通过二值化后的加权进行上述辨别对象的学习。
(第十三结构)
根据第十一结构或者第十二结构所述的信息处理装置,其特征在于,
上述选择单元从上述特征量获取单元获取到的特征量选择通过RAdB等辨别算法预先指定的部分的特征量。
(第十四结构)
根据第十三结构所述的信息处理装置,其特征在于,
上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、上述辨别单元的辨别精度变高的部分的特征量。
(第十五结构)
根据第十三结构所述的信息处理装置,其特征在于,
上述特征量获取单元获取基于特征量提取单元从作为辨别对象数据的图像数据提取出的亮度梯度的共生分布的特征量,上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、简化了上述特征量提取单元的提取处理或者提取电路结构的部分的特征量。
(第十六结构)
根据第十一结构至第十五结构中的任意一个结构所述的信息处理装置,其特征在于,
上述辨别单元是二进制神经网络。
(第十七结构)
根据第十六结构所述的信息处理装置,其特征在于,
上述二进制神经网络使用对上述部分的特征量进行二值化并相加的加法器、和对上述加法器的输出进行计数的计数器而构成。
(第十八结构)
根据第十一结构至第十六结构中的任意一个结构所述的信息处理装置,其特征在于,
上述信息处理装置具备复制单元,上述复制单元对上述选择单元选择的部分的特征量进行复制,上述输入单元将上述选择单元选择的部分的特征量和上述复制单元复制的部分的特征量输入至上述辨别单元。
(第二十一结构)
一种信息处理装置,其特征在于,具备:
辨别对象数据获取单元,获取辨别对象数据;辨别单元,使用多值化后的加权来学习辨别对象;复制单元,对上述辨别对象数据获取单元获取到的辨别对象数据进行复制;输入单元,将上述复制单元复制的辨别对象数据输入至上述辨别单元;以及输出单元,输出上述辨别单元使用上述输入单元输入的辨别对象数据所辨别出的辨别结果。
(第二十二结构)
根据第二十一结构所述的信息处理装置,其特征在于,
上述辨别单元通过二值化后的加权进行上述辨别对象的学习。
(第二十三结构)
根据第二十一结构或者第二十二结构所述的信息处理装置,其特征在于,
上述辨别单元是二进制神经网络。
(第二十四结构)
根据第二十一结构、第二十二结构,或者第二十三结构所述的信息处理装置,其特征在于,
上述信息处理装置具备特征量获取单元,上述特征量获取单元从记录有辨别对象的记录数据获取该辨别对象的特征量,上述辨别对象数据获取单元获取上述特征量获取单元获取到的特征量作为辨别对象数据。
(第二十五结构)
根据第二十四结构所述的信息处理装置,其特征在于,
上述记录数据是图像数据,上述特征量获取单元获取上述图像数据中的亮度梯度的共生分布作为上述特征量。
(第二十六结构)
根据第二十三结构所述的信息处理装置,其特征在于,
上述二进制神经网络使用对上述复制单元复制的辨别对象数据进行多值化并相加的加法器、和对上述加法器的输出进行计数的计数器而构成。
(图像处理装置21的结构)
以上,针对辨别装置201,对三个实施方式进行了说明,然而以下,对作为构成图像识别装置200的另一个要素的图像处理装置21进行说明。
(1)辨别装置201的概要
图像处理装置21(图22)并列地配设由从高分辨率图像提取亮度梯度方向的三行缓冲区25a~缓冲区28a构成的高分辨率图像用的处理行、由从中分辨率图像提取亮度梯度方向的中分辨率部24b~缓冲区28b构成的中分辨率图像用的处理行、以及由从低分辨率图像提取亮度梯度方向的低分辨率部24c~缓冲区28c构成的低分辨率图像用的处理行,并从这三个分辨率的图像并行地同时对每个像素提取亮度梯度方向。
共生矩阵创建部30a、30b、30c使用从这三个分辨率的图像提取出的亮度梯度方向来创建共生矩阵,直方图创建部31使用该共生矩阵来输出直方图作为MRCoHOG特征量。
由于同时处理三个分辨率的图像,所以能够高速地进行处理,并能够实时地对从相机输出的视频进行处理。
(2)辨别装置201的详细
首先,简单地对HOG特征量、CoHOG特征量以及MRCoHOG特征量进行说明。
图18是用于对HOG特征量的概念进行说明的图。
按照如下的顺序从图像提取HOG特征量。
图18(a)左图所示的图像101设为观测对象的观测窗等的关注图像区域。
首先,将图像101分割为矩形的单元102a、102b、…。
接下来,如图18(a)右图所示,针对每个单元102,例如将各像素(pixel)的亮度梯度方向(从低亮度到高亮度的方向)量子化为八个方向。
接下来,如图18(b)所示,通过生成将量子化的亮度梯度的方向设为等级、将出现次数作为度数的直方图,从而按照每个单元102创建单元102所包含的亮度梯度的直方图106。
而且,以汇集了几个单元102的块为单位归一化为直方图106的合计度数成为1。
在图18(a)左图的例子中,由单元102a、102b、102c、102d形成1块。
将这样归一化而成的直方图106a、106b、…如图18(c)那样排成一列的直方图是图像101的HOG特征量107。
图19是用于对CoHOG特征量进行说明的图。
CoHOG特征量是着眼于局部区域中的两个像素间的梯度对的特征量,按照以下的顺序从图像提取。
如图19(a)所示,将图像101分割为矩形的单元102a、102b、…。此外,单元也被称为块。
在CoHOG特征量中,在单元102a、102b、…中设定关注像素110,通过关注像素110的亮度梯度方向和从关注像素110起处于距离1~4的像素的亮度梯度方向的组合来创建共生矩阵(与关注像素110有关的直方图)。此外,涉及与关注像素110的组合的像素被称为偏置(offset)。
例如,以算式表示距关注像素110的距离,然而若应用该算式,则如图19(a)所示,作为距离1的像素,而获得与关注像素110相邻的像素1a~1d。
此外,关注像素110的上侧和左侧的像素不包含于组合是因为从最上侧的像素行的左端朝右方向依次设定关注像素110并进行处理,所以已经结束处理。
接下来,观察关注像素110和像素1a的亮度梯度方向。亮度梯度方向例如被量子化为八个方向,在图中用箭头示出方向。
关注像素110的亮度梯度方向为右方向,像素1a的亮度梯度方向为右上方向。
因此,在图19(b)的共生矩阵113中,对(行编号,列编号)=(右方向,右上方向)的要素投一票。
在图19(b)的例子中,作为关注像素110和像素1a的亮度梯度方向的组合,在作为行编号记载右方向的箭头的行和作为列编号记载了右上方向的箭头的列的要素加上1的结果是该要素的值成为10。
此外,本来应该以立体的直方图描绘共生矩阵113,并以高度方向的柱形图表示票数,但为了简化图而以数值示出票数。
以下,同样地,进行基于关注像素110和像素1b、1c、1d的组合的投票(计数)。
如图19(c)所示,以关注像素110为中心,距离2的像素被规定为处于像素1a~1d的外周的像素2a~2f,距离3的像素被规定为进一步处于其外周的像素3a~3h,距离4的像素规定为进一步处于其外周的像素4a~4l。
对于它们,也同样地与关注像素110组合并对共生矩阵113进行投票。
对构成单元102的全部像素进行以上的投票处理,获得每个像素的共生矩阵。
并且,在全部的单元102进行上述处理,将全部的共生矩阵的成分如图19(d)所示那样排列成一列的直方图是图像101的CoHOG特征量117。
图20是用于对MRCoHOG特征量进行说明的图。
MRCoHOG特征量通过在相同的图像的不同分辨率间发现共生来大幅度地减少偏置数。
首先,如图20(a)所示,通过从原始图像生成分辨率(图像尺寸)不同的图像,来获得高分辨率图像120(原始图像)、中分辨率图像121、低分辨率图像122。图像中的方格表示像素。虽然没有进行图示,但也在这些各分辨率图像中设定单元(也被称为块)。
而且,计算对高分辨率图像120、中分辨率图像121以及低分辨率图像122各自的像素进行量子化后的亮度梯度方向。
虽然MRCoHOG特征量的提取使用中分辨率图像121、低分辨率图像122,但为了容易明白,如图20(b)所示,将中分辨率图像121和低分辨率图像122延长为中分辨率图像121a和低分辨率图像122a,并设为与高分辨率图像120相同的尺寸。
接下来,如图20(c)所示,与CoHOG特征量同样地取高分辨率图像120的关注像素125中的亮度梯度方向和其周围的高分辨率图像120的像素1a~1d的亮度梯度方向的共生(亮度梯度方向的组合),并对未图示的共生矩阵进行投票。
接下来,按照高分辨率图像120的关注像素125和处于像素1a~1d的外周的中分辨率图像121a的像素2a~2d的共生,对共生矩阵进行投票,而且,按照关注像素125和处于像素2a~2d的外周的低分辨率图像122a的像素3a~3d的共生,对共生矩阵进行投票。
这样,针对高分辨率图像120的关注像素125,获得以高分辨率图像120内的组合、与中分辨率图像121a的组合、与低分辨率图像122a的组合取得共生的共生矩阵。
对高分辨率图像120的单元内的各像素进行该处理,而且,对全部单元进行。
由此,获得高分辨率图像120的每个像素的共生矩阵。
同样地,还计算在中分辨率图像121a设定了关注像素的情况下的与各分辨率图像的共生矩阵、在低分辨率图像122a设定了关注像素的情况下的与各分辨率图像的共生矩阵,并将全部的共生矩阵的成分如图20(d)所示那样排列成一列的直方图是高分辨率图像120的MRCoHOG特征量127。
此外,在该例子中,将连结在高分辨率图像120设定了关注像素的情况下的共生矩阵、在中分辨率图像121a设定了关注像素的情况下的共生矩阵以及在低分辨率图像122a设定了关注像素的情况下的共生矩阵而成的直方图作为MRCoHOG特征量,但也能够将任意一个例如在高分辨率图像120设定了关注像素的情况下的共生矩阵的直方图作为MRCoHOG特征量。
另外,也可以组合任意两个,还可以增加分辨率而在四种以上的分辨率图像取共生。
从发明人等的实验得知通过MRCoHOG特征量,与CoHOG相比,能够大幅度地减少特征量,另一方面稳健性比CoHOG好。
这推测是否是因为通过使分辨率降低而降低噪声以及观察与远离关注像素分离的部分的共生。
接下来,对数学计算式向硬件的应用方式进行说明。
为了计算MRCoHOG特征量,需要计算平方根、除法、反正切。
然而,计算机通过加法进行平方根等各种计算,所以这些运算的负荷较大。
因此,为了使计算速度高速化,或者为了能够实现IC芯片化而使电路规模为适当的规模,需要研究适合于硬件的计算方法。
图21是用于对在本实施方式中所使用的计算方法进行说明的图。
图21(a)的式(1)的m(x,y)示出处于坐标(x,y)的像素的亮度梯度的梯度强度的计算式。
此外,为了防止乱码,以全角表示下附的小写。
fx(x,y)、fy(x,y)分别是x方向(水平方向·横方向)和y方向(垂直方向·纵向)的亮度的梯度强度。
fx(x,y)、fy(x,y)通过以数学的方式在x方向、y方向上对亮度进行偏微分来求出,但在本实施方式中,以关注像素的水平方向(左右横方向)两侧相邻的像素的亮度的差表示fx(x,y),以关注像素的垂直方向(上下纵向)两侧相邻的像素的亮度的差表示fy(x,y)。
如式(1)所示,梯度强度包含平方根,然而通过将欧几里得距离置换为曼哈顿距离,使式(1)近似为式(2)的加法式。
如图21(a)的右图所示,该置换使地点TU间的欧几里得距离亦即(t平方+u平方)的平方根近似为曼哈顿距离亦即t+u。名称的曼哈顿源于美国城市曼哈顿的街道为棋盘的网格状。
梯度强度是涉及亮度梯度的亮度的高低差越大则越大的量,使用于零点偏置。
关于梯度强度未达到规定的阈值的,虽然例如进行不取共生等规定的处理,但给予图像的辨别精度的影响较小,所以在本实施方式中,对于该处理省略说明。
实验的结果是确认出即使将欧几里得距离置换为曼哈顿距离也几乎不对图像识别能力造成影响。
图21(b)的式(3)示出一般使用的亮度梯度方向θ的计算式。
由于式(3)包含fy(x,y)除以fx(x,y)、反正切(arctangent)的计算,所以计算所需的处理负荷变大。
因此,在本实施方式中,MRCoHOG特征量的计算所需的并不是基于式(3)的准确的值,而着眼于是被量子化的亮度梯度方向,不使用式(3),而准备了使fx(x,y)和fy(x,y)的组与亮度梯度方向建立对应的对应表,由此,将fx(x,y)和fy(x,y)的组映射到被量子化的亮度梯度方向上。
图21(c)表示角度θ的范围和量子化后的亮度梯度方向θ的关系。
在本实施方式中,作为一个例子,假设将亮度梯度方向量子化为八个方向。
此处,如图21(c)所示,亮度梯度方向θ为0°≤θ<45°的量子化为0°,45°≤θ<90°的量子化为45°,其它角度也是同样地量子化为90°、135°、180°、225°、270°、315°。
在该方法中,首先,按照分类11,将fx(x,y)和fy(x,y)的正负的组合分类为a~d。
分类a是fx(x,y)和fy(x,y)均为正的情况,分类b是fx(x,y)和fy(x,y)均为负的情况,分类c是fx(x,y)为正、y(x,y)为负的情况,分类d是fx(x,y)为负、fy(x,y)为正的情况。
接下来,对fx(x,y)和fy(x,y)的大小关系进行比较,按照分类12,使得与被量子化的亮度梯度方向对应。
在分类为a,y为x以下的情况下,使与0°对应,在y大于x的情况下,使与45°对应。
在分类为b,-y为x以下的情况下,使与90°对应,在-y大于x的情况下,使与135°对应。
在分类为c,y为x以上的情况下,使与180°对应,在y小于x的情况下,使与225°对应。
在分类为d,-y为x以上的情况下,使与270°对应,在-y小于x的情况下,使与315°对应。
这样,在本实施方式中,通过参照由分类11、12构成的对应表,从而不必使用反正切或除法,能够高速地获得被量子化的亮度梯度方向。
这样,本实施方式的图像处理装置使用关注像素的相邻像素的亮度来获取关注像素的水平方向的亮度梯度强度fx(x,y)、以及垂直方向的亮度梯度强度fy(x,y),并输出将该获取到的水平方向的亮度梯度强度和垂直方向的亮度梯度强度在将水平方向的亮度梯度强度、垂直方向的亮度梯度强度的正负以及大小和量子化后的梯度方向建立对应的对应表中参照而量子化后的梯度方向。
图22是示出本实施方式的图像处理装置的电路结构的图。
图像处理装置21作为半导体装置,例如形成在半导体晶片上。
图像处理装置21具备由三行缓冲区25a~缓冲区28a构成的高分辨率图像处理行、由中分辨率部24b~缓冲区28b构成的中分辨率图像处理行、和由低分辨率部24c~缓冲区28c构成的低分辨率图像处理行。
这些管线并列地配设,并同时地并行处理高中低分辨率的图像,所以能够高速地进行处理。
此处,由高分辨率图像处理行、中分辨率图像处理行以及低分辨率图像处理行的组合构成的电路作为使用依次输出的亮度,按分辨率并行地依次输出多个分辨率下的各像素的亮度的梯度方向的梯度方向输出单元发挥作用。
而且,高分辨率图像处理行、中分辨率图像处理行以及低分辨率图像处理行分别作为按多个分辨率的每一个并列地设置,并根据从后述的图像输入部23依次输出的亮度来输出该分辨率的像素中的亮度的梯度方向的多个每个分辨率的梯度方向输出单元发挥作用。
图像处理装置21与时钟同步地使这些每个分辨率的梯度方向输出单元同时进行动作,由此能够并行地依次输出每个分辨率的梯度方向。
以下,对构成图像处理装置21的各电路进行说明。
计算MRCoHOG特征量只要具有构成图像的各像素的亮度数据即可。
因此,在本实施方式中,从以YUYV形式形成的图像提取像素的Y(亮度),并将此作为亮度数据输入至图像处理装置21。
以下,以与(i-j)等对应的像素的行编号和列编号表示图像的第i行j列的像素的亮度数据、后述的梯度方向数据。
图像输入部23是基于像素顺序(在图像中配置该像素的顺序)依次输出从摄影机发送来的帧的图像的亮度数据的电路,作为基于像素的顺序依次输出构成图像的该像素的亮度的亮度输出单元发挥作用。
此外,在本实施方式中,预先从YUYV形式的图像提取亮度数据Y,并将其作为图像输入至图像输入部23,但也可以构成为由图像输入部23梯度方向计算部26a、26b、26c从像素数据提取亮度成分。
如图24(a)所示,图像40由第一行的亮度数据(0-0)、(0-1)、(0-2)、…、(0-n)、第二行的亮度数据(1-0)、(1-1)、(1-2)、…、…、(1-n)、第m行的亮度数据(m-0)、(m-1)、(m-2)、…、(m-n)构成。
图像输入部23从由摄像机发送来的图像40从上面的行开始向右方向依次读出亮度数据,并按照亮度数据(0-0)、(0-1)、(0-2)、…、(0-n)、(1-0)、(1-1)、…的顺序输出。
返回到图22,图像输入部23的输出线被布线到三行缓冲区25a、中分辨率部24b、低分辨率部24c,图像输入部23输出的亮度数据同时输出至三行缓冲区25a、中分辨率部24b、低分辨率部24c的各个。
此外,在图22中,用粗线的箭头表示高分辨率的亮度数据的布线,用细线的箭头表示中分辨率的亮度数据的布线,用点线表示低分辨率的亮度数据的布线。
中分辨率部24b和低分辨率部24c分别是将图像40的分辨率(尺寸)转换为1/2和1/4的分辨率转换电路。
通过这些分辨率转换电路,从图像40生成分辨率为1/2、1/4的图像。
此外,图像40不转换分辨率而直接被用作高分辨率图像。
转换分辨率的(调节)方法有最近邻插值、双线性插值以及双三次插值等。
最近邻插值是抽出调节前的像素并直接使用的方法,双线性插值是对以对象像素为中心的2×2的区域进行加权平均的方法,双三次插值是通过三次函数对以对象像素为中心的4×4的区域进行补充的方法。
在图像处理装置21中,采用计算简单、且检测精度较高(后述)的最近邻插值。
图23是用于对中分辨率部24b、低分辨率部24c的分辨率转换处理进行说明的图。
如图23(a)的图像40b所示,中分辨率部24b通过在图像输入部23发送来的图像40的亮度数据中以斜线所示的每隔一个的频率读入亮度数据,并跳过其它的亮度数据,从而生成垂直方向及水平方向的亮度数据每隔一个的分辨率1/2的图像数据。
如图像40c所示,低分辨率部24c通过在图像输入部23发送来的图像40的亮度数据中以斜线所示的每隔三个的频率读入亮度数据,并跳过其它的亮度数据,从而生成垂直方向及水平方向的亮度数据每隔三个的分辨率1/4的图像数据。
通过进行这样的亮度数据的间隔剔除,中分辨率部24b生成并输出分辨率为1/2的中分辨率图像,低分辨率部24c生成并输出分辨率为1/4的低分辨率图像。
由于采用最近邻插值,所以能够通过跳过不需要的数据,拾取需要的数据这样的计算负荷较小的简单的处理来变更分辨率。
这样图像处理装置21通过以基于该分辨率的频率来选择从亮度输出单元(图像输入部23)依次输出的亮度,从而依次输出该分辨率的亮度。
更详细而言,高分辨率图像处理行(三行缓冲区25a~缓冲区28a)以基于高分辨率的频率(由于全部选择所以频率为全部)来选择并输出像素(的亮度),在中分辨率图像处理行(中分辨率部24b~缓冲区28b)中,中分辨率部24b以基于中分辨率的频率(每隔一个)来选择并输出像素(的亮度),在低分辨率图像处理行(低分辨率部24c~缓冲区28c)中,低分辨率部24c以基于低分辨率的频率(每隔三个)来选择并输出像素(的亮度)。
这些处理行使用这些亮度数据来输出各分辨率下的梯度方向。
图23(b)是表示使用最近邻插值的情况下的辨别率和使用双线性插值的情况下的辨别率的实验结果的ROC(Receiver Operating Characteristic:观察者操作特性曲线)曲线图。
纵轴和横轴分别表示再现率和误检测率,显示出曲线的下侧的面积越大,则辨别率越好。
如图所示,使用最近邻插值的情况下的辨别率显示出压倒性地好于使用双线性插值的情况下的辨别率的性能。这认为是因为边缘比双线性插值清晰,所以精度提高。
这样最近邻插值除了处理简单所以适合硬件安装之外,辨别率也较大地提高。
返回到图22,三行缓冲区25a是积蓄高分辨率图像的亮度数据,将三行量的亮度数据并列输出至梯度方向计算部26a的电路。
梯度方向计算部26a是使用三行量的亮度数据来输出表示高分辨率图像中的关注像素的亮度梯度方向的梯度方向数据的电路。
三行缓冲区25b是积蓄中分辨率图像的亮度数据,并将三行量的亮度数据并列输出至梯度方向计算部26b的电路。
梯度方向计算部26b是使用三行量的亮度数据来输出表示中分辨率图像中的关注像素的亮度梯度方向的梯度方向数据的电路。
三行缓冲区25c是积蓄低分辨率图像的亮度数据并将三行量的亮度数据并列输出至梯度方向计算部26c的电路。
梯度方向计算部26c是使用三行量的亮度数据来输出表示低分辨率图像中的关注像素的亮度梯度方向的梯度方向数据的电路。
图24是用于对三行缓冲区25a和梯度方向计算部26a的详细的动作进行说明的图。
如使用图24(a)先前所说明那样,从图像输入部23将高分辨率图像的图像40的亮度数据输出为(0-0)、(0-1)、…。
如图24(b)所示,三行缓冲区25a对这些亮度数据按行来储存三行,并将这三行并列地输出至梯度方向计算部26a。
在图24(b)的例子中,示出使像素的列对齐地将图像40的第二行的亮度数据(1-0)、(1-1)、(1-2)、…、第三行的亮度数据(2-0)、(2-1)、(2-2)、…以及第四行的亮度数据(2-0)、(2-1)、(2-2)、…并行输出至梯度方向计算部26a的情况。
梯度方向计算部26a接受并列输出的三行量的亮度数据的输入,并输出量子化后的亮度梯度方向。
如图所示,梯度方向计算部26a具备3行3列的存储元件的排列,与三行缓冲区25a的输出同步地获取3行3列的亮度数据,并读取基于这些亮度数据的亮度。
如图所示,梯度方向计算部26将3行3列的亮度数据中的中央的亮度数据设定为关注像素。在图的例子中,粗线的矩形包围的亮度数据(2-1)成为关注像素的亮度数据。
而且,梯度方向计算部26a根据与关注像素在水平方向相邻的亮度数据(2-2)、(2-0)的亮度的差来计算水平方向的亮度梯度强度fx(x,y),根据与关注像素在垂直方向相邻的亮度数据(1-1)、(3-1)的亮度的差来计算垂直方向的亮度梯度强度fy(x,y)。
梯度方向计算部26a若求出fx(x,y)和fy(x,y),则将它们代入图21的式(2)来求出m(x,y),并在m(x,y)未达到阈值的情况下,进行规定的处理。
在m(x,y)达到阈值的情况下,在对应表中参照fx(x,y),fy(x,y),输出表示该像素的量子化后的亮度梯度方向的梯度方向数据(2-1)。
这样,与亮度数据同样地与像素对应地生成梯度方向数据。
在下一个时钟,亮度数据的列移动一个,如梯度方向计算部26a2所示,下一个亮度数据(2-2)成为关注像素,输出梯度方向数据(2-2)。
这样,梯度方向计算部26a在每个时钟依次输出梯度方向数据。
另外,若到达最后的列,则行前进一个,梯度方向计算部26a输出将下一行的亮度数据作为关注像素的梯度方向数据。
同样地,三行缓冲区25b和梯度方向计算部26b输出中分辨率图像的角度方向数据,三行缓冲区25c和梯度方向计算部26c输出低分辨率图像的角度方向数据。
这样,在梯度方向计算部26a配设的3行3列的存储元件的排列中,将关注像素的位置和与其相邻的相邻像素的位置建立对应,并使用该位置的对应,在按照时钟依次发送来的亮度数据中,依次确定关注像素的亮度数据和相邻像素的亮度数据。
根据图像输入部23输出亮度数据的顺序来决定通过这些关注像素的位置或相邻像素的位置的顺序。
这与在以水桶接力式依次送来的亮度数据的路径上设置关注像素用的窗和相邻像素用的窗并通过这些窗进行观察,来确定关注像素的亮度数据和相邻像素的亮度数据在逻辑上相同。
在图像处理装置21中,边缘的处理、电路结构变得简单,所以采取将亮度数据缓存三行,并将它们依次送出到3行3列的排列的结构,但这是一个例子,能够进行基于图像输入部23输出的顺序来确定关注像素和相邻像素的亮度数据的各种变形。
同样地,梯度方向计算部26b、26c分别基于中分辨率部24b、低分辨率部24c对图像40进行下采样并输出亮度数据的顺序来确定关注像素和相邻像素的亮度数据。
这样,每个分辨率角度方向输出单元基于该分辨率的亮度的输出顺序来确定关注像素的在水平方向以及垂直方向相邻的相邻像素的亮度,并使用该确定出的相邻像素的亮度来输出关注像素的梯度方向。
而且,每个分辨率角度方向输出单元通过基于该分辨率的亮度的输出顺序向对应有相邻像素的位置的排列配置亮度,来确定相邻像素的亮度。
另外,该排列由关注像素所属的像素行和与该像素行在垂直方向上相邻的两个像素行的三个像素行所对应的三个排列构成,每个分辨率梯度方向输出单元将三个像素行的亮度分别配置于对应的三个排列,并根据配置了该亮度的位置来确定相邻像素的亮度。
返回到图22,纵向两倍部27b和纵向四倍部27c是分别针对中分辨率图像和低分辨率图像,将垂直方向的梯度方向数据向垂直方向延长到两倍、四倍的电路。
该处理是为了使后面利用共生矩阵创建部30a等读取共生时的定时一致的处理。
图25是用于对垂直方向的数据延长处理进行说明的图。
数据51示出数据延长前的梯度方向数据的结构。各方格表示各梯度方向数据,它们按对应的像素的顺序排列。
若复制数据51的各行,并使其与复制源的行相邻地配置,则获得在垂直方向上延伸两倍的数据52和延伸四倍的数据53。
通过该方法,纵向两倍部27b按每一行复制从梯度方向计算部26b输出的中分辨率图像的梯度方向数据而向纵向(垂直方向)延长两倍。
另外,纵向四倍部27c按每一行复制从梯度方向计算部26c输出的低分辨率图像的梯度方向数据而向纵向延长四倍。
返回到图22,缓冲区28a、28b、28c分别是暂时存储从梯度方向计算部26a、纵向两倍部27b、纵向四倍部27c输出的高分辨率图像的梯度方向数据、中分辨率图像的梯度方向数据、低分辨率图像的梯度方向数据的缓冲区。
定时控制器29是对将高分辨率图像、中分辨率图像、低分辨率图像的梯度方向数据送出到共生矩阵创建部30a、30b、30c的定时进行控制的控制电路。
定时控制器29待机,直到这些各分辨率图像的梯度方向数据集齐到缓冲区28a、28b、28c为止,并在它们集齐后进行输出。
由此,能够使由于分辨率变更而错开的各分辨率图像的输出定时一致。
高分辨率图像的梯度方向数据如图的粗线那样,中分辨率图像的梯度方向数据如图的细线那样,低分辨率图像的梯度方向数据如图的点线那样,各分辨率图像的梯度方向数据分别从不同的布线输出。
这些布线分别与共生矩阵创建部30a、30b、30c连接,由此,将每个分辨率图像的梯度方向数据发送至共生矩阵创建部30a、30b、30c。
而且,定时控制器29为了使共生矩阵创建部30a、30b、30c取得共生的定时一致,而将中分辨率图像和低分辨率图像的梯度方向数据分别向水平(横)方向延长两倍、四倍。
图26是用于对水平方向的数据延长处理进行说明的图。
数据列55、56、57分别表示定时控制器29输出高分辨率图像、中分辨率图像、低分辨率图像的梯度方向数据的定时。
例如,如数据列55所示,定时控制器29针对高分辨率图像的梯度方向数据,从第一个数据依次到第三十个数据各输出一次。
与此相对,针对中分辨率图像的梯度方向数据,如数据列56所示,将第一个数据输出一次,将第二个数据到第十五个数据分别各输出两次,将第十六个数据输出一次,与高分辨率的输出定时一致地进行输出。
另外,针对低像度图像的梯度方向数据,如数据列57所示,将第一个数据输出三次,将从第二个数据到第七个数据各输出四次,将第八个数据输出三次,与高分辨率的输出定时一致地进行输出。
此外,数据列55和数据56的最初和最后的输出次数分别各为两次而不是各四次是为了调整为与数据列55的宽度相同的宽度。
由此,中分辨率图像、低分辨率图像的梯度方向数据向水平方向分别延长两倍、四倍。
返回到图22,共生矩阵创建部30a、30b、30c分别是使用从定时控制器29输出的梯度方向数据来进行基于共生的投票以创建共生矩阵的电路。
共生矩阵创建部30a、30b、30c分别创建将高分辨率图像、中分辨率图像、低分辨率图像的像素作为关注像素的共生矩阵。
直方图创建部31是从由共生矩阵创建部30a、30b、30c输出的共生矩阵创建MRCoHOG特征量的电路。
此外,在对图像处理装置21进行IC芯片化的情况下,也可以构成为直方图创建部31不包含在图像处理装置21中而作为外部的电路,使IC芯片和直方图创建部31连接。
由此,选择从共生矩阵创建部30a、30b、30c输出的共生矩阵等能够进行更灵活的运用,通用性提高。
图27是用于对共生矩阵创建部30a计算共生矩阵的结构进行说明的图。
共生矩阵创建部30a具备按分辨率横跨两行存储从定时控制器29发送来的梯度数据的、高分辨率图像用的两行缓冲区61a、中分辨率图像用的两行缓冲区61b、低分辨率图像用的两行缓冲区61c。
在两行缓冲区61a、61b、61c的右侧分别示出存储到各两行缓冲区61a、61b、61c中的梯度方向数据的配置。
表示梯度方向数据的位置的符号与图20(c)的位置的符号对应(梯度方向不对应)。另外,用粗线的矩形包围与关注像素对应的梯度方向数据,用○包围为了投票而与其组合的对象的像素的梯度方向数据。
如图所示,在两行缓冲区61a、61b、61c中分别配置有2行3列的高分辨率图像、中分辨率图像、低分辨率图像的梯度方向数据。
此外,由于按照图像输入部23输出亮度数据的顺序进行配置,所以两行缓冲区61a、61b、61c中的配置与图20(c)左右相反。
共生矩阵存储部62是通过接受基于共生的投票并使共生矩阵的度数(票数)自加1,从而创建针对关注像素125的共生矩阵的电路。
首先,共生矩阵创建部30a基于关注像素125的梯度方向数据和像素1a~1d的梯度方向数据的组合对共生矩阵存储部62进行投票。
而且,共生矩阵创建部30a基于关注像素125的梯度方向数据和像素2a~2d的梯度方向数据的组合对共生矩阵存储部62进行投票,并基于关注像素125的梯度方向数据和像素3a~3d的梯度方向数据的组合对共生矩阵存储部62进行投票。
若该关注像素125的投票完成,则共生矩阵创建部30a输出至直方图创建部31,将共生矩阵复位为投票数0,并使两行缓冲区61a、61b、61c中存储的梯度方向数据的列前进一个。
由此,共生矩阵创建部30a将与像素1a对应的梯度方向数据配置于关注像素125的位置,并对共生矩阵存储部62进行使用了该数据的投票。
共生矩阵创建部30a通过反复以上的动作,使针对高分辨率图像的各像素的共生矩阵在共生矩阵存储部62中完成并输出到直方图创建部31。
在直方图创建部31连结基于输出的共生矩阵的直方图,成为将高分辨率图像的像素作为关注像素的情况下的MRCoHOG特征量。
返回到图22,共生矩阵创建部30b、30c也与共生矩阵创建部30a同样地,分别输出将中分辨率图像的像素作为关注像素的情况下的共生矩阵、和将低分辨率图像的像素作为关注像素的情况下的共生矩阵。
由此,获得将中分辨率图像的像素作为关注像素的情况下的MRCoHOG特征量、和将低分辨率图像的像素作为关注像素的情况下的MRCoHOG特征量,直方图创建部31使高中低图像这三个MRCoHOG特征量连结,完成MRCoHOG特征量。
图像处理装置21如以上那样构成,各电路与时钟同步地同时进行动作,在流程作业中依次进行处理。
这样能够实时对从摄像机输出的图像进行处理。
这样,共生矩阵创建部30a、30b、30c作为通过依次组合依次输出的每个分辨率的梯度方向来创建基于不同的分辨率间的梯度方向的共生的共生矩阵的共生矩阵创建单元、和将输出该创建的共生矩阵作为该图像的图像特征量的共生矩阵输出单元发挥作用。
另外,由于共生矩阵创建部30a、30b、30c按照梯度方向数据被输出的顺序将它们配置于两行缓冲区61a、61b、61c,来确定取得共生的组合,所以基于从梯度方向输出单元依次输出的梯度方向的每个分辨率的输出顺序,依次确定关注像素的梯度方向、和与该关注像素组合的像素的梯度方向,并基于该确定出的梯度方向的组合依次对共生矩阵进行投票,从而创建共生矩阵。
另外,两行缓冲区61a、61b、61c作为确定成为共生对象的梯度方向数据的排列发挥作用,所以共生矩阵创建部30a、30b、30c通过基于每个分辨率输出顺序将梯度方向按分辨率配置于关注像素和与该关注像素组合的像素的位置被建立对应并且按分辨率所设置(分开)的排列,从而确定作为共生对象而组合的梯度方向。
而且,该排列由针对各个分辨率在垂直方向上相邻的两个像素行所对应的六个排列构成,(两个高分辨率图像用的缓冲区,两个中分辨率图像用的缓冲区,两个低分辨率图像用的缓冲区共六个),共生矩阵创建部30a、30b、30c分别将各个分辨率的两个像素行的梯度方向配置于分别对应的两个排列,并根据配置有该梯度方向的位置来确定组合的梯度方向。
图28是用于对图像处理装置21进行的图像处理顺序进行说明的流程图。
首先,图像输入部23输出图像40的亮度数据,中分辨率部24b和低分辨率部24c输出将分辨率转换为中分辨率、低分辨率的亮度数据(步骤5)。
另外,三行缓冲区25a、25b、25c分别将高分辨率图像、中分辨率图像、低分辨率图像的亮度数据缓存三行(步骤10)。
另外,梯度方向计算部26a、26b、26c分别计算高分辨率图像、中分辨率图像、低分辨率图像的像素的梯度方向,并输出梯度方向数据(步骤15)。
此外,并行地同时进行步骤5、10、15的各处理。
接下来,纵向两倍部27b、纵向四倍部27c分别将中分辨率图像和低分辨率图像的梯度方向数据在垂直方向上延长两倍、四倍(步骤20)。
高分辨率图像的梯度方向数据、垂直地延伸成两倍的中分辨率图像的梯度方向数据以及垂直地延伸成四倍的低分辨率图像的梯度方向数据分别被缓存至缓冲区28a、28b、28c。
接下来,定时控制器29使定时一致地输出各分辨率的梯度方向数据。
定时控制器29此时使中分辨率图像和低分辨率图像的梯度方向数据在水平方向上延长两倍、四倍并输出(步骤25)。
共生矩阵创建部30a、30b、30c使用从定时控制器29输出的各分辨率的梯度方向数据来计算共生矩阵的要素,并创建共生矩阵(步骤30)。
而且,直方图创建部31根据所创建的共生矩阵来创建直方图,并输出该直方图作为MRCoHOG特征量(步骤35)。
以上,单独对各电路的动作进行了说明,但各电路与时钟同步地一起进行动作,依次(逐次)处理从左侧流通来的数据并同时进行向右侧流通的流程作业。
图29是示出使用图像处理装置21来构成半导体装置的例子的图。
半导体装置71例如由IC芯片构成,内部形成有处理器、RAM、MRCoHOG加速器72、仿射加速器、直方图加速器、视频输入接口73、视频输出接口74、输入输出接口75等。
MRCoHOG加速器72嵌入有图像处理装置21的电路结构,根据图像生成共生矩阵并输出。或者,也可以构成为提取MRCoHOG特征量直到创建直方图为止。
半导体装置71能够从视频输入接口73接受视频数据的输入,通过MRCoHOG加速器72等提取各帧图像的MRCoHOG特征量,并由处理器使用该特征量来进行对象的图像识别。
或者,也可以从视频输出接口74输出视频数据,并且从输入输出接口75输出MRCoHOG特征量,由外部设备进行对象的图像识别。
附图标记的说明
1a~4l像素;11、12分类;21图像处理装置;23图像输入部;24b中分辨率部;24c低分辨率部;25a、25b、25c三行缓冲区;26a、26b、26c梯度方向计算部;27b纵向两倍部;27c纵向四倍部;28a、28b、28c缓冲区;29定时控制器;30a、30b、30c共生矩阵创建部;31直方图创建部;40图像;51、52、53数据;55、56、57数据列;61a、61b、61c两行缓冲区;62共生矩阵存储部;71半导体装置;72MRCoHOG加速器;73视频输入接口;74视频输出接口;75输入输出接口;80计算机;81CPU;82ROM;83RAM;84相机;85存储装置;86视频采集板;87输入装置;88输出装置;101图像;102单元;106直方图;107HOG特征量;109a、109b、109c矢量;110关注像素;113共生矩阵;117CoHOG特征量;120高分辨率图像;121中分辨率图像;122低分辨率图像;125关注像素;127MRCoHOG特征量;200图像识别装置;201辨别装置;210BNN;211输入单元;213中间单元;215输出单元;220、221部分;225、226式;230选择部;231辨别部;233选择前特征量;234选择后特征量;240复制部;243复制前特征量;244复制后特征量。

Claims (8)

1.一种信息处理装置,其特征在于,具备:
特征量获取单元,获取辨别对象数据的特征量;
选择单元,从上述特征量获取单元获取到的特征量选择用于辨别的预先指定的部分的特征量;
辨别单元,使用多值化的加权来学习辨别对象;
输入单元,将上述选择单元选择的部分的特征量输入至上述辨别单元;以及
输出单元,输出上述辨别单元使用上述输入单元输入的部分的特征量所辨别出的辨别结果。
2.根据权利要求1所述的信息处理装置,其特征在于,
上述辨别单元通过二值化的加权进行上述辨别对象的学习。
3.根据权利要求1或者2所述的信息处理装置,其特征在于,
上述选择单元从上述特征量获取单元获取到的特征量选择通过RAdB等辨别算法预先指定的部分的特征量。
4.根据权利要求3所述的信息处理装置,其特征在于,
上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、上述辨别单元的辨别精度变高的部分的特征量。
5.根据权利要求3所述的信息处理装置,其特征在于,
上述特征量获取单元获取基于特征量提取单元从作为辨别对象数据的图像数据提取出的亮度梯度的共生分布的特征量,
上述选择单元从上述特征量获取单元获取到的特征量选择通过上述辨别算法预先指定的、简化了上述特征量提取单元的提取处理或者提取电路结构的部分的特征量。
6.根据权利要求1~5中的任意一项所述的信息处理装置,其特征在于,
上述辨别单元是二进制神经网络。
7.根据权利要求6所述的信息处理装置,其特征在于,
上述二进制神经网络使用对上述部分的特征量进行二值化并相加的加法器、和对上述加法器的输出进行计数的计数器而构成。
8.根据权利要求1~6中的任意一项所述的信息处理装置,其特征在于,
具备复制单元,该复制单元对上述选择单元选择的部分的特征量进行复制,
上述输入单元将上述选择单元选择的部分的特征量和上述复制单元复制的部分的特征量输入至上述辨别单元。
CN201880062230.7A 2017-09-26 2018-09-26 信息处理装置 Active CN111164604B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-185476 2017-09-26
JP2017185476A JP6967201B2 (ja) 2017-09-26 2017-09-26 情報処理装置
PCT/JP2018/035607 WO2019065702A1 (ja) 2017-09-26 2018-09-26 情報処理装置

Publications (2)

Publication Number Publication Date
CN111164604A true CN111164604A (zh) 2020-05-15
CN111164604B CN111164604B (zh) 2024-03-22

Family

ID=65903664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880062230.7A Active CN111164604B (zh) 2017-09-26 2018-09-26 信息处理装置

Country Status (5)

Country Link
US (1) US11481919B2 (zh)
EP (1) EP3690803A4 (zh)
JP (1) JP6967201B2 (zh)
CN (1) CN111164604B (zh)
WO (1) WO2019065702A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143807A (zh) * 2021-10-27 2022-03-04 中盈优创资讯科技有限公司 一种路由注册完整率评价方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11812131B2 (en) * 2019-01-17 2023-11-07 Nec Corporation Determination of appropriate image suitable for feature extraction of object from among captured images in which object is detected
CN113752983B (zh) * 2021-09-17 2022-11-22 阳光暖果(北京)科技发展有限公司 一种基于人脸识别/人眼识别的车辆解锁控制系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5661822A (en) * 1993-03-30 1997-08-26 Klics, Ltd. Data compression and decompression
US20120051638A1 (en) * 2010-03-19 2012-03-01 Panasonic Corporation Feature-amount calculation apparatus, feature-amount calculation method, and program
CN102918831A (zh) * 2010-06-18 2013-02-06 松下电器产业株式会社 分辨率判断装置、图像处理装置及图像显示装置
US20130120407A1 (en) * 2008-10-14 2013-05-16 Chintan Intwala Seam-Based Reduction and Expansion of Images Using Partial Solution Matrix Dependent on Dynamic Programming Access Pattern
US20160098606A1 (en) * 2013-07-03 2016-04-07 Clarion Co., Ltd. Approaching-Object Detection System and Vehicle
US20160155049A1 (en) * 2014-11-27 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
CN106611216A (zh) * 2016-12-29 2017-05-03 北京旷视科技有限公司 基于神经网络的计算方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039469A1 (en) * 2015-08-04 2017-02-09 Qualcomm Incorporated Detection of unknown classes and initialization of classifiers for unknown classes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5661822A (en) * 1993-03-30 1997-08-26 Klics, Ltd. Data compression and decompression
US20130120407A1 (en) * 2008-10-14 2013-05-16 Chintan Intwala Seam-Based Reduction and Expansion of Images Using Partial Solution Matrix Dependent on Dynamic Programming Access Pattern
US20120051638A1 (en) * 2010-03-19 2012-03-01 Panasonic Corporation Feature-amount calculation apparatus, feature-amount calculation method, and program
CN102918831A (zh) * 2010-06-18 2013-02-06 松下电器产业株式会社 分辨率判断装置、图像处理装置及图像显示装置
US20160098606A1 (en) * 2013-07-03 2016-04-07 Clarion Co., Ltd. Approaching-Object Detection System and Vehicle
US20160155049A1 (en) * 2014-11-27 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
CN106611216A (zh) * 2016-12-29 2017-05-03 北京旷视科技有限公司 基于神经网络的计算方法及装置

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
"Binarized neuralnetworks;training neural networks with weights and activations constrained to+1 or -1", 《HTTP:S//ARXIV.ORG/ABS/1602.830》 *
ALI GHULAM ET.AL: "Boosted NNE collections for multicultural facial expression recognition", 《PATTERN RECOGNITION, ELSEVIER》 *
AOKI DAISUKE ET.AL: "Human tracking method based on improved HOG+Real AdaBoost", 《2015 10TH ASIAN CONTROL CONFERENCE (ASCC), IEEE》, pages 1 - 6 *
G ALI, AM LQBAL ET.AL: "Boosted NNE collections for multicultural facial expression recognition", 《PATTERN RECOGNITION》, vol. 55, pages 14 - 27, XP029468163, DOI: 10.1016/j.patcog.2016.01.032 *
KUNG ET.AL: "efficient object detection using embedded binarized neural networks", 《JOURNAL OF SIGNAL PRCESING SYSTEMS》 *
MATTHIEU COURBARIAUX: "Partially_Parallel_Architecture for_AdaBoost-Based_Detection With Haar-Like Features", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
MATTHIEU COURBARIAUX: "Partially_Parallel_Architecture for_AdaBoost-Based_Detection With Haar-Like Features", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 19, no. 1, 31 January 2009 (2009-01-31), pages 42 *
MOHAMMAD RASTEGARI ET AL: "XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks", 《ADVANCES IN CRYPTOLOGY-CRYPTO》 *
SHUN-ICHI KAMEMARU ET AL: "Fabrication of a Biological Visual Perception System Using a Microlens Array in a Hybrid Pattern Recognition System", 《JAPANESE JOURNAL OF APPLIED PHYSICS》 *
SHUN-ICHI KAMEMARU ET AL: "Fabrication of a Biological Visual Perception System Using a Microlens Array in a Hybrid Pattern Recognition System", 《JAPANESE JOURNAL OF APPLIED PHYSICS》, vol. 31, 31 May 1992 (1992-05-31), pages 1983 *
TOMOKI WATANABE: "Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection", 《ADVANCES IN IMAGE AND VIDEO TECHNOLOGY》 *
TOMOKI WATANABE: "Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection", 《ADVANCES IN IMAGE AND VIDEO TECHNOLOGY》, 31 December 2009 (2009-12-31), pages 38 *
YU AKEDO: "A Learning Algorithm of Binary Neural Networks Based on Real-Coded GA", 《2008 INTERNATIONAL SYMPOSIUM ON NONLINEAR THEORY AND ITS APPLICATIONS》 *
YU AKEDO: "A Learning Algorithm of Binary Neural Networks Based on Real-Coded GA", 《2008 INTERNATIONAL SYMPOSIUM ON NONLINEAR THEORY AND ITS APPLICATIONS》, 7 September 2008 (2008-09-07), pages 700 - 702 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114143807A (zh) * 2021-10-27 2022-03-04 中盈优创资讯科技有限公司 一种路由注册完整率评价方法及装置
CN114143807B (zh) * 2021-10-27 2023-08-08 中盈优创资讯科技有限公司 一种路由注册完整率评价方法及装置

Also Published As

Publication number Publication date
EP3690803A4 (en) 2021-06-16
US11481919B2 (en) 2022-10-25
EP3690803A1 (en) 2020-08-05
JP6967201B2 (ja) 2021-11-17
US20200286254A1 (en) 2020-09-10
CN111164604B (zh) 2024-03-22
JP2019061495A (ja) 2019-04-18
WO2019065702A1 (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
CN111133471A (zh) 信息处理装置
CN108292367B (zh) 图像处理装置、半导体装置、图像识别装置、移动体装置以及图像处理方法
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
JP2018151748A (ja) 画像処理装置、画像処理方法、テンプレート作成装置、物体認識処理装置及びプログラム
CN111164604B (zh) 信息处理装置
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN116258953A (zh) 一种遥感影像目标检测方法
WO2018143277A1 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
Mai et al. Vietnam license plate recognition system based on edge detection and neural networks
CN112001448A (zh) 一种形状规则小物体检测方法
Sharma et al. Feature-level fusion for object segmentation using mutual information
JP6448204B2 (ja) 物体検出装置、物体検出方法及びプログラム
CN110348464A (zh) 一种基于多支持区域局部亮度序的图像伪造检测算法
CN113554036A (zh) 一种改进orb算法的特征点提取与匹配方法
CN114387489A (zh) 电力设备识别方法、装置和终端设备
CN109614841B (zh) 嵌入式系统中的快速人脸检测方法
JP6276504B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
CN113646802A (zh) 图像识别装置和图像识别程序
CN117893413B (zh) 基于图像增强的车载终端人机交互方法
JP2001243479A (ja) 画像処理方法および装置、ならびに画像処理プログラムを記録した記録媒体
CN116246064A (zh) 一种多尺度空间特征增强方法及装置
CN117315720A (zh) 一种基于多特征联合渐进学习的跨模态行人重识别方法
Lahdenoja et al. Regional image correspondence matching method for SIMD processing
CN112800924A (zh) 人脸特征提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Kariya City, Aichi Prefecture, Japan

Applicant after: AISIN Co.,Ltd.

Applicant after: KYUSHU INSTITUTE OF TECHNOLOGY

Address before: Kariya City, Aichi Prefecture, Japan

Applicant before: AISIN SEIKI Kabushiki Kaisha

Applicant before: KYUSHU INSTITUTE OF TECHNOLOGY

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220328

Address after: Kariya City, Aichi Prefecture, Japan

Applicant after: AISIN SEIKI Kabushiki Kaisha

Applicant after: KYUSHU INSTITUTE OF TECHNOLOGY

Address before: Tokyo, Japan

Applicant before: EQUOS RESEARCH Co.,Ltd.

Applicant before: KYUSHU INSTITUTE OF TECHNOLOGY

GR01 Patent grant
GR01 Patent grant