图像特征量输出装置、图像识别装置、图像特征量输出程序以
及图像识别程序
技术领域
本发明涉及图像特征量输出装置、图像识别装置、图像特征量输出程序以及图像识别程序,例如,涉及从图像获取识别对象的特征量的技术。
背景技术
有通过利用图像识别技术从图像中作为图像特征量提取亮度的梯度方向的分布,并将其与预先学习的图像的亮度的梯度方向的分布进行比较来识别对象的技术。
作为亮度的梯度方向的分布的图像特征量,HOG(Histograms of OrientedGradients:定向梯度直方图)特征量很有名。
图10是用于对HOG特征量的概念进行说明的图。
通过以下的过程从图像中提取HOG特征量。
图10(a)左图所示的图像101为通过观测对象的观测窗等提取出的观测区域。
首先,将图像101分割为矩形的单元102a、102b、…。
接下来,如图10(a)右图所示,对每个单元102将各像素(pixel)的亮度的梯度方向(从低亮度向高亮度的方向)例如量化为8个方向。此外,也可以在分割为上述的矩形的单元之前进行该量化。
接下来,如图10(b)所示,通过将量化后的亮度的梯度方向设为区间(等级),并将出现次数设为频率的直方图,为每个单元102创建单元102所包含的亮度的梯度方向的直方图106。
而且,以汇集了几个单元102的块为单位归一化为直方图106的合计频率成为1。
在图10(a)左图的例子中,由单元102a、102b、102c、102d形成1个块。
将像这样归一化而成的直方图106a、106b、…如图10(c)那样排成一列的直方图为图像101的HOG特征量107。
在使用HOG特征量的图像识别装置中,通过对成为基准的图像的HOG特征量和成为识别对象的图像的HOG特征量进行比较,并判定两者的相似性来进行图像识别。
作为使用这样的HOG特征量的技术,具有专利文献1的“人物检测装置”。该技术利用HOG特征量来检测由监控照相机拍摄的人物。
但是,例如,利用车载照相机识别行走中的人物并跟踪的情况下等,需要更稳健的图像识别方式。
专利文献1:日本特开2015-184944号公报
发明内容
本发明的目的在于提供一种更稳健的图像识别方式。
(1)在技术方案1所记载的发明中,提供一种图像特征量输出装置,其特征在于,具备:图像输入单元,输入图像;分辨率转换单元,对上述输入的图像的分辨率进行转换;梯度方向获取单元,获取上述输入的图像和转换了上述分辨率的图像所包含的像素的亮度的梯度方向;像素组合获取单元,从上述输入的图像和转换了上述分辨率的图像所包含的像素中获取2个像素的组合;共生获取单元,使用上述获取到的各像素的亮度的梯度方向,获取针对上述获取到的组合所涉及的2个像素的由上述梯度方向获取单元获取到的亮度的梯度方向的共生;出现频度获取单元,一边使由上述像素组合获取单元获取的像素的组合变化,一边获取由上述共生获取单元获取到的共生的出现频度的分布;以及输出单元,不包含针对上述获取到的亮度的梯度方向的出现频度的分布,输出由上述出现频度获取单元获取到的共生的出现频度的分布来作为上述图像的特征量。
(2)在技术方案2所记载的发明中,提供一种图像特征量输出装置,其特征在于,具备:图像输入单元,输入图像;分辨率转换单元,对上述输入的图像的分辨率进行转换;像素组合获取单元,从上述输入的图像和转换了上述分辨率的图像所包含的像素中获取2个像素的组合;共生获取单元,获取上述获取到的组合所涉及的2个像素的亮度的梯度方向的共生;出现频度获取单元,一边使上述获取的像素的组合变化,一边获取上述获取的共生的出现频度的分布;以及输出单元,输出上述获取的共生的出现频度的分布作为上述图像的特征量。
(3)在技术方案3所记载的发明中,提供一种技术方案1或者技术方案2所记载的图像特征量输出装置,其特征在于,上述像素组合获取单元至少遍及上述图像的整体获取邻接的像素的组合。
(4)在技术方案4所记载的发明中,提供一种技术方案1、技术方案2或者技术方案3所记载的图像特征量输出装置,其特征在于,上述像素组合获取单元获取不同的分辨率的像素的组合。
(5)在技术方案5所记载的发明中,提供一种技术方案1、技术方案2、或者技术方案3所记载的图像特征量输出装置,其特征在于,上述像素组合获取单元对每个分辨率获取相同的分辨率的像素的组合。
(6)在技术方案6所记载的发明中,提供一种图像识别装置,其特征在于,具备:基准特征量获取单元,获取以亮度的梯度方向的共生的出现频度的分布表示的识别对象的特征量的基准特征量;对象图像获取单元,获取作为判断对象的对象图像;对象图像特征量获取单元,将上述获取到的对象图像输入至技术方案1或者技术方案2所述的图像特征量输出装置的图像输入单元并获取该对象图像的特征量;判断单元,通过对上述获取到的基准特征量与上述获取到的对象图像的特征量进行比较判断上述对象图像是否包含有识别对象的图像;以及结果输出单元,输出上述判断的结果。
(7)在技术方案7所记载的发明中,提供一种图像特征量输出程序,其特征在于,使计算机实现如下功能:图像输入功能,输入图像;分辨率转换功能,对上述输入的图像的分辨率进行转换;梯度方向获取功能,获取上述输入的图像和转换了上述分辨率的图像所包含的像素的亮度的梯度方向;像素组合获取功能,从上述输入的图像和转换了上述分辨率的图像所包含的像素中获取2个像素的组合;共生获取功能,使用上述获取到的各像素的亮度的梯度方向,获取针对上述获取到的组合所涉及的2个像素的通过上述梯度方向获取功能获取的亮度的梯度方向的共生;出现频度获取功能,一边使通过上述像素组合获取功能获取的像素的组合变化,一边获取通过上述共生获取功能获取的共生的出现频度的分布;以及输出功能,不包含针对上述获取到的亮度的梯度方向的出现频度的分布,输出通过上述出现频度获取功能获取的共生的出现频度的分布来作为上述图像的特征量。
(8)在技术方案8所记载的发明中,提供一种图像识别程序,由计算机实现如下功能:基准特征量获取功能,获取以亮度的梯度方向的共生的出现频度的分布表示识别对象的特征量的基准特征量;对象图像获取功能,获取作为判断对象的对象图像;对象图像特征量获取功能,将上述获取到的对象图像输入至技术方案1或技术方案2所述的图像特征量输出装置的图像输入单元、或者技术方案7所述的图像特征量输出程序的图像输入功能获取该对象图像的特征量;判断功能,通过对上述获取到的基准特征量与上述获取到的对象图像的特征量进行比较判断上述对象图像是否包含有识别对象的图像;以及结果输出功能,输出上述判断的结果。
根据本发明,通过亮度的梯度方向的共生获取特征量,从而能够提供更稳健的图像识别方式。
附图说明
图1是用于对实施方式的图像处理进行说明的图。
图2是用于对图像处理装置进行的图像识别处理进行说明的图。
图3是表示图像处理装置的硬件结构的一个例子的图。
图4是表示对使用共生特征量的图像识别能力进行验证的实验数据的图。
图5是用于对特征量提取处理的过程进行说明的流程图。
图6是用于对图像识别处理的过程进行说明的流程图。
图7是用于对第一变形例进行说明的图。
图8是用于对第二变形例进行说明的图。
图9是用于对第三变形例进行说明的图。
图10是用于对现有例进行说明的图。
具体实施方式
(1)实施方式的概要
在本实施方式的图像处理装置8(图1)中,基于关注像素5与其周边像素的亮度的梯度方向的共生关系来创建共生矩阵15,并将其作为识别对象图像的特征量。该特征量将各关注像素5本来所具备的特征(亮度的梯度方向)的信息,作为与和该关注像素5邻接的像素1a~1d的共生关系中所包含的信息来使用。
具体而言,图像处理装置8将作为图像识别的对象的图像转换为高分辨率图像11、中分辨率图像12、以及低分辨率图像13。关于高分辨率图像11也能够不对原始的图像进行转换而保持原样使用。
图像处理装置8设定高分辨率图像11的关注像素5,并在共生矩阵15中对在高分辨率图像11内与和关注像素5邻接的像素1a~1d的(亮度的)梯度方向的共生、关注像素5与在中分辨率图像12中处于其周围的像素2a~2d的梯度方向的共生、以及关注像素5与在进一步低分辨率图像13中处于其周围的像素3a~3d的梯度方向的共生进行投票(计数)。
图像处理装置8对每个像素的组合以及每个分辨率创建这样的共生矩阵15。
图像处理装置8对高分辨率图像11的各个像素进行上述的处理,其结果创建将完成的多个共生矩阵15的要素排成一列的共生直方图。
进一步,图像处理装置8对共生直方图进行归一化,并提取以由此的频率为成分的矢量来作为该图像的特征量。
图像处理装置8通过图像处理利用上述方法学习识别对象(例如,行人)的各种图像的多个,并提取作为识别对象的基准的基准特征量。
而且,图像处理装置8对作为图像识别的对象的图像通过上述处理提取特征量,并根据该特征量与基准特征量的相似性,判定该图像上是否映有识别对象。
综上所述,图像处理装置8由于根据亮度的梯度方向的共生,将像素彼此的梯度方向的组合作为特征量,所以与将单独的像素的梯度方向的分布作为特征量的HOG特征量相比能够稳健地识别对象。
(2)实施方式的详细内容
图1是用于对本实施方式的图像处理进行说明的图。
本实施方式的图像处理装置8是兼具作为从图像中提取特征量的图像特征量输出装置的功能、以及作为使用该特征量来进行图像识别处理的图像识别装置的功能的装置,通过查看遍及相同的图像的不同的分辨率间的共生而从图像中提取特征量。
如图1(a)所示,图像处理装置8受理作为图像处理的对象的原始图像2的输入,并将其划分为多个相同的矩形形状的块区域3A、3B、…。
像这样,图像处理装置8具备输入图像的图像输入单元。
在图中,为了容易图示划分为4×4,但标准的值例如为4×8。
此外,在不对块区域3A、3B、…进行特别区分的情况下,仅记作块区域3。
图像处理装置8将原始图像2划分为块区域3,并且对原始图像2的分辨率进行转换,并如图1(b)所示生成分辨率(图像尺寸)不同的高分辨率图像11、中分辨率图像12、低分辨率图像13。在原始图像2的分辨率适当的情况下,将原始图像2保持原样用作高分辨率图像11。
像这样,图像处理装置8具备对图像的分辨率进行转换的分辨率转换单元。
在图中,示出了块区域3A的部分的高分辨率图像11、中分辨率图像12、低分辨率图像13,方格表示像素的例子。
而且,图像处理装置8对高分辨率图像11、中分辨率图像12、低分辨率图像13的每一个像素计算在每隔45度的8个方向上量化的亮度的梯度方向(从低亮度向高亮度的方向)。
此外,以下,将亮度的梯度方向仅记作梯度方向。另外,在8个方向上进行量化是一个例子,量化的方向数也可以是其它数m(例如,m=16、32等)。
图像处理装置8若像这样计算梯度方向,则如下获取作为基准的像素(以下,称为关注像素)与处于与此远离的位置的像素(以下,称为偏移像素)的梯度方向的共生。
首先,图像处理装置8如图1(c)所示,在高分辨率图像11设定关注像素5,并着眼于在高分辨率图像11中位于距关注像素5偏移距离1(即,在高分辨率邻接)的偏移像素1a~1d。
此外,将n个像素的量的距离称为偏移距离n。
而且,图像处理装置8获取关注像素5与偏移像素1a~偏移像素3d的各梯度方向的共生(梯度方向的组合),并在图1(d)所示的共生矩阵15中进行投票。
图1(d)概念性地表示共生矩阵。如图1(d)所示,共生矩阵15由针对关注像素5与偏移图像1a的共生矩阵15(1a)~针对关注像素5与偏移像素3d的共生矩阵15(3d)构成的12个共生矩阵15构成。
此外,对在图1(a)中划分出的块区域3A、3B、…的每一个创建图1(d)所示的12个共生矩阵15(1a)~15(3d)。
以下,当提到多个共生矩阵整体的情况下将共生矩阵称为15。
例如,在图1(c)中,若观察关注像素5与偏移像素1a的共生关系,则关注像素5的梯度方向朝右,偏移像素1a的梯度方向朝左。因此,图像处理装置8针对偏移像素1a用的共生矩阵15(1a),对梯度方向朝右的列与梯度方向朝左的行交叉的要素投1票。
而且,图像处理装置8在高分辨率图像11内,使关注像素5依次移动,并且获取关注像素5与偏移像素1a的共生并在共生矩阵15(1a)中进行投票。
像这样共生矩阵15表示在图像中具有某个特定的偏移(距关注像素5的相对位置)的2个梯度方向对具有什么样的出现频度。
此外,在图1(c)中,对面向附图关注像素5的右侧的像素观察共生是因为首先,使关注像素5面向附图从左上端的像素依次移动至右方的像素,若达到右端,则由于在下1级设定有从左端的像素向右方移动的移动路径,所以不会获取伴随着关注像素5的移动而重复的共生的组合。
另外,关注像素5的移动在块区域3A内(相同的块区域内)进行,但也可以在超过块区域3A的情况下进行偏移像素的选择。
在原始图像2的端部,无法计算梯度方向,但对此以适当的任意的方法进行处理。
接下来,图像处理装置8获取关注像素5与偏移像素1b(参照图1(c))的梯度方向的共生,并在共生矩阵15(1b)中进行投票(总结相同梯度方向的共生数)。
此外,图像处理装置8准备与之前在关注像素5与偏移像素1a中使用的共生矩阵15不同的新的共生矩阵15(1b),并对此进行投票。像这样,图像处理装置8对关注像素5与偏移像素的相对的位置关系的每个组合生成共生矩阵15。
然后,在高分辨率图像11内使关注像素5依次移动,并且获取关注像素5与偏移像素1b的共生并在该共生矩阵15(1b)中进行投票。
以下同样地图像处理装置8对于关注像素5与偏移像素1c的组合、以及关注像素5与偏移像素1d的组合,也分别准备各自的共生矩阵15(1c)、15(1d)并对梯度方向的共生进行投票。
像这样,图像处理装置8若生成有关关注像素5与距关注像素5偏移距离1的偏移像素1a~1d的4个共生矩阵15,则接下来着眼于高分辨率图像11中的关注像素5和处于偏移距离2的中分辨率图像12的偏移像素2a~2d。
然后,通过与上述的方法相同的方法,创建关注像素5与偏移像素2a的组合的共生矩阵15(2a)、同样与偏移像素2b、2c、2d的组合的共生矩阵15(2b)、15(2c)、…。
而且,图像处理装置8对于高分辨率图像11中的关注像素5与处于偏移距离3的低分辨率图像13的偏移像素3a~3d,也同样生成关注像素5与偏移像素3a~3d的相对的位置关系的每个组合的共生矩阵15(3a)、15(3b)、…。
图像处理装置8对块区域3B、3C、…也进行以上的处理,生成提取出原始图像2的特征的多个共生矩阵15。
像这样,图像处理装置8对块区域3A、3B、3C…的每一个,生成多个共生矩阵15(1a)~15(3d)。
像这样图像处理装置8具备:像素组合获取单元,从所输入的图像和转换分辨率后的图像所包含的像素中获取2个像素的组合;以及共生获取单元,获取该组合所涉及的2个像素的亮度的梯度方向的共生。
而且,该像素组合获取单元具备出现频度获取单元,该出现频度获取单元至少遍及图像的整体获取邻接的像素的组合,并一边使该像素的组合变化,一边获取梯度方向的共生的出现频度的分布。
进一步,像素组合获取单元将转换分辨率后的像素作为组合的对象,并获取不同的分辨率的像素的组合。
图像处理装置8若像这样根据原始图像2生成多个共生矩阵15,则将这些成分如图1(e)所示排成一列形成共生直方图18。
共生直方图18通过梯度方向的共生包含有原始图像2的特征量,图像处理装置8对其进行归一化,以使直方图的频率的合计频率成为1。
而且,图像处理装置8输出以归一化后的共生直方图18的频率为成分的矢量来作为原始图像2的共生特征量。
共生特征量表示梯度方向的共生的出现频度,像这样图像处理装置8具备作为图像的特征量输出共生的出现频度的分布的输出单元。
作为一个例子,若块数为4×8、中分辨率图像12的分辨率为高分辨率图像11的1/2、低分辨率图像13的分辨率为高分辨率图像11的1/4,则特征量根据高分辨率图像11内的共生为(8×8×4)×4×8=8192个、根据高分辨率图像11与中分辨率图像12的共生为(8×8×4)×2×4=2048个、根据高分辨率图像11与低分辨率图像13的共生为(8×8×4)×1×2=512个,合计为10752个。
在这里(8×8×4)为共生矩阵15的要素数亦即8×8乘以与关注像素5组合的偏移像素数4。
而且,4×8、2×4、1×2分别为高分辨率图像11、中分辨率图像12、低分辨率图像13的块数。
像这样,输出单元仅输出梯度方向的共生的分布,例如,不包含由现有例的HOG特征量规定的像素的亮度的梯度方向的分布的特征量。
以上的说明是用于对提取共生特征量的方法的概念进行说明的内容,图像处理装置8能够构成为以获取处于关注像素5的周围的偏移像素的梯度方向的共生的课程,依次动态地生成这些分辨率的像素。
该过程适合于通过与输入并行地对输入的原始图像2的图像数据进行处理并输出共生特征量的专用硬件来实现。
而且,由于若图像处理装置8安装该硬件则能够高速地提取共生特征量,所以例如,也能够从由车载照相机输出的视频帧的共生特征量中实时地检测行人。
图2是用于对由图像处理装置8进行的图像识别处理进行说明的图。
图像处理装置8如以上那样具有从原始图像2提取共生特征量的特征量提取功能,接下来,对使用该功能的图像识别功能进行说明。
首先,图像处理装置8通过上述方法对大量以各种方式映有识别对象(以下,作为一个例子为行人)的图像进行处理,并学习映有行人的图像的共生特征量。将该学习到的特征量称为基准特征量。
此外,学习例如通过以对最初的原始图像2进行投票而完成的共生矩阵15、15、…,重叠下一个原始图像2的共生进行投票的方式,叠加投票而生成。
在基准特征量中,包含有基于图像上所映的行人所特有的梯度方向的特征,成为面向共生特征量空间亦即方向的单位矢量。将其作为基准特征量矢量(基准特征量)19。
在图中,为了简单,二维地表示共生特征量空间,但在有n个共生直方图18的区间的情况下,为n维。在之前说明的例子中,为10752维。
图像处理装置8在像这样预先学习行人的图像并准备基准特征量之后,获取图像识别的对象亦即识别对象图像,并从该识别对象图像中提取共生特征量。
这也成为共生特征量空间中的单位矢量,并将其作为共生特征量矢量20、21、22。
像这样图像处理装置8具备基准特征量获取单元,该基准特征量获取单元获取以亮度梯度的共生的出现频度的分布表示识别对象的特征量的基准特征量。
在学习的图像与识别对象图像相似的情况下,即,识别对象图像中包含有行人的情况下,共生特征量矢量如共生特征量矢量20那样朝向接近基准特征量矢量19的方向。
另一方面,在识别对象图像中未包含行人的情况下,该识别对象图像的共生特征量矢量如共生特征量矢量21、22那样,朝向与基准特征量矢量19不同的方向。
因此,能够根据基准特征量矢量19与从识别对象图像中提取出的共生特征量矢量的内积,将学习的图像与识别对象图像的相似度数值化,两者越相似成为越接近1的值。
而且,图像处理装置8例如在该内积大于规定的阈值的情况下,判定为识别对象图像中映有行人,并输出该判断结果。
像这样,图像处理装置8具备通过对识别对象图像的特征量和基准特征量进行比较,来判断学习的图像与识别对象的相似性并输出的判断单元。
图3是表示图像处理装置8的硬件结构的一个例子的图。
图像处理装置8例如由个人计算机构成。
这是一个例子,也能够构成为利用半导体装置形成共生特征量提取用的专用的硬件,并将其安装于车载照相机。
图像处理装置8利用母线连接CPU81、ROM82、RAM83、存储装置85、存储介质驱动装置85、输入部86、以及输出部87等而构成。
CPU81是中央处理装置,根据存储装置85所存储的图像识别程序而动作,并进行从上述的图像的特征量提取处理、使用提取出的共生特征量的图像识别处理等。
ROM82是读出专用的存储器,存储有用于使CPU81动作的基本的程序、参数。
RAM83是能够读写的存储器,提供CPU81进行特征量提取处理、图像识别处理时的工作存储器。
存储装置84使用硬盘等大容量的存储介质而构成,存储有图像识别程序、学习用图像、以及识别对象图像的图像数据等。
图像识别程序是使CPU81发挥特征量提取处理功能、图像识别处理功能的程序。
存储介质驱动装置85例如是驱动半导体存储装置、硬盘等外置的存储介质的装置。
由此,能够读入学习用图像、识别对象图像。
输入部86具备受理来自操作负责人的输入的键盘、鼠标等输入设备,受理各种程序、数据的读入、来自操作负责人的操作。
输出部87具备对操作负责人提示各种信息的显示器、打印机等输出设备,输出图像识别程序的操作画面、以及特征量提取处理、图像识别处理的结果。
除此以外,图像处理装置8具备与通信网络连接的通信控制部、用于与外部设备连接的接口等。
也能够从与通信网络、接口连接的照相机接收视频,并对此实时地进行图像识别处理。
图4是示有验证使用共生特征量的图像识别能力的实验数据的图。
坐标图的纵轴表示正确检测率,横轴表示错误检测率。
用实线表示的曲线31表示以包含通过上面的方法获取的多个分辨率间(多重分辨率间)的共生的共生特征量加上HOG特征量所得的特征量进行图像识别的情况,用波状线表示的曲线32表示以仅使用该共生特征量的特征量进行图像识别的情况。
像这样,对共生特征量加上HOG特征量的情况和仅使用共生特征量的情况进行比较是因为由于仅使用包含多个分辨率间的共生的共生特征量的图像识别能力比仅使用HOG特征量的图像识别能力显著优异,所以进一步确认通过在共生特征量加上HOG特征量,图像识别能力是否进一步提高。
其结果,如图所示,两者几乎相同,直到错误检测率超过0.2附近,因此在该区域,曲线31与曲线32重合。
随着正确检测率接近1.0,曲线32与曲线31相比正确检测率稍变小,但其差较小,可知即使对包含多个分辨率间的共生的共生特征量加上HOG特征量,图像识别能力也几乎不变。
顺便说一下,在该坐标图中,示出曲线的下侧的面积越大能力越高。
像这样,对于不需要基于HOG特征量的加强,仅使用包含多个分辨率间的共生的共生特征量获得良好的结果的理由,推测如下。
即,在计算梯度方向的共生直方图时,邻接的像素的亮度值仅位移微少量,所以相同的梯度方向较多。因此,局部区域中的共生对包含有关注像素自身的直方图亦即HOG特征量,HOG特征量为冗余的信息。
另外,关于不需要基于HOG特征量的加强,作为其它观点推测如下理由。
即,在图1(d)的共生矩阵15中,通过将列设为关注像素5的梯度方向,并将行设为偏移像素的梯度方向,二维表示关注像素5与偏移像素的梯度方向。若对该共生矩阵15中的全部的行,将每一行的要素的值全部相加并用一维表示,则与图10(b)相同,能够生成亮度的梯度方向的直方图。
例如,在共生矩阵15中,若将有关梯度方向为右方向的列的要素全部相加,则成为梯度方向为右方向的关注像素5的出现次数。
像这样,推测为是因为在本实施方式的共生矩阵15中,已经包含有相当于HOG特征量的信息。
像这样,由于不以HOG特征量加强,仅以共生特征量就能够进行图像识别,所以能够高效地计算表示对象的特征量,并且能够实现由不进行HOG特征量的计算带来的处理的高速化、以及安装于硬件的情况下的电路规模的减少。
图5是用于对特征量提取处理的过程进行说明的流程图。
以下的处理由CPU81根据图像识别程序来进行。
首先,图像处理装置8从存储装置84等受理作为提取特征的对象的原始图像2的输入并读入RAM83(步骤5)。
接下来,图像处理装置8将原始图像2划分为块区域3,并将该划分的位置存储至RAM83(步骤10)。
接下来,图像处理装置8选择划分出的高分辨率图像11的块区域3中的一个(步骤15),之后生成共生对象的高分辨率图像11的像素、中分辨率图像12的像素、低分辨率图像13的像素并存储至RAM83(步骤20)。
此外,在将原始图像2保持原样用作高分辨率图像11的情况下,不对原始图像2的像素进行分辨率转换就用作高分辨率图像11的像素。
接下来,图像处理装置8对所生成的高分辨率图像11、中分辨率图像12、低分辨率图像13的各个像素计算梯度方向并存储至RAM83(步骤25)。
接下来,图像处理装置8在高分辨率图像11内、高分辨率图像11与中分辨率图像12之间、以及高分辨率图像11与低分辨率图像13之间获取梯度方向的共生并在对应的共生矩阵15中进行投票,并存储至RAM83(步骤30)。由此,获得该块区域3A的共生矩阵15、15、…。
接下来,图像处理装置8判断是否对全部的块区域3进行了投票(步骤35)。
在仍具有未进行投票处理的块区域3的情况下(步骤35;N),图像处理装置8返回到步骤15选择下一个块区域3,并对其进行投票。
另一方面,在对全部的块区域3进行了投票的情况下(步骤35;Y),图像处理装置8根据RAM83的排列,创建连结全部的块区域3的直方图而成的原始图像2的共生直方图18(步骤40)。
然后,原始图像2对该直方图进行归一化,并将以各个区间的频率为成分的矢量作为原始图像2的共生特征量输出至RAM83(步骤45)。
如以上那样,图像处理装置8能够从原始图像2中提取共生特征量,若作为原始图像2输入多个学习图像进行学习,则输出基准特征量,若输入识别对象图像,则输出用于图像识别该识别图像的共生特征量。
图6是用于对图像识别处理的过程进行说明的流程图。
在这里,作为一个例子,对利用车载照相机跟踪行人的情况进行说明。
图像处理装置8安装于车辆,并与将车外(例如,车辆前方)作为被拍摄体的照相机连接。
车辆通过图像处理装置8跟踪行人并将其输出至车辆的控制系统,控制系统基于此辅助驾驶员的手柄操作、制动器操作等来提高安全性。
首先,图像处理装置8将学习了识别对象(在这里为行人)的基准特征量从存储装置84等读入至RAM83(步骤50)。
接下来,图像处理装置8从由照相机发送的视频数据中获取视频帧并存储至RAM83(步骤55)。
接下来,图像处理装置8在存储于RAM83的视频帧中,设定用于检测行人的矩形的观测区域(关注图像区域)(步骤60)。
在初次的行人检测中,由于不清楚在哪里映有行人,所以图像处理装置8例如基于适当的初始值产生由白噪声引起的随机数(粒子),并基于此在适当的位置设定适当的大小的观测区域。
图像处理装置8将该观测区域所包含的图像作为识别对象图像存储至RAM83。
接下来,图像处理装置8通过特征量提取处理计算识别对象图像的共生特征量,并存储至RAM83(步骤65)。
然后,图像处理装置8通过读出RAM83中存储的基准特征量和识别对象图像的共生特征量,并计算共生特征量空间中的内积来计算相似度并存储至RAM83(步骤70)。
该相似度的计算例如能够输入至SVM(支持向量机)、AdaBoost等识别器并进行图像识别的判定。此外,该结构并不限定识别器,能够根据计算成本、精度的平衡由使用者自由选择。
接下来,图像处理装置8通过RAM83中存储的相似度是否满足规定的条件(例如,是否达到规定的阈值),判断识别对象图像与行人是否相似的相似性(步骤75),并将其输出至RAM83(步骤80)。
在不相似的情况下,图像处理装置8判断为在视频帧内在该观测区域内无法识别行人(步骤85;N),并返回至步骤60,进一步在视频帧中设定与前一次不同的观测区域,并反复行人的识别。
在相似的情况下,图像处理装置8判断为在视频帧内在该观测区域内识别出行人(步骤85;Y),并将该识别结果输出至车辆的控制系统。
然后,图像处理装置8进一步判断是否继续识别对象的跟踪(步骤90)。对于该判断,例如,在车辆到达目的地等停止行驶的情况下判断为不继续跟踪,在车辆行驶的情况下判断为跟踪。
在判断为不继续跟踪的情况下(步骤90;N),图像处理装置8结束图像识别处理。
另一方面,在判断为继续跟踪的情况下(步骤90;Y),图像处理装置8返回到步骤55,对下一个视频帧进行相同的图像识别处理。
此外,在第二次以后的图像识别中,图像处理装置8在步骤60中在前一次的图像识别中检测出行人的附近设定观测区域。
这是因为考虑到在前一个视频帧中检测出行人的附近在本次的视频帧中也存在。
为此,例如,使用以前一次检测出行人的观测区域为中心产生形成正态分布的随机数(粒子),并与该随机数对应地逐个产生观测区域并探索相似度最高的观测区域的粒子滤波器的方法有效。
如以上那样,图像处理装置8能够从由车载照相机拍摄到的车外图像中检测行人,并对其进行跟踪。
此外,该方法除了车载照相机以外,能够应用于监控照相机、基于视频跟踪其他移动的对象的系统。
另外,将识别对象设为行人,但例如也能够在道路上的白线、信号灯、标志等上行驶并且进行识别,并应用于自动驾驶。
进一步,也能够应用于通过图像识别跟踪在前方行驶的车辆,并对其追随行驶的所谓护航行驶。
此外,在以上说明的实施方式中,准备针对相同的被拍摄体的3个分辨率的图像,并获取了到偏移距离1~3的梯度方向的共生,但并不限于此,只要获得所需的图像识别精度,也能够组合2个分辨率、或4个以上的分辨率的图像。
图7是用于对第一变形例进行说明的图。
如图7(a)所示,本变形例的图像处理装置8与之前说明的实施方式的图像处理装置8相同,形成高分辨率图像11、中分辨率图像12、低分辨率图像13。
而且,图像处理装置8对这些分辨率不同的图像的每一个计算各个像素的梯度方向,并在各个分辨率的范围内观察梯度方向的共生。
图7(b)是用于对高分辨率图像11内的共生的获取进行说明的图。
图像处理装置8在高分辨率图像11中设定关注像素5,并对偏移距离1的(即与关注像素5邻接的)偏移像素1a~1d,获取与关注像素5的梯度方向的共生并在关注像素5与偏移像素1a的组合的共生矩阵15、关注像素5与偏移像素1b的组合的共生矩阵15、…中进行投票。
接下来,图像处理装置8a对距关注像素5偏移距离2的偏移像素2a~2f,获取与关注像素5的梯度方向的共生,并在每个组合的共生矩阵15中进行投票。
进一步,图像处理装置8a对距关注像素5偏移距离3的偏移像素3a~3h、以及距关注像素5偏移距离4的偏移像素4a~4l也获取与关注像素5的梯度方向的共生并在每个组合的共生矩阵15中进行投票。
图像处理装置8在高分辨率图像11内移动关注像素5并且对全部的像素进行上面的处理。
图7(c)是用于对中分辨率图像12内的共生的获取进行说明的图。
图像处理装置8在中分辨率图像12中设定关注像素5,并对距关注像素5偏移距离1的(即与关注像素5邻接的)偏移像素1a~1d,获取与关注像素5的梯度方向的共生并在每个组合的共生矩阵15中进行投票。
同样,对偏移距离2的偏移像素2a~2f、偏移距离3的未图示的偏移像素群、更远的偏移像素群,也同样获取共生并在各自的共生矩阵15中进行投票。
图像处理装置8在中分辨率图像12内移动关注像素5并且对全部的像素进行上面的处理。
虽然未图示,但图像处理装置8对于低分辨率图像13也同样移动关注像素5并且对全部的像素获取梯度方向的共生并在未图示的共生矩阵15中进行投票。
此外,对于最远的偏移距离而言,能够在高分辨率图像11和中分辨率图像12中为四个像素的量、在低分辨率图像13中为三个像素的量等,对每个分辨率设定不同的值,并能够根据与图像识别的精度的平衡设定最佳的值。
像这样,本变形例的图像处理装置8所具有的像素组合获取单元对每个分辨率获取相同的分辨率的像素的组合。
图像处理装置8对原始图像2的全部的块区域3进行上面的处理,并将获得的共生矩阵15的要素的成分连结排成1列创建图7(d)所示的共生直方图18。
而且,图像处理装置8对其进行归一化生成共生特征量矢量,并将其作为图像的共生特征量。
图8是用于对第二变形例进行说明的图。
本变形例的图像处理装置8未进行分辨率的转换,从高分辨率图像11(原始图像2)中的梯度方向的共生中获取共生特征量。
图像处理装置8如图8(a)所示,对于从块区域3A(参照图1(a))获得的高分辨率图像11,如图8(b)所示获取关注像素5与距关注像素5偏移距离1~4的偏移像素1a~4l的梯度方向的共生,并与在实施方式中说明的方式相同在关注像素5与偏移像素的每个组合的共生矩阵15中进行投票。
而且,图像处理装置8将关注像素5移动至面向图右方的邻接的像素,并且对高分辨率图像11的全部的像素进行相同的处理。
而且,图像处理装置8若对全部的块区域3完成共生矩阵15,则将由此形成的直方图连结生成图8(c)所示的共生直方图18,并对其进行归一化作为共生特征量。
图9是用于对第三变形例进行说明的图。
在本变形例中,将梯度方向设为0°~360°的连续值,并使用GMM(混合高斯模型)提取共生特征量。
获取共生的图像为在实施方式的图1(b)中示出的高分辨率图像11、中分辨率图像12、低分辨率图像13,与实施方式相同,获取在高分辨率图像11中设定的关注像素5与偏移像素1a~3d的梯度方向的共生。
此外,这是一个例子,可以是在第一变形例中示出的多个分辨率的各分辨率内的共生,也可以是在第二变形例中示出的高分辨率图像11内的共生。
像这样,图像处理装置8与实施方式相同,在高分辨率图像11中设定关注像素5,并在该关注像素5与偏移像素1a~1d、2a~2d、3a~3d之间获取梯度方向的共生。
在实施方式中,在共生矩阵15中进行投票,但在本变形例中,在将横轴作为关注像素5的梯度方向、将纵轴作为偏移像素的梯度方向的特征面50绘制为共生对应点51。特征面50为图9(a)所示的散布图。
另外,图像处理装置8与共生矩阵15相同,对每个关注像素5与偏移像素的相对的位置创建特征面50。
在特征面50绘制的共生对应点51、51、…具有根据图像的特征聚集的趋势,图像处理装置8将其聚类为K个集群60a、60b、60c。所谓的聚类是将距离较近的点聚集为组的处理。
K是预先设定的值,典型地是K=64等整数,在图的例子中,为了简化,K=3。
图像处理装置8在对共生对应点51进行聚类之后,如图9(b)所示用将K个高斯分布线性叠加而成的GMM53的概率密度函数p(x|θ)来表示特征面50中的共生对应点51的分布的聚集情况。x是表示共生对应点51的分布的矢量,θ是表示参数的矢量。
更具体而言,p(x|θ)通过图9(c)的式子来表示。K是混合数,是在GMM53中叠加的高斯分布的数,在上面的例子中为3。
z是在EM算法、计算负载率时所使用的潜在变量,与混合的K个高斯分布对应地使用z1、z2、…、zK。
对于EM算法省略说明,是推断将似然最大化的参数(μj,Σj)的算法。
πj被称为混合系数,表示选择第j个高斯分布的概率。
图像处理装置8通过以上的功能多次学习映有识别对象的学习图像,并计算图9(d)所示的基准GMM55。在图中,为了容易理解,以二维平面示意性地表示基准GMM55。基准GMM55为包含有识别对象的特征量的量。
图像处理装置8在像这样准备了基准GMM55之后,根据针对基准GMM55的负载率γ提取识别对象图像的特征量。
如通过图9(e)的式子所示,γ(zkn)为对基准GMM55给予了识别对象图像的共生对应点51的分布的情况下的潜在变量z的后验概率,第k个高斯分布表示说明xn的观测的程度。
图像处理装置8使用这些特征量来进行图像识别。
根据以上说明的实施方式、变形例,能够获得如下的效果。
(1)通过梯度方向的共生能够不使用HOG特征量,从图像中提取比HOG特征量更稳健的特征量。
(2)通过遍及多个分辨率、或在各个分辨率内获取梯度方向的共生,能够获取共生特征量。
(3)通过实时地对视频帧进行图像识别,能够在视频中跟踪移动的对象。
(4)由于适合基于半导体装置的安装,所以能够开发专用芯片并以低价大量地供给。
(5)通过安装专用芯片能够实现小型化、低成本化,例如,能够实现在车载装置等移动体装置、智能手机等移动终端等中的普及。
附图标记说明
2…原始图像;3…块区域;5…关注像素;8…图像处理装置;11…高分辨率图像;12…中分辨率图像;13…低分辨率图像;15…共生矩阵;18…共生直方图;19…基准特征量矢量;20、21、22…共生特征量矢量;31、32…曲线;50…特征面;51…共生对应点;53…GMM;55…基准GMM;60…集群;81…CPU;82…ROM;83…RAM;84…存储装置;85…存储介质驱动装置;86…输入部;87…输出部;101…图像;102…单元;106…直方图;107…HOG特征量。