CN106164980B - 信息处理装置以及信息处理方法 - Google Patents
信息处理装置以及信息处理方法 Download PDFInfo
- Publication number
- CN106164980B CN106164980B CN201580016428.8A CN201580016428A CN106164980B CN 106164980 B CN106164980 B CN 106164980B CN 201580016428 A CN201580016428 A CN 201580016428A CN 106164980 B CN106164980 B CN 106164980B
- Authority
- CN
- China
- Prior art keywords
- image
- likelihood
- recognition
- information processing
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
从图像获得,特征量和代表关于图像的情境的情境信息。从特征量获得,表示图像是特定物体的图像的似然度的第一似然度。从情境信息获得,表示图像是特定物体的图像的似然度的第二似然度。使用第一似然度和第二似然度来识别图像是否是特定物体的图像。
Description
技术领域
本发明涉及一种用于从图像检测物体的技术。
背景技术
传统上已提出了一种从由照相机拍摄的图像检测人体的方法(非专利文献1(Navneet Dalal and Bill Triggs,"Histograms of Oriented Gradients for HumanDetection",CVPR2005))。在该方法中,通过机器学习预先学习人体图像和背景图像。之后,识别从照相机输入的图像的部分图像是否是人体,来检测人体。然而,已知的是,在拍摄场景或人体的外观在预先学习时与检测时之间不同的情况下,检测性能劣化。拍摄场景的不同的示例是照明条件的不同,以及照相机安装角度、阴影的有/无和背景的不同。外观的不同的示例是人体的方位以及服装的不同。
检测性能劣化的因素是,例如,预先学习时的学习样本无法覆盖拍摄场景和检测目标物体的外观的多样性。为了解决此问题,提出了一种通过针对已经在与检测时类似的拍摄场景中收集的附加学习,使用学习样本进行附加学习,来提高检测性能的方法。专利文献1(日本特开2010-529529号公报)提出了一种通过预先学习创建Real AdaBoost鉴别器的弱鉴别器,然后通过附加学习使弱鉴别器适应附加学习样本的方法。
还已知的是,通过使用在检测时的场景中获得的特定场景情境(context)用于识别,来提高检测性能。情境的示例是检测目标物体在图像中的出现位置坐标。对于安装位置是永久的安全摄像机,要检测的人体在图像中的出现位置或大小具有对安装场景特定的分布。因此,在专利文献2(日本特许5096211号公报)中,人体的出现位置坐标的概率分布被创建并被用于鉴别器的前滤波器或结果校正。情境的另一示例是背景图像。检测目标出现在具有特定背景纹理的位置的频率依据照相机安装位置而上升。因此,在专利文献3(US20120219211 A1)中,不仅识别目标区域,而且识别目标区域周围的部分图像都被用于学习。
然而,在专利文献1中,Real AdaBoost鉴别器的参数仅适用于附加学习样本。由于用于附加学习和附加学习后的检测的特征限于在预先学习时生成的那些特征,因此性能的提高受限。
专利文献2假设了永久安装的照相机,并且仅物体的出现位置坐标的概率分布被用作情境。因此,在照相机不是永久安装的情形下,或在物体的出现概率不依据位置坐标的情形下,无法预期性能的提高。
在专利文献3中,仅识别目标区域周围的部分图像能够被用作情境。在背景图像随时间改变的情形下,或在物体的出现概率不依据背景的情形下,无法预期性能的提高。
发明内容
为了解决上述问题而做出了本发明,并且本发明提供一种用于提高图像的识别性能的技术。
根据本发明的第一方面,提供了一种信息处理装置,所述信息处理装置包括:被构造为从输入的图像获得特征量的单元;被构造为获得代表关于所述图像的情境的情境信息的单元;第一识别单元,其被构造为从特征量获得表示所述图像是特定物体的图像的似然度的第一似然度;第二识别单元,其被构造为从情境信息获得表示所述图像是特定物体的图像的似然度的第二似然度;以及被构造为通过使用第一似然度和第二似然度来识别所述图像是否是特定物体的图像的单元,其中,第二识别单元包括使用第一似然度和情境信息而学习的鉴别器。
根据本发明的第二方面,提供了一种信息处理装置,所述信息处理装置包括:被构造为从输入的图像获得特征量的单元;被构造为获得代表关于所述图像的情境的情境信息的单元;第一识别单元,其被构造为从特征量获得表示所述图像是特定物体的图像的似然度的第一似然度;以及学习单元,其被构造为通过使用第一似然度和情境信息,对与第一识别单元不同的第二识别单元进行学习。
根据本发明的第三方面,提供了一种要由信息处理装置进行的信息处理方法,所述信息处理方法包括:使被构造为获得信息处理装置的特征量的单元,从输入的图像获得特征量;使被构造为获得信息处理装置的情境信息的单元,获得代表关于所述图像的情境的情境信息;使信息处理装置的第一识别单元,从特征量获得表示所述图像是特定物体的图像的似然度的第一似然度;使信息处理装置的第二识别单元,从情境信息获得表示所述图像是特定物体的图像的似然度的第二似然度;以及使信息处理装置的识别单元,通过使用第一似然度和第二似然度来识别所述图像是否是特定物体的图像,其中,第二识别单元包括使用第一似然度和情境信息而学习的鉴别器。
根据本发明的第四方面,提供了一种要由信息处理装置进行的信息处理方法,所述信息处理方法包括:使被构造为获得信息处理装置的特征量的单元,从输入的图像获得特征量;使被构造为获得信息处理装置的情境信息的单元,获得代表关于所述图像的情境的情境信息;使信息处理装置的第一识别单元,从特征量获得表示所述图像是特定物体的图像的似然度的第一似然度;以及使信息处理装置的学习单元,通过使用第一似然度和情境信息对与第一识别单元不同的第二识别单元进行学习。
通过以下(参照附图)对示例性实施例的描述,本发明的进一步的特征将变得清楚。
附图说明
图1是示出信息处理装置的功能布置的示例的框图;
图2是示出摄像装置的硬件布置的示例的框图;
图3是示出要由学习单元111进行的处理的流程图;
图4是示出在步骤S306中的处理的详情的流程图;
图5是示出在步骤S403中的处理的详情的流程图;
图6是示出要由识别单元101进行的处理的流程图;
图7是用于说明情境特征向量的图;
图8是用于说明式(11)的曲线图;以及
图9是用于说明情境特征向量的图。
具体实施方式
现在,将参照附图描述本发明的实施例。注意,下面要描述的各个实施例将例示本发明被具体地实施并且是权利要求的范围中记载的布置的具体实施例的情况。
[第一实施例]
首先,将参照图1的框图说明根据第一实施例的信息处理装置的功能布置的示例。如图1中所示,根据本实施例的信息处理装置包括识别单元101和学习单元111。
学习单元111由识别目标图像和伴随它们的情境(context),对识别单元101的第二识别单元107进行学习。“识别目标图像”是检测目标物体的图像和背景图像共存的图像。
根据由第一识别单元106a和学习单元111学习的第二识别单元107对输入的图像的识别处理的结果,识别单元101识别输入的图像是否是已经拍摄到特定物体的图像。
注意,本实施例将描述学习单元111和识别单元101被布置在一个装置(信息处理装置)中。然而,学习单元111和识别单元101可以被布置在分开的装置中。在这种情况下,学习单元111和识别单元101彼此进行通信,以通过它们之间的通信来实现以下处理。
首先,将说明学习单元111。学习样本获得单元112获得多个识别目标图像,并且从各个识别目标图像收集识别目标图像的图像特征向量以及附加到识别目标图像的情境特征向量。学习样本获得单元112针对各个识别目标图像,通过将从识别目标图像收集的图像特征向量和情境特征向量连结,来生成学习样本。此外,学习样本获得单元112接收用于各个识别目标图像的分类标签。分类标签是表示学习样本(识别目标图像)是否是检测目标物体的数值。当学习样本是检测目标物体时,分类标签取+1,而当学习样本是背景时,分类标签取-1。稍后将描述分类标签获得方法。学习样本获得单元112针对各个识别目标图像,向第一识别单元106b和附加鉴别器学习单元117,发送从识别目标图像生成的学习样本以及用于识别目标图像的分类标签。
图像获得单元103b获得多个识别目标图像和用于识别目标图像的分类标签。特征提取单元104b从由图像获得单元103b获得的识别目标图像提取图像特征向量。情境获得单元105b获得附加到由图像获得单元103b获得的识别目标图像的情境特征向量。由特征提取单元104b提取的图像特征向量和由情境获得单元105b获得的情境特征向量,在图像特征向量和情境特征向量被连结的状态下,与分类标签一起被发送到第一识别单元106b和附加鉴别器学习单元117,作为学习样本。
第一识别单元106b针对从学习样本获得单元112输入的各个学习样本中的图像特征向量,计算表示检测目标物体的似然度的第一似然度。本实施例将说明第一识别单元106b由Real AdaBoost鉴别器构成。然而,第一识别单元106b可以由支持向量机、神经网络、回归或其他鉴别器构成,只要鉴别器能够获得似然度即可。“检测目标物体的似然度”代表针对输入到构成第一识别单元106b的鉴别器的图像特征向量的、检测目标物体的似然度,并且表示随着值越大,图像特征向量越有可能代表检测目标物体。稍后将描述计算第一似然度的方法。当第一识别单元106b由Real AdaBoost鉴别器构成时,鉴别器被构成为弱鉴别器的集合。当使用支持向量机、神经网络或回归时,鉴别器被构成为单个鉴别器。假设已经使用预先获得的识别目标图像预先学习了构成第一识别单元106b的鉴别器。第一识别单元106b在后续阶段将计算出的第一似然度发送到附加鉴别器学习单元117。
附加鉴别器学习单元117通过使用从学习样本获得单元112输入的学习样本和分类标签以及从第一识别单元106b输入的第一似然度,创建构成识别单元101的第二识别单元107的弱鉴别器的集合。
学习样本权重设置单元118对学习样本进行权重的初始设置和更新。鉴别器候选生成单元119由学习样本和学习样本的权重生成弱鉴别器候选和弱鉴别器候选的评价得分,并将它们输入到鉴别器选择单元120。鉴别器选择单元120基于评价得分选择期望的弱鉴别器,并更新第二识别单元107。
接下来,将说明识别单元101。
识别样本获得单元102获得识别目标图像,并且从识别目标图像收集识别目标图像的图像特征向量以及附加到识别目标图像的情境特征向量。识别样本获得单元102通过将从识别目标图像收集的图像特征向量和情境特征向量连结,来生成识别样本,并将该识别样本发送到第一识别单元106a和第二识别单元107。
图像获得单元103a获得识别目标图像。类似于特征提取单元104b,特征提取单元104a从由图像获得单元103a获得的识别目标图像提取图像特征向量。情境获得单元105a获得附加到由图像获得单元103a获得的识别目标图像的情境特征向量。由特征提取单元104a提取的图像特征向量和由情境获得单元105a获得的情境特征向量,在图像特征向量和情境特征向量被连结的状态下,被发送到第一识别单元106a和第二识别单元107,作为识别样本。
第一识别单元106a针对从识别样本获得单元102输入的识别样本中的图像特征向量,计算表示检测目标物体的似然度的似然度(第一似然度)。第一识别单元106a在后续阶段将计算出的第一似然度发送到综合识别单元108。
注意,第一识别单元106a和第一识别单元106b被预先以相同的方式学习,并且进行相同的操作。因此,单个鉴频器可以被共享并用作第一识别单元106a和第一识别单元106b,或者通过进行相同的学习而生成的两个鉴别器可以用作第一识别单元106a和第一识别单元106b。
第二识别单元107针对从识别样本获得单元102输入的识别样本,计算表示检测目标物体的似然度的第二似然度。第二识别单元107在后续阶段将计算出的第二似然度发送到综合识别单元108。
通过使用从第一识别单元106a输入的第一似然度和从第二识别单元107输入的第二似然度,综合识别单元108确定识别样本是否为检测目标物体。
接下来,将参照作为示出本处理的流程图的图3,说明要由图1中的学习单元111进行的处理。在步骤S301中,图像获得单元103b获得多个识别目标图像。在步骤S302中,图像获得单元103b获得用于各个识别目标图像的分类标签。
如上所述,识别目标图像是检测目标物体的图像或背景图像中的任一者。在步骤S301中,获得检测目标物体的图像和背景图像共存的图像。例如,用户可以预先指定识别目标图像和分类标签。当从运动图像获得识别目标图像时,可以将跟踪处理等应用到检测目标物体,以从跟踪结果自动获得识别目标图像和识别目标图像的分类标签。
在步骤S303中,特征提取单元104b从在步骤S301中获得的各个识别目标图像提取图像特征向量。在本实施例中,从识别目标图像提取HOG(Histograms of OrientedGradients,方向梯度直方图)作为图像特征向量。然而,图像特征向量不限于HOG,可以提取LBP(Local Binary Pattern,局部二进制模式)、图像的辉度值或其他任意的特征量作为图像特征向量。
在步骤S304中,情境获得单元105b从在步骤S301中获得的各个识别目标图像,获得附加到识别目标图像的情境特征向量。在本实施例中,提取检测目标物体的出现位置信息作为情境特征向量。更具体地,如图7中所示,从中获得识别目标图像701的输入的图像702(从中提取识别目标图像701的原始图像)中的识别目标图像701的位置坐标和大小被用作情境。即,获得识别目标图像701的提取帧的高度h,和提取帧的下部的y坐标。然后,将提取帧的高度h与提取帧的下部的y坐标的比,以及高度h的倒数,设置为情境特征向量。此时,情境特征向量c为c=(y/h,1/h)。
如上所述,学习样本获得单元112向第一识别单元106b,发送通过针对各个识别目标图像将从识别目标图像提取的图像特征向量和从识别目标图像获得的情境特征向量连结而获得的学习样本。
在步骤S305中,第一识别单元106b针对从学习样本获得单元112输入的各个学习样本中的图像特征向量v,计算第一似然度H1(v)。根据下式计算第一似然度H1(v):
在式(1)中,h1(v)代表第一识别单元106b中的弱鉴别器,并且根据下式计算h1(v):
其中,ε是常数,W+ j和W- j是具有直方条(bin)编号j的一维直方图,u是在图像特征向量v中预先确定的维度的要素值,并且J(u)是用于将u转换成一维直方图的直方条编号的转换表。
在步骤S306中,附加鉴别器学习单元117通过使用学习样本、分类标签以及第一似然度,更新第二识别单元107。将参照图4的流程图说明步骤S306中的处理的详情。在步骤S306中,使用所谓的Boosting学习算法对学习样本和分类标签进行学习,并且更新第二识别单元107。Boosting是使许多弱鉴别器叠加以生成强鉴别器的方法。在本实施例中,构成第二识别单元107的各个弱鉴别器至少学习图像特征向量和情境特征向量中的任一者。本实施例中的学习算法的特征是,构成第一识别单元106b的鉴别器被处理为Boosting中的学习的弱鉴别器中的一个,并且许多弱鉴别器被添加到第二识别单元107。
首先,在步骤S401中,附加鉴别器学习单元117对第二识别单元107进行初始化。在该初始化中,构成第二识别单元107的弱鉴别器的集合被设置为空集合。
然后,在步骤S402中,样本权重设置单元118对各个学习样本的权重进行初始化。根据非专利文献2(Robert E.Schapire and Yoram Singer,"Improved BoostingAlgorithms Using Confidence-rated Predictions",Machine Learning,1999),Boosting学习算法能够通过由学习的鉴别器的识别结果对学习样本进行加权,并且依次添加弱鉴别器,来以更高的识别性能构建鉴别器。
在本实施例中,以第一识别单元106b的识别越困难的样本则权重越大,并且识别越容易的样本则权重越小的方式,开始学习。学习样本的权重被获得为如下的值,即,通过将当由构成第一识别单元106b的鉴别器识别学习样本时产生的损失归一化,使得所有样本权重的总和变为1。例如,当构成第一识别单元106b的鉴别器是Real AdaBoost鉴别器时,根据下式计算学习样本的权重wi的初始值:
其中,i是学习样本的数量,H1(vi)是在步骤S305中获得的“针对图像特征向量vi的、构成第一识别单元106b的鉴别器H1的似然度”(第一似然度),并且yi是分类标签。式(3)基于Real AdaBoost指数损失函数,并且根据在第一识别单元106b中使用的鉴别器采用期望的损失函数。
学习样本的权重的这种设置给出了如下的效果,即,在第二识别单元107中,有效学习由构成第一识别单元106b的鉴别器H1进行的识别不好的特定场景学习样本。另外,第二识别单元107期望如下的效果,即,补充第一识别单元106b对特定场景的识别性能。
在步骤S403中,鉴别器候选生成单元119通过使用学习样本、分类标签以及学习样本的权重,生成弱鉴别器候选和弱鉴别器候选的评价得分。弱鉴别器候选的评价得分是表示弱鉴别器候选的识别性能的指标,并且值越小代表识别性能越高。稍后将参照图5描述步骤S403中的处理的详情。
在步骤S404中,鉴别器选择单元120基于这些评价得分,从在步骤S403中生成的弱鉴别器候选中,选择期望的弱鉴别器。作为期望的弱鉴别器,从本实施例中的弱鉴别器候选中选择具有最小评价得分的弱鉴别器候选。
在步骤S405中,鉴别器选择单元120将在步骤S404中选择的弱鉴别器,添加到构成第二识别单元107的弱鉴别器的集合。
在步骤S406中,学习样本权重设置单元118根据在步骤S404中选择的弱鉴别器h、学习样本xi以及分类标签,根据下式更新学习样本的权重wi:
wi←wi exp(-yih(xi)) ...(4)
根据式(4)更新各个权重之后,将各个权重归一化使得所有权重的总和变为1。在步骤S407中,附加鉴别器学习单元117确定是否满足学习的结束条件。在本实施例中,当正抑制比(positive rejection ratio)小于预定阈值并且负抑制比(negative rejectionratio)大于预定阈值时,确定满足结束条件;否则,确定不满足结束条件。
正抑制比是检测目标物体的学习样本被错误地识别为背景的比率。负抑制比是背景的学习样本被正确地识别的比率。注意,各种条件适用于作为学习的结束条件,并且结束条件不限于特定的条件。例如,当步骤S401至步骤S406中的处理已经被执行预定次数或更多次数时,可以确定满足结束条件。
如果在步骤S407中确定已经满足结束条件,则学习处理结束。如果确定尚未满足结束条件,则处理返回到步骤S403以重复后续处理。
将参照图5的流程图说明步骤S403中的处理的详情。图5中的处理是如下的处理,本处理用于生成识别图像特征向量的弱确定器的候选、识别情境特征向量的弱确定器的候选、以及识别图像特征向量和情境特征向量的组合的弱确定器的候选。更具体地,在步骤S501的循环(步骤S502和步骤S503)中,生成识别图像特征向量的弱确定器的候选,并且计算各个候选的评价得分。在步骤S504的循环(步骤S505和步骤S506)中,生成识别情境特征向量的弱确定器的候选,并且计算各个候选的评价得分。在步骤S507的循环(步骤S508和步骤S509)中,生成识别图像特征向量和情境特征向量的组合的弱确定器的候选,并且计算各个候选的评价得分。
首先,将说明步骤S501的循环(步骤S502和步骤S503),其中,进行识别图像特征向量的弱鉴别器的候选的生成,以及弱鉴别器候选的评价得分的计算。在步骤S501的循环中,针对图像特征向量中的各个维度,生成弱鉴别器候选和弱鉴别器候选的评价得分。即,由图像特征向量的维度的数量,生成弱鉴别器候选和弱鉴别器候选的评价得分。
本实施例假设,基于非专利文献2中的Real AdaBoost获得弱鉴别器和弱鉴别器候选的评价得分。根据非专利文献2,Real AdaBoost弱鉴别器采用如下式所表示的形式:
其中,x是学习样本,y是学习样本的分类标签,并且P(y=+1|x)和P(y=-1|x)是由学习样本的权重加权的概率密度分布。
在步骤S502中,鉴别器候选生成单元119生成识别图像特征向量的弱确定器的候选。在此,将说明生成图像特征向量的任意维度的要素中的弱鉴别器候选的方法。根据非专利文献2,式(5)中的弱鉴别器候选被进一步改写成:
其中,x是学习样本,ε是常数,W+ j和W- j是具有直方条编号j的一维直方图,u是学习样本x中的图像特征向量的任意维度的要素值,并且J(u)是用于将u转换成一维直方图的直方条编号的转换表。
通过基于转换表J将特征量转换成直方条编号,并且累积与直方条相对应的学习样本权重,获得一维直方图W+ j和W- j中的各个:
其中,j是一维直方图的直方条编号,i是学习样本的数量,并且yi和ui分别是第i个学习样本的分类标签和学习样本中的图像特征的任意要素值。
在步骤S503中,鉴别器候选生成单元119计算在步骤S502中生成的弱鉴别器候选himage的评价得分z。根据例如下式计算评价得分z:
通过上述的步骤S501的循环(步骤S502和步骤S503中的处理),生成识别图像特征向量的弱鉴别器的候选,并且计算弱鉴别器的候选的评价得分。
接下来,将说明步骤S504的循环(步骤S505和步骤S506),其中,进行识别情境特征向量的弱鉴别器的候选的生成,以及弱鉴别器的候选的评价得分的计算。可以在该循环中生成多个弱鉴别器候选。然而,本实施例假设,为了生成单个的弱鉴别器候选,重复计数仅为1。
在步骤S505中,鉴别器候选生成单元119生成识别情境特征向量的弱确定器的候选。将更详细说明由情境特征向量生成弱鉴别器候选的处理。基于Real AdaBoost类似地给出识别情境特征向量的弱鉴别器的候选:
其中,x是学习样本,c是学习样本中的情境特征向量,y是分类标签,P(c|y=+1)和P(c|y=-1)分别是由学习样本的权重加权的检测目标物体、背景的情境特征向量的概率密度分布,并且P(y=+1)和P(y=-1)分别是检测物体、背景的分类标签的分布。
接下来,将说明计算式(9)中的概率密度分布P(c|y=+1)的方法。在步骤S304中获得的情境特征向量,是由提取帧的高度h与提取帧的下部的y坐标的比、以及高度h的倒数定义的向量。情境特征向量为c=(y/h,1/h),在此由c=(c1,c2)来表示。假设检测目标物体的高度几乎是恒定的,并且照相机的安装高度和图像中的水平线的y坐标是恒定的,则c1被表达为c2的线性函数f(c2:a,b):
f(c2:a,b)≡c1=ac2+b ...(10)
其中a和b是线性函数的系数。认为在情境特征向量的观察中产生误差。还认为检测目标物体的高度在实践中并不是恒定的。假设在情境特征向量中产生正态分布误差,由下式给出式(9)中的概率分布P(c|y=+1):
其中,P(c1|f(c2:a,b),σ2)是具有均值f(c2:a,b)和方差σ2的正态分布。式(11)是指随着情境特征向量c=(c1,c2)越接近图8中所示的直线f(c2:a,b),情境特征向量可能代表检测目标物体。
由学习样本的权重和情境特征向量,通过最大似然度估计,获得式(11)中的参数a、b和σ2。假设P(c2|y=+1)是均匀分布。
对于式(9)中的概率密度分布P(c|y=-1),假设背景的学习样本在场景中均匀地出现。因此,P(c|y=-1)被视为均匀分布。
本实施例假设照相机与检测目标物体之间的位置关系的几何模型。概率密度分布的估计变得对噪声鲁棒,并且能够预期如下的效果,即,增加概率密度分布的估计的精确性。此外,与未考虑几何模型的情况相比,能够预期如下的效果,即,使用更小数量的学习样本来估计精确的概率密度分布。
在本实施例中,式(11)中的P(c2|y=+1)和式(9)中的P(c|y=-1)是均匀分布。然而,如同式(9)中的P(c|y=+1),也能够使用学习样本的权重和情境特征向量,通过将它们应用到任何模型,由最大似然度估计获得P(c2|y=+1)和P(c|y=-1)。作为另选方案,可以使用学习样本的权重和情境特征向量通过核密度估计(kernel density estimation)或投票,来获得P(c2|y=+1)和P(c|y=-1)。
在步骤S506中,鉴别器候选生成单元119生成弱鉴别器候选hcontext的评价得分z。根据例如下式计算评价得分z:
其中,i是学习样本的数量,wi是学习样本的权重,xi是学习样本,yi是分类标签,并且h是弱鉴别器候选,在此是hcontext。
通过上述的步骤S504的循环(步骤S505和步骤S506中的处理),生成识别情境特征向量的弱鉴别器的候选,并且计算弱鉴别器的候选的评价得分。
接下来,将说明步骤S507的循环(步骤S508和步骤S509),其中,进行识别图像特征向量和情境特征向量的组合的弱鉴别器的候选的生成,以及它们的评价得分的计算。在步骤S507的循环中,如在步骤S501的循环中,针对图像特征向量中的各个维度,生成弱鉴别器候选和弱鉴别器候选的评价得分。即,由图像特征向量的维度的数量生成弱鉴别器候选和弱鉴别器候选的评价得分。
在步骤S508中,鉴别器候选生成单元119生成识别图像特征向量和情境特征向量的组合的弱确定器的候选。将更详细地说明由图像特征向量和情境特征向量的组合生成弱鉴别器候选的处理。基于Real AdaBoost类似地给出识别图像特征向量和情境特征向量的弱鉴别器的候选:
其中,x是学习样本,y是分类标签。虽然式(13)可以被用作弱鉴别器候选,但是使用朴素贝叶斯方法(naive Bayes method)对式(13)进行近似:
其中,x是学习样本,v是学习样本中的图像特征向量,并且c是学习样本中的情境特征向量。根据上述的式(7-1)和式(7-2)计算式(14)中的一维直方图W+ j和W- j。此外,如在式(9)中计算式(14)中的P(c|y=+1)和P(c|y=-1)。
在步骤S509中,鉴别器候选生成单元119计算弱鉴别器候选hjoint的评价得分z。根据例如式(12)获得评价得分z。
通过上述的步骤S507的循环(步骤S508和步骤S509中的处理),生成识别图像特征向量和情境特征向量的组合的弱鉴别器的候选,并且计算弱鉴别器的候选的评价得分。
然后,鉴别器候选生成单元119将根据图5的流程图生成的弱鉴别器候选以及各个弱鉴别器候选的评价得分,发送到鉴别器选择单元120。
接下来,将参照作为示出本处理的流程图的图6,说明要由识别单元101(包括由学习单元111学习的第二识别单元107)进行的处理。针对输入到识别样本获得单元102的识别目标图像(检测目标图像)中的各个部分图像(可以由用户或由识别单元101指定)进行步骤S601的循环(步骤S602至步骤S607)。
在步骤S602中,图像获得单元103a获得识别目标图像中的任意部分图像,并且如在上述的步骤S303中,特征提取单元104a从所获得的部分图像提取图像特征向量v。
在步骤S603中,如在上述的步骤S304中,情境获得单元105a获得附加到识别目标图像的情境特征向量。
在步骤S604中,第一识别单元106a针对在步骤S602中提取的图像特征向量v,根据上述的式(1)计算第一识别单元106a的第一似然度H1(v)。第一似然度H1(v)是表示针对在步骤S602中获得的部分图像的检测目标物体的似然度的数值。
在步骤S605中,第二识别单元107针对通过将在S602中提取的图像特征向量v和在步骤S603中获得的情境特征向量连结而获得的向量x,计算第二识别单元107的第二似然度H2(x)。第二似然度是表示针对在步骤S602中获得的部分图像的识别目标物体的似然度的数值。如由式(15)所表示的,通过构成用作第二识别单元107的H2的弱鉴别器h的似然度的总和,来计算第二似然度H2(x):
在式(15)中,已在步骤S502中生成的并且构成第二识别单元107(H2)的弱鉴别器h的评价,仅使用识别样本x中的图像特征向量v。已经在步骤S505中生成的并且构成第二识别单元107(H2)的弱鉴别器h的评价,仅使用识别样本x中的情境特征向量c。此外,已经在步骤S508中生成的并且构成第二识别单元107(H2)的弱鉴别器h的评价,使用识别样本x中的图像特征向量v和情境特征向量c二者。
在步骤S606中,综合识别单元108计算在步骤S604中计算出的第一似然度H1(v)和在步骤S605中计算出的第二似然度H2(x)的综合似然度H(x)。通过由系数λ对第二似然度H2(x)进行加权并将结果添加到第一似然度H1(v),来计算综合似然度H(x):
H(x)=H1(v)+λH2(x) ...(16)
其中,x是识别样本,这通过将图像特征向量v和情境特征向量c连结来获得。系数λ是表示第一识别单元106a和第二识别单元107的强度的比的值,并且取0至1的值。当λ为0时,识别结果与仅通过第一识别单元106a而构成的鉴别器H1的识别结果相同。随着λ变得越大,这表示对场景的适应程度越大。因此,通过调整系数λ,能够预期如下的效果,即,抑制由过度学习而引起的检测性能的劣化。
在步骤S607中,如果在步骤S606中计算出的综合似然度H(x)大于预定的恒定值,则综合识别单元108将在步骤S602中获得的部分图像分类成检测目标物体。
在针对识别目标图像中的各个部分图像进行步骤S601的循环之后,综合识别单元108输出在步骤S607中分类成检测目标物体的部分图像的集合。输出目的地和输出形式不限于特定的目的地和形式。作为输出,可以输出部分图像本身,或者可以输出关于部分图像的信息(例如,识别目标图像中的位置和大小,或者部分图像中的辨识结果)。
在本实施例中,在步骤S402中,基于由第一识别单元从各个识别目标图像获得的第一似然度,设置学习样本的权重的初始值。此时,第二识别单元基于由第一识别单元识别的第一似然度进行学习。因此,第二识别单元期望如下的效果,即,以高的精确度有效学习由第一识别单元进行的识别不好的识别目标图像。
由于经由第一识别单元的第一似然度通过相同的Boosting框架来学习第一识别单元和第二识别单元,因此第一识别单元的第一似然度和第二识别单元的第二似然度通过加法/减法连接。因此,能够分开地学习使用不同学习样本的多种类型的第二识别单元,并且能够由检测单元来更新和替换它们。检测单元能够选择性地切换从不同学习样本学习的多个情境。例如,当照相机被固定到三脚架时,能够使用学习坐标作为情境的第二识别单元。当不固定照相机时,能够使用学习其他情境的第二识别单元。
此外,将检查由给出的第二识别单元学习的情境和由其他第二识别单元学习的情境独立的事件,例如,将检查情境关于图像和时间上的坐标的情况。在这种情况下,这些第二识别单元的第二似然度是不相关的,所以这些第二识别单元能够被一起用来综合所有的第二似然度。因此,能够同时适于给出学习样本的给出情境和不同的情境。
在本实施例中,在步骤S403中生成,识别图像特征向量的弱鉴别器、识别情境特征向量的弱鉴别器、以及识别图像特征向量和情境特征向量的弱鉴别器。将说明生成这三种类型的弱鉴别器的效果。
首先,将说明识别图像特征向量的弱鉴别器的效果。当传统的图像检测技术适于给出的场景时,传统的图像检测技术,即,第一识别单元的检测性能仅在给出的场景中退化。这种现象的原因是特定场景的图像特征的存在。例如,检测目标物体的特定部分趋于被隐藏的场景具有对隐藏部分特定的图像特征。在检测目标物体的姿势或图像获得环境改变时,识别所需的图像特征改变。此外,在特征物体趋于被反映在检测处理目标图像中的检测目标物体的背景部分的场景中,在物体周围存在特定物体的图像特征。由于这个原因,通过基于第二识别单元中的图像特征向量而新生成弱鉴别器,特定场景的图像特征的附加学习变得可能,并且能够预期检测率的提高。
将说明识别情境特征向量的弱鉴别器的效果。例如,在图像特征无法完全表达检测目标物体与背景之间的差异的情况下,仅基于图像特征的识别可能是困难的。这种情况的示例是检测目标物体的隐藏大的情况,以及检测目标物体的形状的多样性大的情况。在仅基于图像特征的识别是困难的情况下,需要进行基于除图像特征以外的信息的识别。例如,当使用检测物体的出现位置信息时,预期容易识别物体是否是检测目标物体,同时减小隐藏的影响。在第二识别单元中新生成基于情境特征向量的弱鉴别器。这使得能够进行基于情境的识别。在上述的场景中识别变得可能,而与图像特征无关,并且能够预期检测率的提高。
将说明识别图像特征向量和情境特征向量的弱鉴别器的效果。依据场景,在图像特征与情境特征之间存在某些相关性。例如,当情境是检测目标物体的出现位置信息时,对识别有用的图像特征有时依据检测目标物体的出现位置而改变。例如,有用的图像特征可以在近处存在的高分辨率物体与远处存在的低分辨率物体之间不同。其他的示例是,隐藏可以依据出现位置而存在或不存在,并且在出现检测目标物体时生成特定改变的情况,以及照明条件依据出现位置而改变并且检测目标物体和背景的阴影改变的情况。因此,在本实施例中,在第二识别单元中新生成基于图像特征向量和情境特征向量二者的弱鉴别器。基于图像特征与情境特征之间的相关性的识别变得可能,并且能够预期检测率的提高。
如上所述,根据本实施例,生成不仅基于图像特征还基于情境信息的弱鉴别器。更具体地,鉴别器候选生成单元基于由第一识别单元获得的第一似然度以及情境信息而生成弱鉴别器候选,并且鉴别器选择单元选择期望的鉴别器以构成第二识别单元。结果,能够添加情境信息。
[第二实施例]
在第一实施例中,情境特征向量为c=(y/h,1/h)。然而,在步骤S304中,可以获得代表时间、日期、星期、月、季节或其他时间的数值或属性标签,作为情境特征向量。作为另选方案,可以获得代表天气、气温、湿度、气压、降水、积雪、风向、风速、太阳方向、太阳辐射、雾厚度、能见度或其他气候条件的数值或属性标签,作为情境特征向量。例如,令t为时间,则情境特征向量可以被获得为c=(t)。
在这些情境中,可以从钟表获得代表时间的情境,或可以从传感器获得代表气候条件的情境。可以由人手动地或者经由网络外部地输入这样的情境。可以从照相机图像估计产生视觉变化的情境,诸如太阳方向。
例如,将说明当时间被用作情境特征向量的效果。拍摄环境或检测目标物体的外观有时依据时间而改变。例如,当检测目标物体是人时,阴影可以依据照明条件的改变而在早晨与晚上之间不同,或者人的服饰或物件可能改变。在这种情况下,认为背景的图像特征或检测目标物体的图像特征依据时间而改变。通过根据时间改变图像特征使用方法,预期识别性能的提高。
即使当关于时间的其他特征或关于气候条件的其他特征被用作情境特征向量时,也能够预期相同的效果。即,由于在背景图像的图像特征或检测目标物体的图像特征中生成与情境相对应的改变,因此通过根据情境改变图像特征使用方法来预期识别性能的提高。
由于诸如时间或气候条件的情境独立于检测目标物体的位置,因此即使在照相机不固定的场景中也能够学习情境。
为了获得图像特征与情境特征之间的相关性,可以将它们的联合概率分布考虑在内。当采用式(13)作为弱鉴别器候选时,式(13)中的P(y=+1|x)和P(y=-1|x)可以是由学习样本的权重加权的图像特征和情境特征的联合概率密度分布。更具体地,联合概率密度分布被表达为二维直方图W+ jk和W- jk。通过基于转换表J和K将特征量转换成直方条编号,并综合与直方条相对应的学习样本权重,来计算二维直方图W+ jk和W- jk:
其中,j和k分别是二维直方图的直方条的行号和列号,i是样本的数量,ui是图像特征向量元素值,J是用于将图像特征的值转换成二维直方图的直方条的行号的转换表,ti是时间,并且K是用于将时间转换成二维直方图的直方条的列号的转换表。
作为弱鉴别器候选,可以采用近似式(14)代替式(13)。在这种情况下,针对图像特征和环境特征中的各个,创建表示由学习样本加权的概率密度分布W+ j、W- j、P(c|y=+1)和P(c|y=-1)的一维直方图。式(17)中的z被用作弱鉴别器的评价得分。
[第三实施例]
在第一实施例中,情境特征向量为c=(y/h,1/h)。然而,在步骤S304中,可以获得图像的提取帧的高度h和宽度w、以及检测帧中的特定位置的x坐标和y坐标,或者它们中的所期望的组合中的期望的一者,作为情境特征向量。例如,c=(x,y,y/h)。这产生如下的效果,即,区分检测目标物体趋于出现的区域和检测目标物体几乎不出现的区域。例如,当检测目标物体是人体并且在场景中存在壁面时,人体不存在于壁面内部,并且能够使用x坐标和y坐标来区分人体能够存在的区域和人体不能存在的区域。
在这种情况下,为了在步骤S505中生成识别情境特征向量的弱鉴别器候选,可以计算情境特征向量的一个或多个要素的集合的联合概率密度分布,作为式(9)中的P(c|y=+1)和P(c|y=-1)。为了在步骤S508中生成识别图像特征向量和情境特征向量的弱鉴别器候选,可以计算图像特征向量和情境特征向量的联合概率密度分布,作为式(13)中的P(x|y=+1)和P(x|y=-1)。当计算该联合概率密度分布时,可以通过应用到如式(11)中的期望的模型来进行最大似然度估计。作为另选方案,可以通过投票或核密度估计来获得联合概率密度分布。
[第四实施例]
在第一实施例中,情境特征向量为c=(y/h,1/h)。然而,在步骤S304中,可以获得包括检测目标区域的、检测目标区域周围的部分图像的图像特征向量,作为情境特征向量c。更具体地,从图9中的检测目标区域902周围的阴影区域901提取图像特征向量r,并将其设置为情境特征向量c。即,c=r。HOG、LBP、图像的辉度值、第一识别单元的输出值或其他特征量可以被用作用于获得情境特征向量的图像特征。在这种情况下,如由式(9)表示的、识别情境特征向量的弱鉴别器,可以具有与如由式(6)表示的、识别图像特征向量的弱鉴别器相同的格式。
将说明本实施例的效果。在一些情况下,检测目标物体的出现频率和背景图像具有特定的相关性。例如,人体往往出现在具有表示脚下的表面像是道路的纹理或颜色的位置处。在这种情况下,能够通过学习包括检测目标区域的、检测目标区域周围的部分图像,来学习背景图像,并且能够预期检测性能的提高。
[第五实施例]
在第一实施例中,情境特征向量为c=(y/h,1/h)。然而,在步骤S304中,可以获得运动图像的运动信息,作为情境特征向量。更具体地,令m为代表运动信息的特征向量,则情境特征向量为c=m。作为运动信息,可以使用检测目标区域的光流,或者可以使用帧间差分图像或背景差分图像。代表物体的轨迹的坐标值可以被用作运动信息。
将说明使用运动信息作为情境特征向量的效果。当检测目标物体是运动物体时,认为运动信息在检测目标物体与背景之间不同。例如,当运动信息为光流,预期光流的方向和强度在检测目标物体与背景之间不同。由于运动信息是用于分离检测目标物体和背景的有用特征,因此通过生成识别运动信息的弱鉴别器,来预期识别性能的提高。
当使用对照相机运动鲁棒的运动信息时,即使在照相机是不固定的场景中,也能够学习情境。对照相机运动鲁棒的运动信息的示例是,通过从检测目标区域的光流减去整个图像的光流的平均值而获得的信息。
作为式(9)中的识别运动信息的弱鉴别器,可以生成使用通过特征选择的期望的运动特征的弱鉴别器,诸如式(6)中的识别图像特征的弱鉴别器。作为式(13)中的识别图像特征和运动信息的弱鉴别器,可以生成考虑图像特征和运动特征的共现的弱鉴别器。
[第六实施例]
在第一实施例中,情境特征向量为c=(y/h,1/h)。然而,在步骤S304中,可以获得由环境中安装的传感器获得的数值或属性标签,作为情境特征向量。更具体地,可以使用红外线传感器、距离传感器、温度传感器、麦克风、不可见光照相机图像、地面压力传感器或者其他传感器。此外,可以使用距离测量传感器、曝光计或其他并入在照相机中的传感器。
将说明当由环境中安装的传感器获得的信息被用作情境特征向量时的效果。预期能够考虑根据传感器信息的改变而变化的检测目标物体的出现频率,并且能够预期识别性能的提高。例如,能够使用如下的事实用于识别,即,在场景中存在检测目标物体的似然度依据由区域传感器对检测目标物体的检测的存在/不存在而改变。通过将传感器信息与图像特征组合,考虑到根据传感器信息的改变的、拍摄环境或检测目标物体的外观的改变的识别变得可能,并且能够预期识别性能的提高。例如,当检测目标物体的外观(例如,服装)根据从温度传感器获得的温度而改变时,能够根据温度改变图像特征使用方法,并且预期识别性能的提高。
[第七实施例]
在步骤S304中,可以获得场景的拥堵程度,作为情境特征向量。当检测目标物体是人时,拥堵程度可以是场景中的人的密度、人之间的距离的平均值、或者属于移动物体的像素与从场景获得的图像的像素的比。
可以从检测目标物体的检测结果,来估计从场景中的移动物体检测结果估计或手动地指定的场景的拥堵程度。此外,也可以从场景中安装的传感器获得场景的拥堵程度。拥堵程度可以被获得为从场景获得的整个图像的均匀程度,或被获得为依据位置而改变的程度。
将说明当场景的拥堵程度被用作情境特征向量的效果。图像特征和拥堵程度有时具有相关性。例如,当检测目标物体是人时,对识别有用的图像特征有时在人彼此交叠的情况和人彼此不交叠的情况之间不同。由于背景被遮蔽,因此对识别有用的图像特征可能改变。通过引入拥堵程度,能够根据拥堵程度来改变图像特征使用方法,并且预期识别性能的提高。
[第八实施例]
在步骤S304中,可以获得多种类型的情境的组合,作为情境特征向量。示例是检测目标物体的位置信息和时间的组合。
在步骤S403中,可以生成利用情境的任意组合之间的共现的弱鉴别器候选,也可以针对多种类型的情境生成弱鉴别器候选,或者可以生成这些弱鉴别器候选二者。作为利用共现的弱鉴别器,如在第二实施例中,生成基于联合概率密度分布的弱鉴别器。通过使用多种类型的情境,增加了识别方法,图像特征与各个情境之间的相关性能够被用于识别,并且能够预期识别性能的提高。
[第九实施例]
在步骤S304中,可以获得代表在环境中安装的装置的工作状况或操作状况的数值或属性标签,作为情境特征向量。示例是自动门或手动门的打开/关闭的有/无、打开/关闭时间以及打开/关闭历史。其他示例是诸如个人计算机或复印机等的办公设备、机器工具或其他装置的操作的有/无、操作时间以及操作历史。可以从附装到装置的传感器获得代表在环境中安装的装置的工作状况或操作状况的数值或属性标签,或者从照相机图像估计。
将说明使用代表环境中安装的装置的工作状况或操作状况的数值或属性标签,作为情境特征向量的效果。在某些情况下,装置的工作状况或操作状况、与检测目标物体的出现频率或出现位置具有相关性。将例示检测目标是人的情况。当自动门或手动门被打开/关闭时,通常认为在门附近存在要通过门的人。当装置被操作时,认为在装置附近存在对装置进行操作的人。以这种方式,装置的工作状况或操作状况、与检测目标物体的存在的似然度具有相关性。通过学习它们之间的相关性,预期识别性能的提高。作为弱鉴别器,例如,可以生成基于表示装置的工作状况的属性标签、和检测目标物体的位置信息的联合概率密度分布的弱鉴别器。
[第十实施例]
在第一实施例中,第一识别单元和第二识别单元构成作为弱鉴别器的集合的鉴别器。已知的是,当采用系列布置称为阶段的、多个弱鉴别器的集合的级联布置时,如在非专利文献3(Paul Viola and Michael Jones,"Robust Real-time Object Detection",IJCV2001)中,能够在检测处理时的中途结束一系列弱鉴别器的评价,并且获得检测处理量减少效果。
可以采用第一识别单元被构造为第一阶段并且第二识别单元被构造为第二阶段的级联布置。可以采用软级联或多出口级联布置,如在非专利文献4(Lubomir Bourdev andJonathan Brandt,"Robust Object Detection Via Soft Cascade",CVPR2005)中描述的一种级联布置。在这种布置中,第一识别单元和第二识别单元的弱鉴别器的集合被综合,然后被分割成阶段。也能够在各个阶段结束时的弱鉴别器中布置如下的机构,即,根据级联鉴别器的框架基于弱鉴别器的似然度的积分值中途结束计算,并且将检测处理目标图像的部分图像强制分类为背景图像。
[第十一实施例]
如在非专利文献3中,第一识别单元可以由级联鉴别器构成。在这种情况下,如在非专利文献3中所述的,针对各个阶段进行学习。更具体地,可以准备与各个阶段相对应的第二识别单元,并可以针对第一识别单元中的各个阶段进行遵循图3的流程图的处理。通过由级联鉴别器构成第一识别单元,能够减少弱鉴别器的评价计数,并且预期检测处理量降低效果。
[第十二实施例]
虽然图1中所示的各个单元可以由硬件(例如电子电路)构成,但是它们可以由软件(计算机程序)构成。在这种情况下,能够执行软件的装置适用于具有图1中所示的布置的信息处理装置。例如,具有如图2中所示的布置的摄像装置适用于具有图1中所示的布置的信息处理装置。
参照图2,图像传感器201由CCD、MOS等形成。图像传感器201将外部光转换成模拟电信号,并输出该信号。信号处理单元202将模拟电信号转换成数字电信号,并且将该数字电信号作为输入图像发送到RAM 205。
ROM 204存储用于该装置的设置数据和启动程序,以及用于使CPU 203执行图1中所示的各个单元的功能(用于使CPU 203执行遵循上述的流程图的处理)的计算机程序和数据。ROM 204还存储上述的各种信息,作为已知信息。
CPU 203通过使用ROM 204和RAM 205中存储的计算机程序和数据执行各种处理来控制整个装置的操作。此外,CPU 203执行已被描述为要由该装置所应用到的信息处理装置进行的处理。CPU 203可以由信号处理单元202从RAM 205中存储的输入图像提取特定区域(可以通过从图像对识别目标物体进行辨识来检测该区域,或通过对操作单元(未示出)进行操作来由用户指定该区域)中的图像,作为识别目标图像。
RAM 205具有用于临时存储从信号处理单元202发送的输入图像等的区域、当CPU203执行各种处理时使用的工作区域等。换言之,RAM 205能够适当地提供各种区域。
显示器206由液晶屏等形成,并且能够将由CPU 203的处理结果显示为图像、字符等。例如,显示器206显示用于输入各种指令(例如由用户的区域指定)的画面,以及由综合识别单元108的处理结果。图1中所示的各个单元中的一些可以由硬件(例如电子电路)来实现。
当识别单元101和学习单元111被处理为分开的装置时,如上所述,如图2中所示的摄像装置,以及能够执行软件的装置,可以应用到各个装置。
可以应用具有从图2的布置中省略了图像传感器201和信号处理单元202之后的剩余布置的装置(例如,通用个人计算机),代替图2中的摄像装置。
其他实施例
还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如,一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如,专用综合电路(ASIC))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法,来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如,中央处理单元(CPU),微处理单元(MPU)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)TM)、闪存装置以及存储卡等中的一个或更多个。
虽然参照示例性实施例对本发明进行了描述,但是应当理解,本发明不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以使其涵盖所有这些变型例以及等同的结构和功能。
本申请要求2014年3月27日提交的日本专利申请第2014-066802号的优先权,该申请的全部内容通过引用并入本文。
Claims (8)
1.一种信息处理装置,所述信息处理装置包括:
被构造为从输入的图像获得特征量的单元;
被构造为获得情境信息的单元,该情境信息代表场景中的、输入的图像的区域;
第一识别单元,其被构造为从特征量获得表示所述输入的图像是特定物体的图像的似然度的第一似然度;
第二识别单元,其被构造为从情境信息和所述特征量获得表示所述输入的图像是特定物体的图像的似然度的第二似然度;以及
被构造为通过使用第一似然度和第二似然度来识别所述输入的图像是否是特定物体的图像的单元,
其中,第二识别单元包括使用第一似然度和情境信息而学习的鉴别器。
2.根据权利要求1所述的信息处理装置,其中,第二识别单元的鉴别器包括,从使用第一似然度和情境信息而生成的鉴别器的候选中选择的鉴别器。
3.根据权利要求2所述的信息处理装置,其中,第二识别单元的鉴别器包括,从针对通过将特征量和情境信息连结而获得的样本、使用基于第一似然度设置的权重而进一步生成的鉴别器的候选中选择的鉴别器。
4.根据权利要求1至3中任一项所述的信息处理装置,其中,情境信息包括所述输入的图像在原图像中的位置和大小,所述输入的图像是从所述原图像中提取。
5.一种信息处理装置,所述信息处理装置包括:
被构造为从输入的图像获得特征量的单元;
被构造为获得情境信息的单元,该情境信息代表场景中的、输入的图像的区域;
第一识别单元,其被构造为从特征量获得表示所述输入的图像是特定物体的图像的似然度的第一似然度;以及
学习单元,其被构造为通过使用第一似然度和情境信息,对第二识别单元进行学习,其中所述第二识别单元被构造为从情境信息获得表示所述输入的图像是特定物体的图像的似然度的第二似然度。
6.根据权利要求5所述的信息处理装置,其中,学习单元包括:
被构造为通过使用第一似然度和情境信息而生成鉴别器的候选的单元;以及
被构造为基于针对鉴别器的候选中的各个获得的评价得分从鉴别器的候选中选择至少一个候选,并且由所选择的候选来构成第二识别单元的单元。
7.一种要由信息处理装置进行的信息处理方法,所述信息处理方法包括:
使被构造为获得信息处理装置的特征量的单元,从输入的图像获得特征量;
使被构造为获得信息处理装置的情境信息的单元,获得情境信息,该情境信息代表场景中的、输入的图像的区域;
使信息处理装置的第一识别单元,从特征量获得表示所述输入的图像是特定物体的图像的似然度的第一似然度;
使信息处理装置的第二识别单元,从情境信息和所述特征量获得表示所述输入的图像是特定物体的图像的似然度的第二似然度;以及
使信息处理装置的识别单元,通过使用第一似然度和第二似然度来识别所述输入的图像是否是特定物体的图像,
其中,第二识别单元包括使用第一似然度和情境信息而学习的鉴别器。
8.一种要由信息处理装置进行的信息处理方法,所述信息处理方法包括:
使被构造为获得信息处理装置的特征量的单元,从输入的图像获得特征量;
使被构造为获得信息处理装置的情境信息的单元,获得情境信息,该情境信息代表场景中的、输入的图像的区域;
使信息处理装置的第一识别单元,从特征量获得表示所述输入的图像是特定物体的图像的似然度的第一似然度;以及
使信息处理装置的学习单元,通过使用第一似然度和情境信息对第二识别单元进行学习,其中所述第二识别单元被构造为从情境信息获得表示所述输入的图像是特定物体的图像的似然度的第二似然度。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-066802 | 2014-03-27 | ||
JP2014066802A JP6320112B2 (ja) | 2014-03-27 | 2014-03-27 | 情報処理装置、情報処理方法 |
PCT/JP2015/059828 WO2015147317A1 (en) | 2014-03-27 | 2015-03-24 | Information processing apparatus and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106164980A CN106164980A (zh) | 2016-11-23 |
CN106164980B true CN106164980B (zh) | 2020-06-30 |
Family
ID=54195819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580016428.8A Active CN106164980B (zh) | 2014-03-27 | 2015-03-24 | 信息处理装置以及信息处理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10255517B2 (zh) |
EP (1) | EP3092619B1 (zh) |
JP (1) | JP6320112B2 (zh) |
KR (1) | KR101964397B1 (zh) |
CN (1) | CN106164980B (zh) |
WO (1) | WO2015147317A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6707131B2 (ja) * | 2016-06-24 | 2020-06-10 | オリンパス株式会社 | 画像処理装置、学習装置、画像処理方法、識別基準の作成方法、学習方法およびプログラム |
JP6828333B2 (ja) * | 2016-09-13 | 2021-02-10 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP6418211B2 (ja) * | 2016-09-15 | 2018-11-07 | オムロン株式会社 | 識別情報付与システム、識別情報付与装置、識別情報付与方法及びプログラム |
JP6912890B2 (ja) * | 2017-01-13 | 2021-08-04 | キヤノン株式会社 | 情報処理装置、情報処理方法、システム |
JP7058941B2 (ja) * | 2017-01-16 | 2022-04-25 | キヤノン株式会社 | 辞書生成装置、辞書生成方法、及びプログラム |
CA3052845C (en) * | 2017-02-09 | 2024-01-02 | Laing O'rourke Australia Pty Ltd | System for identifying a defined object |
JP6438549B1 (ja) * | 2017-08-24 | 2018-12-12 | 日本分光株式会社 | 機械学習を用いた未知化合物の分類方法 |
JP6930389B2 (ja) * | 2017-11-16 | 2021-09-01 | 日本電信電話株式会社 | 画像収集装置、プログラム、及び方法 |
CN110163033B (zh) * | 2018-02-13 | 2022-04-22 | 京东方科技集团股份有限公司 | 正样本获取方法、行人检测模型生成方法和行人检测方法 |
CN110197190B (zh) * | 2018-02-27 | 2022-11-01 | 北京猎户星空科技有限公司 | 模型训练和物体的定位方法及装置 |
US11163862B2 (en) * | 2018-05-16 | 2021-11-02 | International Business Machines Corporation | Authentication of users based on snapshots thereof taken in corresponding acquisition conditions |
JP7056401B2 (ja) * | 2018-06-18 | 2022-04-19 | 日本製鉄株式会社 | 連続鋳造用モールド内のボイル検出方法、連続鋳造鋳片の品質判定方法、連続鋳造設備の監視方法、連続鋳造用モールド内のボイル検出装置 |
US10706499B2 (en) * | 2018-06-21 | 2020-07-07 | Canon Kabushiki Kaisha | Image processing using an artificial neural network |
JP6976910B2 (ja) * | 2018-07-04 | 2021-12-08 | 株式会社日立製作所 | データ分類システム、データ分類方法、および、データ分類装置 |
JP7222519B2 (ja) * | 2018-09-10 | 2023-02-15 | 公立大学法人岩手県立大学 | オブジェクト識別システム、モデル学習システム、オブジェクト識別方法、モデル学習方法、プログラム |
JP6695947B2 (ja) | 2018-09-21 | 2020-05-20 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像システム、画像処理方法及びプログラム |
US11080867B2 (en) * | 2019-01-03 | 2021-08-03 | United States Of America As Represented By The Secretary Of The Army | Motion-constrained, multiple-hypothesis, target- tracking technique |
WO2020149242A1 (ja) * | 2019-01-17 | 2020-07-23 | Arithmer株式会社 | 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。 |
JP6508797B1 (ja) * | 2019-01-17 | 2019-05-08 | Arithmer株式会社 | 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。 |
JP6756961B1 (ja) * | 2019-03-29 | 2020-09-16 | Arithmer株式会社 | 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。 |
JP7234718B2 (ja) * | 2019-03-18 | 2023-03-08 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システム及びプログラム |
JP7144384B2 (ja) * | 2019-09-25 | 2022-09-29 | Kddi株式会社 | オブジェクト検出装置、方法及びプログラム |
JP2022550548A (ja) * | 2019-09-29 | 2022-12-02 | ザックダン カンパニー | 機械学習を利用した画像内客体認識方法及び装置 |
JP7028299B2 (ja) * | 2020-10-07 | 2022-03-02 | 三菱電機株式会社 | 目標識別装置 |
US11687620B2 (en) | 2020-12-17 | 2023-06-27 | International Business Machines Corporation | Artificial intelligence generated synthetic image data for use with machine language models |
JP2024102390A (ja) * | 2021-06-03 | 2024-07-31 | コニカミノルタ株式会社 | 検査装置、検査方法、および検査プログラム |
WO2023082788A1 (zh) * | 2021-11-11 | 2023-05-19 | 新智我来网络科技有限公司 | 烟气含氧量负荷预测方法、预测模型选择方法、烟气排放预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1983303A (zh) * | 2005-12-15 | 2007-06-20 | 索尼株式会社 | 图像处理设备、方法及程序 |
EP2518661A2 (en) * | 2011-04-29 | 2012-10-31 | Tata Consultancy Services Limited | System and method for human detection and counting using background modeling, hog and haar features |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315670B (zh) | 2007-06-01 | 2010-08-11 | 清华大学 | 特定被摄体检测装置及其学习装置和学习方法 |
JP5096211B2 (ja) | 2008-03-31 | 2012-12-12 | 富士フイルム株式会社 | 確率分布構築方法、確率分布構築装置、および確率分布構築プログラム、並びに被写体検出方法、被写体検出装置、および被写体検出プログラム |
US8107726B2 (en) * | 2008-06-18 | 2012-01-31 | Samsung Electronics Co., Ltd. | System and method for class-specific object segmentation of image data |
JP5261312B2 (ja) * | 2009-07-30 | 2013-08-14 | 富士フイルム株式会社 | 画像解析装置、画像解析方法およびプログラム |
JP5209593B2 (ja) | 2009-12-09 | 2013-06-12 | 日本電信電話株式会社 | 映像編集装置,映像編集方法および映像編集プログラム |
US8565482B2 (en) | 2011-02-28 | 2013-10-22 | Seiko Epson Corporation | Local difference pattern based local background modeling for object detection |
JP5769488B2 (ja) * | 2011-04-27 | 2015-08-26 | キヤノン株式会社 | 認識装置、認識方法及びプログラム |
WO2012176317A1 (ja) * | 2011-06-23 | 2012-12-27 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム |
US9367733B2 (en) * | 2012-11-21 | 2016-06-14 | Pelco, Inc. | Method and apparatus for detecting people by a surveillance system |
JP6482195B2 (ja) | 2014-07-02 | 2019-03-13 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
JP6525635B2 (ja) | 2015-02-25 | 2019-06-05 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
-
2014
- 2014-03-27 JP JP2014066802A patent/JP6320112B2/ja active Active
-
2015
- 2015-03-24 US US15/121,899 patent/US10255517B2/en active Active
- 2015-03-24 KR KR1020167029372A patent/KR101964397B1/ko active IP Right Grant
- 2015-03-24 EP EP15769968.7A patent/EP3092619B1/en active Active
- 2015-03-24 CN CN201580016428.8A patent/CN106164980B/zh active Active
- 2015-03-24 WO PCT/JP2015/059828 patent/WO2015147317A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1983303A (zh) * | 2005-12-15 | 2007-06-20 | 索尼株式会社 | 图像处理设备、方法及程序 |
EP2518661A2 (en) * | 2011-04-29 | 2012-10-31 | Tata Consultancy Services Limited | System and method for human detection and counting using background modeling, hog and haar features |
Non-Patent Citations (1)
Title |
---|
Context based object categorization: A critical survey;Carolina Galleguillos et al.;《Computer Vision and Image Understanding》;20101231;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
US20170017859A1 (en) | 2017-01-19 |
JP2015191334A (ja) | 2015-11-02 |
KR20160136391A (ko) | 2016-11-29 |
CN106164980A (zh) | 2016-11-23 |
WO2015147317A1 (en) | 2015-10-01 |
KR101964397B1 (ko) | 2019-04-01 |
US10255517B2 (en) | 2019-04-09 |
JP6320112B2 (ja) | 2018-05-09 |
EP3092619B1 (en) | 2023-05-10 |
EP3092619A4 (en) | 2017-09-20 |
EP3092619A1 (en) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106164980B (zh) | 信息处理装置以及信息处理方法 | |
Camplani et al. | Background foreground segmentation with RGB-D Kinect data: An efficient combination of classifiers | |
US8737740B2 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
JP6482195B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
US8406470B2 (en) | Object detection in depth images | |
US8374440B2 (en) | Image processing method and apparatus | |
JP6532317B2 (ja) | 物体追尾装置、物体追尾方法及びプログラム | |
JP2008192131A (ja) | 特徴レベル・セグメンテーションを実行するシステムおよび方法 | |
CN109727275B (zh) | 目标检测方法、装置、系统和计算机可读存储介质 | |
Noriega et al. | Real Time Illumination Invariant Background Subtraction Using Local Kernel Histograms. | |
WO2008072622A1 (ja) | 顔認証装置 | |
CN104036284A (zh) | 基于Adaboost算法的多尺度行人检测方法 | |
CN110008795A (zh) | 图像目标追踪方法及其系统与计算机可读取存储介质 | |
Jiang et al. | Multiple pedestrian tracking using colour and motion models | |
Song et al. | Background subtraction based on Gaussian mixture models using color and depth information | |
CN107368832A (zh) | 基于图像的目标检测及分类方法 | |
JP6613687B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN107665495B (zh) | 对象跟踪方法及对象跟踪装置 | |
Zheng et al. | Shadow removal for pedestrian detection and tracking in indoor environments | |
KR101681233B1 (ko) | 저 에너지/해상도 가지는 얼굴 검출 방법 및 장치 | |
CN112560557A (zh) | 人数检测方法、人脸检测方法、装置及电子设备 | |
JP5241687B2 (ja) | 物体検出装置及び物体検出プログラム | |
JP2014203133A (ja) | 画像処理装置、画像処理方法 | |
Kim et al. | Background modeling using adaptive properties of hybrid features | |
Sekkati et al. | Robust background subtraction using geodesic active contours in ICA subspace for video surveillance applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |