CN102385437A - 信息处理设备、方法和程序 - Google Patents

信息处理设备、方法和程序 Download PDF

Info

Publication number
CN102385437A
CN102385437A CN201110251643XA CN201110251643A CN102385437A CN 102385437 A CN102385437 A CN 102385437A CN 201110251643X A CN201110251643X A CN 201110251643XA CN 201110251643 A CN201110251643 A CN 201110251643A CN 102385437 A CN102385437 A CN 102385437A
Authority
CN
China
Prior art keywords
discr
eigenwert
image
interest
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110251643XA
Other languages
English (en)
Inventor
山冈启介
小柳津秀纪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102385437A publication Critical patent/CN102385437A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了一种信息处理设备、方法和程序,所述信息处理设备包括:适合于输入图像的输入部分;适合于从输入图像中检测摄像对象的部位的检测部分;适合于从所检测的部位中设定关注区域的关注区域设定块;适合于从所检测的部位中设定限制区域的限制区域设定块;和适合于提取由限制区域限制的关注区域的特征值的提取部分。

Description

信息处理设备、方法和程序
技术领域
本发明涉及信息处理设备、方法和程序,更具体地说,涉及特征值的提取的信息处理设备、方法和程序。
背景技术
为了控制电视接收机的操作,使用了遥控器。如果操作遥控器的按钮,那么与操作的按钮对应的红外信号被传送给作为控制对象的电视接收机。电视接收机根据与接收的红外信号对应的命令,控制各种操作。
虽然遥控器通常放在桌子、沙发等上,然而,有时会忘记放置遥控器的地方。在这种情况下,用户必须不方便地寻找遥控器。
于是,还提出了利用用户的姿势输入命令。为了检测姿势,预定算法被用于估计人的姿势。例如,在Ankur Agarwal和Bill Triggs的“A LocalBasis Representation for Estimating Human Pose from ClutteredImages”(Proceedings of the 7th Asian Conference on Computer Vision,2006)中说明了这种算法。
发明内容
按照上述算法,使用称为岭回归的多重回归分析来确定在关心区域中提取的称为尺度不变特征变换(SIFT)的局部特征值和人体的关节的三维坐标之间的非线性映射,以估计人体姿势。
此外,为了提高估计的准确性,进行抑制关注区域中除人体以外的背景部分中的特征值的处理。具体地说,利用使用称为非负矩阵分解(NMF)的技术确定的背景的特征值的基底,指定背景部分,从而抑制背景部分中的特征值。
然而,难以高效地提取有效的特征值。
于是,理想的是提供一种能够简单地提取有效特征值的信息处理设备、方法和程序。
按照本发明的一个实施例,提供一种信息处理设备,包括适合于输入图像的输入部分,适合于从输入图像中检测摄像对象的部位的检测部分,适合于从所检测的部位中设定关注区域的关注区域设定块,适合于从所检测的部位中设定限制区域的限制区域设定块,和适合于提取由限制区域限制的关注区域的特征值的提取部分。
在信息处理设备中,输出部分输入图像,检测部分从输入图像中检测摄像对象的部位。此外,关注区域设定块从检测部位中设定关注区域,限制区域设定块从检测部位中设定限制区域。随后,提取部分提取由限制区域限制的关注区域的特征值。
按照另一个实施例,提供一种信息处理方法,包括输入图像;从输入图像中检测摄像对象的部位;从所检测的部位中设定关注区域;从所检测的部位中设定限制区域,和提取由限制区域限制的关注区域的特征值。
按照另一个实施例,提供一种使计算机起如上所述的信息处理设备的作用的程序。
借助所述信息处理设备、方法和程序,能够简单地提取有效的特征值。
根据结合附图得到的下述说明和附加权利要求,本发明的上述及其它特征和优点将变得明显,附图中,相同的部分或部件用相同的附图标记表示。
附图说明
图1是表示按照本发明的一个实施例的信息处理设备的结构的方框图;
图2是图解说明信息处理设备的控制处理的流程图;
图3是表示关注区域的例子的示意图;
图4表示手区域的例子的示意图;
图5是表示限制区域的例子的示意图;
图6是表示从中提取特征值的范围的示意图;
图7是图解说明信息处理设备的限制区域学习处理的流程图;
图8是图解说明限制区域学习处理的例子的示意图;
图9是表示图1中所示的特征值算术运算块的结构的方框图;
图10是表示学习设备的结构的方框图;
图11是表示图10中所示的服装鉴别器生成部分的详细结构的例子的方框图;
图12是表示图10中所示的轮廓特征值计算部分的详细结构的例子的方框图;
图13是图解说明方向可控滤波器的示意图;
图14是图解说明当对图像进行滤波处理时的结果的示意图;
图15是图解说明学习处理的流程图;
图16是图解说明服装鉴别器生成处理的流程图;
图17是图解说明轮廓特征值计算处理的流程图;
图18是图解说明服装特征点的提取的示意图;
图19是图解说明服装特征值的示意图;
图20是图解说明每对服装特征点的服装特征值的采样的示意图;
图21是图解说明弱鉴别器的设定的示意图;
图22是表示一对服装特征点的示意图;
图23A和23B是图解说明轮廓特征点的提取的示意图;
图24是表示识别设备的结构的方框图;
图25是图解说明人检测处理的流程图;
图26是图解说明鉴别器的生成原理的方框图;
图27是表示按照本发明的另一个实施例的图像处理设备的结构的方框图。
具体实施方式
下面参考附图,按照下述顺序说明本发明的实施例。
<第一实施例>
[信息处理设备的结构]
[控制处理]
[学习处理]
[特征值算术运算块的结构]
[学习设备的结构]
[服装鉴别器生成部分的结构]
[轮廓特征值计算部分的结构]
[鉴别器和生成的学习处理]
[服装鉴别器生成处理]
[轮廓特征值计算处理]
[识别设备的结构]
[识别处理]
[鉴别器的原理]
<第二实施例>
<变形例>
<程序的应用>
<其它>
<第一实施例>
[信息处理设备的结构]
图1表示按照本发明的第一实施例的信息处理设备的结构。参见图1,所示的信息处理设备1包括图像输入部分11、检测部分12、区域设定部分13、特征值提取部分14、区域设定部分15、姿势估计部分16、检测部分17和控制部分18。
信息处理设备1由例如电视接收机构成。图像输入部分11例如是摄像机,并安装在电视接收机的显示器(未示出)上,以拍摄用户的图像。
检测部分12检测作为摄像对象的用户的部位。检测部分12包括面部检测块21和手检测块22。面部检测块21从输入图像部分11供给的图像中,检测作为用户的部位的面部。手检测块22从输入图像部分11供给的图像中,检测作为用户的部位的手。
区域设定部分13被用于设定关注区域,包括面部区域设定块31和关注区域设定块32。面部区域设定块31根据面部检测块21检测的面部,设定面部被置于其中的面部区域。关注区域设定块32根据面部区域设定块31设定的面部区域,设定从中提取特征值的关注区域。
特征值提取部分14被用于提取有效特征值,包括特征值算术运算块41和特征值限制块42。特征值算术运算块41算术运算在关注区域设定块32设定的关注区域中的特征值。特征值限制块42根据特征值算术运算块41算术运算的特征值,对限制区域中的特征值进行限制,并提取关注区域中的有效范围内的特征值。
区域设定部分15包括手区域设定块51、限制区域设定块52、存储块53和输入块54。手区域设定块51根据手检测块22检测的手,设定手被置于其中的手区域。限制区域设定块52根据面部区域设定块31设定的面部区域和/或手区域设定块51设定的手区域,设定限制区域。存储块53保存面部区域和/或手区域与限制区域之间的关系。限制区域设定块52根据存储块53的存储,设定由面部区域和/或手区域限定的限制区域。输入块54根据用户的指令,输入限制区域等的数据。
姿势估计部分16根据特征值限制块42提取的特征值,估计用户的姿势。检测部分17根据姿势估计部分16估计的姿势,检测对应的命令。控制部分18根据检测部分17检测的命令,执行预定控制处理。
在包括上述部件的一种信息处理设备中,输入部分11被配置成适合于输入图像,检测部分12被配置成适合于从输入图像中检测摄像对象的部位,关注区域设定块32被配置成适合于从所检测的部位中设定关注区域,限制区域设定块52被配置成适合于从所检测的部位中设定限制区域,并且提取部分14被配置成适合于提取由限制区域限制的关注区域的特征值。
[控制处理]
图2图解说明控制处理。下面参考图2,说明信息处理设备1的控制处理。在信息处理设备1的电源保持接通的时候,反复执行图2的处理。
在步骤S1,图像输入部分11输入图像。具体地,拍摄和更新注视图像处理设备1的显示器的用户的图像。在步骤S2,面部检测块21从输入图像中,检测用户的面部。在步骤S3,面部区域设定块31根据检测的面部,在预定范围内设定面部区域。在步骤S4,关注区域设定块32根据在步骤S3设定的面部区域,在预定范围内设定关注区域。
图3表示关注区域的例子。参见图3,包括从输入图像101内检测的面部的预定区域被设定成面部区域。在图3的例子中,包括检测的面部的四边形区域被设定成面部区域111。
此外,在图3的例子中,把面部区域111包括在其内部的四边形设定成关注区域112。具体地,面部区域111的上边被置于关注区域112的上边的中央。在面部区域111的水平方向长度用Wh表示的情况下,从面部区域111的右侧边到关注区域112的右侧边的长度约为长度Wh的4/3倍。类似地,从面部区域111的左侧边到关注区域112的左侧边的长度约为长度Wh的4/3倍。换句话说,关注区域112的水平方向长度约为面部区域111的水平方向长度的四倍。
面部区域111的垂直方向长度等于垂直方向的长度Wh。关注区域112的垂直方向长度近似为长度Wh的三倍。
返回参见图2,在步骤S5,特征值算术运算块41算术运算关注区域112的特征值。注意特征值的算术运算在后面参考图24和25说明。
注意,用于检测人物的各种已知算法可被用于特征值的算术运算。
在步骤S6,手检测块22从输入图像101中检测手。在步骤S7,手区域设定块51根据检测到的手在预定范围内设定手区域。
图4表示手区域的例子。包括从输入图像内检测的手的预定区域被设定为手区域。在图4的例子中,包括检测到的右手和左手的四边形区域分别被设定成手区域121和122。
注意,各种已知算法可被用于在步骤S2的面部的检测,和在步骤S6的手的检测。可根据诸如肤色,面部或手的一般形状之类的特征检测面部或手。
在步骤S8,限制区域设定块52把限制区域设定成关注区域的除面部区域111及手区域121和122以外的预定区域。换句话说,估计其中不存在人体的部位的区域被设定成限制区域。预先学习面部区域111及手区域121和122的相对位置和大小与对应限制区域之间的关系,并把所述关系保存在存储块53中。如果参照所述关系,那么当已知预定相对位置和大小的面部区域111及手区域121和122时,能够设定对应的限制区域。
注意,对限制区域的设定来说,不使用面部区域111及手区域121和122两者,而只使用它们之一,即,可以只使用面部区域111或手区域121和122。然而,使用面部区域111及手区域121和122两者可使设定变得相当准确。
图5表示限制区域的一个例子。在图5的例子中,右手的手区域121和面部区域111被置于大体相同高度的位置。从而,估计在手区域121和面部区域111之间的区域内,不存在人体的部位。此外,由于手指向上方,因此估计在手区域121之上的区域中,不存在人体的部位。于是,手区域121和面部区域111之间和之上的区域被判定为限制区域131。
另外,左手的手区域122和面部区域111之间的关系与右手的手区域121和面部区域111之间的关系类似。于是,手区域122和面部区域111之间和之上的区域被判定为另一个限制区域132。
根据人体的结构,躯体被安放在位于面部区域111下侧的预定宽度的区域中。此外,如果从人体的手到肘的最大长度用L表示,那么由于右手指向上方,因此估计在从手区域121向下隔开长度L以上的区域中不存在人体的部位。从而,另一个限制区域133被设定成满足所述关系的区域。
类似地,由于左手指向上方,因此估计在从左手的手区域122向下隔开长度L以上的区域中不存在人体的部位。从而,另一个限制区域134被设定成满足所述关系的区域。
图6表示从中提取特征值的范围。图6中所示的通过按照如上所述的方式,从关注区域112中排除限制区域131-134而获得的,包括面部区域111及手区域121和122的区域141被估计为其中存在人体的区域。
利用诸如回归分析或神经网络之类的函数近似技术,可以学习面部区域111及手区域121和122的相对位置和大小与限制区域之间的关系,并确定所述关系,作为非线性映射。下面参考图7说明这种学习。
返回参见图2,在步骤S9,特征值限制块42对限制区域131-134中的特征值进行限制。具体地,从在步骤S5算术运算的特征值之中,除去与限制区域131-134对应的那些特征值。换句话说,只提取区域141(估计是其中存在人体的区域)中的特征值。
在步骤S10,姿势估计部分16估计姿势。具体地,利用在步骤S9限制,从而只对应于区域141(估计是其中存在人体的区域)的特征值,估计用户的姿势。获得的图像101之内的背景图像的特征值被限制,不被用于姿势的估计。结果,能够预期姿势的准确和快速估计。下面参考图10-25,说明姿势估计部分16检测人体的处理。
在步骤S11,检测部分17检测命令。具体地,用户会使用人体的部位输入命令。预先使人体各部位的姿势和命令相互关联。检测部分17根据刚刚说明的对应关系,使用与用户的姿势对应的命令。
在步骤S12,控制部分18控制操作。具体地,例如,控制部分18转换电视接收机的频道,调整音量或者关闭电源。
[学习处理]
图7图解说明限制区域学习处理。下面参考图7,说明限制区域的学习处理。
在步骤S31,图像输入部分11输入图像。具体地,拍摄和输入注视图像处理设备1的用户的图像。在步骤S32,面部检测块21从输入图像内检测面部。在步骤S33,面部区域设定块31根据检测的面部,设定预定范围内的面部区域。
另外,在这种情况下,类似于上面说明的步骤S3,包括检测到的面部的四边形区域被设定为面部区域111。
在步骤S34,类似于步骤S4,关注区域设定块32根据面部区域111,把关注区域设定成预定区域。
在步骤S35,手检测块22从输入图像101内检测手。在步骤S36,类似于在步骤S7,手区域设定块51把输入图像101的包括检测到的手的预定区域设定为手区域。
在步骤S37,输入块54把限制区域输入限制区域设定块52。具体地,与在步骤S33和S36设定的面部区域111及手区域121和122对应的正确限制区域被输入限制区域设定块52。
在步骤S38,限制区域设定块52学习面部区域111及手区域121和122与限制区域之间的关系。通过按照各种方式,改变面部区域111及手区域121和122的相对位置和大小,进行这种学习。在步骤S39,存储块53保存学习的结果。
图8图解说明限制区域学习处理。通过按照如上所述的方式进行学习,学习和保存如图8中所示的预定相对位置和大小的面部区域111及手区域121和122与对应限制区域131-134之间的关系。结果,如果参照所述关系,那么当已知预定相对位置和大小的面部区域111及手区域121和122时,能够设定对应的限制区域131-134。
[特征值算术运算块的结构]
现在进一步说明特征值算术运算块41。图9表示特征值算术运算块41的一般结构。
参见图9,特征值算术运算块41包括多个识别器152-1~152-N(在下面的说明中,在不必单独区分它们的情况下,它们都被简称为识别器152;这同样适用于其它部件)。识别器152-1~152-N分别识别分配给它的对象的不同状态。从而,识别器152-1~152-N整个识别N种状态。换句话说,在本实施例中,识别人的N种不同姿势。
识别器152-1~152-N分别识别包括在从关注区域设定块32输入的输入图像151中的人的姿势,并输出识别结果,作为检测结果153-1~153-N。限制部分154限制起源于限制区域的那些检测结果153-1~153-N。换句话说,限制部分154执行与图1中所示的特征值限制块42对应的功能。
最大值输出识别器155从限制部分154限制的检测结果153-1~153-N中,提取最大检测结果。从而,从识别器152-1~152-N识别的姿势中选择最可能的姿势。换句话说,最大值输出识别器155执行与图1中所示的姿势估计部分16对应的功能。
[学习设备的结构]
现在,说明识别器152。图10表示生成识别器152的学习设备211。
参见图10,学习设备211根据输入的学习图像,生成当后面参考图24说明的识别设备212执行识别在图像上是否存在对象物体的处理时,使用的鉴别特征值及鉴别器和。学习设备211把鉴别特征值及鉴别器和记录到识别设备212的鉴别器和记录部分236(后面参考图24说明)中。
学习设备211包括金字塔图像生成部分220、服装特征点提取部分221、服装特征值计算部分222和服装鉴别器生成部分223。学习设备211还包括轮廓特征点提取部分224、轮廓特征值计算部分225、轮廓鉴别器生成部分226和鉴别器和生成部分227。
金字塔图像生成部分220根据输入的学习图像,生成分辨率彼此不同的多个图像,并把所述图像作为金字塔图像提供给服装特征点提取部分221和轮廓特征点提取部分224。例如,生成从L1级到L8级的不同分辨率的8张金字塔图像。在这种情况下,假定L1级的金字塔图像具有最高分辨率,其它金字塔图像的分辨率按照从L1级到L8级的顺序降低。
服装特征点提取部分221从构成金字塔图像生成部分220生成的金字塔图像的各张图像(所述各张图像也被称为学习图像)中,提取几个像素,作为当生成服装鉴别器时使用的服装特征点。提取的服装特征点连同学习图像一起被提供给服装特征值计算部分222。这里,服装鉴别器是利用统计学习生成的,包括多个弱鉴别器的强鉴别器,用于利用人的服装的特征,判定在输入图像中是否存在人的图像的某个区域。
服装特征值计算部分222进行对于来自服装特征点提取部分221的服装特征点,把预定服装特征点和不同的服装特征点设定成一对的配对。此外,服装特征值计算部分222对从服装特征点提取部分221供给的基于学习图像的每个服装特征点,计算代表任意两个区域的纹理距离的服装特征值。随后,服装特征值计算部分222把确定的服装特征值和学习图像提供给服装鉴别器生成部分223。
服装鉴别器生成部分223根据从服装特征值计算部分222供给的学习图像和服装特征值,利用Adaboost进行统计学习处理,从而生成用于判定作为对象物体的人的服装鉴别器。服装鉴别器生成部分223把生成的服装鉴别器提供给鉴别器和生成部分227。
轮廓特征点提取部分224从构成由金字塔图像生成部分220生成的金字塔图像的各个图像(也是学习图像)中,提取几个像素,作为用于生成轮廓识别器的轮廓特征点。随后,轮廓特征点提取部分224把提取的轮廓特征点和学习图像提供给轮廓特征值计算部分225。这里,轮廓识别器是利用统计学习生成的,由多个弱鉴别器形成的强识别器,用于利用人的轮廓,判定在输入图像中是否存在人的图像的某个区域。
轮廓特征值计算部分225根据来自轮廓特征点提取部分224的学习图像,利用例如方向可控滤波器进行滤波处理,从而对每个轮廓特征点,计算代表所提取轮廓的轮廓特征值。随后,轮廓特征值计算部分225把确定的轮廓特征值和学习图像提供给轮廓鉴别器生成部分226。轮廓鉴别器生成部分226根据从轮廓特征值计算部分225供给的学习图像和轮廓特征值,利用Adaboost进行统计学习处理,从而生成用于判定作为对象物体的人的轮廓鉴别器。此外,轮廓鉴别器生成部分226把生成的轮廓鉴别器提供给鉴别器和生成部分227。
鉴别器和生成部分227结合来自服装鉴别器生成部分223的服装鉴别器和来自轮廓鉴别器生成部分226的轮廓鉴别器,从而生成鉴别器和,并把生成的鉴别器和提供给下面说明的识别设备212的鉴别器和记录部分236,以便记录在鉴别器和记录部分236中。此外,鉴别器和生成部分227把用于利用鉴别器和,进行对象物体的识别的各对服装特征点的服装特征值,和轮廓特征点的轮廓特征值,作为鉴别特征值提供给鉴别器和记录部分236,以便记录在鉴别器和记录部分236中。
[服装鉴别器生成部分的结构]
图11表示图10中所示的服装鉴别器生成部分223的详细结构的例子。参见图11,服装鉴别器生成部分223包括采样块251,权重设定块252,重排块253,鉴别器设定块254,鉴别器选择块255和权重更新块256。
采样块251根据权重设定块252设定的学习图像的单元的权重,对每对服装特征点,从在多个学习图像的相同位置的一对服装特征点的服装特征值当中,采样出M个服装特征值。随后,采样块251把M个采样服装特征值提供给重排块253。
重排块253对每对服装特征点,按照升序或降序重排所述M个采样服装特征值,并把重排的服装特征值提供给鉴别器设定块254。
鉴别器设定块254根据代表从中抽取服装特征值的每个学习图像是否包括待识别的对象物体的存在信息,控制错误率计算单元254a计算按照升序或降序重排的各个对的服装特征值中的每个的错误率,同时连续地改变阈值。这样设定阈值,从而使错误率降至最低。该阈值被设定成弱鉴别器。此外,鉴别器设定块254把每个弱鉴别器的错误率提供给鉴别器选择块255。
代表学习图像是否包括对象物体的存在信息(标签)被添加到每个学习图像中。鉴别器设定块254根据添加到从服装特征值计算部分222供给的学习图像中的存在信息,进行弱识别器的设定。
鉴别器选择块255选择弱识别器中错误率最小的弱识别器,并更新用弱鉴别器构成的服装鉴别器。鉴别器选择块255把这样的最终服装鉴别器和与各个弱鉴别器对应的服装特征值提供给鉴别器和生成部分227。此外,鉴别器选择块255根据选择的弱鉴别器的错误率,计算可靠性值,并把可靠性值提供给权重更新块256。
权重更新块256根据供给的可靠性值,重新计算每个学习图像的权重,并更新权重,随后把更新的结果提供给权重设定块252。权重设定块252根据从权重更新块256供给的权重的更新结果,设定学习图像的单元的权重。
[轮廓特征值计算部分的结构]
图12表示轮廓特征值计算部分225的详细结构的例子。轮廓特征值计算部分225包括一阶滤波处理块261、二阶滤波处理块262、三阶滤波处理块263和特征值生成块264。来自轮廓特征点提取部分224的学习图像被提供给一阶~三阶滤波处理块261~263和特征值生成块264,而轮廓特征点被提供给一阶~三阶滤波处理块261~263。
对于供给的每个轮廓特征点,一阶滤波处理块261对轮廓特征点应用借助高斯函数G的一阶导数函数G1的滤波处理,以提取特征值,并把特征值提供给特征值生成块264。这里,高斯函数G由下面的表达式(1)给出:
G = e - x 2 + y 2 2 &sigma; 2 . . . ( 1 )
其中σ是高斯宽度,而一阶导数函数G1由下面的表达式(2)给出:
G1(θ)=cos(θ)G1(0°)+sin(θ)G1(90°)…(2)
其中θ是任意角度,代表待计算的滤波器的方向。
例如,一阶滤波处理块261把高斯函数G的高斯宽度σ改变成三个预定值,比如高斯宽度σ1,σ2和σ3=1,2和4,并且对每个高斯宽度σ,关于预定的四个方向,比如θ=θ1,θ2,θ3和θ4,计算表达式(2)。
然而,要注意的是方向θ并不局限于四个方向,相反可以是八个方向,例如当π被等分成八个方向时的各个方向中的任意方向。此外,尽管如上所述,过去使用多个高斯宽度进行处理,然而在本实施例中,如下所述,只需要准备一个高斯宽度,从而不必改变高斯宽度。于是,尽管上面说明“把高斯函数G的高斯宽度σ改变成三个预定值,从而对每个高斯宽度σ,关于预定的四个方向,计算表达式(2)”,然而在本实施例中,对于设定的高斯宽度σ,只需要关于四个预定方向计算表达式(2)。
于是,由于不必对多个高斯宽度进行计算,因此能够减少计算量。这同样适用于其它滤波器,比如二阶滤波处理块262和三阶滤波处理块263。
对供给的每个轮廓特征点,二阶滤波处理块262利用高斯函数G的二阶导数函数G2,进行轮廓特征点的滤波处理,以提取特征值,并把所述提取的特征值提供给特征值生成块264。下述表达式(3)表示二阶导数函数G2
G2(θ)=k21(θ)G2(0°)+k22(θ)G2(60°)+k23(θ)G2(120°)…(3)
其中θ是任意角度,系数k2i(θ)(i=1、2和3)是由下述表达式(4)代表的函数:
k 2 i ( &theta; ) = 1 3 { 1 + 2 cos ( 2 ( &theta; - &theta;i ) ) } . . . ( 4 )
例如,二阶滤波处理块262对高斯函数G的预定高斯宽度σ,关于四个预定方向,比如θ=θ1,θ2,θ3和θ4,计算表达式(3)。
对供给的每个轮廓特征点,三阶滤波处理块263利用高斯函数G的三阶导数函数G3,进行轮廓特征点的滤波处理,以提取特征值,并把所述提取的特征值提供给特征值生成块264。下述表达式(5)表示三阶导数函数G3
G3(θ)=k31(θ)G3(0°)+k32(θ)G3(45°)+k33(θ)G3(90°)+k34(θ)G3(135°)
                                                                 …(5)
其中θ是任意角度,系数k3i(θ)(i=1、2和3)是由下述表达式(6)代表的函数:
k 3 i ( &theta; ) = 1 4 { 2 cos ( &theta; - &theta;i ) + 2 cos ( 3 ( &theta; - &theta;i ) ) } . . . ( 6 )
例如,三阶滤波处理块263对高斯函数G的预定高斯宽度σ,关于四个预定方向,比如θ=θ1,θ2,θ3和θ4,计算表达式(5).
特征值生成块264接收从一阶滤波处理块261、二阶滤波处理块262和三阶滤波处理块263供给的,关于四个方向θ计算的轮廓特征点的特征值。随后,特征值生成块264排列供给的总共12个(=3(阶数)×4(方向数))特征值,并把它们确定为在轮廓特征点的轮廓特征值。
由于从金字塔图像生成部分220向滤波处理块261、262和263供给了不同分辨率的多个图像,因此还供给关于四个方向θ计算的轮廓特征点的特征值。供给的特征值取决于待金字塔图像生成部分220生成的图像的数目。例如,如果要生成从1级~8级的八个图像,那么供给对于这八个图像,关于四个方向θ计算的轮廓特征点的特征值。
特征值生成块264把生成的轮廓特征值和供给的学习图像提供给轮廓鉴别器生成部分226。
这样,轮廓特征值计算部分225利用通过求高斯函数的微分而获得的,沿着方向θ具有选择性的滤波器(基函数),提取在不同的微分阶数之间不同的特征值或轮廓。轮廓特征值计算部分225把这样提取的特征值确定为轮廓特征值。
在方向可控滤波器被用于轮廓特征值的提取的情况下,如果如图13中所示,准备方向θ和高斯宽度σ彼此不同的滤波器,那么关于任意方向θ的滤波器(即,高斯函数G的导数函数Gn(n=1、2、3)可用滤波器的线性耦合表示。
此外在图13中,右侧各行之中最上面一行中的图像从左侧起,顺序代表当在高斯宽度σ为σ=1的情况下,一阶导数函数G1(θ)中的θ被设定成0,1/8π,2/8π,3/8π,4/8π,5/8π,6/8π和7/8π时的那些导数函数。
类似地,按照从正数第二行起,沿着向下方向的顺序,右侧不同行中的图像分别代表当高斯宽度σ为σ=2时的一阶导数函数G1(θ);当高斯宽度σ为σ=4时的一阶导数函数G1(θ);当高斯宽度σ为σ=1时的二阶导数函数G2(θ);当高斯宽度σ为σ=2时的二阶导数函数G2(θ);当高斯宽度σ为σ=4时的二阶导数函数G2(θ);当高斯宽度σ为σ=1时的三阶导数函数G3(θ);当高斯宽度σ为σ=2时的三阶导数函数G3(θ);和当高斯宽度σ为σ=4时的三阶导数函数G3(θ)。此外,各行中的图像从左侧起,顺序代表当导数函数中的方向θ被设定为0,1/8π,2/8π,3/8π,4/8π,5/8π,6/8π和7/8π时的那些导数函数。
例如,如果使用图13中左侧的滤波器的一次导数函数G1(0°)和一次导数函数G1(90°),那么能够表示在图13中右侧的正数第二行中的在方向θ的一阶导数函数G1(θ)。类似地,如果使用图13中左侧的二次导数函数G2(θ),那么能够表示在图13中右侧的正数第五行中所示的在方向θ的二阶导数函数G2(θ)。此外,如果使用图13中左侧的三次导数函数G3(θ),那么能够表示在图13中右侧的正数第八行中所示的在方向θ的三阶导数函数G3(θ)。总之,如果存在比维数大1的许多基函数,那么利用基函数的线性耦合,能够表示任意维的任意方向的导数函数。
图14图解说明通过利用高斯函数G的导数函数,对包括人的图像进行滤波处理而获得的结果。在图14中,滤波处理的对象的图像表示在左侧;滤波器表示在中央;滤波处理之后的图像表示在右侧。
表示在图14左侧的两个图像构成金字塔图像,是不同分辨率的图像。如上所述,金字塔图像生成部分220生成例如L1级~L8级的不同分辨率的图像。在图14中的左侧,表示了L1级分辨率的图像301和L2级分辨率的另一个图像302。
表示在图14中央的滤波器是在高斯宽度σ为σ=1时的一阶导数函数G1、二阶导数函数G2和三阶导数函数G3的滤波器的例子。表示在图14中央的滤波器举例表示了在图13中图解说明的滤波器的一部分。
如果利用表示在图14中央的滤波器中,从上面起的三阶导数函数G3的滤波器,对表示在图14中右侧的图像进行滤波处理,那么生成表示在图14中右侧的图像。具体地,如果利用三阶导数函数G3的滤波器对图像301进行滤波处理,那么生成图像311-1~311-4。另一方面,如果使用三阶导数滤波器对图像302进行滤波处理,那么生成图像312-1~312-4。
由于图像311-1~311-4是通过在高斯宽度σ为1(σ=1)时,利用三阶导数函数G3的滤波器进行滤波处理获得的,因此它们是当利用高斯宽度σ为1的滤波器,进行滤波处理而获得的图像。
类似地,由于图像312-1~312-4是通过在高斯宽度σ为1(σ=1)时,利用三阶导数函数G3的滤波器进行滤波处理获得的,因此它们是当利用其高斯宽度σ为1的滤波器,进行滤波处理而获得的图像。
然而,图像312-1~312-4是利用图像302的滤波处理获得的图像。图像302是图像301的缩小图像。在这种情况下,可以使图像312-1~312-4成为与通过利用其高斯宽度σ为2(σ=2)的三阶导数函数G3的滤波器,进行滤波处理而生成的那些图像对应的图像。换句话说,与当利用其高斯宽度σ为2(σ=2)的三阶导数函数G3的滤波器,对图像301进行滤波处理时生成的那些图像对应的图像是图像312-1~312-4。
换句话说,如果对金字塔图像进行滤波处理,那么能够获得与当利用不同高斯宽度的滤波器,进行滤波处理时获得的图像等同的图像。例如,与当预先为每个不同的高斯宽度准备滤波器,以进行滤波处理时的算术计算量或处理负担相比,当预先准备单一高斯宽度的滤波器,以如上所述对金字塔图像进行滤波处理时的算术计算量或处理负担显著降低。
换句话说,通过生成金字塔图像,并用单一高斯宽度进行滤波处理,能够大大减少处理时间。于是,如果使用如上所述的这种技术从图像中检测诸如人之类的对象物体,那么处理时间被降低到这样的程度,从而能够实时地从图像中检测对象物体。
轮廓特征值计算部分225按照这种方式,生成通过计算与利用不同高斯宽度σ的滤波器进行滤波处理而获得的那些图像等同的多个图像的平均值而获得的图像。从生成的平均图像中,能够确认人的轮廓。从而,通过使用不同滤波器的滤波处理,能够适当地从图像中提取人的轮廓。
[鉴别器和生成的学习处理]
下面参考图15-17,说明学习设备211进行的学习处理。如果学习图像被输入学习设备211中,并且发出生成鉴别器和的指令,那么学习设备211启动学习处理,并利用统计学习,生成鉴别器和。图15图解说明学习处理,图16图解说明服装鉴别器生成处理,而图17图解说明轮廓特征值计算处理。
首先参见图15,在步骤S110,金字塔图像生成部分220根据输入的学习图像,生成金字塔图像。如上所述,金字塔图像生成部分220生成例如从L1级~L8级的8个分辨率层级的金字塔图像,并把生成的图像提供给服装特征点提取部分221和轮廓特征点提取部分224。服装特征点提取部分221和轮廓特征点提取部分224分别把供给的金字塔图像(分辨率彼此不同的图像)之一确定为处理对象的学习图像,以执行从步骤S111开始的各个步骤的处理。另外对于其它图像,类似地执行从步骤S111开始的各个步骤的处理。
在步骤S111,服装特征点提取部分221从供给的学习图像中提取服装特征点,并把提取的服装特征点和学习图像提供给服装特征值计算部分222。
在步骤S112,服装特征值计算部分222根据从服装特征点提取部分221供给的服装特征点和学习图像,进行服装特征点的配对。
在步骤S113,服装特征值计算部分222计算通过所述配对而相互配对的每对服装特征点的服装特征值,并把教育处的服装特征值提供给服装鉴别器生成部分223。
例如,如果图18中所示的学习图像被输入服装特征点提取部分221,那么服装特征点提取部分221根据预先确定的余量,和采样跳跃数,从学习图像提取服装特征点。注意图18中所示的学习图像上的每个圆指示被确定为服装特征点的像素。
这里,余量是学习图像中,从学习图像的一端到服装特征值的提取对象的区域的像素的数目。同时,采样跳跃数是学习图像上,被确定为服装特征点的像素之间的距离。
从而,例如,如果余量为5个像素,并且采样跳跃数为5个像素,那么服装特征点提取部分221从学习图像中,排除在从学习图像的一端起5个像素内的各个位置的像素的区域,并把剩余区域E11确定为服装特征点的提取对象。随后,服装特征点提取部分221从区域E11的像素之中,提取在相互隔开5像素距离的各个位置的那些像素,作为服装特征点。具体地,在垂直方向或者水平方向上,位置彼此相邻的那些服装特征点之间的距离为5个像素,服装特征点包括在区域E11中。
随后,服装特征值计算部分222根据预先确定的最小半径和最大半径,进行服装特征点的配对。例如,在最小半径为R11,最大半径为R12的情况下,当注意预定服装特征点KT1时,对于离服装特征点KT1的距离大于最小半径R11,但是在最大半径R12之内的所有服装特征点,服装特征值计算部分222使每个所述服装特征点和服装特征点KT1相互配对。
例如,在离服装特征点KT1的距离大于最小半径R11,但是在最大半径R12之内的那些服装特征点的数目为N的情况下,获得N对服装特征点。服装特征值计算部分222对所有的服装特征点,进行与不同的服装特征点的这种配对。
此外,服装特征值计算部分222对于通过配对而获得的每对服装特征点,计算以该对服装特征点的每个服装特征点为中心的预定形状和预定大小的区域之间的纹理距离。
例如,在关于图18中所示的一对服装特征点KT1和服装特征点KT2的服装特征值被确定为SSD(平方距离和)的情况下,服装特征值计算部分222把以服装特征点KT1为中心的预定区域确定为区域Tx1,把以服装特征点KT2为中心,具有与区域Tx1相等的相同大小的另一个区域确定为区域Tx2。随后,服装特征值计算部分222确定在区域Tx中的像素的像素值和区域Tx2中,与区域Tx中的像素对应的像素的像素值之间的差值的绝对值和。随后,服装特征值计算部分222把差值的绝对值和确定为服装特征值。
注意服装特征值并不局限于SSD,相反可以是SAD(绝对距离和),归一化互相关等。
这样,服装特征值计算部分222对于从学习图像中提取的每对服装特征点,确定服装特征值。更具体地说,包括包含对象物体的几个学习图像和不包含对象物体的几个学习图像的多个学习图像被输入学习设备211中。随后,对于每个输入的学习图像,进行服装特征点的提取和服装特征值的计算。
例如,如果M个(M是自然数)学习图像PI1~PIM被输入学习设备211,那么对于M个学习图像PIi(1≤i≤M),获得每对服装特征点的服装特征值,如图19中所示。
在图19中,一个四边形代表一对服装特征点之一的服装特征值。此外,沿着垂直方向排列的一列四边形代表从学习图像PIi(1≤i≤M)获得的一列服装特征值。在一列中,排列数目与从学习图像PIi获得的服装特征点的对数相等的许多服装特征值。换句话说,从学习图像PIi获得的服装特征点的对数是学习图像PIi的服装特征值的维度。
学习图像表示如上所述的金字塔图像。图19指示当从一个图像生成三个金字塔图像,随后进行处理时的状态。换句话说,图19图解说明当按照能够容易地识别的方式,把多重分辨率的级别设定成3时,学习时的特征值向量。
参见图19,术语尺度代表比例系数。比例系数代表在下一级别,图像的大小将被缩小的缩小率。例如,尺度1代表比例系数为1。在图19的一列中,并列放置数目与从构成金字塔图像的多个学习图像PIi获得的服装特征值的对数相同的许多服装特征值。
此外,在图19中的每个学习图像PIi的每列服装特征值的下侧,显示代表学习图像PIi是否包括对象物体的标签或存在信息。例如,显示在图19中的学习图像PI1的一列服装特征值的下侧的标签“+1”代表对象物体包括在学习图像PI1中。另一方面,显示在图19中的学习图像PIM的一列服装特征值的下侧的标签“-1”代表对象物体不包括在学习图像PIM中。
返回参见图15,在步骤S113确定服装特征值之后,服装鉴别器生成部分223执行服装鉴别器生成处理,以生成服装鉴别器。
[服装鉴别器生成设备]
下面参考图16,说明在图15的步骤S114的服装鉴别器生成处理的细节。
在步骤S151,图12中所示的权重设定块252把图19中所示的学习图像PIi(1≤i≤M)的所有权重Wi初始化为1/M,鉴别器选择块255把计数器j初始化为1,并把服装鉴别器R(x)(弱鉴别器之和)初始化为0。
这里,i被用于区别图19中所示的学习图像PIi,满足1≤i≤M。利用步骤S151的处理,所有学习图像PIi的所有权重Wi具有归一化的相同权重(=1/M)。同时,计数器j指示预先确定的更新服装鉴别器R(x)的次数。
在步骤S152,对于每对服装特征点,采样块251按照学习图像PIi的权重Wi,从在多个学习图像PIi的相同位置的各对服装特征点的服装特征值中,选择M个服装特征值。随后,采样块251把选择的M个服装特征值提供给重排块253。
例如,假定如图20中所示,M个学习图像PI1~PIM的服装特征值从服装特征值计算部分222被提供给采样块251。在图20中,从学习图像PIi(1≤i≤M)获得的服装特征值沿着水平方向并列放置,图20中在代表学习图像的字符PIi的左侧的数字“+1”或“-1”指示应用于学习图像PIi的标签或存在信息。
特别地,水平并列放置在图20中的最上面一行中的A1,A2,A3,...,AN分别代表学习图像PI1的各对服装特征点的服装特征值。同时,图20中在代表学习图像PI1的字符“PI1”的左侧的字符“+1”代表表示对象物体包括在学习图像PI1中的标签。
类似地,水平并列放置在图20中的正数第二行中的B1,B2,B3,...,BN分别代表学习图像PI2的各对服装特征点的服装特征值。同时,图20中在代表学习图像PI2的字符“PI2”的左侧的字符“+1”代表表示对象物体包括在学习图像PI2中的标签。
此外,水平并列放置在图20中的正数第三行中的C1,C2,C3,...,CN分别代表学习图像PI3的各对服装特征点的服装特征值。同时,图20中在代表学习图像PI3的字符“PI3”的左侧的字符“-1”代表表示对象物体未包括在学习图像PI3中的标签。此外,水平并列放置在图20中的正数第M行中的M1,M2,M3,....,MN分别代表学习图像PIM的各对服装特征点的服装特征值。同时,图20中在代表学习图像PIM的字符“PIM”的左侧的字符“-1”代表表示对象物体未包括在学习图像PIM中的标签。
这样,在图20的例子中,从一个学习图像PIi中,获得N对服装特征点各自的服装特征值。此外,在图20中,沿着垂直方向并置的M个服装特征值Ak(1≤k≤N)构成一组Grk,属于该组Grk的那些服装特征值是在学习图像PIi的相同位置的各对服装特征点的那些服装特征值。
例如,组Gr1包括沿着垂直方向并置的服装特征值A1~M1,从中确定服装特征值A1的学习图像PIi中的相互配对的两个服装特征点,和属于组Gr1的另外两个服装特征点,例如,从中确定服装特征值M1的学习图像PIM中的相互配对的两个服装特征点被置于学习图像上的相同位置。注意,下面把从中确定属于组Grk(1≤k≤N)的服装特征值的学习图像PIi的一对服装特征点称为对k。
如果图20中所示的每个学习图像PIi的服装特征值被提供给采样块251,那么采样块251对于每个对k,即,对于每个组Grk,按照学习图像PIi的权重Wi,抽选地从属于该组的服装特征值中选择M个服装特征值。例如,采样块251按照权重Wi,从属于组Gr1的的服装特征值A1~M1中,选择M个服装特征值。注意,在初始处理中,所有权重Wi都是1/M,彼此相等,于是,当选择M个服装特征值时,随后地选择所有的服装特征值。于是,这里假定在初始处理中,在每个组Grk中选择所有的服装特征值。自然地,实际上可能重复地选择相同的服装特征值。
另外注意,可把权重Wi用于每个服装特征点的错误计算。在这种情况下,把错误值乘以数据加权系数,即权重Wi,以进行错误计算。
在步骤S153,对于N个组Grk中的每一组,重排块253按照升序或降序重排为每个对k选择的M个服装特征值,并把重排的M个服装特征值提供给鉴别器设定块254。例如,从属于图20中所示的组Gr1的服装特征值中选择的M个服装特征值被顺序重排。
在步骤S154,鉴别器设定块254根据附加在从服装特征值计算部分222供给的学习图像上的存在信息(即,标签),控制错误率计算单元254a对于每个组Grk,即,对于服装特征点的每个对k,计算用下面给出的表达式(7)表示的错误率ejk,同时连续改变阈值。鉴别器设定块254从而设定阈值,从而错误率ejk呈现最小值。
这里,服装特征点的每个对k的阈值thjk变成一个弱鉴别器fjk。鉴别器设定块254把各个弱鉴别器fjk的错误率ejk提供给鉴别器选择块255。
具体地,对N个对k中的每一个设定N个弱鉴别器fjk,并对N个弱鉴别器fjk中的每一个确定错误率ejk。注意,弱鉴别器fjk是在包括待识别的对象物体时,其输出为“+1”,在不包括待识别的对象物体时,其输出为“-1”的函数。
例如,如图21中所示,在j=1,并且按照升序,比如L1,A1,C1,B1,...,M1,或者按照降序排列服装特征点的对k=1的服装特征值时,阈值th11被设定成服装特征值A1和C1之间的值。随后,在低于阈值th11的范围内,认识到不存在待识别的对象物体(用“-1”表示的范围),然而在高于阈值th11的另一个范围中,认识到存在待识别的对象物体(用“+1”表示的范围)。在这种情况下,由于图21中用虚线环绕的服装特征值A1是包括待识别的对象物体的学习图像的服装特征值,因此这被视作错误。另一方面,由于服装特征值C1或M1是相反不包括待识别的对象物体的学习图像的服装特征值,因此这被视作错误。
在图21的例子中,阈值th11被设定成错误率ejk呈现最小值的位置。例如,如果图21中图解说明的阈值th11不在错误率ejk呈现最小值的位置,那么鉴别器设定块254改变阈值th11的位置,并在参照在每个位置的错误率ejk时候,找出错误率ejk呈现最小值的阈值th11的位置。随后,鉴别器设定块254把找出的位置确定为阈值th11的位置。
错误率计算单元254a根据由下面的表达式(7)给出的学习图像的存在信息或标签,相加从中提取被确定为错误的服装特征值的学习图像的权重Wi,以计算错误率ejk
e jk = E w [ 1 ( y &NotEqual; f jk ) ] . . . ( 7 )
其中,y≠fjk表示所述错误的服装特征点的对k的条件,Ew表示发生错误的对k的权重被相加。
在步骤S155,鉴别器选择块255根据从鉴别器设定块254供给的每个对k的N个错误率ejk,从N个弱鉴别器fjk中选择使得错误率ejk呈现最小值的弱鉴别器fjk。随后,鉴别器选择块255从鉴别器设定块254获得选择的弱鉴别器fjk
在步骤S156,鉴别器选择块255根据选择的弱鉴别器fjk的错误率ejk,计算用下面给出的表达式(8)表示的可靠度cj,并把计算结果提供给权重更新块256。
cj=log((1-ej)/ej)         …(8)
其中,ej表示错误率ejk之中的所选弱鉴别器fjk的错误率ejk,即,N个错误率ejk之中的最小错误率ejk。注意在下面的说明中,在步骤S155的处理中的所选对k的弱鉴别器也被称为弱鉴别器fj,弱鉴别器fj的错误率ejk也被称为错误率ej
在步骤S157,权重更新块256根据供给的可靠度cj,计算下面给出的表达式(9),以重新计算每个学习图像PIi的权重Wi,并归一化和更新所有的权重Wi,随后把更新结果提供给权重设定块252。权重设定块252根据从权重更新块256供给的权重的更新结果,设定每个学习图像的权重。
wi=wiexp[-cj·1(y≠fj)],i=1,2,…N    …(9)
表达式(9)表示包括发生错误的服装特征值的学习图像的权重Wi极大。
在步骤S158,鉴别器选择块255使用新确定的弱鉴别器fj来更新保留在其中的服装鉴别器R(x)。具体地,鉴别器选择块255通过计算下述表达式(10),更新服装鉴别器R(x):
R(x)=R′(x)+cj×fj(x)...(10)
其中R′(x)是保留在鉴别器选择块255中的更新之前的服装鉴别器,fj(x)是新确定的弱鉴别器fj。具体地,鉴别器选择块255把新确定的,并通过乘以可靠度ci加权的弱鉴别器和保留于其中的服装鉴别器相加,以更新服装鉴别器。
在步骤S159,鉴别器选择块255把与使得错误率ejk呈现最小值的弱鉴别器fjk对应的服装特征点的对k的服装特征值保留为鉴别特征值。
在步骤S160,鉴别器选择块255判定计数器j是否等于或大于L。如果在步骤S160,判定计数器j小于L,那么在步骤S161,鉴别器选择块255把计数器j加1。之后,处理返回步骤S152,重复上述处理。
具体地,新设定的各个学习图像的权重Wi被用于设定N个对k的新的弱鉴别器fjk,从弱鉴别器fjk中选择使得错误率ejk呈现最小值的弱鉴别器fjk。随后,选择的弱鉴别器fjk被用于更新服装鉴别器。
另一方面,如果在步骤S160,判定计数器j等于或大于L,那么在步骤S162,鉴别器选择块255把保留的服装鉴别器和鉴别特征值输出给鉴别器和生成部分227。之后,处理进入图15中所示的步骤S115。
利用上面说明的处理,用错误率较低的L个弱鉴别器fj(1≤j≤L)构成的服装鉴别器被提供给鉴别器和生成部分227,将被每个弱鉴别器fj使用的服装特征点的对k的服装特征值被提供给鉴别器和生成部分227。这里,L满足L≤N。
注意,如果表达式(10)的服装鉴别器被用于生成当服装特征值被代入其中的服装鉴别器为正时,输出“+1”,但是当所述服装鉴别器为负时,输出“-1”的鉴别器或函数,那么鉴别可被看作利用L个弱鉴别器的多数表决,输出待识别的对象物体的存在/不存在的函数。此外,通过利用上面参照图16的流程图说明的学习处理,在加权弱鉴别器的同时,重复弱鉴别器的相加,生成鉴别器的学习处理被称为离散Adaboost算法。
具体地,利用上面说明的服装鉴别器生成处理,重复计算每对服装特征点的弱鉴别器和错误率,以使错误率较高的学习图像的服装特征值的权重逐渐增大,而错误率较低的学习图像的服装特征值的权重逐渐减小的处理。从而,作为当设定弱鉴别器时选择的服装特征值,即,作为在步骤S152选择的服装特征值,在重复的处理(步骤S152~S161的处理)中,逐渐变得可能选择错误率较高的服装特征值。于是,当重复学习时,重复地选择难以识别的服装特征值,从而,选择数目越来越多的难以识别的学习图像的服装特征值。最后,能够获得高的识别率。
此外,在重复的处理中,即在步骤S152~S161的处理中,鉴别器选择块255总是选择与其中错误率最低的一对对应的弱鉴别器。从而,通过重复学习,总是选择关于呈现最高可靠度的一对服装特征点的弱鉴别器,并增加到服装鉴别器中。于是,每次重复时,接连地增加准确性更高的弱鉴别器。
此外,服装鉴别器是利用服装特征值,鉴别作为对象物体的人是否包括在图像中的鉴别器。从而,与将代入构成服装鉴别器的每个弱鉴别器中的服装特征值对应的一对服装特征点是各对服装特征点之中,适合于从输入的图像中检测对象物体的一对服装特征点。
例如,如图22中所示,与将代入服装鉴别器中的服装特征值对应的一对是围绕作为图像中的对象物体的人放置的一对服装特征点。在图22中,虚线代表互连将相互配对的两个服装特征点的直线,以虚线的两端为中心的四边形代表用于确定服装特征值的纹理的区域。
在图22的例子中,可以看出选择了包括在图像上的人物的上身上的,在该人物穿着的衣服的范围内的两个服装特征点,并且呈现纹理之间的较小距离,即,较低的服装特征值的一对,以及包括在人物的衣服上的服装特征点和不在人物身上的、而是在背景上的另一个服装特征点的另一对等。
返回参见图15,在步骤S114的服装鉴别器生成处理之后,在步骤S115,轮廓特征点提取部分224从输入的学习图像中提取轮廓特征点。
例如,如果图23A中所示的学习图像被输入轮廓特征点提取部分224,那么轮廓特征点提取部分224提取间隔预定距离并置在学习图像上的像素作为轮廓特征点,如图23B中所示。注意,图23B中的学习图像上的圆代表作为轮廓特征点提取的像素。
图23A和23B中所示的学习图像具有水平方向的32个像素,和垂直方向的64个像素,轮廓特征点提取部分224把学习图像上,沿着水平方向和垂直方向的像素中每隔两个的像素选为作为轮廓特征点的像素。从而,在图223B中,从学习图像中,水平地选择12个像素,垂直地选择28个像素,从而总共336个(=12×28)像素被选为轮廓特征点。
在轮廓特征点提取部分224从学习图像中提取轮廊特征点之后,它把提取的轮廓特征点和输入的学习图像提供给轮廊特征值计算部分225。
在步骤S116,轮廓特征值计算部分225进行轮廓特征值计算处理,以根据从轮廓特征点提取部分224供给的轮廓特征点和学习图像,计算在轮廓特征点的轮廓特征值。
[轮廓特征值计算处理]
下面参考图17,说明与在图15的步骤S116的处理对应的轮廓特征值计算处理。
在步骤S201,轮廓特征值计算部分225,更具体地说,图12中所示的轮廓特征值计算部分225的一阶滤波处理块261,二阶滤波处理块262和三阶滤波处理块263各自选择从轮廓特征点提取部分224供给的轮廓特征点中的一个未处理的轮廓特征点,作为关注像素。
在步骤S202,轮廓特征值计算部分225把表示方向的θq的计数器q设定为1。从而,方向θq被设定为θ1。
在步骤S203,一阶滤波处理块261进行第一滤波处理。具体地,一阶滤波处理块261在高斯宽度被设定成σ=1和方向为θq的条件下,根据处理对象的关注像素的像素值,算术运算表达式(2)。随后,一阶滤波处理块261把滤波处理的结果提供给特征值生成块264。换句话说,表达式(2)中的方向θ被设定成θq,以执行提取轮廓的算术运算。
注意,尽管上面给出了“把高斯宽度设定成σ=1”的说明,然而在本实施例的情况下,由于高斯宽度被固定为σ=1,或者换句话说,预先设定具有一个高斯宽度的滤波器,因此能够省略“把高斯宽度设定成σ=1”的处理。换句话说,在本实施例中,在步骤S203执行算术运算把其高斯宽度σ为1的滤波器的方向设定成θq的表达式(2)的处理。此外,尽管这里在假定高斯宽度σ为σ=1的情况下继续进行说明,但预先准备的高斯宽度自然可以是除σ=1以外的任何其它高斯宽度。
在步骤S204,二阶滤波处理块262进行第二滤波处理。具体地,二阶滤波处理块262根据关注像素的像素值,在高斯宽度σ=1的滤波器的方向被设定成θq的条件下,算术运算表达式(3)。随后,二阶滤波处理块262把滤波处理的结果提供给特征值生成块264。特别地,表达式(3)中的方向θ被设定成θq,以执行提取轮廓的算术运算。
在步骤S205,三阶滤波处理块263进行第三滤波处理。具体地,三阶滤波处理块263根据关注像素的像素值,在高斯宽度σ=1的滤波器的方向被设定成θq的条件下,算术运算表达式(5)并把滤波处理的结果提供给特征值生成块264。特别地,表达式(5)中的方向θ被设定成θq,以执行提取轮廓的算术运算。
在步骤S206,轮廓特征值计算部分225判定方向θq是否为θ4,即,计数器q是否为4。如果在步骤S206判定方向θq不是θ4,那么轮廓特征值计算部分225在步骤S207,把计数器q加1。例如,如果计数器q为q=1,那么计数器q被加1,从而变成q=2,从而,方向θq变成θ2。在计数器q被递增之后,处理返回步骤S203,以重复上面说明的处理。
另一方面,如果在步骤S206判定方向θq是θ4,那么特征值生成块264在步骤S208,把从一阶滤波处理块261、二阶滤波处理块262和三阶滤波处理块263供给的算术运算结果合成为轮廓特征值,从而生成一个轮廓特征点的轮廓特征值。
利用下面的表达式(11)或(12)确定轮廓特征值:
v j = &Sigma; x , y | G d , &theta; &CircleTimes; I ( x i , y i , s i , ) | . . . ( 11 )
v j = max x , y | G d , &theta; &CircleTimes; I ( x i , y i , s i , ) | . . . ( 12 )
其中与表达式(2)和其它表达式中类似,Gd,θ是在任意角度θ下,高斯函数G的d阶导数函数。此外,I(xi,yi,si)的(xi,yi)代表图像中的处理对象的轮廓特征点的坐标,(si)代表构成金字塔图像的各个图像之中的处理对象的图像的尺度。
表达式(11)表示进行任意角度θ下,高斯函数G的d阶导数函数和轮廓特征值的卷积算术运算,和利用∑计算结果值的绝对值的总和的算术运算。表达式(12)表示进行任意角度θ下,高斯函数G的d阶导数函数和轮廓特征值的卷积算术运算,和利用max获得绝对值的最大值。
尽管表达式(11)和(12)都计算特征值,但表达式(11)计算局部能量,而表达式(12)计算局部最大值。下面更详细地说明该表达式的意义。
利用如上所述的处理,能够通过把在任意角度下,利用函数和尺度提取的滤波系数用作特征值,进行监督统计学习,从而生成用于检测诸如人之类的对象物体的检测鉴别器。然而,利用这种检测鉴别器,特征值变成例如取决于人穿着的衣服和背景之间的关系的特征值。此外,至于像人物那样的失真或变形极大的验证对象,特征值的选择性非常高。于是,重要的是在消减这些问题的情况下进行处理,从而各个特征值变成具有不变性的特征值。
为了获得“取决于人穿着的衣服和背景之间的关系的特征值”,通过算术运算滤波处理后的输出值的绝对值,能够求解具有不变性的特征值。通过算术运算绝对值,能够提取接近人的轮廓的特征值。此外,在本实施例中,算术运算一阶导数函数,二阶导数函数和三阶导数函数,并进行绝对值的算术运算。于是,与其中借助一阶导数函数,仅仅利用绝对值进行算术运算的备选情况相比,能够显著提高准确性,能够计算具有不变性的特征值。
此外,就“至于像人物那样的失真或变形极大的验证对象,特征值的选择性非常高”而论,通过利用位置偏移进行不变算术运算,能够算术运算消减该问题的特征值。例如,利用位置偏移的不变算术运算是利用当检测到人的面部轮廓时,所述轮廓的长度与面部的形状无关而大体上相同的事实的算术运算。换句话说,不变算术运算是当关注轮廓的预定部分时,即使该部分的位置被移动,例如,当圆脸人物的轮廓移动位置,变得与长脸人物的轮廓重叠时,尽管位置被移动,也认为长度等的值不变的运算。
作为这样的算术运算,如表达式(11)所示地算术运算总和。通过算术运算总和,可算术运算人脸的轮廓的总和。另一方面,如表达式(12)所示地算术运算最大值。通过算术运算最大值,可算术运算人脸的轮廓的最大值。
这里,上面说明了总和和最大值的算术运算。换句话说,说明了根据表达式(11),计算局部能量的算术运算,或者根据表达式(12)的局部最大值的算术运算。另外,可以进行计算在呈现局部最大值的点附近的局部能量的算术运算。这类似于根据表达式(12)的算术运算的结果,进行表达式(11)的算术运算。另一方面,可以进行计算局部能量周围的最大值的算术运算。这类似于根据表达式(11)的算术运算的结果,进行表达式(12)的算术运算。尽管未给出具体的表达式,但可以进行这样的算术运算来计算特征值。
利用这样的算术运算,根据轮廓特征点计算特征点。随后在步骤S209,轮廓特征值计算部分225判定是否对所有的轮廓特征点都完成了处理。例如,如果对于从轮廓特征点提取部分224供给的所有轮廓特征点都确定了轮廓特征值,那么判定处理结束。
如果在步骤S209中,判定未对所有的轮廓特征点完成了处理,那么处理返回步骤S201,在步骤S201,下一个轮廓特征点被选为关注像素。
另一方面,如果在步骤S209,判定对所有的轮廓特征点都完成了处理,那么特征值生成块264把从轮廓特征点提取部分224供给的学习图像,和生成的轮廓特征点的轮廓特征值提供给轮廓鉴别器生成部分226。之后,处理进入图15的步骤S117。
注意,对从学习图像中检测轮廓特征值来说,可以不使用方向可控滤波器,而使用Gabor滤波器等。
返回参见图15,在步骤S116确定轮廓特征点的轮廓特征值之后,在步骤S117,轮廓鉴别器生成部分226根据从轮廓特征值计算部分225供给的学习图像和轮廓特征值,进行轮廓鉴别器生成处理,从而生成轮廓鉴别器。注意,由于轮廓鉴别器生成处理类似于上面参考图16说明的服装鉴别器生成处理,因此这里省略相同的重复说明,以避免冗长。
具体地,服装鉴别器生成处理和轮廓鉴别器生成处理彼此的不同之处仅仅在于作为处理对象的特征值是服装特征值还是轮廓特征值。从而,在轮廓鉴别器生成处理中,用与错误率最小的轮廓特征点的轮廓特征值对应的弱鉴别器之和,生成轮廓鉴别器。轮廓鉴别器生成部分226把生成的轮廓鉴别器和鉴别特征值输出给鉴别器和生成部分227。
在步骤S118,鉴别器和生成部分227相互结合从服装鉴别器生成部分223供给的服装鉴别器,和从轮廓鉴别器生成部分226供给的轮廓鉴别器,从而生成鉴别器和。
例如,由于借助Adaboost,用统计学习处理获得的鉴别器是用弱鉴别器的线性耦合表示的,因此,鉴别器和生成部分227利用Late Fusion方法,结合服装鉴别器和轮廓鉴别器。
具体地,鉴别器和生成部分227计算表达式(13),以确定服装鉴别器R(x)和轮廓鉴别器T(x)的鉴别器和U(x)。具体地,利用服装鉴别器R(x)和轮廓鉴别器T(x)的线性耦合,确定鉴别器和U(x)。
U(x)=α·R(x)+β·T(x)…(13)
其中α和β是预定常数,即,调谐参数,是利用关于在统计学习处理中使用的学习图像的鉴别率确定的。此外,类似于表达式(10)所示的服装鉴别器R(x),轮廓鉴别器T(x)是乘以可靠度的弱鉴别器之和。
在按照这种方式生成鉴别器和之后,鉴别器和生成部分227把生成的鉴别器和提供给鉴别器和记录部分236,以便记录。此外,鉴别器和生成部分227把从轮廓鉴别器生成部分226供给的鉴别特征值和从服装鉴别器生成部分223供给的鉴别特征值相加,从而生成最终的鉴别特征值。随后,鉴别器和生成部分227把最终的鉴别特征值提供给鉴别器和记录部分236,以便记录,从而结束学习处理。
对待确定的每个姿势或手势进行这种学习处理,用于确定姿势的多个鉴别器和被保存在鉴别器和记录部分236中。
这样,学习设备211从学习图像中检测服装特征点,以确定一对服装特征点的服装特征值,并利用统计学习,生成服装鉴别器。随后,学习设备211从学习图像中提取轮廓特征点,以确定轮廓特征值,并利用统计学习,生成轮廓鉴别器。随后,学习设备211利用线性耦合,结合服装鉴别器和轮廓鉴别器,从而生成鉴别器和。
通过按照这种方式,结合服装鉴别器和轮廓鉴别器来生成鉴别器和,可提供使得能够确定地从图像中检测对象物体的鉴别器和。具体地,由于鉴别器和是通过结合利用对象物体的服装特征的服装鉴别器和利用对象物体的轮廓的轮廓鉴别器获得的,因此如果能够从输入图像中充分提取特征值至少之一,那么能够从图像中检测出对象物体。
在从图像中检测出作为对象物体的人物的情况下,即使人物的服装变化,作为对象物体的人物也应被检测为人物。于是,过去只利用轮廓作为不取决于人物服装的亮度的特征值,从图像内检测人物。
相反,学习设备211利用服装特征值(它利用人物的服装的特征,并且是不变的,与人物服装的模式的变化无关)从图像内检测人物。所述服装特征值是注意到在统计上,人物穿着在人物的上身,具有相同纹理的重复模式,在人物的下身(裤子)上,具有相同纹理的重复模式的服装的频次较高的事实,而新定义的特征值。
具体地,服装特征值指示在图像上的任意两个区域中的纹理模式,即,亮度模式彼此相似的程度。例如,人物上身的两个区域之间的纹理相似度较高,然而,上身和下身,或者人物的服装和背景之间的纹理相似度较低。学习设备211使用通过利用两个区域之间的这种纹理相似度,从图像中检测人物的服装鉴别器,生成鉴别器和。
从而,例如,即使不能从输入的图像中充分检测到轮廓,如果能够从图像内提取两个区域之间的相似纹理特征,那么就能够利用鉴别器和,从图像内检测出人物。相反,如果人物穿着的衣服不具有重复的模式,而是部分被包或类似物遮蔽,那么存在不能从图像中充分提取相似的纹理特征的可能性。然而,如果能够从图像内充分检测出轮廓,那么就能够利用鉴别器和,从图像中检测出人物。
[识别设备的结构]
图24表示识别设备212的结构。具体地说,图9中所示的每个识别器152-1~152-N由图24中所示的识别设备212构成。参见图24,识别设备212利用记录在鉴别器和记录部分236中的多个鉴别特征值和鉴别器和,鉴别在输入的输入图像中是否存在作为对象物体的人物的预定姿势的图像。随后,识别设备212输出识别结果。
识别设备212包括金字塔图像生成部分230、服装特征点提取部分231、服装特征值计算部分232、轮廓特征点提取部分233、轮廓特征值计算部分234、鉴别计算部分235和鉴别器和记录部分236。识别设备212的金字塔图像生成部分230、服装特征点提取部分231、服装特征值计算部分232、轮廓特征点提取部分233和轮廓特征值计算部分234对将从中识别对象物体的输入图像,分别执行与学习设备211的金字塔图像生成部分220、服装特征点提取部分221、服装特征值计算部分222、轮廓特征点提取部分223和轮廓特征值计算部分224执行的处理类似的处理。因此,这里省略它们的详细说明,以避免冗长。
鉴别计算部分235读出记录在鉴别器和记录部分236中的多个鉴别特征值中的预定鉴别特征值,和记录在鉴别器和记录部分236中的鉴别器。此外,鉴别计算部分235把来自服装特征值计算部分232的服装特征值和来自轮廓特征值计算部分234的轮廓特征值中,与鉴别特征值对应的那些特征值代入读出的鉴别器和中,从而进行算术运算。
[识别处理]
现在参考图25,说明当识别设备212检测或识别诸如人物之类的对象物体时的处理。如果输入图像从图1中所示的关注区域设定块32被输入识别设备212,那么识别设备212开始人物检测处理,以从输入图像中检测对象物体的姿势。
注意,图25的步骤S250~S253的处理分别与图15的步骤S110~S113的处理相似。
具体地,在步骤S250,金字塔图像生成部分230根据输入图像,生成金字塔图像。注意,当金字塔图像生成部分230生成金字塔图像时,它生成尺度或分辨率与由学习设备211的金字塔图像生成部分220生成的金字塔图像相同的图像。通过按照这种方式,把学习时的比例系数调整为识别时的比例系数,能够在识别时进行高频率的扫描。
在步骤S251,服装特征点提取部分231从供给的学习图像中,提取服装特征点,并把提取的服装特征点和学习图像提供给服装特征值计算部分232。
在步骤S252,服装特征值计算部分232根据从服装特征点提取部分231供给的服装特征点和输入图像,对每个服装特征点进行服装特征点的配对。
在步骤S253,服装特征值计算部分232计算通过所述配对而相互配对的每对服装特征点的服装特征值,并把所得到的服装特征值提供给鉴别计算部分235。
在步骤S254,轮廓特征点提取部分233进行与在图15的步骤S115进行的处理类似的处理,以从输入的输入图像中提取轮廓特征点,并把提取的轮廓特征点连同输入图像一起提供给轮廓特征值计算部分234。
在步骤S255,轮廓特征值计算部分234根据来自轮廓特征点提取部分233的输入图像和轮廓特征点,进行轮廓特征值计算处理,以计算每个轮廓特征点的轮廓特征值。随后,轮廓特征值计算部分234把确定的轮廓特征值提供给鉴别计算部分235。注意,该轮廓特征值计算处理与上面参考图17说明的轮廓特征值计算处理类似,于是,这里省略相同的重复说明,以避免冗长。
在步骤S256,鉴别计算部分235从鉴别器和记录部分236读出鉴别特征值和鉴别器和,并把特征值代入读出的鉴别器和中,以进行计算。具体地,鉴别计算部分235把来自服装特征值计算部分232的服装特征值,和来自轮廓特征值计算部分234的轮廓特征值之中的与通知特征值对应的那些特征值代入表达式(13)的鉴别器和U(x)中,以计算鉴别器和U(x)的值。
这里,代入构成鉴别器和的弱鉴别器中的特征值是从输入图像上的多对服装特征点或者轮廓特征点确定的特征值,其中输入图像上的所述多对服装特征点或者轮廓特征点位于与学习图像中的用来确定特征值(该特征值被确定为鉴别特征值)的多对服装特征点或轮廓特征点相同的位置。此外,确定为鉴别特征值的特征值是在统计学习处理时,用于构成鉴别器的弱鉴别器的设定的那些特征值。
利用图9中所示的限制部分154,从按照这种方式计算的各个识别器152的鉴别器和U(x)的算术运算结果中,除去限制区域中的值。随后,最大值输出识别器155选择与鉴别器和U(x)的最大算术运算结果对应的识别器152,从而选择分配给识别器152的姿势。于是,检测出用户的姿势(即,手势)。
尽管在上面的说明中,说明了其中根据离散Adaboost算法,进行统计学习处理的例子,然而可以应用不同的Boosting算法,例如,可以使用平缓Adaboost算法。离散Adaboost算法和平缓Adaboost算法彼此不同之处在于虽然离散Adaboost算法的鉴别器的输出结果是离散变量,但平缓Adaboost算法的鉴别器的输出结果是连续变量。然而,由于在离散Adaboost算法中,可靠度被相乘,因此,输出结果被当作基本连续的变化,从而在处理上不存在实质差异。
此外,可以使用SVM(支持向量机)或者Baysian进行统计学习处理,从而生成服装鉴别器或者轮廓鉴别器。注意,如果在统计学习处理中,利用Adaboost等选择诸如服装特征值或轮廓特征值之类的特征值,那么当利用特征值算术运算块41的鉴别器和检测人物时,能够以更快的速度进行处理。
此外,虽然在上面的说明中,描述生成和结合服装鉴别器和轮廓鉴别器,以生成鉴别器和,然而,另外可直接用服装特征值和轮廓特征值直接生成鉴别器和,而不生成服装鉴别器和轮廓鉴别器。
通过如上所述,利用输入图像形成不同分辨率的图像(即,金字塔图像),并对不同分辨率的图像进行滤波处理,能够提高计算效率,从而提高计算速度。于是,例如能够实时地识别诸如人物之类的对象物体。
例如,如果对不同尺度的多个图像进行利用多个滤波器的处理,那么需要大量的滤波算术运算,导致处理时间或处理能力增大的可能性。然而,如果像本实施例中那样,对不同尺度的多个图像进行利用单一滤波器的处理,那么由于对卷积来说,只需要一个尺度,因此能够在不需要大量算术运算的情况下进行处理。从而,能够提高处理速度。
此外,就多尺度滤波器来说,如果频率变低,即,如果高斯宽度σ变大,那么卷积算术运算所需的时间变长。然而,按照本实施例,能够构成具有单一高斯宽度的滤波器,不必准备高斯宽度不同的多个滤波器,从而不必用不同高斯宽度的多个滤波器进行算术运算。于是,按照本实施例,即使准备最高频率的单一滤波器来进行处理,与多尺度滤波器的情况相比,也能够显著提高处理尺度。
[鉴别器的原理]
可按照下述方式,总结生成识别器152的处理。图26图解说明鉴别器152的生成原理。
在上面说明的实施例中,作为对象物体,检测人物。为了检测人物,当利用学习设备学习时,其中对预定姿势的人物成像的图像和不同的图像被用于进行学习。如果学习设备211使用姿势图像401-1~401-M和自然图像402-1~402-N(它们不是姿势图像)进行学习,如图26中所示,那么也能够生成能够用其鉴别或检测预定姿势的检测对象的鉴别器和。
在要生成当置换电视接收机的频道时,用于鉴别姿势的鉴别器和的情况下,使用包括姿势的图像的M个姿势图像401来进行学习。将作为自然图像输入学习设备11中的图像是不包括姿势的图像。使用N个这样的自然图像来进行学习。
M+N个姿势图像401和自然图像402被输入学习设备211中,并被学习,从而生成用于鉴别预定姿势的鉴别器和,所述鉴别器和被记录在鉴别器和记录部分236中。鉴别器和可被用于鉴别输入图像是否是预定姿势的图像。此外,在当关闭电源时的姿势的图像被用作进行学习的姿势图像401时,生成鉴别当关闭电源时的姿势的鉴别器和。
换句话说,根据用于学习的姿势图像401的手势,能够生成适合于待鉴别的手势的鉴别器和。
借助按照这种方式生成的用于鉴别预定姿势的鉴别器和,能够高度精确地鉴别姿势。此外,由于为所述鉴别而进行的计算的计算效率较高,因此能够提高处理速度。
<第二实施例>
图27表示按照另一个实施例的信息处理设备的结构。在本实施例中,基本上与第一实施例的信息处理设备类似地构成信息处理设备。本实施例的信息处理设备与第一实施例的信息处理设备的不同之处仅仅在于特征值提取部分14包括背景限制块71和特征值算术运算块41。
参见图27,背景限制块71执行从关注区域中排除背景区域的处理。具体地,背景限制块71从由关注区域设定块32设定的关注区域112中,排除由限制区域设定块52设定的限制区域131-134,以提取区域141。特征值算术运算块41对于由背景限制块71提取的区域141算术运算特征值,并把特征值输出给姿势估计部分16。除这些操作外,特征值提取部分14的其它操作与第一实施例类似。
不是关于整个关注区域111,而是关于不包括关注区域111的限制区域131-134的区域141的特征值的算术运算减少了算术运算量。
<变形例>
尽管在上面的说明中,面部和手被用作人体的部位,然而也可利用人本的其它部位。
<程序的应用>
上述一系列处理可用硬件或用软件执行。
在用软件执行所述一系列处理的情况下,从网络或者记录介质,把构成所述软件的程序安装到包含在专用硬件中的计算机中,或者安装到通过安装各种程序,能够执行各种功能的通用个人计算机中。
<其它>
注意,在本说明书中,描述记录在记录介质中的程序的各个步骤可以不必按照和所述顺序相应的时序执行,可以包括并行地或者单独地执行,而不是按时序执行的各种处理。
虽然利用具体术语说明了优选实施例,然而这样的说明只是用于举例说明,显然可以做出各种改变和变化,而不脱离所附权利要求的精神或范围。
本申请包含与在2010年8月31日向日本专利局提交的日本优先权专利申请JP 2010-194821中公开的主题相关的主题,该专利申请的整个内容在此引为参考。

Claims (10)

1.一种信息处理设备,包括:
输入部分,被配置成适合于输入图像;
检测部分,被配置成适合于从输入图像中检测摄像对象的部位;
关注区域设定块,被配置成适合于从所检测的部位中设定关注区域;
限制区域设定块,被配置成适合于从所检测的部位中设定限制区域;和
提取部分,被配置成适合于提取由限制区域限制的关注区域的特征值。
2.按照权利要求1所述的信息处理设备,其中被设定限制区域的部位包括与被设定关注区域的部位不同的部位。
3.按照权利要求2所述的信息处理设备,其中
摄像对象是人;
被设定关注区域的部位是人的面部;以及
被设定限制区域的部位是人的面部和/或人的一只手或两只手。
4.按照权利要求3所述的信息处理设备,其中
所述提取部分包括:
特征值算术运算块,被配置成适合于算术运算关注区域的特征值;和
限制部分,被配置成适合于根据所述特征值算术运算部分算术运算的关注区域的特征值,对限制区域的特征值进行限制。
5.按照权利要求4所述的信息处理设备,还包括:
估计部分,被配置成适合于根据由限制区域限制的关注区域的特征值,来估计人的姿势。
6.按照权利要求5所述的信息处理设备,还包括:
检出部分,被配置成适合于根据估计出的人的姿势来检测出命令的检出部分。
7.按照权利要求6所述的信息处理设备,还包括
控制部分,被配置成适合于响应检测出的命令来控制操作。
8.按照权利要求3所述的信息处理设备,其中
所述提取部分包括:
限制部分,被配置成适合于从关注区域中排除限制区域;和
特征值算术计算块,被配置成适合于算术计算限制区域被排除的关注区域的特征值。
9.一种信息处理方法,包括:
输入图像;
从输入图像中检测摄像对象的部位;
从所检测的部位中设定关注区域;
从所检测的部位中设定限制区域;和
提取由限制区域限制的关注区域的特征值。
10.一种使计算机起下述作用的程序:
适合于输入图像的输入部分;
适合于从输入图像中检测摄像对象的部位的检测部分;
适合于从所检测的部位中设定关注区域的关注区域设定块;
适合于从所检测的部位中设定限制区域的限制区域设定块;和
适合于提取由限制区域限制的关注区域的特征值的提取部分。
CN201110251643XA 2010-08-31 2011-08-24 信息处理设备、方法和程序 Pending CN102385437A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-194821 2010-08-31
JP2010194821A JP2012053606A (ja) 2010-08-31 2010-08-31 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN102385437A true CN102385437A (zh) 2012-03-21

Family

ID=45697354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110251643XA Pending CN102385437A (zh) 2010-08-31 2011-08-24 信息处理设备、方法和程序

Country Status (3)

Country Link
US (1) US8855426B2 (zh)
JP (1) JP2012053606A (zh)
CN (1) CN102385437A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960163A (zh) * 2018-07-10 2018-12-07 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质
CN109891333A (zh) * 2016-10-28 2019-06-14 瑞泽耐思株式会社 机械控制装置、机械控制程序及机械控制方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5041229B2 (ja) * 2007-12-07 2012-10-03 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
JP5671928B2 (ja) * 2010-10-12 2015-02-18 ソニー株式会社 学習装置、学習方法、識別装置、識別方法、およびプログラム
JP6011165B2 (ja) * 2012-08-31 2016-10-19 オムロン株式会社 ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
KR101933921B1 (ko) * 2013-06-03 2018-12-31 삼성전자주식회사 포즈 추정 방법 및 장치
CN105323647B (zh) * 2014-05-28 2018-10-09 青岛海尔电子有限公司 电视观看环境的光线强度的检测方法和装置与智能电视
EP2962653B1 (de) * 2014-06-30 2017-09-20 Dietmar Wolter Knochenschraube
US9473803B2 (en) * 2014-08-08 2016-10-18 TCL Research America Inc. Personalized channel recommendation method and system
US10477647B2 (en) * 2015-05-01 2019-11-12 Hubbell Incorporated Adaptive visual intelligence outdoor motion/occupancy and luminance detection system
WO2017203663A1 (ja) * 2016-05-26 2017-11-30 楽天株式会社 形状弁別装置、形状弁別方法及び形状弁別プログラム
WO2018163238A1 (ja) * 2017-03-06 2018-09-13 楽天株式会社 画像処理装置、画像処理方法、サーバ、及び、コンピュータプログラム
US11816526B2 (en) * 2019-06-24 2023-11-14 Suncorporation Function execution system
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
CN111083513B (zh) * 2019-12-25 2022-02-22 广州酷狗计算机科技有限公司 直播画面处理方法、装置、终端及计算机可读存储介质
WO2021200329A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060098846A1 (en) * 2004-11-05 2006-05-11 Fuji Xerox Co., Ltd. Movement analysis apparatus
CN101038623A (zh) * 2006-03-13 2007-09-19 欧姆龙株式会社 特征点检测装置、特征点检测方法及特征点检测程序
US20080112592A1 (en) * 2006-06-19 2008-05-15 Weiguo Wu Motion Capture Apparatus and Method, and Motion Capture Program
CN101324954A (zh) * 2007-06-11 2008-12-17 索尼株式会社 图像处理设备、图像显示设备、成像设备、其图像处理方法和程序

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6407762B2 (en) * 1997-03-31 2002-06-18 Intel Corporation Camera-based interface to a virtual reality application
WO2004112401A1 (ja) * 2003-06-12 2004-12-23 Nikon Corporation 画像処理方法、画像処理プログラム、画像処理装置
JP4704804B2 (ja) * 2005-05-18 2011-06-22 株式会社名南製作所 木材の節探査方法及び装置及びプログラム
JP5294798B2 (ja) * 2008-10-24 2013-09-18 キヤノン株式会社 画像処理装置及び画像処理方法
JP5434231B2 (ja) * 2009-04-24 2014-03-05 ソニー株式会社 画像情報処理装置、撮像装置、画像情報処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060098846A1 (en) * 2004-11-05 2006-05-11 Fuji Xerox Co., Ltd. Movement analysis apparatus
CN101038623A (zh) * 2006-03-13 2007-09-19 欧姆龙株式会社 特征点检测装置、特征点检测方法及特征点检测程序
US20080112592A1 (en) * 2006-06-19 2008-05-15 Weiguo Wu Motion Capture Apparatus and Method, and Motion Capture Program
CN101324954A (zh) * 2007-06-11 2008-12-17 索尼株式会社 图像处理设备、图像显示设备、成像设备、其图像处理方法和程序

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109891333A (zh) * 2016-10-28 2019-06-14 瑞泽耐思株式会社 机械控制装置、机械控制程序及机械控制方法
CN108960163A (zh) * 2018-07-10 2018-12-07 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质
CN108960163B (zh) * 2018-07-10 2021-09-24 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP2012053606A (ja) 2012-03-15
US8855426B2 (en) 2014-10-07
US20120051651A1 (en) 2012-03-01

Similar Documents

Publication Publication Date Title
CN102385437A (zh) 信息处理设备、方法和程序
US11747898B2 (en) Method and apparatus with gaze estimation
Ofli et al. Sequence of the most informative joints (smij): A new representation for human skeletal action recognition
KR101977174B1 (ko) 영상 분석 방법, 장치 및 컴퓨터 프로그램
Torbati et al. An efficient neural network based method for medical image segmentation
US8929600B2 (en) Action recognition based on depth maps
CN108470354A (zh) 视频目标跟踪方法、装置和实现装置
CN105520735A (zh) 用于从视频确定呼吸速率的系统和方法
US20180300591A1 (en) Depth-value classification using forests
CN110443128A (zh) 一种基于surf特征点精确匹配的指静脉识别方法
CN101714214A (zh) 学习装置和方法、识别装置和方法、程序及记录介质
CN105022982A (zh) 手部运动识别方法和装置
CN102737250A (zh) 3d医学图像数据中对脊椎骨损伤自动检测的方法和系统
CN102799854A (zh) 图像识别装置以及图像识别方法
CN105938513A (zh) 为计算机辅助诊断提供可靠性的装置和方法
CN110717418A (zh) 一种喜好情感自动识别方法及系统
WO2014171830A1 (en) Method and system for determining a phenotype of a neoplasm in a human or animal body
Gonzalo-Martín et al. Improving deep learning sorghum head detection through test time augmentation
US20200012946A1 (en) Delimitation in unsupervised classification of gestures
CN105426836A (zh) 一种基于分部式模型和稀疏成分分析的单样本人脸识别方法
Nguyen et al. Multiple kernel interval type-2 fuzzy c-means clustering
CN104376320B (zh) 一种用于人造指纹检测的特征提取方法
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
Allegra et al. Exploiting egocentric vision on shopping cart for out-of-stock detection in retail environments
Ferrà et al. A topological classifier to characterize brain states: When shape matters more than variance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120321