CN104412302A - 对象检测装置以及对象检测方法 - Google Patents
对象检测装置以及对象检测方法 Download PDFInfo
- Publication number
- CN104412302A CN104412302A CN201380034610.7A CN201380034610A CN104412302A CN 104412302 A CN104412302 A CN 104412302A CN 201380034610 A CN201380034610 A CN 201380034610A CN 104412302 A CN104412302 A CN 104412302A
- Authority
- CN
- China
- Prior art keywords
- information
- levels
- evaluation
- estimate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/446—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
提供一种能够提高从输入了的数据检测检测对象的精度的对象检测装置以及对象检测方法。对象检测装置(10)具有:多级别数据生成部(152),根据从数据输入部(150)取得了的输入数据,生成作为表现检测对象的程度的信息级别相互不同的多个数据;评价值计算部(153),针对多个数据的各个,计算表示检测对象可能性的程度的评价值;以及对象判定部(154),在针对信息级别相互不同的多个数据的各个计算出的评价值根据信息级别的上升而上升的上升程度是在输入数据中包括检测对象的情况的上升程度的下限值以上的情况下,判定为在输入数据中包括检测对象。
Description
技术领域
本发明涉及从输入了的数据检测检测对象的对象检测装置以及对象检测方法。
背景技术
以往,为了防止犯罪、照片或者视频的摄影检索或者整理等各种目的,研究了从图像、声音或者传感器信号这样的数据,检测脸、人物等检测对象的技术。特别,近年来,广泛研究了使用通过机器学习生成了的分类器而从图像检测检测对象的技术。例如,判定在图像中是否拍摄了人物的分类器使用从拍摄了人物的多个学习用图像和未拍摄人物的多个学习用图像的各个抽出了的特征量,通过对在特征量空间中将人物的特征量分布的空间和其以外的空间分开的识别边界进行机器学习来生成。该分类器如果被输入从图像抽出了的特征量,则根据该特征量在特征量空间中位于识别边界的哪一侧,判定在该图像中是否拍摄了人物。
但是,拍摄了人物的图像以及未拍摄人物的图像是各种各样的,一般难于发现能够将它们完全分离的识别边界。特别,从拍摄了例如如在衣架上挂着的上衣等那样与人物类似的物品的图像抽出了的特征量相对识别边界位于人物的特征量分布的空间侧的可能性高,有误判定为在该图像中拍摄了人物的可能。
因此,例如,在专利文献1中,提出了与装置的设置环境的特性符合地使分类器学习的物体检测装置。该物体检测装置在设置了监视照相机时使用来自监视照相机的图像而使分类器学习。
专利文献1:日本特开2009-230284号公报
发明内容
专利文献1记载的物体检测装置通过在设置监视照相机之后使用来自监视照相机的图像而使分类器学习,能够降低如在设置场所中存在的衣架上挂起来的上衣那样,将与作为检测对象的一个例子的人物类似的物品误判定为人物。但是,专利文献1记载的物体检测装置在使分类器学习之后新配置了与检测对象类似的物品的情况下,未使用拍摄了该物体的图像而使分类器学习,所以有将该物体误判定为检测对象的可能性。
物体检测装置通过使用大量的图像来进行机器学习,能够提高检测对象的检测精度。但是,拍摄了检测对象以外的物品的图像各种各样,难于针对拍摄了具有与从拍摄了检测对象的图像抽出的特征量类似的特征量的物体的所有图像,以完全防止误判定的方式,使分类器学习。产生这样的误判定的问题不仅存在于使用分类器来检测检测对象的情况,而且也存在于在通过模式匹配法等其他方法检测检测对象的情况,进而该问题不仅存在于从图像检测检测对象的情况,而且也存在于在从声音、传感器信号等各种数据检测检测对象的情况。
本发明的目的在于提供一种能够提高从输入了的数据检测检测对象的精度的对象检测装置以及对象检测方法。
用于解决上述课题的本发明提供一种判定在从数据输入部取得了的输入数据中是否包括检测对象的对象检测装置。上述对象检测装置具有:多级别数据生成部,根据输入数据,生成作为表现检测对象的程度的信息级别相互不同的多个数据;评价值计算部,针对多个数据的各个,计算表示检测对象可能性的程度的评价值;以及对象判定部,在针对信息级别相互不同的多个数据的各个计算出的评价值根据信息级别的上升而上升的上升程度是在输入数据中包括检测对象的情况的上升程度的下限值以上的情况下,判定为在输入数据中包括检测对象。
另外,信息级别优选为多个数据的各个表现检测对象的细节的程度。
或者,信息级别优选为多个数据的各个适合于检测对象的特征表现的程度。
另外,对象判定部优选为针对每个信息级别,求出从关于该信息级别的评价值减去关于比该信息级别低预定阶段的信息级别的评价值得到的差,将求出了的差的合计值以及最大值中的某一个求出为上升程度。
或者,优选为对象判定部从信息级别低的一方起,依次求出从关于该信息级别的评价值减去关于比该信息级别低预定阶段的信息级别的评价值得到的差,每当求出该差时,将求出了的差的累积值求出为上升程度,判定求出了的上升程度是否为下限值以上,在求出了的上升程度是下限值以上的情况下,判定为在输入数据中包括检测对象。
或者,优选为对象判定部将从关于全部的信息级别的评价值的最大值减去最小值得到的差、以及关于全部的信息级别的评价值的最大值相对最小值的比中的某一个求出为上升程。
或者,优选为对象判定部在上升程度是下限值以上、并且关于针对信息级别相互不同的多个数据的各个计算出的评价值的统计性代表值即代表评价值是预定值以上的情况下,判定为在输入数据中包括检测对象,在上升程度小于下限值的情况、或者代表评价值小于预定值的情况下,判定为在输入数据中不包括检测对象。
另外,优选为输入数据是图像数据,多级别数据生成部生成信息级别越高则清晰度越高、且信息级别越低则清晰度越低的清晰度相互不同的多个数据作为信息级别相互不同的多个数据。
进而,优选为多级别数据生成部生成对输入数据分别应用了信息级别越高则滤波器尺寸越小、且信息级别越低则滤波器尺寸越大的平均化滤波器的多个数据作为清晰度相互不同的多个数据。
或者,优选为多级别数据生成部生成信息级别越高则对输入数据重叠越少的量的噪声、信息级别越低则对输入数据重叠越多的量的噪声的多个数据作为信息级别相互不同的多个数据。
或者,优选为输入数据是图像数据,多级别数据生成部生成信息级别越高则图像的可懂度越高、且信息级别越低则图像的可懂度越低的图像的可懂度相互不同的多个数据作为信息级别相互不同的多个数据。
进而,优选为多级别数据生成部生成信息级别越高则使输入数据的像素值的阶度数越多、且信息级别越低则使输入数据的像素值的阶度数越少的多个数据作为图像的可懂度相互不同的多个数据。
或者,优选为多级别数据生成部生成信息级别越高则使对在输入数据中表示检测对象的部分进行掩膜重叠的程度越低、且信息级别越低则使对在输入数据中表示检测对象的部分进行掩膜重叠的程度越高的多个数据作为信息级别相互不同的多个数据。
或者,优选为多级别数据生成部生成关于检测对象的特征量,生成针对特征量使信息量相互不同的多个数据作为信息级别相互不同的多个数据,以使信息级别越高则使特征量表示的信息量越大、且信息级别越低则使信息量越小。
进而,优选为多级别数据生成部生成信息级别越高则对特征量乘以越大、且信息级别越低则对特征量乘以越小的1以下的正的系数的多个数据作为使信息量相互不同的多个数据。
或者,优选为输入数据是图像数据,在多级别数据生成部中,信息级别越高则对输入数据以越小的程度进行几何变换、且信息级别越低则对输入数据以越大的程度进行几何变换来生成多个数据作为信息级别相互不同的多个数据。
进而,优选为几何变换是使图像旋转的变换,在多级别数据生成部中,作为几何变换了的多个数据,生成信息级别越高则图像的旋转角度越小、且信息级别越低则图像的旋转角度越大的多个数据。
或者,优选为几何变换是将图像变换为梯形的变换,在多级别数据生成部中,作为几何变换了的多个数据,生成信息级别越高则梯形的底边与上边之比越接近1、且信息级别越低则梯形的底边与上边之比越远离1的多个数据。
或者,优选为输入数据是时系列信号,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成信息级别越高对输入数据应用了通过频带越宽的带通滤波器、且信息级别越低对输入数据应用了通过频带越窄的带通滤波器的多个数据。
或者,优选为输入数据是时系列信号,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成信息级别越高则以越高的采样频率采样了输入数据、且信息级别越低则以越低的采样频率采样了输入数据的多个数据。
或者,优选为输入数据是时系列信号,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成以信息级别越高则使输入数据的振幅越大、且信息级别越低则使输入数据的振幅越小的方式,使输入数据的振幅分别衰减了的多个数据。
或者,优选为输入数据是声音信号,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成以信息级别越高则使输入数据的振幅越小、且信息级别越低则使输入数据的振幅越大的方式,使输入数据的振幅分别放大而产生了削波的多个数据。
或者,优选为输入数据是时系列信号,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成信息级别越高则使分割输入数据的值可取的范围的阶段数越多、且信息级别越低则使阶段数越少地针对输入数据分别量化了的多个数据。
另外,优选为评价值计算部具有以如果输入了多级别数据生成部生成的数据则输出评价值的方式,使用至少包括检测对象的数据而预先学习了的分类器。
或者,优选为还具有预先存储根据包括检测对象的数据生成了的参照数据的存储部,评价值计算部将多级别数据生成部生成的数据与参照数据类似的程度计算为评价值。
根据用于解决上述课题的本发明的其他方式,提供在对象检测装置中,判定在从数据输入部取得了的输入数据中是否包括检测对象的对象检测方法。在上述对象检测方法中,包括:根据输入数据,生成作为表现检测对象的程度的信息级别相互不同的多个数据,针对多个数据的各个,计算表示检测对象可能性的程度的评价值,在针对信息级别相互不同的多个数据的各个计算出的评价值根据信息级别的上升而上升的上升程度是检测对象包含于输入数据中的情况的上升程度的下限值以上的情况下,判定为在输入数据中包括检测对象。
根据用于解决上述课题的本发明的其他方式,提供使对象检测装置判定在从数据输入部取得了的输入数据中是否包括检测对象的对象检测用计算机程序。上述对象检测用计算机程序包括使计算机执行下述内容的命令:根据输入数据,生成作为表现检测对象的程度的信息级别相互不同的多个数据,针对多个数据的各个,计算表示检测对象可能性的程度的评价值,在针对信息级别相互不同的多个数据的各个计算出的评价值根据信息级别的上升而上升的上升程度是检测对象包含于输入数据中的情况的上升程度的下限值以上的情况下,判定为在输入数据中包括检测对象。
本发明的对象检测装置以及对象检测方法起到能够提高从输入了的数据检测检测对象的精度这样的效果。
附图说明
图1A是示出信息级别和评价值的关系的一个例子的图形。
图1B是示出信息级别和评价值的关系的一个例子的图形。
图2是第一实施方式的对讲机的概略结构图。
图3是第一实施方式的对讲机的控制部的概略结构图。
图4A是拍摄了人物的脸的图像的例子。
图4B是未拍摄人物的脸的图像的例子。
图5是示出滤波器尺寸和评价值的关系的一个例子的图形。
图6A是拍摄了人物的脸的图像的例子。
图6B是未拍摄人物的脸的图像的例子。
图7是示出滤波器尺寸和评价值的关系的一个例子的图形。
图8是示出滤波器尺寸和评价值的差分累积值的关系的一个例子的图形。
图9是示出滤波器尺寸和评价值的差分累积值的关系的一个例子的图形。
图10是示出第一实施方式的对讲机的对象检测处理的动作的流程图。
图11是用于说明掩膜重叠区域的示意图。
图12是示出第二实施方式的对讲机的对象检测处理的动作的流程图。
图13是第三实施方式的监视系统的概略结构图。
图14是第三实施方式的监视装置的控制部的概略结构图。
图15是示出第三实施方式的监视装置的对象检测处理的动作的流程图。
图16是第四实施方式的监视系统的概略结构图。
图17是第四实施方式的中枢装置的控制部的概略结构图。
图18是示出第四实施方式的中枢装置的对象检测处理的动作的流程图。
图19是第五实施方式的悲鸣传感器的概略结构图。
图20是第五实施方式的悲鸣传感器的控制部的概略结构图。
图21是示出第五实施方式的悲鸣传感器的对象检测处理的动作的流程图。
图22是第六实施方式的人体传感器的概略结构图。
图23是第六实施方式的人体传感器的控制部的概略结构图。
图24是示出第六实施方式的人体传感器的对象检测处理的动作的流程图。
符号说明
10:对讲机;
11、21、41:摄像部;
12:输出部;
13、22、42、53、62、72:接口部;
14、24、44、54、64、74:存储部;
15、25、45、55、65、75:控制部;
150、250、550、650、750:数据输入部;
151、251、551、651、751:切出部;
152、252、552、652、752:多级别数据生成部;
153、253、553、653、753:评价值计算部;
154、254、554、654、754:对象判定部;
155:鸣动控制部;
20、40:监视装置;
23、43、51、63、73:通信部;
255、655、755:通知控制部;
555:显示控制部;
30、50:中枢装置;
52:显示部;
60:悲鸣传感器;
61:集音部;
70:人体传感器;
71:信号取得部。
具体实施方式
以下,参照附图,说明本发明的一个实施方式的对象检测装置。
对象检测装置根据成为检测处理的对象的输入数据,求出检测对象特有的特征量,将求出了的特征量输入到通过机器学习生成了的分类器,计算表示检测对象可能性的程度的评价值,根据计算出的评价值,判定在输入数据中是否包括检测对象。发明者在精心研究的结果发现,如果根据输入数据生成信息级别相互不同的多个数据,并根据多个数据的各个计算评价值,则该信息级别变化所致的评价值的变化的方式在包括检测对象的输入数据和不包括检测对象的输入数据中大幅不同。数据的信息级别是该数据表现检测对象的特征的程度,是该数据表现检测对象的特征的细节的程度(可表现的程度)、或者该数据适合于检测对象的特征表现的程度。
图1A以及图1B示出表示数据的信息级别和数据的检测对象可能性的程度的评价值的关系的一个例子。图1A的图形100表示在输入数据中包括检测对象的情况的信息级别和评价值的关系的一个例子,图1B的图形101表示在输入数据中不包括检测对象的情况的信息级别和评价值的关系的一个例子。在图1A以及图1B中,横轴是信息级别,纵轴是评价值。如图1A所示,在输入数据中包括检测对象的情况下,在信息级别上升了时,评价值处于呈现急剧的上升的倾向。另一方面,如图1B所示,在输入数据中不包括检测对象的情况下,即使信息级别上升,评价值也不呈现在输入数据中包括检测对象的情况的程度的急剧的上升。另外,不论评价值自身的高低如何,都发现这样的倾向。即,在尽管在输入数据中包括检测对象,但关于根据输入数据求出了的检测对象的特征量在特征量空间中相对识别边界位于并非检测对象的一侧的情况下,评价值处于在信息级别上升了时呈现急剧的上升的倾向。另一方面,在尽管在输入数据中不包括检测对象,但关于根据输入数据求出了的检测对象的特征量在特征量空间中相对识别边界位于检测对象侧的情况下,该评价值处于即使信息级别上升也不呈现急剧的上升的倾向。
因此,本发明的一个实施方式的对象检测装置根据输入数据生成信息级别相互不同的多个数据,针对生成了的每个数据,求出关于检测对象的特征量,将求出了的特征量输入到通过机器学习生成了的分类器,分别计算评价值。然后,对象检测装置求出计算出的评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在输入数据中包括检测对象的情况的上升程度的下限值以上的情况下,判定为在输入数据中包括检测对象。即,在对象检测装置中,并非通过关于检测对象的特征量在特征量空间中相对识别边界位于哪一侧,而通过变更了信息级别时的特征量相对识别边界的位置的变化,判定在输入数据中是否包括检测对象。由此,提高对象检测装置从输入数据检测检测对象的精度。
以下,参照附图,说明安装了本发明的第一实施方式的对象检测装置的对讲机。该对讲机设置于门厅等,在呼叫按钮被按压了时,对门厅等进行摄影,判定在摄影了的图像中是否拍摄了人的脸。然后,该对讲机在摄影了的图像中拍摄了人的脸的情况下,使在室内设置了的蜂鸣器鸣动而对家人通知来访者的访问,另一方面,在摄影了的图像中未拍摄人的脸的情况下,判定为开玩笑地按压呼叫按钮而不使蜂鸣器鸣动。即,本实施方式的对讲机将输入数据作为图像数据,将检测对象设为人物的脸。
图2是示出本实施方式的对讲机的概略结构的图。对讲机10如图2所示,具有摄像部11、输出部12、接口部13、存储部14以及控制部15。以下,详细说明对讲机10的各部。
摄像部11是对设置了对讲机10的门厅等进行摄影的照相机,例如具有二维地排列而输出与受光了的光量对应的电信号的光电变换元件(例如CCD传感器、C-MOS等)、和用于在该光电变换元件上使监视区域的像成像的成像光学系。摄像部11与接口部13连接,将摄影了的摄影图像送到接口部13。
能够将摄影图像设为阶度级或者彩色的多阶度的图像。在本实施方式中,使摄影图像成为具有横320像素×纵240像素,具有8比特的亮度分辨率的阶度级图像。但是,作为摄影图像,也可以使用具有该实施方式以外的分辨率以及阶度的例子。
输出部12是报告部的一个例子,具有例如蜂鸣器。输出部12配置于房屋内,与接口部13连接,如果从接口部13输入了蜂鸣器鸣动信号,则使蜂鸣器鸣动而对家人报告来访者的访问。
接口部13具有与摄像部11以及输出部12连接的接口电路、例如视频接口以及音频接口或者通用串行总线这样的依照串行总线的接口电路。接口部13与控制部15经由例如总线连接,将从摄像部11接受了的摄影图像送到控制部15。另外,接口部13将从控制部15接受了的蜂鸣器鸣动信号输出到输出部12。
存储部14具有ROM(Read Only Memory,只读存储器)、RAM(RandomAccess Memory,随机访问存储器)等半导体存储器。存储部14存储用于控制对讲机10的计算机程序以及各种数据,在与控制部15之间输入输出这些信息。在各种数据中包括脸的参照数据。
控制部15是对象检测装置的例子,具有CPU(CentralProcessing Unit,中央处理单元)、DSP(Digital Signal Processor,数字信号处理器)、MCU(Micro Control Unit,微控制单元)等至少一个处理器及其周边电路。控制部15将从接口部13接受了的摄影图像存储到存储部14。然后,控制部15读出在存储部14中存储了的摄影图像,判定在该摄影图像中是否拍摄了脸,并且控制输出部12的蜂鸣器的鸣动。
图3是示出控制部15的概略结构的图。如图3所示,在控制部15中,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部150、切出部151、多级别数据生成部152、评价值计算部153、对象判定部154以及鸣动控制部155。
另外,控制部15具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
以下,详细说明控制部15的各部。
数据输入部150从存储部14读出摄影图像,送到切出部151。
切出部151从自数据输入部150取得了的摄影图像依次切出作为检测处理的对象的预定尺寸的图像,将切出了的图像送到多级别数据生成部152。切出部151在摄影图像内设定多个切出位置,并且在根据摄像部11的设置状态和来访者的个人差设想的摄影图像上的来访者的脸的尺寸的范围内设定多个切出的图像的尺寸,依次切出设定了的位置和尺寸的组合的数量的部分图像。例如,切出位置能够设定为从摄影图像的左上端在级别方向上逐次错开切出的图像的级别方向的长度的一半的位置、以及从这些位置进而在垂直方向上逐次错开切出的图像的垂直方向的长度的一半的位置。以下,将切出部151切出了的图像称为部分图像。在本实施方式中,部分图像是输入数据的例子。
多级别数据生成部152根据输入数据,生成信息级别相互不同的多个数据,将生成了的数据与信息级别对应起来送到评价值计算部153。以下,将信息级别相互不同的多个数据称为多级别数据。本实施方式的多级别数据生成部152根据从作为输入数据的摄影图像切出了的部分图像,生成多个信息级别相互不同的图像(以下称为个别级别图像),将原来的部分图像以及生成了的个别级别图像生成为多级别数据。
在本实施方式的多级别数据生成部152中,作为多级别数据,生成信息级别越高则清晰度越高、且信息级别越低则清晰度越低的、清晰度相互不同的多个图像。多级别数据生成部152生成通过对部分图像实施平均化处理而降低了清晰度的个别级别图像。例如,多级别数据生成部152通过对部分图像分别应用信息级别越高则滤波器尺寸越小、且信息级别越低则滤波器尺寸越大的平均化滤波器,生成清晰度相互不同的多个个别级别图像。如果将平均化滤波器的滤波器尺寸设为n(例如n是2~30的整数),则在个别级别图像的各像素中设定处于在部分图像中以对应的像素为中心的n像素×n像素的范围的像素的像素值的平均值。即,使滤波器尺寸越大,该平均化滤波器的通过频带越窄,该个别级别图像成为模糊的图像而清晰度变低,所以该个别级别图像能够表现脸的特征的程度变低而信息级别变低。例如,信息级别被决定为1至30这30个阶段。于是,信息级别为1时的滤波器尺寸被设定为30,每当信息级别变大1时,滤波器尺寸被设定为变小1的值。另外,在信息级别是作为最高的值的30时,利用未应用平均化滤波器的原来的部分图像。
评价值计算部153针对在多级别数据中包含的各数据的每一个,计算表示检测对象可能性的程度的评价值,将各评价值与信息级别对应起来发送到对象判定部154。本实施方式的评价值计算部153具有作为作为对人物的脸的识别有用的一个以上的特征量的脸特征量使用了类哈尔(Haar-Like)特征量的实值Adaboost(自适应增强算法)(Real-Adaboost)分类器。类哈尔特征量是在图像区域中任意地设定了的多个邻接矩形区域之间的亮度差。关于类哈尔特征量的详细,例如,在Paul Viola and Michael Jones,"Rapid Object Detectionusing a Boosted Cascade of Simple Features",IEEE CVPR,vol.1,pp.511-518,2001中公开。
实值Adaboost分类器由多个弱分类器、和将各弱分类器的判定结果综合而判定的强分类器构成。在各弱分类器中,使用针对各弱分类器的每一个预先决定了的类哈尔特征量,根据图像计算特征量。各弱分类器在对应的部分图像中拍摄了脸的可能性越高则输出越高的值,可能性越低则输出越低的值。另一方面,强分类器将利用各弱分类器的输出值的总和作为评价值输出。另外,该评价值取至少三个以上的值,例如连续值。
另外,关于将与哪个邻接矩形区域有关的类哈尔特征量用作各弱分类器,根据拍摄了脸的多个学习用脸图像以及未拍摄脸的多个学习用非脸图像(以下将学习用脸图像以及学习用非脸图像统称为学习用图像)通过事先学习决定。学习步骤的概略如以下所述。
(1)进行事先学习的计算机针对各学习用图像,在图像区域中设定多个邻接矩形区域,分别计算与设定了的各邻接矩形区域有关的类哈尔特征量。
(2)计算机决定针对各学习用图像的权重。权重的初始值针对各学习用图像成为相同的值。
(3)计算机关于设定了的邻接矩形区域的各个,针对与该邻接矩形区域有关的每个类哈尔特征量,根据关于学习用脸图像设定了的权重,计算学习用脸图像的概率密度分布W+j。另外,j是与类哈尔特征量的值对应的编号。同样地,计算机关于设定了的邻接矩形区域的各个,针对与该邻接矩形区域有关的类哈尔特征量的每个值,根据关于学习用非脸图像设定了的权重,计算学习用非脸图像的概率密度分布W-j。另外,计算机也可以通过将各类哈尔特征量的值可取的范围分割为多个而对各类哈尔特征量进行量化,计算概率密度分布W+j以及概率密度分布W- j。
(4)计算机针对各类哈尔特征量,根据学习用脸图像的概率密度分布W+ j和学习用非脸图像的概率密度分布W- j,根据以下的式,计算评价值Z。
【式1】
另外,意味着该结合度Z越小,学习用脸图像的分布和学习用非脸图像的分布越分离。因此,计算机将与评价值Z成为最小的邻接矩形区域有关的类哈尔特征量选择为一个弱分类器。弱分类器的输出h(x)用以下的式表示。
【式2】
此处,x是输入到弱分类器的类哈尔特征量的值,ε是用于防止分母成为0的常数(例如10-10)。如式(2)所示,在弱分类器中,与输入值(类哈尔特征量)对应的、学习用脸图像的概率密度分布W+ j越大输出越大的值,与输入值对应的、学习用非脸图像的概率密度分布W- j越大输出越小的值。然后,弱分类器在学习用脸图像的概率密度分布W+ j比学习用非脸图像的概率密度分布W- j更大时,输出正的值,在更小时,输出负的值,在相同时,输出0。
(5)计算机增大使用了选择了的类哈尔特征量的弱分类器在识别中失败了的学习用图像的权重,减小在识别中成功了的学习用图像的权重。然后,以使全部的学习用图像的权重之和成为1的方式,对学习用图像的权重进行标准化。
(6)计算机将(3)~(5)的步骤反复预定次数。
将这样决定了的用作各弱分类器的类哈尔特征量的信息、表示邻接矩形区域的信息、以及表示各弱分类器的输出函数的信息作为脸的参照数据,存储于存储部14。
评价值计算部153将在(4)中选择了的各弱分类器的输出值的总和作为评价值。关于该评价值,在类哈尔特征量在特征量空间中相对识别边界位于脸侧的区域时成为正值,在位于非脸侧的区域时成为负值,其位置越远离识别边界,其绝对值越大,越接近识别边界,绝对值越小。
图4A以及图4B示出部分图像的例子。图4A所示的部分图像400是拍摄了人物的脸的情形明确的图像。图4B所示的部分图像410是未拍摄人物的脸的情形明确的图像。
图5示出针对部分图像400以及部分图像410,根据多级别数据生成部152应用的平均化滤波器的滤波器尺寸、和应用该滤波器尺寸的平均化滤波器而生成了的图像,评价值计算部153计算出的评价值的关系的一个例子。在图5中,横轴是滤波器尺寸,纵轴是评价值。另外,在滤波器尺寸是2以上的情况下,如果将滤波器尺寸设为n(n是2至30的整数),则针对在部分图像中应用了n像素×n像素的尺寸的平均化滤波器的个别级别图像,计算评价值,在滤波器尺寸是1的情况下,针对未应用平均化滤波器的原来的部分图像,计算评价值。该滤波器尺寸为1时的评价值、即针对原来的部分图像的评价值表示正确答案的符号。因此,关于部分图像400以及部分图像410,即使使用针对原来的部分图像的评价值,也能够正确地判别是否拍摄了脸。
另一方面,图6A以及图6B示出部分图像的其他例。在图6A所示的部分图像600中拍摄了人物的脸601,但该人物低头,部分图像600是难于获知是否拍摄了人物的脸的图像。另外,在图6B所示的部分图像610中未拍摄人物的脸,但拍摄了易于误判定为人物的脸的物611。
图7示出针对部分图像600以及部分图像610,根据多级别数据生成部152应用的平均化滤波器的滤波器尺寸、和应用该滤波器尺寸的平均化滤波器而生成了的图像,评价值计算部153计算出的评价值的关系的一个例子。在图7中,横轴是滤波器尺寸,纵轴是评价值。该滤波器尺寸为1时的评价值、即针对原来的部分图像的评价值的正负逆转而成为不正确答案的值。因此,关于部分图像600以及部分图像610,难于根据针对原来的部分图像的评价值,正确地判别是否拍摄了脸。
另一方面,在图5的图形500中,滤波器尺寸从9到1其评价值急剧上升,在图7的图形700中,滤波器尺寸从7到2其评价值急剧上升。相对于此,图形501的评价值以及图形701的评价值未上升图形500的评价值以及图形700的评价值的程度。
图8以及图9示出表示变更了在部分图像中应用的平均化滤波器的滤波器尺寸时的评价值的上升程度的图形。另外,关于平均化滤波器,在滤波器尺寸是奇数时,以使处于滤波器的中心位置的要素与应用部分图像内的滤波器的区域的中心像素对应的方式应用,但在滤波器尺寸是偶数时,由于在滤波器的中心位置不存在要素,所以以在级别方向以及垂直方向分别各错开0.5像素量的状态应用。因此,在图8以及图9中,为了去掉滤波器尺寸是奇数时和偶数时的不匹配性,将对将与各滤波器尺寸对应的评价值从与比该滤波器尺寸小2的滤波器尺寸对应的评价值减去而得到的差从滤波器尺寸大的一侧依次进行累积而得到的累积值(以下称为差分累积值)作为纵轴,将滤波器尺寸作为横轴。图8的图形800表示关于图5的图形500的评价值的差分累积值,图形801表示关于图形501的评价值的差分累积值。另外,图9的图形900表示关于根据图7的图形700求出了的评价值的差分累积值,图形901表示关于根据图形701求出了的评价值的差分累积值。
在图5的图形500中,滤波器尺寸从9到1其评价值上升,所以将与9至3的滤波器尺寸对应的各评价值分别从与7至1的滤波器尺寸对应的各评价值减去而得到的差成为正的值。因此,在图8的图形800中,关于差分累积值,滤波器尺寸从9到3而上升,特别在滤波器尺寸是6以下的范围内,成为非常大的值。另一方面,图5的图形501的评价值不上升到图形500的评价值的程度,因此,关于图8的图形801的差分累积值,不在全部的滤波器尺寸范围内,成为大到图形800的差分累积值的程度的值。
另外,在图7的图形700中,滤波器尺寸从7到2其评价值上升,将与7至4的滤波器尺寸对应的各评价值分别从与5至2的滤波器尺寸对应的各评价值减去而得到的差成为正的值。因此,在图9的图形900中,关于差分累积值,滤波器尺寸从7到4上升,特别在滤波器尺寸是4时,成为非常大的值。另一方面,图7的图形701的评价值不上升到图形500的评价值的程度,因此,关于图9的图形901的差分累积值,在全部的滤波器尺寸的范围内,不成为大到图形900的差分累积值的程度的值。因此,控制部15如果根据差分累积值、例如根据差分累积值是否成为10以上,判定在部分图像中是否拍摄了脸,则能够针对各部分图像600、601、700以及701的全部,正确地判定是否拍摄了脸。
对象判定部154针对在多级别数据中包含的各数据的每一个,求出计算出的评价值根据信息级别的上升而上升的上升程度,通过求出了的上升程度是否表示关于检测对象的上升程度,判定在输入数据中是否包括检测对象,输出判定结果。本实施方式的对象判定部154针对根据原来的部分图像以及各个别级别图像由评价值计算部153计算出的评价值,计算上升程度,将该上升程度与预先设定了的判定阈值进行比较。然后,对象判定部154如果上升程度是判定阈值以上则判定为在部分图像中拍摄了脸,如果上升程度小于判定阈值则判定为在部分图像中未拍摄脸。另外,作为判定阈值,设定在输入数据中包括检测对象的情况的上升程度的下限值。例如,能够将基于通过事先的实验针对拍摄了脸的多个测试用脸图像计算出的评价值的上升程度和针对未拍摄脸的多个测试用非脸图像计算出的评价值的上升程度的、能够识别它们的值作为判定阈值。在该情况下,例如,将针对测试用脸图像计算出的评价值的上升程度的平均值、和针对测试用非脸图像计算出的评价值的上升程度的平均值的平均值作为判定阈值。或者,也可以将针对测试用非脸图像计算出的评价值的上升程度的最大值、或者针对测试用脸图像计算出的评价值的上升程度的最小值作为判定阈值。
例如,对象判定部154针对每个信息级别求出从关于该信息级别的评价值减去关于比该信息级别低预定阶段的信息级别的评价值的差,将求出了的差的合计值作为上升程度。在该情况下,对象判定部154针对每个滤波器尺寸,求出将根据使用该滤波器尺寸的平均化滤波器而生成了的各图像计算出的评价值从根据使用比该滤波器尺寸小2的滤波器尺寸的平均化滤波器而生成了的各图像计算出的评价值减去的差,将其合计值作为上升程度。由此,对象判定部154能够将各评价值分成对计算该评价值而得到的图像应用了的平均化滤波器的滤波器尺寸是奇数的奇数系列、和该滤波器尺寸是偶数的偶数系列来计算上升程度。因此,能够去掉在图8以及图9的说明中叙述那样的、应用滤波器尺寸是奇数的平均化滤波器的情况、和应用滤波器尺寸是偶数的平均化滤波器的情况下产生的不匹配性。以下,示出将各评价值分成偶数系列和奇数系列而计算上升程度的式。
Δn1=Sn1-2-Sn1其中,n1=N、N-2、…、6、4 (3)
Δn2=Sn2-2-Sn2其中,n2=N-1、N-3、…、5、3 (4)
D=ΣΔn1+ΣΔn2其中,n1=N、N-2、…、6、4,n2=N-1、N-3、…、5、3 (5)
此处,Sn是滤波器尺寸为n时的评价值,n1是偶数系列,n2是奇数系列,N是最大滤波器尺寸,Δn是将滤波器尺寸为n时的评价值从滤波器尺寸为n-2时的评价值减去而得到的差,D是评价值的上升程度。另外,虽然还能够仅用偶数系列或者奇数系列来计算上升程度,通过使用两方的系列能够增加信息级别的数量,能够更细致地分析各评价值。
或者,对象判定部154也可以不将各评价值分成偶数系列和奇数系列,而将把根据使用各滤波器尺寸的平均化滤波器生成了的各图像计算出的评价值从根据使用比该滤波器尺寸小1的滤波器尺寸的平均化滤波器生成了的各图像计算出的评价值减去而得到的差的合计值作为上升程度。
或者,对象判定部154从信息级别小的一方、即从滤波器尺寸大的一方,依次求出将关于各滤波器尺寸的评价值从关于比该滤波器尺寸小预定尺寸的滤波器尺寸的评价值减去的差。然后,对象判定部154也可以每当求出差时,将求出了的差的累积值求出为上升程度,判定该上升程度是否为判定阈值以上,如果上升程度成为判定阈值以上,则判定为在部分图像中拍摄了脸。在该情况下,多级别数据生成部152、评价值计算部153以及对象判定部154能够在针对全部的信息级别实施各处理之前判定为在部分图像中包括脸,能够缩短检测处理所需的时间。另外,对象判定部154检测在提高信息级别时评价值变高,所以优选从信息级别小的一方依次实施处理。
鸣动控制部155在由对象判定部154判定为某一个部分图像是脸图像时,向输出部12输入蜂鸣器鸣动信号而使蜂鸣器鸣动。
以下,参照图10所示的流程图,说明由本实施方式的对讲机10实施的对象检测处理的动作。另外,关于以下说明的动作的流程,存储于存储部14,依照读入到控制部15的程序,通过控制部15控制。
最初,如果由来访者按压了未图示的呼叫按钮,则控制部15使摄像部11对门厅等进行摄影,经由接口部13取得摄影图像,存储于存储部14。然后,数据输入部150从存储部14读出摄影图像,送到切出部151(步骤S1001)。接下来,切出部151从取得了的摄影图像切出部分图像,将切出了的部分图像送到多级别数据生成部152(步骤S1002)。另外,控制部15将步骤S1002~S1011的处理执行切出部151切出的部分图像的数量。
接下来,控制部15设定信息级别(步骤S1003)。另外,控制部15从低的一方依次设定预先决定了的信息级别,将步骤S1003~S1007的处理执行设定的信息级别的数量。
多级别数据生成部152生成与在步骤S1003中设定了的信息级别对应的个别级别图像,将生成了的个别级别图像与信息级别对应起来送到评价值计算部153(步骤S1004)。另外,在信息级别并非最大值的情况下,多级别数据生成部152根据部分图像生成与该信息级别对应的个别级别图像而送到评价值计算部153。另一方面,在信息级别是最大值的情况下,多级别数据生成部152将部分图像原样地送到评价值计算部153。
接下来,评价值计算部153从自多级别数据生成部152接受了的个别级别图像,抽出脸特征量(步骤S1005)。接下来,评价值计算部153根据抽出了的脸特征量计算评价值,将计算出的评价值与信息级别对应起来送到对象判定部154(步骤S1006)。
接下来,控制部15判定是否针对全部的信息级别执行了步骤S1003~S1006的处理(步骤S1007)。如果未针对全部的信息级别执行步骤S1003~S1006的处理(步骤S1007的“否”),则控制部15使处理返回到步骤S1003而反复步骤S1003~S1006的处理。另一方面,如果针对全部的信息级别执行了步骤S1003~S1006的处理(步骤S1007的“是”),则对象判定部154针对此前从评价值计算部153接受了的评价值,计算根据信息级别的上升而上升的上升程度(步骤S1008)。
接下来,对象判定部154将计算出的上升程度与判定阈值进行比较(步骤S1009)。如果上升程度是判定阈值以上(步骤S1009的“是”),则鸣动控制部155将蜂鸣器鸣动信号经由接口部13输出到输出部12,输出部12使蜂鸣器鸣动(步骤S1010)。如果进行了蜂鸣器的鸣动,则控制部15结束一系列的步骤。
另一方面,如果上升程度小于判定阈值(步骤S1009的“否”),则控制部15判定是否将预先决定了的全部的位置以及大小的部分图像全部切出(步骤S1011)。如果未将部分图像全部切出(步骤S1011的“否”),则控制部15使处理返回到步骤S1002而反复步骤S1002~S1011的处理。另一方面,如果将部分图像全部切出(步骤S1011的“是”),则控制部15设为未检测来访者的脸,结束一系列的步骤。
另外,对象判定部154也可以每当在步骤S1006中评价值计算部153发送评价值时,计算上升程度,将计算出的上升程度与判定阈值进行比较。在该情况下,对象判定部154每当在步骤S1006中评价值计算部153发送评价值时,将接受了的评价值存储于存储部14。然后,对象判定部154计算该评价值和已经存储了的评价值之差,将计算出的差加到累积值而作为评价值的上升程度。另外,对象判定部154在信息级别是最低值的情况下,将累积值初始化为0。在该情况下,对象判定部154不计算差而不变更累积值。另一方面,对象判定部154在信息级别并非最低值的情况下,计算从评价值计算部153接受了的评价值和紧接着之前接受了的评价值之差而加到累积值。然后,对象判定部154每当计算累积值时,将计算出的累积值与判定阈值进行比较,如果累积值是判定阈值以上,则鸣动控制部155将蜂鸣器鸣动信号经由接口部13输出到输出部12,输出部12使蜂鸣器鸣动。
另外,例如,在以在摄像部11摄影的摄影图像正好收纳来访者的脸的方式设置对讲机10那样的情况下,控制部15无需从摄影图像切出部分图像,所以也可以根据摄影图像直接生成个别级别图像。在该情况下,从控制部15省略切出部151,在图10的流程图中,步骤S1002以及S1011的处理被省略。
如以上说明,本实施方式的对讲机根据从摄像部摄影了的摄影图像切出了的部分图像或者摄影图像,生成信息级别相互不同的多个个别级别图像,根据生成了的各个别级别图像计算评价值。然后,对讲机求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在部分图像或者摄影图像中拍摄了脸的情况的上升程度的下限值以上的情况下,判定为在摄影图像中拍摄了脸。由此,能够提高对讲机从摄影图像检测脸的精度。
另外,本实施方式的对讲机并非根据评价值自身判定是否在部分图像中拍摄了脸,而根据评价值的上升程度判定是否在部分图像中拍摄了脸。即,对讲机并非通过从部分图像抽出了的特征量在特征量空间中相对识别边界位于脸侧还是位于并非脸的一侧来判定是否在部分图像中拍摄了人物,而是根据与信息级别的变化对应的、相对识别边界的特征量的位置的变化检测脸。因此,无需高精度地学习识别边界自身,所以无需收集大量的学习用图像,能够提高装置的开发效率。
在第一实施方式中的第一变形例中,在评价值计算部中,作为脸特征量,代替类哈尔特征量而使用HOG(Histograms of OrientedGradients,方向梯度直方图)特征量。评价值计算部将输入了的图像分割为多个块,进而将各块分割为多个单元。例如,各单元是5像素×5像素的矩形区域,各块是3单元×3单元的矩形区域。然后,评价值计算部计算输入了的图像内的各像素中的像素值的梯度方向以及梯度强度。另外,关于梯度方向,无需考虑朝向,所以在0°~180°的范围内计算,决定为例如针对每22.5°分割了的8个方向。评价值计算部按照每个单元,针对各梯度方向求出将各梯度方向的梯度强度的总和作为度数的直方图,将求出了的直方图针对每个块标准化,将由此得到的结果作为HOG特征量。
在作为脸特征量使用HOG特征量的情况下,向评价值计算部的各弱分类器,分别输入针对预定的块求出了的HOG特征量,各弱分类器根据输入了的HOG特征量,在对应的部分图像中拍摄了脸的可能性越高则输出越高的值,可能性越低则输出越低的值。另外,关于将哪个块的HOG特征量输入到各弱分类器,根据拍摄了脸的多个学习用脸图像和未拍摄脸的多个学习用非脸图像,通过事先学习决定。学习步骤与作为脸特征量使用类哈尔特征量的情况相同,所以省略说明。将表示用作通过事先学习决定了的各弱分类器的HOG特征量的信息、和表示各弱分类器的输出函数的信息作为脸的参照数据,存储于存储部。
在第一实施方式中的第二变形例中,多级别数据生成部通过代替变更在图像中应用的平均化滤波器的滤波器尺寸,而变更平均化滤波器的滤波处理次数,生成清晰度相互不同的多个图像。在该情况下,多级别数据生成部使用固定尺寸(例如3×3)的平均化滤波器,分别生成将滤波处理实施了1次的图像、实施了2次的图像、…、实施了n次的图像。关于生成的图像,越反复滤波处理,成为越模糊的图像,所以滤波处理的次数越多,清晰度越低,滤波处理的次数越少,清晰度越高。
或者,在多级别数据生成部中,也可以通过变更在图像中应用的滤波器的滤波器系数,生成清晰度相互不同的多个图像。在该情况下,多级别数据生成部针对固定尺寸(例如5×5)的滤波器以越接近滤波器的中央部使权重越大的方式进行加权,使用该加权相互不同的滤波器来生成清晰度相互不同的多个图像。应用的滤波器的从缘部向中央部的权重的变化的程度越缓和,生成的图像的清晰度越低,从缘部向中央部的权重的变化的程度越急剧,该清晰度越高。
或者,在多级别数据生成部中,也可以通过将图像内的各像素分割为像素值相互类似的邻接像素的集团(分段),并针对各分段的每一个将构成该分段的像素的像素值置换为同一值,生成清晰度相互不同的多个图像。在该情况下,多级别数据生成部将像素值的差的绝对值是阈值以下的邻接像素的集团作为分段,将构成各分段的像素的像素值用该分段中的平均像素值置换。多级别数据生成部通过将该阈值变更为多个支路,生成清晰度相互不同的多个图像。用于集中邻接像素的阈值越高,生成的图像的清晰度越低,用于集中邻接像素的阈值越低,该清晰度越高。
在第一实施方式中的第三变形例中,在多级别数据生成部中,作为信息级别相互不同的多个图像,生成在输入了的图像上,信息级别越高则重叠越少的量的噪声,信息级别越低则重叠越多的量的噪声的多个图像。在该情况下,多级别数据生成部通过随机地选择输入了的图像内的预定数的像素,并将选择了的像素的值变更为随机的值,重叠噪声。多级别数据生成部通过将变更值的像素的数量变更为多个支路,生成分别重叠了相互不同的量的噪声的多个图像。重叠的噪声量越多,生成的图像的SN(signal to noise,信号对噪声)比越低,信息级别越低,重叠的噪声量越少,SN比越高,信息级别越高。
或者,在多级别数据生成部中,也可以作为信息级别相互不同的多个图像,生成信息级别越高则图像的可懂度越高、且信息级别越低则图像的可懂度越低的、图像的可懂度相互不同的多个图像。在该情况下,例如,在多级别数据生成部中,作为图像的可懂度相互不同的多个图像,生成信息级别越高则使图像内的像素值的阶度数越多、且信息级别越低则使图像内的像素值的阶度数越少的多个图像。阶度数越少,生成的图像的可懂度越低,所以信息级别变低,阶度数越多,可懂度越高,所以信息级别变高。
或者,在多级别数据生成部中,也可以作为图像的可懂度相互不同的多个图像,生成信息级别越高、使对比度越高、且信息级别越低、使对比度越低的多个图像。在该情况下,多级别数据生成部针对输入了的图像,生成以使图像内的全部像素的亮度值的标准偏差变小的方式变换了各像素的亮度值的图像。图像内的各像素的亮度值的标准偏差越小,生成的图像的可懂度越低,所以信息级别变低,标准偏差越大,可懂度越高,所以信息级别变高。
在第一实施方式中的第四变形例中,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成信息级别越高则使对在输入数据中表示检测对象的部分进行掩膜重叠的程度(以下称为掩膜重叠程度)越低、且信息级别越低则使掩膜重叠程度越高的、掩膜重叠程度相互不同的多个数据。在输入数据是图像数据的情况下,多级别数据生成部生成关于在输入了的图像中表示作为检测对象的人物的脸的部分的掩膜重叠程度相互不同的多个图像。在该情况下,多级别数据生成部将对图像的一部分进行掩膜重叠的预定尺寸的掩膜重叠区域设定于该图像内,将该图像中的掩膜重叠区域内的像素值置换为固定值。然后,在多级别数据生成部中,作为掩膜重叠程度相互不同的多个图像,生成掩膜重叠区域的尺寸相互不同的多个图像。
图11示出用于说明掩膜重叠区域的示意图。在图11所示的例子中,尺寸相互不同的掩膜重叠区域1100、1101、1102被设定为各掩膜重叠区域的中央位置分别与图像1103的中央位置1104一致。
掩膜重叠区域的尺寸越大,生成的图像的掩膜重叠程度越高,在该图像中表示的脸的特征的正确性越低,所以信息级别越低,掩膜重叠区域的尺寸越小,该掩膜重叠程度越低,该信息级别越高。另外,作为掩膜重叠程度最低的图像,能够利用掩膜重叠区域的尺寸是0的图像、即原来的图像。
或者,在多级别数据生成部中,也可以作为掩膜重叠程度相互不同的多个图像,生成掩膜重叠区域的位置相互不同的多个图像。如上所述,例如,以在摄像部摄影的摄影图像中正好收纳来访者的脸的方式设置对讲机那样的情况下,控制部无需从摄影图像切出部分图像,所以也可以根据摄影图像直接生成个别级别图像。在该情况下,在摄影图像中,眼、鼻、口等脸的特征性的部位相比于摄影图像的缘部在中央部附近存在更多的可能性高。因此,在该情况下,通过将掩膜重叠区域的位置从缘部变更为中央部,能够降低该图像适合于脸的特征表现的程度。在该情况下,掩膜重叠区域的位置越接近中央部,生成的图像的掩膜重叠程度越高,掩膜重叠区域的位置越接近缘部,该掩膜重叠程度越低。
这样,通过生成掩膜重叠程度相互不同的多个图像并根据各图像计算评价值,根据评价值随着掩膜重叠程度的降低而上升的上升程度判定是否在部分图像中拍摄了脸,也能够提高检测对象的检测精度。
在第一实施方式中的第五变形例中,多级别数据生成部生成关于检测对象的特征量,针对该特征量,生成使该特征量表示的信息量的级别(以下称为分析级别)相互不同的多个数据。在分析级别相互不同的多个数据中,各数据能够表现检测对象的特征的程度相互不同。因此,在本变形例中,在多级别数据生成部中,作为信息级别相互不同的多个数据,使用信息级别越高则分析级别越高、且信息级别越低则分析级别越低的、使分析级别相互不同的多个数据。在该情况下,关于通过事先学习决定了的、向评价值计算部的各弱分类器输入的特征量,并非由评价值计算部求出,而是由多级别数据生成部求出,多级别数据生成部将求出了的特征量的分析级别变更为多个支路。
例如,在多级别数据生成部中,作为使分析级别相互不同的多个数据,生成对关于输入了的图像求出了的各类哈尔特征量,分析级别越高则乘以越大、且分析级别越低则乘以越小的1以下的正的系数α(0<α≤1.0)的多个数据。多级别数据生成部将系数α例如如0.1、0.2、0.3、…、1.0那样在预先设定了的范围内变更为多个支路。α越小,脸的特征越损失,所以求出的特征量的信息级别越低,相逆地α越大,该信息级别越高。
在该情况下,在图10的流程图的步骤S1004中,多级别数据生成部根据部分图像,求出向评价值计算部的各弱分类器输入的类哈尔特征量,对各类哈尔特征量乘以与在步骤S1003中设定了的信息级别对应的系数α,送到评价值计算部。然后,步骤S1005被省略,在步骤S1006中,评价值计算部根据从多级别数据生成部接受了的类哈尔特征量,计算评价值。
另外,例如,在作为脸特征量使用HOG特征量的情况下,也可以在多级别数据生成部中,作为使分析级别相互不同的多个数据,生成分析级别越高、使表现特征量的量化数越多、且分析级别越低、使表现特征量的量化数越少的多个数据。如第一变形例说明,在作为脸特征量使用HOG特征量的情况下,图像内的各单元中的各梯度方向的梯度强度的总和的直方图被求出为HOG特征量。多级别数据生成部通过将直方图的量化数、即梯度方向的数量按照2、3、4、…、9那样在预先设定了的范围内变更为多个支路,变更分析级别。量化数越少,脸的特征越损失,所以抽出的特征量的信息级别越低,相逆地量化数越多,该信息级别越高。
或者,在多级别数据生成部中,也可以通过对各特征量进行加权,变更分析级别。例如,在作为特征数据使用HOG特征量的情况下,多级别数据生成部通过在接近部分图像的中心位置的单元和远离部分图像的中心位置的缘部的单元中设定不同的权重系数,并对各单元的直方图乘以该权重系数,变更分析级别。在该情况下,在部分图像的中心位置的单元和缘部的单元中权重系数的差越大,脸的特征越损失,所以抽出的特征量的信息级别越低,相逆地权重系数的差越小,该信息级别越高。
这样,通过求出分析级别相互不同的特征量并根据各特征量计算评价值,根据评价值随着分析级别的上升而上升的上升程度判定是否在图像中拍摄了脸,也能够提高检测对象的检测精度。
在第一实施方式中的第六变形例中,评价值计算部代替实值Adaboost分类器而具有Adaboost分类器。该分类器由多个弱分类器、和将各弱分类器的判定结果综合而判定的强分类器。向各弱分类器,分别输入针对各弱分类器的每一个预先决定了的特征量,各弱分类器在根据输入了的特征量,判定为在对应的部分图像中拍摄了脸的情况下,输出1,在判定为未拍摄脸的情况下,输出-1。另一方面,强分类器对利用各弱分类器的输出值分别进行加权,求出其加权和,作为评价值输出。另外,关于将哪个特征量输入到各弱分类器、以及针对各弱分类器的权重,通过使用了根据拍摄了脸的多个学习用脸图像和未拍摄脸的多个学习用非脸图像计算出的特征量的事先学习决定。
或者,评价值计算部也可以使用支持向量机、具有3层以上的层的感知器或者随机森林(random forest)等来计算评价值。在该情况下,评价值计算部预先从多个学习用脸图像和多个学习用非脸图像分别抽出一个以上的特征量,使用抽出了的特征量来进行事先学习。在该事先学习中,在输入从特定的图像抽出了的特征量时,判别是否在特定的图像中拍摄了脸。在使用支持向量机的情况下,评价值计算部在特征量空间中,特征量在相对通过事先学习求出了的识别边界位于脸侧的区域时成为正值,在位于非脸侧的区域时成为负值,将与该特征量的位置和识别边界的距离相当的值计算为评价值。另外,在使用具有3层以上的层的感知器的情况下,评价值计算部将向输出层的神经元的输入的总和作为评价值。另外,在使用随机森林的情况下,评价值计算部以在图像中拍摄了脸的确切可能性越高,使通过事先学习生成了的各决定木的输出越高的方式,结合而作为评价值。
或者,评价值计算部也可以使用线性判别分析法来输出评价值。在该情况下,评价值计算部预先从多个学习用脸图像和多个学习用非脸图像分别抽出一个以上的特征量,使用抽出了的特征量来制作线性判别函数。评价值计算部在输入了从特定的图像抽出了的特征量时,以在该图像中拍摄了脸的确切可能性越高,输出越高的值的方式,制作线性判别函数,将其输出值作为评价值。
或者,评价值计算部也可以使用混合正态分布来输出评价值。在该情况下,评价值计算部预先从多个学习用脸图像分别抽出一个以上的特征量,使用抽出了的特征量来制作混合正态分布。评价值计算部将在对制作了的混合正态分布输入了从特定的图像抽出了的特征量时得到的概率作为评价值。在使用混合正态分布的情况下,仅使用检测对象的学习用数据来进行事先学习,所以无需收集检测对象以外的学习用数据、即未拍摄脸的学习用非脸图像。
另外,例如,评价值计算部也可以使用利用不同的学习数据进行机器学习而得到的多个分类器来计算评价值。在该情况下,评价值计算部串联地连接各分类器,从第1级的分类器依次执行识别处理,直至某一个分类器判定为在图像中未拍摄人物的脸为止,反复识别处理。另外,在评价值计算部中,在来自各分类器的输出值是阈值以下的情况下,该分类器判断为在图像中未拍摄人物的脸。关于该阈值,能够设定为能够根据通过事先的实验针对拍摄了脸的多个测试用脸图像计算出的输出值和针对未拍摄脸的多个测试用非脸图像计算出的输出值识别它们的值。然后,评价值计算部将判定为在图像中拍摄了人物的脸的分类器的数量作为评价值。
在第一实施方式中的第七变形例中,评价值计算部代替通过进行了机器学习的分类器计算评价值,而通过模式匹配计算评价值。在该情况下,控制部预先生成对知道是表示检测对象的数据的多个学习用数据实施了平均化处理等的数据的图案,作为参照数据存储于存储部。评价值计算部将从多级别数据生成部接受了的图像的各个、和预先存储为参照数据的数据图案类似的程度计算为评价值。关于类似的程度,例如,能够设为各图像和参照数据的内积。
在第一实施方式中的第八变形例中,评价值计算部代替通过进行了机器学习的分类器计算评价值、或者通过模式匹配计算评价值,而将从输入数据抽出检测对象特有的数据的抽出程度作为评价值。例如,在检测对象是脸的情况,抽出的数据能够成为表示肤色的像素(以下称为肤色像素)。在该情况下,控制部预先设定抽出的肤色像素的像素值的范围、和视为脸的肤色像素的标准比例而存储于存储部。评价值计算部从自多级别数据生成部接受了的图像分别抽出肤色像素。评价值计算部求出各图像内的肤色像素的像素数相对全部像素数的比例、和在存储部中预先存储了的标准比例的差的绝对值,将求出了的绝对值的倒数作为评价值。
在第一实施方式中的第九变形例中,在评价值计算部中,作为评价值,代替输出表示检测对象可能性的程度,而输出表示并非检测对象的确切可能性的程度。在该情况下,对象判定部通过在增大了信息级别时评价值是否大幅减少,来判定在输入数据中是否包括检测对象。即,在对象判定部中,如果根据信息级别的上升而下降的评价值的下降程度是预先设定了的判定阈值以上,则判定为在输入数据中包括检测对象,如果下降程度小于判定阈值,则判定为在输入数据中不包括检测对象。
在第一实施方式中的第十变形例中,对象判定部针对每个信息级别求出从关于该信息级别的评价值减去关于比该信息级别低预定阶段的信息级别的评价值的差,将求出了的差的最大值作为其评价值的上升程度。通过将评价值的差的最大值作为该评价值的上升程度,对象判定部即使在信息级别的数量少的情况下,也能够适合地检测评价值的变化。
或者,对象判定部也可以将从针对各信息级别求出了的全部的评价值的最大值减去最小值而得到的差、以及最大值相对最小值的比中的某一方作为其评价值的上升程度。由此,在信息级别的数量少的情况下,也能够适合地检测评价值的变化。
或者,在评价值在表示在输入数据中包括检测对象时成为正值,在表示输入数据中不包括检测对象时成为负值的情况下,在输入数据中未包括检测对象时,处于针对各信息级别求出了的评价值的符号频繁地变化的倾向。因此,在该情况下,对象判定部也可以将针对各信息级别求出了的评价值的符号变化次数的倒数作为其评价值的上升程度。在该情况下,对象判定部按照信息级别从低到高的顺序对评价值的符号变化了的次数进行计数,将该次数的倒数作为评价值的上升程度。或者,对象判定部也可以将符号从负变化为正的次数的倒数、以及从正变化为负的次数的倒数中的某一方作为评价值的上升程度。通过将评价值的符号变化次数的倒数作为其评价值的上升程度,在信息级别的数量特别多的情况下,能够更高精度地检测评价值的上升程度。
或者,对象判定部也可以将针对各信息级别求出了的评价值的分散值作为该评价值的上升程度。在该情况下,对象判定部在求出了的分散值是判定阈值以上的情况下,判定为在输入数据中包括检测对象,在小于判定阈值的情况下,判定为在输入数据中不包括检测对象。
或者,对象判定部也可以针对每个信息级别求出从关于该信息级别的评价值减去关于比该信息级别低预定阶段的信息级别的评价值的差,将从求出了的差的最大值减去平均值而得到的差作为评价值的上升程度。
或者,对象判定部也可以通过对将针对各信息级别求出了的评价值按照信息级别顺序排列了的评价值列进行线性近似来求出包络线,针对每个信息级别从与该信息级别对应的包络线的值减去与比该信息级别低预定阶段的信息级别对应的包络线的值来求出差,将求出了的差的合计值或者最大值作为评价值的上升程度。或者,也可以将从各信息级别中的包络线的最大值减去最小值而得到的差、以及最大值相对最小值的比中的某一方作为评价值的上升程度。由此,即使在针对各信息级别求出了的评价值中包括值极端小的偏移值的情况下,也能够降低该偏移值所致的判定的错误。
或者,对象判定部使用知道是表示检测对象的数据的学习用数据,关于针对各信息级别求出了的评价值,预先求出包络线而存储于存储部。关于该包络线,根据表示检测对象的数据求出,所以信息级别越高,值越急剧变高。因此,在针对输入数据求出了的包络线和在存储部中预先存储的包络线类似的情况下,针对输入数据求出了的包络线也被推测为信息级别越高、值越急剧地变高。因此,对象判定部也可以针对关于输入数据求出了的包络线、和在存储部中预先存储的包络线,计算互相关来求出相关值,将求出了的相关值作为评价值的上升程度。
第一实施方式中的第十一变形例中,对象判定部并非通过在提高了信息级别时评价值是否变大,而通过在降低了信息级别时评价值是否变小,判定输入数据是否为检测对象的数据。即,对象判定部计算降低了信息级别时的评价值的下降程度,如果计算出的下降程度是判定阈值以上,则判定为在输入数据中包括检测对象,如果下降程度小于判定阈值,则判定为在输入数据中不包括检测对象。另外,在评价值表示并非检测对象的确切可能性的情况下,对象判定部通过在降低了信息级别时评价值是否变大,判定在输入数据中是否包括检测对象。
在第一实施方式中的第十二变形例中,对象判定部并非仅根据评价值的上升程度判定在输入数据中是否包括检测对象,而根据评价值的上升程度和评价值自身判定在输入数据中是否包括检测对象。在该情况下,对象判定部计算作为针对每个信息级别求出了的多个评价值的统计性代表值的代表评价值,在评价值的上升程度是判定阈值以上、并且代表评价值是第二判定阈值以上的情况下,判定为在输入数据中包括检测对象。另一方面,对象判定部在评价值的上升程度小于判定阈值的情况、或者代表评价值小于第二判定阈值的情况下,判定为在输入数据中不包括检测对象。代表评价值能够成为例如多个评价值中的最大值。或者,代表评价值也可以成为多个评价值的平均值、中央值或者最小值。关于第二判定阈值,能够通过预先的实验,成为针对包括检测对象的输入数据的代表评价值分布的范围的下限值。即,第二判定阈值以上的值成为表示至少代表评价值是检测对象的值,小于第二判定阈值的值成为表示至少代表评价值并非检测对象的值。由此,能够对针对上升程度的判定阈值附加余量,所以检测对象的检测精度提高。
接下来,参照附图,说明安装了本发明的第二实施方式的对象检测装置的对讲机。
本实施方式的对讲机通过代替根据输入了的图像生成图像的清晰度相互不同的多个图像,而生成针对输入了的图像按照多个支路进行了几何变换的多个图像,生成信息级别相互不同的多个图像。
如第一实施方式说明,对讲机使用利用拍摄了至少检测对象的学习用图像进行了事先学习的分类器,判定在部分图像中是否拍摄了检测对象。或者,通过拍摄了检测对象的学习用图像和部分图像的模式匹配,判定在部分图像中是否拍摄了检测对象。一般,为了提高检测精度,作为学习用图像,大量使用以与针对在对讲机摄影了的摄影图像中拍摄的检测对象设想的倾斜相同的程度的倾斜拍摄了检测对象的图像。因此,例如,如果使图像旋转来变更检测对象的倾斜,则旋转后的图像中的检测对象的倾斜与大量的学习用图像中的检测对象的倾斜不同,该图像适合于检测对象的特征表现的程度降低。因此,在本实施方式的对讲机中,作为信息级别相互不同的多个图像,生成使部分图像以多个支路的角度旋转了的多个图像。由此,对讲机与第一实施方式同样地,提高从部分图像检测脸的精度。
第二实施方式的对讲机10与图2所示的第一实施方式的对讲机10同样地,具有摄像部11、输出部12、接口部13、存储部14以及控制部15。关于摄像部11、输出部12、接口部13以及存储部14,与第一实施方式的对讲机10相同,所以省略说明。另外,第二实施方式的对讲机10具有的控制部15是对象检测装置的例子,与图3所示的第一实施方式的对讲机10具有的控制部15同样地,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部150、切出部151、多级别数据生成部152、评价值计算部153、对象判定部154以及鸣动控制部155。
另外,控制部15具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
关于数据输入部150、切出部151、评价值计算部153、对象判定部154以及鸣动控制部155,与第一实施方式的对讲机10的数据输入部150、切出部151、评价值计算部153、对象判定部154以及鸣动控制部155相同,所以,省略说明,以下,详细说明多级别数据生成部152。
在多级别数据生成部152中,作为多级别数据,针对从摄影图像切出了的各部分图像,信息级别越高则以越小的程度进行几何变换,信息级别越低则以越大的程度进行几何变换,来生成多个个别级别图像。然后,多级别数据生成部152将生成了的个别级别图像与信息级别对应起来送到评价值计算部153。在本实施方式的多级别数据生成部152中,作为几何变换了的多个数据,信息级别越高则以越小的旋转角度,信息级别越低则以越大的旋转角度,使部分图像分别旋转,而生成多个个别级别图像。由此,在旋转后的图像中拍摄了的检测对象的倾斜与在大量的学习用图像中拍摄了的检测对象的倾斜不同,部分图像适合于检测对象的特征表现的程度降低。使部分图像旋转的旋转角度越大,上述程度越低,生成的图像的信息级别越低。例如,信息级别被设定为1至19这19个阶段。信息级别为1时的旋转角度被设定为180°,每当信息级别变大1时,旋转角度被设定为变小10°的值。另外,在信息级别是作为最高的值的19时,利用不旋转的原来的部分图像。
以下,参照图12所示的流程图,说明利用第二实施方式的对讲机的对象检测处理的动作。在第二实施方式的对讲机中,能够代替上述图10所示的流程图,而执行该流程图。另外,关于以下说明的动作的流程,存储于存储部14,依照读入到控制部15的程序,通过控制部15控制。图12所示的流程图的步骤S1201~S1202、S1205~S1211的处理与图10所示的流程图的步骤S1001~S1002、S1005~S1011的处理相同,所以省略说明,以下,仅说明步骤S1203~S1204的处理。
在步骤S1203中,控制部15设定信息级别。另外,控制部15从低的一侧,依次设定预先决定了的信息级别,将步骤S1204~S1207的处理执行设定的信息级别的数量。
多级别数据生成部152生成使部分图像旋转为与在步骤S1203中设定了的信息级别对应的旋转角度的个别级别图像,将生成了的个别级别图像与信息级别对应起来送到评价值计算部153(步骤S1204)。另外,在信息级别并非最大值的情况下,多级别数据生成部152生成使部分图像旋转为与该信息级别对应的旋转角度的个别级别图像而送到评价值计算部153。另一方面,在信息级别是最大值的情况下,多级别数据生成部152将部分图像原样地送到评价值计算部153。
如以上说明,在本实施方式的对讲机中,作为信息级别相互不同的多个图像,生成使从摄像部摄影了的摄影图像切出了的部分图像或者摄影图像旋转为多个支路的旋转角度的多个图像,根据生成了的各图像计算评价值。然后,对讲机求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在部分图像或者摄影图像中拍摄了脸的情况的上升程度的下限值以上的情况下,判定为在摄影图像中拍摄了脸。由此,能够提高对讲机从摄影图像检测脸的精度。
在第二实施方式中的第一变形例中,多级别数据生成部通过代替使输入了的图像旋转,而将输入了的图像变换为梯形,进行几何变换。例如,在多级别数据生成部中,通过使输入了的图像的四边中的某一边变短,进行梯形变换。多级别数据生成部生成信息级别越高、变换后的梯形的底边与上边之比越接近1、且信息级别越低、变换后的梯形的底边与上边之比越远离1的多个数据。由此,在变形后的图像中拍摄了的检测对象的形状与本来的形状不同,变形后的图像适合于检测对象的特征表现的程度降低。变换后的梯形中的底边与上边之比越远离1,上述程度越变低,生成的图像的信息级别越变低。
或者,在多级别数据生成部中,也可以通过将输入了的图像变换为平行四边形,进行几何变换。例如,在多级别数据生成部中,通过使输入了的图像的四边中的某一边与其对边平行地移动,变换为平行四边形。在该情况下,多级别数据生成部生成信息级别越高、变换后的平行四边形的各角度越接近90°、且信息级别越低、变换后的平行四边形的各角度越远离90°的多个数据。即使在该情况下,在变形后的图像中拍摄了的检测对象的形状与本来的形状不同,变形后的图像适合于检测对象的特征表现的程度降低。平行四边形中的各角度越远离90°,上述程度越变低,生成的图像的信息级别越变低。
在第二实施方式中的第二变形例中,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成与几何变换相当的、进行了相互不同的处理的多个特征量。在该情况下,关于通过事先学习决定了的、向评价值计算部的各弱分类器输入的特征量,并非由评价值计算部求出,而是由多级别数据生成部求出。例如,在特征量是类哈尔特征量的情况下,多级别数据生成部针对与向通过事先学习决定了的各弱分类器输入的类哈尔特征量对应的每个邻接矩形区域,使该邻接矩形区域旋转,将旋转了的邻接矩形区域之间的亮度差求出为向该弱分类器输入的类哈尔特征量。在该情况下,多级别数据生成部针对与向通过事先学习决定了的各弱分类器输入的类哈尔特征量对应的每个邻接矩形区域,使使该邻接矩形区域旋转的旋转角度在0°~180°之间阶段性地旋转的同时求出多个类哈尔特征量,用作信息级别相互不同的多个数据。由此,得到与使输入了的图像旋转来求出类哈尔特征量的情况同样的效果,相比于使输入了的图像旋转,能够更低负荷地求出类哈尔特征量。
另外,在特征量是HOG特征量的情况下,多级别数据生成部将输入了的图像分割为多个单元,针对每个单元,计算单元内的各像素中的像素值的梯度方向以及梯度强度,求出针对各梯度方向将各梯度方向的梯度强度的总和作为度数的直方图。然后,多级别数据生成部将针对求出了的直方图的各梯度方向,使度数、即各梯度方向的梯度强度的总和循环预定的阶段而得到的结果求出为HOG特征量。多级别数据生成部求出使循环的阶段数相互不同的多个HOG特征量,用作信息级别相互不同的多个数据。由此,相比于使部分图像旋转,能够更低负荷地求出在使部分图像旋转了时得到的HOG特征量。
另外,在这些情况下,在图12的流程图的步骤S1204中,多级别数据生成部针对部分图像,求出与在步骤S1203中设定了的信息级别对应的特征量,送到评价值计算部。另外,步骤S1205被省略,在步骤S1206中,评价值计算部根据从多级别数据生成部接受了的特征量计算评价值。
另外,在多级别数据生成部中,除了对各部分图像进行几何变换以外,也可以通过在第一实施方式中说明了的方法,变更各部分图像的信息级别。由此,能够增加信息级别相互不同的多个数据的数量,能够更细致地分析各评价值。
另外,在第二实施方式中也能够应用第一实施方式中的第一~十二的各变形例。
接下来,参照附图,说明安装了本发明的第三实施方式的对象检测装置的监视系统。
本实施方式的监视系统探测向监视区域的侵入者而发出警报。该监视系统具有监视装置和中枢装置。该监视装置根据从对监视区域进行摄影而得到的图像切出了的部分图像,生成信息级别相互不同的多个个别级别图像,根据生成了的各个别级别图像计算评价值。然后,监视装置求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在部分图像中拍摄了人体的情况的上升程度的下限值以上的情况下,判定为在摄影图像中拍摄了人体。监视装置如果判定为在摄影图像中拍摄了人体,则判定为人物侵入到监视区域而向中枢装置发出警报。由此,监视系统提高人体的检测精度。
图13是示出本实施方式的监视系统的概略结构的图。如图13所示,监视系统具有一个以上的监视装置20、和与监视装置20经由公共通信线路连接的中枢装置30。监视装置20如果在监视区域中探测到侵入者,则向经由公共通信线路连接了的中枢装置30,发送表示探测到侵入者的异常信号。监视装置20具有摄像部21、接口部22、通信部23、存储部24以及控制部25。以下,详细说明监视装置20的各部。
摄像部21是以预定的周期(例如200ms)对监视区域进行摄影的照相机,例如,具有二维地排列且输出与受光了的光量对应的电信号的光电变换元件(例如CCD传感器、C-MOS等)、和用于在该光电变换元件上成像监视区域的像的成像光学系。摄像部21与接口部22连接,将摄影了的摄影图像依次送到接口部22。摄影图像与在第一实施方式中说明了的摄影图像相同,所以省略说明。在本实施方式中,从摄影图像切出的部分图像是输入数据的例子。
接口部22具有与摄像部21连接的接口电路、例如依照视频接口或者通用串行总线这样的串行总线的接口电路。接口部22与控制部25经由例如总线连接,将从摄像部21接受了的摄影图像送到控制部25。
通信部23具有将监视装置20连接到公共通信线路的通信接口及其控制电路,经由例如总线与控制部25连接。通信部23在通知在监视区域中探测到侵入者的情况下,依照控制部25的控制,进行监视装置20与中枢装置30之间的连接处理。然后,通信部23在监视装置20与中枢装置30之间确立了连接之后,将从控制部25接受了的异常信号发送到中枢装置30。在通信部23中,如果异常信号的发送结束,则进行将监视装置20与中枢装置30之间的连接断开的处理。
存储部24具有ROM、RAM等半导体存储器、或者磁记录介质及其存取装置或者光记录介质及其存取装置等。存储部24存储用于控制监视装置20的计算机程序以及各种数据,在与控制部24之间输入输出这些信息。另外,计算机程序也可以从CD-ROM(Compact Disk ReadOnly Memory,光盘只读存储器)、DVD-ROM(Digital Versati le DiskRead Only Memory,数字通用光盘只读存储器)等计算机可读取的存储介质安装到存储部24。在各种数据中包括脸的参照数据。
控制部25是对象检测装置的例子,具有CPU、DSP、MCU等至少一个处理器及其周边电路。控制部25将从接口部22接受了的摄影图像存储于存储部24。然后,控制部25读出在存储部24中存储了的摄影图像来判定在该摄影图像中是否包括人体。
图14是示出控制部25的概略结构的图。如图14所示,在控制部25中,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部250、切出部251、多级别数据生成部252、评价值计算部253、对象判定部254以及通知控制部255。
另外,控制部25具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
以下,详细说明控制部25的各部。
数据输入部250每当在存储部24中存储摄影图像时,从存储部24读出摄影图像,送到切出部251。
切出部251每当从数据输入部250接受摄影图像时,在摄影图像上的人体的尺寸的范围内实施部分图像的切出处理。关于其以外的动作,与第一实施方式的切出部151相同,所以省略说明。另外,关于多级别数据生成部252,与第一实施方式的多级别数据生成部152以及第二实施方式的多级别数据生成部152中的某一方相同,所以省略说明。另外,关于评价值计算部253以及对象判定部254,在第一实施方式的评价值计算部153以及对象判定部154中代替脸的信息而处理人体的信息。关于其以外的动作,与第一实施方式的评价值计算部153以及对象判定部154相同,所以省略说明。
在通知控制部255中,如果由对象判定部254判定为在某一个部分图像中拍摄了人体,则将异常信号经由通信部23发送到中枢装置30。
以下,参照图15所示的流程图,说明由本实施方式的监视装置20实施的对象检测处理的动作。另外,关于以下说明的动作的流程,存储于存储部24,依照读入到控制部25的程序,通过控制部25控制。图15所示的流程图的步骤S1502~S1509、S1511的处理与图10所示的流程图的步骤S1002~S1009、S1011的处理相同,所以省略说明,以下,仅说明步骤S1501、S1510的处理。
在步骤S1501中,控制部25使摄像部21对监视区域进行摄影,经由接口部22取得摄影图像,存储到存储部24。然后,数据输入部250从存储部24读出摄影图像,送到切出部251。
另外,如果在步骤S1509中对象判定部254计算出的上升程度是判定阈值以上,则通知控制部255将异常信号经由通信部23发送到中枢装置30(步骤S1510)。如果发送了异常信号,则控制部25使处理返回到步骤S1501而反复步骤S1501~S1511的处理。
另外,即使在步骤S1511中,将部分图像全部切出了的情况下,控制部25也使处理返回到步骤S1501而反复步骤S1501~S1511的处理。
如以上说明,本实施方式的监视装置根据从对监视区域进行摄影而得到的图像切出了的部分图像,生成信息级别相互不同的多个个别级别图像,根据生成了的各个别级别图像计算评价值。然后,监视装置求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在部分图像中拍摄了人体的情况的上升程度的下限值以上的情况下,判定为在摄影图像中拍摄了人体。由此,监视系统能够提高人体的检测精度。
接下来,参照附图,说明安装了本发明的第四实施方式的对象检测装置的监视系统。
本实施方式的监视系统与第三实施方式的监视系统同样地,探测向监视区域的侵入者而发出警报。但是,在本实施方式的监视系统中,监视装置将对监视区域进行摄影而得到的图像发送到中枢装置,中枢装置判定人物是否侵入到监视区域。
图16是示出本实施方式的监视系统的概略结构的图。如图16所示,监视系统具有一个以上的监视装置40、和与监视装置40经由公共通信线路连接的中枢装置50。
监视装置40如果探测到侵入到监视区域的人物,则向经由公共通信线路连接了的中枢装置50,发送对监视区域进行摄影而得到的图像。监视装置40具有摄像部41、接口部42、通信部43、存储部44以及控制部45。关于摄像部41以及接口部42,与第三实施方式的监视装置20的摄像部21以及接口部22相同,所以省略说明。
通信部43与第三实施方式的监视装置20的通信部23同样地,具有将监视装置40连接到公共通信线路的通信接口及其控制电路,经由例如总线与控制部45连接。通信部43在监视装置40监视监视区域的情况下,依照控制部45的控制,进行监视装置40与中枢装置50之间的连接处理。然后,通信部43在监视装置40与中枢装置50之间确立了连接之后,摄像部41摄像,将在存储部44中存储了的摄影图像发送到中枢装置50。
存储部44与第三实施方式的监视装置20的存储部24同样地,具有ROM、RAM等半导体存储器、或者磁记录介质及其存取装置或者光记录介质及其存取装置等。存储部44存储用于控制监视装置40的计算机程序以及各种数据,在与控制部45之间输入输出这些信息。另外,计算机程序也可以从CD-ROM、DVD-ROM等计算机可读取的存储介质安装到存储部44。
控制部45具有CPU、DSP、MCU等至少一个处理器及其周边电路。然后,控制部45将由摄像部41摄像并在存储部44中存储了的摄影图像经由通信部43发送到中枢装置50。另外,控制部45也可以使用依照MPEG(Moving Picture Expert Group,运动图像专家组)规格等的压缩编码方式对摄影图像进行压缩编码,将压缩编码了的数据发送到中枢装置50。
中枢装置50如果从监视装置40接收到摄影图像,则通过判定在接收了的图像中是否拍摄了人体,判定人物是否侵入到监视区域。中枢装置50具有通信部51、显示部52、接口部53、存储部54以及控制部55。
通信部51具有将中枢装置50连接到公共通信线路的通信接口及其控制电路,经由例如总线与控制部55连接。通信部51依照控制部55的控制,进行监视装置40与中枢装置50之间的连接处理。然后,通信部51在监视装置40与中枢装置50之间确立了连接之后,如果从监视装置40接收到摄影图像,则将接收了的摄影图像存储到存储部54。
显示部52由液晶显示器、触摸面板显示器等显示设备构成,显示经由接口部53从控制部55接受了的各种信息等,向利用者进行通知。
接口部53具有与显示部52连接的接口电路、例如依照视频接口或者通用串行总线这样的串行总线的接口电路。接口部53与控制部55经由例如总线连接,将从控制部55接受了的各种信息输出到显示部52。
存储部54具有ROM、RAM等半导体存储器、或者磁记录介质及其存取装置或者光记录介质及其存取装置等。存储部54存储用于控制中枢装置50的计算机程序以及各种数据,在与控制部55之间输入输出这些信息。另外,计算机程序也可以从CD-ROM、DVD-ROM等计算机可读取的存储介质安装到存储部54。在各种数据中包括人体的参照数据。
控制部55是对象检测装置的例子,具有CPU、DSP、MCU等至少一个处理器及其周边电路。然后,控制部55判定在通信部51从监视装置40接收了的摄影图像中是否包括人体。另外,在监视装置40发送了对摄影图像进行压缩编码而得到的数据的情况下,控制部55将接收了的数据解码为摄影图像,判定在解码了的摄影图像中是否包括人体。
图17是示出控制部55的概略结构的图。如图17所示,在控制部55中,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部550、切出部551、多级别数据生成部552、评价值计算部553、对象判定部554以及显示控制部555。另外,控制部55具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
数据输入部550每当通信部51从监视装置40接收摄影图像而记录到存储部54时,从存储部54读出摄影图像,送到切出部551。切出部551、多级别数据生成部552、评价值计算部553以及对象判定部554与第三实施方式的监视装置20的切出部251、多级别数据生成部252、评价值计算部253以及对象判定部254相同,所以省略说明。
显示控制部555在由对象判定部554判定为在部分图像中拍摄了人体时,将在监视装置40的监视区域中人物侵入了的意思经由接口部53显示于显示部52。
以下,参照图18所示的流程图,说明由本实施方式的中枢装置50实施的对象检测处理的动作。另外,关于以下说明的动作的流程,存储到存储部54,依照读入到控制部55的程序,通过控制部55控制。图18所示的流程图的步骤S1802~S1809、S1811的处理与图10所示的流程图的步骤S1002~S1009、S1011的处理相同,所以省略说明,以下,仅说明步骤S1801、S1810的处理。
在步骤S1801中,数据输入部550读出通信部51从监视装置40接收并在存储部54中存储了的摄影图像,送到切出部551。
另外,如果在步骤S1809中对象判定部554计算出的上升程度是判定阈值以上,则显示控制部555将人物侵入到监视装置40的监视区域的意思经由接口部53显示于显示部52,通知给管理者(步骤S1810)。如果使人物侵入了的意思显示于显示部52,则控制部55使处理返回到步骤S1801而反复步骤S1801~S1811的处理。
另外,即使在步骤S1811中,将部分图像全部切出了的情况下,控制部55也使处理返回到步骤S1801而反复步骤S1801~S1811的处理。
如以上说明,本实施方式的中枢装置根据从自监视装置接收了的摄影图像切出了的部分图像,生成信息级别相互不同的多个个别级别图像,根据生成了的各个别级别图像计算评价值。然后,中枢装置求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在部分图像中拍摄了人体的情况的上升程度的下限值以上的情况下,判定为在摄影图像中拍摄了人体。由此,监视系统能够提高人体的检测精度。
另外,监视装置和中枢装置的功能分担不限于第三实施方式或者第四实施方式的监视系统的例子。关于将切出部、多级别数据生成部、评价值计算部以及对象判定部的各个配置于监视装置和中枢装置中的哪一个,能够适宜变更。
接下来,参照附图,说明安装了本发明的第五实施方式的对象检测装置的悲鸣传感器。
本实施方式的悲鸣传感器从根据监视有无发生悲鸣的监视空间中的音生成了的声音信号求出有音区间的信号,根据切出了的信号,生成信息级别相互不同的多个信号,根据生成了的各信号,计算表示悲鸣可能性的程度的评价值。然后,悲鸣传感器求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在声音信号中包括悲鸣的情况的上升程度的下限值以上的情况下,判定为在声音信号中包括悲鸣。即,在本实施方式的悲鸣传感器中,将输入数据作为作为时系列信号的声音信号,将检测对象作为悲鸣。由此,悲鸣传感器提高从在监视空间中发生了的音检测悲鸣的精度。
图19是示出本实施方式的悲鸣传感器的概略结构的图。悲鸣传感器60如图19所示,具有集音部61、接口部62、通信部63、存储部64以及控制部65。以下,详细说明悲鸣传感器60的各部。
集音部61设置于能够对在监视空间中发生了的音进行集音的位置。集音部61是具有麦克风、放大器以及A/D变换器等,将监视空间中的音变换为作为数字信号的声音信号的电气电路。集音部61与接口部62连接,将声音信号输出到接口部62。另外,以使在监视空间中发出了悲鸣时输出的声音信号的音量以作为基准升压的20μPa为基准而成为70~100dB的范围内的方式,设定放大器的放大率。
接口部62具有与集音部61连接的接口电路、例如依照音频接口或者通用串行总线这样的串行总线的接口电路。接口部62与控制部65经由例如总线连接,将从集音部61接受了的声音信号送到控制部65。
通信部63具有与外部设备等连接的通信接口及其控制电路,经由例如总线与控制部65连接。通信部63在通知在监视空间中探测到悲鸣的情况下,依照控制部65的控制,进行悲鸣传感器60与外部设备之间的连接处理。然后,通信部63在悲鸣传感器60与外部设备之间确立了连接之后,将从控制部65接受了的异常信号发送到外部设备。在通信部63中,如果异常信号的发送结束,则进行将悲鸣传感器60与外部设备之间的连接断开的处理。
存储部64具有ROM、RAM等半导体存储器。存储部64存储用于控制悲鸣传感器60的计算机程序以及各种数据,在与控制部65之间输入输出这些信息。在各种数据中包括悲鸣的参照数据。
控制部65是对象检测装置的例子,具有CPU、DSP、MCU等至少一个处理器及其周边电路。控制部65将从接口部62接受了的声音信号存储到存储部64。然后,控制部65读出在存储部64中存储了的声音信号来判定在该声音信号中是否包括悲鸣。
图20是示出控制部65的概略结构的图。如图20所示,在控制部65中,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部650、切出部651、多级别数据生成部652、评价值计算部653、对象判定部654以及通知控制部655。
另外,控制部65具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
以下,详细说明控制部65的各部。
数据输入部650从存储部64读出声音信号,送到切出部651。
切出部651从自数据输入部650取得了的声音信号依次切出作为悲鸣的检测处理的对象的有音区间的信号,将切出了的有音区间的信号送到多级别数据生成部652。以下,将切出部651切出了的有音区间的信号称为部分声音信号。在本实施方式中,部分声音信号是输入数据的例子。另外,切出部651针对集音部61集音了的声音信号,按照预定的每帧周期,依次以具有预定的帧长的帧单位计算功率,将具有功率阈值以上的功率的帧被连续继续长阈值以上而检测到的区间的信号作为部分声音信号依次切出。例如,帧长能够成为20msec、帧周期能够成为10msec、功率阈值能够成为70dB、继续长阈值能够成为20帧。另外,在该情况下,也可以使连续的部分声音信号彼此重叠而切出。
多级别数据生成部652生成多级别数据,将多级别数据与信息级别对应起来送到评价值计算部653。本实施方式的多级别数据生成部652根据从作为输入数据的声音信号切出了的部分声音信号,生成多个信息级别相互不同的信号(以下称为个别级别声音信号),将原来的部分声音信号以及生成了的个别级别声音信号生成为多级别数据。多级别数据生成部652通过在部分声音信号上重叠白噪声来降低信号上的音的可懂度,生成个别级别声音信号。
在本实施方式的多级别数据生成部652中,作为多级别数据,生成信息级别越高、音的可懂度越高、且信息级别越低、音的可懂度越低的、音的可懂度相互不同的多个信号。例如,多级别数据生成部652通过针对部分声音信号,信息级别越高则重叠越少的量的白噪声,信息级别越低则重叠越多的量的白噪声,生成多个个别级别声音信号。例如,多级别数据生成部652针对重叠的白噪声,以基准音压为基准,如5dB、10dB、15dB、…、70dB那样依次变更而生成多个个别级别声音信号。重叠的白噪声的量越多,SN比越低而音的可懂度越低,所以该个别级别声音信号适合于悲鸣的特征表现的程度变低而信息级别变低。例如,信息级别被决定为1至15这15个阶段。然后,在信息级别为1时重叠的白噪声被设定为70dB,每当信息级别变大1时,被设定为变小5dB的值。在信息级别是作为最高的值的15时,利用未重叠白噪声的原来的部分声音信号。
评价值计算部653针对在多级别数据中包含的每个数据,计算表示检测对象可能性的程度的评价值,将各评价值与信息级别对应起来送到对象判定部654。本实施方式的评价值计算部653对从多级别数据生成部652接受了的各信号分别进行帧分析,而抽出对悲鸣的识别有用的特征量(以下称为悲鸣特征量)。另外,在评价值计算部653中,作为悲鸣特征量,抽出表示悲鸣语尾的频率特征量的谱包络的参数。在本实施方式中,作为谱包络的参数,使用8次的LPC(LinearPredictive Coding,线性预测编码)倒谱。LPC倒谱是通过线性预测法模型化了的倒谱。评价值计算部653针对从多级别数据生成部652接受了的信号通过离散傅立叶变换进行频率变换,通过线性预测法求出LPC系数,针对求出了的LPC系数通过预定的递归式进行变换来计算LPC倒谱系数。包括0次分量的8次的LPC倒谱由9个系数构成,在各信号中声音帧各包括20帧,所以各悲鸣特征量成为9×20维度的特征矢量。
评价值计算部653具有作为悲鸣的参照数据使用了9×20维度的悲鸣特征量的实值Adaboost分类器。另外,评价值计算部653具有输出表示语尾的母音是/a/的悲鸣可能性的程度的评价值的分类器、输出表示语尾的母音是/e/的悲鸣可能性的程度的评价值的分类器、以及输出表示语尾的母音是/o/的悲鸣可能性的程度的评价值的分类器。各分类器由多个弱分类器、和将各弱分类器的判定结果综合而判定的强分类器构成。向各弱分类器分别输入悲鸣特征量内的特定的要素,各弱分类器根据输入了的要素,在对应的部分声音信号中包括与该分类器对应的悲鸣的语尾的母音的可能性越高,输出越高的值,可能性越低,输出越低的值。另一方面,强分类器将通过各弱分类器得到的输出值的总和作为评价值输出。
另外,关于将9×20维度的悲鸣特征量内的哪个要素输入到各弱分类器,通过使用了根据包括该悲鸣语尾的母音的多个学习用悲鸣声音信号、和不包括该悲鸣语尾的母音的多个学习用非悲鸣声音信号计算出的悲鸣特征量的事先学习决定。学习步骤与第一实施方式相同,所以省略说明。将向通过事先学习决定了的各弱分类器输入的表示悲鸣特征量内的要素的信息、和表示各弱分类器的输出的信息作为悲鸣的参照数据存储到存储部64。
由各分类器输出的评价值在输入了的悲鸣特征量在特征量空间中相对识别边界位于该悲鸣的语尾侧的区域时成为正值,在位于该悲鸣的语尾以外的语尾侧的区域时成为负值,该位置越远离识别边界,其绝对值越大,越接近识别边界,绝对值越小。
对象判定部654针对在多级别数据中包含的各数据的每一个,求出计算出的评价值根据信息级别的上升而上升的上升程度,通过求出了的上升程度是否表示关于检测对象的上升程度,判定在输入数据中是否包括检测对象,输出判定结果。本实施方式的对象判定部654针对根据原来的部分声音信号以及各个别级别声音信号由评价值计算部653计算出的评价值计算上升程度,将该上升程度与预先设定了的判定阈值进行比较。然后,在对象判定部654中,如果关于某一母音的上升程度是判定阈值以上,则判定为在部分声音信号中包括悲鸣,如果全部的上升程度小于判定阈值,则判定为在部分声音信号中不包括悲鸣。另外,作为判定阈值,设定在输入数据中包括检测对象的情况的上升程度的下限值。例如,能够将基于通过事先的实验针对包括悲鸣的多个测试用悲鸣声音信号计算出的评价值的上升程度和针对不包括悲鸣的多个测试用非悲鸣声音信号计算出的评价值的上升程度的、能够识别它们的值作为判定阈值。在该情况下,例如,将针对测试用悲鸣声音信号计算出的评价值的上升程度的平均值、和针对测试用非悲鸣声音信号计算出的评价值的上升程度的平均值的平均值作为判定阈值。或者,也可以将针对测试用非悲鸣声音信号计算出的评价值的上升程度的最大值、或者针对测试用悲鸣声音信号计算出的评价值的上升程度的最小值作为判定阈值。评价值的上升程度的计算方法与在第一实施方式中说明了的计算方法相同,所以省略说明。
另外,对象判定部654为了提高判定精度,还能够将评价值的上升程度是判定阈值以上的部分声音信号连续多个作为条件,或者还能够将评价值的上升程度是判定阈值以上的部分声音信号针对同一母音连续多个作为条件。
在通知控制部655中,如果由对象判定部654判定为在部分声音信号中包括悲鸣,则将异常信号经由通信部63发送到外部设备。
以下,参照图21所示的流程图,说明由本实施方式的悲鸣传感器60实施的对象检测处理的动作。另外,关于以下说明的动作的流程,存储于存储部64,依照读入到控制部65的程序,通过控制部65控制。
控制部65使集音部61对监视空间中的音进行集音,经由接口部62取得声音信号,存储到存储部64。然后,数据输入部650从存储部64读出声音信号,送到切出部651(步骤S2101)。接下来,切出部651判定在取得了的声音信号中是否存在有音区间(步骤S2102),直至存在有音区间(步骤S2102的“否”),反复步骤S2101~S2102的处理。另一方面,在取得了的声音信号中存在有音区间的情况下(步骤S2102的“是”),切出部651切出该有音区间的信号而生成部分声音信号,送到多级别数据生成部652(步骤S2103)。
接下来,控制部65设定信息级别(步骤S2104)。另外,控制部65从低的一方,依次设定预先决定了的信息级别,将步骤S2104~S2108的处理执行设定的信息级别的数量。
多级别数据生成部652生成与在步骤S2104中设定了的信息级别对应的个别级别声音信号,将生成了的个别级别声音信号与信息级别对应起来送到评价值计算部653(步骤S2105)。另外,在信息级别并非最大值的情况下,多级别数据生成部652将把与该信息级别对应的量的白噪声重叠到部分声音信号的个别级别声音信号送到评价值计算部653。另一方面,在信息级别是最大值的情况下,多级别数据生成部652将部分声音信号原样地送到评价值计算部653。
接下来,评价值计算部653从自多级别数据生成部652接受了的个别级别声音信号抽出悲鸣特征量(步骤S2106)。接下来,评价值计算部653根据抽出了的悲鸣特征量计算评价值,将计算出的评价值与信息级别对应起来送到对象判定部654(步骤S2107)。
接下来,控制部65判定是否针对全部的信息级别执行了步骤S2104~S2107的处理(步骤S2108)。如果未针对全部的信息级别执行步骤S2104~S2107的处理(步骤S2108的“否”),则控制部65使处理返回到步骤S2104而反复步骤S2104~S2107的处理。另一方面,如果针对全部的信息级别执行了步骤S2104~S2107的处理(步骤S2108的“是”),则对象判定部654针对悲鸣的语尾的每个母音,关于此前从评价值计算部653接受了的评价值,计算根据信息级别的上升而上升的上升程度(步骤S2109)。
接下来,对象判定部654将计算出的上升程度与判定阈值进行比较(步骤S2110)。如果关于全部的母音的上升程度小于判定阈值(步骤S2110的“否”),则控制部65使处理返回到步骤S2101而反复步骤S2101~S2111的处理。另一方面,如果关于某一个母音的上升程度是判定阈值以上(步骤S2110的“是”),则通知控制部655将异常信号经由通信部63发送到外部设备(步骤S2111)。如果发送了异常信号,则控制部65使处理返回到步骤S2101而反复步骤S2101~S2111的处理。
如以上说明,本实施方式的悲鸣传感器根据从根据监视空间中的音生成了的声音信号切出了的部分声音信号,生成信息级别相互不同的多个信号,根据生成了的各信号计算评价值。然后,求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是在声音信号中包括悲鸣的情况的上升程度的下限值以上的情况下,判定为在声音信号中包括悲鸣。由此,能够提高悲鸣传感器从监视空间中的音检测悲鸣的精度。
在第五实施方式中的第一变形例中,在评价值计算部中,作为悲鸣特征量,代替LPC倒谱而使用LPC。或者,评价值计算部也可以作为悲鸣特征量,使用作为针对倒谱进行考虑了人类的频率感知特性的加权而得到的特征量的MFCC(Mel-frequency cepstral coefficients,Mel频率倒谱系数)。
在第五实施方式中的第二变形例中,在多级别数据生成部中,作为音的可懂度相互不同的多个信号,生成对输入了的信号,分别应用了信息级别越高、通过频带越宽、且信息级别越低、通过频带越窄的带通滤波器的多个信号。在该情况下,例如,悲鸣传感器具有能够设定通过频带的带通滤波器。多级别数据生成部通过将带通滤波器的通过频带的宽度变更为多个支路,使部分声音信号通过通过频带的宽度分别不同的带通滤波器,来生成音的可懂度相互不同的多个信号。带通滤波器的通过频带越窄,生成的信号的音的可懂度越低,通过频带越宽,该音的可懂度越高。
或者,也可以在多级别数据生成部中,作为音的可懂度相互不同的多个信号,生成以信息级别越高、使输入了的信号的振幅越大、且信息级别越低、使输入了的信号的振幅越小的方式,使输入了的信号的振幅分别衰减了的多个信号。在该情况下,多级别数据生成部通过例如使输入了的信号的振幅如0.5倍、0.25倍、0.125倍、…那样衰减,生成音的可懂度相互不同的多个信号。以使振幅越小的衰减,生成的信号的音的可懂度越低。
或者,也可以在多级别数据生成部中,作为音的可懂度相互不同的多个信号,生成以信息级别越高、使输入了的信号的振幅越小、且信息级别越低、使输入了的信号的振幅越大的方式,使输入了的信号的振幅分别放大而产生了削波的多个信号。在该情况下,多级别数据生成部通过例如使输入了的信号的振幅如1.2倍、1.4倍、1.6倍、…、5倍那样放大而意图地发生削波,生成音的可懂度相互不同的多个信号。使振幅越大地放大,削波的发生程度越大,生成的信号的音的可懂度越低。
或者,也可以在多级别数据生成部中,作为信息级别相互不同的多个信号,生成信息级别越高则使分割信号的值可取的范围的阶段数越多、且信息级别越低则使该阶段数越少地针对输入了的信号分别量化了的多个数据。在该情况下,多级别数据生成部通过使例如如用65536阶段(16比特)表现了的信号的振幅的量化的阶段数如2000阶段、4000阶段、6000阶段、…、64000阶段那样变化,生成信息级别相互不同的多个信号。阶段数越少,该信号能够表现悲鸣的特征的程度越低,所以该信息级别越低,阶段数越多,信息级别越高。
或者,也可以在多级别数据生成部中,作为信息级别相互不同的多个信号,生成信息级别越高则以越高的采样频率采样、且信息级别越低则以越低的采样频率针对输入了的信号采样了的多个数据。在该情况下,多级别数据生成部对部分声音信号进行重采样来变更采样频率。例如,在集音部针对从麦克风取得了的音以16kHz进行采样来生成了声音信号的情况下,多级别数据生成部通过针对部分声音信号以8kHz、4kHz、2kHz、1kHz的采样频率进行重采样,生成信息级别相互不同的多个信号。重采样时的采样频率越低,该信号能够表现悲鸣的特征的程度越低,所以该信息级别越低,采样频率越高,该信息级别越高。
在第五实施方式中的第三变形例中,与第一实施方式中的第四变形例同样地,在多级别数据生成部中,作为信息级别相互不同的多个数据,生成信息级别越高、使掩膜重叠程度越低、且信息级别越低、使掩膜重叠程度越高的多个数据。在该情况下,多级别数据生成部以输入了的信号的时间轴方向的特定位置为中心,设定预定时间宽度的范围,将设定了的范围内的信号值置换为固定值。多级别数据生成部通过将设定的范围的时间宽度变更为多个支路,生成信息级别相互不同的多个信号。设定的范围的时间宽度越大,该信号适合于悲鸣的特征表现的程度越低,所以该信息级别越低,设定的范围的时间宽度越小,该信息级别越高。另外,作为信息级别最高的信号,能够利用设定的范围的时间宽度为0的信号、即原来的信号。
在第五实施方式中的第四变形例中,多级别数据生成部生成关于检测对象的特征量,生成使该特征量的分析级别相互不同的多个数据,用作信息级别相互不同的多个数据。在该情况下,关于通过事先学习决定了的、向评价值计算部的各弱分类器输入的特征量,并非由评价值计算部求出,而是由多级别数据生成部求出,多级别数据生成部将求出了的特征量的分析级别变更为多个支路。
例如,在多级别数据生成部中,作为使分析级别相互不同的多个数据,生成关于针对部分声音信号求出的LPC倒谱,信息级别越高、使分析次数越高、且信息级别越低、使分析次数越低的多个数据。在该情况下,多级别数据生成部针对部分声音信号分别求出1次、2次、3次、…、8次的LPC倒谱。评价值计算部根据各次数的LPC倒谱,分别计算评价值。另外,设为不论在求出了哪一个次数的LPC倒谱的情况下,向评价值计算部的分类器输入的特征矢量的要素数都不变更,在未求出LPC倒谱系数的要素中,设定小的随机值。LPC倒谱的次数越小,求出的特征量的信息级别越低,次数越大,该信息级别越高。
或者,也可以在多级别数据生成部中,作为使分析级别相互不同的多个数据,生成对8次的LPC倒谱系数的各个,信息级别越高则乘以越大、且信息级别越低则乘以越小的1以下的正的系数α(0<α≤1.0)的多个数据。多级别数据生成部将系数α例如如0.1、0.2、0.3、…、1.0那样在预先设定了的范围内变更为多个支路。α越小,悲鸣的特征越损失,所以求出的特征量的信息级别越低,相逆地α越大,该信息级别越高。
在这些情况下,在图21的流程图的步骤S2105中,多级别数据生成部根据部分声音信号,求出8次的LPC倒谱系数,与在步骤S2104中设定了的信息级别符合地变更8次的LPC倒谱系数的分析级别,送到评价值计算部。然后,步骤S2106被省略,在步骤S2107中,评价值计算部根据从多级别数据生成部接受了的8次的LPC倒谱系数,计算评价值。
这样,通过求出分析级别相互不同的特征量并根据各特征量计算评价值,根据评价值根据分析级别的上升而上升的上升程度判定在声音信号中是否包括悲鸣,也能够提高悲鸣的检测精度。
在第五实施方式中的第五变形例中,评价值计算部通过代替使用实值Adaboost分类器计算评价值,而使用HMM(Hidden Markov Model,隐马尔可夫模型)计算评价值。在该情况下,悲鸣传感器按照悲鸣的每个语尾,针对包括该悲鸣的语尾的母音的多个学习用悲鸣声音信号,预先抽出悲鸣特征量,学习HMM。然后,评价值计算部将根据部分声音信号生成了的悲鸣特征量输入到关于各个悲鸣的语尾的HMM,将其输出作为关于各个悲鸣的语尾的评价值。
在第五实施方式中的第六变形例中,评价值计算部代替通过进行了机器学习的分类器计算评价值,而通过模式匹配计算评价值。在该情况下,控制部针对悲鸣的每个语尾,从包括该悲鸣的语尾的母音的多个学习用悲鸣声音信号抽出悲鸣特征量,预先生成对它们实施了平均化处理等的代表悲鸣特征量,作为参照数据存储于存储部。评价值计算部求出根据部分声音信号生成了的悲鸣特征量、和预先作为参照数据存储了的代表悲鸣特征量的距离值,将求出了的距离值的倒数作为评价值输出。
另外,在第五实施方式中也能够应用第一实施方式中的第六、九~十二的各变形例。
另外,也可以如第四实施方式的监视系统那样,设置与悲鸣传感器连接的中枢装置,悲鸣传感器将声音信号发送到中枢装置,判定在中枢装置接收了的声音信号中是否包括悲鸣。或者,也可以构成为将切出部、多级别数据生成部、评价值计算部以及对象判定部的各个任意地配置于悲鸣传感器和中枢装置中的某一个。
接下来,参照附图,说明安装了本发明的第六实施方式的对象检测装置的人体传感器。
本实施方式的人体传感器仅抽出向监视区域发送电磁波而得到的反射波中包含的多普勒分量,作为多普勒信号。人体传感器根据从多普勒信号切出了的信号,生成信息级别相互不同的多个信号,根据生成了的各信号计算评价值。然后,人体传感器求出计算出的各评价值根据信息级别的上升而上升的上升程度,在求出了的上升程度是多普勒信号起因于人体的移动的情况的上升程度的下限值以上的情况下,判定为多普勒信号起因于人体的移动。即,本实施方式的人体传感器将输入数据设为作为时系列信号的多普勒信号,将检测对象设为人体。由此,人体传感器提高人体的检测精度。
图22是示出本实施方式的人体传感器的概略结构的图。人体传感器70如图22所示,具有信号取得部71、接口部72、通信部73、存储部74以及控制部75。以下,详细说明人体传感器70的各部。
信号取得部71是具备发送器、接收器、混频器、放大器以及A/D变换器,取得由于监视区域内的物体的移动而产生的多普勒信号的电气电路。信号取得部71通过发送器向监视区域发送微波带或者毫米波带的发送波,通过接收器接受其反射波。然后,信号取得部71通过混频器对发送波和反射波进行混频而仅抽出在反射波中包含的多普勒分量,针对抽出了的多普勒分量的信号通过放大器进行放大,通过A/D变换器进行采样而数字化,作为多普勒信号。信号取得部71与接口部72连接,将多普勒信号输出到接口部72。
接口部72具有与信号取得部71连接的接口电路、例如依照通用串行总线等串行总线的接口电路。接口部72与控制部75经由例如总线连接,将从信号取得部71接受了的多普勒信号发送到控制部75。
通信部73具有与外部设备等连接的通信接口及其控制电路,经由例如总线与控制部75连接。通信部73在通知在监视区域中探测到人体的情况下,依照控制部75的控制,进行人体传感器70与外部设备之间的连接处理。然后,通信部73在人体传感器70与外部设备之间确立了连接之后,将从控制部75接受了的异常信号发送到外部设备。在通信部73中,如果异常信号的发送结束,则进行将人体传感器70与外部设备之间的连接断开的处理。
存储部74具有ROM、RAM等半导体存储器。存储部74存储用于控制人体传感器70的计算机程序以及各种数据,在与控制部75之间输入输出这些信息。在各种数据中,包括人体的参照数据。
控制部75是对象检测装置的例子,具有CPU、DSP、MCU等至少一个处理器及其周边电路。控制部75将从接口部72接受了的多普勒信号存储到存储部74。然后,控制部75读出在存储部74中存储了的多普勒信号来判定该多普勒信号是否起因于人体的移动。
图23是示出控制部75的概略结构的图。如图23所示,在控制部75中,作为通过在处理器上动作的软件安装的功能模块,具有数据输入部750、切出部751、多级别数据生成部752、评价值计算部753、对象判定部754以及通知控制部755。
另外,控制部75具有的这些各部也可以用独立的集成电路、固件、微型处理器等构成。
以下,详细说明控制部75的各部。
数据输入部750从存储部74读出多普勒信号,送到切出部751。
切出部751从自数据输入部750取得了的多普勒信号依次切出作为检测处理的对象的区间的信号,将切出了的区间的信号送到多级别数据生成部752。以下,将切出部751切出了的区间的信号称为部分多普勒信号。在本实施方式中,部分多普勒信号是输入数据的例子。另外,切出部751将预先设定了的长度的区间的信号依次切出为部分多普勒信号。例如,切出部751针对每1秒,从多普勒信号将8秒量的数据切出为部分多普勒信号。即,在利用A/D变换器的采样频率是11.025kHz的情况下,针对每11,025数据,将88,200数据切出为部分多普勒信号。另外,在该情况下,在连续切出了的部分多普勒信号中,重叠7秒量的数据。
多级别数据生成部752生成多级别数据,将多级别数据与信息级别对应起来送到评价值计算部753。本实施方式的多级别数据生成部752根据作为输入数据的部分多普勒信号,生成信息级别相互不同的多个信号(以下称为个别级别多普勒信号),将原来的部分多普勒信号以及生成了的个别级别声音信号生成为多级别数据。多级别数据生成部752通过在部分多普勒信号上,信息级别越高,重叠越少的量的白噪声,信息级别越低,重叠越多的量的白噪声,来生成多个个别级别多普勒信号。例如,多级别数据生成部752针对重叠的白噪声,以发送波的输出为基准,如3dB、6dB、9dB、…、90dB那样依次变更来生成多个个别级别多普勒信号。重叠的白噪声的量越多,SN比越低,所以该信号适合于人体的特征表现的程度变低而信息级别变低。例如,信息级别被决定为1至31这31个阶段。然后,信息级别为1时的重叠的白噪声被设定为90dB,每当信息级别变大1时,被设定为变小3dB的值。在信息级别是作为最高的值的31时,利用未重叠白噪声的原来的部分多普勒信号。
评价值计算部753针对在多级别数据中包含的各数据的每一个,计算表示检测对象可能性的程度的评价值,将各评价值与信息级别对应起来送到对象判定部754。本实施方式的评价值计算部753对从多级别数据生成部752接受了的各信号分别进行帧分析而抽出对人体的识别有用的特征量(以下称为人体特征量)。例如,评价值计算部753针对每帧周期250msec,以具有帧长1000msec的帧单位,分割部分多普勒信号。另外,在该情况下,在相邻的帧中,重叠750msec量的数据。然后,评价值计算部753针对各帧通过快速傅立叶变换进行频率变换,计算各帧的频率谱中的峰值频率、峰值功率以及半值宽。然后,评价值计算部753将按照时系列排列了峰值频率、峰值功率以及半值宽的矢量作为人体特征量。部分多普勒信号由29帧构成,所以从各部分多普勒信号抽出的人体特征量成为3×29维度的特征矢量。即,人体特征量表示峰值频率的时间变动量、峰值功率的时间变动量、半值宽的时间变动量。
评价值计算部753具有使用了人体特征量的实值Adaboost分类器。该实值Adaboost分类器输出表示人体可能性的程度的评价值。各分类器由多个弱分类器、和将各弱分类器的判定结果综合而判定的强分类器构成。向各弱分类器,分别输入人体特征量内的特定的要素,各弱分类器根据输入了的要素,如果对应的部分多普勒信号起因于人体的移动的可能性越高,输出越高的值,可能性越低,输出越低的值。另一方面,强分类器将通过各弱分类器得到的输出值的总和作为评价值输出。
另外,关于将人体特征量内的哪个要素输入到各弱分类器,通过使用了根据起因于人体的移动的多个学习用人体多普勒信号、和未起因于人体的移动的多个学习用非人体多普勒信号计算出的人体特征量的事先学习决定。学习步骤与第一实施方式相同,所以省略说明。将向通过事先学习决定了的各弱分类器输入的表示人体特征量内的要素的信息、和表示各弱分类器的输出的信息,作为用于人体探测的参照数据存储到存储部74。
通过分类器输出的评价值在求出了的人体特征量在特征量空间中相对识别边界位于人体侧的区域时成为正值,在位于并非人体的一侧的区域时成为负值,该位置越远离识别边界,其绝对值越大,越接近识别边界,绝对值越小。
对象判定部754针对在多级别数据中包含的各数据的每一个,求出计算出的评价值根据信息级别的上升而上升的上升程度,通过求出了的上升程度是否表示关于检测对象的上升程度,判定在输入数据中是否包括检测对象,输出判定结果。本实施方式的对象判定部754针对根据原来的部分多普勒信号以及各个别级别多普勒信号由评价值计算部753计算出的评价值计算上升程度,将该上升程度与预先设定了的判定阈值进行比较。然后,在对象判定部754中,如果上升程度是判定阈值以上,则判定为部分多普勒信号基于人体的移动,如果上升程度小于判定阈值,则判定为部分多普勒信号不基于人体的移动。另外,作为判定阈值,设定在输入数据中包括检测对象的情况的上升程度的下限值。例如,能够将基于通过事先的实验针对基于人体的移动的多个测试用人体多普勒信号计算出的评价值的上升程度和针对不基于人体的移动的多个测试用非人体多普勒信号计算出的评价值的上升程度的、能够识别它们的值作为判定阈值。在该情况下,例如,将针对测试用人体多普勒信号计算出的评价值的上升程度的平均值、和针对测试用非人体多普勒信号计算出的评价值的上升程度的平均值的平均值作为判定阈值。或者,也可以将针对测试用非人体多普勒信号计算出的评价值的上升程度的最大值、或者针对测试用人体多普勒信号计算出的评价值的上升程度的最小值设定为判定阈值。评价值的上升程度的计算方法与在第一实施方式中说明了的计算方法相同,所以省略说明。
另外,对象判定部754为了提高判定精度,还能够将评价值的上升程度是判定阈值以上的部分多普勒信号连续多个作为条件。
在通知控制部755中,如果由对象判定部754判定为部分多普勒信号基于人体的移动,则将异常信号经由通信部73发送到外部设备。
以下,参照图24所示的流程图,说明由本实施方式的人体传感器70实施的对象检测处理的动作。另外,关于以下说明的动作的流程,存储于存储部74,依照读入到控制部75的程序,通过控制部75控制。
控制部75的数据输入部750使信号取得部71生成多普勒信号,经由接口部72取得该多普勒信号,存储到存储部74。与图24的流程图独立地始终进行该动作。切出部751从存储部74的多普勒信号切出部分多普勒信号,送到多级别数据生成部752(步骤S2401)。另外,控制部75针对切出部751切出的每个部分多普勒信号,执行步骤S2401~S2409的处理。
接下来,控制部75设定信息级别(步骤S2402)。另外,控制部75从低的一方依次设定预先决定了的信息级别,将步骤S2402~S2406的处理执行设定的信息级别的数量。
多级别数据生成部752生成与在步骤S2402中设定了的信息级别对应的个别级别多普勒信号,将生成了的个别级别多普勒信号与信息级别对应起来送到评价值计算部753(步骤S2403)。另外,在信息级别并非最大值的情况下,多级别数据生成部752将在部分多普勒信号上重叠了与该信息级别对应的量的白噪声的个别级别多普勒信号送到评价值计算部753。另一方面,在信息级别是最大值的情况下,多级别数据生成部752将部分多普勒信号原样地送到评价值计算部753。
接下来,评价值计算部753从自多级别数据生成部752接受了的个别级别多普勒信号抽出人体特征量(步骤S2404)。接下来,评价值计算部753根据抽出了的人体特征量计算评价值,将计算出的评价值与信息级别对应起来送到对象判定部754(步骤S2405)。
接下来,控制部75判定是否针对全部的信息级别执行了步骤S2402~S2405的处理(步骤S2406)。如果未针对全部的信息级别执行步骤S2402~S2405的处理(步骤S2406的“否”),则控制部75使处理返回到步骤S2402而反复步骤S2402~S2405的处理。另一方面,如果针对全部的信息级别执行了步骤S2402~S2405的处理(步骤S2406的“是”),则对象判定部754针对此前从评价值计算部753接受了的评价值,计算根据信息级别的上升而上升的上升程度(步骤S2407)。
接下来,对象判定部754将计算出的上升程度与判定阈值进行比较(步骤S2408)。如果上升程度是判定阈值以上(步骤S2408的“是”),则通知控制部755将异常信号经由通信部73发送到外部设备(步骤S2409)。如果发送了异常信号,则控制部75使处理返回到步骤S2401而反复步骤S2401~S2409的处理。
另一方面,如果上升程度小于判定阈值(步骤S2408的“否”),则控制部75使处理返回到步骤S2401而反复步骤S2401~S2409的处理。
如以上说明,本实施方式的人体传感器根据向监视区域发送了的发送波和其反射波生成多普勒信号,根据从多普勒信号切出了的部分多普勒信号生成信息级别相互不同的多个信号,根据生成了的各信号计算评价值。然后,人体传感器求出根据信息级别的上升而上升的上升程度,在求出了的上升程度是部分多普勒信号起因于人体的移动的情况的上升程度的下限值以上的情况下,判定为部分多普勒信号起因于人体的移动。由此,人体传感器能够提高检测人体的精度。
在第六实施方式中的第一变形例中,在多级别数据生成部中,作为信息级别相互不同的多个信号,生成对输入了的信号,分别应用了信息级别越高、通过频带越宽、且信息级别越低、通过频带越窄的带通滤波器的多个数据。在该情况下,例如,人体传感器具有能够变更通过频带的带通滤波器。多级别数据生成部通过将带通滤波器的通过频带的宽度变更为多个支路,使部分多普勒信号通过通过频带的宽度分别不同的带通滤波器,生成信息级别相互不同的多个信号。带通滤波器的通过频带越窄,生成的信号的信息级别越低,通过频带越宽,信息级别越高。
或者,在多级别数据生成部中,也可以作为信息级别相互不同的多个信号,生成以信息级别越高、使输入了的信号的振幅越大、且信息级别越低、使输入了的信号的振幅越小的方式,使输入了的信号的振幅分别衰减了的多个信号。在该情况下,多级别数据生成部通过例如使输入了的信号的振幅如0.5倍、0.25倍、0.125倍、…那样衰减,生成信息级别相互不同的多个信号。以使振幅越小的方式衰减,生成的信号的信息级别越低。
或者,也可以在多级别数据生成部中,作为信息级别相互不同的多个信号,生成针对输入了的信号,信息级别越高、以越高的采样频率采样、且信息级别越低、以越低的采样频率采样了的多个数据。在该情况下,多级别数据生成部对部分多普勒信号进行重采样来变更采样频率。例如,在利用信号取得部的A/D变换器的采样频率是11.025kHz的情况下,多级别数据生成部通过以8kHz、4kHz、2kHz、1kHz的采样频率对部分多普勒信号进行重采样,生成信息级别相互不同的多个信号。重采样时的采样频率越低,生成的信号的信息级别越低,采样频率越高,信息级别越高。
在第六实施方式中的第二变形例中,多级别数据生成部生成关于检测对象的特征量,生成使该特征量的分析级别相互不同的多个数据,用作信息级别相互不同的多个数据。在该情况下,关于通过事先学习决定了的、向评价值计算部的各弱分类器输入的特征量,并非由评价值计算部求出,而是由多级别数据生成部求出,多级别数据生成部将求出了的特征量的分析级别变更为多个支路。
例如,在多级别数据生成部中,作为使分析级别相互不同的多个数据,生成信息级别越高,使用于对输入了的信号进行帧分析的帧长越长,信息级别越低,使该帧长越短的多个数据。在该情况下,多级别数据生成部针对输入了的信号,将帧周期固定为250msec,将帧长如15.625msec、31.25msec、62.5msec、125msec、250msec、500msec、1000msec那样设定为多个阶段。多级别数据生成部针对设定了的各个帧长的帧通过快速傅立叶变换进行频率变换,计算各帧的频率谱中的峰值频率、峰值功率以及半值宽,作为人体特征量。评价值计算部根据根据各帧长的帧求出了的人体特征量,分别计算评价值。帧长越短,求出的特征量的信息级别越低,帧长越长,该信息级别越高。
或者,在多级别数据生成部中,也可以作为使分析级别相互不同的多个数据,生成对人体特征量的特征矢量的各要素,信息级别越高、乘以越大、且信息级别越低、乘以越小的1以下的正的系数α(0<α≤1.0)的多个数据。多级别数据生成部例如如0.1、0.2、0.3、…、1.0那样在预先设定了的范围内将系数α变更为多个支路。α越小,求出的特征量的信息级别越低,相逆地α越大,该信息级别越高。
在这些情况下,在图24的流程图的步骤S2404中,多级别数据生成部与在步骤S2403中设定了的信息级别符合地,根据部分多普勒信号求出人体特征量,送到评价值计算部。另外,步骤S2405被省略,在步骤S2406中,评价值计算部根据从多级别数据生成部接受了的人体特征量计算评价值。
这样,通过求出分析级别相互不同的特征量并根据各特征量计算评价值,根据评价值根据分析级别的上升而上升的上升程度判定多普勒信号是否起因于人体的移动,也能够提高人体的检测精度。
另外,在第六实施方式中也能够应用第一实施方式中的第六、七、九~十二的各变形例。
另外,也可以如第四实施方式的监视系统那样,设置与人体传感器连接的中枢装置,人体传感器将多普勒信号发送到中枢装置,中枢装置判定接收了的多普勒信号是否起因于人体的移动。或者,也可以构成为将切出部、多级别数据生成部、评价值计算部以及对象判定部的各个任意地配置于人体传感器和中枢装置中的任意一个。
如以上那样,本领域技术人员能够在本发明的范围内,与实施的方式符合地进行各种变更。
Claims (17)
1.一种对象检测装置,判定在从数据输入部取得的输入数据中是否包括检测对象,其特征在于,具有:
多级别数据生成部,根据所述输入数据,生成作为表现所述检测对象的程度的信息级别相互不同的多个数据;
评价值计算部,针对所述多个数据的各个,计算表示所述检测对象可能性的程度的评价值;以及
对象判定部,在针对所述信息级别相互不同的多个数据的各个计算出的所述评价值根据所述信息级别的上升而上升的上升程度是在所述输入数据中包括所述检测对象的情况的所述上升程度的下限值以上的情况下,判定为在所述输入数据中包括所述检测对象。
2.根据权利要求1所述的对象检测装置,其特征在于,
所述对象判定部针对每个所述信息级别,求出从该信息级别的所述评价值减去比该信息级别低预定阶段的信息级别的所述评价值得到的差,将求出了的所述差的合计值以及最大值中的某一个求出为所述上升程度。
3.根据权利要求1所述的对象检测装置,其特征在于,
所述对象判定部从所述信息级别低的一方起,依次求出从该信息级别的所述评价值减去比该信息级别低预定阶段的信息级别的所述评价值得到的差,每当求出该差时,将求出了的所述差的累积值求出为所述上升程度,判定求出了的所述上升程度是否为所述下限值以上,在求出了的所述上升程度是所述下限值以上的情况下,判定为在所述输入数据中包括所述检测对象。
4.根据权利要求1所述的对象检测装置,其特征在于,
所述对象判定部将从全部的所述信息级别的所述评价值的最大值减去最小值得到的差、以及全部的所述信息级别的所述评价值的最大值相对最小值的比中的某一个求出为所述上升程度。
5.根据权利要求1所述的对象检测装置,其特征在于,
所述对象判定部在所述上升程度是所述下限值以上、并且针对所述信息级别相互不同的多个数据的各个计算出的所述评价值的统计性代表值即代表评价值是预定值以上的情况下,判定为在所述输入数据中包括所述检测对象,在所述上升程度小于所述下限值的情况、或者所述代表评价值小于所述预定值的情况下,判定为在所述输入数据中不包括所述检测对象。
6.根据权利要求1~5中的任意一项所述的对象检测装置,其特征在于,
所述信息级别是所述多个数据的各个表现所述检测对象的细节的程度。
7.根据权利要求6所述的对象检测装置,其特征在于,
所述输入数据是图像数据,
所述多级别数据生成部生成所述信息级别越高则清晰度越高、且所述信息级别越低则清晰度越低的清晰度相互不同的多个数据作为所述信息级别相互不同的多个数据。
8.根据权利要求7所述的对象检测装置,其特征在于,
所述多级别数据生成部生成对所述输入数据分别应用了所述信息级别越高则滤波器尺寸越小、且所述信息级别越低则滤波器尺寸越大的平均化滤波器的多个数据作为所述清晰度相互不同的多个数据。
9.根据权利要求6所述的对象检测装置,其特征在于,
所述多级别数据生成部生成所述信息级别越高则对所述输入数据重叠越少的量的噪声、所述信息级别越低则对所述输入数据重叠越多的量的噪声的多个数据作为所述信息级别相互不同的多个数据。
10.根据权利要求6所述的对象检测装置,其特征在于,
所述输入数据是图像数据,
所述多级别数据生成部生成所述信息级别越高则图像的可懂度越高、且所述信息级别越低则图像的可懂度越低的图像的可懂度相互不同的多个数据作为所述信息级别相互不同的多个数据。
11.根据权利要求10所述的对象检测装置,其特征在于,
所述多级别数据生成部生成所述信息级别越高则使所述输入数据的像素值的阶度数越多、且所述信息级别越低则使所述输入数据的像素值的阶度数越少的多个数据作为所述图像的可懂度相互不同的多个数据。
12.根据权利要求1~5中的任意一项所述的对象检测装置,其特征在于,
所述信息级别是所述多个数据的各个适合于所述检测对象的特征表现的程度。
13.根据权利要求12所述的对象检测装置,其特征在于,
所述多级别数据生成部生成所述信息级别越高则使对在所述输入数据中表示所述检测对象的部分进行掩膜重叠的程度越低、且所述信息级别越低则使对在所述输入数据中表示所述检测对象的部分进行掩膜重叠的程度越高的多个数据作为所述信息级别相互不同的多个数据。
14.根据权利要求12所述的对象检测装置,其特征在于,
所述多级别数据生成部生成所述检测对象的特征量,生成针对所述特征量使所述信息量相互不同的多个数据作为所述信息级别相互不同的多个数据,以使所述信息级别越高则使所述特征量表示的信息量越大、且所述信息级别越低则使所述信息量越小。
15.根据权利要求14所述的对象检测装置,其特征在于,
所述多级别数据生成部生成所述信息级别越高则对所述特征量乘以越大、且所述信息级别越低则对所述特征量乘以越小的1以下的正的系数的多个数据作为使所述信息量相互不同的多个数据。
16.根据权利要求12所述的对象检测装置,其特征在于,
所述输入数据是图像数据,
在所述多级别数据生成部中,所述信息级别越高则对所述输入数据以越小的程度进行几何变换、且所述信息级别越低则对所述输入数据以越大的程度进行几何变换来生成多个数据作为所述信息级别相互不同的多个数据。
17.一种对象检测方法,在对象检测装置中,判定在从数据输入部取得的输入数据中是否包括检测对象,其特征在于,包括:
根据所述输入数据,生成作为表现所述检测对象的程度的信息级别相互不同的多个数据,
针对所述多个数据的各个,计算表示所述检测对象可能性的程度的评价值,
在针对所述信息级别相互不同的多个数据的各个计算出的所述评价值根据所述信息级别的上升而上升的上升程度是所述检测对象包含于所述输入数据中的情况的所述上升程度的下限值以上的情况下,判定为在所述输入数据中包括所述检测对象。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-147690 | 2012-06-29 | ||
JP2012147690 | 2012-06-29 | ||
PCT/JP2013/067914 WO2014003182A1 (ja) | 2012-06-29 | 2013-06-28 | 対象検出装置及び対象検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104412302A true CN104412302A (zh) | 2015-03-11 |
CN104412302B CN104412302B (zh) | 2016-09-07 |
Family
ID=49783316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380034610.7A Active CN104412302B (zh) | 2012-06-29 | 2013-06-28 | 对象检测装置以及对象检测方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9177203B2 (zh) |
JP (1) | JP5697803B2 (zh) |
KR (1) | KR101588995B1 (zh) |
CN (1) | CN104412302B (zh) |
TW (1) | TWI556194B (zh) |
WO (1) | WO2014003182A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110537188A (zh) * | 2017-04-12 | 2019-12-03 | 株式会社日立制作所 | 物体识别装置、物体识别系统以及物体识别方法 |
US11010665B2 (en) | 2015-12-22 | 2021-05-18 | Applied Material Israel, Ltd. | Method of deep learning-based examination of a semiconductor specimen and system thereof |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6326622B2 (ja) * | 2014-03-25 | 2018-05-23 | 株式会社明電舎 | 人物検出装置 |
WO2015151449A1 (ja) | 2014-03-31 | 2015-10-08 | 日本電気株式会社 | 画像処理システム、画像処理装置、画像処理方法および記録媒体 |
JP6444283B2 (ja) * | 2015-08-31 | 2018-12-26 | セコム株式会社 | 姿勢判定装置 |
WO2017061106A1 (ja) * | 2015-10-07 | 2017-04-13 | 日本電気株式会社 | 情報処理装置、画像処理システム、画像処理方法及びプログラム記録媒体 |
KR20180092495A (ko) * | 2017-02-09 | 2018-08-20 | 한국전자통신연구원 | 다중 카메라 영상 내 관심 객체 중심의 베스트 뷰 영상 생성 장치 및 방법 |
JP6399122B2 (ja) * | 2017-03-01 | 2018-10-03 | オムロン株式会社 | 顔検出装置およびその制御方法 |
CN107358157B (zh) | 2017-06-07 | 2020-10-02 | 创新先进技术有限公司 | 一种人脸活体检测方法、装置以及电子设备 |
KR102330169B1 (ko) * | 2017-08-31 | 2021-11-24 | 미츠비시 쥬고 기카이 시스템 가부시키가이샤 | 감시 장치, 감시 방법, 프로그램 |
US10535138B2 (en) * | 2017-11-21 | 2020-01-14 | Zoox, Inc. | Sensor data segmentation |
TWI712909B (zh) | 2018-04-17 | 2020-12-11 | 和碩聯合科技股份有限公司 | 輔助臉部辨識的防僞方法及系統 |
CN112578351A (zh) * | 2020-02-28 | 2021-03-30 | 加特兰微电子科技(上海)有限公司 | 目标匹配方法、集成电路、无线电器件及设备 |
JP2021175133A (ja) * | 2020-04-28 | 2021-11-01 | キヤノン株式会社 | 焦点調節装置、撮像装置、焦点調節方法、及びプログラム |
CN116601650A (zh) * | 2020-12-08 | 2023-08-15 | 三菱电机株式会社 | 学习装置、异状检测装置及异状检测方法 |
CN112990132B (zh) * | 2021-04-27 | 2023-01-03 | 成都中轨轨道设备有限公司 | 一种轨道标号牌定位识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070104374A1 (en) * | 2005-10-13 | 2007-05-10 | Fujifilm Corporation | Face detecting method, and system and program for the methods |
CN101021944A (zh) * | 2007-03-14 | 2007-08-22 | 哈尔滨工业大学 | 基于小波函数的多尺度显微图像分割处理方法 |
JP2009230284A (ja) * | 2008-03-19 | 2009-10-08 | Secom Co Ltd | 監視装置 |
JP2010166212A (ja) * | 2009-01-14 | 2010-07-29 | Canon Inc | 動画像処理装置、動画像処理方法、プログラム及び記憶媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4757598B2 (ja) * | 2005-10-13 | 2011-08-24 | 富士フイルム株式会社 | 顔検出方法および装置並びにプログラム |
WO2010063463A2 (en) * | 2008-12-05 | 2010-06-10 | Fotonation Ireland Limited | Face recognition using face tracker classifier data |
JP5127686B2 (ja) * | 2008-12-11 | 2013-01-23 | キヤノン株式会社 | 画像処理装置および画像処理方法、ならびに、撮像装置 |
AU2010282340B2 (en) * | 2009-08-13 | 2016-12-22 | The Johns Hopkins University | Methods of modulating immune function |
US8351661B2 (en) * | 2009-12-02 | 2013-01-08 | At&T Intellectual Property I, L.P. | System and method to assign a digital image to a face cluster |
US10424342B2 (en) * | 2010-07-28 | 2019-09-24 | International Business Machines Corporation | Facilitating people search in video surveillance |
US8942434B1 (en) * | 2011-12-20 | 2015-01-27 | Amazon Technologies, Inc. | Conflict resolution for pupil detection |
US8254647B1 (en) * | 2012-04-16 | 2012-08-28 | Google Inc. | Facial image quality assessment |
-
2013
- 2013-05-21 TW TW102117823A patent/TWI556194B/zh active
- 2013-06-28 WO PCT/JP2013/067914 patent/WO2014003182A1/ja active Application Filing
- 2013-06-28 US US14/409,439 patent/US9177203B2/en not_active Expired - Fee Related
- 2013-06-28 KR KR1020147036504A patent/KR101588995B1/ko active IP Right Grant
- 2013-06-28 JP JP2014522709A patent/JP5697803B2/ja active Active
- 2013-06-28 CN CN201380034610.7A patent/CN104412302B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070104374A1 (en) * | 2005-10-13 | 2007-05-10 | Fujifilm Corporation | Face detecting method, and system and program for the methods |
CN101021944A (zh) * | 2007-03-14 | 2007-08-22 | 哈尔滨工业大学 | 基于小波函数的多尺度显微图像分割处理方法 |
JP2009230284A (ja) * | 2008-03-19 | 2009-10-08 | Secom Co Ltd | 監視装置 |
JP2010166212A (ja) * | 2009-01-14 | 2010-07-29 | Canon Inc | 動画像処理装置、動画像処理方法、プログラム及び記憶媒体 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010665B2 (en) | 2015-12-22 | 2021-05-18 | Applied Material Israel, Ltd. | Method of deep learning-based examination of a semiconductor specimen and system thereof |
TWI737659B (zh) * | 2015-12-22 | 2021-09-01 | 以色列商應用材料以色列公司 | 半導體試樣的基於深度學習之檢查的方法及其系統 |
US11205119B2 (en) | 2015-12-22 | 2021-12-21 | Applied Materials Israel Ltd. | Method of deep learning-based examination of a semiconductor specimen and system thereof |
US11348001B2 (en) | 2015-12-22 | 2022-05-31 | Applied Material Israel, Ltd. | Method of deep learning-based examination of a semiconductor specimen and system thereof |
CN110537188A (zh) * | 2017-04-12 | 2019-12-03 | 株式会社日立制作所 | 物体识别装置、物体识别系统以及物体识别方法 |
CN110537188B (zh) * | 2017-04-12 | 2023-02-28 | 株式会社日立制作所 | 物体识别装置、物体识别系统以及物体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
KR101588995B1 (ko) | 2016-01-26 |
JPWO2014003182A1 (ja) | 2016-06-02 |
TWI556194B (zh) | 2016-11-01 |
TW201403547A (zh) | 2014-01-16 |
US9177203B2 (en) | 2015-11-03 |
WO2014003182A1 (ja) | 2014-01-03 |
KR20150028967A (ko) | 2015-03-17 |
CN104412302B (zh) | 2016-09-07 |
JP5697803B2 (ja) | 2015-04-08 |
US20150146922A1 (en) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104412302A (zh) | 对象检测装置以及对象检测方法 | |
EP3859655A1 (en) | Training method, image processing method, device and storage medium for generative adversarial network | |
US20210247531A1 (en) | Early earthquake detection apparatus and method | |
WO2013157254A1 (en) | Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program | |
US11893798B2 (en) | Method, system and computer readable medium of deriving crowd information | |
US9165184B2 (en) | Identifying matching images | |
JP2012073684A (ja) | 画像認識方法及び装置並びにプログラム | |
US20050021333A1 (en) | Method and system for detecting and temporally relating components in non-stationary signals | |
US11651493B2 (en) | Method, system and computer readable medium for integration and automatic switching of crowd estimation techniques | |
CN111898578A (zh) | 人群密度的获取方法、装置、电子设备及计算机程序 | |
AU2013204156B2 (en) | Classification apparatus and program | |
US20210027202A1 (en) | Method, system, and computer readable medium for performance modeling of crowd estimation techniques | |
US20140205102A1 (en) | Audio processing device, audio processing method, audio processing program and audio processing integrated circuit | |
Abreha | An environmental audio-based context recognition system using smartphones | |
JP2019049829A (ja) | 目的区間判別装置、モデル学習装置、及びプログラム | |
Mok et al. | Lip features selection with application to person authentication | |
CN113032758A (zh) | 视讯问答流程的身份识别方法、装置、设备及存储介质 | |
JP3496563B2 (ja) | 物体検出装置、物体検出方法及び物体検出プログラムを記録した記録媒体 | |
CN113496136A (zh) | 无人机及其影像识别方法 | |
Hori et al. | Initial evaluation of personal identification system using walking footstep sound of one step | |
JP6257537B2 (ja) | 顕著度推定方法、顕著度推定装置、プログラム | |
Guediri | Development of the Multisense System | |
Pooja et al. | Robust Sound Event Recognition using Subband Power Distribution Image Feature | |
KR100774800B1 (ko) | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 | |
Hae-Min et al. | Multiresolution Face Recognition through Virtual Faces Generation Using a Single Image for One Person |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |