CN110378181B - 图像解析装置、图像解析方法及记录介质 - Google Patents
图像解析装置、图像解析方法及记录介质 Download PDFInfo
- Publication number
- CN110378181B CN110378181B CN201910179600.1A CN201910179600A CN110378181B CN 110378181 B CN110378181 B CN 110378181B CN 201910179600 A CN201910179600 A CN 201910179600A CN 110378181 B CN110378181 B CN 110378181B
- Authority
- CN
- China
- Prior art keywords
- face
- frame
- person
- image
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010191 image analysis Methods 0.000 title claims abstract description 68
- 238000003703 image analysis method Methods 0.000 title claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 236
- 238000012545 processing Methods 0.000 claims abstract description 100
- 230000008859 change Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims description 115
- 230000008569 process Effects 0.000 claims description 89
- 210000000056 organ Anatomy 0.000 claims description 21
- 238000005070 sampling Methods 0.000 description 33
- 239000013598 vector Substances 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 19
- 230000002207 retinal effect Effects 0.000 description 15
- 210000001508 eye Anatomy 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 210000000214 mouth Anatomy 0.000 description 13
- 210000001331 nose Anatomy 0.000 description 12
- 210000001525 retina Anatomy 0.000 description 10
- 210000000216 zygoma Anatomy 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000010219 correlation analysis Methods 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 7
- 230000001815 facial effect Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000000470 constituent Substances 0.000 description 5
- 210000005252 bulbus oculi Anatomy 0.000 description 4
- 210000004087 cornea Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 206010041349 Somnolence Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000981 bystander Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
- G06T7/231—Analysis of motion using block-matching using full search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/446—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请涉及图像解析装置、图像解析方法及记录介质,即使检测对象物发生了暂时性的变化也不易产生检测对象物的误检测,从而提高检测动作的稳定性。在跟踪标记为开启的状态下,搜索控制部(6)分别判断相对于前帧,当前帧的脸部的特征点的位置坐标的变化量是否在规定范围内、脸部朝向的变化量是否在规定的角度范围内、视线方向的变化量是否在规定范围内。然后,在这些所有的判断中,如果满足条件,则视为当前帧的检测结果相对于前帧的变化在允许范围内,并在后续帧中也继续根据保存于跟踪信息存储部(7)的脸部图像区域进行脸部图像的检测处理。
Description
技术领域
本发明的实施方式涉及例如用于从拍摄到的图像检测人脸的图像解析装置、方法及程序。
背景技术
例如,在驾驶员监控等监控领域中提出了如下技术:从通过相机拍摄到的图像检测包含人脸的图像区域,并从检测出的脸部图像区域检测眼睛、鼻子、嘴巴等多个器官的位置、脸部朝向、视线等。
作为从拍摄图像检测包含人脸的图像区域的方法,已知有例如模板匹配等众所周知的图像处理技术。该技术为:例如一边使事先准备的脸部的基准模板的位置相对于拍摄图像按规定数量的像素间隔逐步移动,一边从上述拍摄图像检测与模板图像的一致程度大于等于阈值的图像区域,通过例如矩形框来提取该检测出的图像区域,从而检测人脸。
另外,作为从检测出的脸部图像区域检测器官的位置、脸部朝向的技术,已知有例如使用脸部形状模型搜索作为检测对象的脸部的多个器官的技术。该技术例如使用通过学习等而事先创建的脸部形状模型,从脸部图像区域搜索表示上述脸部的各器官的位置的特征点,当该搜索结果的可靠度超过了阈值时,将包含此时的上述特征点的区域作为脸部图像(例如参照专利文献1)。
专利文献1:日本特开2010-191592号公报
然而,一般现有的脸部检测技术中,如专利文献1所记载,当脸部的特征点的搜索结果的可靠度不满足阈值时,无条件地判断为上述特征点的检测失败,并从脸部区域的检测重新开始。因此,例如当脸部的一部分被手或头发暂时遮挡而使特征点的检测结果的可靠度暂时降低时,上述特征点的检测结果也被判断为失败,并从开头起重新进行脸部检测。另外,此时如果在从拍摄图像中同时检测出的背景图像中包含例如后部座位的乘客的脸部或座位的图样等与作为检测对象的脸部的特征相似的图像图案、且可靠度高于阈值,则会出现可能取代原本的作为检测对象的脸部而将上述背景图像误检测为检测对象,导致脸部检测处理变得不稳定的问题。
发明内容
本发明鉴于上述情况而做出,提供一种即使检测对象物发生了暂时性的变化也不易产生检测对象物的误检测,由此提高检测动作的稳定性的技术。
为了解决上述技术问题,本发明的第一方面在图像解析装置中还包括可靠度检测部和搜索控制部,所述图像解析装置包括以帧为单位从按时序输入的图像检测包含检测对象物的图像区域并基于该检测出的图像区域推断所述检测对象物的状态的搜索部,所述可靠度检测部检测表示所述推断出的所述检测对象物的状态的似然性的可靠度,所述搜索控制部基于该检测出的可靠度控制所述搜索部的处理。
此外,在搜索控制部中,当被判断为在第一帧中检测出的可靠度满足可靠度条件时,将在第一帧中由上述搜索部检测出的图像区域的位置保存于存储器,并控制所述搜索部,使得接第一帧之后的第二帧中的上述检测对象物的状态推断以所述被保存的图像区域的位置为基准而进行。
另外,在搜索控制部中,判断在所述第二帧中由所述搜索部推断出的所述检测对象物的状态相对于所述第一帧的变化是否满足事先设定的判断条件。然后,当判断为变化满足判断条件时,接上述第二帧之后的第三帧中的上述检测对象物的状态的推断处理以上述被保存的图像区域的位置为基准而进行。
与此相对地,当判断为上述检测对象物的状态相对于上述第一帧的变化不满足上述判断条件时,在搜索控制部中,删除保存于上述存储器的图像区域的位置,并以整个图像帧为对象从上述图像区域的检测处理开始进行接上述第二帧之后的第三帧中的搜索部的处理。
因此,根据第一方面,如果在图像的第一帧中由搜索部推断出的检测对象物的状态的可靠度满足规定的可靠度条件,则例如设定被称为跟踪模式的搜索模式。在跟踪模式下,将在上述第一帧中由上述搜索部检测出的图像区域的位置保存在存储器中。然后,在搜索部中,在接上述第一帧之后的第二帧中推断上述检测对象物的状态时,以上述被保存的图像区域的位置为基准检测包含检测对象物的图像区域,并基于该图像区域进行推断上述检测对象物的状态的处理。因此,与在所有的帧中始终从初始状态开始检测包含检测对象物的图像区域并进行推断检测对象物的状态的处理时相比,能够高效地进行图像区域的检测。
另外,根据第一方面,在已设定上述跟踪模式的状态下,判断由搜索部推断出的检测对象物的状态的帧间变化量是否满足规定的判断条件。然后,若满足,则视为在第二帧中推断出的检测对象物的状态的变化在允许范围内,并在随后的第三帧中也继续进行基于上述跟踪模式的图像区域的检测以及推断检测对象物的状态的处理。
因此,例如在驾驶员监控领域中,当驾驶员的脸部的一部分被手或头发等暂时遮挡、或随着驾驶员的身体移动而其脸部的一部分暂时脱离脸部图像区域的基准位置时,保持跟踪模式,并在后续帧中继续进行基于跟踪模式的图像区域的检测处理和检测对象物的状态的推断处理。因此,能够提高检测对象物的图像区域的检测以及检测对象物的状态的推断处理的稳定性。
进而,根据第一方面,如果检测对象物的状态的帧间变化量不满足规定的判断条件,则解除跟踪模式,从下一帧开始再次以图像的整个区域作为搜索范围来检测包含检测对象物的图像区域,并进行检测对象物的状态的推断。因此,在跟踪模式设定中,当检测对象物的状态的推断结果的可靠度降低至上述判断条件以下时,在下一帧中进行从初始状态开始检测图像区域并推断检测对象物的状态的处理。由此,在可靠度降低的状态下,跟踪模式被迅速解除,从而能够高精度地掌握检测对象物的状态。
本发明所涉及的装置的第二方面在所述第一方面中,所述搜索部以人的脸部作为所述检测对象物,并推断对应于构成该人的脸部的多个器官而事先设定的多个特征点的位置、所述脸部的朝向以及所述脸部的视线方向中至少一方。
根据第二方面,例如在驾驶员监控领域中,能够以高的可靠度且稳定地推断驾驶员的脸部状态。
本发明所涉及的装置的第三方面在所述第二方面中,所述搜索部进行推断所述图像区域中对应于构成所述人的脸部的多个器官而事先设定的多个特征点的位置的处理,所述第二判断部具有定义所述特征点的位置的帧间变化的允许量的第一阈值来作为所述判断条件,并判断由所述搜索部推断出的所述特征点的位置在所述第一帧与所述第二帧之间的变化量是否超过所述第一阈值。
根据第三方面,例如当驾驶员的脸部的特征点位置的推断结果的可靠度降低时,如果上述特征点位置的帧间变化量小于等于第一阈值,则视为此时的特征点位置的变化在允许范围内,并继续跟踪模式。由此,当脸部的特征点的推断结果的可靠度暂时降低时,能够按照跟踪模式,继续进行高效的处理。
本发明所涉及的装置的第四方面在所述第二方面中,所述搜索部进行从所述图像区域推断所述人的脸部相对于基准方向的朝向的处理,所述第二判断部具有定义所述人的脸部的朝向的帧间变化的允许量的第二阈值来作为所述判断条件,并判断由所述搜索部推断出的所述人的脸部的朝向在所述第一帧与第二帧之间的变化量是否超过所述第二阈值。
根据第四方面,例如当驾驶员的脸部朝向的推断结果的可靠度降低时,如果上述脸部朝向的帧间变化量小于等于第二阈值,则视为此时的脸部朝向的变化在允许范围内,并继续跟踪模式。由此,当脸部朝向的推断结果的可靠度暂时降低时,能够按照跟踪模式,继续进行高效的处理。
本发明所涉及的装置的第五方面在所述第二方面中,所述搜索部进行从所述图像区域推断所述人的脸部的视线的处理,所述第二判断部具有定义所述检测对象物的视线方向的帧间变化的允许量的第三阈值来作为所述判断条件,并判断由所述搜索部推断出的所述人的脸部的视线方向在所述第一帧与所述第二帧之间的变化量是否超过所述第三阈值。
根据第五方面,例如当驾驶员的视线方向的推断结果的可靠度降低时,如果上述视线方向的帧间变化量小于等于第三阈值,则视为此时的视线方向的变化在允许范围内,并继续跟踪模式。由此,当视线方向的推断结果的可靠度暂时降低时,能够根据跟踪模式,继续进行高效的处理。
本发明的第六方面所涉及的图像解析方法由基于按时序输入的图像推断检测对象物的状态的装置执行,所述图像解析方法包括:搜索过程,以帧为单位从所述按时序输入的图像检测包含检测对象物的图像区域,并基于该检测出的图像区域进行推断所述检测对象物的状态的处理;可靠度检测过程,检测表示通过所述搜索过程推断出的所述检测对象物的状态的似然性的可靠度;第一判断过程,判断在所述图像的第一帧中通过所述可靠度检测过程检测出的可靠度是否满足事先设定的可靠度条件;第一控制过程,在判断为在所述第一帧中检测出的可靠度满足所述可靠度条件时,将在所述第一帧中通过所述搜索过程检测出的图像区域的位置保存于存储器,并控制所述搜索过程的处理,使得接所述第一帧之后的第二帧中的所述检测对象物的状态推断以被保存的所述图像区域的位置为基准而进行;第二判断过程,判断在所述第二帧中通过所述搜索过程推断出的所述检测对象物的状态相对于所述第一帧的变化是否满足事先设定的判断条件;第二控制过程,在判断为所述检测对象物的状态相对于所述第一帧的变化满足所述判断条件时,控制所述搜索过程的处理,使得接所述第二帧之后的第三帧中的所述检测对象物的状态的推断处理以被保存的所述图像区域的位置为基准而进行;以及第三控制过程,在判断为所述检测对象物的状态相对于所述第一帧的变化不满足所述判断条件时,删除保存于所述存储器的所述图像区域的位置,并控制所述搜索过程,使得接所述第二帧之后的第三帧中的所述搜索过程的处理从所述图像区域的检测处理开始进行。
本发明的第七方面所涉及的记录介质存储有使上述第一至第五方面中任一方面所述的图像解析装置包括的硬件处理器执行所述图像解析装置所包括的各部的处理的程序。
即,根据本发明的各方面,能够提供即使检测对象物发生了暂时性的变化,也不易产生检测对象物的误检测,由此提高检测动作的稳定性的技术。
附图说明
图1是示出本发明的一实施方式所涉及的图像解析装置的一应用例的框图。
图2是示出本发明的一实施方式所涉及的图像解析装置的硬件构成的一例的框图。
图3是示出本发明的一实施方式所涉及的图像解析装置的软件构成的一例的框图。
图4是示出图3所示的图像解析装置所进行的学习处理的步骤和处理内容的一例的流程图。
图5是示出图3所示的图像解析装置所进行的整个图像解析处理的处理步骤和处理内容的一例的流程图。
图6是示出图5所示的图像解析处理的子程序之一的流程图。
图7是示出图5所示的图像解析处理中的特征点搜索处理的处理步骤和处理内容的一例的流程图。
图8是示出由图5所示的脸部区域检测处理检测出的脸部区域的一例的图。
图9是示出由图5所示的特征点搜索处理检测出的脸部特征点的一例的图。
图10是示出脸部区域的一部分被手遮挡的例子的图。
图11是示出从脸部图像提取出的特征点的一例的图。
图12是示出对从脸部图像提取出的特征点进行三维显示的例子的图。
附图标记说明
1…相机,2…图像解析装置,3…图像获取部,4…脸部检测部,4a…脸部区域检测部,4b…搜索部,5…可靠度检测部,6…搜索控制部,7…跟踪信息存储部,11…控制单元,11A…硬件处理器,11B…程序存储器,12…数据存储器,13…相机I/F,14…外部I/F,111…图像获取控制部,112…脸部区域检测部,113…搜索部,115…可靠度检测部,116…搜索控制部,117…输出控制部,121…图像存储部,122…模板存储部,123…检测结果存储部,124…跟踪信息存储部,1131…位置检测部,1132…脸部朝向检测部,1133…视线检测部。
具体实施方式
下面参照附图对本发明所涉及的实施方式进行说明。
[应用例]
首先,对本发明的实施方式所涉及的图像解析装置的一应用例进行说明。
本发明的实施方式所涉及的图像解析装置用于例如监控对应于构成驾驶员的脸部的多个器官(眼睛、鼻子、嘴巴、颧骨等)而事先设定的多个特征点的位置、驾驶员的脸部朝向、视线方向等的驾驶员监控系统,构成如下。
图1是示出驾驶员监控系统中所使用的图像解析装置的功能构成的框图。图像解析装置2与相机1连接。相机1设置于例如与驾驶席相对的位置,以一定的帧周期拍摄包含就坐于驾驶席的驾驶员的脸部的规定范围,并输出其图像信号。
图像解析装置2包括图像获取部3、脸部检测部4、可靠度检测部5、搜索控制部(也可只称作控制部)6以及跟踪信息存储部7。
图像获取部3例如从所述相机1接收按时序输出的图像信号,将接收到的图像信号按每帧地转换为由数字信号构成的图像数据并保存于图像存储器。
脸部检测部4具有脸部区域检测部4a以及搜索部4b。
脸部区域检测部4a按每帧地从上述图像存储器读出由上述图像获取部3所获取的图像数据,并从该图像数据提取包括驾驶员的脸部的图像区域(局部图像)。例如,脸部区域检测部4a使用模板匹配法。此外,一边使脸部的基准模板的位置相对于图像数据以规定数量的像素间隔逐步移动,一边从上述图像数据检测与基准模板的图像的一致程度大于等于阈值的图像区域,并提取该检测出的图像区域。该脸部图像区域的提取例如使用矩形框。
搜索部4b具有检测脸部的特征点的位置的位置检测部4b1、脸部朝向检测部4b2以及视线检测部4b3作为其功能。搜索部4b例如使用对应于脸部的多个角度中的各个角度而准备的多个三维脸部形状模型。三维脸部形状模型通过特征点配置向量定义与作为检测对象的多个特征点对应的脸部的多个器官(例如眼睛、鼻子、嘴巴、颧骨)的三维位置。
搜索部4b例如通过对于上述提取出的脸部图像区域依次影射上述多个三维脸部形状模型,而从由上述脸部区域检测部4a检测出的脸部图像区域获取上述各器官的特征量。然后,根据相对于所获取的特征量的正解值的误差量以及该误差量在阈值以内时的三维脸部形状模型,推断上述脸部图像区域中的各特征点的三维位置坐标,进而基于该推断出的各特征点的三维位置坐标分别推断脸部朝向和视线方向。
需要说明的是,在搜索部4b中,搜索处理可分为两阶段进行,首先通过粗搜索推断脸部的代表性的特征点的位置,随后通过详细搜索来推断量多的特征点的位置。粗搜索和详细搜索的区别在于例如作为检测对象的特征点的数量、其所对应的三维脸部形状模型的特征点配置向量的维数、以及用于判断相对于特征量的正解值的误差量的判断条件。
在详细搜索中,为了从脸部图像区域高精度地检测出脸部,例如设定多个检测对象的特征点并使三维脸部形状模型的特征点配置向量的维数为多维,进而严格设定相对于从脸部图像区域获取到的特征量的正解值的误差量的判断条件。例如,将判断阈值设定为小的值。与此相对地,在粗搜索中,为了在短时间内检测出脸部的特征点,限定作为检测对象的特征点并减少三维脸部形状模型的特征点配置向量的维数,进而将判断阈值设定为大的值,使得误差量的判断条件较详细搜索时有所缓和。
可靠度检测部5针对由上述搜索部4b所得到的特征点的位置的推断结果计算表示其似然性的可靠度。作为可靠度的计算方法,例如采用如下方法:比较事先存储的脸部图像的特征和由搜索部4b检测出的脸部图像区域的特征,求出检测出的脸部区域的图像为被拍摄体的图像的概率,由该概率计算可靠度。另外,作为其它的检测方法,也可采用如下方法:计算事先存储的脸部图像的特征和由搜索部4b检测出的脸部区域的图像的特征之差,根据该差的大小计算可靠度。
搜索控制部6基于由上述可靠度检测部5所检测出的可靠度来控制上述脸部检测部4的动作。
例如,当在图像的当前帧中,由上述搜索部4b所得到的推断结果的可靠度超过了阈值时,搜索控制部6将跟踪标记设定为开启,将此时由脸部区域检测部4a所检测出的脸部图像区域保存于跟踪信息存储部7。也就是说,设定跟踪模式。此外,将上述已保存的脸部图像区域提供给脸部区域检测部4a,以作为在后续帧中用于检测脸部图像区域的基准位置。
另外,在设定有上述跟踪模式的状态下,搜索控制部6判断当前帧的推断结果相对于前帧的推断结果的变化情况是否满足事先设定的判断条件。
在此,作为上述判断条件,使用以下3种条件。
(a)脸部的特征点的位置坐标的变化量在规定范围内。
(b)脸部朝向的变化量在规定角度的范围内。
(c)视线方向的变化量在规定范围内。
然后,搜索控制部6如果判断当前帧的推断结果相对于上述前帧的推断结果的变化量满足上述3种判断条件(a)~(c)中全部,则将跟踪标记保持为开启,亦即保持跟踪模式地继续保持保存于跟踪信息存储部7中的脸部图像区域。此外,使脸部区域检测部4a继续将上述被保存的脸部图像区域的坐标提供给脸部检测部4,以能够将该脸部图像区域的坐标用作在后续帧中用于检测上述脸部区域的基准位置。
与此相对地,在当前帧中的推断结果相对于上述前帧中的推断结果的变化不满足上述3种判断条件中的任一判断条件时,搜索控制部6将跟踪标记重置为关闭,并将保存于上述跟踪信息存储部7中的脸部图像区域的坐标删除。亦即解除跟踪模式。此外,对脸部区域检测部112指示:在后续帧中,以整个帧作为对象从初始状态开始重新进行脸部图像区域的检测处理。
通过包括以上功能构成,根据该应用例,如果某图像帧中搜索部4b的推断结果的可靠度超过阈值,则判断为以高的可靠度推断出脸部的特征点且跟踪标记变为开启,在该帧中推断出的脸部图像区域的坐标被保存到跟踪信息存储部7。此外,在下帧中,将保存于上述跟踪信息存储部7的脸部图像区域的坐标作为基准位置进行脸部图像区域的检测。因此,与在各帧中总是从初始状态开始检测脸部图像区域时相比,能够高效地进行脸部图像区域的检测。
另一方面,在上述跟踪标记开启的状态下,亦即设定为跟踪模式的状态下,在搜索控制部6中,分别判断脸部的特征点的位置坐标的帧间变化量是否在规定范围内、脸部朝向的帧间变化量是否在规定角度的范围内、视线方向的帧间变化量是否在规定范围内。然后,如果在这些所有的判断中满足判断条件,则即使当前帧的推断结果相对上述前帧发生了变化,也视为其变化在允许范围内,并在后续帧中也继续以保存于跟踪信息存储部7的脸部图像区域的位置坐标作为基准位置来进行脸部图像区域的检测处理。
由此,例如当驾驶员的脸部的一部分被手或头发等暂时遮挡,或随着驾驶员的身体移动而使脸部的一部分暂时脱离正在跟踪的脸部图像区域时,也保持跟踪模式,并在后续帧中继续以保存于跟踪信息存储部7的脸部图像区域的坐标作为基准位置而进行脸部图像区域的检测处理。因此,能够提高通过搜索部4b推断脸部的特征点的位置、脸部朝向以及视线方向的处理的稳定性。
需要说明的是,在使用上述判断条件判断是否保持跟踪模式时,也可以是,虽然没有全部满足上述三个判断条件,但如果满足这些判断条件中的一个或两个时,也继续保持跟踪模式。
[一实施方式]
(构成例)
(1)系统
本发明的一实施方式所涉及的图像解析装置如应用例中所述,例如用在监控驾驶员的脸部状态的驾驶员监控系统中。驾驶员监控系统例如包括相机1以及图像解析装置2。
相机1例如配置于仪表盘上的与驾驶人(驾驶员)正对的位置。相机1使用能够接收例如近红外线的CMOS(Complementary MOS:互补金属氧化物半导体)图像传感器作为摄像器件。相机1拍摄包括驾驶员的脸部的规定范围,将其图像信号例如通过信号线缆向图像解析装置2送出。需要说明的是,作为摄像器件也可以采用CCD(Charge Coupled Device:电荷耦合器件)等其它固体摄像元件。此外,只要是挡风玻璃或后视镜等这样的与驾驶员正对的位置,相机1的设置位置可以设置于任意的位置。
(2)图像解析装置
图像解析装置2从通过上述相机1所得到的图像信号检测驾驶员的脸部图像区域,并从该脸部图像区域检测驾驶员的脸部状态、例如对应于脸部的多个器官(例如眼睛、鼻子、嘴巴、颧骨)而事先设定的多个特征点的位置、脸部朝向、视线方向。
(2-1)硬件构成
图2是示出图像解析装置2的硬件构成的一个例子的框图。
图像解析装置2例如具有CPU(Central Processing Unit:中央处理单元)等硬件处理器11A。此外,是通过总线15将程序存储器11B、数据存储器12、相机接口(相机I/F)13、外部接口(外部I/F)14连接于该硬件处理器11A的装置。
相机I/F13通过例如信号线缆接收从上述相机1输出的图像信号。外部I/F14将表示脸部状态的检测结果的信息向例如判断旁视或困倦的驾驶员状态判断装置、控制车辆的动作的自动驾驶控制装置等外部装置输出。
需要说明的是,在车内包括LAN(Local Area Network:局域网)等车内有线网络、采用了Bluetooth(注册商标)等小电力无线数据通信标准的车内无线网络的情况下,也可以采用上述网络进行上述相机1和相机I/F13之间、以及外部I/F14和外部装置之间的信号传输。
程序存储器11B使用了例如HDD(Hard Disk Drive:硬盘驱动器)、SSD(SolidState Drive:固态硬盘)等能够随时写入以及读出的非易失性存储器、以及ROM等非易失性存储器作为存储介质,存储有执行一实施方式所涉及的各种控制处理所需的程序。
数据存储器12包括例如组合了HDD或SSD等能够随时写入以及读出的非易失性存储器以及RAM等易失性存储器的部件作为存储介质,用于存储在执行一实施方式所涉及的各种处理的过程中获取、检测以及计算出的各种数据、模板数据等。
(2-2)软件构成
图3是示出本发明的一实施方式所涉及的图像解析装置2的软件构成的框图。
在数据存储器12的存储区域中设有图像存储部121、模板存储部122、检测结果存储部123以及跟踪信息存储部124。图像存储部121用于暂时保存从相机1获取到的图像数据。
模板存储部122存储用于从图像数据检测拍到驾驶员的脸部的图像区域的脸部基准模板、三维脸部形状模型。三维脸部图像模型用于从上述检测出的脸部图像区域检测作为检测对象的与多个器官(例如眼睛、鼻子、嘴巴、颧骨)对应的多个特征点,并根据所设想的脸部朝向而准备有多个模型。
检测结果存储部123用于存储表示从脸部图像区域推断出的与脸部的各器官对应的多个特征点的三维位置坐标、脸部朝向以及视线方向的信息。跟踪信息存储部124用于保存跟踪标记以及正在跟踪的脸部图像区域的位置坐标。
控制单元11包括上述硬件处理器11A以及上述程序存储器11B,并包括图像获取控制部111、脸部区域检测部112、搜索部113、可靠度检测部115、搜索控制部116以及输出控制部117作为基于软件的处理功能部。这些处理功能部都是通过使上述硬件处理器11A执行存储于程序存储器11B的程序来实现。
从上述相机1按时序输出的图像信号由相机I/F13所接收,并按每帧地转换为由数字信号构成的图像数据。图像获取控制部111进行从上述相机I/F13按每帧地取入上述图像数据并保存于数据存储器12的图像存储部121的处理。
脸部区域检测部112从上述图像存储部121按每帧地读出图像数据。然后,使用存储于模板存储部122的脸部基准模板,从上述读出的图像数据检测拍到驾驶员的脸部的图像区域。例如,脸部区域检测部112使脸部基准模板相对于图像数据以事先设定的多个像素间隔(例如8像素)逐步移动,每次移动时都会计算上述基准模板与图像数据的亮度的相关值。然后,进行如下处理:将计算出的相关值与事先设定的阈值进行比较,并将与计算出的相关值大于等于阈值的分步位置对应的图像区域作为拍到驾驶员的脸部的脸部区域,通过矩形框进行提取。矩形框的尺寸根据拍到拍摄图像中的驾驶员的脸部尺寸而事先设定。
需要说明的是,作为上述脸部的基准模板图像,例如可以使用对应于整个脸部的轮廓的基准模板、基于一般的脸部的各器官(眼睛、鼻子、嘴巴、颧骨等)的模板。另外,作为基于模板匹配的脸部检测方法,例如还可以使用通过色度键处理来检测头部等的顶点并根据该顶点检测脸部的方法、检测与肤色接近的区域并将该区域检测为脸部的方法等。进而,脸部区域检测部112也可以构成为:使用神经网络进行基于教师信号的学习,将疑似脸部区域检测为脸部。另外,脸部区域检测部112所进行的脸部图像区域的检测处理也可以通过应用其它现有的任何技术来实现。
搜索部113具有位置检测部1131、脸部朝向检测部1132以及视线检测部1133。
位置检测部1131例如使用存储于模板存储部122的三维脸部形状模型从由上述脸部区域检测部112所检测出的脸部图像区域搜索对应于眼睛、鼻子、嘴巴、颧骨等脸部的各器官而设定的多个特征点,并推断其位置坐标。三维脸部形状模型如前面在应用例等中所述,对应于驾驶员的脸部的多个朝向而准备有多个。例如,准备对应于脸部的正面方向、斜向右方向、斜向左方向、斜向上方向、斜向下方向等代表性的脸部朝向的模型。需要说明的是,也可以在偏航方向和俯仰方向这两个轴方向上分别隔开一定的角度定义脸部朝向,并准备与这些各轴的所有角度的组合对应的三维脸部形状模型。三维脸部形状模型例如可根据驾驶员的实际的脸部通过学习处理而生成,但也可以为设定有从一般的脸部图像获取的平均初始参数的模型。
脸部朝向检测部1132例如根据通过上述特征点的搜索相对于正解值的误差为最小时的各特征点的位置坐标以及在该位置坐标的检测中使用的三维脸部形状模型来推断驾驶员的脸部朝向。视线检测部1133例如根据通过上述位置检测部1131推断的多个特征点的位置中眼球的亮点的三维位置与瞳孔的二维位置,来计算驾驶员的视线方向。
可靠度检测部115计算由上述搜索部113所推断出的特征点的位置的可靠度α。作为可靠度的检测方法,例如采用如下方法:对事先存储的脸部图像的特征与由搜索部113检测出的脸部图像区域的特征进行比较,求出检测出的脸部区域的图像为被拍摄体的图像的概率,并从该概率计算可靠度。
搜索控制部116根据由上述可靠度检测部115所检测出的可靠度α、由上述位置检测部1131所推断出的特征点的位置坐标、由上述脸部朝向检测部1132所推断出的脸部朝向以及由上述视线检测部1133所推断出的视线方向,执行如下搜索控制。
(1)在图像数据的当前帧中,当上述搜索部113的推断结果的可靠度α超过了事先设定的阈值时,将跟踪标记设定为开启,且将在上述帧中检测出的脸部图像区域的坐标保存到跟踪信息存储部7。亦即设定跟踪模式。然后,指示脸部区域检测部112将上述保存的脸部图像区域的位置坐标用作在图像数据的后续帧中检测脸部图像区域时的基准位置。
(2)在已设定上述跟踪模式的状态下,分别进行如下判断:
(a)在当前帧所检测出的脸部的特征点坐标相对于前帧的推断结果的变化量是否在规定范围内;
(b)在当前帧所检测出的脸部朝向相对于前帧的推断结果的变化量是否在规定的角度范围内;
(c)在当前帧所检测出的视线方向相对于前帧的推断结果的变化量是否在规定范围内。
搜索控制部116如果判断满足全部上述各判断条件(a)~(c),则保持跟踪模式。即,保持跟踪标记为开启,且也继续保持保存于上述跟踪信息存储部7中的脸部图像区域的坐标。然后,对脸部区域检测部112继续提供上述保存的脸部图像区域的坐标,从而能够将该脸部图像区域的坐标在后续帧中用作用于检测上述脸部区域的基准位置。
(3)与此相对地,在当前帧中的推断结果相对于上述前帧中的推断结果的变化量不满足上述3种判断条件(a)~(c)中的任一判断条件时,搜索控制部6将跟踪标记重置为关闭,并删除上述跟踪信息存储部7中保存的脸部图像区域的坐标。即,解除跟踪模式。此外,对脸部区域检测部112进行控制,使得以图像帧的全部区域作为对象,从初始状态开始重新进行脸部图像区域的检测处理,直至在后续帧中新设定跟踪模式。
输出控制部117从检测结果存储部123读出由上述搜索部113所得到的、脸部图像区域中的各特征点的三维位置坐标、表示脸部朝向的信息以及表示视线方向的信息,并从外部I/F14向外部装置发送。作为发送对象的外部装置例如可考虑旁视警报装置、自动驾驶控制装置等。
(动作例)
下面,对如上所述构成的图像解析装置2的动作例进行说明。
需要说明的是,在本例中,以用于从拍摄到的图像数据中检测包含有脸部的图像区域的处理中的脸部基准模板被事先存储于模板存储部122来进行说明。
(1)学习处理
首先,对为了使图像解析装置2动作而所需的学习处理进行说明。
为了通过图像解析装置2从图像数据检测特征点的位置,需要预先实施学习处理。
学习处理通过事先安装于图像解析装置2的学习处理程序(省略图示)来执行。需要说明的是,也可以在图像解析装置2以外的、例如设置于网络上的服务器等信息处理装置中执行学习处理,通过网络将其学习结果下载于图像解析装置2,并存储在模板存储部122。
学习处理例如包括三维脸部形状模型的获取处理、三维脸部形状模型向图像平面的影射处理、特征量采样处理以及误差检测矩阵的获取处理。
在学习处理中,准备多个学习用脸部图像(下面,在学习处理的说明中称为“脸部图像”)以及各脸部图像中的特征点的三维坐标。特征点例如可以通过激光扫描仪、立体相机等技术来获取,但也可以使用其它任何技术。该特征点提取处理为了提高学习处理的精度,也优选将人类的脸部作为对象来实施。
图11是在二维平面中举例示出脸部的检测对象的特征点的位置的图,图12是将上述特征点作为三维坐标示出的图。在图11以及图12的例子中,示出了眼睛的两端(内眼角和外眼角)以及中心、左右的颧骨部分(眼窝底部分)、鼻子的顶点和左右的端点、左右的嘴角、嘴的中心、鼻子的左右端点和左右的嘴角的中间点被分别设定为特征点的情况。
图4是示出通过图像解析装置2执行的学习处理的处理步骤和处理内容的一个例子的流程图。
(1-1)三维脸部形状模型的获取
图像解析装置2首先通过步骤S01定义变量i,将1代入其中。然后,在步骤S02中,从图像存储部121读入预先获取到特征点的三维位置的学习用的脸部图像中第i个帧的脸部图像(Img_i)。这里,由于将1代入了i,因此读入第一个帧的脸部图像(Img_1)。接着,通过步骤S03,读出脸部图像Img_i的特征点的正解坐标的集合,获取正解模型参数kopt,创建三维脸部形状模型的正解模型。然后,图像解析装置2通过步骤S04,基于正解模型参数kopt,创建偏离配置模型参数kdif,创建偏离配置模型。优选该偏离配置模型的创建产生随机数,在规定的范围内偏离正解模型。
对以上的处理进行具体说明。首先,将各特征点pi的坐标设为pi(xi、yi、zi)。此时,i是表示1至n(n表示特征点的数量)的值。然后,如[数学式1]所示地定义关于各脸部图像的特征点配置向量X。关于某脸部图像j的特征点配置向量表述为Xj。需要说明的是,X的维数是3n。
[数学式1]
X=[x1,y1,z1,x2,y2,z2,....xn,yn,zn]T
本发明的一实施方式中使用的三维脸部形状模型例如在图11及图12中所例示的,用于搜索与眼睛、鼻子、嘴巴、颧骨相关的量多的特征点,因此特征点配置向量X的维数X与上述量多的特征点的数量相对应。
接着,图像解析装置2基于适当的基准将所获取的所有特征点配置向量X归一化。此时的归一化的基准也可以由设计者适当确定。
下面,关于归一化的具体例子进行说明。例如,关于某脸部图像j的特征点配置向量Xj,在将点p1~pn的重心坐标设为pG时,在使各点移动至以重心pG为原点的坐标系中之后,采用通过[数学式2]定义的Lm,可以使其大小归一化。具体而言,通过移动后的坐标值除以Lm,可以使大小归一化。这里,Lm是重心至各点的直线距离的平均值。
[数学式2]
此外,对于旋转,例如可以通过对特征点坐标进行旋转变换,以使连接两眼的中心的直线朝向一定方向,从而可以进行归一化。以上的处理可以通过旋转、放大、缩小的组合来表现,因此,归一化后的特征点配置向量x可以如[数学式3]那样表示(相似变换)。
[数学式3]
然后,图像解析装置2对于上述归一化特征点配置向量的集合进行主成分分析。主成分分析例如可以如下所述地进行。首先,按照[数学式4]所示的式子,获取平均向量(平均向量通过在x的上部标记水平线而示出)。需要说明的是,在数学式4中,N表示脸部图像的数量、即特征点配置向量的数量。
[数学式4]
然后,如[数学式5]所示,通过从所有的归一化特征点配置向量减去平均向量,从而获取差分向量x′。图像j相关的差分向量示为x′j。
[数学式5]
作为上述主成分分析的结果,获得3n组固有向量和固有值的组。任意的归一化特征点配置向量可以通过[数学式6]所示的式子来表示。
[数学式6]
这里,P表示固有向量矩阵,b表示形状参数向量。各个值如[数学式7]所示。需要说明的是,ei表示固有向量。
[数学式7]
P=[e1,e2,…,e3n]T
b=[b1,b2,…,b3n]
实际上,通过采用固有值大的前k维为止的值,可以如[数学式8]所示近似地表示任意的归一化特征点配置向量x。下面,按照固有值从大到小的顺序,将ei称为第i主成分。
[数学式8]
P′=[e1,e2,…,ek]T
b′=[b1,b2,…,bk]
需要说明的是,在将脸部形状模型套用(拟合)于实际的脸部图像时,对归一化特征点配置向量x进行相似变换(平移、旋转)。如果将相似变换的参数设为sx、sy、sz、sθ、sψ,则可以与形状参数相配合,如[数学式9]所示地表示模型参数k。
[数学式9]
在通过该模型参数k所表示的三维脸部形状模型大致准确地与某脸部图像上的特征点位置一致时,将该参数称为该脸部图像中的三维正解模型参数。基于设计者所设定的阈值或基准来判断是否准确地一致。
(1-2)影射处理
图像解析装置2接下来在步骤S05中将偏离配置模型影射于学习图像上。
三维脸部形状模型可以通过影射于二维平面来进行在二维图像上的处理。作为将三维形状影射于二维平面的方法,存在平行投影法、透视投影法等各种方法。这里,以透视投影法中的单点透视投影为例进行说明。不过,即便是使用其它任何方法也可以获得相同的效果。对于z=0平面的单点透视投影矩阵如[数学式10]所示。
[数学式10]
这里,r=-1/zc,zc表示z轴上的投影中心。由此,三维坐标[x、y、z]如[数学式11]所示地被转换,在z=0平面上的坐标系中,如[数学式12]所示。
[数学式11]
[数学式12]
通过以上处理,三维脸部形状模型被影射于二维平面。
(1-3)特征量采样
图像解析装置2接下来在步骤S06中,基于被影射有上述偏离配置模型的二维脸部形状模型,执行采用了视网膜(Retina)结构的采样,获取采样特征量f_i。
特征量的采样是通过使可变视网膜结构与影射于图像上的脸部形状模型组合来进行的。视网膜(Retina)结构是在某想关注的特征点(节点)的周围放射状地离散配置的采样点的结构。通过实施基于视网膜结构的采样,能够以低维度高效地采样特征点周围的信息。在该学习处理中,在从三维脸部形状模型影射于二维平面的脸部形状模型(下面,称为二维脸部形状模型)的各节点的影射点(各点p)上实施基于视网膜结构的采样。需要说明的是,基于视网膜结构的采样是指在按照视网膜结构所确定的采样点处实施采样。
如果将第i个采样点的坐标设为qi(xi、yi),则可以如[数学式13]地表示视网膜结构。
[数学式13]
因此,例如关于某点p(xp、yp),可以如[数学式14]所示地表示通过进行基于视网膜结构的采样所获得的视网膜特征量fp。
[数学式14]
fp=[f(p+q1),…,f(p+qm)]T
不过,f(p)表示点p(采样点p)上的特征量。此外,视网膜结构中的各采样点的特征量作为例如图像的亮度、Sovel滤波器特征量、Harr Wavelet特征量、Gabor Wavelet特征量、将它们复合而得的值来求得。如进行详细搜索时那样,在特征量为多维的情况下,可以如[数学式15]所示地表示视网膜特征量。
[数学式15]
这里,D表示特征量的维数,fd(p)表示点p上的第d维的特征量。此外,qi(d)表示与第d维相对的视网膜结构的、第i个采样坐标。
需要说明的是,视网膜结构可以根据脸部形状模型的尺度使其大小产生变化。例如,可以与平移参数sz成反比例地使视网膜结构的大小产生变化。此时,可以如[数学式16]所示地表示视网膜结构r。需要说明的是,在此所说的α是适当的固定值,是与搜索结果的可靠度α(n)不同的值。此外,也可以根据脸部形状模型中的其它参数来使视网膜结构旋转或产生形状变化。此外,视网膜结构也可以设定为因脸部形状模型的各节点而其形状(结构)不同。此外,视网膜结构还可以是仅中心点一点的结构。即、仅将特征点(节点)作为采样点的结构也包含于视网膜结构中。
[数学式16]
在通过某模型参数确定的三维脸部形状模型中,将按影射在影射平面上的各节点的每个影射点进行上述采样所获得的视网膜特征量排成一列而成的向量称为该三维脸部形状模型中的采样特征量f。可以如[数学式17]所示地表示采样特征量f。在[数学式17]中,n表示脸部形状模型中的节点的数量。
[数学式17]
需要说明的是,在采样时,对各节点进行归一化。例如,通过进行尺度变换以使特征量落在0至1的范围内,来进行归一化。此外,也可以通过进行转换以得到一定的均值或方差来进行归一化。需要说明的是,有时根据特征量也可以不进行归一化。
(1-4)误差检测矩阵的获取
图像解析装置2接下来在步骤S07中,基于正解模型参数kopt以及偏离配置模型参数kdif获取形状模型的误差(偏离)dp_i。这里,在步骤S08中判断关于所有的学习用的脸部图像是否已经完成了处理。该判断例如可以通过对i的值与学习用的脸部图像的数量进行比较来进行判断。在存在未处理的脸部图像的情况下,图像解析装置2在步骤S09中使i的值增量,基于增量后的新的i的值,执行步骤S02及之后的处理。
另一方面,在判断为关于所有的脸部图像已经完成了处理的情况下,图像解析装置2在步骤S10中,对关于各脸部图像所获得的采样特征量f_i与三维脸部形状模型的误差dp_i的集合,执行典型相关分析(Canonical Correlation Analysis)。然后,在步骤S11中删除与小于预先确定的阈值的固定值对应的不需要的相关矩阵,并在步骤S12中获得最终的误差检测矩阵。
误差检测矩阵的获取是通过采用典型相关分析来实施的。典型相关分析是求得两个维数不同的变量间的相关关系的方法之一。通过典型相关分析,在脸部形状模型的各节点配置于错误的位置(与应该检测的特征点不同的位置)时,可以获得关于表示应该向哪个方向修正的相关关系的学习结果。
图像解析装置2首先根据学习用的脸部图像的特征点的三维位置信息来创建三维脸部形状模型。或者,根据学习用的脸部图像的二维正解坐标点来创建三维脸部形状模型。然后,根据三维脸部形状模型来创建正解模型参数。通过利用随机数等使该正解模型参数在一定范围内偏离,从而创建至少任一个节点从特征点的三维位置偏离的偏离配置模型。然后,将基于偏离配置模型获取到的采样特征量以及偏离配置模型与正解模型之差作为一组,获取关于相关关系的学习结果。下面,对其具体处理进行说明。
图像解析装置2首先如[数学式18]所示地定义两组变量向量x和y。x表示对偏离配置模型的采样特征量。y表示正解模型参数(kopt)与偏离配置模型参数(表示偏离配置模型的参数:kdif)之差。
[数学式18]
x=[x1,x2,...xp]T
y=[y1,y2,…yq]T=kopt-kdif
预先对于每个维将两组变量向量归一化为平均值为“0”、方差为“1”。归一化所采用的参数(各维的平均值、方差)在后述的特征点的检测处理中是必要的参数。下面,将各自设为xave、xvar、yave、yvar,称为归一化参数。
接着,在如[数学式19]所示地定义了对两个变量的线性变换时,求得使u、v间的相关成为最大的a、b。
[数学式19]
u=a1x1+…+apxp=aTx
v=b1y1+…+bqyq=bTy
上述a和b是考虑x、y的联合分布,如[数学式20]所示地定义了其方差协方差矩阵∑时,作为[数学式21]所示的对于求解一般固有值问题时的最大固有值的固有向量而得到的。
[数学式20]
[数学式21]
先求解它们中维数低的固有值问题。例如,在求解第一个式子所获得的最大固有值为λ1、对应的固有向量为a1时,通过[数学式22]所示的式子获得向量b1。
[数学式22]
将这样求出的λ1称为第一典型相关系数。此外,将通过[数学式23]所表示的u1、v1称为第一典型变量。
[数23]
下面,如对应于第二大的固有值的第二典型变量、对应于第三大的固有值的第三典型变量那样,基于固有值的大小依次求得典型变量。需要说明的是,后述的特征点的检测处理中采用的向量是到固有值具有某一定以上的值(阈值)的第M典型变量为止的向量。此时的阈值可以由设计者适当地确定。下面,将到第M典型变量为止的转换向量矩阵设为A′、B′,称为误差检测矩阵。可以如[数学式24]所示地表示A′、B′。
[数学式24]
A′=[a1,…,aM]
B′=[b1,…,bM]
B′一般不会成为方矩阵。但是,在特征点的检测处理中需要逆矩阵,因此,针对B′假想地增加0向量,使之为方矩阵B″。可以如[数学式25]所示地表示方矩阵B″。
[数学式25]
B″=[b1,…,bM,0,…,0]
需要说明的是,也可以通过采用线性回归、线性多元回归、或者非线性多元回归等分析方法来求得误差检测矩阵。但是,通过采用典型相关分析,可以忽略对应于小的固有值的变量的影响。因此,能够排除对误差检测没有影响的因素的影响,可以实现更加稳定的误差检测。因此,如果不需要相关的效果,则也可以不采用典型相关分析,而是采用上述其它的分析方法来实施误差检测矩阵的获取。此外,误差检测矩阵也可以通过SVM(SupportVector Machine:支持向量机)等方法获取。
在如上所述的学习处理中,针对各学习用脸部图像仅创建一个偏离配置模型,但也可以创建多个偏离配置模型。这是通过针对学习用的图像多次(例如10~100次)反复进行上述步骤S03~步骤S07的处理来实现的。需要说明的是,上述的学习处理详细记载于日本专利第4093273号公报中。
(2)驾驶员的脸部状态的检测
若上述学习处理结束,则图像解析装置2使用脸部基准模板、通过上述学习处理得到的三维脸部形状模型,如下所述执行用于检测驾驶员的脸部状态的处理。在本例中,对应于脸部的各器官而设定的多个特征点的位置、脸部朝向以及视线方向作为脸部状态被分别检测。
图5及图6是示出检测上述脸部状态时在控制单元11中执行的处理步骤和处理内容的一例的流程图。
(2-1)包括驾驶员的脸部的图像数据的获取
例如,通过相机1从正面拍摄驾驶中的驾驶员的样子,由此所获得的图像信号从相机1向图像解析装置2发送。图像解析装置2通过相机I/F13接收上述图像信号,按每帧地转换为由数字信号构成的图像数据。
图像解析装置2在图像获取控制部111的控制下,按每帧地取入上述图像数据,并使数据存储器12的图像存储部121依次进行存储。需要说明的是,可以任意地设定存储于图像存储部121的图像数据的帧周期。
(2-2)脸部的检测(未跟踪时)
(2-2-1)脸部区域的检测
图像解析装置2接着在脸部区域检测部112的控制下,于步骤S20中将帧编号n设为1后,通过步骤S21从上述图像存储部121读入图像数据的第一帧。然后,在脸部区域检测部112的控制下,于步骤S22中首先使用事先存储于模板存储部122的脸部基准模板,从上述读入的图像数据中检测拍到驾驶员的脸部的图像区域,并使用矩形框提取该脸部图像区域。
图8示出了通过该脸部区域检测处理所提取到的脸部图像区域的一例,FC表示驾驶员的脸部。
(2-2-2)搜索处理
图像解析装置2接着在搜索部113的控制下,于步骤S22中使用通过之前的学习处理所创建的三维脸部形状模型,从通过上述脸部区域检测部112以矩形框提取出的脸部图像区域推断针对作为检测对象的脸部器官、例如眼睛、鼻子、嘴巴、颧骨而设定的多个特征点的位置。
以下,对使用了三维脸部形状模型的特征点的位置推断处理的一例进行说明。图7是示出其处理步骤和处理内容的一例的流程图。
搜索部113首先在步骤S60中,在上述脸部区域检测部112的控制下,从上述数据存储器12的图像存储部121读入以矩形框所提取的脸部图像区域的坐标。接着在步骤S61中,将基于初始参数kinit的三维脸部形状模型配置于上述脸部图像区域的初始位置。然后,通过步骤S62,定义变量i,将“1”代入其中,并定义ki,将初始参数kinit代入其中。
例如,搜索部113在从以上述矩形框抽取出的脸部图像区域首次获取特征量时,首先确定三维脸部形状模型中的各特征点的三维位置,获取该三维脸部形状模型的参数(初始参数)kinit。该三维脸部形状模型例如被设定为如下所述的形状:设定于三维脸部形状模型的对于眼睛、鼻子、嘴巴、颧骨等器官(节点)所限定的量少的特征点配置于距离矩形框的任意的顶点(例如左上角)的规定位置上。需要说明的是,三维脸部形状模型也可以是该模型的中心与用矩形框提取出的脸部图像区域的中心一致那样的形状。
初始参数kinit是指通过[数学式9]所表示的模型参数k中通过初始值所表示的模型参数。也可以将适当的值设定为初始参数kinit。但是,通过将从一般的脸部图像获得的平均值设定为初始参数kinit,能够应对各种脸部的朝向或表情变化等。因此,例如关于相似变换的参数sx、sy、sz、sθ、sψ,也可以采用学习处理时采用的脸部图像的正解模型参数的平均值。此外,例如关于形状参数b,也可以是零。此外,在通过脸部区域检测部112获得脸部朝向的信息的情况下,也可以采用该信息来设定初始参数。此外,也可以将设计者根据经验获得的其它的值作为初始参数。
接着,搜索部113在步骤S63中,将由ki所表示的三维脸部形状模型影射于处理对象的上述脸部图像区域上。然后,在步骤S64中,采用上述影射的脸部形状模型,执行基于视网膜结构的采样,获取采样特征量f。接着,在步骤S65中,使用上述采样特征量f执行误差检测处理。需要说明的是,在对特征量进行采样时,未必需要使用视网膜结构。
另一方面,搜索部113关于通过脸部区域检测部112所提取出的脸部图像区域获取采样特征量是在第二次及之后时,关于由通过误差检测处理所获得的新的模型参数k(即、正解模型参数的检测值ki+1)所表示的脸部形状模型,获取采样特征量f。然后,在这种情况下,也在步骤S65中使用上述获得的采样特征量f执行误差检测处理。
在误差检测处理中,基于上述获取到的采样特征量f、以及模板存储部122中存储的误差检测矩阵、归一化参数等,计算三维脸部形状模型ki和正解模型参数的检测误差kerr。此外,基于该检测误差kerr,通过步骤S66计算正解模型参数的检测值ki+1。进而,在步骤S67中,计算出Δk作为ki+1与ki之差,通过步骤S68计算出E作为Δk的平方。
此外,在误差检测处理中,进行搜索处理的结束判断。执行检测误差量的处理,由此获取新的模型参数k。下面,对误差检测处理的具体的处理例进行说明。
首先,采用归一化参数(xave、xvar),使上述获取到的采样特征量f归一化,求得用于进行典型相关分析的向量x。然后,基于[数学式26]所示的式子,计算出第一~第M典型变量,由此获取变量u。
[数学式26]
u=[u1,…,uM]T=A′Tx
接着,采用[数学式27]所示的式子,计算出归一化误差检测量y。需要说明的是,在[数学式27]中B′不是方矩阵时,B′T-1是B′的伪逆矩阵。
[数学式27]
接着,针对上述算出的归一化误差检测量y,采用归一化参数(yave、yvar)进行复原处理,由此获取误差检测量kerr。误差检测量kerr是从当前的脸部形状模型参数ki至正解模型参数kopt的误差检测量。
因此,正解模型参数的检测值ki+1可以通过当前的模型参数ki加上误差检测量kerr获取。但是,kerr有包含误差的可能性。因此,为了进行更加稳定的检测,通过[数学式28]所示的式子,获取正解模型参数的检测值ki+1。在[数学式28]中,σ是适当的固定值,也可以由设计者适当地进行确定。此外,σ例如也可以根据i的变化而变化。
[数学式28]
在误差检测处理中,优选反复进行上述的特征量的采样处理以及误差检测处理,使正解模型参数的检测值ki接近于正解参数。在进行这样的反复处理时,每次获得检测值ki时都进行结束判断。
在结束判断中,在步骤S69中,首先判断获取的ki+1的值是否在正常范围内。在该判断的结果为ki+1的值不在正常范围内时,图像解析装置2结束搜索处理。
针对于此,假设上述步骤S69的判断结果为ki+1的值在正常范围内。在这种情况下,在步骤S70中,判断通过上述步骤S68计算出的E的值是否超过了阈值ε。然后,在E未超过阈值ε时,判断为处理已经收敛,通过步骤S73输出kest。在该kest的输出之后,图像解析装置2结束基于图像数据的第一帧的脸部状态的检测处理。
另一方面,在E超过了阈值ε时,通过步骤S71进行基于上述ki+1的值创建新的三维脸部形状模型的处理。之后,在步骤S72中,i的值增量,并返回步骤S63。然后,将下一帧的图像数据作为处理对象图像,基于新的三维脸部形状模型反复执行步骤S63及之后的一系列的处理。
需要说明的是,例如在i的值超过了阈值的情况下,结束处理。此外,例如也可以在通过[数学式29]所表示的Δk的值为阈值以下的情况下,结束处理。进而,在误差检测处理中,也可以基于获取到的ki+1的值是否在正常范围内来进行结束判断。例如,在获取到的ki+1的值明显不是表示人的脸部的图像中的正解位置的情况下,结束处理。此外,在由获取到的ki+q1所表示的节点的一部分溢出处理对象的图像的情况下,也结束处理。
[数学式29]
Δk=ki+1-ki
在上述误差检测处理中判断为继续进行处理的情况下,获取到的正解模型参数的检测值ki+1被交给特征量采样处理。另一方面,在判断为结束处理的情况下,在该时间点获得的正解模型参数的检测值ki(或者也可以是ki+1)通过步骤S73作为最终检测参数kest输出。
图9示出了通过上述搜索处理所检测到的特征点的一例,PT示出了特征点的位置。
需要说明的是,上述脸部的特征点的搜索处理已在日本专利第4093273号公报中有详细记载。
另外,在搜索部113中,根据上述检测出的各特征点的位置坐标和检测该位置坐标时使用的三维脸部形状模型是对应于哪一脸部朝向而创建的,来检测驾驶员的脸部朝向。
进一步地,在搜索部113中,基于上述检测出的特征点的位置确定脸部图像区域中的眼睛的图像,从该眼睛的图像分别检测眼球的角膜反射产生的亮点和瞳孔。然后,根据瞳孔的位置坐标相对于该检测出的眼球的角膜反射所产生的亮点位置的位置偏差量与从相机1到眼球的角膜反射所产生的亮点位置的距离D来计算视线方向。
(2-2-3)通过搜索部113所得到的推断结果的可靠度的检测
在通过上述搜索处理从脸部图像区域检测出了作为检测对象的多个特征点的位置时,接下来图像解析装置2在可靠度检测部115的控制下,于步骤S23中计算由上述搜索部113推断出的各特征点的位置相关的可靠度α(n)(n为帧编号,在此n=1)。该可靠度α(n)例如可以对事先存储的脸部图像的特征与通过搜索部113检测出的脸部图像区域的特征进行比较,求得检测出的脸部区域的图像为被拍摄体的图像的概率,并根据该概率计算得出。
(2-2-4)跟踪模式的设定
接着,图像解析装置2在搜索控制部116的控制下,在步骤S24中判断是否在跟踪中。该判断是通过跟踪标记是否开启来进行的。在当前的第一帧中,由于尚未设定跟踪模式,所以搜索控制部116转移到图6所示的步骤S30。于是,将由上述可靠度检测部115计算出的可靠度α(n)与阈值相比较。该阈值事先设定为适当的值。
作为上述比较的结果,如果可靠度α(n)超过了阈值,则搜索控制部116判断可靠地检测出了驾驶员的脸部图像,转移到步骤S31,在此将跟踪标记设为开启,并将由上述脸部区域检测部112所检测出的脸部图像区域的坐标保存到跟踪信息存储部124。像这样设定跟踪模式。
需要说明的是,作为上述步骤S30的比较结果,如果详细搜索结果的可靠度α(n)小于等于阈值,则判断在第一帧中没能高品质地检测出驾驶员的脸部,并在步骤S43中继续进行脸部图像区域的检测处理。即、图像解析装置2在通过步骤S31对帧编号n增量后,返回图5的步骤S20,对后续的第二帧执行上述步骤S20~S24及图6所示的步骤S30~S32的一系列的脸部检测处理。
(2-3)脸部状态的检测(跟踪模式的设定中)
(2-3-1)脸部区域的检测
设为跟踪模式时,图像解析装置2执行如下的脸部状态的检测处理。即、图像解析装置2在脸部区域检测部112的控制下,在步骤S22中从图像数据的下一帧检测驾驶员的脸部区域时,按照从搜索控制部116通知的跟踪信息,将在前一帧中检测出的脸部图像区域的坐标作为基准位置,通过矩形框提取包含于该区域的图像。需要说明的是,此时,也可以仅从上述基准位置提取图像,但也可以从自该基准位置向上下左右方向移动了规定位后的周辺的多个区域分别提取图像。
(2-3-2)搜索结果的可靠度的计算
图像解析装置2接着在搜索部113的控制下,于步骤S22中从上述提取出的脸部图像区域搜索检测对象的脸部的特征点的位置。在此进行的搜索处理与此前对第一帧进行的搜索处理相同。然后,图像解析装置2在可靠度检测部115的控制下,于步骤S23中计算上述搜索结果的可靠度α(n)(例如假设正在关于第二帧进行脸部检测,则n=2)。
(2-3-3)跟踪模式的持续
接着,图像解析装置2在搜索控制部116的控制下,于步骤S24中基于跟踪标记判断是否在跟踪模式设定中。于是,由于目前在跟踪模式设定中,所以搜索控制部116转移到步骤S25。在步骤S2中,搜索控制部116判断当前帧n的推断结果相对于前一帧n-1的推断结果的变化情况是否满足事先设定的判断条件。
即,在本例中,判断当前帧n的推断结果相对于前一帧n-1的推断结果的变化量是否分别满足:
(a)脸部的特征点的位置坐标的变化量在规定范围内。
(b)脸部朝向的变化量在规定的角度范围内。
(c)视线方向的变化量在规定范围内。
于是,搜索控制部116在判断为当前帧n的推断结果相对于上述前一帧n-1的推断结果的变化量满足全部上述3种判断条件(a)~(c)时,视为上述推断结果的变化量在允许范围内,并转移到步骤S26。在步骤S26中,搜索控制部116将在当前帧检测出的脸部图像区域的位置坐标作为跟踪信息保存到跟踪信息存储部124。即,更新跟踪信息。然后,对后续帧继续进行跟踪模式设定中的脸部检测处理。
由此,从搜索控制部116继续向脸部区域检测部112提供上述被保存的脸部图像区域的位置坐标,在脸部区域检测部112中,将该被提供的脸部图像区域用作用于在后续帧中检测上述脸部区域的基准位置。因此,在对后续帧的脸部区域的检测处理中,以上述跟踪信息作为基准位置来进行。
图10示出了继续该跟踪模式时的一例,并示出了驾驶员的脸部FC的一部分被手HD暂时遮挡的情况。作为继续跟踪模式时的其它例子,例如可列举脸部FC的一部分被头发暂时遮挡的情况、随着驾驶员的姿势变化而脸部的一部分暂时脱离跟踪中的脸部图像区域的情况。
(2-3-4)跟踪模式的解除
与此相对地,在上述步骤S25中,当判断为当前帧n的推断结果相对于上述前一帧n-1的推断结果的变化量不满足全部上述3种判断条件(a)~(c)时,判断为上述推断结果的变化量超过了允许范围。此时,搜索控制部116于步骤S27中,将跟踪标记重置为关闭,并将存储于跟踪信息存储部124的跟踪信息删除。由此,脸部区域检测部112在后续帧中不使用跟踪信息而从初始状态开始执行检测脸部区域的处理。
(效果)
如上文所详述的,在一实施方式中,在跟踪标记为开启的状态下,搜索控制部6分别判断相对于前一帧,当前帧的脸部的特征点的位置坐标的变化量是否在规定范围内、脸部朝向的变化量是否在规定的角度范围内、视线方向的变化量是否在规定范围内。此外,如果在这些所有的判断中满足条件,则视为当前帧的推断结果相对于前一帧的变化在允许范围内,并在后续帧中也继续根据保存于跟踪信息存储部7中的脸部图像区域进行分别推断表示脸部状态的特征点的位置、脸部朝向以及视线方向的推断结果的处理。
由此,例如在驾驶员的脸部的一部分被手或头发等暂时遮挡、或随着驾驶员的身体移动而脸部的一部分暂时脱离脸部图像区域的基准位置时,也保持跟踪模式,并在后续帧中继续以保存于跟踪信息存储部7的脸部图像区域的坐标作为基准位置进行脸部图像的检测处理。因此,能够提高脸部的特征点的检测处理的稳定度。
[变形例]
(1)在一实施方式中,在当前帧的推断结果相对于前一帧的推断结果的变化满足下述全部条件时,视为帧内的推断结果的可靠度的降低在允许范围内,并保持跟踪模式:
(a)脸部的特征点的坐标的变化量在规定范围内。
(b)脸部朝向的变化量在规定的角度范围内。
(c)视线的方向的变化量在规定范围内。
然而并不限于此,也可以在满足上述判断条件(a)、(b)、(c)中的任一个或两个判断条件时,保持跟踪模式。
另外,在这种情况下,也可以仅使对应于满足的判断条件的推断结果有效而输出给外部装置,除此以外的推断结果为无效且不输出给外部装置。
(2)在一实施方式中,一旦转移到跟踪模式,此后只要脸部的推断结果的可靠度没有大幅变化则保持跟踪模式。然而,当装置对例如海报中的脸部图像或座位的图案等静态图案进行了误检测时,会产生从此以后跟踪模式半永久地不被解除的担忧。因此,例如在转移到跟踪模式之后经过了与一定帧数相当的时间还继续保持跟踪模式时,则在经过上述时间后强制性地解除跟踪模式。这样,即使跟踪了错误的对象物,也能可靠地从该错误的跟踪模式中断开。
(3)在一实施方式中,以从输入的图像数据推断驾驶员的脸部中的多个器官相关的多个特征点的位置的情况为例进行了说明。但是,并不限定于此,检测对象物只要是可以设定形状模型则可以是任何对象物。例如,作为检测对象物,也可以是人的全身像、X射线图像或通过CT(Computed Tomography:计算机断层扫描)等断层图像摄像装置所获得的脏器图像等。换言之,本技术可以应用于具有大小的个人差异的对象物或基本的形状不产生变化地进行变形的检测对象物。此外,即便是如车辆、电气产品、电子设备、电路基板等工业产品那样不产生变形的刚体的检测对象物,由于可以设定形状模型,因此,可以适用本技术。
(4)在一实施方式中,以按图像数据的每一帧来检测脸部状态的情况为例进行了说明,但也可以每隔预先设定的多个帧来检测脸部状态。此外,关于图像解析装置的构成、检测对象物的特征点的搜索处理的步骤和处理内容、提取框的形状和尺寸等,也可以在不脱离本发明的宗旨的范围内进行各种变形来实施。
(5)在一实施方式中,以在脸部区域检测部中从图像数据检测出存在脸部的图像区域后,针对该检测出的脸部图像区域,通过搜索部进行特征点搜索等来检测特征点的位置坐标的变化、脸部朝向的变化以及视线方向的变化的情况为例进行了说明。然而并不限于此,在脸部区域检测部从图像数据检测存在脸部的图像区域的过程中,例如在采用使用三维脸部形状模型等推断脸部的特征点的位置的搜索方式时,也可以检测在该脸部区域检测过程中检测出的特征点的位置坐标的帧间变化量。然后,也可以根据在该脸部区域检测过程中检测出的特征点的位置坐标的帧间变化量,判断是否保持跟踪状态来控制跟踪状态。
以上,对本发明的实施方式进行了详细说明,但前述的说明在所有的方面都不过是本发明的示例。毋庸置疑,在不脱离本发明的范围内可以进行各种改良或变形。也就是说,在实施本发明时,也可以适当地采用与实施方式相应的具体构成。
总之,本发明并不就这样限定于上述实施方式,在实施阶段,在不脱离其宗旨的范围内,可以对构成部分进行变形来具体化。此外,可以通过上述实施方式所公开的多个构成部分的适当组合来形成各种发明。例如,也可以从实施方式所示的所有构成部分中删除几个构成部分。进而,还可以适当组合跨不同实施方式的构成部分。
[附录]
上述各实施方式的一部分或全部除权利要求书中所记载的之外,还能如以下附录所示地进行记载,但并不限于此。
(附录1)
一种图像解析装置,具有硬件处理器(11A)以及存储器(11B),
所述硬件处理器(11A)构成为:通过执行存储于所述存储器(11B)的程序,由此,
以帧为单位从按时序输入的图像检测包含检测对象物的图像区域(4a),并基于该被检测出的图像区域进行推断所述检测对象物的状态的处理(4b);
检测表示所述推断出的所述检测对象物的状态的似然性的可靠度(5);以及
基于所述检测出的可靠度控制所述搜索部的处理(6),
并且,所述硬件处理器(11A)构成为:
判断在所述图像的第一帧中所述被检测出的可靠度是否满足事先设定的可靠度条件(6);
当判断为在所述第一帧中检测出的可靠度满足所述可靠度条件时,将在所述第一帧中所述被检测出的图像区域的位置保存到存储器(7),并控制所述搜索部,使得接所述第一帧之后的第二帧中的所述检测对象物的状态推断以所述保存的图像区域的位置为基准而进行(6);
判断在所述第二帧中所述被推断出的所述检测对象物的状态相对于所述第一帧的变化是否满足了事先设定的判断条件(6);
当判断为所述检测对象物的状态相对于所述第一帧的变化满足了所述判断条件时,控制包含所述检测对象物的图像区域的检测以及所述检测对象物的状态的推断,使得接所述第二帧之后的第三帧中的所述检测对象物的状态推断处理以所述保存的图像区域的位置为基准而进行(6);以及
当判断为所述检测对象物的状态相对于所述第一帧的变化不满足所述判断条件时,删除保存于所述存储器的所述图像区域的位置,并控制包含所述检测对象物的图像区域的检测以及所述检测对象物的状态的推断,使得接所述第二帧之后的第三帧中的所述搜索部的处理从所述图像区域的检测处理开始进行(6)。
(附录2)
一种图像解析方法,由具有硬件处理器(11A)以及存储有使该硬件处理器(11A)执行的程序的存储器(11B)的装置执行,该图像解析方法包括:
搜索过程(S22),所述硬件处理器(11A)从所述按时序输入的图像中以帧为单位检测包含检测对象物的图像区域,并基于该被检测出的图像区域进行推断所述检测对象物的状态的处理;
可靠度检测过程(23),所述硬件处理器(11A)检测表示通过所述搜索过程推断出的所述检测对象物的状态的似然性的可靠度;
第一判断过程(S25),所述硬件处理器(11A)判断在所述图像的第一帧中通过所述可靠度检测过程检测出的可靠度是否满足事先设定的可靠度条件;
第一控制过程(S31),在判断为在所述第一帧中检测出的可靠度满足所述可靠度条件时,所述硬件处理器(11A)将在所述第一帧中通过所述搜索过程所检测出的图像区域的位置保存于存储器(7),并控制所述搜索过程的处理,使得接所述第一帧之后的第二帧中的所述检测对象物的状态推断以所述被保存的图像区域的位置为基准而进行;
第二判断过程(S25),所述硬件处理器(11A)判断在所述第二帧中通过所述搜索过程(S22)所推断出的所述检测对象物的状态相对于所述第一帧的变化是否满足事先设定的判断条件;
第二控制过程(S26),在判断为所述检测对象物的状态相对于所述第一帧的变化满足所述判断条件时,所述硬件处理器(11A)控制所述搜索过程(S22)的处理,使得接所述第二帧之后的第三帧中的所述检测对象物的状态的推断处理以所述被保存的图像区域的位置为基准而进行;以及
第三控制过程(S27),在判断为所述检测对象物的状态相对于所述第一帧的变化不满足所述判断条件时,所述硬件处理器(11A)删除保存于所述存储器(7)的所述图像区域的位置,并控制所述搜索过程(S22),使得接所述第二帧之后的第三帧中的所述搜索过程的处理从所述图像区域的检测处理开始进行。
Claims (3)
1.一种图像解析装置,包括:
搜索部,以帧为单位从按时序输入的图像检测包含检测对象物的图像区域,并基于该检测出的图像区域进行推断所述检测对象物的状态的处理;
可靠度检测部,检测表示由所述搜索部推断出的所述检测对象物的状态的似然性的可靠度;以及
搜索控制部,基于由所述可靠度检测部检测出的可靠度来控制所述搜索部的处理,
所述搜索部以人的脸部作为所述检测对象物,并分别推断表示该人的脸部的状态的对应于构成所述人的脸部的多个器官而事先设定的多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向,
所述搜索控制部包括:
第一判断部,判断在所述图像的第一帧中由所述可靠度检测部检测出的可靠度是否满足事先设定的可靠度条件;
第一控制部,当判断为在所述第一帧中检测出的可靠度满足所述可靠度条件时,所述第一控制部设定跟踪模式,并且,将在所述第一帧中由所述搜索部检测出的图像区域的位置保存到存储器,并控制所述搜索部,使得接所述第一帧之后的第二帧中的所述人的脸部的状态的推断处理以被保存的所述图像区域的位置为基准而进行;
第二判断部,在设定有所述跟踪模式的状态下,判断在所述第二帧中,由所述搜索部推断出的所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化是否分别满足事先设定的判断条件;
第二控制部,当判断为所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化全部满足所述判断条件时,所述第二控制部继续所述跟踪模式,并控制所述搜索部,使得接所述第二帧之后的第三帧中的所述人的脸部的状态的推断处理以被保存的所述图像区域的位置为基准而进行;以及
第三控制部,当判断为所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化不全部满足所述判断条件时,所述第三控制部删除保存于所述存储器的所述图像区域的位置,并控制所述搜索部的处理,使得接所述第二帧之后的第三帧中的所述搜索部的处理从所述图像区域的检测处理开始进行。
2.一种图像解析方法,由基于按时序输入的图像推断检测对象物的状态的装置执行,所述图像解析方法包括:
搜索过程,以帧为单位从所述按时序输入的图像检测包含作为所述检测对象物的人的脸部的图像区域,并基于该检测出的图像区域进行分别推断表示所述人的脸部的状态的对应于构成所述人的脸部的多个器官而事先设定的多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向的处理;
可靠度检测过程,检测表示通过所述搜索过程推断出的所述人的脸部的状态的似然性的可靠度;
第一判断过程,判断在所述图像的第一帧中通过所述可靠度检测过程检测出的可靠度是否满足事先设定的可靠度条件;
第一控制过程,在判断为在所述第一帧中检测出的可靠度满足所述可靠度条件时,设定跟踪模式,并且,将在所述第一帧中通过所述搜索过程检测出的图像区域的位置保存于存储器,并控制所述搜索过程的处理,使得接所述第一帧之后的第二帧中的所述人的脸部的状态的推断以被保存的所述图像区域的位置为基准而进行;
第二判断过程,在设定有所述跟踪模式的状态下,判断在所述第二帧中通过所述搜索过程推断出的所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化是否分别满足事先设定的判断条件;
第二控制过程,在判断为所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化全部满足所述判断条件时,继续所述跟踪模式,并控制所述搜索过程的处理,使得接所述第二帧之后的第三帧中的所述人的脸部的状态的推断处理以被保存的所述图像区域的位置为基准而进行;以及
第三控制过程,在判断为所述人的脸部的所述多个特征点的位置、所述人的脸部的朝向以及所述人的脸部的视线方向相对于所述第一帧的变化不全部满足所述判断条件时,删除保存于所述存储器的所述图像区域的位置,并控制所述搜索过程,使得接所述第二帧之后的第三帧中的所述搜索过程的处理从所述图像区域的检测处理开始进行。
3.一种记录介质,存储有使权利要求1所述的图像解析装置包括的硬件处理器执行所述图像解析装置所包括的各部的处理的程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018077885A JP6973258B2 (ja) | 2018-04-13 | 2018-04-13 | 画像解析装置、方法およびプログラム |
JP2018-077885 | 2018-04-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378181A CN110378181A (zh) | 2019-10-25 |
CN110378181B true CN110378181B (zh) | 2023-06-02 |
Family
ID=68053176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910179600.1A Active CN110378181B (zh) | 2018-04-13 | 2019-03-11 | 图像解析装置、图像解析方法及记录介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190318151A1 (zh) |
JP (1) | JP6973258B2 (zh) |
CN (1) | CN110378181B (zh) |
DE (1) | DE102019106277A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11100615B2 (en) * | 2018-06-15 | 2021-08-24 | Casio Computer Co., Ltd. | Image processing device, image processing method, and image processing program |
CN111460871B (zh) * | 2019-01-18 | 2023-12-22 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、存储介质 |
CN111104846B (zh) * | 2019-10-16 | 2022-08-30 | 平安科技(深圳)有限公司 | 数据检测方法、装置、计算机设备和存储介质 |
US11023730B1 (en) * | 2020-01-02 | 2021-06-01 | International Business Machines Corporation | Fine-grained visual recognition in mobile augmented reality |
WO2021210041A1 (ja) * | 2020-04-13 | 2021-10-21 | 三菱電機株式会社 | 顔検出装置および顔検出方法 |
JP2022077282A (ja) * | 2020-11-11 | 2022-05-23 | 株式会社コムテック | 警報システム |
JP7081844B2 (ja) * | 2020-11-11 | 2022-06-07 | 株式会社コムテック | 検出システム |
CN112541434B (zh) * | 2020-12-14 | 2022-04-12 | 无锡锡商银行股份有限公司 | 一种基于中心点跟踪模型的人脸识别方法 |
CN112668553B (zh) * | 2021-01-18 | 2022-05-13 | 东莞先知大数据有限公司 | 一种司机间断瞭望行为检测方法、装置、介质及设备 |
CN112837340B (zh) * | 2021-02-05 | 2023-09-29 | Oppo广东移动通信有限公司 | 属性的跟踪方法、装置、电子设备以及存储介质 |
US11967138B2 (en) * | 2021-03-03 | 2024-04-23 | Nec Corporation | Processing apparatus, information processing method and recording medium |
WO2023233564A1 (ja) | 2022-06-01 | 2023-12-07 | 三菱電機株式会社 | ヘッドランプ制御装置およびヘッドランプ制御方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194236A (zh) * | 2010-03-15 | 2011-09-21 | 欧姆龙株式会社 | 对象物追踪装置、对象物追踪方法及控制程序 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6545706B1 (en) * | 1999-07-30 | 2003-04-08 | Electric Planet, Inc. | System, method and article of manufacture for tracking a head of a camera-generated image of a person |
CA2359269A1 (en) * | 2001-10-17 | 2003-04-17 | Biodentity Systems Corporation | Face imaging system for recordal and automated identity confirmation |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
JP4093273B2 (ja) | 2006-03-13 | 2008-06-04 | オムロン株式会社 | 特徴点検出装置、特徴点検出方法および特徴点検出プログラム |
JP4939968B2 (ja) * | 2007-02-15 | 2012-05-30 | 株式会社日立製作所 | 監視画像処理方法、監視システム及び監視画像処理プログラム |
JP4789825B2 (ja) * | 2007-02-20 | 2011-10-12 | キヤノン株式会社 | 撮像装置及びその制御方法 |
US8139817B2 (en) * | 2007-04-27 | 2012-03-20 | Telewatch Inc. | Face image log creation |
JP4863937B2 (ja) * | 2007-06-25 | 2012-01-25 | 株式会社ソニー・コンピュータエンタテインメント | 符号化処理装置および符号化処理方法 |
US20090290791A1 (en) * | 2008-05-20 | 2009-11-26 | Holub Alex David | Automatic tracking of people and bodies in video |
TWI401963B (zh) * | 2009-06-25 | 2013-07-11 | Pixart Imaging Inc | Dynamic image compression method for face detection |
EP2712541B1 (en) * | 2012-09-27 | 2015-12-30 | SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH | Tiled image based scanning for head and/or eye position for eye tracking |
EP2790126B1 (en) * | 2013-04-08 | 2016-06-01 | Cogisen SRL | Method for gaze tracking |
US9892315B2 (en) * | 2013-05-10 | 2018-02-13 | Sension, Inc. | Systems and methods for detection of behavior correlated with outside distractions in examinations |
CN104036250B (zh) * | 2014-06-16 | 2017-11-10 | 上海大学 | 视频行人检测与跟踪方法 |
JP2016009453A (ja) * | 2014-06-26 | 2016-01-18 | オムロン株式会社 | 顔認証装置および顔認証方法 |
US9442564B1 (en) * | 2015-02-12 | 2016-09-13 | Amazon Technologies, Inc. | Motion sensor-based head location estimation and updating |
JP6604019B2 (ja) * | 2015-04-14 | 2019-11-13 | ソニー株式会社 | 画像処理装置、画像処理方法、および画像処理システム |
JP2018077885A (ja) | 2017-11-29 | 2018-05-17 | 利仁 曽根 | ショッピングカート投入ボタン方法 |
-
2018
- 2018-04-13 JP JP2018077885A patent/JP6973258B2/ja active Active
-
2019
- 2019-03-11 CN CN201910179600.1A patent/CN110378181B/zh active Active
- 2019-03-12 DE DE102019106277.2A patent/DE102019106277A1/de active Pending
- 2019-03-20 US US16/358,765 patent/US20190318151A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194236A (zh) * | 2010-03-15 | 2011-09-21 | 欧姆龙株式会社 | 对象物追踪装置、对象物追踪方法及控制程序 |
Also Published As
Publication number | Publication date |
---|---|
JP6973258B2 (ja) | 2021-11-24 |
CN110378181A (zh) | 2019-10-25 |
US20190318151A1 (en) | 2019-10-17 |
JP2019185557A (ja) | 2019-10-24 |
DE102019106277A1 (de) | 2019-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378181B (zh) | 图像解析装置、图像解析方法及记录介质 | |
JP4093273B2 (ja) | 特徴点検出装置、特徴点検出方法および特徴点検出プログラム | |
JP4501937B2 (ja) | 顔特徴点検出装置、特徴点検出装置 | |
CN110378182B (zh) | 图像解析装置、图像解析方法及记录介质 | |
JP4728432B2 (ja) | 顔姿勢推定装置、顔姿勢推定方法、及び、顔姿勢推定プログラム | |
JP6695503B2 (ja) | 車両の運転者の状態を監視するための方法及びシステム | |
US11030455B2 (en) | Pose recognition method, device and system for an object of interest to human eyes | |
US11068704B2 (en) | Head pose and distraction estimation | |
CN108958473A (zh) | 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体 | |
JP2003015816A (ja) | ステレオカメラを使用した顔・視線認識装置 | |
EP3506149A1 (en) | Method, system and computer program product for eye gaze direction estimation | |
JP2013156680A (ja) | フェーストラッキング方法、フェーストラッカおよび車両 | |
CN110378183B (zh) | 图像解析装置、图像解析方法及记录介质 | |
US10902628B1 (en) | Method for estimating user eye orientation using a system-independent learned mapping | |
JP3822482B2 (ja) | 顔向き計算方法及びその装置 | |
CN114022514A (zh) | 一种融合头部姿态和眼球跟踪的实时视线推断方法 | |
JP2006215743A (ja) | 画像処理装置及び画像処理方法 | |
JP4185433B2 (ja) | リアルタイムの物体検出及び認識システム並びにコンピュータで実行可能なプログラム | |
Afroze et al. | Detection of human’s focus of attention using head pose | |
Saeijs et al. | Dual-camera 3D head tracking for clinical infant monitoring | |
Unzueta et al. | Efficient deformable 3D face model fitting to monocular images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |