CN116246255A - 手区域检测装置、手区域检测方法以及手区域检测用计算机程序 - Google Patents

手区域检测装置、手区域检测方法以及手区域检测用计算机程序 Download PDF

Info

Publication number
CN116246255A
CN116246255A CN202211521254.9A CN202211521254A CN116246255A CN 116246255 A CN116246255 A CN 116246255A CN 202211521254 A CN202211521254 A CN 202211521254A CN 116246255 A CN116246255 A CN 116246255A
Authority
CN
China
Prior art keywords
hand
image
hand region
region detection
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211521254.9A
Other languages
English (en)
Inventor
山崎将幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN116246255A publication Critical patent/CN116246255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及手区域检测装置、手区域检测方法以及手区域检测用计算机程序。手区域检测装置具有:确信度计算部,针对成为对象的图像的每个像素计算表示手被示出的概率的确信度;溢出判定部,关于图像的端部中的各预定点判定在该预定点手从图像溢出的概率;阈值设定部,对于手从图像溢出的概率越高的预定点将手区域检测阈值设定得越低且将关于图像的各像素的手区域检测阈值设定为通过根据从该像素至多个预定点的各个预定点的距离对多个预定点的各个预定点的手区域检测阈值进行加权平均而计算出的值;以及检测部,将图像的各像素中的关于该像素的确信度比关于该像素设定的手区域检测阈值高的像素的集合检测为手被示出的手区域。

Description

手区域检测装置、手区域检测方法以及手区域检测用计算机 程序
技术领域
本发明涉及在图像中检测手被示出的手区域的手区域检测装置、手区域检测方法以及手区域检测用计算机程序。
背景技术
正在研究从使用驾驶员监视照相机或者Web照相机等照相机连续地拍摄成为拍摄对象的人物的脸而得到的时间序列的一连串的图像中检测该人物的脸从而监视该人物的技术。但是,根据该人物的手的位置,有时在照相机的拍摄范围内不仅映入该人物的脸而且还映入手。因此,提出了检测映入通过照相机生成的图像上的手(参照日本特开2013-164663号公报)。
日本特开2013-164663号公报公开的走神(looking-aside)判定装置连续拍摄驾驶者的脸而取得拍摄图像,之后,使用取得的拍摄图像来检测驾驶者的脸所朝向的方向,根据其检测结果判定驾驶者是否走神。进而,该走神判定装置在取得的拍摄图像中映入驾驶者的手的情况下,使用该拍摄图像来检测驾驶者的手的形状。
发明内容
在成为拍摄对象的人物的手与该人物的脸一起映入的情况下,由于手位于比脸更接近照相机的位置,所以有时在图像上手被较大地映入。因此,根据情况,有时手从图像的某一个端部溢出,并未手的整体映入图像。在这样的情况下,有时难以正确地检测手区域。
因此,本发明的目的在于提供一种能够在图像上高精度地检测手被示出的手区域的手区域检测装置。
根据一个实施方式,提供手区域检测装置。该手区域检测装置具有:确信度计算部,通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对图像的每个像素计算确信度;溢出判定部,关于图像的端部中的多个预定点的各个预定点,判定在该预定点处手从图像溢出的概率;阈值设定部,对于多个预定点中的、手从图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于图像的各像素的手区域检测阈值设定为通过根据从该像素至多个预定点的各个预定点的距离对多个预定点的各个预定点的手区域检测阈值进行加权平均而计算出的值;以及检测部,将图像的各像素中的关于该像素的确信度比关于该像素设定的手区域检测阈值高的像素的集合检测为手被示出的手区域。
在该手区域检测装置中,优选溢出判定部通过向以计算多个预定点的各个预定点处的手从图像溢出的概率的方式预先学习的溢出识别器输入图像,计算多个预定点的各个预定点处的该概率。
或者,在该手区域检测装置中,优选溢出判定部从在最近的预定期间中得到的时间序列的一连串的过去图像的各个过去图像中的手区域,预测上述的图像中的手区域的位置,使多个预定点中的、包含于预测的手区域的预定点处的手从图像溢出的概率高于未包含于预测的手区域的预定点处的概率。
根据其他实施方式,提供手区域检测方法。该手区域检测方法包括:通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对图像的每个像素计算确信度;关于图像的端部中的多个预定点的各个预定点,判定在该预定点处手从图像溢出的概率;对于多个预定点中的、手从图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于图像的各像素的手区域检测阈值设定为通过根据从该像素至多个预定点的各个预定点的距离对多个预定点的各个预定点的手区域检测阈值进行加权平均而计算出的值;以及将图像的各像素中的关于该像素的确信度比关于该像素设定的手区域检测阈值高的像素的集合检测为手被示出的手区域。
根据进一步其他实施方式,提供手区域检测用计算机程序。该手区域检测用计算机程序包括用于使计算机执行如下处理的命令:通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对图像的每个像素计算确信度;关于图像的端部中的多个预定点的各个预定点,判定在该预定点处手从图像溢出的概率;对于多个预定点中的、手从图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于图像的各像素的手区域检测阈值设定为通过根据从该像素至多个预定点的各个预定点的距离对多个预定点的各个预定点的手区域检测阈值进行加权平均而计算出的值;以及将图像的各像素中的关于该像素的确信度比关于该像素设定的手区域检测阈值高的像素的集合检测为手被示出的手区域。
本公开所涉及的手区域检测装置起到能够在图像上高精度地检测手被示出的手区域这样的效果。
附图说明
图1是安装手区域检测装置的车辆控制系统的概略结构图。
图2是作为手区域检测装置的一个实施方式的电子控制装置的硬件结构图。
图3是与包括手区域检测处理的驾驶员监视处理有关的、电子控制装置的处理器的功能框图。
图4是示出设定于脸图像的各预定点的一个例子的图。
图5A是示出手被示出的图像的一个例子的图。
图5B是示出针对图5A所示的图像的各像素设定的手区域检测阈值的一个例子的图。
图6是包括手区域检测处理的驾驶员监视处理的动作流程图。
具体实施方式
以下,参照附图说明手区域检测装置、以及在手区域检测装置上执行的手区域检测方法以及手区域检测用计算机程序。该手区域检测装置在成为拍摄对象的人物的手被示出的图像中,针对每个像素,计算表示在该像素中手被示出的概率的确信度,将该确信度比手区域检测阈值高的像素的集合检测为手被示出的手区域。但是,在手的一部分从图像溢出了时,在手溢出的图像端的附近的像素中,丧失手的轮廓这样的表示手样貌的特征。因此,难以高精度地检测手区域。因此,该手区域检测装置关于在图像端设定的多个预定点的各个预定点,计算在该预定点处手从图像溢出的概率,该概率高的预定点,将手区域检测阈值设定得越低。进而,该手区域检测装置将关于图像的各像素的手区域检测阈值设定为通过根据从像素至各预定点的距离对各预定点的手区域检测阈值进行加权平均而计算的值。
以下,说明将手区域检测装置应用于根据通过连续地拍摄车辆的驾驶员的脸而得到的时间序列的一连串的图像监视驾驶员的驾驶员监视装置的例子。该驾驶员监视装置从通过以拍摄驾驶员的头部的方式设置的驾驶员监视照相机生成的图像,检测驾驶员的脸被示出的脸区域,根据其检测结果判定驾驶员的状态。但是,设为该驾驶员监视装置在通过上述手区域检测处理从图像检测出手区域、驾驶员的脸的至少一部分被手区域遮住了时不判定驾驶员的状态。
图1是安装手区域检测装置的车辆控制系统的概略结构图。另外,图2是作为手区域检测装置的一个实施方式的电子控制装置的硬件结构图。在本实施方式中,搭载于车辆10并且控制车辆10的车辆控制系统1具有驾驶员监视照相机2、用户接口3、以及作为手区域检测装置的一个例子的电子控制装置(ECU)4。驾驶员监视照相机2以及用户接口3和ECU4经由依照控制器局域网这样的规格的车内网络可通信地连接。此外,车辆控制系统1也可以还具有用于对车辆10的自己位置进行测位的GPS接收机(未图示)。另外,车辆控制系统1也可以还具有用于拍摄车辆10的周围的照相机(未图示)、或者、激光雷达(LiDAR)或者雷达这样的测定从车辆10至存在于车辆10的周围的物体的距离的距离传感器(未图示)的至少任意一个。进而另外,车辆控制系统1也可以具有用于与其他设备进行无线通信的无线通信终端(未图示)。进而另外,车辆控制系统1也可以具有用于搜索车辆10的行驶路线的导航装置(未图示)。
驾驶员监视照相机2是照相机或者车内摄像部的一个例子,具有CCD或者C-MOS等由对可见光或者红外光具有灵敏度的光电变换元件的阵列构成的二维检测器、和在该二维检测器上使成为拍摄对象的区域的图像成像的成像光学系统。驾驶员监视照相机2也可以还具有红外LED这样的用于照明驾驶者的光源。而且,驾驶员监视照相机2以使坐在车辆10的驾驶席的驾驶员的头部包含于其拍摄对象区域的方式、即以能够拍摄驾驶员的头部的方式,例如,在仪表板或者其附近朝向驾驶员安装。而且,驾驶员监视照相机2按照预定的拍摄周期(例如1/30秒~1/10秒)拍摄驾驶员的头部,生成驾驶员的脸被示出的图像(以下,为了便于说明,称为脸图像)。通过驾驶员监视照相机2得到的脸图像既可以是彩色图像、或者、也可以是灰色图像。驾驶员监视照相机2每当生成脸图像时,将该生成的脸图像经由车内网络输出给ECU4。
用户接口3是通知部的一个例子,例如具有液晶显示器或者有机EL显示器这样的显示装置。用户接口3在车辆10的车室内例如仪表板上朝向驾驶员设置。而且,用户接口3通过显示从ECU4经由车内网络接收到的各种信息,将该信息通知给驾驶员。用户接口3也可以还具有设置于车室内的扬声器。在该情况下,用户接口3通过将从ECU4经由车内网络接收到的各种信息作为声音信号输出,将该信息通知给驾驶员。进而,用户接口3也可以具有设置于仪表板内或者其附近的光源、或者、设置于方向盘或者驾驶员座椅的振动设备。在该情况下,用户接口3通过根据从ECU4经由车内网络接收到的信息,使光源点亮或者闪烁或者使振动设备振动,对驾驶员通知该信息。
ECU4根据脸图像检测驾驶员的脸的朝向,根据该脸的朝向判定驾驶员的状态。而且,ECU4在驾驶员的状态是驾驶员左顾右盼这样的不适合驾驶的状态的情况下,经由用户接口3警告驾驶员。
如图2所示,ECU4具有通信接口21、存储器22、以及处理器23。通信接口21、存储器22以及处理器23既可以分别构成为独立的电路、或者、也可以一体地构成为一个集成电路。
通信接口21具有用于将ECU4连接到车内网络的接口电路。而且,通信接口21每当从驾驶员监视照相机2接收到脸图像时,将接收到的脸图像送给处理器23。另外,通信接口21在从处理器23接受到使用户接口3显示的信息时,将该信息输出给用户接口3。
存储器22是存储部的一个例子,例如具有易失性的半导体存储器以及非易失性的半导体存储器。而且,存储器22存储在由ECU4的处理器23执行的包括手区域检测处理的驾驶员监视处理中使用的各种算法以及各种数据。例如,存储器22存储用于规定在表示手被示出的概率(probability)的确信度的计算中使用的识别器的参数组。同样地,存储器22存储用于规定在表示手从脸图像溢出的概率的溢出度的计算中使用的识别器的参数组。进而,存储器22存储表示溢出度和手区域检测阈值的关系的参照表格等。进而,存储器22临时地存储从驾驶员监视照相机2接受的脸图像、以及在驾驶员监视处理的途中生成的各种数据。
处理器23具有1个或者多个CPU(Central Processing Unit,中央处理单元)及其外围电路。处理器23也可以还具有逻辑运算单元、数值运算单元或者图形处理单元这样的其他运算电路。而且,处理器23按照预定的周期,针对ECU4从驾驶员监视照相机2接受的最新的脸图像,执行包括手区域检测处理的驾驶员监视处理。
图3是与包括手区域检测处理的驾驶员监视处理有关的、处理器23的功能框图。处理器23具有确信度计算部31、溢出判定部32、阈值设定部33、手区域检测部34、脸检测部35、以及状态判定部36。处理器23具有的这些各部分例如是通过在处理器23上动作的计算机程序实现的功能模块。或者,处理器23具有的这些各部分也可以是设置于处理器23的专用的运算电路。此外,处理器23具有的这些各部分中的、确信度计算部31、溢出判定部32、阈值设定部33以及手区域检测部34与手区域检测处理关联。
确信度计算部31针对脸图像的每个像素,计算表示手被示出的概率的确信度。在本实施方式中,确信度计算部31通过向以关于脸图像的各像素计算确信度的方式预先学习的识别器输入脸图像,针对每个像素计算确信度。
在确信度计算部31中,作为这样的识别器,例如能够使用全卷积网络(FullyConvolutional Network)、U-Net、或者、SegNet这样的、语义分割用的深度神经网络(DNN)。或者,在确信度计算部31中,也可以作为这样的识别器,利用依照随机森林这样的其他分割手法的识别器。识别器通过与该识别器对应的学习手法、例如误差逆传播法,使用手被示出的大量的教师图像预先学习。
确信度计算部31将脸图像的每个像素的确信度通知给手区域检测部34。
溢出判定部32关于脸图像的图像端中的多个预定点的各个预定点,判定在该预定点手从脸图像溢出的概率。在本实施方式中,溢出判定部32通过向以在各预定点计算表示手从脸图像溢出的概率的溢出度的方式预先学习的溢出识别器输入脸图像,针对每个预定点计算溢出度。
预定点例如设定于脸图像的上下左右各个边的中点。或者,预定点也可以关于脸图像的上下左右各个边,设定于将该边3~5等分的位置。或者另外,预定点也可以设定于脸图像的4个角的各个角。
图4是示出设定于脸图像的各预定点的一个例子的图。在本实施方式中,如图4所示,在脸图像400的各角以及各边的中点设定预定点401。即,在本实施方式中,针对脸图像400设定8个预定点401。
计算各预定点处的溢出度的溢出识别器构成为将每个预定点的溢出度作为0~1之间的任意一个值而输出。或者,溢出识别器也可以构成为作为每个预定点的溢出度而输出表示未溢出的值(例如0)或者表示溢出的值(例如1)中的某一个值。
在溢出判定部32中,作为溢出识别器,例如能够使用具有卷积神经网络型(CNN)的架构的DNN。在该情况下,在1个以上的卷积层的下游侧,设置用于计算各预定点处的溢出度的输出层。而且,输出层针对利用各卷积层计算的特征映射,按照每个预定点执行sigmoid运算,从而针对每个预定点计算溢出度。或者,在溢出判定部32中,也可以作为溢出识别器,利用依照支持向量回归这样的其他机器学习手法的识别器。溢出识别器是通过与该溢出识别器对应的学习手法、例如误差逆传播法,使用手被示出并且手的一部分溢出的大量的教师图像预先学习的。
溢出判定部32将关于各预定点计算的溢出度通知给阈值设定部33。
阈值设定部33关于脸图像的各像素,设定手区域检测阈值。在本实施方式中,阈值设定部33首先关于脸图像的各预定点,该预定点处的溢出度越高,使手区域检测阈值越低。由此,驾驶员的手溢出的可能性越高,手区域检测阈值被设定得越低,所以即使驾驶员的手从脸图像溢出,也能够高精度地检测手区域。
阈值设定部33依照表示溢出度和手区域检测阈值的关系的关系式,关于各预定点,设定与该预定点处的溢出度对应的手区域检测阈值。或者,阈值设定部33也可以通过参照表示溢出度和手区域检测阈值的关系的参照表格,关于各预定点,设定与该预定点处的溢出度对应的手区域检测阈值。
进而,阈值设定部33关于脸图像的各预定点以外的各像素,根据从该像素至各预定点的距离对各预定点的手区域检测阈值进行加权平均,从而设定关于该像素的手区域检测阈值。此时,在阈值设定部33中,越是接近关注的像素的预定点,越增大针对关于该预定点的手区域检测阈值的权重即可。另外,阈值设定部33也可以将针对比预定距离远的预定点的权重系数设定为0。因此,越是接近手从脸图像溢出的位置的像素,设定的手区域检测阈值变得越低。
图5A是示出手被示出的图像的一个例子的图,图5B是示出针对图5A所示的图像的各像素设定的手区域检测阈值的一个例子的图。关于图5B所示的阈值图像510的各像素,越暗则表示对图5A所示的图像500的对应位置的像素设定的手区域检测阈值越低。在图5A所示的例子中,在图像500中示出的手501在图像500的左端以及上端的大部分、以及右端的一部分中从图像500溢出。因此,如图5B的阈值图像510所示,越是接近图像500的上端或者左端的位置的像素,手区域检测阈值被设定得越低。相反地,越是接近图像500的右下角的位置的像素,手区域检测阈值被设定得越高。
阈值设定部33将脸图像的每个像素的手区域检测阈值通知给手区域检测部34。
手区域检测部34是检测部的一个例子,针对脸图像的每个像素,将关于该像素计算的确信度与关于该像素设定的手区域检测阈值比较。而且,手区域检测部34选择确信度比手区域检测阈值高的像素,将选择的像素的集合检测为驾驶员的手被示出的手区域。
手区域检测部34将表示检测的手区域的信息(例如具有与脸图像相同的尺寸,在手区域内的像素和手区域外的像素中具有不同的值的2值图像)通知给脸检测部35以及状态判定部36。
脸检测部35从脸图像检测驾驶员的脸被示出的脸区域。例如,脸检测部35例如通过将脸图像输入给以从图像检测驾驶员的脸的方式预先学习的识别器来检测脸区域。在脸检测部35中,作为这样的识别器,例如能够使用单步多框目标检测(Single Shot MultiBoxDetector(SSD))、或者、Faster R-CNN这样的、具有CNN型的架构的DNN。或者,在脸检测部35中,也可以作为这样的识别器,利用AdaBoost识别器。在该情况下,脸检测部35对脸图像设定窗口,根据该窗口计算Haar-like特征量这样的、在有无脸的判定中有用的特征量。而且,脸检测部35通过将计算的特征量输入给识别器,判定在该窗口中是否示出驾驶员的脸。脸检测部35在各种各样地改变脸图像上的窗口的位置、尺寸、长宽比以及朝向等的同时进行上述处理,将检测到驾驶员的脸的窗口设为脸区域即可。此外,脸检测部35也可以在手区域以外设定窗口。识别器是使用包括脸被示出的图像以及脸未被示出的图像的教师数据依照与对该识别器应用的机器学习手法对应的预定的学习手法预先学习的。另外,脸检测部35也可以依照从图像检测脸区域的其他手法,从脸图像检测脸区域。
进而,脸检测部35从检测的脸区域,针对脸的各个器官的每一个,检测该器官的多个特征点。
脸检测部35为了检测脸的各个器官的多个特征点,对脸区域应用以检测该特征点的方式设计的检测器,从而能够检测各个器官的特征点。在脸检测部35中,作为这样的检测器,例如能够利用主动形状模型(Active Shape Model(ASM))或者主动外观模型(ActiveAppearance Model(AAM))这样的利用脸整体的信息的检测器。或者,脸检测部35也可以将以检测脸的各个器官的特征点的方式预先学习的DNN用作检测器。
脸检测部35将表示从脸图像检测的脸区域的信息(例如脸图像上的脸区域的左上端坐标、水平方向的宽度以及垂直方向的高度)以及脸的各个器官的特征点的位置通知给状态判定部36。
状态判定部36根据脸区域以及脸的各器官的特征点,判定驾驶员的状态。但是,状态判定部36在驾驶员的手遮住驾驶员的脸的至少一部分的情况下,不判定驾驶员的状态。例如,在脸图像中所占的手区域的比值是预定比值(例如3~4成)以上的情况下,状态判定部36判定为驾驶员的脸的至少一部分被驾驶员的手遮住,不判定驾驶员的状态。另外,即使在未检测到脸的任意一个器官的特征点、并且脸区域和手区域相接的情况下,状态判定部36也可以判定为驾驶员的脸的至少一部分被驾驶员的手遮住。或者,即使在手区域的面积相对脸区域的面积的比是预定比值以上的情况下,状态判定部36也可以判定为驾驶员的脸的至少一部分被驾驶员的手遮住。因此,即使在这些情况下,状态判定部36也可以不判定驾驶员的状态。而且,状态判定部36将最后判定的驾驶员的状态设为当前时间点下的驾驶员的状态。
在本实施方式中,状态判定部36通过比较在脸区域中示出的驾驶员的脸的朝向和驾驶员的脸的基准方向,判定驾驶员的状态是否为适合于车辆10的驾驶的状态。此外,脸的基准方向预先存储于存储器22。
状态判定部36使检测的脸的特征点拟合于表示脸的三维形状的三维脸模型。而且,状态判定部36将各特征点与三维脸模型最拟合时的三维脸模型的脸的朝向检测为驾驶员的脸的朝向。或者,状态判定部36也可以依照判定在图像中示出的脸的朝向的其他手法,根据脸图像检测驾驶员的脸的朝向。此外,驾驶员的脸的朝向例如用以针对驾驶员监视照相机2正对的方向为基准的、俯仰角、偏航角以及滚转角的组合来表示。
状态判定部36计算在脸区域中示出的驾驶员的脸的朝向和驾驶员的脸的基准方向的差的绝对值,将该差的绝对值与预定的脸朝向容许范围比较。而且,状态判定部36在该差的绝对值偏离脸朝向容许范围的情况下,判定为驾驶员在左顾右盼、即驾驶员的状态并非适合于车辆10的驾驶的状态。
此外,驾驶员为了确认车辆10的周边的状况,有时面向车辆10的正面方向以外的方向。但是,即使在这样的情况下,如果驾驶员专注于车辆10的驾驶,则驾驶员不会继续面向车辆10的正面方向以外的方向。因此根据变形例,状态判定部36也可以在驾驶员的脸的朝向和驾驶员的脸的基准方向的差的绝对值偏离脸朝向容许范围的时间持续预定时间(例如几秒钟)以上时,判定为驾驶员的状态并非适合于车辆10的驾驶的状态。
状态判定部36在判定为驾驶员的状态并非适合于车辆10的驾驶的状态的情况下,生成包括针对驾驶员以面向车辆10的正面的方式警告的警告消息的警告信息。而且,状态判定部36通过将生成的警告信息经由通信接口21输出给用户接口3,使用户接口3显示该警告消息或者警告用的图标。或者,状态判定部36使用户接口3具有的扬声器输出针对驾驶员以面向车辆10的正面的方式警告的声音。或者另外,状态判定部36使用户接口3具有的光源点亮或者闪烁、或者、使用户接口3具有的振动设备振动。
图6是由处理器23执行的、包括手区域检测处理的驾驶员监视处理的动作流程图。处理器23依照以下的动作流程图,按照预定的周期执行驾驶员监视处理即可。此外,以下所示的动作流程图中的、步骤S101~S105的处理与手区域检测处理相当。
处理器23的确信度计算部31针对ECU4从驾驶员监视照相机2接受的最新的脸图像的每个像素,计算表示手被示出的概率的确信度(步骤S101)。另外,处理器23的溢出判定部32关于脸图像的图像端中的多个预定点的各个预定点,计算表示在该预定点处手从脸图像溢出的概率的溢出度(步骤S102)。
处理器23的阈值设定部33关于脸图像的各预定点,该预定点处的溢出度越高,将手区域检测阈值设定为越低的值(步骤S103)。进而,阈值设定部33关于脸图像的各预定点以外的各像素,根据从该像素至各预定点的距离对各预定点的手区域检测阈值进行加权平均,从而设定关于该像素的手区域检测阈值(步骤S104)。
处理器23的手区域检测部34选择脸图像的各像素中的、确信度比手区域检测阈值高的像素,将选择的像素的集合检测为驾驶员的手被示出的手区域(步骤S105)。
处理器23的脸检测部35从脸图像检测驾驶员的脸被示出的脸区域,并且检测脸的各器官的特征点(步骤S106)。
处理器23的状态判定部36根据手区域,判定驾驶员的脸的至少一部分是否被驾驶员的手遮住(步骤S107)。在驾驶员的脸的至少一部分被驾驶员的手遮住的情况下(步骤S107-“是”),状态判定部36将最后判定的驾驶员的状态设为当前时间点下的驾驶员的状态(步骤S108)。
另一方面,在驾驶员的脸未被驾驶员的手遮住的情况下(步骤S107-“否”),状态判定部36根据脸区域以及脸的各器官的特征点,检测驾驶员的脸的朝向,判定驾驶员的状态(步骤S109)。而且,状态判定部36执行与该判定结果对应的警告处理等(步骤S110)。在步骤S110之后,处理器23结束驾驶员监视处理。
如以上说明,该手区域检测装置在设定于手被示出的图像的端部的各预定点处求出手的溢出度,各预定点中的、溢出度越高的预定点,使手区域检测阈值越低。而且,手区域检测装置针对每个像素,对与从各预定点起的距离对应的各预定点的手区域检测阈值进行加权平均,从而设定该像素的手区域检测阈值。而且,该手区域检测装置将针对每个像素计算的表示手被示出的概率的确信度比手区域检测阈值高的像素的集合检测为手区域。这样,该手区域检测装置将手溢出的可能性高的图像的端部附近处的手区域检测阈值设定得较低。因此,该手区域检测装置在丧失图像上表示的表示手样貌的特征的、手溢出的图像端附近,也能够高精度地检测手被示出的像素。作为其结果,该手区域检测装置能够从图像高精度地检测手区域。
在如上述的驾驶员监视照相机,通过连续地拍摄而得到手被示出的时间序列的一连串的图像的情况下,设想在连续的图像之间,手溢出的位置不怎么变化。因此,根据变形例,也可以使通过溢出判定部32以及阈值设定部33执行处理的执行周期比手区域检测处理的执行周期长。即,也可以仅针对连续得到的预定张数的脸图像中的任意一个,通过溢出判定部32以及阈值设定部33进行处理。而且,手区域检测部34将通过最后执行的利用溢出判定部32以及阈值设定部33的处理设定的各像素的手区域检测阈值利用于检测手区域即可。根据该变形例,手区域检测装置由于能够减少利用溢出判定部32以及阈值设定部33的处理的执行频度,所以能够抑制一定期间中的手区域检测处理所需的运算量。
根据其他变形例,在使用溢出识别器的溢出判定处理的执行周期比手区域检测处理的执行周期长的情况下,溢出判定部32也可以针对未进行使用识别器的溢出判定处理的脸图像通过预测处理执行溢出判定。例如,溢出判定部32从关于在最近的预定期间得到的一连串的过去的脸图像的各个脸图像的手区域计算光流、或者应用卡尔曼滤波器这样的预测滤波器,从而预测最新的脸图像中的手区域的位置。而且,溢出判定部32推测为在各预定点中的包含于预测的手区域的预定点处,手从脸图像溢出。另外,溢出判定部32推测为在各预定点中的未与预测的手区域重叠的预定点处,手未从脸图像溢出。溢出判定部32将推测为手从脸图像溢出的预定点处的溢出度设定得高于推测为手未溢出的预定点的溢出度。
此外,本实施方式所涉及的手区域检测装置不限于驾驶员监视装置,也可以利用于其他用途。例如,本实施方式所涉及的手区域检测装置适用于被要求从通过Web照相机或者其他监视照相机这样的拍摄成为拍摄对象的人物的脸的照相机得到的图像检测该人物的脸或者该人物的手的各种用途。或者,该手区域检测装置也可以用于根据检测的手区域检测用手作出的手势。在该情况下,手区域检测装置依照从手区域检测手势的各种手法的任意一个来检测手势即可。
另外,上述实施方式或者变形例所涉及的、实现ECU4的处理器23的功能的计算机程序也可以以记录于半导体存储器、磁记录介质或者光记录介质这样的、计算机可读取的可移动的记录介质的形式提供。
如以上所述,本领域技术人员能够在本发明的范围内,与实施的方式匹配地进行各种变更。

Claims (5)

1.一种手区域检测装置,具有:
确信度计算部,通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对所述图像的每个像素计算所述确信度;
溢出判定部,关于所述图像的端部中的多个预定点的各个预定点,判定在该预定点处手从所述图像溢出的概率;
阈值设定部,对于所述多个预定点中的、手从所述图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于所述图像的各像素的所述手区域检测阈值设定为通过根据从该像素至所述多个预定点的各个预定点的距离对所述多个预定点的各个预定点的所述手区域检测阈值进行加权平均而计算出的值;以及
检测部,将所述图像的各像素中的关于该像素的所述确信度比关于该像素设定的所述手区域检测阈值高的像素的集合检测为手被示出的手区域。
2.根据权利要求1所述的手区域检测装置,其中,
所述溢出判定部通过向以计算所述多个预定点的各个预定点处的所述概率的方式预先学习的溢出识别器输入所述图像,计算所述多个预定点的各个预定点处的所述概率。
3.根据权利要求1所述的手区域检测装置,其中,
所述溢出判定部从在最近的预定期间中得到的时间序列的一连串的过去图像的各个过去图像中的所述手区域,预测所述图像中的所述手区域的位置,使所述多个预定点中的、包含于预测的所述手区域的预定点处的所述概率高于未包含于预测的所述手区域的预定点处的所述概率。
4.一种手区域检测方法,包括:
通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对所述图像的每个像素计算所述确信度;
关于所述图像的端部中的多个预定点的各个预定点,判定在该预定点处手从所述图像溢出的概率;
对于所述多个预定点中的、手从所述图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于所述图像的各像素的所述手区域检测阈值设定为通过根据从该像素至所述多个预定点的各个预定点的距离对所述多个预定点的各个预定点的所述手区域检测阈值进行加权平均而计算出的值;以及
将所述图像的各像素中的关于该像素的所述确信度比关于该像素设定的所述手区域检测阈值高的像素的集合检测为手被示出的手区域。
5.一种手区域检测用计算机程序,用于使计算机执行:
通过向以针对每个像素计算表示手被示出的概率的确信度的方式预先学习的识别器输入图像,针对所述图像的每个像素计算所述确信度;
关于所述图像的端部中的多个预定点的各个预定点,判定在该预定点处手从所述图像溢出的概率;
对于所述多个预定点中的、手从所述图像溢出的概率越高的预定点,将手区域检测阈值设定得越低,并且将关于所述图像的各像素的所述手区域检测阈值设定为通过根据从该像素至所述多个预定点的各个预定点的距离对所述多个预定点的各个预定点的所述手区域检测阈值进行加权平均而计算出的值;以及
将所述图像的各像素中的关于该像素的所述确信度比关于该像素设定的所述手区域检测阈值高的像素的集合检测为手被示出的手区域。
CN202211521254.9A 2021-12-07 2022-11-30 手区域检测装置、手区域检测方法以及手区域检测用计算机程序 Pending CN116246255A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021198850A JP2023084580A (ja) 2021-12-07 2021-12-07 手領域検出装置、手領域検出方法及び手領域検出用コンピュータプログラム
JP2021-198850 2021-12-07

Publications (1)

Publication Number Publication Date
CN116246255A true CN116246255A (zh) 2023-06-09

Family

ID=86607835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211521254.9A Pending CN116246255A (zh) 2021-12-07 2022-11-30 手区域检测装置、手区域检测方法以及手区域检测用计算机程序

Country Status (3)

Country Link
US (1) US20230177861A1 (zh)
JP (1) JP2023084580A (zh)
CN (1) CN116246255A (zh)

Also Published As

Publication number Publication date
JP2023084580A (ja) 2023-06-19
US20230177861A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
EP3033999B1 (en) Apparatus and method for determining the state of a driver
US9073484B2 (en) Surrounding area monitoring apparatus for vehicle
US11597347B2 (en) Methods and systems for detecting whether a seat belt is used in a vehicle
US10915764B2 (en) Road surface detecting apparatus and method for detecting road surface
US11455810B2 (en) Driver attention state estimation
JP6319506B1 (ja) 評価装置、評価システム、車両、およびプログラム
JP2007310706A (ja) 車両周辺監視装置
JP2021033510A (ja) 運転支援装置
US11080562B1 (en) Key point recognition with uncertainty measurement
JP5498183B2 (ja) 行動検出装置
JP6320942B2 (ja) 重み行列学習装置、視線方向予測システム、警告システムおよび重み行列学習方法
US20230227044A1 (en) Apparatus, method, and computer program for monitoring driver
CN116246255A (zh) 手区域检测装置、手区域检测方法以及手区域检测用计算机程序
CN113879321B (zh) 驾驶员监视装置及驾驶员监视方法
CN114103961B (zh) 面部信息获取装置以及面部信息获取方法
US11919522B2 (en) Apparatus and method for determining state
US20230186506A1 (en) Object Detection Device and Object Detection Method
US20230394702A1 (en) Device, method, and computer program for estimating seat position
JP7501548B2 (ja) ドライバモニタ装置、ドライバモニタ方法及びドライバモニタ用コンピュータプログラム
US20230373508A1 (en) Monitoring device, storage medium storing computer program for monitoring, and monitoring method
JP2023012283A (ja) 顔検出装置
JP2023085085A (ja) 覚醒度判定装置
JP2023097182A (ja) ドライバ挙動判定装置、ドライバ挙動判定方法及びドライバ挙動判定用コンピュータプログラム
JP2024030017A (ja) 物体検出装置、物体検出方法、および物体検出用コンピュータプログラム
JP2023012364A (ja) 検出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination