CN107451524A - 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质 - Google Patents

行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质 Download PDF

Info

Publication number
CN107451524A
CN107451524A CN201710406027.4A CN201710406027A CN107451524A CN 107451524 A CN107451524 A CN 107451524A CN 201710406027 A CN201710406027 A CN 201710406027A CN 107451524 A CN107451524 A CN 107451524A
Authority
CN
China
Prior art keywords
characteristic quantity
precedence
vehicle
discriminator
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710406027.4A
Other languages
English (en)
Other versions
CN107451524B (zh
Inventor
山中正雄
西岛敏文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN107451524A publication Critical patent/CN107451524A/zh
Application granted granted Critical
Publication of CN107451524B publication Critical patent/CN107451524B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/20Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from infrared radiation only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/30Transforming light or analogous information into electric information
    • H04N5/33Transforming infrared radiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30268Vehicle interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质。行动识别装置具有:检测单元,根据拍摄车辆内而得到的车内图像检测所述车内图像中的车辆内的人物的、人体的多个部位的位置;特征量抽取单元,抽取位次特征量,该位次特征量是基于由所述检测单元得到的部位间的距离大小的位次的特征量;以及辨别单元,使用预先学习到的辨别器和所述特征量抽取单元抽取的位次特征量来辨别车辆内乘客的行为。辨别单元优选作为输入受理动态图像,根据各帧的辨别器的辨别结果来辨别行为。

Description

行为识别装置、学习装置、行为识别方法、学习方法及计算机 可读的记录介质
技术领域
本发明涉及车辆内乘客的行为识别技术。
背景技术
作为识别车辆内乘客的行为的手法,例如提出有如Wang等人的文献[1]所述的方法,该文献公开有以下内容:根据输入图像制作分辨率不同的多个图像(金字塔图像),从该金字塔图像高密度地检测着眼点。针对通过沿时间方向追踪多个着眼点而得到的多个轨迹的每一个轨迹抽取HOG、HOF、MBH这样的多个种类的图像特征量。将这些图像特征量在维度方向上连结,使用特征包(Bag-of-Feature)表现而变换为描述能力更高的图像特征量。最终,针对作为辨别对象的每个行为使用将所得到的图像特征量作为输入的非线性SVM(Support Vector Machine,支持向量机)生成(学习)辨别器。
另外,作为识别车辆内乘客的行为的手法,例如提出有如Goutsu等人的文献[2]所述的方法,该文献公开有以下内容:使用深度传感器检测人体部位的各时刻的位置,使用将检测位置作为输入的隐马尔科夫模型(HMM,Hidden Markov Model)抽取第一特征量。另外,通过对该第一特征量应用费舍尔核(Fisher Kernel),将第一特征量变换为描述能力更高的第二特征量(Fisher Vector,费舍尔向量)。最终,使用非线性SVM生成(学习)辨别器,该非线性SVM将针对作为辨别对象的每个行为抽取出的第二特征量作为输入。
但是,Wang等人的文献[1]存在得到的特征量庞大的缺点。原因在于从图像空间上高密度地抽取着眼点,并针对所得到的每个轨迹抽取多个种类的图像特征量的缘故。Wang等人的文献[1]存在不仅辨别器的学习处理需要长时间,而且使用该辨别器的辨别处理也需要长时间的问题。
另外,Goutsu等人的文献[2]存在如下问题:对于如姿势识别那样的识别动态图像中的人物有意的行为是有效的,另一方面,难以识别动态图像中的人物无意的危险行为等。
(1)H.Wang,A.Klaser,C.Schmid.“Dense Trajectories and Motion BoundaryDescriptors for Action Recognition”,International Journal of Computer Vision(IJCV),103,pp.60-79,2013.
(2)Y.Goutsu et al.,“Gesture recognition using hybrid generativediscriminative approach with Fisher Vector”,IEEE International Conference onRobotics and Automation(ICRA),2015.
(3)M.Schwarz et al.,RGB-D Object Recognition and Pose EstimationBased on Pre-Trained Convolutional Neural Network Features ICRA2015
(4)A.Toshev et al.,DeepPose:Human Pose Estimation via Deep NeuralNetworks,CVPr2014
(5)L.Breiman.“Random F0rests”,Machine Learning,vol.45,no.1,pp.5-32,2001.
(6)J.Weston,C.Watkins.Multi-class Support Vector Machines,TechnicalReport CSD-TR-98-04,1998.
(7)Sugiyama,M.Superfast-trainable multi-class probabilisticclassifier by least-squares posterior fitting.IEICE Transactions onInformation and Systems,vol.E93-D,no.10,pp.2690-2701,2010.
发明内容
本发明的一个方案是用于能够精度良好地识别车辆内乘客的行为的新颖和创新的方法。
本发明的第一实施方案为一种行为识别装置(behavior recognitionapparatus),其特征在于,具有:
检测单元(detection unit),根据拍摄车辆内而得到的车内图像检测所述车内图像中的车辆内的人物的、多个人体的部位(人体的部位=body part)的位置;
特征量抽取单元(feature extraction unit),抽取位次特征量,该位次特征量是基于由所述检测单元得到的部位间的距离大小的位次的特征量(feature);以及
辨别单元(discrimination unit),使用预先学习到的辨别器和所述特征量抽取单元抽取出的位次特征量来辨别车辆内乘客的行为。
车辆内的人物的部位的位置也可以还考虑与所述车内图像对应的距离图像(进深信息)来求出。另外,部位间的距离既可以是车内图像内的距离(二维距离),也可以是还考虑了进深信息的三维的距离。
本实施方案因为使用了基于人体的部位间的距离大小的位次的特征量(位次特征量),所以相对于输入图像中的人体的比例尺变动、旋转或平行移动是稳健的。因此,本实施方案能够实现抑制了座椅位置的水平移动、乘客的体格差异以及摄像机的位置或朝向等的影响的精度良好的识别。
上述辨别器也可以通过决策树学习生成。例如,能够依照随机森林算法来生成。此时,作为判定决策树的各节点处的分支的条件,也可以采用基于人体的第1部位配对间的距离大小的位次与第2部位配对间的距离大小的位次的大小关系的判定条件。上述辨别器既可以是确定输入信息是否与预先决定的多个行为的某个行为相符的辨别器,也可以是计算针对这多个行为的各个行为的似然度(概率)的辨别器。
另外,上述辨别器也可以通过除了决策树学习以外的任意的统计性的机器学习例如SVM(Support Vector Machine:支持向量机)、最小二乘概率的分类法、贝叶斯推测、神经网络等方法来生成。
车辆内乘客的行为也可以仅根据1张图像来判断,但优选根据多张图像、更详细而言根据包括多帧的动态图像来识别。在该情况下,行为识别装置能够对构成动态图像的多帧图像检测人体的部位位置、抽取位次特征量以及计算针对所述多个行为的各个行为的似然度,将所述似然度的平方和最大的行为判断为是所述车辆内乘客的行为。在此,使用似然度的平方和进行了评价,但也可以简单地使用和或积等。
本发明的第二实施方案是一种学习装置,用于学习在上述行为识别装置中使用的辨别器,所述学习装置的特征在于,具有:
输入单元,获取拍摄车辆内而得到的车内图像中的车辆内的人物的人体的多个部位的位置以及车辆内的人物所采取的正确行为;
特征量抽取单元,抽取位次特征量,该位次特征量是基于人体的部位间的距离大小的位次的特征量;以及
学习单元,根据所述特征量抽取单元抽取出的位次特征量和所述正确行为,生成用于辨别车辆内乘客的行为的辨别器。
与第一实施方案同样地,部位间的距离既可以是车内图像内的距离(二维距离),也可以是还考虑了进深信息的三维的距离。在采用三维的距离的情况下,还需要利用进深信息。此外,人体的部位的位置的检测既可以由学习装置进行,也可以是人进行。
在本实施方案中,还优选将对人体的多个部位的位置施加微小变动而得到的输入数据也用作表示同一正确行为的学习数据来学习辨别器。通过这样准备施加有噪声的学习数据,能够生成相对于人体部位的位置的推测误差稳健的辨别器。
此外,本发明能够实现为具备上述单元的至少一部分的行为识别装置或者学习装置。另外,本发明还能够实现为执行上述处理的至少一部分的行为识别方法或者学习方法。另外,本发明还能够实现为用于使计算机执行这些方法的计算机程序或者非临时地存储有该计算机程序的计算机可读存储介质。上述单元以及处理的各个能够尽可能地相互组合而构成本发明。
根据本发明,能够提高车辆内乘客的行为识别的精度。特别是能够抑制车辆内的环境的主要原因所致的变动、例如座椅位置的水平移动、乘客的体格差异、摄像机的位置或朝向、人体部位的位置的推测误差等所致的影响。
本发明的其它特征将从示例性实施例的以下描述并参考附图而进一步明确。
附图说明
图1A以及1B示出实施方式的行为识别装置1以及学习装置2的功能结构图。
图2示出学习装置2进行的学习处理的流程图。
图3示出输入到红外图像输入部11的红外图像的例子。
图4示出由人体部位检测部13检测到的检测结果的例子。
图5示出由微小变动施加部151施加的微小变动施加结果的例子。
图6A以及6B说明基于部位间的距离大小的位次的位次特征量。
图7说明决策树模型。
图8示出行为识别装置1进行的行为识别处理的流程图。
具体实施方式
[结构概要]
关于本发明的实施方式,参照附图进行说明。图1A是示出本实施方式的行为识别装置1的结构概要的框图。行为识别装置1能够用半导体集成电路(LSI)实现。在此,如图1A所示,行为识别装置1具有红外图像输入部11、进深信息输入部12、人体部位检测部13、特征量抽取部14、辨别部16。辨别部16包括:概率计算部161,从1张图像求出各个辨别对象行为的概率(似然度);以及概率累计部162,用于从多帧图像确定车辆内乘客的行为。这些结构要素分别对应于行为识别装置1所实现的功能。
图1B是示出用于生成辨别部16的概率计算部161(辨别器)的、学习装置2的结构概要的框图。学习装置2能够用半导体集成电路(LSI)实现。在此,如图1B所示,学习装置2具有红外图像输入部11、进深信息输入部12、人体部位检测部13、学习部15、正确行为输入部17。学习部15包括微小振动施加部151、特征量抽取部152、判定条件设定部153。在此,关于学习装置2所具有的功能块中的、与行为识别装置1所具有的功能块相同的功能块,附加有同一参照编号。
关于这些各功能部,在以下的学习处理以及行为识别处理的说明中一并进行说明。
[学习处理]
首先,说明学习装置2进行的学习处理。图2是示出学习处理的流程的流程图。
在步骤S10中,学习装置2获取关于正确行为已知的行为的红外图像以及进深信息(距离图像)的动态图像。从红外图像输入部11输入红外图像,从进深信息输入部12输入进深信息,从正确行为输入部17输入正确行为。
如图3所示,红外图像输入部11获取从行为识别装置1的外部输入的车辆内的红外图像(以下,称为“红外图像”),并将时刻t(t=1,2,...,T)的红外图像I(t)输出到人体部位检测部13。从设置于车辆内的红外线摄像机获取红外图像即可。此外,在本实施方式中使用了红外图像,但也可以使用可见光图像。
进深信息输入部12获取从行为识别装置1的外部输入的车辆内的进深信息(以下,称为“进深信息”),将所得到的时刻t(t=1,2,...,T)的进深信息D(t)输出到人体部位检测部13。在此,将已市售流通的立体摄像机或TOF(Time-of-Flight,飞行时间)传感器等设置于车辆内来获取进深信息D(t)即可。
对正确行为输入部17输入当前输入的红外图像以及进深信息的正确行为(正确范畴)。作为正确行为的例子,能够例举方向盘操作、后视镜的调整、控制面板的调整、座椅安全带的系上和解开、智能手机操作、饮食等。
以所输入的动态图像的各帧为对象进行包括步骤S11-S13的循环L1的处理。
在步骤S11中,人体部位检测部13根据红外图像I(t)以及进深信息D(t)检测人体的部位。
如图4那样,人体部位检测部13根据由红外图像输入部11得到的红外图像I(t)和由进深信息输入部12得到的进深信息D(t)检测车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M),输出到学习部15。
在此,xm(t)表示时刻t的第m个部位的红外图像I(t)中的水平方向坐标。另外,ym(t)表示时刻t的第m个部位的红外图像I(t)中的垂直方向坐标。另一方面,zm(t)表示时刻t的第m个部位的深度方向坐标,通过进深信息D(t)中的二维坐标(xm(t),ym(t))上的值提供。
具体而言,关于车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M),例如,如Schwarz等人的文献[3]所述,使用预先生成的、用于检测车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)的辨别器C1来检测车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)即可。能够使用被赋予有车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)和深度方向坐标zm(t)(m=1,2,...,M)的大量的学习用数据来生成辨别器C1
或者,关于车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M),也可以如Toshev等人的文献[4]那样,使用预先生成的、用于检测车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)的辨别器C2来检测车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)。能够使用被赋予有车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)的大量的学习用数据来生成辨别器C2
在步骤S12中,学习部15的微小变动施加部151对通过人体部位检测部13得到的车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)施加微小变动,制作相似(similar)的K个学习用数据Dk(t)(k=1,2,...,K)。在施加微小变动之后,正确行为也与输入到正确行为输入部17的正确行为相同。
如图5那样,微小变动施加部151对由人体部位检测部13得到的车辆内乘客的M个部位的二维坐标(xm(t),ym(t))(m=1,2,...,M)施加微小的变动(Δxm,k(t),Δym,k(t))(m=1,2,...,M,k=1,2,...,K),从而制作相似的K个学习用数据Dk(t)(k=1,2,...,K),并输出到特征量抽取部152。
在此,Δxm,k(t)表示第m个部位的水平方向的微小的变动,其大小通过预先决定的最大值Δxmax以下的随机值来提供,针对每个k(=1,2,...,K)而值不同。另外,Δym,k(t)表示第m个部位的垂直方向的微小的变动,其大小通过预先决定的最大值Δymax以下的随机值来提供,针对k(=1,2,...,K)而值不同。进而,最大值Δxmax和Δymax是分别通过反复试验而确定的。
在步骤S13中,特征量抽取部152根据K个学习用数据Dk(t)(k=1,2,...,K)抽取K个位次特征量Fk(t)(k=1,2,...,K)。具体而言,使用下式(1)来抽取位次特征量F(t)。
F(t)=(R(D(1,2)),R(D(1,3)),…,R(D(8,9)),R(D(9,10)))…(1)
在此,在式(1)中,D(m,n)表示第m个部位与第n个部位的红外图像空间上的欧式距离,R(D(m,n))表示按照降序对D(1,2)、D(1,3)、…、D(8,9)、D(9,10)排序时的D(m,n)的位次。例如,如图6(a)所示,为方便起见考虑4个部位,设为全部部位的对间的距离D(t)通过D(t)=(D(1,2),D(1,3),D(1,4),D(2,3),D(2,4),D(3,4))=(5.5,2.6,2.8,3.5,4.3,4.0)来提供。于是,时刻t的位次特征量F(t)能够抽取为F(t)=(1,5,6,4,3,2)。
位次特征量F(t)具有相对于图6B所示的人体部位的位置的比例尺变动而位次特征量F(t)不变、并且相对于微小变动稳健的特性。也就是说,因为位次特征量F(t)仅依赖于人体部位间的距离的位次,所以即使发生扩大或缩小这样的比例尺变动,位次特征量F(t)也不变。另外,即使人体部位的位置发生微小变动,只要该变动不影响它们的位次,则位次特征量F(t)也不变。根据这样的特性,能够抑制在推测车辆内乘客的行为时发生的各种各样的变动例如座椅位置的水平移动、乘客的体格差异、摄像机的位置或朝向、基于深度学习的人体部位的位置的推测误差等所致的影响。
通过以上的步骤S11-S13的处理,关于1帧量的图像制作多个学习数据Dk(t),关于各个学习数据Dk(t)确定位次特征量F(t)。然后,通过重复进行循环L1而对所输入的动态图像的各帧执行该处理。
在步骤S14中,学习部15的判定条件设定部153使用通过特征量抽取部152得到的K×T个位次特征量Fk(t)(k=1,2,...,K,t=1,2,...,T)以及针对各个位次特征量Fk(t)的正确范畴,生成针对辨别对象范畴c(=1,...,C)的辨别器C3。在本实施方式中,使用决策树学习、特别是如Breiman的文献[5]所述的随机森林来生成辨别器C3
随机森林是指如图7所示的、将决策树作为弱辨别器的组学习算法(GroupLearning Algorithms)的一种,包括多个节点r(=1,...,R)和连接节点间的链路。将处于最上位层的节点称为根节点,将处于最下位层的节点称为叶节点,将除此以外的节点简称为节点。在各节点通过学习来保存用于将节点内的位次特征量分配到左右节点的判定条件φr(r=1,...,R)和针对辨别对象范畴c(=1,...,C)的概率Pr(c)(r=1,...,R)。
在此,辨别对象范畴c(=1,...,C)是被输入到正确行为输入部17的正确行为。根据车辆内乘客的行为识别的前后的关联性适当地设定辨别对象范畴即可。例如,可以设定为“c=1:方向盘操作”、“c=2:后视镜的调整”、“c=3:控制面板的操作”、“c=4:座椅安全带的系上和解开”、“c=5:智能手机操作”、“c=6:饮食”。
另外,使用位次特征量F(t)的第i个要素I、第j个要素J以及用于要素I与要素J的大小比较的阈值τ来设定随机森林的学习所需的判定条件的候补φm(m=1,...,M)。具体的判定条件也就是φm中的i、k、τ的值是随机(random)确定的。
判定条件用于确定从构成决策树的各节点迁移到哪个子节点。具体而言,进行位次特征量F(t)的第i个要素I与第j个要素J的大小比较,在I-J>τ成立的情况下向右侧的节点迁移,在不成立的情况下向左侧的节点迁移。例如,在对位次特征量F(t)=(1,5,6,4,3,2)应用判定条件(i,j,τ)=(1,5,1)的情况下,根据第i(=1)个要素I=5和第j(=5)个要素J=2,I-J=5-2=3>1=τ成立,所以向右侧的节点迁移。同样地,在应用了判定条件(i,j,τ)=(1,0,7)的情况下,根据第i(=1)个要素I=5和第j(=0)个要素J=1,I-J=5-1=4<7=τ成立,所以向左侧的节点迁移。
如果如以上所述得到了判定条件的候补φm(m=1,...,M),则之后依照通过Breiman的文献[5]决定的流程进行学习即可。在此所说的学习是指对各节点r(=1,...,R)设定合适的判定条件φr(r=1,...,R)和针对辨别对象范畴c(=1,...,C)的概率Pr(c)(r=1,...,R)。具体而言,关于第r个节点的判定条件φr(r=1,...,R),设定判定条件的候补φm(m=1,...,M)中的、使由式(2)定义的可靠度G(φ)最大的候补即可。
【式2】
在此,Ql(φ)表示在判定条件φ下向左侧节点迁移的采样的个数,Qr(φ)表示在判定条件φ下向右侧节点迁移的采样的个数,H(Q(φ))表示预定节点的针对辨别对象范畴的信息熵,H(Ql(φ))表示在判定条件φ下向左侧节点迁移的采样的针对辨别对象范畴的信息熵,H(Qr(φ))表示在判定条件φ下向右侧的节点迁移的采样的针对辨别对象范畴的信息熵。
最终,确定随机森林的各节点r(=1,...,R)的判定条件φr(r=1,...,R)和针对辨别对象范畴c(=1,...,C)的概率Pr(c)(r=1,...,R)。使学习所使用的学习数据的部分集合以及判定条件的候补φm不同而多次进行上述处理,制作多个决策树。辨别器(相当于辨别部16的概率计算部161)的辨别结果是合并由各决策树求出的针对辨别对象范畴c的概率Pr(c)而得到的。
[行为识别处理]
接下来,说明行为识别装置1进行的行为识别处理。图8是示出行为识别处理的流程的流程图。
在步骤S20中,行为识别装置1获取关于识别对象的行为的红外图像以及进深信息(距离图像)的动态图像。红外图像和进深信息的获取基本上与学习处理时相同。
以所输入的动态图像的各帧为对象进行包括步骤S21-S23的循环L2的处理。
在步骤S21中,人体部位检测部13检测人体部位的二维位置。在步骤S22中,特征量抽取部14抽取基于人体的部位间距离的位次的位次特征量。步骤S21以及S22中的处理与学习处理中的步骤S11以及S12的处理相同。
在步骤S23中,通过学习装置2学习的概率计算部161求出与由特征量抽取部14抽取出的位次特征量的识别对象范畴c(=1,...,C)分别对应的概率。将由特征量抽取部14新输入的位次特征量表示为F(t’)。位次特征量F(t’)的识别对象范畴是未知的。概率计算部161根据由学习部15得到的随机森林的各节点r(=1,...,R)的判定条件φr(r=1,...,R)和针对识别对象范畴c(=1,...,C)的概率Pr(c)(r=1,...,R),计算针对位次特征量F(t’)(t’=1,...,T’)的识别对象范畴c(=1,...,C)的概率P(t’,c)。计算出的概率P(t’,c)被输出到概率累计部162。
具体而言,依照由学习部15得到的随机森林的各节点r(=1,...,R)的判定条件φr(r=1,...,R),从根节点依次追溯节点,通过最终到达的叶节点r’(r’是1至R中的任意叶节点)的概率Pr’(c)提供概率P(t,,c)。
在步骤S24中,概率累计部162根据最近的L帧的辨别结果(每个范畴的概率),确定所输入的动态图像中的车辆内乘客的行为。具体而言,概率累计部162通过将由概率计算部161得到的时刻t’的针对识别对象范畴c(=1,...,C)的概率P(t’,c)沿时间方向累计L帧,从而判定位次特征量F(t’)属于识别对象范畴c(=1,...,C)中的哪个识别对象范畴。具体而言,使用式(3)来判定位次特征量F(t’)所属的识别对象范畴c(F(t’))(1至C中的任意识别对象范畴)即可。
【式3】
在此,在式(3)中,不是求针对概率P(t’,c)的简单的和而是求平方和是为了在存在相似的2个识别对象范畴的情况下强调它们的区别。另外,L的值,通过反复试验确定即可。
这样得到的车辆内乘客的行为识别结果c(F(t’))被传递到实际使用行为识别装置1的更上位的装置,被应用到将车辆内乘客的行为作为输入的各种各样的应用。例如,应用到如下情况等:识别出由车辆内乘客进行的智能手机操作或饮食这样的危险行为,与车辆的行驶状态进行对照,从而适当地提醒注意。此外,上述单元相当于行为识别装置1的一个例子。
在本实施方式中,因为将部位间的距离大小的位次用作特征量,所以能够进行精度良好的行为识别。其原因是即使发生扩大或缩小这样的比例尺变换、旋转或平行移动,距离大小的位次也不变,而且相对于部位的微小变动也稳健。通过这样的特性,能够抑制在推测车辆内乘客的行为时发生的各种各样的变动例如座椅位置的水平移动、乘客的体格差异、摄像机的位置或朝向、基于深度学习的人体部位的位置的推测误差等所致的影响。
[变形例]
在上述说明中,求出二维位置(xm(t),ym(t))来作为人体的部位的位置,因此,部位间的距离也使用xy面内的距离。但是,以三维方式求出人体部位的位置、使用三维空间内的距离来作为部位间的距离也是优选的。在该情况下,当在学习处理中对部位的位置施加微小变动时,既可以对x,y,z的各分量施加随机值,也可以对x,y的分量施加随机值并将z分量设为进深信息D(t)中的(xm(t)+Δxm,k(t),ym(t)+Δym,k(t))的值。
另外,学习处理或行为识别处理所使用的人体部位的位置可以以任意的方式求出。这不仅意味着部位检测的算法不限于特定的算法,而且还意味着也可以人工地进行部位检测。关于行为识别处理,为了实时地进行处理,最好通过机器进行人体的部位检测。
另外,概率累计部162根据各帧中的概率P(t’,c)的平方和确定了最终的行为范畴的识别结果,但也可以简单地根据和或积(或者,算术平均或几何平均)来确定。
另外,在上述说明中,说明了采用随机森林作为决策树学习的例子的情况,但也可以使用如ID3或CART这样的其它决策树学习算法。
另外,能够采用的学习处理不限于决策树学习,也可以是其它任意的统计性的机器学习。统计性的机器学习是指从学习数据根据统计性的方法生成进行输入数据的类别判别的模型的学习处理。例如,能够使用如Weston的文献[6]所述的多类别支持向量机(Support Vector Machine)。或者,能够使用如Sugiyama的文献[7]所述的最小二乘概率的分类法。除此之外,还能够使用贝叶斯推测或神经网络等。
本发明的行为识别装置1和学习装置2不限于基于半导体集成电路(LSI)的安装,也可以通过具有通用的微处理器和存储器的计算机执行程序来实现。另外,在上述说明中,将行为识别装置1和学习装置2作为不同的装置进行了说明,但也可以构成为在1台装置中切换学习模式和识别模式。

Claims (18)

1.一种行为识别装置,其特征在于,具有:
检测单元,根据拍摄车辆内而得到的车内图像检测所述车内图像中的车辆内的人物的人体的多个部位的位置;
特征量抽取单元,抽取位次特征量,该位次特征量是基于由所述检测单元得到的部位间的距离大小的位次的特征量;以及
辨别单元,使用预先学习到的辨别器和所述特征量抽取单元抽取出的位次特征量来辨别车辆内乘客的行为。
2.根据权利要求1所述的行为识别装置,其中,
所述辨别器是通过决策树学习而学习到的辨别器,根据人体的第1部位配对间的距离大小的位次与第2部位配对间的距离大小的位次的大小关系而构成。
3.根据权利要求1所述的行为识别装置,其中,
所述辨别器是基于统计性的机器学习构成的。
4.根据权利要求1至3中的任意一项所述的行为识别装置,其中,
所述辨别单元计算预先决定的多个行为的各个行为的似然度,
针对构成动态图像的多帧图像检测人体的部位位置、抽取位次特征量以及计算所述多个行为的各个行为的似然度,将所述似然度的平方和最大的行为判断为是所述车辆内乘客的行为。
5.一种学习装置,其特征在于,具有:
输入单元,获取拍摄车辆内而得到的车内图像中的车辆内的人物的人体的多个部位的位置以及所述人物所采取的正确行为;
特征量抽取单元,抽取位次特征量,该位次特征量是基于人体的部位间的距离大小的位次的特征量;以及
学习单元,根据所述特征量抽取单元抽取出的位次特征量和所述正确行为,学习用于辨别车辆内乘客的行为的辨别器。
6.根据权利要求5所述的学习装置,其中,
所述学习单元通过决策树学习来学习所述辨别器,所述决策树学习基于人体的第1部位配对间的距离大小的位次与第2部位配对间的距离大小的位次的大小关系。
7.根据权利要求5所述的学习装置,其中,
所述学习单元基于统计性的机器学习来学习所述辨别器。
8.根据权利要求5至7中的任意一项所述的学习装置,其中,
将对所述车内图像中的多个部位的位置施加微小变动而得到的输入数据也用作表示同一正确行为的学习数据来学习辨别器。
9.一种行为识别方法,其特征在于,包括:
检测步骤,根据拍摄车辆内而得到的车内图像检测所述车内图像中的车辆内的人物的人体的多个部位的位置;
特征量抽取步骤,抽取位次特征量,该位次特征量是基于在所述检测步骤中得到的部位间的距离大小的位次的特征量;以及
辨别步骤,使用预先学习到的辨别器和在所述特征量抽取步骤中抽取出的位次特征量来辨别车辆内乘客的行为。
10.根据权利要求9所述的行为识别方法,其中,
所述辨别器是通过决策树学习而学习到的辨别器,根据人体的第1部位配对间的距离大小的位次与第2部位配对间的距离大小的位次的大小关系而构成。
11.根据权利要求9所述的行为识别方法,其中,
所述辨别器是根据统计性的机器学习而构成的。
12.根据权利要求9至11中的任意一项所述的行为识别方法,其中,
对构成动态图像的多帧图像执行所述检测步骤以及所述特征量抽取步骤,
在所述辨别步骤中,计算针对预先决定的多个行为的各个行为的似然度,将所述似然度的平方和最大的行为判断为是所述车辆内乘客的行为。
13.一种学习方法,其特征在于,包括:
输入步骤,获取拍摄车辆内而得到的车内图像中的车辆内的人物的人体的多个部位的位置以及车辆内的人物所采取的正确行为,
特征量抽取步骤,抽取位次特征量,该位次特征量是基于人体的部位间的距离大小的位次的特征量;以及
学习步骤,根据在所述特征量抽取步骤中抽取出的位次特征量和所述正确行为,学习用于辨别车辆内乘客的行为的辨别器。
14.根据权利要求13所述的学习方法,其中,
所述辨别器是通过决策树学习来学习所述辨别器,所述决策树学习基于人体的第1部位配对间的距离大小的位次与第2部位配对间的距离大小的位次的大小关系。
15.根据权利要求13所述的学习方法,其中,
所述辨别器是基于统计性的机器学习而学习到的辨别器。
16.根据权利要求13至15中的任意一项所述的学习方法,其中,
所述辨别器是将对所述车内图像中的多个部位的位置施加微小变动而得到的输入数据也用作表示同一正确行为的学习数据而学习的辨别器。
17.一种计算机可读的记录介质,存储有程序,其特征在于,
所述程序使计算机执行如下步骤:
检测步骤,根据拍摄车辆内而得到的车内图像检测所述车内图像中的车辆内的人物的人体的多个部位的位置;
特征量抽取步骤,抽取位次特征量,该位次特征量是基于在所述检测步骤中得到的部位间的距离大小的位次的特征量;以及
辨别步骤,使用预先学习到的辨别器和在所述特征量抽取步骤中抽取出的位次特征量来辨别车辆内乘客的行为。
18.一种计算机可读的记录介质,存储有程序,其特征在于,
所述程序使计算机执行如下步骤:
输入步骤,获取拍摄车辆内而得到的车内图像中的车辆内的人物的人体的多个部位的位置以及车辆内的人物所采取的正确行为,
特征量抽取步骤,抽取位次特征量,该位次特征量是基于人体的部位间的距离大小的位次的特征量;以及
学习步骤,根据在所述特征量抽取步骤中抽取出的位次特征量和所述正确行为,学习用于辨别车辆内乘客的行为的辨别器。
CN201710406027.4A 2016-06-01 2017-06-01 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质 Expired - Fee Related CN107451524B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016110288A JP6443393B2 (ja) 2016-06-01 2016-06-01 行動認識装置,学習装置,並びに方法およびプログラム
JP2016-110288 2016-06-01

Publications (2)

Publication Number Publication Date
CN107451524A true CN107451524A (zh) 2017-12-08
CN107451524B CN107451524B (zh) 2020-07-07

Family

ID=60327592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710406027.4A Expired - Fee Related CN107451524B (zh) 2016-06-01 2017-06-01 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质

Country Status (4)

Country Link
US (1) US10192126B2 (zh)
JP (1) JP6443393B2 (zh)
CN (1) CN107451524B (zh)
DE (1) DE102017111707A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711289A (zh) * 2018-12-13 2019-05-03 Oppo广东移动通信有限公司 乘车提醒方法、装置、电子设备和存储介质
WO2020078462A1 (zh) * 2018-10-19 2020-04-23 上海商汤智能科技有限公司 乘客状态分析方法和装置、车辆、电子设备、存储介质
CN111433082A (zh) * 2018-11-09 2020-07-17 北京嘀嘀无限科技发展有限公司 用于检测车内冲突的系统和方法
CN111507176A (zh) * 2019-01-31 2020-08-07 柯尼卡美能达株式会社 姿势估计装置、行动估计装置、记录介质、姿势估计方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019111932A1 (ja) * 2017-12-08 2019-06-13 日本電気株式会社 モデル学習装置、モデル学習方法及び記録媒体
JP6977551B2 (ja) * 2017-12-26 2021-12-08 コニカミノルタ株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
US11850514B2 (en) 2018-09-07 2023-12-26 Vulcan Inc. Physical games enhanced by augmented reality
CN110956060A (zh) * 2018-09-27 2020-04-03 北京市商汤科技开发有限公司 动作识别、驾驶动作分析方法和装置及电子设备
US11670080B2 (en) 2018-11-26 2023-06-06 Vulcan, Inc. Techniques for enhancing awareness of personnel
US10643085B1 (en) * 2019-01-30 2020-05-05 StradVision, Inc. Method and device for estimating height and weight of passengers using body part length and face information based on human's status recognition
US11950577B2 (en) 2019-02-08 2024-04-09 Vale Group Llc Devices to assist ecosystem development and preservation
WO2020198070A1 (en) 2019-03-22 2020-10-01 Vulcan Inc. Underwater positioning system
US11435845B2 (en) * 2019-04-23 2022-09-06 Amazon Technologies, Inc. Gesture recognition based on skeletal model vectors
DE112019007569T5 (de) * 2019-09-05 2022-04-28 Mitsubishi Electric Corporation Bediener-Beurteilungsvorrichtung und Bediener-Beurteilungsverfahren
US11132585B2 (en) * 2019-12-17 2021-09-28 Robert Bosch Gmbh System and method for detecting abnormal passenger behavior in autonomous vehicles
CN111985295A (zh) * 2020-06-05 2020-11-24 深圳市金溢科技股份有限公司 一种电动自行车行为识别方法、系统、工控机及摄像头

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013886A (ja) * 2009-07-01 2011-01-20 Nec Corp 代表特徴抽出システム、方法およびプログラム
WO2013151205A1 (ko) * 2012-04-03 2013-10-10 조선대학교산학협력단 얼굴 인식을 위한 얼굴 영상 획득 방법 및 장치
CN103620645A (zh) * 2011-06-17 2014-03-05 丰田自动车株式会社 物体识别装置
CN105138995A (zh) * 2015-09-01 2015-12-09 重庆理工大学 基于骨架信息的时不变及视不变的人体行为识别方法
CN105279483A (zh) * 2015-09-28 2016-01-27 华中科技大学 一种基于深度图像的跌倒行为实时检测方法
CN105320944A (zh) * 2015-10-24 2016-02-10 西安电子科技大学 一种基于人体骨架运动信息的人体行为预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983817B2 (en) * 1995-06-07 2011-07-19 Automotive Technologies Internatinoal, Inc. Method and arrangement for obtaining information about vehicle occupants
JP4670803B2 (ja) * 2006-12-04 2011-04-13 株式会社デンソー 操作推定装置およびプログラム
WO2013036632A1 (en) * 2011-09-09 2013-03-14 Thales Avionics, Inc. Eye tracking control of vehicle entertainment systems
WO2015186436A1 (ja) * 2014-06-06 2015-12-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
US9714037B2 (en) * 2014-08-18 2017-07-25 Trimble Navigation Limited Detection of driver behaviors using in-vehicle systems and methods
US9373203B1 (en) * 2014-09-23 2016-06-21 State Farm Mutual Automobile Insurance Company Real-time driver monitoring and feedback reporting system
US9864918B2 (en) * 2015-11-04 2018-01-09 Ford Global Technologies, Llc Predicting vehicle movements based on driver body language

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013886A (ja) * 2009-07-01 2011-01-20 Nec Corp 代表特徴抽出システム、方法およびプログラム
CN103620645A (zh) * 2011-06-17 2014-03-05 丰田自动车株式会社 物体识别装置
WO2013151205A1 (ko) * 2012-04-03 2013-10-10 조선대학교산학협력단 얼굴 인식을 위한 얼굴 영상 획득 방법 및 장치
CN105138995A (zh) * 2015-09-01 2015-12-09 重庆理工大学 基于骨架信息的时不变及视不变的人体行为识别方法
CN105279483A (zh) * 2015-09-28 2016-01-27 华中科技大学 一种基于深度图像的跌倒行为实时检测方法
CN105320944A (zh) * 2015-10-24 2016-02-10 西安电子科技大学 一种基于人体骨架运动信息的人体行为预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张波: "基于三维人体骨架模型的动作识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020078462A1 (zh) * 2018-10-19 2020-04-23 上海商汤智能科技有限公司 乘客状态分析方法和装置、车辆、电子设备、存储介质
US11386676B2 (en) 2018-10-19 2022-07-12 Shanghai Sensetime Intelligent Technology Co., Ltd Passenger state analysis method and apparatus, vehicle, electronic device and storage medium
CN111433082A (zh) * 2018-11-09 2020-07-17 北京嘀嘀无限科技发展有限公司 用于检测车内冲突的系统和方法
US11615545B2 (en) 2018-11-09 2023-03-28 Bejing Didi Infinity Technology And Development Co., Ltd. System and method for detecting in-vehicle conflicts
CN109711289A (zh) * 2018-12-13 2019-05-03 Oppo广东移动通信有限公司 乘车提醒方法、装置、电子设备和存储介质
CN111507176A (zh) * 2019-01-31 2020-08-07 柯尼卡美能达株式会社 姿势估计装置、行动估计装置、记录介质、姿势估计方法
CN111507176B (zh) * 2019-01-31 2024-01-16 柯尼卡美能达株式会社 姿势估计装置、行动估计装置、记录介质、姿势估计方法

Also Published As

Publication number Publication date
JP6443393B2 (ja) 2018-12-26
DE102017111707A1 (de) 2017-12-07
CN107451524B (zh) 2020-07-07
JP2017215861A (ja) 2017-12-07
US10192126B2 (en) 2019-01-29
US20170351928A1 (en) 2017-12-07

Similar Documents

Publication Publication Date Title
CN107451524A (zh) 行为识别装置、学习装置、行为识别方法、学习方法及计算机可读的记录介质
EP3690720B1 (en) Method and device for estimating height and weight of passengers using body part length and face information based on human's status recognition
CN108921100B (zh) 一种基于可见光图像与红外图像融合的人脸识别方法及系统
US20190065872A1 (en) Behavior recognition apparatus, learning apparatus, and method and program therefor
CN103530599B (zh) 一种真实人脸和图片人脸的区别方法和系统
CN104008370B (zh) 一种视频人脸识别方法
CN104680559B (zh) 基于运动行为模式的多视角室内行人跟踪方法
CN105279483A (zh) 一种基于深度图像的跌倒行为实时检测方法
CN108182397B (zh) 一种多姿态多尺度的人脸验证方法
CN105894047A (zh) 一种基于三维数据的人脸分类系统
CN105912985A (zh) 基于能量函数的人体骨架关节点的行为动作表示方法
CN107085703A (zh) 融合脸部检测与跟踪的汽车乘员计数方法
CN105426882B (zh) 一种人脸图像中快速定位人眼的方法
CN108537181A (zh) 一种基于大间距深度度量学习的步态识别方法
CN106846367B (zh) 一种基于运动约束光流法的复杂动态场景的运动物体检测方法
CN113269076B (zh) 基于分布式监控的暴力行为检测系统及检测方法
CN111539422A (zh) 基于Faster RCNN的飞行目标协同识别方法
Roheda et al. Robust multi-modal sensor fusion: An adversarial approach
Bastomi et al. Object detection and distance estimation tool for blind people using convolutional methods with stereovision
Kumar et al. Tracking occupant activities in autonomous vehicles using capacitive sensing
Chen et al. Skeleton moving pose-based human fall detection with sparse coding and temporal pyramid pooling
CN112613430B (zh) 一种基于深度迁移学习的步态识别方法
CN104732521B (zh) 一种基于权重组相似活动轮廓模型的相似目标分割方法
Li et al. The recognition of moving human body posture based on combined neural network
Hikawa et al. Study on gesture recognition system using posture classifier and Jordan recurrent neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200707

CF01 Termination of patent right due to non-payment of annual fee