JP2019040465A

JP2019040465A - 行動認識装置，学習装置，並びに方法およびプログラム

Info

Publication number: JP2019040465A
Application number: JP2017162660A
Authority: JP
Inventors: 正雄山中; Masao Yamanaka; 西島　敏文; Toshifumi Nishijima; 敏文西島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2019-03-14
Also published as: CN109426808A; US20190065872A1

Abstract

【課題】車両内乗員の行動を精度良く識別する。
【解決手段】行動識別装置は，車両内を撮影した動画像の各フレーム画像から車両内乗員に関する情報を取得する乗員情報取得手段と，前記乗員情報に基づく特徴量である第1特
徴量を算出する第1特徴量算出手段と，所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出手段と，第2特徴量から所定期間
における行動ラベルの確率分布を求めるようあらかじめ学習された識別器と，前記第2特
徴量算出手段が算出した第2特徴量とを用いて，車両内乗員の行動を識別する識別手段と
，を備える。
【選択図】図2

Description

本発明は，車両内乗員の行動認識装置に関し，特に，車両内乗員の状態を推定するうえで好適な車両内乗員の行動認識装置に関する。

車両内乗員の行動を認識する手法として，たとえば，非特許文献1のような方法が提案
されている。非特許文献１では，入力画像から解像度の異なる複数の画像（ピラミッド画像）を作成し，得られたピラミッド画像から高密度に着目点を検出する。また，各々の着目点を時間方向に追跡して得られた軌跡毎に，HOG，HOF，MBHといった複数の種類の画像
特徴量を算出する。さらに，これらの画像特徴量を次元方向に連結し，Bag-of-Feature表現を用いて，より記述能力の高い画像特徴量に変換する。最終的に，識別対象となる行動毎に得られた画像特徴量を入力とする非線形SVMを用いて識別器を学習する。

また，車両内乗員の行動を認識する手法として，たとえば，非特許文献２のような方法が提案されている。非特許文献２では，デプス・センサーを用いて各時刻における人体の部位の位置を検出し，得られた人体の部位の位置を入力とする隠れマルコフモデル（HMM
）を用いて，第一の特徴量を算出する。また，得られた第一の特徴量に対して，フィッシャー・カーネル（Fisher Kernel）を適用することで，より記述能力の高い第2の特徴量（Fisher Vector）に変換する。最終的に，識別対象となる行動毎に算出した第2の特徴量を入力とする非線形SVMを用いて識別器を学習する。

また，車両内乗員の行動を認識する手法として，たとえば，非特許文献３のような方法が提案されている。非特許文献３では，TOF型センサーを用いて各時刻における人体の部
位の位置を検出し，得られた人体の部位間の距離の順序関係に基づいて，特徴量を算出する。また，得られた特徴量を入力とするランダム・フォレスト（Random Forest）を用い
て識別器を学習する。最終的に，得られた識別器による各時刻の識別対象カテゴリに対する確率密度を時間方向に積算し，その確度を高めることで車両内乗員の行動を認識する。

特許第４４２００８１号公報特許第４６７０８０３号公報

H. Wang, A. Klaser, C. Schmid. "Dense Trajectories and Motion Boundary Descriptors for Action Recognition", International Journal of Computer Vision (IJCV), 103, pp.60-79, 2013. Y. Goutsu et al., "Gesture recognition using hybrid generative discriminative approach with Fisher Vector", IEEE International Conference on Robotics and Automation (ICRA), 2015. M. Yamanaka et al., "Driver's Behavior Recognition Based on the Global Architecture of Human Parts Position", The 22th Symposium on Sensing via Image Information (SSII), 2016. M. Schwarz et al., "RGB-D Object Recognition and Pose Estimation Based on Pre-Trained Convolutional Neural Network Features", ICRA2015. A. Toshev et al., "Human Pose Estimation via Deep Neural Networks", CVPR2014. S. Hochreiter et al., "Long Short-Term Memory", Neural Computation archive, 1997. F. A. Gers et al., "Continual Prediction using LSTM with Forget Gates", Neural Nets WIRN Vietri-99. F. Gers et al., "Learning Precise Timing with LSTM Recurrent Networks", Journal of Machine Learning Research, 2002.

しかしながら，非特許文献１のように，画像空間上から高密度に着目点を抽出し，得られた軌跡毎に複数の種類の画像特徴量を算出する場合，得られる特徴量が膨大となり，識別器の学習だけでなく，その識別器を用いた識別処理にも長時間を要するという問題がある。

また，非特許文献２のように，デプス・センサーを用いて各時刻における人体の部位の位置を検出し，得られた人体の部位の位置を入力とする隠れマルコフモデル（HMM）を適
用する場合，ジェスチャー認識のような，動画像中の人物が意図した行動を認識するのに有効である反面，動画像中の人物が意図しない危険行動などを認識するのは困難であるという問題がある。

さらに，非特許文献３のように，TOF型センサーを用いて各時刻での人体の部位の位置
を検出し，得られた人体の部位間の距離の順序関係を特徴量とするランダム・フォレスト（Random Forest）を適用する場合，車両内乗員の状態（人体姿勢，手指姿勢，顔の位置
，顔の向き，視線など）の時系列的変化に依存した行動を認識するのは困難であるという問題がある。

本発明は上記の問題点を考慮してなされたものであり，車両内乗員の行動を精度良く認識可能とすることを目的とする。

本発明の一態様は，車両内を撮影した動画像に基づいて，車両内乗員の行動を識別する行動識別装置ある。本態様に係る行動識別装置は，前記動画像の各フレーム画像から，車両内乗員に関する情報を取得する乗員情報取得手段と，前記乗員情報に基づく特徴量である第1特徴量を算出する第1特徴量算出手段と，前記動画像の各フレーム画像について，所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出手段と，第2特徴量から所定期間における行動ラベルの確率分布を求めるようあらかじめ学習された識別器と，前記第2特徴量算出手段が算出した第2特徴量とを用いて，車両内乗員の行動を識別する識別手段と，を備える。なお，識別手段は，識別器から得られる確率分布自体を出力してもよいし，確率分布において最大値を与える行動ラベルを車両内乗員の行動として決定して出力してもよい。

本発明の別の一態様は，上記の行動識別装置に利用可能な識別器を学習するための学習装置である。本態様に係る学習装置は，車両内を撮影した動画像の各フレーム画像から，車両内乗員に関する情報を取得する乗員情報取得手段と，各フレーム画像における前記車両内乗員の正解行動を取得する正解行動入力手段と，所定期間のフレーム画像において前記車両内乗員が取った各正解行動の割合を表す確率分布を算出する確率分布算出手段と，各フレーム画像について，前記乗員情報に基づく特徴量である第1特徴量を算出する第1特徴量算出手段と，所定期間のフレーム画像についての第1特徴量を連結した特徴量である
第2特徴量を算出する第2特徴量算出手段と，前記第2特徴量算出手段が算出した第2特徴量と，前記確率分布算出手段が算出した確率分布とに基づいて，車両内乗員が所定期間にお
いて取った各行動の確率分布を識別するための識別器を学習する学習手段と，を備える。

本発明において，車両内乗員に関する情報は，車両内を撮影した画像から得られる車両内乗員の姿勢に関する情報を含む。画像は，たとえば，可視光画像や赤外画像である。また，可視光画像や赤外画像と，距離画像とを組み合わせて用いてもよい。車両内の乗員の姿勢に関する情報として，たとえば，頭，首，肩，肘，手首，掌，胴，股関節，膝，足首などの位置（たとえば，各部位の中心位置）が含まれる。車両内の乗員の姿勢に関する情報の他の例として，頭部領域，顔の向き，視線方向，手（手指）領域，手指形状が含まれる。

第1特徴量は，1フレーム画像から得られる特徴量，すなわち，ある特定の時刻における車両内乗員情報から得られる特徴量である。これに対して，第2特徴量は，所定期間内に
おける第1特徴量を時系列方向に連結した特徴量である。

確率分布は，所定期間内における車両内乗員の行動が，あらかじめ定められた複数の行動（行動ラベル）に当てはまる確率をそれぞれ表したものである。行動ラベルは，システムの要求に応じて適宜決定すればよいが，たとえば，ハンドル操作，バックミラーの調整，コントロール・パネルの調整，シートベルトの着用・着脱，スマートフォン操作，飲食などが上げられる。

本発明によれば，時系列データから行動ラベルの確率分布を求めるようにしているので，一時点の情報からだけでは識別が困難な行動であっても，適切に識別ができる。

本発明において，乗員情報として車両内乗員の複数の人体部位の位置を利用し，第1特
徴量を人体部位の位置の関係に基づいて決定してもよい。この場合，第1特徴量は，人体
部位の間の距離の大きさの順位に基づいて決定してもよい。このような順位特徴量は，スケール変換・回転・平行移動に対して不変であり，また，微小変動に対して頑強である。したがって，順位特徴量の使用により，ロバスト性の高い認識が可能となる。

本発明において，乗員情報として，頭部領域の位置，顔の向き，および手領域の位置などのいずれかを利用する場合には，第1特徴量は，上述の人体部位の位置に基づく特徴量
（たとえば，順位特徴量）と，上記情報とを組み合わせたものとして決定すればよい。頭部領域や手指領域の位置や顔の向きなども利用することによって，より精度のよい認識が可能となる。

学習装置の正解行動入力手段による車両内乗員の正解行動の取得は，どのように行われてもよい。たとえば，正解行動入力手段を介して，ユーザ（人間）が正解行動を与えてもよい。あるいは，動画像に正解行動のラベルが関連付けられている場合には，正解行動入力手段は動画像に関連付けられた正解行動ラベルを取得してもよい。この際，フレームごとの正解行動が分かればよく，各フレームについて正解行動の取得するようにしてもよいし，正解行動の開始時刻と終了時刻を取得してもよい。

また，学習装置は，動画像から得られる第1特徴量に対して微小変動を加えることによ
り，学習データの数を増やしてもよい。微小変動を加えた学習データを利用することで，識別時における人体部位位置の推定誤差に対して頑強な識別器が学習できる。

なお、本発明は，上記手段の少なくとも一部を備える行動認識装置または学習装置として捉えることができる．また，本発明は、上記処理の少なくとも一部を実行する行動認識方法または学習方法として捉えることもできる。また、本発明は、これら方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラム
を非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば，車両内乗員の行動を精度良く認識できる。

第1の実施形態に係る行動認識装置1の機能構成図。第1の実施形態に係る学習装置2の機能構成図。学習装置2が行う学習処理のフローチャート。赤外画像入力部11に入力される赤外画像の例。人体部位検出部13による検出結果の例。部位間の距離の大きさの順位に基づく順位特徴量の説明図。真値付与部151による正解行動ラベルの付与の例。確率分布算出部152による正解行動の確率分布算出の説明図。確率分布算出部152による正解行動の確率分布算出の説明図。時系列特徴量の説明図。学習装置2が学習に使用する学習データの説明図。行動認識装置1が行う行動認識処理のフローチャート。第2の実施形態に係る行動認識装置3および学習装置4の機能構成図。姿勢情報検出部34による検出結果の例。

（第1の実施形態）
本発明の第1の実施形態に関して，図面を参照して説明する。図1(a)は，本実施形態に
係る行動認識装置1の概略構成を示すブロック図である。本実施形態に係る行動認識装置1は，半導体集積回路(LSI)を用いて実現できる。ここで，行動認識装置1は，図1(a)に示すように，赤外画像入力部11と，奥行画像入力部12と，人体部位検出部13と，特徴量算出部14と，識別部16とを有する。これらの構成要素は，行動認識装置1が果たす機能にそれぞ
れ対応している。

図1(b)は，識別部16を学習するための，学習装置2の概略構成を示すブロック図である
。本実施形態に係る学習装置2は，半導体集積回路(LSI)を用いて実現できる。ここで，学習装置2は，図1(b)に示すように，赤外画像入力部11，奥行情報入力部12，人体部位検出
部13，学習部15を有する。学習部15は，真値付与部151，順位特徴量算出部152，確率分布算出部153，時系列特徴量算出部154，確率分布学習部154を含む。ここで，学習装置2が有する機能ブロックのうち行動認識装置1が有するものと同一のものについては，同一の参
照番号を付している。

これらの各機能部については，以下の学習処理および行動認識処理の説明の中で合わせて説明する。

［学習処理］
まず，学習装置2が行う学習処理について説明する。図2は学習処理の流れを示すフローチャートである。

ステップS10において，学習装置2は，正解行動が既知の行動について赤外画像および奥行情報（距離画像）の動画像を取得する。赤外画像は赤外画像入力部11から，奥行情報は奥行情報入力部12から，正解行動は正解行動入力部17からそれぞれ入力される。

赤外画像入力部11は，図3のように，行動認識装置1の外部から入力される車両内の赤外画像（以下，赤外画像）を取得し，時刻t (t = 1,2,…,T)での赤外画像I(t)を人体部位検出部13に出力する。赤外画像は，車両内に設置された赤外線カメラから取得すればよい。なお，本実施形態では赤外画像を用いているが可視光画像を用いても構わない。

奥行情報入力部12は，行動認識装置1の外部から入力される車両内の奥行情報（以下，
奥行情報）を取得し，時刻t (t=1,2,…,T)での奥行情報D(t)を人体部位検出部13に出力する。ここで，奥行情報D(t)は，すでに市販されているステレオ型カメラやTOF型センサー
などを車両内に設置して取得すればよい。

ステップS11-S12からなるループL1の処理は，入力された動画像の各フレームを対象に
して行われる。

ステップS11において，人体部位検出部13は，図4のように，赤外画像入力部11で得られた赤外画像I(t)と，奥行情報入力部12で得られた奥行情報D(t)とに基づいて，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t))または3次元座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)を検出し，特徴量算出部14に出力する。人体の部位の位置は，車両内乗員に関する情報（車両内乗員の姿勢に関する情報）の一例であり，人体部位検出部13は本発明における乗員情報取得手段に相当する。本実施形態では，人体部位検出部13は，頭，首，肩（左右），肘（左右），掌（左右），股関節（左右）の各部位の中心位置を検出する。

ここで，x_m(t)は，時刻tでのm番目の部位の赤外画像I(t)における水平方向座標を表す
。また，y_m(t)は，時刻tでのm番目の部位の赤外画像I(t)における垂直方向座標を表す。
一方，z_m(t)は，時刻tでのm番目の部位の奥行方向座標を表し，奥行情報D(t)における2次元座標(x_m(t),y_m(t))上の値で与えられる。

具体的には，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)は，たとえば，非特許文献4のように，あらかじめ，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)と奥行方向座標z_m(t) (m=1,2,…,M)とが付与された大量の学習用デー
タを用いて，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)を検出するための識別器C₁を構成し，得られた識別器C₁を用いて，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)を検出すればよい。

あるいは，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)は，非特許文献5のように，あらかじめ，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)が付与された大量の学習用データを用いて，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)を検出するための識別器C₂を構成し，得られた識別器C₂を用い
て，車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t)) (m=1,2,…,M)を検出してもよい。

ステップS12において，順位特徴量算出部152は，人体部位検出部13で得られた時刻tで
の車両内乗員のM個の部位の2次元座標(x_m(t),y_m(t))または3次元座標(x_m(t),y_m(t),z_m(t)) (m=1,2,…,M)に基づいて，特徴量F(t)を算出する。具体的には，特徴量F(t)は，次の式(1)を用いて算出される。

ここで，式(1)において，D(m,n)はm番目の部位とn番目の部位との赤外画像空間上のユ
ークリッド距離，R(D(m,n))はD(1,2),D(1,3),...,D(8,9),D(9,10)を降順に並び替えたと
きのD(m,n)の順位を各々表す。たとえば，図5(a)のように，便宜上4つの部位を考え，す
べての部位のペア間の距離D(t)が,
D(t) = (D(1,2), D(1,3), D(1,4), D(2,3), D(2,4), D(3,4))
= (5.5, 2.6, 2.8, 3.5, 4.3, 4.0)
で与えられたとすると，時刻tにおける特徴量F(t)は
F(t)=(1,6,5,4,2,3)
のように算出できる。

特徴量F(t)は，人体部位の間の距離の大きさの順位に基づく特徴量であり，本発明の第1特徴量に相当する。また，順位特徴量算出部152が本発明の第1特徴量算出手段に相当す
る。

なお，順位特徴量に用いられる人体部位間の距離は，赤外画像上での2次元距離であっ
てもよいし，3次元空間内での3次元距離であってもよい。

特徴量F(t)は，スケール変換や微少変動に対して頑強であるという利点がある。図5(a)はある画像から得た人体部位を示し，図5（b）は図5(a)の画像を拡大したときに得られる人体部位を示し，図5（c）は図5(a)から人体部位が微小に変動したときに得られる人体部位を示す。図5(a)と図5(b)から分かるように，人体の部位の位置のスケール変動に対して，順位特徴量は不変である。また，図5(a)と図5(c)から分かるように，人体の部位の微小変動に対して順位特徴量は頑健である。すなわち，特徴量F(t)は，人体の部位間の距離の順位のみに依存するため，拡大・縮小といったスケール変動が生じても不変であり，人体の部位の位置が微小に変動しても，その変動がそれらの順位に影響しなければ，特徴量F(t)は一定である。このような特性により，車両内乗員の行動を推定する際に生じる様々な変動，たとえば，座席位置の水平移動，乗員の体格差，カメラの位置や向き，深層学習による人体の部位の位置の推定誤差などによる影響を抑制することができる。

以上のステップS11-S12の処理により，1フレーム分の画像I(t)について，特徴量F(t)が決定される。そして，ループL1の繰り返しにより，入力された動画像の各フレームについて当該処理が実行される。

ステップS13において，真値付与部151は，図6のように，各時刻tにおける行動ラベルl(=1,2,…L)を付与する。具体的には，時刻t=t₁〜t=t₂は行動ラベル1，時刻t=t₂〜t₃は行動ラベル2，時刻t=t₃〜t₄は行動ラベル3，といったように，ある行動l(=1,2,…L)が開始さ
れた時刻t_sと終了した時刻t_eとを付与する。ここで，Lは識別対象となる行動ラベルの個
数を表し，実現したいアプリケーションに応じて，あらかじめ適切に決められる。真値付与部151への行動ラベル（正解ラベル）の入力は，ユーザ（人間）が手動で行えばよい。
なお，入力データの各フレームに行動ラベルが付されていてもよい。行動ラベルの非限定的な例として，ハンドル操作，バックミラーの調整，コントロール・パネルの調整，シートベルトの着用・着脱，スマートフォン操作，飲食などが挙げられる。真値付与部151が
，本発明の正解行動入力手段に相当する。

ステップS14-S15からなるループL2の処理は，時間軸上に設定される時間窓Δtのそれぞれについて行われる。たとえば，i回目の処理における時間窓はt=Ti〜Ti+Δtの範囲で与
えられる。ここで，時間窓の大きさΔtは，実現したいアプリケーションに応じて試行錯
誤的に決められばよい。また，Tiの増分は入力画像のタイムステップと同じとしてもよいし，それよりも大きくしてもよい。

ステップS14において，確率分布算出部152は，図7，図8のように，それぞれの時間窓について確率分布P_tr(t)を算出する。確率分布P_tr(t)は，時刻tから時刻t+Δtの間の時間窓において，各行動ラベルが占める割合（確率）の分布として求められる。

たとえば，真値付与部151が付与する行動ラベルが，行動ラベル1と2の2つである場合（L=2）を考える。図7(a)に示すように，時刻t=T₁〜T₁+Δtにおいて単一の行動ラベル1が付与されているので，確率分布P_tr(t=T₁)はP_tr(t=T₁)=(1,0)と決定される。また，図7(b)に示すように，時刻t=T₂〜T₂+Δtにおいて2つの行動ラベル1と2とが混在しているので，確
率分布P_tr(t=T₂)は，P_tr(t=T₂)=((t₂-T₂)/Δt,(T₂+Δt-t₂)/Δt)と決定される。さらに，図7(c)に示すように，時刻t=T₃〜T₃+Δtにおいて単一の行動ラベル2が付与されているの
で，確率分布P_tr(t=T₃)はP_tr(t=T₃)=(0,1)と決定される。

別の例として，真値付与部151が付与する行動ラベルが，行動ラベル1,2,3の3つである
場合（L=3）を考える。図8(a)に示すように，時刻t=T₁〜T₁+Δtにおいて単一の行動ラベ
ル1が付与されているので，確率分布P_tr(t=T₁)はP_tr(t=T₁)=(1, 0, 0)決定される。また
，図8(b)に示すように，時刻t=T₂〜T₂+Δtにおいて2つの行動ラベル1と2とが混在してい
るので，確率分布P_tr(t=T₂)はP_tr(t=T₂)=((t₂-T₂)/Δt, (T₂+Δt-t₂)/Δt, 0)と決定される。また，図8(c)に示すように，時刻t=T₃〜T₃+Δtにおいて3つの行動ラベル1, 2, 3が混在しているので，確率分布P_tr(t=T₃)はP_tr(t=T₃)=((t₂-T₂)/Δt, (t₃-t₂)/Δt, (T₃+Δt-t₃)/Δt)でと決定される。また，図8(d)に示すように，時刻t=T₄〜T₄+Δtにおいて2つの
行動ラベル2と3とが混在しているので，確率分布P_tr(t=T₄)はP_tr(t=T₄)=(0, (t₃-T₄)/Δt, (T₄+Δt-t₃)/Δt)と決定される。さらに，図8(e)に示すように，時刻t=T₅〜T₅+Δtにおいて単一の行動ラベル３が付与されているので，確率分布P_tr(t=T₅)は，P_tr(t=T₅)=(0, 0, 1)で与えられる。

ここでは行動ラベルの数が2個または3個の場合（L=2 or 3）について例示的に説明したが，行動ラベルの数Lに関わらず，時間窓に占める各行動ラベルの時間割合として確率分
布P_tr(t)を算出することができる。

ステップS15において，時系列特徴量算出部154は，図9のように，ある時刻tから時刻t+Δtまでの各時刻での特徴量F(t), F(t+1), F(t+2), … , F(t+Δt)を算出し，これらを時間方向に連結することで，時刻tにおける時系列特徴量F_ts(t) = (F(t), F(t+1), F(t+2),
… , F(t+Δt))を算出する。時系列特徴量F_ts(t)が本発明の第2特徴量に相当し，時系列特徴量算出部154が本発明の第2特徴量算出手段に相当する。

以上のステップS14-S15の処理により，1つの時間窓について確率分布P_tr(t)と系列特徴量F_ts(t)が算出される。そして，ループL2の繰り返しにより，入力された動画像の全期間にわたって当該処理が実行される。

確率分布学習部155は，図10のように，時系列特徴量算出部154で得られた時系列特徴量F_ts(t)=(F(t), F(t+1), F(t+2), … , F(t+Δt)) (t=1,2,…,T)を入力とし，確率分布算
出部153で得られた，時刻tにおける確率分布P_tr(t) (t=1,2,…,T)を推定するための識別
器C₁を学習する。ここで，Tは，行動ラベルl(=1,2,…,L)に対する識別器C₁を学習する際
の学習サンプル（赤外画像と奥行情報のペア）の個数を表し，識別対象となる行動ラベルの個数Lと，行動ラベル毎の識別の難易度（似て非なる行動ラベルが多いほど難易度が高
い）に応じて，試行錯誤的に決められる。

識別器C₁の学習には，時系列データを分類する時系列型ニューラルネットワークを用いればよい。このような学習アルゴリズムとして，たとえば，非特許文献6に示すような，
時系列データの短期的情報だけでなく長期的情報も取り込み可能な長期短期記憶（LSTM: Long Short Term Memory）がある。LSTMは，RNN (Recurrent Neural Network)の拡張であり，RNNの中間層のユニットをLSTM blockと呼ばれるメモリと3つのゲートを持つブロックに置き換えたニューラルネットワークである。LSTMには様々な拡張があり，たとえば，非特許文献7や8のような手法も採用可能である。なお，採用可能な学習アルゴリズムはLSTM
に限定されず，時系列データを分類可能なアルゴリズムであれば既存の任意の手法が採用可能である。

以上の処理により，学習装置2によって識別器C₁の学習が完了する。

［行動認識処理］
次に，行動認識装置1が行う行動認識処理について説明する。なお，行動認識装置1が有する識別部16は，学習装置2によって学習された識別器C₁を利用する。図11は行動認識処
理の流れを示すフローチャートである。

ステップS20において，行動認識装置1の赤外画像入力部11および奥行情報入力部12は，認識対象の行動についての赤外画像および奥行情報（距離画像）の動画像を取得する。赤外画像と奥行情報の取得は，基本的に学習処理のときと同様である。

ステップS21-S22からなるループL3の処理は，入力された動画像の各フレームを対象に
して行われる。

ステップS21では，人体部位検出部13が人体の部位の2次元位置を検出する。ステップS22では，特徴量算出部14が人体の部位間の距離の順位に基づく順位特徴量を算出する。ス
テップS21およびS22における処理は，学習処理におけるステップS11およびS12の処理と同様である。

ステップS23-S25からなるループL4の処理は，入力された動画像に設定される各時間窓
（t=t'〜t'+Δt, t' = 1,2,…,T'）を対象にして行われる。

ステップS23では，特徴量算出部14は，時間窓（t=t'〜t'+Δt）内の順位特徴量を時間
方向に時間方向に連結した時系列特徴量時系列特徴量F_ts(t’)=(F(t’), F(t’+1), F(t
’+2), … , F(t’+Δt)) (t’=1,2,…,T’)を算出する。この処理は，学習処理におけるステップS15の処理と同様である。

ステップS24において，識別部16は，学習部15で得られた識別器C₁に対して，時系列特
徴量F_ts(t’)=(F(t’), F(t’+1), F(t’+2), … , F(t’+Δt)) (t’=1,2,…,T’)を入
力することで，行動ラベルl(=1,2,…L)に対する確率分布P_te(t’) (t’=1,2,…,T’)を算出する。ステップS25において，識別部16は，得られた確率分布P_te(t’) (t’=1,2,…,T
’)の各時刻t’ (=1,2,…,T’)での最大値を与える行動ラベルl_out(t’) (t’=1,2,…,T
’)に変換し，行動認識装置1の外部に出力する。ここで，時間T’は，行動ラベルが未知
の識別対象サンプル（赤外画像と奥行情報のペア）の個数を表す。

このようにして得られた車両内乗員の行動認識結果l_out(t’) (= 1,…,L, t’=1,2,…,T’)は，行動認識装置1を活用するより上位の装置に伝達され，車両内乗員の行動を入力
とする様々なアプリケーションに適用される。たとえば，車両内乗員によるスマホ操作や飲食といった危険行動を認識し，車両の走行状態と照らし合わせることで適応的に注意を促すことなどに適用される。

本実施形態では，時間窓内での各時点における特徴量を連結した時系列特徴量と，当該時間窓内における正解行動の確率分布との組み合わせを学習データとして，時系列データから正解行動の確率分布を求める識別器を学習している。このように，時系列特徴量に基づいて行動認識をしているので，車両内乗員の状態の時系列変化を考慮して行動認識が可能となる。すなわち，ある一つの時点のみの状態では識別できないような行動であっても適切に識別可能である。また，車両内乗員の人体姿勢の時系列的変化に依存した行動，た
とえば，車両内乗員の乗降，シートベルトの着脱，右左折時のステアリング操作，ナビゲーション・システム操作時の上下左右へのスワイプ操作などの認識精度を向上することができる。

また，各時点における特徴量として，部位間の距離の大きさの順位を特徴量として利用しているので，ロバスト性の高い行動認識が行える。距離の大きさの順位は，拡大・縮小と言ったスケール変換，回転や平行移動が生じても不変であり，また部位の微小変動に対しても頑強であるためである。このような特性により，車両内乗員の行動を推定する際に生じる様々な変動，たとえば，座席位置の水平移動，乗員の体格差，カメラの位置や向き，深層学習による人体の部位の位置の推定誤差などによる影響を抑制することができる。

（第2の実施形態）
本発明の第2の実施形態について，図12,図13を参照して説明する。図12(a)および図12(b)は本実施形態に係る行動認識装置3および学習装置4の概略構成を示すブロック図である。本実施形態に係る行動認識装置は，半導体集積回路(LSI)を用いて実現できる。

行動認識装置3は，図12(a)に示すように，赤外画像入力部31と，奥行情報入力部32と，人体部位検出部33，姿勢情報検出部34と，特徴量算出部35と，識別部37とを有する。学習装置4は，図12(b)に示すように，赤外画像入力部31と，奥行情報入力部32と，人体部位検出部33，姿勢情報検出部34と，学習部36とを有する。これらの構成要素は行動認識装置3
および学習装置3が果たす機能にそれぞれ対応している。なお，本実施形態においては，
第1の実施形態との相違箇所のみ言及する。

第1の実施形態では，人体部位検出部13において，車両内乗員の人体の部位の位置を検
出し，得られた人体の部位間の距離の順序関係のみに基づいて，特徴量を算出したのに対して，本実施形態では，人体の部位間の距離の順序関係だけでなく，車両内乗員の顔の向き，頭部領域（車両内乗員の頭部領域が画像空間上のどこにあるのか），手領域（車両内乗員の手領域が画像空間上のどこにあるのか）に基づいて特徴量を算出する点に特徴がある。車両内乗員の顔の向き，頭部領域，手領域は，車両内乗員の姿勢に関する情報の一例である。

以下，本実施形態の各機能部について説明する。赤外画像入力部31と，奥行情報入力部32と，人体部位検出部33は，それぞれ第1の実施形態の対応する機能部と同様の処理を行
う。

姿勢情報検出部34は，図13のように，車両内乗員の頭部領域を包含する矩形領域を表す2点r₁=(X₁(t),Y₁(t),Z₁(t)), r₂=(X₂(t),Y₂(t),Z₂(t))と，車両内乗員の顔向きを示す方
向ベクトルr₃=(X₃(t),Y₃(t),Z₃(t))と，車両内乗員の手領域を包含する矩形領域を表す2
点r₄=(X₄(t),Y₄(t),Z₄(t)), r₅=(X₅(t),Y₅(t),Z₅(t))とに基づいて，乗員情報I(t)を抽出し，特徴量算出部25に出力する。具体的には，姿勢情報P(t)は，式(2)のように，これら
の3次元情報を次元方向に連結して与えればよい。

ここで，車両内乗員の姿勢情報P(t)=(r₁,r₂,r₃,r₄,r₅)は，たとえば，非特許文献4のように，あらかじめ，車両内乗員の頭部領域を包含する矩形領域を表す2点r₁=(X’₁(t),Y’₁(t),Z₁(t)), r₂=(X’₂(t),Y’₂(t),Z’₂(t))と，車両内乗員の顔向きを示す方向ベクト
ルr₃=(X’₃(t),Y’₃(t),Z’₃(t))と，車両内乗員の手領域を包含する矩形領域を表す2点r₄=(X’₄(t),Y’₄(t),Z’₄(t)), r₅=(X’₅(t),Y’₅(t),Z’₅(t))が付与された大量の学習
用データを用いて，車両内乗員の姿勢情報P(t)=(r₁,r₂,r₃,r₄,r₅)を推定するための識別
器C₂を構成し，得られた識別器C₂を用いて，ある時刻tでの車両内乗員の姿勢情報P(t)=(r₁,r₂,r₃,r₄,r₅)を推定すればよい。

なお，頭部領域や手領域は，矩形領域として特定する必要はなく，多角形や円（楕円を含む）の領域として特定してもよい。また，領域の特定方法も特に限定されず，頂点位置を指定する代わりに，中心位置と大きさを指定して特定するようにしてもよい。

特徴量算出部35は，人体部位検出部33で得られた時刻tでの車両内乗員のM個の部位の2
次元座標(x_m(t),y_m(t)) (m=1,2,…,M)の距離の順位を表す順位特徴量と，姿勢情報検出部24で得られた時刻tでの姿勢情報P(t)とに基づいて，特徴量F(t)を算出し，学習部15およ
び識別部16に出力する。具体的には，特徴量F(t)は，式(3)を用いて算出すればよい。順
位特徴量は，第1の実施形態と同様にして求められる。

本実施形態では，上述の特徴量F(t)が第1の特徴量に相当し，人体部位検出部33と姿勢
情報検出部34の両方が乗員情報取得手段に相当する。

学習部36および識別部37は，使用する特徴量が式3により求められる特徴量を時系列に
並べた時系列特徴量であることを除けば，第1の実施形態と同様である。すなわち，学習
部36は，各時間窓における行動ラベルの確率分布を求め，同一の時間窓内の時系列特徴量と確率分布の組を学習データとして，時系列データから行動ラベルの確率分布を求める識別器C₁を学習する。また，識別部37は，時系列特徴量に対応する行動ラベルの確率分布を識別器C1によって求め，最大値を与える行動ラベルを対象の時間窓内での行動として決定する。

本実施形態によれば，車両内乗員の顔の位置や向きおよび手の位置を考慮した行動認識が行える。したがって，より精度の良い認識が可能となる。たとえば，車両内乗員の行動に応じて，人体姿勢だけでなく，手指姿勢，顔の位置，顔の向き，視線なども変化する。したがって，そのような行動，たとえば，車両内乗員の乗降，シートベルトの着脱，右左折時のステアリング操作，ナビゲーション・システム操作時の上下左右へのスワイプ操作などの認識精度をさらに向上することができる。

（変形例）
上記の説明では，人体の部位の位置として2次元位置(x_m(t), y_m(t))を求めており，し
たがって，部位間の距離もxy面内での距離が用いられている。しかしながら，人体の部位の位置を3次元で求めて，部位間の距離として3次元空間内での距離を用いることも好適である。

また，学習処理や行動認識処理において用いられる人体の部位の位置は，どのようにして求められても構わない。これは部位検出のアルゴリズムが特定のものに限定されないことを意味するだけでなく，部位検出を人手で行ってもよいことを意味する。もっとも，行動認識処理については，リアルタイムに処理を行うために人体の部位検出を機械によって行うことが望ましい。

本発明における行動認識装置1,3や学習装置2,4は，半導体集積回路(LSI)による実装に
限定されず，汎用的なマイクロプロセッサやメモリを有するコンピュータがプログラムを実行することによって実現されても構わない。また，上記の説明では，行動認識装置1,3
と学習装置2,4を異なる装置として説明したが，1台の装置において学習モードを認識モードとを切り替えられるように構成しても構わない。

1…行動認識装置
11…赤外画像入力部
12…奥行情報入力部
13…人体部位検出部
14…特徴量算出部
15…学習部
16…識別部

Claims

車両内を撮影した動画像に基づいて，車両内乗員の行動を識別する行動識別装置であって，
前記動画像の各フレーム画像から，車両内乗員に関する乗員情報を取得する乗員情報取得手段と，
前記動画像の各フレーム画像について，前記乗員情報に基づく特徴量である第1特徴量
を算出する第1特徴量算出手段と，
所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出手段と，
第2特徴量から所定期間における行動ラベルの確率分布を求めるようあらかじめ学習さ
れた識別器と，前記第2特徴量算出手段が算出した第2特徴量とを用いて，車両内乗員の行動を識別する識別手段と，
を備えることを特徴とする行動識別装置。
前記乗員情報は，車両内乗員の複数の人体部位の位置を含み，
前記第1特徴量は，前記人体部位の位置の関係に基づく特徴量である，
請求項1に記載の行動識別装置。
前記第1特徴量は，前記人体部位の間の距離の大きさの順位に基づく特徴量である，
請求項2に記載の行動識別装置。
前記乗員情報は，さらに，頭部領域の位置，顔の向き，および手領域の位置の少なくともいずれかを含み，
前記第1特徴量は，前記人体部位の位置の関係に基づく特徴量と，顔領域の位置，顔の
向き，および手領域の位置の少なくともいずれかとを組み合わせたものである，
請求項2または3に記載の行動識別装置。
前記動画像は，赤外画像と距離画像とを含む，
請求項1から4のいずれか１項に記載の行動識別装置。
前記識別手段は，前記識別器から得られる確率分布において最大値を与える行動ラベルを，前記車両内乗員の行動として決定する，
請求項1から5のいずれか１項に記載の行動識別装置。
車両内を撮影した動画像の各フレーム画像から，車両内乗員に関する情報を取得する乗員情報取得手段と，
各フレーム画像における前記車両内乗員の正解行動を取得する正解行動入力手段と，
所定期間のフレーム画像において前記車両内乗員が取った各正解行動の割合を表す確率分布を算出する確率分布算出手段と，
各フレーム画像について，前記乗員情報に基づく特徴量である第1特徴量を算出する第1特徴量算出手段と，
所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出手段と，
前記第2特徴量算出手段が算出した第2特徴量と，前記確率分布算出手段が算出した確率分布とに基づいて，車両内乗員が所定期間において取った各行動の確率分布を識別するための識別器を学習する学習手段と，
を備えることを特徴とする学習装置。
前記乗員情報は，車両内乗員の複数の人体部位の位置を含む，
前記第1特徴量は，前記人体部位の位置の関係に基づく特徴量である，
請求項7に記載の学習装置。
前記第1特徴量は，前記人体部位の間の距離の大きさの順位に基づく特徴量である，
請求項8に記載の学習装置。
前記乗員情報は，さらに，頭部領域の位置，顔の向き，および手領域の位置の少なくともいずれかを含み，
前記第1特徴量は，前記人体部位の位置の関係に基づく特徴量と，顔領域の位置，顔の
向き，および手領域の位置の少なくともいずれかとを組み合わせたものである，
請求項8または9に記載の学習装置。
前記動画像は，赤外画像と距離画像とを含む，
請求項7から10のいずれか１項に記載の学習装置。
車両内を撮影した動画像に基づいて，車両内乗員の行動を識別する行動識別方法であって，
前記動画像の各フレーム画像から，車両内乗員に関する乗員情報を取得する乗員情報取得ステップと，
前記動画像の各フレーム画像について，前記乗員情報に基づく特徴量である第1特徴量
を算出する第1特徴量算出ステップと，
所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出ステップと，
第2特徴量から所定期間における行動ラベルの確率分布を求めるようあらかじめ学習さ
れた識別器と，前記第2特徴量算出ステップにおいて算出した第2特徴量を用いて，車両内乗員の行動を識別する識別ステップと，
を含むことを特徴とする行動識別方法。
車両内を撮影した動画像の各フレーム画像から，車両内乗員に関する乗員情報を取得する乗員情報取得ステップと，
各フレーム画像における前記車両内乗員の正解行動を取得する正解行動入力ステップと，
所定期間のフレーム画像において前記車両内乗員が取った各正解行動の割合を表す確率分布を算出する確率分布算出ステップと，
各フレーム画像について，前記乗員情報に基づく特徴量である第1特徴量を算出する第1特徴量算出ステップと，
所定期間のフレーム画像についての第1特徴量を連結した特徴量である第2特徴量を算出する第2特徴量算出ステップと，
前記第2特徴量算出ステップにおいて算出した第2特徴量と，前記確率分布算出ステップにおいて算出した確率分布とに基づいて，車両内乗員が所定期間において取った各行動の確率分布を識別するための識別器を学習する学習ステップと，
を含むことを特徴とする学習方法。
請求項12または13に記載の方法の各ステップをコンピュータに実行させるためのプログラム。