JP6920246B2 - 行動認識装置、モデル構築装置及びプログラム - Google Patents

行動認識装置、モデル構築装置及びプログラム Download PDF

Info

Publication number
JP6920246B2
JP6920246B2 JP2018084754A JP2018084754A JP6920246B2 JP 6920246 B2 JP6920246 B2 JP 6920246B2 JP 2018084754 A JP2018084754 A JP 2018084754A JP 2018084754 A JP2018084754 A JP 2018084754A JP 6920246 B2 JP6920246 B2 JP 6920246B2
Authority
JP
Japan
Prior art keywords
learning
shooting angle
angle
video
shooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018084754A
Other languages
English (en)
Other versions
JP2019191981A (ja
Inventor
建鋒 徐
建鋒 徐
和之 田坂
和之 田坂
柳原 広昌
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018084754A priority Critical patent/JP6920246B2/ja
Publication of JP2019191981A publication Critical patent/JP2019191981A/ja
Application granted granted Critical
Publication of JP6920246B2 publication Critical patent/JP6920246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、行動認識対象となる映像における撮影角度が映像ごとに変動しうる場合であっても高精度に行動認識が可能な行動認識装置、モデル構築装置及びプログラムに関する。
近年、CNN(畳み込みニューラルネットワーク)等による深層学習技術を用いて映像から人物の行動を認識する技術が開発されてきた。非特許文献1では、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)により、アピアランスの特徴と動きの特徴の両方を抽出することで映像からの行動認識を実現している。時間方向のCNNでは、静止画像を入力とし、画像中の物体や背景のアピアランスの特徴を抽出する。一方、空間方向のCNNでは、オプティカルフローの水平方向成分と垂直成分の系列を入力とし、動きに関する特徴が抽出される。そして、当該時間方向及び空間方向の2つのCNNにより抽出されたそれぞれの特徴を統合することにより、高い性能で行動認識を実現している。このように、非特許文献1の特徴はアピアランスと動きからなる2つのストリーム(stream;連続データ)を利用することである。現時点、当該2ストリーム(Two-stream)方式は、非特許文献1の他にも例えば非特許文献2や非特許文献3等でも利用されており、現時点での主流の方式である。
また、非特許文献2では、64フレームのセグメントを処理単位にし、3D CNNで行動を認識する。非特許文献1より、更に時間軸の情報を利用するため、3D convolutionを導入した。また、より深い深層モデルを採用し、より多い学習データを使ったため、精度向上を実現した。また、非特許文献3では、ビデオをN(=3)等分にセグメント化して、それぞれのセグメントのスコアをのちに統合する。非特許文献2と同様に、非特許文献1より、より長い時間軸情報と深い深層モデル、多い学習データを利用することにより、認識精度を高めた。
Karen Simonyan and Andrew Zisserman, "Two-Stream Convolutional Networks for Action Recognition in Videos," in NIPS 2014 Joao Carreira, Andrew Zisserman. " Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset." CVPR2017(2017). Wang, Limin, et al. "Temporal segment networks: Towards good practices for deep action recognition." European Conference on Computer Vision. Springer International Publishing, 2016. Cao, Zhe, et al. "Realtime multi-person 2d pose estimation using part affinity fields." CVPR2017(2017).
しかしながら、以上のような従来技術は、映像データが理想的な環境において用意されていることを前提として、高精度な認識結果を得るものであった。具体的には、映像における人物等の動作対象の撮影角度が例えば正面である等の、予め既知の固定的な撮影角度となっているという理想的な環境が前提とされていた。このような理想的な環境における前提が成立しない実環境においては、得られる映像データの撮影角度は様々に変動しうる中のいずれかである未知のものとなるが、従来技術による行動認識をこのような撮影角度が未知の映像データに適用すると、認識精度が低下してしまうという課題があった。
本発明は、当該従来技術の課題に鑑み、映像における撮影角度が映像ごとに変動しうるものであっても高精度に行動認識が可能な行動認識装置及びプログラムを提供することを第一の目的とする。また、当該行動認識装置で用いるモデルを構築することができるモデル構築装置を提供することを第二の目的とする。
上記目的を達成するため、本発明は、行動認識装置であって、行動認識の対象となる映像から、スケルトンデータを抽出する抽出部と、前記抽出したスケルトンデータに基づいて、前記映像において行動対象が撮影されている撮影角度を推定する推定部と、前記推定された撮影角度に応じた撮影角度において予め構築されている学習済モデルを前記映像に対して適用することにより、前記映像における行動を認識する認識部と、を備えることを第一の特徴とする。また、コンピュータを当該行動認識装置として機能させるプログラムであることを第二の特徴とする。さらに、モデル構築装置であって、行動種別のラベルが事前付与された複数の学習用映像からそれぞれ、スケルトンデータを抽出する学習用抽出部と、前記抽出したスケルトンデータに基づいて、学習用映像の各々において行動対象が撮影されている撮影角度を推定する学習用推定部と、前記複数の学習用映像を前記推定された撮影角度ごとに学習して、撮影角度ごとの映像の行動認識モデルを構築する学習部と、を備えることを第三の特徴とする。
前記第一又は第二の特徴によれば、映像における撮影角度を推定したうえで当該撮影角度に応じた学習済モデルを適用して映像における行動認識をすることにより、映像における撮影角度が映像ごとに変動しうるものであっても高精度に行動認識が可能となり、前記第一の目的が達成される。また、前記第三の特徴によれば、前記第二の目的が達成される。
一実施形態に係る行動認識装置の機能ブロック図である。 一実施形態に係る行動認識装置の動作のフローチャートである。 スケルトンデータの抽出の模式例を示す図である。 撮影角度推定処理の一例として所定の5種類の角度が推定対象となる場合の模式例を示す図である。 図4の5種類の角度を推定する場合を例として、撮影角度推定処理の概略的な原理を説明するための模式図である。 図4の5種類の撮影角度において図5の所定の5関節の組み合わせの各々が検出される信頼度を表形式で示すものである。 図4ないし図6の具体例において撮影角度に応じた信頼度の値の変化の挙動が異なる設定がなされていることを、3つの関節に関する信頼度グラフとして模式的に示す図である。 図4の5種類の推定角度に対する近傍として3つの近傍を選択することを表形式で示す図である。 推定角度を2次元的に設定する場合の角度を指定するパラメータの一例として球面座標を模式的に示す図である。
図1は、一実施形態に係る行動認識装置の機能ブロック図である。図示するように、行動認識装置10は、学習用抽出部11、学習用推定部12及び学習部13を含むモデル構築装置1と、記憶部2と、抽出部31、推定部32及び認識部33を含む認識処理部3と、を備える。
図2は、一実施形態に係る行動認識装置10の動作のフローチャートである。以下、図2の各ステップを説明しながら、図1の行動認識装置10の各部の動作の概略を説明する。ステップS1では、モデル構築装置1が複数の学習用映像を用いて撮影角度ごとの複数の学習済モデルを構築し、当該構築した学習済モデルを記憶部2において記憶してから、ステップS2へと進む。ステップS2では、ステップS1にて構築され記憶部2に記憶されている撮影角度ごとの学習済モデルを利用することにより、認識処理部3がテスト映像(行動認識の対象となる映像)における行動を認識して、当該フローは終了する。
ステップS1におけるモデル構築装置1による学習済モデルの構築は、その各部11,12,13によりこの順番で次のように構築することができる。
学習用抽出部11は、複数の学習用映像LM(i,t)からスケルトンデータ(2次元骨格間接データ)LSK(i,t)を抽出し、学習用推定部12及び学習部13へと出力する。ここで、インデクスi=1,2,…を複数の学習用映像のそれぞれを識別するインデクスとし、インデクスt=1,2,…をiで指定される各学習用映像における時刻を表すものとする。すなわち、「LM(i,t)」とはi番目の学習用映像における時刻tのフレーム(画像)を表現するものとし、「LSK(i,t)」とは当該フレームより抽出されたスケルトンデータを表現するものとする。このように、学習用抽出部11ではフレームの時系列データとしての学習用映像LM(i,t)より時系列データとしてのスケルトンデータLSK(i,t)を抽出する。なお、スケルトンデータ等の詳細については後述する。
学習用推定部12は、iで指定される各学習用映像LM(i,t)(時刻t=1,2,…)につき、抽出部11で抽出されたスケルトンデータLSK(i,t)(時刻t=1,2,…)を解析することによって、当該映像の撮影されている角度が予め定義しておく所定のn個の角度AG1,AG2,…,AGnのいずれに該当するかを推定し、当該推定結果を学習部13へと出力する。ここで、iで指定される学習用映像LM(i,t)(時刻t=1,2,…)に関して推定された角度がAGk(i)(k(i)は整数であり、1≦k(i)≦n)であるものとする。
学習部13は、iで指定される複数の学習用映像LM(i,t)(時刻t=1,2,…)及びこれに関して推定された角度AGk(i)を学習用データとして利用することにより、n個の所定の撮影角度AG1,AG2,…,AGnのそれぞれに対応する撮影角度ごとの行動認識のための学習済モデルM1,M2,…,Mnを構築し、当該構築した学習済モデルを記憶部2に記憶させる。
ステップS2における認識処理部3によるテスト映像の行動認識は、その各部31,32,33によりこの順番で次のように認識することができる。
抽出部31は、時系列データとしてのある1つのテスト映像TM(t)(時刻t=1,2,…)より時系列データとしてのスケルトンデータTSK(t)(時刻t=1,2,…)を抽出して推定部32及び認識部33へと出力する。ここで、学習用抽出部11での説明と同様に、「TM(t)」は当該テスト映像の時刻tのフレームを意味し、「TSK(t)」は当該フレームから抽出された時刻tのスケルトンデータを意味する。また、抽出部31におけるスケルトンデータの抽出処理は学習用抽出部11におけるスケルトンデータの抽出処理と同様であり、抽出対象となる映像のみが異なる。
推定部32は、抽出部31から得たスケルトンデータTSK(t)(時刻t=1,2,…)を解析することによって対応するテスト映像TM(t)(時刻t=1,2,…)における撮影角度を推定し、当該推定結果を認識部33へと出力する。ここで、推定部32における撮影角度の推定処理は学習用推定部12における撮影角度の推定処理と同一であり、推定対象となるデータのみが異なっている。すなわち、推定部32では、テスト映像TM(t)(時刻t=1,2,…)における撮影角度が、学習用推定部12と同様の予め定義しておく所定のn個の角度AG1,AG2,…AGnのいずれに該当するかを同様の処理によって推定する。ここで、推定部32での推定結果が角度AGK(Kは整数であり、1≦K≦n)であるものとする。
認識部33は、推定部32から得られる推定結果の角度AGKに基づいて、記憶部2で記憶されている撮影角度ごとの行動認識のための学習済モデルM1,M2,…,Mnから当該推定撮影角度AGKに対応角度が近いと判定される複数のモデル{Mk}[近傍]={Mk|角度AGkと角度AGKとが近いと判定される}を選択し、当該選択した複数のモデル{Mk}[近傍]を用いることによってテスト映像TM(t)(時刻t=1,2,…)において撮影されている行動の認識結果を得る。(なおここで、周知の数学表記としての「{X|Xが満たす条件A}」を、「当該条件Aを満たすようなXの集合」を意味するものとして利用しており、以下の説明でも同様とする。)
以下では、以上において概略説明した行動認識装置10の各部の処理の詳細を説明する。
<学習用抽出部11及び抽出部31での抽出処理>
既に説明した通り、学習用抽出部11及び抽出部31における映像データからのスケルトンデータの抽出処理は共通のものであり、具体的には例えば前掲の非特許文献4に開示の既存の人物ポーズ推定手法により映像データの各フレーム画像Pから、当該画像P内における2次元骨格関節位置としてのスケルトンデータSD及び各関節の信頼度(0以上1以下で規格化された信頼度)を求めるようにすればよい。なお、非特許文献4の人物ポーズ推定手法は、静止画フレームを対象として2本立てのCNNを適用するものであり、具体的には、画像内の各位置における体の部位としての信頼度を数値化した部位信頼度マップ(part confidence map)という特徴に基づくCNN(第一CNNとする)と、画像内の各位置における体の部位同士のつながり度合いを親和度ベクトルとして表現した部位親和度フィールド(part affinity field)という特徴に基づくCNN(第二CNNとする)と、の2つを用いるものである。
非特許文献4では予め画像認識用に構築されたCNN(VGG-19等)を用いてフレームから特徴マップを抽出し、複数ステージs=1, 2, …, Sに渡って共通の教師データで最適化しながら当該抽出した特徴マップを上記の第一CNN及び第二CNNに入力し、部位信頼度マップPCM(s)及び部位親和度フィールドPAF(s)を出力することを繰り返すことにより、最終的に得られた部位親和度フィールドに対して二部マッチング(Bipartite Matching)を適用することで各関節の検出結果を得ると共に、対応する部位信頼度マップよりその信頼度を得る。なお、学習用抽出部11及び抽出部31では非特許文献4の手法に限らず、2次元的な画像情報のみから各関節及びその信頼度を得る任意の既存手法を用いてよい。
図3は当該スケルトデータの抽出処理の模式例として、[1]に示されるようなフレーム画像Pから[2]に示されるようなスケルトンデータSDが得られることを示す図である。なお既に説明した通り、スケルトンデータは映像データに対応する時系列データとして得られるものであり、図3の模式例においてはある1つの時刻tにおいて映像データから切り出されたフレーム画像Pに対応するスケルトンデータSDが示されている。
図3の[1]の画像Pには行動認識の対象としての「椅子に座って携帯電話で通話中の人物」が撮影されており、[2]では当該人物から予め定義された所定フォーマットに即した骨格関節として抽出されたスケルトンデータSDが示されており、所定フォーマットとして18個の関節j0〜j17(鼻j0、首j1、右肩j2、右ひじj3、右手首j4、左肩j5、左ひじj6、左手首j7、右尻j8、右膝j9、右足首j10、左尻j11、左膝j12、左足首j13、右目j14、左目j15、右耳j16及び左目j17)がその画像P内での2次元画像座標位置及び信頼度と共に抽出される。
<学習用推定部12及び推定部32での撮影角度推定処理>
既に説明した通り、学習用推定部12及び推定部32でのスケルトンデータに基づく元の映像データ(当該スケルトンデータを抽出した元の映像データ)における撮影角度の推定処理は共通のものであり、具体的には次のようにして推定することができる。ここでは一実施形態として、前述の予め定義しておく所定のn個の角度AG1,AG2,…AGnにおける数n=5であり、図4に模式的に示すように当該5個の角度が具体的にはAG1=-90度、AG2=-45度、AG3=0度、AG4=45度、AG5=90度である場合を例として説明する。
図4では、地面などの平面PL上にその行動の認識対象となる人物OBが存在し、映像データを得るためのカメラ(当該平面PL上にて人物OBと同程度の高さに存在するカメラ)C1,C2,C3,C4,C5によりそれぞれ撮影される離散的な所定角度(被写体としての人物OBから見た撮影カメラの角度)の候補の例として、各角度AG1=-90度、AG2=-45度、AG3=0度、AG4=45度、AG5=90度が、当該人物OBを中心とし平面PL上にある円CL上に描かれている。(なお、円CLは手前側のみが描かれている。)角度AG1=-90度(図面上で右側)は人物OBから見てカメラC1が左側(真左)に該当し、角度AG3=0度(図面上で下側)は人物OBから見てカメラC3が正面に該当し、角度AG5=90度(図面上で左側)は人物OBから見てカメラC5が右側(真右)に該当する。図示される通り、角度AG2=-45度は角度AG1,AG3の中間角度(人物OBから見てカメラC2が正面左側)であり、AG4=45度は角度AG3,AG5の中間角度(人物OBから見てカメラC4が正面右側)である。
図5は、図4の5種類の角度を推定する場合を例として、撮影角度推定処理の概略的な原理を説明するための模式図である。当該原理は、スケルトンデータのうちの少なくとも一部又は全部の所定関節に関して、撮影角度に応じて見えたり見えなくなったりする(当該関節が人物のその他の部位に隠れるオクルージョンにより見えなくなる)挙動を有すること、また当該挙動が少なくとも一部の所定関節同士において相違することに基づいて、所定関節から求まる信頼度の値(各関節の信頼度をベクトルとして列挙した値)が撮影角度に応じて変化し、撮影角度ごとの特徴的なベクトル値を取るというものである。
当該模式図としての図5は、図3で説明した全身の18個の関節からなるスケルトンデータのうち、当該撮影角度ごとの特徴的なベクトル値を与えるような身体上の位置にある所定関節の組み合わせとして、顔における5つの関節の組み合わせ「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」を設定する例を示すものである。図5にて上段側には見出し[A1]〜[A5]として図4の5つの角度「AG1=-90度、AG2=-45度、AG3=0度、AG4=45度、AG5=90度」の場合にそれぞれ撮影される行動人物の撮影画像から上半身周辺のみを切り出した画像P1〜P5が示されている。そして、図5にて下段側には見出し[B1]〜[B5]として当該上段側の画像P1〜P5における5つの関節の組み合わせ「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」に関する検出結果R1〜R5が示されている。
例えば[B3]に示す角度AG3=0度(人物から見て正面が撮影カメラ)の場合の検出結果は「R3=j16,j14,j0,j15,j17」であり5つの関節が全て検出される。一方、[B2]の角度AG2=-45度(人物から見て左手前側が撮影カメラ)の場合、結果R3においては検出されていた右耳j16がカメラからは見えなくなることによって未検出となって検出結果「R2=j14,j0,j15,j17」となる。さらに、[B1]の角度AG1=-90度(人物から見て真左が撮影カメラ)の場合、結果R2において検出されていた右目j14がカメラからは見えなくなることによって未検出となった検出結果「R1=j0,j15,j17」となる。同様に、これらとは逆側の[B4]では検出結果「R4=j16,j14,j0,j15」(結果R3から左耳j17が未検出)となり、[B5]では検出結果「R5=j16,j14,j0」(結果R4から左目j15が未検出)となる。
図6は、以上のような図4の5つの角度において図5に示されるような所定の5つの関節の組み合わせ「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」の各々が検出される信頼度を「高、中、低」の3段階に分類したものとして表形式で示すものであり、図5に関して上記説明した通りの見え方に応じた信頼度が図6の表には示されている。
以上、撮影角度推定処理の原理を説明した。次に、当該撮影角度推定処理の具体的な内容としての手順1A及び手順2Aを、当該原理説明に用いた図4〜図6の場合を例として説明する。
(手順1A)映像データ(学習用映像又はテスト映像の映像データ)の各時刻tのフレームF(t)に対応するスケルトンデータSK(t)に関して、その撮影角度が図4の5つの角度「AG1=-90度、AG2=-45度、AG3=0度、AG4=45度、AG5=90度」のいずれに該当するかを決定する。具体的に当該撮影角度の決定は、図5で説明した所定の5個の関節「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」のそれぞれの信頼度(当該信頼度は学習用抽出部11及び抽出部31においてスケルトンデータを抽出した際に求まっている)を要素として列挙した5次元ベクトルV5(t)が、図6に示される各撮影角度に応じた信頼度(ベクトル)のいずれに該当するものかを特定することにより、決定することができる。例えばV5(t)の各値が「低、低、中、高、高」に該当するものであれば、図6を参照することにより当該時刻tの撮影角度が「AG1=-90度(真左)」であるものとして決定することができる。
ここで、当該5次元ベクトルV5(t)がいずれの撮影角度に該当するかを決定する図6のテーブル情報は、予め所与のものとして実験データ等を用いて手動等で用意しておき、当該テーブル情報を参照することによって撮影角度を決定することができる。「高、中、低」に関しても当該用意しておく際に所与の範囲として設定しておけばよい。例えば、0以上1以下に規格化された信頼度において0.8以上を「高」、0.4以上0.8未満を「中」、0.4未満を「低」と設定してよい。
また、具体的に図4の5つの角度「AG1=-90度、AG2=-45度、AG3=0度、AG4=45度、AG5=90度」のいずれに該当するかを図5で説明した所定の5個の関節「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」の信頼度によって決定する場合に限らず、その他の一般の場合であっても全く同様に、図6のテーブル情報に対応するものを用意しておくことで時刻tのスケルトンデータSK(t)の撮影角度を決定することができる。ここで、「高、中、低」の3段階に限らず任意段階でテーブル情報を用意してもよい。また、当該テーブル情報は「高、中、低」のような3段階の範囲情報としてではなく、0以上1以下で規格化された信頼度ベクトルの基準値として与えておくようにしてもよい。例えば「AG1=-90度(真左)」に関して図6のように「低、低、中、高、高」として与えるのではなく、具体的な値として「0, 0.1, 0.5, 0.8, 0.8」等として与えるようにしてもよい。
すなわち、一般の場合は次のようにすればよい。ここで、推定される所定の撮影角度はn個のAG1, AG2, …, AGnであるものとし、スケルトンデータのうちの所定のm個の関節jg1, jg2, …, jgmの信頼度を各要素として列挙して得られるm次元の信頼度ベクトルVm(t)によって撮影角度を推定するものとする。この場合、n個の撮影角度AG1, AG2, …, AGnにおいて得られる基準値としてのm次元の信頼度ベクトルVm-1, Vm-2, …, Vm-nを予め所与の学習用スケルトンデータ等によって手動等で求めておき、当該基準値としての信頼度ベクトルを列挙したものVm-1, Vm-2, …, Vm-nを図6のテーブル情報に相当するものとして用意しておけばよい。当該時刻tの信頼度ベクトルVm(t)との距離が最も近い基準値の信頼度ベクトルがVm-1, Vm-2, …, Vm-nのいずれであるかを決定することで、これに対応する撮影角度(AG1, AG2, …, AGnのいずれか)として時刻tのスケルトンデータSK(t)の撮影角度を決定することができる。
なお、所与のn個の撮影角度AG1, AG2, …, AGnに関して、上記の基準値としての信頼度ベクトルVm-1, Vm-2, …, Vm-nとの間の距離判定を安定して実現可能なものとして、スケルトンデータのうちの所定のm個の関節jg1, jg2, …, jgmを信頼度ベクトルの計算対象として設定しておけばよい。これには一般に、少なくとも一部の異なる関節jgm1, jgm2(m1≠m2, 1≦m1, m2≦m)においては所与のn個の撮影角度AG1, AG2, …, AGnでの信頼度の値の変化の挙動が可能な限り異なるように、m個の関節jg1, jg2, …, jgmを設定しておけばよい。具体的には例えば、少なくとも一部の異なる関節jgm1, jgm2においてはオクルージョンが生じて見えなくなる撮影角度が異なるように設定しておけばよい。
図7は、図4ないし図6の具体例において当該信頼度の値の変化の挙動が異なる設定がなされていることを模式的に示す図である。ここでは所定の5個の関節「右耳j16、右目j14、鼻j0、左目j15及び左耳j17」のうち3つの関節「右耳j16、鼻j0及び左耳j17」に関する撮影角度360度範囲での信頼度変化挙動のグラフがそれぞれ「線L16、線L0及び線L17」として示されている。右耳j16の信頼度のグラフ線L16は-90度(真左)の近傍範囲において、鼻j0の信頼度のグラフ線L0は±180度(真後ろ)の近傍範囲において、左耳j17の信頼度のグラフ線L17は90度(真右)の近傍範囲において、それぞれオクルージョンを生じることにより信頼度が低下しており、当該低下する範囲は互いに異なっている。なお、図7には示されていない残りの2個の関節「右目j14及び左目j15」に関してもこれら図7の3個の中間的な挙動を示すことにより、信頼度の低下範囲が相違するものである。こうして、図6に示されるような各撮影角度での特徴的な信頼度ベクトルが得られることとなる。なお、図7での360度範囲とは明らかなように、図4で説明した人物の前方のみの180度の範囲をさらに人物後方の範囲も含むように拡張したものである。(図7では信頼度変化の挙動の相違がより明確化して示されるように、当該拡張した範囲を示している。)
(手順2A)以上の手順1Aにより映像データの各時刻t=1,2,…のフレームF(t)に対応するスケルトンデータSK(t)に基づく、フレームF(t)の撮影角度AG(t)が求まるので、これに基づき、手順2Aでは当該映像データ全体での撮影角度を決定することで、学習用推定部12及び推定部32からの最終的な出力としての映像データにおける撮影角度を得る。具体的には、当該映像データ全体において手順1Aによりフレーム単位で得られた撮影角度のうち最多数となった撮影角度を当該映像データの撮影角度として決定してよい。あるいは、映像データにおける重要な時間帯(例えば、真ん中の50%フレームや人の向きに影響のあるスケルトンの変化が無かった時間など)を事前に決めておき、その重要な時間帯のみを評価対象として、最多数を得た撮影角度を当該映像データの撮影角度として決定してもよい。
<学習部13>
学習部13では、各々がインデクスiで指定される複数の学習用映像LM(i,t)に関して、学習用推定部12で得られたその撮影角度LAG(i)(n個の撮影角度AG1, AG2, …, AGnのいずれか)の情報を利用することにより、n個の撮影角度AG1, AG2, …, AGnごとの行動認識のための学習済モデルM1, M2, …, Mnを構築する。具体的には、以下の手順1B及び2Bによって構築することができる。
(手順1B)全ての学習用映像LM(i,t)(すなわち、n個の撮影角度AG1, AG2, …, AGnが映像ごとに様々に混じっているもの)を学習用データとして用いることで、全ての撮影角度に共通の(すなわち、撮影角度に非依存の)1つの学習済モデルM[共通]を得る。
(手順2B)当該学習した共通の学習済モデルM[共通]を初期値とし、1つの撮影角度AGk(k=1, 2, …, n)に該当する学習用映像(全ての学習用映像LM(i,t)のうちの一部分)を学習用データとして転移学習(fine tuning)することにより、当該撮影角度AGkに対応する学習済モデルMkを得る。
以上、手順1B及び手順2BはCNN学習における既存手法である転移学習を利用するものであり、個別の撮影角度AGkごとの学習用映像の数が少ない場合であっても、所定の認識精度を有した当該角度AGkに対応する学習済モデルMkを得ることができる。なお、手順1B及び手順2BでのCNNの学習に関しては、既に説明した非特許文献1ないし3等における2ストリーム法(空間方向CNN及び時間方向CNNを統合するもの)を利用すればよい。ここで、空間方向CNNを学習するために、(元の映像データのみではなく、または、元の映像データに代えて、)学習用抽出部11で抽出されたスケルトンデータ時系列を用いるようにしてもよい。なお、学習用映像LM(i,t)の各々に関しては当該CNN学習を可能とするために、当該映像内の行動種別をラベルとして事前に与えておくものとする。
<認識部33>
概略説明として既に説明した通り、認識部33では、記憶部2に記憶されている撮影角度AGk(k=1, 2, …, n)ごとのモデルMk(k=1, 2, …, n)のうち、推定部32で得られたテスト映像の撮影角度の推定結果AGK(1≦K≦n)に対応角度が近いと判定される複数のモデル{Mk}[近傍]={Mk|角度AGkと角度AGKとが近いと判定される}を選択し、当該選択した複数のモデル{Mk}[近傍]をテスト映像に対して適用することにより、当該モデルに予め定義されている行動種別ごとのスコア値を得て、当該スコア値を最大とするものを、テスト映像における行動認識結果として出力する。ここで、行動種別ごとのスコア値を得る際には、選択された複数のモデル{Mk}[近傍]のそれぞれのスコア値の所定の重みづけ和として得るようにする。
以下、認識部33による当該テスト映像の行動認識処理の詳細を、前述の図4ないし図6を参照して説明した5つの関節及びこれに基づいて推定される5つの角度(-90度、-45度、0度、45度、90度)の場合を例として説明するが、その他の一般の場合についても同様にして行動認識処理が可能である。当該行動認識処理は以下の手順1C及び2Cのようにすればよい。
(手順1C)まず、対応角度が近いと判定される複数のモデル{Mk}[近傍]の具体的な選択を行うが、当該5つの角度の場合、図8に表形式で示されるように、当該180度の範囲内で1次元的に変化する角度の自分自身を含む近傍として、3つの角度を選択するようにすればよい。
例えば、推定角度が-90度であれば、第1適用モデルとして自分自身の-90度のモデルと、第2適用モデルとして最近傍の隣接角度-45度のモデルと、第3適用モデルとして2番目の近傍の隣接角度0度のモデルと、の3つのモデルを選択する。推定角度が-45度であれば、第1適用モデルとして自分自身の-45度のモデルと、第2適用モデルとして最近傍の隣接角度-90度のモデルと、第3適用モデルとして同じく最近傍の隣接角度0度のモデルと、の3つのモデルを選択する。なお、当該推定角度が-45度の場合、第2適用モデルと第3適用モデルとは共に最近傍であるため、図8に示すのとは逆のものとして設定しておいてもよい。推定角度が0度、45度の場合も同様に第2適用モデルと第3適用モデルとは図8に示すものとは逆のものとして設定しておいてもよい。
なお、図8に示すように近傍の複数モデル{Mk}[近傍]として3つのモデルを選択する必要がある理由は次の通りである。すなわち、行動認識処理の対象となるテスト映像の推定角度(5段階での離散値)が真値と少しズレることがある状況下においても行動認識処理を安定させるためである。例えば、真値が-15度と+15度のテスト映像は0度に推定してしまう可能性が高い。-15度のテスト映像に最適なモデルは-45度のモデルと0度のモデルになるが、+15度のテスト映像に最適なモデルは+45度のモデルと0度のモデルになる。よって、このような離散値での角度推定に基づく行動認識の精度を安定させるために、例えば0度に推定したテスト映像であれば、自身(0度)を含む近傍の角度として-45度と0度、+45度の三つのモデルを適用させることにする。
(手順2C)上記の手順1Cで選択した推定角度自身を含む近傍の3つの角度による第1適用モデル(推定角度自身のモデル)、第2適用モデル(推定角度の近傍角度のモデル)及び第3適用モデル(推定角度の近傍角度のモデル)からそれぞれ行動種別act(=1, 2, …)ごとに算出したスコアを重みづけ和として統合し、当該統合スコアを最大化するものとして最終的な行動種別の認識結果を得る。式で書けば統合スコアの算出は以下の(1)の通りである。
Figure 0006920246
式(1)において、SA1(act)は第1適用モデルで行動種別actに関して算出したスコアであり、SA2(act)は第2適用モデルで行動種別actに関して算出したスコアであり、SA3(act)は第3適用モデルで行動種別actに関して算出したスコアであり、w1,w2及びw3は当該各モデルについての事前に設定しておく重みである。
そして、以下の式(2)のように当該式(1)のスコアの最大値を与えるものとして行動種別actの推定結果best_actを得ることができる。
Figure 0006920246
なお、図4ないし図6の具体的な場合に限らない一般的な場合も同様に、近傍の複数モデル{Mk}[近傍]として推定角度自身を含むN個の近傍が選択されたものとし、k番目の近傍(1番目の近傍は推定角度自身とする)の角度における第k適用モデルのスコアSAk(act)及び所与の重みwkにより、以下の式(3)(重みづけ和の個数に関して式(1)を一般化したものに相当)で統合スコアを算出することができ、最終的な推定結果は上記と同じ式(2)で得るようにすることができる。
Figure 0006920246
以上、本発明によれば、行動認識対象となるテスト映像における行動対象(人物などの行動主体)の撮影方向がテスト映像ごとに変動しうる未知のものであっても、撮影方向を推定したうえで、事前に用意しておく撮影方向ごとの行動認識モデルを利用して認識することにより、高精度な行動認識結果を得ることができる。以下、本発明における説明上の種々の補足を述べる。
(1)行動認識装置10の利用においては、以下の前提が満たされていることが望ましい。すなわち、第一の前提として、モデル構築装置1で学習用データとして読み込む複数の学習用映像と認識処理部3で行動認識対象として読み込むテスト映像との両方に関して、学習用推定部12及び推定部32で共通の撮影角度推定処理により撮影角度を推定するために用いるスケルトンデータのうちの複数の所定関節が形成する向きが、行動認識対象(人物等の行動主体)の全身向き(当該スケルトンデータ全体の向き)と一致している、という前提である。例えば、図5及び図6の例のように、図3に示した全身の18個の関節のうち顔部分の5個の関節を撮影角度推定処理に用いる場合であれば、顔の向きと全身の向きとが一致しているような映像である前提が満たされることが望ましい。例えば、首から下の身体部分はカメラに対して正面だが、顔だけはカメラに対して横を向いているような映像を扱うのは望ましくない。ただし、時系列としての映像内において当該向きが一致する前提が必ずしも常に成立していなくともよい。
また、第二の前提として、モデル構築装置1で学習用データとして読み込む複数の学習用映像と認識処理部3で行動認識対象として読み込むテスト映像との両方に関して、(行動認識が安定して実現可能なように、)撮影されている行動は1種類とみなせるものであることが望ましい。すなわち、映像はその途中から行動種別が変化しないものであることが望ましい。
(2)学習用推定部12及び推定部32において推定対象の離散的な角度として予め定義しておく所定のn個の角度AG1, AG2, …, AGnに関して、図4等の例では行動認識対象の人物等OBを囲む円CL上で一次元的に変化する範囲内で定義する場合を説明したが、全く同様にして人物等OBを囲む球面上で二次元的に変化する範囲内で定義するようにしてもよい。図9は、当該二次元的に変化する範囲内で所定のn個の角度AG1, AG2, …, AGnを離散的に設定するための指定パラメータの一例として、球面座標を模式的に示す図である。すなわち、直交座標xyzの原点に人物等OBが配置され、カメラCの位置Pは球面座標(r,θ,φ)にあり原点に存在する人物等OBを向いて撮影しているものとして、動径rの方向(θ,φ)を二次元的な撮影角度を指定するパラメータとして利用できる。すなわち、各撮影角度AGk(k=1, 2, …, n)をAGk=(θkk)として指定できる。推定撮影角度AGKに対応角度が近いと判定される複数のモデル{Mk}[近傍]を選択する際も、当該パラメータ(θkk)に基づいて、推定撮影角度AGK自身を含む所定近傍を選択すればよい。
(3)学習用推定部12及び推定部32での共通の撮影角度推定処理に関して、前述の図6のような各撮影角度における関節の信頼度ベクトルを所定のテーブル情報として用意しておくことによる実施形態に対する別の一実施形態として、事前に学習しておく分類器を利用して、当該分類器が出力する各撮影角度の尤度が最大となるような撮影角度を推定結果とする実施形態も可能である。
すなわち、当該分類器は、学習用抽出部11及び抽出部31で映像データの時刻tのフレームF(t)から抽出されたスケルトンデータSK(t)における各関節の信頼度を入力とし、当該スケルトンデータSK(t)における各撮影角度AGk(k=1, 2, …, n)の尤度L(k)を出力するものとして、事前に学習しておく。具体的には例えば、所定層数(3層など)の全結合(fully connected)ニューラルネットワークとして当該分類器を事前構築しておけばよい。ここで、多数の画像に関して各関節の信頼度を抽出すると共に、当該画像の撮影角度がAGk(k=1, 2, …, n)のいずれに該当するかをラベルとして付与しておいたものを学習データとして用意しておき、当該学習データにより当該分類器を構築すればよい。
そして、当該事前に学習しておく尤度L(k)を出力する分類器を映像データの全時刻t=1, 2, …に対応する全スケルトンデータSK(t)に適用し、尤度の映像全体での総和が最大となるような撮影角度を、当該映像の撮影角度として決定すればよい。
(4)認識部33において式(3)で用いるk番目の近傍(1番目の近傍は推定角度自身とする)の角度における第k適用モデルのスコアSAk(act)に対して用いる、前述の所与の重みwkの別の実施形態として、このように定数wkとして事前に与えておく代わりに、上記の尤度を出力する分類器(全結合ニューラルネットワークによるもの)で得られた当該撮影角度の尤度(映像の時間全体に渡る平均値)を用いるようにしてもよい。すなわち、推定部32は上記の尤度を出力する事前構築された分類器によって実現し、当該得られる尤度を対応する撮影角度の重みwkとして採用してよい。この場合、式(3)で用いる重みづけ和の係数の総和「Σwk」が1となるように尤度を規格化したものを、重みwkとして利用してよい。
(5)行動認識装置10は一般的な構成のコンピュータとして実現可能である。すなわち、CPU(中央演算装置)、当該CPUにワークエリアを提供する主記憶装置、ハードディスクやSSDその他で構成可能な補助記憶装置、キーボード、マウス、タッチパネルその他といったユーザからの入力を受け取る入力インタフェース、ネットワークに接続して通信を行うための通信インタフェース、表示を行うディスプレイ、カメラ及びこれらを接続するバスを備えるような、一般的なコンピュータによって行動認識装置10を構成することができる。行動認識装置10の一部であるモデル構築装置1に関しても同様に、当該一般的なコンピュータとして構成することができる。さらに、図1に示す行動認識装置10の各部の処理はそれぞれ、当該処理を実行させるプログラムを読み込んで実行するCPUによって実現することができるが、任意の一部の処理を別途の専用回路等(GPUを含む)において実現するようにしてもよい。
10…行動認識装置、31…抽出部、32…推定部、33…認識部
1…モデル構築装置、11…学習側抽出部、12…学習側推定部、13…学習部

Claims (10)

  1. 行動認識の対象となる映像から、スケルトンデータを抽出する抽出部と、
    前記抽出したスケルトンデータに基づいて、前記映像において行動対象が撮影されている撮影角度を推定する推定部と、
    前記推定された撮影角度に応じた撮影角度において予め構築されている学習済モデルを前記映像に対して適用することにより、前記映像における行動を認識する認識部と、を備えることを特徴とする行動認識装置。
  2. 前記推定部では、前記抽出したスケルトンデータにおける複数の所定関節の、当該抽出された際の信頼度に基づいて前記撮影角度を推定することを特徴とする請求項1に記載の行動認識装置。
  3. 前記複数の所定関節のうちの少なくとも一部は、撮影角度の変動に応じて異なる態様でオクルージョンが発生するものとして設定されていることを特徴とする請求項2に記載の行動認識装置。
  4. 前記推定部では、離散的に設定された所与の複数の候補撮影角度の中から前記映像において行動対象が撮影されている撮影角度を推定することを特徴とする請求項1ないし3のいずれかに記載の行動認識装置。
  5. 前記認識部では、前記離散的に設定された所与の複数の候補撮影角度の各々において予め構築されている学習済モデルのうち、前記推定された撮影角度の近傍にあると判定される候補撮影角度に対応する学習済モデルを用いて、前記映像における行動を認識することを特徴とする請求項4に記載の行動認識装置。
  6. 前記認識部では、前記推定された撮影角度の近傍にあると判定される候補撮影角度に対応する学習済モデルを用いることで、各学習済モデルにおいて得られる行動種別のスコア値の重みづけ和として前記映像における行動種別のスコア値を算出し、当該スコア値を最大化する行動種別を前記映像における行動の認識結果とすることを特徴とする請求項5に記載の行動認識装置。
  7. 前記抽出部ではスケルトンデータにおける各関節の信頼度も抽出し、
    前記推定部では前記抽出した各関節の信頼度に対して事前構築された分類器を適用することで、前記離散的に設定された所与の複数の候補撮影角度の尤度を算出し、当該尤度が最大となるものとして前記映像において行動対象が撮影されている撮影角度を推定し、
    前記認識部では、前記重みづけ和としてスコア値を算出する際の重みとして、前記算出された候補撮影角度の尤度を用いることを特徴とする請求項6に記載の行動認識装置。
  8. コンピュータを請求項1ないし7のいずれかに記載の行動認識装置として機能させることを特徴とするプログラム。
  9. 行動種別のラベルが事前付与された複数の学習用映像からそれぞれ、スケルトンデータを抽出する学習用抽出部と、
    前記抽出したスケルトンデータに基づいて、学習用映像の各々において行動対象が撮影されている撮影角度を推定する学習用推定部と、
    前記複数の学習用映像を前記推定された撮影角度ごとに学習して、撮影角度ごとの映像の行動認識モデルを構築する学習部と、を備えることを特徴とするモデル構築装置。
  10. 前記学習部では、前記複数の学習用映像の全部を用いて撮影角度に依存しない共通行動認識モデルを学習してから、当該共通行動認識モデルを初期値として、撮影角度ごとの学習用映像を用いて学習を行うことにより、前記撮影角度ごとの映像の行動認識モデルを構築することを特徴とする請求項9に記載のモデル構築装置。
JP2018084754A 2018-04-26 2018-04-26 行動認識装置、モデル構築装置及びプログラム Active JP6920246B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018084754A JP6920246B2 (ja) 2018-04-26 2018-04-26 行動認識装置、モデル構築装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018084754A JP6920246B2 (ja) 2018-04-26 2018-04-26 行動認識装置、モデル構築装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019191981A JP2019191981A (ja) 2019-10-31
JP6920246B2 true JP6920246B2 (ja) 2021-08-18

Family

ID=68390455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018084754A Active JP6920246B2 (ja) 2018-04-26 2018-04-26 行動認識装置、モデル構築装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6920246B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353465A (zh) * 2020-03-12 2020-06-30 智洋创新科技股份有限公司 基于深度学习技术的变电站人员行为分析方法及系统
JP7459679B2 (ja) 2020-06-23 2024-04-02 富士通株式会社 行動認識方法、行動認識プログラム及び行動認識装置
WO2022049691A1 (ja) * 2020-09-03 2022-03-10 日本電信電話株式会社 転移学習装置、転移学習方法およびプログラム
JP6876312B1 (ja) * 2020-12-16 2021-05-26 株式会社エクサウィザーズ 学習モデル生成方法、コンピュータプログラム及び情報処理装置
CN112686111B (zh) * 2020-12-23 2021-07-27 中国矿业大学(北京) 基于注意力机制多视角自适应网络的交警手势识别方法
CN113963201B (zh) * 2021-10-18 2022-06-14 郑州大学 骨骼动作识别方法、装置、电子设备及存储介质
WO2023106846A1 (ko) * 2021-12-09 2023-06-15 주식회사 에이치엔에이치 스켈레톤 포인트 기반 서비스 제공 장치 및 방법
KR102560480B1 (ko) * 2022-06-28 2023-07-27 퀀텀테크엔시큐 주식회사 시공간 행동 인지 ai 모델링 서비스를 지원하는 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6217373B2 (ja) * 2013-12-13 2017-10-25 富士通株式会社 動作判定方法、動作判定装置および動作判定プログラム
JP2017097492A (ja) * 2015-11-19 2017-06-01 日本電信電話株式会社 スパース表現変換装置、行動認識装置、方法、及びプログラム
JP6655513B2 (ja) * 2016-09-21 2020-02-26 株式会社日立製作所 姿勢推定システム、姿勢推定装置、及び距離画像カメラ

Also Published As

Publication number Publication date
JP2019191981A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
JP6920246B2 (ja) 行動認識装置、モデル構築装置及びプログラム
JP7149692B2 (ja) 画像処理装置、画像処理方法
Kudo et al. Unsupervised adversarial learning of 3d human pose from 2d joint locations
Xu et al. Predicting animation skeletons for 3d articulated models via volumetric nets
JP2013196683A (ja) 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置
JP5833507B2 (ja) 画像処理装置
US9158963B2 (en) Fitting contours to features
CN102654903A (zh) 一种人脸比对方法
US9202138B2 (en) Adjusting a contour by a shape model
Kumar et al. Indian sign language recognition using graph matching on 3D motion captured signs
CN101968846A (zh) 一种人脸跟踪方法
CN107563323A (zh) 一种视频人脸特征点定位方法
CN112862860B (zh) 一种用于多模态目标跟踪的对象感知图像融合方法
Núnez et al. Real-time human body tracking based on data fusion from multiple RGB-D sensors
CN111753696A (zh) 一种感知场景信息的方法、仿真装置、机器人
Amrutha et al. Human Body Pose Estimation and Applications
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
Chang et al. 2d–3d pose consistency-based conditional random fields for 3d human pose estimation
Wang et al. Annealed particle filter based on particle swarm optimization for articulated three-dimensional human motion tracking
Wang et al. Handling occlusion and large displacement through improved RGB-D scene flow estimation
Kuo et al. Integration of bottom-up/top-down approaches for 2D pose estimation using probabilistic Gaussian modelling
CN116403150A (zh) 一种基于融合c3-cbam注意力机制的口罩检测算法
JP2011232845A (ja) 特徴点抽出装置および方法
Wang et al. SPGNet: Spatial projection guided 3D human pose estimation in low dimensional space
Xiao et al. Human pose estimation via improved ResNet-50

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6920246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150