JP7231286B2 - 行動認識装置、行動認識方法、プログラム及び記録媒体 - Google Patents

行動認識装置、行動認識方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP7231286B2
JP7231286B2 JP2021571127A JP2021571127A JP7231286B2 JP 7231286 B2 JP7231286 B2 JP 7231286B2 JP 2021571127 A JP2021571127 A JP 2021571127A JP 2021571127 A JP2021571127 A JP 2021571127A JP 7231286 B2 JP7231286 B2 JP 7231286B2
Authority
JP
Japan
Prior art keywords
situation
learning
pattern
behavior
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021571127A
Other languages
English (en)
Other versions
JPWO2021145185A1 (ja
Inventor
大介 黒田
一徳 高橋
由仁 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Publication of JPWO2021145185A1 publication Critical patent/JPWO2021145185A1/ja
Application granted granted Critical
Publication of JP7231286B2 publication Critical patent/JP7231286B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、行動認識装置、行動認識方法、プログラム及び記録媒体に関する。
近年、機械学習手法として、多層ニューラルネットワークを用いた深層学習(ディープラーニング)が注目されている。深層学習は、バック・プロパゲーションと呼ばれる計算手法を用い、大量の教師データを多層ニューラルネットワークへ入力した際の出力誤差を計算し、誤差が最小となるように学習を行うものである。
特許文献1乃至3には、大規模なニューラルネットワークを複数のサブネットワークの組み合わせとして規定することにより、少ない労力及び演算処理量でニューラルネットワークを構築することを可能にしたニューラルネットワーク処理装置が開示されている。また、特許文献4には、ニューラルネットワークの最適化を行う構造最適化装置が開示されている。
特開2001-051968号公報 特開2002-251601号公報 特開2003-317073号公報 特開平09-091263号公報
人の仕草や振る舞いを認識するための行動認識においても深層学習の適用が検討されている。しかしながら、深層学習では、教師データとして良質な大量のデータが必要であり、また、学習に長時間を要していた。特許文献1乃至4にはニューラルネットワークの構築のための労力や演算処理量を低減する手法が提案されているが、システム負荷等の更なる軽減のために、簡単なアルゴリズムによってより高い精度で学習及び認識することが望まれていた。
本発明の目的は、画像に写る人物の行動を簡単なアルゴリズムで且つ高い精度で認識することが可能な行動認識装置、行動認識方法、プログラム及び記録媒体を提供することにある。
本発明の一観点によれば、人物を含む被写体の画像における前記被写体の状況に基づいて、状況情報データを生成する状況情報データ生成部と、用法学習モデルを格納する記憶部と、前記状況情報データと前記用法学習モデルとに基づいて前記人物の行動を識別する行動識別部と、を有し、前記状況情報データ生成部は、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた前記状況情報データを生成し、前記用法学習モデルは、特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含み、前記行動識別部は、前記用法学習モデルの前記複数のモデルのうち、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する行動認識装置が提供される。
また、本発明の他の一観点によれば、人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成し、特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には、前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には、前記状況情報データが推定する行動を前記人物の行動と判定する行動認識方法が提供される。
また、本発明の更に他の一観点によれば、コンピュータを、人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成する手段、特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルを格納する手段、及び前記用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する手段、として機能させるプログラムが提供される。
本発明によれば、画像に写る人物の行動をより簡単なアルゴリズムで且つより高い精度で認識することが可能となる。
図1は、本発明の第1実施形態による行動認識装置の構成例を示す概略図である。 図2は、本発明の第1実施形態による行動認識装置における状況学習・識別部の構成例を示す概略図である。 図3は、本発明の第1実施形態による行動認識装置の状況学習・識別部におけるニューラルネットワーク部の構成例を示す概略図である。 図4は、本発明の第1実施形態による行動認識装置の状況学習・識別部における学習セルの構成例を示す概略図である。 図5は、本発明の第1実施形態による行動認識装置における用法学習部の構成例を示す概略図である。 図6は、本発明の第1実施形態による行動認識装置を用いた行動認識方法を示すフローチャートである。 図7は、画像取得部が取得した画像から状況把握部が把握した情報の一例を示す図である。 図8は、状況把握部が把握した情報をマッピングする規則の一例を示す図である。 図9は、状況情報データの一例を示す図である。 図10は、用法学習モデルの一例を示す図である。 図11は、状況情報データと用法学習モデルとに基づいて人物の行動を認識する方法を示すフローチャートである。 図12は、状況情報データのパターンと用法学習モデルのパターンとの内積値を算出する方法を説明する図である。 図13は、本発明の第1実施形態による行動認識装置のハードウェア構成例を示す概略図である。 図14は、本発明の第2実施形態による行動認識装置の構成例を示す概略図である。
[第1実施形態]
本発明の第1実施形態による行動認識装置の概略構成について、図1乃至図5を用いて説明する。図1は、本実施形態による行動認識装置の構成例を示す概略図である。図2は、本実施形態による行動認識装置における状況学習・識別部の構成例を示す概略図である。図3は、本実施形態による行動認識装置の状況学習・識別部におけるニューラルネットワーク部の構成例を示す概略図である。図4は、本実施形態による行動認識装置の状況学習・識別部における学習セルの構成例を示す概略図である。図5は、本実施形態による行動認識装置における用法学習部の構成例を示す概略図である。
本実施形態による行動認識装置1000は、例えば図1に示すように、画像取得部100と、状況把握部200と、状況学習・識別部300と、用法学習部400と、により構成され得る。
画像取得部100は、図示しない外部のカメラや記憶装置から画像を取得する機能を備えた機能ブロックである。画像取得部100が取得する画像は、同じ被写体に対して異なる時間で撮影した複数の画像を含み、例えば動画像である。画像には、状況把握部200における処理に適切な画像を適宜選択することができ、例えば、RGB画像や深度画像を含み得る。
状況把握部200は、画像取得部100が取得した画像の各々に対し、公知の画像認識技術、例えばディープラーニングを用いた画像認識技術を用いて、画像に写る被写体(人物、物体)の認識とその状況を把握する機能を備えた機能ブロックである。状況把握部200における人物認識や物体認識には、公知の機器や方式を適宜用いることができる。例えば、人物認識に適用可能な機器や方式としては、Kinect(登録商標)、Face Grapher、OpenPose、Pose Net、Pose Proposal Networks、DensePose等が挙げられる。物体認識に適用可能な機器や方式としては、SSD(Single Shot Multibox Detector)、YOLOv3、Mask R-CNN等が挙げられる。
また、状況把握部200は、被写体の時系列解析を行う機能を備え得る。被写体の短時間時系列解析には、例えば、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory Network)、GRU(Gated Recurrent Unit)等を適用することができる。被写体の長時間時系列解析には、例えばMemory Networksを適用することができる。
状況学習・識別部300は、状況把握部200から受け取った情報に基づいて状況情報データを生成する機能を備えた機能ブロックである。状況情報データとは、状況把握部200から受け取った情報をマッピングしたパターンと、状況把握部200から受け取った情報から推定される人物の行動を示す推定結果と、が紐付けられたデータである。なお、状況情報データの詳細については後述する。
状況学習・識別部300には、状況把握部200から受け取った情報から人物の行動を推定する状況学習モデルが構築されている。状況学習・識別部300は、状況把握部200から受け取った情報と状況学習モデルから出力される情報とを組み合わせ、状況情報データを生成する。
ここでは状況学習・識別部300の一例として、状況把握部200から受け取った情報に基づいて学習を行い、状況学習モデルを生成する機能を備えた状況学習・識別部300について、図2を用いて説明する。なお、状況学習モデルは、状況把握部200から受け取った情報を入力として推定される人物の行動を出力するものであれば特に限定されるものではなく、例えばルールベースに基づくものであってもよい。この場合、状況学習・識別部300は、必ずしも状況把握部200から受け取った情報に基づいて学習を行う機能を備えている必要はない。
状況学習・識別部300は、例えば図2に示すように、状況情報データ生成部310と、ニューラルネットワーク部320と、判定部330と、学習部340と、識別部350と、出力部360と、により構成され得る。学習部340は、重み修正部342と、学習セル生成部344と、により構成され得る。
状況情報データ生成部310は、状況把握部200から受け取った情報に基づいて、画像に写る人物の行動や物体の状況に関わる情報を表すパターンデータを生成する機能を備える。また、状況情報データ生成部310は、状況把握部200から受け取った情報と状況学習モデルから出力される情報とを組み合わせ、状況情報データを生成する機能を備える。
ニューラルネットワーク部320は、例えば図3に示すように、入力層と出力層とを含む2層の人工ニューラルネットワークにより構成され得る。入力層は、少なくとも、1つのパターンデータに含まれる要素値の数に対応する数のセル(ニューロン)42を備える。例えば、1つのパターンデータがM個の要素値を含む場合、入力層は、少なくともM個のセル42,42,…,42,…,42を含む。出力層は、少なくとも、推定される行動の数に対応する数のセル(ニューロン)44を備える。例えば、出力層は、推定される行動の数に対応するN個のセル44,44,…,44,…,44を含む。出力層を構成するセル44の各々は、推定される行動のうちのいずれかに紐付けられている。なお、教師データを用いてニューラルネットワーク部320を学習する場合、出力層は、少なくとも教師データに紐付けられた行動の数に対応する数のセル44を含む。
入力層のセル42,42,…,42,…,42には、状況情報データのM個の要素値I,I,…,I,…,Iが、それぞれ入力される。セル42,42,…,42,…,42の各々は、入力された要素値Iをセル44,44,…,44,…,44のそれぞれに出力する。
セル42とセル44とを繋ぐ枝(軸索)の各々には、要素値Iに対して所定の重み付けをするための重み付け係数ωが設定されている。例えば、セル42,42,…,42,…,42とセル44とを繋ぐ枝には、例えば図5に示すように、重み付け係数ω1j,ω2j,…,ωij,…,ωMjが設定されている。これによりセル44は、以下の式(1)に示す演算を行い、出力値Oを出力する。
Figure 0007231286000001
なお、本明細書では、1つのセル44と、そのセル44に要素値I~Iを入力する枝(入力ノード)と、そのセル44から出力値Oを出力する枝(出力ノード)とを総称して学習セル46と表記することがある。
判定部330は、パターンデータの複数の要素値と学習セル46の出力値との間の相関値と所定の閾値とを比較し、当該相関値が閾値以上であるか閾値未満であるかを判定する。相関値の一例は、学習セル46の出力値に対する尤度である。なお、判定部330の機能は、学習セル46の各々が備えていてもよい。
学習部340は、判定部330の判定結果に応じてニューラルネットワーク部320の学習を行う機能ブロックである。重み修正部342は、上記相関値が所定の閾値以上である場合に、学習セル46の入力ノードに設定された重み付け係数ωを更新する。また、学習セル生成部344は、上記相関値が所定の閾値未満である場合に、ニューラルネットワーク部320に新たな学習セル46を追加する。
識別部350は、パターンデータの複数の要素値と学習セル46の出力値との間の相関値に基づき、当該パターンデータから推定される人物の行動を識別する。出力部360は、識別部350による識別結果を出力する。
次に、状況学習・識別部300における学習方法について、簡単に説明する。
まず、初期状態として、ニューラルネットワーク部320に、学習対象データに紐付けられた教師情報のカテゴリ(ニューラルネットワーク部320に学習させたい人物の行動)の数に相当する数の学習セル46を設定する。
次いで、状況情報データ生成部310に、学習対象データを取り込む。次いで、状況情報データ生成部310において、取り込んだ学習対象データの特徴を示す要素値を抽出し、所定のパターンデータを生成する。
次いで、パターンデータの複数の要素値を、ニューラルネットワーク部320に入力する。ニューラルネットワーク部320に入力されたパターンデータの要素値I~Iは、セル42~42を介してセル44~42に入力される。これにより、セル44~42Nから、出力Oが得られる。この際、学習セル46の入力ノードには重み付け係数ωが設定されているため、出力値Oは式(1)に基づいて算出される。
次いで、当該学習セル46の出力値Oに基づき、判定部330において、要素値I~Iと学習セル46の出力値Oとの間の相関値(ここでは、学習セルの出力値に関する尤度Pとする)を算出する。尤度Pの算出方法は、特に限定されるものではない。例えば、学習セル46の尤度Pは、以下の式(2)に基づいて算出することができる。
Figure 0007231286000002
式(2)は、尤度Pが、学習セル46の複数の入力ノードの重み付け係数ωijの累積値に対する学習セル46の出力値Oの比率で表されることを示している。或いは、尤度Pが、複数の入力ノードの重み付け係数ωijに基づく学習セル46の出力の最大値に対する、複数の要素値を入力したときの学習セル46の出力値の比率で表されることを示している。
次いで、判定部330において、算出した尤度Pの値と所定の閾値とを比較し、尤度Pの値が閾値以上であるか否かを判定する。
取り込んだ学習対象データの教師情報のカテゴリに紐付けられた学習セル46のうち、尤度Pの値が閾値以上である学習セル46が1つ以上存在した場合には、当該カテゴリに紐付けられた学習セル46のうち尤度Pの値が最も大きい学習セル46の入力ノードの重み付け係数ωを更新する。このようにして、尤度Pの値が所定の閾値以上の学習対象データの情報を各入力ノードの重み付け係数ωに累積していく。
一方、取り込んだ学習対象データの教師情報のカテゴリに紐付けられた学習セル46のうち、尤度Pの値が閾値以上である学習セル46が1つも存在しない場合には、当該カテゴリに紐付けられた新たな学習セル46を生成する。
このようにしてニューラルネットワーク部320を繰り返し学習することにより、ニューラルネットワーク部320に前述の状況学習モデルを構築することができる。
上記学習方法は、深層学習などにおいて用いられている誤差逆伝播法(バック・プロパゲーション)を適用するものではなく、1パスでの学習が可能である。このため、ニューラルネットワーク部320の学習処理を簡略化することができる。また、各々の学習セル46は独立しているため、学習データの追加、削除、更新が容易である。
なお、上述のアルゴリズムを用いた学習方法及び識別方法については、例えば同一出願人による国際出願第PCT/JP2018/042781号明細書に詳述されている。
次に、状況学習・識別部300における識別方法について、簡単に説明する。
まず、状況情報データ生成部310に、状況把握部200から受け取った情報を取り込む。次いで、状況情報データ生成部310において、取り込んだ情報の特徴を示す要素値を抽出し、所定のパターンデータを生成する。
次いで、パターンデータの要素値I~Iを、上述のようにして学習を行ったニューラルネットワーク部320に入力する。ニューラルネットワーク部320に入力された要素値I~Iは、セル42~42を介して、各学習セル46に入力される。これにより、総ての学習セル46から、要素値I~Iに応じた出力値Oを得る。
次いで、学習セル46から出力された出力値Oに基づき、識別部350において、要素値I~Iと学習セル46の出力値Oとの間の相関値(ここでは、学習セルの出力値に関する尤度Pとする)を算出する。尤度Pの算出方法は、特に限定されるものではない。
次いで、算出した総ての学習セル46の尤度Pに基づいて、パターンデータから推定される人物の行動を識別する。人物の行動を識別する方法は、特に限定されるものではない。例えば、総ての学習セル46のうち、最も尤度Pの大きい学習セル46に紐付けられた行動を、パターンデータから推定される行動と識別することができる。或いは、総ての学習セル46の中から尤度Pの大きい順に所定の数の学習セル46を抽出し、抽出した学習セル46に対して最も多く紐付けられた行動を、パターンデータから推定される行動と識別することができる。
用法学習部400は、状況学習・識別部300が生成した状況情報データに対するユーザの評価に基づき用法学習モデルを生成するとともに、状況情報データ及び用法学習モデルに基づき人物の動作を識別する機能を備えた機能ブロックである。
用法学習部400は、例えば図5に示すように、状況情報データ取得部410と、評価取得部420と、用法学習モデル生成部430と、行動識別部440と、記憶部450と、により構成され得る。
状況情報データ取得部410は、状況情報データ生成部310が生成した状況情報データを状況学習・識別部300から取得する機能を備える。
評価取得部420は、状況情報データに対するユーザ(アドバイザ)の評価を取得する機能を備える。この評価は、状況情報データが示す状況に対して再考を促す情報を含むものであり、言わば状況学習モデルに対してユーザが与えるノウハウである。状況情報データに対するユーザの評価は、例えば、状況学習で利用した映像を見ながらユーザがコメントをキーボードに入力することにより行うことができる。状況情報データに対するユーザの評価は、状況学習を行う際に同時に行うことも可能である。
用法学習モデル生成部430は、状況情報データ及び状況情報データに対するユーザの評価に基づき、用法学習モデルを生成する機能を備える。用法学習モデルは、状況把握部200から受け取った情報をマッピングしたパターンと、ユーザの評価に応じた人物の行動と、が紐付けられたデータを含み得る。用法学習モデル生成部430が生成した用法学習モデルは、記憶部450に格納される。
用法学習モデル生成部430は、状況情報データに対するユーザの評価(コメント)に基づいて更にマッピングを行い、新たなパターンを生成する機能を備えていてもよい。この場合の用法学習モデルは、ユーザのコメントに示される情報をマッピングした新たなパターンと、そのパターンに対するユーザの評価に応じた人物の行動と、が紐付けられたデータであり得る。
例えば、状況情報データのパターンに、人物が「浅く腰掛けている(弱)」状態を示す情報がマッピングされていた場合に、そのときの状況に対して「深く腰掛けている(強)」状態をも必要であるとユーザが考えたものとする。このような場合、用法学習モデル生成部430は、状況情報データのパターンに対し、ユーザからのコメントに基づいて「深く腰掛けている(強)」状態を示す情報を追加でマッピングし、新たなパターンを生成する。用法学習モデル生成部430は、例えば、キーボード等を介してユーザが入力する「弱」、「中」、「強」などの単語に応じてその情報を予め定められた座標にマッピングすることで、新たなパターンを生成することができる。
行動識別部440は、状況情報データと用法学習モデル生成部430とに基づき、人物の行動を識別する機能を備える。
次に、本実施形態による行動認識装置を用いた行動認識方法について、図6乃至図12を用いて説明する。図6は、本実施形態による行動認識装置を用いた行動認識方法を示すフローチャートである。図7は、画像取得部が取得した画像から状況把握部が把握した情報の一例を示す図である。図8は、状況把握部が把握した情報をマッピングする規則の一例を示す図である。図9は、状況情報データの一例を示す図である。図10は、用法学習モデルの一例を示す図である。図11は、状況情報データと用法学習モデルとに基づいて人物の行動を認識する方法を示すフローチャートである。図12は、状況情報データのパターンと用法学習モデルのパターンとの内積値を算出する方法を説明する図である。
ここでは理解を容易にするために、1)人が椅子に腰掛けて本を読み始める、2)本を読んでいる最中に本を閉じたり開いたりする、3)しばらく本を読んだ後に本を閉じて読書をやめる、といった一連の行動を認識する場合を想定し、適宜説明を補足する。状況学習・識別部300には、本の状態、本の位置及び人の状態を入力として人の行動を推定する状況学習モデルが構築されているものとする。
まず、画像取得部100は、カメラや記憶装置から、同じ被写体を異なる時間に撮影した複数の画像を取得する(ステップS101)。画像取得部100が取得する複数の画像は、例えば動画像の各フレームの画像である。この場合、必ずしも総てのフレームの画像を取得する必要はなく、適宜間引いてもよい。取得する画像は、被写体の状況把握に適したものであればよく、適宜選択することができる。例えば、RGBカメラ及び赤外線カメラにより取得したRGB画像及び深度画像を適用することができる。画像取得部100が取得した画像は、そのまま状況把握部200に入力してもよいし、図示しない記憶装置に一時的に格納してもよい。
次いで、状況把握部200は、画像取得部100が取得した画像の各々に対し、公知の画像認識技術、例えばディープラーニングを用いた画像認識技術を用いて、画像に写る人物や物体を認識するとともに、その状況を把握する(ステップS102)。
例えば、本を手に持ち椅子に腰掛けた人物が画像に写っている場合、人物の状況としては、椅子に浅く腰掛けているのか、椅子に深く腰掛けているのか、等が挙げられる。また、物体(本)の状況としては、例えば、開いているのか、閉じているのか、人物の顔の近くにあるか、等が挙げられる。
次いで、状況学習・識別部300は、状況把握部200から受け取った情報に基づいて、状況情報データを生成する(ステップS103)。生成する状況情報データには、人物や物体の状況を示す各要素についてその度合を複数の段階に分けてマッピングした第1階層のパターンデータと、第1階層のパターンデータから人物の行動として推定される状況(バリュー)に関する情報と、が含まれる。人物の行動として推定される状況(バリュー)は、第1階層のパターンデータを状況学習モデルに適用することにより取得される情報である。また、状況情報データには、人物や物体の状況を示す各要素についてその継続時間を複数の段階に分けてマッピングした第2階層のパターンデータが付与される。
例えば、人物や物体の状況を示す3つの要素として「本の状態」、「本の位置」及び「座り具合」を用い、各要素の度合を3段階に分けてマッピングするものとする。この場合に、例えば第18フレームから第22フレームの各画像において、人物や物体の状況を示す3つの要素と、その場合に推定される状況(バリュー)として、図7に示すような情報が得られているものとする。
このような場合、例えば図8に示す規則を用いることで、図7の各情報をパターンデータとしてマッピングすることができる。図8に示す規則は、各要素に対して3段階のレベルを設け、3×3のパターンにマッピングする場合の例である。第1階層の本の状態としては、例えば、「閉じている(閉)」、「開いている(開)」、「その中間の状態(中)」の3段階のレベルを想定することができる。本の位置としては、例えば、「近い(近)」、「遠い(遠)」、「その中間の状態(中)」の3段階のレベルを想定することができる。座り具合としては、例えば、「浅く腰掛けている(弱)」、「しっかり座っている(強)」、「その中間の状態(中)」の3段階のレベルを想定することができる。第2階層の継続時間については、各要素に対し、「短い(短)」、「長い(長)」、「その中間の状態(中)」の3段階のレベルを想定することができる。
図9は、図7に示したフレーム18~21の情報を、図7に示す規則に従って状況情報データとして表した例である。状況情報データは、各フレームの画像に対応して、第1階層及び第2階層のパターンと、バリューと、を含む。
次いで、行動識別部440は、状況学習・識別部300において生成した各フレームの画像に対応する状況情報データに対して用法学習モデルを適用し、状況学習における推定結果を検証する(ステップS104)。具体的には、状況情報データのパターンと用法学習モデルのパターンとを比較し、用法学習モデルの中に状況情報データに対して適合性の高いモデルがあるかどうかを検索する。
次いで、行動識別部440は、ステップS104における検証結果に基づいて、人物の行動を認識する(ステップS105)。具体的には、用法学習モデルの中に状況情報データに対して適合性の高いモデルが存在しない場合には、人物に行動として状況情報データのバリューを人物の行動として認識する。一方、用法学習モデルの中に状況情報データに対して適合性の高いモデルが存在する場合には、状況情報データに対して適合性の高いモデルのバリューを人物の行動として認識する。
記憶部450には、例えば図10にモデル1及びモデル2として示すような複数のモデルを含む用法学習モデルが格納されている。モデル1は、本が閉じた状態であるため状況学習モデルでは「座っているが本を読んでいない」と判断されるところ、本を閉じている時間が短いため「座って本を読んでいる」との再考を促すものである。モデル2は、本が半分閉じた状態であるため状況学習モデルでは「座っているが本を読んでいない」と判断されるところ、本を閉じている時間が短いため「座って本を読んでいる」との再考を促すものである。
行動識別部440は、各フレームの画像に対応する状況情報データを、記憶部450に格納されている用法学習モデルの各々と比較し、状況情報データに対して最も適合性の高いモデルを用法学習モデルの中から抽出する。そして、状況情報データと抽出したモデルとの適合度に応じて、状況情報データのバリュー及び抽出したモデルのバリューのうちのいずれを適用するのかを決定する。
状況情報データと用法学習モデルとの適合性を判断する方法は、特に限定されるものではないが、例えば状況情報データのパターンと用法学習モデルのパターンとの内積値を用いる方法が挙げられる。
以下に、状況情報データのパターンと用法学習モデルのパターンとの内積値を用いて状況情報データと用法学習モデルとの適合性を判断する方法について、図11及び図12を用いて説明する。
ここでは説明の簡略化のため、状況情報データ及び用法学習モデルは、第1階層及び第2階層のパターンとして、3×3の行列状に配された9個のセルを含むものとする(図9及び図10を参照)。各セルの値は、0又は1である。人物や物体の状況を示す各要素のレベルに対応するセルの値が1であり、その他のセルの値が0である。図9及び図10では、値が1のセルを黒く塗りつぶしている。
まず、状況情報データの第1階層のパターンと、用法学習モデルの第1階層のパターンとの内積値を算出する(ステップS201)。状況情報データのパターンと用法学習モデルのパターンとの内積値は、同じ座標のセルの値同士を乗算し、各座標の乗算値を合算することにより算出する。例えば、図12に示すように、状況情報データのパターンを構成する各セルの値がA,B,C,D,E,F,G,H,Iであり、比較対象の用法学習モデルのパターンを構成する各セルの値が1,0,0,0,1,0,0,0,1であったものとする。この場合、状況情報データのパターンと用法学習モデルのパターンとの内積値は、A×1+B×0+C×0+D×0+E×1+F×0+G×0+H×0+I×1となる。このように算出した内積値は、状況情報データに含まれるセルのうち値が1であるセルの数で除することにより、正規化する。状況情報データに対する内積値の計算及び正規化の処理は、用法学習モデルに含まれる複数のモデルの各々に対して行う。
次いで、用法学習モデルの複数のモデルの中から、正規化した内積値が最大であるモデルを抽出し、そのモデルの内積値が所定の閾値以上であるか否かの判定を行う(ステップS202)。正規化した内積値は、その値が大きいほど、状況情報データに対する適合性が高いことを示す。判定に用いられる閾値は、そのモデルを状況情報データに適用することが妥当であるか否かを判断する基準となるものであり、適宜設定することができる。判定の結果、最大の内積値が閾値未満であると判定された場合(ステップS202における「No」)には、ステップS203ヘと移行して、状況情報データのバリューを人物の行動として認識し、ステップS104の処理を終了する。一方、判定の結果、最大の内積値が閾値以上であると判定された場合(ステップS202における「Yes」)には、ステップS204ヘと移行する。
ステップS204では、内積値が最大となるモデルが2つ以上あるか否かの判定を行う。判定の結果、内積値が最大となるモデルが1つだけの場合(ステップS204における「No」)には、ステップS205ヘと移行して、第1階層の内積値が最大となるモデルバリューを人物の行動として認識し、ステップS104の処理を終了する。一方、判定の結果、内積値が最大となるモデルが2つ以上ある場合(ステップS204における「Yes」)には、ステップS206ヘと移行する。
ステップS206では、内積値が最大であった2以上のモデルの各々の第2階層のパターンについて、状況情報データの第2階層のパターンに対する内積値の計算及び正規化の処理を行う。なお、内積値の計算及び正規化の処理は、第1階層のパターンに対する処理と同様である。
次いで、ステップS207において、内積値が最大となるモデルが2つ以上あるか否かの判定を行う。判定の結果、内積値が最大となるモデルが1つだけの場合(ステップS207における「No」)には、ステップS208ヘと移行して、第2階層の内積値が最大となるモデルのバリューを人物の行動として認識し、ステップS104の処理を終了する。一方、判定の結果、内積値が最大となるモデルが2つ以上ある場合(ステップS207における「Yes」)には、ステップS209ヘと移行する。
ステップS209では、第2階層の内積値が最大であった2以上のモデルの中に、継続時間が所定の時間よりも短い要素(短時間の要素)を含まないモデルが存在するか否かの判定を行う。判定の結果、短時間の要素を含まないモデルが存在しない場合(ステップS209における「No」)には、ステップS210ヘと移行し、前フレームのバリューを人物の行動として認識し、ステップS104の処理を終了する。一方、判定の結果、短時間の要素を含まないモデルが存在する場合(ステップS209における「Yes」)には、ステップS211ヘと移行する。そして、ステップS211において、短時間の要素を含まないモデルのバリューを人物の行動として判定し、ステップS104の処理を終了する。短時間の要素を含まないモデルが複数存在する場合には、最新のモデルを選択する。なお、短時間の要素であるか否かの判定の基準となる所定の時間は、状況を表す複数の要素毎に適宜設定することができる。
用法学習部400が認識した人物の行動に関する情報は、種々のアクションを実行するための情報として利用することができる。例えば、人物が椅子に座って本を読み始める行動を認識した場合には、照明を点灯する等のアクションを実行することができる。或いは、人物が読書をやめて立ち上がる行動を認識した場合には、照明を消灯する等のアクションを実行することができる。また、用法学習部400が認識した人物の行動に関する情報は、状況学習・識別部300にフィードバックし、ニューラルネットワーク部320の学習に利用してもよい。
ディープラーニングを用いた既存の状況認識技術では、例えば、座っている人物と本を認識したら読書をしていると判断するという学習をさせていた場合、読書をやめたことを認識することはできない。また、フレーム単位で学習を行っていた場合、短時間で本を閉じたり開いたりしているときには、その状態ごとに、本を読んでいる、本を読んでいない、といった認識がなされる。これを改善するためには、人物が本を閉じたり開いたりしているときの学習データを大量に準備し、学習を行う必要がある。
これに対し、本実施形態による行動認識装置においては、人物が本を閉じたり開いたりしているときの学習データを大量に準備しなくても、その状態のときにコメントを入力して用法学習を行うだけで、状況を適切に学習することができる。したがって、例えば、人物が座って本を読み始め、しばらくすると本を閉じ、読書をやめるというような一連の行動を、簡単な学習で適切に認識することが可能である。
次に、本実施形態による行動認識装置1000のハードウェア構成例について、図13を用いて説明する。図13は、本実施形態による行動認識装置のハードウェア構成例を示す概略図である。
行動認識装置1000は、例えば図13に示すように、一般的な情報処理装置と同様のハードウェア構成によって実現することが可能である。例えば、行動認識装置1000は、CPU(Central Processing Unit)500、主記憶部502、通信部504、入出力インターフェース部506を備え得る。
CPU500は、行動認識装置1000の全体的な制御や演算処理を司る制御・演算装置である。主記憶部502は、データの作業領域やデータの一時退避領域に用いられる記憶部であり、RAM(Random Access Memory)等のメモリにより構成され得る。通信部504は、ネットワークを介してデータの送受信を行うためのインターフェースである。入出力インターフェース部506は、外部の出力装置510、入力装置512、記憶装置514等と接続してデータの送受信を行うためのインターフェースである。CPU500、主記憶部502、通信部504及び入出力インターフェース部506は、システムバス508によって相互に接続されている。記憶装置514は、例えばROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等によって構成され得る。
主記憶部502は、複数の学習セル46を含むニューラルネットワーク部320を構築し演算を実行するための作業領域として用いることができる。CPU500は、主記憶部502に構築したニューラルネットワーク部320における演算処理を制御する制御部として機能する。記憶装置514には、学習済みの学習セル46に関する情報を含む学習セル情報(状況学習モデル)を保存することができる。また、記憶装置514に記憶された学習セル情報を読み出し、主記憶部502においてニューラルネットワーク部320を構築するように構成することで、様々な状況情報データに対する学習環境を構築することができる。また、用法学習モデルを格納する記憶部450は、記憶装置514によって構成され得る。CPU500は、主記憶部502に構築したニューラルネットワーク部320の複数の学習セル46における演算処理を並列して実行するように構成されていることが望ましい。
通信部504は、イーサネット(登録商標)、Wi-Fi(登録商標)等の規格に基づく通信インターフェースであり、他の装置との通信を行うためのモジュールである。学習セル情報は、通信部504を介して他の装置から受信するようにしてもよい。例えば、頻繁に使用する学習セル情報は記憶装置514に記憶しておき、使用頻度の低い学習セル情報は他の装置から読み込むように構成することができる。
出力装置510は、例えば液晶表示装置等のディスプレイを含む。出力装置510は、用法学習部400の学習時にユーザに対して状況情報データや状況学習・識別部300により推定された行動に関する情報を提示するための表示装置として利用可能である。また、ユーザへの学習結果や行動決定の通知は、出力装置510を介して行うことができる。入力装置512は、キーボード、マウス、タッチパネル等であって、ユーザが行動認識装置1000に所定の情報、例えば用法学習部400の学習時におけるユーザエピソードを入力するために用いられる。
状況情報データは、通信部504を介して他の装置から読み込むように構成することもできる。或いは、入力装置512を、状況情報データを入力するための手段として用いることもできる。
本実施形態による行動認識装置1000の各部の機能は、プログラムを組み込んだLSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、ハードウェア的に実現することができる。或いは、その機能を提供するプログラムを、記憶装置514に格納し、そのプログラムを主記憶部502にロードしてCPU500で実行することにより、ソフトウェア的に実現することも可能である。
また、図1に示す行動認識装置1000の構成は、必ずしも独立した1つの装置として構成されている必要はない。例えば、画像取得部100、状況把握部200、状況学習・識別部300及び用法学習部400のうちの一部、例えば状況学習・識別部300及び用法学習部400をクラウド上に配し、これらによって行動認識システムを構築するようにしてもよい。
このように、本実施形態によれば、画像に写る人物の行動をより簡単なアルゴリズムで且つより高い精度で認識することが可能となる。
[第2実施形態]
本発明の第2実施形態による行動認識装置について、図14を用いて説明する。第1実施形態による行動認識装置と同様の構成要素には同一の符号を付し、説明を省略し或いは簡潔にする。図14は、本実施形態による行動認識装置の構成例を示す概略図である。
本実施形態による行動認識装置1000は、図14に示すように、状況情報データ生成部310と、行動識別部440と、記憶部450と、を有している。
状況情報データ生成部310は、人物を含む被写体の画像における被写体の状況に基づいて、状況情報データを生成する機能を備える。記憶部450は、用法学習モデルを格納する。行動識別部440は、状況情報データと用法学習モデルとに基づいて人物の行動を識別する機能を備える。
状況情報データ生成部は、状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、状況から推定される人物の行動と、が紐付けられた状況情報データを生成する。
用法学習モデルは、特定の状況に対し、複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む。
行動識別部は、用法学習モデルの複数のモデルのうち、状況情報データに対して最も適合度の高いモデルを抽出する。そして、抽出したモデルの適合度が所定の閾値以上の場合には、抽出したモデルが推定する行動を前記人物の行動と判定する。また、抽出したモデルの適合度が所定の閾値未満の場合には、状況情報データが推定する行動を人物の行動と判定する。
このように、本実施形態によれば、画像に写る人物の行動をより簡単なアルゴリズムで且つより高い精度で認識することが可能となる。
[変形実施形態]
本発明は、上記実施形態に限らず種々の変形が可能である。
例えば、いずれかの実施形態の一部の構成を他の実施形態に追加した例や、他の実施形態の一部の構成と置換した例も、本発明の実施形態である。
また、上記実施形態では、本発明の適用例として人物が椅子に座って読書している行動を例に挙げて説明したが、本発明は画像に写る人物の様々な行動の認識に広く適用することができる。
また、上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
上記実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならない。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
人物を含む被写体の画像における前記被写体の状況に基づいて、状況情報データを生成する状況情報データ生成部と、
用法学習モデルを格納する記憶部と、
前記状況情報データと前記用法学習モデルとに基づいて前記人物の行動を識別する行動識別部と、を有し、
前記状況情報データ生成部は、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた前記状況情報データを生成し、
前記用法学習モデルは、特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含み、
前記行動識別部は、前記用法学習モデルの前記複数のモデルのうち、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する
ことを特徴とする行動認識装置。
(付記2)
前記行動識別部は、前記用法学習モデルの前記複数のモデルのうち、前記状況情報データの前記第1のパターンに対して最も適合度の高い前記第3のパターンを含むモデルを抽出する
ことを特徴とする付記1記載の行動認識装置。
(付記3)
前記行動識別部は、前記第1のパターンの各要素値と前記第3のパターンの各要素値との間の内積値が大きいほど、前記第1のパターンに対する前記第3のパターンの適合度が高いと判定する
ことを特徴とする付記2記載の行動認識装置。
(付記4)
前記行動識別部は、前記状況情報データの前記第1のパターンに対して最も適合度の高い前記第3のパターンを含むモデルが複数存在する場合は、前記最も適合度の高い前記第3のパターンを含むモデルの中から、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルを抽出する
ことを特徴とする付記2又は3記載の行動認識装置。
(付記5)
前記行動識別部は、前記第2のパターンの各要素値と前記第4のパターンの各要素値との間の内積値が大きいほど、前記第2のパターンに対する前記第4のパターンの適合度が高いと判定する
ことを特徴とする付記4記載の行動認識装置。
(付記6)
前記行動識別部は、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルが複数存在し、且つ、前記最も適合度の高い前記第4のパターンを含む複数のモデルの中に、前記継続時間が所定の時間よりも短い要素を含むモデルが存在する場合は、前記最も適合度の高い前記第4のパターンを含むモデルの中から、前記継続時間が前記所定の時間よりも短い要素を含まないモデルを抽出する
ことを特徴とする付記4又は5記載の行動認識装置。
(付記7)
前記行動識別部は、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルが複数存在し、且つ、前記最も適合度の高い前記第4のパターンを含む複数のモデルの総てが、前記継続時間が所定の時間よりも短い要素を含む場合は、前フレームにおいて適用した行動を当フレームにおける行動と判定する
ことを特徴とする付記4又は5記載の行動認識装置。
(付記8)
前記複数のモデルの各々が推定する前記行動に関する情報は、前記特定の状況に応じた評価としてユーザから与えられた情報である
ことを特徴とする付記1乃至7のいずれか1項に記載の行動認識装置。
(付記9)
前記画像は、複数のフレームの画像を含む動画像であり、
前記状況情報データ生成部は、前記複数のフレームの画像の各々に対して、前記状況情報データを生成する
ことを特徴とする付記1乃至8のいずれか1項に記載の行動認識装置。
(付記10)
前記画像における前記被写体の状況に基づいて、前記状況から推定される前記人物の行動を学習する状況学習部を更に有し、
前記状況学習部は、
前記状況を表す前記複数の要素の各々の要素値が学習対象データとして入力されるニューラルネットワーク部と、
前記ニューラルネットワーク部の学習を行う学習部と、を有し、
前記ニューラルネットワーク部は、前記複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有し、
前記学習部は、前記学習セルの出力値に応じて、前記学習セルの前記複数の入力ノードの重み付け係数を更新し、又は、前記ニューラルネットワーク部に新たな学習セルを追加する
ことを特徴とする付記1乃至9のいずれか1項に記載の行動認識装置。
(付記11)
前記学習部は、前記複数の要素値と前記学習セルの出力値との間の相関値が所定の閾値以上の場合に、前記学習セルの前記複数の入力ノードの前記重み付け係数を更新する
ことを特徴とする付記10記載の行動認識装置。
(付記12)
前記画像における前記被写体の状況に基づいて、前記状況から推定される前記人物の行動を識別する状況識別部を更に有し、
前記状況識別部は、
前記状況を表す前記複数の要素の各々の要素値が識別対象データとして入力されるニューラルネットワーク部と、
前記ニューラルネットワーク部の出力に基づき前記識別対象データを識別する識別部と、を有し、
前記ニューラルネットワーク部は、前記複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有し、
前記複数の学習セルの各々は、教師情報を示す複数のカテゴリのうちのいずれかに紐付けられており、
前記学習セルの前記複数の入力ノードは、前記複数の要素値の各々が対応するカテゴリに応じた所定の重みで入力されるように構成されており、
前記識別部は、前記学習セルの出力値と前記学習セルに紐付けられたカテゴリとに基づいて、前記識別対象データの属するカテゴリを、前記状況から推定される前記人物の行動と推定し、
前記状況情報データ生成部は、前記状況識別部が推定した結果をもとに前記状況情報データを生成する
ことを特徴とする付記1乃至9のいずれか1項に記載の行動認識装置。
(付記13)
前記識別部は、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルに紐付けられたカテゴリを、前記状況から推定される前記人物の行動と推定する
ことを特徴とする付記12記載の行動認識装置。
(付記14)
人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成し、
特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、
抽出したモデルの適合度が所定の閾値以上の場合には、前記抽出したモデルが推定する行動を前記人物の行動と判定し、
前記抽出したモデルの適合度が前記所定の閾値未満の場合には、前記状況情報データが推定する行動を前記人物の行動と判定する
ことを特徴とする行動認識方法。
(付記15)
コンピュータを、
人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成する手段、
特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルを格納する手段、及び
前記用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する手段、
として機能させるプログラム。
(付記16)
付記15記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。
この出願は、2020年1月17日に出願された日本出願特願2020-005536を基礎とする優先権を主張し、その開示の全てをここに取り込む。
42,44…セル
46…学習セル
100…画像取得部
200…状況把握部
300…状況学習・識別部
310…状況情報データ生成部310
320…ニューラルネットワーク部
330…判定部
340…学習部
342…重み修正部
344…学習セル生成部
350…識別部
360…出力部
400…用法学習部
410…状況情報データ取得部
420…評価取得部
430…用法学習モデル生成部
440…行動識別部
450…記憶部
500…CPU
502…主記憶部
504…通信部
506…入出力インターフェース部
508…システムバス
510…出力装置
512…入力装置
514…記憶装置

Claims (16)

  1. 人物を含む被写体の画像における前記被写体の状況に基づいて、状況情報データを生成する状況情報データ生成部と、
    用法学習モデルを格納する記憶部と、
    前記状況情報データと前記用法学習モデルとに基づいて前記人物の行動を識別する行動識別部と、を有し、
    前記状況情報データ生成部は、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた前記状況情報データを生成し、
    前記用法学習モデルは、特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含み、
    前記行動識別部は、前記用法学習モデルの前記複数のモデルのうち、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する
    ことを特徴とする行動認識装置。
  2. 前記行動識別部は、前記用法学習モデルの前記複数のモデルのうち、前記状況情報データの前記第1のパターンに対して最も適合度の高い前記第3のパターンを含むモデルを抽出する
    ことを特徴とする請求項1記載の行動認識装置。
  3. 前記行動識別部は、前記第1のパターンの各要素値と前記第3のパターンの各要素値との間の内積値が大きいほど、前記第1のパターンに対する前記第3のパターンの適合度が高いと判定する
    ことを特徴とする請求項2記載の行動認識装置。
  4. 前記行動識別部は、前記状況情報データの前記第1のパターンに対して最も適合度の高い前記第3のパターンを含むモデルが複数存在する場合は、前記最も適合度の高い前記第3のパターンを含むモデルの中から、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルを抽出する
    ことを特徴とする請求項2又は3記載の行動認識装置。
  5. 前記行動識別部は、前記第2のパターンの各要素値と前記第4のパターンの各要素値との間の内積値が大きいほど、前記第2のパターンに対する前記第4のパターンの適合度が高いと判定する
    ことを特徴とする請求項4記載の行動認識装置。
  6. 前記行動識別部は、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルが複数存在し、且つ、前記最も適合度の高い前記第4のパターンを含む複数のモデルの中に、前記継続時間が所定の時間よりも短い要素を含むモデルが存在する場合は、前記最も適合度の高い前記第4のパターンを含むモデルの中から、前記継続時間が前記所定の時間よりも短い要素を含まないモデルを抽出する
    ことを特徴とする請求項4又は5記載の行動認識装置。
  7. 前記行動識別部は、前記状況情報データの前記第2のパターンに対して最も適合度の高い前記第4のパターンを含むモデルが複数存在し、且つ、前記最も適合度の高い前記第4のパターンを含む複数のモデルの総てが、前記継続時間が所定の時間よりも短い要素を含む場合は、前フレームにおいて適用した行動を当フレームにおける行動と判定する
    ことを特徴とする請求項4又は5記載の行動認識装置。
  8. 前記複数のモデルの各々が推定する前記行動に関する情報は、前記特定の状況に応じた評価としてユーザから与えられた情報である
    ことを特徴とする請求項1乃至7のいずれか1項に記載の行動認識装置。
  9. 前記画像は、複数のフレームの画像を含む動画像であり、
    前記状況情報データ生成部は、前記複数のフレームの画像の各々に対して、前記状況情報データを生成する
    ことを特徴とする請求項1乃至8のいずれか1項に記載の行動認識装置。
  10. 前記画像における前記被写体の状況に基づいて、前記状況から推定される前記人物の行動を学習する状況学習部を更に有し、
    前記状況学習部は、
    前記状況を表す前記複数の要素の各々の要素値が学習対象データとして入力されるニューラルネットワーク部と、
    前記ニューラルネットワーク部の学習を行う学習部と、を有し、
    前記ニューラルネットワーク部は、前記複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有し、
    前記学習部は、前記学習セルの出力値に応じて、前記学習セルの前記複数の入力ノードの重み付け係数を更新し、又は、前記ニューラルネットワーク部に新たな学習セルを追加する
    ことを特徴とする請求項1乃至9のいずれか1項に記載の行動認識装置。
  11. 前記学習部は、前記複数の要素値と前記学習セルの出力値との間の相関値が所定の閾値以上の場合に、前記学習セルの前記複数の入力ノードの前記重み付け係数を更新する
    ことを特徴とする請求項10記載の行動認識装置。
  12. 前記画像における前記被写体の状況に基づいて、前記状況から推定される前記人物の行動を識別する状況識別部を更に有し、
    前記状況識別部は、
    前記状況を表す前記複数の要素の各々の要素値が識別対象データとして入力されるニューラルネットワーク部と、
    前記ニューラルネットワーク部の出力に基づき前記識別対象データを識別する識別部と、を有し、
    前記ニューラルネットワーク部は、前記複数の要素値の各々に所定の重み付けをする複数の入力ノードと、重み付けをした前記複数の要素値を加算して出力する出力ノードと、を各々が含む複数の学習セルを有し、
    前記複数の学習セルの各々は、教師情報を示す複数のカテゴリのうちのいずれかに紐付けられており、
    前記学習セルの前記複数の入力ノードは、前記複数の要素値の各々が対応するカテゴリに応じた所定の重みで入力されるように構成されており、
    前記識別部は、前記学習セルの出力値と前記学習セルに紐付けられたカテゴリとに基づいて、前記識別対象データの属するカテゴリを、前記状況から推定される前記人物の行動と推定し、
    前記状況情報データ生成部は、前記状況識別部が推定した結果をもとに前記状況情報データを生成する
    ことを特徴とする請求項1乃至9のいずれか1項に記載の行動認識装置。
  13. 前記識別部は、前記複数の要素値と前記学習セルの出力値との間の相関値が最も大きい前記学習セルに紐付けられたカテゴリを、前記状況から推定される前記人物の行動と推定する
    ことを特徴とする請求項12記載の行動認識装置。
  14. 人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成し、
    特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、
    抽出したモデルの適合度が所定の閾値以上の場合には、前記抽出したモデルが推定する行動を前記人物の行動と判定し、
    前記抽出したモデルの適合度が前記所定の閾値未満の場合には、前記状況情報データが推定する行動を前記人物の行動と判定する
    ことを特徴とする行動認識方法。
  15. コンピュータを、
    人物を含む被写体の画像における前記被写体の状況に基づいて、前記状況を表す複数の要素とそれらの度合を表す情報との関係をマッピングした第1のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第2のパターンと、前記状況から推定される前記人物の行動と、が紐付けられた状況情報データを生成する手段、
    特定の状況に対し、前記複数の要素とそれらの度合を表す情報との関係をマッピングした第3のパターンと、前記複数の要素とそれらの継続時間を表す情報との関係をマッピングした第4のパターンと、前記特定の状況から推定される前記人物の行動と、が紐付けられた複数のモデルを含む用法学習モデルを格納する手段、及び
    前記用法学習モデルの中から、前記状況情報データに対して最も適合度の高いモデルを抽出し、抽出したモデルの適合度が所定の閾値以上の場合には前記抽出したモデルが推定する行動を前記人物の行動と判定し、前記抽出したモデルの適合度が前記所定の閾値未満の場合には前記状況情報データが推定する行動を前記人物の行動と判定する手段、
    として機能させるプログラム。
  16. 請求項15記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2021571127A 2020-01-17 2020-12-24 行動認識装置、行動認識方法、プログラム及び記録媒体 Active JP7231286B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020005536 2020-01-17
JP2020005536 2020-01-17
PCT/JP2020/048361 WO2021145185A1 (ja) 2020-01-17 2020-12-24 行動認識装置、行動認識方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2021145185A1 JPWO2021145185A1 (ja) 2021-07-22
JP7231286B2 true JP7231286B2 (ja) 2023-03-01

Family

ID=76863684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021571127A Active JP7231286B2 (ja) 2020-01-17 2020-12-24 行動認識装置、行動認識方法、プログラム及び記録媒体

Country Status (2)

Country Link
JP (1) JP7231286B2 (ja)
WO (1) WO2021145185A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128804A (ja) 2018-01-24 2019-08-01 株式会社日立製作所 特定システムおよび特定方法
WO2019240047A1 (ja) 2018-06-11 2019-12-19 Necソリューションイノベータ株式会社 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128804A (ja) 2018-01-24 2019-08-01 株式会社日立製作所 特定システムおよび特定方法
WO2019240047A1 (ja) 2018-06-11 2019-12-19 Necソリューションイノベータ株式会社 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体

Also Published As

Publication number Publication date
WO2021145185A1 (ja) 2021-07-22
JPWO2021145185A1 (ja) 2021-07-22

Similar Documents

Publication Publication Date Title
US10019629B2 (en) Skeleton-based action detection using recurrent neural network
CN107918782B (zh) 一种生成描述图像内容的自然语言的方法与系统
KR102564855B1 (ko) 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
JP2017531240A (ja) データのナレッジグラフバイアス分類
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
KR20160061856A (ko) 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치
EP3884426B1 (en) Action classification in video clips using attention-based neural networks
CN107112005A (zh) 深度神经支持向量机
JP7191443B2 (ja) 機械学習に基づくターゲットオブジェクト属性予測方法、関連機器及びコンピュータプログラム
CN110705428B (zh) 一种基于脉冲神经网络的脸部年龄识别系统及方法
CN106104568A (zh) 摄影图像中的眨眼和转移注视避免
CN114241587B (zh) 人脸活体检测对抗鲁棒性的评估方法及装置
JP2019204505A (ja) オブジェクト検出装置及び方法及び記憶媒体
Aguilera et al. Blockchain cnn deep learning expert system for healthcare emergency
CN115168720A (zh) 内容交互预测方法以及相关设备
CN112115131A (zh) 数据去噪方法、装置、设备及计算机可读存储介质
CN112560823B (zh) 基于分布学习的自适应方差和权重的人脸年龄估计方法
Rao et al. A multi-view human gait recognition using hybrid whale and gray wolf optimization algorithm with a random forest classifier
US20240054373A1 (en) Dynamic causal discovery in imitation learning
JP7231286B2 (ja) 行動認識装置、行動認識方法、プログラム及び記録媒体
JP6947460B1 (ja) プログラム、情報処理装置、及び方法
CN115240127A (zh) 一种面向智能电视的儿童监控方法
KR102408042B1 (ko) 그룹 기반 얼굴 인식 방법 및 장치
JP7353686B2 (ja) 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230209

R151 Written notification of patent or utility model registration

Ref document number: 7231286

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151