JP7149202B2

JP7149202B2 - 行動分析装置および行動分析方法

Info

Publication number: JP7149202B2
Application number: JP2019031913A
Authority: JP
Inventors: 光晴大峡
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2022-10-06
Anticipated expiration: 2039-02-25
Also published as: JP2020135747A

Description

本発明は、行動分析装置および行動分析方法に関する。

画像に写っている人物がどのような行動をしたかを認識する技術は知られている（特許文献１）。特許文献１では、動画中の時系列画像から、行動の変化が検出された画像を抽出して学習することにより、人物の行動を認識する技術が提案されている。運転者を撮影した画像に基づいて、運転者が携帯電話の使用などの特定行動をする可能性を判断し、警報を出力する技術も知られている（特許文献２）。

なお、画像に写った人物の骨格を推定することにより、二次元画像における姿勢を検出する技術も知られている（非特許文献１）。

国際公開第２０１７／１５０２１１号特開２００９－３７５３４号公報

ＺｈｅＣａｏ，ＴｏｍａｓＳｉｍｏｎ，Ｓｈｉｈ－ＥｎＷｅｉ，ＹａｓｅｒＳｈｅｉｋｈ：ＲｅａｌｔｉｍｅＭｕｌｔｉ－Ｐｅｒｓｏｎ２ＤＰｏｓｅＥｓｔｉｍａｔｉｏｎｕｓｉｎｇＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ，ＣＶＰＲ２０１７

特許文献１では、撮影された画像（元の画像）に基づいて対象人物の行動を認識するため、画像に対象人物以外の物体（例えば人物の持ち物、背景など）が存在すると、それら対象人物以外の物体がノイズとなってしまう。例えば、電車または車両などの移動物体に乗車している人物を撮影した場合は、車外の風景が変化するため、対象とする人物の行動を正確に認識することが難しくなる。また例えば、対象とする人物の周囲の明るさが激しく変化する場合も、対象の人物の背景が大きく変動するため、対象の人物の行動を正確に認識するのが難しい。

さらに、元の画像だけを用いる特許文献１では、対象の人物の特徴と対象の人物の動作とを正確に認識するのは難しい。また、元の画像だけを用いる特許文献１では、対象の人物の行動の時間変化を正確にとらえるのは難しい。このように、特許文献１の技術では、対象人物の行動を正確に認識するのが難しい。

本発明は、上記問題に鑑みてなされたもので、その目的は、画像に含まれる人物の行動を従来よりも高精度に認識することのできるようにした行動分析装置および行動分析方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う行動分析装置は、画像に含まれる人物の行動を分析する行動分析装置であって、撮影時間の異なる複数の元画像データを取得する元画像取得部と、各元画像データ内の人物の骨格画像データを生成する骨格画像生成部と、各骨格画像データに基づいて人物の骨格の時間変化を示す挙動画像データを生成する挙動画像生成部と、各元画像データと各骨格画像データと各挙動画像データとに基づいて、人物の行動パターンの学習と推論とが可能な所定のモデルを生成するモデル生成部と、を有する。

本発明によれば、元画像データだけでなく、元画像データから生成される骨格画像データおよび挙動画像データを用いて行動パターンの学習と推論とが可能な所定のモデルを生成するため、元画像に含まれる人物の行動をより精度良く分析することができる。

行動認識装置の全体構成を示す説明図である。行動認識装置のハードウェアおよびソフトウェアの構成図である。元画像データの説明図である。骨格画像データの説明図である。挙動画像データの説明図である。正解データの構成例である。学習用シーケンスデータの構成例である。モデルデータの構成例である。推論用シーケンスデータの例である。骨格画像データを生成する処理を示すフローチャートである。挙動画像データを生成する処理を示すフローチャートである。シーケンスデータを生成する処理を示すフローチャートである。モデルデータを生成する処理を示すフローチャートである。ニューラルネットワークの構成例を示す。推論処理を示すフローチャートである。第２実施例に係り、行動認識装置の全体構成図である。行動監視処理を示すフローチャートである。第３実施例に係り、行動認識装置の全体構成図である。行動監視処理を示すフローチャートである。

以下、図面に基づいて、本発明の実施の形態を説明する。本実施形態に係る行動分析装置は、人物を含む元画像データだけでなく、元画像データ内の人物の行動に由来する他のデータ（骨格画像データ、挙動画像データ）も用いることにより、元画像内の人物の行動を分析する。

本実施形態では、人物の行動に由来する他のデータも用いるため、人物以外の画像（背景、風景）が変化する場合でも、人物の行動を正確に分析することができる。そして、本実施形態に係る行動分析装置は、例えば、運転手、乗客、歩行者、買い物客などの様々な人物の行動を監視するシステムに適用することができる。

すなわち、本実施形態では、時系列の画像群に写っている人間の行動を認識する装置を提供する。本実施形態では、動画に映っている人の行動を、ニューラルネットワーク等の機械学習を用いて認識する。

本実施形態に係る行動分析装置は、動画からフレームごとに分割された画像群を読み込み、骨格推定技術を適用して、画像から人間の主要な骨格を抽出することにより、骨格として画像化する。さらに、本実施形態では、時間軸上で連続した骨格画像からオプティカルフロー等の画像間の動きの変化を抽出し、挙動画像として画像化する。

本実施形態では、それらの画像群（元画像群、骨格画像群、挙動画像群）を元に時系列のシーケンスデータとしてまとめ、ニューラルネットワーク等の機械学習技術により、入力データと行動との関係性を学習する。

機械学習に入力するデータとして骨格画像のデータと挙動画像のデータも含めることにより、人間以外の物体に起因するノイズ、および背景の変化に起因するノイズによる影響を抑制できる。さらに、人間の骨格に基づく姿勢の情報と姿勢の変化の情報とを機械学習に用いることにより、元画像データのみを使用する従来技術に比べて、高精度な行動認識が可能となる。

本実施形態に係る行動分析装置は、プロセッサと記憶装置を備える計算機を用いることにより実現してもよい。プロセッサは、例えば、元画像データの加工と、機械学習による学習および推論とを実行する。記憶装置は、例えば、各画像データと、各中間データと、機械学習モデルと、推論結果とを格納する。

プロセッサは、例えば、動画データから抽出された各元画像データに対し、骨格画像データと挙動画像データとを算出する。次に、プロセッサは、各元画像データと各骨格画像データと各挙動画像データとを時系列データ（シーケンスデータ）としてまとめる。プロセッサは、ニューラルネットワーク等の機械学習を用いることにより、時系列データと元画像データに写っている人間の行動との関係を学習し、モデルデータを算出する。プロセッサは、推論時には、時系列データをモデルデータへ入力することにより、元画像データに写っている人間の行動の認識結果を算出する。

図１～図１５を用いて第１実施例を説明する。本実施例は、本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

以後の説明では「コンピュータプログラム」を主語として説明する場合がある。コンピュータプログラムは、プロセッサによって実行されることで、定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行う。したがって、コンピュータプログラムに代えてプロセッサを主語として説明することもできるし、プロセッサを有する計算機を主語として説明することもできる。

なお、コンピュータプログラムの少なくとも一部または全部を専用ハードウェアで実現してもよい。コンピュータプログラムは、モジュール化されていてもよい。コンピュータプログラムは、記録媒体に固定されて流通してもよいし、あるいは、プログラム配信サーバから通信ネットワークを介して配布されてもよい。プロセッサがコンピュータプログラムを読み込んで実施することにより、後述する機能１１～１６が実現される。

図１は、「行動分析装置」としての行動認識装置１の全体構成を示す。行動認識装置１は、元画像データに含まれる人物の行動がどのような行動であるか認識する。

行動認識装置１は、例えば、元画像取得部１１と、骨格画像生成部１２と、挙動画像生成部１３と、シーケンスデータ生成部１４と、モデル生成部１５と、推論部１６とを備えることができる。

元画像取得部１１は、撮影時間の異なる複数の元画像データ１３１を取得する。元画像取得部１１は、例えば、動画ファイル、連続的に撮影された静止画ファイルなどから、同一の被写体についての撮影時間の異なる画像データ１３１を取得する。これら撮影時間の異なる画像データ１３１に基づいて骨格画像データ１３２が作成されるため、元画像データ１３１と呼ぶ。元画像データは、行動認識装置１内に保存されていてもよいし、行動認識装置１がアクセス可能な外部のストレージ装置に保存されていてもよい。

骨格画像生成部１２は、元画像取得部１１により取得された元画像データ１３１に基づいて、元画像データ１３１に写っている人物１３１１の骨格を推定し、推定された骨格の画像データ１３２を生成する。

挙動画像生成部１３は、骨格画像生成部１２により生成された骨格画像１３２に基づいて、骨格の時間変化（動作方向、挙動）を示す挙動画像データ１３３を生成する。

シーケンスデータ生成部１４は、各元画像データ１３１と各骨格画像データ１３２と各挙動画像データ１３３とを含むシーケンスデータを生成する。

モデル生成部１５は、シーケンスデータ生成部１４により生成される学習用シーケンスデータ（図７で後述）に基づいて、人物の行動パターンの学習と推論とが可能な所定のモデルのデータを生成する。

推論部１６は、シーケンスデータ生成部１４により作成された推論用シーケンスデータ（図９で後述）とモデル生成部１５により生成されたモデルデータとに基づいて、推論用シーケンスデータに含まれる人物の行動を認識し、その認識結果を出力する。

＜行動認識装置の構成＞

図２は、行動認識装置１のハードウェアおよびソフトウェアの構成例（機能ブロック図）である。

行動認識装置１は、例えば、中央演算処理装置１１０と、入出力装置１２０と、記憶装置１３０とを備える。

中央演算処理装置１１０は、マイクロプロセッサおよびプログラムメモリ（いずれも不図示）を有し、行動認識装置１として機能するための必要な演算処理および制御処理等を行う。中央演算処理装置１１０は、所定のコンピュータプログラム１１１～１１６を実行する。各コンピュータプログラム１１１～１１６は、図１で述べた各機能１１～１６に対応する。

元画像取得プログラム１１１は、元画像データを取得するコンピュータプログラムである。元画像取得プログラム１１１は、例えば、記憶装置１３０に格納されている元画像データ１３１を認識対象（分析対象）のデータとして読み込む。元画像取得プログラム１１１は、カメラ１４０で撮影された元画像データを読み込んでもよいし、記憶装置１３０に格納された元画像データを読み込んでもよい。元画像取得プログラム１１１は、オペレーティングシステムの有する機能、あるいはデバイスドライバなどが持つ機能として実現されてもよい。または、元画像取得プログラム１１１は、骨格画像生成プログラム１１２の一部として設けられてもよい。

骨格画像生成プログラム１１２は、元画像データ１３１に写っている人間の主要部分（例えば、顔および手足等）のパーツを認識して骨格として抽出し、骨格画像データ１３２を生成するコンピュータプログラムである。

挙動画像生成プログラム１１３は、時間的に連続した骨格画像データ１３２をもとに骨格の動きを表す挙動を抽出し、挙動画像データ１３３を生成するコンピュータプログラムである。

シーケンスデータ生成プログラム１１４は、一連の動きを表す時系列の画像データ１３１～１３３を集約して、シーケンスデータ１３５，１３７を生成するコンピュータプログラムである。

モデル生成プログラム１１５は、シーケンスデータから被写体である人間の動きを機械学習して、「モデル」としてのモデルデータ１３６を生成するコンピュータプログラム（学習プログラム）である。

推論プログラム１１６は、推論用シーケンスデータをモデルへ入力することにより、各シーケンスでの人間の動きを認識するコンピュータプログラムである。

入出力装置１２０は、ユーザとの間で情報を入出力する装置である。入出力装置１２０は、情報出力装置１２１と情報入力装置１２２とを備える。情報出力装置１２１としては、例えば、ディスプレイ、プリンタ（いずれも不図示）などがある。情報入力装置１２２としては、例えば、キーボード、マウス、タッチパネル、カメラ、スキャナ（いずれも不図示）などがある。情報出力装置と情報入力装置との両方を兼ねる装置でもよい。外部のカメラ１４０で撮影された動画ファイルを記憶装置１３０または中央演算処理装置１１０のいずれかまたは両方に入力させることもできる。

記憶装置１３０は、例えば、中央演算処理装置１１０での処理対象となるデータと処理後のデータ等とを格納する装置である。

記憶装置１３０には、例えば、元画像データ１３１と、骨格画像データ１３２と、挙動画像データ１３３と、正解データ１３４と、学習用シーケンスデータ１３５と、モデルデータ１３６と、推論用シーケンスデータ１３７とが格納される。

上述の通り、元画像データ１３１は、動画を例えばフレーム毎の画像単位で分割した元画像群である。骨格画像データ１３２は、元画像データ１３１をもとに人の主要な骨格を抽出した画像データである。挙動画像データ１３３は、骨格画像データ１３２をもとに時間的に連続した画像内の人間の動きにどのような変化があったかの情報を抽出した画像データである。

正解データ１３４は、元画像データ１３１に含まれる人間の行動パターンの正解を示すデータである。学習用シーケンスデータ１３５は、元画像データ１３１と骨格画像データ１３２と挙動画像データ１３３と正解データ１３４とをもとに、ひとまとまりの時系列データとして加工されたデータである。モデルデータ１３６は、学習用シーケンスデータ１３５を機械学習させることで得られる学習済モデルのデータである。推論用シーケンスデータ１３７は、元画像データ１３１と骨格画像データ１３２と挙動画像データ１３３とをもとに、ひとまとまりの時系列データとして加工されたデータである。

上述のコンピュータプログラムとデータの少なくとも一部または全部を、フラッシュメモリデバイス、ハードディスク、磁気テープ、光ディスクなどの記録媒体ＭＭに格納して流通させることもできる。コンピュータプログラムおよびデータの少なくとも一部を、通信ネットワークを介して配信することもできる。

＜元画像データ＞

図３は、元画像データ１３１の例を示す。元画像データ１３１は、例えば、動画データ（動画ファイル）をフレーム単位で分割してファイルとして格納したデータである。

図３（１），図３（２）は、撮影時間の異なる元画像データ１３１（１），１３１（２）を示す。各元画像データ１３１（１），１３１（２）には、対象の人物１３１１（１），１３１１（２）と、背景１３１２とが含まれている。図３は、被写体である人間１３１１が街路灯１３１２の前を横切って走っている画像を例に挙げている。この場合、元画像データ１３１（１），１３１（２）は、動作中の人物を撮影しているため、それぞれ人間１３１１の画像が異なる。これに対して、固定された街路灯などの背景１３１２は、元画像データ１３１（１），１３１（２）間で変化しない。

図３（１）に示すように、各元画像データ１３１には、ファイル名Ｆ１３１が自動的に付与される。図３に示す例では、元画像であることを示す「ｒａｗ」に時間的順序を示す数値を付与することにより、元画像データのファイル名が生成される。

＜骨格画像データ＞

図４は、骨格画像データ１３２の例を示す。図４（１）に示す骨格画像データ１３２（１）は、図３（１）に示す元画像データ１３１（１）から得られる骨格情報から生成されたデータである。図４（２）に示す骨格画像データ１３２（２）は、図３（２）に示す元画像データ１３１（２）から得られる骨格情報から生成されたデータである。

図３（１）の元画像データ１３１（１）に含まれる人間１３１１（１）から骨格だけの人物１３２２（１）が生成される。同様に、図３（２）の元画像データ１３１（２）に含まれる人間１３１１（２）から骨格だけの人物１３２２（２）が生成される。

骨格画像は、人の頭および手足等の主要なパーツにおける主要な関節を点でプロットし、一部の点と点とを線で結合したものである。骨格画像データ１３２には元画像データ１３１における背景は含まれないため、人間の行動を認識する上でノイズとなる情報は除外される。さらに、骨格情報を抽出することにより、人間の姿勢をより明確に認識することができる。

図４（３）に示すように、骨格画像データ１３２にもファイル名Ｆ１３２が自動的に付与される。図４に示す例では、骨格画像であることを示す「ｐｏｓｅ」に時間的順序を示す数値を付与することにより、骨格画像データのファイル名が生成される。

＜挙動画像データ＞

図５は、挙動画像データ１３３の例を示す。挙動画像データ１３３は、骨格画像データ１３２の各画像のうち、時間的に隣接する画像から人間の骨格の動きの変化を挙動情報として抽出し、抽出された挙動情報を画像として保存したデータである。

図５（１）に示す挙動画像データ１３３（１）は、図４（１）に示す骨格画像データ１３２（１）と図４（２）に示す骨格画像データ１３２（２）とからオプティカルフローを抽出し、抽出された画素毎のオプティカルフローを矢印で表現したデータである。同様に、図５（２）に示す挙動画像データ１３３（２）は、図４（２）に示す骨格画像データ１３２（２）と時間的に次の骨格画像データ（不図示）とからオプティカルフローを抽出することにより生成されたデータである。

図５（３）に示すように、挙動画像データ１３３にもファイル名Ｆ１３３が自動的に付与される。図５に示す例では、挙動画像であることを示す「ｆｌｏｗ」に時間的順序を示す数値を付与することにより、挙動画像データのファイル名が生成される。

＜正解データ＞

図６は、正解データ１３４の例を示す。正解データ１３４は、元画像データ１３１のファイル名１３４１と正解１３４２とから構成される。

正解１３４２とは、画像に写っている人間の行動を分類する識別子（ＩＤ）である。正解１３４２では、例えば、歩いている人は「０」、走っている人は「１」、座っている人は「２」、のように任意の分類を定義可能である。図６の例では、各ファイル１３４１には、いずれも走っている人を示すＩＤ「１」が付与されている。

これら以外に、ジャンプしている、しゃがもうとしている、立ち上がろうとしている、座ろうとしている、何かを持ち上げようとしている、何かを置こうとしている、のような行動パターンを定義し、その行動パターンに識別子を割り当ててもよい。

＜学習用シーケンスデータ＞

図７は、学習用シーケンスデータ１３５の例を示す。学習用シーケンスデータ１３５は、一連の時系列データ（元画像データ１３１，骨格画像データ１３２，挙動画像データ１３３）をもとに生成されている。人間の行動を認識するモデルデータは、学習用シーケンスデータ１３５を用いて機械学習を行うことにより生成される。

学習用シーケンスデータ１３５は、例えば、シーケンス識別子１３５１（図中、ｓｉｄ）と、時間的順序識別子１３５２（図中、ｔｉｄ）と、元画像データのファイル名１３５３と、骨格画像データのファイル名１３５４と、挙動画像データのファイル名１３５５と、分類クラス（分類結果）１３５６とを備える。識別子１３５１，１３５２は、行動認識装置１内で一意であればよい。

図７の例では、時間的順序識別子１３５２の数は「３」である場合を示す。識別子１３５２の数は「３」以外の数でもよい。図７の例では、骨格画像データと挙動画像データとは、それぞれ同一時刻の元画像データから生成された画像データである。

＜モデルデータ＞

図８は、モデルデータ１３６の例を示す。モデルデータ１３６は、例えば、データ種類１３６１と、データ項目１３６２と、値１３６３とを備える。

データ種類１３６１は、機械学習により得られたモデルの設定データ１３６１１と学習済モデル１３６１２とを備える。設定データ１３６１１および学習済モデル１３６１２は、それぞれデータ項目１３６２とその値１３６３とを含む。

設定データ１３６１１のデータ項目１３６２は、例えば、元画像ｓｈａｐｅ１３６２Ａと、骨格画像ｓｈａｐｅ１３６２Ｂと、挙動画像ｓｈａｐｅ１３６２Ｃと、出力ｓｈａｐｅ１３６２Ｄと、各層の処理内容１３６２Ｅおよび１３６２Ｆとを含む。

元画像ｓｈａｐｅ１３６２Ａは、元画像データ１３１の構造を表す。元画像ｓｈａｐｅ１３６２Ａの値１３６３には、例えば（２５６，２５６，３）が設定される。これは、高さ２５６画素、幅２５６画素、３チャンネル（通常ＲＧＢ）であることを表す。

骨格画像ｓｈａｐｅ１３６２Ｂと挙動画像ｓｈａｐｅ１３６２Ｃも同様である。すなわち、骨格画像ｓｈａｐｅ１３６２Ｂは、骨格画像データ１３２の構造を示す。挙動画像ｓｈａｐｅ１３６２Ｃは、挙動画像データ１３３の構造を示す。挙動画像データはグレー画像であるため、１チャンネルである。

出力ｓｈａｐｅ１３６２Ｄの値１３６３には、（１０）が設定されている。これは、１０種類の行動パターンがあることを表す。

機械学習のアルゴリズムがニューラルネットワークの場合、各層の処理内容が、１層目処理１３６２Ｅ、２層目処理１３６２Ｆのように表される。その他、処理内容に関する様々な設定が設定データ１３６１１に記載される。

学習済モデル１３６１２には、シーケンスデータから人間の行動の認識結果（行動の識別子）を得るためのモデルのパラメータが格納される。機械学習による学習処理が行われるまで、学習済モデル１３６１２の値１３６３には値が格納されない。学習処理が行われた後で、自動的に計算された値が値１３６３へ格納される。なお、モデルのパラメータはユーザが把握している必要はなく、機械学習モデルを呼び出した際にコンピュータプログラム内で自動的に使用される。

＜推論用シーケンスデータ＞

図９は、推論用シーケンスデータ１３７の例を示す。推論用シーケンスデータ１３７は、画像に含まれる人間の行動を判別する際に使用されるデータであり、図８で述べたモデルに入力される。

推論用シーケンスデータ１３７は、図７で述べた学習用シーケンスデータ１３５と同様に、例えば、シーケンス識別子１３７１と、時間的順序識別子１３７２と、元画像データのファイル名１３７３と、骨格画像データのファイル名１３７４と、挙動画像データのファイル名１３７５と、分類クラス１３７６とを備える。分類クラス１３７６には、推論処理後に、行動パターンの判定結果である識別子が格納される。

＜行動認識装置における処理概要＞

行動認識装置１の処理概要を説明する。中央演算処理装置１１０は、骨格画像生成プログラム１１２により呼び出される元画像取得プログラム１１１を用いて、記憶装置１３０から元画像データ１３１を読み込む。続いて中央演算処理装置１１０は、骨格画像生成プログラム１１２を用いて、元画像データ１３１から骨格画像データ１３２を生成し、生成した骨格画像データ１３２を記憶装置１３０へ格納する。次に、中央演算処理装置１１０は、挙動画像生成プログラム１１３を実行し、記憶装置１３０から骨格画像データ１３２を読み込み、骨格画像データ１３２から挙動画像データ１３３を生成する。中央演算処理装置１１０は、生成した挙動画像データ１３３を記憶装置１３０へ格納する。

中央演算処理装置１１０は、シーケンスデータ生成プログラム１１４を実行する。中央演算処理装置１１０は、記憶装置１３０から、元画像データ１３１と骨格画像データ１３２と挙動画像データ１３３と正解データ１３４とを読み込み、学習用シーケンスデータ１３５を生成する。中央演算処理装置１１０は、生成した学習用シーケンスデータ１３５を記憶装置１３０へ格納する。

中央演算処理装置１１０は、モデル生成プログラム１１５を実行する。中央演算処理装置１１０は、記憶装置１３０から学習用シーケンスデータ１３５とモデルデータ１３６とを読み込んで機械学習を行い、モデルデータ１３６を得る。中央演算処理装置１１０は、新たに生成されたモデルデータ１３６を記憶装置１３０に上書き保存する。

中央演算処理装置１１０は、推論プログラム１１６を実行する。中央演算処理装置１１０は、記憶装置１３０からモデルデータ１３６と推論用シーケンスデータ１３７とを読み込み、各シーケンスにおける認識結果（行動分類クラス）を求める。中央演算処理装置１１０は、生成した推論用シーケンスデータ１３７を記憶装置１３０に上書き保存する。それぞれの処理について、以下詳細に説明する。

＜骨格推定処理＞

図１０は、骨格画像生成プログラム１１２が実行する骨格画像データ生成処理を示すフローチャートである。ここでの動作主体は、中央演算処理装置１１０により実行される骨格画像生成プログラム１１２である。骨格画王データ生成処理では、図３のような元画像データ群から、各元画像データに写っている人間の骨格の座標を推定し、骨格画像として描画する。

骨格画像生成プログラム１１２は、記憶装置１３０から元画像データ１３１を読み込む（Ｓ２１）。以下では、図３で述べた元画像データ１３１が中央演算処理装置１１０に読み込まれたと仮定して説明する。

骨格画像生成プログラム１１２は、各元画像データ１３１から被写体である人間の骨格座標を算出し、骨格画像データ１３２を生成する（Ｓ２２）。

人間の骨格座標を求める手法には種々あるが、例えば非特許文献１に記載された方法を用いてもよい。この方法は、画像内に写っている人間の、人体の各部位の位置と各部位間の関係性の特徴とを抽出し、人体毎の骨格座標を求める。

算出対象の骨格の部位は、用途に応じて変更可能である。本実施例では、例えば、鼻、首、右肩、左肩、右肘、左肘、右手、左手、右腰、左腰、右膝、左膝、右足、左足、の合計１４点を取得する場合を説明する。算出対象の各部位の座標を抽出した後、抽出された骨格座標群をプロットし、プロットされた骨格座標群のうち一部の座標間を直線で結合することにより、骨格画像データ１３２を生成する。

例えば、図３（１），（２）に示す元画像データ１３１（１），（２）に対して、抽出後の骨格座標をもとに計算すると、図４（１），（２）に示す骨格画像データ１３２（１），１３２（２）が生成される。なお、骨格画像データ１３２の背景は、例えば白色や黒色等にすればよい。

最後に、骨格画像生成プログラム１１２は、ステップＳ２２で生成した骨格画像データ１３２を記憶装置１３０へ格納する（Ｓ２３）。

＜挙動抽出処理＞

図１１は、挙動画像生成プログラム１１３が実行する挙動画像データ生成処理を示すフローチャートである。ここでの動作主体は、中央演算処理装置１１０により実行される挙動画像生成プログラム１１３である。挙動画像データ生成処理では、図４に示す骨格画像群から、各部位の時間的変化を抽出し、挙動画像データ１３３として描画する。

挙動画像生成プログラム１１３は、記憶装置１３０から骨格画像データ１３２を読み込む（Ｓ３１）。以下では、例えば、図４に示す骨格画像データ１３２（１），（２）のようなデータが読み込まれたものとして説明する。

挙動画像生成プログラム１１３は、各骨格画像データ１３２から、骨格の動きとしてのオプティカルフローを抽出し、挙動画像データ１３３を生成する（Ｓ３２）。ここでオプティカルフローとは、時間的に連続する画像の中で、物体の動きをベクトルで表現したものである。オプティカルフローの計算方法には種々あるが、例えばＬｕｃａｓ－Ｋａｎａｄｅ法を用いることができる。図４（１），（２）に示す骨格画像データ１３２（１），（２）を元にオプティカルフローを求めると、図５（１）に示す挙動画像データ１３３（１）が生成される。挙動画像データ内の矢印は、矢印の始点から終点に向かって、画像内の画素に動きがあったことを表している。

挙動画像生成プログラム１１３は、ステップＳ３２で生成した挙動画像データ１３３を記憶装置１３０へ格納する（Ｓ３３）。

＜シーケンス生成処理＞

図１２は、シーケンスデータ生成プログラム１１４が実行するシーケンスデータ生成処理を示すフローチャートである。ここでの動作主体は、中央演算処理装置１１０により実行されるシーケンスデータ生成プログラム１１４である。シーケンスデータ生成処理では、図７で述べた学習用シーケンスデータ１３５または図９で述べた推論用シーケンスデータ１３７を生成する。

まず最初に、シーケンスデータ生成プログラム１１４は、元画像データ１３１と骨格画像データ１３２と挙動画像データ１３３と正解データ１３４とを記憶装置１３０から読み込む（Ｓ４１）。例えば、図３、図４、図５、図６で述べたデータが読み込まれたものとして、以下説明する。

シーケンスデータ生成プログラム１１４は、各画像データ１３１，１３２，１３３に一意に付与されている時系列を表す変数ｔに「１」を代入する（Ｓ４２）。シーケンスデータ生成プログラム１１４は、一つのシーケンスとして構成する所定時間内のデータを取得する（Ｓ４３）。ここでは、「ｔ」から「ｔ＋ｎ－１」までのデータを一つのシーケンスとして取り扱う。変数ｎは、一つのシーケンスの長さを表している。例えば、「ｔ＝１、ｎ＝３」の場合、一つのシーケンスとなるのは、時間が「１」、「２」、「３」のデータである。

例えば図７では、元画像データのファイル名１３５３、骨格画像データのファイル名１３５４、挙動画像データのファイル名１３５５のうち、各ファイル名中の時間的順序を示す値が「０００１」、「０００２」、「０００３」であるデータが一つのシーケンスとして使用される。すなわちこの場合は「１」、「２」、「３」となる。

シーケンスデータ生成プログラム１１４は、シーケンスデータのシーケンス識別子（ｓｉｄ）と時間的順序識別子（ｔｉｄ）とを設定する（Ｓ４４）。シーケンス識別子には、各シーケンスデータを一意に識別する値を格納する。図７のシーケンス識別子１３５１に示すように、「１」から順に格納する。時間的順序識別子は、各シーケンスデータ内での順序を表す値である。図７の時間的順序識別子１３５２に示すように、時間が古いものから順に「１」、「２」、「３」のように設定される。

シーケンスデータ生成プログラム１１４は、各シーケンスデータの分類クラスを設定する（Ｓ４５）。分類クラスとは、各シーケンスにおける人間の行動パターンを表す識別子である。例えば、「歩いている人」は「０」、「走っている人」は「１」のように、分類クラスは設定される。

分類クラスは、学習処理時と推論処理時とで、それぞれ格納する値が異なる。推論処理時には、分類クラスの値を設定せず、空白にしておく。学習処理時には、正解データをもとに分類クラスの値を設定する。分類クラスの値の決め方には種々あるが、例えば、同一シーケンス内における多数決で分類クラスを決定する方法が考えられる。

図７の「ｓｉｄ＝１」の場合で説明する。元画像データは、「ｒａｗ＿０００１．ｊｐｇ」、「ｒａｗ＿０００２．ｊｐｇ」、「ｒａｗ＿０００３．ｊｐｇ」の３つである。これら３つの元画像データを正解データと照合すると、すべて正解は「１」である。したがって、３つのファイルの多数決により、「ｓｉｄ＝１」のシーケンスの分類クラスは「１」となる。分類クラスを多数決で決定できない場合は、例えば、候補となる分類クラスの中からランダムで決定したり、またはそのシーケンスにおける最大の「ｔｉｄ」を持つ分類クラスを使用するなどすればよい。

続いて、シーケンスデータ生成プログラム１１４は、変数ｔに「ｔ＋ｎ」を代入する（Ｓ４６）。すなわち、次のシーケンスの開始の時間を設定する。

シーケンスデータ生成プログラム１１４は、「ｔ＋ｎ－１」が最大の時間ｔｍａｘより大きいかどうか判定する（Ｓ４７）。この条件が成立する場合（Ｓ４７：ＹＥＳ）、シーケンスをこれ以上設定できないことを表す。条件が成立しない場合（Ｓ４７：ＮＯ）、シーケンスデータ生成プログラム１１４は、ステップＳ４３へ戻って、次のシーケンスを生成する。条件が成立する場合（Ｓ４７：ＹＥＳ）、ステップＳ４８へ進む。

シーケンスデータ生成プログラム１１４は、生成されたシーケンスデータを記憶装置１３０へ格納する（Ｓ４８）。学習処理用にシーケンスデータ生成処理が呼び出された場合は、学習用シーケンスデータ１３５として記憶装置１３０に格納される。推論処理用にシーケンスデータ生成処理が呼び出された場合は、推論用シーケンスデータ１３７として記憶装置１３０へ格納される。

＜学習処理＞

図１３は、モデル生成プログラム１１５が実行するモデル生成処理（学習処理）を示すフローチャートである。ここでの動作主体は中央演算処理装置１１０により実行されるモデル生成プログラム１１５である。モデル生成処理では、図７で述べた学習用シーケンスデータ１３５を生成した後で、この学習用シーケンスデータ１３５から図８で述べたモデルデータ１３６を生成する。

モデル生成プログラム１１５は、シーケンスデータ生成プログラム１１４により学習用シーケンスデータ１３５を生成させる（Ｓ５１）。このステップＳ５１では、図１２で述べたシーケンスデータ生成処理が呼び出され、前述した処理が実行される。

モデル生成プログラム１１５は、生成された学習用シーケンスデータ１３５を記憶装置１３０から読み込み（Ｓ５２）、機械学習により学習用シーケンスデータ１３５からモデルデータ１３６を生成する（Ｓ５３）。

機械学習の手法は種々あるが、例えばディープラーニングを用いることができる。ディープラーニングを用いる場合、様々なモデルを定義可能である。図１４にニューラルネットワークの構成例を示す。

図１４では、入力として、元画像データ１３１、骨格画像データ１３２、挙動画像データ１３３を、時間的順序識別子（ｔｉｄ）毎にひとつにまとめたマルチチャンネルの画像データとして、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）２１に入力して特徴を抽出し、さらにＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）２２により時系列としての特徴抽出を行って、最終的な分類クラスを出力する（２３，２４）。ＣＮＮとＬＳＴＭとでの処理時には、活性化関数またはプーリングまたはドロップアウト等の処理を加えてもよい。

ディープラーニングの出力として、各シーケンスデータの分類クラスを設定する。図１４の構成は一例であり、様々な変更が可能である。図１４で述べたニューラルネットワークに学習用シーケンスデータ１３５を入力し、誤差逆伝播法等により学習させることにより、画像内の人間の行動パターンを推測可能なモデルデータ１３６が生成される。

図１３に戻る。モデル生成プログラム１１５は、ステップＳ５３で生成されたモデルデータ１３６を記憶装置１３０に格納する（Ｓ５４）。

＜推論処理＞

図１５は、推論プログラム１１６の実行する推論処理を示すフローチャートである。動作主体は、中央演算処理装置１１０により実行される推論プログラム１１６である。推論処理では、図９で述べた推論用シーケンスデータ１３７を生成した後、この推論用シーケンスデータ１３７と図８で述べたモデルデータ１３６とをもとに、各シーケンスにおける分類クラスを推定する。

推論プログラム１１６は、シーケンスデータ生成プログラム１１４により推論用シーケンスデータ１３７を生成させる（Ｓ６１）。ステップＳ６１では、シーケンスデータ生成処理が呼び出され、前述の処理が実行される。

推論プログラム１１６は、推論用シーケンスデータ１３７とモデルデータ１３６とを記憶装置１３０から読み込み（Ｓ６２）、推論処理により、推論用シーケンスデータ１３７をモデルデータ１３６へ入力して、各シーケンスの分類クラスを求める（Ｓ６３）。

図１４で述べたニューラルネットワークに対し、学習時と同様に、元画像データと骨格画像データと挙動画像データとを時間的順序識別子（ｔｉｄ）毎のひとまとまりのマルチチャンネル画像データとして入力すると、ｓｏｆｔｍａｘ処理２３により、各シーケンスの分類クラスの確率が出力される。例えば、「走っている」を表す分類クラス「１」の確率が「０．９」であれば、入力されたデータ群に含まれる人間の行動を「走っている」と判定できる。行動の認識結果を示す識別子は、分類クラスに格納される。

推論プログラム１１６は、ステップＳ６３で生成された推論用シーケンスデータ１３７を記憶装置１３０に上書き保存する（Ｓ６４）。

以上説明したように、本実施例によれば、元画像データ１３１から骨格画像データ１３２および挙動画像１３３データを生成し、機械学習によるモデルデータ１３６を生成することにより、時系列の画像データに写っている人間の行動を判定することができる。

本実施例では、人間の行動の認識に際して骨格画像データ１３２を使用するため、人間とは無関係の背景の情報を排除できる。さらに、本実施例では、人間の骨格としての特徴を抽出するため、人間の行動を高精度に判定することができる。さらに、本実施例では、挙動画像データ１３３も使用するため、時系列的な人間の動きの特徴を抽出することができ、さらに判定精度を向上させることができる。

図１６，図１７を用いて第２実施例を説明する。本実施例を含む以下の各実施例では、第１実施例との相違を中心に述べる。本実施例では、各元画像データ１３１内の背景の時間変化が所定値以上の場合に、行動認識装置１Ａを作動させて、画像に写った人間の行動を認識する。本実施例に係る行動認識装置１Ａは、例えば、乗用車、商用車、建設機械などの各種移動体を運転する運転手の監視システムとして使用されてもよい。

行動認識装置１Ａには、センサ３１からのセンサデータが入力される。センサ３１は、行動認識装置１Ａの監視対象である人間が運転する移動体３０に設けられており、例えば、速度センサ、加速度センサ、位置センサなどが該当する。行動認識装置１Ａは、移動体３０に設けることもできるし、移動体３０の外部に設けることもできる。

行動認識装置１Ａを例えば移動体３０の外部にあるサーバに設ける場合、移動体３０のセンサ３１からのセンサデータとカメラ１４０等で撮影した元画像データとを通信ネットワークを介してサーバ内の行動認識装置１Ａへ送信する。行動認識装置１Ａは、移動体３０から受信したセンサデータおよび元画像データに基づいて、運転手の行動を認識し、その認識結果（分類クラス）を通信ネットワークを介して移動体３０へ送信する。移動体３０内の情報出力装置は、行動の認識結果に応じた警報を出力する。

図１７は、行動認識装置１Ａを監視システムとして用いる場合の、行動監視処理Ｓ７０を示すフローチャートである。ここでは、移動体３０に行動認識装置１Ａが設けられている場合を例に挙げて説明する。

行動認識装置１Ａは、センサ３１からセンサデータを取得すると（Ｓ７１）、移動体３０が移動中であるかをセンサデータに基づいて判断する（Ｓ７２）。ここでは、一例として、移動体３０が停止していない場合、すなわち移動体３０の速度が「０」を超えている場合に、「移動中である」と判断するものとする。これに代えて、任意の自然数に設定される所定速度以上の場合に、移動体３０が移動中であると判定することもできる。

移動体３０が移動中ではない場合（Ｓ７２：ＮＯ）、行動監視処理は終了する。これに対し、移動体３０が移動中の場合（Ｓ７２：ＹＥＳ）、行動認識装置１Ａは、第１実施例で述べたように、元画像データ１３１と骨格画像データ１３２と挙動画像データ１３３とに基づく推論用シーケンスデータ１３７をモデルデータ１３６に適用することにより、対象者である移動体３０の運転手の行動を認識する（Ｓ７３）。ここでは、行動の分類として、「前を向いている」、「よそ見をしている」、「スマートフォンを操作している」、「飲食している」、「下を向いている」などを挙げる。

行動認識装置１Ａは、ステップＳ７３で認識された行動が正常な行動であるか判定する（Ｓ７４）。ここでは、「前を向いている」が正常な行動としてあらかじめ設定されており、それ以外の行動は正常な行動ではないとして設定されているものとする。

行動認識装置１Ａは、運転手の行動が正常な行動であると判定すると（Ｓ７４：ＹＥＳ）、本処理を終了する。これに対し、行動認識装置１Ａは、運転手の行動が正常な行動ではないと判定すると（Ｓ７４：ＮＯ）、警報を出力する（Ｓ７５）。警報は、例えば、カーナビゲーションシステムなどの移動体３０に搭載された情報出力装置を通じて出力することができる。

このように構成される本実施例によれば、移動体３０が移動中に、運転手の行動を認識し、その認識結果に応じた情報を出力することができる。第１実施例で述べたように、行動認識装置１Ａは、元画像データだけでなく骨格画像データおよび挙動画像データも利用して運転手の行動を認識するため、移動体３０が移動して運転手の背景が変化する場合であっても、運転手の行動を適切に認識することができる。

図１８，図１９を用いて第３実施例を説明する。本実施例に係る行動認識装置１Ｂは、元画像データ１３１から対象の人物（ここでは運転手）の視線を検出し、検出された視線を対象人物の行動の判定に利用する。

図１８に示す行動認識装置１Ｂも、第２実施例と同様に、移動体３０の運転手の行動を監視する監視システムとして用いられる。行動認識装置１Ｂには、センサ３１からのセンサデータが入力される。さらに、行動認識装置１Ｂは、元画像データ１３１を分析することにより視線を検出する視線解析部１７が設けられている。視線解析部１７は、中央演算処理装置１１０が所定のコンピュータプログラム（図示せぬ視線解析プログラム）を実行することにより実現される機能である。

図１９は、本実施例に係る行動監視処理Ｓ７０Ｂのフローチャートである。この処理は、図１７で述べたステップＳ７１～Ｓ７４を全て備えている。本実施例では、図１７で述べたステップＳ７５に代えて、複数種類の警報を出力する（Ｓ７８，Ｓ７９）。さらに、本実施例では、新規なステップＳ７６およびＳ７７を有する。

行動認識装置１Ｂは、推論用シーケンスデータ１３７をモデルデータ１３６に適用することにより得られる運転手の行動が正常であるか判定し（Ｓ７４）、正常な行動ではないと判定した場合には（Ｓ７４：ＮＯ）、視線解析部１７から運転手の視線の解析結果を読み込む（Ｓ７６）。

行動認識装置１Ｂは、視線の解析結果が正常であるか判定する（Ｓ７７）。ここで、正常な視線とは、移動体３０の移動方向を向いている状態である。行動認識装置１Ｂは、運転手の行動が正常ではない場合であっても（Ｓ７４：ＮＯ）、その視線が移動方向を向いているのであれば（Ｓ７７：ＹＥＳ）、一定の安全は保たれていると判断し、注意を促す警報を出力する（Ｓ７８）。

これに対し、運転手の行動が正常ではなく（Ｓ７４：ＮＯ）、かつその視線も正常ではない場合（Ｓ７７：ＮＯ）、安全性を向上させるべく、運転手に向けて警告を示す警報を出力する（Ｓ７９）。注意または警告を示す警報は、移動体３０内の運転手だけに向けて出力してもよいし、移動体３０を管理する管理システムまたは管理者の持つ情報処理装置へ向けて出力してもよい。

このように構成される本実施例によれば、運転手の行動が正常ではないと判定された場合に、運転手の視線も考慮して警報を出力するため、実際には安全性が確保されている状況下で警告が発せられる事態を抑制することができ、運転手に与える違和感または不快感を低減することができ、使い勝手が向上する。

なお、本発明は、実施形態そのままに限定されるものではなく、実施段階では、その要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

実施形態で示された各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。上記各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能等を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録或いは記憶装置、またはＩＣカード、ＳＤカード、ＤＶＤ等の記録或いは記憶媒体に格納することができる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれる。さらに特許請求の範囲に記載された構成は、特許請求の範囲で明示している組合せ以外にも組み合わせることができる。

１，１Ａ，１Ｂ：行動認識装置、１１：元画像取得部、１２：骨格画像生成部、１３：挙動画像生成部、１４：シーケンスデータ生成部、１５：モデル生成部、１６：推論部、３０：移動体、３１：センサ、１１０：中央演算処理装置、１２０：入出力装置、１３０：記憶装置、１３１：元画像データ、１３２：骨格画像データ、１３３：挙動画像データ、１３４：正解データ、１３５：学習用シーケンスデータ、１３６：モデルデータ、１３７：推論用シーケンスデータ

Claims

画像に含まれる人物の行動を分析する行動分析装置であって、
撮影時間の異なる複数の元画像データを取得する元画像取得部と、
前記各元画像データ内の人物の骨格画像データを生成する骨格画像生成部と、
前記各骨格画像データに基づいて前記人物の骨格の時間変化を示す挙動画像データを生成する挙動画像生成部と、
前記各元画像データと前記各骨格画像データと前記各挙動画像データとに基づいて、人物の行動パターンの学習と推論とが可能な所定のモデルを生成するモデル生成部と、
を有する行動分析装置。
分析対象の複数の元画像データと前記所定のモデルとに基づいて、前記分析対象の各元画像データ内の人物の行動を推定し、推定結果を出力する推論部をさらに備える、
請求項１に記載の行動分析装置。
前記各元画像データ内の背景の時間変化が所定値以上の場合に、前記推論部は、前記分析対象の各元画像データと、前記分析対象の各元画像データから前記骨格画像生成部により生成される複数の骨格画像データと、前記各骨格画像データから前記挙動画像生成部により生成される複数の挙動画像データと、前記所定のモデルとに基づいて、前記分析対象の各画像データに含まれる人物の行動を推定し、推定結果を出力する、
請求項２に記載の行動分析装置。
前記分析対象の各元画像データに含まれる前記人物の視線を解析する視線解析部をさらに備え、
前記推論部は、前記解析された視線と前記分析対象の各元画像データと前記所定のモデルとに基づいて前記人物の行動を推定し、推定結果を出力する、
請求項２に記載の行動分析装置。
前記推論部は、
前記各元画像データ内の背景の時間変化が所定値以上の場合に、前記分析対象の各元画像データと、前記分析対象の各元画像データから前記骨格画像生成部により生成される複数の骨格画像データと、前記各骨格画像データから前記挙動画像生成部により生成される複数の挙動画像データと、前記所定のモデルとに基づいて、前記人物の行動を推定して推定結果を出力し、
前記推定結果が正常状態を示さない場合に、前記解析された視線が予め設定された所定範囲にあるときは第１の警報を出力し、前記解析された視線が前記所定範囲から外れているときは第２の警報を出力する、
請求項４に記載の行動分析装置。
演算装置と記憶装置とをさらに備え、
前記演算装置が前記記憶装置に記憶された所定のコンピュータプログラムを実行することにより、前記元画像取得部と前記骨格画像生成部と前記挙動画像生成部と前記モデル生成部とが実現され、
前記元画像データと前記骨格画像データと前記挙動画像データと前記所定のモデルとは、前記記憶装置に記憶される、
請求項１に記載の行動分析装置。
計算機を用いて、画像に含まれる人物の行動を分析する行動分析方法であって、
前記計算機は、
撮影時間の異なる複数の元画像データを取得し、
前記各元画像データ内の人物の骨格画像データを生成し、
前記各骨格画像データに基づいて前記人物の骨格の時間変化を示す挙動画像データを生成し、
前記各元画像データと前記各骨格画像データと前記各挙動画像データとに基づいて、人物の行動パターンの学習と推論とが可能な所定のモデルを生成し、
分析対象の複数の元画像データと前記所定のモデルとを取得し、
前記分析対象の各元画像データ内の人物の行動を推定して推定結果を出力する、
行動分析方法。