JP2023056137A

JP2023056137A - 情報処理装置、検出方法、および検出プログラム

Info

Publication number: JP2023056137A
Application number: JP2021165280A
Authority: JP
Inventors: 悟 ▲高▼橋; Satoru Takahashi; 收文中山; Osafumi Nakayama
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-10-07
Filing date: 2021-10-07
Publication date: 2023-04-19

Abstract

【課題】行動検出のロバスト性を向上させる。
【解決手段】一実施形態に係る情報処理装置は、動画データから人物の骨格を検出する検出部と、人物の骨格に含まれる関節に基づいて人物の行動を判定する判定部と、を含む。判定部は、第１関節に基づいて人物が検出対象の行動をしているか否かを判定する第１ルールがある場合に、第１関節と、第１関節に隣接する第２関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、所定条件が満たされている場合、人物が検出対象の行動をしているか否かを第２関節に基づいて判定するように第１ルールに基づき生成されている第２ルールを用いて、人物が検出対象の行動をしているか否かを判定する。
【選択図】図１２

Description

本発明は、情報処理装置、検出方法、および検出プログラムに関する。

近年、様々なビジネスの領域において、例えば、カメラなどの撮影装置で撮影した動画データを画像処理し、解析する需要が急激に増加している。こうした画像処理技術では、ＡＩ（人工知能）およびディープラーニング（深層学習）などがしばしば利用されている。一例として、ディープラーニングなどの機械学習によって得られた認識モデルを用いて動画から人の行動を検出することが行われている。

一方で、人の行動を検出する学習済みモデルを生成するために、教師データを用意することが難しいこともある。そのため、人物の姿勢などの基本的な身体状態を認識モデルで基本動作として検出し、検出された基本動作に対してルールベースの識別器で人物のより高次の行動を検出する試みも成されている。一例として、人物の基本動作の認識結果と、人物の周囲の空間との関係性を判定するルールを記述することで、学習コストを低減しつつ、人物の様々な行動を推定することが行われている。

また、人の状態の判定に関連する技術が知られている（例えば、特許文献１から特許文献３）。

米国特許出願公開第２０１９／０３６２１３９号明細書米国特許出願公開第２０２０／００１２９２２号明細書特開２０１２－１５５３９１号公報

しかしながら、例えば、手首の位置といった身体の特定部位を注目変数として用いたルールにより行動を検出する場合、その部位のオクルージョンなどによって判定の機会を逃してしまうことがある。そのため、性質の近い別の注目変数を用いた相補的なルールを利用できることは、行動検出のロバスト性を向上させるうえで好ましい。

１つの側面では、本発明は、行動検出のロバスト性を向上させることを目的とする。

本発明の一つの態様の情報処理装置は、動画データから人物の骨格を検出する検出部と、人物の骨格に含まれる関節に基づいて人物の行動を判定する判定部と、を含む。判定部は、第１関節に基づいて人物が検出対象の行動をしているか否かを判定する第１ルールがある場合に、第１関節と、第１関節に隣接する第２関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、所定条件が満たされている場合、人物が検出対象の行動をしているか否かを第２関節に基づいて判定するように第１ルールに基づき生成されている第２ルールを用いて、人物が検出対象の行動をしているか否かを判定する。

行動検出のロバスト性を向上させることができる。

実施形態に係る検出システムを例示する図である。戸棚と人物とが写った映った動画を例示する図である。戸棚から人物がモノを取る行動の映る動画から骨格検出により得られた姿勢情報を例示する図である。姿勢情報から得られたベクトルを例示する図である。実施形態に係る検出対象の動画から検出された肩関節から手首までの長さを例示する図である。肩関節から手首までの長さの変動を示すグラフを例示する図である。実施形態に係る行動検出を説明する例を示す図である。人物による帽子を直す行動が映る動画から骨格検出により得られた姿勢情報を例示する図である。姿勢情報から得られたベクトルを例示する別の図である。実施形態に係る行動検出を説明する別の例を示す図である。実施形態に係る帽子を直す行動が映る動画から検出された肩関節から手首までの長さを例示する図である。実施形態に係る行動推定処理の動作フローを例示する図である。実施形態に係る代替ルールの適用期間特定処理の動作フローを例示する図である。実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。

以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。

例えば、人間工学の観点から人体の或る部位が、別の部位と連動する状況がある。例えば、人体において隣接する関節同士は連動して動く傾向がある。一例として、手の関節と、手の関節に隣接する肘の関節とは連動して動く傾向がある。例えば、手の関節の位置は、遠くのものを手で取ろうとするとき、手を突き出すときなど、手を遠くに延ばす場合、肘の関節の位置と連動して動く。そして、連動する場合に、連動する部位同士が近しい挙動を取ることもあり、連動する部位同士の動きが示す特性が類似することがある。そのため、検出対象の行動を判定する或るルールがある場合に、そのルールで注目変数とした部位を、連動して動く別の部位に置き換えても、同じ検出対象の行動を検出するルールを生成できることがある。

換言すると、注目変数とした部位と、別の部位とが類似した動きの特性を示すタイミングを見つけることができれば、注目変数とした部位を、連動して動く別の部位に置き換えたルールを、類似した動きの特性を示す期間でのみ適用する事が可能になる。その結果、別の部位を用いて検出対象の行動を判定することが可能になる。

このように生成されたルールは、同じ行動を別な部位を用いて検出できるため、行動検出のロバスト性を向上させることができる。

以下、連動する部位として、手首の関節と、手首の関節に隣接する肘関節をと例に実施形態を説明する。

図１は、実施形態に係る検出システム１００を例示する図である。検出システム１００は、例えば、情報処理装置１０１および撮影装置１０２を含んでよい。情報処理装置１０１は、例えば、サーバコンピュータ、パーソナルコンピュータ（ＰＣ）、モバイルＰＣ、タブレット端末などのコンピュータであってよい。撮影装置１０２は、例えば、カメラなどの動画を撮影する装置であってよい。

情報処理装置１０１および撮影装置１０２は、一例では、通信可能に接続されていてよい。例えば、情報処理装置１０１と撮影装置１０２とは、有線または無線で接続されていてよく、また別の例では、ネットワークを介して接続されていてよい。なお、別の例では、情報処理装置１０１は、撮影装置１０２で撮影された動画を、記憶媒体を介して取得してもよい。

また、情報処理装置１０１は、例えば、制御部１１０、記憶部１２０、および通信部１３０を含む。制御部１１０は、例えば検出部１１１および判定部１１２などを含み、またその他の機能部を含んでもよい。情報処理装置１０１の記憶部１２０は、例えば、動画データ、および後述する姿勢情報３００，８００などの情報を記憶している。通信部１３０は、例えば、制御部１１０の指示に従って撮影装置１０２などの他の装置と通信する。これらの各部の詳細および記憶部１２０に格納されている情報の詳細については後述する。

図２は、戸棚２０１と人物２０２とが映った動画を例示する図である。そして、人物２０２が戸棚２０１からモノをとる行動を動画から検出対象の行動として検出したいとする。なお、一例では、動画において図２に示す方向にｘ軸、ｙ軸、およびｚ軸がとられていてよい。

そして、例えば、人物２０２の肘から手へのベクトルが戸棚２０１の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールを定めることが可能である。

しかしながら、例えば、人物２０２の手が遮蔽物などにより隠されてしまい、動画に映らなくなることがある。この場合、動画において手が映っていないため、ルールの適用に失敗することがある。そのため、他の部位を用いて人物２０２がモノを取る行動を実行したか否かを判定できるルールを生成することは好ましい。

そこで、実施形態では、手の代わりに、手と連動して動く部位を用いて検出対象の行動を検出することのできるルールを生成し、そのルールを用いて検出対象の行動を検出する。一例として、手の代わりに、手の関節（例えば手首）と隣接する肘の関節の部位を用いて行動を検出するルールを、手に対するルールに基づき生成することが考えられる。

例えば、上述のように、肘から手へのベクトルが戸棚２０１の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールがあるとする。この場合に、制御部１１０は、例えば、このルールを変更して、肘から手へのベクトルの代わりに、肩から肘のベクトルの延長線が戸棚２０１の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールを生成してよい。

しかしながら、肘から手のベクトルの向きと、肩から肘のベクトルの向きとが近しくなるのは、肘がある程度伸びている場合に限定される。例えば、肘が曲がっていて手で頭または腰を触っていたりなど、手が体の近くにあったりする場合、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは、異なる方向を指す傾向がある。そのため、例えば、肘が曲がっている状態で、肘から手のベクトルに対して生成されたルールを、肩から肘のベクトルに適用しようとしても、検出対象の行動の実行有無を誤判定してしまうことがある。

そこで、実施形態では制御部１１０は、例えば、肘が伸展しているか否かを、所定条件を用いて判定し、肘が伸展している場合に、肩から肘のベクトルにルールを適用して、人物２０２が戸棚２０１からモノを取る行動を実行したと判定する。このように、或るルールで注目変数とされる部位を、その部位と連動して動く別の部位に置き換えたルールを、類似した動きの特性を示す所定条件を満たす期間でのみ適用することで、別の部位を用いて対象行動を判定することが可能になる。

以下、人物２０２が戸棚２０１からモノを取る行動を検出する処理について例示する。なお、図３から図７は、人物２０２が戸棚２０１からモノを取る行動を撮影した動画に対して行動検出を実行する例を示している。一方、図８および図１１は、人物２０２が帽子を直す行動を撮影した動画に対して行動検出を実行する例を示している。

図３は、戸棚２０１から人物２０２がモノを取る行動の映る動画に骨格検出を実行して得られた人物の姿勢を示す姿勢情報３００を例示している。図３の例では、動画から検出された人物２０２の骨格の情報として、右肩、右肘、および右手首の座標が登録されている。

なお、座標は、一例では、検出された人物２０２の体の中心座標を（０，０，０）としていてよい。この場合に、動画に対して人物抽出および骨格抽出などを実行して得られた人物２０２の右肩、右肘、右手首の座標の情報が図３の姿勢情報３００には登録されていてよい。なお、以下の実施形態において体の長さを用いて説明が行われるが、体の長さは、一例では、フレームごとに胴体の対角線の大きさで正規化されていてよい。

また、実施形態において人物抽出および骨格抽出は、例えば、ディープラーニングで生成された学習済みモデルを用いて実行されてよい。例えば、制御部１１０は、撮影装置１０２で撮影された動画データの各フレームの画像に、人物検出を実行してフレーム画像から人領域を特定してよい。なお、人物検出は、例えば、ＳＳＤ（Single Shot MultiBox Detector）、ＹＯＬＯ（You Only Look Once）、およびＲ－ＣＮＮ（Region Convolutional Neural Network）などの技術を用いて実行されてよい。そして、制御部１１０は、各フレームの画像から検出された人領域に対して、骨格検出を実行してよい。例えば、制御部１１０は、ＯｐｅｎＰｏｓｅ、ＭａｓｋＲ－ＣＮＮ、ＤｅｅｐＰｏｓｅ、ＰｏｓｅＮｅｔなどの手法を用いて、人領域に写る人物の骨格を検出してよい。

そして、制御部１１０は、得られた骨格の座標に基づいて人物の行動を検出してよい。例えば、人物２０２の肘から手へのベクトルが戸棚２０１の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールで、人物が戸棚２０１のモノを取る行動を検出するとする。

制御部１１０は、例えば、姿勢情報３００に登録されている手の座標から肘の座標を差し引いて肘手ベクトルを求めてよい。図４には、図３の姿勢情報３００に基づき取得された肘手ベクトルが示されている。なお、図４では、更に、姿勢情報３００に登録されている肘の座標から肩の座標を差し引いて得られた肩肘ベクトルも示されている。

そして、制御部１１０は、例えば、以下の式１で得られる判定座標が、戸棚２０１の座標に入っている場合に、人物２０２がモノを戸棚２０１から取る行動を検出したと判定してよい。
判定座標＝右肘座標＋肘手ベクトル …式１

なお、上述のように、座標は、一例では、人物の体の中心座標を（０，０，０）としていてよい。そして、長さは、一例では、フレームごとに胴体の対角線の大きさで正規化されていてよい。また、この場合に、戸棚２０１の座標は、例えば、以下で表わされるものとする。
ｘ：－１．０≦ｘ≦１．０
ｙ：－１．８≦ｘ≦‐０．８
ｚ：０．０≦ｘ≦２．０

なお、式１で得られる判定座標は、例えば、右手首の座標となるため、制御部１１０は、姿勢情報３００の右手首の座標の位置が戸棚２０１に入るか否かを判定してもよい。

例えば、図３の姿勢情報３００では、フレーム３において右手首の座標が戸棚２０１の座標内に入っている。そのため、制御部１１０は、フレーム３において人物２０２が戸棚２０１からモノを取ったと判定することができる。

しかしながら、例えば、フレーム３において人物２０２の右手首がオクルージョンなどで見えなくなるなどして、行動の検出ができなくなることがある。例えば、図３の姿勢情報３００では、フレーム３の右手首の座標は、表示色を反転して示されており、これはオクルージョンの発生を示しており、座標情報は取得できていないものとする。

この場合に、例えば、手首の関節と、肘の関節とは隣り合う関節であり、手を動かすときに肘も連動して動くことがある。そのため、実施形態では制御部１１０は、手の関節と隣接する肘関節を用いて人物２０２が戸棚２０１からモノを取ったか否かを判定するルールを生成する。そして、制御部１１０は、手首の関節と、手首と隣り合う肘の関節とが、類似した動きの特性を示すタイミングである場合に、生成したルールを用いて人物２０２が戸棚２０１からモノを取る行動を検出する。

隣り合う手首の関節と、肘の関節とが類似した動きの特性を示すタイミングとしては、腕が伸びている状況が挙げられる。例えば、手を体から離して遠くに伸ばしている状況といった肘がある程度伸びている状況では、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは近しくなる傾向がある。一方、例えば、肘が曲がっていて手で頭または腰を触っていたりなど、手が体の近くにあったりする場合、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは、異なる方向を指す傾向がある。

そのため、制御部１１０は、肘の関節が伸展しているか否かを判定してよい。一例として、制御部１１０は、例えば、人物の肩関節から手首関節までの長さが所定の長さ以上である場合に、肘の関節が伸展していると判定してよい。例えば、制御部１１０は、動画データから肩関節から手首までの長さの最大値を特定する。ここでは、肩関節から手首までの長さの最大値として、０．７８６４が特定されたものとする。この場合に、一例では、最大値を０．９倍した０．７８６４×０．９＝０．７０７８が閾値として用いられてもよい。

そして、制御部１１０は、動画データにおける肩関節から手首までの長さが閾値以上である場合に、肘関節と、手首とが、類似した動きの特性を示すタイミングであると判定してよい。

図５は、実施形態に係る検出対象の動画から検出された肩関節から手首関節までの長さを例示する図である。図５には、例えば、フレームごとの肩関節から手首関節までの長さＤ_ｄｅｔが示されている。なお、フレーム３では手がオクルージョンで隠されているため、長さＤ_ｄｅｔが検出されていない。また、図５には、閾値Ｄ_ｔｈも示されており、フレーム２とフレーム４では肩関節から手首関節までの長さが閾値を超えていることがわかる。そのため、制御部１１０は、例えば、フレーム２からフレーム４までの期間を、肘関節と手首とが類似した動きの特性を示す期間であると特定することができる。

なお、制御部１１０は、例えば、肩関節から手首までの長さが山なりに増減する期間を、手が伸びた状態の期間として検出してよい。図６は、肩関節から手首までの長さの変動を示すグラフを例示する図である。図６のグラフでは、縦軸に肩関節から手首までの長さがとられており、横軸に動画における時間がとられている。そして、一例では、制御部１１０は、増加開始を起点とし、グラフの山の頂上で腕が伸びた状態の長さに到達し、反転して減少が止まるまでの期間を一つの伸縮行動と捉えてよい。この場合、制御部１１０は、グラフのデータが山なり（上に凸）に増減する曲線となる区間において、閾値以上の区間を、肘関節と手首とが類似した動きの特性を示す期間として検出してよい。

そして、制御部１１０は、肘関節と手首とが類似した動きの特性を示す期間において、肘手ベクトルの代わりに、肩肘ベクトルを用いて人物２０２が戸棚２０１からモノを取る行動をとっているかを判定してよい。例えば、制御部１１０は、以下の式２で肩肘ベクトルから得られる判定座標が、戸棚２０１の座標に入っている場合に、人物２０２がモノを戸棚２０１から取る行動を検出したと判定してよい。
判定座標＝右肩座標＋肩肘ベクトル × 延長率 …式２

なお、式２において延長率は、例えば、検出対象の行動を検出できるように調整された所定の範囲に設定されていてよく、ここでは、０．０～１．０であるものとする。例えば、腕を伸ばしている場合、肩肘の長さを約２倍に延ばすと、おおよそ手の位置にくる。そのため、一例では、式２において延長率の最大値を１．０に設定して判定が行われてよい。それにより、肘の座標を手の座標を表すものとして用いて、肘手ベクトルに対して生成されているルールを肩肘ベクトルに適用し、行動検出を実行することが可能である。

図７には、肘関節と手首とが類似した動きの特性を示す期間に含まれるフレーム３の肩と肘の座標に対して式２で計算された延長率に応じた判定座標が示されている。延長率１．０において判定座標は、上述の戸棚２０１の座標範囲に入っている。そのため、制御部１１０は、肩肘ベクトルを用いて人物２０２が戸棚２０１のモノを取ったと判定することができる。そのため、例えば、手がオクルージョンで隠れていても、人物２０２が戸棚２０１のモノを取る行動を検出することが可能である。

以上で述べたように、実施形態によれば、或るルールが存在する場合に、そのルールの行動検出で用いる検出対象の部位の関節と隣接する別の関節に対して、或るルールに基づいて同じ行動を検出する別のルールを生成することができる。そのため、行動検出のロバスト性を向上させることができる。

また、検出対象の部位の関節と隣接する別の関節であっても、状況によっては類似した動きの特性を示さないこともある。そのため、実施形態では検出対象の部位の関節と隣接する別の関節とが類似した動きの特性を示すタイミングで、ルールを適用している。以下、図８から図１１を参照して、検出対象の部位の関節と隣接する別の関節が、類似した動きの特性を示す期間にない場合についての例を説明する。

図８は、人物２０２による帽子を直す行動が映る動画に骨格検出を実行して得られた人物２０２の姿勢を示す姿勢情報８００を例示している。図８の姿勢情報８００は、例えば、姿勢情報３００と対応する情報を含んでよく、図８の例では、動画から検出された人物２０２の骨格の情報として、右肩、右肘、および右手首の座標が登録されている。

制御部１１０は、例えば、姿勢情報８００に登録されている手の座標から肘の座標を差し引いて肘手ベクトルを求めてよい。図９には、姿勢情報８００に基づき取得された肘手ベクトルが示されている。なお、図９では、更に、姿勢情報８００に登録されている肘の座標から肩の座標を差し引いて得られた肩肘ベクトルも示されている。

そして、制御部１１０は、例えば、上述の式１で得られる判定座標が、戸棚２０１の座標に入っている場合に、人物２０２がモノを戸棚２０１から取る行動を検出したと判定してよい。
判定座標＝右肘座標＋肘手ベクトル …式１

図８の例に、判定座標を適用すると、フレーム１からフレーム５のいずれのフレームでも判定座標は戸棚２０１の座標内には入らない。そのため、制御部１１０は、図８の姿勢情報８００と対応する動画データでは、人物２０２が戸棚２０１からモノを取る行動は行われていないと判定することができる。

しかしながら、例えば、オクルージョンなどで手が見えなくなることがある。例えば、図８の姿勢情報８００では、フレーム３の右手首の座標は、表示色を反転して示されており、これはオクルージョンの発生を示しており、座標情報は取得できていないものとする。この場合、右手首を用いたルールによる判定では、右手首が見えない期間において人物２０２が戸棚２０１からモノを取る行動を行っているか否かが分からなくなる。

そこで、実施形態では制御部１１０は、手の関節と隣接する肘関節を用いて人物２０２が戸棚２０１からモノを取ったか否かを判定する。

例えば、実施形態では制御部１１０は、肘関節と手首とが類似する動きの特性を示す期間では、肘手ベクトルの代わりに、肩肘ベクトルを用いて人物２０２が戸棚２０１からモノを取る行動をとっているかを判定する。例えば、制御部１１０は、上述の式２で肩肘ベクトルから得られる判定座標が、戸棚２０１の座標に入っている場合に、人物２０２がモノを戸棚２０１から取る行動を検出したと判定してよい。
判定座標＝右肩座標＋肩肘ベクトル × 延長率 …式２

この場合に、制御部１１０は、例えば、オクルージョンの発生で手が隠れているフレーム３において、式２により判定座標を取得する。図１０には、フレーム３の肩と肘の座標に対して式２で計算された延長率に応じた判定座標が示されている。そして、延長率１．０において判定座標は、戸棚２０１の座標範囲に入っている。そのため、座標だけで判定を行ってしまうと、実際には帽子を直す行動であり、戸棚２０１からモノを取っていないにも関わらず、制御部１１０は、肩肘ベクトルを用いて人物２０２が戸棚２０１のモノを取ったと誤判定してしまうことになる。

しかしながら、実施形態では制御部１１０は、隣り合う手首の関節と、肘の関節とが類似する動きの特性を示すタイミングである場合に、肘の関節に対して生成したルールを用いて人物２０２が戸棚２０１からモノを取る行動を検出する。例えば、制御部１１０は、動画データにおいて肩関節から手首までの長さが閾値以上である場合に、肘関節と、手首とが類似する動きの特性を示すタイミングであると判定してよい。

図１１は、実施形態に係る帽子を直す行動が映る動画から検出された肩関節から手首までの長さを例示する図である。図１１に示すように、フレームごとに肩関節から手首までの長さＤ_ｄｅｔが示されている。なお、フレーム３では手がオクルージョンで隠されているため、長さＤ_ｄｅｔは検出されていない。また、図１１には、閾値Ｄ_ｔｈも示されており、フレーム１、フレーム２、フレーム４、およびフレーム５のいずれでも肩関節から手首の長さは、閾値以下であることがわかる。そのため、制御部１１０は、例えば、フレーム１からフレーム５までの期間は、肘関節と手首とが類似する動きの特性を示す期間ではないと判定することができる。

そのため、制御部１１０は、フレーム３において式２で得られた判定座標が、戸棚２０１の座標に入っている場合にも、人物２０２がモノを戸棚２０１から取る行動を検出していないと判定することができる。このように、実施形態によれば手首の関節と、肘の関節とが類似する動きの特性を示すタイミングを特定してルールを適用するため、誤判定を抑制することができる。

従って、実施形態によれば検出対象の行動の検出精度を向上させることができる。また、検出対象の行動の検出におけるロバスト性を向上させることができる。

図１２は、実施形態に係る行動の検出処理の動作フローを例示する図である。例えば、制御部１１０は、処理対象の動画データに対する行動の検出処理の実行指示が入力されると、図１２の動作フローを開始してよい。

Ｓ１２０１において制御部１１０は、行動検出のためのルールを取得する。例えば、制御部１１０は、記憶部１２０に記憶されている行動検出のルールを読み出してよい。

Ｓ１２０２において制御部１１０は、或るルールに対する代替ルールを生成する。例えば、制御部１１０は、肘手ベクトルまたは肩肘ベクトルの一方のベクトルを注目変数とするルールに対し、もう一方のベクトルを注目変数としたルールを代替ルールとして生成する。

Ｓ１２０３において制御部１１０は、動画データに人物検出および骨格検出などを実行し、動画に映る人物の骨格の時系列データを取得する。例えば、制御部１１０は、各フレームの骨格のデータを結合して姿勢情報３００，８００などの時系列のデータを生成してよい。

Ｓ１２０４において制御部１１０は、動画において代替ルールの適用期間を特定する。例えば、制御部１１０は、Ｓ１２０４において図１３の代替ルールの適用期間特定処理を実行してよい。

図１３は、実施形態に係る代替ルールの適用期間特定処理の動作フローを例示する図である。例えば、制御部１１０は、Ｓ１２０４の処理に進むと、図１３の動作フローを開始してよい。

Ｓ１３０１において制御部１１０は、動画のフレームごとに人物２０２の肩から手首までの長さを特定する。

Ｓ１３０２において制御部１１０は、人物２０２の肩から手首までの長さの時間変化に基づいて、代替ルールの適用期間を特定する。例えば、制御部１１０は、人物２０２の肩から手首までの長さが所定の閾値以上である期間を代替ルールの適用期間として特定し、本動作フローは終了してよく、フローはＳ１２０５に進む。

なお、代替ルールの適用期間の特定は、図１３の例に限定されるものではない。別の実施形態では制御部１１０は、例えば、肘の角度が所定の角度以上である期間を、代替ルールの適用期間と特定してもよい。

Ｓ１２０５において制御部１１０は、代替ルールの適用期間が動画に含まれているか否かを判定する。例えば、Ｓ１２０４の処理で代替ルールの適用期間が特定された場合、Ｓ１２０５で制御部１１０は、ＹＥＳと判定してよい。一方、Ｓ１２０４の処理で代替ルールの適用期間が特定されなかった場合、Ｓ１２０５で制御部１１０は、ＮＯと判定してよい。代替ルールの適用期間が動画に含まれている場合（Ｓ１２０５がＹＥＳ）、フローはＳ１２０６に進む。

Ｓ１２０６において制御部１１０は、代替ルールを用いてルールによる行動推定を実行する。例えば、制御部１１０は、代替ルールの生成の元になったルールと、代替ルールとを用いて行動の検出を実行してよい。一例では、制御部１１０は、図２で例示される戸棚２０１からモノを取る人物２０２の行動を、肘手ベクトルに対して作成されているルールと、肩肘ベクトルに対して生成された代替ルールとを用いて検出してよい。

また、代替ルールの適用期間が動画に含まれていない場合（Ｓ１２０５がＮＯ）、フローはＳ１２０７に進む。Ｓ１２０７において制御部１１０は、代替ルールを用いずに、ルールによる行動推定を実行する。例えば、制御部１１０は、代替ルールの生成の元になったルールを用いて行動の検出を実行してよい。一例では、制御部１１０は、図２で例示される戸棚２０１からモノを取る人物２０２の行動を、肘手ベクトルに対して作成されているルールを用いて検出してよい。

Ｓ１２０８において制御部１１０は、行動検出の結果を出力し、本動作フローは終了する。例えば、制御部１１０は、行動検出の結果として、ルールを用いて検出された行動と、行動が検出されたタイミングとを出力してよい。なお、制御部１１０は、例えば、記憶部１２０に記憶されている複数のルールを適用して、動画からの複数の行動検出を実行してもよい。

以上で述べたように、実施形態によれば、例えば、手や肩などの体の一部がオクルージョンにより隠されてしまい、或るルールでの行動検出ができなくなっている場合にも、別のルールを用いて検出対象の行動を検出することが可能になる。また、複数のルールで検出対象の行動を検出することで、検出精度の向上を図ることもできる。

また、実施形態によれば、代替ルールが適用可能な適用期間を特定して、適用期間である場合に代替ルールを用いて行動を検出している。このように代替ルールを適用できるタイミングを特定して、代替ルールを用いた行動検出を実行することで、行動検出の精度を高めることができる。

例えば、手と肘の動きは、肘が伸展している状況では類似した動きを示す。そのため、肘が伸展しているか否かを判定する所定条件を満たすかを判定することで、制御部１１０は、手と肘の動きが類似する状況で、手に対して作成されたルールから生成された肘に対するルールを適用することができる。

従って、実施形態によれば、行動検出のロバスト性を向上させることができる。

＜代替ルールの検証＞
例えば、検出対象の行動を検出するための或る関節に対するルールに基づいて、その関節と隣接する別の関節に対する代替ルールを生成する場合に、その代替ルールで検出対象の行動を検出することが可能かを検証により確かめてから代替ルールを用いてもよい。

例えば、検証用の動画のセットと、適用対象のルールと、検出対象の行動の実行の有無を示す正解とが記憶部１２０に記憶されていてよい。そして、制御部１１０は、元の適用対象ルールを隣接する別の関節に対するルールに置き換えて代替ルールを生成し、検証用動画のセットに対して代替ルールで行動の検出を実行する。そして、制御部１１０は、例えば、代替ルールで検出を実行した行動の検出結果と、その動画と対応する行動検出の正解データとの一致度を計算する。制御部１１０は、一致度が閾値以上であれば代替ルールを行動検出に用いるというように、代替ルールを行動検出に用いるか否かを検証してよい。閾値は、例えばRecall、Precisionが70%以上などであってよい。

それにより、代替ルールが、検出対象の行動の検出に有効である場合に、代替ルールを適用することが可能であり、検出対象の行動の検出精度を高めることができる。

以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、または、一部の処理が省略されてもよい。例えば、図１２のＳ１２０２の処理は、ルールに対して予め実行されていてもよく、この場合、Ｓ１２０２の処理は省略されてもよい。

また、上述の実施形態において代替対象の関節の例として、肘および手首の関節を例に実施形態を説明しているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では制御部１１０は、膝と足首の関節に対して実施形態を適用してもよい。

また、上述の実施形態ではルールにおける代替対象としてベクトルを例に説明を行っているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では制御部１１０は、或る関節の角度または座標などに対して設定されたルールを、隣接する別の関節の角度または座標などに対するルールに変更して、実施形態を適用してもよい。

また、例えば、或る関節に対する検出対象の行動を検出するルールがあるとする。そして、同じ行動を別の関節を用いて検出するルールを検索したいとする。この場合に、実施形態で述べた考え方を利用することで、検索対象を隣接する関節で判定を行うルールなどに絞り込むことができる。

なお、上述の実施形態のＳ１２０３の処理では制御部１１０は、例えば、検出部１１１として動作する。また、Ｓ１２０６の処理では制御部１１０は、例えば、判定部１１２として動作する。

図１４は、実施形態に係る情報処理装置１０１を実現するためのコンピュータ１４００のハードウェア構成を例示する図である。図１４の情報処理装置１０１を実現するためのハードウェア構成は、例えば、プロセッサ１４０１、メモリ１４０２、記憶装置１４０３、読取装置１４０４、通信インタフェース１４０６、入出力インタフェース１４０７、および表示装置１４１１を備える。なお、プロセッサ１４０１、メモリ１４０２、記憶装置１４０３、読取装置１４０４、通信インタフェース１４０６、入出力インタフェース１４０７は、例えば、バス１４０８を介して互いに接続されている。

プロセッサ１４０１は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ１４０１は、メモリ１４０２を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述し制御部１１０の一部または全部の機能を提供する。例えば、情報処理装置１０１のプロセッサ１４０１は、記憶装置１４０３に格納されているプログラムを読み出して実行することで、検出部１１１および判定部１１２として動作する。

メモリ１４０２は、例えば半導体メモリであり、ＲＡＭ領域およびＲＯＭ領域を含んでいてよい。記憶装置１４０３は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、ＲＡＭは、Random Access Memoryの略称である。また、ＲＯＭは、Read Only Memoryの略称である。

読取装置１４０４は、プロセッサ１４０１の指示に従って着脱可能記憶媒体１４０５にアクセスする。着脱可能記憶媒体１４０５は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、ＵＳＢ（Universal Serial Bus）メモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、ＣＤ－ＲＯＭ、ＤＶＤ、Blu-ray Disc等（Blu-rayは登録商標）である。ＣＤは、Compact Discの略称である。ＤＶＤは、Digital Versatile Diskの略称である。

記憶部１２０は、例えばメモリ１４０２、記憶装置１４０３、および着脱可能記憶媒体１４０５を含んでいる。例えば、情報処理装置１０１の記憶装置１４０３には、動画データ、および姿勢情報３００，８００が格納されている。

通信インタフェース１４０６は、プロセッサ１４０１の指示に従って、他の装置と通信する。通信インタフェース１４０６は、上述の通信部１３０の一例である。例えば、情報処理装置１０１の通信インタフェース１４０６は、プロセッサ１４０１の指示に従って撮影装置１０２などの他の装置と通信する。

入出力インタフェース１４０７は、例えば、入力装置および出力装置との間のインタフェースであってよい。図１４では、入出力インタフェース１４０７は、例えば、表示装置１４１１と接続されている。表示装置１４１１は、例えば、ディスプレーなどであってよく、一例では、プロセッサ１４０１の指示に従って、動画データに基づき表示画面に動画を表示してよい。また、入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスであってよい。出力装置は、例えば、プリンタなどの印刷装置、およびスピーカなどの音声装置であってよい。

実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置１０１に提供される。
（１）記憶装置１４０３に予めインストールされている。
（２）着脱可能記憶媒体１４０５により提供される。
（３）プログラムサーバなどのサーバから提供される。

なお、図１４を参照して述べた情報処理装置１０１を実現するためのコンピュータ１４００のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部１１０の一部または全部の機能がＦＰＧＡ、ＳｏＣ、ＡＳＩＣ、およびＰＬＤなどによるハードウェアとして実装されてもよい。なお、ＦＰＧＡは、Field Programmable Gate Arrayの略称である。ＳｏＣは、System-on-a-chipの略称である。ＡＳＩＣは、Application Specific Integrated Circuitの略称である。ＰＬＤは、Programmable Logic Deviceの略称である。

以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。

１００：検出システム
１０１：情報処理装置
１０２：撮影装置
１１０：制御部
１１１：検出部
１１２：判定部
１２０：記憶部
１３０：通信部
２０１：戸棚
２０２：人物
１４００：コンピュータ
１４０１：プロセッサ
１４０２：メモリ
１４０３：記憶装置
１４０４：読取装置
１４０５：着脱可能記憶媒体
１４０６：通信インタフェース
１４０７：入出力インタフェース
１４０８：バス
１４１１：表示装置

Claims

動画データから人物の骨格を検出する検出部と、
前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する判定部と、
を含み、
前記判定部は、
第１関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第１ルールがある場合に、前記第１関節と、前記第１関節に隣接する第２関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第２関節に基づいて判定するように前記第１ルールに基づき生成されている第２ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
ことを特徴とする情報処理装置。
前記第１関節は手首の関節であり、
前記第２関節は肘の関節であり、
前記所定条件は、前記肘の関節が伸展していると判定される条件である、請求項１に記載の情報処理装置。
前記肘の関節が伸展していると判定される条件は、前記骨格に基づく前記人物の肩から手までの長さが所定の長さ以上であることである、請求項２に記載の情報処理装置。
前記判定部は、更に、前記検出対象の行動が実行されたか否かの正解が分かっている検証用動画に対して、前記第２ルールを適用して前記検出対象の行動を検出した検出結果と、前記正解との一致度に基づいて前記第２ルールを前記検出対象の行動の検出に用いるか否かを検証する、請求項１から３のいずれか１項に記載の情報処理装置。
情報処理装置が実行する検出方法であって、前記情報処理装置が、
動画データから人物の骨格を検出し、
前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する、
ことを含み、
前記判定することは、前記情報処理装置が、
第１関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第１ルールがある場合に、前記第１関節と、前記第１関節に隣接する第２関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第２関節に基づいて判定するように前記第１ルールに基づき生成されている第２ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
ことを特徴とする、検出方法。
動画データから人物の骨格を検出し、
前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する、
処理を情報処理装置に実行させる検出プログラムであって、
前記判定する処理は、
第１関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第１ルールがある場合に、前記第１関節と、前記第１関節に隣接する第２関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第２関節に基づいて判定するように前記第１ルールに基づき生成されている第２ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
処理を前記情報処理装置に実行させる、検出プログラム。