JP2023056137A - 情報処理装置、検出方法、および検出プログラム - Google Patents

情報処理装置、検出方法、および検出プログラム Download PDF

Info

Publication number
JP2023056137A
JP2023056137A JP2021165280A JP2021165280A JP2023056137A JP 2023056137 A JP2023056137 A JP 2023056137A JP 2021165280 A JP2021165280 A JP 2021165280A JP 2021165280 A JP2021165280 A JP 2021165280A JP 2023056137 A JP2023056137 A JP 2023056137A
Authority
JP
Japan
Prior art keywords
joint
person
rule
detection
elbow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021165280A
Other languages
English (en)
Inventor
悟 ▲高▼橋
Satoru Takahashi
收文 中山
Osafumi Nakayama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021165280A priority Critical patent/JP2023056137A/ja
Publication of JP2023056137A publication Critical patent/JP2023056137A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

Figure 2023056137000001
【課題】行動検出のロバスト性を向上させる。
【解決手段】一実施形態に係る情報処理装置は、動画データから人物の骨格を検出する検出部と、人物の骨格に含まれる関節に基づいて人物の行動を判定する判定部と、を含む。判定部は、第1関節に基づいて人物が検出対象の行動をしているか否かを判定する第1ルールがある場合に、第1関節と、第1関節に隣接する第2関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、所定条件が満たされている場合、人物が検出対象の行動をしているか否かを第2関節に基づいて判定するように第1ルールに基づき生成されている第2ルールを用いて、人物が検出対象の行動をしているか否かを判定する。
【選択図】図12



Description

本発明は、情報処理装置、検出方法、および検出プログラムに関する。
近年、様々なビジネスの領域において、例えば、カメラなどの撮影装置で撮影した動画データを画像処理し、解析する需要が急激に増加している。こうした画像処理技術では、AI(人工知能)およびディープラーニング(深層学習)などがしばしば利用されている。一例として、ディープラーニングなどの機械学習によって得られた認識モデルを用いて動画から人の行動を検出することが行われている。
一方で、人の行動を検出する学習済みモデルを生成するために、教師データを用意することが難しいこともある。そのため、人物の姿勢などの基本的な身体状態を認識モデルで基本動作として検出し、検出された基本動作に対してルールベースの識別器で人物のより高次の行動を検出する試みも成されている。一例として、人物の基本動作の認識結果と、人物の周囲の空間との関係性を判定するルールを記述することで、学習コストを低減しつつ、人物の様々な行動を推定することが行われている。
また、人の状態の判定に関連する技術が知られている(例えば、特許文献1から特許文献3)。
米国特許出願公開第2019/0362139号明細書 米国特許出願公開第2020/0012922号明細書 特開2012-155391号公報
しかしながら、例えば、手首の位置といった身体の特定部位を注目変数として用いたルールにより行動を検出する場合、その部位のオクルージョンなどによって判定の機会を逃してしまうことがある。そのため、性質の近い別の注目変数を用いた相補的なルールを利用できることは、行動検出のロバスト性を向上させるうえで好ましい。
1つの側面では、本発明は、行動検出のロバスト性を向上させることを目的とする。
本発明の一つの態様の情報処理装置は、動画データから人物の骨格を検出する検出部と、人物の骨格に含まれる関節に基づいて人物の行動を判定する判定部と、を含む。判定部は、第1関節に基づいて人物が検出対象の行動をしているか否かを判定する第1ルールがある場合に、第1関節と、第1関節に隣接する第2関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、所定条件が満たされている場合、人物が検出対象の行動をしているか否かを第2関節に基づいて判定するように第1ルールに基づき生成されている第2ルールを用いて、人物が検出対象の行動をしているか否かを判定する。
行動検出のロバスト性を向上させることができる。
実施形態に係る検出システムを例示する図である。 戸棚と人物とが写った映った動画を例示する図である。 戸棚から人物がモノを取る行動の映る動画から骨格検出により得られた姿勢情報を例示する図である。 姿勢情報から得られたベクトルを例示する図である。 実施形態に係る検出対象の動画から検出された肩関節から手首までの長さを例示する図である。 肩関節から手首までの長さの変動を示すグラフを例示する図である。 実施形態に係る行動検出を説明する例を示す図である。 人物による帽子を直す行動が映る動画から骨格検出により得られた姿勢情報を例示する図である。 姿勢情報から得られたベクトルを例示する別の図である。 実施形態に係る行動検出を説明する別の例を示す図である。 実施形態に係る帽子を直す行動が映る動画から検出された肩関節から手首までの長さを例示する図である。 実施形態に係る行動推定処理の動作フローを例示する図である。 実施形態に係る代替ルールの適用期間特定処理の動作フローを例示する図である。 実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。
例えば、人間工学の観点から人体の或る部位が、別の部位と連動する状況がある。例えば、人体において隣接する関節同士は連動して動く傾向がある。一例として、手の関節と、手の関節に隣接する肘の関節とは連動して動く傾向がある。例えば、手の関節の位置は、遠くのものを手で取ろうとするとき、手を突き出すときなど、手を遠くに延ばす場合、肘の関節の位置と連動して動く。そして、連動する場合に、連動する部位同士が近しい挙動を取ることもあり、連動する部位同士の動きが示す特性が類似することがある。そのため、検出対象の行動を判定する或るルールがある場合に、そのルールで注目変数とした部位を、連動して動く別の部位に置き換えても、同じ検出対象の行動を検出するルールを生成できることがある。
換言すると、注目変数とした部位と、別の部位とが類似した動きの特性を示すタイミングを見つけることができれば、注目変数とした部位を、連動して動く別の部位に置き換えたルールを、類似した動きの特性を示す期間でのみ適用する事が可能になる。その結果、別の部位を用いて検出対象の行動を判定することが可能になる。
このように生成されたルールは、同じ行動を別な部位を用いて検出できるため、行動検出のロバスト性を向上させることができる。
以下、連動する部位として、手首の関節と、手首の関節に隣接する肘関節をと例に実施形態を説明する。
図1は、実施形態に係る検出システム100を例示する図である。検出システム100は、例えば、情報処理装置101および撮影装置102を含んでよい。情報処理装置101は、例えば、サーバコンピュータ、パーソナルコンピュータ(PC)、モバイルPC、タブレット端末などのコンピュータであってよい。撮影装置102は、例えば、カメラなどの動画を撮影する装置であってよい。
情報処理装置101および撮影装置102は、一例では、通信可能に接続されていてよい。例えば、情報処理装置101と撮影装置102とは、有線または無線で接続されていてよく、また別の例では、ネットワークを介して接続されていてよい。なお、別の例では、情報処理装置101は、撮影装置102で撮影された動画を、記憶媒体を介して取得してもよい。
また、情報処理装置101は、例えば、制御部110、記憶部120、および通信部130を含む。制御部110は、例えば検出部111および判定部112などを含み、またその他の機能部を含んでもよい。情報処理装置101の記憶部120は、例えば、動画データ、および後述する姿勢情報300,800などの情報を記憶している。通信部130は、例えば、制御部110の指示に従って撮影装置102などの他の装置と通信する。これらの各部の詳細および記憶部120に格納されている情報の詳細については後述する。
図2は、戸棚201と人物202とが映った動画を例示する図である。そして、人物202が戸棚201からモノをとる行動を動画から検出対象の行動として検出したいとする。なお、一例では、動画において図2に示す方向にx軸、y軸、およびz軸がとられていてよい。
そして、例えば、人物202の肘から手へのベクトルが戸棚201の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールを定めることが可能である。
しかしながら、例えば、人物202の手が遮蔽物などにより隠されてしまい、動画に映らなくなることがある。この場合、動画において手が映っていないため、ルールの適用に失敗することがある。そのため、他の部位を用いて人物202がモノを取る行動を実行したか否かを判定できるルールを生成することは好ましい。
そこで、実施形態では、手の代わりに、手と連動して動く部位を用いて検出対象の行動を検出することのできるルールを生成し、そのルールを用いて検出対象の行動を検出する。一例として、手の代わりに、手の関節(例えば手首)と隣接する肘の関節の部位を用いて行動を検出するルールを、手に対するルールに基づき生成することが考えられる。
例えば、上述のように、肘から手へのベクトルが戸棚201の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールがあるとする。この場合に、制御部110は、例えば、このルールを変更して、肘から手へのベクトルの代わりに、肩から肘のベクトルの延長線が戸棚201の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールを生成してよい。
しかしながら、肘から手のベクトルの向きと、肩から肘のベクトルの向きとが近しくなるのは、肘がある程度伸びている場合に限定される。例えば、肘が曲がっていて手で頭または腰を触っていたりなど、手が体の近くにあったりする場合、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは、異なる方向を指す傾向がある。そのため、例えば、肘が曲がっている状態で、肘から手のベクトルに対して生成されたルールを、肩から肘のベクトルに適用しようとしても、検出対象の行動の実行有無を誤判定してしまうことがある。
そこで、実施形態では制御部110は、例えば、肘が伸展しているか否かを、所定条件を用いて判定し、肘が伸展している場合に、肩から肘のベクトルにルールを適用して、人物202が戸棚201からモノを取る行動を実行したと判定する。このように、或るルールで注目変数とされる部位を、その部位と連動して動く別の部位に置き換えたルールを、類似した動きの特性を示す所定条件を満たす期間でのみ適用することで、別の部位を用いて対象行動を判定することが可能になる。
以下、人物202が戸棚201からモノを取る行動を検出する処理について例示する。なお、図3から図7は、人物202が戸棚201からモノを取る行動を撮影した動画に対して行動検出を実行する例を示している。一方、図8および図11は、人物202が帽子を直す行動を撮影した動画に対して行動検出を実行する例を示している。
図3は、戸棚201から人物202がモノを取る行動の映る動画に骨格検出を実行して得られた人物の姿勢を示す姿勢情報300を例示している。図3の例では、動画から検出された人物202の骨格の情報として、右肩、右肘、および右手首の座標が登録されている。
なお、座標は、一例では、検出された人物202の体の中心座標を(0,0,0)としていてよい。この場合に、動画に対して人物抽出および骨格抽出などを実行して得られた人物202の右肩、右肘、右手首の座標の情報が図3の姿勢情報300には登録されていてよい。なお、以下の実施形態において体の長さを用いて説明が行われるが、体の長さは、一例では、フレームごとに胴体の対角線の大きさで正規化されていてよい。
また、実施形態において人物抽出および骨格抽出は、例えば、ディープラーニングで生成された学習済みモデルを用いて実行されてよい。例えば、制御部110は、撮影装置102で撮影された動画データの各フレームの画像に、人物検出を実行してフレーム画像から人領域を特定してよい。なお、人物検出は、例えば、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)、およびR-CNN(Region Convolutional Neural Network)などの技術を用いて実行されてよい。そして、制御部110は、各フレームの画像から検出された人領域に対して、骨格検出を実行してよい。例えば、制御部110は、OpenPose、Mask R-CNN、DeepPose、PoseNetなどの手法を用いて、人領域に写る人物の骨格を検出してよい。
そして、制御部110は、得られた骨格の座標に基づいて人物の行動を検出してよい。例えば、人物202の肘から手へのベクトルが戸棚201の領域に入る場合に、人物がモノを取る行動を実行したと判定するルールで、人物が戸棚201のモノを取る行動を検出するとする。
制御部110は、例えば、姿勢情報300に登録されている手の座標から肘の座標を差し引いて肘手ベクトルを求めてよい。図4には、図3の姿勢情報300に基づき取得された肘手ベクトルが示されている。なお、図4では、更に、姿勢情報300に登録されている肘の座標から肩の座標を差し引いて得られた肩肘ベクトルも示されている。
そして、制御部110は、例えば、以下の式1で得られる判定座標が、戸棚201の座標に入っている場合に、人物202がモノを戸棚201から取る行動を検出したと判定してよい。
判定座標=右肘座標 + 肘手ベクトル …式1
なお、上述のように、座標は、一例では、人物の体の中心座標を(0,0,0)としていてよい。そして、長さは、一例では、フレームごとに胴体の対角線の大きさで正規化されていてよい。また、この場合に、戸棚201の座標は、例えば、以下で表わされるものとする。
x:-1.0≦x≦1.0
y:-1.8≦x≦‐0.8
z:0.0≦x≦2.0
なお、式1で得られる判定座標は、例えば、右手首の座標となるため、制御部110は、姿勢情報300の右手首の座標の位置が戸棚201に入るか否かを判定してもよい。
例えば、図3の姿勢情報300では、フレーム3において右手首の座標が戸棚201の座標内に入っている。そのため、制御部110は、フレーム3において人物202が戸棚201からモノを取ったと判定することができる。
しかしながら、例えば、フレーム3において人物202の右手首がオクルージョンなどで見えなくなるなどして、行動の検出ができなくなることがある。例えば、図3の姿勢情報300では、フレーム3の右手首の座標は、表示色を反転して示されており、これはオクルージョンの発生を示しており、座標情報は取得できていないものとする。
この場合に、例えば、手首の関節と、肘の関節とは隣り合う関節であり、手を動かすときに肘も連動して動くことがある。そのため、実施形態では制御部110は、手の関節と隣接する肘関節を用いて人物202が戸棚201からモノを取ったか否かを判定するルールを生成する。そして、制御部110は、手首の関節と、手首と隣り合う肘の関節とが、類似した動きの特性を示すタイミングである場合に、生成したルールを用いて人物202が戸棚201からモノを取る行動を検出する。
隣り合う手首の関節と、肘の関節とが類似した動きの特性を示すタイミングとしては、腕が伸びている状況が挙げられる。例えば、手を体から離して遠くに伸ばしている状況といった肘がある程度伸びている状況では、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは近しくなる傾向がある。一方、例えば、肘が曲がっていて手で頭または腰を触っていたりなど、手が体の近くにあったりする場合、肘から手のベクトルの向きと、肩から肘のベクトルの向きとは、異なる方向を指す傾向がある。
そのため、制御部110は、肘の関節が伸展しているか否かを判定してよい。一例として、制御部110は、例えば、人物の肩関節から手首関節までの長さが所定の長さ以上である場合に、肘の関節が伸展していると判定してよい。例えば、制御部110は、動画データから肩関節から手首までの長さの最大値を特定する。ここでは、肩関節から手首までの長さの最大値として、0.7864が特定されたものとする。この場合に、一例では、最大値を0.9倍した0.7864×0.9=0.7078が閾値として用いられてもよい。
そして、制御部110は、動画データにおける肩関節から手首までの長さが閾値以上である場合に、肘関節と、手首とが、類似した動きの特性を示すタイミングであると判定してよい。
図5は、実施形態に係る検出対象の動画から検出された肩関節から手首関節までの長さを例示する図である。図5には、例えば、フレームごとの肩関節から手首関節までの長さDdetが示されている。なお、フレーム3では手がオクルージョンで隠されているため、長さDdetが検出されていない。また、図5には、閾値Dthも示されており、フレーム2とフレーム4では肩関節から手首関節までの長さが閾値を超えていることがわかる。そのため、制御部110は、例えば、フレーム2からフレーム4までの期間を、肘関節と手首とが類似した動きの特性を示す期間であると特定することができる。
なお、制御部110は、例えば、肩関節から手首までの長さが山なりに増減する期間を、手が伸びた状態の期間として検出してよい。図6は、肩関節から手首までの長さの変動を示すグラフを例示する図である。図6のグラフでは、縦軸に肩関節から手首までの長さがとられており、横軸に動画における時間がとられている。そして、一例では、制御部110は、増加開始を起点とし、グラフの山の頂上で腕が伸びた状態の長さに到達し、反転して減少が止まるまでの期間を一つの伸縮行動と捉えてよい。この場合、制御部110は、グラフのデータが山なり(上に凸)に増減する曲線となる区間において、閾値以上の区間を、肘関節と手首とが類似した動きの特性を示す期間として検出してよい。
そして、制御部110は、肘関節と手首とが類似した動きの特性を示す期間において、肘手ベクトルの代わりに、肩肘ベクトルを用いて人物202が戸棚201からモノを取る行動をとっているかを判定してよい。例えば、制御部110は、以下の式2で肩肘ベクトルから得られる判定座標が、戸棚201の座標に入っている場合に、人物202がモノを戸棚201から取る行動を検出したと判定してよい。
判定座標=右肩座標 + 肩肘ベクトル × 延長率 …式2
なお、式2において延長率は、例えば、検出対象の行動を検出できるように調整された所定の範囲に設定されていてよく、ここでは、0.0~1.0であるものとする。例えば、腕を伸ばしている場合、肩肘の長さを約2倍に延ばすと、おおよそ手の位置にくる。そのため、一例では、式2において延長率の最大値を1.0に設定して判定が行われてよい。それにより、肘の座標を手の座標を表すものとして用いて、肘手ベクトルに対して生成されているルールを肩肘ベクトルに適用し、行動検出を実行することが可能である。
図7には、肘関節と手首とが類似した動きの特性を示す期間に含まれるフレーム3の肩と肘の座標に対して式2で計算された延長率に応じた判定座標が示されている。延長率1.0において判定座標は、上述の戸棚201の座標範囲に入っている。そのため、制御部110は、肩肘ベクトルを用いて人物202が戸棚201のモノを取ったと判定することができる。そのため、例えば、手がオクルージョンで隠れていても、人物202が戸棚201のモノを取る行動を検出することが可能である。
以上で述べたように、実施形態によれば、或るルールが存在する場合に、そのルールの行動検出で用いる検出対象の部位の関節と隣接する別の関節に対して、或るルールに基づいて同じ行動を検出する別のルールを生成することができる。そのため、行動検出のロバスト性を向上させることができる。
また、検出対象の部位の関節と隣接する別の関節であっても、状況によっては類似した動きの特性を示さないこともある。そのため、実施形態では検出対象の部位の関節と隣接する別の関節とが類似した動きの特性を示すタイミングで、ルールを適用している。以下、図8から図11を参照して、検出対象の部位の関節と隣接する別の関節が、類似した動きの特性を示す期間にない場合についての例を説明する。
図8は、人物202による帽子を直す行動が映る動画に骨格検出を実行して得られた人物202の姿勢を示す姿勢情報800を例示している。図8の姿勢情報800は、例えば、姿勢情報300と対応する情報を含んでよく、図8の例では、動画から検出された人物202の骨格の情報として、右肩、右肘、および右手首の座標が登録されている。
制御部110は、例えば、姿勢情報800に登録されている手の座標から肘の座標を差し引いて肘手ベクトルを求めてよい。図9には、姿勢情報800に基づき取得された肘手ベクトルが示されている。なお、図9では、更に、姿勢情報800に登録されている肘の座標から肩の座標を差し引いて得られた肩肘ベクトルも示されている。
そして、制御部110は、例えば、上述の式1で得られる判定座標が、戸棚201の座標に入っている場合に、人物202がモノを戸棚201から取る行動を検出したと判定してよい。
判定座標=右肘座標 + 肘手ベクトル …式1
図8の例に、判定座標を適用すると、フレーム1からフレーム5のいずれのフレームでも判定座標は戸棚201の座標内には入らない。そのため、制御部110は、図8の姿勢情報800と対応する動画データでは、人物202が戸棚201からモノを取る行動は行われていないと判定することができる。
しかしながら、例えば、オクルージョンなどで手が見えなくなることがある。例えば、図8の姿勢情報800では、フレーム3の右手首の座標は、表示色を反転して示されており、これはオクルージョンの発生を示しており、座標情報は取得できていないものとする。この場合、右手首を用いたルールによる判定では、右手首が見えない期間において人物202が戸棚201からモノを取る行動を行っているか否かが分からなくなる。
そこで、実施形態では制御部110は、手の関節と隣接する肘関節を用いて人物202が戸棚201からモノを取ったか否かを判定する。
例えば、実施形態では制御部110は、肘関節と手首とが類似する動きの特性を示す期間では、肘手ベクトルの代わりに、肩肘ベクトルを用いて人物202が戸棚201からモノを取る行動をとっているかを判定する。例えば、制御部110は、上述の式2で肩肘ベクトルから得られる判定座標が、戸棚201の座標に入っている場合に、人物202がモノを戸棚201から取る行動を検出したと判定してよい。
判定座標=右肩座標 + 肩肘ベクトル × 延長率 …式2
この場合に、制御部110は、例えば、オクルージョンの発生で手が隠れているフレーム3において、式2により判定座標を取得する。図10には、フレーム3の肩と肘の座標に対して式2で計算された延長率に応じた判定座標が示されている。そして、延長率1.0において判定座標は、戸棚201の座標範囲に入っている。そのため、座標だけで判定を行ってしまうと、実際には帽子を直す行動であり、戸棚201からモノを取っていないにも関わらず、制御部110は、肩肘ベクトルを用いて人物202が戸棚201のモノを取ったと誤判定してしまうことになる。
しかしながら、実施形態では制御部110は、隣り合う手首の関節と、肘の関節とが類似する動きの特性を示すタイミングである場合に、肘の関節に対して生成したルールを用いて人物202が戸棚201からモノを取る行動を検出する。例えば、制御部110は、動画データにおいて肩関節から手首までの長さが閾値以上である場合に、肘関節と、手首とが類似する動きの特性を示すタイミングであると判定してよい。
図11は、実施形態に係る帽子を直す行動が映る動画から検出された肩関節から手首までの長さを例示する図である。図11に示すように、フレームごとに肩関節から手首までの長さDdetが示されている。なお、フレーム3では手がオクルージョンで隠されているため、長さDdetは検出されていない。また、図11には、閾値Dthも示されており、フレーム1、フレーム2、フレーム4、およびフレーム5のいずれでも肩関節から手首の長さは、閾値以下であることがわかる。そのため、制御部110は、例えば、フレーム1からフレーム5までの期間は、肘関節と手首とが類似する動きの特性を示す期間ではないと判定することができる。
そのため、制御部110は、フレーム3において式2で得られた判定座標が、戸棚201の座標に入っている場合にも、人物202がモノを戸棚201から取る行動を検出していないと判定することができる。このように、実施形態によれば手首の関節と、肘の関節とが類似する動きの特性を示すタイミングを特定してルールを適用するため、誤判定を抑制することができる。
従って、実施形態によれば検出対象の行動の検出精度を向上させることができる。また、検出対象の行動の検出におけるロバスト性を向上させることができる。
図12は、実施形態に係る行動の検出処理の動作フローを例示する図である。例えば、制御部110は、処理対象の動画データに対する行動の検出処理の実行指示が入力されると、図12の動作フローを開始してよい。
S1201において制御部110は、行動検出のためのルールを取得する。例えば、制御部110は、記憶部120に記憶されている行動検出のルールを読み出してよい。
S1202において制御部110は、或るルールに対する代替ルールを生成する。例えば、制御部110は、肘手ベクトルまたは肩肘ベクトルの一方のベクトルを注目変数とするルールに対し、もう一方のベクトルを注目変数としたルールを代替ルールとして生成する。
S1203において制御部110は、動画データに人物検出および骨格検出などを実行し、動画に映る人物の骨格の時系列データを取得する。例えば、制御部110は、各フレームの骨格のデータを結合して姿勢情報300,800などの時系列のデータを生成してよい。
S1204において制御部110は、動画において代替ルールの適用期間を特定する。例えば、制御部110は、S1204において図13の代替ルールの適用期間特定処理を実行してよい。
図13は、実施形態に係る代替ルールの適用期間特定処理の動作フローを例示する図である。例えば、制御部110は、S1204の処理に進むと、図13の動作フローを開始してよい。
S1301において制御部110は、動画のフレームごとに人物202の肩から手首までの長さを特定する。
S1302において制御部110は、人物202の肩から手首までの長さの時間変化に基づいて、代替ルールの適用期間を特定する。例えば、制御部110は、人物202の肩から手首までの長さが所定の閾値以上である期間を代替ルールの適用期間として特定し、本動作フローは終了してよく、フローはS1205に進む。
なお、代替ルールの適用期間の特定は、図13の例に限定されるものではない。別の実施形態では制御部110は、例えば、肘の角度が所定の角度以上である期間を、代替ルールの適用期間と特定してもよい。
S1205において制御部110は、代替ルールの適用期間が動画に含まれているか否かを判定する。例えば、S1204の処理で代替ルールの適用期間が特定された場合、S1205で制御部110は、YESと判定してよい。一方、S1204の処理で代替ルールの適用期間が特定されなかった場合、S1205で制御部110は、NOと判定してよい。代替ルールの適用期間が動画に含まれている場合(S1205がYES)、フローはS1206に進む。
S1206において制御部110は、代替ルールを用いてルールによる行動推定を実行する。例えば、制御部110は、代替ルールの生成の元になったルールと、代替ルールとを用いて行動の検出を実行してよい。一例では、制御部110は、図2で例示される戸棚201からモノを取る人物202の行動を、肘手ベクトルに対して作成されているルールと、肩肘ベクトルに対して生成された代替ルールとを用いて検出してよい。
また、代替ルールの適用期間が動画に含まれていない場合(S1205がNO)、フローはS1207に進む。S1207において制御部110は、代替ルールを用いずに、ルールによる行動推定を実行する。例えば、制御部110は、代替ルールの生成の元になったルールを用いて行動の検出を実行してよい。一例では、制御部110は、図2で例示される戸棚201からモノを取る人物202の行動を、肘手ベクトルに対して作成されているルールを用いて検出してよい。
S1208において制御部110は、行動検出の結果を出力し、本動作フローは終了する。例えば、制御部110は、行動検出の結果として、ルールを用いて検出された行動と、行動が検出されたタイミングとを出力してよい。なお、制御部110は、例えば、記憶部120に記憶されている複数のルールを適用して、動画からの複数の行動検出を実行してもよい。
以上で述べたように、実施形態によれば、例えば、手や肩などの体の一部がオクルージョンにより隠されてしまい、或るルールでの行動検出ができなくなっている場合にも、別のルールを用いて検出対象の行動を検出することが可能になる。また、複数のルールで検出対象の行動を検出することで、検出精度の向上を図ることもできる。
また、実施形態によれば、代替ルールが適用可能な適用期間を特定して、適用期間である場合に代替ルールを用いて行動を検出している。このように代替ルールを適用できるタイミングを特定して、代替ルールを用いた行動検出を実行することで、行動検出の精度を高めることができる。
例えば、手と肘の動きは、肘が伸展している状況では類似した動きを示す。そのため、肘が伸展しているか否かを判定する所定条件を満たすかを判定することで、制御部110は、手と肘の動きが類似する状況で、手に対して作成されたルールから生成された肘に対するルールを適用することができる。
従って、実施形態によれば、行動検出のロバスト性を向上させることができる。
<代替ルールの検証>
例えば、検出対象の行動を検出するための或る関節に対するルールに基づいて、その関節と隣接する別の関節に対する代替ルールを生成する場合に、その代替ルールで検出対象の行動を検出することが可能かを検証により確かめてから代替ルールを用いてもよい。
例えば、検証用の動画のセットと、適用対象のルールと、検出対象の行動の実行の有無を示す正解とが記憶部120に記憶されていてよい。そして、制御部110は、元の適用対象ルールを隣接する別の関節に対するルールに置き換えて代替ルールを生成し、検証用動画のセットに対して代替ルールで行動の検出を実行する。そして、制御部110は、例えば、代替ルールで検出を実行した行動の検出結果と、その動画と対応する行動検出の正解データとの一致度を計算する。制御部110は、一致度が閾値以上であれば代替ルールを行動検出に用いるというように、代替ルールを行動検出に用いるか否かを検証してよい。閾値は、例えばRecall、Precisionが70%以上などであってよい。
それにより、代替ルールが、検出対象の行動の検出に有効である場合に、代替ルールを適用することが可能であり、検出対象の行動の検出精度を高めることができる。
以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、または、一部の処理が省略されてもよい。例えば、図12のS1202の処理は、ルールに対して予め実行されていてもよく、この場合、S1202の処理は省略されてもよい。
また、上述の実施形態において代替対象の関節の例として、肘および手首の関節を例に実施形態を説明しているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では制御部110は、膝と足首の関節に対して実施形態を適用してもよい。
また、上述の実施形態ではルールにおける代替対象としてベクトルを例に説明を行っているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では制御部110は、或る関節の角度または座標などに対して設定されたルールを、隣接する別の関節の角度または座標などに対するルールに変更して、実施形態を適用してもよい。
また、例えば、或る関節に対する検出対象の行動を検出するルールがあるとする。そして、同じ行動を別の関節を用いて検出するルールを検索したいとする。この場合に、実施形態で述べた考え方を利用することで、検索対象を隣接する関節で判定を行うルールなどに絞り込むことができる。
なお、上述の実施形態のS1203の処理では制御部110は、例えば、検出部111として動作する。また、S1206の処理では制御部110は、例えば、判定部112として動作する。
図14は、実施形態に係る情報処理装置101を実現するためのコンピュータ1400のハードウェア構成を例示する図である。図14の情報処理装置101を実現するためのハードウェア構成は、例えば、プロセッサ1401、メモリ1402、記憶装置1403、読取装置1404、通信インタフェース1406、入出力インタフェース1407、および表示装置1411を備える。なお、プロセッサ1401、メモリ1402、記憶装置1403、読取装置1404、通信インタフェース1406、入出力インタフェース1407は、例えば、バス1408を介して互いに接続されている。
プロセッサ1401は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ1401は、メモリ1402を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述し制御部110の一部または全部の機能を提供する。例えば、情報処理装置101のプロセッサ1401は、記憶装置1403に格納されているプログラムを読み出して実行することで、検出部111および判定部112として動作する。
メモリ1402は、例えば半導体メモリであり、RAM領域およびROM領域を含んでいてよい。記憶装置1403は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
読取装置1404は、プロセッサ1401の指示に従って着脱可能記憶媒体1405にアクセスする。着脱可能記憶媒体1405は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、USB(Universal Serial Bus)メモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、CD-ROM、DVD、Blu-ray Disc等(Blu-rayは登録商標)である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
記憶部120は、例えばメモリ1402、記憶装置1403、および着脱可能記憶媒体1405を含んでいる。例えば、情報処理装置101の記憶装置1403には、動画データ、および姿勢情報300,800が格納されている。
通信インタフェース1406は、プロセッサ1401の指示に従って、他の装置と通信する。通信インタフェース1406は、上述の通信部130の一例である。例えば、情報処理装置101の通信インタフェース1406は、プロセッサ1401の指示に従って撮影装置102などの他の装置と通信する。
入出力インタフェース1407は、例えば、入力装置および出力装置との間のインタフェースであってよい。図14では、入出力インタフェース1407は、例えば、表示装置1411と接続されている。表示装置1411は、例えば、ディスプレーなどであってよく、一例では、プロセッサ1401の指示に従って、動画データに基づき表示画面に動画を表示してよい。また、入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスであってよい。出力装置は、例えば、プリンタなどの印刷装置、およびスピーカなどの音声装置であってよい。
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置101に提供される。
(1)記憶装置1403に予めインストールされている。
(2)着脱可能記憶媒体1405により提供される。
(3)プログラムサーバなどのサーバから提供される。
なお、図14を参照して述べた情報処理装置101を実現するためのコンピュータ1400のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部110の一部または全部の機能がFPGA、SoC、ASIC、およびPLDなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。ASICは、Application Specific Integrated Circuitの略称である。PLDは、Programmable Logic Deviceの略称である。
以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。
100 :検出システム
101 :情報処理装置
102 :撮影装置
110 :制御部
111 :検出部
112 :判定部
120 :記憶部
130 :通信部
201 :戸棚
202 :人物
1400 :コンピュータ
1401 :プロセッサ
1402 :メモリ
1403 :記憶装置
1404 :読取装置
1405 :着脱可能記憶媒体
1406 :通信インタフェース
1407 :入出力インタフェース
1408 :バス
1411 :表示装置

Claims (6)

  1. 動画データから人物の骨格を検出する検出部と、
    前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する判定部と、
    を含み、
    前記判定部は、
    第1関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第1ルールがある場合に、前記第1関節と、前記第1関節に隣接する第2関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
    前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第2関節に基づいて判定するように前記第1ルールに基づき生成されている第2ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
    ことを特徴とする情報処理装置。
  2. 前記第1関節は手首の関節であり、
    前記第2関節は肘の関節であり、
    前記所定条件は、前記肘の関節が伸展していると判定される条件である、請求項1に記載の情報処理装置。
  3. 前記肘の関節が伸展していると判定される条件は、前記骨格に基づく前記人物の肩から手までの長さが所定の長さ以上であることである、請求項2に記載の情報処理装置。
  4. 前記判定部は、更に、前記検出対象の行動が実行されたか否かの正解が分かっている検証用動画に対して、前記第2ルールを適用して前記検出対象の行動を検出した検出結果と、前記正解との一致度に基づいて前記第2ルールを前記検出対象の行動の検出に用いるか否かを検証する、請求項1から3のいずれか1項に記載の情報処理装置。
  5. 情報処理装置が実行する検出方法であって、前記情報処理装置が、
    動画データから人物の骨格を検出し、
    前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する、
    ことを含み、
    前記判定することは、前記情報処理装置が、
    第1関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第1ルールがある場合に、前記第1関節と、前記第1関節に隣接する第2関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
    前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第2関節に基づいて判定するように前記第1ルールに基づき生成されている第2ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
    ことを特徴とする、検出方法。
  6. 動画データから人物の骨格を検出し、
    前記人物の骨格に含まれる関節に基づいて前記人物の行動を判定する、
    処理を情報処理装置に実行させる検出プログラムであって、
    前記判定する処理は、
    第1関節に基づいて前記人物が検出対象の行動をしているか否かを判定する第1ルールがある場合に、前記第1関節と、前記第1関節に隣接する第2関節とが類似した動きの特性を示す所定条件が満たされているか否かを判定し、
    前記所定条件が満たされている場合、前記人物が前記検出対象の行動をしているか否かを前記第2関節に基づいて判定するように前記第1ルールに基づき生成されている第2ルールを用いて、前記人物が前記検出対象の行動をしているか否かを判定する、
    処理を前記情報処理装置に実行させる、検出プログラム。


JP2021165280A 2021-10-07 2021-10-07 情報処理装置、検出方法、および検出プログラム Pending JP2023056137A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021165280A JP2023056137A (ja) 2021-10-07 2021-10-07 情報処理装置、検出方法、および検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021165280A JP2023056137A (ja) 2021-10-07 2021-10-07 情報処理装置、検出方法、および検出プログラム

Publications (1)

Publication Number Publication Date
JP2023056137A true JP2023056137A (ja) 2023-04-19

Family

ID=86004632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021165280A Pending JP2023056137A (ja) 2021-10-07 2021-10-07 情報処理装置、検出方法、および検出プログラム

Country Status (1)

Country Link
JP (1) JP2023056137A (ja)

Similar Documents

Publication Publication Date Title
JP6950692B2 (ja) 人流推定装置、人流推定方法およびプログラム
US9098740B2 (en) Apparatus, method, and medium detecting object pose
EP1768058B1 (en) Information processing apparatus and control method therefor
JP7452016B2 (ja) 学習データ生成プログラム、及び学習データ生成方法
WO2011151997A1 (en) Information processing apparatus and method and program
Holden et al. Visual sign language recognition
CN112088348A (zh) 经由头部姿态远程控制显示设备的方法、系统和计算机程序
CN112541375A (zh) 一种手部关键点识别方法及装置
Varona et al. Toward natural interaction through visual recognition of body gestures in real-time
Edwards et al. Low-latency filtering of kinect skeleton data for video game control
JP2010113530A (ja) 画像認識装置及びプログラム
Kan et al. Self-constrained inference optimization on structural groups for human pose estimation
Kumar et al. Early estimation model for 3D-discrete indian sign language recognition using graph matching
JP2023056137A (ja) 情報処理装置、検出方法、および検出プログラム
JP2020098575A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP7059701B2 (ja) 推定装置、推定方法、及び推定プログラム
KR101515845B1 (ko) 동작 인식 방법 및 동작 인식 장치
Siam et al. Human computer interaction using marker based hand gesture recognition
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
JP7277855B2 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
JP7199931B2 (ja) 画像生成装置、画像生成方法及びコンピュータープログラム
WO2022153481A1 (en) Posture estimation apparatus, learning model generation apparatus, method, and computer-readable recordingmedium
CN111986230A (zh) 一种视频中目标物的姿态跟踪方法及装置
KR102650594B1 (ko) 낮은 공간 지터, 낮은 레이턴시 및 저전력 사용을 갖는 객체 및 키포인트 검출 시스템
JP2019139608A (ja) 画像生成装置及び画像生成プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231026