JP7283571B2

JP7283571B2 - 人物状態検出装置、人物状態検出方法及びプログラム

Info

Publication number: JP7283571B2
Application number: JP2021555633A
Authority: JP
Inventors: 登吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-05-30
Anticipated expiration: 2039-11-11
Also published as: JPWO2021095094A1; WO2021095094A1; US20240112364A1

Description

本発明は、人物状態検出装置、人物状態検出方法及び人物状態検出プログラムが格納された非一時的なコンピュータ可読媒体に関する。

近年、監視システム等において、監視カメラの画像から人物の姿勢や行動等の状態を検出する技術が利用されている。関連する技術として、例えば、特許文献１～３が知られている。特許文献１には、人物の画像領域の時間的な変化から、人物の姿勢を検知する技術が記載されている。特許文献２及び３には、予め記憶した姿勢の姿勢情報と、画像中の推定した姿勢情報とを比較することで、人物の姿勢を検知する技術が記載されている。なお、その他に、人物の骨格推定に関連する技術として、非特許文献１が知られている。

特開２０１０－２３７８７３号公報特開２０１７－１９９３０３号公報国際公開第２０１２／０４６３９２号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

上記のように、特許文献１では、人物の画像領域の変化に基づいて人物の姿勢を検出しているが、直立状態の画像を必須としているため、人物の姿勢によっては精度よく検出することができない。また、特許文献２及び３では、画像の領域によっては、検出精度が悪い可能性がある。このため、関連する技術では、人物を撮像した２次元画像から精度よく人物の状態を検出することが困難であるという問題がある。

本開示は、このような課題に鑑み、人物の状態の検出精度を向上することが可能な人物状態検出装置、人物状態検出方法及人物状態検出及び人物状態検出プログラムが格納された非一時的なコンピュータ可読媒体を提供することを目的とする。

本開示に係る人物状態検出装置は、取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計する集計手段と、前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する状態検出手段と、を備えるものである。

本開示に係る人物状態検出方法は、取得される２次元画像に基づいて人物の２次元骨格構造を検出し、前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出するものである。

本開示に係る人物状態検出プログラムが格納された非一時的なコンピュータ可読媒体は、取得される２次元画像に基づいて人物の２次元骨格構造を検出し、前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する、処理をコンピュータに実行させるための人物状態検出プログラムが格納された非一時的なコンピュータ可読媒体である。

本開示によれば、人物の状態の検出精度を向上することが可能な人物状態検出装置、人物状態検出方法及びプログラムが格納された非一時的なコンピュータ可読媒体を提供することができる。

関連する監視方法を示すフローチャートである。実施の形態に係る人物状態検出装置の概要を示す構成図である。実施の形態１に係る人物状態検出装置の構成を示す構成図である。実施の形態１に係る人物状態検出方法を示すフローチャートである。実施の形態１に係る人物状態検出方法の通常状態設定処理を示すフローチャートである。実施の形態１に係る人物状態検出方法の状態検出処理を示すフローチャートである。実施の形態１に係る人体モデルを示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る骨格構造の検出例を示す図である。実施の形態１に係る集計方法を説明するための図である。実施の形態１に係る集計方法を説明するための図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態に至る検討）
近年、機械学習を活用した画像認識技術が様々なシステムに応用されている。一例として、監視カメラの画像により監視を行う監視システムについて検討する。

図１は、関連する監視システムにおける監視方法を示している。図１に示すように、監視システムは、監視カメラから画像を取得し（Ｓ１０１）、取得した画像の中から人物を検知し（Ｓ１０２）、人物の状態認識及び属性認識（Ｓ１０３）を行う。例えば、人物の状態として人物の振る舞い（姿勢や行動）等を認識し、人物の属性として人物の年齢や性別、身長等を認識する。また、監視システムでは、認識した人物の状態や属性からデータ分析を行い（Ｓ１０４）、分析結果に基づき対処等のアクチュエーションを行う（Ｓ１０５）。例えば、認識した振る舞い等からアラート表示を行ったり、認識した身長等の属性の人物の監視を行う。

この例の状態認識のように、人物の振る舞い、特に監視システムでは通常とは異なる振る舞いを監視カメラ映像から検知したい需要が高まっている。例えば、振る舞いには、しゃがみ込み、寝込み、転倒等が含まれる。

発明者らは、画像から人物の振る舞い等の状態を検出する方法を検討したところ、関連する技術では、簡易に検出することは困難であり、また、必ずしも精度よく検出することができないという課題を見出した。近年のディープラーニングの発展により、検知対象の振る舞い等を撮影した映像を大量に集めて学習させることで上記の振る舞い等を検知することは可能である。しかしながら、この学習データを集めることが困難であり、コストも高い。また、例えば人物の体の一部が隠れていたり、検出場所が考慮されていないと、人物の状態を検出できない場合がある。

そこで、発明者らは、人物の状態検出に、機械学習を用いた骨格推定技術を利用する方法を検討した。例えば、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、簡易に人物の状態を検出し、また、検出精度を向上することを可能とする。

なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
図２は、実施の形態に係る人物状態検出装置１０の概要を示している。図２に示すように、人物状態検出装置１０は、骨格検出部１１、集計部１２、状態検出部１３を備えている。

骨格検出部１１は、取得される２次元画像に基づいて人物の２次元骨格構造を検出する。集計部１２は、骨格検出部１１により検出された２次元骨格構造に基づいた骨格情報を、２次元画像における所定の領域ごとに集計する。状態検出部１３は、集計部１２により集計された骨格情報に基づいて、２次元画像における所定の領域ごとに対象人物の状態を検出する。

このように実施の形態では、２次元画像から人物の２次元骨格構造を検出し、この２次元骨格構造に基づいた骨格情報を所定の領域ごとに集計しておき、所定の領域ごとの骨格情報に基づいて対象人物の状態を検出することで、簡易に検出することができ、また、領域ごとに精度よく検出することができる。

（実施の形態１）
以下、図面を参照して実施の形態１について説明する。図３は、本実施の形態に係る人物状態検出装置１００の構成を示している。人物状態検出装置１００は、カメラ２００とともに人物状態検出システム１を構成する。例えば、人物状態検出装置１００及び人物状態検出システム１は、図１のような監視システムにおける監視方法に適用され、人物の振る舞い等の状態を検出し、その検出に応じたアラームの表示等が行われる。なお、カメラ２００を人物状態検出装置１００の内部に設けてもよい。

図３に示すように、人物状態検出装置１００は、画像取得部１０１、骨格構造検出部１０２、パラメータ算出部１０３、集計部１０４、状態検出部１０５、記憶部１０６を備えている。なお、各部（ブロック）の構成は一例であり、後述の方法（動作）が可能であれば、その他の各部で構成されてもよい。また、人物状態検出装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。

記憶部１０６は、人物状態検出装置１００の動作（処理）に必要な情報（データ）を記憶する。例えば、記憶部１０６は、フラッシュメモリなどの不揮発性メモリやハードディスク装置等である。記憶部１０６は、画像取得部１０１が取得した画像や、骨格構造検出部１０２が処理した画像、機械学習用のデータ、集計部１０４が集計したデータ等を記憶する。なお、記憶部１０６は、外付けやネットワーク上の外部の記憶装置としてもよい。すなわち、人物状態検出装置１００は、外部の記憶装置から必要な画像や機械学習用のデータ等を取得してもよいし、外部の記憶装置に集計結果のデータ等を出力してもよい。

画像取得部１０１は、通信可能に接続されたカメラ２００から、カメラ２００が撮像した２次元の画像を取得する。カメラ２００は、所定の箇所に設置され、設置個所から撮像領域における人物を撮像する監視カメラ等の撮像部である。画像取得部１０１は、例えば、所定の集計期間や検出タイミングにカメラ２００が撮像した、人物を含む複数の画像（映像）を取得する。

骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、複数の画像のそれぞれにおいて、認識される人物の骨格構造を検出する。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

パラメータ算出部１０３は、検出された２次元の骨格構造に基づき、２次元の画像内の人物の骨格パラメータ（骨格情報）を算出する。パラメータ算出部１０３は、検出された複数の画像の複数の骨格構造のそれぞれについて、骨格パラメータを算出する。骨格パラメータは、人物の骨格構造の特徴を示すパラメータであり、また、人物の状態の判断基準となるパラメータである。骨格パラメータは、例えば、人物の骨格構造の大きさ（骨格サイズと言う）及び方向（骨格方向と言う）を含む。なお、骨格サイズ及び骨格方向の両方を骨格パラメータとしてもよいし、いずれか一方を骨格パラメータとしてもよい。また、骨格パラメータは、人物の骨格構造の全体に基づいた骨格サイズ及び骨格方向でもよいし、人物の骨格構造の一部に基づいた骨格サイズ及び骨格方向でもよい。例えば、骨格構造の一部として、足部、胴部、又は頭部に基づいていてもよい。

骨格サイズは、２次元画像上の骨格構造を含む領域（骨格領域と言う）の２次元の大きさであり、例えば、骨格領域の上下方向の高さ（骨格高さと言う）である。例えば、パラメータ算出部１０３は、画像内の骨格領域を抽出し、その骨格領域の上下方向の高さ（画素数）を算出する。骨格高さと及び骨格領域の左右方向の幅（骨格幅と言う）の両方、もしくは、いずれか一方を骨格サイズとしてもよい。また、骨格方向のベクトル（中心軸等）の上下方向の成分を骨格高さとし、骨格方向のベクトルの左右方向の成分を骨格幅としてもよい。なお、上下方向は、画像における上下方向であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向は、画像における左右方向であり、例えば、画像における地面（基準面）に対し平行な方向である。

骨格方向（足から頭に向かう方向）は、２次元画像上の骨格構造の２次元の傾きである。骨格方向は、検出された骨格構造に含まれる骨に対応した方向でもよいし、骨格構造の中心軸に対応した方向でもよい。骨格方向は、骨格構造に基づいたベクトルの方向であるとも言える。例えば、骨格構造の中心軸は、検出された骨格構造の情報に対しＰＣＡ分析（Principal Component Analysis：主成分分析）を行うことで得ることができる。

集計部１０４は、算出された複数の骨格パラメータを集計し、集計した値を通常状態の骨格パラメータとして設定する。集計部１０４は、所定の集計期間に撮像された複数の画像の複数の骨格構造に基づいた複数の骨格パラメータを集計する。集計部１０４は、集計処理として、例えば、複数の骨格パラメータの平均値を求め、この平均値を通常状態の骨格パラメータとする。すなわち、集計部１０４は、骨格構造の全体または一部の骨格サイズ及び骨格方向の平均値を求める。なお、骨格パラメータの平均値に限らず、複数の骨格パラメータの中間値など、その他の統計値を求めてもよい。集計部１０４は、集計した通常状態の骨格パラメータを記憶部１０６に格納する。

状態検出部１０５は、集計された通常状態の骨格パラメータに基づき、画像に含まれる検出対象の人物の状態を検出する。状態検出部１０５は、記憶部１０６に記憶された通常状態の骨格パラメータと検出対象の人物の骨格パラメータとを比較し、その比較結果に基づいて人物の状態を検出する。状態検出部１０５は、人物の骨格構造の全体または一部の骨格サイズ及び骨格方向が、通常状態の値に近いか否かに応じて、人物が通常状態（正常状態）か否か、すなわち人物が通常状態か異常状態かを検出する。骨格サイズ及び骨格方向の両方に基づいて人物の状態を判断してもよいし、いずれか一方に基づいて人物の状態を判断してもよい。なお、通常状態と異常状態に限らず、さらに複数の状態を検出してもよい。例えば、複数の状態ごとに集計データを用意し、最も近い集計データの状態を選択してもよい。

図４～図６は、本実施の形態に係る人物状態検出装置１００の動作（人物状態検出方法）を示している。図４は、人物状態検出装置１００における全体の動作の流れを示し、図５は、図４の通常状態設定処理（Ｓ２０１）の流れを示し、図６は、図４の状態検出処理（Ｓ２０２）の流れを示している。

図４に示すように、人物状態検出装置１００は、通常状態設定処理（Ｓ２０１）を行い、次に状態検出処理（Ｓ２０２）を行う。例えば、人物状態検出装置１００は、所定の集計期間（必要なデータが集計されるまでの期間）に撮像された画像を用いて通常設定処理を行うことにより通常状態の骨格パラメータを設定し、その後の検出タイミング（もしくは検出期間）に撮像された画像を用いて状態検出処理を行うことにより検出対象の人物の状態を検出する。

まず、通常状態設定処理（Ｓ２０１）では、図５に示すように、人物状態検出装置１００は、カメラ２００から画像を取得する（Ｓ２１１）。画像取得部１０１は、骨格構造を検出し通常状態を設定するために人物を撮像した画像を取得する。

続いて、人物状態検出装置１００は、取得した人物の画像に基づいて人物の骨格構造を検出する（Ｓ２１２）。図７は、このとき検出する人体モデル３００の骨格構造を示しており、図８～図１１は、骨格構造の検出例を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。

図８は、直立した状態の人物を検出する例であり、直立した人物が正面から撮像されている。図８では、正面から見た頭のボーンＢ１から足元のボーンＢ７１及びボーンＢ７２までの全てのボーンが検出されている。この例では、頭のボーンＢ１が画像の上側となり、足元のボーンＢ７１及びボーンＢ７２が画像の下側となる。また、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっているため、右足のボーンＢ６１及びボーンＢ７１よりも左足のボーンＢ６２及びボーンＢ７２の方が長い。すなわち、左足のボーンＢ７２が最も下まで伸びている。

図９は、しゃがみ込んでいる状態の人物を検出する例であり、しゃがみ込んでいる人物が右側から撮像されている。図９では、右側から見た頭のボーンＢ１から足元のボーンＢ７１及びボーンＢ７２までの全てのボーンが検出されている。この例では、頭のボーンＢ１が画像の上側となり、足元のボーンＢ７１及びボーンＢ７２が画像の下側となる。また、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも手前に写っているため、左足のボーンＢ６２及びボーンＢ７２よりも右足のボーンＢ６１及びボーンＢ７１の方が長い。すなわち、右足のボーンＢ７１が最も下まで伸びている。

図１０は、寝込んでいる状態の人物を検出する例であり、両手を頭上に伸ばして右を向いて寝込んでいる人物が左斜め前から撮像されている。図１０では、左斜め前から見た頭上の手元のボーンＢ４１及びボーンＢ４２から足元のボーンＢ７１及びボーンＢ７２までの全てのボーンが検出されている。この例では、画像の左右方向に人物が寝込んでいるため、頭上の手元のボーンＢ４１及びボーンＢ４２が画像の左側となり、足元のボーンＢ７１及びボーンＢ７２が画像の右側となる。さらに、体の左側（左肩のボーンＢ２２等）が画像の上側となり、体の右側（右肩のボーンＢ２１等）が画像の下側となる。また、左手のボーンＢ４２が折れ曲がって、他のボーンよりも最も手前、すなわち最も下まで伸びている。

続いて、図５に示すように、人物状態検出装置１００は、検出された骨格構造の骨格パラメータとして、骨格高さ及び骨格方向を算出する（Ｓ２１３）。例えば、パラメータ算出部１０３は、画像上の骨格構造の全体の高さ（画素数）を算出し、また、骨格構造の全体の方向（傾き）を算出する。パラメータ算出部１０３は、骨格高さを、抽出される骨格領域の端部の座標や端部のキーポイントの座標から求め、また、骨格方向を、骨格構造の中心軸の傾きや各ボーンの傾きの平均から求める。

図８の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のボーンＢ１の上端となり、骨格領域の下端は左足のボーンＢ７２の下端となる。このため、頭部のボーンＢ１の上端（キーポイントＡ１）と左足のボーンＢ７２の下端（キーポイントＡ８２）の上下方向の長さを骨格高さとする。なお、左足のボーンＢ７２の下端（キーポイントＡ８２）と右足のボーンＢ７１の下端（キーポイントＡ８１）の中間を骨格領域の下端としてもよい。また、例えば、全てのボーンの情報をＰＣＡ分析すると、骨格領域の中央に上下方向伸びる中心軸が求まる。この中心軸の方向、すなわち、骨格領域の中央で下（足元）から上（頭部）に伸びる方向を骨格方向とする。例えば、人物が直立している場合、骨格方向は地面に対し略垂直となる。

図９の例では、しゃがみ込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のボーンＢ１の上端となり、骨格領域の下端は右足のボーンＢ７１の下端となる。このため、頭部のボーンＢ１の上端（キーポイントＡ１）と右足のボーンＢ７１の下端（キーポイントＡ８１）の上下方向の長さを骨格高さとする。また、例えば、全てのボーンの情報をＰＣＡ分析すると、骨格領域の左下から右上に伸びる中心軸が求まる。この中心軸の方向、すなわち、骨格領域の左下（足元）から右上（頭部）に伸びる方向を骨格方向とする。例えば、人物がしゃがみ込んでいる（座っている）場合、骨格方向は地面に対し斜めとなる。

図１０の例では、画像の左右方向に寝込んだ人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は左肩のボーンＢ２２の上端となり、骨格領域の下端は左手のボーンＢ４２の下端となる。このため、左肩のボーンＢ２２の上端（キーポイントＡ３２）と左手のボーンＢ４２の下端（キーポイントＡ５２）の上下方向の長さを骨格高さとする。なお、左手のボーンＢ４２の下端（キーポイントＡ５２）と右手のボーンＢ４１の下端（キーポイントＡ５１）との中間や、左足のボーンＢ７２の下端（キーポイントＡ７２）と右足のボーンＢ７１の下端（キーポイントＡ７１）との中間を、骨格領域の下端としてもよい。また、例えば、全てのボーンの情報をＰＣＡ分析すると、骨格領域の中央に左右方向に伸びる中心軸が求まる。この中心軸の方向、すなわち、骨格領域の中央で右（足元）から左（頭部）に伸びる方向を骨格方向とする。例えば、人物が寝込んでいる場合、骨格方向は地面に対し略平行となる。

なお、図１１のように、骨格構造の一部の高さ及び骨格構造の一部の方向を求めてもよい。図１１の例では、全体のボーンのうちの一部として、足元のボーンの骨格高さと骨格方向を示している。例えば、足元のボーンＢ７１及びＢ７２の骨格領域を抽出すると、骨格領域の上端は右足のボーンＢ７１の上端となり、骨格領域の下端は左足のボーンＢ７２の下端となる。このため、右足のボーンＢ７１の上端（キーポイントＡ７１）と左足のボーンＢ７２の下端（キーポイントＡ８２）の上下方向の長さを足元の骨格高さとする。なお、右足のボーンＢ７１の上端（キーポイントＡ７１）と左足のボーンＢ７２の上端（キーポイントＡ７２）の中間を、骨格領域の上端としてもよい。左足のボーンＢ７２の下端（キーポイントＡ８２）と右足のボーンＢ７１の下端（キーポイントＡ８１）の中間と骨格領域の下端としてもよい。また、例えば、足元のボーンＢ７１及びＢ７２の情報をＰＣＡ分析すると、骨格領域の中央に上下方向伸びる中心軸が求まる。この中心軸の方向、すなわち、骨格領域の中央で下（足元）から上（膝）に伸びる方向を足元の骨格方向とする。

続いて、図５に示すように、人物状態検出装置１００は、算出された複数の骨格高さ及び骨格方向（骨格パラメータ）を集計し（Ｓ２１４）、データが十分得られるまで（Ｓ２１５）、画像取得から骨格高さ及び骨格方向の集計を繰り返し（Ｓ２１１～Ｓ２１４）、集計した骨格高さ及び骨格方向を通常状態として設定する（Ｓ２１６）。

集計部１０４は、例えば、図１２に示すように、画像における複数の場所で検出される人物の骨格構造から、骨格高さ及び骨格方向をそれぞれ集計する。図１２の例では、画像の中央で人物が通行し、画像の両端のベンチに人物が座っている。人物が歩いている状態では、地面に対し略垂直となる骨格方向と足元から頭までの直立状態の高さとなる骨格高さを検出し、それらを集計する。人物が座っている状態では、地面に対し斜めとなる骨格方向と足元から頭までの座っている状態の高さとなる骨格高さを検出し、それらを集計する。

集計部１０４は、図１２のような画像に対し、図１３に示すように複数の集計領域に分割し、集計領域ごとに骨格高さ及び骨格方向を集計し、集計領域ごとの集計結果を通常状態として設定する。人物が歩く領域では、地面に対し略垂直の骨格方向が通常状態となり、人物が座る領域では、地面に対し斜めの骨格方向が通常状態となる。

例えば、集計領域は、画像を縦方向及び横方向に所定の間隔で分割した矩形領域である。集計領域は、矩形に限らず、任意の形状としてもよい。集計領域は、画像の背景を考慮せずに所定の間隔で分割されている。なお、集計領域は、画像の背景や集計データの量等を考慮して分割してもよい。例えば、画像と実世界の大きさの関係に対応するように、撮像距離に応じて、カメラに近い領域（画像の下側）よりも、カメラに遠い領域（画像の上側）を小さくしてもよい。また、集計されるデータの量に応じて、骨格高さ及び骨格方向が少ない領域よりも、骨格高さ及び骨格方向が多い領域を小さくしてもよい。

例えば、集計領域の中に足元（例えば足の下端）が検出されている人物の骨格高さ及び骨格方向を、集計領域ごとに集計する。足元以外が検出されている場合、足元以外を集計の基準としてもよい。例えば、集計領域の中に頭部や胴部が検出されている人物の骨格高さ及び骨格方向を、集計領域ごとに集計してもよい。

集計領域ごとに、より多くの骨格高さ及び骨格方向を集計することで、通常状態の設定精度及び人物の検出精度を向上することができる。例えば、集計領域ごとに３～５の骨格高さ及び骨格方向を集計し、平均を求めることが好ましい。複数の骨格高さ及び骨格方向の平均を求めることで、集計領域における通常状態のデータを得ることができる。集計領域及び集計データを増やすことにより、検出精度を向上できるものの、検出処理に時間やコストを要する。集計領域及び集計データを減らすことにより、簡易に検出できるものの、検出精度が低下し得る。このため、必要とする検出精度とかかるコストを考慮して集計領域及び集計データの数を決めることが好ましい。

次に、状態検出処理（Ｓ２０２）では、図６に示すように、人物状態検出装置１００は、図５と同様、検出対象の人物を撮像した画像を取得し（Ｓ２１１）、検出対象の人物の骨格構造を検出し（Ｓ２１２）、検出された骨格構造の骨格高さ及び骨格方向を算出する（Ｓ２１３）。

続いて、人物状態検出装置１００は、算出された検出対象の人物の骨格高さ及び骨格方向（骨格パラメータ）が、設定された通常状態の骨格高さ及び骨格方向に近いか否か判定し（Ｓ２１７）、通常状態に近い場合、検出対象の人物は通常状態であると判断し（Ｓ２１８）、通常状態から離れている場合、検出対象の人物は異常状態であると判断する（Ｓ２１９）。

状態検出部１０５は、集計領域ごとに集計された通常状態の骨格高さ及び骨格方向と、検出対象の人物の骨格高さ及び骨格方向とを比較する。例えば、検出対象の人物の足元が含まれる集計領域を認識し、認識した集計領域における通常状態の骨格高さ及び骨格方向と、検出対象の人物の骨格高さ及び骨格方向とを比較する。通常状態の通常状態の骨格高さ及び骨格方向と検出対象の人物の骨格高さ及び骨格方向との差や比率が、所定の範囲内（閾値よりも小さい）の場合、検出対象の人物は通常状態であると判断し、所定の範囲外（閾値よりも大きい）の場合、検出対象の人物は異常状態であると判断する。骨格高さ及び骨格方向の両方の差が所定の範囲外の場合に人物の異常状態を検出してもよいし、骨格高さ及び骨格方向の差のいずれか一方が所定の範囲外の場合に人物の異常状態を検出してもよい。例えば、骨格高さ及び骨格方向の差に応じて、人物の正常状態または異常状態と判断される可能性（確率）を求めてもよい。

例えば、図８のように、人物が直立した状態の骨格高さ及び骨格方向が通常状態に設定されているとする。そうすると、図９のように、人物がしゃがみ込んでいる場合、骨格方向は通常状態に近いものの、骨格高さが通常状態と大きく異なるため、人物が異常状態であると判断する。また、図１０のように、人物が寝込んでいる場合、骨格方向も骨格高さも通常状態と大きく異なるため、人物が異常状態であると判断する。

以上のように、本実施の形態では、２次元画像から人物の骨格構造を検出し、検出した骨格構造から求めた骨格高さや骨格方向等の骨格パラメータを集計して通常状態に設定した。さらに、通常状態と検出対象の人物の骨格パラメータを比較することで、人物の状態を検出した。これにより、複雑な計算や複雑な機械学習、カメラパラメータ等を利用することなく、骨格パラメータの比較のみでよいため、簡易に人物の状態を検出することができる。例えば、骨格推定技術を用いて骨格構造を検出することで、学習データを集めることなく、人物の状態を検知できる。また、人物の骨格構造の情報を用いるため、人物の姿勢にかかわらず、人物の状態を検出することができる。

また、撮像する場所（シーン）ごとに通常状態を自動で設定できるため、場所に応じて適切に人物の状態を検出することができる。例えば、保育園を撮像している場合、通常状態の人物の骨格高さが低く設定されるため、身長の高い人物は異常であると検出できる。さらに、撮像する画像の領域ごとに通常状態を設定できるため、領域に応じて適切に人物の状態を検出することができる。例えば、画像にベンチが含まれている場合、通常状態ではベンチの領域に人が座っているため、骨格方向が傾き、かつ、骨格高さが低く設定される。その場合、ベンチの領域で立っている又は寝込んでいる人物は異常であると検出できる。

なお、上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。人物状態検出装置１０及び１００の機能（処理）を、図１４に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ２１及び記憶装置であるメモリ２２を有するコンピュータ２０により実現してもよい。例えば、メモリ２２に実施形態における方法を行うためのプログラム（人物状態検出プログラム）を格納し、各機能を、メモリ２２に格納されたプログラムをプロセッサ２１で実行することにより実現してもよい。

これらのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

また、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記では人物の状態を検出したが、骨格構造を有する人物以外の動物（哺乳類、爬虫類、鳥類、両生類、魚類等）の状態を検出してもよい。

以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計する集計手段と、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する状態検出手段と、
を備える、人物状態検出装置。
（付記２）
前記骨格情報は、前記２次元骨格構造の大きさ又は方向を含む、
付記１に記載の人物状態検出装置。
（付記３）
前記骨格情報は、前記２次元骨格構造の全体に基づいた大きさ又は方向である、
付記２に記載の人物状態検出装置。
（付記４）
前記骨格情報は、前記２次元骨格構造の一部に基づいた大きさ又は方向である、
付記２に記載の人物状態検出装置。
（付記５）
前記骨格情報は、前記２次元骨格構造に含まれる足部、胴部、又は頭部に基づいた大きさ又は方向である、
付記４に記載の人物状態検出装置。
（付記６）
前記２次元骨格構造の大きさは、前記２次元画像における前記２次元骨格構造を含む領域の高さ又は幅である、
付記２乃至５のいずれかに記載の人物状態検出装置。
（付記７）
前記２次元骨格構造の方向は、前記２次元骨格構造に含まれる骨に対応した方向、又は前記２次元骨格構造の中心軸に対応した方向である、
付記２乃至６のいずれかに記載の人物状態検出装置。
（付記８）
前記集計手段は、前記所定の領域ごとに前記骨格情報の統計値を求める、
付記１乃至７のいずれかに記載の人物状態検出装置。
（付記９）
前記所定の領域は、前記２次元画像を所定の間隔で分割した領域である、
付記１乃至８のいずれかに記載の人物状態検出装置。
（付記１０）
前記所定の領域は、前記２次元画像を撮像距離に応じて分割した領域である、
付記１乃至８のいずれか一項に記載の人物状態検出装置。
（付記１１）
前記所定の領域は、前記２次元画像を集計される骨格情報の量に応じて分割した領域である、
付記１乃至８のいずれか一項に記載の人物状態検出装置。
（付記１２）
前記状態検出手段は、前記集計された骨格情報と前記対象人物の２次元骨格構造に基づいた骨格情報との比較結果に基づいて前記対象人物の状態を検出する、
付記１乃至１１のいずれかに記載の人物状態検出装置。
（付記１３）
前記状態検出手段は、前記集計された骨格情報を通常状態の骨格情報として、前記対象人物の状態が通常状態か否かを検出する、
付記１２に記載の人物状態検出装置。
（付記１４）
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する、
人物状態検出方法。
（付記１５）
前記骨格情報は、前記２次元骨格構造の大きさ又は方向を含む、
付記１４に記載の人物状態検出方法。
（付記１６）
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する、
処理をコンピュータに実行させるための人物状態検出プログラム。
（付記１７）
前記骨格情報は、前記２次元骨格構造の大きさ又は方向を含む、
付記１６に記載の人物状態検出プログラム。

１人物状態検出システム
１０人物状態検出装置
１１骨格検出部
１２集計部
１３状態検出部
２０コンピュータ
２１プロセッサ
２２メモリ
１００人物状態検出装置
１０１画像取得部
１０２骨格構造検出部
１０３パラメータ算出部
１０４集計部
１０５状態検出部
１０６記憶部
２００カメラ
３００人体モデル

Claims

取得される２次元画像に基づいて人物の２次元骨格構造を検出する骨格検出手段と、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計する集計手段と、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する状態検出手段と、
を備える、人物状態検出装置。
前記骨格情報は、前記２次元骨格構造の大きさ又は方向を含む、
請求項１に記載の人物状態検出装置。
前記骨格情報は、前記２次元骨格構造の全体に基づいた大きさ又は方向である、
請求項２に記載の人物状態検出装置。
前記骨格情報は、前記２次元骨格構造の一部に基づいた大きさ又は方向である、
請求項２に記載の人物状態検出装置。
前記集計手段は、前記所定の領域ごとに前記骨格情報の統計値を求める、
請求項１乃至４のいずれか一項に記載の人物状態検出装置。
前記所定の領域は、前記２次元画像を所定の間隔で分割した領域である、
請求項１乃至５のいずれか一項に記載の人物状態検出装置。
前記所定の領域は、前記２次元画像を撮像距離に応じて分割した領域である、
請求項１乃至５のいずれか一項に記載の人物状態検出装置。
前記所定の領域は、前記２次元画像を集計される骨格情報の量に応じて分割した領域である、
請求項１乃至５のいずれか一項に記載の人物状態検出装置。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する、
人物状態検出方法。
取得される２次元画像に基づいて人物の２次元骨格構造を検出し、
前記検出された２次元骨格構造に基づいた骨格情報を、前記２次元画像における所定の領域ごとに集計し、
前記集計された骨格情報に基づいて、前記２次元画像における所定の領域ごとに対象人物の状態を検出する、
処理をコンピュータに実行させるための人物状態検出プログラム。