JP7263094B2

JP7263094B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7263094B2
Application number: JP2019080893A
Authority: JP
Inventors: 俊介佐藤; 広一竹内
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2023-04-24
Anticipated expiration: 2039-04-22
Also published as: SG11202110708XA; US20220036056A1; WO2020217812A1; JP2020177557A

Description

本発明は、特に、被写体の性状の誤認識を防止するために用いて好適な情報処理装置、情報処理方法及びプログラムに関する。

従来、映像処理の技術において、被写体のパーツを検出してその被写体の状態を認識する方法が提案されている。特許文献１には、人体の部位を認識してゴルフのスイングなどで正しい姿勢を取っているかどうかを通知する装置が開示されている。

特許第５８８１１３６号公報

Cao, Zhe, et al. "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields CVPR." (2017). ZHANG, Ying, et al. Video anomaly detection based on locality sensitive hashing filters. Pattern Recognition, 2016, 59: 302-311. Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

被写体のパーツを検出する方法では、映像の外への見切れや他の物体による遮蔽によって、そのパーツを検出できずに結果に欠けを生じることがある。例えば、地面に座り込んで足の先端を自己遮蔽している場合と、足の先端が画面外に見切れた場合とでは、ともに足の先端のパーツを検出することができない。その結果、自己遮蔽した場合と画面外に見切れている場合とで人体パーツの位置情報が類似したものになることがあり、これらを区別するのが困難となる課題がある。

本発明は前述の問題点に鑑み、被写体の一部のパーツが検出されない場合に、被写体の状態をより精度よく区別できるようにすることを目的としている。

本発明に係る情報処理装置は、映像に含まれる被写体の所定のパーツを検出する検出手段と、前記検出手段によって検出されたパーツに基づいて前記被写体の特徴量を算出する算出手段と、前記検出手段の検出結果に基づいて、前記被写体の状態を推定する推定手段と、前記推定手段によって推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類手段と、を備えることを特徴とする。

本発明によれば、被写体の一部のパーツが検出されない場合に、被写体の状態をより精度よく区別することができる。

実施形態における情報処理システムの全体構成例を示す図である。第１の実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。パーツ検出部が検出する関節点の位置を説明するための図である。撮影部で撮影している映像を表示部で表示している例を示す模式図である。映像のフレーム画像を受信するたびに解析サーバーが実行する処理手順の一例を示すフローチャートである。画面見切れおよび他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。表示部に表示される被写体の状態をより詳細に説明するための図である。第２の実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。第２の実施形態において、移動物遮蔽および固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。第２の実施形態において、被写体の特徴量を分類する処理手順の一例を示すフローチャートである。複数のカメラで撮影された映像の例を示す図である。パーツ検出部が検出する自動車のパーツを説明するための図である。

（第１の実施形態）
以下、本発明の第１の実施形態について、図面を参照しながら説明する。
図１は、本実施形態における情報処理システム１００の全体構成例を示す図である。
図１に示すように、本実施形態に係る情報処理システム１００は、カメラ１０１と、解析サーバー１０２と、録画サーバー１０３と、端末装置１０４とを有している。カメラ１０１、解析サーバー１０２、および録画サーバー１０３は、カメラネットワーク１０５によって接続される。また、解析サーバー１０２、録画サーバー１０３、および端末装置１０４は、クライアントネットワーク１０６によって接続される。カメラネットワーク１０５およびクライアントネットワーク１０６は、例えばＬＡＮによって構成される。

カメラ１０１は、撮像素子、レンズ及びこれらを駆動するモーター、並びにこれらを制御するＭＰＵ等によって構成される撮像装置であり、動画を撮影して電子データに変換する。カメラ１０１は利用者が監視を要する場所に設置され、撮影した動画（映像データ）を、カメラネットワーク１０５を介して送信する。

解析サーバー１０２は例えば計算機などの情報処理装置であり、カメラ１０１から送信される映像データ、または録画サーバー１０３に記録された映像データを解析する。この解析では、設置個所に応じて例えば顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知などの認識処理を行う。そして、解析サーバー１０２は解析結果を集計して、設定に従って利用者に通知する。

本実施形態においては、映像中で異常な行動をとった人物を認識する方法について説明する。ここで、異常な行動とはカメラ１０１の設置された場所において、通常観測される行動と大きく異なる行動である。例えば廊下においては、転倒したり、具合が悪くなって急に座り込んだり、人や物に向かって殴りかかったりする行動が異常な行動である。これら以外にも、廊下で通常観測される立位の歩行から大きく異なった行動を異常な行動とする。異常な行動の定義はカメラ１０１が設置された場所や状況によって異なっていてもよく、例えばスケートリンクや冬場の凍った歩道であれば、転倒が異常な行動に含まれないこともある。

録画サーバー１０３は、カメラ１０１から取得した映像データを保有するストレージに記録し、解析サーバー１０２、端末装置１０４などの要求に従って記録した映像データを送信する。また、映像データとともに、解析サーバー１０２の解析結果を示すメタデータなども併せて記録する。ストレージはハードディスクなどの記録メディアおよびＭＰＵ等によって構成される。記録メディアの代わりに、ＮＡＳやＳＡＮ、クラウドサービスなどのネットワーク上のストレージを用いてもよい。

端末装置１０４はディスプレイを備えた計算機であり、カメラ１０１で取得した映像データを、録画サーバー１０３を通じて取得する。また、端末装置１０４は、録画サーバー１０３に記録された過去の映像データを取得したり、解析サーバー１０２の解析結果を合わせて映像データを取得したり、通知を受け取ったりする。

なお、本実施形態に係る情報処理システム１００では、カメラ１０１、解析サーバー１０２、録画サーバー１０３、および端末装置１０４はそれぞれ異なる装置としているが、本発明はこのような構成に限定されるものではない。例えば解析サーバー１０２、および録画サーバー１０３を１つのサーバー装置の中のアプリケーションや仮想サーバーとして実現してもよい。また、解析サーバー１０２または録画サーバー１０３に端末装置１０４の機能を設けてもよいし、解析サーバー１０２または録画サーバー１０３の機能をカメラ１０１に搭載してもよい。

図２は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。
図２に示すように、情報処理システム１００は、撮影部２０１、パーツ検出部２０２、特徴量算出部２０３、被写体状態推定部２０４、分類部２０５、認識部２０６、記憶部２０７、表示部２０８、および操作部２０９を有する。

撮影部２０１は、図１に示すカメラ１０１に含まれる構成である。撮影部２０１は、映像を撮影して電子的な映像データに変換し、解析サーバー１０２および録画サーバー１０３に送信する。

パーツ検出部２０２、特徴量算出部２０３、被写体状態推定部２０４、分類部２０５、および認識部２０６は、図１に示す解析サーバー１０２に含まれる構成である。
パーツ検出部２０２は、ＭＰＵ等によって構成され、撮影部２０１から受信した映像データから予め定められたカテゴリに属する被写体と、その被写体を構成する所定のパーツとを検出する。本実施形態においては、人物のカテゴリに属する被写体について、その関節点の映像上の位置情報を検出する。

特徴量算出部２０３は、ＭＰＵ等によって構成され、パーツ検出部２０２で検出したパーツを用いて、被写体の特徴量を検出する。本実施形態においては、関節点の位置情報を用いて、被写体（人物）の特徴量を算出する。

被写体状態推定部２０４は、ＭＰＵ等によって構成され、パーツ検出部２０２が検出した被写体について、その映像中の状態を推定する。この処理では、被写体の検出されなかったパーツとその原因とを状態として推定する。本実施形態で推定する具体的な状態については後述する。なお、原因に限らず、被写体の状態として類別できるものであれば状態とすることができ、例えば被写体の明るさや画質、また被写体が人物であるならば性別や年齢などの属性、服装、感情や健康状況などを状態とする構成も考えられる。

分類部２０５は、ＭＰＵ等によって構成され、被写体状態推定部２０４が推定した被写体の状態に応じて、被写体に対応した特徴量を分類する。
認識部２０６は、ＭＰＵ等によって構成され、特徴量算出部２０３で算出された特徴量を用いて、被写体の特定の性状を認識する。本実施形態においては、被写体の人物が異常な行動をとっていることを認識対象の性状とする。

記憶部２０７は、図１に示す録画サーバー１０３に含まれる構成である。記憶部２０７は、ハードディスクなどの記録メディアおよびＭＰＵ等によって構成され、撮影部２０１が撮影した映像データを記録メディアに記録する。また、解析サーバー１０２の解析結果を示すメタデータもあわせて記録する。

表示部２０８および操作部２０９は、図１に示す端末装置１０４に含まれる構成である。
表示部２０８は、液晶画面（ディスプレイ）とこれを制御するＭＰＵ等によって構成され、ディスプレイから利用者に情報を提示し、また、操作を行うユーザーインターフェース（ＵＩ）画面を作成してディスプレイに表示する。

操作部２０９は、スイッチやタッチパネル等によって構成され、利用者による操作を感知してその情報を端末装置１０４に入力する。なお、タッチパネルの代わりにマウスやトラックボールなど他のポインティングデバイスを用いてもよい。

本実施形態においては映像から異常行動を検出する例について説明するが、検出対象はこれに限らない。例えば映像から特定の人物、車種、テキストなどを検出したり、イベントや時間帯などを認識したりしてもよい。また、映像に付随する音声や画像のメタデータなどの情報を検出に用いてもよい。

次に、図４を用いて、本実施形態における情報処理装置の動作について説明する。
図４は、撮影部２０１で撮影している映像を表示部２０８で表示している例を示す模式図である。撮影部２０１であるカメラ１０１は、監視対象とする箇所を撮影するように設置され、表示部２０８にカメラで撮影された現在の映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかをチェックしている。

図４（ａ）に示す例のように特に異常がない場合は、撮影された映像がそのまま表示されるが、図４（ｂ）に示す例のように転倒した人物４０２が映ると、表示部２０８は警報４０３を表示して利用者に注意を促すようになっている。

図４（ｃ）の見切れた人物４０４と、図４（ｄ）の通路で座り込んでしまった人物４０５とを比較すると、図４（ｃ）は警報が不要な状況であり、図４（ｄ）は警報を表示したい状況である。しかし、人物４０４と人物４０５との姿勢を比較すると、どちらも左右の膝と足首が欠けており、上半身の部分については似通った姿勢であるため、パーツに基づく特徴量においては差が小さくなってしまう。そのため、単に被写体の特定の性状を認識しようとすると、図４（ｃ）の例も図４（ｄ）の例も同じ認識結果となる可能性が高い。つまり、警報が出ない場合は図４（ｄ）において座り込みの状態であることを見逃し、警報が出た場合は図４（ｃ）において誤報となり、いずれにせよ誤った結果となる可能性が高い。

本実施形態においては、このような状況に対処するために分類部２０５が備わっており、人物４０４と人物４０５とを区別して分類することによって、認識部２０６での誤認識を防止し、精度の向上を図っている。

図５は、カメラ１０１から映像のフレーム画像を受信するたびに解析サーバー１０２が実行する処理手順の一例を示すフローチャートである。
まず、ステップＳ５０１において、パーツ検出部２０２は、受信した映像のフレーム画像を画像データとして取得する。

次に、ステップＳ５０２において、パーツ検出部２０２は、ステップＳ５０１で受信した画像データから、被写体である人物と、その関節点の位置情報を検出する。ここで、本実施形態においてパーツ検出部２０２が検出する関節点の位置情報について、図３を用いて説明する。

パーツ検出部２０２は、人物３００から以下の１４個の関節点を検出する。これらは、頭頂点３０１、首点３０２、右肩点３０３、右肘点３０４、右手首点３０５、左肩点３０６、左肘点３０７、左手首点３０８、右股関節点３０９、右膝点３１０、右足首点３１１、左股関節点３１２、左膝点３１３、左足首点３１４である。頭頂点３０１は正確には人体の関節ではないが、ここでは関節点として総称することにする。また、特定の２つの関節点には接続の関係があり、身体の胴体に近い方を親関節点、遠い方を子関節点と呼ぶことにする。

図３においては、関節の接続を親関節点から子関節点への矢印として表示している。具体的な接続は以下の１１組である。まず、首点３０２と頭頂点３０１、首点３０２と右肩点３０３、右肩点３０３と右肘点３０４、右肘点３０４と右手首点３０５、首点３０２と左肩点３０６、左肩点３０６と左肘点３０７、左肘点３０７と左手首点３０８である。さらに、右股関節点３０９と右膝点３１０、右膝点３１０と右足首点３１１、左股関節点３１２と左膝点３１３、左膝点３１３と左足首点３１４である。それぞれ先に挙げた方が親関節点である。

パーツ検出部２０２は、例えば非特許文献１に示された深層ニューラルネットワークを用いた手法などの公知の手法を用いて、関節点の検出を行う。一人の被写体から関節点が全て検出されるとは限らず、映像中に存在しない関節については「なし」という情報が与えられる。ただし、全ての関節点が「なし」であるような被写体は検出結果には含まないものとする。

ここで、ステップＳ５０２でパーツ検出部２０２が検出したＮ名の人物をそれぞれＰ₁、Ｐ₂、・・・Ｐ_Nとする。そして、人物Ｐ_iについてそれぞれ、関節点を頭頂点３０１から左足首点３１４まで図３の番号順に並べたものをＪ_i1、Ｊ_i2、・・・Ｊ_iMとする。ここではＭ＝１４である。

なお、本実施形態においては、パーツ検出部２０２は映像中の被写体の検出と、そのパーツである関節の検出との両方を行うが、まず被写体を物体認識などの手法で検出してから、それぞれの被写体についてパーツの検出を行うような構成でもよい。また、本実施形態では関節点を人体のパーツとして検出しているが、検出対象のパーツはこれに限るものではない。例えば両手の指の関節などを検出してもよいし、目、鼻、口などの器官を検出してもよい。また、関節という点ではなく、手のひら、足の裏、胴体、頭部、臀部などを面的に検出してもよいし、上腕、下腕、太腿、脛などを棒状の部位として検出しても良い。さらに、制服のロゴ、帽子のつば、白杖の先端など、人物の衣類や付属物、所持品などを人体のパーツとみなして検出してもよい。

次に、ステップＳ５０３において、特徴量算出部２０３は、人物Ｐ₁、Ｐ₂、・・・Ｐ_Nのそれぞれについて、前述した方法で特徴量を算出する。本実施形態においては、特徴量算出部２０３が算出する人物３００の特徴量は以下のように算出する。まず、検出された全ての関節点の画像中の座標から重心位置を算出し、検出された全ての関節について、重心からの相対座標をそれぞれ求める。そして頭頂点３０１から左足首点３１４まで順番に、ｘ値とｙ値とを交互に並べて２８次元実数値ベクトルを構成し、これを人物３００の特徴量とする。ただし、「なし」である関節点については、ｘ値とｙ値をともに０とする。

なお、この特徴量の形式と算出方法はあくまで一例であり、特徴量の算出方法はこの方法に限定されない。例えばパーツ間の距離や結ぶ線分の傾き、パーツの面積、パーツ検出部２０２の検出スコアなどを用いたり、正規化を行ったりして特徴量を算出してもよい。さらに、ここではパーツの推定結果を用いて算出した特徴量の例について説明したが、他に前述の深層ニューラルネットワークによるパーツの推定を行う際に得られる深層ニューラルネットワークの中間層を特徴量とすることもできる。その中間層を、例えば最大値などに基づいて正規化するなどの処理を行って算出した値を特徴量にするなどしてもよい。

次に、ステップＳ５０４において、被写体状態推定部２０４は、被写体の状態を推定する。本実施形態で推定を行う被写体の状態は、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、自己遮蔽の６つのフラグで示され、これらは独立したフラグとして、被写体ごとに付与される。状態の推定方法の詳細については図６を用いて後述する。

次に、ステップＳ５０５において、分類部２０５は、ステップＳ５０４で推定した被写体の状態に応じて、被写体の特徴量を分類する。本実施形態では、被写体の性状を認識するための基準が異なる複数のカテゴリに分類する。まず、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかのフラグが立っている被写体は、「除外」のカテゴリに分類する。一方で、「除外」に分類されないもののうち、他人物遮蔽のフラグが立っている被写体は「優先度低」のカテゴリに分類し、自己遮蔽のフラグのみ立っているものは「優先度高」のカテゴリに分類する。また、どのフラグも立っていないものは「通常」のカテゴリに分類する。

次に、ステップＳ５０６において、認識部２０６は、それぞれの被写体の特徴量について、性状の認識、ここでは異常行動を取っていることの認識を行う。本実施形態においては、一部のカテゴリ（この場合は「除外」）を除き、異常行動の認識には、例えば非特許文献２に示すような、局所性鋭敏型ハッシュ（ＬＳＨ）によって正常行動からの乖離度合いを判定するなどの公知の手法を用いる。ＬＳＨではハッシュ距離に基づくスコアを求め、それが閾値Ｔを上回った場合に異常、そうでない場合は正常であると判定するが、ここでステップＳ５０５における分類に基づいて認識の方法を変えるようにする。なお、ベイズ判定やニューラルネットワークなど他の方法を用いて異常行動の認識を行っても良い。

まず、「除外」に分類されたものについては無条件で正常と判定する。これは、見切れによって情報が欠けた特徴量については、結果が不安定となりやすく、誤報を生じやすいためである。その他の分類についてはＬＳＨを用いて判定を行うが、「通常」は閾値Ｔをそのまま用いるのに対し、「優先度低」の場合はＴより大きい閾値Ｔ１、「優先度高」の場合はＴより小さい閾値Ｔ２を用いて判定を行う。なお、閾値Ｔ，Ｔ１，Ｔ２については、ＬＳＨの学習時によってあらかじめ好適な値を設定しておく。

他人物遮蔽の場合は、見切れと同様に結果が不安定となりやすく誤報が発生しやすい。また、他の人物が近くにいるため、実際に異常行動が発生していたとしてもすぐに救助が期待できる。したがって、他人物遮蔽のフラグが立っている場合は「優先度低」として警報を出しにくいように判定を行う。一方で、自己遮蔽については、異常な姿勢を実際に取っている可能性が高いため、自己遮蔽のフラグのみが立っている場合は「優先度高」として警報を出しやすいようにして判定を行う。

次に、ステップＳ５０７において、端末装置１０４は、解析サーバー１０２の解析結果（認識部２０６の認識結果）とともに映像データを取得する。そして、表示部２０８は、ステップＳ５０６における認識の結果に応じた表示を行う。異常行動が認識された被写体が一つでもあった場合は、映像中に警報表示を行い、利用者に注意を促すようにする。なお、そうでない場合は特に警告表示を行わないようにする。この処理では、正常な被写体の表示を妨げるものではなく、例えば検出した人物を外接矩形で強調したり、パーツの表示を行ったりしてもよいし、ステップＳ５０５での分類の結果を人物のそばに表示してもよい。

以上のようにして、被写体のパーツの状態に応じて好適な処理を行うことによって、誤報を抑えて高い精度で被写体の性状を認識することができる。

次に、ステップＳ５０４における被写体の状態を推定する方法の詳細について説明する。前述したように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽については、それぞれ独立のフローに従って判定を行う。この判定の順序はどのようにしてもよいし、並列に処理してもよい。それぞれの被写体について、これらのフローに従って一度ずつ判定を行う。

図６（ａ）は、ステップＳ５０４における、画面下見切れを判定するための処理手順の一例を示すフローチャートである。以下、図３に示したパーツを例に説明する。
まず、ステップＳ６０１において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、被写体の右足首点３１１と左足首点３１４とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合には画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。一方、どちらも「なし」である場合はステップＳ６０２に進む。

次に、ステップＳ６０２においては、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、被写体の右膝点３１０と左膝点３１３とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップＳ６０３に進む。そして、ステップＳ６０３において、被写体状態推定部２０４は、右膝点３１０と左膝点３１３とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部２０２の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。一方、ステップＳ６０２の判定の結果、どちらも「なし」である場合はステップＳ６０４に進む。

ステップＳ６０４においては、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、被写体の右股関節点３０９と左股関節点３１２とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップＳ６０５に進む。そして、ステップＳ６０５において、被写体状態推定部２０４は、右股関節点３０９と左股関節点３１２とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部２０２の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。

一方、ステップＳ６０４の判定の結果、どちらも「なし」である場合はステップＳ６０６に進む。そして、ステップＳ６０６において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果の中の「なし」ではない関節点のうち、最も下辺に近いものを代表点として選択する。

ステップＳ６０７においては、被写体状態推定部２０４は、代表点と画面の下辺との距離Ｌａを求め、距離Ｌａが予め定められた閾値Ｌ１を下回るかどうかを判定する。この判定の結果、距離Ｌａが閾値Ｌ１を下回った場合は、画面下見切れであるものとしてフラグを立て、画面下見切れの判定処理を終了する。一方で、距離Ｌａが閾値Ｌ１以上である場合は、画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。

図６（ｂ）は、ステップＳ５０４における、画面上見切れを判定するための処理手順の一例を示すフローチャートである。
まず、ステップＳ６１１において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、被写体の頭頂点３０１が「なし」であるかどうかを判定する。この判定の結果、被写体の頭頂点３０１が「なし」でない場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。一方、被写体の頭頂点３０１が「なし」である場合はステップＳ６１２に進む。

ステップＳ６１２においては、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、被写体の首点３０２、右肩点３０３、左肩点３０６が全て「なし」であるかどうかを判定する。この判定の結果、少なくとも１つが「なし」でない場合にはステップＳ６１３に進む。そして、ステップＳ６１３において、被写体状態推定部２０４は、首点３０２、右肩点３０３、左肩点３０６のうち、「なし」でないものの中で画面の上辺に最も近いものを代表点として選択する。

一方、ステップＳ６１２の判定の結果、首点３０２、右肩点３０３、左肩点３０６が全て「なし」である場合はステップＳ６１４に進む。そして、ステップＳ６１４において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果の中の「なし」ではない関節点のうち、最も上辺に近いものを代表点として選択する。

ステップＳ６１５においては、代表点と画面の上辺との距離Ｌｂを求め、距離Ｌｂが予め定められた閾値Ｌ２を下回るかどうかを判定する。この判定の結果、距離Ｌｂが閾値Ｌ２を下回った場合は、画面上見切れであるものとしてフラグを立て、画面上見切れの判定処理を終了する。一方で、距離Ｌｂが閾値Ｌ２以上である場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。

図６（ｃ）は、ステップＳ５０４における、画面右見切れを判定するための処理手順の一例を示すフローチャートである。
まず、ステップＳ６２１において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を１つも有していない場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。一方、ステップＳ６２１の判定の結果、「なし」と判定された関節点を１つ以上有している場合はステップＳ６２２に進む。

そして、ステップＳ６２２において、被写体状態推定部２０４は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と右辺との距離をそれぞれ求める。そして、これらの距離の中の最小値Ｌｃが予め定められた閾値Ｌ３を下回るかどうかを判定する。この判定の結果、距離の最小値Ｌｃが閾値Ｌ３を下回った場合は、画面右見切れであるものとしてフラグを立て、画面右見切れの判定処理を終了する。一方で、距離の最小値Ｌｃが閾値Ｌ３以上である場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。

なお、「なし」と判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は、右辺との距離を算出することができない。この場合はその関節点を除外して最小値Ｌｃを求める。また、全て除外されて最小値Ｌｃを求めることができない場合は、画面右見切れではないと判定するものとする。

また、画面左見切れの判定処理も、図６（ｃ）に示す処理手順と同様に行うものとする。つまり、親関節点と左辺との距離をそれぞれ求め、これらの距離の中の最小値が閾値を下回るかどうかを判定することによって、同様に画面左見切れか否かを判定する。

図６（ｄ）は、ステップＳ５０４における、他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップＳ６３１において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を１つも有していない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。一方、ステップＳ６３１の判定の結果、「なし」と判定された関節点を１つ以上有している場合はステップＳ６３２に進む。

ステップＳ６３２においては、被写体状態推定部２０４は、それぞれの「なし」と判定された関節点の親関節点に着目する。そして、その親関節点を中心とする半径Ｒの円をそれぞれ描いた場合に、いずれかの円内に、いずれかの異なる被写体の関節点が含まれるかどうかを判定する。この判定の結果、一つでも異なる被写体の関節点が含まれている場合は、他人物遮蔽であるものとしてフラグを立て、他人物遮蔽の判定処理を終了する。一方で、いずれの円内にも異なる被写体の関節点が全く含まれていない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。

なお、「なし」判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は半径Ｒの円を描くことができない。この場合はその関節点を除外して円内に異なる被写体の関節点が含まれるか否かを判定するようにする。また、全て除外されて半径Ｒの円を１つも描くことができない場合は、他人物遮蔽ではないと判定するものとする。

以上のように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、および他人物遮蔽の判定処理がすべて終了すると、被写体状態推定部２０４は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部２０２の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部２０４は、自己遮蔽であるものとしてフラグを立てる。

以上のように本実施形態によれば、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽および自己遮蔽に関する被写体の状態を推定し、被写体の状態に応じて被写体の特徴量を分類するようにしている。これにより、警報等を出すべきシーンをより適切に認識することができる。

本実施形態では、関節点の位置から推定される特徴量と、被写体の画面位置または遮蔽から求められる被写体の状態とをそれぞれ求め、それらを元に被写体の特徴量を分類する方法について説明した。一方で、関節点の位置から推定される特徴量に被写体の状態を統合した統合特徴量を求め、統合特徴量から分類するようにしてもよい。また、特徴量は、前述したように、深層ニューラルネットワークの中間層から得られる特徴量であってもよい。そのほか、関節点の位置から推定される特徴量だけでは判定するのが困難な場合には、被写体の動作など分類に役立つそれ以外の被写体の状態を示す特徴量を用いてもよく、上記の内容に限ったものではない。

（第２の実施形態）
第１の実施形態では、単一のフレーム画像から得られる被写体のパーツの情報を用いて被写体の状態を推定する方法を説明した。しかしながら、単一のフレーム画像だけでは被写体の状態を区別することが難しい状況もあり、異常行動の見逃しが増える可能性がある。また、パーツの位置だけでは推測できないような被写体の状態については、他の情報との組み合わせで取得することが望ましい。そこで本実施形態では、時系列的な映像の情報と、物体認識と、地形の情報とを用いて、被写体の状態を推定する方法を説明する。なお、本実施形態では、第１の実施形態と異なる部分についてのみ説明し、共通部分については説明を省略する。

図７は、表示部２０８に表示される被写体の状態をより詳細に説明するための図である。図７（ａ）～図７（ｃ）に示す例は、画面下から画面奥に向かって歩行する人物の映像であり、図７（ｄ）～図７（ｆ）は、画面の手前で座り込む人の映像である。図７（ａ）の人物７０１、図７（ｂ）の人物７０２、図７（ｃ）の人物７０３はいずれも同一人物であり、画面下から画面奥に向かって歩行している。また、図７（ｄ）の人物７０４、図７（ｅ）の人物７０５、図７（ｃ）の人物７０６はいずれも同一人物であり、いずれも座り込んでいる。

この２つの例では、位置関係が類似していることから、関節点の位置も類似した関係になることがある。例えば図７（ｂ）の人物７０２と図７（ｅ）の人物７０５とで関節点を比較すると、同じように足や膝の関節点は不検出であり、かつ位置の違いはぶれの範囲に収まってしまうことがありうる。関節点を用いた特徴量のみを用いて分類すると、この２つの違いを識別することは困難である。

また、場合によっては、図７（ｇ）及び図７（ｈ）に示すように、手荷物７０７または階段７０８によって足および膝が隠れることもありうる。これらの場合には、図７（ｂ）の人物７０２および図７（ｅ）の人物７０５と類似した関節点の検出状態や位置関係になってしまうことがありうる。映像上の大きさで正規化した特徴量を用いると、これらの違いも識別が困難になる。

本実施形態では、追加的な情報を用いることによって、このように区別が難しい状況であってもより精度よく人物の状態を区別して分類する。例えば、前後のフレーム画像から時系列的な情報を用いることによって、図７（ａ）～図７（ｃ）の例では人物は移動しているのが認識でき、図７（ｄ）～図７（ｆ）の例では、人物は座り込んで動かないことが認識できる。また、物体認識によって物体を検出することによって、図７（ｄ）～図７（ｆ）の例では、座り込んで動かない人物を認識でき、さらに図７（ｇ）または図７（ｈ）の例ように、手荷物や周辺の地形によって遮蔽された人物を区別する。

図８は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。図２に示す機能構成と比較すると、被写体状態推定部２０４が物体認識部８０２および地形取得部８０３を有し、さらに、分類部２０５が追尾部８０１を有している。なお、追尾部８０１、物体認識部８０２および地形取得部８０３は、被写体状態推定部２０４または分類部２０５に含まれるものとしているが、必ずしもこのような構成である必要はない。例えばカメラ１０１や新たなサーバー機の上に追加の機能ブロックを搭載して、結果を通信するような構成にすることもできる。

追尾部８０１は、ＭＰＵ等によって構成され、撮影部２０１から受信した映像データおよびパーツ検出部２０２で検出したパーツの情報に基づき、例えばテンプレートマッチングのような公知の手法を用いて、被写体の追尾を行う。

物体認識部８０２は、ＭＰＵ等によって構成され、撮影部２０１から受信した映像データから、例えば非特許文献３に示したような一般物体認識の手法を用いて、様々な物体を認識する。
地形取得部８０３は、ＭＰＵ等によって構成され、撮影部２０１が撮影している場所の地形情報を取得する。ここで地形情報とは、壁、階段などの位置、電柱や看板など固定された物体の位置、および撮影部２０１のカメラの位置を含み、撮影された場所の位置関係を表す情報である。地形情報は、解析サーバー１０２に予め保持しておいたり、建物の設計図等から三次元情報として生成したり、映像データから柱や階段などを検出することで生成したりすることができ、予め用意しておくものとする。

本実施形態の基本的な処理の流れは、図５と同様であるが、本実施形態では、被写体状態推定部２０４は、第１の実施形態で説明した６種類に加え、移動物遮蔽、固定物遮蔽の２つを同様に独立したフラグとして、被写体ごとに付与する。また、分類部２０５による分類方法も第１の実施形態と異なっている。まず、図９を用いて、本実施形態における被写体の状態を推定する方法を説明する。

図９（ａ）は、ステップＳ５０４における、移動物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップＳ９０１において、物体認識部８０２は、撮影部２０１から受信した映像データから物体を認識する。物体認識部８０２は、映像中の矩形と物体のクラスとのペアを、認識された物体の数だけ算出する。

次に、ステップＳ９０２において、被写体状態推定部２０４は、ステップＳ９０１で認識された物体から、人物を遮蔽している可能性のある物体を遮蔽候補物体として選択する。この処理では、空、山、雲などの背景的なクラス、および男性、子供などの人物のサブクラスを選択肢から除外する。ここで、人物は他人物遮蔽の判定処理で用いられることから、この処理では遮蔽候補物体からは除外する。そして、バッグ、箱、ボールなど人物が所持している可能性があるクラスの物体を遮蔽候補物体として選択する。遮蔽候補物体は複数でもよいし、０個でもよい。選択する物体のクラスは予め定めておくものとする。なお、物体認識部８０２による認識対象の物体を選択の対象となるクラスの物体のみとするように構成してもよい。

次に、ステップＳ９０３において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を１つも有していない場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。一方、ステップＳ９０３の判定の結果、「なし」と判定された関節点を１つ以上有している場合はステップＳ９０４に進む。

ステップＳ９０４においては、被写体状態推定部２０４は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と、ステップＳ９０２で選択した遮蔽候補物体との距離をそれぞれ求める。そして、これらの距離の中の最小値Ｌｄが予め定められた閾値Ｌ４を下回るかどうかを判定する。この判定の結果、距離の最小値Ｌｄが閾値Ｌ４を下回った場合は、移動物遮蔽であるとしてフラグを立て、移動物遮蔽の判定処理を終了する。一方で、距離の最小値Ｌｄが閾値Ｌ４以上である場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。なお、遮蔽候補物体が０個の場合は、移動物遮蔽ではないと判定するものとする。

図９（ｂ）は、ステップＳ５０４における、固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップＳ９１１において、地形取得部８０３は、撮影部２０１が撮影している場所に関する地形情報を取得する。

次に、ステップＳ９１２において、被写体状態推定部２０４は、ステップＳ９１１で取得した地形情報に基づいて、撮影部２０１が撮影した映像に含まれる固定物を、映像中に存在する多角形の範囲として算出する。

次に、ステップＳ９１３において、被写体状態推定部２０４は、パーツ検出部２０２の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を１つも有していない場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。一方、ステップＳ９１３の判定の結果、「なし」と判定された関節点を１つ以上有している場合はステップＳ９１４に進む。

ステップＳ９１４においては、被写体状態推定部２０４は、「なし」と判定されたそれぞれの関節点の親関節点に着目し、親関節点の前にあると推測される固定物を選択する。具体的な手順としては、まず、親関節点と重なっている固定物Ｆを探す。親関節点と重なっている場合には、固定物Ｆは親関節点の後ろにあると考えられるので、地形情報に基づき、固定物Ｆよりも前にある固定物を、親関節点の前にある可能性があるものとして選択する。また、親関節点と重なっている固定物Ｆがない場合は全ての固定物を選択する。なお、距離画像カメラを用いたり三次元位置を推定したりすることによって、親関節点と固定物との前後関係を判断するようにしてもよい。

次に、ステップＳ９１５において、被写体状態推定部２０４は、「なし」と判定されたそれぞれの関節点の親関節点と、ステップＳ９１４で選択した固定物との距離をそれぞれ求める。そして、これらの距離の中の最小値Ｌｅが予め定められた閾値Ｌ５を下回るかどうかを判定する。この判定の結果、距離の最小値Ｌｅが閾値Ｌ５を下回った場合は、固定物遮蔽であるものとしてフラグを立て、固定物遮蔽の判定処理を終了する。一方で、距離の最小値Ｌｅが閾値Ｌ５以上である場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。なお、ステップＳ９１４で選択されるべき固定物がなかった場合は固定物遮蔽ではないと判定するものとする。

以上のように本実施形態では、ステップＳ５０４において、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、移動物遮蔽および固定物遮蔽の判定処理が行われる。そしてこれらのすべてが終了すると、被写体状態推定部２０４は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部２０２の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部２０４は、自己遮蔽であるものとしてフラグを立てる。

次に、本実施形態におけるステップＳ５０５で分類部２０５が被写体ごとに行う、被写体の特徴量の分類の方法について、図１０を用いて説明する。本実施形態においては、「除外」、「通常」、「関節少」、「通常外姿勢」の４つのカテゴリに被写体の特徴量を分類する。

図１０は、本実施形態において、ステップＳ５０５で分類部２０５により被写体の特徴量を分類する処理手順の一例を示すフローチャートである。
まず、ステップＳ１００１において、分類部２０５は、ステップＳ５０４で推定された被写体の状態を表すフラグに応じて処理を分岐する。まず、固定物遮蔽のフラグが立っている場合は分岐の１番を選択し、ステップＳ１００２に進む。分岐の１番に該当せず、かつ画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかの画面外への見切れを表すフラグが立っているか、もしくは移動物遮蔽のフラグが立っている場合は、分岐の２番を選択し、ステップＳ１００３に進む。分岐の１番と２番のいずれにも該当せず、かつ他人物遮蔽のフラグが立っている場合は、分岐の３番を選択し、「関節少」へと分類して処理を終了する。分岐の１番から３番までのいずれにも該当せず、かつ自己遮蔽のフラグが立っている場合は、分岐の４番を選択し、「通常外姿勢」に分類して処理を終了する。さらに、どのフラグも立っておらず、分岐の１番から４番までのいずれにも該当しない場合は、分岐の５番を選択し、「通常」に分類して処理を終了する。

ステップＳ１００２においては、分類部２０５は、ステップＳ５０６で認識部２０６が対象の性状を十分に認識できるための条件を満たしているかどうかを判定する。本実施形態においては、パーツ検出部２０２により頭頂点３０１と首点３０２との少なくとも片方が「なし」と判定されておらず、かつ「なし」と判定された関節点が４個以下である場合に条件を満たしていると判定する。この判定の結果、上記条件を満たしている場合は「関節少」に分類し、処理を終了する。一方、上記条件を満たしていない場合は「除外」に分類して処理を終了する。

なお、ここで示した対象の性状を十分に認識できるための条件は一例であって、他の条件でもよく、また、認識部２０６で認識する性状の種類によって変更してもよい。例えば、ものを掴む動作を認識したい場合は左右の手首点３０５、３０８と肘点３０４、３０７の４つが全て「なし」と判定されていないことを条件としてもよい。また、走る動作を認識したい場合は左右の足首点３１１、３１４の２つがすべて「なし」と判定されていないことを条件としてもよい。

一方、ステップＳ１００３は、画面外への見切れまたは移動物遮蔽の場合に実行される処理である。この場合は固定物遮蔽とは異なり、人物または遮蔽物の移動によって、遮蔽が解消される可能性があるため、時系列の情報を用いて最終的な分類を決定する。

ステップＳ１００３においては、追尾部８０１は、近傍の時刻の映像を用いて現在の被写体の追尾を行い、当時の結果を取得する。この処理では、現在の直前１秒間の映像データを録画サーバー１０３の記憶部２０７から取得し、現在の被写体と同一と推定される人物についてのパーツ検出の結果を取得する。なお、直前１秒間としているのは例示であって、他の時間幅の映像データでもよい。また、例えば０．５秒待ってから映像データを取得するなどして、注目する時点の被写体から見て未来の映像データから情報を取得してもよい。

次に、ステップＳ１００４において、分類部２０５は、ステップＳ１００３における追尾の結果を用いて被写体の移動速度を計算し、移動速度が小さいかどうかを判定する。この処理では、追尾の間で「なし」と判定されなかった関節点について、それぞれ画面上の移動速度を求め、その平均速度が予め定められた閾値Ｖよりも小さいかどうかによって移動速度が小さいかどうかを判定する。この判定の結果、移動速度が小さい場合は、被写体が静止しているものとみなされ、図７（ｄ）～図７（ｆ）に示すようなパターンの可能性がある。よって、「通常外姿勢」に分類して処理を終了する。一方、移動速度が小さくない場合はステップＳ１００５に進む。

次に、ステップＳ１００５において、分類部２０５は、現在の被写体において「なし」と判定された関節点のうち、ステップＳ１００３で得られた追尾結果では、「なし」と判定されていない関節点があるかどうかを判定する。この判定の結果、追尾結果において「なし」と判定されていない関節点が１つ以上ある場合はステップＳ１００６に進み、「なし」と判定されていない関節点が１つもない場合は、前述のステップＳ１００２に進む。

ステップＳ１００６においては、分類部２０５は、現在の被写体において「なし」と判定され、かつ追尾結果では「なし」と判定されていない関節点の位置を、追尾結果から推測して補完する。補完方法としては、追尾の結果から関節点の移動速度を求め、等速で現在の位置に移動してきたと推定して現在の関節点の位置を補完する。そして、「通常」に分類して処理を終了する。

次に、本実施形態におけるステップＳ５０６の処理について説明する。認識部２０６は、ステップＳ５０５で「除外」に分類されたものについては第１の実施形態と同様に無条件で正常と判定する。一方、「通常」、「関節少」、「通常外姿勢」に分類されたものついては、異常行動か否かについて、第１の実施形態と同様に局所性鋭敏型ハッシュによって正常行動からの乖離度合いを判定する。但し、本実施形態では、それぞれ異なる正常行動の統計モデルに基づいてハッシュを予め作成しておき、分類によって使い分ける。

例えば、「通常」に分類された被写体の判定に用いる統計モデルは、通常の全身が映った映像を用いて学習したものを用いる。「関節少」に分類された被写体の判定に用いる統計モデルは、正常歩行から関節を意図的に欠いて作られた映像を用いて学習したものを用いる。また、「通常外姿勢」に分類された被写体の判定に用いる統計モデルは、歩行以外の行動を演技した映像を用いて学習したものを用いる。そして、分類によって異なる統計モデルでそれぞれ異常行動か否かを判定する。

以上のように本実施形態によれば、時系列の情報および他の認識結果を用いることによって、被写体の状態に応じて適当な認識方法を取ることができ、認識精度をより向上させることができる。

（第３の実施形態）
第１および第２の実施形態では、単一のカメラ映像を用いる例を説明したが、複数のカメラを用いることができれば、より正確な認識を行うことができる。そこで本実施形態では、複数のカメラを用いた認識方法について説明する。なお、本実施形態では、第２の実施形態と異なる部分について説明し、共通部分については説明を省略する。

本実施形態の基本的な構成は図８と同様であるが、カメラ１０１が複数存在し、解析サーバー１０２には複数の映像データが入力され、それぞれの映像について第２の実施形態で示した処理を行い、異常行動の検出を行う。録画サーバー１０３は複数のカメラの映像と解析サーバーの処理結果とをそれぞれ記憶し、端末装置１０４では、利用者は複数のカメラの映像をそれぞれ閲覧することができ、いずれかのカメラで異常行動が検出されると警告がなされる。

図１１（ａ）は、階段で足元が遮蔽された人物１１０１を含む映像の例を示す模式図であり、図７（ｈ）に示す映像と同様である。第２の実施形態においては、１台のカメラの映像のみから認識する必要があったため、例えば「関節少」として処理される。

ここで、反対側にもう一つカメラが設置されている場合には、図１１（ｂ）に示すような映像が得られる。図１１（ｂ）に示す映像が得られれば、同じ人物１１０２について関節点を全て検出することができる。そこで、図１１（ｂ）に示すような映像が利用できる場合は、図１１（ａ）に示す映像からの処理よりも優先することで、検出されたパーツの少ない被写体から処理を行うことを回避することができる。

次に、具体的な処理手順について説明する。本実施形態では、認識結果に優先度を付与することによってより精度よく認識結果を得るようにしている。ステップＳ５０６では、認識部２０６は、複数のカメラ１０１の映像それぞれについて、認識結果に分類の情報を付与する。そして、全てのカメラの映像で認識処理が完了したら、認識部２０６は、それぞれのカメラの映像について、映っている被写体に同一の被写体が含まれるかどうかを検出する。同一か否かの検出には、追尾部８０１を用いて多カメラ間での追尾を行う方法、または地形取得部８０３で取得した情報に基づいて、カメラ間の視野重複の情報と映像上の被写体の位置とから判別する方法などを用いることができる。

複数のカメラ１０１の映像で同一の被写体が含まれている場合には、その被写体に対する認識結果のうち、「通常」に分類された認識結果を優先するようにする。例えば、「通常」に分類された映像の認識結果が正常だった場合、他のカメラで「関節少」または「通常外姿勢」に分類され、異常行動という認識結果が得られていても信頼度が低いとみなし、これらの異常行動という認識結果を無視するようにする。

以上のように本実施形態によれば、認識結果に優先度を付与し、「通常」に分類された映像の認識結果を優先することで、より信頼性の高い情報に基づいて認識結果を得ることができ、より精度を上げることができる。

（第４の実施形態）
第１～第３の実施形態では、被写体として人間、被写体のパーツとして人体の関節などを用いた例について説明したが、本実施形態では、人間以外の被写体で適用する例について説明する。具体的には、被写体として自動車、被写体のパーツとして自動車の部品とした例について説明する。なお、本実施形態では、第１の実施形態と異なる部分について説明し、共通部分については説明を省略する。

図１２は、本実施形態において、パーツ検出部２０２が検出する自動車のパーツを説明するための図である。
パーツ検出部２０２は、自動車１２００から、右ヘッドライト点１２０１、左ヘッドライト点１２０２、前ナンバープレート点１２０３、右前輪点１２０４、左前輪点１２０５、右後輪点１２０６、および左後輪点１２０７をパーツ点として検出する。さらに、パーツ検出部２０２は、ボンネット中央点１２０８、フロントガラス中央点１２０９、給油口点１２１０、右リアライト点１２１１、左リアライト点１２１２、後ナンバープレート点１２１３をパーツ点として検出する。以上のようにパーツ検出部２０２は、１３個のパーツを検出する。なお、右前輪点１２０４、左前輪点１２０５、右後輪点１２０６、および左後輪点１２０７は接地点とする。また、図１２に示す例では、右前輪点１２０４、右後輪点１２０６、右リアライト点１２１１、および後ナンバープレート点１２１３は自己遮蔽されている。

ここで、右ヘッドライト点１２０１と左ヘッドライト点１２０２、右前輪点１２０４と右後輪点１２０６、左前輪点１２０５と左後輪点１２０７、右リアライト点１２１１と左リアライト点１２１２がそれぞれ互いに親パーツ点と子パーツ点との関係にある。なお、親子関係は逆であってもよい。また、前ナンバープレート点１２０３は、右ヘッドライト点１２０１と左ヘッドライト点１２０２とを親パーツ点とし、後ナンバープレート点１２１３は、右リアライト点１２１１と左リアライト点１２１２とを親パーツ点とする。

被写体状態推定部２０４が行う処理では、「なし」のパーツ点が存在する場合に親パーツ点との関係を利用する。そのため、前後左右のそれぞれで両端に存在する部品を親子パーツ関係にしておいたり、ナンバープレートのような重要パーツに親パーツ点を指定したりすることが望ましい。なお、ここで挙げたパーツの定義は一例であり、トラックなど形状の異なる自動車については異なるパーツ点を定義するようにしてもよい。

以上のように本実施形態によれば、第１～第３の実施形態において、関節点をパーツ点と読み替えることによって、自動車等においても同様に被写体の分類を行って、認識の精度を高めることができる。なお、本実施形態では、被写体として自動車を例に挙げたが、映像から判別できるパーツを保持する物品、また人間以外の生物についても同様に適用することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２０２パーツ検出部、２０３特徴量算出部、２０４被写体状態推定部、２０５分類部

Claims

映像に含まれる被写体の所定のパーツを検出する検出手段と、
前記検出手段によって検出されたパーツに基づいて前記被写体の特徴量を算出する算出手段と、
前記検出手段の検出結果に基づいて、前記被写体の状態を推定する推定手段と、
前記推定手段によって推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類手段と、
を備えることを特徴とする情報処理装置。
前記被写体は人間であり、前記所定のパーツは人間の関節または部位であることを特徴とする請求項１に記載の情報処理装置。
前記被写体の所定の性状を認識する性状認識手段をさらに備え、
前記性状認識手段は、前記分類手段の分類の結果に基づいて認識の方法を変更することを特徴とする請求項１又は２に記載の情報処理装置。
前記性状認識手段は、一部のカテゴリに分類された特徴量について、認識の対象から除外することを特徴とする請求項３に記載の情報処理装置。
前記性状認識手段は、認識に用いる閾値を変更することによって認識の方法を変更することを特徴とする請求項３又は４に記載の情報処理装置。
前記性状認識手段は、認識に用いる統計モデルを変更することによって認識の方法を変更することを特徴とする請求項３又は４に記載の情報処理装置。
前記分類手段は、前記被写体が含まれる複数の映像について、それぞれ前記特徴量を分類し、
前記性状認識手段は、前記複数の映像についての前記分類手段の分類の結果に基づいて、前記被写体の性状を認識することを特徴とする請求項３～６の何れか１項に記載の情報処理装置。
前記分類手段は、時系列の異なる複数の映像を用いて前記被写体の特徴量を分類することを特徴とする請求項１～７の何れか１項に記載の情報処理装置。
前記時系列の異なる複数の映像を用いて前記被写体を追尾する追尾手段をさらに備え、
前記分類手段は、前記追尾の結果に基づいて前記被写体の特徴量を分類することを特徴とする請求項８に記載の情報処理装置。
前記映像から物体を認識する物体認識手段をさらに備え、
前記推定手段は、前記物体の認識結果に基づいて前記被写体の状態を推定することを特徴とする請求項１～９の何れか１項に記載の情報処理装置。
映像に含まれる被写体の所定のパーツを検出する検出工程と、
前記検出工程において検出されたパーツに基づいて前記被写体の特徴量を算出する算出工程と、
前記検出工程の検出結果に基づいて、前記被写体の状態を推定する推定工程と、
前記推定工程において推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類工程と、
を備えることを特徴とする情報処理方法。
映像に含まれる被写体の所定のパーツを検出する検出工程と、
前記検出工程において検出されたパーツに基づいて前記被写体の特徴量を算出する算出工程と、
前記検出工程の検出結果に基づいて、前記被写体の状態を推定する推定工程と、
前記推定工程において推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類工程と、
をコンピュータに実行させるためのプログラム。