JP7263094B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7263094B2 JP7263094B2 JP2019080893A JP2019080893A JP7263094B2 JP 7263094 B2 JP7263094 B2 JP 7263094B2 JP 2019080893 A JP2019080893 A JP 2019080893A JP 2019080893 A JP2019080893 A JP 2019080893A JP 7263094 B2 JP7263094 B2 JP 7263094B2
- Authority
- JP
- Japan
- Prior art keywords
- subject
- point
- recognition
- information processing
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Description
本発明は、特に、被写体の性状の誤認識を防止するために用いて好適な情報処理装置、情報処理方法及びプログラムに関する。
従来、映像処理の技術において、被写体のパーツを検出してその被写体の状態を認識する方法が提案されている。特許文献1には、人体の部位を認識してゴルフのスイングなどで正しい姿勢を取っているかどうかを通知する装置が開示されている。
Cao, Zhe, et al. "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields CVPR." (2017).
ZHANG, Ying, et al. Video anomaly detection based on locality sensitive hashing filters. Pattern Recognition, 2016, 59: 302-311.
Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.
被写体のパーツを検出する方法では、映像の外への見切れや他の物体による遮蔽によって、そのパーツを検出できずに結果に欠けを生じることがある。例えば、地面に座り込んで足の先端を自己遮蔽している場合と、足の先端が画面外に見切れた場合とでは、ともに足の先端のパーツを検出することができない。その結果、自己遮蔽した場合と画面外に見切れている場合とで人体パーツの位置情報が類似したものになることがあり、これらを区別するのが困難となる課題がある。
本発明は前述の問題点に鑑み、被写体の一部のパーツが検出されない場合に、被写体の状態をより精度よく区別できるようにすることを目的としている。
本発明に係る情報処理装置は、映像に含まれる被写体の所定のパーツを検出する検出手段と、前記検出手段によって検出されたパーツに基づいて前記被写体の特徴量を算出する算出手段と、前記検出手段の検出結果に基づいて、前記被写体の状態を推定する推定手段と、前記推定手段によって推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類手段と、を備えることを特徴とする。
本発明によれば、被写体の一部のパーツが検出されない場合に、被写体の状態をより精度よく区別することができる。
(第1の実施形態)
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、本実施形態における情報処理システム100の全体構成例を示す図である。
図1に示すように、本実施形態に係る情報処理システム100は、カメラ101と、解析サーバー102と、録画サーバー103と、端末装置104とを有している。カメラ101、解析サーバー102、および録画サーバー103は、カメラネットワーク105によって接続される。また、解析サーバー102、録画サーバー103、および端末装置104は、クライアントネットワーク106によって接続される。カメラネットワーク105およびクライアントネットワーク106は、例えばLANによって構成される。
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、本実施形態における情報処理システム100の全体構成例を示す図である。
図1に示すように、本実施形態に係る情報処理システム100は、カメラ101と、解析サーバー102と、録画サーバー103と、端末装置104とを有している。カメラ101、解析サーバー102、および録画サーバー103は、カメラネットワーク105によって接続される。また、解析サーバー102、録画サーバー103、および端末装置104は、クライアントネットワーク106によって接続される。カメラネットワーク105およびクライアントネットワーク106は、例えばLANによって構成される。
カメラ101は、撮像素子、レンズ及びこれらを駆動するモーター、並びにこれらを制御するMPU等によって構成される撮像装置であり、動画を撮影して電子データに変換する。カメラ101は利用者が監視を要する場所に設置され、撮影した動画(映像データ)を、カメラネットワーク105を介して送信する。
解析サーバー102は例えば計算機などの情報処理装置であり、カメラ101から送信される映像データ、または録画サーバー103に記録された映像データを解析する。この解析では、設置個所に応じて例えば顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知などの認識処理を行う。そして、解析サーバー102は解析結果を集計して、設定に従って利用者に通知する。
本実施形態においては、映像中で異常な行動をとった人物を認識する方法について説明する。ここで、異常な行動とはカメラ101の設置された場所において、通常観測される行動と大きく異なる行動である。例えば廊下においては、転倒したり、具合が悪くなって急に座り込んだり、人や物に向かって殴りかかったりする行動が異常な行動である。これら以外にも、廊下で通常観測される立位の歩行から大きく異なった行動を異常な行動とする。異常な行動の定義はカメラ101が設置された場所や状況によって異なっていてもよく、例えばスケートリンクや冬場の凍った歩道であれば、転倒が異常な行動に含まれないこともある。
録画サーバー103は、カメラ101から取得した映像データを保有するストレージに記録し、解析サーバー102、端末装置104などの要求に従って記録した映像データを送信する。また、映像データとともに、解析サーバー102の解析結果を示すメタデータなども併せて記録する。ストレージはハードディスクなどの記録メディアおよびMPU等によって構成される。記録メディアの代わりに、NASやSAN、クラウドサービスなどのネットワーク上のストレージを用いてもよい。
端末装置104はディスプレイを備えた計算機であり、カメラ101で取得した映像データを、録画サーバー103を通じて取得する。また、端末装置104は、録画サーバー103に記録された過去の映像データを取得したり、解析サーバー102の解析結果を合わせて映像データを取得したり、通知を受け取ったりする。
なお、本実施形態に係る情報処理システム100では、カメラ101、解析サーバー102、録画サーバー103、および端末装置104はそれぞれ異なる装置としているが、本発明はこのような構成に限定されるものではない。例えば解析サーバー102、および録画サーバー103を1つのサーバー装置の中のアプリケーションや仮想サーバーとして実現してもよい。また、解析サーバー102または録画サーバー103に端末装置104の機能を設けてもよいし、解析サーバー102または録画サーバー103の機能をカメラ101に搭載してもよい。
図2は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。
図2に示すように、情報処理システム100は、撮影部201、パーツ検出部202、特徴量算出部203、被写体状態推定部204、分類部205、認識部206、記憶部207、表示部208、および操作部209を有する。
図2に示すように、情報処理システム100は、撮影部201、パーツ検出部202、特徴量算出部203、被写体状態推定部204、分類部205、認識部206、記憶部207、表示部208、および操作部209を有する。
撮影部201は、図1に示すカメラ101に含まれる構成である。撮影部201は、映像を撮影して電子的な映像データに変換し、解析サーバー102および録画サーバー103に送信する。
パーツ検出部202、特徴量算出部203、被写体状態推定部204、分類部205、および認識部206は、図1に示す解析サーバー102に含まれる構成である。
パーツ検出部202は、MPU等によって構成され、撮影部201から受信した映像データから予め定められたカテゴリに属する被写体と、その被写体を構成する所定のパーツとを検出する。本実施形態においては、人物のカテゴリに属する被写体について、その関節点の映像上の位置情報を検出する。
パーツ検出部202は、MPU等によって構成され、撮影部201から受信した映像データから予め定められたカテゴリに属する被写体と、その被写体を構成する所定のパーツとを検出する。本実施形態においては、人物のカテゴリに属する被写体について、その関節点の映像上の位置情報を検出する。
特徴量算出部203は、MPU等によって構成され、パーツ検出部202で検出したパーツを用いて、被写体の特徴量を検出する。本実施形態においては、関節点の位置情報を用いて、被写体(人物)の特徴量を算出する。
被写体状態推定部204は、MPU等によって構成され、パーツ検出部202が検出した被写体について、その映像中の状態を推定する。この処理では、被写体の検出されなかったパーツとその原因とを状態として推定する。本実施形態で推定する具体的な状態については後述する。なお、原因に限らず、被写体の状態として類別できるものであれば状態とすることができ、例えば被写体の明るさや画質、また被写体が人物であるならば性別や年齢などの属性、服装、感情や健康状況などを状態とする構成も考えられる。
分類部205は、MPU等によって構成され、被写体状態推定部204が推定した被写体の状態に応じて、被写体に対応した特徴量を分類する。
認識部206は、MPU等によって構成され、特徴量算出部203で算出された特徴量を用いて、被写体の特定の性状を認識する。本実施形態においては、被写体の人物が異常な行動をとっていることを認識対象の性状とする。
認識部206は、MPU等によって構成され、特徴量算出部203で算出された特徴量を用いて、被写体の特定の性状を認識する。本実施形態においては、被写体の人物が異常な行動をとっていることを認識対象の性状とする。
記憶部207は、図1に示す録画サーバー103に含まれる構成である。記憶部207は、ハードディスクなどの記録メディアおよびMPU等によって構成され、撮影部201が撮影した映像データを記録メディアに記録する。また、解析サーバー102の解析結果を示すメタデータもあわせて記録する。
表示部208および操作部209は、図1に示す端末装置104に含まれる構成である。
表示部208は、液晶画面(ディスプレイ)とこれを制御するMPU等によって構成され、ディスプレイから利用者に情報を提示し、また、操作を行うユーザーインターフェース(UI)画面を作成してディスプレイに表示する。
表示部208は、液晶画面(ディスプレイ)とこれを制御するMPU等によって構成され、ディスプレイから利用者に情報を提示し、また、操作を行うユーザーインターフェース(UI)画面を作成してディスプレイに表示する。
操作部209は、スイッチやタッチパネル等によって構成され、利用者による操作を感知してその情報を端末装置104に入力する。なお、タッチパネルの代わりにマウスやトラックボールなど他のポインティングデバイスを用いてもよい。
本実施形態においては映像から異常行動を検出する例について説明するが、検出対象はこれに限らない。例えば映像から特定の人物、車種、テキストなどを検出したり、イベントや時間帯などを認識したりしてもよい。また、映像に付随する音声や画像のメタデータなどの情報を検出に用いてもよい。
次に、図4を用いて、本実施形態における情報処理装置の動作について説明する。
図4は、撮影部201で撮影している映像を表示部208で表示している例を示す模式図である。撮影部201であるカメラ101は、監視対象とする箇所を撮影するように設置され、表示部208にカメラで撮影された現在の映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかをチェックしている。
図4は、撮影部201で撮影している映像を表示部208で表示している例を示す模式図である。撮影部201であるカメラ101は、監視対象とする箇所を撮影するように設置され、表示部208にカメラで撮影された現在の映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかをチェックしている。
図4(a)に示す例のように特に異常がない場合は、撮影された映像がそのまま表示されるが、図4(b)に示す例のように転倒した人物402が映ると、表示部208は警報403を表示して利用者に注意を促すようになっている。
図4(c)の見切れた人物404と、図4(d)の通路で座り込んでしまった人物405とを比較すると、図4(c)は警報が不要な状況であり、図4(d)は警報を表示したい状況である。しかし、人物404と人物405との姿勢を比較すると、どちらも左右の膝と足首が欠けており、上半身の部分については似通った姿勢であるため、パーツに基づく特徴量においては差が小さくなってしまう。そのため、単に被写体の特定の性状を認識しようとすると、図4(c)の例も図4(d)の例も同じ認識結果となる可能性が高い。つまり、警報が出ない場合は図4(d)において座り込みの状態であることを見逃し、警報が出た場合は図4(c)において誤報となり、いずれにせよ誤った結果となる可能性が高い。
本実施形態においては、このような状況に対処するために分類部205が備わっており、人物404と人物405とを区別して分類することによって、認識部206での誤認識を防止し、精度の向上を図っている。
図5は、カメラ101から映像のフレーム画像を受信するたびに解析サーバー102が実行する処理手順の一例を示すフローチャートである。
まず、ステップS501において、パーツ検出部202は、受信した映像のフレーム画像を画像データとして取得する。
まず、ステップS501において、パーツ検出部202は、受信した映像のフレーム画像を画像データとして取得する。
次に、ステップS502において、パーツ検出部202は、ステップS501で受信した画像データから、被写体である人物と、その関節点の位置情報を検出する。ここで、本実施形態においてパーツ検出部202が検出する関節点の位置情報について、図3を用いて説明する。
パーツ検出部202は、人物300から以下の14個の関節点を検出する。これらは、頭頂点301、首点302、右肩点303、右肘点304、右手首点305、左肩点306、左肘点307、左手首点308、右股関節点309、右膝点310、右足首点311、左股関節点312、左膝点313、左足首点314である。頭頂点301は正確には人体の関節ではないが、ここでは関節点として総称することにする。また、特定の2つの関節点には接続の関係があり、身体の胴体に近い方を親関節点、遠い方を子関節点と呼ぶことにする。
図3においては、関節の接続を親関節点から子関節点への矢印として表示している。具体的な接続は以下の11組である。まず、首点302と頭頂点301、首点302と右肩点303、右肩点303と右肘点304、右肘点304と右手首点305、首点302と左肩点306、左肩点306と左肘点307、左肘点307と左手首点308である。さらに、右股関節点309と右膝点310、右膝点310と右足首点311、左股関節点312と左膝点313、左膝点313と左足首点314である。それぞれ先に挙げた方が親関節点である。
パーツ検出部202は、例えば非特許文献1に示された深層ニューラルネットワークを用いた手法などの公知の手法を用いて、関節点の検出を行う。一人の被写体から関節点が全て検出されるとは限らず、映像中に存在しない関節については「なし」という情報が与えられる。ただし、全ての関節点が「なし」であるような被写体は検出結果には含まないものとする。
ここで、ステップS502でパーツ検出部202が検出したN名の人物をそれぞれP1、P2、・・・PNとする。そして、人物Piについてそれぞれ、関節点を頭頂点301から左足首点314まで図3の番号順に並べたものをJi1、Ji2、・・・JiMとする。ここではM=14である。
なお、本実施形態においては、パーツ検出部202は映像中の被写体の検出と、そのパーツである関節の検出との両方を行うが、まず被写体を物体認識などの手法で検出してから、それぞれの被写体についてパーツの検出を行うような構成でもよい。また、本実施形態では関節点を人体のパーツとして検出しているが、検出対象のパーツはこれに限るものではない。例えば両手の指の関節などを検出してもよいし、目、鼻、口などの器官を検出してもよい。また、関節という点ではなく、手のひら、足の裏、胴体、頭部、臀部などを面的に検出してもよいし、上腕、下腕、太腿、脛などを棒状の部位として検出しても良い。さらに、制服のロゴ、帽子のつば、白杖の先端など、人物の衣類や付属物、所持品などを人体のパーツとみなして検出してもよい。
次に、ステップS503において、特徴量算出部203は、人物P1、P2、・・・PNのそれぞれについて、前述した方法で特徴量を算出する。本実施形態においては、特徴量算出部203が算出する人物300の特徴量は以下のように算出する。まず、検出された全ての関節点の画像中の座標から重心位置を算出し、検出された全ての関節について、重心からの相対座標をそれぞれ求める。そして頭頂点301から左足首点314まで順番に、x値とy値とを交互に並べて28次元実数値ベクトルを構成し、これを人物300の特徴量とする。ただし、「なし」である関節点については、x値とy値をともに0とする。
なお、この特徴量の形式と算出方法はあくまで一例であり、特徴量の算出方法はこの方法に限定されない。例えばパーツ間の距離や結ぶ線分の傾き、パーツの面積、パーツ検出部202の検出スコアなどを用いたり、正規化を行ったりして特徴量を算出してもよい。さらに、ここではパーツの推定結果を用いて算出した特徴量の例について説明したが、他に前述の深層ニューラルネットワークによるパーツの推定を行う際に得られる深層ニューラルネットワークの中間層を特徴量とすることもできる。その中間層を、例えば最大値などに基づいて正規化するなどの処理を行って算出した値を特徴量にするなどしてもよい。
次に、ステップS504において、被写体状態推定部204は、被写体の状態を推定する。本実施形態で推定を行う被写体の状態は、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、自己遮蔽の6つのフラグで示され、これらは独立したフラグとして、被写体ごとに付与される。状態の推定方法の詳細については図6を用いて後述する。
次に、ステップS505において、分類部205は、ステップS504で推定した被写体の状態に応じて、被写体の特徴量を分類する。本実施形態では、被写体の性状を認識するための基準が異なる複数のカテゴリに分類する。まず、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかのフラグが立っている被写体は、「除外」のカテゴリに分類する。一方で、「除外」に分類されないもののうち、他人物遮蔽のフラグが立っている被写体は「優先度低」のカテゴリに分類し、自己遮蔽のフラグのみ立っているものは「優先度高」のカテゴリに分類する。また、どのフラグも立っていないものは「通常」のカテゴリに分類する。
次に、ステップS506において、認識部206は、それぞれの被写体の特徴量について、性状の認識、ここでは異常行動を取っていることの認識を行う。本実施形態においては、一部のカテゴリ(この場合は「除外」)を除き、異常行動の認識には、例えば非特許文献2に示すような、局所性鋭敏型ハッシュ(LSH)によって正常行動からの乖離度合いを判定するなどの公知の手法を用いる。LSHではハッシュ距離に基づくスコアを求め、それが閾値Tを上回った場合に異常、そうでない場合は正常であると判定するが、ここでステップS505における分類に基づいて認識の方法を変えるようにする。なお、ベイズ判定やニューラルネットワークなど他の方法を用いて異常行動の認識を行っても良い。
まず、「除外」に分類されたものについては無条件で正常と判定する。これは、見切れによって情報が欠けた特徴量については、結果が不安定となりやすく、誤報を生じやすいためである。その他の分類についてはLSHを用いて判定を行うが、「通常」は閾値Tをそのまま用いるのに対し、「優先度低」の場合はTより大きい閾値T1、「優先度高」の場合はTより小さい閾値T2を用いて判定を行う。なお、閾値T,T1,T2については、LSHの学習時によってあらかじめ好適な値を設定しておく。
他人物遮蔽の場合は、見切れと同様に結果が不安定となりやすく誤報が発生しやすい。また、他の人物が近くにいるため、実際に異常行動が発生していたとしてもすぐに救助が期待できる。したがって、他人物遮蔽のフラグが立っている場合は「優先度低」として警報を出しにくいように判定を行う。一方で、自己遮蔽については、異常な姿勢を実際に取っている可能性が高いため、自己遮蔽のフラグのみが立っている場合は「優先度高」として警報を出しやすいようにして判定を行う。
次に、ステップS507において、端末装置104は、解析サーバー102の解析結果(認識部206の認識結果)とともに映像データを取得する。そして、表示部208は、ステップS506における認識の結果に応じた表示を行う。異常行動が認識された被写体が一つでもあった場合は、映像中に警報表示を行い、利用者に注意を促すようにする。なお、そうでない場合は特に警告表示を行わないようにする。この処理では、正常な被写体の表示を妨げるものではなく、例えば検出した人物を外接矩形で強調したり、パーツの表示を行ったりしてもよいし、ステップS505での分類の結果を人物のそばに表示してもよい。
以上のようにして、被写体のパーツの状態に応じて好適な処理を行うことによって、誤報を抑えて高い精度で被写体の性状を認識することができる。
次に、ステップS504における被写体の状態を推定する方法の詳細について説明する。前述したように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽については、それぞれ独立のフローに従って判定を行う。この判定の順序はどのようにしてもよいし、並列に処理してもよい。それぞれの被写体について、これらのフローに従って一度ずつ判定を行う。
図6(a)は、ステップS504における、画面下見切れを判定するための処理手順の一例を示すフローチャートである。以下、図3に示したパーツを例に説明する。
まず、ステップS601において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右足首点311と左足首点314とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合には画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。一方、どちらも「なし」である場合はステップS602に進む。
まず、ステップS601において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右足首点311と左足首点314とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合には画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。一方、どちらも「なし」である場合はステップS602に進む。
次に、ステップS602においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右膝点310と左膝点313とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップS603に進む。そして、ステップS603において、被写体状態推定部204は、右膝点310と左膝点313とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部202の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。一方、ステップS602の判定の結果、どちらも「なし」である場合はステップS604に進む。
ステップS604においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の右股関節点309と左股関節点312とが共に「なし」であるかどうかを判定する。この判定の結果、少なくとも一方が「なし」でない場合にはステップS605に進む。そして、ステップS605において、被写体状態推定部204は、右股関節点309と左股関節点312とのうち、画面の下辺に近い方を代表点として選択する。このとき、パーツ検出部202の検出結果において片方が「なし」である場合には、そうでない方を代表点とする。
一方、ステップS604の判定の結果、どちらも「なし」である場合はステップS606に進む。そして、ステップS606において、被写体状態推定部204は、パーツ検出部202の検出結果の中の「なし」ではない関節点のうち、最も下辺に近いものを代表点として選択する。
ステップS607においては、被写体状態推定部204は、代表点と画面の下辺との距離Laを求め、距離Laが予め定められた閾値L1を下回るかどうかを判定する。この判定の結果、距離Laが閾値L1を下回った場合は、画面下見切れであるものとしてフラグを立て、画面下見切れの判定処理を終了する。一方で、距離Laが閾値L1以上である場合は、画面下見切れではないものとしてフラグを立てずに画面下見切れの判定処理を終了する。
図6(b)は、ステップS504における、画面上見切れを判定するための処理手順の一例を示すフローチャートである。
まず、ステップS611において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の頭頂点301が「なし」であるかどうかを判定する。この判定の結果、被写体の頭頂点301が「なし」でない場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。一方、被写体の頭頂点301が「なし」である場合はステップS612に進む。
まず、ステップS611において、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の頭頂点301が「なし」であるかどうかを判定する。この判定の結果、被写体の頭頂点301が「なし」でない場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。一方、被写体の頭頂点301が「なし」である場合はステップS612に進む。
ステップS612においては、被写体状態推定部204は、パーツ検出部202の検出結果において、被写体の首点302、右肩点303、左肩点306が全て「なし」であるかどうかを判定する。この判定の結果、少なくとも1つが「なし」でない場合にはステップS613に進む。そして、ステップS613において、被写体状態推定部204は、首点302、右肩点303、左肩点306のうち、「なし」でないものの中で画面の上辺に最も近いものを代表点として選択する。
一方、ステップS612の判定の結果、首点302、右肩点303、左肩点306が全て「なし」である場合はステップS614に進む。そして、ステップS614において、被写体状態推定部204は、パーツ検出部202の検出結果の中の「なし」ではない関節点のうち、最も上辺に近いものを代表点として選択する。
ステップS615においては、代表点と画面の上辺との距離Lbを求め、距離Lbが予め定められた閾値L2を下回るかどうかを判定する。この判定の結果、距離Lbが閾値L2を下回った場合は、画面上見切れであるものとしてフラグを立て、画面上見切れの判定処理を終了する。一方で、距離Lbが閾値L2以上である場合は、画面上見切れではないものとしてフラグを立てずに画面上見切れの判定処理を終了する。
図6(c)は、ステップS504における、画面右見切れを判定するための処理手順の一例を示すフローチャートである。
まず、ステップS621において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。一方、ステップS621の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS622に進む。
まず、ステップS621において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。一方、ステップS621の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS622に進む。
そして、ステップS622において、被写体状態推定部204は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と右辺との距離をそれぞれ求める。そして、これらの距離の中の最小値Lcが予め定められた閾値L3を下回るかどうかを判定する。この判定の結果、距離の最小値Lcが閾値L3を下回った場合は、画面右見切れであるものとしてフラグを立て、画面右見切れの判定処理を終了する。一方で、距離の最小値Lcが閾値L3以上である場合は、画面右見切れではないものとしてフラグを立てずに画面右見切れの判定処理を終了する。
なお、「なし」と判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は、右辺との距離を算出することができない。この場合はその関節点を除外して最小値Lcを求める。また、全て除外されて最小値Lcを求めることができない場合は、画面右見切れではないと判定するものとする。
また、画面左見切れの判定処理も、図6(c)に示す処理手順と同様に行うものとする。つまり、親関節点と左辺との距離をそれぞれ求め、これらの距離の中の最小値が閾値を下回るかどうかを判定することによって、同様に画面左見切れか否かを判定する。
図6(d)は、ステップS504における、他人物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップS631において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。一方、ステップS631の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS632に進む。
まず、ステップS631において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。一方、ステップS631の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS632に進む。
ステップS632においては、被写体状態推定部204は、それぞれの「なし」と判定された関節点の親関節点に着目する。そして、その親関節点を中心とする半径Rの円をそれぞれ描いた場合に、いずれかの円内に、いずれかの異なる被写体の関節点が含まれるかどうかを判定する。この判定の結果、一つでも異なる被写体の関節点が含まれている場合は、他人物遮蔽であるものとしてフラグを立て、他人物遮蔽の判定処理を終了する。一方で、いずれの円内にも異なる被写体の関節点が全く含まれていない場合は、他人物遮蔽ではないものとしてフラグを立てずに、他人物遮蔽の判定処理を終了する。
なお、「なし」判定された関節点が親関節点を持たなかったり、親関節点も「なし」と判定されていたりした場合は半径Rの円を描くことができない。この場合はその関節点を除外して円内に異なる被写体の関節点が含まれるか否かを判定するようにする。また、全て除外されて半径Rの円を1つも描くことができない場合は、他人物遮蔽ではないと判定するものとする。
以上のように、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、および他人物遮蔽の判定処理がすべて終了すると、被写体状態推定部204は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部202の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部204は、自己遮蔽であるものとしてフラグを立てる。
以上のように本実施形態によれば、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽および自己遮蔽に関する被写体の状態を推定し、被写体の状態に応じて被写体の特徴量を分類するようにしている。これにより、警報等を出すべきシーンをより適切に認識することができる。
本実施形態では、関節点の位置から推定される特徴量と、被写体の画面位置または遮蔽から求められる被写体の状態とをそれぞれ求め、それらを元に被写体の特徴量を分類する方法について説明した。一方で、関節点の位置から推定される特徴量に被写体の状態を統合した統合特徴量を求め、統合特徴量から分類するようにしてもよい。また、特徴量は、前述したように、深層ニューラルネットワークの中間層から得られる特徴量であってもよい。そのほか、関節点の位置から推定される特徴量だけでは判定するのが困難な場合には、被写体の動作など分類に役立つそれ以外の被写体の状態を示す特徴量を用いてもよく、上記の内容に限ったものではない。
(第2の実施形態)
第1の実施形態では、単一のフレーム画像から得られる被写体のパーツの情報を用いて被写体の状態を推定する方法を説明した。しかしながら、単一のフレーム画像だけでは被写体の状態を区別することが難しい状況もあり、異常行動の見逃しが増える可能性がある。また、パーツの位置だけでは推測できないような被写体の状態については、他の情報との組み合わせで取得することが望ましい。そこで本実施形態では、時系列的な映像の情報と、物体認識と、地形の情報とを用いて、被写体の状態を推定する方法を説明する。なお、本実施形態では、第1の実施形態と異なる部分についてのみ説明し、共通部分については説明を省略する。
第1の実施形態では、単一のフレーム画像から得られる被写体のパーツの情報を用いて被写体の状態を推定する方法を説明した。しかしながら、単一のフレーム画像だけでは被写体の状態を区別することが難しい状況もあり、異常行動の見逃しが増える可能性がある。また、パーツの位置だけでは推測できないような被写体の状態については、他の情報との組み合わせで取得することが望ましい。そこで本実施形態では、時系列的な映像の情報と、物体認識と、地形の情報とを用いて、被写体の状態を推定する方法を説明する。なお、本実施形態では、第1の実施形態と異なる部分についてのみ説明し、共通部分については説明を省略する。
図7は、表示部208に表示される被写体の状態をより詳細に説明するための図である。図7(a)~図7(c)に示す例は、画面下から画面奥に向かって歩行する人物の映像であり、図7(d)~図7(f)は、画面の手前で座り込む人の映像である。図7(a)の人物701、図7(b)の人物702、図7(c)の人物703はいずれも同一人物であり、画面下から画面奥に向かって歩行している。また、図7(d)の人物704、図7(e)の人物705、図7(c)の人物706はいずれも同一人物であり、いずれも座り込んでいる。
この2つの例では、位置関係が類似していることから、関節点の位置も類似した関係になることがある。例えば図7(b)の人物702と図7(e)の人物705とで関節点を比較すると、同じように足や膝の関節点は不検出であり、かつ位置の違いはぶれの範囲に収まってしまうことがありうる。関節点を用いた特徴量のみを用いて分類すると、この2つの違いを識別することは困難である。
また、場合によっては、図7(g)及び図7(h)に示すように、手荷物707または階段708によって足および膝が隠れることもありうる。これらの場合には、図7(b)の人物702および図7(e)の人物705と類似した関節点の検出状態や位置関係になってしまうことがありうる。映像上の大きさで正規化した特徴量を用いると、これらの違いも識別が困難になる。
本実施形態では、追加的な情報を用いることによって、このように区別が難しい状況であってもより精度よく人物の状態を区別して分類する。例えば、前後のフレーム画像から時系列的な情報を用いることによって、図7(a)~図7(c)の例では人物は移動しているのが認識でき、図7(d)~図7(f)の例では、人物は座り込んで動かないことが認識できる。また、物体認識によって物体を検出することによって、図7(d)~図7(f)の例では、座り込んで動かない人物を認識でき、さらに図7(g)または図7(h)の例ように、手荷物や周辺の地形によって遮蔽された人物を区別する。
図8は、本実施形態に係る情報処理システムにおける機能構成例を示すブロック図である。図2に示す機能構成と比較すると、被写体状態推定部204が物体認識部802および地形取得部803を有し、さらに、分類部205が追尾部801を有している。なお、追尾部801、物体認識部802および地形取得部803は、被写体状態推定部204または分類部205に含まれるものとしているが、必ずしもこのような構成である必要はない。例えばカメラ101や新たなサーバー機の上に追加の機能ブロックを搭載して、結果を通信するような構成にすることもできる。
追尾部801は、MPU等によって構成され、撮影部201から受信した映像データおよびパーツ検出部202で検出したパーツの情報に基づき、例えばテンプレートマッチングのような公知の手法を用いて、被写体の追尾を行う。
物体認識部802は、MPU等によって構成され、撮影部201から受信した映像データから、例えば非特許文献3に示したような一般物体認識の手法を用いて、様々な物体を認識する。
地形取得部803は、MPU等によって構成され、撮影部201が撮影している場所の地形情報を取得する。ここで地形情報とは、壁、階段などの位置、電柱や看板など固定された物体の位置、および撮影部201のカメラの位置を含み、撮影された場所の位置関係を表す情報である。地形情報は、解析サーバー102に予め保持しておいたり、建物の設計図等から三次元情報として生成したり、映像データから柱や階段などを検出することで生成したりすることができ、予め用意しておくものとする。
地形取得部803は、MPU等によって構成され、撮影部201が撮影している場所の地形情報を取得する。ここで地形情報とは、壁、階段などの位置、電柱や看板など固定された物体の位置、および撮影部201のカメラの位置を含み、撮影された場所の位置関係を表す情報である。地形情報は、解析サーバー102に予め保持しておいたり、建物の設計図等から三次元情報として生成したり、映像データから柱や階段などを検出することで生成したりすることができ、予め用意しておくものとする。
本実施形態の基本的な処理の流れは、図5と同様であるが、本実施形態では、被写体状態推定部204は、第1の実施形態で説明した6種類に加え、移動物遮蔽、固定物遮蔽の2つを同様に独立したフラグとして、被写体ごとに付与する。また、分類部205による分類方法も第1の実施形態と異なっている。まず、図9を用いて、本実施形態における被写体の状態を推定する方法を説明する。
図9(a)は、ステップS504における、移動物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップS901において、物体認識部802は、撮影部201から受信した映像データから物体を認識する。物体認識部802は、映像中の矩形と物体のクラスとのペアを、認識された物体の数だけ算出する。
まず、ステップS901において、物体認識部802は、撮影部201から受信した映像データから物体を認識する。物体認識部802は、映像中の矩形と物体のクラスとのペアを、認識された物体の数だけ算出する。
次に、ステップS902において、被写体状態推定部204は、ステップS901で認識された物体から、人物を遮蔽している可能性のある物体を遮蔽候補物体として選択する。この処理では、空、山、雲などの背景的なクラス、および男性、子供などの人物のサブクラスを選択肢から除外する。ここで、人物は他人物遮蔽の判定処理で用いられることから、この処理では遮蔽候補物体からは除外する。そして、バッグ、箱、ボールなど人物が所持している可能性があるクラスの物体を遮蔽候補物体として選択する。遮蔽候補物体は複数でもよいし、0個でもよい。選択する物体のクラスは予め定めておくものとする。なお、物体認識部802による認識対象の物体を選択の対象となるクラスの物体のみとするように構成してもよい。
次に、ステップS903において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。一方、ステップS903の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS904に進む。
ステップS904においては、被写体状態推定部204は、「なし」と判定された関節点のすべてについて、その関節点の親関節点と、ステップS902で選択した遮蔽候補物体との距離をそれぞれ求める。そして、これらの距離の中の最小値Ldが予め定められた閾値L4を下回るかどうかを判定する。この判定の結果、距離の最小値Ldが閾値L4を下回った場合は、移動物遮蔽であるとしてフラグを立て、移動物遮蔽の判定処理を終了する。一方で、距離の最小値Ldが閾値L4以上である場合は、移動物遮蔽ではないものとしてフラグを立てずに移動物遮蔽の判定処理を終了する。なお、遮蔽候補物体が0個の場合は、移動物遮蔽ではないと判定するものとする。
図9(b)は、ステップS504における、固定物遮蔽を判定するための処理手順の一例を示すフローチャートである。
まず、ステップS911において、地形取得部803は、撮影部201が撮影している場所に関する地形情報を取得する。
まず、ステップS911において、地形取得部803は、撮影部201が撮影している場所に関する地形情報を取得する。
次に、ステップS912において、被写体状態推定部204は、ステップS911で取得した地形情報に基づいて、撮影部201が撮影した映像に含まれる固定物を、映像中に存在する多角形の範囲として算出する。
次に、ステップS913において、被写体状態推定部204は、パーツ検出部202の検出結果において、「なし」と判定された関節点を有しているかどうかを判定する。この判定の結果、「なし」と判定された関節点を1つも有していない場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。一方、ステップS913の判定の結果、「なし」と判定された関節点を1つ以上有している場合はステップS914に進む。
ステップS914においては、被写体状態推定部204は、「なし」と判定されたそれぞれの関節点の親関節点に着目し、親関節点の前にあると推測される固定物を選択する。具体的な手順としては、まず、親関節点と重なっている固定物Fを探す。親関節点と重なっている場合には、固定物Fは親関節点の後ろにあると考えられるので、地形情報に基づき、固定物Fよりも前にある固定物を、親関節点の前にある可能性があるものとして選択する。また、親関節点と重なっている固定物Fがない場合は全ての固定物を選択する。なお、距離画像カメラを用いたり三次元位置を推定したりすることによって、親関節点と固定物との前後関係を判断するようにしてもよい。
次に、ステップS915において、被写体状態推定部204は、「なし」と判定されたそれぞれの関節点の親関節点と、ステップS914で選択した固定物との距離をそれぞれ求める。そして、これらの距離の中の最小値Leが予め定められた閾値L5を下回るかどうかを判定する。この判定の結果、距離の最小値Leが閾値L5を下回った場合は、固定物遮蔽であるものとしてフラグを立て、固定物遮蔽の判定処理を終了する。一方で、距離の最小値Leが閾値L5以上である場合は、固定物遮蔽ではないものとしてフラグを立てずに固定物遮蔽の判定処理を終了する。なお、ステップS914で選択されるべき固定物がなかった場合は固定物遮蔽ではないと判定するものとする。
以上のように本実施形態では、ステップS504において、画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れ、他人物遮蔽、移動物遮蔽および固定物遮蔽の判定処理が行われる。そしてこれらのすべてが終了すると、被写体状態推定部204は、続いて自己遮蔽の判定処理を行う。自己遮蔽の判定処理では、これらの判定処理でいずれのフラグも立たず、かつパーツ検出部202の検出結果で「なし」と判定された関節点を有している場合に、被写体状態推定部204は、自己遮蔽であるものとしてフラグを立てる。
次に、本実施形態におけるステップS505で分類部205が被写体ごとに行う、被写体の特徴量の分類の方法について、図10を用いて説明する。本実施形態においては、「除外」、「通常」、「関節少」、「通常外姿勢」の4つのカテゴリに被写体の特徴量を分類する。
図10は、本実施形態において、ステップS505で分類部205により被写体の特徴量を分類する処理手順の一例を示すフローチャートである。
まず、ステップS1001において、分類部205は、ステップS504で推定された被写体の状態を表すフラグに応じて処理を分岐する。まず、固定物遮蔽のフラグが立っている場合は分岐の1番を選択し、ステップS1002に進む。分岐の1番に該当せず、かつ画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかの画面外への見切れを表すフラグが立っているか、もしくは移動物遮蔽のフラグが立っている場合は、分岐の2番を選択し、ステップS1003に進む。分岐の1番と2番のいずれにも該当せず、かつ他人物遮蔽のフラグが立っている場合は、分岐の3番を選択し、「関節少」へと分類して処理を終了する。分岐の1番から3番までのいずれにも該当せず、かつ自己遮蔽のフラグが立っている場合は、分岐の4番を選択し、「通常外姿勢」に分類して処理を終了する。さらに、どのフラグも立っておらず、分岐の1番から4番までのいずれにも該当しない場合は、分岐の5番を選択し、「通常」に分類して処理を終了する。
まず、ステップS1001において、分類部205は、ステップS504で推定された被写体の状態を表すフラグに応じて処理を分岐する。まず、固定物遮蔽のフラグが立っている場合は分岐の1番を選択し、ステップS1002に進む。分岐の1番に該当せず、かつ画面下見切れ、画面左見切れ、画面右見切れ、画面上見切れのいずれかの画面外への見切れを表すフラグが立っているか、もしくは移動物遮蔽のフラグが立っている場合は、分岐の2番を選択し、ステップS1003に進む。分岐の1番と2番のいずれにも該当せず、かつ他人物遮蔽のフラグが立っている場合は、分岐の3番を選択し、「関節少」へと分類して処理を終了する。分岐の1番から3番までのいずれにも該当せず、かつ自己遮蔽のフラグが立っている場合は、分岐の4番を選択し、「通常外姿勢」に分類して処理を終了する。さらに、どのフラグも立っておらず、分岐の1番から4番までのいずれにも該当しない場合は、分岐の5番を選択し、「通常」に分類して処理を終了する。
ステップS1002においては、分類部205は、ステップS506で認識部206が対象の性状を十分に認識できるための条件を満たしているかどうかを判定する。本実施形態においては、パーツ検出部202により頭頂点301と首点302との少なくとも片方が「なし」と判定されておらず、かつ「なし」と判定された関節点が4個以下である場合に条件を満たしていると判定する。この判定の結果、上記条件を満たしている場合は「関節少」に分類し、処理を終了する。一方、上記条件を満たしていない場合は「除外」に分類して処理を終了する。
なお、ここで示した対象の性状を十分に認識できるための条件は一例であって、他の条件でもよく、また、認識部206で認識する性状の種類によって変更してもよい。例えば、ものを掴む動作を認識したい場合は左右の手首点305、308と肘点304、307の4つが全て「なし」と判定されていないことを条件としてもよい。また、走る動作を認識したい場合は左右の足首点311、314の2つがすべて「なし」と判定されていないことを条件としてもよい。
一方、ステップS1003は、画面外への見切れまたは移動物遮蔽の場合に実行される処理である。この場合は固定物遮蔽とは異なり、人物または遮蔽物の移動によって、遮蔽が解消される可能性があるため、時系列の情報を用いて最終的な分類を決定する。
ステップS1003においては、追尾部801は、近傍の時刻の映像を用いて現在の被写体の追尾を行い、当時の結果を取得する。この処理では、現在の直前1秒間の映像データを録画サーバー103の記憶部207から取得し、現在の被写体と同一と推定される人物についてのパーツ検出の結果を取得する。なお、直前1秒間としているのは例示であって、他の時間幅の映像データでもよい。また、例えば0.5秒待ってから映像データを取得するなどして、注目する時点の被写体から見て未来の映像データから情報を取得してもよい。
次に、ステップS1004において、分類部205は、ステップS1003における追尾の結果を用いて被写体の移動速度を計算し、移動速度が小さいかどうかを判定する。この処理では、追尾の間で「なし」と判定されなかった関節点について、それぞれ画面上の移動速度を求め、その平均速度が予め定められた閾値Vよりも小さいかどうかによって移動速度が小さいかどうかを判定する。この判定の結果、移動速度が小さい場合は、被写体が静止しているものとみなされ、図7(d)~図7(f)に示すようなパターンの可能性がある。よって、「通常外姿勢」に分類して処理を終了する。一方、移動速度が小さくない場合はステップS1005に進む。
次に、ステップS1005において、分類部205は、現在の被写体において「なし」と判定された関節点のうち、ステップS1003で得られた追尾結果では、「なし」と判定されていない関節点があるかどうかを判定する。この判定の結果、追尾結果において「なし」と判定されていない関節点が1つ以上ある場合はステップS1006に進み、「なし」と判定されていない関節点が1つもない場合は、前述のステップS1002に進む。
ステップS1006においては、分類部205は、現在の被写体において「なし」と判定され、かつ追尾結果では「なし」と判定されていない関節点の位置を、追尾結果から推測して補完する。補完方法としては、追尾の結果から関節点の移動速度を求め、等速で現在の位置に移動してきたと推定して現在の関節点の位置を補完する。そして、「通常」に分類して処理を終了する。
次に、本実施形態におけるステップS506の処理について説明する。認識部206は、ステップS505で「除外」に分類されたものについては第1の実施形態と同様に無条件で正常と判定する。一方、「通常」、「関節少」、「通常外姿勢」に分類されたものついては、異常行動か否かについて、第1の実施形態と同様に局所性鋭敏型ハッシュによって正常行動からの乖離度合いを判定する。但し、本実施形態では、それぞれ異なる正常行動の統計モデルに基づいてハッシュを予め作成しておき、分類によって使い分ける。
例えば、「通常」に分類された被写体の判定に用いる統計モデルは、通常の全身が映った映像を用いて学習したものを用いる。「関節少」に分類された被写体の判定に用いる統計モデルは、正常歩行から関節を意図的に欠いて作られた映像を用いて学習したものを用いる。また、「通常外姿勢」に分類された被写体の判定に用いる統計モデルは、歩行以外の行動を演技した映像を用いて学習したものを用いる。そして、分類によって異なる統計モデルでそれぞれ異常行動か否かを判定する。
以上のように本実施形態によれば、時系列の情報および他の認識結果を用いることによって、被写体の状態に応じて適当な認識方法を取ることができ、認識精度をより向上させることができる。
(第3の実施形態)
第1および第2の実施形態では、単一のカメラ映像を用いる例を説明したが、複数のカメラを用いることができれば、より正確な認識を行うことができる。そこで本実施形態では、複数のカメラを用いた認識方法について説明する。なお、本実施形態では、第2の実施形態と異なる部分について説明し、共通部分については説明を省略する。
第1および第2の実施形態では、単一のカメラ映像を用いる例を説明したが、複数のカメラを用いることができれば、より正確な認識を行うことができる。そこで本実施形態では、複数のカメラを用いた認識方法について説明する。なお、本実施形態では、第2の実施形態と異なる部分について説明し、共通部分については説明を省略する。
本実施形態の基本的な構成は図8と同様であるが、カメラ101が複数存在し、解析サーバー102には複数の映像データが入力され、それぞれの映像について第2の実施形態で示した処理を行い、異常行動の検出を行う。録画サーバー103は複数のカメラの映像と解析サーバーの処理結果とをそれぞれ記憶し、端末装置104では、利用者は複数のカメラの映像をそれぞれ閲覧することができ、いずれかのカメラで異常行動が検出されると警告がなされる。
図11(a)は、階段で足元が遮蔽された人物1101を含む映像の例を示す模式図であり、図7(h)に示す映像と同様である。第2の実施形態においては、1台のカメラの映像のみから認識する必要があったため、例えば「関節少」として処理される。
ここで、反対側にもう一つカメラが設置されている場合には、図11(b)に示すような映像が得られる。図11(b)に示す映像が得られれば、同じ人物1102について関節点を全て検出することができる。そこで、図11(b)に示すような映像が利用できる場合は、図11(a)に示す映像からの処理よりも優先することで、検出されたパーツの少ない被写体から処理を行うことを回避することができる。
次に、具体的な処理手順について説明する。本実施形態では、認識結果に優先度を付与することによってより精度よく認識結果を得るようにしている。ステップS506では、認識部206は、複数のカメラ101の映像それぞれについて、認識結果に分類の情報を付与する。そして、全てのカメラの映像で認識処理が完了したら、認識部206は、それぞれのカメラの映像について、映っている被写体に同一の被写体が含まれるかどうかを検出する。同一か否かの検出には、追尾部801を用いて多カメラ間での追尾を行う方法、または地形取得部803で取得した情報に基づいて、カメラ間の視野重複の情報と映像上の被写体の位置とから判別する方法などを用いることができる。
複数のカメラ101の映像で同一の被写体が含まれている場合には、その被写体に対する認識結果のうち、「通常」に分類された認識結果を優先するようにする。例えば、「通常」に分類された映像の認識結果が正常だった場合、他のカメラで「関節少」または「通常外姿勢」に分類され、異常行動という認識結果が得られていても信頼度が低いとみなし、これらの異常行動という認識結果を無視するようにする。
以上のように本実施形態によれば、認識結果に優先度を付与し、「通常」に分類された映像の認識結果を優先することで、より信頼性の高い情報に基づいて認識結果を得ることができ、より精度を上げることができる。
(第4の実施形態)
第1~第3の実施形態では、被写体として人間、被写体のパーツとして人体の関節などを用いた例について説明したが、本実施形態では、人間以外の被写体で適用する例について説明する。具体的には、被写体として自動車、被写体のパーツとして自動車の部品とした例について説明する。なお、本実施形態では、第1の実施形態と異なる部分について説明し、共通部分については説明を省略する。
第1~第3の実施形態では、被写体として人間、被写体のパーツとして人体の関節などを用いた例について説明したが、本実施形態では、人間以外の被写体で適用する例について説明する。具体的には、被写体として自動車、被写体のパーツとして自動車の部品とした例について説明する。なお、本実施形態では、第1の実施形態と異なる部分について説明し、共通部分については説明を省略する。
図12は、本実施形態において、パーツ検出部202が検出する自動車のパーツを説明するための図である。
パーツ検出部202は、自動車1200から、右ヘッドライト点1201、左ヘッドライト点1202、前ナンバープレート点1203、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207をパーツ点として検出する。さらに、パーツ検出部202は、ボンネット中央点1208、フロントガラス中央点1209、給油口点1210、右リアライト点1211、左リアライト点1212、後ナンバープレート点1213をパーツ点として検出する。以上のようにパーツ検出部202は、13個のパーツを検出する。なお、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207は接地点とする。また、図12に示す例では、右前輪点1204、右後輪点1206、右リアライト点1211、および後ナンバープレート点1213は自己遮蔽されている。
パーツ検出部202は、自動車1200から、右ヘッドライト点1201、左ヘッドライト点1202、前ナンバープレート点1203、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207をパーツ点として検出する。さらに、パーツ検出部202は、ボンネット中央点1208、フロントガラス中央点1209、給油口点1210、右リアライト点1211、左リアライト点1212、後ナンバープレート点1213をパーツ点として検出する。以上のようにパーツ検出部202は、13個のパーツを検出する。なお、右前輪点1204、左前輪点1205、右後輪点1206、および左後輪点1207は接地点とする。また、図12に示す例では、右前輪点1204、右後輪点1206、右リアライト点1211、および後ナンバープレート点1213は自己遮蔽されている。
ここで、右ヘッドライト点1201と左ヘッドライト点1202、右前輪点1204と右後輪点1206、左前輪点1205と左後輪点1207、右リアライト点1211と左リアライト点1212がそれぞれ互いに親パーツ点と子パーツ点との関係にある。なお、親子関係は逆であってもよい。また、前ナンバープレート点1203は、右ヘッドライト点1201と左ヘッドライト点1202とを親パーツ点とし、後ナンバープレート点1213は、右リアライト点1211と左リアライト点1212とを親パーツ点とする。
被写体状態推定部204が行う処理では、「なし」のパーツ点が存在する場合に親パーツ点との関係を利用する。そのため、前後左右のそれぞれで両端に存在する部品を親子パーツ関係にしておいたり、ナンバープレートのような重要パーツに親パーツ点を指定したりすることが望ましい。なお、ここで挙げたパーツの定義は一例であり、トラックなど形状の異なる自動車については異なるパーツ点を定義するようにしてもよい。
以上のように本実施形態によれば、第1~第3の実施形態において、関節点をパーツ点と読み替えることによって、自動車等においても同様に被写体の分類を行って、認識の精度を高めることができる。なお、本実施形態では、被写体として自動車を例に挙げたが、映像から判別できるパーツを保持する物品、また人間以外の生物についても同様に適用することができる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
202 パーツ検出部、203 特徴量算出部、204 被写体状態推定部、205 分類部
Claims (12)
- 映像に含まれる被写体の所定のパーツを検出する検出手段と、
前記検出手段によって検出されたパーツに基づいて前記被写体の特徴量を算出する算出手段と、
前記検出手段の検出結果に基づいて、前記被写体の状態を推定する推定手段と、
前記推定手段によって推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類手段と、
を備えることを特徴とする情報処理装置。 - 前記被写体は人間であり、前記所定のパーツは人間の関節または部位であることを特徴とする請求項1に記載の情報処理装置。
- 前記被写体の所定の性状を認識する性状認識手段をさらに備え、
前記性状認識手段は、前記分類手段の分類の結果に基づいて認識の方法を変更することを特徴とする請求項1又は2に記載の情報処理装置。 - 前記性状認識手段は、一部のカテゴリに分類された特徴量について、認識の対象から除外することを特徴とする請求項3に記載の情報処理装置。
- 前記性状認識手段は、認識に用いる閾値を変更することによって認識の方法を変更することを特徴とする請求項3又は4に記載の情報処理装置。
- 前記性状認識手段は、認識に用いる統計モデルを変更することによって認識の方法を変更することを特徴とする請求項3又は4に記載の情報処理装置。
- 前記分類手段は、前記被写体が含まれる複数の映像について、それぞれ前記特徴量を分類し、
前記性状認識手段は、前記複数の映像についての前記分類手段の分類の結果に基づいて、前記被写体の性状を認識することを特徴とする請求項3~6の何れか1項に記載の情報処理装置。 - 前記分類手段は、時系列の異なる複数の映像を用いて前記被写体の特徴量を分類することを特徴とする請求項1~7の何れか1項に記載の情報処理装置。
- 前記時系列の異なる複数の映像を用いて前記被写体を追尾する追尾手段をさらに備え、
前記分類手段は、前記追尾の結果に基づいて前記被写体の特徴量を分類することを特徴とする請求項8に記載の情報処理装置。 - 前記映像から物体を認識する物体認識手段をさらに備え、
前記推定手段は、前記物体の認識結果に基づいて前記被写体の状態を推定することを特徴とする請求項1~9の何れか1項に記載の情報処理装置。 - 映像に含まれる被写体の所定のパーツを検出する検出工程と、
前記検出工程において検出されたパーツに基づいて前記被写体の特徴量を算出する算出工程と、
前記検出工程の検出結果に基づいて、前記被写体の状態を推定する推定工程と、
前記推定工程において推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類工程と、
を備えることを特徴とする情報処理方法。 - 映像に含まれる被写体の所定のパーツを検出する検出工程と、
前記検出工程において検出されたパーツに基づいて前記被写体の特徴量を算出する算出工程と、
前記検出工程の検出結果に基づいて、前記被写体の状態を推定する推定工程と、
前記推定工程において推定された状態に基づいて、前記被写体の性状を認識するための基準が異なる複数のカテゴリの中のいずれかに前記特徴量を分類する分類工程と、
をコンピュータに実行させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019080893A JP7263094B2 (ja) | 2019-04-22 | 2019-04-22 | 情報処理装置、情報処理方法及びプログラム |
PCT/JP2020/012840 WO2020217812A1 (ja) | 2019-04-22 | 2020-03-24 | 被写体の状態を認識する画像処理装置及びその方法 |
SG11202110708XA SG11202110708XA (en) | 2019-04-22 | 2020-03-24 | Image processing device that recognizes state of subject and method for same |
US17/505,416 US20220036056A1 (en) | 2019-04-22 | 2021-10-19 | Image processing apparatus and method for recognizing state of subject |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019080893A JP7263094B2 (ja) | 2019-04-22 | 2019-04-22 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020177557A JP2020177557A (ja) | 2020-10-29 |
JP7263094B2 true JP7263094B2 (ja) | 2023-04-24 |
Family
ID=72937630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019080893A Active JP7263094B2 (ja) | 2019-04-22 | 2019-04-22 | 情報処理装置、情報処理方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220036056A1 (ja) |
JP (1) | JP7263094B2 (ja) |
SG (1) | SG11202110708XA (ja) |
WO (1) | WO2020217812A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7453587B2 (ja) | 2020-11-24 | 2024-03-21 | 日本電信電話株式会社 | 通信品質予測装置、通信品質予測システム、通信品質予測方法、及び、通信品質予測プログラム |
CN113096337B (zh) * | 2021-04-08 | 2022-11-11 | 中国人民解放军军事科学院国防工程研究院工程防护研究所 | 用于复杂背景的移动目标识别处理方法及智能安防系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009296355A (ja) | 2008-06-05 | 2009-12-17 | Toyota Motor Corp | 顔画像処理装置 |
JP2012155391A (ja) | 2011-01-24 | 2012-08-16 | Panasonic Corp | 姿勢状態推定装置および姿勢状態推定方法 |
JP2017199303A (ja) | 2016-04-28 | 2017-11-02 | パナソニックIpマネジメント株式会社 | 識別装置、識別方法、識別プログラムおよび記録媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5431830B2 (ja) * | 2009-08-18 | 2014-03-05 | Necソフト株式会社 | 部品検出装置、部品検出方法、プログラムおよび記録媒体 |
-
2019
- 2019-04-22 JP JP2019080893A patent/JP7263094B2/ja active Active
-
2020
- 2020-03-24 WO PCT/JP2020/012840 patent/WO2020217812A1/ja active Application Filing
- 2020-03-24 SG SG11202110708XA patent/SG11202110708XA/en unknown
-
2021
- 2021-10-19 US US17/505,416 patent/US20220036056A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009296355A (ja) | 2008-06-05 | 2009-12-17 | Toyota Motor Corp | 顔画像処理装置 |
JP2012155391A (ja) | 2011-01-24 | 2012-08-16 | Panasonic Corp | 姿勢状態推定装置および姿勢状態推定方法 |
JP2017199303A (ja) | 2016-04-28 | 2017-11-02 | パナソニックIpマネジメント株式会社 | 識別装置、識別方法、識別プログラムおよび記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
SG11202110708XA (en) | 2021-11-29 |
US20220036056A1 (en) | 2022-02-03 |
WO2020217812A1 (ja) | 2020-10-29 |
JP2020177557A (ja) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Spatio-temporal fall event detection in complex scenes using attention guided LSTM | |
CN105574501B (zh) | 一种人流视频侦测分析系统 | |
US9036902B2 (en) | Detector for chemical, biological and/or radiological attacks | |
JP2008542922A (ja) | 保安用途向けの人間の検出及び追跡 | |
JPWO2016114134A1 (ja) | 移動状況推定装置、移動状況推定方法およびプログラム | |
US20150071492A1 (en) | Abnormal behaviour detection | |
JP2014093023A (ja) | 物体検出装置、物体検出方法及びプログラム | |
Bertoni et al. | Perceiving humans: from monocular 3d localization to social distancing | |
Anitha et al. | A two fold expert system for yawning detection | |
Albawendi et al. | Video based fall detection using features of motion, shape and histogram | |
US20220036056A1 (en) | Image processing apparatus and method for recognizing state of subject | |
Rezaee et al. | Real-time intelligent alarm system of driver fatigue based on video sequences | |
CN113822250A (zh) | 一种船舶驾驶异常行为检测方法 | |
Abd et al. | Human fall down recognition using coordinates key points skeleton | |
Rahman et al. | Computer vision-based approach to detect fatigue driving and face mask for edge computing device | |
Ezatzadeh et al. | ViFa: an analytical framework for vision-based fall detection in a surveillance environment | |
Nizam et al. | Development of human fall detection system using joint height, joint velocity, and joint position from depth maps | |
CN114373142A (zh) | 基于深度学习的行人跌倒检测方法 | |
Mousse et al. | Video-based people fall detection via homography mapping of foreground polygons from overlapping cameras | |
Dhrithi et al. | A Framework for Driver Drowsiness Detection using Non-Learning Methods | |
Lollett et al. | Driver’s drowsiness classifier using a single-camera robust to mask-wearing situations using an eyelid, lower-face contour, and chest movement feature vector gru-based model | |
Gopikrishnan et al. | DriveCare: a real-time vision based driver drowsiness detection using multiple convolutional neural networks with kernelized correlation filters (MCNN-KCF) | |
Osigbesan et al. | Vision-based fall detection in aircraft maintenance environment with pose estimation | |
Khan et al. | A novel hybrid fall detection technique using body part tracking and acceleration | |
Xu et al. | Fall detection based on person detection and multi-target tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230412 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7263094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |