JP2018206321A

JP2018206321A - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: JP2018206321A
Application number: JP2017114613A
Authority: JP
Inventors: 一谷　修司; Shuji Ichitani; 修司一谷
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2018-12-27

Abstract

【課題】処理負荷を増大させることなく、高精度な行動認識を可能とする画像処理装置を提供する。【解決手段】撮像装置２００が生成した画像を取得する画像取得部１０と、前記画像中における、人を含む人領域を検出する人領域検出部２０と、学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定する姿勢推定部３０と、前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定する行動判別部４０と、を備える画像処理装置１００である。前記識別器は、教師データの画像に対して人の姿勢種別と周辺物体の物体種別の組み合わせが関連付けられる学習処理を施す。【選択図】図３

Description

本開示は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。

従来、取得した画像から人の行動を認識する技術が知られている。人の行動を認識する対象としては、例えば、高齢者介護見守りの現場において、高齢者の生活状況や自己を認識する仕組みを考慮すると、高齢者やその介助者が挙げられる。具体的には、人の行動を認識する対象としては、例えば、高齢者の場合、就寝、起床、離床、座る、しゃがむ、歩行、食事、トイレ、外出、ものを取る、等のような日常生活における基本的な行動や、転倒、転落等の事故時に起こる行動が挙げられる。

これらの行動のうち、多くの行動は人の姿勢の変化を捉えることで認識することが可能である。例えば、就寝の行動としては、人がベッドに歩いて近づき、一旦座ってから横たわることが考えられる。この際においては、立位、座位、臥位の順に人の姿勢が変動する。このような行動を認識するためには、正確な姿勢を認識することが重要である。

行動を認識する技術の一例としては、取得した画像から人の関節位置を推定する技術が考えられる。当該技術においては、推定した関節位置の関係から人の姿勢を推定し、推定した人の姿勢及び位置の変化から人の行動を認識する。

例えば、非特許文献１には、畳み込みニュートラルネットワーク（Convolutional Neural Network：以下、「ＣＮＮ」と略称する）を用いて、人の姿勢を推定する技術が開示されている。

又、特許文献１には、画像から推定される人の姿勢と物体情報の位置関係に基づいて、ルールベースで行動認識を実施する技術が開示されている。

国際公開第２０１６／１８１８３７号

Alexander Toshev, et al. "Deep Pose: Human Pose Estimation via Deep Neural Networks", in CVPR, 2014, ("URL: http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Toshev_DeepPose_Human_Pose_2014_CVPR_paper.pdf")

ところで、画像に映る人の行動を認識する行動認識システムにおいては、カメラと人の位置関係によって、人が同じ行動を行っていても、サイズ、向き、及び距離等の点において、画像に映る人の姿勢特徴に違いが生じるという課題がある。特に、広角カメラを用いて撮影した画像については、人の各部位の奥行き方向の位置関係を認識することが困難である。

この点、人の行動は、物体とのインタラクションとして発生するものが多いことに着目して、当該行動を認識する際には、人の姿勢特徴に加えて、周辺物体の情報を用いる手法が検討されている。

例えば、特許文献１の従来技術のように、事前に、監視対象の物体を特定しておき、当該監視対象の物体と人の位置関係等を使ったルールベースでの行動認識を実施する手法が考えられる。他方、ＣＮＮ等を用いて、人の姿勢特徴と同様に、周辺物体の特徴を抽出する手法も考えられる。

しかし、いずれの手法も、着目すべき物体の種別、形状、位置又は見え方等が固定された条件下であれば、容易に行動認識が可能であるが、これらが種々に異なる環境下においては、認識すべきパターン数が膨大となってしまい、誤認識や処理負荷の増大につながってしまうという問題がある。

本開示は、上記問題点に鑑みてなされたもので、処理負荷を増大させることなく、高精度な行動認識を可能とする画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。

前述した課題を解決する主たる本開示は、
撮像装置が生成した画像を取得する画像取得部と、
前記画像中における、人を含む人領域を検出する人領域検出部と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定する姿勢推定部と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定する行動判別部と、
を備える画像処理装置であって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理装置である。

又、他の側面では、
撮像装置が生成した画像を取得する処理と、
前記画像中における、人を含む人領域を検出する処理と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定する処理と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定する処理と、
を備える画像処理方法であって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理方法である。

又、他の側面では、
コンピュータに、
撮像装置が生成した画像を取得させる処理と、
前記画像中における、人を含む人領域を検出させる処理と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定させる処理と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定させる処理と、
を実行させる画像処理プログラムであって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理プログラムである。

本開示に係る画像処理装置によれば、処理負荷を増大させることなく、より高精度な行動認識が可能である。

実施形態に係る行動認識システムの一例を示す図実施形態に係る画像処理装置のハードウェア構成の一例を示す図実施形態に係る画像処理装置の機能ブロックの一例を示す図実施形態に係る人領域検出部が検出する画像内における人領域の一例を示す図「人の姿勢種別」と「周辺物体の物体種別」の組み合わせの一例を示す図実施形態に係るＣＮＮの構成の一例を示す図人の姿勢種別及び周辺物体の物体種別の組み合わせの時系列データの一例を示す図人と他者とのインタラクションの一例を示す図

以下に添付図面を参照しながら、本開示の好適な実施形態について詳細に説明する。尚、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［行動認識システムの構成］
以下、図１〜図３を参照して、一実施形態に係る行動認識システムＵの構成、及び行動認識システムＵに適用した画像処理装置１００の構成の概要について説明する。

図１は、本実施形態に係る行動認識システムＵの一例を示す図である。

本実施形態に係る行動認識システムＵは、画像処理装置１００、撮像装置２００、通信ネットワーク３００を備えている。

撮像装置２００は、例えば、一般的なカメラや広角カメラであり、カメラの撮像素子が生成した画像信号をＡＤ変換して、画像データを生成する。本実施形態に係る撮像装置２００は、フレーム単位の画像データを連続的に生成して、動画像（以下、「動画像のデータ」とも称する）を撮像可能に構成されている。

撮像装置２００は、行動認識する対象の人Ｂ１が画像に映るように、部屋内の適宜な位置に設置される。尚、図１に示すように、撮像装置２００は、人Ｂ１と共に、当該人Ｂ１に近接して存在する周辺物体Ｂ２を撮像する。

撮像装置２００は、通信ネットワーク３００を介して、画像処理装置１００に対して動画像のデータを送信する。

画像処理装置１００は、撮像装置２００で生成された動画像のデータに基づいて、当該画像に映る人Ｂ１の行動を判別して、その結果を出力する装置である。

図２は、本実施形態に係る画像処理装置１００のハードウェア構成の一例を示す図である。

画像処理装置１００は、主たるコンポーネントとして、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、外部記憶装置（例えば、フラッシュメモリ）１０４、及び通信インターフェイス１０５等を備えたコンピュータである。

画像処理装置１００の後述する各機能は、例えば、ＣＰＵ１０１がＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０４等に記憶された制御プログラム（例えば、画像処理プログラム）や各種データ（例えば、画像データ、教師データ、及び識別器Ｍのモデルデータ等）を参照することによって実現される。尚、ＲＡＭ１０２は、例えば、データの作業領域や一時退避領域として機能する。

但し、各機能の一部又は全部は、ＣＰＵによる処理に代えて、又は、これと共に、ＤＳＰ（Digital Signal Processor）による処理によって実現されてもよい。又、同様に、各機能の一部又は全部は、ソフトウェアによる処理に代えて、又は、これと共に、専用のハードウェア回路による処理によって実現されてもよい。

図３は、本実施形態に係る画像処理装置１００の機能ブロックの一例を示す図である。

画像処理装置１００は、画像取得部１０、人領域検出部２０、姿勢推定部３０、行動判別部４０、及び学習部５０を備えている。

尚、図３中の矢印は、各機能の処理のフロー、及びデータＤ１〜Ｄ５の流れを表す。本実施形態では、画像処理装置１００は、撮像装置２００から動画像のデータＤ１を取得しており、各データＤ１〜Ｄ４は、フレーム毎又は複数のフレーム間隔で、連続的に生成される。

［画像取得部］
画像取得部１０は、撮像装置２００から、当該撮像装置２００が生成した画像データＤ１を取得する。尚、画像取得部１０は、外部記憶装置１０４に格納された画像データＤ１や、インターネット回線等を介して提供された画像データＤ１を取得する構成であってもよいのは勿論である。

［人領域検出部］
人領域検出部２０は、画像取得部１０から、画像データＤ１を取得して、当該画像データＤ１に対して所定の演算処理を施して、画像に映る人Ｂ１を含む領域（以下、「人領域」と称する）を検出する。

図４は、人領域検出部２０が検出する画像中における人領域の一例を示す図である。尚、図４中において、Ｒａｌｌは画像の全画像領域、Ｒは画像中における人領域を表している。

人領域検出部２０が人領域Ｒを検出する手法は、任意であり、例えば、動画像から、画像における差分画像を検出し、当該差分画像から人領域Ｒを検出する。又、人領域検出部２０は、その他、学習済みのニューラルネットワーク、テンプレートマッチング、ＨＯＧ（Histograms of Oriented Gradients）特徴量とＳＶＭ（Support Vector Machine）の組み合わせ、又は背景差分法等の手法を用いてもよい。

本実施形態に係る人領域検出部２０は、上記手法によって、例えば、画像中に人Ｂ１が検出された領域を含む矩形領域を人領域Ｒと設定する。

尚、人領域Ｒに映る物体が、後述する姿勢推定部３０において周辺物体Ｂ２と識別される。

［姿勢推定部］
姿勢推定部３０は、人領域検出部２０から画像データＤ１と人領域Ｒを示すデータＤ２を取得する。そして、姿勢推定部３０は、学習済みの識別器Ｍを用いて当該画像データＤ１の画像解析を行って、画像に映る人Ｂ１の姿勢種別を、人領域Ｒに映る周辺物体Ｂ２の物体種別と共に推定する。

人の行動は、上記したように、物とのインタラクションと捉えることができる。例えば、「座る」という行動では、「座位」という人の姿勢と、「ベッド」や「床」という周辺物体とのインタラクションと言える。又、「物を取る」という行動では、「手を伸ばす」という人の姿勢と「ペン」等の周辺物体とのインタラクションと言える。

従って、人の行動を判別する際には、「人の姿勢種別」と「周辺物体の物体種別」の組み合わせを識別するのが望ましい。換言すると、周辺物体の物体種別の情報は、人の姿勢特徴だけでは判別することが困難な人の行動を判別する際の補完的情報となる。

しかしながら、従来技術のように、人の姿勢特徴を抽出する画像解析と周辺物体の特徴を抽出する画像解析とを別個に行った後に、これらを統合して行動クラスを推定する手法においては、人体の姿勢特徴と周辺物体の特徴の連関を抽出する処理が必要となる。加えて、人体の姿勢特徴と周辺物体の特徴の連関を抽出するためには、人の姿勢特徴と周辺物体の特徴それぞれを高精度に抽出する必要が生じる。その結果、処理負荷が増大するのみならず、推定精度も悪化するという問題が生じてしまう。

この点、ＣＮＮ等の識別器Ｍは、一般に、教師データを用いて学習処理を行っておくことよって、入力される画像から所望の識別結果を出力し得るように、識別機能を保有することができる。

本実施形態に係る画像処理装置１００は、かかる観点から、「人の姿勢種別」と「周辺物体の物体種別」を別個に推定するのではなく、「人の姿勢種別」と「周辺物体の物体種別」の組み合わせを推定し得るように学習処理を施した識別器Ｍを用いて、当該「人の姿勢種別」と「周辺物体の物体種別」の組み合わせを推定する。これによって、姿勢推定部３０が識別するカテゴリー数自体は増加するものの、上記従来技術と比較して、より軽負荷で、且つ、より高精度に、人の姿勢種別と周辺物体の物体種別の組み合わせを識別することが可能となる。

図５は、「人の姿勢種別」と「周辺物体の物体種別」の組み合わせの一例を示す図である。

「人の姿勢種別」は、例えば、立位、中腰、座位又は臥位のような人体の姿勢の種別である。「人の姿勢種別」は、例えば、画像中に映る人Ｂ１の人体の各部位（例えば、頭部、足部、又は関節位置等）の位置や当該各部位の位置関係等の特徴から推定することができる。尚、図５中には、異なる角度から見た人の姿勢を示す。

「周辺物体の物体種別」は、人領域Ｒに映る周辺物体Ｂ２について、例えば、床、ベッド、車椅子、又は椅子のような物体の種別を推定したものである。「周辺物体の物体種別」は、例えば、画像に映る周辺物体Ｂ２の形状の特徴から推定することができる。

図５に示すように、本実施形態に係る姿勢推定部３０は、「人の姿勢種別」と「周辺物体の物体種別」の組み合わせ毎に異なる識別符号を設定し、当該「人の姿勢種別」と「周辺物体の物体種別」の組み合わせとして、演算結果を出力する。

尚、図５に示す識別符号は、後述する識別器Ｍが出力する結果の一例である。例えば、座位の姿勢種別については、座位の姿勢種別と床の組み合わせでは「２，０」、座位の姿勢種別とベッドの組み合わせでは「２，１」、座位の姿勢種別と車椅子の組み合わせでは「２，２」、座位の姿勢種別と椅子の組み合わせでは「２，３」等を出力する。

姿勢推定部３０は、例えば、識別器ＭとしてＣＮＮを用いて、画像から「人の姿勢種別」と共に、「周辺物体の物体種別」を推定する。ＣＮＮは、演算処理の負荷が低負荷でありながら、画像中の対象物体を識別する際における、当該対象物体の位置や形状の変化に対するロバスト性が高く、高精度な画像認識が可能である。

尚、学習済みのＣＮＮのモデルデータ（構造データ及び学習済みのパラメータデータ等）は、例えば、画像処理プログラムと共に、外部記憶装置１０４に格納されている。

図６は、本実施形態に係るＣＮＮの構成の一例を示す図である。

ＣＮＮは、特徴抽出部Ｎａと識別部Ｎｂとを有し、特徴抽出部Ｎａが、入力される画像から画像特徴を抽出する処理を施し、識別部Ｎｂが、人Ｂ１の姿勢種別及び周辺物体Ｂ２の物体種別を識別する処理を施す。

特徴抽出部Ｎａは、複数の特徴量抽出層Ｎａ１、Ｎａ２・・・が階層的に接続されて構成される。各特徴量抽出層Ｎａ１、Ｎａ２・・・は、それぞれ、畳み込み層（Convolution layer）、活性化層（Activation layer）及びプーリング層（Pooling layer）を備える。尚、図６中では、２階層の特徴量抽出層のみを示すが、特徴量抽出層の階層数は、任意である。又、又、各特徴量抽出層Ｎａ１、Ｎａ２・・・において用いるフィルター数等も、任意である。

第１層目の特徴量抽出層Ｎａ１は、入力される画像を、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Ｎａ１は、走査したデータに対して、畳み込み層、活性化層及びプーリング層によって特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。第１層目の特徴量抽出層Ｎａ１は、例えば、水平方向に延びる線状の特徴量や斜め方向に延びる線状の特徴量等の比較的シンプルな単独の特徴量を抽出する。

第２層目の特徴量抽出層Ｎａ２は、前階層の特徴量抽出層Ｎａ１から入力される画像（特徴マップとも称される）を、例えば、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Ｎａ２は、走査したデータに対して、同様に、畳み込み層、活性化層及びプーリング層による特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。尚、第２層目の特徴量抽出層Ｎａ２は、第１層目の特徴量抽出層Ｎａ１が抽出した複数の特徴量の位置関係などを考慮しながら統合させることで、より高次元の複合的な特徴量を抽出する。

第２層目以降の特徴量抽出層（図示せず）は、第２層目の特徴量抽出層Ｎａ２と同様の処理を実行する。そして、最終層の特徴量抽出層の出力（複数の特徴マップのマップ内の各値）が、識別部Ｎｂに対して入力される。

識別部Ｎｂは、例えば、複数の全結合層（Fully Connected）が階層的に接続された多層パーセプトロンによって構成される。尚、図６中では、３階層の全結合層を示すが、全結合層の階層数は、任意である。

識別部Ｎｂの入力側の全結合層は、特徴抽出部Ｎａから取得した複数の特徴マップのマップ内の各値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行って出力する。

識別部Ｎｂの次階層の全結合層は、前階層の全結合層の各素子が出力する値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行う。そして、識別部Ｎｂの最後段の全結合層には、識別対象とする人体の姿勢種別と周辺物体の物体種別の組み合わせ毎に、出力素子を設けておく。

識別部Ｎｂは、例えば、多層パーセプトロンの出力層の各出力素子からの出力値に対して、ソフトマックス関数等を適用する処理を実行し、複数のカテゴリーのうち、該当するカテゴリーについて、積和演算による演算結果の値が大きくなるように識別結果を出力する。

本実施形態に係るＣＮＮは、例えば、人領域Ｒの画像を入力とし（図６のＩｎｐｕｔ）、例えば、姿勢種別と周辺物体の物体種別の組み合わせ毎（例えば、姿勢種別：座位、且つ、物体種別：ベッド）に、確率を出力する（図６のＯｕｔｐｕｔ）ように構成される。

識別部Ｎｂから出力する姿勢種別と周辺物体の物体種別の組み合わせ毎の確率は、例えば、softmax関数を用いて、次式（１）のように表される。

尚、ＣＮＮにおける演算処理のアルゴリズムは、公知の手法（例えば、非特許文献１を参照）と同様であるため、ここでの説明は省略する。

本実施形態に係る姿勢推定部３０は、ＣＮＮの順伝播処理によって画像解析を行って、人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせ毎の確率を算出する。そして、姿勢推定部３０は、当該姿勢種別と周辺物体の物体種別の組み合わせのうち、最大の確率の組み合わせを、画像に映る人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別と推定する。

尚、姿勢推定部３０は、前処理として、画像を所定のサイズ及びアスペクト比に変換する等、画像の正規化を行ってもよい。又、姿勢推定部３０は、前処理として、色分割処理、シルエット抽出処理、領域分割処理、輝度勾配抽出処理等を行ったりしてもよい。

［学習部］
学習部５０は、識別器Ｍが人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別を識別し得るように、教師データＤ５を用いた機械学習を実行する。

識別器Ｍの識別機能は、学習部５０が用いる教師データＤ５に依拠する。本実施形態に係る学習部５０は、画像から識別器Ｍが人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせを識別し得るように、学習処理を施す。

より詳細には、学習部５０は、図５を参照して説明したように、画像に対して人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせが関連付けられた教師データＤ５を用いて、識別器Ｍを最適化する（例えば、ＣＮＮの重み係数及びバイアス等のネットワークパラメータ）。

この際、学習部５０は、例えば、識別器Ｍの正解クラスに所望の人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせを設定して、当該正解クラスに対する出力データの誤差（損失Lossとも称される）が小さくなるように学習を行う。

尚、損失関数は、例えば、softmax cross entropy関数等を用いて、次式（２）のように表される。

この際の教師データＤ５の画像は、前処理として、正規化処理や所定の色変換処理等がなされたデータであってもよい。

尚、学習部５０が学習処理を行う際のアルゴリズムは、公知の手法であってよい。識別器ＭとしてＣＮＮを用いる場合であれば、学習部５０は、例えば、公知の誤差逆伝播法を用いて、識別器Ｍに対して学習処理を施し、ネットワークパラメータ（重み係数、バイアス等）を調整する。そして、学習部５０によって学習処理が施された識別器Ｍのモデルデータ（例えば、学習済みのネットワークパラメータ）は、例えば、画像処理プログラムと共に、外部記憶装置１０４に格納される。

かかる学習処理によって、識別器Ｍは、画像から人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせを識別し得るようになる。

［行動判別部］
行動判別部４０は、姿勢推定部３０から人Ｂ１の姿勢種別及び周辺物体Ｂ２の物体種別の組み合わせを示すデータＤ３を取得し、当該データＤ３に基づいて、画像に映る人Ｂ１の行動クラスを判別する。そして、行動判別部４０は、当該判別結果に係るデータＤ４を出力する。

人の行動は、時間的連続性や、行動間での時系列的な深い関連を持っているため、人の行動クラスを判別する際には、画像データをフレーム毎に単一で行うのではなく、人の姿勢と周辺物体の時間的変化を示す時系列データも考慮するのが望ましい。例えば、「椅子から立ち上がる」という行動を判別する際には、過去の行動で「椅子に座る」という行動がされているというデータも大きな手がかりとなるためである。

本実施形態に係る行動判別部４０は、かかる観点から、人Ｂ１の姿勢種別及び周辺物体の物体種別の組み合わせを示すデータＤ３の時間的変化に基づいて、人の行動クラスを決定する。尚、行動判別部４０は、この際、例えば、予め設定された数十種類のうちのいずれの種類に該当するかを判別する。

図７は、人Ｂ１の姿勢種別及び周辺物体Ｂ２の物体種別の組み合わせの時系列データの一例について説明する図である。

図７Ａ、図７Ｂ、図７Ｃは、時系列の画像であり、ここでは、図７Ａ、図７Ｂ、図７Ｃの順に、人Ｂ１の姿勢が、ベッドＢ２に対して横になった状態から、起き上がった状態に経時的に変化する状態を示す。

図７Ａ、図７Ｂ、図７Ｃの画像の右欄には、それぞれのタイミングで、姿勢推定部３０が推定した人Ｂ１の姿勢種別及び周辺物体Ｂ２の物体種別の組み合わせを示している。ここでは、姿勢推定部３０は、図７Ａ、図７Ｂ、図７Ｃの画像について、以下のように推定しているものとする。
図７Ａ：人Ｂ１の姿勢種別「臥位」、周辺物体Ｂ２の物体種別「ベッド」
図７Ｂ：人Ｂ１の姿勢種別「臥位」、周辺物体Ｂ２の物体種別「ベッド」
図７Ｃ：人Ｂ１の姿勢種別「座位」、周辺物体Ｂ２の物体種別「ベッド」

行動判別部４０は、例えば、図７Ａと図７Ｂの状態のように、人Ｂ１が臥位の状態でベッドＢ２にいる場合、人Ｂ１の行動クラスが「睡眠」に該当すると判別する。そして、行動判別部４０は、図７Ｃのように、その後、人Ｂ１は、座位の状態でベッドＢ２にいるように変化した場合、かかる経時的な変化によって、人Ｂ１の行動クラスが「起床」に該当すると判別する。

行動判別部４０が参照する時間的変化の情報としては、例えば、同一の人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせが継続している時間、直前の画像について推定された人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせ等が挙げられる。

又、行動判別部４０は、人Ｂ１の行動クラスを判別する手法は、任意の手法であってよい。例えば、行動判別部４０は、ルールベースで、行動クラスを判別してもよい。又、その他の手法としては、ニューラルネットワーク、ベイズ識別器又はＳＶＭ識別器等の識別器を用いてもよい。

以上のように、本実施形態に係る画像処理装置１００は、画像に映る人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせを識別し得る識別器Ｍを用いて、人の姿勢種別を周辺物体の物体種別と共に推定する。これによって、軽負荷で、且つ、より高精度に、人の行動クラスを判別することが可能となる。

（変形例）
識別器Ｍが識別対象とする周辺物体Ｂ２の物体種別は、人Ｂ１とは異なる他者を含むのが望ましい。又、識別器Ｍは、人Ｂ１と当該他者等との位置関係も識別可能構成されるのが望ましい。

図８は、人Ｂ１と他者Ｂ２とのインタラクションの一例を示す図である。

図８Ａ及び図８Ｂは、共に、人Ｂ１に近接して他者Ｂ２が存在する状態を示している。図８Ａは、人Ｂ１と他者Ｂ２とが握手をしようとしている状態を示す。一方、図８Ｂは、他者Ｂ２が、人Ｂ１に肩をかけるようにして、当該人Ｂ１を介護している状態を示す。

このように、人Ｂ１の行動を判別する際、他者Ｂ２の存在及び当該他者Ｂ２との位置関係は、有用な情報となる。尚、かかる情報によって、例えば、人Ｂ１が他者Ｂ２に介護されながら行動しているか又は単独で行動しているか等についても、判別することが可能である。

本変形例では、他者Ｂ２との位置関係については、人領域Ｒに映る他者Ｂ２の存在割合が２０％未満の場合（図８Ａ）と、他者Ｂ２の存在割合が２０％以上の場合（図８Ｂ）とで物体種別を異なる種別と設定している。

但し、「人と周辺物体との位置関係」は、人領域Ｒにおける存在割合に代えて、人Ｂ１と他者Ｂ２の距離や方向等であってもよい。

尚、本変形例の識別器Ｍを構成する際には、識別器Ｍに対して、上記実施形態と同様の学習処理を施せばよい。

以上のように、本変形例に係る画像処理装置１００によれば、近接する他者についても、姿勢種別と共に識別することができる。

（その他の実施形態）
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。

上記実施形態では、姿勢推定部３０の一例として、ＣＮＮを識別器Ｍに用いる態様を示した。しかしながら、識別器Ｍは、ＣＮＮに限らず、学習処理を施すことによって識別機能を保有し得るその他の任意の識別器が用いられてよい。識別器Ｍとしては、例えば、ＳＶＭ（Support Vector Machine）識別器、又は、ベイズ識別器等が用いられてもよい。

又、上記実施形態では、人Ｂ１の姿勢種別と周辺物体Ｂ２の物体種別の組み合わせに係る識別符号の設定態様の一例として、人Ｂ１の姿勢種別の識別符号と周辺物体Ｂ２の物体種別の識別符号を別個に設定する態様を示した（図５を参照）。しかしながら、識別符号の設定手法は、任意であって、「人の姿勢種別」と「周辺物体の物体種別」の組み合わせ毎に、一個の識別符号（例えば、１、２、３…等）を設定してもよい。他方、識別対象とする「周辺物体」の個数は、一個に限らず、複数個であってもよい。又、変形例に示したように、「人と周辺物体との位置関係」についても識別符号が設けられてもよい。

又、上記実施形態では、画像処理装置１００の構成の一例として、学習部５０を備える構成を示した。但し、予め外部記憶装置１０４等に、学習処理が施された識別器Ｍのモデルデータを記憶していれば、画像処理装置１００は、必ずしも学習部５０を備えている必要はない。

又、上記実施形態では、画像処理装置１００の構成の一例として、画像取得部１０、人領域検出部２０、姿勢推定部３０、行動判別部４０、及び学習部５０の機能が一のコンピュータによって実現されるものとして記載したが、複数のコンピュータによって実現されてもよいのは勿論である。又、当該コンピュータに読み出されるプログラムやデータも、複数のコンピュータに分散して格納されてもよい。

又、上記実施形態では、画像処理装置１００の動作の一例として、画像取得部１０、人領域検出部２０、姿勢推定部３０、行動判別部４０、及び学習部５０の処理を一連のフローの中で実行されるものとして示したが、これらの処理の一部又は全部が並列で実行されるものとしてもよいのは勿論である。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。

Ｕ行動認識システム
１０画像取得部
２０人領域検出部
３０姿勢推定部
４０行動判別部
５０学習部
１００画像処理装置
２００撮像装置
Ｄ１画像データ
Ｄ２人領域データ
Ｄ３人の姿勢種別及び周辺物体の物体種別のデータ
Ｄ４行動クラスの判別結果のデータ
Ｄ５教師データ

Claims

撮像装置が生成した画像を取得する画像取得部と、
前記画像中における、人を含む人領域を検出する人領域検出部と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定する姿勢推定部と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定する行動判別部と、
を備える画像処理装置であって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理装置。
前記行動判別部は、前記撮像装置に連続的に生成された複数の前記画像における、前記人の姿勢種別及び前記周辺物体の物体種別の時間的変化に基づいて、前記人の行動クラスを決定する、
請求項１に記載の画像処理装置。
前記識別器が識別対象とする前記周辺物体の物体種別は、前記人とは異なる他者を含む、
請求項１又は２に記載の画像処理装置。
前記識別器は、前記人と前記周辺物体の位置関係を識別可能に構成される、
請求項１乃至３のいずれか一項に記載の画像処理装置。
前記識別器は、畳み込みニューラルネットワークを含んで構成される、
請求項１乃至４のいずれか一項に記載の画像処理装置。
撮像装置が生成した画像を取得する処理と、
前記画像中における、人を含む人領域を検出する処理と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定する処理と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定する処理と、
を備える画像処理方法であって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理方法。
コンピュータに、
撮像装置が生成した画像を取得させる処理と、
前記画像中における、人を含む人領域を検出させる処理と、
学習済みの識別器を用いて前記画像の画像解析を行い、前記人の姿勢種別を前記人領域に映る周辺物体の物体種別と共に推定させる処理と、
前記人の姿勢種別及び前記周辺物体の物体種別に基づいて、前記人の行動クラスを決定させる処理と、
を実行させる画像処理プログラムであって、
前記識別器は、教師データの前記画像に対して前記人の姿勢種別と前記周辺物体の物体種別の組み合わせが関連付けられて学習処理が施された、
画像処理プログラム。