JP2019003565A

JP2019003565A - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: JP2019003565A
Application number: JP2017119868A
Authority: JP
Inventors: 希武田中; Nozomu Tanaka; 宏大和; Hiroshi Yamato
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2019-01-10

Abstract

【課題】対象物体が動作している際に撮像された画像について、より高精度に、対象物体の特徴点（特に、人体の関節位置）を抽出し得る画像処理装置を提供すること。【解決手段】対象物体を連続的に撮像した複数の画像Ｄ１を取得する画像取得部１０と、複数の前記画像を重ね合わせて、一の合成画像Ｄ３を生成する合成画像生成部３０と、学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点Ｄ４を抽出する特徴点抽出部４０と、を備える、画像処理装置。【選択図】図１

Description

本開示は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。

従来、取得した画像から人の行動を認識する技術が知られている。人の行動を認識する対象としては、例えば、就寝、起床、離床、座る、しゃがむ、歩行、食事、トイレ、外出、ものを取る、等のような日常生活における基本的な行動や、転倒、転落等の事故時に起こる行動が挙げられる。

これらの行動のうち、多くの行動は人の姿勢の変化を捉えることで認識することが可能である。例えば、就寝の行動としては、人がベッドに歩いて近づき、一旦座ってから横たわることが考えられる。この際においては、立位、座位、臥位の順に人の姿勢が変動する。このような行動を認識するためには、正確な姿勢を認識することが重要である。

このような背景から、人の関節位置を正確に抽出する画像解析技術の要請がある。

この点、畳み込みニュートラルネットワーク（Convolutional Neural Network：以下、「ＣＮＮ」とも称する）を用いて、取得した画像の画像解析を行う技術が注目されている。ＣＮＮは、演算処理の負荷が軽負荷でありながら、画像中の対象物体を識別する際における、当該対象物体の位置や形状の変化に対するロバスト性が高く、高精度な画像認識が可能である。

例えば、非特許文献１には、ＣＮＮを用いて、取得した画像の画像解析を行って、人の関節位置を抽出する技術が開示されている。非特許文献１においては、複数ステージのＣＮＮ処理層を用意し、第１ステージで人の領域が含まれた画像から人の関節位置を抽出した後、当該関節位置の周辺の画像を再取得し、第２ステージで再取得後の画像を用いて、再度、関節位置を抽出する画像解析処理を行う。非特許文献１においては、このように、ＣＮＮの処理を繰り返し実行することによって、高精度に関節位置の抽出を行う。

Alexander Toshev, et al. "Deep Pose: Human Pose Estimation via Deep Neural Networks", in CVPR, 2014, ("URL: http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Toshev_DeepPose_Human_Pose_2014_CVPR_paper.pdf")

ところで、実際に人の姿勢や行動を画像認識する際には、人が動作している場合においても、人の関節位置を正確に抽出することが求められる。

しかしながら、人が動作している際に撮像された画像は、撮像装置の特性上、動作部位の領域が不鮮明になるという特徴を有する。この点、非特許文献１の従来技術においては、この種の不鮮明な画像から、人の関節位置等を抽出することが困難である。

本開示は、かかる問題点に鑑みてなされたもので、対象物体が動作している際に撮像された画像について、より高精度に、対象物体の特徴点（特に、人体の関節位置）を抽出し得る画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。

前述した課題を解決する主たる本開示は、
対象物体を連続的に撮像した複数の画像を取得する画像取得部と、
複数の前記画像を重ね合わせて、一の合成画像を生成する合成画像生成部と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する特徴点抽出部と、
を備える、画像処理装置である。

又、他の側面では、
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を備える、画像処理方法である。

又、他の側面では、
コンピュータに、
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を実行させる、画像処理プログラムである。

本開示に係る画像処理装置によれば、演算負荷を増大させることなく、より高精度に対象物体の特徴点を抽出することが可能である。

第１の実施形態に係る画像処理装置の全体構成の一例を示すブロック図第１の実施形態に係る画像処理装置のハードウェア構成の一例を示す図第１の実施形態に係る対象物体検出部が検出する人領域の一例を示す図第１の実施形態に係る合成画像生成部が重ね合わせる連続画像の一例を示す図図４Ａ、図４Ｂ、図４Ｃの連続画像を合成した合成画像の一例を示す図合成画像を生成する際の位置合わせについて説明する図特徴点抽出部が用いるＣＮＮの構成の一例を示す図第２の実施形態に係る画像処理装置の全体構成の一例を示す図第２の実施形態に係る行動判別部が画像中の人の行動判別を行う際の処理を説明する図第３の実施形態に係る画像処理装置の全体構成の一例を示す図第４の実施形態に係る画像処理装置の全体構成の一例を示す図第４の実施形態に係る合成画像生成部が合成対象とする連続画像の一例を示す図

以下に添付図面を参照しながら、本開示の好適な実施形態について詳細に説明する。尚、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

（第１の実施形態）
［画像処理装置の全体構成］
以下、図１〜図３を参照して、第１の実施形態に係る画像処理装置１の構成の概要について説明する。以下では、一例として、画像処理装置１が、人体の関節位置を特徴点として抽出する態様について説明する。

図１は、画像処理装置１の全体構成の一例を示すブロック図である。

画像処理装置１は、画像取得部１０、対象物体検出部２０、合成画像生成部３０、特徴点抽出部４０、及び学習部５０を備えている（詳細は後述する）。

本実施形態に係る画像処理装置１は、撮像装置２が生成した画像データを用いて、当該画像に映る人体の関節位置を抽出して、その結果を出力する。

撮像装置２は、例えば、一般的な可視光カメラや広角カメラであり、カメラの撮像素子が生成した画像信号をＡＤ変換して、画像データを生成する。尚、撮像装置２としては、種々のカメラを用いることができ、ステレオカメラや赤外線カメラ等が用いられてもよい。

又、本実施形態に係る撮像装置２は、動画の画像データを生成可能に構成されている。但し、撮像装置２が生成する動画の画像データは、連続写真のように、フレーム単位の複数の静止画の画像データを連続的に生成するものであってもよい。以下では、かかる画像データを「連続画像」と総称して説明する。

図２は、本実施形態に係る画像処理装置１のハードウェア構成の一例を示す図である。

画像処理装置１は、主たるコンポーネントとして、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、外部記憶装置（例えば、フラッシュメモリ）１０４、及び通信インターフェイス１０５等を備えたコンピュータである。

画像処理装置１の後述する各機能は、例えば、ＣＰＵ１０１がＲＯＭ１０２、ＲＡＭ１０３、外部記憶装置１０４等に記憶された制御プログラム（例えば、画像処理プログラム）や各種データ（例えば、学習済みのＣＮＮのネットワークパラメータ等）を参照することによって実現される。但し、各機能の一部又は全部は、ＣＰＵによる処理に代えて、又は、これと共に、ＤＳＰ（Digital Signal Processor）による処理によって実現されてもよい。又、同様に、各機能の一部又は全部は、ソフトウェアによる処理に代えて、又は、これと共に、専用のハードウェア回路による処理によって実現されてもよい。

［画像取得部］
画像取得部１０は、撮像装置２が生成した連続画像の画像データＤ１を取得する。尚、連続画像の画像データＤ１とは、上記したように、対象物体を連続的に撮像した複数の静止画の画像データや、動画の画像データを表す。

尚、画像取得部１０は、画像データＤ１を取得する際、撮像装置２から直接取得してもよいし、外部記憶装置１０４に格納された画像データＤ１や、インターネット回線等を介して提供された画像データＤ１を取得する構成であってもよい。

［対象物体検出部］
対象物体検出部２０は、画像取得部１０から画像データＤ１を取得して、当該画像データＤ１に対して所定の演算処理を施して、画像に映る対象物体の領域（ここでは、人体の映る領域を示す。以下、「人領域Ｒ」と称する）を検出する。

図３は、対象物体検出部２０が検出する人領域Ｒの一例を示す図である。尚、図３中において、Ｒａｌｌは画像の全領域、Ｒは画像中の人領域を表している。

対象物体検出部２０は、例えば、前後のフレーム間の差分を抽出するフレーム間差分法を用いて、人領域Ｒを検出する。但し、対象物体検出部２０が人領域Ｒを検出する手法は、任意であり、上記手法の他、学習済みのニューラルネットワーク、テンプレートマッチング、ＨＯＧ（Histograms of Oriented Gradients）特徴量とＳＶＭ（Support Vector Machine）の組み合わせ、又は背景差分法等の手法を用いてもよい。

［合成画像生成部］
合成画像生成部３０は、対象物体検出部２０から、連続画像の画像データＤ１及び人領域Ｒを示すデータＤ２を取得して、所定の演算処理によって当該連続画像を重ね合わせて、一の合成画像の画像データＤ３（以下、「合成画像」と略称する）を生成する。尚、本実施形態に係る合成画像生成部３０は、人領域Ｒの画像を重ね合わせる。

図４は、合成画像生成部３０が重ね合わせる連続画像の一例を示す図である。

図４Ａ、図４Ｂ、図４Ｃでは、一例として、人が野球のバットをスイングしている動作の画像を示す。図４Ａ、図４Ｂ、図４Ｃの連続画像は、例えば、撮像装置２が生成した動画像中の連続する３フレーム分の画像を過去分から順に並べたものである（Ｄ１（ｔ−２）のフレーム、Ｄ１（ｔ−１）のフレーム、Ｄ１（ｔ）のフレーム）。

従来技術を参照して上記したように、人が動作している際に撮像した画像は、動作部位が画像中において不鮮明になるため、後述するＣＮＮの特徴点抽出において、抽出精度が悪化しやすい。尚、図４Ａ、図４Ｂ、図４Ｃ中では、人が野球のバットをスイングする動作によって、当該人の左肘ｐ３及び右肘ｐ４の部分が撮像装置２における結像が不鮮明になり、当該人の左肘ｐ３及び右肘ｐ４の画像が不鮮明になっている状態を表す。

本実施形態に係る合成画像生成部３０は、かかる観点から、連続画像を重ね合わせることによって、画像中の動作部位の領域を鮮明な画像とする。合成画像生成部３０の当該処理によって、特に、人体の関節位置のように、動作部位の起点となる位置の画像を鮮明にすることができる。又、当該処理によって、画像中で消失した状態となった動作部位の画像を他のフレームの画像によって補完することができる。

尚、合成画像生成部３０が重ね合わせる連続画像は、上記したように、撮像装置２が生成した動画像の連続フレームであってもよいし、動画像の連続フレームのうち、所定フレーム分間隔をあけたものであってもよい。又、動画像に代えて、連続写真（静止画）の画像であってもよい。但し、連続画像は、少なくとも一秒以下の時間間隔で撮像された画像を用いるのが望ましい。

図５は、図４Ａ、図４Ｂ、図４Ｃの連続画像を合成した合成画像の一例を示す図である。

図５においては、図４Ａ、図４Ｂ、図４Ｃの各画像中で不鮮明であった人体の関節位置（ここでは、左肘ｐ３、右肘ｐ４）が鮮明な画像になっている。

合成画像生成部３０は、例えば、連続画像の各画像のうち対象物体検出部２０が検出した人領域Ｒについて、各画像のグレースケールの輝度値を画素領域毎に加算することによって、合成画像を生成する。尚、かかる加算処理は、例えば、次式（１）のように表される。
D3(x、y)=D1(t-2、x、y)+D1(t-1、x、y)+D1(t、x、y) …式（１）
（但し、D3(x、y)は合成画像Ｄ３中のアドレス(x、y)における輝度値、D1(t-2、x、y)は画像Ｄ１（ｔ−２）中のアドレス(x、y)における輝度値、D1(t-1、x、y)は画像Ｄ１（ｔ−１）中のアドレス(x、y)における輝度値、D1(t、x、y)は画像Ｄ１（ｔ）中のアドレス(x、y)における輝度値、を表す）

尚、本実施形態に係る合成画像生成部３０は、各画像で検出された人領域Ｒのすべてが含まれるように、画像中における合成対象の領域を決定している。

但し、合成画像生成部３０において各画像の輝度値を画素領域毎に加算する際には、元の画像のアドレス位置のままであってもよいし、各画像のアドレス位置を所定の基準位置に位置合わせしたものであってもよい。

図６は、合成画像生成部３０が合成画像を生成する際の位置合わせについて説明する図である。

図６においては、合成画像生成部３０が、各画像の人領域Ｒを示す矩形領域の中心位置Ｇ点を一致させた状態で、連続画像を重ね合わせる態様を示している。このように、各画像の人領域Ｒのうち、人体の動きが少ない部位の位置（図６では、腹部の位置）を一致させた状態で、連続画像を重ね合わせることによって、合成画像をより鮮明にすることができる。

尚、合成画像生成部３０において合成画像を生成するための演算処理は、グレースケールの輝度値を加算する処理に代えて、特定の色（例えば、肌色）が強調されるように、所定の色空間（例えば、ＲＧＢ空間）に分解又は変換して輝度値を加算してもよい。又、輝度値が飽和しないように、各画像の輝度値の平均値を用いてもよい。

［特徴点抽出部］
特徴点抽出部４０は、合成画像生成部３０から合成画像Ｄ３を取得して、学習済みのＣＮＮモデル４１（以下、「ＣＮＮ」と略称）を用いて、合成画像中の対象物体の特徴点（ここでは、人体の関節位置）を抽出する。

特徴点抽出部４０が参照するＣＮＮ４１は、例えば、人体の画像と、当該画像中における人体の関節位置の座標（二次元位置又は三次元抽出位置）の対応関係を示す教師データによって学習処理が行われたものが用いられる（一般にＲ−ＣＮＮとも称される）。尚、当該ＣＮＮ４１の学習処理は、学習部５０によって行われる。

図７は、特徴点抽出部４０が用いるＣＮＮ４１の構成の一例を示す図である。

ＣＮＮ４１は、特徴抽出部Ｎａと識別部Ｎｂとを有し、特徴抽出部Ｎａが、入力される画像から画像特徴を抽出する処理を施し、識別部Ｎｂが、人体の関節位置の座標を識別する処理を施す。

特徴抽出部Ｎａは、複数の特徴量抽出層Ｎａ１、Ｎａ２・・・が階層的に接続されて構成される。各特徴量抽出層Ｎａ１、Ｎａ２・・・は、それぞれ、畳み込み層（Convolution layer）、活性化層（Activation layer）及びプーリング層（Pooling layer）を備える。

第１層目の特徴量抽出層Ｎａ１は、入力される画像を、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Ｎａ１は、走査したデータに対して、畳み込み層、活性化層及びプーリング層によって特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。第１層目の特徴量抽出層Ｎａ１は、例えば、水平方向に延びる線状の特徴量や斜め方向に延びる線状の特徴量等の比較的シンプルな単独の特徴量を抽出する。

第２層目の特徴量抽出層Ｎａ２は、前階層の特徴量抽出層Ｎａ１から入力される画像（以下、「特徴マップ」とも称する）を、例えば、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Ｎａ２は、走査したデータに対して、同様に、畳み込み層、活性化層及びプーリング層による特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。尚、第２層目の特徴量抽出層Ｎａ２は、第１層目の特徴量抽出層Ｎａ１が抽出した複数の特徴量の位置関係などを考慮しながら統合させることで、より高次元の複合的な特徴量を抽出する。

第２層目以降の特徴量抽出層（図示せず）は、第２層目の特徴量抽出層Ｎａ２と同様の処理を実行する。そして、最終層の特徴量抽出層の出力（複数の特徴マップのマップ内の各値）が、識別部Ｎｂに対して入力される。

識別部Ｎｂは、例えば、複数の全結合層（Fully Connected）が階層的に接続された多層パーセプトロンによって構成される。

識別部Ｎｂの入力側の全結合層は、特徴抽出部Ｎａから取得した複数の特徴マップのマップ内の各値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行って出力する。

識別部Ｎｂの次階層の全結合層は、前階層の全結合層の各素子が出力する値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行う。そして、識別部Ｎｂの最後段の全結合層には、人体の関節位置毎に、出力素子を設けておく。

このような構成を有するＣＮＮ４１について、識別部Ｎｂの最後段の全結合層が、人体の関節位置毎に座標を出力するように、予め、教師データを用いて学習処理を行っておく。これによって、ＣＮＮ４１は、合成画像に対して順伝搬処理を行うことで、人体の関節位置の座標（画像中の二次元座標や三次元抽出座標）を出力することができる。

図７中では、説明の便宜として、特徴量抽出層Ｎａを２階層、識別部Ｎｂを３階層のみを示すが、本実施形態に係るＣＮＮ４１においては、これらの階層数は任意である。又、各特徴量抽出層Ｎａ１、Ｎａ２・・・におけるフィルタ数、識別部Ｎｂの各全結合層における中間層の結合素子数等も、同様に、任意である。

尚、ＣＮＮを用いて、入力画像から人体の関節位置を抽出する手法は、公知の手法（例えば、非特許文献１を参照）であるため、ここでの説明は省略する。尚、非特許文献１と同様に、本実施形態に係るＣＮＮ４１においても、複数ステージのＣＮＮ処理層を用意してもよい。

本実施形態に係る特徴点抽出部４０は、合成画像を所定のサイズ及びアスペクト比に変換する等、画像の正規化を行った上で、上記したＣＮＮ４１の処理を行う。そして、特徴点抽出部４０は、例えば、図７のＯｕｔｐｕｔのように、合成画像に対して、抽出された人体の関節位置を示すマークを付して、表示装置（図示せず）等に表示させる。

本実施形態に係るＣＮＮ４１は、人体の関節位置として、左膝ｐ１、右膝ｐ２、左肘ｐ３、右肘ｐ４、左足首ｐ５、右足首ｐ６、左腰ｐ７、右腰ｐ８、左肩ｐ９、右肩ｐ１０、左手首ｐ１１、右手首ｐ１２、首ｐ１３、頭頂部ｐ１４の各部について、合成画像中における二次元座標を抽出して出力する構成となっている。

尚、特徴点抽出部４０が行う処理としては、上記したＣＮＮ４１による処理の他、シルエット抽出処理、領域分割処理、肌色抽出処理、輝度勾配抽出処理、動き抽出処理、形状モデルフィッティング等と組み合わせてもよい。又、特徴点抽出部４０は、人体の各部位毎に抽出処理を行って、これらを統合する方式を用いてもよい。

［学習部］
学習部５０は、特徴点抽出部４０のＣＮＮ４１が上記した処理を実行し得るように、教師データを用いた機械学習を実行する。

学習部５０は、例えば、正規化された人領域Ｒの画像と人の関節位置（二次元座標）が関連付けられた教師データを用いて、ＣＮＮ４１のネットワークパラメータ（例えば、特徴量抽出層Ｎａ及び識別部Ｎｂそれぞれの重み係数及びバイアス）を調整する。

尚、教師データとしては、複数の画像を重ね合わせた合成画像が用いられてもよい。

学習部５０は、例えば、公知の誤差逆伝搬法等（例えば、画像中における人の関節位置について、ＣＮＮ４１による推測位置と正解位置との距離を損失関数とする）を用いて、ＣＮＮ４１の学習処理を行う。そして、学習部５０は、学習処理によって調整したネットワークパラメータを学習済みのＣＮＮ４１として、記憶部（例えば、外部記憶装置１０４）に格納する。

以上のように、本実施形態に係る画像処理装置１は、対象物体を連続的に撮像した複数の画像を重ね合わせて生成した合成画像を用いて、特徴点抽出処理を行う。従って、本実施形態に係る画像処理装置１によれば、演算負荷を増加させることなく、高精度に対象物体の特徴点（特に、人体の関節位置）を抽出することができる。

（第２の実施形態）
次に、図８、図９を参照して、第２の実施形態に係る画像処理装置１について説明する。

図８は、第２の実施形態に係る画像処理装置１の全体構成の一例を示す図である。本実施形態に係る画像処理装置１は、第１の実施形態の画像処理装置１の構成に加えて、更に行動判別部６０を備えている点で、第１の実施形態の画像処理装置１と相違する。

行動判別部６０は、特徴点抽出部４０から、人体の関節位置を示すデータＤ４を取得して、当該人体の関節位置の時間的変化に基づいて行動クラスを決定し、当該行動クラスを示すデータＤ５を出力する。

一般に、人体の各部位の関節位置の時間的変化は、当該人体の姿勢（例えば、立位、座位、臥位）の時間的変化を表し、これによって当該人体の行動クラス（例えば、起床、物を取る、椅子から立ち上がる等）を判別することも可能である。

図９は、行動判別部６０が画像中の人Ｂ１の行動判別を行う際の処理を説明する図である。

図９Ａ、図９Ｂ、図９Ｃは、それぞれ、特徴点抽出部４０で抽出した人体の各部位の関節位置（人体の各部位の関節位置を線で結んだ状態で示している）を模式的に示している。ここでは、図９Ａ、図９Ｂ、図９Ｃの順で、人Ｂ１の姿勢が、ベッドＢ２に対して横になった状態から、起き上がった状態に経時的に変化する状態を示す。

行動判別部６０は、人体の各部の関節位置Ｄ４の時系列データによって、例えば、図９Ａ、図９Ｂ、図９Ｃのような情報を取得する。行動判別部６０は、かかる経時的な変化によって、人Ｂ１の行動クラスが、起床に該当すると判別することができる。

行動判別部６０は、例えば、リカレントニューラルネットワークを用いて、人体の各部の関節位置Ｄ４の時系列データから、行動クラスを判別する。リカレントニューラルネットワークとしては、例えば、各タイミングの人体の関節位置を入力とする階層構造の全結合層を設け、当該全結合層の出力素子が行動クラス毎（例えば、椅子に座る、ベッドから起床する等の行動毎）の確率を出力する構造とすればよい。

但し、行動判別部６０は、ベイズ分類器又はＳＶＭ等のその他の識別器を用いることもできるのは勿論である。

以上のように、本実施形態に係る画像処理装置１によれば、各画像の人体の関節位置を高精度に検出することができるため、これより、より高精度に人体の行動クラスを判別することが可能である。

（第３の実施形態）
次に、図１０を参照して、第３の実施形態に係る画像処理装置１について説明する。

本実施形態に係る画像処理装置１は、合成画像生成部３０が連続画像のそれぞれの画像の重みを異ならせて重ね合わせる点で、第１の実施形態の画像処理装置１と相違する。

図１０は、合成画像生成部３０が各画像について設定する重みの一例を示す図である。

図１０では、連続画像のうち、図１０Ａの画像Ｄ１（ｔ−２）には重みｗ３（例えば、０．２）が設定され、図１０Ｂの画像Ｄ１（ｔ−１）には重みｗ２（例えば、０．３）が設定され、図１０Ｃの画像Ｄ１（ｔ）には重みｗ１（例えば、０．５）が設定される。尚、図１０Ａ〜図１０Ｃは、図４Ａ〜図４Ｃと同一の連続画像である。

ここで、連続画像に対して設定する重みは、合成対象の各画像に対する強調度合いを表す。本実施形態に係る特徴点抽出部４０は、図１０Ａ〜図１０Ｃのうちいずれか１枚を最終的な出力画像（図７のｏｕｔｐｕｔ画像）としており、より好適には、上記した重みｗ１〜ｗ３は、当該出力画像（ここでは、図１０Ｃ）の重みが大きくなるように設定される。

合成画像生成部３０は、例えば、上式（１）と同様に、次式（２）のように、連続画像の各画像のグレースケールの輝度値を画素領域毎に加算することによって、合成画像Ｄ３を生成する。
D3(x、y)=w3×D1(t-2、x、y)+w2×D1(t-1、x、y)+w1×D1(t、x、y)…式(2)
（但し、w3は画像Ｄ１（ｔ−２）に対する重み、w2は画像Ｄ１（ｔ−１）に対する重み、w1は画像Ｄ１（ｔ）に対する重み、を表す）

以上のように、本実施形態に係る画像処理装置１によれば、演算負荷を増加させることなく、より高精度に対象物体の特徴点（特に、人体の関節位置）を抽出することができる。

（第４の実施形態）
次に、図１１〜図１２を参照して、第４の実施形態に係る画像処理装置１について説明する。

本実施形態に係る画像処理装置１は、合成画像生成部３０が対象物体の動作速度（ここでは、人体の所定部位の動作速度）に応じて、合成画像を生成する際の重ね合わせる画像数を異ならせる点で、第１の実施形態の画像処理装置１と相違する。

特徴点抽出部４０が合成画像から特徴点を抽出する際の抽出精度は、当該合成画像の鮮明さに依拠する。この点、人体の所定部位の動作速度が早い場合に、合成画像を生成する際に連続画像の重ね合わせる画像数が少ないと、当該合成画像中において、動作部位が鮮明なままになるおそれがある。一方、連続画像の重ね合わせる画像数が多いと、その分、対象物体検出部２０や合成画像生成部３０の演算負荷が増大する。

かかる観点から、本実施形態に係る合成画像生成部３０は、対象物体の動作速度が早い場合には、合成画像を生成する際に重ね合わせる連続画像の画像数を増加する。

図１１は、第４の実施形態に係る画像処理装置１の全体構成の一例を示す図である。本実施形態に係る画像処理装置１は、第１の実施形態の画像処理装置１の構成に加えて、更に動作速度検出部７０を備えている。

動作速度検出部７０は、例えば、動画像の画像データＤ１及び人領域ＲのデータＤ２を取得して、フレーム間差分法等を用いて、人の特定の部位の移動速度や人領域Ｒの移動速度等から人の動作速度を検出する。

但し、動作速度検出部７０が人の動作速度を検出する手法は、任意の手法であってよく、例えば、人の動作速度を検出するセンサ等から取得したセンサ値を用いてもよい。

又、本実施形態に係る合成画像生成部３０は、動作速度検出部７０が検出した人の動作速度に係るデータＤａを取得して、当該人の動作速度に係るデータＤａに基づいて、画像合成する際の画像数を決定する。

尚、ここで言う「画像合成する際の画像数」とは、所定時間内（例えば、１秒間）に連続的に撮像された複数の画像のうちの使用する画像数を意味する。例えば、合成画像生成部３０は、人の動作速度が早い場合には、１秒間の間に撮像された１０枚の画像のうち、１０枚全ての画像を画像合成する際の合成対象とし、人の動作速度が遅い場合には、１秒間の間に撮像された１０枚の画像のうち、３枚の画像を画像合成する際の合成対象とする。

図１２は、合成画像生成部３０が合成対象とする連続画像の一例を示す図である。

図１２Ａ〜図１２Ｅでは、図４Ａ〜図４Ｃと同じ時間間隔の中で撮像された複数の画像の中から、５枚の画像が画像合成する際の合成対象とされた態様を示している。

尚、図１２ＡのＤ１（ｔ−２）の画像、図１２ＣのＤ１（ｔ−１）の画像、図１２ＥのＤ１（ｔ）の画像は、それぞれ、図４ＡのＤ１（ｔ−２）の画像、図４ＢのＤ１（ｔ−１）の画像、図４ＣのＤ１（ｔ）の画像に相当する。そして、図１２ＢのＤ１（ｔ−１．５）の画像は、図１２ＡのＤ１（ｔ−２）の画像と図１２ＣのＤ１（ｔ−１）の画像の間に撮像された画像に相当し、図１２ＤのＤ１（ｔ−０．５）の画像は、図１２ＤのＤ１（ｔ−１）の画像と図１２ＥのＤ１（ｔ）の画像の間に撮像された画像に相当する。

このように、本実施形態に係る合成画像生成部３０は、人の動作速度が早い場合に、画像合成する際の画像数を増やす。これによって、より鮮明な合成画像を生成することができ、特徴点抽出部４０が合成画像から特徴点を抽出する際の抽出精度を高めることができる。

（その他の実施形態）
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。

上記実施形態では、画像処理装置１の構成の一例を種々に示した。但し、各実施形態で示した態様を種々に組み合わせたものを用いてもよいのは勿論である。

又、上記実施形態では、画像処理装置１が特徴点を抽出する対象の一例として、人体の関節位置を示した。但し、画像処理装置１が抽出対象とする動作物体の特徴点は、人体の関節位置に限らず、任意の動作物体の特徴点であってよい（例えば、人の顔の特徴点、動物の関節位置、ロボットの動作部位の連結部等）。

又、上記実施形態では、画像処理装置１の構成の一例として、画像取得部１０、対象物体検出２０、画像合成部３０、特徴点抽出部４０、学習部５０、行動判別部６０、及び動作速度検出部７０の機能が一のコンピュータによって実現されるものとして記載したが、複数のコンピュータによって実現されてもよいのは勿論である。又、当該コンピュータに読み出されるプログラムやデータも、複数のコンピュータに分散して格納されてもよい。

又、上記実施形態では、画像処理装置１の動作の一例として、画像取得部１０、対象物体検出２０、画像合成部３０、特徴点抽出部４０、行動判別部６０、及び動作速度検出部７０等の処理を一連のフローの中で実行されるものとして示したが、これらの処理の一部又は全部が並列で実行されるものとしてもよいのは勿論である。

以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。

１画像処理装置
２撮像装置
１０画像取得部
２０対象物体検出部
３０合成画像生成部
４０特徴点抽出部
４１ＣＮＮモデル
５０学習部
６０行動判別部
７０動作速度検出部
Ｄ１画像データ
Ｄ２人領域データ
Ｄ３合成画像データ
Ｄ４関節位置データ
Ｄ５行動クラス結果データ
Ｄａ動作速度データ

Claims

対象物体を連続的に撮像した複数の画像を取得する画像取得部と、
複数の前記画像を重ね合わせて、一の合成画像を生成する合成画像生成部と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する特徴点抽出部と、
を備える、画像処理装置。
前記対象物体の特徴点は、人体の関節位置を含む、
請求項１に記載の画像処理装置。
前記特徴点抽出部が抽出した人体の関節位置の時間的変化に基づいて、当該人体の行動クラスを判別する行動判別部、を更に備える、
請求項２に記載の画像処理装置。
前記画像中の前記対象物体を含む領域を検出する対象物体検出部、を更に備え、
前記合成画像生成部は、前記対象物体検出部が検出した前記対象物体を含む領域に基づいて、複数の前記画像中の重ね合わせる領域を設定する、
請求項１乃至３のいずれか一項に記載の画像処理装置。
前記合成画像生成部は、前記対象物体検出部が検出した前記対象物体を含む領域の所定の基準点に位置を揃えて、複数の前記画像を重ね合わせる、
請求項４に記載の画像処理装置。
前記合成画像生成部は、複数の前記画像それぞれに対して重み付けを行って、複数の前記画像を重ね合わせる、
請求項１乃至５のいずれか一項に記載の画像処理装置。
前記合成画像生成部は、前記対象物体を連続的に撮像した少なくとも３以上の前記画像を重ね合わせて、前記合成画像を生成する、
請求項１乃至６のいずれか一項に記載の画像処理装置。
前記対象物体の動作速度を検出する動作速度検出部、を更に備え、
前記合成画像生成部は、前記対象物体の動作速度に基づいて、所定時間中に生成された複数の前記画像のうち、重ね合わせる前記画像の画像数を決定する、
請求項１乃至７のいずれか一項に記載の画像処理装置。
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を備える、画像処理方法。
コンピュータに、
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を実行させる、画像処理プログラム。