JP2019003565A - 画像処理装置、画像処理方法、及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法、及び画像処理プログラム Download PDF

Info

Publication number
JP2019003565A
JP2019003565A JP2017119868A JP2017119868A JP2019003565A JP 2019003565 A JP2019003565 A JP 2019003565A JP 2017119868 A JP2017119868 A JP 2017119868A JP 2017119868 A JP2017119868 A JP 2017119868A JP 2019003565 A JP2019003565 A JP 2019003565A
Authority
JP
Japan
Prior art keywords
image
target object
images
image processing
composite image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017119868A
Other languages
English (en)
Inventor
希武 田中
Nozomu Tanaka
希武 田中
宏 大和
Hiroshi Yamato
宏 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017119868A priority Critical patent/JP2019003565A/ja
Publication of JP2019003565A publication Critical patent/JP2019003565A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】対象物体が動作している際に撮像された画像について、より高精度に、対象物体の特徴点(特に、人体の関節位置)を抽出し得る画像処理装置を提供すること。【解決手段】対象物体を連続的に撮像した複数の画像D1を取得する画像取得部10と、複数の前記画像を重ね合わせて、一の合成画像D3を生成する合成画像生成部30と、学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点D4を抽出する特徴点抽出部40と、を備える、画像処理装置。【選択図】図1

Description

本開示は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。
従来、取得した画像から人の行動を認識する技術が知られている。人の行動を認識する対象としては、例えば、就寝、起床、離床、座る、しゃがむ、歩行、食事、トイレ、外出、ものを取る、等のような日常生活における基本的な行動や、転倒、転落等の事故時に起こる行動が挙げられる。
これらの行動のうち、多くの行動は人の姿勢の変化を捉えることで認識することが可能である。例えば、就寝の行動としては、人がベッドに歩いて近づき、一旦座ってから横たわることが考えられる。この際においては、立位、座位、臥位の順に人の姿勢が変動する。このような行動を認識するためには、正確な姿勢を認識することが重要である。
このような背景から、人の関節位置を正確に抽出する画像解析技術の要請がある。
この点、畳み込みニュートラルネットワーク(Convolutional Neural Network:以下、「CNN」とも称する)を用いて、取得した画像の画像解析を行う技術が注目されている。CNNは、演算処理の負荷が軽負荷でありながら、画像中の対象物体を識別する際における、当該対象物体の位置や形状の変化に対するロバスト性が高く、高精度な画像認識が可能である。
例えば、非特許文献1には、CNNを用いて、取得した画像の画像解析を行って、人の関節位置を抽出する技術が開示されている。非特許文献1においては、複数ステージのCNN処理層を用意し、第1ステージで人の領域が含まれた画像から人の関節位置を抽出した後、当該関節位置の周辺の画像を再取得し、第2ステージで再取得後の画像を用いて、再度、関節位置を抽出する画像解析処理を行う。非特許文献1においては、このように、CNNの処理を繰り返し実行することによって、高精度に関節位置の抽出を行う。
ところで、実際に人の姿勢や行動を画像認識する際には、人が動作している場合においても、人の関節位置を正確に抽出することが求められる。
しかしながら、人が動作している際に撮像された画像は、撮像装置の特性上、動作部位の領域が不鮮明になるという特徴を有する。この点、非特許文献1の従来技術においては、この種の不鮮明な画像から、人の関節位置等を抽出することが困難である。
本開示は、かかる問題点に鑑みてなされたもので、対象物体が動作している際に撮像された画像について、より高精度に、対象物体の特徴点(特に、人体の関節位置)を抽出し得る画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。
前述した課題を解決する主たる本開示は、
対象物体を連続的に撮像した複数の画像を取得する画像取得部と、
複数の前記画像を重ね合わせて、一の合成画像を生成する合成画像生成部と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する特徴点抽出部と、
を備える、画像処理装置である。
又、他の側面では、
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を備える、画像処理方法である。
又、他の側面では、
コンピュータに、
対象物体を連続的に撮像した複数の画像を取得する処理と、
複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
を実行させる、画像処理プログラムである。
本開示に係る画像処理装置によれば、演算負荷を増大させることなく、より高精度に対象物体の特徴点を抽出することが可能である。
第1の実施形態に係る画像処理装置の全体構成の一例を示すブロック図 第1の実施形態に係る画像処理装置のハードウェア構成の一例を示す図 第1の実施形態に係る対象物体検出部が検出する人領域の一例を示す図 第1の実施形態に係る合成画像生成部が重ね合わせる連続画像の一例を示す図 図4A、図4B、図4Cの連続画像を合成した合成画像の一例を示す図 合成画像を生成する際の位置合わせについて説明する図 特徴点抽出部が用いるCNNの構成の一例を示す図 第2の実施形態に係る画像処理装置の全体構成の一例を示す図 第2の実施形態に係る行動判別部が画像中の人の行動判別を行う際の処理を説明する図 第3の実施形態に係る画像処理装置の全体構成の一例を示す図 第4の実施形態に係る画像処理装置の全体構成の一例を示す図 第4の実施形態に係る合成画像生成部が合成対象とする連続画像の一例を示す図
以下に添付図面を参照しながら、本開示の好適な実施形態について詳細に説明する。尚、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
(第1の実施形態)
[画像処理装置の全体構成]
以下、図1〜図3を参照して、第1の実施形態に係る画像処理装置1の構成の概要について説明する。以下では、一例として、画像処理装置1が、人体の関節位置を特徴点として抽出する態様について説明する。
図1は、画像処理装置1の全体構成の一例を示すブロック図である。
画像処理装置1は、画像取得部10、対象物体検出部20、合成画像生成部30、特徴点抽出部40、及び学習部50を備えている(詳細は後述する)。
本実施形態に係る画像処理装置1は、撮像装置2が生成した画像データを用いて、当該画像に映る人体の関節位置を抽出して、その結果を出力する。
撮像装置2は、例えば、一般的な可視光カメラや広角カメラであり、カメラの撮像素子が生成した画像信号をAD変換して、画像データを生成する。尚、撮像装置2としては、種々のカメラを用いることができ、ステレオカメラや赤外線カメラ等が用いられてもよい。
又、本実施形態に係る撮像装置2は、動画の画像データを生成可能に構成されている。但し、撮像装置2が生成する動画の画像データは、連続写真のように、フレーム単位の複数の静止画の画像データを連続的に生成するものであってもよい。以下では、かかる画像データを「連続画像」と総称して説明する。
図2は、本実施形態に係る画像処理装置1のハードウェア構成の一例を示す図である。
画像処理装置1は、主たるコンポーネントとして、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、外部記憶装置(例えば、フラッシュメモリ)104、及び通信インターフェイス105等を備えたコンピュータである。
画像処理装置1の後述する各機能は、例えば、CPU101がROM102、RAM103、外部記憶装置104等に記憶された制御プログラム(例えば、画像処理プログラム)や各種データ(例えば、学習済みのCNNのネットワークパラメータ等)を参照することによって実現される。但し、各機能の一部又は全部は、CPUによる処理に代えて、又は、これと共に、DSP(Digital Signal Processor)による処理によって実現されてもよい。又、同様に、各機能の一部又は全部は、ソフトウェアによる処理に代えて、又は、これと共に、専用のハードウェア回路による処理によって実現されてもよい。
[画像取得部]
画像取得部10は、撮像装置2が生成した連続画像の画像データD1を取得する。尚、連続画像の画像データD1とは、上記したように、対象物体を連続的に撮像した複数の静止画の画像データや、動画の画像データを表す。
尚、画像取得部10は、画像データD1を取得する際、撮像装置2から直接取得してもよいし、外部記憶装置104に格納された画像データD1や、インターネット回線等を介して提供された画像データD1を取得する構成であってもよい。
[対象物体検出部]
対象物体検出部20は、画像取得部10から画像データD1を取得して、当該画像データD1に対して所定の演算処理を施して、画像に映る対象物体の領域(ここでは、人体の映る領域を示す。以下、「人領域R」と称する)を検出する。
図3は、対象物体検出部20が検出する人領域Rの一例を示す図である。尚、図3中において、Rallは画像の全領域、Rは画像中の人領域を表している。
対象物体検出部20は、例えば、前後のフレーム間の差分を抽出するフレーム間差分法を用いて、人領域Rを検出する。但し、対象物体検出部20が人領域Rを検出する手法は、任意であり、上記手法の他、学習済みのニューラルネットワーク、テンプレートマッチング、HOG(Histograms of Oriented Gradients)特徴量とSVM(Support Vector Machine)の組み合わせ、又は背景差分法等の手法を用いてもよい。
[合成画像生成部]
合成画像生成部30は、対象物体検出部20から、連続画像の画像データD1及び人領域Rを示すデータD2を取得して、所定の演算処理によって当該連続画像を重ね合わせて、一の合成画像の画像データD3(以下、「合成画像」と略称する)を生成する。尚、本実施形態に係る合成画像生成部30は、人領域Rの画像を重ね合わせる。
図4は、合成画像生成部30が重ね合わせる連続画像の一例を示す図である。
図4A、図4B、図4Cでは、一例として、人が野球のバットをスイングしている動作の画像を示す。図4A、図4B、図4Cの連続画像は、例えば、撮像装置2が生成した動画像中の連続する3フレーム分の画像を過去分から順に並べたものである(D1(t−2)のフレーム、D1(t−1)のフレーム、D1(t)のフレーム)。
従来技術を参照して上記したように、人が動作している際に撮像した画像は、動作部位が画像中において不鮮明になるため、後述するCNNの特徴点抽出において、抽出精度が悪化しやすい。尚、図4A、図4B、図4C中では、人が野球のバットをスイングする動作によって、当該人の左肘p3及び右肘p4の部分が撮像装置2における結像が不鮮明になり、当該人の左肘p3及び右肘p4の画像が不鮮明になっている状態を表す。
本実施形態に係る合成画像生成部30は、かかる観点から、連続画像を重ね合わせることによって、画像中の動作部位の領域を鮮明な画像とする。合成画像生成部30の当該処理によって、特に、人体の関節位置のように、動作部位の起点となる位置の画像を鮮明にすることができる。又、当該処理によって、画像中で消失した状態となった動作部位の画像を他のフレームの画像によって補完することができる。
尚、合成画像生成部30が重ね合わせる連続画像は、上記したように、撮像装置2が生成した動画像の連続フレームであってもよいし、動画像の連続フレームのうち、所定フレーム分間隔をあけたものであってもよい。又、動画像に代えて、連続写真(静止画)の画像であってもよい。但し、連続画像は、少なくとも一秒以下の時間間隔で撮像された画像を用いるのが望ましい。
図5は、図4A、図4B、図4Cの連続画像を合成した合成画像の一例を示す図である。
図5においては、図4A、図4B、図4Cの各画像中で不鮮明であった人体の関節位置(ここでは、左肘p3、右肘p4)が鮮明な画像になっている。
合成画像生成部30は、例えば、連続画像の各画像のうち対象物体検出部20が検出した人領域Rについて、各画像のグレースケールの輝度値を画素領域毎に加算することによって、合成画像を生成する。尚、かかる加算処理は、例えば、次式(1)のように表される。
D3(x、y)=D1(t-2、x、y)+D1(t-1、x、y)+D1(t、x、y) …式(1)
(但し、D3(x、y)は合成画像D3中のアドレス(x、y)における輝度値、D1(t-2、x、y)は画像D1(t−2)中のアドレス(x、y)における輝度値、D1(t-1、x、y)は画像D1(t−1)中のアドレス(x、y)における輝度値、D1(t、x、y)は画像D1(t)中のアドレス(x、y)における輝度値、を表す)
尚、本実施形態に係る合成画像生成部30は、各画像で検出された人領域Rのすべてが含まれるように、画像中における合成対象の領域を決定している。
但し、合成画像生成部30において各画像の輝度値を画素領域毎に加算する際には、元の画像のアドレス位置のままであってもよいし、各画像のアドレス位置を所定の基準位置に位置合わせしたものであってもよい。
図6は、合成画像生成部30が合成画像を生成する際の位置合わせについて説明する図である。
図6においては、合成画像生成部30が、各画像の人領域Rを示す矩形領域の中心位置G点を一致させた状態で、連続画像を重ね合わせる態様を示している。このように、各画像の人領域Rのうち、人体の動きが少ない部位の位置(図6では、腹部の位置)を一致させた状態で、連続画像を重ね合わせることによって、合成画像をより鮮明にすることができる。
尚、合成画像生成部30において合成画像を生成するための演算処理は、グレースケールの輝度値を加算する処理に代えて、特定の色(例えば、肌色)が強調されるように、所定の色空間(例えば、RGB空間)に分解又は変換して輝度値を加算してもよい。又、輝度値が飽和しないように、各画像の輝度値の平均値を用いてもよい。
[特徴点抽出部]
特徴点抽出部40は、合成画像生成部30から合成画像D3を取得して、学習済みのCNNモデル41(以下、「CNN」と略称)を用いて、合成画像中の対象物体の特徴点(ここでは、人体の関節位置)を抽出する。
特徴点抽出部40が参照するCNN41は、例えば、人体の画像と、当該画像中における人体の関節位置の座標(二次元位置又は三次元抽出位置)の対応関係を示す教師データによって学習処理が行われたものが用いられる(一般にR−CNNとも称される)。尚、当該CNN41の学習処理は、学習部50によって行われる。
図7は、特徴点抽出部40が用いるCNN41の構成の一例を示す図である。
CNN41は、特徴抽出部Naと識別部Nbとを有し、特徴抽出部Naが、入力される画像から画像特徴を抽出する処理を施し、識別部Nbが、人体の関節位置の座標を識別する処理を施す。
特徴抽出部Naは、複数の特徴量抽出層Na1、Na2・・・が階層的に接続されて構成される。各特徴量抽出層Na1、Na2・・・は、それぞれ、畳み込み層(Convolution layer)、活性化層(Activation layer)及びプーリング層(Pooling layer)を備える。
第1層目の特徴量抽出層Na1は、入力される画像を、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na1は、走査したデータに対して、畳み込み層、活性化層及びプーリング層によって特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。第1層目の特徴量抽出層Na1は、例えば、水平方向に延びる線状の特徴量や斜め方向に延びる線状の特徴量等の比較的シンプルな単独の特徴量を抽出する。
第2層目の特徴量抽出層Na2は、前階層の特徴量抽出層Na1から入力される画像(以下、「特徴マップ」とも称する)を、例えば、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na2は、走査したデータに対して、同様に、畳み込み層、活性化層及びプーリング層による特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。尚、第2層目の特徴量抽出層Na2は、第1層目の特徴量抽出層Na1が抽出した複数の特徴量の位置関係などを考慮しながら統合させることで、より高次元の複合的な特徴量を抽出する。
第2層目以降の特徴量抽出層(図示せず)は、第2層目の特徴量抽出層Na2と同様の処理を実行する。そして、最終層の特徴量抽出層の出力(複数の特徴マップのマップ内の各値)が、識別部Nbに対して入力される。
識別部Nbは、例えば、複数の全結合層(Fully Connected)が階層的に接続された多層パーセプトロンによって構成される。
識別部Nbの入力側の全結合層は、特徴抽出部Naから取得した複数の特徴マップのマップ内の各値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行って出力する。
識別部Nbの次階層の全結合層は、前階層の全結合層の各素子が出力する値に全結合し、その各値に対して重み係数を異ならせながら積和演算を行う。そして、識別部Nbの最後段の全結合層には、人体の関節位置毎に、出力素子を設けておく。
このような構成を有するCNN41について、識別部Nbの最後段の全結合層が、人体の関節位置毎に座標を出力するように、予め、教師データを用いて学習処理を行っておく。これによって、CNN41は、合成画像に対して順伝搬処理を行うことで、人体の関節位置の座標(画像中の二次元座標や三次元抽出座標)を出力することができる。
図7中では、説明の便宜として、特徴量抽出層Naを2階層、識別部Nbを3階層のみを示すが、本実施形態に係るCNN41においては、これらの階層数は任意である。又、各特徴量抽出層Na1、Na2・・・におけるフィルタ数、識別部Nbの各全結合層における中間層の結合素子数等も、同様に、任意である。
尚、CNNを用いて、入力画像から人体の関節位置を抽出する手法は、公知の手法(例えば、非特許文献1を参照)であるため、ここでの説明は省略する。尚、非特許文献1と同様に、本実施形態に係るCNN41においても、複数ステージのCNN処理層を用意してもよい。
本実施形態に係る特徴点抽出部40は、合成画像を所定のサイズ及びアスペクト比に変換する等、画像の正規化を行った上で、上記したCNN41の処理を行う。そして、特徴点抽出部40は、例えば、図7のOutputのように、合成画像に対して、抽出された人体の関節位置を示すマークを付して、表示装置(図示せず)等に表示させる。
本実施形態に係るCNN41は、人体の関節位置として、左膝p1、右膝p2、左肘p3、右肘p4、左足首p5、右足首p6、左腰p7、右腰p8、左肩p9、右肩p10、左手首p11、右手首p12、首p13、頭頂部p14の各部について、合成画像中における二次元座標を抽出して出力する構成となっている。
尚、特徴点抽出部40が行う処理としては、上記したCNN41による処理の他、シルエット抽出処理、領域分割処理、肌色抽出処理、輝度勾配抽出処理、動き抽出処理、形状モデルフィッティング等と組み合わせてもよい。又、特徴点抽出部40は、人体の各部位毎に抽出処理を行って、これらを統合する方式を用いてもよい。
[学習部]
学習部50は、特徴点抽出部40のCNN41が上記した処理を実行し得るように、教師データを用いた機械学習を実行する。
学習部50は、例えば、正規化された人領域Rの画像と人の関節位置(二次元座標)が関連付けられた教師データを用いて、CNN41のネットワークパラメータ(例えば、特徴量抽出層Na及び識別部Nbそれぞれの重み係数及びバイアス)を調整する。
尚、教師データとしては、複数の画像を重ね合わせた合成画像が用いられてもよい。
学習部50は、例えば、公知の誤差逆伝搬法等(例えば、画像中における人の関節位置について、CNN41による推測位置と正解位置との距離を損失関数とする)を用いて、CNN41の学習処理を行う。そして、学習部50は、学習処理によって調整したネットワークパラメータを学習済みのCNN41として、記憶部(例えば、外部記憶装置104)に格納する。
以上のように、本実施形態に係る画像処理装置1は、対象物体を連続的に撮像した複数の画像を重ね合わせて生成した合成画像を用いて、特徴点抽出処理を行う。従って、本実施形態に係る画像処理装置1によれば、演算負荷を増加させることなく、高精度に対象物体の特徴点(特に、人体の関節位置)を抽出することができる。
(第2の実施形態)
次に、図8、図9を参照して、第2の実施形態に係る画像処理装置1について説明する。
図8は、第2の実施形態に係る画像処理装置1の全体構成の一例を示す図である。本実施形態に係る画像処理装置1は、第1の実施形態の画像処理装置1の構成に加えて、更に行動判別部60を備えている点で、第1の実施形態の画像処理装置1と相違する。
行動判別部60は、特徴点抽出部40から、人体の関節位置を示すデータD4を取得して、当該人体の関節位置の時間的変化に基づいて行動クラスを決定し、当該行動クラスを示すデータD5を出力する。
一般に、人体の各部位の関節位置の時間的変化は、当該人体の姿勢(例えば、立位、座位、臥位)の時間的変化を表し、これによって当該人体の行動クラス(例えば、起床、物を取る、椅子から立ち上がる等)を判別することも可能である。
図9は、行動判別部60が画像中の人B1の行動判別を行う際の処理を説明する図である。
図9A、図9B、図9Cは、それぞれ、特徴点抽出部40で抽出した人体の各部位の関節位置(人体の各部位の関節位置を線で結んだ状態で示している)を模式的に示している。ここでは、図9A、図9B、図9Cの順で、人B1の姿勢が、ベッドB2に対して横になった状態から、起き上がった状態に経時的に変化する状態を示す。
行動判別部60は、人体の各部の関節位置D4の時系列データによって、例えば、図9A、図9B、図9Cのような情報を取得する。行動判別部60は、かかる経時的な変化によって、人B1の行動クラスが、起床に該当すると判別することができる。
行動判別部60は、例えば、リカレントニューラルネットワークを用いて、人体の各部の関節位置D4の時系列データから、行動クラスを判別する。リカレントニューラルネットワークとしては、例えば、各タイミングの人体の関節位置を入力とする階層構造の全結合層を設け、当該全結合層の出力素子が行動クラス毎(例えば、椅子に座る、ベッドから起床する等の行動毎)の確率を出力する構造とすればよい。
但し、行動判別部60は、ベイズ分類器又はSVM等のその他の識別器を用いることもできるのは勿論である。
以上のように、本実施形態に係る画像処理装置1によれば、各画像の人体の関節位置を高精度に検出することができるため、これより、より高精度に人体の行動クラスを判別することが可能である。
(第3の実施形態)
次に、図10を参照して、第3の実施形態に係る画像処理装置1について説明する。
本実施形態に係る画像処理装置1は、合成画像生成部30が連続画像のそれぞれの画像の重みを異ならせて重ね合わせる点で、第1の実施形態の画像処理装置1と相違する。
図10は、合成画像生成部30が各画像について設定する重みの一例を示す図である。
図10では、連続画像のうち、図10Aの画像D1(t−2)には重みw3(例えば、0.2)が設定され、図10Bの画像D1(t−1)には重みw2(例えば、0.3)が設定され、図10Cの画像D1(t)には重みw1(例えば、0.5)が設定される。尚、図10A〜図10Cは、図4A〜図4Cと同一の連続画像である。
ここで、連続画像に対して設定する重みは、合成対象の各画像に対する強調度合いを表す。本実施形態に係る特徴点抽出部40は、図10A〜図10Cのうちいずれか1枚を最終的な出力画像(図7のoutput画像)としており、より好適には、上記した重みw1〜w3は、当該出力画像(ここでは、図10C)の重みが大きくなるように設定される。
合成画像生成部30は、例えば、上式(1)と同様に、次式(2)のように、連続画像の各画像のグレースケールの輝度値を画素領域毎に加算することによって、合成画像D3を生成する。
D3(x、y)=w3×D1(t-2、x、y)+w2×D1(t-1、x、y)+w1×D1(t、x、y)…式(2)
(但し、w3は画像D1(t−2)に対する重み、w2は画像D1(t−1)に対する重み、w1は画像D1(t)に対する重み、を表す)
以上のように、本実施形態に係る画像処理装置1によれば、演算負荷を増加させることなく、より高精度に対象物体の特徴点(特に、人体の関節位置)を抽出することができる。
(第4の実施形態)
次に、図11〜図12を参照して、第4の実施形態に係る画像処理装置1について説明する。
本実施形態に係る画像処理装置1は、合成画像生成部30が対象物体の動作速度(ここでは、人体の所定部位の動作速度)に応じて、合成画像を生成する際の重ね合わせる画像数を異ならせる点で、第1の実施形態の画像処理装置1と相違する。
特徴点抽出部40が合成画像から特徴点を抽出する際の抽出精度は、当該合成画像の鮮明さに依拠する。この点、人体の所定部位の動作速度が早い場合に、合成画像を生成する際に連続画像の重ね合わせる画像数が少ないと、当該合成画像中において、動作部位が鮮明なままになるおそれがある。一方、連続画像の重ね合わせる画像数が多いと、その分、対象物体検出部20や合成画像生成部30の演算負荷が増大する。
かかる観点から、本実施形態に係る合成画像生成部30は、対象物体の動作速度が早い場合には、合成画像を生成する際に重ね合わせる連続画像の画像数を増加する。
図11は、第4の実施形態に係る画像処理装置1の全体構成の一例を示す図である。本実施形態に係る画像処理装置1は、第1の実施形態の画像処理装置1の構成に加えて、更に動作速度検出部70を備えている。
動作速度検出部70は、例えば、動画像の画像データD1及び人領域RのデータD2を取得して、フレーム間差分法等を用いて、人の特定の部位の移動速度や人領域Rの移動速度等から人の動作速度を検出する。
但し、動作速度検出部70が人の動作速度を検出する手法は、任意の手法であってよく、例えば、人の動作速度を検出するセンサ等から取得したセンサ値を用いてもよい。
又、本実施形態に係る合成画像生成部30は、動作速度検出部70が検出した人の動作速度に係るデータDaを取得して、当該人の動作速度に係るデータDaに基づいて、画像合成する際の画像数を決定する。
尚、ここで言う「画像合成する際の画像数」とは、所定時間内(例えば、1秒間)に連続的に撮像された複数の画像のうちの使用する画像数を意味する。例えば、合成画像生成部30は、人の動作速度が早い場合には、1秒間の間に撮像された10枚の画像のうち、10枚全ての画像を画像合成する際の合成対象とし、人の動作速度が遅い場合には、1秒間の間に撮像された10枚の画像のうち、3枚の画像を画像合成する際の合成対象とする。
図12は、合成画像生成部30が合成対象とする連続画像の一例を示す図である。
図12A〜図12Eでは、図4A〜図4Cと同じ時間間隔の中で撮像された複数の画像の中から、5枚の画像が画像合成する際の合成対象とされた態様を示している。
尚、図12AのD1(t−2)の画像、図12CのD1(t−1)の画像、図12EのD1(t)の画像は、それぞれ、図4AのD1(t−2)の画像、図4BのD1(t−1)の画像、図4CのD1(t)の画像に相当する。そして、図12BのD1(t−1.5)の画像は、図12AのD1(t−2)の画像と図12CのD1(t−1)の画像の間に撮像された画像に相当し、図12DのD1(t−0.5)の画像は、図12DのD1(t−1)の画像と図12EのD1(t)の画像の間に撮像された画像に相当する。
このように、本実施形態に係る合成画像生成部30は、人の動作速度が早い場合に、画像合成する際の画像数を増やす。これによって、より鮮明な合成画像を生成することができ、特徴点抽出部40が合成画像から特徴点を抽出する際の抽出精度を高めることができる。
以上のように、本実施形態に係る画像処理装置1によれば、演算負荷を増加させることなく、より高精度に対象物体の特徴点(特に、人体の関節位置)を抽出することができる。
(その他の実施形態)
本発明は、上記実施形態に限らず、種々に変形態様が考えられる。
上記実施形態では、画像処理装置1の構成の一例を種々に示した。但し、各実施形態で示した態様を種々に組み合わせたものを用いてもよいのは勿論である。
又、上記実施形態では、画像処理装置1が特徴点を抽出する対象の一例として、人体の関節位置を示した。但し、画像処理装置1が抽出対象とする動作物体の特徴点は、人体の関節位置に限らず、任意の動作物体の特徴点であってよい(例えば、人の顔の特徴点、動物の関節位置、ロボットの動作部位の連結部等)。
又、上記実施形態では、画像処理装置1の構成の一例として、画像取得部10、対象物体検出20、画像合成部30、特徴点抽出部40、学習部50、行動判別部60、及び動作速度検出部70の機能が一のコンピュータによって実現されるものとして記載したが、複数のコンピュータによって実現されてもよいのは勿論である。又、当該コンピュータに読み出されるプログラムやデータも、複数のコンピュータに分散して格納されてもよい。
又、上記実施形態では、画像処理装置1の動作の一例として、画像取得部10、対象物体検出20、画像合成部30、特徴点抽出部40、行動判別部60、及び動作速度検出部70等の処理を一連のフローの中で実行されるものとして示したが、これらの処理の一部又は全部が並列で実行されるものとしてもよいのは勿論である。
以上、本発明の具体例を詳細に説明したが、これらは例示にすぎず、請求の範囲を限定するものではない。請求の範囲に記載の技術には、以上に例示した具体例を様々に変形、変更したものが含まれる。
本開示に係る画像処理装置によれば、演算負荷を増大させることなく、より高精度に対象物体の特徴点を抽出することが可能である。
1 画像処理装置
2 撮像装置
10 画像取得部
20 対象物体検出部
30 合成画像生成部
40 特徴点抽出部
41 CNNモデル
50 学習部
60 行動判別部
70 動作速度検出部
D1 画像データ
D2 人領域データ
D3 合成画像データ
D4 関節位置データ
D5 行動クラス結果データ
Da 動作速度データ

Claims (10)

  1. 対象物体を連続的に撮像した複数の画像を取得する画像取得部と、
    複数の前記画像を重ね合わせて、一の合成画像を生成する合成画像生成部と、
    学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する特徴点抽出部と、
    を備える、画像処理装置。
  2. 前記対象物体の特徴点は、人体の関節位置を含む、
    請求項1に記載の画像処理装置。
  3. 前記特徴点抽出部が抽出した人体の関節位置の時間的変化に基づいて、当該人体の行動クラスを判別する行動判別部、を更に備える、
    請求項2に記載の画像処理装置。
  4. 前記画像中の前記対象物体を含む領域を検出する対象物体検出部、を更に備え、
    前記合成画像生成部は、前記対象物体検出部が検出した前記対象物体を含む領域に基づいて、複数の前記画像中の重ね合わせる領域を設定する、
    請求項1乃至3のいずれか一項に記載の画像処理装置。
  5. 前記合成画像生成部は、前記対象物体検出部が検出した前記対象物体を含む領域の所定の基準点に位置を揃えて、複数の前記画像を重ね合わせる、
    請求項4に記載の画像処理装置。
  6. 前記合成画像生成部は、複数の前記画像それぞれに対して重み付けを行って、複数の前記画像を重ね合わせる、
    請求項1乃至5のいずれか一項に記載の画像処理装置。
  7. 前記合成画像生成部は、前記対象物体を連続的に撮像した少なくとも3以上の前記画像を重ね合わせて、前記合成画像を生成する、
    請求項1乃至6のいずれか一項に記載の画像処理装置。
  8. 前記対象物体の動作速度を検出する動作速度検出部、を更に備え、
    前記合成画像生成部は、前記対象物体の動作速度に基づいて、所定時間中に生成された複数の前記画像のうち、重ね合わせる前記画像の画像数を決定する、
    請求項1乃至7のいずれか一項に記載の画像処理装置。
  9. 対象物体を連続的に撮像した複数の画像を取得する処理と、
    複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
    学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
    を備える、画像処理方法。
  10. コンピュータに、
    対象物体を連続的に撮像した複数の画像を取得する処理と、
    複数の前記画像を重ね合わせて、一の合成画像を生成する処理と、
    学習済みの畳み込みニューラルネットワークを用いて、前記合成画像に基づいて、前記対象物体の特徴点を抽出する処理と、
    を実行させる、画像処理プログラム。
JP2017119868A 2017-06-19 2017-06-19 画像処理装置、画像処理方法、及び画像処理プログラム Pending JP2019003565A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017119868A JP2019003565A (ja) 2017-06-19 2017-06-19 画像処理装置、画像処理方法、及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017119868A JP2019003565A (ja) 2017-06-19 2017-06-19 画像処理装置、画像処理方法、及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2019003565A true JP2019003565A (ja) 2019-01-10

Family

ID=65004839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017119868A Pending JP2019003565A (ja) 2017-06-19 2017-06-19 画像処理装置、画像処理方法、及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2019003565A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140700A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 検出装置および方法、ならびに画像処理装置およびシステム
JP2020534594A (ja) * 2017-09-21 2020-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 画像分類タスクの機械学習を実施するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびコンピュータ処理システム、ならびに自動車のための先進運転者支援システム
KR20210014988A (ko) * 2019-07-31 2021-02-10 (주)유디피 원격 모니터링을 위한 영상 분석 시스템 및 방법
WO2021261547A1 (ja) 2020-06-25 2021-12-30 興和株式会社 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム
WO2024029382A1 (ja) * 2022-08-05 2024-02-08 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020534594A (ja) * 2017-09-21 2020-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 画像分類タスクの機械学習を実施するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびコンピュータ処理システム、ならびに自動車のための先進運転者支援システム
JP7034265B2 (ja) 2017-09-21 2022-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 画像分類タスクの機械学習を実施するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびコンピュータ処理システム、ならびに自動車のための先進運転者支援システム
JP2020140700A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 検出装置および方法、ならびに画像処理装置およびシステム
KR20210014988A (ko) * 2019-07-31 2021-02-10 (주)유디피 원격 모니터링을 위한 영상 분석 시스템 및 방법
KR102247359B1 (ko) * 2019-07-31 2021-05-04 (주)유디피 원격 모니터링을 위한 영상 분석 시스템 및 방법
WO2021261547A1 (ja) 2020-06-25 2021-12-30 興和株式会社 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム
WO2024029382A1 (ja) * 2022-08-05 2024-02-08 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法

Similar Documents

Publication Publication Date Title
US11302009B2 (en) Method of image processing using a neural network
JP2019003565A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP4930854B2 (ja) 関節物体位置姿勢推定装置及びその方法ならびにプログラム
WO2018163555A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP5873442B2 (ja) 物体検出装置および物体検出方法
CN107767419A (zh) 一种人体骨骼关键点检测方法及装置
JP2021516409A (ja) 視線追跡方法およびシステム
Koujan et al. Real-time facial expression recognition “in the wild” by disentangling 3d expression from identity
JP2018206321A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP6773829B2 (ja) 対象物認識装置、対象物認識方法、及び対象物認識プログラム
Ahmad et al. Human action recognition using convolutional neural network and depth sensor data
JP2020135747A (ja) 行動分析装置および行動分析方法
CN111898571A (zh) 动作识别系统及方法
JP2019175093A (ja) 推定装置、推定方法、推定プログラム、学習装置、学習方法、及び学習プログラム
CN114511931A (zh) 基于视频图像的动作识别方法、装置、设备及存储介质
Krzeszowski et al. Gait recognition based on marker-less 3D motion capture
Yan et al. Human-object interaction recognition using multitask neural network
CN116895098A (zh) 基于深度学习和隐私保护的视频人体动作识别系统与方法
Chen et al. Prior-knowledge-based self-attention network for 3D human pose estimation
CN113378799A (zh) 基于目标检测和姿态检测框架的行为识别方法及系统
JP2006215743A (ja) 画像処理装置及び画像処理方法
Shi et al. Fbi-pose: Towards bridging the gap between 2d images and 3d human poses using forward-or-backward information
Arowolo et al. Development of a human posture recognition system for surveillance application
Raja et al. Design and implementation of facial recognition system for visually impaired using image processing
CN112861699A (zh) 一种基于单张深度图像和多阶段神经网络的任意姿势人体身高估计方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190708

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191011