JP6859765B2 - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP6859765B2
JP6859765B2 JP2017047879A JP2017047879A JP6859765B2 JP 6859765 B2 JP6859765 B2 JP 6859765B2 JP 2017047879 A JP2017047879 A JP 2017047879A JP 2017047879 A JP2017047879 A JP 2017047879A JP 6859765 B2 JP6859765 B2 JP 6859765B2
Authority
JP
Japan
Prior art keywords
distribution
image
image processing
importance
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017047879A
Other languages
English (en)
Other versions
JP2018151887A (ja
Inventor
崇之 原
崇之 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2017047879A priority Critical patent/JP6859765B2/ja
Priority to US15/913,950 priority patent/US10878265B2/en
Publication of JP2018151887A publication Critical patent/JP2018151887A/ja
Application granted granted Critical
Publication of JP6859765B2 publication Critical patent/JP6859765B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。
従来、画像から重要領域を抽出する技術が知られている。この技術は、画像の自動クロッピング/サムネイル生成や、画像理解/画像検索におけるアノテーション生成の前処理などに広く利用されている。重要領域の抽出方法としては、物体認識や顕著性マップを用いる方法が知られている(例えば特許文献1〜特許文献5、非特許文献1〜非特許文献6参照)。
従来の技術は、撮影された画像内の位置情報に基づき重要度分布(顕著性マップを含む)をクラスタリングして1以上の重要領域を抽出する形態であった。しかしながら、このように画像内での位置をもとにクラスタリングを行うと、実際の撮影方向の関係性を加味できない。たとえば、ピンホールカメラモデルでレンズ歪みを補正した場合でも、画像中心部分の隣接画素間の撮影角度と画像周辺部の隣接画素間の撮影角度との角度差は異なる(図1参照)。この差異は広角になるほど顕著になり、魚眼カメラ、全方位カメラ、全天球カメラ等では極めて大きな差異となる。
さらに、従来の技術では、実際の撮影方向の影響を加味した重要領域の設定を行うことはできなかった。
本発明は、上記に鑑みてなされたものであり、実際の撮影方向の影響を加味した重要領域の設定を行うことが可能な画像処理装置、画像処理方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、処理対象の画像に対して、前記画像における複数の位置ごとの重要度を算出する重要度算出部と、前記複数の位置の各々における三次元空間中での撮影方向を取得する撮影方向取得部と、前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定部と、前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定部と、を備える画像処理装置である。
本発明によれば、実際の撮影方向の影響を加味した重要領域の設定を行うことが可能になる。
図1は、従来の問題を説明するための図である。 図2は、第1の実施形態の画像処理装置のハードウェア構成の一例を示す図である。 図3は、第1の実施形態の画像処理装置が有する機能の一例を示す図である。 図4は、第1の実施形態において撮影方向を算出する方法を示す図である。 図5は、撮影方向に対する重要度の分布をモデル化したイメージを表す図である。 図6は、第1の実施形態の画像処理装置の動作例を示すフローチャートである。 図7は、重要領域が設定される様子を表すイメージ図である。 図8は、緯度・経度の二次元座標で正方格子状に画素値が配置されたEquirectangular形式で表される画像の例を示す図である。 図9は、第2の実施形態の画像処理装置が有する機能の一例を示す図である。 図10は、第2の実施形態の画像処理装置の動作例を示すフローチャートである。 図11は、透視投影画像に対応する領域として重要領域が設定される場合の例を示す図である。 図12は、第2の実施形態において撮影方向に対してクラスタリングを行った例を示す図である。 図13は、第3の実施形態の画像処理装置が有する機能の一例を示す図である。 図14は、三次元空間中でスプライン曲線を求める場合の例を示す図である。 図15は、第3の実施形態の画像処理装置の動作例を示すフローチャートである。 図16は、第4の実施形態の画像処理装置が有する機能の一例を示す図である。 図17は、第4の実施形態の画像処理装置の動作例を示すフローチャートである。 図18は、第5の実施形態の画像処理装置が有する機能の一例を示す図である。 図19は、第5の実施形態の画像処理装置の動作例を示すフローチャートである。 図20は、画像特徴として物体認識結果から得る物体の確信度を使う場合を説明するための図である。 図21は、第6の実施形態の画像処理装置が有する機能の一例を示す図である。 図22は、第6の実施形態において、ユーザに提示する画面の一例を示す図である。
以下、添付図面を参照しながら、本発明に係る画像処理装置、画像処理方法およびプログラムの実施形態を詳細に説明する。
(第1の実施形態)
図2は、本実施形態の画像処理装置100のハードウェア構成の一例を示す図である。図2に示すように、画像処理装置100は、CPU11、ROM12、RAM13、入力部14、表示部15、接続I/F16を備える。
CPU11は、画像処理装置100の動作を統括的に制御する。CPU11は、RAM13の所定の領域を作業領域として、ROM12に記録された各種制御プログラムを実行して、画像処理装置100が有する各種の機能を実現させる。画像処理装置100が有する機能の具体的な内容については後述する。
ROM12は、画像処理装置100に関わるプログラムや各種設定情報などを記憶する不揮発性のメモリ(書き換え不可能なメモリ)である。
RAM13は、例えばSDRAMなどの記憶手段であって、CPU11の作業エリアとして機能し、バッファなどの役割を果たす。
入力部14は、ユーザからの入力(操作入力)を受け付けるためのデバイスである。
表示部15は、画像処理装置100に関する各種の情報を表示するデバイスであり、例えば液晶ディスプレイなどで構成される。なお、表示部15と入力部14とが一体的に構成されるタッチパネル等の形態であってもよい。
接続I/F16は、外部機器と接続するためのインタフェースである。
図3は、本実施形態の画像処理装置100が有する機能の一例を示す図である。図3に示すように、画像処理装置100は、記憶装置、画像読み込み部101、重要度算出部102、撮影方向取得部103、パラメータ推定部104、重要領域設定部105を有する。説明の便宜上、図3の例では、本実施形態に関する機能を主に例示しているが、情報処理装置130が有する機能はこれらに限られるものではない。
記憶装置20は、例えば半導体記憶装置としてROM12やRAM13、ハードディスク、光ディスクなどで構成される。この例では、画像処理装置100が記憶装置20を有しているが、これに限らず、例えばハードディスク等で構成された記憶装置20が、接続I/F106を介して画像処理装置100と接続される形態であっても構わない。ここでは、記憶装置20は、処理対象の画像を記憶している。処理対象の画像としては、カメラ等の撮影装置によって撮影された撮影画像等である。
画像読み込み部101は、記憶装置20から処理対象の画像を読み込む。
重要度算出部102は、画像読み込み部101によって読み込まれた処理対象の画像に対して、該画像における複数の位置ごとの重要度を算出する。複数の位置は、画素単位または特定のサンプリング位置などである。重要度を算出する方法は特に限定されず、様々な方法を採用することができる。例えば頭や人物などの特定の物体を抽出して、該特定の物体が存在する位置の重要度を高くしても良いし、非特許文献1,3のような方法で顕著性を抽出してそれを重要度としても良いし、特許文献5のように重要人物を特定して重要人物の位置の重要度を高く設定しても良い。また、複数の方法で算出した重要度の和を用いても良い。
撮影方向取得部103は、画像の複数の位置ごとに三次元空間中での撮影方向を取得する。画像上の位置に対する撮影方向とは、該位置に撮像される三次元空間中の点の方向を意味している。方向を表現するために任意の座標系を取ることができ、典型的にはカメラ撮像面の水平方向、垂直方向、光軸方向の3軸を取った座標系を用いることができる。カメラの内部パラメータとして光軸中心、焦点距離とレンズ歪みが既知であれば、図4に示すように透視投影変換の逆変換を考えることで撮影画像中の位置に対応した撮影方向を算出することができる。なお、以降の処理では相対座標のみが必要なので、カメラの外部パラメータとして世界座標系に対する回転・並進は既知である必要はない。カメラの内部パラメータ及びレンズ歪みは、たとえば非特許文献4の方法で予め同定したものを用いることができる。
パラメータ推定部104は、撮影方向ごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。この例では、要素分布はvon Mises-Fisher分布である。また、パラメータは、要素分布の平均方向を示す第1パラメータμと、分布が平均方向の付近に集中している度合いを示す第2パラメータkと、を含む。なお、パラメータ推定部104は、要素分布のパラメータを推定する方法として、k-means法、EMアルゴリズム、変分ベイズ法およびモンテカルロ法の何れかを使用することもできる。以下、本実施形態におけるパラメータ推定方法の具体的な内容を説明する。
ここでは、要素分布として、3次元von Mises-Fisher分布を用いる。D次元von Mises-Fisher分布とは、D次元ユークリッド空間の単位ベクトルxに対して、パラメータ(μ,k)の下で以下の式1で表されるような確率密度分布を持つものである。
Figure 0006859765
ここで、C(k)は正規化定数である。これを要素分布として、M個の要素分布から成る混合von Mises-Fisher分布p(x)は以下の式(2)で表すことができる。
Figure 0006859765
上記式(2)において、πiは混合率のパラメータである。図5はp(x)によって、撮影方向xに対する重要度の分布をモデル化したイメージを表す図である。撮影方向取得部103により得られた撮影方向はN個に離散化されており、それらの集合をD={xN n=1とする。さらに、隠れ変数Z={{Zn mN n=1M m=1を導入し、Zn mは撮影方向xが要素分布mに属する時に1、属さない時に0を取るものとする。撮影方向xに対する重要度をI(x)とすると、重要度分布を上記式2で表現する際のD,Zの結合確率は、以下の式(3)で表すことができる。
Figure 0006859765
そして、隠れ変数のZを積分消去した(定義域に渡って和を取る)、以下の式(4)で表される尤度関数を考える。
Figure 0006859765
この尤度関数を最大化するように、パラメータμ,k,πを求める。尤度関数の最大化には、ニュートン法などの非線形計画法やEMアルゴリズムを用いることができる。また、EMアルゴリズムの簡略化としてk-means法を用いることもできる。なお、離散化された撮影方向D={xN n=1は等間隔ではないので、上記式(3)において間隔に合わせて補正係数を乗じて積和演算を行うことが望ましい。以上のように、パラメータ推定部104は各要素分布のパラメータを推定する。
図3に戻って説明を続ける。重要領域設定部105は、パラメータ推定部104により推定されたパラメータに基づいて、処理対象の画像から重要領域を設定する。つまり、パラメータに対応した位置、大きさ、形状、投影方式で重要領域となる部分画像を生成する。パラメータ推定部104が要素分布に3次元von Mises-Fisher分布を用いる場合、重要領域設定部105は、要素分布の平均方向μを中心とし、集中度kに応じてサイズを決定することで重要領域を設定する。重要領域の形状として矩形を想定し、矩形内の要素分布の累積確率が特定閾値として0.9等になるように矩形のサイズを決めることができる。矩形以外の形状でも同様である。円形状の場合は累積確率の計算が解析的に求まるので、計算の高速化を実現することができる。
図6は、本実施形態の画像処理装置100の動作例を示すフローチャートである。各ステップの具体的な内容は上述したとおりであるので詳細な説明は適宜に省略する。まず画像読み込み部101は、記憶装置20から処理対象の画像を読み込む(ステップS101)。次に、重要度算出部102は、ステップS101で読み込まれた画像に対して、該画像における各位置の重要度を算出する(ステップS102)。次に、撮影方向取得部103は、上記各位置の三次元空間中での撮影方向を取得する(ステップS103)。次に、パラメータ推定部104は、撮影方向別の重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する(ステップS104)。次に、重要領域設定部105は、ステップS104で推定されたパラメータに基づいて、ステップS101で読み込まれた画像から、1以上の重要領域を設定する(ステップS105)。図7は、以上のステップS104からステップS105を経て重要領域が設定される様子を表すイメージ図である。図7では、複雑な形状を持つ重要度分布が、混合von Mises Fisher分布として近似され、各要素分布に対して中心を同一とし、要素分布の広がり(集中度k)に応じたサイズで重要領域が矩形状に設定される例を示している。
以上のようにして、処理対象の画像として入力された画像から1以上の重要領域を設定することができる。従来の全方位カメラや全天球カメラでは撮影画像の画素の接続関係にループがあり(撮影面が球面、あるいは球面の一部と見なせる)、2次元ユークリッド空間でのクラスタリングではループの影響を反映させることができなかった。ここでループとは、ある画素から特定方向に隣接画素をたどっていった時に元の画素に戻るような接続関係のことを意味している。そこで、本実施形態では、撮影方向に対する重要度分布を考えてクラスタリングする(混合分布の要素分布のパラメータを求める)ことで、実際の撮影方向の角度差を重要領域の抽出結果に反映させることができる。これによって、特に広角で撮影された画像に対して、中心部と周辺部で同様の基準で重要度領域を抽出することが可能となる。例えば、隣接画素との撮影角度差の小さい周辺部で大きな重要領域が生成されやすくなることを防ぐことができる。
以上より、本実施形態によれば、実際の撮影方向の影響を加味した重要領域の設定が可能になる。
なお、上記例では最尤推定によりパラメータを求めたがこの限りではない。パラメータμ,k,πに対して事前分布p(μ),p(k),p(π)を設定して、パラメータμ,k,πのDに対する事後分布を求めることもできる。最終的にパラメータを一つに決める際には、事後分布の期待値や最大値を取れば良い。一般的に、パラメータμ,k,πの事後分布を求めるには、周辺尤度導出の処理コストが高い。そこで事後分布の近似的な導出に変分ベイズ法を用いることができる。まず、以下の式(5)で表される尤度関数を考える。
Figure 0006859765
ここで、パラメータ分布q(Z,μ,k,π)を導入し、以下の式(6)で表される対数尤度の下限を考える。
Figure 0006859765
この対数尤度の下限を最大化するように、パラメータ分布q(Z,μ,k,π)を求める(事後分布に一致する時に尤度下限が最大となるパラメータ分布q(Z,μ,k,π)を求める)。パラメータ分布q(Z,μ,k,π)にパラメータの独立性を仮定して分布を求めるのが変分ベイズ法である。事前分布としては、好適にはp(μ)にvon Mises-Fisher分布、p(k)に対数正規分布、p(π)にディリクレ分布を設定することができるが、これに限定するものではない。このように事前分布を設定することで、ロバスト性を増し、特にデータ数が少ない時の精度が向上する。なお、パラメータの事後分布を求める方法として、変分ベイズ法以外に、マルコフ連鎖モンテカルロ法を用いることもできる。また、要素分布としてvon Mises-Fisher分布以外の分布を設定することもできる。たとえば2次項を導入した以下の式(7)で表される確率密度関数を要素分布としてもよい。
Figure 0006859765
同様に3次以上の確率密度関数も考えることができ、パラメータはマルコフ連鎖モンテカルロ法によって推定することができる。また、指数関数型以外の例として、以下の式(8)のように複数の基底分布η={ηi}の混合率α={αi}での線形結合として要素分布を表現しても良い。
Figure 0006859765
このように設定すると、全体としては二階層の混合分布となり、EMアルゴリズム、または変分ベイズ法、またはモンテカルロ法を階層的に用いることでパラメータα、ηを求めることができる。または基底分布ηは事前に設定しておき、処理対象画像に対してαのみを推定しても良い。この場合、基底分布ηは人手で設定しても良いし、人手で設定した構図の重要度分布を訓練データとして最尤推定、MAP推定、ベイズ推定等により、求めても良い。
さらに、要素分布は同じ系列の分布である必要はなく、様々な形の分布を組み合わせて使用しても良い。つまり、θというパラメータを持つ要素分布fを設定し、上記式(2)を以下の式(9)で表される確率密度関数で置き換えることも可能である。
Figure 0006859765
Von Mises-Fisher分布と同様に、θに事前分布を仮定して、変分ベイズ法やモンテカルロ法でθの事後分布を求めることもできる。このようにして、生成される重要領域の多様性を増すことができる。要素分布にvon Mises-Fisher分布以外の分布を使った場合でも、図6のステップS105の重要領域設定において、要素分布の平均を重要領域の中心とし、要素分布の累積確率が特定値になるように大きさや形状を決定することができる。以上の例では混合率を撮影方向に非依存としたが、撮影方向xごとに異なる混合率πn mを持つと仮定して、上記式(2)を以下の式(10)で置き換えることもできる(トピックモデル)。
Figure 0006859765
この場合でも上記と同様の議論で尤度関数を構築し、EMアルゴリズム、変分ベイズ法、モンテカルロ法で要素分布のパラメータθを求めることができる。このモデルでは、撮影方向ごとに複数の要素分布に属することができ、一つの撮影方向が複数の部分画像に含まれるようなオーバーラップのある多様な部分画像分割が実現される。
以上の例では、要素分布数Mを固定していたが、画像に合わせて適応的に要素分布数を決定することもできる。例えば十分大きなMでクラスタリングを行い、各要素分布の混合率πを算出し、混合率が特定閾値以上となるクラスタを最終的に採用する方法などが考えられる。また混合率でクラスタ数を絞ってMを更新し、再度クラスタリングをしても良い。また、要素分布の無限混合を考え、p(π)にディリクレ過程を設定してパラメータ推定し、混合率が特定閾値以上となるクラスタを最終的に採用する方法(ノンパラメトリックベイズ法)を用いることもできる。
(第2の実施形態)
次に、第2の実施形態について説明する。第1の実施形態と共通する部分については適宜に説明を省略する。ここでは、入力された全天球画像から1つ以上の重要領域を抽出する例を示す。全天球画像とは水平角度360度、垂直角度180度の全視野に渡って撮影された画像である。画像の表現形式として、図8のような、緯度・経度の二次元座標で正方格子状に画素値が配置されたEquirectangular形式を用いることができる。
図9は、本実施形態の画像処理装置200が有する機能の一例を示す図であり、図10は、本実施形態の画像処理装置200の動作例を示すフローチャートである。基本的には第1の実施形態と同様の動作であるので、以下では相違する部分のみを説明する。
図10に示すステップS203において、撮影方向取得部203は、全天球画像の各位置の撮影方向を算出する。入力画像がEquirectangular形式であれば、図8の極座標と二次元座標の対応関係から撮影方向を算出することができる。
また、図10に示すステップS205において、重要領域設定部205は、要素分布のパラメータから重要領域を設定する。重要領域はEquirectangular形式の画像上で矩形領域として設定しても良いし、図11のような透視投影画像に対応する領域として設定しても良い。
本実施形態例によれば、入力された全天球画像から1つ以上の重要領域を抽出することができる。図8に示したEquirectangular形式の左右端は接続しており、上下端はそれぞれ一点に収束する。具体的には、図12のように、単位球画像からEquirectangular形式の画像に変換したとき、クラスタ1やクラスタ2の左右端は接続されるように展開されている。また、本実施形態のように撮影方向に対してクラスタリングを行うことで、全天球画像の位相構造を反映させた重要領域抽出が可能となる。
(第3の実施形態)
次に、第3の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。ここでは、入力された全天球画像から1つ以上の重要領域を抽出し、その重要領域間を遷移して表示する動画を生成する例を示す。
図13は、本実施形態の画像処理装置300が有する機能の一例を示す図であり、軌道生成部306および動画生成部307をさらに有する。
軌道生成部306は、設定された重要領域間を遷移する軌道を生成する。軌道生成には、複数の重要領域の遷移順序と、実際の遷移軌道の決定が必要である。遷移順序が決定した状態であれば、重要領域間の遷移の曲線はたとえばスプライン曲線で求めることができる。スプライン曲線とは、曲線手法の一つで設定した点を滑らかに通る線をさす。スプライン曲線は二次元画像上の画素位置に対して求めても良いし、撮影方向の単位ベクトルを制御点として三次元空間中で求めても良い(図14参照)。
スプライン曲線の他にも、直線で重要領域間を結ぶ軌道を生成しても良い。また、重要領域のサイズとして、たとえば矩形の大きさの変化についても、スプライン補間を行うことで、滑らかな変化を見せることができる。曲線や直線が生成された後に、実際の時間tに対する曲線上の位置s(t)=(x(t),y(t))またはs(t)=(x(t),y(t),z(t))を決める必要がある。これは等速運動としても良いし、躍度最小モデル(非特許文献5参照)に従い滑らかな速度変換を実現することもできる。このようにして、順序付けられた重要領域間の遷移軌道を生成できる。
次に、重要領域の遷移順序の決定法について説明する。重要領域の遷移順序のすべての組み合わせ(M個の重要領域があればM!通り)について遷移軌道を生成し、その軌道の評価値を算出し、最良の評価値となる遷移順序を採用する方法を取ることができる。軌道の評価値は、たとえば遷移曲線や直線の長さ、累積曲率、累積重要度(遷移軌道の通る重要度の和)などを用いて計算することができる。要するに、軌道生成部306は、重要領域の遷移順序の全ての組み合わせごとに軌道を生成し、生成した軌道の長さ、曲率の累積を示す累計曲率、重要度の累積を示す累積重要度を用いて、軌道ごとの評価値を算出し、軌道ごとの評価値に基づいて遷移順序を決定する。
動画生成部307は、軌道生成部306により生成された遷移軌道にしたがって仮想的なカメラを動かし、重要領域間を遷移する動画を生成する。
図15は、本実施形態の画像処理装置300の動作例を示すフローチャートである。ステップS306およびステップS307が追加されている点が図10に示すフローと異なる。ステップS306において、軌道生成部306は、ステップS205で設定された重要領域間を遷移する軌道を生成する。その後のステップS307において、動画生成部307は、ステップS306で生成された軌道にしたがって仮想的なカメラを動かし、重要領域間を遷移する動画を生成する(ステップS307)。
以上に説明した本実施形態によれば、入力された全天球画像から1つ以上の重要領域を抽出し、その重要領域間を遷移して表示する動画を生成することができる。以上においては、第2の実施形態に対応して全天球画像に対する動画生成を述べたが、これに限らず、例えば第1の実施形態に対応させて、通常の画像に対して動画を生成させることもできる。
(第4の実施形態)
次に、第4の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、入力された画像を分類し、分類に応じてバリエーションを切り替えて重要領域設定、軌道生成を行う場合を例に挙げて説明する。
図16は、本実施形態の画像処理装置400が有する機能の一例を示す図である。図16に示すように、画像処理装置400は、画像分類部401をさらに有する点で図13に示す構成と相違する。
画像分類部401は、重要度が算出された画像のカテゴリを推定し、推定したカテゴリに応じて重要領域の設定方法を可変に設定する。この例では、画像分類部401は、推定したカテゴリに応じて、重要領域の設定方法および軌道の生成方法を可変に設定する。画像分類には、例えば非特許文献6のような一般的な画像分類のアルゴリズムを使うことができる。分類のカテゴリとして、人物、風景、スポーツなどといったものが考えられる。人物画像の場合は、重要領域設定においてクラスタ数を多く取り、各個人を抽出できるように設定したり、風景では逆にクラスタ数を少なく取り全体をひとつにまとめるようにしたり、スポーツでは軌道生成において遷移速度を速めたりすることなどができる。これらは事前に、画像カテゴリごとにパラメータ(重要領域設定に関するパラメータ、軌道生成に関するパラメータ)を紐付ける形でテーブルとして用意し、重要領域設定部105、軌道生成部306で参照できるようにする。
また、別のバリエーションとしては、抽出した重要度の分布から、重要領域設定、及び軌道生成のパラメータを決めることができる。たとえば重要度分布の分散が大きい時は多くの重要なものが画像に散在していることから、最初に全体をひとつの重要領域として、さらに階層的に複数の重要領域にクラスタリングし、軌道生成では全体像から個々の部分に遷移していくような軌道を生成することができる。このような重要度分布のバッリエーションごとに、重要領域設定に関するパラメータ、および軌道生成に関するパラメータを紐付けてテーブルの形式で予め用意し、重要領域設定部105、軌道生成部106で利用する形態であってもよい。
図17は、本実施形態の画像処理装置400の動作例を示すフローチャートである。ステップS401が追加されている点が図15に示すフローと異なる。ステップS401において、画像分類部401は、ステップS102で重要度が算出された画像のカテゴリを推定し、推定したカテゴリに紐付けられた、重要領域設定に関するパラメータ、および、軌道生成に関するパラメータを選択する。そして、その選択した各パラメータを、ステップS205で重要領域設定部105が利用できるようにするとともに、ステップS306で軌道生成部306が利用できるようにする。
以上に説明した本実施形態によれば、入力された画像の分類に応じて、重要領域設定に関するパラメータ、および、軌道生成に関するパラメータを切り替えて、重要領域生成および軌道生成を行うことができる。なお、第1の実施形態に対応させた場合は、軌道生成は行わずに、入力された画像の分類に応じて、重要領域設定に関するパラメータを切り替えて、重要領域生成を行うことができる。
(第5の実施形態)
次に、第5の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、入力された画像から抽出した画像特徴を考慮して、1つ以上の重要領域を設定する。以下、具体的な内容を説明する。
図18は、本実施形態の画像処理装置500が有する機能の一例を示す図である。図18に示すように、画像処理装置500は特徴抽出部501をさらに有する点で第1の実施形態の図3の構成と相異する。また、パラメータ推定部502の機能も、第1の実施形態の図3に示すパラメータ推定部102の機能と相異する。以下、相違点を説明する。
特徴抽出部501は、処理対象の画像の複数の位置の各々における特徴ベクトルを抽出する。この例では、特徴抽出部501は、入力された画像から各画像位置及びそれを含む局所領域の特徴を抽出する。ここで、特徴とは、各画素位置での色、エッジ(方向、強度)、局所境域での色・エッジのヒストグラム、周波数成分(フーリエ係数、DCT係数)、濃淡パターン(LBP、Haar−like特徴)、ニューラルネットワークでの出力、など画像認識技術で使用する一般的な画像特徴を用いることができる。これらの特徴を、撮影方向取得部103により取得された撮影方向ごとに得る。つまり、特徴抽出部501は、撮影方向取得部103により取得された撮影方向ごとに、処理対象の画像のうち該撮影方向に対応する位置における特徴ベクトルを抽出する。
パラメータ推定部502は、特徴ベクトルと撮影方向のベクトルを結合したベクトルごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。第1の実施形態では、撮影方向に対して重要度分布をクラスタリングするものであったが、本実施形態では撮影方向にさらに画像特徴を加えてクラスタリングを行う。つまり、第1の実施形態では変数xは撮影方向(X,Y,Z)の3次元ベクトルであったが、これにC次元の画像特徴を加えたC+3次元のベクトルとしてxを再定義する。形式的には次元数が異なるだけで、第1の実施形態と同様の計算でクラスタリングを行うことができる。ただし、特徴量の確率密度関数は撮影方向の確率密度関数と異なり、多次元正規分布などを割り当てることが好ましい。もちろん、撮影方向と同様に単位ベクトル化してvon Mises-Fisher分布を用いることもできる。von Mises-Fisher分布を用いる場合は特徴ベクトル間のなす角度を評価することになり、特徴ベクトルの大きさが意味を持たない場合に有効である。
図19は、本実施形態の画像処理装置500の動作例を示すフローチャートである。ステップS501およびステップS502の処理の部分が図6に示すフローと異なる。ステップS501において、特徴抽出部501は、ステップS103で取得された撮影方向ごとに特徴ベクトルを抽出する。次に、ステップS502において、パラメータ推定部502は、特徴ベクトルと撮影方向のベクトルを結合したベクトルごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。
以上に説明したように、本実施形態では、入力された画像の画像特徴を考慮して、1つ以上の重要領域を設定することができる。単純に撮影方向の近さでクラスタリングをする第1の実施形態に対して、本実施形態では類似した特徴を持った領域をまとめることができるので、より画像内容に沿った重要領域の分割が可能となる。
変形例としては、画像特徴として物体認識結果から得る物体の確信度を使うこともできる。図20にはその一例を示しており、物体認識された結果から各物体ラベルの確信度を各画素位置で求めて、それを特徴量とする。確信度の算出法は物体認識アルゴリズムに依存するが、一般的には物体の事後確率を用いることができ、また、アドホックに物体検出位置の中心から緩やかに減衰させても良い。また、得られた物体特徴から、部分画像の審美的な評価値を算出してクラスタリングに反映させることも可能である。たとえば、主要な直線が水平になるような部分画像と高く評価したり、消失点が画像中心に来ることを高く評価したりすることができる。このような評価関数を上記式(4)および上記式(5)に追加することで、同じ枠組みで最適化を図ることができる。
以上においては、第1の実施形態に対する差分として述べたが、本実施形態の構成を他の実施形態と組み合わせることも可能である。
(第6の実施形態)
次に、第6の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、ユーザとシステム(画像処理装置600)のインタラクションを通じて重要領域を設定する例を示す。
図21は、本実施形態の画像処理装置600が有する機能の一例を示す図である。図21に示すように、画像処理装置600は、調整部602をさらに有する点で図3の構成と相異する。調整部602は、ユーザからの入力に応じて、重要領域または軌道(重要領域の遷移軌道)を調整する。ここでは、第1の実施形態の構成を前提とし、調整部602は、ユーザからの入力に応じて重要領域を調整する。ただし、本実施形態の構成は他の実施形態に適用することも可能であり、例えば本実施形態の構成を第3の実施形態に対応させることにより、調整部602は、ユーザからの入力に応じて、軌道を調整する形態であってもよい。
この例では、調整部602は、重要領域設定部105で設定された重要領域を、表示部15に表示する制御を行ってユーザに提示する。図22はその一例であり、2つの矩形状の重要領域(領域1、領域2)が入力画像に重畳されて表示されている。ユーザは、この重要領域をドラッグアンドドロップするための操作を、入力部14を介して行うことで、位置や大きさの変更指示をシステムへ入力することが可能である。調整部602は、入力部14を介した入力を受け付けると、その受け付けた入力に応じて、重要領域を調整(修正)する。そして、ユーザが領域の調整を終了したことをシステムに伝える(例えば入力部14を介して入力する)と、システム(調整602)は処理を終えて調整結果の重要領域を出力する。また、ユーザが調整後、再クラスタリングの命令をシステムへ入力することもできる。その場合は、調整部602は、ユーザが調整した位置を上記式(5)における事前分布p(μ)、p(k)に反映させて(事前分布の平均値をユーザの指定位置、サイズに合わせるなど)、パラメータ推定部104でクラスタリングを再度実行させる。また、ユーザからクラスタ数の指示を受け付けて再クラスタリングさせることもできる。このようにして、ユーザとシステムでインタラクティブに重要領域を設定することができる。
以上においては、第1の実施形態に対する差分として述べたが、本実施形態の構成を他の実施形態と組み合わせることも可能である。例えば第3の実施形態との組み合わせにおいては、重要領域の提示順序や軌道生成のための評価関数をユーザが指定することが可能である。
以上、本発明に係る実施形態について説明したが、本発明は、上述の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上述の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに異なる実施形態や変形例を適宜に組み合わせてもよい。
また、実施形態の画像処理装置100で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよいし、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、各種プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
20 記憶装置
100 画像処理装置
101 画像読み込み部
102 重要度算出部
103 撮影方向取得部
104 パラメータ推定部
105 重要領域設定部
306 軌道生成部
307 動画生成部
401 画像分類部
501 特徴抽出部
602 調整部
特許第4538008号公報 特許第3411971号公報 国際公開第WO2006/082979号 特許第6023058号公報 特許第5339631号公報
L. Itti, et al., "A model of saliency-based visual attention for rapid scene analysis," IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.20, no.11, pp. 1254-1259, 1998. F. Stentiford, "Attention Based Auto Image Cropping," In International Conference on Computer Vision Systems, 2007. X. Huang, et al., "SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks," Proceedings of the IEEE International Conference on Computer Vision. 2015. Z. Zhang, "A flexible new technique for camera calibration," IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, 11, pp. 1330-1334, 2000. T. Flash and N. Hogan, "The coordination of arm movements: an experimentally confirmed mathematical model," The journal of Neuroscience, vol.5, no.7, pp.1688-1703, 1985. K. He, X. Zhang, S. Ren, J. Sun, "Deep Residual Learning for Image Recognition," in arXiv: 1512.03385, 2015.

Claims (10)

  1. 画像における複数の位置ごとの重要度を算出する重要度算出部と、
    前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得部と、
    前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定部と、
    前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定部と、を備える、
    画像処理装置。
  2. 前記要素分布はvon Mises-Fisher分布であり、
    前記パラメータは、前記要素分布の平均方向を示す第1パラメータと、分布が前記平均方向の付近に集中している度合いを示す第2パラメータと、を含み、
    前記重要領域設定部は、前記第1パラメータが示す前記平均方向を中心とし、前記第2パラメータが示す集中度に応じてサイズを決定することで前記重要領域を設定する、
    請求項1に記載の画像処理装置。
  3. 前記パラメータ推定部は、前記要素分布の前記パラメータを推定する方法として、k-means法、EMアルゴリズム、変分ベイズ法およびモンテカルロ法の何れかを使用する、
    請求項1に記載の画像処理装置。
  4. 設定された前記重要領域間を遷移する軌道を生成する遷移軌道生成部をさらに備える、
    請求項1に記載の画像処理装置。
  5. 前記遷移軌道生成部は、前記重要領域の遷移順序の全ての組み合わせごとに前記軌道を生成し、生成した前記軌道の長さ、曲率の累積を示す累計曲率、前記重要度の累積を示す累積重要度を用いて、前記軌道ごとの評価値を算出し、前記軌道ごとの前記評価値に基づいて前記遷移順序を決定する、
    請求項4に記載の画像処理装置。
  6. 前記画像のカテゴリを推定し、推定した前記カテゴリに応じて前記重要領域の設定方法を可変に設定する画像分類部をさらに備える、
    請求項1に記載の画像処理装置。
  7. 前記複数の位置の各々における特徴ベクトルを抽出する特徴抽出部をさらに備え、
    前記パラメータ推定部は、
    前記特徴ベクトルと前記撮影方向のベクトルを結合したベクトルごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定する、
    請求項1に記載の画像処理装置。
  8. ユーザからの入力に応じて、前記重要領域または前記軌道を調整する調整部をさらに備える、
    請求項1または請求項4に記載の画像処理装置。
  9. 画像における複数の位置ごとの重要度を算出する重要度算出ステップと、
    前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得ステップと、
    前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定ステップと、
    前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定ステップと、を有する、
    画像処理方法。
  10. コンピュータに、
    画像における複数の位置ごとの重要度を算出する重要度算出ステップと、
    前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得ステップと、
    前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定ステップと、
    前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定ステップと、を実行させるためのプログラム。
JP2017047879A 2017-03-13 2017-03-13 画像処理装置、画像処理方法およびプログラム Active JP6859765B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017047879A JP6859765B2 (ja) 2017-03-13 2017-03-13 画像処理装置、画像処理方法およびプログラム
US15/913,950 US10878265B2 (en) 2017-03-13 2018-03-07 Image processing device and image processing method for setting important areas in an image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017047879A JP6859765B2 (ja) 2017-03-13 2017-03-13 画像処理装置、画像処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018151887A JP2018151887A (ja) 2018-09-27
JP6859765B2 true JP6859765B2 (ja) 2021-04-14

Family

ID=63446444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017047879A Active JP6859765B2 (ja) 2017-03-13 2017-03-13 画像処理装置、画像処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10878265B2 (ja)
JP (1) JP6859765B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6798183B2 (ja) * 2016-08-04 2020-12-09 株式会社リコー 画像解析装置、画像解析方法およびプログラム
US10991342B2 (en) 2018-07-04 2021-04-27 Ricoh Company, Ltd. Terminal apparatus, system, and method of displaying image
JP7310252B2 (ja) 2019-04-19 2023-07-19 株式会社リコー 動画生成装置、動画生成方法、プログラム、記憶媒体
JP2022102461A (ja) 2020-12-25 2022-07-07 株式会社リコー 動画生成装置、動画生成方法、プログラム、記憶媒体
CN115145261B (zh) * 2022-04-07 2024-04-26 哈尔滨工业大学(深圳) 人机共存下遵循行人规范的移动机器人全局路径规划方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5339631B2 (ja) 1974-04-04 1978-10-23
JPS6023058B2 (ja) 1974-11-27 1985-06-05 ユニ・チヤーム株式会社 紙綿状製品の折込装置
JP3411971B2 (ja) 2001-02-14 2003-06-03 三菱電機株式会社 人物像抽出装置
JP4652741B2 (ja) * 2004-08-02 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出装置、異常検出方法、異常検出プログラム、及び記録媒体
US20070201749A1 (en) * 2005-02-07 2007-08-30 Masaki Yamauchi Image Processing Device And Image Processing Method
WO2007020789A1 (ja) 2005-08-12 2007-02-22 Sony Computer Entertainment Inc. 顔画像表示装置、顔画像表示方法及び顔画像表示プログラム
JP2007143123A (ja) * 2005-10-20 2007-06-07 Ricoh Co Ltd 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
US7764819B2 (en) * 2006-01-25 2010-07-27 Siemens Medical Solutions Usa, Inc. System and method for local pulmonary structure classification for computer-aided nodule detection
US20100103463A1 (en) * 2008-10-28 2010-04-29 Dhiraj Joshi Determining geographic location of a scanned image
JP5339631B2 (ja) 2010-03-16 2013-11-13 Kddi株式会社 ディスプレイを有するデジタル写真表示装置、システム及びプログラム
WO2013031096A1 (ja) 2011-08-29 2013-03-07 パナソニック株式会社 画像処理装置、画像処理方法、プログラム、集積回路
JP6394005B2 (ja) * 2014-03-10 2018-09-26 株式会社リコー 投影画像補正装置、投影する原画像を補正する方法およびプログラム
JP2016212784A (ja) * 2015-05-13 2016-12-15 株式会社リコー 画像処理装置、画像処理方法
JP6511950B2 (ja) * 2015-05-14 2019-05-15 株式会社リコー 画像処理装置、画像処理方法及びプログラム
KR102367828B1 (ko) * 2015-06-05 2022-02-25 삼성전자주식회사 이미지 운용 방법 및 이를 지원하는 전자 장치
US10049450B2 (en) * 2015-12-03 2018-08-14 Case Western Reserve University High-throughput adaptive sampling for whole-slide histopathology image analysis
US9775508B1 (en) * 2016-05-06 2017-10-03 Canon Kabushiki Kaisha Depolarizing region identification in the retina
US10210392B2 (en) * 2017-01-20 2019-02-19 Conduent Business Services, Llc System and method for detecting potential drive-up drug deal activity via trajectory-based analysis
US10609286B2 (en) * 2017-06-13 2020-03-31 Adobe Inc. Extrapolating lighting conditions from a single digital image
US10430690B1 (en) * 2018-04-20 2019-10-01 Sas Institute Inc. Machine learning predictive labeling system

Also Published As

Publication number Publication date
JP2018151887A (ja) 2018-09-27
US10878265B2 (en) 2020-12-29
US20180260646A1 (en) 2018-09-13

Similar Documents

Publication Publication Date Title
JP6859765B2 (ja) 画像処理装置、画像処理方法およびプログラム
US11481869B2 (en) Cross-domain image translation
CN107871106B (zh) 人脸检测方法和装置
Sharp et al. Accurate, robust, and flexible real-time hand tracking
Wang et al. Predicting camera viewpoint improves cross-dataset generalization for 3d human pose estimation
CN111178125A (zh) 用于群体肖像中的人的混合和替换的替换区域的智能标识
US10277806B2 (en) Automatic image composition
CN113301259A (zh) 用来捕获与目标图像模型对准的数字图像的智能指导
US20140043329A1 (en) Method of augmented makeover with 3d face modeling and landmark alignment
JP5227629B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
US20130314437A1 (en) Image processing apparatus, image processing method, and computer program
Yang et al. Joint-feature guided depth map super-resolution with face priors
US11276202B2 (en) Moving image generation apparatus, moving image generation method, and non-transitory recording medium
Bianco et al. Robust smile detection using convolutional neural networks
Chen et al. A particle filtering framework for joint video tracking and pose estimation
JP2014032623A (ja) 画像処理装置
CN113591562A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112639870A (zh) 图像处理装置、图像处理方法和图像处理程序
Chen et al. A novel face super resolution approach for noisy images using contour feature and standard deviation prior
Ahn et al. Implement of an automated unmanned recording system for tracking objects on mobile phones by image processing method
Li et al. Evaluating effects of focal length and viewing angle in a comparison of recent face landmark and alignment methods
Chang et al. R2p: Recomposition and retargeting of photographic images
Ho et al. Advances in Multimedia Information Processing--PCM 2015: 16th Pacific-Rim Conference on Multimedia, Gwangju, South Korea, September 16-18, 2015, Proceedings, Part I
Zhang et al. Light field salient object detection via hybrid priors
Yue et al. High-dimensional camera shake removal with given depth map

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210309

R151 Written notification of patent or utility model registration

Ref document number: 6859765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151