JP6859765B2

JP6859765B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP6859765B2
Application number: JP2017047879A
Authority: JP
Inventors: 崇之原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2021-04-14
Anticipated expiration: 2037-03-13
Also published as: JP2018151887A; US10878265B2; US20180260646A1

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

従来、画像から重要領域を抽出する技術が知られている。この技術は、画像の自動クロッピング／サムネイル生成や、画像理解／画像検索におけるアノテーション生成の前処理などに広く利用されている。重要領域の抽出方法としては、物体認識や顕著性マップを用いる方法が知られている（例えば特許文献１〜特許文献５、非特許文献１〜非特許文献６参照）。

従来の技術は、撮影された画像内の位置情報に基づき重要度分布（顕著性マップを含む）をクラスタリングして１以上の重要領域を抽出する形態であった。しかしながら、このように画像内での位置をもとにクラスタリングを行うと、実際の撮影方向の関係性を加味できない。たとえば、ピンホールカメラモデルでレンズ歪みを補正した場合でも、画像中心部分の隣接画素間の撮影角度と画像周辺部の隣接画素間の撮影角度との角度差は異なる（図１参照）。この差異は広角になるほど顕著になり、魚眼カメラ、全方位カメラ、全天球カメラ等では極めて大きな差異となる。

さらに、従来の技術では、実際の撮影方向の影響を加味した重要領域の設定を行うことはできなかった。

本発明は、上記に鑑みてなされたものであり、実際の撮影方向の影響を加味した重要領域の設定を行うことが可能な画像処理装置、画像処理方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、処理対象の画像に対して、前記画像における複数の位置ごとの重要度を算出する重要度算出部と、前記複数の位置の各々における三次元空間中での撮影方向を取得する撮影方向取得部と、前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定部と、前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定部と、を備える画像処理装置である。

本発明によれば、実際の撮影方向の影響を加味した重要領域の設定を行うことが可能になる。

図１は、従来の問題を説明するための図である。図２は、第１の実施形態の画像処理装置のハードウェア構成の一例を示す図である。図３は、第１の実施形態の画像処理装置が有する機能の一例を示す図である。図４は、第１の実施形態において撮影方向を算出する方法を示す図である。図５は、撮影方向に対する重要度の分布をモデル化したイメージを表す図である。図６は、第１の実施形態の画像処理装置の動作例を示すフローチャートである。図７は、重要領域が設定される様子を表すイメージ図である。図８は、緯度・経度の二次元座標で正方格子状に画素値が配置されたEquirectangular形式で表される画像の例を示す図である。図９は、第２の実施形態の画像処理装置が有する機能の一例を示す図である。図１０は、第２の実施形態の画像処理装置の動作例を示すフローチャートである。図１１は、透視投影画像に対応する領域として重要領域が設定される場合の例を示す図である。図１２は、第２の実施形態において撮影方向に対してクラスタリングを行った例を示す図である。図１３は、第３の実施形態の画像処理装置が有する機能の一例を示す図である。図１４は、三次元空間中でスプライン曲線を求める場合の例を示す図である。図１５は、第３の実施形態の画像処理装置の動作例を示すフローチャートである。図１６は、第４の実施形態の画像処理装置が有する機能の一例を示す図である。図１７は、第４の実施形態の画像処理装置の動作例を示すフローチャートである。図１８は、第５の実施形態の画像処理装置が有する機能の一例を示す図である。図１９は、第５の実施形態の画像処理装置の動作例を示すフローチャートである。図２０は、画像特徴として物体認識結果から得る物体の確信度を使う場合を説明するための図である。図２１は、第６の実施形態の画像処理装置が有する機能の一例を示す図である。図２２は、第６の実施形態において、ユーザに提示する画面の一例を示す図である。

以下、添付図面を参照しながら、本発明に係る画像処理装置、画像処理方法およびプログラムの実施形態を詳細に説明する。

（第１の実施形態）
図２は、本実施形態の画像処理装置１００のハードウェア構成の一例を示す図である。図２に示すように、画像処理装置１００は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、入力部１４、表示部１５、接続Ｉ／Ｆ１６を備える。

ＣＰＵ１１は、画像処理装置１００の動作を統括的に制御する。ＣＰＵ１１は、ＲＡＭ１３の所定の領域を作業領域として、ＲＯＭ１２に記録された各種制御プログラムを実行して、画像処理装置１００が有する各種の機能を実現させる。画像処理装置１００が有する機能の具体的な内容については後述する。

ＲＯＭ１２は、画像処理装置１００に関わるプログラムや各種設定情報などを記憶する不揮発性のメモリ（書き換え不可能なメモリ）である。

ＲＡＭ１３は、例えばＳＤＲＡＭなどの記憶手段であって、ＣＰＵ１１の作業エリアとして機能し、バッファなどの役割を果たす。

入力部１４は、ユーザからの入力（操作入力）を受け付けるためのデバイスである。
表示部１５は、画像処理装置１００に関する各種の情報を表示するデバイスであり、例えば液晶ディスプレイなどで構成される。なお、表示部１５と入力部１４とが一体的に構成されるタッチパネル等の形態であってもよい。

接続I／Ｆ１６は、外部機器と接続するためのインタフェースである。

図３は、本実施形態の画像処理装置１００が有する機能の一例を示す図である。図３に示すように、画像処理装置１００は、記憶装置、画像読み込み部１０１、重要度算出部１０２、撮影方向取得部１０３、パラメータ推定部１０４、重要領域設定部１０５を有する。説明の便宜上、図３の例では、本実施形態に関する機能を主に例示しているが、情報処理装置１３０が有する機能はこれらに限られるものではない。

記憶装置２０は、例えば半導体記憶装置としてＲＯＭ１２やＲＡＭ１３、ハードディスク、光ディスクなどで構成される。この例では、画像処理装置１００が記憶装置２０を有しているが、これに限らず、例えばハードディスク等で構成された記憶装置２０が、接続Ｉ／Ｆ１０６を介して画像処理装置１００と接続される形態であっても構わない。ここでは、記憶装置２０は、処理対象の画像を記憶している。処理対象の画像としては、カメラ等の撮影装置によって撮影された撮影画像等である。

画像読み込み部１０１は、記憶装置２０から処理対象の画像を読み込む。

重要度算出部１０２は、画像読み込み部１０１によって読み込まれた処理対象の画像に対して、該画像における複数の位置ごとの重要度を算出する。複数の位置は、画素単位または特定のサンプリング位置などである。重要度を算出する方法は特に限定されず、様々な方法を採用することができる。例えば頭や人物などの特定の物体を抽出して、該特定の物体が存在する位置の重要度を高くしても良いし、非特許文献１，３のような方法で顕著性を抽出してそれを重要度としても良いし、特許文献５のように重要人物を特定して重要人物の位置の重要度を高く設定しても良い。また、複数の方法で算出した重要度の和を用いても良い。

撮影方向取得部１０３は、画像の複数の位置ごとに三次元空間中での撮影方向を取得する。画像上の位置に対する撮影方向とは、該位置に撮像される三次元空間中の点の方向を意味している。方向を表現するために任意の座標系を取ることができ、典型的にはカメラ撮像面の水平方向、垂直方向、光軸方向の３軸を取った座標系を用いることができる。カメラの内部パラメータとして光軸中心、焦点距離とレンズ歪みが既知であれば、図４に示すように透視投影変換の逆変換を考えることで撮影画像中の位置に対応した撮影方向を算出することができる。なお、以降の処理では相対座標のみが必要なので、カメラの外部パラメータとして世界座標系に対する回転・並進は既知である必要はない。カメラの内部パラメータ及びレンズ歪みは、たとえば非特許文献４の方法で予め同定したものを用いることができる。

パラメータ推定部１０４は、撮影方向ごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。この例では、要素分布はvon Mises-Fisher分布である。また、パラメータは、要素分布の平均方向を示す第１パラメータμと、分布が平均方向の付近に集中している度合いを示す第２パラメータｋと、を含む。なお、パラメータ推定部１０４は、要素分布のパラメータを推定する方法として、k-means法、EMアルゴリズム、変分ベイズ法およびモンテカルロ法の何れかを使用することもできる。以下、本実施形態におけるパラメータ推定方法の具体的な内容を説明する。

ここでは、要素分布として、３次元von Mises-Fisher分布を用いる。Ｄ次元von Mises-Fisher分布とは、Ｄ次元ユークリッド空間の単位ベクトルｘに対して、パラメータ（μ，ｋ）の下で以下の式１で表されるような確率密度分布を持つものである。

ここで、Ｃ_Ｄ（ｋ）は正規化定数である。これを要素分布として、Ｍ個の要素分布から成る混合von Mises-Fisher分布ｐ（ｘ）は以下の式（２）で表すことができる。

上記式（２）において、πｉは混合率のパラメータである。図５はｐ（ｘ）によって、撮影方向ｘに対する重要度の分布をモデル化したイメージを表す図である。撮影方向取得部１０３により得られた撮影方向はＮ個に離散化されており、それらの集合をＤ＝｛ｘ_ｎ｝^N _n=1とする。さらに、隠れ変数Ｚ＝｛｛Ｚⁿ _m｝^N _n=1｝^M _m=1を導入し、Ｚⁿ _mは撮影方向ｘ_ｎが要素分布ｍに属する時に１、属さない時に０を取るものとする。撮影方向ｘ_ｎに対する重要度をＩ（ｘ_ｎ）とすると、重要度分布を上記式２で表現する際のＤ，Ｚの結合確率は、以下の式（３）で表すことができる。

そして、隠れ変数のＺを積分消去した（定義域に渡って和を取る）、以下の式（４）で表される尤度関数を考える。

この尤度関数を最大化するように、パラメータμ，ｋ，πを求める。尤度関数の最大化には、ニュートン法などの非線形計画法やＥＭアルゴリズムを用いることができる。また、ＥＭアルゴリズムの簡略化としてk-means法を用いることもできる。なお、離散化された撮影方向Ｄ＝｛ｘ_ｎ｝^N _n=1は等間隔ではないので、上記式（３）において間隔に合わせて補正係数を乗じて積和演算を行うことが望ましい。以上のように、パラメータ推定部１０４は各要素分布のパラメータを推定する。

図３に戻って説明を続ける。重要領域設定部１０５は、パラメータ推定部１０４により推定されたパラメータに基づいて、処理対象の画像から重要領域を設定する。つまり、パラメータに対応した位置、大きさ、形状、投影方式で重要領域となる部分画像を生成する。パラメータ推定部１０４が要素分布に３次元von Mises-Fisher分布を用いる場合、重要領域設定部１０５は、要素分布の平均方向μを中心とし、集中度ｋに応じてサイズを決定することで重要領域を設定する。重要領域の形状として矩形を想定し、矩形内の要素分布の累積確率が特定閾値として０．９等になるように矩形のサイズを決めることができる。矩形以外の形状でも同様である。円形状の場合は累積確率の計算が解析的に求まるので、計算の高速化を実現することができる。

図６は、本実施形態の画像処理装置１００の動作例を示すフローチャートである。各ステップの具体的な内容は上述したとおりであるので詳細な説明は適宜に省略する。まず画像読み込み部１０１は、記憶装置２０から処理対象の画像を読み込む（ステップＳ１０１）。次に、重要度算出部１０２は、ステップＳ１０１で読み込まれた画像に対して、該画像における各位置の重要度を算出する（ステップＳ１０２）。次に、撮影方向取得部１０３は、上記各位置の三次元空間中での撮影方向を取得する（ステップＳ１０３）。次に、パラメータ推定部１０４は、撮影方向別の重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する（ステップＳ１０４）。次に、重要領域設定部１０５は、ステップＳ１０４で推定されたパラメータに基づいて、ステップＳ１０１で読み込まれた画像から、１以上の重要領域を設定する（ステップＳ１０５）。図７は、以上のステップＳ１０４からステップＳ１０５を経て重要領域が設定される様子を表すイメージ図である。図７では、複雑な形状を持つ重要度分布が、混合von Mises Fisher分布として近似され、各要素分布に対して中心を同一とし、要素分布の広がり（集中度k）に応じたサイズで重要領域が矩形状に設定される例を示している。

以上のようにして、処理対象の画像として入力された画像から１以上の重要領域を設定することができる。従来の全方位カメラや全天球カメラでは撮影画像の画素の接続関係にループがあり（撮影面が球面、あるいは球面の一部と見なせる）、２次元ユークリッド空間でのクラスタリングではループの影響を反映させることができなかった。ここでループとは、ある画素から特定方向に隣接画素をたどっていった時に元の画素に戻るような接続関係のことを意味している。そこで、本実施形態では、撮影方向に対する重要度分布を考えてクラスタリングする（混合分布の要素分布のパラメータを求める）ことで、実際の撮影方向の角度差を重要領域の抽出結果に反映させることができる。これによって、特に広角で撮影された画像に対して、中心部と周辺部で同様の基準で重要度領域を抽出することが可能となる。例えば、隣接画素との撮影角度差の小さい周辺部で大きな重要領域が生成されやすくなることを防ぐことができる。

以上より、本実施形態によれば、実際の撮影方向の影響を加味した重要領域の設定が可能になる。

なお、上記例では最尤推定によりパラメータを求めたがこの限りではない。パラメータμ，ｋ，πに対して事前分布ｐ（μ），ｐ（ｋ），ｐ（π）を設定して、パラメータμ，ｋ，πのＤに対する事後分布を求めることもできる。最終的にパラメータを一つに決める際には、事後分布の期待値や最大値を取れば良い。一般的に、パラメータμ，ｋ，πの事後分布を求めるには、周辺尤度導出の処理コストが高い。そこで事後分布の近似的な導出に変分ベイズ法を用いることができる。まず、以下の式（５）で表される尤度関数を考える。

ここで、パラメータ分布ｑ（Ｚ，μ，ｋ，π）を導入し、以下の式（６）で表される対数尤度の下限を考える。

この対数尤度の下限を最大化するように、パラメータ分布ｑ(Ｚ，μ，ｋ，π)を求める（事後分布に一致する時に尤度下限が最大となるパラメータ分布ｑ(Ｚ，μ，ｋ，π)を求める）。パラメータ分布ｑ(Ｚ，μ，ｋ，π)にパラメータの独立性を仮定して分布を求めるのが変分ベイズ法である。事前分布としては、好適にはｐ（μ）にvon Mises-Fisher分布、ｐ（ｋ）に対数正規分布、ｐ（π）にディリクレ分布を設定することができるが、これに限定するものではない。このように事前分布を設定することで、ロバスト性を増し、特にデータ数が少ない時の精度が向上する。なお、パラメータの事後分布を求める方法として、変分ベイズ法以外に、マルコフ連鎖モンテカルロ法を用いることもできる。また、要素分布としてvon Mises-Fisher分布以外の分布を設定することもできる。たとえば２次項を導入した以下の式（７）で表される確率密度関数を要素分布としてもよい。

同様に３次以上の確率密度関数も考えることができ、パラメータはマルコフ連鎖モンテカルロ法によって推定することができる。また、指数関数型以外の例として、以下の式（８）のように複数の基底分布η={η_i}の混合率α={α_i}での線形結合として要素分布を表現しても良い。

このように設定すると、全体としては二階層の混合分布となり、ＥＭアルゴリズム、または変分ベイズ法、またはモンテカルロ法を階層的に用いることでパラメータα、ηを求めることができる。または基底分布ηは事前に設定しておき、処理対象画像に対してαのみを推定しても良い。この場合、基底分布ηは人手で設定しても良いし、人手で設定した構図の重要度分布を訓練データとして最尤推定、ＭＡＰ推定、ベイズ推定等により、求めても良い。

さらに、要素分布は同じ系列の分布である必要はなく、様々な形の分布を組み合わせて使用しても良い。つまり、θ_ｍというパラメータを持つ要素分布ｆ_ｍを設定し、上記式（２）を以下の式（９）で表される確率密度関数で置き換えることも可能である。

Von Mises-Fisher分布と同様に、θ_ｍに事前分布を仮定して、変分ベイズ法やモンテカルロ法でθ_ｍの事後分布を求めることもできる。このようにして、生成される重要領域の多様性を増すことができる。要素分布にvon Mises-Fisher分布以外の分布を使った場合でも、図６のステップＳ１０５の重要領域設定において、要素分布の平均を重要領域の中心とし、要素分布の累積確率が特定値になるように大きさや形状を決定することができる。以上の例では混合率を撮影方向に非依存としたが、撮影方向ｘ_ｎごとに異なる混合率πⁿ _mを持つと仮定して、上記式（２）を以下の式（１０）で置き換えることもできる（トピックモデル）。

この場合でも上記と同様の議論で尤度関数を構築し、EMアルゴリズム、変分ベイズ法、モンテカルロ法で要素分布のパラメータθを求めることができる。このモデルでは、撮影方向ごとに複数の要素分布に属することができ、一つの撮影方向が複数の部分画像に含まれるようなオーバーラップのある多様な部分画像分割が実現される。

以上の例では、要素分布数Ｍを固定していたが、画像に合わせて適応的に要素分布数を決定することもできる。例えば十分大きなＭでクラスタリングを行い、各要素分布の混合率πを算出し、混合率が特定閾値以上となるクラスタを最終的に採用する方法などが考えられる。また混合率でクラスタ数を絞ってＭを更新し、再度クラスタリングをしても良い。また、要素分布の無限混合を考え、ｐ（π）にディリクレ過程を設定してパラメータ推定し、混合率が特定閾値以上となるクラスタを最終的に採用する方法（ノンパラメトリックベイズ法）を用いることもできる。

（第２の実施形態）
次に、第２の実施形態について説明する。第１の実施形態と共通する部分については適宜に説明を省略する。ここでは、入力された全天球画像から１つ以上の重要領域を抽出する例を示す。全天球画像とは水平角度３６０度、垂直角度１８０度の全視野に渡って撮影された画像である。画像の表現形式として、図８のような、緯度・経度の二次元座標で正方格子状に画素値が配置されたEquirectangular形式を用いることができる。

図９は、本実施形態の画像処理装置２００が有する機能の一例を示す図であり、図１０は、本実施形態の画像処理装置２００の動作例を示すフローチャートである。基本的には第１の実施形態と同様の動作であるので、以下では相違する部分のみを説明する。

図１０に示すステップＳ２０３において、撮影方向取得部２０３は、全天球画像の各位置の撮影方向を算出する。入力画像がEquirectangular形式であれば、図８の極座標と二次元座標の対応関係から撮影方向を算出することができる。

また、図１０に示すステップＳ２０５において、重要領域設定部２０５は、要素分布のパラメータから重要領域を設定する。重要領域はEquirectangular形式の画像上で矩形領域として設定しても良いし、図１１のような透視投影画像に対応する領域として設定しても良い。

本実施形態例によれば、入力された全天球画像から１つ以上の重要領域を抽出することができる。図８に示したEquirectangular形式の左右端は接続しており、上下端はそれぞれ一点に収束する。具体的には、図１２のように、単位球画像からEquirectangular形式の画像に変換したとき、クラスタ１やクラスタ２の左右端は接続されるように展開されている。また、本実施形態のように撮影方向に対してクラスタリングを行うことで、全天球画像の位相構造を反映させた重要領域抽出が可能となる。

（第３の実施形態）
次に、第３の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。ここでは、入力された全天球画像から１つ以上の重要領域を抽出し、その重要領域間を遷移して表示する動画を生成する例を示す。

図１３は、本実施形態の画像処理装置３００が有する機能の一例を示す図であり、軌道生成部３０６および動画生成部３０７をさらに有する。

軌道生成部３０６は、設定された重要領域間を遷移する軌道を生成する。軌道生成には、複数の重要領域の遷移順序と、実際の遷移軌道の決定が必要である。遷移順序が決定した状態であれば、重要領域間の遷移の曲線はたとえばスプライン曲線で求めることができる。スプライン曲線とは、曲線手法の一つで設定した点を滑らかに通る線をさす。スプライン曲線は二次元画像上の画素位置に対して求めても良いし、撮影方向の単位ベクトルを制御点として三次元空間中で求めても良い（図１４参照）。

スプライン曲線の他にも、直線で重要領域間を結ぶ軌道を生成しても良い。また、重要領域のサイズとして、たとえば矩形の大きさの変化についても、スプライン補間を行うことで、滑らかな変化を見せることができる。曲線や直線が生成された後に、実際の時間ｔに対する曲線上の位置ｓ（ｔ）＝（ｘ（ｔ），ｙ（ｔ））またはｓ（ｔ）＝（ｘ（ｔ），ｙ（ｔ），ｚ（ｔ））を決める必要がある。これは等速運動としても良いし、躍度最小モデル（非特許文献５参照）に従い滑らかな速度変換を実現することもできる。このようにして、順序付けられた重要領域間の遷移軌道を生成できる。

次に、重要領域の遷移順序の決定法について説明する。重要領域の遷移順序のすべての組み合わせ（Ｍ個の重要領域があればＭ！通り）について遷移軌道を生成し、その軌道の評価値を算出し、最良の評価値となる遷移順序を採用する方法を取ることができる。軌道の評価値は、たとえば遷移曲線や直線の長さ、累積曲率、累積重要度（遷移軌道の通る重要度の和）などを用いて計算することができる。要するに、軌道生成部３０６は、重要領域の遷移順序の全ての組み合わせごとに軌道を生成し、生成した軌道の長さ、曲率の累積を示す累計曲率、重要度の累積を示す累積重要度を用いて、軌道ごとの評価値を算出し、軌道ごとの評価値に基づいて遷移順序を決定する。

動画生成部３０７は、軌道生成部３０６により生成された遷移軌道にしたがって仮想的なカメラを動かし、重要領域間を遷移する動画を生成する。

図１５は、本実施形態の画像処理装置３００の動作例を示すフローチャートである。ステップＳ３０６およびステップＳ３０７が追加されている点が図１０に示すフローと異なる。ステップＳ３０６において、軌道生成部３０６は、ステップＳ２０５で設定された重要領域間を遷移する軌道を生成する。その後のステップＳ３０７において、動画生成部３０７は、ステップＳ３０６で生成された軌道にしたがって仮想的なカメラを動かし、重要領域間を遷移する動画を生成する（ステップＳ３０７）。

以上に説明した本実施形態によれば、入力された全天球画像から１つ以上の重要領域を抽出し、その重要領域間を遷移して表示する動画を生成することができる。以上においては、第２の実施形態に対応して全天球画像に対する動画生成を述べたが、これに限らず、例えば第１の実施形態に対応させて、通常の画像に対して動画を生成させることもできる。

（第４の実施形態）
次に、第４の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、入力された画像を分類し、分類に応じてバリエーションを切り替えて重要領域設定、軌道生成を行う場合を例に挙げて説明する。

図１６は、本実施形態の画像処理装置４００が有する機能の一例を示す図である。図１６に示すように、画像処理装置４００は、画像分類部４０１をさらに有する点で図１３に示す構成と相違する。

画像分類部４０１は、重要度が算出された画像のカテゴリを推定し、推定したカテゴリに応じて重要領域の設定方法を可変に設定する。この例では、画像分類部４０１は、推定したカテゴリに応じて、重要領域の設定方法および軌道の生成方法を可変に設定する。画像分類には、例えば非特許文献６のような一般的な画像分類のアルゴリズムを使うことができる。分類のカテゴリとして、人物、風景、スポーツなどといったものが考えられる。人物画像の場合は、重要領域設定においてクラスタ数を多く取り、各個人を抽出できるように設定したり、風景では逆にクラスタ数を少なく取り全体をひとつにまとめるようにしたり、スポーツでは軌道生成において遷移速度を速めたりすることなどができる。これらは事前に、画像カテゴリごとにパラメータ（重要領域設定に関するパラメータ、軌道生成に関するパラメータ）を紐付ける形でテーブルとして用意し、重要領域設定部１０５、軌道生成部３０６で参照できるようにする。

また、別のバリエーションとしては、抽出した重要度の分布から、重要領域設定、及び軌道生成のパラメータを決めることができる。たとえば重要度分布の分散が大きい時は多くの重要なものが画像に散在していることから、最初に全体をひとつの重要領域として、さらに階層的に複数の重要領域にクラスタリングし、軌道生成では全体像から個々の部分に遷移していくような軌道を生成することができる。このような重要度分布のバッリエーションごとに、重要領域設定に関するパラメータ、および軌道生成に関するパラメータを紐付けてテーブルの形式で予め用意し、重要領域設定部１０５、軌道生成部１０６で利用する形態であってもよい。

図１７は、本実施形態の画像処理装置４００の動作例を示すフローチャートである。ステップＳ４０１が追加されている点が図１５に示すフローと異なる。ステップＳ４０１において、画像分類部４０１は、ステップＳ１０２で重要度が算出された画像のカテゴリを推定し、推定したカテゴリに紐付けられた、重要領域設定に関するパラメータ、および、軌道生成に関するパラメータを選択する。そして、その選択した各パラメータを、ステップＳ２０５で重要領域設定部１０５が利用できるようにするとともに、ステップＳ３０６で軌道生成部３０６が利用できるようにする。

以上に説明した本実施形態によれば、入力された画像の分類に応じて、重要領域設定に関するパラメータ、および、軌道生成に関するパラメータを切り替えて、重要領域生成および軌道生成を行うことができる。なお、第１の実施形態に対応させた場合は、軌道生成は行わずに、入力された画像の分類に応じて、重要領域設定に関するパラメータを切り替えて、重要領域生成を行うことができる。

（第５の実施形態）
次に、第５の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、入力された画像から抽出した画像特徴を考慮して、１つ以上の重要領域を設定する。以下、具体的な内容を説明する。

図１８は、本実施形態の画像処理装置５００が有する機能の一例を示す図である。図１８に示すように、画像処理装置５００は特徴抽出部５０１をさらに有する点で第１の実施形態の図３の構成と相異する。また、パラメータ推定部５０２の機能も、第１の実施形態の図３に示すパラメータ推定部１０２の機能と相異する。以下、相違点を説明する。

特徴抽出部５０１は、処理対象の画像の複数の位置の各々における特徴ベクトルを抽出する。この例では、特徴抽出部５０１は、入力された画像から各画像位置及びそれを含む局所領域の特徴を抽出する。ここで、特徴とは、各画素位置での色、エッジ（方向、強度）、局所境域での色・エッジのヒストグラム、周波数成分（フーリエ係数、ＤＣＴ係数）、濃淡パターン（ＬＢＰ、Ｈａａｒ−ｌｉｋｅ特徴）、ニューラルネットワークでの出力、など画像認識技術で使用する一般的な画像特徴を用いることができる。これらの特徴を、撮影方向取得部１０３により取得された撮影方向ごとに得る。つまり、特徴抽出部５０１は、撮影方向取得部１０３により取得された撮影方向ごとに、処理対象の画像のうち該撮影方向に対応する位置における特徴ベクトルを抽出する。

パラメータ推定部５０２は、特徴ベクトルと撮影方向のベクトルを結合したベクトルごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。第１の実施形態では、撮影方向に対して重要度分布をクラスタリングするものであったが、本実施形態では撮影方向にさらに画像特徴を加えてクラスタリングを行う。つまり、第１の実施形態では変数ｘ_ｎは撮影方向(Ｘ，Ｙ，Ｚ)の３次元ベクトルであったが、これにＣ次元の画像特徴を加えたＣ＋３次元のベクトルとしてｘ_ｎを再定義する。形式的には次元数が異なるだけで、第１の実施形態と同様の計算でクラスタリングを行うことができる。ただし、特徴量の確率密度関数は撮影方向の確率密度関数と異なり、多次元正規分布などを割り当てることが好ましい。もちろん、撮影方向と同様に単位ベクトル化してvon Mises-Fisher分布を用いることもできる。von Mises-Fisher分布を用いる場合は特徴ベクトル間のなす角度を評価することになり、特徴ベクトルの大きさが意味を持たない場合に有効である。

図１９は、本実施形態の画像処理装置５００の動作例を示すフローチャートである。ステップＳ５０１およびステップＳ５０２の処理の部分が図６に示すフローと異なる。ステップＳ５０１において、特徴抽出部５０１は、ステップＳ１０３で取得された撮影方向ごとに特徴ベクトルを抽出する。次に、ステップＳ５０２において、パラメータ推定部５０２は、特徴ベクトルと撮影方向のベクトルを結合したベクトルごとの重要度の分布を要素分布の混合分布として、各要素分布のパラメータを推定する。

以上に説明したように、本実施形態では、入力された画像の画像特徴を考慮して、１つ以上の重要領域を設定することができる。単純に撮影方向の近さでクラスタリングをする第１の実施形態に対して、本実施形態では類似した特徴を持った領域をまとめることができるので、より画像内容に沿った重要領域の分割が可能となる。

変形例としては、画像特徴として物体認識結果から得る物体の確信度を使うこともできる。図２０にはその一例を示しており、物体認識された結果から各物体ラベルの確信度を各画素位置で求めて、それを特徴量とする。確信度の算出法は物体認識アルゴリズムに依存するが、一般的には物体の事後確率を用いることができ、また、アドホックに物体検出位置の中心から緩やかに減衰させても良い。また、得られた物体特徴から、部分画像の審美的な評価値を算出してクラスタリングに反映させることも可能である。たとえば、主要な直線が水平になるような部分画像と高く評価したり、消失点が画像中心に来ることを高く評価したりすることができる。このような評価関数を上記式（４）および上記式（５）に追加することで、同じ枠組みで最適化を図ることができる。

以上においては、第１の実施形態に対する差分として述べたが、本実施形態の構成を他の実施形態と組み合わせることも可能である。

（第６の実施形態）
次に、第６の実施形態について説明する。各実施形態と共通する部分については適宜に説明を省略する。本実施形態では、ユーザとシステム（画像処理装置６００）のインタラクションを通じて重要領域を設定する例を示す。

図２１は、本実施形態の画像処理装置６００が有する機能の一例を示す図である。図２１に示すように、画像処理装置６００は、調整部６０２をさらに有する点で図３の構成と相異する。調整部６０２は、ユーザからの入力に応じて、重要領域または軌道（重要領域の遷移軌道）を調整する。ここでは、第１の実施形態の構成を前提とし、調整部６０２は、ユーザからの入力に応じて重要領域を調整する。ただし、本実施形態の構成は他の実施形態に適用することも可能であり、例えば本実施形態の構成を第３の実施形態に対応させることにより、調整部６０２は、ユーザからの入力に応じて、軌道を調整する形態であってもよい。

この例では、調整部６０２は、重要領域設定部１０５で設定された重要領域を、表示部１５に表示する制御を行ってユーザに提示する。図２２はその一例であり、２つの矩形状の重要領域（領域１、領域２）が入力画像に重畳されて表示されている。ユーザは、この重要領域をドラッグアンドドロップするための操作を、入力部１４を介して行うことで、位置や大きさの変更指示をシステムへ入力することが可能である。調整部６０２は、入力部１４を介した入力を受け付けると、その受け付けた入力に応じて、重要領域を調整（修正）する。そして、ユーザが領域の調整を終了したことをシステムに伝える（例えば入力部１４を介して入力する）と、システム（調整６０２）は処理を終えて調整結果の重要領域を出力する。また、ユーザが調整後、再クラスタリングの命令をシステムへ入力することもできる。その場合は、調整部６０２は、ユーザが調整した位置を上記式（５）における事前分布ｐ（μ）、ｐ（ｋ）に反映させて（事前分布の平均値をユーザの指定位置、サイズに合わせるなど）、パラメータ推定部１０４でクラスタリングを再度実行させる。また、ユーザからクラスタ数の指示を受け付けて再クラスタリングさせることもできる。このようにして、ユーザとシステムでインタラクティブに重要領域を設定することができる。

以上においては、第１の実施形態に対する差分として述べたが、本実施形態の構成を他の実施形態と組み合わせることも可能である。例えば第３の実施形態との組み合わせにおいては、重要領域の提示順序や軌道生成のための評価関数をユーザが指定することが可能である。

以上、本発明に係る実施形態について説明したが、本発明は、上述の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上述の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに異なる実施形態や変形例を適宜に組み合わせてもよい。

また、実施形態の画像処理装置１００で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよいし、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、各種プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

２０記憶装置
１００画像処理装置
１０１画像読み込み部
１０２重要度算出部
１０３撮影方向取得部
１０４パラメータ推定部
１０５重要領域設定部
３０６軌道生成部
３０７動画生成部
４０１画像分類部
５０１特徴抽出部
６０２調整部

特許第４５３８００８号公報特許第３４１１９７１号公報国際公開第ＷＯ２００６／０８２９７９号特許第６０２３０５８号公報特許第５３３９６３１号公報

L. Itti, et al., "A model of saliency-based visual attention for rapid scene analysis," IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.20, no.11, pp. 1254-1259, 1998. F. Stentiford, "Attention Based Auto Image Cropping," In International Conference on Computer Vision Systems, 2007. X. Huang, et al., "SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks," Proceedings of the IEEE International Conference on Computer Vision. 2015. Z. Zhang, "A flexible new technique for camera calibration," IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, 11, pp. 1330-1334, 2000. T. Flash and N. Hogan, "The coordination of arm movements: an experimentally confirmed mathematical model," The journal of Neuroscience, vol.5, no.7, pp.1688-1703, 1985. K. He, X. Zhang, S. Ren, J. Sun, "Deep Residual Learning for Image Recognition," in arXiv: 1512.03385, 2015.

Claims

画像における複数の位置ごとの重要度を算出する重要度算出部と、
前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得部と、
前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定部と、
前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定部と、を備える、
画像処理装置。
前記要素分布はvon Mises-Fisher分布であり、
前記パラメータは、前記要素分布の平均方向を示す第１パラメータと、分布が前記平均方向の付近に集中している度合いを示す第２パラメータと、を含み、
前記重要領域設定部は、前記第１パラメータが示す前記平均方向を中心とし、前記第２パラメータが示す集中度に応じてサイズを決定することで前記重要領域を設定する、
請求項１に記載の画像処理装置。
前記パラメータ推定部は、前記要素分布の前記パラメータを推定する方法として、k-means法、EMアルゴリズム、変分ベイズ法およびモンテカルロ法の何れかを使用する、
請求項１に記載の画像処理装置。
設定された前記重要領域間を遷移する軌道を生成する遷移軌道生成部をさらに備える、
請求項１に記載の画像処理装置。
前記遷移軌道生成部は、前記重要領域の遷移順序の全ての組み合わせごとに前記軌道を生成し、生成した前記軌道の長さ、曲率の累積を示す累計曲率、前記重要度の累積を示す累積重要度を用いて、前記軌道ごとの評価値を算出し、前記軌道ごとの前記評価値に基づいて前記遷移順序を決定する、
請求項４に記載の画像処理装置。
前記画像のカテゴリを推定し、推定した前記カテゴリに応じて前記重要領域の設定方法を可変に設定する画像分類部をさらに備える、
請求項１に記載の画像処理装置。
前記複数の位置の各々における特徴ベクトルを抽出する特徴抽出部をさらに備え、
前記パラメータ推定部は、
前記特徴ベクトルと前記撮影方向のベクトルを結合したベクトルごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定する、
請求項１に記載の画像処理装置。
ユーザからの入力に応じて、前記重要領域または前記軌道を調整する調整部をさらに備える、
請求項１または請求項４に記載の画像処理装置。
画像における複数の位置ごとの重要度を算出する重要度算出ステップと、
前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得ステップと、
前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定ステップと、
前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定ステップと、を有する、
画像処理方法。
コンピュータに、
画像における複数の位置ごとの重要度を算出する重要度算出ステップと、
前記複数の位置ごとに三次元空間中での撮影方向を取得する撮影方向取得ステップと、
前記撮影方向ごとの前記重要度の分布を要素分布の混合分布として、各前記要素分布のパラメータを推定するパラメータ推定ステップと、
前記パラメータに基づいて、前記画像から重要領域を設定する重要領域設定ステップと、を実行させるためのプログラム。