JP6511950B2

JP6511950B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP6511950B2
Application number: JP2015099189A
Authority: JP
Inventors: 崇之原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2019-05-15
Anticipated expiration: 2035-05-14
Also published as: JP2016219879A

Description

本発明は画像処理装置、画像処理方法及びプログラムに関する。

動画像から重要なシーンを判定して、ユーザが重要なシーンを視聴できるようにする技術が従来から知られている。

特許文献１には、テレビ番組動画像からハイライトシーンを抽出する技術が開示されている。具体的には、機械学習に基づいたシーン識別方法を用いるアルゴリズムにおいて、ユーザが所望するハイライト抽出結果を得られなかった場合に、対話的に学習データを追加する手段を提供することにより、ハイライト抽出精度を向上させる技術が開示されている。

また特許文献２には、動画の要約を自動作成する動画要約自動作成技術が開示されている。具体的には、音声認識を用いて音声データから得られたテキストデータから重要語を抽出し、抽出された重要語と、テキストデータから重要語を抽出する方法と同様の考えに基づき抽出された代表画像と、を統合して動画の要約を作成する技術が開示されている。

また特許文献３には、監視カメラ撮影動画像を対象として、監視にあたり注視すべき重要シーンを好適に判別し、また判別された重要シーンに基づいて、元の監視映像よりも短い要約映像を作成可能とする技術が開示されている。

しかしながら従来の技術では、動画像に含まれる重要度が大きい領域を効率的に視聴することができなかった。

本発明は、上記に鑑みてなされたものであって、動画像に含まれる重要度が大きい領域を効率的に視聴することができる画像処理装置、画像処理方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、動画像を構成する各フレームを、所定のサイズの領域毎に走査して、前記領域毎の重要度を算出する算出部と、前記領域を前記重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成するクラスタリング部と、前記少なくとも１つの領域クラスタから、前記重要度に基づいて重要領域クラスタを選択する選択部と、各フレームの前記重要領域クラスタを含む部分フレームを抽出し、前記部分フレームにより構成される部分動画像を生成する生成部と、を備える。

本発明によれば、動画像に含まれる重要度が大きい領域を効率的に視聴することができるという効果を奏する。

図１は第１実施形態の画像処理装置の構成の例を示す図である。図２は第１実施形態の領域クラスタの例を示す図である。図３は第１実施形態の重要領域クラスタの追跡パスの生成方法の例を説明するための図である。図４は第１実施形態の部分フレームの抽出例を示す図である。図５は第１実施形態の画像処理方法の例を示すフローチャートである。図６は第２実施形態の画像処理方法の例を示すフローチャートである。図７は第４実施形態の正距円筒画像（動画像）を説明するための図である。図８は第４実施形態の正距円筒画像（動画像）上の点の距離について説明するための図である。図９は第１乃至第４実施形態の画像処理装置のハードウェア構成の例を示す図である。

以下に添付図面を参照して、画像処理装置、画像処理方法及びプログラムの実施形態を詳細に説明する。

（第１実施形態）
図１は第１実施形態の画像処理装置１００の構成の例を示す図である。第１実施形態の画像処理装置１００は、記憶部１１、入力部１２、算出部１３、クラスタリング部１４、選択部１５、生成部１６及び表示部１７を備える。

記憶部１１は画像処理対象の動画像、及び、画像処理後の部分動画像等を記憶する。入力部１２は、記憶部１１から画像処理対象の動画像を読み出し、算出部１３に入力する。

算出部１３は、入力部１２から動画像が入力されると、動画像を構成する各フレームを所定のサイズの領域毎に走査して、領域毎の重要度を算出する。所定のサイズの領域は、１以上の画素により構成される。算出部１３は、例えば顕著性抽出法、及び、物体認識法等を用いて重要度を算出する。

顕著性抽出法が用いられる場合、例えば以下の方法により重要度が算出される。算出部１３は、ラプラシアンフィルタ及びガボールフィルタ等を用いて、各フレームの画素毎にエッジ量を算出する。ここでエッジ量は、大きいほど強いエッジを示す。算出部１３は、各フレームについて、エッジ量の分布を示すエッジ量分布マップを生成する。算出部１３は、このエッジ量分布マップを所定のサイズの領域を有するウィンドウを用いて走査する。算出部１３は、ウィンドウ内のエッジ量の分布と、当該ウィンドウの周辺領域のエッジ量の分布と、の統計的な差異が閾値以上の場合、当該ウィンドウの位置の領域の重要度を大きくする。ここで統計的な差異は、エッジ量の分布間の距離を、カルバックライブラー情報量及びバタチャタリヤ距離等で測ることができる。

算出部１３は、各フレームについて、所定のサイズの領域毎の重要度の分布を示す重要度マップを生成し、各フレームの重要度マップをクラスタリング部１４に入力する。

なお上述の例では、画素の特徴を示す特徴量が、エッジ量である場合について説明したが、当該特徴量は任意でよい。特徴量は、例えば色分布でもよいし、訓練用画像データからニューラルネットワーク等の機械学習により得た特徴量等でもよい。顕著性抽出法に用いられる特徴量の例は、例えば非特許文献１及び２に記載されている。

また重要度の算出に物体認識法が用いられる場合、算出部１３は、例えば人物認識及び顔認識等により特定の物体を認識し、当該物体を示す領域の重要度が大きくなるように重要度を算出する。物体認識法の例は、例えば非特許文献５に記載されている。

また算出部１３は、重要度の算出を全ての画素で行う必要はない。算出部１３は、所定の間隔の画素毎に重要度の算出を行うことにより、計算量を削減してもよい。

クラスタリング部１４は、算出部１３から各フレームの重要度マップを受け付けると、当該重要度マップに基づいて、領域をクラスタリングすることにより、少なくとも１つの領域クラスタを生成する。

具体的には、クラスタリング部１４は以下の方法により領域をクラスタリングする。まず、クラスタリング部１４は、フレームを１つ読み込み、当該フレーム内で重要度が閾値以上の領域を抽出する。クラスタリング部１４は、抽出された領域をクラスタリングすることにより、少なくとも１つの領域クラスタを生成する。

クラスタリングの方法は任意でよい。クラスタリング部１４は、例えばｋ−ｍｅａｎクラスタリング法（非特許文献３参照）等を使用することができる。また領域間の距離基準には、ユークリッド距離、及び、画素のＲＧＢ成分差のＬ２ノルム等を使用できる。また、クラスタリング部１４は、画素周辺領域の特徴量（色ヒストグラム、及び、ＨａａｒＬｉｋｅ特徴等）の差を用いてクラスタリングしてもよい。また、クラスタリング部１４は、顕著性抽出法で用いられた特徴量（算出部１３の処理で得られた特徴量）の差を用いてクラスタリングしてもよい。さらには、クラスタリング部１４は、これらの特徴量の差を組み合わせてクラスタリングしてもよい。

なお算出部１３が、領域単位ではなく、物体単位で顕著性抽出を行い、当該物体単位で重要度が算出されている場合は、クラスタリング部１４の処理を省くことができる。

図２は第１実施形態の領域クラスタの例を示す図である。図２の例は、クラスタリング部１４が、重要度マップから３つの領域クラスタＡ、Ｂ及びＣを生成した場合を示す。

図１に戻り、クラスタリング部１４は、少なくとも１つの領域クラスタの位置及び大きさを示す領域クラスタ情報をフレーム毎に生成し、当該領域クラスタ情報を選択部１５に入力する。

選択部１５は、クラスタリング部１４から領域クラスタ情報を受け付けると、領域クラスタに含まれる領域の重要度の和、平均及び最大値等により、領域クラスタの重要度を決定する。選択部１５は、重要度が最も大きい領域クラスタの領域クラスタ情報を、重要領域クラスタ情報として１つ選択する。選択部１５は、重要領域クラスタ情報をフレーム毎に生成部１６に入力する。

生成部１６は、選択部１５から重要領域クラスタ情報を受け付けると、各フレームの重要領域クラスタを含む部分フレームを抽出し、当該部分フレームにより構成される部分動画像を生成する。

具体的には、生成部１６は、まず各フレームに含まれる重量領域クラスタの位置を特定する追跡パスを生成する。追跡パスは、フレームを特定する時間情報と、当該フレーム内の重要領域クラスタの位置情報と、を含む。重要領域クラスタの位置情報は、例えば重要領域クラスタの中心を示すフレーム内の座標である。追跡パスは、基準フレームｔの前後のフレームに含まれる重要領域クラスタの位置を示す。

図３は第１実施形態の重要領域クラスタの追跡パスの生成方法の例を説明するための図である。図３の例は、選択部１５が、複数の領域クラスタＡ、Ｂ及びＣ（図２参照）から、領域クラスタＡを重要領域クラスタとして選択した場合を示す。以下、第１実施形態の説明では、領域クラスタＡを重要領域クラスタＡともいう。生成部１６は、基準フレームｔに含まれる重要領域クラスタＡの前後のフレームに対して当該重要領域クラスタＡを追跡する。重要領域クラスタＡを追跡する方法は任意でよい（例えば非特許文献４参照）。生成部１６は、重要領域クラスタＡを見失うか、又は、動画像の最初又は最後のフレームに到達した時点で追跡パスの生成を終了する。次に生成部１６は、追跡パスに基づいて各フレームから部分フレームを抽出する。

図４は第１実施形態の部分フレーム１０１ａ〜１０１ｅの抽出例を示す図である。図４の例は、図３の追跡パスに基づいて抽出された部分フレーム１０１ａ〜１０１ｅの例を示す。具体的には、生成部１６は、各フレームについて、例えば追跡パスの位置が部分フレームの中心となるように、フレームをトリミングする。このとき生成部１６は、各フレームをトリミングすることにより得られる部分フレームの画角を、重要領域クラスタＡの大きさの特定の倍率にする。

なお生成部１６によるトリミングの方法は任意でよい。例えば生成部１６は、部分フレームｔの中心を、追跡パスの１フレーム先のフレームｔ＋１内の重要領域クラスタＡの中心を示す座標にしてもよい。また、１フレーム毎にトリミング位置が変動すると視認性が低下するため、生成部１６は、トリミング位置を時間方向に平滑化して調整してもよい。

生成部１６は、部分フレームにより構成される部分動画像を記憶部１１に記憶する。表示部１７は、記憶部１１に記憶された部分動画像を表示する。

次に第１実施形態の画像処理方法について説明する。

図５は第１実施形態の画像処理方法の例を示すフローチャートである。はじめに、動画像が入力部１２に入力される（ステップＳ１）。次に、算出部１３が、動画像を構成する各フレームを所定のサイズの領域毎に走査して、領域毎の重要度を算出する（ステップＳ２）。次に、クラスタリング部１４が、領域毎の重要度の分布を示す重要度マップに基づいて、領域をクラスタリングすることにより、少なくとも１つの領域クラスタを生成する（ステップＳ３）。次に、選択部１５が、重要度が最も大きい領域クラスタを、重要領域クラスタとして１つ選択する（ステップＳ４）。次に、生成部１６が、各フレームに含まれる重要領域クラスタを追跡することにより、追跡パスを生成する（ステップＳ５）。次に、生成部１６が、各フレームについて、追跡パスの位置が、部分フレームの中心となるようにフレームをトリミングすることにより、当該部分フレームにより構成される部分動画像を生成する（ステップＳ６）。

以上説明したように、第１実施形態の画像処理装置１００では、算出部１３が、動画像を構成する各フレームを、所定のサイズの領域毎に走査して、当該領域毎の重要度を算出する。次にクラスタリング部１４が、領域を重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成する。次に選択部１５が、少なくとも１つの領域クラスタから、重要度に基づいて重要領域クラスタを選択する。次に生成部１６が、各フレームの重要領域クラスタを含む部分フレームを抽出し、当該部分フレームにより構成される部分動画像を生成する。これにより第１実施形態の画像処理装置１００によれば、動画像に含まれる重要度が大きい領域を効率的に視聴することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態では、画像処理装置１００が複数の部分動画像を生成する場合について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略する。第２実施形態の画像処理装置１００の構成は、第１実施形態の画像処理装置１００と同じである。

図６は第２実施形態の画像処理方法の例を示すフローチャートである。クラスタリング部１４が図２の領域クラスタＡ、Ｂ及びＣを生成した場合を例にして説明する。ステップＳ１１〜ステップＳ１３、ステップＳ１５及びステップＳ１６の説明は、第１実施形態の画像処理方法のステップＳ１〜ステップＳ３、ステップＳ５及びステップＳ６（図５参照）と同じなので省略する。

選択部１５は、領域クラスタＡ、Ｂ及びＣのうち、まだ選択されていない領域クラスタを、重量領域クラスタとして選択する（ステップＳ１４）。選択部１５は、例えば領域クラスタの重要度が大きい順に、まだ選択されていない領域クラスタを選択する。

次に、生成部１６が、ステップＳ１４で選択された領域クラスタを含む部分動画像を、ステップＳ１５及びステップＳ１６の処理により生成する。次に、選択部１５が、全ての領域クラスタを、重要領域クラスタとして選択したか否かを判定する（ステップＳ１７）。全ての領域クラスタを、重要領域クラスタとして選択していない場合（ステップＳ１７、Ｎｏ）、画像処理はステップＳ１４に戻る。全ての領域クラスタを、重要領域クラスタとして選択した場合（ステップＳ１７、Ｙｅｓ）、画像処理は終了する。

以上説明したように、第２実施形態の画像処理装置１００では、クラスタリング部１４が、複数の領域クラスタを生成する。また選択部１５が、全ての領域クラスタを重要領域クラスタの対象にして、領域クラスタを順番に１つ選択する。そして生成部１６が、重量領域クラスタとして選択された各フレームの領域クラスタを含む部分フレームを抽出し、当該部分フレームにより構成される部分動画像を生成する。第２実施形態の画像処理装置１００によれば、複数の部分動画像を時間的な重複を許して個別に抽出できるので、動画像に含まれる重要なシーンが同時刻で重なる場合でも、当該重量なシーンを効果的に視聴することができる。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態では、画像処理装置１００が、領域クラスタの重要度、及び、領域クラスタ間の距離に基づいて部分動画像を生成する場合について説明する。第３実施形態の説明では、第２実施形態と同様の説明については省略する。第３実施形態の画像処理装置１００の構成は、第２実施形態の画像処理装置１００と同じである。また第３実施形態の画像処理方法は、第２実施形態の画像処理方法（図６参照）と同様であるが、図６のステップＳ１４における重要領域クラスタの具体的な選択方法が第２実施形態の画像処理方法とは異なる。

以下、第３実施形態の選択部１５による重要領域クラスタの選択方法について説明する。選択部１５は、領域クラスタの重要度、及び、領域クラスタ間の距離に基づいて、重量領域クラスタを選択する。

まず領域クラスタ間の距離について説明する。領域クラスタ間の距離は、領域クラスタの中心を示すフレーム内の座標間の距離である。選択部１５は、下記式（１）の評価関数Ｊを最大化するように領域クラスタをＮ個選択する。

ここでＰ_ｉは領域クラスタの重要度を示す。Ｄ_ｉｊは領域クラスタｉと領域クラスタｊとの間の距離を示す。Ｓは選択された領域クラスタのインデックスの集合（Ｎ個の要素）である。λは２つの評価基準（重要度及び距離）のバランスを決める係数である。なお評価関数Ｊの構成法は上述の式（１）に限られない。評価関数Ｊは、Ｐ_ｉ及びＤ_ｉｊに対して単調増加するような関数として構成することができる。

なお評価関数Ｊの最大化は組み合わせ最適化問題となる。そのため選択部１５は、領域クラスタ数が十分少なく計算負荷が許す場合は全探索を用い、領域クラスタ数が多い場合には遺伝的アルゴリズム、模擬焼きなまし法及びタブーサーチ等のメタヒューリスティクス最適化手法を用いることが好ましい。

選択部１５は、評価関数Ｊを最大化するＮ個の領域クラスタを選択し、当該Ｎ個の領域クラスタから順次１つずつ重要領域クラスタを選択する。このとき選択部１５は、重要領域クラスタを選択するときに、下記式（２）の修正重要度Ｐ’_ｉが最大となる領域クラスタを選択する。

しかしながら上述の方法では、どの領域クラスタが同一の追跡パスに含まれるのかは分からないため、同じ追跡パスを重複選択する可能性が残る。したがって、毎ループ毎に追跡パスに含まれた領域クラスタを削除して再計算する。すなわち、今までに選択された、追跡を行う基準となった領域クラスタは、集合Ｓの中に保持する。つまりＭ回目の再計算においてはＮ−Ｍ個の領域クラスタを選択し直すことになる。

以上説明したように、第３実施形態の画像処理装置１００では、選択部１５が、更に領域クラスタ間の距離に基づいて、複数の重要領域クラスタを選択する。そして生成部１６が、それぞれの重要領域クラスタについて、各フレームの重要領域クラスタを含む部分フレームを個別に抽出することにより、複数の部分動画像を生成する。これにより第３実施形態の画像処理装置１００によれば、時間的・空間的に距離が離れた複数の重要領域クラスタを選択できるため、より多様な部分動画像を生成することができる。

（第４実施形態）
次に第４実施形態について説明する。第４実施形態の説明では、動画像が全方位カメラにより撮影されている場合について説明する。第４実施形態の説明では、第３実施形態と同様の説明については省略する。第４実施形態の画像処理装置１００の構成は、第３実施形態の画像処理装置１００と同じである。また第４実施形態の画像処理方法は、第３実施形態の画像処理方法と同様である。

全方位カメラにより撮影された動画像は、例えば正距円筒画像（動画像）により表すことができる。

図７は第４実施形態の正距円筒画像（動画像）を説明するための図である。図７の例は、撮影方向の経度を示す角度がθであり、撮影方向の緯度を示す角度がΦである場合を示す。このとき動画像は、０＜θ＜２π、−π／２＜Φ＜π／２の範囲の正距円筒画像（動画像）として得られる。

図７の正距円筒画像（動画像）の場合、第３実施形態で説明した領域クラスタ間の距離を計算する処理に修正が必要となる。

図８は第４実施形態の正距円筒画像（動画像）上の点の距離について説明するための図である。正距円筒画像（動画像）の場合、選択部１５は、まず領域クラスタの位置を撮影方向の単位球上に再投影する。そして選択部１５は、領域クラスタ間の単位球上での最短パスを、領域クラスタ間の距離として用いる。

第４実施形態の画像処理装置１００によれば、動画像が全方位カメラに撮影されている場合でも、当該動画像中の重要な部分を、部分動画像により効率的に視聴することが可能となる。

最後に、第１乃至第４実施形態の画像処理装置１００のハードウェア構成の例について説明する。

図９は第１乃至第４実施形態の画像処理装置１００のハードウェア構成の例を示す図である。

第１乃至第４実施形態の画像処理装置１００は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２はＲＯＭ及びＲＡＭ等のメモリである。補助記憶装置３０３はメモリカード及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。

表示装置３０４は情報を表示する。表示装置３０４は、例えば液晶ディスプレイである。入力装置３０５は、情報の入力を受け付ける。入力装置３０５は、例えばキーボード等である。なお表示装置３０４及び入力装置３０５は、表示機能と入力機能とを有する液晶タッチパネル等でもよい。通信装置３０６は他の装置と通信する。

画像処理装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

また画像処理装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また画像処理装置１００が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また画像処理装置１００のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

画像処理装置１００で実行されるプログラムは、上述の実施形態の画像処理装置１００の構成（機能ブロック）のうち、プログラムにより実現可能な機能ブロックを含むモジュール構成となっている。プログラムにより実現可能な機能ブロックは、例えば入力部１２、算出部１３、クラスタリング部１４、選択部１５、生成部１６及び表示部１７である。

プログラムにより実現される機能ブロックは、制御装置３０１が補助記憶装置３０３等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能ブロックが主記憶装置３０２にロードされる。すなわちプログラムにより実現される機能ブロックは、主記憶装置３０２上に生成される。

なお実施形態の画像処理装置１００の機能ブロックを、プログラムと、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアと、を組み合わせることにより実現してもよい。

１１記憶部
１２入力部
１３算出部
１４クラスタリング部
１５選択部
１６生成部
１７表示部
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置
３１０バス

特開２００８−０２２１０３号公報特許第４９２０３９５号公報特開２０１２−２０５０９７号公報

Ｌ．Ｉｔｔｉ，Ｃ．Ｋｏｃｈ，ａｎｄＥ．Ｎｉｅｂｕｒ，"ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｙ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ．２０，Ｎｏ．１１，ｐｐ．１２５４−１２５９，１９９８．Ｔ．Ｌｉｕ，Ｊ．Ｓｕｎ，Ｎ．Ｎ．Ｚｈｅｎｇ，Ｘ．Ｔａｎｇ，ａｎｄＨ．−Ｙ．Ｓｈｕｍ，"ＬｅａｒｎｉｎｇｔｏＤｅｔｅｃｔＡＳａｌｉｅｎｔＯｂｊｅｃｔ，"ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２００７．Ｒ．Ｏ．Ｄｕｄａ，Ｐ．Ｅ．Ｈａｒｔ，Ｄ．Ｇ．Ｓｔｏｒｋ，"ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，"Ｗｉｌｅｙ−Ｉｎｔｅｒｓｃｉｅｎｃｅ，２０００．Ｙ．Ｗｕ，ｅｔ．ａｌ．，"Ｏｎｌｉｎｅｏｂｊｅｃｔｔｒａｃｋｉｎｇ：Ａｂｅｎｃｈｍａｒｋ，"ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１３．Ｃ．Ｆａｒａｂｅｔ，ｅｔ．ａｌ．，"Ｌｅａｒｎｉｎｇｈｉｅｒａｒｃｈｉｃａｌｆｅａｔｕｒｅｓｆｏｒｓｃｅｎｅｌａｂｅｌｉｎｇ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３５，ｎｏ．８，ｐｐ．１９１５−１９２９，（２０１３）．

Claims

動画像を構成する各フレームを、所定のサイズの領域毎に走査して、前記領域毎の重要度を算出する算出部と、
前記領域を前記重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成するクラスタリング部と、
前記少なくとも１つの領域クラスタから、前記重要度に基づいて重要領域クラスタを選択する選択部と、
各フレームの前記重要領域クラスタを含む部分フレームを抽出し、前記部分フレームにより構成される部分動画像を生成する生成部と、
を備える画像処理装置。
前記算出部は、前記領域の特徴を示す特徴量を算出し、前記特徴量が大きいほど前記重要度を大きく算出する、
請求項１に記載の画像処理装置。
前記算出部は、前記フレームに含まれる物体を特定し、前記物体を示す領域の重要度を、前記物体を示さない領域の重要度よりも大きく算出する、
請求項１に記載の画像処理装置。
前記選択部は、前記少なくとも１つの領域クラスタのうち、前記重要度が最も大きい前記領域クラスタを、前記重要領域クラスタとして１つ選択する、
請求項１乃至３のいずれか１項に記載の画像処理装置。
前記クラスタリング部は、前記領域を前記重要度に基づいてクラスタリングすることにより、複数の領域クラスタを生成し、
前記生成部は、各フレームの前記領域クラスタを含む部分フレームを、前記領域クラスタ毎に抽出し、前記部分フレームにより構成される部分動画像を、前記領域クラスタ毎に生成する、
請求項１乃至３のいずれか１項に記載の画像処理装置。
前記クラスタリング部は、前記領域を前記重要度に基づいてクラスタリングすることにより、ｎ個（ｎは２以上の整数）の領域クラスタを生成し、
前記選択部は、更に、前記重要領域クラスタ間の距離が最大になるように、Ｎ個（Ｎはｎ以下の整数）の前記重要領域クラスタを選択し、
前記生成部は、それぞれの前記重要領域クラスタについて、各フレームの前記重要領域クラスタを含む部分フレームを個別に抽出することにより、Ｎ個の前記部分動画像を生成する、
請求項１乃至３のいずれか１項に記載の画像処理装置。
前記動画像は、全方位カメラにより撮影された動画像である、
請求項１乃至６のいずれか１項に記載の画像処理装置。
算出部が、動画像を構成する各フレームを、所定のサイズの領域毎に走査して、前記領域毎の重要度を算出するステップと、
クラスタリング部が、前記領域を前記重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成するステップと、
選択部が、前記少なくとも１つの領域クラスタから、前記重要度に基づいて重要領域クラスタを選択するステップと、
生成部が、各フレームの前記重要領域クラスタを含む部分フレームを抽出し、前記部分フレームにより構成される部分動画像を生成するステップと、
を含む画像処理方法。
画像処理装置を、
動画像を構成する各フレームを、所定のサイズの領域毎に走査して、前記領域毎の重要度を算出する算出部と、
前記領域を前記重要度に基づいてクラスタリングすることにより、少なくとも１つの領域クラスタを生成するクラスタリング部と、
前記少なくとも１つの領域クラスタから、前記重要度に基づいて重要領域クラスタを選択する選択部と、
各フレームの前記重要領域クラスタを含む部分フレームを抽出し、前記部分フレームにより構成される部分動画像を生成する生成部、
として機能させるためのプログラム。