JP2014072620A

JP2014072620A - 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置

Info

Publication number: JP2014072620A
Application number: JP2012215850A
Authority: JP
Inventors: Yuichi Ito; 悠一伊藤
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2012-09-28
Filing date: 2012-09-28
Publication date: 2014-04-21

Abstract

【課題】動画像コンテンツの自動編集技術を更に発展させること。
【解決手段】本発明の画像処理プログラムの一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップ（Ｓ１２〜Ｓ２４）と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップ（Ｓ２６）と、をコンピュータに実行させる。
【選択図】図２

Description

本発明は、映像コンテンツ（動画像コンテンツ）に対して処理を施す画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置に関する。

動画像コンテンツを編集して要約動画像を自動的に作成する技術は、例えば特許文献１、非特許文献１などに開示されている。

特開２０１０−３９８７７号公報

伊藤悠一、"密度比推定を用いた映像のダイジェスト化"、画像の認識・理解シンポジウム（ＭＩＲＵ２０１２）の論文集、２０１２年８月発行

本発明は、動画像コンテンツの自動編集技術を更に発展させることを目的とする。

本発明の画像処理プログラムの一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、をコンピュータに実行させる。

また、本発明の画像処理プログラムの他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、をコンピュータに実行させる。

また、本発明の画像処理方法の一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップとを含む。

また、本発明の画像処理方法の他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップとを含む。

また、本発明の画像処理装置の一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出手段と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出手段とを備える。

また、本発明の画像処理装置の他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出手段と、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出手段とを備える。

また、本発明の撮像装置の一例は、被写体を撮像して動画像を取得する撮像手段と、前記撮像手段が取得した動画像に対して処理を施す本発明の画像処理装置の何れかの例とを備える。

本発明によれば、動画像コンテンツの編集技術を更に発展させることができる。

コンピュータ１の構成を示す図である。制御部１５による要約作成処理のフローチャートである。動画像コンテンツの概念図である。着目セグメント及び着目エリアの概念図である。着目エリアの特徴量ヒストグラム、着目セグメントの特徴量ヒストグラムを説明する図である。動画像コンテンツの分割方法を説明する図である。関数Ｐ（ｆ）、中間値Ｐ_ｍ、閾値Δ、距離Ｌを説明する図である。レアエリアの抽出手順を説明する図である。動画像コンテンツの分割パターンの例である。

［実施形態］
以下、本発明の実施形態として画像処理機能を搭載したコンピュータを説明する。

図１は、本実施形態のコンピュータ１の構成を示す図である。図１に示すとおりコンピュータ１には、取得部１１、記録部１２、画像表示部１３、操作部１４、制御部１５などが備えられる。

取得部１１は、有線、無線、記録媒体用のドライブなどを介して、電子カメラなどの外部機器や記録媒体から画像を取得する。

記録部１２は、取得部１１が取得した動画像コンテンツ（動画像コンテンツ）や、制御部１５から指定された動画像コンテンツなどを、不図示のメモリ（内部メモリ又は外部メモリ）に対して記録する。

画像表示部１３は、液晶表示素子などの画像表示素子を備え、制御部１５から指定された動画像コンテンツ又は後述する要約動画像を適当な形式で表示する。

操作部１４は、電源釦、マウス、キーボードなどを有し、ユーザから各種の指示を受け付けて制御部１５へ伝達する。

制御部１５は、制御部１５の動作に必要なプログラムを予め記憶しており、このプログラムと、ユーザから入力された指示とに従って、コンピュータ１の各部を制御すると共に、取得部１１が取得した動画像コンテンツや、不図示のメモリに記録された動画像コンテンツに対して各種の画像処理を施す。この画像処理の１つに、動画像コンテンツからその動画像コンテンツの要約動画像を自動作成する要約作成処理（後述）がある。

なお、制御部１５が予め記憶するプログラムは、有線、無線を経由したインターネットを介して取得したものであってもよいし、記録媒体などを介して取得したものであってもよい。

図２は、制御部１５による要約作成処理のフローチャートである。以下、図２の各ステップを順に説明する。

ステップＳ１１：制御部１５は、ユーザが指定した１つの動画像コンテンツ（図３参照）を読み込む。この動画像コンテンツは、例えば、サッカーの試合を撮影したものである。この動画像コンテンツには、「パス」、「シュート」、「フリーキック」、「ゴールキック」、「フリースロー」などの各種のイベントが含まれている。

ステップＳ１２：制御部１５は、フレーム番号ｉを初期値（＝１）に設定する。

ステップＳ１３：制御部１５は、動画像コンテンツから、第ｉフレームを初期フレームとしたセグメント（時間方向の区切り）を、着目セグメントとして切り出す（図４参照）。着目セグメントは、連続する所定数のフレームからなり、着目セグメントのフレーム数は、予め決められた値（例えば１０）である。

ステップＳ１４：制御部１５は、エリア番号ｊを初期値（＝１）に設定する。

ステップＳ１５：制御部１５は、着目セグメントにおける第ｊ番目の空間座標に所定サイズの着目エリアを設定し（図４参照）、その着目エリアから特徴量ヒストグラムｆ_ｉｊを抽出する。

ここで、着目エリアは、図４に示すとおり、空間方向だけでなく時間方向にもサイズを有している。着目エリアの時間方向のサイズは、セグメントの時間方向のサイズ（ここでは１０フレーム分）と同じである。よって、着目エリアから抽出される特徴量ヒストグラムｆ_ｉｊには、時空間特徴（アクションなど）が反映される。

また、特徴量ヒストグラムｆ_ｉｊは、例えば、図５（Ａ）に示すとおり、着目エリアの勾配ヒストグラム、着目エリアのオプティカルフローヒストグラムなど、各種の時空間特徴量ヒストグラムを、特徴量成分として有している。

このうち、勾配ヒストグラムは、着目エリアに含まれる勾配の頻度を、着目エリア内のブロック毎かつ方向毎に計数したものである。なお、着目エリア内のブロックとは、着目エリアを時空間方向にかけて分割してなる小エリアのことである。因みに、勾配ヒストグラムは、一般に、ＨＯＧ（ＨＯＧ：Histograms of Oriented Gradients）と呼ばれている。

また、オプティカルフローヒストグラムは、着目エリアに含まれるオプティカルフローの頻度を、着目エリア内のブロック毎かつ方向毎に計数したものである。因みに、このオプティカルフローヒストグラムは、一般に、ＨＯF（ＨＯF：Histograms of Optical Flow）と呼ばれている。

なお、特徴量ヒストグラムｆ_ｉｊの特徴量成分の１つとして他の時空間特徴のヒストグラムが加えられてもよい。例えば、ＭＢＨ（ＭＢＨ：Motion Boundary Histograms）などが加えられてもよい。

ステップＳ１６：制御部１５は、現在のエリア番号ｊが最終値（＝ｊ_ｍａｘ）に達したか否かを判別し、達していない場合にはステップＳ１７へ移行し、達していた場合にはステップＳ１８へ移行する。

ステップＳ１７：制御部１５は、エリア番号ｊをインクリメントしてからステップＳ１５に戻る。よって、制御部１５は、着目セグメントの各エリアから特徴量ヒストグラムｆ_ｉｊを１つずつ抽出する（ｊ＝１〜ｊ_ｍａｘ）。なお、エリア番号ｊの異なる２つのエリア同士は、互いに重複せず、かつ、隙間なく並ぶものとする。

ステップＳ１８：制御部１５は、着目セグメントの各エリアから抽出された特徴量ヒストグラムｆ_ｉｊ（ｊ＝１〜ｊ_ｍａｘ）を統合することにより、着目セグメントの特徴量ヒストグラムｆ_ｉを１つ作成する。

統合の際には、各エリアの特徴量ヒストグラムｆ_ｉｊ（ｊ＝１〜ｊ_ｍａｘ）を単純に連結してもよいが（図５（Ｂ）参照）、そのようにすると特徴量ヒストグラムｆ_ｉの次元が著しく高くなってしまう（例えば数百次元）。

そこで、制御部１５は、統合の際に、各エリアの特徴量ヒストグラムｆ_ｉｊ（ｊ＝１〜ｊ_ｍａｘ）の各特徴量成分を、予め用意されたコードブックに従って纏めることにより、特徴量ヒストグラムｆ_ｉの次元を、例えば数十次元にまで抑える（図５（Ｃ）参照）。

なお、コードブックの内容は、基本的に、互いに類似した特徴量成分同士を１つの特徴量成分に纏める（両者の頻度を合算する）ような内容となっている。因みに、このようにして特徴量ヒストグラムの次元を抑える手法は、「Ｂａｇ−ｏｆ−Ｗｏｒｄｓ」、「Ｂａｇ−ｏｆ−Ｆｅａｔｕｒｅｓ」、「Ｂａｇ−ｏｆ−Ｖｉｓｕａｌ−Ｗｏｒｄｓ」などと呼ばれている。

ステップＳ１９：制御部１５は、現在のフレーム番号ｉが最終値（＝ｉ_ｍａｘ）に達したか否かを判別し、達していない場合にはステップＳ２０へ移行し、達していた場合にはステップＳ２１へ移行する。

ステップＳ２０：制御部１５は、フレーム番号ｉをインクリメントしてからステップＳ１３へ戻る。したがって、動画像コンテンツにおいて１フレームずつずれた各セグメントから、特徴量ヒストグラムｆ_ｉが１つずつ抽出される（ｉ＝１〜ｉ_ｍａｘ）。

ステップＳ２１：制御部１５は、動画像コンテンツにおける各セグメントがレアセグメント（希少セグメント）であるか否かを判別するための準備を、以下の手順（ａ）〜（ｃ）により行う。

（ａ）動画像コンテンツを２つの動画像に分割する。ここでは、図６に示すとおり最もシンプルな分割方法を採用し、動画像コンテンツを、前半の動画像（前半動画像）と、後半の動画像（後半動画像）とに分割したと仮定する。なお、前半動画像のフレーム数（又はセグメント数）と、後半動画像のフレーム数（又はセグメント数）とは、等しい（又はほぼ等しい）ものとする。

（ｂ）動画像コンテンツに含まれる各セグメントを学習サンプルとして使用し、任意のセグメントの特徴量ヒストグラムｆと、そのセグメントが後半動画像に属する確率密度比Ｐとの関係（関数Ｐ（ｆ））を確定する。この関数Ｐ（ｆ）は、任意のセグメントが後半動画像に属する確率密度比を推測するための関数である。

ここで、任意のセグメントの確率密度比Ｐは、そのセグメントが前半動画像に属する確率密度と、そのセグメントが後半動画像に属する確率密度との比であり、図７（Ａ）に示すとおり後半動画像に属する確率密度が高いときほど確率密度比Ｐは１に近くなり、前半動画像に属する確率密度が高いときほど確率密度比Ｐは０に近くなる。なお、図７では、特徴量ヒストグラムの次元数を１として描いているが、実際は２以上である。因みに、或る事象の生起する確率を推定するために確率密度比を使用する手法は、「密度比推定法」と呼ばれる。

また、任意のセグメントが後半動画像に属する確率密度比Ｐを推測するための関数Ｐ（ｆ）としては、図７（Ａ）に示すようなロジスティック関数が使用される。ここで、ロジスティック関数は、以下の式（１）で表される。

このロジスティック関数Ｐ（ｆ）は、概ね図７（Ａ）に示すようなカーブを描く。このロジスティック関数Ｐ（ｆ）における係数（ロジスティック係数）ωの値が確定すれば、その関数Ｐ（ｆ）のカーブ形状も確定するので、任意のセグメントが後半動画像に属する確率密度比Ｐを、そのセグメントの特徴量ヒストグラムｆのみから推測できる。

そこで、制御部１５は、前半動画像の各セグメントと後半動画像の各セグメントとを学習サンプルとして式（２）へ当てはめることにより、関数Ｐ（ｆ）におけるロジスティック係数ωを確定する（ロジスティック回帰によるフィッティング）。

但し、ｙは、学習サンプルの属性であって、学習サンプルが前半動画像に属するときには属性ｙ＝０、後半動画像に属するときには属性ｙ＝１とする。また、式（２）における演算子「argmax_ａ［Ａ］」は、Ａを最大化するようなａの値を求めるための演算子である。また、式（２）におけるλは、予め決められた値である。

（ｃ）制御部１５は、動画像コンテンツの各セグメントの特徴量ヒストグラムｆ_ｉ（ｉ＝１〜ｉ_ｍａｘ）の各々を、手順（ｂ）で確定した関数Ｐ（ｆ）へ代入することにより、図７（Ｂ）に示すとおり、各セグメントの確率密度比Ｐ_ｉ（ｉ＝１〜ｉ_ｍａｘ）を求める。そして、制御部１５は、各セグメントの確率密度比Ｐ_ｉ（ｉ＝１〜ｉ_ｍａｘ）の中間値Ｐ_mを求める。

なお、ｍ個のデータからなるデータ群の中間値とは、そのデータ群の中で（ｍ＋１）／２番目に小さなデータの値（又は（ｍ＋１）／２番目に大きなデータの値）のことである。よって、ここでは、ｉ_ｍａｘ個のデータからなるデータ群Ｐ_ｉ（ｉ＝１〜ｉ_ｍａｘ）の中間値Ｐ_mとして、（ｉ_ｍａｘ＋１）／２番目に小さなデータの値（又は（ｉ_ｍａｘ＋１）／２番目に大きなデータの値）が求められる。因みに、データ群Ｐ_ｉ（ｉ＝１〜ｉ_ｍａｘ）の値が０．５に関して対称に分布していた場合は、中間値Ｐ_mは０．５となるが、そうでない場合は、中間値Ｐ_mは０．５から少しずれた値になる。

したがって、本実施形態では、「動画像コンテンツの各セグメントの中で、確率密度比Ｐが中間値Ｐ_ｍに近いセグメントは、非レアイベントの発生した非レアセグメントであり、確率密度比Ｐが中間値Ｐ_ｍから離れたセグメントは、レアイベントの発生したレアセグメントである」という判別が可能である。

ステップＳ２２：制御部１５は、フレーム番号ｉを初期値（＝１）に設定する。

ステップＳ２３：制御部１５は、第ｉフレームを初期フレームとした１０フレーム分のセグメントを着目セグメントに設定し、その着目セグメントの確率密度比Ｐ_ｉを参照すると、その確率密度比Ｐ_ｉから中間値Ｐ_ｍまでの距離Ｌ_ｉを求め、その距離Ｌ_ｉが所定の閾値Δより大きいか否かを判別し、閾値Δ以下である場合には、その着目セグメントを非レアセグメントと判別し、閾値Δより大きい場合には、その着目セグメントをレアセグメントと判別する。

ステップＳ２４：制御部１５は、現在のフレーム番号ｉが最終値（＝ｉ_ｍａｘ）に達したか否かを判別し、達していない場合にはステップＳ２５へ移行し、達していた場合にはステップＳ２６へ移行する。

ステップＳ２５：制御部１５は、フレーム番号ｉをインクリメントしてからステップＳ２３へ戻る。したがって、レアセグメントであるか否かの判別は、動画像コンテンツの各セグメントについて行われる。

したがって、例えば、サッカー試合における「シュート」及び「フリーキック」がレアイベント（希少イベント）であったならば、シュート又はフリーキックに該当する１又は複数のセグメントがレアセグメントと判別され、その他のイベント（パス、ゴール、フリースロー）に該当する１又は複数のセグメントが非レアセグメントと判別される。

なお、前述した閾値Δを小さくすれば、より多種類のイベントをレアイベントとして検出することができ、前述した閾値Δを大きくすれば、より希少性の高いイベントのみをレアイベントとして検出することができる。よって、この閾値Δは、ユーザによって調節可能であることが望ましい。

ステップＳ２６：制御部１５は、ステップＳ２５で検出された１又は複数のレアセグメントの各々からレアエリアを抽出する。なお、或る着目レアセグメントからレアエリアを抽出する手順は、以下の手順（ａ）〜（ｇ）からなる。

（ａ）着目レアセグメント上に、所定サイズの着目エリアを設定し（図８（Ａ）参照）、その着目エリアから特徴量ヒストグラムを抽出する。この着目エリアの時間方向のサイズはステップＳ１５におけるそれと同じであるが、この着目エリアの空間方向のサイズは、ステップＳ１５におけるそれと同じでなくても構わない。また、特徴量ヒストグラムの構成は、ステップＳ１５におけるそれと同じである。

（ｂ）着目エリアから抽出した特徴量ヒストグラムの次元を、ステップＳ１８と同じコードブックによって抑える。これによって、特徴量ヒストグラムの次元は、予め決められた次元（数十次元）となる。

（ｃ）着目レアセグメントにおける着目エリアの空間座標をシフトさせながら、手順（ａ）、（ｂ）を繰り返す（図８（Ｂ）参照）。これによって、着目レアセグメントの全域が着目エリアによってスキャンされ、空間座標の異なる複数の着目エリアの各々から１つずつ特徴量ヒストグラムが抽出される。なお、本手順（ｃ）におけるスキャンパターンとしては、様々なパターンを採用することが可能である。

（ｄ）着目エリアのサイズを変化させながら、手順（ａ）〜（ｃ）を繰り返す。これによって、空間座標及びサイズの組み合わせの異なる複数の着目エリアの各々から１つずつ特徴量ヒストグラムが抽出される。

（ｅ）互いにサイズの異なる着目エリアから抽出された特徴量ヒストグラムの各々に対して、エリアサイズに応じた規格化係数を乗算することにより、それらの特徴量ヒストグラムの頻度方向のレンジを規格化する。

（ｆ）複数の着目エリアの各々の特徴量ヒストグラムを、前述した関数Ｐ（ｆ）へ代入することにより、複数の着目エリアの各々の確率密度比Ｐを求める。

（ｇ）複数の着目エリアの各々の確率密度比Ｐから前述した中間値Ｐ_ｍまでの距離Ｌを算出し、その距離Ｌを複数の着目エリアの間で比較する。そして、距離Ｌが最大となった着目エリアを、レアイベントの発生しているレアエリアと判別する（図８（Ｃ）参照）。そして、着目レアセグメントの初期フレームから、レアエリアに対応する部分画像を抽出する。以下、抽出された部分画像を「レアエリア画像」と称す。

したがって、シュート又はフリーキックに該当するレアセグメントからは、シュートした選手又はフリーキックした選手のフルショット画像が、レアエリア画像として抽出される。

ステップＳ２７：制御部１５は、ステップＳ２６で抽出されたレアエリア画像の枚数が単数であった場合は、そのレアエリア画像を、動画像コンテンツの要約静止画像とする。よって、この場合、シュートした選手又はフリーキックした選手のフルショット静止画像が、要約静止画像として作成される。

一方、制御部１５は、ステップＳ２６で抽出されたレアエリア画像の枚数が複数であった場合は、それらレアエリア画像の間で空間サイズを揃えてから、それらレアエリア画像を時系列順に連結することにより、動画像コンテンツの要約動画像を作成する（以下、レアエリア画像の枚数が複数であり、要約動画像が作成されたと仮定して説明する。）。

その場合、例えば、シュート又はフリーキックした選手のフルショット動画像集が、要約動画像として作成される。

但し、検出したレアエリア画像同士を単純に連結してしまうと、シーンが急に切り替わることになり、シーンチェンジ部分でユーザに違和感を与える虞がある。そのため制御部１５は、フレーム番号の連続していないレアエリア画像同士を連結する際には、その連結部に対して、フェード、ディゾルブなどのシーンチェンジ効果を施すことが望ましい。

このようにすれば、複数のイベント（複数のシュート又はフリーキック）のつなぎ目を自然にすることができる。

また、制御部１５は、作成した要約動画像を画像表示部１３へ表示すると共に、その要約動画像を登録情報（テンプレートデータ、タグデータなど）として、動画像コンテンツを不図示のメモリ上のデータベースへ登録する。この登録により、多数の動画像コンテンツの管理が容易になる。

ステップＳ２８：制御部１５は、検索指示がユーザによって入力されたか否かを判別し、入力された場合はステップＳ２９へ移行し、入力されなかった場合はステップＳ３０へ移行する。

ステップＳ２９：制御部１５は、ステップＳ２７で作成された要約動画像を検索キーとしてデータベースを検索し、その検索キーに類似した動画像（類似動画像）を含む動画像コンテンツを検出すると、その動画像コンテンツのファイル名及びサムネイル画像を画像表示部１３へ表示する。そして、制御部１５は、検出した動画像コンテンツから類似動画像を切り出して、画像表示部１３へ表示する。

なお、本ステップの制御部１５は、動画像コンテンツを検索する際に、検索キー（ここでは要約動画像）と、個々の動画像コンテンツとを互いに比較してもよいが、検索キー（ここでは要約動画像）と、個々の動画像コンテンツの要約動画像とを互いに比較してもよい。その方が、検索に要する時間を短縮することができる。また、その場合は、検出した動画像コンテンツの要約動画像をそのまま類似動画像として表示することができる。

したがって、本ステップでは、ステップＳ１１で読み込んだ動画像コンテンツと同じ試合を写した別の動画像コンテンツなど（例えば、使用カメラの異なる動画像コンテンツや、編集の異なる動画像コンテンツなど）を、高速に検索することができる。

なお、ここでは、ステップＳ２７において動画像コンテンツの要約動画像が作成された場合を想定し、その要約動画像を検索キーとしてデータベースを検索したが、動画像コンテンツの要約静止画像が作成された場合には、その要約静止画像を検索キーとしてデータベースを検索すればよい。

ステップＳ３０：制御部１５は、ユーザから終了指示が入力されたか否かを判別し、入力されなかった場合はステップＳ２８へ戻り、入力された場合はフローを終了する。

［実施形態の作用効果］
以上、本実施形態の要約作成処理（Ｓ１１〜Ｓ２７）では、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップ（Ｓ１１〜Ｓ２５）と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップ（Ｓ２６）とを実行する。

したがって、例えば、動画像コンテンツがサッカー試合の動画像コンテンツであったならば、例えばシュート又はフリーキックした選手のフルショット画像を、レアエリアとして検出することができる。

なお、前記セグメント検出ステップ（Ｓ１１〜Ｓ２５）では、前記動画像を２つの部分動画像に分割するステップ（Ｓ２１−（ａ））と、前記２つの部分動画像の一方及び他方の各フレームから特徴量（ｆ）を抽出するステップ（Ｓ１８）と、前記各セグメントを学習サンプルとして使用し、任意のセグメントが前記２つの部分動画像の一方又は他方に属する確率密度（Ｐ）と、前記任意のセグメントの特徴量（ｆ）との関係（Ｐ（ｆ））を推定するステップ（Ｓ２１−（ｂ））と、前記動画像の各セグメントの特徴量（ｆ）を前記関係（Ｐ（ｆ））へ当てはめることにより、前記各セグメントの確率密度（Ｐ）を算出し（Ｓ２１−（ｃ））、確率密度（Ｐ）が判別基準を満たすようなセグメントをレアセグメントと判別し、確率密度（Ｐ）が前記判別基準を満たさないようなセグメントを非レアセグメントと判別するステップ（Ｓ２３）とを実行する。

したがって、本実施形態の要約作成処理（図２）によれば、レアセグメント／非レアセグメントの判別基準を動画像から自動的に決定し、その判別基準を利用して、レアセグメント／非レアセグメントの判別を自動的に行うことができる。

また、前記確率密度（Ｐ）としては、前記２つの動画像の一方に属する確率密度と他方に属する確率密度との間の確率密度比が使用される。

したがって、確率密度それ自体を使用した場合と比較して、前記関係（Ｐ（ｆ））の推定を容易に行うことができる。

また、前記関係（Ｐ（ｆ））を表す関数としては、ロジスティック関数（式（１））が使用される。

したがって、他の関数（例えば非線形処理のランダムフォレスト等）を使用した場合よりも、前記関係（Ｐ（ｆ））の推定を容易に行うことができる。

また、前記判別（Ｓ２３）では、確率密度比が所定範囲から外れるセグメントをレアセグメントと判別し、確率密度比が所定範囲に入るセグメントを非レアセグメントと判別し、前記所定範囲は、前記各セグメントの確率密度比の中間値を中心とした範囲とされる。

このように、前記判別基準（ここでは前記所定範囲）を動画像毎に設定すれば、前記判別（Ｓ２３）の精度を高めることができる。

また、前記２つの部分動画像の間では、セグメント数が共通である。

したがって、セグメント数を非共通とした場合よりも、前記判別（Ｓ２３）の精度を高めることができる。

また、前記特徴量として、複数の特徴量成分を有した特徴量ヒストグラム（図５）が使用される。

したがって、特徴量成分が１つのみである場合よりも、前記判別（Ｓ２３）の精度を高めることができる。

また、或るセグメントから特徴量ヒストグラムを抽出する際には、前記セグメント内の各エリアから特徴量ヒストグラムを抽出し、かつ、それら特徴量ヒストグラムを統合する（図５（Ｃ））。また、前記セグメント及び前記エリアは、空間方向だけでなく時間方向にも大きさを有している（図４）。

したがって、個々のセグメントの特徴量ヒストグラムには、個々のセグメントの時空間特徴が的確に反映される。

また、前記統合（図５（Ｃ））の際には、互いに類似した特徴量成分同士を１つの特徴量成分に纏めることにより、前記セグメントの特徴量ヒストグラムの次元を抑える。

したがって、特徴量ヒストグラムの的確さは、維持される。

また、前記エリア検出ステップ（Ｓ２６）では、前記セグメント検出ステップ（Ｓ２３）で使用したのと同じ前記判別基準を使用する。

したがって、エリアの判別に要する演算量を抑えつつ、その判別を高精度に行うことができる。

また、本実施形態の要約作成処理（図２）では、前記エリア検出ステップ（Ｓ２６）で検出された１又は複数のエリアの画像により、前記動画像の要約静止画像又は要約動画像を作成する要約ステップ（Ｓ２７）を更に実行する。

したがって、前記動画像に発生しているレアイベントのフルショット静止画像又はフルショット動画像を、要約静止画像又は要約動画像とすることができる。

また、本実施形態の要約作成処理（図２）では、前記要約静止画像又は前記要約動画像を検索キーとして、前記要約静止画像又は前記要約動画像に類似した画像を含むコンテンツを検索する検索ステップ（Ｓ２９）を更に実行する。

したがって、レアイベントに類似したイベントを含むコンテンツを高速かつ高精度に検索することができる。

［実施形態の補足］
なお、上述したステップＳ２１、２３、２６では、動画像コンテンツを前半動画像と後半動画像とに分割する際の分割パターンとして、１通りの分割パターンのみを採用したが、例えば、図９（Ａ）、（Ｂ）、（Ｃ）に示すような複数通りの分割パターンを採用してもよい。

図９（Ａ）に示す分割パターンは、動画像コンテンツを時間方向に２等分し、コンテンツの前半部分を前半動画像とし、コンテンツの後半部分を後半動画像とする分割パターンである。

図９（Ｂ）に示す分割パターンは、動画像コンテンツを時間方向に４等分し、コンテンツの先頭から数えて１番目の部分と３番目の部分とを連結したものを前半動画像とし、２番目の部分と４番目の部分とを連結したものを後半動画像とする分割パターンである。

図９（Ｃ）に示す分割パターンは、動画像コンテンツを時間方向に４等分し、コンテンツの先頭から数えて１番目の部分と４番目の部分とを連結したものを前半動画像とし、２番目の部分と３番目の部分とを連結したものを後半動画像とする分割パターンである。

そして、このように３通りの分割パターンを採用する場合、ステップＳ２１、２３では、それら３通りの分割パターンの各々の下で前述した距離Ｌを求め、３通りの距離Ｌの平均値が前述した閾値Δを超えるか否かによって、レアセグメントであるか否かを判別すればよい。同様に、ステップＳ２６において着目エリアがレアエリアであるか否かを判別するときにも、３通りの距離Ｌの平均値を使用すればよい。

なお、分割パターンとしては、図９（Ａ）、（Ｂ）、（Ｃ）に示すとおり、なるべくシンプルな分割パターン（粗い分割パターン）が採用されることが望ましい。複雑な分割パターン（細かい分割パターン）が採用されると、１つのイベントが分断される可能性が高まるからである。

また、上述したステップＳ２１、２３、２６では、確率密度比Ｐとして、前半動画像に属する確率密度を基準とした後半動画像に属する確率密度の比を使用したが、後半動画像に属する確率密度を基準とした前半動画像に属する確率密度の比を使用してもよいことは言うまでもない。

また、上述したステップＳ２６では、サイズの異なる複数の着目エリアを設定し、距離Ｌが最大となった着目エリアをレアエリアと判別したが、着目エリアのサイズを不変とし、距離Ｌが閾値を超える１又は複数の着目エリアをレアエリアと判別してもよい。

但し、その場合は、同一フレームから抽出された複数のレアエリアの中で、空間座標が一定以上近接しているレアエリア同士は、１つのレアエリアに統合されることが望ましい。

また、上述した要約作成処理では、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップとを実行した。この場合は、動画像コンテンツからレアイベント（動画像コンテンツ内で目立った稀なイベント）を切り出して要約動画像又は要約静止画像とすることができる。

しかし、その反対に、上述した要約作成処理では、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップとを実行してもよい。その場合は、動画像コンテンツから非レアイベント（動画像コンテンツ内で支配的なイベント）を切り出して要約動画像又は要約静止画像とすることができる。

また、上述した要約作成処理では、着目セグメント及び着目エリアが時間方向にもサイズを有していたが、時間方向のサイズをゼロとしてもよい（つまり、上述した要約作成処理では、特徴量ヒストグラムをセグメント毎に抽出したが、フレーム毎に抽出してもよい。）。或いは、上述した要約作成処理では、着目セグメント及び着目エリアに時間方向のサイズを与えるか否かをユーザに選択させてもよい。

また、上述した要約作成処理では、セグメント又はエリアの特徴量ヒストグラムとして、動画像コンテンツの画像成分のみを反映した特徴量ヒストグラムを使用したが、動画像コンテンツの画像成分と音声成分との双方を反映した特徴量ヒストグラムを使用してもよい。

また、上述した実施形態では、画像処理機能を搭載したコンピュータを説明したが、同様の画像処理機能は、他の機器、例えば、動画像の取得機能を有した電子カメラ、動画像の取得機能を有したディジタルフォトフレーム、動画像の取得機能を有したプリンタなどに搭載されてもよい。

１…コンピュータ、１１…取得部、１２…記録部、１３…画像表示部、１４…操作部、１５…制御部

Claims

動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、
前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、
前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
請求項１又は請求項２に記載の画像処理プログラムにおいて、
前記セグメント検出ステップには、
前記動画像を２つの部分動画像に分割するステップと、
前記２つの部分動画像の一方及び他方の各セグメントから特徴量を抽出するステップと、
前記各セグメントを学習サンプルとして使用し、任意のセグメントが前記２つの部分動画像の一方又は他方に属する確率密度と、前記任意のセグメントの特徴量との関係を推定するステップと、
前記動画像の各セグメントの特徴量を前記関係へ当てはめることにより、前記各セグメントの確率密度を算出し、確率密度が判別基準を満たすセグメントをレアセグメントと判別し、確率密度が前記判別基準を満たさないセグメントを非レアセグメントと判別するステップと、
が含まれることを特徴とする画像処理プログラム。
請求項３に記載の画像処理プログラムにおいて、
前記確率密度として、前記２つの動画像の一方に属する確率密度と他方に属する確率密度との間の確率密度比を使用する
ことを特徴とする画像処理プログラム。
請求項４に記載の画像処理プログラムにおいて、
前記判別では、確率密度比が所定範囲から外れるセグメントをレアセグメントと判別し、確率密度比が前記所定範囲に入るセグメントを非レアセグメントと判別する
ことを特徴とする画像処理プログラム。
請求項３〜請求項５の何れか一項に記載の画像処理プログラムにおいて、
前記特徴量として、複数の特徴量成分を有した特徴量ヒストグラムを使用する
ことを特徴とする画像処理プログラム。
請求項６に記載の画像処理プログラムにおいて、
或るセグメントから特徴量ヒストグラムを抽出する際には、前記セグメント内の各エリアから特徴量ヒストグラムを抽出し、かつ、それら各エリアの特徴量ヒストグラムを統合する
ことを特徴とする画像処理プログラム。
請求項７に記載の画像処理プログラムにおいて、
前記統合の際には、互いに類似した特徴量成分同士を１つの特徴量成分に纏めることにより、前記セグメントの特徴量ヒストグラムの次元を抑える
ことを特徴とする画像処理プログラム。
請求項１〜請求項８の何れか一項に記載の画像処理プログラムにおいて、
前記エリア検出ステップで検出された１又は複数のエリアの画像により、前記動画像の要約静止画像又は要約動画像を作成する要約ステップを更にコンピュータに実行させる
ことを特徴とする画像処理プログラム。
動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、
前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、
を含むことを特徴とする画像処理方法。
動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、
前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、
を含むことを特徴とする画像処理方法。
動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出手段と、
前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出手段と、
を備えることを特徴とする画像処理装置。
動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出手段と、
前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出手段と、
を備えることを特徴とする画像処理装置。
被写体を撮像して動画像を取得する撮像手段と、
前記撮像手段が取得した動画像に対して処理を施す請求項１２又は請求項１３に記載の画像処理装置と、
を備えることを特徴とする撮像装置。