JP2014072620A - 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置 - Google Patents

画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置 Download PDF

Info

Publication number
JP2014072620A
JP2014072620A JP2012215850A JP2012215850A JP2014072620A JP 2014072620 A JP2014072620 A JP 2014072620A JP 2012215850 A JP2012215850 A JP 2012215850A JP 2012215850 A JP2012215850 A JP 2012215850A JP 2014072620 A JP2014072620 A JP 2014072620A
Authority
JP
Japan
Prior art keywords
segment
rare
moving image
image processing
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012215850A
Other languages
English (en)
Inventor
Yuichi Ito
悠一 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2012215850A priority Critical patent/JP2014072620A/ja
Publication of JP2014072620A publication Critical patent/JP2014072620A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】動画像コンテンツの自動編集技術を更に発展させること。
【解決手段】本発明の画像処理プログラムの一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップ(S12〜S24)と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップ(S26)と、をコンピュータに実行させる。
【選択図】 図2

Description

本発明は、映像コンテンツ(動画像コンテンツ)に対して処理を施す画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置に関する。
動画像コンテンツを編集して要約動画像を自動的に作成する技術は、例えば特許文献1、非特許文献1などに開示されている。
特開2010−39877号公報
伊藤悠一、"密度比推定を用いた映像のダイジェスト化"、画像の認識・理解シンポジウム(MIRU2012)の論文集、2012年8月発行
本発明は、動画像コンテンツの自動編集技術を更に発展させることを目的とする。
本発明の画像処理プログラムの一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、をコンピュータに実行させる。
また、本発明の画像処理プログラムの他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、をコンピュータに実行させる。
また、本発明の画像処理方法の一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップとを含む。
また、本発明の画像処理方法の他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップとを含む。
また、本発明の画像処理装置の一例は、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出手段と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出手段とを備える。
また、本発明の画像処理装置の他の例は、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出手段と、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出手段とを備える。
また、本発明の撮像装置の一例は、被写体を撮像して動画像を取得する撮像手段と、前記撮像手段が取得した動画像に対して処理を施す本発明の画像処理装置の何れかの例とを備える。
本発明によれば、動画像コンテンツの編集技術を更に発展させることができる。
コンピュータ1の構成を示す図である。 制御部15による要約作成処理のフローチャートである。 動画像コンテンツの概念図である。 着目セグメント及び着目エリアの概念図である。 着目エリアの特徴量ヒストグラム、着目セグメントの特徴量ヒストグラムを説明する図である。 動画像コンテンツの分割方法を説明する図である。 関数P(f)、中間値P、閾値Δ、距離Lを説明する図である。 レアエリアの抽出手順を説明する図である。 動画像コンテンツの分割パターンの例である。
[実施形態]
以下、本発明の実施形態として画像処理機能を搭載したコンピュータを説明する。
図1は、本実施形態のコンピュータ1の構成を示す図である。図1に示すとおりコンピュータ1には、取得部11、記録部12、画像表示部13、操作部14、制御部15などが備えられる。
取得部11は、有線、無線、記録媒体用のドライブなどを介して、電子カメラなどの外部機器や記録媒体から画像を取得する。
記録部12は、取得部11が取得した動画像コンテンツ(動画像コンテンツ)や、制御部15から指定された動画像コンテンツなどを、不図示のメモリ(内部メモリ又は外部メモリ)に対して記録する。
画像表示部13は、液晶表示素子などの画像表示素子を備え、制御部15から指定された動画像コンテンツ又は後述する要約動画像を適当な形式で表示する。
操作部14は、電源釦、マウス、キーボードなどを有し、ユーザから各種の指示を受け付けて制御部15へ伝達する。
制御部15は、制御部15の動作に必要なプログラムを予め記憶しており、このプログラムと、ユーザから入力された指示とに従って、コンピュータ1の各部を制御すると共に、取得部11が取得した動画像コンテンツや、不図示のメモリに記録された動画像コンテンツに対して各種の画像処理を施す。この画像処理の1つに、動画像コンテンツからその動画像コンテンツの要約動画像を自動作成する要約作成処理(後述)がある。
なお、制御部15が予め記憶するプログラムは、有線、無線を経由したインターネットを介して取得したものであってもよいし、記録媒体などを介して取得したものであってもよい。
図2は、制御部15による要約作成処理のフローチャートである。以下、図2の各ステップを順に説明する。
ステップS11:制御部15は、ユーザが指定した1つの動画像コンテンツ(図3参照)を読み込む。この動画像コンテンツは、例えば、サッカーの試合を撮影したものである。この動画像コンテンツには、「パス」、「シュート」、「フリーキック」、「ゴールキック」、「フリースロー」などの各種のイベントが含まれている。
ステップS12:制御部15は、フレーム番号iを初期値(=1)に設定する。
ステップS13:制御部15は、動画像コンテンツから、第iフレームを初期フレームとしたセグメント(時間方向の区切り)を、着目セグメントとして切り出す(図4参照)。着目セグメントは、連続する所定数のフレームからなり、着目セグメントのフレーム数は、予め決められた値(例えば10)である。
ステップS14:制御部15は、エリア番号jを初期値(=1)に設定する。
ステップS15:制御部15は、着目セグメントにおける第j番目の空間座標に所定サイズの着目エリアを設定し(図4参照)、その着目エリアから特徴量ヒストグラムfijを抽出する。
ここで、着目エリアは、図4に示すとおり、空間方向だけでなく時間方向にもサイズを有している。着目エリアの時間方向のサイズは、セグメントの時間方向のサイズ(ここでは10フレーム分)と同じである。よって、着目エリアから抽出される特徴量ヒストグラムfijには、時空間特徴(アクションなど)が反映される。
また、特徴量ヒストグラムfijは、例えば、図5(A)に示すとおり、着目エリアの勾配ヒストグラム、着目エリアのオプティカルフローヒストグラムなど、各種の時空間特徴量ヒストグラムを、特徴量成分として有している。
このうち、勾配ヒストグラムは、着目エリアに含まれる勾配の頻度を、着目エリア内のブロック毎かつ方向毎に計数したものである。なお、着目エリア内のブロックとは、着目エリアを時空間方向にかけて分割してなる小エリアのことである。因みに、勾配ヒストグラムは、一般に、HOG(HOG:Histograms of Oriented Gradients)と呼ばれている。
また、オプティカルフローヒストグラムは、着目エリアに含まれるオプティカルフローの頻度を、着目エリア内のブロック毎かつ方向毎に計数したものである。因みに、このオプティカルフローヒストグラムは、一般に、HOF(HOF:Histograms of Optical Flow)と呼ばれている。
なお、特徴量ヒストグラムfijの特徴量成分の1つとして他の時空間特徴のヒストグラムが加えられてもよい。例えば、MBH(MBH:Motion Boundary Histograms)などが加えられてもよい。
ステップS16:制御部15は、現在のエリア番号jが最終値(=jmax)に達したか否かを判別し、達していない場合にはステップS17へ移行し、達していた場合にはステップS18へ移行する。
ステップS17:制御部15は、エリア番号jをインクリメントしてからステップS15に戻る。よって、制御部15は、着目セグメントの各エリアから特徴量ヒストグラムfijを1つずつ抽出する(j=1〜jmax)。なお、エリア番号jの異なる2つのエリア同士は、互いに重複せず、かつ、隙間なく並ぶものとする。
ステップS18:制御部15は、着目セグメントの各エリアから抽出された特徴量ヒストグラムfij(j=1〜jmax)を統合することにより、着目セグメントの特徴量ヒストグラムfを1つ作成する。
統合の際には、各エリアの特徴量ヒストグラムfij(j=1〜jmax)を単純に連結してもよいが(図5(B)参照)、そのようにすると特徴量ヒストグラムfの次元が著しく高くなってしまう(例えば数百次元)。
そこで、制御部15は、統合の際に、各エリアの特徴量ヒストグラムfij(j=1〜jmax)の各特徴量成分を、予め用意されたコードブックに従って纏めることにより、特徴量ヒストグラムfの次元を、例えば数十次元にまで抑える(図5(C)参照)。
なお、コードブックの内容は、基本的に、互いに類似した特徴量成分同士を1つの特徴量成分に纏める(両者の頻度を合算する)ような内容となっている。因みに、このようにして特徴量ヒストグラムの次元を抑える手法は、「Bag−of−Words」、「Bag−of−Features」、「Bag−of−Visual−Words」などと呼ばれている。
ステップS19:制御部15は、現在のフレーム番号iが最終値(=imax)に達したか否かを判別し、達していない場合にはステップS20へ移行し、達していた場合にはステップS21へ移行する。
ステップS20:制御部15は、フレーム番号iをインクリメントしてからステップS13へ戻る。したがって、動画像コンテンツにおいて1フレームずつずれた各セグメントから、特徴量ヒストグラムfが1つずつ抽出される(i=1〜imax)。
ステップS21:制御部15は、動画像コンテンツにおける各セグメントがレアセグメント(希少セグメント)であるか否かを判別するための準備を、以下の手順(a)〜(c)により行う。
(a)動画像コンテンツを2つの動画像に分割する。ここでは、図6に示すとおり最もシンプルな分割方法を採用し、動画像コンテンツを、前半の動画像(前半動画像)と、後半の動画像(後半動画像)とに分割したと仮定する。なお、前半動画像のフレーム数(又はセグメント数)と、後半動画像のフレーム数(又はセグメント数)とは、等しい(又はほぼ等しい)ものとする。
(b)動画像コンテンツに含まれる各セグメントを学習サンプルとして使用し、任意のセグメントの特徴量ヒストグラムfと、そのセグメントが後半動画像に属する確率密度比Pとの関係(関数P(f))を確定する。この関数P(f)は、任意のセグメントが後半動画像に属する確率密度比を推測するための関数である。
ここで、任意のセグメントの確率密度比Pは、そのセグメントが前半動画像に属する確率密度と、そのセグメントが後半動画像に属する確率密度との比であり、図7(A)に示すとおり後半動画像に属する確率密度が高いときほど確率密度比Pは1に近くなり、前半動画像に属する確率密度が高いときほど確率密度比Pは0に近くなる。なお、図7では、特徴量ヒストグラムの次元数を1として描いているが、実際は2以上である。因みに、或る事象の生起する確率を推定するために確率密度比を使用する手法は、「密度比推定法」と呼ばれる。
また、任意のセグメントが後半動画像に属する確率密度比Pを推測するための関数P(f)としては、図7(A)に示すようなロジスティック関数が使用される。ここで、ロジスティック関数は、以下の式(1)で表される。
Figure 2014072620
このロジスティック関数P(f)は、概ね図7(A)に示すようなカーブを描く。このロジスティック関数P(f)における係数(ロジスティック係数)ωの値が確定すれば、その関数P(f)のカーブ形状も確定するので、任意のセグメントが後半動画像に属する確率密度比Pを、そのセグメントの特徴量ヒストグラムfのみから推測できる。
そこで、制御部15は、前半動画像の各セグメントと後半動画像の各セグメントとを学習サンプルとして式(2)へ当てはめることにより、関数P(f)におけるロジスティック係数ωを確定する(ロジスティック回帰によるフィッティング)。
Figure 2014072620
但し、yは、学習サンプルの属性であって、学習サンプルが前半動画像に属するときには属性y=0、後半動画像に属するときには属性y=1とする。また、式(2)における演算子「argmax[A]」は、Aを最大化するようなaの値を求めるための演算子である。また、式(2)におけるλは、予め決められた値である。
(c)制御部15は、動画像コンテンツの各セグメントの特徴量ヒストグラムf(i=1〜imax)の各々を、手順(b)で確定した関数P(f)へ代入することにより、図7(B)に示すとおり、各セグメントの確率密度比P(i=1〜imax)を求める。そして、制御部15は、各セグメントの確率密度比P(i=1〜imax)の中間値Pmを求める。
なお、m個のデータからなるデータ群の中間値とは、そのデータ群の中で(m+1)/2番目に小さなデータの値(又は(m+1)/2番目に大きなデータの値)のことである。よって、ここでは、imax個のデータからなるデータ群P(i=1〜imax)の中間値Pmとして、(imax+1)/2番目に小さなデータの値(又は(imax+1)/2番目に大きなデータの値)が求められる。因みに、データ群P(i=1〜imax)の値が0.5に関して対称に分布していた場合は、中間値Pmは0.5となるが、そうでない場合は、中間値Pmは0.5から少しずれた値になる。
したがって、本実施形態では、「動画像コンテンツの各セグメントの中で、確率密度比Pが中間値Pに近いセグメントは、非レアイベントの発生した非レアセグメントであり、確率密度比Pが中間値Pから離れたセグメントは、レアイベントの発生したレアセグメントである」という判別が可能である。
ステップS22:制御部15は、フレーム番号iを初期値(=1)に設定する。
ステップS23:制御部15は、第iフレームを初期フレームとした10フレーム分のセグメントを着目セグメントに設定し、その着目セグメントの確率密度比Pを参照すると、その確率密度比Pから中間値Pまでの距離Lを求め、その距離Lが所定の閾値Δより大きいか否かを判別し、閾値Δ以下である場合には、その着目セグメントを非レアセグメントと判別し、閾値Δより大きい場合には、その着目セグメントをレアセグメントと判別する。
ステップS24:制御部15は、現在のフレーム番号iが最終値(=imax)に達したか否かを判別し、達していない場合にはステップS25へ移行し、達していた場合にはステップS26へ移行する。
ステップS25:制御部15は、フレーム番号iをインクリメントしてからステップS23へ戻る。したがって、レアセグメントであるか否かの判別は、動画像コンテンツの各セグメントについて行われる。
したがって、例えば、サッカー試合における「シュート」及び「フリーキック」がレアイベント(希少イベント)であったならば、シュート又はフリーキックに該当する1又は複数のセグメントがレアセグメントと判別され、その他のイベント(パス、ゴール、フリースロー)に該当する1又は複数のセグメントが非レアセグメントと判別される。
なお、前述した閾値Δを小さくすれば、より多種類のイベントをレアイベントとして検出することができ、前述した閾値Δを大きくすれば、より希少性の高いイベントのみをレアイベントとして検出することができる。よって、この閾値Δは、ユーザによって調節可能であることが望ましい。
ステップS26:制御部15は、ステップS25で検出された1又は複数のレアセグメントの各々からレアエリアを抽出する。なお、或る着目レアセグメントからレアエリアを抽出する手順は、以下の手順(a)〜(g)からなる。
(a)着目レアセグメント上に、所定サイズの着目エリアを設定し(図8(A)参照)、その着目エリアから特徴量ヒストグラムを抽出する。この着目エリアの時間方向のサイズはステップS15におけるそれと同じであるが、この着目エリアの空間方向のサイズは、ステップS15におけるそれと同じでなくても構わない。また、特徴量ヒストグラムの構成は、ステップS15におけるそれと同じである。
(b)着目エリアから抽出した特徴量ヒストグラムの次元を、ステップS18と同じコードブックによって抑える。これによって、特徴量ヒストグラムの次元は、予め決められた次元(数十次元)となる。
(c)着目レアセグメントにおける着目エリアの空間座標をシフトさせながら、手順(a)、(b)を繰り返す(図8(B)参照)。これによって、着目レアセグメントの全域が着目エリアによってスキャンされ、空間座標の異なる複数の着目エリアの各々から1つずつ特徴量ヒストグラムが抽出される。なお、本手順(c)におけるスキャンパターンとしては、様々なパターンを採用することが可能である。
(d)着目エリアのサイズを変化させながら、手順(a)〜(c)を繰り返す。これによって、空間座標及びサイズの組み合わせの異なる複数の着目エリアの各々から1つずつ特徴量ヒストグラムが抽出される。
(e)互いにサイズの異なる着目エリアから抽出された特徴量ヒストグラムの各々に対して、エリアサイズに応じた規格化係数を乗算することにより、それらの特徴量ヒストグラムの頻度方向のレンジを規格化する。
(f)複数の着目エリアの各々の特徴量ヒストグラムを、前述した関数P(f)へ代入することにより、複数の着目エリアの各々の確率密度比Pを求める。
(g)複数の着目エリアの各々の確率密度比Pから前述した中間値Pまでの距離Lを算出し、その距離Lを複数の着目エリアの間で比較する。そして、距離Lが最大となった着目エリアを、レアイベントの発生しているレアエリアと判別する(図8(C)参照)。そして、着目レアセグメントの初期フレームから、レアエリアに対応する部分画像を抽出する。以下、抽出された部分画像を「レアエリア画像」と称す。
したがって、シュート又はフリーキックに該当するレアセグメントからは、シュートした選手又はフリーキックした選手のフルショット画像が、レアエリア画像として抽出される。
ステップS27:制御部15は、ステップS26で抽出されたレアエリア画像の枚数が単数であった場合は、そのレアエリア画像を、動画像コンテンツの要約静止画像とする。よって、この場合、シュートした選手又はフリーキックした選手のフルショット静止画像が、要約静止画像として作成される。
一方、制御部15は、ステップS26で抽出されたレアエリア画像の枚数が複数であった場合は、それらレアエリア画像の間で空間サイズを揃えてから、それらレアエリア画像を時系列順に連結することにより、動画像コンテンツの要約動画像を作成する(以下、レアエリア画像の枚数が複数であり、要約動画像が作成されたと仮定して説明する。)。
その場合、例えば、シュート又はフリーキックした選手のフルショット動画像集が、要約動画像として作成される。
但し、検出したレアエリア画像同士を単純に連結してしまうと、シーンが急に切り替わることになり、シーンチェンジ部分でユーザに違和感を与える虞がある。そのため制御部15は、フレーム番号の連続していないレアエリア画像同士を連結する際には、その連結部に対して、フェード、ディゾルブなどのシーンチェンジ効果を施すことが望ましい。
このようにすれば、複数のイベント(複数のシュート又はフリーキック)のつなぎ目を自然にすることができる。
また、制御部15は、作成した要約動画像を画像表示部13へ表示すると共に、その要約動画像を登録情報(テンプレートデータ、タグデータなど)として、動画像コンテンツを不図示のメモリ上のデータベースへ登録する。この登録により、多数の動画像コンテンツの管理が容易になる。
ステップS28:制御部15は、検索指示がユーザによって入力されたか否かを判別し、入力された場合はステップS29へ移行し、入力されなかった場合はステップS30へ移行する。
ステップS29:制御部15は、ステップS27で作成された要約動画像を検索キーとしてデータベースを検索し、その検索キーに類似した動画像(類似動画像)を含む動画像コンテンツを検出すると、その動画像コンテンツのファイル名及びサムネイル画像を画像表示部13へ表示する。そして、制御部15は、検出した動画像コンテンツから類似動画像を切り出して、画像表示部13へ表示する。
なお、本ステップの制御部15は、動画像コンテンツを検索する際に、検索キー(ここでは要約動画像)と、個々の動画像コンテンツとを互いに比較してもよいが、検索キー(ここでは要約動画像)と、個々の動画像コンテンツの要約動画像とを互いに比較してもよい。その方が、検索に要する時間を短縮することができる。また、その場合は、検出した動画像コンテンツの要約動画像をそのまま類似動画像として表示することができる。
したがって、本ステップでは、ステップS11で読み込んだ動画像コンテンツと同じ試合を写した別の動画像コンテンツなど(例えば、使用カメラの異なる動画像コンテンツや、編集の異なる動画像コンテンツなど)を、高速に検索することができる。
なお、ここでは、ステップS27において動画像コンテンツの要約動画像が作成された場合を想定し、その要約動画像を検索キーとしてデータベースを検索したが、動画像コンテンツの要約静止画像が作成された場合には、その要約静止画像を検索キーとしてデータベースを検索すればよい。
ステップS30:制御部15は、ユーザから終了指示が入力されたか否かを判別し、入力されなかった場合はステップS28へ戻り、入力された場合はフローを終了する。
[実施形態の作用効果]
以上、本実施形態の要約作成処理(S11〜S27)では、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップ(S11〜S25)と、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップ(S26)とを実行する。
したがって、例えば、動画像コンテンツがサッカー試合の動画像コンテンツであったならば、例えばシュート又はフリーキックした選手のフルショット画像を、レアエリアとして検出することができる。
なお、前記セグメント検出ステップ(S11〜S25)では、前記動画像を2つの部分動画像に分割するステップ(S21−(a))と、前記2つの部分動画像の一方及び他方の各フレームから特徴量(f)を抽出するステップ(S18)と、前記各セグメントを学習サンプルとして使用し、任意のセグメントが前記2つの部分動画像の一方又は他方に属する確率密度(P)と、前記任意のセグメントの特徴量(f)との関係(P(f))を推定するステップ(S21−(b))と、前記動画像の各セグメントの特徴量(f)を前記関係(P(f))へ当てはめることにより、前記各セグメントの確率密度(P)を算出し(S21−(c))、確率密度(P)が判別基準を満たすようなセグメントをレアセグメントと判別し、確率密度(P)が前記判別基準を満たさないようなセグメントを非レアセグメントと判別するステップ(S23)とを実行する。
したがって、本実施形態の要約作成処理(図2)によれば、レアセグメント/非レアセグメントの判別基準を動画像から自動的に決定し、その判別基準を利用して、レアセグメント/非レアセグメントの判別を自動的に行うことができる。
また、前記確率密度(P)としては、前記2つの動画像の一方に属する確率密度と他方に属する確率密度との間の確率密度比が使用される。
したがって、確率密度それ自体を使用した場合と比較して、前記関係(P(f))の推定を容易に行うことができる。
また、前記関係(P(f))を表す関数としては、ロジスティック関数(式(1))が使用される。
したがって、他の関数(例えば非線形処理のランダムフォレスト等)を使用した場合よりも、前記関係(P(f))の推定を容易に行うことができる。
また、前記判別(S23)では、確率密度比が所定範囲から外れるセグメントをレアセグメントと判別し、確率密度比が所定範囲に入るセグメントを非レアセグメントと判別し、前記所定範囲は、前記各セグメントの確率密度比の中間値を中心とした範囲とされる。
このように、前記判別基準(ここでは前記所定範囲)を動画像毎に設定すれば、前記判別(S23)の精度を高めることができる。
また、前記2つの部分動画像の間では、セグメント数が共通である。
したがって、セグメント数を非共通とした場合よりも、前記判別(S23)の精度を高めることができる。
また、前記特徴量として、複数の特徴量成分を有した特徴量ヒストグラム(図5)が使用される。
したがって、特徴量成分が1つのみである場合よりも、前記判別(S23)の精度を高めることができる。
また、或るセグメントから特徴量ヒストグラムを抽出する際には、前記セグメント内の各エリアから特徴量ヒストグラムを抽出し、かつ、それら特徴量ヒストグラムを統合する(図5(C))。また、前記セグメント及び前記エリアは、空間方向だけでなく時間方向にも大きさを有している(図4)。
したがって、個々のセグメントの特徴量ヒストグラムには、個々のセグメントの時空間特徴が的確に反映される。
また、前記統合(図5(C))の際には、互いに類似した特徴量成分同士を1つの特徴量成分に纏めることにより、前記セグメントの特徴量ヒストグラムの次元を抑える。
したがって、特徴量ヒストグラムの的確さは、維持される。
また、前記エリア検出ステップ(S26)では、前記セグメント検出ステップ(S23)で使用したのと同じ前記判別基準を使用する。
したがって、エリアの判別に要する演算量を抑えつつ、その判別を高精度に行うことができる。
また、本実施形態の要約作成処理(図2)では、前記エリア検出ステップ(S26)で検出された1又は複数のエリアの画像により、前記動画像の要約静止画像又は要約動画像を作成する要約ステップ(S27)を更に実行する。
したがって、前記動画像に発生しているレアイベントのフルショット静止画像又はフルショット動画像を、要約静止画像又は要約動画像とすることができる。
また、本実施形態の要約作成処理(図2)では、前記要約静止画像又は前記要約動画像を検索キーとして、前記要約静止画像又は前記要約動画像に類似した画像を含むコンテンツを検索する検索ステップ(S29)を更に実行する。
したがって、レアイベントに類似したイベントを含むコンテンツを高速かつ高精度に検索することができる。
[実施形態の補足]
なお、上述したステップS21、23、26では、動画像コンテンツを前半動画像と後半動画像とに分割する際の分割パターンとして、1通りの分割パターンのみを採用したが、例えば、図9(A)、(B)、(C)に示すような複数通りの分割パターンを採用してもよい。
図9(A)に示す分割パターンは、動画像コンテンツを時間方向に2等分し、コンテンツの前半部分を前半動画像とし、コンテンツの後半部分を後半動画像とする分割パターンである。
図9(B)に示す分割パターンは、動画像コンテンツを時間方向に4等分し、コンテンツの先頭から数えて1番目の部分と3番目の部分とを連結したものを前半動画像とし、2番目の部分と4番目の部分とを連結したものを後半動画像とする分割パターンである。
図9(C)に示す分割パターンは、動画像コンテンツを時間方向に4等分し、コンテンツの先頭から数えて1番目の部分と4番目の部分とを連結したものを前半動画像とし、2番目の部分と3番目の部分とを連結したものを後半動画像とする分割パターンである。
そして、このように3通りの分割パターンを採用する場合、ステップS21、23では、それら3通りの分割パターンの各々の下で前述した距離Lを求め、3通りの距離Lの平均値が前述した閾値Δを超えるか否かによって、レアセグメントであるか否かを判別すればよい。同様に、ステップS26において着目エリアがレアエリアであるか否かを判別するときにも、3通りの距離Lの平均値を使用すればよい。
なお、分割パターンとしては、図9(A)、(B)、(C)に示すとおり、なるべくシンプルな分割パターン(粗い分割パターン)が採用されることが望ましい。複雑な分割パターン(細かい分割パターン)が採用されると、1つのイベントが分断される可能性が高まるからである。
また、上述したステップS21、23、26では、確率密度比Pとして、前半動画像に属する確率密度を基準とした後半動画像に属する確率密度の比を使用したが、後半動画像に属する確率密度を基準とした前半動画像に属する確率密度の比を使用してもよいことは言うまでもない。
また、上述したステップS26では、サイズの異なる複数の着目エリアを設定し、距離Lが最大となった着目エリアをレアエリアと判別したが、着目エリアのサイズを不変とし、距離Lが閾値を超える1又は複数の着目エリアをレアエリアと判別してもよい。
但し、その場合は、同一フレームから抽出された複数のレアエリアの中で、空間座標が一定以上近接しているレアエリア同士は、1つのレアエリアに統合されることが望ましい。
また、上述した要約作成処理では、動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップとを実行した。この場合は、動画像コンテンツからレアイベント(動画像コンテンツ内で目立った稀なイベント)を切り出して要約動画像又は要約静止画像とすることができる。
しかし、その反対に、上述した要約作成処理では、動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップとを実行してもよい。その場合は、動画像コンテンツから非レアイベント(動画像コンテンツ内で支配的なイベント)を切り出して要約動画像又は要約静止画像とすることができる。
また、上述した要約作成処理では、着目セグメント及び着目エリアが時間方向にもサイズを有していたが、時間方向のサイズをゼロとしてもよい(つまり、上述した要約作成処理では、特徴量ヒストグラムをセグメント毎に抽出したが、フレーム毎に抽出してもよい。)。或いは、上述した要約作成処理では、着目セグメント及び着目エリアに時間方向のサイズを与えるか否かをユーザに選択させてもよい。
また、上述した要約作成処理では、セグメント又はエリアの特徴量ヒストグラムとして、動画像コンテンツの画像成分のみを反映した特徴量ヒストグラムを使用したが、動画像コンテンツの画像成分と音声成分との双方を反映した特徴量ヒストグラムを使用してもよい。
また、上述した実施形態では、画像処理機能を搭載したコンピュータを説明したが、同様の画像処理機能は、他の機器、例えば、動画像の取得機能を有した電子カメラ、動画像の取得機能を有したディジタルフォトフレーム、動画像の取得機能を有したプリンタなどに搭載されてもよい。
1…コンピュータ、11…取得部、12…記録部、13…画像表示部、14…操作部、15…制御部

Claims (14)

  1. 動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、
    前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、
    をコンピュータに実行させることを特徴とする画像処理プログラム。
  2. 動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、
    前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、
    をコンピュータに実行させることを特徴とする画像処理プログラム。
  3. 請求項1又は請求項2に記載の画像処理プログラムにおいて、
    前記セグメント検出ステップには、
    前記動画像を2つの部分動画像に分割するステップと、
    前記2つの部分動画像の一方及び他方の各セグメントから特徴量を抽出するステップと、
    前記各セグメントを学習サンプルとして使用し、任意のセグメントが前記2つの部分動画像の一方又は他方に属する確率密度と、前記任意のセグメントの特徴量との関係を推定するステップと、
    前記動画像の各セグメントの特徴量を前記関係へ当てはめることにより、前記各セグメントの確率密度を算出し、確率密度が判別基準を満たすセグメントをレアセグメントと判別し、確率密度が前記判別基準を満たさないセグメントを非レアセグメントと判別するステップと、
    が含まれることを特徴とする画像処理プログラム。
  4. 請求項3に記載の画像処理プログラムにおいて、
    前記確率密度として、前記2つの動画像の一方に属する確率密度と他方に属する確率密度との間の確率密度比を使用する
    ことを特徴とする画像処理プログラム。
  5. 請求項4に記載の画像処理プログラムにおいて、
    前記判別では、確率密度比が所定範囲から外れるセグメントをレアセグメントと判別し、確率密度比が前記所定範囲に入るセグメントを非レアセグメントと判別する
    ことを特徴とする画像処理プログラム。
  6. 請求項3〜請求項5の何れか一項に記載の画像処理プログラムにおいて、
    前記特徴量として、複数の特徴量成分を有した特徴量ヒストグラムを使用する
    ことを特徴とする画像処理プログラム。
  7. 請求項6に記載の画像処理プログラムにおいて、
    或るセグメントから特徴量ヒストグラムを抽出する際には、前記セグメント内の各エリアから特徴量ヒストグラムを抽出し、かつ、それら各エリアの特徴量ヒストグラムを統合する
    ことを特徴とする画像処理プログラム。
  8. 請求項7に記載の画像処理プログラムにおいて、
    前記統合の際には、互いに類似した特徴量成分同士を1つの特徴量成分に纏めることにより、前記セグメントの特徴量ヒストグラムの次元を抑える
    ことを特徴とする画像処理プログラム。
  9. 請求項1〜請求項8の何れか一項に記載の画像処理プログラムにおいて、
    前記エリア検出ステップで検出された1又は複数のエリアの画像により、前記動画像の要約静止画像又は要約動画像を作成する要約ステップを更にコンピュータに実行させる
    ことを特徴とする画像処理プログラム。
  10. 動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出ステップと、
    前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出ステップと、
    を含むことを特徴とする画像処理方法。
  11. 動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出ステップと、
    前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出ステップと、
    を含むことを特徴とする画像処理方法。
  12. 動画像からレアイベントの発生しているレアセグメントを検出するセグメント検出手段と、
    前記レアセグメントから前記レアイベントの発生しているレアエリアを検出するエリア検出手段と、
    を備えることを特徴とする画像処理装置。
  13. 動画像から非レアイベントの発生している非レアセグメントを検出するセグメント検出手段と、
    前記非レアセグメントから前記非レアイベントの発生している非レアエリアを検出するエリア検出手段と、
    を備えることを特徴とする画像処理装置。
  14. 被写体を撮像して動画像を取得する撮像手段と、
    前記撮像手段が取得した動画像に対して処理を施す請求項12又は請求項13に記載の画像処理装置と、
    を備えることを特徴とする撮像装置。
JP2012215850A 2012-09-28 2012-09-28 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置 Pending JP2014072620A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012215850A JP2014072620A (ja) 2012-09-28 2012-09-28 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012215850A JP2014072620A (ja) 2012-09-28 2012-09-28 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置

Publications (1)

Publication Number Publication Date
JP2014072620A true JP2014072620A (ja) 2014-04-21

Family

ID=50747478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012215850A Pending JP2014072620A (ja) 2012-09-28 2012-09-28 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置

Country Status (1)

Country Link
JP (1) JP2014072620A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160124948A (ko) * 2015-04-20 2016-10-31 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
CN113196335A (zh) * 2018-12-14 2021-07-30 富士胶片株式会社 小批量学习装置及其工作程序和工作方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160124948A (ko) * 2015-04-20 2016-10-31 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
KR101713189B1 (ko) * 2015-04-20 2017-03-08 전남대학교산학협력단 비디오 객체 행동 분류를 위한 hog/hof 기반 특징정보 추출 방법 및 추출기
CN113196335A (zh) * 2018-12-14 2021-07-30 富士胶片株式会社 小批量学习装置及其工作程序和工作方法

Similar Documents

Publication Publication Date Title
US10410677B2 (en) Content management system, management content generating method, management content play back method, and recording medium
KR100996066B1 (ko) 얼굴화상 등록 장치, 얼굴화상 등록 방법, 및 기록 매체
US7916894B1 (en) Summary of a video using faces
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
CN107430780B (zh) 用于基于视频内容特性的输出创建的方法
US8068678B2 (en) Electronic apparatus and image processing method
CN103200463A (zh) 一种视频摘要生成方法和装置
JP2010072708A (ja) 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP5300585B2 (ja) 情報処理装置、情報処理方法
US9721613B2 (en) Content management system, management content generation method, management content reproduction method, program and recording medium
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
US11189035B2 (en) Retrieval device, retrieval method, and computer program product
JP4490214B2 (ja) 電子アルバム表示システム、電子アルバム表示方法、及び電子アルバム表示プログラム
WO2019083509A1 (en) PEOPLE SEGMENTATIONS FOR BACKGROUND REPLACEMENTS
JP2012105205A (ja) キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置
JP2006217046A (ja) 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム
KR101313285B1 (ko) 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체
Midhu et al. Highlight generation of cricket match using deep learning
JP2014072620A (ja) 画像処理プログラム、画像処理方法、画像処理装置、及び撮像装置
JP2021111228A (ja) 学習装置、学習方法、及びプログラム
JP6789175B2 (ja) 画像認識装置、方法、及びプログラム
WO2016117039A1 (ja) 画像検索装置、画像検索方法、および情報記憶媒体
JP2007058630A (ja) 画像認識装置
JP7291907B2 (ja) 画像処理装置及び画像処理方法