JP2004048761A - 映像処理装置 - Google Patents
映像処理装置 Download PDFInfo
- Publication number
- JP2004048761A JP2004048761A JP2003196641A JP2003196641A JP2004048761A JP 2004048761 A JP2004048761 A JP 2004048761A JP 2003196641 A JP2003196641 A JP 2003196641A JP 2003196641 A JP2003196641 A JP 2003196641A JP 2004048761 A JP2004048761 A JP 2004048761A
- Authority
- JP
- Japan
- Prior art keywords
- video
- shot
- scene
- feature
- cut
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【解決手段】映像のショット間の切れ目を検出するカット検出手段102と、ショット間の画像類似度によりショットを統合するシーン検出手段103と、映像の先頭フレームからの相対時刻を計算する相対時刻計算手段106と、シーン検出手段103により検出された統合されたショット群を相対時刻計算手段106により検出された相対時刻に基づいて統合する統合手段104を有する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、映像を自動的にまとめ、まとめられた映像の編集や検索を容易にする映像処理装置に関する。
【0002】
【従来の技術】
近年、衛星放送やケーブルテレビなどによるテレビの多チャンネル化が、進んでいる。また、家庭におけるビデオムービーの普及により、映像を録画する機会が益々増えている。そのため膨大な数の映像について内容をより早く把握し、見たい部分のみを取り出すことが必要となっている。従来は、映像を早送りしながら見たい場面を探すが、この場合最初から順番に見ていく必要があり、たとえ10倍の速さで見ても、2時間の映像全体を見るのには12分もかかることになり、検索に非常に時間がかかる。
【0003】
この問題に対し、映像を分割し、その代表画像で表示することは、映像全体を理解し、編集や検索を行なう上で非常に便利である。この分割方法として、カットによる分割が用いられる場合が多い。カットとは、カメラの切替えによって映像が大きく変化する点であり、カットと次のカットの間は連続した内容を持つ一連の画像フレームで構成されている。この一連のフレーム群をショットと呼び、映像の1つの単位として扱うことができる。しかしながら、映像をカットごとに分ける作業は、非常に大きな労力が必要であるため、自動化することが大きな課題であり、多くの技術が開発されている。
【0004】
また、映像を意味のある内容ごとにまとめるために、ショットを統合する方法として、特開平9−93588号公報に示されているように、動画像のフレーム群間の類似度を求め、リンクを付け同一の集合として統合する方法がある。
【0005】
【発明が解決しようとする課題】
しかしながら、映像をカット検出のみで分割する方法では、多くの映像はカットが平均約5秒〜10秒に1回起こると言われているため、ショット数が多く検出され、長い映像が短くまとまらない。例えば、カットが10秒に一度起こると仮定して、30分の映像についてカット検出すると180箇所検出され、それを1画面に30枚の画像が表示できる表示装置に表示すると、画面6枚分となる。これでは、映像全体を把握することは難しい。
【0006】
さらに、CM(コマーシャル)などでは、極端に短いショットが数多くあり、重要な内容を含まないショットが数多く表示されることになり、内容全体を把握することは困難である。
【0007】
また、画像の類似度のみでショットを統合する方法では、統合されるショット数は多くても数個から数十個程度である。統合してもやはりショット数が多く、長い映像を短くまとめることは困難である。
【0008】
また、映像中のショットには重要な内容を持つ部分とそうでない部分があり、映像を短くまとめる際、重要な内容を持つショットを残すことが必要である。
【0009】
また、映像中から特定のショットや同じ背景のショットだけをまとめて検索して取り出したい、あるいは編集したいなどの要求がある。そのため、映像の様々な特徴を基に望みのショットを表示したり、実際に検索できることが必要となる。
【0010】
本発明の目的は、上記問題点に鑑み、映像全体を容易に把握したり、短くまとめたり等できる映像処理装置を提供することにある。
【0011】
【課題を解決するための手段】
請求項1記載の映像処理装置は、順次入力される映像のフレームを処理する映像処理装置であって、フレーム間の特徴量変化に基づいてショットのカットを検出するカット検出手段と、前記映像に関する特徴を抽出する特徴検出手段と、前記抽出された特徴を前記カット検出手段により検出されたカットにより区別されたショットごとに記憶する記憶手段と、前記記憶手段に記憶されたショット間の特徴量の近いショットを統合して、指定された範囲の映像の全ショットを、指定された数以下になるまで分割して再構成する再構成手段と、を有することを特徴とする。
【0012】
請求項2記載の映像処理装置は、請求項1記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、フレーム間の動きベクトルから得られる映像中のカメラの動き情報であることを特徴とする。
【0013】
請求項3記載の映像処理装置は、請求項1記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、ある特定の環境下における画像モデルと比較することにより求まる類似度であることを特徴とする。
【0014】
請求項4記載の映像処理装置は、請求項1記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、ある特定の環境下における音声モデルと比較することにより求まる類似度であることを特徴とする。
【0015】
【発明の実施の形態】
まず、図2を用いて、映像の構成について説明する。本実施の形態で入力される映像は、入力時に何らかの時系列的あるいは番号的に順序付けられた画像、例えば動画像であればよく、例えばテレビ、VTR(デジタルテープレコーダ)、ポータブルビデオカメラなどの外部から入力される信号でも良いし、コンピュータのハードディスク、光磁気ディスク、CD−ROM(コンパクトディスク−リードオンリーメモリ)などの記録媒体に保持されている符合化された信号でも良い。ビデオカメラで撮影した場合を例にとると、映像を構成する1枚1枚の画像を「フレーム」、撮影を中断せずに撮影された一続きの映像のフレーム群を「ショット」、その境界を「カット」と呼ぶ。また、内容が連続しているショット群を「シーン」とし、「シーン」の境界を「シーンチェンジ」と呼ぶ。さらに、連続シーンでの同一性を基に「シーン」を統合し、新しい「シーン」を構成する。この「シーン」は、階層が何段あってもよい。
【0016】
(第1の実施の形態)
以下に、本実施の形態を示す図面に基づき説明する。図1に、第1の実施の形態の映像処理装置の構成を示す。101は画像入力端であり、102は入力された画像を用いてカットを検出するカット検出手段であり、103はシーンチェンジを検出するシーン検出手段であり、104は106からの相対時刻でシーンを統合する統合手段であり、105はワークエリアのみならず本装置の各部で処理された映像を記憶する記憶部であり、106は先頭フレームからの相対時刻を求める相対時刻計算手段である。相対時刻検出手段106は、先頭時刻のフレーム番号と入力フレーム番号との差から計算できる。例えば、30フレーム/秒のビデオ信号であれば、フレーム番号の差が120であれば、4秒であることが分かる。
【0017】
次に、カット検出手段102の処理について説明する。カット検出手段102は、入力された画像の連続するフレーム群のうち、特徴量変化の大きいフレーム間をカットとして検出するものである。これによって、連続的に変化の小さいフレーム群をショットとしてまとめる。前記特徴量変化の検出としては、たとえば、画素変化面積を用いる方法やフレーム間での輝度ヒストグラムを用いて比較する方法や、色の分布の変化を求める方法などがあるが、特に限定されない。
【0018】
この特徴量変化の検出として、画素変化面積を用いる方法について図3を用いて説明する。1枚の画像は画素と呼ばれる小さな形(矩形の場合が多い)の集まりで表される。図3(a)は時間tの画像の一部分を表しているとする。時間がt+1の時の同一の場所における画像が図3(b)であれば、時間tとt+1の変化を表す差分画像は図3(d)となる。同様に時間t+1の画像が図3(c)であれば、差分画像は図3(e)となる。カットが起こった場合、画像が不連続であるため、この差分画像の画素変化面積が大きくかつ画像全体に広がることになる。図3(e)の場合、カットとなる可能性が大きい。一方、カメラのパンによる動きの場合変化は小さく、被写体の動きなどは局所的にしか変化しない。ズームでは、広い範囲で変化が起こるが、時間軸上で連続した変化となるので、カットの判定とは見分けることが可能である。この画素変化面積の変化を時間とともに示したものが図4である。変化量がしきい値より大きく、なおかつ1フレームにおいて大きな変化が起こる点をカットであると判定して、カットとして検出する。
【0019】
次に、シーン検出手段103の処理について説明する。シーン検出手段103は、カット検出手段102によりまとめられたショット群間の類似度を求め、この類似度からシーンにまとめるものである。これによって類似度が所定の条件より低いショット群間をシーンチェンジとし、ショット群をシーンとしてまとめることができる。前記類似度として、例えば、色の分布をもとにしたものがある。これは、フレームを領域分割し、各領域の色とその色の分布比率から、フレーム間の画像間距離を求め、その距離が特定の閾値より大きければ、シーンチェンジとするものである。その他、輝度を用いたものや、動きを求める方法でも適応可能である。
【0020】
色の分布を用いる方法について、図5を用いて説明する。まず、ショットの中から1枚代表画像として選び、その画像を色を基にクラスタリングすることで領域分割する。クラスタリングした領域の面積とその色の分布比率をグラフにしたものが図5下の色分布グラフである。この色の種類と分布比率から画像間の距離を求めることで、類似度を計測する。図5(a)と図5(b)とは、色の種類数が同じで、各色の分布比率も所定の範囲内であるので、類似度が高く、シーンチェンジでないと判断され、図5(b)と図5(c)とは、色の種類数が異なり、色の分布比率も所定の範囲外であるので、類似度が低く、シーンチェンジであると判断される。
【0021】
次に、統合手段104の処理について図6を用いて説明する。図6は、連続する映像をシーン単位で示したものである。各シーンは図の様にフレーム群で構成されている。シーン1、シーン2、シーン3、シーン4、シーン5は、シーン検出手段103によって検出されたもので、t1、t2、t3、t4、t5はシーンの先頭時刻を示している。また、統合手段104は、相対時刻計算手段106からの時間情報により所定の時間Tごとに区切りを設け、区切りの時刻におけるシーン番号を求め、その次のシーン番号からを新しいシーンとして統合する。つまり、統合手段104によって、新しいシーン(シーン10、シーン11)として統合するのである。この時、シーン1、シーン2、…は、上位シーン10、11の下位シーンとして、記憶部105に階層的に保存される。以下、同様に時間Tごとにシーンの統合処理を行なうことにより、類似した映像が、極端な時間長でなく適切な時間長でシーン統合がなされ、検索や編集に便宜を図ることができる。
【0022】
次に、記憶部105について説明する。記憶部105は、ハードディスクなどの記憶装置である。この記憶部105に記憶されるデータ構造例は、図8で示され、カット検出手段102より検出されたショットの先頭フレーム番号を記憶する領域、シーン検出手段103により検出された下位シーンの先頭フレーム番号を記憶する領域、統合手段104により検出された上位シーンの先頭フレーム番号を記憶する領域からなる。図8の例では、アドレス0000〜に上位シーン領域、0010〜に下位シーン領域、0100〜にショット領域が確保されている。
【0023】
以上の処理方法を図7のフローチャートを用いて説明する。はじめに、記憶領域を確保し、初期設定する(S100)。統合の基準になる先頭フレームの相対時刻を設定する(S101)。次に、画像を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む(S102)。前フレームとの比較により、カットであるか判定する(S103)。カットと判定されれば、記憶部105のショット領域アドレス上にショット先頭番号を入れる(S104)。さらに、このカットが、シーンチェンジであるか判定し(S105)、シーンチェンジであれば、記憶部105の下位シーン領域アドレス上にショット先頭番号を入れる(S106)。それと同時に、先頭フレームからの順番から入力フレームの相対時刻を求める(S107)。この相対時刻と指定時刻Tを比較し(S108)、越えておれば、そのカットまでを1つのシーンとして統合し、記憶部105の上位シーンアドレス上に先頭フレーム番号を記憶する(S109)。指定時刻Tを越えた時の先頭フレームの相対時刻を0にセットする(S110)。入力が終了(S111)すれば終了し、そうでなければ次の映像を読み込む(S102)。
【0024】
(第2の実施の形態)
図9に、第2の実施の形態の映像処理装置の構成を示す。第1の実施の形態と相違するのは、構成上、CMを検出するCM検出手段201を設けた点であり、それ以外の構成は、第1の実施の形態と同様であるので説明を省略し、CM検出手段201に関する箇所について説明する。
【0025】
CM検出手段201は、多くのCMが60秒以下であって、所定時間である15秒の数倍(1、2、4倍等)時間であること、CMとCMの継目では、シーンチェンジが必ずあること、また複数のCMが続けて繰り返されることが多く、CM中はカットが多いことを用い、カット間の時間差を計算することでCMを検出する。
【0026】
図10に、連続する映像をCM検出手段201で得られるCMシーンとそれ以外のショット群を示す。相対時刻計算手段106によって、CMシーン1,2の開始時刻および終了時刻を検出し、図10では、t1,t2がCM開始時刻、t1’,t2’が終了時刻である。統合手段104は、検出したCM終了時刻から次開始時刻までをショット群1,2,3をシーン30,31,32として統合している。
【0027】
次に、本実施の形態の処理方法を図11のフローチャートを用いて説明する。はじめに、画像を処理装置内のメモリ上に取り込む(S201)。前フレームとの比較により、カットであるか判定する(S202)。それと同時に、入力されたフレームの順番から先頭フレームからの順番相対時刻を求める(S203)。カットと判定されれば、記憶部105のショット領域アドレス上にショット先頭番号を入れる(S204)。相対時刻が15秒の整数倍であれば、その間はCMであったと判定し、記憶部105のCMシーン領域アドレス上にCMシーンの先頭フレーム番号を入れる(S207)。そして、CMとCMの間を1つのシーンとし、記憶部105の下位シーン領域アドレス上に先頭番号を入れる(S208)。15秒の倍数でなければ、相対時刻が設定時間を越えているかどうか判定する(S206)。例えば、CMは60秒以内とし、この時間を過ぎているかどうか判定する。越えていれば、相対時刻を0にリセットする(S209)。入力が終了(S210)すれば終了し、そうでなければ次の映像を読み込む(S201)。
【0028】
ここで、記憶部105に記憶されるデータ構造例は、図12で示され、カット検出手段102により検出されたショットの先頭フレーム番号を記憶する領域、シーン検出手段103により下位シーンの先頭フレーム番号を記憶する領域、統合手段104により上位シーンの先頭フレーム番号を記憶する領域、CM検出手段201によりCMの先頭フレーム番号を記憶する領域からなる。このように領域を区別することで、上位シーンでは、CMが除去された映像が得られ、CMと他の映像とを区別して表示手段に表示でき、検索や編集に便宜を図ることができる。
【0029】
なお、本実施の形態では、検出されたCMを区切りとしてその間のショット群をすべて統合処理したが、第1の実施の形態と同様に、シーンチェンジを区切りとして統合するのを組み合わせてもよい。
【0030】
(第3の実施の形態)
図13に、第3の実施の形態の映像処理装置の構成を示す。符号101〜103の構成は、第1の実施の形態と同様であるので説明を省略する。図13において、301は画像入力端101から入力される映像と同期して音声が入力される音声入力端であり、302は音声の特徴となる参照パターンを抽出するパターン抽出手段であり、303は入力された音声と参照パターンとを比較する音声類似度計測手段であり、統合手段104は、音声類似度計測手段303により求めた音声類似度とシーン検出手段103により統合したシーンとによりシーンを統合し、記憶部105のデータ構造例は、図示しないが、音声の参照パターンを記憶する領域がさらに設けられている以外は図8と同様である。
【0031】
次に、本実施の形態の音声処理について、図14を用いて説明する。映像と音声とが同期して入力され、まず映像のカットが検出されると、そのショット内での音声データを参照パターンとしてパターン抽出手段302により抽出し、記憶部105に記憶させる。音声類似度計測手段303は、その後入力される音声と記憶されている参照パターンとを比較して、音声類似度を求め、カットの前後において、類似度が小さければ、シーンチェンジと判定し、統合手段104はその判定結果でシーンを統合する。この音声データの類似度計測は、一定期間の音声データ(パターン)を周波数に変換し、周波数軸でパターンマッチングをとることで求めればよい。また、シーンチェンジと判定されれば、参照パターンを記憶部105に新たに記憶させて、以降の比較に用い、シーンチェンジと判定されるたびに新たに記憶される。
【0032】
本実施の形態の処理方法を図15のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む(S301)。前フレームとの比較により、カットであるか判定する(S302)。カットと判定されれば、記憶部105のショット領域アドレス上にショット先頭番号を入れ(S303)、さらに参照パターンをショットに対応の音声データから取り出し、記憶部105に保存する(S304)。記憶部105に保存された参照パターンと以降入力されて検出されたパターンとを比較し、類似度を求め、類似しているかどうか判断し(S305)、シーンチェンジであると判定すると、シーン領域アドレス上にフレーム番号を保存する(S306)。入力が終了(S307)でなければ、画像と音声を読み込み(S301)、以下同様に処理する。
【0033】
このようにして、音声の特徴によりシーンチェンジを検出してシーン統合をすることができるため、画像の類似度のみでシーン統合した場合よりもより適切なシーン統合ができ、検索や編集に便宜を図ることができる。
【0034】
(第4の実施の形態)
図16に、第4の実施の形態の映像処理装置の構成を示す。符号101〜103の構成は、第1の実施の形態と同様であるので説明を省略する。図16において、401は図示しない指示手段により記憶部105に記憶されている映像の各階層のショット数を指示する各階層ショット数決定手段、402はショット数決定手段401で指示されたショット数の階層構造となるように記憶部105の内容を階層化する階層構造構成手段、403は入力される音声と画像の特徴量を検出する特徴量検出手段、404は階層構造構成手段402により作成された階層及びショット数で先頭フレームを表示する表示再生手段である。
【0035】
本実施の形態では、長い映像全体を素早く把握するために、最初に映像全体を記憶部105の上位シーンの先頭フレームを表示再生手段404に表示し、さらに詳しく知りたい範囲、つまり、その先頭フレームを指示すれば、その指示されたフレームに対応する下位シーンの階層の映像を指示されたショット数で表示再生手段404に表示するのである。例えば、表示再生手段404に4枚の画像が表示できる場合、映像全体を上位シーンとして4つのショット数に特徴量検出手段403で検出された特徴量を基に分割し、ショット数が4以下になるまで繰り返すのである。また、同様にして、下位シーン領域の映像をショット数が4以下になるまで分割するのである。また、本実施の形態では、ショット数を4としたが、この数に限定されるものでなく、また各階層でのショット数を下層ほど多くする等に変化させてもよい。
【0036】
次に、本実施の形態において、ショットとその特徴量を取り込んでから階層構造を再構築する処理を図17のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む(S401)。画像および音声の特徴量を検出する(S402)。前フレームとの比較により、カットであるか判定し、カットと判定されれば、記憶部105のショット領域アドレス上にショット先頭番号を入れ(S403)、ショットごとに記憶部105の特徴量記憶領域に特徴量を保存する(S404)。以下、入力終了(S405)まで繰り返し行なう。これらの処理によりショットと対応の特徴量の記憶が終了する。
【0037】
入力終了後、所望の映像を得るための実際の表示操作となる。画面に表示可能なフレーム数より各階層のショット数を各階層ショット数決定手段401により設定する(S406)。ここでは、各階層ともショット数を4に設定した。すると、最初の表示時に、近い特徴量を有する記憶部105のショット同士を設定されたショット数のグループに分割して上位シーンとして表示する。次に、記憶部105に設定数分の下位シーンデータ領域を作成する(S407)。記憶部105からS404で作成した特徴量データを取り出す(S408)。指定された範囲の全てのショットを調べ続け(S409)、取り出した特徴量に基づいて映像を設定数で分割する(S410)。記憶部105の下位シーン領域アドレス上に先頭フレーム番号を保存する(S411)。分割後のすべてショット群において、ショット数が設定数より少なければ終了(412)し、そのショット群内についてS407以降を繰り返す。以下、同様にして、各階層のショット数が4になるまで分割する。このように記憶部105を分割して再構成することで、表示、検索、編集の便宜を図ることができる。
【0038】
この記憶部105に記憶されるデータ構造例は、図18で示され、図8と同様、ショットの先頭フレーム番号を記憶する領域、下位シーンの先頭フレーム番号を記憶する領域、上位シーンの先頭フレーム番号を記憶する領域で構成され、各層において、設定数(図18では4)のショット群が統合されて記憶されている。さらに、各ショットごとの特徴量を記憶する特徴量記憶領域が設けられている。
【0039】
(第5の実施の形態)
図19に、第5の実施の形態の映像処理装置の構成を示す。本実施の形態は、映像の中から特定の特徴量を持つショットを指定した階層から取り出すものであり、符号101,102は第1の実施の形態と同様であり、符号301,403は第4の実施の形態と同様であるため、説明を省略する。501は対象とする特徴量を設定する特徴量設定手段、502は特徴量設定手段501で設定した特徴量と記憶部105から取り出した特徴量とを比較して類似度を検出する類似度検出手段である。
【0040】
次に、本実施の形態において、ショットとその特徴量を取り込んでから所望の特徴量をもつショットを取り出す処理を図20のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む(S501)。画像および音声の特徴量を検出する(S502)。前フレームとの比較により、カットであるか判定し、カットと判定されれば、記憶部105のショット領域アドレス上にショット先頭番号を入れ(S503)、ショットごとに確保された特徴量記憶領域に特徴量を保存する(S504)。以下、入力終了まで(S505)繰り返し行なう。これらの処理によりショットと対応の特徴量の記憶が終了し、検索の準備が整う。
【0041】
入力終了後、所望の映像(ショット)を得るために、検索する特徴の条件を設定する(S506)。すると、記憶部105から特徴量データを取り出し(S507)、取り出した特徴量データが検索の条件を満たすなら(S508)、表示のために、下位または上位のシーン領域アドレス上に先頭フレーム番号を保存する(S509)。以下、全てのショットについて調べる(S510)。別の特徴でも条件を設定するなら(S511)、S506に戻り繰り返す。
【0042】
この記憶部105に記憶されるデータ構造例は、図21で示され、図8と同様、ショットの先頭フレーム番号を記憶する領域、下位シーンの先頭フレーム番号を記憶する領域、上位シーンの先頭フレーム番号を記憶する領域で構成されている。さらに、各ショットごとの特徴量を記憶する特徴量記憶領域が設けられている。この特徴量記憶領域は、図21に示す如く、特徴ごとに設けられていてもよい。
【0043】
図22に、特徴量検出手段403の第1の具体例を示す。図22では、画像入力端101から入力された画像は、フロー検出処理601で複数枚のフレーム間でオプティカルフローを計測する。カメラ方向計測処理602では、フロー検出処理601で得られたフロー結果を基にカメラの動きを判定する。
【0044】
オプティカルフローとは、画面内の物体の移動に伴う輝度分布の移動を示す速度ベクトルである。このオプティカルフローの検出方法としては、大きく分けて二種類ある。一つは、画像中の特徴点を見つけ、画像フレーム間で対応点を探し速度ベクトルを決定するマッチング法であり、もう一つは、動画像中の運動物体の輝度の時間変化に一定の関係があることを利用する勾配法である。
【0045】
上記で計測したオプティカルフローの分布とカメラの動きの関係は、図23で示される。カメラがパン・チルトすると左右あるいは上下の1方向のベクトルが得られ(図23(a)、図23(b))、ズームあるいはワイドの時は画像の中心から放射状のベクトルが得られる(図23(c))。パンとチルトの混合した場合は、平行のベクトルが得られる(図23(d))。パンとチルトおよびズーム・ワイドが混合した場合は、画像の中心ではないある点を中心に放射状のベクトルとなる(図23(e))。
【0046】
また、カメラの動きと画像上のベクトルの関係は下式で表現される。
【0047】
【数1】
【0048】
ここで、(u,v)は動きベクトル、x、yは画面座標値、aはズーム成分、pxはパン成分、pyはチルト成分の係数を表す。上式と図23との関係は、図23(a)はa=0、px≠0、py=0を満たす。図23(b)はa=0、px=0、p≠0を満たす。図23(c)はa≠0、px=0、py=0を満たす。図23(d)はa=0、px≠0、py≠0を満たす。図23(e)はa≠0、px≠0、py≠0を満たす。
【0049】
カメラの動きの判定は、まずベクトルが平行であるかを判定する。平行であればa=0が決定し、px、pyもベクトルから求まる。平行でない場合、カメラの中心(EOF)を求め、その中心からの距離とベクトルの大きさの関係よりカメラのズーム成分を求める。これによってaが得られる。その後、上式にaを代入することで、px、pyが求まる。この3成分a,px,pyが決まれば、カメラの動きが決定され、これらを、映像の特徴量として用いる。このカメラの動きでショットを表示、あるいは検索することが可能となる。
【0050】
図24に、特徴量検出手段403の第2の具体例を示す。図24では、音声入力端301から入力された音声は、音量検出処理部701において、音の大きさを測定し、音量記憶手段702に記憶させ、後から入力される音声との変化を順次検出する。この方法によって、音量変化が大きい、あるいは音量自体が大きい場合を特徴量とする。これにより、音量変化の大きいショットあるいは音量が大きいショットを表示、あるいは検索することが可能となる。
【0051】
図25に、特徴量検出手段403の第3の具体例を示す。図25では、ある特定の環境下における特定の形状などの典型的な画像例を物体モデル(画像モデル)801として持ち、そのモデルを基に画像入力端101から入力される画像との類似度を類似度計測手段802で計測し、求めた類似度を特徴量として用いる。物体モデルとしては、例えば人の顔、車、風景など様々なものを用いることが可能である。これにより、物体モデル801に近いショットを表示、あるいは検索することが可能となる。
【0052】
図26に、特徴量検出手段403の第4の具体例を示す。図26では、ある特定の環境下におけるノイズなどの典型例を環境モデル(音声モデル)901として持ち、そのモデルを基に音声入力端301から入力される音声との類似度を類似度計測手段902で計測し、求めた類似度を特徴量として用いる。環境モデルとしては、例えば車内の雑音、列車音など様々なものを用いることができる。これにより、環境モデル901に近いショットを表示、あるいは検索することが可能になる。
【0053】
以上、種々の実施の形態について説明してきたが、これらの実施の形態を適宜組み合わせて用いてもよく、さらには、上述した処理を実行するプログラムを、フロッピー(R)ディスクやCD−ROM等のコンピュータ読み取り可能な記録媒体にあらかじめ記録したり、あるいは通信回線でコンピュータ読み取り可能な記録媒体に供給し、適宜コンピュータにインストールして用いてもよい。
【0054】
【発明の効果】
請求項1記載の発明によれば、記憶手段のショットを分割して再構成することにより、表示に適切な形にまとめることができ、映像中から重要な部分だけを取り出すことができ、検索、編集の便宜を図ることができる。
【0055】
請求項2記載の発明によれば、所定の映像中のカメラの動き情報に近いショットを表示、あるいは検索することが可能になる。
【0056】
請求項3記載の発明によれば、特定の画像モデルに近いショットを表示、あるいは検索することが可能になる。
【0057】
請求項4記載の発明によれば、特定の音声モデルに近いショットを表示、あるいは検索することが可能になる。
【図面の簡単な説明】
【図1】第1の実施の形態の映像処理装置の構成を示す図である。
【図2】本発明における映像の構成を表す概念図である。
【図3】第1の実施の形態のカット検出として画素変化面積を用いる場合の説明図である。
【図4】第1の実施の形態の画素変化面積の時間経過を示す図である。
【図5】第1の実施の形態のシーン検出として色分布を用いる場合の説明図である。
【図6】第1の実施の形態のシーン統合の説明図である。
【図7】第1の実施の形態のフローチャートである。
【図8】第1の実施の形態の記憶部のデータ構造の構成例である。
【図9】第2の実施の形態の映像処理装置の構成を示す図である。
【図10】第2の実施の形態のシーン統合の説明図である。
【図11】第2の実施の形態のフローチャートである。
【図12】第2の実施の形態の記憶部のデータ構造の構成例である。
【図13】第3の実施の形態の映像処理装置の構成を示す図である。
【図14】第3の実施の形態の音声データによりシーンチェンジを検出する説明図である。
【図15】第3の実施の形態のフローチャートである。
【図16】第4の実施の形態の映像処理装置の構成を示す図である。
【図17】第4の実施の形態のフローチャートである。
【図18】第4の実施の形態の記憶部のデータ構造の構成例である。
【図19】第5の実施の形態の映像処理装置の構成を示す図である。
【図20】第5の実施の形態のフローチャートである。
【図21】第5の実施の形態の記憶部のデータ構造の構成例である。
【図22】特徴量検出手段の第1の構成の具体例である。
【図23】特徴量検出手段の第1の具体例に関する説明図である。
【図24】特徴量検出手段の第2の構成の具体例である。
【図25】特徴量検出手段の第3の構成の具体例である。
【図26】特徴量検出手段の第4の構成の具体例である。
【符号の説明】
102 カット検出手段
103 シーン検出手段
104 統合手段
105 記憶部
106 相対時刻計算手段
Claims (4)
- 順次入力される映像のフレームを処理する映像処理装置であって、
フレーム間の特徴量変化に基づいてショットのカットを検出するカット検出手段と、
前記映像に関する特徴を抽出する特徴検出手段と、
前記抽出された特徴を前記カット検出手段により検出されたカットにより区別されたショットごとに記憶する記憶手段と、
前記記憶手段に記憶されたショット間の特徴量の近いショットを統合して、指定された範囲の映像の全ショットを、指定された数以下になるまで分割して再構成する再構成手段と、
を有することを特徴とする映像処理装置。 - 前記特徴検出手段が抽出する特徴は、フレーム間の動きベクトルから得られる映像中のカメラの動き情報であることを特徴とする請求項1記載の映像処理装置。
- 前記特徴検出手段が抽出する特徴は、ある特定の環境下における画像モデルと比較することにより求まる類似度であることを特徴とする請求項1記載の映像処理装置。
- 前記特徴検出手段が抽出する特徴は、ある特定の環境下における音声モデルと比較することにより求まる類似度であることを特徴とする請求項1記載の映像処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003196641A JP3834019B2 (ja) | 2003-07-14 | 2003-07-14 | 映像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003196641A JP3834019B2 (ja) | 2003-07-14 | 2003-07-14 | 映像処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23985998A Division JP3558886B2 (ja) | 1998-08-26 | 1998-08-26 | 映像処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004048761A true JP2004048761A (ja) | 2004-02-12 |
JP3834019B2 JP3834019B2 (ja) | 2006-10-18 |
Family
ID=31712501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003196641A Expired - Fee Related JP3834019B2 (ja) | 2003-07-14 | 2003-07-14 | 映像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3834019B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007029455A1 (ja) * | 2005-09-07 | 2007-03-15 | Pioneer Corporation | 風景単調度演算装置及び方法 |
JP2014033355A (ja) * | 2012-08-03 | 2014-02-20 | Nippon Hoso Kyokai <Nhk> | 画像処理装置、画像処理方法及びプログラム |
-
2003
- 2003-07-14 JP JP2003196641A patent/JP3834019B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007029455A1 (ja) * | 2005-09-07 | 2007-03-15 | Pioneer Corporation | 風景単調度演算装置及び方法 |
JPWO2007029455A1 (ja) * | 2005-09-07 | 2009-03-26 | パイオニア株式会社 | 風景単調度演算装置及び方法 |
JP4550116B2 (ja) * | 2005-09-07 | 2010-09-22 | パイオニア株式会社 | 風景単調度演算装置及び方法 |
JP2014033355A (ja) * | 2012-08-03 | 2014-02-20 | Nippon Hoso Kyokai <Nhk> | 画像処理装置、画像処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3834019B2 (ja) | 2006-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0729117B1 (en) | Method and apparatus for detecting a point of change in moving images | |
US7853897B2 (en) | Information processing apparatus and method, and program | |
US9014537B2 (en) | Information processing apparatus and method, and program | |
US8265146B2 (en) | Information processing apparatus, imaging device, information processing method, and computer program | |
US7483624B2 (en) | System and method for indexing a video sequence | |
US8233708B2 (en) | Video scene classification device and video scene classification method | |
US6310625B1 (en) | Clip display method and display device therefor | |
US7734144B2 (en) | Method and apparatus for editing source video to provide video image stabilization | |
US8897603B2 (en) | Image processing apparatus that selects a plurality of video frames and creates an image based on a plurality of images extracted and selected from the frames | |
WO2007126097A1 (ja) | 画像処理装置及び画像処理方法 | |
JP2010093713A (ja) | 表示制御装置、表示制御方法及びプログラム | |
JPH0993588A (ja) | 動画像処理方法 | |
JP2005065244A (ja) | ビデオをレビューする方法および装置 | |
JP2000350156A (ja) | 動画像情報の記憶方法及びこれを記録した記録媒体 | |
US6549245B1 (en) | Method for producing a visual rhythm using a pixel sampling technique | |
JPH08251540A (ja) | 映像要約方法 | |
JP3332166B2 (ja) | 動画像の検索装置 | |
US10460196B2 (en) | Salient video frame establishment | |
JP3558886B2 (ja) | 映像処理装置 | |
JP4154012B2 (ja) | 画像表示方法を実現するためのプログラムを記録した記録媒体及び画像合成装置 | |
JP3834019B2 (ja) | 映像処理装置 | |
JP2006039753A (ja) | 画像処理装置、画像処理方法 | |
JP3426997B2 (ja) | 被写体情報取得機能付き編集用映像撮影方法及び装置並びに該方法を記述したプログラムを記録した記憶媒体 | |
JP2010097246A (ja) | シーン類似判定装置、そのプログラム及びサマリ映像生成システム | |
JP4906615B2 (ja) | ピッチショット検出システム、参照ピッチショット画像選定装置及び参照ピッチショット画像選定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060313 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060411 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060720 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100728 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |