JP2004048761A

JP2004048761A - 映像処理装置

Info

Publication number: JP2004048761A
Application number: JP2003196641A
Authority: JP
Inventors: Katsuhiko Sato; 佐藤　克彦; Hiroyuki Akagi; 赤木　宏之; Mitsuaki Nakamura; 中村　三津明
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2003-07-14
Filing date: 2003-07-14
Publication date: 2004-02-12
Anticipated expiration: 2018-08-26
Also published as: JP3834019B2

Abstract

【課題】長い映像を意味のある単位で短く再構成できなかった。
【解決手段】映像のショット間の切れ目を検出するカット検出手段１０２と、ショット間の画像類似度によりショットを統合するシーン検出手段１０３と、映像の先頭フレームからの相対時刻を計算する相対時刻計算手段１０６と、シーン検出手段１０３により検出された統合されたショット群を相対時刻計算手段１０６により検出された相対時刻に基づいて統合する統合手段１０４を有する。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、映像を自動的にまとめ、まとめられた映像の編集や検索を容易にする映像処理装置に関する。
【０００２】
【従来の技術】
近年、衛星放送やケーブルテレビなどによるテレビの多チャンネル化が、進んでいる。また、家庭におけるビデオムービーの普及により、映像を録画する機会が益々増えている。そのため膨大な数の映像について内容をより早く把握し、見たい部分のみを取り出すことが必要となっている。従来は、映像を早送りしながら見たい場面を探すが、この場合最初から順番に見ていく必要があり、たとえ１０倍の速さで見ても、２時間の映像全体を見るのには１２分もかかることになり、検索に非常に時間がかかる。
【０００３】
この問題に対し、映像を分割し、その代表画像で表示することは、映像全体を理解し、編集や検索を行なう上で非常に便利である。この分割方法として、カットによる分割が用いられる場合が多い。カットとは、カメラの切替えによって映像が大きく変化する点であり、カットと次のカットの間は連続した内容を持つ一連の画像フレームで構成されている。この一連のフレーム群をショットと呼び、映像の１つの単位として扱うことができる。しかしながら、映像をカットごとに分ける作業は、非常に大きな労力が必要であるため、自動化することが大きな課題であり、多くの技術が開発されている。
【０００４】
また、映像を意味のある内容ごとにまとめるために、ショットを統合する方法として、特開平９−９３５８８号公報に示されているように、動画像のフレーム群間の類似度を求め、リンクを付け同一の集合として統合する方法がある。
【０００５】
【発明が解決しようとする課題】
しかしながら、映像をカット検出のみで分割する方法では、多くの映像はカットが平均約５秒〜１０秒に１回起こると言われているため、ショット数が多く検出され、長い映像が短くまとまらない。例えば、カットが１０秒に一度起こると仮定して、３０分の映像についてカット検出すると１８０箇所検出され、それを１画面に３０枚の画像が表示できる表示装置に表示すると、画面６枚分となる。これでは、映像全体を把握することは難しい。
【０００６】
さらに、ＣＭ（コマーシャル）などでは、極端に短いショットが数多くあり、重要な内容を含まないショットが数多く表示されることになり、内容全体を把握することは困難である。
【０００７】
また、画像の類似度のみでショットを統合する方法では、統合されるショット数は多くても数個から数十個程度である。統合してもやはりショット数が多く、長い映像を短くまとめることは困難である。
【０００８】
また、映像中のショットには重要な内容を持つ部分とそうでない部分があり、映像を短くまとめる際、重要な内容を持つショットを残すことが必要である。
【０００９】
また、映像中から特定のショットや同じ背景のショットだけをまとめて検索して取り出したい、あるいは編集したいなどの要求がある。そのため、映像の様々な特徴を基に望みのショットを表示したり、実際に検索できることが必要となる。
【００１０】
本発明の目的は、上記問題点に鑑み、映像全体を容易に把握したり、短くまとめたり等できる映像処理装置を提供することにある。
【００１１】
【課題を解決するための手段】
請求項１記載の映像処理装置は、順次入力される映像のフレームを処理する映像処理装置であって、フレーム間の特徴量変化に基づいてショットのカットを検出するカット検出手段と、前記映像に関する特徴を抽出する特徴検出手段と、前記抽出された特徴を前記カット検出手段により検出されたカットにより区別されたショットごとに記憶する記憶手段と、前記記憶手段に記憶されたショット間の特徴量の近いショットを統合して、指定された範囲の映像の全ショットを、指定された数以下になるまで分割して再構成する再構成手段と、を有することを特徴とする。
【００１２】
請求項２記載の映像処理装置は、請求項１記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、フレーム間の動きベクトルから得られる映像中のカメラの動き情報であることを特徴とする。
【００１３】
請求項３記載の映像処理装置は、請求項１記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、ある特定の環境下における画像モデルと比較することにより求まる類似度であることを特徴とする。
【００１４】
請求項４記載の映像処理装置は、請求項１記載の映像処理装置において、前記特徴検出手段が抽出する特徴は、ある特定の環境下における音声モデルと比較することにより求まる類似度であることを特徴とする。
【００１５】
【発明の実施の形態】
まず、図２を用いて、映像の構成について説明する。本実施の形態で入力される映像は、入力時に何らかの時系列的あるいは番号的に順序付けられた画像、例えば動画像であればよく、例えばテレビ、ＶＴＲ（デジタルテープレコーダ）、ポータブルビデオカメラなどの外部から入力される信号でも良いし、コンピュータのハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ（コンパクトディスク−リードオンリーメモリ）などの記録媒体に保持されている符合化された信号でも良い。ビデオカメラで撮影した場合を例にとると、映像を構成する１枚１枚の画像を「フレーム」、撮影を中断せずに撮影された一続きの映像のフレーム群を「ショット」、その境界を「カット」と呼ぶ。また、内容が連続しているショット群を「シーン」とし、「シーン」の境界を「シーンチェンジ」と呼ぶ。さらに、連続シーンでの同一性を基に「シーン」を統合し、新しい「シーン」を構成する。この「シーン」は、階層が何段あってもよい。
【００１６】
（第１の実施の形態）
以下に、本実施の形態を示す図面に基づき説明する。図１に、第１の実施の形態の映像処理装置の構成を示す。１０１は画像入力端であり、１０２は入力された画像を用いてカットを検出するカット検出手段であり、１０３はシーンチェンジを検出するシーン検出手段であり、１０４は１０６からの相対時刻でシーンを統合する統合手段であり、１０５はワークエリアのみならず本装置の各部で処理された映像を記憶する記憶部であり、１０６は先頭フレームからの相対時刻を求める相対時刻計算手段である。相対時刻検出手段１０６は、先頭時刻のフレーム番号と入力フレーム番号との差から計算できる。例えば、３０フレーム／秒のビデオ信号であれば、フレーム番号の差が１２０であれば、４秒であることが分かる。
【００１７】
次に、カット検出手段１０２の処理について説明する。カット検出手段１０２は、入力された画像の連続するフレーム群のうち、特徴量変化の大きいフレーム間をカットとして検出するものである。これによって、連続的に変化の小さいフレーム群をショットとしてまとめる。前記特徴量変化の検出としては、たとえば、画素変化面積を用いる方法やフレーム間での輝度ヒストグラムを用いて比較する方法や、色の分布の変化を求める方法などがあるが、特に限定されない。
【００１８】
この特徴量変化の検出として、画素変化面積を用いる方法について図３を用いて説明する。１枚の画像は画素と呼ばれる小さな形（矩形の場合が多い）の集まりで表される。図３（ａ）は時間ｔの画像の一部分を表しているとする。時間がｔ＋１の時の同一の場所における画像が図３（ｂ）であれば、時間ｔとｔ＋１の変化を表す差分画像は図３（ｄ）となる。同様に時間ｔ＋１の画像が図３（ｃ）であれば、差分画像は図３（ｅ）となる。カットが起こった場合、画像が不連続であるため、この差分画像の画素変化面積が大きくかつ画像全体に広がることになる。図３（ｅ）の場合、カットとなる可能性が大きい。一方、カメラのパンによる動きの場合変化は小さく、被写体の動きなどは局所的にしか変化しない。ズームでは、広い範囲で変化が起こるが、時間軸上で連続した変化となるので、カットの判定とは見分けることが可能である。この画素変化面積の変化を時間とともに示したものが図４である。変化量がしきい値より大きく、なおかつ１フレームにおいて大きな変化が起こる点をカットであると判定して、カットとして検出する。
【００１９】
次に、シーン検出手段１０３の処理について説明する。シーン検出手段１０３は、カット検出手段１０２によりまとめられたショット群間の類似度を求め、この類似度からシーンにまとめるものである。これによって類似度が所定の条件より低いショット群間をシーンチェンジとし、ショット群をシーンとしてまとめることができる。前記類似度として、例えば、色の分布をもとにしたものがある。これは、フレームを領域分割し、各領域の色とその色の分布比率から、フレーム間の画像間距離を求め、その距離が特定の閾値より大きければ、シーンチェンジとするものである。その他、輝度を用いたものや、動きを求める方法でも適応可能である。
【００２０】
色の分布を用いる方法について、図５を用いて説明する。まず、ショットの中から１枚代表画像として選び、その画像を色を基にクラスタリングすることで領域分割する。クラスタリングした領域の面積とその色の分布比率をグラフにしたものが図５下の色分布グラフである。この色の種類と分布比率から画像間の距離を求めることで、類似度を計測する。図５（ａ）と図５（ｂ）とは、色の種類数が同じで、各色の分布比率も所定の範囲内であるので、類似度が高く、シーンチェンジでないと判断され、図５（ｂ）と図５（ｃ）とは、色の種類数が異なり、色の分布比率も所定の範囲外であるので、類似度が低く、シーンチェンジであると判断される。
【００２１】
次に、統合手段１０４の処理について図６を用いて説明する。図６は、連続する映像をシーン単位で示したものである。各シーンは図の様にフレーム群で構成されている。シーン１、シーン２、シーン３、シーン４、シーン５は、シーン検出手段１０３によって検出されたもので、ｔ１、ｔ２、ｔ３、ｔ４、ｔ５はシーンの先頭時刻を示している。また、統合手段１０４は、相対時刻計算手段１０６からの時間情報により所定の時間Ｔごとに区切りを設け、区切りの時刻におけるシーン番号を求め、その次のシーン番号からを新しいシーンとして統合する。つまり、統合手段１０４によって、新しいシーン（シーン１０、シーン１１）として統合するのである。この時、シーン１、シーン２、…は、上位シーン１０、１１の下位シーンとして、記憶部１０５に階層的に保存される。以下、同様に時間Ｔごとにシーンの統合処理を行なうことにより、類似した映像が、極端な時間長でなく適切な時間長でシーン統合がなされ、検索や編集に便宜を図ることができる。
【００２２】
次に、記憶部１０５について説明する。記憶部１０５は、ハードディスクなどの記憶装置である。この記憶部１０５に記憶されるデータ構造例は、図８で示され、カット検出手段１０２より検出されたショットの先頭フレーム番号を記憶する領域、シーン検出手段１０３により検出された下位シーンの先頭フレーム番号を記憶する領域、統合手段１０４により検出された上位シーンの先頭フレーム番号を記憶する領域からなる。図８の例では、アドレス００００〜に上位シーン領域、００１０〜に下位シーン領域、０１００〜にショット領域が確保されている。
【００２３】
以上の処理方法を図７のフローチャートを用いて説明する。はじめに、記憶領域を確保し、初期設定する（Ｓ１００）。統合の基準になる先頭フレームの相対時刻を設定する（Ｓ１０１）。次に、画像を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む（Ｓ１０２）。前フレームとの比較により、カットであるか判定する（Ｓ１０３）。カットと判定されれば、記憶部１０５のショット領域アドレス上にショット先頭番号を入れる（Ｓ１０４）。さらに、このカットが、シーンチェンジであるか判定し（Ｓ１０５）、シーンチェンジであれば、記憶部１０５の下位シーン領域アドレス上にショット先頭番号を入れる（Ｓ１０６）。それと同時に、先頭フレームからの順番から入力フレームの相対時刻を求める（Ｓ１０７）。この相対時刻と指定時刻Ｔを比較し（Ｓ１０８）、越えておれば、そのカットまでを１つのシーンとして統合し、記憶部１０５の上位シーンアドレス上に先頭フレーム番号を記憶する（Ｓ１０９）。指定時刻Ｔを越えた時の先頭フレームの相対時刻を０にセットする（Ｓ１１０）。入力が終了（Ｓ１１１）すれば終了し、そうでなければ次の映像を読み込む（Ｓ１０２）。
【００２４】
（第２の実施の形態）
図９に、第２の実施の形態の映像処理装置の構成を示す。第１の実施の形態と相違するのは、構成上、ＣＭを検出するＣＭ検出手段２０１を設けた点であり、それ以外の構成は、第１の実施の形態と同様であるので説明を省略し、ＣＭ検出手段２０１に関する箇所について説明する。
【００２５】
ＣＭ検出手段２０１は、多くのＣＭが６０秒以下であって、所定時間である１５秒の数倍（１、２、４倍等）時間であること、ＣＭとＣＭの継目では、シーンチェンジが必ずあること、また複数のＣＭが続けて繰り返されることが多く、ＣＭ中はカットが多いことを用い、カット間の時間差を計算することでＣＭを検出する。
【００２６】
図１０に、連続する映像をＣＭ検出手段２０１で得られるＣＭシーンとそれ以外のショット群を示す。相対時刻計算手段１０６によって、ＣＭシーン１，２の開始時刻および終了時刻を検出し、図１０では、ｔ１，ｔ２がＣＭ開始時刻、ｔ１’，ｔ２’が終了時刻である。統合手段１０４は、検出したＣＭ終了時刻から次開始時刻までをショット群１，２，３をシーン３０，３１，３２として統合している。
【００２７】
次に、本実施の形態の処理方法を図１１のフローチャートを用いて説明する。はじめに、画像を処理装置内のメモリ上に取り込む（Ｓ２０１）。前フレームとの比較により、カットであるか判定する（Ｓ２０２）。それと同時に、入力されたフレームの順番から先頭フレームからの順番相対時刻を求める（Ｓ２０３）。カットと判定されれば、記憶部１０５のショット領域アドレス上にショット先頭番号を入れる（Ｓ２０４）。相対時刻が１５秒の整数倍であれば、その間はＣＭであったと判定し、記憶部１０５のＣＭシーン領域アドレス上にＣＭシーンの先頭フレーム番号を入れる（Ｓ２０７）。そして、ＣＭとＣＭの間を１つのシーンとし、記憶部１０５の下位シーン領域アドレス上に先頭番号を入れる（Ｓ２０８）。１５秒の倍数でなければ、相対時刻が設定時間を越えているかどうか判定する（Ｓ２０６）。例えば、ＣＭは６０秒以内とし、この時間を過ぎているかどうか判定する。越えていれば、相対時刻を０にリセットする（Ｓ２０９）。入力が終了（Ｓ２１０）すれば終了し、そうでなければ次の映像を読み込む（Ｓ２０１）。
【００２８】
ここで、記憶部１０５に記憶されるデータ構造例は、図１２で示され、カット検出手段１０２により検出されたショットの先頭フレーム番号を記憶する領域、シーン検出手段１０３により下位シーンの先頭フレーム番号を記憶する領域、統合手段１０４により上位シーンの先頭フレーム番号を記憶する領域、ＣＭ検出手段２０１によりＣＭの先頭フレーム番号を記憶する領域からなる。このように領域を区別することで、上位シーンでは、ＣＭが除去された映像が得られ、ＣＭと他の映像とを区別して表示手段に表示でき、検索や編集に便宜を図ることができる。
【００２９】
なお、本実施の形態では、検出されたＣＭを区切りとしてその間のショット群をすべて統合処理したが、第１の実施の形態と同様に、シーンチェンジを区切りとして統合するのを組み合わせてもよい。
【００３０】
（第３の実施の形態）
図１３に、第３の実施の形態の映像処理装置の構成を示す。符号１０１〜１０３の構成は、第１の実施の形態と同様であるので説明を省略する。図１３において、３０１は画像入力端１０１から入力される映像と同期して音声が入力される音声入力端であり、３０２は音声の特徴となる参照パターンを抽出するパターン抽出手段であり、３０３は入力された音声と参照パターンとを比較する音声類似度計測手段であり、統合手段１０４は、音声類似度計測手段３０３により求めた音声類似度とシーン検出手段１０３により統合したシーンとによりシーンを統合し、記憶部１０５のデータ構造例は、図示しないが、音声の参照パターンを記憶する領域がさらに設けられている以外は図８と同様である。
【００３１】
次に、本実施の形態の音声処理について、図１４を用いて説明する。映像と音声とが同期して入力され、まず映像のカットが検出されると、そのショット内での音声データを参照パターンとしてパターン抽出手段３０２により抽出し、記憶部１０５に記憶させる。音声類似度計測手段３０３は、その後入力される音声と記憶されている参照パターンとを比較して、音声類似度を求め、カットの前後において、類似度が小さければ、シーンチェンジと判定し、統合手段１０４はその判定結果でシーンを統合する。この音声データの類似度計測は、一定期間の音声データ（パターン）を周波数に変換し、周波数軸でパターンマッチングをとることで求めればよい。また、シーンチェンジと判定されれば、参照パターンを記憶部１０５に新たに記憶させて、以降の比較に用い、シーンチェンジと判定されるたびに新たに記憶される。
【００３２】
本実施の形態の処理方法を図１５のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む（Ｓ３０１）。前フレームとの比較により、カットであるか判定する（Ｓ３０２）。カットと判定されれば、記憶部１０５のショット領域アドレス上にショット先頭番号を入れ（Ｓ３０３）、さらに参照パターンをショットに対応の音声データから取り出し、記憶部１０５に保存する（Ｓ３０４）。記憶部１０５に保存された参照パターンと以降入力されて検出されたパターンとを比較し、類似度を求め、類似しているかどうか判断し（Ｓ３０５）、シーンチェンジであると判定すると、シーン領域アドレス上にフレーム番号を保存する（Ｓ３０６）。入力が終了（Ｓ３０７）でなければ、画像と音声を読み込み（Ｓ３０１）、以下同様に処理する。
【００３３】
このようにして、音声の特徴によりシーンチェンジを検出してシーン統合をすることができるため、画像の類似度のみでシーン統合した場合よりもより適切なシーン統合ができ、検索や編集に便宜を図ることができる。
【００３４】
（第４の実施の形態）
図１６に、第４の実施の形態の映像処理装置の構成を示す。符号１０１〜１０３の構成は、第１の実施の形態と同様であるので説明を省略する。図１６において、４０１は図示しない指示手段により記憶部１０５に記憶されている映像の各階層のショット数を指示する各階層ショット数決定手段、４０２はショット数決定手段４０１で指示されたショット数の階層構造となるように記憶部１０５の内容を階層化する階層構造構成手段、４０３は入力される音声と画像の特徴量を検出する特徴量検出手段、４０４は階層構造構成手段４０２により作成された階層及びショット数で先頭フレームを表示する表示再生手段である。
【００３５】
本実施の形態では、長い映像全体を素早く把握するために、最初に映像全体を記憶部１０５の上位シーンの先頭フレームを表示再生手段４０４に表示し、さらに詳しく知りたい範囲、つまり、その先頭フレームを指示すれば、その指示されたフレームに対応する下位シーンの階層の映像を指示されたショット数で表示再生手段４０４に表示するのである。例えば、表示再生手段４０４に４枚の画像が表示できる場合、映像全体を上位シーンとして４つのショット数に特徴量検出手段４０３で検出された特徴量を基に分割し、ショット数が４以下になるまで繰り返すのである。また、同様にして、下位シーン領域の映像をショット数が４以下になるまで分割するのである。また、本実施の形態では、ショット数を４としたが、この数に限定されるものでなく、また各階層でのショット数を下層ほど多くする等に変化させてもよい。
【００３６】
次に、本実施の形態において、ショットとその特徴量を取り込んでから階層構造を再構築する処理を図１７のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む（Ｓ４０１）。画像および音声の特徴量を検出する（Ｓ４０２）。前フレームとの比較により、カットであるか判定し、カットと判定されれば、記憶部１０５のショット領域アドレス上にショット先頭番号を入れ（Ｓ４０３）、ショットごとに記憶部１０５の特徴量記憶領域に特徴量を保存する（Ｓ４０４）。以下、入力終了（Ｓ４０５）まで繰り返し行なう。これらの処理によりショットと対応の特徴量の記憶が終了する。
【００３７】
入力終了後、所望の映像を得るための実際の表示操作となる。画面に表示可能なフレーム数より各階層のショット数を各階層ショット数決定手段４０１により設定する（Ｓ４０６）。ここでは、各階層ともショット数を４に設定した。すると、最初の表示時に、近い特徴量を有する記憶部１０５のショット同士を設定されたショット数のグループに分割して上位シーンとして表示する。次に、記憶部１０５に設定数分の下位シーンデータ領域を作成する（Ｓ４０７）。記憶部１０５からＳ４０４で作成した特徴量データを取り出す（Ｓ４０８）。指定された範囲の全てのショットを調べ続け（Ｓ４０９）、取り出した特徴量に基づいて映像を設定数で分割する（Ｓ４１０）。記憶部１０５の下位シーン領域アドレス上に先頭フレーム番号を保存する（Ｓ４１１）。分割後のすべてショット群において、ショット数が設定数より少なければ終了（４１２）し、そのショット群内についてＳ４０７以降を繰り返す。以下、同様にして、各階層のショット数が４になるまで分割する。このように記憶部１０５を分割して再構成することで、表示、検索、編集の便宜を図ることができる。
【００３８】
この記憶部１０５に記憶されるデータ構造例は、図１８で示され、図８と同様、ショットの先頭フレーム番号を記憶する領域、下位シーンの先頭フレーム番号を記憶する領域、上位シーンの先頭フレーム番号を記憶する領域で構成され、各層において、設定数（図１８では４）のショット群が統合されて記憶されている。さらに、各ショットごとの特徴量を記憶する特徴量記憶領域が設けられている。
【００３９】
（第５の実施の形態）
図１９に、第５の実施の形態の映像処理装置の構成を示す。本実施の形態は、映像の中から特定の特徴量を持つショットを指定した階層から取り出すものであり、符号１０１，１０２は第１の実施の形態と同様であり、符号３０１，４０３は第４の実施の形態と同様であるため、説明を省略する。５０１は対象とする特徴量を設定する特徴量設定手段、５０２は特徴量設定手段５０１で設定した特徴量と記憶部１０５から取り出した特徴量とを比較して類似度を検出する類似度検出手段である。
【００４０】
次に、本実施の形態において、ショットとその特徴量を取り込んでから所望の特徴量をもつショットを取り出す処理を図２０のフローチャートを用いて説明する。はじめに、画像および音声を処理装置内のメモリ上に取り込む。この時画像のフレーム番号も読み込む（Ｓ５０１）。画像および音声の特徴量を検出する（Ｓ５０２）。前フレームとの比較により、カットであるか判定し、カットと判定されれば、記憶部１０５のショット領域アドレス上にショット先頭番号を入れ（Ｓ５０３）、ショットごとに確保された特徴量記憶領域に特徴量を保存する（Ｓ５０４）。以下、入力終了まで（Ｓ５０５）繰り返し行なう。これらの処理によりショットと対応の特徴量の記憶が終了し、検索の準備が整う。
【００４１】
入力終了後、所望の映像（ショット）を得るために、検索する特徴の条件を設定する（Ｓ５０６）。すると、記憶部１０５から特徴量データを取り出し（Ｓ５０７）、取り出した特徴量データが検索の条件を満たすなら（Ｓ５０８）、表示のために、下位または上位のシーン領域アドレス上に先頭フレーム番号を保存する（Ｓ５０９）。以下、全てのショットについて調べる（Ｓ５１０）。別の特徴でも条件を設定するなら（Ｓ５１１）、Ｓ５０６に戻り繰り返す。
【００４２】
この記憶部１０５に記憶されるデータ構造例は、図２１で示され、図８と同様、ショットの先頭フレーム番号を記憶する領域、下位シーンの先頭フレーム番号を記憶する領域、上位シーンの先頭フレーム番号を記憶する領域で構成されている。さらに、各ショットごとの特徴量を記憶する特徴量記憶領域が設けられている。この特徴量記憶領域は、図２１に示す如く、特徴ごとに設けられていてもよい。
【００４３】
図２２に、特徴量検出手段４０３の第１の具体例を示す。図２２では、画像入力端１０１から入力された画像は、フロー検出処理６０１で複数枚のフレーム間でオプティカルフローを計測する。カメラ方向計測処理６０２では、フロー検出処理６０１で得られたフロー結果を基にカメラの動きを判定する。
【００４４】
オプティカルフローとは、画面内の物体の移動に伴う輝度分布の移動を示す速度ベクトルである。このオプティカルフローの検出方法としては、大きく分けて二種類ある。一つは、画像中の特徴点を見つけ、画像フレーム間で対応点を探し速度ベクトルを決定するマッチング法であり、もう一つは、動画像中の運動物体の輝度の時間変化に一定の関係があることを利用する勾配法である。
【００４５】
上記で計測したオプティカルフローの分布とカメラの動きの関係は、図２３で示される。カメラがパン・チルトすると左右あるいは上下の１方向のベクトルが得られ（図２３（ａ）、図２３（ｂ））、ズームあるいはワイドの時は画像の中心から放射状のベクトルが得られる（図２３（ｃ））。パンとチルトの混合した場合は、平行のベクトルが得られる（図２３（ｄ））。パンとチルトおよびズーム・ワイドが混合した場合は、画像の中心ではないある点を中心に放射状のベクトルとなる（図２３（ｅ））。
【００４６】
また、カメラの動きと画像上のベクトルの関係は下式で表現される。
【００４７】
【数１】

【００４８】
ここで、（ｕ，ｖ）は動きベクトル、ｘ、ｙは画面座標値、ａはズーム成分、ｐｘはパン成分、ｐｙはチルト成分の係数を表す。上式と図２３との関係は、図２３（ａ）はａ＝０、ｐｘ≠０、ｐｙ＝０を満たす。図２３（ｂ）はａ＝０、ｐｘ＝０、ｐ≠０を満たす。図２３（ｃ）はａ≠０、ｐｘ＝０、ｐｙ＝０を満たす。図２３（ｄ）はａ＝０、ｐｘ≠０、ｐｙ≠０を満たす。図２３（ｅ）はａ≠０、ｐｘ≠０、ｐｙ≠０を満たす。
【００４９】
カメラの動きの判定は、まずベクトルが平行であるかを判定する。平行であればａ＝０が決定し、ｐｘ、ｐｙもベクトルから求まる。平行でない場合、カメラの中心（ＥＯＦ）を求め、その中心からの距離とベクトルの大きさの関係よりカメラのズーム成分を求める。これによってａが得られる。その後、上式にａを代入することで、ｐｘ、ｐｙが求まる。この３成分ａ，ｐｘ，ｐｙが決まれば、カメラの動きが決定され、これらを、映像の特徴量として用いる。このカメラの動きでショットを表示、あるいは検索することが可能となる。
【００５０】
図２４に、特徴量検出手段４０３の第２の具体例を示す。図２４では、音声入力端３０１から入力された音声は、音量検出処理部７０１において、音の大きさを測定し、音量記憶手段７０２に記憶させ、後から入力される音声との変化を順次検出する。この方法によって、音量変化が大きい、あるいは音量自体が大きい場合を特徴量とする。これにより、音量変化の大きいショットあるいは音量が大きいショットを表示、あるいは検索することが可能となる。
【００５１】
図２５に、特徴量検出手段４０３の第３の具体例を示す。図２５では、ある特定の環境下における特定の形状などの典型的な画像例を物体モデル（画像モデル）８０１として持ち、そのモデルを基に画像入力端１０１から入力される画像との類似度を類似度計測手段８０２で計測し、求めた類似度を特徴量として用いる。物体モデルとしては、例えば人の顔、車、風景など様々なものを用いることが可能である。これにより、物体モデル８０１に近いショットを表示、あるいは検索することが可能となる。
【００５２】
図２６に、特徴量検出手段４０３の第４の具体例を示す。図２６では、ある特定の環境下におけるノイズなどの典型例を環境モデル（音声モデル）９０１として持ち、そのモデルを基に音声入力端３０１から入力される音声との類似度を類似度計測手段９０２で計測し、求めた類似度を特徴量として用いる。環境モデルとしては、例えば車内の雑音、列車音など様々なものを用いることができる。これにより、環境モデル９０１に近いショットを表示、あるいは検索することが可能になる。
【００５３】
以上、種々の実施の形態について説明してきたが、これらの実施の形態を適宜組み合わせて用いてもよく、さらには、上述した処理を実行するプログラムを、フロッピー（Ｒ）ディスクやＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体にあらかじめ記録したり、あるいは通信回線でコンピュータ読み取り可能な記録媒体に供給し、適宜コンピュータにインストールして用いてもよい。
【００５４】
【発明の効果】
請求項１記載の発明によれば、記憶手段のショットを分割して再構成することにより、表示に適切な形にまとめることができ、映像中から重要な部分だけを取り出すことができ、検索、編集の便宜を図ることができる。
【００５５】
請求項２記載の発明によれば、所定の映像中のカメラの動き情報に近いショットを表示、あるいは検索することが可能になる。
【００５６】
請求項３記載の発明によれば、特定の画像モデルに近いショットを表示、あるいは検索することが可能になる。
【００５７】
請求項４記載の発明によれば、特定の音声モデルに近いショットを表示、あるいは検索することが可能になる。
【図面の簡単な説明】
【図１】第１の実施の形態の映像処理装置の構成を示す図である。
【図２】本発明における映像の構成を表す概念図である。
【図３】第１の実施の形態のカット検出として画素変化面積を用いる場合の説明図である。
【図４】第１の実施の形態の画素変化面積の時間経過を示す図である。
【図５】第１の実施の形態のシーン検出として色分布を用いる場合の説明図である。
【図６】第１の実施の形態のシーン統合の説明図である。
【図７】第１の実施の形態のフローチャートである。
【図８】第１の実施の形態の記憶部のデータ構造の構成例である。
【図９】第２の実施の形態の映像処理装置の構成を示す図である。
【図１０】第２の実施の形態のシーン統合の説明図である。
【図１１】第２の実施の形態のフローチャートである。
【図１２】第２の実施の形態の記憶部のデータ構造の構成例である。
【図１３】第３の実施の形態の映像処理装置の構成を示す図である。
【図１４】第３の実施の形態の音声データによりシーンチェンジを検出する説明図である。
【図１５】第３の実施の形態のフローチャートである。
【図１６】第４の実施の形態の映像処理装置の構成を示す図である。
【図１７】第４の実施の形態のフローチャートである。
【図１８】第４の実施の形態の記憶部のデータ構造の構成例である。
【図１９】第５の実施の形態の映像処理装置の構成を示す図である。
【図２０】第５の実施の形態のフローチャートである。
【図２１】第５の実施の形態の記憶部のデータ構造の構成例である。
【図２２】特徴量検出手段の第１の構成の具体例である。
【図２３】特徴量検出手段の第１の具体例に関する説明図である。
【図２４】特徴量検出手段の第２の構成の具体例である。
【図２５】特徴量検出手段の第３の構成の具体例である。
【図２６】特徴量検出手段の第４の構成の具体例である。
【符号の説明】
１０２　カット検出手段
１０３　シーン検出手段
１０４　統合手段
１０５　記憶部
１０６　相対時刻計算手段

Claims

順次入力される映像のフレームを処理する映像処理装置であって、
フレーム間の特徴量変化に基づいてショットのカットを検出するカット検出手段と、
前記映像に関する特徴を抽出する特徴検出手段と、
前記抽出された特徴を前記カット検出手段により検出されたカットにより区別されたショットごとに記憶する記憶手段と、
前記記憶手段に記憶されたショット間の特徴量の近いショットを統合して、指定された範囲の映像の全ショットを、指定された数以下になるまで分割して再構成する再構成手段と、
を有することを特徴とする映像処理装置。
前記特徴検出手段が抽出する特徴は、フレーム間の動きベクトルから得られる映像中のカメラの動き情報であることを特徴とする請求項１記載の映像処理装置。
前記特徴検出手段が抽出する特徴は、ある特定の環境下における画像モデルと比較することにより求まる類似度であることを特徴とする請求項１記載の映像処理装置。
前記特徴検出手段が抽出する特徴は、ある特定の環境下における音声モデルと比較することにより求まる類似度であることを特徴とする請求項１記載の映像処理装置。