JP2008178090A

JP2008178090A - 映像処理装置

Info

Publication number: JP2008178090A
Application number: JP2007324399A
Authority: JP
Inventors: Tsukimi Wakabayashi; つきみ若林
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2006-12-22
Filing date: 2007-12-17
Publication date: 2008-07-31

Abstract

【課題】ユーザにより撮影された映像について、映像内容を把握でき、かつ見易い要約映像を生成することができる映像処理装置を提供する。
【解決手段】代表区間選択部１３は、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択し、つなぎ区間選択部１４は、代表区間の導入部となるつなぎ区間を選択し、再生リスト生成部１５は、代表区間とつなぎ区間とを用いて要約映像を生成する。
【選択図】図１

Description

本発明は、映像処理装置に係り、特に映像コンテンツの要約映像を生成する映像処理装置に関する。

近年、家庭用ビデオカメラの普及により、誰でも気軽に身近なイベントや風景を映像として記録保存することができるようになった。しかしながら、こうした所謂撮りっ放し映像は、撮影直後は楽しく見るものの、後々まで映像コンテンツとして鑑賞され活用される機会は少ない。また、一般のユーザにより撮影された映像は、失敗や不要な場面を多く含み、同じような場面が何度も映っているなど冗長度が高い。そのため、撮影直後に関係者でイベントを振り返るには好適であるが、後々の鑑賞に堪える映像コンテンツとするには、撮影映像を素材として整理し、選択された素材を製作意図に沿ってつなぎ合わせる編集作業を要する。

動画像編集作業を行うためのパソコン用ソフトウェアも販売されてはいるが、これはパソコンや画像編集作業を趣味とする一部のマニア向けであり、一般ユーザにとってはパソコンを駆使しての映像編集は依然として面倒で敷居の高い作業である。

このような状況を背景に、自動で映像データや音声データを編集して要約映像を生成する技術が各種提案されている。

従来の要約手法としては、例えば、シーンを一定時間毎にスキップして再生する方法が考えられている。また、特許文献１には、フレーム間の画像の変化からシーン変化を検出し、動画像のシーンの長さ、シーン内の画像の変化度合を基に重要シーンを選択し要約再生する技術が開示されている。また、特許文献２には、動画像データを複数のシーンに分割し、複数の条件から再生シーンを選択する技術が開示されている。
特開平６−１４９９０２号公報特開２００２−１４２１８９号公報

しかしながら、シーンを一定時間毎にスキップして再生する要約手法では、必ずしも映像の内容を把握し易いシーンが提示されるとは限らなかった。また、特許文献１に開示された技術のように、動きのあるシーンを重要選択するような設定では、動きの激しいシーンが次々と現れ、目まぐるしい要約映像になりがちである。

また、特許文献２に開示された技術においては、画面の明るさや高周波成分など、シーンの評価に複数の条件を設定しているものの、各条件の評価結果からシーンを選択する基準は設定モード毎に一定であり、ある設定モードにおいては、重要と判定されるシーンと対極にあるような条件のシーンは選択されないため、やはり、同種のシーンが集まることになる。

映画やテレビ番組の映像に対しては、予め専門家によるシーン編集が施されているため、アクション区間に隣接するシーンを適宜組み合わせることにより、ある程度ストーリー性のある要約も可能であるが、一般のユーザがイベントや風景をスナップショット的に撮影した素材映像においては、このような手法は有効ではない。

このように、上述のような従来の技術では、ある基準で選び出した重要シーンを発生時間順に次々と提示するのみであって、ユーザにとって必ずしも見易い要約映像とはならないという問題があった。

そこで本発明は、ユーザにより撮影された映像について、映像内容を把握でき、かつ見易い要約映像を生成することができる映像処理装置を提供することを目的とする。

上記目的を達成するため、本発明の映像処理装置は、第１の映像データ、この第１の映像データに同期した第１の音声データ、および前記第１の映像データについての所定の撮影条件を示す撮影情報を含む第１のデータストリームを入力する入力手段と、前記第１のデータストリーム中の前記第１の映像データ、前記第１の音声データ、および前記撮影情報から所望の特徴量を抽出する特徴量抽出手段と、この特徴量抽出手段で抽出した前記特徴量に基づいて、前記第１の映像データから特徴的なシーンを含む特徴区間を抽出する特徴区間抽出手段と、この特徴区間抽出手段で抽出した各特徴区間について、前記特徴量を用いて、前記各特徴区間の特徴を評価するための評価値を算出し、この評価値に基づいて前記各特徴区間の中から代表区間を選択する代表区間選択手段と、前記第１の映像データにおける前記代表区間以外の区間から、前記代表区間の導入部となるつなぎ区間を選択するつなぎ区間選択手段と、前記第１の映像データから選択された前記代表区間と前記つなぎ区間とを撮影時刻順に並べて要約映像を生成する要約映像生成手段とを備えることを特徴とする。

また、本発明の映像処理装置は、第２の映像データおよびこの第２の映像データに同期した第２の音声データを含む第２のデータストリームを格納する第１の記録手段を備え、前記つなぎ区間選択手段は、前記第１の記録手段に予め格納された前記第２のデータストリーム中の前記第２の映像データから前記つなぎの区間を選択することを特徴とする。

また、本発明の映像処理装置は、第３の音声データを含む第３のデータストリームを格納する第２の記録手段と、前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを前記第３のデータストリーム中の前記第３の音声データから選択する挿入音声選択手段と、前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段とを備えることを特徴とする。

また、本発明の映像処理装置は、通信ネットワークに接続し、データ送受信を行う通信手段を備え、前記つなぎ区間選択手段は、前記通信手段および前記通信ネットワークを介して外部の映像音声データベースに接続され、前記映像音声データベースに予め格納された第２の映像データおよびこの第２の映像データに同期した第２の音声データを含む第２のデータストリーム中の前記第２の映像データから前記つなぎの区間を選択することを特徴とする。

また、本発明の映像処理装置は、前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、前記通信手段および前記通信ネットワークを介して前記映像音声データベースに接続され、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを、前記映像音声データベースに予め格納された第３の音声データを含む第３のデータストリーム中の前記第３の音声データから選択する挿入音声選択手段と、前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段とを備えることを特徴とする。

また、本発明の映像処理装置は、通信ネットワークに接続し、データ送受信を行う通信手段を備え、前記通信手段は、前記通信ネットワークに接続された外部の撮影装置から前記第１のデータストリームを受信して前記入力手段に供給するとともに、前記要約映像のデータを前記通信ネットワークに接続された外部の表示装置に送信することを特徴とする。

本発明の映像処理装置によれば、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択するとともに、代表区間の導入部となるつなぎ区間を選択して要約映像を生成するので、ユーザが映像内容を把握でき、かつ見易い要約映像を生成することができる。

以下、本発明の映像処理装置を実施するための最良の形態について、図面を参照して説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る映像処理装置の構成を示すブロック図である。図１に示すように、本発明の第１の実施の形態に係る映像処理装置１は、撮影装置２および表示装置３と接続して、映像および音声のコンテンツを蓄積、管理、再生する形態で実施して効果的である。具体的には、図２に示すように、映像処理装置１は、テレビモニタ２２に接続した家庭用コンテンツ蓄積装置２１に内蔵され、家庭用ビデオカメラ２３を接続してデータ蓄積、視聴する使用形態に好適である。

本発明の第１の実施の形態に係る映像処理装置１は、図１に示すように、蓄積部４と、パラメータ設定部５と、再生制御部６とを備える。蓄積部４は、ストリームデータ入力部７と、特徴量抽出部８と、特徴区間抽出部９と、記録制御部１０と、記録部１１とを備える。

ストリームデータ入力部７は、撮影装置２で撮影録画された映像データ、この映像データに同期した音声データ、および撮影日時や画質などの撮影情報を含むデータストリームを取得し、取得したデータストリームから各データを分離する。データストリームは様々な形式が利用できるが、本実施の形態では、録画開始／停止のショット毎に映像データ、音声データ、撮影情報を含むデータファイルが作成され保存される形式を例に用いる。ユーザ設定可能なタイトル情報も、メタデータとしてデータファイルに保存される。

特徴量抽出部８は、各ショットの分離された映像データ、音声データ、および撮影情報の各データから特徴量を抽出する。ここで、映像データの特徴量としては、例えば、映像のエッジ分布、色および輝度の分布、および、それらの変化量を用いることができる。音声データの特徴量としては、例えば、音声の全体パワーおよび周波数分布を用いることができる。撮影情報の特徴量としては、撮影時間情報や、撮影装置２がＧＰＳ受信機を搭載している場合は撮影位置情報などを用いることができる。

また、単純な映像および音響特性のみでなく、映像情報を基にオブジェクトを抽出し、オブジェクトサイズ、オブジェクトの動き情報を数値化し、特徴量としてもよい。また、音声情報を基に鳥の声、人の声など音源の種類を分類し、それぞれのレベルを特徴量としてもよい。

特徴区間抽出部９は、特徴量抽出部８で抽出した特徴量に基づいて、ショット内の特徴区間および平均区間を抽出し、特徴区間の位置等を示す特徴区間情報、平均区間の位置等を示す平均区間情報を生成して出力する。

記録制御部１０は、ストリームデータ入力部７から入力されるデータストリームと、特徴量抽出部８で抽出した特徴量、および特徴区間抽出部９からの特徴区間情報、平均区間情報を対応付けて、ＨＤＤ等からなる記録部１１に保存する。

パラメータ設定部５は、再生時において、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。

再生制御部６は、データ読出部１２と、代表区間選択部１３と、つなぎ区間選択部１４と、再生リスト生成部１５と、デコード部１６と、データ出力部１７とを備える。

データ読出部１２は、ユーザより指定されたデータストリームおよび対応する特徴量、特徴区間情報、平均区間情報を記録制御部１０を介して記録部１１より読み出す。

代表区間選択部１３は、特徴区間情報に基づき、設定された再生モードにより、特徴量を用いて各特徴区間を評価し、代表区間を選択する。つなぎ区間選択部１４は、代表区間以外の区間から、代表区間の導入部となるつなぎ区間を選択する。

再生リスト生成部１５は、選択された代表区間と対応するつなぎ区間とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。デコード部１６は、再生リストのデータストリームをデコードしてデータ出力部１７へ出力する。データ出力部１７は、再生リストの映像データ、音声データを表示装置３へ出力する。

次に、第１の実施の形態に係る映像処理装置１の動作について説明する。

まず、ストリームデータ入力部７は、撮影装置２で撮影録画された映像データ、この映像データに同期した音声データ、および撮影情報を含むデータストリームを取得すると、取得したデータストリームから各データを分離する。次に、特徴量抽出部８は、各ショットの分離された映像データ、音声データ、および撮影情報の各データから特徴量を抽出する。

次に、特徴区間抽出部９は、特徴量抽出部８で抽出した特徴量に基づいて、ショット内の特徴区間および平均区間を抽出する。ここで、映像の特徴量として輝度情報を用い、ショット内のフレーム全体での輝度平均値、ショット中の輝度変化、および輝度変化のレベルから特徴区間を抽出する例を説明する。

Ｌｔを時刻ｔにおけるフレームの輝度平均値、Ｌｍをショット全体での輝度平均値とし、閾値Ｔｈ_１＝ｋ_１σ（ｋ_１は係数、σはショット内での輝度の標準偏差）とすると、下記の（数式１）を満たす時刻ｔを特徴的なフレームとし、下記の（数式２）で求められるＰｔを特徴量の得点とする。

｜Ｌｔ−Ｌｍ｜＞Ｔｈ_１（数式１）
Ｐｔ＝（｜Ｌｔ−Ｌｍ｜−Ｔｈ_１）／Ｔｈ_１（数式２）
そして、特徴区間抽出部９は、特徴的なフレームが連続するところを特徴区間として抽出する。時刻ｔ_１から時刻ｔ_２の間が特徴区間として抽出される場合、特徴区間の得点は、時刻ｔ_１〜ｔ_２間の得点の平均とする。

一方、特徴区間抽出部９は、Ｔｈ_２＝ｋ_２σ（ｋ_２＜ｋ_１）とし、下記の（数式３）を満たす時刻ｔをショット内の平均的なフレームとし、平均的なフレームが安定して連続するところを平均区間として抽出する。

｜Ｌｔ−Ｌｍ｜＜Ｔｈ_２（数式３）
なお、特徴区間抽出部９は、手振れ、ピンボケなどのミスショット区間は特徴量を基に検出し、特徴区間設定から予め除去する。

図３に特徴区間および平均区間抽出の概念図を示す。図３において、特徴量Ａについて特徴区間３１Ａおよび平均区間３１Ｂ、特徴量Ｂについて特徴区間３２Ａ_１，３２Ａ_２および平均区間３１Ｂ、特徴量Ｃについて特徴区間３３Ａおよび平均区間３３Ｂ、特徴量Ｄについて特徴区間３４Ａおよび平均区間３４Ｂが抽出され、抽出されたそれぞれの区間について得点が算出された例を示している。

そして、特徴区間抽出部９は、特徴区間の位置情報および得点を含む特徴区間情報、平均区間の位置情報および得点を含む平均区間情報を生成して出力する。

次に、記録制御部１０は、ストリームデータ入力部７から入力されるデータストリームと、特徴量抽出部８で抽出した特徴量、および特徴区間抽出部９からの特徴区間情報、平均区間情報を対応付けて記録部１１に保存する。

再生時には、パラメータ設定部５は、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。そして、再生制御部６のデータ読出部１２は、ユーザより指定されたデータストリームおよび対応する特徴量と特徴区間情報、平均区間情報を、記録制御部１０を介して記録部１１より読み出す。

次に、代表区間選択部１３は、特徴区間情報に基づき、設定された再生モードにより、各特徴区間の得点を評価し、代表区間を選択する。ここで、ｎ種類の特徴量を用いて特徴区間を評価する際に、ｉ番目の特徴量に関する時刻ｔを含む特徴区間の得点をＰｉｔとすると、設定された再生モードｍでの特徴区間の評価値Ｓｍｔは、下記の（数式４）により求めることができる。

ここで、Ｃｍｉは再生モードｍでのｉ番目の特徴量の重み付け係数である。例えば、子供など人物中心であれば、画面中央部の肌色、音声の中高域成分の特徴量に重み付けして評価値を算出することができる。

そして、代表区間選択部１３は、特徴区間を評価値の上位から並べて代表区間候補とし、設定した再生時間を超えない範囲で、代表区間候補の上位から代表区間を選択する。代表区間は、見易さを損なわない最短の長さおよび指定再生時間に応じた最長の長さを範囲設定し、範囲内の長さとするよう特徴量を基に調整してもよい。

次に、つなぎ区間選択部１４は、評価値が上位の代表区間から順に、特徴量に基づいて、代表区間と背景の親和性が高く中心部に大きな動きの少ない落ち着いた映像区間を短時間、つなぎ区間として選択する。つなぎ区間は、代表区間と同一ショット内の映像区間を用い、代表区間の導入部に位置付ける。例えば、代表区間と同一ショット内の平均区間から動きの少ない区間を２〜３秒選択する。また、簡易にショット内の落ち着いた映像区間を選択する方法として、一般ユーザに多く見られる、ショット開始時に周囲の落ち着いた映像から撮り始めるという撮影行動特性を利用し、ショット開始時点から一定時間を選択してもよい。

また、指定タイトル以外に、予め記録部１１に蓄積された、映像データおよび音声データを含むデータストリームを用い、代表区間と背景の特徴量の親和性が高いショットの中からつなぎ区間を選択してもよい。また、予めつなぎ用の映像を対応する特徴量と共にデータベース化し、代表区間の特徴量と親和性の高いつなぎ区間を選択してもよい。

次に、再生リスト生成部１５は、図４に示すように、選択された代表区間４０Ａ，４１Ａ，…と、それぞれに対応するつなぎ区間４０Ｂ，４１Ｂ，…とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。そして、デコード部１６は、再生リストのデータストリームをデコードし、データ出力部１７で表示装置３へ要約映像の映像データ、音声データを出力する。

ここで、つなぎ区間と代表区間との接続部分では、ディゾルブやフェードイン・フェードアウト効果を用いて、各区間を滑らかに接続するようにしてもよい。また、図５に示すように、映像をつなぎ区間５１Ｂ，５３Ｂから代表区間５１Ａ，５３Ａに切り替えるより先に、音声をつなぎ区間５２Ｂ，５４Ｂから代表区間５２Ａ，５４Ａに切り替えるように調整してもよい。このようにすることで、ユーザは予め音声で代表区間への移行を認識することにより映像を違和感なく視聴でき、短時間で内容を把握し易くなる。

上記説明のように、第１の実施の形態によれば、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択するとともに、代表区間の導入部となるつなぎ区間を選択し、選択した代表区間とつなぎ区間とを並べて要約映像を生成するので、ユーザが映像内容を把握でき、かつ見易い要約映像を生成することができる。

なお、上記第１の実施の形態で説明したように、今日普及している家庭用ビデオカメラにおいては、録画／停止の撮影ショット毎にインデックスを生成し記録する形式が一般的であるので、強いてショットチェンジ検出を行う必要のない場合が多いが、旧型の撮影機器で撮影したインデックス情報のない映像データを処理する際には、フレーム間の相関など公知の手法を用いて予めショット区切を検出し、上記第１の実施の形態の処理を適用すればよい。

（第２の実施の形態）
図６は本発明の第２の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図６に示す第２の実施の形態の構成要素において、第１の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。

図６に示すように、第２の実施の形態に係る映像処理装置１Ａは、第１の実施の形態に係る映像処理装置１に対し、再生制御部６にＢＧＭ合成部６１を追加した構成である。また、映像処理装置１Ａの記録部１１には予めＢＧＭ音声データを含むデータストリームが格納されている。

ＢＧＭ合成部６１は、代表区間の映像データに同期した音声データにおける背景音のレベルを調整する周波数特性調整部６２と、代表区間の映像データに対応付けるＢＧＭ音声データを選択するＢＧＭ選択部６３と、代表区間の映像データに同期した音声データとＢＧＭ選択部６３で選択したＢＧＭ音声データとを合成する音響合成部６４とを備える。

このように構成された第２の実施の形態に係る映像処理装置１Ａにおいて、ストリームデータ入力から再生リスト生成までの区間選択手順は、第１の実施の形態と同様である。

再生リストが生成されると、周波数特性調整部６２は、ショットの特徴量に基づき、代表区間の音声データに対して、代表区間に現れる特徴的な周波数成分を保持し、継続的な背景音の周波数成分を小さくするようレベル調整する。

ＢＧＭ選択部６３は、ショットの特徴量に基づき、記録部１１に格納されたＢＧＭ音声データから適当なＢＧＭ音声データを選択する。ここで、映像データの色合や複雑さ情報をＢＧＭ音声データの音響特徴量と対応付けたテーブルを予め用意し、参照するようにしてもよい。また、好ましくは、映像処理装置１Ａに地域情報をインデックスとして検索可能なＢＧＭデータベースを内蔵またはネットワーク接続にて備え、撮影位置情報を含むデータストリームに対しては、撮影位置情報を地域情報に変換してＢＧＭデータベースを検索し、撮影場所に好適なＢＧＭを選択するようにしてもよい。また、パラメータ設定部５にユーザが好みのＢＧＭを選択する機能を設けてもよい。

そして、音響合成部６４は、周波数特性調整部６２で調整された代表区間の音声データと、ＢＧＭ選択部６３で選択されたＢＧＭ音声データとを合成して出力する。また、音響合成部６４は、代表区間の特徴的な周波数成分が存在する区間はＢＧＭの音量を下げ、代表区間の特徴的な音声内容が十分聞こえるよう調整する。

図７はＢＧＭ合成処理の概念図である。屋外で撮影する場合は、意図した撮影対象以外の音声が背景に多く含まれる。背景音は周囲の雰囲気を感じるためには有効であるが、そのままの音量で継続的に聞くのには適さない音も多い。野外での風切音や車の騒音などがしばしば継続的な背景音に該当する。図７では、低周波数成分のレベルを徐々に下げて風切音を低減させ、ＢＧＭのレベルを徐々に上げ、合成する例を示している。鳥のさえずり声や人の話し声が入る部分では、ＢＧＭのレベルを下げ、特徴的な音声が十分聞こえるようにする。

また、ＢＧＭの選曲は、ショットの特徴量に基づいて、背景の特徴量が類似する区間では同じＢＧＭを用い、場面が転換する区間、すなわち背景の特徴量が大きく異なる区間でＢＧＭを変更するようにしてもよい。図７では、第２のショットの映像から第３のショットの映像に切り替わるときに、第１のＢＧＭから第２のＢＧＭに切り替える例を示している。

このように、第２の実施の形態によれば、映像データに同期した音声データのうち、背景音に該当する周波数成分のレベルを調整し、映像データに好適なＢＧＭ音声データと組み合わせて再生することにより、ユーザが映像に同期した音声の内容を容易に把握でき、かつ聴き易く心地よい音声を提供することができる。

（第３の実施の形態）
図８は本発明の第３の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図８に示す第３の実施の形態の構成要素において、第１および第２実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。

図８に示すように、第３の実施の形態に係る映像処理装置１Ｂは、第１の実施の形態に係る映像処理装置１に対し、情報通信接続部１８を追加し、つなぎ区間選択部１４に映像検索部１４１を追加した構成である。

情報通信接続部１８は、通信ネットワーク２０経由で映像処理装置１Ｂと外部の映像音声データベース３０とを接続する。

映像検索部１４１は、情報通信接続部１８を介してネットワーク接続された映像音声データベース３０にアクセスし、予め映像音声データベース３０に格納された、映像データおよび音声データを含むデータストリームからつなぎ区間の映像を取得する。

このように構成された第３の実施の形態に係る映像処理装置１Ｂにおいて、ストリームデータ入力から代表区間選択までの動作は、第１の実施の形態と同様である。

つなぎ区間選択部１４は、評価値が上位の代表区間から順に、特徴量に基づいて、代表区間と背景の親和性が高く中心部に大きな動きの少ない落ち着いた映像区間を短時間、つなぎ区間として選択する。ここで、つなぎ区間選択部１４は、映像検索部１４１により、情報通信接続部１８を介してネットワーク接続された映像音声データベース３０にアクセスし、予め映像音声データベース３０に格納された、映像データおよび音声データを含むデータストリームからつなぎ区間の映像データを検索して取得し、このつなぎ区間の映像データをデコード部１６に供給する。

映像検索部１４１では、つなぎ区間を選択するための映像音声データベース３０への検索条件を設定する。再生対象のデータストリームの映像データおよび音声データの特徴量に関しては、各特徴量について映像音声データベース３０のタグと対応させ、代表区間と親和性の高い範囲を検索条件として設定する。撮影情報の特徴量に関しては、映像音声データベース３０の対応するタグおよび、関連するタグに検索条件を設定する。

例えば、再生対象のデータストリームのタイトル情報として記録しているキーワードをタイトルタグのみに設定して検索を行う場合、タイトルタグには大きな括りのキーワードを用い、シーン毎の見出しタグやテキスト注釈タグに検索条件を設定する。同様に、撮影位置情報についても、撮影場所としてのタグの他、タイトルやシーン見出しに検索条件を設定する。また、撮影日時の情報は、季節や朝、昼、夜等、類似の特徴をもつ映像を絞り込める検索範囲を設定する。

次に、再生リスト生成部１５は、選択された代表区間とそれぞれに対応するつなぎ区間とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。そして、デコード部１６は、再生リストのデータストリームをデコードし、データ出力部１７で表示装置３へ要約映像の映像データ、音声データを出力する。

このように、第３の実施の形態によれば、つなぎ区間には撮影時の映像と異なる映像ソースを用いるので、ユーザにとって新鮮味のある要約映像を提供することができる。

なお、つなぎ区間の映像としては、動画像の短時間の区間の他、静止画素材を用い、スクロール、拡大など適当な演出効果を加えて表示するようにしてもよい。

また、つなぎ区間の検索を容易にするために、入力されたデータストリームの記録部１１への記録時に、特徴量情報を映像音声データベース３０のタグ情報と対応する形式で記録することが好ましい。図９は入力されたデータストリームの特徴量と映像音声データベース３０のタグ情報の対応付け例を示す図である。図９に示すように、撮影情報の特徴量である撮影日時、タイトル、撮影位置情報を、それぞれ作成日、タイトル、撮影場所のタグと対応付け、映像データの特徴量である背景色、エッジ分布、動き情報を、それぞれ色分布、エッジ分布、動きアクティビティと対応付け、音声データの特徴量である音声パワー、周波数分布を、それぞれ音声パワー／無音、音響効果のタグと対応付けることができる。

（第４の実施の形態）
図１０は本発明の第４の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図１０に示す第４の実施の形態の構成要素において、第１〜第３の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。

図１０に示すように、第４の実施の形態に係る映像処理装置１Ｃは、第２の実施の形態に係る映像処理装置１Ａに対し、第３の実施の形態に係る映像処理装置１Ｂと同様の、情報通信接続部１８と、つなぎ区間選択部１４の映像検索部１４１とを追加した構成である。

第２の実施の形態では、記録部１１に予めＢＧＭ音声データを含むデータストリームが格納され、ＢＧＭ選択部６３は、記録部１１に格納されたＢＧＭ音声データから適当なＢＧＭ音声データを選択したが、第４の実施の形態では、ＢＧＭ選択部６３は、情報通信接続部１８を介してネットワーク接続された映像音声データベース３０にアクセスし、予め映像音声データベース３０に格納された、ＢＧＭ音声データを含むデータストリームから適当なＢＧＭ音声データを選択して取得する。

第４の実施の形態に係る映像処理装置１Ｃにおいて、ストリームデータ入力から再生リスト生成までの区間選択手順は、第３の実施の形態と同様である。

また、映像データに同期した音声データのうち、背景音に該当する周波数成分のレベルを調整し、映像データに好適なＢＧＭ音声データと組み合わせて再生する手順は、映像音声データベース３０からＢＧＭ音声データを選択することの他は、第２の実施の形態と同様である。

第４の実施の形態によれば、つなぎ区間に撮影時の映像と異なる映像ソースを用いることで、ユーザにとって新鮮味のある要約映像を提供することができ、また、背景音に該当する周波数成分のレベルを調整し、映像データに好適なＢＧＭ音声データと組み合わせて再生することにより、ユーザが映像に同期した音声の内容を容易に把握でき、かつ聴き易く心地よい音声を提供することができる。

（第５の実施の形態）
図１１は本発明の第５の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図１１に示す第５の実施の形態の構成要素において、第１〜第４の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。

図１１に示すように、第５の実施の形態に係る映像処理装置１Ｄは、第１の実施の形態に係る映像処理装置１に対し、情報通信接続部１８を追加し、デコード部１６をストリーム編集部１９に置き換えた構成である。

情報通信接続部１８は、通信ネットワーク２０経由で、映像処理装置１Ｄと外部の撮影装置７０、表示装置８０とを接続する。

ストリーム編集部１９は、撮影映像のストリームデータの再生リストに該当する区間を編集し、要約映像のストリームデータを生成する。

撮影装置７０は、撮影映像の映像データ、この映像データに同期した音声データ、および撮影情報を含むデータストリームを生成する撮影部７１と、撮影部７１で生成されたデータストリームを格納する記録部７２と、通信ネットワーク２０経由で映像処理装置１Ｄと接続する情報通信接続部７３とを備える。

表示装置８０は、通信ネットワーク２０経由で映像処理装置１Ｄと接続する情報通信接続部８１と、映像処理装置１Ｄから送信される要約映像のデータストリームをデコードするデコード部８２と、要約映像を表示する表示部８３とを備える。

次に、第５の実施の形態に係る映像処理装置１Ｄの動作について説明する。

撮影装置７０の撮影部７１で撮影され記録部７２に格納された映像データ、この映像データに同期した音声データ、撮影情報を含むデータストリームは、情報通信接続部７３を介して通信ネットワーク２０経由で映像処理装置１Ｄに送られる。

映像処理装置１Ｄのストリームデータ入力部７は、情報通信接続部１８を介して通信ネットワーク２０経由で撮影装置７０からデータストリームを取得する。ストリームデータ入力部７は、取得したデータストリームから各データを分離する。

その後、第１の実施の形態と同様の処理により、特徴量抽出部８で各ショットの特徴量を抽出し、特徴区間抽出部９で特徴区間情報、平均区間情報を生成する。そして、記録制御部１０により、ストリームデータ入力部７から入力されるデータストリームと、特徴量抽出部８で抽出した特徴量、および特徴区間抽出部９からの特徴区間情報、平均区間情報とを対応付けて記録部１１に保存する。

再生時には、パラメータ設定部５は、通信ネットワーク２０経由で、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。ユーザは表示装置８０を操作することによりパラメータを指定することができる。

そして、第１の実施の形態と同様の処理により、代表区間選択部１３で代表区間を選択し、つなぎ区間選択部１４でつなぎ区間を選択し、再生リスト生成部１５で要約映像を生成するための再生リストを生成する。

その後、ストリーム編集部１９は、ストリームデータの再生リストに該当する区間を編集し、要約映像のデータストリームを情報通信接続部１８に出力する。情報通信接続部１８は、通信ネットワーク２０を介して表示装置８０に要約映像のデータストリームを送信する。

表示装置８０の情報通信接続部８１は、通信ネットワーク２０を介して映像処理装置１Ｄで作成された要約映像のデータストリームを受信すると、この要約映像のデータストリームをデコード部８２に送る。デコード部８２は、要約映像のデータストリームをデコードし、表示部８３により、デコードされた映像および音声を表示する。

このように、第５の実施の形態によれば、撮影映像のデータストリームを通信ネットワーク２０経由で映像処理装置１Ｄに送ることにより、時間、場所の制約なく、撮影映像のデータストリーム、特徴量、および特徴区間情報、平均区間情報を対応付けて蓄積することができる。また、特徴区間の要約映像データを通信ネットワーク２０経由で表示装置８０に伝送することにより、時間、場所の制約なく要約映像を視聴することができる。例えば、旅行中に撮影した映像の要約を当日中に知人が自宅で視聴する等、リアルタイムに近い情報共有が可能となる。

なお、撮影装置７０において撮影映像のデータストリームを送信する際に、映像タイトルとともに要約映像配信先の表示装置８０を指定し、映像処理装置１Ｄでは蓄積処理が完了後に指定された表示装置８０へ新たに視聴可能となった撮影タイトル情報を通知するようにしてもよい。

本発明の第１の実施の形態に係る映像処理装置の構成を示すブロック図である。本発明の映像処理装置の好適な使用形態を示す図である。特徴区間および平均区間抽出の概念図である。再生リスト生成の概念図である。つなぎ区間から特徴区間への切り替えタイミングの例を示す概念図である。本発明の第２の実施の形態に係る映像処理装置の構成を示すブロック図である。ＢＧＭ合成処理の概念図である。本発明の第３の実施の形態に係る映像処理装置の構成を示すブロック図である。入力されたデータストリームの特徴量と映像音声データベースのタグ情報の対応付け例を示す図である。本発明の第４の実施の形態に係る映像処理装置の構成を示すブロック図である。本発明の第５の実施の形態に係る映像処理装置の構成を示すブロック図である。

符号の説明

１，１Ａ〜１Ｄ映像処理装置
２，７０撮影装置
３，８０表示装置
４蓄積部
５パラメータ設定部
６再生制御部
７ストリームデータ入力部
８特徴量抽出部
９特徴区間抽出部
１０記録制御部
１１，７２記録部
１２データ読出部
１３代表区間選択部
１４つなぎ区間選択部
１５再生リスト生成部
１６，８２デコード部
１７データ出力部
１８，７３，８１情報通信接続部
１９ストリーム編集部
２０通信ネットワーク
３０映像音声データベース
６１ＢＧＭ合成部
６２周波数特性調整部
６３ＢＧＭ選択部
６４音響合成部
８３表示部
１４１映像検索部

Claims

第１の映像データ、この第１の映像データに同期した第１の音声データ、および前記第１の映像データについての所定の撮影条件を示す撮影情報を含む第１のデータストリームを入力する入力手段と、
前記第１のデータストリーム中の前記第１の映像データ、前記第１の音声データ、および前記撮影情報から所望の特徴量を抽出する特徴量抽出手段と、
この特徴量抽出手段で抽出した前記特徴量に基づいて、前記第１の映像データから特徴的なシーンを含む特徴区間を抽出する特徴区間抽出手段と、
この特徴区間抽出手段で抽出した各特徴区間について、前記特徴量を用いて、前記各特徴区間の特徴を評価するための評価値を算出し、この評価値に基づいて前記各特徴区間の中から代表区間を選択する代表区間選択手段と、
前記第１の映像データにおける前記代表区間以外の区間から、前記代表区間の導入部となるつなぎ区間を選択するつなぎ区間選択手段と、
前記第１の映像データから選択された前記代表区間と前記つなぎ区間とを撮影時刻順に並べて要約映像を生成する要約映像生成手段と
を備えることを特徴とする映像処理装置。
第２の映像データおよびこの第２の映像データに同期した第２の音声データを含む第２のデータストリームを格納する第１の記録手段を備え、
前記つなぎ区間選択手段は、前記第１の記録手段に予め格納された前記第２のデータストリーム中の前記第２の映像データから前記つなぎの区間を選択することを特徴とする請求項１に記載の映像処理装置。
第３の音声データを含む第３のデータストリームを格納する第２の記録手段と、
前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、
前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを前記第３のデータストリーム中の前記第３の音声データから選択する挿入音声選択手段と、
前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段と
を備えることを特徴とする請求項１または２に記載の映像処理装置。
通信ネットワークに接続し、データ送受信を行う通信手段を備え、
前記つなぎ区間選択手段は、前記通信手段および前記通信ネットワークを介して外部の映像音声データベースに接続され、前記映像音声データベースに予め格納された第２の映像データおよびこの第２の映像データに同期した第２の音声データを含む第２のデータストリーム中の前記第２の映像データから前記つなぎの区間を選択することを特徴とする請求項１に記載の映像処理装置。
前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、
前記通信手段および前記通信ネットワークを介して前記映像音声データベースに接続され、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを、前記映像音声データベースに予め格納された第３の音声データを含む第３のデータストリーム中の前記第３の音声データから選択する挿入音声選択手段と、
前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段と
を備えることを特徴とする請求項４に記載の映像処理装置。
通信ネットワークに接続し、データ送受信を行う通信手段を備え、
前記通信手段は、前記通信ネットワークに接続された外部の撮影装置から前記第１のデータストリームを受信して前記入力手段に供給するとともに、前記要約映像のデータを前記通信ネットワークに接続された外部の表示装置に送信することを特徴とする請求項１に記載の映像処理装置。