JP2008178090A - 映像処理装置 - Google Patents

映像処理装置 Download PDF

Info

Publication number
JP2008178090A
JP2008178090A JP2007324399A JP2007324399A JP2008178090A JP 2008178090 A JP2008178090 A JP 2008178090A JP 2007324399 A JP2007324399 A JP 2007324399A JP 2007324399 A JP2007324399 A JP 2007324399A JP 2008178090 A JP2008178090 A JP 2008178090A
Authority
JP
Japan
Prior art keywords
video
data
section
audio
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007324399A
Other languages
English (en)
Inventor
Tsukimi Wakabayashi
つきみ 若林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2007324399A priority Critical patent/JP2008178090A/ja
Publication of JP2008178090A publication Critical patent/JP2008178090A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

【課題】ユーザにより撮影された映像について、映像内容を把握でき、かつ見易い要約映像を生成することができる映像処理装置を提供する。
【解決手段】代表区間選択部13は、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択し、つなぎ区間選択部14は、代表区間の導入部となるつなぎ区間を選択し、再生リスト生成部15は、代表区間とつなぎ区間とを用いて要約映像を生成する。
【選択図】図1

Description

本発明は、映像処理装置に係り、特に映像コンテンツの要約映像を生成する映像処理装置に関する。
近年、家庭用ビデオカメラの普及により、誰でも気軽に身近なイベントや風景を映像として記録保存することができるようになった。しかしながら、こうした所謂撮りっ放し映像は、撮影直後は楽しく見るものの、後々まで映像コンテンツとして鑑賞され活用される機会は少ない。また、一般のユーザにより撮影された映像は、失敗や不要な場面を多く含み、同じような場面が何度も映っているなど冗長度が高い。そのため、撮影直後に関係者でイベントを振り返るには好適であるが、後々の鑑賞に堪える映像コンテンツとするには、撮影映像を素材として整理し、選択された素材を製作意図に沿ってつなぎ合わせる編集作業を要する。
動画像編集作業を行うためのパソコン用ソフトウェアも販売されてはいるが、これはパソコンや画像編集作業を趣味とする一部のマニア向けであり、一般ユーザにとってはパソコンを駆使しての映像編集は依然として面倒で敷居の高い作業である。
このような状況を背景に、自動で映像データや音声データを編集して要約映像を生成する技術が各種提案されている。
従来の要約手法としては、例えば、シーンを一定時間毎にスキップして再生する方法が考えられている。また、特許文献1には、フレーム間の画像の変化からシーン変化を検出し、動画像のシーンの長さ、シーン内の画像の変化度合を基に重要シーンを選択し要約再生する技術が開示されている。また、特許文献2には、動画像データを複数のシーンに分割し、複数の条件から再生シーンを選択する技術が開示されている。
特開平6−149902号公報 特開2002−142189号公報
しかしながら、シーンを一定時間毎にスキップして再生する要約手法では、必ずしも映像の内容を把握し易いシーンが提示されるとは限らなかった。また、特許文献1に開示された技術のように、動きのあるシーンを重要選択するような設定では、動きの激しいシーンが次々と現れ、目まぐるしい要約映像になりがちである。
また、特許文献2に開示された技術においては、画面の明るさや高周波成分など、シーンの評価に複数の条件を設定しているものの、各条件の評価結果からシーンを選択する基準は設定モード毎に一定であり、ある設定モードにおいては、重要と判定されるシーンと対極にあるような条件のシーンは選択されないため、やはり、同種のシーンが集まることになる。
映画やテレビ番組の映像に対しては、予め専門家によるシーン編集が施されているため、アクション区間に隣接するシーンを適宜組み合わせることにより、ある程度ストーリー性のある要約も可能であるが、一般のユーザがイベントや風景をスナップショット的に撮影した素材映像においては、このような手法は有効ではない。
このように、上述のような従来の技術では、ある基準で選び出した重要シーンを発生時間順に次々と提示するのみであって、ユーザにとって必ずしも見易い要約映像とはならないという問題があった。
そこで本発明は、ユーザにより撮影された映像について、映像内容を把握でき、かつ見易い要約映像を生成することができる映像処理装置を提供することを目的とする。
上記目的を達成するため、本発明の映像処理装置は、第1の映像データ、この第1の映像データに同期した第1の音声データ、および前記第1の映像データについての所定の撮影条件を示す撮影情報を含む第1のデータストリームを入力する入力手段と、前記第1のデータストリーム中の前記第1の映像データ、前記第1の音声データ、および前記撮影情報から所望の特徴量を抽出する特徴量抽出手段と、この特徴量抽出手段で抽出した前記特徴量に基づいて、前記第1の映像データから特徴的なシーンを含む特徴区間を抽出する特徴区間抽出手段と、この特徴区間抽出手段で抽出した各特徴区間について、前記特徴量を用いて、前記各特徴区間の特徴を評価するための評価値を算出し、この評価値に基づいて前記各特徴区間の中から代表区間を選択する代表区間選択手段と、前記第1の映像データにおける前記代表区間以外の区間から、前記代表区間の導入部となるつなぎ区間を選択するつなぎ区間選択手段と、前記第1の映像データから選択された前記代表区間と前記つなぎ区間とを撮影時刻順に並べて要約映像を生成する要約映像生成手段とを備えることを特徴とする。
また、本発明の映像処理装置は、第2の映像データおよびこの第2の映像データに同期した第2の音声データを含む第2のデータストリームを格納する第1の記録手段を備え、前記つなぎ区間選択手段は、前記第1の記録手段に予め格納された前記第2のデータストリーム中の前記第2の映像データから前記つなぎの区間を選択することを特徴とする。
また、本発明の映像処理装置は、第3の音声データを含む第3のデータストリームを格納する第2の記録手段と、前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを前記第3のデータストリーム中の前記第3の音声データから選択する挿入音声選択手段と、前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段とを備えることを特徴とする。
また、本発明の映像処理装置は、通信ネットワークに接続し、データ送受信を行う通信手段を備え、前記つなぎ区間選択手段は、前記通信手段および前記通信ネットワークを介して外部の映像音声データベースに接続され、前記映像音声データベースに予め格納された第2の映像データおよびこの第2の映像データに同期した第2の音声データを含む第2のデータストリーム中の前記第2の映像データから前記つなぎの区間を選択することを特徴とする。
また、本発明の映像処理装置は、前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、前記通信手段および前記通信ネットワークを介して前記映像音声データベースに接続され、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを、前記映像音声データベースに予め格納された第3の音声データを含む第3のデータストリーム中の前記第3の音声データから選択する挿入音声選択手段と、前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段とを備えることを特徴とする。
また、本発明の映像処理装置は、通信ネットワークに接続し、データ送受信を行う通信手段を備え、前記通信手段は、前記通信ネットワークに接続された外部の撮影装置から前記第1のデータストリームを受信して前記入力手段に供給するとともに、前記要約映像のデータを前記通信ネットワークに接続された外部の表示装置に送信することを特徴とする。
本発明の映像処理装置によれば、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択するとともに、代表区間の導入部となるつなぎ区間を選択して要約映像を生成するので、ユーザが映像内容を把握でき、かつ見易い要約映像を生成することができる。
以下、本発明の映像処理装置を実施するための最良の形態について、図面を参照して説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る映像処理装置の構成を示すブロック図である。図1に示すように、本発明の第1の実施の形態に係る映像処理装置1は、撮影装置2および表示装置3と接続して、映像および音声のコンテンツを蓄積、管理、再生する形態で実施して効果的である。具体的には、図2に示すように、映像処理装置1は、テレビモニタ22に接続した家庭用コンテンツ蓄積装置21に内蔵され、家庭用ビデオカメラ23を接続してデータ蓄積、視聴する使用形態に好適である。
本発明の第1の実施の形態に係る映像処理装置1は、図1に示すように、蓄積部4と、パラメータ設定部5と、再生制御部6とを備える。蓄積部4は、ストリームデータ入力部7と、特徴量抽出部8と、特徴区間抽出部9と、記録制御部10と、記録部11とを備える。
ストリームデータ入力部7は、撮影装置2で撮影録画された映像データ、この映像データに同期した音声データ、および撮影日時や画質などの撮影情報を含むデータストリームを取得し、取得したデータストリームから各データを分離する。データストリームは様々な形式が利用できるが、本実施の形態では、録画開始/停止のショット毎に映像データ、音声データ、撮影情報を含むデータファイルが作成され保存される形式を例に用いる。ユーザ設定可能なタイトル情報も、メタデータとしてデータファイルに保存される。
特徴量抽出部8は、各ショットの分離された映像データ、音声データ、および撮影情報の各データから特徴量を抽出する。ここで、映像データの特徴量としては、例えば、映像のエッジ分布、色および輝度の分布、および、それらの変化量を用いることができる。音声データの特徴量としては、例えば、音声の全体パワーおよび周波数分布を用いることができる。撮影情報の特徴量としては、撮影時間情報や、撮影装置2がGPS受信機を搭載している場合は撮影位置情報などを用いることができる。
また、単純な映像および音響特性のみでなく、映像情報を基にオブジェクトを抽出し、オブジェクトサイズ、オブジェクトの動き情報を数値化し、特徴量としてもよい。また、音声情報を基に鳥の声、人の声など音源の種類を分類し、それぞれのレベルを特徴量としてもよい。
特徴区間抽出部9は、特徴量抽出部8で抽出した特徴量に基づいて、ショット内の特徴区間および平均区間を抽出し、特徴区間の位置等を示す特徴区間情報、平均区間の位置等を示す平均区間情報を生成して出力する。
記録制御部10は、ストリームデータ入力部7から入力されるデータストリームと、特徴量抽出部8で抽出した特徴量、および特徴区間抽出部9からの特徴区間情報、平均区間情報を対応付けて、HDD等からなる記録部11に保存する。
パラメータ設定部5は、再生時において、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。
再生制御部6は、データ読出部12と、代表区間選択部13と、つなぎ区間選択部14と、再生リスト生成部15と、デコード部16と、データ出力部17とを備える。
データ読出部12は、ユーザより指定されたデータストリームおよび対応する特徴量、特徴区間情報、平均区間情報を記録制御部10を介して記録部11より読み出す。
代表区間選択部13は、特徴区間情報に基づき、設定された再生モードにより、特徴量を用いて各特徴区間を評価し、代表区間を選択する。つなぎ区間選択部14は、代表区間以外の区間から、代表区間の導入部となるつなぎ区間を選択する。
再生リスト生成部15は、選択された代表区間と対応するつなぎ区間とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。デコード部16は、再生リストのデータストリームをデコードしてデータ出力部17へ出力する。データ出力部17は、再生リストの映像データ、音声データを表示装置3へ出力する。
次に、第1の実施の形態に係る映像処理装置1の動作について説明する。
まず、ストリームデータ入力部7は、撮影装置2で撮影録画された映像データ、この映像データに同期した音声データ、および撮影情報を含むデータストリームを取得すると、取得したデータストリームから各データを分離する。次に、特徴量抽出部8は、各ショットの分離された映像データ、音声データ、および撮影情報の各データから特徴量を抽出する。
次に、特徴区間抽出部9は、特徴量抽出部8で抽出した特徴量に基づいて、ショット内の特徴区間および平均区間を抽出する。ここで、映像の特徴量として輝度情報を用い、ショット内のフレーム全体での輝度平均値、ショット中の輝度変化、および輝度変化のレベルから特徴区間を抽出する例を説明する。
Ltを時刻tにおけるフレームの輝度平均値、Lmをショット全体での輝度平均値とし、閾値Th=kσ(kは係数、σはショット内での輝度の標準偏差)とすると、下記の(数式1)を満たす時刻tを特徴的なフレームとし、下記の(数式2)で求められるPtを特徴量の得点とする。
|Lt−Lm|>Th (数式1)
Pt=(|Lt−Lm|−Th)/Th (数式2)
そして、特徴区間抽出部9は、特徴的なフレームが連続するところを特徴区間として抽出する。時刻tから時刻tの間が特徴区間として抽出される場合、特徴区間の得点は、時刻t〜t間の得点の平均とする。
一方、特徴区間抽出部9は、Th=kσ(k<k)とし、下記の(数式3)を満たす時刻tをショット内の平均的なフレームとし、平均的なフレームが安定して連続するところを平均区間として抽出する。
|Lt−Lm|<Th (数式3)
なお、特徴区間抽出部9は、手振れ、ピンボケなどのミスショット区間は特徴量を基に検出し、特徴区間設定から予め除去する。
図3に特徴区間および平均区間抽出の概念図を示す。図3において、特徴量Aについて特徴区間31Aおよび平均区間31B、特徴量Bについて特徴区間32A,32Aおよび平均区間31B、特徴量Cについて特徴区間33Aおよび平均区間33B、特徴量Dについて特徴区間34Aおよび平均区間34Bが抽出され、抽出されたそれぞれの区間について得点が算出された例を示している。
そして、特徴区間抽出部9は、特徴区間の位置情報および得点を含む特徴区間情報、平均区間の位置情報および得点を含む平均区間情報を生成して出力する。
次に、記録制御部10は、ストリームデータ入力部7から入力されるデータストリームと、特徴量抽出部8で抽出した特徴量、および特徴区間抽出部9からの特徴区間情報、平均区間情報を対応付けて記録部11に保存する。
再生時には、パラメータ設定部5は、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。そして、再生制御部6のデータ読出部12は、ユーザより指定されたデータストリームおよび対応する特徴量と特徴区間情報、平均区間情報を、記録制御部10を介して記録部11より読み出す。
次に、代表区間選択部13は、特徴区間情報に基づき、設定された再生モードにより、各特徴区間の得点を評価し、代表区間を選択する。ここで、n種類の特徴量を用いて特徴区間を評価する際に、i番目の特徴量に関する時刻tを含む特徴区間の得点をPitとすると、設定された再生モードmでの特徴区間の評価値Smtは、下記の(数式4)により求めることができる。
Figure 2008178090
ここで、Cmiは再生モードmでのi番目の特徴量の重み付け係数である。例えば、子供など人物中心であれば、画面中央部の肌色、音声の中高域成分の特徴量に重み付けして評価値を算出することができる。
そして、代表区間選択部13は、特徴区間を評価値の上位から並べて代表区間候補とし、設定した再生時間を超えない範囲で、代表区間候補の上位から代表区間を選択する。代表区間は、見易さを損なわない最短の長さおよび指定再生時間に応じた最長の長さを範囲設定し、範囲内の長さとするよう特徴量を基に調整してもよい。
次に、つなぎ区間選択部14は、評価値が上位の代表区間から順に、特徴量に基づいて、代表区間と背景の親和性が高く中心部に大きな動きの少ない落ち着いた映像区間を短時間、つなぎ区間として選択する。つなぎ区間は、代表区間と同一ショット内の映像区間を用い、代表区間の導入部に位置付ける。例えば、代表区間と同一ショット内の平均区間から動きの少ない区間を2〜3秒選択する。また、簡易にショット内の落ち着いた映像区間を選択する方法として、一般ユーザに多く見られる、ショット開始時に周囲の落ち着いた映像から撮り始めるという撮影行動特性を利用し、ショット開始時点から一定時間を選択してもよい。
また、指定タイトル以外に、予め記録部11に蓄積された、映像データおよび音声データを含むデータストリームを用い、代表区間と背景の特徴量の親和性が高いショットの中からつなぎ区間を選択してもよい。また、予めつなぎ用の映像を対応する特徴量と共にデータベース化し、代表区間の特徴量と親和性の高いつなぎ区間を選択してもよい。
次に、再生リスト生成部15は、図4に示すように、選択された代表区間40A,41A,…と、それぞれに対応するつなぎ区間40B,41B,…とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。そして、デコード部16は、再生リストのデータストリームをデコードし、データ出力部17で表示装置3へ要約映像の映像データ、音声データを出力する。
ここで、つなぎ区間と代表区間との接続部分では、ディゾルブやフェードイン・フェードアウト効果を用いて、各区間を滑らかに接続するようにしてもよい。また、図5に示すように、映像をつなぎ区間51B,53Bから代表区間51A,53Aに切り替えるより先に、音声をつなぎ区間52B,54Bから代表区間52A,54Aに切り替えるように調整してもよい。このようにすることで、ユーザは予め音声で代表区間への移行を認識することにより映像を違和感なく視聴でき、短時間で内容を把握し易くなる。
上記説明のように、第1の実施の形態によれば、データストリームの特徴量を基に映像データの特徴的なシーンに対応する代表区間を選択するとともに、代表区間の導入部となるつなぎ区間を選択し、選択した代表区間とつなぎ区間とを並べて要約映像を生成するので、ユーザが映像内容を把握でき、かつ見易い要約映像を生成することができる。
なお、上記第1の実施の形態で説明したように、今日普及している家庭用ビデオカメラにおいては、録画/停止の撮影ショット毎にインデックスを生成し記録する形式が一般的であるので、強いてショットチェンジ検出を行う必要のない場合が多いが、旧型の撮影機器で撮影したインデックス情報のない映像データを処理する際には、フレーム間の相関など公知の手法を用いて予めショット区切を検出し、上記第1の実施の形態の処理を適用すればよい。
(第2の実施の形態)
図6は本発明の第2の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図6に示す第2の実施の形態の構成要素において、第1の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。
図6に示すように、第2の実施の形態に係る映像処理装置1Aは、第1の実施の形態に係る映像処理装置1に対し、再生制御部6にBGM合成部61を追加した構成である。また、映像処理装置1Aの記録部11には予めBGM音声データを含むデータストリームが格納されている。
BGM合成部61は、代表区間の映像データに同期した音声データにおける背景音のレベルを調整する周波数特性調整部62と、代表区間の映像データに対応付けるBGM音声データを選択するBGM選択部63と、代表区間の映像データに同期した音声データとBGM選択部63で選択したBGM音声データとを合成する音響合成部64とを備える。
このように構成された第2の実施の形態に係る映像処理装置1Aにおいて、ストリームデータ入力から再生リスト生成までの区間選択手順は、第1の実施の形態と同様である。
再生リストが生成されると、周波数特性調整部62は、ショットの特徴量に基づき、代表区間の音声データに対して、代表区間に現れる特徴的な周波数成分を保持し、継続的な背景音の周波数成分を小さくするようレベル調整する。
BGM選択部63は、ショットの特徴量に基づき、記録部11に格納されたBGM音声データから適当なBGM音声データを選択する。ここで、映像データの色合や複雑さ情報をBGM音声データの音響特徴量と対応付けたテーブルを予め用意し、参照するようにしてもよい。また、好ましくは、映像処理装置1Aに地域情報をインデックスとして検索可能なBGMデータベースを内蔵またはネットワーク接続にて備え、撮影位置情報を含むデータストリームに対しては、撮影位置情報を地域情報に変換してBGMデータベースを検索し、撮影場所に好適なBGMを選択するようにしてもよい。また、パラメータ設定部5にユーザが好みのBGMを選択する機能を設けてもよい。
そして、音響合成部64は、周波数特性調整部62で調整された代表区間の音声データと、BGM選択部63で選択されたBGM音声データとを合成して出力する。また、音響合成部64は、代表区間の特徴的な周波数成分が存在する区間はBGMの音量を下げ、代表区間の特徴的な音声内容が十分聞こえるよう調整する。
図7はBGM合成処理の概念図である。屋外で撮影する場合は、意図した撮影対象以外の音声が背景に多く含まれる。背景音は周囲の雰囲気を感じるためには有効であるが、そのままの音量で継続的に聞くのには適さない音も多い。野外での風切音や車の騒音などがしばしば継続的な背景音に該当する。図7では、低周波数成分のレベルを徐々に下げて風切音を低減させ、BGMのレベルを徐々に上げ、合成する例を示している。鳥のさえずり声や人の話し声が入る部分では、BGMのレベルを下げ、特徴的な音声が十分聞こえるようにする。
また、BGMの選曲は、ショットの特徴量に基づいて、背景の特徴量が類似する区間では同じBGMを用い、場面が転換する区間、すなわち背景の特徴量が大きく異なる区間でBGMを変更するようにしてもよい。図7では、第2のショットの映像から第3のショットの映像に切り替わるときに、第1のBGMから第2のBGMに切り替える例を示している。
このように、第2の実施の形態によれば、映像データに同期した音声データのうち、背景音に該当する周波数成分のレベルを調整し、映像データに好適なBGM音声データと組み合わせて再生することにより、ユーザが映像に同期した音声の内容を容易に把握でき、かつ聴き易く心地よい音声を提供することができる。
(第3の実施の形態)
図8は本発明の第3の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図8に示す第3の実施の形態の構成要素において、第1および第2実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。
図8に示すように、第3の実施の形態に係る映像処理装置1Bは、第1の実施の形態に係る映像処理装置1に対し、情報通信接続部18を追加し、つなぎ区間選択部14に映像検索部141を追加した構成である。
情報通信接続部18は、通信ネットワーク20経由で映像処理装置1Bと外部の映像音声データベース30とを接続する。
映像検索部141は、情報通信接続部18を介してネットワーク接続された映像音声データベース30にアクセスし、予め映像音声データベース30に格納された、映像データおよび音声データを含むデータストリームからつなぎ区間の映像を取得する。
このように構成された第3の実施の形態に係る映像処理装置1Bにおいて、ストリームデータ入力から代表区間選択までの動作は、第1の実施の形態と同様である。
つなぎ区間選択部14は、評価値が上位の代表区間から順に、特徴量に基づいて、代表区間と背景の親和性が高く中心部に大きな動きの少ない落ち着いた映像区間を短時間、つなぎ区間として選択する。ここで、つなぎ区間選択部14は、映像検索部141により、情報通信接続部18を介してネットワーク接続された映像音声データベース30にアクセスし、予め映像音声データベース30に格納された、映像データおよび音声データを含むデータストリームからつなぎ区間の映像データを検索して取得し、このつなぎ区間の映像データをデコード部16に供給する。
映像検索部141では、つなぎ区間を選択するための映像音声データベース30への検索条件を設定する。再生対象のデータストリームの映像データおよび音声データの特徴量に関しては、各特徴量について映像音声データベース30のタグと対応させ、代表区間と親和性の高い範囲を検索条件として設定する。撮影情報の特徴量に関しては、映像音声データベース30の対応するタグおよび、関連するタグに検索条件を設定する。
例えば、再生対象のデータストリームのタイトル情報として記録しているキーワードをタイトルタグのみに設定して検索を行う場合、タイトルタグには大きな括りのキーワードを用い、シーン毎の見出しタグやテキスト注釈タグに検索条件を設定する。同様に、撮影位置情報についても、撮影場所としてのタグの他、タイトルやシーン見出しに検索条件を設定する。また、撮影日時の情報は、季節や朝、昼、夜等、類似の特徴をもつ映像を絞り込める検索範囲を設定する。
次に、再生リスト生成部15は、選択された代表区間とそれぞれに対応するつなぎ区間とを代表区間の撮影時刻順に並び替え、要約映像を生成するための再生リストを生成する。そして、デコード部16は、再生リストのデータストリームをデコードし、データ出力部17で表示装置3へ要約映像の映像データ、音声データを出力する。
このように、第3の実施の形態によれば、つなぎ区間には撮影時の映像と異なる映像ソースを用いるので、ユーザにとって新鮮味のある要約映像を提供することができる。
なお、つなぎ区間の映像としては、動画像の短時間の区間の他、静止画素材を用い、スクロール、拡大など適当な演出効果を加えて表示するようにしてもよい。
また、つなぎ区間の検索を容易にするために、入力されたデータストリームの記録部11への記録時に、特徴量情報を映像音声データベース30のタグ情報と対応する形式で記録することが好ましい。図9は入力されたデータストリームの特徴量と映像音声データベース30のタグ情報の対応付け例を示す図である。図9に示すように、撮影情報の特徴量である撮影日時、タイトル、撮影位置情報を、それぞれ作成日、タイトル、撮影場所のタグと対応付け、映像データの特徴量である背景色、エッジ分布、動き情報を、それぞれ色分布、エッジ分布、動きアクティビティと対応付け、音声データの特徴量である音声パワー、周波数分布を、それぞれ音声パワー/無音、音響効果のタグと対応付けることができる。
(第4の実施の形態)
図10は本発明の第4の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図10に示す第4の実施の形態の構成要素において、第1〜第3の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。
図10に示すように、第4の実施の形態に係る映像処理装置1Cは、第2の実施の形態に係る映像処理装置1Aに対し、第3の実施の形態に係る映像処理装置1Bと同様の、情報通信接続部18と、つなぎ区間選択部14の映像検索部141とを追加した構成である。
第2の実施の形態では、記録部11に予めBGM音声データを含むデータストリームが格納され、BGM選択部63は、記録部11に格納されたBGM音声データから適当なBGM音声データを選択したが、第4の実施の形態では、BGM選択部63は、情報通信接続部18を介してネットワーク接続された映像音声データベース30にアクセスし、予め映像音声データベース30に格納された、BGM音声データを含むデータストリームから適当なBGM音声データを選択して取得する。
第4の実施の形態に係る映像処理装置1Cにおいて、ストリームデータ入力から再生リスト生成までの区間選択手順は、第3の実施の形態と同様である。
また、映像データに同期した音声データのうち、背景音に該当する周波数成分のレベルを調整し、映像データに好適なBGM音声データと組み合わせて再生する手順は、映像音声データベース30からBGM音声データを選択することの他は、第2の実施の形態と同様である。
第4の実施の形態によれば、つなぎ区間に撮影時の映像と異なる映像ソースを用いることで、ユーザにとって新鮮味のある要約映像を提供することができ、また、背景音に該当する周波数成分のレベルを調整し、映像データに好適なBGM音声データと組み合わせて再生することにより、ユーザが映像に同期した音声の内容を容易に把握でき、かつ聴き易く心地よい音声を提供することができる。
(第5の実施の形態)
図11は本発明の第5の実施の形態に係る映像処理装置の構成を示すブロック図である。なお、図11に示す第5の実施の形態の構成要素において、第1〜第4の実施の形態と同様の構成要素については同一番号を付し、詳細な説明は省略する。
図11に示すように、第5の実施の形態に係る映像処理装置1Dは、第1の実施の形態に係る映像処理装置1に対し、情報通信接続部18を追加し、デコード部16をストリーム編集部19に置き換えた構成である。
情報通信接続部18は、通信ネットワーク20経由で、映像処理装置1Dと外部の撮影装置70、表示装置80とを接続する。
ストリーム編集部19は、撮影映像のストリームデータの再生リストに該当する区間を編集し、要約映像のストリームデータを生成する。
撮影装置70は、撮影映像の映像データ、この映像データに同期した音声データ、および撮影情報を含むデータストリームを生成する撮影部71と、撮影部71で生成されたデータストリームを格納する記録部72と、通信ネットワーク20経由で映像処理装置1Dと接続する情報通信接続部73とを備える。
表示装置80は、通信ネットワーク20経由で映像処理装置1Dと接続する情報通信接続部81と、映像処理装置1Dから送信される要約映像のデータストリームをデコードするデコード部82と、要約映像を表示する表示部83とを備える。
次に、第5の実施の形態に係る映像処理装置1Dの動作について説明する。
撮影装置70の撮影部71で撮影され記録部72に格納された映像データ、この映像データに同期した音声データ、撮影情報を含むデータストリームは、情報通信接続部73を介して通信ネットワーク20経由で映像処理装置1Dに送られる。
映像処理装置1Dのストリームデータ入力部7は、情報通信接続部18を介して通信ネットワーク20経由で撮影装置70からデータストリームを取得する。ストリームデータ入力部7は、取得したデータストリームから各データを分離する。
その後、第1の実施の形態と同様の処理により、特徴量抽出部8で各ショットの特徴量を抽出し、特徴区間抽出部9で特徴区間情報、平均区間情報を生成する。そして、記録制御部10により、ストリームデータ入力部7から入力されるデータストリームと、特徴量抽出部8で抽出した特徴量、および特徴区間抽出部9からの特徴区間情報、平均区間情報とを対応付けて記録部11に保存する。
再生時には、パラメータ設定部5は、通信ネットワーク20経由で、ユーザより選択されたタイトル、再生モード、再生時間をパラメータとして設定する。ユーザは表示装置80を操作することによりパラメータを指定することができる。
そして、第1の実施の形態と同様の処理により、代表区間選択部13で代表区間を選択し、つなぎ区間選択部14でつなぎ区間を選択し、再生リスト生成部15で要約映像を生成するための再生リストを生成する。
その後、ストリーム編集部19は、ストリームデータの再生リストに該当する区間を編集し、要約映像のデータストリームを情報通信接続部18に出力する。情報通信接続部18は、通信ネットワーク20を介して表示装置80に要約映像のデータストリームを送信する。
表示装置80の情報通信接続部81は、通信ネットワーク20を介して映像処理装置1Dで作成された要約映像のデータストリームを受信すると、この要約映像のデータストリームをデコード部82に送る。デコード部82は、要約映像のデータストリームをデコードし、表示部83により、デコードされた映像および音声を表示する。
このように、第5の実施の形態によれば、撮影映像のデータストリームを通信ネットワーク20経由で映像処理装置1Dに送ることにより、時間、場所の制約なく、撮影映像のデータストリーム、特徴量、および特徴区間情報、平均区間情報を対応付けて蓄積することができる。また、特徴区間の要約映像データを通信ネットワーク20経由で表示装置80に伝送することにより、時間、場所の制約なく要約映像を視聴することができる。例えば、旅行中に撮影した映像の要約を当日中に知人が自宅で視聴する等、リアルタイムに近い情報共有が可能となる。
なお、撮影装置70において撮影映像のデータストリームを送信する際に、映像タイトルとともに要約映像配信先の表示装置80を指定し、映像処理装置1Dでは蓄積処理が完了後に指定された表示装置80へ新たに視聴可能となった撮影タイトル情報を通知するようにしてもよい。
本発明の第1の実施の形態に係る映像処理装置の構成を示すブロック図である。 本発明の映像処理装置の好適な使用形態を示す図である。 特徴区間および平均区間抽出の概念図である。 再生リスト生成の概念図である。 つなぎ区間から特徴区間への切り替えタイミングの例を示す概念図である。 本発明の第2の実施の形態に係る映像処理装置の構成を示すブロック図である。 BGM合成処理の概念図である。 本発明の第3の実施の形態に係る映像処理装置の構成を示すブロック図である。 入力されたデータストリームの特徴量と映像音声データベースのタグ情報の対応付け例を示す図である。 本発明の第4の実施の形態に係る映像処理装置の構成を示すブロック図である。 本発明の第5の実施の形態に係る映像処理装置の構成を示すブロック図である。
符号の説明
1,1A〜1D 映像処理装置
2,70 撮影装置
3,80 表示装置
4 蓄積部
5 パラメータ設定部
6 再生制御部
7 ストリームデータ入力部
8 特徴量抽出部
9 特徴区間抽出部
10 記録制御部
11,72 記録部
12 データ読出部
13 代表区間選択部
14 つなぎ区間選択部
15 再生リスト生成部
16,82 デコード部
17 データ出力部
18,73,81 情報通信接続部
19 ストリーム編集部
20 通信ネットワーク
30 映像音声データベース
61 BGM合成部
62 周波数特性調整部
63 BGM選択部
64 音響合成部
83 表示部
141 映像検索部

Claims (6)

  1. 第1の映像データ、この第1の映像データに同期した第1の音声データ、および前記第1の映像データについての所定の撮影条件を示す撮影情報を含む第1のデータストリームを入力する入力手段と、
    前記第1のデータストリーム中の前記第1の映像データ、前記第1の音声データ、および前記撮影情報から所望の特徴量を抽出する特徴量抽出手段と、
    この特徴量抽出手段で抽出した前記特徴量に基づいて、前記第1の映像データから特徴的なシーンを含む特徴区間を抽出する特徴区間抽出手段と、
    この特徴区間抽出手段で抽出した各特徴区間について、前記特徴量を用いて、前記各特徴区間の特徴を評価するための評価値を算出し、この評価値に基づいて前記各特徴区間の中から代表区間を選択する代表区間選択手段と、
    前記第1の映像データにおける前記代表区間以外の区間から、前記代表区間の導入部となるつなぎ区間を選択するつなぎ区間選択手段と、
    前記第1の映像データから選択された前記代表区間と前記つなぎ区間とを撮影時刻順に並べて要約映像を生成する要約映像生成手段と
    を備えることを特徴とする映像処理装置。
  2. 第2の映像データおよびこの第2の映像データに同期した第2の音声データを含む第2のデータストリームを格納する第1の記録手段を備え、
    前記つなぎ区間選択手段は、前記第1の記録手段に予め格納された前記第2のデータストリーム中の前記第2の映像データから前記つなぎの区間を選択することを特徴とする請求項1に記載の映像処理装置。
  3. 第3の音声データを含む第3のデータストリームを格納する第2の記録手段と、
    前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、
    前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを前記第3のデータストリーム中の前記第3の音声データから選択する挿入音声選択手段と、
    前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段と
    を備えることを特徴とする請求項1または2に記載の映像処理装置。
  4. 通信ネットワークに接続し、データ送受信を行う通信手段を備え、
    前記つなぎ区間選択手段は、前記通信手段および前記通信ネットワークを介して外部の映像音声データベースに接続され、前記映像音声データベースに予め格納された第2の映像データおよびこの第2の映像データに同期した第2の音声データを含む第2のデータストリーム中の前記第2の映像データから前記つなぎの区間を選択することを特徴とする請求項1に記載の映像処理装置。
  5. 前記代表区間の映像データに同期した音声データにおける背景音のレベルを調整する調整手段と、
    前記通信手段および前記通信ネットワークを介して前記映像音声データベースに接続され、前記特徴量に基づいて、前記代表区間の映像データに対応付ける挿入音声データを、前記映像音声データベースに予め格納された第3の音声データを含む第3のデータストリーム中の前記第3の音声データから選択する挿入音声選択手段と、
    前記代表区間の映像データに同期した音声データと、前記挿入音声選択手段で選択した前記挿入音声データとを合成する音響合成手段と
    を備えることを特徴とする請求項4に記載の映像処理装置。
  6. 通信ネットワークに接続し、データ送受信を行う通信手段を備え、
    前記通信手段は、前記通信ネットワークに接続された外部の撮影装置から前記第1のデータストリームを受信して前記入力手段に供給するとともに、前記要約映像のデータを前記通信ネットワークに接続された外部の表示装置に送信することを特徴とする請求項1に記載の映像処理装置。
JP2007324399A 2006-12-22 2007-12-17 映像処理装置 Pending JP2008178090A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007324399A JP2008178090A (ja) 2006-12-22 2007-12-17 映像処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006345752 2006-12-22
JP2007324399A JP2008178090A (ja) 2006-12-22 2007-12-17 映像処理装置

Publications (1)

Publication Number Publication Date
JP2008178090A true JP2008178090A (ja) 2008-07-31

Family

ID=39704732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007324399A Pending JP2008178090A (ja) 2006-12-22 2007-12-17 映像処理装置

Country Status (1)

Country Link
JP (1) JP2008178090A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118859A (ja) * 2008-11-12 2010-05-27 Sony Corp 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2013126233A (ja) * 2011-12-16 2013-06-24 Toshiba Corp 映像処理装置、方法及びプログラム
JP2016066127A (ja) * 2014-09-22 2016-04-28 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JPWO2021020197A1 (ja) * 2019-07-26 2021-02-04
CN115580771A (zh) * 2022-11-14 2023-01-06 常州海图信息科技股份有限公司 一种微型cmos图像采集系统及方法
US12041384B2 (en) 2021-12-28 2024-07-16 Samsung Electronics Co., Ltd. Method and home appliance device for generating time-lapse video

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118859A (ja) * 2008-11-12 2010-05-27 Sony Corp 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
JP4683116B2 (ja) * 2008-11-12 2011-05-11 ソニー株式会社 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
US8396351B2 (en) 2008-11-12 2013-03-12 Sony Corporation Information processing apparatus, information processing method, information processing program and imaging apparatus
JP2012070283A (ja) * 2010-09-24 2012-04-05 Toshiba Corp 映像処理装置、方法、及び映像処理システム
JP2013126233A (ja) * 2011-12-16 2013-06-24 Toshiba Corp 映像処理装置、方法及びプログラム
JP2016066127A (ja) * 2014-09-22 2016-04-28 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JPWO2021020197A1 (ja) * 2019-07-26 2021-02-04
US12041384B2 (en) 2021-12-28 2024-07-16 Samsung Electronics Co., Ltd. Method and home appliance device for generating time-lapse video
CN115580771A (zh) * 2022-11-14 2023-01-06 常州海图信息科技股份有限公司 一种微型cmos图像采集系统及方法

Similar Documents

Publication Publication Date Title
JP5370170B2 (ja) 要約映像生成装置および要約映像生成方法
US8448068B2 (en) Information processing apparatus, information processing method, program, and storage medium
JP3615195B2 (ja) コンテンツ記録再生装置およびコンテンツ編集方法
US20060104609A1 (en) Reproducing device and method
JP2009076970A (ja) 要約コンテンツ生成装置およびコンピュータプログラム
JP2008178090A (ja) 映像処理装置
JP4923517B2 (ja) 撮像装置、撮像方法、および半導体装置
US20060088297A1 (en) Image pickup apparatus
JP2007336283A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2010232814A (ja) 映像編集プログラムおよび映像編集装置
JP3923932B2 (ja) 映像要約装置、映像要約方法及びプログラム
JP5407708B2 (ja) 撮影映像処理装置、制御方法及びプログラム
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP4030440B2 (ja) メッセージ再生装置、メッセージ記録および再生方法、およびプログラム
JP5043711B2 (ja) ビデオ評価装置及び方法
JP2008103802A (ja) 映像合成装置
JP2009010839A (ja) 画像データ再生装置および画像データ再生方法
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP2006109151A (ja) 画像記録装置及び電子アルバム作成システム
JP4347752B2 (ja) 電子アルバム表示システム、電子アルバム表示方法、リモートコントローラ、及びリモートコントロールプログラム
JP2009278481A (ja) 映像コンテンツ受信装置、映像コンテンツ配信装置および映像コンテンツ配信方法
JP4225701B2 (ja) 要約映像特定装置、および要約映像特定方法
JP2005293212A (ja) 要約映像生成装置、要約映像生成方法及びプログラム
JP2003309786A (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP6129085B2 (ja) 放送受信装置、番組内容確認用データ作成処理装置、及び番組録画装置