JP2005333205A

JP2005333205A - コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法

Info

Publication number: JP2005333205A
Application number: JP2004147564A
Authority: JP
Inventors: Kota Hidaka; 浩太日高
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-18
Filing date: 2004-05-18
Publication date: 2005-12-02

Abstract

【課題】音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができるコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法を提供する。
【解決手段】音声および映像によって構成される映像コンテンツを編集するコンテンツ編集装置１００であって、映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの音声信号が強調状態か否かを判定する強調状態判定手段１１０を有する。また、強調状態判定手段１１０が強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出する強調映像抽出手段１２０を有する。更に、強調映像抽出手段１２０によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段１３０を有する。
【選択図】図１

Description

本発明は、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法に関する。

従来のコンテンツ編集装置としては、コンテンツを構成する音声信号から音声特徴量及び音声小段落に関する情報を抽出し、抽出した情報に基づいて話者の発話状態が平静状態か、強調状態かを判定し、この判定に基づいて、コンテンツの音声データ又は映像データを読み出して要約音声及び要約映像データを生成するものが知られている(例えば特許文献１参照)。
特開２００３−３１６３７８号公報(第１８頁、第２１図)

しかしながら、映像コンテンツを構成する音声を要約してしまうと利用者の理解が困難になるような映像コンテンツがあるため、従来のコンテンツ編集装置では、音声だけを要約しないクリップ映像を作成することはなかった。
よって、映像コンテンツから主要な映像部分だけを取り出し、取り出した映像部分と映像コンテンツを構成する音声とからなるクリップ映像を作成する場合には、利用者が手動で編集用ソフトウエアを使いながら主要な映像部分だけを取り出すなどの操作が必要であった。このため、利用者が煩雑な編集を行わなければならないという問題があった。

本発明は上記事情を考慮してなされたもので、その目的は、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができるコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法を提供することにある。

本発明のコンテンツ編集装着は、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置であって、前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定手段と、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出手段と、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段とを有することを特徴とする。
この構成によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。

また、本発明のコンテンツ編集装着は、前記強調状態判定手段が強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出手段を更に有し、前記クリップ映像生成手段が、前記強調度算出手段が算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
この構成によれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。

また、本発明のコンテンツ編集装置は、前記クリップ映像生成手段が、前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
この構成によれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。

また、本発明のコンテンツ編集装置は、前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定手段を更に有することを特徴とする。
この構成によれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。

また、本発明のコンテンツ編集プログラムは、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置をコンピュータに制御させるコンテンツ編集プログラムであって、前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定ステップと、前記強調状態判定ステップで強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出ステップと、前記強調映像抽出ステップで抽出した映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成ステップとを有することを特徴とする。
このプログラムによれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。

また、本発明のコンテンツ編集プログラムは、前記強調状態判定ステップで強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出ステップを更に有し、前記クリップ映像生成ステップが、前記強調度算出ステップで算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
このプログラムによれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。

また、本発明のコンテンツ編集プログラムは、前記クリップ映像生成ステップで前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
このプログラムによれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。

また、本発明のコンテンツ編集プログラムは、前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定ステップを更に有することを特徴とする。
このプログラムによれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。

また、本発明のコンテンツ編集方法は、強調状態判定手段、強調映像抽出手段、クリップ映像生成手段を有するコンテンツ編集装置を用いて、音声及び映像により構成される映像コンテンツを編集するコンテンツ編集方法であって、前記強調状態判定手段が、前記映像コンテンツを構成する音声を所定単位の音声信号に分割するとともに、分割したそれぞれの前記音声信号が強調状態か否かを判定し、前記強調映像抽出手段が、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出し、前記クリップ映像生成手段が、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成することを特徴とする。
この方法によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。

本発明のコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法によれば、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。

以下、本発明の第１の実施形態によるコンテンツ編集装置１００について、図面を用いて説明する。図１は、本発明の第１の実施形態によるコンテンツ編集装置１００のブロック構成図である。
図１に示すように、コンテンツ編集装置１００は、強調状態判定手段１１０、強調映像抽出手段１２０、及びクリップ映像生成手段１３０を有する。
コンテンツ編集装置１００は、音声及び映像によって構成される映像コンテンツを編集するためのものである。コンテンツ編集装置１００は、例えば、ホームビデオレコーダで撮影した子供の運動会の様子などを表す映像コンテンツやミュージックビデオなどを編集する際に用いられる。

図２は、本実施形態によるコンテンツ編集装置１００のハードウエア構成を示す概略図である。
ＣＰＵ（Central Processing Unit）１０１は、コンテンツ編集装置１００に関わるプログラムを実行する。なお、強調状態判定手段１１０、強調映像抽出手段１２０、及びクリップ映像生成手段１３０は、ＣＰＵ・１０１によって実行されるプログラムのモジュールにより構成してもかまわない。
ＲＯＭ（Read Only Memory)１０２は、ＣＰＵ・１０１が読み出すプログラム、ＣＰＵ・１０１を立ち上げるためのプログラム、その他のプログラム、及び、制御用のパラメータ等を記憶する。

ＲＡＭ（Random Access Memory）１０３は、ＣＰＵ・１０１の動作中にＣＰＵ・１０１の動作に要するプログラムやデータ等を記憶する。
ＥＥＰＲＯＭ（Electrically Erasable Programable Read-Only Memory）１０４は、プログラムや所定のデータを不揮発かつ書替可能に記憶する。
ハードディスク１０５は、コンテンツを構成するデータなどを記憶する。
インタフェース部１０６は、ネットワークに接続されている装置と所定の通信プロトコルに準拠して通信を行う。

その他、コンテンツ編集装置１００は、液晶ディスプレイなどのディスプレイ１０７やキーボードやマウスなどの入力機器（図示省略）を有する。コンテンツ編集装置１００の装置規模を大きくできる場合には、フレキシブルディスクドライブやＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等のドライブを更に設けるようにしてもよい。
なお、コンテンツ編集装置１００は、パソコンを含むコンピュータを用いて実現することも可能である。

強調状態判定手段１１０は、ＤＶＤ、ハードディスク１０５、又はインタフェース部１０６などから映像コンテンツを入力し、入力した映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの音声信号が強調状態か否かを判定する。

例えば、子供の運動会の様子を撮影して得られた映像コンテンツの強調状態としては、両親が自分の子供を応援する場面であって、自分の子供が徒競走している場面などが相当する。また、ミュージックビデオの映像コンテンツの強調状態としては、音楽のサビの場面などが相当する。

なお、強調状態判定手段１１０は、映像コンテンツを構成する音声信号から音声小段落などに分割し、分割した音声小段落などに含まれる音声信号が平静状態か、強調状態かを判定するようにしてもよい。
また、強調状態判定手段１１０は、分割した音声小段落などに含まれる音声信号に基づいて強調確率を算出し、一定の強調確率を超える音声信号の区間を強調状態と判定するようにしてもよい。

図３は、映像コンテンツを構成する音声信号の特性の一例を示す図である。図３に示すように、再生時間Ｘを有する映像コンテンツの音声信号の特性において、盛り上がり度（以下、強調確率という。）が一定の値を超える音声信号の区間を仮に強調状態とすれば、強調状態判定手段１１０は、区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄを強調状態と判定する。

強調映像抽出手段１２０は、強調状態判定手段１１０が強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出する。
クリップ映像生成手段１３０は、強調映像抽出手段１２０によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。

図４は、図３で説明した映像コンテンツと同一の映像コンテンツを構成する映像信号のイメージを示す図である。強調状態判定手段１１０が強調状態と判定したときの音声信号が区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄに含まれる信号であれば、強調映像抽出手段１２０は、図４の上部に示すように区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄに対応する映像部分を映像コンテンツから抽出する。

なお、強調映像抽出手段１２０によって抽出された映像部分が、区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄに対応する映像部分であれば、クリップ映像生成手段１３０は、区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄに対応する映像部分を映像コンテンツの開始時刻から連続して再生できるようにしてもよい。
すなわち、強調映像抽出手段１２０が抽出した順に映像部分を図４の下部に示すように配置し、配置した映像部分と再生時間Ｘを有する映像コンテンツの音声とを含むクリップ映像を生成するようにしてもよい。また、クリップ映像生成手段１３０は、映像部分の再生時間を保ちながらクリップ映像を生成するようにしてもよい。

なお、クリップ映像生成手段１３０は、映像コンテンツの音声信号を削減せずに、映像コンテンツの開始時刻から終了時刻までクリップ映像に使用し、区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄ以外の区間では、映像コンテンツから得られる静止画像を使用するようにしてもよい。
また、クリップ映像生成手段１３０は、生成したクリップ映像をハードディスク１０５に蓄積するようにしてもよいし、再生してディスプレイ１０７に表示するようにしてもよい。

また、映像コンテンツの再生時間とクリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率を予め決めておき、クリップ映像生成手段１３０が、この映像配置率に従って映像部分を配置するようにクリップ映像を生成してもよい。
例えば、映像配置率が１０％であるとすれば、クリップ映像生成手段１３０は、再生時間Ｘの１０％に相当する映像部分からなるクリップ映像を生成する。また、仮に区間Ａが再生時間Ｘの８％、区間Ｂが再生時間Ｘの２０％であり、映像配置率が１０％であるとすれば、クリップ映像は、図４の下部に示した区間Ａに対応する映像部分の全てが再生されるが、区間Ｂに対応する映像部分の全ては再生されない。

以下、本発明の第１の実施形態によるコンテンツ編集装置１００が実行するプログラムについて、図面を参照して説明する。図５は、本実施形態によるコンテンツ編集装置１００の動作の流れを示すフローチャートである。

まず、映像コンテンツを構成する音声は、強調状態判定手段１１０によって所定単位に分割され、分割された所定単位の音声信号が取り出される（ステップＳ１０１）。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される（ステップＳ１０２）。

全ての音声信号が取り出されていない場合には、ステップＳ１０２において「Ｎｏ」と判断され、取り出された所定単位の音声信号が強調状態か否かが判定される（ステップＳ１０３）。
強調状態である場合には、ステップＳ１０３において「Ｙｅｓ」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段１２０によって映像コンテンツから抽出される（ステップＳ１０４）。また、強調状態でない場合には、ステップＳ１０３において「Ｎｏ」と判断され、ステップＳ１０１に進む。

一方、全ての音声信号が取り出されている場合には、ステップＳ１０２において「Ｙｅｓ」と判断され、強調映像抽出手段１２０によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像が、クリップ映像生成手段１３０によって生成される（ステップＳ１０５）。

以上説明したように、本発明の第１の実施形態によるコンテンツ編集装置１００及びコンテンツ編集プログラムは、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
また、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。

次に、本発明の第２の実施形態によるコンテンツ編集装置１００について、図面を用いて説明する。図６は、本実施形態によるコンテンツ編集装置２００のブロック構成図である。
図６に示すように、コンテンツ編集装置２００は、強調状態判定手段１１０、強調映像抽出手段１２０、クリップ映像生成手段２３０、強調度算出手段２４０、及び映像配置率決定手段２５０を有する。
なお、強調状態判定手段１１０、強調映像抽出手段１２０、クリップ映像生成手段２３０、強調度算出手段２４０、及び映像配置率決定手段２５０は、ＣＰＵ・１０１によって実行されるプログラムのモジュールにより構成してもかまわない。また、コンテンツ編集装置２００は、パソコンなどのコンピュータを用いて実現することも可能である。

なお、本実施形態によるコンテンツ編集装置２００を構成する手段のうち、本発明の第１の実施形態によるコンテンツ編集装置１００を構成する手段と同一の手段には同一の符号を付し、それぞれの説明を省略する。
また、本発明の第２の実施形態によるコンテンツ編集装置２００のハードウエア構成は、本発明の第１の実施形態によるコンテンツ編集装置１００のハードウエア構成と同様である。

強調度算出手段２４０は、強調状態判定手段１１０が強調状態と判定したときの音声信号毎の強調度を算出する。例えば、図３に示すように、強調状態判定手段１１０が区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄを強調状態と判定したとき、強調度算出手段２４０は、まず区間Ａに含まれる複数の音声小段落と対応する強調確率を算出し、算出したそれぞれの強調確率の和又は積を区間Ａの強調度として算出するようにしてもよい。

また、任意の区間に合まれるフレーム数をＬと表し、強調確率をＰ_Ｓｅｍｐ、平静確率をＰ_Ｓｎｒｍとすれば、強調度Ｋは、以下の（１）式により表される。

Ｋ＝Ｌ／（ｌｏｇＰ_Ｓｅｍｐ−ｌｏｇＰ_Ｓｎｒｍ）・・・（１）

なお、強調度算出手段２４０は、（１）式を用いて強調状態判定手段１１０が強調状態と判定したときの音声信号の強調度を算出するようにしてもよい。

クリップ映像生成手段２３０は、強調映像抽出手段１２０によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成すると共に、強調度算出手段２４０によって算出された強調度が大きい順に映像部分を配置するようにクリップ映像を生成する。

例えば、図７に示すように、それぞれの区間に対応した強調度の大きさが、区間Ｂの強調度＞区間Ａの強調度＞区間Ｃの強調度＞区間Ｄの強調度、という関係であったとき、クリップ映像生成手段２３０は、区間Ａ、区間Ｂ、区間Ｃ、及び区間Ｄに対応する映像部分を映像コンテンツの開始時刻から連続して再生できるように、強調度が大きい順（区間Ｂ、区間Ａ、区間Ｃ、区間Ｄの順）に映像部分を図７の下部に示すように配置する。そして、配置した映像部分と再生時間Ｘを有する映像コンテンツの音声とを含むクリップ映像を生成する。

例として、子供の運動会において、始めに入場行進の場面を撮影し、次に子供が徒競走をしている場面を撮影した場合の映像コンテンツについて説明する。この場合、映像コンテンツからクリップ映像を生成するときには、クリップ映像生成手段２３０は、強調度が大きい順に映像部分を配置するため、必ずしも始めに撮影した入場行進の場面を先に配置するとは限らない。

映像配置率決定手段２５０は、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定する。また、クリップ映像生成手段２３０は、映像配置率決定手段２５０が決定した映像配置率に従って映像部分を配置するようにクリップ映像を生成する。

例えば、映像配置率決定手段２５０は、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から音声小段落などに分割し、分割した音声小段落毎に強調確率を算出し、算出したそれぞれの強調確率の和又は積を映像コンテンツの強調度として算出するようにしてもよい。また、（１）式を用いて映像コンテンツを構成する開始時刻から終了時刻までの音声信号の強調度を算出するようにしてもよい。

例えば、映像配置率決定手段２５０は、映像配置率を決定するための配置率決定情報を有している。配置率決定情報の一例を表１に示す。

映像配置率決定手段２５０は、算出した強調度が強調度α以上であった場合、映像配置率を８０％として決定する。また、算出した強調度が強調度α未満、強調度β以上であった場合、映像配置率を３０％として決定する。
なお、表１の配置率決定情報には、強調度の闇値を２つ例示しているが、閾値は２つに限定されるものではない。多数の闇値を設定することにより、映像配置率を細かく決定できるような配置率決定情報を使用することも可能である。

以下、本発明の第２の実施形態によるコンテンツ編集装置２００が実行するプログラムについて、図面を参照して説明する。図８は、本実施形態によるコンテンツ編集装置２００の動作の流れを示すフローチャートである。

まず、映像コンテンツを構成する音声は、強調状態判定手段１１０によって所定単位に分割され、分割された所定単位の音声信号が取り出される（ステップＳ２０１）。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される（ステップＳ２０２）。

全ての音声信号が取り出されていない場合には、ステップＳ２０２において「Ｎｏ」と判断され、取り出された所定単位の音声信号が強調状態か否かが判定される（ステップＳ２０３）。
強調状態である場合には、ステップＳ２０３において「Ｙｅｓ」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段１２０によって映像コンテンツから抽出される（ステップＳ２０４）。また、強調状態でない場合には、ステップＳ２０３において「Ｎｏ」と判断され、ステップＳ２０１に進む。
強調状態判定手段１１０が強調状態と判定したときの音声信号の強調度は、強調度算出手段２４０によって算出される（ステップＳ２０５）。

一方、全ての音声信号が取り出されている場合には、ステップＳ２０２において「Ｙｅｓ」と判断され、映像配置率が、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率決定手段２５０によって決定される（ステップＳ２０６）。

次に、強調映像抽出手段１２０によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像は、強調度算出手段２４０によって算出された強調度が大きい順に映像部分を配置するようにクリップ映像生成手段２３０によって生成される（ステップＳ２０７）。
なお、クリップ映像は、映像配置率決定手段２５０が決定した映像配置率に従って映像部分を配置するように生成されてもよい。

以上説明したように、本発明の第２の実施形態によるコンテンツ編集装置２００及びコンテンツ編集プログラムは、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成する。よって、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心がある映像から再生することができる。
また、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。

音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成するパソコンやＡＶ家電などの端末に利用可能である。

本発明の第１の実施形態によるコンテンツ編集装置１００のブロック構成図である。本実施形態によるコンテンツ編集装置１００のハードウエア構成を示す概略図である。映像コンテンツを構成する音声信号の特性の一例を示す図である。本実施形態による映像コンテンツを構成する映像信号のイメージを示す図である。本実施形態によるコンテンツ編集装置１００の動作の流れを示すフローチャートである。本発明の第２の実施形態によるコンテンツ編集装置２００のブロック構成図である。本実施形態による映像コンテンツを構成する映像信号のイメージを示す図である。本実施形態によるコンテンツ編集装置２００の動作の流れを示すフローチャートである。

符号の説明

１００、２００・・・コンテンツ編集装置
１０１・・・ＣＰＵ
１０２・・・ＲＯＭ
１０３・・・ＲＡＭ
１０４・・・ＥＥＰＲＯＭ
１０５・・・ハードディスク
１０６・・・インタフェース部
１０７・・・ディスプレイ
１１０・・・強調状態判定手段
１２０・・・強調映像抽出手段
１３０、２３０・・・クリップ映像生成手段
２４０・・・強調度算出手段
２５０・・・映像配置率決定手段

Claims

音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置であって、
前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定手段と、
前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出手段と、
前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段と、
を有することを特徴とするコンテンツ編集装置。
前記強調状態判定手段が強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出手段を更に有し、
前記クリップ映像生成手段が、前記強調度算出手段が算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項１に記載のコンテンツ編集装置。
前記クリップ映像生成手段が、前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項１又は２に記載のコンテンツ編集装置。
前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定手段を更に有することを特徴とする請求項１から３のいずれかの項に記載のコンテンツ編集装置。
音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置をコンピュータに制御させるコンテンツ編集プログラムであって、
前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定ステップと、
前記強調状態判定ステップで強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出ステップと、
前記強調映像抽出ステップで抽出した映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成ステップと、
を有することを特徴とするコンテンツ編集プログラム。
前記強調状態判定ステップで強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出ステップを更に有し、
前記クリップ映像生成ステップが、前記強調度算出ステップで算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項５に記載のコンテンツ編集プログラム。
前記クリップ映像生成ステップで前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項５又は６に記載のコンテンツ編集プログラム。
前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定ステップを更に有することを特徴とする請求項５から７のいずれかの項に記載のコンテンツ編集プログラム。
強調状態判定手段、強調映像抽出手段、クリップ映像生成手段を有するコンテンツ編集装置を用いて、音声及び映像により構成される映像コンテンツを編集するコンテンツ編集方法であって、
前記強調状態判定手段が、前記映像コンテンツを構成する音声を所定単位の音声信号に分割するとともに、分割したそれぞれの前記音声信号が強調状態か否かを判定し、
前記強調映像抽出手段が、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出し、
前記クリップ映像生成手段が、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成する
ことを特徴とするコンテンツ編集方法。