JP2005333205A - コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 - Google Patents
コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 Download PDFInfo
- Publication number
- JP2005333205A JP2005333205A JP2004147564A JP2004147564A JP2005333205A JP 2005333205 A JP2005333205 A JP 2005333205A JP 2004147564 A JP2004147564 A JP 2004147564A JP 2004147564 A JP2004147564 A JP 2004147564A JP 2005333205 A JP2005333205 A JP 2005333205A
- Authority
- JP
- Japan
- Prior art keywords
- video
- content
- clip
- enhancement
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができるコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法を提供する。
【解決手段】音声および映像によって構成される映像コンテンツを編集するコンテンツ編集装置100であって、映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの音声信号が強調状態か否かを判定する強調状態判定手段110を有する。また、強調状態判定手段110が強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出する強調映像抽出手段120を有する。更に、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段130を有する。
【選択図】 図1
【解決手段】音声および映像によって構成される映像コンテンツを編集するコンテンツ編集装置100であって、映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの音声信号が強調状態か否かを判定する強調状態判定手段110を有する。また、強調状態判定手段110が強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出する強調映像抽出手段120を有する。更に、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段130を有する。
【選択図】 図1
Description
本発明は、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法に関する。
従来のコンテンツ編集装置としては、コンテンツを構成する音声信号から音声特徴量及び音声小段落に関する情報を抽出し、抽出した情報に基づいて話者の発話状態が平静状態か、強調状態かを判定し、この判定に基づいて、コンテンツの音声データ又は映像データを読み出して要約音声及び要約映像データを生成するものが知られている(例えば特許文献1参照)。
特開2003−316378号公報(第18頁、第21図)
しかしながら、映像コンテンツを構成する音声を要約してしまうと利用者の理解が困難になるような映像コンテンツがあるため、従来のコンテンツ編集装置では、音声だけを要約しないクリップ映像を作成することはなかった。
よって、映像コンテンツから主要な映像部分だけを取り出し、取り出した映像部分と映像コンテンツを構成する音声とからなるクリップ映像を作成する場合には、利用者が手動で編集用ソフトウエアを使いながら主要な映像部分だけを取り出すなどの操作が必要であった。このため、利用者が煩雑な編集を行わなければならないという問題があった。
よって、映像コンテンツから主要な映像部分だけを取り出し、取り出した映像部分と映像コンテンツを構成する音声とからなるクリップ映像を作成する場合には、利用者が手動で編集用ソフトウエアを使いながら主要な映像部分だけを取り出すなどの操作が必要であった。このため、利用者が煩雑な編集を行わなければならないという問題があった。
本発明は上記事情を考慮してなされたもので、その目的は、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができるコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法を提供することにある。
本発明のコンテンツ編集装着は、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置であって、前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定手段と、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出手段と、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段とを有することを特徴とする。
この構成によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
この構成によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
また、本発明のコンテンツ編集装着は、前記強調状態判定手段が強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出手段を更に有し、前記クリップ映像生成手段が、前記強調度算出手段が算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
この構成によれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。
この構成によれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。
また、本発明のコンテンツ編集装置は、前記クリップ映像生成手段が、前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
この構成によれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
この構成によれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
また、本発明のコンテンツ編集装置は、前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定手段を更に有することを特徴とする。
この構成によれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
この構成によれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
また、本発明のコンテンツ編集プログラムは、音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置をコンピュータに制御させるコンテンツ編集プログラムであって、前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定ステップと、前記強調状態判定ステップで強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出ステップと、前記強調映像抽出ステップで抽出した映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成ステップとを有することを特徴とする。
このプログラムによれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
このプログラムによれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
また、本発明のコンテンツ編集プログラムは、前記強調状態判定ステップで強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出ステップを更に有し、前記クリップ映像生成ステップが、前記強調度算出ステップで算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
このプログラムによれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。
このプログラムによれば、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成するため、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心あるような映像から再生することができる。
また、本発明のコンテンツ編集プログラムは、前記クリップ映像生成ステップで前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする。
このプログラムによれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
このプログラムによれば、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
また、本発明のコンテンツ編集プログラムは、前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定ステップを更に有することを特徴とする。
このプログラムによれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
このプログラムによれば、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
また、本発明のコンテンツ編集方法は、強調状態判定手段、強調映像抽出手段、クリップ映像生成手段を有するコンテンツ編集装置を用いて、音声及び映像により構成される映像コンテンツを編集するコンテンツ編集方法であって、前記強調状態判定手段が、前記映像コンテンツを構成する音声を所定単位の音声信号に分割するとともに、分割したそれぞれの前記音声信号が強調状態か否かを判定し、前記強調映像抽出手段が、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出し、前記クリップ映像生成手段が、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成することを特徴とする。
この方法によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
この方法によれば、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
本発明のコンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法によれば、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
以下、本発明の第1の実施形態によるコンテンツ編集装置100について、図面を用いて説明する。図1は、本発明の第1の実施形態によるコンテンツ編集装置100のブロック構成図である。
図1に示すように、コンテンツ編集装置100は、強調状態判定手段110、強調映像抽出手段120、及びクリップ映像生成手段130を有する。
コンテンツ編集装置100は、音声及び映像によって構成される映像コンテンツを編集するためのものである。コンテンツ編集装置100は、例えば、ホームビデオレコーダで撮影した子供の運動会の様子などを表す映像コンテンツやミュージックビデオなどを編集する際に用いられる。
図1に示すように、コンテンツ編集装置100は、強調状態判定手段110、強調映像抽出手段120、及びクリップ映像生成手段130を有する。
コンテンツ編集装置100は、音声及び映像によって構成される映像コンテンツを編集するためのものである。コンテンツ編集装置100は、例えば、ホームビデオレコーダで撮影した子供の運動会の様子などを表す映像コンテンツやミュージックビデオなどを編集する際に用いられる。
図2は、本実施形態によるコンテンツ編集装置100のハードウエア構成を示す概略図である。
CPU(Central Processing Unit)101は、コンテンツ編集装置100に関わるプログラムを実行する。なお、強調状態判定手段110、強調映像抽出手段120、及びクリップ映像生成手段130は、CPU・101によって実行されるプログラムのモジュールにより構成してもかまわない。
ROM(Read Only Memory)102は、CPU・101が読み出すプログラム、CPU・101を立ち上げるためのプログラム、その他のプログラム、及び、制御用のパラメータ等を記憶する。
CPU(Central Processing Unit)101は、コンテンツ編集装置100に関わるプログラムを実行する。なお、強調状態判定手段110、強調映像抽出手段120、及びクリップ映像生成手段130は、CPU・101によって実行されるプログラムのモジュールにより構成してもかまわない。
ROM(Read Only Memory)102は、CPU・101が読み出すプログラム、CPU・101を立ち上げるためのプログラム、その他のプログラム、及び、制御用のパラメータ等を記憶する。
RAM(Random Access Memory)103は、CPU・101の動作中にCPU・101の動作に要するプログラムやデータ等を記憶する。
EEPROM(Electrically Erasable Programable Read-Only Memory)104は、プログラムや所定のデータを不揮発かつ書替可能に記憶する。
ハードディスク105は、コンテンツを構成するデータなどを記憶する。
インタフェース部106は、ネットワークに接続されている装置と所定の通信プロトコルに準拠して通信を行う。
EEPROM(Electrically Erasable Programable Read-Only Memory)104は、プログラムや所定のデータを不揮発かつ書替可能に記憶する。
ハードディスク105は、コンテンツを構成するデータなどを記憶する。
インタフェース部106は、ネットワークに接続されている装置と所定の通信プロトコルに準拠して通信を行う。
その他、コンテンツ編集装置100は、液晶ディスプレイなどのディスプレイ107やキーボードやマウスなどの入力機器(図示省略)を有する。コンテンツ編集装置100の装置規模を大きくできる場合には、フレキシブルディスクドライブやCD(Compact Disc)、DVD(Digital Versatile Disc)等のドライブを更に設けるようにしてもよい。
なお、コンテンツ編集装置100は、パソコンを含むコンピュータを用いて実現することも可能である。
なお、コンテンツ編集装置100は、パソコンを含むコンピュータを用いて実現することも可能である。
強調状態判定手段110は、DVD、ハードディスク105、又はインタフェース部106などから映像コンテンツを入力し、入力した映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの音声信号が強調状態か否かを判定する。
例えば、子供の運動会の様子を撮影して得られた映像コンテンツの強調状態としては、両親が自分の子供を応援する場面であって、自分の子供が徒競走している場面などが相当する。また、ミュージックビデオの映像コンテンツの強調状態としては、音楽のサビの場面などが相当する。
なお、強調状態判定手段110は、映像コンテンツを構成する音声信号から音声小段落などに分割し、分割した音声小段落などに含まれる音声信号が平静状態か、強調状態かを判定するようにしてもよい。
また、強調状態判定手段110は、分割した音声小段落などに含まれる音声信号に基づいて強調確率を算出し、一定の強調確率を超える音声信号の区間を強調状態と判定するようにしてもよい。
また、強調状態判定手段110は、分割した音声小段落などに含まれる音声信号に基づいて強調確率を算出し、一定の強調確率を超える音声信号の区間を強調状態と判定するようにしてもよい。
図3は、映像コンテンツを構成する音声信号の特性の一例を示す図である。図3に示すように、再生時間Xを有する映像コンテンツの音声信号の特性において、盛り上がり度(以下、強調確率という。)が一定の値を超える音声信号の区間を仮に強調状態とすれば、強調状態判定手段110は、区間A、区間B、区間C、及び区間Dを強調状態と判定する。
強調映像抽出手段120は、強調状態判定手段110が強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出する。
クリップ映像生成手段130は、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。
クリップ映像生成手段130は、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。
図4は、図3で説明した映像コンテンツと同一の映像コンテンツを構成する映像信号のイメージを示す図である。強調状態判定手段110が強調状態と判定したときの音声信号が区間A、区間B、区間C、及び区間Dに含まれる信号であれば、強調映像抽出手段120は、図4の上部に示すように区間A、区間B、区間C、及び区間Dに対応する映像部分を映像コンテンツから抽出する。
なお、強調映像抽出手段120によって抽出された映像部分が、区間A、区間B、区間C、及び区間Dに対応する映像部分であれば、クリップ映像生成手段130は、区間A、区間B、区間C、及び区間Dに対応する映像部分を映像コンテンツの開始時刻から連続して再生できるようにしてもよい。
すなわち、強調映像抽出手段120が抽出した順に映像部分を図4の下部に示すように配置し、配置した映像部分と再生時間Xを有する映像コンテンツの音声とを含むクリップ映像を生成するようにしてもよい。また、クリップ映像生成手段130は、映像部分の再生時間を保ちながらクリップ映像を生成するようにしてもよい。
すなわち、強調映像抽出手段120が抽出した順に映像部分を図4の下部に示すように配置し、配置した映像部分と再生時間Xを有する映像コンテンツの音声とを含むクリップ映像を生成するようにしてもよい。また、クリップ映像生成手段130は、映像部分の再生時間を保ちながらクリップ映像を生成するようにしてもよい。
なお、クリップ映像生成手段130は、映像コンテンツの音声信号を削減せずに、映像コンテンツの開始時刻から終了時刻までクリップ映像に使用し、区間A、区間B、区間C、及び区間D以外の区間では、映像コンテンツから得られる静止画像を使用するようにしてもよい。
また、クリップ映像生成手段130は、生成したクリップ映像をハードディスク105に蓄積するようにしてもよいし、再生してディスプレイ107に表示するようにしてもよい。
また、クリップ映像生成手段130は、生成したクリップ映像をハードディスク105に蓄積するようにしてもよいし、再生してディスプレイ107に表示するようにしてもよい。
また、映像コンテンツの再生時間とクリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率を予め決めておき、クリップ映像生成手段130が、この映像配置率に従って映像部分を配置するようにクリップ映像を生成してもよい。
例えば、映像配置率が10%であるとすれば、クリップ映像生成手段130は、再生時間Xの10%に相当する映像部分からなるクリップ映像を生成する。また、仮に区間Aが再生時間Xの8%、区間Bが再生時間Xの20%であり、映像配置率が10%であるとすれば、クリップ映像は、図4の下部に示した区間Aに対応する映像部分の全てが再生されるが、区間Bに対応する映像部分の全ては再生されない。
例えば、映像配置率が10%であるとすれば、クリップ映像生成手段130は、再生時間Xの10%に相当する映像部分からなるクリップ映像を生成する。また、仮に区間Aが再生時間Xの8%、区間Bが再生時間Xの20%であり、映像配置率が10%であるとすれば、クリップ映像は、図4の下部に示した区間Aに対応する映像部分の全てが再生されるが、区間Bに対応する映像部分の全ては再生されない。
以下、本発明の第1の実施形態によるコンテンツ編集装置100が実行するプログラムについて、図面を参照して説明する。図5は、本実施形態によるコンテンツ編集装置100の動作の流れを示すフローチャートである。
まず、映像コンテンツを構成する音声は、強調状態判定手段110によって所定単位に分割され、分割された所定単位の音声信号が取り出される(ステップS101)。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される(ステップS102)。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される(ステップS102)。
全ての音声信号が取り出されていない場合には、ステップS102において「No」と判断され、取り出された所定単位の音声信号が強調状態か否かが判定される(ステップS103)。
強調状態である場合には、ステップS103において「Yes」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段120によって映像コンテンツから抽出される(ステップS104)。また、強調状態でない場合には、ステップS103において「No」と判断され、ステップS101に進む。
強調状態である場合には、ステップS103において「Yes」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段120によって映像コンテンツから抽出される(ステップS104)。また、強調状態でない場合には、ステップS103において「No」と判断され、ステップS101に進む。
一方、全ての音声信号が取り出されている場合には、ステップS102において「Yes」と判断され、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像が、クリップ映像生成手段130によって生成される(ステップS105)。
以上説明したように、本発明の第1の実施形態によるコンテンツ編集装置100及びコンテンツ編集プログラムは、強調状態と判定したときの音声信号に対応する映像部分を映像コンテンツから抽出し、抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成する。よって、音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成することができる。
また、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
また、映像配置率に従って映像部分を配置するようにクリップ映像を生成するため、クリップ映像に関する映像部分の再生時間を調整することができる。
次に、本発明の第2の実施形態によるコンテンツ編集装置100について、図面を用いて説明する。図6は、本実施形態によるコンテンツ編集装置200のブロック構成図である。
図6に示すように、コンテンツ編集装置200は、強調状態判定手段110、強調映像抽出手段120、クリップ映像生成手段230、強調度算出手段240、及び映像配置率決定手段250を有する。
なお、強調状態判定手段110、強調映像抽出手段120、クリップ映像生成手段230、強調度算出手段240、及び映像配置率決定手段250は、CPU・101によって実行されるプログラムのモジュールにより構成してもかまわない。また、コンテンツ編集装置200は、パソコンなどのコンピュータを用いて実現することも可能である。
図6に示すように、コンテンツ編集装置200は、強調状態判定手段110、強調映像抽出手段120、クリップ映像生成手段230、強調度算出手段240、及び映像配置率決定手段250を有する。
なお、強調状態判定手段110、強調映像抽出手段120、クリップ映像生成手段230、強調度算出手段240、及び映像配置率決定手段250は、CPU・101によって実行されるプログラムのモジュールにより構成してもかまわない。また、コンテンツ編集装置200は、パソコンなどのコンピュータを用いて実現することも可能である。
なお、本実施形態によるコンテンツ編集装置200を構成する手段のうち、本発明の第1の実施形態によるコンテンツ編集装置100を構成する手段と同一の手段には同一の符号を付し、それぞれの説明を省略する。
また、本発明の第2の実施形態によるコンテンツ編集装置200のハードウエア構成は、本発明の第1の実施形態によるコンテンツ編集装置100のハードウエア構成と同様である。
また、本発明の第2の実施形態によるコンテンツ編集装置200のハードウエア構成は、本発明の第1の実施形態によるコンテンツ編集装置100のハードウエア構成と同様である。
強調度算出手段240は、強調状態判定手段110が強調状態と判定したときの音声信号毎の強調度を算出する。例えば、図3に示すように、強調状態判定手段110が区間A、区間B、区間C、及び区間Dを強調状態と判定したとき、強調度算出手段240は、まず区間Aに含まれる複数の音声小段落と対応する強調確率を算出し、算出したそれぞれの強調確率の和又は積を区間Aの強調度として算出するようにしてもよい。
また、任意の区間に合まれるフレーム数をLと表し、強調確率をPSemp、平静確率をPSnrmとすれば、強調度Kは、以下の(1)式により表される。
K=L/(logPSemp−logPSnrm) ・・・(1)
なお、強調度算出手段240は、(1)式を用いて強調状態判定手段110が強調状態と判定したときの音声信号の強調度を算出するようにしてもよい。
クリップ映像生成手段230は、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像を生成すると共に、強調度算出手段240によって算出された強調度が大きい順に映像部分を配置するようにクリップ映像を生成する。
例えば、図7に示すように、それぞれの区間に対応した強調度の大きさが、区間Bの強調度>区間Aの強調度>区間Cの強調度>区間Dの強調度、という関係であったとき、クリップ映像生成手段230は、区間A、区間B、区間C、及び区間Dに対応する映像部分を映像コンテンツの開始時刻から連続して再生できるように、強調度が大きい順(区間B、区間A、区間C、区間Dの順)に映像部分を図7の下部に示すように配置する。そして、配置した映像部分と再生時間Xを有する映像コンテンツの音声とを含むクリップ映像を生成する。
例として、子供の運動会において、始めに入場行進の場面を撮影し、次に子供が徒競走をしている場面を撮影した場合の映像コンテンツについて説明する。この場合、映像コンテンツからクリップ映像を生成するときには、クリップ映像生成手段230は、強調度が大きい順に映像部分を配置するため、必ずしも始めに撮影した入場行進の場面を先に配置するとは限らない。
映像配置率決定手段250は、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定する。また、クリップ映像生成手段230は、映像配置率決定手段250が決定した映像配置率に従って映像部分を配置するようにクリップ映像を生成する。
例えば、映像配置率決定手段250は、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から音声小段落などに分割し、分割した音声小段落毎に強調確率を算出し、算出したそれぞれの強調確率の和又は積を映像コンテンツの強調度として算出するようにしてもよい。また、(1)式を用いて映像コンテンツを構成する開始時刻から終了時刻までの音声信号の強調度を算出するようにしてもよい。
例えば、映像配置率決定手段250は、映像配置率を決定するための配置率決定情報を有している。配置率決定情報の一例を表1に示す。
映像配置率決定手段250は、算出した強調度が強調度α以上であった場合、映像配置率を80%として決定する。また、算出した強調度が強調度α未満、強調度β以上であった場合、映像配置率を30%として決定する。
なお、表1の配置率決定情報には、強調度の闇値を2つ例示しているが、閾値は2つに限定されるものではない。多数の闇値を設定することにより、映像配置率を細かく決定できるような配置率決定情報を使用することも可能である。
なお、表1の配置率決定情報には、強調度の闇値を2つ例示しているが、閾値は2つに限定されるものではない。多数の闇値を設定することにより、映像配置率を細かく決定できるような配置率決定情報を使用することも可能である。
以下、本発明の第2の実施形態によるコンテンツ編集装置200が実行するプログラムについて、図面を参照して説明する。図8は、本実施形態によるコンテンツ編集装置200の動作の流れを示すフローチャートである。
まず、映像コンテンツを構成する音声は、強調状態判定手段110によって所定単位に分割され、分割された所定単位の音声信号が取り出される(ステップS201)。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される(ステップS202)。
次に、映像コンテンツを構成する全ての音声信号が取り出されたか否かが確認される(ステップS202)。
全ての音声信号が取り出されていない場合には、ステップS202において「No」と判断され、取り出された所定単位の音声信号が強調状態か否かが判定される(ステップS203)。
強調状態である場合には、ステップS203において「Yes」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段120によって映像コンテンツから抽出される(ステップS204)。また、強調状態でない場合には、ステップS203において「No」と判断され、ステップS201に進む。
強調状態判定手段110が強調状態と判定したときの音声信号の強調度は、強調度算出手段240によって算出される(ステップS205)。
強調状態である場合には、ステップS203において「Yes」と判断され、強調状態と判定したときの音声信号に対応する映像部分が、強調映像抽出手段120によって映像コンテンツから抽出される(ステップS204)。また、強調状態でない場合には、ステップS203において「No」と判断され、ステップS201に進む。
強調状態判定手段110が強調状態と判定したときの音声信号の強調度は、強調度算出手段240によって算出される(ステップS205)。
一方、全ての音声信号が取り出されている場合には、ステップS202において「Yes」と判断され、映像配置率が、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率決定手段250によって決定される(ステップS206)。
次に、強調映像抽出手段120によって抽出された映像部分と映像コンテンツを構成する音声とを含むクリップ映像は、強調度算出手段240によって算出された強調度が大きい順に映像部分を配置するようにクリップ映像生成手段230によって生成される(ステップS207)。
なお、クリップ映像は、映像配置率決定手段250が決定した映像配置率に従って映像部分を配置するように生成されてもよい。
なお、クリップ映像は、映像配置率決定手段250が決定した映像配置率に従って映像部分を配置するように生成されてもよい。
以上説明したように、本発明の第2の実施形態によるコンテンツ編集装置200及びコンテンツ編集プログラムは、算出した強調度が大きい順に映像部分を配置するようにクリップ映像を生成する。よって、クリップ映像を再生する際には、映像コンテンツのうち利用者の関心がある映像から再生することができる。
また、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
また、映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて映像配置率を決定するため、映像配置率を自動的に決定することができる。
音声及び映像によって構成される映像コンテンツからクリップ映像を自動的に生成するパソコンやAV家電などの端末に利用可能である。
100、200・・・コンテンツ編集装置
101・・・CPU
102・・・ROM
103・・・RAM
104・・・EEPROM
105・・・ハードディスク
106・・・インタフェース部
107・・・ディスプレイ
110・・・強調状態判定手段
120・・・強調映像抽出手段
130、230・・・クリップ映像生成手段
240・・・強調度算出手段
250・・・映像配置率決定手段
101・・・CPU
102・・・ROM
103・・・RAM
104・・・EEPROM
105・・・ハードディスク
106・・・インタフェース部
107・・・ディスプレイ
110・・・強調状態判定手段
120・・・強調映像抽出手段
130、230・・・クリップ映像生成手段
240・・・強調度算出手段
250・・・映像配置率決定手段
Claims (9)
- 音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置であって、
前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定手段と、
前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出手段と、
前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成手段と、
を有することを特徴とするコンテンツ編集装置。 - 前記強調状態判定手段が強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出手段を更に有し、
前記クリップ映像生成手段が、前記強調度算出手段が算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項1に記載のコンテンツ編集装置。 - 前記クリップ映像生成手段が、前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項1又は2に記載のコンテンツ編集装置。
- 前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定手段を更に有することを特徴とする請求項1から3のいずれかの項に記載のコンテンツ編集装置。
- 音声及び映像によって構成される映像コンテンツを編集するコンテンツ編集装置をコンピュータに制御させるコンテンツ編集プログラムであって、
前記映像コンテンツを構成する音声を所定単位の音声信号に分割し、分割したそれぞれの前記音声信号が強調状態か否かを判定する強調状態判定ステップと、
前記強調状態判定ステップで強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出する強調映像抽出ステップと、
前記強調映像抽出ステップで抽出した映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成するクリップ映像生成ステップと、
を有することを特徴とするコンテンツ編集プログラム。 - 前記強調状態判定ステップで強調状態と判定したときの前記音声信号毎の強調度を算出する強調度算出ステップを更に有し、
前記クリップ映像生成ステップが、前記強調度算出ステップで算出した強調度が大きい順に前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項5に記載のコンテンツ編集プログラム。 - 前記クリップ映像生成ステップで前記映像コンテンツの再生時間と前記クリップ映像に含まれる映像部分の再生時間との割合を示す映像配置率に従って前記映像部分を配置するように前記クリップ映像を生成することを特徴とする請求項5又は6に記載のコンテンツ編集プログラム。
- 前記映像コンテンツを構成する開始時刻から終了時刻までの音声信号から得られた強調度に基づいて前記映像配置率を決定する映像配置率決定ステップを更に有することを特徴とする請求項5から7のいずれかの項に記載のコンテンツ編集プログラム。
- 強調状態判定手段、強調映像抽出手段、クリップ映像生成手段を有するコンテンツ編集装置を用いて、音声及び映像により構成される映像コンテンツを編集するコンテンツ編集方法であって、
前記強調状態判定手段が、前記映像コンテンツを構成する音声を所定単位の音声信号に分割するとともに、分割したそれぞれの前記音声信号が強調状態か否かを判定し、
前記強調映像抽出手段が、前記強調状態判定手段が強調状態と判定したときの前記音声信号に対応する映像部分を前記映像コンテンツから抽出し、
前記クリップ映像生成手段が、前記強調映像抽出手段によって抽出された映像部分と前記映像コンテンツを構成する音声とを含むクリップ映像を生成する
ことを特徴とするコンテンツ編集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004147564A JP2005333205A (ja) | 2004-05-18 | 2004-05-18 | コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004147564A JP2005333205A (ja) | 2004-05-18 | 2004-05-18 | コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005333205A true JP2005333205A (ja) | 2005-12-02 |
Family
ID=35487585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004147564A Pending JP2005333205A (ja) | 2004-05-18 | 2004-05-18 | コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005333205A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186358A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 映像分類方法、映像分類装置および映像分類プログラム |
JP2010283478A (ja) * | 2009-06-03 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 映像予告生成装置、映像予告生成方法および映像予告生成プログラム |
CN114268831A (zh) * | 2021-11-30 | 2022-04-01 | 乐美科技股份私人有限公司 | 一种视频剪辑方法及装置 |
CN114268831B (zh) * | 2021-11-30 | 2024-05-24 | 璀璨木星私人有限公司 | 一种视频剪辑方法及装置 |
-
2004
- 2004-05-18 JP JP2004147564A patent/JP2005333205A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186358A (ja) * | 2009-02-13 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 映像分類方法、映像分類装置および映像分類プログラム |
JP2010283478A (ja) * | 2009-06-03 | 2010-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 映像予告生成装置、映像予告生成方法および映像予告生成プログラム |
CN114268831A (zh) * | 2021-11-30 | 2022-04-01 | 乐美科技股份私人有限公司 | 一种视频剪辑方法及装置 |
CN114268831B (zh) * | 2021-11-30 | 2024-05-24 | 璀璨木星私人有限公司 | 一种视频剪辑方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301113B2 (en) | Information processing apparatus display control method and program | |
CN104732593B (zh) | 一种基于移动终端的3d动画编辑方法 | |
KR100597667B1 (ko) | 개선된 사용자 인터페이스를 가진 이동통신단말기 | |
US8457322B2 (en) | Information processing apparatus, information processing method, and program | |
JP4596060B2 (ja) | 電子機器、動画像データ区間変更方法及びプログラム | |
JP4683116B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 | |
KR20160142184A (ko) | 디스플레이 장치 및 이의 제어 방법. | |
US20090306960A1 (en) | Music playback apparatus and music playback method | |
JP4965371B2 (ja) | 音声再生装置 | |
JP6641045B1 (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
JP2005333205A (ja) | コンテンツ編集装置、コンテンツ編集プログラム及びコンテンツ編集方法 | |
JP2004033690A (ja) | ビデオゲーム装置、記録媒体およびプログラム | |
JP2012169743A (ja) | 情報処理装置及び情報処理方法 | |
KR20060031474A (ko) | 멀티미디어 콘텐츠의 재생이 가능한 이동통신단말기 및 그재생방법 | |
JP6964918B1 (ja) | コンテンツ作成支援システム、コンテンツ作成支援方法及びプログラム | |
JP2005141424A (ja) | 情報処理方法及び情報処理装置 | |
US20230197114A1 (en) | Storage apparatus, playback apparatus, storage method, playback method, and medium | |
JP6646172B1 (ja) | 多言語コンテンツの教育用再生方法、そのためのデータ構造及びプログラム | |
JP2004215123A (ja) | 画像再生装置、画像再生方法及び画像再生プログラム | |
JP4264028B2 (ja) | 要約番組生成装置、及び要約番組生成プログラム | |
JP4335175B2 (ja) | 情報再生装置、情報再生方法及びコンピュータプログラム | |
WO2020066660A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP2008022978A (ja) | ゲームシステム、プログラムおよび情報記憶媒体 | |
JP2007256815A (ja) | 音声再生装置、音声再生方法、音声再生プログラム | |
JP2004302286A (ja) | 情報出力装置、情報出力プログラム |