以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の第1の側面の撮影装置は、
音声付き映像を撮影する撮影装置(例えば、図1のビデオカメラ21)において、
被写体を撮影する撮影手段(例えば、図2のカメラ74)と、
周囲の音声を取得する取得手段(例えば、図2のマイクロフォン21A)と、
前記音声のレベルが第1の時間以上の間第1の閾値以上になった場合と、その後に第2の時間以上の間第2の閾値未満になった場合に、その音声に対応する音声付き映像の位置に、前記音声の特徴を示す電子マークを付与する付与手段(例えば、図3の作成部93)と
を備える。
本発明の第1の側面の撮影方法は、
音声付き映像を撮影する撮影装置(例えば、図1のビデオカメラ21)の撮影方法において、
被写体を撮影し(例えば、図8のステップS33)、
周囲の音声を取得し(例えば、図8のステップS33)、
前記音声のレベルが第1の時間以上の間第1の閾値以上になった場合と、その後に第2の時間以上の間第2の閾値未満になった場合に、その音声に対応する音声付き映像の位置に、前記音声の特徴を示す電子マークを付与する(例えば、図8のステップS35とS37)
ステップを含む。
本発明の第2の側面の情報処理装置は、
音声付き映像に付与された音声の特徴を示す電子マークに対して、所定の処理を行う情報処理装置(例えば、図1の編集装置41)において、
ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付ける受付手段(例えば、図9の操作部I/F114)と、
前記受付手段により入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与された電子マークに付加する付加手段(例えば、図10の付加部151)と
を備える。
本発明の第2の側面の情報処理装置は、
前記受付手段により受け付けられた固有情報の入力に応じて、その入力に対応する音声付き映像の位置に前記電子マークを付与する付与手段(例えば、図26の作成部192)
をさらに備える。
本発明の第2の側面の情報処理方法は、
音声付き映像に付与された音声の特徴を示す電子マークに対して、所定の処理を行う情報処理装置(例えば、図1の編集装置41)の情報処理方法において、
ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付け(例えば、図22のステップS74)、
入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与された電子マークに付加する(例えば、図22のステップS75)
ステップを含む。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明を適用した撮影編集システムの第1の実施の形態の構成例を示している。
図1の撮影編集システム10は、例えば、テレビジョン番組の素材となるテレビジョン素材を撮影して編集するために用いられる撮影編集システムである。
撮影編集システム10は、マイクロフォン21Aを備えたカムコーダーなどのビデオカメラ21、ビデオカメラ22、および編集装置41により構成される。
ビデオカメラ21および22は、テレビジョン番組であるニュース番組やドキュメンタリ番組のテレビジョン素材の収録に使用される装置である。ビデオカメラ21は、テレビジョン素材の映像を撮影するとともに、マイクロフォン21Aにより周囲の音声を取得する。ビデオカメラ21は、その結果得られる音声付き映像のデータを、テレビジョン素材のデータである素材データとして光ディスク31に記録する。
また、ビデオカメラ22は、テレビジョン素材の映像を撮影し、その結果得られる映像のデータを素材データとして、光ディスク32に記録する。さらに、ビデオカメラ21および22は、それぞれ、ユーザの入力に基づいて、収録に関する情報等のように、例えば、後段の編集時に有用となる情報等を生成し、素材データにメタデータとして関連付ける。
素材データや、それに関連付けられるメタデータが記録された光ディスク31または32は、編集装置41の光ディスクドライブ41Aに装着される。
編集装置41は、光ディスクドライブ41Aに装着される光ディスク31および32に記録された素材データの、1つの光ディスク31への集約と、その光ディスク31に集約された素材データの編集とに使用される装置である。
編集装置41は、光ディスク32に記録された素材データを、必要に応じて光ディスク31に複写する。また、編集装置41は、ユーザの入力に応じて、光ディスク31に集約された素材データの非破壊編集を行い、その編集結果に関する情報であるエディットリストを作成して、光ディスク31に記録する。さらに、編集装置41は、ユーザの入力に応じて、編集結果のうちの所望の発言者の音声にダックボイス加工を施す。
なお、図1の撮影編集システム10では、ビデオカメラ21または22と編集装置41が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。
また、撮影編集システム10では、光ディスク31および32が、編集装置41の光ディスクドライブ41Aに装着され、その光ディスク31および32に対する読み出しまたは記録が行われるものとしたが、編集装置41が、光ディスク31が装着されたビデオカメラ21、および、光ディスク32が装着されたビデオカメラ22とネットワークを介して接続され、そのネットワークを介して、光ディスク31および32に対する読み出しまたは記録が行われるようにしてもよい。
図2は、図1のビデオカメラ21のハードウェア構成例を示すブロック図である。
図2のビデオカメラ21では、映像入力I/F(Interface)60、音声入力I/F61、マイクロコンピュータ(以下、マイコンという)62、一時記憶メモリI/F63、光ディスクドライブI/F64、操作部I/F65、音声出力I/F66、シリアルデータI/F67、映像表示I/F68、メモリカードI/F69、ネットワークI/F70、ハードディスクドライブI/F71、およびドライブI/F72が、システムバス73に接続されている。
映像入力I/F60には、カメラ74が接続されており、カメラ74により撮影された結果得られる映像信号が、カメラ74から入力される。映像入力I/F60は、その映像信号に含まれる、SDI(Serial Digital Interface)規格に準拠した信号、コンポジット信号、コンポーネント信号などの同期信号に対してA/D(Analog/Digital)変換を行い、その結果得られるデジタル信号を映像データとして、システムバス73を介して、マイコン62、映像表示I/F68、または、一時記憶メモリI/F63に供給する。
音声入力I/F61には、外部に設けられたマイクロフォン21Aが接続されており、マイクロフォン21Aにより取得された周囲の音声のアナログ信号である音声信号が入力される。音声入力I/F61は、その音声信号に対してA/D変換を行い、その結果得られるデジタル信号を音声データとして、システムバス73を介して、マイコン62または一時記憶メモリI/F63に供給する。
マイコン62は、CPU(Central Processing Unit)、ROM(Read Only Memory)、およびRAM(Random Access Memory)により構成される。マイコン62のCPUは、ROMまたはハードディスク81に記録されているプログラムにしたがって、操作部I/F65からの操作信号などに応じて、ビデオカメラ21の各部を制御する。
例えば、CPUは、映像入力I/F60から供給される映像データと、音声入力I/F61から供給される音声データとからなる素材データを用いて、その映像データの解像度を低くしたプロキシデータを作成する。CPUは、そのプロキシデータと素材データを一時記憶メモリI/F63に供給して、一時記憶メモリ75に記憶させる。また、CPUは、音声入力I/F61から供給される音声データのレベルに応じて、音声の特徴を示す電子マークを記述する電子マークデータを作成し、光ディスクドライブI/F64に供給する。
さらに、CPUは、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの音声データを、システムバス73を介して音声出力I/F66に供給して、その音声データに対応する音声をスピーカ78から出力させる。
また、CPUは、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの映像データを、システムバス73を介して映像表示I/F68に供給して、その映像データに対応する映像を表示装置79に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
一時記憶メモリI/F63には、バッファなどの一時記憶メモリ75が接続されており、一時記憶メモリI/F63は、映像入力I/F60からの映像データと、音声入力I/F61からの音声データとからなる素材データを、一時記憶メモリ75に記憶させる。また、一時記憶メモリI/F63は、マイコン62から供給されるプロキシデータを、一時記憶メモリ75に記憶させる。
さらに、一時記憶メモリI/F63は、一時記憶メモリ75に記憶されている、映像入力I/F60からの映像データと、音声入力I/F61からの音声データとからなる素材データとプロキシデータとを読み出す。そして、一時記憶メモリI/F63は、その素材データとプロキシデータを、システムバス73を介して光ディスクドライブI/F64に供給し、光ディスク31に記録させる。
また、一時記憶メモリI/F63は、光ディスクドライブI/F64から供給されるクリップ(詳細は後述する)のうちの素材データまたはプロキシデータを、一時記憶メモリ75に記憶させる。さらに、一時記憶メモリI/F63は、一時記憶メモリ75に記憶されている、光ディスクドライブI/F64から供給された素材データまたはプロキシデータを読み出し、システムバス73を介して、マイコン62に供給する。
なお、クリップとは、例えば、1回の撮影処理(撮影開始から撮影終了までの撮影処理)により得られた素材データ、メタデータ、プロキシデータ等の集合体を指す。
光ディスクドライブI/F64には、光ディスク31が装着される光ディスクドライブ76が接続されている。光ディスクドライブI/F64は、光ディスクドライブ76を制御して、クリップのうちの素材データまたはプロキシデータを読み出し、システムバス73を介して一時記憶メモリI/F63に供給する。
また、光ディスクドライブI/F64は、光ディスクドライブ76を制御し、一時記憶メモリI/F63からの素材データ、プロキシデータなどを、光ディスク31にクリップ単位で記録させる。さらに、光ディスクドライブI/F64は、光ディスクドライブ76を制御し、マイコン62からの電子マークデータを、光ディスク31に記録させる。
操作部I/F65には、操作ボタン、リモートコントローラから送信されてくる指令を受信する受信部などの操作部77が接続される。操作部I/F65は、ユーザによる操作部77の操作に応じて、その操作を表す操作信号を生成し、その操作信号を、システムバス73を介してマイコン62に供給する。
音声出力I/F66には、スピーカ78が接続される。音声出力I/F66は、マイコン62から供給される音声データに対してD/A(Digital/Audio)変換を行い、その結果得られるアナログ信号を増幅して、スピーカ78に供給する。スピーカ78は、音声出力I/F66からのアナログ信号に基づいて、音声を外部に出力する。なお、音声出力I/F66は、音声データをそのままスピーカ78に供給し、スピーカ78が、D/A変換等を行い、その結果得られるアナログ信号に基づいて音声を外部に出力するようにしてもよい。
シリアルデータI/F67は、必要に応じて、図示せぬ外部のコンピュータ等のデジタル機器との間で、データをやり取りする。映像表示I/F68には、表示装置79が接続され、映像表示I/F68は、映像入力I/F60またはマイコン62からの映像データに対して、D/A変換を行い、その結果得られるコンポジット信号、コンポーネント信号などのアナログ信号を増幅して、表示装置79に供給する。表示装置79は、映像表示I/F68からのアナログ信号に基づいて映像を表示する。
なお、映像表示I/F68は、映像データをそのまま表示装置79に供給し、表示装置79がD/A変換等を行い、その結果得られるアナログ信号に基づいて映像を外部に出力するようにしてもよい。
メモリカードI/F69は、必要に応じてビデオカメラ21に装着されるメモリカード(図示せず)に対して、素材データ、各種の設定データなどの読み書きを行う。ネットワークI/F70は、必要に応じて、インターネットやローカルエリアネットワークといった、有線または無線のネットワークを介して接続される他の装置との間で、データのやり取りを行う。
例えば、ネットワークI/F70は、他の装置からネットワークを介してプログラムを取得し、システムバス73、ハードディスクドライブI/F71、およびハードディスクドライブ80を介して、ハードディスク81に記録させる。
ハードディスクドライブI/F71には、ハードディスク81が装着されるハードディスクドライブ80が接続されている。ハードディスクドライブI/F71は、ハードディスクドライブ80を制御し、ハードディスク81に対するデータの読み書きを行う。例えば、ハードディスクドライブI/F71は、ハードディスクドライブ80を制御し、ネットワークI/F70とシステムバス73を介して供給されるプログラムを、ハードディスク81に記録させる。
ドライブI/F72には、ドライブ82が接続されている。ドライブI/F72は、ドライブ82を制御し、ドライブ82に磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア51が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じてハードディスクドライブI/F71などを介してハードディスク81に転送され、記録される。
システムバス73は、そこに接続されている各部の間でのデータのやり取りを仲介する。
なお、図1のビデオカメラ22も、図2のビデオカメラ21と同様に構成されるが、ビデオカメラ22には、マイクロフォンが接続されておらず、マイクロフォンから音声信号が入力されない。即ち、ビデオカメラ22は、テレビジョン素材の映像だけを撮影する。従って、ビデオカメラ22は、音声の部分を除けばビデオカメラ21と同様であり、以下では、ビデオカメラ22についての説明は省略する。
次に、図2のビデオカメラ21において、マイコン62は、所定のプログラムを実行することにより、テレビジョン素材の音声付き映像を撮影する撮影処理部として機能する。
図3は、そのような撮影処理部の機能的な構成例を示している。
図3の撮影処理部90は、制御部91、判定部92、および作成部93により構成される。
制御部91は、撮影に関する各種の制御を行う。例えば、制御部91は、操作部I/F65から供給される、撮影の開始を指令するための操作を表す操作信号に応じて、映像入力I/F60と音声入力I/F61を制御し、素材データの取得を開始する。また、制御部91は、取得した素材データのうちの音声データを判定部92に供給する。
また、制御部91は、取得した素材データを用いてプロキシデータを作成する。さらに、制御部91は、素材データとプロキシデータを一時記憶メモリI/F63に供給して、一時記憶メモリ75に記憶させる。
判定部92は、制御部91から供給される音声データのレベルに応じて、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであるか、および、発言の終了時の音声データであるかを判定する。判定部92は、その判定の結果に基づいて、未定の発言者の発言の開始時または終了時の音声データに対応するフレーム番号を、作成部93に供給する。
作成部93は、判定部92から供給される未定の発言者の発言の開始時または終了時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する、未定の発言者の発言の開始位置または終了位置を音声の特徴として示す電子マークを作成する。作成部93は、その電子マークを記述した電子マークデータを、光ディスクドライブI/F64に供給して、光ディスク31に記録させる。
図4は、図1の光ディスク31に記録されているファイルのディレクトリ構造の例を示している。
図4において、シンボル95は、1つのディレクトリを表している。なお、符号は付していないが、シンボル(ディレクトリ)95と同一のその他のシンボルも、1つのディレクトリを表している。また、シンボル96は、1つのファイルを示している。なお、符号は付していないが、シンボル(ファイル)96と同一のその他のシンボルも、1つのファイルを示している。
なお、以下、特に断りの無い限り、ディレクトリとディレクトリのシンボルとは同一であるとみなして説明する。同様に、ファイルとファイルのシンボルとは同一であるとみなして説明する。また、各ディレクトリのそれぞれ、および、各ファイルのそれぞれの識別を容易なものとするために、以下、ファイルまたはディレクトリの後方に括弧( )書きでその名称を記載する。
図4の例では、光ディスク31には、目次を記述するデータのファイルであり、クリップを管理するための情報を記述するインデックスファイル(INDEX.XML)96と、光ディスク31の代表画のパス、光ディスク31のタイトルやコメントなどから構成されるディスクメタデータのファイルであるディスクメタファイル(DISCMETA.XML)とが設けられている。
また、光ディスク31には、クリップの素材データとメタデータのファイルが下位に設けられるクリップディレクトリ(Clip)95と、クリップのプロキシデータのファイルが下位に設けられるプロキシディレクトリ(Sub)が設けられている。
クリップディレクトリ(Clip)95には、光ディスク31に記録されているクリップのうちの素材データとメタデータが、それぞれ、クリップ毎に異なるファイルとして記録される。
具体的には、例えば、図4は、光ディスク31に3つのクリップのデータが記録されている場合の例を示している。
即ち、例えば、クリップディレクトリ95の下位には、光ディスク31に記録された最初のクリップの素材データのファイルである第1のクリップファイル(C0001.MXF)と、このクリップの素材データに対応する、リアルタイム性を要求されない電子マークデータなどのメタデータ(以下、ノンリアルタイムメタデータ(NRTデータ)という)を含むファイルである第1のNRTファイル(C0001M01.XML)とが設けられている。
また、クリップディレクトリ95の下位には、第1のクリップファイル(C0001.MXF)および第1のNRTファイル(C0001M01.XML)と同様に、第2のクリップファイル(C0002.MXF)および第2のNRTファイル(C0002M01.XML)、並びに、第3のクリップファイル(C0003.MXF)および第3のNRTファイル(C0003M01.XML)が設けられている。
また、図4において、このようなクリップディレクトリ(Clip)の下方に示される、プロキシディレクトリ(Sub)には、光ディスク31に記録されているクリップのプロキシデータが、クリップ毎に異なるファイルとして記録されている。
例えば、図4の例の場合、プロキシディレクトリ(Sub)の下位には、光ディスク31に記録された最初のクリップのプロキシデータのファイルである第1のプロキシファイル(C0001S01.MXF)、第2のクリップのプロキシデータのファイルである第2のプロキシファイル(C0002S01.MXF)、および第3のクリップのプロキシデータのファイルである第3のプロキシファイル(C0003S01.MXF)が設けられる。
さらに、光ディスク31には、クリップ以外のデータのファイルが設けられる一般ディレクトリ(General)が設けられている。
図5は、図4のクリップファイルのフォーマットの例を示している。
図5Aに示すように、クリップファイルは、素材データが1クリップ分まとめてボディに配置され、さらに、そのボディにヘッダとフッタが付加されることにより構成される。
ヘッダには、その先頭から、ヘッダパーティションパック(Header Partition Pack)、ヘッダメタデータ(Header Metadata)、インデックステーブル(Index Table)が順次配置される。ヘッダパーティションパックには、ファイルフォーマット(例えば、MXF(Material exchange Format))を表すデータであるパーティションメタデータ、ボディの長さ、ボディの開始位置、ボディに配置されるデータの形式を表すデータなどが配置される。ヘッダメタデータには、例えば、UMID(Unique Material Identifier)、先頭タイムコード、ファイルの作成日、ボディに配置されたデータに関する情報(例えば、映像の画素数、アスペクト比など)などが配置される。
なお、UMIDとは、各ファイルをグローバルユニークに識別するためのファイル固有の識別子であって、SMPTE(Society of Motion Picture and Television Engineers)により定められる識別子を指す。
インデックステーブルには、ボディに配置されたデータを管理するためのデータなどが配置される。フッタは、フッタパーティションパック(Footer Partition Pack)により構成され、フッタパーティションパックには、フッタを特定するためのデータなどが配置される。
図5Bに示すように、クリップファイルのボディには、1フレーム分のリアルタイム性を要求されるメタデータ(以下、リアルタイムメタデータという)が配置されるシステムアイテム、D10と呼ばれるMPEG(Moving Picture Experts Group) IMX方式で符号化された映像データ、および、AES(Audio Engineering Society)3形式の非圧縮の音声データが、KLV(Key,Length,Value)構造にKLVコーディングされて配置される。
KLV構造とは、その先頭から、キー(Key)、レングス(Length)、バリュー(Value)が順次配置された構造であり、キーには、バリューに配置されるデータがどのようなデータであるかを表す、SMPTE 298Mの規格に準拠した16バイトのラベルが配置される。レングスには、バリューに配置されるデータのデータ長が配置される。バリューには、実データ、即ち、ここでは、システムアイテム、映像データ、または音声データが配置される。
また、KLVコーディングされたシステムアイテム、映像データ、および音声データは、そのデータ長が、KAG(KLV Alignment Grid)を基準とする固定長となっている。そして、KLVコーディングされたシステムアイテム、映像データ、および音声データを固定長とするのに、スタッフィング(stuffing)のためのデータとしてのフィラー(Filler)が、やはりKLV構造とされて、KLVコーディングされたシステムアイテム、映像データ、および音声データのそれぞれの後に配置される。
図6は、未定の発言者の発言の開始位置または終了位置を示す電子マークを記述した電子マークデータの例を示している。
なお、図6の例では、電子マークデータは、XML(Extensible Markup Language)で記述されている。また、図6において、各行頭の数字は、説明の便宜上付加したものであり、XML記述の一部ではない。これらのことは、後述する図13、図18、図20、図33、および図34においても同様である。
図6に示すように、電子マークデータのXML記述は、主に電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部により構成される。図6の例では、この電子マークテーブル部は、2乃至11行目に記述されている。
なお、2行目の「targetMedia="Original-Material"」の記述は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。
また、詳細には、電子マークテーブル部には、クリップの素材データに付与される全ての電子マークの情報がリスト化されてまとめて記述される。図6の例では、EssenceMark要素は、各電子マークに対応しており、value属性において電子マークが示す特徴を示し、frameCount属性において電子マークが付与される付与位置の、クリップの先頭からのフレーム数を示している。
例えば、図6の3行目の「EssenceMark value="Speaker-X:start"frameCount="0"」の記述は、この電子マークが示す特徴が未定の発言者による発言の開始位置であり、付与位置がクリップの先頭から0フレーム目であることを示している。
また、図6の4行目の「EssenceMark value="Speaker-X:end"frameCount="564"」の記述は、この電子マークが示す特徴が未定の発言者による発言の終了位置であり、付与位置がクリップの先頭から564フレーム目であることを示している。
同様に、5行目の「EssenceMark value="Speaker-X:start"frameCount="564"」、7行目の「EssenceMark value="Speaker-X:start"frameCount="924"」、9行目の「EssenceMark value="Speaker-X:start"frameCount="1804"」の記述は、この電子マークが示す特徴が未定の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から564フレーム目、924フレーム目、1804フレーム目であることを示している。
また、6行目の「EssenceMark value="Speaker-X:end"frameCount="924"」、8行目の「EssenceMark value="Speaker-X:end"frameCount="1804"」、10行目の「EssenceMark value="Speaker-X:end"frameCount="2100"」の記述は、この電子マークが示す特徴が未定の発言者による発言の終了位置であり、付与位置が、それぞれ、クリップの先頭から924フレーム目、1804フレーム目、2100フレーム目であることを示している。
次に、図7を参照して、ユーザがビデオカメラ21を用いて行う撮影作業について説明する。
図7の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ21による主な処理の内容、および、その処理の対象となるデータが記述されている。
図7に示すように、ステップS11において、ユーザは、操作部77を操作して、撮影の開始を指令する。このとき、ビデオカメラ21の制御部91は、クリップのNRTファイル(図4)を光ディスク31に作成する。また、制御部91は、クリップファイルを光ディスク31に作成する。さらに、制御部91は、映像入力I/F60と音声入力I/F61から供給される素材データのクリップファイルへの記録を開始するとともに、その素材データのうちの音声データの判定部92への供給を開始する。
また、判定部92は、制御部91から供給される音声データの所定の閾値以上のレベルが所定時間以上連続したことを検出する。そして、判定部92は、音声データの所定の閾値以上のレベルが所定時間以上連続したとき、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部93に供給する。
作成部93は、判定部92から供給される未定の発言者の発言の開始時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する未定の発言者の発言の開始位置を音声の特徴として示す電子マーク(以下、発言者未定EM(start)という)を作成する。そして、作成部93は、その発言者未定EM(start)を、クリップのNRTファイルの電子マークデータに記述する。
また、判定部92は、音声データの所定の閾値未満のレベルが所定時間以上連続したことを検出する。そして、判定部92は、音声データの所定の閾値未満のレベルが所定時間以上連続したとき、その音声データが、テレビジョン素材における未定の発言者の発言の終了時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部93に供給する。
作成部93は、判定部92から供給される未定の発言者の発言の終了時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する未定の発言者の発言の終了位置を音声の特徴として示す電子マーク(以下、発言者未定EM(end)という)を作成する。そして、作成部93は、その発言者未定EM(end)を、クリップのNRTファイルの電子マークデータに記述する。
ステップS12において、ユーザは、操作部77を操作して撮影の終了を指令する。このとき、制御部91は、素材データのクリップファイルへの記録を終了するとともに、その素材データのうちの音声データの判定部92への供給を終了する。
次に、図8のフローチャートを参照して、図3の撮影処理部90による撮影処理について説明する。この撮影処理は、例えば、ユーザが操作部77を操作することにより、撮影の開始を指令したとき開始される。
ステップS31において、撮影処理部90の制御部91は、クリップのNRTファイルを光ディスク31に作成する。ステップS32において、制御部91は、クリップファイルを光ディスク31に作成する。ステップS33において、制御部91は、映像入力I/F60と音声入力I/F61から供給される素材データのクリップファイルへの記録を開始する。また、制御部91は、その素材データのうちの音声データの判定部92への供給を開始する。
ステップS34において、判定部92は、制御部91から供給される音声データの閾値以上のレベルが所定時間以上連続したか、即ち、音声データのレベルが所定時間以上の間閾値以上であるかを判定する。ステップS34で音声データの閾値以上のレベルが所定時間以上連続していないと判定された場合、判定部92は、音声データの閾値以上のレベルが所定時間以上連続するまで待機する。
ステップS34で音声データの閾値以上のレベルが所定時間以上連続したと判定された場合、判定部92は、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部93に供給する。
そして、ステップS35において、作成部93は、判定部92から供給される未定の発言者の発言の開始時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する発言者未定EM(start)を作成し、その発言者未定EM(start)をクリップのNRTファイルの電子マークデータに記述する。
ステップS36において、判定部92は、制御部91から供給される音声データの閾値未満のレベルが所定時間以上連続したか、即ち音声データのレベルが所定時間以上の間閾値未満であるかを判定する。ステップS36で、音声データの閾値未満のレベルが所定時間以上連続していないと判定された場合、判定部92は、音声データの閾値未満のレベルが所定時間以上連続するまで待機する。
一方、ステップS36で音声データの閾値未満のレベルが所定時間以上連続したと判定された場合、判定部92は、その音声データが、テレビジョン素材における未定の発言者の発言の終了時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部93に供給する。
そして、ステップS37において、作成部93は、判定部92から供給される未定の発言者の発言の終了時に対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する発言者未定EM(end)を作成し、その発言者未定EM(end)をクリップのNRTファイルの電子マークデータに記述する。
ステップS38において、制御部91は、操作部77からの操作信号に基づいて、ユーザにより撮影の終了が指令されたかを判定する。ステップS38で撮影の終了が指令されていないと判定された場合、処理はステップS34に戻り、上述した処理を繰り返す。
ステップS38で、ユーザにより撮影の終了が指令されたと判定された場合、ステップS39において、制御部91は、素材データのクリップファイルへの記録を終了する。また、制御部91は、その素材データのうちの音声データの判定部92への供給を終了する。
そして処理は終了する。
以上のように、ビデオカメラ21は、音声データのレベルが所定時間以上の間閾値以上である場合、または、音声データのレベルが所定の時間以上の間閾値未満である場合、その音声データに対応するフレームに、発言者未定EM(start)または発言者未定EM(end)を付与するので、この発言者未定EM(start)と発言者未定EM(end)により、後述する編集装置41において発言の開始位置と終了位置を容易に認識することができる。
図9は、図1の編集装置41のハードウェア構成例を示すブロック図である。
図9の編集装置41では、マイコン111、一時記憶メモリI/F112、光ディスクドライブI/F113、操作部I/F114、音声出力I/F115、シリアルデータI/F116、映像表示I/F117、メモリカードI/F118、ネットワークI/F119、ハードディスクドライブI/F120、およびドライブI/F121が、システムバス122に接続されている。
マイコン111は、CPU、ROM、およびRAMにより構成される。マイコン111のCPUは、ROMまたはハードディスク128に記録されているプログラムにしたがって、操作部I/F114からの操作信号などに応じて、編集装置41の各部を制御する。
例えば、CPUは、光ディスクドライブI/F113から供給される、光ディスクドライブ41Aに装着された光ディスク31または光ディスク32から読み出されたクリップを、一時記憶メモリI/F112に供給する。また、CPUは、一時記憶メモリI/F112から供給される、光ディスク32に記録されているクリップを、光ディスクドライブI/F113を介して光ディスクドライブ41Aに供給し、光ディスク31に集約する。
さらに、CPUは、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、エディットリストを光ディスクドライブI/F113を介して光ディスクドライブ41Aに供給し、光ディスク31に記録させる。
また、CPUは、操作信号に応じて、一時記憶メモリI/F112から供給されるクリップの電子マークデータに記述される、発言者未定EM(start)と発言者未定EM(end)に、ユーザにより入力された発言者の固有の情報としての発言者IDを付加する。そして、CPUは、発言者IDが付加された発言者未定EM(start)である発言者EM(start)と、発言者IDが付加された発言者未定EM(end)である発言者EM(end)とを記述した電子マークデータを、光ディスクドライブI/F113に供給して、光ディスク31のクリップのNRTファイルに記録させる。
さらに、CPUは、エディットリストとクリップのNRTファイルの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、CPUは、その電子マークデータを、光ディスクドライブI/F113に供給して、光ディスク31に記録させる。
また、CPUは、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者IDの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。
さらに、CPUは、一時記憶メモリI/F112から供給されるクリップのうちの音声データを、システムバス122を介して音声出力I/F115に供給して、クリップの音声をスピーカ125から出力させる。また、CPUは、一時記憶メモリI/F112から供給されるクリップのうちの映像データを、システムバス122を介して映像表示I/F117に供給して、クリップの映像を表示装置126に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
一時記憶メモリI/F112には、バッファなどの一時記憶メモリ123が接続されており、一時記憶メモリI/F112は、マイコン111から供給される、光ディスク31または光ディスク32に記録されているクリップを、一時記憶メモリ123に記憶させる。また、一時記憶メモリI/F112は、一時記憶メモリ123に記憶されているクリップを読み出し、マイコン111に供給する。
光ディスクドライブI/F113には、光ディスク31または光ディスク32が装着される光ディスクドライブ41Aが接続されている。光ディスクドライブI/F113は、光ディスクドライブ41Aを制御して、光ディスクドライブ41Aに装着されている光ディスク31または光ディスク32からクリップを読み出し、システムバス122を介して一時記憶メモリI/F112に供給する。
また、光ディスクドライブI/F113は、光ディスクドライブ41Aを制御し、マイコン111から供給される、光ディスク32に記録されているクリップ、エディットリスト、発言者EM(start)と発言者EM(end)を記述した電子マークデータ、および編集結果の電子マークデータを、光ディスク31に記録させる。
操作部I/F114には、操作ボタン、キーボード、マウス、リモートコントローラから送信されてくる指令を受信する受信部などの操作部124が接続される。操作部I/F114は、ユーザによる操作部124の操作に応じて、その操作を表す操作信号を生成し、その操作信号を、システムバス122を介してマイコン111に供給する。
音声出力I/F115には、スピーカ125が接続される。音声出力I/F115は、マイコン111から供給される音声データに対してD/A変換を行い、その結果得られるアナログ信号を増幅して、スピーカ125に供給する。スピーカ125は、音声出力I/F115からのアナログ信号に基づいて、音声を外部に出力する。なお、音声出力I/F115は、音声データをそのままスピーカ125に供給し、スピーカ125が、D/A変換等を行い、その結果得られるアナログ信号に基づいて音声を外部に出力するようにしてもよい。
シリアルデータI/F116は、必要に応じて、図示せぬ外部のコンピュータ等のデジタル機器との間で、データをやり取りする。映像表示I/F117には、表示装置126が接続され、映像表示I/F117は、マイコン111からの映像データに対してD/A変換を行い、その結果得られるコンポジット信号、コンポーネント信号などのアナログ信号を増幅して、表示装置126に供給する。表示装置126は、映像表示I/F117からのアナログ信号に基づいて映像を表示する。
なお、映像表示I/F117は、映像データをそのまま表示装置126に供給し、表示装置126がD/A変換等を行い、その結果得られるアナログ信号に基づいて映像を外部に出力するようにしてもよい。
メモリカードI/F118は、必要に応じて編集装置41に装着されるメモリカード(図示せず)に対して、素材データ、各種の設定データなどの読み書きを行う。ネットワークI/F119は、必要に応じて、インターネットやローカルエリアネットワークといった、有線または無線のネットワークを介して接続される他の装置との間で、データのやり取りを行う。
例えば、ネットワークI/F119は、他の装置からネットワークを介してプログラムを取得し、システムバス122、ハードディスクドライブI/F120、およびハードディスクドライブ127を介して、ハードディスク128に記録させる。
ハードディスクドライブI/F120には、ハードディスク128が装着されるハードディスクドライブ127が接続されている。ハードディスクドライブI/F120は、ハードディスクドライブ127を制御し、ハードディスク128に対するデータの読み書きを行う。例えば、ハードディスクドライブI/F120は、ハードディスクドライブ127を制御し、ネットワークI/F119とシステムバス122を介して供給されるプログラムを、ハードディスク128に記録させる。
ドライブI/F121には、ドライブ129が接続されている。ドライブI/F121は、ドライブ129を制御し、ドライブ129に磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア101が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じてハードディスクドライブI/F120などを介してハードディスク128に転送され、記録される。
システムバス122は、そこに接続されている各部の間でのデータのやり取りを仲介する。
次に、図9の編集装置41において、マイコン111は、所定のプログラムを実行することにより、テレビジョン素材の音声付き映像を編集する編集処理部として機能する。
図10は、そのような編集処理部150の機能的な構成例を示している。
図10の編集処理部150は、付加部151、エディットリスト作成部152、EM作成部153により構成される。
付加部151は、ハードディスク128に記録されている、発言者IDと発言者の名前を対応付けた発言者リストを読み出す。付加部151は、その発言者リストに基づいて、発言者IDを入力するための入力画面(後述する図12)の映像データを生成する。付加部151は、その入力画面の映像データを映像表示I/F117に供給して、入力画面を表示装置126に表示させる。
また、付加部151は、入力画面においてユーザが操作部124を操作することにより操作部I/F114から供給される操作信号に応じて、その操作信号に対応する発言者IDを、一時記憶メモリI/F112から供給されるクリップの電子マークデータに記述される、発言者未定EM(start)と発言者未定EM(end)に付加する。そして、付加部151は、発言者IDを付加した後の電子マークデータを、光ディスクドライブI/F113に供給して、光ディスク31のNRTファイルに記録させる。
エディットリスト作成部152は、光ディスクドライブI/F113から供給される、光ディスク31または光ディスク32から読み出されたクリップを、一時記憶メモリI/F112に供給する。また、エディットリスト作成部152は、一時記憶メモリI/F112から供給される、光ディスク32に記録されているクリップを、光ディスクドライブI/F113に供給して、光ディスク31に集約する。
さらに、エディットリスト作成部152は、一時記憶メモリI/F112から供給されるプロキシデータのうちの音声データを音声出力I/F115に供給して、クリップの音声をスピーカ125から出力させるとともに、プロキシデータのうちの映像データを映像表示I/F117に供給して、クリップの低解像度の映像を、編集を行うための編集画面として表示装置126に表示させる。このとき、ユーザは、スピーカ125からの音声を聞きつつ、編集画面を見ながら、操作部124を操作して編集作業を行う。
エディットリスト作成部152は、ユーザの編集作業により操作部I/F114から供給される操作信号に応じて、エディットリストを作成することにより、非破壊編集を行う。そして、エディットリスト作成部152は、エディットリストを光ディスクドライブI/F113に供給して光ディスク31に記録させるとともに、EM作成部153に供給する。
また、エディットリスト作成部152は、操作部I/F114から供給される操作信号と、EM作成部153から供給される編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者IDの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。
EM作成部153は、エディットリスト作成部152から供給されるエディットリストと、一時記憶メモリI/F112に記憶されている、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、EM作成部153は、その電子マークデータを光ディスクドライブI/F113に供給して、光ディスク31に記録させるとともに、エディットリスト作成部152に供給する。
また、EM作成部153は、操作部I/F114から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者IDが付加された発言者EM(start)と発言者EM(end)に、ダックボイス加工の有無を表す情報を付加する。
図11は、非破壊編集後の光ディスク31に記録されているファイルのディレクトリ構造の例を示している。
なお、図11において、図4と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
図11の例では、光ディスク31には、インデックスファイル(INDEX.XML)96とディスクメタファイル(DISCMETA.XML)が設けられている。図11のインデックスファイル96には、クリップを管理するための情報だけでなく、エディットリストを管理するための情報も記述される。
また、光ディスク31には、クリップディレクトリ(Clip)95、エディットリストのファイルが下位に設けられるエディットリストディレクトリ(Edit)、およびプロキシディレクトリ(Sub)が設けられている。
図11の例では、光ディスク31には、ビデオカメラ21またはビデオカメラ22により撮影された4つのクリップのデータが集約されている。
即ち、例えば、クリップディレクトリ95の下位には、ビデオカメラ21により撮影された第1のクリップファイル(C0001.MXF)および第1のNRTファイル(C0001M01.XML)、第2のクリップファイル(C0002.MXF)および第2のNRTファイル(C0002M01.XML)、並びに第3のクリップファイル(C0003.MXF)および第3のNRTファイル(C0003M01.XML)と、ビデオカメラ22により撮影された第4のクリップファイル(C0004.MXF)および第4のNRTファイル(C0004M01.XML)とが設けられている。
図11において、このようなクリップディレクトリ95の下方に示されるエディットディレクトリ(Edit)には、エディットリストが、編集処理ごとに異なるファイルとして記録されている。
例えば、図11の例の場合、エディットディレクトリ(Edit)の下位には、光ディスク31に記録された第1乃至第4のクリップの1回目の編集処理の編集結果に関するエディットリストを含むファイルであるエディットリストファイル(E0001E01.SMI)と、1回目の編集結果を構成する素材データに対応するNRTデータ、または、そのNRTデータに基づいて新たに生成されたNRTデータを含むファイルであるエディットリスト用NRTファイル(E0001M01.XML)が設けられている。また、同様に、2回目の編集処理のエディットリストファイル(E0002E01.SMI)と、エディットリスト用NRTファイル(E0002M01.XML)が設けられている。
また、図11において、このようなクリップディレクトリ(Clip)の下方に示される、プロキシディレクトリ(Sub)には、光ディスク31に記録された4つのクリップのプロキシデータが集約されている。
例えば、図11の例の場合、プロキシディレクトリ(Sub)の下位には、ビデオカメラ21により撮影された第1のクリップのプロキシファイル(C0001S01.MXF)、第2のクリップのプロキシファイル(C0002S01.MXF)、および第3のクリップのプロキシファイル(C0003S01.MXF)と、ビデオカメラ22により撮影された第4のクリップのプロキシファイル(C0004S01.MXF)とが設けられる。
さらに、光ディスク31には、一般ディレクトリ(General)が設けられている。この一般ディレクトリ(General)には、クリップとエディットリスト以外のデータのファイルが設けられる。
次に、図12は入力画面の例を示している。
図12の入力画面には、発言者IDと発言者の名前が対応付けて表示される。図12の例では、発言者ID「A」を表す「Speaker-A」と発言者の名前「○○さん」、発言者ID「B」を表す「Speaker-B」と発言者の名前「××さん」、発言者ID「C」を表す「Speaker-C」と発言者の名前「△△さん」が、それぞれ対応付けて表示される。
また、入力画面には、いずれか1つの発言者IDと発言者の名前の表示位置にカーソル160が配置される。このカーソル160は、発言者未定EM(start)と発言者未定EM(end)に、発言者IDを付加するときに操作される。
具体的には、ユーザは、例えばスピーカ125から出力されるクリップの音声を聞きながら、操作部124を操作し、その音声を発した発言者の発言者IDと名前の表示位置にカーソル160を移動させて、決定の指令を行う。付加部151は、この操作を表す操作信号に応じて、決定の指令時に再生中の音声に対応するフレームの直前に付与されている発言者未定EM(start)と、直後に付与されている発言者未定EM(end)に、カーソル160の位置に対応する発言者IDを付加する。
次に、図13は、発言者EM(start)または発言者EM(end)を記述した電子マークデータの例を示している。なお、図13では、図6の発言者未定EM(start)と発言者未定EM(end)に発言者IDが付加された発言者EM(start)と発言者EM(end)を記述した電子マークデータを示している。
図13の例では、電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部は、2乃至11行目に記述されている。
図13の2行目の「targetMedia="Original-Material"」は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。
また、3行目の「EssenceMark value="Speaker-A:start"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の開始位置であり、付与位置がクリップの先頭から0フレーム目であることを示している。即ち、図13の3行目の記述は、図6の3行目の記述が示す発言者未定EM(start)に発言者ID「A」が付加された発言者EM(start)を示している。
また、4行目の「EssenceMark value="Speaker-A:end"frameCount="564"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の終了位置であり、付与位置がクリップの先頭から564フレーム目であることを示している。
同様に、5行目の「EssenceMark value="Speaker-B:start"frameCount="564"」、7行目の「EssenceMark value="Speaker-A:start"frameCount="924"」、9行目の「EssenceMark value="Speaker-B:start"frameCount="1804"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「A」の発言者、発言者ID「B」の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から564フレーム目、924フレーム目、1804フレーム目であることを示している。
また、6行目の「EssenceMark value="Speaker-B:end"frameCount="924"」、8行目の「EssenceMark value="Speaker-A:end"frameCount="1804"」、10行目の「EssenceMark value="Speaker-B:end"frameCount="2100"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「A」の発言者、発言者ID「B」の発言者による発言の終了位置であり、付与位置が、それぞれ、クリップの先頭から924フレーム目、1804フレーム目、2100フレーム目であることを示している。
次に、図14乃至図20を参照して、編集装置41における非破壊編集について説明する。
なお、ここでは、ビデオカメラ21が、発言者ID「A」の発言者「○○さん」と発言者ID「B」の発言者「××さん」の2人を被写体として撮影するとともに対話の音声を取得し、ビデオカメラ22が、発言者「××さん」のみを被写体として撮影することにより、2台のビデオカメラ21および22が、2人の発言者の対話をテレビジョン素材として撮影したものとする。
そして、ユーザは、そのテレビジョン素材の所定の連続する区間の音声を切り取って編集結果の音声として使用するとともに、所定の区間の映像を切り取って編集結果の映像として使用し、発言者「××さん」の発言にダックボイス加工を施すように、非破壊編集を行う。
まず最初に、図14と図15を参照して、光ディスク31に記録されている編集対象のクリップと編集結果について説明する。なお、図14Aにおいて、横軸は撮影時刻を表しており、図14Bと図15において、横軸はフレーム番号を表している。
図14Aの上段の棒は、ビデオカメラ21により撮影された編集対象である第1のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図14の例では、第1のクリップの映像のフレーム数は2525フレームであり、各フレームには、フレーム番号が「0」から順に「2524」まで付与されている。
また、図14Aの中段の棒は、第1のクリップの音声の長さを示しており、棒の中のアルファベットは、その位置に対応する音声を発した発言者の発言者IDである。
なお、図14の例では、第1のクリップには、図13に示した発言者EM(start)と発言者EM(end)が付与されている。従って、図14Aの中段の棒には、図13の3行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「0」から、図13の4行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「564」までに対応する位置に、その区間の音声の発言者の発言者ID「A」が記述されている。
同様に、図14Aの中段の棒には、図13の5行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「564」から、図13の6行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「924」までに対応する位置に、その区間の音声の発言者の発言者ID「B」が記述されている。
また、図14Aの中段の棒には、図13の7行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「924」から、図13の8行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「1804」までに対応する位置に、その区間の音声の発言者の発言者ID「A」が記述されている。
さらに、図14Aの中段の棒には、図13の9行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「1804」から、図13の10行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「2100」までに対応する位置に、その区間の音声の発言者の発言者ID「B」が記述されている。
図14Aの下段の棒は、ビデオカメラ22により撮影された編集対象である第4のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図14の例では、第4のクリップの映像のフレーム数は2415フレームであり、各フレームには、フレーム番号が「0」から順に「2414」まで付与されている。
図14Bの上段の棒は、図14Aに示した第1のクリップと第4のクリップを編集対象として非破壊編集が行われた結果得られる編集結果の映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する編集結果上の映像のフレーム番号を示している。
即ち、図14の例では、ユーザが図14Aに示した第1のクリップのフレーム番号「284」を映像のイン点として指定し、フレーム番号「564」を映像のアウト点として指定している。これにより、図14Bの上段に示すように、編集結果には、第1のクリップのフレーム番号「284」から「564」までの編集区間の映像データが、編集結果のフレーム番号「0」から「280」までの映像データ(以下、第1の映像サブクリップという)として含まれる。
また、図14の例では、ユーザが図14Aに示した第4のクリップのフレーム番号「454」を映像のイン点として指定し、フレーム番号「1054」を映像のアウト点として指定している。これにより、図14Bの上段に示すように、編集結果には、第4のクリップのフレーム番号「454」から「1054」までの編集区間の映像データが、編集結果のフレーム番号「280」から「880」までの映像データ(以下、第2の映像サブクリップという)として含まれる。
さらに、図14の例では、ユーザが図14Aに示した第1のクリップのフレーム番号「1164」を映像のイン点として指定し、フレーム番号「1644」を映像のアウト点として指定している。これにより、図14Bの上段に示すように、編集結果には、第1のクリップのフレーム番号「1164」から「1644」までの編集区間の映像データが、編集結果のフレーム番号「880」から「1360」までの映像データ(以下、第3の映像サブクリップという)として含まれる。
また、図14の例では、ユーザが図14Aに示した第4のクリップのフレーム番号「1534」を映像のイン点として指定し、フレーム番号「1974」を映像のアウト点として指定している。これにより、図14Bの上段に示すように、編集結果には、第4のクリップのフレーム番号「1534」から「1974」までの編集区間の映像データが、編集結果のフレーム番号「1360」から「1800」までの映像データ(以下、第4の映像サブクリップという)として含まれる。
さらに、図14の例では、ユーザが図14Aに示した第1のクリップのフレーム番号「284」を音声のイン点として指定し、フレーム番号「2084」を音声のアウト点として指定している。これにより、図14Bと図15の下段に示すように、編集結果には、第1のクリップのフレーム番号「284」から「2084」までの編集区間の音声データが、編集結果のフレーム番号「0」から「1800」までの音声データ(以下、音声サブクリップという)として含まれる。
ここで、図14Aに示したように、第1のクリップのフレーム番号「0」から「564」までの音声データに対応する発言者IDは「A」であるので、図14Bの下段に示すように、第1のクリップのフレーム番号「284」から「564」までの音声データである、編集結果のフレーム番号「0」から「280」までの音声データに対応する発言者IDは「A」である。
また、図14Aに示したように、第1のクリップのフレーム番号「564」から「924」までの音声データに対応する発言者IDは「B」であるので、図14Bの下段に示すように、第1のクリップのフレーム番号「564」から「924」までの音声データである、編集結果のフレーム番号「280」から「640」までの音声データに対応する発言者IDは「B」である。
さらに、図14Aに示したように、第1のクリップのフレーム番号「924」から「1804」までの音声データに対応する発言者IDは「A」であるので、図14Bの下段に示すように、第1のクリップのフレーム番号「924」から「1804」までの音声データである、編集結果のフレーム番号「640」から「1520」までの音声データに対応する発言者IDは「A」である。
また、図14Aに示したように、第1のクリップのフレーム番号「1804」から「2100」までの音声データに対応する発言者IDは「B」であるので、図14Bの下段に示すように、第1のクリップのフレーム番号「1804」から「2084」までの音声データである、編集結果のフレーム番号「1520」から「1800」までの音声データに対応する発言者IDは「B」である。
以上のように、図14の例では、第3の映像サブクリップのイン点およびアウト点と、発言者の切替点が異なっている。即ち、図14Bに示した編集結果では、図15に示すように、編集結果のフレーム番号「640」から「1520」までの発言者「○○さん」の発言の最初と最後で、発言者「××さん」のみの映像が表示される。
図16は、図14Bや図15に示した編集結果のエディットリストを示している。
即ち、図16は、XMLで記述されたエディットリストファイル(図11)の具体的な記述例を示す図である。なお、図16において、各行頭の数字は、説明の便宜上付加したものであり、XML記述の一部ではない。このことは、後述する図19においても同様である。
エディットリストファイルは、編集結果に関するエディットリストを含むファイルであり、編集結果の再生方法についても記述されている。
図16に示すように、エディットリストファイルのXML記述は、主にスマイルタグ(<smil> </smil>)で囲まれたボディタグ(<body> </body>)で囲まれるボディ部により構成される。図16の例では、このボディ部は3乃至16行目に記述されている。なお、2行目の「name="Initial-EditList"」の記述は、このファイルがエディットリストファイルであることを示している。
ボディ部には、編集記述の時間的振る舞いと関係する情報が記述される。図16の例では、4行目の開始タグ「<par>」と15行目の終了タグ「</par>」の間に記述されるpar要素は、複数の要素を同時に再生する単純時間グループを定義する。
図16の例では、第1のカット(図16の例では、Cut1と記述されており、図14Bの第1の映像サブクリップである、第2のカット(図16の例では、Cut2と記述されており、図14Bの第2の映像サブクリップである)、第3のカット(図16の例では、Cut3と記述されており、図14Bの第3の映像サブクリップである)、第4のカット(図16の例では、Cut4と記述されており、図14Bの第4の映像サブクリップである)、および音声(図16の例では、audio in Cam1-Clip.mxfと記述されており、図14Bの音声サブクリップである)が同時に再生されるように定義されている。
但し、図16の例の場合、後述するように、4つの第1乃至第4の映像サブクリップどうしの再生開始時間はズレており、実際には、第1乃至第4の映像サブクリップは、連続して再生される。
具体的には、図16において、6行目、8行目、10行目、および12行目のvideo要素には、編集結果の映像として参照するクリップファイルおよび参照するクリップファイルの再生範囲等が記述されている。
6行目の「src="Cam1-Clip1.mxf"
」の記述は、参照先のクリップファイルがビデオカメラ21で記録された第1のクリップであることを示している。
また、6行目の「clipBegin="284"」の記述は、第1の映像サブクリップとして映像の再生を開始する位置を、第1のクリップのフレーム番号で示している。6行目の「clipEnd="564"」の記述は、第1の映像サブクリップとして映像の再生を終了する位置を、第1のクリップのフレーム番号で示している。
さらに、その記述に続く6行目の「begin="0"」の記述は、編集結果における第1の映像サブクリップが開始される位置を、編集結果上のフレーム番号で示している。また、6行目の「end="280"」の記述は、編集結果における第1の映像サブクリップが終了される位置を、編集結果上のフレーム番号で示している。
以上のようにして、図16の例では、編集結果のフレーム番号「0」のフレームからフレーム番号「280」のフレームまでの映像として、第1のクリップのフレーム番号「284」のフレームからフレーム番号「564」のフレームまでの映像が再生されることが、エディットリストに記述されている。
また、第2の映像サブクリップについても、8行目において、第1の映像サブクリップの場合と同様に記述されている。図16の例では、編集結果のフレーム番号「280」のフレームからフレーム番号「880」のフレームまでの映像として、ビデオカメラ22で記録された第4のクリップのフレーム番号「454」のフレームからフレーム番号「1054」のフレームまでの映像が再生されることが、エディットリストに記述されている。
さらに、第3の映像サブクリップについても、10行目において、第1や第2の映像サブクリップの場合と同様に記述されている。図16の例では、編集結果のフレーム番号「880」のフレームからフレーム番号「1360」のフレームまでの映像として、第1のクリップのフレーム番号「1164」のフレームからフレーム番号「1644」のフレームまでの映像が再生されることが、エディットリストに記述されている。
また、第4の映像サブクリップについても、12行目において、第1乃至第3の映像サブクリップの場合と同様に記述されている。図16の例では、編集結果のフレーム番号「1360」のフレームからフレーム番号「1800」のフレームまでの映像として、第4のクリップのフレーム番号「1534」のフレームからフレーム番号「1974」のフレームまでの映像が再生されることが、エディットリストに記述されている。
さらに、図16において、14行目のaudio要素には、編集結果の音声として参照するクリップファイルおよび参照するクリップファイルの再生範囲等が記述されている。14行目の「src="Cam1-Clip1.mxf"
」の記述は、参照先のクリップファイルがビデオカメラ21で記録された第1のクリップであることを示している。
また、14行目の「channel=l」の記述は、第1のクリップの音声を再生するチャンネルを示している。14行目の「clipBegin="284"」の記述は、音声サブクリップとして音声の再生を開始する位置を、第1のクリップのフレーム番号で示している。14行目の「clipEnd="2084"」の記述は、音声サブクリップとして音声の再生を終了する位置を、第1のクリップのフレーム番号で示している。
さらに、その記述に続く14行目の「begin="0"」の記述は、編集結果における音声サブクリップが開始される位置を、編集結果上のフレーム番号で示している。また、14行目の「end="1800"」の記述は、編集結果における音声サブクリップが終了される位置を、編集結果上のフレーム番号で示している。
以上のように、図16の例では、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの1チャンネルの音声として、第1のクリップのフレーム番号「284」のフレームからフレーム番号「2084」のフレームまでの音声が再生されることが、エディットリストに記述されている。
従って、図16のエディットリストによれば、図14Bに示したように、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの映像として、第1乃至第4のサブクリップが連続して再生される。また、それと同時に、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの1チャンネルの音声として、音声サブクリップが再生される。
次に、図17を参照して、図14Bや図15に示した編集結果に付与される発言者EM(start)と発言者EM(end)について説明する。なお、図17において、横軸はフレーム番号を表している。
図17の上段は、図13の電子マークデータに記述された、第1のクリップに付与された発言者EM(start)と発言者EM(end)を示している。即ち、図17の上段に示すように、第1のクリップには、フレーム番号「0」のフレームに発言者ID「A」が付加された発言者EM(start)が付与され(A11s)、フレーム番号「564」のフレームに発言者ID「A」が付加された発言者EM(end)が付与されている(A11e)。
また、図17の上段に示すように、第1のクリップには、フレーム番号「564」のフレームに発言者ID「B」が付加された発言者EM(start)が付与され(B11s)、フレーム番号「924」のフレームに発言者ID「B」が付加された発言者EM(end)が付与されている(B11e)。
さらに、図17の上段に示すように、第1のクリップには、フレーム番号「924」のフレームに発言者ID「A」が付加された発言者EM(start)が付与され(A12s)、フレーム番号「1804」のフレームに発言者ID「A」が付加された発言者EM(end)が付与されている(A12e)。
また、図17の上段に示すように、第1のクリップには、フレーム番号「1804」のフレームに発言者ID「B」が付加された発言者EM(start)が付与され(B12s)、フレーム番号「2100」のフレームに発言者ID「B」が付加された発言者EM(end)が付与されている(B12e)。
以上のような発言者EM(start)と発言者EM(end)が付与された第1のクリップに対して、図14Bや図15の編集結果を得る非破壊編集が行われる場合、音声のイン点として指定された第1のクリップのフレーム番号のフレームの直前のフレームに付与されている発言者EM(start)が、そのイン点に対応する編集結果上のフレームに付与される。
図17の例では、音声のイン点として指定された第1のクリップのフレーム番号「284」のフレームの直前のフレーム番号「0」のフレームに付与されている発言者ID「A」が付加された発言者EM(start)が、そのイン点に対応する編集結果上のフレーム番号「0」のフレームに付与される(A21s)。
また、音声のイン点として指定された第1のクリップのフレーム番号のフレームから、音声のアウト点として指定された第1のクリップのフレーム番号のフレームまでのフレームに付与されている電子マークが、そのフレームに対応する編集結果上のフレームに付与される。
図17の例では、音声のイン点として指定された第1のクリップのフレーム番号「284」のフレームから、音声のアウト点として指定された第1のクリップのフレーム番号「2084」のフレームまでの間の、フレーム番号「564」のフレームに付与されている発言者ID「A」が付加された発言者EM(end)と、発言者ID「B」が付加された発言者EM(start)が、そのフレームに対応する編集結果上のフレーム番号「280」のフレームに付与される(A21e,B21s)。
また、フレーム番号「924」のフレームに付与されている発言者ID「A」が付加された発言者EM(start)と、発言者ID「B」が付加された発言者EM(end)が、そのフレームに対応する編集結果上のフレーム番号「640」のフレームに付与される(A22s,B21e)。さらに、フレーム番号「1804」のフレームに付与されている発言者ID「A」が付加された発言者EM(end)と、発言者ID「B」が付加された発言者EM(start)が、そのフレームに対応する編集結果上のフレーム番号「1520」フレームに付与される(A22e,B22s)。
さらに、音声のアウト点として指定された第1のクリップのフレーム番号のフレームの直後のフレームに付与されている発言者EM(end)が、そのアウト点に対応する編集結果上のフレームに付与される。図17の例では、音声のアウト点として指定された第1のクリップのフレーム番号「2084」のフレームの直後のフレーム番号「2100」のフレームに付与されている発言者ID「B」が付加された発言者EM(end)が、そのアウト点に対応する編集結果上のフレーム番号「1800」のフレームに付与される(B22e)。
以上のようにして編集結果に付与された発言者EM(start)と発言者EM(end)を記述した電子マークデータは、図18に示すようになる。
図18の例では、電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部は、2乃至11行目に記述されている。
図18の2行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。
また、3行目の「EssenceMark value="Speaker-A:start"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の開始位置であり、付与位置が編集結果の先頭から0フレーム目であることを示している。
4行目の「EssenceMark value="Speaker-A:end"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の終了位置であり、付与位置が編集結果の先頭から280フレーム目であることを示している。
同様に、5行目の「EssenceMark value="Speaker-B:start"frameCount="280"」、7行目の「EssenceMark value="Speaker-A:start"frameCount="640"」、9行目の「EssenceMark value="Speaker-B:start"frameCount="1520"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「A」の発言者、発言者ID「B」の発言者による発言の開始位置であり、付与位置が、それぞれ、編集結果の先頭から280フレーム目、640フレーム目、1520フレーム目であることを示している。
また、6行目の「EssenceMark value="Speaker-B:end"frameCount="640"」、8行目の「EssenceMark value="Speaker-A:end"frameCount="1520"」、10行目の「EssenceMark value="Speaker-B:end"frameCount="1800"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「A」の発言者、発言者ID「B」の発言者による発言の終了位置であり、付与位置が、それぞれ、編集結果の先頭から640フレーム目、1520フレーム目、1800フレーム目であることを示している。
図19は、図14Bや図15に示した編集結果のうちの発言者ID「B」の発言者の音声に対してダックボイス加工を施す場合の、エディットリストの例を示している。
図19のエディットリストでは、図16の14行目のaudio要素の後に、オーディオフィルタタグ(<audioFilter> </audioFilter>)で囲まれたオーディオフィルタ部が設けられている。このオーディオフィルタ部には、所定の加工を施す音声の区間を指定する情報が記述される。
詳細には、14行目のaudio要素の後に設けられた1つ目のオーディオフィルタ部は、15行目乃至18行目に記述され、2つ目のオーディオフィルタ部は、19行目乃至22行目に記述される。
15行目の「type="duckVoice"」の記述は、ダックボイス加工を施すことを示している。その記述に続く15行目の「begin="280"」の記述は、編集結果においてダックボイス加工を施す音声の開始位置を、編集結果上のフレーム番号で示している。図18に示したように、発言者ID「B」の発言者の発言の1つ目の開始位置を示す発言者EM(start)は、編集結果におけるフレーム番号「280」のフレームに付与されているので、15行目の「begin="280"」の記述では、そのフレーム番号「280」が、編集結果においてダックボイス加工を施す音声の開始位置として示されている。
また、15行目の「end="640"」の記述は、編集結果においてダックボイス加工を施す音声の終了位置を、編集結果上のフレーム番号で示している。図18に示したように、発言者ID「B」の発言者の発言の1つ目の終了位置を示す発言者EM(end)は、編集結果におけるフレーム番号「640」のフレームに付与されているので、15行目の「end="640"」の記述では、そのフレーム番号「640」が、編集結果においてダックボイス加工を施す音声の終了位置として示されている。
以上のように、15行目の「begin="280"」の記述と15行目の「end="640"」の記述は、発言者ID「B」の発言者の音声の区間である280フレーム目から640フレーム目までの区間を、ダックボイス加工を施す区間として指定している。
さらに、16行目と17行目のparam要素には、ダックボイス加工に関するパラメータの設定値が記述される。詳細には、16行目の「name="pitch"」の記述は、設定値が設定されるパラメータがピッチであることを示している。また、16行目の「value="0.5"」の記述は、その設定値が0.5であることを示している。
また、17行目の「name="formant"」の記述は、設定値が設定されるパラメータがフォルマントであることを示している。また、17行目の「value="1.0"」の記述は、その設定値が1.0であることを示している。
同様に、19行目には、図18の電子マークデータに記述される、発言者ID「B」が付加された2つ目の発言者EM(start)が付与されているフレームのフレーム番号と、発言者EM(end)が付与されているフレームのフレーム番号が、それぞれ、ダックボイス加工を施す音声の開始位置と終了位置として記述される。また、20行目および21行目には、このダックボイス加工のパラメータであるピッチの設定値として0.5が記述され、フォルマントの設定値として1.0が記述される。
図20は、図14Bや図15に示した編集結果のうちの発言者ID「B」の発言者の音声に対してダックボイス加工を施す場合の、編集結果の電子マークデータの例を示している。
図20の例では、電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部は、2乃至11行目に記述されている。
図20の2行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。
また、3行目の「EssenceMark value="Speaker-A:start:normal"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の開始位置であり、その発言はダックボイス加工を施さずにそのまま出力されるものであり、付与位置が編集結果の先頭から0フレーム目であることを示している。
4行目の「EssenceMark value="Speaker-A:end:normal"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の終了位置であり、その発言はダックボイス加工を施さずにそのまま出力されるものであり、付与位置が編集結果の先頭から280フレーム目であることを示している。
また、5行目の「EssenceMark value="Speaker-B:start:duckVoice"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ID「B」の発言者による発言の開始位置であり、その発言はダックボイス加工を施して出力されるものであり、付与位置が編集結果の先頭から280フレーム目であることを示している。
6行目の「EssenceMark value="Speaker-B:end:duckVoice"frameCount="640"」の記述は、この電子マークが示す特徴が発言者ID「B」の発言者による発言の終了位置であり、その発言はダックボイス加工を施して出力されるものであり、付与位置が編集結果の先頭から640フレーム目であることを示している。
同様に、7行目乃至10行目の記述には、フレーム番号「640」からフレーム番号「1520」までの発言者ID「A」の発言者による発言には、ダックボイス加工を施さず、フレーム番号「1520」からフレーム番号「1800」までの発言者ID「B」の発言者による発言には、ダックボイス加工を施すことが示されている。
次に、図21を参照して、ユーザが編集装置41を用いて行う編集作業について説明する。
図21の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置41による主な処理の内容、および、その処理の対象となるデータが記述されている。
図21に示すように、ステップS51において、ユーザは、編集装置41の光ディスクドライブ41Aに光ディスク31を装着し、入力画面(図12)の表示を指令する。このとき、編集装置41の付加部151は、予めハードディスク128に登録されている発言者リストに基づいて、表示装置126に入力画面を表示させる。
ステップS52において、ユーザは、操作部124を操作し、光ディスク31に記録されているクリップの再生を指令する。このとき、編集装置41の付加部151は、そのクリップのクリップファイルを光ディスク31から再生する。その結果、クリップの音声がスピーカ125から出力され、映像が表示装置126に表示される。
ステップS53において、ユーザは、クリップの音声を聞き、各発言者の発言が聞こえたときに、入力画面において操作部124を操作し、その発言者の発言者IDを入力する。このとき、付加部151は、クリップの電子マークデータに記述されている、再生中の音声に対応するフレームの直前のフレームに付与された発言者未定EM(start)と、直後のフレームに付与された発言者未定EM(end)に、入力された発言者IDを付加する。
ステップS54において、ユーザは、操作部124を操作して編集画面の表示を指令する。このとき、エディットリスト作成部152は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置126に表示させ、クリップの音声をスピーカ125から出力させる。
ステップS55において、ユーザは、操作部124を操作して、編集画面において映像と音声のイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部152は、ユーザにより指定された映像と音声のイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部152は、そのエディットリストを光ディスク31のエディットリストファイルに記録させるとともに、EM作成部153に供給する。
また、EM作成部153は、エディットリスト作成部152から供給されるエディットリストと、クリップの発言者EM(start)と発言者EM(end)が記述された電子マークデータとに基づいて、音声のカット点で発言者EM(start)または発言者EM(end)を補間し、音声のイン点からアウト点までに付与されている発言者EM(start)または発言者EM(end)を、編集結果上の対応する位置にコピーすることにより、編集結果の電子マークデータを作成する。
即ち、編集結果の電子マークデータは、クリップの電子マークデータの記述のうち、音声のイン点からアウト点までに付与されている発言者EM(start)または発言者EM(end)の記述を複写して、その発言者EM(start)または発言者EM(end)の付与位置の記述を変更し、さらに、音声のカット点に対応する編集結果上の位置に付与された発言者EM(start)または発言者EM(end)を、新たに記述することにより作成される。
そして、EM作成部153は、編集結果の電子マークデータを、光ディスク31のエディットリスト用NRTファイルに記録させる。
ステップS56において、ユーザは、操作部124を操作することにより、編集結果においてダックボイス加工を施す発言の発言者の発言者IDを指定する。このとき、エディットリスト作成部152は、ユーザにより指定された発言者IDと、EM作成部153により作成された編集結果の電子マークデータに基づいて、ダックボイス加工を施す区間を特定し、その区間にダックボイス加工を施すことを、エディットリストファイルのエディットリストに記述する。
ステップS57において、ユーザは、操作部124を操作して、所望の発言者の発言にダックボイス加工を施した編集結果の再生を指令する。このとき、マイコン111のCPUは、ダックボイス加工を施すことが記述されたエディットリストにしたがって、光ディスク31から編集結果を再生する。
具体的には、CPUは、ダックボイス加工を施すことが記述されたエディットリストにしたがって、所定のクリップの所定の区間の映像データおよび音声データを光ディスク31から読み出す。そして、CPUは、読み出した音声データのうちの所定の発言者の発言に対応する音声データに対してダックボイス加工を施し、その結果得られる音声データを音声出力I/F115に供給することにより、編集結果の音声をスピーカ125から出力させる。また、CPUは、読み出した映像データを映像表示I/F117に供給することにより、編集結果の映像を表示装置126に表示させる。
次に、図22のフローチャートを参照して、図10の付加部151による発言者IDを発言者未定EM(start)と発言者未定EM(end)に付加する付加処理について説明する。この付加処理は、例えば、ユーザが操作部124を操作することにより、図12の入力画面の表示を指令したとき開始される。
ステップS71において、付加部151は、予めハードディスク128に登録されている発言者リストに基づいて、表示装置126に入力画面を表示させる。ステップS72において、付加部151は、ユーザにより光ディスク31に記録されているクリップの再生が指令されたかどうかを判定する。ステップS72で、再生が指令されていないと判定された場合、付加部151は、再生が指令されるまで待機する。
一方、ステップS72で、クリップの再生が指令されたと判定された場合、ステップS73において、付加部151は、そのクリップの再生を開始する。ステップS74において、付加部151は、操作部I/F114から供給される操作信号に応じて、ユーザにより発言者IDが入力されたかを判定する。
具体的には、ユーザは、操作部124を操作することにより入力画面においてカーソル160を移動し決定の指令を行う。操作部I/F114は、この操作により発言者IDの入力を受け付け、その操作を表す操作信号を付加部151に供給する。付加部151は、この操作信号が供給された場合、ユーザにより発言者IDが入力されたと判定する。
ステップS74で、ユーザにより発言者IDが入力されていないと判定された場合、付加部151は、発言者IDが入力されるまで待機する。また、ステップS74で、ユーザにより発言者IDが入力されたと判定された場合、処理はステップS75に進む。
ステップS75において、付加部151は、現在再生中のフレームのフレーム番号と入力された発言者IDとに基づいて、発言者IDの入力に対応する位置に付与された、現在再生中のフレームの直前の発言者未定EM(start)と直後の発言者未定EM(end)に、入力された発言者IDを付加する。その結果、例えば図6に示したクリップの電子マークデータは、図13に示したクリップの電子マークデータに変更される。
ステップS76において、付加部151は、再生中のクリップが終端まで再生されたかを判定し、終端まで再生されていないと判定した場合、処理はステップS74に戻り、上述した処理が繰り返される。
一方、ステップS76において、再生中のクリップが終端まで再生されたと判定された場合、ステップS77において、付加部151は、クリップの再生を終了する。そして処理は終了する。
以上のように、編集装置41は、発言者未定EM(start)と発言者未定EM(end)に発言者IDを付加するので、編集結果のうちの所望の発言者の音声にダックボイス加工を施す場合に、この発言者IDが付加された発言者EM(start)と発言者EM(end)により、ダックボイス加工を施す音声の区間を容易に認識することができる。
従って、発言者EM(start)と発言者EM(end)は、編集結果のうちの所望の発言者の音声に対してダックボイス加工を容易に施すために有用な電子マークであるといえる。
次に、図23を参照して、図10の編集処理部150による、音声を非破壊編集する音声編集処理について説明する。この音声編集処理は、例えば、ユーザが操作部124を操作して、編集画面の表示を指令したとき、開始される。
ステップS81において、エディットリスト作成部152は、編集対象とするクリップのプロキシデータの光ディスク31からの再生を開始する。その結果、表示装置126には、編集対象とするクリップの低解像度の映像が編集画面として表示され、スピーカ125から、そのクリップの音声が出力される。
ステップS82において、エディットリスト作成部152は、編集画面においてユーザにより音声のイン点が入力されたかを判定し、音声のイン点が入力されていないと判定した場合、音声のイン点が入力されるまで待機する。
一方、ステップS82で音声のイン点が入力されたと判定された場合、ステップS83において、エディットリスト作成部152は、現在再生中のフレームのフレーム番号を、音声サブクリップとして音声の再生を開始する位置として、エディットリストに記述する。例えば、図14の例では、ユーザにより第1のクリップのフレーム番号「284」のフレームの再生中に音声のイン点が入力され、エディットリスト作成部152は、そのフレーム番号「284」をエディットリストに記述する。
ステップS84において、エディットリスト作成部152は、編集画面においてユーザにより音声のアウト点が入力されたかを判定し、音声のアウト点が入力されていないと判定した場合、音声のアウト点が入力されるまで待機する。
一方、ステップS84で音声のアウト点が入力されたと判定された場合、ステップS85において、エディットリスト作成部152は、現在再生中のフレームのフレーム番号を、音声サブクリップとして音声の再生を終了する位置として、エディットリストに記述する。例えば、図14の例では、ユーザにより第1のクリップのフレーム番号「2084」のフレームの再生中に音声のアウト点が入力され、エディットリスト作成部152は、そのフレーム番号「2084」をエディットリストに記述する。
ステップS86において、エディットリスト作成部152は、ユーザにより編集対象とするクリップの変更が指令されたかを判定する。なお、図14の例では、編集対象とするクリップのうち音声が含まれるクリップは、第1のクリップのみであるので、ステップS86の判定の判定結果は常に否(No)となる。
ステップS86で、編集対象とするクリップの変更が指令されたと判定された場合、ステップS87において、エディットリスト作成部152は、現在の編集対象であるクリップのプロキシデータの再生を終了する。そして、処理はステップS81に戻り、新たに編集対象とするクリップのプロキシデータの再生が開始され、以降の処理が繰り返される。
一方、ステップS86で編集対象とするクリップの変更が指令されていないと判定された場合、ステップS88において、エディットリスト作成部152は、ユーザにより音声の編集の終了が指令されたかを判定する。ステップS88でユーザにより音声の編集の終了が指令されていないと判定された場合、処理はステップS82に戻り、上述した処理が繰り返される。
また、ステップS88で音声の編集の終了が指令されたと判定された場合、ステップS89において、エディットリスト作成部152は、編集対象であるクリップのプロキシデータの再生を終了し、エディットリストをEM作成部153に供給する。
ステップS90において、EM作成部153は、エディットリスト作成部152から供給されるエディットリストと、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。
例えば、EM作成部153は、図16に示したエディットリストと、図13に示したクリップの電子マークデータとに基づいて、図18に示した編集結果の電子マークデータを作成する。そして、EM作成部153は、編集結果の電子マークデータを、光ディスク31のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部152に供給する。
ステップS91において、エディットリスト作成部152は、操作部I/F114からの操作信号に応じて、ユーザによりダックボイス加工を施す発言の発言者の発言者IDが入力されたかを判定する。
具体的には、ユーザは、操作部124を操作して、ダックボイス加工を施す発言の発言者の発言者IDを入力する。操作部I/F114は、この操作を表す操作信号を、エディットリスト作成部152に供給することにより、ダックボイス加工を施す発言の発言者の発言者IDを指定する。エディットリスト作成部152は、この操作信号が操作部I/F114から供給された場合、ユーザによりダックボイス加工を施す発言の発言者の発言者IDが入力されたと判定する。
ステップS91で、ダックボイス加工を施す発言の発言者の発言者IDが入力されたと判定された場合、ステップS92において、エディットリスト作成部152は、入力された発言者IDと、ステップS90で作成された編集結果の電子マークデータとに基づいて、その発言者の発言に対応する区間の音声にダックボイス加工を施すことを示す記述をエディットリストに行う。その結果、例えば図16に示したエディットリストは、図19に示したエディットリストに変更される。
ステップS93において、EM作成部153は、ユーザによりダックボイス加工を施す発言の発言者の発言者IDとして入力された発言者IDに基づいて、ステップS91で作成された編集結果の電子マークデータに記述される発言者EM(start)と発言者EM(end)に、ダックボイス加工の有無を表す情報としての「duckVoice」または「normal」を付加する。その結果、例えば、図18に示した編集結果の電子マークデータは、図20に示した編集結果の電子マークデータに変更される。そして、処理は終了する。
なお、図23では、音声を非破壊編集する音声編集処理について説明したが、映像を非破壊編集する映像編集処理も同様に行われ、エディットリストには、ユーザにより入力された映像のイン点またはアウト点に対応して、映像サブクリップとして映像の再生を開始する位置または終了する位置を示す情報などが記述される。但し、映像の編集処理では、図23のステップS90乃至S93の処理は行われない。
以上のように、図1の撮影編集システム10では、編集結果の電子マークデータに発言者EM(start)または発言者EM(start)が記述されるので、その電子マークデータに基づいて、編集結果の音声のうちの各発言者の発言の区間を容易に認識することができる。
従って、ユーザは、ダックボイス加工を施す発言の発言者の発言者IDを入力することにより、その発言者の発言に対応する区間の音声にダックボイス加工を施すことを示す記述を容易にエディットリストに行うことができる。その結果、ユーザは、編集結果の音声のうちの特定の発言者の発言に対して容易にダックボイス加工を施すことができる。
また、ユーザは、ダックボイス加工を施す発言の発言者を変更または削除する場合においても、変更または削除後の発言者の発言者IDを入力することにより、編集結果の音声のうちのダックボイス加工を施す発言の発言者を容易に変更または削除することができる。特にニュース番組では、短時間での編集が要求されるため、ダックボイス加工を施す発言の発言者を容易に変更または削除可能であることは有用である。
なお、図1の撮影編集システム10では、2つのビデオカメラ21とビデオカメラ22によりテレビジョン素材が撮影されたが、1つのビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。この場合、編集装置41がクリップを1つの光ディスクに集約する必要はない。
また、撮影編集システム10では、1つのビデオカメラ21で音声が取得されたが、2つのビデオカメラ21および22で音声が取得されるようにしてもよい。この場合、編集装置41は、映像と音声を同時に非破壊編集することができる。
次に、図24は、本発明を適用した撮影編集システムの第2の実施の形態の構成例を示している。なお、図1と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
図24の撮影編集システム170では、撮影中に、ユーザがビデオカメラ171に発言者IDを入力する。
詳細には、ビデオカメラ171は、図1のビデオカメラ21やビデオカメラ22と同様に、テレビジョン素材の収録に使用される装置である。ビデオカメラ171は、ビデオカメラ21と同様に、テレビジョン素材の映像を撮影するとともに、マイクロフォン21Aにより音声を取得する。ビデオカメラ171は、ビデオカメラ21と同様に、その結果得られる音声付き映像のデータを素材データとして、光ディスク172のクリップファイルに記録する。
また、ビデオカメラ171は、テレビジョン素材の音声の取得中にユーザにより入力された、その音声を発した発言者の発言者IDを取得する。ビデオカメラ171は、ユーザにより入力された発言者IDに応じて、その発言者IDが付加された発言者EM(start)を、取得中の音声のフレームに付与する。ビデオカメラ171は、その発言者EM(start)を記述した電子マークデータを、光ディスク172のクリップのNRTファイルに記録させる。光ディスク172は、編集装置173の光ディスクドライブ41Aに装着される。
編集装置173は、編集装置41と同様に、光ディスクドライブ41Aに装着される光ディスク172に記録された素材データの編集などに使用される装置である。編集装置173は、編集装置41と同様に、ユーザの入力に応じて、光ディスク172に記録されている素材データの非破壊編集を行い、エディットリストを作成して光ディスク172のエディットリストファイルに記録する。
また、編集装置173は、エディットリストとクリップの電子マークデータに基づいて、編集結果に発言者EM(start)を付与する。そして、編集装置173は、その発言者EM(start)を記述した電子マークデータを、編集結果の電子マークデータとして、光ディスク172のエディットリスト用NRTファイルに記録させる。さらに、編集装置173は、編集装置41と同様に、ユーザの入力に応じて、編集結果のうちの所定の発言者の音声にダックボイス加工を施す。
なお、図24では、ビデオカメラ171と編集装置173が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。
また、図24では、光ディスク172が、編集装置173の光ディスクドライブ41Aに装着され、その光ディスク172に対する読み出しまたは記録が行われるものとしたが、編集装置173が、光ディスク172が装着されたビデオカメラ171とネットワークを介して接続され、そのネットワークを介して、光ディスク172に対する読み出しまたは記録が行われるようにしてもよい。
図25は、図24のビデオカメラ171のハードウェア構成例を示すブロック図である。
図25のビデオカメラ171では、映像入力I/F60、音声入力I/F61、一時記憶メモリI/F63、光ディスクドライブI/F64、操作部I/F65、音声出力I/F66、シリアルデータI/F67、映像表示I/F68、メモリカードI/F69、ネットワークI/F70、ハードディスクドライブI/F71、ドライブI/F72、およびマイコン181が、システムバス73に接続されている。
なお、図25において、図2と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
マイコン181は、CPU、ROM、およびRAMにより構成される。マイコン181のCPUは、ROMまたはハードディスク81に記録されているプログラムにしたがって、操作部I/F65からの操作信号などに応じて、ビデオカメラ171の各部を制御する。
例えば、CPUは、図2のマイコン62のCPUと同様に、映像入力I/F60から供給される映像データと、音声入力I/F61から供給される音声データとからなる素材データを用いてプロキシデータを作成し、一時記憶メモリ75に記憶させる。また、CPUは、操作部I/F65から入力される操作信号に応じて、撮影中のフレームに発言者EM(start)を付与する。そして、CPUは、その発言者EM(start)を記述する電子マークデータを作成し、光ディスクドライブI/F64に供給して、光ディスク172のクリップのNRTファイルに記録させる。
さらに、CPUは、マイコン62のCPUと同様に、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの音声データを、システムバス73を介して音声出力I/F66に供給して、その音声データに対応する音声をスピーカ78から出力させる。
また、CPUは、マイコン62のCPUと同様に、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの映像データを、システムバス73を介して映像表示I/F68に供給して、その映像データに対応する映像を表示装置79に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
図26は、図25のビデオカメラ171における撮影処理部の機能的な構成例を示している。
図26の撮影処理部190は、制御部191と作成部192により構成される。
制御部191は、撮影に関する各種の制御を行う。例えば、制御部191は、図3の制御部91と同様に、操作部I/F65から供給される、撮影の開始を指令するための操作を表す操作信号に応じて、映像入力I/F60と音声入力I/F61を制御し、素材データの取得を開始する。
また、制御部191は、制御部91と同様に、取得した素材データを用いてプロキシデータを作成する。さらに、制御部191は、素材データとプロキシデータを一時記憶メモリI/F63に供給して、一時記憶メモリ75に記憶させる。
作成部192は、操作部I/F65から供給される、発言者IDを入力するための操作を表す操作信号に応じて、その発言者IDを付加した発言者EM(start)を、撮影中のフレームに付与する。そして、作成部192は、その発言者EM(start)を記述した電子マークデータを作成し、光ディスクドライブI/F64に供給して、光ディスク172のクリップのNRTファイルに記録させる。
次に、図27を参照して、ユーザがビデオカメラ171を用いて行う撮影作業について説明する。
図27の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ171による主な処理の内容、および、その処理対象となるデータが記述されている。
図27に示すように、ステップS101において、ユーザは、操作部77を操作して、図12の入力画面の表示を指令する。このとき、ビデオカメラ171の作成部192は、予めハードディスク81に登録されている発言者リストに基づいて、表示装置79に入力画面を表示させる。
ステップS102において、ユーザは、操作部77を操作して、撮影の開始を指令する。このとき、ビデオカメラ171の制御部191は、クリップのNRTファイルを光ディスク172に作成する。また、制御部191は、クリップファイルを光ディスク172に作成する。さらに、制御部191は、映像入力I/F60と音声入力I/F61から供給される素材データのクリップファイルへの記録を開始する。
ステップS103において、ユーザは、各発言者の発言の開始時に、入力画面において操作部77を操作し、その発言者の発言者IDを入力する。このとき、作成部192は、その発言者IDが付加された発言者EM(start)を撮影中のフレームに付与し、その発言者EM(start)を、クリップのNRTファイルの電子マークデータに記述する。
ステップS104において、ユーザは、操作部77を操作して撮影の終了を指令する。このとき、制御部191は、素材データのクリップファイルへの記録を終了する。
次に、図28のフローチャートを参照して、図26の撮影処理部190による撮影処理の詳細について説明する。この撮影処理は、例えば、ユーザが操作部77を操作することにより、入力画面の表示を指令したとき、開始される。
ステップS111において、ビデオカメラ171の作成部192は、予めハードディスク81に登録されている発言者リストに基づいて、表示装置79に入力画面を表示させる。ステップS112において、制御部191は、操作部I/F65から供給される操作信号に応じて、ユーザにより撮影の開始が指令されたかを判定する。ステップS112で撮影の開始が指令されていないと判定された場合、撮影の開始が指令されるまで待機する。
一方、ステップS112で撮影の開始が指令されたと判定された場合、ステップS113において、制御部191は、図8のステップS31の処理と同様に、クリップのNRTファイルを光ディスク172に作成する。ステップS114において、制御部191は、図8のステップS32の処理と同様に、クリップファイルを光ディスク172に作成する。ステップS115において、制御部191は、映像入力I/F60と音声入力I/F61から供給される素材データのクリップファイルへの記録を開始する。
ステップS116において、作成部192は、操作部I/F65から供給される操作信号に応じて、ユーザにより発言者IDが入力されたかを判定する。ステップS116で、ユーザにより発言者IDが入力されていないと判定された場合、処理はステップS117をスキップして、ステップS118に進む。
一方、ステップS116で、発言者IDが入力されたと判定された場合、ステップS117において、作成部192は、現在撮影中のフレームのフレーム番号に基づいて、そのフレーム番号のフレームに、ユーザにより入力された発言者IDが付加された発言者EM(start)を付与する。そして、作成部192は、その発言者EM(start)をクリップのNRTファイルの電子マークデータに記述する。
ステップS118において、制御部191は、操作部77からの操作信号に応じて、ユーザにより撮影の終了が指令されたかを判定する。ステップS118で撮影の終了が指令されていないと判定された場合、処理はステップS116に戻り、上述した処理が繰り返される。
また、ステップS118で撮影の終了が指令されたと判定された場合、ステップS119において、制御部191は、素材データのクリップファイルへの記録を終了する。そして処理は終了する。
図29は、図24の編集装置173のハードウェア構成例を示すブロック図である。
図29の編集装置173では、一時記憶メモリI/F112、光ディスクドライブI/F113、操作部I/F114、音声出力I/F115、シリアルデータI/F116、映像表示I/F117、メモリカードI/F118、ネットワークI/F119、ハードディスクドライブI/F120、ドライブI/F121、およびマイコン195が、システムバス122に接続されている。なお、図29において、図9と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
マイコン195は、CPU、ROM、およびRAMにより構成される。マイコン195のCPUは、ROMまたはハードディスク128に記録されているプログラムにしたがって、操作部I/F114からの操作信号などに応じて、編集装置173の各部を制御する。
例えば、CPUは、図9のマイコン111のCPUと同様に、光ディスクドライブI/F113から供給される、光ディスクドライブ41Aに装着された光ディスク172から読み出されたクリップを一時記憶メモリI/F112に供給する。
また、CPUは、マイコン111のCPUと同様に、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、マイコン111のCPUと同様に、エディットリストを光ディスク172に記録させる。
さらに、CPUは、マイコン111のCPUと同様に、エディットリストとクリップのNRTファイルの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、CPUは、マイコン111のCPUと同様に、その電子マークデータを、光ディスク172のエディットリスト用NRTファイルに記録させる。
また、CPUは、マイコン111のCPUと同様に、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者IDの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。
さらに、CPUは、マイコン111のCPUと同様に、一時記憶メモリI/F112から供給されるクリップのうちの音声データを、システムバス122を介して音声出力I/F115に供給して、クリップの音声をスピーカ125から出力させる。また、CPUは、マイコン111のCPUと同様に、一時記憶メモリI/F112から供給されるクリップのうちの映像データを、システムバス122を介して映像表示I/F117に供給して、クリップの映像を表示装置126に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
図30は、図29の編集装置173における編集処理部の機能的な構成例を示している。
図30の編集処理部200は、エディットリスト作成部201とEM作成部202により構成される。
エディットリスト作成部201は、図10のエディットリスト作成部152と同様に、光ディスクドライブI/F113から供給される、光ディスク172から読み出されたクリップを、一時記憶メモリI/F112に供給する。
また、エディットリスト作成部201は、エディットリスト作成部152と同様に、一時記憶メモリI/F112から供給されるプロキシデータのうちの音声データを音声出力I/F115に供給して、クリップの音声をスピーカ125から出力させるとともに、プロキシデータのうちの映像データを映像表示I/F117に供給して、クリップの低解像度の映像を編集画面として表示装置126に表示させる。このとき、ユーザは、スピーカ125からの音声を聞きつつ、編集画面を見ながら、操作部124を操作して編集作業を行う。
エディットリスト作成部201は、エディットリスト作成部152と同様に、ユーザの編集作業により操作部I/F114から供給される操作信号に応じて、エディットリストを作成することにより、非破壊編集を行う。そして、エディットリスト作成部201は、エディットリスト作成部152と同様に、エディットリストを光ディスク172に記録させるとともに、EM作成部202に供給する。
また、エディットリスト作成部201は、エディットリスト作成部152と同様に、操作部I/F114から供給される操作信号と、EM作成部202から供給される編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者IDの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。
EM作成部202は、EM作成部153と同様に、エディットリスト作成部201から供給されるエディットリストと、一時記憶メモリI/F112に記憶されている、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、EM作成部202は、EM作成部153と同様に、その電子マークデータを光ディスク172のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部201に供給する。
また、EM作成部202は、操作部I/F114から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者IDが付加された発言者EM(start)に、ダックボイス加工の有無を表す情報を付加する。
次に、図31乃至図34を参照して、編集装置173における非破壊編集について説明する。
なお、ここでは、ビデオカメラ171が、発言者ID「A」の発言者「○○さん」、発言者ID「B」の発言者「××さん」、および発言者ID「C」の発言者「△△さん」の3人を被写体として撮影するとともに対話の音声を取得することにより、3人の発言者の対話をテレビジョン素材として撮影したものとする。
そして、ユーザは、そのテレビジョン素材の所定の区間の音声を切り取って編集結果の音声として使用するとともに、所定の区間の映像を切り取って編集結果の映像として使用し、3人の発言者のうちの少なくとも1人の発言者の発言にダックボイス加工を施すように、非破壊編集を行う。
まず最初に、図31と図32を参照して、光ディスク172に記録されている編集対象のクリップと編集結果について説明する。なお、図31において、横軸はフレーム番号を表している。
図31Aの上段の棒は、ビデオカメラ171により撮影された編集対象である第1のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図31の例では、第1のクリップの映像のフレーム数は1001フレームであり、各フレームには、フレーム番号が「0」から順に「1000」まで付与されている。
また、図31Aの下段の棒は、第1のクリップの音声の長さを示しており、棒の中のアルファベットは、その位置に対応する音声を発した発言者の発言者IDである。また、棒の下に記載されている矢印は、発言者EM(start)を表している。
詳細には、図31の例では、第1のクリップには、100フレーム目に発言者ID「A」が付加された発言者EM(start)が付与されおり、350フレーム目に、発言者ID「B」が付加された発言者EM(start)が付与されている。また、600フレーム目に、発言者ID「C」が付加された発言者EM(start)が付与されている。
また、図31Bの棒は、図31Aに示した第1のクリップを編集対象として非破壊編集が行われた結果得られる編集結果の素材データの長さを示しており、棒の上に記述されている数字は、その記述位置に対応する編集結果上のフレーム番号を示している。図31の例では、編集結果のフレーム数は601フレームであり、各フレームには、フレーム番号が「0」から順に「600」まで付与されている。
詳細には、図31の例では、ユーザにより第1のクリップの200フレーム目がイン点として指定され、300フレーム目がアウト点として指定されている。従って、第1のクリップの200フレーム目から300フレーム目までのフレームの素材データが、編集結果の0フレーム目から100フレーム目までのフレームの素材データ(以下、第1の素材サブクリップという)となる。
また、図31の例では、ユーザにより第1のクリップの400フレーム目がイン点として指定され、750フレーム目がアウト点として指定されている。従って、第1のクリップの400フレーム目から750フレーム目までのフレームの素材データが、編集結果の100フレーム目から450フレーム目までのフレームの素材データ(以下、第2の素材サブクリップという)となる。
さらに、図31の例では、ユーザにより第1のクリップの850フレーム目がイン点として指定され、1000フレーム目がアウト点として指定されている。従って、第1のクリップの850フレーム目から1000フレーム目までのフレームの素材データが、編集結果の450フレーム目から600フレーム目までのフレームの素材データ(以下、第3の素材サブクリップという)となる。
以上のようにイン点とアウト点が指定され、非破壊編集が行われた場合、第1のクリップのイン点の直前に付与された発言者EM(start)が、イン点に対応する編集結果上の位置に付与される。
図31の例では、イン点として指定された第1のクリップの200フレーム目の直前の100フレーム目に付与された、発言者ID「A」が付与された発言者EM(start)が、そのイン点に対応する編集結果上の位置である0フレーム目に付与される。
また、イン点として指定された第1のクリップの350フレーム目の直前の300フレーム目に付与された、発言者ID「B」が付与された発言者EM(start)が、そのイン点に対応する編集結果上の位置である100フレーム目に付与される。
さらに、イン点として指定された第1のクリップの850フレーム目の直前の600フレーム目に付与された、発言者ID「C」が付与された発言者EM(start)が、そのイン点に対応する編集結果上の位置である450フレーム目に付与される。
また、第1のクリップのイン点からアウト点までの編集区間内の位置に付与されている発言者EM(start)が、その位置に対応する編集結果上の位置に付与される。図31の例では、イン点として指定された第1のクリップの400フレーム目から、アウト点として指定された第2のクリップの750フレーム目までの編集区間内の600フレーム目に付与されている発言者EM(start)が、その位置に対応する編集結果上の位置である300フレーム目に付与される。
なお、この発言者EM(start)を付与する編集結果上の位置Tee3(図31の例では300)は、イン点に対応する編集結果上の位置Tec1(図31の例では100)、発言者EM(start)が付与されているクリップ上の位置Tme3(図31の例では600)、および、イン点Tmc3(図31の例では400)を用いた以下の式(1)により求められる。
Tee3=Tec1+Tme3-Tmc3
・・・(1)
また、編集結果と、その編集結果の音声に対応する発言者IDは、図32に示すようになる。なお、図32において、横軸はフレーム番号を示している。
即ち、編集結果は、第1の素材サブクリップ、第2の素材サブクリップ、および第3の素材サブクリップが順に先頭から並べられることにより構成される。また、編集結果のフレーム番号「0」から「100」までのフレームの音声は、発言者ID「A」の発言者の発言であり、編集結果のフレーム番号「100」から「300」までのフレームの音声は、発言者ID「B」の発言者の発言である。さらに、編集結果のフレーム番号「300」から「600」までのフレームの音声は、発言者ID「C」の発言者の発言である。
以上のように、図31Bや図32に示した編集結果では、第2の素材サブクリップのアウト点と、発言者の切替点が異なっている。即ち、図31Bや図32に示した編集結果では、第2の素材サブクリップの途中で、発言者「××さん」の発言から、「△△さん」の発言に切り替わる。
図33は、図31に示した第1のクリップの電子マークデータを示し、図34は、図31や図32に示した編集結果の電子マークデータを示している。
図33の例では、電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部は、2乃至6行目に記述されている。
図33の2行目の「targetMedia="Original-Material"」は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。
また、3行目の「EssenceMark value="Speaker-A"frameCount="100"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の開始位置であり、付与位置がクリップの先頭から100フレーム目であることを示している。
同様に、4行目の「EssenceMark value="Speaker-B"frameCount="350"」、5行目の「EssenceMark value="Speaker-C"frameCount="600"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「C」の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から350フレーム目、600フレーム目であることを示している。
また、図34の例では、電子マークテーブル(<EssenceMark Table> </EssenceMark Table>)で囲まれる電子マークテーブル部は、2乃至7行目に記述されている。
なお、2行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。
また、3行目の「EssenceMark value="Speaker-A"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ID「A」の発言者による発言の開始位置であり、付与位置が編集結果の先頭から0フレーム目であることを示している。
同様に、4行目の「EssenceMark value="Speaker-B"frameCount="100"」、5行目の「EssenceMark value="Speaker-C"frameCount="300"」、6行目の「EssenceMark value="Speaker-C"frameCount="450"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ID「B」の発言者、発言者ID「C」の発言者、発言者ID「C」の発言者による発言の開始位置であり、付与位置が、それぞれ、編集結果の先頭から100フレーム目、300フレーム目、450フレーム目であることを示している。
なお、上述した説明では、編集結果の300フレーム目と450フレーム目に、同一の発言者ID「C」が付加された発言者EM(start)が連続して付与されたが、同一の発言者IDが付加された発言者EM(start)が連続する場合、最初の発言者EM(start)だけを付与するようにしてもよい。
次に、図35を参照して、ユーザが編集装置173を用いて行う編集作業について説明する。
図35の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置173による主な処理の内容、および、その処理の対象となるデータが記述されている。
図35に示すように、ステップS131において、ユーザは、編集装置173の光ディスクドライブ41Aに光ディスク172を装着し、操作部124を操作して編集画面の表示の指令を行う。このとき、エディットリスト作成部201は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置126に表示させ、クリップの音声をスピーカ125から出力させる。
ステップS132において、ユーザは、操作部124を操作して、編集画面においてイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部201は、ユーザにより指定されたイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部201は、そのエディットリストを光ディスク172のエディットリストファイルに記録させるとともに、EM作成部202に供給する。
また、EM作成部202は、エディットリスト作成部201から供給されるエディットリストと、クリップの発言者EM(start)が記述された電子マークデータとに基づいて、カット点で発言者EM(start)を補間し、イン点からアウト点までに付与されている発言者EM(start)を、編集結果上の対応する位置にコピーすることにより、編集結果の電子マークデータを作成する。そして、EM作成部202は、編集結果の電子マークデータを、光ディスク172のエディットリスト用NRTファイルに記録させる。
ステップS133およびS134の処理は、図21のステップS56およびS57の処理と同様であるので、説明は省略する。
なお、図示は省略するが、編集処理部200による、音声と映像を非破壊編集する編集処理は、図23の音声編集処理と同様である。但し、編集処理部200による編集処理では、図23のステップS83とS85において、現在再生中のフレームのフレーム番号が、素材サブクリップとして音声と映像の再生を開始する位置または終了する位置として、エディットリストに記述される。
また、図24の撮影編集システム170では、ビデオカメラ171により撮影と発言者EM(start)の付与の両方が行われたが、図36に示すように、撮影を行うビデオカメラ205とは別に、発言者EM(start)を付与する付与装置206が設けられるようにしてもよい。
さらに、図24の撮影編集システム170では、1つのビデオカメラ171によりテレビジョン素材が撮影されたが、複数のビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。
この場合、編集装置173は、図1の編集装置41と同様に、各ビデオカメラで撮影されたクリップを1つの光ディスクに集約する。また、この場合、複数のビデオカメラのそれぞれで音声が取得されるようにしてもよいし、いずれか1つのビデオカメラで音声が取得されるようにしてもよい。いずれか1つのビデオカメラで音声が取得される場合、編集装置173は、編集装置41と同様に、映像と音声を別々に非破壊編集する。
次に、図37は、本発明を適用した撮影編集システムの第3の実施の形態の構成例を示している。なお、図1や図24と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
図37の撮影編集システム210では、ユーザが、編集装置213において編集結果の再生中に発言者IDを入力する。
詳細には、ビデオカメラ211は、図24のビデオカメラ171と同様に、テレビジョン素材の収録に使用される装置である。ビデオカメラ211は、ビデオカメラ171と同様に、テレビジョン素材の映像を撮影するとともに、マイクロフォン21Aにより音声を取得する。ビデオカメラ211は、ビデオカメラ171と同様に、その結果得られる音声付き映像のデータを素材データとして、光ディスク212のクリップファイルに記録する。
光ディスク212は、編集装置213の光ディスクドライブ41Aに装着される。編集装置213は、編集装置173と同様に、光ディスクドライブ41Aに装着される光ディスク212に記録された素材データの編集などに使用される装置である。
編集装置213は、編集装置173と同様に、ユーザの入力に応じて、光ディスク212に記録されている素材データの非破壊編集を行い、エディットリストを作成して光ディスク212のエディットリストファイルに記録する。また、編集装置213は、ユーザの入力に応じて、編集結果に発言者EM(start)を付与し、その発言者EM(start)を記述した電子マークデータを、編集結果の電子マークデータとして、光ディスク212のエディットリスト用NRTファイルに記録させる。
さらに、編集装置213は、編集装置173と同様に、ユーザの入力に応じて、編集結果のうちの所定の発言者の音声にダックボイス加工を施す。
なお、図37では、ビデオカメラ211と編集装置213が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。
また、図37では、光ディスク212が、編集装置213の光ディスクドライブ41Aに装着され、その光ディスク212に対する読み出しまたは記録が行われるものとしたが、編集装置213が、光ディスク212が装着されたビデオカメラ211とネットワークを介して接続され、そのネットワークを介して、光ディスク212に対する読み出しまたは記録が行われるようにしてもよい。
図38は、図37のビデオカメラ211のハードウェア構成例を示すブロック図である。
図38のビデオカメラ211では、映像入力I/F60、音声入力I/F61、一時記憶メモリI/F63、光ディスクドライブI/F64、操作部I/F65、音声出力I/F66、シリアルデータI/F67、映像表示I/F68、メモリカードI/F69、ネットワークI/F70、ハードディスクドライブI/F71、ドライブI/F72、およびマイコン221が、システムバス73に接続されている。
なお、図38において、図2や図25と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
マイコン221は、CPU、ROM、およびRAMにより構成される。マイコン221のCPUは、ROMまたはハードディスク81に記録されているプログラムにしたがって、操作部I/F65からの操作信号などに応じて、ビデオカメラ211の各部を制御する。
例えば、CPUは、図25のマイコン181のCPUと同様に、映像入力I/F60から供給される映像データと、音声入力I/F61から供給される音声データとからなる素材データを用いてプロキシデータを作成し、一時記憶メモリ75に記憶させる。また、CPUは、マイコン181のCPUと同様に、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの音声データを、システムバス73を介して音声出力I/F66に供給して、その音声データに対応する音声をスピーカ78から出力させる。
また、CPUは、マイコン181のCPUと同様に、一時記憶メモリI/F63から供給される素材データまたはプロキシデータのうちの映像データを、システムバス73を介して映像表示I/F68に供給して、その映像データに対応する映像を表示装置79に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
図39は、図38のビデオカメラ211における撮影処理部の機能的な構成例を示している。図39に示すように、撮影処理部230は、図26の制御部191により構成されるので、説明は省略する。
次に、図40を参照して、ユーザがビデオカメラ211を用いて行う撮影作業について説明する。
図40の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ211による主な処理の内容、および、その処理対象となるデータが記述されている。
図40のステップS171およびS172は、図27のステップS102およびS104と同様である。即ち、図40の編集作業は、図27の編集作業において、発言者EM(start)の付与に関する作業であるステップS101とS103を削除したものである。
次に、図41のフローチャートを参照して、図39の撮影処理部230による撮影処理について説明する。この撮影処理は、例えば、ユーザが操作部77を操作することにより、撮影の開始を指令したとき開始される。
ステップS191乃至S195の処理は、図28のステップS113乃至S115、S118、およびS119の処理と同様であるので、説明は省略する。
図42は、図37の編集装置213のハードウェア構成例を示すブロック図である。
図42の編集装置213では、一時記憶メモリI/F112、光ディスクドライブI/F113、操作部I/F114、音声出力I/F115、シリアルデータI/F116、映像表示I/F117、メモリカードI/F118、ネットワークI/F119、ハードディスクドライブI/F120、ドライブI/F121、およびマイコン241が、システムバス122に接続されている。なお、図42において、図9や図29と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。
マイコン241は、CPU、ROM、およびRAMにより構成される。マイコン241のCPUは、ROMまたはハードディスク128に記録されているプログラムにしたがって、操作部I/F114からの操作信号などに応じて、編集装置213の各部を制御する。
例えば、CPUは、図29のマイコン195のCPUと同様に、光ディスクドライブI/F113から供給される、光ディスクドライブ41Aに装着された光ディスク212から読み出されたクリップを一時記憶メモリI/F112に供給する。
また、CPUは、マイコン195のCPUと同様に、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、マイコン195のCPUと同様に、エディットリストを光ディスク212に記録させる。
さらに、CPUは、操作部I/F114からの操作信号に応じて、編集結果の電子マークデータを作成する。そして、CPUは、マイコン195のCPUと同様に、その電子マークデータを、光ディスク212のエディットリスト用NRTファイルに記録させる。
また、CPUは、マイコン195のCPUと同様に、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者IDの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。
さらに、CPUは、マイコン195のCPUと同様に、一時記憶メモリI/F112から供給されるクリップのうちの音声データを、システムバス122を介して音声出力I/F115に供給して、クリップの音声をスピーカ125から出力させる。また、CPUは、マイコン195のCPUと同様に、一時記憶メモリI/F112から供給されるクリップのうちの映像データを、システムバス122を介して映像表示I/F117に供給して、クリップの映像を表示装置126に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。
図43は、図42の編集装置213における編集処理部の機能的な構成例を示している。
図43の編集処理部250は、エディットリスト作成部201とEM作成部251により構成される。なお、図43において、図30と同一のものには同一の符号を付してあり、説明は繰り返しになるので、省略する。
EM作成部251は、操作部I/F114からの操作信号に応じて、編集結果の電子マークデータを作成する。そして、EM作成部251は、図30のEM作成部202と同様に、その電子マークデータを、光ディスク212のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部201に供給する。
また、EM作成部251は、EM作成部202と同様に、操作部I/F114から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者IDが付加された発言者EM(start)に、ダックボイス加工の有無を表す情報を付加する。
次に、図44を参照して、ユーザが編集装置213を用いて行う編集作業について説明する。
図44の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置213による主な処理の内容、および、その処理の対象となるデータが記述されている。
図44に示すように、ステップS211において、図35のステップS131と同様に、ユーザは、編集装置213の光ディスクドライブ41Aに光ディスク212を装着し、操作部124を操作して編集画面の表示の指令を行う。このとき、編集装置213のエディットリスト作成部201は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置126に表示させ、クリップの音声をスピーカ125から出力させる。
ステップS212において、ユーザは、操作部124を操作して、編集画面においてイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部201は、ユーザにより指定されたイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部201は、そのエディットリストを光ディスク212のエディットリストファイルに記録させるとともに、EM作成部251に供給する。
ステップS213において、ユーザは、操作部124を操作して入力画面(図12)の表示を指令する。このとき、EM作成部251は、予めハードディスク128に登録されている発言者リストに基づいて、表示装置126に入力画面を表示させる。
ステップS214において、ユーザは、編集結果の再生を指令する。このとき、EM作成部251は、エディットリストに基づいて、光ディスク212のクリップファイルから編集結果を構成する素材データを再生する。その結果、編集結果の音声がスピーカ125から出力され、映像が表示装置126に表示される。
ステップS215において、ユーザは、クリップの音声を聞き、各発言者の発言の開始時に、入力画面において操作部124を操作して、その発言者の発言者IDを入力する。このとき、EM作成部251は、再生中の音声に対応するフレームに、入力された発言者IDを付加した発言者EM(start)を付与し、その発言者EM(start)をエディットリスト用NRTファイルの電子マークデータに記述する。
ステップS216およびS217の処理は、図35のステップS133およびS134の処理と同様であるので、説明は省略する。
次に、図45のフローチャートを参照して、図43のEM作成部251による編集結果に発言者EM(start)を付与する付与処理について説明する。この付与処理は、例えば、ユーザが操作部124を操作することにより、図12の入力画面の表示を指令したとき開始される。
ステップS231において、EM作成部251は、予めハードディスク128に登録されている発言者リストに基づいて、表示装置126に入力画面を表示させる。ステップS232において、EM作成部251は、ユーザにより編集結果の再生が指令されたかどうかを判定する。ステップS232で、編集結果の再生が指令されていないと判定された場合、EM作成部251は、再生が指令されるまで待機する。
一方、ステップS232で、編集結果の再生が指令されたと判定された場合、ステップS233において、EM作成部251は、その編集結果の再生を開始する。ステップS234において、EM作成部251は、操作部I/F114から供給される操作信号に応じて、ユーザにより発言者IDが入力されたかを判定する。
ステップS234で、ユーザにより発言者IDが入力されていないと判定された場合、EM作成部251は、発言者IDが入力されるまで待機する。また、ステップS234で、ユーザにより発言者IDが入力されたと判定された場合、ステップS235において、EM作成部251は、その発言者IDの入力に対応する位置である現在再生中のフレームのフレーム番号に基づいて、現在再生中のフレームに、入力された発言者IDが付加された発言者EM(start)を付与し、その発言者EM(start)をエディットリスト用NRTファイルの電子マークデータに記述する。
ステップS236において、EM作成部251は、再生中の編集結果が終端まで再生されたかを判定し、終端まで再生されていないと判定した場合、処理はステップS234に戻り、上述した処理が繰り返される。
一方、ステップS236において、再生中の編集結果が終端まで再生されたと判定された場合、ステップS237において、EM作成部251は、編集結果の再生を終了する。そして処理は終了する。
以上のように、編集装置213は、ユーザからの入力に応じて、編集結果に発言者EM(start)を付与するので、編集結果のうちの所望の発言者の音声にダックボイス加工を施す場合に、この発言者EM(start)により、ダックボイス加工を施す音声の区間を容易に認識することができる。
なお、図示は省略するが、編集処理部250による、音声と映像を非破壊編集する編集処理は、図23の音声編集処理と同様である。但し、編集処理部250による編集処理では、図23のステップS83とS85において、現在再生中のフレームのフレーム番号が、素材サブクリップとして音声と映像の再生を開始する位置または終了する位置として、エディットリストに記述される。
また、図37の撮影編集システム210では、1つのビデオカメラ211によりテレビジョン素材が撮影されたが、複数のビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。
この場合、編集装置213は、図1の編集装置41と同様に、各ビデオカメラで撮影されたクリップを1つの光ディスクに集約する。また、この場合、複数のビデオカメラのそれぞれで音声が取得されるようにしてもよいし、いずれか1つのビデオカメラで音声が取得されるようにしてもよい。いずれか1つのビデオカメラで音声が取得される場合、編集装置213は、編集装置41と同様に、映像と音声を別々に非破壊編集する。
さらに、上述した説明では、光ディスクにクリップが記録されるものとしたが、クリップが記録される記録媒体は、勿論、光ディスクに限定されない。
また、上述した説明では、ハードディスクに発言者リストが記録されるものとしたが、光ディスクなどの記録媒体に、クリップとともに記録されるようにしてもよい。
さらに、ダックボイス加工を施した発言の発言者の映像には、モザイクを施すようにしてもよい。
また、図24や図36の撮影編集システム170と図37の撮影編集システム210では、発言者ID(start)が付与されたが、発言者ID(start)と発言者ID(end)の両方が付与されるようにしてもよい。
さらに、上述した説明では、ユーザによりダックボイス加工を施す発言の発言者の発言者IDが入力されると、編集結果の電子マークデータに記述されている発言者EM(start)と発言者EM(end)、または、発言者EM(start)に、ダックボイス加工の有無を表す情報が付加されたが、この情報が付加されないようにしてもよい。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
21 ビデオカメラ, 21A マイクロフォン, 41 編集装置, 74 カメラ, 93 作成部, 114 操作部I/F, 151 付加部, 192 作成部