JP4962783B2

JP4962783B2 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: JP4962783B2
Application number: JP2007225207A
Authority: JP
Inventors: 光俊真貝; 賀昭柴田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-08-31
Filing date: 2007-08-31
Publication date: 2012-06-27
Anticipated expiration: 2027-08-31
Also published as: CN101471115B; JP2009060326A; US20090060449A1; US8059167B2; CN101471115A

Description

本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、音声付き映像を非破壊編集する場合において、編集結果のうちの所望の発言者の音声に容易に所定の加工を施すことができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

従来、ニュース番組やドキュメンタリ番組では、例えば発言者の身元を隠す必要がある場合に、その発言者の音声のピッチやフォルマントを変更する加工を施すことがある。この加工後の音声は、大男や子供の声に似た音声になることもあるが、ドナルドダックの声に似た音声になることが多いので、ダックボイスといわれている。なお、以下では、音声をダックボイスにする加工のことを、ダックボイス加工という。

また、近年、編集作業の効率を高めるために、撮影された映像や音声をそのまま残してカット点を記述する非破壊編集を行う編集装置が普及してきている。なお、カット点とは、撮影された映像や音声のうちの編集結果に含める区間の開始位置を表すイン点、または、終了位置を表すアウト点である。

このような編集装置としては、例えば、ユーザによりカット点が指定されると、映像の特徴を示すEssenceMark(登録商標)などの電子マークの一覧である電子マークリストに、カット点を示す電子マークを追加し、カット点に基づいて映像や音声を編集するための編集リストを生成する編集装置がある(例えば、特許文献１参照)。

特開２００４−１８０２７９号公報

しかしながら、非破壊編集を行う編集装置において、編集結果のうちの所望の発言者の音声に対してダックボイス加工などの所定の加工を施すことは考えられていなかった。従って、編集結果のうちの所望の発言者の音声に対してダックボイス加工などの所定の加工を容易に施すために有用な電子マークは考えられていなかった。

本発明は、このような状況に鑑みてなされたものであり、音声付き映像を非破壊編集する場合において、編集結果のうちの所望の発言者の音声に容易に所定の加工を施すことができるようにするものである。

本発明の一側面の情報処理装置は、音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う情報処理装置において、ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付ける受付手段と、前記受付手段により入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加する付加手段と、前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成する編集手段とを備える。

本発明の一側面の情報処理装置は、前記受付手段により受け付けられた固有情報の入力に応じて、その入力に対応する音声付き映像の位置に前記電子マークを付与する付与手段をさらに設け、前記付加手段は、前記付与手段により付与された前記電子マークに前記固有情報を付加することができる。

本発明の一側面の情報処理方法は、音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う情報処理装置の情報処理方法において、ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付け、入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加し、前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成するステップを含む。

本発明の一側面のプログラムは、音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う処理を、コンピュータに行わせるプログラムにおいて、ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付け、入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加し、前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成するステップを含む処理をコンピュータに行わせる。

本発明の一側面においては、ユーザからの、音声付き映像の音声の発言者の固有の情報である固有情報の入力が受け付けられ、入力が受け付けられた固有情報が、その入力に対応する音声付き映像の位置に付与される電子マークに付加され、固有情報が付加された電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報が生成される。

以上のように、本発明によれば、音声付き映像を非破壊編集する場合において、編集結果のうちの所望の発言者の音声に容易に所定の加工を施すことができる。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明を適用した撮影編集システムの第１の実施の形態の構成例を示している。

図１の撮影編集システム１０は、例えば、テレビジョン番組の素材となるテレビジョン素材を撮影して編集するために用いられる撮影編集システムである。

撮影編集システム１０は、マイクロフォン２１Ａを備えたカムコーダーなどのビデオカメラ２１、ビデオカメラ２２、および編集装置４１により構成される。

ビデオカメラ２１および２２は、テレビジョン番組であるニュース番組やドキュメンタリ番組のテレビジョン素材の収録に使用される装置である。ビデオカメラ２１は、テレビジョン素材の映像を撮影するとともに、マイクロフォン２１Ａにより周囲の音声を取得する。ビデオカメラ２１は、その結果得られる音声付き映像のデータを、テレビジョン素材のデータである素材データとして光ディスク３１に記録する。

また、ビデオカメラ２２は、テレビジョン素材の映像を撮影し、その結果得られる映像のデータを素材データとして、光ディスク３２に記録する。さらに、ビデオカメラ２１および２２は、それぞれ、ユーザの入力に基づいて、収録に関する情報等のように、例えば、後段の編集時に有用となる情報等を生成し、素材データにメタデータとして関連付ける。

素材データや、それに関連付けられるメタデータが記録された光ディスク３１または３２は、編集装置４１の光ディスクドライブ４１Ａに装着される。

編集装置４１は、光ディスクドライブ４１Ａに装着される光ディスク３１および３２に記録された素材データの、１つの光ディスク３１への集約と、その光ディスク３１に集約された素材データの編集とに使用される装置である。

編集装置４１は、光ディスク３２に記録された素材データを、必要に応じて光ディスク３１に複写する。また、編集装置４１は、ユーザの入力に応じて、光ディスク３１に集約された素材データの非破壊編集を行い、その編集結果に関する情報であるエディットリストを作成して、光ディスク３１に記録する。さらに、編集装置４１は、ユーザの入力に応じて、編集結果のうちの所望の発言者の音声にダックボイス加工を施す。

なお、図１の撮影編集システム１０では、ビデオカメラ２１または２２と編集装置４１が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。

また、撮影編集システム１０では、光ディスク３１および３２が、編集装置４１の光ディスクドライブ４１Ａに装着され、その光ディスク３１および３２に対する読み出しまたは記録が行われるものとしたが、編集装置４１が、光ディスク３１が装着されたビデオカメラ２１、および、光ディスク３２が装着されたビデオカメラ２２とネットワークを介して接続され、そのネットワークを介して、光ディスク３１および３２に対する読み出しまたは記録が行われるようにしてもよい。

図２は、図１のビデオカメラ２１のハードウェア構成例を示すブロック図である。

図２のビデオカメラ２１では、映像入力I/F（Interface）６０、音声入力I/F６１、マイクロコンピュータ（以下、マイコンという）６２、一時記憶メモリI/F６３、光ディスクドライブI/F６４、操作部I/F６５、音声出力I/F６６、シリアルデータI/F６７、映像表示I/F６８、メモリカードI/F６９、ネットワークI/F７０、ハードディスクドライブI/F７１、およびドライブI/F７２が、システムバス７３に接続されている。

映像入力I/F６０には、カメラ７４が接続されており、カメラ７４により撮影された結果得られる映像信号が、カメラ７４から入力される。映像入力I/F６０は、その映像信号に含まれる、SDI（Serial Digital Interface）規格に準拠した信号、コンポジット信号、コンポーネント信号などの同期信号に対してA/D（Analog/Digital）変換を行い、その結果得られるデジタル信号を映像データとして、システムバス７３を介して、マイコン６２、映像表示I/F６８、または、一時記憶メモリI/F６３に供給する。

音声入力I/F６１には、外部に設けられたマイクロフォン２１Ａが接続されており、マイクロフォン２１Ａにより取得された周囲の音声のアナログ信号である音声信号が入力される。音声入力I/F６１は、その音声信号に対してA/D変換を行い、その結果得られるデジタル信号を音声データとして、システムバス７３を介して、マイコン６２または一時記憶メモリI/F６３に供給する。

マイコン６２は、CPU(Central Processing Unit)、ROM(Read Only Memory)、およびRAM（Random Access Memory）により構成される。マイコン６２のCPUは、ROMまたはハードディスク８１に記録されているプログラムにしたがって、操作部I/F６５からの操作信号などに応じて、ビデオカメラ２１の各部を制御する。

例えば、CPUは、映像入力I/F６０から供給される映像データと、音声入力I/F６１から供給される音声データとからなる素材データを用いて、その映像データの解像度を低くしたプロキシデータを作成する。CPUは、そのプロキシデータと素材データを一時記憶メモリI/F６３に供給して、一時記憶メモリ７５に記憶させる。また、CPUは、音声入力I/F６１から供給される音声データのレベルに応じて、音声の特徴を示す電子マークを記述する電子マークデータを作成し、光ディスクドライブI/F６４に供給する。

さらに、CPUは、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの音声データを、システムバス７３を介して音声出力I/F６６に供給して、その音声データに対応する音声をスピーカ７８から出力させる。

また、CPUは、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの映像データを、システムバス７３を介して映像表示I/F６８に供給して、その映像データに対応する映像を表示装置７９に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

一時記憶メモリI/F６３には、バッファなどの一時記憶メモリ７５が接続されており、一時記憶メモリI/F６３は、映像入力I/F６０からの映像データと、音声入力I/F６１からの音声データとからなる素材データを、一時記憶メモリ７５に記憶させる。また、一時記憶メモリI/F６３は、マイコン６２から供給されるプロキシデータを、一時記憶メモリ７５に記憶させる。

さらに、一時記憶メモリI/F６３は、一時記憶メモリ７５に記憶されている、映像入力I/F６０からの映像データと、音声入力I/F６１からの音声データとからなる素材データとプロキシデータとを読み出す。そして、一時記憶メモリI/F６３は、その素材データとプロキシデータを、システムバス７３を介して光ディスクドライブI/F６４に供給し、光ディスク３１に記録させる。

また、一時記憶メモリI/F６３は、光ディスクドライブI/F６４から供給されるクリップ（詳細は後述する）のうちの素材データまたはプロキシデータを、一時記憶メモリ７５に記憶させる。さらに、一時記憶メモリI/F６３は、一時記憶メモリ７５に記憶されている、光ディスクドライブI/F６４から供給された素材データまたはプロキシデータを読み出し、システムバス７３を介して、マイコン６２に供給する。

なお、クリップとは、例えば、１回の撮影処理（撮影開始から撮影終了までの撮影処理）により得られた素材データ、メタデータ、プロキシデータ等の集合体を指す。

光ディスクドライブI/F６４には、光ディスク３１が装着される光ディスクドライブ７６が接続されている。光ディスクドライブI/F６４は、光ディスクドライブ７６を制御して、クリップのうちの素材データまたはプロキシデータを読み出し、システムバス７３を介して一時記憶メモリI/F６３に供給する。

また、光ディスクドライブI/F６４は、光ディスクドライブ７６を制御し、一時記憶メモリI/F６３からの素材データ、プロキシデータなどを、光ディスク３１にクリップ単位で記録させる。さらに、光ディスクドライブI/F６４は、光ディスクドライブ７６を制御し、マイコン６２からの電子マークデータを、光ディスク３１に記録させる。

操作部I/F６５には、操作ボタン、リモートコントローラから送信されてくる指令を受信する受信部などの操作部７７が接続される。操作部I/F６５は、ユーザによる操作部７７の操作に応じて、その操作を表す操作信号を生成し、その操作信号を、システムバス７３を介してマイコン６２に供給する。

音声出力I/F６６には、スピーカ７８が接続される。音声出力I/F６６は、マイコン６２から供給される音声データに対してD/A（Digital/Audio）変換を行い、その結果得られるアナログ信号を増幅して、スピーカ７８に供給する。スピーカ７８は、音声出力I/F６６からのアナログ信号に基づいて、音声を外部に出力する。なお、音声出力I/F６６は、音声データをそのままスピーカ７８に供給し、スピーカ７８が、D/A変換等を行い、その結果得られるアナログ信号に基づいて音声を外部に出力するようにしてもよい。

シリアルデータI/F６７は、必要に応じて、図示せぬ外部のコンピュータ等のデジタル機器との間で、データをやり取りする。映像表示I/F６８には、表示装置７９が接続され、映像表示I/F６８は、映像入力I/F６０またはマイコン６２からの映像データに対して、D/A変換を行い、その結果得られるコンポジット信号、コンポーネント信号などのアナログ信号を増幅して、表示装置７９に供給する。表示装置７９は、映像表示I/F６８からのアナログ信号に基づいて映像を表示する。

なお、映像表示I/F６８は、映像データをそのまま表示装置７９に供給し、表示装置７９がD/A変換等を行い、その結果得られるアナログ信号に基づいて映像を外部に出力するようにしてもよい。

メモリカードI/F６９は、必要に応じてビデオカメラ２１に装着されるメモリカード(図示せず)に対して、素材データ、各種の設定データなどの読み書きを行う。ネットワークI/F７０は、必要に応じて、インターネットやローカルエリアネットワークといった、有線または無線のネットワークを介して接続される他の装置との間で、データのやり取りを行う。

例えば、ネットワークI/F７０は、他の装置からネットワークを介してプログラムを取得し、システムバス７３、ハードディスクドライブI/F７１、およびハードディスクドライブ８０を介して、ハードディスク８１に記録させる。

ハードディスクドライブI/F７１には、ハードディスク８１が装着されるハードディスクドライブ８０が接続されている。ハードディスクドライブI/F７１は、ハードディスクドライブ８０を制御し、ハードディスク８１に対するデータの読み書きを行う。例えば、ハードディスクドライブI/F７１は、ハードディスクドライブ８０を制御し、ネットワークI/F７０とシステムバス７３を介して供給されるプログラムを、ハードディスク８１に記録させる。

ドライブI/F７２には、ドライブ８２が接続されている。ドライブI/F７２は、ドライブ８２を制御し、ドライブ８２に磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じてハードディスクドライブI/F７１などを介してハードディスク８１に転送され、記録される。

システムバス７３は、そこに接続されている各部の間でのデータのやり取りを仲介する。

なお、図１のビデオカメラ２２も、図２のビデオカメラ２１と同様に構成されるが、ビデオカメラ２２には、マイクロフォンが接続されておらず、マイクロフォンから音声信号が入力されない。即ち、ビデオカメラ２２は、テレビジョン素材の映像だけを撮影する。従って、ビデオカメラ２２は、音声の部分を除けばビデオカメラ２１と同様であり、以下では、ビデオカメラ２２についての説明は省略する。

次に、図２のビデオカメラ２１において、マイコン６２は、所定のプログラムを実行することにより、テレビジョン素材の音声付き映像を撮影する撮影処理部として機能する。

図３は、そのような撮影処理部の機能的な構成例を示している。

図３の撮影処理部９０は、制御部９１、判定部９２、および作成部９３により構成される。

制御部９１は、撮影に関する各種の制御を行う。例えば、制御部９１は、操作部I/F６５から供給される、撮影の開始を指令するための操作を表す操作信号に応じて、映像入力I/F６０と音声入力I/F６１を制御し、素材データの取得を開始する。また、制御部９１は、取得した素材データのうちの音声データを判定部９２に供給する。

また、制御部９１は、取得した素材データを用いてプロキシデータを作成する。さらに、制御部９１は、素材データとプロキシデータを一時記憶メモリI/F６３に供給して、一時記憶メモリ７５に記憶させる。

判定部９２は、制御部９１から供給される音声データのレベルに応じて、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであるか、および、発言の終了時の音声データであるかを判定する。判定部９２は、その判定の結果に基づいて、未定の発言者の発言の開始時または終了時の音声データに対応するフレーム番号を、作成部９３に供給する。

作成部９３は、判定部９２から供給される未定の発言者の発言の開始時または終了時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する、未定の発言者の発言の開始位置または終了位置を音声の特徴として示す電子マークを作成する。作成部９３は、その電子マークを記述した電子マークデータを、光ディスクドライブI/F６４に供給して、光ディスク３１に記録させる。

図４は、図１の光ディスク３１に記録されているファイルのディレクトリ構造の例を示している。

図４において、シンボル９５は、１つのディレクトリを表している。なお、符号は付していないが、シンボル（ディレクトリ）９５と同一のその他のシンボルも、１つのディレクトリを表している。また、シンボル９６は、１つのファイルを示している。なお、符号は付していないが、シンボル（ファイル）９６と同一のその他のシンボルも、１つのファイルを示している。

なお、以下、特に断りの無い限り、ディレクトリとディレクトリのシンボルとは同一であるとみなして説明する。同様に、ファイルとファイルのシンボルとは同一であるとみなして説明する。また、各ディレクトリのそれぞれ、および、各ファイルのそれぞれの識別を容易なものとするために、以下、ファイルまたはディレクトリの後方に括弧（）書きでその名称を記載する。

図４の例では、光ディスク３１には、目次を記述するデータのファイルであり、クリップを管理するための情報を記述するインデックスファイル(INDEX.XML)９６と、光ディスク３１の代表画のパス、光ディスク３１のタイトルやコメントなどから構成されるディスクメタデータのファイルであるディスクメタファイル（DISCMETA.XML）とが設けられている。

また、光ディスク３１には、クリップの素材データとメタデータのファイルが下位に設けられるクリップディレクトリ（Clip）９５と、クリップのプロキシデータのファイルが下位に設けられるプロキシディレクトリ（Sub）が設けられている。

クリップディレクトリ(Clip)９５には、光ディスク３１に記録されているクリップのうちの素材データとメタデータが、それぞれ、クリップ毎に異なるファイルとして記録される。

具体的には、例えば、図４は、光ディスク３１に３つのクリップのデータが記録されている場合の例を示している。

即ち、例えば、クリップディレクトリ９５の下位には、光ディスク３１に記録された最初のクリップの素材データのファイルである第１のクリップファイル（C0001.MXF）と、このクリップの素材データに対応する、リアルタイム性を要求されない電子マークデータなどのメタデータ（以下、ノンリアルタイムメタデータ（NRTデータ）という）を含むファイルである第１のNRTファイル（C0001M01.XML）とが設けられている。

また、クリップディレクトリ９５の下位には、第１のクリップファイル（C0001.MXF）および第１のNRTファイル（C0001M01.XML）と同様に、第２のクリップファイル（C0002.MXF）および第２のNRTファイル（C0002M01.XML）、並びに、第３のクリップファイル（C0003.MXF）および第３のNRTファイル（C0003M01.XML）が設けられている。

また、図４において、このようなクリップディレクトリ（Clip）の下方に示される、プロキシディレクトリ（Sub）には、光ディスク３１に記録されているクリップのプロキシデータが、クリップ毎に異なるファイルとして記録されている。

例えば、図４の例の場合、プロキシディレクトリ（Sub）の下位には、光ディスク３１に記録された最初のクリップのプロキシデータのファイルである第１のプロキシファイル（C0001S01.MXF）、第２のクリップのプロキシデータのファイルである第２のプロキシファイル（C0002S01.MXF）、および第３のクリップのプロキシデータのファイルである第３のプロキシファイル（C0003S01.MXF）が設けられる。

さらに、光ディスク３１には、クリップ以外のデータのファイルが設けられる一般ディレクトリ（General）が設けられている。

図５は、図４のクリップファイルのフォーマットの例を示している。

図５Ａに示すように、クリップファイルは、素材データが１クリップ分まとめてボディに配置され、さらに、そのボディにヘッダとフッタが付加されることにより構成される。

ヘッダには、その先頭から、ヘッダパーティションパック(Header Partition Pack)、ヘッダメタデータ(Header Metadata)、インデックステーブル(Index Table)が順次配置される。ヘッダパーティションパックには、ファイルフォーマット(例えば、MXF(Material exchange Format))を表すデータであるパーティションメタデータ、ボディの長さ、ボディの開始位置、ボディに配置されるデータの形式を表すデータなどが配置される。ヘッダメタデータには、例えば、UMID（Unique Material Identifier）、先頭タイムコード、ファイルの作成日、ボディに配置されたデータに関する情報(例えば、映像の画素数、アスペクト比など)などが配置される。

なお、UMIDとは、各ファイルをグローバルユニークに識別するためのファイル固有の識別子であって、SMPTE（Society of Motion Picture and Television Engineers）により定められる識別子を指す。

インデックステーブルには、ボディに配置されたデータを管理するためのデータなどが配置される。フッタは、フッタパーティションパック(Footer Partition Pack)により構成され、フッタパーティションパックには、フッタを特定するためのデータなどが配置される。

図５Ｂに示すように、クリップファイルのボディには、１フレーム分のリアルタイム性を要求されるメタデータ(以下、リアルタイムメタデータという)が配置されるシステムアイテム、D10と呼ばれるMPEG(Moving Picture Experts Group) IMX方式で符号化された映像データ、および、AES(Audio Engineering Society)3形式の非圧縮の音声データが、KLV(Key,Length,Value)構造にKLVコーディングされて配置される。

KLV構造とは、その先頭から、キー(Key)、レングス(Length)、バリュー(Value)が順次配置された構造であり、キーには、バリューに配置されるデータがどのようなデータであるかを表す、SMPTE 298Mの規格に準拠した16バイトのラベルが配置される。レングスには、バリューに配置されるデータのデータ長が配置される。バリューには、実データ、即ち、ここでは、システムアイテム、映像データ、または音声データが配置される。

また、KLVコーディングされたシステムアイテム、映像データ、および音声データは、そのデータ長が、KAG(KLV Alignment Grid)を基準とする固定長となっている。そして、KLVコーディングされたシステムアイテム、映像データ、および音声データを固定長とするのに、スタッフィング(stuffing)のためのデータとしてのフィラー(Filler)が、やはりKLV構造とされて、KLVコーディングされたシステムアイテム、映像データ、および音声データのそれぞれの後に配置される。

図６は、未定の発言者の発言の開始位置または終了位置を示す電子マークを記述した電子マークデータの例を示している。

なお、図６の例では、電子マークデータは、XML（Extensible Markup Language）で記述されている。また、図６において、各行頭の数字は、説明の便宜上付加したものであり、XML記述の一部ではない。これらのことは、後述する図１３、図１８、図２０、図３３、および図３４においても同様である。

図６に示すように、電子マークデータのXML記述は、主に電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部により構成される。図６の例では、この電子マークテーブル部は、２乃至１１行目に記述されている。

なお、２行目の「targetMedia="Original-Material"」の記述は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。

また、詳細には、電子マークテーブル部には、クリップの素材データに付与される全ての電子マークの情報がリスト化されてまとめて記述される。図６の例では、EssenceMark要素は、各電子マークに対応しており、value属性において電子マークが示す特徴を示し、frameCount属性において電子マークが付与される付与位置の、クリップの先頭からのフレーム数を示している。

例えば、図６の３行目の「EssenceMark value="Speaker-X:start"frameCount="0"」の記述は、この電子マークが示す特徴が未定の発言者による発言の開始位置であり、付与位置がクリップの先頭から0フレーム目であることを示している。

また、図６の４行目の「EssenceMark value="Speaker-X:end"frameCount="564"」の記述は、この電子マークが示す特徴が未定の発言者による発言の終了位置であり、付与位置がクリップの先頭から564フレーム目であることを示している。

同様に、５行目の「EssenceMark value="Speaker-X:start"frameCount="564"」、７行目の「EssenceMark value="Speaker-X:start"frameCount="924"」、９行目の「EssenceMark value="Speaker-X:start"frameCount="1804"」の記述は、この電子マークが示す特徴が未定の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から564フレーム目、924フレーム目、1804フレーム目であることを示している。

また、６行目の「EssenceMark value="Speaker-X:end"frameCount="924"」、８行目の「EssenceMark value="Speaker-X:end"frameCount="1804"」、１０行目の「EssenceMark value="Speaker-X:end"frameCount="2100"」の記述は、この電子マークが示す特徴が未定の発言者による発言の終了位置であり、付与位置が、それぞれ、クリップの先頭から924フレーム目、1804フレーム目、2100フレーム目であることを示している。

次に、図７を参照して、ユーザがビデオカメラ２１を用いて行う撮影作業について説明する。

図７の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ２１による主な処理の内容、および、その処理の対象となるデータが記述されている。

図７に示すように、ステップＳ１１において、ユーザは、操作部７７を操作して、撮影の開始を指令する。このとき、ビデオカメラ２１の制御部９１は、クリップのNRTファイル（図４）を光ディスク３１に作成する。また、制御部９１は、クリップファイルを光ディスク３１に作成する。さらに、制御部９１は、映像入力I/F６０と音声入力I/F６１から供給される素材データのクリップファイルへの記録を開始するとともに、その素材データのうちの音声データの判定部９２への供給を開始する。

また、判定部９２は、制御部９１から供給される音声データの所定の閾値以上のレベルが所定時間以上連続したことを検出する。そして、判定部９２は、音声データの所定の閾値以上のレベルが所定時間以上連続したとき、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部９３に供給する。

作成部９３は、判定部９２から供給される未定の発言者の発言の開始時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する未定の発言者の発言の開始位置を音声の特徴として示す電子マーク（以下、発言者未定EM(start)という）を作成する。そして、作成部９３は、その発言者未定EM(start)を、クリップのNRTファイルの電子マークデータに記述する。

また、判定部９２は、音声データの所定の閾値未満のレベルが所定時間以上連続したことを検出する。そして、判定部９２は、音声データの所定の閾値未満のレベルが所定時間以上連続したとき、その音声データが、テレビジョン素材における未定の発言者の発言の終了時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部９３に供給する。

作成部９３は、判定部９２から供給される未定の発言者の発言の終了時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する未定の発言者の発言の終了位置を音声の特徴として示す電子マーク（以下、発言者未定EM(end)という）を作成する。そして、作成部９３は、その発言者未定EM(end)を、クリップのNRTファイルの電子マークデータに記述する。

ステップＳ１２において、ユーザは、操作部７７を操作して撮影の終了を指令する。このとき、制御部９１は、素材データのクリップファイルへの記録を終了するとともに、その素材データのうちの音声データの判定部９２への供給を終了する。

次に、図８のフローチャートを参照して、図３の撮影処理部９０による撮影処理について説明する。この撮影処理は、例えば、ユーザが操作部７７を操作することにより、撮影の開始を指令したとき開始される。

ステップＳ３１において、撮影処理部９０の制御部９１は、クリップのNRTファイルを光ディスク３１に作成する。ステップＳ３２において、制御部９１は、クリップファイルを光ディスク３１に作成する。ステップＳ３３において、制御部９１は、映像入力I/F６０と音声入力I/F６１から供給される素材データのクリップファイルへの記録を開始する。また、制御部９１は、その素材データのうちの音声データの判定部９２への供給を開始する。

ステップＳ３４において、判定部９２は、制御部９１から供給される音声データの閾値以上のレベルが所定時間以上連続したか、即ち、音声データのレベルが所定時間以上の間閾値以上であるかを判定する。ステップＳ３４で音声データの閾値以上のレベルが所定時間以上連続していないと判定された場合、判定部９２は、音声データの閾値以上のレベルが所定時間以上連続するまで待機する。

ステップＳ３４で音声データの閾値以上のレベルが所定時間以上連続したと判定された場合、判定部９２は、その音声データが、テレビジョン素材における未定の発言者の発言の開始時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部９３に供給する。

そして、ステップＳ３５において、作成部９３は、判定部９２から供給される未定の発言者の発言の開始時の音声データに対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する発言者未定EM(start)を作成し、その発言者未定EM(start)をクリップのNRTファイルの電子マークデータに記述する。

ステップＳ３６において、判定部９２は、制御部９１から供給される音声データの閾値未満のレベルが所定時間以上連続したか、即ち音声データのレベルが所定時間以上の間閾値未満であるかを判定する。ステップＳ３６で、音声データの閾値未満のレベルが所定時間以上連続していないと判定された場合、判定部９２は、音声データの閾値未満のレベルが所定時間以上連続するまで待機する。

一方、ステップＳ３６で音声データの閾値未満のレベルが所定時間以上連続したと判定された場合、判定部９２は、その音声データが、テレビジョン素材における未定の発言者の発言の終了時の音声データであると判定し、その連続区間の開始地点の音声データに対応するフレーム番号を作成部９３に供給する。

そして、ステップＳ３７において、作成部９３は、判定部９２から供給される未定の発言者の発言の終了時に対応するフレーム番号に基づいて、そのフレーム番号のフレームに付与する発言者未定EM(end)を作成し、その発言者未定EM(end)をクリップのNRTファイルの電子マークデータに記述する。

ステップＳ３８において、制御部９１は、操作部７７からの操作信号に基づいて、ユーザにより撮影の終了が指令されたかを判定する。ステップＳ３８で撮影の終了が指令されていないと判定された場合、処理はステップＳ３４に戻り、上述した処理を繰り返す。

ステップＳ３８で、ユーザにより撮影の終了が指令されたと判定された場合、ステップＳ３９において、制御部９１は、素材データのクリップファイルへの記録を終了する。また、制御部９１は、その素材データのうちの音声データの判定部９２への供給を終了する。
そして処理は終了する。

以上のように、ビデオカメラ２１は、音声データのレベルが所定時間以上の間閾値以上である場合、または、音声データのレベルが所定の時間以上の間閾値未満である場合、その音声データに対応するフレームに、発言者未定EM（start）または発言者未定EM（end）を付与するので、この発言者未定EM（start）と発言者未定EM（end）により、後述する編集装置４１において発言の開始位置と終了位置を容易に認識することができる。

図９は、図１の編集装置４１のハードウェア構成例を示すブロック図である。

図９の編集装置４１では、マイコン１１１、一時記憶メモリI/F１１２、光ディスクドライブI/F１１３、操作部I/F１１４、音声出力I/F１１５、シリアルデータI/F１１６、映像表示I/F１１７、メモリカードI/F１１８、ネットワークI/F１１９、ハードディスクドライブI/F１２０、およびドライブI/F１２１が、システムバス１２２に接続されている。

マイコン１１１は、CPU、ROM、およびRAMにより構成される。マイコン１１１のCPUは、ROMまたはハードディスク１２８に記録されているプログラムにしたがって、操作部I/F１１４からの操作信号などに応じて、編集装置４１の各部を制御する。

例えば、CPUは、光ディスクドライブI/F１１３から供給される、光ディスクドライブ４１Ａに装着された光ディスク３１または光ディスク３２から読み出されたクリップを、一時記憶メモリI/F１１２に供給する。また、CPUは、一時記憶メモリI/F１１２から供給される、光ディスク３２に記録されているクリップを、光ディスクドライブI/F１１３を介して光ディスクドライブ４１Ａに供給し、光ディスク３１に集約する。

さらに、CPUは、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、エディットリストを光ディスクドライブI/F１１３を介して光ディスクドライブ４１Ａに供給し、光ディスク３１に記録させる。

また、CPUは、操作信号に応じて、一時記憶メモリI/F１１２から供給されるクリップの電子マークデータに記述される、発言者未定EM(start)と発言者未定EM（end）に、ユーザにより入力された発言者の固有の情報としての発言者ＩＤを付加する。そして、CPUは、発言者ＩＤが付加された発言者未定EM(start)である発言者EM(start)と、発言者ＩＤが付加された発言者未定EM（end）である発言者EM(end)とを記述した電子マークデータを、光ディスクドライブI/F１１３に供給して、光ディスク３１のクリップのNRTファイルに記録させる。

さらに、CPUは、エディットリストとクリップのNRTファイルの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、CPUは、その電子マークデータを、光ディスクドライブI/F１１３に供給して、光ディスク３１に記録させる。

また、CPUは、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者ＩＤの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。

さらに、CPUは、一時記憶メモリI/F１１２から供給されるクリップのうちの音声データを、システムバス１２２を介して音声出力I/F１１５に供給して、クリップの音声をスピーカ１２５から出力させる。また、CPUは、一時記憶メモリI/F１１２から供給されるクリップのうちの映像データを、システムバス１２２を介して映像表示I/F１１７に供給して、クリップの映像を表示装置１２６に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

一時記憶メモリI/F１１２には、バッファなどの一時記憶メモリ１２３が接続されており、一時記憶メモリI/F１１２は、マイコン１１１から供給される、光ディスク３１または光ディスク３２に記録されているクリップを、一時記憶メモリ１２３に記憶させる。また、一時記憶メモリI/F１１２は、一時記憶メモリ１２３に記憶されているクリップを読み出し、マイコン１１１に供給する。

光ディスクドライブI/F１１３には、光ディスク３１または光ディスク３２が装着される光ディスクドライブ４１Ａが接続されている。光ディスクドライブI/F１１３は、光ディスクドライブ４１Ａを制御して、光ディスクドライブ４１Ａに装着されている光ディスク３１または光ディスク３２からクリップを読み出し、システムバス１２２を介して一時記憶メモリI/F１１２に供給する。

また、光ディスクドライブI/F１１３は、光ディスクドライブ４１Ａを制御し、マイコン１１１から供給される、光ディスク３２に記録されているクリップ、エディットリスト、発言者EM（start）と発言者EM(end)を記述した電子マークデータ、および編集結果の電子マークデータを、光ディスク３１に記録させる。

操作部I/F１１４には、操作ボタン、キーボード、マウス、リモートコントローラから送信されてくる指令を受信する受信部などの操作部１２４が接続される。操作部I/F１１４は、ユーザによる操作部１２４の操作に応じて、その操作を表す操作信号を生成し、その操作信号を、システムバス１２２を介してマイコン１１１に供給する。

音声出力I/F１１５には、スピーカ１２５が接続される。音声出力I/F１１５は、マイコン１１１から供給される音声データに対してD/A変換を行い、その結果得られるアナログ信号を増幅して、スピーカ１２５に供給する。スピーカ１２５は、音声出力I/F１１５からのアナログ信号に基づいて、音声を外部に出力する。なお、音声出力I/F１１５は、音声データをそのままスピーカ１２５に供給し、スピーカ１２５が、D/A変換等を行い、その結果得られるアナログ信号に基づいて音声を外部に出力するようにしてもよい。

シリアルデータI/F１１６は、必要に応じて、図示せぬ外部のコンピュータ等のデジタル機器との間で、データをやり取りする。映像表示I/F１１７には、表示装置１２６が接続され、映像表示I/F１１７は、マイコン１１１からの映像データに対してD/A変換を行い、その結果得られるコンポジット信号、コンポーネント信号などのアナログ信号を増幅して、表示装置１２６に供給する。表示装置１２６は、映像表示I/F１１７からのアナログ信号に基づいて映像を表示する。

なお、映像表示I/F１１７は、映像データをそのまま表示装置１２６に供給し、表示装置１２６がD/A変換等を行い、その結果得られるアナログ信号に基づいて映像を外部に出力するようにしてもよい。

メモリカードI/F１１８は、必要に応じて編集装置４１に装着されるメモリカード(図示せず)に対して、素材データ、各種の設定データなどの読み書きを行う。ネットワークI/F１１９は、必要に応じて、インターネットやローカルエリアネットワークといった、有線または無線のネットワークを介して接続される他の装置との間で、データのやり取りを行う。

例えば、ネットワークI/F１１９は、他の装置からネットワークを介してプログラムを取得し、システムバス１２２、ハードディスクドライブI/F１２０、およびハードディスクドライブ１２７を介して、ハードディスク１２８に記録させる。

ハードディスクドライブI/F１２０には、ハードディスク１２８が装着されるハードディスクドライブ１２７が接続されている。ハードディスクドライブI/F１２０は、ハードディスクドライブ１２７を制御し、ハードディスク１２８に対するデータの読み書きを行う。例えば、ハードディスクドライブI/F１２０は、ハードディスクドライブ１２７を制御し、ネットワークI/F１１９とシステムバス１２２を介して供給されるプログラムを、ハードディスク１２８に記録させる。

ドライブI/F１２１には、ドライブ１２９が接続されている。ドライブI/F１２１は、ドライブ１２９を制御し、ドライブ１２９に磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１０１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じてハードディスクドライブI/F１２０などを介してハードディスク１２８に転送され、記録される。

システムバス１２２は、そこに接続されている各部の間でのデータのやり取りを仲介する。

次に、図９の編集装置４１において、マイコン１１１は、所定のプログラムを実行することにより、テレビジョン素材の音声付き映像を編集する編集処理部として機能する。

図１０は、そのような編集処理部１５０の機能的な構成例を示している。

図１０の編集処理部１５０は、付加部１５１、エディットリスト作成部１５２、EM作成部１５３により構成される。

付加部１５１は、ハードディスク１２８に記録されている、発言者ＩＤと発言者の名前を対応付けた発言者リストを読み出す。付加部１５１は、その発言者リストに基づいて、発言者ＩＤを入力するための入力画面(後述する図１２)の映像データを生成する。付加部１５１は、その入力画面の映像データを映像表示I/F１１７に供給して、入力画面を表示装置１２６に表示させる。

また、付加部１５１は、入力画面においてユーザが操作部１２４を操作することにより操作部I/F１１４から供給される操作信号に応じて、その操作信号に対応する発言者ＩＤを、一時記憶メモリI/F１１２から供給されるクリップの電子マークデータに記述される、発言者未定EM(start)と発言者未定EM（end）に付加する。そして、付加部１５１は、発言者ＩＤを付加した後の電子マークデータを、光ディスクドライブI/F１１３に供給して、光ディスク３１のNRTファイルに記録させる。

エディットリスト作成部１５２は、光ディスクドライブI/F１１３から供給される、光ディスク３１または光ディスク３２から読み出されたクリップを、一時記憶メモリI/F１１２に供給する。また、エディットリスト作成部１５２は、一時記憶メモリI/F１１２から供給される、光ディスク３２に記録されているクリップを、光ディスクドライブI/F１１３に供給して、光ディスク３１に集約する。

さらに、エディットリスト作成部１５２は、一時記憶メモリI/F１１２から供給されるプロキシデータのうちの音声データを音声出力I/F１１５に供給して、クリップの音声をスピーカ１２５から出力させるとともに、プロキシデータのうちの映像データを映像表示I/F１１７に供給して、クリップの低解像度の映像を、編集を行うための編集画面として表示装置１２６に表示させる。このとき、ユーザは、スピーカ１２５からの音声を聞きつつ、編集画面を見ながら、操作部１２４を操作して編集作業を行う。

エディットリスト作成部１５２は、ユーザの編集作業により操作部I/F１１４から供給される操作信号に応じて、エディットリストを作成することにより、非破壊編集を行う。そして、エディットリスト作成部１５２は、エディットリストを光ディスクドライブI/F１１３に供給して光ディスク３１に記録させるとともに、EM作成部１５３に供給する。

また、エディットリスト作成部１５２は、操作部I/F１１４から供給される操作信号と、EM作成部１５３から供給される編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者ＩＤの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。

EM作成部１５３は、エディットリスト作成部１５２から供給されるエディットリストと、一時記憶メモリI/F１１２に記憶されている、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、EM作成部１５３は、その電子マークデータを光ディスクドライブI/F１１３に供給して、光ディスク３１に記録させるとともに、エディットリスト作成部１５２に供給する。

また、EM作成部１５３は、操作部I/F１１４から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者ＩＤが付加された発言者EM(start)と発言者EM(end)に、ダックボイス加工の有無を表す情報を付加する。

図１１は、非破壊編集後の光ディスク３１に記録されているファイルのディレクトリ構造の例を示している。

なお、図１１において、図４と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

図１１の例では、光ディスク３１には、インデックスファイル(INDEX.XML)９６とディスクメタファイル（DISCMETA.XML）が設けられている。図１１のインデックスファイル９６には、クリップを管理するための情報だけでなく、エディットリストを管理するための情報も記述される。

また、光ディスク３１には、クリップディレクトリ（Clip）９５、エディットリストのファイルが下位に設けられるエディットリストディレクトリ（Edit）、およびプロキシディレクトリ（Sub）が設けられている。

図１１の例では、光ディスク３１には、ビデオカメラ２１またはビデオカメラ２２により撮影された４つのクリップのデータが集約されている。

即ち、例えば、クリップディレクトリ９５の下位には、ビデオカメラ２１により撮影された第１のクリップファイル（C0001.MXF）および第１のNRTファイル（C0001M01.XML）、第２のクリップファイル（C0002.MXF）および第２のNRTファイル（C0002M01.XML）、並びに第３のクリップファイル（C0003.MXF）および第３のNRTファイル（C0003M01.XML）と、ビデオカメラ２２により撮影された第４のクリップファイル(C0004.MXF)および第４のNRTファイル（C0004M01.XML）とが設けられている。

図１１において、このようなクリップディレクトリ９５の下方に示されるエディットディレクトリ（Edit）には、エディットリストが、編集処理ごとに異なるファイルとして記録されている。

例えば、図１１の例の場合、エディットディレクトリ（Edit）の下位には、光ディスク３１に記録された第１乃至第４のクリップの１回目の編集処理の編集結果に関するエディットリストを含むファイルであるエディットリストファイル（E0001E01.SMI）と、１回目の編集結果を構成する素材データに対応するNRTデータ、または、そのNRTデータに基づいて新たに生成されたNRTデータを含むファイルであるエディットリスト用NRTファイル（E0001M01.XML）が設けられている。また、同様に、２回目の編集処理のエディットリストファイル（E0002E01.SMI）と、エディットリスト用NRTファイル（E0002M01.XML）が設けられている。

また、図１１において、このようなクリップディレクトリ（Clip）の下方に示される、プロキシディレクトリ（Sub）には、光ディスク３１に記録された４つのクリップのプロキシデータが集約されている。

例えば、図１１の例の場合、プロキシディレクトリ（Sub）の下位には、ビデオカメラ２１により撮影された第１のクリップのプロキシファイル（C0001S01.MXF）、第２のクリップのプロキシファイル（C0002S01.MXF）、および第３のクリップのプロキシファイル（C0003S01.MXF）と、ビデオカメラ２２により撮影された第４のクリップのプロキシファイル（C0004S01.MXF）とが設けられる。

さらに、光ディスク３１には、一般ディレクトリ（General）が設けられている。この一般ディレクトリ（General）には、クリップとエディットリスト以外のデータのファイルが設けられる。

次に、図１２は入力画面の例を示している。

図１２の入力画面には、発言者ＩＤと発言者の名前が対応付けて表示される。図１２の例では、発言者ＩＤ「Ａ」を表す「Speaker-A」と発言者の名前「○○さん」、発言者ＩＤ「Ｂ」を表す「Speaker-B」と発言者の名前「××さん」、発言者ＩＤ「Ｃ」を表す「Speaker-C」と発言者の名前「△△さん」が、それぞれ対応付けて表示される。

また、入力画面には、いずれか１つの発言者ＩＤと発言者の名前の表示位置にカーソル１６０が配置される。このカーソル１６０は、発言者未定EM(start)と発言者未定EM（end）に、発言者ＩＤを付加するときに操作される。

具体的には、ユーザは、例えばスピーカ１２５から出力されるクリップの音声を聞きながら、操作部１２４を操作し、その音声を発した発言者の発言者ＩＤと名前の表示位置にカーソル１６０を移動させて、決定の指令を行う。付加部１５１は、この操作を表す操作信号に応じて、決定の指令時に再生中の音声に対応するフレームの直前に付与されている発言者未定EM(start)と、直後に付与されている発言者未定EM（end）に、カーソル１６０の位置に対応する発言者ＩＤを付加する。

次に、図１３は、発言者EM(start)または発言者EM（end）を記述した電子マークデータの例を示している。なお、図１３では、図６の発言者未定EM(start)と発言者未定EM（end）に発言者ＩＤが付加された発言者EM(start)と発言者EM（end）を記述した電子マークデータを示している。

図１３の例では、電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部は、２乃至１１行目に記述されている。

図１３の２行目の「targetMedia="Original-Material"」は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。

また、３行目の「EssenceMark value="Speaker-A:start"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の開始位置であり、付与位置がクリップの先頭から0フレーム目であることを示している。即ち、図１３の３行目の記述は、図６の３行目の記述が示す発言者未定EM(start)に発言者ＩＤ「Ａ」が付加された発言者EM(start)を示している。

また、４行目の「EssenceMark value="Speaker-A:end"frameCount="564"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の終了位置であり、付与位置がクリップの先頭から564フレーム目であることを示している。

同様に、５行目の「EssenceMark value="Speaker-B:start"frameCount="564"」、７行目の「EssenceMark value="Speaker-A:start"frameCount="924"」、９行目の「EssenceMark value="Speaker-B:start"frameCount="1804"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ａ」の発言者、発言者ＩＤ「Ｂ」の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から564フレーム目、924フレーム目、1804フレーム目であることを示している。

また、６行目の「EssenceMark value="Speaker-B:end"frameCount="924"」、８行目の「EssenceMark value="Speaker-A:end"frameCount="1804"」、１０行目の「EssenceMark value="Speaker-B:end"frameCount="2100"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ａ」の発言者、発言者ＩＤ「Ｂ」の発言者による発言の終了位置であり、付与位置が、それぞれ、クリップの先頭から924フレーム目、1804フレーム目、2100フレーム目であることを示している。

次に、図１４乃至図２０を参照して、編集装置４１における非破壊編集について説明する。

なお、ここでは、ビデオカメラ２１が、発言者ＩＤ「Ａ」の発言者「○○さん」と発言者ＩＤ「Ｂ」の発言者「××さん」の２人を被写体として撮影するとともに対話の音声を取得し、ビデオカメラ２２が、発言者「××さん」のみを被写体として撮影することにより、２台のビデオカメラ２１および２２が、２人の発言者の対話をテレビジョン素材として撮影したものとする。

そして、ユーザは、そのテレビジョン素材の所定の連続する区間の音声を切り取って編集結果の音声として使用するとともに、所定の区間の映像を切り取って編集結果の映像として使用し、発言者「××さん」の発言にダックボイス加工を施すように、非破壊編集を行う。

まず最初に、図１４と図１５を参照して、光ディスク３１に記録されている編集対象のクリップと編集結果について説明する。なお、図１４Ａにおいて、横軸は撮影時刻を表しており、図１４Ｂと図１５において、横軸はフレーム番号を表している。

図１４Ａの上段の棒は、ビデオカメラ２１により撮影された編集対象である第１のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図１４の例では、第１のクリップの映像のフレーム数は2525フレームであり、各フレームには、フレーム番号が「0」から順に「2524」まで付与されている。

また、図１４Ａの中段の棒は、第１のクリップの音声の長さを示しており、棒の中のアルファベットは、その位置に対応する音声を発した発言者の発言者ＩＤである。

なお、図１４の例では、第１のクリップには、図１３に示した発言者EM(start)と発言者EM（end）が付与されている。従って、図１４Ａの中段の棒には、図１３の３行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「0」から、図１３の４行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「564」までに対応する位置に、その区間の音声の発言者の発言者ＩＤ「Ａ」が記述されている。

同様に、図１４Ａの中段の棒には、図１３の５行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「564」から、図１３の６行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「924」までに対応する位置に、その区間の音声の発言者の発言者ＩＤ「Ｂ」が記述されている。

また、図１４Ａの中段の棒には、図１３の７行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「924」から、図１３の８行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「1804」までに対応する位置に、その区間の音声の発言者の発言者ＩＤ「Ａ」が記述されている。

さらに、図１４Ａの中段の棒には、図１３の９行目の記述が示す発言者EM(start)が付与されたフレームのフレーム番号「1804」から、図１３の１０行目の記述が示す発言者EM(end)が付与されたフレームのフレーム番号「2100」までに対応する位置に、その区間の音声の発言者の発言者ＩＤ「Ｂ」が記述されている。

図１４Ａの下段の棒は、ビデオカメラ２２により撮影された編集対象である第４のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図１４の例では、第４のクリップの映像のフレーム数は2415フレームであり、各フレームには、フレーム番号が「0」から順に「2414」まで付与されている。

図１４Ｂの上段の棒は、図１４Ａに示した第１のクリップと第４のクリップを編集対象として非破壊編集が行われた結果得られる編集結果の映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する編集結果上の映像のフレーム番号を示している。

即ち、図１４の例では、ユーザが図１４Ａに示した第１のクリップのフレーム番号「284」を映像のイン点として指定し、フレーム番号「564」を映像のアウト点として指定している。これにより、図１４Ｂの上段に示すように、編集結果には、第１のクリップのフレーム番号「284」から「564」までの編集区間の映像データが、編集結果のフレーム番号「0」から「280」までの映像データ（以下、第１の映像サブクリップという）として含まれる。

また、図１４の例では、ユーザが図１４Ａに示した第４のクリップのフレーム番号「454」を映像のイン点として指定し、フレーム番号「1054」を映像のアウト点として指定している。これにより、図１４Ｂの上段に示すように、編集結果には、第４のクリップのフレーム番号「454」から「1054」までの編集区間の映像データが、編集結果のフレーム番号「280」から「880」までの映像データ（以下、第２の映像サブクリップという）として含まれる。

さらに、図１４の例では、ユーザが図１４Ａに示した第１のクリップのフレーム番号「１１６４」を映像のイン点として指定し、フレーム番号「1644」を映像のアウト点として指定している。これにより、図１４Ｂの上段に示すように、編集結果には、第１のクリップのフレーム番号「1164」から「1644」までの編集区間の映像データが、編集結果のフレーム番号「880」から「1360」までの映像データ（以下、第３の映像サブクリップという）として含まれる。

また、図１４の例では、ユーザが図１４Ａに示した第４のクリップのフレーム番号「1534」を映像のイン点として指定し、フレーム番号「1974」を映像のアウト点として指定している。これにより、図１４Ｂの上段に示すように、編集結果には、第４のクリップのフレーム番号「1534」から「1974」までの編集区間の映像データが、編集結果のフレーム番号「1360」から「1800」までの映像データ（以下、第４の映像サブクリップという）として含まれる。

さらに、図１４の例では、ユーザが図１４Ａに示した第１のクリップのフレーム番号「284」を音声のイン点として指定し、フレーム番号「2084」を音声のアウト点として指定している。これにより、図１４Ｂと図１５の下段に示すように、編集結果には、第１のクリップのフレーム番号「284」から「2084」までの編集区間の音声データが、編集結果のフレーム番号「0」から「1800」までの音声データ（以下、音声サブクリップという）として含まれる。

ここで、図１４Ａに示したように、第１のクリップのフレーム番号「0」から「564」までの音声データに対応する発言者ＩＤは「Ａ」であるので、図１４Ｂの下段に示すように、第１のクリップのフレーム番号「284」から「564」までの音声データである、編集結果のフレーム番号「0」から「280」までの音声データに対応する発言者ＩＤは「Ａ」である。

また、図１４Ａに示したように、第１のクリップのフレーム番号「564」から「924」までの音声データに対応する発言者ＩＤは「Ｂ」であるので、図１４Ｂの下段に示すように、第１のクリップのフレーム番号「564」から「924」までの音声データである、編集結果のフレーム番号「280」から「640」までの音声データに対応する発言者ＩＤは「Ｂ」である。

さらに、図１４Ａに示したように、第１のクリップのフレーム番号「924」から「1804」までの音声データに対応する発言者ＩＤは「Ａ」であるので、図１４Ｂの下段に示すように、第１のクリップのフレーム番号「924」から「1804」までの音声データである、編集結果のフレーム番号「640」から「1520」までの音声データに対応する発言者ＩＤは「Ａ」である。

また、図１４Ａに示したように、第１のクリップのフレーム番号「1804」から「2100」までの音声データに対応する発言者ＩＤは「Ｂ」であるので、図１４Ｂの下段に示すように、第１のクリップのフレーム番号「1804」から「2084」までの音声データである、編集結果のフレーム番号「1520」から「1800」までの音声データに対応する発言者ＩＤは「Ｂ」である。

以上のように、図１４の例では、第３の映像サブクリップのイン点およびアウト点と、発言者の切替点が異なっている。即ち、図１４Ｂに示した編集結果では、図１５に示すように、編集結果のフレーム番号「640」から「1520」までの発言者「○○さん」の発言の最初と最後で、発言者「××さん」のみの映像が表示される。

図１６は、図１４Ｂや図１５に示した編集結果のエディットリストを示している。

即ち、図１６は、XMLで記述されたエディットリストファイル（図１１）の具体的な記述例を示す図である。なお、図１６において、各行頭の数字は、説明の便宜上付加したものであり、XML記述の一部ではない。このことは、後述する図１９においても同様である。

エディットリストファイルは、編集結果に関するエディットリストを含むファイルであり、編集結果の再生方法についても記述されている。

図１６に示すように、エディットリストファイルのXML記述は、主にスマイルタグ（<smil> </smil>）で囲まれたボディタグ（<body> </body>）で囲まれるボディ部により構成される。図１６の例では、このボディ部は３乃至１６行目に記述されている。なお、２行目の「name="Initial-EditList"」の記述は、このファイルがエディットリストファイルであることを示している。

ボディ部には、編集記述の時間的振る舞いと関係する情報が記述される。図１６の例では、４行目の開始タグ「<par>」と１５行目の終了タグ「</par>」の間に記述されるpar要素は、複数の要素を同時に再生する単純時間グループを定義する。

図１６の例では、第１のカット（図１６の例では、Cut１と記述されており、図１４Ｂの第１の映像サブクリップである、第２のカット（図１６の例では、Cut2と記述されており、図１４Ｂの第２の映像サブクリップである）、第３のカット（図１６の例では、Cut3と記述されており、図１４Ｂの第３の映像サブクリップである）、第４のカット（図１６の例では、Cut4と記述されており、図１４Ｂの第４の映像サブクリップである）、および音声(図１６の例では、audio in Cam1-Clip.mxfと記述されており、図１４Ｂの音声サブクリップである)が同時に再生されるように定義されている。

但し、図１６の例の場合、後述するように、４つの第１乃至第４の映像サブクリップどうしの再生開始時間はズレており、実際には、第１乃至第４の映像サブクリップは、連続して再生される。

具体的には、図１６において、６行目、８行目、１０行目、および１２行目のvideo要素には、編集結果の映像として参照するクリップファイルおよび参照するクリップファイルの再生範囲等が記述されている。

６行目の「src="Cam1-Clip1.mxf"
」の記述は、参照先のクリップファイルがビデオカメラ２１で記録された第１のクリップであることを示している。

また、６行目の「clipBegin="284"」の記述は、第１の映像サブクリップとして映像の再生を開始する位置を、第１のクリップのフレーム番号で示している。６行目の「clipEnd="564"」の記述は、第１の映像サブクリップとして映像の再生を終了する位置を、第１のクリップのフレーム番号で示している。

さらに、その記述に続く６行目の「begin="0"」の記述は、編集結果における第１の映像サブクリップが開始される位置を、編集結果上のフレーム番号で示している。また、６行目の「end="280"」の記述は、編集結果における第１の映像サブクリップが終了される位置を、編集結果上のフレーム番号で示している。

以上のようにして、図１６の例では、編集結果のフレーム番号「0」のフレームからフレーム番号「280」のフレームまでの映像として、第１のクリップのフレーム番号「284」のフレームからフレーム番号「564」のフレームまでの映像が再生されることが、エディットリストに記述されている。

また、第２の映像サブクリップについても、８行目において、第１の映像サブクリップの場合と同様に記述されている。図１６の例では、編集結果のフレーム番号「280」のフレームからフレーム番号「880」のフレームまでの映像として、ビデオカメラ２２で記録された第４のクリップのフレーム番号「454」のフレームからフレーム番号「1054」のフレームまでの映像が再生されることが、エディットリストに記述されている。

さらに、第３の映像サブクリップについても、１０行目において、第１や第２の映像サブクリップの場合と同様に記述されている。図１６の例では、編集結果のフレーム番号「880」のフレームからフレーム番号「1360」のフレームまでの映像として、第１のクリップのフレーム番号「1164」のフレームからフレーム番号「1644」のフレームまでの映像が再生されることが、エディットリストに記述されている。

また、第４の映像サブクリップについても、１２行目において、第１乃至第３の映像サブクリップの場合と同様に記述されている。図１６の例では、編集結果のフレーム番号「1360」のフレームからフレーム番号「1800」のフレームまでの映像として、第４のクリップのフレーム番号「1534」のフレームからフレーム番号「1974」のフレームまでの映像が再生されることが、エディットリストに記述されている。

さらに、図１６において、１４行目のaudio要素には、編集結果の音声として参照するクリップファイルおよび参照するクリップファイルの再生範囲等が記述されている。１４行目の「src="Cam1-Clip1.mxf"
」の記述は、参照先のクリップファイルがビデオカメラ２１で記録された第１のクリップであることを示している。

また、１４行目の「channel=l」の記述は、第１のクリップの音声を再生するチャンネルを示している。１４行目の「clipBegin="284"」の記述は、音声サブクリップとして音声の再生を開始する位置を、第１のクリップのフレーム番号で示している。１４行目の「clipEnd="2084"」の記述は、音声サブクリップとして音声の再生を終了する位置を、第１のクリップのフレーム番号で示している。

さらに、その記述に続く１４行目の「begin="0"」の記述は、編集結果における音声サブクリップが開始される位置を、編集結果上のフレーム番号で示している。また、１４行目の「end="1800"」の記述は、編集結果における音声サブクリップが終了される位置を、編集結果上のフレーム番号で示している。

以上のように、図１６の例では、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの１チャンネルの音声として、第１のクリップのフレーム番号「284」のフレームからフレーム番号「2084」のフレームまでの音声が再生されることが、エディットリストに記述されている。

従って、図１６のエディットリストによれば、図１４Ｂに示したように、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの映像として、第１乃至第４のサブクリップが連続して再生される。また、それと同時に、編集結果のフレーム番号「0」のフレームからフレーム番号「1800」のフレームまでの１チャンネルの音声として、音声サブクリップが再生される。

次に、図１７を参照して、図１４Ｂや図１５に示した編集結果に付与される発言者EM(start)と発言者EM(end)について説明する。なお、図１７において、横軸はフレーム番号を表している。

図１７の上段は、図１３の電子マークデータに記述された、第１のクリップに付与された発言者EM(start)と発言者EM(end)を示している。即ち、図１７の上段に示すように、第１のクリップには、フレーム番号「0」のフレームに発言者ＩＤ「Ａ」が付加された発言者EM(start)が付与され（A11s）、フレーム番号「564」のフレームに発言者ＩＤ「Ａ」が付加された発言者EM(end)が付与されている（A11e）。

また、図１７の上段に示すように、第１のクリップには、フレーム番号「564」のフレームに発言者ＩＤ「Ｂ」が付加された発言者EM(start)が付与され（B11s）、フレーム番号「924」のフレームに発言者ＩＤ「Ｂ」が付加された発言者EM(end)が付与されている（B11e）。

さらに、図１７の上段に示すように、第１のクリップには、フレーム番号「924」のフレームに発言者ＩＤ「Ａ」が付加された発言者EM(start)が付与され（A12s）、フレーム番号「1804」のフレームに発言者ＩＤ「Ａ」が付加された発言者EM(end)が付与されている（A12e）。

また、図１７の上段に示すように、第１のクリップには、フレーム番号「1804」のフレームに発言者ＩＤ「Ｂ」が付加された発言者EM(start)が付与され（B12s）、フレーム番号「2100」のフレームに発言者ＩＤ「Ｂ」が付加された発言者EM(end)が付与されている（B12e）。

以上のような発言者EM(start)と発言者EM(end)が付与された第１のクリップに対して、図１４Ｂや図１５の編集結果を得る非破壊編集が行われる場合、音声のイン点として指定された第１のクリップのフレーム番号のフレームの直前のフレームに付与されている発言者EM(start)が、そのイン点に対応する編集結果上のフレームに付与される。

図１７の例では、音声のイン点として指定された第１のクリップのフレーム番号「284」のフレームの直前のフレーム番号「0」のフレームに付与されている発言者ＩＤ「Ａ」が付加された発言者EM(start)が、そのイン点に対応する編集結果上のフレーム番号「0」のフレームに付与される（A21s）。

また、音声のイン点として指定された第１のクリップのフレーム番号のフレームから、音声のアウト点として指定された第１のクリップのフレーム番号のフレームまでのフレームに付与されている電子マークが、そのフレームに対応する編集結果上のフレームに付与される。

図１７の例では、音声のイン点として指定された第１のクリップのフレーム番号「284」のフレームから、音声のアウト点として指定された第１のクリップのフレーム番号「2084」のフレームまでの間の、フレーム番号「564」のフレームに付与されている発言者ＩＤ「Ａ」が付加された発言者EM(end)と、発言者ＩＤ「Ｂ」が付加された発言者EM(start)が、そのフレームに対応する編集結果上のフレーム番号「280」のフレームに付与される（A21e,B21s）。

また、フレーム番号「924」のフレームに付与されている発言者ＩＤ「Ａ」が付加された発言者EM(start)と、発言者ＩＤ「Ｂ」が付加された発言者EM(end)が、そのフレームに対応する編集結果上のフレーム番号「640」のフレームに付与される（A22s,B21e）。さらに、フレーム番号「1804」のフレームに付与されている発言者ＩＤ「Ａ」が付加された発言者EM(end)と、発言者ＩＤ「Ｂ」が付加された発言者EM(start)が、そのフレームに対応する編集結果上のフレーム番号「1520」フレームに付与される（A22e,B22s）。

さらに、音声のアウト点として指定された第１のクリップのフレーム番号のフレームの直後のフレームに付与されている発言者EM(end)が、そのアウト点に対応する編集結果上のフレームに付与される。図１７の例では、音声のアウト点として指定された第１のクリップのフレーム番号「2084」のフレームの直後のフレーム番号「2100」のフレームに付与されている発言者ＩＤ「Ｂ」が付加された発言者EM(end)が、そのアウト点に対応する編集結果上のフレーム番号「1800」のフレームに付与される（B22e）。

以上のようにして編集結果に付与された発言者EM(start)と発言者EM(end)を記述した電子マークデータは、図１８に示すようになる。

図１８の例では、電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部は、２乃至１１行目に記述されている。

図１８の２行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。

また、３行目の「EssenceMark value="Speaker-A:start"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の開始位置であり、付与位置が編集結果の先頭から0フレーム目であることを示している。

４行目の「EssenceMark value="Speaker-A:end"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の終了位置であり、付与位置が編集結果の先頭から280フレーム目であることを示している。

同様に、５行目の「EssenceMark value="Speaker-B:start"frameCount="280"」、７行目の「EssenceMark value="Speaker-A:start"frameCount="６４0"」、９行目の「EssenceMark value="Speaker-B:start"frameCount="1520"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ａ」の発言者、発言者ＩＤ「Ｂ」の発言者による発言の開始位置であり、付与位置が、それぞれ、編集結果の先頭から280フレーム目、640フレーム目、1520フレーム目であることを示している。

また、６行目の「EssenceMark value="Speaker-B:end"frameCount="６４0"」、８行目の「EssenceMark value="Speaker-A:end"frameCount="1520"」、１０行目の「EssenceMark value="Speaker-B:end"frameCount="1800"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ａ」の発言者、発言者ＩＤ「Ｂ」の発言者による発言の終了位置であり、付与位置が、それぞれ、編集結果の先頭から640フレーム目、1520フレーム目、1800フレーム目であることを示している。

図１９は、図１４Ｂや図１５に示した編集結果のうちの発言者ＩＤ「Ｂ」の発言者の音声に対してダックボイス加工を施す場合の、エディットリストの例を示している。

図１９のエディットリストでは、図１６の１４行目のaudio要素の後に、オーディオフィルタタグ（<audioFilter> </audioFilter>）で囲まれたオーディオフィルタ部が設けられている。このオーディオフィルタ部には、所定の加工を施す音声の区間を指定する情報が記述される。

詳細には、１４行目のaudio要素の後に設けられた１つ目のオーディオフィルタ部は、１５行目乃至１８行目に記述され、２つ目のオーディオフィルタ部は、１９行目乃至２２行目に記述される。

１５行目の「type="duckVoice"」の記述は、ダックボイス加工を施すことを示している。その記述に続く１５行目の「begin="280"」の記述は、編集結果においてダックボイス加工を施す音声の開始位置を、編集結果上のフレーム番号で示している。図１８に示したように、発言者ＩＤ「Ｂ」の発言者の発言の１つ目の開始位置を示す発言者EM(start)は、編集結果におけるフレーム番号「280」のフレームに付与されているので、１５行目の「begin="280"」の記述では、そのフレーム番号「280」が、編集結果においてダックボイス加工を施す音声の開始位置として示されている。

また、１５行目の「end="６４0"」の記述は、編集結果においてダックボイス加工を施す音声の終了位置を、編集結果上のフレーム番号で示している。図１８に示したように、発言者ＩＤ「Ｂ」の発言者の発言の１つ目の終了位置を示す発言者EM（end）は、編集結果におけるフレーム番号「６４0」のフレームに付与されているので、１５行目の「end="６４0"」の記述では、そのフレーム番号「６４0」が、編集結果においてダックボイス加工を施す音声の終了位置として示されている。

以上のように、１５行目の「begin="280"」の記述と１５行目の「end="６４0"」の記述は、発言者ＩＤ「Ｂ」の発言者の音声の区間である280フレーム目から６４0フレーム目までの区間を、ダックボイス加工を施す区間として指定している。

さらに、１６行目と１７行目のparam要素には、ダックボイス加工に関するパラメータの設定値が記述される。詳細には、１６行目の「name="pitch"」の記述は、設定値が設定されるパラメータがピッチであることを示している。また、１６行目の「value="0.5"」の記述は、その設定値が0.5であることを示している。

また、１７行目の「name="formant"」の記述は、設定値が設定されるパラメータがフォルマントであることを示している。また、１７行目の「value="1.0"」の記述は、その設定値が1.0であることを示している。

同様に、１９行目には、図１８の電子マークデータに記述される、発言者ＩＤ「Ｂ」が付加された２つ目の発言者EM(start)が付与されているフレームのフレーム番号と、発言者EM（end）が付与されているフレームのフレーム番号が、それぞれ、ダックボイス加工を施す音声の開始位置と終了位置として記述される。また、２０行目および２１行目には、このダックボイス加工のパラメータであるピッチの設定値として0.5が記述され、フォルマントの設定値として1.0が記述される。

図２０は、図１４Ｂや図１５に示した編集結果のうちの発言者ＩＤ「Ｂ」の発言者の音声に対してダックボイス加工を施す場合の、編集結果の電子マークデータの例を示している。

図２０の例では、電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部は、２乃至１１行目に記述されている。

図２０の２行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。

また、３行目の「EssenceMark value="Speaker-A:start:normal"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の開始位置であり、その発言はダックボイス加工を施さずにそのまま出力されるものであり、付与位置が編集結果の先頭から0フレーム目であることを示している。

４行目の「EssenceMark value="Speaker-A:end:normal"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の終了位置であり、その発言はダックボイス加工を施さずにそのまま出力されるものであり、付与位置が編集結果の先頭から280フレーム目であることを示している。

また、５行目の「EssenceMark value="Speaker-B:start:duckVoice"frameCount="280"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ｂ」の発言者による発言の開始位置であり、その発言はダックボイス加工を施して出力されるものであり、付与位置が編集結果の先頭から280フレーム目であることを示している。

６行目の「EssenceMark value="Speaker-B:end:duckVoice"frameCount="６４0"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ｂ」の発言者による発言の終了位置であり、その発言はダックボイス加工を施して出力されるものであり、付与位置が編集結果の先頭から６４0フレーム目であることを示している。

同様に、７行目乃至１０行目の記述には、フレーム番号「６４0」からフレーム番号「1520」までの発言者ＩＤ「Ａ」の発言者による発言には、ダックボイス加工を施さず、フレーム番号「1520」からフレーム番号「1800」までの発言者ＩＤ「Ｂ」の発言者による発言には、ダックボイス加工を施すことが示されている。

次に、図２１を参照して、ユーザが編集装置４１を用いて行う編集作業について説明する。

図２１の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置４１による主な処理の内容、および、その処理の対象となるデータが記述されている。

図２１に示すように、ステップＳ５１において、ユーザは、編集装置４１の光ディスクドライブ４１Ａに光ディスク３１を装着し、入力画面（図１２）の表示を指令する。このとき、編集装置４１の付加部１５１は、予めハードディスク１２８に登録されている発言者リストに基づいて、表示装置１２６に入力画面を表示させる。

ステップＳ５２において、ユーザは、操作部１２４を操作し、光ディスク３１に記録されているクリップの再生を指令する。このとき、編集装置４１の付加部１５１は、そのクリップのクリップファイルを光ディスク３１から再生する。その結果、クリップの音声がスピーカ１２５から出力され、映像が表示装置１２６に表示される。

ステップＳ５３において、ユーザは、クリップの音声を聞き、各発言者の発言が聞こえたときに、入力画面において操作部１２４を操作し、その発言者の発言者ＩＤを入力する。このとき、付加部１５１は、クリップの電子マークデータに記述されている、再生中の音声に対応するフレームの直前のフレームに付与された発言者未定EM（start）と、直後のフレームに付与された発言者未定EM(end)に、入力された発言者ＩＤを付加する。

ステップＳ５４において、ユーザは、操作部１２４を操作して編集画面の表示を指令する。このとき、エディットリスト作成部１５２は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置１２６に表示させ、クリップの音声をスピーカ１２５から出力させる。

ステップＳ５５において、ユーザは、操作部１２４を操作して、編集画面において映像と音声のイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部１５２は、ユーザにより指定された映像と音声のイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部１５２は、そのエディットリストを光ディスク３１のエディットリストファイルに記録させるとともに、EM作成部１５３に供給する。

また、EM作成部１５３は、エディットリスト作成部１５２から供給されるエディットリストと、クリップの発言者EM(start)と発言者EM(end)が記述された電子マークデータとに基づいて、音声のカット点で発言者EM(start)または発言者EM(end)を補間し、音声のイン点からアウト点までに付与されている発言者EM(start)または発言者EM(end)を、編集結果上の対応する位置にコピーすることにより、編集結果の電子マークデータを作成する。

即ち、編集結果の電子マークデータは、クリップの電子マークデータの記述のうち、音声のイン点からアウト点までに付与されている発言者EM(start)または発言者EM(end)の記述を複写して、その発言者EM(start)または発言者EM(end)の付与位置の記述を変更し、さらに、音声のカット点に対応する編集結果上の位置に付与された発言者EM(start)または発言者EM(end)を、新たに記述することにより作成される。

そして、EM作成部１５３は、編集結果の電子マークデータを、光ディスク３１のエディットリスト用NRTファイルに記録させる。

ステップＳ５６において、ユーザは、操作部１２４を操作することにより、編集結果においてダックボイス加工を施す発言の発言者の発言者ＩＤを指定する。このとき、エディットリスト作成部１５２は、ユーザにより指定された発言者ＩＤと、EM作成部１５３により作成された編集結果の電子マークデータに基づいて、ダックボイス加工を施す区間を特定し、その区間にダックボイス加工を施すことを、エディットリストファイルのエディットリストに記述する。

ステップＳ５７において、ユーザは、操作部１２４を操作して、所望の発言者の発言にダックボイス加工を施した編集結果の再生を指令する。このとき、マイコン１１１のCPUは、ダックボイス加工を施すことが記述されたエディットリストにしたがって、光ディスク３１から編集結果を再生する。

具体的には、CPUは、ダックボイス加工を施すことが記述されたエディットリストにしたがって、所定のクリップの所定の区間の映像データおよび音声データを光ディスク３１から読み出す。そして、CPUは、読み出した音声データのうちの所定の発言者の発言に対応する音声データに対してダックボイス加工を施し、その結果得られる音声データを音声出力I/F１１５に供給することにより、編集結果の音声をスピーカ１２５から出力させる。また、CPUは、読み出した映像データを映像表示I/F１１７に供給することにより、編集結果の映像を表示装置１２６に表示させる。

次に、図２２のフローチャートを参照して、図１０の付加部１５１による発言者ＩＤを発言者未定EM（start）と発言者未定EM（end）に付加する付加処理について説明する。この付加処理は、例えば、ユーザが操作部１２４を操作することにより、図１２の入力画面の表示を指令したとき開始される。

ステップＳ７１において、付加部１５１は、予めハードディスク１２８に登録されている発言者リストに基づいて、表示装置１２６に入力画面を表示させる。ステップＳ７２において、付加部１５１は、ユーザにより光ディスク３１に記録されているクリップの再生が指令されたかどうかを判定する。ステップＳ７２で、再生が指令されていないと判定された場合、付加部１５１は、再生が指令されるまで待機する。

一方、ステップＳ７２で、クリップの再生が指令されたと判定された場合、ステップＳ７３において、付加部１５１は、そのクリップの再生を開始する。ステップＳ７４において、付加部１５１は、操作部I/F１１４から供給される操作信号に応じて、ユーザにより発言者ＩＤが入力されたかを判定する。

具体的には、ユーザは、操作部１２４を操作することにより入力画面においてカーソル１６０を移動し決定の指令を行う。操作部I/F１１４は、この操作により発言者ＩＤの入力を受け付け、その操作を表す操作信号を付加部１５１に供給する。付加部１５１は、この操作信号が供給された場合、ユーザにより発言者ＩＤが入力されたと判定する。

ステップＳ７４で、ユーザにより発言者ＩＤが入力されていないと判定された場合、付加部１５１は、発言者ＩＤが入力されるまで待機する。また、ステップＳ７４で、ユーザにより発言者ＩＤが入力されたと判定された場合、処理はステップＳ７５に進む。

ステップＳ７５において、付加部１５１は、現在再生中のフレームのフレーム番号と入力された発言者ＩＤとに基づいて、発言者ＩＤの入力に対応する位置に付与された、現在再生中のフレームの直前の発言者未定EM（start）と直後の発言者未定EM(end)に、入力された発言者ＩＤを付加する。その結果、例えば図６に示したクリップの電子マークデータは、図１３に示したクリップの電子マークデータに変更される。

ステップＳ７６において、付加部１５１は、再生中のクリップが終端まで再生されたかを判定し、終端まで再生されていないと判定した場合、処理はステップＳ７４に戻り、上述した処理が繰り返される。

一方、ステップＳ７６において、再生中のクリップが終端まで再生されたと判定された場合、ステップＳ７７において、付加部１５１は、クリップの再生を終了する。そして処理は終了する。

以上のように、編集装置４１は、発言者未定EM(start)と発言者未定EM（end）に発言者ＩＤを付加するので、編集結果のうちの所望の発言者の音声にダックボイス加工を施す場合に、この発言者ＩＤが付加された発言者EM(start)と発言者EM（end）により、ダックボイス加工を施す音声の区間を容易に認識することができる。

従って、発言者EM(start)と発言者EM（end）は、編集結果のうちの所望の発言者の音声に対してダックボイス加工を容易に施すために有用な電子マークであるといえる。

次に、図２３を参照して、図１０の編集処理部１５０による、音声を非破壊編集する音声編集処理について説明する。この音声編集処理は、例えば、ユーザが操作部１２４を操作して、編集画面の表示を指令したとき、開始される。

ステップＳ８１において、エディットリスト作成部１５２は、編集対象とするクリップのプロキシデータの光ディスク３１からの再生を開始する。その結果、表示装置１２６には、編集対象とするクリップの低解像度の映像が編集画面として表示され、スピーカ１２５から、そのクリップの音声が出力される。

ステップＳ８２において、エディットリスト作成部１５２は、編集画面においてユーザにより音声のイン点が入力されたかを判定し、音声のイン点が入力されていないと判定した場合、音声のイン点が入力されるまで待機する。

一方、ステップＳ８２で音声のイン点が入力されたと判定された場合、ステップＳ８３において、エディットリスト作成部１５２は、現在再生中のフレームのフレーム番号を、音声サブクリップとして音声の再生を開始する位置として、エディットリストに記述する。例えば、図１４の例では、ユーザにより第１のクリップのフレーム番号「284」のフレームの再生中に音声のイン点が入力され、エディットリスト作成部１５２は、そのフレーム番号「284」をエディットリストに記述する。

ステップＳ８４において、エディットリスト作成部１５２は、編集画面においてユーザにより音声のアウト点が入力されたかを判定し、音声のアウト点が入力されていないと判定した場合、音声のアウト点が入力されるまで待機する。

一方、ステップＳ８４で音声のアウト点が入力されたと判定された場合、ステップＳ８５において、エディットリスト作成部１５２は、現在再生中のフレームのフレーム番号を、音声サブクリップとして音声の再生を終了する位置として、エディットリストに記述する。例えば、図１４の例では、ユーザにより第１のクリップのフレーム番号「2084」のフレームの再生中に音声のアウト点が入力され、エディットリスト作成部１５２は、そのフレーム番号「2084」をエディットリストに記述する。

ステップＳ８６において、エディットリスト作成部１５２は、ユーザにより編集対象とするクリップの変更が指令されたかを判定する。なお、図１４の例では、編集対象とするクリップのうち音声が含まれるクリップは、第１のクリップのみであるので、ステップＳ８６の判定の判定結果は常に否（No）となる。

ステップＳ８６で、編集対象とするクリップの変更が指令されたと判定された場合、ステップＳ８７において、エディットリスト作成部１５２は、現在の編集対象であるクリップのプロキシデータの再生を終了する。そして、処理はステップＳ８１に戻り、新たに編集対象とするクリップのプロキシデータの再生が開始され、以降の処理が繰り返される。

一方、ステップＳ８６で編集対象とするクリップの変更が指令されていないと判定された場合、ステップＳ８８において、エディットリスト作成部１５２は、ユーザにより音声の編集の終了が指令されたかを判定する。ステップＳ８８でユーザにより音声の編集の終了が指令されていないと判定された場合、処理はステップＳ８２に戻り、上述した処理が繰り返される。

また、ステップＳ８８で音声の編集の終了が指令されたと判定された場合、ステップＳ８９において、エディットリスト作成部１５２は、編集対象であるクリップのプロキシデータの再生を終了し、エディットリストをEM作成部１５３に供給する。

ステップＳ９０において、EM作成部１５３は、エディットリスト作成部１５２から供給されるエディットリストと、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。

例えば、EM作成部１５３は、図１６に示したエディットリストと、図１３に示したクリップの電子マークデータとに基づいて、図１８に示した編集結果の電子マークデータを作成する。そして、EM作成部１５３は、編集結果の電子マークデータを、光ディスク３１のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部１５２に供給する。

ステップＳ９１において、エディットリスト作成部１５２は、操作部I/F１１４からの操作信号に応じて、ユーザによりダックボイス加工を施す発言の発言者の発言者ＩＤが入力されたかを判定する。

具体的には、ユーザは、操作部１２４を操作して、ダックボイス加工を施す発言の発言者の発言者ＩＤを入力する。操作部I/F１１４は、この操作を表す操作信号を、エディットリスト作成部１５２に供給することにより、ダックボイス加工を施す発言の発言者の発言者ＩＤを指定する。エディットリスト作成部１５２は、この操作信号が操作部I/F１１４から供給された場合、ユーザによりダックボイス加工を施す発言の発言者の発言者ＩＤが入力されたと判定する。

ステップＳ９１で、ダックボイス加工を施す発言の発言者の発言者ＩＤが入力されたと判定された場合、ステップＳ９２において、エディットリスト作成部１５２は、入力された発言者ＩＤと、ステップＳ９０で作成された編集結果の電子マークデータとに基づいて、その発言者の発言に対応する区間の音声にダックボイス加工を施すことを示す記述をエディットリストに行う。その結果、例えば図１６に示したエディットリストは、図１９に示したエディットリストに変更される。

ステップＳ９３において、EM作成部１５３は、ユーザによりダックボイス加工を施す発言の発言者の発言者ＩＤとして入力された発言者ＩＤに基づいて、ステップＳ９１で作成された編集結果の電子マークデータに記述される発言者EM(start)と発言者EM(end)に、ダックボイス加工の有無を表す情報としての「duckVoice」または「normal」を付加する。その結果、例えば、図１８に示した編集結果の電子マークデータは、図２０に示した編集結果の電子マークデータに変更される。そして、処理は終了する。

なお、図２３では、音声を非破壊編集する音声編集処理について説明したが、映像を非破壊編集する映像編集処理も同様に行われ、エディットリストには、ユーザにより入力された映像のイン点またはアウト点に対応して、映像サブクリップとして映像の再生を開始する位置または終了する位置を示す情報などが記述される。但し、映像の編集処理では、図２３のステップＳ９０乃至Ｓ９３の処理は行われない。

以上のように、図１の撮影編集システム１０では、編集結果の電子マークデータに発言者EM（start）または発言者EM（start）が記述されるので、その電子マークデータに基づいて、編集結果の音声のうちの各発言者の発言の区間を容易に認識することができる。

従って、ユーザは、ダックボイス加工を施す発言の発言者の発言者ＩＤを入力することにより、その発言者の発言に対応する区間の音声にダックボイス加工を施すことを示す記述を容易にエディットリストに行うことができる。その結果、ユーザは、編集結果の音声のうちの特定の発言者の発言に対して容易にダックボイス加工を施すことができる。

また、ユーザは、ダックボイス加工を施す発言の発言者を変更または削除する場合においても、変更または削除後の発言者の発言者ＩＤを入力することにより、編集結果の音声のうちのダックボイス加工を施す発言の発言者を容易に変更または削除することができる。特にニュース番組では、短時間での編集が要求されるため、ダックボイス加工を施す発言の発言者を容易に変更または削除可能であることは有用である。

なお、図１の撮影編集システム１０では、２つのビデオカメラ２１とビデオカメラ２２によりテレビジョン素材が撮影されたが、１つのビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。この場合、編集装置４１がクリップを１つの光ディスクに集約する必要はない。

また、撮影編集システム１０では、１つのビデオカメラ２１で音声が取得されたが、２つのビデオカメラ２１および２２で音声が取得されるようにしてもよい。この場合、編集装置４１は、映像と音声を同時に非破壊編集することができる。

次に、図２４は、本発明を適用した撮影編集システムの第２の実施の形態の構成例を示している。なお、図１と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

図２４の撮影編集システム１７０では、撮影中に、ユーザがビデオカメラ１７１に発言者ＩＤを入力する。

詳細には、ビデオカメラ１７１は、図１のビデオカメラ２１やビデオカメラ２２と同様に、テレビジョン素材の収録に使用される装置である。ビデオカメラ１７１は、ビデオカメラ２１と同様に、テレビジョン素材の映像を撮影するとともに、マイクロフォン２１Ａにより音声を取得する。ビデオカメラ１７１は、ビデオカメラ２１と同様に、その結果得られる音声付き映像のデータを素材データとして、光ディスク１７２のクリップファイルに記録する。

また、ビデオカメラ１７１は、テレビジョン素材の音声の取得中にユーザにより入力された、その音声を発した発言者の発言者ＩＤを取得する。ビデオカメラ１７１は、ユーザにより入力された発言者ＩＤに応じて、その発言者ＩＤが付加された発言者EM（start）を、取得中の音声のフレームに付与する。ビデオカメラ１７１は、その発言者EM(start)を記述した電子マークデータを、光ディスク１７２のクリップのNRTファイルに記録させる。光ディスク１７２は、編集装置１７３の光ディスクドライブ４１Ａに装着される。

編集装置１７３は、編集装置４１と同様に、光ディスクドライブ４１Ａに装着される光ディスク１７２に記録された素材データの編集などに使用される装置である。編集装置１７３は、編集装置４１と同様に、ユーザの入力に応じて、光ディスク１７２に記録されている素材データの非破壊編集を行い、エディットリストを作成して光ディスク１７２のエディットリストファイルに記録する。

また、編集装置１７３は、エディットリストとクリップの電子マークデータに基づいて、編集結果に発言者EM(start)を付与する。そして、編集装置１７３は、その発言者EM(start)を記述した電子マークデータを、編集結果の電子マークデータとして、光ディスク１７２のエディットリスト用NRTファイルに記録させる。さらに、編集装置１７３は、編集装置４１と同様に、ユーザの入力に応じて、編集結果のうちの所定の発言者の音声にダックボイス加工を施す。

なお、図２４では、ビデオカメラ１７１と編集装置１７３が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。

また、図２４では、光ディスク１７２が、編集装置１７３の光ディスクドライブ４１Ａに装着され、その光ディスク１７２に対する読み出しまたは記録が行われるものとしたが、編集装置１７３が、光ディスク１７２が装着されたビデオカメラ１７１とネットワークを介して接続され、そのネットワークを介して、光ディスク１７２に対する読み出しまたは記録が行われるようにしてもよい。

図２５は、図２４のビデオカメラ１７１のハードウェア構成例を示すブロック図である。

図２５のビデオカメラ１７１では、映像入力I/F６０、音声入力I/F６１、一時記憶メモリI/F６３、光ディスクドライブI/F６４、操作部I/F６５、音声出力I/F６６、シリアルデータI/F６７、映像表示I/F６８、メモリカードI/F６９、ネットワークI/F７０、ハードディスクドライブI/F７１、ドライブI/F７２、およびマイコン１８１が、システムバス７３に接続されている。

なお、図２５において、図２と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

マイコン１８１は、CPU、ROM、およびRAMにより構成される。マイコン１８１のCPUは、ROMまたはハードディスク８１に記録されているプログラムにしたがって、操作部I/F６５からの操作信号などに応じて、ビデオカメラ１７１の各部を制御する。

例えば、CPUは、図２のマイコン６２のCPUと同様に、映像入力I/F６０から供給される映像データと、音声入力I/F６１から供給される音声データとからなる素材データを用いてプロキシデータを作成し、一時記憶メモリ７５に記憶させる。また、CPUは、操作部I/F６５から入力される操作信号に応じて、撮影中のフレームに発言者EM(start)を付与する。そして、CPUは、その発言者EM(start)を記述する電子マークデータを作成し、光ディスクドライブI/F６４に供給して、光ディスク１７２のクリップのNRTファイルに記録させる。

さらに、CPUは、マイコン６２のCPUと同様に、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの音声データを、システムバス７３を介して音声出力I/F６６に供給して、その音声データに対応する音声をスピーカ７８から出力させる。

また、CPUは、マイコン６２のCPUと同様に、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの映像データを、システムバス７３を介して映像表示I/F６８に供給して、その映像データに対応する映像を表示装置７９に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

図２６は、図２５のビデオカメラ１７１における撮影処理部の機能的な構成例を示している。

図２６の撮影処理部１９０は、制御部１９１と作成部１９２により構成される。

制御部１９１は、撮影に関する各種の制御を行う。例えば、制御部１９１は、図３の制御部９１と同様に、操作部I/F６５から供給される、撮影の開始を指令するための操作を表す操作信号に応じて、映像入力I/F６０と音声入力I/F６１を制御し、素材データの取得を開始する。

また、制御部１９１は、制御部９１と同様に、取得した素材データを用いてプロキシデータを作成する。さらに、制御部１９１は、素材データとプロキシデータを一時記憶メモリI/F６３に供給して、一時記憶メモリ７５に記憶させる。

作成部１９２は、操作部I/F６５から供給される、発言者ＩＤを入力するための操作を表す操作信号に応じて、その発言者ＩＤを付加した発言者EM（start）を、撮影中のフレームに付与する。そして、作成部１９２は、その発言者EM（start）を記述した電子マークデータを作成し、光ディスクドライブI/F６４に供給して、光ディスク１７２のクリップのNRTファイルに記録させる。

次に、図２７を参照して、ユーザがビデオカメラ１７１を用いて行う撮影作業について説明する。

図２７の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ１７１による主な処理の内容、および、その処理対象となるデータが記述されている。

図２７に示すように、ステップＳ１０１において、ユーザは、操作部７７を操作して、図１２の入力画面の表示を指令する。このとき、ビデオカメラ１７１の作成部１９２は、予めハードディスク８１に登録されている発言者リストに基づいて、表示装置７９に入力画面を表示させる。

ステップＳ１０２において、ユーザは、操作部７７を操作して、撮影の開始を指令する。このとき、ビデオカメラ１７１の制御部１９１は、クリップのNRTファイルを光ディスク１７２に作成する。また、制御部１９１は、クリップファイルを光ディスク１７２に作成する。さらに、制御部１９１は、映像入力I/F６０と音声入力I/F６１から供給される素材データのクリップファイルへの記録を開始する。

ステップＳ１０３において、ユーザは、各発言者の発言の開始時に、入力画面において操作部７７を操作し、その発言者の発言者ＩＤを入力する。このとき、作成部１９２は、その発言者ＩＤが付加された発言者EM(start)を撮影中のフレームに付与し、その発言者EM(start)を、クリップのNRTファイルの電子マークデータに記述する。

ステップＳ１０４において、ユーザは、操作部７７を操作して撮影の終了を指令する。このとき、制御部１９１は、素材データのクリップファイルへの記録を終了する。

次に、図２８のフローチャートを参照して、図２６の撮影処理部１９０による撮影処理の詳細について説明する。この撮影処理は、例えば、ユーザが操作部７７を操作することにより、入力画面の表示を指令したとき、開始される。

ステップＳ１１１において、ビデオカメラ１７１の作成部１９２は、予めハードディスク８１に登録されている発言者リストに基づいて、表示装置７９に入力画面を表示させる。ステップＳ１１２において、制御部１９１は、操作部I/F６５から供給される操作信号に応じて、ユーザにより撮影の開始が指令されたかを判定する。ステップＳ１１２で撮影の開始が指令されていないと判定された場合、撮影の開始が指令されるまで待機する。

一方、ステップＳ１１２で撮影の開始が指令されたと判定された場合、ステップＳ１１３において、制御部１９１は、図８のステップＳ３１の処理と同様に、クリップのNRTファイルを光ディスク１７２に作成する。ステップＳ１１４において、制御部１９１は、図８のステップＳ３２の処理と同様に、クリップファイルを光ディスク１７２に作成する。ステップＳ１１５において、制御部１９１は、映像入力I/F６０と音声入力I/F６１から供給される素材データのクリップファイルへの記録を開始する。

ステップＳ１１６において、作成部１９２は、操作部I/F６５から供給される操作信号に応じて、ユーザにより発言者ＩＤが入力されたかを判定する。ステップＳ１１６で、ユーザにより発言者ＩＤが入力されていないと判定された場合、処理はステップＳ１１７をスキップして、ステップＳ１１８に進む。

一方、ステップＳ１１６で、発言者ＩＤが入力されたと判定された場合、ステップＳ１１７において、作成部１９２は、現在撮影中のフレームのフレーム番号に基づいて、そのフレーム番号のフレームに、ユーザにより入力された発言者ＩＤが付加された発言者EM（start）を付与する。そして、作成部１９２は、その発言者EM（start）をクリップのNRTファイルの電子マークデータに記述する。

ステップＳ１１８において、制御部１９１は、操作部７７からの操作信号に応じて、ユーザにより撮影の終了が指令されたかを判定する。ステップＳ１１８で撮影の終了が指令されていないと判定された場合、処理はステップＳ１１６に戻り、上述した処理が繰り返される。

また、ステップＳ１１８で撮影の終了が指令されたと判定された場合、ステップＳ１１９において、制御部１９１は、素材データのクリップファイルへの記録を終了する。そして処理は終了する。

図２９は、図２４の編集装置１７３のハードウェア構成例を示すブロック図である。

図２９の編集装置１７３では、一時記憶メモリI/F１１２、光ディスクドライブI/F１１３、操作部I/F１１４、音声出力I/F１１５、シリアルデータI/F１１６、映像表示I/F１１７、メモリカードI/F１１８、ネットワークI/F１１９、ハードディスクドライブI/F１２０、ドライブI/F１２１、およびマイコン１９５が、システムバス１２２に接続されている。なお、図２９において、図９と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

マイコン１９５は、CPU、ROM、およびRAMにより構成される。マイコン１９５のCPUは、ROMまたはハードディスク１２８に記録されているプログラムにしたがって、操作部I/F１１４からの操作信号などに応じて、編集装置１７３の各部を制御する。

例えば、CPUは、図９のマイコン１１１のCPUと同様に、光ディスクドライブI/F１１３から供給される、光ディスクドライブ４１Ａに装着された光ディスク１７２から読み出されたクリップを一時記憶メモリI/F１１２に供給する。

また、CPUは、マイコン１１１のCPUと同様に、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、マイコン１１１のCPUと同様に、エディットリストを光ディスク１７２に記録させる。

さらに、CPUは、マイコン１１１のCPUと同様に、エディットリストとクリップのNRTファイルの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、CPUは、マイコン１１１のCPUと同様に、その電子マークデータを、光ディスク１７２のエディットリスト用NRTファイルに記録させる。

また、CPUは、マイコン１１１のCPUと同様に、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者ＩＤの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。

さらに、CPUは、マイコン１１１のCPUと同様に、一時記憶メモリI/F１１２から供給されるクリップのうちの音声データを、システムバス１２２を介して音声出力I/F１１５に供給して、クリップの音声をスピーカ１２５から出力させる。また、CPUは、マイコン１１１のCPUと同様に、一時記憶メモリI/F１１２から供給されるクリップのうちの映像データを、システムバス１２２を介して映像表示I/F１１７に供給して、クリップの映像を表示装置１２６に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

図３０は、図２９の編集装置１７３における編集処理部の機能的な構成例を示している。

図３０の編集処理部２００は、エディットリスト作成部２０１とEM作成部２０２により構成される。

エディットリスト作成部２０１は、図１０のエディットリスト作成部１５２と同様に、光ディスクドライブI/F１１３から供給される、光ディスク１７２から読み出されたクリップを、一時記憶メモリI/F１１２に供給する。

また、エディットリスト作成部２０１は、エディットリスト作成部１５２と同様に、一時記憶メモリI/F１１２から供給されるプロキシデータのうちの音声データを音声出力I/F１１５に供給して、クリップの音声をスピーカ１２５から出力させるとともに、プロキシデータのうちの映像データを映像表示I/F１１７に供給して、クリップの低解像度の映像を編集画面として表示装置１２６に表示させる。このとき、ユーザは、スピーカ１２５からの音声を聞きつつ、編集画面を見ながら、操作部１２４を操作して編集作業を行う。

エディットリスト作成部２０１は、エディットリスト作成部１５２と同様に、ユーザの編集作業により操作部I/F１１４から供給される操作信号に応じて、エディットリストを作成することにより、非破壊編集を行う。そして、エディットリスト作成部２０１は、エディットリスト作成部１５２と同様に、エディットリストを光ディスク１７２に記録させるとともに、EM作成部２０２に供給する。

また、エディットリスト作成部２０１は、エディットリスト作成部１５２と同様に、操作部I/F１１４から供給される操作信号と、EM作成部２０２から供給される編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者ＩＤの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。

EM作成部２０２は、EM作成部１５３と同様に、エディットリスト作成部２０１から供給されるエディットリストと、一時記憶メモリI/F１１２に記憶されている、クリップの電子マークデータとに基づいて、編集結果の電子マークデータを作成する。そして、EM作成部２０２は、EM作成部１５３と同様に、その電子マークデータを光ディスク１７２のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部２０１に供給する。

また、EM作成部２０２は、操作部I/F１１４から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者ＩＤが付加された発言者EM(start)に、ダックボイス加工の有無を表す情報を付加する。

次に、図３１乃至図３４を参照して、編集装置１７３における非破壊編集について説明する。

なお、ここでは、ビデオカメラ１７１が、発言者ＩＤ「Ａ」の発言者「○○さん」、発言者ＩＤ「Ｂ」の発言者「××さん」、および発言者ＩＤ「Ｃ」の発言者「△△さん」の３人を被写体として撮影するとともに対話の音声を取得することにより、３人の発言者の対話をテレビジョン素材として撮影したものとする。

そして、ユーザは、そのテレビジョン素材の所定の区間の音声を切り取って編集結果の音声として使用するとともに、所定の区間の映像を切り取って編集結果の映像として使用し、３人の発言者のうちの少なくとも１人の発言者の発言にダックボイス加工を施すように、非破壊編集を行う。

まず最初に、図３１と図３２を参照して、光ディスク１７２に記録されている編集対象のクリップと編集結果について説明する。なお、図３１において、横軸はフレーム番号を表している。

図３１Ａの上段の棒は、ビデオカメラ１７１により撮影された編集対象である第１のクリップの映像の長さを示しており、棒の上に記述されている数字は、その記述位置に対応する撮影時刻に撮影された映像のフレーム番号を示している。即ち、図３１の例では、第１のクリップの映像のフレーム数は1001フレームであり、各フレームには、フレーム番号が「0」から順に「1000」まで付与されている。

また、図３１Ａの下段の棒は、第１のクリップの音声の長さを示しており、棒の中のアルファベットは、その位置に対応する音声を発した発言者の発言者ＩＤである。また、棒の下に記載されている矢印は、発言者EM（start）を表している。

詳細には、図３１の例では、第１のクリップには、100フレーム目に発言者ＩＤ「Ａ」が付加された発言者EM（start）が付与されおり、350フレーム目に、発言者ＩＤ「Ｂ」が付加された発言者EM（start）が付与されている。また、600フレーム目に、発言者ＩＤ「Ｃ」が付加された発言者EM（start）が付与されている。

また、図３１Ｂの棒は、図３１Ａに示した第１のクリップを編集対象として非破壊編集が行われた結果得られる編集結果の素材データの長さを示しており、棒の上に記述されている数字は、その記述位置に対応する編集結果上のフレーム番号を示している。図３１の例では、編集結果のフレーム数は601フレームであり、各フレームには、フレーム番号が「0」から順に「600」まで付与されている。

詳細には、図３１の例では、ユーザにより第１のクリップの200フレーム目がイン点として指定され、300フレーム目がアウト点として指定されている。従って、第１のクリップの200フレーム目から300フレーム目までのフレームの素材データが、編集結果の0フレーム目から100フレーム目までのフレームの素材データ（以下、第１の素材サブクリップという）となる。

また、図３１の例では、ユーザにより第１のクリップの400フレーム目がイン点として指定され、750フレーム目がアウト点として指定されている。従って、第１のクリップの400フレーム目から750フレーム目までのフレームの素材データが、編集結果の100フレーム目から450フレーム目までのフレームの素材データ（以下、第２の素材サブクリップという）となる。

さらに、図３１の例では、ユーザにより第１のクリップの850フレーム目がイン点として指定され、1000フレーム目がアウト点として指定されている。従って、第１のクリップの850フレーム目から1000フレーム目までのフレームの素材データが、編集結果の450フレーム目から600フレーム目までのフレームの素材データ（以下、第３の素材サブクリップという）となる。

以上のようにイン点とアウト点が指定され、非破壊編集が行われた場合、第１のクリップのイン点の直前に付与された発言者EM（start）が、イン点に対応する編集結果上の位置に付与される。

図３１の例では、イン点として指定された第１のクリップの200フレーム目の直前の100フレーム目に付与された、発言者ＩＤ「Ａ」が付与された発言者EM（start）が、そのイン点に対応する編集結果上の位置である0フレーム目に付与される。

また、イン点として指定された第１のクリップの350フレーム目の直前の300フレーム目に付与された、発言者ＩＤ「Ｂ」が付与された発言者EM（start）が、そのイン点に対応する編集結果上の位置である100フレーム目に付与される。

さらに、イン点として指定された第１のクリップの850フレーム目の直前の600フレーム目に付与された、発言者ＩＤ「Ｃ」が付与された発言者EM（start）が、そのイン点に対応する編集結果上の位置である450フレーム目に付与される。

また、第１のクリップのイン点からアウト点までの編集区間内の位置に付与されている発言者EM（start）が、その位置に対応する編集結果上の位置に付与される。図３１の例では、イン点として指定された第１のクリップの400フレーム目から、アウト点として指定された第２のクリップの７５0フレーム目までの編集区間内の600フレーム目に付与されている発言者EM（start）が、その位置に対応する編集結果上の位置である300フレーム目に付与される。

なお、この発言者EM（start）を付与する編集結果上の位置Tee3（図３１の例では300）は、イン点に対応する編集結果上の位置Tec1（図３１の例では100）、発言者EM（start）が付与されているクリップ上の位置Tme3（図３１の例では600）、および、イン点Tmc3（図３１の例では400）を用いた以下の式（１）により求められる。

Tee3=Tec1+Tme3-Tmc3
・・・（１）

また、編集結果と、その編集結果の音声に対応する発言者ＩＤは、図３２に示すようになる。なお、図３２において、横軸はフレーム番号を示している。

即ち、編集結果は、第１の素材サブクリップ、第２の素材サブクリップ、および第３の素材サブクリップが順に先頭から並べられることにより構成される。また、編集結果のフレーム番号「0」から「100」までのフレームの音声は、発言者ＩＤ「Ａ」の発言者の発言であり、編集結果のフレーム番号「100」から「300」までのフレームの音声は、発言者ＩＤ「Ｂ」の発言者の発言である。さらに、編集結果のフレーム番号「300」から「600」までのフレームの音声は、発言者ＩＤ「Ｃ」の発言者の発言である。

以上のように、図３１Ｂや図３２に示した編集結果では、第２の素材サブクリップのアウト点と、発言者の切替点が異なっている。即ち、図３１Ｂや図３２に示した編集結果では、第２の素材サブクリップの途中で、発言者「××さん」の発言から、「△△さん」の発言に切り替わる。

図３３は、図３１に示した第１のクリップの電子マークデータを示し、図３４は、図３１や図３２に示した編集結果の電子マークデータを示している。

図３３の例では、電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部は、２乃至６行目に記述されている。

図３３の２行目の「targetMedia="Original-Material"」は、この電子マークデータが、クリップの素材データに付与される電子マークを記述した電子マークデータであることを示している。

また、３行目の「EssenceMark value="Speaker-A"frameCount="100"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の開始位置であり、付与位置がクリップの先頭から100フレーム目であることを示している。

同様に、４行目の「EssenceMark value="Speaker-B"frameCount="350"」、５行目の「EssenceMark value="Speaker-C"frameCount="600"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ｃ」の発言者による発言の開始位置であり、付与位置が、それぞれ、クリップの先頭から350フレーム目、600フレーム目であることを示している。

また、図３４の例では、電子マークテーブル（<EssenceMark Table> </EssenceMark Table>）で囲まれる電子マークテーブル部は、２乃至７行目に記述されている。

なお、２行目の「targetMedia="Initial-EditList"」は、この電子マークデータが、編集結果に付与される電子マークを記述した電子マークデータであることを示している。

また、３行目の「EssenceMark value="Speaker-A"frameCount="0"」の記述は、この電子マークが示す特徴が発言者ＩＤ「Ａ」の発言者による発言の開始位置であり、付与位置が編集結果の先頭から0フレーム目であることを示している。

同様に、４行目の「EssenceMark value="Speaker-B"frameCount="100"」、５行目の「EssenceMark value="Speaker-C"frameCount="300"」、６行目の「EssenceMark value="Speaker-C"frameCount="450"」の記述は、この電子マークが示す特徴が、それぞれ、発言者ＩＤ「Ｂ」の発言者、発言者ＩＤ「Ｃ」の発言者、発言者ＩＤ「Ｃ」の発言者による発言の開始位置であり、付与位置が、それぞれ、編集結果の先頭から100フレーム目、300フレーム目、450フレーム目であることを示している。

なお、上述した説明では、編集結果の300フレーム目と450フレーム目に、同一の発言者ＩＤ「Ｃ」が付加された発言者EM(start)が連続して付与されたが、同一の発言者ＩＤが付加された発言者EM(start)が連続する場合、最初の発言者EM(start)だけを付与するようにしてもよい。

次に、図３５を参照して、ユーザが編集装置１７３を用いて行う編集作業について説明する。

図３５の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置１７３による主な処理の内容、および、その処理の対象となるデータが記述されている。

図３５に示すように、ステップＳ１３１において、ユーザは、編集装置１７３の光ディスクドライブ４１Ａに光ディスク１７２を装着し、操作部１２４を操作して編集画面の表示の指令を行う。このとき、エディットリスト作成部２０１は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置１２６に表示させ、クリップの音声をスピーカ１２５から出力させる。

ステップＳ１３２において、ユーザは、操作部１２４を操作して、編集画面においてイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部２０１は、ユーザにより指定されたイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部２０１は、そのエディットリストを光ディスク１７２のエディットリストファイルに記録させるとともに、EM作成部２０２に供給する。

また、EM作成部２０２は、エディットリスト作成部２０１から供給されるエディットリストと、クリップの発言者EM(start)が記述された電子マークデータとに基づいて、カット点で発言者EM(start)を補間し、イン点からアウト点までに付与されている発言者EM(start)を、編集結果上の対応する位置にコピーすることにより、編集結果の電子マークデータを作成する。そして、EM作成部２０２は、編集結果の電子マークデータを、光ディスク１７２のエディットリスト用NRTファイルに記録させる。

ステップＳ１３３およびＳ１３４の処理は、図２１のステップＳ５６およびＳ５７の処理と同様であるので、説明は省略する。

なお、図示は省略するが、編集処理部２００による、音声と映像を非破壊編集する編集処理は、図２３の音声編集処理と同様である。但し、編集処理部２００による編集処理では、図２３のステップＳ８３とＳ８５において、現在再生中のフレームのフレーム番号が、素材サブクリップとして音声と映像の再生を開始する位置または終了する位置として、エディットリストに記述される。

また、図２４の撮影編集システム１７０では、ビデオカメラ１７１により撮影と発言者EM(start)の付与の両方が行われたが、図３６に示すように、撮影を行うビデオカメラ２０５とは別に、発言者EM(start)を付与する付与装置２０６が設けられるようにしてもよい。

さらに、図２４の撮影編集システム１７０では、１つのビデオカメラ１７１によりテレビジョン素材が撮影されたが、複数のビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。

この場合、編集装置１７３は、図１の編集装置４１と同様に、各ビデオカメラで撮影されたクリップを１つの光ディスクに集約する。また、この場合、複数のビデオカメラのそれぞれで音声が取得されるようにしてもよいし、いずれか１つのビデオカメラで音声が取得されるようにしてもよい。いずれか１つのビデオカメラで音声が取得される場合、編集装置１７３は、編集装置４１と同様に、映像と音声を別々に非破壊編集する。

次に、図３７は、本発明を適用した撮影編集システムの第３の実施の形態の構成例を示している。なお、図１や図２４と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

図３７の撮影編集システム２１０では、ユーザが、編集装置２１３において編集結果の再生中に発言者ＩＤを入力する。

詳細には、ビデオカメラ２１１は、図２４のビデオカメラ１７１と同様に、テレビジョン素材の収録に使用される装置である。ビデオカメラ２１１は、ビデオカメラ１７１と同様に、テレビジョン素材の映像を撮影するとともに、マイクロフォン２１Ａにより音声を取得する。ビデオカメラ２１１は、ビデオカメラ１７１と同様に、その結果得られる音声付き映像のデータを素材データとして、光ディスク２１２のクリップファイルに記録する。

光ディスク２１２は、編集装置２１３の光ディスクドライブ４１Ａに装着される。編集装置２１３は、編集装置１７３と同様に、光ディスクドライブ４１Ａに装着される光ディスク２１２に記録された素材データの編集などに使用される装置である。

編集装置２１３は、編集装置１７３と同様に、ユーザの入力に応じて、光ディスク２１２に記録されている素材データの非破壊編集を行い、エディットリストを作成して光ディスク２１２のエディットリストファイルに記録する。また、編集装置２１３は、ユーザの入力に応じて、編集結果に発言者EM(start)を付与し、その発言者EM(start)を記述した電子マークデータを、編集結果の電子マークデータとして、光ディスク２１２のエディットリスト用NRTファイルに記録させる。

さらに、編集装置２１３は、編集装置１７３と同様に、ユーザの入力に応じて、編集結果のうちの所定の発言者の音声にダックボイス加工を施す。

なお、図３７では、ビデオカメラ２１１と編集装置２１３が、それぞれ別々の装置であるものとしたが、それらが一体化されていてもよい。

また、図３７では、光ディスク２１２が、編集装置２１３の光ディスクドライブ４１Ａに装着され、その光ディスク２１２に対する読み出しまたは記録が行われるものとしたが、編集装置２１３が、光ディスク２１２が装着されたビデオカメラ２１１とネットワークを介して接続され、そのネットワークを介して、光ディスク２１２に対する読み出しまたは記録が行われるようにしてもよい。

図３８は、図３７のビデオカメラ２１１のハードウェア構成例を示すブロック図である。

図３８のビデオカメラ２１１では、映像入力I/F６０、音声入力I/F６１、一時記憶メモリI/F６３、光ディスクドライブI/F６４、操作部I/F６５、音声出力I/F６６、シリアルデータI/F６７、映像表示I/F６８、メモリカードI/F６９、ネットワークI/F７０、ハードディスクドライブI/F７１、ドライブI/F７２、およびマイコン２２１が、システムバス７３に接続されている。

なお、図３８において、図２や図２５と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

マイコン２２１は、CPU、ROM、およびRAMにより構成される。マイコン２２１のCPUは、ROMまたはハードディスク８１に記録されているプログラムにしたがって、操作部I/F６５からの操作信号などに応じて、ビデオカメラ２１１の各部を制御する。

例えば、CPUは、図２５のマイコン１８１のCPUと同様に、映像入力I/F６０から供給される映像データと、音声入力I/F６１から供給される音声データとからなる素材データを用いてプロキシデータを作成し、一時記憶メモリ７５に記憶させる。また、CPUは、マイコン１８１のCPUと同様に、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの音声データを、システムバス７３を介して音声出力I/F６６に供給して、その音声データに対応する音声をスピーカ７８から出力させる。

また、CPUは、マイコン１８１のCPUと同様に、一時記憶メモリI/F６３から供給される素材データまたはプロキシデータのうちの映像データを、システムバス７３を介して映像表示I/F６８に供給して、その映像データに対応する映像を表示装置７９に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

図３９は、図３８のビデオカメラ２１１における撮影処理部の機能的な構成例を示している。図３９に示すように、撮影処理部２３０は、図２６の制御部１９１により構成されるので、説明は省略する。

次に、図４０を参照して、ユーザがビデオカメラ２１１を用いて行う撮影作業について説明する。

図４０の表では、撮影作業の各ステップの番号に対応付けて、そのステップにおける撮影作業の内容、ビデオカメラ２１１による主な処理の内容、および、その処理対象となるデータが記述されている。

図４０のステップＳ１７１およびＳ１７２は、図２７のステップＳ１０２およびＳ１０４と同様である。即ち、図４０の編集作業は、図２７の編集作業において、発言者EM(start)の付与に関する作業であるステップＳ１０１とＳ１０３を削除したものである。

次に、図４１のフローチャートを参照して、図３９の撮影処理部２３０による撮影処理について説明する。この撮影処理は、例えば、ユーザが操作部７７を操作することにより、撮影の開始を指令したとき開始される。

ステップＳ１９１乃至Ｓ１９５の処理は、図２８のステップＳ１１３乃至Ｓ１１５、Ｓ１１８、およびＳ１１９の処理と同様であるので、説明は省略する。

図４２は、図３７の編集装置２１３のハードウェア構成例を示すブロック図である。

図４２の編集装置２１３では、一時記憶メモリI/F１１２、光ディスクドライブI/F１１３、操作部I/F１１４、音声出力I/F１１５、シリアルデータI/F１１６、映像表示I/F１１７、メモリカードI/F１１８、ネットワークI/F１１９、ハードディスクドライブI/F１２０、ドライブI/F１２１、およびマイコン２４１が、システムバス１２２に接続されている。なお、図４２において、図９や図２９と同一のものには同一の符号を付してあり、説明は繰り返しになるので省略する。

マイコン２４１は、CPU、ROM、およびRAMにより構成される。マイコン２４１のCPUは、ROMまたはハードディスク１２８に記録されているプログラムにしたがって、操作部I/F１１４からの操作信号などに応じて、編集装置２１３の各部を制御する。

例えば、CPUは、図２９のマイコン１９５のCPUと同様に、光ディスクドライブI/F１１３から供給される、光ディスクドライブ４１Ａに装着された光ディスク２１２から読み出されたクリップを一時記憶メモリI/F１１２に供給する。

また、CPUは、マイコン１９５のCPUと同様に、操作信号に応じてエディットリストを作成することにより、非破壊編集を行う。CPUは、マイコン１９５のCPUと同様に、エディットリストを光ディスク２１２に記録させる。

さらに、CPUは、操作部I/F１１４からの操作信号に応じて、編集結果の電子マークデータを作成する。そして、CPUは、マイコン１９５のCPUと同様に、その電子マークデータを、光ディスク２１２のエディットリスト用NRTファイルに記録させる。

また、CPUは、マイコン１９５のCPUと同様に、操作信号と編集結果の電子マークデータとに基づいて、編集結果の音声のうちの、ユーザにより指定された発言者ＩＤの発言者の発言にダックボイス加工を施すように、エディットリストを変更する。

さらに、CPUは、マイコン１９５のCPUと同様に、一時記憶メモリI/F１１２から供給されるクリップのうちの音声データを、システムバス１２２を介して音声出力I/F１１５に供給して、クリップの音声をスピーカ１２５から出力させる。また、CPUは、マイコン１９５のCPUと同様に、一時記憶メモリI/F１１２から供給されるクリップのうちの映像データを、システムバス１２２を介して映像表示I/F１１７に供給して、クリップの映像を表示装置１２６に表示させる。RAMには、CPUが実行するプログラムやデータなどが適宜記憶される。

図４３は、図４２の編集装置２１３における編集処理部の機能的な構成例を示している。

図４３の編集処理部２５０は、エディットリスト作成部２０１とEM作成部２５１により構成される。なお、図４３において、図３０と同一のものには同一の符号を付してあり、説明は繰り返しになるので、省略する。

EM作成部２５１は、操作部I/F１１４からの操作信号に応じて、編集結果の電子マークデータを作成する。そして、EM作成部２５１は、図３０のEM作成部２０２と同様に、その電子マークデータを、光ディスク２１２のエディットリスト用NRTファイルに記録させるとともに、エディットリスト作成部２０１に供給する。

また、EM作成部２５１は、EM作成部２０２と同様に、操作部I/F１１４から供給される操作信号に応じて、編集結果の電子マークデータに記述される、ユーザにより指定された発言者ＩＤが付加された発言者EM(start)に、ダックボイス加工の有無を表す情報を付加する。

次に、図４４を参照して、ユーザが編集装置２１３を用いて行う編集作業について説明する。

図４４の表では、編集作業の各ステップの番号に対応付けて、そのステップにおける編集作業の内容、編集装置２１３による主な処理の内容、および、その処理の対象となるデータが記述されている。

図４４に示すように、ステップＳ２１１において、図３５のステップＳ１３１と同様に、ユーザは、編集装置２１３の光ディスクドライブ４１Ａに光ディスク２１２を装着し、操作部１２４を操作して編集画面の表示の指令を行う。このとき、編集装置２１３のエディットリスト作成部２０１は、プロキシファイルのプロキシデータに基づいて、編集画面を表示装置１２６に表示させ、クリップの音声をスピーカ１２５から出力させる。

ステップＳ２１２において、ユーザは、操作部１２４を操作して、編集画面においてイン点およびアウト点を指定することにより編集を行う。このとき、エディットリスト作成部２０１は、ユーザにより指定されたイン点およびアウト点に基づいて、エディットリストを作成する。そして、エディットリスト作成部２０１は、そのエディットリストを光ディスク２１２のエディットリストファイルに記録させるとともに、EM作成部２５１に供給する。

ステップＳ２１３において、ユーザは、操作部１２４を操作して入力画面（図１２）の表示を指令する。このとき、EM作成部２５１は、予めハードディスク１２８に登録されている発言者リストに基づいて、表示装置１２６に入力画面を表示させる。

ステップＳ２１４において、ユーザは、編集結果の再生を指令する。このとき、EM作成部２５１は、エディットリストに基づいて、光ディスク２１２のクリップファイルから編集結果を構成する素材データを再生する。その結果、編集結果の音声がスピーカ１２５から出力され、映像が表示装置１２６に表示される。

ステップＳ２１５において、ユーザは、クリップの音声を聞き、各発言者の発言の開始時に、入力画面において操作部１２４を操作して、その発言者の発言者ＩＤを入力する。このとき、EM作成部２５１は、再生中の音声に対応するフレームに、入力された発言者ＩＤを付加した発言者EM（start）を付与し、その発言者EM(start)をエディットリスト用NRTファイルの電子マークデータに記述する。

ステップＳ２１６およびＳ２１７の処理は、図３５のステップＳ１３３およびＳ１３４の処理と同様であるので、説明は省略する。

次に、図４５のフローチャートを参照して、図４３のEM作成部２５１による編集結果に発言者EM（start）を付与する付与処理について説明する。この付与処理は、例えば、ユーザが操作部１２４を操作することにより、図１２の入力画面の表示を指令したとき開始される。

ステップＳ２３１において、EM作成部２５１は、予めハードディスク１２８に登録されている発言者リストに基づいて、表示装置１２６に入力画面を表示させる。ステップＳ２３２において、EM作成部２５１は、ユーザにより編集結果の再生が指令されたかどうかを判定する。ステップＳ２３２で、編集結果の再生が指令されていないと判定された場合、EM作成部２５１は、再生が指令されるまで待機する。

一方、ステップＳ２３２で、編集結果の再生が指令されたと判定された場合、ステップＳ２３３において、EM作成部２５１は、その編集結果の再生を開始する。ステップＳ２３４において、EM作成部２５１は、操作部I/F１１４から供給される操作信号に応じて、ユーザにより発言者ＩＤが入力されたかを判定する。

ステップＳ２３４で、ユーザにより発言者ＩＤが入力されていないと判定された場合、EM作成部２５１は、発言者ＩＤが入力されるまで待機する。また、ステップＳ２３４で、ユーザにより発言者ＩＤが入力されたと判定された場合、ステップＳ２３５において、EM作成部２５１は、その発言者ＩＤの入力に対応する位置である現在再生中のフレームのフレーム番号に基づいて、現在再生中のフレームに、入力された発言者ＩＤが付加された発言者EM(start)を付与し、その発言者EM(start)をエディットリスト用NRTファイルの電子マークデータに記述する。

ステップＳ２３６において、EM作成部２５１は、再生中の編集結果が終端まで再生されたかを判定し、終端まで再生されていないと判定した場合、処理はステップＳ２３４に戻り、上述した処理が繰り返される。

一方、ステップＳ２３６において、再生中の編集結果が終端まで再生されたと判定された場合、ステップＳ２３７において、EM作成部２５１は、編集結果の再生を終了する。そして処理は終了する。

以上のように、編集装置２１３は、ユーザからの入力に応じて、編集結果に発言者EM(start)を付与するので、編集結果のうちの所望の発言者の音声にダックボイス加工を施す場合に、この発言者EM(start)により、ダックボイス加工を施す音声の区間を容易に認識することができる。

なお、図示は省略するが、編集処理部２５０による、音声と映像を非破壊編集する編集処理は、図２３の音声編集処理と同様である。但し、編集処理部２５０による編集処理では、図２３のステップＳ８３とＳ８５において、現在再生中のフレームのフレーム番号が、素材サブクリップとして音声と映像の再生を開始する位置または終了する位置として、エディットリストに記述される。

また、図３７の撮影編集システム２１０では、１つのビデオカメラ２１１によりテレビジョン素材が撮影されたが、複数のビデオカメラによりテレビジョン素材が撮影されるようにしてもよい。

この場合、編集装置２１３は、図１の編集装置４１と同様に、各ビデオカメラで撮影されたクリップを１つの光ディスクに集約する。また、この場合、複数のビデオカメラのそれぞれで音声が取得されるようにしてもよいし、いずれか１つのビデオカメラで音声が取得されるようにしてもよい。いずれか１つのビデオカメラで音声が取得される場合、編集装置２１３は、編集装置４１と同様に、映像と音声を別々に非破壊編集する。

さらに、上述した説明では、光ディスクにクリップが記録されるものとしたが、クリップが記録される記録媒体は、勿論、光ディスクに限定されない。

また、上述した説明では、ハードディスクに発言者リストが記録されるものとしたが、光ディスクなどの記録媒体に、クリップとともに記録されるようにしてもよい。

さらに、ダックボイス加工を施した発言の発言者の映像には、モザイクを施すようにしてもよい。

また、図２４や図３６の撮影編集システム１７０と図３７の撮影編集システム２１０では、発言者ID（start）が付与されたが、発言者ID（start）と発言者ID（end）の両方が付与されるようにしてもよい。

さらに、上述した説明では、ユーザによりダックボイス加工を施す発言の発言者の発言者ＩＤが入力されると、編集結果の電子マークデータに記述されている発言者EM(start)と発言者EM(end)、または、発言者EM（start）に、ダックボイス加工の有無を表す情報が付加されたが、この情報が付加されないようにしてもよい。

なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

さらに、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した撮影編集システムの第１の実施の形態の構成例を示す図である。図１のビデオカメラのハードウェア構成例を示すブロック図である。図１のビデオカメラの撮影処理部の機能的な構成例を示すブロック図である。図１の光ディスクに記録されているファイルのディレクトリ構造の例を示す図である。図４のクリップファイルのフォーマットの例を示す図である。発言者未定EM（start）と発言者未定EM（end）を記述した電子マークデータの例を示す図である。図１のビデオカメラを用いて行う撮影作業について説明する図である。図３の撮影処理部による撮影処理について説明するフローチャートである。図１の編集装置のハードウェア構成例を示すブロック図である。図９の編集装置の編集処理部の機能的な構成例を示すブロック図である。非破壊編集後の光ディスクに記録されているファイルのディレクトリ構造の例を示す図である。入力画面の例を示す図である。発言者EM(start)または発言者EM（end）を記述した電子マークデータの例を示す図である。編集対象のクリップと編集結果について説明する図である。編集結果について説明する図である。図１５の編集結果のエディットリストを示す図である。図１５の編集結果に付与される発言者EM(start)と発言者EM(end)について説明する図である。編集結果に付与された発言者EM(start)と発言者EM(end)を記述した電子マークデータの例を示す図である。ダックボイス加工を施す場合のエディットリストの例を示す図である。ダックボイス加工を施す場合の編集結果の電子マークデータの例を示す図である。図１の編集装置を用いて行う編集作業について説明する図である。図１０の付加部による付加処理について説明するフローチャートである。図１０の編集処理部による音声編集処理について説明するフローチャートである。本発明を適用した撮影編集システムの第２の実施の形態の構成例を示す図である。図２４のビデオカメラのハードウェア構成例を示すブロック図である。図２５のビデオカメラにおける撮影処理部の機能的な構成例を示すブロック図である。図２４のビデオカメラを用いて行う撮影作業について説明する図である。図２６の撮影処理部による撮影処理の詳細について説明するフローチャートである。図２４の編集装置のハードウェア構成例を示すブロック図である。図２９の編集装置における編集処理部の機能的な構成例を示すブロック図である。編集対象のクリップと編集結果について説明する図である。編集結果について説明する図である。第１のクリップの電子マークデータを示す図である。編集結果の電子マークデータを示す図である。編集装置を用いて行う編集作業について説明する図である。図２４の撮影編集システムの他の構成例を示す図である。本発明を適用した撮影編集システムの第３の実施の形態の構成例を示す図である。図３７のビデオカメラのハードウェア構成例を示すブロック図である。図３８のビデオカメラにおける撮影処理部の機能的な構成例を示すブロック図である。図３７のビデオカメラを用いて行う撮影作業について説明する図である。図３９の撮影処理部による撮影処理について説明するフローチャートである。図３７の編集装置のハードウェア構成例を示すブロック図である。図４２の編集装置における編集処理部の機能的な構成例を示すブロック図である。図３７の編集装置を用いて行う編集作業について説明する図である。図４３のEM作成部による付与処理について説明するフローチャートである。

符号の説明

２１ビデオカメラ，２１Ａマイクロフォン，４１編集装置，７４カメラ，９３作成部，１１４操作部I/F，１５１付加部，１９２作成部

Claims

音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う情報処理装置において、
ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付ける受付手段と、
前記受付手段により入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加する付加手段と、
前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成する編集手段と
を備える情報処理装置。
前記受付手段により受け付けられた固有情報の入力に応じて、その入力に対応する音声付き映像の位置に前記電子マークを付与する付与手段
をさらに備え、
前記付加手段は、前記付与手段により付与された前記電子マークに前記固有情報を付加する
請求項１に記載の情報処理装置。
音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う情報処理装置の情報処理方法において、
ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付け、
入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加し、
前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成する
ステップを含む情報処理方法。
音声付き映像に付与される音声の特徴を示す電子マークに基づいて、前記音声にダックボイス加工を行う処理を、コンピュータに行わせるプログラムにおいて、
ユーザからの、前記音声付き映像の音声の発言者の固有の情報である固有情報の入力を受け付け、
入力が受け付けられた固有情報を、その入力に対応する音声付き映像の位置に付与される電子マークに付加し、
前記固有情報が付加された前記電子マークに基づいて、所定の固有情報が付加された電子マークに対応する音声にダックボイス加工を施す編集処理の編集結果に関する情報を生成する
ステップを含む処理をコンピュータに行わせるプログラム。