JP4271195B2

JP4271195B2 - 映像音声記録再生装置、映像音声記録方法及び映像音声再生方法

Info

Publication number: JP4271195B2
Application number: JP2005514705A
Authority: JP
Inventors: 大介林; 英明三田; 亨山下
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2003-10-16
Filing date: 2004-06-29
Publication date: 2009-06-03
Anticipated expiration: 2024-06-29
Also published as: CN1868209A; KR20060096026A; CA2542390A1; US20070127888A1; CN100484222C; KR100801396B1; WO2005039175A1; JPWO2005039175A1; EP1677531A1; EP1677531A4

Description

本発明は、メモリ記録カメラレコーダなどの映像音声の記録再生装置及び方法に関し、特に、映像及び音声の主情報に音声付加情報を関連づけて記録し、再生する装置及び方法に関する。

カメラ一体型ＶＴＲで撮影録画した取材済みテープを元に、番組を制作する場合には、撮影録画された多くのカット（シーン）から必要な場面のみ編集して１本の番組を制作するという作業が一般的に行われている。

かかる編集作業を行う従来のノンリニア編集装置は、素材となる取材済みテープに記録された映像および音声などの情報を、ハードディスクのようなランダムアクセスが可能な記録媒体に取り込み、このハードディスクに取り込んだ映像および音声をランダムアクセスしながら編集を行う。

この編集作業を効率的に行うためには、編集者は、各カットの撮影内容がどのようなものであるかを確認する必要がある。このため、従来では各カットの先頭に、そのカットの内容を説明する文字タイトルなどの静止画を、いわゆるクレジット（編集を補助するための付加情報）として撮影して挿入し、ハードディスクに記録していた。その後の編集時に、この記録した静止画のクレジットを再生してモニタに表示することにより、各カットにどのような内容が撮影されているかを容易に把握できる。

上記のように、各カットの先頭に、その内容を説明する文字タイトルなどのクレジットを撮影し挿入する作業は面倒であり、より簡単に各カットの内容を把握できる方法が要望されていた。

これに対し特開２００１−１３６４８２号公報では、各カットの撮影内容を知るための手段として、映像および音声の主情報とは別に、音声による付加情報（ボイスメモ）を前記主情報に関連付けて記録再生する方法が提案されている。

しかし、上記特許文献では、付加情報（ボイスメモ）を各カットの素材と関連付けする概念については述べられているが、メモリ記録カメラレコーダ等に適用する際の具体方法については言及されていない。また、主情報の再生中にしかボイスメモを記録することができないという問題点があった。

本発明は、上記課題を解決するためになされたものであり、映像音声記録再生装置において各カットに対して付加情報を付加する際の具体的な方法を提案する。

本発明の第１の態様において、映像音声記録再生装置は、映像及び音声の主情報を入力する映像音声入力部と、主情報に付加される音声付加情報を入力する音声付加情報入力部と、主情報および音声付加情報を出力する映像音声出力部と、主情報および音声付加情報を記録する記録媒体と、主情報および音声付加情報を、記録媒体へ記録または記録媒体から再生する記録再生部と、映像音声入力部、音声付加情報入力部、映像音声出力部、記録再生部の動作を制御する制御部とを備える。制御部は、音声付加情報を主情報の時間軸と非同期に、主情報における特定のフレーム位置に関連付けして記録媒体に記録するように制御する。

本発明の第２の態様において、映像音声記録方法は、映像及び音声の主情報を入力し、主情報に付加される音声付加情報を入力し、音声付加情報を主情報の時間軸と非同期に、主情報における特定のフレーム位置に関連付けして記録媒体に記録する。

本発明の第３の態様において、上記の映像音声記録方法により主情報と音声付加情報とが記録された記録媒体の再生方法であって、主情報のサムネイル画像を表示し、同一の主情報に一つ以上の音声付加情報が関連付けされている場合、それら一つ以上の音声付加情報の各々に対して、音声付加情報が関連付けられたフレーム位置にある主情報のサムネイル画像のそれぞれを選択可能に表示する。

本発明の第４の態様において、上記の映像音声記録方法により主情報と音声付加情報とが記録された記録媒体の再生方法であって、音声付加情報を主情報の時間軸と同期を取らずに再生する。

本発明によれば、映像および音声の主情報の内容等を説明するための音声付加情報（ボイスメモ）を、主情報の特定フレーム位置に関連付けて記録することができ、主情報内の時間軸上の一点において複数のボイスメモを記録することができる。また、音声付加情報を主情報の時間軸と非同期に主情報と関連付けて記録することで、音声付加情報の再生制御が容易になる。

また、主情報における特定のフレーム位置を主情報の先頭からのフレーム数で指定してもよく、これにより、素材データのタイムコードが不連続の場合でも音声付加データを素材データの一意の位置に関連付けすることができる。

また、連続に記録された素材データ（クリップ）毎に音声付加情報を関連付けてもよく、これにより、音声付加情報をシーン毎のメモとして用いることができる。

また、記録媒体全体に関連付けた音声付加データを記録してもよく、その記録媒体にどのようなショットが記録されているのかを音声付加データとして関連付けすることにより、他の記録媒体との区別が容易になる。

また、複数の記録媒体にまたがって記録された主情報（ショット）において、記録媒体毎に音声付加データを関連付けしてもよく、これにより、一部の記録媒体が取り外されても残りの記録媒体に記録されている主情報に関連付けた音声付加データを記録、再生することができる。

また、主情報の記録を終了したときに音声付加情報の記録を終了させてもよく、これにより、ユーザによる素材データの記録終了時に音声付加データの記録を終了する手間が省ける。

また、音声付加情報を主情報の音声データと異なるサンプリングレートまたはビットレートで記録してもよく、例えば、音声付加情報をより低レートで記録することにより、音声付加データの記録可能時間を増やすことができる。

また、音声付加情報を主情報の音声データとは異なるファイルフォーマットで記録してもよく、例えば、主情報を編集機専用のフォーマットで、音声付加情報を汎用ＰＣ用のフォーマットで記録することにより、ＰＣ上でも音声付加データを再生することが可能となる。

また、記録媒体に音声付加情報を記録するための領域を予め確保しておいてもよく、主情報の空き容量がなくなっても音声付加データの記録が確保できる。

また、主情報の記録中、記録一時停止中、記録停止中、再生中、再生一時停止中、再生停止中のいずれの状態からでも、音声付加情報を記録できるようにしてもよく、これにより、編集作業が容易になる。

また、音声付加情報が関連付けされている主情報を削除した場合、削除された主情報に関連する音声付加情報も同時に削除するようにしてもよく、不要な音声付加データの消し忘れを防ぐことができる。

また、同一の主情報に一つ以上の音声付加情報が関連付けされている場合に、一つ以上の音声付加情報のうちの一つが選択されたときに、その選択された音声付加情報が関連付けられたフレーム位置にある主情報のサムネイル画像を表示するようにしてもよく、これにより、必要な音声付加情報を探すのが容易になる。

また、音声付加情報の再生時に、音声付加情報に関連付けされた主情報のサムネイルまたは主情報中の映像情報を表示してもよく、音声付加情報の再生中に主情報を確認することが可能となる。

また、一つの音声付加情報が選択されたときに、選択された音声付加情報と関連付けされている主情報のフレーム位置から主情報を再生可能としてもよく、音声付加情報をキーとした検索後に、関連付けられた主情報をすぐに確認できるので編集の作業効率が上がる。

また、音声付加情報を再生中に、再生中の音声付加情報と関連付けされている主情報のフレーム位置から主情報を再生可能としてもよく、音声付加情報をキーとした検索後に、関連付けられた主情報をすぐに確認できるので編集の作業効率が上がる。

また、音声付加情報の記録開始時の状態を示す情報を含んだ、音声付加情報に関する管理情報を有してもよく、この管理情報を参照して様々な方法で音声付加情報を再生することが可能となる。

以下、添付の図面を用いて本発明に係る映像音声記録再生装置の好ましい実施形態について詳細に説明する。

（実施の形態１）
図１は、本発明に係るメモリ記録カメラレコーダの概略構成を示すブロック図である。

映像・音声入力部１００は音声情報及び映像情報を主情報として入力する。映像情報は撮像素子や再生装置等を介して、また、音声情報はマイクや再生装置等を介して入力できるが、映像、音声情報を入力することができればその手段は問わない。ここで、「主情報」とは、音声付加情報が付加され得る対象となる映像・音声情報をいい、「本編」とも呼ぶ。

圧縮伸長回路１０１は、映像・音声入力部１００で入力した映像、音声の主情報をデータ圧縮して映像、音声データの主データとして記録再生部１４０に出力するか、あるいは、記録再生部１４０から再生された映像、音声の主データおよび音声付加データをデータ伸長して映像、音声の主情報および音声付加情報として映像・音声出力部１０２に出力する。

映像・音声出力部１０２は、圧縮伸長回路１０１からの映像、音声の主情報および音声付加情報を外部出力する。

ボイスメモマイク１１０は音声付加情報入力手段であり、ボイスメモを音声付加情報として入力する。なお、音声付加情報入力手段としては、カメラレコーダにマイクを設ける代わりに単に音声入力端子を設けておき、そこにマイク等の入力手段を接続して使用するようにしてもよい。ボイスメモ処理回路１１１は、ボイスメモマイク１１０で入力した音声付加情報をデータ変換、データ圧縮して音声付加データとして記録再生部１４０に出力する。

制御部１２０は、記録再生部１４０および表示部１２１等の各部の動作を制御する。表示部１２１は、制御部１２０によって指定されたボイスメモ番号およびサムネイル（代表画像）等を表示する。操作部１３０は、記録釦、再生釦、ボイスメモ再生釦等を有し、それらによるユーザの操作を外部から受け付ける。記録再生部１４０は、圧縮伸長回路１０１からの映像、音声の主データおよび、ボイスメモ処理回路１１１からの音声付加データを記録媒体１５０に記録し、また、記録媒体１５０から再生される映像、音声の主データおよび音声付加データを圧縮伸長回路１０１に出力する。

記録媒体１５０は、記録再生部１４０からの映像、音声の主データや音声付加データなどを記録するランダムアクセス可能な記録媒体である。記録媒体１５０はランダムアクセス可能な記録媒体であればその種類を問わず、内蔵型、外付け型、着脱可能型等の制限もなく、複数存在してもよい。例えば、ハードディスク、光ディスク、光磁気ディスク、半導体メモリなどが考えられる。本実施例では、唯一つの記録媒体しか存在しない場合を想定することにする。

素材データを構成する映像及び音声それぞれの主データが単一の記録媒体１５０において連続して記録されている場合において、その記録された一連のデータ単位を「クリップ」と呼ぶ（なお、１つの素材データが複数の記録媒体にまたがって記録される場合については後述する。）。

映像の主データおよび音声の主データが同一ファイルとして記録媒体１５０に記録されている場合、クリップは一つの素材ファイルから構成されるが、映像の主データおよび音声の主データが異なる別々のファイルとして記録媒体１５０に記録されている場合は、クリップは複数の素材ファイルから構成されることもある。本実施形態では、映像の主データと音声の主データが別々のファイルとして記録媒体１５０に記録されており、一つのクリップにおいて、映像の主データは一つの映像ファイルで構成され、音声の主データは複数チャンネルの音声ファイルから構成されているものとする。以下、映像の主データのことを単に「映像データ」、音声の主データのことを単に「音声データ」と呼ぶ。

ボイスメモマイク１１０から入力した音声情報はボイスメモ処理回路１１１によって音声付加データに変換されて出力される。この音声付加データのことを「ボイスメモデータ」と呼ぶ。

記録再生部１４０が記録媒体１５０にデータを記録する際、このボイスメモデータはクリップ中のタイムコードと関連付けて記録される。関連付けるタイムコードは、クリップ内の最初のフレームについてのタイムコードでもよいし、途中の任意のフレームについてのタイムコードでもよい。

ボイスメモデータをクリップのタイムコードと関連付けて記録することにより、一つのクリップに対して複数のボイスメモを記録することが可能となる。また、素材データのフレーム単位での詳細な位置に関連付けすることが可能となる。編集時には、ボイスメモを聴取することにより、所望の素材データの位置を容易に見つけることができる、という効果が得られる。

また、ボイスメモデータをクリップのタイムコードではなく、クリップのフレームオフセット（先頭からのフレーム数）に関連付けてもよい。

図２を参照し、ボイスメモデータと、クリップのフレームオフセットとの関連付けについて具体的に説明する。

クリップ４００内の一つのフレーム（フレームオフセット＝４）に関連付けてボイスメモ＃１（４１１）が記録されている。また、ボイスメモ＃１（４１１）が関連付けされたフレームよりも後ろのフレーム（フレームオフセット＝８）にボイスメモ＃２（４１２）が関連付けて記録されている。ボイスメモ＃１（４１１）の終了時刻よりもボイスメモ＃２（４１２）の関連付けたフレームオフセットの位置の時刻が早くてもよい。また、ボイスメモ＃２（４１２）を関連付けしたフレーム（フレームオフセット＝８）と全く同じフレームに関連付けて別のボイスメモ＃３（４１３）を記録してもよい。

このように、ボイスメモの記録時間は、本編データを構成する素材クリップの記録時間とは直接影響しない。つまり、ボイスメモは関連付けられたクリップのフレームオフセット上の一点に記録されていると考えることができる。よって、素材クリップよりも長い時間のボイスメモを記録することも可能である。ただし、ボイスメモの記録時間の上限については後述しているが、その設定時間以内でなければならない。

ここで、ボイスメモデータをクリップの特定のフレームオフセット値、例えばクリップの先頭フレームに関連付けしてもよく、このときは、そのボイスメモはクリップ全体に関連付けされたと定義してもよい。このようにクリップ全体と関連付けすることにより、ボイスメモをキーとしたクリップ単位での検索が容易になる、という効果が得られる。

また、ボイスメモデータをクリップのフレームオフセットと関連付けて記録することにより、クリップ内のタイムコードが不連続な場合でも一意的に関連付けすることができる、という効果が得られる。

クリップのフレームオフセットとボイスメモデータを関連付けする方法としては、例えば、図３に示すようなクリップとボイスメモファイルの関係を示す管理テーブル（以下「ボイスメモ管理テーブル」と呼ぶ。）および図４に示すようなクリップとその素材ファイル（映像・音声データファイル）の関係を示す管理テーブル（以下「クリップ管理テーブル」と呼ぶ。）を用いることが考えられる。なお、図３及び図４は、ボイスメモデータをクリップのフレームオフセットと関連付けた場合の管理テーブルを示している。

図３に示すボイスメモ管理テーブル２０において、クリップ名２００はクリップのＩＤを示す。なお、同一記録媒体内で全クリップはユニークなＩＤを持っている。フレームオフセット２０１は、クリップの先頭からのフレーム数である。メモＩＤ２０２は、同じクリップに関連付けられた複数のボイスメモに対して付加されたユニークなＩＤである。ボイスメモファイル名２０３はボイスメモファイルのファイル名であり、同一クリップ内で全ボイスメモファイル名はユニークなファイル名を持っている。

図４に示すクリップ管理テーブル３０において、ＡＶタイプ３０１は、本編データを構成するクリップ（素材ファイル）のタイプが映像データか音声データかを示す情報である。チャンネル番号３０２は、音声データであればそのチャンネル番号を指定し、映像データであれば特に指定しなくてもよい。素材ファイル名３０３は、クリップを構成する素材ファイルとしての映像データまたは音声データのユニークなファイル名である。

以下に、図５のフローチャートを用いて、ボイスメモの再生中に、そのボイスメモデータに関連付けられた主データ（クリップ）を再生する時の処理を説明する。なお、クリップとボイスメモとは図２及び図３の管理情報を介して関連づけられている。

再生中のボイスメモのボイスメモファイル名は同一クリップ内でユニークである。よって、ボイスメモ管理テーブル２０を参照し、ボイスメモファイル名をキーとして、それに関連づけられたクリップ名、フレームオフセットを求める（Ｓ１１）。そして、次に、クリップ管理テーブル３０を参照し、求めたクリップ名のクリップを構成する全ての素材ファイルのファイル名（素材ファイル名３０３）を取得する（Ｓ１２）。すなわち、素材ファイル名を、クリップを構成しているファイルの数だけ取得する。ここで得られた各素材ファイル名を持つデータファイルのそれぞれについて、先に求めたフレームオフセットが示す位置から再生を開始する（Ｓ１３）。このように管理情報２０、３０を参照することにより、ボイスメモと本編データ（クリップ）との対応を認識でき、ボイスメモの再生中にそのボイスメモに関連するクリップを再生することができる。

次に、図６のフローチャートを用いて、クリップを再生中に、そのクリップに関連付けられているボイスメモを再生する時の処理を説明する。

クリップ管理テーブル３０を参照し、現在再生中のクリップのクリップ名を取得する（Ｓ２１）。そして、ボイスメモ管理テーブル２０を参照し、その取得したクリップ名に関連付けられているメモＩＤ、そのメモＩＤに対応するボイスメモファイル名を取得する（Ｓ２２）。取得したボイスメモファイル名で示されるボイスメモデータを再生する（Ｓ２３）。再生するボイスメモの具体的な指定方法等については後述する。

上述の方法により、管理情報２０、３０を用いてクリップとボイスメモデータを関連付けることができる。また、ボイスメモをクリップ内のタイムコードやフレームオフセットと関連付けるので、一つのクリップに対して複数のボイスメモデータを関連付けることができる。また、特定のクリップの同じフレームオフセット上に複数のボイスメモを関連付けすることも可能である。

なお、本実施の形態では、圧縮伸長回路１０１によって、映像、音声情報を圧縮、また、映像、音声データを伸長しているが、圧縮、伸長を行わずに非圧縮データである映像、音声情報をそのまま扱ってもよい。

また、本実施の形態では、クリップ内のフレームオフセットとボイスメモデータを関連付ける手段として、図３および図４に示す管理テーブルを用いたが、それらの関連づけが実現できれば他の手段でもよい。

また、本実施形態では、ボイスメモをクリップのフレームオフセットやタイムコードに関連付けしたが、ボイスメモをクリップ内での特定の時間軸上の位置に関連付けることができれば、すなわち、クリップ内のフレーム位置を特定できる情報であれば、ボイスメモの関連付け先はクリップのフレームオフセットやタイムコードでなくてもよい。

ここで、本発明のボイスメモと従来の編集装置によるアフレコ機能により記録される音声情報との違いについて説明する。

従来の編集機等では、あらかじめ撮影した映像、音声のデータに対して、アフレコによって音声データを追加記録し、それを映像データに対する音声データとみなして再生することがある。この場合、アフレコによって追加記録した音声データは、最初の撮影時に記録した映像データと同期を取って再生することを前提として記録される。よって、アフレコによって音声データを追加記録する時は、映像データを再生し同期を取りながら音声データを追加記録することが一般的である。

これに対し、本発明におけるボイスメモは、クリップ（素材データ）が何であるかを示すためのメモ情報であり、映像、音声の主データとの同期再生は必須ではない。よって、ボイスメモ記録時の主データの状態に制限はなく、主データが、停止中、再生中、特殊再生中等（複数倍サーチ再生、逆再生等）、様々な状態にあっても、ボイスメモを記録することができる。

つまり、ボイスメモは、主データの時間軸の特定の一点に関連付けられるものであり、主データと同期を取ることなく記録することができる。

また、音声データをアフレコにより追加記録する場合、追加数は、機器の音声出力チャンネルの数に制限される。例えば、音声が４チャンネルまでしか出力できない機器に対しては、音声は最大４チャンネルしか記録できない。これに対し、本発明のボイスメモは、音声の出力チャンネル数とは無関係に、主データの同一の時間軸の位置に複数のボイスメモを関連付けて記録することができる。

（実施の形態２）
実施の形態１では、メモリ記録カメラレコーダが唯一つの記録媒体１５０しか備えていない場合を想定したが、本実施の形態では、記録媒体１５０が、図７に示すように着脱可能な複数の記録媒体（記録媒体＃１（５０１）、記録媒体＃２（５０２）、記録媒体＃３（５０３））で構成される場合を説明する。

本実施形態において、複数の記録媒体にまたがって映像、音声の主データが連続して記録されている場合に、その記録データ単位を「ショット」と呼ぶ。例えば、一つのショットの素材を一つの記録媒体に記録した場合には、そのショットは一つのクリップとなる。一方、一つのショットの素材を複数の記録媒体にまたがって記録すると、各記録媒体毎に別々のクリップが作成されることになる。この場合、ボイスメモデータは分割されたクリップ毎に関連付けられる。

図８を用いて、複数の記録媒体にまたがって記録される一つのショット６００に対するボイスメモの付加について詳細に説明する。

ショット６００は、記録媒体＃１（５０１）から記録が開始され、記録媒体＃２（５０２）をまたがって記録媒体＃３（５０３）で記録が終了したとする。この時、ショット６００は、記録媒体＃１（５０１）内のクリップ＃１（６１１）、記録媒体＃２（５０２）内のクリップ＃２（６１２）、記録媒体＃３（５０３）内のクリップ＃３（６１３）に分割されて記録されている。

本実施形態では、ショット６００内のある特定の位置に関連付けてボイスメモデータを記録する場合、ボイスメモデータは、それが付加される実体データが記録されている記録媒体と同じ記録媒体に記録される。例えば、ボイスメモを関連付けしたい位置がクリップ＃１（６１１）内のデータである場合、そのボイスメモデータ（ボイスメモ＃１（６２１））は記録媒体＃１（５０１）上に記録される。同様に、ボイスメモを関連付けしたい位置がクリップ＃２（６１２）内のデータである場合、そのボイスメモデータは記録媒体＃２（５０２）上に記録される（ボイスメモ＃２（６２２））。この時、ボイスメモ＃２（６２２）の終了時刻はクリップ＃２（６１２）の終了時刻よりも後になってもよい。しかし、この場合、ボイスメモ＃２（６２２）は記録媒体＃２（５０２）から記録媒体＃３（５０３）にまたぐことなく、関連付けられた位置の本編データが記録されている記録媒体（すなわちここでは記録媒体＃２（５０２））と同じ記録媒体上に記録されることになる。また、同様に、ボイスメモを関連付けしたい位置がクリップ＃３（６１３）内のデータである場合、そのボイスメモデータ（ボイスメモ＃３（６２３））は記録媒体＃３（５０３）上に記録される。その際、ボイスメモ＃３（６２３）の終了時刻はショット６００の終了時刻よりも後になってもよい。

このように、ボイスメモデータは、それが関連付けられる、クリップのフレームオフセットの本編データの記録されている記録媒体上に記録する。また、ボイスメモデータの記録時間は実施の形態１と同様に、ボイスメモの記録時間の上限以内でなければならない。

上記の方法を用いてボイスメモデータとクリップ内のデータとの関連付けをすることによって、それぞれの記録媒体において本編データとボイスメモを関連付けた状態で再生することができる。例えば、記録媒体＃３（５０３）が取り外された場合でも、クリップ＃１（６１１）内のデータに関連付けされているボイスメモ＃１（６２１）およびクリップ＃２（６１２）内のデータに関連付けされているボイスメモ＃２（６２２）は再生することができる、という効果が得られる。

なお、実施の形態１では、ボイスメモデータを映像または音声データを含むクリップに関連付けしたが、無効な映像および音声データから構成されるクリップ（以下「ダミークリップ」と呼ぶ。）を作成し、このダミークリップにボイスメモデータを関連付けしてもよい。そして、ダミークリップに関連付けされたボイスメモデータは、記録媒体全体に関連付けされたものとしてもよい。

例えば、ある映像、音声データが記録された記録媒体全体に、その記録媒体にどのようなデータが記録されているかを示すボイスメモデータを関連付けすることにより、その記録媒体を他の記録媒体と区別することが容易になる、という効果が得られる。

ダミークリップには、本来、映像、音声データは必要ないが、ダミークリップの無効な映像データとしてブルーバック映像データを用いると、既存のクリップと同様の管理が可能となる。クリップがダミークリップかどうかの判断をするためには、例えば、クリップがダミークリップであるか否かを示すフラグを図３の管理テーブルに付加しておけばよい。そして、ダミークリップ作成時にはこのフラグを立てるようにする。

（実施の形態３）
本実施形態では、ボイスメモの記録処理について簡単に説明する。

図９に、ボイスメモを記録、再生する時にユーザが操作する操作部１３０の例を示す。操作部１３０上にはボイスメモ記録釦１１０１、選択釦１１０２、決定釦１１０３が設けられている。

ボイスメモ記録釦１１０１はボイスメモの記録を開始する時、およびボイスメモの記録を終了する時に用いられる。ボイスメモが記録されていない状態でボイスメモ記録釦１１０１が押下されると、ボイスメモの記録動作が開始する。また、ボイスメモが記録されている状態でボイスメモ記録釦１１０１が押下されると、ボイスメモの記録動作が終了する。なお、ボイスメモ記録釦１１０１は、記録開始用の釦および記録終了用の釦にそれぞれ分けて構成してもよい。

選択釦１１０２は、例えば、クリップのサムネイル（代表画像）一覧におけるカーソルの移動および各種オプション項目でのカーソル移動等を行うための釦である。

決定釦１１０３は、選択を決定するための釦である。例えば、あるボイスメモが選択されている常態で決定釦１１０３を押すと、そのボイスメモの再生が開始される。なお、操作部１３０には図示しない各種の釦が存在してもよい。

図１０を用いて、ボイスメモを記録してクリップに関連付けるまでの処理の流れを説明する。

ユーザによりボイスメモ非記録状態でボイスメモ記録釦１１０１が押下されると、ボイスメモの記録動作が開始する。その時、まず、記録すべきボイスメモを関連づけるクリップのクリップ名およびフレームオフセットを取得し、それらの情報を記憶しておく（Ｓ３１）。なお、ボイスメモを関連付けるクリップやフレームオフセットの具体的な決定方法は後述する（実施の形態５参照）。また、この時、管理テーブル２０、３０を参照し、同一クリップにおいて重複しないようにメモＩＤ及びファイル名を決定し、記憶しておく（Ｓ３２）。なお、ファイル名の決定方法等は後述する（実施の形態７参照）。そして、ボイスメモの記録が開始される（Ｓ３３）。

その後、ボイスメモ記録動作中に、ユーザのボイスメモ記録釦１１０１の押下による記録停止操作の有無を判断する（Ｓ３４）。記録停止操作があると、ボイスメモの記録を終了する（Ｓ３５）。その時、ボイスメモ記録開始時に記憶しておいたボイスメモ関連付先のクリップ名、フレームオフセット、メモＩＤ、ファイル名等の関連付け情報を図３に示すような管理テーブルに記録する（Ｓ３６）。

（実施の形態４）
本実施の形態では、ボイスメモの具体的な記録方法について述べる。

ボイスメモは素材データが何であるかを示すためのメモ情報であり、記録後に編集が行われることはほとんどない。また、ボイスメモは素材の音声データと違い、高音質は要求されないと考えられる。よって、ボイスメモのサンプリングレートおよびビットレートを素材の音声データに比べて低いレートで記録する。これによりボイスメモのファイルサイズが小さくなり、効率的になる。

例えば、素材の音声データのサンプリングレートを４８ｋＨｚ、ボイスメモのサンプリングレートを８ｋＨｚにして記録する。また、素材の音声データのビットレートを１６ｂｐｓ（ＢｉｔｓＰｅｒＳａｍｐｌｅ）、ボイスメモのビットレートを８ｂｐｓにして記録する。これにより、ボイスメモは素材の音声データの１／１２のサイズで記録することができるので、限られた容量の記録媒体などでは、素材の映像、音声データをより多く記録することが可能となる。

また、ボイスメモのファイルフォーマットは、素材の音声データのファイルフォーマットと異なるものを用いることができる。

例えば、本編の音声データのフォーマットとしては素材交換用フォーマットであるＭＸＦ（ＭａｔｅｒｉａｌＥｘｃｈａｎｇｅＦｏｒｍａｔ）、ボイスメモのフォーマットとしては汎用ＰＣで用いられているＷＡＶＥを用いる。

本編の音声データは、編集を行うのが前提なので、ＭＸＦのような素材交換用フォーマットを用いると、編集機等での編集が容易になり、編集効率が上がる。また、ボイスメモにＷＡＶＥのような汎用ＰＣで扱えるフォーマットを用いると、後述するサムネイル（代表画像）等を用いることにより、実際の素材データを見なくともＰＣ上でタイトル挿入などの簡易編集が可能となる、という効果が得られる。

以下、素材データおよびボイスメモを記録媒体に記録する場合について具体的に説明する。なお、ボイスメモの音質を若干高めに設定することを想定して、各データのパラメータは以下の通りとする。
フレームレート：３０ｆｐｓ（ＦｒａｍｅｓＰｅｒＳｅｃｏｎｄ）、
本編の映像データのフレームサイズ：１２０ｋＢ、
本編の音声データのサンプリングレート：４８ｋＨｚ、
ボイスメモのサンプリングレート：１２ｋＨｚ、
本編の音声データのビットレート：１６ｂｐｓ、
ボイスメモのビットレート：１６ｂｐｓ、

ここで、クリップは映像データ１ｃｈ、音声データ２ｃｈで構成されているとする。この時、クリップの１秒当たりのデータサイズは、
（１２０ｋＢ×３０ｆｐｓ）＋（（４８ｋＨｚ）×１６ｂｐｓ／８ｂｉｔ）×２ｃｈ＝３．７９２ＭＢ（式１）
となる。

また、ボイスメモ１秒当たりのデータサイズは、
１２ｋＨｚ×１６ｂｐｓ／８ｂｉｔ＝２４ｋＢ（式２）
となる。

なお、ここでは説明の簡単化のため、素材データファイルおよびボイスメモファイルのデータ部以外の部分（ヘッダやフッタ部等）の記録は考慮しないことにする。

また、記録媒体に、予めボイスメモ記録専用の領域を確保しておくようにしてもよい。

例えば、記録媒体に５分間（３００秒）分のボイスメモの記録用の領域を確保する。ボイスメモを５分間（３００秒）記録するのに必要な記録容量は、（式２）より、
２４ｋＢ×３００秒＝７．２ＭＢ（式３）
となる。つまり、ボイスメモを５分間（３００秒）記録するのに必要な記録容量（７．２ＭＢ）は、クリップを約１．９秒（約５７フレーム）記録する記録容量に相当する。

ここで、記録容量が１ＧＢの記録媒体にクリップのみを記録する場合、すなわち、ボイスメモ記録領域を確保しない場合の記録可能時間を計算すると、（式１）より、
１ＧＢ／３．７９２ＭＢ＝約２６４秒（式４）
となる。記録容量が１ＧＢの記録媒体において予め５分間（３００秒）分のボイスメモの記録領域を確保した場合は、クリップの記録可能時間は約２６２秒となる。すなわち、５分間（３００秒）分のボイスメモの記録領域を確保しても、記録可能時間は確保しない場合とほとんど変わらない。

よって、記録媒体に予めボイスメモの記憶領域を確保しておいても、素材データの記録可能時間にほとんど影響を与えないと言える。また、予め確保しておいた記憶領域に、仮にボイスメモを記録しなくても、記録媒体の使用効率もほとんど無駄がない。

また、図８に示すように、クリップ＃２（６１２）およびボイスメモ＃２（６２２）を記録媒体＃２（５０２）上に記録している際、記録媒体＃２（５０２）上の本編データ用の空き領域がなくなり、本編データの続きを記録媒体＃３（５０３）上にクリップ＃３（６１３）として記録を続行した場合でも、記録媒体＃２（５０２）に予め確保していたボイスメモ専用の記録領域が残っていれば、ボイスメモ＃２（６２２）は記録媒体＃２（５０２）上に記録できる、という効果が得られる。

なお、上記の例では、ボイスメモの最大記録可能時間を５分間として説明したが、その値は５分間でなくてもよく、ユーザが任意に設定できるようにしてもよい。また、ボイスメモ記録専用領域の容量をボイスメモ記録時間で設定したが、記録媒体の全容量に対するボイスメモ記録領域の割合を設定してもよい。また、確保する容量をＢｙｔｅ単位等で直接設定してもよい。

（実施の形態５）
本実施形態では、ボイスメモの記録処理について種々のバリエーションについて説明する。

ボイスメモは、映像・音声の主情報の記録中、記録一時停止中、記録停止中、再生中、再生一時停止中、再生停止中のいずれの状態においても記録を開始することができる。複数の状態からボイスメモを記録することができるので、ボイスメモ記録の利便性が上がる、という効果が得られる。以下、それぞれの状態におけるボイスメモの記録方法について述べる。

最初に、主情報の記録（撮影）中にボイスメモを記録する方法について述べる。

主情報を記録（撮影）中に、ユーザにより操作部１３０に設けられたボイスメモ釦が押下されると、ボイスメモマイク１１０から入力された音声信号がボイスメモ処理回路１１１によりデータ変換され、ボイスメモとして記録媒体１５０に記録される。その際、このボイスメモはボイスメモ釦を押した時点に記録されたクリップのフレームオフセットに関連付けられる。この関連付けは管理情報の登録、更新により行われる。この方法により、主情報の撮影とボイスメモの記録を同時に記録でき、主情報撮影後に改めてボイスメモを記録する必要がなくなる。

また、ボイスメモ記録中にクリップが変わった時、すなわち現在記録している記録媒体の主情報記録用の空き容量が０になり、別の記録媒体に主情報の続きを記録する時は、実施の形態２に示したように、ボイスメモは、そのボイスメモの記録開始時の記録媒体上にそのまま記録され続ける。これにより、ボイスメモが関連付けられたクリップが記録されている記録媒体以外の記録媒体が取り外されても、そのボイスメモを再生することが可能となる。

次に主情報の記録一時停止中にボイスメモを記録する方法について述べる。

主情報の記録一時停止中にボイスメモ釦が押下されると、ボイスメモマイク１１０から入力された音声信号をデータ変換し、ボイスメモとして記録媒体に記録する。それと共に、このボイスメモは、クリップ内の記録一時停止中の位置のクリップのフレームオフセットに関連付けられる。この方法により、前述の記録中にボイスメモ釦が押された場合と同様に、本編撮影後にボイスメモを記録する必要がなくなる、という効果がある。

次に主情報の記録停止中にボイスメモを記録する方法について述べる。

主情報の記録動作中に記録動作を停止し、ボイスメモ釦が押下されると、ボイスメモマイク１１０から入力された音声信号がデータ変換され、ボイスメモとして記録される。その際、このボイスメモは、最後に記録されたショット全体に関連付けられる。ショットが複数のクリップに分かれて記録された場合、ボイスメモは、最後に記録されたクリップ全体に関連付けられる。これにより、主情報記録（映像撮影）後にボイスメモを記録することができるので、記録中は主情報の記録（映像撮影）に集中することができる。

なお、主情報の記録停止中にボイスメモ釦が押された場合、次に撮影されるショットにボイスメモを関連付けて記録するようにしてもよい。その際、ダミークリップを一時的に作成し、そのダミークリップ全体にボイスメモを関連付けする。その後、撮影が再開されると、記録したボイスメモを撮影中のクリップに関連付けし直し、ダミークリップを削除する。もし次の撮影が開始されなければ、記録したボイスメモを削除する。この方法により、主情報の記録前にボイスメモを記録することができるので、記録中は映像の撮影に集中することができる。

主情報記録後にボイスメモを記録するか、主情報記録前にボイスメモを記録するかは、ユーザの用途に合わせて設定を変更できるようにしてもよい。

次に主情報の再生中にボイスメモを記録する方法について述べる。

主情報の再生中にボイスメモ釦が押下されると、ボイスメモマイク１１０から入力された音声がデータ変換され、ボイスメモとして記録媒体に記録される。このとき、このボイスメモは、ボイスメモ釦を押した時点に再生中のクリップのフレームオフセットに関連付けられる。この方法により、主情報記録後に、主情報の映像を確認しながらボイスメモを関連付けできるので、所定のシーンのより正確な位置に関連付けすることができる。

次に主情報の再生一時停止中にボイスメモを記録する方法について述べる。

主情報の再生一時停止中にボイスメモ釦が押下されると、ボイスメモマイク１１０から入力された音声はデータ変換され、ボイスメモとして記録される。その際、このボイスメモは、クリップ内の再生一時停止中での位置のクリップのフレームオフセットに関連付けられる。この方法により、再生中にボイスメモ釦が押された時と同様に、記録後に主情報を確認しながらボイスメモを関連付けできるので、所定のシーンのより正確な位置に関連付けすることができる、という効果が得られる。

次に主情報の停止中にボイスメモを記録する方法について述べる。

主情報の再生後の停止中にボイスメモ釦が押下された場合、停止位置がショットの途中だった場合は、ボイスメモマイク１１０から入力された音声信号がデータ変換されボイスメモとして記録される。その際、このボイスメモはそのショット全体に関連付けられる。また、ショットが複数のクリップに分かれて記録されている場合には、停止位置を含むクリップ全体に関連付けられる。この方法により、編集中にショットまたはクリップ全体に関連付けてボイスメモを記録でき、ボイスメモをキーとしたクリップ単位の検索が容易になる、という効果が得られる。

なお、一つ以上のボイスメモが関連付けされているクリップを削除した場合、クリップに関連付けられているボイスメモも同時に削除するようにする。この操作により、ボイスメモを消す手間が省けると共に、不必要になったボイスメモの消し忘れを防ぐことができる、という効果が得られる。

また、主情報とボイスメモを同時に記録している時に、主情報の記録を終了すると、ボイスメモの記録も終了する。この方法により、ボイスメモ記録を終了する手間が省けると共に、不注意等によるボイスメモ記録の終了処理忘れがなくなる、という効果が得られる。

なお、本実施の形態では、主情報の音声データおよびボイスメモのサンプリングレートを、それぞれ４８ｋＨｚおよび１２ｋＨｚとしたが、それぞれの値は別の値でもよい。また、主情報の音声データおよびボイスメモのビットレートを、共に１６ｂｐｓとしたが、それぞれの値は別の値でもよい。また、記録媒体の容量に余裕がある場合、ボイスメモの高音質が要求される場合、および制御を簡単化する等の理由により、主情報の音声データとボイスメモで共通のサンプリングレートまたは共通のビットレートを用いてもよく、その大小関係は問わない。

また、主情報の音声データおよびボイスメモのフォーマットとして、それぞれＭＸＦおよびＷＡＶＥを用いたが、他のフォーマットを用いてもよい。また、制御を簡単化する等の理由により、主情報の音声データとボイスメモで共通のフォーマットを用いてもよい。

また、本実施形態では、クリップが、映像データ１ｃｈ、音声データ２ｃｈで構成されているものとしたが、そのチャンネル数は任意でもよく、例えば音声データ１ｃｈだけのクリップであってもよい。

（実施の形態６）
本実施形態では、ボイスメモの再生方法を具体的に説明する。

最初に、ボイスメモの再生指示のために表示部１２上に表示される画面について説明する。

図１１に表示部１２１に表示されるクリップ一覧画面の例を示す。クリップ一覧画面は、記録媒体１５０内に記録されているクリップの一覧を表示する。全てのクリップが画面に入りきらない場合は、選択カーソル１１０２を用いて画面をスクロールさせて表示する。

クリップ一覧画面において、記録されている各クリップのサムネイル（クリップの代表画像）１４０２が整列して表示される。サムネイル１４０２は、クリップの先頭フレームの映像データでもよく、クリップ内のその他のフレームの映像データでもよい。クリップに映像データが存在しない場合、すなわち音声データのみで構成されるクリップの場合は、サムネイル１４０２にはブルーバック等の画像を埋め込む。なお、サムネイル１４０２には、クリップ内の映像データではない別の画像をユーザが設定してもよい。

サムネイル１４０２とともに、そのクリップのクリップ番号１４０３も表示される。クリップ番号１４０３はクリップ名とは無関係に決定することができ、記録媒体内でユニークであれば、自由に設定してよい。

さらに、ボイスメモが関連付けられているクリップについては、ボイスメモマーク１４０４が表示される。図１１の例ではクリップ番号が「０２」、「０３」および「０５」のクリップにボイスメモが関連付けられている。

選択釦１１０２の操作により選択されたサムネイルについては、選択されていることを示す表示１４０５が外枠に付加される。

図１２は、ボイスメモクリップ一覧画面の例を示した図である。ボイスメモクリップ一覧画面はクリップ一覧画面から導かれる。

ボイスメモクリップ一覧画面は、記録媒体に記録されているクリップの中でボイスメモが関連付けられているクリップのみを一覧表示する。ボイスメモクリップ一覧画面への移行は、操作部１３０上のオプション釦等を用いて行えばよく、その手段は問わない。ボイスメモクリップ一覧画面には、ボイスメモ表示領域１５０２及びクリップ表示領域１５０４が設けられている。

クリップ表示領域１５０４は、ボイスメモが関連付けられているクリップのサムネイル（以下「クリップ・サムネイル」と呼ぶ）１４０２を表示する領域である。

ボイスメモ表示領域１５０２には、現在選択されているクリップに関連付けられているボイスメモに関するサムネイル（以下「ボイスメモ・サムネイル」と呼ぶ。）１５０１の一覧が表示される。ボイスメモ・サムネイル１５０１は、ボイスメモが関連付けられたクリップ中の位置の静止画の縮小画像である。関連付けられているクリップに映像データが存在しない場合、すなわち音声データのみで構成されるクリップの場合は、ボイスメモ・サムネイル１５０１にはブルーバック等の画像を埋め込む。

ボイスメモ・サムネイル１５０１にはボイスメモ番号１５０３が表示される。ボイスメモ番号１５０３は、後述のＭｅｍｏＩＤ９８５と無関係に決定することができ、クリップ内でユニークであれば、ボイスメモ番号１５０３は自由に設定してよい。

ボイスメモ表示領域１５０２には、現在選択されているボイスメモの情報を表示するボイスメモ情報１５０５が表示される。例えば、現在選択されているボイスメモの関連付先のクリップ番号１４０３、現在選択されているボイスメモのボイスメモ番号１５０３が表示される。図１２の例では、ボイスメモ情報１５０５により、クリップ番号「０２」、ボイスメモ番号「０２」のボイスメモが選択されていることが示されている。この例において、クリップ番号「０２」のクリップにはボイスメモが合計３つ関連付けされていることが示されている。

なお、ボイスメモ情報１５０５に表示する情報は、必要がなければ表示しなくてもよく、また、必要ならば他の情報を表示してもよい。

図１３を用いてボイスメモの再生動作を説明する。

ユーザは、ボイスメモを再生するために、ボイスメモクリップ一覧画面に移行し、再生したいボイスメモが関連付けられているクリップを選択・決定する。再生したいクリップの選択は操作部１３０上の選択釦１１０２で行われ、決定釦１１０３によってその選択が決定される。

ボイスメモクリップ一覧の画面上でユーザ操作によりクリップが選択・決定されたか否かを判断する（Ｓ４１）。クリップが選択・決定されると、カーソルをボイスメモ表示領域１５０２に移動し、ボイスメモ表示領域１５０２においてユーザにより再生したいボイスメモ・サムネイルが選択されたか否かを判断する（Ｓ４２）。再生したいボイスメモが選択されている状態で、決定釦１１０３が押下されると、その選択が確定し、選択されたボイスメモが再生される（Ｓ４３）。その時、ボイスメモの再生開始と同時に、再生するボイスメモが関連付けられた位置にある本編の映像データの静止画が表示される（Ｓ４４）。その後、ボイスメモデータがその終端まで再生されると、ボイスメモの再生は終了し、それとともに、本編の映像データの静止画の表示も停止する。

図１４は、ボイスメモ再生中の画面を示した図である。

本編の映像データの静止画とともに、ボイスメモが再生中であることを示す表示１６０１が表示されている。表示１６０１は点滅表示でもよい。

なお、ボイスメモの再生開始と同時に、再生するボイスメモの関連付けられた位置から本編の映像データの動画の再生を開始してもよい。この時、ボイスメモの再生が終了する前に本編の映像データの動画の再生が終了した場合は、本編の映像データの最終フレームの静止画、またはブルーバック画像等を出力し続けるとよい。

ボイスメモの再生が終了すると、自動的にボイスメモクリップ一覧画面に戻る。ボイスメモの再生途中での終了を可能とするために、所定の釦（例えば、決定釦１１０３、停止釦（図示せず））が押下されたときにボイスメモの再生動作を中断するようにしてもよい。また、ボイスメモ再生中に、本編再生釦（図示せず）または選択決定釦１１０３が押下されると、ボイスメモの再生を中断し、再生していたボイスメモが関連付けられている位置から、本編の映像、音声データの再生を開始するようにしてもよい。

（実施の形態７）
実施の形態１では、クリップのフレームオフセットとボイスメモデータを関連付ける手段として図２および図３に示すような管理テーブルを用いたが、本実施の形態では、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ：Ｗ３Ｃ勧告）ファイルにボイスメモの関連付けに関する情報を記述する。また、クリップとボイスメモの関連情報以外にも、クリップを構成する映像データおよび音声データに関する情報等、クリップに関する種々の情報をＸＭＬファイルに記述する。

（記録媒体のディレクトリ構成）
図１５に、記録媒体１５０に記録する各コンテンツのディレクトリ構成の例を示す。

Ｃｏｎｔｅｎｔｓディレクトリ８００は、記録媒体１５０のｒｏｏｔディレクトリの下に配置される。クリップを構成する全てのファイルは、Ｃｏｎｔｅｎｔｓディレクトリ８００の下に配置される。

Ｃｌｉｐディレクトリ８１０は、Ｃｏｎｔｅｎｔｓディレクトリ８００の下に配置される。クリップ情報の記述されたＸＭＬファイルはＣｌｉｐディレクトリ８１０の下に格納される。

Ｖｉｄｅｏディレクトリ８２０は、Ｃｏｎｔｅｎｔｓディレクトリ８００の下に配置される。映像データファイルはＶｉｄｅｏディレクトリ８２０の下に格納される。

Ａｕｄｉｏディレクトリ８３０は、Ｃｏｎｔｅｎｔｓディレクトリ８００の下に配置される。音声データファイルはＡｕｄｉｏディレクトリ８３０の下に格納される。

Ｖｏｉｃｅディレクトリ８５０は、Ｃｏｎｔｅｎｔｓディレクトリ８００の下に配置される。ボイスメモデータファイルはＶｏｉｃｅディレクトリ８５０の下に格納される。

クリップファイル８１１および８１２はそれぞれ、ボイスメモの付加情報等のあらゆるクリップ情報が記述されたＸＭＬファイルである。１つのクリップに対して１つのクリップファイルが作成される。

映像ファイル８２１および８２２はそれぞれ、クリップを構成する映像データファイルである。

音声ファイル８３１〜８３４はそれぞれ、クリップを構成する音声データファイルである。

ボイスメモファイル８５１〜８５３はそれぞれ、クリップに関連付けられるボイスメモデータファイルである。

なお、上記例では、本実施の形態を説明するために必要な構成要素のみを用いた。必要に応じて、例えば図示しないＩｃｏｎディレクトリや、図示しないＩｃｏｎファイル等をこの構成に組み入れてもよい。また、記録媒体１５０内のディレクトリ構成は別の構成でもよい。

（ＸＭＬによるクリップファイルの定義）
以下、ＸＭＬを用いたクリップファイルの具体的な記述方法について説明する。

図１６に、ＸＭＬ記述内に具体的に記述する項目を示す。図１６に記載されている項目は、本実施の形態を説明するために列挙した一例であり、図１６に記述していない項目が存在してもよく、また、図１６に示されている項目のいくつかが存在しなくてもよい。また、各項目においてはその属性が存在してもよい。

ＣｌｉｐＣｏｎｔｅｎｔタグ９００は、以下に示すクリップに関する情報を要素として持つ。

ＣｌｉｐＮａｍｅタグ９０１は、クリップの名前を要素として持つ。

Ｄｕｒａｔｉｏｎタグ９０２は、クリップのフレーム数を要素として持つ。

ＥｓｓｅｎｃｅＬｉｓｔタグ９１０は、映像、音声データ等のエッセンスのリストを要素として持つ。

Ｖｉｄｅｏタグ９２０は、以下に示す映像データの情報を要素として持つ。また、Ｖｉｄｅｏタグ９２０の属性として、例えば図示しないＶａｌｉｄＡｕｄｉｏＦｌａｇという属性を付加することにより、映像データの中に音声データが多重化されているかどうかを判断してもよい。

ＶｉｄｅｏＦｏｒｍａｔタグ９２１は、映像データのファイルフォーマットを要素として持つ。例えばＭＸＦファイルフォーマットなどが考えられるが、その他のフォーマットでもよい。

Ａｕｄｉｏタグ９４０は、以下に示す音声データの情報を要素として持つ。

ＡｕｄｉｏＦｏｒｍａｔタグ９４１は、音声データのファイルフォーマットを要素として持つ。例えばＭＸＦファイルフォーマットなどが考えられるが、その他のフォーマットでもよい。

ＳａｍｐｌｉｎｇＲａｔｅタグ９４２は、音声データのサンプリングレートを要素として持つ。例えば４８０００Ｈｚなどが考えられるが、サンプリングレートの値は何でもよい。

ＢｉｔｓＰｅｒＳａｍｐｌｅタグ９４３は、音声データのビットレートを要素として持つ。例えば１６ｂｐｓ、２４ｂｐｓなどが考えられるが、ビットレートの値は何でもよい。

ＣｌｉｐＭｅｔａｄａｔａタグ９６０は、ボイスメモなど、クリップに関連付けられる素材データ以外のメタデータの情報を要素として持つ。

ＭｅｍｏＬｉｓｔタグ９７０は、クリップに関連付けするメモのリストを要素として持つ。なお、メモが存在しなければ、ＭｅｍｏＬｉｓｔタグ９７０はなくてもよい。

Ｍｅｍｏタグ９８０は、以下に示すメモの各情報を要素として持つ。なお、Ｍｅｍｏタグ９８０には属性としてＭｅｍｏＩＤ９８５を付加する。ＭｅｍｏＩＤ９８５は、クリップ毎に独立な２桁の値であり、各クリップに最大１００個までメモを関連付けることができる。また、ＭｅｍｏＩＤ９８５は２桁の値でなくてもよく、クリップ毎に関連付けられるメモの最大数は１００でなくてもよい。

Ｏｆｆｓｅｔタグ９８１は、メモを関連付けするクリップのフレームオフセットを要素として持つ。Ｏｆｆｓｅｔタグ９８１は必要がなければなくてもよい。Ｏｆｆｓｅｔタグ９８１がなければ、そのメモはクリップ全体に関連付けられたものとすればよい。

Ｐｅｒｓｏｎタグ９８２は、メモを作成した人の名前等を要素として持つ。例えば、ボイスメモ記録時に、誰が記録したかをＰｅｒｓｏｎタグ９８２内に記述する。これにより、ボイスメモの記録者が明確になり、ボイスメモを記録した時の状況などが知りたければ、その記録者に問い合わせればよい。なお、特に必要がない場合はＰｅｒｓｏｎタグ９８２を付加しなくてもよい。

Ｖｏｉｃｅタグ９９０は、以下に示すボイスメモの各情報を要素として持つ。もしボイスメモが関連付けされていなければＶｏｉｃｅタグ９９０はなくてよい。

ＶｏｉｃｅＦｏｒｍａｔタグ９９１は、ボイスメモデータのファイルフォーマットを要素として持つ。例えばＷＡＶＥファイルフォーマットなどが考えられるが、その他のフォーマットでもよい。

ＶｏｉｃｅＳａｍｐｌｉｎｇＲａｔｅタグ９９２は、ボイスメモデータのサンプリングレートを要素として持つ。例えば１２０００Ｈｚ等が考えられるが、サンプリングレートの値は何でもよい。

ＶｏｉｃｅＢｉｔｓＰｅｒＳａｍｐｌｅタグ９９３は、ボイスメモデータのビットレートを要素として持つ。例えば１６ｂｐｓ等が考えられるが、ビットレートの値は何でもよい。

ＲｅｃＣｏｎｔｉｄｉｏｎタグ９９４は、ボイスメモを記録した時の状態を要素として持つ。例えば、ＰＬＡＹ状態、ＳＴＩＬＬ状態等が考えられるが、それ以外の状態があってもよく、また、それらの状態を細分化してもよい。なお、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４は必要がなければ設けなくてもよい。

なお、クリップファイルに記述する項目として上記のような例を上げたが、クリップとボイスメモを関連付けすることができれば、その構造、項目、要素、属性は問わない。

（ボイスメモ記録時の状態管理）
ボイスメモ記録時の状態を管理する方法について説明する。

例えば、本編データの記録中または本編データの再生中にボイスメモを記録する場合には、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４を“ＰＬＡＹ”にする。また、本編データの記録一時停止中、記録停止中、再生停止中および再生一時停止中にボイスメモを記録する場合、すなわち、本編データと同期を取らずにボイスメモを記録する場合に、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４を“ＳＴＩＬＬ”にする。

ボイスメモを再生する場合は、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４を参照し、“ＰＬＡＹ”ならば、そのボイスメモに関連付けられた位置から本編の映像データを同時に再生する。一方、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４が“ＳＴＩＬＬ”ならば、そのボイスメモに関連付けられた位置の本編の映像データの静止画を出力し続けながらボイスメモを再生する。ここでは、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値を“ＰＬＡＹ”および“ＳＴＩＬＬ”としたが、それ以外の状態を別途定義してもよく、例えば、サーチ再生中にボイスメモを記録した場合は、そのときのサーチ再生速度を示す値をＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４に記述してもよい。その場合は、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４を参照してサーチ再生速度を取得し、本編データを、その取得した速度でサーチ再生しながらボイスメモを再生する、といったことも可能となる。

なお、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値に関わらず、常に本編の映像データの静止を出力し続けながらボイスメモを再生してもよい。また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４とボイスメモの再生方法との関係はユーザが自由に決定してもよい。また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４は記録しなくてもよく、その場合はボイスメモの再生方法を統一化するようにすればよい。また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値には関係なく、ユーザが設定した再生方法でボイスメモを再生してもよい。

このように、ボイスメモを記録した時の状態を管理することにより、ボイスメモの再生手段を増やすことができる。

なお、ボイスメモを再生する場合、関連付けられた位置から本編の映像データのみを同時に再生する例を挙げたが、同時に本編音声データを再生してもよい。

（ボイスメモデータの非同期記録、非同期再生）
一般的に、素材の映像、音声データを再生する時は、映像と音声は同期を取る必要がある。この時、映像と音声が１フレームのずれも許されないのが一般的である。映像データと音声データが多重化されておらず、映像データファイル、音声データファイル（複数チャンネルの場合も含む）がそれぞれ別々のファイルである場合、これら全てのファイルの同期を取りながら再生する制御は複雑なものとなる。また、サンプリングレートの異なる２つ以上の音声データファイルを再生する場合、これらの同期を取りながら再生する制御はより複雑なものとなる。

一方、映像と音声で同期を取りながら再生する必要がない場合、すなわち、数フレームのずれならば許される場合は、映像データファイル、音声データファイルが別々のファイルであっても、それぞれ独立して再生すればよく、その制御はより簡易なものとなる。

前述したように、ボイスメモデータは素材データが何であるかを示すためのメモデータなので、素材データと厳密な同期を取って再生する必要はないと考えられる。よって、ボイスメモを本編データと同期を取ることなく再生すると、制御がより簡単なものとなる。

また、ボイスメモは本編データの時間軸の特定の一点に関連付けられるものであり、ボイスメモを本編データと同期を取ることなく記録することにより、関連付けるクリップのＤｕｒａｔｉｏｎよりも長時間ボイスメモを記録することができる。例えば、数秒のクリップに対して、数十秒のボイスメモを記録することもできる。また、本編データの、停止中、再生中、特殊再生中等（複数倍サーチ再生、逆再生等）、様々な状態でボイスメモを記録することができる。

例えば、本編データの停止中、一時停止中等にボイスメモを記録する場合は、ボイスメモの管理情報として、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値を“ＳＴＩＬＬ”にしておけばよい（この時のボイスメモの再生方法については後述する。）。この時、素材の記録前にあらかじめボイスメモを記録しておくこともできる。例えば、今から撮影するシーンに対して、そのシーンの説明等をボイスメモとしてあらかじめ記録しておき、その後に対象となるシーンを撮影し、そのクリップにあらかじめ記録しておいたボイスメモを関連付けることもできる。

また、本編データの記録中および再生中にボイスメモを記録する場合は、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値を“ＰＬＡＹ”にしておけばよい。（この時のボイスメモの再生方法については後述する。）この時、記録するボイスメモは本編データと必ずしも同期を取る必要はない。よって、実施の形態２で示したように、本編データが複数の記録媒体にまたがって記録する、または記録されている場合でも、ボイスメモは複数の記録媒体にまたぐことなく記録することができる。また、特に本編データ再生中にボイスメモを記録する場合には、ボイスメモ記録中に、本編データの終端が過ぎてもボイスメモの記録を続けることができる。

また、本編データの特殊再生中等（複数倍サーチ再生、逆再生等）にボイスメモを記録する場合は、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値を、それぞれの状態を示すような値にしておけばよい。

上記のように記録されたボイスメモを再生する時は、ボイスメモ記録時に付加しておいたＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４を参照することにより、その再生方法を選択するようにすればよい。

ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値が“ＳＴＩＬＬ”の時、すなわち、ボイスメモを記録した時の本編の状態が停止または一時停止だった時は、ボイスメモが関連付けられた位置の本編の映像データの静止画を出力し続けながらボイスメモを再生する。

また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４の値が“ＰＬＡＹ”の時、すなわち、ボイスメモを記録した時の本編の状態が記録中または再生中だった時は、ボイスメモが関連付けられた位置の本編の映像データを同時に再生する。この時、前述したように、本編データとボイスメモでは必ずしも同期をとる必要がないため、より簡単な制御で再生することができる。ここで、長時間にわたるボイスメモ等で、早くボイスメモを聞きたい場合は、本編を等倍再生中に、ボイスメモのみを１．５ないし２倍速で再生することもできる。逆に、ボイスメモで残された音声メッセージが速すぎて聞き取れない場合等は、本編を等倍再生中に、ボイスメモのみを０．５倍速で再生してもよい。

また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４が、サーチ再生等を示す値だった時、例えばサーチ再生４倍速を示す値だった時は、ボイスメモが関連付けられた位置から本編データを４倍速でサーチ再生しながらボイスメモを再生することができる。また、ＲｅｃＣｏｎｄｉｔｉｏｎタグ９９４が逆再生を示す値だった時は、ボイスメモが関連付けられた位置から本編データを逆再生しながらボイスメモを再生することもできる。

（ＸＭＬ記述の具体例）
図１７は、図１５におけるディレクトリ構造の一部に対するＸＭＬ記述の例を示した図である。すなわち、図１５に示す例には、クリップ名が“０００１ＡＢ”であるクリップファイル＃１（８１１）と、クリップ名が“０００１ＣＤ”であるクリップファイル＃２（８１２）とが含まれているが、図１７は、そのうちのクリップファイル＃１（８１１）に関するＸＭＬ記述を示している。ただし、図１７はクリップファイル＃１（８１１）に記述されている内容の一部を示し、記載されている項目は、本実施の形態を説明するために必要な項目のみである。図１７に記述していない項目が存在してもよく、また、図１７に示されている項目のいくつかが存在しなくてもよい。また、各項目においてはその属性が存在してもよい。

図１７のＸＭＬ記述には以下の内容が定義されている。

クリップファイル＃１（８１１）のクリップ名（ClipName）は”０００１ＡＢ”である。

クリップファイル＃１（８１１）の長さ（Duration）は１０００フレームである。本編の映像データおよび本編の音声データのファイルフォーマット(Video Format, AudioFormat)としてＭＸＦを用い、ボイスメモのファイルフォーマット(VoiceFormat)としてＷＡＶＥを用いている。また、本編の音声データのサンプリングレート(SamplingRate)は４８ｋＨｚとし、ボイスメモデータのサンプリングレート(VoiceSamplingRate)は１２ｋＨｚである。また、音声データおよびボイスメモのビットレート(BitsPerSample, VoiceBitsPerSample)は共に１６ｂｐｓである。

クリップファイル＃１（８１１）は、映像ファイル＃１（８２１）、音声ファイル＃１（８３１）、音声ファイル＃２（８３２）、ボイスメモファイル＃１（８５１）、および、ボイスメモファイル＃２（８５２）から構成されている。

ボイスメモファイル＃１（８５１）は“ＵｓｅｒＮａｍｅ１”をユーザ名(Person)に持つユーザにより作成されている。そのボイスメモは、素材の記録一時停止中、記録停止中、再生一時停止中、再生停止中のいずれかの状態（RecCondition）で記録され、このクリップの０フレーム目(Offset)に関連付けられている。

また、ボイスメモファイル＃２（８５２）は“ＵｓｅｒＮａｍｅ２” をユーザ名(Person)に持つユーザにより作成され、そのボイスメモは、素材の記録中または再生中（RecCondition）に記録され、このクリップの１００フレーム目(Offset)に関連付けられている。

各データファイルは以下のように名付けられる。

クリップファイル＃１（８１１）のファイル名は、クリップ名“０００１ＡＢ”に拡張子“．ｘｍｌ”を付加したものであり、“０００１ＡＢ．ｘｍｌ”となる。

また、映像ファイル＃１（８２１）のファイル名は、クリップ名“０００１ＡＢ”に、拡張子“．ｍｘｆ”を付加したものであり、“０００１ＡＢ．ｍｘｆ”となる。

音声ファイル＃１（８３１）および音声ファイル＃２（８３２）のファイル名は、クリップ名“０００１ＡＢ”に２桁のチャンネル番号“００”および“０１”を付加したものに、さらに拡張子“．ｍｘｆ”を付加したものであり、それぞれ“０００１ＡＢ００．ｍｘｆ”および“０００１ＡＢ０１．ｍｘｆ”となる。なお、音声データのチャンネル番号は、ＥｓｓｅｎｃｅＬｉｓｔタグ９１０に登録されているＡｕｄｉｏタグ９４０の要素のリスト順に０チャンネル、１チャンネル、２チャンネル、・・・のように割り当てられる。音声データのチャンネル番号は、図９で示すＡｕｄｉｏタグ９４０の属性としてチャンネル番号を付加し、その値から決定してもよく、また、別のタグからチャンネル情報を取得してもよく、その手段は問わない。

ボイスメモファイル＃１（８５１）およびボイスメモファイル＃２（８５２）のファイル名は、クリップ名“０００１ＡＢ”にそれぞれのＭｅｍｏＩＤ９８５の２桁の値“００”および“０１”を付加したものに、さらに拡張子“．ｗａｖ”を付加したものであり、それぞれ、“０００１ＡＢ００．ｗａｖ”および“０００１ＡＢ０１．ｗａｖ”となる。

上述した各ファイルを図１６のようなディレクトリ構成に基づいて格納しておく。この構成により、クリップファイル＃１（８１１）を参照するだけで、クリップを構成する素材データやボイスメモデータ等の関連情報を知ることができる。

なお、各ファイルのファイル名の決定方法は、上記の例以外の方法でもよい。

本実施の形態では、クリップと映像、音声データおよびボイスメモデータを関連付けする方法やその効果を説明するために必要な項目についてのみ述べたが、各素材データの詳細情報、クリップの代表画像であるサムネイルファイルに関する情報、撮影した場所の情報、撮影者のユーザ情報、撮影機器の情報等、様々な情報をクリップファイルに記述しておいてもよい。そうすることにより、クリップファイルを参照するだけでクリップのあらゆる情報を知ることができる。

本実施の形態では、クリップファイルの記述言語としてＸＭＬを用いた。ＸＭＬはＷ３Ｃ(World Wide Web Consortium）により規格化（勧告）されている言語であるので、例えば、ＸＭＬを扱うことのできる変換ソフト等を用いれば管理情報を他のデータベースに移行する、等の操作も可能となり、より汎用性が増すと考えられる。また、新規のタグを定義することにより管理情報も容易に追加することもできるため、拡張性が高いと考えられる。また、ＸＭＬはテキストファイルであるため、汎用の情報機器を用いてユーザはクリップファイルを直接かつ容易に参照でき、クリップ情報をおおよそ把握することができる。また、ユーザは汎用の情報機器を用いて、直接クリップファイルを編集でき、簡易編集も可能となる。

本発明は、メモリ記録カメラレコーダ等で撮影録画した取材済みメディアを元にノンリニア編集等の編集作業を効率的に行うための映像音声記録再生装置に有用である。

本発明は、特定の実施形態について説明されてきたが、当業者にとっては他の多くの変形例、修正、他の利用が明らかである。それゆえ、本発明は、ここでの特定の開示に限定されず、添付の請求の範囲によってのみ限定され得る。なお、本出願は日本国特許出願、特願２００３−３５６０７９号（２００３年１０月１６日提出に関連し、それらの内容は参照することにより本文中に組み入れられる。

本発明の実施の形態１における映像音声記録再生装置の構成を示した図である。ボイスメモの、クリップ内の特定位置への関連付けを説明するための図である。ボイスメモファイルとクリップの関係を示す管理情報の例（ボイスメモ管理テーブル）を示した図である。クリップとそのクリップを構成する素材ファイル（映像、音声ファイル）の関係を示す管理情報の例（クリップ管理テーブル）を示した図である。ボイスメモ再生中に、ボイスメモデータに関連付けられた本編のデータ（クリップ）を再生する時の処理のフローチャートである。クリップ再生中に、クリップに関連付けられているボイスメモを再生する時の処理のフローチャートである。本発明の実施の形態２における、複数の記録媒体を有する映像音声記録再生装置の構成を示した図である。複数の記録媒体にまたがって記録されたショット内の特定位置への、ボイスメモの関連付けを説明する図である。記録再生装置における操作部の例を示した図である。ボイスメモの記録動作のフローチャートである。クリップ一覧画面の表示例を示す図である。ボイスメモクリップ一覧画面の表示例を示す図である。ボイスメモの再生動作のフローチャートである。ボイスメモ再生中の画面の表示例を示す図である。記録媒体内のコンテンツのディレクトリ構成を示した図である。クリップ情報を管理するタグを説明した図である。クリップファイルのＸＭＬ記述の例を示した図である。

Claims

映像及び音声の主情報を入力する映像音声入力部と、
前記主情報に付加される音声付加情報を入力する音声付加情報入力部と、
前記主情報および前記音声付加情報を出力する映像音声出力部と、
前記主情報および前記音声付加情報を、記録媒体へ記録または記録媒体から再生する記録再生部と、
前記映像音声入力部、前記音声付加情報入力部、前記映像音声出力部、前記記録再生部の動作を制御する制御部とを有し、
前記制御部は、前記音声付加情報を前記主情報の時間軸と非同期に、前記主情報における特定のフレーム位置に関連付けして前記記録媒体に記録するように制御し、
前記主情報の音声データは MXF ファイルフォーマットで記録され、前記音声付加情報は、前記主情報の音声データとは異なるファイルフォーマットである WAVE ファイルフォーマットで記録される、
映像音声記録再生装置。
前記主情報における特定のフレーム位置を、前記主情報の先頭からのフレーム数または前記主情報のタイムコードで指定し、前記音声付加情報を、前記主情報の先頭からのフレーム数または前記主情報のタイムコードと関連付けして前記記録媒体に記録する、請求項１記載の映像音声記録再生装置。
前記記録媒体が単一の媒体で構成される場合に、該単一の記録媒体に連続に記録された主情報であるクリップ内の特定のフレーム位置に関連付けされた前記音声付加情報は前記クリップ全体に関する情報を含む、請求項１記載の映像音声記録再生装置。
前記特定のフレームはクリップ内の先頭フレームである、請求項３記載の映像音声記録再生装置。
前記記録媒体全体に対して音声付加情報を付加するために、ダミーの主情報を作成し、該作成したダミーの主情報に前記音声付加情報を関連付け、前記ダミーの主情報と前記音声付加情報を前記記録媒体に記録する、請求項１記載の映像音声記録再生装置。
前記記録媒体が複数の媒体で構成され、一連の動作で撮影された前記主情報が複数媒体に亘って分割されて記録されている場合、分割された前記主情報毎に前記音声付加情報を関連付けし、前記主情報と、前記主情報と関連付けられた前記音声付加情報とを同一の媒体に記録する、請求項１記載の映像音声記録再生装置。
前記主情報および前記音声付加情報の記録動作において、前記主情報の記録を終了したときに前記音声付加情報の記録を終了する、請求項１記載の映像音声記録再生装置。
前記音声付加情報を、前記主情報の音声データとは異なるサンプリングレートまたはビットレートで記録する、請求項１記載の映像音声記録再生装置。
前記音声付加情報に関する管理情報を有し、該管理情報は前記音声付加情報の記録開始時の、前記主情報の状態を示す情報を含む、請求項１記載の映像音声記録再生装置。
前記音声情報を付加した使用者を特定する情報を管理ファイル内に記録する、請求項１記載の映像音声記録再生装置。
前記音声付加情報の管理情報をＸＭＬファイルで記録する、請求項１記載の映像音声記録再生装置。
映像及び音声の主情報を入力し、
前記主情報に付加される音声付加情報を入力し、
前記音声付加情報を前記主情報の時間軸と非同期に、前記主情報における特定のフレーム位置に関連付けして記録媒体に記録し、
前記主情報の音声データは MXF ファイルフォーマットで記録され、前記音声付加情報は、前記主情報の音声データとは異なるファイルフォーマットである WAVE ファイルフォーマットで記録される、映像音声記録方法。
前記主情報における特定のフレーム位置を、前記主情報の先頭からのフレーム数または前記主情報のタイムコードで指定し、前記音声付加情報を、前記主情報の先頭からのフレーム数または前記主情報のタイムコードと関連付けして前記記録媒体に記録する、請求項１２記載の映像音声記録方法。
前記記録媒体が単一の媒体で構成される場合に、該単一の記録媒体に連続に記録された主情報であるクリップ内の特定のフレーム位置に関連付けされた前記音声付加情報は前記クリップ全体に関する情報を含む、請求項１２記載の映像音声記録方法。
前記特定のフレームはクリップ内の先頭フレームである、請求項１４記載の映像音声記録方法。
前記記録媒体全体に対して音声付加情報を付加するために、ダミーの主情報を作成し、該作成したダミーの主情報に前記音声付加情報を関連付け、前記ダミーの主情報と前記音声付加情報を前記記録媒体に記録する、請求項１２記載の映像音声記録方法。
前記記録媒体が複数の媒体で構成され、一連の動作で撮影された前記主情報が複数媒体に亘って分割されて記録されている場合、分割された前記主情報毎に前記音声付加情報を関連付けし、前記主情報と、前記主情報と関連付けられた前記音声付加情報とを同一の媒体に記録する、請求項１２記載の映像音声記録方法。
前記主情報および前記音声付加情報の記録動作において、前記主情報の記録を終了したときに前記音声付加情報の記録を終了する、請求項１２記載の映像音声記録方法。
前記音声付加情報を、前記主情報の音声データとは異なるサンプリングレートまたはビットレートで記録する、請求項１２記載の映像音声記録方法。
請求項１２記載の映像音声記録方法により主情報と音声付加情報とが記録された記録媒体の再生方法であって、
前記主情報のサムネイル画像を表示し、
同一の主情報に一つ以上の音声付加情報が関連付けされている場合、前記一つ以上の音声付加情報の各々に対して、前記各音声付加情報が関連付けられたフレーム位置にある主情報のサムネイル画像のそれぞれを選択可能に表示する、映像音声再生方法。
前記音声付加情報を再生する時、該音声付加情報に関連付けされた主情報の静止画を表示し続ける、請求項２０記載の映像音声再生方法。
前記音声付加情報を再生中に、再生中の音声付加情報と関連付けられている前記主情報の特定のフレーム位置から前記主情報を再生可能とする、請求項２０記載の映像音声再生方法。
請求項１２記載の映像音声記録方法により主情報と音声付加情報とが記録された記録媒体の再生方法であって、
前記音声付加情報を前記主情報の時間軸と同期を取らずに再生する、映像音声再生方法。