JP2007082088A

JP2007082088A - コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム

Info

Publication number: JP2007082088A
Application number: JP2005270092A
Authority: JP
Inventors: Yoshihiro Morioka; 芳宏森岡; Kenji Matsuura; 賢司松浦; Hideaki Mita; 英明三田; Masaaki Kobayashi; 正明小林
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-09-16
Filing date: 2005-09-16
Publication date: 2007-03-29

Abstract

【課題】ムービー等で撮影したコンテンツの管理、視聴時の映像・音声高速呼び出し（頭だし）、編集などの作業能率が従来悪かった。
【解決手段】手動又は自動でコンテンツのシーンを登録し、または、コンテンツの音声や映像を認識して文字データに変換し、文字データを映像フレームを構成するデータ部に挿入するか、または、文字データをタイムコードと共に文字データの専用ファイルに記録することにより、シーンをマーキングするメタデータまたは文字データを、前記コンテンツと関連するメタデータとして媒体に記録する１０１、１０５。
【選択図】図１

Description

本発明はカメラ撮影時に取得できるコンテンツ（映像、音声、データ）からメタデータを生成し、情報記録媒体にコンテンツとメタデータを記録、再生する装置に関するものであり、重要シーンの検索と早見を実現する再生装置、編集システムに関して好適なものである。

従来、カメラ撮影されたコンテンツの編集作業はマスターとなる媒体（テープ、ディスクなど）上に記録されているオリジナルコンテンツ（映像、音声、データ）をコンテンツ制作者の意図に応じて選択、合成する作業であり、非常に多くの手間と時間を要する作業である。また編集作業に要する作業量及び作業時間は放送用や業務用、または家庭用などコンテンツの分野や内容に応じて大きく異なる。

放送の分野におけるニュースやスポーツ番組の編集において、素材テープから数秒単位の映像コンテンツを抽出するのに多くの労力が必要である上、抽出したコンテンツが最もふさわしいシーンであるかどうかの信憑性に課題が残る。さらに、スポーツや運動会で特定の人物を追随して撮影する場合、撮影対象の動きが早かったり撮影者が撮影作業に集中できなくなると撮影対象が撮影ファインダーからフレームアウトしてしまうという課題がある。また、撮影場面（シーン）に関連したキーワードをタグとして自動で付加する方法や、簡単な動作でタグを付加する方法も確立されていないため、撮影コンテンツから求める場面にすぐにアクセスする、または、瞬時に頭出しして視聴することが困難である。

視聴だけでなく、編集までの作業となると、撮影コンテンツの全貌を把握するのに、多くの作業を要し、結果として編集作業がコンテンツ制作に費用をかけることのできる放送など一部の分野に制限されてしまっている。

従来、メタデータ入力方法は特許文献１に記載されたものが知られている。収録される映像番組の各場面に関する番組付加データするため、入力フォームから対応場面を特定する情報を入力するものである。

また従来の編集支援システムは、特許文献２に記載されたものが知られている。これは、記録に関する各種の情報を示すメタデータであり、シリアル番号、カセット番号、コメントであるメタデータを用いて、記録した映像に関する文字情報を得、これにより、文字列を検索して、所望のシーンの映像を検索することにより編集作業を効率化するシステムである。

そこで、メタデータ入力方法と編集システムとして、特許文献３に記載されたものが知られている。まず、収録時に収録した画像に含まれる文字を検出し、検出された文字に文字認識を行い文字データを生成しメタデータとし、収録された画像データに付随させる。そして、収録時に自動的に生成されたメタデータを編集作業で活用することで、メタデータの入力に必要な労力と時間を必要としない。

また、カチンコやメモに書かれている文字データでも認識を行えるため、編集に直接関連している情報をメタデータとして与えることが容易なので、メタデータを編集作業にそのまま活用できるという特徴を持つ。
特開２００２−１５２６９４号公報特開２００１−２９２４０７号公報特開２００５−３９５３４号公報

しかしながら上記した従来の方式ではメタデータを収録後に映像を見ながら、入力フォームにより人間の手で入力しなければならない。そのため、入力のための労力、時間を要する、と言う課題を有している。

また、画像に付加されているメタデータがシリアル番号、カセット番号等から文字列信号を生成した場合、直接、編集に必要な情報をピンポイントで検出することが難しいと言う課題も有している。また、文字以外の情報、音声や人物や物体から直接メタデータを生成することができないという課題を有する。

またメタデータにはリアルタイムで生成するもの（リアルタイムメタデータ）と、リアルタイムで生成できないもの（非リアルタイムメタデータ）があり、リアルタイムメタデータと非リアルタイムメタデータ各々をストリームやファイルへどの様に関連付けるかなど取り扱いが複雑となり、これらを活用した高速な頭だし、高速な編集、高速なプレイリスト生成など効率的な処理方法が確立されていないという課題がある。

収録時に収録したコンテンツ（映像、音声、データ）の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連づける。収録時に生成したメタデータを頭だしや編集作業などで活用することにより、大幅な作業能率の向上を図ることができる。

リアルタイムメタデータをAVストリームに挿入し、非リアルタイムメタデータをメタデータ専用ファイルに挿入して、各々を記録することにより、頭だし、編集、プレイリスト生成を効率化する。特に、撮影時に音声認識または画像認識を行う場合、該映像フレームにマーキングを挿入すると共に、該映像フレームのタイムコードを非リアルタイムの音声認識および画像認識で生成したメタデータに関連付け、非リアルタイムデータとして登録する。

また、撮影時にリアルタイムに生成するメタデータをＡＶストリームに挿入するだけでなく、リアルタイムメタデータ群より選択したメタデータをタイムコードと共に非リアルタイムデータファイルにも記録する。

さらに、メタデータを用いてプレイリスト編集は映像、音声、およびメタデータへのポインタを用いて実行することにより、編集によるデータ量の増加を抑え、かつ効率の高い検索システムを実現できる。

以上の発明により、ムービー等で撮影した映像、音声より該映像、音声のメタデータを活用して、コンテンツやデータの管理、視聴時の映像・音声高速呼び出し（頭だし）、編集などの作業能率を従来よりも大幅に向上することができる。

また、メタデータは、該メタデータと関連付けた映像・音声へのポインタとペアで専用ファイルにて管理するため、従来よりも検索効率を高くすることができる。

たとえば、収録時に収録したコンテンツ（映像、音声、データ）の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連付ける。収録時に自動生成したメタデータや、簡単な動作で生成したメタデータを、頭出しや編集作業で活用し、大幅な作業能率の向上を図ることができる。

さらに、画像認識手段で人を認識した場合、その人の着用している衣類やまた持っている鞄などを画像データベースに登録し、その人物と関連付けておくことより、視聴時の問い合わせに対して検索を簡単に実行できる。

また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケを構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記することにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを容易に作成できる。よって、コンテンツの再利用が促進される。

また、ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えてプレイリストを生成することにより、ダイジェスト再生などが可能となる。

また、プレイリスト出力手段を持つことにより、プレイリストを外部に出力し、外部機器からプレイリストに従ったＡＶコンテンツだけを出力することができる。よて、リモートからのプレイリストによるダイジェスト再生が可能となる。

さらに、メタデータ時刻修正手段を追加することによりプレイリストによる再生で、プレイリストとＡＶコンテンツ間のフレームまたはフィールド誤差取り除くことができる。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となり、ＡＶ信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。

（実施の形態１）
図１は本発明の実施の形態１の説明図であり、カメラにおいて記録媒体（またはバッファメモリ）上に映像データと音声データとメタデータを作成するシステムのモデルを示している。１０１はカメラ、１０２はカメラのレンズ部、１０３はカメラのマイク、１０４はカメラの撮影対象（風景や人やペットなどの動物、車、建造物などの物）である。また、１０５はカメラで撮影したデータであり、映像データ１０６、音声データ１０７、メタデータ１０８により構成される。１０９はカメラで撮影されたデータシーケンスであり、時間軸上に映像、音声、メタデータが配置されている。メタデータはテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしても良い。また、１０１０は、記録・ポーズ・停止などのボタンであり、１０１１は音声の有無識別、または、音声と音楽の識別、または、人物の有無の識別、または、背景の歓声の大きさまたはトーンの変化、または、背景の変化、のいずれかに関する情報を用いてシーンを自動マーキングしてメタデータとして出力するシーン登録手段である。

ここでデータシーケンス１０９は、抽出されたシーン＃１からシーン＃５までを含んでいる。１１１は編集により、シーン＃１からシーン＃５までをつなぎ合わせたデータシーケンスである。ユーザはリモコン１１０によるリモート制御により、編集されたデータシーケンスの順番で各シーンをTV112に一覧表示することができる。

１１３はメタデータ入力用ボタンであり、３つのボタンにより構成されている。カメラで撮影中に重要な場面でメタデータ入力用ボタンを押すことにより、その重要な撮影場面（シーン）にマークをつけることができる（マーキング機能）。この重要シーンを指すマークもメタデータであり、このメタデータを利用することにより、撮影後にマーク検索によりマークを付けたシーン（シーンの先頭または代表となるフレームの映像、またはそれらのサムネイル映像）を素早く呼び出すことができる。３つのボタンは、たとえば、１つ目のボタンは重要シーンの登録に、２つ目のボタンはボタン操作を有効にしたり文字入力モードに切替えるモード切替えに、３つ目のボタンは登録のキャンセルに、それぞれ使用する。また、１つ目のボタンを押している期間を重要シーンとして登録するモードに切替えることもできる。さらに、１つ目のボタンを押した時点の前後５秒、あるいは前５秒、後１０秒の合計１５秒を重要シーンとして登録するモードに切替えることもできる。ボタンが３つあれば、押すボタンの種類、タイミング、押す長さの組み合わせにより、多くの機能に利用することができる。また、1つ目と2つ目のボタンを同時に押すと音声認識が動作する。

ここで、＃１から＃５までのシーンの時間長は任意である。ユーザーはカメラ撮影した撮影素材であるデータシーケンスから、各シーンの開始位置（時間）と終了位置（時間）、または長さを選択して、各シーンを並べ替えることができる。各シーンをTVモニターなどに表示する場合、そのシーンの先頭または先頭以降最後尾のフレーム（またはフィールド）映像をそのシーンを代表する映像として表わすことができる。

なお、マーキングするために、上記のように専用の３つのボタンを操作してシーンを登録する手段を利用する方法の他に、シーンを自動または手動でマーキングしてメタデータとして出力するシーン登録方法として、ムービーの記録・ポーズ・停止などのボタン１０１０操作を利用する方法や、音声の有無識別、音声と音楽の識別、人物の有無の識別、歓声の大きさ、種類の変化、景色の変化などを認識してシーンを登録する手段１０１１を用いることができる。

ここで、本実施の形態で使用する映像圧縮方式であるＡＶＣ方式、および音声圧縮方式であるＡＡＣ方式について説明する。図２は、図１のカメラ１０１が内部に持つＡＶ信号圧縮記録制御手段における映像と音声の圧縮エンジンとその周辺処理手段の構成をより詳細に説明する図である。図２における代表的な構成要素として、映像符号化２０１、ＶＣＬ（ＶｉｄｅｏＣｏｄｉｎｇＬａｙｅｒ）−ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットバッファ２０２、ＡＡＣ方式による音声符号化部２０３、ＰＳ（ＰａｒａｍｅｔｅｒＳｅｔ）バッファ２０４、ＶＵＩ（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）バッファ（２０５）、ＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）バッファ２０６、ｎｏｎ−ＶＣＬ−ＮＡＬユニットバッファ２０７、ＭＰＥＧ−ＴＳマッピング処理手段２０８などにより構成される。図２に示すように入力された映像信号を映像符号化手段２０２において、ＶＣＬＮＡＬユニット形式のデータに変換してＶＣＬＮＡＬｕｎｉｔバッファ２０２で一時保持する。また、音声信号、メタデータ、外部入力ＰＳ（ＰａｒａｍｅｔｅｒＳｅｔ）データ、外部入力ＶＵＩ（ＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）データ、外部入力ＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）データをＮｏｎＶＣＬＮＡＬユニット形式のデータに変換して、ＮｏｎＶＣＬＮＡＬユニットバッファ２０７で一時保持する。

ＶＣＬＮＡＬｕｎｉｔバッファ２０２の出力であるＶＣＬＮＡＬユニット形式のデータと、ＮｏｎＶＣＬＮＡＬユニットバッファ２０７の出力であるＮｏｎＶＣＬＮＡＬユニット形式のデータをＭＰＥＧ−ＰＥＳパケット生成手段２０８に入力し、ＭＰＥＧ−ＰＥＳパケットを生成する。さらに、ＭＰＥＧ−ＰＥＳパケット生成手段２０８の出力であるＭＰＥＧ−ＰＥＳパケットはＭＰＥＧ−ＴＳ生成手段２０９に入力され、ＭＰＥＧ−ＴＳ（ＭＰＥＧＴｒａｎｓｐｏｒｔＰａｃｋｅｔ）を生成する。

ＭＰＥＧ−ＴＳ生成手段２０９はＭＰＥＧ−ＴＳ（１８８バイト長）を出力し、ＡＴＳパケット生成手段２１０において各ＭＰＥＧ−ＴＳパケットのヘッダーとしてタイムスタンプを含む４バイトのヘッダーを付加して、１９２バイトのＡＴＳ（ＡｒｒｉｖａｌＴｉｍｅＳｔａｍｐ）パケットを生成して出力する。このタイムスタンプは各MPEG-TSパケットがＡＴＳパケット生成手段２１０に到着した時刻を示す。なお、タイムスタンプのクロックは２７ＭＨｚである。なお、４バイト全てが他無スタンプでもよいし、４バイトの内、３０ビットをタイムスタンプとし、残りの２ビットはコンテンツ保護のためのフラグなどに使用することもできる。

また、ＡＴＳパケット生成手段２１０は、ストリームが包含する各ＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ）先頭ピクチャーのＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）、および各ＧＯＰの先頭ピクチャーにおける先頭ＡＴＳの連番をペアで、ＥＰ−ＭＡＰとして出力する。なお、ＰＴＳやＤＴＳ（ＤｅｃｏｄｅＴｉｍｅＳｔａｍｐ）はＰＥＳパケットのヘッダーに含まれるので抽出は容易である。また、各ＧＯＰの先頭ピクチャーにおける先頭ＡＴＳの連番とは、ストリーム先頭のＡＴＳの連番を１とし、ストリーム先頭からのＡＴＳの個数を順次数えた番号である。各ＧＯＰの先頭ピクチャーのＰＴＳとＡＴＳ連番のペアであるＥＰ−ＭＡＰとストリーム編集、プレイリストの関係は後ほど述べる。

Ｈ．２６４／ＡＶＣ方式についての解説は、たとえば、「Ｈ．２６４／ＡＶＣ教科書」、大久保榮監修、株式会社インプレス発行などがある。また、ＭＰＥＧ−ＴＳ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ、ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）信号はＩＥＣ６１８８３−４で規定されている。ＭＰＥＧ−ＴＳはＭＰＥＧトランスポートパケット（ＴＳパケットと略す）が複数個集まったものである。ＴＳパケットは１８８ｂｙｔｅの固定長パケットで、その長さはＡＴＭのセル長（５３バイト中、ＡＴＭペイロードは４７バイト）との整合性、およびリードソロモン符号などの誤り訂正符号化を行なう場合の適用性を考慮して決定されている。

ＴＳパケットは４ｂｙｔｅ固定長のパケットヘッダと可変長のアダプテーションフィールド（ａｄａｐｔａｔｉｏｎｆｉｅｌｄ）およびペイロード（ｐａｙｌｏａｄ）で構成される。パケットヘッダにはＰＩＤ（パケット識別子）や各種フラグが定義されている。このＰＩＤによりＴＳパケットの種類を識別する。ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄとｐａｙｌｏａｄは、片方のみが存在する場合と両方が存在する場合とがあり、その有無はパケットヘッダ内のフラグ（ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄ＿ｃｏｎｔｒｏｌ）により識別できる。ａｄａｐｔａｔｉｏｎ＿ｆｉｅｌｄは、ＰＣＲ（Ｐｒｏｇｒａｍ＿Ｃｌｏｃｋ＿Ｒｅｆｅｒｅｎｃｅ）等の情報伝送、および、ＴＳパケットを１８８ｂｙｔｅ固定長にするためのＴＳパケット内でのスタッフィング機能を持つ。また、ＭＰＥＧ−２の場合、ＰＣＲは２７ＭＨｚのタイムスタンプで、符号化時の基準時間を復号器のＳＴＣ（ＳｙｓｔｅｍＴｉｍｅＣｌｏｃｋ）で再現するためにＰＣＲ値が参照される。各ＴＳパケットに付加するタイムスタンプのクロックは、たとえば、ＭＰＥＧのシステムクロック周波数に等しく、パケット送信装置はさらに、ＴＳパケットを受信し、受信したＴＳパケットに付加されたタイムスタンプより、ＭＰＥＧ−ＴＳのネットワーク伝送によりＰｒｏｇｒａｍＣｌｏｃｋＲｅｆｅｒｅｎｃｅ（ＰＣＲ）に付加された伝送ジッターを除去して、ＭＰＥＧシステムクロックの再生を行うクロック再生手段を備える。

ＭＰＥＧ−２のＴＳでは復号器のＳＴＣはＰＣＲによるＰＬＬ同期機能を持つ。このＰＬＬ同期の動作を安定させるためにＰＣＲの送信間隔は、ＭＰＥＧ規格で１００ｍｓｅｃ以内と決められている。映像や音声などの個別ストリームが収められたＭＰＥＧ−ＰＥＳパケットは同じＰＩＤ番号を持つ複数のＴＳパケットのペイロードに分割して伝送する。ここで、ＰＥＳパケットの先頭は、ＴＳパケットの先頭から開始するように構成される。
トランスポートストリームは複数のプログラムを混合して伝送することができるため、ストリームに含まれているプログラムとそのプログラムを構成している映像や音声ストリームなどのプログラムの要素との関係を表すテーブル情報が用いられる。このテーブル情報はＰＳＩ（ＰｒｏｇｒａｍＳｐｅｃｉｆｉｃＩｎｆｏｒｍａｔｉｏｎ）と呼ばれ、ＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）、ＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）などのテーブルを用いる。ＰＡＴ、ＰＭＴなどのＰＳＩはセクションと呼ばれる単位でＴＳパケット中のペイロードに配置されて伝送される。

ＰＡＴにはプログラム番号に対応したＰＭＴのＰＩＤなどが指定されており、ＰＭＴには対応するプログラムに含まれる映像、音声、付加データおよびＰＣＲのＰＩＤが記述されるため、ＰＡＴとＰＭＴを参照することにより、ストリームの中から目的のプログラムを構成するＴＳパケットを取り出すことができる。ＴＳに関する参考文献としては、例えば、ＣＱ出版社、ＴＥＣＨＩＶｏ．４、「画像＆音声圧縮技術のすべて（インターネット／ディジタルテレビ、モバイル通信時代の必須技術）」、監修、藤原洋、第６章、「画像や音声を多重化するＭＰＥＧシステム」があり、同書にて解説されている。

ＰＳＩやＳＩに関する論理的な階層構造、処理手順の例、選局処理の例に関して、「デジタル放送受信機における選局技術」、三宅他、三洋電機技報、ＶＯＬ．３６、ＪＵＮＥ２００４、第７４号、３１ページから４４ページにて解説されている。

ところで、文字データや文字データにフォーマット情報を加えた情報などで構成されるメタデータはＳＥＩバッファ２０６に入力する。ここでは、メタデータはＳＥＩのＵｓｅｒＤａｔａＵｎｒｅｇｉｓｔｅｒｅｄＳＥＩに格納する。ここで、カメラ１０１が内部に持つ記録制御手段（通常、マイコンにより構成される）は、処理タイミングとして文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合は、「該文字データ」または「該文字データにフォーマット情報を加えた情報」を、該映像フレームを構成するデータ部に挿入するように制御し、処理タイミングとして前記文字データを前記ストリームの該文字データが発生した該映像フレーム内に挿入できない場合は、該映像フレームにマーキングを挿入すると共に、前記文字データを「前記文字データの発生タイムコードまたは前記マーキング記録場所情報」と共に前記文字データの専用ファイルに記録するように制御する。

なお、処理タイミングとして文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合（メタデータへの変換時間が、あらかじめ設定されたスレッショルド時間以下の場合）でも、「該文字データ」または「該文字データにフォーマット情報を加えた情報」を、該映像フレームを構成するデータ部と専用ファイルの両方に記録するように制御するようにかめら１０１の動作モードを設定することができる。

メタデータの種類としては、映像や音声のフォーマット情報や、映像フレームを示すタイムコードや前述したメタデータ以外にも、一般的なデータをメタデータ化したメタデータ、また、デジタル放送を受信してそのＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ；番組配列情報）より得るメタデータ、EPG提供事業者より得たEPG情報などのメタデータ、Ｉｎｔｅｒｎｅｔから得たEPGなどのメタデータ、また、個人でムービー撮影したAVコンテンツ（静止画、音声、クリップなどの動画）に関連付けたメタデータなどがある。メタデータの形式としては、たとえば、ＵＰｎＰやＵＰｎＰ−ＡＶの標準仕様として、プロパティ（ｐｒｏｐｅｒｔｙ）やアトリビュート（ａｔｔｒｉｂｕｔｅ）があり、ｈｔｔｐ：／／ｕｐｎｐ．ｏｒｇで公開されており、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）やＢＭＬ（ＢｒｏａｄｃａｓｔＭａｒｋｕｐＬａｎｇｕａｇｅ）などの記述言語で表現できる。ｈｔｔｐ：／／ｕｐｎｐ．ｏｒｇにおいて、例えば、「ＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅＶ１．０」、「ＣｏｎｔｅｎｔＤｉｒｅｃｔｏｒｙ：１ＳｅｒｖｉｃｅＴｅｍｐｌａｔｅＶｅｒｓｉｏｎ１．０１」、「ＭｅｄｉａＳｅｒｖｅｒＶ１．０ａｎｄＭｅｄｉａＲｅｎｄｅｒｅｒＶ１．０」に関して、「ＭｅｄｉａＳｅｒｖｅｒＶ１．０」、「ＭｅｄｉａＲｅｎｄｅｒｅｒＶ１．０」、「ＣｏｎｎｅｃｔｉｏｎＭａｎａｇｅｒＶ１．０」、「ＣｏｎｔｅｎｔＤｉｒｅｃｔｏｒｙＶ１．０」、「ＲｅｎｄｅｒｉｎｇＣｏｎｔｒｏｌＶ１．０」、「ＡＶＴｒａｎｓｐｏｒｔＶ１．０」、「ＵＰｎＰ―ＡＶＡｒｃｈｉｔｅｃｔｕｒｅＶ．８３」などの仕様書が公開されている。また、メタデータ規格に関しては、ＥＢＵのＰ／Ｍｅｔａ、ＳＭＰＴＥのＫＬＶ方式、ＴＶＡｎｙｔｉｍｅ、ＭＰＥＧ７などで決められたメタデータ形式があり、「映像情報メディア学会誌、５５巻、３号、情報検索のためのメタデータの標準化動向」などで解説されている。

なお、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が各メタデータに価値を付け、コンテンツを利用するユーザーの利用内容や頻度により利用料金を徴収するために、各メタデータに価値を与えるメタデータを関連づけることができる。この各メタデータに価値を与えるメタデータは該メタデータのアトリビュートで与えてもよいし、独立したプロパティとして与えてもよい。たとえば、録画機器と録画条件に関する情報、すなわち、ムービーの機器ＩＤ、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が作成、登録するメタデータの価値が高くて使用許諾が必要と考える場合、該メタデータの利用には認証による使用許諾のプロセスを実行する構成を本発明に組み込んだ構成をとることもできる。

たとえば、自分で撮影した動画コンテンツを暗号化したファイルを作成し、Ｉｎｔｅｒｎｅｔ上のサーバーにその暗号化ファイルをアップロードする。その暗号化ファイルの説明や一部の画像などを公開して、気にいった人に購入してもらう構成をとることもできる。また、貴重なニュースソースが録画できた場合、複数の放送局のニュース部門間で競売（オークション）にかける構成をとることもできる。

これらメタデータを活用することにより、多くのAVコンテンツから所望のコンテンツを検索する、ライブラリに分類する、記録時間を長時間化する、自動表示を行う、コンテンツ販売するなどコンテンツの効率的な利用が可能となる。記録時間を長時間化するには、価値の低い動画コンテンツは解像度を低くするとか、音声と静止画（たとえば、ＭＰＥＧのＩピクチャーやＨ．２６４のＩＤＲピクチャーを抜き出してもよい）だけにするとか、静止画だけにするなどの構成をとることにより実現できる。

次に、図３を用いてＨ．２６４のストリーム構造を説明する。図３（Ａ）はＩ（ＩＤＲを含む）、Ｂ，Ｐピクチャよりなる映像のＧＯＰ構造である。（Ｂ）は書くピクチャが、ＶＣＬおよびＮｏｎ−ＶＣＬのＮＡＬユニットによって構成されていることを示している。ＮＡＬ（ｖｉｄｅｏ）は映像のＮＡＬユニットであり、ＮＡＬ（Ａｕｄｉｏ）は音声のＮＡＬユニットであり、ＮＡＬ（ＳＥＩ）はＳＥＩのＮＡＬユニットである。ＮＡＬ（ＳＥＩ）にはリアルタイムで生成するメタデータを挿入することができる。リアルタイムで生成するメタデータとしては、映像フレームに同期しているタイムコードや、重要なシーンでボタンを押して付加するマーキング情報などがある。タイムコードとしては、ＳＭＰＴＥタイムコード（ＳＭＰＴＥ１２Ｍ）、ＭＴＣ（ＭＩＤＩＴｉｍｅＣｏｄｅ）、ＬＴＣ（ＬｏｎｇｉｔｕｄｉｎａｌＴｉｍｅＣｏｄｅ）、ＶＩＴＣ（ＶｅｒｔｉｃａｌＩｎｔｅｒｖａｌｉｍｅＣｏｄｅ）や、ＤＶ（ＩＥＣ６１８３４、ＩＥＣ６１８８３）／ＤＶＣＰＲＯ（ＳＭＰＴＥ３１４Ｍ）のタイムコードで規定されているタイムコードがあり、これらのタイムコードより派生したタイムコードをメタデータとすることもできる。

図３（Ｃ）はＰＥＳパケットの構造を示しており、図３（Ｂ）の各ピクチャデータデータに対して、ＰＥＳパケットヘッダーを付加してＰＥＳパケットを構成する。なお、ＰＥＳパケットヘッダーには、ヘッダーオプションとしてＭＰＥＧのＰＴＳ／ＤＴＳを含めることができる。Ｈ．２６４の観点よりは、ＰＥＳパケットを１ＡＵ（ＡｃｃｅｓｓＵｎｉｔ）として扱う。

図３（Ｃ）のＰＥＳパケットは、１８８バイト毎に分割されＭＰＥＧ−ＴＳパケットが生成される（図３（Ｄ））。また、各ＭＰＥＧ−ＴＳパケットには、タイムコードを含む４バイトのヘッダーが付加されＡＴＳパケットが構成される（図３（Ｅ））。
次に図４を用いて、プレイリストとストリームの関係について説明する。図２の説明で述べたが、ＡＴＳパケットは、ＡＴＳパケット生成手段２１０より、各ＧＯＰの先頭ピクチャーのＰＴＳと先頭ＡＴＳ連番のペアであるＥＰ−ＭＡＰ（図４、（Ｂ）に例を示す）と共に出力され、ストリームの編集やプレイリストの作成に用いられる。図４（Ａ）はプレイリストの一例であり、「２００５年運動会」という名前を持つプレイリストオブジェクト、「ｎａｍｅ＿２００５年運動会」である。また、「ｎａｍｅ＿２００５年運動会」は、２つのプレイアイテム（ＰｌａｙＩｔｅｍ）、「演技」と「かけっこ」という名前を持つプレイアイテムオブジェクト、「ｉｎａｍｅ＿演技」、「ｉｎａｍｅ＿かけっこ」から構成されている。「ｉｎａｍｅ＿演技」、「ｉｎａｍｅ＿かけっこ」のＩＮ点、ＯＵＴ点は、それぞれのピクチャーが属するＰＴＳと、ストリーム先頭からのＡＴＳ連番のペアで示す（図４（Ｂ））。プレイアイテムはストリームを特定し、ＡＴＳ連番より特定されたストリームの先頭からの位置を１９２バイト単位で特定する。図４、（Ｂ）、（Ｃ）において、「ｉｎａｍｅ＿演技」は、それぞれストリーム上の(1)から(2)、「ｉｎａｍｅ＿かけっこ」は(3)から(4)で与えられる。

なお、「ｉｎａｍｅ＿演技」、「ｉｎａｍｅ＿かけっこ」など行事のプログラム構成を事前に機器に登録しておき、撮影時に登録された情報を選択してメタデータとして登録することもできる。さらに、行事が終わった後でも、プログラムを登録することもできるし、登録内容を修正することができる。

次に図５を用いて、１つのプレイリストが複数のストリームより構成されている場合について説明する。図５は一例であり、「運動会のかけっこ」という名前を持つプレイリストオブジェクト、「ｎａｍｅ＿運動会のかけっこ」である。また、「ｎａｍｅ＿運動会のかけっこ」は、２つのプレイアイテム、「２００４年かけっこ」と「２００５年かけっこ」という名前を持つプレイアイテムオブジェクト、「ｉｎａｍｅ＿２００４年かけっこ」」、「ｉｎａｍｅ＿２００５年かけっこ」」から構成されている。「ｉｎａｍｅ＿２００４年かけっこ」、「ｉｎａｍｅ＿２００５年かけっこ」のＩＮ点、ＯＵＴ点は、それぞれのピクチャーが属するストリームオブジェクトと、ＰＴＳとストリーム先頭からのＡＴＳ連番のペアで特定する（図５）。

次に図６を用いて、動画ファイル、静止画ファイル、メタデータの情報記録媒体への記録ディレクトリ構造の一例について説明する。図６において、ｒｏｏｔ下に、「Ｍｏｖｉｅ」、「ＳｔｉｌｌＰｉｃｔｕｒｅ」、および、「Ｍｅｔａｄａｔａ」ディレクトリが存在する。

「Ｍｏｖｉｅ」ディレクトリ下には、管理ファイル群、「ＰＬＡＹＬＩＳＴ」ディレクトリ、「ＣＬＩＰＩＮＦ」ディレクトリ、「ＳＴＲＥＡＭ」ディレクトリが存在する。また、「ＰＬＡＹＬＩＳＴ」ディレクトリ下には、リアルタイムプレイリスト（ファイル）である「＊．ｒｐｌｓ」ファイル群とバーチャルタイムイムプレイリスト（ファイル）である「＊．ｖｐｌａ」ファイル群が存在する。また、「ＣＬＩＰＩＮＦ」（クリップインフォメーション）ディレクトリには、クリップインフォメーションファイルであるである「＊．ｃｌｐｉ」ファイル群が存在する。「ＳＴＲＥＡＭ」ディレクトリ下にはＡＴＳ（１９２バイト）により構成されるストリームファイルである「＊．ｍ２ｔｓ」ファイル群が存在する。

「ＳｔｉｌｌＰｉｃｔｕｒｅ」ディレクトリ下には静止画であるである「＊．ｊｐｅｇ」ファイル群が存在する。

「Ｍｅｔａｄａｔａ」ディレクトリ下には、「ＭＥＴＡ＿ＰＬＡＹＬＩＳＴ」ディレクトリ、「ＵＳＥＲ＿ＭＥＴＡＤＡＴＡ」ディレクトリが存在する。また、「ＭＥＴＡ＿ＰＬＡＹＬＩＳＴ」ディレクトリ下には、プレイリスト（ファイル）内に存在するメタデータの内、選択されたメタデータを持つ「＊．ｍｔｄｔ」ファイル群が存在する。「ＵＳＥＲ＿ＭＥＴＡＤＡＴＡ」ディレクトリには、ムービーのメニュー設定に関する「ＭＥＮＵ＿ＩＮＦ」ディレクトリが存在する。ここには、ムービーのメニューで簡易編集を行った編集リスト、すなわち、ＥＤＬ（ＥｄｉｔＤｅｃｉｓｉｏｎＬｉｓｔ）も保存できる。また、ユーザーが独自に設定するプライベートなメタデータを格納する「ＵＳＥＲ＿ＰＲＩＶＡＴＥ」ディレクトリ下が存在する。ここには、ＣＬＩＰ識別のための代表サムネイルやタイムコードなどを記録できる。

図６において、各プレイリストファイルはクリップインフォメーションファイルとメタデータファイルを関連付ける。また、各クリップインフォメーションファイルは、ＡＴＳ（１９２バイト）により構成されるストリームファイルを関連付ける。ここで、大きな特徴としては、各プレイリストファイルがクリップインフォメーションファイルだけでなく、メタデータファイルを関連付けていることである。これにより、メタデータを用いた検索で、そのメタデータと関連付けられたプレイリスト、プレイアイテム、ストリームを見つけ出すことができるようになる。

ここで、図７にメタデータの例を示す。また、リアルタイムメタデータの例としては、重要シーンにおいてボタンなどを押した情報、またはボタン連動ピクチャーデータ、さらに、タイムコード、位置データ、各種の撮影データ（たとえば、撮影時の色温度（または色の混合比率）、レンズのズーム状態、絞り値、ゲイン、焦点距離、シャッター速度、レンズ部の水平または垂直の傾き角、レンズ部の移動各速度）などがある。また、ノン（非）リアルタイムメタデータとしては、メニュー情報、タイトルリスト、画像認識データ、音声認識データ、外部入力ファイル（テキスト、ＸＭＬ、バイナリデータの形式のファイルを外部インタフェースより入力）、インデックス情報、フォーマット情報、静止画、サムネイルなどがあり、これらのうち、任意のものを選択して使用する。たとえば、代表ピクチャーのサムネイル、シーンの説明文、タイムコードを選択して用いる。これらのメタデータをＡＶコンテンツと共に情報記録媒体に記録することにより、再生時、あるいは編集時に撮影パラメータが分かるので画質補正が容易に実行できる。たとえば、撮影時の色温度が分かれば、ＲＧＢの合成比率を変えることにより別の色温度に変換できるので、昼間に撮影した映像でも夕方の夕日の中での赤っぽい映像に変換できる。また、その逆の変換も可能である。

さて、図８は検索動作の説明図である。検索の目的としては、頭だし、粗編集、プレイリストの作成、また検索のためのメタデータマップの作成および再作成などである。図８のアルゴリズムにより、キーワード検索の場合も、イベント検索の場合も目的とするピクチャーデータなどを検索結果として探し出すことができる。

なお、図８の検索で探し出したピクチャーが求めるピクチャーよりずれている場合には、図９に示す方法で、登録ピクチャーを変更できる。すなわち、検索結果のピクチャーを中心として１秒程度の粗い間隔で代表画像群を時間軸上に表示し、最も近いピクチャーを指定すると、その指定されたピクチャーを中心に５フレーム刻み程度の間隔で代表画像群を時間軸上に表示する。５フレーム刻み程度の間隔で代表画像を更に指定すると、その指定されたピクチャーを中心に１フレーム刻みの間隔で代表画像群を時間軸上に表示する。ここで目的とするフレーム映像を得ることができる、クリップやプレイリストの代表画像やサムネイルとして再登録することができる。

また、プレイリストは、プレイリストが含むデータブロック集合の映像の内、静止画として収録されている映像フレームを表わすマーキングを持たせることもできる。たとえば、再生アプリケーションは、このマーキングを用いることにより、図６の静止画ファイルより静止画を即座に呼び出すことができる（静止画早見機能が実現できる）。

（実施の形態２）
次に実施の形態２について説明する。実施の形態１と同様の構成については説明を省略する。図１０を用いて、改良された動画ファイル、静止画ファイル、メタデータの情報記録媒体への記録ディレクトリ構造の一例について説明する。図１０において図６と異なる点は、「Ｍｅｔａｄａｔａ」ディレクトリ下に、「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリが存在することである。「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリディレクトリは、メタデータとそのメタデータに関連するオブジェクト（１つ以上）へのエントリー（１つ以上）を持つテーブルなどを包含メタデータファイルとして持つ。ここで、このメタデータを包含するオブジェクトとは、プレイリスト、プレイアイテム、ストリーム、ＥＰ−ＭＡＰ、静止画、代表ピクチャー、サムネイルデータ等である。この様に各メタデータが、関連するオブジェクトへの１つ以上のエントリを持つことにより、検索効率を上げることができる。

図１０において、メタデータは、「ＭＥＴＡ＿ＰＬＡＹＬＩＳＴ」ディレクトリ、「ＵＳＥＲ＿ＭＥＴＡＤＡＴＡ」ディレクトリ、「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリなどのファイルに重複して存在してもよい。たとえ、メタデータが複数のディレクトリ内に重複して存在しても、検索の目的による検索を開始するディレクトリを選択すればよい。たとえば、メタデータを用いた一般検索の場合には、「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリから開始するのが、最も検索効率が高い。また、「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリから開始した検索で、「ＭＥＴＡ＿ＤＡＴＡ」ディレクトリに検索データが存在するのに、参照先のファイルなどが消失している場合は、メタデータとそのメタデータが指し示す実体ファイルの整合がとれていないので、メタデータディレクトリ内のデータを削除するか、消失マークをつけるかにより、メタデータファイルをより正しいファイルに更新することができる。

図１１は、検索動作により関連するピクチャーを捜し出してＴＶ画面上に表示する動作（例）の説明図である。検索目的は、「２００４年運動会」に関連するピクチャー群の検索である。図１１に示すように、検索により、「２００４年運動会」というキーワードを持つプレイリストが検索されたとする。この場合、「２００４年運動会」というキーワードを持つプレイリストに登録されている代表ピクチャー群（たとえば、代表ピクチャーのサムネイル、シーンの説明文、タイムコード）が図１１のメタデータマップの様に構成される。このメタデータマップを用いて、図１１右下のシーン＃１からシーン＃５の代表画像（またはサムネイル）がＴＶ画面上に表示される。

（実施の形態３）
図１２の動作について説明する。図１２において、カメラ１０１で撮影した映像信号、音声信号は、それぞれＡＶ信号入力手段１２０１に入力される。ＡＶ信号入力手段１２０１に入力された映像信号および音声信号は、それぞれ複数の系統に分けられバッファ（一時保持）された後、それぞれ音声と画像の認識ユニット手段１２０２およびＡＶ信号圧縮記録制御手段１２０８に出力される。

音声と画像の認識ユニット手段１２０２は、音声認識手段１２０３および画像の検出を行う画像認識手段１２０４を内蔵しており、各々入力された音声の認識および映像に含まれる画像の検出を行う。

ここで、音声認識手段１２０３はユーザーのボタン入力などにより辞書群１２１３内の複数の辞書Ａ、辞書Ｂ、辞書Ｃなどから任意の辞書を選択する、そして、選択された辞書に登録された単語群データを用いて音声認識を行う。なお辞書Ａ、辞書Ｂ、辞書Ｃの例としては、野球、サッカー、バスケットボールなどの各スポーツ分野別、あるいは、お誕生会、結婚式などのイベント別に設定して登録単語の語彙や単語数を書く分野にふさわしい内容に選択して絞り込んだ辞書とする。そこで、音声認識の実行前に認識を行う分野を選択すれば、音声認識動作における誤認識を削減し、認識率の向上を図ることができる。また、各辞書は、辞書登録データの追加削除管理手段２１４を介して、分野別辞書自体の追加と削除、また各分野別辞書内の登録単語の追加、削除ができる。たとえば、運動会の辞書に、親が自分の子供や知人の子供の名前を追加することが可能であり、子供の名前を音声認識でテキスト化してメタデータとして映像に関連付けて（紐付けてとも言う）記録することにより、再生時に子供の名前を指定（たとえば、再生時にＴＶ画面上に表示された登録メタデータ一覧から選択）することにより、子供の映っている映像に素早くアクセス（クイックアクセス）できる。このように音声認識において、分野の選定と、分野別に絞った辞書でのキーワード登録の２段階で行うことにより、認識速度と精度を向上させることができる。

また、画像の検出を行う画像認識手段１２０４は、映像信号が１枚の絵を構成する映像フレームまたは映像フィールド（映像と略する）内の意味のある画像を検出、認識する。本実施の形態における画像の意味として、映像信号が１枚の絵を構成する映像内における意味のあるオブジェクト画像のこととする。画像認識手段１２０４は映像内の意味のあるオブジェクトとして人物、人の顔、動物（犬、猫などのペット）、車、電車、飛行機などの乗り物、家やビルなどの建造物、標識などを含んだ道路の景色、観光名所、田園、山岳、町の風景などの対象物がある。これら映像内の意味のあるオブジェクトに関する情報は、人や動物や物の特徴を記述した画像認識のデータベース１２１６より入力される。たとえば、人の顔を認識する場合には、映像（映像フレームまたは映像フィールド）中の人の顔を認識して、映像において人の顔が存在する領域を例えば四角い領域や丸い領域として認識する。

ここで認識された人の顔が存在する領域を例えば四角い領域や丸い領域は、たとえば、「非特定人物ナンバー１」、「非特定人物ナンバー１２３」などのメタデータを付ける。なお、連続する映像内で同人物と認識される人の顔に関する認識領域は、同じ非特定人物ナンバーを付けることにより、非特定人物ナンバーを削減できる。また、１秒や３秒など一定時間以上に渡って検出した場合のみ非特定人物ナンバーを付ける付加機能を追加することにより、非特定人物ナンバーを削減できる。すなわち、人の顔の検出手段は検出した人の顔を追尾し、同一人物には１つの識別フラグと識別時間の長さに関する情報を付加する。これにより、撮影者の意図に反して一部の時間だけチラリと見えた人物の認識を排除することができる。また、メタデータ生成するタイミングについては、メタデータ作成ボタンがユーザーにより押されたとき、としても良い。

さらに、映像画面上の位置により特定の大きさ以上の場合のみ非特定人物ナンバーを付加する機能を追加することによりさらに非特定人物ナンバーを削減できる。たとえば、画素数がＶＧＡサイズ（横６４０ピクセル、縦４８０ピクセル）の場合、画面の真ん中（横３２０ピクセル、縦２４０ピクセル）の領域では、顔領域が縦、横６０ピクセル以上の場合のみ検出し、画面の端の領域では、顔領域が縦、横４０ピクセル以上の場合に検出する方法がある。これにより画面の真ん中で認識される人物の検出速度（計算速度）と精度を上げることができる。また、レンズの絞り値、ズームの値、焦点距離、水平方向のパンニング速度、垂直方向のパンニング速度、シャッター速度など撮影に関するパラメータをレンズ駆動・制御部（レンズ、サーボーモーター、マイコンなどにより構成される）より受け取ることにより、検出した人物とムービー（レンズ部）の距離や、検出した人物とムービーの距離の変化量を計算することができる。逆にレンズの焦点が適度に合っている領域に存在する人物の顔の大きさ、画素数の範囲を現実に存在する人間の顔の大きさ（現実的には、あごから額までの距離が２５ｃｍ以下、顔の横幅が２５ｃｍ以下）より規定できる。

ここで、前記識別フラグが付いた位置を含む指定時間範囲の映像に対して行う顔認識動作は、前記コンテンツの収録手段が前記顔認識手段に割り当てることが可能なマイコンなどのCPUの演算能力に応じて、前記識別フラグが指し示す位置の映像に含まれる顔に対して収録後に非同期に実行することができる。

以上の様に、音声と画像の認識ユニット手段１２０２は、音声認識および画像認識により得たテキスト情報をメタデータとしてメタデータ生成・同期・管理手段１２０７に入力する。メタデータ生成・同期・管理手段１２０７は時計１２１８より時刻情報を受け取っており、ＡＶ信号圧縮記録制御手段１２０８と連携して映像、音声、メタデータの時間管理（時刻同期）を行う。

メタデータ生成・同期・管理手段１２０７に入力される情報は、音声と画像の認識ユニット手段１２０２から入力されるメタデータだけでなく、カメラに付いた重要場面設定ボタンや静止画取得ボタンなどからのボタン入力情報を受け付けるユーザー情報入力手段１２０５や、カメラの動作状態を表わす各種パラメータ入力を受け付けるセンサー情報入力手段２０６からのメタデータなどがある。ここで、カメラの動作状態を表わすパラメータの例としては、ＧＰＳや携帯電話の位置センサーや加速度センサーを用いた存在位置、カメラの向きや傾き（仰角）情報、カメラ１０１が使用しているレンズ１０２の種類、ズーズ倍率、絞りなどの露光情報などがある。

さて、ＡＶ信号圧縮記録制御手段１２０８に入力された映像信号および音声信号および各種のメタデータは、それぞれに関連した映像信号、音声信号、メタデータ同士で紐付けを行う。この紐付けは、映像、音声、メタデータの発生した時間情報（タイムコード。精度としては、映像フレームや映像フィールドでよい。）を元に実行するが、ストリームやファイル中のデータ位置情報を用いて紐付け（関連付け）を行ってもよい。

ＡＶ信号圧縮記録制御手段１２０８は、映像圧縮としてＭＰＥＧ−２（または、ＩＴＵ−Ｔ規格Ｈ．２６２）およびＨ．２６４／ＡＶＣ方式の圧縮エンジン、また、音声圧縮としてＭＰＥＧ−２ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）、ＭＰＥＧ−１レイヤ３（ＭＰ３）の圧縮エンジンを内蔵している。なお、圧縮エンジンはこれらに限らず、ＤＶ（ＩＥＣ６１８３４）方式、ＤＶＣＰＲＯ方式（ＳＭＰＴＥ３１４Ｍ）、ＤｉｖＸＶｉｄｅｏ方式（ｗｗｗ．ｄｉｖｘ．ｃｏｍ）、ＸｖｉＤ方式、ＷＭＶ９（ＷｉｎｄｏｗｓＭｅｄｉａＶｉｄｅｏ９）方式（ｗｗｗ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ））や他の形式の圧縮エンジンを選択することもできる。本実施の形態では、映像圧縮としてＨ．２６４／ＡＶＣ方式（以下、ＡＶＣと略す）、音声圧縮としてＭＰＥＧ−２ＡＡＣ（以下、ＡＡＣと略す）を選択しているとする。

図１２において、ＡＶ信号圧縮記録制御手段１２０８で生成されたＭＰＥＧ−ＴＳ信号は、記録媒体（または、バッファメモリ）１２０９内のＡＶデータファイル用ディレクトリ１２１０に記録（または、一時蓄積）される。なお、ここで、記録媒体（または、バッファメモリ）１２０９として半導体メモリ、光ディスク（ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒ、ＢＤなど）、ＨＤＤ（ハードディスクドライブ）を用いることによりクイックアクセスが可能となるし、一部のデータ、たとえば、メタデータを修正したり追加したりすることが容易に実行できる。また、このＭＰＥＧ−ＴＳ信号のタイトルはＡＶ信号圧縮記録制御手段１２０８よりタイトルを記録媒体１２０９内のタイトルリスト／プレイリスト／ナビゲーションデータファイル用ディレクトリ１２１１に記録する。さらに、このＭＰＥＧ−ＴＳ信号のメタデータはＡＶ信号圧縮記録制御手段１２０８より記録媒体１２０９内のメタデータ用ディレクトリ１２１２に記録する。

次に、記録媒体１２０９に記録されたＡＶデータファイルの内、画像認識手段１２０４で検出された画像、たとえば、人（人物）の顔が誰であるか人の識別を行う方法について説明する。メタデータファイル１２１２には、画像認識手段１２０４で検出された画像がＡＶデータファイルに記録されたどのＡＶデータファイルのどの映像（映像フレームまたは映像フィールド）のどの位置にあるものであるかのメタ情報が記録されている。ＡＶ信号再生制御手段１２１７は、メタデータファイルより人の識別を行うデータ位置に関する情報を受け取りＡＶデータファイルより該当の画像データを呼び出す。そして、呼び出した画像データを人の特定を行う画像認識手段１２１５に入力する。画像認識手段１２１５は、画像認識のデータベース（人や動物や物の特徴を記述したデータベース）１２１６を用いて、照会された人が誰であるかを判定して、判定結果をメタデータファイルに追加する。この人の判定結果は、元のメタデータが前述の「非特定人物ナンバー１２３」である場合、人物判定結果、たとえば「田中次郎」が追加される。なお後にユーザーが確認した人物名と人物の顔が間違っていた場合、ユーザーは、管理制御手段１２１９のボタン入力を介して、正しい名前である「田中一郎」に修正できる。なお、ボタン入力でも、最近の携帯電話で一般化されているように文字入力が実現できる。また、一枚の映像（映像フレームまたは映像フィールド）における人物の人数は一人に制限されず、検知領域の最小サイズ以上であれば、何人でも検知できる。すなわち、一枚の映像に、「田中一郎」、「鈴木あゆこ」、「加藤奈津子」など複数の人物名が同時に存在できる。なお、メタデータ生成・同期・管理手段１２０７の設定によって、特定のファイルやファイル中の場面に対して、一枚の映像（映像フレームまたは映像フィールド）における人物の人数を特定の数、たとえば、５人に制限することができる。これにより人物データのデータ容量削減と、処理負荷の削減を図ることができる。

なお、画像認識手段１２１５において認識する対象が人の顔でなく、文字、動物、車など画像認識のデータベース（人や動物や物の特徴を記述したデータベース）１２１６内のそれぞれのデータベースファイルを参照して画像の認識、特定を行い、メタデータファイルに追加記述する。

たとえば、人を認識した場合、その人の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを画像データベースに登録し、その人物と関連付けておくことより、問い合わせに対応する検索を簡単に実行することができる。この場合、人物をＵＰｎＰのプロパティとし、その人物の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを人物プロパティのアトリビュートと定義することもできる。

また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケ（完成パケット、完成コンテンツ）を構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記できる。これにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを用意に作成できる。よって、コンテンツの再利用が促進される。

さて、記録媒体１２０９から映像を再生する場合、ユーザーは管理制御手段１２１９よりＡＶ信号再生制御手段１２１７にアクセスし、記録されているファイルタイトルから再生ファイルを選ぶ。ユーザーが複数のＡＶファイルの中から再生すべきファイルが特定できない場合には、ユーザーは管理制御手段１２１９のユーザーインタフェース（ユーザーのボタン入力）より、検索キーワードを打ち込み、ＡＶ再生制御手段１２１７に問い合わせる。ＡＶ再生制御手段１２１７は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ１２１１およびメタデータファイルディレクトリ１２１２から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをＡＶ信号出力手段１２２０の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、ＴＶ画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。

ここでは、情報記録媒体にコンテンツとメタデータを記録、再生する際に、メタデータをボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により呼び出す手段と、前記メタデータに関連付けられた映像（フレームまたはフィールド）を呼び出す共に、前記メタデータを別の映像（フレームまたはフィールド）に新たに関連つける手段を持つことができる。また、メタデータに優先度を付加し、別途指定された長さの各映像をそのメタデータの優先度の高い順に各々抽出して、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定される長さのコンテンツを生成する手段をもつこともできる。

さて、上記のタイトルリストやメタデータ検索結果などから、再生すべきＡＶデータを特定した後は、ユーザーは目的のＡＶファイルを呼び出し再生する。なお、このＡＶファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段２１９を介してＡＶ信号と紐付けをしたメタデータを使用することによりアクセスしたい場面にすぐにアクセスして再生することができる。

次に、第３の実施の形態を拡張した実施の形態について説明する。以下においては、実施の形態３と同じ部分は説明を省略し、異なる部分のみ説明する。図１３は本実施の形態の説明図である。図１３においては、プレイリスト生成・管理手段１３０１を新たに追加する。

プレイリスト生成・管理手段１３０１は、複数のＡＶファイルから任意のＡＶ信号部を選択して自由に組み合わせて（編集して）、新たなＡＶファイルを生成する。この生成方法としては、管理制御手段１２１９においてユーザーがボタン入力で指定したファイルに対して、メタデータで指定される場面と、メタデータで指定されないがユ−ザが重要と考える場面を時間軸に沿って、ＡＶ信号出力手段１２２０の出力信号にサムネイル表示させる（図１の１１２参照）。なお、サムネイルはユーザーが指定した長さなど特定長の映像クリップの先頭画像（または、サムネイルの代表画像）である。ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えて新たな映像ファイルを生成する。この作業で実際に生成しているのは、ファイルからのクリップ切り出し位置情報の組み合わせとしての、いわゆるプレイリストであり、このプレイリストをタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ２１１に登録する。この様にプレイリストを用いると、余分なＡＶ信号のないコンパクトなファイルをバーチャルに生成できる。

さて、記録媒体１２０９から映像を再生する場合、ユーザーは管理制御手段１２１９よりＡＶ信号再生制御手段１２１７にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザーが複数のＡＶファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段１２１９のユーザーインタフェース（ユーザーのボタン入力）より、検索キーワードを打ち込み、ＡＶ再生制御手段１２１７に問い合わせる。ＡＶ再生制御手段２１７は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ１２１１およびメタデータファイルディレクトリ１２１２から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをＡＶ信号出力手段１２２０の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、ＴＶ画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。

さて、上記のタイトルリスト、メタデータ検索結果に加えてプレイリストから、再生すべきＡＶデータを特定でき、特定後、目的のＡＶファイルを呼び出し再生する。なお、このＡＶファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段１２１９を介してＡＶ信号と関連付けしたメタデータを使用することにより、アクセスしたい場面にすぐにアクセスして再生できる。

次に、本発明の第３の実施の形態の別の拡張例について説明する。以下においては、実施の形態３と同じ部分は説明を省略し、異なる部分のみ説明する。図１４は本実施の形態の説明図である。図１４においては、プレイリスト出力手段１４０１を新たに追加する。プレイリスト出力手段１４０１は、第３の実施の形態で生成されタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ１２１１に登録されたプレイリストを出力する。

記録媒体１２０９から映像を再生する場合、ユーザーは管理制御手段１２１９よりＡＶ信号再生制御手段１２１７にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザが複数のＡＶファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段１２１９のユーザーインタフェース（ユーザーのボタン入力）より、検索キーワードを打ち込み、ＡＶ再生制御手段１２１７に問い合わせる。ＡＶ再生制御手段１２１７は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ１２１１およびメタデータファイルディレクトリ１２１２から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをＡＶ信号出力手段１２２０の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、ＴＶ画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。

さて、上記のタイトルリスト、プレイリストやメタデータ検索結果などから、再生すべきＡＶデータを特定した後は、ユーザーは目的のプレイリストをプレイリスト出力手段より出力する。

この様にプレイリストを出力するメリットを図１５を用いて説明する。図１５においてユーザー１とユーザー２がネットワークを介して接続されているとする。ネットワークの種類は問わず、ＩＰベースのホームネットワークでもよいしインターネットでもよい。

ユーザー２がローカルのＴＶ１５０８のリモコン１５０９から、ネットワークを介してリモートのムービー１０１にアクセスする場合を考える。ユーザー２がムービー１０１内の録画ファイルを遠隔から視聴する場合、ムービー１０１内のプレイリストに従ってＡＶ信号を視聴できれば、プレイリストのファイルには編集前の余分なデータがない分、データ転送量が小さくなり、機器およびネットワークにかかる負荷を小さくできる。すなわち、ムービーでの生の撮影信号から不要な信号を削除して編集されたＡＶ信号を、より効率的に視聴できる。

また、ユーザー１はＡＶファイル、ＡＶファイルに関するメタデータおよびプレイリストをネットワーク１５０５内のサーバー１５０６や、ユーザー１ローカルのＡＶレコーダー１５０２、ユーザー２ローカルのＡＶレコーダー１５０２にアップロードできる。これにより、別のユーザー（たとえば、ユーザー３）がサーバー１５０６や、ＡＶレコーダー１５０２、ＡＶレコーダー１５０２にアクセスしてプレイリストに従ったＡＶ信号を効率的に送受信することができる。

ここで、もし、ユーザー２や別のユーザー（たとえば、ユーザー３）が視聴したプレイリストよりもっと別のプレイリストを考案した場合、ユーザー２や別のユーザー（たとえば、ユーザー３）は新たなプレイリストを生成し、サーバー１５０６や、ＡＶレコーダー１５０２、ＡＶレコーダー１５０２にアップロードする。これにより、限られた数のＡＶ信号（コンテンツ）から多くの編集タイトル（プレイリスト）を生成でき、ＡＶ信号（コンテンツ）を色々な観点から鑑賞することが可能となる。いわゆる、ネットワーク型の映像編集、制作をネットワークを介して共同で行うことも可能となる。

また、プレイリストを利用することにより別のアプリケーション（利用方法）も生まれる。たとえば、ムービー１０１からＡＶ信号再生制御手段１２１７で低解像度のＡＶ信号に変換して、メタデータと共に携帯電話１５０１に出力し、携帯電話１５０１でメタデータを用いて映像編集を行ない編集リスト（ＥＤＬ）、または、プレイリストをムービー１０１に送る。ＴＶ１５０３はムービー１０１にアクセスし、プレイリストを選択し、ムービーでの生の撮影信号から不要な信号を削除してきれいに編集されたＡＶ信号を視聴できる。

また、プレイリストに従ったＡＶ信号をＡＶレコーダー１５０２やサーバー１５０５、ＡＶレコーダー１５０７にアップロード（または、ダウンロード）することにより、ネットワークに繋がったユーザーはネットワークを介して、より完成度が高く編集されたＡＶコンテンツ信号を効率的に視聴できる。

本発明は、プレイリストを利用したＡＶコンテンツ視聴に発展させることもできる。たとえば、図１５においてネットワーク１５０５をインターネットとした場合、ユーザー１はインターネット上のサーバー１５０６にブログ（Ｂｌｏｇ、Ｗｅｂｌｏｇの別名）形式のサイトを公開し、そのブログサイトにアクセスして登録した複数のユーザーにＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ）形式でＡＶコンテンツの追加、更新情報を知らせることができる。ここでユーザー１はＡＶコンテンツとそのＡＶコンテンツに対応した複数のプレイリストを公開する。個々のプレイリストには、たとえば、そのＡＶコンテンツのダイジェスト版、簡易版、完全版、編集前の生コンテンツなどの解説が付けられており、ＡＶコンテンツを視聴するユーザーは好みのプレイリストを選びＡＶコンテンツを視聴することができる。これは、デジタル放送におけるＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）配信をインターネット上の放送配信メディアに拡張したシステムと考えることができる。ダイジェスト版は１セグ放送や携帯電話での有料または無料のコンテンツ配信に有効であり、簡易版や完全版、編集前コンテンツはＷＥＢ上での有料または無料のコンテンツ配信に有効である。ユーザー１はインターネットを通じて多くのユーザーに知らせることができるので、小規模な企業体や個人でも音声や映像のインターネットベースの放送局を開局できる。また、ユーザーは、ＲＳＳフィードによるインターネット上のＡＶコンテンツを自動的に収集する仕組みである、いわゆる、Ｐｏｄｃａｓｔｉｎｇ（ポッドキャスティング）を利用してインターネット上のＡＶコンテンツを視聴できる。

さらに、ムービー１０１にインターネットに接続してサーバーとして働く機能を持たせる（ＩＰネットワーク接続機能付きムービーカメラ１０１）。この場合、ユーザー１は撮影中のコンテンツをメタデータと一緒にインターネットを介してライブ配信できる。すなわち、ユーザー１はライブ撮影の音声と映像を音声認識や画像認識やボタン入力ですばやくメタデータ化し、ＸＭＬ文書としてＲＳＳでインターネットで公開することにより、メタデータによる解説付きの生中継を全世界に行うことができる。

次に、本発明の第３の実施の形態のさらなる拡張例について説明する。以下においては、前述した実施の形態３の拡張例と同じ部分は説明を省略し、異なる部分のみ説明する。図１６は本実施の形態の説明図である。図１６においては、メタデータ時刻修正手段１６０１を新たに追加する。プレイリスト出力手段１４０１は、前述した実施の形態で生成されタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ２１１に登録されたプレイリストを出力する。

記録媒体１２０９から映像を再生する場合、ユーザーは管理制御手段１２１９よりＡＶ信号再生制御手段１２１７にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザーが複数のＡＶファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段１２１９のユーザーインタフェース（ユーザーのボタン入力）より、検索キーワードを打ち込み、ＡＶ再生制御手段１２１７に問い合わせる。ＡＶ再生制御手段１２１７は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト／プレイリスト／ナビゲーションデータファイルディレクトリ１２１１およびメタデータファイルディレクトリ１２１２から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをＡＶ信号出力手段１２２０の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、ＴＶ画面上で確認できるが、メタデータとサムネイルの間にムービー撮影者の意図しない時間ずれがあった場合、編集や視聴前にそのずれを修正する必要がある。そこでユーザーは、指定したメタデータに対するサムネイルを見ながら、管理制御手段１２１９よりボタン入力によりメタデータとサムネイルの時間ずれを映像のフレームまたはフィールド単位で修正（トリミング）する。このとき、メタデータ時刻修正手段１６０１がユーザーの指定した分だけメタデータに関連付けた映像信号の時間情報（タイムコードまたはデータ位置情報）を修正して新しい時間情報でメタデータと映像信号を関連付ける。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となる。よって、ＡＶ信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。

（実施の形態４）
図１７は本発明の実施の形態４の概念図である。ムービーカメラ１７０１において記録媒体であるＳＤカードメモリ１７０２に映像データと音声データとメタデータを記録する。ＳＤカードメモリ１７０２をパソコン１７０３に挿入し、記録データ移動する。この際、前述の重要シーンやチャプタなどのメタデ−タがすでにＳＤカード上にあれば、パソコンにデータを移動して、プレイリストを確認してＯＫならば、その時点で自動的に粗編集やノンリニア編集を実行して完パケファイルを生成することができる。また、この編集されたファイルをほとんど自動的にDVD-R（１７０４）やＤＶＤ−ＲＡＭなどのメディアに記録、保存することができる。

ＤＶＤ−Ｒ１７０４をＤＶＤプレーヤー１７０５で再生することにより、編集されたファイルをＴＶ１７０６で視聴することができる。

図１８はＳＤカード１７０２内のディレクトリ構造であり、交換用データのファイル構造を新たに示したものである。交換用データとしては、メタデータディレクトリとストリームディレクトリを持ち、それぞれ内部にメタデータファイルとストリームファイを持つ。

図１９は、ネットワークによるデータ交換方法を示す図であり、３つのデータ交換方法を示している。データ交換方法１は、メタデータファイルとストリームファイルを別々に送る方法である。データ交換方法２は、メタデータファイルとストリームファイルを１つのストリームにマッピングして一緒に送る方法である。データ交換方法３は、メタデータファイルとストリームファイルを１つのファイルに包含グして一緒に送る方法である。これにより、情報記録媒体にコンテンツとメタデータを記録、再生する装置において、
生成コンテンツをファイル形式で出力する手段を具備することができる。

なお、図２０に動画だけでなく、重要シーンの静止画も一緒にデータ交換する場合のファイル構成を示す。さらに、図２１のファイル構成により、重要シーンの静止画だけをメタデータとともにデータ交換することもできる。

また、本発明によればプレイリストの新たな利用方法として放送番組のプレイリスト配信を行うことができる。たとえば、ムービー１０１がＴＶチューナーを内蔵していて、ＴＶ放送を録画した場合、ユーザー１は録画したＴＶ番組を前述の様に編集してそのプレイリストを生成する。この場合、ユーザー１は録画番組のタイトルとプレイリストだけをインターネット上のサーバーに公開する。他の一般ユーザ（たとえば、ユーザー１２３とする）もユーザー１と同じ番組を録画している場合、ユーザー１２３はユーザー１の生成したプレイリストをダウンロードすることにより、自分（ユーザー１２３）の録画したＴＶ番組をユーザー１が生成したプレイリストに従った未知のストーリー仕立てで自分で録画した番組を視聴できる。たとえば、スポーツ番組ならばダイジェスト再生や、ニュースならばヘッドライン再生、ＣＭ（コマーシャル）だけを集めたプレイリストを生成できる。ここで、課題となるのは時刻同期であるが、ムービー、サーバーまたはＡＶレコーダーの時計精度を映像フレーム以内に合わせることは現在の技術で可能である。たとえば、日本のデジタル放送ではＡＲＩＢ規格で規定されたＴＯＴ（ＴｉｍｅＯｆｆｓｅｔＴａｂｌｅ）信号から共通の時刻情報を生成することができる。アナログ放送の場合には、標準電波や放送受信した映像フレームや音声の特徴より判別することができる。

また、本発明はテレビ録画だけでなく、映画やインターネット上での動画コンテンツ、携帯端末向けのコンテンツ作成にも応用できる。

メタデータはテキストデータとして前記コンテンツに付随させることもできるし、メタデータをバイナリデータとして前記コンテンツに付随させることもできる、また、メタデータをウォーターマークとして前記コンテンツに付随させることもできる。

また、メタデータはウォーターマークとして画像データの中に埋め込むこんだ形でコンコードし、記録再生、伝送受信した後、デコードして使うこともできる。なお、上記の説明では同一のメディアへの記録、蓄積を例としたが、関連付けの行ってある２つ以上のメディアにメタデータと映像データを別々に保存しても良い。また、関連付けの行ってあるメディアであればメタデータのみの保存、または映像データのみの保存、またはメタデータと映像データの２つを保存、のどれかを行っても良い。

なお、本発明のプログラムは、上述した本発明の装置の全部又は一部の手段の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。

また、本発明の記録媒体は、上述した本発明の装置の全部又は一部の手段の全部又は一部の機能をコンピュータにより実行させるためのプログラムを記録した記録媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する記録媒体である。

なお、本発明の上記「一部の手段」とは、それらの複数の手段の内の、一つ又は幾つかの手段を意味する。

また、本発明の上記「手段の機能」とは、前記手段の全部又は一部の機能を意味する。

また、本発明のプログラムの一利用形態は、コンピュータにより読み取り可能な、ＲＯＭ等の記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。

また、本発明のプログラムの一利用形態は、インターネット等の伝送媒体、光・電波・音波等の伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。

また、上述した本発明のコンピュータは、ＣＰＵ等の純然たるハードウェアに限らず、ファームウェアや、ＯＳ、更に周辺機器を含むものであっても良い。

なお、以上説明した様に、本発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。

本発明はカメラ撮影時に取得できるコンテンツ（映像、音声、データ）からメタデータを生成し、入力する方法と、検索と頭だしが高速化された情報記録媒体にコンテンツとメタデータを記録、再生する装置、コンテンツ処理装置に関して好適なものである。

本発明のカメラ撮影、撮影データとメタデータによる撮影データの編集システムのモデル図Ｈ．２６４圧縮におけるメタデータの取り扱いの説明図Ｈ．２６４圧縮のピクチャー構造とＭＰＥＧ−ＴＳへの変換方法の説明図プレイリストとストリームオブジェクトの関係の説明図（その１）プレイリストとストリームオブジェクトの関係の説明図（その２）ストリームとメタデータを記録するディレクトリ構造の説明図メタデータの分類例を示す図メタデータを用いた検索アルゴリズムのモデル図ピクチャー設定方法のモデル図ストリーム（動画）、静止画とメタデータを記録するディレクトリ構造の説明図メタデータ検索結果の表示方法のモデル図メタデータ生成に音声認識と画像認識を用いる場合の説明図（その１）メタデータ生成に音声認識と画像認識を用いる場合の説明図（その２）メタデータ生成に音声認識と画像認識を用いる場合の説明図（その３）本発明の編集システムをネットワークに適用した例を示すモデル図メタデータ生成に音声認識と画像認識を用いる場合の説明図（その４）撮影でのメタデータ生成から、再生でのメタデータ活用の概念図ストリームとメタデータのデータ交換方法の説明図ストリーム（動画）、静止画とメタデータのデータ交換方法の説明図（その１）ストリーム（動画）、静止画とメタデータのデータ交換方法の説明図（その２）ストリーム（動画）、静止画とメタデータのデータ交換方法の説明図

符号の説明

１０１カメラ
１０２カメラのレンズ部
１０３カメラのマイク
１０４カメラの撮影対象
１０５カメラで撮影したデータ
１０６映像データ
１０７音声データ
１０８メタデータ
１０９カメラで撮影されたデータシーケンス
１１０リモコン
１１１編集により、シーン＃１からシーン＃５までをつなぎ合わせたデータシーケンス
１１２テレビ（ＴＶ）
１１３メタデータ入力用ボタン（重要シーン登録ボタン、静止画撮影ボタン）

Claims

映像、音声またはデータのいずれかを含んだコンテンツをストリームに変換し、前記映像、前記音声または前記データに関するメタデータと共に情報記録媒体に記録し再生する装置において、
（１）記録時のカメラ制御、または、記録・ポーズ・停止などのボタン操作、または、音声の有無識別、または、音声と音楽の識別、または、人物の有無の識別、または、背景の歓声の大きさまたはトーンの変化、または、背景の変化、のいずれかに関する情報を用いてシーンを自動マーキングしてメタデータとして出力するシーン登録手段、または、（２）ユーザの操作によりシーンを手動でマーキングしてメタデータとして出力するシーン登録手段、または、（３）音声認識により前記コンテンツに含まれる音声を文字データに変換する音声認識手段、または、（４）音声認識により外部入力音声を選択して文字データに変換する音声認識手段、または、（５）前記コンテンツに含まれる映像内の人物または物体を認識して文字データに変換する画像認識手段の、少なくとも一つの手段を備え、
記録制御手段の設定により、前記文字データを、該文字データまたは該文字データにフォーマット情報を加えた情報を、該映像フレームを構成するデータ部に挿入するか、または、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録することにより、
前記シーンをマーキングするメタデータまたは前記文字データを、前記コンテンツと関連するメタデータとして前記情報記録媒体に記録することを特徴とするコンテンツとメタデータを記録、再生する装置。
前記記録制御手段は、
前記ストリームを収録する前に、前記文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合は、該文字データまたは該文字データにフォーマット情報を加えた情報を、該映像フレームを構成するデータ部に挿入するように制御し、
前記ストリームを収録する前に、前記文字データを前記ストリームの該文字データが発生した該映像フレーム内に挿入できない場合は、該映像フレームにマーキングを挿入すると共に、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録するように制御することを特徴とする請求項１記載のコンテンツとメタデータを記録、再生する装置。
前記文字データへの変換時間が前記スレッショルド値以下の場合でも、前記文字データの内、選択した文字データを、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルにメタデータとして記録することを特徴とする請求項１記載のコンテンツとメタデータを記録、再生する装置。
選択した文字データを、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録する場合、前記文字データが発生した映像フレームを構成するコンテンツデータにマーキングを挿入することを特徴とする請求項３記載のコンテンツとメタデータを記録、再生する装置。
前記ストリームの一部分を構成するデータブロックに関して、該データブロックの先頭データアドレスと終点データアドレスを指定するデータペアと、前記データペアとＩＮ点、ＯＵＴ点からなるタイムコードペアを相互変換する変換テーブルと、１つ以上のストリームに対して前記タイムコードまたは前記データペアを組み合わせたデータ群により構成されるプレイリストと、
前記プレイリストが含む前記データブロック集合に関連した前記文字データまたは前記マーキングを前記プレイリストのメタデータファイルとして生成する手段を具備することを特徴とする請求項１記載のコンテンツとメタデータを記録、再生する装置。
前記プレイリストは、前記プレイリストが含む前記データブロック集合の映像の内、静止画として収録されている映像フレームを表わすマーキングを持つことを特徴とする請求項５記載のコンテンツとメタデータを記録、再生する装置。
前記プレイリストに対応するコンテンツとメタデータのデータ交換において、
該プレイリストと、該プレイリストの前記メタデータファイルと、該プレイリストに関連したメタデータの少なくとも一部と、前記プレイリストが指定する該データブロックにより構成されるデータ群と、前記静止画の少なくとも一部とを交換することを特徴とする請求項６記載のコンテンツとメタデータを記録、再生する装置。
情報記録媒体に前記コンテンツの映像信号に含まれる人の顔または動物または物体等の対象物を検出する検出手段と、前記対象物の特徴データの辞書を参照して、前記検出手段で抽出された対象物の特徴より対象物を特定し文字データに変換し、メタデータとする手段とを備えたことを特徴とする請求項１記載のコンテンツとメタデータを記録、再生する装置。
前記検出手段は検出した対象物を追尾し、同一対象物には１つの識別フラグと識別時間の長さに関する情報を付加することを特徴とする請求項８記載のコンテンツとメタデータを記録、再生する装置。
撮影時の色温度（または色の混合比率）、レンズのズーム状態、絞り値、焦点距離、シャッター速度、レンズ部の水平または垂直の傾き角、レンズ部の移動各速度のいずれかをレンズ制御部より受け取り、検出した人物の顔または物体と、レンズ部の距離を計算することにより、撮影した人物の顔または物体が、実際の人間の顔または物体の顔の大きさの想定範囲内であるかを判定する手段を具備することを特徴とする請求項８記載のコンテンツとメタデータを記録、再生する装置。
コンテンツの収録手段は、顔認識動作用ボタンを具備し、
前記人の顔の検出手段は、前記顔認識動作用ボタンを押した時に、前記映像に識別フラグを付ける手段と、
前記識別フラグが付いた位置を含んだ別途指定された時間範囲の映像に含まれる顔認識動作を行うことを特徴とする請求項８記載のコンテンツとメタデータを記録、再生する装置。
前記識別フラグが付いた位置を含む指定時間範囲の映像に対して行う顔認識動作は、前記コンテンツの収録手段が前記顔認識手段に割り当てることが可能なCPU演算能力に応じて、前記識別フラグが指し示す位置の映像に含まれる顔に対して収録後に非同期実行することを特徴とする請求項１１記載のコンテンツとメタデータを記録、再生する装置。
請求項１記載のコンテンツとメタデータを記録、再生する装置により生成されたメタデータをボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により呼び出す手段と、前記メタデータに関連付けられた映像（フレームまたはフィールド）を呼び出す共に、前記メタデータを別の映像（フレームまたはフィールド）に新たに関連つける手段を具備することを特徴とするコンテンツ処理装置。
請求項１または請求項８記載のコンテンツとメタデータを記録、再生する装置により生成されるメタデータに優先度を付加し、別途指定された長さの各映像をそのメタデータの優先度の高い順に各々抽出して、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定される長さのコンテンツを生成する手段を具備することを特徴とするコンテンツ処理装置。
請求項１または請求項８記載のコンテンツとメタデータを記録、再生する装置により生成されるメタデータを用いて編集リスト（ＥＤＬ：ＥｄｉｔＤｅｃｉｓｉｏｎＬｉｓｔ）を生成する手段と、前記編集リストに従ってコンテンツを編集する手段を具備することを特徴とするコンテンツ処理装置。
生成コンテンツをファイル形式で出力する手段を具備することを特徴とする請求項１４又は１５記載のコンテンツ処理装置。
前記ファイル形式コンテンツの生成用の編集リストからコンテンツのタイトル、目次情報または包含メタデータ情報を生成する手段と、前記コンテンツのタイトル、目次情報、前記コンテンツに含まれるメタデータ、または前記コンテンツのプレイリストをネットワークを介して別のユーザに開示する手段を具備することを特徴とする請求項１６記載のコンテンツ処理装置。
少なくとも前記プレイリストをインターネット上のサーバーで公開し、前記サーバーにアクセスするユーザにＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ）形式でＡＶコンテンツの再生に関連する情報を知らせることを特徴とする請求項１７記載のコンテンツ処理装置。
請求項１記載のコンテンツとメタデータを記録、再生する装置の、前記少なくとも一つの手段と、前記記録制御手段としてコンピュータを機能させるためのプログラム。
請求項１９記載のプログラムを記録した記録媒体であって、コンピュータにより処理可能な記録媒体。