JP2007082088A - コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム - Google Patents
コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム Download PDFInfo
- Publication number
- JP2007082088A JP2007082088A JP2005270092A JP2005270092A JP2007082088A JP 2007082088 A JP2007082088 A JP 2007082088A JP 2005270092 A JP2005270092 A JP 2005270092A JP 2005270092 A JP2005270092 A JP 2005270092A JP 2007082088 A JP2007082088 A JP 2007082088A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- content
- data
- recording
- character data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Studio Circuits (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【課題】ムービー等で撮影したコンテンツの管理、視聴時の映像・音声高速呼び出し(頭だし)、編集などの作業能率が従来悪かった。
【解決手段】手動又は自動でコンテンツのシーンを登録し、または、コンテンツの音声や映像を認識して文字データに変換し、文字データを映像フレームを構成するデータ部に挿入するか、または、文字データをタイムコードと共に文字データの専用ファイルに記録することにより、シーンをマーキングするメタデータまたは文字データを、前記コンテンツと関連するメタデータとして媒体に記録する101、105。
【選択図】図1
【解決手段】手動又は自動でコンテンツのシーンを登録し、または、コンテンツの音声や映像を認識して文字データに変換し、文字データを映像フレームを構成するデータ部に挿入するか、または、文字データをタイムコードと共に文字データの専用ファイルに記録することにより、シーンをマーキングするメタデータまたは文字データを、前記コンテンツと関連するメタデータとして媒体に記録する101、105。
【選択図】図1
Description
本発明はカメラ撮影時に取得できるコンテンツ(映像、音声、データ)からメタデータを生成し、情報記録媒体にコンテンツとメタデータを記録、再生する装置に関するものであり、重要シーンの検索と早見を実現する再生装置、編集システムに関して好適なものである。
従来、カメラ撮影されたコンテンツの編集作業はマスターとなる媒体(テープ、ディスクなど)上に記録されているオリジナルコンテンツ(映像、音声、データ)をコンテンツ制作者の意図に応じて選択、合成する作業であり、非常に多くの手間と時間を要する作業である。また編集作業に要する作業量及び作業時間は放送用や業務用、または家庭用などコンテンツの分野や内容に応じて大きく異なる。
放送の分野におけるニュースやスポーツ番組の編集において、素材テープから数秒単位の映像コンテンツを抽出するのに多くの労力が必要である上、抽出したコンテンツが最もふさわしいシーンであるかどうかの信憑性に課題が残る。さらに、スポーツや運動会で特定の人物を追随して撮影する場合、撮影対象の動きが早かったり撮影者が撮影作業に集中できなくなると撮影対象が撮影ファインダーからフレームアウトしてしまうという課題がある。また、撮影場面(シーン)に関連したキーワードをタグとして自動で付加する方法や、簡単な動作でタグを付加する方法も確立されていないため、撮影コンテンツから求める場面にすぐにアクセスする、または、瞬時に頭出しして視聴することが困難である。
視聴だけでなく、編集までの作業となると、撮影コンテンツの全貌を把握するのに、多くの作業を要し、結果として編集作業がコンテンツ制作に費用をかけることのできる放送など一部の分野に制限されてしまっている。
従来、メタデータ入力方法は特許文献1に記載されたものが知られている。収録される映像番組の各場面に関する番組付加データするため、入力フォームから対応場面を特定する情報を入力するものである。
また従来の編集支援システムは、特許文献2に記載されたものが知られている。これは、記録に関する各種の情報を示すメタデータであり、シリアル番号、カセット番号、コメントであるメタデータを用いて、記録した映像に関する文字情報を得、これにより、文字列を検索して、所望のシーンの映像を検索することにより編集作業を効率化するシステムである。
そこで、メタデータ入力方法と編集システムとして、特許文献3に記載されたものが知られている。まず、収録時に収録した画像に含まれる文字を検出し、検出された文字に文字認識を行い文字データを生成しメタデータとし、収録された画像データに付随させる。そして、収録時に自動的に生成されたメタデータを編集作業で活用することで、メタデータの入力に必要な労力と時間を必要としない。
また、カチンコやメモに書かれている文字データでも認識を行えるため、編集に直接関連している情報をメタデータとして与えることが容易なので、メタデータを編集作業にそのまま活用できるという特徴を持つ。
特開2002−152694号公報
特開2001−292407号公報
特開2005−39534号公報
しかしながら上記した従来の方式ではメタデータを収録後に映像を見ながら、入力フォームにより人間の手で入力しなければならない。そのため、入力のための労力、時間を要する、と言う課題を有している。
また、画像に付加されているメタデータがシリアル番号、カセット番号等から文字列信号を生成した場合、直接、編集に必要な情報をピンポイントで検出することが難しいと言う課題も有している。また、文字以外の情報、音声や人物や物体から直接メタデータを生成することができないという課題を有する。
またメタデータにはリアルタイムで生成するもの(リアルタイムメタデータ)と、リアルタイムで生成できないもの(非リアルタイムメタデータ)があり、リアルタイムメタデータと非リアルタイムメタデータ各々をストリームやファイルへどの様に関連付けるかなど取り扱いが複雑となり、これらを活用した高速な頭だし、高速な編集、高速なプレイリスト生成など効率的な処理方法が確立されていないという課題がある。
収録時に収録したコンテンツ(映像、音声、データ)の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連づける。収録時に生成したメタデータを頭だしや編集作業などで活用することにより、大幅な作業能率の向上を図ることができる。
リアルタイムメタデータをAVストリームに挿入し、非リアルタイムメタデータをメタデータ専用ファイルに挿入して、各々を記録することにより、頭だし、編集、プレイリスト生成を効率化する。特に、撮影時に音声認識または画像認識を行う場合、該映像フレームにマーキングを挿入すると共に、該映像フレームのタイムコードを非リアルタイムの音声認識および画像認識で生成したメタデータに関連付け、非リアルタイムデータとして登録する。
また、撮影時にリアルタイムに生成するメタデータをAVストリームに挿入するだけでなく、リアルタイムメタデータ群より選択したメタデータをタイムコードと共に非リアルタイムデータファイルにも記録する。
さらに、メタデータを用いてプレイリスト編集は映像、音声、およびメタデータへのポインタを用いて実行することにより、編集によるデータ量の増加を抑え、かつ効率の高い検索システムを実現できる。
以上の発明により、ムービー等で撮影した映像、音声より該映像、音声のメタデータを活用して、コンテンツやデータの管理、視聴時の映像・音声高速呼び出し(頭だし)、編集などの作業能率を従来よりも大幅に向上することができる。
また、メタデータは、該メタデータと関連付けた映像・音声へのポインタとペアで専用ファイルにて管理するため、従来よりも検索効率を高くすることができる。
たとえば、収録時に収録したコンテンツ(映像、音声、データ)の映像に含まれる人物、物体を画像認識し、音声に含まれるキーワードなど音声の認識を行ない、それぞれの認識結果を文字データに変換してメタデータを生成する。そして、このメタデータを収録されたコンテンツと関連付ける。収録時に自動生成したメタデータや、簡単な動作で生成したメタデータを、頭出しや編集作業で活用し、大幅な作業能率の向上を図ることができる。
さらに、画像認識手段で人を認識した場合、その人の着用している衣類やまた持っている鞄などを画像データベースに登録し、その人物と関連付けておくことより、視聴時の問い合わせに対して検索を簡単に実行できる。
また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケを構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記することにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを容易に作成できる。よって、コンテンツの再利用が促進される。
また、ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えてプレイリストを生成することにより、ダイジェスト再生などが可能となる。
また、プレイリスト出力手段を持つことにより、プレイリストを外部に出力し、外部機器からプレイリストに従ったAVコンテンツだけを出力することができる。よて、リモートからのプレイリストによるダイジェスト再生が可能となる。
さらに、メタデータ時刻修正手段を追加することによりプレイリストによる再生で、プレイリストとAVコンテンツ間のフレームまたはフィールド誤差取り除くことができる。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となり、AV信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。
(実施の形態1)
図1は本発明の実施の形態1の説明図であり、カメラにおいて記録媒体(またはバッファメモリ)上に映像データと音声データとメタデータを作成するシステムのモデルを示している。101はカメラ、102はカメラのレンズ部、103はカメラのマイク、104はカメラの撮影対象(風景や人やペットなどの動物、車、建造物などの物)である。また、105はカメラで撮影したデータであり、映像データ106、音声データ107、メタデータ108により構成される。109はカメラで撮影されたデータシーケンスであり、時間軸上に映像、音声、メタデータが配置されている。メタデータはテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしても良い。また、1010は、記録・ポーズ・停止などのボタンであり、1011は音声の有無識別、または、音声と音楽の識別、または、人物の有無の識別、または、背景の歓声の大きさまたはトーンの変化、または、背景の変化、のいずれかに関する情報を用いてシーンを自動マーキングしてメタデータとして出力するシーン登録手段である。
図1は本発明の実施の形態1の説明図であり、カメラにおいて記録媒体(またはバッファメモリ)上に映像データと音声データとメタデータを作成するシステムのモデルを示している。101はカメラ、102はカメラのレンズ部、103はカメラのマイク、104はカメラの撮影対象(風景や人やペットなどの動物、車、建造物などの物)である。また、105はカメラで撮影したデータであり、映像データ106、音声データ107、メタデータ108により構成される。109はカメラで撮影されたデータシーケンスであり、時間軸上に映像、音声、メタデータが配置されている。メタデータはテキスト形式の文字データとして扱うが、バイナリィ形式のデータとしても良い。また、1010は、記録・ポーズ・停止などのボタンであり、1011は音声の有無識別、または、音声と音楽の識別、または、人物の有無の識別、または、背景の歓声の大きさまたはトーンの変化、または、背景の変化、のいずれかに関する情報を用いてシーンを自動マーキングしてメタデータとして出力するシーン登録手段である。
ここでデータシーケンス109は、抽出されたシーン#1からシーン#5までを含んでいる。111は編集により、シーン#1からシーン#5までをつなぎ合わせたデータシーケンスである。ユーザはリモコン110によるリモート制御により、編集されたデータシーケンスの順番で各シーンをTV112に一覧表示することができる。
113はメタデータ入力用ボタンであり、3つのボタンにより構成されている。カメラで撮影中に重要な場面でメタデータ入力用ボタンを押すことにより、その重要な撮影場面(シーン)にマークをつけることができる(マーキング機能)。この重要シーンを指すマークもメタデータであり、このメタデータを利用することにより、撮影後にマーク検索によりマークを付けたシーン(シーンの先頭または代表となるフレームの映像、またはそれらのサムネイル映像)を素早く呼び出すことができる。3つのボタンは、たとえば、1つ目のボタンは重要シーンの登録に、2つ目のボタンはボタン操作を有効にしたり文字入力モードに切替えるモード切替えに、3つ目のボタンは登録のキャンセルに、それぞれ使用する。また、1つ目のボタンを押している期間を重要シーンとして登録するモードに切替えることもできる。さらに、1つ目のボタンを押した時点の前後5秒、あるいは前5秒、後10秒の合計15秒を重要シーンとして登録するモードに切替えることもできる。ボタンが3つあれば、押すボタンの種類、タイミング、押す長さの組み合わせにより、多くの機能に利用することができる。また、1つ目と2つ目のボタンを同時に押すと音声認識が動作する。
ここで、#1から#5までのシーンの時間長は任意である。ユーザーはカメラ撮影した撮影素材であるデータシーケンスから、各シーンの開始位置(時間)と終了位置(時間)、または長さを選択して、各シーンを並べ替えることができる。各シーンをTVモニターなどに表示する場合、そのシーンの先頭または先頭以降最後尾のフレーム(またはフィールド)映像をそのシーンを代表する映像として表わすことができる。
なお、マーキングするために、上記のように専用の3つのボタンを操作してシーンを登録する手段を利用する方法の他に、シーンを自動または手動でマーキングしてメタデータとして出力するシーン登録方法として、ムービーの記録・ポーズ・停止などのボタン1010操作を利用する方法や、音声の有無識別、音声と音楽の識別、人物の有無の識別、歓声の大きさ、種類の変化、景色の変化などを認識してシーンを登録する手段1011を用いることができる。
ここで、本実施の形態で使用する映像圧縮方式であるAVC方式、および音声圧縮方式であるAAC方式について説明する。図2は、図1のカメラ101が内部に持つAV信号圧縮記録制御手段における映像と音声の圧縮エンジンとその周辺処理手段の構成をより詳細に説明する図である。図2における代表的な構成要素として、映像符号化201、VCL(Video Coding Layer)−NAL(Network Abstraction Layer)ユニットバッファ202、AAC方式による音声符号化部203、PS(Parameter Set)バッファ204、VUI(Video Usability Information)バッファ(205)、SEI(Supplemental Enhancement Information)バッファ206、non−VCL−NALユニットバッファ207、MPEG−TSマッピング処理手段208などにより構成される。図2に示すように入力された映像信号を映像符号化手段202において、VCL NALユニット形式のデータに変換してVCL NAL unit バッファ202で一時保持する。また、音声信号、メタデータ、外部入力PS(Parameter Set)データ、外部入力VUI(Video Usability Information)データ、外部入力SEI(Supplemental Enhancement Information)データをNon VCL NALユニット形式のデータに変換して、Non VCL NALユニットバッファ207で一時保持する。
VCL NAL unit バッファ202の出力であるVCL NALユニット形式のデータと、Non VCL NALユニットバッファ207の出力であるNon VCL NALユニット形式のデータをMPEG−PESパケット生成手段208に入力し、MPEG−PESパケットを生成する。さらに、MPEG−PESパケット生成手段208の出力であるMPEG−PESパケットはMPEG−TS生成手段209に入力され、MPEG−TS(MPEG Transport Packet)を生成する。
MPEG−TS生成手段209はMPEG−TS(188バイト長)を出力し、ATSパケット生成手段210において各MPEG−TSパケットのヘッダーとしてタイムスタンプを含む4バイトのヘッダーを付加して、192バイトのATS(Arrival Time Stamp)パケットを生成して出力する。このタイムスタンプは各MPEG-TSパケットがATSパケット生成手段210に到着した時刻を示す。なお、タイムスタンプのクロックは27MHzである。なお、4バイト全てが他無スタンプでもよいし、4バイトの内、30ビットをタイムスタンプとし、残りの2ビットはコンテンツ保護のためのフラグなどに使用することもできる。
また、ATSパケット生成手段210は、ストリームが包含する各GOP(Group of Picture)先頭ピクチャーのPTS(Presentation Time Stamp)、および各GOPの先頭ピクチャーにおける先頭ATSの連番をペアで、EP−MAPとして出力する。なお、PTSやDTS(Decode Time Stamp)はPESパケットのヘッダーに含まれるので抽出は容易である。また、各GOPの先頭ピクチャーにおける先頭ATSの連番とは、ストリーム先頭のATSの連番を1とし、ストリーム先頭からのATSの個数を順次数えた番号である。各GOPの先頭ピクチャーのPTSとATS連番のペアであるEP−MAPとストリーム編集、プレイリストの関係は後ほど述べる。
H.264/AVC方式についての解説は、たとえば、「H.264/AVC教科書」、大久保榮監修、株式会社インプレス発行などがある。また、MPEG−TS(Moving Picture Experts Group、Transport Stream)信号はIEC 61883−4で規定されている。MPEG−TSはMPEGトランスポートパケット(TSパケットと略す)が複数個集まったものである。TSパケットは188byteの固定長パケットで、その長さはATMのセル長(53バイト中、ATMペイロードは47バイト)との整合性、およびリードソロモン符号などの誤り訂正符号化を行なう場合の適用性を考慮して決定されている。
TSパケットは4byte固定長のパケットヘッダと可変長のアダプテーションフィールド(adaptation field)およびペイロード(payload)で構成される。パケットヘッダにはPID(パケット識別子)や各種フラグが定義されている。このPIDによりTSパケットの種類を識別する。adaptation_fieldとpayloadは、片方のみが存在する場合と両方が存在する場合とがあり、その有無はパケットヘッダ内のフラグ(adaptation_field_control)により識別できる。adaptation_fieldは、PCR(Program_Clock_Reference)等の情報伝送、および、TSパケットを188byte固定長にするためのTSパケット内でのスタッフィング機能を持つ。また、MPEG−2の場合、PCRは27MHzのタイムスタンプで、符号化時の基準時間を復号器のSTC(System Time Clock)で再現するためにPCR値が参照される。各TSパケットに付加するタイムスタンプのクロックは、たとえば、MPEGのシステムクロック周波数に等しく、パケット送信装置はさらに、TSパケットを受信し、受信したTSパケットに付加されたタイムスタンプより、MPEG−TSのネットワーク伝送によりProgram Clock Reference(PCR)に付加された伝送ジッターを除去して、MPEGシステムクロックの再生を行うクロック再生手段を備える。
MPEG−2のTSでは復号器のSTCはPCRによるPLL同期機能を持つ。このPLL同期の動作を安定させるためにPCRの送信間隔は、MPEG規格で100msec以内と決められている。映像や音声などの個別ストリームが収められたMPEG−PESパケットは同じPID番号を持つ複数のTSパケットのペイロードに分割して伝送する。ここで、PESパケットの先頭は、TSパケットの先頭から開始するように構成される。
トランスポートストリームは複数のプログラムを混合して伝送することができるため、ストリームに含まれているプログラムとそのプログラムを構成している映像や音声ストリームなどのプログラムの要素との関係を表すテーブル情報が用いられる。このテーブル情報はPSI(Program Specific Information)と呼ばれ、PAT (Program Association Table)、PMT(Program Map Table)などのテーブルを用いる。PAT、PMTなどのPSIはセクションと呼ばれる単位でTSパケット中のペイロードに配置されて伝送される。
トランスポートストリームは複数のプログラムを混合して伝送することができるため、ストリームに含まれているプログラムとそのプログラムを構成している映像や音声ストリームなどのプログラムの要素との関係を表すテーブル情報が用いられる。このテーブル情報はPSI(Program Specific Information)と呼ばれ、PAT (Program Association Table)、PMT(Program Map Table)などのテーブルを用いる。PAT、PMTなどのPSIはセクションと呼ばれる単位でTSパケット中のペイロードに配置されて伝送される。
PATにはプログラム番号に対応したPMTのPIDなどが指定されており、PMTには対応するプログラムに含まれる映像、音声、付加データおよびPCRのPIDが記述されるため、PATとPMTを参照することにより、ストリームの中から目的のプログラムを構成するTSパケットを取り出すことができる。TSに関する参考文献としては、例えば、CQ出版社、TECH I Vo.4、「画像&音声圧縮技術のすべて(インターネット/ディジタルテレビ、モバイル通信時代の必須技術)」、監修、藤原洋、第6章、「画像や音声を多重化するMPEGシステム」があり、同書にて解説されている。
PSIやSIに関する論理的な階層構造、処理手順の例、選局処理の例に関して、「デジタル放送受信機における選局技術」、三宅他、三洋電機技報、VOL.36、JUNE 2004、第74号、31ページから44ページにて解説されている。
ところで、文字データや文字データにフォーマット情報を加えた情報などで構成されるメタデータはSEIバッファ206に入力する。ここでは、メタデータはSEIのUser Data Unregistered SEIに格納する。ここで、カメラ101が内部に持つ記録制御手段(通常、マイコンにより構成される)は、処理タイミングとして文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合は、「該文字データ」または「該文字データにフォーマット情報を加えた情報」を、該映像フレームを構成するデータ部に挿入するように制御し、処理タイミングとして前記文字データを前記ストリームの該文字データが発生した該映像フレーム内に挿入できない場合は、該映像フレームにマーキングを挿入すると共に、前記文字データを「前記文字データの発生タイムコードまたは前記マーキング記録場所情報」と共に前記文字データの専用ファイルに記録するように制御する。
なお、処理タイミングとして文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合(メタデータへの変換時間が、あらかじめ設定されたスレッショルド時間以下の場合)でも、「該文字データ」または「該文字データにフォーマット情報を加えた情報」を、該映像フレームを構成するデータ部と専用ファイルの両方に記録するように制御するようにかめら101の動作モードを設定することができる。
メタデータの種類としては、映像や音声のフォーマット情報や、映像フレームを示すタイムコードや前述したメタデータ以外にも、一般的なデータをメタデータ化したメタデータ、また、デジタル放送を受信してそのSI(Service Information; 番組配列情報)より得るメタデータ、EPG提供事業者より得たEPG情報などのメタデータ、Internetから得たEPGなどのメタデータ、また、個人でムービー撮影したAVコンテンツ(静止画、音声、クリップなどの動画)に関連付けたメタデータなどがある。メタデータの形式としては、たとえば、UPnPやUPnP−AVの標準仕様として、プロパティ(property)やアトリビュート(attribute)があり、http://upnp.orgで公開されており、XML(Extensible Markup Language)やBML(Broadcast Markup Language)などの記述言語で表現できる。http://upnp.orgにおいて、例えば、「Device Architecture V 1.0」、「ContentDirectory:1 Service Template Version 1.01」、「MediaServer V 1.0 and MediaRenderer V 1.0」に関して、「MediaServer V 1.0」、「MediaRenderer V 1.0」、「ConnectionManager V 1.0」、「ContentDirectory V 1.0」、「RenderingControl V 1.0」、「AVTransport V 1.0」、「UPnP―AV Architecture V .83」などの仕様書が公開されている。また、メタデータ規格に関しては、EBUのP/Meta、SMPTEのKLV方式、TV Anytime、MPEG7などで決められたメタデータ形式があり、「映像情報メディア学会誌、55巻、3号、情報検索のためのメタデータの標準化動向」などで解説されている。
なお、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が各メタデータに価値を付け、コンテンツを利用するユーザーの利用内容や頻度により利用料金を徴収するために、各メタデータに価値を与えるメタデータを関連づけることができる。この各メタデータに価値を与えるメタデータは該メタデータのアトリビュートで与えてもよいし、独立したプロパティとして与えてもよい。たとえば、録画機器と録画条件に関する情報、すなわち、ムービーの機器ID、ムービーなどの撮影者、コンテンツ制作者、またはコンテンツの著作権者が作成、登録するメタデータの価値が高くて使用許諾が必要と考える場合、該メタデータの利用には認証による使用許諾のプロセスを実行する構成を本発明に組み込んだ構成をとることもできる。
たとえば、自分で撮影した動画コンテンツを暗号化したファイルを作成し、Internet上のサーバーにその暗号化ファイルをアップロードする。その暗号化ファイルの説明や一部の画像などを公開して、気にいった人に購入してもらう構成をとることもできる。また、貴重なニュースソースが録画できた場合、複数の放送局のニュース部門間で競売(オークション)にかける構成をとることもできる。
これらメタデータを活用することにより、多くのAVコンテンツから所望のコンテンツを検索する、ライブラリに分類する、記録時間を長時間化する、自動表示を行う、コンテンツ販売するなどコンテンツの効率的な利用が可能となる。記録時間を長時間化するには、価値の低い動画コンテンツは解像度を低くするとか、音声と静止画(たとえば、MPEGのIピクチャーやH.264のIDRピクチャーを抜き出してもよい)だけにするとか、静止画だけにするなどの構成をとることにより実現できる。
次に、図3を用いてH.264のストリーム構造を説明する。図3(A)はI(IDRを含む)、B,Pピクチャよりなる映像のGOP構造である。(B)は書くピクチャが、VCLおよびNon−VCLのNALユニットによって構成されていることを示している。NAL(video)は映像のNALユニットであり、NAL(Audio)は音声のNALユニットであり、NAL(SEI)はSEIのNALユニットである。NAL(SEI)にはリアルタイムで生成するメタデータを挿入することができる。リアルタイムで生成するメタデータとしては、映像フレームに同期しているタイムコードや、重要なシーンでボタンを押して付加するマーキング情報などがある。タイムコードとしては、SMPTEタイムコード(SMPTE 12M)、MTC(MIDI Time Code)、LTC(Longitudinal Time Code)、VITC(Vertical Interval ime Code)や、DV(IEC 61834、 IEC 61883)/DVCPRO(SMPTE 314M)のタイムコードで規定されているタイムコードがあり、これらのタイムコードより派生したタイムコードをメタデータとすることもできる。
図3(C)はPESパケットの構造を示しており、図3(B)の各ピクチャデータデータに対して、PESパケットヘッダーを付加してPESパケットを構成する。なお、PESパケットヘッダーには、ヘッダーオプションとしてMPEGのPTS/DTSを含めることができる。H.264の観点よりは、PESパケットを1AU(Access Unit)として扱う。
図3(C)のPESパケットは、188バイト毎に分割されMPEG−TSパケットが生成される(図3(D))。また、各MPEG−TSパケットには、タイムコードを含む4バイトのヘッダーが付加されATSパケットが構成される(図3(E))。
次に図4を用いて、プレイリストとストリームの関係について説明する。図2の説明で述べたが、ATSパケットは、ATSパケット生成手段210より、各GOPの先頭ピクチャーのPTSと先頭ATS連番のペアであるEP−MAP(図4、(B)に例を示す)と共に出力され、ストリームの編集やプレイリストの作成に用いられる。図4(A)はプレイリストの一例であり、「2005年運動会」という名前を持つプレイリストオブジェクト、「name_2005年運動会」である。また、「name_2005年運動会」は、2つのプレイアイテム(PlayItem)、「演技」と「かけっこ」という名前を持つプレイアイテムオブジェクト、「iname_演技」、「iname_かけっこ」から構成されている。「iname_演技」、「iname_かけっこ」のIN点、OUT点は、それぞれのピクチャーが属するPTSと、ストリーム先頭からのATS連番のペアで示す(図4(B))。プレイアイテムはストリームを特定し、ATS連番より特定されたストリームの先頭からの位置を192バイト単位で特定する。図4、(B)、(C)において、「iname_演技」は、それぞれストリーム上の(1)から(2)、「iname_かけっこ」は(3)から(4)で与えられる。
次に図4を用いて、プレイリストとストリームの関係について説明する。図2の説明で述べたが、ATSパケットは、ATSパケット生成手段210より、各GOPの先頭ピクチャーのPTSと先頭ATS連番のペアであるEP−MAP(図4、(B)に例を示す)と共に出力され、ストリームの編集やプレイリストの作成に用いられる。図4(A)はプレイリストの一例であり、「2005年運動会」という名前を持つプレイリストオブジェクト、「name_2005年運動会」である。また、「name_2005年運動会」は、2つのプレイアイテム(PlayItem)、「演技」と「かけっこ」という名前を持つプレイアイテムオブジェクト、「iname_演技」、「iname_かけっこ」から構成されている。「iname_演技」、「iname_かけっこ」のIN点、OUT点は、それぞれのピクチャーが属するPTSと、ストリーム先頭からのATS連番のペアで示す(図4(B))。プレイアイテムはストリームを特定し、ATS連番より特定されたストリームの先頭からの位置を192バイト単位で特定する。図4、(B)、(C)において、「iname_演技」は、それぞれストリーム上の(1)から(2)、「iname_かけっこ」は(3)から(4)で与えられる。
なお、「iname_演技」、「iname_かけっこ」など行事のプログラム構成を事前に機器に登録しておき、撮影時に登録された情報を選択してメタデータとして登録することもできる。さらに、行事が終わった後でも、プログラムを登録することもできるし、登録内容を修正することができる。
次に図5を用いて、1つのプレイリストが複数のストリームより構成されている場合について説明する。図5は一例であり、「運動会のかけっこ」という名前を持つプレイリストオブジェクト、「name_運動会のかけっこ」である。また、「name_運動会のかけっこ」は、2つのプレイアイテム、「2004年かけっこ」と「2005年かけっこ」という名前を持つプレイアイテムオブジェクト、「iname_2004年かけっこ」」、「iname_2005年かけっこ」」から構成されている。「iname_2004年かけっこ」、「iname_2005年かけっこ」のIN点、OUT点は、それぞれのピクチャーが属するストリームオブジェクトと、PTSとストリーム先頭からのATS連番のペアで特定する(図5)。
次に図6を用いて、動画ファイル、静止画ファイル、メタデータの情報記録媒体への記録ディレクトリ構造の一例について説明する。図6において、root下に、「Movie」、「Still Picture」、および、「Metadata」ディレクトリが存在する。
「Movie」ディレクトリ下には、管理ファイル群、「PLAYLIST」ディレクトリ、「CLIPINF」ディレクトリ、「STREAM」ディレクトリが存在する。また、「PLAYLIST」ディレクトリ下には、リアルタイムプレイリスト(ファイル)である「*.rpls」ファイル群とバーチャルタイムイムプレイリスト(ファイル)である「*.vpla」ファイル群が存在する。また、「CLIPINF」(クリップインフォメーション)ディレクトリには、クリップインフォメーションファイルであるである「*.clpi」ファイル群が存在する。「STREAM」ディレクトリ下にはATS(192バイト)により構成されるストリームファイルである「*.m2ts」ファイル群が存在する。
「Still Picture」ディレクトリ下には静止画であるである「*.jpeg」ファイル群が存在する。
「Metadata」ディレクトリ下には、「META_PLAYLIST」ディレクトリ、「USER_METADATA」ディレクトリが存在する。また、「META_PLAYLIST」ディレクトリ下には、プレイリスト(ファイル)内に存在するメタデータの内、選択されたメタデータを持つ「*.mtdt」ファイル群が存在する。「USER_METADATA」ディレクトリには、ムービーのメニュー設定に関する「MENU_INF」ディレクトリが存在する。ここには、ムービーのメニューで簡易編集を行った編集リスト、すなわち、EDL(Edit Decision List)も保存できる。また、ユーザーが独自に設定するプライベートなメタデータを格納する「USER_PRIVATE」ディレクトリ下が存在する。ここには、CLIP識別のための代表サムネイルやタイムコードなどを記録できる。
図6において、各プレイリストファイルはクリップインフォメーションファイルとメタデータファイルを関連付ける。また、各クリップインフォメーションファイルは、ATS(192バイト)により構成されるストリームファイルを関連付ける。ここで、大きな特徴としては、各プレイリストファイルがクリップインフォメーションファイルだけでなく、メタデータファイルを関連付けていることである。これにより、メタデータを用いた検索で、そのメタデータと関連付けられたプレイリスト、プレイアイテム、ストリームを見つけ出すことができるようになる。
ここで、図7にメタデータの例を示す。また、リアルタイムメタデータの例としては、重要シーンにおいてボタンなどを押した情報、またはボタン連動ピクチャーデータ、さらに、タイムコード、位置データ、各種の撮影データ(たとえば、撮影時の色温度(または色の混合比率)、レンズのズーム状態、絞り値、ゲイン、焦点距離、シャッター速度、レンズ部の水平または垂直の傾き角、レンズ部の移動各速度)などがある。また、ノン(非)リアルタイムメタデータとしては、メニュー情報、タイトルリスト、画像認識データ、音声認識データ、外部入力ファイル(テキスト、XML、バイナリデータの形式のファイルを外部インタフェースより入力)、インデックス情報、フォーマット情報、静止画、サムネイルなどがあり、これらのうち、任意のものを選択して使用する。たとえば、代表ピクチャーのサムネイル、シーンの説明文、タイムコードを選択して用いる。これらのメタデータをAVコンテンツと共に情報記録媒体に記録することにより、再生時、あるいは編集時に撮影パラメータが分かるので画質補正が容易に実行できる。たとえば、撮影時の色温度が分かれば、RGBの合成比率を変えることにより別の色温度に変換できるので、昼間に撮影した映像でも夕方の夕日の中での赤っぽい映像に変換できる。また、その逆の変換も可能である。
さて、図8は検索動作の説明図である。検索の目的としては、頭だし、粗編集、プレイリストの作成、また検索のためのメタデータマップの作成および再作成などである。図8のアルゴリズムにより、キーワード検索の場合も、イベント検索の場合も目的とするピクチャーデータなどを検索結果として探し出すことができる。
なお、図8の検索で探し出したピクチャーが求めるピクチャーよりずれている場合には、図9に示す方法で、登録ピクチャーを変更できる。すなわち、検索結果のピクチャーを中心として1秒程度の粗い間隔で代表画像群を時間軸上に表示し、最も近いピクチャーを指定すると、その指定されたピクチャーを中心に5フレーム刻み程度の間隔で代表画像群を時間軸上に表示する。5フレーム刻み程度の間隔で代表画像を更に指定すると、その指定されたピクチャーを中心に1フレーム刻みの間隔で代表画像群を時間軸上に表示する。ここで目的とするフレーム映像を得ることができる、クリップやプレイリストの代表画像やサムネイルとして再登録することができる。
また、プレイリストは、プレイリストが含むデータブロック集合の映像の内、静止画として収録されている映像フレームを表わすマーキングを持たせることもできる。たとえば、再生アプリケーションは、このマーキングを用いることにより、図6の静止画ファイルより静止画を即座に呼び出すことができる(静止画早見機能が実現できる)。
(実施の形態2)
次に実施の形態2について説明する。実施の形態1と同様の構成については説明を省略する。 図10を用いて、改良された動画ファイル、静止画ファイル、メタデータの情報記録媒体への記録ディレクトリ構造の一例について説明する。図10において図6と異なる点は、「Metadata」ディレクトリ下に、「META_DATA」ディレクトリが存在することである。「META_DATA」ディレクトリディレクトリは、メタデータとそのメタデータに関連するオブジェクト(1つ以上)へのエントリー(1つ以上)を持つテーブルなどを包含メタデータファイルとして持つ。ここで、このメタデータを包含するオブジェクトとは、プレイリスト、プレイアイテム、ストリーム、EP−MAP、静止画、代表ピクチャー、サムネイルデータ等である。この様に各メタデータが、関連するオブジェクトへの1つ以上のエントリを持つことにより、検索効率を上げることができる。
次に実施の形態2について説明する。実施の形態1と同様の構成については説明を省略する。 図10を用いて、改良された動画ファイル、静止画ファイル、メタデータの情報記録媒体への記録ディレクトリ構造の一例について説明する。図10において図6と異なる点は、「Metadata」ディレクトリ下に、「META_DATA」ディレクトリが存在することである。「META_DATA」ディレクトリディレクトリは、メタデータとそのメタデータに関連するオブジェクト(1つ以上)へのエントリー(1つ以上)を持つテーブルなどを包含メタデータファイルとして持つ。ここで、このメタデータを包含するオブジェクトとは、プレイリスト、プレイアイテム、ストリーム、EP−MAP、静止画、代表ピクチャー、サムネイルデータ等である。この様に各メタデータが、関連するオブジェクトへの1つ以上のエントリを持つことにより、検索効率を上げることができる。
図10において、メタデータは、「META_PLAYLIST」ディレクトリ、「USER_METADATA」ディレクトリ、「META_DATA」ディレクトリなどのファイルに重複して存在してもよい。たとえ、メタデータが複数のディレクトリ内に重複して存在しても、検索の目的による検索を開始するディレクトリを選択すればよい。たとえば、メタデータを用いた一般検索の場合には、「META_DATA」ディレクトリから開始するのが、最も検索効率が高い。また、「META_DATA」ディレクトリから開始した検索で、「META_DATA」ディレクトリに検索データが存在するのに、参照先のファイルなどが消失している場合は、メタデータとそのメタデータが指し示す実体ファイルの整合がとれていないので、メタデータディレクトリ内のデータを削除するか、消失マークをつけるかにより、メタデータファイルをより正しいファイルに更新することができる。
図11は、検索動作により関連するピクチャーを捜し出してTV画面上に表示する動作(例)の説明図である。検索目的は、「2004年運動会」に関連するピクチャー群の検索である。図11に示すように、検索により、「2004年運動会」というキーワードを持つプレイリストが検索されたとする。この場合、「2004年運動会」というキーワードを持つプレイリストに登録されている代表ピクチャー群(たとえば、代表ピクチャーのサムネイル、シーンの説明文、タイムコード)が図11のメタデータマップの様に構成される。このメタデータマップを用いて、図11右下のシーン#1からシーン#5の代表画像(またはサムネイル)がTV画面上に表示される。
(実施の形態3)
図12の動作について説明する。図12において、カメラ101で撮影した映像信号、音声信号は、それぞれAV信号入力手段1201に入力される。AV信号入力手段1201に入力された映像信号および音声信号は、それぞれ複数の系統に分けられバッファ(一時保持)された後、それぞれ音声と画像の認識ユニット手段1202およびAV信号圧縮記録制御手段1208に出力される。
図12の動作について説明する。図12において、カメラ101で撮影した映像信号、音声信号は、それぞれAV信号入力手段1201に入力される。AV信号入力手段1201に入力された映像信号および音声信号は、それぞれ複数の系統に分けられバッファ(一時保持)された後、それぞれ音声と画像の認識ユニット手段1202およびAV信号圧縮記録制御手段1208に出力される。
音声と画像の認識ユニット手段1202は、音声認識手段1203および画像の検出を行う画像認識手段1204を内蔵しており、各々入力された音声の認識および映像に含まれる画像の検出を行う。
ここで、音声認識手段1203はユーザーのボタン入力などにより辞書群1213内の複数の辞書A、辞書B、辞書Cなどから任意の辞書を選択する、そして、選択された辞書に登録された単語群データを用いて音声認識を行う。なお辞書A、辞書B、辞書Cの例としては、野球、サッカー、バスケットボールなどの各スポーツ分野別、あるいは、お誕生会、結婚式などのイベント別に設定して登録単語の語彙や単語数を書く分野にふさわしい内容に選択して絞り込んだ辞書とする。そこで、音声認識の実行前に認識を行う分野を選択すれば、音声認識動作における誤認識を削減し、認識率の向上を図ることができる。また、各辞書は、辞書登録データの追加削除管理手段214を介して、分野別辞書自体の追加と削除、また各分野別辞書内の登録単語の追加、削除ができる。たとえば、運動会の辞書に、親が自分の子供や知人の子供の名前を追加することが可能であり、子供の名前を音声認識でテキスト化してメタデータとして映像に関連付けて(紐付けてとも言う)記録することにより、再生時に子供の名前を指定(たとえば、再生時にTV画面上に表示された登録メタデータ一覧から選択)することにより、子供の映っている映像に素早くアクセス(クイックアクセス)できる。このように音声認識において、分野の選定と、分野別に絞った辞書でのキーワード登録の2段階で行うことにより、認識速度と精度を向上させることができる。
また、画像の検出を行う画像認識手段1204は、映像信号が1枚の絵を構成する映像フレームまたは映像フィールド(映像と略する)内の意味のある画像を検出、認識する。本実施の形態における画像の意味として、映像信号が1枚の絵を構成する映像内における意味のあるオブジェクト画像のこととする。画像認識手段1204は映像内の意味のあるオブジェクトとして人物、人の顔、動物(犬、猫などのペット)、車、電車、飛行機などの乗り物、家やビルなどの建造物、標識などを含んだ道路の景色、観光名所、田園、山岳、町の風景などの対象物がある。これら映像内の意味のあるオブジェクトに関する情報は、人や動物や物の特徴を記述した画像認識のデータベース1216より入力される。たとえば、人の顔を認識する場合には、映像(映像フレームまたは映像フィールド)中の人の顔を認識して、映像において人の顔が存在する領域を例えば四角い領域や丸い領域として認識する。
ここで認識された人の顔が存在する領域を例えば四角い領域や丸い領域は、たとえば、「非特定人物ナンバー1」、「非特定人物ナンバー123」などのメタデータを付ける。なお、連続する映像内で同人物と認識される人の顔に関する認識領域は、同じ非特定人物ナンバーを付けることにより、非特定人物ナンバーを削減できる。また、1秒や3秒など一定時間以上に渡って検出した場合のみ非特定人物ナンバーを付ける付加機能を追加することにより、非特定人物ナンバーを削減できる。すなわち、人の顔の検出手段は検出した人の顔を追尾し、同一人物には1つの識別フラグと識別時間の長さに関する情報を付加する。これにより、撮影者の意図に反して一部の時間だけチラリと見えた人物の認識を排除することができる。また、メタデータ生成するタイミングについては、メタデータ作成ボタンがユーザーにより押されたとき、としても良い。
さらに、映像画面上の位置により特定の大きさ以上の場合のみ非特定人物ナンバーを付加する機能を追加することによりさらに非特定人物ナンバーを削減できる。たとえば、画素数がVGAサイズ(横640ピクセル、縦480ピクセル)の場合、画面の真ん中(横320ピクセル、縦240ピクセル)の領域では、顔領域が縦、横60ピクセル以上の場合のみ検出し、画面の端の領域では、顔領域が縦、横40ピクセル以上の場合に検出する方法がある。これにより画面の真ん中で認識される人物の検出速度(計算速度)と精度を上げることができる。また、レンズの絞り値、ズームの値、焦点距離、水平方向のパンニング速度、垂直方向のパンニング速度、シャッター速度など撮影に関するパラメータをレンズ駆動・制御部(レンズ、サーボーモーター、マイコンなどにより構成される)より受け取ることにより、検出した人物とムービー(レンズ部)の距離や、検出した人物とムービーの距離の変化量を計算することができる。逆にレンズの焦点が適度に合っている領域に存在する人物の顔の大きさ、画素数の範囲を現実に存在する人間の顔の大きさ(現実的には、あごから額までの距離が25cm以下、顔の横幅が25cm以下)より規定できる。
ここで、前記識別フラグが付いた位置を含む指定時間範囲の映像に対して行う顔認識動作は、前記コンテンツの収録手段が前記顔認識手段に割り当てることが可能なマイコンなどのCPUの演算能力に応じて、前記識別フラグが指し示す位置の映像に含まれる顔に対して収録後に非同期に実行することができる。
以上の様に、音声と画像の認識ユニット手段1202は、音声認識および画像認識により得たテキスト情報をメタデータとしてメタデータ生成・同期・管理手段1207に入力する。メタデータ生成・同期・管理手段1207は時計1218より時刻情報を受け取っており、AV信号圧縮記録制御手段1208と連携して映像、音声、メタデータの時間管理(時刻同期)を行う。
メタデータ生成・同期・管理手段1207に入力される情報は、音声と画像の認識ユニット手段1202から入力されるメタデータだけでなく、カメラに付いた重要場面設定ボタンや静止画取得ボタンなどからのボタン入力情報を受け付けるユーザー情報入力手段1205や、カメラの動作状態を表わす各種パラメータ入力を受け付けるセンサー情報入力手段206からのメタデータなどがある。ここで、カメラの動作状態を表わすパラメータの例としては、GPSや携帯電話の位置センサーや加速度センサーを用いた存在位置、カメラの向きや傾き(仰角)情報、カメラ101が使用しているレンズ102の種類、ズーズ倍率、絞りなどの露光情報などがある。
さて、AV信号圧縮記録制御手段1208に入力された映像信号および音声信号および各種のメタデータは、それぞれに関連した映像信号、音声信号、メタデータ同士で紐付けを行う。この紐付けは、映像、音声、メタデータの発生した時間情報(タイムコード。精度としては、映像フレームや映像フィールドでよい。)を元に実行するが、ストリームやファイル中のデータ位置情報を用いて紐付け(関連付け)を行ってもよい。
AV信号圧縮記録制御手段1208は、映像圧縮としてMPEG−2(または、ITU−T規格 H.262)およびH.264/AVC方式の圧縮エンジン、また、音声圧縮としてMPEG−2 AAC(Advanced Audio Coding)、MPEG−1 レイヤ3(MP3)の圧縮エンジンを内蔵している。なお、圧縮エンジンはこれらに限らず、DV(IEC 61834)方式、DVCPRO方式(SMPTE 314M)、DivX Video方式(www.divx.com)、XviD方式、WMV9(Windows Media Video 9)方式(www.microsoft.com))や他の形式の圧縮エンジンを選択することもできる。本実施の形態では、映像圧縮としてH.264/AVC方式(以下、AVCと略す)、音声圧縮としてMPEG−2 AAC(以下、AACと略す)を選択しているとする。
図12において、AV信号圧縮記録制御手段1208で生成されたMPEG−TS信号は、記録媒体(または、バッファメモリ)1209内のAVデータファイル用ディレクトリ1210に記録(または、一時蓄積)される。なお、ここで、記録媒体(または、バッファメモリ)1209として半導体メモリ、光ディスク(DVD−RAM、DVD−R、BDなど)、HDD(ハードディスクドライブ)を用いることによりクイックアクセスが可能となるし、一部のデータ、たとえば、メタデータを修正したり追加したりすることが容易に実行できる。また、このMPEG−TS信号のタイトルはAV信号圧縮記録制御手段1208よりタイトルを記録媒体1209内のタイトルリスト/プレイリスト/ナビゲーションデータファイル用ディレクトリ1211に記録する。さらに、このMPEG−TS信号のメタデータはAV信号圧縮記録制御手段1208より記録媒体1209内のメタデータ用ディレクトリ1212に記録する。
次に、記録媒体1209に記録されたAVデータファイルの内、画像認識手段1204で検出された画像、たとえば、人(人物)の顔が誰であるか人の識別を行う方法について説明する。メタデータファイル1212には、画像認識手段1204で検出された画像がAVデータファイルに記録されたどのAVデータファイルのどの映像(映像フレームまたは映像フィールド)のどの位置にあるものであるかのメタ情報が記録されている。AV信号再生制御手段1217は、メタデータファイルより人の識別を行うデータ位置に関する情報を受け取りAVデータファイルより該当の画像データを呼び出す。そして、呼び出した画像データを人の特定を行う画像認識手段1215に入力する。画像認識手段1215は、画像認識のデータベース(人や動物や物の特徴を記述したデータベース)1216を用いて、照会された人が誰であるかを判定して、判定結果をメタデータファイルに追加する。この人の判定結果は、元のメタデータが前述の「非特定人物ナンバー123」である場合、人物判定結果、たとえば「田中次郎」が追加される。なお後にユーザーが確認した人物名と人物の顔が間違っていた場合、ユーザーは、管理制御手段1219のボタン入力を介して、正しい名前である「田中一郎」に修正できる。なお、ボタン入力でも、最近の携帯電話で一般化されているように文字入力が実現できる。また、一枚の映像(映像フレームまたは映像フィールド)における人物の人数は一人に制限されず、検知領域の最小サイズ以上であれば、何人でも検知できる。すなわち、一枚の映像に、「田中一郎」、「鈴木あゆこ」、「加藤奈津子」など複数の人物名が同時に存在できる。なお、メタデータ生成・同期・管理手段1207の設定によって、特定のファイルやファイル中の場面に対して、一枚の映像(映像フレームまたは映像フィールド)における人物の人数を特定の数、たとえば、5人に制限することができる。これにより人物データのデータ容量削減と、処理負荷の削減を図ることができる。
なお、画像認識手段1215において認識する対象が人の顔でなく、文字、動物、車など画像認識のデータベース(人や動物や物の特徴を記述したデータベース)1216内のそれぞれのデータベースファイルを参照して画像の認識、特定を行い、メタデータファイルに追加記述する。
たとえば、人を認識した場合、その人の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを画像データベースに登録し、その人物と関連付けておくことより、問い合わせに対応する検索を簡単に実行することができる。この場合、人物をUPnPのプロパティとし、その人物の着用している服、ネクタイ、メガネ、帽子、時計、靴、また持っている鞄やバッグを人物プロパティのアトリビュートと定義することもできる。
また、音楽や人や人の動きなど著作権の発生するものを自動認識する手段を具備することにより、コンテンツ素材より編集を行った完パケ(完成パケット、完成コンテンツ)を構成する各シーンの著作権関連項目を呼び出したり、表示したり、各著作権関連項目に著作権の管理元、連絡先、使用条件や著作権料などのメタデータを追記できる。これにより、もし撮影コンテンツに著作権処理が必要な場合、編集素材や完パケに対して必要な著作権処理のリストを用意に作成できる。よって、コンテンツの再利用が促進される。
さて、記録媒体1209から映像を再生する場合、ユーザーは管理制御手段1219よりAV信号再生制御手段1217にアクセスし、記録されているファイルタイトルから再生ファイルを選ぶ。ユーザーが複数のAVファイルの中から再生すべきファイルが特定できない場合には、ユーザーは管理制御手段1219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段1217に問い合わせる。AV再生制御手段1217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ1211およびメタデータファイルディレクトリ1212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段1220の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
ここでは、情報記録媒体にコンテンツとメタデータを記録、再生する際に、メタデータをボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により呼び出す手段と、前記メタデータに関連付けられた映像(フレームまたはフィールド)を呼び出す共に、前記メタデータを別の映像(フレームまたはフィールド)に新たに関連つける手段を持つことができる。また、メタデータに優先度を付加し、別途指定された長さの各映像をそのメタデータの優先度の高い順に各々抽出して、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定される長さのコンテンツを生成する手段をもつこともできる。
さて、上記のタイトルリストやメタデータ検索結果などから、再生すべきAVデータを特定した後は、ユーザーは目的のAVファイルを呼び出し再生する。なお、このAVファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段219を介してAV信号と紐付けをしたメタデータを使用することによりアクセスしたい場面にすぐにアクセスして再生することができる。
次に、第3の実施の形態を拡張した実施の形態について説明する。以下においては、実施の形態3と同じ部分は説明を省略し、異なる部分のみ説明する。図13は本実施の形態の説明図である。図13においては、プレイリスト生成・管理手段1301を新たに追加する。
プレイリスト生成・管理手段1301は、複数のAVファイルから任意のAV信号部を選択して自由に組み合わせて(編集して)、新たなAVファイルを生成する。この生成方法としては、管理制御手段1219においてユーザーがボタン入力で指定したファイルに対して、メタデータで指定される場面と、メタデータで指定されないがユ−ザが重要と考える場面を時間軸に沿って、AV信号出力手段1220の出力信号にサムネイル表示させる(図1の112参照)。なお、サムネイルはユーザーが指定した長さなど特定長の映像クリップの先頭画像(または、サムネイルの代表画像)である。ユーザーは表示されたサムネイル画像を見て、自分の編集したい映像クリップを選び、各クリップ中で使用するシーンを選択し、順番を変えて新たな映像ファイルを生成する。この作業で実際に生成しているのは、ファイルからのクリップ切り出し位置情報の組み合わせとしての、いわゆるプレイリストであり、このプレイリストをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211に登録する。この様にプレイリストを用いると、余分なAV信号のないコンパクトなファイルをバーチャルに生成できる。
さて、記録媒体1209から映像を再生する場合、ユーザーは管理制御手段1219よりAV信号再生制御手段1217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザーが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段1219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段1217に問い合わせる。AV再生制御手段217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ1211およびメタデータファイルディレクトリ1212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段1220の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
さて、上記のタイトルリスト、メタデータ検索結果に加えてプレイリストから、再生すべきAVデータを特定でき、特定後、目的のAVファイルを呼び出し再生する。なお、このAVファイル中の特定の場面にすぐにアクセスする場合、ユーザーは管理制御手段1219を介してAV信号と関連付けしたメタデータを使用することにより、アクセスしたい場面にすぐにアクセスして再生できる。
次に、本発明の第3の実施の形態の別の拡張例について説明する。以下においては、実施の形態3と同じ部分は説明を省略し、異なる部分のみ説明する。図14は本実施の形態の説明図である。図14においては、プレイリスト出力手段1401を新たに追加する。プレイリスト出力手段1401は、第3の実施の形態で生成されタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ1211に登録されたプレイリストを出力する。
記録媒体1209から映像を再生する場合、ユーザーは管理制御手段1219よりAV信号再生制御手段1217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段1219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段1217に問い合わせる。AV再生制御手段1217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ1211およびメタデータファイルディレクトリ1212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段1220の出力映像に重畳する。これによりユーザは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できる。なお、ここで、ユーザーへの検索結果の通知は、カメラに付いているファインダーなど一般の表示ディスプレイを用いてもよい。
さて、上記のタイトルリスト、プレイリストやメタデータ検索結果などから、再生すべきAVデータを特定した後は、ユーザーは目的のプレイリストをプレイリスト出力手段より出力する。
この様にプレイリストを出力するメリットを図15を用いて説明する。図15においてユーザー1とユーザー2がネットワークを介して接続されているとする。ネットワークの種類は問わず、IPベースのホームネットワークでもよいしインターネットでもよい。
ユーザー2がローカルのTV1508のリモコン1509から、ネットワークを介してリモートのムービー101にアクセスする場合を考える。ユーザー2がムービー101内の録画ファイルを遠隔から視聴する場合、ムービー101内のプレイリストに従ってAV信号を視聴できれば、プレイリストのファイルには編集前の余分なデータがない分、データ転送量が小さくなり、機器およびネットワークにかかる負荷を小さくできる。すなわち、ムービーでの生の撮影信号から不要な信号を削除して編集されたAV信号を、より効率的に視聴できる。
また、ユーザー1はAVファイル、AVファイルに関するメタデータおよびプレイリストをネットワーク1505内のサーバー1506や、ユーザー1ローカルのAVレコーダー1502、ユーザー2ローカルのAVレコーダー1502にアップロードできる。これにより、別のユーザー(たとえば、ユーザー3)がサーバー1506や、AVレコーダー1502、AVレコーダー1502にアクセスしてプレイリストに従ったAV信号を効率的に送受信することができる。
ここで、もし、ユーザー2や別のユーザー(たとえば、ユーザー3)が視聴したプレイリストよりもっと別のプレイリストを考案した場合、ユーザー2や別のユーザー(たとえば、ユーザー3)は新たなプレイリストを生成し、サーバー1506や、AVレコーダー1502、AVレコーダー1502にアップロードする。これにより、限られた数のAV信号(コンテンツ)から多くの編集タイトル(プレイリスト)を生成でき、AV信号(コンテンツ)を色々な観点から鑑賞することが可能となる。いわゆる、ネットワーク型の映像編集、制作をネットワークを介して共同で行うことも可能となる。
また、プレイリストを利用することにより別のアプリケーション(利用方法)も生まれる。たとえば、ムービー101からAV信号再生制御手段1217で低解像度のAV信号に変換して、メタデータと共に携帯電話1501に出力し、携帯電話1501でメタデータを用いて映像編集を行ない編集リスト(EDL)、または、プレイリストをムービー101に送る。TV1503はムービー101にアクセスし、プレイリストを選択し、ムービーでの生の撮影信号から不要な信号を削除してきれいに編集されたAV信号を視聴できる。
また、プレイリストに従ったAV信号をAVレコーダー1502やサーバー1505、AVレコーダー1507にアップロード(または、ダウンロード)することにより、ネットワークに繋がったユーザーはネットワークを介して、より完成度が高く編集されたAVコンテンツ信号を効率的に視聴できる。
本発明は、プレイリストを利用したAVコンテンツ視聴に発展させることもできる。たとえば、図15においてネットワーク1505をインターネットとした場合、ユーザー1はインターネット上のサーバー1506にブログ(Blog、Weblogの別名)形式のサイトを公開し、そのブログサイトにアクセスして登録した複数のユーザーにRSS(RDF Site Summary)形式でAVコンテンツの追加、更新情報を知らせることができる。ここでユーザー1はAVコンテンツとそのAVコンテンツに対応した複数のプレイリストを公開する。個々のプレイリストには、たとえば、そのAVコンテンツのダイジェスト版、簡易版、完全版、編集前の生コンテンツなどの解説が付けられており、AVコンテンツを視聴するユーザーは好みのプレイリストを選びAVコンテンツを視聴することができる。これは、デジタル放送におけるEPG(Electronic Program Guide)配信をインターネット上の放送配信メディアに拡張したシステムと考えることができる。ダイジェスト版は1セグ放送や携帯電話での有料または無料のコンテンツ配信に有効であり、簡易版や完全版、編集前コンテンツはWEB上での有料または無料のコンテンツ配信に有効である。ユーザー1はインターネットを通じて多くのユーザーに知らせることができるので、小規模な企業体や個人でも音声や映像のインターネットベースの放送局を開局できる。また、ユーザーは、RSSフィードによるインターネット上のAVコンテンツを自動的に収集する仕組みである、いわゆる、Podcasting(ポッドキャスティング)を利用してインターネット上のAVコンテンツを視聴できる。
さらに、ムービー101にインターネットに接続してサーバーとして働く機能を持たせる(IPネットワーク接続機能付きムービーカメラ101)。この場合、ユーザー1は撮影中のコンテンツをメタデータと一緒にインターネットを介してライブ配信できる。すなわち、ユーザー1はライブ撮影の音声と映像を音声認識や画像認識やボタン入力ですばやくメタデータ化し、XML文書としてRSSでインターネットで公開することにより、メタデータによる解説付きの生中継を全世界に行うことができる。
次に、本発明の第3の実施の形態のさらなる拡張例について説明する。以下においては、前述した実施の形態3の拡張例と同じ部分は説明を省略し、異なる部分のみ説明する。図16は本実施の形態の説明図である。図16においては、メタデータ時刻修正手段1601を新たに追加する。プレイリスト出力手段1401は、前述した実施の形態で生成されタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ211に登録されたプレイリストを出力する。
記録媒体1209から映像を再生する場合、ユーザーは管理制御手段1219よりAV信号再生制御手段1217にアクセスし、記録されているファイルタイトルおよびプレイリストから再生ファイルを選ぶ。ユーザーが複数のAVファイルの中から再生すべきファイルのタイトルまたはプレイリストが特定できない場合には、ユーザーは管理制御手段1219のユーザーインタフェース(ユーザーのボタン入力)より、検索キーワードを打ち込み、AV再生制御手段1217に問い合わせる。AV再生制御手段1217は、入力されたキーワードに全部または一部マッチングするメタデータをタイトルリスト/プレイリスト/ナビゲーションデータファイルディレクトリ1211およびメタデータファイルディレクトリ1212から検索して、その結果を、たとえばテキスト情報と該当映像のサムネイルをAV信号出力手段1220の出力映像に重畳する。これによりユーザーは検索結果を、テキストとサムネイルのペアとして、TV画面上で確認できるが、メタデータとサムネイルの間にムービー撮影者の意図しない時間ずれがあった場合、編集や視聴前にそのずれを修正する必要がある。そこでユーザーは、指定したメタデータに対するサムネイルを見ながら、管理制御手段1219よりボタン入力によりメタデータとサムネイルの時間ずれを映像のフレームまたはフィールド単位で修正(トリミング)する。このとき、メタデータ時刻修正手段1601がユーザーの指定した分だけメタデータに関連付けた映像信号の時間情報(タイムコードまたはデータ位置情報)を修正して新しい時間情報でメタデータと映像信号を関連付ける。これにより、ムービー撮影者や撮影監督などのユーザーは考えたとおりにメタデータと映像の同期を取ることが可能となる。よって、AV信号の編集効率をアップし、映像表現の高精度化、高度化を図ることができる。
(実施の形態4)
図17は本発明の実施の形態4の概念図である。ムービーカメラ1701において記録媒体であるSDカードメモリ1702に映像データと音声データとメタデータを記録する。SDカードメモリ1702をパソコン1703に挿入し、記録データ移動する。この際、前述の重要シーンやチャプタなどのメタデ−タがすでにSDカード上にあれば、パソコンにデータを移動して、プレイリストを確認してOKならば、その時点で自動的に粗編集やノンリニア編集を実行して完パケファイルを生成することができる。また、この編集されたファイルをほとんど自動的にDVD-R(1704)やDVD−RAMなどのメディアに記録、保存することができる。
図17は本発明の実施の形態4の概念図である。ムービーカメラ1701において記録媒体であるSDカードメモリ1702に映像データと音声データとメタデータを記録する。SDカードメモリ1702をパソコン1703に挿入し、記録データ移動する。この際、前述の重要シーンやチャプタなどのメタデ−タがすでにSDカード上にあれば、パソコンにデータを移動して、プレイリストを確認してOKならば、その時点で自動的に粗編集やノンリニア編集を実行して完パケファイルを生成することができる。また、この編集されたファイルをほとんど自動的にDVD-R(1704)やDVD−RAMなどのメディアに記録、保存することができる。
DVD−R1704をDVDプレーヤー1705で再生することにより、編集されたファイルをTV1706で視聴することができる。
図18はSDカード1702内のディレクトリ構造であり、交換用データのファイル構造を新たに示したものである。交換用データとしては、メタデータディレクトリとストリームディレクトリを持ち、それぞれ内部にメタデータファイルとストリームファイを持つ。
図19は、ネットワークによるデータ交換方法を示す図であり、3つのデータ交換方法を示している。データ交換方法1は、メタデータファイルとストリームファイルを別々に送る方法である。データ交換方法2は、メタデータファイルとストリームファイルを1つのストリームにマッピングして一緒に送る方法である。データ交換方法3は、メタデータファイルとストリームファイルを1つのファイルに包含グして一緒に送る方法である。これにより、情報記録媒体にコンテンツとメタデータを記録、再生する装置において、
生成コンテンツをファイル形式で出力する手段を具備することができる。
生成コンテンツをファイル形式で出力する手段を具備することができる。
なお、図20に動画だけでなく、重要シーンの静止画も一緒にデータ交換する場合のファイル構成を示す。さらに、図21のファイル構成により、重要シーンの静止画だけをメタデータとともにデータ交換することもできる。
また、本発明によればプレイリストの新たな利用方法として放送番組のプレイリスト配信を行うことができる。たとえば、ムービー101がTVチューナーを内蔵していて、TV放送を録画した場合、ユーザー1は録画したTV番組を前述の様に編集してそのプレイリストを生成する。この場合、ユーザー1は録画番組のタイトルとプレイリストだけをインターネット上のサーバーに公開する。他の一般ユーザ(たとえば、ユーザー123とする)もユーザー1と同じ番組を録画している場合、ユーザー123はユーザー1の生成したプレイリストをダウンロードすることにより、自分(ユーザー123)の録画したTV番組をユーザー1が生成したプレイリストに従った未知のストーリー仕立てで自分で録画した番組を視聴できる。たとえば、スポーツ番組ならばダイジェスト再生や、ニュースならばヘッドライン再生、CM(コマーシャル)だけを集めたプレイリストを生成できる。ここで、課題となるのは時刻同期であるが、ムービー、サーバーまたはAVレコーダーの時計精度を映像フレーム以内に合わせることは現在の技術で可能である。たとえば、日本のデジタル放送ではARIB規格で規定されたTOT(Time Offset Table)信号から共通の時刻情報を生成することができる。アナログ放送の場合には、標準電波や放送受信した映像フレームや音声の特徴より判別することができる。
また、本発明はテレビ録画だけでなく、映画やインターネット上での動画コンテンツ、携帯端末向けのコンテンツ作成にも応用できる。
メタデータはテキストデータとして前記コンテンツに付随させることもできるし、メタデータをバイナリデータとして前記コンテンツに付随させることもできる、また、メタデータをウォーターマークとして前記コンテンツに付随させることもできる。
また、メタデータはウォーターマークとして画像データの中に埋め込むこんだ形でコンコードし、記録再生、伝送受信した後、デコードして使うこともできる。なお、上記の説明では同一のメディアへの記録、蓄積を例としたが、関連付けの行ってある2つ以上のメディアにメタデータと映像データを別々に保存しても良い。また、関連付けの行ってあるメディアであればメタデータのみの保存、または映像データのみの保存、またはメタデータと映像データの2つを保存、のどれかを行っても良い。
なお、本発明のプログラムは、上述した本発明の装置の全部又は一部の手段の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムである。
また、本発明の記録媒体は、上述した本発明の装置の全部又は一部の手段の全部又は一部の機能をコンピュータにより実行させるためのプログラムを記録した記録媒体であり、コンピュータにより読み取り可能且つ、読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する記録媒体である。
なお、本発明の上記「一部の手段」とは、それらの複数の手段の内の、一つ又は幾つかの手段を意味する。
また、本発明の上記「手段の機能」とは、前記手段の全部又は一部の機能を意味する。
また、本発明のプログラムの一利用形態は、コンピュータにより読み取り可能な、ROM等の記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。
また、本発明のプログラムの一利用形態は、インターネット等の伝送媒体、光・電波・音波等の伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。
また、上述した本発明のコンピュータは、CPU等の純然たるハードウェアに限らず、ファームウェアや、OS、更に周辺機器を含むものであっても良い。
なお、以上説明した様に、本発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。
本発明はカメラ撮影時に取得できるコンテンツ(映像、音声、データ)からメタデータを生成し、入力する方法と、検索と頭だしが高速化された情報記録媒体にコンテンツとメタデータを記録、再生する装置、コンテンツ処理装置に関して好適なものである。
101 カメラ
102 カメラのレンズ部
103 カメラのマイク
104 カメラの撮影対象
105 カメラで撮影したデータ
106 映像データ
107 音声データ
108 メタデータ
109 カメラで撮影されたデータシーケンス
110 リモコン
111 編集により、シーン#1からシーン#5までをつなぎ合わせたデータシーケンス
112 テレビ(TV)
113 メタデータ入力用ボタン(重要シーン登録ボタン、静止画撮影ボタン)
102 カメラのレンズ部
103 カメラのマイク
104 カメラの撮影対象
105 カメラで撮影したデータ
106 映像データ
107 音声データ
108 メタデータ
109 カメラで撮影されたデータシーケンス
110 リモコン
111 編集により、シーン#1からシーン#5までをつなぎ合わせたデータシーケンス
112 テレビ(TV)
113 メタデータ入力用ボタン(重要シーン登録ボタン、静止画撮影ボタン)
Claims (20)
- 映像、音声またはデータのいずれかを含んだコンテンツをストリームに変換し、前記映像、前記音声または前記データに関するメタデータと共に情報記録媒体に記録し再生する装置において、
(1)記録時のカメラ制御、または、記録・ポーズ・停止などのボタン操作、または、音声の有無識別、または、音声と音楽の識別、または、人物の有無の識別、または、背景の歓声の大きさまたはトーンの変化、または、背景の変化、のいずれかに関する情報を用いてシーンを自動マーキングしてメタデータとして出力するシーン登録手段、または、(2)ユーザの操作によりシーンを手動でマーキングしてメタデータとして出力するシーン登録手段、または、(3)音声認識により前記コンテンツに含まれる音声を文字データに変換する音声認識手段、または、(4)音声認識により外部入力音声を選択して文字データに変換する音声認識手段、または、(5)前記コンテンツに含まれる映像内の人物または物体を認識して文字データに変換する画像認識手段の、少なくとも一つの手段を備え、
記録制御手段の設定により、前記文字データを、該文字データまたは該文字データにフォーマット情報を加えた情報を、該映像フレームを構成するデータ部に挿入するか、または、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録することにより、
前記シーンをマーキングするメタデータまたは前記文字データを、前記コンテンツと関連するメタデータとして前記情報記録媒体に記録することを特徴とするコンテンツとメタデータを記録、再生する装置。 - 前記記録制御手段は、
前記ストリームを収録する前に、前記文字データを前記ストリームにおいて該文字データが発生した映像フレーム部に前記文字データを挿入できる場合は、該文字データまたは該文字データにフォーマット情報を加えた情報を、該映像フレームを構成するデータ部に挿入するように制御し、
前記ストリームを収録する前に、前記文字データを前記ストリームの該文字データが発生した該映像フレーム内に挿入できない場合は、該映像フレームにマーキングを挿入すると共に、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録するように制御することを特徴とする請求項1記載のコンテンツとメタデータを記録、再生する装置。 - 前記文字データへの変換時間が前記スレッショルド値以下の場合でも、前記文字データの内、選択した文字データを、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルにメタデータとして記録することを特徴とする請求項1記載のコンテンツとメタデータを記録、再生する装置。
- 選択した文字データを、前記文字データを前記文字データの発生タイムコードまたは前記マーキング記録場所情報と共に前記文字データの専用ファイルに記録する場合、前記文字データが発生した映像フレームを構成するコンテンツデータにマーキングを挿入することを特徴とする請求項3記載のコンテンツとメタデータを記録、再生する装置。
- 前記ストリームの一部分を構成するデータブロックに関して、該データブロックの先頭データアドレスと終点データアドレスを指定するデータペアと、前記データペアとIN点、OUT点からなるタイムコードペアを相互変換する変換テーブルと、1つ以上のストリームに対して前記タイムコードまたは前記データペアを組み合わせたデータ群により構成されるプレイリストと、
前記プレイリストが含む前記データブロック集合に関連した前記文字データまたは前記マーキングを前記プレイリストのメタデータファイルとして生成する手段を具備することを特徴とする請求項1記載のコンテンツとメタデータを記録、再生する装置。 - 前記プレイリストは、前記プレイリストが含む前記データブロック集合の映像の内、静止画として収録されている映像フレームを表わすマーキングを持つことを特徴とする請求項5記載のコンテンツとメタデータを記録、再生する装置。
- 前記プレイリストに対応するコンテンツとメタデータのデータ交換において、
該プレイリストと、該プレイリストの前記メタデータファイルと、該プレイリストに関連したメタデータの少なくとも一部と、前記プレイリストが指定する該データブロックにより構成されるデータ群と、前記静止画の少なくとも一部とを交換することを特徴とする請求項6記載のコンテンツとメタデータを記録、再生する装置。 - 情報記録媒体に前記コンテンツの映像信号に含まれる人の顔または動物または物体等の対象物を検出する検出手段と、前記対象物の特徴データの辞書を参照して、前記検出手段で抽出された対象物の特徴より対象物を特定し文字データに変換し、メタデータとする手段とを備えたことを特徴とする請求項1記載のコンテンツとメタデータを記録、再生する装置。
- 前記検出手段は検出した対象物を追尾し、同一対象物には1つの識別フラグと識別時間の長さに関する情報を付加することを特徴とする請求項8記載のコンテンツとメタデータを記録、再生する装置。
- 撮影時の色温度(または色の混合比率)、レンズのズーム状態、絞り値、焦点距離、シャッター速度、レンズ部の水平または垂直の傾き角、レンズ部の移動各速度のいずれかをレンズ制御部より受け取り、検出した人物の顔または物体と、レンズ部の距離を計算することにより、撮影した人物の顔または物体が、実際の人間の顔または物体の顔の大きさの想定範囲内であるかを判定する手段を具備することを特徴とする請求項8記載のコンテンツとメタデータを記録、再生する装置。
- コンテンツの収録手段は、顔認識動作用ボタンを具備し、
前記人の顔の検出手段は、前記顔認識動作用ボタンを押した時に、前記映像に識別フラグを付ける手段と、
前記識別フラグが付いた位置を含んだ別途指定された時間範囲の映像に含まれる顔認識動作を行うことを特徴とする請求項8記載のコンテンツとメタデータを記録、再生する装置。 - 前記識別フラグが付いた位置を含む指定時間範囲の映像に対して行う顔認識動作は、前記コンテンツの収録手段が前記顔認識手段に割り当てることが可能なCPU演算能力に応じて、前記識別フラグが指し示す位置の映像に含まれる顔に対して収録後に非同期実行することを特徴とする請求項11記載のコンテンツとメタデータを記録、再生する装置。
- 請求項1記載のコンテンツとメタデータを記録、再生する装置により生成されたメタデータをボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により呼び出す手段と、前記メタデータに関連付けられた映像(フレームまたはフィールド)を呼び出す共に、前記メタデータを別の映像(フレームまたはフィールド)に新たに関連つける手段を具備することを特徴とするコンテンツ処理装置。
- 請求項1または請求項8記載のコンテンツとメタデータを記録、再生する装置により生成されるメタデータに優先度を付加し、別途指定された長さの各映像をそのメタデータの優先度の高い順に各々抽出して、ボタン入力またはキーボード入力またはマイクから入力される音声の音声認識または外部インタフェース入力により指定される長さのコンテンツを生成する手段を具備することを特徴とするコンテンツ処理装置。
- 請求項1または請求項8記載のコンテンツとメタデータを記録、再生する装置により生成されるメタデータを用いて編集リスト(EDL: Edit Decision List)を生成する手段と、前記編集リストに従ってコンテンツを編集する手段を具備することを特徴とするコンテンツ処理装置。
- 生成コンテンツをファイル形式で出力する手段を具備することを特徴とする請求項14又は15記載のコンテンツ処理装置。
- 前記ファイル形式コンテンツの生成用の編集リストからコンテンツのタイトル、目次情報または包含メタデータ情報を生成する手段と、前記コンテンツのタイトル、目次情報、前記コンテンツに含まれるメタデータ、または前記コンテンツのプレイリストをネットワークを介して別のユーザに開示する手段を具備することを特徴とする請求項16記載のコンテンツ処理装置。
- 少なくとも前記プレイリストをインターネット上のサーバーで公開し、前記サーバーにアクセスするユーザにRSS(RDF Site Summary)形式でAVコンテンツの再生に関連する情報を知らせることを特徴とする請求項17記載のコンテンツ処理装置。
- 請求項1記載のコンテンツとメタデータを記録、再生する装置の、前記少なくとも一つの手段と、前記記録制御手段としてコンピュータを機能させるためのプログラム。
- 請求項19記載のプログラムを記録した記録媒体であって、コンピュータにより処理可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005270092A JP2007082088A (ja) | 2005-09-16 | 2005-09-16 | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005270092A JP2007082088A (ja) | 2005-09-16 | 2005-09-16 | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007082088A true JP2007082088A (ja) | 2007-03-29 |
Family
ID=37941875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005270092A Pending JP2007082088A (ja) | 2005-09-16 | 2005-09-16 | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007082088A (ja) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007129532A1 (ja) * | 2006-05-10 | 2007-11-15 | Sony Corporation | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
JP2008283486A (ja) * | 2007-05-10 | 2008-11-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2009060542A (ja) * | 2007-09-03 | 2009-03-19 | Sharp Corp | データ送信装置、データ送信方法、視聴環境制御装置、視聴環境制御システム、及び視聴環境制御方法 |
JP2009200699A (ja) * | 2008-02-20 | 2009-09-03 | Pfu Ltd | 画像処理装置および画像処理方法 |
JP2009206602A (ja) * | 2008-02-26 | 2009-09-10 | Ntt Comware Corp | 録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システム |
JP2009211067A (ja) * | 2008-03-05 | 2009-09-17 | National Central Univ | Av(オーディオ・ビデオ)記録の方法およびその装置 |
JP2010118859A (ja) * | 2008-11-12 | 2010-05-27 | Sony Corp | 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 |
JP2011517231A (ja) * | 2008-04-14 | 2011-05-26 | トムソン ライセンシング | ライブ制作のためにメタデータをコンテンツに関連付けるための方法および装置 |
JP2012175443A (ja) * | 2011-02-22 | 2012-09-10 | Canon Inc | 送信装置、受信装置 |
US8364012B2 (en) | 2008-06-09 | 2013-01-29 | Sony Corporation | Signal processing apparatus, marking method, and program |
US8504544B2 (en) | 2007-09-28 | 2013-08-06 | Hitachi Consumer Electronics Co., Ltd. | File transmission system for controlling transmission of files between a server and a client |
KR101378334B1 (ko) | 2007-08-01 | 2014-03-27 | 삼성전자주식회사 | 영상 트리밍 장치 및 방법 |
US8693843B2 (en) | 2007-05-15 | 2014-04-08 | Sony Corporation | Information processing apparatus, method, and program |
US8718438B2 (en) | 2008-06-09 | 2014-05-06 | Sony Corporation | Terminal apparatus and information transmission method |
US9179031B2 (en) | 2012-10-23 | 2015-11-03 | Sony Corporation | Content acquisition apparatus and storage medium |
US9437245B2 (en) | 2009-05-29 | 2016-09-06 | Panasonic Intellectual Property Management Co., Ltd. | Video recording apparatus and external terminal |
US9524754B2 (en) | 2013-12-16 | 2016-12-20 | Panasonic Intellectual Property Management Co., Ltd. | Video playback device and video recording device |
JP2018169697A (ja) * | 2017-03-29 | 2018-11-01 | 西日本電信電話株式会社 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
CN109257544A (zh) * | 2017-07-14 | 2019-01-22 | 卡西欧计算机株式会社 | 图像记录装置、图像记录方法以及记录介质 |
JP2019092025A (ja) * | 2017-11-14 | 2019-06-13 | 株式会社日立国際電気 | 編集システム |
US11386658B2 (en) | 2018-04-20 | 2022-07-12 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
JP7554724B2 (ja) | 2021-09-10 | 2024-09-20 | 株式会社日立国際電気 | 映像送出システム、映像編集装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09130736A (ja) * | 1995-11-02 | 1997-05-16 | Sony Corp | 撮像装置及び編集装置 |
JP2002171477A (ja) * | 2000-11-30 | 2002-06-14 | Sony Corp | 素材処理装置、番組制作方法、番組シミュレーション方法および番組配信方法 |
JP2003092700A (ja) * | 2001-09-17 | 2003-03-28 | Ricoh Co Ltd | デジタルカメラ撮像装置 |
JP2003256843A (ja) * | 2002-02-26 | 2003-09-12 | Oki Electric Ind Co Ltd | 計測システム |
JP2003345803A (ja) * | 2002-05-24 | 2003-12-05 | Iwane Kenkyusho:Kk | 状況記録検索装置 |
JP2004173102A (ja) * | 2002-11-21 | 2004-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 映像コンテンツ視聴方法及びシステム及び映像視聴端末装置及び映像配信装置及び映像コンテンツ視聴プログラム及び映像コンテンツ視聴プログラムを格納した記憶媒体 |
JP2005117659A (ja) * | 2003-10-04 | 2005-04-28 | Samsung Electronics Co Ltd | 検索情報を記録した保存媒体、その再生装置及び再生方法 |
JP2005192003A (ja) * | 2003-12-26 | 2005-07-14 | Toshiba Corp | 録画機器及び録画機器における文字情報表示制御方法 |
-
2005
- 2005-09-16 JP JP2005270092A patent/JP2007082088A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09130736A (ja) * | 1995-11-02 | 1997-05-16 | Sony Corp | 撮像装置及び編集装置 |
JP2002171477A (ja) * | 2000-11-30 | 2002-06-14 | Sony Corp | 素材処理装置、番組制作方法、番組シミュレーション方法および番組配信方法 |
JP2003092700A (ja) * | 2001-09-17 | 2003-03-28 | Ricoh Co Ltd | デジタルカメラ撮像装置 |
JP2003256843A (ja) * | 2002-02-26 | 2003-09-12 | Oki Electric Ind Co Ltd | 計測システム |
JP2003345803A (ja) * | 2002-05-24 | 2003-12-05 | Iwane Kenkyusho:Kk | 状況記録検索装置 |
JP2004173102A (ja) * | 2002-11-21 | 2004-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 映像コンテンツ視聴方法及びシステム及び映像視聴端末装置及び映像配信装置及び映像コンテンツ視聴プログラム及び映像コンテンツ視聴プログラムを格納した記憶媒体 |
JP2005117659A (ja) * | 2003-10-04 | 2005-04-28 | Samsung Electronics Co Ltd | 検索情報を記録した保存媒体、その再生装置及び再生方法 |
JP2005192003A (ja) * | 2003-12-26 | 2005-07-14 | Toshiba Corp | 録画機器及び録画機器における文字情報表示制御方法 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4513780B2 (ja) * | 2006-05-10 | 2010-07-28 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
JP2007306256A (ja) * | 2006-05-10 | 2007-11-22 | Sony Corp | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
KR101335832B1 (ko) | 2006-05-10 | 2013-12-03 | 소니 주식회사 | 정보 처리 장치 및 정보 처리 방법, 및 기록 매체 |
WO2007129532A1 (ja) * | 2006-05-10 | 2007-11-15 | Sony Corporation | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
US8260120B2 (en) | 2006-05-10 | 2012-09-04 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
JP2008283486A (ja) * | 2007-05-10 | 2008-11-20 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US8693843B2 (en) | 2007-05-15 | 2014-04-08 | Sony Corporation | Information processing apparatus, method, and program |
KR101378334B1 (ko) | 2007-08-01 | 2014-03-27 | 삼성전자주식회사 | 영상 트리밍 장치 및 방법 |
JP2009060542A (ja) * | 2007-09-03 | 2009-03-19 | Sharp Corp | データ送信装置、データ送信方法、視聴環境制御装置、視聴環境制御システム、及び視聴環境制御方法 |
US8504544B2 (en) | 2007-09-28 | 2013-08-06 | Hitachi Consumer Electronics Co., Ltd. | File transmission system for controlling transmission of files between a server and a client |
US8850359B2 (en) | 2008-02-20 | 2014-09-30 | Pfu Limited | Image processor and image processing method |
JP2009200699A (ja) * | 2008-02-20 | 2009-09-03 | Pfu Ltd | 画像処理装置および画像処理方法 |
JP2009206602A (ja) * | 2008-02-26 | 2009-09-10 | Ntt Comware Corp | 録画録音情報処理装置及び録画録音情報処理方法並びにそのプログラム、録画録音情報処理システム |
JP2009211067A (ja) * | 2008-03-05 | 2009-09-17 | National Central Univ | Av(オーディオ・ビデオ)記録の方法およびその装置 |
JP2011517231A (ja) * | 2008-04-14 | 2011-05-26 | トムソン ライセンシング | ライブ制作のためにメタデータをコンテンツに関連付けるための方法および装置 |
US8718438B2 (en) | 2008-06-09 | 2014-05-06 | Sony Corporation | Terminal apparatus and information transmission method |
US8364012B2 (en) | 2008-06-09 | 2013-01-29 | Sony Corporation | Signal processing apparatus, marking method, and program |
US8396351B2 (en) | 2008-11-12 | 2013-03-12 | Sony Corporation | Information processing apparatus, information processing method, information processing program and imaging apparatus |
JP4683116B2 (ja) * | 2008-11-12 | 2011-05-11 | ソニー株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 |
JP2010118859A (ja) * | 2008-11-12 | 2010-05-27 | Sony Corp | 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 |
US9437245B2 (en) | 2009-05-29 | 2016-09-06 | Panasonic Intellectual Property Management Co., Ltd. | Video recording apparatus and external terminal |
JP2012175443A (ja) * | 2011-02-22 | 2012-09-10 | Canon Inc | 送信装置、受信装置 |
US9179031B2 (en) | 2012-10-23 | 2015-11-03 | Sony Corporation | Content acquisition apparatus and storage medium |
US9524754B2 (en) | 2013-12-16 | 2016-12-20 | Panasonic Intellectual Property Management Co., Ltd. | Video playback device and video recording device |
JP2018169697A (ja) * | 2017-03-29 | 2018-11-01 | 西日本電信電話株式会社 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
CN109257544A (zh) * | 2017-07-14 | 2019-01-22 | 卡西欧计算机株式会社 | 图像记录装置、图像记录方法以及记录介质 |
JP2019022039A (ja) * | 2017-07-14 | 2019-02-07 | カシオ計算機株式会社 | 画像記録装置、画像記録方法及びプログラム |
US10616479B2 (en) | 2017-07-14 | 2020-04-07 | Casio Computer Co., Ltd. | Image recording apparatus, image recording method, and computer-readable storage medium |
JP2019092025A (ja) * | 2017-11-14 | 2019-06-13 | 株式会社日立国際電気 | 編集システム |
US11386658B2 (en) | 2018-04-20 | 2022-07-12 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
JP7554724B2 (ja) | 2021-09-10 | 2024-09-20 | 株式会社日立国際電気 | 映像送出システム、映像編集装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007082088A (ja) | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム | |
CN100394791C (zh) | 信息处理方法和装置 | |
KR101115701B1 (ko) | 음성 인식 기술을 이용하여 생성된 메타데이터로 영상 콘텐츠에 주석을 달기 위한 방법 및 장치 | |
JP4168837B2 (ja) | 情報生成装置、記録装置、再生装置、記録再生システムおよびその方法ならびにプログラム | |
TWI362034B (ja) | ||
JP4708733B2 (ja) | 撮像装置 | |
JP2007052626A (ja) | メタデータ入力装置およびコンテンツ処理装置 | |
CA2372554A1 (en) | Asset management system and asset management method | |
JP4542546B2 (ja) | データ処理装置 | |
US20090263103A1 (en) | Recording apparatus, recording method, and recording program, and image capturing apparatus, image capturing method and image capturing program | |
US8818165B2 (en) | Data processing apparatus, data processing method, and computer program | |
JP2008227860A (ja) | コンテンツ撮影装置 | |
JP4720873B2 (ja) | 情報記録装置、撮像装置、情報記録方法およびプログラム | |
JP2004153764A (ja) | メタデータ制作装置及び検索装置 | |
JP6168453B2 (ja) | 信号記録装置、カメラレコーダおよび信号処理装置 | |
JP2008054155A (ja) | 画像合成装置 | |
JP5085462B2 (ja) | 情報記録装置、撮像装置、情報記録方法およびプログラム | |
JP5306550B2 (ja) | 映像解析情報送信装置、映像解析情報配信システム及び配信方法、映像視聴システム及び映像視聴方法 | |
JP2007251891A (ja) | コンテンツの撮影装置 | |
JP4946935B2 (ja) | 撮像装置 | |
JP2007129368A (ja) | 情報記録装置およびその方法 | |
JP5045254B2 (ja) | 記録装置、撮像装置、プレイリスト生成方法およびプログラム | |
KR101025088B1 (ko) | 기록 방법 | |
JP4821462B2 (ja) | 記録装置および方法、再生装置および方法、並びにプログラム | |
JP2008072572A (ja) | コンテンツ撮影装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100608 |