JP4683116B2

JP4683116B2 - 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置

Info

Publication number: JP4683116B2
Application number: JP2008290175A
Authority: JP
Inventors: 聡江波戸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-11-12
Filing date: 2008-11-12
Publication date: 2011-05-11
Anticipated expiration: 2028-11-12
Also published as: US20100254676A1; JP2010118859A; CN101740083B; CN101740083A; US8396351B2

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置に関する。

近年、家庭用ビデオカメラは子供の成長記録や旅行などのイベント撮影に使用されるなど一般的に広く使われるようになってきている。しかしながら、映像素材（撮影によって得られた映像データ）に対して編集を行わずに、映像データを残しておいた場合には、映像データ以外の情報が残らない。そのため、撮影してからある程度以上の時間が経過すると、冗長な映像データがそのまま残ってしまい、撮影時の思い出を保存する機能を十分果たせない上に、映像の視聴が退屈になるという問題がある。こういった問題を解決するためには、映像データの編集作業が必要であるが、編集作業を行うためには複数の映像機器と専用のエフェクタを使用したり、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）を使用したりする必要があり、大掛かりで面倒なものであった。そのため、作業の負荷を軽減するための様々な技術が提案されている。

例えば、ユーザが映像素材をタイムライン上にドラッグアンドドロップすることによって、または、自動で、映像素材を並び替えるノンリニア編集技術が提案されている（特許文献１参照）。

また、静止画のＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）付きプレイリストコンテンツを作成する技術が開示されている（特許文献２参照）。さらに、静止画の人物識別によって画像データを人物ごとのアルバムデータに分配する技術が提案されている（特許文献３参照）。

また、静止画に対して装飾を行う技術（エフェクト）が提案されている（例えば、特許文献４および特許文献５参照）。この技術では、静止画に対する顔認識の結果に基づいて、静止画に対する画像処理やデータ付加を行う技術が提案されている。

特開２００７−３１７３５３号公報特開２００６−８６６２１号公報特開２００６−１８９９７７号公報特開２００７−２８２１１８号公報特開２００７−２８２１１９号公報

しかしながら、映像データの編集作業を行うためには、画像データの取り込み、タイムライン編集、オーサリング、再エンコード出力といった過程が必要となり、映像データの編集作業は、一般的なユーザにとって技術的に難しいという問題があった。また、編集作業のために多くの時間を要し、一般的なユーザの手間がかかるという問題があった。特に、映像データに効果音やＢＧＭを追加する技術については効果的なものが存在せず、映像データと効果音やＢＧＭとのタイミングを合わせる手間が膨大になるといった問題があった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、映像データに合ったＢＧＭを出力するために必要なデータを容易に生成することが可能な、新規かつ改良された技術を提供することにある。

上記課題を解決するために、本発明のある観点によれば、音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、音声映像データにおける時刻に、被写体存在時刻情報が示す時刻と一致し、かつ、楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、条件を満たす時刻が存在する場合には、時刻まで再生が進んだ場合に被写体存在時刻情報に対応付けられた被写体識別情報に対応付けられたＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定する制御部と、を備える、情報処理装置が提供される。

上記した記憶部は、音声映像データをさらに記憶し、上記した情報処理装置は、ＢＧＭデータを記憶するＢＧＭデータ記憶部と、記憶部が記憶する音声映像データを再生する再生部と、再生部が再生した音声映像データを分離して音声データと映像データとを得る分離部と、制御部がＢＧＭを出力する、と決定した時刻まで再生が進んだ場合に、ＢＧＭ識別情報で識別されるＢＧＭデータと分離部が得た音声データとを合成して合成音声データを得る音声合成部と、音声合成部が得た合成音声データと映像データとを合成して音声映像合成データを得る音声映像合成部と、をさらに備えることとしてもよい。

上記した制御部は、ＢＧＭを出力する、と決定した時刻を示すＢＧＭ存在時刻情報と、ＢＧＭ識別情報とを対応付けてＢＧＭメタデータを生成し、記憶部に記憶させるＢＧＭメタデータ生成部を備えることとしてもよい。

上記した記憶部は、音声映像データをさらに記憶し、上記した情報処理装置は、ＢＧＭデータを記憶するＢＧＭデータ記憶部と、記憶部が記憶する音声映像データを再生する再生部と、再生部が再生した音声映像データを分離して音声データと映像データとを得る分離部と、記憶部が記憶するＢＧＭメタデータのＢＧＭ存在時刻情報が示す時刻まで再生が進んだ場合に、ＢＧＭ識別情報で識別されるＢＧＭデータと分離部が得た音声データとを合成して合成音声データを得る音声合成部と、音声合成部が得た合成音声データと映像データとを合成して音声映像合成データを得る音声映像合成部と、をさらに備えることとしてもよい。

上記した情報処理装置は、音声映像合成部が得た音声映像合成データに含まれる映像データに基づいて映像を出力する映像出力部と、音声映像合成部が得た音声映像合成データに含まれる合成音声データに基づいて合成音声を出力する音声出力部と、をさらに備えることとしてもよい。

上記した情報処理装置は、ユーザからＢＧＭデータと音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、上記した制御部は、入力部がユーザから指示情報の入力を受け付けた場合には、音声合成部にＢＧＭデータと音声データとの合成を実行させないこととしてもよい。

上記した制御部は、音声映像合成部が得た音声映像合成データを記憶部に記憶させることとしてもよい。

以上説明したように本発明によれば、映像データに合ったＢＧＭを出力するために必要なデータを容易に生成することが可能な技術を提供することができる。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。なお、説明は以下の順序で行う。

１．第１実施形態（情報処理装置のハードウェア構成）
２．第１実施形態（情報処理装置の機能）
３．第１実施形態（情報処理装置の動作）
４．第２実施形態（情報処理装置のハードウェア構成）
５．第２実施形態（情報処理装置の制御部の機能）
６．第２実施形態（ＢＧＭメタデータ追加処理）
７．第２実施形態（ＢＧＭ付加再生）
８．第３実施形態（撮像装置のハードウェア構成）
９．第４実施形態（撮像装置のハードウェア構成）
１０．映像データの記録手法
１１．本実施形態による効果
１２．本実施形態の変形例

［１．第１実施形態（情報処理装置のハードウェア構成）］
まず、本発明の第１実施形態にかかる情報処理装置のハードウェア構成について説明する。図１は、本発明の第１実施形態にかかる情報処理装置のハードウェア構成を示す図である。以下、図１を用いて本発明の第１実施形態にかかる情報処理装置のハードウェア構成について説明する。

図１に示すように、情報処理装置１００は、少なくとも、記憶部１１０と、制御部１４０とを備えるものである。記憶部１１０は、データ格納用の装置であり、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。記憶部１１０は、制御部１４０が実行するプログラムや各種データなどを格納する。

記憶部１１０は、音声映像データ１１２の映像に被写体の一例としての顔が存在する時刻を示す顔存在時刻情報と顔を識別するための顔識別情報とが対応付けられてなる顔メタデータ１１４を記憶する。また、記憶部１１０は、音声映像データ１１２の音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータ１１６を記憶する。さらに、記憶部１１０は、顔識別情報とＢＧＭ識別情報とが対応付けられてなる顔ＢＧＭ対応情報１１８を記憶する。なお、以下では被写体の一例として人間の顔を使用した場合について説明するが、人間の顔以外の被写体を使用することも可能であり、例えば、ペット等の動物の顔や、身体の一部、身体全体、車両等の乗り物等といった被写体を使用することも可能である。

制御部１４０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等から構成され、音声映像データにおける時刻に、顔存在時刻情報が示す時刻と一致し、かつ、楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断する。制御部１４０は、その条件を満たす時刻が存在する場合には、その時刻まで再生が進んだ場合に顔存在時刻情報に対応付けられた顔識別情報に対応付けられたＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定する。

また、記憶部１１０は、音声映像データ１１２をさらに記憶し、情報処理装置１００は、ＢＧＭデータ記憶部１５０と、再生部１２０と、分離部１３０と、音声合成部１６０と、音声映像合成部１７０とをさらに備えることとしてもよい。

再生部１２０は、記憶部１１０が記憶する音声映像データ１１２を再生するものである。分離部１３０は、再生部１２０が再生した音声映像データを分離して音声データと映像データとを得るものである。分離部１３０は、例えば、音声データを第１共用メモリ１４４に記憶させ、映像データを第２共用メモリ１４５に記憶させる。ＢＧＭデータ記憶部１５０は、例えばＲＯＭ等から構成され、ＢＧＭデータを記憶するものである。ＢＧＭデータ記憶部１５０は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成されることとしてもよい。また、ここでは、ＢＧＭデータがＢＧＭデータ記憶部１５０に記憶されていることとするが、記憶部１１０に記憶されていることとしてもよい。

音声合成部１６０は、制御部１４０がＢＧＭを出力する、と決定した時刻まで再生が進んだ場合に、ＢＧＭ識別情報で識別されるＢＧＭデータと分離部１３０が得た音声データとを合成して合成音声データを得る。音声合成部１６０は、合成音声データを得るに際して、例えば、第１共用メモリ１４４に記憶されている音声データと制御部１４０によってＢＧＭデータ記憶部１５０から読み出されて第１共用メモリ１４４に記憶されているＢＧＭデータとを合成する。音声映像合成部１７０は、音声合成部１６０が得た合成音声データと映像データとを合成して音声映像合成データを得るものである。音声映像合成部１７０は、音声映像合成データを得るに際して、例えば、音声合成部１６０から出力された合成音声データと第２共用メモリ１４５に記憶されている映像データとを合成する。

情報処理装置１００は、映像出力部１８０と、音声出力部１９０とをさらに備えることとしてもよい。映像出力部１８０は、音声合成部１６０が得た音声映像合成データに含まれる映像データに基づいて映像を出力するものである。映像出力部１８０は、例えば、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、ランプなどの表示装置など、取得した情報をユーザに対して視覚的に通知することが可能な装置で構成される。

音声出力部１９０は、音声合成部１６０が得た音声映像合成データに含まれる合成音声データに基づいて合成音声を出力するものである。音声出力部１９０は、スピーカ、ヘッドホンなどの音声出力装置など、取得した情報をユーザに対して聴覚的に通知することが可能な装置で構成される。音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

以上、本発明の第１実施形態にかかる情報処理装置１００のハードウェア構成について説明した。次に、本発明の第１実施形態にかかる情報処理装置１００の機能について説明する。

［２．第１実施形態（情報処理装置の機能）］
本発明の第１実施形態にかかる情報処理装置の機能について説明する。図２は、本発明の第１実施形態にかかる情報処理装置の機能を説明するための図である。以下、図２を用いて（適宜図１参照）本発明の第１実施形態にかかる情報処理装置の機能について説明する。

図２に示すように、音声映像データ１１２（再生元の撮影記録映像ストリーム）は、映像データ（映像部（ａ））と音声データ（音声部（ｂ））とを含んで構成されている。再生部１２０が音声映像データ１１２の再生を開始すると、図２に示した例では、顔ＩＤ（顔識別情報）が「０」の人物が登場する。顔ＩＤは、顔の出現順に割振られた通し番号であり、同一人物であっても一度退場して再登場した場合には別の顔ＩＤが割振られる。顔ＩＤ「０」の人物の登場は、撮影記録映像に対応付けられた顔メタデータ１１４（ｄ０）をあらかじめ読んでおくことで認識される。

顔メタデータ１１４（ｄ０）は、顔ＩＤの他、顔の出現時刻、消失時刻、出現時の座標、登録された人物ナンバを示す人物同定（ただし数字０は未登録の人物）、同定した人物らしさを示す類似度、表情の笑顔度を示す表情スコアを持っている。制御部１４０は、顔メタデータ１１４（ｄ０）中の顔の出現時刻、消失時刻を読み込むことで、その人物の映像中の出現時刻と消失時刻がわかる。なお、上記した顔存在時刻は、例えば、顔の出現時刻以後かつ顔の消失時刻以前の範囲で規定される。

図２に示した例では、制御部１４０が、顔メタデータ１１４（ｄ０）の示す顔の出現時刻以後かつ消失時刻以前の範囲内の映像部（ａ）に対応する音声部（ｂ）の区間には楽曲（音楽）がもともと存在していないと判断する。したがって、音声合成部１６０は、あらかじめ登録された人物同定「１」に対応するＢＧＭ１を追加音声部（ＢＧＭ（ｃ））を音声部（ｂ）に重畳し、音声出力部１９０は、重畳された音声を出力する。その際、ＢＧＭが突然鳴り出して視聴者がびっくりすることを避けるために、フェードインによってＢＧＭ１が開始し、フェードアウトによってＢＧＭ１が終了するのが好ましい。これにより、特定の人物の登場場面でその人物のテーマ曲を鳴らす効果が得られる。

２回目に人物が登場する顔ＩＤが「１」の人物の登場時の情報は、制御部１４０があらかじめ顔メタデータ１１４（ｄ１）を読んでおくことで認識される。しかしながら、図２において顔ＩＤが「１」の人物が登場した際には音声部（ｂ）において楽曲が鳴っているため、追加音声部（ｃ）にＢＧＭを追加させない。音声部（ｂ）に楽曲が鳴っていることは楽曲メタデータ１１６（ｅ０）にて示されている。

楽曲メタデータ１１６（ｅ０）は、検出した楽曲の出現順に割振られた元楽曲ＩＤを含み、楽曲の出現時刻、消失時刻、楽曲同定（「Ｔｒｕｅ」ならば真、「Ｆａｌｓｅ」ならば偽）、楽曲スコア（楽曲らしさスコア）、音量レベルを情報として持っている。なお、上記した楽曲存在時刻は、例えば、楽曲の出現時刻以後かつ楽曲の消失時刻以前の範囲で規定される。

楽曲スコアと楽曲検出手法については、例えば、１２音解析など、既存の手法を用いることができるが、その際、楽曲が存在するかどうかという観点でのみメタデータとして記録することで、メタデータの記録量を削減することができる。顔メタデータ１１４と楽曲メタデータ１１６の出現時刻、消失時刻とを比較することで、顔だけが存在する区間、楽曲だけが存在する区間、顔と楽曲が存在する区間、何も検出されない区間を区別することができる。図２に示した例では、顔ＩＤが「１」の人物が登場している場面の途中で楽曲が消失するため、楽曲が消失して顔ＩＤが「１」の人物の顔だけが存在する区間に、顔ＩＤが「１」の人物同定「１」に対応するＢＧＭ１を追加音声部（ｃ）に追加する。

図２に示した例では、簡単のために登場人物が一人の場合についてのみ述べたが、複数の人物の登場時にも同様の処理が可能である。複数の顔が登場する場合、それぞれの人物に別々のＢＧＭを登録して鳴らせることは可能となるが、登録された複数の人物が同一区間に存在する場合も想定される。その場合には、顔の大きさ、人物同定ナンバによる優先付け、表情スコアなどにより、どの人物に対するＢＧＭを追加音声部（ｃ）に追加するかどうかを決定することができる。顔の大きい人物のＢＧＭを優先することとしてもよく、あらかじめ優先付けされた人物に対応するＢＧＭを優先して鳴らせることとしてもよい。

以上、本発明の第１実施形態にかかる情報処理装置１００の機能について説明した。次に、本発明の第１実施形態にかかる情報処理装置１００の動作について説明する。

［３．第１実施形態（情報処理装置の動作）］
本発明の第１実施形態にかかる情報処理装置の動作について説明する。図３は、本発明の第１実施形態にかかる情報処理装置の動作を示すフローチャートである。以下、図３を用いて（適宜図１ないし図２参照）本発明の第１実施形態にかかる情報処理装置の動作について説明する。

まず、ステップＳ１０１では、制御部１４０は、全てのメタデータを読み取り、分析しておく。その後、ステップＳ１０２では、再生部１２０は、映像（音声映像データ１１２）の再生を開始する。次に、ステップＳ１０３では、制御部１４０は、現在の再生位置の映像（ａ）に顔が存在するか否かを判定する。存在する場合は（ステップＳ１０３で「Ｙｅｓ」）ステップＳ１０４へ、存在しない場合は（ステップＳ１０３で「Ｎｏ」）ステップＳ１０８へ進む。

ステップＳ１０４では、制御部１４０は、現在の再生位置の音声（ｂ）に楽曲が存在するか否かを判定する。存在しない場合は（ステップＳ１０４で「Ｎｏ」）ステップＳ１０５へ、存在する場合は（ステップＳ１０４で「Ｙｅｓ」）ステップＳ１０６へ進む。

ステップＳ１０５へ進んだ場合は、現在の再生位置の映像（ａ）に顔が存在し、元音声（ｂ）に楽曲が存在しないということであるから、再生部１２０は、ＢＧＭを付加させるためＢＧＭの再生を開始する。その際、フェードインによって再生を開始することが好ましい。ステップＳ１０６に進んだ場合は、現在の再生位置の映像（ａ）に顔が存在し、音声（ｂ）に楽曲が存在するため、ＢＧＭを付加させないようにする必要がある。よって、ステップＳ１０６では、制御部１４０は、今現在ＢＧＭの付加再生中であるかどうかを判定する。現在ＢＧＭの付加再生中である場合は（ステップＳ１０６で「Ｙｅｓ」）ステップＳ１０７に進み、再生部１２０は、ＢＧＭの再生停止を行う。その際、フェードアウトによって再生を停止することが好ましい。現在ＢＧＭの付加再生中でない場合は（ステップＳ１０６で「Ｎｏ」）ステップＳ１１０に進む。

ステップＳ１０８に進んだ場合は、現在の再生位置の映像（ａ）に顔が存在しないため、ＢＧＭを付加させないようにする必要がある。よって、ステップＳ１０８では、制御部１４０は、今現在ＢＧＭの付加再生中であるかどうかを判定する。現在ＢＧＭの付加再生中である場合は（ステップＳ１０８で「Ｙｅｓ」）ステップＳ１０９に進み、再生部１２０は、ＢＧＭの再生停止を行う。その際、フェードアウトによって再生を停止することが好ましい。現在ＢＧＭの付加再生中でない場合は（ステップＳ１０８で「Ｎｏ」）ステップＳ１１０に進む。

ステップＳ１１０では、映像（音声映像データ１１２）の再生を終了するか否かを判定する。映像の再生を終了する場合とは、例えば、再生部１２０が音声映像データ１１２を最後まで再生した場合や入力部（不図示）からユーザによる再生終了指示が入力された場合等である。終了する場合は（ステップＳ１１０で「Ｙｅｓ」）そのままＢＧＭ付加再生を終了する。終了しない場合は（ステップＳ１１０で「Ｎｏ」）ステップＳ１０３に戻って映像を再生しながらＢＧＭの付加再生や停止処理を繰返すことになる。

以上の処理によって、最も簡単に映像に顔が存在し、かつ、音声中に楽曲が存在しない区間のみについてＢＧＭ付加再生を行うことができる。

以上、本発明の第１実施形態にかかる情報処理装置１００の動作について説明した。次に、本発明の第２実施形態について説明する。第１実施形態では、基本的なＢＧＭ付加再生処理を行うことが可能である。以下に説明する第２実施形態は、人物（顔）ごとにＢＧＭ登録を行う場合や、場面ごとにＢＧＭを付加するかどうかを確認したい場合、誤検出によるＢＧＭ付加を回避する場合などに対応できるものである。

［４．第２実施形態（情報処理装置のハードウェア構成）］
まず、本発明の第２実施形態にかかる情報処理装置のハードウェア構成について説明する。図４は、本発明の第２実施形態にかかる情報処理装置のハードウェア構成を示す図である。以下、図４を用いて本発明の第２実施形態にかかる情報処理装置のハードウェア構成について説明する。

第２実施形態にかかる情報処理装置１００は、制御部１４０がＢＧＭメタデータ生成部１４１を備えている点において第１実施形態にかかる情報処理装置１００と相違する。以下では、第２実施形態にかかる情報処理装置１００のハードウェア構成について説明する。

ＢＧＭメタデータ生成部１４１は、制御部１４０がＢＧＭを出力する、と決定した時刻を示すＢＧＭ存在時刻情報と、ＢＧＭ識別情報とを対応付けてＢＧＭメタデータ１１９を生成し、記憶部１１０に記憶させる機能を有する。

また、記憶部１１０は、音声映像データ１１２をさらに記憶し、情報処理装置１００は、ＢＧＭデータ記憶部１５０と、再生部１２０と、分離部１３０と、音声合成部１６０と、音声映像合成部１７０とをさらに備えることとしてもよい。ＢＧＭデータ記憶部１５０と、再生部１２０と、分離部１３０とについては、第１実施形態で説明したものと同様の機能を備えているため、詳細な説明は省略する。

音声合成部１６０は、記憶部１１０が記憶するＢＧＭメタデータ１１９のＢＧＭ存在時刻情報が示す時刻まで再生が進んだ場合に、ＢＧＭ識別情報で識別されるＢＧＭデータと分離部１３０が得た音声データとを合成して合成音声データを得る。

以上、本発明の第２実施形態にかかる情報処理装置１００のハードウェア構成について説明した。次に、本発明の第２実施形態にかかる情報処理装置１００の機能について説明する。

［５．第２実施形態（情報処理装置の機能）］
本発明の第２実施形態にかかる情報処理装置の機能について説明する。図５は、本発明の第２実施形態にかかる情報処理装置の機能を説明するための図である。以下、図５を用いて（適宜図４参照）本発明の第２実施形態にかかる情報処理装置の機能について説明する。

第２実施形態は、音声映像データ１１２の各区間（ｆ）を顔メタデータ１１４と楽曲メタデータ１１６との対応関係により分類する点において第１実施形態と相違する。分類方法としては、例えば、顔、楽曲共に存在しない（Ｎｏｎｅ）、顔のみ存在する（Ｆａｃｅ）、楽曲のみ存在する（Ｍｕｓｉｃ）、楽曲と顔が重複する（Ｍｕｓｉｃ＆Ｆａｃｅ）の４種類に分類することが考えられる。なお、ＢＧＭを付加するのは顔のみ存在する（Ｆａｃｅ）区間なので、顔のみ存在する（Ｆａｃｅ）区間が検出できれば、上記の４分類に分類する必要はない。

顔のみ存在する（Ｆａｃｅ）区間は、対応する顔メタデータ１１４（ｄ０，ｄ１…）とそれぞれリンク付けられており、ＢＧＭメタデータ生成部１４１は、さらにＢＧＭを付加するためにＢＧＭメタデータ（ｇ０，ｇ１…）を付加することとする。ＢＧＭメタデータ（ｇ０，ｇ１…）はそれぞれＢＧＭＩＤとＢＧＭの出現時刻、消失時刻、ＢＧＭの種類を含んでいる。情報処理装置１００は、ＢＧＭ付き再生を実行したい場合は、前処理として、顔メタデータ１１４と楽曲メタデータ１１６との対応関係から区間を分類し、ＢＧＭメタデータ生成部１４１によってＢＧＭメタデータ（ｇ０，ｇ１…）を作成し、記憶部１１０に記録しておく。そして、実際にＢＧＭ付き再生を実行する場合には、ＢＧＭメタデータ（カテゴリがＢＧＭのメタデータ）のみを参照して、ＢＧＭの付加再生や停止処理を実行する。

［６．第２実施形態（ＢＧＭメタデータ追加処理）］
本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭメタデータ追加処理）について説明する。図６は、本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭメタデータ追加処理）を示すフローチャートである。以下、図６を用いて（適宜図４および図５参照）本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭメタデータ追加処理）について説明する。

ステップＳ２０１にて、まず、ＢＧＭを付加したい人物の登録作業を行う。ここでは図７（ａ）に示すようなＧＵＩを設けて登録したい人物を選択し、登録ボタンで人物（顔）を登録してもよい。複数の人物を登録することもできる。

次に、ステップＳ２０２において、制御部１４０は、登録された人物に付加するＢＧＭを選択、登録（リンク付け）する。制御部１４０は、登録された人物と付加するＢＧＭとを、顔ＢＧＭ対応情報１１８として記憶部１１０に記憶させる。ここで図７（ｂ）に示すようなＧＵＩを設けて登録した人物の確認と、その人物に付加するＢＧＭの選択、複数の顔を検出した際の優先度を設定できるようにしてもよい。また、この場面で、ＢＧＭを実際に再生して確認することで選択をさせやすくすることも可能である。

次に、ステップＳ２０３にて、ＢＧＭを付加したい映像データ（チャプタまたはファイル、プレイリスト）を選択する。例えば、映像データのサムネイル画像一覧を並べて、映像を選択させてもよい。複数ファイル選択も可能とする。

次に、ステップＳ２０４において、制御部１４０は、ステップＳ２０３にて選択された映像データに対応する全ての顔メタデータ１１４と楽曲メタデータ１１６とを読みとる。

次に、ステップＳ２０５において、ＢＧＭメタデータ生成部１４１は、読み取った顔メタデータ１１４と楽曲メタデータ１１６とを時系列に並べて、区間分類（ｆ）を決定する。ここで、ＢＧＭメタデータ生成部１４１は、例えば、顔、楽曲共に存在しない区間が（Ｎｏｎｅ）、顔のみ存在する区間が（Ｆａｃｅ）、楽曲のみ存在する区間が（Ｍｕｓｉｃ）、楽曲と顔が重複する区間が（Ｍｕｓｉｃ＆Ｆａｃｅ）と判定する。判定手段としては、各音声映像データ１１２の付加情報パック（図示せず）に記録された日時情報（年月日時分秒）と、各メタデータに含まれる出現時刻、消失時刻を比較することで区間の分類を決定することができる。

顔のみ存在する区間（Ｆａｃｅ）が検出された場合には、ＢＧＭメタデータ生成部１４１は、対応する顔データのリンクを設定しておく。登録された複数の人物が同一区間に存在する場合には、顔の大きさ、人物同定ナンバによる優先付け、表情スコアなどによる重み付けにより、どの顔に対するリンクを設定するか決定することになる。通常はサイズの大きい顔を主要被写体としてリンク付けを設定する。

そして、ステップＳ２０６において、ＢＧＭメタデータ生成部１４１は、判定した区間（ｆ）の中に顔のみ存在する（Ｆａｃｅ）区間が存在するか否かを判定する。存在する場合は（ステップＳ２０６で「Ｙｅｓ」）ステップＳ２０７にて、ＢＧＭメタデータ生成部１４１は、顔のみ存在する（Ｆａｃｅ）区間が十分大きいか否かを判定する。判定時間は例えば５秒、１０秒、２０秒などといった値から選択させてもよいが、１０秒であることが好ましい。（Ｆａｃｅ）区間が十分大きい場合（ステップＳ２０７で「Ｙｅｓ」）には、ＢＧＭメタデータ生成部１４１は、ステップＳ２０８に進む。ステップＳ２０８では、ＢＧＭメタデータ生成部１４１は、検出された顔のみ存在する（Ｆａｃｅ）区間に対応する顔データのリンクから顔を特定し、ステップＳ２０２において顔と関連付けられているＢＧＭを選択する。ＢＧＭメタデータ生成部１４１は、ＢＧＭメタデータを作成してシステムインデックスファイル（後述）のメタデータ領域に追加し、終了する。

ステップＳ２０６において顔のみ存在する（Ｆａｃｅ）区間が存在しない場合（ステップＳ２０６で「Ｎｏ」）、およびステップＳ２０７において顔のみ存在する（Ｆａｃｅ）区間が十分大きいと判断されない場合は（ステップＳ２０７で「Ｎｏ」）そのまま終了する。

ステップＳ２０８においてＢＧＭメタデータを追加するに当たっては、該当するＢＧＭ追加場面を表示、再生し、使用者にＢＧＭの追加を決定するか否かを確認させてもよい。このとき、追加するＢＧＭが使用者のイメージと違っていた場合に、違うＢＧＭを選択できるようにすると、より使用感が向上する。

以上、本発明の第２実施形態にかかる情報処理装置１００の動作（ＢＧＭメタデータ追加処理）について説明した。次に、本発明の第２実施形態にかかる情報処理装置１００の動作（ＢＧＭ付加再生）について説明する。

［７．第２実施形態（ＢＧＭ付加再生）］
本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭ付加再生）について説明する。図８は、本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭ付加再生）を示すフローチャートである。以下、図８を用いて（適宜図４および図５参照）本発明の第２実施形態にかかる情報処理装置の動作（ＢＧＭ付加再生）について説明する。

まず、ステップＳ３０１にて、制御部１４０は、再生しようとする音声映像データ１１２に対応するＢＧＭメタデータを読み取っておく。次に、ステップＳ３０２において、再生部１２０は、再生対象の映像（音声映像データ１１２）の再生を開始する。ステップＳ３０３において、制御部１４０は、ＢＧＭメタデータ（カテゴリが「ＢＧＭ」のＢＧＭメタデータ）が存在するか否かを判断する。ＢＧＭメタデータが存在する場合は（ステップＳ３０３で「Ｙｅｓ」）ステップＳ３０４へ、存在しない場合は（ステップＳ３０３で「Ｎｏ」）ステップＳ３０６へ進む。

ステップＳ３０４においては、制御部１４０は、現在再生している映像の時刻情報が、ＢＧＭメタデータのＢＧＭ出現時刻に一致するか否かを判定する。一致する場合は（ステップＳ３０４で「Ｙｅｓ」）ステップＳ３０５へ、一致しない場合は（ステップＳ３０４で「Ｎｏ」）ステップＳ３０７へ進む。

ステップＳ３０５へ進んだ場合は、映像の再生時刻がＢＧＭの出現時刻と一致している場合なので、再生部１２０は、ＢＧＭの再生を開始し、ステップＳ３０６へ進む。その際、フェードインによって再生を開始することが好ましい。ステップＳ３０７へ進むのは、ＢＧＭが鳴っていない場合、および、ＢＧＭが既に鳴っている場合である。そこでステップＳ３０７では、制御部１４０は、現在再生している映像の時刻情報がＢＧＭメタデータのＢＧＭ消失時刻であるか否かを判定する。制御部１４０は、ステップＳ３０６にて判定結果が「Ｙｅｓ」の場合はステップＳ３０８へ、「Ｎｏ」の場合はステップＳ３０６へ進む。ステップＳ３０８に進んだ場合は、既に鳴っているＢＧＭを止めなければいけないので、再生部１２０は、ＢＧＭの再生停止を行い、ステップＳ３０６へ進む。その際、フェードアウトによって再生を停止することが好ましい。

ステップＳ３０６では、映像再生を終了するか否かを判断し、終了する場合は（ステップＳ３０６で「Ｙｅｓ」）映像再生を終了する。終了しない場合は（ステップＳ３０６で「Ｎｏ」）Ｓ３０３に戻って、ＢＧＭメタデータによるＢＧＭの再生開始、停止を判断する処理を繰返す。

以上の処理によってＢＧＭ付き編集、再生結果を容易かつ短時間で得ることができる。また、元映像データを直接編集するのではなく、ＢＧＭメタデータを付加し、再生時にはＢＧＭを付加するか否かを判断しているだけなので、元の状態の映像を再生することも容易であるという利点がある。

以上、本発明の第２実施形態にかかる情報処理装置１００の動作について説明した。次に、本発明の第３実施形態について説明する。第１実施形態および第２実施形態において説明した情報処理装置１００は、特にハードディスク等の記録装置に音声映像データを記録するビデオカメラレコーダのような撮像装置にその機能が組み込まれることが適切であると考えられる。以下に説明する第３実施形態は、上記した情報処理装置の機能を有する撮像装置に関するものである。

［８．第３実施形態（撮像装置のハードウェア構成）］
本発明の第３実施形態にかかる撮像装置のハードウェア構成について説明する。図９は、本発明の第３実施形態にかかる撮像装置のハードウェア構成を示す図である。以下、図９を用いて本発明の第３実施形態にかかる撮像装置のハードウェア構成について説明する。

レンズ部２１０を通して受光部２２０で受け取った映像を映像信号処理部２４０にて映像信号に変換する。同時に、音声入力部２３０にて受け取った音声を音声信号処理部２５０にて音声信号に変換する。重畳分離部２８０にて上記した映像信号と上記した音声信号とを重畳し、記録再生部２９０を通してフォーマット変換を行い、記憶部１１０にファイルとして記録する。音声信号処理部２５０は、楽曲検出部１４２を内蔵しており、入力音声を分析して入力音声中に楽曲が含まれるかどうかを分析し、制御部１４０に通知する。映像信号処理部２４０は顔検出部１４３を内蔵しており、映像中の顔を検出すると、検出した顔の映像中における時間的、空間的位置情報を検出し、制御部１４０に通知する。

制御部１４０は、上記の処理を制御しており、楽曲検出部１４２にて検出した楽曲存在情報を、記録再生部２９０を通じて記憶部１１０に音声映像データの付帯情報（メタデータ）として記録する。また、制御部１４０は、顔検出部１４３にて検出した顔情報を、記録再生部２９０を通じて記憶部１１０に音声映像データの付帯情報（メタデータ）として記録する。さらに、制御部１４０は、キー入力回路（不図示）の電気信号入力や映像出力部１８０（タッチパネルを搭載したＬＣＤパネル）からのＧＵＩ入力を受けて映像信号の記録再生モードを切り換える。

撮像装置２００は、再生時には、記憶部１１０に記録されたファイルから映像信号を取り出し、記録再生部２９０にて復号する。そして、ＧＵＩや各種情報を示すオンスクリーンディスプレイ画像情報をオンスクリーンディスプレイ回路（不図示）にて生成し、重畳分離部２８０により重畳して映像出力部１８０（タッチパネルを搭載したＬＣＤパネル）上に表示する。それとともに、記録再生部２９０にて音声信号を同様にして復号して音声出力部１９０より出力する。

映像音声データの再生時に、制御部１４０は、音声映像データの付帯情報（メタデータ）により、顔存在情報と楽曲存在情報によって、当該映像音声データにＢＧＭを付加するか否かを判定する。ＢＧＭを付加する場合には、制御部１４０は、記憶部１１０またはＢＧＭデータ記憶部１５０に記憶されているＢＧＭファイルを読み出し、記録再生部２９０および重畳分離部２８０によって、ＢＧＭを追加して再生することを可能にする。

上記した撮像装置２００の制御部１４０は外部電源ＡＣまたはバッテリから電源回路を介して電源供給を受け、制御信号を送って他回路への電源ＯＮ／ＯＦＦを制御している。映像信号の記録方式としてはＭＰＥＧ−４ＡＶＣ／Ｈ．２６４圧縮を用いたＡＶＣＨＤ（商標）規格を用いた高精細映像（ＨＤ：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）記録、またはＭＰＥＧ−２圧縮を用いた標準信号（ＳＤ：ＳｔａｎｄａｒｄＤｅｆｉｎｉｔｉｏｎ）記録に対応する。

以上、本発明の第３実施形態にかかる撮像装置２００のハードウェア構成について説明した。次に、本発明の第４実施形態について説明する。第４実施形態では、制御部１４０が楽曲検出部１４２および顔検出部１４３を備えている点について第３実施形態と相違する。

［９．第４実施形態（撮像装置のハードウェア構成）］
本発明の第４実施形態にかかる撮像装置のハードウェア構成について説明する。図１０は、本発明の第４実施形態にかかる撮像装置のハードウェア構成を示す図である。以下、図１０を用いて本発明の第４実施形態にかかる撮像装置のハードウェア構成について説明する。

第３実施形態では、映像信号処理部２４０および音声信号処理部２５０が、それぞれ顔検出部１４３および楽曲検出部１４２を備えることとしたが、図１０に示すように、制御部１４０が顔検出部１４３および楽曲検出部１４２を備えることとすることも可能である。この場合には、音声映像データ中の顔の検出や楽曲の検出を、音声映像データを記憶部１１０に記録させた後に行うことが可能となり、他の編集機能とあわせて、より複雑な編集機能が実装可能である。

以上、本発明の第４実施形態にかかる撮像装置２００のハードウェア構成について説明した。次に、音声映像データの記録手法について説明する。

［１０．映像データの記録手法］
図１１は、本発明の実施形態にかかる音声映像データの記録手法を説明する図である。以下、図１１を用いて（適宜他の図参照）本発明の実施形態にかかる音声映像データの記録手法について説明する。

記憶部１１０に音声映像データを記録する手法について提案する。撮像装置２００は、図１１（ａ）に示すように、撮影日付単位で仮想的なフォルダを作成し、撮影順に撮影動画像ファイル（映像データファイル）を保存する。また、動画像の情報（映像データ）を図１１（ｂ）に示すように管理ファイル（システムインデックスファイルとも呼ばれる）に登録（これをエントリと呼ぶ）するものとする。動画像の記録情報はファイルの属性やサムネイルインデックス画像、動画像付帯情報（メタデータ）などを含む（特開２００７−１８１１５０公報も参照）。

上記した撮像装置２００は、撮影時に、顔検出部１４３において撮影対象に含まれる顔の数、サイズ、位置、属性等を、動画像情報管理ファイル上に、撮影動画像と結びついた動画像付帯情報の一つであるメタデータとして記録するものとする（特開２００８−１７０４１公報および特開２００８−２２８１３５も参照）。また、楽曲検出部１４２において撮影映像の音声部を所定の長さの区間ごとに分け、既存の音声認識技術、例えば、１２音平均律の特徴データ分布を分析する１２音解析などの音声認識技術を利用して楽曲がなっているか否かを判定する。その結果の楽曲存在位置、判定スコアを撮影動画像と結びついた動画像付帯情報の一つであるメタデータとして記録する。１２音解析による楽曲と会話の検出に関しては特開２００８−１２２４２６を参照することができる。なお、特開２００８−１２２４２６号公報では、誤りフィルタリングのために音声判定の所定区間同士の移動平均を行うことで判別結果の平滑化を行っているが、ここでは、誤判別よりもリアルタイム処理性を考慮して、楽曲判定スコアの移動平均は行わないものとする。ここでは楽曲が鳴っている情報のみをメタデータとして残すこととする。

撮像装置２００は、記憶部１１０またはＢＧＭデータ記憶部１５０に記録されたＢＧＭデータを読み出して、記録再生部２９０によってデコードし、重畳分離部２８０によって撮影動画像の音声に重畳して、音声出力部１９０から音声を出力する。

以上、本発明の実施形態にかかる音声映像データの記録手法を説明した。次に、本実施形態による効果について説明する。

［１１．本実施形態による効果］
本実施形態（第１実施形態〜第４実施形態）によれば、登録した人物の登場場面で常に同じ曲が流れるという面白い映像効果を手軽に得ることができる。また、元画像の音声部に含まれる楽曲と追加するＢＧＭとが重複して使用者にうるさいと感じさせることのないように、半自動的にＢＧＭを付加することができる。

また、第２実施形態によれば、ＢＧＭメタデータを付加することができる。これによって、ＢＧＭメタデータに対応した機器間であれば、同様のＢＧＭ付再生結果を得ることができる。

［１２．本実施形態の変形例］
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

第１実施形態〜第４実施形態において、情報処理装置１００は、ユーザからＢＧＭデータと音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部（不図示）をさらに備えることとしてもよい。その場合に、例えば、入力部（不図示）がユーザから指示情報の入力を受け付けた場合には、制御部１４０は、音声合成部１６０にＢＧＭデータと音声データとの合成を実行させないこととすることができる。これによって、また、ＢＧＭ効果設定が望ましくないシーンに追加された場合は、取り消しをすることができる。

第１実施形態〜第４実施形態において、元音声に楽曲が存在していた区間の直後にＢＧＭを付加する場合は、元音声の楽曲の音量レベルとほぼ一致する値にＢＧＭ音量を調整することで、音量の急激な変化を防止することもできる。この場合、ＢＧＭメタデータに音量レベルの値を追加し、その値に従ってＢＧＭ音量を変更する必要がある。

第２実施形態において、ＢＧＭメタデータとＢＧＭデータとを、音声映像データと共にメモリカード、光ディスクなどの記録媒体にコピーし、他のＢＧＭメタデータに対応した機器において、その記録媒体にコピーされたＢＧＭメタデータとＢＧＭデータとを使用ささせることとしてもよい。そうすれば、情報処理装置１００と同様の再生を実行することが可能である。

さらに、第１実施形態〜第４実施形態では、元画像は編集せずＢＧＭメタデータを追加するだけであったので、元画像を非破壊で保存でき、ＢＧＭなしの元の状態の動画像を再生することが容易であるという利点があった。その反面、ＢＧＭメタデータに対応していない一般的な再生装置で同様の再生結果を得ることができないという問題点もあった。そこで、制御部１４０は、音声映像合成部１７０が得た音声映像合成データを記憶部１１０に記憶させることとしてもよい。すなわち、重畳分離部２８０と記録再生部２９０に、動画像をデコードし、ＢＧＭを追加した結果を同時にエンコードしてメモリカード、光ディスクなどに記録するだけの十分な処理能力があれば、以下のような処理を行うこととすればよい。つまり、図１２に示すように、元の動画像をＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）単位でコピーしていき、ＢＧＭを追加したい区間に差し掛かったときに、動画デコード、ＢＧＭ追加、動画エンコードという処理を行い、その区間が終了するとまたＧＯＰ単位のコピーを行う。これによって、映像と音声の劣化を最低限に抑えてＢＧＭを付加した状態の動画像のコピーを得ることができる。その状態のコピー動画像をメモリカード、光ディスクなどの取り外し可能なメディアに記録して作品化することで、一般的な再生装置上でもＢＧＭ付加編集を行った状態の映像を再生して楽しむことが可能となる。

ＢＧＭを追加した非破壊編集であることを基本とすると同時に、音声再エンコードと映像コピーにより、ＢＧＭを追加した新たなコンテンツを作成することもできる。

また、ＢＧＭを元音声とは別トラックに記録することで元画像、音声を保存したまま、イメージビデオ的な編集結果を作品として残すことも可能となる。この場合には、例えば、元画像に対して音声を複数（元音声、ＢＧＭ等）対応付けて記録し、再生時には複数の音声のうち、使用者の選択する音声を出力することができる。

第１実施形態〜第４実施形態において、顔検出部１４３および楽曲検出部１４２は、ハードウェアとして構成することも可能であるし、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）やＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）上にソフトウェアとして構成することも可能であり、システムに最適な方式で構成すればよい。

第３実施形態〜第４実施形態では、ビデオカメラレコーダ等の撮像装置を例に本発明を実施する構成としたが、本発明の実施形態はこれに限定されるものではなく、パーソナルコンピュータ、ビデオデッキ、ＨＤＤレコーダ、映像編集装置、動画機能付デジタルスチルカメラ、動画撮影機能付携帯電話等の動画像を扱うことのできる機器全般に応用可能である。

第１実施形態にかかる情報処理装置の構成を示すブロック図である。第１実施形態の概念を示す基本となる図である。第１実施形態にかかる情報処理装置のＢＧＭ付再生実行時の制御フローチャートである。第２実施形態にかかる情報処理装置の構成を示すブロック図である。第２実施形態の概念を示す基本となる図である。第２実施形態にかかる情報処理装置のＢＧＭメタデータを付加する前処理の制御フローチャートである。第２実施形態にかかるＧＵＩの具体例を示す図である。第２実施形態にかかる情報処理装置のＢＧＭ付再生実行時の制御フローチャートである。第３実施形態にかかる情報処理装置の構成を示すブロック図である。第４実施形態にかかる情報処理装置の構成を示すブロック図である。画像情報管理ファイルのフォルダ構造イメージと実ファイル構成の例を示す図である。本実施形態による出力データを作品化する際の再符号化範囲を示す図である。

符号の説明

１情報処理装置
１００情報処理装置
１１０記憶部
１１２音声映像データ
１１４顔メタデータ
１１６楽曲メタデータ
１１８顔ＢＧＭ対応情報
１２０再生部
１３０分離部
１４０制御部
１４１ＢＧＭメタデータ生成部
１４２楽曲検出部
１４３顔検出部
１４４第１共用メモリ
１４５第２共用メモリ
１５０ＢＧＭデータ記憶部
１６０音声合成部
１７０音声映像合成部
１８０映像出力部
１９０音声出力部
２００撮像装置
２１０レンズ部
２２０受光部
２３０音声入力部
２４０映像信号処理部
２５０音声信号処理部
２８０重畳分離部
２９０記録再生部

Claims

音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、
前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記ＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
を備え、
前記記憶部は、
前記音声映像データをさらに記憶し、
ＢＧＭデータを記憶するＢＧＭデータ記憶部と、
前記記憶部が記憶する前記音声映像データを再生する再生部と、
前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
前記制御部が前記ＢＧＭを出力する、と決定した時刻まで再生が進んだ場合に、前記ＢＧＭ識別情報で識別される前記ＢＧＭデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
をさらに備え、
ユーザから前記ＢＧＭデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
前記制御部は、
前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記ＢＧＭデータと前記音声データとの合成を実行させない、情報処理装置。
音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、
前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記ＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
を備え、
前記制御部は、
前記ＢＧＭを出力する、と決定した時刻を示すＢＧＭ存在時刻情報と、前記ＢＧＭ識別情報とを対応付けてＢＧＭメタデータを生成し、前記記憶部に記憶させるＢＧＭメタデータ生成部を備え、
前記記憶部は、
前記音声映像データをさらに記憶し、
ＢＧＭデータを記憶するＢＧＭデータ記憶部と、
前記記憶部が記憶する前記音声映像データを再生する再生部と、
前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
前記記憶部が記憶する前記ＢＧＭメタデータの前記ＢＧＭ存在時刻情報が示す時刻まで再生が進んだ場合に、前記ＢＧＭ識別情報で識別される前記ＢＧＭデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
をさらに備え、
ユーザから前記ＢＧＭデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
前記制御部は、
前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記ＢＧＭデータと前記音声データとの合成を実行させない、情報処理装置。
前記音声映像合成部が得た前記音声映像合成データに含まれる前記映像データに基づいて映像を出力する映像出力部と、
前記音声映像合成部が得た前記音声映像合成データに含まれる前記合成音声データに基づいて合成音声を出力する音声出力部と、
をさらに備える、請求項１または請求項２に記載の情報処理装置。
ユーザから前記ＢＧＭデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
前記制御部は、
前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記ＢＧＭデータと前記音声データとの合成を実行させない、
請求項１または請求項２に記載の情報処理装置。
前記制御部は、
前記音声映像合成部が得た前記音声映像合成データを前記記憶部に記憶させる、
請求項１または請求項２に記載の情報処理装置。
前記音声映像データの映像において前記被写体が同時刻に複数存在する場合、前記被写体の顔の大きさ、前記被写体に対してあらかじめ定められた優先度、または、前記被写体の顔の表情スコアに応じて決定される被写体を識別するための情報が前記被写体識別情報として決定される、
請求項１または請求項２に記載の情報処理装置。
音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、制御部とを備えた情報処理装置の前記制御部が、
前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断するステップと、
当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記ＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定するステップと、
を実行し、
前記記憶部は、
前記音声映像データをさらに記憶し、
ＢＧＭデータを記憶するＢＧＭデータ記憶部と、
前記記憶部が記憶する前記音声映像データを再生する再生部と、
前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
前記制御部が前記ＢＧＭを出力する、と決定した時刻まで再生が進んだ場合に、前記ＢＧＭ識別情報で識別される前記ＢＧＭデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
をさらに備え、
ユーザから前記ＢＧＭデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
前記制御部は、
前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記ＢＧＭデータと前記音声データとの合成を実行させない、情報処理方法。
コンピュータを、音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、
前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記ＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
を備える、情報処理装置として機能させるための情報処理プログラム。
音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とＢＧＭ識別情報とが対応付けられてなる被写体ＢＧＭ対応情報とを記憶する記憶部と、
前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記ＢＧＭ識別情報で識別されるＢＧＭを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
を備え、
前記記憶部は、
前記音声映像データをさらに記憶し、
ＢＧＭデータを記憶するＢＧＭデータ記憶部と、
前記記憶部が記憶する前記音声映像データを再生する再生部と、
前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
前記制御部が前記ＢＧＭを出力する、と決定した時刻まで再生が進んだ場合に、前記ＢＧＭ識別情報で識別される前記ＢＧＭデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
をさらに備え、
ユーザから前記ＢＧＭデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
前記制御部は、
前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記ＢＧＭデータと前記音声データとの合成を実行させない、撮像装置。