JP4683116B2 - 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 - Google Patents

情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 Download PDF

Info

Publication number
JP4683116B2
JP4683116B2 JP2008290175A JP2008290175A JP4683116B2 JP 4683116 B2 JP4683116 B2 JP 4683116B2 JP 2008290175 A JP2008290175 A JP 2008290175A JP 2008290175 A JP2008290175 A JP 2008290175A JP 4683116 B2 JP4683116 B2 JP 4683116B2
Authority
JP
Japan
Prior art keywords
time
audio
bgm
data
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008290175A
Other languages
English (en)
Other versions
JP2010118859A (ja
Inventor
聡 江波戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008290175A priority Critical patent/JP4683116B2/ja
Priority to US12/615,677 priority patent/US8396351B2/en
Priority to CN200910206437XA priority patent/CN101740083B/zh
Publication of JP2010118859A publication Critical patent/JP2010118859A/ja
Application granted granted Critical
Publication of JP4683116B2 publication Critical patent/JP4683116B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置に関する。
近年、家庭用ビデオカメラは子供の成長記録や旅行などのイベント撮影に使用されるなど一般的に広く使われるようになってきている。しかしながら、映像素材(撮影によって得られた映像データ)に対して編集を行わずに、映像データを残しておいた場合には、映像データ以外の情報が残らない。そのため、撮影してからある程度以上の時間が経過すると、冗長な映像データがそのまま残ってしまい、撮影時の思い出を保存する機能を十分果たせない上に、映像の視聴が退屈になるという問題がある。こういった問題を解決するためには、映像データの編集作業が必要であるが、編集作業を行うためには複数の映像機器と専用のエフェクタを使用したり、PC(Personal Computer)を使用したりする必要があり、大掛かりで面倒なものであった。そのため、作業の負荷を軽減するための様々な技術が提案されている。
例えば、ユーザが映像素材をタイムライン上にドラッグアンドドロップすることによって、または、自動で、映像素材を並び替えるノンリニア編集技術が提案されている(特許文献1参照)。
また、静止画のBGM(BackGround Music)付きプレイリストコンテンツを作成する技術が開示されている(特許文献2参照)。さらに、静止画の人物識別によって画像データを人物ごとのアルバムデータに分配する技術が提案されている(特許文献3参照)。
また、静止画に対して装飾を行う技術(エフェクト)が提案されている(例えば、特許文献4および特許文献5参照)。この技術では、静止画に対する顔認識の結果に基づいて、静止画に対する画像処理やデータ付加を行う技術が提案されている。
特開2007−317353号公報 特開2006−86621号公報 特開2006−189977号公報 特開2007−282118号公報 特開2007−282119号公報
しかしながら、映像データの編集作業を行うためには、画像データの取り込み、タイムライン編集、オーサリング、再エンコード出力といった過程が必要となり、映像データの編集作業は、一般的なユーザにとって技術的に難しいという問題があった。また、編集作業のために多くの時間を要し、一般的なユーザの手間がかかるという問題があった。特に、映像データに効果音やBGMを追加する技術については効果的なものが存在せず、映像データと効果音やBGMとのタイミングを合わせる手間が膨大になるといった問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、映像データに合ったBGMを出力するために必要なデータを容易に生成することが可能な、新規かつ改良された技術を提供することにある。
上記課題を解決するために、本発明のある観点によれば、音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、音声映像データにおける時刻に、被写体存在時刻情報が示す時刻と一致し、かつ、楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、条件を満たす時刻が存在する場合には、時刻まで再生が進んだ場合に被写体存在時刻情報に対応付けられた被写体識別情報に対応付けられたBGM識別情報で識別されるBGMを出力する、と決定する制御部と、を備える、情報処理装置が提供される。
上記した記憶部は、音声映像データをさらに記憶し、上記した情報処理装置は、BGMデータを記憶するBGMデータ記憶部と、記憶部が記憶する音声映像データを再生する再生部と、再生部が再生した音声映像データを分離して音声データと映像データとを得る分離部と、制御部がBGMを出力する、と決定した時刻まで再生が進んだ場合に、BGM識別情報で識別されるBGMデータと分離部が得た音声データとを合成して合成音声データを得る音声合成部と、音声合成部が得た合成音声データと映像データとを合成して音声映像合成データを得る音声映像合成部と、をさらに備えることとしてもよい。
上記した制御部は、BGMを出力する、と決定した時刻を示すBGM存在時刻情報と、BGM識別情報とを対応付けてBGMメタデータを生成し、記憶部に記憶させるBGMメタデータ生成部を備えることとしてもよい。
上記した記憶部は、音声映像データをさらに記憶し、上記した情報処理装置は、BGMデータを記憶するBGMデータ記憶部と、記憶部が記憶する音声映像データを再生する再生部と、再生部が再生した音声映像データを分離して音声データと映像データとを得る分離部と、記憶部が記憶するBGMメタデータのBGM存在時刻情報が示す時刻まで再生が進んだ場合に、BGM識別情報で識別されるBGMデータと分離部が得た音声データとを合成して合成音声データを得る音声合成部と、音声合成部が得た合成音声データと映像データとを合成して音声映像合成データを得る音声映像合成部と、をさらに備えることとしてもよい。
上記した情報処理装置は、音声映像合成部が得た音声映像合成データに含まれる映像データに基づいて映像を出力する映像出力部と、音声映像合成部が得た音声映像合成データに含まれる合成音声データに基づいて合成音声を出力する音声出力部と、をさらに備えることとしてもよい。
上記した情報処理装置は、ユーザからBGMデータと音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、上記した制御部は、入力部がユーザから指示情報の入力を受け付けた場合には、音声合成部にBGMデータと音声データとの合成を実行させないこととしてもよい。
上記した制御部は、音声映像合成部が得た音声映像合成データを記憶部に記憶させることとしてもよい。
以上説明したように本発明によれば、映像データに合ったBGMを出力するために必要なデータを容易に生成することが可能な技術を提供することができる。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。なお、説明は以下の順序で行う。
1. 第1実施形態(情報処理装置のハードウェア構成)
2. 第1実施形態(情報処理装置の機能)
3. 第1実施形態(情報処理装置の動作)
4. 第2実施形態(情報処理装置のハードウェア構成)
5. 第2実施形態(情報処理装置の制御部の機能)
6. 第2実施形態(BGMメタデータ追加処理)
7. 第2実施形態(BGM付加再生)
8. 第3実施形態(撮像装置のハードウェア構成)
9. 第4実施形態(撮像装置のハードウェア構成)
10. 映像データの記録手法
11. 本実施形態による効果
12. 本実施形態の変形例
[1.第1実施形態(情報処理装置のハードウェア構成)]
まず、本発明の第1実施形態にかかる情報処理装置のハードウェア構成について説明する。図1は、本発明の第1実施形態にかかる情報処理装置のハードウェア構成を示す図である。以下、図1を用いて本発明の第1実施形態にかかる情報処理装置のハードウェア構成について説明する。
図1に示すように、情報処理装置100は、少なくとも、記憶部110と、制御部140とを備えるものである。記憶部110は、データ格納用の装置であり、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。記憶部110は、制御部140が実行するプログラムや各種データなどを格納する。
記憶部110は、音声映像データ112の映像に被写体の一例としての顔が存在する時刻を示す顔存在時刻情報と顔を識別するための顔識別情報とが対応付けられてなる顔メタデータ114を記憶する。また、記憶部110は、音声映像データ112の音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータ116を記憶する。さらに、記憶部110は、顔識別情報とBGM識別情報とが対応付けられてなる顔BGM対応情報118を記憶する。なお、以下では被写体の一例として人間の顔を使用した場合について説明するが、人間の顔以外の被写体を使用することも可能であり、例えば、ペット等の動物の顔や、身体の一部、身体全体、車両等の乗り物等といった被写体を使用することも可能である。
制御部140は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等から構成され、音声映像データにおける時刻に、顔存在時刻情報が示す時刻と一致し、かつ、楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断する。制御部140は、その条件を満たす時刻が存在する場合には、その時刻まで再生が進んだ場合に顔存在時刻情報に対応付けられた顔識別情報に対応付けられたBGM識別情報で識別されるBGMを出力する、と決定する。
また、記憶部110は、音声映像データ112をさらに記憶し、情報処理装置100は、BGMデータ記憶部150と、再生部120と、分離部130と、音声合成部160と、音声映像合成部170とをさらに備えることとしてもよい。
再生部120は、記憶部110が記憶する音声映像データ112を再生するものである。分離部130は、再生部120が再生した音声映像データを分離して音声データと映像データとを得るものである。分離部130は、例えば、音声データを第1共用メモリ144に記憶させ、映像データを第2共用メモリ145に記憶させる。BGMデータ記憶部150は、例えばROM等から構成され、BGMデータを記憶するものである。BGMデータ記憶部150は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成されることとしてもよい。また、ここでは、BGMデータがBGMデータ記憶部150に記憶されていることとするが、記憶部110に記憶されていることとしてもよい。
音声合成部160は、制御部140がBGMを出力する、と決定した時刻まで再生が進んだ場合に、BGM識別情報で識別されるBGMデータと分離部130が得た音声データとを合成して合成音声データを得る。音声合成部160は、合成音声データを得るに際して、例えば、第1共用メモリ144に記憶されている音声データと制御部140によってBGMデータ記憶部150から読み出されて第1共用メモリ144に記憶されているBGMデータとを合成する。音声映像合成部170は、音声合成部160が得た合成音声データと映像データとを合成して音声映像合成データを得るものである。音声映像合成部170は、音声映像合成データを得るに際して、例えば、音声合成部160から出力された合成音声データと第2共用メモリ145に記憶されている映像データとを合成する。
情報処理装置100は、映像出力部180と、音声出力部190とをさらに備えることとしてもよい。映像出力部180は、音声合成部160が得た音声映像合成データに含まれる映像データに基づいて映像を出力するものである。映像出力部180は、例えば、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、ランプなどの表示装置など、取得した情報をユーザに対して視覚的に通知することが可能な装置で構成される。
音声出力部190は、音声合成部160が得た音声映像合成データに含まれる合成音声データに基づいて合成音声を出力するものである。音声出力部190は、スピーカ、ヘッドホンなどの音声出力装置など、取得した情報をユーザに対して聴覚的に通知することが可能な装置で構成される。音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
以上、本発明の第1実施形態にかかる情報処理装置100のハードウェア構成について説明した。次に、本発明の第1実施形態にかかる情報処理装置100の機能について説明する。
[2.第1実施形態(情報処理装置の機能)]
本発明の第1実施形態にかかる情報処理装置の機能について説明する。図2は、本発明の第1実施形態にかかる情報処理装置の機能を説明するための図である。以下、図2を用いて(適宜図1参照)本発明の第1実施形態にかかる情報処理装置の機能について説明する。
図2に示すように、音声映像データ112(再生元の撮影記録映像ストリーム)は、映像データ(映像部(a))と音声データ(音声部(b))とを含んで構成されている。再生部120が音声映像データ112の再生を開始すると、図2に示した例では、顔ID(顔識別情報)が「0」の人物が登場する。顔IDは、顔の出現順に割振られた通し番号であり、同一人物であっても一度退場して再登場した場合には別の顔IDが割振られる。顔ID「0」の人物の登場は、撮影記録映像に対応付けられた顔メタデータ114(d0)をあらかじめ読んでおくことで認識される。
顔メタデータ114(d0)は、顔IDの他、顔の出現時刻、消失時刻、出現時の座標、登録された人物ナンバを示す人物同定(ただし数字0は未登録の人物)、同定した人物らしさを示す類似度、表情の笑顔度を示す表情スコアを持っている。制御部140は、顔メタデータ114(d0)中の顔の出現時刻、消失時刻を読み込むことで、その人物の映像中の出現時刻と消失時刻がわかる。なお、上記した顔存在時刻は、例えば、顔の出現時刻以後かつ顔の消失時刻以前の範囲で規定される。
図2に示した例では、制御部140が、顔メタデータ114(d0)の示す顔の出現時刻以後かつ消失時刻以前の範囲内の映像部(a)に対応する音声部(b)の区間には楽曲(音楽)がもともと存在していないと判断する。したがって、音声合成部160は、あらかじめ登録された人物同定「1」に対応するBGM1を追加音声部(BGM(c))を音声部(b)に重畳し、音声出力部190は、重畳された音声を出力する。その際、BGMが突然鳴り出して視聴者がびっくりすることを避けるために、フェードインによってBGM1が開始し、フェードアウトによってBGM1が終了するのが好ましい。これにより、特定の人物の登場場面でその人物のテーマ曲を鳴らす効果が得られる。
2回目に人物が登場する顔IDが「1」の人物の登場時の情報は、制御部140があらかじめ顔メタデータ114(d1)を読んでおくことで認識される。しかしながら、図2において顔IDが「1」の人物が登場した際には音声部(b)において楽曲が鳴っているため、追加音声部(c)にBGMを追加させない。音声部(b)に楽曲が鳴っていることは楽曲メタデータ116(e0)にて示されている。
楽曲メタデータ116(e0)は、検出した楽曲の出現順に割振られた元楽曲IDを含み、楽曲の出現時刻、消失時刻、楽曲同定(「True」ならば真、「False」ならば偽)、楽曲スコア(楽曲らしさスコア)、音量レベルを情報として持っている。なお、上記した楽曲存在時刻は、例えば、楽曲の出現時刻以後かつ楽曲の消失時刻以前の範囲で規定される。
楽曲スコアと楽曲検出手法については、例えば、12音解析など、既存の手法を用いることができるが、その際、楽曲が存在するかどうかという観点でのみメタデータとして記録することで、メタデータの記録量を削減することができる。顔メタデータ114と楽曲メタデータ116の出現時刻、消失時刻とを比較することで、顔だけが存在する区間、楽曲だけが存在する区間、顔と楽曲が存在する区間、何も検出されない区間を区別することができる。図2に示した例では、顔IDが「1」の人物が登場している場面の途中で楽曲が消失するため、楽曲が消失して顔IDが「1」の人物の顔だけが存在する区間に、顔IDが「1」の人物同定「1」に対応するBGM1を追加音声部(c)に追加する。
図2に示した例では、簡単のために登場人物が一人の場合についてのみ述べたが、複数の人物の登場時にも同様の処理が可能である。複数の顔が登場する場合、それぞれの人物に別々のBGMを登録して鳴らせることは可能となるが、登録された複数の人物が同一区間に存在する場合も想定される。その場合には、顔の大きさ、人物同定ナンバによる優先付け、表情スコアなどにより、どの人物に対するBGMを追加音声部(c)に追加するかどうかを決定することができる。顔の大きい人物のBGMを優先することとしてもよく、あらかじめ優先付けされた人物に対応するBGMを優先して鳴らせることとしてもよい。
以上、本発明の第1実施形態にかかる情報処理装置100の機能について説明した。次に、本発明の第1実施形態にかかる情報処理装置100の動作について説明する。
[3.第1実施形態(情報処理装置の動作)]
本発明の第1実施形態にかかる情報処理装置の動作について説明する。図3は、本発明の第1実施形態にかかる情報処理装置の動作を示すフローチャートである。以下、図3を用いて(適宜図1ないし図2参照)本発明の第1実施形態にかかる情報処理装置の動作について説明する。
まず、ステップS101では、制御部140は、全てのメタデータを読み取り、分析しておく。その後、ステップS102では、再生部120は、映像(音声映像データ112)の再生を開始する。次に、ステップS103では、制御部140は、現在の再生位置の映像(a)に顔が存在するか否かを判定する。存在する場合は(ステップS103で「Yes」)ステップS104へ、存在しない場合は(ステップS103で「No」)ステップS108へ進む。
ステップS104では、制御部140は、現在の再生位置の音声(b)に楽曲が存在するか否かを判定する。存在しない場合は(ステップS104で「No」)ステップS105へ、存在する場合は(ステップS104で「Yes」)ステップS106へ進む。
ステップS105へ進んだ場合は、現在の再生位置の映像(a)に顔が存在し、元音声(b)に楽曲が存在しないということであるから、再生部120は、BGMを付加させるためBGMの再生を開始する。その際、フェードインによって再生を開始することが好ましい。ステップS106に進んだ場合は、現在の再生位置の映像(a)に顔が存在し、音声(b)に楽曲が存在するため、BGMを付加させないようにする必要がある。よって、ステップS106では、制御部140は、今現在BGMの付加再生中であるかどうかを判定する。現在BGMの付加再生中である場合は(ステップS106で「Yes」)ステップS107に進み、再生部120は、BGMの再生停止を行う。その際、フェードアウトによって再生を停止することが好ましい。現在BGMの付加再生中でない場合は(ステップS106で「No」)ステップS110に進む。
ステップS108に進んだ場合は、現在の再生位置の映像(a)に顔が存在しないため、BGMを付加させないようにする必要がある。よって、ステップS108では、制御部140は、今現在BGMの付加再生中であるかどうかを判定する。現在BGMの付加再生中である場合は(ステップS108で「Yes」)ステップS109に進み、再生部120は、BGMの再生停止を行う。その際、フェードアウトによって再生を停止することが好ましい。現在BGMの付加再生中でない場合は(ステップS108で「No」)ステップS110に進む。
ステップS110では、映像(音声映像データ112)の再生を終了するか否かを判定する。映像の再生を終了する場合とは、例えば、再生部120が音声映像データ112を最後まで再生した場合や入力部(不図示)からユーザによる再生終了指示が入力された場合等である。終了する場合は(ステップS110で「Yes」)そのままBGM付加再生を終了する。終了しない場合は(ステップS110で「No」)ステップS103に戻って映像を再生しながらBGMの付加再生や停止処理を繰返すことになる。
以上の処理によって、最も簡単に映像に顔が存在し、かつ、音声中に楽曲が存在しない区間のみについてBGM付加再生を行うことができる。
以上、本発明の第1実施形態にかかる情報処理装置100の動作について説明した。次に、本発明の第2実施形態について説明する。第1実施形態では、基本的なBGM付加再生処理を行うことが可能である。以下に説明する第2実施形態は、人物(顔)ごとにBGM登録を行う場合や、場面ごとにBGMを付加するかどうかを確認したい場合、誤検出によるBGM付加を回避する場合などに対応できるものである。
[4.第2実施形態(情報処理装置のハードウェア構成)]
まず、本発明の第2実施形態にかかる情報処理装置のハードウェア構成について説明する。図4は、本発明の第2実施形態にかかる情報処理装置のハードウェア構成を示す図である。以下、図4を用いて本発明の第2実施形態にかかる情報処理装置のハードウェア構成について説明する。
第2実施形態にかかる情報処理装置100は、制御部140がBGMメタデータ生成部141を備えている点において第1実施形態にかかる情報処理装置100と相違する。以下では、第2実施形態にかかる情報処理装置100のハードウェア構成について説明する。
BGMメタデータ生成部141は、制御部140がBGMを出力する、と決定した時刻を示すBGM存在時刻情報と、BGM識別情報とを対応付けてBGMメタデータ119を生成し、記憶部110に記憶させる機能を有する。
また、記憶部110は、音声映像データ112をさらに記憶し、情報処理装置100は、BGMデータ記憶部150と、再生部120と、分離部130と、音声合成部160と、音声映像合成部170とをさらに備えることとしてもよい。BGMデータ記憶部150と、再生部120と、分離部130とについては、第1実施形態で説明したものと同様の機能を備えているため、詳細な説明は省略する。
音声合成部160は、記憶部110が記憶するBGMメタデータ119のBGM存在時刻情報が示す時刻まで再生が進んだ場合に、BGM識別情報で識別されるBGMデータと分離部130が得た音声データとを合成して合成音声データを得る。
以上、本発明の第2実施形態にかかる情報処理装置100のハードウェア構成について説明した。次に、本発明の第2実施形態にかかる情報処理装置100の機能について説明する。
[5.第2実施形態(情報処理装置の機能)]
本発明の第2実施形態にかかる情報処理装置の機能について説明する。図5は、本発明の第2実施形態にかかる情報処理装置の機能を説明するための図である。以下、図5を用いて(適宜図4参照)本発明の第2実施形態にかかる情報処理装置の機能について説明する。
第2実施形態は、音声映像データ112の各区間(f)を顔メタデータ114と楽曲メタデータ116との対応関係により分類する点において第1実施形態と相違する。分類方法としては、例えば、顔、楽曲共に存在しない(None)、顔のみ存在する(Face)、楽曲のみ存在する(Music)、楽曲と顔が重複する(Music&Face)の4種類に分類することが考えられる。なお、BGMを付加するのは顔のみ存在する(Face)区間なので、顔のみ存在する(Face)区間が検出できれば、上記の4分類に分類する必要はない。
顔のみ存在する(Face)区間は、対応する顔メタデータ114(d0,d1…)とそれぞれリンク付けられており、BGMメタデータ生成部141は、さらにBGMを付加するためにBGMメタデータ(g0,g1…)を付加することとする。BGMメタデータ(g0,g1…)はそれぞれBGMIDとBGMの出現時刻、消失時刻、BGMの種類を含んでいる。情報処理装置100は、BGM付き再生を実行したい場合は、前処理として、顔メタデータ114と楽曲メタデータ116との対応関係から区間を分類し、BGMメタデータ生成部141によってBGMメタデータ(g0,g1…)を作成し、記憶部110に記録しておく。そして、実際にBGM付き再生を実行する場合には、BGMメタデータ(カテゴリがBGMのメタデータ)のみを参照して、BGMの付加再生や停止処理を実行する。

[6.第2実施形態(BGMメタデータ追加処理)]
本発明の第2実施形態にかかる情報処理装置の動作(BGMメタデータ追加処理)について説明する。図6は、本発明の第2実施形態にかかる情報処理装置の動作(BGMメタデータ追加処理)を示すフローチャートである。以下、図6を用いて(適宜図4および図5参照)本発明の第2実施形態にかかる情報処理装置の動作(BGMメタデータ追加処理)について説明する。
ステップS201にて、まず、BGMを付加したい人物の登録作業を行う。ここでは図7(a)に示すようなGUIを設けて登録したい人物を選択し、登録ボタンで人物(顔)を登録してもよい。複数の人物を登録することもできる。
次に、ステップS202において、制御部140は、登録された人物に付加するBGMを選択、登録(リンク付け)する。制御部140は、登録された人物と付加するBGMとを、顔BGM対応情報118として記憶部110に記憶させる。ここで図7(b)に示すようなGUIを設けて登録した人物の確認と、その人物に付加するBGMの選択、複数の顔を検出した際の優先度を設定できるようにしてもよい。また、この場面で、BGMを実際に再生して確認することで選択をさせやすくすることも可能である。
次に、ステップS203にて、BGMを付加したい映像データ(チャプタまたはファイル、プレイリスト)を選択する。例えば、映像データのサムネイル画像一覧を並べて、映像を選択させてもよい。複数ファイル選択も可能とする。
次に、ステップS204において、制御部140は、ステップS203にて選択された映像データに対応する全ての顔メタデータ114と楽曲メタデータ116とを読みとる。
次に、ステップS205において、BGMメタデータ生成部141は、読み取った顔メタデータ114と楽曲メタデータ116とを時系列に並べて、区間分類(f)を決定する。ここで、BGMメタデータ生成部141は、例えば、顔、楽曲共に存在しない区間が(None)、顔のみ存在する区間が(Face)、楽曲のみ存在する区間が(Music)、楽曲と顔が重複する区間が(Music&Face)と判定する。判定手段としては、各音声映像データ112の付加情報パック(図示せず)に記録された日時情報(年月日時分秒)と、各メタデータに含まれる出現時刻、消失時刻を比較することで区間の分類を決定することができる。
顔のみ存在する区間(Face)が検出された場合には、BGMメタデータ生成部141は、対応する顔データのリンクを設定しておく。登録された複数の人物が同一区間に存在する場合には、顔の大きさ、人物同定ナンバによる優先付け、表情スコアなどによる重み付けにより、どの顔に対するリンクを設定するか決定することになる。通常はサイズの大きい顔を主要被写体としてリンク付けを設定する。
そして、ステップS206において、BGMメタデータ生成部141は、判定した区間(f)の中に顔のみ存在する(Face)区間が存在するか否かを判定する。存在する場合は(ステップS206で「Yes」)ステップS207にて、BGMメタデータ生成部141は、顔のみ存在する(Face)区間が十分大きいか否かを判定する。判定時間は例えば5秒、10秒、20秒などといった値から選択させてもよいが、10秒であることが好ましい。(Face)区間が十分大きい場合(ステップS207で「Yes」)には、BGMメタデータ生成部141は、ステップS208に進む。ステップS208では、BGMメタデータ生成部141は、検出された顔のみ存在する(Face)区間に対応する顔データのリンクから顔を特定し、ステップS202において顔と関連付けられているBGMを選択する。BGMメタデータ生成部141は、BGMメタデータを作成してシステムインデックスファイル(後述)のメタデータ領域に追加し、終了する。
ステップS206において顔のみ存在する(Face)区間が存在しない場合(ステップS206で「No」)、およびステップS207において顔のみ存在する(Face)区間が十分大きいと判断されない場合は(ステップS207で「No」)そのまま終了する。
ステップS208においてBGMメタデータを追加するに当たっては、該当するBGM追加場面を表示、再生し、使用者にBGMの追加を決定するか否かを確認させてもよい。このとき、追加するBGMが使用者のイメージと違っていた場合に、違うBGMを選択できるようにすると、より使用感が向上する。
以上、本発明の第2実施形態にかかる情報処理装置100の動作(BGMメタデータ追加処理)について説明した。次に、本発明の第2実施形態にかかる情報処理装置100の動作(BGM付加再生)について説明する。
[7.第2実施形態(BGM付加再生)]
本発明の第2実施形態にかかる情報処理装置の動作(BGM付加再生)について説明する。図8は、本発明の第2実施形態にかかる情報処理装置の動作(BGM付加再生)を示すフローチャートである。以下、図8を用いて(適宜図4および図5参照)本発明の第2実施形態にかかる情報処理装置の動作(BGM付加再生)について説明する。
まず、ステップS301にて、制御部140は、再生しようとする音声映像データ112に対応するBGMメタデータを読み取っておく。次に、ステップS302において、再生部120は、再生対象の映像(音声映像データ112)の再生を開始する。ステップS303において、制御部140は、BGMメタデータ(カテゴリが「BGM」のBGMメタデータ)が存在するか否かを判断する。BGMメタデータが存在する場合は(ステップS303で「Yes」)ステップS304へ、存在しない場合は(ステップS303で「No」)ステップS306へ進む。
ステップS304においては、制御部140は、現在再生している映像の時刻情報が、BGMメタデータのBGM出現時刻に一致するか否かを判定する。一致する場合は(ステップS304で「Yes」)ステップS305へ、一致しない場合は(ステップS304で「No」)ステップS307へ進む。
ステップS305へ進んだ場合は、映像の再生時刻がBGMの出現時刻と一致している場合なので、再生部120は、BGMの再生を開始し、ステップS306へ進む。その際、フェードインによって再生を開始することが好ましい。ステップS307へ進むのは、BGMが鳴っていない場合、および、BGMが既に鳴っている場合である。そこでステップS307では、制御部140は、現在再生している映像の時刻情報がBGMメタデータのBGM消失時刻であるか否かを判定する。制御部140は、ステップS306にて判定結果が「Yes」の場合はステップS308へ、「No」の場合はステップS306へ進む。ステップS308に進んだ場合は、既に鳴っているBGMを止めなければいけないので、再生部120は、BGMの再生停止を行い、ステップS306へ進む。その際、フェードアウトによって再生を停止することが好ましい。
ステップS306では、映像再生を終了するか否かを判断し、終了する場合は(ステップS306で「Yes」)映像再生を終了する。終了しない場合は(ステップS306で「No」)S303に戻って、BGMメタデータによるBGMの再生開始、停止を判断する処理を繰返す。
以上の処理によってBGM付き編集、再生結果を容易かつ短時間で得ることができる。また、元映像データを直接編集するのではなく、BGMメタデータを付加し、再生時にはBGMを付加するか否かを判断しているだけなので、元の状態の映像を再生することも容易であるという利点がある。
以上、本発明の第2実施形態にかかる情報処理装置100の動作について説明した。次に、本発明の第3実施形態について説明する。第1実施形態および第2実施形態において説明した情報処理装置100は、特にハードディスク等の記録装置に音声映像データを記録するビデオカメラレコーダのような撮像装置にその機能が組み込まれることが適切であると考えられる。以下に説明する第3実施形態は、上記した情報処理装置の機能を有する撮像装置に関するものである。
[8.第3実施形態(撮像装置のハードウェア構成)]
本発明の第3実施形態にかかる撮像装置のハードウェア構成について説明する。図9は、本発明の第3実施形態にかかる撮像装置のハードウェア構成を示す図である。以下、図9を用いて本発明の第3実施形態にかかる撮像装置のハードウェア構成について説明する。
レンズ部210を通して受光部220で受け取った映像を映像信号処理部240にて映像信号に変換する。同時に、音声入力部230にて受け取った音声を音声信号処理部250にて音声信号に変換する。重畳分離部280にて上記した映像信号と上記した音声信号とを重畳し、記録再生部290を通してフォーマット変換を行い、記憶部110にファイルとして記録する。音声信号処理部250は、楽曲検出部142を内蔵しており、入力音声を分析して入力音声中に楽曲が含まれるかどうかを分析し、制御部140に通知する。映像信号処理部240は顔検出部143を内蔵しており、映像中の顔を検出すると、検出した顔の映像中における時間的、空間的位置情報を検出し、制御部140に通知する。
制御部140は、上記の処理を制御しており、楽曲検出部142にて検出した楽曲存在情報を、記録再生部290を通じて記憶部110に音声映像データの付帯情報(メタデータ)として記録する。また、制御部140は、顔検出部143にて検出した顔情報を、記録再生部290を通じて記憶部110に音声映像データの付帯情報(メタデータ)として記録する。さらに、制御部140は、キー入力回路(不図示)の電気信号入力や映像出力部180(タッチパネルを搭載したLCDパネル)からのGUI入力を受けて映像信号の記録再生モードを切り換える。
撮像装置200は、再生時には、記憶部110に記録されたファイルから映像信号を取り出し、記録再生部290にて復号する。そして、GUIや各種情報を示すオンスクリーンディスプレイ画像情報をオンスクリーンディスプレイ回路(不図示)にて生成し、重畳分離部280により重畳して映像出力部180(タッチパネルを搭載したLCDパネル)上に表示する。それとともに、記録再生部290にて音声信号を同様にして復号して音声出力部190より出力する。
映像音声データの再生時に、制御部140は、音声映像データの付帯情報(メタデータ)により、顔存在情報と楽曲存在情報によって、当該映像音声データにBGMを付加するか否かを判定する。BGMを付加する場合には、制御部140は、記憶部110またはBGMデータ記憶部150に記憶されているBGMファイルを読み出し、記録再生部290および重畳分離部280によって、BGMを追加して再生することを可能にする。
上記した撮像装置200の制御部140は外部電源ACまたはバッテリから電源回路を介して電源供給を受け、制御信号を送って他回路への電源ON/OFFを制御している。映像信号の記録方式としてはMPEG−4 AVC/H.264圧縮を用いたAVCHD(商標)規格を用いた高精細映像(HD:High Definition)記録、またはMPEG−2圧縮を用いた標準信号(SD:Standard Definition)記録に対応する。
以上、本発明の第3実施形態にかかる撮像装置200のハードウェア構成について説明した。次に、本発明の第4実施形態について説明する。第4実施形態では、制御部140が楽曲検出部142および顔検出部143を備えている点について第3実施形態と相違する。
[9.第4実施形態(撮像装置のハードウェア構成)]
本発明の第4実施形態にかかる撮像装置のハードウェア構成について説明する。図10は、本発明の第4実施形態にかかる撮像装置のハードウェア構成を示す図である。以下、図10を用いて本発明の第4実施形態にかかる撮像装置のハードウェア構成について説明する。
第3実施形態では、映像信号処理部240および音声信号処理部250が、それぞれ顔検出部143および楽曲検出部142を備えることとしたが、図10に示すように、制御部140が顔検出部143および楽曲検出部142を備えることとすることも可能である。この場合には、音声映像データ中の顔の検出や楽曲の検出を、音声映像データを記憶部110に記録させた後に行うことが可能となり、他の編集機能とあわせて、より複雑な編集機能が実装可能である。
以上、本発明の第4実施形態にかかる撮像装置200のハードウェア構成について説明した。次に、音声映像データの記録手法について説明する。
[10.映像データの記録手法]
図11は、本発明の実施形態にかかる音声映像データの記録手法を説明する図である。以下、図11を用いて(適宜他の図参照)本発明の実施形態にかかる音声映像データの記録手法について説明する。
記憶部110に音声映像データを記録する手法について提案する。撮像装置200は、図11(a)に示すように、撮影日付単位で仮想的なフォルダを作成し、撮影順に撮影動画像ファイル(映像データファイル)を保存する。また、動画像の情報(映像データ)を図11(b)に示すように管理ファイル(システムインデックスファイルとも呼ばれる)に登録(これをエントリと呼ぶ)するものとする。動画像の記録情報はファイルの属性やサムネイルインデックス画像、動画像付帯情報(メタデータ)などを含む(特開2007−181150公報も参照)。
上記した撮像装置200は、撮影時に、顔検出部143において撮影対象に含まれる顔の数、サイズ、位置、属性等を、動画像情報管理ファイル上に、撮影動画像と結びついた動画像付帯情報の一つであるメタデータとして記録するものとする(特開2008−17041公報および特開2008−228135も参照)。また、楽曲検出部142において撮影映像の音声部を所定の長さの区間ごとに分け、既存の音声認識技術、例えば、12音平均律の特徴データ分布を分析する12音解析などの音声認識技術を利用して楽曲がなっているか否かを判定する。その結果の楽曲存在位置、判定スコアを撮影動画像と結びついた動画像付帯情報の一つであるメタデータとして記録する。12音解析による楽曲と会話の検出に関しては特開2008−122426を参照することができる。なお、特開2008−122426号公報では、誤りフィルタリングのために音声判定の所定区間同士の移動平均を行うことで判別結果の平滑化を行っているが、ここでは、誤判別よりもリアルタイム処理性を考慮して、楽曲判定スコアの移動平均は行わないものとする。ここでは楽曲が鳴っている情報のみをメタデータとして残すこととする。
撮像装置200は、記憶部110またはBGMデータ記憶部150に記録されたBGMデータを読み出して、記録再生部290によってデコードし、重畳分離部280によって撮影動画像の音声に重畳して、音声出力部190から音声を出力する。
以上、本発明の実施形態にかかる音声映像データの記録手法を説明した。次に、本実施形態による効果について説明する。
[11.本実施形態による効果]
本実施形態(第1実施形態〜第4実施形態)によれば、登録した人物の登場場面で常に同じ曲が流れるという面白い映像効果を手軽に得ることができる。また、元画像の音声部に含まれる楽曲と追加するBGMとが重複して使用者にうるさいと感じさせることのないように、半自動的にBGMを付加することができる。
また、第2実施形態によれば、BGMメタデータを付加することができる。これによって、BGMメタデータに対応した機器間であれば、同様のBGM付再生結果を得ることができる。
[12.本実施形態の変形例]
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
第1実施形態〜第4実施形態において、情報処理装置100は、ユーザからBGMデータと音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部(不図示)をさらに備えることとしてもよい。その場合に、例えば、入力部(不図示)がユーザから指示情報の入力を受け付けた場合には、制御部140は、音声合成部160にBGMデータと音声データとの合成を実行させないこととすることができる。これによって、また、BGM効果設定が望ましくないシーンに追加された場合は、取り消しをすることができる。
第1実施形態〜第4実施形態において、元音声に楽曲が存在していた区間の直後にBGMを付加する場合は、元音声の楽曲の音量レベルとほぼ一致する値にBGM音量を調整することで、音量の急激な変化を防止することもできる。この場合、BGMメタデータに音量レベルの値を追加し、その値に従ってBGM音量を変更する必要がある。
第2実施形態において、BGMメタデータとBGMデータとを、音声映像データと共にメモリカード、光ディスクなどの記録媒体にコピーし、他のBGMメタデータに対応した機器において、その記録媒体にコピーされたBGMメタデータとBGMデータとを使用ささせることとしてもよい。そうすれば、情報処理装置100と同様の再生を実行することが可能である。
さらに、第1実施形態〜第4実施形態では、元画像は編集せずBGMメタデータを追加するだけであったので、元画像を非破壊で保存でき、BGMなしの元の状態の動画像を再生することが容易であるという利点があった。その反面、BGMメタデータに対応していない一般的な再生装置で同様の再生結果を得ることができないという問題点もあった。そこで、制御部140は、音声映像合成部170が得た音声映像合成データを記憶部110に記憶させることとしてもよい。すなわち、重畳分離部280と記録再生部290に、動画像をデコードし、BGMを追加した結果を同時にエンコードしてメモリカード、光ディスクなどに記録するだけの十分な処理能力があれば、以下のような処理を行うこととすればよい。つまり、図12に示すように、元の動画像をGOP(Group Of Pictures)単位でコピーしていき、BGMを追加したい区間に差し掛かったときに、動画デコード、BGM追加、動画エンコードという処理を行い、その区間が終了するとまたGOP単位のコピーを行う。これによって、映像と音声の劣化を最低限に抑えてBGMを付加した状態の動画像のコピーを得ることができる。その状態のコピー動画像をメモリカード、光ディスクなどの取り外し可能なメディアに記録して作品化することで、一般的な再生装置上でもBGM付加編集を行った状態の映像を再生して楽しむことが可能となる。
BGMを追加した非破壊編集であることを基本とすると同時に、音声再エンコードと映像コピーにより、BGMを追加した新たなコンテンツを作成することもできる。
また、BGMを元音声とは別トラックに記録することで元画像、音声を保存したまま、イメージビデオ的な編集結果を作品として残すことも可能となる。この場合には、例えば、元画像に対して音声を複数(元音声、BGM等)対応付けて記録し、再生時には複数の音声のうち、使用者の選択する音声を出力することができる。
第1実施形態〜第4実施形態において、顔検出部143および楽曲検出部142は、ハードウェアとして構成することも可能であるし、MPU(Micro Processor Unit)やDSP(Digital Signal Processor)上にソフトウェアとして構成することも可能であり、システムに最適な方式で構成すればよい。
第3実施形態〜第4実施形態では、ビデオカメラレコーダ等の撮像装置を例に本発明を実施する構成としたが、本発明の実施形態はこれに限定されるものではなく、パーソナルコンピュータ、ビデオデッキ、HDDレコーダ、映像編集装置、動画機能付デジタルスチルカメラ、動画撮影機能付携帯電話等の動画像を扱うことのできる機器全般に応用可能である。
第1実施形態にかかる情報処理装置の構成を示すブロック図である。 第1実施形態の概念を示す基本となる図である。 第1実施形態にかかる情報処理装置のBGM付再生実行時の制御フローチャートである。 第2実施形態にかかる情報処理装置の構成を示すブロック図である。 第2実施形態の概念を示す基本となる図である。 第2実施形態にかかる情報処理装置のBGMメタデータを付加する前処理の制御フローチャートである。 第2実施形態にかかるGUIの具体例を示す図である。 第2実施形態にかかる情報処理装置のBGM付再生実行時の制御フローチャートである。 第3実施形態にかかる情報処理装置の構成を示すブロック図である。 第4実施形態にかかる情報処理装置の構成を示すブロック図である。 画像情報管理ファイルのフォルダ構造イメージと実ファイル構成の例を示す図である。 本実施形態による出力データを作品化する際の再符号化範囲を示す図である。
符号の説明
1 情報処理装置
100 情報処理装置
110 記憶部
112 音声映像データ
114 顔メタデータ
116 楽曲メタデータ
118 顔BGM対応情報
120 再生部
130 分離部
140 制御部
141 BGMメタデータ生成部
142 楽曲検出部
143 顔検出部
144 第1共用メモリ
145 第2共用メモリ
150 BGMデータ記憶部
160 音声合成部
170 音声映像合成部
180 映像出力部
190 音声出力部
200 撮像装置
210 レンズ部
220 受光部
230 音声入力部
240 映像信号処理部
250 音声信号処理部
280 重畳分離部
290 記録再生部

Claims (9)

  1. 音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、
    前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記BGM識別情報で識別されるBGMを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
    を備え、
    前記記憶部は、
    前記音声映像データをさらに記憶し、
    BGMデータを記憶するBGMデータ記憶部と、
    前記記憶部が記憶する前記音声映像データを再生する再生部と、
    前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
    前記制御部が前記BGMを出力する、と決定した時刻まで再生が進んだ場合に、前記BGM識別情報で識別される前記BGMデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
    前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
    をさらに備え、
    ユーザから前記BGMデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
    前記制御部は、
    前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記BGMデータと前記音声データとの合成を実行させない、情報処理装置。
  2. 音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、
    前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記BGM識別情報で識別されるBGMを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
    を備え、
    前記制御部は、
    前記BGMを出力する、と決定した時刻を示すBGM存在時刻情報と、前記BGM識別情報とを対応付けてBGMメタデータを生成し、前記記憶部に記憶させるBGMメタデータ生成部を備え、
    前記記憶部は、
    前記音声映像データをさらに記憶し、
    BGMデータを記憶するBGMデータ記憶部と、
    前記記憶部が記憶する前記音声映像データを再生する再生部と、
    前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
    前記記憶部が記憶する前記BGMメタデータの前記BGM存在時刻情報が示す時刻まで再生が進んだ場合に、前記BGM識別情報で識別される前記BGMデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
    前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
    をさらに備え、
    ユーザから前記BGMデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
    前記制御部は、
    前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記BGMデータと前記音声データとの合成を実行させない、情報処理装置。
  3. 前記音声映像合成部が得た前記音声映像合成データに含まれる前記映像データに基づいて映像を出力する映像出力部と、
    前記音声映像合成部が得た前記音声映像合成データに含まれる前記合成音声データに基づいて合成音声を出力する音声出力部と、
    をさらに備える、請求項または請求項に記載の情報処理装置。
  4. ユーザから前記BGMデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
    前記制御部は、
    前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記BGMデータと前記音声データとの合成を実行させない、
    請求項または請求項に記載の情報処理装置。
  5. 前記制御部は、
    前記音声映像合成部が得た前記音声映像合成データを前記記憶部に記憶させる、
    請求項または請求項に記載の情報処理装置。
  6. 前記音声映像データの映像において前記被写体が同時刻に複数存在する場合、前記被写体の顔の大きさ、前記被写体に対してあらかじめ定められた優先度、または、前記被写体の顔の表情スコアに応じて決定される被写体を識別するための情報が前記被写体識別情報として決定される、
    請求項1または請求項2に記載の情報処理装置。
  7. 音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、制御部とを備えた情報処理装置の前記制御部が、
    前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断するステップと、
    当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記BGM識別情報で識別されるBGMを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定するステップと、
    を実行し、
    前記記憶部は、
    前記音声映像データをさらに記憶し、
    BGMデータを記憶するBGMデータ記憶部と、
    前記記憶部が記憶する前記音声映像データを再生する再生部と、
    前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
    前記制御部が前記BGMを出力する、と決定した時刻まで再生が進んだ場合に、前記BGM識別情報で識別される前記BGMデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
    前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
    をさらに備え、
    ユーザから前記BGMデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
    前記制御部は、
    前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記BGMデータと前記音声データとの合成を実行させない、情報処理方法。
  8. コンピュータを、音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、
    前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記BGM識別情報で識別されるBGMを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
    を備える、情報処理装置として機能させるための情報処理プログラム。
  9. 音声映像データの映像に被写体が存在する時刻を示す被写体存在時刻情報と当該被写体を識別するための被写体識別情報とが対応付けられてなる被写体メタデータと、前記音声映像データの音声に楽曲が存在する時刻を示す楽曲存在時刻情報を含む楽曲メタデータと、前記被写体識別情報とBGM識別情報とが対応付けられてなる被写体BGM対応情報とを記憶する記憶部と、
    前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致しないという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで再生が進んだ場合に前記被写体存在時刻情報に対応付けられた前記被写体識別情報に対応付けられた前記BGM識別情報で識別されるBGMを出力する、と決定し、前記音声映像データにおける時刻に、前記被写体存在時刻情報が示す時刻と一致し、かつ、前記楽曲存在時刻情報が示す時刻に一致するという条件を満たす時刻が存在するか否かを判断し、当該条件を満たす時刻が存在する場合には、当該時刻まで前記音声映像データの再生が進んだ場合に当該時刻の音声を出力する、と決定する制御部と、
    を備え、
    前記記憶部は、
    前記音声映像データをさらに記憶し、
    BGMデータを記憶するBGMデータ記憶部と、
    前記記憶部が記憶する前記音声映像データを再生する再生部と、
    前記再生部が再生した前記音声映像データを分離して音声データと映像データとを得る分離部と、
    前記制御部が前記BGMを出力する、と決定した時刻まで再生が進んだ場合に、前記BGM識別情報で識別される前記BGMデータと前記分離部が得た前記音声データとを合成して合成音声データを得る音声合成部と、
    前記音声合成部が得た前記合成音声データと前記映像データとを合成して音声映像合成データを得る音声映像合成部と、
    をさらに備え、
    ユーザから前記BGMデータと前記音声データとを合成しない旨を示す指示情報の入力を受け付けることが可能である入力部をさらに備え、
    前記制御部は、
    前記入力部が前記ユーザから前記指示情報の入力を受け付けた場合には、前記音声合成部に前記BGMデータと前記音声データとの合成を実行させない、撮像装置。
JP2008290175A 2008-11-12 2008-11-12 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置 Expired - Fee Related JP4683116B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008290175A JP4683116B2 (ja) 2008-11-12 2008-11-12 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
US12/615,677 US8396351B2 (en) 2008-11-12 2009-11-10 Information processing apparatus, information processing method, information processing program and imaging apparatus
CN200910206437XA CN101740083B (zh) 2008-11-12 2009-11-12 信息处理装置、信息处理方法、信息处理程序和成像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008290175A JP4683116B2 (ja) 2008-11-12 2008-11-12 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置

Publications (2)

Publication Number Publication Date
JP2010118859A JP2010118859A (ja) 2010-05-27
JP4683116B2 true JP4683116B2 (ja) 2011-05-11

Family

ID=42306229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008290175A Expired - Fee Related JP4683116B2 (ja) 2008-11-12 2008-11-12 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置

Country Status (3)

Country Link
US (1) US8396351B2 (ja)
JP (1) JP4683116B2 (ja)
CN (1) CN101740083B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3716920B2 (ja) * 2001-10-16 2005-11-16 ソニー株式会社 記録媒体再生装置および方法、記録媒体、並びにプログラム
US8119897B2 (en) * 2008-07-29 2012-02-21 Teie David Ernest Process of and apparatus for music arrangements adapted from animal noises to form species-specific music
JP5382133B2 (ja) * 2009-11-18 2014-01-08 日本電気株式会社 マルチコアシステム、マルチコアシステムの制御方法及びプログラム
US8861926B2 (en) 2011-05-02 2014-10-14 Netflix, Inc. Audio and video streaming for media effects
US20140196100A1 (en) * 2012-02-24 2014-07-10 Sony Mobile Communications Ab Electronic device for providing media recommendations and a method therein
CN104866477B (zh) * 2014-02-21 2021-08-17 联想(北京)有限公司 一种信息处理方法及电子设备
JP6486654B2 (ja) * 2014-11-06 2019-03-20 株式会社キッズウェイ 画像表示システム
GB2539875B (en) * 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
CN106572386A (zh) * 2016-11-03 2017-04-19 天脉聚源(北京)传媒科技有限公司 一种基于时间的背景音乐的选取方法及系统
US10199022B1 (en) * 2017-02-01 2019-02-05 Jonathan Greenlee Touchless signal modifier and method of use
CN107170432B (zh) * 2017-03-31 2021-06-15 珠海市魅族科技有限公司 一种音乐产生方法和装置
US11276419B2 (en) * 2019-07-30 2022-03-15 International Business Machines Corporation Synchronized sound generation from videos

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004221666A (ja) * 2003-01-09 2004-08-05 Canon Inc 撮像記録装置
JP2005051706A (ja) * 2003-07-31 2005-02-24 Fuji Photo Film Co Ltd 画像再生装置及び画像再生プログラム
JP2005184617A (ja) * 2003-12-22 2005-07-07 Casio Comput Co Ltd 動画再生装置、撮像装置及びそのプログラム
JP2007082088A (ja) * 2005-09-16 2007-03-29 Matsushita Electric Ind Co Ltd コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム
JP2008147901A (ja) * 2006-12-08 2008-06-26 Sony Corp 情報処理装置および方法、並びにプログラム
JP2008178090A (ja) * 2006-12-22 2008-07-31 Victor Co Of Japan Ltd 映像処理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4229199B2 (ja) 1997-04-12 2009-02-25 ソニー株式会社 編集装置及び編集方法
US7897865B2 (en) * 2002-01-15 2011-03-01 Yamaha Corporation Multimedia platform for recording and/or reproducing music synchronously with visual images
JP4297010B2 (ja) * 2004-08-13 2009-07-15 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP2006086621A (ja) 2004-09-14 2006-03-30 Sony Corp 情報処理装置および方法、並びにプログラム
JP2006189977A (ja) 2004-12-28 2006-07-20 Pioneer Electronic Corp 画像編集装置、画像編集方法、画像編集プログラムおよびコンピュータに読み取り可能な記録媒体
JP2007282119A (ja) 2006-04-11 2007-10-25 Nikon Corp 電子カメラおよび画像処理装置
JP2007282118A (ja) 2006-04-11 2007-10-25 Nikon Corp 電子カメラおよび画像処理装置
US20070282472A1 (en) * 2006-06-01 2007-12-06 International Business Machines Corporation System and method for customizing soundtracks
WO2009005760A2 (en) * 2007-06-29 2009-01-08 Lawrence Genen Method or apparatus for purchasing one or more media based on a recommendation
KR20090032702A (ko) * 2007-09-28 2009-04-01 한국전자통신연구원 네트워크 기반의 맞춤형 콘텐츠 제공을 위한 사용자 장치및 그 방법과 저작 장치 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004221666A (ja) * 2003-01-09 2004-08-05 Canon Inc 撮像記録装置
JP2005051706A (ja) * 2003-07-31 2005-02-24 Fuji Photo Film Co Ltd 画像再生装置及び画像再生プログラム
JP2005184617A (ja) * 2003-12-22 2005-07-07 Casio Comput Co Ltd 動画再生装置、撮像装置及びそのプログラム
JP2007082088A (ja) * 2005-09-16 2007-03-29 Matsushita Electric Ind Co Ltd コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム
JP2008147901A (ja) * 2006-12-08 2008-06-26 Sony Corp 情報処理装置および方法、並びにプログラム
JP2008178090A (ja) * 2006-12-22 2008-07-31 Victor Co Of Japan Ltd 映像処理装置

Also Published As

Publication number Publication date
US20100254676A1 (en) 2010-10-07
JP2010118859A (ja) 2010-05-27
CN101740083B (zh) 2012-08-29
CN101740083A (zh) 2010-06-16
US8396351B2 (en) 2013-03-12

Similar Documents

Publication Publication Date Title
JP4683116B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムおよび撮像装置
TW312786B (ja)
JP4630869B2 (ja) 映像要約方法
JP4596060B2 (ja) 電子機器、動画像データ区間変更方法及びプログラム
JP4491700B2 (ja) 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
JP2007027990A (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
TWI254281B (en) Trick mode audio playback
JP2006331591A (ja) 情報処理装置および方法、並びにプログラム
JP2009004999A (ja) 映像データ管理装置
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP2010057003A (ja) 画像記録装置及び画像記録方法
JP3780252B2 (ja) 記録再生装置および記録再生方法
JP2008112495A (ja) 記録再生装置
JPWO2010122617A1 (ja) 番組間重複部分検出方法とそれを搭載する映像音声記録装置
JP2005352330A (ja) 音声分割記録装置
JP4551734B2 (ja) 変速再生装置及び変速再生方法
KR200315952Y1 (ko) 사용자 지향적 자막 재생 장치
JP7452000B2 (ja) 録画装置、録画方法、及びプログラム
JP4335175B2 (ja) 情報再生装置、情報再生方法及びコンピュータプログラム
KR101483995B1 (ko) 전자 앨범 및 전자 앨범의 재생 방법
JP4232744B2 (ja) 記録再生装置
JP2008042455A (ja) 記録装置及び記録方法
JP5621645B2 (ja) 映像記憶装置および映像記憶制御方法
KR101530281B1 (ko) 사용자 감정 기반의 극적 영상 기록 장치 및 방법
KR20040079690A (ko) 사용자 지향적 자막 재생 장치 및 그 자막 재생 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110124

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees