JP2011254232A

JP2011254232A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011254232A
Application number: JP2010125968A
Authority: JP
Inventors: Yasuyuki Takada; 康行高田; Noboru Murabayashi; 昇村林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-06-01
Filing date: 2010-06-01
Publication date: 2011-12-15

Abstract

【課題】3D動画から、3D静止画を視差に基づいて抽出することができるようにする。
【解決手段】記録媒体１１に記録されている3D動画のコンテンツが信号処理部１２により読み出され、視差の大きさの時間変化などの3D動画の特徴が解析される。信号処理部１２においては、解析結果に基づいて、3D動画とは別に記録媒体１１に記録しておく3D静止画の候補が複数選択される。１つの3D静止画は、１枚のＬ画像と、対応する１枚のＲ画像から構成される。選択された3D静止画の候補はシステムコントローラ１３により表示装置２に表示され、候補の中からユーザにより選択された3D静止画のデータが、記録制御部１４によりMulti-Picture Format形式のデータに変換された後、記録媒体１１に記録される。本発明は、録画機器に適用することができる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、3D動画から、3D静止画を視差に基づいて抽出することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

近年、HDD(Hard Disk Drive)などの記録媒体を搭載し、テレビジョン番組や、ビデオカメラによって撮影した動画などを記録する記録装置が普及してきている。

このような記録装置に適用可能な技術として各種の提案がなされている。例えば特許文献１には、顔が写っている画像を自動的に抽出することにより、動画から静止画アルバムを自動的に作成する技術が記載されている。

また、特許文献２には、動画の内容を直感的に認識することができるようにするために、撮影状況の変化や被写体の動き等に応じて、動画から静止画を自動的に抽出する技術が記載されている。

特開２００９−８８６８７号公報特開２００７−８２２４０号公報

ところで、近年、立体視が可能な３次元（3D）画像のコンテンツが注目を集めている。

3D画像の表示方式には、例えば、左目用の画像と右目用の画像を交互に表示させるフレームシーケンシャル方式がある。左目用の画像と右目用の画像には、視差に相当するずれが設定されている。アクティブシャッタメガネなどを装着したユーザの左目に左目用の画像を、右目に右目用の画像をそれぞれ交互に届けることによって、被写体を立体的に感じさせることが可能になる。

このような3D画像のコンテンツを記録することが可能な記録装置が提案されており、3D画像のコンテンツを単に記録、再生するだけでなく、上述したような各種の技術を3D対応の記録装置に適用することが考えられる。

例えば、記録済みの3D画像のコンテンツ（動画）から静止画を自動的に抽出することができれば、静止画のアルバムなどを見たり、静止画から3D画像のコンテンツの内容を確認したりすることが可能となり便利である。

しかしながら、特許文献１および２に記載されている技術においては、3D画像のコンテンツを対象とした処理については考慮されていない。今後、3D画像のコンテンツが普及してきた場合に対応することが出来ず、また、3D画像を扱うデバイスに対応した形で、3D画像のコンテンツから抽出した静止画を保存することができない。

本発明はこのような状況に鑑みてなされたものであり、3D動画から、3D静止画を視差に基づいて抽出することができるようにするものである。

本発明の一側面の情報処理装置は、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析する解析手段と、前記解析手段により解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する抽出手段とを備える。

前記抽出手段には、視差が閾値より大きい左目用画像と対応する右目用画像との組と、視差の変化が閾値より大きい左目用画像と対応する右目用画像との組のうちの少なくともいずれかを前記3D静止画として抽出させることができる。

前記解析手段には、さらに、それぞれの左目用画像と対応する右目用画像に人物の顔が写っているか否かを解析させ、前記抽出手段には、前記解析手段により解析された視差と、人物の顔が写っているか否かに基づいて前記3D静止画を抽出させることができる。

前記抽出手段により抽出された前記3D静止画を表示する表示制御手段をさらに設けることができる。

前記表示制御手段により表示された前記3D静止画の中からユーザにより選択された前記3D静止画を記録媒体に記録させる記録制御手段をさらに設けることができる。

前記抽出手段には、ユーザにより選択された条件に該当する前記3D静止画を、前記解析手段により解析された視差に基づいて抽出させ、前記表示制御手段には、同じ条件に該当するものとして抽出された前記3D静止画毎にまとめて表示させることができる。

前記抽出手段により抽出された前記3D静止画を、特徴が類似する前記3D静止画毎にクラスタリングするクラスタリング手段をさらに設けることができる。

本発明の一側面の情報処理方法は、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出するステップを含む。

本発明の一側面のプログラムは、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差が解析され、解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組が3D静止画として前記3D動画から抽出される。

本発明によれば、3D動画から、3D静止画を視差に基づいて抽出することができる。

本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。 3D動画の例を示す図である。図１の各部の詳細な構成を示す図である。 3D静止画の候補の抽出の例を示す図である。 3D静止画の候補の抽出の他の例を示す図である。 3D静止画の候補の抽出のさらに他の例を示す図である。 3D静止画の候補の抽出の例を示す図である。 3D静止画の候補の表示画面の例を示す図である。 3D静止画の候補の表示画面の他の例を示す図である。 3D静止画の候補の表示画面のさらに他の例を示す図である。情報処理装置の処理について説明するフローチャートである。クラスタリングの例を示す図である。クラスタリングの適用例を示す図である。 3D静止画の表示方法の例を示す図である。コンテンツのジャンルと、3D静止画の抽出の基準となる特徴の関係の例を示す図である。コンピュータのハードウェアの構成例を示すブロック図である。

［情報処理装置の構成］
図１は、本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。

図１に示すように、情報処理装置１は、記録媒体１１、信号処理部１２、システムコントローラ１３、および記録制御部１４から構成される。

情報処理装置１には、HDMI(High Definition Multimedia Interface)ケーブルなどを介して表示装置２が接続される。また、情報処理装置１には、情報処理装置１の筐体に設けられたスロットに挿入されたメモリカードや、USBケーブルを介して、あるいはネットワークを介して情報処理装置１に接続される機器が内蔵する記録媒体などよりなる外部記録媒体３が接続される。

記録媒体１１はHDD(Hard Disk Drive)、SSD(Solid State Drive)などの記録媒体である。記録媒体１１には、放送波やネットワークを介して伝送されたテレビジョン番組や、ビデオカメラにより撮影され、ユーザにより取り込まれた個人的な動画などの動画のコンテンツが記録される。

記録媒体１１に記録されているコンテンツはビデオデータとオーディオデータから構成されるが、そのビデオデータは3D動画のデータとされる。

図２は、3D動画の例を示す図である。

図２に示すように、3D動画は、左目用画像（Ｌ画像）と右目用画像（Ｒ画像）から構成される。表示順に並べた場合、Ｌ画像とＲ画像は交互に並び、あるＬ画像の次には、対応するＲ画像が表示される。図２においては、例えば、Ｌ画像である画像Ｌ１とＲ画像である画像Ｒ１が対応し、Ｌ画像である画像Ｌ２とＲ画像である画像Ｒ２が対応する。

あるＬ画像と、対応するＲ画像には（あるＬ画像の被写体と、対応するＲ画像の被写体には）、視差に相当するずれが設定されている。Ｌ画像とＲ画像に設定されている視差に応じて、ユーザが感じる立体感が異なるものになる。

記録媒体１１には、このような3D動画のコンテンツが複数記録されている。

図１の説明に戻り、信号処理部１２は、システムコントローラ１３による制御に従って、記録媒体１１からコンテンツを読み出し、読み出したコンテンツに含まれる3D動画を解析する。後述するように、システムコントローラ１３からは、解析対象とするコンテンツの識別情報や、3D静止画として抽出する画像の条件である抽出条件を指定する情報が信号処理部１２に対して供給される。例えば、信号処理部１２は、3D動画の視差の大きさの時間変化を解析する。

信号処理部１２は、記録媒体１１から読み出したコンテンツに含まれる3D動画から、3D動画とは別に記録媒体１１に記録しておく3D静止画の候補を複数選択する。１つの3D静止画は、１枚のＬ画像と、対応する１枚のＲ画像から構成される。１つの3D静止画を構成するＬ画像とＲ画像を交互に表示し、アクティブシャッタメガネなどを装着したユーザの左目と右目に交互に届けることによって、静止画ではあるが、被写体を立体的に感じさせることが可能になる。

信号処理部１２は、3D静止画の候補のデータをシステムコントローラ１３と記録制御部１４に出力する。

システムコントローラ１３は、信号処理部１２により選択された3D静止画の候補を表示装置２に表示させ、候補の中から3D静止画をユーザに選択させる。表示装置２は3D画像の表示に対応したテレビジョン受像機などの装置である。

ユーザは、表示装置２に表示される候補を見て、リモートコントローラを操作するなどして所定の数の3D静止画を選択する。システムコントローラ１３は、ユーザにより選択された3D静止画の識別情報を記録制御部１４に出力し、どの3D静止画を記録媒体１１に記録しておくのかを通知する。

記録制御部１４は、信号処理部１２により抽出された3D静止画の候補のうち、システムコントローラ１３から供給された情報によって識別される3D静止画のデータを、3D静止画の管理が可能な所定のフォーマットのデータに変換し、記録媒体１１に記録させる。3D静止画の記録には、例えばMulti-Picture Formatが用いられる。3D静止画の記録先として、適宜、記録媒体１１に代えて外部記録媒体３が用いられる。

このように、ユーザは、記録媒体１１に記録されている所定のコンテンツを選択し、抽出条件を指定するだけで、3D動画から3D静止画を情報処理装置１に抽出させることができる。また、ユーザは、表示された候補の中から選択することによって、所定の3D静止画を記録媒体１１などに記録しておくことができ、3D静止画を後から見ることが可能になる。

図３は、図１に示す各部の詳細な構成の例を示す図である。

図３に示す機能部のうちの少なくとも一部は、図示せぬCPU(Central Processing Unit)により所定のプログラムが実行されることによって実現される。図３に示す構成のうち、図１に示す構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

図３に示すように、信号処理部１２は、解析部２１、抽出部２２、およびクラスタリング部２３から構成される。システムコントローラ１３は、表示制御部３１と操作部３２から構成される。

信号処理部１２の解析部２１は、システムコントローラ１３の操作部３２から供給された識別情報に基づいて解析対象の3D動画を選択し、記録媒体１１から読み出す。また、解析部２１は、操作部３２から供給された抽出条件を表す情報に基づいて、記録媒体１１から読み出した3D動画を解析する。

例えば、解析部２１は、3D動画を構成する先頭のＬ画像と対応するＲ画像の組（図２の画像L１とR１の組）から表示順に、それぞれの組に注目して解析を行い、注目している組のＬ画像とＲ画像の間の視差の大きさを求める。全てのＬ画像と対応するＲ画像の組を対象として処理が終了した場合、視差の大きさの時間変化が求められる。視差の大きさの解析は、例えば、Ｌ画像とＲ画像のそれぞれの被写体について、Ｌ画像上の位置とＲ画像上の位置の差を検出することによって行われる。

また、解析部２１は、人物の顔が写っているか否か、写っている顔の表情が笑顔であるか否かなどを、ユーザにより選択された抽出条件に従って解析する。人物の顔が写っているか否かの解析と、写っている顔の表情が笑顔であるか否かの解析は、Ｌ画像と対応するＲ画像のうち、一方だけを対象として行われるようにしてもよい。顔検出の手法については、例えば特開２００４−１３３６３７号公報に開示されている。笑顔検出の手法についても、各種の提案が従来よりなされている。

ユーザによる抽出条件の選択は、例えば、表示装置２に表示された一覧の中から１つ、または複数を選択するようにして行われる。

解析部２１は、解析対象とした3D動画のデータと、解析結果を表す情報を抽出部２２とクラスタリング部２３に出力する。

抽出部２２は、解析部２１による解析結果に基づいて、3D動画とは別に記録媒体１１に記録しておく3D静止画の候補を3D動画から複数抽出（選択）する。

図４は、3D静止画の候補の抽出の例を示す図である。

図４の横軸は時間を表し、縦軸は視差の大きさを表す。解析部２１による解析結果に基づいて、図４に示すような、視差の大きさの時間変化を表す波形が特定される。

この場合、抽出部２２は、所定の視差の大きさを閾値Th1として設定し、視差の大きさが閾値Th1を超える時刻におけるＬ画像と対応するＲ画像の組を、3D静止画の候補として3D動画から抽出する。図４の例においては、星印s1で示す時刻におけるＬ画像と対応するＲ画像の組が3D静止画の候補として抽出されている。

図５は、3D静止画の候補の抽出の他の例を示す図である。

図４と同様に、図５の横軸は時間を表し、縦軸は視差の大きさを表す。図５の例においては、図４に示す閾値Th1と異なる視差の大きさが閾値Th11として設定されている。このように、閾値となる視差の大きさをユーザが指定することができるようにしてもよい。図５の例においては、星印s11とs12で示す２箇所の時刻におけるＬ画像と対応するＲ画像の組がそれぞれ3D静止画の候補として3D動画から抽出されている。

図６は、3D静止画の候補の抽出のさらに他の例を示す図である。

図６の横軸は時間を表し、縦軸は視差の変化量を表す。図４に示す視差の大きさの時間変化を微分することによって、図６に示すような、視差の変化量の時間変化を表す波形が特定される。

この場合、抽出部２２は、視差の変化量が０を示す時刻におけるＬ画像と対応するＲ画像の組を、3D静止画の候補として3D動画から抽出する。図６の例においては、星印s21とs22で示す２箇所の時刻におけるＬ画像と対応するＲ画像の組がそれぞれ3D静止画の候補として抽出されている。

視差の大きさに基づいて3D静止画の候補を抽出する場合、閾値の設定の仕方によってはその数が膨大な数になることがあるが、視差の変化量に基づいて抽出することによって、候補の数を抑えることが可能になる。

図７は、3D静止画の候補の抽出のさらに他の例を示す図である。

図６と同様に、図７の横軸は時間を表し、縦軸は視差の変化量を表す。図７の例においては、変化量０の位置に設定された時間軸を中心として対称に、０より大きい所定の変化量が閾値Th21として設定され、０より小さい所定の変化量が閾値Th22として設定されている。

この場合、抽出部２２は、視差の変化量の絶対値が閾値を超える時刻におけるＬ画像と対応するＲ画像の組を、3D静止画の候補として3D動画から抽出する。図７の例においては、星印s31,s32,s33で示す３箇所の時刻におけるＬ画像と対応するＲ画像の組がそれぞれ3D静止画の候補として抽出されている。これにより、奥行方向に動きの激しいシーンの画像を3D静止画の候補として抽出することが可能になる。

図４乃至図７においては、視差に基づいて3D静止画の候補を抽出する場合について説明したが、3D静止画の候補の抽出には、ユーザにより選択された抽出条件に応じて、適宜、他の特徴も組み合わせて用いられる。

例えば、人物の顔に関する特徴も抽出条件として選択されたことから、人物の顔が写っているか否か、顔の表情が笑顔であるか否かなどの解析が解析部２１により行われている場合、以上のようにして視差に基づいて抽出された3D静止画を対象として、さらに、顔の特徴に基づく絞り込みが行われる。すなわち、視差に基づいて抽出された3D静止画の中から、人物の顔が写っている画像、あるいは、写っている顔が笑顔である画像を3D静止画の候補として選択するようにして絞り込みが行われる。

また、視差と顔の特徴を組み合わせることによって、3D静止画の候補を抽出する基準となる評価値が求められ、評価値に基づいて3D静止画の候補が抽出されるようにしてもよい。例えば、視差の値（大きさまたは変化量）を正規化した値をｄ、顔検出のレベル値（顔が写っている確率を表す値）を正規化した値をｆとした場合、評価値Ｈは、重み係数ｋ（０≦ｋ≦１）を用いて下式（１）のようにして求められる。
Ｈ＝ｋ・ｄ＋（１−ｋ）・ｆ・・・（１）

上式（１）に基づいて求められた評価値Ｈが閾値より大きい画像が3D静止画の候補として抽出される。

話者音声の区間の検出が行われ、音声特徴量が解析部２１により求められている場合、または、ズーム、パン、チルトなどのカメラ動き特徴量が解析部２１により求められている場合、それらの特徴量をも用いて3D静止画の候補が抽出されるようにしてもよい。

抽出部２２は、以上のようにして3D動画から抽出した3D静止画の候補のデータを出力する。抽出部２２から出力された3D静止画の候補のデータは、クラスタリング部２３、システムコントローラ１３の表示制御部３１および操作部３２、記録制御部１４に供給される。

クラスタリング部２３は、抽出部２２により抽出された3D静止画の候補のクラスタリングを行う。例えば、解析部２１による解析結果に基づいて、特徴の類似する画像が同じクラスタに属するように3D静止画の候補のクラスタリングが行われる。クラスタリング部２３は、クラスタリング結果を表す情報を表示制御部３１に出力する。クラスタリングについては後述する。

システムコントローラ１３の表示制御部３１は、抽出部２２から供給されたデータに基づいて、3D静止画の候補を表示装置２に表示させる。また、表示制御部３１は、3D静止画の候補を含む画面の表示を、ユーザによる操作に応じて切り替える。操作部３２からは、リモートコントローラを用いてユーザにより行われたカーソル移動などの操作の内容を表す情報が供給される。

図８は、表示装置２に表示される、3D静止画の候補の表示画面の例を示す図である。

図８の例においては、画面の左側に、縦方向に並べて画像Ｐ１乃至Ｐ３が表示されている。画像Ｐ１は条件Ａを表し、画像Ｐ２は条件Ｂを表す。画像Ｐ３は条件Ａ＋Ｂを表す。

カーソルＣを画像Ｐ１にあてるなどして条件Ａが選択された場合、条件Ａを抽出条件として抽出される3D静止画の候補が一覧表示される。また、条件Ｂが選択された場合、条件Ｂを抽出条件として抽出される3D静止画の候補が一覧表示され、条件Ａ＋Ｂが選択された場合、条件Ａ＋Ｂを抽出条件として抽出される3D静止画の候補が一覧表示される。

すなわち、図８は、抽出条件毎に分けて、階層構造を有する形で3D静止画の候補が表示される場合の画面の例を示している。ユーザは、抽出条件として、条件Ａ、条件Ｂ、条件Ａ＋Ｂの３つの条件を選択したことになる。ユーザは、画像Ｐ１乃至Ｐ３のうちの、いま選択している画像と異なる画像を選択することによって、一覧表示される画像を切り替えることができる。

図８の例においては、条件Ａ＋Ｂが選択されており、画面の右側に、条件Ａ＋Ｂを抽出条件として抽出された3D静止画の候補である画像Ｐ１１乃至Ｐ１９が表示されている。

画像Ｐ１１乃至Ｐ１９の表示は、それぞれ、3D静止画を構成するＬ画像とＲ画像を交互に表示するようにして行われる。ユーザは、画像Ｐ１１乃至Ｐ１９を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。

また、画像Ｐ１１乃至Ｐ１９の上には、「保存する画像を選択してください」のメッセージが表示されている。ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルＣを移動させて１つまたは複数の画像を選択し、記録媒体１１に記録させておく3D静止画を決定する。

図９は、3D静止画の候補の表示画面の他の例を示す図である。

図９の例においては、画像Ｐ３１乃至Ｐ４２が３列に並べて表示されている。また、領域Ａ１とＡ２が設定され、領域Ａ１には画像Ｐ３１乃至Ｐ３９が、領域Ａ２には画像Ｐ３６乃至Ｐ４２がそれぞれ配置されている。領域Ａ１とＡ２が重なる領域には、画像Ｐ３６乃至Ｐ３９が配置されている。

領域Ａ１に表示されている画像Ｐ３１乃至Ｐ３９は、条件Ａを抽出条件として抽出される3D静止画の候補であり、領域Ａ２に表示されている画像Ｐ３６乃至Ｐ４２は、条件Ｂを抽出条件として抽出される3D静止画の候補である。領域Ａ１とＡ２が重なる領域に表示されている画像Ｐ３６乃至Ｐ３９は、条件Ａ＋Ｂを抽出条件として抽出される3D静止画の候補である。

例えば、領域Ａ１のうち、画像Ｐ３１乃至Ｐ３９の部分を除く、画像の背景となる部分は所定の色で表示される。同様に、領域Ａ２のうち、画像Ｐ３６乃至Ｐ４２の部分を除く、画像の背景となる部分は、領域Ａ１の背景に用いられている色とは異なる色で表示される。領域Ａ１と領域Ａ２が重なる領域のうち、画像Ｐ３６乃至Ｐ３９の部分を除く、画像の背景となる部分は、領域Ａ１の背景に用いられている色と領域Ａ２の背景に用いられている色を混ぜた色で表示される。

すなわち、図９は、抽出条件毎に分けて、背景の色の異なる領域に3D静止画の候補が表示される場合の画面の例を示している。ユーザは、それぞれの3D静止画の候補が、どの抽出条件に基づいて抽出されたものであるのかを、領域（背景の色）に基づいて判断することが可能になる。

画像Ｐ３１乃至Ｐ４２の表示も、それぞれ、3D静止画を構成するＬ画像とＲ画像を交互に表示するようにして行われる。ユーザは、画像Ｐ３１乃至Ｐ４２を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルＣを移動させて１つまたは複数の画像を選択し、記録媒体１１に記録させておく3D静止画を決定する。

図１０は、3D静止画の候補の表示画面のさらに他の例を示す図である。

図１０の例においては、画面の上側に、横方向に並べて画像Ｐ５１乃至Ｐ５３が表示されている。画像Ｐ５１は条件Ａを表し、画像Ｐ５２は条件Ｂを表す。画像Ｐ５３は条件Ａ＋Ｂを表す。

画像Ｐ５１の下方には、画像Ｐ６１乃至Ｐ６３が縦方向に並べて表示され、画像Ｐ５２の下方には、画像Ｐ７１乃至Ｐ７３が縦方向に並べて表示されている。また、画像Ｐ５３の下には、画像Ｐ８１乃至Ｐ８３が縦方向に並べて表示されている。

画像Ｐ６１乃至Ｐ６３は、条件Ａを抽出条件として抽出される3D静止画の候補であり、画像Ｐ７１乃至Ｐ７３は、条件Ｂを抽出条件として抽出される3D静止画の候補である。画像Ｐ８１乃至Ｐ８３は、条件Ａ＋Ｂを抽出条件として抽出される3D静止画の候補である。

すなわち、図１０は、抽出条件毎に分けて、列方向に並べて3D静止画の候補が表示される場合の画面の例を示している。ユーザは、それぞれの3D静止画の候補が、どの抽出条件に基づいて抽出されたものであるのかを、列に基づいて判断することが可能になる。列方向に並べて表示されるのではなく、3D静止画の候補が抽出条件毎に行方向に分けて並べて表示されるようにしてもよい。

ユーザは、所定の抽出条件に基づいて抽出された3D静止画の候補にカーソルＣをあて、その状態でリモートコントローラの十字キーの上下ボタンを押すことによって、表示される3D静止画の候補を切り替えることができる。

例えば、図１０に示すように、条件Ａを抽出条件として抽出された3D静止画の候補である画像Ｐ６２にカーソルＣがあてられている状態で上ボタンが押された場合、画像Ｐ６１乃至Ｐ６３全体が下方向にスクロールし、条件Ａを抽出条件として抽出された他の3D静止画の候補が表示される。このとき、条件Ｂや条件Ａ＋Ｂを抽出条件として抽出された他の列に並ぶ3D静止画の候補の表示は変化しない。

画像Ｐ６１乃至Ｐ６３、Ｐ７１乃至Ｐ７３、Ｐ８１乃至Ｐ８３の表示は、それぞれ、3D静止画を構成するＬ画像とＲ画像を交互に表示するようにして行われる。ユーザは、それぞれの画像を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。

ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルＣを移動させて１つまたは複数の画像を選択し、記録媒体１１に記録させておく3D静止画を決定する。

このように、3D静止画の候補は、それぞれの抽出に用いられた抽出条件毎に、色、列、行、領域等によって区別された状態で表示装置２の画面上に表示される。

なお、3D静止画の候補を表示する際、3D静止画のぼけ量が考慮されるようにしてもよい。例えば、視差等に基づいて抽出された3D静止画のうち、ぼけ量の少ない画像が3D静止画の候補としてユーザに提示される。

上述したように視差の大きさや変化量に基づいて3D静止画の候補を抽出する場合、被写体の動きが大きいことから、ぼけた画像が3D静止画の候補の中に含まれることがある。ぼけ量の少ない画像が提示されるようにすることによって、鮮明な画像をユーザに確認させることが可能になる。

ぼけ量の少ない画像の選択は、FFTなどによって画像データの周波数解析を行い、高周波成分の少ない画像を選択するようにして行うことが可能である。また、画像のエッジ検出に基づいてぼけ量を検出することもでき、この技術については例えば特開２００９−１６９９４３号公報に記載されている。

図３の説明に戻り、操作部３２は、リモートコントローラから送信される信号を受信するなどしてユーザの操作を受け付け、ユーザの操作の内容を表す情報を各部に出力する。例えば、操作部３２は、解析対象のコンテンツの識別情報と、抽出条件を指定する情報を解析部２１に出力し、カーソルの移動を指示する情報を表示制御部３１に出力する。また、操作部３２は、3D静止画の候補の中から選択された、記録媒体１１に実際に記録しておく3D静止画の識別情報を記録制御部１４に出力する。

［情報処理装置の動作］
ここで、図１１のフローチャートを参照して、情報処理装置１の処理について説明する。

図１１の処理は、例えば、記録媒体１１に記録されているコンテンツの中から、解析対象とするコンテンツがユーザにより選択されたときに開始される。ユーザにより選択されたコンテンツの識別情報は、操作部３２から解析部２１に供給される。

ステップＳ１において、解析部２１は、解析対象の3D動画を選択し、3D動画のデータを記録媒体１１から読み出す。

ステップＳ２において、操作部３２は、表示装置２に表示された一覧に対するユーザの操作に応じて抽出条件を選択する。例えば、視差の大きさや変化量に応じて3D静止画の抽出を行うことや、視差の大きさや変化量に加えて、顔が写っているか否か、写っている顔の表情が笑顔であるか否かに応じて3D静止画の抽出を行うことが抽出条件として選択される。

ステップＳ３において、解析部２１は、解析対象の3D動画を解析する。解析結果として、視差の大きさの時間変化、視差の変化量の時間変化、顔が写っているか否か、写っている顔の表情が笑顔であるか否かなどが、ユーザにより選択された抽出条件に応じて求められる。

ステップＳ４において、抽出部２２は、解析部２１による解析結果に基づいて、3D静止画の候補を3D動画から複数抽出する。

ステップＳ５において、表示制御部３１は、3D動画から抽出された3D静止画の候補を表示装置２に表示させる。記録媒体１１に記録しておく3D静止画がユーザにより選択されたとき、選択された3D静止画の識別情報が操作部３２から記録制御部１４に供給される。

ステップＳ６において、記録制御部１４は、操作部３２から供給された情報に基づいて、3D静止画の候補から、記録媒体１１に記録しておく3D静止画を選択する。

ステップＳ７において、記録制御部１４は、ユーザにより選択された3D静止画のデータを所定のフォーマットのデータに変換し、記録媒体１１に記録させる。その後、処理は終了される。

以上の処理により、情報処理装置１は、3D動画から、3D静止画を視差に基づいて抽出することができる。

例えば、解析対象の3D動画が、ビデオカメラでユーザ自身が撮影した個人的な3D動画である場合、冗長といえる部分が多く、また、2D動画よりも情報量が多いことから、視聴や配布（共有）の際の手間が問題になる。以上のようにして特徴的な画像が3D静止画として3D動画から抽出されるようにすることによって、視聴して内容を確認することや、配布などを3D静止画を用いて容易に行うことが可能になる。静止画は動きがないものの、動画とはまた別の感動や臨場感を伝えることが可能である。

また、3D動画から抽出された3D静止画は、3D静止画を扱うことが可能なフォーマットのデータとして記録されるため、そのフォーマットに対応した各種の3D機器に伝送し、処理を行わせることが可能になる。例えば、情報処理装置１は、表示装置２だけでなく、3D画像の印刷に対応したプリンタや、3D画像の表示に対応したフォトフレームに3D静止画のデータを伝送し、印刷や表示などの処理を行わせることができる。

［クラスタリングについて］
ここで、クラスタリング部２３により行われるクラスタリングについて説明する。

図１２は、クラスタリングの例を示す図である。

クラスタリング部２３においては、抽出部２２により抽出された3D静止画の候補のクラスタリングが、解析部２１による解析結果に基づいて行われる。例えば、視差の大きさが類似する3D静止画の候補同士、人物の顔が写っている3D静止画の候補同士といったように、特徴が類似する3D静止画の候補が同じクラスタに属するようにしてクラスタリングが行われる。

図１２の例においては、時刻ｔ１におけるＬ画像と対応するＲ画像の組からなる3D静止画と、時刻ｔ３におけるＬ画像と対応するＲ画像の組からなる3D静止画が同じクラスタａに属する画像としてクラスタリングされている。また、時刻ｔ２，ｔ４，ｔ５のそれぞれの時刻におけるＬ画像と対応するＲ画像の組からなる3D静止画が同じクラスタｂに属する画像としてクラスタリングされている。

クラスタリング部２３によるクラスタリング結果は、例えば、3D静止画の候補の一覧を表示装置２に表示する際に用いられる。この場合、3D静止画の候補は、それぞれが属するクラスタ毎に、色、列、行、領域等によって区別された状態で表示装置２の画面上に表示される。

3D静止画の候補ではなく、候補の中からユーザにより選択され、記録媒体１１に記録された3D静止画を対象としてクラスタリングが行われるようにしてもよい。

図１３は、クラスタリングの適用例を示す図である。

3D静止画のクラスタリングが、ネットワークを介して接続される複数の装置間で共有されている3D静止画を対象として行われるようにすることも可能である。

図１３の情報処理装置１には、インターネットなどのネットワーク５１を介して情報処理装置５２が接続されており、情報処理装置１により抽出された3D静止画と情報処理装置５２により抽出された3D静止画が共有されている。情報処理装置５２も、情報処理装置１と同様に、3D動画から3D静止画を抽出する機能を有している。

例えば、以上のようなクラスタリングが、情報処理装置１の記録媒体１１に記録されている3D静止画と情報処理装置５２の記録媒体に記録されている3D静止画の全体を対象として、情報処理装置１により行われる。

図１３の例においては、情報処理装置１の記録媒体１１に記録されている3D静止画Ｐ９１と、情報処理装置５２の記録媒体に記録されている3D静止画Ｐ９２が同じクラスタａに属する画像としてクラスタリングされている。また、情報処理装置１の記録媒体１１に記録されている3D静止画Ｐ９３と、情報処理装置５２の記録媒体に記録されている3D静止画Ｐ９４，Ｐ９５が同じクラスタｂに属する画像としてクラスタリングされている。

例えば、3D動画の撮影が可能なビデオカメラを持って、友人と同じ場所に出かけて２人でそれぞれ撮影を行った場合を考える。情報処理装置１はユーザ本人が使う装置であり、情報処理装置５２は、友人が使う装置である。

撮影後、ユーザは、撮影済みの3D動画を情報処理装置１に取り込んで3D静止画を抽出させ、一方、友人は、撮影済みの3D動画を情報処理装置５２に取り込んで3D静止画を抽出させる。お互いの装置において抽出された3D静止画を共有し、共有している3D静止画全体を対象としたクラスタリングを情報処理装置１に行わせることにより、同じ場所で撮影した3D動画から抽出された3D静止画を、類似するもの同士まとめて情報処理装置１において管理することが可能になる。

同じ場所で撮影された3D動画から抽出された3D静止画であるか否かは、ビデオカメラに搭載されているGPS(Global Positioning System)による測位機能を用いることができる。例えば、3D動画から抽出された3D静止画には、3D動画の撮影時に測定された位置情報がメタデータとして付加される。メタデータとして付加されている位置情報に基づいて、同じ場所で撮影された3D動画から抽出された3D静止画であるか否かを判断することが可能になる。

なお、ビデオカメラにGPSによる測位機能がない場合、タイムコードを用いて、近い時刻に撮影された3D動画から抽出された3D静止画同士が同じクラスタに属するようにクラスタリングが行われるようにしてもよい。

図１２、図１３を参照して説明したクラスタリングの結果が、3D静止画の表示に用いられるようにしてもよい。

図１４は、3D静止画の表示方法の例を示す図である。

図１４の例においては、クラスタリング結果に基づいて、デジタルフォトフレーム６１に3D静止画が表示されている。デジタルフォトフレーム６１は情報処理装置１とネットワークを介して接続される機器であり、内部に、外部記録媒体３としてのメモリを有する。

情報処理装置１は、例えば、同じクラスタに属する、類似する3D静止画を順にデジタルフォトフレーム６１に送信し、表示させる。

図１４の例においては、クラスタａに属する3D静止画Ｐ９１がデジタルフォトフレーム６１に表示されている。デジタルフォトフレーム６１においては、3D静止画Ｐ９１に続けて、同じクラスタａに属する3D静止画Ｐ９２が表示され、次に、クラスタｂに属する3D静止画Ｐ９３が表示される。3D静止画Ｐ９３に続けて、クラスタｂに属する3D静止画Ｐ９４が表示され、3D静止画Ｐ９４に続けて3D静止画Ｐ９５が表示される。デジタルフォトフレーム６１に3D静止画を表示する際にも、上述したようにぼけ量の少ない画像だけが表示されるようにすることも可能である。

［変形例］
以上においては、ユーザにより選択された抽出条件に応じて特徴の解析が行われ、3D静止画の抽出が行われるものとしたが、解析対象のコンテンツのジャンルに応じて3D静止画の抽出の基準となる特徴が決定され、3D静止画が抽出されるようにしてもよい。

図１５は、コンテンツのジャンルと、3D静止画の抽出の基準となる特徴の関係の例を示す図である。

図１５の例においては、コンテンツのジャンルがスポーツである場合、3D静止画の抽出の基準となる特徴として、視差の変化量（図６）が用いられ、変化量が大きいＬ画像と対応するＲ画像の組が3D静止画として抽出される。

また、コンテンツのジャンルが音楽である場合、3D静止画の抽出の基準となる特徴として、視差の大きさ（図４）が用いられ、視差の大きいＬ画像と対応するＲ画像の組が3D静止画として抽出される。

コンテンツのジャンルがその他のジャンルである場合、3D静止画の抽出の基準となる特徴として、視差の変化量と大きさが用いられ、変化量が大きく、かつ視差も大きいＬ画像と対応するＲ画像の組が3D静止画として抽出される。

このように、コンテンツのジャンルに応じて、適切な特徴に基づいて3D静止画が抽出されるようにすることが可能である。また、このような基準に基づいて抽出された3D静止画が、上述したようにしてクラスタリングされた後、デジタルフォトフレーム６１に表示されるようにしてもよい。コンテンツのジャンルに応じて3D静止画の抽出方法を変えることで、より効果的な観賞用の画像をデジタルフォトフレーム６１に表示させることが可能になる。

また、以上においては、候補の中から選択された3D静止画が記録媒体１１などに出力され、記録されるものとしたが、3D静止画の出力先は記録媒体以外の他の機器であってもよい。例えば、3D静止画の印刷に対応したプリンタなどに出力させることも可能である。

さらに、以上においては、3D動画がフレームシーケンシャル方式の動画であるものとしたが、他の方式で3D画像を表示する動画であってもよい。この場合、3D動画から抽出される3D静止画も、Ｌ画像とＲ画像の組からなる画像ではなく、3D動画の１フレームの画像を切り出した画像になる。

［コンピュータの構成例］
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

CPU(Central Processing Unit)１０１、ROM(Read Only Memory)１０２、RAM(Random Access Memory)１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを入出力インタフェース１０５及びバス１０４を介してRAM１０３にロードして実行することにより、上述した一連の処理が行われる。

CPU１０１が実行するプログラムは、例えばリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１０８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１情報処理装置，２表示装置，１１記録媒体，１２信号処理装置，１３システムコントローラ，１４記録制御部，２１解析部，２２抽出部，２３クラスタリング部，３１表示制御部，３２操作部

Claims

複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析する解析手段と、
前記解析手段により解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する抽出手段と
を備える情報処理装置。
前記抽出手段は、視差が閾値より大きい左目用画像と対応する右目用画像との組と、視差の変化が閾値より大きい左目用画像と対応する右目用画像との組のうちの少なくともいずれかを前記3D静止画として抽出する
請求項１に記載の情報処理装置。
前記解析手段は、さらに、それぞれの左目用画像と対応する右目用画像に人物の顔が写っているか否かを解析し、
前記抽出手段は、前記解析手段により解析された視差と、人物の顔が写っているか否かに基づいて前記3D静止画を抽出する
請求項１に記載の情報処理装置。
前記抽出手段により抽出された前記3D静止画を表示する表示制御手段をさらに備える
請求項１に記載の情報処理装置。
前記表示制御手段により表示された前記3D静止画の中からユーザにより選択された前記3D静止画を記録媒体に記録させる記録制御手段をさらに備える
請求項４に記載の情報処理装置。
前記抽出手段は、ユーザにより選択された条件に該当する前記3D静止画を、前記解析手段により解析された視差に基づいて抽出し、
前記表示制御手段は、同じ条件に該当するものとして抽出された前記3D静止画毎にまとめて表示させる
請求項４に記載の情報処理装置。
前記抽出手段により抽出された前記3D静止画を、特徴が類似する前記3D静止画毎にクラスタリングするクラスタリング手段をさらに備える
請求項１に記載の情報処理装置。
複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、
解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する
ステップを含む情報処理方法。
複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、
解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する
ステップを含む処理をコンピュータに実行させるプログラム。