JP2011254232A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2011254232A
JP2011254232A JP2010125968A JP2010125968A JP2011254232A JP 2011254232 A JP2011254232 A JP 2011254232A JP 2010125968 A JP2010125968 A JP 2010125968A JP 2010125968 A JP2010125968 A JP 2010125968A JP 2011254232 A JP2011254232 A JP 2011254232A
Authority
JP
Japan
Prior art keywords
image
eye
images
parallax
still image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010125968A
Other languages
English (en)
Inventor
Yasuyuki Takada
康行 高田
Noboru Murabayashi
昇 村林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010125968A priority Critical patent/JP2011254232A/ja
Publication of JP2011254232A publication Critical patent/JP2011254232A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】3D動画から、3D静止画を視差に基づいて抽出することができるようにする。
【解決手段】記録媒体11に記録されている3D動画のコンテンツが信号処理部12により読み出され、視差の大きさの時間変化などの3D動画の特徴が解析される。信号処理部12においては、解析結果に基づいて、3D動画とは別に記録媒体11に記録しておく3D静止画の候補が複数選択される。1つの3D静止画は、1枚のL画像と、対応する1枚のR画像から構成される。選択された3D静止画の候補はシステムコントローラ13により表示装置2に表示され、候補の中からユーザにより選択された3D静止画のデータが、記録制御部14によりMulti-Picture Format形式のデータに変換された後、記録媒体11に記録される。本発明は、録画機器に適用することができる。
【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、3D動画から、3D静止画を視差に基づいて抽出することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
近年、HDD(Hard Disk Drive)などの記録媒体を搭載し、テレビジョン番組や、ビデオカメラによって撮影した動画などを記録する記録装置が普及してきている。
このような記録装置に適用可能な技術として各種の提案がなされている。例えば特許文献1には、顔が写っている画像を自動的に抽出することにより、動画から静止画アルバムを自動的に作成する技術が記載されている。
また、特許文献2には、動画の内容を直感的に認識することができるようにするために、撮影状況の変化や被写体の動き等に応じて、動画から静止画を自動的に抽出する技術が記載されている。
特開2009−88687号公報 特開2007−82240号公報
ところで、近年、立体視が可能な3次元(3D)画像のコンテンツが注目を集めている。
3D画像の表示方式には、例えば、左目用の画像と右目用の画像を交互に表示させるフレームシーケンシャル方式がある。左目用の画像と右目用の画像には、視差に相当するずれが設定されている。アクティブシャッタメガネなどを装着したユーザの左目に左目用の画像を、右目に右目用の画像をそれぞれ交互に届けることによって、被写体を立体的に感じさせることが可能になる。
このような3D画像のコンテンツを記録することが可能な記録装置が提案されており、3D画像のコンテンツを単に記録、再生するだけでなく、上述したような各種の技術を3D対応の記録装置に適用することが考えられる。
例えば、記録済みの3D画像のコンテンツ(動画)から静止画を自動的に抽出することができれば、静止画のアルバムなどを見たり、静止画から3D画像のコンテンツの内容を確認したりすることが可能となり便利である。
しかしながら、特許文献1および2に記載されている技術においては、3D画像のコンテンツを対象とした処理については考慮されていない。今後、3D画像のコンテンツが普及してきた場合に対応することが出来ず、また、3D画像を扱うデバイスに対応した形で、3D画像のコンテンツから抽出した静止画を保存することができない。
本発明はこのような状況に鑑みてなされたものであり、3D動画から、3D静止画を視差に基づいて抽出することができるようにするものである。
本発明の一側面の情報処理装置は、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析する解析手段と、前記解析手段により解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する抽出手段とを備える。
前記抽出手段には、視差が閾値より大きい左目用画像と対応する右目用画像との組と、視差の変化が閾値より大きい左目用画像と対応する右目用画像との組のうちの少なくともいずれかを前記3D静止画として抽出させることができる。
前記解析手段には、さらに、それぞれの左目用画像と対応する右目用画像に人物の顔が写っているか否かを解析させ、前記抽出手段には、前記解析手段により解析された視差と、人物の顔が写っているか否かに基づいて前記3D静止画を抽出させることができる。
前記抽出手段により抽出された前記3D静止画を表示する表示制御手段をさらに設けることができる。
前記表示制御手段により表示された前記3D静止画の中からユーザにより選択された前記3D静止画を記録媒体に記録させる記録制御手段をさらに設けることができる。
前記抽出手段には、ユーザにより選択された条件に該当する前記3D静止画を、前記解析手段により解析された視差に基づいて抽出させ、前記表示制御手段には、同じ条件に該当するものとして抽出された前記3D静止画毎にまとめて表示させることができる。
前記抽出手段により抽出された前記3D静止画を、特徴が類似する前記3D静止画毎にクラスタリングするクラスタリング手段をさらに設けることができる。
本発明の一側面の情報処理方法は、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出するステップを含む。
本発明の一側面のプログラムは、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出するステップを含む処理をコンピュータに実行させる。
本発明の一側面においては、複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差が解析され、解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組が3D静止画として前記3D動画から抽出される。
本発明によれば、3D動画から、3D静止画を視差に基づいて抽出することができる。
本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。 3D動画の例を示す図である。 図1の各部の詳細な構成を示す図である。 3D静止画の候補の抽出の例を示す図である。 3D静止画の候補の抽出の他の例を示す図である。 3D静止画の候補の抽出のさらに他の例を示す図である。 3D静止画の候補の抽出の例を示す図である。 3D静止画の候補の表示画面の例を示す図である。 3D静止画の候補の表示画面の他の例を示す図である。 3D静止画の候補の表示画面のさらに他の例を示す図である。 情報処理装置の処理について説明するフローチャートである。 クラスタリングの例を示す図である。 クラスタリングの適用例を示す図である。 3D静止画の表示方法の例を示す図である。 コンテンツのジャンルと、3D静止画の抽出の基準となる特徴の関係の例を示す図である。 コンピュータのハードウェアの構成例を示すブロック図である。
[情報処理装置の構成]
図1は、本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。
図1に示すように、情報処理装置1は、記録媒体11、信号処理部12、システムコントローラ13、および記録制御部14から構成される。
情報処理装置1には、HDMI(High Definition Multimedia Interface)ケーブルなどを介して表示装置2が接続される。また、情報処理装置1には、情報処理装置1の筐体に設けられたスロットに挿入されたメモリカードや、USBケーブルを介して、あるいはネットワークを介して情報処理装置1に接続される機器が内蔵する記録媒体などよりなる外部記録媒体3が接続される。
記録媒体11はHDD(Hard Disk Drive)、SSD(Solid State Drive)などの記録媒体である。記録媒体11には、放送波やネットワークを介して伝送されたテレビジョン番組や、ビデオカメラにより撮影され、ユーザにより取り込まれた個人的な動画などの動画のコンテンツが記録される。
記録媒体11に記録されているコンテンツはビデオデータとオーディオデータから構成されるが、そのビデオデータは3D動画のデータとされる。
図2は、3D動画の例を示す図である。
図2に示すように、3D動画は、左目用画像(L画像)と右目用画像(R画像)から構成される。表示順に並べた場合、L画像とR画像は交互に並び、あるL画像の次には、対応するR画像が表示される。図2においては、例えば、L画像である画像L1とR画像である画像R1が対応し、L画像である画像L2とR画像である画像R2が対応する。
あるL画像と、対応するR画像には(あるL画像の被写体と、対応するR画像の被写体には)、視差に相当するずれが設定されている。L画像とR画像に設定されている視差に応じて、ユーザが感じる立体感が異なるものになる。
記録媒体11には、このような3D動画のコンテンツが複数記録されている。
図1の説明に戻り、信号処理部12は、システムコントローラ13による制御に従って、記録媒体11からコンテンツを読み出し、読み出したコンテンツに含まれる3D動画を解析する。後述するように、システムコントローラ13からは、解析対象とするコンテンツの識別情報や、3D静止画として抽出する画像の条件である抽出条件を指定する情報が信号処理部12に対して供給される。例えば、信号処理部12は、3D動画の視差の大きさの時間変化を解析する。
信号処理部12は、記録媒体11から読み出したコンテンツに含まれる3D動画から、3D動画とは別に記録媒体11に記録しておく3D静止画の候補を複数選択する。1つの3D静止画は、1枚のL画像と、対応する1枚のR画像から構成される。1つの3D静止画を構成するL画像とR画像を交互に表示し、アクティブシャッタメガネなどを装着したユーザの左目と右目に交互に届けることによって、静止画ではあるが、被写体を立体的に感じさせることが可能になる。
信号処理部12は、3D静止画の候補のデータをシステムコントローラ13と記録制御部14に出力する。
システムコントローラ13は、信号処理部12により選択された3D静止画の候補を表示装置2に表示させ、候補の中から3D静止画をユーザに選択させる。表示装置2は3D画像の表示に対応したテレビジョン受像機などの装置である。
ユーザは、表示装置2に表示される候補を見て、リモートコントローラを操作するなどして所定の数の3D静止画を選択する。システムコントローラ13は、ユーザにより選択された3D静止画の識別情報を記録制御部14に出力し、どの3D静止画を記録媒体11に記録しておくのかを通知する。
記録制御部14は、信号処理部12により抽出された3D静止画の候補のうち、システムコントローラ13から供給された情報によって識別される3D静止画のデータを、3D静止画の管理が可能な所定のフォーマットのデータに変換し、記録媒体11に記録させる。3D静止画の記録には、例えばMulti-Picture Formatが用いられる。3D静止画の記録先として、適宜、記録媒体11に代えて外部記録媒体3が用いられる。
このように、ユーザは、記録媒体11に記録されている所定のコンテンツを選択し、抽出条件を指定するだけで、3D動画から3D静止画を情報処理装置1に抽出させることができる。また、ユーザは、表示された候補の中から選択することによって、所定の3D静止画を記録媒体11などに記録しておくことができ、3D静止画を後から見ることが可能になる。
図3は、図1に示す各部の詳細な構成の例を示す図である。
図3に示す機能部のうちの少なくとも一部は、図示せぬCPU(Central Processing Unit)により所定のプログラムが実行されることによって実現される。図3に示す構成のうち、図1に示す構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図3に示すように、信号処理部12は、解析部21、抽出部22、およびクラスタリング部23から構成される。システムコントローラ13は、表示制御部31と操作部32から構成される。
信号処理部12の解析部21は、システムコントローラ13の操作部32から供給された識別情報に基づいて解析対象の3D動画を選択し、記録媒体11から読み出す。また、解析部21は、操作部32から供給された抽出条件を表す情報に基づいて、記録媒体11から読み出した3D動画を解析する。
例えば、解析部21は、3D動画を構成する先頭のL画像と対応するR画像の組(図2の画像L1とR1の組)から表示順に、それぞれの組に注目して解析を行い、注目している組のL画像とR画像の間の視差の大きさを求める。全てのL画像と対応するR画像の組を対象として処理が終了した場合、視差の大きさの時間変化が求められる。視差の大きさの解析は、例えば、L画像とR画像のそれぞれの被写体について、L画像上の位置とR画像上の位置の差を検出することによって行われる。
また、解析部21は、人物の顔が写っているか否か、写っている顔の表情が笑顔であるか否かなどを、ユーザにより選択された抽出条件に従って解析する。人物の顔が写っているか否かの解析と、写っている顔の表情が笑顔であるか否かの解析は、L画像と対応するR画像のうち、一方だけを対象として行われるようにしてもよい。顔検出の手法については、例えば特開2004−133637号公報に開示されている。笑顔検出の手法についても、各種の提案が従来よりなされている。
ユーザによる抽出条件の選択は、例えば、表示装置2に表示された一覧の中から1つ、または複数を選択するようにして行われる。
解析部21は、解析対象とした3D動画のデータと、解析結果を表す情報を抽出部22とクラスタリング部23に出力する。
抽出部22は、解析部21による解析結果に基づいて、3D動画とは別に記録媒体11に記録しておく3D静止画の候補を3D動画から複数抽出(選択)する。
図4は、3D静止画の候補の抽出の例を示す図である。
図4の横軸は時間を表し、縦軸は視差の大きさを表す。解析部21による解析結果に基づいて、図4に示すような、視差の大きさの時間変化を表す波形が特定される。
この場合、抽出部22は、所定の視差の大きさを閾値Th1として設定し、視差の大きさが閾値Th1を超える時刻におけるL画像と対応するR画像の組を、3D静止画の候補として3D動画から抽出する。図4の例においては、星印s1で示す時刻におけるL画像と対応するR画像の組が3D静止画の候補として抽出されている。
図5は、3D静止画の候補の抽出の他の例を示す図である。
図4と同様に、図5の横軸は時間を表し、縦軸は視差の大きさを表す。図5の例においては、図4に示す閾値Th1と異なる視差の大きさが閾値Th11として設定されている。このように、閾値となる視差の大きさをユーザが指定することができるようにしてもよい。図5の例においては、星印s11とs12で示す2箇所の時刻におけるL画像と対応するR画像の組がそれぞれ3D静止画の候補として3D動画から抽出されている。
図6は、3D静止画の候補の抽出のさらに他の例を示す図である。
図6の横軸は時間を表し、縦軸は視差の変化量を表す。図4に示す視差の大きさの時間変化を微分することによって、図6に示すような、視差の変化量の時間変化を表す波形が特定される。
この場合、抽出部22は、視差の変化量が0を示す時刻におけるL画像と対応するR画像の組を、3D静止画の候補として3D動画から抽出する。図6の例においては、星印s21とs22で示す2箇所の時刻におけるL画像と対応するR画像の組がそれぞれ3D静止画の候補として抽出されている。
視差の大きさに基づいて3D静止画の候補を抽出する場合、閾値の設定の仕方によってはその数が膨大な数になることがあるが、視差の変化量に基づいて抽出することによって、候補の数を抑えることが可能になる。
図7は、3D静止画の候補の抽出のさらに他の例を示す図である。
図6と同様に、図7の横軸は時間を表し、縦軸は視差の変化量を表す。図7の例においては、変化量0の位置に設定された時間軸を中心として対称に、0より大きい所定の変化量が閾値Th21として設定され、0より小さい所定の変化量が閾値Th22として設定されている。
この場合、抽出部22は、視差の変化量の絶対値が閾値を超える時刻におけるL画像と対応するR画像の組を、3D静止画の候補として3D動画から抽出する。図7の例においては、星印s31,s32,s33で示す3箇所の時刻におけるL画像と対応するR画像の組がそれぞれ3D静止画の候補として抽出されている。これにより、奥行方向に動きの激しいシーンの画像を3D静止画の候補として抽出することが可能になる。
図4乃至図7においては、視差に基づいて3D静止画の候補を抽出する場合について説明したが、3D静止画の候補の抽出には、ユーザにより選択された抽出条件に応じて、適宜、他の特徴も組み合わせて用いられる。
例えば、人物の顔に関する特徴も抽出条件として選択されたことから、人物の顔が写っているか否か、顔の表情が笑顔であるか否かなどの解析が解析部21により行われている場合、以上のようにして視差に基づいて抽出された3D静止画を対象として、さらに、顔の特徴に基づく絞り込みが行われる。すなわち、視差に基づいて抽出された3D静止画の中から、人物の顔が写っている画像、あるいは、写っている顔が笑顔である画像を3D静止画の候補として選択するようにして絞り込みが行われる。
また、視差と顔の特徴を組み合わせることによって、3D静止画の候補を抽出する基準となる評価値が求められ、評価値に基づいて3D静止画の候補が抽出されるようにしてもよい。例えば、視差の値(大きさまたは変化量)を正規化した値をd、顔検出のレベル値(顔が写っている確率を表す値)を正規化した値をfとした場合、評価値Hは、重み係数k(0≦k≦1)を用いて下式(1)のようにして求められる。
H=k・d+(1−k)・f ・・・ (1)
上式(1)に基づいて求められた評価値Hが閾値より大きい画像が3D静止画の候補として抽出される。
話者音声の区間の検出が行われ、音声特徴量が解析部21により求められている場合、または、ズーム、パン、チルトなどのカメラ動き特徴量が解析部21により求められている場合、それらの特徴量をも用いて3D静止画の候補が抽出されるようにしてもよい。
抽出部22は、以上のようにして3D動画から抽出した3D静止画の候補のデータを出力する。抽出部22から出力された3D静止画の候補のデータは、クラスタリング部23、システムコントローラ13の表示制御部31および操作部32、記録制御部14に供給される。
クラスタリング部23は、抽出部22により抽出された3D静止画の候補のクラスタリングを行う。例えば、解析部21による解析結果に基づいて、特徴の類似する画像が同じクラスタに属するように3D静止画の候補のクラスタリングが行われる。クラスタリング部23は、クラスタリング結果を表す情報を表示制御部31に出力する。クラスタリングについては後述する。
システムコントローラ13の表示制御部31は、抽出部22から供給されたデータに基づいて、3D静止画の候補を表示装置2に表示させる。また、表示制御部31は、3D静止画の候補を含む画面の表示を、ユーザによる操作に応じて切り替える。操作部32からは、リモートコントローラを用いてユーザにより行われたカーソル移動などの操作の内容を表す情報が供給される。
図8は、表示装置2に表示される、3D静止画の候補の表示画面の例を示す図である。
図8の例においては、画面の左側に、縦方向に並べて画像P1乃至P3が表示されている。画像P1は条件Aを表し、画像P2は条件Bを表す。画像P3は条件A+Bを表す。
カーソルCを画像P1にあてるなどして条件Aが選択された場合、条件Aを抽出条件として抽出される3D静止画の候補が一覧表示される。また、条件Bが選択された場合、条件Bを抽出条件として抽出される3D静止画の候補が一覧表示され、条件A+Bが選択された場合、条件A+Bを抽出条件として抽出される3D静止画の候補が一覧表示される。
すなわち、図8は、抽出条件毎に分けて、階層構造を有する形で3D静止画の候補が表示される場合の画面の例を示している。ユーザは、抽出条件として、条件A、条件B、条件A+Bの3つの条件を選択したことになる。ユーザは、画像P1乃至P3のうちの、いま選択している画像と異なる画像を選択することによって、一覧表示される画像を切り替えることができる。
図8の例においては、条件A+Bが選択されており、画面の右側に、条件A+Bを抽出条件として抽出された3D静止画の候補である画像P11乃至P19が表示されている。
画像P11乃至P19の表示は、それぞれ、3D静止画を構成するL画像とR画像を交互に表示するようにして行われる。ユーザは、画像P11乃至P19を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。
また、画像P11乃至P19の上には、「保存する画像を選択してください」のメッセージが表示されている。ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルCを移動させて1つまたは複数の画像を選択し、記録媒体11に記録させておく3D静止画を決定する。
図9は、3D静止画の候補の表示画面の他の例を示す図である。
図9の例においては、画像P31乃至P42が3列に並べて表示されている。また、領域A1とA2が設定され、領域A1には画像P31乃至P39が、領域A2には画像P36乃至P42がそれぞれ配置されている。領域A1とA2が重なる領域には、画像P36乃至P39が配置されている。
領域A1に表示されている画像P31乃至P39は、条件Aを抽出条件として抽出される3D静止画の候補であり、領域A2に表示されている画像P36乃至P42は、条件Bを抽出条件として抽出される3D静止画の候補である。領域A1とA2が重なる領域に表示されている画像P36乃至P39は、条件A+Bを抽出条件として抽出される3D静止画の候補である。
例えば、領域A1のうち、画像P31乃至P39の部分を除く、画像の背景となる部分は所定の色で表示される。同様に、領域A2のうち、画像P36乃至P42の部分を除く、画像の背景となる部分は、領域A1の背景に用いられている色とは異なる色で表示される。領域A1と領域A2が重なる領域のうち、画像P36乃至P39の部分を除く、画像の背景となる部分は、領域A1の背景に用いられている色と領域A2の背景に用いられている色を混ぜた色で表示される。
すなわち、図9は、抽出条件毎に分けて、背景の色の異なる領域に3D静止画の候補が表示される場合の画面の例を示している。ユーザは、それぞれの3D静止画の候補が、どの抽出条件に基づいて抽出されたものであるのかを、領域(背景の色)に基づいて判断することが可能になる。
画像P31乃至P42の表示も、それぞれ、3D静止画を構成するL画像とR画像を交互に表示するようにして行われる。ユーザは、画像P31乃至P42を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルCを移動させて1つまたは複数の画像を選択し、記録媒体11に記録させておく3D静止画を決定する。
図10は、3D静止画の候補の表示画面のさらに他の例を示す図である。
図10の例においては、画面の上側に、横方向に並べて画像P51乃至P53が表示されている。画像P51は条件Aを表し、画像P52は条件Bを表す。画像P53は条件A+Bを表す。
画像P51の下方には、画像P61乃至P63が縦方向に並べて表示され、画像P52の下方には、画像P71乃至P73が縦方向に並べて表示されている。また、画像P53の下には、画像P81乃至P83が縦方向に並べて表示されている。
画像P61乃至P63は、条件Aを抽出条件として抽出される3D静止画の候補であり、画像P71乃至P73は、条件Bを抽出条件として抽出される3D静止画の候補である。画像P81乃至P83は、条件A+Bを抽出条件として抽出される3D静止画の候補である。
すなわち、図10は、抽出条件毎に分けて、列方向に並べて3D静止画の候補が表示される場合の画面の例を示している。ユーザは、それぞれの3D静止画の候補が、どの抽出条件に基づいて抽出されたものであるのかを、列に基づいて判断することが可能になる。列方向に並べて表示されるのではなく、3D静止画の候補が抽出条件毎に行方向に分けて並べて表示されるようにしてもよい。
ユーザは、所定の抽出条件に基づいて抽出された3D静止画の候補にカーソルCをあて、その状態でリモートコントローラの十字キーの上下ボタンを押すことによって、表示される3D静止画の候補を切り替えることができる。
例えば、図10に示すように、条件Aを抽出条件として抽出された3D静止画の候補である画像P62にカーソルCがあてられている状態で上ボタンが押された場合、画像P61乃至P63全体が下方向にスクロールし、条件Aを抽出条件として抽出された他の3D静止画の候補が表示される。このとき、条件Bや条件A+Bを抽出条件として抽出された他の列に並ぶ3D静止画の候補の表示は変化しない。
画像P61乃至P63、P71乃至P73、P81乃至P83の表示は、それぞれ、3D静止画を構成するL画像とR画像を交互に表示するようにして行われる。ユーザは、それぞれの画像を、3D動画全体を再生してそれらの画像を見た場合と同様に立体的に感じながらに見ることになる。
ユーザは、リモートコントローラに設けられる十字キーを操作するなどしてカーソルCを移動させて1つまたは複数の画像を選択し、記録媒体11に記録させておく3D静止画を決定する。
このように、3D静止画の候補は、それぞれの抽出に用いられた抽出条件毎に、色、列、行、領域等によって区別された状態で表示装置2の画面上に表示される。
なお、3D静止画の候補を表示する際、3D静止画のぼけ量が考慮されるようにしてもよい。例えば、視差等に基づいて抽出された3D静止画のうち、ぼけ量の少ない画像が3D静止画の候補としてユーザに提示される。
上述したように視差の大きさや変化量に基づいて3D静止画の候補を抽出する場合、被写体の動きが大きいことから、ぼけた画像が3D静止画の候補の中に含まれることがある。ぼけ量の少ない画像が提示されるようにすることによって、鮮明な画像をユーザに確認させることが可能になる。
ぼけ量の少ない画像の選択は、FFTなどによって画像データの周波数解析を行い、高周波成分の少ない画像を選択するようにして行うことが可能である。また、画像のエッジ検出に基づいてぼけ量を検出することもでき、この技術については例えば特開2009−169943号公報に記載されている。
図3の説明に戻り、操作部32は、リモートコントローラから送信される信号を受信するなどしてユーザの操作を受け付け、ユーザの操作の内容を表す情報を各部に出力する。例えば、操作部32は、解析対象のコンテンツの識別情報と、抽出条件を指定する情報を解析部21に出力し、カーソルの移動を指示する情報を表示制御部31に出力する。また、操作部32は、3D静止画の候補の中から選択された、記録媒体11に実際に記録しておく3D静止画の識別情報を記録制御部14に出力する。
[情報処理装置の動作]
ここで、図11のフローチャートを参照して、情報処理装置1の処理について説明する。
図11の処理は、例えば、記録媒体11に記録されているコンテンツの中から、解析対象とするコンテンツがユーザにより選択されたときに開始される。ユーザにより選択されたコンテンツの識別情報は、操作部32から解析部21に供給される。
ステップS1において、解析部21は、解析対象の3D動画を選択し、3D動画のデータを記録媒体11から読み出す。
ステップS2において、操作部32は、表示装置2に表示された一覧に対するユーザの操作に応じて抽出条件を選択する。例えば、視差の大きさや変化量に応じて3D静止画の抽出を行うことや、視差の大きさや変化量に加えて、顔が写っているか否か、写っている顔の表情が笑顔であるか否かに応じて3D静止画の抽出を行うことが抽出条件として選択される。
ステップS3において、解析部21は、解析対象の3D動画を解析する。解析結果として、視差の大きさの時間変化、視差の変化量の時間変化、顔が写っているか否か、写っている顔の表情が笑顔であるか否かなどが、ユーザにより選択された抽出条件に応じて求められる。
ステップS4において、抽出部22は、解析部21による解析結果に基づいて、3D静止画の候補を3D動画から複数抽出する。
ステップS5において、表示制御部31は、3D動画から抽出された3D静止画の候補を表示装置2に表示させる。記録媒体11に記録しておく3D静止画がユーザにより選択されたとき、選択された3D静止画の識別情報が操作部32から記録制御部14に供給される。
ステップS6において、記録制御部14は、操作部32から供給された情報に基づいて、3D静止画の候補から、記録媒体11に記録しておく3D静止画を選択する。
ステップS7において、記録制御部14は、ユーザにより選択された3D静止画のデータを所定のフォーマットのデータに変換し、記録媒体11に記録させる。その後、処理は終了される。
以上の処理により、情報処理装置1は、3D動画から、3D静止画を視差に基づいて抽出することができる。
例えば、解析対象の3D動画が、ビデオカメラでユーザ自身が撮影した個人的な3D動画である場合、冗長といえる部分が多く、また、2D動画よりも情報量が多いことから、視聴や配布(共有)の際の手間が問題になる。以上のようにして特徴的な画像が3D静止画として3D動画から抽出されるようにすることによって、視聴して内容を確認することや、配布などを3D静止画を用いて容易に行うことが可能になる。静止画は動きがないものの、動画とはまた別の感動や臨場感を伝えることが可能である。
また、3D動画から抽出された3D静止画は、3D静止画を扱うことが可能なフォーマットのデータとして記録されるため、そのフォーマットに対応した各種の3D機器に伝送し、処理を行わせることが可能になる。例えば、情報処理装置1は、表示装置2だけでなく、3D画像の印刷に対応したプリンタや、3D画像の表示に対応したフォトフレームに3D静止画のデータを伝送し、印刷や表示などの処理を行わせることができる。
[クラスタリングについて]
ここで、クラスタリング部23により行われるクラスタリングについて説明する。
図12は、クラスタリングの例を示す図である。
クラスタリング部23においては、抽出部22により抽出された3D静止画の候補のクラスタリングが、解析部21による解析結果に基づいて行われる。例えば、視差の大きさが類似する3D静止画の候補同士、人物の顔が写っている3D静止画の候補同士といったように、特徴が類似する3D静止画の候補が同じクラスタに属するようにしてクラスタリングが行われる。
図12の例においては、時刻t1におけるL画像と対応するR画像の組からなる3D静止画と、時刻t3におけるL画像と対応するR画像の組からなる3D静止画が同じクラスタaに属する画像としてクラスタリングされている。また、時刻t2,t4,t5のそれぞれの時刻におけるL画像と対応するR画像の組からなる3D静止画が同じクラスタbに属する画像としてクラスタリングされている。
クラスタリング部23によるクラスタリング結果は、例えば、3D静止画の候補の一覧を表示装置2に表示する際に用いられる。この場合、3D静止画の候補は、それぞれが属するクラスタ毎に、色、列、行、領域等によって区別された状態で表示装置2の画面上に表示される。
3D静止画の候補ではなく、候補の中からユーザにより選択され、記録媒体11に記録された3D静止画を対象としてクラスタリングが行われるようにしてもよい。
図13は、クラスタリングの適用例を示す図である。
3D静止画のクラスタリングが、ネットワークを介して接続される複数の装置間で共有されている3D静止画を対象として行われるようにすることも可能である。
図13の情報処理装置1には、インターネットなどのネットワーク51を介して情報処理装置52が接続されており、情報処理装置1により抽出された3D静止画と情報処理装置52により抽出された3D静止画が共有されている。情報処理装置52も、情報処理装置1と同様に、3D動画から3D静止画を抽出する機能を有している。
例えば、以上のようなクラスタリングが、情報処理装置1の記録媒体11に記録されている3D静止画と情報処理装置52の記録媒体に記録されている3D静止画の全体を対象として、情報処理装置1により行われる。
図13の例においては、情報処理装置1の記録媒体11に記録されている3D静止画P91と、情報処理装置52の記録媒体に記録されている3D静止画P92が同じクラスタaに属する画像としてクラスタリングされている。また、情報処理装置1の記録媒体11に記録されている3D静止画P93と、情報処理装置52の記録媒体に記録されている3D静止画P94,P95が同じクラスタbに属する画像としてクラスタリングされている。
例えば、3D動画の撮影が可能なビデオカメラを持って、友人と同じ場所に出かけて2人でそれぞれ撮影を行った場合を考える。情報処理装置1はユーザ本人が使う装置であり、情報処理装置52は、友人が使う装置である。
撮影後、ユーザは、撮影済みの3D動画を情報処理装置1に取り込んで3D静止画を抽出させ、一方、友人は、撮影済みの3D動画を情報処理装置52に取り込んで3D静止画を抽出させる。お互いの装置において抽出された3D静止画を共有し、共有している3D静止画全体を対象としたクラスタリングを情報処理装置1に行わせることにより、同じ場所で撮影した3D動画から抽出された3D静止画を、類似するもの同士まとめて情報処理装置1において管理することが可能になる。
同じ場所で撮影された3D動画から抽出された3D静止画であるか否かは、ビデオカメラに搭載されているGPS(Global Positioning System)による測位機能を用いることができる。例えば、3D動画から抽出された3D静止画には、3D動画の撮影時に測定された位置情報がメタデータとして付加される。メタデータとして付加されている位置情報に基づいて、同じ場所で撮影された3D動画から抽出された3D静止画であるか否かを判断することが可能になる。
なお、ビデオカメラにGPSによる測位機能がない場合、タイムコードを用いて、近い時刻に撮影された3D動画から抽出された3D静止画同士が同じクラスタに属するようにクラスタリングが行われるようにしてもよい。
図12、図13を参照して説明したクラスタリングの結果が、3D静止画の表示に用いられるようにしてもよい。
図14は、3D静止画の表示方法の例を示す図である。
図14の例においては、クラスタリング結果に基づいて、デジタルフォトフレーム61に3D静止画が表示されている。デジタルフォトフレーム61は情報処理装置1とネットワークを介して接続される機器であり、内部に、外部記録媒体3としてのメモリを有する。
情報処理装置1は、例えば、同じクラスタに属する、類似する3D静止画を順にデジタルフォトフレーム61に送信し、表示させる。
図14の例においては、クラスタaに属する3D静止画P91がデジタルフォトフレーム61に表示されている。デジタルフォトフレーム61においては、3D静止画P91に続けて、同じクラスタaに属する3D静止画P92が表示され、次に、クラスタbに属する3D静止画P93が表示される。3D静止画P93に続けて、クラスタbに属する3D静止画P94が表示され、3D静止画P94に続けて3D静止画P95が表示される。デジタルフォトフレーム61に3D静止画を表示する際にも、上述したようにぼけ量の少ない画像だけが表示されるようにすることも可能である。
[変形例]
以上においては、ユーザにより選択された抽出条件に応じて特徴の解析が行われ、3D静止画の抽出が行われるものとしたが、解析対象のコンテンツのジャンルに応じて3D静止画の抽出の基準となる特徴が決定され、3D静止画が抽出されるようにしてもよい。
図15は、コンテンツのジャンルと、3D静止画の抽出の基準となる特徴の関係の例を示す図である。
図15の例においては、コンテンツのジャンルがスポーツである場合、3D静止画の抽出の基準となる特徴として、視差の変化量(図6)が用いられ、変化量が大きいL画像と対応するR画像の組が3D静止画として抽出される。
また、コンテンツのジャンルが音楽である場合、3D静止画の抽出の基準となる特徴として、視差の大きさ(図4)が用いられ、視差の大きいL画像と対応するR画像の組が3D静止画として抽出される。
コンテンツのジャンルがその他のジャンルである場合、3D静止画の抽出の基準となる特徴として、視差の変化量と大きさが用いられ、変化量が大きく、かつ視差も大きいL画像と対応するR画像の組が3D静止画として抽出される。
このように、コンテンツのジャンルに応じて、適切な特徴に基づいて3D静止画が抽出されるようにすることが可能である。また、このような基準に基づいて抽出された3D静止画が、上述したようにしてクラスタリングされた後、デジタルフォトフレーム61に表示されるようにしてもよい。コンテンツのジャンルに応じて3D静止画の抽出方法を変えることで、より効果的な観賞用の画像をデジタルフォトフレーム61に表示させることが可能になる。
また、以上においては、候補の中から選択された3D静止画が記録媒体11などに出力され、記録されるものとしたが、3D静止画の出力先は記録媒体以外の他の機器であってもよい。例えば、3D静止画の印刷に対応したプリンタなどに出力させることも可能である。
さらに、以上においては、3D動画がフレームシーケンシャル方式の動画であるものとしたが、他の方式で3D画像を表示する動画であってもよい。この場合、3D動画から抽出される3D静止画も、L画像とR画像の組からなる画像ではなく、3D動画の1フレームの画像を切り出した画像になる。
[コンピュータの構成例]
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続される。また、入出力インタフェース105には、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、リムーバブルメディア111を駆動するドライブ110が接続される。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを入出力インタフェース105及びバス104を介してRAM103にロードして実行することにより、上述した一連の処理が行われる。
CPU101が実行するプログラムは、例えばリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部108にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
1 情報処理装置, 2 表示装置, 11 記録媒体, 12 信号処理装置, 13 システムコントローラ, 14 記録制御部, 21 解析部, 22 抽出部, 23 クラスタリング部, 31 表示制御部, 32 操作部

Claims (9)

  1. 複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析する解析手段と、
    前記解析手段により解析された視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する抽出手段と
    を備える情報処理装置。
  2. 前記抽出手段は、視差が閾値より大きい左目用画像と対応する右目用画像との組と、視差の変化が閾値より大きい左目用画像と対応する右目用画像との組のうちの少なくともいずれかを前記3D静止画として抽出する
    請求項1に記載の情報処理装置。
  3. 前記解析手段は、さらに、それぞれの左目用画像と対応する右目用画像に人物の顔が写っているか否かを解析し、
    前記抽出手段は、前記解析手段により解析された視差と、人物の顔が写っているか否かに基づいて前記3D静止画を抽出する
    請求項1に記載の情報処理装置。
  4. 前記抽出手段により抽出された前記3D静止画を表示する表示制御手段をさらに備える
    請求項1に記載の情報処理装置。
  5. 前記表示制御手段により表示された前記3D静止画の中からユーザにより選択された前記3D静止画を記録媒体に記録させる記録制御手段をさらに備える
    請求項4に記載の情報処理装置。
  6. 前記抽出手段は、ユーザにより選択された条件に該当する前記3D静止画を、前記解析手段により解析された視差に基づいて抽出し、
    前記表示制御手段は、同じ条件に該当するものとして抽出された前記3D静止画毎にまとめて表示させる
    請求項4に記載の情報処理装置。
  7. 前記抽出手段により抽出された前記3D静止画を、特徴が類似する前記3D静止画毎にクラスタリングするクラスタリング手段をさらに備える
    請求項1に記載の情報処理装置。
  8. 複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、
    解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する
    ステップを含む情報処理方法。
  9. 複数の左目用画像と、複数の左目用画像のそれぞれに対応する右目用画像とから構成される動画である3D動画を構成する、それぞれの左目用画像と対応する右目用画像の間の視差を解析し、
    解析した視差に基づいて、所定の左目用画像と、対応する右目用画像との組を3D静止画として前記3D動画から抽出する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2010125968A 2010-06-01 2010-06-01 情報処理装置、情報処理方法、およびプログラム Withdrawn JP2011254232A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010125968A JP2011254232A (ja) 2010-06-01 2010-06-01 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010125968A JP2011254232A (ja) 2010-06-01 2010-06-01 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2011254232A true JP2011254232A (ja) 2011-12-15

Family

ID=45417819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010125968A Withdrawn JP2011254232A (ja) 2010-06-01 2010-06-01 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2011254232A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014027372A (ja) * 2012-07-24 2014-02-06 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014027372A (ja) * 2012-07-24 2014-02-06 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10979761B2 (en) Intelligent video interaction method
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
US20180182114A1 (en) Generation apparatus of virtual viewpoint image, generation method, and storage medium
JP4645356B2 (ja) 映像表示方法、映像表示方法のプログラム、映像表示方法のプログラムを記録した記録媒体及び映像表示装置
KR101895846B1 (ko) 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화
JP5391224B2 (ja) 映像付加情報表示制御装置およびその動作方法
CN105052154A (zh) 生成具有多个视点的视频
CN103686344A (zh) 增强视频系统及方法
JP2010093816A (ja) 視覚的関心に基づいた2次元映像の3次元映像変換器および変換方法
EP3513326B1 (en) Methods, systems, and media for detecting stereoscopic videos by generating fingerprints for multiple portions of a video frame
CN103813126A (zh) 进行视频通话时提供用户感兴趣信息的方法及其电子装置
JP2014139681A (ja) 適応的なビデオ呈示のための方法および装置
JP2010503006A5 (ja)
JP2016136699A (ja) 情報処理装置及びその制御方法、プログラム、並びに記憶媒体
WO2024077909A1 (zh) 基于视频的交互方法、装置、计算机设备和存储介质
KR20150023406A (ko) 캡쳐된 지리적 메타데이터의 향상 방법
CN103946871A (zh) 图像处理装置、图像识别装置、图像识别方法以及程序
KR20140044663A (ko) 방송 수신 장치 및 디스플레이 장치와 이를 이용한 검색 방법
JP2011101251A (ja) 電子機器及び画像表示方法
US20190005133A1 (en) Method, apparatus and arrangement for summarizing and browsing video content
CN103258557A (zh) 显示控制装置及显示控制方法
CN115170400A (zh) 一种视频修复的方法、相关装置、设备以及存储介质
CN110198457B (zh) 视频播放方法及其设备、系统、存储介质、终端、服务器
CN113875227A (zh) 信息处理设备、信息处理方法和程序
JP2011254232A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806