JP2009505550A - 奥行き抽出のためのビデオ処理方法及び装置 - Google Patents

奥行き抽出のためのビデオ処理方法及び装置 Download PDF

Info

Publication number
JP2009505550A
JP2009505550A JP2008526587A JP2008526587A JP2009505550A JP 2009505550 A JP2009505550 A JP 2009505550A JP 2008526587 A JP2008526587 A JP 2008526587A JP 2008526587 A JP2008526587 A JP 2008526587A JP 2009505550 A JP2009505550 A JP 2009505550A
Authority
JP
Japan
Prior art keywords
video
motion
depth
motion vectors
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008526587A
Other languages
English (en)
Inventor
プラーニュ ジェロー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
NXP BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=37757950&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2009505550(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by NXP BV filed Critical NXP BV
Publication of JP2009505550A publication Critical patent/JP2009505550A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本発明は、三次元ディスプレイ上に二次元ビデオシーケンスを表示するために、符号化したビデオビットストリーム(102)の動きベクトルから三次元の奥行き情報を抽出することによって、奥行きマップ(112)を生成するための改良方法及び装置を提供する。特に本発明は、ビデオビットストリームに既に符号化した、インター符号化マクロブロックの動きベクトルを後処理することによって、奥行き抽出を行い、これによって、従来の動き推定技術に関連する厳しい処理要件をかなり軽減させる。

Description

本発明はビデオ処理システムに関し、特に、二次元のビデオシーケンスから、ディスプレイ上に三次元画像の知覚をレンダリングするための方法及び装置に関する。
一般的に、1つ以上の二次元画像を用いることによって、現実の三次元界における物体の形状を表示し、且つ推定することは、コンピュータ・ビジョンの分野における根本的な問題である。我々の両目で同時に得られる視覚は、合成されて、距離を知覚することができるから、殆どの人間にはシーンや、物体の奥行き知覚が分かる。しかしながら人間は、幾つかの特殊な状況において、照明、陰影、干渉、模様又は相対サイズのような付加的な情報がある場合には、片目でもシーン又は物体の奥行きを知覚することができる。だから、例えば、単眼カメラでも、シーン又は物体の奥行きを推定することが可能である。
新たなレンチキュラー液晶ディスプレイ(LCD)技術は、例えば、立体三次元眼鏡を用いなくても、ユーザーに静止画像及び動画像を三次元知覚で表示させることができる。言い換えれば、三次元LCDでは、シリンドリカルレンズのシート(レンチキュラー)を、LCDの画像平面がレンズの焦点面に位置付けられるような方法で、LCDの頂部に載せる。これは、レンズを垂直に見る観察者の目からの視線が、各レンズ下のLCDの中央の部分に集中されることを意味する。同様に、横向きの角度からスクリーンを見る目からの視線は、各レンズ下のLCDの中心を外れた部分に集中する。各レンズの下のLCDを異なるサブピクセルに分割すれば、異なる角度でスクリーンを見る目(両目)は、異なるピクセルを見ることになる。さらに、正しい画像情報を異なるピクセル(すなわち、画像のステレオペア)に与えれば、観察者は三次元的に見ることになる。従って、画像処理及びLCDの駆動には、平坦な2D画像と共に奥行きマップを用立てる必要がある。
三次元ディスプレイの市場が増え続けていても、全てのビデオコンテンツは早急には「三次元」になり得ない。そのため、二次元情報を三次元感覚で解釈する能力をユーザーに提供することができる、三次元技術の開発が強く切望されている。二次元のビデオシーケンスから三次元の画像又はモデルを再構築することは、認証、監視、部位のモデリング、エンターテイメント、マルチメディア、医学画像、ビデオ通信、及び無数の他の有用な技術用途を有する様々な分野において重要な効果を有する。この擬似的な三次元のケースは、平坦なビデオコンテンツから関連する奥行き情報を抽出することにある。特に、平坦な二次元コンテンツからの奥行き情報の抽出は、研究段階の分野にあり、幾つかの技術が知られている。例えば、当面の物体の動きに基づいて奥行きマップを生成する特定の設計技術が知られている。
このような問題に取り組む共通の方法は、例えば、ステレオペアのディスパリティを解析するように、異なる視点から、同時に取得される幾つかの画像を解析したり、例えば、ビデオシーケンスの連続フレームを解析するように、単一視点から異なる時間に得た幾つかの画像を解析したり、動きを抽出したり、閉塞部位を解析したりするやり方である。さらに他の技術は、デフォーカス手法のような、他の奥行き手掛かりを使用するものである。さらに他の技術は、信頼性のある奥行き推定を得るために、幾つかの奥行き手掛かりを組み合わせるものである。
例えば、KonyaによるEP 1379063 A1には、画像セグメンテーションに基づく二次元画像からの奥行き抽出の一例が開示されている。ここでは特に、人の頭部、首及び肩の二次元の静止画像を撮影するための単一カメラと、二次元の静止画像に視差情報を与えて三次元画像を作成する、三次元画像作成部と、三次元画像を表示するためのディスプレイユニットとを備えた、携帯電話について記載されている。
しかしながら、三次元設計のための上述の従来技術は、要因数が多いためにあまり満足でないことが多い。二次元ビデオシーケンスから奥行きを抽出することを提案しているシステムのほとんどは、時間的な動き推定に基づくものであり、これは、一般的に、近い物体が最高の動きを有すると見なしている。これは、計算機的に非常に激しい処理を意味し、かなりのコンピュータ解析を必要とする。さらに、従来の三次元設計手法は、低コストのコンシューマ機器に生じがちな、焦点距離が極めて短い光学機器、又は品質の劣る光学機器で画像を捕える場合のように、目立った焦点ディスパリティがない場合におけるデフォーカス解析に基づくシステムには及ばず、また幾つかの手掛かりを組み合わせるシステムは、実施するのが極めて複雑であり、低コストのプラットフォームとほとんど互換性を持たない。その結果、品質不足、ロバスト性及びコスト高が、こうした既存技術が直面する課題となっている。
従って、上述した問題をなくし、低コストで簡単に実施し得る改良した方法及びシステムを用いて、ビデオ及びアニメの画像シーケンスのような二次元オブジェクトから、三次元画像化のための奥行き知覚を生成することが切望されている。
従って、本発明の目的は、符号化したビデオビットストリームの動きベクトルから三次元の視差情報を抽出することによって二次元ビデオシーケンスを三次元ディスプレイ上へ表示するために、二次元の符号化したビデオビットストリームから奥行き抽出を行うことによって、ビデオ画像を処理すべく、改良した方法及び装置を提供することにある。
特に本発明は、ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信するステップと;前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化して、前記複数のフレームのブロックユニットによって複数の動きベクトルを抽出する動き復号化ステップと;動きマップを生成するステップと;同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にグループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理するステップであって、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むようにする、動きマップ処理ステップと;ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの領域の奥行き情報を統合することによって、奥行きを抽出する奥行き抽出ステップと;二次元ビデオアプリケーションを三次元ディスプレイ上へレンダリングするための奥行きマップを生成するステップとを含む、ビデオ画像処理方法を提供する。
本発明は、以下の特徴事項の1つ以上を含むことができる。
本発明の一態様では、本発明の方法が、ギャップ充填ステップを含み、前記複数のフレームの複数の動きベクトルは、前のフレームから復号化した前記複数の動きベクトルから外挿されるか;前記前のフレームから復号化した前記複数の動きベクトルから複製されるか;又は、複数の隣接フレームから前記複数の動きベクトルを用いて内挿されるようにする。
本発明の他の態様では、動き復号化ステップが、ビデオ圧縮標準によって圧縮したビデオストリームに含まれる動きベクトルを復号化することを含む。
本発明のさらに他の態様では、ビデオ圧縮標準はMPEG(Moving Picture Experts Group)標準とし、符号化したビデオビットストリームのフレームは、“I”、“P”又は“B”タイプのフレームを含むようにする。
ビデオ処理方法の他の特徴事項は、従属する請求項において更に詳述されている。
本発明は、三次元ディスプレイ用のビデオ画像を処理するように構成したビデオ装置にも関し、当該ビデオ装置は、ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信するように構成した受信モジュールと;前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化して、前記複数のフレームのブロックユニットによって複数の動きベクトルを抽出するように構成したビデオデコーダと;同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にグループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理するように構成したモジュールであって、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むようにした、動きマップ処理モジュールと;ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの奥行き情報を統合するように構成した奥行き抽出モジュールと;二次元ビデオアプリケーションを三次元ディスプレイ上へレンダリングするための奥行きマップを生成するように構成したモジュールとを備える。
本発明は、以下の特徴事項の1つ以上を含むことができる。
本発明の一態様では、前記ビデオ装置はデジタル携帯電話とする。
本発明の他の態様では、前記ビデオ装置はムービープレーヤとする。
前記装置は更に、前のフレームから復号化した動きベクトルから、動きベクトルを外挿するように構成したギャップ充填モジュールを有する。
更にビデオデコーダは、ビデオ圧縮標準に従って圧縮したビデオストリームに含まれる動きベクトルを復号化する。ビデオ圧縮標準は、MPEG標準とする。
ビデオ処理装置の他の特徴事項は、従属する請求項に更に詳述されている。
本発明はまた、装置のマイクロプロセッサによって実行される一連の命令を有するコンピュータ可読媒体にも関し、当該コンピュータ可読媒体はマイクロプロセッサに、ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信させ;複数のフレームのブロックユニットによって複数の動きベクトルを抽出するための、前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化させ;動きマップを生成させ;同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にブループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理させ、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むものとし;ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの領域の奥行き情報を統合することによって、奥行きを抽出させ;二次元ビデオアプリケーションを三次元ディスプレイ上にレンダリングするための奥行きマップを生成させる。
本発明の他の目的及び効果は、以下の図面及び好適例の説明を読み、理解することで、当業者によれば明らかになるであろう。本発明は、当業者に明らかなように、種々の形態とし、また様々なコンポーネント及びステップを含めたり、変更を加えたりすることが可能である。
従って、本発明のこれら及び他の態様は、以下の説明で記載される好適例、図面及び請求項から明らかにされるが、これらの図面は本発明の好適例を例示するだけであって、本発明を制限するものとして解釈されるわけではない。
図1を参照するに、フローチャート100は、二次元のビデオビットストリーム102から奥行きマップ112を計算して生成することに関する、本発明の必須のステップ規定している。二次元ビデオの或る特的領域の奥行きを他の領域と比較して示す奥行きマップ112は、例えば、サブピクセルをレンチキュラーLCDモニタに送る前にビデオのマルチビューレンダリングを計算するために必要な、一組のデータを含む。このマルチビューレンダリングの計算は、LCDモニタに統合させることができるが、これは必ずしもそのようにする必要はない。
奥行きマップの生成方法100は、二次元コンテンツの動きを復号化するステップ104から開始する。すなわち、二次元ビデオストリーム102のコンテンツは、各フレームを数個のブロックに分け、次いで各ブロックに、フレームとその先行フレームとの間における当該ブロックの動きを規定している動きベクトル(x,y)を関連付けることによって、各フレームを処理することにより、フレーム毎に解析する。動き復号化ステップ104の原理は、周知の「動き推定」技法に同化することができる。ここで、動きベクトルは画像解析に基づいて推定されるのではなく、ビットストリームのビデオファイルから復号化される。これについては後に図2につき詳細に説明する。
次に、ギャップ充填のステップ106を実行する。このステップ106では、動きベクトルをステップ104で行われるようにビデオファイルから復号化することができないビデオフレームに独特のタイプの処理を行う。この場合、これらのタイプのフレームに対する動きベクトルは、前のフレームから復号化したベクトルから外挿するか、前のフレームから復号化したベクトルから複製するか、隣接するフレームから復号化したベクトルを用いて内挿する。言い換えれば、ステップ104の間に生成される動きマップには幾つかの「ギャップ」が生じることになる。
その後、動きマップを処理するステップ108を実行する。このステップでは、ステップ104及び106の間に収集した全ての動きベクトルの編成に基づいてビデオのマップを計算する。同様な動きベクトルを有する一群のブロックは、同じ領域に属する全てのブロックが一様な動きパターンをするように、個別の領域に再編成する。
次に、奥行き抽出のステップ110が続く。ここでは、動きが高い程近い物体である、という事実に基づいて各領域に関連する奥行きを計算する。本来、動きマップの各領域は、動きによって特徴付けられる。フレーム内の動きを解析することによって、各領域の移動速度を決定することができる。従って、動きマップにおける高めの動きを伴う領域にはより近い奥行きが与えられ、一方、動きが低い領域には、近い領域よりもずっと離れた奥行きが与えられる。結果として、奥行きマップ112は、ビデオシーケンスの全ての動き領域に奥行き情報を与えることで作成される。
図2A−2Cは、動き復号化の処理を概略的に示している。前述したように、動き推定を行うために、従来技術では、ビデオのコンテンツをフレーム毎に処理して、各ブロックの動き推定を計算するやり方を定めている。この方法は多くの時間を消費し、動き推定をリアルタイムで行うために高い処理能力を有するプロセッサを必要とする。
本発明では、従来設計によって開示されているようにビデオそのものを解析することによって動き推定を行うのではなく、MPEG2、MPEG4等のようなビデオ符号化標準規格に従って圧縮する全ての圧縮ビデオストリームに本来含まれる動きベクトルを復号化することによって動き推定を行う。動きベクトルの抽出は外部のビデオデコーダ(すなわち一般に、ビデオを復号化するプレーヤのビデオ復号器)によって行われ、そのデータ量は少量であるので、三次元レンダリングのための処理オーバーヘッドが抑えられる。
図1に示す動き復号化ステップ104を説明するために、例えば、二次元のビデオストリームを符号化するための圧縮フォーマットとしてMPEG1を用いる場合を考える。MPEG1のビデオは、3つの異なるタイプのフレーム、すなわち、Iフレームと、Pフレームと、Bフレームとのシーケンスを含んでいる。図2Aには、模範的なMPEGビデオ200のフレームシーケンスを‘IPBPBBIBBPB’として示してある。202のようなIフレームは、他のフレームを参照することなく再構築することができるので、イントラ符号化フレームと称され、画像コンテンツは、このフレームで完全に符号化され、それはIフレームにコード化された情報のみに基づいて再構築することが可能である。他方では、204のようなPフレームは、最後のIフレーム又はPフレームから順方向予測される。従って、Pフレームは他のフレーム(I,P又はBフレーム)のデータを得ることなく、これらのPフレームを再構築することは不可能である。205のようなBフレームは、Iフレーム及びPフレームの両方の特性を有する。すなわちBフレームは、それらを再構築するのに必要となる2つの他のフレームがあることからして、最後と/次のIフレーム又はPフレームから順方向予測され、且つ後方予測される。従って、Pフレーム及びBフレームは、インター符号化フレームと称される。
図2Bは、MPEG1のビデオ200からのIフレーム(以下、206と称する)を示す。このフレームは、幾つかのブロックに分割される。特に、ブロック210a,210b及び210cを示してある。同様に、図2Cは、Iフレーム206から順方向予測したPフレーム(以下、208と称する)を示す。このPフレーム208は、動きベクトルを格納することによって規定される。例えばPフレーム208では、ブロック210a’は、そのフレームのコンテンツによって規定されるのではなく、Iフレーム206にて完全に規定されたブロック210a(図2B)からの動きベクトル212a(+1,0)として規定される。同様に、Pフレーム208におけるブロック210c’に対する説明は、動き又は動きベクトル212c(+3,0)に要約される。
従って、動き復号化ステップ104は、圧縮ビデオファイルに含まれる動きベクトル(212a,212b,212c)を復号化することにより、動き推定を行うことができる。このステップは、CPU処理が少なくて済み、また、ビデオストリームソース自体から情報を収集し、複雑な画像処理ステップに基づいて計算する必要がないから、精度も向上する。さらに、本発明の方法は、今日用いられている圧縮ビデオストリームの殆どの場面に適用される、動きベクトルをサポートする任意のビデオストリーム符号化アルゴリズムに拡張して、実施することができる。
本発明の方法は、システムの観点からも拡張することができる。MPEG標準は、動きベクトルとして符号化した奥行き情報を含むように転用することができる。これは画像圧縮効率を減少させるが、標準規格を順守し、且つ古典的なデコーダとの互換性を保ちつつ、二次元/三次元(2D-3D)用の真のサブ解像度(ブロックサイズ)の奥行き情報をビデオデコーダに気付かせるように埋め込むことができる。後処理のプロセスについては図4で更に説明する。動きマップを「真」の奥行きマップとして考慮すべきか、又は、図4で説明するような後処理をすべきかどうかを特定するために、例えば、ビデオコーデック及びピクセルフォーマットを識別するのに一般的に用いられている、FOURCC(Four Character Code)を使うことができる。FOURCCでは、4つの文字は、ビデオファイルに包含されるビデオストリームをどのコーデックが符号化している(例えば、DIV5、HFYU、XVID等)を識別する。本発明では、FOURCCコードによって、動きマップを「真」の奥行きマップとして考慮すべきか、又は、それを後処理すべきかどうかを指示することができる。
図3A−3Cには、動きマップと奥行きマップの生成とを示してある。前述したように、動きマップは、個別の規定領域に再編成される同様な動きベクトルを有するブロックの族を規定する。同じ領域に属する全てのブロックは、一様な動きを有する。図3Aでは、例えば、ブロック222a,222b…222nは一様な動きベクトルを有し、これらはビデオフレーム208の領域220に統合される。同様に、規定領域224、226及び228は、一様な動きベクトルを有するブロックを含んでいる。図3Bには、動きマップ230を示してあり、このマップの各領域は動きベクトルに関連し、すなわち、領域226は動きベクトル212cに関連する。
図3Cは、図1の方法100の奥行き抽出ステップ110を実行することで計算し、且つ生成することができる奥行きマップ112を示す。これは例えば、高度の動きを有する物体は近くにあるに違いなく、従って奥行きが浅い、という仮定に基づいて、動きベクトル212cを、次の関係式、すなわちD = 1/M(ここでDは奥行きを表し、Mは動きを表す)によって与えられるように、奥行き値214cに変換することを伴う。従って、図3Cに示すように、奥行きマップ112は、動きマップ230から直接変換することができ、レンチキュラーLCDによって処理することができ、観察者/ユーザーは、三次元の知覚でレンダリングすることができる動きマップ230の種々の領域を、識別することができる。
図4には、図1の方法100から派生した改良方法101を示してある。この方法101には、2つのステップ、すなわち画像安定化のステップ115及び奥行きフィルタリングのステップ117を組み込んでいる。
動き復号化ステップから動きベクトル109をひとたび生成すると、画像安定化のステップ115は、二次元のビデオストリームを全面的に並進兼回転移動させる。画像安定化アルゴリズムは、一般的に、ビデオを撮っている(例えばハンドシェイキング)間における、寄生の動きへの影響を減らすのに用いられている。画像安定化のステップ115を組み入れる影響については、図5で更に説明する。
図4の方法101においては、後処理をした後に、デブロッキングフィルタを用いることによって奥行きマップ112を生成する。圧縮したMPEGデータからの再構築画像は、ブロッキング効果、リンギング効果、コーナーアウトライアーのように、知覚可能な画像劣化を有する。デブロッキングアルゴリズムは、画像コンテンツの鮮明さを劣化させることなく、ブロッキングのアーチファクトを取り除く。図1の方法100と比較すると、図4の方法101では、奥行き抽出ステップ110は、デブロッキングフィルタを用いてフィルタリングする(ステップ117)ことができる粗い奥行きマップ113を生成する。図1の方法100では、後処理は行わず、奥行き抽出ステップ110の結果が直接、最終的な奥行きマップ112となった。
図5A−5Cを参照して、動きベクトルでの画像安定化ステップ115の結果を説明する。これは、図5Aに位置を示している、フレーム240のブロックAとブロックBに焦点を当てて明らかにすることができる。
図5Bに示す継続のPフレーム242における動きベクトル(+1,+1)は、ブロックAによるものであり、動きベクトル246(+3,+1)はブロックBによるものである。しかし、ブロックAに関連する動きがあるように見えるにもかかわらず、ブロックAは動いていなくて、ブロックAの動きはハンドシェイキングのようなビデオを撮るカメラの動きによって生じる。この場合に、画像安定化アルゴリズムは(-1,-1)の並進と、0度の回転の補正を適用して、実際の動きベクトルを得るべく指示することになる。
従って、図5Cには、安定化アルゴリズムによって与えられる情報を用いて補正した、Bフレーム244のブロックA及びブロックBの位置を示してある。実際、ブロックAの動きベクトルは(0,0)に補正されるが、これは、ブロックAは動かなかったから正しいものである。ブロックBの補正動きベクトル248は(+2,0)として設定される。
このように、図5A−5Cの例は、奥行きマップ112の正しい決定及び生成のための画像安定化補正の重要性を明示している。このような補正がないと、ブロックA及びBは、動きマップの不正確な領域に割り当てられることになり、従って、奥行きマップに間違った値を与えてしまうことになる。結果的にこれは、三次元のLCDディスプレイに不正確なレンダリングをすることになっている。
本発明の好適な実施例と見なされることについて詳述したが、本発明は、当業者によって、本発明の範囲から逸脱することなく、種々の修正及び変更をすることが可能であることは明らかである。
特に、前述の説明の大部分は携帯ビデオ記録機器に関するものであったが、上述した三次元のレンダリング方法は、コンピュータスクリーン、携帯電話機器、任意タイプのムービープレーヤ、三次元LCDディスプレイに内蔵される任意タイプのプラットフォーム、及び、PCのようなオフィスプラットフォーム等に実装されるような、任意タイプのビデオアプリケーションにも適用することができる。
加えて、本願明細書にて記載した中心的な発明概念から逸脱することなく、特別な状況を本発明の教示に適用するために、多くの高度なビデオ処理の態様変更をすることができる。更に、本発明の実施例は、上述した全ての特徴事項を含むことができるわけではない。従って、本発明は、開示した特定の例に制限されるものではなく、特許請求の範囲及びこれらと均等の範囲内にある全ての実施例を含む。
本発明の一つの好適例による、奥行きマップを生成する改良方法を示すフローチャートである。 図2A〜図2Cは、本発明の一つの好適例による、動き復号化のプロセスを示す概略図である。 図3A〜図3C本発明の一つの好適例による、動きマップ及び奥行きマップを示す図である。 本発明の他の好適例による、奥行きマップを生成するための改良方法の、他の実施例のフローチャートである。 図5A〜図5Cは、図4に記載の画像安定化ステップの間に補正される模範的なフレームを示す図である。

Claims (21)

  1. ビデオ画像を処理する方法であって、
    ‐ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信するステップと;
    ‐前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化して、前記複数のフレームのブロックユニットによって複数の動きベクトルを抽出する動き復号化ステップと;
    ‐動きマップを生成するステップと;
    ‐同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にグループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理するステップであって、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むようにする、動きマップ処理ステップと;
    ‐ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの領域の奥行き情報を統合することによって、奥行きを抽出する奥行き抽出ステップと;
    ‐二次元ビデオアプリケーションを三次元ディスプレイ上へレンダリングするための奥行きマップを生成するステップと、
    を含むことを特徴とする、ビデオ画像処理方法。
  2. 更にギャップ充填ステップを含み、前記複数のフレームの複数の動きベクトルは、
    ‐前のフレームから復号化した前記複数の動きベクトルから外挿されるか;
    ‐前記前のフレームから復号化した前記複数の動きベクトルから複製されるか;又は、
    ‐複数の隣接フレームから前記複数の動きベクトルを用いて内挿される、
    請求項1に記載の方法。
  3. 前記動き復号化ステップが、ビデオ圧縮標準によって圧縮したビデオストリームに含まれる前記複数の動きベクトルを復号化するステップを含む、請求項1又は2に記載の方法。
  4. 前記ビデオ圧縮標準がMPEG標準を含む、請求項3に記載の方法。
  5. 前記符号化したビデオビットストリームの前記複数のフレームが、“I”、“P”又は“B”タイプのフレームを含む、前記いずれか一つの請求項に記載の方法。
  6. 前記奥行き抽出ステップが、前記複数の動きベクトルからの情報を関係式D=1/Mに従って奥行き値に変換するステップを含み、Dは前記奥行き値を表わし、Mは複数のフレームに関連する前記動きを表わす、前記いずれか一つの請求項に記載の方法。
  7. 更に、ビデオアプリケーションの寄生の動きから生じる、前記複数の動きベクトルの並進及び回転移動を補正する安定化ステップを含む、前記いずれか一つの請求項に記載の方法。
  8. 更に、前記符号化したビデオビットストリームからのビデオ画像における知覚可能な画像劣化効果に対抗するために、デブロッキングフィルタを用いてフィルタリングするのに適合する粗い奥行きマップを生成する奥行きフィルタリングステップを含む、前記いずれか一つの請求項に記載の方法。
  9. 前記三次元ディスプレイ用の奥行きマップを生成するステップが、レンチキュラー液晶ディスプレイ上に奥行きマップを表示することを含む、前記いずれか一つの請求項に記載の方法。
  10. 三次元ディスプレイ用のビデオ画像を処理するように構成したビデオ装置であって、当該装置が、
    ‐ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信するように構成した受信モジュールと;
    ‐前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化して、前記複数のフレームのブロックユニットによって複数の動きベクトルを抽出するように構成したビデオデコーダと;
    ‐同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にグループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理するように構成したモジュールであって、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むようにした、動きマップ処理モジュールと;
    ‐ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの奥行き情報を統合するように構成した奥行き抽出モジュールと;
    ‐二次元ビデオアプリケーションを三次元ディスプレイ上へレンダリングするための奥行きマップを生成するように構成したモジュールと、
    を備えていることを特徴とする、ビデオ装置。
  11. 前記装置はデジタル携帯電話とする、請求項10に記載のビデオ装置。
  12. 前記装置はムービープレーヤとする、請求項10に記載のビデオ装置。
  13. 前期装置が更に、前のフレームから復号化した前記複数の動きベクトルから、前記複数の動きベクトルを外挿するように構成したギャップ充填モジュールを備える、請求項10又は12に記載のビデオ装置。
  14. 前記ビデオデコーダは、ビデオ圧縮標準に従って圧縮したビデオストリームに含まれる前記複数の動きベクトルを復号化する、請求項10〜13のいずれか一つに記載のビデオ装置。
  15. 前記ビデオ圧縮標準はMPEG標準とする、請求項14に記載のビデオ装置。
  16. 前記コード化したビデオビットストリームの前記複数のフレームが、“I”、“P”又は“B”タイプのフレームを含む、請求項10〜15のいずれか一つに記載のビデオ装置。
  17. 前記奥行き抽出モジュールが、前記複数の動きベクトルからの情報を関係式D=1/Mに従って奥行き値に変換するように構成され、Dは前記奥行き値を表わし、Mは複数のフレームに関連する前記動きを表わす、請求項10〜16のいずれか一つに記載のビデオ装置。
  18. 前記装置は更に、ビデオアプリケーションの寄生の動きから生じる、前記複数の動きベクトルの並進及び回転移動を補正するように構成した安定化モジュールを備える、請求項10〜17のいずれか一つに記載のビデオ装置。
  19. 前記装置は更に、前記符号化したビデオビットストリームからのビデオ画像における知覚可能な画像劣化効果に対抗するために、デブロッキングフィルタを用いてフィルタリングするのに適合する粗い奥行きマップを生成するように構成した奥行きフィルタリングモジュールを備える、請求項10〜18のいずれか一つに記載のビデオ装置。
  20. 前記三次元ディスプレイはレンチキュラー液晶ディスプレイとする、請求項10〜19のいずれか一つに記載のビデオ装置。
  21. 格納された一連の命令を有するコンピュータ可読媒体であって、装置のマイクロプロセッサによって命令を実行する際に、当該プロセッサに;
    ‐ビデオ画像を有する二次元ビデオアプリケーションの符号化したビデオビットストリームを受信させ;
    ‐前記複数のフレームのブロックユニットによって複数の動きベクトルを抽出するための、前記符号化したビデオビットストリームの複数のフレームに関連する動きを復号化させ;
    ‐動きマップを生成させ;
    ‐同様なタイプの動きベクトルを有するブロックユニットがそれぞれの領域に一緒にブループ化されるように、同様なタイプの動きベクトルを有するブロックユニットをそれぞれの領域にグループ化することによって、複数の動きベクトルを用いて生成した動きマップを処理させ、前記それぞれの領域における前記ブロックユニットが、それぞれの奥行き情報を含むものとし;
    ‐ビデオ画像のブロックユニットに関連する動きベクトルのタイプに基づいて、動きマップのそれぞれの領域の奥行き情報を統合することによって、奥行きを抽出させ;
    ‐二次元ビデオアプリケーションを三次元ディスプレイ上にレンダリングするための奥行きマップを生成させる、
    ようにしたコンピュータ可読媒体。
JP2008526587A 2005-08-17 2006-08-10 奥行き抽出のためのビデオ処理方法及び装置 Withdrawn JP2009505550A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05300669 2005-08-17
PCT/IB2006/052761 WO2007020570A2 (en) 2005-08-17 2006-08-10 Video processing method and device for depth extraction

Publications (1)

Publication Number Publication Date
JP2009505550A true JP2009505550A (ja) 2009-02-05

Family

ID=37757950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008526587A Withdrawn JP2009505550A (ja) 2005-08-17 2006-08-10 奥行き抽出のためのビデオ処理方法及び装置

Country Status (5)

Country Link
US (1) US8983175B2 (ja)
EP (1) EP1917642A2 (ja)
JP (1) JP2009505550A (ja)
CN (1) CN101223552A (ja)
WO (1) WO2007020570A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012089931A (ja) * 2010-10-15 2012-05-10 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2013509022A (ja) * 2009-10-14 2013-03-07 トムソン ライセンシング フィルタ処理およびエッジ符号化
JP2016123003A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
JP2021533646A (ja) * 2018-08-02 2021-12-02 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc 深度情報を使用して2次元画像を外挿するためのシステムおよび方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1965344B1 (en) * 2007-02-27 2017-06-28 Accenture Global Services Limited Remote object recognition
CN101415116B (zh) * 2007-10-15 2011-08-03 华为技术有限公司 一种确定对应宏块的方法和系统
CN101459857B (zh) * 2007-12-10 2012-09-05 华为终端有限公司 通信终端
CN101312539B (zh) * 2008-07-03 2010-11-10 浙江大学 用于三维电视的分级图像深度提取方法
US8248410B2 (en) * 2008-12-09 2012-08-21 Seiko Epson Corporation Synthesizing detailed depth maps from images
CN101815225B (zh) * 2009-02-25 2014-07-30 三星电子株式会社 生成深度图的方法及其设备
CN101631256B (zh) * 2009-08-13 2011-02-09 浙江大学 用于三维电视系统中2d视频到3d视频的转换方法
KR101701342B1 (ko) 2009-08-14 2017-02-01 삼성전자주식회사 적응적인 루프 필터링을 이용한 비디오의 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
FR2951535B1 (fr) * 2009-10-15 2011-12-02 Sagem Defense Securite Procede de detection de mouvements parasites lors de l'alignement d'une centrale inertielle
KR101750046B1 (ko) * 2010-04-05 2017-06-22 삼성전자주식회사 트리 구조에 따른 부호화 단위에 기반한 인루프 필터링을 수반하는 비디오 부호화 방법과 그 장치 및 복호화 방법과 그 장치
EP2661881A4 (en) 2010-12-29 2016-10-12 Nokia Technologies Oy CODING OF DISPARITY CARD
US9565449B2 (en) 2011-03-10 2017-02-07 Qualcomm Incorporated Coding multiview video plus depth content
US20120236934A1 (en) * 2011-03-18 2012-09-20 Qualcomm Incorporated Signaling of multiview video plus depth content with a block-level 4-component structure
RU2014118585A (ru) * 2011-10-10 2015-11-20 Конинклейке Филипс Н.В. Обработка карты глубины
US9100574B2 (en) 2011-10-18 2015-08-04 Hewlett-Packard Development Company, L.P. Depth mask assisted video stabilization
KR101977802B1 (ko) * 2012-10-10 2019-05-13 삼성전자주식회사 영상 시스템에서 움직임 추정 장치 및 방법
CN103974055B (zh) * 2013-02-06 2016-06-08 城市图像科技有限公司 3d照片生成系统及方法
CN103281548B (zh) * 2013-05-13 2015-04-08 四川虹微技术有限公司 一种实时高清深度估计系统
US10242474B2 (en) * 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
US9792671B2 (en) * 2015-12-22 2017-10-17 Intel Corporation Code filters for coded light depth acquisition in depth images
WO2017122543A1 (ja) * 2016-01-13 2017-07-20 ソニー株式会社 情報処理装置および情報処理方法
CN106548494A (zh) * 2016-09-26 2017-03-29 浙江工商大学 一种基于场景样本库的影视图像深度提取方法
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
EP3642800A4 (en) * 2017-07-10 2020-05-20 Samsung Electronics Co., Ltd. POINT CLOUD AND NETWORK COMPRESSION WITH IMAGE / VIDEO CODECS
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US5619337A (en) * 1995-01-27 1997-04-08 Matsushita Electric Corporation Of America MPEG transport encoding/decoding system for recording transport streams
US5920572A (en) * 1995-06-30 1999-07-06 Divicom Inc. Transport stream decoder/demultiplexer for hierarchically organized audio-video streams
US5825927A (en) * 1996-01-16 1998-10-20 Hitachi America, Ltd. Methods and apparatus for encoding video data in a manner that is well suited for decoding by regular or downconverting decoders
US5963670A (en) * 1996-02-12 1999-10-05 Massachusetts Institute Of Technology Method and apparatus for classifying and identifying images
US6011498A (en) * 1996-12-20 2000-01-04 Philips Electronics North America Corporation Dual-speed variable length decoding architecture for MPEG-2 video data
US6058210A (en) * 1997-09-15 2000-05-02 Xerox Corporation Using encoding cost data for segmentation of compressed image sequences
US6636222B1 (en) * 1999-11-09 2003-10-21 Broadcom Corporation Video and graphics system with an MPEG video decoder for concurrent multi-row decoding
WO2000043910A1 (en) * 1999-01-22 2000-07-27 Kent Ridge Digital Labs Method and apparatus for indexing and retrieving images using visual keywords
US6411953B1 (en) * 1999-01-25 2002-06-25 Lucent Technologies Inc. Retrieval and matching of color patterns based on a predetermined vocabulary and grammar
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6944350B2 (en) * 1999-12-17 2005-09-13 Utah State University Method for image coding by rate-distortion adaptive zerotree-based residual vector quantization and system for effecting same
US6683980B1 (en) * 2000-07-28 2004-01-27 Microsoft Corporation System and method for compressing data
US6925249B1 (en) * 2000-07-28 2005-08-02 Microsoft Corporation System and method for storing compressed data onto a storage medium
US7035468B2 (en) * 2001-04-20 2006-04-25 Front Porch Digital Inc. Methods and apparatus for archiving, indexing and accessing audio and video data
US6870962B2 (en) * 2001-04-30 2005-03-22 The Salk Institute For Biological Studies Method and apparatus for efficiently encoding chromatic images using non-orthogonal basis functions
US20050063596A1 (en) * 2001-11-23 2005-03-24 Yosef Yomdin Encoding of geometric modeled images
US7035467B2 (en) * 2002-01-09 2006-04-25 Eastman Kodak Company Method and system for processing images for themed imaging services
JP2004040445A (ja) * 2002-07-03 2004-02-05 Sharp Corp 3d表示機能を備える携帯機器、及び3d変換プログラム
US7212676B2 (en) * 2002-12-30 2007-05-01 Intel Corporation Match MSB digital image compression
WO2004061765A2 (en) * 2003-01-06 2004-07-22 Koninklijke Philips Electronics N.V. Method and apparatus for depth ordering of digital images
US7152209B2 (en) * 2003-03-28 2006-12-19 Microsoft Corporation User interface for adaptive video fast forward
US7693339B2 (en) * 2003-12-17 2010-04-06 Andreas Wittenstein Method and apparatus for faster-than-real-time lossless compression and decompression of images
US8233708B2 (en) * 2005-08-17 2012-07-31 Panasonic Corporation Video scene classification device and video scene classification method
US8094948B2 (en) * 2007-04-27 2012-01-10 The Regents Of The University Of California Photo classification using optical parameters of camera from EXIF metadata

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013509022A (ja) * 2009-10-14 2013-03-07 トムソン ライセンシング フィルタ処理およびエッジ符号化
JP2016146655A (ja) * 2009-10-14 2016-08-12 トムソン ライセンシングThomson Licensing フィルタ処理およびエッジ符号化
US10198792B2 (en) 2009-10-14 2019-02-05 Dolby Laboratories Licensing Corporation Method and devices for depth map processing
US10417748B2 (en) 2009-10-14 2019-09-17 Dolby Laboratories Licensing Corporation Filtering and edge encoding and decoding for depth maps
JP2012089931A (ja) * 2010-10-15 2012-05-10 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2016123003A (ja) * 2014-12-25 2016-07-07 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
JP2021533646A (ja) * 2018-08-02 2021-12-02 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc 深度情報を使用して2次元画像を外挿するためのシステムおよび方法

Also Published As

Publication number Publication date
CN101223552A (zh) 2008-07-16
WO2007020570A2 (en) 2007-02-22
US20080232716A1 (en) 2008-09-25
WO2007020570A3 (en) 2007-10-25
US8983175B2 (en) 2015-03-17
EP1917642A2 (en) 2008-05-07

Similar Documents

Publication Publication Date Title
US8983175B2 (en) Video processing method and device for depth extraction
JP5763184B2 (ja) 3次元画像に対する視差の算出
JP5575908B2 (ja) 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
US9986258B2 (en) Efficient encoding of multiple views
JP5243612B2 (ja) 中間画像合成およびマルチビューデータ信号抽出
JP5654138B2 (ja) 3dヒューマンマシンインターフェースのためのハイブリッドリアリティ
US8218855B2 (en) Method and apparatus for receiving multiview camera parameters for stereoscopic image, and method and apparatus for transmitting multiview camera parameters for stereoscopic image
US20080205791A1 (en) Methods and systems for use in 3d video generation, storage and compression
US20090015662A1 (en) Method and apparatus for encoding and decoding stereoscopic image format including both information of base view image and information of additional view image
US20140198182A1 (en) Representation and Coding of Multi-View Images Using Tapestry Encoding
US20130033586A1 (en) System, Method and Apparatus for Generation, Transmission and Display of 3D Content
US20100182403A1 (en) File format for encoded stereoscopic image/video data
JP2009123219A (ja) 深さマップ推定装置と方法、これを用いた中間映像生成方法および多視点ビデオのエンコーディング方法
US20150304640A1 (en) Managing 3D Edge Effects On Autostereoscopic Displays
Schmeing et al. Depth image based rendering: A faithful approach for the disocclusion problem
WO2008030011A1 (en) File format for encoded stereoscopic image/video data
JP2022533754A (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
US20200413094A1 (en) Method and apparatus for encoding/decoding image and recording medium for storing bitstream
Ideses et al. 3D from compressed 2D video
KR20200143287A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US11064218B2 (en) Method and apparatus for encoding/decoding image for virtual view synthesis
Joachimiak et al. Evaluation of depth-based super resolution on compressed mixed resolution 3d video
Chen et al. Low-complexity 2D to 3D video conversion
Hasan Psychovisual Effect Analysis and Perceptual Quality Measure for Error Resilient Stereoscopic Video Transmission
Park et al. Ho-Cheon Wey

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090901