JP2024062935A - 立体視表示コンテンツを生成する方法および装置 - Google Patents

立体視表示コンテンツを生成する方法および装置 Download PDF

Info

Publication number
JP2024062935A
JP2024062935A JP2023134464A JP2023134464A JP2024062935A JP 2024062935 A JP2024062935 A JP 2024062935A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2024062935 A JP2024062935 A JP 2024062935A
Authority
JP
Japan
Prior art keywords
image
rgb
disparity
disparity map
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023134464A
Other languages
English (en)
Inventor
シエ シン
シュウ ナン
チェン シュウ
Original Assignee
オーベック 3D テクノロジー インターナショナル,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/973,086 external-priority patent/US20240137481A1/en
Application filed by オーベック 3D テクノロジー インターナショナル,インク. filed Critical オーベック 3D テクノロジー インターナショナル,インク.
Publication of JP2024062935A publication Critical patent/JP2024062935A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Stereoscopic And Panoramic Photography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

Figure 2024062935000001
【課題】高品質の立体視画像とビデオを生成する方法及び装を提供する。
【解決手段】立体視表示コンテンツを生成する方法は、プロセッサを使用して赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、プロセッサによって、第2のRGB画像および第3のRGB画像を含む一対の立体視画像を生成することと、を含む。第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成される。
【選択図】図3

Description

本開示は立体視に関し、特に立体視表示コンテンツの生成に関する。
次世代の人間とコンピュータの対話方法としての仮想現実(VR)、拡張現実(AR)、および複合現実(MR)は、非常に没入型で直観的である。最高の没入型のVR、AR、MR視聴体験を提供するには、高品質の立体視画像とビデオを生成することが必要である。
現在、3次元深度の知覚は、2台以上のカメラを使用して各目にわずかに異なる2つの画像を生成することによって実現することができる。しかしながら、これは複雑でコンピューティング集約的なプロセスになる可能性がある。さらに、正確な深度情報がなければ、生成されたVR、AR、およびMR環境は人々に良好な視聴体験を提供できない。
本明細書では、立体視表示コンテンツを生成するための方法、装置、およびシステムの実装形態を開示する。
一態様においては、立体視表示コンテンツを生成する方法が開示されている。この方法は、プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、プロセッサによって、第2のRGB画像および第3のRGB画像を含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む。
他の態様においては、立体視表示コンテンツを生成する装置が開示されている。この装置は、非一時的メモリと、プロセッサと、を備え、非一時的メモリは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立視体画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。
他の態様においては、立体視表示コンテンツを生成するためのコンピュータプログラムを記憶するように構成された非一時的なコンピュータ可読記憶媒体が開示されている。このコンピュータプログラムは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配率を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、プロセッサによって、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。
本開示は、添付の図面と併せて読めば、以下の詳細な説明から最もよく理解される。一般的な慣例によれば、図面のさまざまな特徴は縮尺どおりではないことを強調しておく。逆に、さまざまな機能の寸法は、明確にするために任意に拡大または縮小されている。
コンピューティングおよび通信のための装置の例示的なブロック図である。
両眼立体視の原理を説明するための例示的な図である。
本開示のいくつかの実装形態による、立体視表示コンテンツを生成するための例示的なプロセスのフローチャートである。
本開示のいくつかの実装形態による、人間の左目と右目の視差値を決定するための例である。
図5は、本開示のいくつかの実装形態による、一対の立体視画像を生成するための例示的なフロー図である。
詳細な説明
仮想現実(VR)、拡張現実(AR)、および複合現実(MR)技術は、例えば、仮想観光および旅行、デジタル仮想エンターテイメント(例えば、VRゲームおよびVR映画など)、仮想トレーニングと教育、VR露出療法などのいくつかの応用分野で開発されている。一方で、VRヘッドセット、VRヘルメット、AR/MRアプリやメガネなどのVR/AR/MR装置は、人々が参加できる3D没入型環境をシミュレートするために使用されている。VR/AR/MRヘッドセットを装着したユーザーが頭を動かすと、シミュレートされた3D環境がユーザーの動きに従い、ユーザーの前に表示される。
シミュレータされた3D没入環境は、両眼視によって実現することができる。人間の左目と右目では、わずかに異なる視点から物体が見える。観察されたさまざまな2次元(2D)画像は脳によって処理され、3D深度の知覚が生成される。両眼視に基づいて、VR/AR/MRの立体視は、(たとえば、左目に対する1つの画像と右目に対する1つの画像のような)2つの2D画像をそれぞれ左目と右目の入力として使用することによって生成される。2つの2D画像は、同じシーンに対して2台のカメラによって異なる視点から取得される。従来、仮想現実(VR)/拡張現実(AR)/複合現実(MR)ヘルメット/メガネに使用される立体視画像ペア(例えば、左目に対する1つの画像と右目に対する1つの画像)は、逆整流プロセスを使用して生成される。2D画像は距離/深度情報が含まれていないため、このような処理により生成される3DのVR/AR/MR表示コンテンツは、不正確な距離推定により違和感や3Dめまいを引き起こす可能性がある。
本開示の実装形態によれば、方法は、RGB-Dセンサから記録された正確な距離/深度情報を有する3次元の赤緑青プラス距離(RGB-D)画像を使用して、VR/AR/MRの3D表示コンテンツを生成するために使用される。RGB-Dセンサは、例えば、RGB-Dセンサは、構造化された光ベースのRGB-Dセンサ、アクティブ/パッシブの立体視ベースのRGB-Dセンサ、飛行時間型RGB-Dセンサ、またはそれらの任意の組み合わせなどを含むことができる。従来の赤緑青(RGB)画像はx座標とy座標の関数であり、2D画像内のRGBカラー値の分布のみを表す。たとえば、(x,y)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1)と表すことができ、これは画像上のxおよびy座標にある黒いピクセルを表示する。RGB-Dセンサから記録されたRGB-D画像は、RGB画像の各ピクセルに追加の深度情報を提供する。たとえば、(x,y,z)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1,z)と表すことができ、これは画像上のxおよびy座標にありz単位距離(たとえばミリメートル)離れたところにある黒いピクセルを表示する。
本開示の実装形態によれば、立体視表示コンテンツを生成するために、RGB-Dセンサを使用してRGB-D画像を生成することができる。RGB-D画像に基づいて、対応するRGB画像と深度画像を取得できる。深度画像は、RGB画像内のピクセルに対応する物体の距離情報を示す。三角測量関係に基づいて、RGB画像内の各ピクセルの距離、焦点距離、瞳孔間距離を使用して、RGB画像に対する全体視差マップを生成できる。全体視差マップは2Dマトリックスであり、各要素はRGB画像内のピクセルの視差値を示す。左視差マップは、視差分配比kと全体視差マップとにより決定することができる。右視差マップは、視差分配比kと全体視差マップにより決定することができる。したがって、左視差マップと右視差マップに基づいてRGB画像から一対の立体視画像を生成することができる。一対の立体視画像は、左目画像と右目画像とを含む。拡張現実(AR)、仮想現実(VR)、または複合現実(MR)のデバイスの表示要件に従って、左目画像と右目画像をズーム、トリミング、またはサイズ変更して、左表示画像と右表示画像を生成できる。
本開示の応用および実装形態は例に限定されず、本開示の実装形態の代替、変形、または修正は、任意の計算環境に対して達成できることに留意されたい。開示された方法、装置、およびシステムの詳細は、システムおよびコーディング構造の概要の後で以下に説明される。開示された方法およびサーバーの詳細は以下に説明される。
図1は、本開示の実装形態によるコンピューティングおよび通信のための装置100の内部コンポーネントを示す例示的なブロック図である。図1に示すように、コンピューティングおよび通信のための装置100は、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことができる。バス102は、内部信号を分配するために使用することができる。バス102は、1つまたは複数のバス(アドレスバス、データバス、またはそれらの組み合わせなど)であるかもしれないことを表している。この装置は、赤緑青プラス距離(RGB-D)カメラ、ブリッジカメラ、フィルムカメラ、スマートフォンカメラ、魚眼カメラ、マイクロコンピュータ、メインフレームコンピュータ、汎用コンピュータ、データベースコンピュータ、特定用途/専用コンピュータ、リモートサーバーコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、携帯電話、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGA(フィールドプログラマブルゲートアレイ)チップ、SoC(システムオンチップ)チップ、クラウドコンピューティングデバイス/サービス、またはウェアラブルコンピューティングデバイスなどの1つまたは複数のコンピューティングデバイスの任意の構成によって実装できる。いくつかの実装形態では、異なる装置は、異なる地理的位置にあり、ネットワークなどを介して互いに通信できる複数のグループのRGB-Dカメラの形態で実装することができる。いくつかの実装形態では、異なる装置は異なる動作で構成される。いくつかの実装形態では、コンピューティングおよび通信のための装置は、本明細書に記載される方法およびシステムの1つまたは複数の態様を実行することができる。例えば、特殊チップを含むRGB-Dカメラ内の特定目的プロセッサを使用して、本明細書に記載の方法およびシステムの1つまたは複数の態様または要素を実装することができる。
図1は、コンピューティングおよび通信のための装置100が、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことを示す。いくつかの実装形態では、コンピューティングおよび通信のための装置100は、任意の数のメモリユニット、プロセッサユニット、通信ユニット、入出力(I/O)コンポーネント、センサユニット、電源ユニット、およびバスユニットを含むことができる。
メモリ104には、二次または永続的な長期記憶など、プログラムコードおよび/またはデータを長期間記憶する非一時的なコンピュータ可読媒体が含まれるが、これに限定されない。メモリ104は、データの取得、データの保存、またはその両方を行うことができる。ここでのメモリ104は、読み取り専用メモリ(ROM)デバイス、ハードドライブ、ランダムアクセスメモリ(RAM)、フラッシュドライブ、SSD(ソリッドステートドライブ)、EMMC(埋め込み型マルチメディアカード)、光/磁気ディスク、セキュリティデジタル(SD)カード、または適切なタイプのストレージデバイスの任意の組み合わせであり得る。
プロセッサ106は、メモリ104、通信ユニット108、I/Oコンポーネント110、センサ112、またはそれらの組み合わせから受信できる情報を操作または処理するために使用することができる。いくつかの実装形態では、プロセッサ106は、デジタル信号プロセッサ(DSP)、中央プロセッサ(例えば、中央処理装置またはCPU)、特定用途向け命令セットプロセッサ(ASIP)、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGAチップ(フィールドプログラマブルゲートアレイ)、SoC(システムオンチップ)チップ、クラウドコンピューティングサービス、グラフィックスプロセッサ(GPUのグラフィックス処理装置)を含むことができる。プロセッサ106は、バス102を介してメモリ104に格納されたコンピュータ命令にアクセスすることができる。いくつかの実装形態では、1つまたは複数のプロセッサを使用して、ここで説明する方法およびシステムの1つまたは複数の態様を実行するためのコンピュータ命令を実行または処理することを含むデータ処理を高速化することができる。プロセッサ106からの出力データは、バス102を介してメモリ104、通信ユニット108、I/Oコンポーネント110、センサ112に分配することができる。プロセッサ106は、1つまたは複数の構成されたまたは埋め込まれた動作を実行するために、コンピューティングおよび通信のために装置100を制御するように動作可能な任意のタイプのデバイスまたは複数のデバイスであり得る。
プロセッサ106およびメモリ104に加えて、装置100はセンサ112を含むことができる。例えば、装置100の動作環境の1つまたは複数の条件は、センサ112によって検出、キャプチャ、または決定することができる。いくつかの実装形態では、センサ112は、1つ以上の電荷結合素子(CCD)、アクティブピクセルセンサ(CMOSセンサ)、または他の可視光もしくは非可視光の検出およびキャプチャユニットを含むことができる。コンピューティングおよび通信のための装置100の動作環境の感知された側面についてキャプチャされたデータは、センサ112からメモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、供給電源114、およびバス102に送信することができる。いくつかの実装形態では、例えば、ライダーユニット、マイクロホン、RGB-D感知デバイス、超音波ユニット、または圧力センサなどの複数のセンサを装置100に含めることができる。上述のセンサは、コンピューティングおよび通信のための装置100の動作環境の1つまたは複数の状態をキャプチャ、検出、または決定することができる。
プロセッサ106およびメモリ104に加えて、装置100は、I/Oコンポーネント110を含むことができる。I/Oコンポーネント110は、ユーザー入力を受信することができる。I/Oコンポーネント110は、ユーザー入力をバス102、供給電源114、メモリ104、通信ユニット108、センサ112、プロセッサ106、またはそれらの組み合わせに送信することができる。I/Oコンポーネント110は、視覚的出力または表示出力を個人に提供することができる。いくつかの実装形態では、I/Oコンポーネント110は、信号および/またはデータを送信するための通信デバイスから形成することができる。
プロセッサ106およびメモリ104に加えて、装置100は通信ユニット108を含むことができる。装置100は、通信ユニット108を使用して、セルラーデータネットワーク、ワイドエリアネットワーク(WAN)、仮想プライベートネットワーク(VPN)、またはインターネットなどの1つまたは複数の通信ネットワークを介して有線または無線通信プロトコルを使用して別のデバイスと通信することができる。
プロセッサ106およびメモリ104に加えて、装置100は供給電源114を含むことができる。供給電源114は、バス102、メモリ104、メモリ104などの装置100内の他のコンポーネントに電力を供給することができる。いくつかの実装形態では、供給電源114は、充電式電池などの電池であり得る。いくつかの実装形態では、供給電源114は、外部電源からエネルギーを受け取ることができる電力入力接続を含むことができる。
プロセッサ106およびメモリ104に加えて、装置100はバス102を含むことができる。供給電源114からの電力信号および内部データ信号は、バス102を介してメモリ104、通信ユニット108、センサ112、プロセッサ106、I/Oコンポーネント110、および供給電源114に分配することができる。
立体視表示コンテンツを生成するための装置およびシステムの部分または構成要素は、図1に示されるものに限定されない要素を含むことができることに留意されたい。本開示の範囲から逸脱することなく、立体視表示コンテンツを生成するための装置およびシステムは、立体視表示コンテンツの生成に加えてまたはそれに関連する様々な機能を実行するための、より多くのまたはより少ない部品、構成要素、およびハードウェアまたはソフトウェアモジュールを含むことができる。
図2は、両眼立体視原理を説明するための例示的な図200を示す。図200は、左画像230、右画像240、左光学中心O’(0,0)、右光学中心O’’(0,0)、左焦点L=(X,Y,Z)、右焦点R=(X,Y,Z)、目標点P=(X、Y、Z)を含む。左光学中心O’は、左画像230の中心にあるピクセル点である。右光学中心O’’は、右画像240の中心にある別のピクセル点である。左光学中心O’に対するピクセル座標は、左画像230内の(0,0)である。右光学中心O’’に対するピクセル座標は、右画像240内の(0,0)である。世界座標点(例えば、3D点)としての目標点Pは、左焦点Lを介して左画像230内の2D座標点P’=(Xleft,Y)として変換および投影することができる。右焦点Rを介して、目標点Pを右画像240内の別の2D座標点P’’=(Xright,Y)として変換および投影することができる。左焦点Lと右焦点Rとの間の距離がベースラインbである。
2D座標点P’および2D座標点P’’は、同じ目標点Pに対して、それぞれ左画像230および右画像240内に投影された2つの点である。左画像230および右画像240内のP’とP’’の水平座標の差(例えば、視差:d=Xleft-Xright)は、目標点Pと2つの焦点(例えば、左焦点Lと右焦点R)との間の距離を評価するために使用することができる。いくつかの実装形態では、目標点Pは、3D物体内の3D世界座標点である。3D物体内の各3D世界座標点は、左画像230と右画像240の内の両方に投影することができる。3D物体の対応するピクセルを見つけて、左画像230と右画像240との間で照合することができる。各ピクセルの視差(たとえば、目標点Pに対する視差:d=Xleft-Xright)を計算でき、計算された視差に基づいて、3D物体に対する視差マップを生成できる。視差マップを使用して世界座標系の3D物体を再構築できる。
いくつかの実装形態では、人間の左目は、左焦点Lとすることができる。人間の右目は、右焦点Rとすることができる。人間の左目と右目は、周囲の世界のわずかに異なる視野を有する。その場合、ベースラインbは、左目と右目の間の瞳孔間距離(例えば、50~75mm)である。目標点Pは、人間が観察する任意の世界座標点にすることができる。目標点Pは、人間の左目画像と右目画像の両方に投影することができる。左目画像と右目画像との間の対応するピクセルの視差を利用して、目標点Pと人間との間の距離を計算することができる。その場合、人間の脳によって、一対の立体視画像として左目画像と右目画像が使用されて、周囲の世界に対する立体視を生成することができる。
いくつかの実装形態では、異なる位置にある2つのカメラ(例えば、左カメラと右カメラ)は、同じ3D物体に対して異なる2Dピクセルを含む左画像230と右画像240を生成することができる。左カメラの焦点は、左焦点Lとすることができる。右カメラの焦点は右焦点Rとすることができる。左カメラと右カメラの2つの焦点の間の距離をベースラインbとすることができる。場合によっては、左カメラと右カメラが水平に配置されていない場合、左画像230と右画像240の両方のすべてのピクセルに対する視差マップを正しく示すように、左画像230と右画像240を校正することができる。左画像230および右画像240に対する視差マップを使用して、左カメラおよび右カメラによってキャプチャされた3D環境を再構成するために各ピクセルの深度情報を生成することができる。
いくつかの実装形態では、2つまたはそれ以上の画像センサを備えたステレオカメラを使用して、同じ3D物体に対して異なる2Dピクセルを含む左画像230および右画像240を生成することができる。たとえば、ステレオカメラが2つのイメージセンサ(たとえば、左画像センサと右画像センサ)を含む場合、ステレオカメラを使用して、深度情報を持つ3D物体を再構成できる。左画像センサを使用して、左画像230を生成することができる。右画像センサを使用して、右画像240を生成することができる。左画像センサと右画像センサとの間の水平距離は、ベースラインbとすることができる。視差マップは、周囲の世界のわずかに異なる視野を表す左画像230と右画像240に基づいて計算することができる。
一般に、両眼立体視の実現は、視差(パララックス)(例えば、視差(ディスパリティ))の原理に基づいてなされる。例えば、図2では、2つの画像(例えば、左画像230と右画像240)が行に整列されており、これは、左画像230と右画像240が同じ平面内にあることを意味する。目標点Pは、左画像230と右画像240にそれぞれ異なるピクセル座標で投影することができる。ピクセル座標の差(例えば、視差:d=Xleft-Xright)を使用して、目標点Pと2つの画像(例えば、左画像230と右画像240)との間の距離を計算することができる。計算された距離情報は、世界中の3D物体を再構成するために使用できる。
図3は、本開示のいくつかの実装形態に従って立体視表示コンテンツを生成するための例示的なプロセス300のフローチャートである。プロセス300は、図1の装置100内のソフトウェアおよび/またはハードウェアモジュールとして実装することができる。例えば、プロセス300は、図1の装置100などのカメラのプロセッサ106によって実行可能な命令および/またはデータとしてメモリ104に格納されたソフトウェアモジュールとして実装することができる。別の例では、プロセス300は、特殊チップにより実行可能な命令を記憶する特殊チップとしてハードウェアで実装することができる。プロセス300の動作の一部またはすべては、図4に関連して以下に説明するような視差マップを使用して実装することができる。上述のように、本明細書に記載される開示の態様のすべてまたは一部は、ここに記載されている実行されるとそれぞれの技術、アルゴリズム、および/または指示のいずれかを実行するコンピュータプログラムを備えた汎用コンピュータ/プロセッサを使用して実装することができる。追加的にまたは代替的に、例えば、本明細書に記載の技術、アルゴリズム、または命令のいずれかを実行するための特殊なハードウェアを含み得る専用コンピュータ/プロセッサを利用することができる。
動作302では、第1の赤緑青(RGB)画像および深度画像が、プロセッサを使用して赤緑青プラス距離(RGB-D)画像から取得することができる。例えば、プロセッサは、図1のプロセッサ106であってもよい。場合によっては、図1の装置100のセンサ112は、装置100の動作環境においてRGB-D画像を取得するために使用することができる。RGB-D画像は、バス102を介してプロセッサ106に送信され、RGB画像および深度画像を取得することができる。深度画像は、RGB画像内の対応する物体(または複数の対応する物体)の距離情報を示す。
一例として図5を用いて、RGB-D画像は、RGB-Dセンサ502によって取得することができる。RGB-D画像は、任意の技術によって処理して、RGB画像512および深度画像514を取得することができる。いくつかの実装形態では、RGB-D画像はRGB-Dセンサによってキャプチャできる。例えば、RGB-Dセンサは、図1のセンサ112とすることができる。RGB画像512は、例えば、人間、動物、ソファ、机、および他の物体などの様々な物体を含むことができる。深度画像514では、図5では異なる距離を示すために異なる影付きが使用されており、より濃い色合いは距離がより近いことを示す。深度画像514は、RGB画像512内の対応する物体の距離を示す。
いくつかの実装形態では、深度画像内のピクセルは、RGB-DセンサとRGB-D画像内のキャプチャされた対応する物体との間の距離を示す。たとえば、RGB-D画像内のピクセルは深度画像内のピクセルに対応することができる。RGB-D画像内のピクセルは、物体に属する点を示している。深度画像内の同じ位置にある対応するピクセルは、対応する物体とRGB-Dセンサとの間の距離を示すことができる。
図5の例において、深度画像514内のピクセルは、RGB-Dセンサ502と、RGB画像512内でキャプチャされた対応する物体との間の距離を示す。対応する物体には、例えば、物体516(例えば、おもちゃのクマ)が含まれ得る。RGB画像512内の各ピクセルは、物体(例えば、物体516)に関連付けることができる。RGB画像512内の各ピクセルに対する深度画像514内の対応するピクセルは、RGB-Dセンサ502と対応する物体との間の距離を示す。
図3に戻ると、動作304において、RGB-D画像に基づく第1の視差マップは、深度画像内の深度値に基づいて決定することができ、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含む。いくつかの場合では、第1の視差マップは、第1のRGB画像に対する複数の視差値を含み、第1のRGB画像の中での視差値は一対の立体視画像を生成するために使用することができる。
各ピクセルの視差値は、例として図4を使用して深度画像内の深度値に基づいて決定することができる。図4は、本開示のいくつかの実装形態による人間の左目と右目の視差値を決定する一例を示す図である。例えば、図4において、目標点Oの距離は距離Zであり、目標点Oに対する視差値はf*b/Zであり、ただし、fは焦点距離、bは左目Eと右目Eとの間の瞳孔間距離であり、Zは目標点OとRGB-Dセンサ間の距離である。図4の三角測量関係から、第1のRGB画像内の各ピクセルについて、対応する視差値を決定することができる(例えば、f*b/Z)。一般に、三角測量関係に基づいて、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を使用して、第1のRGB画像(たとえば、RGB画像)内の各ピクセルの視差値を決定することができる。図4によれば、第1の視差マップ内の視差値は、例えば、以下に説明する式(5)を使用して決定することができる。
図5の例では、RGB-D画像は、RGB-Dセンサ502によって取得することができる。深度画像514内のピクセルは、RGB画像512内の対応する物体とRGB-Dセンサとの間の距離(すなわち、深度)を示す。例えば、RGB画像512内の物体516に対する距離は、深度画像514内に表示される。深度画像514内の各ピクセルの深度に基づいて、RGB画像512に対する全体視差マップ522を決定することができる。いくつかの実装形態では、全体視差マップ522は、左目と右目の間の瞳孔間距離、各ピクセルの深度値、およびRGB-Dセンサの焦点距離を使用して決定することができる。例えば、全体視差マップ522は、以下に説明するように、式(5)を使用して決定することができる。例えば、物体516は、グレースケールで表される視差値として図5の全体視差マップ522に示されている。そして以下に説明するように、全体視差マップ522を使用して、RGB画像を一対の立体視画像(例えば、左目画像542および右目画像544)に変換することができる。
いくつかの実装形態では、第1の視差マップは2次元(2D)マトリックスであり、各要素が視差値を示す。一例として図5を使用すると、第1の視差マップ(例えば、全体視差マップ522)は、深度画像514およびRGB画像512に基づいて決定することができる。全体視差マップ522は2Dマトリックスであってもよく、各要素がRGB画像512内のピクセルの視差値を示す。
いくつかの実装形態では、第1の視差マップは、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用して決定することができる。一例として図4を使用すれば、焦点距離f、左目Eと右目Eの間の瞳孔間距離b、および距離Zに基づいて、目標点Oに対する第1の視差マップ内の視差値(例えば、f*(b/(z(x,y))))を決定することができる。例えば、視差値は、以下に説明する式(5)を使用して決定することができる。
図5の例では、RGB画像512内のピクセルは、深度画像514内の距離に関連付けられる。焦点距離fまたは瞳孔間距離bは、公開データから事前に定義することも、手動入力によって設定することもできる。焦点距離fおよび距離を備える瞳孔間距離bを使用して、RGB画像512に対する全体視差マップ522を決定することができる。
図3に戻ると、動作306において、視差分配比を用いて第1の視差マップを変換することにより、第2の視差マップおよび第3の視差マップを決定することができる。言い換えれば、第2の視差マップと第3の視差マップは、視差分配比を用いて同じ元の視差マップに基づいて決定することができる。いくつかの実装形態では、第1の視差マップは、例えば式(1)を使用して第2の視差マップに変換され、視差分配比kに基づいて、例えば下記の式(2)を使用して第3の視差マップに変換することができる。
Figure 2024062935000002
Figure 2024062935000003
ただし、d(x,y)は第2のパリティマップ内の視差値であり、d(x,y)は第3パリティマップ内の視差値である。d(x,y)は第1のパリティマップの視差値であり、z(x,y)はRGB-DセンサとRGB画像内のピクセル(x,y)に関連付けられた対応する物体との間の距離を示し、kは視差分配比である。ただし、視差分配比は、左目と右目との間の観察点の位置を示す定数値であり得る。いくつかの実装形態では、視差分配比kは、事前に設定された一定値であり得る。
いくつかの実装形態では、第2の視差マップおよび第3の視差マップは、式(1)および(2)を使用せずに他の方法で第1の視差マップから決定することができる。例えば、第2の視差マップおよび第3の視差マップは、視差分配比kに加えてオフセットを用いて決定することができる。
第1のパリティマップに対する視差値d(x,y)は、例えば、下記の式(5)を使用して決定することができる。この式において、fは焦点距離、bは左目と右目の間の瞳孔間距離である。
一例として図4を用いて、目標点Oに対する第1のパリティマップでの視差値d(x,y)は、焦点距離f(例えば、f=f=f)、瞳孔間距離b、および距離Zに基づいて決定することができる。視差分配比kに基づいて、目標点Oに対して、第2のパリティマップの視差値d(x,y)と第3のパリティマップの視差値d(x,y)とは、式(1)および(2)を用いて、上述したように決定できる。
図5の例では、RGB画像512および深度画像514に基づいて、全体視差マップ522を決定することができる。視差分配比kに基づいて、左視差マップ534および右視差マップ536は、それぞれ以下に説明する式(3)および(4)を使用して決定することができる。左視差マップ534および右視差マップ536を使用して、RGB画像を一対の立体視画像に変換することができる。
図3に戻ると、動作308で、第2のRGB画像および第3のRGB画像を含む一対の立体視画像をプロセッサによって生成することができる。第2のRGB画像は、第2の視差マップに基づいて、第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成される。第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成される。
第2の視差マップおよび第3の視差マップ内の視差値を使用して、第1のRGB画像内のピクセルを左または右に水平にシフトして、第2のRGB画像および第3のRGB画像を生成することができる。いくつかの実装形態では、プロセッサ(例えば、プロセッサ106)は、式(3)を使用して第2の視差マップ(例えば、図5の左視差マップ534)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第1のピクセルのセットをシフトすることによって、第2のRGB画像(例えば、図5の右視差マップ536)を生成することができる。プロセッサは、式(4)を使用して第3の視差マップ(例えば、図5の右視差マップ536)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第2のピクセルのセットをシフトすることによって、第3のRGB画像(例えば、図5の右目画像544)を生成することができる。
Figure 2024062935000004
Figure 2024062935000005
式(3)および(4)において、Pixel(x,y)は第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))はピクセル(x,y)に対するRGBカラーであり、式(1)のd(x,y)を参照するdは第2の視差マップにおける視差値を示し、d(x,y)を参照するdは、第3の視差マップにおける視差値を示す。
いくつかの実装形態では、第2の視差マップおよび第3の視差マップ内の視差値は、式(3)および(4)を使用せずに他の方法で決定することができる。いくつかの実装形態では、視差値を決定するために、上述の水平方向のシフトに加えて、例えば、追加の1つのピクセルまたは追加の複数のピクセルを上部または下部に追加できる。いくつかの実装形態では、水平方向のシフトに加えて、追加のピクセル(複数可)を左または右に追加することができる。
一例として図5を用いると、RGB画像532は、第1のRGB画像であり得る。左視差マップ534は、第2の視差マップであり得る。右視差マップ536は、第3の視差マップであり得る。左視差マップ534および右視差マップ536は、上述のように、視差分配比kに基づいて全体視差マップ522を変換することによって決定することができる。左視差マップ534に基づいて、RGB画像532内の第1のピクセルのセットを変換することによって、左目画像542を生成することができる。例えば、式(3)を左視差マップ534とともに使用して、左目画像542を生成することができる。式(4)を右視差マップ536とともに使用して、右目画像544を生成することができる。左目画像542および右目画像544は、一対の立体視画像であり得る。
いくつかの実装形態では、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された一対の調整された表示画像が、一対の立体視画像に基づいて、プロセッサ(例えば、プロセッサ106)によって生成することができる。一例として図5を用いると、一対の立体視画像は、左目画像542と右目画像544を含む。拡張現実(AR)、仮想現実(VR)、複合現実(MR)装置の表示要件に合わせてサイズ変更された、調整された一対の調整された表示画像は、例えば、左目画像542および右目画像544に基づいて生成され得る左表示画像552および右表示画像554を含むことができる。
図4は、本開示のいくつかの実装形態による人間の左目と右目の視差計算例400の図である。図4は、左目E、右目E、目標点O、左目Eと右目Eの間の瞳孔間距離b、目標点OとRGBセンサ間の距離Z、左目Eに対する焦点距離f、右目Eに対する焦点距離f、左目Eの画像面における目標点Oの投影点O’、右目Eの画像面における目標点Oの投影点O’、左目Eの画像面における原点C’、右目Eの画像面における原点C’を含むことができる。一般性を失うことなく、左目の焦点距離fは右目の焦点距離fに等しく、fとfは両方ともfに等しい。
人間の左目Eと右目Eは、水平方向に瞳孔間距離bだけ離れている。これにより、目標点Oを、左目Eの画像および右目Eの画像のそれぞれにおいて異なる位置(例えば、投影点O’および投影点O’)に投影することができる。投影点O’は、左目Eの画像面において原点C’の左側に投影される。左目Eの画像面における投影点O’と原点C’との間のピクセル距離はU1である。投影点O’は、右目Eの画像面において原点C’の右側に投影される。右目Eの画像面における投影点O’と原点C’との間のピクセル距離はU2である。ピクセル位置の差は、目標点Oの視差値である。左目Eの画像面におけるすべてのピクセルは、右目Eの画像面における同じ位置にあるピクセルと一致させることができる。視差マップは、左目Eの画像面と右目Eの画像面との間のピクセル位置の差に基づいて生成することができる。
いくつかの実装形態では、深度画像内の各ピクセルは、RGDセンサと対応する物体との間の距離を示す。例えば、図4において、目標点Oに対する距離は距離Zである。投影点O’と投影点O’との間のピクセル距離差は|U1|+|U2|である。図4の三角測量の関係から、|U1|+|U2|は(b*f)/Zに等しく、ただし、bは左目Eと右目Eの間の瞳孔間距離、fは左目Eと右目Eに対する焦点距離、Zは目標点OとRGBセンサの間の距離である。したがって、b/Z*fは目標点Oに対する視差値である。RGB画像内の各ピクセルの視差値は、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を利用して三角測量関係を使用して決定できる。視差マップは、たとえば次の式を使用して、左目Eの画像面と右目Eの画像面のすべてのピクセルに対して取得できる。
Figure 2024062935000006
式(5)において、z(x,y)は、RGB-Dセンサと、RGB画像内のピクセル(x、y)に関連付けられた対応する物体との間の距離を示す。z(x,y)は、RGB-Dセンサによって生成された深度画像から取得できる。式(5)のf(例えば、f=f=f)は、左目Eと右目Eに対する焦点距離である。d(x,y)は視差マップの各要素を示す。いくつかの実装形態では、図3による視差マップの計算は、動作304で実行できる。
図5は、本開示のいくつかの実装形態に従って、一対の立体視画像を生成するための例示的なワークフローである。1つまたは複数のRGB-Dセンサ(例えば、RGB-Dセンサ502)を使用して、RGB-D画像を取得することができる。取得されたRGB-D画像からRGB画像512と深度画像514を取得することができる。深度画像514は、RGB画像512内の対応する物体の距離を示す。例えば、物体516がRGB画像512内に表示され、物体516に対する距離が深度画像514内に示される。いくつかの実装形態では、例えば、図3によれば、RGB-D画像の取得は動作302で実行できる。
全体視差マップ522は、例えば、深度画像514内の距離に基づいてRGB画像512に対して決定することができる。RGB画像512に対する全体視差マップ522内の視差値は、深度画像514内の距離、焦点距離、および瞳孔間距離(例えば、図4の焦点距離f=f=f、瞳孔間距離b)に基づいて計算することができる。RGB画像512に対する全体視差マップ522の視差値は、例えば、深度画像514内の距離、焦点距離、および瞳孔間距離に基づく三角測量関係を有する式(5)を用いて計算することができる。例えば、全体視差マップ522内の物体516に対するいくつかのピクセルは、物体516に対する視差値を示す。いくつかの実装形態において、例えば、図3によれば、全体視差マップ522の決定は、動作304で実行できる。
左視差マップ534は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。右視差マップ536は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。視差分配kに基づいて、全体視差マップ522内の視差値を、ある部分の左視差マップ534と右視差マップ536に割り当てることができる。例えば、視差分配kを使用して左視差マップ534と右視差マップ536を決定できる。前述したように、式(1)および(2)は、視差マップを決定するために使用することができる。いくつかの実装形態では、例えば、図3によれば、左視差マップ534および右視差マップ536の決定は、動作306で実行できる。
一対の立体視画像は、左視差マップ534および右視差マップ536に基づいて生成することができる。左目画像542は、RGB画像532内のピクセルのセットを変換することによって、左視差マップ534に基づいて生成することができる(例えば、RGB画像512)。右目画像544は、RGB画像532内の別のピクセルのセットを変換することによって、右視差マップ536に基づいて生成することができる(例えば、RGB画像512)。左目画像542と右目画像544は、一対の立体視画像である。左目画像542は、RGB画像532内のピクセルのセットを水平にシフトする式(3)を用いて生成することができる。右目画像544は、RGB画像532内のピクセルのセットを水平にシフトするために式(4)を用いて生成することができる。いくつかの実装形態では、例えば、図3によれば、一対の立体視画像の生成は、動作308で実行できる。
左目画像542と右目画像は、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件を満たす左表示画像552および右表示画像554を生成するために、ズームおよびトリミングしてサイズを変更できる。
本明細書で説明される本開示の態様は、機能ブロックコンポーネントおよびさまざまな処理動作の観点から説明することができる。開示されたプロセスおよびシーケンスは、単独で実行することも、任意の組み合わせで実行することもできる。機能ブロックは、指定された機能を実行する任意の数のハードウェアおよび/またはソフトウェアコンポーネントによって実現できる。例えば、記載された態様は、1つまたは複数のマイクロプロセッサまたはその他の制御デバイスの制御下でさまざまな機能を実行可能な、例えば、メモリ素子、処理素子、論理素子、ルックアップテーブルなどの様々な集積回路コンポーネントを使用することができる。同様に、説明された態様の要素がソフトウェアプログラミングまたはソフトウェア要素を使用して実装される場合、本開示は、C、C++、Java、アセンブラなどの任意のプログラミングまたはスクリプト言語を使用して、データ構造、オブジェクト、プロセス、ルーチン、またはその他のプログラミング要素を任意に組み合わせて実装されるさまざまなアルゴリズムを使用して実装できる。機能的な側面は、1つ以上のプロセッサ上で実行されるアルゴリズムで実装できる。さらに、本開示の態様は、電子構成、信号処理および/または制御、データ処理などのための任意の数の従来の技術を使用することができる。「メカニズム」と「要素」という言葉は広く使用されており、機械的または物理的な実装や側面に限定されるものではなく、プロセッサなどと連携するソフトウェアルーチンも含まれ得る。
上記開示の実装または実装の一部は、例えばコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態をとることができる。コンピュータ使用可能またはコンピュータ可読媒体は、例えば、任意のプロセッサによってまたは任意のプロセッサに関連して使用するためのプログラムまたはデータ構造を有形的に含み、記憶し、通信し、または移送できる任意のデバイスであり得る。媒体は、例えば、電子、磁気、光学、電磁、または半導体デバイスであり得る。他の適切な媒体も利用可能である。このようなコンピュータ使用可能またはコンピュータ可読媒体は、非一時的メモリまたは媒体と呼ばれることがあり、時間の経過とともに変化する可能性のあるRAMまたは他の揮発性メモリまたは記憶装置を含むことができる。本明細書に記載される装置のメモリは、特に指定がない限り、装置に物理的に含まれる必要はないが、装置によってリモートにアクセスできるメモリであり、装置内に物理的に含まれ得る他のメモリと連続している必要はない。
本開示の例として実行されるものとして本明細書で説明される個別の機能または組み合わせられた機能のいずれも、前述のハードウェアの任意のまたは任意の組み合わせを動作させるためのコードの形式で機械可読命令を使用して実装することができる。計算コードは、個別の機能または組み合わせた機能を計算ツールとして実行できる。1つまたは複数のモジュールの形式で実装でき、各モジュールの入出力データは、本明細書に記載の方法およびシステムの動作中に1つまたは複数のさらなるモジュールとの間で受け渡される。
情報、データ、および信号は、さまざまな異なる技術および技法を使用して表現することができる。例えば、本明細書で参照される任意のデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または粒子、光場または粒子、他の項目、または前述のものの組み合わせによって表すことができる。
用語「例」は、本明細書では、例、実例、または図示例を提供することを意味するために使用される。本明細書に「例」として記載されるいかなる態様または設計も、必ずしも他の態様または設計よりも好ましいまたは有利であると解釈されるべきではない。むしろ、「例」という言葉の使用は、概念を具体的に示すことを目的としています。さらに、本開示全体を通じて「ある態様」または「一態様」という用語の使用は、そのように記載されない限り、同じ態様または実装を意味することを意図したものではない。
本開示で使用される「または」という用語は、それが結合する2つ以上の要素についての排他的な「または」ではなく、包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにAまたはBが含まれる」は、その自然な包含的置換のいずれかを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、または、XにAとBの両方が含まれる場合、この場合、「XにAまたはBが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにAおよびBのいずれか1つが含まれる」は、「XにAまたはBが含まれる」と同等の意味で使用されることが意図されている。本開示で使用される「および/または」という用語は、「および」または包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにA、B、および/またはCが含まれる」は、XがA、B、およびCの任意の組み合わせを含み得ることを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、XにCが含まれる場合、XにAとBの両方が含まれる場合、XにBとCの両方が含まれまる場合、XにAとCの両方が含まれる場合、または、XにA、B、およびCのすべてが含まれる場合、この場合、「XにA、B、および/またはCが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにA、B、およびCの少なくとも1つが含まれる」は、「XにA、B、および/またはCが含まれる」と同等の意味で使用されることが意図されている。
本明細書における用語「含む」または「有する」およびその変形の使用は、その後に列挙される項目およびその等価物、ならびに追加の項目を包含することを意味する。文脈に応じて、本明細書で使用される「場合」という単語は、「時」、「その間」、または「に応じて」と解釈できる。
本開示を説明する文脈(特に特許請求の範囲の文脈)における用語「a」および「an」および「the」および類似の指示対象の使用は、単数形および複数形の両方を包含すると解釈されるべきである。さらに、本明細書に別段の記載がない限り、本明細書における値の範囲の記載は、その範囲内にあるそれぞれの個別の値を個別に参照する簡単な方法として機能することのみを意図しており、それぞれの個別の値は、あたかも本明細書に個別に記載されているかのように明細書に組み込まれる。最後に、本明細書に記載されているすべての方法の操作は、本明細書に別段の指示があるか、文脈と明らかに矛盾しない限り、任意の適切な順序で実行可能である。本明細書で提供されるあらゆる例、または例が説明されていることを示す文言(例えば、「など」)の使用は、単に本開示をより良く理解することを目的としており、別段の定めがない限り、本開示の範囲に制限を課すものではない。
本明細書では、さまざまな見出しおよび小見出しを付けて説明された。これらは、読みやすさを向上させ、仕様内の資料を検索および参照するプロセスを容易にするために含まれている。これらの見出しおよび小見出しは、特許請求の範囲の解釈に影響を与えたり、その範囲をいかなる形でも制限したりすることを意図したものではなく、使用されるべきではない。本明細書に示され説明される特定の実装は、本開示の例示的な例であり、いかなる形でも本開示の範囲を限定することを意図するものではない。
本明細書に引用される刊行物、特許出願、および特許を含むすべての参考文献は、あたかも各参考文献が個別かつ具体的に参照により組み込まれると示され、その全体が本明細書に記載されるのと同じ程度に、参照により本明細書に組み込まれる。
本開示は、特定の実施形態および実装に関連して説明されているが、本開示は、開示された実装に限定されるものではなく、逆に、含まれる様々な修正および同等の構成を網羅することを意図していることを理解されたい。添付の特許請求の範囲の範囲内で、その範囲には、そのようなすべての修正および同等の配置を包含するように、法律の下で許可される最も広い解釈が与えられるべきである。

Claims (20)

  1. 立体視表示コンテンツを生成する方法であって、
    プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
    前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
    視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、
    前記プロセッサによって、第2のRGB画像および第3のRGB画像を含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む方法。
  2. 前記プロセッサによって、前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成すること、をさらに含む請求項1に記載の方法。
  3. 前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項1に記載の方法。
  4. 前記RGB-D画像は、RGB-Dセンサによってキャプチャされる、請求項1に記載の方法。
  5. 前記深度画像内のピクセルは、前記RGB-Dセンサと前記RGB画像内のキャプチャされる対応する物体との間の距離を示す、請求項4に記載の方法。
  6. 前記第1の視差マップを決定することは、
    前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項5に記載の方法。
  7. 前記視差分配比を使用して前記第1の視差マップを変換することによって前記第2の視差マップを決定することは、次式に基づき、
    Figure 2024062935000007

    前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
    Figure 2024062935000008

    (x,y)は、前記第2の視差マップの前記視差値であり、d(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項6に記載の方法。
  8. 前記第2の視差マップに基づいて、前記第1のRGB画像内の前記第1のピクセルのセットをシフトすることは、次式に基づき、
    Figure 2024062935000009

    前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
    Figure 2024062935000010

    Pixel(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項7に記載の方法。
  9. 立体視表示コンテンツを生成する装置であって、
    非一時的メモリと、
    プロセッサと、を備え、前記非一時的メモリは、
    赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
    前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
    視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
    第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
    を前記プロセッサによって実行可能な命令を含む、装置。
  10. 前記プロセッサによって実行可能な前記命令は、
    前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項9に記載の装置。
  11. 前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項9に記載の装置。
  12. 前記RGB-D画像は、RGB-Dセンサによってキャプチャされる、請求項9に記載の装置。
  13. 前記深度画像内のピクセルは、前記RGB-Dセンサと前記RGB画像内にキャプチャされる対応する物体との間の距離を示す、請求項12に記載の装置。
  14. 前記第1の視差マップを決定することは、
    前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項13に記載の装置。
  15. 前記視差分配比を使用して前記第1の視差マップを変換することによって前記第2の視差マップを決定することは、次式に基づき、
    Figure 2024062935000011

    前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
    Figure 2024062935000012

    (x,y)は、前記第2の視差マップの前記視差値であり、d(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項13に記載の装置。
  16. 前記第2の視差マップに基づいて、前記第1のRGB画像内の前記第1のピクセルのセットをシフトすることは、次式に基づき、
    Figure 2024062935000013

    前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
    Figure 2024062935000014

    Pixel(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項15に記載の装置。
  17. 立体視表示コンテンツを生成するためのコンピュータプログラムを記憶するように構成された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
    赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
    前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
    視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
    プロセッサによって、第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
    を前記プロセッサによって実行可能な命令を含む、非一時的なコンピュータ可読記憶媒体。
  18. 前記プロセッサによって実行可能な前記命令は、
    前記プロセッサによって、前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
  19. 前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
  20. 前記RGB-D画像はRGB-Dセンサによってキャプチャされる、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
JP2023134464A 2022-10-25 2023-08-22 立体視表示コンテンツを生成する方法および装置 Pending JP2024062935A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/973,086 US20240137481A1 (en) 2022-10-24 Method And Apparatus For Generating Stereoscopic Display Contents
US17/973,086 2022-10-25

Publications (1)

Publication Number Publication Date
JP2024062935A true JP2024062935A (ja) 2024-05-10

Family

ID=90971189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023134464A Pending JP2024062935A (ja) 2022-10-25 2023-08-22 立体視表示コンテンツを生成する方法および装置

Country Status (2)

Country Link
JP (1) JP2024062935A (ja)
KR (1) KR20240057994A (ja)

Also Published As

Publication number Publication date
KR20240057994A (ko) 2024-05-03

Similar Documents

Publication Publication Date Title
TWI712918B (zh) 擴增實境的影像展示方法、裝置及設備
CN106101689B (zh) 利用手机单目摄像头对虚拟现实眼镜进行增强现实的方法
Bertel et al. Megaparallax: Casual 360 panoramas with motion parallax
RU2016141397A (ru) Стерео-просмотр
WO2012153447A1 (ja) 画像処理装置、映像処理方法、プログラム、集積回路
TW201206151A (en) Method and system for generating images of a plurality of views for 3D image reconstruction
CN113574863A (zh) 使用深度信息渲染3d图像的方法和系统
JP2017532847A (ja) 立体録画及び再生
CN108616742B (zh) 一种3d全景拍摄系统以及方法
CN104599317A (zh) 一种实现3d扫描建模功能的移动终端及方法
EP3547672A1 (en) Data processing method, device, and apparatus
US9154762B2 (en) Stereoscopic image system utilizing pixel shifting and interpolation
TWI788739B (zh) 3d顯示設備、3d圖像顯示方法
KR102049456B1 (ko) 광 필드 영상을 생성하는 방법 및 장치
WO2018032841A1 (zh) 绘制三维图像的方法及其设备、系统
US9380263B2 (en) Systems and methods for real-time view-synthesis in a multi-camera setup
JP7184748B2 (ja) 場面の積層深度データを生成するための方法
WO2023169283A1 (zh) 双目立体全景图像的生成方法、装置、设备、存储介质和产品
CN107545537A (zh) 一种从稠密点云生成3d全景图片的方法
TWI820246B (zh) 具有像差估計之設備、估計來自廣角影像的像差之方法及電腦程式產品
TWI589150B (zh) 3d自動對焦顯示方法及其系統
Knorr et al. An image-based rendering (ibr) approach for realistic stereo view synthesis of tv broadcast based on structure from motion
JP2011211551A (ja) 画像処理装置および画像処理方法
Knorr et al. From 2D-to stereo-to multi-view video
JP6168597B2 (ja) 情報端末装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240116