JP2024062935A - Method of creating solid vision display content and device of them - Google Patents
Method of creating solid vision display content and device of them Download PDFInfo
- Publication number
- JP2024062935A JP2024062935A JP2023134464A JP2023134464A JP2024062935A JP 2024062935 A JP2024062935 A JP 2024062935A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2024062935 A JP2024062935 A JP 2024062935A
- Authority
- JP
- Japan
- Prior art keywords
- image
- rgb
- disparity
- disparity map
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000007787 solid Substances 0.000 title abstract 4
- 230000015654 memory Effects 0.000 claims description 31
- 230000001131 transforming effect Effects 0.000 claims description 17
- 230000003190 augmentative effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/332—Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/204—Image signal generators using stereoscopic image cameras
- H04N13/207—Image signal generators using stereoscopic image cameras using a single 2D image sensor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/257—Colour aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/271—Image signal generators wherein the generated image signals comprise depth maps or disparity maps
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/324—Colour aspects
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Stereoscopic And Panoramic Photography (AREA)
- Processing Or Creating Images (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Abstract
Description
本開示は立体視に関し、特に立体視表示コンテンツの生成に関する。 This disclosure relates to stereoscopic vision, and in particular to generating stereoscopic display content.
次世代の人間とコンピュータの対話方法としての仮想現実(VR)、拡張現実(AR)、および複合現実(MR)は、非常に没入型で直観的である。最高の没入型のVR、AR、MR視聴体験を提供するには、高品質の立体視画像とビデオを生成することが必要である。 Virtual reality (VR), augmented reality (AR), and mixed reality (MR), as the next generation of human-computer interaction methods, are highly immersive and intuitive. Producing high-quality stereoscopic images and videos is necessary to provide the best immersive VR, AR, and MR viewing experience.
現在、3次元深度の知覚は、2台以上のカメラを使用して各目にわずかに異なる2つの画像を生成することによって実現することができる。しかしながら、これは複雑でコンピューティング集約的なプロセスになる可能性がある。さらに、正確な深度情報がなければ、生成されたVR、AR、およびMR環境は人々に良好な視聴体験を提供できない。 Currently, the perception of three-dimensional depth can be achieved by using two or more cameras to generate two slightly different images for each eye. However, this can be a complex and computationally intensive process. Furthermore, without accurate depth information, the generated VR, AR, and MR environments cannot provide people with a good viewing experience.
本明細書では、立体視表示コンテンツを生成するための方法、装置、およびシステムの実装形態を開示する。 This specification discloses implementations of methods, devices, and systems for generating stereoscopic display content.
一態様においては、立体視表示コンテンツを生成する方法が開示されている。この方法は、プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、プロセッサによって、第2のRGB画像および第3のRGB画像を含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む。 In one aspect, a method of generating stereoscopic display content is disclosed. The method includes using a processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images; determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generating, by the processor, a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.
他の態様においては、立体視表示コンテンツを生成する装置が開示されている。この装置は、非一時的メモリと、プロセッサと、を備え、非一時的メモリは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立視体画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。 In another aspect, an apparatus for generating stereoscopic display content is disclosed. The apparatus includes a non-transitory memory and a processor, the non-transitory memory including instructions executable by the processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determine a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that is transformed into a pair of stereoscopic images; determine a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generate a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.
他の態様においては、立体視表示コンテンツを生成するためのコンピュータプログラムを記憶するように構成された非一時的なコンピュータ可読記憶媒体が開示されている。このコンピュータプログラムは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配率を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、プロセッサによって、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。 In another aspect, a non-transitory computer-readable storage medium configured to store a computer program for generating stereoscopic display content is disclosed. The computer program includes instructions executable by a processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determine a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images; determine a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generate, by the processor, a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.
本開示は、添付の図面と併せて読めば、以下の詳細な説明から最もよく理解される。一般的な慣例によれば、図面のさまざまな特徴は縮尺どおりではないことを強調しておく。逆に、さまざまな機能の寸法は、明確にするために任意に拡大または縮小されている。 The present disclosure is best understood from the following detailed description when read in conjunction with the accompanying drawings. It is emphasized that, according to common practice, the various features of the drawings are not drawn to scale. Conversely, dimensions of various features have been arbitrarily expanded or reduced for clarity.
詳細な説明
仮想現実(VR)、拡張現実(AR)、および複合現実(MR)技術は、例えば、仮想観光および旅行、デジタル仮想エンターテイメント(例えば、VRゲームおよびVR映画など)、仮想トレーニングと教育、VR露出療法などのいくつかの応用分野で開発されている。一方で、VRヘッドセット、VRヘルメット、AR/MRアプリやメガネなどのVR/AR/MR装置は、人々が参加できる3D没入型環境をシミュレートするために使用されている。VR/AR/MRヘッドセットを装着したユーザーが頭を動かすと、シミュレートされた3D環境がユーザーの動きに従い、ユーザーの前に表示される。
DETAILED DESCRIPTION Virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies have been developed in several application areas, such as virtual tourism and travel, digital virtual entertainment (e.g., VR games and VR movies), virtual training and education, VR exposure therapy, etc. Meanwhile, VR/AR/MR devices, such as VR headsets, VR helmets, AR/MR apps and glasses, are used to simulate 3D immersive environments in which people can participate. When a user wearing a VR/AR/MR headset moves his/her head, the simulated 3D environment follows the user's movements and is displayed in front of the user.
シミュレータされた3D没入環境は、両眼視によって実現することができる。人間の左目と右目では、わずかに異なる視点から物体が見える。観察されたさまざまな2次元(2D)画像は脳によって処理され、3D深度の知覚が生成される。両眼視に基づいて、VR/AR/MRの立体視は、(たとえば、左目に対する1つの画像と右目に対する1つの画像のような)2つの2D画像をそれぞれ左目と右目の入力として使用することによって生成される。2つの2D画像は、同じシーンに対して2台のカメラによって異なる視点から取得される。従来、仮想現実(VR)/拡張現実(AR)/複合現実(MR)ヘルメット/メガネに使用される立体視画像ペア(例えば、左目に対する1つの画像と右目に対する1つの画像)は、逆整流プロセスを使用して生成される。2D画像は距離/深度情報が含まれていないため、このような処理により生成される3DのVR/AR/MR表示コンテンツは、不正確な距離推定により違和感や3Dめまいを引き起こす可能性がある。 A simulated 3D immersive environment can be achieved by binocular vision. The left and right eyes of a human see objects from slightly different perspectives. The various observed two-dimensional (2D) images are processed by the brain to generate the perception of 3D depth. Based on binocular vision, VR/AR/MR stereoscopic vision is generated by using two 2D images (e.g., one image for the left eye and one image for the right eye) as inputs for the left and right eyes, respectively. The two 2D images are acquired from different perspectives by two cameras for the same scene. Traditionally, stereoscopic image pairs (e.g., one image for the left eye and one image for the right eye) used in virtual reality (VR)/augmented reality (AR)/mixed reality (MR) helmets/glasses are generated using an inverse rectification process. Because the 2D images do not contain distance/depth information, the 3D VR/AR/MR display content generated by such processing may cause discomfort and 3D dizziness due to inaccurate distance estimation.
本開示の実装形態によれば、方法は、RGB-Dセンサから記録された正確な距離/深度情報を有する3次元の赤緑青プラス距離(RGB-D)画像を使用して、VR/AR/MRの3D表示コンテンツを生成するために使用される。RGB-Dセンサは、例えば、RGB-Dセンサは、構造化された光ベースのRGB-Dセンサ、アクティブ/パッシブの立体視ベースのRGB-Dセンサ、飛行時間型RGB-Dセンサ、またはそれらの任意の組み合わせなどを含むことができる。従来の赤緑青(RGB)画像はx座標とy座標の関数であり、2D画像内のRGBカラー値の分布のみを表す。たとえば、(x,y)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1)と表すことができ、これは画像上のxおよびy座標にある黒いピクセルを表示する。RGB-Dセンサから記録されたRGB-D画像は、RGB画像の各ピクセルに追加の深度情報を提供する。たとえば、(x,y,z)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1,z)と表すことができ、これは画像上のxおよびy座標にありz単位距離(たとえばミリメートル)離れたところにある黒いピクセルを表示する。 According to an implementation of the present disclosure, a method is used to generate 3D display content for VR/AR/MR using three-dimensional red-green-blue plus distance (RGB-D) images with accurate distance/depth information recorded from an RGB-D sensor. The RGB-D sensor can include, for example, a structured light-based RGB-D sensor, an active/passive stereo vision-based RGB-D sensor, a time-of-flight RGB-D sensor, or any combination thereof. A conventional red-green-blue (RGB) image is a function of x and y coordinates and represents only the distribution of RGB color values in a 2D image. For example, a pixel at (x,y) coordinates with display colors red=1, green=1, and blue=1 can be represented as Pixel(x,y)=(1,1,1), which displays a black pixel at x and y coordinates on the image. The RGB-D image recorded from the RGB-D sensor provides additional depth information for each pixel of the RGB image. For example, a pixel at (x,y,z) coordinates with display colors Red=1, Green=1, Blue=1 can be represented as Pixel(x,y)=(1,1,1,z), which displays a black pixel at the x and y coordinates on the image, one z unit distance away (e.g., millimeters).
本開示の実装形態によれば、立体視表示コンテンツを生成するために、RGB-Dセンサを使用してRGB-D画像を生成することができる。RGB-D画像に基づいて、対応するRGB画像と深度画像を取得できる。深度画像は、RGB画像内のピクセルに対応する物体の距離情報を示す。三角測量関係に基づいて、RGB画像内の各ピクセルの距離、焦点距離、瞳孔間距離を使用して、RGB画像に対する全体視差マップを生成できる。全体視差マップは2Dマトリックスであり、各要素はRGB画像内のピクセルの視差値を示す。左視差マップは、視差分配比kと全体視差マップとにより決定することができる。右視差マップは、視差分配比kと全体視差マップにより決定することができる。したがって、左視差マップと右視差マップに基づいてRGB画像から一対の立体視画像を生成することができる。一対の立体視画像は、左目画像と右目画像とを含む。拡張現実(AR)、仮想現実(VR)、または複合現実(MR)のデバイスの表示要件に従って、左目画像と右目画像をズーム、トリミング、またはサイズ変更して、左表示画像と右表示画像を生成できる。 According to an implementation of the present disclosure, an RGB-D image can be generated using an RGB-D sensor to generate stereoscopic display content. Based on the RGB-D image, a corresponding RGB image and a depth image can be obtained. The depth image indicates distance information of an object corresponding to a pixel in the RGB image. Based on the triangulation relationship, a global disparity map can be generated for the RGB image using the distance, focal length, and interpupillary distance of each pixel in the RGB image. The global disparity map is a 2D matrix, and each element indicates the disparity value of a pixel in the RGB image. The left disparity map can be determined by the disparity distribution ratio k and the global disparity map. The right disparity map can be determined by the disparity distribution ratio k and the global disparity map. Thus, a pair of stereoscopic images can be generated from the RGB image based on the left disparity map and the right disparity map. The pair of stereoscopic images includes a left eye image and a right eye image. The left and right eye images can be zoomed, cropped, or resized to generate left and right view images according to the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.
本開示の応用および実装形態は例に限定されず、本開示の実装形態の代替、変形、または修正は、任意の計算環境に対して達成できることに留意されたい。開示された方法、装置、およびシステムの詳細は、システムおよびコーディング構造の概要の後で以下に説明される。開示された方法およびサーバーの詳細は以下に説明される。 It should be noted that the application and implementation of the present disclosure is not limited to the examples, and alternatives, variations, or modifications of the implementation of the present disclosure can be achieved for any computing environment. Details of the disclosed method, apparatus, and system are described below after an overview of the system and coding structure. Details of the disclosed method and server are described below.
図1は、本開示の実装形態によるコンピューティングおよび通信のための装置100の内部コンポーネントを示す例示的なブロック図である。図1に示すように、コンピューティングおよび通信のための装置100は、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことができる。バス102は、内部信号を分配するために使用することができる。バス102は、1つまたは複数のバス(アドレスバス、データバス、またはそれらの組み合わせなど)であるかもしれないことを表している。この装置は、赤緑青プラス距離(RGB-D)カメラ、ブリッジカメラ、フィルムカメラ、スマートフォンカメラ、魚眼カメラ、マイクロコンピュータ、メインフレームコンピュータ、汎用コンピュータ、データベースコンピュータ、特定用途/専用コンピュータ、リモートサーバーコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、携帯電話、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGA(フィールドプログラマブルゲートアレイ)チップ、SoC(システムオンチップ)チップ、クラウドコンピューティングデバイス/サービス、またはウェアラブルコンピューティングデバイスなどの1つまたは複数のコンピューティングデバイスの任意の構成によって実装できる。いくつかの実装形態では、異なる装置は、異なる地理的位置にあり、ネットワークなどを介して互いに通信できる複数のグループのRGB-Dカメラの形態で実装することができる。いくつかの実装形態では、異なる装置は異なる動作で構成される。いくつかの実装形態では、コンピューティングおよび通信のための装置は、本明細書に記載される方法およびシステムの1つまたは複数の態様を実行することができる。例えば、特殊チップを含むRGB-Dカメラ内の特定目的プロセッサを使用して、本明細書に記載の方法およびシステムの1つまたは複数の態様または要素を実装することができる。
1 is an exemplary block diagram illustrating internal components of an
図1は、コンピューティングおよび通信のための装置100が、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことを示す。いくつかの実装形態では、コンピューティングおよび通信のための装置100は、任意の数のメモリユニット、プロセッサユニット、通信ユニット、入出力(I/O)コンポーネント、センサユニット、電源ユニット、およびバスユニットを含むことができる。
1 shows that the
メモリ104には、二次または永続的な長期記憶など、プログラムコードおよび/またはデータを長期間記憶する非一時的なコンピュータ可読媒体が含まれるが、これに限定されない。メモリ104は、データの取得、データの保存、またはその両方を行うことができる。ここでのメモリ104は、読み取り専用メモリ(ROM)デバイス、ハードドライブ、ランダムアクセスメモリ(RAM)、フラッシュドライブ、SSD(ソリッドステートドライブ)、EMMC(埋め込み型マルチメディアカード)、光/磁気ディスク、セキュリティデジタル(SD)カード、または適切なタイプのストレージデバイスの任意の組み合わせであり得る。
プロセッサ106は、メモリ104、通信ユニット108、I/Oコンポーネント110、センサ112、またはそれらの組み合わせから受信できる情報を操作または処理するために使用することができる。いくつかの実装形態では、プロセッサ106は、デジタル信号プロセッサ(DSP)、中央プロセッサ(例えば、中央処理装置またはCPU)、特定用途向け命令セットプロセッサ(ASIP)、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGAチップ(フィールドプログラマブルゲートアレイ)、SoC(システムオンチップ)チップ、クラウドコンピューティングサービス、グラフィックスプロセッサ(GPUのグラフィックス処理装置)を含むことができる。プロセッサ106は、バス102を介してメモリ104に格納されたコンピュータ命令にアクセスすることができる。いくつかの実装形態では、1つまたは複数のプロセッサを使用して、ここで説明する方法およびシステムの1つまたは複数の態様を実行するためのコンピュータ命令を実行または処理することを含むデータ処理を高速化することができる。プロセッサ106からの出力データは、バス102を介してメモリ104、通信ユニット108、I/Oコンポーネント110、センサ112に分配することができる。プロセッサ106は、1つまたは複数の構成されたまたは埋め込まれた動作を実行するために、コンピューティングおよび通信のために装置100を制御するように動作可能な任意のタイプのデバイスまたは複数のデバイスであり得る。
The
プロセッサ106およびメモリ104に加えて、装置100はセンサ112を含むことができる。例えば、装置100の動作環境の1つまたは複数の条件は、センサ112によって検出、キャプチャ、または決定することができる。いくつかの実装形態では、センサ112は、1つ以上の電荷結合素子(CCD)、アクティブピクセルセンサ(CMOSセンサ)、または他の可視光もしくは非可視光の検出およびキャプチャユニットを含むことができる。コンピューティングおよび通信のための装置100の動作環境の感知された側面についてキャプチャされたデータは、センサ112からメモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、供給電源114、およびバス102に送信することができる。いくつかの実装形態では、例えば、ライダーユニット、マイクロホン、RGB-D感知デバイス、超音波ユニット、または圧力センサなどの複数のセンサを装置100に含めることができる。上述のセンサは、コンピューティングおよび通信のための装置100の動作環境の1つまたは複数の状態をキャプチャ、検出、または決定することができる。
In addition to the
プロセッサ106およびメモリ104に加えて、装置100は、I/Oコンポーネント110を含むことができる。I/Oコンポーネント110は、ユーザー入力を受信することができる。I/Oコンポーネント110は、ユーザー入力をバス102、供給電源114、メモリ104、通信ユニット108、センサ112、プロセッサ106、またはそれらの組み合わせに送信することができる。I/Oコンポーネント110は、視覚的出力または表示出力を個人に提供することができる。いくつかの実装形態では、I/Oコンポーネント110は、信号および/またはデータを送信するための通信デバイスから形成することができる。
In addition to the
プロセッサ106およびメモリ104に加えて、装置100は通信ユニット108を含むことができる。装置100は、通信ユニット108を使用して、セルラーデータネットワーク、ワイドエリアネットワーク(WAN)、仮想プライベートネットワーク(VPN)、またはインターネットなどの1つまたは複数の通信ネットワークを介して有線または無線通信プロトコルを使用して別のデバイスと通信することができる。
In addition to the
プロセッサ106およびメモリ104に加えて、装置100は供給電源114を含むことができる。供給電源114は、バス102、メモリ104、メモリ104などの装置100内の他のコンポーネントに電力を供給することができる。いくつかの実装形態では、供給電源114は、充電式電池などの電池であり得る。いくつかの実装形態では、供給電源114は、外部電源からエネルギーを受け取ることができる電力入力接続を含むことができる。
In addition to the
プロセッサ106およびメモリ104に加えて、装置100はバス102を含むことができる。供給電源114からの電力信号および内部データ信号は、バス102を介してメモリ104、通信ユニット108、センサ112、プロセッサ106、I/Oコンポーネント110、および供給電源114に分配することができる。
In addition to the
立体視表示コンテンツを生成するための装置およびシステムの部分または構成要素は、図1に示されるものに限定されない要素を含むことができることに留意されたい。本開示の範囲から逸脱することなく、立体視表示コンテンツを生成するための装置およびシステムは、立体視表示コンテンツの生成に加えてまたはそれに関連する様々な機能を実行するための、より多くのまたはより少ない部品、構成要素、およびハードウェアまたはソフトウェアモジュールを含むことができる。 It should be noted that the portions or components of the apparatus and systems for generating stereoscopic display content may include elements not limited to those shown in FIG. 1. Without departing from the scope of this disclosure, the apparatus and systems for generating stereoscopic display content may include more or fewer parts, components, and hardware or software modules for performing various functions in addition to or related to generating stereoscopic display content.
図2は、両眼立体視原理を説明するための例示的な図200を示す。図200は、左画像230、右画像240、左光学中心O’(0,0)、右光学中心O’’(0,0)、左焦点L=(XL,YL,ZL)、右焦点R=(XR,YR,ZR)、目標点P=(XC、YC、ZC)を含む。左光学中心O’は、左画像230の中心にあるピクセル点である。右光学中心O’’は、右画像240の中心にある別のピクセル点である。左光学中心O’に対するピクセル座標は、左画像230内の(0,0)である。右光学中心O’’に対するピクセル座標は、右画像240内の(0,0)である。世界座標点(例えば、3D点)としての目標点Pは、左焦点Lを介して左画像230内の2D座標点P’=(Xleft,Y)として変換および投影することができる。右焦点Rを介して、目標点Pを右画像240内の別の2D座標点P’’=(Xright,Y)として変換および投影することができる。左焦点Lと右焦点Rとの間の距離がベースラインbである。
2 shows an exemplary diagram 200 for explaining the binocular stereoscopic principle. The diagram 200 includes a
2D座標点P’および2D座標点P’’は、同じ目標点Pに対して、それぞれ左画像230および右画像240内に投影された2つの点である。左画像230および右画像240内のP’とP’’の水平座標の差(例えば、視差:d=Xleft-Xright)は、目標点Pと2つの焦点(例えば、左焦点Lと右焦点R)との間の距離を評価するために使用することができる。いくつかの実装形態では、目標点Pは、3D物体内の3D世界座標点である。3D物体内の各3D世界座標点は、左画像230と右画像240の内の両方に投影することができる。3D物体の対応するピクセルを見つけて、左画像230と右画像240との間で照合することができる。各ピクセルの視差(たとえば、目標点Pに対する視差:d=Xleft-Xright)を計算でき、計算された視差に基づいて、3D物体に対する視差マップを生成できる。視差マップを使用して世界座標系の3D物体を再構築できる。
The 2D coordinate point P′ and the 2D coordinate point P″ are two projected points in the
いくつかの実装形態では、人間の左目は、左焦点Lとすることができる。人間の右目は、右焦点Rとすることができる。人間の左目と右目は、周囲の世界のわずかに異なる視野を有する。その場合、ベースラインbは、左目と右目の間の瞳孔間距離(例えば、50~75mm)である。目標点Pは、人間が観察する任意の世界座標点にすることができる。目標点Pは、人間の左目画像と右目画像の両方に投影することができる。左目画像と右目画像との間の対応するピクセルの視差を利用して、目標点Pと人間との間の距離を計算することができる。その場合、人間の脳によって、一対の立体視画像として左目画像と右目画像が使用されて、周囲の世界に対する立体視を生成することができる。 In some implementations, the human's left eye can be the left focal point L. The human's right eye can be the right focal point R. The human's left and right eyes have slightly different views of the surrounding world. In that case, the baseline b is the interpupillary distance between the left and right eyes (e.g., 50-75 mm). The target point P can be any world coordinate point observed by the human. The target point P can be projected onto both the human's left and right eye images. The disparity of corresponding pixels between the left and right eye images can be used to calculate the distance between the target point P and the human. The left and right eye images can then be used by the human's brain as a pair of stereoscopic images to generate a stereoscopic view of the surrounding world.
いくつかの実装形態では、異なる位置にある2つのカメラ(例えば、左カメラと右カメラ)は、同じ3D物体に対して異なる2Dピクセルを含む左画像230と右画像240を生成することができる。左カメラの焦点は、左焦点Lとすることができる。右カメラの焦点は右焦点Rとすることができる。左カメラと右カメラの2つの焦点の間の距離をベースラインbとすることができる。場合によっては、左カメラと右カメラが水平に配置されていない場合、左画像230と右画像240の両方のすべてのピクセルに対する視差マップを正しく示すように、左画像230と右画像240を校正することができる。左画像230および右画像240に対する視差マップを使用して、左カメラおよび右カメラによってキャプチャされた3D環境を再構成するために各ピクセルの深度情報を生成することができる。
In some implementations, two cameras (e.g., left and right cameras) at different positions can generate
いくつかの実装形態では、2つまたはそれ以上の画像センサを備えたステレオカメラを使用して、同じ3D物体に対して異なる2Dピクセルを含む左画像230および右画像240を生成することができる。たとえば、ステレオカメラが2つのイメージセンサ(たとえば、左画像センサと右画像センサ)を含む場合、ステレオカメラを使用して、深度情報を持つ3D物体を再構成できる。左画像センサを使用して、左画像230を生成することができる。右画像センサを使用して、右画像240を生成することができる。左画像センサと右画像センサとの間の水平距離は、ベースラインbとすることができる。視差マップは、周囲の世界のわずかに異なる視野を表す左画像230と右画像240に基づいて計算することができる。
In some implementations, a stereo camera with two or more image sensors can be used to generate
一般に、両眼立体視の実現は、視差(パララックス)(例えば、視差(ディスパリティ))の原理に基づいてなされる。例えば、図2では、2つの画像(例えば、左画像230と右画像240)が行に整列されており、これは、左画像230と右画像240が同じ平面内にあることを意味する。目標点Pは、左画像230と右画像240にそれぞれ異なるピクセル座標で投影することができる。ピクセル座標の差(例えば、視差:d=Xleft-Xright)を使用して、目標点Pと2つの画像(例えば、左画像230と右画像240)との間の距離を計算することができる。計算された距離情報は、世界中の3D物体を再構成するために使用できる。
In general, binocular stereoscopic vision is realized based on the principle of parallax (e.g., disparity). For example, in FIG. 2, two images (e.g.,
図3は、本開示のいくつかの実装形態に従って立体視表示コンテンツを生成するための例示的なプロセス300のフローチャートである。プロセス300は、図1の装置100内のソフトウェアおよび/またはハードウェアモジュールとして実装することができる。例えば、プロセス300は、図1の装置100などのカメラのプロセッサ106によって実行可能な命令および/またはデータとしてメモリ104に格納されたソフトウェアモジュールとして実装することができる。別の例では、プロセス300は、特殊チップにより実行可能な命令を記憶する特殊チップとしてハードウェアで実装することができる。プロセス300の動作の一部またはすべては、図4に関連して以下に説明するような視差マップを使用して実装することができる。上述のように、本明細書に記載される開示の態様のすべてまたは一部は、ここに記載されている実行されるとそれぞれの技術、アルゴリズム、および/または指示のいずれかを実行するコンピュータプログラムを備えた汎用コンピュータ/プロセッサを使用して実装することができる。追加的にまたは代替的に、例えば、本明細書に記載の技術、アルゴリズム、または命令のいずれかを実行するための特殊なハードウェアを含み得る専用コンピュータ/プロセッサを利用することができる。
3 is a flow chart of an
動作302では、第1の赤緑青(RGB)画像および深度画像が、プロセッサを使用して赤緑青プラス距離(RGB-D)画像から取得することができる。例えば、プロセッサは、図1のプロセッサ106であってもよい。場合によっては、図1の装置100のセンサ112は、装置100の動作環境においてRGB-D画像を取得するために使用することができる。RGB-D画像は、バス102を介してプロセッサ106に送信され、RGB画像および深度画像を取得することができる。深度画像は、RGB画像内の対応する物体(または複数の対応する物体)の距離情報を示す。
In
一例として図5を用いて、RGB-D画像は、RGB-Dセンサ502によって取得することができる。RGB-D画像は、任意の技術によって処理して、RGB画像512および深度画像514を取得することができる。いくつかの実装形態では、RGB-D画像はRGB-Dセンサによってキャプチャできる。例えば、RGB-Dセンサは、図1のセンサ112とすることができる。RGB画像512は、例えば、人間、動物、ソファ、机、および他の物体などの様々な物体を含むことができる。深度画像514では、図5では異なる距離を示すために異なる影付きが使用されており、より濃い色合いは距離がより近いことを示す。深度画像514は、RGB画像512内の対応する物体の距離を示す。
Using FIG. 5 as an example, the RGB-D image can be acquired by an RGB-
いくつかの実装形態では、深度画像内のピクセルは、RGB-DセンサとRGB-D画像内のキャプチャされた対応する物体との間の距離を示す。たとえば、RGB-D画像内のピクセルは深度画像内のピクセルに対応することができる。RGB-D画像内のピクセルは、物体に属する点を示している。深度画像内の同じ位置にある対応するピクセルは、対応する物体とRGB-Dセンサとの間の距離を示すことができる。 In some implementations, a pixel in the depth image indicates the distance between the RGB-D sensor and a corresponding object captured in the RGB-D image. For example, a pixel in the RGB-D image can correspond to a pixel in the depth image. The pixel in the RGB-D image indicates a point that belongs to an object. A corresponding pixel at the same location in the depth image can indicate the distance between the corresponding object and the RGB-D sensor.
図5の例において、深度画像514内のピクセルは、RGB-Dセンサ502と、RGB画像512内でキャプチャされた対応する物体との間の距離を示す。対応する物体には、例えば、物体516(例えば、おもちゃのクマ)が含まれ得る。RGB画像512内の各ピクセルは、物体(例えば、物体516)に関連付けることができる。RGB画像512内の各ピクセルに対する深度画像514内の対応するピクセルは、RGB-Dセンサ502と対応する物体との間の距離を示す。
5, pixels in
図3に戻ると、動作304において、RGB-D画像に基づく第1の視差マップは、深度画像内の深度値に基づいて決定することができ、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含む。いくつかの場合では、第1の視差マップは、第1のRGB画像に対する複数の視差値を含み、第1のRGB画像の中での視差値は一対の立体視画像を生成するために使用することができる。
Returning to FIG. 3, in
各ピクセルの視差値は、例として図4を使用して深度画像内の深度値に基づいて決定することができる。図4は、本開示のいくつかの実装形態による人間の左目と右目の視差値を決定する一例を示す図である。例えば、図4において、目標点Oの距離は距離Zであり、目標点Oに対する視差値はf*b/Zであり、ただし、fは焦点距離、bは左目E1と右目E2との間の瞳孔間距離であり、Zは目標点OとRGB-Dセンサ間の距離である。図4の三角測量関係から、第1のRGB画像内の各ピクセルについて、対応する視差値を決定することができる(例えば、f*b/Z)。一般に、三角測量関係に基づいて、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を使用して、第1のRGB画像(たとえば、RGB画像)内の各ピクセルの視差値を決定することができる。図4によれば、第1の視差マップ内の視差値は、例えば、以下に説明する式(5)を使用して決定することができる。 The disparity value of each pixel can be determined based on the depth value in the depth image using FIG. 4 as an example. FIG. 4 is a diagram illustrating an example of determining disparity values for the left and right eyes of a human according to some implementations of the present disclosure. For example, in FIG. 4, the distance of the target point O is distance Z, and the disparity value for the target point O is f*b/Z, where f is the focal length, b is the interpupillary distance between the left eye E1 and the right eye E2 , and Z is the distance between the target point O and the RGB-D sensor. From the triangulation relationship in FIG. 4, for each pixel in the first RGB image, a corresponding disparity value can be determined (e.g., f*b/Z). In general, based on the triangulation relationship, the depth value, focal length, and interpupillary distance of each pixel in the depth image can be used to determine the disparity value of each pixel in the first RGB image (e.g., RGB image). According to FIG. 4, the disparity value in the first disparity map can be determined, for example, using Equation (5) described below.
図5の例では、RGB-D画像は、RGB-Dセンサ502によって取得することができる。深度画像514内のピクセルは、RGB画像512内の対応する物体とRGB-Dセンサとの間の距離(すなわち、深度)を示す。例えば、RGB画像512内の物体516に対する距離は、深度画像514内に表示される。深度画像514内の各ピクセルの深度に基づいて、RGB画像512に対する全体視差マップ522を決定することができる。いくつかの実装形態では、全体視差マップ522は、左目と右目の間の瞳孔間距離、各ピクセルの深度値、およびRGB-Dセンサの焦点距離を使用して決定することができる。例えば、全体視差マップ522は、以下に説明するように、式(5)を使用して決定することができる。例えば、物体516は、グレースケールで表される視差値として図5の全体視差マップ522に示されている。そして以下に説明するように、全体視差マップ522を使用して、RGB画像を一対の立体視画像(例えば、左目画像542および右目画像544)に変換することができる。
In the example of FIG. 5, an RGB-D image can be acquired by an RGB-
いくつかの実装形態では、第1の視差マップは2次元(2D)マトリックスであり、各要素が視差値を示す。一例として図5を使用すると、第1の視差マップ(例えば、全体視差マップ522)は、深度画像514およびRGB画像512に基づいて決定することができる。全体視差マップ522は2Dマトリックスであってもよく、各要素がRGB画像512内のピクセルの視差値を示す。
In some implementations, the first disparity map is a two-dimensional (2D) matrix, with each element indicating a disparity value. Using FIG. 5 as an example, the first disparity map (e.g., global disparity map 522) can be determined based on the
いくつかの実装形態では、第1の視差マップは、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用して決定することができる。一例として図4を使用すれば、焦点距離f、左目E1と右目E2の間の瞳孔間距離b、および距離Zに基づいて、目標点Oに対する第1の視差マップ内の視差値(例えば、f*(b/(z(x,y))))を決定することができる。例えば、視差値は、以下に説明する式(5)を使用して決定することができる。 In some implementations, the first disparity map can be determined using at least one of the focal length f or the interpupillary distance b. Using FIG. 4 as an example, a disparity value (e.g., f*(b/(z(x,y)))) in the first disparity map for the target point O can be determined based on the focal length f, the interpupillary distance b between the left eye E1 and the right eye E2, and the distance Z. For example, the disparity value can be determined using equation (5) described below.
図5の例では、RGB画像512内のピクセルは、深度画像514内の距離に関連付けられる。焦点距離fまたは瞳孔間距離bは、公開データから事前に定義することも、手動入力によって設定することもできる。焦点距離fおよび距離を備える瞳孔間距離bを使用して、RGB画像512に対する全体視差マップ522を決定することができる。
In the example of FIG. 5, pixels in the
図3に戻ると、動作306において、視差分配比を用いて第1の視差マップを変換することにより、第2の視差マップおよび第3の視差マップを決定することができる。言い換えれば、第2の視差マップと第3の視差マップは、視差分配比を用いて同じ元の視差マップに基づいて決定することができる。いくつかの実装形態では、第1の視差マップは、例えば式(1)を使用して第2の視差マップに変換され、視差分配比kに基づいて、例えば下記の式(2)を使用して第3の視差マップに変換することができる。
いくつかの実装形態では、第2の視差マップおよび第3の視差マップは、式(1)および(2)を使用せずに他の方法で第1の視差マップから決定することができる。例えば、第2の視差マップおよび第3の視差マップは、視差分配比kに加えてオフセットを用いて決定することができる。 In some implementations, the second and third disparity maps can be determined from the first disparity map in other ways without using equations (1) and (2). For example, the second and third disparity maps can be determined using an offset in addition to the disparity distribution ratio k.
第1のパリティマップに対する視差値d(x,y)は、例えば、下記の式(5)を使用して決定することができる。この式において、fは焦点距離、bは左目と右目の間の瞳孔間距離である。 The disparity value d(x,y) for the first parity map can be determined, for example, using equation (5) below, where f is the focal length and b is the interpupillary distance between the left and right eyes.
一例として図4を用いて、目標点Oに対する第1のパリティマップでの視差値d(x,y)は、焦点距離f(例えば、f=f1=f2)、瞳孔間距離b、および距離Zに基づいて決定することができる。視差分配比kに基づいて、目標点Oに対して、第2のパリティマップの視差値dL(x,y)と第3のパリティマップの視差値dR(x,y)とは、式(1)および(2)を用いて、上述したように決定できる。 4 as an example, the disparity value d(x,y) in the first parity map for the target point O can be determined based on the focal length f (e.g., f= f1 = f2 ), the interpupillary distance b, and the distance Z. Based on the disparity distribution ratio k, the disparity value dL (x,y) in the second parity map and the disparity value dR (x,y) in the third parity map for the target point O can be determined as described above using equations (1) and (2).
図5の例では、RGB画像512および深度画像514に基づいて、全体視差マップ522を決定することができる。視差分配比kに基づいて、左視差マップ534および右視差マップ536は、それぞれ以下に説明する式(3)および(4)を使用して決定することができる。左視差マップ534および右視差マップ536を使用して、RGB画像を一対の立体視画像に変換することができる。
In the example of FIG. 5, a
図3に戻ると、動作308で、第2のRGB画像および第3のRGB画像を含む一対の立体視画像をプロセッサによって生成することができる。第2のRGB画像は、第2の視差マップに基づいて、第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成される。第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成される。
Returning to FIG. 3, at
第2の視差マップおよび第3の視差マップ内の視差値を使用して、第1のRGB画像内のピクセルを左または右に水平にシフトして、第2のRGB画像および第3のRGB画像を生成することができる。いくつかの実装形態では、プロセッサ(例えば、プロセッサ106)は、式(3)を使用して第2の視差マップ(例えば、図5の左視差マップ534)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第1のピクセルのセットをシフトすることによって、第2のRGB画像(例えば、図5の右視差マップ536)を生成することができる。プロセッサは、式(4)を使用して第3の視差マップ(例えば、図5の右視差マップ536)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第2のピクセルのセットをシフトすることによって、第3のRGB画像(例えば、図5の右目画像544)を生成することができる。
式(3)および(4)において、PixelL(x,y)は第2のRGB画像内のピクセル(x,y)であり、PixelR(x,y)は第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))はピクセル(x,y)に対するRGBカラーであり、式(1)のdL(x,y)を参照するdLは第2の視差マップにおける視差値を示し、dR(x,y)を参照するdRは、第3の視差マップにおける視差値を示す。 In equations (3) and (4), Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y), dL referring to dL (x,y) in equation (1) indicates the disparity value in the second disparity map, and dR referring to dR (x,y) indicates the disparity value in the third disparity map.
いくつかの実装形態では、第2の視差マップおよび第3の視差マップ内の視差値は、式(3)および(4)を使用せずに他の方法で決定することができる。いくつかの実装形態では、視差値を決定するために、上述の水平方向のシフトに加えて、例えば、追加の1つのピクセルまたは追加の複数のピクセルを上部または下部に追加できる。いくつかの実装形態では、水平方向のシフトに加えて、追加のピクセル(複数可)を左または右に追加することができる。 In some implementations, the disparity values in the second and third disparity maps can be determined in other ways without using equations (3) and (4). In some implementations, in addition to the horizontal shift described above, for example, an additional pixel or additional pixels can be added to the top or bottom to determine the disparity values. In some implementations, in addition to the horizontal shift, additional pixel(s) can be added to the left or right.
一例として図5を用いると、RGB画像532は、第1のRGB画像であり得る。左視差マップ534は、第2の視差マップであり得る。右視差マップ536は、第3の視差マップであり得る。左視差マップ534および右視差マップ536は、上述のように、視差分配比kに基づいて全体視差マップ522を変換することによって決定することができる。左視差マップ534に基づいて、RGB画像532内の第1のピクセルのセットを変換することによって、左目画像542を生成することができる。例えば、式(3)を左視差マップ534とともに使用して、左目画像542を生成することができる。式(4)を右視差マップ536とともに使用して、右目画像544を生成することができる。左目画像542および右目画像544は、一対の立体視画像であり得る。
5 as an example,
いくつかの実装形態では、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された一対の調整された表示画像が、一対の立体視画像に基づいて、プロセッサ(例えば、プロセッサ106)によって生成することができる。一例として図5を用いると、一対の立体視画像は、左目画像542と右目画像544を含む。拡張現実(AR)、仮想現実(VR)、複合現実(MR)装置の表示要件に合わせてサイズ変更された、調整された一対の調整された表示画像は、例えば、左目画像542および右目画像544に基づいて生成され得る左表示画像552および右表示画像554を含むことができる。
In some implementations, a pair of adjusted display images resized for the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device can be generated by a processor (e.g., processor 106) based on the pair of stereoscopic images. Using FIG. 5 as an example, the pair of stereoscopic images includes a
図4は、本開示のいくつかの実装形態による人間の左目と右目の視差計算例400の図である。図4は、左目E1、右目E2、目標点O、左目E1と右目E2の間の瞳孔間距離b、目標点OとRGBセンサ間の距離Z、左目E1に対する焦点距離f1、右目E2に対する焦点距離f2、左目E1の画像面における目標点Oの投影点O1’、右目E2の画像面における目標点Oの投影点O2’、左目E1の画像面における原点C1’、右目E2の画像面における原点C2’を含むことができる。一般性を失うことなく、左目の焦点距離f1は右目の焦点距離f2に等しく、f1とf2は両方ともfに等しい。
4 is a diagram of an
人間の左目E1と右目E2は、水平方向に瞳孔間距離bだけ離れている。これにより、目標点Oを、左目E1の画像および右目E2の画像のそれぞれにおいて異なる位置(例えば、投影点O1’および投影点O2’)に投影することができる。投影点O1’は、左目E1の画像面において原点C1’の左側に投影される。左目E1の画像面における投影点O1’と原点C1’との間のピクセル距離はU1である。投影点O2’は、右目E2の画像面において原点C2’の右側に投影される。右目E2の画像面における投影点O2’と原点C2’との間のピクセル距離はU2である。ピクセル位置の差は、目標点Oの視差値である。左目E1の画像面におけるすべてのピクセルは、右目E2の画像面における同じ位置にあるピクセルと一致させることができる。視差マップは、左目E1の画像面と右目E2の画像面との間のピクセル位置の差に基づいて生成することができる。 The left eye E1 and the right eye E2 of a human being are separated by an interpupillary distance b in the horizontal direction. This allows the target point O to be projected to different positions (e.g., projection points O1 ' and O2 ') in the image of the left eye E1 and the image of the right eye E2 , respectively. The projection point O1 ' is projected to the left of the origin C1 ' in the image plane of the left eye E1 . The pixel distance between the projection point O1 ' and the origin C1 ' in the image plane of the left eye E1 is U1. The projection point O2 ' is projected to the right of the origin C2 ' in the image plane of the right eye E2 . The pixel distance between the projection point O2 ' and the origin C2 ' in the image plane of the right eye E2 is U2. The difference in pixel positions is the disparity value of the target point O. Every pixel in the image plane of the left eye E1 can be matched with a pixel at the same position in the image plane of the right eye E2 . A disparity map can be generated based on the difference in pixel positions between the left eye E1 image plane and the right eye E2 image plane.
いくつかの実装形態では、深度画像内の各ピクセルは、RGDセンサと対応する物体との間の距離を示す。例えば、図4において、目標点Oに対する距離は距離Zである。投影点O1’と投影点O2’との間のピクセル距離差は|U1|+|U2|である。図4の三角測量の関係から、|U1|+|U2|は(b*f)/Zに等しく、ただし、bは左目E1と右目E2の間の瞳孔間距離、fは左目E1と右目E2に対する焦点距離、Zは目標点OとRGBセンサの間の距離である。したがって、b/Z*fは目標点Oに対する視差値である。RGB画像内の各ピクセルの視差値は、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を利用して三角測量関係を使用して決定できる。視差マップは、たとえば次の式を使用して、左目E1の画像面と右目E2の画像面のすべてのピクセルに対して取得できる。
式(5)において、z(x,y)は、RGB-Dセンサと、RGB画像内のピクセル(x、y)に関連付けられた対応する物体との間の距離を示す。z(x,y)は、RGB-Dセンサによって生成された深度画像から取得できる。式(5)のf(例えば、f=f1=f2)は、左目E1と右目E2に対する焦点距離である。d(x,y)は視差マップの各要素を示す。いくつかの実装形態では、図3による視差マップの計算は、動作304で実行できる。
In equation (5), z(x,y) denotes the distance between the RGB-D sensor and the corresponding object associated with pixel (x,y) in the RGB image. z(x,y) can be obtained from a depth image generated by the RGB-D sensor. f (e.g., f= f1 = f2 ) in equation (5) is the focal length for the left eye E1 and the right eye E2 . d(x,y) denotes each element of the disparity map. In some implementations, the calculation of the disparity map according to FIG. 3 can be performed in
図5は、本開示のいくつかの実装形態に従って、一対の立体視画像を生成するための例示的なワークフローである。1つまたは複数のRGB-Dセンサ(例えば、RGB-Dセンサ502)を使用して、RGB-D画像を取得することができる。取得されたRGB-D画像からRGB画像512と深度画像514を取得することができる。深度画像514は、RGB画像512内の対応する物体の距離を示す。例えば、物体516がRGB画像512内に表示され、物体516に対する距離が深度画像514内に示される。いくつかの実装形態では、例えば、図3によれば、RGB-D画像の取得は動作302で実行できる。
5 is an example workflow for generating a pair of stereoscopic images according to some implementations of the present disclosure. An RGB-D image can be acquired using one or more RGB-D sensors (e.g., RGB-D sensor 502). An
全体視差マップ522は、例えば、深度画像514内の距離に基づいてRGB画像512に対して決定することができる。RGB画像512に対する全体視差マップ522内の視差値は、深度画像514内の距離、焦点距離、および瞳孔間距離(例えば、図4の焦点距離f=f1=f2、瞳孔間距離b)に基づいて計算することができる。RGB画像512に対する全体視差マップ522の視差値は、例えば、深度画像514内の距離、焦点距離、および瞳孔間距離に基づく三角測量関係を有する式(5)を用いて計算することができる。例えば、全体視差マップ522内の物体516に対するいくつかのピクセルは、物体516に対する視差値を示す。いくつかの実装形態において、例えば、図3によれば、全体視差マップ522の決定は、動作304で実行できる。
The
左視差マップ534は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。右視差マップ536は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。視差分配kに基づいて、全体視差マップ522内の視差値を、ある部分の左視差マップ534と右視差マップ536に割り当てることができる。例えば、視差分配kを使用して左視差マップ534と右視差マップ536を決定できる。前述したように、式(1)および(2)は、視差マップを決定するために使用することができる。いくつかの実装形態では、例えば、図3によれば、左視差マップ534および右視差マップ536の決定は、動作306で実行できる。
The
一対の立体視画像は、左視差マップ534および右視差マップ536に基づいて生成することができる。左目画像542は、RGB画像532内のピクセルのセットを変換することによって、左視差マップ534に基づいて生成することができる(例えば、RGB画像512)。右目画像544は、RGB画像532内の別のピクセルのセットを変換することによって、右視差マップ536に基づいて生成することができる(例えば、RGB画像512)。左目画像542と右目画像544は、一対の立体視画像である。左目画像542は、RGB画像532内のピクセルのセットを水平にシフトする式(3)を用いて生成することができる。右目画像544は、RGB画像532内のピクセルのセットを水平にシフトするために式(4)を用いて生成することができる。いくつかの実装形態では、例えば、図3によれば、一対の立体視画像の生成は、動作308で実行できる。
A pair of stereoscopic images can be generated based on the
左目画像542と右目画像は、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件を満たす左表示画像552および右表示画像554を生成するために、ズームおよびトリミングしてサイズを変更できる。
The left-
本明細書で説明される本開示の態様は、機能ブロックコンポーネントおよびさまざまな処理動作の観点から説明することができる。開示されたプロセスおよびシーケンスは、単独で実行することも、任意の組み合わせで実行することもできる。機能ブロックは、指定された機能を実行する任意の数のハードウェアおよび/またはソフトウェアコンポーネントによって実現できる。例えば、記載された態様は、1つまたは複数のマイクロプロセッサまたはその他の制御デバイスの制御下でさまざまな機能を実行可能な、例えば、メモリ素子、処理素子、論理素子、ルックアップテーブルなどの様々な集積回路コンポーネントを使用することができる。同様に、説明された態様の要素がソフトウェアプログラミングまたはソフトウェア要素を使用して実装される場合、本開示は、C、C++、Java、アセンブラなどの任意のプログラミングまたはスクリプト言語を使用して、データ構造、オブジェクト、プロセス、ルーチン、またはその他のプログラミング要素を任意に組み合わせて実装されるさまざまなアルゴリズムを使用して実装できる。機能的な側面は、1つ以上のプロセッサ上で実行されるアルゴリズムで実装できる。さらに、本開示の態様は、電子構成、信号処理および/または制御、データ処理などのための任意の数の従来の技術を使用することができる。「メカニズム」と「要素」という言葉は広く使用されており、機械的または物理的な実装や側面に限定されるものではなく、プロセッサなどと連携するソフトウェアルーチンも含まれ得る。 Aspects of the disclosure described herein can be described in terms of functional block components and various processing operations. The disclosed processes and sequences can be performed alone or in any combination. The functional blocks can be realized by any number of hardware and/or software components performing the specified functions. For example, the described aspects can use various integrated circuit components, such as, for example, memory elements, processing elements, logic elements, look-up tables, etc., capable of performing various functions under the control of one or more microprocessors or other control devices. Similarly, where elements of the described aspects are implemented using software programming or software elements, the disclosure can be implemented using various algorithms implemented using any combination of data structures, objects, processes, routines, or other programming elements using any programming or scripting language, such as C, C++, Java, Assembler, etc. Functional aspects can be implemented in algorithms executed on one or more processors. Additionally, aspects of the disclosure can use any number of conventional techniques for electronic configuration, signal processing and/or control, data processing, etc. The terms "mechanism" and "element" are used broadly and are not limited to mechanical or physical implementations or aspects, but can also include software routines that interface with processors or the like.
上記開示の実装または実装の一部は、例えばコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態をとることができる。コンピュータ使用可能またはコンピュータ可読媒体は、例えば、任意のプロセッサによってまたは任意のプロセッサに関連して使用するためのプログラムまたはデータ構造を有形的に含み、記憶し、通信し、または移送できる任意のデバイスであり得る。媒体は、例えば、電子、磁気、光学、電磁、または半導体デバイスであり得る。他の適切な媒体も利用可能である。このようなコンピュータ使用可能またはコンピュータ可読媒体は、非一時的メモリまたは媒体と呼ばれることがあり、時間の経過とともに変化する可能性のあるRAMまたは他の揮発性メモリまたは記憶装置を含むことができる。本明細書に記載される装置のメモリは、特に指定がない限り、装置に物理的に含まれる必要はないが、装置によってリモートにアクセスできるメモリであり、装置内に物理的に含まれ得る他のメモリと連続している必要はない。 Implementations or parts of implementations of the above disclosure may take the form of a computer program product accessible, for example, from a computer usable or computer readable medium. The computer usable or computer readable medium may be, for example, any device that can tangibly contain, store, communicate, or transport a program or data structure for use by or in association with any processor. The medium may be, for example, an electronic, magnetic, optical, electromagnetic, or semiconductor device. Other suitable media may also be used. Such computer usable or computer readable media may be referred to as non-transitory memory or media, and may include RAM or other volatile memory or storage that may change over time. The memory of the devices described herein need not be physically contained in the device, unless otherwise specified, but may be memory that can be remotely accessed by the device and need not be contiguous with other memories that may be physically contained within the device.
本開示の例として実行されるものとして本明細書で説明される個別の機能または組み合わせられた機能のいずれも、前述のハードウェアの任意のまたは任意の組み合わせを動作させるためのコードの形式で機械可読命令を使用して実装することができる。計算コードは、個別の機能または組み合わせた機能を計算ツールとして実行できる。1つまたは複数のモジュールの形式で実装でき、各モジュールの入出力データは、本明細書に記載の方法およびシステムの動作中に1つまたは複数のさらなるモジュールとの間で受け渡される。 Any of the individual or combination of functions described herein as being performed as examples of the present disclosure may be implemented using machine-readable instructions in the form of code to operate any or any combination of the aforementioned hardware. The computational code may execute the individual or combination of functions as a computational tool. It may be implemented in the form of one or more modules, with input and output data of each module being passed to and from one or more further modules during operation of the methods and systems described herein.
情報、データ、および信号は、さまざまな異なる技術および技法を使用して表現することができる。例えば、本明細書で参照される任意のデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または粒子、光場または粒子、他の項目、または前述のものの組み合わせによって表すことができる。 Information, data, and signals may be represented using a variety of different technologies and techniques. For example, any data, instructions, commands, information, signals, bits, symbols, and chips referred to herein may be represented by voltages, currents, electromagnetic waves, magnetic fields or particles, optical fields or particles, other items, or combinations of the foregoing.
用語「例」は、本明細書では、例、実例、または図示例を提供することを意味するために使用される。本明細書に「例」として記載されるいかなる態様または設計も、必ずしも他の態様または設計よりも好ましいまたは有利であると解釈されるべきではない。むしろ、「例」という言葉の使用は、概念を具体的に示すことを目的としています。さらに、本開示全体を通じて「ある態様」または「一態様」という用語の使用は、そのように記載されない限り、同じ態様または実装を意味することを意図したものではない。 The term "example" is used herein to mean serving as an example, instance, or illustration. Any aspect or design described herein as an "example" is not necessarily to be construed as preferred or advantageous over other aspects or designs. Rather, use of the word "example" is intended to illustrate a concept. Moreover, use of the terms "an embodiment" or "one embodiment" throughout this disclosure is not intended to refer to the same embodiment or implementation unless so described.
本開示で使用される「または」という用語は、それが結合する2つ以上の要素についての排他的な「または」ではなく、包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにAまたはBが含まれる」は、その自然な包含的置換のいずれかを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、または、XにAとBの両方が含まれる場合、この場合、「XにAまたはBが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにAおよびBのいずれか1つが含まれる」は、「XにAまたはBが含まれる」と同等の意味で使用されることが意図されている。本開示で使用される「および/または」という用語は、「および」または包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにA、B、および/またはCが含まれる」は、XがA、B、およびCの任意の組み合わせを含み得ることを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、XにCが含まれる場合、XにAとBの両方が含まれる場合、XにBとCの両方が含まれまる場合、XにAとCの両方が含まれる場合、または、XにA、B、およびCのすべてが含まれる場合、この場合、「XにA、B、および/またはCが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにA、B、およびCの少なくとも1つが含まれる」は、「XにA、B、および/またはCが含まれる」と同等の意味で使用されることが意図されている。 The term "or" as used in this disclosure is intended to mean an inclusive "or" rather than an exclusive "or" for the two or more elements it binds. That is, unless otherwise specified or unless the context clearly dictates otherwise, "X includes A or B" is intended to mean any of its natural inclusive permutations. In other words, if X includes A, if X includes B, or if X includes both A and B, then "X includes A or B" is satisfied in any of the foregoing cases. Similarly, "X includes any one of A and B" is intended to be used in the same sense as "X includes A or B". The term "and/or" as used in this disclosure is intended to mean "and" or an inclusive "or". That is, unless otherwise specified or unless the context clearly dictates otherwise, "X includes A, B, and/or C" is intended to mean that X may include any combination of A, B, and C. In other words, if X includes A, if X includes B, if X includes C, if X includes both A and B, if X includes both B and C, if X includes both A and C, or if X includes all of A, B, and C, then "X includes A, B, and/or C" is satisfied in any of the foregoing cases. Similarly, "X includes at least one of A, B, and C" is intended to be used equivalently to "X includes A, B, and/or C."
本明細書における用語「含む」または「有する」およびその変形の使用は、その後に列挙される項目およびその等価物、ならびに追加の項目を包含することを意味する。文脈に応じて、本明細書で使用される「場合」という単語は、「時」、「その間」、または「に応じて」と解釈できる。 The use of the terms "including" or "having" and variations thereof herein is meant to encompass the items listed thereafter and equivalents thereof, as well as additional items. Depending on the context, the word "if" as used herein can be interpreted as "at the time," "during," or "depending on."
本開示を説明する文脈(特に特許請求の範囲の文脈)における用語「a」および「an」および「the」および類似の指示対象の使用は、単数形および複数形の両方を包含すると解釈されるべきである。さらに、本明細書に別段の記載がない限り、本明細書における値の範囲の記載は、その範囲内にあるそれぞれの個別の値を個別に参照する簡単な方法として機能することのみを意図しており、それぞれの個別の値は、あたかも本明細書に個別に記載されているかのように明細書に組み込まれる。最後に、本明細書に記載されているすべての方法の操作は、本明細書に別段の指示があるか、文脈と明らかに矛盾しない限り、任意の適切な順序で実行可能である。本明細書で提供されるあらゆる例、または例が説明されていることを示す文言(例えば、「など」)の使用は、単に本開示をより良く理解することを目的としており、別段の定めがない限り、本開示の範囲に制限を課すものではない。 The use of the terms "a" and "an" and "the" and similar referents in the context of describing this disclosure (especially in the context of the claims) should be interpreted to include both the singular and the plural. Furthermore, unless otherwise stated herein, the recitation of a range of values herein is intended only to serve as a shorthand method of individually referring to each individual value within the range, and each individual value is incorporated into the specification as if it were individually set forth herein. Finally, the operations of any method described herein can be performed in any suitable order unless otherwise indicated herein or clearly contradicted by context. Any examples provided herein, or the use of language indicating that an example is described (e.g., "etc.") are intended solely for the purpose of providing a better understanding of the disclosure, and do not impose limitations on the scope of the disclosure, unless otherwise specified.
本明細書では、さまざまな見出しおよび小見出しを付けて説明された。これらは、読みやすさを向上させ、仕様内の資料を検索および参照するプロセスを容易にするために含まれている。これらの見出しおよび小見出しは、特許請求の範囲の解釈に影響を与えたり、その範囲をいかなる形でも制限したりすることを意図したものではなく、使用されるべきではない。本明細書に示され説明される特定の実装は、本開示の例示的な例であり、いかなる形でも本開示の範囲を限定することを意図するものではない。 This specification has been described under various headings and subheadings. These have been included to enhance readability and to facilitate the process of locating and referencing material within the specification. These headings and subheadings are not intended, and should not be used, to affect the interpretation of the claims or to limit their scope in any way. The specific implementations shown and described herein are illustrative examples of the disclosure and are not intended to limit the scope of the disclosure in any way.
本明細書に引用される刊行物、特許出願、および特許を含むすべての参考文献は、あたかも各参考文献が個別かつ具体的に参照により組み込まれると示され、その全体が本明細書に記載されるのと同じ程度に、参照により本明細書に組み込まれる。 All references cited in this specification, including publications, patent applications, and patents, are hereby incorporated by reference to the same extent as if each reference was individually and specifically indicated to be incorporated by reference and was set forth in its entirety herein.
本開示は、特定の実施形態および実装に関連して説明されているが、本開示は、開示された実装に限定されるものではなく、逆に、含まれる様々な修正および同等の構成を網羅することを意図していることを理解されたい。添付の特許請求の範囲の範囲内で、その範囲には、そのようなすべての修正および同等の配置を包含するように、法律の下で許可される最も広い解釈が与えられるべきである。
Although the disclosure has been described in connection with particular embodiments and implementations, it should be understood that the disclosure is not limited to the disclosed implementations, but on the contrary, is intended to cover various modifications and equivalent arrangements included. Within the scope of the appended claims, their scope should be accorded the broadest interpretation permitted under law so as to encompass all such modifications and equivalent arrangements.
Claims (20)
プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、
前記プロセッサによって、第2のRGB画像および第3のRGB画像を含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む方法。 1. A method for generating stereoscopic display content, comprising:
obtaining, using a processor, a first red-green-blue (RGB) image and a depth image from the red-green-blue-plus-distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating, by the processor, the pair of stereoscopic images comprising a second RGB image and a third RGB image, wherein the second RGB image is generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image is generated by shifting a second set of pixels in the first RGB image based on the third disparity map.
前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項5に記載の方法。 Determining the first disparity map includes:
The method of claim 5 , comprising using at least one of a focal length f or an interpupillary distance b to determine the first disparity map.
前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
dL(x,y)は、前記第2の視差マップの前記視差値であり、dR(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項6に記載の方法。 Determining the second disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Determining the third disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
7. The method of claim 6, wherein d L (x,y) is the disparity value of the second disparity map, d R (x,y) is the disparity value of the third parity map, d(x,y) is the disparity value of the first parity map, z(x,y) is the distance between the RGB-D sensor and an object corresponding to the pixel (x,y) in the RGB-D image, and k is the disparity distribution ratio, which is a constant value indicating the position of an observation point between the left eye and the right eye.
前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
PixelL(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、PixelR(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項7に記載の方法。 Shifting the first set of pixels in the first RGB image based on the second disparity map based on:
Shifting the second set of pixels in the first RGB image based on the third disparity map based on:
8. The method of claim 7, wherein Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, and (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y).
非一時的メモリと、
プロセッサと、を備え、前記非一時的メモリは、
赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
を前記プロセッサによって実行可能な命令を含む、装置。 An apparatus for generating stereoscopic display content, comprising:
A non-transient memory;
a processor, the non-transitory memory comprising:
obtaining a first red-green-blue (RGB) image and a depth image from a red-green-blue plus distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating the pair of stereoscopic images including a second RGB image and a third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map;
The apparatus further comprises instructions executable by the processor.
前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項9に記載の装置。 The instructions executable by the processor include:
10. The device of claim 9, further comprising instructions for generating a pair of adjusted display images based on the pair of stereoscopic images, the pair of adjusted display images being resized to display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.
前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項13に記載の装置。 Determining the first disparity map includes:
The apparatus of claim 13 , comprising using at least one of a focal length f or an interpupillary distance b to determine the first disparity map.
前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
dL(x,y)は、前記第2の視差マップの前記視差値であり、dR(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項13に記載の装置。 Determining the second disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Determining the third disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
14. The apparatus of claim 13, wherein d L (x,y) is the disparity value of the second disparity map, d R (x,y) is the disparity value of the third parity map, d(x,y) is the disparity value of the first parity map, z(x,y) is the distance between the RGB-D sensor and an object corresponding to the pixel (x,y) in the RGB-D image, and k is the disparity distribution ratio, which is a constant value indicating the position of an observation point between the left eye and the right eye.
前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
PixelL(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、PixelR(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項15に記載の装置。 Shifting the first set of pixels in the first RGB image based on the second disparity map based on:
Shifting the second set of pixels in the first RGB image based on the third disparity map based on:
16. The apparatus of claim 15, wherein Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, and (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y).
赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
プロセッサによって、第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
を前記プロセッサによって実行可能な命令を含む、非一時的なコンピュータ可読記憶媒体。 1. A non-transitory computer-readable storage medium configured to store a computer program for generating stereoscopic display content, the computer program comprising:
obtaining a first red-green-blue (RGB) image and a depth image from a red-green-blue plus distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating, by a processor, the pair of stereoscopic images including a second RGB image and a third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map;
A non-transitory computer-readable storage medium comprising instructions executable by the processor.
前記プロセッサによって、前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項17に記載の非一時的なコンピュータ可読記憶媒体。 The instructions executable by the processor include:
20. The non-transitory computer-readable storage medium of claim 17, further comprising instructions for generating, by the processor, a pair of adjusted display images based on the pair of stereoscopic images, the pair of adjusted display images being resized to display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.
The non-transitory computer-readable storage medium of claim 17 , wherein the RGB-D image is captured by an RGB-D sensor.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/973,086 | 2022-10-25 | ||
US17/973,086 US20240236288A9 (en) | 2022-10-25 | 2022-10-25 | Method And Apparatus For Generating Stereoscopic Display Contents |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024062935A true JP2024062935A (en) | 2024-05-10 |
Family
ID=90971189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023134464A Pending JP2024062935A (en) | 2022-10-25 | 2023-08-22 | Method of creating solid vision display content and device of them |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240236288A9 (en) |
JP (1) | JP2024062935A (en) |
KR (1) | KR20240057994A (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100918480B1 (en) * | 2007-09-03 | 2009-09-28 | 한국전자통신연구원 | Stereo vision system and its processing method |
US8482654B2 (en) * | 2008-10-24 | 2013-07-09 | Reald Inc. | Stereoscopic image format with depth information |
US9832451B2 (en) * | 2015-11-17 | 2017-11-28 | Survios, Inc. | Methods for reduced-bandwidth wireless 3D video transmission |
US20180288387A1 (en) * | 2017-03-29 | 2018-10-04 | Intel Corporation | Real-time capturing, processing, and rendering of data for enhanced viewing experiences |
US10839543B2 (en) * | 2019-02-26 | 2020-11-17 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
US10957027B2 (en) * | 2019-03-26 | 2021-03-23 | Intel Corporation | Virtual view interpolation between camera views for immersive visual experience |
-
2022
- 2022-10-25 US US17/973,086 patent/US20240236288A9/en active Pending
-
2023
- 2023-08-22 JP JP2023134464A patent/JP2024062935A/en active Pending
- 2023-09-25 KR KR1020230128608A patent/KR20240057994A/en unknown
Also Published As
Publication number | Publication date |
---|---|
KR20240057994A (en) | 2024-05-03 |
US20240137481A1 (en) | 2024-04-25 |
US20240236288A9 (en) | 2024-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315328B2 (en) | Systems and methods of rendering real world objects using depth information | |
CN106251403B (en) | A kind of methods, devices and systems of virtual three-dimensional Scene realization | |
CN106101689B (en) | The method that using mobile phone monocular cam virtual reality glasses are carried out with augmented reality | |
Bertel et al. | Megaparallax: Casual 360 panoramas with motion parallax | |
CN106254854B (en) | Preparation method, the apparatus and system of 3-D image | |
RU2016141397A (en) | Stereo view | |
WO2012153447A1 (en) | Image processing device, image processing method, program, and integrated circuit | |
TW201206151A (en) | Method and system for generating images of a plurality of views for 3D image reconstruction | |
EP3547672A1 (en) | Data processing method, device, and apparatus | |
US9154762B2 (en) | Stereoscopic image system utilizing pixel shifting and interpolation | |
CN108616742B (en) | 3D panoramic shooting system and method | |
CN104599317A (en) | Mobile terminal and method for achieving 3D (three-dimensional) scanning modeling function | |
CN109598796A (en) | Real scene is subjected to the method and apparatus that 3D merges display with dummy object | |
KR102049456B1 (en) | Method and apparatus for formating light field image | |
TWI788739B (en) | 3D display device, 3D image display method | |
JP7184748B2 (en) | A method for generating layered depth data for a scene | |
WO2018032841A1 (en) | Method, device and system for drawing three-dimensional image | |
US20230316810A1 (en) | Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems | |
WO2023169283A1 (en) | Method and apparatus for generating binocular stereoscopic panoramic image, device, storage medium, and product | |
CN107545537A (en) | A kind of method from dense point cloud generation 3D panoramic pictures | |
TWI589150B (en) | Three-dimensional auto-focusing method and the system thereof | |
Knorr et al. | An image-based rendering (ibr) approach for realistic stereo view synthesis of tv broadcast based on structure from motion | |
TWI536832B (en) | System, methods and software product for embedding stereo imagery | |
Knorr et al. | From 2D-to stereo-to multi-view video | |
KR101794492B1 (en) | System for displaying multiview image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240116 |