JP2024062935A - Method of creating solid vision display content and device of them - Google Patents

Method of creating solid vision display content and device of them Download PDF

Info

Publication number
JP2024062935A
JP2024062935A JP2023134464A JP2023134464A JP2024062935A JP 2024062935 A JP2024062935 A JP 2024062935A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2023134464 A JP2023134464 A JP 2023134464A JP 2024062935 A JP2024062935 A JP 2024062935A
Authority
JP
Japan
Prior art keywords
image
rgb
disparity
disparity map
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023134464A
Other languages
Japanese (ja)
Inventor
シエ シン
Xing Xie
シュウ ナン
Nan Xu
チェン シュウ
Xu Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orbbec 3d Technology International Inc
Original Assignee
Orbbec 3d Technology International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orbbec 3d Technology International Inc filed Critical Orbbec 3d Technology International Inc
Publication of JP2024062935A publication Critical patent/JP2024062935A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/324Colour aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Stereoscopic And Panoramic Photography (AREA)
  • Processing Or Creating Images (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

To provide a method of creating a high quality solid vision image and a video, and provide a device of them.SOLUTION: A method of generating a solid vision display content, contains steps of: acquiring a first RGB image and a depth image from a RGB plus distance (RGB-D) image by using a processor; determining a first parallax map in accordance with the RGB-D image on the basis of a depth value in the depth image; determining a second parallax map and a third parallax map by converting the first parallax map by using a parallax distribution ratio; and generating a pair of solid vision images containing a second RGB image and a third RGB image by the processor. The second RGB image is generated by shifting a first pixel set in the first RGB image on the basis of the second parallax map, and the third RGB image is generated by shifting the set of a second pixel in the first RGB image on the basis of the third parallax map.SELECTED DRAWING: Figure 3

Description

本開示は立体視に関し、特に立体視表示コンテンツの生成に関する。 This disclosure relates to stereoscopic vision, and in particular to generating stereoscopic display content.

次世代の人間とコンピュータの対話方法としての仮想現実(VR)、拡張現実(AR)、および複合現実(MR)は、非常に没入型で直観的である。最高の没入型のVR、AR、MR視聴体験を提供するには、高品質の立体視画像とビデオを生成することが必要である。 Virtual reality (VR), augmented reality (AR), and mixed reality (MR), as the next generation of human-computer interaction methods, are highly immersive and intuitive. Producing high-quality stereoscopic images and videos is necessary to provide the best immersive VR, AR, and MR viewing experience.

現在、3次元深度の知覚は、2台以上のカメラを使用して各目にわずかに異なる2つの画像を生成することによって実現することができる。しかしながら、これは複雑でコンピューティング集約的なプロセスになる可能性がある。さらに、正確な深度情報がなければ、生成されたVR、AR、およびMR環境は人々に良好な視聴体験を提供できない。 Currently, the perception of three-dimensional depth can be achieved by using two or more cameras to generate two slightly different images for each eye. However, this can be a complex and computationally intensive process. Furthermore, without accurate depth information, the generated VR, AR, and MR environments cannot provide people with a good viewing experience.

本明細書では、立体視表示コンテンツを生成するための方法、装置、およびシステムの実装形態を開示する。 This specification discloses implementations of methods, devices, and systems for generating stereoscopic display content.

一態様においては、立体視表示コンテンツを生成する方法が開示されている。この方法は、プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、プロセッサによって、第2のRGB画像および第3のRGB画像を含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む。 In one aspect, a method of generating stereoscopic display content is disclosed. The method includes using a processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images; determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generating, by the processor, a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.

他の態様においては、立体視表示コンテンツを生成する装置が開示されている。この装置は、非一時的メモリと、プロセッサと、を備え、非一時的メモリは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立視体画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配比を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。 In another aspect, an apparatus for generating stereoscopic display content is disclosed. The apparatus includes a non-transitory memory and a processor, the non-transitory memory including instructions executable by the processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determine a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that is transformed into a pair of stereoscopic images; determine a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generate a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.

他の態様においては、立体視表示コンテンツを生成するためのコンピュータプログラムを記憶するように構成された非一時的なコンピュータ可読記憶媒体が開示されている。このコンピュータプログラムは、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、深度画像内の深度値に基づいて、RGB-D画像に従って第1の視差マップを決定することであって、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含むことと、視差分配率を用いて第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、プロセッサによって、第2のRGB画像と第3のRGB画像とを含む一対の立体視画像を生成することであって、第2のRGB画像は、第2の視差マップに基づいて第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、をプロセッサによって実行可能な命令を含む。 In another aspect, a non-transitory computer-readable storage medium configured to store a computer program for generating stereoscopic display content is disclosed. The computer program includes instructions executable by a processor to obtain a first red-green-blue (RGB) image and a depth image from a red-green-blue-plus-distance (RGB-D) image; determine a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images; determine a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio; and generate, by the processor, a pair of stereoscopic images including the second RGB image and the third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map.

本開示は、添付の図面と併せて読めば、以下の詳細な説明から最もよく理解される。一般的な慣例によれば、図面のさまざまな特徴は縮尺どおりではないことを強調しておく。逆に、さまざまな機能の寸法は、明確にするために任意に拡大または縮小されている。 The present disclosure is best understood from the following detailed description when read in conjunction with the accompanying drawings. It is emphasized that, according to common practice, the various features of the drawings are not drawn to scale. Conversely, dimensions of various features have been arbitrarily expanded or reduced for clarity.

コンピューティングおよび通信のための装置の例示的なブロック図である。FIG. 1 is an exemplary block diagram of an apparatus for computing and communications.

両眼立体視の原理を説明するための例示的な図である。FIG. 1 is an exemplary diagram for explaining the principle of binocular stereoscopic vision.

本開示のいくつかの実装形態による、立体視表示コンテンツを生成するための例示的なプロセスのフローチャートである。1 is a flowchart of an example process for generating stereoscopic display content according to some implementations of the present disclosure.

本開示のいくつかの実装形態による、人間の左目と右目の視差値を決定するための例である。1 is an example for determining disparity values for a left and right human eye, according to some implementations of the present disclosure.

図5は、本開示のいくつかの実装形態による、一対の立体視画像を生成するための例示的なフロー図である。FIG. 5 is an example flow diagram for generating a pair of stereoscopic images according to some implementations of the present disclosure.

詳細な説明
仮想現実(VR)、拡張現実(AR)、および複合現実(MR)技術は、例えば、仮想観光および旅行、デジタル仮想エンターテイメント(例えば、VRゲームおよびVR映画など)、仮想トレーニングと教育、VR露出療法などのいくつかの応用分野で開発されている。一方で、VRヘッドセット、VRヘルメット、AR/MRアプリやメガネなどのVR/AR/MR装置は、人々が参加できる3D没入型環境をシミュレートするために使用されている。VR/AR/MRヘッドセットを装着したユーザーが頭を動かすと、シミュレートされた3D環境がユーザーの動きに従い、ユーザーの前に表示される。
DETAILED DESCRIPTION Virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies have been developed in several application areas, such as virtual tourism and travel, digital virtual entertainment (e.g., VR games and VR movies), virtual training and education, VR exposure therapy, etc. Meanwhile, VR/AR/MR devices, such as VR headsets, VR helmets, AR/MR apps and glasses, are used to simulate 3D immersive environments in which people can participate. When a user wearing a VR/AR/MR headset moves his/her head, the simulated 3D environment follows the user's movements and is displayed in front of the user.

シミュレータされた3D没入環境は、両眼視によって実現することができる。人間の左目と右目では、わずかに異なる視点から物体が見える。観察されたさまざまな2次元(2D)画像は脳によって処理され、3D深度の知覚が生成される。両眼視に基づいて、VR/AR/MRの立体視は、(たとえば、左目に対する1つの画像と右目に対する1つの画像のような)2つの2D画像をそれぞれ左目と右目の入力として使用することによって生成される。2つの2D画像は、同じシーンに対して2台のカメラによって異なる視点から取得される。従来、仮想現実(VR)/拡張現実(AR)/複合現実(MR)ヘルメット/メガネに使用される立体視画像ペア(例えば、左目に対する1つの画像と右目に対する1つの画像)は、逆整流プロセスを使用して生成される。2D画像は距離/深度情報が含まれていないため、このような処理により生成される3DのVR/AR/MR表示コンテンツは、不正確な距離推定により違和感や3Dめまいを引き起こす可能性がある。 A simulated 3D immersive environment can be achieved by binocular vision. The left and right eyes of a human see objects from slightly different perspectives. The various observed two-dimensional (2D) images are processed by the brain to generate the perception of 3D depth. Based on binocular vision, VR/AR/MR stereoscopic vision is generated by using two 2D images (e.g., one image for the left eye and one image for the right eye) as inputs for the left and right eyes, respectively. The two 2D images are acquired from different perspectives by two cameras for the same scene. Traditionally, stereoscopic image pairs (e.g., one image for the left eye and one image for the right eye) used in virtual reality (VR)/augmented reality (AR)/mixed reality (MR) helmets/glasses are generated using an inverse rectification process. Because the 2D images do not contain distance/depth information, the 3D VR/AR/MR display content generated by such processing may cause discomfort and 3D dizziness due to inaccurate distance estimation.

本開示の実装形態によれば、方法は、RGB-Dセンサから記録された正確な距離/深度情報を有する3次元の赤緑青プラス距離(RGB-D)画像を使用して、VR/AR/MRの3D表示コンテンツを生成するために使用される。RGB-Dセンサは、例えば、RGB-Dセンサは、構造化された光ベースのRGB-Dセンサ、アクティブ/パッシブの立体視ベースのRGB-Dセンサ、飛行時間型RGB-Dセンサ、またはそれらの任意の組み合わせなどを含むことができる。従来の赤緑青(RGB)画像はx座標とy座標の関数であり、2D画像内のRGBカラー値の分布のみを表す。たとえば、(x,y)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1)と表すことができ、これは画像上のxおよびy座標にある黒いピクセルを表示する。RGB-Dセンサから記録されたRGB-D画像は、RGB画像の各ピクセルに追加の深度情報を提供する。たとえば、(x,y,z)座標にある表示色が赤=1、緑=1、青=1のピクセルは、Pixel(x,y)=(1,1,1,z)と表すことができ、これは画像上のxおよびy座標にありz単位距離(たとえばミリメートル)離れたところにある黒いピクセルを表示する。 According to an implementation of the present disclosure, a method is used to generate 3D display content for VR/AR/MR using three-dimensional red-green-blue plus distance (RGB-D) images with accurate distance/depth information recorded from an RGB-D sensor. The RGB-D sensor can include, for example, a structured light-based RGB-D sensor, an active/passive stereo vision-based RGB-D sensor, a time-of-flight RGB-D sensor, or any combination thereof. A conventional red-green-blue (RGB) image is a function of x and y coordinates and represents only the distribution of RGB color values in a 2D image. For example, a pixel at (x,y) coordinates with display colors red=1, green=1, and blue=1 can be represented as Pixel(x,y)=(1,1,1), which displays a black pixel at x and y coordinates on the image. The RGB-D image recorded from the RGB-D sensor provides additional depth information for each pixel of the RGB image. For example, a pixel at (x,y,z) coordinates with display colors Red=1, Green=1, Blue=1 can be represented as Pixel(x,y)=(1,1,1,z), which displays a black pixel at the x and y coordinates on the image, one z unit distance away (e.g., millimeters).

本開示の実装形態によれば、立体視表示コンテンツを生成するために、RGB-Dセンサを使用してRGB-D画像を生成することができる。RGB-D画像に基づいて、対応するRGB画像と深度画像を取得できる。深度画像は、RGB画像内のピクセルに対応する物体の距離情報を示す。三角測量関係に基づいて、RGB画像内の各ピクセルの距離、焦点距離、瞳孔間距離を使用して、RGB画像に対する全体視差マップを生成できる。全体視差マップは2Dマトリックスであり、各要素はRGB画像内のピクセルの視差値を示す。左視差マップは、視差分配比kと全体視差マップとにより決定することができる。右視差マップは、視差分配比kと全体視差マップにより決定することができる。したがって、左視差マップと右視差マップに基づいてRGB画像から一対の立体視画像を生成することができる。一対の立体視画像は、左目画像と右目画像とを含む。拡張現実(AR)、仮想現実(VR)、または複合現実(MR)のデバイスの表示要件に従って、左目画像と右目画像をズーム、トリミング、またはサイズ変更して、左表示画像と右表示画像を生成できる。 According to an implementation of the present disclosure, an RGB-D image can be generated using an RGB-D sensor to generate stereoscopic display content. Based on the RGB-D image, a corresponding RGB image and a depth image can be obtained. The depth image indicates distance information of an object corresponding to a pixel in the RGB image. Based on the triangulation relationship, a global disparity map can be generated for the RGB image using the distance, focal length, and interpupillary distance of each pixel in the RGB image. The global disparity map is a 2D matrix, and each element indicates the disparity value of a pixel in the RGB image. The left disparity map can be determined by the disparity distribution ratio k and the global disparity map. The right disparity map can be determined by the disparity distribution ratio k and the global disparity map. Thus, a pair of stereoscopic images can be generated from the RGB image based on the left disparity map and the right disparity map. The pair of stereoscopic images includes a left eye image and a right eye image. The left and right eye images can be zoomed, cropped, or resized to generate left and right view images according to the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.

本開示の応用および実装形態は例に限定されず、本開示の実装形態の代替、変形、または修正は、任意の計算環境に対して達成できることに留意されたい。開示された方法、装置、およびシステムの詳細は、システムおよびコーディング構造の概要の後で以下に説明される。開示された方法およびサーバーの詳細は以下に説明される。 It should be noted that the application and implementation of the present disclosure is not limited to the examples, and alternatives, variations, or modifications of the implementation of the present disclosure can be achieved for any computing environment. Details of the disclosed method, apparatus, and system are described below after an overview of the system and coding structure. Details of the disclosed method and server are described below.

図1は、本開示の実装形態によるコンピューティングおよび通信のための装置100の内部コンポーネントを示す例示的なブロック図である。図1に示すように、コンピューティングおよび通信のための装置100は、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことができる。バス102は、内部信号を分配するために使用することができる。バス102は、1つまたは複数のバス(アドレスバス、データバス、またはそれらの組み合わせなど)であるかもしれないことを表している。この装置は、赤緑青プラス距離(RGB-D)カメラ、ブリッジカメラ、フィルムカメラ、スマートフォンカメラ、魚眼カメラ、マイクロコンピュータ、メインフレームコンピュータ、汎用コンピュータ、データベースコンピュータ、特定用途/専用コンピュータ、リモートサーバーコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、携帯電話、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGA(フィールドプログラマブルゲートアレイ)チップ、SoC(システムオンチップ)チップ、クラウドコンピューティングデバイス/サービス、またはウェアラブルコンピューティングデバイスなどの1つまたは複数のコンピューティングデバイスの任意の構成によって実装できる。いくつかの実装形態では、異なる装置は、異なる地理的位置にあり、ネットワークなどを介して互いに通信できる複数のグループのRGB-Dカメラの形態で実装することができる。いくつかの実装形態では、異なる装置は異なる動作で構成される。いくつかの実装形態では、コンピューティングおよび通信のための装置は、本明細書に記載される方法およびシステムの1つまたは複数の態様を実行することができる。例えば、特殊チップを含むRGB-Dカメラ内の特定目的プロセッサを使用して、本明細書に記載の方法およびシステムの1つまたは複数の態様または要素を実装することができる。 1 is an exemplary block diagram illustrating internal components of an apparatus 100 for computing and communication according to an implementation of the present disclosure. As shown in FIG. 1, the apparatus 100 for computing and communication can include a memory 104, a processor 106, a communication unit 108, an input/output (I/O) component 110, a sensor 112, a power supply 114, and a bus 102. The bus 102 can be used to distribute internal signals. The bus 102 represents what may be one or more buses (such as an address bus, a data bus, or a combination thereof). The apparatus may be implemented by any configuration of one or more computing devices, such as a Red Green Blue Plus Distance (RGB-D) camera, a bridge camera, a film camera, a smartphone camera, a fisheye camera, a microcomputer, a mainframe computer, a general purpose computer, a database computer, a special purpose/dedicated computer, a remote server computer, a personal computer, a tablet computer, a laptop computer, a mobile phone, an embedded computing/edge computing device, a single board computer, an ASIC (Application Specific Integrated Circuit) chip, an FPGA (Field Programmable Gate Array) chip, a SoC (System on Chip) chip, a cloud computing device/service, or a wearable computing device. In some implementations, the different apparatuses may be implemented in the form of multiple groups of RGB-D cameras that are in different geographic locations and can communicate with each other via a network or the like. In some implementations, the different apparatuses are configured for different operations. In some implementations, the apparatus for computing and communication may perform one or more aspects of the methods and systems described herein. For example, a special purpose processor in an RGB-D camera that includes a specialized chip may be used to implement one or more aspects or elements of the methods and systems described herein.

図1は、コンピューティングおよび通信のための装置100が、メモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、センサ112、供給電源114、およびバス102を含むことを示す。いくつかの実装形態では、コンピューティングおよび通信のための装置100は、任意の数のメモリユニット、プロセッサユニット、通信ユニット、入出力(I/O)コンポーネント、センサユニット、電源ユニット、およびバスユニットを含むことができる。 1 shows that the device 100 for computing and communication includes a memory 104, a processor 106, a communication unit 108, an input/output (I/O) component 110, a sensor 112, a power supply 114, and a bus 102. In some implementations, the device 100 for computing and communication can include any number of memory units, processor units, communication units, input/output (I/O) components, sensor units, power supply units, and bus units.

メモリ104には、二次または永続的な長期記憶など、プログラムコードおよび/またはデータを長期間記憶する非一時的なコンピュータ可読媒体が含まれるが、これに限定されない。メモリ104は、データの取得、データの保存、またはその両方を行うことができる。ここでのメモリ104は、読み取り専用メモリ(ROM)デバイス、ハードドライブ、ランダムアクセスメモリ(RAM)、フラッシュドライブ、SSD(ソリッドステートドライブ)、EMMC(埋め込み型マルチメディアカード)、光/磁気ディスク、セキュリティデジタル(SD)カード、または適切なタイプのストレージデバイスの任意の組み合わせであり得る。 Memory 104 includes, but is not limited to, non-transitory computer-readable media for long-term storage of program code and/or data, such as secondary or permanent long-term storage. Memory 104 may retrieve data, store data, or both. Memory 104 here may be a read-only memory (ROM) device, a hard drive, a random access memory (RAM), a flash drive, a solid-state drive (SSD), an embedded multimedia card (EMMC), an optical/magnetic disk, a security digital (SD) card, or any combination of suitable types of storage devices.

プロセッサ106は、メモリ104、通信ユニット108、I/Oコンポーネント110、センサ112、またはそれらの組み合わせから受信できる情報を操作または処理するために使用することができる。いくつかの実装形態では、プロセッサ106は、デジタル信号プロセッサ(DSP)、中央プロセッサ(例えば、中央処理装置またはCPU)、特定用途向け命令セットプロセッサ(ASIP)、組み込みコンピューティング/エッジコンピューティングデバイス、シングルボードコンピュータ、ASIC(特定用途向け集積回路)チップ、FPGAチップ(フィールドプログラマブルゲートアレイ)、SoC(システムオンチップ)チップ、クラウドコンピューティングサービス、グラフィックスプロセッサ(GPUのグラフィックス処理装置)を含むことができる。プロセッサ106は、バス102を介してメモリ104に格納されたコンピュータ命令にアクセスすることができる。いくつかの実装形態では、1つまたは複数のプロセッサを使用して、ここで説明する方法およびシステムの1つまたは複数の態様を実行するためのコンピュータ命令を実行または処理することを含むデータ処理を高速化することができる。プロセッサ106からの出力データは、バス102を介してメモリ104、通信ユニット108、I/Oコンポーネント110、センサ112に分配することができる。プロセッサ106は、1つまたは複数の構成されたまたは埋め込まれた動作を実行するために、コンピューティングおよび通信のために装置100を制御するように動作可能な任意のタイプのデバイスまたは複数のデバイスであり得る。 The processor 106 can be used to manipulate or process information that can be received from the memory 104, the communication unit 108, the I/O components 110, the sensors 112, or a combination thereof. In some implementations, the processor 106 can include a digital signal processor (DSP), a central processor (e.g., a central processing unit or CPU), an application specific instruction set processor (ASIP), an embedded computing/edge computing device, a single board computer, an ASIC (application specific integrated circuit) chip, an FPGA chip (field programmable gate array), a SoC (system on chip) chip, a cloud computing service, a graphics processor (a graphics processing unit of a GPU). The processor 106 can access computer instructions stored in the memory 104 via the bus 102. In some implementations, one or more processors can be used to speed up data processing, including executing or processing computer instructions to perform one or more aspects of the methods and systems described herein. Output data from the processor 106 can be distributed to the memory 104, the communication unit 108, the I/O components 110, and the sensors 112 via the bus 102. The processor 106 may be any type of device or devices operable to control the apparatus 100 for computing and communication to perform one or more configured or embedded operations.

プロセッサ106およびメモリ104に加えて、装置100はセンサ112を含むことができる。例えば、装置100の動作環境の1つまたは複数の条件は、センサ112によって検出、キャプチャ、または決定することができる。いくつかの実装形態では、センサ112は、1つ以上の電荷結合素子(CCD)、アクティブピクセルセンサ(CMOSセンサ)、または他の可視光もしくは非可視光の検出およびキャプチャユニットを含むことができる。コンピューティングおよび通信のための装置100の動作環境の感知された側面についてキャプチャされたデータは、センサ112からメモリ104、プロセッサ106、通信ユニット108、入出力(I/O)コンポーネント110、供給電源114、およびバス102に送信することができる。いくつかの実装形態では、例えば、ライダーユニット、マイクロホン、RGB-D感知デバイス、超音波ユニット、または圧力センサなどの複数のセンサを装置100に含めることができる。上述のセンサは、コンピューティングおよび通信のための装置100の動作環境の1つまたは複数の状態をキャプチャ、検出、または決定することができる。 In addition to the processor 106 and memory 104, the device 100 may include a sensor 112. For example, one or more conditions of the operating environment of the device 100 may be detected, captured, or determined by the sensor 112. In some implementations, the sensor 112 may include one or more charge-coupled devices (CCDs), active pixel sensors (CMOS sensors), or other visible or non-visible light detection and capture units. Data captured about sensed aspects of the operating environment of the device 100 for computing and communication may be transmitted from the sensor 112 to the memory 104, the processor 106, the communication unit 108, the input/output (I/O) components 110, the power supply 114, and the bus 102. In some implementations, multiple sensors may be included in the device 100, such as, for example, a lidar unit, a microphone, an RGB-D sensing device, an ultrasonic unit, or a pressure sensor. The above-mentioned sensors may capture, detect, or determine one or more conditions of the operating environment of the device 100 for computing and communication.

プロセッサ106およびメモリ104に加えて、装置100は、I/Oコンポーネント110を含むことができる。I/Oコンポーネント110は、ユーザー入力を受信することができる。I/Oコンポーネント110は、ユーザー入力をバス102、供給電源114、メモリ104、通信ユニット108、センサ112、プロセッサ106、またはそれらの組み合わせに送信することができる。I/Oコンポーネント110は、視覚的出力または表示出力を個人に提供することができる。いくつかの実装形態では、I/Oコンポーネント110は、信号および/またはデータを送信するための通信デバイスから形成することができる。 In addition to the processor 106 and memory 104, the device 100 may include an I/O component 110. The I/O component 110 may receive user input. The I/O component 110 may transmit the user input to the bus 102, the power supply 114, the memory 104, the communication unit 108, the sensor 112, the processor 106, or a combination thereof. The I/O component 110 may provide a visual or display output to an individual. In some implementations, the I/O component 110 may be formed from a communication device for transmitting signals and/or data.

プロセッサ106およびメモリ104に加えて、装置100は通信ユニット108を含むことができる。装置100は、通信ユニット108を使用して、セルラーデータネットワーク、ワイドエリアネットワーク(WAN)、仮想プライベートネットワーク(VPN)、またはインターネットなどの1つまたは複数の通信ネットワークを介して有線または無線通信プロトコルを使用して別のデバイスと通信することができる。 In addition to the processor 106 and the memory 104, the device 100 may include a communication unit 108. Using the communication unit 108, the device 100 may communicate with another device using wired or wireless communication protocols over one or more communication networks, such as a cellular data network, a wide area network (WAN), a virtual private network (VPN), or the Internet.

プロセッサ106およびメモリ104に加えて、装置100は供給電源114を含むことができる。供給電源114は、バス102、メモリ104、メモリ104などの装置100内の他のコンポーネントに電力を供給することができる。いくつかの実装形態では、供給電源114は、充電式電池などの電池であり得る。いくつかの実装形態では、供給電源114は、外部電源からエネルギーを受け取ることができる電力入力接続を含むことができる。 In addition to the processor 106 and memory 104, the device 100 may include a power supply 114. The power supply 114 may provide power to other components in the device 100, such as the bus 102, the memory 104, and the memory 104. In some implementations, the power supply 114 may be a battery, such as a rechargeable battery. In some implementations, the power supply 114 may include a power input connection capable of receiving energy from an external power source.

プロセッサ106およびメモリ104に加えて、装置100はバス102を含むことができる。供給電源114からの電力信号および内部データ信号は、バス102を介してメモリ104、通信ユニット108、センサ112、プロセッサ106、I/Oコンポーネント110、および供給電源114に分配することができる。 In addition to the processor 106 and memory 104, the device 100 may include a bus 102. Power signals and internal data signals from a power supply 114 may be distributed via the bus 102 to the memory 104, the communication unit 108, the sensors 112, the processor 106, the I/O components 110, and the power supply 114.

立体視表示コンテンツを生成するための装置およびシステムの部分または構成要素は、図1に示されるものに限定されない要素を含むことができることに留意されたい。本開示の範囲から逸脱することなく、立体視表示コンテンツを生成するための装置およびシステムは、立体視表示コンテンツの生成に加えてまたはそれに関連する様々な機能を実行するための、より多くのまたはより少ない部品、構成要素、およびハードウェアまたはソフトウェアモジュールを含むことができる。 It should be noted that the portions or components of the apparatus and systems for generating stereoscopic display content may include elements not limited to those shown in FIG. 1. Without departing from the scope of this disclosure, the apparatus and systems for generating stereoscopic display content may include more or fewer parts, components, and hardware or software modules for performing various functions in addition to or related to generating stereoscopic display content.

図2は、両眼立体視原理を説明するための例示的な図200を示す。図200は、左画像230、右画像240、左光学中心O’(0,0)、右光学中心O’’(0,0)、左焦点L=(X,Y,Z)、右焦点R=(X,Y,Z)、目標点P=(X、Y、Z)を含む。左光学中心O’は、左画像230の中心にあるピクセル点である。右光学中心O’’は、右画像240の中心にある別のピクセル点である。左光学中心O’に対するピクセル座標は、左画像230内の(0,0)である。右光学中心O’’に対するピクセル座標は、右画像240内の(0,0)である。世界座標点(例えば、3D点)としての目標点Pは、左焦点Lを介して左画像230内の2D座標点P’=(Xleft,Y)として変換および投影することができる。右焦点Rを介して、目標点Pを右画像240内の別の2D座標点P’’=(Xright,Y)として変換および投影することができる。左焦点Lと右焦点Rとの間の距離がベースラインbである。 2 shows an exemplary diagram 200 for explaining the binocular stereoscopic principle. The diagram 200 includes a left image 230, a right image 240, a left optical center O'(0,0), a right optical center O''(0,0), a left focal point L=( XL , YL , ZL ), a right focal point R=( XR , YR , ZR ), and a target point P=( XC , YC , ZC ). The left optical center O' is a pixel point at the center of the left image 230. The right optical center O'' is another pixel point at the center of the right image 240. The pixel coordinate for the left optical center O' is (0,0) in the left image 230. The pixel coordinate for the right optical center O'' is (0,0) in the right image 240. A target point P as a world coordinate point (e.g., a 3D point) can be transformed and projected as a 2D coordinate point P′=(X left ,Y) in the left image 230 through a left focal point L. A target point P can be transformed and projected as another 2D coordinate point P″=(X right ,Y) in the right image 240 through a right focal point R. The distance between the left focal point L and the right focal point R is the baseline b.

2D座標点P’および2D座標点P’’は、同じ目標点Pに対して、それぞれ左画像230および右画像240内に投影された2つの点である。左画像230および右画像240内のP’とP’’の水平座標の差(例えば、視差:d=Xleft-Xright)は、目標点Pと2つの焦点(例えば、左焦点Lと右焦点R)との間の距離を評価するために使用することができる。いくつかの実装形態では、目標点Pは、3D物体内の3D世界座標点である。3D物体内の各3D世界座標点は、左画像230と右画像240の内の両方に投影することができる。3D物体の対応するピクセルを見つけて、左画像230と右画像240との間で照合することができる。各ピクセルの視差(たとえば、目標点Pに対する視差:d=Xleft-Xright)を計算でき、計算された視差に基づいて、3D物体に対する視差マップを生成できる。視差マップを使用して世界座標系の3D物体を再構築できる。 The 2D coordinate point P′ and the 2D coordinate point P″ are two projected points in the left image 230 and the right image 240, respectively, for the same target point P. The difference in horizontal coordinates of P′ and P″ in the left image 230 and the right image 240 (e.g., disparity: d= XleftXright ) can be used to estimate the distance between the target point P and two focal points (e.g., the left focal point L and the right focal point R). In some implementations, the target point P is a 3D world coordinate point in a 3D object. Each 3D world coordinate point in the 3D object can be projected in both the left image 230 and the right image 240. Corresponding pixels of the 3D object can be found and matched between the left image 230 and the right image 240. The disparity of each pixel (e.g., disparity for the target point P: d= XleftXright ) can be calculated, and a disparity map for the 3D object can be generated based on the calculated disparity. The disparity map can be used to reconstruct the 3D object in the world coordinate system.

いくつかの実装形態では、人間の左目は、左焦点Lとすることができる。人間の右目は、右焦点Rとすることができる。人間の左目と右目は、周囲の世界のわずかに異なる視野を有する。その場合、ベースラインbは、左目と右目の間の瞳孔間距離(例えば、50~75mm)である。目標点Pは、人間が観察する任意の世界座標点にすることができる。目標点Pは、人間の左目画像と右目画像の両方に投影することができる。左目画像と右目画像との間の対応するピクセルの視差を利用して、目標点Pと人間との間の距離を計算することができる。その場合、人間の脳によって、一対の立体視画像として左目画像と右目画像が使用されて、周囲の世界に対する立体視を生成することができる。 In some implementations, the human's left eye can be the left focal point L. The human's right eye can be the right focal point R. The human's left and right eyes have slightly different views of the surrounding world. In that case, the baseline b is the interpupillary distance between the left and right eyes (e.g., 50-75 mm). The target point P can be any world coordinate point observed by the human. The target point P can be projected onto both the human's left and right eye images. The disparity of corresponding pixels between the left and right eye images can be used to calculate the distance between the target point P and the human. The left and right eye images can then be used by the human's brain as a pair of stereoscopic images to generate a stereoscopic view of the surrounding world.

いくつかの実装形態では、異なる位置にある2つのカメラ(例えば、左カメラと右カメラ)は、同じ3D物体に対して異なる2Dピクセルを含む左画像230と右画像240を生成することができる。左カメラの焦点は、左焦点Lとすることができる。右カメラの焦点は右焦点Rとすることができる。左カメラと右カメラの2つの焦点の間の距離をベースラインbとすることができる。場合によっては、左カメラと右カメラが水平に配置されていない場合、左画像230と右画像240の両方のすべてのピクセルに対する視差マップを正しく示すように、左画像230と右画像240を校正することができる。左画像230および右画像240に対する視差マップを使用して、左カメラおよび右カメラによってキャプチャされた3D環境を再構成するために各ピクセルの深度情報を生成することができる。 In some implementations, two cameras (e.g., left and right cameras) at different positions can generate left image 230 and right image 240 that contain different 2D pixels for the same 3D object. The focus of the left camera can be a left focus L. The focus of the right camera can be a right focus R. The distance between the two focuses of the left and right cameras can be a baseline b. In some cases, if the left and right cameras are not positioned horizontally, the left and right images 230 and 240 can be calibrated to correctly show the disparity maps for all pixels in both the left and right images 230 and 240. The disparity maps for the left and right images 230 and 240 can be used to generate depth information for each pixel to reconstruct the 3D environment captured by the left and right cameras.

いくつかの実装形態では、2つまたはそれ以上の画像センサを備えたステレオカメラを使用して、同じ3D物体に対して異なる2Dピクセルを含む左画像230および右画像240を生成することができる。たとえば、ステレオカメラが2つのイメージセンサ(たとえば、左画像センサと右画像センサ)を含む場合、ステレオカメラを使用して、深度情報を持つ3D物体を再構成できる。左画像センサを使用して、左画像230を生成することができる。右画像センサを使用して、右画像240を生成することができる。左画像センサと右画像センサとの間の水平距離は、ベースラインbとすることができる。視差マップは、周囲の世界のわずかに異なる視野を表す左画像230と右画像240に基づいて計算することができる。 In some implementations, a stereo camera with two or more image sensors can be used to generate left image 230 and right image 240 that contain different 2D pixels for the same 3D object. For example, if the stereo camera includes two image sensors (e.g., a left image sensor and a right image sensor), the stereo camera can be used to reconstruct a 3D object with depth information. The left image sensor can be used to generate the left image 230. The right image sensor can be used to generate the right image 240. The horizontal distance between the left image sensor and the right image sensor can be the baseline b. A disparity map can be calculated based on the left image 230 and the right image 240 that represent slightly different views of the surrounding world.

一般に、両眼立体視の実現は、視差(パララックス)(例えば、視差(ディスパリティ))の原理に基づいてなされる。例えば、図2では、2つの画像(例えば、左画像230と右画像240)が行に整列されており、これは、左画像230と右画像240が同じ平面内にあることを意味する。目標点Pは、左画像230と右画像240にそれぞれ異なるピクセル座標で投影することができる。ピクセル座標の差(例えば、視差:d=Xleft-Xright)を使用して、目標点Pと2つの画像(例えば、左画像230と右画像240)との間の距離を計算することができる。計算された距離情報は、世界中の3D物体を再構成するために使用できる。 In general, binocular stereoscopic vision is realized based on the principle of parallax (e.g., disparity). For example, in FIG. 2, two images (e.g., left image 230 and right image 240) are aligned in a row, which means that the left image 230 and the right image 240 are in the same plane. A target point P can be projected in the left image 230 and the right image 240 with different pixel coordinates, respectively. The difference in pixel coordinates (e.g., disparity: d=X left -X right ) can be used to calculate the distance between the target point P and the two images (e.g., left image 230 and right image 240). The calculated distance information can be used to reconstruct 3D objects in the world.

図3は、本開示のいくつかの実装形態に従って立体視表示コンテンツを生成するための例示的なプロセス300のフローチャートである。プロセス300は、図1の装置100内のソフトウェアおよび/またはハードウェアモジュールとして実装することができる。例えば、プロセス300は、図1の装置100などのカメラのプロセッサ106によって実行可能な命令および/またはデータとしてメモリ104に格納されたソフトウェアモジュールとして実装することができる。別の例では、プロセス300は、特殊チップにより実行可能な命令を記憶する特殊チップとしてハードウェアで実装することができる。プロセス300の動作の一部またはすべては、図4に関連して以下に説明するような視差マップを使用して実装することができる。上述のように、本明細書に記載される開示の態様のすべてまたは一部は、ここに記載されている実行されるとそれぞれの技術、アルゴリズム、および/または指示のいずれかを実行するコンピュータプログラムを備えた汎用コンピュータ/プロセッサを使用して実装することができる。追加的にまたは代替的に、例えば、本明細書に記載の技術、アルゴリズム、または命令のいずれかを実行するための特殊なハードウェアを含み得る専用コンピュータ/プロセッサを利用することができる。 3 is a flow chart of an exemplary process 300 for generating stereoscopic display content according to some implementations of the present disclosure. The process 300 can be implemented as a software and/or hardware module in the device 100 of FIG. 1. For example, the process 300 can be implemented as a software module stored in the memory 104 as instructions and/or data executable by the processor 106 of a camera such as the device 100 of FIG. 1. In another example, the process 300 can be implemented in hardware as a specialized chip that stores instructions executable by the specialized chip. Some or all of the operations of the process 300 can be implemented using a disparity map as described below in connection with FIG. 4. As mentioned above, all or some of the aspects of the disclosure described herein can be implemented using a general-purpose computer/processor with a computer program that, when executed, executes any of the respective techniques, algorithms, and/or instructions described herein. Additionally or alternatively, a special-purpose computer/processor can be utilized that may include, for example, specialized hardware for executing any of the techniques, algorithms, or instructions described herein.

動作302では、第1の赤緑青(RGB)画像および深度画像が、プロセッサを使用して赤緑青プラス距離(RGB-D)画像から取得することができる。例えば、プロセッサは、図1のプロセッサ106であってもよい。場合によっては、図1の装置100のセンサ112は、装置100の動作環境においてRGB-D画像を取得するために使用することができる。RGB-D画像は、バス102を介してプロセッサ106に送信され、RGB画像および深度画像を取得することができる。深度画像は、RGB画像内の対応する物体(または複数の対応する物体)の距離情報を示す。 In operation 302, a first red-green-blue (RGB) image and a depth image can be obtained from the red-green-blue plus distance (RGB-D) image using a processor. For example, the processor can be the processor 106 of FIG. 1. In some cases, the sensor 112 of the device 100 of FIG. 1 can be used to obtain an RGB-D image in the operating environment of the device 100. The RGB-D image can be transmitted to the processor 106 via the bus 102 to obtain an RGB image and a depth image. The depth image indicates distance information of a corresponding object (or multiple corresponding objects) in the RGB image.

一例として図5を用いて、RGB-D画像は、RGB-Dセンサ502によって取得することができる。RGB-D画像は、任意の技術によって処理して、RGB画像512および深度画像514を取得することができる。いくつかの実装形態では、RGB-D画像はRGB-Dセンサによってキャプチャできる。例えば、RGB-Dセンサは、図1のセンサ112とすることができる。RGB画像512は、例えば、人間、動物、ソファ、机、および他の物体などの様々な物体を含むことができる。深度画像514では、図5では異なる距離を示すために異なる影付きが使用されており、より濃い色合いは距離がより近いことを示す。深度画像514は、RGB画像512内の対応する物体の距離を示す。 Using FIG. 5 as an example, the RGB-D image can be acquired by an RGB-D sensor 502. The RGB-D image can be processed by any technique to obtain an RGB image 512 and a depth image 514. In some implementations, the RGB-D image can be captured by an RGB-D sensor. For example, the RGB-D sensor can be the sensor 112 of FIG. 1. The RGB image 512 can include various objects, such as, for example, humans, animals, sofas, desks, and other objects. In the depth image 514, different shading is used in FIG. 5 to indicate different distances, with darker shading indicating closer distances. The depth image 514 indicates the distance of the corresponding object in the RGB image 512.

いくつかの実装形態では、深度画像内のピクセルは、RGB-DセンサとRGB-D画像内のキャプチャされた対応する物体との間の距離を示す。たとえば、RGB-D画像内のピクセルは深度画像内のピクセルに対応することができる。RGB-D画像内のピクセルは、物体に属する点を示している。深度画像内の同じ位置にある対応するピクセルは、対応する物体とRGB-Dセンサとの間の距離を示すことができる。 In some implementations, a pixel in the depth image indicates the distance between the RGB-D sensor and a corresponding object captured in the RGB-D image. For example, a pixel in the RGB-D image can correspond to a pixel in the depth image. The pixel in the RGB-D image indicates a point that belongs to an object. A corresponding pixel at the same location in the depth image can indicate the distance between the corresponding object and the RGB-D sensor.

図5の例において、深度画像514内のピクセルは、RGB-Dセンサ502と、RGB画像512内でキャプチャされた対応する物体との間の距離を示す。対応する物体には、例えば、物体516(例えば、おもちゃのクマ)が含まれ得る。RGB画像512内の各ピクセルは、物体(例えば、物体516)に関連付けることができる。RGB画像512内の各ピクセルに対する深度画像514内の対応するピクセルは、RGB-Dセンサ502と対応する物体との間の距離を示す。 5, pixels in depth image 514 indicate the distance between RGB-D sensor 502 and a corresponding object captured in RGB image 512. The corresponding object may include, for example, object 516 (e.g., a toy bear). Each pixel in RGB image 512 may be associated with an object (e.g., object 516). The corresponding pixel in depth image 514 for each pixel in RGB image 512 indicates the distance between RGB-D sensor 502 and the corresponding object.

図3に戻ると、動作304において、RGB-D画像に基づく第1の視差マップは、深度画像内の深度値に基づいて決定することができ、第1の視差マップは、一対の立体視画像に変換される第1のRGB画像に対する複数の視差値を含む。いくつかの場合では、第1の視差マップは、第1のRGB画像に対する複数の視差値を含み、第1のRGB画像の中での視差値は一対の立体視画像を生成するために使用することができる。 Returning to FIG. 3, in operation 304, a first disparity map based on the RGB-D image can be determined based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images. In some cases, the first disparity map includes a plurality of disparity values for the first RGB image, and the disparity values in the first RGB image can be used to generate a pair of stereoscopic images.

各ピクセルの視差値は、例として図4を使用して深度画像内の深度値に基づいて決定することができる。図4は、本開示のいくつかの実装形態による人間の左目と右目の視差値を決定する一例を示す図である。例えば、図4において、目標点Oの距離は距離Zであり、目標点Oに対する視差値はf*b/Zであり、ただし、fは焦点距離、bは左目Eと右目Eとの間の瞳孔間距離であり、Zは目標点OとRGB-Dセンサ間の距離である。図4の三角測量関係から、第1のRGB画像内の各ピクセルについて、対応する視差値を決定することができる(例えば、f*b/Z)。一般に、三角測量関係に基づいて、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を使用して、第1のRGB画像(たとえば、RGB画像)内の各ピクセルの視差値を決定することができる。図4によれば、第1の視差マップ内の視差値は、例えば、以下に説明する式(5)を使用して決定することができる。 The disparity value of each pixel can be determined based on the depth value in the depth image using FIG. 4 as an example. FIG. 4 is a diagram illustrating an example of determining disparity values for the left and right eyes of a human according to some implementations of the present disclosure. For example, in FIG. 4, the distance of the target point O is distance Z, and the disparity value for the target point O is f*b/Z, where f is the focal length, b is the interpupillary distance between the left eye E1 and the right eye E2 , and Z is the distance between the target point O and the RGB-D sensor. From the triangulation relationship in FIG. 4, for each pixel in the first RGB image, a corresponding disparity value can be determined (e.g., f*b/Z). In general, based on the triangulation relationship, the depth value, focal length, and interpupillary distance of each pixel in the depth image can be used to determine the disparity value of each pixel in the first RGB image (e.g., RGB image). According to FIG. 4, the disparity value in the first disparity map can be determined, for example, using Equation (5) described below.

図5の例では、RGB-D画像は、RGB-Dセンサ502によって取得することができる。深度画像514内のピクセルは、RGB画像512内の対応する物体とRGB-Dセンサとの間の距離(すなわち、深度)を示す。例えば、RGB画像512内の物体516に対する距離は、深度画像514内に表示される。深度画像514内の各ピクセルの深度に基づいて、RGB画像512に対する全体視差マップ522を決定することができる。いくつかの実装形態では、全体視差マップ522は、左目と右目の間の瞳孔間距離、各ピクセルの深度値、およびRGB-Dセンサの焦点距離を使用して決定することができる。例えば、全体視差マップ522は、以下に説明するように、式(5)を使用して決定することができる。例えば、物体516は、グレースケールで表される視差値として図5の全体視差マップ522に示されている。そして以下に説明するように、全体視差マップ522を使用して、RGB画像を一対の立体視画像(例えば、左目画像542および右目画像544)に変換することができる。 In the example of FIG. 5, an RGB-D image can be acquired by an RGB-D sensor 502. A pixel in a depth image 514 indicates a distance (i.e., depth) between a corresponding object in the RGB image 512 and the RGB-D sensor. For example, the distance for an object 516 in the RGB image 512 is displayed in the depth image 514. Based on the depth of each pixel in the depth image 514, a global disparity map 522 for the RGB image 512 can be determined. In some implementations, the global disparity map 522 can be determined using the interpupillary distance between the left and right eyes, the depth value of each pixel, and the focal length of the RGB-D sensor. For example, the global disparity map 522 can be determined using equation (5), as described below. For example, the object 516 is shown in the global disparity map 522 of FIG. 5 as a disparity value represented in grayscale. The global disparity map 522 can then be used to convert the RGB image into a pair of stereoscopic images (e.g., left-eye image 542 and right-eye image 544), as described below.

いくつかの実装形態では、第1の視差マップは2次元(2D)マトリックスであり、各要素が視差値を示す。一例として図5を使用すると、第1の視差マップ(例えば、全体視差マップ522)は、深度画像514およびRGB画像512に基づいて決定することができる。全体視差マップ522は2Dマトリックスであってもよく、各要素がRGB画像512内のピクセルの視差値を示す。 In some implementations, the first disparity map is a two-dimensional (2D) matrix, with each element indicating a disparity value. Using FIG. 5 as an example, the first disparity map (e.g., global disparity map 522) can be determined based on the depth image 514 and the RGB image 512. The global disparity map 522 can be a 2D matrix, with each element indicating a disparity value for a pixel in the RGB image 512.

いくつかの実装形態では、第1の視差マップは、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用して決定することができる。一例として図4を使用すれば、焦点距離f、左目Eと右目Eの間の瞳孔間距離b、および距離Zに基づいて、目標点Oに対する第1の視差マップ内の視差値(例えば、f*(b/(z(x,y))))を決定することができる。例えば、視差値は、以下に説明する式(5)を使用して決定することができる。 In some implementations, the first disparity map can be determined using at least one of the focal length f or the interpupillary distance b. Using FIG. 4 as an example, a disparity value (e.g., f*(b/(z(x,y)))) in the first disparity map for the target point O can be determined based on the focal length f, the interpupillary distance b between the left eye E1 and the right eye E2, and the distance Z. For example, the disparity value can be determined using equation (5) described below.

図5の例では、RGB画像512内のピクセルは、深度画像514内の距離に関連付けられる。焦点距離fまたは瞳孔間距離bは、公開データから事前に定義することも、手動入力によって設定することもできる。焦点距離fおよび距離を備える瞳孔間距離bを使用して、RGB画像512に対する全体視差マップ522を決定することができる。 In the example of FIG. 5, pixels in the RGB image 512 are associated with distances in the depth image 514. The focal length f or interpupillary distance b can be predefined from public data or set by manual input. The focal length f and interpupillary distance b with distance can be used to determine a global disparity map 522 for the RGB image 512.

図3に戻ると、動作306において、視差分配比を用いて第1の視差マップを変換することにより、第2の視差マップおよび第3の視差マップを決定することができる。言い換えれば、第2の視差マップと第3の視差マップは、視差分配比を用いて同じ元の視差マップに基づいて決定することができる。いくつかの実装形態では、第1の視差マップは、例えば式(1)を使用して第2の視差マップに変換され、視差分配比kに基づいて、例えば下記の式(2)を使用して第3の視差マップに変換することができる。

Figure 2024062935000002
Figure 2024062935000003
ただし、d(x,y)は第2のパリティマップ内の視差値であり、d(x,y)は第3パリティマップ内の視差値である。d(x,y)は第1のパリティマップの視差値であり、z(x,y)はRGB-DセンサとRGB画像内のピクセル(x,y)に関連付けられた対応する物体との間の距離を示し、kは視差分配比である。ただし、視差分配比は、左目と右目との間の観察点の位置を示す定数値であり得る。いくつかの実装形態では、視差分配比kは、事前に設定された一定値であり得る。 Returning to FIG. 3 , in operation 306, a second disparity map and a third disparity map can be determined by transforming the first disparity map using a disparity distribution ratio. In other words, the second disparity map and the third disparity map can be determined based on the same original disparity map using a disparity distribution ratio. In some implementations, the first disparity map can be transformed into the second disparity map, for example using equation (1), and then transformed into the third disparity map based on the disparity distribution ratio k, for example using equation (2) below.
Figure 2024062935000002
Figure 2024062935000003
where d L (x,y) is the disparity value in the second parity map, d R (x,y) is the disparity value in the third parity map, d(x,y) is the disparity value of the first parity map, z(x,y) indicates the distance between the RGB-D sensor and the corresponding object associated with pixel (x,y) in the RGB image, and k is the disparity distribution ratio, where the disparity distribution ratio may be a constant value indicating the position of the observation point between the left eye and the right eye. In some implementations, the disparity distribution ratio k may be a preset constant value.

いくつかの実装形態では、第2の視差マップおよび第3の視差マップは、式(1)および(2)を使用せずに他の方法で第1の視差マップから決定することができる。例えば、第2の視差マップおよび第3の視差マップは、視差分配比kに加えてオフセットを用いて決定することができる。 In some implementations, the second and third disparity maps can be determined from the first disparity map in other ways without using equations (1) and (2). For example, the second and third disparity maps can be determined using an offset in addition to the disparity distribution ratio k.

第1のパリティマップに対する視差値d(x,y)は、例えば、下記の式(5)を使用して決定することができる。この式において、fは焦点距離、bは左目と右目の間の瞳孔間距離である。 The disparity value d(x,y) for the first parity map can be determined, for example, using equation (5) below, where f is the focal length and b is the interpupillary distance between the left and right eyes.

一例として図4を用いて、目標点Oに対する第1のパリティマップでの視差値d(x,y)は、焦点距離f(例えば、f=f=f)、瞳孔間距離b、および距離Zに基づいて決定することができる。視差分配比kに基づいて、目標点Oに対して、第2のパリティマップの視差値d(x,y)と第3のパリティマップの視差値d(x,y)とは、式(1)および(2)を用いて、上述したように決定できる。 4 as an example, the disparity value d(x,y) in the first parity map for the target point O can be determined based on the focal length f (e.g., f= f1 = f2 ), the interpupillary distance b, and the distance Z. Based on the disparity distribution ratio k, the disparity value dL (x,y) in the second parity map and the disparity value dR (x,y) in the third parity map for the target point O can be determined as described above using equations (1) and (2).

図5の例では、RGB画像512および深度画像514に基づいて、全体視差マップ522を決定することができる。視差分配比kに基づいて、左視差マップ534および右視差マップ536は、それぞれ以下に説明する式(3)および(4)を使用して決定することができる。左視差マップ534および右視差マップ536を使用して、RGB画像を一対の立体視画像に変換することができる。 In the example of FIG. 5, a global disparity map 522 can be determined based on the RGB image 512 and the depth image 514. Based on the disparity distribution ratio k, a left disparity map 534 and a right disparity map 536 can be determined using equations (3) and (4), respectively, described below. The left disparity map 534 and the right disparity map 536 can be used to convert the RGB image into a pair of stereoscopic images.

図3に戻ると、動作308で、第2のRGB画像および第3のRGB画像を含む一対の立体視画像をプロセッサによって生成することができる。第2のRGB画像は、第2の視差マップに基づいて、第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成される。第3のRGB画像は、第3の視差マップに基づいて第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成される。 Returning to FIG. 3, at operation 308, a pair of stereoscopic images including a second RGB image and a third RGB image may be generated by a processor. The second RGB image is generated by shifting a first set of pixels in the first RGB image based on the second disparity map. The third RGB image is generated by shifting a second set of pixels in the first RGB image based on the third disparity map.

第2の視差マップおよび第3の視差マップ内の視差値を使用して、第1のRGB画像内のピクセルを左または右に水平にシフトして、第2のRGB画像および第3のRGB画像を生成することができる。いくつかの実装形態では、プロセッサ(例えば、プロセッサ106)は、式(3)を使用して第2の視差マップ(例えば、図5の左視差マップ534)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第1のピクセルのセットをシフトすることによって、第2のRGB画像(例えば、図5の右視差マップ536)を生成することができる。プロセッサは、式(4)を使用して第3の視差マップ(例えば、図5の右視差マップ536)に基づいて、第1のRGB画像(例えば、図5のRGB画像532)内の第2のピクセルのセットをシフトすることによって、第3のRGB画像(例えば、図5の右目画像544)を生成することができる。

Figure 2024062935000004
Figure 2024062935000005
The disparity values in the second and third disparity maps can be used to shift pixels in the first RGB image horizontally to the left or right to generate the second and third RGB images. In some implementations, a processor (e.g., processor 106) can generate the second RGB image (e.g., right disparity map 536 of FIG. 5 ) by shifting a first set of pixels in the first RGB image (e.g., RGB image 532 of FIG. 5 ) based on the second disparity map (e.g., left disparity map 534 of FIG. 5 ) using equation (3). The processor can generate the third RGB image (e.g., right-eye image 544 of FIG. 5 ) by shifting a second set of pixels in the first RGB image (e.g., RGB image 532 of FIG. 5 ) based on the third disparity map (e.g., right disparity map 536 of FIG. 5 ) using equation (4).
Figure 2024062935000004
Figure 2024062935000005

式(3)および(4)において、Pixel(x,y)は第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))はピクセル(x,y)に対するRGBカラーであり、式(1)のd(x,y)を参照するdは第2の視差マップにおける視差値を示し、d(x,y)を参照するdは、第3の視差マップにおける視差値を示す。 In equations (3) and (4), Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y), dL referring to dL (x,y) in equation (1) indicates the disparity value in the second disparity map, and dR referring to dR (x,y) indicates the disparity value in the third disparity map.

いくつかの実装形態では、第2の視差マップおよび第3の視差マップ内の視差値は、式(3)および(4)を使用せずに他の方法で決定することができる。いくつかの実装形態では、視差値を決定するために、上述の水平方向のシフトに加えて、例えば、追加の1つのピクセルまたは追加の複数のピクセルを上部または下部に追加できる。いくつかの実装形態では、水平方向のシフトに加えて、追加のピクセル(複数可)を左または右に追加することができる。 In some implementations, the disparity values in the second and third disparity maps can be determined in other ways without using equations (3) and (4). In some implementations, in addition to the horizontal shift described above, for example, an additional pixel or additional pixels can be added to the top or bottom to determine the disparity values. In some implementations, in addition to the horizontal shift, additional pixel(s) can be added to the left or right.

一例として図5を用いると、RGB画像532は、第1のRGB画像であり得る。左視差マップ534は、第2の視差マップであり得る。右視差マップ536は、第3の視差マップであり得る。左視差マップ534および右視差マップ536は、上述のように、視差分配比kに基づいて全体視差マップ522を変換することによって決定することができる。左視差マップ534に基づいて、RGB画像532内の第1のピクセルのセットを変換することによって、左目画像542を生成することができる。例えば、式(3)を左視差マップ534とともに使用して、左目画像542を生成することができる。式(4)を右視差マップ536とともに使用して、右目画像544を生成することができる。左目画像542および右目画像544は、一対の立体視画像であり得る。 5 as an example, RGB image 532 may be a first RGB image. Left disparity map 534 may be a second disparity map. Right disparity map 536 may be a third disparity map. Left disparity map 534 and right disparity map 536 may be determined by transforming global disparity map 522 based on disparity distribution ratio k, as described above. Left eye image 542 may be generated by transforming a first set of pixels in RGB image 532 based on left disparity map 534. For example, equation (3) may be used with left disparity map 534 to generate left eye image 542. Equation (4) may be used with right disparity map 536 to generate right eye image 544. Left eye image 542 and right eye image 544 may be a pair of stereoscopic images.

いくつかの実装形態では、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された一対の調整された表示画像が、一対の立体視画像に基づいて、プロセッサ(例えば、プロセッサ106)によって生成することができる。一例として図5を用いると、一対の立体視画像は、左目画像542と右目画像544を含む。拡張現実(AR)、仮想現実(VR)、複合現実(MR)装置の表示要件に合わせてサイズ変更された、調整された一対の調整された表示画像は、例えば、左目画像542および右目画像544に基づいて生成され得る左表示画像552および右表示画像554を含むことができる。 In some implementations, a pair of adjusted display images resized for the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device can be generated by a processor (e.g., processor 106) based on the pair of stereoscopic images. Using FIG. 5 as an example, the pair of stereoscopic images includes a left eye image 542 and a right eye image 544. The pair of adjusted display images resized for the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device can include, for example, a left display image 552 and a right display image 554, which can be generated based on the left eye image 542 and the right eye image 544.

図4は、本開示のいくつかの実装形態による人間の左目と右目の視差計算例400の図である。図4は、左目E、右目E、目標点O、左目Eと右目Eの間の瞳孔間距離b、目標点OとRGBセンサ間の距離Z、左目Eに対する焦点距離f、右目Eに対する焦点距離f、左目Eの画像面における目標点Oの投影点O’、右目Eの画像面における目標点Oの投影点O’、左目Eの画像面における原点C’、右目Eの画像面における原点C’を含むことができる。一般性を失うことなく、左目の焦点距離fは右目の焦点距離fに等しく、fとfは両方ともfに等しい。 4 is a diagram of an example disparity calculation 400 for the left and right eyes of a human being according to some implementations of the present disclosure. FIG. 4 may include a left eye E 1 , a right eye E 2 , a target point O, an interpupillary distance b between the left eye E 1 and the right eye E 2 , a distance Z between the target point O and an RGB sensor, a focal length f 1 for the left eye E 1 , a focal length f 2 for the right eye E 2 , a projection point O 1 ' of the target point O in the image plane of the left eye E 1 , a projection point O 2 ' of the target point O in the image plane of the right eye E 2 , an origin C 1 ' in the image plane of the left eye E 1 , and an origin C 2 ' in the image plane of the right eye E 2 . Without loss of generality, the focal length f 1 of the left eye is equal to the focal length f 2 of the right eye, and both f 1 and f 2 are equal to f.

人間の左目Eと右目Eは、水平方向に瞳孔間距離bだけ離れている。これにより、目標点Oを、左目Eの画像および右目Eの画像のそれぞれにおいて異なる位置(例えば、投影点O’および投影点O’)に投影することができる。投影点O’は、左目Eの画像面において原点C’の左側に投影される。左目Eの画像面における投影点O’と原点C’との間のピクセル距離はU1である。投影点O’は、右目Eの画像面において原点C’の右側に投影される。右目Eの画像面における投影点O’と原点C’との間のピクセル距離はU2である。ピクセル位置の差は、目標点Oの視差値である。左目Eの画像面におけるすべてのピクセルは、右目Eの画像面における同じ位置にあるピクセルと一致させることができる。視差マップは、左目Eの画像面と右目Eの画像面との間のピクセル位置の差に基づいて生成することができる。 The left eye E1 and the right eye E2 of a human being are separated by an interpupillary distance b in the horizontal direction. This allows the target point O to be projected to different positions (e.g., projection points O1 ' and O2 ') in the image of the left eye E1 and the image of the right eye E2 , respectively. The projection point O1 ' is projected to the left of the origin C1 ' in the image plane of the left eye E1 . The pixel distance between the projection point O1 ' and the origin C1 ' in the image plane of the left eye E1 is U1. The projection point O2 ' is projected to the right of the origin C2 ' in the image plane of the right eye E2 . The pixel distance between the projection point O2 ' and the origin C2 ' in the image plane of the right eye E2 is U2. The difference in pixel positions is the disparity value of the target point O. Every pixel in the image plane of the left eye E1 can be matched with a pixel at the same position in the image plane of the right eye E2 . A disparity map can be generated based on the difference in pixel positions between the left eye E1 image plane and the right eye E2 image plane.

いくつかの実装形態では、深度画像内の各ピクセルは、RGDセンサと対応する物体との間の距離を示す。例えば、図4において、目標点Oに対する距離は距離Zである。投影点O’と投影点O’との間のピクセル距離差は|U1|+|U2|である。図4の三角測量の関係から、|U1|+|U2|は(b*f)/Zに等しく、ただし、bは左目Eと右目Eの間の瞳孔間距離、fは左目Eと右目Eに対する焦点距離、Zは目標点OとRGBセンサの間の距離である。したがって、b/Z*fは目標点Oに対する視差値である。RGB画像内の各ピクセルの視差値は、深度画像内の各ピクセルの深度値、焦点距離、および瞳孔間距離を利用して三角測量関係を使用して決定できる。視差マップは、たとえば次の式を使用して、左目Eの画像面と右目Eの画像面のすべてのピクセルに対して取得できる。

Figure 2024062935000006
In some implementations, each pixel in the depth image indicates the distance between the RGD sensor and the corresponding object. For example, in FIG. 4, the distance for the target point O is distance Z. The pixel distance difference between the projection points O 1 ' and O 2 ' is |U1|+|U2|. From the triangulation relationship in FIG. 4, |U1|+|U2| is equal to (b*f)/Z, where b is the interpupillary distance between the left eye E 1 and the right eye E 2 , f is the focal length for the left eye E 1 and the right eye E 2 , and Z is the distance between the target point O and the RGB sensor. Thus, b/Z*f is the disparity value for the target point O. The disparity value for each pixel in the RGB image can be determined using the triangulation relationship utilizing the depth value, focal length, and interpupillary distance for each pixel in the depth image. A disparity map can be obtained for all pixels in the image planes of the left eye E 1 and the right eye E 2 , for example, using the following equation:
Figure 2024062935000006

式(5)において、z(x,y)は、RGB-Dセンサと、RGB画像内のピクセル(x、y)に関連付けられた対応する物体との間の距離を示す。z(x,y)は、RGB-Dセンサによって生成された深度画像から取得できる。式(5)のf(例えば、f=f=f)は、左目Eと右目Eに対する焦点距離である。d(x,y)は視差マップの各要素を示す。いくつかの実装形態では、図3による視差マップの計算は、動作304で実行できる。 In equation (5), z(x,y) denotes the distance between the RGB-D sensor and the corresponding object associated with pixel (x,y) in the RGB image. z(x,y) can be obtained from a depth image generated by the RGB-D sensor. f (e.g., f= f1 = f2 ) in equation (5) is the focal length for the left eye E1 and the right eye E2 . d(x,y) denotes each element of the disparity map. In some implementations, the calculation of the disparity map according to FIG. 3 can be performed in operation 304.

図5は、本開示のいくつかの実装形態に従って、一対の立体視画像を生成するための例示的なワークフローである。1つまたは複数のRGB-Dセンサ(例えば、RGB-Dセンサ502)を使用して、RGB-D画像を取得することができる。取得されたRGB-D画像からRGB画像512と深度画像514を取得することができる。深度画像514は、RGB画像512内の対応する物体の距離を示す。例えば、物体516がRGB画像512内に表示され、物体516に対する距離が深度画像514内に示される。いくつかの実装形態では、例えば、図3によれば、RGB-D画像の取得は動作302で実行できる。 5 is an example workflow for generating a pair of stereoscopic images according to some implementations of the present disclosure. An RGB-D image can be acquired using one or more RGB-D sensors (e.g., RGB-D sensor 502). An RGB image 512 and a depth image 514 can be acquired from the acquired RGB-D image. The depth image 514 shows the distance of a corresponding object in the RGB image 512. For example, an object 516 is displayed in the RGB image 512, and the distance to the object 516 is shown in the depth image 514. In some implementations, for example, according to FIG. 3, acquiring the RGB-D image can be performed in operation 302.

全体視差マップ522は、例えば、深度画像514内の距離に基づいてRGB画像512に対して決定することができる。RGB画像512に対する全体視差マップ522内の視差値は、深度画像514内の距離、焦点距離、および瞳孔間距離(例えば、図4の焦点距離f=f=f、瞳孔間距離b)に基づいて計算することができる。RGB画像512に対する全体視差マップ522の視差値は、例えば、深度画像514内の距離、焦点距離、および瞳孔間距離に基づく三角測量関係を有する式(5)を用いて計算することができる。例えば、全体視差マップ522内の物体516に対するいくつかのピクセルは、物体516に対する視差値を示す。いくつかの実装形態において、例えば、図3によれば、全体視差マップ522の決定は、動作304で実行できる。 The global disparity map 522 can be determined for the RGB image 512 based on, for example, the distance in the depth image 514. The disparity values in the global disparity map 522 for the RGB image 512 can be calculated based on the distance in the depth image 514, the focal length, and the interpupillary distance (e.g., focal length f= f1 = f2 , interpupillary distance b in FIG. 4). The disparity values of the global disparity map 522 for the RGB image 512 can be calculated using, for example, Equation (5) having a triangulation relationship based on the distance in the depth image 514, the focal length, and the interpupillary distance. For example, some pixels for the object 516 in the global disparity map 522 indicate a disparity value for the object 516. In some implementations, for example according to FIG. 3, the determination of the global disparity map 522 can be performed in operation 304.

左視差マップ534は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。右視差マップ536は、全体視差マップ522を変換することによって視差分配kに基づいて決定することができる。視差分配kに基づいて、全体視差マップ522内の視差値を、ある部分の左視差マップ534と右視差マップ536に割り当てることができる。例えば、視差分配kを使用して左視差マップ534と右視差マップ536を決定できる。前述したように、式(1)および(2)は、視差マップを決定するために使用することができる。いくつかの実装形態では、例えば、図3によれば、左視差マップ534および右視差マップ536の決定は、動作306で実行できる。 The left disparity map 534 can be determined based on the disparity distribution k by transforming the global disparity map 522. The right disparity map 536 can be determined based on the disparity distribution k by transforming the global disparity map 522. Based on the disparity distribution k, the disparity values in the global disparity map 522 can be assigned to the left disparity map 534 and the right disparity map 536 of a portion. For example, the left disparity map 534 and the right disparity map 536 can be determined using the disparity distribution k. As mentioned above, equations (1) and (2) can be used to determine the disparity maps. In some implementations, for example according to FIG. 3, the determination of the left disparity map 534 and the right disparity map 536 can be performed in operation 306.

一対の立体視画像は、左視差マップ534および右視差マップ536に基づいて生成することができる。左目画像542は、RGB画像532内のピクセルのセットを変換することによって、左視差マップ534に基づいて生成することができる(例えば、RGB画像512)。右目画像544は、RGB画像532内の別のピクセルのセットを変換することによって、右視差マップ536に基づいて生成することができる(例えば、RGB画像512)。左目画像542と右目画像544は、一対の立体視画像である。左目画像542は、RGB画像532内のピクセルのセットを水平にシフトする式(3)を用いて生成することができる。右目画像544は、RGB画像532内のピクセルのセットを水平にシフトするために式(4)を用いて生成することができる。いくつかの実装形態では、例えば、図3によれば、一対の立体視画像の生成は、動作308で実行できる。 A pair of stereoscopic images can be generated based on the left disparity map 534 and the right disparity map 536. The left eye image 542 can be generated based on the left disparity map 534 by transforming a set of pixels in the RGB image 532 (e.g., the RGB image 512). The right eye image 544 can be generated based on the right disparity map 536 by transforming another set of pixels in the RGB image 532 (e.g., the RGB image 512). The left eye image 542 and the right eye image 544 are a pair of stereoscopic images. The left eye image 542 can be generated using equation (3) to horizontally shift a set of pixels in the RGB image 532. The right eye image 544 can be generated using equation (4) to horizontally shift a set of pixels in the RGB image 532. In some implementations, for example according to FIG. 3, the generation of the pair of stereoscopic images can be performed in operation 308.

左目画像542と右目画像は、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件を満たす左表示画像552および右表示画像554を生成するために、ズームおよびトリミングしてサイズを変更できる。 The left-eye image 542 and the right-eye image can be zoomed and cropped to generate left display image 552 and right display image 554 that meet the display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.

本明細書で説明される本開示の態様は、機能ブロックコンポーネントおよびさまざまな処理動作の観点から説明することができる。開示されたプロセスおよびシーケンスは、単独で実行することも、任意の組み合わせで実行することもできる。機能ブロックは、指定された機能を実行する任意の数のハードウェアおよび/またはソフトウェアコンポーネントによって実現できる。例えば、記載された態様は、1つまたは複数のマイクロプロセッサまたはその他の制御デバイスの制御下でさまざまな機能を実行可能な、例えば、メモリ素子、処理素子、論理素子、ルックアップテーブルなどの様々な集積回路コンポーネントを使用することができる。同様に、説明された態様の要素がソフトウェアプログラミングまたはソフトウェア要素を使用して実装される場合、本開示は、C、C++、Java、アセンブラなどの任意のプログラミングまたはスクリプト言語を使用して、データ構造、オブジェクト、プロセス、ルーチン、またはその他のプログラミング要素を任意に組み合わせて実装されるさまざまなアルゴリズムを使用して実装できる。機能的な側面は、1つ以上のプロセッサ上で実行されるアルゴリズムで実装できる。さらに、本開示の態様は、電子構成、信号処理および/または制御、データ処理などのための任意の数の従来の技術を使用することができる。「メカニズム」と「要素」という言葉は広く使用されており、機械的または物理的な実装や側面に限定されるものではなく、プロセッサなどと連携するソフトウェアルーチンも含まれ得る。 Aspects of the disclosure described herein can be described in terms of functional block components and various processing operations. The disclosed processes and sequences can be performed alone or in any combination. The functional blocks can be realized by any number of hardware and/or software components performing the specified functions. For example, the described aspects can use various integrated circuit components, such as, for example, memory elements, processing elements, logic elements, look-up tables, etc., capable of performing various functions under the control of one or more microprocessors or other control devices. Similarly, where elements of the described aspects are implemented using software programming or software elements, the disclosure can be implemented using various algorithms implemented using any combination of data structures, objects, processes, routines, or other programming elements using any programming or scripting language, such as C, C++, Java, Assembler, etc. Functional aspects can be implemented in algorithms executed on one or more processors. Additionally, aspects of the disclosure can use any number of conventional techniques for electronic configuration, signal processing and/or control, data processing, etc. The terms "mechanism" and "element" are used broadly and are not limited to mechanical or physical implementations or aspects, but can also include software routines that interface with processors or the like.

上記開示の実装または実装の一部は、例えばコンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品の形態をとることができる。コンピュータ使用可能またはコンピュータ可読媒体は、例えば、任意のプロセッサによってまたは任意のプロセッサに関連して使用するためのプログラムまたはデータ構造を有形的に含み、記憶し、通信し、または移送できる任意のデバイスであり得る。媒体は、例えば、電子、磁気、光学、電磁、または半導体デバイスであり得る。他の適切な媒体も利用可能である。このようなコンピュータ使用可能またはコンピュータ可読媒体は、非一時的メモリまたは媒体と呼ばれることがあり、時間の経過とともに変化する可能性のあるRAMまたは他の揮発性メモリまたは記憶装置を含むことができる。本明細書に記載される装置のメモリは、特に指定がない限り、装置に物理的に含まれる必要はないが、装置によってリモートにアクセスできるメモリであり、装置内に物理的に含まれ得る他のメモリと連続している必要はない。 Implementations or parts of implementations of the above disclosure may take the form of a computer program product accessible, for example, from a computer usable or computer readable medium. The computer usable or computer readable medium may be, for example, any device that can tangibly contain, store, communicate, or transport a program or data structure for use by or in association with any processor. The medium may be, for example, an electronic, magnetic, optical, electromagnetic, or semiconductor device. Other suitable media may also be used. Such computer usable or computer readable media may be referred to as non-transitory memory or media, and may include RAM or other volatile memory or storage that may change over time. The memory of the devices described herein need not be physically contained in the device, unless otherwise specified, but may be memory that can be remotely accessed by the device and need not be contiguous with other memories that may be physically contained within the device.

本開示の例として実行されるものとして本明細書で説明される個別の機能または組み合わせられた機能のいずれも、前述のハードウェアの任意のまたは任意の組み合わせを動作させるためのコードの形式で機械可読命令を使用して実装することができる。計算コードは、個別の機能または組み合わせた機能を計算ツールとして実行できる。1つまたは複数のモジュールの形式で実装でき、各モジュールの入出力データは、本明細書に記載の方法およびシステムの動作中に1つまたは複数のさらなるモジュールとの間で受け渡される。 Any of the individual or combination of functions described herein as being performed as examples of the present disclosure may be implemented using machine-readable instructions in the form of code to operate any or any combination of the aforementioned hardware. The computational code may execute the individual or combination of functions as a computational tool. It may be implemented in the form of one or more modules, with input and output data of each module being passed to and from one or more further modules during operation of the methods and systems described herein.

情報、データ、および信号は、さまざまな異なる技術および技法を使用して表現することができる。例えば、本明細書で参照される任意のデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または粒子、光場または粒子、他の項目、または前述のものの組み合わせによって表すことができる。 Information, data, and signals may be represented using a variety of different technologies and techniques. For example, any data, instructions, commands, information, signals, bits, symbols, and chips referred to herein may be represented by voltages, currents, electromagnetic waves, magnetic fields or particles, optical fields or particles, other items, or combinations of the foregoing.

用語「例」は、本明細書では、例、実例、または図示例を提供することを意味するために使用される。本明細書に「例」として記載されるいかなる態様または設計も、必ずしも他の態様または設計よりも好ましいまたは有利であると解釈されるべきではない。むしろ、「例」という言葉の使用は、概念を具体的に示すことを目的としています。さらに、本開示全体を通じて「ある態様」または「一態様」という用語の使用は、そのように記載されない限り、同じ態様または実装を意味することを意図したものではない。 The term "example" is used herein to mean serving as an example, instance, or illustration. Any aspect or design described herein as an "example" is not necessarily to be construed as preferred or advantageous over other aspects or designs. Rather, use of the word "example" is intended to illustrate a concept. Moreover, use of the terms "an embodiment" or "one embodiment" throughout this disclosure is not intended to refer to the same embodiment or implementation unless so described.

本開示で使用される「または」という用語は、それが結合する2つ以上の要素についての排他的な「または」ではなく、包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにAまたはBが含まれる」は、その自然な包含的置換のいずれかを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、または、XにAとBの両方が含まれる場合、この場合、「XにAまたはBが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにAおよびBのいずれか1つが含まれる」は、「XにAまたはBが含まれる」と同等の意味で使用されることが意図されている。本開示で使用される「および/または」という用語は、「および」または包括的な「または」を意味することを意図している。つまり、別段の指定がない限り、または文脈上別段の明確な指示がない限り、「XにA、B、および/またはCが含まれる」は、XがA、B、およびCの任意の組み合わせを含み得ることを意味することを意図している。言い換えれば、XにAが含まれる場合、XにBが含まれる場合、XにCが含まれる場合、XにAとBの両方が含まれる場合、XにBとCの両方が含まれまる場合、XにAとCの両方が含まれる場合、または、XにA、B、およびCのすべてが含まれる場合、この場合、「XにA、B、および/またはCが含まれる」は、前述のいずれかの場合にも満たされる。同様に、「XにA、B、およびCの少なくとも1つが含まれる」は、「XにA、B、および/またはCが含まれる」と同等の意味で使用されることが意図されている。 The term "or" as used in this disclosure is intended to mean an inclusive "or" rather than an exclusive "or" for the two or more elements it binds. That is, unless otherwise specified or unless the context clearly dictates otherwise, "X includes A or B" is intended to mean any of its natural inclusive permutations. In other words, if X includes A, if X includes B, or if X includes both A and B, then "X includes A or B" is satisfied in any of the foregoing cases. Similarly, "X includes any one of A and B" is intended to be used in the same sense as "X includes A or B". The term "and/or" as used in this disclosure is intended to mean "and" or an inclusive "or". That is, unless otherwise specified or unless the context clearly dictates otherwise, "X includes A, B, and/or C" is intended to mean that X may include any combination of A, B, and C. In other words, if X includes A, if X includes B, if X includes C, if X includes both A and B, if X includes both B and C, if X includes both A and C, or if X includes all of A, B, and C, then "X includes A, B, and/or C" is satisfied in any of the foregoing cases. Similarly, "X includes at least one of A, B, and C" is intended to be used equivalently to "X includes A, B, and/or C."

本明細書における用語「含む」または「有する」およびその変形の使用は、その後に列挙される項目およびその等価物、ならびに追加の項目を包含することを意味する。文脈に応じて、本明細書で使用される「場合」という単語は、「時」、「その間」、または「に応じて」と解釈できる。 The use of the terms "including" or "having" and variations thereof herein is meant to encompass the items listed thereafter and equivalents thereof, as well as additional items. Depending on the context, the word "if" as used herein can be interpreted as "at the time," "during," or "depending on."

本開示を説明する文脈(特に特許請求の範囲の文脈)における用語「a」および「an」および「the」および類似の指示対象の使用は、単数形および複数形の両方を包含すると解釈されるべきである。さらに、本明細書に別段の記載がない限り、本明細書における値の範囲の記載は、その範囲内にあるそれぞれの個別の値を個別に参照する簡単な方法として機能することのみを意図しており、それぞれの個別の値は、あたかも本明細書に個別に記載されているかのように明細書に組み込まれる。最後に、本明細書に記載されているすべての方法の操作は、本明細書に別段の指示があるか、文脈と明らかに矛盾しない限り、任意の適切な順序で実行可能である。本明細書で提供されるあらゆる例、または例が説明されていることを示す文言(例えば、「など」)の使用は、単に本開示をより良く理解することを目的としており、別段の定めがない限り、本開示の範囲に制限を課すものではない。 The use of the terms "a" and "an" and "the" and similar referents in the context of describing this disclosure (especially in the context of the claims) should be interpreted to include both the singular and the plural. Furthermore, unless otherwise stated herein, the recitation of a range of values herein is intended only to serve as a shorthand method of individually referring to each individual value within the range, and each individual value is incorporated into the specification as if it were individually set forth herein. Finally, the operations of any method described herein can be performed in any suitable order unless otherwise indicated herein or clearly contradicted by context. Any examples provided herein, or the use of language indicating that an example is described (e.g., "etc.") are intended solely for the purpose of providing a better understanding of the disclosure, and do not impose limitations on the scope of the disclosure, unless otherwise specified.

本明細書では、さまざまな見出しおよび小見出しを付けて説明された。これらは、読みやすさを向上させ、仕様内の資料を検索および参照するプロセスを容易にするために含まれている。これらの見出しおよび小見出しは、特許請求の範囲の解釈に影響を与えたり、その範囲をいかなる形でも制限したりすることを意図したものではなく、使用されるべきではない。本明細書に示され説明される特定の実装は、本開示の例示的な例であり、いかなる形でも本開示の範囲を限定することを意図するものではない。 This specification has been described under various headings and subheadings. These have been included to enhance readability and to facilitate the process of locating and referencing material within the specification. These headings and subheadings are not intended, and should not be used, to affect the interpretation of the claims or to limit their scope in any way. The specific implementations shown and described herein are illustrative examples of the disclosure and are not intended to limit the scope of the disclosure in any way.

本明細書に引用される刊行物、特許出願、および特許を含むすべての参考文献は、あたかも各参考文献が個別かつ具体的に参照により組み込まれると示され、その全体が本明細書に記載されるのと同じ程度に、参照により本明細書に組み込まれる。 All references cited in this specification, including publications, patent applications, and patents, are hereby incorporated by reference to the same extent as if each reference was individually and specifically indicated to be incorporated by reference and was set forth in its entirety herein.

本開示は、特定の実施形態および実装に関連して説明されているが、本開示は、開示された実装に限定されるものではなく、逆に、含まれる様々な修正および同等の構成を網羅することを意図していることを理解されたい。添付の特許請求の範囲の範囲内で、その範囲には、そのようなすべての修正および同等の配置を包含するように、法律の下で許可される最も広い解釈が与えられるべきである。
Although the disclosure has been described in connection with particular embodiments and implementations, it should be understood that the disclosure is not limited to the disclosed implementations, but on the contrary, is intended to cover various modifications and equivalent arrangements included. Within the scope of the appended claims, their scope should be accorded the broadest interpretation permitted under law so as to encompass all such modifications and equivalent arrangements.

Claims (20)

立体視表示コンテンツを生成する方法であって、
プロセッサを使用して、赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップを決定することと、
前記プロセッサによって、第2のRGB画像および第3のRGB画像を含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、を含む方法。
1. A method for generating stereoscopic display content, comprising:
obtaining, using a processor, a first red-green-blue (RGB) image and a depth image from the red-green-blue-plus-distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating, by the processor, the pair of stereoscopic images comprising a second RGB image and a third RGB image, wherein the second RGB image is generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image is generated by shifting a second set of pixels in the first RGB image based on the third disparity map.
前記プロセッサによって、前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成すること、をさらに含む請求項1に記載の方法。 The method of claim 1, further comprising: generating, by the processor, a pair of adjusted display images based on the pair of stereoscopic images, the pair of adjusted display images being resized to fit display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device. 前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項1に記載の方法。 The method of claim 1, wherein the first disparity map is a two-dimensional (2D) matrix, each element of which represents a disparity value. 前記RGB-D画像は、RGB-Dセンサによってキャプチャされる、請求項1に記載の方法。 The method of claim 1, wherein the RGB-D image is captured by an RGB-D sensor. 前記深度画像内のピクセルは、前記RGB-Dセンサと前記RGB画像内のキャプチャされる対応する物体との間の距離を示す、請求項4に記載の方法。 The method of claim 4, wherein a pixel in the depth image indicates a distance between the RGB-D sensor and a corresponding object captured in the RGB image. 前記第1の視差マップを決定することは、
前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項5に記載の方法。
Determining the first disparity map includes:
The method of claim 5 , comprising using at least one of a focal length f or an interpupillary distance b to determine the first disparity map.
前記視差分配比を使用して前記第1の視差マップを変換することによって前記第2の視差マップを決定することは、次式に基づき、
Figure 2024062935000007

前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
Figure 2024062935000008

(x,y)は、前記第2の視差マップの前記視差値であり、d(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項6に記載の方法。
Determining the second disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Figure 2024062935000007

Determining the third disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Figure 2024062935000008

7. The method of claim 6, wherein d L (x,y) is the disparity value of the second disparity map, d R (x,y) is the disparity value of the third parity map, d(x,y) is the disparity value of the first parity map, z(x,y) is the distance between the RGB-D sensor and an object corresponding to the pixel (x,y) in the RGB-D image, and k is the disparity distribution ratio, which is a constant value indicating the position of an observation point between the left eye and the right eye.
前記第2の視差マップに基づいて、前記第1のRGB画像内の前記第1のピクセルのセットをシフトすることは、次式に基づき、
Figure 2024062935000009

前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
Figure 2024062935000010

Pixel(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項7に記載の方法。
Shifting the first set of pixels in the first RGB image based on the second disparity map based on:
Figure 2024062935000009

Shifting the second set of pixels in the first RGB image based on the third disparity map based on:
Figure 2024062935000010

8. The method of claim 7, wherein Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, and (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y).
立体視表示コンテンツを生成する装置であって、
非一時的メモリと、
プロセッサと、を備え、前記非一時的メモリは、
赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
を前記プロセッサによって実行可能な命令を含む、装置。
An apparatus for generating stereoscopic display content, comprising:
A non-transient memory;
a processor, the non-transitory memory comprising:
obtaining a first red-green-blue (RGB) image and a depth image from a red-green-blue plus distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating the pair of stereoscopic images including a second RGB image and a third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map;
The apparatus further comprises instructions executable by the processor.
前記プロセッサによって実行可能な前記命令は、
前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項9に記載の装置。
The instructions executable by the processor include:
10. The device of claim 9, further comprising instructions for generating a pair of adjusted display images based on the pair of stereoscopic images, the pair of adjusted display images being resized to display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.
前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項9に記載の装置。 The apparatus of claim 9, wherein the first disparity map is a two-dimensional (2D) matrix, each element of which represents a disparity value. 前記RGB-D画像は、RGB-Dセンサによってキャプチャされる、請求項9に記載の装置。 The device of claim 9, wherein the RGB-D image is captured by an RGB-D sensor. 前記深度画像内のピクセルは、前記RGB-Dセンサと前記RGB画像内にキャプチャされる対応する物体との間の距離を示す、請求項12に記載の装置。 The device of claim 12, wherein a pixel in the depth image indicates a distance between the RGB-D sensor and a corresponding object captured in the RGB image. 前記第1の視差マップを決定することは、
前記第1の視差マップを決定するために、焦点距離fまたは瞳孔間距離bのうちの少なくとも1つを使用することを含む、請求項13に記載の装置。
Determining the first disparity map includes:
The apparatus of claim 13 , comprising using at least one of a focal length f or an interpupillary distance b to determine the first disparity map.
前記視差分配比を使用して前記第1の視差マップを変換することによって前記第2の視差マップを決定することは、次式に基づき、
Figure 2024062935000011

前記視差分配比を使用して前記第1の視差マップを変換することによって前記第3の視差マップを決定することは、次式に基づき、
Figure 2024062935000012

(x,y)は、前記第2の視差マップの前記視差値であり、d(x,y)は、前記第3のパリティマップの前記視差値であり、d(x,y)は、前記第1のパリティマップの前記視差値であり、z(x,y)は、前記RGB-Dセンサと前記RGB-D画像内の前記ピクセル(x,y)に対応する物体との間の距離であり、kは、前記視差分配比であり、前記視差分配比は、左目と右目の間の観察点の位置を示す一定値である、請求項13に記載の装置。
Determining the second disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Figure 2024062935000011

Determining the third disparity map by transforming the first disparity map using the disparity distribution ratio is based on:
Figure 2024062935000012

14. The apparatus of claim 13, wherein d L (x,y) is the disparity value of the second disparity map, d R (x,y) is the disparity value of the third parity map, d(x,y) is the disparity value of the first parity map, z(x,y) is the distance between the RGB-D sensor and an object corresponding to the pixel (x,y) in the RGB-D image, and k is the disparity distribution ratio, which is a constant value indicating the position of an observation point between the left eye and the right eye.
前記第2の視差マップに基づいて、前記第1のRGB画像内の前記第1のピクセルのセットをシフトすることは、次式に基づき、
Figure 2024062935000013

前記第3の視差マップに基づいて、前記第1のRGB画像内の前記第2のピクセルのセットをシフトすることは、次式に基づき、
Figure 2024062935000014

Pixel(x,y)は、前記第2のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第3のRGB画像内のピクセル(x,y)であり、Pixel(x,y)は、前記第1のRGB画像内のピクセル(x,y)であり、(R(x,y),G(x,y),B(x,y))は、前記ピクセル(x,y)に対するRGBカラーである、請求項15に記載の装置。
Shifting the first set of pixels in the first RGB image based on the second disparity map based on:
Figure 2024062935000013

Shifting the second set of pixels in the first RGB image based on the third disparity map based on:
Figure 2024062935000014

16. The apparatus of claim 15, wherein Pixel L (x,y) is pixel (x,y) in the second RGB image, Pixel R (x,y) is pixel (x,y) in the third RGB image, Pixel(x,y) is pixel (x,y) in the first RGB image, and (R(x,y),G(x,y),B(x,y)) is the RGB color for pixel (x,y).
立体視表示コンテンツを生成するためのコンピュータプログラムを記憶するように構成された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
赤緑青プラス距離(RGB-D)画像から、第1の赤緑青(RGB)画像および深度画像を取得することと、
前記深度画像内の深度値に基づいて、前記RGB-D画像に従って第1の視差マップを決定することであって、前記第1の視差マップは、一対の立体視画像に変換される前記第1のRGB画像に対する複数の視差値を含むことと、
視差分配比を用いて前記第1の視差マップを変換することによって第2の視差マップおよび第3の視差マップ決定することと、
プロセッサによって、第2のRGB画像と第3のRGB画像とを含む前記一対の立体視画像を生成することであって、前記第2のRGB画像は、前記第2の視差マップに基づいて前記第1のRGB画像内の第1のピクセルのセットをシフトすることによって生成され、前記第3のRGB画像は、前記第3の視差マップに基づいて前記第1のRGB画像内の第2のピクセルのセットをシフトすることによって生成されることと、
を前記プロセッサによって実行可能な命令を含む、非一時的なコンピュータ可読記憶媒体。
1. A non-transitory computer-readable storage medium configured to store a computer program for generating stereoscopic display content, the computer program comprising:
obtaining a first red-green-blue (RGB) image and a depth image from a red-green-blue plus distance (RGB-D) image;
determining a first disparity map according to the RGB-D image based on depth values in the depth image, the first disparity map including a plurality of disparity values for the first RGB image that are converted into a pair of stereoscopic images;
determining a second disparity map and a third disparity map by transforming the first disparity map using a disparity distribution ratio;
generating, by a processor, the pair of stereoscopic images including a second RGB image and a third RGB image, the second RGB image being generated by shifting a first set of pixels in the first RGB image based on the second disparity map, and the third RGB image being generated by shifting a second set of pixels in the first RGB image based on the third disparity map;
A non-transitory computer-readable storage medium comprising instructions executable by the processor.
前記プロセッサによって実行可能な前記命令は、
前記プロセッサによって、前記一対の立体視画像に基づいて、拡張現実(AR)、仮想現実(VR)、または複合現実(MR)装置の表示要件に合わせてサイズ変更された、一対の調整された表示画像を生成する命令をさらに含む、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
The instructions executable by the processor include:
20. The non-transitory computer-readable storage medium of claim 17, further comprising instructions for generating, by the processor, a pair of adjusted display images based on the pair of stereoscopic images, the pair of adjusted display images being resized to display requirements of an augmented reality (AR), virtual reality (VR), or mixed reality (MR) device.
前記第1の視差マップは2次元(2D)マトリックスであり、各要素は視差値を示す、請求項17に記載の非一時的なコンピュータ可読記憶媒体。 The non-transitory computer-readable storage medium of claim 17, wherein the first disparity map is a two-dimensional (2D) matrix, with each element indicating a disparity value. 前記RGB-D画像はRGB-Dセンサによってキャプチャされる、請求項17に記載の非一時的なコンピュータ可読記憶媒体。
The non-transitory computer-readable storage medium of claim 17 , wherein the RGB-D image is captured by an RGB-D sensor.
JP2023134464A 2022-10-25 2023-08-22 Method of creating solid vision display content and device of them Pending JP2024062935A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/973,086 2022-10-25
US17/973,086 US20240236288A9 (en) 2022-10-25 2022-10-25 Method And Apparatus For Generating Stereoscopic Display Contents

Publications (1)

Publication Number Publication Date
JP2024062935A true JP2024062935A (en) 2024-05-10

Family

ID=90971189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023134464A Pending JP2024062935A (en) 2022-10-25 2023-08-22 Method of creating solid vision display content and device of them

Country Status (3)

Country Link
US (1) US20240236288A9 (en)
JP (1) JP2024062935A (en)
KR (1) KR20240057994A (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100918480B1 (en) * 2007-09-03 2009-09-28 한국전자통신연구원 Stereo vision system and its processing method
US8482654B2 (en) * 2008-10-24 2013-07-09 Reald Inc. Stereoscopic image format with depth information
US9832451B2 (en) * 2015-11-17 2017-11-28 Survios, Inc. Methods for reduced-bandwidth wireless 3D video transmission
US20180288387A1 (en) * 2017-03-29 2018-10-04 Intel Corporation Real-time capturing, processing, and rendering of data for enhanced viewing experiences
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
US10957027B2 (en) * 2019-03-26 2021-03-23 Intel Corporation Virtual view interpolation between camera views for immersive visual experience

Also Published As

Publication number Publication date
KR20240057994A (en) 2024-05-03
US20240137481A1 (en) 2024-04-25
US20240236288A9 (en) 2024-07-11

Similar Documents

Publication Publication Date Title
US11315328B2 (en) Systems and methods of rendering real world objects using depth information
CN106251403B (en) A kind of methods, devices and systems of virtual three-dimensional Scene realization
CN106101689B (en) The method that using mobile phone monocular cam virtual reality glasses are carried out with augmented reality
Bertel et al. Megaparallax: Casual 360 panoramas with motion parallax
CN106254854B (en) Preparation method, the apparatus and system of 3-D image
RU2016141397A (en) Stereo view
WO2012153447A1 (en) Image processing device, image processing method, program, and integrated circuit
TW201206151A (en) Method and system for generating images of a plurality of views for 3D image reconstruction
EP3547672A1 (en) Data processing method, device, and apparatus
US9154762B2 (en) Stereoscopic image system utilizing pixel shifting and interpolation
CN108616742B (en) 3D panoramic shooting system and method
CN104599317A (en) Mobile terminal and method for achieving 3D (three-dimensional) scanning modeling function
CN109598796A (en) Real scene is subjected to the method and apparatus that 3D merges display with dummy object
KR102049456B1 (en) Method and apparatus for formating light field image
TWI788739B (en) 3D display device, 3D image display method
JP7184748B2 (en) A method for generating layered depth data for a scene
WO2018032841A1 (en) Method, device and system for drawing three-dimensional image
US20230316810A1 (en) Three-dimensional (3d) facial feature tracking for autostereoscopic telepresence systems
WO2023169283A1 (en) Method and apparatus for generating binocular stereoscopic panoramic image, device, storage medium, and product
CN107545537A (en) A kind of method from dense point cloud generation 3D panoramic pictures
TWI589150B (en) Three-dimensional auto-focusing method and the system thereof
Knorr et al. An image-based rendering (ibr) approach for realistic stereo view synthesis of tv broadcast based on structure from motion
TWI536832B (en) System, methods and software product for embedding stereo imagery
Knorr et al. From 2D-to stereo-to multi-view video
KR101794492B1 (en) System for displaying multiview image

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240116