JP2023505900A

JP2023505900A - メモリおよびデバイスのトラッキングを使用する拡張現実アプリケーションにおけるオクルージョンハンドリングのための方法と関連装置

Info

Publication number: JP2023505900A
Application number: JP2022535825A
Authority: JP
Inventors: ホセアラウーホ，; クーヘスタニ，アミルホセインタヘル; イオアニスカラギアニス，; アナンヤムドゥクリシュナ，; シモナググリエモ，; モリン，ディエゴゴンサレス
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-02-13
Anticipated expiration: 2039-12-13
Also published as: WO2021115623A1; AU2019477545A1; AU2019477545B2; EP4073762A1; JP7461478B2; US20230014448A1

Abstract

拡張現実におけるオクルージョンハンドリングデバイスによって行われる方法を提供する。このデバイスは、オクルージョンオブジェクトを含み、前景画素、背景画素、および未知の画素がある一フレームの少なくとも１つの画素分類画像を生成することができる。少なくとも１つの画素分類画像を生成するには、（１）初期前景画素確率画像と初期背景画素確率画像を計算することと、（２）オクルージョンオブジェクトの奥行き情報に基づき正規化奥行き画像を計算することと、が含まれ得る。デバイスは、アルファマスクを得て、未知の画素の色を決定することに基づき、少なくとも１つの画素分類画像の仮想オブジェクトと前景とを融合させることができる。デバイスは、少なくとも１つの画素分類画像における画素にアルファマスクを施すことに基づき、オクルージョンオブジェクトにオクルージョンされた仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすることができる。【選択図】図３

Description

本開示は、メモリおよびデバイスのトラッキングを使用して拡張現実におけるオクルージョンをハンドリングするための方法と装置に関するものである。

複合現実（ＭＲ：ＭｉｘｅｄＲｅａｌｉｔｙ）を含む拡張現実（ＡＲ：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）は、その普及が著しく進んでいる画期的な技術である。初期のＡＲ／ＭＲデバイスは非常に高価で、商業利用を想定したものではなかった（例えば、マイクロソフト社のホロレンズ）。しかし、新たなＭＲアプリケーション（例えば、Ｆｒｏｇｇｉｐｅｄｉａ、ＢＢＣＣｉｖｉｌｉｓａｔｉｏｎｓＡＲ、ＳｋｅｔｃｈＡＲ、Ｍｏｎｄｌｙ、ＰｏｋｅｍｏｎＧｏ、ＩｎｋＨｕｎｔｅｒ、ＷａｌｌａＭｅ、ＧｏｏｇｌｅＴｒａｎｓｌａｔｅなどのＡｎｄｒｏｉｄやｉＯＳ向けのＡＲアプリケーション）を開発したり、スマートフォン向けの手頃なマウントヘッドディスプレイ（例えば、Ｈｏｌｏｋｉｔ）を販売したり、あるいは、さらには実際に着用するヘッドマウントディスプレイ（例えば、ｎＲｅａｌ）を開発したりする新しい新興企業や大企業が急速に増えてきている。また、スマートフォンには、ＡＲ体験を強化するためのハードウェアの人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）機能が組み込まれてきている。例えば、新しいｉＰｈｏｎｅＸには、より没入感のあるＡＲ体験を可能にする目的で、ＡＩアクセラレータが搭載されている。

いくつかの実施形態により、デバイスによって行われる拡張現実におけるオクルージョンハンドリングのための方法を提供する。このデバイスでは、一フレームの少なくとも１つの画素分類画像を生成する工程を行うことができる。少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素がある場合がある。少なくとも１つの画素分類画像を生成することには、（１）オクルージョンオブジェクトが収まっている画像の画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を前景色確率分布から計算し、前記画素のうちの１つまたは複数のそれぞれに対する初期背景画素確率画像を、前記画素のうちの１つまたは複数の前記それぞれが動的であるかまたは静的であるかの確率に基づき計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、オクルージョンオブジェクトの正規化奥行き画像を計算することと、が含まれ得る。デバイスではさらに、アルファマスクを得て、未知の画素の色を決定することに基づき、少なくとも１つの画素分類画像の仮想オブジェクトと前景とを融合させるアルファマッティングプロセスを開始する工程を行うことができる。デバイスではさらに、少なくとも１つの画素分類画像における画素にアルファマスクを施すのに基づき、オクルージョンオブジェクトにオクルージョンされた仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングする工程を行うことができる。

デバイス、コンピュータ製品、およびコンピュータプログラムに対応する発明概念の実施形態も提供する。

当業者には、以下の図面および発明を実施するための形態を考察すれば、実施形態によるその他のシステム、コンピュータプログラム製品、および方法が明らかであるか、明らかになるであろう。このようなさらなるシステム、コンピュータプログラム製品、および方法のすべてが本明細書の範囲に含まれ、付随する実施形態により保護される、ということとする。

以下の考えられ得る問題の説明は、本開示の一部との現在の認識であり、これまで他者が分かっているものとして受け取るべきではない。拡張現実におけるオクルージョンをハンドリングする手法の中には、ロバストではないものがあり得る。手法によっては、劣悪な環境条件（例えば、低照度条件、不十分な色コントラストなど）や動的な場面では、ロバスト性を欠くことがあり得る。

したがって、拡張現実におけるオクルージョンをハンドリングする工程の改善が求められる。

本開示の１つまたは複数の実施形態としては、色情報および奥行き情報の履歴を含む、デバイスおよびそのデバイスのポーズからの色と奥行きの情報を使用して、拡張現実におけるオクルージョンをハンドリングするための方法を挙げることができる。１つまたは複数の実施形態では、ある場面における背景および静的オブジェクトの色特性および形状特性を学習することができる。１つまたは複数の実施形態において、学習対象の情報は、同じ場面におけるそれまでのセッションからも得ることができ、それにより、学習工程にさらに情報を加えることができる。学習した情報により、少なくとも正確さ、ロバスト性、およびコンピューティングリソースの面で、前景および／または背景の分類を向上させることができる。１つまたは複数の実施形態によって与えられ得る工程の利点には、正確さ、質、およびリアルタイムパフォーマンスの向上に向けたデバイスの追跡対象ポーズに従った特徴学習に対してそれまでのフレームの履歴を使用することが挙げられる。したがって、奥行き測定値および３次元再構成環境を考慮することにより、１つまたは複数の実施形態を、低照度および低コントラストの場面条件下でよりロバストにすることができる。

本開示をさらに理解するのに含まれ、本出願に組み込まれ、その一部を成す添付図面には発明概念のいくつかの非限定的な実施形態を示す。

本開示のいくつかの実施形態による、拡張現実におけるオクルージョンをハンドリングするデバイスに通信可能に接続されたネットワークを示す。オクルージョンハンドリングを行わずに配置した仮想コンテンツを示す。本開示のいくつかの実施形態による、オクルージョンハンドリングを実施した同じ場面を示す。本開示のいくつかの実施形態による、デバイスを示すブロック図である。本開示のいくつかの実施形態による、レンダリングされた仮想コンテンツの例を示す。本開示のいくつかの実施形態による、仮想コンテンツの２次元奥行き画像の表示を示す。本開示のいくつかの実施形態による、オクルージングオブジェクトの原画像の例を示す。本開示のいくつかの実施形態による、オクルージングオブジェクトの画素分類ｔｒｉｍａｐの例を示す。本開示のいくつかの実施形態による、正規化前景画像を示す。本開示のいくつかの実施形態による、正規化背景画像を示す。本開示のいくつかの実施形態による、中央処理装置を示すブロック図である。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。本開示のいくつかの実施形態による、デバイスによって行われ得る工程を示すフローチャートである。

以下、添付図面を参照しながら様々な実施形態についてより詳しく説明する。それ以外の実施形態では、多くの様々な形態をとることができ、本明細書に記載の実施形態に限られると解釈されるべきではなく、むしろ、これらの実施形態は、当業者に発明の対象の範囲を伝えるために例として提供されるものである。発明を実施するための形態全体を通して、同じ要素には同じ番号が付いている。

通常、本明細書で使用するすべての用語は、異なる意味が明確に示されかつ／または使用されている文脈から暗に示される場合を除き、関連する技術分野におけるその通常の意味に従って解釈されるものとする。要素、装置、構成要素、手段、ステップなどに触れる際には必ず、はっきりと他のことを述べていない限り、要素、装置、構成要素、手段、ステップなどの少なくとも１つの例のことを言うものとして公然と解釈されるものとする。本明細書に開示のいかなる方法のステップも、あるステップが別のステップに続くかまたはそれに先行するとはっきり記述されている、かつ／または、あるステップがそれ以外のステップに続くかまたはそれに先行するはずであると暗に示される場合を除き、開示した正にその順序で行われる必要はない。本明細書に開示の実施形態のいずれのいかなる特徴も、適宜、他のいかなる実施形態にも当てはめることができる。同様に、実施形態のいずれのいかなる利点も、他のいかなる実施形態にも当てはめることができ、その逆もまた然りである。本明細書に記載の実施形態の他の目的、特徴、および利点は、以下の発明を実施するための形態から明らかになるであろう。

図１は、拡張現実におけるオクルージョンをハンドリングするデバイス（例えば、デバイス４００ａ、デバイス４００ｂ、中央処理装置４０、またはサーバ３０（データベース３５に通信可能に接続され得る））に通信可能に接続されたネットワーク２０を示す。本明細書で使用する際、拡張現実（ＡＲ）には複合現実（ＭＲ）が含まれるが、これに限られるわけではない。

図１の実施形態では、２つのデバイス４００ａ、４００ｂ、中央処理装置４０、およびサーバ３０を示しているが、それ以外の実施形態は、これに限られるわけではない。例えば、１つのデバイス４００が、スタンドアロンデバイスとして働いてもよく、または、ネットワーク２０および／または別のデバイス（例えば、中央処理装置４０またはサーバ３０）に通信可能に接続されてもよい。その代わりにまたはさらに、複数のデバイス４００（例えば、デバイス４００ａおよび４００ｂ）が、スタンドアロンデバイスとして働いてもよく、または、ネットワーク２０および／または別のデバイス（例えば、中央処理装置４０またはサーバ３０）などに通信可能に接続されてもよい、などがある。

ＡＲ／ＭＲでは、リアルタイム場面認識、仮想現実世界とのインタラクション、およびオクルージョンなど、多くの問題が解決されていない。このような類の問題を上手く解決しないと、ＡＲ／ＭＲ技術は、仮想コンテンツが現実の場面から切り離されたように感じられると思われるので、完全な没入体感を与えない可能性がある。特に敏感なのはオクルージョンの場合であり、この場合、仮想コンテンツからの画素は、仮想コンテンツの前にある実際のオブジェクトに選択的にオクルージョンされる必要がある。図３は、仮想コンテンツ２０４の前にある実際のオブジェクト（手）２０２に選択的にオクルージョンされている仮想コンテンツ２０４を示す。オクルージョンが正しく処理されないと、ユーザが現実世界に対して仮想オブジェクトがどこに配置されているかを理解することが非常に困難になり得る。目標がインタラクティブな仮想場面を提供することではない場合でも、仮想コンテンツが正しく配置されていないように感じることがあり得るため、ＡＲ／ＭＲ体感が正しくないことがある。図２は、仮想コンテンツ２０４が正しく配置されていない例であり、仮想コンテンツ２０４が手２０２の前に浮き上がっているように見える。

拡張現実の際のオクルージョンをハンドリングすることは、難しい問題であり得る（例えば、２０１８年１月２８日、「ＷｈｙｉｓＯｃｃｌｕｓｉｏｎｉｎＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙＳｏＨａｒｄ？」、ｈａｃｋｅｒｎｏｏｎ．ｃｏｍ／ｗｈｙ－ｉｓ－ｏｃｃｌｕｓｉｏｎ－ｉｎ－ａｕｇｍｅｎｔｅｄ－ｒｅａｌｉｔｙ－ｓｏ－ｈａｒｄ－７ｂｃ８０４１６０７ｆ９を参照のこと）。学界には、またＦａｃｅｂｏｏｋやＧｏｏｇｌｅが挙げられる産業界には、この問題を解決しようとするいくつかのグループがある。例えば、Ａｐｐｌｅは、新しいバージョンのＡＲＫｉｔをリリースし、その中でオクルージョンの問題に取り組もうとしている。しかし、例えば、取り組みが、リアルタイムで十分ロバストに行われないことがあり、かつ／またはオクルージョンオブジェクトが大きなオブジェクト（例えば、人間の全身）である可能性があるため、取り組みにより問題を適切に解決できない場合がある。オクルージョンが、デバイスディスプレイのフレームレートでリアルタイムに行われ、実際のコンテンツを与えられた仮想コンテンツを「マスク」する、ということが好ましい場合があり、この場合、両方のコンテンツが動的であってもよい。アルゴリズムでは、仮想コンテンツのどの部分が背景で、どの部分が前景かを理解し、それにより、仮想コンテンツに配置された前景の画素をオクルージョンするマスクを構築し、施す必要があり得る。ＡＲ体感を最適にするには、マスクが実際の背景／前景のエッジと完全に一致する必要があり得る。オクルージョンの場合、品質とリアルタイムの制約が重要になり得る。しかし、センサデータにはノイズが多く、仮想コンテンツと実際のコンテンツが動的で、様々な形状や色である可能性があるため、これは、かなり困難な問題と考えられ得る。

この問題に対処するために、奥行きカメラを使用して、また最近では１つだけの赤、緑、青（ＲＧＢ：Ｒｅｄ、Ｇｒｅｅｎ、Ｂｌｕｅ）カメラ（例えば、スマートフォン）を使用して、静止した大きなオブジェクトを対象に、いくつかの取り組みが試みられてきたようである。しかし、例えば、ユーザの手で操られている仮想玩具をオクルージョンするといった動的な環境に対するこの問題の解決は、未解決のままである。

本明細書で使用される際、デバイスとは、拡張現実におけるオクルージョンハンドリングのいかなるデバイスも指すものである。例えば、デバイスとしては、通信デバイス、携帯電話、スマートフォン、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、医療器具、メディアプレーヤ、カメラ、または種類を問わず家電、例えば、テレビ、ラジオ、照明器具、タブレットコンピュータ、ラップトップコンピュータ、またはＰＣであるが、それらに限られるわけではないものを挙げることができるが、これらに限るわけではない。デバイスは、無線または有線接続を介して、音声および／またはデータを伝えることが可能な、ポータブル、ポケット収納型、ハンドヘルド、コンピュータ内蔵型、または車両搭載型のモバイルデバイスであってもよい。デバイスは、拡張現実デバイスまたはクラウドベースの中央処理装置であってもよいが、これらに限られるわけではない。

本明細書で使用される際、クラウドベースの中央処理装置とは、通信ネットワークにおける他のネットワークノードや機器と直にまたは間接に通信して、拡張現実におけるオクルージョンハンドリングを可能にしかつ／またはもたらし、かつ／または通信ネットワークにおいて他の機能（例えば、管理）を果たすのが可能である、果たすように構成された、果たすように配置された、かつ／または果たすように使用できる機器のことである。クラウドベースの中央処理装置の例としては、サーバ、基地局（ＢＳ：ＢａｓｅＳｔａｔｉｏｎ）（例えば、無線基地局、ＮｏｄｅＢ、エボルブドノードＢ（ｅＮＢ：ｅｖｏｌｖｅｄＮｏｄｅＢ）、ｇＮｏｄｅＢ（例えば、ネットワークコンピューティングノード２０１などを含む）、アクセスポイント（ＡＰ：ＡｃｃｅｓｓＰｏｉｎｔ）（例えば、無線アクセスポイント）などが挙げられるが、これらに限られるわけではない。基地局は、基地局が与えるカバレッジの範囲（あるいは、言い換えれば、その送信電力レベル）に基づいて分類され得、フェムト基地局、ピコ基地局、マイクロ基地局、またはマクロ基地局とも呼ばれる場合がある。基地局は、中継ノードまたはリレーを制御するリレードナーノードであってもよい。クラウドベースの中央処理装置は、集中デジタルユニットおよび／またはリモート無線ヘッド（ＲＲＨ：ＲｅｍｏｔｅＲａｄｉｏＨｅａｄ）と呼ばれることもあるリモートラジオユニット（ＲＲＵ：ＲｅｍｏｔｅＲａｄｉｏＵｎｉｔ）などの分散型無線基地局の１つまたは複数の（またはすべての）部分も挙げることができる。このようなリモートラジオユニットは、アンテナ一体型無線機としてアンテナと一体化していてもよく、一体化していなくてもよい。分散型無線基地局の部品は、分散型アンテナシステム（ＤＡＳ：ＤｉｓｔｒｉｂｕｔｅｄＡｎｔｅｎｎａＳｙｓｔｅｍ）におけるノードと呼ばれることもある。クラウドベースの中央処理装置のさらに別の例としては、ＭＳＲＢＳなどのマルチスタンダード無線（ＭＳＲ：Ｍｕｌｔｉ－ＳｔａｎｄａｒｄＲａｄｉｏ）機器、無線ネットワークコントローラ（ＲＮＣ：ＲａｄｉｏＮｅｔｗｏｒｋＣｏｎｔｒｏｌｌｅｒ）または基地局コントローラ（ＢＳＣ：ＢａｓｅＳｔａｔｉｏｎＣｏｎｔｒｏｌｌｅｒ）などのネットワークコントローラ、基地トランシーバ局（ＢＴＳ：ＢａｓｅＴｒａｎｓｃｅｉｖｅｒＳｔａｔｉｏｎ）、送信ポイント、送信ノード、マルチセル／マルチキャスト協調エンティティ（ＭＣＥ：Ｍｕｌｔｉ－Ｃｅｌｌ／ＭｕｌｔｉｃａｓｔＣｏｏｒｄｉｎａｔｉｏｎＥｎｔｉｔｉｅｓ）、コアネットワークノード（例えば、ＭＳＣ、ＭＭＥ）、Ｏ＆Ｍノード、ＯＳＳノード、ＳＯＮノード、測位ノード（例えば、Ｅ－ＳＭＬＣ）、および／またはＭＤＴが挙げられる。別の例として、クラウドベースの中央処理装置は、仮想ネットワークノードであり得る。しかし、より一般的には、クラウドベースの中央処理デバイスは、拡張現実（複合現実を含む）におけるオクルージョンハンドリングを可能にし、かつ／またはもたらすことが可能である、もたらすように構成された、もたらすように配置された、かつ／またはもたらすように使用できる適切ないかなるデバイス（またはデバイス群）にも相当するものであり得る。

図４は、いくつかの実施形態により構成されている構成要素で成るデバイス４００を示すブロック図である。デバイス４００は、少なくとも１つのプロセッサ４１０（プロセッサとも言う）、少なくとも１つのメモリ４１２（メモリとも言う）、およびデバイス（例えば、他のデバイス４００ｂ、中央処理装置４０、サーバ３０など）との通信をもたらすように構成された無線インターフェース４１０で構成されている。プロセッサ４１０としては、１つまたは複数のネットワークにわたって配置または分散され得る汎用プロセッサおよび／または専用プロセッサ（例えば、マイクロプロセッサおよび／またはデジタル信号プロセッサ）などの１つまたは複数のデータ処理回路を挙げることができる。コンピュータ可読媒体として以下に述べるメモリ４１２は、プロセッサ４１０によって実行されると、プロセッサ４１０に本明細書に開示の実施形態による工程を行わせるコンピュータ可読プログラムコードを格納する。他の実施形態によれば、プロセッサ４１０は、別個のメモリがなくても済むように、メモリを含むと規定され得る。デバイス４００としては、プロセッサ４１０によって実行されると、プロセッサ４１０に本明細書に開示の実施形態による工程を行わせる、メモリ４１２内の機能モジュール４１４も挙げることができる。デバイス４００としては、出力インターフェース、例えば、ディスプレイ４４０と、ＲＧＢセンサ４３０（例えば、ＲＧＢカメラ）および奥行きセンサ４５０などの１つまたは複数のセンサと、なども挙げることができる。

以下に述べるが、手法の種類に応じて、いくつかの手法の場合のあり得る問題が分類され得る。

モデルに基づく方法に関するあり得る問題点として、以下のようなものが考えられ得る。

モデルに基づく方法は、オクルージョンを行うのに、場面における実際のオブジェクトのコンピュータ支援設計（ＣＡＤ：Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｇｎ）モデルに頼る可能性がある。通常、モデルに基づく方法では、実際のオブジェクトのポーズがリアルタイムで追跡され、その仮想双子のポーズがカメラに対して更新される。それにより、レンダリングアプリケーション（例えば、Ｕｎｉｔｙ）が自動的にオクルージョンを処理することができる。この手法は、構造化された、分かっている場面（例えば、産業製造ＡＲアプリケーション）では上手く行うことができるが、事前情報をかなり多く必要とする場合があるため、この手法を一般化することができない。さらに、オブジェクトを正確に追跡する必要があるが、これは常に可能であるとは限らず、計算面で無理なく使うことができない可能性がある。

オブジェクトに基づく方法に関するあり得る問題として、以下を挙げることができる。

オブジェクトに基づく方法では、オブジェクトトラッキング方法も必要となり得る。オブジェクトに基づく方法におけるトラッキングでは、３次元（３Ｄ：ＴｈｒｅｅＤｉｍｅｎｓｉｏｎａｌ）ポーズがなくても済むことがあり、２次元（２Ｄ：ＴｗｏＤｉｍｅｎｓｉｏｎａｌ）位置トラッキングを使用することができるため、簡単にすることができる。通常、オブジェクトに基づく方法では、ユーザが場面におけるオブジェクトを選択し、オブジェクトの輪郭が手作業で与えられ得る。それにより、この輪郭の位置と形状は、フレームごとに更新され得る。トラッキング工程は、モデルに基づく方法におけるものよりも簡単であり得るが、オブジェクトに基づく方法では、人間の入力を必要とする場合があり、３Ｄポーズ認識がなく、オクルージョンが、追跡されるオブジェクトにのみ施される。したがって、オブジェクトに基づく方法は、よくあるケースであり得る未知の場面には適さないことがあり得る。

奥行きに基づく方法に関するあり得る問題として、以下を挙げることができる。

奥行きに基づく方法というのは、より一般的で拡張性があり得る。通常、奥行きに基づく方法は、奥行き情報と色情報の両方に頼り、どの画素が仮想コンテンツの前にあるかを検出し、それにより、前景／背景のセグメント化を行い、実際の画素と仮想画素とを適切に融合させようとすることであり得る。通常、奥行きに基づく方法は、未知の環境において上手く行くと考えられ得るが、次の２つの主要な問題を含む可能性があり、（１）奥行きに基づく方法では、低照度条件または色コントラスト条件においてロバスト性を欠く可能性があり、（２）奥行きに基づく方法では、高品質の結果を得るのに、計算量の点で高価になる（例えば、ＧＰＵ実装形態しかリアルタイムパフォーマンスを達成できない）可能性がある。

本開示の様々な実施形態において、少なくとも１つの画素分類画像が、色画像、奥行き画像、学習した３Ｄ環境構造、および環境のダイナミクスに基づいて計算され得る。少なくとも１つの画素分類画像を使用して、拡張現実デバイスに表示される仮想オブジェクトのオクルージョンを行うことができる。本明細書で使用される際、画素分類画像とは、各色が群に相当する複数の色を包む少なくとも１つの画像のことである。例えば、３つの画素分類画像は、それぞれが３つの色のうちの１つを含んでもよく、各色がそれぞれ、背景画素群、前景画素群、未知の画素群に相当する（本明細書では画素分類ｔｒｉｍａｐともする）。その代わりに、この例では、背景画素群、前景画素群、および未知の画素群に相当する３つの色が、画素分類画像１つのみに含まれ得る。本開示の様々な実施形態を、画素分類ｔｒｉｍａｐを含むものとして説明しているが、この様々な実施形態は、そのように限られるものではなく、１つの（またはそれ以外の個数の）画素分類画像を含んでもよい。

本開示の様々な実施形態において、ＲＧＢデータが可能なセンサ４３０（例えば、ＲＧＢカメラ）を含むデバイス（例えば、デバイス４００）を提供することができる。デバイスは、奥行きデータを取り込むセンサ４５０（例えば、ＲＧＢデータを奥行きデータに変換することができる奥行きカメラまたはアルゴリズム）も含み得る。本開示のデバイスの様々な実施形態を、ＲＧＢデータを取り込むのと奥行きデータを取り込むのとで別々のセンサを備えるものとして説明しているが、様々な実施形態は、そのように限られるものではなく、ＲＧＢデータおよび奥行きデータを取り込むセンサを１つだけ含んでもよい。様々な実施形態のデバイスは、処理装置と、ＡＲ／ＭＲレンダリング（本明細書では処理ともする）アプリケーションとをさらに含み得る。レンダリングアプリケーションは、例えば、部屋における具体的な位置、向きで仮想オブジェクトを表示することができる。

本開示で使用する際、デバイスのセンサのポーズは、デバイスのポーズとしている。

本開示の様々な実施形態において、デバイスのセンサ（例えば、デバイスのカメラ）の視野に入る仮想オブジェクト１つのみに、少なくとも以下の工程が適用され得る。デバイスによって行われる工程としては、デバイスのポーズを決定すること、仮想コンテンツの色フレームおよび奥行きフレームを決定することと、を挙げることができる。デバイスによって行われるさらなる工程としては、初期奥行きに基づく前景および／または背景セグメント化を推定することと、画素分類ｔｒｉｍｐを自動的に生成することと、を挙げることができる。デバイスによって行われるさらなる工程としては、アルファマッティングアルゴリズムを適用して、仮想コンテンツと前景とを融合させることを挙げることができる。デバイスによって行われるさらなる工程としては、最終構成をレンダリングすることを挙げることができる。

ここで、これらの各工程について、さらに説明することにする。

デバイスのポーズの決定は、例えば、デバイスのソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／またはオペレーティングシステム（ＯＳ：ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）アプリケーションプログラムインターフェース（ＡＰＩ：ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）から得られ得る。

ここで、仮想コンテンツの色フレームおよび奥行きフレームの決定について説明することにする。例えば、仮想コンテンツの２次元（２Ｄ）色画像表示と２次元奥行き画像表示が得られ得る。これは、ＡＲ／ＭＲアプリケーションから、例えばＵｎｉｔｙから直に得られ得る。２Ｄ奥行き画像の場合、（ｘ、ｙ）値が画素の場所を表す一方、ｚ値が対応する画素の奥行き値を表し得る。図５Ａおよび図５Ｂには、仮想コンテンツの３次元（３Ｄ）色奥行きマップの表示（図５Ａ）、また２Ｄ奥行き画像のグレースケール表示（図５Ｂ）を示す。図５Ａを見てみると、レンダリングされた仮想コンテンツの例が示されている。図５Ｂを見てみると、アルゴリズムに入力される情報の例が示されており、図５Ｂの画素が、さらに処理され得るＲＧＢ／奥行き入力からの画素をマスクする、というアルゴリズムに入力される情報の例が示されている。

ここで、新しい色フレーム情報と対応する奥行き情報とを得て、位置を揃えることについて説明することにする。新しいフレームは、ＲＧＢカメラ（センサ）と奥行きセンサの両方によって取得され得る。奥行きフレームは、奥行き画素がＲＧＢ画素と位置が揃うように変換され得る。これは、当業者には明らかであろうが、両方のカメラ（センサ）からの固有パラメータおよび外部パラメータを使用してなされ得る。データはまた、いくつかのカメラ、例えば、ＩｎｔｅｌＲｅａｌｓｅｎｓｅＤ４３５ｉカメラの場合のように、ＳＤＫから直に位置合わせされ得る。

次に、初期の奥行きに基づく前景および／または背景のセグメント化を推定することについて説明する。上述した仮想コンテンツの色および奥行きフレームを決定することから与えられる情報を使用して、奥行きが仮想コンテンツとカメラとの間の距離より小さい画素を前景として分類し、その他の画素を背景として分類してもよい。さらに、上述の仮想コンテンツの色フレームおよび奥行きフレームを決定する際に与えられた形状から外れる画素がある場合、その画素が仮想コンテンツよりも近いかどうかに関わらず、そのような画素を背景として分類するようにしてもよい。このようにすることで、余計な無駄な処理を省くことができる場合がある。

上述した仮想コンテンツの色フレームおよび奥行きフレームを決定するために与えられた仮想コンテンツの形状を持つマスクをＭとし、ｄを奥行き画像、ｐを元のＲＧＢフレームからの画素、Ｄを仮想コンテンツとカメラとの距離とすると、数学的には前景（Ｆ：Ｆｏｒｅｇｒｏｕｎｄ）と背景（Ｂ：Ｂａｃｋｇｒｏｕｎｄ）の分割画像は、以下の数式であり得る。

セグメントＦおよびＢから、例えば、それぞれ、ｄ_ｓ（ｐ）＝Ｆまたはｄ_ｓ（ｐ）＝Ｂのとき、ＦとＢのセグメントに対する画素を含む、２つの異なる画像Ｓ_ＦおよびＳ_Ｂを得ることができる。これらの２つの画像を用いて、色確率分布Ｐ_ＦとＰ_Ｂを求めることができる。色確率を求める方法の１つは、Ｓ_ＦとＳ_Ｂのヒストグラムを計算することである。

図９は、本開示の様々な実施形態による、拡張現実におけるオクルージョンハンドリングのためのデバイスによって行うことができる工程のフローチャートを示す。図９を参照すると、工程および関連する方法は、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）を含む。少なくとも１つの画素分類画像は、オクルージョンオブジェクト、前景画素として分類された画素を有する前景、背景画素として分類された画素を有する背景、および未知の画素を含む。生成すること（９０２）は、（１）前景色確率分布から、オクルージョンオブジェクトを含む画像の１つまたは複数の画素のそれぞれについて初期前景画素確率画像を計算し、１つまたは複数の画素のそれぞれが静的または動的である確率に基づいて、１つまたは複数の画素のそれぞれについて初期背景画素確率画像を計算し、（２）オクルージョンオブジェクトの奥行き情報に基づいて、オクルージョンオブジェクトの正規化奥行き画像を計算することを含む。工程は、未知の画素の色を決定することに基づいて、少なくとも１つの画素分類画像の仮想オブジェクトと前景とをブレンドするためのアルファマスクを得るために、アルファマット処理を開始すること（９０４）をさらに含む。工程は、少なくとも１つの画素分類画像の画素にアルファマスクを適用することに基づいて、オクルージングオブジェクトによってオクルージョンされた仮想オブジェクトを含む拡張現実画像の最終構成をレンダリングすること（９０６）をさらに含む。

次に、画素分類ｔｒｉｍａｐを自動的に生成することについて説明する。様々な実施形態において、ｔｒｉｍａｐは、図６Ｂに示される例に示されるように、画像を３つのクラスタに分類し得る。図６Ｂを参照すると、生成されたｔｒｉｍａｐは、白で示された前景Ｆ画素６０６、パターン化された線で示された背景Ｂ画素６０８、および灰色で示された未知のＵ画素６１０で示されている。未知の画素（Ｕ）６１０は、画素がＢまたはＦ画素であるという確信が欠けている画素であり得る。一般に、オクルージョンの問題に対する適切なｔｒｉｍａｐは、現実世界のオクルージョンオブジェクトの実エッジをカバーし得る。現実世界のオブジェクト６０２の原画像を図６Ａに示す。そうでない場合、いくつかの画素が誤って分類され、仮想オブジェクトの誤ったオクルージョンを生じさせ、否定的なユーザ体感を生じさせる可能性がある。さらに、後述するように、アルファマットと呼ばれるそれぞれの未知の画素にわたる画素ごとの処理が行われ得、したがって、未知の画素の数が少ないほど、方法全体が高速化され得る。

画素分類ｔｒｉｍａｐ（ｔｒｉｍａｐとも呼ばれる）を生成する以下の例示的な実施形態は、ｔｒｉｍａｐの両方の側面を改善または最適化し得る。

第１の例示的な実施形態において、初期前景画素確率画像Ｉ_Ｆおよび初期背景画素確率画像Ｉ_Ｂを計算することが行われ得る。初期前景画素確率画像Ｉ_Ｆおよび初期背景画素確率画像Ｉ_Ｂは、初期奥行きセグメント化、それまでに学習した背景情報、再構成された３Ｄ環境および以下に述べる画素ダイナミクスに基づいて計算され得る。

各画素が背景と前景の一部である確率が計算され得る。

前景の場合、各画素が前景の一部である確率Ｐ_Ｆは、これらの確率をすべて集めた画像Ｉ_Ｆを得ることによって、直接利用され得る。Ｉ_Ｆ（ｐ）＝Ｐ_Ｆ（ｐ）となる。

前景色確率分布から画像の１つまたは複数の画素のそれぞれについて、初期前景画素確率画像を計算する際のデバイスによる対応する工程は、確率分布に従って１つまたは複数の画素のそれぞれが前景の一部となる確率を抽出することを含むことができる。例えば、Ｉ_Ｆ（ｐ）＝Ｐ_Ｆ（ｐ）を計算し、ここで、Ｉ_Ｆを初期前景画素確率画像、Ｐ_Ｆを１つまたは複数の前景画素のそれぞれの色確率分布とする。

実施形態によっては、背景の場合、少なくとも３つの異なる状況が存在し得る。まず、３Ｄ再構成された背景情報がある場合、３Ｄ再構成された背景情報は、画素がそのような背景の一部である確率を推定するために使用され得る。

１つまたは複数の画素のそれぞれが静的または動的である確率に基づいて、１つまたは複数の画素のそれぞれに対する初期背景画素確率画像を計算する際のデバイスによる対応する工程は、３次元再構成背景を用いて、画像の１つまたは複数の画素のそれぞれが背景画素である初期確率を推定する。

実施形態によっては、１つまたは複数の前景画素が動的オブジェクトに対応すると識別された場合、１つまたは複数の画素のそれぞれに対する初期背景画素確率画像は、それまでに学習した背景確率分布に基づいて計算される。

実施形態によっては、初期背景画素確率は、学習工程からの３次元再構成背景出力から抽出される。

背景が再構成されていない場合、このような確率を推定する少なくとも２つの他の考えられ得る選択肢があり得る。ある場合では、背景確率分布（Ｌとする）が学習されており、画素が十分な確実性で静的オブジェクトに対応すると見なされていれば、Ｌを使用して、このような画素が背景の一部であることの確率を引き出すことができる。デバイスによる対応する工程としては、デバイスのセンサからの色データまたは奥行きデータからの再構成アルゴリズムを適用することによって、３次元再構成背景を得ることが挙げられる。

しかし、画素が静的オブジェクトまたは動的オブジェクトに対応することをアルゴリズムが十分に確実でなければ、Ｐ_Ｂが直に使用され得る。これは、以下のようにまとめることができる。

ここで、Ｖは、学習工程の出力としての３Ｄ再構成背景（ポイントクラウド／メッシュ）のことであり、Ｌは、考えられ得る学習した背景確率分布のことであり、Ｐ_ｄｙ（Ｓ_Ｆ）は、前景セグメント化画素が動的である確率であり、Ｔは、任意の規定の閾値である。

画素のうちの１つまたは複数のそれぞれに対して初期背景画素確率画像を計算する際のデバイスによる対応する工程は、それまでに学習した背景確率分布Ｌが何もなければ、または前景セグメント化画素が動的である確率が規定の閾値Ｔを下回っていれば、色分布Ｐｂを使用して計算される。

デバイスによる対応する工程としては、画素のうちの１つまたは複数が動的オブジェクトに対応するとして見なされている場合、それまでに学習した背景確率分布に基づき、画素のうちの１つまたは複数のそれぞれに対して初期背景画素確率画像を計算することを挙げることができる。

デバイスによる対応する工程としてはさらに、学習工程から出力された３次元再構成背景から初期背景画素確率を引き出すことを挙げることができる。

色データからのモーションからの多視点立体または多視点構造などの再構成アルゴリズムまたは奥行きデータからの奥行きに基づくＳＬＡＭアルゴリズムを適用することによって、３Ｄ再構成背景が得られ得る。

３次元再構成背景が得られている場合のデバイスによる対応する工程としては、デバイスのセンサからの色データまたは奥行きデータからの再構成アルゴリズムを適用することが挙げられる。Ｖが使用可能であれば、３Ｄポイントクラウド／メッシュが仮想場面（例えば、ユニティにおける）の一部として含まれ得る。２Ｄ奥行き画像が、仮想コンテンツの色フレームおよび奥行きフレームを決定する上に述べているこの３Ｄ表示から得られ得る。オクルージョンされるべき仮想オブジェクトの背後にある画素は、二値画像Ｖ_Ｂと成ることによって、背景として設定され得る。確率Ｐ_ｄｙが途切れのないフレームにおける画素の位置の変化を追跡することによって推定されてもよい、または画素が属するのがどの類のオブジェクトなのかをオブジェクト検出方法またはｉ測定を経て意味上理解することによって推定されてもよい。ここで、Ｐ_ｄｙを閾値として使用して、画素確率が背景または前景の一部であると規定する、ということに留意のこと。

前景セグメント化画素が動的である確率を推定する際のデバイスによる対応する工程としては、画像の途切れのないフレームで背景画素のうちの１つまたは複数のそれぞれの位置の変化を追跡することと、背景画素のうちのそれぞれ１つまたは複数が属するある類のオブジェクトをオブジェクト検出工程を経て意味上理解することと、画像から測定値を得ることと、が挙げられる。

画素のうちの１つまたは複数のそれぞれが静的であるかまたは動的であるかの確率に基づき、画素のうちの１つまたは複数のそれぞれに対して初期背景画素確率画像を計算する際にデバイスによる対応する工程としては、１つまたは複数の画素のそれぞれが、静的オブジェクトに対応するとして見なされる確率閾値を満たすかどうかを判断することを挙げることができる。この工程としてはさらに、学習した背景確率分布を使用して、１つまたは複数の画素のそれぞれが背景の一部であることの確率を推定することを挙げることができる。

第２の例示的な実施形態において、奥行き情報に基づく正規化奥行き画像が計算され得る。オクルージョン要素（例えば、図６Ａにおける手）の奥行き情報も使用されるが、それは、奥行き情報と色確率情報の両方の統合を可能にするように最初に正規化される。正規化奥行き画像は、以下とすることができる。

ここで、ｄ^ｎは、画素ｐ_ｄの正規化間隔であり、Ｄ_ｍａｘは、センサによって測定された最大間隔であり、ａは、チューニングされた任意の値である。ａのこれより大きな値では、非常に近いが仮想オブジェクトの背後にある画素の値は、１に近い値ｄ（ｐ）になるが、画素のうちのそれ以外の画素の値は、非常に低い正規化奥行き値である可能性がある。これにより、起こり得る奥行き推定誤りを補うのに、仮想オブジェクトに奥行きが近い画素がより重要視される場合がある。

オクルージョンオブジェクトの奥行き情報に基づきオクルージョンオブジェクトの正規化奥行き画像を計算する際にデバイスによる対応する工程としては、その対応する奥行き値が仮想オブジェクトまでの間隔Ｄよりも小さく、画素のうちのそれ以外の画素の値が、Ｄにより近いそれよりも高い値を１つまたは複数の画素に割り当てる指数関数によって与えられた０～１である、１つまたは複数の画素を１に設定することが挙げられる。

第３の例示的な実施形態において、初期背景画素確率、初期前景画素確率、正規化奥行き画像、および画素ダイナミクスに基づく重み付き背景画素確率画像Ｉ^Ｗ _Ｂおよび重み付き前景画素確率画像Ｉ^Ｗ _Ｆが計算され得る。画像ごとに任意の重みを使用する前に、すべての画像がまとめられ得る。確実に最終画素値が飽和しないようにするためには、これらの重みの総和を１にすることができる。これらの重みは、その場面、デバイス、およびセンサの特性に従って決めてもよい。例えば、かなりの動的な場面では、Ｐ_ｄｙはより静的な場面におけるよりも信用できない場合がある。同じことが、正規化奥行き情報にも当てはまる可能性がある。言い換えれば、どれくらい正規化奥行き情報を信用するかは、奥行きセンサの特性により決まることがあり得る。例えば、低ノイズ、高精度の奥行き測定の非常に優れた奥行きカメラでは、奥行き情報の重みであり、またそうでなければより低い値の重みであるｗ_ｄに、より高い値が割り当てられ得る。同様に、照度条件が、ＲＧＢセンサからの測定値が良いか良くないかに影響するので、照度条件に応じて、ＲＧＢ情報Ｉ_Ｆの重みが、増やされるか減らされ得る。それ故、このようなロジックを把握する１つのやり方は、以下を通してとすることができる。
Ｉ^ｗ _Ｆ（ｐ）＝ｗ_ｃ ^Ｆ・Ｉ_Ｆ（ｐ）＋ｗ_ｄ ^Ｆ・ｄ^ｎ（ｐ）＋ｗ_ｄｙ ^Ｆ・Ｐ_ｄｙ（ｐ）
Ｉ^ｗ _Ｂ（ｐ）＝ｗ_ｃ ^Ｂ・Ｉ_Ｂ（ｐ）＋ｗ_ｄ ^Ｂ・（１－ｄ^ｎ（ｐ））＋ｗ_ｄｙ ^Ｂ・（１－Ｐ_ｄｙ（ｐ））
ここで、ｗ_ｃ ^Ｆ＋ｗ_ｄ ^Ｆ＋ｗ_ｄｙ ^Ｆ＝ｗ_ｃ ^Ｂ＋ｗ_ｄ ^Ｂ＋ｗ_ｄｙ ^Ｂ＝１
図７Ａには出力画像Ｉ^Ｗ _Ｆの例を示し、図７Ｂには出力画像Ｉ^Ｗ _Ｂの例を示す。

Ｐ_ｄｙの値が画素値を計算するのに直に使用され、上に述べた第１の例示的な実施形態に見られるように閾値としては使用されないことに留意すること。

少なくとも１つの画素分類画像を生成する（９０２）際にデバイスによる対応する工程としてはさらに、初期背景確率画像、初期前景画素確率画像、正規化奥行き画像、および１つまたは複数の画素の色と奥行きの可変性に基づき、重み付き背景画素確率画像および重み付き前景画素確率画像を計算することを挙げることができる。

第４の例示的な実施形態において、ｔｒｉｍａｐとして使用される最終正規化背景Ｉ^Ｎ _Ｂ画素確率および最終正規化前景Ｉ^Ｎ _Ｆ画素確率が計算され得る。画素分類ｔｒｉｍａｐを生成する（９０２）際にデバイスによる対応する工程としてはさらに、画素のうちの１つまたは複数のそれぞれが画像における前景としてまたは背景として分類されることの確率を推定することと、画素のうちの１つまたは複数のそれぞれが規定の閾値よりも高いという推定に基づき、画像における画素のうちの１つまたは複数のそれぞれを前景として分類することと、前景として分類されない画像における画素のうちの１つまたは複数のそれぞれのそれ以外の画素に対し、画素のうちの１つまたは複数のそれぞれのそれ以外の画素を背景として分類することと、に基づき、正規化背景画素確率画像および正規化前景画素確率画像を計算することを挙げることができる。工程としてはさらに、前景として分類した画素によって形成された画像の前景域のエッジを計算して拡張することに基づき、未知の画素を確認することを挙げることができる。

画素ｐが前景としてまたは背景として分類される確率が、原画像における各画素ごとに推定され得る。

その値Ｉ^Ｎ _Ｆ（ｐ）が任意の閾値Ｔよりも高い画素は、前景として分類されてもよく、この画素のうちのそれ以外の画素は、背景として分類されてもよい。

この前景域のエッジが、計算され、膨張カーネルを使用して拡張され得る。このカーネルのサイズＮｘＮは、この画素の分類がすでに改善されているすなわち最適化されていると、小さくなり得る（Ｎ～７）。拡張エッジは、最終ｔｒｉｍａｐの未知のＵ画素であると考えられ得る。

この工程の出力は、背景画像がＩ^Ｎ _Ｂであり、前景画像がＩ^Ｎ _Ｆであり、未知の画素がＵであるｔｒｉｍａｐである。図７Ａには、前景画像Ｉ^Ｎ _Ｆを示し、図７Ｂには、背景画像Ｉ^Ｎ _Ｂを示す。

実施形態によっては、パラメータｗ_ｃ ^Ｆ、ｗ_ｄ ^Ｆ、ｗ_ｄｙ ^Ｆ、ｗ_ｃ ^Ｂ、ｗ_ｄ ^Ｂ、ｗ_ｄｙ ^Ｂは、その場面のそのときの特性、例えば、照度条件、奥行きセンサノイズ、コントラストなどに応じてランタイム中に動的に変わる可能性がある。

画像において、画素のうちの１つまたは複数のそれぞれが前景または背景として分類されることの確率を推定するデバイスによる対応する工程は、重み付き前景画素確率画像および重み付き背景画素確率画像を使用して計算される。重み付き前景画素確率画像および重み付き背景画素確率画像を得るのに使用される重みは、画像の特性に基づき動的に変わる可能性がある。

ここで、様々な実施形態により仮想コンテンツと前景とを融合させるのにアルファマッティングアルゴリズムを適用することを述べることにする。アルファマッティング演算は、結果における正しい最終品質にとって重要である場合がある。この演算がないと、オクルージョンは、現実的に見えない可能性があり、ＡＲ体感の没入感が十分ではない可能性がある。この演算の目標は、このような画素と仮想画素との融合ができる限り現実的に行われるように未知Ｕ画素の最終の色を確認することであり得る。各画素ｐ_Ｕ’の最終の色は、以下と定められ得る。
ｐ’_Ｕ＝α・ｐ_Ｕ＋（１－α）・ｐ_Ｖ
ここで、アルファαは、アルファマッティングアルゴリズムにより計算したｐ_Ｕのアルファチャンネルに相当し、ｐ_Ｖは、対応する仮想画素である。アルファの値は、各未知の画素に対して計算され得る。

アルファマスクαを得て、未知の画素の色を確認するのに基づき、少なくとも１つの画素分類画像の仮想オブジェクトと前景とを融合させるアルファマッティングプロセスを開始する（９０４）デバイスによる対応する工程としては、１つまたは複数の未知の画素のそれぞれに対するアルファチャンネルを計算し、反転アルファマスクを使用して、対応する仮想画素を加えることを挙げることができる。例えば、以下の通りである。
ｐ’_Ｕ＝α・ｐ_Ｕ＋（１－α）・ｐ_Ｖ
ここで、ｐ’_Ｕは、未知の画素のうちの１つまたは複数のそれぞれの色であり、α・ｐ_Ｕは、未知の画素のうちの１つまたは複数のそれぞれに対してアルファマッティングプロセスにより計算したｐ_Ｕのアルファチャンネルであり、ｐ_Ｖは、対応する仮想画素である。

ある実施形態では、生成されたｔｒｉｍａｐおよび元の色フレームが、当業者には分かるようなアルファマッティングアルゴリズムへの入力として使用され得る。この工程は、デバイスの中で進行し得る。デバイスによる対応する工程では、画素分類ｔｒｉｍａｐおよび画像を、アルファマッティングプロセスへの入力として使用することができる。

実施形態によっては、この工程は、満たすべき最終品質（リアルタイムパフォーマンスなど）よりも重要な他の目標のために飛ばされてもよい。例えば、ある実施形態では、デバイスに計算負荷またはエネルギー消費を減らす必要がある場合（例えば、デバイスのバッテリレベルが低い、過負荷ＣＰＵなど）、この工程は、リアルタイム要件を実現するのに、またはデバイスのバッテリ寿命を延ばすために無視されてもよい。この工程を適用するか否かを決めるのに、様々な閾値（例えば、バッテリレベル閾値、ＣＰＵ使用量閾値など）が設定され得る。どのように上手くオクルージョンが行われているかを自動的に検出するやり方がない場合（例えば、実物の真の奥行き値へのアクセスが何もないため）、この工程を飛ばすことは、ユーザ判断の対象となり得る。

ある実施形態では、この工程が適用されなければ、前景画素をＩ_Ｆと規定される画素と見なすことができ、この画素のすべてのアルファ値が最大値に設定される。デバイスによる対応する工程では、前景画素をｌ_Ｆと規定される画素と規定し、Ｉ_Ｆと規定された画素のアルファ値が最大値に設定される。

ここで、最終構成をレンダリングすることについて述べることとする。ある実施形態では、ＡＲデバイスが非シースルー表示デバイス（例えば、スマートフォンとしてのハンドヘルドデバイス）である場合、最終構成は、反転マスク（１－α）を使用して、前景画素および仮想コンテンツに、上に述べたように推定したアルファマスクαを施し、背景画素に両方の工程からの結果を加えることによって、なされる。

別の実施形態では、ＡＲデバイスがシースルーデバイス（例えば、ホロレンズ）である場合、仮想コンテンツがレンダリングされ、反転（１－α）アルファマッティングマスクがオクルージョンマスクとして施される。

少なくとも１つの画素分類画像における画素にアルファマスクを施すことに基づき、オクルージョンオブジェクトにオクルージョンされた仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングする（９０６）際のデバイスによる対応する工程は、
デバイスが非シースルー表示デバイスの場合、反転アルファマスク（１－α）を使用して、少なくとも１つの画素分類画像の前景画素および仮想オブジェクトにアルファマスクαを施し、少なくとも１つの画素分類画像の背景画素にその結果を加えることと、
デバイスがシースルーデバイスの場合、少なくとも１つの画素分類画像において、仮想オブジェクトをレンダリングし、反転アルファマスク（１－α）をオクルージョンマスクとして施すことと、で成る。

ここで、また別の例示的な実施形態について述べることにする。

ある実施形態では、デバイスの追跡対象ポーズに従ったフレーム情報が処理、保存される。処理すべきオクルージョンが何もないと判断された場合、後処理に場面全体が使用され、保存される。それに対して、ｔｒｉｍａｐおよびアルファマットが推定されていれば、背景として最終的に分類された画素のみが保存される。これをアルゴリズムの次の繰り返しで使用して、上に述べた画素分類ｔｒｉｍａｐを生成することができる。

図９を見てみると、デバイスによる対応する工程としては、最終構成のレンダリングに向けてオクルージョンが何も処理されていない場合の画像を保存することと、少なくとも１つの画素分類画像が生成されかつ／またはアルファマスクが処理されていれば、背景として分類されている画像からの画素を保存することと、のうちの１つに基づき、さらなるオクルージョンハンドリング繰り返しに使用するのに向けて画像がデバイスによって撮られた際に対応するデバイスの画像およびデバイスのポーズからの情報を保存すること（９０８）を挙げることができる。

別の実施形態では、色特性が同様である範囲を対象とする色分布がそれぞれの新しいフレームとデバイスのポーズを使用して学習される。デバイスのポーズは、カメラが見ている所を知り、それにより、この色分布を色特性が同様であるクラスタに分類するのに使用される。その後、デバイスのポーズに応じて、ある色分布または他の色分布が読み込まれ、オクルージョンハンドリングアルゴリズムの間に使用される。このように、アルゴリズムでは、その時間段階におけるデバイスの追跡対象ポーズに従って該当する分布を読み込む。

図９を見てみると、デバイスによる対応する工程としては、デバイスの追跡対象ポーズを使用して、デバイスのカメラが見ている所を学習することと、複数の追跡対象ポーズの各フレームからの複数の色分布を色特性が同様であるクラスタに分類することと、デバイスの後続ポーズに基づき、後続のオクルージョンハンドリング工程中に、複数の色分布の中から１つの色分布を選択し、使用することと、に基づき、画像のフレーム、後続の画像フレーム、およびデバイスの追跡対象ポーズを使用して、デバイスの追跡対象ポーズにおけるある範囲を対象として色分布を学習すること（９１０）を挙げることができる。

別の実施形態では、デバイスが、使用可能であれば、デバイスが位置する範囲から色分布を読み込むことができる（例えば、ハードメモリから、クラウドから、別の接続デバイスから）。学習がローカルに行われてもよいので、デバイスが異なる範囲に移ると、新しく学習した分布が保存される（例えば、ハードメモリ、クラウド、または別のデバイスに）。新しい範囲からの分布は、それ以降のデバイスポーズに応じて読み込まれ得る。

図１０には、本開示のいくつかの実施形態による、拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われ得るさらなる工程のフローチャートを示す。図１０を見てみると、工程とその対応する方法としてはさらに、デバイスのカメラの視野に入る範囲を対象とする色分布を読み込むこと（１００２）を挙げることができる。工程としてはさらに、読み込んだ色分布を学習すること（１００４）を挙げることができる。工程としてはさらに、学習した色分布を保存すること（１００６）と、その範囲を含むデバイスの後続ポーズに基づき、後続のオクルージョンハンドリング工程中に、学習した色分布を使用すること（１００８）と、を挙げることができる。

別の実施形態では、デバイスのメモリ能力が十分でなければ、色情報、奥行き情報、およびポーズ情報がクラウドなどの接続デバイスに断続的に送信され得、そこで学習工程が背景工程として行われ得る。ローカルの間、カメラが別の範囲（クラスタ化群）へ移るときに追跡対象ポーズに従って計算した分布が更新され得、その後、対応する分布がダウンロードされ得る（対応する分布があれば）。

図１１には、本開示のいくつかの実施形態による、拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われ得るさらなる工程のフローチャートを示す。図１１を見てみると、工程とその対応する方法としてはさらに、別のデバイスが学習すべき画像に対応する色情報、奥行き情報、およびデバイスポーズ情報を別のデバイスに送信すること（１１０２）を挙げることができる。工程としてはさらに、デバイスのカメラがクラスタのうちの１つにおける別の範囲へ移るときにデバイスの追跡対象ポーズに従って色分布を更新すること（１１０４）と、クラスタに対応する色分布をダウンロードすること（１１０６）と、を挙げることができる。

別の実施形態では、色情報および奥行き情報を含む２つのフレーム間のポーズ進展を使用して、各画素が、動くオブジェクトまたは静的オブジェクトの一部であるとして分類され得る。この推定は、静的オブジェクトだけ学習すれば済むように、学習工程に加えられ得る。これを行うことによって、動的オブジェクトの画素は学習されず、これは、動的オブジェクトが仮想オブジェクトの背後にある場合、またはカメラの視野に仮想オブジェクトが何もない場合に起こる可能性がある。

図１２では、本開示のいくつかの実施形態による拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われ得るさらなる工程のフローチャートを示す。図１２を見てみると、工程とそれに対応する方法としてはさらに、それぞれが色情報および奥行き情報を含む２つのフレーム間のポーズ進展に基づき、動くオブジェクトまたは静的オブジェクトの一部として１つまたは複数の画素のそれぞれを分類すること（１２０２）を挙げることができる。この工程ではさらに、学習工程に動くオブジェクトまたは静的オブジェクトの一部として１つまたは複数の画素のそれぞれに対する分類を加えること（１２０４）を挙げることができる。

別の実施形態において、通常、仮想コンテンツ（例えば、手）をオクルージョンする対象となるオブジェクトがモデル化、追跡され得、そのポーズおよびモデルを上で述べた確率分布に使用して画素分類ｔｒｉｍａｐを生成することができる。

図１３には、本開示のいくつかの実施形態による拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われ得るさらなる工程のフローチャートを示す。図１３を見てみると、工程とそれに対応する方法としてはさらに、オクルージョンオブジェクトをモデル化すること（１３０２）を挙げることができる。この工程ではさらに、オクルージョンオブジェクトに対してデバイスのポーズを追跡し（１３０４）、モデル化および追跡を使用して少なくとも１つの画素分類画像を生成すること（１３０６）を挙げることができる。

別の実施形態において、フレームを使用して、高価な３Ｄ再構成アルゴリズムを計算面で適用することができ、これを後で使用して、上で述べたオクルージョン見積りを高めて画素分類ｔｒｉｍａｐを生成することができる。

図１４には、本開示のいくつかの実施形態による拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われ得るさらなる工程のフローチャートを示す。図１４を見てみると、工程とそれに対応する方法としてはさらに、１つまたは複数のフレームを使用して、少なくとも１つの画素分類画像を生成するのに再構成工程を適用すること（１４０２）を挙げることができる。

ここで、複数の仮想オブジェクトの場合の例示的な実施形態について述べることとする。

ある実施形態では、仮想オブジェクトが１つよりも多くあれば、そのとき見ることのできるオブジェクトのＡＲアプリケーションにおいてレンダリングされた際の仮想ポーズが、アルゴリズムに入力として設定され得る。仮想コンテンツ１つだけの場合の仮想コンテンツの色フレームおよび奥行きフレームを確認する際に見られるように、仮想コンテンツの形状の二値画像（仮想形状をすべて含む唯一の二値画像）が送信され、その画像では、１つのオブジェクトに対応する画素のグレースケール値は、別の仮想オブジェクトに対応する画素とは異なる。

フレームに複数の仮想オブジェクトが入っている場合のデバイスによる対応する工程は、少なくとも１つの画素分類画像を生成すること（９０２）が複数の仮想オブジェクトに及び、アルファマッティングプロセスを開始すること（９０４）が複数の仮想オブジェクトに及び、拡張現実画像の最終構成をレンダリングすること（９０６）が、複数の仮想オブジェクトに及ぶ場合に及び得る。

実施形態によっては、仮想コンテンツ１つだけの場合で上で述べた初期の奥行きに基づく前景セグメント化および／または背景セグメント化の推定が変えられ得るので、セグメント化は、前景／背景だけではなく、仮想オブジェクトと同じ個数の前景セグメントにも及ぶ。

したがって、複数の仮想オブジェクトが収まっている画素分類ｔｒｉｍａｐには、各前景セグメントの画素が前景画素として分類される複数の仮想オブジェクトに対応する複数の前景セグメントがある前景、その画素が背景画素として分類される背景、および未知の画素が含まれ得る。

別の実施形態において、仮想オブジェクトのそれぞれでは、このようなオブジェクトの前にある色が見積もられた画素が、これまでの実施形態において述べたように、その灰色が独特な任意の灰色であるとして設定され得る。

ここで、Ｆ_ｉは、仮想オブジェクトｉに割り当てられた任意グレースケール値である。

デバイスによる対応する工程としては、複数の仮想オブジェクトのそれぞれに対して、複数の仮想オブジェクトのうちの１つの仮想オブジェクトに対応する前景セグメントの画素の灰色が、デバイスのセンサによって測定された最大間隔よりも短い奥行きである画素のそれぞれで仮想オブジェクトに割り当てられた任意グレースケール値に基づき計算されており、デバイスのセンサによって測定された最大間隔よりも長い奥行きである画素のそれぞれで背景として分類される。

別の実施形態において、仮想オブジェクト１つのみに対して画素分類ｔｒｉｍａｐを生成する際の上で述べた正規化間隔は、複数の見ることのできる仮想オブジェクトの場合にも当てはめることができる。

ここで、

デバイスによる対応する工程としては、オクルージョンの奥行き情報に基づくオクルージョンオブジェクトの正規化奥行き画像が、その対応する奥行き値が仮想オブジェクトの間隔Ｄよりも小さく、画素のうちの残りの画素の値が、Ｄにより近いそれより高い値を１つまたは複数の画素に割り当てる指数関数によって与えられる０～１の値である、１つまたは複数の画素を１に設定することにより計算されることを挙げることができる。

別の実施形態において、推定α値をどのように計算するかにおける変更を伴う仮想オブジェクト１つだけのケースに同じである場合の工程は、以下とすることができる。

ここで、ｐ_ｖ ^ｉは、仮想オブジェクトｉの仮想画素である。それ故、複数仮想オブジェクトの場合の第１の実施形態において生成された初期グレースケール画像を使用して、その仮想画素が画素ｐ_ｕに相当し、またそれにより、このような画素のｐ_ｖ ^ｉの値が直に推論され得る。

デバイスによる対応する工程としては、アルファマスクを得て、未知の画素の色を確認することに基づき、少なくとも１つの画素分類画像の複数の仮想オブジェクトと前景とを融合させるアルファマッティングプロセスを開始すること（９０４）には、１つまたは複数の未知の画素のそれぞれに対してアルファチャンネルを計算し、仮想オブジェクトの対応する仮想画素を加えることが含まれ得る、ことを挙げることができる。例えば、以下の通りである。

ここで、Ｐ_ｖ ^ｉは、仮想オブジェクトｉの仮想画素である。

様々な実施形態において、クラウドベースの実装形態において、工程が行われ得る。ある実施形態では、アルファマッティングアルゴリズムを適用して、仮想コンテンツと前景とを融合させることは、クラウドベースの実装形態において行われ得る。原画像とｔｒｉｍａｐ両方からの画素部分集合が、高速グラフィックスプロセッシングユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）ベースのアルファマッティングプロセスに向けて外部サーバに送信され得、このような画素の仕上がり色のみが応答で戻され得る。デバイスからクラウドに送信された画素は、未知の画素Ｕとこの画素の周りのサイズＫの小さな近傍画素に対応する画素である可能性がある。近傍画素のサイズＫは、場面の動態によって決まる可能性がある。例えば、その場面におけるカメラと動的オブジェクト両方の速さが、Ｋのサイズを決めるのに考慮され得る。Ｋは、Ｋ＝Ｆ（Ｃ_ｐｏｓｅ、Ｖ_ＤＯ ^０、Ｖ_ＤＯ ^１、．．．、Ｖ_ＤＯ ^ｉ）と規定することができる。

デバイスによる対応する工程としては、未知の画素と未知の画素のそれぞれの周りの領域Ｋをアルファマッティングプロセスを行うサーバに送信することを含む、アルファマスクを得て、未知の画素の色を確認するのに基づき、少なくとも１つの画素分類画像の仮想オブジェクトと前景とを融合させるアルファマッティングプロセスを開始すること（９０４）を挙げることができる。領域Ｋは、画像における一場面に基づき確認され得る。さらなる工程としては、サーバから、未知の画素の色と領域Ｋを受信することを挙げることができる。

別の実施形態において、新しいフレームを処理することがクラウドベースの実装形態において行われ得る。フレームを直にクラウドに送信し、クラウドがフレームを処理し、学習アルゴリズムまたは３Ｄ再構成アルゴリスム（またはその両方）を適用することができる。デバイスにおいて、後処理が行われない可能性もある。

したがって、このデバイスは、クラウドベースの中央処理装置（例えば、中央処理装置４０）とすることができる。

図８は、いくつかの実施形態により構成されている図１のクラスドベースの中央処理装置であるデバイスに相当するものであってもよい、中央処理装置４０のブロック図である。中央処理装置４０は、少なくとも１つのプロセッサ８１０（プロセッサとも言われる）と、少なくとも１つのメモリ８１２（メモリとも言われる）と、デバイス（例えば、他のデバイス４００ａ、４００ｂ、サーバ３０など）と情報のやり取りができるようにするインターフェース８２０と、で構成され得る。プロセッサ８１０としては、１つまたは複数のネットワークにわたって配列され得るつまり分散され得る、汎用プロセッサおよび／または専用プロセッサ（例えば、マイクロプロセッサおよび／またはデジタル信号プロセッサ）などの１つまたは複数のデータ処理回路機構を挙げることができる。以下にコンピュータ可読媒体として述べるメモリ８１２は、プロセッサ８１０によって実行されると、プロセッサ８１０に、本明細書に開示の実施形態による工程を行わせるコンピュータ可読プログラムコードを格納する。他の実施形態によれば、プロセッサ８１０は、別個のメモリがなくても済むようにメモリを含むと規定され得る。中央処理装置４０には、プロセッサ８１０によって実行されると、プロセッサ８１０に、本明細書に開示の実施形態による工程を行わせる機能モジュール８１４もメモリ８１２に備えることができる。

別の実施形態において、デバイスは、新しい範囲かまたはある場面内に移ると、学習した分布および／または３Ｄ再構成メッシュをクラウドから読み込み、それまでに訪れた範囲からの情報を消す。

図１５は、本開示のいくつかの実施形態による、拡張現実におけるオクルージョンハンドリングに向けてデバイスによって行われるさらなる工程のフローチャートを示す。図１５を見てみると、工程とその対応する方法としてはさらに、デバイスに見える画像が新しい画像に変わると、新しい画像に対して学習した色分布または３次元再構成のうちの１つまたは複数をサーバから読み込むこと（１５０２）を挙げることができる。工程としてはさらに、少なくとも１つの画素分類画像、アルファマスク、および画像の最終構成を削除すること（１５０４）を挙げることができる。

図９～１５に表す工程のそれぞれを互いのどのような組合せにおいても、組合せてもよくかつ／または省いてもよく、このような組合せのすべてが本開示の趣旨および範囲に入る、という可能性を受け入れている。

いくつかの実施形態により、少なくとも１つのプロセッサ上で実行されると、その少なくとも１つのプロセッサに、ネットワークコンピューティングデバイスによって行われる方法を遂行させる命令を挙げられるコンピュータプログラムを提供することができる。

いくつかの実施形態により、少なくとも１つのプロセッサ上で実行されると、その少なくとも１つのプロセッサに、ネットワークコンピューティングデバイスによって行われる方法を遂行させる命令を格納する非一時的コンピュータ可読媒体が挙げられるコンピュータプログラム製品を提供することができる。

本明細書では、本開示の実施形態による方法、装置（システム）、およびコンピュータプログラム製品の流れ図および／またはブロック図を参照しながら、本開示の態様を説明してきた。流れ図および／またはブロック図の各ブロック、また流れ図および／またはブロック図のブロック組合せがコンピュータプログラム命令によって実施され得る、ということが分かるであろう。このようなコンピュータプロブラム命令を、コンピュータ、専用コンピュータなどのプログラマブルデータ処理装置のプロセッサに与えて、コンピュータなどのプログラマブル命令実行装置のプロセッサによるこの命令の実行が、流れ図および／または１つもしくは複数のブロック図に明示した機能／働きを果たす機構を生み出す、といったマシンを作り出すことができる。

実行されると、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスを、特定の方式で働かせることができる、このコンピュータプログラム命令は、コンピュータ可読媒体に格納することもでき、コンピュータ可読媒体に格納されるとこの命令は、実行されると、コンピュータに、流れ図および／または１つもしくは複数のブロック図に明示した機能／働きを果たさせる命令が挙げられる製造品を成す。また、コンピュータプログラム命令を、コンピュータなどのプログラマブル命令実行装置または他のデバイスに読み込み、コンピュータなどのプログラマブル装置または他のデバイス上で一連の工程ステップを実行させ、コンピュータなどのプログラマブル装置上でのこの命令の実行が、流れ図および／または１つもしくは複数のブロック図に明示した機能／働きを果たすといった工程を提供する、コンピュータ実施工程をもたらす。

本明細書で使用している用語が、単に特定の実施形態を表すに過ぎず、本発明を限定するものとするつもりはないということが分かるはずである。それとは違うように規定されていない限り、本明細書で使用しているすべての用語（技術用語や科学用語を含む）が、本開示が属する技術分野の当業者が普通に分かるのと同じ意味を持つ。また、一般的に使用される辞書で規定されているものなどの用語が本明細書の場合および関連技術におけるその意味と一致する意味を持つと解釈されるべきであり、理想化されたまたは過度に形式的な意味合いで本明細書にそのように規定されると解釈されるものではない、ということも分かるであろう。

流れ図やブロック図は、本開示の様々な態様によるシステム、方法、およびコンピュータプログラム製品の考えられ得る実装形態のアーキテクチャ、機能性、および働きを示すものである。この点で、流れ図やブロック図の各ブロックは、具体的な論理機能を果たすよう求める１つまたは複数の実行可能命令が挙げられる、コードのモジュール、セグメント、または一部に相当するものであり得る。代替の実装形態によっては、ブロックに示した機能が、図に示した順番を外れて行われてもよいものがある、ということにも気付くであろう。例えば、連続して示している２つのブロックが、実際には、関わる機能性に応じて、ほぼ同時に実行されてもよいし、逆の順番で実行されてもよい。ブロック図および／または流れ図の各ブロック、またブロック図および／または流れ図のブロックの組合せが、具体的な機能や働き、または専用ハードウェア命令やコンピュータ命令の組合せを果たす、専用ハードウェアベースのシステムによって実施されてもよい、ということにも気付くであろう。

本明細書で使用している用語は、単に特定の側面を表すのに過ぎず、本開示を限定するものとするつもりはない。本明細書で使用する際、文脈上、はっきりそうではないことが分からない限り、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、複数形にも及ぶものであるとする。本明細書で使用する際の「ｃｏｍｐｒｉｓｅｓ（備える）」および／または「ｃｏｍｐｒｉｓｉｎｇ（備える）」という用語が、述べた特徴、整数、ステップ、工程、要素、および／または構成要素の存在を明示するが、１つまたは複数の他の特徴、整数、ステップ、工程、要素、構成要素、および／またはその群の存在または追加を除外するものではない、ということも分かるであろう。本明細書で使用する際、「ａｎｄ／ｏｒ（および／または）」という言い回しは、関連する挙げた項目のうちの１つまたは複数のあらゆる組合せにも及ぶものである。図面の説明全体を通して、同じ参照番号のものは、同じ要素である。

以下の実施形態におけるいかなる手段要素やステップ要素＋機能要素にでも対応する構造、材料、働き、および同等物は、他の実施形態との組合せで機能を果たすいかなる本開示の構造、材料、または働きにも及ぶものであるとする。本開示の発明を実施するための形態は、理解を助けるために、また説明上、提示したが、すべてを網羅するものではなく、開示した形態の開示に限るものでないとする。当業者であれば、本開示の範囲および趣旨から外れることのない多くの修正形態や変形形態が見えてくるであろう。本明細書における本開示の態様は、本開示の原理および実用を一番よく説明するために、また当技術分野の当業者が、その可能性が受け入れられる特定の使用に合うような様々な修正形態で本開示を理解することができるように、決めて、記載されている。

以下に、例示的な実施形態を提供する。参照番号／参照文字が示す特定の要素に実施形態例を限ることなく、例／図示として、参照番号／参照文字を括弧に入れている。

Claims

デバイス（４００、４０）によって行われる拡張現実におけるオクルージョンハンドリングのための方法であって、
一フレームの少なくとも１つの画素分類画像を生成すること（９０２）であって、
前記少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素を含む画素があり、
前記生成することが、（１）前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対して初期前景画素確率画像を前景色確率分布から計算し、前記画素のうちの１つまたは複数のそれぞれに対する初期背景画素確率画像を、前記画素のうちの１つまたは複数の前記それぞれが動的であるかまたは静的であるかの確率に基づき計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、前記オクルージョンオブジェクトの正規化奥行き画像を計算することと、で構成されている、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）と、
アルファマスクを得て、前記未知の画素の色を決定することに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを開始すること（９０４）と、
前記少なくとも１つの画素分類画像における画素に前記アルファマスクを施すのに基づき、前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすること（９０６）と、を含む、方法。
前景色確率分布から前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を前記計算することでは、確率分布に従って前記画素のうちの前記１つまたは複数のそれぞれが前記前景の一部であることの確率を引き出す、請求項１に記載の方法。
前記画素のうちの１つまたは複数のそれぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数の前記それぞれに対する初期背景画素確率画像を前記計算することは、３次元再構成背景を使用して、前記画像の前記画素のうちの１つまたは複数の前記それぞれが背景画素であることの初期確率を推定することを含む、請求項１から２のいずれか一項に記載の方法。
それまでに背景確率分布Ｌを学習していないか、または前景セグメント化画素が動的であることの確率が規定の閾値Ｔを下回っていれば、前記画素のうちの１つまたは複数のそれぞれに対する初期背景画素確率画像が、色分布Ｐｂを使用して計算される、請求項１および３のいずれか一項に記載の方法。
前記前景画素のうちの前記１つまたは複数が動的オブジェクトに対応すると見なされている場合、前記画素のうちの１つまたは複数のそれぞれに対する前記初期背景画素確率画像が、それまでに学習した背景確率分布に基づき計算される、請求項１および３のいずれか一項に記載の方法。
前記初期背景画素確率が学習工程から出力された前記３次元再構成背景から引き出される、請求項１および３のいずれか一項に記載の方法。
前記３次元再構成背景が、前記デバイスのセンサからの色データまたは奥行きデータからの再構成アルゴリズムを適用することにより得られる、請求項３および６のいずれか一項に記載の方法。
前記前景セグメント化画素が動的である確率が、
前記画像の途切れのないフレームにおける前記背景画素のうちの前記それぞれ１つまたは複数の位置の変化を追跡することと、
前記背景画素のうちの前記それぞれ１つまたは複数が属するオブジェクトの種類を、オブジェクト検出工程を経て意味的に理解することと、
前記オクルージョンオブジェクトが収まっている前記画像からの測定値、のうちの１つによって推定される、請求項１、３、および４のいずれか一項に記載の方法。
前記画素のうちの１つまたは複数のそれぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数の前記それぞれに対する初期背景画素確率画像を前記計算することが、
前記１つまたは複数の画素のそれぞれが静的オブジェクトに対応すると見なされるという確率閾値を満たすかどうかを判断することと、
学習した背景確率分布を使用して、前記１つまたは複数の画素のそれぞれが前記背景の一部であることの確率を引き出すことと、で構成されている、請求項１から２のいずれか一項に記載の方法。
前記オクルージョンオブジェクトの奥行き情報に基づく前記オクルージョンオブジェクトの前記正規化奥行き画像が、その対応する奥行き値が前記仮想オブジェクトまでの間隔Ｄよりも小さく、前記画素のうちの残りの画素の値が、Ｄにより近いそれより高い値を前記１つまたは複数の画素に割り当てる指数関数によって与えられる０から１の間の値である前記１つまたは複数の画素を１に設定することによって計算される、請求項１に記載の方法。
前記少なくとも１つの画素分類画像を前記生成すること（９０２）でさらに、
前記初期背景確率画像および前記初期前景画素確率画像、前記正規化奥行き画像、ならびに前記１つまたは複数の画素の前記色と前記奥行きの可変性に基づき、重み付き背景画素確率画像および重み付き前景画素確率画像を計算することを含む、請求項１から１０のいずれか一項に記載の方法。
前記少なくとも１つの画素分類画像を前記生成すること（９０２）はさらに、
前記画素のうちの前記１つまたは複数のそれぞれが、前記画像における前景または背景として分類される確率を推定することと、
前記画素のうちの前記１つまたは複数のそれぞれが規定の閾値よりも高いという推定に基づき、前記画像における前記画素のうちの前記１つまたは複数の前記それぞれを前景として分類することと、
前景として分類されない前記画像における前記画素のうちの前記１つまたは複数の前記それぞれの残りに対して、前記画素のうちの１つまたは複数の前記それぞれの残りを背景として分類することと、
前景として分類した前記画素によって形成された前記画像の前景域のエッジを計算して、拡張することに基づき、前記未知の画素を決定することと、に基づき、
正規化背景画素確率画像および正規化前景画素確率画像を計算することを含む、請求項１から１１のいずれか一項に記載の方法。
前記画素のうちの前記１つまたは複数のそれぞれが前記画像における前景として、または背景として分類されることの確率を前記推定することが、前記重み付き前景画素確率画像および前記重み付き背景画素確率画像を使用して計算され、前記重み付き前景画素確率画像および前記重み付き背景画素確率画像を得るのに使用する重みが前記画像の特性に基づき動的に変わる、請求項１１から１２のいずれか一項に記載の方法。
アルファマスクαを得て、前記未知の画素の色を決定するのに基づき前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを前記開始すること（９０４）は、前記１つまたは複数の未知の画素のそれぞれに対してアルファチャンネルを計算し、反転アルファマスクを使用して対応する仮想画素を加えることを含む、請求項１から１３のいずれか一項に記載の方法。
前記アルファマッティングプロセスでは、前記少なくとも１つの画素分類画像と入力としての画像とを使用する、請求項１４に記載の方法。
前記前景画素が、Ｉ_Ｆで規定される前記画素として規定され、Ｉ_Ｆで規定される前記画素のα値が最大値に設定される、請求項１３から１５のいずれか一項に記載の方法。
前記少なくとも１つの画素分類画像において画素に前記アルファマスクを施すことに基づき前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成を前記レンダリングすること（９０６）は、
前記デバイスが非シースルー表示デバイスである場合、前記反転アルファマスク（１－α）を使用して、前記少なくとも１つの画素分類画像の前記前景画素および前記仮想オブジェクトに前記アルファマスクαを施し、前記少なくとも１つの画素分類画像の前記背景画素に結果を加えることと、
前記デバイスがシースルーデバイスである場合、前記少なくとも１つの画素分類画像において、前記仮想オブジェクトをレンダリングし、前記反転アルファマスク（１－α）をオクルージョンマスクとして施すことと、のうちの１つである、請求項１から１６のいずれか一項に記載の方法。
前記最終構成の前記レンダリングに向けてオクルージョンが処理されなかった場合の前記画像を保存することと、
前記少なくとも１つの画素分類画像が生成されかつ／または前記アルファマスクが処理された場合、背景として分類されている画素を前記画像から保存することと、
のうちの１つに基づき、さらなるオクルージョンハンドリング繰り返しに使用するのに向けて前記画像が前記デバイスによって撮られている場合に対応する前記デバイスの前記画像およびポーズからの情報を保存すること（９０８）をさらに含む、請求項１から１７のいずれか一項に記載の方法。
前記デバイスのカメラが見ている学習対象の前記デバイスの追跡対象ポーズを使用することと、
複数の追跡対象ポーズの各フレームからの複数の色分布を色特性が同様であるクラスタに分類することと、
前記デバイスの後続ポーズに基づき、後続のオクルージョンハンドリング工程中に前記複数の色分布の中から１つの色分布を選択し、使用することと、
に基づき、前記画像の前記フレーム、後続の画像フレーム、および前記デバイスの追跡対象ポーズを使用して、前記デバイスの前記追跡対象ポーズにおける範囲に対する色分布を学習すること（９１０）をさらに含む、請求項１から１８のいずれか一項に記載の方法。
前記デバイスの前記カメラの視野に入る範囲に対する色分布を読み込むこと（１００２）と、
その読み込んだ色分布を学習すること（１００４）と、
その学習した色分布を保存すること（１００６）と、
前記範囲を含む前記デバイスの後続ポーズに基づき、後続オクルージョンハンドリング工程中にその学習した色分布を使用すること（１００８）と、
をさらに含む、請求項１から１９のいずれか一項に記載の方法。
前記画像に対応する色、奥行き、およびデバイスポーズの情報を学習対象の別のデバイスに送信すること（１１０２）と、
前記クラスタのうちの１つにおける別の範囲に前記デバイスの前記カメラが移ると、前記デバイスの追跡対象ポーズに従って前記色分布を更新すること（１１０４）と、
前記クラスタに対応する前記色分布をダウンロードすること（１１０６）と、
をさらに含む、請求項１から２８のいずれか一項に記載の方法。
それぞれが色と奥行きの情報を含む２つのフレーム間のポーズ進展に基づき、前記１つまたは複数の画素のそれぞれを動くオブジェクトまたは静的オブジェクトの一部として分類すること（１２０２）と、
前記１つまたは複数の画素のそれぞれの動くオブジェクトまたは静的オブジェクトの一部としての分類を前記学習工程に加えること（１２０４）と、
をさらに含む、請求項１から２１のいずれか一項に記載の方法。
前記オクルージョンオブジェクトをモデル化すること（１３０２）と、
前記オクルージョンオブジェクトに対する前記デバイスの前記ポーズを追跡すること（１３０４）と、
前記モデル化および追跡を使用して、前記少なくとも１つの画素分類画像を生成すること（１３０６）と、
をさらに含む、請求項１から２２のいずれか一項に記載の方法。
前記１つおよび複数のフレームを使用して、前記少なくとも１つの画素分類画像を生成するのに再構成工程を適用すること（１４０２）をさらに含む、請求項１から２３のいずれか一項に記載の方法。
前記フレームには複数の仮想オブジェクトが収まっており、
前記少なくとも１つの画素分類画像を前記生成すること（９０２）には前記複数の仮想オブジェクトが含まれ、
前記アルファマッティングプロセスを開始すること（９０４）には、前記複数の仮想オブジェクトが含まれ、
拡張現実画像の前記最終構成を前記レンダリングすること（９０６）には、前記複数の仮想オブジェクトが含まれる、
請求項１から２４のいずれか一項に記載の方法。
前記少なくとも１つの画素分類画像には、各前景セグメントの画素が前景画素として分類される前記複数の仮想オブジェクトに対応する複数の前景セグメントがある前景、その画素が背景画素として分類される背景、および未知の画素がある、請求項２５に記載の方法。
前記複数の仮想オブジェクトのそれぞれでは、前記複数の仮想オブジェクトのうちの１つの仮想オブジェクトに対応する前記前景セグメントの前記画素の灰色が、前記デバイスのセンサによって測定された最大間隔よりも短い奥行きがある前記画素のそれぞれに対する前記仮想オブジェクトに割り当てられた任意グレースケール値に基づき計算され、前記前景セグメントの前記画素が、前記デバイスの前記センサによって測定された最大間隔よりも長い奥行きがある前記画素のそれぞれに対する背景として分類される、請求項２５から２６のいずれか一項に記載の方法。
前記オクルージョンの奥行き情報に基づく前記オクルージョンオブジェクトの前記正規化奥行き画像が、その対応する奥行き値が、前記仮想オブジェクトまでの間隔Ｄよりも小さく、前記画素のうちの残りの画素の値が、Ｄにより近いそれより高い値を前記１つまたは複数の画素に割り当てる指数関数によって与えられる０～１の値である、前記１つまたは複数の画素を１に設定することにより計算される、請求項２５から２７のいずれか一項に記載の方法。
アルファマスクを得て、前記未知の画素の色を決定するのに基づき、前記少なくとも１つの画素分類画像の複数の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを前記開始すること（９０４）は、前記１つまたは複数の未知の画素のそれぞれに対してアルファチャンネルを計算し、仮想オブジェクトの対応する仮想画素を加えることを含む、請求項１から２５のいずれか一項に記載の方法。
アルファマスクを得て、前記未知の画素の色を決定するのに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを前記開始すること（９０４）が、
前記未知の画素と前記未知の画素のそれぞれの周りの領域Ｋを前記アルファマッティングプロセスを行うサーバに送信することであって、前記領域Ｋが前記画像における一場面に基づき決定される、送信することと、
前記未知の画素および前記領域Ｋの色を前記サーバから受信することと、
を含む、請求項１から２９のいずれか一項に記載の方法。
前記デバイスが拡張現実デバイス（４００）である、請求項１から３０のいずれか一項に記載の方法。
前記デバイスがクラウドベースの中央処理装置（４０）である、請求項１から３１のいずれか一項に記載の方法。
前記デバイスに見える前記画像が新しい画像に変わると、サーバから、前記新しい画像に対する学習した色分布または３次元再構成のうちの１つまたは複数を読み込むこと（１５０２）と、
前記少なくとも１つの画素分類画像、前記アルファマスク、および前記画像の前記最終構成を削除すること（１５０４）と、をさらに含む、
請求項１から３１のいずれか一項に記載の方法。
処理回路（４１０、８１０）と、
前記処理回路とつながっているメモリ（４１２、８１２）であって、前記処理回路によって実行されると、ネットワークコンピューティングデバイスに、
一フレームの少なくとも１つの画素分類画像を生成すること（９０２）であって、
前記少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素を含む画素があり、
前記生成することが、（１）前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を、前景色確率分布から計算し、前記画素のうちの１つまたは複数の画素の前記それぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数のそれぞれに対する初期背景画素確率画像を計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、前記オクルージョンオブジェクトの正規化奥行き画像を計算することと、を含む、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）と、
アルファマスクを得て、前記未知の画素の色を決定することに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを開始すること（９０４）と、
前記少なくとも１つの画素分類画像における画素に前記アルファマスクを施すのに基づき、前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすること（９０６）
を含む工程を行わせる命令が入っている、メモリ（４１２、８１２）と、で構成されているデバイス（４００、４０）。
前記メモリには、前記処理回路によって実行されると、前記ネットワークコンピューティングデバイスに請求項２から３３のいずれか一項による工程を行わせる命令が入っている、請求項３４に記載のデバイス（４００、４０）。
一フレームの少なくとも１つの画素分類画像を生成すること（９０２）であって、
前記少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素があり、
前記生成することが、（１）前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を、前景色確率分布から計算し、前記画素のうちの１つまたは複数の前記それぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数のそれぞれに対する初期背景画素確率画像を計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、前記オクルージョンオブジェクトの正規化奥行き画像を計算することと、で構成されている、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）と、
アルファマスクを得て、前記未知の画素の色を決定することに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを開始すること（９０４）と、
前記少なくとも１つの画素分類画像における画素に前記アルファマスクを施すことに基づき、前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすること（９０６）と、
が挙げられる工程を行うように適合されたデバイス（４００、４０）。
請求項２から３３のいずれか一項に従って行うように適合された請求項３６に記載のデバイス。
デバイス（４００、４０）の処理回路（４１０、８１０）によって実行されるプログラムコードを含むコンピュータプログラムであって、それによって、前記プログラムコードの実行が、前記ネットワークコンピューティングデバイスに、
一フレームの少なくとも１つの画素分類画像を生成すること（９０２）であって、
前記少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素を含む画素があり、
前記生成することが、（１）前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を、前景色確率分布から計算し、前記画素のうちの１つまたは複数のそれぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数の前記それぞれに対する初期背景画素確率画像を計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、前記オクルージョンオブジェクトの正規化奥行き画像を計算することと、を含む、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）と、
アルファマスクを得て、前記未知の画素の色を決定することに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを開始すること（９０４）と、
前記少なくとも１つの画素分類画像における画素に前記アルファマスクを施すことに基づき、前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすること（９０６）と、
を含む工程を行わせる、コンピュータプログラム。
前記プログラムコードの実行が、前記デバイス（４００、４０）に、請求項２から３３のいずれか一項による工程を行わせる、請求項３８に記載のコンピュータプログラム。
デバイス（４００、４０）の処理回路（４１０、８１０）によって実行されるプログラムコードが入っている非一時的記憶媒体を含むコンピュータプログラム製品であって、それによって、前記プログラムコードの実行が、前記デバイス（４００、４０）に、
一フレームの少なくとも１つの画素分類画像を生成すること（９０２）であって、
前記少なくとも１つの画素分類画像には、オクルージョンオブジェクトが含まれ、その画素が前景画素として分類される前景、その画素が背景画素として分類される背景、および未知の画素があり、
前記生成することが、（１）前記オクルージョンオブジェクトが収まっている画像の前記画素のうちの１つまたは複数のそれぞれに対する初期前景画素確率画像を、前景色確率分布から計算し、前記画素のうちの１つまたは複数のそれぞれが静的であるかまたは動的であるかの確率に基づき、前記画素のうちの１つまたは複数の前記それぞれに対する初期背景画素確率画像を計算することと、（２）前記オクルージョンオブジェクトの奥行き情報に基づき、前記オクルージョンオブジェクトの正規化奥行き画像を計算することと、を含む、一フレームの少なくとも１つの画素分類画像を生成すること（９０２）と、
アルファマスクを得て、前記未知の画素の色を決定することに基づき、前記少なくとも１つの画素分類画像の仮想オブジェクトと前記前景とを融合させるアルファマッティングプロセスを開始すること（９０４）と、
前記少なくとも１つの画素分類画像における画素に前記アルファマスクを施すことに基づき、前記オクルージョンオブジェクトにオクルージョンされた前記仮想オブジェクトが収まっている拡張現実画像の最終構成をレンダリングすること（９０６）と、
を含む工程を行わせる、コンピュータプログラム製品。
前記プログラムコードの実行が、前記デバイス（４００、４０）に、請求項２から３３のいずれか一項による工程を行わせる、請求項４０に記載のコンピュータプログラム製品。