JP7425188B2

JP7425188B2 - デュアルピクセル画像データを使用した焦点ブラー除去および深度推定

Info

Publication number: JP7425188B2
Application number: JP2022521339A
Authority: JP
Inventors: ラフル・ガーグ; ニール・ワドワ; プラトゥル・プリーティ・スリニヴァサン; ティアンファン・シュエ; ジアウェン・チェン; シュミアン・シン; ジョナサン・ティー・バロン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2024-01-30
Anticipated expiration: 2040-11-13
Also published as: EP4055556B1; CN114766031A; KR102606209B1; WO2022103400A1; EP4055556A1; JP2023507706A; US20220375042A1; KR20220066040A

Description

画像をキャプチャするカメラデバイスの被写界深度の外側に対応するオブジェクトが配置されているため、画像の一部がブラーすることがある。ブラーの程度は、被写界深度に対する対応するオブジェクトの位置に依存する場合があり、対応するオブジェクトが被写界深度からカメラに向かう方向、またはカメラから離れる方向に移動するにつれて、ブラーの量は増加する。場合によっては、画像のブラーは望ましくなく、様々な画像処理技法、モデル、および/またはアルゴリズムを使用して調整または修正される可能性がある。

Dmitry Ulyanovらによって作成された「Deep Image Prior」というタイトルの論文 Dongwei Renらによって作成された「Neural Blind Deconvolution Using Deep Priors」というタイトルの論文

デュアルピクセル画像データは、焦点の合った画像および/またはデュアルピクセル画像データに対応する深度マップを回復するために使用され得る焦点ぼけの手がかりを含み得る。具体的には、デュアルピクセル画像データは、第1のサブ画像および第2のサブ画像を含み得る。焦点の合った画像は、第1のブラーカーネルを使用して畳み込まれた場合、第1のサブ画像および/またはその近似を生成し得、第2のブラーカーネルを使用して畳み込まれた場合、第2のサブ画像および/またはその近似を生成し得る。損失関数は、焦点の合った画像、ブラーカーネル、およびデュアルピクセル画像データの間のこれらの関係に基づいて定式化され得る。損失関数は、焦点の合った画像を生成するように構成された数学的モデル、および場合によっては、第1および第2のブラーカーネルを生成するように構成された1つまたは複数の数学的モデルをトレーニングするために使用され得る。ブラーカーネルは、複数のサイズスケールにおいて焦点の合った画像および/またはデュアルピクセル画像データに適用され得、それによってコストボリュームを生成する。焦点の合った画像のそれぞれのピクセルごとに、第1および第2のブラーカーネルを適用するための対応するサイズスケールを選択するためにコストボリュームが使用され得、それによってそれぞれのピクセルに関連付けられる深度を示すことができる。

第1の例示的な実施形態では、方法は、第1のサブ画像および第2のサブ画像を含むデュアルピクセル画像データを取得するステップを含み得る。本方法はまた、(i)焦点の合った画像、(ii)第1のサブ画像に対応する第1のブラーカーネル、および(iii)第2のサブ画像に対応する第2のブラーカーネルを決定するステップを含み得る。本方法はまた、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定するステップをさらに含み得る。本方法は、損失値および損失関数に基づいて、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新するステップをさらに含み得る。本方法は、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成するステップをさらに含み得る。

第2の例示的な実施形態では、システムは、プロセッサと、プロセッサによって実行されると、プロセッサに動作を実行させる命令を記憶した非一時的コンピュータ可読媒体とを含み得る。本動作は、第1のサブ画像および第2のサブ画像を含むデュアルピクセル画像データを取得することを含み得る。本動作はまた、(i)焦点の合った画像、(ii)第1のサブ画像に対応する第1のブラーカーネル、および(iii)第2のサブ画像に対応する第2のブラーカーネルを決定することを含み得る。本動作はまた、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定することをさらに含み得る。本動作は、損失値および損失関数に基づいて、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新することをさらに含み得る。本動作は、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成することをさらに含み得る。

第3の例示的な実施形態では、非一時的コンピュータ可読媒体は、コンピューティングデバイスによって実行されると、コンピューティングデバイスに動作を実行させる命令を記憶し得る。本動作は、第1のサブ画像および第2のサブ画像を含むデュアルピクセル画像データを取得することを含み得る。本動作はまた、(i)焦点の合った画像、(ii)第1のサブ画像に対応する第1のブラーカーネル、および(iii)第2のサブ画像に対応する第2のブラーカーネルを決定することを含み得る。本動作はまた、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定することをさらに含み得る。本動作は、損失値および損失関数に基づいて、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新することをさらに含み得る。本動作は、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成することをさらに含み得る。

第4の例示的な実施形態では、システムは、第1のサブ画像および第2のサブ画像を含むデュアルピクセル画像データを取得するための手段を含み得る。本システムはまた、(i)焦点の合った画像、(ii)第1のサブ画像に対応する第1のブラーカーネル、および(iii)第2のサブ画像に対応する第2のブラーカーネルを決定するための手段を含み得る。本システムはまた、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定するための手段をさらに含み得る。本システムは、損失値および損失関数に基づいて、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新するための手段をさらに含み得る。本システムは、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成するための手段をさらに含み得る。

これら、ならびに他の実施形態、態様、利点、および代替案は、添付の図面を適切に参照して、以下の詳細な説明を読むことによって当業者に明らかになるであろう。さらに、本明細書で提供されるこの要約ならびに他の説明および図面は、例としてのみ実施形態を説明することを意図しており、したがって、多くの変形が可能である。たとえば、構造要素および処理ステップは、特許請求される実施形態の範囲内にとどまりながら、再配置、結合、分散、排除、または他の方法で変更することができる。

本明細書に記載の例による、コンピューティングデバイスを示す図である。本明細書に記載の例による、コンピューティングシステムを示す図である。本明細書に記載の例による、デュアルピクセル画像センサを示す図である。本明細書に記載の例による、システムの態様を示す図である。本明細書に記載の例による、システムの態様を示す図である。本明細書に記載の例による、システムの態様を示す図である。本明細書に記載の例による、コストボリュームを示す図である。本明細書に記載の例による、デュアルピクセル画像、ブラーカーネル、および深度マップを示す図である。本明細書に記載の例による、人工ニューラルネットワークを示す図である。本明細書に記載の例による、フローチャートである。

例示的な方法、デバイス、およびシステムが本明細書に記載されている。本明細書では、「例」および「例示的」という用語は、「例、実例、または例示として役立つ」ことを意味するために使用されることを理解されたい。「例」、「例示的」、および/または「実例となる」であるとして本明細書に記載される任意の実施形態または特徴は、そのように述べられない限り、必ずしも他の実施形態または特徴よりも好ましいまたは有利に構築されるべきではない。したがって、他の実施形態を利用することができ、本明細書に提示される主題の範囲から逸脱することなしに、他の変更を行うことができる。

したがって、本明細書に記載の例示的な実施形態は、限定することを意味するものではない。本明細書で一般的に説明され、図面に示される本開示の態様は、多種多様な異なる構成において配置、置換、結合、分離、および設計することができることが容易に理解されよう。

さらに、文脈が別のことを示唆しない限り、図面の各々に示されている特徴は、互いに組み合わせて使用され得る。したがって、図面は、一般に、各実施形態にとって図示されたすべての特徴が必要であるとは限らないことを理解するとともに、1つまたは複数の全体的な実施形態のコンポーネントの態様として見なされるべきである。

さらに、本明細書または特許請求の範囲における要素、ブロック、またはステップの列挙は、明確にするためのものである。したがって、そのような列挙は、これらの要素、ブロック、またはステップが特定の配置に準拠している、または特定の順序において実行されることを要求または暗示するものとして解釈されるべきではない。特に明記されていない限り、図面は縮尺通りに描かれていない。

I.概要
デュアルピクセル画像センサは、それぞれが対応する独立して読み取り可能なフォトダイオードを含む2つのフォトサイトに分割される少なくともいくつかのピクセル(すなわち、デュアルピクセル)を含み得る。したがって、デュアルピクセル画像センサは、各デュアルピクセルの第1のフォトサイトを使用して生成された第1のサブ画像(たとえば、各デュアルピクセルの左側のフォトサイトに基づいて生成された左側のデュアルピクセルサブ画像)と、各デュアルピクセルの第2のフォトサイトを使用して生成された第2のサブ画像(たとえば、各デュアルピクセルの右側のフォトサイトに基づいて生成された右側のデュアルピクセルサブ画像)とを含む、デュアルピクセル画像データを生成するように構成され得る。デュアルピクセル画像データは2つのサブ画像を含むが、ステレオスコピック画像データとは異なり、デュアルピクセル画像データは単一の開口部を使用して生成されるという点でモノスコピックである。

シーンの一部から反射された光がデュアルピクセル画像センサの対応する部分に集束されるとき、対応するデュアルピクセルの各フォトサイトは、類似および/または実質的に同一の信号を生成し得る。シーンの一部から反射された光がデュアルピクセル画像センサの対応する部分と焦点が合っていない場合、対応するデュアルピクセルの各フォトサイトは異なる信号を生成し得る。したがって、デュアルピクセル画像センサによって生成されたデュアルピクセル画像データは、各デュアルピクセルに関連付けられる焦点ぼけの程度を示す情報を含み得、したがって、デュアルピクセル画像データに関連付けられる見かけのブラーの程度を調整するために使用され得る。

具体的には、第1のサブ画像、第2のサブ画像、焦点の合った画像(たとえば、そのすべての部分に沿って焦点が合っているように見える画像)、第1のサブ画像に関連付けられる第1のブラーカーネル、および第2のサブ画像に関連付けられる第2のブラーカーネルの間の関係は、最適化関数(すなわち、損失関数)を定式化するために使用され得る。たとえば、焦点の合った画像、第1のブラーカーネル、および/または第2のブラーカーネルは、それぞれ、対応する数学的モデルによって表され得る。最適化関数を使用して生成される損失値を低減(たとえば、しきい値未満)および/または最小化するようにこれらの数学的モデルをトレーニングするために、最適化関数が使用され得る。最適化関数は、等価損失項、データ損失項、および/または1つもしくは複数の以前の損失項を含み得、これらの各々は、第1のサブ画像、第2のサブ画像、焦点の合った画像、第1のブラーカーネル、および/または第2のブラーカーネルの間の関係を表し得る。

等価損失項および/またはデータ損失項は、焦点の合った画像、デュアルピクセルのサブ画像、および対応するブラーカーネルの間の関係に基づいて導き出され得る。具体的には、第1のサブ画像は、焦点の合った画像と第1のブラーカーネルとの畳み込みとして表され得る。同様に、第2のサブ画像は、焦点の合った画像と第2のブラーカーネルとの畳み込みとして表され得る。

したがって、等価項は、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成され得る。したがって、等価損失項は、ブラーカーネルの畳み込みとデュアルピクセルサブ画像との間の対称性の程度を増加および/または最大化するブラーカーネルを生成するための最適化を奨励する可能性がある。データ損失項は、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成され得る。したがって、データ損失項は、畳み込みの結果として対応するデュアルピクセルサブ画像と比較して失われる情報の量を低減および/または最小化する焦点の合った画像および/またはブラーカーネルを生成するための最適化を奨励し得る。

第1のブラーカーネルおよび第2のブラーカーネルの各々は、特定の深度に関連付けられるシーンの部分をブラー除去するように構成され得る。したがって、異なる深度における特徴をブラー除去するために、第1のブラーカーネルおよび第2のブラーカーネルの各々は、複数のサイズスケールにスケーリングされ得、各サイズスケールは、デュアルピクセルカメラデバイスに対する特定の深度に対応する。等価損失項および/またはデータ損失項は、各サイズスケールにおいて計算され得、それによって、スタックされると、等価損失コストボリュームおよび/またはデータ損失コストボリュームを形成する、対応する等価損失画像および/またはデータ損失画像を生成する。

コストボリュームの断面によって表されるそれぞれのピクセルごとに、コストボリュームの深度に沿った複数の空間的に対応するピクセルから、最も効果的にブラー除去されたピクセルの対応するピクセル値を選択することによって、コストボリュームが削減され得る。場合によっては、コストボリュームの断面は焦点の合った画像と同じ解像度を有し得る。したがって、コストボリュームの削減は、焦点の合った画像のそれぞれのピクセルごとに、それぞれのピクセルに関連付けられる対応するサイズスケールを示し得る。各サイズスケールは特定のオブジェクトの深度に対応するため、コストボリュームを削減すると、焦点の合った画像に関連付けられる深度マップも生成し得る。したがって、最適化は、同時に(i)焦点の合った画像を生成することと、(ii)対応する深度マップを生成することと、(iii)第1および/または第2のブラーカーネルを適用するカーネルスケーリングを選択することと、場合によっては、(iv)第1および第2のブラーカーネルを生成することとを行い得る。

焦点の合った画像、第1のブラーカーネル、および/または第2のブラーカーネルを生成する対応する数学的モデルは、複数の異なるデュアルピクセル画像に関して動作するようにトレーニングされるのではなく、画像ごとにトレーニングされ得る。したがって、数学的モデルのトレーニングは、最適化関数とデュアルピクセル画像データがトレーニングを実行するために十分であり、トレーニングがグラウンドトゥルースデータに依存しないという点で自己監視される。実際、他の異なる機械学習モデルをトレーニングするために使用できるグラウンドトゥルースデータを生成するために、トレーニングされた数学的モデルが使用され得る。

場合によっては、ブラーカーネルはシーンに依存しないため(代わりにカメラデバイスの開口部の形状に依存する)、第1および第2のブラーカーネルは、複数の異なるカメラデバイスの各々に対して較正され得る。第1および第2のブラーカーネルが較正されると、第1および第2のブラーカーネルが対応するモデルによって新たに生成されない場合がある。したがって、所与のデュアルピクセル画像を生成するために使用される特定のカメラデバイス(たとえば、その特定のモデル)に基づいて、対応する較正された第1および第2のブラーカーネルが選択され、焦点の合った画像を生成するように構成された数学的モデルをトレーニングするために使用され得、それによって最適化の複雑さを軽減する。たとえば、較正されたブラーカーネルは、最適化関数によって修正されたものとして扱われる場合もあり、トレーニング中に改良される場合もある。

結果として得られる焦点の合った画像、深度マップ、および/または第1および第2のブラーカーネルは、デュアルピクセル画像データに対して様々な調整を実行するために使用され得る。たとえば、デュアルピクセル画像データの様々な部分に関連付けられるブラーの程度は、(たとえば、様々な領域におけるブラーを増加および/または減少させることによって)ターゲットレベルに調整され得る。さらに、深度マップはデュアルピクセル画像データに対応するため、デュアルピクセル画像データは、他の可能性の中でもとりわけ、深度を意識した方法で、デュアルピクセル画像データによって表されるシーンへのシミュレートされたオブジェクトの挿入など、様々な拡張現実(AR)アプリケーションに使用され得る。

II.例示的なコンピューティングデバイスおよびシステム
図1は、例示的なコンピューティングデバイス100を示している。コンピューティングデバイス100は、モバイル電話のフォームファクタにおいて示されている。しかしながら、コンピューティングデバイス100は、他の可能性の中でもとりわけ、ラップトップコンピュータ、タブレットコンピュータ、またはウェアラブルコンピューティングデバイスとして代替的に実装され得る。コンピューティングデバイス100は、本体102、ディスプレイ106、ならびにボタン108および110などの様々な要素を含み得る。コンピューティングデバイス100は、前面カメラ104および背面カメラ112などの1つまたは複数のカメラをさらに含み得、それらのうちの1つまたは複数は、デュアルピクセル画像データを生成するように構成され得る。

前面カメラ104は、動作中に通常はユーザに面する本体102の側面に(たとえば、ディスプレイ106と同じ側面に)配置され得る。背面カメラ112は、前面カメラ104の反対側の本体102の側面に配置され得る。カメラを前面向きおよび背面向きと呼ぶことは任意であり、コンピューティングデバイス100は、本体102の様々な側面に配置された複数のカメラを含み得る。

ディスプレイ106は、陰極線管(CRT)ディスプレイ、発光ダイオード(LED)ディスプレイ、液晶(LDC)ディスプレイ、プラズマディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または当技術分野で知られている任意の他のタイプのディスプレイを表すことができる。いくつかの例では、ディスプレイ106は、前面カメラ104および/もしくは背面カメラ112によってキャプチャされている現在の画像のデジタル表現、これらのカメラのうちの1つもしくは複数によってキャプチャされ得る画像、これらのカメラのうちの1つもしくは複数によって最近キャプチャされた画像、ならびに/またはこれらの画像のうちの1つもしくは複数の修正バージョンを表し得る。したがって、ディスプレイ106は、カメラのファインダとして機能し得る。ディスプレイ106はまた、コンピューティングデバイス100の任意の態様の設定および/または構成を調整することができるタッチスクリーン機能をサポートし得る。

前面カメラ104は、画像センサ、およびレンズなどの関連付けられる光学要素を含み得る。前面カメラ104は、ズーム機能を提供するか、または固定焦点距離を有することができる。他の例では、交換可能なレンズを前面カメラ104と共に使用することができる。前面カメラ104は、可変の機械的開口部、ならびに機械的および/または電子的シャッタを有し得る。前面カメラ104はまた、静止画像、ビデオ画像、またはその両方をキャプチャするように構成することができる。さらに、前面カメラ104は、たとえば、モノスコピックカメラを表すことができる。背面カメラ112は、同様にまたは異なって配置され得る。さらに、前面カメラ104および/または背面カメラ112のうちの1つまたは複数は、1つまたは複数のカメラのアレイであり得る。

前向きカメラ104および/または背面カメラ112のうちの1つまたは複数は、ターゲットオブジェクトを照明するためのライトフィールドを提供する照明コンポーネントを含むか、または関連付けられ得る。たとえば、照明コンポーネントは、ターゲットオブジェクトのフラッシュまたは一定の照明を提供することができる。照明コンポーネントはまた、構造化光、偏光、および特定のスペクトル内容を有する光のうちの1つまたは複数を含むライトフィールドを提供するように構成することができる。オブジェクトから3次元(3D)モデルを復元するために知られ、使用されている他のタイプのライトフィールドは、本明細書の例の文脈内で可能である。

コンピューティングデバイス100はまた、カメラ104および/または112がキャプチャすることができるシーンの周囲の明るさを継続的にまたは時々決定し得る周囲光センサを含み得る。いくつかの実装形態では、ディスプレイ106のディスプレイの明るさを調整するために、周囲光センサを使用することができる。さらに、1つまたは複数のカメラ104または112の露出長を決定するか、またはこの決定を支援するために、周囲光センサが使用され得る。

コンピューティングデバイス100は、ターゲットオブジェクトの画像をキャプチャするために、ディスプレイ106ならびに前面カメラ104および/または背面カメラ112を使用するように構成することができる。キャプチャされた画像は、複数の静止画像またはビデオストリームである可能性がある。画像キャプチャは、ボタン108をアクティブにするか、ディスプレイ106のソフトキーを押すか、または他の何らかのメカニズムによってトリガすることができる。実装形態に応じて、画像は、特定の時間間隔で、たとえば、ボタン108を押すとき、ターゲットオブジェクトの適切な照明条件で、デジタルカメラデバイス100をあらかじめ定められた距離だけ移動するとき、またはあらかじめ定められたキャプチャスケジュールに従って自動的にキャプチャすることができる。

図2は、例示的なコンピューティングシステム200のコンポーネントのうちのいくつかを示す簡略化されたブロック図である。例として、限定されないが、コンピューティングシステム200は、セルラーモバイル電話(たとえば、スマートフォン)、コンピュータ(デスクトップ、ノートブック、タブレット、またはハンドヘルドコンピュータなど)、ホームオートメーションコンポーネント、デジタルビデオレコーダ(DVR)、デジタルテレビ、リモートコントロール、ウェアラブルコンピューティングデバイス、ゲームコンソール、ロボットデバイス、車両、または他の何らかの種類のデバイスであり得る。コンピューティングシステム200は、たとえば、コンピューティングデバイス100の態様を表し得る。

図2に示されるように、コンピューティングシステム200は、通信インターフェース202、ユーザインターフェース204、プロセッサ206、データストレージ208、およびカメラコンポーネント224を含み得、これらはすべて、システムバス、ネットワーク、または他の接続メカニズム210によって互いに通信可能にリンクされ得る。コンピューティングシステム200は、少なくともいくつかの画像キャプチャおよび/または画像処理機能を備え得る。コンピューティングシステム200は、物理的画像処理システム、画像感知および処理アプリケーションがソフトウェアにおいて動作する特定の物理的ハードウェアプラットフォーム、または画像キャプチャおよび/もしくは処理機能を実行するように構成されたハードウェアおよびソフトウェアの他の組合せを表し得ることを理解されたい。

通信インターフェース202は、コンピューティングシステム200が、アナログまたはデジタル変調を使用して、他のデバイス、アクセスネットワーク、および/またはトランスポートネットワークと通信することを可能にし得る。したがって、通信インターフェース202は、一般電話サービス(POTS)通信および/またはインターネットプロトコル(IP)もしくは他のパケット化された通信などの回線交換および/またはパケット交換通信を容易にし得る。たとえば、通信インターフェース202は、無線アクセスネットワークまたはアクセスポイントとのワイヤレス通信のために配置されたチップセットおよびアンテナを含み得る。また、通信インターフェース202は、イーサネット、ユニバーサルシリアルバス(USB)、またはハイデフィニションマルチメディアインターフェース(HDMI（登録商標）)ポートなどのワイヤラインインターフェースの形態をとるか、またはそれを含み得る。通信インターフェース202はまた、Wi-Fi、BLUETOOTH(登録商標)、全地球測位システム(GPS)、または広域無線インターフェース(たとえば、WiMAXまたは3GPPロングタームエボリューション(LTE))などのワイヤレスインターフェースの形態をとるか、またはそれらを含み得る。しかしながら、他の形態の物理層インターフェースおよび他のタイプの標準または独自の通信プロトコルが、通信インターフェース202を介して使用され得る。さらに、通信インターフェース202は、複数の物理的通信インターフェース(たとえば、Wi-Fiインターフェース、BLUETOOTH(登録商標)インターフェース、および広域無線インターフェース)を備え得る。

ユーザインターフェース204は、コンピューティングシステム200が、ユーザからの入力を受け取り、ユーザに出力を提供するなど、人間または人間以外のユーザと対話することを可能にするように機能し得る。したがって、ユーザインターフェース204は、キーパッド、キーボード、タッチセンシティブパネル、コンピュータマウス、トラックボール、ジョイスティック、マイクロフォンなどの入力コンポーネントを含み得る。ユーザインターフェース204はまた、たとえば、タッチセンサ式パネルと組み合わせることができるディスプレイ画面などの1つまたは複数の出力コンポーネントを含み得る。ディスプレイ画面は、CRT、LCD、および/もしくはLED技術、または現在知られている、もしくは後に開発される他の技術に基づくことができる。ユーザインターフェース204はまた、スピーカ、スピーカジャック、オーディオ出力ポート、オーディオ出力デバイス、イヤホン、および/または他の同様のデバイスを介して、可聴出力を生成するように構成され得る。ユーザインターフェース204はまた、マイクロフォンおよび/または他の同様のデバイスを介して、可聴発話、ノイズ、および/または信号を受信および/またはキャプチャするように構成され得る。

いくつかの例では、ユーザインターフェース204は、コンピューティングシステム200によってサポートされるスチルカメラおよび/またはビデオカメラ機能のためのファインダとして機能するディスプレイを含み得る。さらに、ユーザインターフェース204は、カメラ機能の構成および焦点合わせ、ならびに画像のキャプチャを容易にする1つまたは複数のボタン、スイッチ、ノブ、および/またはダイヤルを含み得る。これらのボタン、スイッチ、ノブ、および/またはダイヤルの一部またはすべてが、タッチセンサ式パネルを介して実装されている可能性がある。

プロセッサ206は、1つもしくは複数の汎用プロセッサ(たとえば、マイクロプロセッサ)および/または1つもしくは複数の専用プロセッサ(たとえば、デジタル信号プロセッサ(DSP)、グラフィックス処理ユニット(GPU)、浮動小数点ユニット(FPU)、ネットワークプロセッサ、または特定用途向け集積回路(ASIC))を備え得る。場合によっては、専用プロセッサは、他の可能性の中でもとりわけ、画像処理、画像位置合わせ、および画像のマージが可能である可能性がある。データストレージ208は、磁気、光、フラッシュ、または有機ストレージなどの1つまたは複数の揮発性および/または不揮発性ストレージコンポーネントを含み得、全体的または部分的にプロセッサ206と統合され得る。データストレージ208は、取外し可能および/または取外し不可能なコンポーネントを含み得る。

プロセッサ206は、本明細書で説明される様々な機能を実行するために、データストレージ208に記憶されたプログラム命令218(たとえば、コンパイルされたまたはコンパイルされていないプログラムロジックおよび/またはマシンコード)を実行することが可能である可能性がある。したがって、データストレージ208は、コンピューティングシステム200によって実行されると、コンピューティングシステム200に、本明細書および/または添付の図面において開示された方法、プロセス、または動作のうちのいずれかを実行させるプログラム命令を記憶した非一時的コンピュータ可読媒体を含み得る。プロセッサ206によるプログラム命令218の実行は、データ212を使用するプロセッサ206をもたらす可能性がある。

例として、プログラム命令218は、オペレーティングシステム222(たとえば、オペレーティングシステムカーネル、デバイスドライバ、および/または他のモジュール)およびコンピューティングシステム200にインストールされた1つまたは複数のアプリケーションプログラム220(たとえば、カメラ機能、アドレス帳、電子メール、ウェブブラウジング、ソーシャルネットワーキング、オーディオからテキストへの機能、テキスト翻訳機能、および/またはゲームアプリケーション)を含み得る。同様に、データ212は、オペレーティングシステムデータ216およびアプリケーションデータ214を含み得る。オペレーティングシステムデータ216は、主にオペレーティングシステム222にアクセス可能であり得、アプリケーションデータ214は、主にアプリケーションプログラム220の1つまたは複数にアクセス可能であり得る。アプリケーションデータ214は、コンピューティングシステム200のユーザに見えるかまたは見えないファイルシステムに配置され得る。

アプリケーションプログラム220は、1つまたは複数のアプリケーションプログラミングインターフェース(API)を介してオペレーティングシステム222と通信し得る。これらのAPIは、たとえば、アプリケーションプログラム220がアプリケーションデータ214を読むこと、および/または書くこと、通信インターフェース202を介して情報を送信または受信すること、ユーザインターフェース204上で情報を受信および/または表示することなどを容易にし得る。

場合によっては、アプリケーションプログラム220は、略して「アプリ」と呼ばれ得る。さらに、アプリケーションプログラム220は、1つまたは複数のオンラインアプリケーションストアまたはアプリケーション市場を通じてコンピューティングシステム200にダウンロード可能であり得る。しかしながら、アプリケーションプログラムはまた、他の方法、たとえば、ウェブブラウザを介して、またはコンピューティングシステム200上の物理的インターフェース(たとえば、USBポート)を通じて、コンピューティングシステム200にインストールすることができる。

カメラコンポーネント224は、これらに限定されないが、開口部、シャッタ、記録面(たとえば、写真フィルムおよび/または画像センサ)、レンズ、シャッタボタン、赤外線プロジェクタ、および/または可視光プロジェクタを含み得る。カメラコンポーネント224は、可視光スペクトル(たとえば、波長380～700ナノメートルを有する電磁放射)において画像をキャプチャするように構成されたコンポーネント、および赤外光スペクトル(たとえば、701ナノメートル～1ミリメートルの波長を有する電磁放射)において画像をキャプチャするように構成されたコンポーネントを有する。カメラコンポーネント224は、プロセッサ206によって実行されるソフトウェアによって少なくとも部分的に制御され得る。

III.例示的なデュアルピクセル画像センサ
図3は、デュアルピクセル画像データを生成するように構成されたデュアルピクセル画像センサ300を示している。具体的には、デュアルピクセル画像センサ300は、列302、304、306、および308～310(すなわち、列302～310)、ならびに行312、314、316、および318～320(すなわち、行312～320)を含むグリッドに配置された複数のピクセルを含む。各ピクセルは、対応するハッチング領域で示される第1の(左)フォトサイトと、対応する白で塗りつぶされた領域で示される第2の(右)フォトサイトに分割されて示されている。したがって、列302、行312に位置するピクセルの右半分は、右のフォトサイトを示すために「R」とラベル付けされ、ピクセルの左半分は、左のフォトサイトを示すために「L」とラベル付けされる。各ピクセルのフォトサイトは、各ピクセルを2つの等しい垂直方向の半分に分割して示されているが、フォトサイトは、別の方法で各ピクセルを分割することもできる。たとえば、各ピクセルは上部のフォトサイトと下部のフォトサイトに分割され得る。フォトサイトの面積は等しくない場合がある。

所与のピクセルの各フォトサイトは、対応するフォトダイオードを含み得、その出力信号は、他のフォトダイオードとは独立して読み取られ得る。さらに、デュアルピクセル画像センサ300の各ピクセルは、対応するカラーフィルタ(たとえば、赤、緑、または青)に関連付けられ得る。カラー画像を生成するために、デモザイクアルゴリズムがデュアルピクセル画像センサ300の出力に適用され得る。場合によっては、デュアルピクセル画像センサ300のすべてのピクセルよりも少ないピクセルが、複数のフォトサイトに分割され得る。たとえば、緑色のカラーフィルタに関連付けられる各ピクセルは、2つの独立したフォトサイトに分割され得るが、赤色または青色のカラーフィルタに関連付けられる各ピクセルは、単一のフォトサイトを含み得る。場合によっては、前面カメラ104および/または背面カメラ112を実装するためにデュアルピクセル画像センサ300が使用され得、カメラコンポーネント224の一部を形成し得る。

デュアルピクセル画像センサ300は、デュアルピクセル画像データを生成するように構成され得る。デュアルピクセル画像データは、第1のフォトサイト(たとえば、左のフォトサイトのみ)によって生成された第1のサブ画像と、第2のフォトサイト(たとえば、右のフォトサイトのみ)によって生成された第2のサブ画像とを含み得る。画像化されているオブジェクトまたはその一部に焦点が合っている場合、所与のピクセルの各フォトサイトによって生成されるそれぞれの信号は、実質的に同じであり得る(たとえば、2つの信号は、互いにしきい値内にあり得る)。画像化されるオブジェクトまたはその一部の焦点が合っていない場合、所与のピクセルの第1のフォトサイトによって生成されるそれぞれの信号は、所与のピクセルの第2のフォトサイトによって生成されるそれぞれの信号と異なる可能性があり、その差の量は、焦点ぼけの程度に比例する。したがって、デュアルピクセル画像センサ300によって生成されたデュアルピクセル画像データは、デュアルピクセル画像データの様々な部分に関連付けられる焦点のレベルを調整するために使用され得る焦点ぼけの手がかりを提供し得る。所与のピクセルの各フォトサイトによって生成された信号は、単一の出力信号に結合され得、それによって、従来の(たとえば、RGB)画像データを生成し得る。

IV.焦点の合った画像および対応する深度マップを生成するための例示的なシステム
図4Aは、デュアルピクセル画像データに関連付けられ、それに基づいて、焦点ぼけの程度および深度マップを決定するように構成されたシステム400を示している。具体的には、システム400は、焦点の合った画像モデル408、第1のブラーカーネルモデル410、第2のブラーカーネルモデル412、ブラーカーネルスケーラ420、損失関数426、およびモデルパラメータアジャスタ438を含む。損失関数426は、データ損失項428、等価損失項430、および以前の損失項432を含み得る。システム400のコンポーネントの各々は、ソフトウェア命令(たとえば、プロセッサ206によって実行されるように構成されている)、ハードウェアコンポーネント(たとえば、専用回路)、またはそれらの組合せを表し得る。

デュアルピクセル画像データ402は、たとえば、デュアルピクセル画像センサ300によって生成され得る。システム400は、入力としてデュアルピクセル画像データ402を受信するように構成され得る。デュアルピクセル画像データ402は、デュアルピクセル画像センサ300のデュアルピクセルフォトサイト(たとえば、左フォトサイト)の第1のサブセットを使用して生成された第1のサブ画像404と、デュアルピクセル画像センサ300のデュアルピクセルフォトサイト(たとえば、右フォトサイト)の第2のサブセットを使用して生成された第2のサブ画像406とを含み得る。文脈に応じて、デュアルピクセル画像データ402は、本明細書において、(i)第1のサブ画像404および第2のサブ画像406、または(ii)第1のサブ画像404と第2のサブ画像406との組合せから生じる画像データを指すために使用され得る。

焦点の合った画像モデル408は、焦点の合った画像414を生成するように構成され得、これは、焦点の範囲を改善するためにその少なくとも一部が調整されたデュアルピクセル画像データ402の修正バージョンを表し得る。焦点の合った画像モデル408が少なくともしきい値レベルの精度にトレーニングされると(たとえば、損失関数426によって定量化されるように)、焦点の合った画像414は、デュアルピクセル画像データ402の修正バージョンを表し得、そのほとんどの部分が焦点を合わせられている(すなわち、焦点ブラーのしきい値範囲未満を示す)。たとえば、焦点の合った画像414は、実質的にすべての部分の焦点が合っている、デュアルピクセル画像データ402のバージョンを表し得る。焦点の合った画像モデル408は、焦点の合った画像414のピクセルごとに、対応するピクセル値を生成するように構成された対応する数学的モデルを含み得る。この数学的モデルの1つまたは複数のパラメータは、焦点の合った画像414の精度を改善するために、トレーニング中に(たとえば、モデルパラメータアジャスタ438を介して)調整可能であり得る。

第1のブラーカーネルモデル410は、第1の(畳み込み)ブラーカーネル416を生成するように構成され得、第2のブラーカーネルモデル412は、第2の(畳み込み)ブラーカーネル418を生成するように構成され得る。場合によっては、単一のブラーカーネルモデルは、第1のブラーカーネル416(たとえば、ブラーカーネル画像の前半)および第2のブラーカーネル418(たとえば、ブラーカーネル画像の後半)の両方を表す単一のブラーカーネル画像を生成するように構成され得る。第1のブラーカーネル416および第2のブラーカーネル418の各々の形状は、デュアルピクセル画像データ402を生成するために使用される特定のデュアルピクセルカメラデバイスの開口部の形状に基づいてよく、したがって、シーンに依存しない場合がある。したがって、第1のブラーカーネルモデル410および第2のブラーカーネルモデル412は、それぞれのブラーカーネルが特定のデュアルピクセルカメラデバイスに対してあらかじめ決定/較正されているかどうかに応じて変化し得る。

いくつかの実装形態では、第1のブラーカーネルモデル410は、第1のブラーカーネル416のピクセルごとに、対応するピクセル値を生成するように構成された対応する数学的モデルを含み得る。同様に、第2のブラーカーネルモデル412は、第2のブラーカーネル418のピクセルごとに、対応するピクセル値を生成するように構成された対応する数学的モデルを含み得る。これらの数学的モデルの各々の1つまたは複数のパラメータは、第1のブラーカーネル416および/または第2のブラーカーネル418の精度を改善するために(たとえば、損失関数426によって定量化されるように)、トレーニング中に調整可能であり得る。第1のブラーカーネルモデル410および/または第2のブラーカーネルモデル412のそのような実装形態は、たとえば、それぞれのブラーカーネルが特定のデュアルピクセルカメラデバイスに対してあらかじめ決定/較正されておらず、したがって損失関数426に基づいて生成される場合に使用され得る。

他の実装形態では、第1のブラーカーネルモデル410は、対応する1つまたは複数のデュアルピクセルカメラデバイスに対してあらかじめ決定/較正された第1のブラーカーネル416の1つまたは複数の表現を含み得る。したがって、第1のブラーカーネルモデル410は、デュアルピクセル画像データ402を生成するために使用される特定のデュアルピクセルカメラデバイスに基づいて、第1のブラーカーネル416のこれらの表現のうちの1つを選択するように構成され得る。同様に、第2のブラーカーネルモデル412は、対応する1つまたは複数のデュアルピクセルカメラデバイスに対してあらかじめ決定/較正された第2のブラーカーネル418の1つまたは複数の表現を含み得る。したがって、第2のブラーカーネルモデル412は、デュアルピクセル画像データ402を生成するために使用される特定のデュアルピクセルカメラデバイスに基づいて、第2のブラーカーネル418のこれらの表現のうちの1つを選択するように構成され得る。場合によっては、第1のブラーカーネルモデル410および/または第2のブラーカーネルモデル412はまた、トレーニングプロセスの一部として、それぞれ第1のブラーカーネル416および/または第2のブラーカーネル418の選択された表現を改良するように構成され得、したがって、あらかじめ決定された/較正されたカーネルの表現に加えて、対応する数学的モデルを含み得る。

第1のブラーカーネル416および第2のブラーカーネル418の各々は、デュアルピクセル画像データ402を生成するために使用されるデュアルピクセルカメラデバイスの光学コンポーネントに関連付けられる対応する点像分布関数(PSF)を表し得る。具体的には、第1のブラーカーネル416は、第1のブラーカーネル416が、デュアルピクセル画像センサの第1の(たとえば、左の)フォトサイトに関連付けられるPSFを表し得るという点で、第1のサブ画像404に関連付けられてよく、第2のブラーカーネル418は、第2のブラーカーネル418が、デュアルピクセル画像センサの第2の(たとえば、右の)フォトサイトに関連付けられるPSFを表し得るという点で、第2のサブ画像406に関連付けられてよい。

第1のブラーカーネル416および第2のブラーカーネル418のそれぞれのサイズは、画像化されるオブジェクトまたはその部分の深度に基づき得る。したがって、デュアルピクセル画像データ402が、デュアルピクセルカメラデバイスに対して異なる深度に配置されたオブジェクトまたはその部分の表現を含む場合、デュアルピクセル画像データ402の各部分は、対応する深度に関連付けられる対応するサイズにスケーリングされた第1のブラーカーネル416および第2のブラーカーネル418に関連付けられ得る。

具体的には、焦点の合った画像414、デュアルピクセル画像データ402、および第1のブラーカーネル416の間の関係は、

によって表され得、上式で、I₁(x)は第1のサブ画像404の特定のピクセルを表し、I(x)は焦点の合った画像414の対応するピクセルを表し、*は畳み込み演算を表し、

は焦点の合った画像414の対応するピクセルによって表される対応する深度に関連付けられる半径にスケーリングされた第1のブラーカーネル416を表す。同様に、焦点の合った画像414、デュアルピクセル画像データ402、および第2のブラーカーネル418の間の関係は、

によって表され得、上式で、I₂(x)は第2のサブ画像406の特定のピクセルを表し、I(x)は焦点の合った画像414の対応するピクセルを表し、*は畳み込み演算を表し、

は焦点の合った画像414の対応するピクセルによって表される対応する深度に関連付けられる半径にスケーリングされた第2のブラーカーネル418を表す。場合によっては、これらの式は、たとえばガウスノイズ項を含めることによって、ノイズをさらにモデル化し得る。

したがって、システム400は、(i)第1のブラーカーネル416に基づく第1の複数のスケーリングされたブラーカーネル422と、(ii)第2のブラーカーネル418に基づく第2の複数のスケーリングされたブラーカーネル424とを生成するように構成されたブラーカーネルスケーラ420を含む。第1の複数のスケーリングされたブラーカーネル422は、複数の異なるサイズスケール(たとえば、1.0x、0.8x、0.6x、0.4x、0.2x、0.001x、-0.2x、-0.4x、-0.6x、-0.8x、および-1.0x)において表される第1のブラーカーネル416を含み得る。同様に、第2の複数のスケーリングされたブラーカーネル424は、複数の異なるサイズスケールにおいて表される第2のブラーカーネル418を含み得る。

システム400は、デュアルピクセル画像データ402のピクセルごとに、対応するサイズスケールを決定するために、第1の複数のスケーリングされたブラーカーネル422および第2の複数のスケーリングされたブラーカーネル424をデュアルピクセル画像データ402および/または焦点の合った画像414に適用するように構成され得る。具体的には、デュアルピクセル画像データ402、焦点の合った画像414、第1の複数のスケーリングされたブラーカーネル422、および第2の複数のスケーリングされたブラーカーネル424は、深度マップ434および損失値436を生成するために損失関数426によって処理され得る。損失関数426は、図4Bにより詳細に示されているデータ損失項428、図4Cにより詳細に示されている等価損失項430、および以前の損失項432を含み得る。デュアルピクセル画像データ402の各ピクセルに対応するサイズスケールは、損失関数426の1つまたは複数の項の出力に基づいて選択され得る。各サイズスケールは、対応する深度値に関連付けられているので、デュアルピクセル画像データ402の各ピクセルに対応するサイズスケールを選択することにより、デュアルピクセル画像データ402の各ピクセルの深度を表す深度マップ434も生成し得る。

モデルパラメータアジャスタ438は、損失値436および損失関数426に基づいて、パラメータ調整440を生成するように構成され得る。具体的には、パラメータ調整440は、焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412の1つまたは複数のパラメータに対する1つまたは複数の変更を表し得る。パラメータ調整440は、システム400のその後の処理反復から生じる損失値436を減少させるように選択され得る。たとえば、モデルパラメータアジャスタ438は、(i)損失値436に対応する点における損失関数426の勾配に基づいて、および(ii)焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412に関して、パラメータ調整440を選択するように構成され得る。

したがって、モデルパラメータアジャスタ438は、連続的に低い損失値436をもたらすパラメータ調整440を生成し得る。システム400は、デュアルピクセル画像データ402の各インスタンスに関して、焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412の異なるインスタンスをトレーニングするように構成され得る。したがって、焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412は、デュアルピクセル画像データ402の複数の異なるインスタンスを含むトレーニングデータセットのために改善、改良され、および/または最適化されるのではなく、デュアルピクセル画像データ402の各インスタンスに関して、独立して改善、改良され、および/または最適化され得る。

焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412のトレーニングが完了すると、焦点の合った画像414、第1のブラーカーネル416、および/または第2のブラーカーネル418は、デュアルピクセル画像データ402の1つまたは複数の態様を修正する画像データを生成および/または表示するために使用される。一例では、生成された画像データは、その部分のブラーの程度が調整されたデュアルピクセル画像データ402を含み得る。場合によっては、デュアルピクセル画像データ402の一部におけるブラーが低減され得、一方、デュアルピクセル画像データ402の他の部分におけるブラーが増大され得る。他の場合には、デュアルピクセル画像データ402のすべての部分に焦点を合わせることができ、したがって、生成された画像データは、焦点の合った画像414と同等であり得る。さらなる例では、オブジェクトの表現は、深度を意識した方法でデュアルピクセル画像データ402に追加され得る。

V.例示的なデータ損失項の計算
図4Bは、損失関数426のデータ損失項428の例示的な実装形態を示している。第1の複数のスケーリングされたブラーカーネル422は、スケーリングされたブラーカーネル442から、複数の異なるサイズスケールにおいて第1のブラーカーネル416を表すスケーリングされたブラーカーネル444(すなわち、スケーリングされたブラーカーネル442～444)までを含み得、第2の複数のスケーリングされたブラーカーネル424は、スケーリングされたブラーカーネル446から、複数の異なるサイズスケールにおいて第2のブラーカーネル418を表すスケーリングされたブラーカーネル448(すなわち、スケーリングされたブラーカーネル446～448)までを含み得る。

データ損失項428は、複数のサイズスケールのそれぞれのサイズスケールごとに、(i)第1のサブ画像404と、スケーリングされたブラーカーネル442～444の対応するスケーリングされたブラーカーネルを備えた焦点の合った画像414の畳み込み450との間の差452の絶対値(絶対値演算子454によって決定される)と、(ii)第2のサブ画像406と、スケーリングされたブラーカーネル446～448の対応するスケーリングされたブラーカーネルを備えた焦点の合った画像414の畳み込み456との間の差458の絶対値(絶対値演算子460によって決定される)との合計462に基づく対応する合計画像を計算するように構成され得る。したがって、データ損失項428は、関数

を実装し得、上式で、Iは焦点の合った画像414を表し、I₁は第1のサブ画像404を表し、I₂は第2のサブ画像406を表し、

はそれぞれのサイズスケールに関連付けられるスケーリングされたブラーカーネル442～444のスケーリングされたブラーカーネルを表し、

はそれぞれのサイズスケールに関連付けられるスケーリングされたブラーカーネル446～448のスケーリングされたブラーカーネルを表す。

データ損失コストボリューム464は、複数のサイズスケールのそれぞれのサイズスケールに対応する合計画像を積み重ねることによって生成され得る。したがって、データ損失コストボリューム464は、合計画像の幅(焦点の合った画像414と同じ解像度を有し得る)に対応する幅W、合計画像の高さに対応する高さH、および複数のサイズスケールに対応する深度Dを有し得る。損失値計算機466は、データ損失コストボリューム480に基づいて、データ損失値470およびデータ損失深度マップ468を決定するように構成され得る。具体的には、損失値計算機466は、データ損失コストボリューム464の断面のWピクセル×Hピクセルのそれぞれのピクセルごとに、コストボリューム464の深度に沿ってそれぞれのピクセルに空間的に対応するピクセルの複数の値から最小のピクセル値を選択するように構成され得る。さらに、データ損失値470は、それぞれのピクセルに対して選択された値を合計することによって決定され得る。

選択された各ピクセル値は、それぞれのピクセルに対応するサイズスケールに関連付けられ得る。したがって、損失値計算機466は、データ損失コストボリューム464の断面のWピクセル×Hピクセルのそれぞれのピクセルごとに、それぞれのピクセルを最も効果的にブラー除去するブラーカーネルの対応するサイズスケールを選択するように構成され得る。さらに、各サイズスケールは、デュアルピクセル画像データ402をキャプチャするために使用されるデュアルピクセルカメラデバイスに対する特定の深度に対応し得るので、それぞれのピクセルに対応するサイズスケールの選択は、それぞれのピクセルに関連付けられる深度値を示し得る。したがって、データ損失値470およびデータ損失深度マップ468は、記載されたプロセスによって共同で決定され得る。

VI.例示的な等価損失項の計算
図4Cは、損失関数426の等価損失項430の例示的な実装形態を示している。等価損失項430は、複数のサイズスケールのそれぞれのサイズスケールごとに、(i)スケーリングされたブラーカーネル442～444の対応するスケーリングされたブラーカーネルを備えた第2のサブ画像406の畳み込み472、および(ii)スケーリングされたブラーカーネル446～448の対応するスケーリングされたブラーカーネルを備えた第1のサブ画像404の畳み込み474の差476の絶対値(絶対値演算子478によって決定される)に基づく対応する差画像を計算するように構成され得る。したがって、等価損失項430は、関数

を実装し得、上式で、I₁は第1のサブ画像404を表し、I₂は第2のサブ画像406を表し、

は、それぞれのサイズスケールに関連付けられるスケーリングされたブラーカーネル442～444のスケーリングされたブラーカーネルを表し、

は、それぞれのサイズスケールに関連付けられるスケーリングされたブラーカーネル446～448のスケーリングされたブラーカーネルを表す。具体的には、

および

なので、

であり(畳み込みの可換性のため)、したがって、

または、同等に、

である。

等価損失コストボリューム480は、複数のサイズスケールのそれぞれのサイズスケールに対応する差分画像を積み重ねることによって生成され得る。したがって、等価損失コストボリューム480は、差画像の幅に対応する幅W、差画像の高さに対応する高さH、および複数のサイズスケールに対応する深度Dを有し得る。損失値計算機482(これは、損失値計算機466と同じまたは類似であり得る)は、等価損失コストボリューム480に基づいて、等価損失値486および等価損失深度マップ484を決定するように構成され得る。具体的には、損失値計算機482は、等価損失コストボリューム480の断面のWピクセル×Hピクセルのそれぞれのピクセルごとに、コストボリューム480の深度に沿ってそれぞれのピクセルに空間的に対応するピクセルの複数の値からの最小のピクセル値を選択するように構成され得る。さらに、等価損失値486は、それぞれのピクセルに対して選択された値を合計することによって決定され得る。

選択された各ピクセル値は、それぞれのピクセルに対応するサイズスケールに関連付けられている可能性があるため、したがって、損失値計算機482は、等価損失コストボリューム480の断面のWピクセル×Hピクセルのそれぞれのピクセルごとに、それぞれのピクセルを最も効果的にブラー除去するブラーカーネルの対応するサイズスケールを選択するように構成され得る。さらに、各サイズスケールは、デュアルピクセル画像データ402をキャプチャするために使用されるデュアルピクセルカメラデバイスに対する特定の深度に対応し得るので、それぞれのピクセルに対応するサイズスケールの選択は、それぞれのピクセルに関連付けられる深度値を示し得る。したがって、等価損失値486および等価損失深度マップは、記載されたプロセスによって共同で決定され得る。

VII.例示的なコストボリューム削減
図4Dは、コストボリュームおよびその損失値への(たとえば、損失値計算機466および/または482による)削減の視覚的な図解を提供する。具体的には、コストボリューム490は、たとえば、データ損失コストボリューム464および/または等価損失コストボリューム480を表し得る。Dピクセルを含む深度寸法は、第1のブラーカーネル416および第2のブラーカーネル418の各々がスケーリングされるサイズスケールの数に対応し得、またそれに基づき得る。それぞれWピクセルおよびHピクセルを含む幅および高さの寸法は、コストボリューム490を生成するために使用される合計画像(データ損失項428の場合)または差画像(等価損失項430の場合)に存在するピクセルの数に対応し得、それに基づき得る。

コストボリューム490は、コスト画像492を生成するために、深度次元Dに沿って削減され得る。具体的には、コストボリューム490のWピクセル×Hピクセル断面に沿った各ピクセル位置は、コストボリューム490の深度次元に沿ったD個の空間的に対応するピクセルに関連付けられ得る。具体的には、図4Dは、100個のピクセル位置を含む断面を有するコストボリューム490を示しており、位置の各々は、深度次元に沿って9つの空間的に対応するピクセル、合計900ピクセルに関連付けられている。コストボリューム490は、コストボリューム490の断面のH×W(たとえば、100)ピクセル位置の各々について、深度寸法に沿った最小ピクセル値を選択することによって、コスト画像492に削減され得る。たとえば、最低値のピクセルは、コストボリューム490の一部としてハッチングされたパターンで示されたピクセルの中から選択され得、その結果、コスト画像492に対応するピクセル値が得られる。

したがって、コスト画像492は、コストボリューム490のH×W断面に沿った各ピクセル位置の最低値のピクセルを表し得る。各最低値のピクセルはまた、対応するサイズスケールに関連付けられ、それは次に、対応する深度値に関連付けられるので、コスト画像492はまた、深度マップ(たとえば、データ損失深度マップ468および/または等価損失深度マップ484)を表し、それを生成するために使用され得る。場合によっては、深度マップは、単位のない値を使用して、その中の各ピクセルの相対的な深度を表し得る。特定のサイズスケールに関連付けられる特定のブラーカーネルが対応する物理的な深度にマッピングされる場合(たとえば、デュアルピクセルカメラデバイスの光学特性に基づいて)、深度マップは、物理単位(たとえば、メートル)に対応する値を使用して、各ピクセルの深度を追加的または代替的に表し得る。コスト画像492は、コスト画像492のすべてのピクセル値の合計をとることによって、コスト値494(たとえば、データ損失値470および/または等価損失値486を表す)をさらに削減し得る。

図4Aに戻ると、損失値436は、たとえば、データ損失値470、等価損失値486、および/または以前の損失項432によって生成された以前の損失値の合計を表し得る。深度マップ434は、たとえば、データ損失深度マップ468、等価損失深度マップ484、またはそれらの組合せを表し得る。たとえば、深度マップ434は、データ損失深度マップ468および等価損失深度マップ484のピクセル単位の平均を表し得る。

以前の損失項432は、解決策への収束を加速し、および/または解決策の精度を改善するために、システム400によって解決される最適化問題の態様をさらに定義する1つまたは複数の式を含み得る。一例では、以前の損失項432は、(i)焦点の合った画像414、(ii)第1のブラーカーネル416、および/または(iii)第2のブラーカーネル418の全変動を決定するように構成された全変動ノイズ除去損失項を含み得る。たとえば、全変動ノイズ除去項は、焦点の合った画像414、第1のブラーカーネル416、および第2のブラーカーネル418の各々の全変動の合計を計算するように構成され得る。画像信号yの全変動値は、たとえば、Σ_i,j|y_i+1,j-y_i,j|+|y_i,j+1-y_i,j|に従って表されてよく、上式で、画像信号yは、焦点の合った画像414、第1のブラーカーネル416、および/または第2のブラーカーネル418を表し得、上式で、iおよびjは、ピクセル座標を表す。

第2の例では、以前の損失項432は、(i)焦点の合った画像414、(ii)第1のブラーカーネル416、および/または(iii)第2のブラーカーネル418を1つまたは複数の人工ニューラルネットワークによって生成および/または処理した結果を決定するように構成された深い畳み込みの以前の損失項を含み得る。たとえば、たとえば、Dmitry Ulyanovらによって作成された「Deep Image Prior」というタイトルの論文で説明されているように(したがって、深い畳み込みの事前分布は、深い画像の事前分布と見なされ得る)、および/またはDongwei Renらによって作成された「Neural Blind Deconvolution Using Deep Priors」というタイトルの論文で説明されているように(したがって、深い畳み込みの事前分布は、ブラインドデコンボリューションの事前分布と見なされ得る)、以前の損失項は、(i)焦点の合った画像414、(ii)第1のブラーカーネル416、および/または(iii)第2のブラーカーネル418を1つまたは複数の人工ニューラルネットワークの出力としてパラメータ化することによって暗黙的に含まれ得る。ニューラルネットワークによる処理に基づく他の事前分布が可能である。

第3の例では、以前の損失項432は、(i)深度マップ434の1つまたは複数の特徴を(ii)焦点の合った画像414の1つまたは複数の対応する特徴と比較するように構成された深度損失項を含み得る。たとえば、深度損失項は、深度マップ434および焦点の合った画像414における、エッジなどの所与の特徴のセットの表現の空間的位置合わせを定量化し得る。したがって、システム400は、互いにコヒーレントである焦点の合った画像414および深度マップ434を生成するようにトレーニングされ得る。

VIII.例示的な画像、カーネル、および深度マップ
図5は、システム400によって使用および/または生成された画像、カーネル、および深度マップのうちのいくつかの視覚的な図解を提供する。具体的には、図4は、それぞれがオブジェクト500およびオブジェクト502のそれぞれの表現を含む第1のサブ画像404および第2のサブ画像406を示している。画像キャプチャ中、オブジェクト500は、デュアルピクセルカメラデバイスの焦点深度内に配置されている可能性があり、したがって、第1のサブ画像404および第2のサブ画像406の両方において焦点が合っているように見える。他方、オブジェクト502は、デュアルピクセルカメラデバイスの焦点深度の外側(たとえば、それを超えて)に配置されている可能性があり、したがって、第1のサブ画像404および第2のサブ画像406の両方において焦点が合っていない(すなわち、ぼやけている)ように見える。オブジェクト502の外観の違いは視覚的に誇張されており、オブジェクト502の焦点が合っていないことによる第1のサブ画像404と第2のサブ画像406との間の不一致を示すために、点線の基準線が提供されている。

第1のブラーカーネル416および第2のブラーカーネル418は、ほぼ半円形の形状を有するものとして示され、これは、円形の開口部を有するデュアルピクセルカメラデバイスに起因し得る。他の開口部の形状は、異なる形状のブラーカーネルを生じさせる可能性がある。第1のブラーカーネル416および第2のブラーカーネル418は、第1のサブ画像404および第2のサブ画像406に比例して描かれていない。第1のブラーカーネル416および第2のブラーカーネル418は、それぞれ半径5ピクセルを有するように示されており、これは、フルスケール(すなわち、1.0倍)においてカーネルを表し得る。第1のブラーカーネル416および/または第2のブラーカーネル418が、たとえば、0.6倍にスケーリングされるとき、スケーリングされた第1のブラーカーネル416および/または第2のブラーカーネル418は、代わりに3ピクセルの半径を有し得る。

焦点の合った画像414は、焦点が合って表されたオブジェクト500とオブジェクト502の両方を示している。具体的には、オブジェクト500の外観は、そもそも焦点が合っていたので調整されていないが、オブジェクト502の外観は、第1のブラーカーネル416および/または第2のブラーカーネル418に基づく適切なサイズのブラーカーネルによるその部分の畳み込みの結果として調整されている。深度マップ434において、デュアルピクセルカメラデバイスに近い特徴は明るい色(最小の深度を表す白)で示され、遠いフィーチャは暗い色(最大の深度を示す黒)で示されている。したがって、深度マップ434は、オブジェクト500がオブジェクト502よりもデュアルピクセルカメラデバイスに近いことを示している。

IX.例示的な画像およびカーネルモデルのパラメータ化
図6は、焦点の合った画像モデル408の例示的な実装形態を示している。具体的には、図6は、多層パーセプトロン(MLP)と呼ばれることもある人工ニューラルネットワーク(ANN)600として実装された焦点の合った画像モデル408を示している。ANN600は、入力層640、隠れ層650から660、および出力層670を含む。入力層640は、入力ニューロン641および642を含む。隠れ層650は、ニューロン651、652、653、654、および655から656を含む。隠れ層660は、ニューロン661、662、663、664、および665から666を含む。出力層670は、ニューロン671、672、および673を含む。所与のニューロンは、前の層におけるニューロンの出力の加重和を計算することと、この計算された和に活性化関数を適用することと、それによって所与のニューロンの出力を生成することとを行うように構成され得る。

ANN600は、焦点の合った画像414のピクセルごとに、対応する赤-緑-青(RGB)ピクセル値を生成するように構成され得る。具体的には、ANN600は、入力層640において、ピクセル座標のセットを受信するように構成され得、n番目のピクセルx_nの水平座標が入力ニューロン641に提供され、n番目のピクセルy_nの垂直座標が入力ニューロン642に提供される。ANN600は、水平および垂直座標x_nおよびy_nに基づいて、出力ニューロン671において対応する赤色ピクセル値V_RED、出力ニューロン672において対応する青色ピクセル値V_BLUE、および出力ニューロン673において対応する緑色ピクセル値V_GREENを生成するように構成され得る。したがって、焦点の合った画像414がN個のピクセルを含む場合、焦点の合った画像414を形成するN個のピクセルのそれぞれのピクセルnごとに対応するRGBピクセル値を生成するために、ANN600がN回使用され得る。ANN600を使用して焦点の合った画像414をパラメータ化することは、ANN600が、その構造により、現実的で空間的にコヒーレントな画像データを生成するように本質的に構成され得るという点で有益であり得る。

いくつかの実装形態では、第1のブラーカーネルモデル410および/または第2のブラーカーネルモデル412を実装するために、ANN600またはその修正バージョンが使用され得る。具体的には、第1のブラーカーネル416および/または第2のブラーカーネル418の各ピクセルがRGB値ではなく単一の値に関連付けられる場合、ANN600は、3つの出力ニューロンではなく単一の出力ニューロンを含めることによって修正され得る。したがって、修正されたANN600は、第1のブラーカーネル416および/または第2のブラーカーネル418のn番目のピクセルの水平座標x_nおよび垂直座標およびy_nに基づいて、出力ニューロン671において対応するピクセル値V_BLUEを生成するように構成され得る。したがって、第1のブラーカーネル416(または、第2のブラーカーネル418)がM個のピクセルを含む場合、第1のブラーカーネル416(または、第2のブラーカーネル418)を形成するM個のピクセルのそれぞれのピクセルnごとに、対応するピクセル値を生成するために、修正されたANN600がM回使用され得る。

あるいは、焦点の合った画像414、第1のブラーカーネル416、および/または第2のブラーカーネル418は、パラメータ化され、他の数学的モデルを使用して生成され得る。一例では、焦点の合った画像414、第1のブラーカーネル416、および/または第2のブラーカーネル418は、グリッドパラメータ化を使用して表現され得、各ピクセル値は直接および/または明示的に表される。したがって、焦点の合った画像モデル408、第1のブラーカーネルモデル410、および/または第2のブラーカーネルモデル412は、たとえば、対応する画像の値を生成するために定義および/または使用され得る対応するルックアップテーブルを記憶し得、またこれらの値は、モデルのトレーニング中に直接調整され得る。

X.追加の例示的な動作
図7は、デュアルピクセル画像データを使用した焦点の合った画像および/またはブラーカーネルの生成に関連する動作のフローチャートを示している。動作は、他の可能性の中でもとりわけ、コンピューティングデバイス100、コンピューティングシステム200、デュアルピクセル画像センサ300、および/またはシステム400の出力によって、および/またはそれに基づいて実行され得る。図7の実施形態は、そこに示されている特徴のうちの任意の1つまたは複数を除去することによって単純化され得る。さらに、これらの実施形態は、前の図面のいずれかの特徴、態様、および/または実装形態と組み合わされてもよく、または本明細書で他の方法で説明されてもよい。

ブロック700は、第1のサブ画像および第2のサブ画像を含むデュアルピクセル画像データを取得することを含み得る。

ブロック702は、(i)焦点の合った画像、(ii)第1のサブ画像に対応する第1のブラーカーネル、および(iii)第2のサブ画像に対応する第2のブラーカーネルを決定することを含み得る。

ブロック704は、(i)第2のブラーカーネルを使用した第1のサブ画像の畳み込みと、(ii)第1のブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第1のサブ画像と、第1のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2のブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定することを含み得る。

ブロック706は、損失値および損失関数に基づいて、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新することを含み得る。

ブロック708は、本動作は、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成することを含み得る。

いくつかの実施形態では、損失関数を使用して損失値を決定するステップは、複数のサイズスケールに対応する第1の複数のスケーリングされたブラーカーネルを受信するステップを含み得る。第1の複数のスケーリングされたブラーカーネルは、第1のブラーカーネルに基づいて生成され得る。複数のサイズスケールに対応する第2の複数のスケーリングされたブラーカーネルが受信され得る。第2の複数のスケーリングされたブラーカーネルは、第2のブラーカーネルに基づいて生成され得る。コストボリュームは、複数のサイズスケールの各々について、等価損失項またはデータ損失項のうちの1つまたは複数のそれぞれの結果を決定することによって生成され得る。損失値は、コストボリュームに基づいて決定され得る。

いくつかの実施形態では、複数のサイズスケールの各々について、等価損失項のそれぞれの結果を決定することによってコストボリュームを生成するステップは、複数のサイズスケールの各々について、(i)第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した第1のサブ画像の畳み込みと(ii)第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した第2のサブ画像の畳み込みとの間の差に基づいてそれぞれの差画像を決定することによって等価損失コストボリュームを生成するステップを含み得る。損失値は、等価損失コストボリュームに基づいて決定された等価損失値を含み得る。

いくつかの実施形態では、それぞれの差分画像は、Hピクセルの高さおよびWピクセルの幅を有し得る。複数のサイズスケールは、Dサイズスケールを含み得る。等価損失コストボリュームの断面はHピクセル×Wピクセルを含み得、等価損失コストボリュームの深度はDピクセルを含み得る。等価損失コストボリュームに基づいて等価損失値を決定するステップは、等価損失コストボリュームの断面のHピクセル×Wピクセルのそれぞれのピクセルごとに、等価損失コストボリュームの深度に沿ったそれぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップを含み得る。等価損失値は、等価損失コストボリュームの断面のHピクセル×Wピクセルのそれぞれのピクセルごとに選択された最小ピクセル値の合計に基づいて決定され得る。

いくつかの実施形態では、複数のサイズスケールの各々について、データ損失項のそれぞれの結果を決定することによってコストボリュームを生成するステップは、複数のサイズスケールの各々について、(i)第1のサブ画像と、第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差、および(ii)第2のサブ画像と、第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した焦点の合った画像の畳み込みとの間の差の合計に基づいてそれぞれの合計画像を決定することによって、データ損失コストボリュームを生成するステップを含み得る。損失値は、データ損失コストボリュームに基づいて決定されたデータ損失値を含み得る。

いくつかの実施形態では、それぞれの合計画像は、Hピクセルの高さおよびWピクセルの幅を有し得る。複数のサイズスケールは、Dサイズスケールを含み得る。データ損失コストボリュームの断面はHピクセル×Wピクセルを含み得、データ損失コストボリュームの深度はDピクセルを含み得る。データ損失コストボリュームに基づいてデータ損失値を決定するステップは、データ損失コストボリュームの断面のHピクセル×Wピクセルのそれぞれのピクセルごとに、データ損失コストボリュームの深度に沿ったそれぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップを含み得る。データ損失値は、データ損失コストボリュームの断面のHピクセル×Wピクセルのそれぞれのピクセルごとに選択された最小ピクセル値の合計に基づいて決定され得る。

いくつかの実施形態では、複数のサイズスケールの各々は、対応する深度に関連付けられ得る。スケーリングされた複数のサイズの対応するサイズスケールは、焦点の合った画像のそれぞれのピクセルのコストボリュームに基づいて選択され得る。デュアルピクセル画像データに関連付けられる深度マップは、焦点の合った画像のそれぞれのピクセルごとに選択された対応するサイズスケールに基づいて生成され得る。

いくつかの実施形態では、損失関数は、(i)深度マップの1つまたは複数の特徴と、(ii)焦点の合った画像の1つまたは複数の対応する特徴とを比較するように構成された深度損失項を含み得る。

いくつかの実施形態では、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルの1つまたは複数に基づいて画像データを生成するステップは、深度マップに基づいて、デュアルピクセル画像データの少なくとも一部に関連付けられる焦点の深度を修正することによって、再集束された画像を生成するステップを含み得る。再集束された画像が表示され得る。

いくつかの実施形態では、焦点の合った画像、第1のブラーカーネル、および第2のブラーカーネルの各々は、対応する数学的モデルによってパラメータ化され、対応する数学的モデルを使用して生成され得る。(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を更新するステップは、損失値に対応し、対応する数学的モデルのうちの1つまたは複数の1つまたは複数のパラメータに関して、損失関数の勾配を決定するステップを含み得る。対応する数学的モデルのうちの1つまたは複数の1つまたは複数のパラメータは、損失関数の勾配に基づいて更新され得る。更新された焦点の合った画像は、更新された対応する数学的モデルを使用して生成され得、更新された第1のブラーカーネルは、更新された対応する数学的モデルを使用して生成され得、および/または更新された第2のブラーカーネルは、対応する更新された数学的モデルを使用して生成され得る。

いくつかの実施形態では、焦点の合った画像に対応する数学的モデルは、焦点の合った画像に対応する数学的モデルの少なくとも1つのパラメータの値が、異なるデュアルピクセル画像データに対応する数学的モデルの少なくとも1つの対応するパラメータの値と異なる可能性があるように、デュアルピクセル画像データに固有であり得る。

いくつかの実施形態では、焦点の合った画像をパラメータ化して生成するように構成された対応する数学的モデルは、第1の人工ニューラルネットワークを含み得る。焦点の合った画像を生成するステップは、第1の人工ニューラルネットワークを介して、焦点の合った画像のそれぞれのピクセル座標ごとに、焦点の合った画像のそれぞれのピクセル座標に基づく対応するピクセル値を生成するステップを含み得る。更新された焦点の合った画像を生成するステップは、更新された第1の人工ニューラルネットワークを介して、更新された焦点の合った画像のそれぞれのピクセル座標ごとに、更新された焦点の合った画像のそれぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを含み得る。

いくつかの実施形態では、第1のブラーカーネルおよび第2のブラーカーネルの特定のブラーカーネルをパラメータ化および生成するように構成された対応する数学的モデルは、第2の人工ニューラルネットワークを含み得る。特定のブラーカーネルを生成するステップは、第2の人工ニューラルネットワークを介して、特定のブラーカーネルのそれぞれのピクセル座標ごとに、特定のブラーカーネルのそれぞれのピクセル座標に基づく対応するピクセル値を生成するステップを含み得る。特定のブラーカーネルを更新するステップは、更新された第2の人工ニューラルネットワークを介して、および更新された特定のブラーカーネルのそれぞれのピクセル座標について、更新された特定のブラーカーネルのそれぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを含み得る。

いくつかの実施形態では、第1のブラーカーネルおよび第2のブラーカーネルを決定するステップは、デュアルピクセル画像データを生成するために使用された特定のカメラデバイスを識別するステップと、特定のカメラデバイスに基づいて、特定のカメラデバイス用に較正された第1のブラーカーネルと、特定のカメラデバイス用に較正された第2のブラーカーネルを取得するステップとを含み得る。

いくつかの実施形態では、損失関数は、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数の全変動を決定するように構成された全変動ノイズ除去損失項を含み得る。

いくつかの実施形態では、損失関数は、(i)焦点の合った画像、(ii)第1のブラーカーネル、または(iii)第2のブラーカーネルのうちの1つまたは複数を1つまたは複数の人工ニューラルネットワークによって処理した結果を決定するように構成された深い畳み込みの以前の損失項を含み得る。

いくつかの実施形態では、損失値は、損失関数を使用して、および(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づいて更新され得る。更新された損失値がしきい値損失値を下回っていると決定される場合がある。更新された損失値がしきい値損失値を下回っているという決定に基づいて、(i)更新された焦点の合った画像、(ii)更新された第1のブラーカーネル、または(iii)更新された第2のブラーカーネルのうちの1つまたは複数に基づく画像データが生成され得る。

いくつかの実施形態では、第3のサブ画像および第4のサブ画像を備える第2のデュアルピクセル画像データが取得され得る。第2の焦点の合った画像、第3のサブ画像に対応する第3のブラーカーネル、および/または第4のサブ画像に対応する第4のブラーカーネルが決定され得る。第2の損失値は、(i)第4のブラーカーネルを使用した第3のサブ画像の畳み込みと(ii)第3のブラーカーネルを使用した第4のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)第3のサブ画像と、第3のブラーカーネルを使用した第2の焦点の合った画像の畳み込みとの間の差、および(ii)第4のサブ画像と、第4のブラーカーネルを使用した第2の焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して決定され得る。第2の損失値および損失関数に基づいて、(i)第2の焦点の合った画像、(ii)第3のブラーカーネル、または(iii)第4のブラーカーネルのうちの1つまたは複数が更新され得る。第2の画像データは、(i)更新された第2の焦点の合った画像、(ii)更新された第3のブラーカーネル、または(iii)更新された第4のブラーカーネルのうちの1つまたは複数に基づいて生成され得る。第2の画像データが表示され得る。

XI.結論
本開示は、様々な態様の例示として意図されている、本出願に記載されている特定の実施形態に関して限定されるべきではない。当業者には明らかであるように、その範囲から逸脱することなしに、多くの修正および変形を行うことができる。本明細書に記載されたものに加えて、本開示の範囲内の機能的に同等の方法および装置は、前述の説明から当業者には明らかであろう。そのような修正および変形は、添付の特許請求の範囲内であることを意図している。

上記の詳細な説明は、添付の図面を参照して、開示されたシステム、デバイス、および方法の様々な特徴および動作を説明している。図面において、文脈上別段の指示がない限り、通常、類似の記号は類似のコンポーネントを識別する。本明細書および図面に記載されている例示的な実施形態は、限定することを意味するものではない。本明細書に提示される主題の範囲から逸脱することなしに、他の実施形態を利用することができ、他の変更を行うことができる。本明細書で一般的に説明され、図面に示される本開示の態様は、多種多様な異なる構成において配置、置換、結合、分離、および設計することができることが容易に理解されよう。

図面におけるメッセージフロー図、シナリオ、およびフローチャートのいずれかまたはすべてに関して、また本明細書で説明するように、各ステップ、ブロック、および/または通信は、例示的な実施形態による、情報の処理および/または情報の送信を表すことができる。代替の実施形態は、これらの例示的な実施形態の範囲内に含まれる。これらの代替の実施形態では、たとえば、ステップ、ブロック、送信、通信、要求、応答、および/またはメッセージとして記述される動作は、関連する機能に応じて、実質的に同時にまたは逆の順序を含めて、示されているものまたは説明されているものから順不同で実行することができる。さらに、より多数またはより少数のブロックおよび/または動作を、本明細書で論じられるメッセージフロー図、シナリオ、およびフローチャートのいずれかと共に使用することができ、これらのメッセージフロー図、シナリオ、およびフローチャートは、部分的または全体的に相互に組み合わせることができる。

情報の処理を表すステップまたはブロックは、本明細書で説明する方法または技法の特定の論理機能を実行するように構成することができる回路に対応し得る。代替的または追加的に、情報の処理を表すブロックは、モジュール、セグメント、またはプログラムコードの一部(関連データを含む)に対応し得る。プログラムコードは、方法または技法において特定の論理演算またはアクションを実装するためにプロセッサによって実行可能な1つまたは複数の命令を含み得る。プログラムコードおよび/または関連データは、ランダムアクセスメモリ(RAM)、ディスクドライブ、ソリッドステートドライブ、または別のストレージ媒体を含むストレージデバイスなどの任意のタイプのコンピュータ可読媒体に記憶され得る。

コンピュータ可読媒体はまた、レジスタメモリ、プロセッサキャッシュ、およびRAMなどのデータを短期間記憶するコンピュータ可読媒体などの非一時的コンピュータ可読媒体を含み得る。コンピュータ可読媒体はまた、プログラムコードおよび/またはデータをより長期間記憶する非一時的コンピュータ可読媒体を含み得る。したがって、コンピュータ可読媒体は、たとえば、読取り専用メモリ(ROM)、光または磁気ディスク、ソリッドステートドライブ、コンパクトディスク読取り専用メモリ(CD-ROM)のような二次または永続的な長期ストレージを含み得る。コンピュータ可読媒体はまた、他の任意の揮発性または不揮発性ストレージシステムであり得る。コンピュータ可読媒体は、たとえば、コンピュータ可読ストレージ媒体、または有形ストレージデバイスと見なされ得る。

さらに、1つまたは複数の情報送信を表すステップまたはブロックは、同じ物理デバイスにおけるソフトウェアおよび/またはハードウェアモジュール間の情報送信に対応し得る。しかしながら、他の情報送信は、異なる物理デバイスにおけるソフトウェアモジュールおよび/またはハードウェアモジュール間で行われ得る。

図面に示されている特定の配置は、限定的なものと見なされるべきではない。他の実施形態は、所与の図面に示される各要素の多かれ少なかれ含むことができることを理解されたい。さらに、図示された要素のいくつかは、組み合わせたり、省略したりすることができる。さらに、例示的な実施形態は、図面に示されていない要素を含むことができる。

様々な態様および実施形態が本明細書に開示されているが、他の態様および実施形態は、当業者には明らかであろう。本明細書に開示される様々な態様および実施形態は、例示を目的とするものであり、限定されることを意図するものではなく、真の範囲は、以下の特許請求の範囲によって示される。

100 コンピューティングデバイス
102 本体
104 前面カメラ
106 ディスプレイ
108 ボタン
110 ボタン
112 背面カメラ
200 コンピューティングシステム
202 通信インターフェース
204 ユーザインターフェース
206 プロセッサ
208 データストレージ
210 他の接続メカニズム
212 データ
214 アプリケーションデータ
216 オペレーティングシステムデータ
218 プログラム命令
220 アプリケーションプログラム
222 オペレーティングシステム
224 カメラコンポーネント
300 デュアルピクセル画像センサ
302 列
304 列
306 列
308 列
310 列
312 行
314 行
316 行
318 行
320 行
400 システム
402 デュアルピクセル画像データ
404 第1のサブ画像
406 第2のサブ画像
408 焦点の合った画像モデル
410 第1のブラーカーネルモデル
412 第2のブラーカーネルモデル
414 焦点の合った画像
416 第1のブラーカーネル
418 第2のブラーカーネル
420 ブラーカーネルスケーラ
422 第1の複数のスケーリングされたブラーカーネル
424 第2の複数のスケーリングされたブラーカーネル
426 損失関数
428 データ損失項
430 等価損失項
432 以前の損失項
434 深度マップ
436 損失値
438 モデルパラメータアジャスタ
440 パラメータ調整
442 スケーリングされたブラーカーネル
444 スケーリングされたブラーカーネル
446 スケーリングされたブラーカーネル
448 スケーリングされたブラーカーネル
450 畳み込み
452 差
454 絶対値演算子
456 畳み込み
458 差
460 絶対値演算子
462 合計
464 データ損失コストボリューム
466 損失値計算機
468 データ損失深度マップ
470 データ損失値
472 畳み込み
474 畳み込み
476 差
478 絶対値演算子
480 等価損失コストボリューム
482 損失値計算機
484 等価損失深度マップ
486 等価損失値
490 コストボリューム
492 コスト画像
494 コスト値
500 オブジェクト
502 オブジェクト
600 人工ニューラルネットワーク(ANN)
640 入力層
641 入力ニューロン
642 入力ニューロン
650 隠れ層
651 ニューロン
652 ニューロン
653 ニューロン
654 ニューロン
655 ニューロン
656 ニューロン
660 隠れ層
661 ニューロン
662 ニューロン
663 ニューロン
664 ニューロン
665 ニューロン
666 ニューロン
670 出力層
671 ニューロン
672 ニューロン
673 ニューロン

Claims

第1のサブ画像および第2のサブ画像を備えるデュアルピクセル画像データを取得するステップと、
(i)焦点の合った画像、(ii)前記第1のサブ画像に対応する第1のブラーカーネル、および(iii)前記第2のサブ画像に対応する第2のブラーカーネルを決定するステップと、
(i)前記第2のブラーカーネルを使用した前記第1のサブ画像の畳み込みと、(ii)前記第1のブラーカーネルを使用した前記第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)前記第1のサブ画像と、前記第1のブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差、および(ii)前記第2のサブ画像と、前記第2のブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定するステップと、
前記損失値および前記損失関数に基づいて、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数を更新するステップと、
(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成するステップと
を備える、コンピュータ実装方法。
前記損失関数を使用して前記損失値を決定するステップが、
複数のサイズスケールに対応する第1の複数のスケーリングされたブラーカーネルを受信するステップであって、前記第1の複数のスケーリングされたブラーカーネルが、前記第1のブラーカーネルに基づいて生成される、ステップと、
前記複数のサイズスケールに対応する第2の複数のスケーリングされたブラーカーネルを決定するステップであって、前記第2の複数のスケーリングされたブラーカーネルが、前記第2のブラーカーネルに基づいて生成される、ステップと、
前記複数のサイズスケールの各々について、前記等価損失項または前記データ損失項のうちの1つまたは複数のそれぞれの結果を決定することによってコストボリュームを生成するステップと、
前記コストボリュームに基づいて前記損失値を決定するステップと
を備える、請求項1に記載のコンピュータ実装方法。
前記複数のサイズスケールの各々について、前記等価損失項の前記それぞれの結果を決定することによって前記コストボリュームを生成するステップが、
前記複数のサイズスケールの各々について、(i)前記第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記第1のサブ画像の畳み込みと(ii)前記第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記第2のサブ画像の畳み込みとの間の差に基づいてそれぞれの差画像を決定することによって等価損失コストボリュームを生成するステップであって、前記損失値が、前記等価損失コストボリュームに基づいて決定された等価損失値を備える、ステップと
を備える、請求項2に記載のコンピュータ実装方法。
前記それぞれの差画像がHピクセルの高さおよびWピクセルの幅を有し、前記複数のサイズスケールがDサイズスケールを備え、前記等価損失コストボリュームの断面がHピクセル×Wピクセルを備え、前記等価損失コストボリュームの深度がDピクセルを備え、前記等価損失コストボリュームに基づいて前記等価損失値を決定するステップが、
前記等価損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに、前記等価損失コストボリュームの前記深度に沿った前記それぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップと、
前記等価損失値を、前記等価損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに選択された前記最小ピクセル値の合計に基づいて決定するステップと、
を備える、請求項3に記載のコンピュータ実装方法。
前記複数のサイズスケールの各々について、前記データ損失項の前記それぞれの結果を決定することによって前記コストボリュームを生成するステップが、
前記複数のサイズスケールの各々について、(i)前記第1のサブ画像と、前記第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差、および(ii)前記第2のサブ画像と、前記第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差の合計に基づいてそれぞれの合計画像を決定することによって、データ損失コストボリュームを生成するステップであって、前記損失値が、前記データ損失コストボリュームに基づいて決定されたデータ損失値を備える、ステップを備える、請求項2から4のいずれか一項に記載のコンピュータ実装方法。
前記それぞれの合計画像がHピクセルの高さおよびWピクセルの幅を有し、前記複数のサイズスケールがDサイズスケールを備え、前記データ損失コストボリュームの断面がHピクセル×Wピクセルを備え、前記データ損失コストボリュームの深度がDピクセルを備え、前記データ損失コストボリュームに基づいて前記データ損失値を決定するステップが、
前記データ損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに、前記データ損失コストボリュームの前記深度に沿った前記それぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップと、
前記データ損失値を、前記データ損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに選択された前記最小ピクセル値の合計に基づいて決定するステップと、
を備える、請求項5に記載のコンピュータ実装方法。
前記複数のサイズスケールの各々が対応する深度に関連付けられ、前記コンピュータ実装方法が、
前記焦点の合った画像のそれぞれのピクセルについて、前記コストボリュームに基づいて、前記複数のサイズスケールの対応するサイズスケールを選択するステップと、
前記焦点の合った画像のそれぞれのピクセルごとに選択された前記対応するサイズスケールに基づいて、前記デュアルピクセル画像データに関連付けられる深度マップを生成するステップと
をさらに備える、請求項2から6のいずれか一項に記載のコンピュータ実装方法。
前記損失関数が、(i)前記深度マップの1つまたは複数の特徴と、(ii)前記焦点の合った画像の1つまたは複数の対応する特徴とを比較するように構成された深度損失項を備える、請求項7に記載のコンピュータ実装方法。
(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの前記1つまたは複数に基づいて前記画像データを生成するステップが、
前記深度マップに基づいて、前記デュアルピクセル画像データの少なくとも一部に関連付けられる焦点の深度を修正することによって、再集束された画像を生成するステップと、
前記再集束された画像を表示するステップと
を備える、請求項7または8に記載のコンピュータ実装方法。
前記焦点の合った画像、前記第1のブラーカーネル、および前記第2のブラーカーネルの各々が、対応する数学的モデルによってパラメータ化され、対応する数学的モデルを使用して生成され、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの前記1つまたは複数を更新するステップが、
前記損失値に対応し、前記対応する数学的モデルのうちの1つまたは複数の1つまたは複数のパラメータに関して、前記損失関数の勾配を決定するステップと、
前記対応する数学的モデルのうちの前記1つまたは複数の前記1つまたは複数のパラメータを、前記損失関数の前記勾配に基づいて更新するステップと、
(i)更新された前記対応する数学的モデルを使用して更新された前記焦点の合った画像、(ii)更新された前記対応する数学的モデルを使用して更新された前記第1のブラーカーネル、または(iii)更新された前記対応する数学的モデルを使用して更新された前記第2のブラーカーネルのうちの前記1つまたは複数を生成するステップと
を備える、請求項1から9のいずれか一項に記載のコンピュータ実装方法。
前記焦点の合った画像に対応する前記数学的モデルが、前記焦点の合った画像に対応する前記数学的モデルの少なくとも1つのパラメータの値が、異なるデュアルピクセル画像データに対応する数学的モデルの少なくとも1つの対応するパラメータの値と異なる可能性があるように、前記デュアルピクセル画像データに固有である、請求項10に記載のコンピュータ実装方法。
前記焦点の合った画像をパラメータ化して生成するように構成された前記対応する数学的モデルが第1の人工ニューラルネットワークを備え、
前記焦点の合った画像を決定するステップが、前記第1の人工ニューラルネットワークを介して、前記焦点の合った画像のそれぞれのピクセル座標ごとに、前記焦点の合った画像の前記それぞれのピクセル座標に基づく対応するピクセル値を生成するステップを備え、
更新された前記焦点の合った画像を生成するステップは、更新された前記第1の人工ニューラルネットワークを介して、更新された前記焦点の合った画像のそれぞれのピクセル座標ごとに、更新された前記焦点の合った画像の前記それぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを備える、請求項10または11に記載のコンピュータ実装方法。
前記第1のブラーカーネルおよび前記第2のブラーカーネルの特定のブラーカーネルをパラメータ化および生成するように構成された前記対応する数学的モデルが、第2の人工ニューラルネットワークを備え、
前記特定のブラーカーネルを決定するステップが、前記第2の人工ニューラルネットワークを介して、前記特定のブラーカーネルのそれぞれのピクセル座標ごとに、前記特定のブラーカーネルの前記それぞれのピクセル座標に基づく対応するピクセル値を生成するステップを備え、
前記特定のブラーカーネルを更新するステップが、更新された前記第2の人工ニューラルネットワークを介して、および更新された前記特定のブラーカーネルのそれぞれのピクセル座標について、更新された前記特定のブラーカーネルの前記それぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを備える、請求項10から12のいずれか一項に記載のコンピュータ実装方法。
前記第1のブラーカーネルおよび前記第2のブラーカーネルを決定するステップが、
前記デュアルピクセル画像データを生成するために使用された特定のカメラデバイスを識別するステップと、
前記特定のカメラデバイスに基づいて、前記特定のカメラデバイス用に較正された前記第1のブラーカーネルと、前記特定のカメラデバイス用に較正された前記第2のブラーカーネルを取得するステップと
を備える、請求項1から12のいずれか一項に記載のコンピュータ実装方法。
前記損失関数が、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数の全変動を決定するように構成された全変動ノイズ除去損失項を備える、請求項1から14のいずれか一項に記載のコンピュータ実装方法。
前記損失関数が、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数を1つまたは複数の人工ニューラルネットワークによって処理した結果を決定するように構成された深い畳み込みの以前の損失項を備える、請求項1から15のいずれか一項に記載のコンピュータ実装方法。
前記損失値を、前記損失関数を使用して、および(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの1つまたは複数に基づいて更新するステップと、
更新された前記損失値がしきい値損失値を下回っていると決定するステップと、
更新された前記損失値が前記しきい値損失値を下回っているという決定に基づいて、(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの前記1つまたは複数に基づく前記画像データを生成するステップと
をさらに備える、請求項1から16のいずれか一項に記載のコンピュータ実装方法。
第3のサブ画像および第4のサブ画像を備える第2のデュアルピクセル画像データを取得するステップと、
(i)第2の焦点の合った画像、(ii)前記第3のサブ画像に対応する第3のブラーカーネル、および(iii)前記第4のサブ画像に対応する第4のブラーカーネルを決定するステップと、
第2の損失値を、(i)前記第4のブラーカーネルを使用した前記第3のサブ画像の畳み込みと(ii)前記第3のブラーカーネルを使用した前記第4のサブ画像の畳み込みとの間の差を決定するように構成された前記等価損失項、または、(i)前記第3のサブ画像と、前記第3のブラーカーネルを使用した前記第2の焦点の合った画像の畳み込みとの間の差、および(ii)前記第4のサブ画像と、前記第4のブラーカーネルを使用した前記第2の焦点の合った画像の畳み込みとの間の差の合計を決定するように構成された前記データ損失項のうちの1つまたは複数を備える前記損失関数を使用して決定するステップと、
前記第2の損失値および前記損失関数に基づいて、(i)前記第2の焦点の合った画像、(ii)前記第3のブラーカーネル、または(iii)前記第4のブラーカーネルのうちの1つまたは複数を更新するステップと、
(i)更新された前記第2の焦点の合った画像、(ii)更新された前記第3のブラーカーネル、または(iii)更新された前記第4のブラーカーネルのうちの1つまたは複数に基づいて第2の画像データを生成するステップと
をさらに備える、請求項1から17のいずれか一項に記載のコンピュータ実装方法。
プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、請求項1から18のいずれか一項に記載の動作を実行させる命令を記憶したコンピュータ可読記憶媒体と
を備える、システム。
コンピューティングデバイスによって実行されると、前記コンピューティングデバイスに、請求項1から18のいずれか一項に記載の動作を実行させる命令を記憶した、コンピュータ可読記憶媒体。