JP7425188B2 - デュアルピクセル画像データを使用した焦点ブラー除去および深度推定 - Google Patents
デュアルピクセル画像データを使用した焦点ブラー除去および深度推定 Download PDFInfo
- Publication number
- JP7425188B2 JP7425188B2 JP2022521339A JP2022521339A JP7425188B2 JP 7425188 B2 JP7425188 B2 JP 7425188B2 JP 2022521339 A JP2022521339 A JP 2022521339A JP 2022521339 A JP2022521339 A JP 2022521339A JP 7425188 B2 JP7425188 B2 JP 7425188B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- blur kernel
- pixel
- loss
- blur
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009977 dual effect Effects 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 44
- 238000013178 mathematical model Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 53
- 210000002569 neuron Anatomy 0.000 description 22
- 238000004891 communication Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000005457 optimization Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 6
- 210000004205 output neuron Anatomy 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 210000002364 input neuron Anatomy 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000005670 electromagnetic radiation Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Studio Devices (AREA)
- Image Processing (AREA)
Description
デュアルピクセル画像センサは、それぞれが対応する独立して読み取り可能なフォトダイオードを含む2つのフォトサイトに分割される少なくともいくつかのピクセル(すなわち、デュアルピクセル)を含み得る。したがって、デュアルピクセル画像センサは、各デュアルピクセルの第1のフォトサイトを使用して生成された第1のサブ画像(たとえば、各デュアルピクセルの左側のフォトサイトに基づいて生成された左側のデュアルピクセルサブ画像)と、各デュアルピクセルの第2のフォトサイトを使用して生成された第2のサブ画像(たとえば、各デュアルピクセルの右側のフォトサイトに基づいて生成された右側のデュアルピクセルサブ画像)とを含む、デュアルピクセル画像データを生成するように構成され得る。デュアルピクセル画像データは2つのサブ画像を含むが、ステレオスコピック画像データとは異なり、デュアルピクセル画像データは単一の開口部を使用して生成されるという点でモノスコピックである。
図1は、例示的なコンピューティングデバイス100を示している。コンピューティングデバイス100は、モバイル電話のフォームファクタにおいて示されている。しかしながら、コンピューティングデバイス100は、他の可能性の中でもとりわけ、ラップトップコンピュータ、タブレットコンピュータ、またはウェアラブルコンピューティングデバイスとして代替的に実装され得る。コンピューティングデバイス100は、本体102、ディスプレイ106、ならびにボタン108および110などの様々な要素を含み得る。コンピューティングデバイス100は、前面カメラ104および背面カメラ112などの1つまたは複数のカメラをさらに含み得、それらのうちの1つまたは複数は、デュアルピクセル画像データを生成するように構成され得る。
図3は、デュアルピクセル画像データを生成するように構成されたデュアルピクセル画像センサ300を示している。具体的には、デュアルピクセル画像センサ300は、列302、304、306、および308~310(すなわち、列302~310)、ならびに行312、314、316、および318~320(すなわち、行312~320)を含むグリッドに配置された複数のピクセルを含む。各ピクセルは、対応するハッチング領域で示される第1の(左)フォトサイトと、対応する白で塗りつぶされた領域で示される第2の(右)フォトサイトに分割されて示されている。したがって、列302、行312に位置するピクセルの右半分は、右のフォトサイトを示すために「R」とラベル付けされ、ピクセルの左半分は、左のフォトサイトを示すために「L」とラベル付けされる。各ピクセルのフォトサイトは、各ピクセルを2つの等しい垂直方向の半分に分割して示されているが、フォトサイトは、別の方法で各ピクセルを分割することもできる。たとえば、各ピクセルは上部のフォトサイトと下部のフォトサイトに分割され得る。フォトサイトの面積は等しくない場合がある。
図4Aは、デュアルピクセル画像データに関連付けられ、それに基づいて、焦点ぼけの程度および深度マップを決定するように構成されたシステム400を示している。具体的には、システム400は、焦点の合った画像モデル408、第1のブラーカーネルモデル410、第2のブラーカーネルモデル412、ブラーカーネルスケーラ420、損失関数426、およびモデルパラメータアジャスタ438を含む。損失関数426は、データ損失項428、等価損失項430、および以前の損失項432を含み得る。システム400のコンポーネントの各々は、ソフトウェア命令(たとえば、プロセッサ206によって実行されるように構成されている)、ハードウェアコンポーネント(たとえば、専用回路)、またはそれらの組合せを表し得る。
図4Bは、損失関数426のデータ損失項428の例示的な実装形態を示している。第1の複数のスケーリングされたブラーカーネル422は、スケーリングされたブラーカーネル442から、複数の異なるサイズスケールにおいて第1のブラーカーネル416を表すスケーリングされたブラーカーネル444(すなわち、スケーリングされたブラーカーネル442~444)までを含み得、第2の複数のスケーリングされたブラーカーネル424は、スケーリングされたブラーカーネル446から、複数の異なるサイズスケールにおいて第2のブラーカーネル418を表すスケーリングされたブラーカーネル448(すなわち、スケーリングされたブラーカーネル446~448)までを含み得る。
図4Cは、損失関数426の等価損失項430の例示的な実装形態を示している。等価損失項430は、複数のサイズスケールのそれぞれのサイズスケールごとに、(i)スケーリングされたブラーカーネル442~444の対応するスケーリングされたブラーカーネルを備えた第2のサブ画像406の畳み込み472、および(ii)スケーリングされたブラーカーネル446~448の対応するスケーリングされたブラーカーネルを備えた第1のサブ画像404の畳み込み474の差476の絶対値(絶対値演算子478によって決定される)に基づく対応する差画像を計算するように構成され得る。したがって、等価損失項430は、関数
図4Dは、コストボリュームおよびその損失値への(たとえば、損失値計算機466および/または482による)削減の視覚的な図解を提供する。具体的には、コストボリューム490は、たとえば、データ損失コストボリューム464および/または等価損失コストボリューム480を表し得る。Dピクセルを含む深度寸法は、第1のブラーカーネル416および第2のブラーカーネル418の各々がスケーリングされるサイズスケールの数に対応し得、またそれに基づき得る。それぞれWピクセルおよびHピクセルを含む幅および高さの寸法は、コストボリューム490を生成するために使用される合計画像(データ損失項428の場合)または差画像(等価損失項430の場合)に存在するピクセルの数に対応し得、それに基づき得る。
図5は、システム400によって使用および/または生成された画像、カーネル、および深度マップのうちのいくつかの視覚的な図解を提供する。具体的には、図4は、それぞれがオブジェクト500およびオブジェクト502のそれぞれの表現を含む第1のサブ画像404および第2のサブ画像406を示している。画像キャプチャ中、オブジェクト500は、デュアルピクセルカメラデバイスの焦点深度内に配置されている可能性があり、したがって、第1のサブ画像404および第2のサブ画像406の両方において焦点が合っているように見える。他方、オブジェクト502は、デュアルピクセルカメラデバイスの焦点深度の外側(たとえば、それを超えて)に配置されている可能性があり、したがって、第1のサブ画像404および第2のサブ画像406の両方において焦点が合っていない(すなわち、ぼやけている)ように見える。オブジェクト502の外観の違いは視覚的に誇張されており、オブジェクト502の焦点が合っていないことによる第1のサブ画像404と第2のサブ画像406との間の不一致を示すために、点線の基準線が提供されている。
図6は、焦点の合った画像モデル408の例示的な実装形態を示している。具体的には、図6は、多層パーセプトロン(MLP)と呼ばれることもある人工ニューラルネットワーク(ANN)600として実装された焦点の合った画像モデル408を示している。ANN600は、入力層640、隠れ層650から660、および出力層670を含む。入力層640は、入力ニューロン641および642を含む。隠れ層650は、ニューロン651、652、653、654、および655から656を含む。隠れ層660は、ニューロン661、662、663、664、および665から666を含む。出力層670は、ニューロン671、672、および673を含む。所与のニューロンは、前の層におけるニューロンの出力の加重和を計算することと、この計算された和に活性化関数を適用することと、それによって所与のニューロンの出力を生成することとを行うように構成され得る。
図7は、デュアルピクセル画像データを使用した焦点の合った画像および/またはブラーカーネルの生成に関連する動作のフローチャートを示している。動作は、他の可能性の中でもとりわけ、コンピューティングデバイス100、コンピューティングシステム200、デュアルピクセル画像センサ300、および/またはシステム400の出力によって、および/またはそれに基づいて実行され得る。図7の実施形態は、そこに示されている特徴のうちの任意の1つまたは複数を除去することによって単純化され得る。さらに、これらの実施形態は、前の図面のいずれかの特徴、態様、および/または実装形態と組み合わされてもよく、または本明細書で他の方法で説明されてもよい。
本開示は、様々な態様の例示として意図されている、本出願に記載されている特定の実施形態に関して限定されるべきではない。当業者には明らかであるように、その範囲から逸脱することなしに、多くの修正および変形を行うことができる。本明細書に記載されたものに加えて、本開示の範囲内の機能的に同等の方法および装置は、前述の説明から当業者には明らかであろう。そのような修正および変形は、添付の特許請求の範囲内であることを意図している。
102 本体
104 前面カメラ
106 ディスプレイ
108 ボタン
110 ボタン
112 背面カメラ
200 コンピューティングシステム
202 通信インターフェース
204 ユーザインターフェース
206 プロセッサ
208 データストレージ
210 他の接続メカニズム
212 データ
214 アプリケーションデータ
216 オペレーティングシステムデータ
218 プログラム命令
220 アプリケーションプログラム
222 オペレーティングシステム
224 カメラコンポーネント
300 デュアルピクセル画像センサ
302 列
304 列
306 列
308 列
310 列
312 行
314 行
316 行
318 行
320 行
400 システム
402 デュアルピクセル画像データ
404 第1のサブ画像
406 第2のサブ画像
408 焦点の合った画像モデル
410 第1のブラーカーネルモデル
412 第2のブラーカーネルモデル
414 焦点の合った画像
416 第1のブラーカーネル
418 第2のブラーカーネル
420 ブラーカーネルスケーラ
422 第1の複数のスケーリングされたブラーカーネル
424 第2の複数のスケーリングされたブラーカーネル
426 損失関数
428 データ損失項
430 等価損失項
432 以前の損失項
434 深度マップ
436 損失値
438 モデルパラメータアジャスタ
440 パラメータ調整
442 スケーリングされたブラーカーネル
444 スケーリングされたブラーカーネル
446 スケーリングされたブラーカーネル
448 スケーリングされたブラーカーネル
450 畳み込み
452 差
454 絶対値演算子
456 畳み込み
458 差
460 絶対値演算子
462 合計
464 データ損失コストボリューム
466 損失値計算機
468 データ損失深度マップ
470 データ損失値
472 畳み込み
474 畳み込み
476 差
478 絶対値演算子
480 等価損失コストボリューム
482 損失値計算機
484 等価損失深度マップ
486 等価損失値
490 コストボリューム
492 コスト画像
494 コスト値
500 オブジェクト
502 オブジェクト
600 人工ニューラルネットワーク(ANN)
640 入力層
641 入力ニューロン
642 入力ニューロン
650 隠れ層
651 ニューロン
652 ニューロン
653 ニューロン
654 ニューロン
655 ニューロン
656 ニューロン
660 隠れ層
661 ニューロン
662 ニューロン
663 ニューロン
664 ニューロン
665 ニューロン
666 ニューロン
670 出力層
671 ニューロン
672 ニューロン
673 ニューロン
Claims (20)
- 第1のサブ画像および第2のサブ画像を備えるデュアルピクセル画像データを取得するステップと、
(i)焦点の合った画像、(ii)前記第1のサブ画像に対応する第1のブラーカーネル、および(iii)前記第2のサブ画像に対応する第2のブラーカーネルを決定するステップと、
(i)前記第2のブラーカーネルを使用した前記第1のサブ画像の畳み込みと、(ii)前記第1のブラーカーネルを使用した前記第2のサブ画像の畳み込みとの間の差を決定するように構成された等価損失項、または、(i)前記第1のサブ画像と、前記第1のブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差、および(ii)前記第2のサブ画像と、前記第2のブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差の合計を決定するように構成されたデータ損失項のうちの1つまたは複数を含む損失関数を使用して、損失値を決定するステップと、
前記損失値および前記損失関数に基づいて、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数を更新するステップと、
(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの1つまたは複数に基づいて画像データを生成するステップと
を備える、コンピュータ実装方法。 - 前記損失関数を使用して前記損失値を決定するステップが、
複数のサイズスケールに対応する第1の複数のスケーリングされたブラーカーネルを受信するステップであって、前記第1の複数のスケーリングされたブラーカーネルが、前記第1のブラーカーネルに基づいて生成される、ステップと、
前記複数のサイズスケールに対応する第2の複数のスケーリングされたブラーカーネルを決定するステップであって、前記第2の複数のスケーリングされたブラーカーネルが、前記第2のブラーカーネルに基づいて生成される、ステップと、
前記複数のサイズスケールの各々について、前記等価損失項または前記データ損失項のうちの1つまたは複数のそれぞれの結果を決定することによってコストボリュームを生成するステップと、
前記コストボリュームに基づいて前記損失値を決定するステップと
を備える、請求項1に記載のコンピュータ実装方法。 - 前記複数のサイズスケールの各々について、前記等価損失項の前記それぞれの結果を決定することによって前記コストボリュームを生成するステップが、
前記複数のサイズスケールの各々について、(i)前記第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記第1のサブ画像の畳み込みと(ii)前記第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記第2のサブ画像の畳み込みとの間の差に基づいてそれぞれの差画像を決定することによって等価損失コストボリュームを生成するステップであって、前記損失値が、前記等価損失コストボリュームに基づいて決定された等価損失値を備える、ステップと
を備える、請求項2に記載のコンピュータ実装方法。 - 前記それぞれの差画像がHピクセルの高さおよびWピクセルの幅を有し、前記複数のサイズスケールがDサイズスケールを備え、前記等価損失コストボリュームの断面がHピクセル×Wピクセルを備え、前記等価損失コストボリュームの深度がDピクセルを備え、前記等価損失コストボリュームに基づいて前記等価損失値を決定するステップが、
前記等価損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに、前記等価損失コストボリュームの前記深度に沿った前記それぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップと、
前記等価損失値を、前記等価損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに選択された前記最小ピクセル値の合計に基づいて決定するステップと、
を備える、請求項3に記載のコンピュータ実装方法。 - 前記複数のサイズスケールの各々について、前記データ損失項の前記それぞれの結果を決定することによって前記コストボリュームを生成するステップが、
前記複数のサイズスケールの各々について、(i)前記第1のサブ画像と、前記第1の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差、および(ii)前記第2のサブ画像と、前記第2の複数のスケーリングされたブラーカーネルの対応するブラーカーネルを使用した前記焦点の合った画像の畳み込みとの間の差の合計に基づいてそれぞれの合計画像を決定することによって、データ損失コストボリュームを生成するステップであって、前記損失値が、前記データ損失コストボリュームに基づいて決定されたデータ損失値を備える、ステップを備える、請求項2から4のいずれか一項に記載のコンピュータ実装方法。 - 前記それぞれの合計画像がHピクセルの高さおよびWピクセルの幅を有し、前記複数のサイズスケールがDサイズスケールを備え、前記データ損失コストボリュームの断面がHピクセル×Wピクセルを備え、前記データ損失コストボリュームの深度がDピクセルを備え、前記データ損失コストボリュームに基づいて前記データ損失値を決定するステップが、
前記データ損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに、前記データ損失コストボリュームの前記深度に沿った前記それぞれのピクセルに空間的に対応するDピクセル値からの最小ピクセル値を選択するステップと、
前記データ損失値を、前記データ損失コストボリュームの前記断面の前記Hピクセル×Wピクセルのそれぞれのピクセルごとに選択された前記最小ピクセル値の合計に基づいて決定するステップと、
を備える、請求項5に記載のコンピュータ実装方法。 - 前記複数のサイズスケールの各々が対応する深度に関連付けられ、前記コンピュータ実装方法が、
前記焦点の合った画像のそれぞれのピクセルについて、前記コストボリュームに基づいて、前記複数のサイズスケールの対応するサイズスケールを選択するステップと、
前記焦点の合った画像のそれぞれのピクセルごとに選択された前記対応するサイズスケールに基づいて、前記デュアルピクセル画像データに関連付けられる深度マップを生成するステップと
をさらに備える、請求項2から6のいずれか一項に記載のコンピュータ実装方法。 - 前記損失関数が、(i)前記深度マップの1つまたは複数の特徴と、(ii)前記焦点の合った画像の1つまたは複数の対応する特徴とを比較するように構成された深度損失項を備える、請求項7に記載のコンピュータ実装方法。
- (i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの前記1つまたは複数に基づいて前記画像データを生成するステップが、
前記深度マップに基づいて、前記デュアルピクセル画像データの少なくとも一部に関連付けられる焦点の深度を修正することによって、再集束された画像を生成するステップと、
前記再集束された画像を表示するステップと
を備える、請求項7または8に記載のコンピュータ実装方法。 - 前記焦点の合った画像、前記第1のブラーカーネル、および前記第2のブラーカーネルの各々が、対応する数学的モデルによってパラメータ化され、対応する数学的モデルを使用して生成され、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの前記1つまたは複数を更新するステップが、
前記損失値に対応し、前記対応する数学的モデルのうちの1つまたは複数の1つまたは複数のパラメータに関して、前記損失関数の勾配を決定するステップと、
前記対応する数学的モデルのうちの前記1つまたは複数の前記1つまたは複数のパラメータを、前記損失関数の前記勾配に基づいて更新するステップと、
(i)更新された前記対応する数学的モデルを使用して更新された前記焦点の合った画像、(ii)更新された前記対応する数学的モデルを使用して更新された前記第1のブラーカーネル、または(iii)更新された前記対応する数学的モデルを使用して更新された前記第2のブラーカーネルのうちの前記1つまたは複数を生成するステップと
を備える、請求項1から9のいずれか一項に記載のコンピュータ実装方法。 - 前記焦点の合った画像に対応する前記数学的モデルが、前記焦点の合った画像に対応する前記数学的モデルの少なくとも1つのパラメータの値が、異なるデュアルピクセル画像データに対応する数学的モデルの少なくとも1つの対応するパラメータの値と異なる可能性があるように、前記デュアルピクセル画像データに固有である、請求項10に記載のコンピュータ実装方法。
- 前記焦点の合った画像をパラメータ化して生成するように構成された前記対応する数学的モデルが第1の人工ニューラルネットワークを備え、
前記焦点の合った画像を決定するステップが、前記第1の人工ニューラルネットワークを介して、前記焦点の合った画像のそれぞれのピクセル座標ごとに、前記焦点の合った画像の前記それぞれのピクセル座標に基づく対応するピクセル値を生成するステップを備え、
更新された前記焦点の合った画像を生成するステップは、更新された前記第1の人工ニューラルネットワークを介して、更新された前記焦点の合った画像のそれぞれのピクセル座標ごとに、更新された前記焦点の合った画像の前記それぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを備える、請求項10または11に記載のコンピュータ実装方法。 - 前記第1のブラーカーネルおよび前記第2のブラーカーネルの特定のブラーカーネルをパラメータ化および生成するように構成された前記対応する数学的モデルが、第2の人工ニューラルネットワークを備え、
前記特定のブラーカーネルを決定するステップが、前記第2の人工ニューラルネットワークを介して、前記特定のブラーカーネルのそれぞれのピクセル座標ごとに、前記特定のブラーカーネルの前記それぞれのピクセル座標に基づく対応するピクセル値を生成するステップを備え、
前記特定のブラーカーネルを更新するステップが、更新された前記第2の人工ニューラルネットワークを介して、および更新された前記特定のブラーカーネルのそれぞれのピクセル座標について、更新された前記特定のブラーカーネルの前記それぞれのピクセル座標に基づく更新された対応するピクセル値を生成するステップを備える、請求項10から12のいずれか一項に記載のコンピュータ実装方法。 - 前記第1のブラーカーネルおよび前記第2のブラーカーネルを決定するステップが、
前記デュアルピクセル画像データを生成するために使用された特定のカメラデバイスを識別するステップと、
前記特定のカメラデバイスに基づいて、前記特定のカメラデバイス用に較正された前記第1のブラーカーネルと、前記特定のカメラデバイス用に較正された前記第2のブラーカーネルを取得するステップと
を備える、請求項1から12のいずれか一項に記載のコンピュータ実装方法。 - 前記損失関数が、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数の全変動を決定するように構成された全変動ノイズ除去損失項を備える、請求項1から14のいずれか一項に記載のコンピュータ実装方法。
- 前記損失関数が、(i)前記焦点の合った画像、(ii)前記第1のブラーカーネル、または(iii)前記第2のブラーカーネルのうちの1つまたは複数を1つまたは複数の人工ニューラルネットワークによって処理した結果を決定するように構成された深い畳み込みの以前の損失項を備える、請求項1から15のいずれか一項に記載のコンピュータ実装方法。
- 前記損失値を、前記損失関数を使用して、および(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの1つまたは複数に基づいて更新するステップと、
更新された前記損失値がしきい値損失値を下回っていると決定するステップと、
更新された前記損失値が前記しきい値損失値を下回っているという決定に基づいて、(i)更新された前記焦点の合った画像、(ii)更新された前記第1のブラーカーネル、または(iii)更新された前記第2のブラーカーネルのうちの前記1つまたは複数に基づく前記画像データを生成するステップと
をさらに備える、請求項1から16のいずれか一項に記載のコンピュータ実装方法。 - 第3のサブ画像および第4のサブ画像を備える第2のデュアルピクセル画像データを取得するステップと、
(i)第2の焦点の合った画像、(ii)前記第3のサブ画像に対応する第3のブラーカーネル、および(iii)前記第4のサブ画像に対応する第4のブラーカーネルを決定するステップと、
第2の損失値を、(i)前記第4のブラーカーネルを使用した前記第3のサブ画像の畳み込みと(ii)前記第3のブラーカーネルを使用した前記第4のサブ画像の畳み込みとの間の差を決定するように構成された前記等価損失項、または、(i)前記第3のサブ画像と、前記第3のブラーカーネルを使用した前記第2の焦点の合った画像の畳み込みとの間の差、および(ii)前記第4のサブ画像と、前記第4のブラーカーネルを使用した前記第2の焦点の合った画像の畳み込みとの間の差の合計を決定するように構成された前記データ損失項のうちの1つまたは複数を備える前記損失関数を使用して決定するステップと、
前記第2の損失値および前記損失関数に基づいて、(i)前記第2の焦点の合った画像、(ii)前記第3のブラーカーネル、または(iii)前記第4のブラーカーネルのうちの1つまたは複数を更新するステップと、
(i)更新された前記第2の焦点の合った画像、(ii)更新された前記第3のブラーカーネル、または(iii)更新された前記第4のブラーカーネルのうちの1つまたは複数に基づいて第2の画像データを生成するステップと
をさらに備える、請求項1から17のいずれか一項に記載のコンピュータ実装方法。 - プロセッサと、
前記プロセッサによって実行されると、前記プロセッサに、請求項1から18のいずれか一項に記載の動作を実行させる命令を記憶したコンピュータ可読記憶媒体と
を備える、システム。 - コンピューティングデバイスによって実行されると、前記コンピューティングデバイスに、請求項1から18のいずれか一項に記載の動作を実行させる命令を記憶した、コンピュータ可読記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/060517 WO2022103400A1 (en) | 2020-11-13 | 2020-11-13 | Defocus blur removal and depth estimation using dual-pixel image data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023507706A JP2023507706A (ja) | 2023-02-27 |
JP7425188B2 true JP7425188B2 (ja) | 2024-01-30 |
Family
ID=73790241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022521339A Active JP7425188B2 (ja) | 2020-11-13 | 2020-11-13 | デュアルピクセル画像データを使用した焦点ブラー除去および深度推定 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP4055556B1 (ja) |
JP (1) | JP7425188B2 (ja) |
KR (1) | KR102606209B1 (ja) |
CN (1) | CN114766031A (ja) |
WO (1) | WO2022103400A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117522939B (zh) * | 2024-01-04 | 2024-03-19 | 电子科技大学 | 一种单目单张模糊图像深度计算方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018077190A (ja) | 2016-11-11 | 2018-05-17 | 株式会社東芝 | 撮像装置及び自動制御システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860889B2 (en) * | 2019-01-11 | 2020-12-08 | Google Llc | Depth prediction from dual pixel images |
-
2020
- 2020-11-13 JP JP2022521339A patent/JP7425188B2/ja active Active
- 2020-11-13 EP EP20821499.9A patent/EP4055556B1/en active Active
- 2020-11-13 WO PCT/US2020/060517 patent/WO2022103400A1/en unknown
- 2020-11-13 CN CN202080071888.1A patent/CN114766031A/zh active Pending
- 2020-11-13 KR KR1020227005254A patent/KR102606209B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018077190A (ja) | 2016-11-11 | 2018-05-17 | 株式会社東芝 | 撮像装置及び自動制御システム |
Non-Patent Citations (1)
Title |
---|
Punnappurath, Abhijith、Abuolaim, Abdullah、Afifi, Mahmoud、Brown, Michael S.,"Modeling Defocus-Disparity in Dual-Pixel Sensors",2020 IEEE International Conference on Computational Photography (ICCP),2020年,p.1-12,DOI: 10.1109/ICCP48838.2020.9105278 |
Also Published As
Publication number | Publication date |
---|---|
EP4055556B1 (en) | 2023-05-03 |
CN114766031A (zh) | 2022-07-19 |
KR102606209B1 (ko) | 2023-11-24 |
WO2022103400A1 (en) | 2022-05-19 |
EP4055556A1 (en) | 2022-09-14 |
JP2023507706A (ja) | 2023-02-27 |
US20220375042A1 (en) | 2022-11-24 |
KR20220066040A (ko) | 2022-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210799B2 (en) | Estimating depth using a single camera | |
US9639945B2 (en) | Depth-based application of image effects | |
US11663733B2 (en) | Depth determination for images captured with a moving camera and representing moving features | |
JP6724045B2 (ja) | 畳み込み色補正 | |
EP3542347B1 (en) | Fast fourier color constancy | |
JP7333467B2 (ja) | 学習に基づくレンズフレア除去 | |
US20160142615A1 (en) | Robust layered light-field rendering | |
CN111316123A (zh) | 单视图深度预测的光圈监督 | |
KR20230074136A (ko) | 세일리언시 기반 캡처 또는 이미지 프로세싱 | |
JP7425188B2 (ja) | デュアルピクセル画像データを使用した焦点ブラー除去および深度推定 | |
US20230033956A1 (en) | Estimating depth based on iris size | |
JP2004133919A (ja) | 擬似3次元画像生成装置および生成方法並びにそのためのプログラムおよび記録媒体 | |
JP7387029B2 (ja) | ソフトレイヤ化および深度認識インペインティングを用いた単画像3d写真技術 | |
US12008738B2 (en) | Defocus blur removal and depth estimation using dual-pixel image data | |
KR102664373B1 (ko) | 더 깊은 피사계 심도를 위한 분할 픽셀 데이터 병합 | |
CN115150529A (zh) | 成像系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220407 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220407 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7425188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |