JP7138680B2 - 全方位視差ビューの合成方法、装置および記憶媒体 - Google Patents
全方位視差ビューの合成方法、装置および記憶媒体 Download PDFInfo
- Publication number
- JP7138680B2 JP7138680B2 JP2020160472A JP2020160472A JP7138680B2 JP 7138680 B2 JP7138680 B2 JP 7138680B2 JP 2020160472 A JP2020160472 A JP 2020160472A JP 2020160472 A JP2020160472 A JP 2020160472A JP 7138680 B2 JP7138680 B2 JP 7138680B2
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- target viewpoint
- image data
- target
- original image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 19
- 238000012549 training Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 41
- 230000002194 synthesizing effect Effects 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/178—Metadata, e.g. disparity information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Description
原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。
前記原画像データのペアを取得することと、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含む。
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することさらにを含む。
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含む。
前記ターゲット視点を取得することと、前記ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することとを含む。
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、前記隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することとを含む。
ここで、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点の画素を取得するように構成される取得モジュールと、前記ターゲット画素に従って前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含む。
前記原画像データのペアを取得すること、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、前記原画像データのペア間の視差を取得する。
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築する。
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。
前記ターゲット視点を取得すること、前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することにより、前記原画像データにおける前記ターゲット視点のターゲット画素を決定する。
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であること、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、前記原画像データにおけるターゲット視点のターゲット画素を決定する。
ここで、
プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、ここで、前記プロセッサは、第1態様または第1態様のいずれか1つの実施形態における全方位視差ビューの合成方法を実行するように構成される。
(項目1)
全方位視差ビューの合成方法であって、
原画像データのペア間の視差を取得することであって、上記視差は、水平方向の視差および垂直方向の視差を含むことと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成することとを含むことを特徴とする、上記全方位視差ビューの合成方法。
(項目2)
上記原画像データのペア間の視差を取得することは、
上記原画像データのペアを取得することと、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含むことを特徴とする、
上記項目に記載の全方位視差ビューの合成方法。
(項目3)
上記方法は、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目4)
上記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目5)
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することは、
上記ターゲット視点を取得することと、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおける上記ターゲット視点に対応するターゲット画素を決定して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目6)
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目7)
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することは、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目8)
全方位視差ビューの合成装置であって、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、上記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含むことを特徴とする、上記全方位視差ビューの合成装置。
(項目9)
上記取得モジュールは、
上記原画像データのペアを取得すること、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、上記原画像データのペア間の視差を取得することを特徴とする、
上記項目に記載の全方位視差ビューの合成装置。
(項目10)
上記装置は、構築モジュールをさらに含み、上記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを構築することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目11)
上記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目12)
上記決定モジュールは、
上記ターゲット視点を取得すること、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目13)
上記決定モジュールは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であること、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目14)
上記決定モジュールは、計算ユニットをさらに含み、上記計算ユニットは、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目15)
全方位視差ビューの合成装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、
上記プロセッサは、上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、上記全方位視差ビューの合成装置。
(項目16)
非一時的なコンピュータ読み取り可能な記憶媒体であって、
上記記憶媒体の命令がネットワーク機器のプロセッサによって実行されるとき、電子機器が上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、上記非一時的なコンピュータ読み取り可能な記憶媒体。
(摘要)
本開示は、全方位視差ビューの合成方法、装置および記憶媒体に関し、前記方法は、原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。本開示を通じて、ターゲット画像画素と原画像データ画素との間のマッチングの精度を向上させる。
原画像データのペアを取得すること、事前に構築された視差予測モデルに、原画像データのペアを入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することを採用して、原画像データのペア間の視差を取得する。
両眼ステレオ画像データセットを決定することであって、両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、損失関数およびテストセットのデータに従って視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、損失関数およびターゲット視点生成パラメータに基づいて、視差予測トレーニングモデルをデバッグして視差予測モデルを取得することを採用して、視差予測モデルを事前に構築する。
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。
ターゲット視点を取得すること、ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することを採用して、原画像データにおけるターゲット視点のターゲット画素を決定する。
通信コンポーネント1016は、装置1000と他の装置の間の有線または無線通信を容易にするように構成される。装置1000は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント1016は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント1016は、短距離通信を促進するために、近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて具現することができる。
本開示の実施例で、図面において特定の順序で動作を説明したが、示された特定の順序または連続した順序に従って、動作が実行されることを要求するものとして理解されるべきではないことをさらに理解することができ、または、示された全ての動作を実行して、目的の結果を取得する。特定の環境では、マルチタスクと並列処理が有利な場合がある。
Claims (12)
- 全方位視差ビューの合成方法であって、
原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含む、ことと、
前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、
前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することと
を含み、前記原画像データのペア間の視差を取得することは、
前記原画像データのペアを取得することと、
前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得することと
を含み、
前記方法は、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、全方位視差ビューの合成方法。 - 前記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
請求項1に記載の全方位視差ビューの合成方法。 - 前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することは、
前記ターゲット視点を取得することと、
前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおける前記ターゲット視点に対応するターゲット画素を決定して取得することと
を含むことを特徴とする、
請求項1に記載の全方位視差ビューの合成方法。 - 前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、
前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することと
を含むことを特徴とする、
請求項3に記載の全方位視差ビューの合成方法。 - 前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することは、
で実現され、
は、ターゲット視点の合成ビューであり、
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
であり、
は、ターゲット視点の第1隣接ポイントの画素であり、
は、ターゲット視点の第2隣接ポイントの画素であり、
は、ターゲット視点の第3隣接ポイントの画素であり、
は、ターゲット視点の第4隣接ポイントの画素であることを特徴とする、
請求項4に記載の全方位視差ビューの合成方法。 - 全方位視差ビューの合成装置であって、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む、取得モジュールと、
前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールと
を含み、前記取得モジュールは、
前記原画像データのペアを取得すること、
前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得すること
を採用して、前記原画像データのペア間の視差を取得し、
前記装置は、構築モジュールをさらに含み、前記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
を採用して、視差予測モデルを構築することを特徴とする、全方位視差ビューの合成装置。 - 前記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
請求項6に記載の全方位視差ビューの合成装置。 - 前記決定モジュールは、
前記ターゲット視点を取得すること、
前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること
を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
請求項6に記載の全方位視差ビューの合成装置。 - 前記決定モジュールは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1である、こと、
前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること
を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
請求項8に記載の全方位視差ビューの合成装置。 - 前記決定モジュールは、計算ユニットをさらに含み、前記計算ユニットは、
は、ターゲット視点の合成ビューであり、
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
であり、
は、ターゲット視点の第2隣接ポイントの画素であり、
は、ターゲット視点の第3隣接ポイントの画素であり、
請求項9に記載の全方位視差ビューの合成装置。 - 全方位視差ビューの合成装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと
を含み、
前記プロセッサは、請求項1ないし5のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、全方位視差ビューの合成装置。 - 非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体の命令が電子機器のプロセッサによって実行されるとき、前記電子機器が請求項1ないし5のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、非一時的なコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268198.7A CN111464804A (zh) | 2020-04-08 | 2020-04-08 | 一种全向视差视图合成方法、装置及存储介质 |
CN202010268198.7 | 2020-04-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021168463A JP2021168463A (ja) | 2021-10-21 |
JP7138680B2 true JP7138680B2 (ja) | 2022-09-16 |
Family
ID=71678530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020160472A Active JP7138680B2 (ja) | 2020-04-08 | 2020-09-25 | 全方位視差ビューの合成方法、装置および記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11245886B2 (ja) |
EP (1) | EP3893498A1 (ja) |
JP (1) | JP7138680B2 (ja) |
KR (1) | KR102367648B1 (ja) |
CN (1) | CN111464804A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220321859A1 (en) * | 2021-03-25 | 2022-10-06 | Korea Advanced Institute Of Science And Technology | Real-time omnidirectional stereo matching method using multi-view fisheye lenses and system thereof |
CN113780390B (zh) * | 2021-08-31 | 2023-06-09 | 中国人民解放军战略支援部队信息工程大学 | 基于重构映射一致的无监督密集匹配方法及系统 |
EP4300423A1 (en) * | 2022-06-27 | 2024-01-03 | Continental Autonomous Mobility Germany GmbH | Robust stereo camera image processing method and system |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02101584A (ja) | 1988-10-11 | 1990-04-13 | Nippon Telegr & Teleph Corp <Ntt> | ステレオ画像処理方式 |
JPH1013860A (ja) | 1996-04-26 | 1998-01-16 | Victor Co Of Japan Ltd | 立体画像補間装置及びその方法 |
KR100795481B1 (ko) | 2006-06-26 | 2008-01-16 | 광주과학기술원 | 다시점화상의 처리 방법 및 장치 |
CN101662695B (zh) * | 2009-09-24 | 2011-06-15 | 清华大学 | 一种获取虚拟视图的方法和装置 |
JP2011070579A (ja) | 2009-09-28 | 2011-04-07 | Dainippon Printing Co Ltd | 撮影画像表示装置 |
CN102075779B (zh) * | 2011-02-21 | 2013-05-08 | 北京航空航天大学 | 一种基于块匹配视差估计的中间视图合成方法 |
TW201245768A (en) * | 2011-03-29 | 2012-11-16 | Sony Corp | Image pickup apparatus, image pickup device, image processing method, aperture control method, and program |
JP5367034B2 (ja) * | 2011-08-24 | 2013-12-11 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
JP5755571B2 (ja) * | 2012-01-11 | 2015-07-29 | シャープ株式会社 | 仮想視点画像生成装置、仮想視点画像生成方法、制御プログラム、記録媒体、および立体表示装置 |
CN102790895B (zh) * | 2012-07-30 | 2015-03-25 | 武汉大学 | 一种基于最小二乘的多视点视频编码视点合成预测方法 |
US8867826B2 (en) | 2012-11-26 | 2014-10-21 | Mitusbishi Electric Research Laboratories, Inc. | Disparity estimation for misaligned stereo image pairs |
KR101614874B1 (ko) | 2014-08-08 | 2016-04-22 | 에쓰온(주) | 지능형 3차원 씨씨티브이 카메라 영상 처리장치 |
WO2017149875A1 (ja) * | 2016-02-29 | 2017-09-08 | ソニー株式会社 | 撮像制御装置、撮像装置及び撮像制御方法 |
CN107493465B (zh) * | 2017-09-18 | 2019-06-07 | 郑州轻工业学院 | 一种虚拟多视点视频生成方法 |
-
2020
- 2020-04-08 CN CN202010268198.7A patent/CN111464804A/zh active Pending
- 2020-09-21 US US17/027,059 patent/US11245886B2/en active Active
- 2020-09-25 JP JP2020160472A patent/JP7138680B2/ja active Active
- 2020-10-01 EP EP20199612.1A patent/EP3893498A1/en active Pending
- 2020-12-07 KR KR1020200169197A patent/KR102367648B1/ko active IP Right Grant
Non-Patent Citations (2)
Title |
---|
CHANGHEE WON ET AL.,SweepNet: Wide-baseline Omnidirectional Depth Estimation,arXiv. org, CORNELL UNIVERSITY LIBRARY,2019年02月28日 |
DONG TIAN ET AL.,View Synthesis Techniques for 3D Video,Proc. of SPIE, Applications of Digital Image Processing XXXII,2009年09月02日,Vol.7443 |
Also Published As
Publication number | Publication date |
---|---|
KR20210125888A (ko) | 2021-10-19 |
KR102367648B1 (ko) | 2022-02-28 |
US11245886B2 (en) | 2022-02-08 |
US20210321071A1 (en) | 2021-10-14 |
JP2021168463A (ja) | 2021-10-21 |
EP3893498A1 (en) | 2021-10-13 |
CN111464804A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7138680B2 (ja) | 全方位視差ビューの合成方法、装置および記憶媒体 | |
US11704771B2 (en) | Training super-resolution convolutional neural network model using a high-definition training image, a low-definition training image, and a mask image | |
CN111983635B (zh) | 位姿确定方法及装置、电子设备和存储介质 | |
CN109889724B (zh) | 图像虚化方法、装置、电子设备及可读存储介质 | |
WO2020192252A1 (zh) | 图像生成方法及装置、电子设备和存储介质 | |
US11475243B2 (en) | Training method and device for an image enhancement model, and storage medium | |
TWI767596B (zh) | 場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質 | |
JPWO2015178217A1 (ja) | 画像処理装置および方法 | |
CN112991381B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN112927271A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN108171222B (zh) | 一种基于多流神经网络的实时视频分类方法及装置 | |
CN112614214A (zh) | 动作捕捉方法、装置、电子设备及存储介质 | |
CN113542600A (zh) | 一种图像生成方法、装置、芯片、终端和存储介质 | |
KR20220123218A (ko) | 타깃 포지셔닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
CN111339880A (zh) | 一种目标检测方法及装置、电子设备和存储介质 | |
CN111325674A (zh) | 图像处理方法、装置及设备 | |
CN111127539B (zh) | 视差确定方法、装置、计算机设备及存储介质 | |
CN109543544B (zh) | 跨光谱图像匹配方法及装置、电子设备和存储介质 | |
TWI748439B (zh) | 一種基於共享地圖的定位方法及裝置、電子設備和電腦可讀儲存媒體 | |
CN113645414B (zh) | 水波纹特效视频生成方法、装置、电子设备及存储介质 | |
CN116805285A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN114898074A (zh) | 三维信息确定方法、装置、电子设备及存储介质 | |
CN118071640A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN116664887A (zh) | 定位精度确定方法、装置、电子设备及可读存储介质 | |
CN114612841A (zh) | 视频处理方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220902 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7138680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |