JP7138680B2 - 全方位視差ビューの合成方法、装置および記憶媒体 - Google Patents

全方位視差ビューの合成方法、装置および記憶媒体 Download PDF

Info

Publication number
JP7138680B2
JP7138680B2 JP2020160472A JP2020160472A JP7138680B2 JP 7138680 B2 JP7138680 B2 JP 7138680B2 JP 2020160472 A JP2020160472 A JP 2020160472A JP 2020160472 A JP2020160472 A JP 2020160472A JP 7138680 B2 JP7138680 B2 JP 7138680B2
Authority
JP
Japan
Prior art keywords
pixel
target viewpoint
image data
target
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020160472A
Other languages
English (en)
Other versions
JP2021168463A (ja
Inventor
チュンシャ シャオ
フェイ ルオ
ウェンジエ リー
リヘン ジョウ
Original Assignee
ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド filed Critical ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
Publication of JP2021168463A publication Critical patent/JP2021168463A/ja
Application granted granted Critical
Publication of JP7138680B2 publication Critical patent/JP7138680B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

本願は、2020年04月08日に中国特許局に提出された、出願番号がCN2020102681987である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、画像技術分野に関し、特に、全方位視差ビューの合成方法、装置および記憶媒体に関する。
画像技術の発展に伴い、仮想ディスプレイ、リモート会議、物体の3次元再構築、ビデオフレームの予測など、ビュー合成技術が適用された分野がますます多くなる。関連技術では、ストリームベースのビュー合成方法、確率モデルベースのビュー合成方法、深層または視差情報ベースのビュー合成方法がある。
しかしながら、関連技術において、視差合成に基づくビューは、自然且つ複雑なシナリオに適用できず、学習が十分にロバストでなく、合成効果も良くない。
関連技術に存在する技術的課題を解決するために、本開示は、全方位視差ビューの合成方法、装置および記憶媒体を提供する。
本開示の実施例の第1態様によれば、全方位視差ビューの合成方法を提供し、前記方法は、
原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。
一実施形態において、前記原画像データのペア間の視差を取得することは、
前記原画像データのペアを取得することと、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含む。
一実施形態において、前記方法は、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することさらにを含む。
一実施形態において、前記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含む。
一実施形態において、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することは、
前記ターゲット視点を取得することと、前記ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することとを含む。
一実施形態において、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、前記隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することとを含む。
一実施形態において、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することは、
Figure 0007138680000001
で実現され、
ここで、
Figure 0007138680000002
は、ターゲット視点の合成ビューであり、
Figure 0007138680000003
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000004
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000005
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000006
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000007
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000008
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000009
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000010
は、ターゲット視点の第4隣接ポイントの画素である。
本開示の実施例の第2態様によれば、全方位視差ビューの合成装置を提供し、前記装置は、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点の画素を取得するように構成される取得モジュールと、前記ターゲット画素に従って前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含む。
一実施形態において、前記取得モジュールは、
前記原画像データのペアを取得すること、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、前記原画像データのペア間の視差を取得する。
一実施形態において、前記装置は、構築モジュールをさらに含み、前記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築する。
一実施形態において、前記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。
一実施形態において、前記決定モジュールは、
前記ターゲット視点を取得すること、前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することにより、前記原画像データにおける前記ターゲット視点のターゲット画素を決定する。
一実施形態において、前記決定モジュールは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であること、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、前記原画像データにおけるターゲット視点のターゲット画素を決定する。
一実施形態において、前記決定モジュールは、計算ユニットをさらに含み、前記計算ユニットは、
Figure 0007138680000011
で、前記ターゲット視点に対応するターゲット画素を決定し、
ここで、
Figure 0007138680000012
は、ターゲット視点の合成ビューであり、
Figure 0007138680000013
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000014
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000015
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000016
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000017
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000018
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000019
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000020
は、ターゲット視点の第4隣接ポイントの画素である。
本開示の実施例の第2態様によれば、全方位視差のビュー合成装置を提供し、前記装置は、
プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、ここで、前記プロセッサは、第1態様または第1態様のいずれか1つの実施形態における全方位視差ビューの合成方法を実行するように構成される。
本開示の実施例の第2態様によれば、前記記憶媒体の命令がネットワーク機器のプロセッサによって実行されるとき、電子機器が第2態様または第2態様のいずれか1つの実施形態に記載の全方位視差ビューの合成方法を実行することができるようにする、非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
例えば、本願は以下の項目を提供する。
(項目1)
全方位視差ビューの合成方法であって、
原画像データのペア間の視差を取得することであって、上記視差は、水平方向の視差および垂直方向の視差を含むことと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成することとを含むことを特徴とする、上記全方位視差ビューの合成方法。
(項目2)
上記原画像データのペア間の視差を取得することは、
上記原画像データのペアを取得することと、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含むことを特徴とする、
上記項目に記載の全方位視差ビューの合成方法。
(項目3)
上記方法は、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目4)
上記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目5)
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することは、
上記ターゲット視点を取得することと、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおける上記ターゲット視点に対応するターゲット画素を決定して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目6)
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目7)
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することは、
Figure 0007138680000021
で実現され、
Figure 0007138680000022
は、ターゲット視点の合成ビューであり、
Figure 0007138680000023
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000024
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000025
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000026
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000027
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000028
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000029
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000030
は、ターゲット視点の第4隣接ポイントの画素であることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
(項目8)
全方位視差ビューの合成装置であって、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、上記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含むことを特徴とする、上記全方位視差ビューの合成装置。
(項目9)
上記取得モジュールは、
上記原画像データのペアを取得すること、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、上記原画像データのペア間の視差を取得することを特徴とする、
上記項目に記載の全方位視差ビューの合成装置。
(項目10)
上記装置は、構築モジュールをさらに含み、上記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを構築することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目11)
上記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目12)
上記決定モジュールは、
上記ターゲット視点を取得すること、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目13)
上記決定モジュールは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であること、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目14)
上記決定モジュールは、計算ユニットをさらに含み、上記計算ユニットは、
Figure 0007138680000031
で、上記ターゲット視点に対応するターゲット画素を決定し、
Figure 0007138680000032
は、ターゲット視点の合成ビューであり、
Figure 0007138680000033
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000034
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000035
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000036
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000037
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000038
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000039
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000040
は、ターゲット視点の第4隣接ポイントの画素であることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
(項目15)
全方位視差ビューの合成装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、
上記プロセッサは、上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、上記全方位視差ビューの合成装置。
(項目16)
非一時的なコンピュータ読み取り可能な記憶媒体であって、
上記記憶媒体の命令がネットワーク機器のプロセッサによって実行されるとき、電子機器が上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、上記非一時的なコンピュータ読み取り可能な記憶媒体。
(摘要)
本開示は、全方位視差ビューの合成方法、装置および記憶媒体に関し、前記方法は、原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。本開示を通じて、ターゲット画像画素と原画像データ画素との間のマッチングの精度を向上させる。
本開示の実施例によって提供される技術的解決策は、以下の有益な効果を含み得る。取得された原画像データの水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点に対応する画素を決定するため、ターゲットビューを合成し、ターゲット画像画素と原画像データ画素との間のマッチングの精度、シンプルさおよび適用性を向上させる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の実施例の原理を説明するために使用される。
一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。 異なる視点から撮影された同じ物体の原画像データのペアの概略図である。 一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。 入力された原画像データに従って視差を予測することの概略図である。 一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。 深層ニューラルネットワーク(DispNet)フレームワーク構造の概略図である。 一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。 一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。 一例示的な実施例によって示された全方位視差ビューの合成装置のブロック図である。 一例示的な実施例によって示された装置のブロック図である。
ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。
本開示で提供される全方位視差ビューの合成方法は、水平方向と垂直方向間の原画像の視差をそれぞれ取得し、水平方向と垂直方向間の視差に従って原画像の対応する画素を決定し、複雑な自然シーンに適用されることができ、合成効果も良い。
図1は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートであり、図1に示されたように、全方位視差ビューの合成方法は、次のステップを含む。
ステップS11において、原画像データのペア間の視差を取得する。
ここで、前記視差は、水平方向の視差および垂直方向の視差を含む。本開示の実施例において、水平方向の視差は
Figure 0007138680000041
で示され、垂直方向の視差は
Figure 0007138680000042
で示される。
原画像データのペアを取得し、ここで、原画像データのペアは、第1原画像および第2原画像を含み、第1原画像と第2原画像は、異なる視点から撮影された同じ物体の原画像データのペアである。図2に示されたように、第1原画像および第2原画像の画素座標に従って、第2原画像の画素座標が第1原画像の画素座標に対応すると決定し、2つの画素座標間の水平方向の視差および垂直方向の視差を決定する。
ステップS12において、原画像データのペア間のベースラインに基づいてターゲット視点を決定する。
ここで、ベースラインは、原画像データのペア間の2つの撮影ポイントの接続線である。ターゲット視点は、原画像データのペアのベースライン上の任意のポイントである。
ステップS13において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点のターゲット画素を取得する。
ターゲット視点を決定した後に、画素座標でのターゲット視点の座標値を取得し、ターゲット視点の座標値および取得した水平方向の視差および垂直方向の視差に従って、第1原画像におけるターゲット視点の画素の画素座標を決定し、決定された第1原画像におけるターゲット視点の画素の画素座標に従って対応する画像を取得する。
ステップS14において、ターゲット画素に従って、ターゲット視点のターゲットビューを合成する。
ターゲットビューは複数の画素を含み、第1原画像に基づいてすべての画素を取得した後に、画素に従ってターゲットビューを合成する。
上述の方法において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点画素の対応する画像を決定することは、原画像データにおけるターゲット視点の対応する画像を決定する精度を向上させ、ターゲットビューの精度をさらに向上させる。
本開示の実施例は、本開示に関する全方位視差ビューの合成方法を、実際の応用と組み合わせて以下に説明する。
図3は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図3に示されたように、原画像データのペア間の視差を取得することは、ステップS31およびステップS32を含む。
ステップS31において、原画像データのペアを取得する。
ステップS32において、原画像データのペアを事前に構築された視差予測モデルに入力して、原データのペア間の水平方向の視差および垂直方向の視差を取得する。
原データのペア、即ち、異なる視点から撮影された第1原画像および第2原画像を取得する。事前に構築された視差予測モデルに、取得された第1原画像および第2原画像を入力して、第1原画像と第2原画像との間の水平方向の視差および垂直方向の視差をさらに取得する。図4に示されたように、視差予測モデルに、異なる視点から撮影された同じ物体のステレオ画像の原画像データのペアを入力して、視差予測モデル深層ニューラルネットワークに従って、原画像データに対して畳み込み演算を実行し、前記畳み込み演算は、畳み込みアップサンプリングおよび畳み込みダウンサンプリングを含む。バイリニアサンプラを介してパラメータ
Figure 0007138680000043
を生成し、ここで、
Figure 0007138680000044
であり、パラメータ
Figure 0007138680000045
は、ターゲット視点が原画像データの第1原画像に近いか第2原画像に近いかを決定するために使用される。当該パラメータを視差予測モデルの予算に追加して、水平方向および垂直方向の視差マップを取得する。
本開示の一実施形態において、以下の方式を採用して、視差予測モデルを構築する。
図5は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図5に示されたように、視差予測モデルを構築する方法は、ステップS51~ステップS55を含む。
ステップS51において、両眼ステレオ画像データセットを決定し、両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む。
ここで、両眼ステレオ画像データセットは、実際のシーンを有する画像データを選択することができる。選択された当該画像データの実際のシーン環境は多様である。例えば、本開示の実施例は、KITTIデータセットを採用して、両眼ステレオ画像データセットを取得する。
KITTIデータセットは、ドイツカールスルーエ工科大学とトヨタ米国技術研究所によって共同に創設されたものである。当該データセットは、ステレオ画像のテスト(stereo)、オプティカルフロー(optical flow)、視覚オドメトリ(visual odometry)、3D物体検出(object detection)および3Dトラッキング(tracking)などのコンピュータビジョン技術の車載環境での性能をテストするために使用される。KITTIには、都市部、農村部および高速道路などのシーンから収集された実際の画像データが含まれ、各画像には最大15台の車および30人の歩行者が含まれ、様々な程度のオクルージョンとトランケーションがある。
ステップS52において、両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定する。
取得された両眼ステレオ画像データセットに対して、2つのカテゴリの比率関係に従って、例えば、トレーニングデータセットおよびテストデータセットを7:3または8:2の比率に応じて分割して、トレーニングデータセットおよびテストデータセットを取得することができる。
ステップS53において、トレーニングデータセットに対して畳み込みニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得する。
深層ニューラルネットワーク(DispNet)フレームワーク構造を構築し、図6に示されたように、当該畳み込みニューラルネットワークは、任意の画像データのペア間の視差を計算することができ、画像データのペアの視差を計算する場合、水平方向の視差および垂直方向の視差としてそれぞれ計算することができる。水平方向の視差および垂直方向の視差を出力することができる視差予測トレーニングモデルを取得する。
ステップS54において、損失関数を決定し、損失関数およびテストセットのデータに従って視差予測モデルを検出して、ターゲット視点生成パラメータを取得する。
上述の取得された視差予測トレーニングモデルに従って、取得且つ出力された視差ビューと、既存の視差ビューを比較して、視差予測トレーニングモデルによって取得且つ出力された視差ビューと既存の視差ビューの誤差を決定し、損失関数を決定する。決定された損失関数および上述の取得されたテストデータセットに従って、視差トレーニング模型に対して出力結果の検出を実行して、ターゲット視点生成パラメータを決定し、
Figure 0007138680000046
で示され、ここで、
Figure 0007138680000047
である。決定されたターゲット視点生成パラメータ
Figure 0007138680000048
は、ターゲット視点のターゲットビューが第1原画像により近いか第2原画像により近いかを決定するために使用される。
ここで、ターゲット視点生成パラメータ
Figure 0007138680000049
の条件下で、原画像データにおけるターゲット視点画素座標とターゲット視点画素の画素の座標関係は、以下の通りである。
Figure 0007138680000050
Figure 0007138680000051
ここで、
Figure 0007138680000052
は、ターゲット視点生成パラメータ
Figure 0007138680000053
の条件下のターゲット視点の水平座標であり、
Figure 0007138680000054
は、ターゲット視点生成パラメータ
Figure 0007138680000055
の条件下のターゲット視点の垂直座標であり、
Figure 0007138680000056
は、原画像データの中心にあるターゲット視点画素の対応する画像の水平座標であり、
Figure 0007138680000057
は、ターゲット視点生成パラメータ
Figure 0007138680000058
の条件下の水平方向の視差であり、
Figure 0007138680000059
は、原画像データの中心にあるターゲット視点画素の対応する画像の垂直座標であり、
Figure 0007138680000060
は、ターゲット視点生成パラメータ
Figure 0007138680000061
の条件下の垂直方向の視差である。
ここで、
Figure 0007138680000062
で示さることもでき、
Figure 0007138680000063
で示されることもできる。
ステップS55において、損失関数およびターゲット視点生成パラメータに基づいて、視差予測トレーニングモデルをデバッグして視差予測モデルを取得する。
上述の決定された損失関数およびターゲット視点生成パラメータを視差予測トレーニングモデルに設定することにより、画像データのペア間の水平方向の視差および垂直方向の視差を予測することができる視差予測モデルを取得する。
本開示の一例示的な実施例において、以下の関数を使用して以上に関する損失関数を決定する。
本開示の実施形態において、損失関数は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差(MAE:the Mean Absolute Error)、ピクセル誤差および構造的類似度(SSIM:the Structural similarity index Measure)で構成される。
損失関数は、以下の関数で示される。
Figure 0007138680000064
ここで、
Figure 0007138680000065
は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差であり、
Figure 0007138680000066
は、ピクセル誤差であり、即ち、ピーク信号対雑音比であり、
Figure 0007138680000067
は、構造的類似度であり、
Figure 0007138680000068
は、予測の視差ビューの画素であり、
Figure 0007138680000069
は、実際の視差ビューの画素である。
Figure 0007138680000070
は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差的重み値であり、
Figure 0007138680000071
は、ピクセル誤差の重み値であり、
Figure 0007138680000072
は、構造的類似度の重み値である。
Figure 0007138680000073
は、以下の関数で示される。
Figure 0007138680000074
ここで、
Figure 0007138680000075
は、両眼ステレオ画像データセットにおける画像の幅であり、
Figure 0007138680000076
は、両眼ステレオ画像データセットにおける画像の高さであり、
Figure 0007138680000077
は、予測の視差ビューの画素の座標であり、
Figure 0007138680000078
は、実際の視差ビューの画素の座標である。
ピクセル誤差は、誤差に敏感な画質評価に基づき、客観的な画像評価指標であり、ピーク信号対雑音比(PSNR:the Peak Signal to Noise Ratio)であり、値が大きいほど、歪みは小さくなる。以下の関数で示される。
Figure 0007138680000079
ここで、
Figure 0007138680000080
は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均二乗誤差であり、nは各画素のビット数である。
視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均二乗誤差は、以下の関数で示される。
Figure 0007138680000081
構造的類似度は、全参照的な画質評価指標であり、当該構造的類似度は、輝度、コントラストおよび構造の3つの側面から画像の類似度を測定することができる。
Figure 0007138680000082
の値が大きいほど、画像の歪みは小さくなる。
Figure 0007138680000083
は、以下の関数で示される。
Figure 0007138680000084
ここで、
Figure 0007138680000085
は、輝度であり、
Figure 0007138680000086
は、コントラストであり、
Figure 0007138680000087
は、構造であり、
Figure 0007138680000088
は、予測の視差ビューの画素であり、
Figure 0007138680000089
は、実際の視差ビューの画素である。
輝度
Figure 0007138680000090
は、以下の関数で示される。
Figure 0007138680000091
Figure 0007138680000092
は、予測の視差ビューの画素の平均値であり、
Figure 0007138680000093
は、実際の視差ビューの画素の平均値であり、
Figure 0007138680000094
は、定数である。
コントラスト
Figure 0007138680000095
は、以下の関数で示される。
Figure 0007138680000096
Figure 0007138680000097
は、予測の視差ビューの画素の分散であり、
Figure 0007138680000098
は、実際の視差ビューの画素の分散であり、
Figure 0007138680000099
は、定数である。
構造
Figure 0007138680000100
は、以下の関数で示される。
Figure 0007138680000101
Figure 0007138680000102
は、予測の視差ビューの画素と実際の視差ビューの画素間の共分散であり、
Figure 0007138680000103
は、予測の視差ビューの画素と実際の視差ビューの画素間の水平方向の共分散であり、
Figure 0007138680000104
は、予測の視差ビューの画素と実際の視差ビューの画素間の垂直方向の共分散であり、
Figure 0007138680000105
は、定数である。
図7は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図7に示されたように、本開示の一例示的な実施例において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点の画素を取得する方法は、ステップS71~ステップS74を含む。
ステップS71において、ターゲット視点を取得する。
上述の実施例から分かるように、原画像データのペアのベースライン上でターゲット視点を決定し、当該ターゲット視点を取得し、さらに、ターゲット視点の画素座標を取得する。
ステップS72において、ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定する。
ターゲット視点の画素座標および取得された水平方向の視差に従って、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離、即ち、ターゲット視点が水平方向に移動するために必要な距離を決定する。
ステップS73において、ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定する。
ターゲット視点の画素座標および取得された垂直方向の視差に従って、ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離、即ち、ターゲット視点が垂直方向に移動するために必要な距離を決定する。
ステップS74において、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得する。
上述の実施例で取得したターゲット視点から原画像データの対応する画素までの水平方向の距離および垂直方向の距離に従って、原画像データにおけるターゲット視点画素座標対応するターゲット画素座標を決定し、ターゲット画素座標に従って、ターゲット画素を決定して取得する。
上述の方法に応じて、ターゲット視点を取得した後に、ターゲット視点の画素座標を決定し、視差予測モデルによって出力された水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点の対応する画像の座標を計算する。さらに、本開示では、原画像データのペアの第1原画像を例として、予測して取得した水平方向の視差および垂直方向の視差に従って、第1原画像におけるターゲット視点画素の対応する画素を計算する。
図8は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図8に示されたように、本ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素を計算して取得する方法は、ステップS81~ステップS83を含む。
ステップS81において、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定する。
ターゲット視点の画素座標を決定し、水平方向の視差および垂直方向の視差に従って、ターゲット視点画素座標を計算して、原画像におけるターゲット視点の画素座標を取得し、以下の式で示される。
Figure 0007138680000106
ここで、
Figure 0007138680000107
は、ターゲットビューの画素座標であり、
Figure 0007138680000108
は、水平方向の視差であり、
Figure 0007138680000109
は、垂直方向の視差であり、
Figure 0007138680000110
は、原画像データ中対応する画像座標であり、
Figure 0007138680000111
は、画素座標のターゲットビューの画素座標に基づく原画像の座標である。
原画像データにおけるターゲット画素の対応する画像座標を決定した後に、バイリニア補間法を使用して、原画像データにおけるターゲット画素の対応する画像座標に隣接する4つの画素を決定し、隣接する4つの画素の座標を取得し、前記4つの画素は、第1隣接画素
Figure 0007138680000112
、第2隣接画素
Figure 0007138680000113
、第3隣接画素
Figure 0007138680000114
第4隣接画素
Figure 0007138680000115
である。
ステップS82において、隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定し、すべての隣接画素に対応する重み値の和は1である。
4つの隣接画素の重み値を決定し、それぞれ、第1重み
Figure 0007138680000116
、第2重み
Figure 0007138680000117
、第3重み
Figure 0007138680000118
、第4重み
Figure 0007138680000119
であり、4つの隣接画素から原画像データにおけるターゲット画素の対応する画像までの距離に従って4重みの比率関係を決定し、且つ
Figure 0007138680000120
である。
ステップS83において、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する。
隣接するピクセルを決定した後に、原画像データにおけるターゲット視点の対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する。
ここで、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する式は、次の通りである。
Figure 0007138680000121
ここで、
Figure 0007138680000122
は、ターゲット視点の合成ビューであり、
Figure 0007138680000123
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000124
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000125
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000126
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000127
であり、
Figure 0007138680000128
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000129
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000130
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000131
は、ターゲット視点の第4隣接ポイントの画素である。
同じ概念に基づいて、本開示の実施例は、全方位視差ビューの合成装置をさらに提供する。
本開示の実施例で提供される全方位視差ビューの合成装置は、上述の機能を実現するために、各機能を実行することに対応するハードウェア構造および/またはソフトウェアモジュールを含むことを理解すべきである。本開示の実施例に開示される各例示のユニットおよびアルゴリズムステップを含み合わせることにより、本開示の実施例は、ハードウェア、またはハードウェアとコンピュータソフトウェアの組み合わせの形式で実現されることができる。特定の機能がハードウェアで実行されるかコンピュータソフトウェア駆動のハードウェアで実行されるかは、技術的解決策の特定の応用および設計の制約条件に依存する。当業者は、各特定の応用に対して異なる方法を使用して説明された機能を実現することができるが、このような実現は本開示の実施例の範囲を超えると見なされるべきではない。
図9は、一例示的な実施例によって示された全方位視差ビューの合成装置のブロックである。図9を参照すると、当該装置は、取得モジュール901、決定モジュール902および合成モジュール903を含む。
取得モジュール901は、原画像データのペア間の視差を取得するように構成され、ここで、視差は、水平方向の視差および垂直方向の視差を含む。決定モジュール902は、原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される。取得モジュールは、さらに、水平方向の視差および垂直方向の視差に従って、原画像データにおける前記ターゲット視点のターゲット画素を取得するように構成される。合成モジュール903は、ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成するように構成される。
上述の装置において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点画素の対応する画像を決定することは、原画像データにおけるターゲット視点の対応する画像を決定する精度を向上させ、ターゲットビューの精度をさらに向上させる。
本開示の一例示的な実施例において、取得モジュール901は、
原画像データのペアを取得すること、事前に構築された視差予測モデルに、原画像データのペアを入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することを採用して、原画像データのペア間の視差を取得する。
本開示の一例示的な実施例において、装置は、構築モジュールをさらに含み、構築モジュールは、
両眼ステレオ画像データセットを決定することであって、両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、損失関数およびテストセットのデータに従って視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、損失関数およびターゲット視点生成パラメータに基づいて、視差予測トレーニングモデルをデバッグして視差予測モデルを取得することを採用して、視差予測モデルを事前に構築する。
本開示の一例示的な実施例において、決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。
本開示の一例示的な実施例において、決定モジュールは、
ターゲット視点を取得すること、ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することを採用して、原画像データにおけるターゲット視点のターゲット画素を決定する。
本開示の一例示的な実施例において、決定モジュールは、。
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であること、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点に対応するターゲット画素を計算して取得することを採用して、原画像データにおけるターゲット視点のターゲット画素を決定する。
本開示の一例示的な実施例において、決定モジュールは、計算ユニットをさらに含み、計算ユニットは、
Figure 0007138680000132
を採用して、ターゲット画素を決定する。
ここで、
Figure 0007138680000133
は、ターゲット視点の合成ビューであり、
Figure 0007138680000134
は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
Figure 0007138680000135
は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
Figure 0007138680000136
は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
Figure 0007138680000137
は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
Figure 0007138680000138
は、ターゲット視点の第1隣接ポイントの画素であり、
Figure 0007138680000139
は、ターゲット視点の第2隣接ポイントの画素であり、
Figure 0007138680000140
は、ターゲット視点の第3隣接ポイントの画素であり、
Figure 0007138680000141
は、ターゲット視点の第4隣接ポイントの画素である。
上述の実施例の装置に関して、ここで、各モジュールが動作を実行する具体的な方法は、既に、前記方法に関する実施例で詳細に説明されており、ここでは詳細に説明しない。
図10は、一例示的な実施例によって示された全方位視差ビューの合成装置1000のブロック図である。例えば、装置1000は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。
図10を参照すれば、装置1000は、処理コンポーネント1002、メモリ1004、電力コンポーネント1006、マルチメディアコンポーネント1008、オーディオコンポーネント1010、入力/出力(I/O)インターフェース1012、センサコンポーネント1014、および通信コンポーネント1016のうちの1つまたは複数のコンポーネットを含むことができる。
処理コンポーネント1002は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置1000の全般的な操作を制御する。処理コンポーネント1002は、前記方法のステップの全てまたは一部を完了するために、1つまたは複数のプロセッサ1020を含んで命令を実行することができる。加えて、処理コンポーネント1002は、処理コンポーネント1002と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント1002は、マルチメディアコンポーネント1008と処理コンポーネント1002との間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
メモリ1004は、機器1000での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置1000で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ1004は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電力コンポーネント1006は、装置1000の様々なコンポーネントに電力を提供する。電力コンポーネント1006は、電力管理システム、1つまたは複数の電源、及び装置1000の電力の生成、管理および分配に関する他のコンポーネントを含むことができる。
マルチメディアコンポーネント1008は、前記バッテリの充電装置1000とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施形態において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント1008は、一つのフロントカメラ及び/またはリアカメラを含む。機器1000が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
オーディオコンポーネント1010は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント1010は、1つのマイクロフォン(MIC)を含み、装置1000が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ1004にさらに格納されてもよく、または通信コンポーネント1016を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント1010は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース1012は、処理コンポーネント1002と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
センサコンポーネント1014は、装置1000に各態様の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント1014は、機器1000のオン/オフ状態と、装置1000のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント1014は、装置1000または装置1000のコンポーネントの位置の変化、ユーザとの装置1000の接触の有無、装置1000の向きまたは加速/減速、及び装置1000の温度の変化も検出することができる。センサコンポ―ネット1014は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント1014は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント1014は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント1016は、装置1000と他の装置の間の有線または無線通信を容易にするように構成される。装置1000は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント1016は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント1016は、短距離通信を促進するために、近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて具現することができる。
例示的な実施例において、装置1000は、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができ、前記方法を実行するように構成される。
例示的な実施例において、命令を含むメモリ1004などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置1000のプロセッサ1020によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスクおよび光学データ記憶装置などであってもよい。
本開示の「複数」は2つまたは2つ以上を指し、他の量指定子はこれと類似することをさらに理解することができる。「および/または」は、関連付けられたオブジェクトを説明する関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表すことができる。文字「/」は、一般的に、コンテキストオブジェクトが「または」の関係であることを示す。単数形の「1つ」、「前記」および「前記」は、コンテキストで他の意味を明確に示さない限り、複数形も含むことを意図する。
用語「第1」、「第2」などは様々な情報を説明するために使用されるが、これらの情報はこれらの用語に限定されないことをさらに理解されたい。これらの用語は、同じタイプの情報をお互いに区別するために使用され、特定の順序または重要性を示すものではない。実際に、「第1」、「第2」などの表現は、お互いに交換して使用することができる。例えば、本開示の範囲から逸脱することなく、第1の情報は第2の情報とも称し得、同様に、第2の情報は第1の情報とも称し得る。
本開示の実施例で、図面において特定の順序で動作を説明したが、示された特定の順序または連続した順序に従って、動作が実行されることを要求するものとして理解されるべきではないことをさらに理解することができ、または、示された全ての動作を実行して、目的の結果を取得する。特定の環境では、マルチタスクと並列処理が有利な場合がある。
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本開示の他の実施形態を容易に想到し得るであろう。本出願は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
本開示は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims (12)

  1. 全方位視差ビューの合成方法であって、
    原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含む、ことと、
    前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
    前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、
    前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することと
    を含み、前記原画像データのペア間の視差を取得することは、
    前記原画像データのペアを取得することと、
    前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得することと
    を含み、
    前記方法は、
    両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
    前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
    前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
    損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
    前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
    を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、全方位視差ビューの合成方法。
  2. 前記損失関数を決定することは、
    取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
    請求項1に記載の全方位視差ビューの合成方法。
  3. 前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することは、
    前記ターゲット視点を取得することと、
    前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
    前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
    前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおける前記ターゲット視点に対応するターゲット画素を決定して取得することと
    を含むことを特徴とする、
    請求項1に記載の全方位視差ビューの合成方法。
  4. 前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
    前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
    前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1であることと、
    前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することと
    を含むことを特徴とする、
    請求項3に記載の全方位視差ビューの合成方法。
  5. 前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することは、
    Figure 0007138680000142

    で実現され、
    Figure 0007138680000143

    は、ターゲット視点の合成ビューであり、
    Figure 0007138680000144

    は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
    Figure 0007138680000145

    は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
    Figure 0007138680000146

    は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
    Figure 0007138680000147
    は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
    Figure 0007138680000148

    であり、
    Figure 0007138680000149

    は、ターゲット視点の第1隣接ポイントの画素であり、
    Figure 0007138680000150

    は、ターゲット視点の第2隣接ポイントの画素であり、
    Figure 0007138680000151

    は、ターゲット視点の第3隣接ポイントの画素であり、
    Figure 0007138680000152

    は、ターゲット視点の第4隣接ポイントの画素であることを特徴とする、
    請求項4に記載の全方位視差ビューの合成方法。
  6. 全方位視差ビューの合成装置であって、
    原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む、取得モジュールと、
    前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
    前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
    前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールと
    を含み、前記取得モジュールは、
    前記原画像データのペアを取得すること、
    前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得すること
    を採用して、前記原画像データのペア間の視差を取得し、
    前記装置は、構築モジュールをさらに含み、前記構築モジュールは、
    両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
    前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
    前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
    損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
    前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
    を採用して、視差予測モデルを構築することを特徴とする、全方位視差ビューの合成装置。
  7. 前記決定モジュールは、さらに、
    取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
    請求項6に記載の全方位視差ビューの合成装置。
  8. 前記決定モジュールは、
    前記ターゲット視点を取得すること、
    前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
    前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
    前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること
    を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
    請求項6に記載の全方位視差ビューの合成装置。
  9. 前記決定モジュールは、
    前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
    前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は1である、こと、
    前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること
    を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
    請求項8に記載の全方位視差ビューの合成装置。
  10. 前記決定モジュールは、計算ユニットをさらに含み、前記計算ユニットは、
    Figure 0007138680000153
    で、前記ターゲット視点に対応するターゲット画素を決定し、
    Figure 0007138680000154

    は、ターゲット視点の合成ビューであり、
    Figure 0007138680000155

    は、ターゲット視点の第1隣接ポイントの画素の重み値であり、
    Figure 0007138680000156

    は、ターゲット視点の第2隣接ポイントの画素の重み値であり、
    Figure 0007138680000157

    は、ターゲット視点の第3隣接ポイントの画素の重み値であり、
    Figure 0007138680000158

    は、ターゲット視点の第4隣接ポイントの画素の重み値であり、且つ
    Figure 0007138680000159

    であり、
    Figure 0007138680000160
    は、ターゲット視点の第1隣接ポイントの画素であり、
    Figure 0007138680000161

    は、ターゲット視点の第2隣接ポイントの画素であり、
    Figure 0007138680000162

    は、ターゲット視点の第3隣接ポイントの画素であり、
    Figure 0007138680000163
    は、ターゲット視点の第4隣接ポイントの画素であることを特徴とする、
    請求項9に記載の全方位視差ビューの合成装置。
  11. 全方位視差ビューの合成装置であって、
    プロセッサと、
    プロセッサ実行可能命令を記憶するように構成されるメモリと
    を含み、
    前記プロセッサは、請求項1ないし5のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、全方位視差ビューの合成装置。
  12. 非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記記憶媒体の命令が電子機器のプロセッサによって実行されるとき、前記電子機器が請求項1ないし5のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、非一時的なコンピュータ読み取り可能な記憶媒体。
JP2020160472A 2020-04-08 2020-09-25 全方位視差ビューの合成方法、装置および記憶媒体 Active JP7138680B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010268198.7A CN111464804A (zh) 2020-04-08 2020-04-08 一种全向视差视图合成方法、装置及存储介质
CN202010268198.7 2020-04-08

Publications (2)

Publication Number Publication Date
JP2021168463A JP2021168463A (ja) 2021-10-21
JP7138680B2 true JP7138680B2 (ja) 2022-09-16

Family

ID=71678530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020160472A Active JP7138680B2 (ja) 2020-04-08 2020-09-25 全方位視差ビューの合成方法、装置および記憶媒体

Country Status (5)

Country Link
US (1) US11245886B2 (ja)
EP (1) EP3893498A1 (ja)
JP (1) JP7138680B2 (ja)
KR (1) KR102367648B1 (ja)
CN (1) CN111464804A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220321859A1 (en) * 2021-03-25 2022-10-06 Korea Advanced Institute Of Science And Technology Real-time omnidirectional stereo matching method using multi-view fisheye lenses and system thereof
CN113780390B (zh) * 2021-08-31 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于重构映射一致的无监督密集匹配方法及系统
EP4300423A1 (en) * 2022-06-27 2024-01-03 Continental Autonomous Mobility Germany GmbH Robust stereo camera image processing method and system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101584A (ja) 1988-10-11 1990-04-13 Nippon Telegr & Teleph Corp <Ntt> ステレオ画像処理方式
JPH1013860A (ja) 1996-04-26 1998-01-16 Victor Co Of Japan Ltd 立体画像補間装置及びその方法
KR100795481B1 (ko) 2006-06-26 2008-01-16 광주과학기술원 다시점화상의 처리 방법 및 장치
CN101662695B (zh) * 2009-09-24 2011-06-15 清华大学 一种获取虚拟视图的方法和装置
JP2011070579A (ja) 2009-09-28 2011-04-07 Dainippon Printing Co Ltd 撮影画像表示装置
CN102075779B (zh) * 2011-02-21 2013-05-08 北京航空航天大学 一种基于块匹配视差估计的中间视图合成方法
TW201245768A (en) * 2011-03-29 2012-11-16 Sony Corp Image pickup apparatus, image pickup device, image processing method, aperture control method, and program
JP5367034B2 (ja) * 2011-08-24 2013-12-11 株式会社ソニー・コンピュータエンタテインメント 画像処理装置および画像処理方法
JP5755571B2 (ja) * 2012-01-11 2015-07-29 シャープ株式会社 仮想視点画像生成装置、仮想視点画像生成方法、制御プログラム、記録媒体、および立体表示装置
CN102790895B (zh) * 2012-07-30 2015-03-25 武汉大学 一种基于最小二乘的多视点视频编码视点合成预测方法
US8867826B2 (en) 2012-11-26 2014-10-21 Mitusbishi Electric Research Laboratories, Inc. Disparity estimation for misaligned stereo image pairs
KR101614874B1 (ko) 2014-08-08 2016-04-22 에쓰온(주) 지능형 3차원 씨씨티브이 카메라 영상 처리장치
WO2017149875A1 (ja) * 2016-02-29 2017-09-08 ソニー株式会社 撮像制御装置、撮像装置及び撮像制御方法
CN107493465B (zh) * 2017-09-18 2019-06-07 郑州轻工业学院 一种虚拟多视点视频生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANGHEE WON ET AL.,SweepNet: Wide-baseline Omnidirectional Depth Estimation,arXiv. org, CORNELL UNIVERSITY LIBRARY,2019年02月28日
DONG TIAN ET AL.,View Synthesis Techniques for 3D Video,Proc. of SPIE, Applications of Digital Image Processing XXXII,2009年09月02日,Vol.7443

Also Published As

Publication number Publication date
KR20210125888A (ko) 2021-10-19
KR102367648B1 (ko) 2022-02-28
US11245886B2 (en) 2022-02-08
US20210321071A1 (en) 2021-10-14
JP2021168463A (ja) 2021-10-21
EP3893498A1 (en) 2021-10-13
CN111464804A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
JP7138680B2 (ja) 全方位視差ビューの合成方法、装置および記憶媒体
US11704771B2 (en) Training super-resolution convolutional neural network model using a high-definition training image, a low-definition training image, and a mask image
CN111983635B (zh) 位姿确定方法及装置、电子设备和存储介质
CN109889724B (zh) 图像虚化方法、装置、电子设备及可读存储介质
WO2020192252A1 (zh) 图像生成方法及装置、电子设备和存储介质
US11475243B2 (en) Training method and device for an image enhancement model, and storage medium
TWI767596B (zh) 場景深度和相機運動預測方法、電子設備和電腦可讀儲存介質
JPWO2015178217A1 (ja) 画像処理装置および方法
CN112991381B (zh) 图像处理方法及装置、电子设备和存储介质
CN112927271A (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN108171222B (zh) 一种基于多流神经网络的实时视频分类方法及装置
CN112614214A (zh) 动作捕捉方法、装置、电子设备及存储介质
CN113542600A (zh) 一种图像生成方法、装置、芯片、终端和存储介质
KR20220123218A (ko) 타깃 포지셔닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111339880A (zh) 一种目标检测方法及装置、电子设备和存储介质
CN111325674A (zh) 图像处理方法、装置及设备
CN111127539B (zh) 视差确定方法、装置、计算机设备及存储介质
CN109543544B (zh) 跨光谱图像匹配方法及装置、电子设备和存储介质
TWI748439B (zh) 一種基於共享地圖的定位方法及裝置、電子設備和電腦可讀儲存媒體
CN113645414B (zh) 水波纹特效视频生成方法、装置、电子设备及存储介质
CN116805285A (zh) 图像处理方法及装置、电子设备及存储介质
CN114898074A (zh) 三维信息确定方法、装置、电子设备及存储介质
CN118071640A (zh) 图像处理方法及装置、电子设备及存储介质
CN116664887A (zh) 定位精度确定方法、装置、电子设备及可读存储介质
CN114612841A (zh) 视频处理方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220906

R150 Certificate of patent or registration of utility model

Ref document number: 7138680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150