JP7138680B2

JP7138680B2 - 全方位視差ビューの合成方法、装置および記憶媒体

Info

Publication number: JP7138680B2
Application number: JP2020160472A
Authority: JP
Inventors: チュンシャシャオ; フェイルオ; ウェンジエリー; リヘンジョウ
Original assignee: ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド
Priority date: 2020-04-08
Filing date: 2020-09-25
Publication date: 2022-09-16
Anticipated expiration: 2040-09-25
Also published as: KR20210125888A; KR102367648B1; US11245886B2; JP2021168463A; US20210321071A1; EP3893498A1; CN111464804A

Description

本願は、２０２０年０４月０８日に中国特許局に提出された、出願番号がＣＮ２０２０１０２６８１９８７である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本開示は、画像技術分野に関し、特に、全方位視差ビューの合成方法、装置および記憶媒体に関する。

画像技術の発展に伴い、仮想ディスプレイ、リモート会議、物体の３次元再構築、ビデオフレームの予測など、ビュー合成技術が適用された分野がますます多くなる。関連技術では、ストリームベースのビュー合成方法、確率モデルベースのビュー合成方法、深層または視差情報ベースのビュー合成方法がある。

しかしながら、関連技術において、視差合成に基づくビューは、自然且つ複雑なシナリオに適用できず、学習が十分にロバストでなく、合成効果も良くない。

関連技術に存在する技術的課題を解決するために、本開示は、全方位視差ビューの合成方法、装置および記憶媒体を提供する。

本開示の実施例の第１態様によれば、全方位視差ビューの合成方法を提供し、前記方法は、
原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。

一実施形態において、前記原画像データのペア間の視差を取得することは、
前記原画像データのペアを取得することと、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含む。

一実施形態において、前記方法は、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することさらにを含む。

一実施形態において、前記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含む。

一実施形態において、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することは、
前記ターゲット視点を取得することと、前記ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することとを含む。

一実施形態において、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、前記隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であることと、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することとを含む。

一実施形態において、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することは、

で実現され、
ここで、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素の重み値であり、

は、ターゲット視点の第２隣接ポイントの画素の重み値であり、

は、ターゲット視点の第３隣接ポイントの画素の重み値であり、

は、ターゲット視点の第４隣接ポイントの画素の重み値であり、且つ

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素である。

本開示の実施例の第２態様によれば、全方位視差ビューの合成装置を提供し、前記装置は、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点の画素を取得するように構成される取得モジュールと、前記ターゲット画素に従って前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含む。

一実施形態において、前記取得モジュールは、
前記原画像データのペアを取得すること、前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、前記原画像データのペア間の視差を取得する。

一実施形態において、前記装置は、構築モジュールをさらに含み、前記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築する。

一実施形態において、前記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。

一実施形態において、前記決定モジュールは、
前記ターゲット視点を取得すること、前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することにより、前記原画像データにおける前記ターゲット視点のターゲット画素を決定する。

一実施形態において、前記決定モジュールは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であること、前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、前記原画像データにおけるターゲット視点のターゲット画素を決定する。

一実施形態において、前記決定モジュールは、計算ユニットをさらに含み、前記計算ユニットは、

で、前記ターゲット視点に対応するターゲット画素を決定し、
ここで、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素である。

本開示の実施例の第２態様によれば、全方位視差のビュー合成装置を提供し、前記装置は、
プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、ここで、前記プロセッサは、第１態様または第１態様のいずれか１つの実施形態における全方位視差ビューの合成方法を実行するように構成される。

本開示の実施例の第２態様によれば、前記記憶媒体の命令がネットワーク機器のプロセッサによって実行されるとき、電子機器が第２態様または第２態様のいずれか１つの実施形態に記載の全方位視差ビューの合成方法を実行することができるようにする、非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

例えば、本願は以下の項目を提供する。
（項目１）
全方位視差ビューの合成方法であって、
原画像データのペア間の視差を取得することであって、上記視差は、水平方向の視差および垂直方向の視差を含むことと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成することとを含むことを特徴とする、上記全方位視差ビューの合成方法。
（項目２）
上記原画像データのペア間の視差を取得することは、
上記原画像データのペアを取得することと、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得することとを含むことを特徴とする、
上記項目に記載の全方位視差ビューの合成方法。
（項目３）
上記方法は、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
（項目４）
上記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
（項目５）
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得することは、
上記ターゲット視点を取得することと、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおける上記ターゲット視点に対応するターゲット画素を決定して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
（項目６）
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であることと、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することとを含むことを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
（項目７）
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得することは、

で実現され、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素であることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成方法。
（項目８）
全方位視差ビューの合成装置であって、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、上記視差は、水平方向の視差および垂直方向の視差を含む取得モジュールと、
上記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
上記水平方向の視差および上記垂直方向の視差に従って、上記原画像データにおける上記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
上記ターゲット画素に従って、上記ターゲット視点のターゲットビューを合成するように構成される合成モジュールとを含むことを特徴とする、上記全方位視差ビューの合成装置。
（項目９）
上記取得モジュールは、
上記原画像データのペアを取得すること、
上記原画像データのペアを事前に構築された視差予測モデルに入力して、上記原データのペア間の水平方向の視差および垂直方向の視差を取得すること、を採用して、上記原画像データのペア間の視差を取得することを特徴とする、
上記項目に記載の全方位視差ビューの合成装置。
（項目１０）
上記装置は、構築モジュールをさらに含み、上記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、上記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、
上記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
上記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、上記損失関数およびテストセットのデータに従って上記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
上記損失関数および上記ターゲット視点生成パラメータに基づいて、上記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること、を採用して、視差予測モデルを構築することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
（項目１１）
上記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
（項目１２）
上記決定モジュールは、
上記ターゲット視点を取得すること、
上記ターゲット視点および上記水平方向の視差に従って、上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点および上記垂直方向の視差に従って、上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
（項目１３）
上記決定モジュールは、
上記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および上記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、上記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
上記隣接画素と、上記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であること、
上記原画像データにおけるターゲット視点に対応する画素の隣接画素および上記隣接画素に対応する重み値に従って、上記ターゲット視点に対応するターゲット画素を計算して取得すること、を採用して、上記原画像データにおける上記ターゲット視点のターゲット画素を決定することを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
（項目１４）
上記決定モジュールは、計算ユニットをさらに含み、上記計算ユニットは、

で、上記ターゲット視点に対応するターゲット画素を決定し、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素であることを特徴とする、
上記項目のいずれか一項に記載の全方位視差ビューの合成装置。
（項目１５）
全方位視差ビューの合成装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリとを含み、
上記プロセッサは、上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、上記全方位視差ビューの合成装置。
（項目１６）
非一時的なコンピュータ読み取り可能な記憶媒体であって、
上記記憶媒体の命令がネットワーク機器のプロセッサによって実行されるとき、電子機器が上記項目のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、上記非一時的なコンピュータ読み取り可能な記憶媒体。
（摘要）
本開示は、全方位視差ビューの合成方法、装置および記憶媒体に関し、前記方法は、原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含むことと、前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することとを含む。本開示を通じて、ターゲット画像画素と原画像データ画素との間のマッチングの精度を向上させる。

本開示の実施例によって提供される技術的解決策は、以下の有益な効果を含み得る。取得された原画像データの水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点に対応する画素を決定するため、ターゲットビューを合成し、ターゲット画像画素と原画像データ画素との間のマッチングの精度、シンプルさおよび適用性を向上させる。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。

ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の実施例の原理を説明するために使用される。
一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。異なる視点から撮影された同じ物体の原画像データのペアの概略図である。一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。入力された原画像データに従って視差を予測することの概略図である。一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。深層ニューラルネットワーク（ＤｉｓｐＮｅｔ）フレームワーク構造の概略図である。一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。一例示的な実施例によって示された全方位視差ビューの合成装置のブロック図である。一例示的な実施例によって示された装置のブロック図である。

ここで、例示的な実施例について詳細に説明し、その例は図面に示す。特に明記しない限り、以下の説明が添付の図面に関する場合、異なる図面の同じ数字は同じまたは類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。

本開示で提供される全方位視差ビューの合成方法は、水平方向と垂直方向間の原画像の視差をそれぞれ取得し、水平方向と垂直方向間の視差に従って原画像の対応する画素を決定し、複雑な自然シーンに適用されることができ、合成効果も良い。

図１は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートであり、図１に示されたように、全方位視差ビューの合成方法は、次のステップを含む。

ステップＳ１１において、原画像データのペア間の視差を取得する。

ここで、前記視差は、水平方向の視差および垂直方向の視差を含む。本開示の実施例において、水平方向の視差は

で示され、垂直方向の視差は

で示される。

原画像データのペアを取得し、ここで、原画像データのペアは、第１原画像および第２原画像を含み、第１原画像と第２原画像は、異なる視点から撮影された同じ物体の原画像データのペアである。図２に示されたように、第１原画像および第２原画像の画素座標に従って、第２原画像の画素座標が第１原画像の画素座標に対応すると決定し、２つの画素座標間の水平方向の視差および垂直方向の視差を決定する。

ステップＳ１２において、原画像データのペア間のベースラインに基づいてターゲット視点を決定する。

ここで、ベースラインは、原画像データのペア間の２つの撮影ポイントの接続線である。ターゲット視点は、原画像データのペアのベースライン上の任意のポイントである。

ステップＳ１３において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点のターゲット画素を取得する。

ターゲット視点を決定した後に、画素座標でのターゲット視点の座標値を取得し、ターゲット視点の座標値および取得した水平方向の視差および垂直方向の視差に従って、第１原画像におけるターゲット視点の画素の画素座標を決定し、決定された第１原画像におけるターゲット視点の画素の画素座標に従って対応する画像を取得する。

ステップＳ１４において、ターゲット画素に従って、ターゲット視点のターゲットビューを合成する。

ターゲットビューは複数の画素を含み、第１原画像に基づいてすべての画素を取得した後に、画素に従ってターゲットビューを合成する。

上述の方法において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点画素の対応する画像を決定することは、原画像データにおけるターゲット視点の対応する画像を決定する精度を向上させ、ターゲットビューの精度をさらに向上させる。

本開示の実施例は、本開示に関する全方位視差ビューの合成方法を、実際の応用と組み合わせて以下に説明する。

図３は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図３に示されたように、原画像データのペア間の視差を取得することは、ステップＳ３１およびステップＳ３２を含む。

ステップＳ３１において、原画像データのペアを取得する。

ステップＳ３２において、原画像データのペアを事前に構築された視差予測モデルに入力して、原データのペア間の水平方向の視差および垂直方向の視差を取得する。

原データのペア、即ち、異なる視点から撮影された第１原画像および第２原画像を取得する。事前に構築された視差予測モデルに、取得された第１原画像および第２原画像を入力して、第１原画像と第２原画像との間の水平方向の視差および垂直方向の視差をさらに取得する。図４に示されたように、視差予測モデルに、異なる視点から撮影された同じ物体のステレオ画像の原画像データのペアを入力して、視差予測モデル深層ニューラルネットワークに従って、原画像データに対して畳み込み演算を実行し、前記畳み込み演算は、畳み込みアップサンプリングおよび畳み込みダウンサンプリングを含む。バイリニアサンプラを介してパラメータ

を生成し、ここで、

であり、パラメータ

は、ターゲット視点が原画像データの第１原画像に近いか第２原画像に近いかを決定するために使用される。当該パラメータを視差予測モデルの予算に追加して、水平方向および垂直方向の視差マップを取得する。

本開示の一実施形態において、以下の方式を採用して、視差予測モデルを構築する。

図５は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図５に示されたように、視差予測モデルを構築する方法は、ステップＳ５１～ステップＳ５５を含む。

ステップＳ５１において、両眼ステレオ画像データセットを決定し、両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む。

ここで、両眼ステレオ画像データセットは、実際のシーンを有する画像データを選択することができる。選択された当該画像データの実際のシーン環境は多様である。例えば、本開示の実施例は、ＫＩＴＴＩデータセットを採用して、両眼ステレオ画像データセットを取得する。

ＫＩＴＴＩデータセットは、ドイツカールスルーエ工科大学とトヨタ米国技術研究所によって共同に創設されたものである。当該データセットは、ステレオ画像のテスト（ｓｔｅｒｅｏ）、オプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）、視覚オドメトリ（ｖｉｓｕａｌｏｄｏｍｅｔｒｙ）、３Ｄ物体検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）および３Ｄトラッキング（ｔｒａｃｋｉｎｇ）などのコンピュータビジョン技術の車載環境での性能をテストするために使用される。ＫＩＴＴＩには、都市部、農村部および高速道路などのシーンから収集された実際の画像データが含まれ、各画像には最大１５台の車および３０人の歩行者が含まれ、様々な程度のオクルージョンとトランケーションがある。

ステップＳ５２において、両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定する。

取得された両眼ステレオ画像データセットに対して、２つのカテゴリの比率関係に従って、例えば、トレーニングデータセットおよびテストデータセットを７：３または８：２の比率に応じて分割して、トレーニングデータセットおよびテストデータセットを取得することができる。

ステップＳ５３において、トレーニングデータセットに対して畳み込みニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得する。

深層ニューラルネットワーク（ＤｉｓｐＮｅｔ）フレームワーク構造を構築し、図６に示されたように、当該畳み込みニューラルネットワークは、任意の画像データのペア間の視差を計算することができ、画像データのペアの視差を計算する場合、水平方向の視差および垂直方向の視差としてそれぞれ計算することができる。水平方向の視差および垂直方向の視差を出力することができる視差予測トレーニングモデルを取得する。

ステップＳ５４において、損失関数を決定し、損失関数およびテストセットのデータに従って視差予測モデルを検出して、ターゲット視点生成パラメータを取得する。

上述の取得された視差予測トレーニングモデルに従って、取得且つ出力された視差ビューと、既存の視差ビューを比較して、視差予測トレーニングモデルによって取得且つ出力された視差ビューと既存の視差ビューの誤差を決定し、損失関数を決定する。決定された損失関数および上述の取得されたテストデータセットに従って、視差トレーニング模型に対して出力結果の検出を実行して、ターゲット視点生成パラメータを決定し、

で示され、ここで、

である。決定されたターゲット視点生成パラメータ

は、ターゲット視点のターゲットビューが第１原画像により近いか第２原画像により近いかを決定するために使用される。

ここで、ターゲット視点生成パラメータ

の条件下で、原画像データにおけるターゲット視点画素座標とターゲット視点画素の画素の座標関係は、以下の通りである。

ここで、

は、ターゲット視点生成パラメータ

の条件下のターゲット視点の水平座標であり、

は、ターゲット視点生成パラメータ

の条件下のターゲット視点の垂直座標であり、

は、原画像データの中心にあるターゲット視点画素の対応する画像の水平座標であり、

は、ターゲット視点生成パラメータ

の条件下の水平方向の視差であり、

は、原画像データの中心にあるターゲット視点画素の対応する画像の垂直座標であり、

は、ターゲット視点生成パラメータ

の条件下の垂直方向の視差である。

ここで、

で示さることもでき、

で示されることもできる。

ステップＳ５５において、損失関数およびターゲット視点生成パラメータに基づいて、視差予測トレーニングモデルをデバッグして視差予測モデルを取得する。

上述の決定された損失関数およびターゲット視点生成パラメータを視差予測トレーニングモデルに設定することにより、画像データのペア間の水平方向の視差および垂直方向の視差を予測することができる視差予測モデルを取得する。

本開示の一例示的な実施例において、以下の関数を使用して以上に関する損失関数を決定する。

本開示の実施形態において、損失関数は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差（ＭＡＥ：ｔｈｅＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ）、ピクセル誤差および構造的類似度（ＳＳＩＭ：ｔｈｅＳｔｒｕｃｔｕｒａｌｓｉｍｉｌａｒｉｔｙｉｎｄｅｘＭｅａｓｕｒｅ）で構成される。

損失関数は、以下の関数で示される。

ここで、

は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差であり、

は、ピクセル誤差であり、即ち、ピーク信号対雑音比であり、

は、構造的類似度であり、

は、予測の視差ビューの画素であり、

は、実際の視差ビューの画素である。

は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差的重み値であり、

は、ピクセル誤差の重み値であり、

は、構造的類似度の重み値である。

は、以下の関数で示される。

ここで、

は、両眼ステレオ画像データセットにおける画像の幅であり、

は、両眼ステレオ画像データセットにおける画像の高さであり、

は、予測の視差ビューの画素の座標であり、

は、実際の視差ビューの画素の座標である。

ピクセル誤差は、誤差に敏感な画質評価に基づき、客観的な画像評価指標であり、ピーク信号対雑音比（ＰＳＮＲ：ｔｈｅＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）であり、値が大きいほど、歪みは小さくなる。以下の関数で示される。

ここで、

は、視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均二乗誤差であり、ｎは各画素のビット数である。

視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均二乗誤差は、以下の関数で示される。

構造的類似度は、全参照的な画質評価指標であり、当該構造的類似度は、輝度、コントラストおよび構造の３つの側面から画像の類似度を測定することができる。

の値が大きいほど、画像の歪みは小さくなる。

は、以下の関数で示される。

ここで、

は、輝度であり、

は、コントラストであり、

は、構造であり、

は、予測の視差ビューの画素であり、

は、実際の視差ビューの画素である。

輝度

は、以下の関数で示される。

は、予測の視差ビューの画素の平均値であり、

は、実際の視差ビューの画素の平均値であり、

は、定数である。

コントラスト

は、以下の関数で示される。

は、予測の視差ビューの画素の分散であり、

は、実際の視差ビューの画素の分散であり、

は、定数である。

構造

は、以下の関数で示される。

は、予測の視差ビューの画素と実際の視差ビューの画素間の共分散であり、

は、予測の視差ビューの画素と実際の視差ビューの画素間の水平方向の共分散であり、

は、予測の視差ビューの画素と実際の視差ビューの画素間の垂直方向の共分散であり、

は、定数である。

図７は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図７に示されたように、本開示の一例示的な実施例において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点の画素を取得する方法は、ステップＳ７１～ステップＳ７４を含む。

ステップＳ７１において、ターゲット視点を取得する。

上述の実施例から分かるように、原画像データのペアのベースライン上でターゲット視点を決定し、当該ターゲット視点を取得し、さらに、ターゲット視点の画素座標を取得する。

ステップＳ７２において、ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定する。

ターゲット視点の画素座標および取得された水平方向の視差に従って、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離、即ち、ターゲット視点が水平方向に移動するために必要な距離を決定する。

ステップＳ７３において、ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定する。

ターゲット視点の画素座標および取得された垂直方向の視差に従って、ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離、即ち、ターゲット視点が垂直方向に移動するために必要な距離を決定する。

ステップＳ７４において、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得する。

上述の実施例で取得したターゲット視点から原画像データの対応する画素までの水平方向の距離および垂直方向の距離に従って、原画像データにおけるターゲット視点画素座標対応するターゲット画素座標を決定し、ターゲット画素座標に従って、ターゲット画素を決定して取得する。

上述の方法に応じて、ターゲット視点を取得した後に、ターゲット視点の画素座標を決定し、視差予測モデルによって出力された水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点の対応する画像の座標を計算する。さらに、本開示では、原画像データのペアの第１原画像を例として、予測して取得した水平方向の視差および垂直方向の視差に従って、第１原画像におけるターゲット視点画素の対応する画素を計算する。

図８は、一例示的な実施例によって示された全方位視差ビューの合成方法のフローチャートである。図８に示されたように、本ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素を計算して取得する方法は、ステップＳ８１～ステップＳ８３を含む。

ステップＳ８１において、ターゲット視点の水平方向での原画像データにおける対応するターゲット画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定する。

ターゲット視点の画素座標を決定し、水平方向の視差および垂直方向の視差に従って、ターゲット視点画素座標を計算して、原画像におけるターゲット視点の画素座標を取得し、以下の式で示される。

ここで、

は、ターゲットビューの画素座標であり、

は、水平方向の視差であり、

は、垂直方向の視差であり、

は、原画像データ中対応する画像座標であり、

は、画素座標のターゲットビューの画素座標に基づく原画像の座標である。

原画像データにおけるターゲット画素の対応する画像座標を決定した後に、バイリニア補間法を使用して、原画像データにおけるターゲット画素の対応する画像座標に隣接する４つの画素を決定し、隣接する４つの画素の座標を取得し、前記４つの画素は、第１隣接画素

、第２隣接画素

、第３隣接画素

第４隣接画素

である。

ステップＳ８２において、隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定し、すべての隣接画素に対応する重み値の和は１である。

４つの隣接画素の重み値を決定し、それぞれ、第１重み

、第２重み

、第３重み

、第４重み

であり、４つの隣接画素から原画像データにおけるターゲット画素の対応する画像までの距離に従って４重みの比率関係を決定し、且つ

である。

ステップＳ８３において、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する。

隣接するピクセルを決定した後に、原画像データにおけるターゲット視点の対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する。

ここで、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点画素を計算して取得する式は、次の通りである。

ここで、

は、ターゲット視点の合成ビューであり、

であり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素である。

同じ概念に基づいて、本開示の実施例は、全方位視差ビューの合成装置をさらに提供する。

本開示の実施例で提供される全方位視差ビューの合成装置は、上述の機能を実現するために、各機能を実行することに対応するハードウェア構造および／またはソフトウェアモジュールを含むことを理解すべきである。本開示の実施例に開示される各例示のユニットおよびアルゴリズムステップを含み合わせることにより、本開示の実施例は、ハードウェア、またはハードウェアとコンピュータソフトウェアの組み合わせの形式で実現されることができる。特定の機能がハードウェアで実行されるかコンピュータソフトウェア駆動のハードウェアで実行されるかは、技術的解決策の特定の応用および設計の制約条件に依存する。当業者は、各特定の応用に対して異なる方法を使用して説明された機能を実現することができるが、このような実現は本開示の実施例の範囲を超えると見なされるべきではない。

図９は、一例示的な実施例によって示された全方位視差ビューの合成装置のブロックである。図９を参照すると、当該装置は、取得モジュール９０１、決定モジュール９０２および合成モジュール９０３を含む。

取得モジュール９０１は、原画像データのペア間の視差を取得するように構成され、ここで、視差は、水平方向の視差および垂直方向の視差を含む。決定モジュール９０２は、原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される。取得モジュールは、さらに、水平方向の視差および垂直方向の視差に従って、原画像データにおける前記ターゲット視点のターゲット画素を取得するように構成される。合成モジュール９０３は、ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成するように構成される。

上述の装置において、水平方向の視差および垂直方向の視差に従って、原画像データにおけるターゲット視点画素の対応する画像を決定することは、原画像データにおけるターゲット視点の対応する画像を決定する精度を向上させ、ターゲットビューの精度をさらに向上させる。

本開示の一例示的な実施例において、取得モジュール９０１は、
原画像データのペアを取得すること、事前に構築された視差予測モデルに、原画像データのペアを入力して、前記原データのペア間の水平方向の視差および垂直方向の視差を取得することを採用して、原画像データのペア間の視差を取得する。

本開示の一例示的な実施例において、装置は、構築モジュールをさらに含み、構築モジュールは、
両眼ステレオ画像データセットを決定することであって、両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含むこと、両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、損失関数を決定し、損失関数およびテストセットのデータに従って視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、損失関数およびターゲット視点生成パラメータに基づいて、視差予測トレーニングモデルをデバッグして視差予測モデルを取得することを採用して、視差予測モデルを事前に構築する。

本開示の一例示的な実施例において、決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成される。

本開示の一例示的な実施例において、決定モジュールは、
ターゲット視点を取得すること、ターゲット視点および水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、ターゲット視点および垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することを採用して、原画像データにおけるターゲット視点のターゲット画素を決定する。

本開示の一例示的な実施例において、決定モジュールは、。

前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、隣接画素と、原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であること、原画像データにおけるターゲット視点に対応する画素の隣接画素および隣接画素に対応する重み値に従って、ターゲット視点に対応するターゲット画素を計算して取得することを採用して、原画像データにおけるターゲット視点のターゲット画素を決定する。

本開示の一例示的な実施例において、決定モジュールは、計算ユニットをさらに含み、計算ユニットは、

を採用して、ターゲット画素を決定する。

ここで、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素である。

上述の実施例の装置に関して、ここで、各モジュールが動作を実行する具体的な方法は、既に、前記方法に関する実施例で詳細に説明されており、ここでは詳細に説明しない。

図１０は、一例示的な実施例によって示された全方位視差ビューの合成装置１０００のブロック図である。例えば、装置１０００は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。

図１０を参照すれば、装置１０００は、処理コンポーネント１００２、メモリ１００４、電力コンポーネント１００６、マルチメディアコンポーネント１００８、オーディオコンポーネント１０１０、入力／出力（Ｉ／Ｏ）インターフェース１０１２、センサコンポーネント１０１４、および通信コンポーネント１０１６のうちの１つまたは複数のコンポーネットを含むことができる。

処理コンポーネント１００２は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置１０００の全般的な操作を制御する。処理コンポーネント１００２は、前記方法のステップの全てまたは一部を完了するために、１つまたは複数のプロセッサ１０２０を含んで命令を実行することができる。加えて、処理コンポーネント１００２は、処理コンポーネント１００２と他のコンポーネントの間の相互作用を容易にするために、１つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント１００２は、マルチメディアコンポーネント１００８と処理コンポーネント１００２との間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。

メモリ１００４は、機器１０００での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置１０００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ１００４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。

電力コンポーネント１００６は、装置１０００の様々なコンポーネントに電力を提供する。電力コンポーネント１００６は、電力管理システム、１つまたは複数の電源、及び装置１０００の電力の生成、管理および分配に関する他のコンポーネントを含むことができる。

マルチメディアコンポーネント１００８は、前記バッテリの充電装置１０００とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施形態において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント１００８は、一つのフロントカメラ及び／またはリアカメラを含む。機器１０００が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び／またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。

オーディオコンポーネント１０１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント１０１０は、１つのマイクロフォン（ＭＩＣ）を含み、装置１０００が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ１００４にさらに格納されてもよく、または通信コンポーネント１０１６を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント１０１０は、オーディオ信号を出力するためのスピーカをさらに含む。

Ｉ／Ｏインターフェース１０１２は、処理コンポーネント１００２と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。

センサコンポーネント１０１４は、装置１０００に各態様の状態の評価を提供するための１つまたは複数のセンサを含む。例えば、センサコンポーネント１０１４は、機器１０００のオン／オフ状態と、装置１０００のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント１０１４は、装置１０００または装置１０００のコンポーネントの位置の変化、ユーザとの装置１０００の接触の有無、装置１０００の向きまたは加速／減速、及び装置１０００の温度の変化も検出することができる。センサコンポ―ネット１０１４は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント１０１４は、撮像用途で使用するためのＣＭＯＳまたはＣＣＤ画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント１０１４は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
通信コンポーネント１０１６は、装置１０００と他の装置の間の有線または無線通信を容易にするように構成される。装置１０００は、ＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント１０１６は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント１０１６は、短距離通信を促進するために、近距離通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて具現することができる。

例示的な実施例において、装置１０００は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができ、前記方法を実行するように構成される。

例示的な実施例において、命令を含むメモリ１００４などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置１０００のプロセッサ１０２０によって実行されて前記方法を完了することができる。例えば、前記非一時的なコンピュータ読み取り可能な記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスクおよび光学データ記憶装置などであってもよい。

本開示の「複数」は２つまたは２つ以上を指し、他の量指定子はこれと類似することをさらに理解することができる。「および／または」は、関連付けられたオブジェクトを説明する関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合など３つの場合を表すことができる。文字「／」は、一般的に、コンテキストオブジェクトが「または」の関係であることを示す。単数形の「１つ」、「前記」および「前記」は、コンテキストで他の意味を明確に示さない限り、複数形も含むことを意図する。

用語「第１」、「第２」などは様々な情報を説明するために使用されるが、これらの情報はこれらの用語に限定されないことをさらに理解されたい。これらの用語は、同じタイプの情報をお互いに区別するために使用され、特定の順序または重要性を示すものではない。実際に、「第１」、「第２」などの表現は、お互いに交換して使用することができる。例えば、本開示の範囲から逸脱することなく、第１の情報は第２の情報とも称し得、同様に、第２の情報は第１の情報とも称し得る。
本開示の実施例で、図面において特定の順序で動作を説明したが、示された特定の順序または連続した順序に従って、動作が実行されることを要求するものとして理解されるべきではないことをさらに理解することができ、または、示された全ての動作を実行して、目的の結果を取得する。特定の環境では、マルチタスクと並列処理が有利な場合がある。

当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本開示の他の実施形態を容易に想到し得るであろう。本出願は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。

本開示は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。

Claims

全方位視差ビューの合成方法であって、
原画像データのペア間の視差を取得することであって、前記視差は、水平方向の視差および垂直方向の視差を含む、ことと、
前記原画像データのペア間のベースラインに基づいてターゲット視点を決定することと、
前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することと、
前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成することと
を含み、前記原画像データのペア間の視差を取得することは、
前記原画像データのペアを取得することと、
前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得することと
を含み、
前記方法は、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
を採用して、視差予測モデルを事前に構築することをさらに含むことを特徴とする、全方位視差ビューの合成方法。
前記損失関数を決定することは、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定することを含むことを特徴とする、
請求項１に記載の全方位視差ビューの合成方法。
前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得することは、
前記ターゲット視点を取得することと、
前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定することと、
前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定することと、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおける前記ターゲット視点に対応するターゲット画素を決定して取得することと
を含むことを特徴とする、
請求項１に記載の全方位視差ビューの合成方法。
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得することは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定することと、
前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１であることと、
前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することと
を含むことを特徴とする、
請求項３に記載の全方位視差ビューの合成方法。
前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得することは、

で実現され、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素の重み値であり、

は、ターゲット視点の第２隣接ポイントの画素の重み値であり、

は、ターゲット視点の第３隣接ポイントの画素の重み値であり、

は、ターゲット視点の第４隣接ポイントの画素の重み値であり、且つ

であり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素であることを特徴とする、
請求項４に記載の全方位視差ビューの合成方法。
全方位視差ビューの合成装置であって、
原画像データのペア間の視差を取得するように構成される取得モジュールであって、前記視差は、水平方向の視差および垂直方向の視差を含む、取得モジュールと、
前記原画像データのペア間のベースラインに基づいてターゲット視点を決定するように構成される決定モジュールと、
前記水平方向の視差および前記垂直方向の視差に従って、前記原画像データにおける前記ターゲット視点のターゲット画素を取得するように構成される取得モジュールと、
前記ターゲット画素に従って、前記ターゲット視点のターゲットビューを合成するように構成される合成モジュールと
を含み、前記取得モジュールは、
前記原画像データのペアを取得すること、
前記原画像データのペアを事前に構築された視差予測モデルに入力して、前記原画像データのペア間の水平方向の視差および垂直方向の視差を取得すること
を採用して、前記原画像データのペア間の視差を取得し、
前記装置は、構築モジュールをさらに含み、前記構築モジュールは、
両眼ステレオ画像データセットを決定することであって、前記両眼ステレオ画像データセットは、両眼ステレオ画像の水平方向データおよび垂直方向データを含む、こと、
前記両眼ステレオ画像データセットに基づいて、視差予測モデルのトレーニングデータセットおよびテストデータセットを決定すること、
前記トレーニングデータセットに対して深層ニューラルネットワークトレーニングを実行して、視差予測トレーニングモデルを取得すること、
損失関数を決定し、前記損失関数およびテストセットのデータに従って前記視差予測モデルを検出して、ターゲット視点生成パラメータを取得すること、
前記損失関数および前記ターゲット視点生成パラメータに基づいて、前記視差予測トレーニングモデルをデバッグして視差予測モデルを取得すること
を採用して、視差予測モデルを構築することを特徴とする、全方位視差ビューの合成装置。
前記決定モジュールは、さらに、
取得された視差予測モデルによって出力された両眼ステレオ画像データの視差とトレーニングセットデータにおける両眼ステレオ画像データの視差の平均絶対誤差、ピクセル誤差および構造的類似度に基づいて、損失関数を決定するように構成されることを特徴とする、
請求項６に記載の全方位視差ビューの合成装置。
前記決定モジュールは、
前記ターゲット視点を取得すること、
前記ターゲット視点および前記水平方向の視差に従って、前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離を決定すること、
前記ターゲット視点および前記垂直方向の視差に従って、前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離を決定すること、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応するターゲット画素を決定して取得すること
を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
請求項６に記載の全方位視差ビューの合成装置。
前記決定モジュールは、
前記ターゲット視点の水平方向での原画像データにおける対応する画素までの距離および前記ターゲット視点の垂直方向での原画像データにおける対応する画素までの距離に従って、前記原画像データにおけるターゲット視点に対応する画素の隣接画素を決定すること、
前記隣接画素と、前記原画像データにおけるターゲット視点に対応する画素との間の距離の線形比例関係に従って、各隣接画素に対応する重み値を決定することであって、すべての隣接画素に対応する重み値の和は１である、こと、
前記原画像データにおけるターゲット視点に対応する画素の隣接画素および前記隣接画素に対応する重み値に従って、前記ターゲット視点に対応するターゲット画素を計算して取得すること
を採用して、前記原画像データにおける前記ターゲット視点のターゲット画素を決定することを特徴とする、
請求項８に記載の全方位視差ビューの合成装置。
前記決定モジュールは、計算ユニットをさらに含み、前記計算ユニットは、

で、前記ターゲット視点に対応するターゲット画素を決定し、

は、ターゲット視点の合成ビューであり、

は、ターゲット視点の第１隣接ポイントの画素の重み値であり、

は、ターゲット視点の第２隣接ポイントの画素の重み値であり、

は、ターゲット視点の第３隣接ポイントの画素の重み値であり、

は、ターゲット視点の第４隣接ポイントの画素の重み値であり、且つ

であり、

は、ターゲット視点の第１隣接ポイントの画素であり、

は、ターゲット視点の第２隣接ポイントの画素であり、

は、ターゲット視点の第３隣接ポイントの画素であり、

は、ターゲット視点の第４隣接ポイントの画素であることを特徴とする、
請求項９に記載の全方位視差ビューの合成装置。
全方位視差ビューの合成装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと
を含み、
前記プロセッサは、請求項１ないし５のいずれか一項に記載の全方位視差ビューの合成方法を実行するように構成されることを特徴とする、全方位視差ビューの合成装置。
非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体の命令が電子機器のプロセッサによって実行されるとき、前記電子機器が請求項１ないし５のいずれか一項に記載の全方位視差ビューの合成方法を実行するようにする、非一時的なコンピュータ読み取り可能な記憶媒体。