JP7108125B2 - 画像視差推定 - Google Patents

画像視差推定 Download PDF

Info

Publication number
JP7108125B2
JP7108125B2 JP2021502923A JP2021502923A JP7108125B2 JP 7108125 B2 JP7108125 B2 JP 7108125B2 JP 2021502923 A JP2021502923 A JP 2021502923A JP 2021502923 A JP2021502923 A JP 2021502923A JP 7108125 B2 JP7108125 B2 JP 7108125B2
Authority
JP
Japan
Prior art keywords
viewpoint
information
parallax
image
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021502923A
Other languages
English (en)
Other versions
JP2021531582A (ja
Inventor
建萍 石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2021531582A publication Critical patent/JP2021531582A/ja
Application granted granted Critical
Publication of JP7108125B2 publication Critical patent/JP7108125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本出願は、コンピュータビジョン技術分野に関し、具体的に、画像視差推定方法および装置、並びに記憶媒体に関する。
視差推定は、コンピュータビジョンの基本的な研究課題であり、例えば深度予測、シーン理解など諸多の分野に深く応用されている。ほとんどの方法では、視差推定タスクをマッチングの問題とし、この面から、これらの方法は、安定した信頼できる特徴で画像ブロックを示し、ステレオ画像から類似する画像ブロックをマッチングとして選択し、視差値を算出する。
本出願は、画像視差推定に係る技術案を提案している。
第1態様として、本出願の実施例により、対象シーンの第1視点画像および第2視点画像を取得することと、前記第1視点画像に対して特徴抽出処理を行って第1視点特徴情報を取得することと、前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得することと、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得することと、を含む、画像視差推定方法が提案される。
上記の技術案において、選択的には、前記方法は、前記第2視点画像に対して特徴抽出処理を行って第2視点特徴情報を取得することと、前記第1視点特徴情報および前記第2視点特徴情報に基づいて相関処理を行って前記相関情報を取得することと、をさらに含む。
上記の技術案において、選択的には、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との前記相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得することは、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報および前記相関情報に対して混合処理を行って混合特徴情報を取得することと、前記混合特徴情報に基づいて視差予測情報を取得することと、を含む。
上記の技術案において、選択的には、前記画像視差推定方法は、視差推定ニューラルネットワークにより実現され、前記方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含む。
上記の技術案において、選択的には、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得することと、前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得することと、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
上記の技術案において、選択的には、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
上記の技術案において、選択的には、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、あるいは、前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
上記の技術案において、選択的には、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得することと、前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
上記の技術案において、選択的には、前記第1視点画像と前記第2視点画像とは、ラベルされた視差情報に対応し、前記方法は、前記視差予測情報および前記ラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることをさらに含む。
上記の技術案において、選択的には、前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記ラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
第2態様として、本出願の実施例により、対象シーンの第1視点画像および第2視点画像を取得するための画像取得モジュールと、前記第1視点画像および前記第2視点画像に基づいて視差予測情報を取得するための視差推定ニューラルネットワークと、を備え、前記視差推定ニューラルネットワークは、前記第1視点画像に対して特徴抽出処理を行って第1視点特徴情報を取得するための一次特徴抽出モジュールと、前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得するためのセマンティック特徴抽出モジュールと、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得するための視差回帰モジュールと、を含む画像視差推定装置が提案される。
上記の技術案において、選択的には、前記一次特徴抽出モジュールはさらに、前記第2視点画像に対して特徴抽出処理を行って第2視点特徴情報を取得するために用いられ、前記視差回帰モジュールは、前記第1視点特徴情報および前記第2視点特徴情報に基づいて相関処理を行って前記相関情報を取得するための相関特徴抽出モジュールをさらに含む。
上記の技術案において、選択的には、前記視差回帰モジュールはさらに、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得し、前記混合特徴情報に基づいて前記視差予測情報を取得するために用いられる。
上記の技術案において、選択的には、前記装置は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第1ネットワークトレーニングモジュールをさらに備える。
上記の技術案において、選択的には、前記第1ネットワークトレーニングモジュールはさらに、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得し、前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得し、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
上記の技術案において、選択的には、前記第1ネットワークトレーニングモジュールはさらに、前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定し、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
上記の技術案において、選択的には、前記第1ネットワークトレーニングモジュールはさらに、前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整し、あるいは、前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
上記の技術案において、選択的には、前記第1ネットワークトレーニングモジュールはさらに、前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得し、前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失値を特定し、前記視差予測情報に基づいて平滑化損失値を特定し、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
上記の技術案において、選択的には、前記装置は、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第2ネットワークトレーニングモジュールをさらに備え、前記第1視点画像と前記第2視点画像は、ラベルされた視差情報に対応する。
上記の技術案において、選択的には、前記第2ネットワークトレーニングモジュールはさらに、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定し、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
第3態様として、本出願の実施例により、メモリと、プロセッサと、メモリに格納され且つプロセッサ上で実行可能なコンピュータプログラムと、を備え、前記プログラムが前記プロセッサによって実行される際に、本出願の実施例に記載の画像視差推定方法のステップが実現される、画像視差推定装置が提案される。
第4態様として、本出願の実施例により、記憶媒体であって、前記記憶媒体にはコンピュータプログラムが格納されており、前記コンピュータプログラムがプロセッサによって実行される際に、本出願の実施例に記載の画像視差推定方法のステップが前記プロセッサによって実行される、記憶媒体が提案される。
本出願で提案される技術案は、対象シーンの第1視点画像および第2視点画像を取得し、前記第1視点画像に対して特徴抽出処理を行って第1視点特徴情報を取得し、前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得し、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像の視差予測情報を取得することにより、視差予測の正確さを向上させることができる。
本出願の実施例で提案される画像視差推定方法の実現流れの概略図である。
本出願の実施例で提案される視差推定システムのアーキテクチャの概略図である。
本出願の実施例で提案されるKITTI Stereoデータ集合に対しての既存の推定方法による効果と、本出願の推定方法による効果との比較図である。
本出願の実施例で提案されるKITTI Stereoテスト集合での教師あり定性的な結果を示しており、そのうち、図4Aは、KITTI 2012テストデータの定性的な結果、図4Bは、KITTI 2015テストデータの定性的な結果である。
本出願の実施例で提案されるCityScapes検証集合での教師無し定性的な結果である。
本出願の実施例で提案される画像視差推定装置の構成構造の概略図である。
本出願をよりよく説明するために、以下、視差推定方法の例示を幾つか紹介する。
視差推定は、コンピュータビジョン中の基本的な課題である。それは広く応用され、深度予測、シーン理解、自動運転を含む。視差推定の主な過程は、ステレオ画像ペアの左右画像からマッチングした画素を見付けることであり、マッチングした画素間の距離は視差である。ほとんどの視差推定方法は主として、画像ブロックを示すための信頼できる特徴を設定し、その次に左右画像からマッチングした画像ブロックを選択して、視差を算出するものである。これらの方法のうち、大部分は教師有り学習方式でニューラルネットワークをトレーニングして視差を予測し、一部はトレーニングに教師無し方式を採用しようとする。
最近、深度ニューラルネットワークの発展に伴い、視差推定の性能も大幅に向上することとなる。画像の特徴を抽出する際の深度ニューラルネットワークの良好な堅牢性のおかげで、より一層精確かつ信頼できるマッチング画像ブロックの検索および位置決めを実現することが可能となる。
しかしながら、特定的な局所的検索範囲が与えられ、且つ深度学習自体が大きな受容野を持っているにもかかわらず、局所的曖昧性(local ambiguity)の問題の克服は依然として困難であり、局所的曖昧性は、主として画像中のテクスチャ無し領域に起因するものである。例えば、道路の中心、車両の中心、強光領域、陰影領域への視差予測が正しくない場合が多くあり、これは主に、これらの領域が十分なテクスチャ情報を欠如し、光度整合性損失(Photometric Consistency Loss)がニューラルネットワークによる正しいマッチング位置の見付けを援助するのに十分でないためである。そして、このような問題は、教師あり学習方式または教師無し学習方式でニューラルネットワークのトレーニングにおいて遭遇するものと思われる。
このことを基にすると、本出願は、セマンティック情報を利用した画像視差推定に係る技術案を提案する。
以下、本出願の技術案について、図面と具体的な実施例に基づいて更に詳しく説明する。
本出願の実施例では画像視差推定方法が提案されており、図1に示すように、前記方法は、主として次のステップを含む。
ステップ101:対象シーンの第1視点画像および第2視点画像を取得する。
ここで、前記第1視点画像と前記第2視点画像は、両眼視システム中の2台のビデオカメラまたは2台のカメラによって同一時刻に収集された同じ時空に関するシーン画像である。
例えば、前記第1視点画像は、前記両眼視システム中の第1ビデオカメラによって収集された画像であり、前記第2視点画像は、前記両眼視システム中の第2ビデオカメラによって収集された画像であり得る。
第1視点画像と第2視点画像は、同じシーンについて異なる視点で収集された画像を示す。第1視点画像と第2視点画像はそれぞれ、左視点画像と右視点画像であり得る。具体的には、前記第1視点画像は左視点画像であり、それに応じて前記第2視点画像は右視点画像であってもよいし、前記第1視点画像は右視点画像であり、それに応じて前記第2視点画像は左視点画像であってもよい。本出願の実施例では、第1視点画像と第2視点画像の具現化について限定しない。
ここで、前記シーンには、運転援助シーン、ロボット追跡シーン、ロボット位置決めシーンなどが含まれる。本出願では、これを限定しない。
ステップ102:前記第1視点画像に対して特徴抽出処理を行って、第1視点特徴情報を取得する。
ステップ102は、畳み込みニューラルネットワークにより具現化されることができる。例えば、前記第1視点画像を視差推定ニューラルネットワークに入力して処理することができ、説明の便宜上、以下、当該視差推定ニューラルネットワークを、SegStereoネットワークと命名する。
第1視点画像は、視差推定ニューラルネットワーク中の特徴抽出処理用の第1サブネットワークへの入力として用いられる。具体的には、第1視点画像を前記第1サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第1視点特徴情報を取得する。
ここで、前記第1視点特徴情報は第1視点一次特徴マップであり、あるいは、第1視点特徴情報および第2視点特徴情報は3次元テンソルで、少なくとも1つのマトリックスを含むようにしてもよく、本開示の実施例では、第1視点特徴情報の具現化について限定しない。
視差推定ニューラルネットワークの特徴抽出ネットワークまたは畳み込みサブネットワークにより、第1視点画像の特徴情報または一次特徴マップを抽出する。
ステップ103:前記第1視点画像に対してセマンティックセグメンテーション処理を行って、第1視点セマンティックセグメンテーション情報を取得する。
SegStereoネットワークには少なくとも2つのサブネットワークが含まれ、それぞれが第1サブネットワークと第2サブネットワークと記されており、前記第1サブネットワークは、特徴抽出ネットワークであり、前記第2サブネットワークは、セマンティックセグメンテーションネットワークであり得る。前記特徴抽出ネットワークによれば、視点一次特徴マップが得られ、前記セマンティックセグメンテーションネットワークによれば、セマンティック特徴マップが得られる。例示的には、第1サブネットワークはPSPNet-50(Pyramid Scene Parsing Network)の少なくとも一部により実現でき、第2サブネットワークの少なくとも一部もPSPNet-50により実現でき、換言すると、第1サブネットワークと第2サブネットワークはPSPNet-50の一部の構造を共用できる。ただし、本出願の実施例では、SegStereoネットワークの具現化について限定しない。
第1視点画像をセマンティックセグメンテーションネットワークに入力してマンティックセグメンテーション処理を行って、第1視点セマンティックセグメンテーション情報を取得するようにしてもよい。
第1視点特徴情報をセマンティックセグメンテーションネットワークに入力してセマンティックセグメンテーション処理を行って、第1視点セマンティックセグメンテーション情報を取得するようにしてもよい。それに応じて、前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得することは、第1視点特徴情報に基づいて第1視点セマンティックセグメンテーション情報を取得することを含む。
第1視点セマンティックセグメンテーション情報は、3次元テンソルまたは第1視点セマンティック特徴マップであってもよく、本開示の実施例では、第1視点セマンティックセグメンテーション情報の具現化について限定しない。
第1視点一次特徴マップは、視差推定ニューラルネットワーク中のセマンティック情報抽出処理用の第2サブネットワークへの入力として用いられる。具体的には、第1視点特徴情報または第1視点一次特徴マップを第2サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第1視点セマンティックセグメンテーション情報を取得する。
ステップ104:前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得する。
第1視点画像と第2視点画像に対して相関処理を行って、第1視点画像と第2視点画像との相関情報を取得するようにしてもよい。
第1視点特徴情報と第2視点特徴情報に基づいて相関処理を行って、前記第1視点画像と前記第2視点画像との相関情報を取得するようにしてもよく、前記第2視点特徴情報は、前記第2視点画像に対して特徴抽出処理を行うことにより取得されたものである。第2視点特徴情報は第2視点一次特徴マップであり、あるいは、第2視点特徴情報は3次元テンソルであり、且つ少なくとも1つのマトリックスを含むようにしてもよい。本開示の実施例では、第2視点特徴情報の具現化について限定しない。
第2視点画像は、視差推定ニューラルネットワーク中の特徴抽出処理用の第1サブネットワークへの入力として用いられる。具体的には、第2視点画像を前記第1サブネットワークに入力し、多層畳み込み演算をしたことにより、第2視点特徴情報を取得する。その次に、前記第1視点特徴情報と前記第2視点特徴情報に基づいて相関演算を行って、前記第1視点画像と前記第2視点画像との相関情報を取得する。
前記第1視点特徴情報と前記第2視点特徴情報に基づいて相関演算を行うことは、前記第1視点特徴情報と前記第2視点特徴情報のうち、マッチングする可能性のある画像ブロックに対して相関演算を行って、相関情報を取得することを含む。換言すると、第1視点特徴情報と第2視点特徴情報に対して相関(correlation)演算を行って相関情報を取得し、相関情報は、主としてマッチングした特徴の抽出に用いられるものである。相関情報は、相関特徴マップであるようにしてもよい。
第1視点一次特徴マップおよび第2視点一次特徴マップは、視差推定ニューラルネットワーク中の相関演算用の相関演算モジュールへの入力として用いられる。例えば、図2に示される相関演算モジュール240に第1視点一次特徴マップおよび第2視点一次特徴マップを入力し、相関演算をしたことにより、前記第1視点画像と前記第2視点画像との相関情報を取得する。
前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得することは、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って、混合特徴情報を取得すること、前記混合特徴情報に基づいて視差予測情報を取得することを含む。
ここでの混合処理は、例えば融合やチャネルによる重ね合わせなどの連結処理であり得る。本開示の実施例ではこれを限定しない。
前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行う前に、第1視点特徴情報、第1視点セマンティックセグメンテーション情報、および相関情報中の一項または複数項に対して変換処理を行うことにより、前記変換処理された第1視点特徴情報、第1視点セマンティックセグメンテーション情報および相関情報の次元を同じにするようにしてもよい。
前記方法は、前記第1視点特徴情報に対して変換処理を行って、第1視点変換特徴情報を取得することをさらに含むようにしてもよい。このときに、第1視点変換特徴情報、前記第1視点セマンティックセグメンテーション情報および前記相関情報に対して混合処理を行って、混合特徴情報を取得するようにしてもよい。例えば、前記第1視点特徴情報に対して空間変換処理を行って、第1視点変換特徴情報を取得し、当該第1視点変換特徴情報の次元は、事前に設定されたものである。
選択的には、第1視点変換特徴情報は、第1視点変換特徴マップであってもよく、本開示の実施例では、第1視点変換特徴情報の具現化について限定しない。
例えば、前記第1サブネットワークから出力された前記第1視点特徴情報に対して、さらに1つの畳み込み層による畳み込み演算をしたことにより、第1視点変換特徴情報を取得する。畳み込みモジュールにより第1視点特徴情報を処理して第1視点変換特徴情報を取得するようにしてもよい。
選択的には、混合特徴情報は混合特徴マップであるようにしてもよく、本開示の実施例では、混合特徴情報の具現化について限定しない。視差予測情報は視差予測マップであるようにしてもよく、本開示の実施例では、視差予測情報の具現化について限定しない。
SegStereoネットワークには、第1サブネットワークおよび第2サブネットワークに加えて、第3サブネットワークも含まれている。前記第3サブネットワークは、第1視点画像と第2視点画像との視差予測情報を特定するためのものであり、前記第3サブネットワークは視差回帰ネットワークであり得る。
具体的には、前記視差回帰ネットワークに前記第1視点変換特徴情報、前記相関情報、前記第1視点セマンティックセグメンテーション情報を入力し、前記視差回帰ネットワークはこれらの情報を混合特徴情報に併合し、前記混合特徴情報に基づいて回帰を行って視差予測情報を取得する。
前記混合特徴情報に基づいて、図2に示される視差回帰ネットワーク中の残差ネットワークおよび逆畳み込みモジュール250により、視差予測情報を予測する。
換言すると、第1視点変換特徴マップ、相関特徴マップ、第1視点セマンティック特徴マップを併合して混合特徴マップを取得することにより、セマンティック特徴の埋め込みを実現することができる。混合特徴マップを取得後、視差回帰ネットワーク中の残差ネットワークおよび逆畳み込み構造を引き続き使用することにより、最終、視差予測マップを出力する。
SegStereoネットワークは主に残差構造を使用し、より認識しやすい画像の特徴を抽出でき、なお、第1視点画像と第2視点画像との相関特徴を抽出すると同時に、高レベルのセマンティック特徴を埋め込むことにより、予測の精度が向上することとなる。
上記の方法は、視差推定ニューラルネットワークの適用プロセス、すなわち、トレーニングされた視差推定ニューラルネットワークにより、処理対象となる画像ペアに対して視差推定を行う方法であり得る。幾つかの例示では、上記の方法は、視差推定ニューラルネットワークのトレーニングプロセスであってもよく、すなわち、上記の方法は、視差推定ニューラルネットワークのトレーニングにも適用し、このとき、第1視点画像および第2視点画像がサンプル画像である。
本開示の実施例では、事前定義されたニューラルネットワークを教師無し方式によりトレーニングして、前記第1サブネットワーク、前記第2サブネットワーク、および前記第3サブネットワークを含む視差推定ニューラルネットワークを取得するようにしてもよい。あるいは、視差推定ニューラルネットワークを教師あり方式によりトレーニングして、前記第1サブネットワーク、前記第2サブネットワーク、および前記第3サブネットワークを含む視差推定ニューラルネットワークを取得するようにしてもよい。
前記方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含む。
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得することと、前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得することと、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとを含む。第1視点再構築セマンティック情報は、再構築された第1セマンティック特徴マップであり得る。
第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得するようにしてもよい。
第2視点特徴情報をセマンティックセグメンテーションネットワークに入力し処理して、第2視点セマンティックセグメンテーション情報を取得するようにしてもよい。それに応じて、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得することは、第2視点特徴情報に基づいて第2視点セマンティックセグメンテーション情報を取得することを含む。
選択的には、第2視点セマンティックセグメンテーション情報は、3次元テンソルまたは第2視点セマンティック特徴マップであり得、本開示の実施例では、第2視点セマンティックセグメンテーション情報の具現化について限定しない。
第2視点一次特徴マップは、視差推定ニューラルネットワーク中のセマンティック情報抽出処理用の第2サブネットワークへの入力として用いられる。具体的には、第2視点特徴情報または第2視点一次特徴マップを第2サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第2視点セマンティックセグメンテーション情報を取得する。
視差推定ニューラルネットワーク中のセマンティックセグメンテーションネットワークまたは畳み込みサブネットワークにより、第1視点セマンティック特徴マップおよび第2視点セマンティック特徴マップを抽出する。
第1視点特徴情報および第2視点特徴情報をセマンティックセグメンテーションネットワークに入力し、セマンティックセグメンテーションネットワークにより第1視点セマンティックセグメンテーション情報および第2視点セマンティックセグメンテーション情報を出力するようにしてもよい。
選択的には、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定すること、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、を含む。
前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、を含む。
選択的には、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第1視点再構築セマンティック情報と前記第1視点セマンティックセグメンテーション情報との差異に基づいて、セマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
選択的には、予測された視差予測情報および第2視点セマンティックセグメンテーション情報に基づいて再構築操作を行って、第1視点再構築セマンティック情報を取得し、なお、前記第1視点再構築セマンティック情報を第1正解(Ground Truth)セマンティックラベルと比べてセマンティック損失値を取得し、前記セマンティック損失値を参照して前記視差推定ニューラルネットワークのネットワークパラメータを調整するようにしてもよい。当該第1正解セマンティックラベルは、手動でラベルしたものであり、ここでの教師無し学習方式は、セマンティックセグメンテーション情報に対しての教師無し学習ではなく、視差に対しての教師無し学習である。
セマンティック損失は、クロスエントロピーロス(Cross-entropy loss)であり得るが、本開示の実施例では、セマンティック損失の具現化について限定しない。
視差推定ニューラルネットワークをトレーニングする際に、セマンティック損失を算出するための関数が定義されており、当該関数が豊富なセマンティック整合性情報を導入できるため、トレーニングされたネットワークによれば一般的な局所的曖昧性の問題の減少が可能となる。
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得することと、前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することができる。
予測された視差予測情報および実の第2視点画像に基づく再構築操作を行って、第1視点再構築画像を取得し、前記第1視点再構築画像を実の第1視点画像と比べた光度差に基づいて光度損失を取得することができる。
画像を再構築して光度差を測定するという方式により、ネットワークを教師無し方式でトレーニングして、正解画像への依存を大幅に減らすことができる。
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第2視点画像に基づいて再構築操作を行って第1視点再構築画像を取得することと、前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、前記第1視点再構築セマンティック情報と前記第1正解セマンティックラベルとの差異に基づいて、セマンティック損失を特定することと、前記光度損失、前記平滑化損失、および前記セマンティック損失に基づいて総損失を特定することと、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、をさらに含む。トレーニング時に用いられるトレーニング集合として、正解視差画像を提供することは不要となる。
ここで、前記総損失は、個々の損失の加重和に等しくなる。
このように、正解視差画像を提供する必要がなく、再構築画像と元画像との光度差に基づいてネットワークをトレーニングすることができる。第1視点画像と第2視点画像との相関特徴を抽出する際に、セマンティック特徴マップが埋め込まれ、セマンティック損失も定義され、低レベルのテクスチャ情報と高レベルのセマンティック情報の組み合わせにより、セマンティック整合性の制約が加えられ、大きなターゲット領域でトレーニングされたニューラルネットワークの視差予測レベルが向上し、局所的曖昧性の問題がある程度減少されることとなる。
選択的には、前記視差推定ニューラルネットワークのトレーニング方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークを教師あり方式によりトレーニングすることをさらに含む。
具体的には、前記第1視点画像と前記第2視点画像は、ラベルされた視差情報に対応しており、前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングする。
選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記視差回帰損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。
選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、第1視点再構築セマンティック情報と第1正解セマンティックラベルとの差異に基づいて、セマンティック損失を特定することと、前記視差回帰損失、前記セマンティック損失、および前記平滑化損失に基づいて教師あり方式によるトレーニングの総損失を特定すること、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、を含む。トレーニング時に用いられるトレーニング集合として、ラベルされた視差情報を提供することは必要となる。
選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、第1視点再構築セマンティック情報と前記第1視点セマンティックセグメンテーション情報との差異に基づいて、セマンティック損失を特定することと、前記視差回帰損失、前記セマンティック損失、および前記平滑化損失に基づいて教師あり方式によるトレーニングの総損失を特定することと、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、を含む。トレーニング時に用いられるトレーニング集合として、ラベルされた視差情報を提供することは必要となる。
このように、教師あり方式によるトレーニングにより視差推定ニューラルネットワークを取得し、正解信号のある箇所について、予測値と正解値との差を、教師ありの場合の視差回帰損失として算出するようにしてもよく、なお、教師無しトレーニングの場合のセマンティック損失および平滑化損失も適用する。
前記第1サブネットワーク、前記第2サブネットワーク、および前記第3サブネットワークは何れも、視差推定ニューラルネットワークをトレーニングして取得したサブネットワークである。異なるサブネットワーク、即ち第1サブネットワーク、第2サブネットワーク、第3サブネットワークについて、異なるサブネットワークへの入出力コンテンツが異なるが、それらはすべて同じ対象シーンを対象としている。
視差推定ニューラルネットワークのトレーニング方法は、トレーニングサンプル集合を使用して視差推定ニューラルネットワークに対して視差予測マップのトレーニングおよびセマンティック特徴マップのトレーニングを同時に行うことで、前記第1サブネットワーク、前記第2サブネットワーク、および前記第3サブネットワークの最適化されたパラメータを取得することを含む。
視差推定ニューラルネットワークのトレーニング方法は、先ず、トレーニングサンプル集合を使用して視差推定ニューラルネットワークに対してセマンティック特徴マップのトレーニングを行うことと、その次に、前記トレーニングサンプル集合を使用して、セマンティック特徴マップの予測トレーニングがされた視差推定ニューラルネットワークに対して、視差予測マップのトレーニングを行うことで、前記第2サブネットワークおよび前記第1サブネットワークの最適化されたパラメータを取得することとを含む。
換言すると、視差推定ニューラルネットワークをトレーニングする際に、セマンティック特徴マップの予測トレーニングと視差予測マップのトレーニングを段階的に実行することができる。
本出願の実施例にて提案されたセマンティック情報に基づく画像視差推定方法は、エンドツーエンド(end-to-end)の視差予測ニューラルネットワークを使用し、ステレオ画像ペアの左右視点画像を入力すると、視差予測マップを直接取得でき、リアルタイムの要求を満たすことができる。同時に、再構築画像と元画像により光度差を測定する方式により、ネットワークを教師無し方式でトレーニングして、正解画像への依存を大幅に減らすことができる。また、左右視点画像間の相関特徴を抽出する際に、セマンティック特徴マップが埋め込まれ、セマンティック損失も定義され、低レベルのテクスチャ情報と高レベルのセマンティック情報の組み合わせにより、セマンティック整合性の制約が加えられ、例えば大きな路面、大きな車両などの大きなターゲット領域でのネットワークによる視差予測レベルが向上し、局所的曖昧性の問題がある程度減少されることとなる。
図2は、視差推定システムのアーキテクチャを示す概略図であり、当該視差推定システムのアーキテクチャがSegStereo視差推定システムアーキテクチャと記され、当該SegStereo視差推定システムアーキテクチャが教師無し学習および教師あり学習に適している。
先ず、視差推定ニューラルネットワークの基本的なネットワーク構成を与え、その次に、当該視差推定ニューラルネットワークにセマンティックキューポリシーを如何にして導入するかを詳しく説明し、最後に、教師無しおよび教師あり方式で視差推定ニューラルネットワークをトレーニングする際に使用された損失項を如何にして計算するかを展示する。
先ず、視差推定ニューラルネットワークの基本的な構成を説明する。
システムのアーキテクチャ全体の概略図は図2に示される通りとなり、事前調整されたステレオ画像ペアには、第1視点画像(または左視点画像と呼ばれる)Iと第2視点画像(または右視点画像と呼ばれる)Iが含まれるようにしてもよい。浅いニューラルネットワーク210を使用して一次画像特徴マップを抽出することができ、第1視点画像Iを当該浅いニューラルネットワーク210に入力して第1視点一次特徴マップFを取得し、第2視点画像Iを当該浅いニューラルネットワーク210に入力して第2視点一次特徴マップFを取得する。第1視点一次特徴マップは前記第1視点特徴情報を示し、第2視点一次特徴マップは前記第2視点特徴情報を示すようにしてもよい。浅いニューラルネットワーク210は、畳み込みカーネルが3*3*256の畳み込みブロックであり得、当該畳み込みブロックは、畳み込み層と、バッチ正規化および正規化線形ユニット(ReLU、Rectified linear unit)層とを含む。浅いニューラルネットワーク210は、第1サブネットワークであり得る。
一次特徴マップを基にすると、トレーニングされたセマンティックセグメンテーションネットワーク220を使用してセマンティック特徴マップを抽出し、当該セマンティックセグメンテーションネットワーク220は、PSPNeT-50ネットワークの一部により実現できる。第1視点一次特徴マップFをセマンティックセグメンテーションネットワーク220に入力すれば、第1視点セマンティック特徴マップF が得られ、第2視点一次特徴マップFをセマンティックセグメンテーションネットワーク220に入力すれば、第2視点セマンティック特徴マップF が得られる。
第1視点一次特徴マップFについて、第1視点画像の細部を保留するために、別の畳み込みブロック230により第1視点変換特徴マップF を算出することができる。ここで、元画像のサイズに対して、一次特徴マップ、セマンティック特徴マップおよび変換特徴マップのサイズが縮小され、例えば、元画像のサイズに対して1/8となる。第1視点一次特徴マップ、第2視点一次特徴マップ、第1セマンティック特徴マップ、第2セマンティック特徴マップ、および第1視点変換特徴マップは、サイズが同じである。第1視点画像と第2視点画像は、サイズが同じである。
相関モジュール240により第1視点一次特徴マップFと第2視点一次特徴マップFとの間のマッチングコスト(Matching cost)を算出して、相関特徴マップFを取得することができる。相関モジュール240は、オプティカルフロー推定ネットワーク(例えば、Flow Net)において使用される相関方法により2枚の特徴マップ間の相関性を算出することができる。相関演算
Figure 0007108125000001
において、最大視差パラメータをdに設定してもよい。これにより、例えばサイズがh×w×(d + 1)の相関特徴マップFを取得でき、式中、hは第1視点一次特徴マップFの高さ、wは第1視点一次特徴マップFの幅である。
第1視点変換特徴マップF 、第1視点セマンティック特徴マップF 、および相関特徴マップFを連結すると、混合特徴マップ(前記混合特徴情報を表示)Fを取得することができる。混合特徴マップFを後続の残差ネットワークおよび逆畳み込みモジュール250に送ると、第1視点画像Iの元サイズとサイズが同じである視差マップDを取得することができる。
以下、本出願で提案されるセマンティック特徴の視差推定ニューラルネットワークへの作用、および視差推定ニューラルネットワークにセマンティック特徴を使用するモジュールについて、詳しく説明する。
前記の通り、視差推定の難点は局所的曖昧性の問題にあり、局所的曖昧性は主として画像中の相対的にぼやけたテクスチャ無し領域に起因する。これらの領域は内部に連続性があり、これらの領域はセグメンテーションにおいて明確なセマンティック意味を持っている。そのため、セマンティックキューを用いて、最終的な視差マップの予測および修正に役立つことが可能である。これらのセマンティックキューは、2種類の方式により統合され得る。方式一は、特徴学習中にセマンティックキューを視差予測マップに埋め込むものである。方式二は、損失項の算出にセマンティックキューを導入することにより、ニューラルネットワークのトレーニングプロセスをガイドするものである。
先ず、方式一、すなわち、特徴学習中にセマンティックキューを視差予測マップに埋め込むことを如何にして実現するかについて説明する。
前記の通り、図2を参照すると、入力されたステレオ画像ペアには、第1視点画像と第2視点画像が含まれており、浅いニューラルネットワーク210により第1視点一次特徴マップおよび第2視点一次特徴マップを別々取得した後に、セマンティックセグメンテーションネットワーク220により第1視点一次特徴マップおよび第2視点一次特徴マップのセマンティック特徴を別々抽出して、第1視点セマンティック特徴マップおよび第2視点セマンティック特徴マップを取得するようにしてもよい。入力されたステレオ画像ペアに対して、トレーニングされた浅いニューラルネットワーク210およびセマンティックセグメンテーションネットワーク220(例えばPSPNeT-50構造により実現できるもの)により特徴を抽出し、セマンティックセグメンテーションネットワーク220の最終的な特徴マッピング(即ち特徴conv5_4)の出力を、第1視点セマンティック特徴マップF および第2視点セマンティック特徴マップF とする。浅いニューラルネットワーク210としてPSPNeT-50ネットワークの一部を使用し、当該ネットワークの中間特徴(即ち特徴conv3_1)の出力を、第1視点一次特徴マップFおよび第2視点一次特徴マップFとするようにしてもよい。セマンティック特徴を埋め込むために、第1視点セマンティック特徴マップF 上での畳み込み操作、例えば、畳み込みカーネルのサイズが1×1×128の一つの畳み込みブロックによる畳み込み操作を行うことにより、変換された第1セマンティック特徴マップF s_t(図2には図示されない)を取得するようにしてもよい。その次に、F s_tを第1視点変換特徴マップF および相関特徴マップFと連結して、混合特徴マップ(前記混合特徴情報を表示)Fを取得するとともに、取得した混合特徴マップFを視差回帰ネットワークの余剰部分、例えば後続の残差ネットワークおよび逆畳み込みモジュール250に送る。
その次に、方式二、すなわち、損失項の算出にセマンティックキューを導入してニューラルネットワークをトレーニングすることを如何にして実現するかについて説明する。
視差推定ニューラルネットワークをトレーニングする際に、損失項にセマンティックキューを導入することは、視差学習のガイドに役立つこともできる。セマンティックキューは、セマンティッククロスエントロピーロスLsegによって特徴付けることができる。図2中の再構築モジュール260により再構築操作を行い、第2視点セマンティック特徴マップおよび視差予測マップに作用して、再構築された第1セマンティック特徴マップを取得でき、その後に、第1視点セマンティック特徴マップの正解セマンティックラベルを使用してセマンティッククロスエントロピーロスLsegを測定できる。第2視点セマンティック特徴マップF のサイズは、元画像(即ち第2視点画像)のサイズの1/8であり、視差予測マップDは第2視点画像とサイズが同じであり、即ちフルサイズである。特徴再構築を行うためには、先ず、第2視点セマンティック特徴マップをフルサイズにアップサンプリングし、その次に特徴再構築を、アップサンプリングされたフルサイズの第2視点セマンティック特徴マップおよび視差予測マップDに適用して、フルサイズの再構築された第1視点セマンティック特徴マップを取得する。当該フルサイズの再構築された第1視点セマンティック特徴マップをダウンサンプリングし、フルサイズの1/8にスケーリングして、再構築された第1セマンティック特徴マップF s_wを取得する。その後に、畳み込みカーネルのサイズが1×1×Cである畳み込み分類器を使用して視差学習を正規化し、ここで、Cは、セマンティッククラスの数である。最後に、セマンティッククロスエントロピーロスLsegを、softmax損失関数の形式で表す。
本例示の視差推定ニューラルネットワークのトレーニングについて、損失項はセマンティッククロスエントロピーロスに加えて、その他のパラメータも含む。上記のセマンティック情報は、教師無し方式および教師あり方式によるモデルトレーニングに組み合わせられ得る。以下、この2つの方式による総損失の算出方法を説明する。
(教師無し方式)
入力されたステレオ画像ペアには2枚の画像が含まれ、そのうちの1枚の画像は、視差予測マップにより別の1枚の画像から再構築でき、論理的には、再構築された画像は元の入力画像に近接するものである。光学的整合性により教師無し方式で視差を学習する。視差予測マップDが与えられたと仮定すると、第2視点画像Iに対して図2に示される再構築モジュール260による画像再構築操作を行い、第1視点再構築画像
Figure 0007108125000002
を取得する。その次に、L1ノルム(norm)により光学的整合性を正規化し、取得された光度損失Lは式(1)に示す通りとなる。
Figure 0007108125000003
式中、Nは画素の数で、iおよびjは画素のインデックスで、
Figure 0007108125000004
はL1ノルムである。
光学的整合性により教師無し方式で視差学習を行うことができる。Lには視差の局所的平滑度を推定するための正規化項がないと、局所的視差は不連続になる可能性がある。この問題を補うために、L1ノルムにより視差予測マップの勾配マップ∂Dの平滑度に対して罰または制約を課することができ、取得された平滑損失Lは式(2)に示す通りとなる。
Figure 0007108125000005
式中、ρ(・)は、一般化されたCharbonnier関数によって実現される空間平滑化ペナルティ関数である。
セマンティックキューを使用するために、セマンティック特徴の埋め込みとセマンティック損失を考慮すると、それぞれの画素の位置には、存在可能性なセマンティッククラス毎に予測値がある。セマンティッククラスは、路面、車両、建物などであってもよく、同時に、セマンティッククラスは、正解ラベルによりマークされ、正解ラベルは1つのクラス番号であってもよい。正解ラベル上での予測値が最大となる。セマンティッククロスエントロピーロスLsegは、式(3)に示す通りとなる。
Figure 0007108125000006
式中、
Figure 0007108125000007
、ここで、fyiは正解ラベルで、yjはクラス番号で、fyjはカテゴリがyjであるアクティベーション値(activation)で、iは画素のインデックスであり、単一画素のsoftmax損失を次のように定義する。一枚の画像全体に対して、ラベル付き画素の位置のsoftmax損失を算出し、ラベル付き画素の集合はNである。
教師無し方式による総損失Lunsupは、光度(photometric)損失L、平滑化(smoothness)損失L、およびセマンティッククロスエントロピーロスLsegを含む。さまざまな損失ブランチの学習のバランスをとるために、光度損失Lには損失重みλが導入され、平滑化損失Lには損失重みλが導入され、セマンティッククロスエントロピーロスLsegには損失重みλsegが導入される。そのため、総損失Lunsupは、式(4)に示す通りとなる。
Figure 0007108125000008
その後に、総損失Lunsupの最小化に基づいて視差予測ニューラルネットワークをトレーニングすることにより、事前設定された視差予測ニューラルネットワークを取得する。具体的なトレーニング方法として、当業者が常用する方法を使用でき、ここでは重複に説明しない。
(教師あり方式)
本出願で提案される視差予測ためのセマンティックキューは、教師あり方式の場合であっても良好な作用を奏することができる。
教師あり方式の場合、1つのステレオ画像ペアのサンプルとして、第1視点画像および第2視点画像に加えて、当該ステレオ画像ペアの正解視差画像
Figure 0007108125000009
をも提供する。そのため、L1ノルムを直接使用して予測回帰を正規化することができる。視差回帰損失Lは、以下の式(5)で表され得る。
Figure 0007108125000010
教師あり方式による総損失Lsupは、視差回帰損失L、平滑化損失L、およびセマンティッククロスエントロピーロスLsegを含む。さまざまな損失の学習のバランスをとるために、視差回帰損失Lには損失重みλが導入され、平滑化損失Lには損失重みλが導入され、セマンティッククロスエントロピーロスLsegには損失重みλsegが導入される。そのため、総損失Lsupは、式(6)に示す通りとなる。
Figure 0007108125000011
その後に、総損失Lsupの最小化に基づいて視差予測ニューラルネットワークをトレーニングすることにより、事前設定された視差予測ニューラルネットワークを取得する。同様に、具体的なトレーニング方法として、当業者が常用する方法を使用でき、ここでは重複に説明しない。
本出願で提案される視差予測ニューラルネットワークによれば、左右視点画像間の相関情報を抽出すると同時に、高レベルのセマンティック特徴を埋め込むので、視差マップの予測精度の向上に役立つことができる。さらに、ネットワークをトレーニングする際に、セマンティッククロスエントロピーロスを算出するための関数が定義されており、当該関数が豊富なセマンティック整合性情報を導入できるため、一般的な局所的曖昧性の問題を効果的に減少することができる。また、教師無し学習方式を採用した場合、再構築画像と元画像との光度差に応じて、正しい視差値を出力するようにネットワークをトレーニングできるため、正解視差画像を多量提供することは不要となり、トレーニングの複雑さおよび演算コストを効果的に軽減することができる。
本技術案の主な貢献として少なくとも以下の部分を含むことを説明する必要はある。
提案されたSegStereoフレームワークにより、セマンティックセグメンテーション情報が視差推定に組み合わせられ、そのセマンティック整合性が視差推定のアクティブガイドとして用いられ得る。セマンティック特徴埋め込みポリシーとセマンティック損失関数softmaxは、教師無しまたは教師あり方式でネットワークのトレーニングに役立つことができる。提案された視差推定方法は、KITTI Stereo 2012および2015ベンチマークで最も先進的な結果を得ることができる。CityScapesデータ集合での予測によっても、当該方法の有効性が示されている。ここで、KITTI Stereoデータ集合は、自動運転シーンでのコンピュータビジョンアルゴリズムによる評価データ集合であり、当該データ集合は、生データ(raw data)形式のデータを提供するだけでなく、各タスクのベンチマークも提供している。CityScapesデータ集合は、都市の道路や街並みのセマンティック意味向けのデータ集合である。
図3A~図3Dは、KITTI Stereoデータ集合に対しての既存の予測方法による効果と、本出願の予測方法による効果との比較図であり、その中で、図3Aおよび図3Bは、入力されたステレオ画像ペアを示し、図3Cは、既存の予測方法により図3Aおよび図3Bを処理した後に得られた誤差図を示し、図3Dは、本出願の予測方法により図3Aおよび図3Bを処理した後に得られた誤差図を示す。その中で、誤差図は、再構築された画像と入力された元画像との減算によって取得されたものである。図3C中の右下の暗い領域は、エラー予測領域を示す。図3Dから明らかなように、図3Cと比較すると、右下のエラー領域が大幅に減少している。したがって、セマンティックキューによるガイドを受けると、特に局所的なぼやけた領域で、SegStereoネットワークの視差推定がより正確になる。
図4Aおよび4Bは、KITTIテスト集合の幾つかの定性的な例示を示しており、本出願で提案される方法により、SegStereoネットワークは、挑戦的で複雑なシーンを処理する場合であっても、良好な視差推定結果を取得することができる。図4Aは、KITTI 2012テストデータの定性的な結果を示しており、図4Aに示すように、左から右に、第1視点画像、視差予測マップ、誤差図である。図4Bは、KITTI 2015テストデータの定性的な結果を示しており、図4Bに示すように、左から右に、第1視点画像、視差予測マップ、誤差図である。図4Aと図4Bから明らかなように、KITTI Stereoテスト集合には監視された定性的な結果がある。セマンティック情報を組み込むことにより、本出願で提案される方法は複雑なシーンを処理することができる。
SegStereoネットワークは、その他のデータ集合にも適応でき、たとえば、教師無しのトレーニングによって取得されたSegStereoネットワークは、CityScapes検証集合で測定されるようにしてもよい。図5A~図5Cは、CityScapes検証集合での教師無しトレーニングネットワークの予測結果を示しており、図5Aは、第1視点画像であり、図5Bは、SGMアルゴリズムを利用して図5Aを処理して得られた視差予測マップであり、図5Cは、SegStereoネットワークを利用して図5Aを処理して得られた視差予測マップである。明らかに、SGMアルゴリズムと比較して、SegStereoネットワークはグローバルシーン構造と対象細部の面でより良い結果を生み出した。
以上を纏めて、本出願で提案されるSegStereo視差推定アーキテクチャでは、視差推定ネットワークにセマンティックキューが導入された。具体的には、セグメンテーションブランチとしてPSP Netを使用してステレオ画像ペアのセマンティック特徴を抽出し、視差部分として残差ネットワーク(ResNet)と相関モジュール(Correlation)を使用して視差予測マップに回帰することができる。相関モジュールは、ステレオ画像ペアのマッチングキューをエンコードするためのものである。セグメンテーション特徴は、セマンティック特徴として、相関モジュールの後にある視差ブランチに埋め込まれている。また、セマンティック損失の正規化により、ステレオ画像ペアのセマンティック整合性を再構築することにより、視差推定の堅牢性がさらに向上することとなる。セマンティックセグメンテーションネットワークと視差回帰ネットワークは何れも完全に畳み込みであるため、当該ネットワークによりエンドツーエンドのトレーニングが実行できる。
セマンティックキューが組み込まれたSegStereoネットワークは、教師無しのトレーニングおよび教師ありのトレーニングに適用できる。教師無しのトレーニング中では、光学的整合性損失とセマンティッククロスエントロピーロスの両方が算出されて、後向き伝播される。セマンティック特徴の埋め込みとセマンティッククロスエントロピーロスの両方にはセマンティック整合性との有利な制約を導入し得る。また、教師ありのトレーニング方案の場合、教師無しの光学的整合性損失ではなく、教師ありの視差回帰損失を使用してネットワークをトレーニングでき、これにより、KITTI Stereoベンチマークでの先進的な結果を得ることができ、例えばKITTI Stereo 2012および2015ベンチマークで高度な結果が得られる。CityScapesデータ集合での予測によっても、当該方法の有効性が示されている。
上記のセマンティック情報が組み合わせられたステレオ画像ペアの視差推定方法は、先ず対象シーンの第1視点画像および第2視点画像を取得し、1つの特徴抽出ネットワークにより第1視点画像および第2視点画像の一次特徴マップを抽出し、第1視点一次特徴マップに対して1つの畳み込みブロックを増やすことで第1視点変換特徴マップを取得し、第1視点一次特徴マップおよび第2視点一次特徴マップに基づき、相関モジュールにより第1視点一次特徴マップと第2視点一次特徴マップとの相関特徴マップを算出し、その次に1つのセマンティックセグメンテーションネットワークにより第1視点セマンティック特徴マップを取得し、第1視点変換特徴マップ、相関特徴マップ、第1視点セマンティック特徴マップを合併して混合特徴マップを取得し、最後、残差ネットワークおよび逆畳み込みモジュールにより視差予測マップを回帰する。このように、特徴抽出ネットワーク、セマンティックセグメンテーションネットワーク、視差回帰ネットワークから構成された視差推定ニューラルネットワークにより、第1視点画像と第2視点画像を入力すれば、視差予測マップを快速に出力でき、エンドツーエンドの視差予測を実現し、リアルタイムの要求を満たすことができる。ここで、第1視点画像と第2視点画像とのマッチング特徴を算出する際に、セマンティック特徴マップを埋め込み、即ちセマンティック整合性の制約を増やし、局所的曖昧性の問題をある程度減少し、視差予測の正確さを向上できる。
図1~図2に示される例示中のさまざまな具体的な実現方式は、必ずしも同時に満たすのではなく、そのロジックに従う任意の方式で組み合わせることができ、換言すると、図1に示される方法実施例における任意一または複数のステップおよび/または流れは、図2に示される例示を、選択的な具体的な実現方式とすることができるが、これに限られないということは、理解されるべきであろう。
さらに、図1~図2に示される例示は、単なる例示的な本出願の実施例に過ぎず、当業者であれば、図1~図2に示される例示に基づいてさまざまな自明な変更および/または置換を行うことができ、得られた技術案は相変わらず本出願の実施例の公開範囲に属するということは、理解されるべきであろう。
本出願の実施例では、上記の画像視差推定方法に対応するものとして、画像視差推定装置が提案されており、図6に示すように、前記装置は、以下のモジュールを備える。
画像取得モジュール10:対象シーンの第1視点画像および第2視点画像を取得するためのものである。
視差推定ニューラルネットワーク20:前記第1視点画像および前記第2視点画像に基づいて視差予測情報を取得するためのものである。当該視差推定ニューラルネットワーク20は、以下のモジュールを含む。
一次特徴抽出モジュール21は:前記第1視点画像に対して特徴抽出処理を行って、第1視点特徴情報を取得するためのものである。
セマンティック特徴抽出モジュール22:前記第1視点画像に対してセマンティックセグメンテーション処理を行って、第1視点セマンティックセグメンテーション情報を取得するためのものである。
視差回帰モジュール23:前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得するためのものである。
上記の技術案では、選択的には、前記一次特徴抽出モジュール21はさらに、前記第2視点画像に対して特徴抽出処理を行って、第2視点特徴情報を取得するために用いられ、前記視差回帰モジュール23は、第1視点特徴情報および第2視点特徴情報に基づいて相関処理を行って前記相関情報を取得するための相関特徴抽出モジュールをさらに備える。
一実施形態として、選択的には、前記視差回帰モジュール23はさらに、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得し、前記混合特徴情報に基づいて視差予測情報を取得するために用いられる。
上記の技術案では、選択的には、前記装置は、前記視差予測情報に基づいて視差推定ニューラルネットワーク20をトレーニングするための第1ネットワークトレーニングモジュール24をさらに備える。
一実施形態として、選択的には、前記第1ネットワークトレーニングモジュール24はさらに、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得し、前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得し、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワーク20のネットワークパラメータを調整するために用いられる。
一実施形態として、選択的には、前記第1ネットワークトレーニングモジュール24はさらに、前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定し、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワーク20のネットワークパラメータを調整するために用いられる。
一実施形態として、選択的には、前記第1ネットワークトレーニングモジュール24はさらに、前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて前記視差推定ニューラルネットワーク20のネットワークパラメータを調整し、あるいは、前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワーク20のネットワークパラメータを調整するために用いられる。
一実施形態として、選択的には、前記第1ネットワークトレーニングモジュール24はさらに、前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得し、前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失値を特定し、前記視差予測情報に基づいて平滑化損失値を特定し、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワーク20のネットワークパラメータを調整するために用いられる。
上記の技術案では、選択的には、前記装置は、前記視差予測情報およびラベルされた視差情報に基づいて視差推定ニューラルネットワーク20をトレーニングするための第2ネットワークトレーニングモジュール25をさらに備え、前記第1視点画像と前記第2視点画像とはラベルされた視差情報に対応している。
一実施形態として、選択的には、前記第2ネットワークトレーニングモジュール25はさらに、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定し、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。
図6に示される画像視差推定装置中の各処理モジュールの実現機能について、上記の画像視差推定方法に係る説明を参照して理解し得ることを、当業者が理解すべきであろう。図6に示される画像視差推定装置中の各処理ユニットの機能について、プロセッサ上で実行されているプログラムによって実現してもよいし、具体的な論理回路によって実現してもよいことを、当業者が理解すべきであろう。
実際のアプリケーション中、上記の画像取得モジュール10は、情報取得方法が異なると、構造も異なり、クライアントから受信するときは通信インターフェースであるが、自動的に採集するときは画像コレクタに対応するものとなる。上記の画像取得モジュール10および視差推定ニューラルネットワーク20の具体的な構造は何れもプロセッサに対応することができる。前記プロセッサの具体的な構造は、中央処理ユニット(CPU、Central Processing Unit)、マイクロプロセッサ(MCU、Micro Controller Unit)、デジタル信号プロセッサ(DSP、Digital Signal Processor)またはプログラム可能なロジックデバイス(PLC、Programmable Logic Controller)などの処理機能を持つ電子部品または電子部品グループであってもよい。前記プロセッサは、記憶媒体に格納された実行可能コードを実行し、バスなどの通信インターフェースを介して前記記憶媒体に接続でき、具体的な各ユニットの対応する機能を実行する場合、前記記憶媒体から前記実行可能なコードを読み出して実行する。前記記憶媒体における、前記実行可能コードを格納するための部分は、好ましくは不揮発性記憶媒体である。
前記画像取得モジュール10と視差推定ニューラルネットワーク20は、同じプロセッサに対応するように集成されるか、またはそれぞれ異なるプロセッサに対応する。同じプロセッサに対応するように集成される場合、前記プロセッサは、時分割により、前記画像取得モジュール10および視差推定ニューラルネットワーク20の対応する機能を処理する。
本出願の実施例で提案された画像視差推定装置によれば、一次特徴抽出モジュール、セマンティック特徴抽出モジュール、視差回帰モジュールから構成された視差推定ニューラルネットワークにより、第1視点画像と第2視点画像を入力すれば、視差予測マップを快速に出力でき、エンドツーエンドの視差予測を実現し、リアルタイムの要求を満たすことができる。ここで、第1視点画像および第2視点画像の特徴を算出する際に、セマンティック特徴マップを埋め込み、即ちセマンティック整合性の制約を増やし、局所的曖昧性の問題をある程度克服し、視差予測の正確さおよび最終的な視差予測の精度を向上させることができる。
本出願の実施例では、メモリと、プロセッサと、メモリに格納され且つプロセッサ上で実行可能なコンピュータプログラムと、を備え、前記プログラムが前記プロセッサによって実行される際に、上記の任意一の技術案で提案された画像視差推定方法が実現される画像視差推定装置がさらに記載されている。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第2視点画像に対して特徴抽出処理を行って第2視点特徴情報を取得すること、第1視点特徴情報および第2視点特徴情報に基づいて相関処理を行って前記相関情報を取得することが実現され。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得すること、前記混合特徴情報に基づいて視差予測情報を取得することが実現される。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることが実現される。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得することと、前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得することと、前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整することが実現される。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得することと、前記第1視点再構築画像と前記第1視点画像との両者間の光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現されることとなる。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報およびラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることが実現され、前記第1視点画像と前記第2視点画像は、前記ラベルされた視差情報に対応している。
一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。
本出願の実施例で提案される画像視差推定装置によれば、視差予測の正確さおよび最終的な視差予測の精度を向上させることができる。
本出願の実施例では、上記の各実施例で説明された画像視差推定方法を実行するためのコンピュータ実行可能な命令が格納されたコンピュータ記憶媒体がさらに記載されている。換言すると、前記コンピュータ実行可能な命令がプロセッサにより実行された後、上記の任意一の技術案で提案された画像視差推定方法が実現される。
本実施例によるコンピュータ記憶媒体中の各プログラムの機能について、上記の各実施例で説明された画像視差推定方法に係る説明を参照して理解し得ることを、当業者が理解すべきであろう。
上記の各実施例で説明された画像視差推定方法および装置に基づき、具体的に無人運転の分野に適用される場合の適用シーンを以下に説明する。
視差推定ニューラルネットワークは、無人運転プラットフォームに適用される場合、道路交通シーンに面して、車体前方の視差マップをリアルタイムで出力し、さらに前方の各ターゲット、位置の距離を推定することができる。視差推定ニューラルネットワークは、例えば大きなターゲット、遮蔽などのより複雑な条件に対しても、信頼できる視差予測を効果的に与えることができる。両眼ステレオカメラが実装された自動運転プラットフォームで、視差推定ニューラルネットワークは、道路交通シーンに面して、正確な視差予測結果を与えることができ、特に局所的曖昧な位置(強光、鏡面、大きなターゲット)に対しても、信頼できる視差値を与えることができる。このように、スマートカーは、より明晰な周辺環境情報および道路状況情報を取得し、周辺環境情報および道路状況情報に基づく無人運転を行うことができるため、運転の安全性が向上することとなる。
本出願で提案された幾つかの実施例において、披露されたデバイスおよび方法は、その他の方式によっても実施され得ることが理解されるべきであろう。以上説明したデバイス実施例は例示的なものに過ぎず、例えば、前記ユニットの区画はロジック機能の区画に過ぎず、実際に実現する場合、別の方式で区画してもよく、例えば、複数のユニットまたはコンポーネントを別のシステムに結合するかまたは集積してもよく、または一部の特徴を無視するか実行しなくてもよい。また、表示または検討されている各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、デバイスまたはユニットを介した間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。
上記の分離している部品として説明したユニットは、物理的に分離しても物理的に分離しなくてもよく、ユニットとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、同一の場所に位置しても、複数のネットワークユニットに分布してもよく、実際の需要に応じて、そのうちの一部または全部のユニットを選択して本実施例の技術案の目的を達成することができる。
また、本出願の各実施例中の各機能ユニットは全て一つの処理ユニットに集積されてもよく、各ユニットはそれぞれ単独で一つのユニットとして存在してもよく、二つ以上のユニットは一つのユニットに集積されてもよい。上記の集積されたユニットは、ハードウェアの形態で実現されてもよく、ハードウェアとソフトウェアからなる機能ユニットの形態で実現されてもよい。
上記の方法実施例を実現するためのステップの全部または一部は、プログラムにより関連するハードウェアに指示することで実行され、上記のプログラムはコンピュータ可読記憶媒体に格納され、当該プログラムが実行される際に、上記の方法実施例のステップが実現されることとなり、上記の記憶媒体は、モバイルストレージデバイス、リードオンリーメモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含むことを、当業者が理解すべきであろう。
あるいは、本出願の上記集積されたユニットは、ソフトウェア機能モジュールの形態で実現され、かつ独立した製品として販売されるかまたは使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本出願の実施例に係る技術案の実質または従来技術に貢献した部分は、ソフトウェア製品の形態で体現でき、当該コンピュータソフトウェア製品は、記憶媒体に格納され、コンピュータデバイス(パーソナルコンピュータ、サーバー、またはネットワークデバイスなどであってもよい)に本出願の各実施例に記載の方法の全部または一部を実行させるための若干の命令を含む。上記の記憶媒体は、モバイルストレージデバイス、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含む。

Claims (11)

  1. 視差推定ニューラルネットワークにより実現される画像視差推定方法であって、
    対象シーンの第1視点画像および第2視点画像を取得することと、
    前記第1視点画像に対して特徴抽出処理を行って第1視点特徴情報を取得することと、
    前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得することと、
    前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得することと、
    を含み、
    前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含み、
    前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
    前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得することと、
    前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得することと、
    前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む
    ことを特徴とする画像視差推定方法。
  2. 前記第2視点画像に対して特徴抽出処理を行って第2視点特徴情報を取得することと、
    前記第1視点特徴情報および前記第2視点特徴情報に基づいて相関処理を行って前記相関情報を取得することと、
    をさらに含むことを特徴とする請求項1に記載の画像視差推定方法。
  3. 前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得することは、
    前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得することと、
    前記混合特徴情報に基づいて前記視差予測情報を取得することと、
    を含むことを特徴とする請求項1または2に記載の画像視差推定方法。
  4. 前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、
    前記第1視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、
    前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
    を含むことを特徴とする請求項1~3のいずれか一項に記載の画像視差推定方法。
  5. 前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、
    前記第1視点再構築セマンティック情報および前記第1視点画像の第1セマンティックラベルに基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、
    前記第1視点再構築セマンティック情報および前記第1視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、
    を含むことを特徴とする請求項1~4のいずれか一項に記載の画像視差推定方法。
  6. 前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
    前記視差予測情報および前記第2視点画像に基づいて第1視点再構築画像を取得することと、
    前記第1視点再構築画像と前記第1視点画像との光度差に基づいて光度損失値を特定することと、
    前記視差予測情報に基づいて平滑化損失値を特定することと、
    前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
    を含むことを特徴とする請求項1~5のいずれか一項に記載の画像視差推定方法。
  7. 前記第1視点画像と前記第2視点画像とは、ラベルされた視差情報に対応し、
    前記方法は、前記視差予測情報および前記ラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることをさらに含む、ことを特徴とする請求項1~6のいずれか一項に記載の画像視差推定方法。
  8. 前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
    前記視差予測情報および前記ラベルされた視差情報に基づいて視差回帰損失値を特定することと、
    前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
    を含むことを特徴とする請求項に記載の画像視差推定方法。
  9. 対象シーンの第1視点画像および第2視点画像を取得するための画像取得モジュールと、
    前記第1視点画像および前記第2視点画像に基づいて視差予測情報を取得するための視差推定ニューラルネットワークと、
    前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第1ネットワークトレーニングモジュールと、を備え、
    前記視差推定ニューラルネットワークは、
    前記第1視点画像に対して特徴抽出処理を行って第1視点特徴情報を取得するための一次特徴抽出モジュールと、
    前記第1視点画像に対してセマンティックセグメンテーション処理を行って第1視点セマンティックセグメンテーション情報を取得するためのセマンティック特徴抽出モジュールと、
    前記第1視点特徴情報、前記第1視点セマンティックセグメンテーション情報、および前記第1視点画像と前記第2視点画像との相関情報に基づいて、前記第1視点画像と前記第2視点画像との視差予測情報を取得するための視差回帰モジュールと、
    を含み、
    前記第1ネットワークトレーニングモジュールはさらに、
    前記第2視点画像に対してセマンティックセグメンテーション処理を行って第2視点セマンティックセグメンテーション情報を取得し、
    前記第2視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第1視点再構築セマンティック情報を取得し、
    前記第1視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられることを
    ことを特徴とする画像視差推定装置。
  10. 画像視差推定装置であって、
    メモリと、プロセッサと、前記メモリに格納され且つ前記プロセッサ上で実行可能なコンピュータプログラムと、を備え、
    前記コンピュータプログラムが前記プロセッサによって実行される際に、請求項1~8のいずれか一項に記載の画像視差推定方法が実現されることを特徴とする画像視差推定装置。
  11. 記憶媒体であって、
    前記記憶媒体にはコンピュータプログラムが格納されており、
    前記コンピュータプログラムがプロセッサによって実行される際に、請求項1~8のいずれか一項に記載の画像視差推定方法が前記プロセッサによって実行されることを特徴とする記憶媒体。
JP2021502923A 2018-07-25 2019-07-23 画像視差推定 Active JP7108125B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810824486.9A CN109191515B (zh) 2018-07-25 2018-07-25 一种图像视差估计方法及装置、存储介质
CN201810824486.9 2018-07-25
PCT/CN2019/097307 WO2020020160A1 (zh) 2018-07-25 2019-07-23 图像视差估计

Publications (2)

Publication Number Publication Date
JP2021531582A JP2021531582A (ja) 2021-11-18
JP7108125B2 true JP7108125B2 (ja) 2022-07-27

Family

ID=64936941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021502923A Active JP7108125B2 (ja) 2018-07-25 2019-07-23 画像視差推定

Country Status (5)

Country Link
US (1) US20210142095A1 (ja)
JP (1) JP7108125B2 (ja)
CN (1) CN109191515B (ja)
SG (1) SG11202100556YA (ja)
WO (1) WO2020020160A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191515B (zh) * 2018-07-25 2021-06-01 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
WO2020027233A1 (ja) 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム
JP6725733B2 (ja) * 2018-07-31 2020-07-22 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置および電子機器
CN113168713B (zh) * 2018-12-14 2024-09-06 富士胶片株式会社 小批量学习装置及其工作程序、工作方法及图像处理装置
CN110060230B (zh) * 2019-01-18 2021-11-26 商汤集团有限公司 三维场景分析方法、装置、介质及设备
CN110163246B (zh) * 2019-04-08 2021-03-30 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110148179A (zh) * 2019-04-19 2019-08-20 北京地平线机器人技术研发有限公司 一种训练用于估计图像视差图的神经网络模型方法、装置及介质
CN110060264B (zh) * 2019-04-30 2021-03-23 北京市商汤科技开发有限公司 神经网络训练方法、视频帧处理方法、装置及系统
CN110378201A (zh) * 2019-06-05 2019-10-25 浙江零跑科技有限公司 一种基于侧环视鱼眼相机输入的多列车铰接角测量方法
CN110310317A (zh) * 2019-06-28 2019-10-08 西北工业大学 一种基于深度学习的单目视觉场景深度估计的方法
CN110728707B (zh) * 2019-10-18 2022-02-25 陕西师范大学 基于非对称深度卷积神经网络的多视角深度预测方法
US10984290B1 (en) 2019-11-15 2021-04-20 Zoox, Inc. Multi-task learning for real-time semantic and/or depth aware instance segmentation and/or three-dimensional object bounding
CN111192238B (zh) * 2019-12-17 2022-09-20 南京理工大学 基于自监督深度网络的无损血管三维测量方法
US20210390407A1 (en) * 2020-06-10 2021-12-16 Waymo Llc Training perspective computer vision models using view synthesis
CN111768434B (zh) * 2020-06-29 2024-07-16 Oppo广东移动通信有限公司 视差图获取方法、装置、电子设备和存储介质
CN112634341B (zh) * 2020-12-24 2021-09-07 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112767468B (zh) * 2021-02-05 2023-11-03 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
JP2023041286A (ja) * 2021-09-13 2023-03-24 日立Astemo株式会社 画像処理装置、および、画像処理方法
CN113807251A (zh) * 2021-09-17 2021-12-17 哈尔滨理工大学 一种基于外观的视线估计方法
CN113808187A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 视差图生成方法、装置、电子设备和计算机可读介质
US20230140170A1 (en) * 2021-10-28 2023-05-04 Samsung Electronics Co., Ltd. System and method for depth and scene reconstruction for augmented reality or extended reality devices
CN114528976B (zh) * 2022-01-24 2023-01-03 北京智源人工智能研究院 一种等变网络训练方法、装置、电子设备及存储介质
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆
CN117422750B (zh) * 2023-10-30 2024-08-02 河南送变电建设有限公司 一种场景距离实时感知方法、装置、电子设备及存储介质
CN117789971B (zh) * 2024-02-13 2024-05-24 长春职业技术学院 基于文本情感分析的心理健康智能评测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996399A (zh) 2009-08-18 2011-03-30 三星电子株式会社 在左图像与右图像之间估计视差的设备和方法
CN102799646A (zh) 2012-06-27 2012-11-28 浙江万里学院 一种面向多视点视频的语义对象分割方法
JP2018010359A (ja) 2016-07-11 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4196302B2 (ja) * 2006-06-19 2008-12-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN101344965A (zh) * 2008-09-04 2009-01-14 上海交通大学 基于双目摄像的跟踪系统
CN102663765B (zh) * 2012-04-28 2016-03-02 Tcl集团股份有限公司 一种基于语义分割的三维图像立体匹配方法和系统
US10055013B2 (en) * 2013-09-17 2018-08-21 Amazon Technologies, Inc. Dynamic object tracking for user interfaces
CN105631479B (zh) * 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN108280451B (zh) * 2018-01-19 2020-12-29 北京市商汤科技开发有限公司 语义分割及网络训练方法和装置、设备、介质
CN108229591B (zh) * 2018-03-15 2020-09-22 北京市商汤科技开发有限公司 神经网络自适应训练方法和装置、设备、程序和存储介质
CN109191515B (zh) * 2018-07-25 2021-06-01 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996399A (zh) 2009-08-18 2011-03-30 三星电子株式会社 在左图像与右图像之间估计视差的设备和方法
CN102799646A (zh) 2012-06-27 2012-11-28 浙江万里学院 一种面向多视点视频的语义对象分割方法
JP2018010359A (ja) 2016-07-11 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN109191515A (zh) 2019-01-11
US20210142095A1 (en) 2021-05-13
SG11202100556YA (en) 2021-03-30
CN109191515B (zh) 2021-06-01
JP2021531582A (ja) 2021-11-18
WO2020020160A1 (zh) 2020-01-30

Similar Documents

Publication Publication Date Title
JP7108125B2 (ja) 画像視差推定
Yang et al. Dense depth posterior (ddp) from single image and sparse range
AU2017324923B2 (en) Predicting depth from image data using a statistical model
US11830211B2 (en) Disparity map acquisition method and apparatus, device, control system and storage medium
Huang et al. Indoor depth completion with boundary consistency and self-attention
CN108269266A (zh) 使用马尔可夫随机场优化来产生分割图像
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
Popović et al. Volumetric occupancy mapping with probabilistic depth completion for robotic navigation
Yue et al. Semi-supervised monocular depth estimation based on semantic supervision
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
Prasad et al. Epipolar geometry based learning of multi-view depth and ego-motion from monocular sequences
CN118429524A (zh) 基于双目立体视觉的车辆行驶环境建模方法及系统
Han et al. Self-supervised monocular Depth estimation with multi-scale structure similarity loss
CN117808691A (zh) 一种基于差异显著性聚合和联合梯度约束的图像融合方法
Tseng et al. Semi-supervised image depth prediction with deep learning and binocular algorithms
CN112818932A (zh) 图像处理方法、障碍物检测方法、装置、介质及车辆
CN113160210A (zh) 基于深度相机的排水管道缺陷检测方法及装置
CN116630238A (zh) 双目立体匹配方法、装置、电子设备及存储介质
CN116523990A (zh) 三维语义场景补全方法、设备和介质
CN116630528A (zh) 基于神经网络的静态场景重建方法
CN111738061A (zh) 基于区域特征提取的双目视觉立体匹配方法及存储介质
Fan et al. Photo Hull regularized stereo
Chen et al. Disocclusion-type aware hole filling method for view synthesis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210119

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220714

R150 Certificate of patent or registration of utility model

Ref document number: 7108125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150