JP7108125B2

JP7108125B2 - 画像視差推定

Info

Publication number: JP7108125B2
Application number: JP2021502923A
Authority: JP
Inventors: 建萍石
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-07-25
Filing date: 2019-07-23
Publication date: 2022-07-27
Anticipated expiration: 2039-07-23
Also published as: JP2021531582A; CN109191515A; SG11202100556YA; WO2020020160A1; CN109191515B; US20210142095A1

Description

本出願は、コンピュータビジョン技術分野に関し、具体的に、画像視差推定方法および装置、並びに記憶媒体に関する。

視差推定は、コンピュータビジョンの基本的な研究課題であり、例えば深度予測、シーン理解など諸多の分野に深く応用されている。ほとんどの方法では、視差推定タスクをマッチングの問題とし、この面から、これらの方法は、安定した信頼できる特徴で画像ブロックを示し、ステレオ画像から類似する画像ブロックをマッチングとして選択し、視差値を算出する。

本出願は、画像視差推定に係る技術案を提案している。

第１態様として、本出願の実施例により、対象シーンの第１視点画像および第２視点画像を取得することと、前記第１視点画像に対して特徴抽出処理を行って第１視点特徴情報を取得することと、前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得することと、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得することと、を含む、画像視差推定方法が提案される。

上記の技術案において、選択的には、前記方法は、前記第２視点画像に対して特徴抽出処理を行って第２視点特徴情報を取得することと、前記第１視点特徴情報および前記第２視点特徴情報に基づいて相関処理を行って前記相関情報を取得することと、をさらに含む。

上記の技術案において、選択的には、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との前記相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得することは、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報および前記相関情報に対して混合処理を行って混合特徴情報を取得することと、前記混合特徴情報に基づいて視差予測情報を取得することと、を含む。

上記の技術案において、選択的には、前記画像視差推定方法は、視差推定ニューラルネットワークにより実現され、前記方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含む。

上記の技術案において、選択的には、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得することと、前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得することと、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

上記の技術案において、選択的には、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

上記の技術案において、選択的には、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、あるいは、前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

上記の技術案において、選択的には、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得することと、前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

上記の技術案において、選択的には、前記第１視点画像と前記第２視点画像とは、ラベルされた視差情報に対応し、前記方法は、前記視差予測情報および前記ラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることをさらに含む。

上記の技術案において、選択的には、前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記ラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

第２態様として、本出願の実施例により、対象シーンの第１視点画像および第２視点画像を取得するための画像取得モジュールと、前記第１視点画像および前記第２視点画像に基づいて視差予測情報を取得するための視差推定ニューラルネットワークと、を備え、前記視差推定ニューラルネットワークは、前記第１視点画像に対して特徴抽出処理を行って第１視点特徴情報を取得するための一次特徴抽出モジュールと、前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得するためのセマンティック特徴抽出モジュールと、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得するための視差回帰モジュールと、を含む画像視差推定装置が提案される。

上記の技術案において、選択的には、前記一次特徴抽出モジュールはさらに、前記第２視点画像に対して特徴抽出処理を行って第２視点特徴情報を取得するために用いられ、前記視差回帰モジュールは、前記第１視点特徴情報および前記第２視点特徴情報に基づいて相関処理を行って前記相関情報を取得するための相関特徴抽出モジュールをさらに含む。

上記の技術案において、選択的には、前記視差回帰モジュールはさらに、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得し、前記混合特徴情報に基づいて前記視差予測情報を取得するために用いられる。

上記の技術案において、選択的には、前記装置は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第１ネットワークトレーニングモジュールをさらに備える。

上記の技術案において、選択的には、前記第１ネットワークトレーニングモジュールはさらに、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得し、前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得し、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

上記の技術案において、選択的には、前記第１ネットワークトレーニングモジュールはさらに、前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定し、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

上記の技術案において、選択的には、前記第１ネットワークトレーニングモジュールはさらに、前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整し、あるいは、前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

上記の技術案において、選択的には、前記第１ネットワークトレーニングモジュールはさらに、前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得し、前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失値を特定し、前記視差予測情報に基づいて平滑化損失値を特定し、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

上記の技術案において、選択的には、前記装置は、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第２ネットワークトレーニングモジュールをさらに備え、前記第１視点画像と前記第２視点画像は、ラベルされた視差情報に対応する。

上記の技術案において、選択的には、前記第２ネットワークトレーニングモジュールはさらに、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定し、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

第３態様として、本出願の実施例により、メモリと、プロセッサと、メモリに格納され且つプロセッサ上で実行可能なコンピュータプログラムと、を備え、前記プログラムが前記プロセッサによって実行される際に、本出願の実施例に記載の画像視差推定方法のステップが実現される、画像視差推定装置が提案される。

第４態様として、本出願の実施例により、記憶媒体であって、前記記憶媒体にはコンピュータプログラムが格納されており、前記コンピュータプログラムがプロセッサによって実行される際に、本出願の実施例に記載の画像視差推定方法のステップが前記プロセッサによって実行される、記憶媒体が提案される。

本出願で提案される技術案は、対象シーンの第１視点画像および第２視点画像を取得し、前記第１視点画像に対して特徴抽出処理を行って第１視点特徴情報を取得し、前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得し、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像の視差予測情報を取得することにより、視差予測の正確さを向上させることができる。

本出願の実施例で提案される画像視差推定方法の実現流れの概略図である。

本出願の実施例で提案される視差推定システムのアーキテクチャの概略図である。

本出願の実施例で提案されるＫＩＴＴＩＳｔｅｒｅｏデータ集合に対しての既存の推定方法による効果と、本出願の推定方法による効果との比較図である。

本出願の実施例で提案されるＫＩＴＴＩＳｔｅｒｅｏテスト集合での教師あり定性的な結果を示しており、そのうち、図４Ａは、ＫＩＴＴＩ２０１２テストデータの定性的な結果、図４Ｂは、ＫＩＴＴＩ２０１５テストデータの定性的な結果である。

本出願の実施例で提案されるＣｉｔｙＳｃａｐｅｓ検証集合での教師無し定性的な結果である。

本出願の実施例で提案される画像視差推定装置の構成構造の概略図である。

本出願をよりよく説明するために、以下、視差推定方法の例示を幾つか紹介する。

視差推定は、コンピュータビジョン中の基本的な課題である。それは広く応用され、深度予測、シーン理解、自動運転を含む。視差推定の主な過程は、ステレオ画像ペアの左右画像からマッチングした画素を見付けることであり、マッチングした画素間の距離は視差である。ほとんどの視差推定方法は主として、画像ブロックを示すための信頼できる特徴を設定し、その次に左右画像からマッチングした画像ブロックを選択して、視差を算出するものである。これらの方法のうち、大部分は教師有り学習方式でニューラルネットワークをトレーニングして視差を予測し、一部はトレーニングに教師無し方式を採用しようとする。

最近、深度ニューラルネットワークの発展に伴い、視差推定の性能も大幅に向上することとなる。画像の特徴を抽出する際の深度ニューラルネットワークの良好な堅牢性のおかげで、より一層精確かつ信頼できるマッチング画像ブロックの検索および位置決めを実現することが可能となる。

しかしながら、特定的な局所的検索範囲が与えられ、且つ深度学習自体が大きな受容野を持っているにもかかわらず、局所的曖昧性（ｌｏｃａｌａｍｂｉｇｕｉｔｙ）の問題の克服は依然として困難であり、局所的曖昧性は、主として画像中のテクスチャ無し領域に起因するものである。例えば、道路の中心、車両の中心、強光領域、陰影領域への視差予測が正しくない場合が多くあり、これは主に、これらの領域が十分なテクスチャ情報を欠如し、光度整合性損失（ＰｈｏｔｏｍｅｔｒｉｃＣｏｎｓｉｓｔｅｎｃｙＬｏｓｓ）がニューラルネットワークによる正しいマッチング位置の見付けを援助するのに十分でないためである。そして、このような問題は、教師あり学習方式または教師無し学習方式でニューラルネットワークのトレーニングにおいて遭遇するものと思われる。

このことを基にすると、本出願は、セマンティック情報を利用した画像視差推定に係る技術案を提案する。

以下、本出願の技術案について、図面と具体的な実施例に基づいて更に詳しく説明する。

本出願の実施例では画像視差推定方法が提案されており、図１に示すように、前記方法は、主として次のステップを含む。

ステップ１０１：対象シーンの第１視点画像および第２視点画像を取得する。

ここで、前記第１視点画像と前記第２視点画像は、両眼視システム中の２台のビデオカメラまたは２台のカメラによって同一時刻に収集された同じ時空に関するシーン画像である。

例えば、前記第１視点画像は、前記両眼視システム中の第１ビデオカメラによって収集された画像であり、前記第２視点画像は、前記両眼視システム中の第２ビデオカメラによって収集された画像であり得る。

第１視点画像と第２視点画像は、同じシーンについて異なる視点で収集された画像を示す。第１視点画像と第２視点画像はそれぞれ、左視点画像と右視点画像であり得る。具体的には、前記第１視点画像は左視点画像であり、それに応じて前記第２視点画像は右視点画像であってもよいし、前記第１視点画像は右視点画像であり、それに応じて前記第２視点画像は左視点画像であってもよい。本出願の実施例では、第１視点画像と第２視点画像の具現化について限定しない。

ここで、前記シーンには、運転援助シーン、ロボット追跡シーン、ロボット位置決めシーンなどが含まれる。本出願では、これを限定しない。

ステップ１０２：前記第１視点画像に対して特徴抽出処理を行って、第１視点特徴情報を取得する。

ステップ１０２は、畳み込みニューラルネットワークにより具現化されることができる。例えば、前記第１視点画像を視差推定ニューラルネットワークに入力して処理することができ、説明の便宜上、以下、当該視差推定ニューラルネットワークを、ＳｅｇＳｔｅｒｅｏネットワークと命名する。

第１視点画像は、視差推定ニューラルネットワーク中の特徴抽出処理用の第１サブネットワークへの入力として用いられる。具体的には、第１視点画像を前記第１サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第１視点特徴情報を取得する。

ここで、前記第１視点特徴情報は第１視点一次特徴マップであり、あるいは、第１視点特徴情報および第２視点特徴情報は３次元テンソルで、少なくとも１つのマトリックスを含むようにしてもよく、本開示の実施例では、第１視点特徴情報の具現化について限定しない。

視差推定ニューラルネットワークの特徴抽出ネットワークまたは畳み込みサブネットワークにより、第１視点画像の特徴情報または一次特徴マップを抽出する。

ステップ１０３：前記第１視点画像に対してセマンティックセグメンテーション処理を行って、第１視点セマンティックセグメンテーション情報を取得する。

ＳｅｇＳｔｅｒｅｏネットワークには少なくとも２つのサブネットワークが含まれ、それぞれが第１サブネットワークと第２サブネットワークと記されており、前記第１サブネットワークは、特徴抽出ネットワークであり、前記第２サブネットワークは、セマンティックセグメンテーションネットワークであり得る。前記特徴抽出ネットワークによれば、視点一次特徴マップが得られ、前記セマンティックセグメンテーションネットワークによれば、セマンティック特徴マップが得られる。例示的には、第１サブネットワークはＰＳＰＮｅｔ－５０（ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ）の少なくとも一部により実現でき、第２サブネットワークの少なくとも一部もＰＳＰＮｅｔ－５０により実現でき、換言すると、第１サブネットワークと第２サブネットワークはＰＳＰＮｅｔ－５０の一部の構造を共用できる。ただし、本出願の実施例では、ＳｅｇＳｔｅｒｅｏネットワークの具現化について限定しない。

第１視点画像をセマンティックセグメンテーションネットワークに入力してマンティックセグメンテーション処理を行って、第１視点セマンティックセグメンテーション情報を取得するようにしてもよい。

第１視点特徴情報をセマンティックセグメンテーションネットワークに入力してセマンティックセグメンテーション処理を行って、第１視点セマンティックセグメンテーション情報を取得するようにしてもよい。それに応じて、前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得することは、第１視点特徴情報に基づいて第１視点セマンティックセグメンテーション情報を取得することを含む。

第１視点セマンティックセグメンテーション情報は、３次元テンソルまたは第１視点セマンティック特徴マップであってもよく、本開示の実施例では、第１視点セマンティックセグメンテーション情報の具現化について限定しない。

第１視点一次特徴マップは、視差推定ニューラルネットワーク中のセマンティック情報抽出処理用の第２サブネットワークへの入力として用いられる。具体的には、第１視点特徴情報または第１視点一次特徴マップを第２サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第１視点セマンティックセグメンテーション情報を取得する。

ステップ１０４：前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得する。

第１視点画像と第２視点画像に対して相関処理を行って、第１視点画像と第２視点画像との相関情報を取得するようにしてもよい。

第１視点特徴情報と第２視点特徴情報に基づいて相関処理を行って、前記第１視点画像と前記第２視点画像との相関情報を取得するようにしてもよく、前記第２視点特徴情報は、前記第２視点画像に対して特徴抽出処理を行うことにより取得されたものである。第２視点特徴情報は第２視点一次特徴マップであり、あるいは、第２視点特徴情報は３次元テンソルであり、且つ少なくとも１つのマトリックスを含むようにしてもよい。本開示の実施例では、第２視点特徴情報の具現化について限定しない。

第２視点画像は、視差推定ニューラルネットワーク中の特徴抽出処理用の第１サブネットワークへの入力として用いられる。具体的には、第２視点画像を前記第１サブネットワークに入力し、多層畳み込み演算をしたことにより、第２視点特徴情報を取得する。その次に、前記第１視点特徴情報と前記第２視点特徴情報に基づいて相関演算を行って、前記第１視点画像と前記第２視点画像との相関情報を取得する。

前記第１視点特徴情報と前記第２視点特徴情報に基づいて相関演算を行うことは、前記第１視点特徴情報と前記第２視点特徴情報のうち、マッチングする可能性のある画像ブロックに対して相関演算を行って、相関情報を取得することを含む。換言すると、第１視点特徴情報と第２視点特徴情報に対して相関（ｃｏｒｒｅｌａｔｉｏｎ）演算を行って相関情報を取得し、相関情報は、主としてマッチングした特徴の抽出に用いられるものである。相関情報は、相関特徴マップであるようにしてもよい。

第１視点一次特徴マップおよび第２視点一次特徴マップは、視差推定ニューラルネットワーク中の相関演算用の相関演算モジュールへの入力として用いられる。例えば、図２に示される相関演算モジュール２４０に第１視点一次特徴マップおよび第２視点一次特徴マップを入力し、相関演算をしたことにより、前記第１視点画像と前記第２視点画像との相関情報を取得する。

前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得することは、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って、混合特徴情報を取得すること、前記混合特徴情報に基づいて視差予測情報を取得することを含む。

ここでの混合処理は、例えば融合やチャネルによる重ね合わせなどの連結処理であり得る。本開示の実施例ではこれを限定しない。

前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行う前に、第１視点特徴情報、第１視点セマンティックセグメンテーション情報、および相関情報中の一項または複数項に対して変換処理を行うことにより、前記変換処理された第１視点特徴情報、第１視点セマンティックセグメンテーション情報および相関情報の次元を同じにするようにしてもよい。

前記方法は、前記第１視点特徴情報に対して変換処理を行って、第１視点変換特徴情報を取得することをさらに含むようにしてもよい。このときに、第１視点変換特徴情報、前記第１視点セマンティックセグメンテーション情報および前記相関情報に対して混合処理を行って、混合特徴情報を取得するようにしてもよい。例えば、前記第１視点特徴情報に対して空間変換処理を行って、第１視点変換特徴情報を取得し、当該第１視点変換特徴情報の次元は、事前に設定されたものである。

選択的には、第１視点変換特徴情報は、第１視点変換特徴マップであってもよく、本開示の実施例では、第１視点変換特徴情報の具現化について限定しない。

例えば、前記第１サブネットワークから出力された前記第１視点特徴情報に対して、さらに１つの畳み込み層による畳み込み演算をしたことにより、第１視点変換特徴情報を取得する。畳み込みモジュールにより第１視点特徴情報を処理して第１視点変換特徴情報を取得するようにしてもよい。

選択的には、混合特徴情報は混合特徴マップであるようにしてもよく、本開示の実施例では、混合特徴情報の具現化について限定しない。視差予測情報は視差予測マップであるようにしてもよく、本開示の実施例では、視差予測情報の具現化について限定しない。

ＳｅｇＳｔｅｒｅｏネットワークには、第１サブネットワークおよび第２サブネットワークに加えて、第３サブネットワークも含まれている。前記第３サブネットワークは、第１視点画像と第２視点画像との視差予測情報を特定するためのものであり、前記第３サブネットワークは視差回帰ネットワークであり得る。

具体的には、前記視差回帰ネットワークに前記第１視点変換特徴情報、前記相関情報、前記第１視点セマンティックセグメンテーション情報を入力し、前記視差回帰ネットワークはこれらの情報を混合特徴情報に併合し、前記混合特徴情報に基づいて回帰を行って視差予測情報を取得する。

前記混合特徴情報に基づいて、図２に示される視差回帰ネットワーク中の残差ネットワークおよび逆畳み込みモジュール２５０により、視差予測情報を予測する。

換言すると、第１視点変換特徴マップ、相関特徴マップ、第１視点セマンティック特徴マップを併合して混合特徴マップを取得することにより、セマンティック特徴の埋め込みを実現することができる。混合特徴マップを取得後、視差回帰ネットワーク中の残差ネットワークおよび逆畳み込み構造を引き続き使用することにより、最終、視差予測マップを出力する。

ＳｅｇＳｔｅｒｅｏネットワークは主に残差構造を使用し、より認識しやすい画像の特徴を抽出でき、なお、第１視点画像と第２視点画像との相関特徴を抽出すると同時に、高レベルのセマンティック特徴を埋め込むことにより、予測の精度が向上することとなる。

上記の方法は、視差推定ニューラルネットワークの適用プロセス、すなわち、トレーニングされた視差推定ニューラルネットワークにより、処理対象となる画像ペアに対して視差推定を行う方法であり得る。幾つかの例示では、上記の方法は、視差推定ニューラルネットワークのトレーニングプロセスであってもよく、すなわち、上記の方法は、視差推定ニューラルネットワークのトレーニングにも適用し、このとき、第１視点画像および第２視点画像がサンプル画像である。

本開示の実施例では、事前定義されたニューラルネットワークを教師無し方式によりトレーニングして、前記第１サブネットワーク、前記第２サブネットワーク、および前記第３サブネットワークを含む視差推定ニューラルネットワークを取得するようにしてもよい。あるいは、視差推定ニューラルネットワークを教師あり方式によりトレーニングして、前記第１サブネットワーク、前記第２サブネットワーク、および前記第３サブネットワークを含む視差推定ニューラルネットワークを取得するようにしてもよい。

前記方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含む。

前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得することと、前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得することと、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとを含む。第１視点再構築セマンティック情報は、再構築された第１セマンティック特徴マップであり得る。

第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得するようにしてもよい。

第２視点特徴情報をセマンティックセグメンテーションネットワークに入力し処理して、第２視点セマンティックセグメンテーション情報を取得するようにしてもよい。それに応じて、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得することは、第２視点特徴情報に基づいて第２視点セマンティックセグメンテーション情報を取得することを含む。

選択的には、第２視点セマンティックセグメンテーション情報は、３次元テンソルまたは第２視点セマンティック特徴マップであり得、本開示の実施例では、第２視点セマンティックセグメンテーション情報の具現化について限定しない。

第２視点一次特徴マップは、視差推定ニューラルネットワーク中のセマンティック情報抽出処理用の第２サブネットワークへの入力として用いられる。具体的には、第２視点特徴情報または第２視点一次特徴マップを第２サブネットワークに入力し、多層畳み込み演算または畳み込み処理後に更にその他の処理をしたことにより、第２視点セマンティックセグメンテーション情報を取得する。

視差推定ニューラルネットワーク中のセマンティックセグメンテーションネットワークまたは畳み込みサブネットワークにより、第１視点セマンティック特徴マップおよび第２視点セマンティック特徴マップを抽出する。

第１視点特徴情報および第２視点特徴情報をセマンティックセグメンテーションネットワークに入力し、セマンティックセグメンテーションネットワークにより第１視点セマンティックセグメンテーション情報および第２視点セマンティックセグメンテーション情報を出力するようにしてもよい。

選択的には、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定すること、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、を含む。

前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、を含む。

選択的には、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、前記第１視点再構築セマンティック情報と前記第１視点セマンティックセグメンテーション情報との差異に基づいて、セマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

選択的には、予測された視差予測情報および第２視点セマンティックセグメンテーション情報に基づいて再構築操作を行って、第１視点再構築セマンティック情報を取得し、なお、前記第１視点再構築セマンティック情報を第１正解（ＧｒｏｕｎｄＴｒｕｔｈ）セマンティックラベルと比べてセマンティック損失値を取得し、前記セマンティック損失値を参照して前記視差推定ニューラルネットワークのネットワークパラメータを調整するようにしてもよい。当該第１正解セマンティックラベルは、手動でラベルしたものであり、ここでの教師無し学習方式は、セマンティックセグメンテーション情報に対しての教師無し学習ではなく、視差に対しての教師無し学習である。

セマンティック損失は、クロスエントロピーロス（Ｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ）であり得るが、本開示の実施例では、セマンティック損失の具現化について限定しない。

視差推定ニューラルネットワークをトレーニングする際に、セマンティック損失を算出するための関数が定義されており、当該関数が豊富なセマンティック整合性情報を導入できるため、トレーニングされたネットワークによれば一般的な局所的曖昧性の問題の減少が可能となる。

前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得することと、前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することができる。

予測された視差予測情報および実の第２視点画像に基づく再構築操作を行って、第１視点再構築画像を取得し、前記第１視点再構築画像を実の第１視点画像と比べた光度差に基づいて光度損失を取得することができる。

画像を再構築して光度差を測定するという方式により、ネットワークを教師無し方式でトレーニングして、正解画像への依存を大幅に減らすことができる。

前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報および前記第２視点画像に基づいて再構築操作を行って第１視点再構築画像を取得することと、前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、前記第１視点再構築セマンティック情報と前記第１正解セマンティックラベルとの差異に基づいて、セマンティック損失を特定することと、前記光度損失、前記平滑化損失、および前記セマンティック損失に基づいて総損失を特定することと、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、をさらに含む。トレーニング時に用いられるトレーニング集合として、正解視差画像を提供することは不要となる。

ここで、前記総損失は、個々の損失の加重和に等しくなる。

このように、正解視差画像を提供する必要がなく、再構築画像と元画像との光度差に基づいてネットワークをトレーニングすることができる。第１視点画像と第２視点画像との相関特徴を抽出する際に、セマンティック特徴マップが埋め込まれ、セマンティック損失も定義され、低レベルのテクスチャ情報と高レベルのセマンティック情報の組み合わせにより、セマンティック整合性の制約が加えられ、大きなターゲット領域でトレーニングされたニューラルネットワークの視差予測レベルが向上し、局所的曖昧性の問題がある程度減少されることとなる。

選択的には、前記視差推定ニューラルネットワークのトレーニング方法は、前記視差予測情報に基づいて前記視差推定ニューラルネットワークを教師あり方式によりトレーニングすることをさらに含む。

具体的には、前記第１視点画像と前記第２視点画像は、ラベルされた視差情報に対応しており、前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングする。

選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記視差回帰損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む。

選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、第１視点再構築セマンティック情報と第１正解セマンティックラベルとの差異に基づいて、セマンティック損失を特定することと、前記視差回帰損失、前記セマンティック損失、および前記平滑化損失に基づいて教師あり方式によるトレーニングの総損失を特定すること、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、を含む。トレーニング時に用いられるトレーニング集合として、ラベルされた視差情報を提供することは必要となる。

選択的には、前記視差予測情報およびラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差予測情報における平滑化しない領域に制約を課すことにより、平滑化損失を特定することと、第１視点再構築セマンティック情報と前記第１視点セマンティックセグメンテーション情報との差異に基づいて、セマンティック損失を特定することと、前記視差回帰損失、前記セマンティック損失、および前記平滑化損失に基づいて教師あり方式によるトレーニングの総損失を特定することと、前記総損失の最小化に基づいて視差推定ニューラルネットワークをトレーニングすることと、を含む。トレーニング時に用いられるトレーニング集合として、ラベルされた視差情報を提供することは必要となる。

このように、教師あり方式によるトレーニングにより視差推定ニューラルネットワークを取得し、正解信号のある箇所について、予測値と正解値との差を、教師ありの場合の視差回帰損失として算出するようにしてもよく、なお、教師無しトレーニングの場合のセマンティック損失および平滑化損失も適用する。

前記第１サブネットワーク、前記第２サブネットワーク、および前記第３サブネットワークは何れも、視差推定ニューラルネットワークをトレーニングして取得したサブネットワークである。異なるサブネットワーク、即ち第１サブネットワーク、第２サブネットワーク、第３サブネットワークについて、異なるサブネットワークへの入出力コンテンツが異なるが、それらはすべて同じ対象シーンを対象としている。

視差推定ニューラルネットワークのトレーニング方法は、トレーニングサンプル集合を使用して視差推定ニューラルネットワークに対して視差予測マップのトレーニングおよびセマンティック特徴マップのトレーニングを同時に行うことで、前記第１サブネットワーク、前記第２サブネットワーク、および前記第３サブネットワークの最適化されたパラメータを取得することを含む。

視差推定ニューラルネットワークのトレーニング方法は、先ず、トレーニングサンプル集合を使用して視差推定ニューラルネットワークに対してセマンティック特徴マップのトレーニングを行うことと、その次に、前記トレーニングサンプル集合を使用して、セマンティック特徴マップの予測トレーニングがされた視差推定ニューラルネットワークに対して、視差予測マップのトレーニングを行うことで、前記第２サブネットワークおよび前記第１サブネットワークの最適化されたパラメータを取得することとを含む。

換言すると、視差推定ニューラルネットワークをトレーニングする際に、セマンティック特徴マップの予測トレーニングと視差予測マップのトレーニングを段階的に実行することができる。

本出願の実施例にて提案されたセマンティック情報に基づく画像視差推定方法は、エンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ）の視差予測ニューラルネットワークを使用し、ステレオ画像ペアの左右視点画像を入力すると、視差予測マップを直接取得でき、リアルタイムの要求を満たすことができる。同時に、再構築画像と元画像により光度差を測定する方式により、ネットワークを教師無し方式でトレーニングして、正解画像への依存を大幅に減らすことができる。また、左右視点画像間の相関特徴を抽出する際に、セマンティック特徴マップが埋め込まれ、セマンティック損失も定義され、低レベルのテクスチャ情報と高レベルのセマンティック情報の組み合わせにより、セマンティック整合性の制約が加えられ、例えば大きな路面、大きな車両などの大きなターゲット領域でのネットワークによる視差予測レベルが向上し、局所的曖昧性の問題がある程度減少されることとなる。

図２は、視差推定システムのアーキテクチャを示す概略図であり、当該視差推定システムのアーキテクチャがＳｅｇＳｔｅｒｅｏ視差推定システムアーキテクチャと記され、当該ＳｅｇＳｔｅｒｅｏ視差推定システムアーキテクチャが教師無し学習および教師あり学習に適している。

先ず、視差推定ニューラルネットワークの基本的なネットワーク構成を与え、その次に、当該視差推定ニューラルネットワークにセマンティックキューポリシーを如何にして導入するかを詳しく説明し、最後に、教師無しおよび教師あり方式で視差推定ニューラルネットワークをトレーニングする際に使用された損失項を如何にして計算するかを展示する。

先ず、視差推定ニューラルネットワークの基本的な構成を説明する。

システムのアーキテクチャ全体の概略図は図２に示される通りとなり、事前調整されたステレオ画像ペアには、第１視点画像（または左視点画像と呼ばれる）Ｉ^ｌと第２視点画像（または右視点画像と呼ばれる）Ｉ^ｒが含まれるようにしてもよい。浅いニューラルネットワーク２１０を使用して一次画像特徴マップを抽出することができ、第１視点画像Ｉ^ｌを当該浅いニューラルネットワーク２１０に入力して第１視点一次特徴マップＦ^ｌを取得し、第２視点画像Ｉ^ｒを当該浅いニューラルネットワーク２１０に入力して第２視点一次特徴マップＦ^ｒを取得する。第１視点一次特徴マップは前記第１視点特徴情報を示し、第２視点一次特徴マップは前記第２視点特徴情報を示すようにしてもよい。浅いニューラルネットワーク２１０は、畳み込みカーネルが３＊３＊２５６の畳み込みブロックであり得、当該畳み込みブロックは、畳み込み層と、バッチ正規化および正規化線形ユニット（ＲｅＬＵ、Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）層とを含む。浅いニューラルネットワーク２１０は、第１サブネットワークであり得る。

一次特徴マップを基にすると、トレーニングされたセマンティックセグメンテーションネットワーク２２０を使用してセマンティック特徴マップを抽出し、当該セマンティックセグメンテーションネットワーク２２０は、ＰＳＰＮｅＴ－５０ネットワークの一部により実現できる。第１視点一次特徴マップＦ^ｌをセマンティックセグメンテーションネットワーク２２０に入力すれば、第１視点セマンティック特徴マップＦ^ｌ _ｓが得られ、第２視点一次特徴マップＦ^ｒをセマンティックセグメンテーションネットワーク２２０に入力すれば、第２視点セマンティック特徴マップＦ^ｒ _ｓが得られる。

第１視点一次特徴マップＦ^ｌについて、第１視点画像の細部を保留するために、別の畳み込みブロック２３０により第１視点変換特徴マップＦ^ｌ _ｔを算出することができる。ここで、元画像のサイズに対して、一次特徴マップ、セマンティック特徴マップおよび変換特徴マップのサイズが縮小され、例えば、元画像のサイズに対して１／８となる。第１視点一次特徴マップ、第２視点一次特徴マップ、第１セマンティック特徴マップ、第２セマンティック特徴マップ、および第１視点変換特徴マップは、サイズが同じである。第１視点画像と第２視点画像は、サイズが同じである。

相関モジュール２４０により第１視点一次特徴マップＦ^ｌと第２視点一次特徴マップＦ^ｒとの間のマッチングコスト（Ｍａｔｃｈｉｎｇｃｏｓｔ）を算出して、相関特徴マップＦ_ｃを取得することができる。相関モジュール２４０は、オプティカルフロー推定ネットワーク（例えば、ＦｌｏｗＮｅｔ）において使用される相関方法により２枚の特徴マップ間の相関性を算出することができる。相関演算

において、最大視差パラメータをｄに設定してもよい。これにより、例えばサイズがｈ×ｗ×（ｄ＋１）の相関特徴マップＦ_ｃを取得でき、式中、ｈは第１視点一次特徴マップＦ^ｌの高さ、ｗは第１視点一次特徴マップＦ^ｌの幅である。

第１視点変換特徴マップＦ^ｌ _ｔ、第１視点セマンティック特徴マップＦ^ｌ _ｓ、および相関特徴マップＦ_ｃを連結すると、混合特徴マップ（前記混合特徴情報を表示）Ｆ_ｈを取得することができる。混合特徴マップＦ_ｈを後続の残差ネットワークおよび逆畳み込みモジュール２５０に送ると、第１視点画像Ｉ^ｌの元サイズとサイズが同じである視差マップＤを取得することができる。

以下、本出願で提案されるセマンティック特徴の視差推定ニューラルネットワークへの作用、および視差推定ニューラルネットワークにセマンティック特徴を使用するモジュールについて、詳しく説明する。

前記の通り、視差推定の難点は局所的曖昧性の問題にあり、局所的曖昧性は主として画像中の相対的にぼやけたテクスチャ無し領域に起因する。これらの領域は内部に連続性があり、これらの領域はセグメンテーションにおいて明確なセマンティック意味を持っている。そのため、セマンティックキューを用いて、最終的な視差マップの予測および修正に役立つことが可能である。これらのセマンティックキューは、２種類の方式により統合され得る。方式一は、特徴学習中にセマンティックキューを視差予測マップに埋め込むものである。方式二は、損失項の算出にセマンティックキューを導入することにより、ニューラルネットワークのトレーニングプロセスをガイドするものである。

先ず、方式一、すなわち、特徴学習中にセマンティックキューを視差予測マップに埋め込むことを如何にして実現するかについて説明する。

前記の通り、図２を参照すると、入力されたステレオ画像ペアには、第１視点画像と第２視点画像が含まれており、浅いニューラルネットワーク２１０により第１視点一次特徴マップおよび第２視点一次特徴マップを別々取得した後に、セマンティックセグメンテーションネットワーク２２０により第１視点一次特徴マップおよび第２視点一次特徴マップのセマンティック特徴を別々抽出して、第１視点セマンティック特徴マップおよび第２視点セマンティック特徴マップを取得するようにしてもよい。入力されたステレオ画像ペアに対して、トレーニングされた浅いニューラルネットワーク２１０およびセマンティックセグメンテーションネットワーク２２０（例えばＰＳＰＮｅＴ－５０構造により実現できるもの）により特徴を抽出し、セマンティックセグメンテーションネットワーク２２０の最終的な特徴マッピング（即ち特徴ｃｏｎｖ５＿４）の出力を、第１視点セマンティック特徴マップＦ^ｌ _ｓおよび第２視点セマンティック特徴マップＦ^ｒ _ｓとする。浅いニューラルネットワーク２１０としてＰＳＰＮｅＴ－５０ネットワークの一部を使用し、当該ネットワークの中間特徴（即ち特徴ｃｏｎｖ３＿１）の出力を、第１視点一次特徴マップＦ^ｌおよび第２視点一次特徴マップＦ^ｒとするようにしてもよい。セマンティック特徴を埋め込むために、第１視点セマンティック特徴マップＦ^ｌ _ｓ上での畳み込み操作、例えば、畳み込みカーネルのサイズが１×１×１２８の一つの畳み込みブロックによる畳み込み操作を行うことにより、変換された第１セマンティック特徴マップＦ^ｌ _ｓ＿ｔ（図２には図示されない）を取得するようにしてもよい。その次に、Ｆ^ｌ _ｓ＿ｔを第１視点変換特徴マップＦ^ｌ _ｔおよび相関特徴マップＦ_ｃと連結して、混合特徴マップ（前記混合特徴情報を表示）Ｆ_ｈを取得するとともに、取得した混合特徴マップＦ_ｈを視差回帰ネットワークの余剰部分、例えば後続の残差ネットワークおよび逆畳み込みモジュール２５０に送る。

その次に、方式二、すなわち、損失項の算出にセマンティックキューを導入してニューラルネットワークをトレーニングすることを如何にして実現するかについて説明する。

視差推定ニューラルネットワークをトレーニングする際に、損失項にセマンティックキューを導入することは、視差学習のガイドに役立つこともできる。セマンティックキューは、セマンティッククロスエントロピーロスＬ_ｓｅｇによって特徴付けることができる。図２中の再構築モジュール２６０により再構築操作を行い、第２視点セマンティック特徴マップおよび視差予測マップに作用して、再構築された第１セマンティック特徴マップを取得でき、その後に、第１視点セマンティック特徴マップの正解セマンティックラベルを使用してセマンティッククロスエントロピーロスＬ_ｓｅｇを測定できる。第２視点セマンティック特徴マップＦ^ｒ _ｓのサイズは、元画像（即ち第２視点画像）のサイズの１／８であり、視差予測マップＤは第２視点画像とサイズが同じであり、即ちフルサイズである。特徴再構築を行うためには、先ず、第２視点セマンティック特徴マップをフルサイズにアップサンプリングし、その次に特徴再構築を、アップサンプリングされたフルサイズの第２視点セマンティック特徴マップおよび視差予測マップＤに適用して、フルサイズの再構築された第１視点セマンティック特徴マップを取得する。当該フルサイズの再構築された第１視点セマンティック特徴マップをダウンサンプリングし、フルサイズの１／８にスケーリングして、再構築された第１セマンティック特徴マップＦ^ｌ _ｓ＿ｗを取得する。その後に、畳み込みカーネルのサイズが１×１×Ｃである畳み込み分類器を使用して視差学習を正規化し、ここで、Ｃは、セマンティッククラスの数である。最後に、セマンティッククロスエントロピーロスＬ_ｓｅｇを、ｓｏｆｔｍａｘ損失関数の形式で表す。

本例示の視差推定ニューラルネットワークのトレーニングについて、損失項はセマンティッククロスエントロピーロスに加えて、その他のパラメータも含む。上記のセマンティック情報は、教師無し方式および教師あり方式によるモデルトレーニングに組み合わせられ得る。以下、この２つの方式による総損失の算出方法を説明する。
（教師無し方式）

入力されたステレオ画像ペアには２枚の画像が含まれ、そのうちの１枚の画像は、視差予測マップにより別の１枚の画像から再構築でき、論理的には、再構築された画像は元の入力画像に近接するものである。光学的整合性により教師無し方式で視差を学習する。視差予測マップＤが与えられたと仮定すると、第２視点画像Ｉ^ｒに対して図２に示される再構築モジュール２６０による画像再構築操作を行い、第１視点再構築画像

を取得する。その次に、Ｌ１ノルム（ｎｏｒｍ）により光学的整合性を正規化し、取得された光度損失Ｌ_ｐは式（１）に示す通りとなる。

式中、Ｎは画素の数で、ｉおよびｊは画素のインデックスで、

はＬ１ノルムである。

光学的整合性により教師無し方式で視差学習を行うことができる。Ｌ_ｐには視差の局所的平滑度を推定するための正規化項がないと、局所的視差は不連続になる可能性がある。この問題を補うために、Ｌ１ノルムにより視差予測マップの勾配マップ∂Ｄの平滑度に対して罰または制約を課することができ、取得された平滑損失Ｌ_ｓは式（２）に示す通りとなる。

式中、ρ_ｓ（・）は、一般化されたＣｈａｒｂｏｎｎｉｅｒ関数によって実現される空間平滑化ペナルティ関数である。

セマンティックキューを使用するために、セマンティック特徴の埋め込みとセマンティック損失を考慮すると、それぞれの画素の位置には、存在可能性なセマンティッククラス毎に予測値がある。セマンティッククラスは、路面、車両、建物などであってもよく、同時に、セマンティッククラスは、正解ラベルによりマークされ、正解ラベルは１つのクラス番号であってもよい。正解ラベル上での予測値が最大となる。セマンティッククロスエントロピーロスＬ_ｓｅｇは、式（３）に示す通りとなる。

式中、

、ここで、ｆ_ｙｉは正解ラベルで、ｙｊはクラス番号で、ｆ_ｙｊはカテゴリがｙｊであるアクティベーション値（ａｃｔｉｖａｔｉｏｎ）で、ｉは画素のインデックスであり、単一画素のｓｏｆｔｍａｘ損失を次のように定義する。一枚の画像全体に対して、ラベル付き画素の位置のｓｏｆｔｍａｘ損失を算出し、ラベル付き画素の集合はＮ_ｖである。

教師無し方式による総損失Ｌ_{ｕｎｓｕｐ}は、光度（ｐｈｏｔｏｍｅｔｒｉｃ）損失Ｌ_ｐ、平滑化（ｓｍｏｏｔｈｎｅｓｓ）損失Ｌ_ｓ、およびセマンティッククロスエントロピーロスＬ_ｓｅｇを含む。さまざまな損失ブランチの学習のバランスをとるために、光度損失Ｌ_ｐには損失重みλ_ｐが導入され、平滑化損失Ｌ_ｓには損失重みλ_Ｓが導入され、セマンティッククロスエントロピーロスＬ_ｓｅｇには損失重みλ_ｓｅｇが導入される。そのため、総損失Ｌ_{ｕｎｓｕｐ}は、式（４）に示す通りとなる。

その後に、総損失Ｌ_{ｕｎｓｕｐ}の最小化に基づいて視差予測ニューラルネットワークをトレーニングすることにより、事前設定された視差予測ニューラルネットワークを取得する。具体的なトレーニング方法として、当業者が常用する方法を使用でき、ここでは重複に説明しない。
（教師あり方式）

本出願で提案される視差予測ためのセマンティックキューは、教師あり方式の場合であっても良好な作用を奏することができる。

教師あり方式の場合、１つのステレオ画像ペアのサンプルとして、第１視点画像および第２視点画像に加えて、当該ステレオ画像ペアの正解視差画像

をも提供する。そのため、Ｌ１ノルムを直接使用して予測回帰を正規化することができる。視差回帰損失Ｌ_ｒは、以下の式（５）で表され得る。

教師あり方式による総損失Ｌ_ｓｕｐは、視差回帰損失Ｌ_ｒ、平滑化損失Ｌ_ｓ、およびセマンティッククロスエントロピーロスＬ_ｓｅｇを含む。さまざまな損失の学習のバランスをとるために、視差回帰損失Ｌ_ｒには損失重みλ_ｒが導入され、平滑化損失Ｌ_ｓには損失重みλ_Ｓが導入され、セマンティッククロスエントロピーロスＬ_ｓｅｇには損失重みλ_ｓｅｇが導入される。そのため、総損失Ｌ_ｓｕｐは、式（６）に示す通りとなる。

その後に、総損失Ｌ_ｓｕｐの最小化に基づいて視差予測ニューラルネットワークをトレーニングすることにより、事前設定された視差予測ニューラルネットワークを取得する。同様に、具体的なトレーニング方法として、当業者が常用する方法を使用でき、ここでは重複に説明しない。

本出願で提案される視差予測ニューラルネットワークによれば、左右視点画像間の相関情報を抽出すると同時に、高レベルのセマンティック特徴を埋め込むので、視差マップの予測精度の向上に役立つことができる。さらに、ネットワークをトレーニングする際に、セマンティッククロスエントロピーロスを算出するための関数が定義されており、当該関数が豊富なセマンティック整合性情報を導入できるため、一般的な局所的曖昧性の問題を効果的に減少することができる。また、教師無し学習方式を採用した場合、再構築画像と元画像との光度差に応じて、正しい視差値を出力するようにネットワークをトレーニングできるため、正解視差画像を多量提供することは不要となり、トレーニングの複雑さおよび演算コストを効果的に軽減することができる。

本技術案の主な貢献として少なくとも以下の部分を含むことを説明する必要はある。

提案されたＳｅｇＳｔｅｒｅｏフレームワークにより、セマンティックセグメンテーション情報が視差推定に組み合わせられ、そのセマンティック整合性が視差推定のアクティブガイドとして用いられ得る。セマンティック特徴埋め込みポリシーとセマンティック損失関数ｓｏｆｔｍａｘは、教師無しまたは教師あり方式でネットワークのトレーニングに役立つことができる。提案された視差推定方法は、ＫＩＴＴＩＳｔｅｒｅｏ２０１２および２０１５ベンチマークで最も先進的な結果を得ることができる。ＣｉｔｙＳｃａｐｅｓデータ集合での予測によっても、当該方法の有効性が示されている。ここで、ＫＩＴＴＩＳｔｅｒｅｏデータ集合は、自動運転シーンでのコンピュータビジョンアルゴリズムによる評価データ集合であり、当該データ集合は、生データ（ｒａｗｄａｔａ）形式のデータを提供するだけでなく、各タスクのベンチマークも提供している。ＣｉｔｙＳｃａｐｅｓデータ集合は、都市の道路や街並みのセマンティック意味向けのデータ集合である。

図３Ａ～図３Ｄは、ＫＩＴＴＩＳｔｅｒｅｏデータ集合に対しての既存の予測方法による効果と、本出願の予測方法による効果との比較図であり、その中で、図３Ａおよび図３Ｂは、入力されたステレオ画像ペアを示し、図３Ｃは、既存の予測方法により図３Ａおよび図３Ｂを処理した後に得られた誤差図を示し、図３Ｄは、本出願の予測方法により図３Ａおよび図３Ｂを処理した後に得られた誤差図を示す。その中で、誤差図は、再構築された画像と入力された元画像との減算によって取得されたものである。図３Ｃ中の右下の暗い領域は、エラー予測領域を示す。図３Ｄから明らかなように、図３Ｃと比較すると、右下のエラー領域が大幅に減少している。したがって、セマンティックキューによるガイドを受けると、特に局所的なぼやけた領域で、ＳｅｇＳｔｅｒｅｏネットワークの視差推定がより正確になる。

図４Ａおよび４Ｂは、ＫＩＴＴＩテスト集合の幾つかの定性的な例示を示しており、本出願で提案される方法により、ＳｅｇＳｔｅｒｅｏネットワークは、挑戦的で複雑なシーンを処理する場合であっても、良好な視差推定結果を取得することができる。図４Ａは、ＫＩＴＴＩ２０１２テストデータの定性的な結果を示しており、図４Ａに示すように、左から右に、第１視点画像、視差予測マップ、誤差図である。図４Ｂは、ＫＩＴＴＩ２０１５テストデータの定性的な結果を示しており、図４Ｂに示すように、左から右に、第１視点画像、視差予測マップ、誤差図である。図４Ａと図４Ｂから明らかなように、ＫＩＴＴＩＳｔｅｒｅｏテスト集合には監視された定性的な結果がある。セマンティック情報を組み込むことにより、本出願で提案される方法は複雑なシーンを処理することができる。

ＳｅｇＳｔｅｒｅｏネットワークは、その他のデータ集合にも適応でき、たとえば、教師無しのトレーニングによって取得されたＳｅｇＳｔｅｒｅｏネットワークは、ＣｉｔｙＳｃａｐｅｓ検証集合で測定されるようにしてもよい。図５Ａ～図５Ｃは、ＣｉｔｙＳｃａｐｅｓ検証集合での教師無しトレーニングネットワークの予測結果を示しており、図５Ａは、第１視点画像であり、図５Ｂは、ＳＧＭアルゴリズムを利用して図５Ａを処理して得られた視差予測マップであり、図５Ｃは、ＳｅｇＳｔｅｒｅｏネットワークを利用して図５Ａを処理して得られた視差予測マップである。明らかに、ＳＧＭアルゴリズムと比較して、ＳｅｇＳｔｅｒｅｏネットワークはグローバルシーン構造と対象細部の面でより良い結果を生み出した。

以上を纏めて、本出願で提案されるＳｅｇＳｔｅｒｅｏ視差推定アーキテクチャでは、視差推定ネットワークにセマンティックキューが導入された。具体的には、セグメンテーションブランチとしてＰＳＰＮｅｔを使用してステレオ画像ペアのセマンティック特徴を抽出し、視差部分として残差ネットワーク（ＲｅｓＮｅｔ）と相関モジュール（Ｃｏｒｒｅｌａｔｉｏｎ）を使用して視差予測マップに回帰することができる。相関モジュールは、ステレオ画像ペアのマッチングキューをエンコードするためのものである。セグメンテーション特徴は、セマンティック特徴として、相関モジュールの後にある視差ブランチに埋め込まれている。また、セマンティック損失の正規化により、ステレオ画像ペアのセマンティック整合性を再構築することにより、視差推定の堅牢性がさらに向上することとなる。セマンティックセグメンテーションネットワークと視差回帰ネットワークは何れも完全に畳み込みであるため、当該ネットワークによりエンドツーエンドのトレーニングが実行できる。

セマンティックキューが組み込まれたＳｅｇＳｔｅｒｅｏネットワークは、教師無しのトレーニングおよび教師ありのトレーニングに適用できる。教師無しのトレーニング中では、光学的整合性損失とセマンティッククロスエントロピーロスの両方が算出されて、後向き伝播される。セマンティック特徴の埋め込みとセマンティッククロスエントロピーロスの両方にはセマンティック整合性との有利な制約を導入し得る。また、教師ありのトレーニング方案の場合、教師無しの光学的整合性損失ではなく、教師ありの視差回帰損失を使用してネットワークをトレーニングでき、これにより、ＫＩＴＴＩＳｔｅｒｅｏベンチマークでの先進的な結果を得ることができ、例えばＫＩＴＴＩＳｔｅｒｅｏ２０１２および２０１５ベンチマークで高度な結果が得られる。ＣｉｔｙＳｃａｐｅｓデータ集合での予測によっても、当該方法の有効性が示されている。

上記のセマンティック情報が組み合わせられたステレオ画像ペアの視差推定方法は、先ず対象シーンの第１視点画像および第２視点画像を取得し、１つの特徴抽出ネットワークにより第１視点画像および第２視点画像の一次特徴マップを抽出し、第１視点一次特徴マップに対して１つの畳み込みブロックを増やすことで第１視点変換特徴マップを取得し、第１視点一次特徴マップおよび第２視点一次特徴マップに基づき、相関モジュールにより第１視点一次特徴マップと第２視点一次特徴マップとの相関特徴マップを算出し、その次に１つのセマンティックセグメンテーションネットワークにより第１視点セマンティック特徴マップを取得し、第１視点変換特徴マップ、相関特徴マップ、第１視点セマンティック特徴マップを合併して混合特徴マップを取得し、最後、残差ネットワークおよび逆畳み込みモジュールにより視差予測マップを回帰する。このように、特徴抽出ネットワーク、セマンティックセグメンテーションネットワーク、視差回帰ネットワークから構成された視差推定ニューラルネットワークにより、第１視点画像と第２視点画像を入力すれば、視差予測マップを快速に出力でき、エンドツーエンドの視差予測を実現し、リアルタイムの要求を満たすことができる。ここで、第１視点画像と第２視点画像とのマッチング特徴を算出する際に、セマンティック特徴マップを埋め込み、即ちセマンティック整合性の制約を増やし、局所的曖昧性の問題をある程度減少し、視差予測の正確さを向上できる。

図１～図２に示される例示中のさまざまな具体的な実現方式は、必ずしも同時に満たすのではなく、そのロジックに従う任意の方式で組み合わせることができ、換言すると、図１に示される方法実施例における任意一または複数のステップおよび／または流れは、図２に示される例示を、選択的な具体的な実現方式とすることができるが、これに限られないということは、理解されるべきであろう。

さらに、図１～図２に示される例示は、単なる例示的な本出願の実施例に過ぎず、当業者であれば、図１～図２に示される例示に基づいてさまざまな自明な変更および／または置換を行うことができ、得られた技術案は相変わらず本出願の実施例の公開範囲に属するということは、理解されるべきであろう。

本出願の実施例では、上記の画像視差推定方法に対応するものとして、画像視差推定装置が提案されており、図６に示すように、前記装置は、以下のモジュールを備える。

画像取得モジュール１０：対象シーンの第１視点画像および第２視点画像を取得するためのものである。

視差推定ニューラルネットワーク２０：前記第１視点画像および前記第２視点画像に基づいて視差予測情報を取得するためのものである。当該視差推定ニューラルネットワーク２０は、以下のモジュールを含む。

一次特徴抽出モジュール２１は：前記第１視点画像に対して特徴抽出処理を行って、第１視点特徴情報を取得するためのものである。

セマンティック特徴抽出モジュール２２：前記第１視点画像に対してセマンティックセグメンテーション処理を行って、第１視点セマンティックセグメンテーション情報を取得するためのものである。

視差回帰モジュール２３：前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得するためのものである。

上記の技術案では、選択的には、前記一次特徴抽出モジュール２１はさらに、前記第２視点画像に対して特徴抽出処理を行って、第２視点特徴情報を取得するために用いられ、前記視差回帰モジュール２３は、第１視点特徴情報および第２視点特徴情報に基づいて相関処理を行って前記相関情報を取得するための相関特徴抽出モジュールをさらに備える。

一実施形態として、選択的には、前記視差回帰モジュール２３はさらに、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得し、前記混合特徴情報に基づいて視差予測情報を取得するために用いられる。

上記の技術案では、選択的には、前記装置は、前記視差予測情報に基づいて視差推定ニューラルネットワーク２０をトレーニングするための第１ネットワークトレーニングモジュール２４をさらに備える。

一実施形態として、選択的には、前記第１ネットワークトレーニングモジュール２４はさらに、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得し、前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得し、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワーク２０のネットワークパラメータを調整するために用いられる。

一実施形態として、選択的には、前記第１ネットワークトレーニングモジュール２４はさらに、前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定し、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワーク２０のネットワークパラメータを調整するために用いられる。

一実施形態として、選択的には、前記第１ネットワークトレーニングモジュール２４はさらに、前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて前記視差推定ニューラルネットワーク２０のネットワークパラメータを調整し、あるいは、前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワーク２０のネットワークパラメータを調整するために用いられる。

一実施形態として、選択的には、前記第１ネットワークトレーニングモジュール２４はさらに、前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得し、前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失値を特定し、前記視差予測情報に基づいて平滑化損失値を特定し、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワーク２０のネットワークパラメータを調整するために用いられる。

上記の技術案では、選択的には、前記装置は、前記視差予測情報およびラベルされた視差情報に基づいて視差推定ニューラルネットワーク２０をトレーニングするための第２ネットワークトレーニングモジュール２５をさらに備え、前記第１視点画像と前記第２視点画像とはラベルされた視差情報に対応している。

一実施形態として、選択的には、前記第２ネットワークトレーニングモジュール２５はさらに、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定し、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられる。

図６に示される画像視差推定装置中の各処理モジュールの実現機能について、上記の画像視差推定方法に係る説明を参照して理解し得ることを、当業者が理解すべきであろう。図６に示される画像視差推定装置中の各処理ユニットの機能について、プロセッサ上で実行されているプログラムによって実現してもよいし、具体的な論理回路によって実現してもよいことを、当業者が理解すべきであろう。

実際のアプリケーション中、上記の画像取得モジュール１０は、情報取得方法が異なると、構造も異なり、クライアントから受信するときは通信インターフェースであるが、自動的に採集するときは画像コレクタに対応するものとなる。上記の画像取得モジュール１０および視差推定ニューラルネットワーク２０の具体的な構造は何れもプロセッサに対応することができる。前記プロセッサの具体的な構造は、中央処理ユニット（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ（ＭＣＵ、ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ、ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはプログラム可能なロジックデバイス（ＰＬＣ、ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＣｏｎｔｒｏｌｌｅｒ）などの処理機能を持つ電子部品または電子部品グループであってもよい。前記プロセッサは、記憶媒体に格納された実行可能コードを実行し、バスなどの通信インターフェースを介して前記記憶媒体に接続でき、具体的な各ユニットの対応する機能を実行する場合、前記記憶媒体から前記実行可能なコードを読み出して実行する。前記記憶媒体における、前記実行可能コードを格納するための部分は、好ましくは不揮発性記憶媒体である。

前記画像取得モジュール１０と視差推定ニューラルネットワーク２０は、同じプロセッサに対応するように集成されるか、またはそれぞれ異なるプロセッサに対応する。同じプロセッサに対応するように集成される場合、前記プロセッサは、時分割により、前記画像取得モジュール１０および視差推定ニューラルネットワーク２０の対応する機能を処理する。

本出願の実施例で提案された画像視差推定装置によれば、一次特徴抽出モジュール、セマンティック特徴抽出モジュール、視差回帰モジュールから構成された視差推定ニューラルネットワークにより、第１視点画像と第２視点画像を入力すれば、視差予測マップを快速に出力でき、エンドツーエンドの視差予測を実現し、リアルタイムの要求を満たすことができる。ここで、第１視点画像および第２視点画像の特徴を算出する際に、セマンティック特徴マップを埋め込み、即ちセマンティック整合性の制約を増やし、局所的曖昧性の問題をある程度克服し、視差予測の正確さおよび最終的な視差予測の精度を向上させることができる。

本出願の実施例では、メモリと、プロセッサと、メモリに格納され且つプロセッサ上で実行可能なコンピュータプログラムと、を備え、前記プログラムが前記プロセッサによって実行される際に、上記の任意一の技術案で提案された画像視差推定方法が実現される画像視差推定装置がさらに記載されている。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第２視点画像に対して特徴抽出処理を行って第２視点特徴情報を取得すること、第１視点特徴情報および第２視点特徴情報に基づいて相関処理を行って前記相関情報を取得することが実現され。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得すること、前記混合特徴情報に基づいて視差予測情報を取得することが実現される。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることが実現される。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得することと、前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得することと、前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて、前記視差推定ニューラルネットワークのネットワークパラメータを調整することが実現される。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得することと、前記第１視点再構築画像と前記第１視点画像との両者間の光度差に基づいて光度損失値を特定することと、前記視差予測情報に基づいて平滑化損失値を特定することと、前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現されることとなる。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報およびラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることが実現され、前記第１視点画像と前記第２視点画像は、前記ラベルされた視差情報に対応している。

一実施形態として、前記プログラムが前記プロセッサで実行される際に、前記視差予測情報およびラベルされた視差情報に基づいて視差回帰損失値を特定することと、前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することとが実現される。

本出願の実施例で提案される画像視差推定装置によれば、視差予測の正確さおよび最終的な視差予測の精度を向上させることができる。

本出願の実施例では、上記の各実施例で説明された画像視差推定方法を実行するためのコンピュータ実行可能な命令が格納されたコンピュータ記憶媒体がさらに記載されている。換言すると、前記コンピュータ実行可能な命令がプロセッサにより実行された後、上記の任意一の技術案で提案された画像視差推定方法が実現される。

本実施例によるコンピュータ記憶媒体中の各プログラムの機能について、上記の各実施例で説明された画像視差推定方法に係る説明を参照して理解し得ることを、当業者が理解すべきであろう。

上記の各実施例で説明された画像視差推定方法および装置に基づき、具体的に無人運転の分野に適用される場合の適用シーンを以下に説明する。

視差推定ニューラルネットワークは、無人運転プラットフォームに適用される場合、道路交通シーンに面して、車体前方の視差マップをリアルタイムで出力し、さらに前方の各ターゲット、位置の距離を推定することができる。視差推定ニューラルネットワークは、例えば大きなターゲット、遮蔽などのより複雑な条件に対しても、信頼できる視差予測を効果的に与えることができる。両眼ステレオカメラが実装された自動運転プラットフォームで、視差推定ニューラルネットワークは、道路交通シーンに面して、正確な視差予測結果を与えることができ、特に局所的曖昧な位置（強光、鏡面、大きなターゲット）に対しても、信頼できる視差値を与えることができる。このように、スマートカーは、より明晰な周辺環境情報および道路状況情報を取得し、周辺環境情報および道路状況情報に基づく無人運転を行うことができるため、運転の安全性が向上することとなる。

本出願で提案された幾つかの実施例において、披露されたデバイスおよび方法は、その他の方式によっても実施され得ることが理解されるべきであろう。以上説明したデバイス実施例は例示的なものに過ぎず、例えば、前記ユニットの区画はロジック機能の区画に過ぎず、実際に実現する場合、別の方式で区画してもよく、例えば、複数のユニットまたはコンポーネントを別のシステムに結合するかまたは集積してもよく、または一部の特徴を無視するか実行しなくてもよい。また、表示または検討されている各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、デバイスまたはユニットを介した間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。

上記の分離している部品として説明したユニットは、物理的に分離しても物理的に分離しなくてもよく、ユニットとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、同一の場所に位置しても、複数のネットワークユニットに分布してもよく、実際の需要に応じて、そのうちの一部または全部のユニットを選択して本実施例の技術案の目的を達成することができる。

また、本出願の各実施例中の各機能ユニットは全て一つの処理ユニットに集積されてもよく、各ユニットはそれぞれ単独で一つのユニットとして存在してもよく、二つ以上のユニットは一つのユニットに集積されてもよい。上記の集積されたユニットは、ハードウェアの形態で実現されてもよく、ハードウェアとソフトウェアからなる機能ユニットの形態で実現されてもよい。

上記の方法実施例を実現するためのステップの全部または一部は、プログラムにより関連するハードウェアに指示することで実行され、上記のプログラムはコンピュータ可読記憶媒体に格納され、当該プログラムが実行される際に、上記の方法実施例のステップが実現されることとなり、上記の記憶媒体は、モバイルストレージデバイス、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含むことを、当業者が理解すべきであろう。

あるいは、本出願の上記集積されたユニットは、ソフトウェア機能モジュールの形態で実現され、かつ独立した製品として販売されるかまたは使用される場合、コンピュータ可読記憶媒体に記憶することができる。このような理解に基づいて、本出願の実施例に係る技術案の実質または従来技術に貢献した部分は、ソフトウェア製品の形態で体現でき、当該コンピュータソフトウェア製品は、記憶媒体に格納され、コンピュータデバイス（パーソナルコンピュータ、サーバー、またはネットワークデバイスなどであってもよい）に本出願の各実施例に記載の方法の全部または一部を実行させるための若干の命令を含む。上記の記憶媒体は、モバイルストレージデバイス、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含む。

Claims

視差推定ニューラルネットワークにより実現される画像視差推定方法であって、
対象シーンの第１視点画像および第２視点画像を取得することと、
前記第１視点画像に対して特徴抽出処理を行って第１視点特徴情報を取得することと、
前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得することと、
前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得することと、
を含み、
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることをさらに含み、
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得することと、
前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得することと、
前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、を含む
ことを特徴とする画像視差推定方法。
前記第２視点画像に対して特徴抽出処理を行って第２視点特徴情報を取得することと、
前記第１視点特徴情報および前記第２視点特徴情報に基づいて相関処理を行って前記相関情報を取得することと、
をさらに含むことを特徴とする請求項１に記載の画像視差推定方法。
前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得することは、
前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記相関情報に対して混合処理を行って混合特徴情報を取得することと、
前記混合特徴情報に基づいて前記視差予測情報を取得することと、
を含むことを特徴とする請求項１または２に記載の画像視差推定方法。
前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、
前記第１視点再構築セマンティック情報に基づいてセマンティック損失値を特定することと、
前記セマンティック損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項１～３のいずれか一項に記載の画像視差推定方法。
前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することは、
前記第１視点再構築セマンティック情報および前記第１視点画像の第１セマンティックラベルに基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、あるいは、
前記第１視点再構築セマンティック情報および前記第１視点セマンティックセグメンテーション情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整すること、
を含むことを特徴とする請求項１～４のいずれか一項に記載の画像視差推定方法。
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
前記視差予測情報および前記第２視点画像に基づいて第１視点再構築画像を取得することと、
前記第１視点再構築画像と前記第１視点画像との光度差に基づいて光度損失値を特定することと、
前記視差予測情報に基づいて平滑化損失値を特定することと、
前記光度損失値および前記平滑化損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項１～５のいずれか一項に記載の画像視差推定方法。
前記第１視点画像と前記第２視点画像とは、ラベルされた視差情報に対応し、
前記方法は、前記視差予測情報および前記ラベルされた視差情報に基づいて前記方法を実現するための視差推定ニューラルネットワークをトレーニングすることをさらに含む、ことを特徴とする請求項１～６のいずれか一項に記載の画像視差推定方法。
前記視差予測情報および前記ラベルされた視差情報に基づいて前記視差推定ニューラルネットワークをトレーニングすることは、
前記視差予測情報および前記ラベルされた視差情報に基づいて視差回帰損失値を特定することと、
前記視差回帰損失値に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項７に記載の画像視差推定方法。
対象シーンの第１視点画像および第２視点画像を取得するための画像取得モジュールと、
前記第１視点画像および前記第２視点画像に基づいて視差予測情報を取得するための視差推定ニューラルネットワークと、
前記視差予測情報に基づいて前記視差推定ニューラルネットワークをトレーニングするための第１ネットワークトレーニングモジュールと、を備え、
前記視差推定ニューラルネットワークは、
前記第１視点画像に対して特徴抽出処理を行って第１視点特徴情報を取得するための一次特徴抽出モジュールと、
前記第１視点画像に対してセマンティックセグメンテーション処理を行って第１視点セマンティックセグメンテーション情報を取得するためのセマンティック特徴抽出モジュールと、
前記第１視点特徴情報、前記第１視点セマンティックセグメンテーション情報、および前記第１視点画像と前記第２視点画像との相関情報に基づいて、前記第１視点画像と前記第２視点画像との視差予測情報を取得するための視差回帰モジュールと、
を含み、
前記第１ネットワークトレーニングモジュールはさらに、
前記第２視点画像に対してセマンティックセグメンテーション処理を行って第２視点セマンティックセグメンテーション情報を取得し、
前記第２視点セマンティックセグメンテーション情報および前記視差予測情報に基づいて第１視点再構築セマンティック情報を取得し、
前記第１視点再構築セマンティック情報に基づいて前記視差推定ニューラルネットワークのネットワークパラメータを調整するために用いられることを
ことを特徴とする画像視差推定装置。
画像視差推定装置であって、
メモリと、プロセッサと、前記メモリに格納され且つ前記プロセッサ上で実行可能なコンピュータプログラムと、を備え、
前記コンピュータプログラムが前記プロセッサによって実行される際に、請求項１～８のいずれか一項に記載の画像視差推定方法が実現されることを特徴とする画像視差推定装置。
記憶媒体であって、
前記記憶媒体にはコンピュータプログラムが格納されており、
前記コンピュータプログラムがプロセッサによって実行される際に、請求項１～８のいずれか一項に記載の画像視差推定方法が前記プロセッサによって実行されることを特徴とする記憶媒体。