JP2022177201A

JP2022177201A - 画像処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022177201A
Application number: JP2022149885A
Authority: JP
Inventors: インインリー，; Yingying Li; シャオタン，; Xiao Tan; ハオスン，; Hao Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2022-09-21
Publication date: 2022-11-30
Also published as: US20230068238A1; CN114120253A; EP4116940A2; CN114120253B; EP4116940A3

Abstract

【課題】深度推定とセマンティックセグメンテーションの精度を向上させる画像処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。【選択図】図１

Description

本開示は、人工知能技術の分野に関し、具体的には、コンピュータービジョンと深層学習技術に関し、特に画像処理方法、装置、電子機器及び記憶媒体に関する。

収集された画像を処理して、画像セグメンテーションと深度認識の結果を取得し、ビジネスシナリオをさらに分析することがより重要であり、例えば、知能化運転シナリオでは、画像セグメンテーションの結果と深度認識の結果に基づいて道路状況を分析することで、運転の安全性を向上させ、渋滞を減らし、交通効率を向上させることができる。そのため、得られた画像セグメンテーションの結果および深度認識の結果を改善することは、早急に解決すべき技術的課題である。

本開示は、画像処理方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、画像処理方法を提供し、処理対象の画像を取得するステップと、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得するステップと、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップと、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得するステップと、を含む。

本開示の別の態様によれば、画像処理装置を提供し、処理対象の画像を取得する取得モジュールと、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する特徴抽出モジュールと、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する融合モジュールと、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する出力モジュールとを備える。

本開示の別の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが一態様に記載の方法のステップを実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに一態様に記載の方法のステップを実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、一態様に記載の方法のステップが実現される。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例によって提供される画像処理方法の概略フローチャートである。本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。本開示の実施例によって提供される画像処理装置の概略構成図である。本開示の実施例によって提供される例示的な電子機器の概略ブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照して本開示の実施例の画像処理方法、装置、電子機器及び記憶媒体を説明する。

図１は本開示の実施例によって提供される画像処理方法の概略フローチャートである。

図１に示すように、この方法は、以下のステップ１０１～１０４を含む。

ステップ１０１では、処理対象の画像を取得する。

本開示の実施例の画像処理方法の実行主体は画像処理装置であり、この画像処理装置は電子機器に設置され得、この電子機器は、携帯電話、ウェアラブルデバイス、車両または車載デバイスなどであり得る。

本開示の実施例では、処理対象の画像は、深度認識および画像セグメンテーションのために処理される必要がある画像である。

ここで、本開示の技術案では、関連するユーザーの個人情報の取得、保存、および適用はすべて、関連する法律および規制の規定に準拠しており、公序良俗に違反しない。

ステップ１０２では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。

本開示の実施例における認識モデルは、デュアルブランチマルチタスクモデルであり、ここで、１つのブランチは、処理対象の画像に対して深度特徴抽出を行うために使用され、もう１つのブランチは、処理対象の画像に対してセマンティックセグメンテーション特徴抽出を行うために使用され、デュアルブランチマルチタスクモデルは、例えば、マルチタスクモデル（Ｐｅｒｃｅｐｔｉｏｎ－ＡｉｄｅｄＳｉｎｇｌｅＩｍａｇｅＤｅｈａｚｉｎｇＮｅｔｗｏｒｋ、ＰＡＤ－ＮＥＴ）、またはマルチスケールタスクインタラクションネットワーク（Ｍｕｌｔｉ－ＳｃａｌｅＴａｓｋＩｎｔｅｒａｃｔｉｏｎＮｅｔｗｏｒｋ、ＭＴＩ-ＮＥＴ）などである。ここで、抽出された深度特徴マップの各要素は、処理対象の画像内の対応する各ピクセルポイントの深度特徴を示す。抽出されたセマンティックセグメンテーション特徴マップ内の各要素は、処理対象の画像内の対応する各ピクセルポイントのセマンティックセグメンテーション特徴を示し、同じセマンティックセグメンテーション特徴を持つ各ピクセルポイントは同じオブジェクトに属している可能性がある。

ステップ１０３では、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。

本開示の実施例では、セマンティックセグメンテーションによって取得された同じカテゴリのオブジェクトの深さは比較的滑らかであり、オブジェクトのエッジ、すなわちセグメンテーションカテゴリが変更される場所の深さはジャンプするため、セグメンテーション特徴と深度特徴の間には相関関係がある。これによって、画像認識モデルに特徴インタラクティブネットワークが追加され、特徴インタラクティブネットワークは、入力された深度特徴マップ及びセマンティックセグメンテーション特徴マップ内の深度特徴およびセマンティック特徴を融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。このようにして、２つのタスク間の相関性を使用して、より良い特徴表現を学習し、後続の出力の深度結果とセマンティックセグメンテーション結果の効果を向上させることができる。

ステップ１０４では、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。

本開示の実施例では、セマンティックセグメンテーション特徴と融合されたターゲット深度特徴マップを、画像認識モデルの対応する出力ネットワークに入力し、ターゲット深度特徴マップ内の深度特徴にはセマンティックセグメンテーション特徴が融合されているため、マルチモーダル特徴に基づいて、得られた深度推定結果の精度を向上させることができる。深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力し、ターゲットセマンティックセグメンテーション特徴マップ内の特徴には深度特徴が融合されているため、マルチモーダル特徴に基づいて、得られたセマンティックセグメンテーション結果の精度を向上させることができる

ここで、深度推定結果とセマンティックセグメンテーション結果は、シナリオごとに異なる役割を果たし、例えば、自動運転の分野では、深度推定結果とセマンティックセグメンテーション結果に基づいて、道路状況を認識し、車線や電柱など、道路の各要素を決定することにより、車両の安全運転を制御することができ、また、車両周辺の障害物および障害物からの距離を認識することにより、障害物を回避して、渋滞を減らし、運転の安全性を向上させることができる。

本開示の実施例の画像処理方法では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得し、インタラクティブネットワークを介して、セマンティックセグメンテーション特徴マップと深度特徴マップに対して特徴融合を行うことにより、２つのタスク間の相関性に基づいて、より良い特徴表現を学習し、深度推定とセマンティックセグメンテーションの精度を向上させる。

上記の実施例に基づいて、本開示の実施例は別の画像処理方法を提供し、図２は、本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。

図２に示すように、この方法は、以下のステップ２０１～２０９を含む。

ステップ２０１では、処理対象の画像を取得する。

ステップ２０２では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。

具体的には、ステップ２０１とステップ２０２は、前述の実施例の説明を参照することができ、原理は同じであり、この実施例では説明を省略する。

ステップ２０３では、特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得する。

本開示の実施例では、セマンティックセグメンテーション重み行列内の各要素は、深度推定を行うときのセマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、つまり、セマンティックセグメンテーション重み行列は、セマンティックセグメンテーション特徴マップにおける深度特徴マップに転送されるセマンティック特徴の数を示し、即ち、セマンティックセグメンテーション特徴マップと深度特徴マップとの間の特徴相関性を示す。ここで、セマンティックセグメンテーション重み行列の場合、可能な一実施形態として、特徴インタラクティブネットワークの畳み込み層は、セグメンテーションセグメンテーションタスクの特徴マップと畳み込まれ、ｓｉｇｍｏｉｄ関数によって、重みパラメータを取得し、そして、認識モデルのトレーニングの過程で重みパラメータを継続的に調整することにより、セマンティックセグメンテーション重み行列が学習される。例えば、セマンティックセグメンテーション重み行列の各要素の値は０～１であり、値が大きいほど、この要素の特徴は深度推定においてより重要であり、より多くを深度特徴マップに転送する必要がある。

ステップ２０４では、セマンティックセグメンテーション特徴マップとセマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得する。

本開示の実施例では、セマンティックセグメンテーション特徴マップとセマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得することにより、重み付けされたセマンティックセグメンテーション特徴マップは、深度推定タスクとセマンティックセグメンテーションタスクの間の相関性をより有効に活用することができる。

ステップ２０５では、重み付きセマンティックセグメンテーション特徴マップと深度特徴マップを融合させて、ターゲット深度特徴マップを取得する。

本開示の実施例の一実施形態では、重み付きセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴を、深度特徴マップ内の深度特徴とスプライスして、ターゲット深度特徴マップを取得し、スプライシングによって得られたターゲット深度特徴マップには、深度特徴が含まれているだけではなく、重み付けされたセマンティックセグメンテーション特徴も融合されているため、ターゲット深度特徴マップに含まれる特徴情報の量を向上させる。

本開示の実施例の別の実施形態では、重み付きセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴と深度特徴マップ内の深度特徴を加算して、ターゲット深度特徴マップを取得し、加算されたターゲット深度特徴マップには、深度特徴が含まれているだけではなく、重み付けされたセマンティックセグメンテーション特徴も融合されているため、ターゲット深度特徴マップに含まれる特徴情報の量を向上させるとともに、特徴の次元は増加しないため、その後の認識のための計算量を減らす。

ステップ２０６では、特徴インタラクティブネットワークによって学習された深度重み行列を取得する。

本開示の実施例では、深度重み行列内の各要素は、セマンティックセグメンテーションを行うときの深度特徴マップ内の対応する要素の特徴の重要性を示し、つまり深度重み行列は、深度特徴マップにおけるセマンティックセグメンテーション特徴マップに転送される深度特徴の数を示し、即ち、セマンティックセグメンテーション特徴マップと深度特徴マップとの間の特徴相関性を示す。ここで、深度重み行列の場合、可能な一実施形態として、特徴インタラクティブネットワークの畳み込み層は、深度推定タスクの特徴マップと畳み込まれ、ｓｉｇｍｏｉｄ関数によって、重みパラメータを取得する。そして、認識モデルのトレーニングの過程で重みパラメータを継続的に調整することにより、深度重み行列が学習される。例えば、深度重み行列の各要素の値は０～１であり、値が大きいほど、この要素の特徴はセマンティックセグメンテーションにおいてより重要であり、より多くをセマンティックセグメンテーション特徴マップに転送する必要がある。

ステップ２０７では、深度特徴マップと深度重み行列を乗算して、重み付き深度特徴マップを取得する。

本開示の実施例では、深度特徴マップと深度重み行列を乗算して、重み付き深度特徴マップを取得することにより、重み付けされた深度特徴マップは、深度推定タスクとセマンティックセグメンテーションタスクの間の相関性をより有効に活用することができる。

ステップ２０８では、重み付き深度特徴マップとセマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する。

本開示の実施例の一実施形態では、重み付き深度特徴マップ内の深度特徴を、セマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴とスプライスして、ターゲットセマンティックセグメンテーション特徴マップを取得し、スプライシングによって得られたターゲットセマンティックセグメンテーション特徴マップには、セマンティックセグメンテーション特徴が含まれているだけではなく、重み付けされた深度特徴も融合されているため、ターゲットセマンティックセグメンテーション特徴マップに含まれる特徴情報の量を向上させる。

本開示の実施例の別の実施形態では、重み付き深度特徴マップ内の深度特徴とセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴を加算して、ターゲットセマンティックセグメンテーション特徴マップを取得し、加算されたターゲットセマンティックセグメンテーション特徴マップには、セマンティックセグメンテーション特徴が含まれているだけではなく、重み付けされた深度特徴も融合されているため、ターゲットセマンティックセグメンテーション特徴マップに含まれる特徴情報の量を向上させるとともに、特徴の次元は増加しないため、その後の認識のための計算量を減らす。

ステップ２０９では、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。

具体的には、前述の実施例の説明を参照することができ、原理は同じであり、この実施例では説明を省略する。

本開示の実施例の画像処理方法では、画像認識モデルには、特徴インタラクティブネットワークが設定され、２つのタスク間の相関性をよりよく使用してより良い特徴表現を学習するために、特徴インタラクティブネットワークによって事前に学習されたセマンティックセグメンテーション重み行列および深度重み行列により、それぞれセマンティック特徴および深度特徴に重みを付け、重み付けされた深度特徴とセマンティックセグメンテーション特徴を融合させて、ターゲット深度特徴マップとターゲットセグメンテーションセマンティック特徴マップを取得し、得られたターゲットセグメンテーション特徴マップとセマンティックセグメンテーション特徴マップの精度が向上し、これにより、ターゲットセグメンテーション特徴マップおよびセマンティックセグメンテーション特徴マップにより、深度推定および画像セグメンテーションの精度が向上する。

上記の実施例に基づいて、図３は本開示の実施例によって提供される別の画像処理方法の概略フローチャートであり、図３に示すように、ステップ２０４は、以下のステップ３０１～３０２を含む。

ステップ３０１では、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各要素の重み付きセマンティックセグメンテーション特徴を取得する。

ステップ３０２では、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップを生成する。

本開示の実施例では、セマンティックセグメンテーション特徴マップに含まれる要素とセマンティックセグメンテーション重み行列に含まれる要素は、１対１の対応関係を有し、同時に、セグメント化される画像内のピクセルポイントまたはピクセルの組み合わせと対応関係を有し、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算することにより、各要素の重み付きセマンティックセグメンテーション特徴を取得することができ、これにより、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップが生成され、重み付きセマンティックセグメンテーション特徴マップの粒度の細分化の度合いが改善される。そして、重み付きセマンティックセグメンテーション特徴マップ内の各要素は、深度特徴マップ内の各要素の深度特徴との相関関係を示し、例えば、重み付きセマンティックセグメンテーションマップでは、セマンティックセグメンテーションの各オブジェクトのエッジに重み付きセグメンテーションセグメンテーション特徴の情報が多く、エッジの深度が大きく変化するという特徴を示す。

本開示の実施例の画像処理方法では、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各要素の重み付きセマンティックセグメンテーション特徴を取得し、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップを生成し、各要素の重み付けにより、重み付きセマンティックセグメンテーション特徴マップの精度を向上させる。

上記の実施例に基づいて、図４は本開示の実施例によって提供される別の画像処理方法の概略フローチャートであり、図４に示すように、ステップ２０７は、以下のステップ４０１～４０２を含む。

ステップ４０１では、深度特徴マップ内の各ピクセルの深度特徴と深度重み行列内の対応するピクセルの重みを乗算して、各ピクセルの重み付き深度特徴を取得する。

ステップ４０２では、各ピクセルの重み付き深度特徴に基づいて、重み付き深度特徴マップを生成する。

本開示の実施例では、深度特徴マップに含まれる要素と深度重み行列に含まれる要素は、１対１の対応関係を有し、深度特徴マップ内の各要素の深度特徴と深度重み行列内の対応する要素の重みを乗算することにより、各要素の重み付き深度特徴を取得することができ、これによって、各要素の重み付き深度特徴に基づいて、重み付き深度特徴マップが生成され、重み付き深度特徴マップの粒度の細分化の度合いが改善される。重み付き深度特徴マップ内の各要素は、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴との相関関係を示し、例えば、重み付き深度マップでは、セマンティックセグメンテーションの各オブジェクトのエッジに深度特徴の情報が多く、エッジの深度が大きく変化するという特徴を示す。

本開示の実施例の画像処理方法では、深度特徴マップ内の各ピクセルの深度特徴と深度重み行列内の対応するピクセルの重みを乗算して、各ピクセルの重み付き深度特徴を取得し、各ピクセルの重み付き深度特徴基づいて、重み付き深度特徴マップを生成し、各要素の重み付きによって、重み付き深度特徴マップの精度を向上させる。

上記実施例を実現するために、本実施例は画像処理装置を提供する。

図５は本開示の実施例によって提供される画像処理装置の概略構成図、図５に示すように、この装置は、取得モジュール５１と、特徴抽出モジュール５２と、融合モジュール５３と、出力モジュール５４と、を備える。

取得モジュール５１は、処理対象の画像を取得する。

特徴抽出モジュール５２は、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。

融合モジュール５３は、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。

出力モジュール５４は、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。

本開示の実施例の一実施形態では、融合モジュール５３は、さらに、前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得し、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得し、前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得する。

本開示の実施例の一実施形態では、融合モジュール５３は、さらに、前記特徴インタラクティブネットワークによって学習された深度重み行列を取得し、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示し、前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得し、前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する。

本開示の実施例の一実施形態では、融合モジュール５３は、具体的には、前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得し、各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成する。

本開示の実施例の一実施形態では、融合モジュール５３は、具体的には、さらに、前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得し、各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成する。

なお、前述の方法の実施例の説明は、本実施例の装置にも適用可能であり、原理は同じであり、この実施例では説明を省略する。

本開示の実施例の画像処理装置では、処理対象の画像を取得し、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得し、インタラクティブネットワークを設定することにより、セマンティックセグメンテーション特徴マップと深度特徴マップを融合させて、マルチモーダルの特徴を取得し、２つのタスク間の相関性に基づいて、より良い特徴表現を学習し、深度推定とセマンティックセグメンテーションの精度を向上させる。

上記実施例を実現するために、本開示の実施例は、電子機器をさらに提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが前述方法の実施例に記載の方法のステップを実行できるように、前記少なくとも１つのプロセッサによって実行される。

上記実施例を実現するために、本開示の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、コンピュータに前述方法の実施例に記載の方法のステップを実行させる。

上記実施例を実現するために、本開示の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、前述方法の実施例に記載の方法のステップが実現される。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータープログラムをさらに提供する。

図６は本開示の実施例によって提供される例示的な電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどのデジタルコンピュータを指す。電子機器はまた、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの音声対話機能を有する様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は主張の本願の実現を限定することを意図しない。

図６に示すように、機器６００は、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、リードオンリーメモリ）６０２に記憶されたコンピュータプログラム、または記憶ユニット６０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）６０３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット６０１を備える。ＲＡＭ６０３には、電子機器６００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット６０１と、ＲＯＭ２８０２と、ＲＡＭ６０３とは、バス６０４を介して互いに接続されている。Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入力／出力）インターフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット６０６と、種々なディスプレイやスピーカなどの出力ユニット６０７と、磁気ディスクや光学ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット６０９と、を備える。通信ユニット２８０９は、電子機器６００がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報/データを交換することを可能にする。

計算ユニット６０１は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理ユニット）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、グラフィックス処理ユニット）、様々な専用のＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、デジタ信号プロセッサ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット６０１は、上述で説明された各方法及び処理、例えば画像処理方法を実行する。例えば、いくつかの実施形態では、画像処理方法は、記憶ユニット６０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ＲＯＭ６０２及び/または通信ユニット６０９を介して、電子機器６００にロード及び/またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされて計算ユニット６０１によって実行される場合に、前述した画像処理方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット６０１は、他の任意の適当な方式（例えば、ファームウェア）により画像処理方法を実行するように構成されてもよい。

ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、専用集積回路）、ＡＳＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰｒｏｄｕｃｔ、専用標準品）、ＳＯＣ（ＳｙｓｔｅｍＯｎＣｈｉｐ、システムオンチップ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、コンプレックスプログラマブルロジックデバイス）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステムにて実行及び/または解釈される１つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで作成されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用され、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、１または複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－Ｏｎｌｙ－Ｍｅｍｏｒｙ、消去可能なプログラム可能なリードオンリメモリ）またはフラッシュメモリ、光ファイバ、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ポータブルコンパクトディスク読み取り専用メモリ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（Ｃａｔｈｏｄｅ－ＲａｙＴｕｂｅ、陰極線管）またはＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバー）、またはフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク）と、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ワイドエリアネットワーク）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとＶＰＳサービス（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、また、「ＶＰＳ」と略記する）では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバーは、分散システムのサーバー、またはブロックチェーンを結合したサーバーであってもよい。

ここで、なお、人工知能は、ハードウェアレベルのテクノロジーとソフトウェアレベルのテクノロジーの両方で、コンピュータに特定の思考プロセスと人々のインテリジェントな行動（学習、推論、思考、計画など）をシミュレートさせることをー研究する学科である。人工知能ハードウェアテクノロジーには、通常、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などのテクノロジーが含まれ、人工知能ソフトウェア技術には、主にコンピュータービジョン技術、音声認識技術、自然言語処理技術、機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などの方向が含まれる。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本明細書は制限されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同等の置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

処理対象の画像を取得するステップと、
前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得するステップと、
前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップと、
ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得するステップと、
を含む画像処理方法。
前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して、セマンティック特徴と融合されたターゲット深度特徴マップを取得するステップが、
前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得するステップであって、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示すステップと、
前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得するステップと、
前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得するステップと、
を含む請求項１に記載の画像処理方法。
前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して、深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップが、
前記特徴インタラクティブネットワークによって学習された深度重み行列を取得するステップであって、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示すステップと、
前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得するステップと、
前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得するステップと、
を含む請求項１に記載の画像処理方法。
前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得するステップが、
前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得するステップと、
各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成するステップと、
を含む請求項２に記載の画像処理方法。
前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得するステップが、
前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得するステップと、
各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成するステップと、
を含む請求項３に記載の画像処理方法。
処理対象の画像を取得する取得モジュールと、
前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する特徴抽出モジュールと、
前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する融合モジュールと、
ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する出力モジュールと、
を備える画像処理装置。
前記融合モジュールが、
前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得し、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、
前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得し、
前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得する請求項６に記載の画像処理装置。
前記融合モジュールが、
前記特徴インタラクティブネットワークによって学習された深度重み行列を取得し、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示し、
前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得し、
前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する請求項６に記載の画像処理装置。
前記融合モジュールが、
前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得し、
各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成する請求項７に記載の画像処理装置。
前記融合モジュールが、
前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得し、
各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成する請求項８に記載の画像処理装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１から５のいずれか一項に記載の画像処理方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から５のいずれか一項に記載の画像処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から５のいずれか一項に記載の画像処理方法が実現されるコンピュータプログラム。