JP2022177201A - 画像処理方法、装置、電子機器及び記憶媒体 - Google Patents

画像処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022177201A
JP2022177201A JP2022149885A JP2022149885A JP2022177201A JP 2022177201 A JP2022177201 A JP 2022177201A JP 2022149885 A JP2022149885 A JP 2022149885A JP 2022149885 A JP2022149885 A JP 2022149885A JP 2022177201 A JP2022177201 A JP 2022177201A
Authority
JP
Japan
Prior art keywords
feature map
depth
semantic segmentation
feature
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022149885A
Other languages
English (en)
Inventor
インイン リー,
Yingying Li
シャオ タン,
Xiao Tan
ハオ スン,
Hao Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022177201A publication Critical patent/JP2022177201A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】深度推定とセマンティックセグメンテーションの精度を向上させる画像処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。【選択図】図1

Description

本開示は、人工知能技術の分野に関し、具体的には、コンピュータービジョンと深層学習技術に関し、特に画像処理方法、装置、電子機器及び記憶媒体に関する。
収集された画像を処理して、画像セグメンテーションと深度認識の結果を取得し、ビジネスシナリオをさらに分析することがより重要であり、例えば、知能化運転シナリオでは、画像セグメンテーションの結果と深度認識の結果に基づいて道路状況を分析することで、運転の安全性を向上させ、渋滞を減らし、交通効率を向上させることができる。そのため、得られた画像セグメンテーションの結果および深度認識の結果を改善することは、早急に解決すべき技術的課題である。
本開示は、画像処理方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、画像処理方法を提供し、処理対象の画像を取得するステップと、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得するステップと、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップと、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得するステップと、を含む。
本開示の別の態様によれば、画像処理装置を提供し、処理対象の画像を取得する取得モジュールと、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する特徴抽出モジュールと、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する融合モジュールと、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する出力モジュールとを備える。
本開示の別の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが一態様に記載の方法のステップを実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに一態様に記載の方法のステップを実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、一態様に記載の方法のステップが実現される。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例によって提供される画像処理方法の概略フローチャートである。 本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。 本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。 本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。 本開示の実施例によって提供される画像処理装置の概略構成図である。 本開示の実施例によって提供される例示的な電子機器の概略ブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して本開示の実施例の画像処理方法、装置、電子機器及び記憶媒体を説明する。
図1は本開示の実施例によって提供される画像処理方法の概略フローチャートである。
図1に示すように、この方法は、以下のステップ101~104を含む。
ステップ101では、処理対象の画像を取得する。
本開示の実施例の画像処理方法の実行主体は画像処理装置であり、この画像処理装置は電子機器に設置され得、この電子機器は、携帯電話、ウェアラブルデバイス、車両または車載デバイスなどであり得る。
本開示の実施例では、処理対象の画像は、深度認識および画像セグメンテーションのために処理される必要がある画像である。
ここで、本開示の技術案では、関連するユーザーの個人情報の取得、保存、および適用はすべて、関連する法律および規制の規定に準拠しており、公序良俗に違反しない。
ステップ102では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。
本開示の実施例における認識モデルは、デュアルブランチマルチタスクモデルであり、ここで、1つのブランチは、処理対象の画像に対して深度特徴抽出を行うために使用され、もう1つのブランチは、処理対象の画像に対してセマンティックセグメンテーション特徴抽出を行うために使用され、デュアルブランチマルチタスクモデルは、例えば、マルチタスクモデル(Perception-Aided Single Image Dehazing Network、PAD-NET)、またはマルチスケールタスクインタラクションネットワーク(Multi-Scale Task Interaction Network、MTI-NET)などである。ここで、抽出された深度特徴マップの各要素は、処理対象の画像内の対応する各ピクセルポイントの深度特徴を示す。抽出されたセマンティックセグメンテーション特徴マップ内の各要素は、処理対象の画像内の対応する各ピクセルポイントのセマンティックセグメンテーション特徴を示し、同じセマンティックセグメンテーション特徴を持つ各ピクセルポイントは同じオブジェクトに属している可能性がある。
ステップ103では、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。
本開示の実施例では、セマンティックセグメンテーションによって取得された同じカテゴリのオブジェクトの深さは比較的滑らかであり、オブジェクトのエッジ、すなわちセグメンテーションカテゴリが変更される場所の深さはジャンプするため、セグメンテーション特徴と深度特徴の間には相関関係がある。これによって、画像認識モデルに特徴インタラクティブネットワークが追加され、特徴インタラクティブネットワークは、入力された深度特徴マップ及びセマンティックセグメンテーション特徴マップ内の深度特徴およびセマンティック特徴を融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。このようにして、2つのタスク間の相関性を使用して、より良い特徴表現を学習し、後続の出力の深度結果とセマンティックセグメンテーション結果の効果を向上させることができる。
ステップ104では、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。
本開示の実施例では、セマンティックセグメンテーション特徴と融合されたターゲット深度特徴マップを、画像認識モデルの対応する出力ネットワークに入力し、ターゲット深度特徴マップ内の深度特徴にはセマンティックセグメンテーション特徴が融合されているため、マルチモーダル特徴に基づいて、得られた深度推定結果の精度を向上させることができる。深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力し、ターゲットセマンティックセグメンテーション特徴マップ内の特徴には深度特徴が融合されているため、マルチモーダル特徴に基づいて、得られたセマンティックセグメンテーション結果の精度を向上させることができる
ここで、深度推定結果とセマンティックセグメンテーション結果は、シナリオごとに異なる役割を果たし、例えば、自動運転の分野では、深度推定結果とセマンティックセグメンテーション結果に基づいて、道路状況を認識し、車線や電柱など、道路の各要素を決定することにより、車両の安全運転を制御することができ、また、車両周辺の障害物および障害物からの距離を認識することにより、障害物を回避して、渋滞を減らし、運転の安全性を向上させることができる。
本開示の実施例の画像処理方法では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得し、インタラクティブネットワークを介して、セマンティックセグメンテーション特徴マップと深度特徴マップに対して特徴融合を行うことにより、2つのタスク間の相関性に基づいて、より良い特徴表現を学習し、深度推定とセマンティックセグメンテーションの精度を向上させる。
上記の実施例に基づいて、本開示の実施例は別の画像処理方法を提供し、図2は、本開示の実施例によって提供される別の画像処理方法の概略フローチャートである。
図2に示すように、この方法は、以下のステップ201~209を含む。
ステップ201では、処理対象の画像を取得する。
ステップ202では、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。
具体的には、ステップ201とステップ202は、前述の実施例の説明を参照することができ、原理は同じであり、この実施例では説明を省略する。
ステップ203では、特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得する。
本開示の実施例では、セマンティックセグメンテーション重み行列内の各要素は、深度推定を行うときのセマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、つまり、セマンティックセグメンテーション重み行列は、セマンティックセグメンテーション特徴マップにおける深度特徴マップに転送されるセマンティック特徴の数を示し、即ち、セマンティックセグメンテーション特徴マップと深度特徴マップとの間の特徴相関性を示す。ここで、セマンティックセグメンテーション重み行列の場合、可能な一実施形態として、特徴インタラクティブネットワークの畳み込み層は、セグメンテーションセグメンテーションタスクの特徴マップと畳み込まれ、sigmoid関数によって、重みパラメータを取得し、そして、認識モデルのトレーニングの過程で重みパラメータを継続的に調整することにより、セマンティックセグメンテーション重み行列が学習される。例えば、セマンティックセグメンテーション重み行列の各要素の値は0~1であり、値が大きいほど、この要素の特徴は深度推定においてより重要であり、より多くを深度特徴マップに転送する必要がある。
ステップ204では、セマンティックセグメンテーション特徴マップとセマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得する。
本開示の実施例では、セマンティックセグメンテーション特徴マップとセマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得することにより、重み付けされたセマンティックセグメンテーション特徴マップは、深度推定タスクとセマンティックセグメンテーションタスクの間の相関性をより有効に活用することができる。
ステップ205では、重み付きセマンティックセグメンテーション特徴マップと深度特徴マップを融合させて、ターゲット深度特徴マップを取得する。
本開示の実施例の一実施形態では、重み付きセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴を、深度特徴マップ内の深度特徴とスプライスして、ターゲット深度特徴マップを取得し、スプライシングによって得られたターゲット深度特徴マップには、深度特徴が含まれているだけではなく、重み付けされたセマンティックセグメンテーション特徴も融合されているため、ターゲット深度特徴マップに含まれる特徴情報の量を向上させる。
本開示の実施例の別の実施形態では、重み付きセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴と深度特徴マップ内の深度特徴を加算して、ターゲット深度特徴マップを取得し、加算されたターゲット深度特徴マップには、深度特徴が含まれているだけではなく、重み付けされたセマンティックセグメンテーション特徴も融合されているため、ターゲット深度特徴マップに含まれる特徴情報の量を向上させるとともに、特徴の次元は増加しないため、その後の認識のための計算量を減らす。
ステップ206では、特徴インタラクティブネットワークによって学習された深度重み行列を取得する。
本開示の実施例では、深度重み行列内の各要素は、セマンティックセグメンテーションを行うときの深度特徴マップ内の対応する要素の特徴の重要性を示し、つまり深度重み行列は、深度特徴マップにおけるセマンティックセグメンテーション特徴マップに転送される深度特徴の数を示し、即ち、セマンティックセグメンテーション特徴マップと深度特徴マップとの間の特徴相関性を示す。ここで、深度重み行列の場合、可能な一実施形態として、特徴インタラクティブネットワークの畳み込み層は、深度推定タスクの特徴マップと畳み込まれ、sigmoid関数によって、重みパラメータを取得する。そして、認識モデルのトレーニングの過程で重みパラメータを継続的に調整することにより、深度重み行列が学習される。例えば、深度重み行列の各要素の値は0~1であり、値が大きいほど、この要素の特徴はセマンティックセグメンテーションにおいてより重要であり、より多くをセマンティックセグメンテーション特徴マップに転送する必要がある。
ステップ207では、深度特徴マップと深度重み行列を乗算して、重み付き深度特徴マップを取得する。
本開示の実施例では、深度特徴マップと深度重み行列を乗算して、重み付き深度特徴マップを取得することにより、重み付けされた深度特徴マップは、深度推定タスクとセマンティックセグメンテーションタスクの間の相関性をより有効に活用することができる。
ステップ208では、重み付き深度特徴マップとセマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する。
本開示の実施例の一実施形態では、重み付き深度特徴マップ内の深度特徴を、セマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴とスプライスして、ターゲットセマンティックセグメンテーション特徴マップを取得し、スプライシングによって得られたターゲットセマンティックセグメンテーション特徴マップには、セマンティックセグメンテーション特徴が含まれているだけではなく、重み付けされた深度特徴も融合されているため、ターゲットセマンティックセグメンテーション特徴マップに含まれる特徴情報の量を向上させる。
本開示の実施例の別の実施形態では、重み付き深度特徴マップ内の深度特徴とセマンティックセグメンテーション特徴マップ内のセマンティックセグメンテーション特徴を加算して、ターゲットセマンティックセグメンテーション特徴マップを取得し、加算されたターゲットセマンティックセグメンテーション特徴マップには、セマンティックセグメンテーション特徴が含まれているだけではなく、重み付けされた深度特徴も融合されているため、ターゲットセマンティックセグメンテーション特徴マップに含まれる特徴情報の量を向上させるとともに、特徴の次元は増加しないため、その後の認識のための計算量を減らす。
ステップ209では、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。
具体的には、前述の実施例の説明を参照することができ、原理は同じであり、この実施例では説明を省略する。
本開示の実施例の画像処理方法では、画像認識モデルには、特徴インタラクティブネットワークが設定され、2つのタスク間の相関性をよりよく使用してより良い特徴表現を学習するために、特徴インタラクティブネットワークによって事前に学習されたセマンティックセグメンテーション重み行列および深度重み行列により、それぞれセマンティック特徴および深度特徴に重みを付け、重み付けされた深度特徴とセマンティックセグメンテーション特徴を融合させて、ターゲット深度特徴マップとターゲットセグメンテーションセマンティック特徴マップを取得し、得られたターゲットセグメンテーション特徴マップとセマンティックセグメンテーション特徴マップの精度が向上し、これにより、ターゲットセグメンテーション特徴マップおよびセマンティックセグメンテーション特徴マップにより、深度推定および画像セグメンテーションの精度が向上する。
上記の実施例に基づいて、図3は本開示の実施例によって提供される別の画像処理方法の概略フローチャートであり、図3に示すように、ステップ204は、以下のステップ301~302を含む。
ステップ301では、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各要素の重み付きセマンティックセグメンテーション特徴を取得する。
ステップ302では、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップを生成する。
本開示の実施例では、セマンティックセグメンテーション特徴マップに含まれる要素とセマンティックセグメンテーション重み行列に含まれる要素は、1対1の対応関係を有し、同時に、セグメント化される画像内のピクセルポイントまたはピクセルの組み合わせと対応関係を有し、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算することにより、各要素の重み付きセマンティックセグメンテーション特徴を取得することができ、これにより、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップが生成され、重み付きセマンティックセグメンテーション特徴マップの粒度の細分化の度合いが改善される。そして、重み付きセマンティックセグメンテーション特徴マップ内の各要素は、深度特徴マップ内の各要素の深度特徴との相関関係を示し、例えば、重み付きセマンティックセグメンテーションマップでは、セマンティックセグメンテーションの各オブジェクトのエッジに重み付きセグメンテーションセグメンテーション特徴の情報が多く、エッジの深度が大きく変化するという特徴を示す。
本開示の実施例の画像処理方法では、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴とセマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各要素の重み付きセマンティックセグメンテーション特徴を取得し、各要素の重み付きセマンティックセグメンテーション特徴に基づいて、重み付きセマンティックセグメンテーション特徴マップを生成し、各要素の重み付けにより、重み付きセマンティックセグメンテーション特徴マップの精度を向上させる。
上記の実施例に基づいて、図4は本開示の実施例によって提供される別の画像処理方法の概略フローチャートであり、図4に示すように、ステップ207は、以下のステップ401~402を含む。
ステップ401では、深度特徴マップ内の各ピクセルの深度特徴と深度重み行列内の対応するピクセルの重みを乗算して、各ピクセルの重み付き深度特徴を取得する。
ステップ402では、各ピクセルの重み付き深度特徴に基づいて、重み付き深度特徴マップを生成する。
本開示の実施例では、深度特徴マップに含まれる要素と深度重み行列に含まれる要素は、1対1の対応関係を有し、深度特徴マップ内の各要素の深度特徴と深度重み行列内の対応する要素の重みを乗算することにより、各要素の重み付き深度特徴を取得することができ、これによって、各要素の重み付き深度特徴に基づいて、重み付き深度特徴マップが生成され、重み付き深度特徴マップの粒度の細分化の度合いが改善される。重み付き深度特徴マップ内の各要素は、セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴との相関関係を示し、例えば、重み付き深度マップでは、セマンティックセグメンテーションの各オブジェクトのエッジに深度特徴の情報が多く、エッジの深度が大きく変化するという特徴を示す。
本開示の実施例の画像処理方法では、深度特徴マップ内の各ピクセルの深度特徴と深度重み行列内の対応するピクセルの重みを乗算して、各ピクセルの重み付き深度特徴を取得し、各ピクセルの重み付き深度特徴基づいて、重み付き深度特徴マップを生成し、各要素の重み付きによって、重み付き深度特徴マップの精度を向上させる。
上記実施例を実現するために、本実施例は画像処理装置を提供する。
図5は本開示の実施例によって提供される画像処理装置の概略構成図、図5に示すように、この装置は、取得モジュール51と、特徴抽出モジュール52と、融合モジュール53と、出力モジュール54と、を備える。
取得モジュール51は、処理対象の画像を取得する。
特徴抽出モジュール52は、前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する。
融合モジュール53は、前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する。
出力モジュール54は、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する。
本開示の実施例の一実施形態では、融合モジュール53は、さらに、前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得し、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得し、前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得する。
本開示の実施例の一実施形態では、融合モジュール53は、さらに、前記特徴インタラクティブネットワークによって学習された深度重み行列を取得し、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示し、前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得し、前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する。
本開示の実施例の一実施形態では、融合モジュール53は、具体的には、前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得し、各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成する。
本開示の実施例の一実施形態では、融合モジュール53は、具体的には、さらに、前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得し、各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成する。
なお、前述の方法の実施例の説明は、本実施例の装置にも適用可能であり、原理は同じであり、この実施例では説明を省略する。
本開示の実施例の画像処理装置では、処理対象の画像を取得し、処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得し、深度特徴マップ及びセマンティックセグメンテーション特徴マップを画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得し、ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得し、インタラクティブネットワークを設定することにより、セマンティックセグメンテーション特徴マップと深度特徴マップを融合させて、マルチモーダルの特徴を取得し、2つのタスク間の相関性に基づいて、より良い特徴表現を学習し、深度推定とセマンティックセグメンテーションの精度を向上させる。
上記実施例を実現するために、本開示の実施例は、電子機器をさらに提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが前述方法の実施例に記載の方法のステップを実行できるように、前記少なくとも1つのプロセッサによって実行される。
上記実施例を実現するために、本開示の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、コンピュータに前述方法の実施例に記載の方法のステップを実行させる。
上記実施例を実現するために、本開示の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、前述方法の実施例に記載の方法のステップが実現される。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータープログラムをさらに提供する。
図6は本開示の実施例によって提供される例示的な電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどのデジタルコンピュータを指す。電子機器はまた、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの音声対話機能を有する様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は主張の本願の実現を限定することを意図しない。
図6に示すように、機器600は、ROM(Read-Only Memory、リードオンリーメモリ)602に記憶されたコンピュータプログラム、または記憶ユニット608からRAM(Random Access Memory、ランダムアクセスメモリ)603にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット601を備える。RAM603には、電子機器600の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット601と、ROM2802と、RAM603とは、バス604を介して互いに接続されている。I/O(Input/Output、入力/出力)インターフェース605もバス604に接続されている。
機器600における複数のコンポーネントは、I/Oインターフェース605に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット606と、種々なディスプレイやスピーカなどの出力ユニット607と、磁気ディスクや光学ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット609と、を備える。通信ユニット2809は、電子機器600がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット601は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例としては、CPU(Central Processing Unit、中央処理ユニット)、GPU(Graphic Processing Unit、グラフィックス処理ユニット)、様々な専用のAI(Artificial Intelligence、人工知能)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、DSP(Digital Signal Processor、デジタ信号プロセッサ)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット601は、上述で説明された各方法及び処理、例えば画像処理方法を実行する。例えば、いくつかの実施形態では、画像処理方法は、記憶ユニット608のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM602及び/または通信ユニット609を介して、電子機器600にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算ユニット601によって実行される場合に、前述した画像処理方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット601は、他の任意の適当な方式(例えば、ファームウェア)により画像処理方法を実行するように構成されてもよい。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit、専用集積回路)、ASSP(Application Specific Standard Product、専用標準品)、SOC(System On Chip、システムオンチップ)、CPLD(Complex Programmable Logic Device、コンプレックスプログラマブルロジックデバイス)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで作成されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用され、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1または複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory、消去可能なプログラム可能なリードオンリメモリ)またはフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory、ポータブルコンパクトディスク読み取り専用メモリ)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube、陰極線管)またはLCD(Liquid Crystal Display、液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、LAN(Local Area Network、ローカルエリアネットワーク)と、WAN(Wide Area Network、ワイドエリアネットワーク)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPSサービス(Virtual Private Server、また、「VPS」と略記する)では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバーは、分散システムのサーバー、またはブロックチェーンを結合したサーバーであってもよい。
ここで、なお、人工知能は、ハードウェアレベルのテクノロジーとソフトウェアレベルのテクノロジーの両方で、コンピュータに特定の思考プロセスと人々のインテリジェントな行動(学習、推論、思考、計画など)をシミュレートさせることをー研究する学科である。人工知能ハードウェアテクノロジーには、通常、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などのテクノロジーが含まれ、人工知能ソフトウェア技術には、主にコンピュータービジョン技術、音声認識技術、自然言語処理技術、機械学習/深層学習、ビッグデータ処理技術、知識グラフ技術などの方向が含まれる。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本明細書は制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同等の置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (13)

  1. 処理対象の画像を取得するステップと、
    前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得するステップと、
    前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップと、
    ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得するステップと、
    を含む画像処理方法。
  2. 前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して、セマンティック特徴と融合されたターゲット深度特徴マップを取得するステップが、
    前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得するステップであって、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示すステップと、
    前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得するステップと、
    前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得するステップと、
    を含む請求項1に記載の画像処理方法。
  3. 前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して、深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得するステップが、
    前記特徴インタラクティブネットワークによって学習された深度重み行列を取得するステップであって、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示すステップと、
    前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得するステップと、
    前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得するステップと、
    を含む請求項1に記載の画像処理方法。
  4. 前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得するステップが、
    前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得するステップと、
    各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成するステップと、
    を含む請求項2に記載の画像処理方法。
  5. 前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得するステップが、
    前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得するステップと、
    各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成するステップと、
    を含む請求項3に記載の画像処理方法。
  6. 処理対象の画像を取得する取得モジュールと、
    前記処理対象の画像を画像認識モデルの深度特徴抽出ネットワークに入力して深度特徴マップを取得し、前記処理対象の画像をセマンティック特徴抽出ネットワークに入力してセマンティックセグメンテーション特徴マップを取得する特徴抽出モジュールと、
    前記深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを前記画像認識モデルの特徴インタラクティブネットワークに入力して融合させて、セマンティック特徴と融合されたターゲット深度特徴マップ及び深度特徴と融合されたターゲットセマンティックセグメンテーション特徴マップを取得する融合モジュールと、
    ターゲット深度特徴マップとターゲットセマンティックセグメンテーション特徴マップを、前記画像認識モデルの対応する出力ネットワークに入力して、深度推定結果とセマンティックセグメンテーション結果を取得する出力モジュールと、
    を備える画像処理装置。
  7. 前記融合モジュールが、
    前記特徴インタラクティブネットワークによって学習されたセマンティックセグメンテーション重み行列を取得し、前記セマンティックセグメンテーション重み行列内の各要素が、深度推定を行うときの前記セマンティックセグメンテーション特徴マップ内の対応する要素の特徴の重要性を示し、
    前記セマンティックセグメンテーション特徴マップと前記セマンティックセグメンテーション重み行列を乗算して、重み付きセマンティックセグメンテーション特徴マップを取得し、
    前記重み付きセマンティックセグメンテーション特徴マップと前記深度特徴マップを融合させて、ターゲット深度特徴マップを取得する請求項6に記載の画像処理装置。
  8. 前記融合モジュールが、
    前記特徴インタラクティブネットワークによって学習された深度重み行列を取得し、前記深度重み行列内の各要素が、セマンティックセグメンテーションを行うときの前記深度特徴マップ内の対応する要素の特徴の重要性を示し、
    前記深度特徴マップと前記深度重み行列を乗算して、重み付き深度特徴マップを取得し、
    前記重み付き深度特徴マップ及び前記セマンティックセグメンテーション特徴マップを融合させて、ターゲットセマンティックセグメンテーション特徴マップを取得する請求項6に記載の画像処理装置。
  9. 前記融合モジュールが、
    前記セマンティックセグメンテーション特徴マップ内の各要素のセマンティックセグメンテーション特徴と前記セマンティックセグメンテーション重み行列内の対応する要素の重みを乗算して、各前記要素の重み付きセマンティックセグメンテーション特徴を取得し、
    各前記要素の重み付きセマンティックセグメンテーション特徴に基づいて、前記重み付きセマンティックセグメンテーション特徴マップを生成する請求項7に記載の画像処理装置。
  10. 前記融合モジュールが、
    前記深度特徴マップ内の各要素の深度特徴と前記深度重み行列内の対応する要素の重みを乗算して、各前記要素の重み付き深度特徴を取得し、
    各前記要素の重み付き深度特徴に基づいて、前記重み付き深度特徴マップを生成する請求項8に記載の画像処理装置。
  11. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から5のいずれか一項に記載の画像処理方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から5のいずれか一項に記載の画像処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  13. プロセッサによって実行される場合、請求項1から5のいずれか一項に記載の画像処理方法が実現されるコンピュータプログラム。
JP2022149885A 2021-10-29 2022-09-21 画像処理方法、装置、電子機器及び記憶媒体 Pending JP2022177201A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111272463.X 2021-10-29
CN202111272463.XA CN114120253B (zh) 2021-10-29 2021-10-29 图像处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022177201A true JP2022177201A (ja) 2022-11-30

Family

ID=80379486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022149885A Pending JP2022177201A (ja) 2021-10-29 2022-09-21 画像処理方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
US (1) US20230068238A1 (ja)
EP (1) EP4116940A3 (ja)
JP (1) JP2022177201A (ja)
CN (1) CN114120253B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452901A (zh) * 2023-06-19 2023-07-18 中国科学院海洋研究所 基于深度学习的遥感图像海洋养殖区自动化提取方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913325B (zh) * 2022-03-24 2024-05-10 北京百度网讯科技有限公司 语义分割方法、装置及计算机程序产品
CN116030397B (zh) * 2023-03-27 2023-08-01 湖南大学 一种基于时序信息交互的腔镜手术视频分割方法
CN116665114B (zh) * 2023-07-28 2023-10-10 广东海洋大学 基于多模态的遥感场景识别方法、系统及介质
CN117132600B (zh) * 2023-10-26 2024-04-16 广东岚瑞新材料科技集团有限公司 基于图像的注塑制品质量检测系统及其方法
CN117764994B (zh) * 2024-02-22 2024-05-10 浙江首鼎视介科技有限公司 基于人工智能的胆胰成像系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963709B2 (en) * 2019-01-02 2021-03-30 Zoox, Inc. Hierarchical machine-learning network architecture
CN110298361B (zh) * 2019-05-22 2021-05-04 杭州未名信科科技有限公司 一种rgb-d图像的语义分割方法和系统
CN111583390B (zh) * 2020-04-28 2023-05-02 西安交通大学 基于深度语义融合的卷积神经网络的三维语义图重建方法
CN111627055B (zh) * 2020-05-07 2023-11-24 浙江大学 一种联合语义分割的场景深度补全方法
CN111814683B (zh) * 2020-07-09 2022-12-09 北京航空航天大学 一种基于语义先验和深度学习特征的鲁棒视觉slam方法
CN113205520B (zh) * 2021-04-22 2022-08-05 华中科技大学 一种对图像进行语义分割的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452901A (zh) * 2023-06-19 2023-07-18 中国科学院海洋研究所 基于深度学习的遥感图像海洋养殖区自动化提取方法
CN116452901B (zh) * 2023-06-19 2023-09-15 中国科学院海洋研究所 基于深度学习的遥感图像海洋养殖区自动化提取方法

Also Published As

Publication number Publication date
US20230068238A1 (en) 2023-03-02
CN114120253A (zh) 2022-03-01
EP4116940A2 (en) 2023-01-11
CN114120253B (zh) 2023-11-14
EP4116940A3 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
JP2022177201A (ja) 画像処理方法、装置、電子機器及び記憶媒体
EP4109347A2 (en) Method for processing multimodal data using neural network, device, and medium
CN113657465A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
CN112508120B (zh) 学生模型训练方法、装置、设备、介质和程序产品
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
JP7267379B2 (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
EP4123595A2 (en) Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium
CN113378855A (zh) 用于处理多任务的方法、相关装置及计算机程序产品
CN114449343A (zh) 一种视频处理方法、装置、设备及存储介质
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
JP7324891B2 (ja) バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114913325B (zh) 语义分割方法、装置及计算机程序产品
JP2023085353A (ja) 特徴抽出モデル訓練方法、画像分類方法および関連装置
CN115511779A (zh) 图像检测方法、装置、电子设备和存储介质
JP2023531759A (ja) 車線境界線検出モデルの訓練方法、車線境界線検出モデルの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
JP2022031854A (ja) 返信内容の生成方法、装置、機器及び記憶媒体
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
CN116152702A (zh) 点云标签的获取方法、装置、电子设备和自动驾驶车辆
CN113657466B (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN113378025B (zh) 数据处理方法、装置、电子设备及存储介质
CN113554550B (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240423