JP2022538928A - 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体 - Google Patents

画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP2022538928A
JP2022538928A JP2022500585A JP2022500585A JP2022538928A JP 2022538928 A JP2022538928 A JP 2022538928A JP 2022500585 A JP2022500585 A JP 2022500585A JP 2022500585 A JP2022500585 A JP 2022500585A JP 2022538928 A JP2022538928 A JP 2022538928A
Authority
JP
Japan
Prior art keywords
feature map
target image
image
probability
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022500585A
Other languages
English (en)
Inventor
▲クェア▼文 王
光亮 程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Publication of JP2022538928A publication Critical patent/JP2022538928A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体を提供し、ここで、本開示は、対象画像の異なるデフォルトのスケールに対応する画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定し、特定された第1の確率及び第2の確率を用いて、実際のセグメンテーションニーズに基づいて画像特徴マップ中の画素点に対して強化又は弱化処理を行うことで、対象画像の背景又は前景を強調し、対象画像における異なるオブジェクト及びオブジェクトと背景との精確なセグメンテーションをさらに実現し、即ちパノラマセグメンテーションの精度を向上させることに有利である。【選択図】図1

Description

<関連出願の相互参照>
本開示は、2020年01月19日に中国特許局に提出された、出願番号CN202010062779.5、発明名称「画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照により本開示に組み込まれる。
本開示は、コンピュータ技術、画像処理分野に関し、具体的には、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体に関する。
自動運転は、新興の最先端技術として多くの科学研究単位及び機関により研究される。ここで、シーン知覚は、自動運転技術の基礎であり、正確なシーン知覚は、自動運転制御の精度及び安全性を向上させるために、自動運転のための正確な制御信号を提供することに有利である。
シーン知覚は、画像に対してパノラマセグメンテーションを行い、画像中の各オブジェクトのインスタンスカテゴリを予測し、各オブジェクトのバウンディングボックスを特定するために用いられ、その後、自動運転技術は、予測されたインスタンスカテゴリ及びバウンディングボックスに基づいて、自動運転部材の走行を制御する制御信号を生成する。現在のシーン知覚には、予測精度が低いという欠点が存在する。
これに鑑み、本開示は、少なくとも画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供する。
第1の態様において、本開示は、対象画像の異なるデフォルトのスケール(scale)に対応する複数の画像特徴マップを特定するステップと、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するステップと、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップと、を含む画像処理方法を提供する。
第2の態様において、本開示は、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するための特徴マップ特定モジュールと、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するための前景・背景処理モジュールと、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うためのパノラマ分析モジュールと、を含む画像処理装置を提供する。
第3の態様において、本開示は、プロセッサと、メモリと、バスと、を含み、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサと前記メモリとの間はバスを介して通信し、前記機械可読命令は、前記プロセッサにより実行されると、上記の画像処理方法のステップを実行する電子機器を提供する。
第4の態様において、本開示は、コンピュータプログラムが記憶され、当該コンピュータプログラムはプロセッサにより実行されると、上記の画像処理方法のステップを実行するコンピュータ可読記憶媒体をさらに提供する。
第5の態様において、本開示は、記憶媒体に記憶され、前記コンピュータプログラムはプロセッサにより実行されると、上記の画像処理方法のステップを実行するコンピュータプログラムをさらに提供する。
本開示の上記の装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムは、少なくとも本開示の上記方法のいずれかの態様又はいずれかの態様のいずれかの実施形態の技術的特徴と実質的に同一又は類似する技術的特徴を含むため、上記の装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムの効果説明については、下記の具体的な実施形態における効果説明を参照してもよく、ここでは詳細は再度説明しない。
本開示の実施例の技術的解決手段をより明確に説明するために、以下、実施例に使用が必要な図面を簡単に紹介するが、以下の図面は本開示の何らかの実施例のみを示すため、範囲を限定するものとみなされるべきではなく、当業者であれば、創造的な労力を課すことなく、他の関連図面をこれらの図面に基づいて得ることもできることが理解されるべきである。
本開示の実施例にて提供される画像処理方法のフローチャートである。 本開示の実施例における画像特徴マップを生成するニューラルネットワークの概略図である。 本開示の実施例にて提供される対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する概略フローチャートである。 本開示の実施例にて提供される複数の画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定する概略フローチャートである。 本開示の実施例にて提供される複数の画像特徴マップ、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う概略フローチャートである。 本開示の実施例にて提供される畳み込みニューラルネットワークがインスタンスセグメンテーションロジットを生成するプロセス概略図である。 本開示の実施例にて提供される画像処理方法のフローチャートである。 本開示の実施例にて提供される画像処理装置の構造概略図である。 本開示の実施例にて提供される電子機器の構造概略図である。
本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本開示の実施例における図面と結び付け、本開示の実施例における技術的解決手段を明確かつ完全に記述し、本開示における図面は、説明及び記述の目的のみを果たし、本開示の保護範囲を制限するために使用されないことが理解されるべきである。また、例示的な図面は、インスタンスの比例で描かれていないことが理解されるべきである。本開示で使用されるフローチャートは、本開示のいくつかの実施例により実現される操作を示す。フローチャートの操作は、順序通りに実現されなくてもよく、論理的な文脈関係を有しないステップは、順序を逆転させてもよく、又は同時に実施されてもよいことが理解されるべきである。さらに、当業者は、本開示の内容に従って、フローチャートに1つ又は複数の他の操作を追加してもよく、フローチャートから1つ又は複数の操作を削除してもよい。
また、記述された実施例は、本開示の実施例の一部にすぎず、全ての実施例ではない。通常、本明細書の図面に記述され、示される本開示の実施例のアセンブリは、様々な異なる構成で配置され、設計され得る。したがって、以下、図面に提供される本開示の実施例の詳細な記述は、保護が要求される本開示の範囲を限定することを意図するものではなく、本開示の選択された実施例のみを表す。本開示の実施例に基づいて、当業者が創造的な労力を課せず得た全ての他の実施例は、いずれも本開示の保護範囲に属する。
当業者が本開示の内容を使用することを可能にするために、特定の応用シーンである「自動運転技術で使用されるシーン知覚」と結び付けて以下の実施形態を示す。当業者であれば、本開示の精神及び範囲から逸脱することなく、本明細書に定義された一般的原理を、シーン知覚を行う必要がある他の実施例及び応用シーンに適用することができる。本開示は、自動運転技術で使用されるシーン知覚を中心として主に記述するが、これは単なる例示的な一実施例であることが理解されるべきである。
なお、本開示の実施例において、用語の「含む」は、その後に示される特徴の存在を指摘するために使用されるが、他の特徴の追加を排除するものではない。
本開示は、如何にシーン知覚におけるパノラマセグメンテーションの精度を向上させるかについて、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体を提供する。本開示は、対象画像の異なるデフォルトのスケールに対応する画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定し、上記の第1の確率及び第2の確率を用いて、実際のセグメンテーションニーズに基づいて画像特徴マップ中の画素点に対して強化又は弱化処理を行うことで、対象画像の背景又は前景を強調し、対象画像における異なるオブジェクト及びオブジェクトと背景との精確なセグメンテーションをさらに実現し、即ちパノラマセグメンテーションの精度を向上させることに有利である。
以下、本開示の画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体について具体的な実施例を用いて説明する。
本開示の実施例は、シーン知覚を行い、即ち画像に対してパノラマセグメンテーションを行う端末機器に適用される画像処理方法を提供する。図1に示すように、本開示の実施例にて提供される画像処理方法は、以下のステップS110-S130を含む。
S110において、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する。
本開示の実施例において、対象画像は、自動運転機器が運転中にカメラヘッドで撮影した画像であってもよい。
本開示の実施例において、異なるデフォルトのスケールの画像特徴マップは、畳み込みニューラルネットワークが入力された画像又は特徴マップに対して処理を行った後に得られるものであってもよい。いくつかの実施例において、異なるデフォルトのスケールは、画像の1/32スケール、1/16スケール、1/8スケール、及び1/4スケールを含んでもよい。
S120において、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定する。
本開示の実施例において、まず、複数の画像特徴マップに対してアップサンプリング処理を行い、異なるデフォルトのスケールの画像特徴マップが同一のスケールを有するようにした後、アップサンプリング処理された各画像特徴マップをスティッチングし、また、スティッチングされた特徴マップに基づいて、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するとしてもよい。
S130において、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う。
本開示の実施例において、対象画像に対してパノラマセグメンテーションを行うことで、対象画像の背景及び前景におけるオブジェクトのバウンディングボックスとインスタンスカテゴリを特定することができる。
本開示の実施例において、第1の確率及び第2の確率に基づいて、画像特徴マップにおける対象画像中の前景に対応する特徴画素点及び対象画像中の背景に対応する特徴画素点に対して強化処理を行うとしてもよく、それにより対象画像中の画素点の精確なセグメンテーションを実現することに有利であり、即ち対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。
いくつかの実施例において、図3に示すように、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する上記ステップは、以下のステップS310-S330により実現することができる。
S310において、対象画像に対して特徴抽出を行い、各デフォルトのスケールの第1の特徴マップを取得する。
本開示の実施例において、畳み込みニューラルネットワークを用いて入力された画像又は特徴マップに対して特徴抽出を行い、各デフォルトのスケールに対応する第1の特徴マップを取得するとしてもよい。例えば、図2に示すようなマルチスケールの対象検出アルゴリズムFPN(feature pyramid networks)の部分を利用して、各デフォルトのスケールに対応する第1の特徴マップ、即ち、畳み込みニューラルネットワークにより出力された特徴マップP、P、P、及びPを特定するとしてもよい。
図2において、C、C、C、Cは、畳み込みニューラルネットワークのボトムアップ畳み込み結果にそれぞれ対応し、P、P、P、及びPは、これらの畳み込み結果にそれぞれ対応する特徴マップであり、ここで、CとPは同一のデフォルトのスケールを有し、CとPは同一のデフォルトのスケールを有し、CとPは同一のデフォルトのスケールを有し、CとPは同一のデフォルトのスケールを有する。特徴マップPは、畳み込みニューラルネットワークを用いて対象画像に対して特徴抽出を直接行って得られた特徴マップであり、他の特徴マップはいずれも畳み込みニューラルネットワークを用いて前の特徴マップに対して特徴抽出を行って得られた特徴マップである。
S320において、各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得して第1のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第2の特徴マップを取得する。
本開示の実施例において、異なるデフォルトのスケールの第1の特徴マップをスティッチングする前に、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールに対応する第1の特徴マップに対して、アップサンプリング処理をそれぞれ行う必要がある。全てのアップサンプリング処理された第1の特徴マップは、いずれも最大のデフォルトのスケールを有する特徴マップである。その後、全ての最大のデフォルトのスケールを有する第1の特徴マップをスティッチングする。
このステップS320において、最大のデフォルトのスケールよりも低い第1の特徴マップをアップサンプリング処理し、全てのアップサンプリング処理された第1の特徴マップが同一のスケールを有するようにしてから、スティッチングを行うことで、特徴マップスティッチングの正確性を保証することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。
本開示の実施例において、畳み込みニューラルネットワークを用いて第1のスティッチング特徴マップに対して特徴抽出を行い、第2の特徴マップを取得するとしてもよい。例えば、図2における特徴量マップlのような、最大のデフォルトのスケールに対応する特徴マップを取得するとしてもよい。
S330において、各デフォルトのスケールの第1の特徴マップ及び最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する。
いくつかの実施例において、デフォルトのスケールの大きい順に従って、各デフォルトのスケールに対応する第1の特徴マップと結び付け、各デフォルトのスケールに第2の特徴マップを順次生成し、第1の特徴マップ及び第2の特徴マップとさらに結び付けて各デフォルトのスケールの最終的な画像特徴マップを特定するとしてもよい。このように、複数回の特徴抽出と複数方向の特徴融合により、対象画像における画像特徴情報をより十分に掘り起こし、より完全で正確な特徴マップを取得することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることができる。
具体的に実施する時に、ステップS330は、以下のサブステップ3301-3302により実現することができる。
サブステップ3301において、最大のデフォルトのスケール以外の各デフォルトのスケールについて、当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第1の特徴マップ及び最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、当該デフォルトのスケールに対応する第2の特徴マップを特定する。
いくつかの実施例において、デフォルトのスケールを昇順に並べ、第iのデフォルトのスケールに対して、第iのデフォルトのスケールに隣接する、第iのデフォルトのスケールよりも大きい第i+1のデフォルトのスケールに対応する第1の特徴マップ及び第i +1のデフォルトのスケールに対応する第2の特徴マップをスティッチングし、その後、畳み込みニューラルネットワークを用いて特徴を抽出し、第iのデフォルトのスケールに対応する第2の特徴マップ、例えば、図2における第2の特徴マップl、l、lを取得する。ここで、iは、デフォルトのスケールの数と1との差の以下である。
サブステップ3302において、各デフォルトのスケールについて、当該デフォルトのスケールに対応する第1の特徴マップ及び当該デフォルトのスケールに対応する第2の特徴マップに基づいて、対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定する。
本開示の実施例において、各デフォルトのスケールに対応する第1の特徴マップ及び第2の特徴マップをスティッチングし、その後、畳み込みニューラルネットワークを用いて特徴を抽出し、各デフォルトのスケールに対応する画像特徴マップを取得する。
上記の実施例において、デフォルトのスケールの大きい順に従って、1つ前のデフォルトのスケールの第1の特徴マップ及び第2の特徴マップと結び付けて現在のデフォルトのスケールの第2の特徴マップを特定し、また、現在のデフォルトのスケールの第2の特徴マップ及び第1の特徴マップに基づいて現在のデフォルトのスケールの画像特徴マップを最終的に特定し、各デフォルトのスケールに対応する画像特徴マップを特定する時に、他のデフォルトのスケールに対応する特徴マップの情報を十分に融合することを実現し、対象画像における画像特徴情報をより十分に掘り起こすことができ、それにより各デフォルトのスケールに対応する画像特徴マップの正確性及び完全性を向上させる。
いくつかの実施例において、図4に示すように、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定する上記ステップは、以下のステップS410-S430により実現することができる。
S410において、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された画像特徴マップを取得し、ただし、アップサンプリング処理された各画像特徴マップのスケールは、いずれも最大のデフォルトのスケールである。
本開示の実施例において、最大のデフォルトのスケールよりも低い各画像特徴マップに対してアップサンプリング処理を行い、アップサンプリング処理された後、全ての画像特徴マップはいずれも最大のデフォルトのスケールを有する。
S420において、最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第2のスティッチング特徴マップを取得する。
いくつかの実施例において、最大のデフォルトのスケールを有する全ての画像特徴マップをスティッチングし、第2のスティッチング特徴マップを取得する。
S430において、第2のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定する。
いくつかの実施例において、ニューラルネットワークレイヤを用いて第2のスティッチング特徴マップに対して処理を行い、第2のスティッチング特徴マップ中の特徴画素点に含まれる画像特徴情報に基づいて、対象画像中の特徴画素点に対応する画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するとしてもよい。
上記の実施例において、最大のデフォルトのスケールよりも低い画像特徴マップに対してアップサンプリング処理を行い、全ての画像特徴マップが同一のスケールを有するようにしてから、スティッチングを行うことで、特徴マップスティッチングの正確性を保証することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。
いくつかの実施例において、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う上記ステップは、以下のステップS510-S550により実現することができる。
S510において、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジット(semantic segmentation logits)を特定し、ただし、前記対象画像中の画素点が背景に属する第2の確率が大きいほど、当該画素点に対応する第1のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第1のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比である。
本開示の実施例において、第2の確率を用いて第2のスティッチング特徴マップ中の背景に対応する特徴画素点に対して補強を行ってもよく、その後、補強された特徴マップを用いてセマンティクスセグメンテーションロジットを生成してもよい。
本開示の実施例において、第1の確率及び第2の確率は、上記の第2のスティッチング特徴マップに対して特徴抽出を行った後に特定され、第1の確率及び第2の確率は1つの前景・背景分類特徴マップに対応してもよく、即ち、前景・背景分類特徴マップには、上記の第1の確率及び第2の確率が含まれる。言い換えれば、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて当該前景・背景分類特徴マップを特定するとしてもよい。このステップにおいて、第2のスティッチング特徴マップ及び対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定することは、畳み込みニューラルネットワークにおける複数の畳み込みレイヤ及びシグモイドレイヤを用いて上記の前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を弱めることで、第1の処理された特徴マップを取得することと、当該第1の処理された特徴マップを用いて第2のスティッチング特徴マップと融合し、融合された特徴マップを取得することと、融合された特徴マップに基づいて、セマンティクスセグメンテーションロジットを特定することと、を含んでもよい。当該特徴マップにおける対象画像中の背景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を弱めることで、融合ステップにおいて、第2のスティッチング特徴マップにおける対象画像中の背景に対応する特徴画素点が補強され、対象画像中の前景に対応する特徴画素点が弱められるようにすることができる。したがって、当該第1の処理された特徴マップと第2のスティッチング特徴マップとの融合に基づいて得られるセマンティクスセグメンテーションロジットにおける対象画像中の背景に対応する特徴画素点が補強され、対象画像中の前景に対応する特徴画素点が弱められ、それによりセマンティクスセグメンテーションロジットに基づいて対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。
S520において、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジット(instance segmentation logits)を特定し、ただし、前記対象画像中の画素点が前景に属する第1の確率が大きいほど、当該画素点に対応する第2のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第2のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比である。
本開示の実施例において、第1の確率を用いて第2のスティッチング特徴マップにおける前景に対応する特徴画素点に対して補強を行うとしてもよく、その後、補強された特徴マップを用いてインスタンスセグメンテーションロジットを生成し、対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリを特定するとしてもよい。
本開示の実施例において、第1の確率及び第2の確率は、上記の第2のスティッチング特徴マップに対して特徴抽出を行った後に特定され、第1の確率及び第2の確率は1つの前景・背景分類特徴マップに対応してもよく、即ち、前景・背景分類特徴マップには、上記の第1の確率及び第2の確率が含まれる。言い換えれば、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて当該前景・背景分類特徴マップを特定するとしてもよい。このステップにおいて、第2のスティッチング特徴マップ及び対象画像中の各画素点が前景に属する第1の確率に基づいて前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定することは、図6に示すように、畳み込みニューラルネットワークにおける複数の畳み込みレイヤconv layer及びシグモイドレイヤSigmoid layerを用いて上記の前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を弱めることで、第2の処理された特徴マップを取得することと、当該第2の処理された特徴マップを用いて第2のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得することと、融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定することと、を含んでもよい。当該特徴マップにおける対象画像中の前景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を弱めることで、融合ステップにおいて、第2のスティッチング特徴マップにおける対象画像中の前景に対応する特徴画素点が補強され、対象画像中の背景に対応する特徴画素点が弱められるようにすることができる。したがって、当該第2の処理された特徴マップと第2のスティッチング特徴マップにおける各オブジェクトに対応する関心領域との融合に基づいて特定された上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットの精度が向上し、それにより上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットに基づいて対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。
なお、第2のスティッチング特徴マップ及び対象画像中の各画素点が前景に属する第1の確率に基づいて上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、まず、各オブジェクトの第2のスティッチング特徴マップにおける特徴領域(即ち、関心領域)を特定し、その後、各オブジェクトの第2のスティッチング特徴マップにおける特徴領域及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットをそれぞれ特定する。
S530において、各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定する。
本開示の実施例において、セマンティクスセグメンテーションロジットから、オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに対応する領域のセマンティクスセグメンテーションロジットを切り取る。
S540において、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定する。
本開示の実施例において、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、対象画像に対してパノラマセグメンテーションを行うパノラマセグメンテーションロジットを生成することができる。
S550において、前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定する。
いくつかの実施例において、上記の画像処理方法は、ニューラルネットワークにより実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる。マスク情報には、オブジェクトに対応する初期バウンディングボックスにおける各画素点が当該オブジェクトの画素点であるか否かの情報が含まれる。
本開示は、上記のニューラルネットワークに対してトレーニングを行うフローをさらに提供し、いくつかの実施例において、当該フローは、以下のステップ1乃至ステップ3を含んでもよい。
ステップ1において、サンプル画像の異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率を特定する。
本開示の実施例において、ニューラルネットワークは、上記の実施例と同様の方法を用いてサンプル画像の異なるデフォルトのスケールに対する特徴マップ、即ち、上記の複数のサンプル画像特徴マップを特定してもよい。上記の実施例と同様の方法を用いてサンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率を特定してもよい。
ステップ2において、前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力する。
ニューラルネットワークにより出力されたサンプル画像における1つのオブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのマスク情報であり、ニューラルネットワークにより予測された当該オブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのバウンディングボックスにおける画像により特定されてもよい。言い換えれば、ニューラルネットワークにより予測されたオブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのバウンディングボックス及びサンプル画像により特定されてもよい。
ステップ3において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する。1つのオブジェクトのラベル付きのマスク情報は、ラベル付きの当該オブジェクトのバウンディングボックスにおける画像により特定されてもよく、即ち、1つのオブジェクトのラベル付きのマスク情報は、ラベル付きの当該オブジェクトのバウンディングボックス及びサンプル画像により特定されてもよい。
本開示の実施例において、以下のサブステップ1乃至4を用いてネットワーク損失関数を特定してもよい。
サブステップ1において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得する。
サブステップ2において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得する。
サブステップ3において、前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定する。
ラベル付きのマスク情報及びニューラルネットワークにより予測されたマスク情報を用いてマスク共通部分とマスク和集合を特定し、さらにマスク共通部分とマスク和集合に基づいてネットワーク損失関数、即ち、共通部分と和集合との比iou損失関数を特定する。iou損失関数を用いることで、トレーニングして得られたニューラルネットワークによるパノラマセグメンテーションの正確性を向上させることができる。
サブステップ4において、前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整する。
本実施例は、ラベル付きのマスク情報及びニューラルネットワークにより予測されたマスク情報を用いてネットワーク損失関数を特定して、ネットワーク損失関数を用いてニューラルネットワークのトレーニングを行うことで、トレーニングして得られたニューラルネットワークによるパノラマセグメンテーションの正確性を向上させることができる。
以下、本開示の画像処理方法をさらに1つの実施例により説明する。
図7に示すように、本実施例の画像処理方法は以下のステップ700-790を含む。
ステップ700において、対象画像を取得し、対象画像の異なるデフォルトのスケールに対応する第1の特徴マップp2、p3、p4、p5を特定する。
ステップ710において、第1の特徴マップp2、p3、p4、p5をスティッチングし、スティッチングして得られた第1のスティッチング特徴マップK1に基づいて、最大のデフォルトのスケールに対応する第2の特徴マップl2を特定する。
ステップ720において、最大のデフォルトのスケール以外の各デフォルトのスケールについて、当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールに対応する第1の特徴マップ及び第2の特徴マップに基づいて、当該デフォルトのスケールに対応する第2の特徴マップ、即ち、図8におけるl3、l4、l5を特定する。
ステップ730において、各デフォルトのスケールについて、当該デフォルトのスケールに対応する第1の特徴マップ及び当該デフォルトのスケールに対応する第2の特徴マップに基づいて、対象画像の当該デフォルトのスケールに対応する画像特徴マップq2、q3、q4、q5を特定する。
ステップ740において、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップは、いずれも最大のデフォルトのスケールを有する。その後、最大のデフォルトのスケールに対応する全ての画像特徴マップをスティッチングし、第2のスティッチング特徴マップK2を取得する。
ステップ750において、第2のスティッチング特徴マップK2に基づいて、前景・背景分類特徴マップK3を生成し、前景・背景分類特徴マップK3には、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率が含まれる。
ステップ760において、前景・背景分類特徴マップK3中の各画素点が背景に属する第2の確率及び第2のスティッチング特徴マップK2に基づいて、セマンティクスセグメンテーションロジットK4を特定する。
ステップ770において、前景・背景分類特徴マップK3中の各画素点が前景に属する第1の確率及び前記複数の画像特徴マップに基づいて、前記対象画像における各オブジェクトの初期バウンダリボックスbox、各オブジェクトのインスタンスカテゴリclass、及び各オブジェクトのインスタンスセグメンテーションロジットK6を特定する。
ステップ780において、各オブジェクトの初期バウンディングボックスbox及びインスタンスクラスclassに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットK6に基づいて、前記対象画像のパノラマセグメンテーションロジットK7を特定する。
ステップ790において、前記対象画像のパノラマセグメンテーションロジットに基づいて前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定する。
上記の実施例は、複数回の特徴抽出と複数方向の特徴融合により、対象画像の異なるデフォルトのスケールに対応する画像特徴マップを取得し、対象画像の画像特徴の十分な掘り起こしを実現し、得られた画像特徴マップには、より完全で正確な画像特徴マップが含まれる。当該より完全で正確な画像特徴マップは、対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。上記の実施例は、対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて画像特徴マップにおける背景又は前景に対応する特徴画素点を補強処理することで、対象画像に対してパノラマセグメンテーションを行う精度を向上させることに同様に有利である。
上記の画像処理方法に対応して、本開示の実施例は、画像処理装置をさらに提供し、当該装置は、シーン知覚、即ち対象画像に対してパノラマセグメンテーションを行う端末機器に適用され、当該装置及びその各モジュールは、上記の画像処理方法と同様の方法のステップを実行することができ、同様又は類似する効果を達成することができるため、重複する部分については説明が省略される。
図8に示すように、本開示にて提供される画像処理装置は、特徴マップ特定モジュール810、前景・背景処理モジュール820、及びパノラマ分析モジュール830を含む。
特徴マップ特定モジュール810は、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる。
前景・背景処理モジュール820は、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するために用いられる。
パノラマ分析モジュール830は、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うために用いられる。
いくつかの実施例において、前記特徴マップ特定モジュール810は、前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップを取得し、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得し、前記第1のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第2の特徴マップを取得し、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる。
いくつかの実施例において、前記特徴マップ特定モジュール810は、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する時に、前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、当該デフォルトのスケールに対応する第2の特徴マップを特定し、当該デフォルトのスケールに対応する第1の特徴マップ及び当該デフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定するために用いられる。
いくつかの実施例において、前記特徴マップ特定モジュール810は、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得する時に、前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第1の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第1の特徴マップを取得し、ただし、アップサンプリング処理された各第1の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであり、前記最大のデフォルトのスケールに対応する第1の特徴マップ及びアップサンプリング処理された各第1の特徴マップをスティッチングし、前記第1のスティッチング特徴マップを取得するために用いられる。
いくつかの実施例において、前記前景・背景処理モジュール820は、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、ただし、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであり、前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第2のスティッチング特徴マップを取得し、前記第2のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するために用いられる。
いくつかの実施例において、前記パノラマ分析モジュール830は、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、ただし、前記対象画像中の画素点が背景に属する第2の確率が大きいほど、当該画素点に対応する第1のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第1のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であり、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、ただし、前記対象画像中の画素点が前景に属する第1の確率が大きいほど、当該画素点に対応する第2のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第2のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であり、各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定し、前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定するために用いられる。
前記パノラマ分析モジュール830は、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定する時に、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定し、前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第1の処理された特徴マップを取得し、前記第1の処理された特徴マップを用いて前記第2のスティッチング特徴マップと融合し、融合された特徴マップを取得し、前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定するために用いられる。
前記パノラマ分析モジュール830は、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定し、前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第2の処理された特徴マップを取得し、前記第2の処理された特徴マップを用いて前記第2のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得し、前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定するために用いられる。
いくつかの実施例において、前記画像処理装置は、ニューラルネットワークを用いて前記対象画像に対してパノラマセグメンテーションを行い、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる。
いくつかの実施例において、上記の装置は、ニューラルネットワークトレーニングモジュール840をさらに含み、前記ニューラルネットワークトレーニングモジュール840は、サンプル画像の異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率を特定するステップと、前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いて前記ニューラルネットワークをトレーニングする。
いくつかの実施例において、前記ニューラルネットワークトレーニングモジュール840は、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する時に、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得し、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得し、前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定するために用いられる。
本開示の実施例は、図9に示すように、プロセッサ901と、メモリ902と、バス903と、を含み、前記メモリ902は、前記プロセッサ901が実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサ901と前記メモリ902との間はバス903を介して通信する電子機器を提供する。
前記機械可読命令は、前記プロセッサ901により実行されると、いずれかの上記の実施例にて提供される画像処理方法を実行する。
本開示の実施例は、上記の方法及び装置に対応するコンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含み、プログラムコードに含まれる命令は、前述した方法の実施例における方法を実行するために用いられ、具体的な実現は、方法の実施例を参照してもよく、ここでは詳細は再度説明しない。
本開示の実施例は、記憶媒体に記憶された、前記コンピュータプログラムがプロセッサにより実行されると、いずれかの上記の実施例における画像処理方法を実行するコンピュータプログラムをさらに提供する。
以上、各実施例についての記述には、各実施例の間の相違を強調する傾向があり、それらの同様又は類似するものは、互いに参照してもよく、簡潔のために、本明細書では詳細は再度説明しない。
当業者は、記述の便宜及び簡潔のために、上記のシステム及び装置の具体的な動作過程が、方法の実施例における対応する過程を参照してもよく、本開示においては省略されることを明確に理解することができる。本開示により提供されるいくつかの実施例において、開示されるシステム、装置、及び方法は、他の形態で実現されてもよいことが理解されるべきである。上記の装置の実施例は、単なる例示的なものであり、例えば、前記モジュールの区画は、単に論理的機能の区画であり、実際に実現する時に、別の区画方式にしてもよく、また、例えば、複数のモジュール又はアセンブリは組み合わせてもよく、若しくは別のシステムに統合されてもよく、又はいくつかの特徴は省略されてもよく、若しくは実行されなくてもよい。別の点において、示され又は論じされた相互の間の結合又は直接結合又は通信接続は、いくつかの通信インタフェース、装置又はモジュールを介した間接的な結合又は通信接続であってもよく、電気的、機械的、又は他の形態であってもよい。
分離部材として説明された前記モジュールは、物理的に分離されても、又は分離されなくてもよく、モジュールとして表示される部材は、物理的なユニットであっても、又は物理的なユニットでなくてもよく、即ち、一箇所に位置しても、又は複数のネットワークユニットに分散されてもよい。なお、本実施例の手段の目的を達成するために、実際の要求に応じて、そのうちの一部又は全部のユニットを選択してもよい。
また、本開示の各実施例における各機能ユニットは、1つの処理ユニットに統合されていてもよく、各ユニットが物理的に別々に存在していてもよく、2つ以上のユニットが1つのユニットに統合されてもよい。
前記機能は、ソフトウェア機能ユニットの形態で実現されスタンドアロン製品として販売又は使用される場合、1つのプロセッサにより実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づいて、本開示の技術的解決手段は、本質的に、又は、従来技術に寄与する部分、又は、当該技術的解決手段の一部がソフトウェア製品の形態で具体化されてもよく、当該コンピュータソフトウェア製品は1つの記憶媒体に記憶され、本開示の各実施例に記載の方法のステップの全て又は一部を、1台のコンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい)に実行させるための命令を含む。前述した記憶媒体は、Uディスク、ポータブルハードディスク、ROM(Read-Only Memory)、RAM(Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な種々の媒体を含む。
以上は本開示の具体的な実施形態にすぎず、本開示の保護範囲はこれに限定されず、本開示に開示された技術的範囲内において当業者が容易に想到し得る変更又は置換は、いずれも本開示の保護範囲に含まれるべきである。したがって、本開示の保護範囲は、特許請求の範囲による保護範囲を基準とすべきである。

Claims (25)

  1. 対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するステップと、
    前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するステップと、
    前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップと、を含む、
    ことを特徴とする画像処理方法。
  2. 対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するステップは、
    前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップを取得することと、
    前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得することと、
    前記第1のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第2の特徴マップを取得することと、
    前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定することと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定することは、
    前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、
    前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、当該デフォルトのスケールに対応する第2の特徴マップを特定することと、
    当該デフォルトのスケールに対応する第1の特徴マップ及び当該デフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定することと、を含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得することは、
    前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第1の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第1の特徴マップを取得し、アップサンプリング処理された各第1の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであることと、
    前記最大のデフォルトのスケールに対応する第1の特徴マップ及びアップサンプリング処理された各第1の特徴マップをスティッチングし、前記第1のスティッチング特徴マップを取得することと、を含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定することは、
    前記異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであることと、
    前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第2のスティッチング特徴マップを取得することと、
    前記第2のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定することと、を含む、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップは、
    前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、前記対象画像中の画素点が背景に属する第2の確率が大きいほど、当該画素点に対応する第1のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第1のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であることと、
    前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、前記対象画像中の画素点が前景に属する第1の確率が大きいほど、当該画素点に対応する第2のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第2のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であることと、
    各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定することと、
    各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定することと、
    前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定することと、を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定することは、
    前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定することと、
    前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、
    前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第1の処理された特徴マップを取得することと、
    前記第1の処理された特徴マップを用いて前記第2のスティッチング特徴マップと融合し、融合された特徴マップを取得することと、
    前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定することと、を含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定することは、
    前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定することと、
    前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、
    前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第2の処理された特徴マップを取得することと、
    前記第2の処理された特徴マップを用いて前記第2のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得することと、
    前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定することと、を含む、
    ことを特徴とする請求項6に記載の方法。
  9. 前記画像処理方法はニューラルネットワークにより実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる、
    ことを特徴とする1-8のいずれか1項に記載の方法。
  10. 前記ニューラルネットワークは、
    サンプル画像の前記異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率を特定するステップと、
    前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、
    前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いてトレーニングして得られる、
    ことを特徴とする請求項9に記載の方法。
  11. 前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップは、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得することと、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得することと、
    前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定することと、を含む、
    ことを特徴とする請求項10に記載の方法。
  12. 対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するための特徴マップ特定モジュールと、
    前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するための前景・背景処理モジュールと、
    前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うためのパノラマ分析モジュールと、を含む、
    ことを特徴とする画像処理装置。
  13. 前記特徴マップ特定モジュールは、
    前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップを取得し、
    前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得し、
    前記第1のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第2の特徴マップを取得し、
    前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる、
    ことを特徴とする請求項12に記載の装置。
  14. 前記特徴マップ特定モジュールは、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する時に、
    前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、
    前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第1の特徴マップ及び前記最大のデフォルトのスケールに対応する第2の特徴マップに基づいて、当該デフォルトのスケールに対応する第2の特徴マップを特定し、
    当該デフォルトのスケールに対応する第1の特徴マップ及び当該デフォルトのスケールに対応する第2の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定するために用いられる、
    ことを特徴とする請求項13に記載の装置。
  15. 前記特徴マップ特定モジュールは、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第1の特徴マップをスティッチングし、第1のスティッチング特徴マップを取得する時に、
    前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第1の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第1の特徴マップを取得し、アップサンプリング処理された各第1の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであり、
    前記最大のデフォルトのスケールに対応する第1の特徴マップ及びアップサンプリング処理された各第1の特徴マップをスティッチングし、前記第1のスティッチング特徴マップを取得するために用いられる、
    ことを特徴とする請求項13に記載の装置。
  16. 前記前景・背景処理モジュールは、
    前記異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであり、
    前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第2のスティッチング特徴マップを取得し、
    前記第2のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を特定するために用いられる、
    ことを特徴とする請求項12乃至15のいずれか1項に記載の装置。
  17. 前記パノラマ分析モジュールは、
    前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、前記対象画像中の画素点が背景に属する第2の確率が大きいほど、当該画素点に対応する第1のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第1のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であり、
    前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、前記対象画像中の画素点が前景に属する第1の確率が大きいほど、当該画素点に対応する第2のスケーリング比率が大きく、前記対象画像中の1つの画素点に対応する第2のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第2のスティッチング特徴マップにおける当該画素点の対応する値との比であり、
    各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、
    各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定し、
    前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定するために用いられる、
    ことを特徴とする請求項16に記載の装置。
  18. 前記パノラマ分析モジュールは、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第2の確率に基づいて、セマンティクスセグメンテーションロジットを特定する時に、
    前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定し、
    前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、
    前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第1の処理された特徴マップを取得し、
    前記第1の処理された特徴マップを用いて前記第2のスティッチング特徴マップと融合し、融合された特徴マップを取得し、
    前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定するために用いられる、
    ことを特徴とする請求項17に記載の装置。
  19. 前記パノラマ分析モジュールは、前記第2のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第1の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、
    前記対象画像中の各画素点が前景に属する第1の確率及び背景に属する第2の確率を用いて前景・背景分類特徴マップを特定し、
    前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、
    前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第2の処理された特徴マップを取得し、
    前記第2の処理された特徴マップを用いて前記第2のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得し、
    前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定するために用いられる、
    ことを特徴とする請求項17に記載の装置。
  20. 前記画像処理装置は、ニューラルネットワークを用いて前記対象画像に対してパノラマセグメンテーションを行い、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる、
    ことを特徴とする請求項12-19のいずれか1項に記載の装置。
  21. ニューラルネットワークトレーニングモジュールをさらに含み、前記ニューラルネットワークトレーニングモジュールは、
    サンプル画像の前記異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率を特定するステップと、
    前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第1のサンプル確率及び背景に属する第2のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、
    前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いて前記ニューラルネットワークをトレーニングする、
    ことを特徴とする請求項20に記載の装置。
  22. 前記ニューラルネットワークトレーニングモジュールは、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する時に、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得し、
    前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得し、
    前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定するために用いられる、
    ことを特徴とする請求項21に記載の装置。
  23. プロセッサと、記憶媒体と、バスと、を含み、前記記憶媒体は、前記プロセッサが実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサと前記記憶媒体との間はバスを介して通信し、前記プロセッサは前記機械可読命令を実行して、請求項1-11のいずれか1項に記載の画像処理方法を実行する、
    ことを特徴とする電子機器。
  24. コンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサにより実行されると、請求項1-11のいずれか1項に記載の画像処理方法を実行する、
    ことを特徴とするコンピュータ可読記憶媒体。
  25. コンピュータプログラムが記憶媒体に記憶され、前記コンピュータプログラムがプロセッサにより実行されると、請求項1-11のいずれか1項に記載の画像処理方法を実行する、
    ことを特徴とするコンピュータプログラム。
JP2022500585A 2020-01-19 2021-01-13 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体 Withdrawn JP2022538928A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010062779.5 2020-01-19
CN202010062779.5A CN111260666B (zh) 2020-01-19 2020-01-19 图像处理方法及装置、电子设备、计算机可读存储介质
PCT/CN2021/071581 WO2021143739A1 (zh) 2020-01-19 2021-01-13 图像处理方法及装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2022538928A true JP2022538928A (ja) 2022-09-06

Family

ID=70947045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500585A Withdrawn JP2022538928A (ja) 2020-01-19 2021-01-13 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体

Country Status (5)

Country Link
US (1) US20220130141A1 (ja)
JP (1) JP2022538928A (ja)
KR (1) KR20220028026A (ja)
CN (1) CN111260666B (ja)
WO (1) WO2021143739A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178211B (zh) * 2019-12-20 2024-01-12 天津极豪科技有限公司 图像分割方法、装置、电子设备及可读存储介质
CN111260666B (zh) * 2020-01-19 2022-05-24 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN113225613B (zh) * 2020-01-21 2022-07-08 北京达佳互联信息技术有限公司 图像识别、视频直播方法和装置
CN112070793A (zh) * 2020-09-11 2020-12-11 北京邮电大学 一种目标提取方法及装置
CN113191316A (zh) * 2021-05-21 2021-07-30 上海商汤临港智能科技有限公司 图像处理方法、装置、电子设备及存储介质
CN114136274A (zh) * 2021-10-29 2022-03-04 杭州中科睿鉴科技有限公司 基于计算机视觉的站台限界测量方法
CN114445632A (zh) * 2022-02-08 2022-05-06 支付宝(杭州)信息技术有限公司 图片处理方法及装置
CN114495236B (zh) * 2022-02-11 2023-02-28 北京百度网讯科技有限公司 图像分割方法、装置、设备、介质及程序产品
CN115100652A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 基于高分遥感图像的电子地图自动化生成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060221181A1 (en) * 2005-03-30 2006-10-05 Cernium, Inc. Video ghost detection by outline
CN108010034A (zh) * 2016-11-02 2018-05-08 广州图普网络科技有限公司 商品图像分割方法及装置
US10678256B2 (en) * 2017-09-28 2020-06-09 Nec Corporation Generating occlusion-aware bird eye view representations of complex road scenes
CN109360633B (zh) * 2018-09-04 2022-08-30 北京市商汤科技开发有限公司 医疗影像处理方法及装置、处理设备及存储介质
CN109544560B (zh) * 2018-10-31 2021-04-27 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110298298B (zh) * 2019-06-26 2022-03-08 北京市商汤科技开发有限公司 目标检测及目标检测网络的训练方法、装置及设备
CN110322495B (zh) * 2019-06-27 2021-11-02 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110490840A (zh) * 2019-07-11 2019-11-22 平安科技(深圳)有限公司 一种肾小球病理切片图像的细胞检测方法、装置及设备
CN110490878A (zh) * 2019-07-29 2019-11-22 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110675403B (zh) * 2019-08-30 2022-05-03 电子科技大学 一种基于编码辅助信息的多实例图像分割方法
CN111260666B (zh) * 2020-01-19 2022-05-24 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质

Also Published As

Publication number Publication date
KR20220028026A (ko) 2022-03-08
US20220130141A1 (en) 2022-04-28
CN111260666B (zh) 2022-05-24
CN111260666A (zh) 2020-06-09
WO2021143739A1 (zh) 2021-07-22

Similar Documents

Publication Publication Date Title
JP2022538928A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体
WO2020216008A1 (zh) 图像处理方法、装置、存储介质及设备
CN110837811A (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
US11861810B2 (en) Image dehazing method, apparatus, and device, and computer storage medium
CN111739027B (zh) 一种图像处理方法、装置、设备及可读存储介质
WO2023040146A1 (zh) 基于图像融合的行为识别方法、装置、电子设备及介质
CN114419641B (zh) 文本分离模型的训练方法、装置、电子设备和存储介质
CN108665769B (zh) 基于卷积神经网络的网络教学方法以及装置
JP2023530796A (ja) 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
US20240104696A1 (en) Image processing method and apparatus, storage medium, electronic device, and product
KR20130001635A (ko) 깊이 맵 생성 방법 및 장치
CN114820885B (zh) 图像编辑方法及其模型训练方法、装置、设备和介质
CN111598025B (zh) 图像识别模型的训练方法和装置
CN115063807A (zh) 图像处理方法、装置、可读存储介质及电子设备
Shi et al. AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention
KR20130063429A (ko) 시선 경로 제공장치 및 시선 경로 제공방법
CN113705154A (zh) 基于视频的内容交互方法、装置、计算机设备和存储介质
WO2024175099A1 (zh) 图像处理方法、装置和存储介质
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN116301388B (zh) 一种智能多模态组合应用的人机交互场景系统
CN118101862B (zh) 图像处理方法、装置、设备及存储介质
CN113505680B (zh) 基于内容的高时长复杂场景视频不良内容检测方法
CN118097521B (zh) 对象识别方法、装置、设备、介质及程序产品
US20240273681A1 (en) Method, apparatus, device and storage medium for video processing
CN118570791A (zh) 重叠对象检测方法和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220105

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20221223