JP2021507388A - インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体 - Google Patents

インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体 Download PDF

Info

Publication number
JP2021507388A
JP2021507388A JP2020533099A JP2020533099A JP2021507388A JP 2021507388 A JP2021507388 A JP 2021507388A JP 2020533099 A JP2020533099 A JP 2020533099A JP 2020533099 A JP2020533099 A JP 2020533099A JP 2021507388 A JP2021507388 A JP 2021507388A
Authority
JP
Japan
Prior art keywords
features
feature
instance
fusion
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020533099A
Other languages
English (en)
Other versions
JP7032536B2 (ja
Inventor
シュー リウ
シュー リウ
ルー チー
ルー チー
ハイファン チン
ハイファン チン
ジエンピン シー
ジエンピン シー
ジアヤー ジア
ジアヤー ジア
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810137044.7A external-priority patent/CN108460411B/zh
Priority claimed from CN201810136371.0A external-priority patent/CN108335305B/zh
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021507388A publication Critical patent/JP2021507388A/ja
Application granted granted Critical
Publication of JP7032536B2 publication Critical patent/JP7032536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本開示の実施例はインスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体を開示し、前記方法は、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得ることと、を含む。本開示の実施例は深層学習に基づくフレームワークを設計してインスタンスセグメンテーションの課題を解決し、より正確なインスタンスセグメンテーション結果を得ることができる。

Description

(関連出願の相互参照)
本開示は2018年02月09日に中国特許局に提出された、出願番号CN2018101370447、発明の名称「インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体」の中国特許出願の優先権、および2018年02月09日に中国特許局に提出された、出願番号CN2018101363710、発明の名称「画像分割方法および装置、電子機器、プログラムならびに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示はコンピュータビジョン技術に関し、特にインスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体に関する。
インスタンスセグメンテーションはコンピュータビジョン分野において非常に重要な研究方向であり、このタスクはセマンティックセグメンテーションと物体検出の特徴を兼ね備えており、画像に入力される物体の各々について、それぞれ一つの独立した画素レベルのマスク(mask)を生成し、その対応するクラスを予測する。インスタンスセグメンテーションは無人運転、家庭用ロボットなどの分野において非常に広く応用されている。
本開示の実施例は、インスタンスセグメンテーションの解決手段を提供する。
本開示の実施例の一態様によれば、
ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得ることと、を含むインスタンスセグメンテーション方法が提供される。
本開示の実施例の別の態様によれば、
画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、を含むインスタンスセグメンテーション装置が提供される。
本開示の実施例のさらに別の態様によれば、
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されたコンピュータプログラムを実行するためのプロセッサであって、前記コンピュータプログラムが実行される時に本開示のいずれかの実施例に記載の方法を実現するプロセッサと、を含む電子機器が提供される。
本開示の実施例のさらに別の態様によれば、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体が提供される。
本開示の実施例のさらに別の態様によれば、コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は機器のプロセッサによって実行されるとき、本開示のいずれかの実施例に記載の方法を実現するコンピュータプログラムが提供される。
本開示の上記実施例が提供するインスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体は、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習フレームワークに基づいてインスタンスセグメンテーションを行う技術的解決手段を設計し、深層学習は強いメモリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができるようになり、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。
以下に図面および実施例により、本開示の技術的解決手段をさらに詳しく説明する。
本開示のインスタンスセグメンテーション方法の一実施例のフローチャートである。 本開示の実施例における特徴融合の一模式図である。 本開示のインスタンスセグメンテーション方法の別の実施例のフローチャートである。 本開示の実施例において二分岐によるマスク予測を行うネットワークの一構成模式図である。 本開示のインスタンスセグメンテーション方法の一応用例のフローチャートである。 図5に示す応用例のプロセス模式図である。 本開示のインスタンスセグメンテーション装置の一実施例の構成模式図である。 本開示のインスタンスセグメンテーション装置の別の実施例の構成模式図である。 本開示の実施例におけるセグメンテーションモジュールの一実施例の構成模式図である。 本開示の実施例における電子機器の一実施例の構成模式図である。
明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。
ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材およびステップの相対的配置、数式および値は本開示の範囲を限定するものではないことに注意すべきである。
また、本開示の実施例では、「複数の」とは二つ以上を指してもよく、「少なくとも一つの」とは一つ、二つまたは二つ以上を指してもよいことを理解すべきである。
当業者であれば、本開示の実施例における「第一」、「第二」などの用語は異なるステップ、機器またはモジュールなどを区別するためのものに過ぎず、なんらの特定の技術的意味も有さず、またそれらの間の必然的な論理的順序を表すものでもないことを理解できる。
また、本開示の実施例で言及された任意の部材、データまたは構造は、明確に限定されまたは明細書の前後で反対的に示唆された場合でなければ、一般的には一つ以上と理解してもよいことを理解すべきである。
また、本開示は各実施例間の相違点を重点に説明し、その同じまたは類似の部分は互いに参照すればよいことを理解すべきであり、その説明を簡潔にするために、詳細な説明は繰り返さない。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示およびその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
また、本開示における用語「および/または」とは、関連対象の関連関係を記述するためのものに過ぎず、三つの可能な関係を表すことができ、例えば、Aおよび/またはBとは、Aが単独で存在する場合、AおよびBが同時に存在する場合、Bが単独で存在する場合という三つの場合を表すことができる。また、本開示における符号「/」とは、一般的には前後の関連対象が「または」という関係にあることを表す。
本開示の実施例は端末機器、コンピュータシステム、サーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末機器、コンピュータシステム、サーバなどの電子機器との併用に適する公知の端末機器、計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび前記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末機器、コンピュータシステム、サーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
図1は本開示のインスタンスセグメンテーション方法の一実施例のフローチャートである。図1に示すように、該実施例のインスタンスセグメンテーション方法は以下の操作(ステップ)102〜108を含む。
102において、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する。
本開示の各実施例における特徴の表現形式は、例えば特徴マップ、特徴ベクトルまたは特徴行列などを含んでもよいが、これらに限定されない。前記少なくとも二つの異なる階層とはニューラルネットワークにおいて該ニューラルネットワークの異なる深さにある二つ以上のネットワーク層をいう。前記画像は、例えば静的画像、ビデオにおけるフレーム画像などを含んでもよいが、これらに限定されない。
任意選択的な一例では、該操作102はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。
104において、上記少なくとも二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。
インスタンスは、例えばある具体的な人物、ある具体的な物体などのようなある具体的な対象を含んでもよいが、これに限定されない。ニューラルネットワークによって画像を検出すれば、上記インスタンスが画像において現れ得る領域を表す一つ以上のインスタンス候補領域を得ることができる。
任意選択的な一例では、該操作104はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。
106において、同一インスタンス候補領域に対応する領域特徴をそれぞれ融合し、各インスタンス候補領域の第一融合特徴を得る。
本開示の各実施例では、複数の領域特徴は、例えば複数の領域特徴を各画素に基づいてその和を求めるか、最大値を取るか、または平均値を取るように融合してもよい。
任意選択的な一例では、該操作106はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。
108において、各第一融合特徴にそれぞれ基づいてインスタンスセグメンテーション(Instance Segmentation)を行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得る。
本開示の各実施例では、インスタンス候補領域のインスタンスセグメンテーション結果は、該インスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するクラス、例えば、該インスタンス候補領域においてある男の子に属する画素および該男の子が属する人間クラスを含んでもよい。
任意選択的な一例では、該操作108はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールによって実行してもよい。
本開示の上記実施例が提供するインスタンスセグメンテーション方法に基づき、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習に基づくフレームワークを設計してインスタンスセグメンテーションの課題を解決し、深層学習は強いモデリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができ、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。
本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する操作102は、ニューラルネットワークによって画像の特徴抽出を行い、該ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から上記少なくとも二つの異なる階層の特徴を出力することを含んでもよい。
本開示の各実施例では、ニューラルネットワークは二つ以上のネットワーク深さが異なるネットワーク層を含み、ニューラルネットワークに含まれるネットワーク層のうち、特徴抽出用のネットワーク層は特徴層と呼ばれてもよく、ニューラルネットワークは一つの画像を受信してから、1層目のネットワーク層によって入力される画像の特徴抽出を行い、抽出される特徴を2層目のネットワーク層に入力し、2層目のネットワーク層を始め、各ネットワーク層は入力される特徴を順に抽出し、抽出される特徴を次のネットワーク層に入力して抽出させる。ニューラルネットワークにおける各ネットワーク層のネットワーク深さは入出力の順序または特徴抽出の順序に従って浅から深へとし、各ネットワーク層が順に特徴抽出を行って出力する特徴の階層は下位から上位へとし、解像度は高から低へとする。同一ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層に比べ、ネットワーク深さが深いネットワーク層は視野が広く、空間構造情報に対してより多く注目し、その抽出した特徴がインスタンスセグメンテーションに用いられるときは、セグメンテーション結果をより正確にすることができる。ニューラルネットワークにおいて、ネットワーク層は、通常、少なくとも一つの特徴抽出用の畳み込み層、および畳み込み層により抽出される特徴(例えば、特徴マップ)をアップサンプリングするアップサンプリング層を含んでもよく、特徴をアップサンプリングすることで、畳み込み層により抽出される特徴(例えば、特徴マップ)の大きさを減少させることができる。
本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、操作106で同一インスタンス候補領域に対応する領域特徴をそれぞれ融合するステップは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合することを含んでもよい。
例えば、その任意選択的な一例では、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合するステップは、
同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値(element−wise max)を取り、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の最大値を取るように、
または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ平均値を取り、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の平均値を取るように、
または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれその和を求め、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の和を求めるようにしてもよい。
ただし、上記実施形態では、同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合する時、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて最大値を取る方式は、他の方式に比べ、インスタンス候補領域の特徴をより明確にし、それによりインスタンスセグメンテーションをより正確にし、インスタンスセグメンテーション結果の正解率を向上させることができる。
任意選択的に、本開示のインスタンスセグメンテーション方法の別の実施例では、より正確な融合特徴を得るよう、同一インスタンス候補領域に対応する領域特徴をそれぞれ融合する前に、一つのネットワーク層、例えば全畳み込み層または全結合層によって、同一インスタンス候補領域に対応する領域特徴、例えば融合に参加する同一インスタンス候補領域の対応する各領域特徴の次元などを調整し、融合に参加する同一インスタンス候補領域の対応する各領域特徴を、融合により適するように適合してもよい。
本開示のインスタンスセグメンテーション方法の別の実施例では、操作102で少なくとも二つの異なる階層の特徴を出力するステップの後に、さらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合(retracing fusion)を行い、第二融合特徴を得るステップを含んでもよく、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含む。それに対して、該実施例では、操作104は、第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出することを含んでもよい。
各実施例の一実施形態では、上記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含む。これにより文脈情報をより効果的に利用して特徴を融合し、さらに各インスタンス候補領域のインスタンスセグメンテーション結果を向上させることができる。
こうして、その任意選択的な一例では、上記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向(ニューラルネットワークにおけるネットワーク深さが深いネットワーク層により出力される特徴からネットワーク深さが浅いネットワーク層により出力される特徴への方向)および低階層特徴から高階層特徴への方向(ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層により出力される特徴からネットワーク深さが深いネットワーク層により出力される特徴への方向)に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含んでもよい。
本開示の各実施例の一実施形態では、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合するステップは、以下を含む。
ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、例えば、上位階層の特徴をアップサンプリングしてから下位階層の特徴と加算するように、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得る。ここで、上位階層の特徴は、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、または該ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最上位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴であってもよく、または該最上位階層の特徴を一回以上抽出した特徴であってもよく、第三融合特徴は上記最上位階層の特徴および融合毎に得られた融合特徴を含んでもよい。
低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合する。ここで、今回の融合に参加する融合特徴のうち、最下位階層の融合特徴は第三融合特徴のうちの最下位階層の融合特徴であってもよく、または該第三融合特徴のうちの最下位階層の融合特徴を一回以上抽出した特徴であってもよい。今回で低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第三融合特徴のうちの最下位階層の融合特徴および融合毎に得られた融合特徴が含まれる。
ただし、上記少なくとも二つの異なる階層の特徴を一回再追跡融合する場合、低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴は第二融合特徴となり、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に従って融合するという操作を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。
ただし、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴をアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するとき、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層(例えば、ニューラルネットワークの入出力方向に従う80層目のネットワーク層)から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層(例えば、ニューラルネットワークの入出力方向に従う79層目のネットワーク層)から出力される下位階層の特徴と融合するようにしてもよい。また、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層(例えば、ニューラルネットワークの入出力方向に従う80層目のネットワーク層)から出力される上位階層の特徴をアップサンプリングしてから、該ネットワーク深さが深いネットワーク層に隣接せず、ネットワーク深さが浅いネットワーク層(例えば、ニューラルネットワークの入出力方向に従う50層目のネットワーク層)により出力される下位階層の特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。
同様に、下位階層の融合特徴をダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するとき、下位階層の融合特徴(例えばPであって、ここで「2」は特徴階層を表すもの)をダウンサンプリングしてから、隣接の、第三融合特徴のうちの上位階層の融合特徴(例えばPであって、ここで「3」は特徴階層を表すもの)と融合するようにしてもよい。または、下位階層の融合特徴をダウンサンプリングしてから、特徴階層が隣接しない、第三融合特徴のうちの上位階層の融合特徴(例えばPであって、ここで「4」は特徴階層を表すもの)と融合し、即ち、階層間特徴融合を行うようにしてもよい。
図2は本開示の実施例における特徴融合の一模式図である。図2に示すように、下位階層の融合特徴Nをダウンサンプリングしてから、隣接の、上位階層の特徴Pi+1と融合し、対応する融合特徴Ni+1を得る一模式図が示される。ここで、iは値が0よりも大きい整数とする。
該実施例に基づき、上から下への順序(即ち、ニューラルネットワークにおけるネットワーク深さの深から浅、高階層特徴から低階層特徴への順序)に従い、上位の低解像度の特徴と下位の高解像度の特徴を漸次融合し、一群の新たな特徴を得て、続いて下から上への順序(即ち、低階層特徴から高階層特徴への順序)に従い、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、上位階層の特徴と融合し、下位の高解像度の特徴と上位の低解像度の特徴と漸次融合し、別の一群の、インスタンスセグメンテーションのための新たな特徴を得る。本実施例は一つの下から上への情報シャネルによって、下位情報をより容易に上位ネットワーク(即ち、ネットワーク深さが深いネットワーク層)に伝播可能にし、情報伝播の損失を低減し、情報のニューラルネットワーク内部での伝送をより順調にすることができ、下位情報はなんらの詳細情報に敏感であるため、位置特定およびセグメンテーションに非常に有益な情報を提供し、それによりインスタンスセグメンテーション結果を向上させることができ、二回特徴融合することで、上位ネットワーク(即ち、ネットワーク深さが深いネットワーク層)をより容易に、包括的に下位情報を取得可能にし、それによりインスタンスセグメンテーション結果をさらに向上させることができる。
本開示の各実施例の別の実施形態では、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するステップは、以下を含む。
ニューラルネットワークのネットワーク深さの浅から深への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得る。ここで、下位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層から出力される特徴、またはネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最下位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最下位階層の特徴であってもよく、または該最下位階層の特徴を一回以上抽出した特徴であってもよく、第四融合特徴は上記最下位階層の特徴および融合毎に得られた融合特徴を含んでもよい。
高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合する。ここで、今回の融合に参加する融合特徴のうち、最上位階層の融合特徴は第四融合特徴のうちの最上位階層の融合特徴であってもよく、または該第四融合特徴のうちの最上位階層の融合特徴を一回以上抽出した特徴であってもよい。今回で低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第四融合特徴のうちの最上位階層の融合特徴および融合毎に得られた融合特徴が含まれる。
ただし、上記少なくとも二つの異なる階層の特徴を一回再追跡融合する場合、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して得られた一群の融合特徴は第二融合特徴となり、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して一群の融合特徴を得る操作を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。
その任意選択的な一例では、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するとき、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、該ネットワーク深さが浅いネットワーク層に隣接し、ネットワーク深さが深いネットワーク層により出力される上位階層の特徴と融合するようにしてもよい。または、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、該ネットワーク深さが浅いネットワーク層に隣接せず、ネットワーク深さが深いネットワーク層により出力される上位階層の特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。
同様に、上位階層の融合特徴をアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するとき、上位階層の融合特徴をアップサンプリングしてから、隣接の、第四融合特徴のうちの下位階層の融合特徴と融合するようにしてもよい。または、上位階層の融合特徴をアップサンプリングしてから、非隣接の、第四融合特徴のうちの下位階層の融合特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。
本開示の上記各実施例の一実施形態では、操作108で、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得るステップは、
特定の第一融合特徴に限定されない、任意のインスタンス候補領域の第一融合特徴であってもよい第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ること、および/または、各第一融合特徴に基づいて画像のインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得ることを含んでもよい。
本開示の上記各実施例の別の実施形態では、操作108で、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得るステップは、各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得ることと、各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて画像のインスタンスセグメンテーション結果を取得することと、を含んでもよい。
図3は本開示のインスタンスセグメンテーション方法の別の実施例のフローチャートである。図3に示すように、該実施例のインスタンスセグメンテーション方法は以下の操作302〜312を含む。
302において、ニューラルネットワークによって画像の特徴抽出を行い、ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力する。
任意選択的な一例では、該操作302はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。
304において、ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得る。
ここで、上記上位階層の特徴は、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、または該ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最上位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴であってもよく、または該最上位階層の特徴を一回以上抽出した特徴であってもよく、第三融合特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴および該操作304で融合毎に得られた融合特徴を含んでもよい。
306において、低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合し、第二融合特徴を得る。
ここで、今回の融合に参加する融合特徴のうち、最下位階層の融合特徴は第三融合特徴のうちの最下位階層の融合特徴であってもよく、または該第三融合特徴のうちの最下位階層の融合特徴を一回以上抽出した特徴であってもよく、今回で低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第三融合特徴のうちの最下位階層の融合特徴および該操作306で融合毎に得られた融合特徴が含まれる。
該実施例は今回の融合を一回行うことを例にして説明するが、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合には、操作304〜306を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。
任意選択的な一例では、該操作304〜306はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第二融合モジュールによって実行してもよい。
308において、画像における各インスタンス候補領域にそれぞれ基づき、第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。
本開示の各実施例では、例えば、領域提案ネットワーク(Region Proposal Network、RPN)を採用してもよいがこれに限定されないように、画像の各インスタンス候補領域を生成し、各インスタンス候補領域を第二融合特徴のうちの各々にマッピングし、その後、例えば、関心領域(region of interest:ROI)位置合わせ(ROIAlign)の方法を採用してもよいがこれに限定されないように、第二融合特徴から各インスタンス候補領域に対応する領域特徴を抽出する。
任意選択的な一例では、該操作308はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。
310において、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合し、各インスタンス候補領域の融合特徴を得る。
任意選択的な一例では、該操作310はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。
312において、各第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る。
任意選択的な一例では、該操作312はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールによって実行してもよい。
本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、第一融合特徴に基づき、該第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るステップは、
任意のインスタンス候補領域の第一融合特徴である上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、上記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得ることと、上記第一融合特徴に基づいて画素レベルでの前景/背景予測を行い、上記第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得ることと、
上記インスタンスクラス予測結果および前景/背景予測結果に基づき、上記第一融合特徴の対応のインスタンス物体領域候補の、現在のインスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するクラス情報を含むインスタンスセグメンテーション結果を取得することと、を含んでもよい。
本実施例のもとに、上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測および前景/背景予測を同時に行い、画素レベルでのインスタンスクラス予測によって該第一融合特徴の細分類および多分類でき、前景/背景予測によって良好なグローバル情報を得ることができ、マルチインスタンスクラス間の詳細情報に注意を向ける必要がないため、予測速度が向上し、上記インスタンスクラス予測結果および前景/背景予測結果に同時に基づいてインスタンス物体領域候補のインスタンスセグメンテーション結果を取得すれば、インスタンス候補領域または画像のインスタンスセグメンテーション結果を向上させることができる。
その任意選択的な一例では、上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行うステップは、
少なくとも一つの全畳み込み層を含む第一畳み込みネットワークによって、上記第一融合特徴を抽出することと、
第一全畳み込み層によって、上記第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うことと、を含んでもよい。
その任意選択的な一例では、第一融合特徴に基づいて画素レベルでの前景/背景予測を行うステップは、
上記第一融合特徴に基づき、上記第一融合特徴に対応するインスタンス候補領域において前景に属する画素および/または背景に属する画素を予測することを含む。
ここで、背景と前景は必要に応じて設定してもよい。例えば、前景は全てのインスタンスクラスに対応する部分を含み、背景は全てのインスタンスクラスに対応する部分以外の部分を含むようにしてもよく、または、背景は全てのインスタンスクラスに対応する部分を含み、前景は全てのインスタンスクラスに対応する部分以外の部分を含むようにしてもよい。
別の任意選択的な一例では、第一融合特徴に基づいて画素レベルでの前景/背景予測を行うステップは、
少なくとも一つの全畳み込み層を含む第二畳み込みネットワークによって、上記第一融合特徴を抽出することと、
全結合層によって、上記第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景/背景予測を行うことと、を含んでもよい。
本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、上記インスタンスクラス予測結果および前景/背景予測結果に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得するステップは、
上記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行い、上記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ることを含む。
別の実施形態では、上記第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得るステップの後に、さらに、上記前景/背景予測結果を上記インスタンスクラス予測結果の次元に一致する前景/背景予測結果に変換することを含んでもよい。例えば、前景/背景予測結果をベクトルから物体クラス予測の次元に一致する行列に変換する。それに対して、上記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行うステップは、上記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景/背景予測結果との画素レベルでの加算処理を行うことを含んでもよい。
ここで、本開示の各実施例の上記実施形態では、各インスタンス候補領域の第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得るとき、該インスタンス候補領域の第一融合特徴に基づいて画素レベルでのインスタンスクラス予測および前景/背景予測を同時に行うので、該部分の解決手段は二分岐によるマスク予測と呼ばれてもよく、図4に示すように、それは本開示の実施例において二分岐によるマスク予測を行うネットワークの一構成模式図である。
図4に示すように、インスタンス候補領域に対応する複数の領域特徴について、それぞれ二つの分岐によってインスタンスクラス予測および前景/背景予測を行う。ここで、第一の分岐は、四つの全畳み込み層(conv1〜conv4)、即ち上記第一畳み込みネットワーク、および一つの逆畳み込み層(deconv)、即ち上記第一全畳み込み層を含む。第二の分岐は、第一の分岐の3層目の全畳み込み層や4層目の全畳み込み層(conv3〜conv4)、二つの全畳み込み層(conv4fcおよびconv5fc)、即ち上記第二畳み込みネットワーク、全結合層(fc)、および前景/背景予測結果をインスタンスクラス予測結果の次元に一致する前景/背景予測結果に変換するための変換(reshape)層を含む。第一の分岐は可能なインスタンスクラスに対していずれも画素レベルでのマスク予測を行うが、全結合層はインスタンスクラスに関係ないマスク予測(即ち、画素レベルでの前景/背景予測)を行う。最終的にこの二つの分岐によるマスク予測を加算して最終のインスタンスセグメンテーション結果を得る。
図5は本開示のインスタンスセグメンテーション方法の一応用例のフローチャートである。図6は図5に示す応用例のプロセス模式図である。図5および図6を同時に参照すると、該応用例のインスタンスセグメンテーション方法は以下の操作502〜516を含む。
502において、ニューラルネットワークによって画像の特徴抽出を行い、ニューラルネットワークにおける四つの異なるネットワーク深さのネットワーク層から四つの階層の特徴M〜Mを出力する。
任意選択的な一例では、該操作502はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。
504において、上記四つの階層の特徴について、高階層特徴Mから低階層特徴Mへ(即ち、上から下へ)の順序に従い、上位階層の特徴Mi+1を順にアップサンプリングしてから下位階層の特徴Mと融合し、第一群の融合特徴P〜Pを得る。
ここで、iの値は順に1〜3の整数とする。融合に参加する特徴および第一群の融合特徴のうち、最上位階層の融合特徴Pは上記四つの異なる階層の特徴のうちの最上位階層の特徴Mまたは全畳み込み層によって該特徴Mを抽出した特徴であり、第一融合特徴は上記四つの異なる階層の特徴のうちの最上位階層の融合特徴および融合毎に得られた融合特徴P〜Pを含む。
506において、上記第一群の融合特徴について、低階層特徴Pから高階層特徴Pへ(即ち、下から上へ)の順序に従い、下位階層の融合特徴Pを順にダウンサンプリングしてから隣接の上位階層の特徴Pk+1と融合し、第二群の融合特徴N〜Nを得る。
ここで、kの値は順に2〜4の整数とする。今回の融合に参加する融合特徴および第二群の融合特徴のうち、最下位階層の融合特徴Nは第一群の融合特徴のうちの最下位階層の融合特徴Pまたは全畳み込み層によって該融合特徴Pを抽出した特徴であり、第二群の融合特徴は第一融合特徴のうちの最下位階層の特徴Pの対応する特徴および融合毎に得られた融合特徴を含み、ただし、第一融合特徴のうちの最下位階層の特徴の対応する特徴は、第一融合特徴のうちの最下位階層の融合特徴Pまたは畳み込み層によって該融合特徴Pを抽出した特徴である。
本応用例は上記四つの階層の特徴M〜Mに対して一回の再追跡融合を行うことを例にして説明するので、操作506によって得られた第二群の融合特徴は本開示の上記各実施例における第二融合特徴である。
任意選択的な一例では、該操作502〜504はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第二融合モジュールによって実行してもよい。
508において、第二融合特徴N〜Nから上記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。
本開示の各実施例では、例えば、領域提案ネットワークを採用してもよいがこれに限定されないように、画像の少なくとも一つのインスタンス候補領域を生成し、各インスタンス候補領域を第二融合特徴の各々にそれぞれマッピングし、その後、例えば、関心領域位置合わせの方法を採用してもよいがこれに限定されないように、第二融合特徴から同一インスタンス候補領域に対応する領域特徴をそれぞれ抽出する。
任意選択的な一例では、該操作508はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。
510において、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合し、各インスタンス候補領域の第一融合特徴を得る。
任意選択的な一例では、該操作510はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。
その後、操作512および516をそれぞれ実行する。
512において、各インスタンス候補領域の第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得る。
該インスタンスセグメンテーション結果は各インスタンスの物体ボックス(box)または位置および該インスタンスが属するインスタンスクラス(class)を含む。
任意選択的な一例では、該操作512はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットによって実行してもよい。
その後、本応用例の後続のフローを実行しない。
514において、各インスタンス候補領域の第一融合特徴にそれぞれ基づいて画素レベルでのインスタンスクラス予測を行い、各インスタンス候補領域のインスタンスクラス予測結果を得て、および各インスタンス候補領域の第一融合特徴にそれぞれ基づいて画素レベルでの前景/背景予測を行い、各インスタンス候補領域の前景/背景予測結果を得る。
任意選択的な一例では、該操作514はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットまたは第一セグメンテーションユニット内の第一予測サブユニットおよび第二予測サブユニットによって実行してもよい。
516において、各インスタンス物体領域候補の第一融合特徴の対応する物体クラス予測結果をそれぞれ前景/背景予測結果と画素レベルで加算し、各第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る。
ここで、該インスタンスセグメンテーション結果は、現在のインスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するインスタンスクラスを含み、ここのインスタンスクラスは、背景またはあるインスタンスクラスであってもよい。
任意選択的な一例では、該操作516はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットまたは第一セグメンテーションユニット内の取得サブユニットによって実行してもよい。
ただし、該操作512と操作514〜516は、実行時間的には前後の順序に従わなくても支障がなく、両者は同時に実行してもよく、任意の時間順序で実行してもよい。
また、本開示の上記各実施例では、各インスタンス候補領域の第一融合特徴を得てから、さらに、該第一融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得てもよい。
または、本開示の上記各実施例では、各インスタンス候補領域の第二融合特徴を得てから、さらに、該第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得てもよい。
ここで、上記セマンティックセグメンテーション結果は、例えば該画像の少なくとも一部の領域において各画素が属するクラスを含んでもよい。
本発明の各実施例では、画像の少なくとも一部の領域は画像の全ての領域または局所的な領域(例えば、領域候補)であってもよく、つまり、全画像に対してセマンティックセグメンテーションを行い、画像のセマンティックセグメンテーション結果を得るようにしてもよいし、画像の局所(例えば、領域候補)に対してセマンティックセグメンテーションを行い、局所領域のセマンティックセグメンテーション結果を得るようにしてもよい。ここの領域候補は、例えば上記各実施例におけるインスタンス候補領域であってもよく、または他の方式で生成される領域候補であってもよい。
任意選択的な一例では、画像の少なくとも一部の領域のセマンティックセグメンテーションを行う上記操作はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールまたはセグメンテーションモジュールによって実行してもよい。
上記実施例に基づき、画像の少なくとも一部の領域のセマンティックセグメンテーションを実現する。また、第一融合特徴または第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行えば、文脈情報を利用して画像のセマンティックセグメンテーション結果の正確度を向上させることができる。
なお、本開示の上記各実施例では、各インスタンス候補領域の第二融合特徴を得てから、第二融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得てもよいことを説明する必要がある。そのうち、第二融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得るプロセスの実現は、第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得る上記各実施例を参照すればよく、両者は類似する解決手段で実現可能であり、本開示はここで説明を省略する。
本開示の実施例が提供するいずれかのインスタンスセグメンテーション方法は、端末機器およびサーバなどに限られないデータ処理能力を有する任意の適当な機器によって実行できる。または、本開示の実施例が提供するいずれかのインスタンスセグメンテーション方法は、例えばプロセッサがメモリに記憶された対応する命令を呼び出すことで本開示の実施例で言及されたいずれかのインスタンスセグメンテーション方法を実行するように、プロセッサによって実行できる。以下は説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図7は本開示のインスタンスセグメンテーション装置の一実施例の構成模式図である。該実施例のインスタンスセグメンテーション装置は本開示の上記各インスタンスセグメンテーション方法の実施例を実現するために用いることができる。図7に示すように、該実施例の装置は、
画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
上記少なくとも二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、を含み、
そのうち、該ニューラルネットワークは少なくとも二つの異なるネットワーク深さのネットワーク層を含んでもよく、それは画像の特徴抽出を行い、少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力するために用いられる。
本開示の上記実施例が提供するインスタンスセグメンテーション装置に基づき、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習に基づくフレームワークを設計してインスタンスセグメンテーションの課題を解決し、深層学習は強いモデリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができ、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。
図8は本開示のインスタンスセグメンテーション装置の別の実施例の構成模式図である。図8に示すように、図7に示す実施例に比べ、該実施例のインスタンスセグメンテーション装置はさらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るための第二融合モジュールを含み、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含む。それに対して、該実施例では、抽出モジュールは第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するために用いられる。
その一実施形態では、上記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含んでもよい。
こうして、上記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含んでもよい。
その任意選択的な一例では、第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合するときは、ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得て、そして低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するために用いられる。
ここで、上位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、またはネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。
その任意選択的な一例では、第二融合モジュールは、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するときは、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するために用いられる。
その任意選択的な一例では、第二融合モジュールは、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するときは、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、第三融合特徴のうちの上位階層の融合特徴と融合するために用いられる。
その任意選択的な一例では、第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するときは、ニューラルネットワークのネットワーク深さの浅から深への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得て、そして
高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するために用いられる。
ここで、下位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層から出力される特徴、またはネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。
その任意選択的な一例では、第二融合モジュールは、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するときは、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、隣接の、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するために用いられる。
その任意選択的な一例では、第二融合モジュールは、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するときは、上位階層の融合特徴を順にアップサンプリングしてから、隣接の、第四融合特徴のうちの下位階層の融合特徴と融合するために用いられる。
その任意選択的な一例では、第一融合モジュールは、同一インスタンス候補領域に対応する領域特徴を融合するときは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合するために用いられる。
例えば、第一融合モジュールは、同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合するときは、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて平均値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて和を求めるために用いられる。
また、図8を再度参照すると、本開示の上記各実施例の一実施形態では、セグメンテーションモジュールは、
第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るたえの第一セグメンテーションユニット、および/または、
各第一融合特徴に基づいて画像のインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得るための第二セグメンテーションユニットを含んでもよい。
図9は本開示の実施例におけるセグメンテーションモジュールの一実施例の構成模式図である。図9に示すように、本開示の上記各実施例では、セグメンテーションモジュールは、
各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得るための第一セグメンテーションユニットと、
各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて画像のインスタンスセグメンテーション結果を取得するための取得ユニットと、を含んでもよい。
その一実施形態では、第一セグメンテーションユニットは、
第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得るための第一予測サブユニットと、
第一融合特徴に基づいて画素レベルでの前景/背景予測を行い、第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得るための第二予測サブユニットと、
インスタンスクラス予測結果および前景/背景予測結果に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得するための取得サブユニットと、を含む。
その任意選択的な一例では、第二予測サブユニットは、第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域において前景に属する画素および/または背景に属する画素を予測するために用いられる。
ここで、前景は全てのインスタンスクラスに対応する部分を含み、背景は全てのインスタンスクラスに対応する部分以外の部分を含み、または、背景は全てのインスタンスクラスに対応する部分を含み、前景は全てのインスタンスクラスに対応する部分以外の部分を含む。
その任意選択的な一例では、第一予測サブユニットは、第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第一畳み込みネットワークと、第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うための第一全畳み込み層と、を含んでもよい。
その任意選択的な一例では、第二予測サブユニットは、第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第二畳み込みネットワークと、第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景/背景予測を行うための全結合層と、を含んでもよい。
その任意選択的な一例では、取得サブユニットは、第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行い、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るために用いられる。
また、図9を再度参照すると、別の実施例では、第一セグメンテーションユニットはさらに、前景/背景予測結果をインスタンスクラス予測結果の次元に一致する前景/背景予測結果に変換するための変換サブユニットを含んでもよい。それに対して、該実施例では、取得サブユニットは、第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景/背景予測結果との画素レベルでの加算処理を行うために用いられる。
また、本開示の上記各実施例の一実施形態では、セグメンテーションモジュールはさらに、第一融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための、または、第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための第三セグメンテーションユニットを含んでもよい。
また、本開示の実施例が提供する別の電子機器は、
コンピュータプログラムを記憶するためのメモリと、
メモリに記憶された、実行される時に本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む。
図10は本開示の電子機器の一応用例の構成模式図である。以下に図10を参照すると、本開示の実施例の端末機器またはサーバの実現に適する電子機器の構成模式図が示される。図10に示すように、該電子機器は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)、および/または一つ以上の画像処理装置(GPU)などであり、プロセッサは読み取り専用メモリ(ROM)に記憶されている実行可能命令または記憶部分からランダムアクセスメモリ(RAM)にロードされた実行可能命令に従って様々な適当の操作および処理を実行できる。通信部はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリおよび/またはランダムアクセスメモリと通信して実行可能命令を実行し、バスを介して通信部と接続し、通信部によって他の目標機器と通信し、それにより本開示の実施例が提供するいずれかの方法の対応する操作、例えば、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得ることと、を完了することができる。
また、RAMには、装置の操作に必要な種々のプログラムおよびデータを記憶することができる。CPU、ROMおよびRAMはバスを介して互いに接続される。RAMが存在する場合、ROMは任意選択的なモジュールとなる。RAMは実行可能命令を記憶するか、または操作時にROMへ実行可能命令を書き込み、実行可能命令によってプロセッサは本開示の上記いずれかの方法の対応する操作を実行する。入力/出力(I/O)インタフェースもバスに接続される。通信部は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分、ハードディスクなどを含む記憶部分、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分といった部品は、I/Oインタフェースに接続される。通信部分はインターネットのようなネットワークによって通信処理を行う。ドライバも必要に応じてI/Oインタフェースに接続される。取り外し可能な媒体、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバに取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分にインストールされる。
なお、図10に示すアーキテクチャは任意選択的な一実施形態に過ぎず、実践では、実際の必要に応じて上記図10の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、通信部は分離設置するか、またCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。
特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示のいずれかの実施例が提供する方法のステップを対応して実行する対応の命令を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体からインストールされ得る。該コンピュータプログラムはCPUにより実行される時、本開示の方法で限定された上記機能を実行する。
また、本開示の実施例はコンピュータ命令を含むコンピュータプログラムであって、コンピュータ命令は機器のプロセッサによって実行されるとき、本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータプログラムをさらに提供する。
また、本開示の実施例はコンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータ可読記憶媒体をさらに提供する。
本開示の実施例は無人運転、家庭用ロボット、地図などの分野において非常に広く応用されており、例えば、本開示の実施例は自動運転シーンに用いて、自動運転シーンにおける異なる交通参加者を正確に識別することができ、本開示の実施例は街道シーンに用いて、街道シーンにおける道路標識としての異なる建築物および物体を識別し、それにより高精度地図の構築を助けることができ、本開示の実施例は家庭用ロボットに用いることができ、例えば、ロボットは物体を把持する時に物体それぞれに対して画素レベルで正確に位置特定しなければならないが、本開示の実施例を利用すれば、物体を正確に識別および位置特定できる。なお、以上は例示的なシーンに過ぎず、本開示の保護範囲を限定するものではないことを理解すべきである。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本開示の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読命令を含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。
本開示の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本開示の原理および実際の適用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims (54)

  1. ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、
    前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、
    各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得ることと、を含むことを特徴とするインスタンスセグメンテーション方法。
  2. 前記ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する前記ステップは、前記ニューラルネットワークによって前記画像の特徴抽出を行い、前記ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力することを含むことを特徴とする請求項1に記載の方法。
  3. 前記少なくとも二つの異なる階層の特徴を出力する前記ステップの後に、さらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るステップを含み、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含み、
    前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する前記ステップは、前記第二融合特徴から前記少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出することを含むことを特徴とする請求項1または2に記載の方法。
  4. 前記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含むことを特徴とする請求項3に記載の方法。
  5. 前記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含むことを特徴とする請求項4に記載の方法。
  6. 前記異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合する前記ステップは、
    前記ニューラルネットワークのネットワーク深さの深から浅への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得ることと、
    低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合することと、を含むことを特徴とする請求項5に記載の方法。
  7. 前記上位階層の特徴は、前記ニューラルネットワークにおける前記ネットワーク深さが深いネットワーク層から出力される特徴、または前記ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項6に記載の方法。
  8. 前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴をアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合する前記ステップは、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合することを含むことを特徴とする請求項6または7に記載の方法。
  9. 前記下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合する前記ステップは、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、前記第三融合特徴のうちの上位階層の融合特徴と融合することを含むことを特徴とする請求項6から8のいずれか一項に記載の方法。
  10. 異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するステップは、
    前記ニューラルネットワークのネットワーク深さの浅から深への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得ることと、
    高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合することと、を含むことを特徴とする請求項5に記載の方法。
  11. 前記下位階層の特徴は、前記ニューラルネットワークにおいて前記ネットワーク深さが浅いネットワーク層から出力される特徴、または前記ネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項10に記載の方法。
  12. 前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合する前記ステップは、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、隣接の、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合することを含むことを特徴とする請求項10または11に記載の方法。
  13. 前記上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合する前記ステップは、上位階層の融合特徴を順にアップサンプリングしてから、隣接の、前記第四融合特徴のうちの下位階層の融合特徴と融合することを含むことを特徴とする請求項10から12のいずれか一項に記載の方法。
  14. 前記同一インスタンス候補領域に対応する領域特徴を融合する前記ステップは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合することを含むことを特徴とする請求項1から13のいずれか一項に記載の方法。
  15. 前記同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合する前記ステップは、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値を取ること、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて平均値を取ること、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて和を求めることを含むことを特徴とする請求項14に記載の方法。
  16. 前記各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得る前記ステップは、
    第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、前記対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ること、および/または、
    各第一融合特徴に基づいて前記画像のインスタンスセグメンテーションを行い、前記画像のインスタンスセグメンテーション結果を得ることを含むことを特徴とする請求項1から15のいずれか一項に記載の方法。
  17. 前記各第一融合特徴に基づいてインスタンスセグメンテーションを行い、前記画像のインスタンスセグメンテーション結果を得る前記ステップは、
    各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得ることと、
    前記各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて前記画像のインスタンスセグメンテーション結果を取得することと、を含むことを特徴とする請求項1から16のいずれか一項に記載の方法。
  18. 第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、前記対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る前記ステップは、
    前記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得ることと、前記第一融合特徴に基づいて画素レベルでの前景/背景予測を行い、前記第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得ることと、
    前記インスタンスクラス予測結果および前記前景/背景予測結果に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得することと、を含むことを特徴とする請求項16または17に記載の方法。
  19. 前記第一融合特徴に基づいて画素レベルでの前景/背景予測を行う前記ステップは、前記第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域において前景に属する画素および/または背景に属する画素を予測することを含むことを特徴とする請求項18に記載の方法。
  20. 前記前景は全てのインスタンスクラスに対応する部分を含み、前記背景は前記全てのインスタンスクラスに対応する部分以外の部分を含み、または、前記背景は全てのインスタンスクラスに対応する部分を含み、前記前景は前記全てのインスタンスクラスに対応する部分以外の部分を含むことを特徴とする請求項19に記載の方法。
  21. 前記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行う前記ステップは、
    少なくとも一つの全畳み込み層を含む第一畳み込みネットワークによって、前記第一融合特徴を抽出することと、
    第一全畳み込み層によって、前記第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うことと、を含むことを特徴とする請求項18から20のいずれか一項に記載の方法。
  22. 前記第一融合特徴に基づいて画素レベルでの前景/背景予測を行う前記ステップは、
    少なくとも一つの全畳み込み層を含む第二畳み込みネットワークによって、前記第一融合特徴を抽出することと、
    全結合層によって、前記第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景/背景予測を行うことと、を含むことを特徴とする請求項18から21のいずれか一項に記載の方法。
  23. 前記インスタンスクラス予測結果および前記前景/背景予測結果に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得する前記ステップは、前記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ることを含むことを特徴とする請求項18から22のいずれか一項に記載の方法。
  24. 前記第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得るステップの後に、さらに、前記前景/背景予測結果を前記インスタンスクラス予測結果の次元に一致する前景/背景予測結果に変換することを含み、
    前記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行う前記ステップは、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景/背景予測結果との画素レベルでの加算処理を行うことを含むことを特徴とする請求項23に記載の方法。
  25. 各インスタンス候補領域の第一融合特徴を得る前記ステップの後に、さらに、前記第一融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得ることを含むことを特徴とする請求項1から15のいずれか一項に記載の方法。
  26. 各インスタンス候補領域の第二融合特徴を得る前記ステップの後に、さらに、前記第二融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得ることを含むことを特徴とする請求項3から15のいずれか一項に記載の方法。
  27. 画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
    前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
    同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
    各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および/または前記画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、を含むことを特徴とするインスタンスセグメンテーション装置。
  28. 前記ニューラルネットワークは少なくとも二つの異なるネットワーク深さのネットワーク層を含み、前記画像の特徴抽出を行い、前記少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力するために用いられることを特徴とする請求項27に記載の装置。
  29. 前記装置は、さらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るための第二融合モジュールを含み、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含み、
    前記抽出モジュールは、前記第二融合特徴から前記少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するために用いられることを特徴とする請求項27または28に記載の装置。
  30. 前記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含むことを特徴とする請求項29に記載の装置。
  31. 前記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含むことを特徴とする請求項30に記載の装置。
  32. 前記第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合するときは、前記ニューラルネットワークのネットワーク深さの深から浅への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得て、そして低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合するために用いられることを特徴とする請求項31に記載の装置。
  33. 前記上位階層の特徴は、前記ニューラルネットワークにおける前記ネットワーク深さが深いネットワーク層から出力される特徴、または前記ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項32に記載の装置。
  34. 前記第二融合モジュールは、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴をアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するときは、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するために用いられることを特徴とする請求項32または33に記載の装置。
  35. 前記第二融合モジュールは、下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合するときは、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、前記第三融合特徴のうちの上位階層の融合特徴と融合するために用いられることを特徴とする請求項32から34のいずれか一項に記載の装置。
  36. 前記第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するときは、
    前記ニューラルネットワークのネットワーク深さの浅から深への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得て、そして
    高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合するために用いられることを特徴とする請求項31に記載の装置。
  37. 前記下位階層の特徴は、前記ニューラルネットワークにおいて前記ネットワーク深さが浅いネットワーク層から出力される特徴、または前記ネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項36に記載の装置。
  38. 前記第二融合モジュールは、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するときは、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、隣接の、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するために用いられることを特徴とする請求項36または37に記載の装置。
  39. 前記第二融合モジュールは、上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合するときは、上位階層の融合特徴を順にアップサンプリングしてから、隣接の、前記第四融合特徴のうちの下位階層の融合特徴と融合するために用いられることを特徴とする請求項36から38のいずれか一項に記載の装置。
  40. 前記第一融合モジュールは、同一インスタンス候補領域に対応する領域特徴を融合するときは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合するために用いられることを特徴とする請求項27から39のいずれか一項に記載の装置。
  41. 前記第一融合モジュールは、同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合するときは、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて平均値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて和を求めるために用いられることを特徴とする請求項40に記載の装置。
  42. 前記セグメンテーションモジュールは、
    第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、前記対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るための第一セグメンテーションユニット、および/または、
    各第一融合特徴に基づいて前記画像のインスタンスセグメンテーションを行い、前記画像のインスタンスセグメンテーション結果を得るための第二セグメンテーションユニットを含むことを特徴とする請求項27から41のいずれか一項に記載の装置。
  43. 前記セグメンテーションモジュールは、
    各第一融合特徴にそれぞれ基づき、前記各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得るための第一セグメンテーションユニットと、
    前記各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて前記画像のインスタンスセグメンテーション結果を取得するための取得ユニットと、を含むことを特徴とする請求項27から41のいずれか一項に記載の装置。
  44. 前記第一セグメンテーションユニットは、
    前記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得るための第一予測サブユニットと、
    前記第一融合特徴に基づいて画素レベルでの前景/背景予測を行い、前記第一融合特徴に対応するインスタンス候補領域の前景/背景予測結果を得るための第二予測サブユニットと、
    前記インスタンスクラス予測結果および前記前景/背景予測結果に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得するための取得サブユニットと、を含むことを特徴とする請求項42または43に記載の装置。
  45. 前記第二予測サブユニットは、前記第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域において前景に属する画素および/または背景に属する画素を予測するために用いられることを特徴とする請求項44に記載の装置。
  46. 前記前景は全てのインスタンスクラスに対応する部分を含み、前記背景は前記全てのインスタンスクラスに対応する部分以外の部分を含み、または、
    前記背景は全てのインスタンスクラスに対応する部分を含み、前記前景は前記全てのインスタンスクラスに対応する部分以外の部分を含むことを特徴とする請求項45に記載の装置。
  47. 前記第一予測サブユニットは、
    前記第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第一畳み込みネットワークと、
    前記第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うための第一全畳み込み層と、を含むことを特徴とする請求項44から46のいずれか一項に記載の装置。
  48. 前記第二予測サブユニットは、
    前記第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第二畳み込みネットワークと、
    前記第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景/背景予測を行うための全結合層と、を含むことを特徴とする請求項44から47のいずれか一項に記載の装置。
  49. 前記取得サブユニットは、前記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景/背景予測結果との画素レベルでの加算処理を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るために用いられることを特徴とする請求項44から48のいずれか一項に記載の装置。
  50. 前記第一セグメンテーションユニットはさらに、
    前記前景/背景予測結果を前記インスタンスクラス予測結果の次元に一致する前景/背景予測結果に変換するための変換サブユニットを含み、
    前記取得サブユニットは、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景/背景予測結果との画素レベルでの加算処理を行うために用いられることを特徴とする請求項49に記載の装置。
  51. 前記セグメンテーションモジュールはさらに、前記第一融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための第三セグメンテーションユニットを含むことを特徴とする請求項27から50のいずれか一項に記載の装置。
  52. 前記セグメンテーションモジュールはさらに、前記第二融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための第三セグメンテーションユニットを含むことを特徴とする請求項29から50のいずれか一項に記載の方法。
  53. コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶されたコンピュータプログラムを実行するためのプロセッサであって、前記コンピュータプログラムがプロセッサによって実行される時に上記請求項1から26のいずれか一項に記載の方法を実現する、プロセッサと、を含むことを特徴とする電子機器。
  54. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される時、上記請求項1から26のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。
JP2020533099A 2018-02-09 2019-01-30 インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体 Active JP7032536B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201810137044.7A CN108460411B (zh) 2018-02-09 2018-02-09 实例分割方法和装置、电子设备、程序和介质
CN201810136371.0 2018-02-09
CN201810137044.7 2018-02-09
CN201810136371.0A CN108335305B (zh) 2018-02-09 2018-02-09 图像分割方法和装置、电子设备、程序和介质
PCT/CN2019/073819 WO2019154201A1 (zh) 2018-02-09 2019-01-30 实例分割方法和装置、电子设备、程序和介质

Publications (2)

Publication Number Publication Date
JP2021507388A true JP2021507388A (ja) 2021-02-22
JP7032536B2 JP7032536B2 (ja) 2022-03-08

Family

ID=67548217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533099A Active JP7032536B2 (ja) 2018-02-09 2019-01-30 インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体

Country Status (5)

Country Link
US (1) US11270158B2 (ja)
JP (1) JP7032536B2 (ja)
KR (1) KR102438095B1 (ja)
SG (1) SG11201913332WA (ja)
WO (1) WO2019154201A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
WO2020150223A1 (en) * 2019-01-15 2020-07-23 Schlumberger Technology Corporation Residual signal detection for noise attenuation
CN111626969B (zh) * 2020-05-22 2023-05-30 张卫东 一种基于注意力机制的玉米病害图像处理方法
CN111652142A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目分割方法、装置、设备和介质
CN112489060B (zh) * 2020-12-07 2022-05-10 北京医准智能科技有限公司 一种用于肺炎病灶分割的系统及方法
CN112465801B (zh) * 2020-12-09 2022-11-29 北京航空航天大学 一种分尺度提取掩码特征的实例分割方法
CN113096140B (zh) * 2021-04-15 2022-11-22 北京市商汤科技开发有限公司 实例分割方法及装置、电子设备及存储介质
CN113297991A (zh) * 2021-05-28 2021-08-24 杭州萤石软件有限公司 一种行为识别方法、装置及设备
CN113792738A (zh) * 2021-08-05 2021-12-14 北京旷视科技有限公司 实例分割方法、装置、电子设备和计算机可读存储介质
WO2023106546A1 (ko) * 2021-12-09 2023-06-15 재단법인대구경북과학기술원 상향식 인스턴스 세분화 방법 및 장치
CN115205906B (zh) * 2022-09-15 2022-12-23 山东能源数智云科技有限公司 基于人体解析的仓储作业人员的检测方法、装置及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6395481B2 (ja) * 2014-07-11 2018-09-26 キヤノン株式会社 画像認識装置、方法及びプログラム
US9558268B2 (en) * 2014-08-20 2017-01-31 Mitsubishi Electric Research Laboratories, Inc. Method for semantically labeling an image of a scene using recursive context propagation
KR102450971B1 (ko) * 2015-05-08 2022-10-05 삼성전자주식회사 객체 인식 장치 및 방법
EP3156942A1 (en) 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
US9881234B2 (en) 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
CN105512661B (zh) * 2015-11-25 2019-02-26 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法
CN106250812B (zh) 2016-07-15 2019-08-20 汤一平 一种基于快速r-cnn深度神经网络的车型识别方法
CN106709924B (zh) 2016-11-18 2019-11-22 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107085609A (zh) 2017-04-24 2017-08-22 国网湖北省电力公司荆州供电公司 一种基于神经网络进行多特征融合的行人检索方法
CN107169974A (zh) 2017-05-26 2017-09-15 中国科学技术大学 一种基于多监督全卷积神经网络的图像分割方法
CN107424159B (zh) * 2017-07-28 2020-02-07 西安电子科技大学 基于超像素边缘和全卷积网络的图像语义分割方法
CN107483920B (zh) 2017-08-11 2018-12-21 北京理工大学 一种基于多层级质量因子的全景视频评估方法及系统
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN108335305B (zh) * 2018-02-09 2020-10-30 北京市商汤科技开发有限公司 图像分割方法和装置、电子设备、程序和介质
CN108460411B (zh) * 2018-02-09 2021-05-04 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TSUNG-YI LIN ET AL.: "Feature Pyramid Networks for Object Detection", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN7021003193, 21 July 2017 (2017-07-21), pages 936 - 944, XP033249432, ISSN: 0004572830, DOI: 10.1109/CVPR.2017.106 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム

Also Published As

Publication number Publication date
JP7032536B2 (ja) 2022-03-08
WO2019154201A1 (zh) 2019-08-15
US20200134365A1 (en) 2020-04-30
KR102438095B1 (ko) 2022-08-30
US11270158B2 (en) 2022-03-08
KR20200087808A (ko) 2020-07-21
SG11201913332WA (en) 2020-01-30

Similar Documents

Publication Publication Date Title
JP7032536B2 (ja) インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体
CN108335305B (zh) 图像分割方法和装置、电子设备、程序和介质
CN108460411B (zh) 实例分割方法和装置、电子设备、程序和介质
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
JP6963695B2 (ja) 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体
WO2020020146A1 (zh) 激光雷达稀疏深度图的处理方法、装置、设备及介质
US11841921B2 (en) Model training method and apparatus, and prediction method and apparatus
EP3493105A1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
EP3493106B1 (en) Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
KR102218608B1 (ko) 증강 현실 응용들을 위한 비디오들 내의 실 시간 오버레이 배치
Zhang et al. Self-supervised monocular depth estimation with multiscale perception
JP2023525462A (ja) 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
Liang et al. Hybrid transformer-CNN networks using superpixel segmentation for remote sensing building change detection
WO2024041235A1 (zh) 图像处理方法、装置、设备、存储介质及程序产品
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN113781493A (zh) 图像处理方法、装置、电子设备、介质及计算机程序产品
Zhang et al. MonodepthPlus: self-supervised monocular depth estimation using soft-attention and learnable outlier-masking
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
Kim et al. Depth map super-resolution using guided deformable convolution
CN115330851A (zh) 单目深度估计方法、装置、电子设备、存储介质及车辆
Fujita et al. Cost volume refinement filter for post filtering of visual corresponding
Chen et al. AggNet for Self-supervised Monocular Depth Estimation: Go An Aggressive Step Furthe
CN114282664A (zh) 自反馈模型训练方法、装置、路侧设备及云控平台
Zhao et al. MDSNet: self-supervised monocular depth estimation for video sequences using self-attention and threshold mask

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220224

R150 Certificate of patent or registration of utility model

Ref document number: 7032536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150