JP7032536B2

JP7032536B2 - インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体

Info

Publication number: JP7032536B2
Application number: JP2020533099A
Authority: JP
Inventors: シューリウ; ルーチー; ハイファンチン; ジエンピンシー; ジアヤージア
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-02-09
Filing date: 2019-01-30
Publication date: 2022-03-08
Anticipated expiration: 2039-01-30
Also published as: US11270158B2; US20200134365A1; KR102438095B1; KR20200087808A; JP2021507388A; WO2019154201A1; SG11201913332WA

Description

（関連出願の相互参照）
本開示は２０１８年０２月０９日に中国特許局に提出された、出願番号ＣＮ２０１８１０１３７０４４７、発明の名称「インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体」の中国特許出願の優先権、および２０１８年０２月０９日に中国特許局に提出された、出願番号ＣＮ２０１８１０１３６３７１０、発明の名称「画像分割方法および装置、電子機器、プログラムならびに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。

本開示はコンピュータビジョン技術に関し、特にインスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体に関する。

インスタンスセグメンテーションはコンピュータビジョン分野において非常に重要な研究方向であり、このタスクはセマンティックセグメンテーションと物体検出の特徴を兼ね備えており、画像に入力される物体の各々について、それぞれ一つの独立した画素レベルのマスク（ｍａｓｋ）を生成し、その対応するクラスを予測する。インスタンスセグメンテーションは無人運転、家庭用ロボットなどの分野において非常に広く応用されている。

本開示の実施例は、インスタンスセグメンテーションの解決手段を提供する。

本開示の実施例の一態様によれば、
ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得ることと、を含むインスタンスセグメンテーション方法が提供される。

本開示の実施例の別の態様によれば、
画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、を含むインスタンスセグメンテーション装置が提供される。

本開示の実施例のさらに別の態様によれば、
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されたコンピュータプログラムを実行するためのプロセッサであって、前記コンピュータプログラムが実行される時に本開示のいずれかの実施例に記載の方法を実現するプロセッサと、を含む電子機器が提供される。

本開示の実施例のさらに別の態様によれば、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体が提供される。

本開示の実施例のさらに別の態様によれば、コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令は機器のプロセッサによって実行されるとき、本開示のいずれかの実施例に記載の方法を実現するコンピュータプログラムが提供される。

本開示の上記実施例が提供するインスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体は、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習フレームワークに基づいてインスタンスセグメンテーションを行う技術的解決手段を設計し、深層学習は強いメモリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができるようになり、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。

以下に図面および実施例により、本開示の技術的解決手段をさらに詳しく説明する。

本開示のインスタンスセグメンテーション方法の一実施例のフローチャートである。本開示の実施例における特徴融合の一模式図である。本開示のインスタンスセグメンテーション方法の別の実施例のフローチャートである。本開示の実施例において二分岐によるマスク予測を行うネットワークの一構成模式図である。本開示のインスタンスセグメンテーション方法の一応用例のフローチャートである。図５に示す応用例のプロセス模式図である。本開示のインスタンスセグメンテーション装置の一実施例の構成模式図である。本開示のインスタンスセグメンテーション装置の別の実施例の構成模式図である。本開示の実施例におけるセグメンテーションモジュールの一実施例の構成模式図である。本開示の実施例における電子機器の一実施例の構成模式図である。

明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材およびステップの相対的配置、数式および値は本開示の範囲を限定するものではないことに注意すべきである。

また、本開示の実施例では、「複数の」とは二つ以上を指してもよく、「少なくとも一つの」とは一つ、二つまたは二つ以上を指してもよいことを理解すべきである。

当業者であれば、本開示の実施例における「第一」、「第二」などの用語は異なるステップ、機器またはモジュールなどを区別するためのものに過ぎず、なんらの特定の技術的意味も有さず、またそれらの間の必然的な論理的順序を表すものでもないことを理解できる。

また、本開示の実施例で言及された任意の部材、データまたは構造は、明確に限定されまたは明細書の前後で反対的に示唆された場合でなければ、一般的には一つ以上と理解してもよいことを理解すべきである。

また、本開示は各実施例間の相違点を重点に説明し、その同じまたは類似の部分は互いに参照すればよいことを理解すべきであり、その説明を簡潔にするために、詳細な説明は繰り返さない。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示およびその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

また、本開示における用語「および／または」とは、関連対象の関連関係を記述するためのものに過ぎず、三つの可能な関係を表すことができ、例えば、Ａおよび／またはＢとは、Ａが単独で存在する場合、ＡおよびＢが同時に存在する場合、Ｂが単独で存在する場合という三つの場合を表すことができる。また、本開示における符号「／」とは、一般的には前後の関連対象が「または」という関係にあることを表す。

本開示の実施例は端末機器、コンピュータシステム、サーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末機器、コンピュータシステム、サーバなどの電子機器との併用に適する公知の端末機器、計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび前記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末機器、コンピュータシステム、サーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的なコンテキストにおいて説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

図１は本開示のインスタンスセグメンテーション方法の一実施例のフローチャートである。図１に示すように、該実施例のインスタンスセグメンテーション方法は以下の操作（ステップ）１０２～１０８を含む。

１０２において、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する。

本開示の各実施例における特徴の表現形式は、例えば特徴マップ、特徴ベクトルまたは特徴行列などを含んでもよいが、これらに限定されない。前記少なくとも二つの異なる階層とはニューラルネットワークにおいて該ニューラルネットワークの異なる深さにある二つ以上のネットワーク層をいう。前記画像は、例えば静的画像、ビデオにおけるフレーム画像などを含んでもよいが、これらに限定されない。

任意選択的な一例では、該操作１０２はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。

１０４において、上記少なくとも二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。

インスタンスは、例えばある具体的な人物、ある具体的な物体などのようなある具体的な対象を含んでもよいが、これに限定されない。ニューラルネットワークによって画像を検出すれば、上記インスタンスが画像において現れ得る領域を表す一つ以上のインスタンス候補領域を得ることができる。

任意選択的な一例では、該操作１０４はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。

１０６において、同一インスタンス候補領域に対応する領域特徴をそれぞれ融合し、各インスタンス候補領域の第一融合特徴を得る。

本開示の各実施例では、複数の領域特徴は、例えば複数の領域特徴を各画素に基づいてその和を求めるか、最大値を取るか、または平均値を取るように融合してもよい。

任意選択的な一例では、該操作１０６はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。

１０８において、各第一融合特徴にそれぞれ基づいてインスタンスセグメンテーション（ＩｎｓｔａｎｃｅＳｅｇｍｅｎｔａｔｉｏｎ）を行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得る。

本開示の各実施例では、インスタンス候補領域のインスタンスセグメンテーション結果は、該インスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するクラス、例えば、該インスタンス候補領域においてある男の子に属する画素および該男の子が属する人間クラスを含んでもよい。

任意選択的な一例では、該操作１０８はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールによって実行してもよい。

本開示の上記実施例が提供するインスタンスセグメンテーション方法に基づき、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習に基づくフレームワークを設計してインスタンスセグメンテーションの課題を解決し、深層学習は強いモデリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができ、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。

本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する操作１０２は、ニューラルネットワークによって画像の特徴抽出を行い、該ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から上記少なくとも二つの異なる階層の特徴を出力することを含んでもよい。

本開示の各実施例では、ニューラルネットワークは二つ以上のネットワーク深さが異なるネットワーク層を含み、ニューラルネットワークに含まれるネットワーク層のうち、特徴抽出用のネットワーク層は特徴層と呼ばれてもよく、ニューラルネットワークは一つの画像を受信してから、１層目のネットワーク層によって入力される画像の特徴抽出を行い、抽出される特徴を２層目のネットワーク層に入力し、２層目のネットワーク層を始め、各ネットワーク層は入力される特徴を順に抽出し、抽出される特徴を次のネットワーク層に入力して抽出させる。ニューラルネットワークにおける各ネットワーク層のネットワーク深さは入出力の順序または特徴抽出の順序に従って浅から深へとし、各ネットワーク層が順に特徴抽出を行って出力する特徴の階層は下位から上位へとし、解像度は高から低へとする。同一ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層に比べ、ネットワーク深さが深いネットワーク層は視野が広く、空間構造情報に対してより多く注目し、その抽出した特徴がインスタンスセグメンテーションに用いられるときは、セグメンテーション結果をより正確にすることができる。ニューラルネットワークにおいて、ネットワーク層は、通常、少なくとも一つの特徴抽出用の畳み込み層、および畳み込み層により抽出される特徴（例えば、特徴マップ）をアップサンプリングするアップサンプリング層を含んでもよく、特徴をアップサンプリングすることで、畳み込み層により抽出される特徴（例えば、特徴マップ）の大きさを減少させることができる。

本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、操作１０６で同一インスタンス候補領域に対応する領域特徴をそれぞれ融合するステップは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合することを含んでもよい。

例えば、その任意選択的な一例では、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合するステップは、
同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値（ｅｌｅｍｅｎｔ－ｗｉｓｅｍａｘ）を取り、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の最大値を取るように、
または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ平均値を取り、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の平均値を取るように、
または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれその和を求め、つまり、同一インスタンス候補領域に対応する複数の領域特徴のうち、各画素位置の特徴の和を求めるようにしてもよい。

ただし、上記実施形態では、同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合する時、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて最大値を取る方式は、他の方式に比べ、インスタンス候補領域の特徴をより明確にし、それによりインスタンスセグメンテーションをより正確にし、インスタンスセグメンテーション結果の正解率を向上させることができる。

任意選択的に、本開示のインスタンスセグメンテーション方法の別の実施例では、より正確な融合特徴を得るよう、同一インスタンス候補領域に対応する領域特徴をそれぞれ融合する前に、一つのネットワーク層、例えば全畳み込み層または全結合層によって、同一インスタンス候補領域に対応する領域特徴、例えば融合に参加する同一インスタンス候補領域の対応する各領域特徴の次元などを調整し、融合に参加する同一インスタンス候補領域の対応する各領域特徴を、融合により適するように適合してもよい。

本開示のインスタンスセグメンテーション方法の別の実施例では、操作１０２で少なくとも二つの異なる階層の特徴を出力するステップの後に、さらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合（ｒｅｔｒａｃｉｎｇｆｕｓｉｏｎ）を行い、第二融合特徴を得るステップを含んでもよく、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含む。それに対して、該実施例では、操作１０４は、第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出することを含んでもよい。

各実施例の一実施形態では、上記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含む。これにより文脈情報をより効果的に利用して特徴を融合し、さらに各インスタンス候補領域のインスタンスセグメンテーション結果を向上させることができる。

こうして、その任意選択的な一例では、上記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向（ニューラルネットワークにおけるネットワーク深さが深いネットワーク層により出力される特徴からネットワーク深さが浅いネットワーク層により出力される特徴への方向）および低階層特徴から高階層特徴への方向（ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層により出力される特徴からネットワーク深さが深いネットワーク層により出力される特徴への方向）に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含んでもよい。

本開示の各実施例の一実施形態では、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合するステップは、以下を含む。

ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、例えば、上位階層の特徴をアップサンプリングしてから下位階層の特徴と加算するように、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得る。ここで、上位階層の特徴は、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、または該ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最上位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴であってもよく、または該最上位階層の特徴を一回以上抽出した特徴であってもよく、第三融合特徴は上記最上位階層の特徴および融合毎に得られた融合特徴を含んでもよい。

低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合する。ここで、今回の融合に参加する融合特徴のうち、最下位階層の融合特徴は第三融合特徴のうちの最下位階層の融合特徴であってもよく、または該第三融合特徴のうちの最下位階層の融合特徴を一回以上抽出した特徴であってもよい。今回で低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第三融合特徴のうちの最下位階層の融合特徴および融合毎に得られた融合特徴が含まれる。

ただし、上記少なくとも二つの異なる階層の特徴を一回再追跡融合する場合、低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴は第二融合特徴となり、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に従って融合するという操作を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。

ただし、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴をアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するとき、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層（例えば、ニューラルネットワークの入出力方向に従う８０層目のネットワーク層）から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層（例えば、ニューラルネットワークの入出力方向に従う７９層目のネットワーク層）から出力される下位階層の特徴と融合するようにしてもよい。また、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層（例えば、ニューラルネットワークの入出力方向に従う８０層目のネットワーク層）から出力される上位階層の特徴をアップサンプリングしてから、該ネットワーク深さが深いネットワーク層に隣接せず、ネットワーク深さが浅いネットワーク層（例えば、ニューラルネットワークの入出力方向に従う５０層目のネットワーク層）により出力される下位階層の特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。

同様に、下位階層の融合特徴をダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するとき、下位階層の融合特徴（例えばＰ_２であって、ここで「２」は特徴階層を表すもの）をダウンサンプリングしてから、隣接の、第三融合特徴のうちの上位階層の融合特徴（例えばＰ_３であって、ここで「３」は特徴階層を表すもの）と融合するようにしてもよい。または、下位階層の融合特徴をダウンサンプリングしてから、特徴階層が隣接しない、第三融合特徴のうちの上位階層の融合特徴（例えばＰ_４であって、ここで「４」は特徴階層を表すもの）と融合し、即ち、階層間特徴融合を行うようにしてもよい。

図２は本開示の実施例における特徴融合の一模式図である。図２に示すように、下位階層の融合特徴Ｎ_ｉをダウンサンプリングしてから、隣接の、上位階層の特徴Ｐ_ｉ＋１と融合し、対応する融合特徴Ｎ_ｉ＋１を得る一模式図が示される。ここで、ｉは値が０よりも大きい整数とする。

該実施例に基づき、上から下への順序（即ち、ニューラルネットワークにおけるネットワーク深さの深から浅、高階層特徴から低階層特徴への順序）に従い、上位の低解像度の特徴と下位の高解像度の特徴を漸次融合し、一群の新たな特徴を得て、続いて下から上への順序（即ち、低階層特徴から高階層特徴への順序）に従い、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、上位階層の特徴と融合し、下位の高解像度の特徴と上位の低解像度の特徴と漸次融合し、別の一群の、インスタンスセグメンテーションのための新たな特徴を得る。本実施例は一つの下から上への情報シャネルによって、下位情報をより容易に上位ネットワーク（即ち、ネットワーク深さが深いネットワーク層）に伝播可能にし、情報伝播の損失を低減し、情報のニューラルネットワーク内部での伝送をより順調にすることができ、下位情報はなんらの詳細情報に敏感であるため、位置特定およびセグメンテーションに非常に有益な情報を提供し、それによりインスタンスセグメンテーション結果を向上させることができ、二回特徴融合することで、上位ネットワーク（即ち、ネットワーク深さが深いネットワーク層）をより容易に、包括的に下位情報を取得可能にし、それによりインスタンスセグメンテーション結果をさらに向上させることができる。

本開示の各実施例の別の実施形態では、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するステップは、以下を含む。

ニューラルネットワークのネットワーク深さの浅から深への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得る。ここで、下位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層から出力される特徴、またはネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最下位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最下位階層の特徴であってもよく、または該最下位階層の特徴を一回以上抽出した特徴であってもよく、第四融合特徴は上記最下位階層の特徴および融合毎に得られた融合特徴を含んでもよい。

高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合する。ここで、今回の融合に参加する融合特徴のうち、最上位階層の融合特徴は第四融合特徴のうちの最上位階層の融合特徴であってもよく、または該第四融合特徴のうちの最上位階層の融合特徴を一回以上抽出した特徴であってもよい。今回で低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第四融合特徴のうちの最上位階層の融合特徴および融合毎に得られた融合特徴が含まれる。

ただし、上記少なくとも二つの異なる階層の特徴を一回再追跡融合する場合、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して得られた一群の融合特徴は第二融合特徴となり、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に従って特徴を融合して一群の融合特徴を得る操作を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。

その任意選択的な一例では、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するとき、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、該ネットワーク深さが浅いネットワーク層に隣接し、ネットワーク深さが深いネットワーク層により出力される上位階層の特徴と融合するようにしてもよい。または、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴をダウンサンプリングしてから、該ネットワーク深さが浅いネットワーク層に隣接せず、ネットワーク深さが深いネットワーク層により出力される上位階層の特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。

同様に、上位階層の融合特徴をアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するとき、上位階層の融合特徴をアップサンプリングしてから、隣接の、第四融合特徴のうちの下位階層の融合特徴と融合するようにしてもよい。または、上位階層の融合特徴をアップサンプリングしてから、非隣接の、第四融合特徴のうちの下位階層の融合特徴と融合し、即ち、階層間特徴融合を行うようにしてもよい。

本開示の上記各実施例の一実施形態では、操作１０８で、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得るステップは、
特定の第一融合特徴に限定されない、任意のインスタンス候補領域の第一融合特徴であってもよい第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ること、および／または、各第一融合特徴に基づいて画像のインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得ることを含んでもよい。

本開示の上記各実施例の別の実施形態では、操作１０８で、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得るステップは、各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得ることと、各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて画像のインスタンスセグメンテーション結果を取得することと、を含んでもよい。

図３は本開示のインスタンスセグメンテーション方法の別の実施例のフローチャートである。図３に示すように、該実施例のインスタンスセグメンテーション方法は以下の操作３０２～３１２を含む。

３０２において、ニューラルネットワークによって画像の特徴抽出を行い、ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力する。

任意選択的な一例では、該操作３０２はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。

３０４において、ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得る。

ここで、上記上位階層の特徴は、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、または該ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。例えば、融合に参加する特徴のうち、最上位階層の特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴であってもよく、または該最上位階層の特徴を一回以上抽出した特徴であってもよく、第三融合特徴は上記少なくとも二つの異なる階層の特徴のうちの最上位階層の特徴および該操作３０４で融合毎に得られた融合特徴を含んでもよい。

３０６において、低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合し、第二融合特徴を得る。

ここで、今回の融合に参加する融合特徴のうち、最下位階層の融合特徴は第三融合特徴のうちの最下位階層の融合特徴であってもよく、または該第三融合特徴のうちの最下位階層の融合特徴を一回以上抽出した特徴であってもよく、今回で低階層特徴から高階層特徴への方向に従って特徴を融合して得られた一群の融合特徴には、第三融合特徴のうちの最下位階層の融合特徴および該操作３０６で融合毎に得られた融合特徴が含まれる。

該実施例は今回の融合を一回行うことを例にして説明するが、上記少なくとも二つの異なる階層の特徴を二回以上再追跡融合する場合には、操作３０４～３０６を数回実行してもよく、最終的に得られた一群の融合特徴は第二融合特徴となる。

任意選択的な一例では、該操作３０４～３０６はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第二融合モジュールによって実行してもよい。

３０８において、画像における各インスタンス候補領域にそれぞれ基づき、第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。

本開示の各実施例では、例えば、領域提案ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、ＲＰＮ）を採用してもよいがこれに限定されないように、画像の各インスタンス候補領域を生成し、各インスタンス候補領域を第二融合特徴のうちの各々にマッピングし、その後、例えば、関心領域（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ：ＲＯＩ）位置合わせ（ＲＯＩＡｌｉｇｎ）の方法を採用してもよいがこれに限定されないように、第二融合特徴から各インスタンス候補領域に対応する領域特徴を抽出する。

任意選択的な一例では、該操作３０８はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。

３１０において、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合し、各インスタンス候補領域の融合特徴を得る。

任意選択的な一例では、該操作３１０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。

３１２において、各第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る。

任意選択的な一例では、該操作３１２はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールによって実行してもよい。

本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、第一融合特徴に基づき、該第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るステップは、
任意のインスタンス候補領域の第一融合特徴である上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、上記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得ることと、上記第一融合特徴に基づいて画素レベルでの前景／背景予測を行い、上記第一融合特徴に対応するインスタンス候補領域の前景／背景予測結果を得ることと、
上記インスタンスクラス予測結果および前景／背景予測結果に基づき、上記第一融合特徴の対応のインスタンス物体領域候補の、現在のインスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するクラス情報を含むインスタンスセグメンテーション結果を取得することと、を含んでもよい。

本実施例のもとに、上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測および前景／背景予測を同時に行い、画素レベルでのインスタンスクラス予測によって該第一融合特徴の細分類および多分類でき、前景／背景予測によって良好なグローバル情報を得ることができ、マルチインスタンスクラス間の詳細情報に注意を向ける必要がないため、予測速度が向上し、上記インスタンスクラス予測結果および前景／背景予測結果に同時に基づいてインスタンス物体領域候補のインスタンスセグメンテーション結果を取得すれば、インスタンス候補領域または画像のインスタンスセグメンテーション結果を向上させることができる。

その任意選択的な一例では、上記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行うステップは、
少なくとも一つの全畳み込み層を含む第一畳み込みネットワークによって、上記第一融合特徴を抽出することと、
第一全畳み込み層によって、上記第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うことと、を含んでもよい。

その任意選択的な一例では、第一融合特徴に基づいて画素レベルでの前景／背景予測を行うステップは、
上記第一融合特徴に基づき、上記第一融合特徴に対応するインスタンス候補領域において前景に属する画素および／または背景に属する画素を予測することを含む。

ここで、背景と前景は必要に応じて設定してもよい。例えば、前景は全てのインスタンスクラスに対応する部分を含み、背景は全てのインスタンスクラスに対応する部分以外の部分を含むようにしてもよく、または、背景は全てのインスタンスクラスに対応する部分を含み、前景は全てのインスタンスクラスに対応する部分以外の部分を含むようにしてもよい。

別の任意選択的な一例では、第一融合特徴に基づいて画素レベルでの前景／背景予測を行うステップは、
少なくとも一つの全畳み込み層を含む第二畳み込みネットワークによって、上記第一融合特徴を抽出することと、
全結合層によって、上記第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景／背景予測を行うことと、を含んでもよい。

本開示の各インスタンスセグメンテーション方法の実施例の一実施形態では、上記インスタンスクラス予測結果および前景／背景予測結果に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得するステップは、
上記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景／背景予測結果との画素レベルでの加算処理を行い、上記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ることを含む。

別の実施形態では、上記第一融合特徴に対応するインスタンス候補領域の前景／背景予測結果を得るステップの後に、さらに、上記前景／背景予測結果を上記インスタンスクラス予測結果の次元に一致する前景／背景予測結果に変換することを含んでもよい。例えば、前景／背景予測結果をベクトルから物体クラス予測の次元に一致する行列に変換する。それに対して、上記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景／背景予測結果との画素レベルでの加算処理を行うステップは、上記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景／背景予測結果との画素レベルでの加算処理を行うことを含んでもよい。

ここで、本開示の各実施例の上記実施形態では、各インスタンス候補領域の第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得るとき、該インスタンス候補領域の第一融合特徴に基づいて画素レベルでのインスタンスクラス予測および前景／背景予測を同時に行うので、該部分の解決手段は二分岐によるマスク予測と呼ばれてもよく、図４に示すように、それは本開示の実施例において二分岐によるマスク予測を行うネットワークの一構成模式図である。

図４に示すように、インスタンス候補領域に対応する複数の領域特徴について、それぞれ二つの分岐によってインスタンスクラス予測および前景／背景予測を行う。ここで、第一の分岐は、四つの全畳み込み層（ｃｏｎｖ１～ｃｏｎｖ４）、即ち上記第一畳み込みネットワーク、および一つの逆畳み込み層（ｄｅｃｏｎｖ）、即ち上記第一全畳み込み層を含む。第二の分岐は、第一の分岐の３層目の全畳み込み層や４層目の全畳み込み層（ｃｏｎｖ３～ｃｏｎｖ４）、二つの全畳み込み層（ｃｏｎｖ４_－ｆｃおよびｃｏｎｖ５_－ｆｃ）、即ち上記第二畳み込みネットワーク、全結合層（ｆｃ）、および前景／背景予測結果をインスタンスクラス予測結果の次元に一致する前景／背景予測結果に変換するための変換（ｒｅｓｈａｐｅ）層を含む。第一の分岐は可能なインスタンスクラスに対していずれも画素レベルでのマスク予測を行うが、全結合層はインスタンスクラスに関係ないマスク予測（即ち、画素レベルでの前景／背景予測）を行う。最終的にこの二つの分岐によるマスク予測を加算して最終のインスタンスセグメンテーション結果を得る。

図５は本開示のインスタンスセグメンテーション方法の一応用例のフローチャートである。図６は図５に示す応用例のプロセス模式図である。図５および図６を同時に参照すると、該応用例のインスタンスセグメンテーション方法は以下の操作５０２～５１６を含む。

５０２において、ニューラルネットワークによって画像の特徴抽出を行い、ニューラルネットワークにおける四つの異なるネットワーク深さのネットワーク層から四つの階層の特徴Ｍ_１～Ｍ_４を出力する。

任意選択的な一例では、該操作５０２はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるニューラルネットワークによって実行してもよい。

５０４において、上記四つの階層の特徴について、高階層特徴Ｍ_４から低階層特徴Ｍ_１へ（即ち、上から下へ）の順序に従い、上位階層の特徴Ｍ_ｉ＋１を順にアップサンプリングしてから下位階層の特徴Ｍ_ｉと融合し、第一群の融合特徴Ｐ_２～Ｐ_５を得る。

ここで、ｉの値は順に１～３の整数とする。融合に参加する特徴および第一群の融合特徴のうち、最上位階層の融合特徴Ｐ_５は上記四つの異なる階層の特徴のうちの最上位階層の特徴Ｍ_４または全畳み込み層によって該特徴Ｍ_４を抽出した特徴であり、第一融合特徴は上記四つの異なる階層の特徴のうちの最上位階層の融合特徴および融合毎に得られた融合特徴Ｐ_２～Ｐ_５を含む。

５０６において、上記第一群の融合特徴について、低階層特徴Ｐ_２から高階層特徴Ｐ_５へ（即ち、下から上へ）の順序に従い、下位階層の融合特徴Ｐ_ｋを順にダウンサンプリングしてから隣接の上位階層の特徴Ｐ_ｋ＋１と融合し、第二群の融合特徴Ｎ_２～Ｎ_５を得る。

ここで、ｋの値は順に２～４の整数とする。今回の融合に参加する融合特徴および第二群の融合特徴のうち、最下位階層の融合特徴Ｎ_２は第一群の融合特徴のうちの最下位階層の融合特徴Ｐ_２または全畳み込み層によって該融合特徴Ｐ_２を抽出した特徴であり、第二群の融合特徴は第一融合特徴のうちの最下位階層の特徴Ｐ_２の対応する特徴および融合毎に得られた融合特徴を含み、ただし、第一融合特徴のうちの最下位階層の特徴の対応する特徴は、第一融合特徴のうちの最下位階層の融合特徴Ｐ_２または畳み込み層によって該融合特徴Ｐ_２を抽出した特徴である。

本応用例は上記四つの階層の特徴Ｍ_１～Ｍ_４に対して一回の再追跡融合を行うことを例にして説明するので、操作５０６によって得られた第二群の融合特徴は本開示の上記各実施例における第二融合特徴である。

任意選択的な一例では、該操作５０２～５０４はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第二融合モジュールによって実行してもよい。

５０８において、第二融合特徴Ｎ_２～Ｎ_５から上記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する。

本開示の各実施例では、例えば、領域提案ネットワークを採用してもよいがこれに限定されないように、画像の少なくとも一つのインスタンス候補領域を生成し、各インスタンス候補領域を第二融合特徴の各々にそれぞれマッピングし、その後、例えば、関心領域位置合わせの方法を採用してもよいがこれに限定されないように、第二融合特徴から同一インスタンス候補領域に対応する領域特徴をそれぞれ抽出する。

任意選択的な一例では、該操作５０８はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される抽出モジュールによって実行してもよい。

５１０において、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合し、各インスタンス候補領域の第一融合特徴を得る。

任意選択的な一例では、該操作５１０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一融合モジュールによって実行してもよい。

その後、操作５１２および５１６をそれぞれ実行する。

５１２において、各インスタンス候補領域の第一融合特徴にそれぞれ基づいてインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得る。

該インスタンスセグメンテーション結果は各インスタンスの物体ボックス（ｂｏｘ）または位置および該インスタンスが属するインスタンスクラス（ｃｌａｓｓ）を含む。

任意選択的な一例では、該操作５１２はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットによって実行してもよい。

その後、本応用例の後続のフローを実行しない。

５１４において、各インスタンス候補領域の第一融合特徴にそれぞれ基づいて画素レベルでのインスタンスクラス予測を行い、各インスタンス候補領域のインスタンスクラス予測結果を得て、および各インスタンス候補領域の第一融合特徴にそれぞれ基づいて画素レベルでの前景／背景予測を行い、各インスタンス候補領域の前景／背景予測結果を得る。

任意選択的な一例では、該操作５１４はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットまたは第一セグメンテーションユニット内の第一予測サブユニットおよび第二予測サブユニットによって実行してもよい。

５１６において、各インスタンス物体領域候補の第一融合特徴の対応する物体クラス予測結果をそれぞれ前景／背景予測結果と画素レベルで加算し、各第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る。

ここで、該インスタンスセグメンテーション結果は、現在のインスタンス候補領域においてあるインスタンスに属する画素および該インスタンスが属するインスタンスクラスを含み、ここのインスタンスクラスは、背景またはあるインスタンスクラスであってもよい。

任意選択的な一例では、該操作５１６はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行される第一セグメンテーションユニットまたは第一セグメンテーションユニット内の取得サブユニットによって実行してもよい。

ただし、該操作５１２と操作５１４～５１６は、実行時間的には前後の順序に従わなくても支障がなく、両者は同時に実行してもよく、任意の時間順序で実行してもよい。

また、本開示の上記各実施例では、各インスタンス候補領域の第一融合特徴を得てから、さらに、該第一融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得てもよい。

または、本開示の上記各実施例では、各インスタンス候補領域の第二融合特徴を得てから、さらに、該第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得てもよい。

ここで、上記セマンティックセグメンテーション結果は、例えば該画像の少なくとも一部の領域において各画素が属するクラスを含んでもよい。

本発明の各実施例では、画像の少なくとも一部の領域は画像の全ての領域または局所的な領域（例えば、領域候補）であってもよく、つまり、全画像に対してセマンティックセグメンテーションを行い、画像のセマンティックセグメンテーション結果を得るようにしてもよいし、画像の局所（例えば、領域候補）に対してセマンティックセグメンテーションを行い、局所領域のセマンティックセグメンテーション結果を得るようにしてもよい。ここの領域候補は、例えば上記各実施例におけるインスタンス候補領域であってもよく、または他の方式で生成される領域候補であってもよい。

任意選択的な一例では、画像の少なくとも一部の領域のセマンティックセグメンテーションを行う上記操作はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより実行されるセグメンテーションモジュールまたはセグメンテーションモジュールによって実行してもよい。

上記実施例に基づき、画像の少なくとも一部の領域のセマンティックセグメンテーションを実現する。また、第一融合特徴または第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行えば、文脈情報を利用して画像のセマンティックセグメンテーション結果の正確度を向上させることができる。

なお、本開示の上記各実施例では、各インスタンス候補領域の第二融合特徴を得てから、第二融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得てもよいことを説明する必要がある。そのうち、第二融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得るプロセスの実現は、第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得る上記各実施例を参照すればよく、両者は類似する解決手段で実現可能であり、本開示はここで説明を省略する。

本開示の実施例が提供するいずれかのインスタンスセグメンテーション方法は、端末機器およびサーバなどに限られないデータ処理能力を有する任意の適当な機器によって実行できる。または、本開示の実施例が提供するいずれかのインスタンスセグメンテーション方法は、例えばプロセッサがメモリに記憶された対応する命令を呼び出すことで本開示の実施例で言及されたいずれかのインスタンスセグメンテーション方法を実行するように、プロセッサによって実行できる。以下は説明を省略する。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図７は本開示のインスタンスセグメンテーション装置の一実施例の構成模式図である。該実施例のインスタンスセグメンテーション装置は本開示の上記各インスタンスセグメンテーション方法の実施例を実現するために用いることができる。図７に示すように、該実施例の装置は、
画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
上記少なくとも二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、を含み、
そのうち、該ニューラルネットワークは少なくとも二つの異なるネットワーク深さのネットワーク層を含んでもよく、それは画像の特徴抽出を行い、少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力するために用いられる。

本開示の上記実施例が提供するインスタンスセグメンテーション装置に基づき、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力し、二つの異なる階層の特徴から画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得て、そして各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または画像のインスタンスセグメンテーション結果を得る。本開示の実施例は深層学習に基づくフレームワークを設計してインスタンスセグメンテーションの課題を解決し、深層学習は強いモデリング能力を有するため、より良好なインスタンスセグメンテーション結果を得ることに寄与し、また、インスタンス候補領域に対してインスタンスセグメンテーションを行うことは、そのまま全画像に対してインスタンスセグメンテーションを行うことに比べ、インスタンスセグメンテーションの正確度を向上させ、インスタンスセグメンテーションに必要な計算量および複雑度を削減し、インスタンスセグメンテーションの効率を向上させることができ、かつ、少なくとも二つの異なる階層の特徴からインスタンス候補領域に対応する領域特徴を抽出して融合し、得られた融合特徴に基づいてインスタンスセグメンテーションを行うことで、いずれのインスタンス候補領域もより多くの異なる階層の情報を同時に得ることができ、異なる階層の特徴から抽出される情報は全て異なる意味階層に存在するため、文脈情報を利用して各インスタンス候補領域のインスタンスセグメンテーション結果の正確度を向上させることが可能である。

図８は本開示のインスタンスセグメンテーション装置の別の実施例の構成模式図である。図８に示すように、図７に示す実施例に比べ、該実施例のインスタンスセグメンテーション装置はさらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るための第二融合モジュールを含み、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含む。それに対して、該実施例では、抽出モジュールは第二融合特徴から少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するために用いられる。

その一実施形態では、上記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含んでもよい。

こうして、上記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従うこと、または、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含んでもよい。

その任意選択的な一例では、第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合するときは、ニューラルネットワークのネットワーク深さの深から浅への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得て、そして低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するために用いられる。

ここで、上位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが深いネットワーク層から出力される特徴、またはネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。

その任意選択的な一例では、第二融合モジュールは、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するときは、ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合するために用いられる。

その任意選択的な一例では、第二融合モジュールは、下位階層の融合特徴を順にダウンサンプリングしてから、第三融合特徴のうちの上位階層の融合特徴と融合するときは、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、第三融合特徴のうちの上位階層の融合特徴と融合するために用いられる。

その任意選択的な一例では、第二融合モジュールは、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するときは、ニューラルネットワークのネットワーク深さの浅から深への方向に従い、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得て、そして
高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するために用いられる。

ここで、下位階層の特徴は、例えば、ニューラルネットワークにおけるネットワーク深さが浅いネットワーク層から出力される特徴、またはネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含んでもよい。

その任意選択的な一例では、第二融合モジュールは、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するときは、ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、隣接の、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合するために用いられる。

その任意選択的な一例では、第二融合モジュールは、上位階層の融合特徴を順にアップサンプリングしてから、第四融合特徴のうちの下位階層の融合特徴と融合するときは、上位階層の融合特徴を順にアップサンプリングしてから、隣接の、第四融合特徴のうちの下位階層の融合特徴と融合するために用いられる。

その任意選択的な一例では、第一融合モジュールは、同一インスタンス候補領域に対応する領域特徴を融合するときは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合するために用いられる。

例えば、第一融合モジュールは、同一インスタンス候補領域に対応する複数の領域特徴を画素レベルで融合するときは、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて平均値を取るために、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて和を求めるために用いられる。

また、図８を再度参照すると、本開示の上記各実施例の一実施形態では、セグメンテーションモジュールは、
第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るたえの第一セグメンテーションユニット、および／または、
各第一融合特徴に基づいて画像のインスタンスセグメンテーションを行い、画像のインスタンスセグメンテーション結果を得るための第二セグメンテーションユニットを含んでもよい。

図９は本開示の実施例におけるセグメンテーションモジュールの一実施例の構成模式図である。図９に示すように、本開示の上記各実施例では、セグメンテーションモジュールは、
各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得るための第一セグメンテーションユニットと、
各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて画像のインスタンスセグメンテーション結果を取得するための取得ユニットと、を含んでもよい。

その一実施形態では、第一セグメンテーションユニットは、
第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得るための第一予測サブユニットと、
第一融合特徴に基づいて画素レベルでの前景／背景予測を行い、第一融合特徴に対応するインスタンス候補領域の前景／背景予測結果を得るための第二予測サブユニットと、
インスタンスクラス予測結果および前景／背景予測結果に基づき、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得するための取得サブユニットと、を含む。

その任意選択的な一例では、第二予測サブユニットは、第一融合特徴に基づき、第一融合特徴に対応するインスタンス候補領域において前景に属する画素および／または背景に属する画素を予測するために用いられる。

ここで、前景は全てのインスタンスクラスに対応する部分を含み、背景は全てのインスタンスクラスに対応する部分以外の部分を含み、または、背景は全てのインスタンスクラスに対応する部分を含み、前景は全てのインスタンスクラスに対応する部分以外の部分を含む。

その任意選択的な一例では、第一予測サブユニットは、第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第一畳み込みネットワークと、第一畳み込みネットワークにより出力される特徴に基づいて画素レベルでの物体クラス予測を行うための第一全畳み込み層と、を含んでもよい。

その任意選択的な一例では、第二予測サブユニットは、第一融合特徴を抽出するための、少なくとも一つの全畳み込み層を含む第二畳み込みネットワークと、第二畳み込みネットワークにより出力される特徴に基づいて画素レベルでの前景／背景予測を行うための全結合層と、を含んでもよい。

その任意選択的な一例では、取得サブユニットは、第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景／背景予測結果との画素レベルでの加算処理を行い、第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得るために用いられる。

また、図９を再度参照すると、別の実施例では、第一セグメンテーションユニットはさらに、前景／背景予測結果をインスタンスクラス予測結果の次元に一致する前景／背景予測結果に変換するための変換サブユニットを含んでもよい。それに対して、該実施例では、取得サブユニットは、第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景／背景予測結果との画素レベルでの加算処理を行うために用いられる。

また、本開示の上記各実施例の一実施形態では、セグメンテーションモジュールはさらに、第一融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための、または、第二融合特徴に基づいて画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得るための第三セグメンテーションユニットを含んでもよい。

また、本開示の実施例が提供する別の電子機器は、
コンピュータプログラムを記憶するためのメモリと、
メモリに記憶された、実行される時に本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む。

図１０は本開示の電子機器の一応用例の構成模式図である。以下に図１０を参照すると、本開示の実施例の端末機器またはサーバの実現に適する電子機器の構成模式図が示される。図１０に示すように、該電子機器は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）、および／または一つ以上の画像処理装置（ＧＰＵ）などであり、プロセッサは読み取り専用メモリ（ＲＯＭ）に記憶されている実行可能命令または記憶部分からランダムアクセスメモリ（ＲＡＭ）にロードされた実行可能命令に従って様々な適当の操作および処理を実行できる。通信部はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリおよび／またはランダムアクセスメモリと通信して実行可能命令を実行し、バスを介して通信部と接続し、通信部によって他の目標機器と通信し、それにより本開示の実施例が提供するいずれかの方法の対応する操作、例えば、ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得ることと、を完了することができる。

また、ＲＡＭには、装置の操作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ、ＲＯＭおよびＲＡＭはバスを介して互いに接続される。ＲＡＭが存在する場合、ＲＯＭは任意選択的なモジュールとなる。ＲＡＭは実行可能命令を記憶するか、または操作時にＲＯＭへ実行可能命令を書き込み、実行可能命令によってプロセッサは本開示の上記いずれかの方法の対応する操作を実行する。入力／出力（Ｉ／Ｏ）インタフェースもバスに接続される。通信部は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分、ハードディスクなどを含む記憶部分、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信部分といった部品は、Ｉ／Ｏインタフェースに接続される。通信部分はインターネットのようなネットワークによって通信処理を行う。ドライバも必要に応じてＩ／Ｏインタフェースに接続される。取り外し可能な媒体、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバに取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分にインストールされる。

なお、図１０に示すアーキテクチャは任意選択的な一実施形態に過ぎず、実践では、実際の必要に応じて上記図１０の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、通信部は分離設置するか、またＣＰＵやＧＰＵに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示のいずれかの実施例が提供する方法のステップを対応して実行する対応の命令を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分によってネットワークからダウンロードおよびインストールされ、および／または取り外し可能な媒体からインストールされ得る。該コンピュータプログラムはＣＰＵにより実行される時、本開示の方法で限定された上記機能を実行する。

また、本開示の実施例はコンピュータ命令を含むコンピュータプログラムであって、コンピュータ命令は機器のプロセッサによって実行されるとき、本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータプログラムをさらに提供する。

また、本開示の実施例はコンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示の上記いずれかの実施例のインスタンスセグメンテーション方法を実現するコンピュータ可読記憶媒体をさらに提供する。

本開示の実施例は無人運転、家庭用ロボット、地図などの分野において非常に広く応用されており、例えば、本開示の実施例は自動運転シーンに用いて、自動運転シーンにおける異なる交通参加者を正確に識別することができ、本開示の実施例は街道シーンに用いて、街道シーンにおける道路標識としての異なる建築物および物体を識別し、それにより高精度地図の構築を助けることができ、本開示の実施例は家庭用ロボットに用いることができ、例えば、ロボットは物体を把持する時に物体それぞれに対して画素レベルで正確に位置特定しなければならないが、本開示の実施例を利用すれば、物体を正確に識別および位置特定できる。なお、以上は例示的なシーンに過ぎず、本開示の保護範囲を限定するものではないことを理解すべきである。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本開示の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読命令を含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本開示の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本開示の原理および実際の適用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims

ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力することと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出し、同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得ることと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得ることと、を含み、
前記少なくとも二つの異なる階層の特徴を出力する前記ステップの後に、さらに、前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るステップを含み、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含み、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出する前記ステップは、前記第二融合特徴から前記少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出することを含む
ことを特徴とするインスタンスセグメンテーション方法。
前記ニューラルネットワークによって画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力する前記ステップは、前記ニューラルネットワークによって前記画像の特徴抽出を行い、前記ニューラルネットワークにおける少なくとも二つの異なるネットワーク深さのネットワーク層から少なくとも二つの異なる階層の特徴を出力することを含むことを特徴とする請求項１に記載の方法。
前記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含み、
前記の二つの異なる階層方向に順に従うことは、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従うことを含み、
前記異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、高階層特徴から低階層特徴への方向および低階層特徴から高階層特徴への方向に順に従って融合する前記ステップは、
前記ニューラルネットワークのネットワーク深さの深から浅への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合し、第三融合特徴を得ることと、
低階層特徴から高階層特徴への方向に従い、下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合することと、を含むことを特徴とする請求項１に記載の方法。
前記上位階層の特徴は、前記ニューラルネットワークにおける前記ネットワーク深さが深いネットワーク層から出力される特徴、または前記ネットワーク深さが深いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項３に記載の方法。
前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴をアップサンプリングしてから、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合する前記ステップは、前記ニューラルネットワークにおいて、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴を順にアップサンプリングしてから、隣接の、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴と融合することを含むことを特徴とする請求項３または４に記載の方法。
前記下位階層の融合特徴を順にダウンサンプリングしてから、前記第三融合特徴のうちの上位階層の融合特徴と融合する前記ステップは、下位階層の融合特徴を順にダウンサンプリングしてから、隣接の、前記第三融合特徴のうちの上位階層の融合特徴と融合することを含むことを特徴とする請求項３から５のいずれか一項に記載の方法。
前記二つの異なる階層方向は、高階層特徴から低階層特徴への方向、および低階層特徴から高階層特徴への方向を含み、
前記の二つの異なる階層方向に順に従うことは、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従うことを含み、
異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴を、低階層特徴から高階層特徴への方向および高階層特徴から低階層特徴への方向に順に従って融合するステップは、
前記ニューラルネットワークのネットワーク深さの浅から深への方向に従い、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合し、第四融合特徴を得ることと、
高階層特徴から低階層特徴への方向に従い、上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合することと、を含むことを特徴とする請求項１に記載の方法。
前記下位階層の特徴は、前記ニューラルネットワークにおいて前記ネットワーク深さが浅いネットワーク層から出力される特徴、または前記ネットワーク深さが浅いネットワーク層により出力される特徴に対して少なくとも一回特徴抽出を行って得られる特徴を含むことを特徴とする請求項７に記載の方法。
前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合する前記ステップは、前記ニューラルネットワークにおいて、ネットワーク深さが浅いネットワーク層から出力される下位階層の特徴を順にダウンサンプリングしてから、隣接の、ネットワーク深さが深いネットワーク層から出力される上位階層の特徴と融合することを含むことを特徴とする請求項７または８に記載の方法。
前記上位階層の融合特徴を順にアップサンプリングしてから、前記第四融合特徴のうちの下位階層の融合特徴と融合する前記ステップは、上位階層の融合特徴を順にアップサンプリングしてから、隣接の、前記第四融合特徴のうちの下位階層の融合特徴と融合することを含むことを特徴とする請求項７から９のいずれか一項に記載の方法。
前記同一インスタンス候補領域に対応する領域特徴を融合する前記ステップは、同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合することを含み、
前記同一インスタンス候補領域に対応する複数の領域特徴をそれぞれ画素レベルで融合する前記ステップは、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいてそれぞれ最大値を取ること、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて平均値を取ること、または、同一インスタンス候補領域に対応する複数の領域特徴を各画素に基づいて和を求めることを含むことを特徴とする請求項１から１０のいずれか一項に記載の方法。
前記各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得る前記ステップは、
第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、前記対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ること、および／または、
各第一融合特徴に基づいて前記画像のインスタンスセグメンテーションを行い、前記画像のインスタンスセグメンテーション結果を得ることを含むことを特徴とする請求項１から１１のいずれか一項に記載の方法。
前記各第一融合特徴に基づいてインスタンスセグメンテーションを行い、前記画像のインスタンスセグメンテーション結果を得る前記ステップは、
各第一融合特徴にそれぞれ基づき、各第一融合特徴にそれぞれ対応するインスタンス候補領域のインスタンスセグメンテーションを行い、各インスタンス候補領域のインスタンスセグメンテーション結果を得ることと、
前記各インスタンス候補領域のインスタンスセグメンテーション結果に基づいて前記画像のインスタンスセグメンテーション結果を取得することと、を含むことを特徴とする請求項１から１２のいずれか一項に記載の方法。
第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーションを行い、前記対応するインスタンス候補領域のインスタンスセグメンテーション結果を得る前記ステップは、
前記第一融合特徴に基づき、画素レベルでのインスタンスクラス予測を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果を得ることと、前記第一融合特徴に基づいて画素レベルでの前景／背景予測を行い、前記第一融合特徴に対応するインスタンス候補領域の前景／背景予測結果を得ることと、
前記インスタンスクラス予測結果および前記前景／背景予測結果に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得することと、を含むことを特徴とする請求項１２または１３に記載の方法。
前記第一融合特徴に基づいて画素レベルでの前景／背景予測を行う前記ステップは、前記第一融合特徴に基づき、前記第一融合特徴に対応するインスタンス候補領域において前景に属する画素および／または背景に属する画素を予測することを含むことを特徴とする請求項１４に記載の方法。
前記前景は全てのインスタンスクラスに対応する部分を含み、前記背景は前記全てのインスタンスクラスに対応する部分以外の部分を含み、または、前記背景は全てのインスタンスクラスに対応する部分を含み、前記前景は前記全てのインスタンスクラスに対応する部分以外の部分を含むことを特徴とする請求項１５に記載の方法。
前記インスタンスクラス予測結果および前記前景／背景予測結果に基づき、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を取得する前記ステップは、前記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景／背景予測結果との画素レベルでの加算処理を行い、前記第一融合特徴に対応するインスタンス候補領域のインスタンスセグメンテーション結果を得ることを含むことを特徴とする請求項１４から１６のいずれか一項に記載の方法。
前記第一融合特徴に対応するインスタンス候補領域の前景／背景予測結果を得るステップの後に、さらに、前記前景／背景予測結果を前記インスタンスクラス予測結果の次元に一致する前景／背景予測結果に変換することを含み、
前記第一融合特徴に対応するインスタンス候補領域の物体クラス予測結果と前景／背景予測結果との画素レベルでの加算処理を行う前記ステップは、前記第一融合特徴に対応するインスタンス候補領域のインスタンスクラス予測結果と変換された前景／背景予測結果との画素レベルでの加算処理を行うことを含むことを特徴とする請求項１７に記載の方法。
各インスタンス候補領域の第一融合特徴を得る前記ステップの後に、さらに、前記第一融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得ることを含むことを特徴とする請求項１から１１のいずれか一項に記載の方法。
各インスタンス候補領域の第二融合特徴を得る前記ステップの後に、さらに、前記第二融合特徴に基づいて前記画像の少なくとも一部の領域のセマンティックセグメンテーションを行い、セマンティックセグメンテーション結果を得ることを含むことを特徴とする請求項１から１１のいずれか一項に記載の方法。
画像の特徴抽出を行い、少なくとも二つの異なる階層の特徴を出力するためのニューラルネットワークと、
前記少なくとも二つの異なる階層の特徴から前記画像における少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するための抽出モジュールと、
同一インスタンス候補領域に対応する領域特徴を融合し、各インスタンス候補領域の第一融合特徴を得るための第一融合モジュールと、
各第一融合特徴に基づいてインスタンスセグメンテーションを行い、対応するインスタンス候補領域のインスタンスセグメンテーション結果および／または前記画像のインスタンスセグメンテーション結果を得るためのセグメンテーションモジュールと、
前記少なくとも二つの異なる階層の特徴に対して少なくとも一回の再追跡融合を行い、第二融合特徴を得るための第二融合モジュールであって、前記一回の再追跡融合は、前記ニューラルネットワークのネットワーク深さ方向に基づき、異なるネットワーク深さのネットワーク層からそれぞれ出力される異なる階層の特徴に対して、二つの異なる階層方向に順に従って融合することを含む、第二融合モジュールと、を含み、
前記抽出モジュールは更に、前記第二融合特徴から前記少なくとも一つのインスタンス候補領域に対応する領域特徴を抽出するために用いられることを特徴とするインスタンスセグメンテーション装置。
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶されたコンピュータプログラムを実行するためのプロセッサであって、前記コンピュータプログラムがプロセッサによって実行される時に上記請求項１から２０のいずれか一項に記載の方法を実現する、プロセッサと、を含むことを特徴とする電子機器。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される時、上記請求項１から２０のいずれか一項に記載の方法を実現することを特徴とするコンピュータ可読記憶媒体。
プロセッサに、上記請求項１から２０のいずれか一項に記載の方法を実行させることを特徴とするコンピュータプログラム。