JP2020527812A - セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム - Google Patents

セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム Download PDF

Info

Publication number
JP2020527812A
JP2020527812A JP2020502990A JP2020502990A JP2020527812A JP 2020527812 A JP2020527812 A JP 2020527812A JP 2020502990 A JP2020502990 A JP 2020502990A JP 2020502990 A JP2020502990 A JP 2020502990A JP 2020527812 A JP2020527812 A JP 2020527812A
Authority
JP
Japan
Prior art keywords
vector
neural network
distance
loss function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502990A
Other languages
English (en)
Other versions
JP6989688B2 (ja
JP2020527812A5 (ja
Inventor
清水 宏明
宏明 清水
ネベン デイビー
ネベン デイビー
ドゥ ブラバンデレ ベルト
ドゥ ブラバンデレ ベルト
ファン ホール ルク
ファン ホール ルク
プロースマンス マルク
プロースマンス マルク
コルネリス ニコ
コルネリス ニコ
Original Assignee
トヨタ モーター ヨーロッパ
トヨタ モーター ヨーロッパ
カトリーケ ユニベルシテイト ルーベン,カー.ユー.ルーベン エルアンドデー
カトリーケ ユニベルシテイト ルーベン,カー.ユー.ルーベン エルアンドデー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ モーター ヨーロッパ, トヨタ モーター ヨーロッパ, カトリーケ ユニベルシテイト ルーベン,カー.ユー.ルーベン エルアンドデー, カトリーケ ユニベルシテイト ルーベン,カー.ユー.ルーベン エルアンドデー filed Critical トヨタ モーター ヨーロッパ
Publication of JP2020527812A publication Critical patent/JP2020527812A/ja
Publication of JP2020527812A5 publication Critical patent/JP2020527812A5/ja
Application granted granted Critical
Publication of JP6989688B2 publication Critical patent/JP6989688B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム。【解決手段】セマンティック・インスタンス・セグメンテーションに使用される、ニューラルネットワークを反復して訓練する方法であって、反復ごとに、ニューラルネットワークは、テンプレート画像の各ピクセルに対してベクトル(10、20、30)を出力し、前記テンプレート画像は、定義済みの要素を含み、それぞれがテンプレート画像のピクセルと対応するベクトルに関連付けられ、前記ニューラルネットワークの訓練は、少なくとも、要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少し、各要素のベクトルのすべての中心との間の距離が増加する場合、目標値に達するまで損失関数は減少するように定義された損失関数を使用して実行されることを特徴とする方法。本発明はまた、セマンティック・インスタンス・セグメンテーション、および対応するシステムのための方法に関する。【選択図】図4

Description

本発明は、セマンティック・インスタンス・セグメンテーションの分野に関する。より正確には、セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークの訓練に関する。
セマンティック・インスタンス・セグメンテーションは、たとえば、カメラで取得した画像内のオブジェクトの種類を決定する方法であり、同じタイプのオブジェクトを区別することができる。
従来技術では、インスタンス・セグメンテーション・メソッドとセマンティック・セグメンテーション・メソッドの両方が提案されており、これらの方法はしばしばニューラルネットワークまたはディープニューラルネットワークを使用する。画像にさまざまなタイプがあるオブジェクトを区別するために、セマンティックセグメンテーション・メソッドが使用されている。セマンティックセグメンテーション・メソッドは、同じタイプの2つのオブジェクトを区別できない。例えば、分析対象の画像が、2つの重複する車と2つの重複する歩行者で構成される場合、セマンティックセグメンテーション・メソッドは、車に対応する画像内の領域と歩行者に対応する画像内の領域とを検出する。セマンティックセグメンテーションのさまざまな方法が提案されており、通常、(深い)畳み込みネットワークを使用する。
インスタンス・セグメンテーション・メソッドは、タイプに関係なく個別のオブジェクトの識別のみを目的としている。インスタンス・セグメンテーション・メソッドを使用して、上記の画像を分析する場合検出されるものは、4つの別個のオブジェクトである。これを達成するためにさまざまな方法が提案されているが、最も注目すべきなのは、(深い)畳み込みネットワークを使用する方法である。いくつかの特定の方法は、特定のネットワークアーキテクチャを必要とするか、あるいは、オブジェクトの提案に依存している。例えば、一部のメソッドは、オブジェクトの提案(またはバウンディングボックスの生成)の後に、個別のセグメンテーションおよび/または分類ステップが続く、多段(またはカスケード)パイプラインを使用する。これらの方法は、速度(多段計算のため)、および、セグメンテーション品質(特に閉塞に直面した場合)の点で満足されていない。
上記から、インスタンス・セグメンテーション・メソッドおよび、セマンティックセグメンテーション・メソッドは、実際に画像に表示されるものについて、完全な答えを提供していない。したがって、セマンティック・インスタンス・セグメンテーション・メソッドが必要である。上記の画像のセマンティック・インスタンス・セグメンテーション・メソッドの望ましい出力は、各車と各歩行者を異なる色で強調するマスクにし、および、たとえば、車1、車2、歩行者1、歩行者2を示すラベル付けすることができる。
さまざまなアプローチが提案されているが、最も注目すべきなのは、いくつかのアプローチが、画像をクラスタ化された表現に変換するために、ニューラルネットワークの訓練を提案していることである。また、点の各クラスタは、画像内の(要素と呼ばれることもある)インスタンスに対応する。このクラスタ化された表現は、さまざまな要素を強調する画像の表現を取得するために、その後、処理することができる。
ニューラルネットワークの訓練は、それぞれの要素がすでに特定されているテンプレート画像および損失関数を使用して実行できる反復作業であることに留意する。
損失関数は、通常、この出力が有効か否か、つまり、この出力が各要素とそのタイプの適切な検出につながるか否かを決定するために、ニューラルネットワークの出力において実行された計算で構成される。損失関数は、一般に、ニューラルネットワークの出力が、予想される出力からどれだけ離れているかを表すスコアである。
セマンティック・インスタンス・セグメンテーション・メソッドの損失関数を定義することは、非常に重要であり、既知の損失関数は満足のいくものではない。
文献Fathi他「Semantic Instance Segmentation via Deep Metric Learning」(以下「ファティ(Fathi)」と呼ぶ、arXivプレプリントサーバーからダウンロード可能、URL https://arxiv.org/pdf/1703.10277.pdf)は、セマンティック・インスタンス・セグメンテーションの既知の方法を開示している。
この文献のメソッドは、同じインスタンスオブジェクトに対応するピクセルがニューラルネットワークの出力(通常、画像内の各ピクセルに対して、ニューラルネットワークはベクトルを出力する)の空間に近いことを保証する損失関数を使用する。この損失関数は、また、異なるオブジェクトに対応するピクセルは、ネットワークの出力表現において、互いに遠く離れたままであることを保証する。したがって、この文献の損失関数は、ニューラルネットワークの出力において、同じオブジェクトのピクセルのベクトルが近い場合および異なるオブジェクトのピクセルのベクトルが遠い場合は、より低い値を有し、それ以外の場合は、より低い値を有する。
次に、ニューラルネットワークは、次の反復で損失関数のより低いスコアを取得するために、損失関数の結果を考慮して変更される。
この文献の損失関数は不十分である。より正確には、この文献の損失関数は、画像内の各オブジェクトに対して、限られた数のベクトルのランダムな選択に依存し、膨大な計算を必要とする。
限られた数のベクトルの選択も、すべてのピクセルが上記の条件を確認するわけではないが、ゼロに等しくすることができる損失関数につながる。これにより、訓練の収束が遅くなる。
本発明の主な目的は、現在利用可能なシステムと方法の欠点を克服する方法およびシステムを提供することである。
本発明は、セマンティック・インスタンス・セグメンテーションに使用されるためのニューラルネットワークを反復して訓練する方法を提案することにより、先行技術の1つ以上の欠陥を克服する。ここで、反復ごとに、ニューラルネットワークは、テンプレート画像の各ピクセルのベクトルを出力し、ここでテンプレート画像は、それぞれがテンプレート画像のピクセルと対応するベクトルに関連付けられている定義済みの要素で構成される。
ニューラルネットワークの訓練は、要素に属する各ベクトルに対して、該ベクトルとこの要素のベクトルの中心との間の距離が計算され、各要素のベクトルのすべての中心間の距離が、少なくとも、−要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少する、および、−各要素のベクトルのすべての中心間距離が増加する場合、目標値(たとえばゼロ)に達するまで損失関数が減少するように計算される場合、損失関数を使用して実行される。
目標値は、損失関数に対して、取得することが望ましい値である。損失が目標値に達するか下回るとき、訓練が完了したと考えることができる。オプションとして目標値を事前に設定できる。いくつかの反復において、または、実際の画像で使用される場合、目標値に到達しない可能性がある。要素は、テンプレート画像に表示されるオブジェクトであり得る。テンプレート画像では、同じタイプまたは異なるタイプの複数の要素が存在する。テンプレート画像の各ピクセルには、要素との既知の関連付けがある。
ニューラルネットワークによって出力されたベクトルの空間において、
− 要素のベクトルはすべて、ベクトルのクラスタ内で近接したままになる、
− 異なる要素に関連付けられたベクトルのクラスタは、間隔をあけて配置する必要がある、
場合に、適切なセマンティック・インスタンス・セグメンテーションが取得されることが観察されている。
好適には、このニューラルネットワークは、すでに、セマンティックセグメンテーションを実行できるニューラルネットワークであり、インスタンス・セグメンテーションも実行するようにネットワークを訓練するために、上記の損失関数が定義されている。本発明は、ニューラルネットワークのアーキテクチャを変更する必要なしに、セマンティックセグメンテーション用に訓練された可能性がある既に利用可能な任意のニューラルネットワークに有利に適用される。
本発明の発明者は、すでにセマンティックセグメンテーション用に訓練されたニューラルネットワークを使用することを観察し、セマンティック・インスタンス・セグメンテーションのより良い結果を取得することを可能にした。上記の損失関数により、この結果を取得可能にする。
さらに、ファティの上記の文献の損失関数に反して、本発明の損失関数が、すべてのベクトルを考慮に入れるために定義されている(各ベクトル間の距離および対応する中心が計算され、すべての中心間の距離で計算される)。
要素のベクトルの中心を使用すると、計算要件を制限しながら、すべてのベクトルを考慮することができる。実際、要素のすべてのベクトルが対応する中心に近い場合、この要素のベクトルはすべて近くにある。
また、すべての異なる中心が互いに遠く離れている場合、要素のベクトルは、別の要素のベクトルから遠く離れている。
例として、テンプレート画像の同じ要素に属するすべてのベクトルの平均ベクトルとして、要素のベクトルの中心を決定できる。
損失関数はすべてのベクトルを計算上効率的な方法で処理するため、目標値に迅速に到達する損失を取得することが可能であり、実際には、すべてのベクトルが期待される要件を満たしていることを意味する。訓練の高速収束が得られる。
特定の実施形態によれば、損失関数は、目標値に達するまで減少する。少なくとも、要素に属する各ベクトルについては、該ベクトルとこの要素のベクトルの中心との間の距離は、この距離が第1の事前定義された距離のしきい値以下になるまで減少する。
したがって、訓練が終了または収束したとき(つまり、損失関数が目標値に達したとき)、要素のすべてのベクトルは、この要素のベクトルの中心を中心とする超球面内にあり、この超球は、第1の事前定義された距離のしきい値に等しい半径を持つ。
特定の実施形態によれば、損失関数は、各要素のベクトルのすべての中心間の距離が増加したとき、各距離が事前に定義された第2の距離しきい値以上になるまで、少なくとも目標値に達するまで減少する。
したがって、訓練が終了または収束するとき(つまり、損失関数が目標値に達したとき)、要素のすべてのベクトルは、少なくとも第2の事前定義された距離しきい値により、別の要素のベクトルから間隔を空けることができる。
第1と第2の事前定義された距離のしきい値が使用される場合、要素からのすべてのベクトルは超球面内にあり、これは、他の要素の他の超球から間隔を空けている。
この結果は、ファティの文献に開示されている損失関数を使用して取得することはできないことに留意する。
特定の実施形態によれば、損失関数は、次のとおりである。
この損失関数は効率的に計算できる。
特定の実施形態によれば、損失関数は、各要素のベクトルの各中心とベクトルの空間の原点との間の距離が減少するとき、少なくとも目標値に達するまでさらに減少するように定義される。
これにより、ベクトルの空間の原点からベクトルが離れすぎないようにする。この機能は、数学的エラー(たとえば、当業者に知られている無限大誤差)の発生を防ぐ。
特定の実施形態によれば、損失関数は追加の用語で構成され、次のとおりである。
したがって、Lregは、ベクトルの空間の原点に向かってベクトルを引く用語である。損失関数ではあまり重要ではないので、γは、αまたはβより、好適には非常に少ないことに留意する。たとえば、αまたはβは、1に等しい値を持つことができ、γは、0.0001にすることができる。
特定の実施形態、ニューラルネットワークに入力された画像の各ピクセルの座標によれば、このピクセルの座標はニューラルネットワークに入力される。
発明者によって観察された要素は、特定の方法で配置された同様の外観を持つ(たとえば、右上隅の要素そして左下隅の同様の要素)2つの別個のインスタンスまたは要素と見なされない場合がある。テンプレート画像のピクセルの座標をニューラルネットワークに入力することにより、ニューラルネットワークは、2つの要素を区別するのに十分な情報を受け取る。
本発明はまた、上記で定義した方法を使用して訓練されたニューラルネットワークを使用してセマンティック・インスタンス・セグメンテーションのための方法を提供する。
特定の実施形態によれば、この方法は、後処理ステップをさらに含み、その中で、平均シフトアルゴリズムまたはk平均アルゴリズムが、ニューラルネットワークによって出力されたベクトルに適用される。
訓練されたネットワークの出力では、ベクトルは、別個の超球に配置される可能性が高く、これにより、平均シフトアルゴリズムまたはk平均アルゴリズムの実装が容易になる。これらのアルゴリズムは、オブジェクトに属するピクセルの識別を容易にする。
本発明はまた、セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを反復して訓練するためのシステムを提供する。ここで、反復ごとに、ニューラルネットワークは、テンプレート画像の各ピクセルのベクトルを出力するように構成され、テンプレート画像は定義済みの要素で構成され、それぞれがテンプレート画像のピクセルおよび対応するベクトルに関連付けられている。
システムは、反復ごとに損失関数を使用して、損失を計算するためのモジュールを備えている。この損失関数は、少なくとも、−要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少し、および−各要素のベクトルのすべての中心間の距離が増加するときに、目標値に達するまで減少するように定義される。
このシステムは、上記で定義したニューラルネットワークの訓練の方法のすべての実施形態を実行するように構成することができる。
本発明はまた、上記で定義したネットワークの訓練方法を使用して訓練されたニューラルネットワークを含む画像セマンティック・インスタンス・セグメンテーションのためのシステムを提供する。
特定の一実施形態では、ニューラルネットワークを訓練する方法のステップおよび/またはセマンティック・インスタンス・セグメンテーションのためのメソッドのステップは、コンピュータプログラムの命令によって決定される。
その結果、本発明はまた、上記のように、このプログラムがコンピュータによって実行されるとき、方法のステップを実行するためのコンピュータプログラムに関する。
このプログラムは任意のプログラミング言語を使用でき、ソースコード、オブジェクトコード、または、部分的にコンパイルされたフォーム、またはその他の望ましいフォームなど、ソースコードとオブジェクトコードの間のコード中間体の形式をとることができる。
本発明はまた、上記のコンピュータプログラムの命令を含むコンピュータ読み取り可能な情報媒体に関する。
この情報媒体は、プログラムを保存できる任意のエンティティまたはデバイスでありことができる。例えば、この媒体には、たとえば、ROM、CD ROMまたは超小型電子回路ROMまたは、磁気記憶手段、たとえば、ディスケット(フロッピー(登録商標)ディスク)またはハードディスクなどストレージ手段を含めることができる。
または、情報媒体は、プログラムが組み込まれている集積回路であり得る。この回路は、問題のメソッドを実行したり、そのメソッドの実行に使用したりする。
本発明の実施方法を、例として、添付の図面を参照して、これから説明する。
図1は、ニューラルネットワークを訓練するための例示的な方法のブロック図である。 図2は、例示的なセマンティック・インスタンスセグメント化方法のブロック図である。 図3は、ニューラルネットワークを訓練するためのシステムおよびセマンティック・インスタンス・セグメンテーションのためのシステムの概略図である。 図4は、ニューラルネットワークによって出力されたベクトルの表現である。 図5は、ニューラルネットワークの訓練を示している。 図6は、ピクセルの座標をニューラルネットワークに入力する効果を示している。
ニューラルネットワークを反復して訓練する方法を図1に示す。
この訓練は、さまざまな要素、たとえば、重複する場合もしない場合もある(たとえば、2台の車が重なっている)同じタイプの要素を含むテンプレート画像1を使用して実行される。
テンプレート画像の各要素の位置は事前にわかっているが、このテンプレート画像の各ピクセルには、要素(たとえば、1号車、2号車、背景など)との特定の関連付けがある。
第1のステップE01において、訓練されるニューラルネットワークは、テンプレート画像を複数のベクトルに変換し、各ベクトルは、テンプレート画像のピクセルに対応する。この複数のベクトルは、当業者にテンソルと呼ばれることがある。そしてこのテンソルはテンプレート画像と同じ高さと幅を持ち、ただし、異なる深さはベクトルの長さに等しくなる。
ベクトルの長さを、訓練するニューラルネットワークに応じて、または、アプリケーションに応じて選択できる。すべてのベクトルは同じ長さで、すべて同じベクトル空間に属する。
ニューラルネットワークによって出力されるベクトルは、当業者によってピクセル埋め込みと呼ばれることに留意する。
好適には、このニューラルネットワークは、最初、訓練の前に、すでにセマンティックセグメンテーションを実行できるニューラルネットワークである。当業者は、どのニューラルネットワークがセマンティックセグメンテーションを既に実行できるかを知っているであろう。
例として、このニューラルネットワークは、「Segnet」という名前で当業者に知られ、文献「画像のセグメンテーションのための深い畳み込みエンコーダ−デコーダ・アーキテクチャ(A deep convolutional encoder−decoder architecture for image segmentation)」(V. Badrinarayanan et al., arXiv preprint arXiv: Claim 1511.00561, 2015. 2) 、または、文献「セマンティックセグメンテーションのための完全な畳み込みネットワーク(Fully convolutional networks for semantic segmentation)」(J. Long et al., CVPR, 2015)に記載されているニューラルネットワークに記載されているニューラルネットワークであり得る。
ニューラルネットワークは、図1の2で参照されるベクトルを出力する。
次に、これらのベクトルを使用して、ステップE02で損失を計算する。その損失は、スカラー値を提供する損失関数を使用して計算され、これは正またはゼロであり、損失とも呼ばれる。
より正確に、損失関数では、要素に属する各ベクトルに対して、該ベクトルとこの要素のベクトルの中心との間の距離が計算され、各要素のベクトルのすべての中心間の距離が、計算される。
これらの計算は、(2つの連続した反復の間)目標値に達するまで減少する損失関数を定義するために使用される。この目標値は、現在の例では、少なくとも、−要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少し、そして−各要素のベクトルのすべての中心間の距離が増加する場合、ゼロである。
例えば、損失関数Lは、2つの項の線形結合になる。
αおよびβは、検証セットで実行される評価によって、グリッド検索またはハイパーパラメーター検索によって選択できる。これは、αおよびβに対して最適な値を選択するために構造化された方法で異なる設定を試すことで実行できる。
これらの値は両方とも1に設定できることに留意する。
たとえば、少なくとも、要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が、この距離が第1の事前定義された距離のしきい値以下になるまで減少するとき、損失関数はゼロに達するまで減少する。
したがって、この例は、次のように記述された用語Lvarを使用して実装できまる。
その距離を、L1またはL2の距離にできることは、当業者には周知であることに留意する。
また、例えば、損失関数は、少なくとも、要素に属する各ベクトルについては、該ベクトルとこの要素のベクトルの中心との間の距離が、この距離が第1の事前定義された距離のしきい値以下になるまで減少するとき、ゼロに達するまで減少する。
したがって、この例は、Ldistという用語を使用して実装できる。
上で定義した2つの用語LdistとLvarは、損失がゼロに等しいとき、オブジェクトに関連付けられたすべてのベクトルがδvに等しい超球内部に配置され、そしてすべての超球体の中心は、少なくとも2δd離れていることを保証するように定義されている。
好適には、好ましくは、δdは2δvより大きい。
例として、損失関数をさらに、ゼロに達するまで減少するように定義できることに留意する。少なくとも、各要素のベクトルの各中心およびベクトルの空間のオリジンとの間の距離が減少する。
この例では、損失関数は追加の用語Lregで構成され、次のとおりである。
損失関数ではあまり重要ではないので、γは、αまたはβより、好適には非常に少ないことに留意する。例えば、αまたはβは、1に等しい値を持つことができ、γは、0.0001にすることができる。
たとえば、上記で定義された関数を使用して、ステップE02の損失を計算することが可能である。この損失がゼロに等しい場合、ニューラルネットワークが訓練されたと見なされる。代替的に、損失が事前定義されたしきい値を下回る場合、ニューラルネットワークは訓練されていると考えることができる。
損失がゼロを超える(または事前定義されたしきい値を超える)場合、訓練は完了しない。
その後、ステップE03が実行され、このステップでは、ステップE02で計算された損失を使用して、パラメータまたは重みまたはニューラルネットワークが調整される。
たとえば、確率的勾配降下として当業者に知られている方法を使用してステップE03を実行できる(ステップE03)。
次に、調整されたニューラルネットワークで、少なくともステップE01およびE02を実行することで構成される次の反復が実行される(ステップE04)。
複数の異なるテンプレート画像の上でニューラルネットワークの訓練を実行できることに留意する。
図1に開示されている方法を使用してニューラルネットワークが訓練されると、図2に示すように、セマンティック・インスタンス・セグメンテーションに使用できる。
図2の方法は、3で参照される画像、たとえば、カメラによって取得された画像で実行される。この画像には、たとえば、2つの部分的に重複する車と2つの部分的に重複する歩行者が含まれる。
ステップE11において、画像3は、セマンティック・インスタンス・セグメンテーションを実行するために、訓練されたニューラルネットワークに入力される。
ベクトル4は、訓練されたニューラルネットワークの出力として取得される。
画像のさまざまな要素がセグメント化およびラベル付けされている(例えば第1の色の車のナンバーワン、2号車の2号車、第3の色の歩行者、および4番目の色の歩行者2)表現の下で画像3を表現するために、後処理ステップE12が実行される。
ニューラルネットワークが訓練されているため、上記で定義した損失関数を使用して、これらのベクトルは、別々の超球に近接している。ほとんどの場合、実際の画像(テンプレート画像ではない)で使用するとき、通常、損失はゼロをわずかに上回ることに留意する。
後処理を容易にするために、クラスタ内で、同じオブジェクトに属している必要があるピクセルをグループ化するために、平均シフトアルゴリズムのK平均がベクトルで使用される、サブステップE120が実行される。これにより、メソッドの堅牢性が向上する。
ベクトル(またはピクセル)が個別のクラスタにグループ化されると、その後、クラスタごとに異なる色の画像を出力することが可能であり、後処理は終了する。これは、上記の中心の周囲を、δdにすることができる半径で、しきい値処理することで実行できる。
セマンティック・インスタンス・セグメンテーションを含む最終画像5が出力される。
図1および図2を参照して説明した方法のステップは、コンピュータの命令により決定できる。これらの命令は、図3に示すように、コンピュータのプロセッサで実行できる。
この図では、ニューラルネットワークS1を訓練するシステムが示されている。システムS1は、コンピュータであり得るが、プロセッサPR1および不揮発性メモリMEM1を含む。
不揮発性メモリMEM1では、命令INS(登録商標)T1のセットが保存される。INS(登録商標)T1の命令セットは、セマンティック・インスタンス・セグメンテーションを実行するためにニューラルネットワークを訓練する方法を実行する命令を備える。たとえば、図1を参照して説明した方法である。
不揮発性メモリMEM1は、ニューラルネットワークNN、および、少なくとも1つのテンプレート画像TIMGをさらに含む。
訓練されたら、ニューラルネットワークNNは、セマンティック・インスタンス・セグメンテーションを実行するように構成されている別のシステムS2で使用できる。
例として、ニューラルネットワークNNは、インターネットなどの通信ネットワークINTを使用して、システムS2に通信できる。
システムS2は、プロセッサPR2と不揮発性メモリMEM2を含む。不揮発性メモリには、命令INS(登録商標)T2のセットが不揮発性メモリMEM2に保存されているイメージIMGを使用して、セマンティック・インスタンス・セグメンテーションを実行するために格納されている。そして訓練されたニューラルネットワークTNNもまた不揮発性メモリMEM2に保存される。
図4は、ニューラルネットワークによって出力されたベクトルの概略図である。
この例では、使用されたニューラルネットワークが完全に訓練されておらず、損失はゼロに等しくないか、事前定義されたしきい値を下回っていない。また、この例では、簡単にするために、ニューラルネットワークは、長さが2のベクトルを出力する。これにより、2次元表現を使用できる。
ニューラルネットワークによって出力されるさまざまなベクトルは、それぞれがニューラルネットワークに入力されたテンプレート画像のピクセルに関連付けられたドット10、20、および30として表される。テンプレート画像の各ピクセルは、テンプレート画像に表示される要素との特定の関連付けがある。したがって、同じことは、ニューラルネットワークによって出力されるベクトルにも当てはまる。
図4において、参照されるベクトル10はすべて、第1のオブジェクトに関連付けられており、参照されるベクトル20はすべて、第2のオブジェクトに関連付けられており、参照されるベクトル30はすべて、第3のオブジェクトに関連付けられている。ニューラルネットワークの訓練がまだ実行されている場合でも、ベクトル10、20、30はすでに実質的に、それぞれ、参照するベクトルのクラスタC1、C2、およびC3を形成している。
その後、クラスタC1、クラスタC2、クラスタC3のそれぞれの中心11、12、および13を決定できる。
これらの中心は、各ベクトル10と中心11との間の距離、各ベクトル20と中心12との間の距離、および、各ベクトル30と中心13との間の距離の計算に使用される。
さらに、すべての中心11、12、13の間の距離が計算される。
(訓練の各反復後)中心11までベクトル10が近づくように、より正確には、ベクトル10が、中心からの距離内にあるように、損失関数が定義されている。これは、あらかじめ定義された第1の距離しきい値δv未満である。ベクトル10はすべて、半径δvと図に表された中心11とを持つ円の内側にあると予想される。
同様に、ベクトル20はすべて、半径δvと図に表される中心12とを持つ円の内側にあると予想され、ベクトル30はすべて、半径δvと図に表される中心13とを持つ円の内側にあると予想される。
ベクトルの中心への動きが、図の細い矢印を使用して表されている。
損失関数はさらに、中心11、12、13が、(訓練の各反復後)互いに遠く離れるように、より正確には、中心がそれぞれ、2δdに等しい第2に事前定義された距離のしきい値で区切られるように定義される。
半径δdおよび中心11、12、13の円は、図にも表されている。クラスタを互いに離すために実行されたベクトルの動きは、図の太い矢印を使用して表される。
図5は、さまざまな表現によるニューラルネットワークの訓練を示している。
テンプレート画像100が図に表されており、この画像100は、さまざまな葉とセグメント化される背景を持つ植物の写真である。
テンプレート画像の各ピクセル100は、特定の葉との特定の関連があり、テンプレート画像100の下に示される最終的なセグメント化画像200として、画像100を表すことが可能である。当業者は、セグメント化された画像200を「グランドトゥルース(ground truth)」と呼ぶ場合がある。
図5の300で参照される行は、左から右に連続した順序でのニューラルネットワークの訓練の7つの異なる段階でニューラルネットワークによって出力された(この例では、ネットワークの出力は2次元である)ベクトルの位置を表す。この訓練は、各訓練の反復後にニューラルネットワークを調整するために、確率的勾配降下法を使用して行われる。
行300で表される7つの異なるステージは、確率的勾配降下法を使用したニューラルネットワークへの、それぞれ、0、2、4、8、16、32、64の調整に対応する。
最後の段階で見られるように、ベクトルはすべて重複しない円に配置される。これらの円の半径は、図4を参照して説明したδdと同じである。
400で示される行は、後処理ステップなしのニューラルネットワークの出力を表す。この行の画像は、2次元のベクターを配信し、各ベクトルの各コンポーネントをそれぞれ赤の値と緑の値として使用するニューラルネットワークの出力を取得することにより、取得される。ここで、青の値は、ゼロに設定されている(図はグレースケールである)。500で参照される行は、半径がδdに等しい状態でしきい値処理が実行される後処理ステップの結果を表す。
図6は、ピクセルの座標をニューラルネットワークに入力した結果を示している。
この図では、2つの同様の要素(正方形)が左上の位置と右下の位置に配置されている、3つの異なる入力画像が使用されている。2つの正方形の間隔は、3つの入力画像で異なる。
これらの図の上において、位置認識の言葉は、ニューラルネットワークへの各ピクセルの座標の入力を指す。
ニューラルネットワークの出力(ベクトルと対応する画像)は、次に、位置認識を使用する場合と使用しない場合の2つのケースについて表示する。
位置認識なしでは、それぞれが左上隅および右下隅に近い場合、ニューラルネットワークは2つの正方形を区別するのが難しいことを見ることができる。
しかしながら、画像のピクセルの座標をニューラルネットワークに入力することにより、ニューラルネットワークは常に2つの正方形を区別できまる。
上記の実施形態により、セマンティック・インスタンス・セグメンテーションに使用でき、良好な結果が得られるニューラルネットワークを取得することが可能になる。
損失関数はゼロの値に達する可能性があるために、訓練の終了時にはテンプレート画像に見られる間違いはほとんどない。これは、本当に、テンプレート画像の訓練が完了したことを示している。
対称ベストダイス(Symmetric Best Dice)など少なくとも当業者に知られているメトリックを使用して、84.2のSBDスコアを取得することが可能である(SBDについては、H. Scharr et al、Machine vision and applications 27(4):585−606)、「植物の表現型解析における葉のセグメンテーション:対照研究(Leaf segmentation in plant phenotyping: a collation study)」を参照)。
したがって、上記の実施形態を使用して得られたニューラルネットワークは、良好な結果を提供する。

Claims (13)

  1. セマンティック・インスタンス・セグメンテーションに使用される、ニューラルネットワークを反復して訓練する方法であって、
    反復ごとに、前記ニューラルネットワークは、テンプレート画像の各ピクセルに対してベクトル(10、20、30)を出力し、
    前記テンプレート画像は、定義済みの要素を含み、それぞれが前記テンプレート画像のピクセルと対応するベクトルに関連付けられ、
    前記ニューラルネットワークの訓練は、損失関数(L)を使用して実行され、
    要素に属する各ベクトルについて、ベクトルとこの要素のベクトルの中心の間の距離(11、12、13)が計算され、
    各要素の前記ベクトルのすべての前記中心の間の距離が、少なくとも、
    − 要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少し、および、−各要素のベクトルのすべての中心との間の距離が増加する場合、目標値に達するまで前記損失関数が減少するように計算される
    ことを特徴とする方法。
  2. 少なくとも、要素に属する各ベクトルについては、該ベクトルとこの要素のベクトルの中心との間の距離が、この距離が、あらかじめ定義された第1の距離しきい値(δv)以下となるまで、減少するとき、前記損失関数は、前記目標値に達するまで減少する、請求項1に記載の方法。
  3. 前記損失関数は、少なくとも、各要素の前記ベクトルのすべての中心間の距離がそれぞれの距離が、第2の事前定義された距離しきい値(δd)以上となるまで、増加したとき、前記目標値に達するまで減少する、請求項1または2に記載の方法。
  4. 前記損失関数は、
    である、請求項1から3のいずれか1項に記載の方法。
  5. 前記損失関数は、各要素のベクトルの各中心間と前記ベクトルの空間の原点との距離が減少するとき、少なくとも前記目標値に達するまで減少するように、さらに定義される、請求項1ないし4のいずれか1項に記載の方法。
  6. 前記損失関数は、追加の項、
    を含む、請求項4および5の組み合わせによる方法。
  7. 画像の各ピクセルの座標が、前記ニューラルネットワークに入力され、このピクセルの座標は前記ニューラルネットワークに入力される、請求項1ないし6のいずれか1項に記載の方法。
  8. 前記訓練されたニューラルネットワークを使用して、画像に対して請求項1ないし7のいずれか1項に記載の方法を使用するステップを含む、セマンティック・インスタンス・セグメンテーションの方法。
  9. 平均シフトアルゴリズムまたはk平均アルゴリズムが、前記ニューラルネットワークによって出力された前記ベクトルに適用される、後処理ステップをさらに含む、請求項7に記載の方法。
  10. セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを反復して訓練するためのシステムであって、
    反復ごとに、前記ニューラルネットワーク(NN)は、テンプレート画像(TIMG)の各ピクセルのベクトルを出力するように構成され、
    該テンプレート画像は、それぞれがテンプレート画像のピクセルと対応するベクトルに関連付けられた定義済みの要素を備え、
    前記システムが、要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が、計算され、
    各要素のベクトルのすべての中心間の距離が、少なくとも、−要素に属する各ベクトルについて、該ベクトルとこの要素のベクトルの中心との間の距離が減少し、−各要素のベクトルのすべての中心との間の距離が増加する場合、目標値に達するまで損失関数は減少するように計算される、損失関数を使用して損失を計算するためのモジュール(PR1、INS(登録商標)T1)を含むことを特徴とする、
    システム。
  11. 請求項1から7のいずれか1項に記載の方法を使用して訓練された前記ニューラルネットワークを含む画像セマンティック・インスタンス・セグメンテーションのためのシステム。
  12. コンピュータプログラムがコンピュータによって実行されるとき、請求項1から9のいずれか1項に記載の方法のステップを実行するための命令指示を含むコンピュータプログラム。
  13. 請求項1から9のいずれか1項に記載の方法のステップを実行するための命令を含むコンピュータプログラムを記録している、コンピュータが読み取り可能な記録媒体。
JP2020502990A 2017-07-21 2017-07-21 セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム Active JP6989688B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/068550 WO2019015785A1 (en) 2017-07-21 2017-07-21 METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION

Publications (3)

Publication Number Publication Date
JP2020527812A true JP2020527812A (ja) 2020-09-10
JP2020527812A5 JP2020527812A5 (ja) 2021-10-21
JP6989688B2 JP6989688B2 (ja) 2022-01-05

Family

ID=59581854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502990A Active JP6989688B2 (ja) 2017-07-21 2017-07-21 セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム

Country Status (2)

Country Link
JP (1) JP6989688B2 (ja)
WO (1) WO2019015785A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182430A (ja) * 2020-12-09 2021-11-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体
WO2022070574A1 (ja) * 2020-09-29 2022-04-07 富士フイルム株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10884131B1 (en) * 2018-08-03 2021-01-05 GM Global Technology Operations LLC Conflict resolver for a lidar data segmentation system of an autonomous vehicle
US11562171B2 (en) 2018-12-21 2023-01-24 Osaro Instance segmentation by instance label factorization
CN111507343B (zh) * 2019-01-30 2021-05-18 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN109886272B (zh) * 2019-02-25 2020-10-30 腾讯科技(深圳)有限公司 点云分割方法、装置、计算机可读存储介质和计算机设备
CN110766281B (zh) * 2019-09-20 2022-04-26 国网宁夏电力有限公司电力科学研究院 一种基于深度学习的输电导线风害预警方法及终端
CN110751659B (zh) * 2019-09-27 2022-06-10 北京小米移动软件有限公司 图像分割方法及装置、终端、存储介质
CN110765916B (zh) * 2019-10-17 2022-08-30 北京中科原动力科技有限公司 一种基于语义和实例分割的农田苗垄识别方法及系统
CN111028195B (zh) * 2019-10-24 2023-03-24 西安电子科技大学 一种基于实例分割的重定向图像质量信息处理方法及系统
CN111210452B (zh) * 2019-12-30 2023-04-07 西南交通大学 一种基于图割和均值偏移的证件照人像分割方法
CN111709293B (zh) * 2020-05-18 2023-10-03 杭州电子科技大学 一种基于ResUNet神经网络的化学结构式分割方法
CN111967373B (zh) * 2020-08-14 2021-03-30 东南大学 一种基于摄像头和激光雷达的自适应强化融合实时实例分割方法
CN113673505A (zh) * 2021-06-29 2021-11-19 北京旷视科技有限公司 实例分割模型的训练方法、装置、系统及存储介质
CN114529191B (zh) * 2022-02-16 2024-10-22 支付宝(杭州)信息技术有限公司 用于风险识别的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092611A (ja) * 2000-09-13 2002-03-29 Toshiba Corp 画像処理装置及び画像処理方法並びに記録媒体
JP2007087346A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2017515189A (ja) * 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理
JP2018535491A (ja) * 2016-03-25 2018-11-29 三菱電機株式会社 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006114003A1 (en) * 2005-04-27 2006-11-02 The Governors Of The University Of Alberta A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images
CN106897390B (zh) * 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092611A (ja) * 2000-09-13 2002-03-29 Toshiba Corp 画像処理装置及び画像処理方法並びに記録媒体
JP2007087346A (ja) * 2005-09-26 2007-04-05 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
JP2017515189A (ja) * 2014-03-07 2017-06-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated 写真管理
JP2018535491A (ja) * 2016-03-25 2018-11-29 三菱電機株式会社 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FATHI, A. ET AL., SEMANTIC INSTANCE SEGMENTATION VIA DEEP METRIC LEARNING [ONLINE], JPN6021020632, 30 March 2017 (2017-03-30), ISSN: 0004520082 *
WANG, L. ET AL.: "Unsupervised image segmentation based on multidimensional particle swarm optimization", 6TH INTERNATIONAL CONFERENCE ON WIRELESS, MOBILE AND MULTI-MEDIA (ICWMMN 2015) [ONLINE], JPN7021001953, 2015, ISSN: 0004520083 *
WEINBERGER, K.Q. ET AL., DISTANCE METRIC LEARNING FOR LARGE MARGIN NEAREST NEIGHBOR CLASSIFICATION (2006) [ONLINE], JPN6021020633, 2006, ISSN: 0004520084 *
新井康平 外1名: "追跡アルゴリズムを考慮した強化学習・競合学習オンラインクラスタリングによる大規模画像の部位検索", 画像電子学会誌, vol. 第39巻,第3号, JPN6021020631, 25 May 2010 (2010-05-25), pages 301 - 309, ISSN: 0004520085 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070574A1 (ja) * 2020-09-29 2022-04-07 富士フイルム株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP2021182430A (ja) * 2020-12-09 2021-11-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体
JP7253593B2 (ja) 2020-12-09 2023-04-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体

Also Published As

Publication number Publication date
JP6989688B2 (ja) 2022-01-05
WO2019015785A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6989688B2 (ja) セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム
Rathi et al. Underwater fish species classification using convolutional neural network and deep learning
CN109800824B (zh) 一种基于计算机视觉与机器学习的管道缺陷识别方法
JP6192271B2 (ja) 画像処理装置、画像処理方法及びプログラム
EP3333768A1 (en) Method and apparatus for detecting target
EP3564869A1 (en) Training of deep neural networks on the basis of distributions of paired similarity measures
US20210264144A1 (en) Human pose analysis system and method
US12002259B2 (en) Image processing apparatus, training apparatus, image processing method, training method, and storage medium
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
JP6341650B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN109978848B (zh) 基于多光源颜色恒常模型检测眼底图像中硬性渗出的方法
US11189015B2 (en) Method and apparatus for acquiring feature data from low-bit image
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
JP7299658B2 (ja) ニューラルネットワーク及び非局所的ブロックを用いてセグメンテーションを行う疾病診断システム及び方法
Gurrala et al. A new segmentation method for plant disease diagnosis
CN117542067B (zh) 一种基于视觉识别的区域标注表单识别方法
US20210319269A1 (en) Apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
WO2024078112A1 (zh) 一种舾装件智能识别方法、计算机设备
JP2016224821A (ja) 学習装置、学習装置の制御方法及びプログラム
Oncevay-Marcos et al. Leaf-based plant identification through morphological characterization in digital images
Kurlin et al. A persistence-based approach to automatic detection of line segments in images
Lyasheva et al. Application of image weight models to increase canny contour detector resilience to interference
JP2019211914A (ja) 物体らしさ推定装置、方法、およびプログラム
CN112801950B (zh) 一种基于几何失真度量的图像适配质量评价方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200323

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20200417

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20210901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211202

R150 Certificate of patent or registration of utility model

Ref document number: 6989688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350