JP7098830B2 - 画像を処理し、親和性グラフを用いたインスタンスセグメンテーションを行うための方法とシステム - Google Patents
画像を処理し、親和性グラフを用いたインスタンスセグメンテーションを行うための方法とシステム Download PDFInfo
- Publication number
- JP7098830B2 JP7098830B2 JP2021515596A JP2021515596A JP7098830B2 JP 7098830 B2 JP7098830 B2 JP 7098830B2 JP 2021515596 A JP2021515596 A JP 2021515596A JP 2021515596 A JP2021515596 A JP 2021515596A JP 7098830 B2 JP7098830 B2 JP 7098830B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- pixel
- image
- affinity
- pixels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Description
本開示は、画像処理の分野に関連し、詳細には、インスタンスセグメンテーションの分野に関連する。
画像を処理することは、画像上に可視の様々な対象物を検出するために使用される。このため、そのような処理は、自動運転自動車(部分的又は完全自動運転)に対して、及びその他のタイプの自動化システムに対して特に有効であり、これは、これらのシステムが、カメラにより取得される画像に基づいて、それらの周囲を把握できなければならないからである。
インスタンスセグメンテーション方法は、画像上に見える対象物を正確に輪郭描写するために提案された(言い換えれば、異なる対象物は異なるインスタンスと呼ばれる)。
このインスタンスセグメンテーションを行うために、ディープニューラルネットワークなどのニューラルネットワークを用いることが提案された。ディープニューラルネットワークは、目的関数(「損失関数」)の値を最小化するために、トレーニング段階において確率的勾配降下法により調節できるパラメータを持つ機械学習モデルである。トレーニング段階は、ネットワークにラベル付き入力-出力ペア、オペレータにより準備されているインスタンスセグメンテーションを伴う既知の画像、を入力することから成る。ネットワークの特定の構成と実装は、「ネットワークアーキテクチャ」と呼ばれる。
インスタンスセグメンテーションを行うための既知の方法は、以下の不備を有する:複雑な遮蔽(occlusion)を処理できない、軟体形状(蛇、麺、医用画像内の細胞など)を検出することが困難、予期しない分割と結合、トレーニング中の遅い収束、又は長い計算時間。
本開示は、以下を含むインスタンスセグメンテーションを行うように画像を処理するための方法を提案することにより、従来技術の1つ以上の不備を克服する。
方法は、
a-画像の各ピクセルに対して、親和性(affinity)ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力し、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成し、
b-親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップ(seed-map)を第2のニューラルネットワークに入力し、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定することを含む。
a-画像の各ピクセルに対して、親和性(affinity)ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力し、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成し、
b-親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップ(seed-map)を第2のニューラルネットワークに入力し、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定することを含む。
それゆえ、本発明は、第1ステップにおいて、親和性グラフを使用することを提案する。親和性グラフは、当業者に既知のグラフである。典型的には、ノードを有するグラフであり、ノードは、画像のピクセルとそれぞれ関連し、各ノードは隣接するノードと連結するためのエッジを有する。エッジは、エッジにより連結された2つのノードが同一のインスタンスに属するか否かに応じて、第1の値又は第2の値のどちらかに設定される。
親和性グラフは、画像の分解能及び親和性パターンのピクセルの数により決まる深さ(depth)を持つテンソルとして表すことができる。例えば、親和性パターンが1つのピクセルを直接的に取り囲む8つのピクセルにより定義される場合、テンソルの深さは8となる。当業者は、その他のピクセルをピクセルの結合又はエッジと呼ぶことができる。
本発明は、8つのピクセルを含む親和性パターンに限定されず、更なるピクセルを持つより複雑なパターンを含むことができる。
好適には、1つのピクセルの親和性パターンは、そのピクセルに近接する(複数の)ピクセルを含む。
親和性ベクトルにおいて、1つのピクセルの親和性パターンが親和性ベクトルの要素と関連する場合、この要素は第1の値に設定される。
単独で取られた親和性グラフは良好なインスタンスセグメンテーションの結果を提供しないことが本発明者により観測されている。これは、単一の親和性決定誤差が2つのインスタンスの不完全な分割又は結合の原因となり得るという事実による。例として、インスタンスを決定するための可能な代替としての領域成長法、流域アルゴリズム、又はクラスタリングに関連する従来のアルゴリズムは、オーバー又はアンダーセグメンテーションを引き起こす可能性がある。
このため、シードマップを拡張するために、第2のニューラルネットワークと親和性グラフを使用することにより、追加の決定(又は、予測)ステップが実行されて、より正確な結果が得られる。これは、親和性ネットワークの特定の出力とシード伝播プロセスとの間の強力な結合もまた保証する。
第1の値は、「1」と等しくすることができ、第2の値は、「0」と等しくすることができることに注意すべきである。
特定の実施例によれば、方法は、先の反復で変更されたシードマップを使用して、ステップbを反復的に繰り返すことを含む。
当業者は、良好な結果を得るために必要な反復の回数を決定することができ、この決定は、画像の分解能、画像上のインスタンスのサイズ、及び正確性の要望レベルを考慮することができる。例えば、反復の回数は、20の桁にできる。
特定の実施例によれば、ステップbは以下を含む。
-シードマップの各ピクセルに対して、シードマップのピクセルと関連した親和性グラフ内の親和性ベクトル、及び親和性パターン内で事前定義されたピクセルに対する位置におけるシードマップのその他のピクセルの値である要素を持つ第2のベクトルのソフトミニマムベクトルを決定する
-上記ソフトミニマムベクトルの値のソフトマキシマムを決定する
-上記ソフトマキシマムをピクセルの値に設定する。
-シードマップの各ピクセルに対して、シードマップのピクセルと関連した親和性グラフ内の親和性ベクトル、及び親和性パターン内で事前定義されたピクセルに対する位置におけるシードマップのその他のピクセルの値である要素を持つ第2のベクトルのソフトミニマムベクトルを決定する
-上記ソフトミニマムベクトルの値のソフトマキシマムを決定する
-上記ソフトマキシマムをピクセルの値に設定する。
これらのステップは、同一のインスタンスに属しているその他のピクセルの決定及び第1の値での設定と共に、第2のニューラルネットワークへの入力を行う。
このステップbが繰り返される場合、少なくとも、第1の値に設定された値を持つ少なくとも1つのピクセルと関連したインスタンスを輪郭描写するバイナリマスクが得られる。
このステップの実装は、微分可能であり(その微分係数が存在する)、それゆえ、それを通して、損失を逆伝播(back-propagate)することが可能であることに注意すべきである。
同一の親和性パターンが、画像のピクセルに対して、及びシードマップのピクセルに対して使用されることに注意すべきである:このため、上記の第1及び第2のベクトルは同一の長さを有し、これは、それらの要素が同一のピクセル数と関連することによる。
また、シードマップ、画像、及び親和性グラフは同一の分解能を持つことに注意すべきである。
特定の実施例によれば、第1のニューラルネットワークはディープニューラルネットワークであり、第2のニューラルネットワークは再帰型(recurrent)ニューラルネットワークである。
再帰型ニューラルネットワークの使用は、損失の逆伝播をさらに可能にする固定で、非-学習可能(又は、トレーニング可能)な実装を使用することを可能にする。
特定の実施例によれば、事前定義されたシードマップが第1のニューラルネットワークにより生成される。
例として、シードマップは、オブジェクト検出を行い、検出された各オブジェクトに対する境界ボックス(bounding box)座標を出力するニューラルネットワークモジュールにより生成でき、各境界ボックスの中心の座標は、対応するピクセルを第1の値に設定することにより、シードマップ内で使用できる。
あるいは、ユーザは、インタフェースを通して画像上に可視のインスタンスのピクセルを選択でき、同一の座標を持つシードマップのピクセルは、第1の値に設定できる(一方、全てのその他のピクセルは、第2の値に設定できる)。
特定の実施例によれば、本方法は、既知のテンプレート画像を処理し、少なくとも第1のニューラルネットワークを通して損失を逆伝播するように損失を決定することを含む予備のトレーニングステップを含む。
注目すべきは、画像が既知であれば、所定のインスタンスセグメンテーションが準備されている可能性があることである。例えば、この所定のインスタンスセグメンテーションは、オペレータにより準備されている可能性がある。この所定のインスタンスセグメンテーションと上記方法を用いて得られたものとの間で、差異を決定することが可能である。当業者はどの損失関数を使用すべきかを知るであろう。
本発明は、インスタンスセグメンテーションを行うように画像を処理するためのシステムもまた提供し、システムは以下を含む。
画像の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力するためのモジュールであって、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成する、モジュール、及び、
親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワークに入力するためのモジュールであって、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する、モジュール。
画像の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力するためのモジュールであって、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成する、モジュール、及び、
親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワークに入力するためのモジュールであって、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する、モジュール。
このシステムは、上で定義した方法の全てのステップを行うよう構成できる。
1つの特定の実施例において、画像を処理するための本方法のステップは、コンピュータプログラム命令により決定される。
この結果、本発明は、このプログラムがコンピュータにより実行されるとき、上記した方法のステップを実行するためのコンピュータプログラムにも向けられる。
このプログラムは、任意のプログラミング言語を使用することができ、ソースコード、オブジェクトコード、又は部分的にコンパイルされた形式などのソースコードとオブジェクトコードとの間の中間のコード、又は任意のその他の好適な形式をとることができる。
本発明は、上記のコンピュータプログラムの命令を含むコンピュータ読み取り可能情報媒体にもまた向けられる。
情報媒体は、プログラムを格納することができる任意のエンティティ又はデバイスとすることができる。例えば、媒体は、CD-ROM又は超小型電子回路ROMなどのROMのような格納手段、又はディスケット(フロッピーディスク)若しくはハードディスクなどの磁気格納手段を含むことができる。
あるいは、情報媒体は、プログラムが内蔵された集積回路とすることができ、回路は問題になっている方法を実行し、又はその実行において使用されるように適応される。
本開示がどのように実行されるかは、添付の図面を参照した例示により記載されるであろう。
画像を処理するための典型的な方法とシステムが以下に記載される。
画像を処理するための方法が図1に表される。この方法は、車が可視である道路の画像である画像IMGにインスタンスセグメンテーションを行うよう構成される。これらの車は、インスタンスであり、図示された例では、1台の車がINとして参照される。
第1ステップS1において、画像IMGは、画像の各ピクセルに対して、親和性ベクトルを出力するように構成されたディープニューラルネットワークに入力され、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、図1で図示される親和性グラフAFを形成する。
第1の値は「1」と等しくでき、第2の値は「0」と等しくできる。
そして、シードマップSMが準備される。例えば、トレーニングの間、画像IMGと同じ分解能(そして、親和性グラフAFと同じ分解能)を持つバイナリ画像を使用することが可能であり、第2の値に設定された全てのピクセル値と第1の値に設定された少なくとも1つのランダムなピクセルを持つ。
好ましくは、第1の値に設定された値を持つ少なくとも1つのピクセルが、境界から離れるように(事前定義されたしきい値より離れて)選択される。
図示された例において、第1の値に設定された値を持つピクセルは、画像IMG内で車INに対応する位置に配置される。
そして、親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワーク(この例において、固定で、非-学習可能な再帰型ニューラルネットワーク)に入力することにより、第2ステップS2が行われ、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する。
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する。
これは、第1の値に設定されたシードマップ内のピクセルの数を拡張し、少なくとも1つのインスタンスにおいてシードマップをセグメンテーションマスクに変換するであろう。
注目すべきは、例えば、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルが、画像上で、その他のインスタンスに対応する位置に配置された場合、その他のシードマップでステップS2を行うことは、その他のオブジェクトに対するセグメンテーションマスクを取得するという結果になる可能性があることである。
選択的に、ステップS2は、反復ループLPで繰り返される。
バイナリマスクBMは、白で表示された第1の値を持つピクセルと白で表示された第2の値を持つピクセルで取得される。画像IMGの車は、インスタンスIN’としてマスクで輪郭描写される。
ステップS2(図1を参照して記載される)の典型的な実装は、図2に表される。
図2は、シードマップSM’の1ピクセルP10の処理に向けられる。
この図上で、画像IMG’は、親和性グラフを取得するように処理されており、より詳細には、シードマップのピクセルP10と同じ座標を持つ画像IMG’のピクセルP0に対し、親和性ベクトルvect_1が取得される。この親和性ベクトルは、1つのピクセルを囲む8つのピクセルを含む親和性パターンを用いて形成される。ピクセルP0に対して、これらのピクセルは、図上に表され、P1、P2、P3、P4、P5、P6、P7及びP8で参照される。
シードマップSM’から、第2のベクトルvect_2は、vect_1を取得するために使用された親和性パターン内で事前定義されたP10に対する位置において、シードマップのその他のピクセルの値である要素を有する。
vect_2は、シードマップSM’のピクセルP11、P12、P13、P14、P15、P16、P17及びP18の値で取得される。
ベクトルvect_1とvect_2のソフトミニマムは、ステップS21で決定され、ベクトルs_minを提供する。
そして、ベクトルs_minの要素のソフトマキシマムは、ピクセルP10の新たな値である値s_maxを取得するために決定される(ステップS22)。
上記実施例において、ソフトミニマムは、ベクトルの対応する要素の間のソフトミニマムを決定することにより、2つのベクトルvect_1とvect_2に対して決定される。例えば、ソフトミニマムは、ベクトルs_minの要素を取得するために、P1とP11に対して決定され、ソフトミニマムの式は、ベクトルs_minの各要素に対して使用される。
ソフトマキシマムs_maxは、ベクトルs_minの全ての要素の間で決定される。
図3は、より複雑な親和性パターンである。この例において、中心のピクセル(この親和性パターンと関連するピクセル)は、親和性パターンに属し、それゆえ、第1の値に設定された値を有し、これは、ピクセルとそれ自身が同じインスタンスに属するからである。
パターンは、ピクセルの8つの直接的な隣接を更に含み、そして当業者により、3拡張(3-dilated)、8拡張、24拡張及び72拡張の隣接として定義される位置において、パターンの中心を中心とする8つのピクセルのグループを更に含む。
パターン内に1+5×8=41のピクセルがあり、親和性グラフの深さは41である。
画像の端及び画像の外側に延びた親和性パターンを処理するために、ピクセルの画像の外側との親和性を第2の値に設定することに注意すべきである。
図4は、図1を参照して記載されたステップS2が15回繰り返されるプロセスの各反復の後のシードマップの表現である。
第1の行は、本発明の実装に対応する。
第2の行は、親和性グラフが「グラウンドトゥルース(ground-truth)」で置き換えられた実装に対応する。グラウンドトゥルースは、ニューラルネットワークの事前定義された出力を指定し、例えば、オペレータにより準備されたものである。オペレータは、インスタンスセグメンテーションを手動で行い、これにより、完全な親和性グラフを取得できる。
第1の行と第2の行の比較から見て取れるように、本発明は、グラウンドトゥルースに近い結果を提供する。
最後の行は、全ての親和性が第1の値(例えば、「1」)に設定される実装に対応する。これは、全画像への迅速な拡張を導き、受容野(receptive field)の評価を示す。1つのピクセルの位置における受容野、当業者において既知の表現、は、そのピクセルの位置における出力に影響を与える能力を有する画像領域である。図3で示されるようなパターンの制限された結合度(connectivity)(一般的に粗い結合度と呼ばれる)のため、1回の反復における受容野は制限されるが、複数の反復で大きくできる。
図1を参照して記載された方法のステップは、コンピュータ命令により決定することができる。これらの命令は、図5で示されるようなシステムのプロセッサ上で実行できる。
この図において、システム10が表示されている。このシステムは、プロセッサ11、画像を獲得するよう構成された獲得モジュール12、及びメモリ13を含む。
メモリ13は、不揮発性メモリとすることができ、これは、図1を参照して記載された方法を行うため、プロセッサ11により実行できる命令のセット(又は、コンピュータプログラム)INSTを含む。命令のセットINSTは、以下を含む。
-画像の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力するための命令14であって、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成する、命令14、
-親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワークに入力するための命令15であって、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する、命令15。
-画像の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに画像を入力するための命令14であって、ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、画像のその他のピクセルとそれぞれ関連し、各要素の値は、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属することをニューラルネットワークが決定する場合、第1の値に設定され、要素と関連したその他のピクセルが画像のピクセルと同一のインスタンスに属さないことをニューラルネットワークが決定する場合、第1の値と異なる第2の値に設定され、画像の全てのピクセルの親和性ベクトルが、親和性グラフを形成する、命令14、
-親和性グラフ、及び画像の分解能と第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワークに入力するための命令15であって、これにより、
その他のピクセルが、第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
第1の値に設定された値を持つシードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定されたその他のピクセルの値を第1の値に設定する、命令15。
注目すべきは、命令14は、図1を参照して記載されたディープニューラルネットワークを形成し、一方、命令15は、図1を参照して記載された再帰型ニューラルネットワークを形成できることである。
Claims (9)
- インスタンスセグメンテーションを行うように画像を処理するための方法であって、
a-画像(IMG)の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに前記画像を入力する(S1)ステップであって、前記ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、前記画像のその他のピクセルとそれぞれ関連し、各要素の値は、前記要素と関連した前記その他のピクセルが前記画像のピクセルと同一のインスタンスに属することを前記ニューラルネットワークが決定する場合、第1の値に設定され、前記要素と関連した前記その他のピクセルが前記画像のピクセルと同一のインスタンスに属さないことを前記ニューラルネットワークが決定する場合、前記第1の値と異なる第2の値に設定され、前記画像の全てのピクセルの前記親和性ベクトルが、親和性グラフ(AF)を形成する、ステップと、
b-前記親和性グラフ、及び前記画像の分解能と前記第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップ(SM)を第2のニューラルネットワークに入力する(S2)ステップであって、これにより、
その他のピクセルが、前記第1の値に設定された値を持つ前記シードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
前記第1の値に設定された値を持つ前記シードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定された前記その他のピクセルの値を前記第1の値に設定する、ステップと、
を含む、方法。 - 先の反復で変更されたシードマップを用いて、ステップbを反復的に繰り返す(LP)ステップを含む、請求項1に記載の方法。
- ステップbは、
前記シードマップの各ピクセルに対して、前記シードマップのピクセルと関連する前記親和性グラフ内の親和性ベクトル(vect_1)、及び前記親和性パターン内で事前定義されたピクセルに対する位置における前記シードマップのその他のピクセルの値である要素を持つ第2のベクトル(vect_2)のソフトミニマムベクトル(s_min)を決定するステップ(S21)と、
前記ソフトミニマムベクトルの値のソフトマキシマム(s_max)を決定するステップ(S22)と、
前記ピクセルの値を前記ソフトマキシマムに設定するステップと、
を含む、請求項2に記載の方法。 - 前記第1のニューラルネットワークはディープニューラルネットワークであり、前記第2のニューラルネットワークは再帰型ニューラルネットワークである、請求項1~3の何れか一項に記載の方法。
- 事前定義されたシードマップが、前記第1のニューラルネットワークにより生成される、請求項1~4の何れか一項に記載の方法。
- 既知のテンプレート画像を処理するステップ、及び少なくとも前記第1のニューラルネットワークを通して損失を逆伝播するように前記損失を決定するステップを含む予備のトレーニングステップを含む、請求項1~5の何れか一項に記載の方法。
- インスタンスセグメンテーションを行うように画像を処理するためのシステムであって、
画像の各ピクセルに対して、親和性ベクトルを出力するように構成された第1のニューラルネットワークに前記画像を入力するためのモジュール(11、14)であって、前記ベクトルの要素は、親和性パターン内で事前定義されたピクセルに対する位置において、前記画像のその他のピクセルとそれぞれ関連し、各要素の値は、前記要素と関連した前記その他のピクセルが前記画像のピクセルと同一のインスタンスに属することを前記ニューラルネットワークが決定する場合、第1の値に設定され、前記要素と関連した前記その他のピクセルが前記画像のピクセルと同一のインスタンスに属さないことを前記ニューラルネットワークが決定する場合、前記第1の値と異なる第2の値に設定され、前記画像の全てのピクセルの前記親和性ベクトルが、親和性グラフを形成する、モジュール(11、14)と、
前記親和性グラフ、及び前記画像の分解能と前記第1の値に設定された値を持つ少なくとも1つのピクセルを有する事前定義されたシードマップを第2のニューラルネットワークに入力するためのモジュール(11、15)であって、これにより、
その他のピクセルが、前記第1の値に設定された値を持つ前記シードマップの少なくとも1つのピクセルと同一のインスタンスに属するか否かを決定し、
前記第1の値に設定された値を持つ前記シードマップの少なくとも1つのピクセルと同一のインスタンスに属すると決定された前記その他のピクセルの値を前記第1の値に設定する、モジュール(11、15)と、
を含む、システム。 - コンピュータによりプログラムが実行されるとき、請求項1~6の何れか一項に記載の方法のステップを実行するための命令を含むコンピュータプログラム。
- コンピュータにより読み取り可能であり、請求項1~6の何れか一項に記載の方法のステップを実行するための命令を含むコンピュータプログラムを記録した記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2018/075710 WO2020057758A1 (en) | 2018-09-21 | 2018-09-21 | Method and system for processing an image and performing instance segmentation using affinity graphs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022500787A JP2022500787A (ja) | 2022-01-04 |
JP7098830B2 true JP7098830B2 (ja) | 2022-07-11 |
Family
ID=63685971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021515596A Active JP7098830B2 (ja) | 2018-09-21 | 2018-09-21 | 画像を処理し、親和性グラフを用いたインスタンスセグメンテーションを行うための方法とシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11881016B2 (ja) |
JP (1) | JP7098830B2 (ja) |
WO (1) | WO2020057758A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI812888B (zh) * | 2020-10-14 | 2023-08-21 | 財團法人工業技術研究院 | 影像辨識方法及影像辨識系統 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183217A1 (en) | 2007-04-24 | 2010-07-22 | Seung H Sebastian | Method and apparatus for image processing |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8885926B2 (en) * | 2009-04-15 | 2014-11-11 | Massachusetts Institute Of Technology | Image and data segmentation |
US8358823B2 (en) * | 2011-03-30 | 2013-01-22 | Mitsubishi Electric Research Laboratories, Inc. | Method for tracking tumors in bi-plane images |
WO2012143870A1 (en) * | 2011-04-18 | 2012-10-26 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Tonal stabilization of video |
US10311302B2 (en) * | 2015-08-31 | 2019-06-04 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
WO2017205827A1 (en) * | 2016-05-26 | 2017-11-30 | Singular Bio, Inc. | Arrays for single molecule detection and uses thereof |
EP3514757A1 (en) * | 2018-01-18 | 2019-07-24 | Koninklijke Philips N.V. | Spectral matching for assessing image segmentation |
US10984286B2 (en) * | 2018-02-02 | 2021-04-20 | Nvidia Corporation | Domain stylization using a neural network model |
US11292129B2 (en) * | 2018-11-21 | 2022-04-05 | Aivot, Llc | Performance recreation system |
US10970856B2 (en) * | 2018-12-27 | 2021-04-06 | Baidu Usa Llc | Joint learning of geometry and motion with three-dimensional holistic understanding |
US11393088B2 (en) * | 2019-06-27 | 2022-07-19 | Nutech Ventures | Animal detection based on detection and association of parts |
US11458987B2 (en) * | 2020-02-26 | 2022-10-04 | Honda Motor Co., Ltd. | Driver-centric risk assessment: risk object identification via causal inference with intent-aware driving models |
-
2018
- 2018-09-21 US US17/264,164 patent/US11881016B2/en active Active
- 2018-09-21 WO PCT/EP2018/075710 patent/WO2020057758A1/en active Application Filing
- 2018-09-21 JP JP2021515596A patent/JP7098830B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183217A1 (en) | 2007-04-24 | 2010-07-22 | Seung H Sebastian | Method and apparatus for image processing |
Non-Patent Citations (2)
Title |
---|
Jan Funke et al.,Large Scale Image Segmentation with Structured Loss Based Deep Learning for Connectome Reconstruction,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2019年07月,Vol.41, No.7,pp.1669-1680 |
Steffen Wolf et al.,Learned Watershed: End-to-End Learning of Seeded Segmentation,2017 IEEE International Conference on Computer Vision(ICCV),2017年10月29日,pp.2030-2038 |
Also Published As
Publication number | Publication date |
---|---|
US11881016B2 (en) | 2024-01-23 |
JP2022500787A (ja) | 2022-01-04 |
WO2020057758A1 (en) | 2020-03-26 |
US20210287049A1 (en) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3735344B2 (ja) | キャリブレーション装置、キャリブレーション方法、及びキャリブレーション用プログラム | |
CN113409382B (zh) | 车辆损伤区域的测量方法和装置 | |
Li et al. | Automatic crack detection and measurement of concrete structure using convolutional encoder-decoder network | |
JP5448758B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、プログラム及びデータ構造 | |
CN104867137A (zh) | 一种基于改进ransac算法的图像配准方法 | |
KR102119057B1 (ko) | 골절 진단모델의 학습 방법 및 장치 | |
Letscher et al. | Image segmentation using topological persistence | |
CN110866872B (zh) | 一种路面裂缝图片预处理智能选择方法、装置及电子设备 | |
CN111091101A (zh) | 基于一步法的高精度行人检测方法、系统、装置 | |
CN108596032B (zh) | 一种视频中打架行为检测方法、装置、设备及介质 | |
CN114170212A (zh) | 一种基于ct影像中肺小结节假阳检测方法及系统 | |
Bartl et al. | Automatic camera calibration by landmarks on rigid objects | |
CN112102384A (zh) | 一种非刚性医学影像配准方法及系统 | |
JP7098830B2 (ja) | 画像を処理し、親和性グラフを用いたインスタンスセグメンテーションを行うための方法とシステム | |
CN110276801B (zh) | 一种物体定位方法、装置及存储介质 | |
CN111401143A (zh) | 一种行人跟踪系统及方法 | |
CN112097772B (zh) | 机器人及其地图构建方法和装置 | |
Ananth et al. | A geodesic active contour level set method for image segmentation | |
CN105809657A (zh) | 一种角点检测方法和装置 | |
CN115346125B (zh) | 一种基于深度学习的目标检测方法 | |
CN116740145A (zh) | 一种多目标跟踪方法、装置、车辆及存储介质 | |
CN113379770B (zh) | 鼻咽癌mr图像分割网络的构建方法、图像分割方法及装置 | |
CN114241044A (zh) | 回环检测方法、装置、电子设备和计算机可读介质 | |
JP7316771B2 (ja) | 学習装置、パラメータの作成方法、ニューラルネットワーク及びこれを用いた情報処理装置 | |
EP3690706A1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210319 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7098830 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |