JP7277342B2 - 幾何学的先行物を用いる曲線オブジェクトセグメンテーション - Google Patents

幾何学的先行物を用いる曲線オブジェクトセグメンテーション Download PDF

Info

Publication number
JP7277342B2
JP7277342B2 JP2019212351A JP2019212351A JP7277342B2 JP 7277342 B2 JP7277342 B2 JP 7277342B2 JP 2019212351 A JP2019212351 A JP 2019212351A JP 2019212351 A JP2019212351 A JP 2019212351A JP 7277342 B2 JP7277342 B2 JP 7277342B2
Authority
JP
Japan
Prior art keywords
training
image
learnable
segmentation
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019212351A
Other languages
English (en)
Other versions
JP2020098589A (ja
Inventor
ラジャ・バーラ
ヴェンカテーシュワララオ・チェルクリ
ヴィジャイ・クマール・ビー・ジー
Original Assignee
パロ アルト リサーチ センター インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パロ アルト リサーチ センター インコーポレイテッド filed Critical パロ アルト リサーチ センター インコーポレイテッド
Publication of JP2020098589A publication Critical patent/JP2020098589A/ja
Application granted granted Critical
Publication of JP7277342B2 publication Critical patent/JP7277342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/168Segmentation; Edge detection involving transform domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic

Description

本開示は、画像処理、特に画像セグメンテーションを対象とする。
曲線オブジェクトは、自然界の多くの場面において見られ、一般的な例としては、人間の顔のしわ、道路の亀裂、網膜内の血管、及び衛星画像の道路を含む。したがって、曲線オブジェクトの画素単位の自動検出とセグメンテーションは、様々なアプリケーションに影響を与える重要なコンピュータービジョンタスクである。
本明細書に記載される実施形態は、曲線オブジェクトセグメンテーションのための方法を含む。曲線特徴を含む少なくとも1つの入力画像が受信される。少なくとも1つの入力画像は、表現モジュール及びタスクモジュールを有するディープネットワークを使用して、曲線特徴のセグメンテーションマップにマッピングされる。マッピングには、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することが含まれる。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。
実施形態は、曲線オブジェクトセグメンテーションのためのシステムを含む。システムは、プロセッサと、プロセッサによって実行されると、プロセッサに動作を行わせるコンピュータプログラム命令を記憶するメモリとを含む。動作は、曲線特徴を含む少なくとも1つの入力画像を受信することを含む。少なくとも1つの画像は、表現モジュール及びタスクモジュールを有するディープネットワークを使用して曲線特徴のセグメンテーションマップを生成するために、プロセッサを使用してマッピングされる。マッピングには、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することが含まれる。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。
本明細書に記載される実施形態は、曲線オブジェクトセグメンテーションのためのコンピュータプログラム命令を記憶する非一時的コンピュータ可読媒体を含む。コンピュータプログラム命令は、プロセッサによって実行されると、プロセッサに動作を行わせる。動作は、曲線特徴を含む少なくとも1つの入力画像を受信することを含む。少なくとも1つの画像は、表現モジュール及びタスクモジュールを有するディープネットワークを使用して曲線特徴のセグメンテーションマップを生成するために、プロセッサを使用してマッピングされる。マッピングには、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することが含まれる。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。
本明細書に記載される様々な実施形態による、幾何学的先行物を使用する曲線画像セグメンテーションのための方法を示す。 本明細書に記載される様々な実施形態による、幾何学的先行物を使用する曲線画像セグメンテーションのための方法を示す。 本明細書に記載される様々な実施形態による、ノイズ先行物を使用する曲線画像セグメンテーションのための方法を示す。 本明細書に記載される様々な実施形態による、ノイズ先行物を使用する曲線画像セグメンテーションのための方法を示す。 本明細書に記載される実施形態による、曲線セグメンテーションのためのディープラーニングアーキテクチャを示す。 本明細書に記載される実施形態による、例示的な第1の幾何学的訓練画像を示す。 本明細書に記載される実施形態による、例示的な第2の幾何学的訓練画像を示す。 本明細書に記載される実施形態による、学習可能フィルタなしのデータ駆動型訓練を使用したフィルタの可視化を示す。 本明細書に記載される実施形態による、学習可能ではないフィルタの可視化を示す。 本明細書に記載される実施形態による、学習可能フィルタの可視化を示す。 本明細書に記載される実施形態による、実施例1及び2の元の画像を示す。 本明細書に記載される実施形態による、実施例1及び2の元の画像のためのグラウンドトゥルースセグメンテーションマップを示す。 本明細書に記載される実施形態による、異なる技術を使用して、実施例1の結果として得られるセグメンテーションマップを示す。 本明細書に記載される実施形態による、異なる技術を使用して、実施例1の結果として得られるセグメンテーションマップを示す。 本明細書に記載される実施形態による、異なる技術を使用して、実施例8の結果として得られるセグメンテーションマップを示す。 本明細書に記載される実施形態による、異なる技術を使用して、実施例8の結果として得られるセグメンテーションマップを示す。 本明細書に記載される実施形態を実装することができるシステムのブロック図を示す。
画像セグメンテーションとは、類似の画像特性を有する画像の一部をグループ化することを指す。例えば、本明細書に記載される実施形態は、曲線オブジェクトセグメンテーションを伴う。ディープラーニングアーキテクチャは、画像の曲線セグメンテーションに使用することができる。ディープラーニングに伴う重大な課題は、大量の訓練サンプルを取得する必要があることである。画素レベルのオブジェクトセグメンテーションなどのタスクの場合、訓練画像の注釈付けは、根気のいる、時間と費用のかかるタスクである。この問題に取り組む1つの方法は、ドメイン及び/又はタスクに関する事前知識を組み込むことである。この事前情報により、ネットワーク最適化の訓練サンプルへの依存性を効果的に低下させる。本明細書に記載される実施形態は、ニューラルネットワークの初期表現層に導入される正則化のセットを含む。正則化は、多数のスケール及び配向で曲線画像特徴に強く応答するようにフィルタを訓練するために使用され得る。様々な実施形態によれば、正則化は、出力セグメンテーションマップにおけるノイズを抑制するようにフィルタを訓練するために使用される。正則化を介して表される事前情報は、ドメイン及び/又はタスクの制約を捕捉するネットワーク損失関数に追加の項を導入することによって、ネットワーク訓練に直接組み込まれる。
図1Aは、本明細書に記載される実施形態による、曲線オブジェクトセグメンテーションのための方法を示す。図1Aによれば、少なくとも1つの入力画像が受信される(110)。様々な構成によれば、入力画像は、少なくとも1つの曲線特徴を含む。例えば、入力画像には、道路、血管、機械亀裂、皮膚のしわのうちの1つ以上が含まれる場合がある。画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる。様々な実施形態によれば、少なくとも1つの画像は曲線特徴の認識と訓練誤差の減少とのバランスをとるように構成された損失関数の出力を最小化することによってマッピングされる。入力画像は、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して変換される(130)。変換された画像を使用して、セグメンテーションマップを生成する(140)。
様々な実施形態によれば、ディープネットワークを使用して、セグメンテーションマップを生成する。ディープネットワークは、例えば、表現モジュール及びタスクモジュールを含んでもよい。入力画像は、目的の曲線形状を認識するように訓練された学習可能フィルタを使用して、表現モジュールにおいて変換される(130)。タスクモジュールは、表現モジュールから受信した変換された入力画像を使用してセグメンテーションマップを生成するように構成される(140)。様々な構成によれば、表現モジュール及びタスクモジュールは、入力モジュールがタスクモジュールに入る前に表現モジュールにおいて変換されるように、直列に構成される。様々な構成によれば、タスクモジュールは、U-Netディープニューラルネットワークである。
様々な実施態様によれば、学習可能フィルタのうちの少なくとも1つは、ガボールフィルタとして初期化される。ガボールフィルタは、訓練プロセス中に変化して、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成されてもよい。場合によっては、学習可能フィルタのうちの少なくとも1つは、少なくとも1つの学習可能パラメータを有する。例えば、少なくとも1つの学習可能パラメータは、搬送周波数、偏心、向き、及びスケールのうちの1つ以上を含んでもよい。
図1Bは、本明細書に記載される実施形態による、幾何学的制約を有する曲線オブジェクトセグメンテーションネットワークを訓練するためのプロセスを示す。訓練は、以下のように反復処理として進む。ディープ曲線セグメンテーションネットワークは、フィルタ重みのセットを用いて初期化される。曲線特徴を含む入力訓練画像が受信される(150)。入力画像は、推定ネットワークセグメンテーションマップを生成するために、表現ネットワーク及びタスクネットワーク(160)の学習可能な表現フィルタ(155)を介したマッピングを含むディープ曲線セグメンテーションネットワークを介して送信される。
並行して、フィルタリングされたパターンを生成する(157)ために、少なくとも2つの訓練幾何学的パターン画像が生成され(152)、学習可能フィルタを介してマッピングされる(155)。様々な実施形態によれば、第1の訓練幾何学的パターン画像は、第1の向きであり、第2の訓練幾何学的パターン画像は、第1の向きとは異なる第2の向きである。例えば、第1の向きは、第2の向きに直交してもよい。
(160)からの推定セグメンテーションマップ及び訓練入力画像に対応する真のセグメンテーションマップ(162)は、損失計算モジュールに送信され(165)、これにより、真のセグメンテーションマップと推定セグメンテーションマップ間の誤差の測定値が計算される。更に、(157)からのフィルタリングされた幾何学的パターン画像は、向きの保存を確実にするために損失計算モジュールに入力される(165)。損失関数は、セグメンテーション誤差を最小化することと、幾何学的な向きの制約を保持することというネットワークの2つの目標のバランスをとる。幾何学的な制約は、第1の訓練幾何学的パターン画像からの高応答と、第2の訓練幾何学的パターン画像からの低応答とを選ぶことによって保持される。様々な構成によれば、学習可能フィルタは、異なるサイズ及び厚さの曲線構造が検出され得るように、複数の空間スケールで導出される。
損失が収束しているかどうかを判定する(170)。いくつかの実施形態では、損失が前の反復から実質的に低下しなかった場合に、損失が収束したと判定され得る(170)。場合によっては、前の反復からの損失の変化が所定の閾値未満である場合、損失が収束したと判定される。収束が生じたと判定された場合(170)、訓練プロセスは終了する(185)。収束が生じていないと判定された場合(170)、ネットワークパラメータは標準的な逆伝搬技術を介して更新され、次の反復が開始される。少なくとも1つの入力画像が受信される(160)。少なくとも1つの画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる(170)。入力画像は、学習可能フィルタを使用して変換される(180)。変換された画像を使用して、セグメンテーションマップを生成する(190)。
図2Aは、本明細書に記載される実施形態による、曲線オブジェクトセグメンテーションにおけるノイズ抑制のためのプロセスを示す。少なくとも1つの入力画像が受信される(210)。様々な構成によれば、入力画像は、少なくとも1つの曲線特徴を含む。少なくとも1つの画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる。様々な実施形態によれば、少なくとも1つの画像は、訓練画像におけるノイズ抑制と曲線セグメンテーション誤差とのバランスをとるように構成された損失関数の出力を最小化することにより、セグメンテーションマップにマッピングされる。様々な構成によれば、損失関数は、訓練画像及びノイズ正則化項に対応する推定されたセグメンテーションマップと真のセグメンテーションマップとの間の訓練誤差の合計を含む。入力画像は、少なくとも1つの入力画像のドメイン及びタスクのうちの1つ以上におけるノイズを抑制するように構成された学習可能フィルタを使用して、変換される(230)。様々な実施態様によれば、学習可能フィルタのうちの少なくとも1つは、ガボールフィルタとして初期化される。変換された画像を使用して、セグメンテーションマップを生成する(240)。様々な構成によれば、タスクモジュールは、U-Netディープニューラルネットワークである。
様々な実施形態によれば、ディープネットワークを使用して、セグメンテーションマップを生成する。上述のように、ディープネットワークは、表現モジュール及びタスクモジュールを含み得る。入力画像は、ノイズ抑制と曲線セグメンテーションとのバランスをとるように構成された学習可能フィルタを使用して、表現モジュールにおいて変換される(230)。タスクモジュールは、表現モジュールから受信した変換された入力画像を使用してセグメンテーションマップを生成するように構成される(240)。
図2Bは、本明細書に記載される実施形態による、ノイズ制約を有する曲線オブジェクトセグメンテーションネットワークを訓練するためのプロセスを示す。訓練は、以下のように反復処理として進む。ディープ曲線セグメンテーションネットワークは、フィルタ重みのセットを用いて初期化される。曲線特徴を含む訓練画像が受信される(250)。入力画像は、推定ネットワークセグメンテーションマップを生成するために、表現ネットワーク及びタスクネットワーク(260)の学習可能な表現フィルタ(255)を介したマッピングを含むディープ曲線セグメンテーションネットワークを介して送信される。
並行して、フィルタリングされたパターンを生成する(257)ために、少なくとも1つの訓練幾何学的パターン画像が生成され(252)、学習可能フィルタを介してマッピングされる(255)。様々な構成によれば、少なくとも1つの訓練ノイズ画像は、入力画像のドメイン及びタスクに固有のノイズパターンを含む。目的のラベル付き曲線オブジェクトを含まない訓練画像からバックグラウンドパッチを抽出し、曲線構造に応答するフィルタを介して抽出されたバックグラウンドパッチを処理し、及び最も高いフィルタ応答を有する所定数のバックグラウンドパッチを訓練ノイズ画像として選択することにより、1つ以上のノイズ画像が作られる。いくつかの実施形態では、曲線構造に応答するフィルタは、ガボールフィルタとして選択される。
260からの推定セグメンテーションマップ及び訓練入力画像に対応する真のセグメンテーションマップ(262)は、損失計算モジュールに送信され(265)、これにより、真のセグメンテーションマップと推定セグメンテーションマップ間の誤差の測定値が計算される。更に、257からのフィルタリングされたノイズパターン画像は、損失計算モジュールに入力され(265)、推定されたセグメンテーションマップにおけるノイズ測定値を提供する。損失関数は、セグメンテーション誤差を最小化すること、及び推定セグメンテーションマップのノイズを最小化することというネットワークの2つの目標のバランスをとる。
損失が収束しているかどうかを判定する(270)。いくつかの実施形態では、損失が収束したことは、損失が前の反復から実質的に低下しなかった場合であると判定されてもよい(270)。場合によっては、前の反復からの損失の変化が所定の閾値未満である場合、損失が収束していると判定される。収束が生じたと判定された場合(270)、訓練プロセスは終了する(285)。収束が生じていないと判定された場合(270)、ネットワークパラメータは標準的な逆伝搬技術を介して更新され、次の反復が開始される。
曲線特徴を含む少なくとも1つの入力画像が受信される(260)。画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる(270)。入力画像は、ノイズを抑制するように構成された学習可能フィルタを使用して変換される(280)。変換された画像を使用して、セグメンテーションマップを生成する(290)。セグメンテーションマップを生成するために、訓練誤差の減少と曲線形状の認識とのバランスをとるように構成されたフィルタ、及びノイズを抑制するように構成されたフィルタの任意の組み合わせを使用できることを理解されたい。
図3は、本明細書に記載される実施形態による、曲線セグメンテーションのためのディープラーニングアーキテクチャを示す。システムは、表現モジュール310及びタスクモジュール320を含む。画像310は、表現モジュールに入力される。表現モジュールは、1つ以上の幾何学的訓練画像340及び/又は1つ以上のノイズ訓練画像345で訓練された学習可能フィルタ330を使用する。学習可能フィルタ350は、変換された入力画像360を出力する。変換された入力画像360は、タスクモジュール320に入力され、変換された画像は、セグメンテーションマップを生成するように訓練されたタスクモジュールの1つ以上のフィルタ370に入力される。出力セグメンテーションマップ380は、タスクモジュールから出力される。
本明細書に記載されている様々な実施形態によれば、幾何学的先行物が表現ネットワークに導入されて、学習可能フィルタが曲線画像の幾何学的形状に強く応答するように促す。例えば、学習可能フィルタは、曲線特徴と一般的に関連付けられている微細な線に応答するように訓練されてもよい。全体的なシステムは、式1の損失関数を使用して曲線形状に関する訓練誤差のバランスをとるために最適化され得る。
Figure 0007277342000001
ここで、f()はパラメータΘを用いるパラメータを有する表現モジュールを表し、F()は、パラメータΘを有するタスクモジュールを表す。Yは、グラウンドトゥルースセグメンテーションマップであり、L()は訓練サンプル上のネットワーク誤差を表し、L()は、曲線セグメンテーションのタスクに関する事前知識を組み込んだ幾何学的正則化項であり、式2に示される。
Figure 0007277342000002
ここで、ISikは、i番目の向き及びk番目のスケールに沿った強い曲線パターンを含む第1の訓練幾何学的パターン画像を表す(Sikと表記される)。IOikは、ISikに直交する方向のパターンを有する第2の訓練画像を表す。これらの2つの画像の例を図4A及び図4Bに示す。図4Aは、例示的な第1の幾何学的訓練画像を示し、図4Bは、第2の幾何学的訓練画像の例を示す。これらの2つの画像は共に、k番目のスケールでの表現フィルタがSikに沿って配向するように促す。様々な実施形態によれば、画像パターンは、所与のサイズ(例えば22×22)の長方形グリッドを特定の角度iだけ回転させて得られた座標に適用される、所与のスケールkの2次元ガウス関数によって形成される。例示の長方形グリッドは正方形として表されているが、長方形グリッドは正方形ではない場合があることを理解されたい。
式1及び2を使用して、Θパラメータは、ガボールフィルタとして初期化され、ネットワーク訓練プロセス中に進化して、曲線形状LR1を尊重しながら、訓練誤差Lを最小化するバランスのとれた目標を達成する。いくつかの事例において、学習可能フィルタは、訓練プロセス前のガボールフィルタであり、学習プロセス中に変化するように学習可能フィルタが構成され、曲線特徴のターゲットセグメンテーションが提供される。図5Aは、初期段階におけるドメイン及び/又はタスクに関する事前知識を組み込んでいない訓練から学習されたフィルタの可視化を示す。図5Bは、静的ガボールフィルタを示す。図5Cは、本明細書に記載される実施形態による、曲線特徴の認識の訓練後の学習可能フィルタの可視化を示す。本明細書に記載されるような学習可能なガボールフィルタを使用することは、画像内の曲線形状に応答するガボールのような構造を保持する一方で、訓練標本に基づいてガボール構造を調節及び適応させる能力を保持する。
様々な構成によれば、学習可能フィルタは、少なくとも1つの学習可能なパラメータを持つガボールフィルタである。式3は、本明細書に記載される実施形態によるガボールフィルタを表す式を示す。
Figure 0007277342000003
式3において、[i、j]は画像の画素座標であり、γは離心率、fは搬送周波数であり、θは方向、σはスケールである。様々な実施形態によれば、γ、f、θ、及びσのうちの1つ以上は、システムの訓練中に訓練データを使用して学習可能な値である。この実施形態では、損失関数は、訓練サンプル項L()上のデータネットワーク誤差のみを含み、式1における第2の正則化項(LR1)は、式4に示されるように使用されない。
Figure 0007277342000004
様々な実施形態によれば、本明細書に記載されるような学習可能なパラメータを有するフィルタを使用することは、全てのフィルタ重みを学習しなければならない従来の畳み込みニューラルネットワークと比較した場合、訓練可能なパラメータの数が大幅に減少する。訓練パラメータの減少により、従来の方法よりも複雑さが軽減され、訓練要件が減少される。訓練標本に基づいていくつかの重要なパラメータを学習する機能は、静的フィルタ表現よりも優れた適応性と表現力をネットワークに与える。式4は、全ての4つのガボールパラメータに関して平滑であり、微分可能であるため、パラメータは、逆伝播を介して学習され得る。
様々な実施形態によれば、画像セグメンテーションに使用されるネットワークは、スパースな訓練の場合に、ノイズに対してより敏感になり得る。本明細書に記載される実施形態は、データ内のノイズに対するディープセグメンテーションネットワークの堅牢性を改善するように構成される。具体的には、バックグラウンドにフォアグラウンドオブジェクトと同様の特徴を含む場合に発生し得る誤検知の問題に対処する。ドメイン及び/又はタスクに関する事前知識をディープラーニングタスクに組み込むことで、ノイズがある訓練サンプルへのネットワーク最適化の依存性を低下させることができる。本明細書に記載される実施形態は、ノイズに対して堅牢である方法でセグメンテーションを実行するためのシステム及び方法を説明する。
様々な構成によれば、学習可能フィルタを使用して、曲線画像セグメンテーションにおけるノイズを抑制することができる。式5は、曲線画像セグメンテーションにおけるノイズ抑制と訓練誤差とをバランスさせるように構成された損失関数を示す。
Figure 0007277342000005
ここで、f()はパラメータΘを有するパラメータを有する表現モジュールを表し、F()は、パラメータΘを有するタスクモジュールを表す。Yは、グラウンドトゥルースセグメンテーションマップであり、L()は訓練サンプル上のネットワーク誤差を表し、LR2()は、データ内のノイズを抑制しようと試みるノイズ正則化項である。様々な実施形態によれば、LR2は、曲線データセグメンテーションにおけるノイズをモデル化するように構成される。LR2の計算は、式6に示される。
Figure 0007277342000006
ここで、Iは、ドメイン及びタスクに固有のノイズパターンを含む補助訓練画像のセットであり、Wikはθにおけるスケールkのフィルタ重みである。式5のL()項と組み合わされると、表現モジュールは、タスク性能(すなわち、曲線セグメンテーション)とノイズ抑制とのバランスをとる。
本明細書に記載される様々な実施形態によれば、ノイズパターンは、標識された曲線オブジェクトを含まない訓練画像からバックグラウンドパッチを抽出することによって作られる。これらのパッチは、例えばガボールフィルタなどのフィルタを介して送信される。最大の応答を与える所定数のパッチが潜在的なノイズのあるパッチ(つまり、曲線構造と混同される可能性が最も高いパッチ)として選択される。様々な実施態様によれば、ノイズがあるパッチのパッチサイズは64×64に選択され、最大応答が100パッチとなるように選択される。
本明細書に記載される実施形態は、網膜血管セグメンテーションの適用例について実証される。これは、医療専門家がヒト網膜の血管経路における病理を迅速に診断することを可能にする重要な機能である。DRIVE[11](J.Staal,M.D.Abramoff,M.Niemeijer and M.Van Ginneken,「Ridge-Based Vessel Segmentation of the Retina」,IEEE Transactions on Medical Imaging,vol.23,no.4,pp.501-509,2004を参照)、及びSTARE(A.Hoover,V.Kouznetsova and M.Goldbaum,「Locating blood vessels in retinal images by piecewise threshold probing of a matched filter response」,IEEE Transactions on Medical Imaging,vol.19,no.3,pp.203-210,2000を参照)データセットを使用して、本手法を訓練及び評価した。ネットワークアーキテクチャは、以下のとおりである。表現層には、サイズが11×11で、0~180度の方向で均一にサンプリングした12個のガボールフィルタを使用した。タスクネットワークのために、U-Netアーキテクチャを使用した。表現ネットワークは、Adamオプティマイザを活用した標準の確率的勾配降下法を使用して訓練し、学習率は.0005に設定した。サイズ128×128のパッチを訓練画像から抽出し、20個の訓練画像から約7000個のパッチを得た。限定訓練シナリオも評価し、2つの画像から700個のパッチを抽出した。ネットワークの訓練用に64のバッチサイズを使用した。初期検証では、単一スケールのガボール正則化のみをテストした。推論では、ネットワークは、パッチではなく画像全体で使用された。以下の方法は、ガボール正則化、ガボールパラメータ化、及び深層網膜画像理解(DRIU)で評価された。
表1及び表2は、それぞれ、完全訓練及び限定訓練シナリオの結果を示す。結果は、2つのバイナリマップ間のオーバーラップ係数の正規化された尺度である、Dice係数に関して表される。ガボール正則化及びガボールパラメータ化の方法は、両方のシナリオにおいて競合的であり、限定訓練シナリオで大幅なマージンを確保し、最先端のDRIUよりも優れている。限定データセットで訓練された提案されたアプローチは、完全データセットで訓練されたDRIUよりも優れている。
Figure 0007277342000007
Figure 0007277342000008
図6Aは、実施例1の元の入力を示す。望ましい曲線特徴のグラウンドトゥルースマップを図6Bに示す。図7Aは、DRIUを使用した結果セグメンテーションマップを示しており、灰色部分が誤った結果を表し、白色部分が正しい結果を表す。図7Bは、本明細書に記載のガボール正則化システムを使用した結果を示す。図7A及び図7Bからわかるように、DRIUの結果と比較すると、ガボール正則化されたセグメンテーション結果には、より多くの白色とより少ない灰色が存在する。
実施例2は、網膜画像のセグメンテーションにおけるノイズ抑制の結果を示す。正確かつ安定したセグメンテーションは、疾患の正確かつ安定した診断に有用である。ここでも、DRIVE及びSTARE画像データセットを様々な手法の訓練及びテストの両方に使用した。表現層には、サイズが11×11で、0~180度の方向で均一にサンプリングした12個のガボールフィルタを使用した。タスクネットワークでは、セグメンテーションにU netアーキテクチャを使用した。ネットワークは、Adamオプティマイザを活用した標準の確率的勾配降下法を使用して訓練し、学習率は.0005に設定した。サイズ128×128のパッチを訓練画像から抽出した。20個の訓練画像から合計約7000個のパッチを抽出した。限定訓練シナリオでは、2つの画像からのパッチを抽出し、合計で約700個のパッチを抽出した。64個のパッチのバッチサイズを訓練用に使用した。推論では、ネットワークは、パッチではなく画像全体で使用された。
以下の方法は、本明細書及びDRIUに記載されているように、ノイズ正則化曲線セグメンテーションネット(NRCSN)で評価した。表3は、推定セグメンテーションマップとグラウンドトゥルースセグメンテーションマップとの間のオーバーラップの尺度である、Diceオーバーラップ係数を用いたDRIU技術との比較である。提案されたアプローチは、完全訓練のケースの明確なマージンと、低訓練シナリオにおける、より広いマージンによってDRIUよりも優れている。興味深いことに、スパースな訓練を伴う提案されたアプローチは、完全な訓練を伴うDRIUよりも優れている。
Figure 0007277342000009
図6Aは、実施例2の元の入力を示す。望ましい曲線特徴のグラウンドトゥルースマップを図6Bに示す。図8Aは、DRIUを使用した結果セグメンテーションマップを示しており、灰色部分が誤った結果を表し、白色部分が正しい結果を表す。図8Bは、本明細書に記載のNRCSNシステムを使用した結果を示す。図8A及び図8Bからわかるように、DRIUの結果と比較すると、NRCSNセグメンテーション結果には、より多くの白色とより少ない灰色が存在する。
上述の方法は、周知のコンピュータプロセッサ、メモリユニット、記憶デバイス、コンピュータソフトウェア、及び他の構成要素を使用してコンピュータ上に実施することができる。このようなコンピュータの高レベルのブロック図を図9に示す。コンピュータ900は、プロセッサ910を含み、プロセッサ910は、そのような動作を定義するコンピュータプログラム命令を実行することにより、コンピュータ900の全体的な動作を制御する。コンピュータプログラム命令は、記憶デバイス920(例えば、磁気ディスク)内に記憶され、コンピュータプログラム命令の実行が所望されるときにメモリ930にロードされてもよい。したがって、本明細書に記載の方法のステップは、メモリ930に記憶されたコンピュータプログラム命令によって定義され、コンピュータプログラム命令を実行するプロセッサ910によって制御されてもよい。画像取得デバイス940は、コンピュータ900に画像データを入力するためにコンピュータ900に接続されてもよい。様々な構成によれば、画像取得デバイス940は、コンピュータ900上に配置される。場合によっては、画像取得デバイス940及びコンピュータ900は、ネットワークを通じて無線で通信する。様々な実施態様によれば、コンピュータ900は、画像取得デバイス940から遠隔に位置してもよく、コンピュータ900は、サーバ又はクラウドベースのサービスの一部として方法ステップを実行してもよい。コンピュータ900は、ネットワークを介して他のデバイスと通信するための1つ以上のネットワークインターフェース950を含んでもよい。コンピュータ900はまた、コンピュータ900とのユーザインタラクションを可能にする他の入力/出力デバイス960(例えば、ディスプレイ、キーボード、マウス、スピーカ、ボタンなど)を含む。このような入力/出力デバイス960は、画像取得デバイス900から受信したボリュームに注釈を付ける注釈ツールとしてコンピュータプログラムのセットと組み合わせて使用されてもよい。様々な実施形態によれば、図9は、例示目的のためのコンピュータの可能な構成要素の高レベル表現であり、コンピュータは他の構成要素を含むことができる。
別途記載のない限り、本明細書及び特許請求の範囲で使用される特徴のサイズ、量、及び物理的特性を表す全ての数字は、用語「約」によって修飾されるものとして理解されるべきである。したがって、反対に指示されない限り、前述の明細書及び添付の特許請求の範囲に記載される数値パラメータは、本明細書に開示される教示を利用して当業者が得ようとする所望の特性に応じて変化し得る近似値である。端点による数値範囲の使用は、その範囲内の全ての数を含む(例えば、1~5は、1、1.5、2、2.75、3、3.80、4及び5を含む)、及びその範囲内の任意の範囲を含む。
上述の様々な実施形態は、相互作用して特定の結果を提供する回路及び/又はソフトウェアモジュールを使用して実装されてもよい。コンピューティング技術の当業者は、当該技術分野において一般的に知られている知識を使用して、モジュールレベル又は全体でのいずれかで、記載された機能を容易に実施することができる。例えば、本明細書に示されるフローチャートは、プロセッサによる実行のためのコンピュータ可読命令/コードを作成するために使用されてもよい。このような命令は、当技術分野で知られているように、コンピュータ可読媒体に記憶され、実行のためにプロセッサに転送されてもよい。上記の構造及び手順は、上記のインクジェット排出器の診断を容易にするために使用することができる実施形態の代表的な例に過ぎない。

Claims (22)

  1. 曲線オブジェクトセグメンテーションのための方法であって、
    曲線特徴を含む少なくとも1つの入力画像を受信することと、
    プロセッサを使用して、前記少なくとも1つの画像を、パラメータΘ R を用いるパラメータを有する表現モジュールf()、及びパラメータΘ T を有するタスクモジュールF()を有するディープネットワークを使用して、前記曲線特徴のセグメンテーションマップにマッピングすることと、を含み、前記マッピングが、
    グラウンドトゥルースセグメンテーションマップY g と、前記表現モジュールf()の出力を入力とする前記タスクモジュールF()の出力とのネットワーク誤差を用いた損失関数
    Figure 0007277342000010
    に基づいて、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
    前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、方法。
  2. 前記入力画像が、道路、血管、機械亀裂、及び皮膚のしわのうちの1つ以上を含む、請求項1に記載の方法。
  3. 前記マッピングが、損失関数を最小化することを含む訓練プロセスによって導出され、前記損失関数が、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成されている、請求項1に記載の方法。
  4. 前記損失関数が、訓練誤差と曲線セグメンテーションのタスクに関する事前知識を組み込んだ幾何学的正則化項との合計を含む、請求項3に記載の方法。
  5. 前記学習可能フィルタのうちの少なくとも1つが、ガボールフィルタとして初期化される、請求項3に記載の方法。
  6. 前記ガボールフィルタが、訓練プロセス中に変化して、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成されている、請求項5に記載の方法。
  7. 前記少なくとも1つの学習可能フィルタが、少なくとも1つの学習可能なパラメータを有する、請求項3に記載の方法。
  8. 前記少なくとも1つの学習可能パラメータが、搬送周波数、偏心、向き、及びスケールのうちの1つ以上を含む、請求項7に記載の方法。
  9. 少なくとも1つの訓練幾何学的パターン画像を用いて前記学習可能フィルタを訓練することを更に含む、請求項3に記載の方法。
  10. 前記少なくとも1つの訓練幾何学的パターン画像が、第1の訓練幾何学的パターン画像及び第2の訓練幾何学的パターン画像のうちの少なくとも1つを含み、前記第1の訓練幾何学的パターン画像が第1の向きのパターンを有し、前記第2の訓練幾何学的パターン画像が第2の向きのパターンを有し、前記第1の向きが前記第2の向きとは異なる、請求項9に記載の方法。
  11. 前記第1の向きが、前記第2の向きに直交する、請求項10に記載の方法。
  12. 前記少なくとも1つの学習可能フィルタが、前記第1の訓練幾何学的パターン画像に対する高応答と、前記第2の訓練幾何学的パターン画像に対する低応答とを生成するように構成されている、請求項10に記載の方法。
  13. 前記学習可能フィルタが、複数の空間スケールで導出される、請求項3に記載の方法。
  14. 前記タスクモジュールが、U-Netディープニューラルネットワークである、請求項1に記載の方法。
  15. 曲線オブジェクトセグメンテーションのためのシステムであって、
    プロセッサと、
    コンピュータプログラム命令を記憶するメモリと、を含み、前記コンピュータプログラム命令が、前記プロセッサによって実行されると、前記プロセッサに、
    曲線特徴を含む少なくとも1つの入力画像を受信することと、
    パラメータΘ R を用いるパラメータを有する表現モジュールf()、及びパラメータΘ T を有するタスクモジュールF()を有するディープネットワークを使用して、前記曲線特徴のセグメンテーションマップを生成するために、プロセッサを使用して前記少なくとも1つの画像をマッピングすることと、を含む動作を行わせ、前記マッピングが、
    グラウンドトゥルースセグメンテーションマップY g と、前記表現モジュールf()の出力を入力とする前記タスクモジュールF()の出力とのネットワーク誤差を用いた損失関数
    Figure 0007277342000011
    に基づいて、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
    前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、システム。
  16. 訓練画像の第1のセット及び訓練画像の第2のセットを用いて前記学習可能フィルタを訓練することを更に含み、前記訓練画像の第1のセットが、第1の向きのパターンを有し、前記訓練画像の第2のセットが、第2の向きのパターンを有し、前記第1の向きが、前記第2の向きとは異なる、請求項15に記載のシステム。
  17. 前記少なくとも1つの学習可能フィルタが、前記訓練画像の第1のセットに対する高応答と、前記訓練画像の第2のセットに対する低応答とを生成するように構成されている、請求項16に記載の方法。
  18. 前記プロセッサが、損失関数を最小化するように構成され、前記損失関数が、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成されている、請求項15に記載のシステム。
  19. 前記損失関数が、訓練誤差と曲線セグメンテーションのタスクに関する事前知識を組み込んだ幾何学的正則化項との合計を含む、請求項18に記載のシステム。
  20. 前記学習可能フィルタのうちの少なくとも1つが、ガボールフィルタとして初期化される、請求項18に記載の方法。
  21. 前記少なくとも1つの学習可能フィルタが、少なくとも1つの学習可能なパラメータを有する、請求項18に記載の方法。
  22. 曲線オブジェクトセグメンテーションのためのコンピュータプログラム命令を記憶する非一時的コンピュータ可読媒体であって、前記コンピュータプログラム命令が、プロセッサによって実行されると、前記プロセッサに、
    曲線特徴を含む少なくとも1つの入力画像を受信することと、
    パラメータΘ R を用いるパラメータを有する表現モジュールf()、及びパラメータΘ T を有するタスクモジュールF()を有するディープネットワークを使用して、前記曲線特徴のセグメンテーションマップを生成するために、プロセッサを使用して前記少なくとも1つの画像をマッピングすることと、を含む動作を行わせ、前記マッピングが、
    グラウンドトゥルースセグメンテーションマップY g と、前記表現モジュールf()の出力を入力とする前記タスクモジュールF()の出力とのネットワーク誤差を用いた損失関数
    Figure 0007277342000012
    に基づいて、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
    前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、非一時的コンピュータ可読媒体。
JP2019212351A 2018-12-18 2019-11-25 幾何学的先行物を用いる曲線オブジェクトセグメンテーション Active JP7277342B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/223,519 US10832413B2 (en) 2018-12-18 2018-12-18 Curvilinear object segmentation with geometric priors
US16/223,519 2018-12-18

Publications (2)

Publication Number Publication Date
JP2020098589A JP2020098589A (ja) 2020-06-25
JP7277342B2 true JP7277342B2 (ja) 2023-05-18

Family

ID=68917734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019212351A Active JP7277342B2 (ja) 2018-12-18 2019-11-25 幾何学的先行物を用いる曲線オブジェクトセグメンテーション

Country Status (3)

Country Link
US (1) US10832413B2 (ja)
EP (1) EP3671634B1 (ja)
JP (1) JP7277342B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257622B (zh) * 2020-10-28 2022-08-16 汕头大学 基于遗传算法和u型神经网络的道路裂缝分割的方法
CN112508827B (zh) * 2020-11-06 2022-04-22 中南大学湘雅医院 一种基于深度学习的融合多场景的危及器官的分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861844B2 (en) * 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US8737728B2 (en) * 2011-09-30 2014-05-27 Ebay Inc. Complementary item recommendations using image feature data
US9454713B2 (en) * 2014-12-30 2016-09-27 Ebay Inc. Similar item detection
US10762425B2 (en) * 2017-09-26 2020-09-01 Nvidia Corporation Learning affinity via a spatial propagation neural network
CN109345538B (zh) * 2018-08-30 2021-08-10 华南理工大学 一种基于卷积神经网络的视网膜血管分割方法
US10782136B2 (en) * 2018-09-28 2020-09-22 Zoox, Inc. Modifying map elements associated with map data
CN109816661B (zh) * 2019-03-22 2022-07-01 电子科技大学 一种基于深度学习的牙齿ct图像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nicola Strisciuglio et al.,Supervised vessel delineation in retinal fundus images with the automatic selection of B-COSFIRE filters,Machine Vision and Applications,Vol.27, no.8,米国,Springer,2016年06月24日,p.1137-p.1149,https://link.springer.com/article/10.1007/s00138-016-0781-7

Also Published As

Publication number Publication date
US10832413B2 (en) 2020-11-10
JP2020098589A (ja) 2020-06-25
EP3671634A1 (en) 2020-06-24
EP3671634B1 (en) 2022-02-09
US20200193605A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
CN111598881B (zh) 基于变分自编码器的图像异常检测方法
Hermosilla et al. Total denoising: Unsupervised learning of 3D point cloud cleaning
Elangovan et al. Glaucoma assessment from color fundus images using convolutional neural network
JP7277341B2 (ja) ノイズ先行物を用いる曲線オブジェクトセグメンテーション
CN110097130A (zh) 分类任务模型的训练方法、装置、设备及存储介质
Shaw et al. MRI k-space motion artefact augmentation: model robustness and task-specific uncertainty
CN106462963B (zh) 用于自适应放射治疗中自动勾画轮廓的系统和方法
KR20210048523A (ko) 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 기억 매체
CN110222700A (zh) 基于多尺度特征与宽度学习的sar图像识别方法及装置
JP7277342B2 (ja) 幾何学的先行物を用いる曲線オブジェクトセグメンテーション
CN109064478B (zh) 一种基于极限学习机的天文图像轮廓提取方法
CN111626379B (zh) 肺炎x光图像检测方法
CN111680755A (zh) 医学图像识别模型构建及医学图像识别方法、装置、介质及终端
CN107862680A (zh) 一种基于相关滤波器的目标跟踪优化方法
CN113298742A (zh) 基于图像配准的多模态视网膜图像融合方法及系统
CN110634119B (zh) 分割磁敏感加权图像中静脉血管的方法、装置和计算设备
Zhang et al. Retinal vessel segmentation using Gabor filter and textons
CN110909819A (zh) 基于时域的电磁信息泄漏检测方法、终端设备及存储介质
CN113361494B (zh) 基于人脸识别的自助服务方法及自助服务系统
CN115424093A (zh) 一种识别眼底图像中细胞的方法及装置
CN110570417B (zh) 肺结节分类装置及图像处理设备
Domingos et al. Local phase-based fast ray features for automatic left ventricle apical view detection in 3D echocardiography
CN115578753B (zh) 人体关键点检测方法、装置、电子设备及存储介质
CN116109841B (zh) 一种基于动态语义向量的零样本目标检测方法及装置
CN110503015B (zh) 一种基于局部结构保持类子字典学习的目标识别方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191129

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221125

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7277342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150