JP7277341B2

JP7277341B2 - ノイズ先行物を用いる曲線オブジェクトセグメンテーション

Info

Publication number: JP7277341B2
Application number: JP2019212324A
Authority: JP
Inventors: ラジャ・バーラ; ヴェンカテーシュワララオ・チェルクリ; ヴィジャイ・クマール・ビー・ジー
Original assignee: パロアルトリサーチセンターインコーポレイテッド
Priority date: 2018-12-18
Filing date: 2019-11-25
Publication date: 2023-05-18
Anticipated expiration: 2039-11-25
Also published as: EP3671635A1; US10885635B2; EP3671635B1; JP2020098588A; US20200193610A1

Description

本開示は、画像処理、特に画像セグメンテーションを対象とする。

曲線オブジェクトは、自然界の多くの場面において見られ、一般的な例としては、人間の顔のしわ、道路の亀裂、網膜内の血管、及び衛星画像の道路を含む。したがって、曲線オブジェクトの画素単位の自動検出とセグメンテーションは、様々なアプリケーションに影響を与える重要なコンピュータービジョンタスクである。

本明細書に記載される実施形態は、曲線オブジェクトセグメンテーションのための方法を含む。曲線特徴を含む少なくとも１つの入力画像が受信される。少なくとも１つの画像は、表現モジュールとタスクモジュールを有するディープネットワークを使用してセグメンテーションマップを出力するために、プロセッサを使用してマッピングされ。マッピングは、少なくとも１つの入力画像のドメイン及びタスクのうちの１つ以上のノイズを抑制するように訓練された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することを含む。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。

曲線オブジェクトセグメンテーションのためのシステムは、プロセッサと、プロセッサによって実行されるとプロセッサに動作を行わせるコンピュータプログラム命令を記憶するメモリとを含む。動作は、曲線特徴を含む少なくとも１つの入力画像を受信することと、表現モジュール及びタスクモジュールを有するディープネットワークを使用してセグメンテーションマップを出力するために、プロセッサを使用して少なくとも１つの画像をマッピングすることと、を含む。マッピングは、１つ以上のドメイン及び少なくとも１つの入力画像のタスクのノイズを抑制するように訓練された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することを含む。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。

非一時的コンピュータ可読媒体は、曲線オブジェクトセグメンテーションのためのコンピュータプログラム命令を記憶することを含み、コンピュータプログラム命令は、プロセッサによって実行されると、プロセッサに動作を行わせる。動作は、曲線特徴を含む少なくとも１つの入力画像を受信し、表現モジュール及びタスクモジュールを有するディープネットワークを使用してセグメンテーションマップを出力するために、プロセッサを使用して少なくとも１つの画像をマッピングすることを含む。マッピングは、１つ以上のドメイン及び少なくとも１つの入力画像のタスクのノイズを抑制するように訓練された学習可能フィルタを使用して、表現モジュールにおいて入力画像を変換することを含む。セグメンテーションマップは、タスクモジュールにおいて変換された入力画像を使用して生成される。

本明細書に記載される様々な実施形態による、幾何学的先行物を使用する曲線画像セグメンテーションのための方法を示す。本明細書に記載される様々な実施形態による、幾何学的先行物を使用する曲線画像セグメンテーションのための方法を示す。本明細書に記載される様々な実施形態による、ノイズ先行物を使用する曲線画像セグメンテーションのための方法を示す。本明細書に記載される様々な実施形態による、ノイズ先行物を使用する曲線画像セグメンテーションのための方法を示す。本明細書に記載される実施形態による、曲線セグメンテーションのためのディープラーニングアーキテクチャを示す。本明細書に記載される実施形態による、例示的な第１の幾何学的訓練画像を示す。本明細書に記載される実施形態による、例示的な第２の幾何学的訓練画像を示す。本明細書に記載される実施形態による、学習可能フィルタなしのデータ駆動型訓練を使用したフィルタの可視化を示す。本明細書に記載される実施形態による、学習可能ではないフィルタの可視化を示す。本明細書に記載される実施形態による、学習可能フィルタの可視化を示す。本明細書に記載される実施形態による、実施例１及び２の元の画像を示す。本明細書に記載される実施形態による、実施例１及び２の元の画像のためのグラウンドトゥルースセグメンテーションマップを示す。本明細書に記載される実施形態による、異なる技術を使用して、実施例１の結果として得られるセグメンテーションマップを示す。本明細書に記載される実施形態による、異なる技術を使用して、実施例１の結果として得られるセグメンテーションマップを示す。本明細書に記載される実施形態による、異なる技術を使用して、実施例８の結果として得られるセグメンテーションマップを示す。本明細書に記載される実施形態による、異なる技術を使用して、実施例８の結果として得られるセグメンテーションマップを示す。本明細書に記載される実施形態を実装することができるシステムのブロック図を示す。

画像セグメンテーションとは、類似の画像特性を有する画像の一部をグループ化することを指す。例えば、本明細書に記載される実施形態は、曲線オブジェクトセグメンテーションを伴う。ディープラーニングアーキテクチャは、画像の曲線セグメンテーションに使用することができる。ディープラーニングに伴う重大な課題は、大量の訓練サンプルを取得する必要があることである。画素レベルのオブジェクトセグメンテーションなどのタスクの場合、訓練画像の注釈付けは、根気のいる、時間と費用のかかるタスクである。この問題に取り組む１つの方法は、ドメイン及び／又はタスクに関する事前知識を組み込むことである。この事前情報により、ネットワーク最適化の訓練サンプルへの依存性を効果的に低下させる。本明細書に記載される実施形態は、ニューラルネットワークの初期表現層に導入される正則化のセットを含む。正則化は、多数のスケール及び配向で曲線画像特徴に強く応答するようにフィルタを訓練するために使用され得る。様々な実施形態によれば、正則化は、出力セグメンテーションマップにおけるノイズを抑制するようにフィルタを訓練するために使用される。正則化を介して表される事前情報は、ドメイン及び／又はタスクの制約を捕捉するネットワーク損失関数に追加の項を導入することによって、ネットワーク訓練に直接組み込まれる。

図１Ａは、本明細書に記載される実施形態による、曲線オブジェクトセグメンテーションのための方法を示す。図１Ａによれば、少なくとも１つの入力画像が受信される（１１０）。様々な構成によれば、入力画像は、少なくとも１つの曲線特徴を含む。例えば、入力画像には、道路、血管、機械亀裂、皮膚のしわのうちの１つ以上が含まれる場合がある。画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる。様々な実施形態によれば、少なくとも１つの画像は曲線特徴の認識と訓練誤差の減少とのバランスをとるように構成された損失関数の出力を最小化することによってマッピングされる。入力画像は、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成された学習可能フィルタを使用して変換される（１３０）。変換された画像を使用して、セグメンテーションマップを生成する（１４０）。

様々な実施形態によれば、ディープネットワークを使用して、セグメンテーションマップを生成する。ディープネットワークは、例えば、表現モジュール及びタスクモジュールを含んでもよい。入力画像は、目的の曲線形状を認識するように訓練された学習可能フィルタを使用して、表現モジュールにおいて変換される（１３０）。タスクモジュールは、表現モジュールから受信した変換された入力画像を使用してセグメンテーションマップを生成するように構成される（１４０）。様々な構成によれば、表現モジュール及びタスクモジュールは、入力モジュールがタスクモジュールに入る前に表現モジュールにおいて変換されるように、直列に構成される。様々な構成によれば、タスクモジュールは、Ｕ－Ｎｅｔディープニューラルネットワークである。

様々な実施態様によれば、学習可能フィルタのうちの少なくとも１つは、ガボールフィルタとして初期化される。ガボールフィルタは、訓練プロセス中に変化して、曲線形状の認識と訓練誤差の減少とのバランスをとるように構成されてもよい。場合によっては、学習可能フィルタのうちの少なくとも１つは、少なくとも１つの学習可能パラメータを有する。例えば、少なくとも１つの学習可能パラメータは、搬送周波数、偏心、向き、及びスケールのうちの１つ以上を含んでもよい。

図１Ｂは、本明細書に記載される実施形態による、幾何学的制約を有する曲線オブジェクトセグメンテーションネットワークを訓練するためのプロセスを示す。訓練は、以下のように反復処理として進む。ディープ曲線セグメンテーションネットワークは、フィルタ重みのセットを用いて初期化される。曲線特徴を含む入力訓練画像が受信される（１５０）。入力画像は、推定ネットワークセグメンテーションマップを生成するために、表現ネットワーク及びタスクネットワーク（１６０）の学習可能な表現フィルタ（１５５）を介したマッピングを含むディープ曲線セグメンテーションネットワークを介して送信される。

並行して、フィルタリングされたパターンを生成する（１５７）ために、少なくとも２つの訓練幾何学的パターン画像が生成され（１５２）、学習可能フィルタを介してマッピングされる（１５５）。様々な実施形態によれば、第１の訓練幾何学的パターン画像は、第１の向きであり、第２の訓練幾何学的パターン画像は、第１の向きとは異なる第２の向きである。例えば、第１の向きは、第２の向きに直交してもよい。

（１６０）からの推定セグメンテーションマップ及び訓練入力画像に対応する真のセグメンテーションマップ（１６２）は、損失計算モジュールに送信され（１６５）、これにより、真のセグメンテーションマップと推定セグメンテーションマップ間の誤差の測定値が計算される。更に、（１５７）からのフィルタリングされた幾何学的パターン画像は、向きの保存を確実にするために損失計算モジュールに入力される（１６５）。損失関数は、セグメンテーション誤差を最小化することと、幾何学的な向きの制約を保持することというネットワークの２つの目標のバランスをとる。幾何学的な制約は、第１の訓練幾何学的パターン画像からの高応答と、第２の訓練幾何学的パターン画像からの低応答とを選ぶことによって保持される。様々な構成によれば、学習可能フィルタは、異なるサイズ及び厚さの曲線構造が検出され得るように、複数の空間スケールで導出される。

損失が収束しているかどうかを判定する（１７０）。いくつかの実施形態では、損失が前の反復から実質的に低下しなかった場合に、損失が収束したと判定され得る（１７０）。場合によっては、前の反復からの損失の変化が所定の閾値未満である場合、損失が収束したと判定される。収束が生じたと判定された場合（１７０）、訓練プロセスは終了する（１８５）。収束が生じていないと判定された場合（１７０）、ネットワークパラメータは標準的な逆伝搬技術を介して更新され、次の反復が開始される。少なくとも１つの入力画像が受信される（１６０）。少なくとも１つの画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる（１７０）。入力画像は、学習可能フィルタを使用して変換される（１８０）。変換された画像を使用して、セグメンテーションマップを生成する（１９０）。

図２Ａは、本明細書に記載される実施形態による、曲線オブジェクトセグメンテーションにおけるノイズ抑制のためのプロセスを示す。少なくとも１つの入力画像が受信される（２１０）。様々な構成によれば、入力画像は、少なくとも１つの曲線特徴を含む。少なくとも１つの画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる。様々な実施形態によれば、少なくとも１つの画像は、訓練画像におけるノイズ抑制と曲線セグメンテーション誤差とのバランスをとるように構成された損失関数の出力を最小化することにより、セグメンテーションマップにマッピングされる。様々な構成によれば、損失関数は、訓練画像及びノイズ正則化項に対応する推定されたセグメンテーションマップと真のセグメンテーションマップとの間の訓練誤差の合計を含む。入力画像は、少なくとも１つの入力画像のドメイン及びタスクのうちの１つ以上におけるノイズを抑制するように構成された学習可能フィルタを使用して、変換される（２３０）。様々な実施態様によれば、学習可能フィルタのうちの少なくとも１つは、ガボールフィルタとして初期化される。変換された画像を使用して、セグメンテーションマップを生成する（２４０）。様々な構成によれば、タスクモジュールは、Ｕ－Ｎｅｔディープニューラルネットワークである。

様々な実施形態によれば、ディープネットワークを使用して、セグメンテーションマップを生成する。上述のように、ディープネットワークは、表現モジュール及びタスクモジュールを含み得る。入力画像は、ノイズ抑制と曲線セグメンテーションとのバランスをとるように構成された学習可能フィルタを使用して、表現モジュールにおいて変換される（２３０）。タスクモジュールは、表現モジュールから受信した変換された入力画像を使用してセグメンテーションマップを生成するように構成される（２４０）。

図２Ｂは、本明細書に記載される実施形態による、ノイズ制約を有する曲線オブジェクトセグメンテーションネットワークを訓練するためのプロセスを示す。訓練は、以下のように反復処理として進む。ディープ曲線セグメンテーションネットワークは、フィルタ重みのセットを用いて初期化される。曲線特徴を含む訓練画像が受信される（２５０）。入力画像は、推定ネットワークセグメンテーションマップを生成するために、表現ネットワーク及びタスクネットワーク（２６０）の学習可能な表現フィルタ（２５５）を介したマッピングを含むディープ曲線セグメンテーションネットワークを介して送信される。

並行して、フィルタリングされたパターンを生成する（２５７）ために、少なくとも１つの訓練幾何学的パターン画像が生成され（２５２）、学習可能フィルタを介してマッピングされる（２５５）。様々な構成によれば、少なくとも１つの訓練ノイズ画像は、入力画像のドメイン及びタスクに固有のノイズパターンを含む。目的のラベル付き曲線オブジェクトを含まない訓練画像からバックグラウンドパッチを抽出し、曲線構造に応答するフィルタを介して抽出されたバックグラウンドパッチを処理し、及び最も高いフィルタ応答を有する所定数のバックグラウンドパッチを訓練ノイズ画像として選択することにより、１つ以上のノイズ画像が作られる。いくつかの実施形態では、曲線構造に応答するフィルタは、ガボールフィルタとして選択される。

（２６０）からの推定セグメンテーションマップ及び訓練入力画像に対応する真のセグメンテーションマップ（２６２）は、損失計算モジュールに送信され（２６５）、これにより、真のセグメンテーションマップと推定セグメンテーションマップ間の誤差の測定値が計算される。更に、（２５７）からのフィルタリングされたノイズパターン画像は、損失計算モジュールに入力され（２６５）、推定されたセグメンテーションマップにおけるノイズ測定値を提供する。損失関数は、セグメンテーション誤差を最小化すること、及び推定セグメンテーションマップのノイズを最小化することというネットワークの２つの目標のバランスをとる。

損失が収束しているかどうかを判定する（２７０）。いくつかの実施形態では、損失が収束したことは、損失が前の反復から実質的に低下しなかった場合であると判定されてもよい（２７０）。場合によっては、前の反復からの損失の変化が所定の閾値未満である場合、損失が収束していると判定される。収束が生じたと判定された場合（２７０）、訓練プロセスは終了する（２８５）。収束が生じていないと判定された場合（２７０）、ネットワークパラメータは標準的な逆伝搬技術を介して更新され、次の反復が開始される。

曲線特徴を含む少なくとも１つの入力画像が受信される（２６０）。画像は、プロセッサを使用して曲線特徴のセグメンテーションマップにマッピングされる（２７０）。入力画像は、ノイズを抑制するように構成された学習可能フィルタを使用して変換される（２８０）。変換された画像を使用して、セグメンテーションマップを生成する（２９０）。セグメンテーションマップを生成するために、訓練誤差の減少と曲線形状の認識とのバランスをとるように構成されたフィルタ、及びノイズを抑制するように構成されたフィルタの任意の組み合わせを使用できることを理解されたい。

図３は、本明細書に記載される実施形態による、曲線セグメンテーションのためのディープラーニングアーキテクチャを示す。システムは、表現モジュール３１０及びタスクモジュール３２０を含む。画像３１０は、表現モジュールに入力される。表現モジュールは、１つ以上の幾何学的訓練画像３４０及び／又は１つ以上のノイズ訓練画像３４５で訓練された学習可能フィルタ３３０を使用する。学習可能フィルタ３５０は、変換された入力画像３６０を出力する。変換された入力画像３６０は、タスクモジュール３２０に入力され、変換された画像は、セグメンテーションマップを生成するように訓練されたタスクモジュールの１つ以上のフィルタ３７０に入力される。出力セグメンテーションマップ３８０は、タスクモジュールから出力される。

本明細書に記載されている様々な実施形態によれば、幾何学的先行物が表現ネットワークに導入されて、学習可能フィルタが曲線画像の幾何学的形状に強く応答するように促す。例えば、学習可能フィルタは、曲線特徴と一般的に関連付けられている微細な線に応答するように訓練されてもよい。全体的なシステムは、式１の損失関数を使用して曲線形状に関する訓練誤差のバランスをとるために最適化され得る。

ここで、ｆ（）はパラメータΘ_Ｒを用いるパラメータを有する表現モジュールを表し、Ｆ（）は、パラメータΘ_Ｔを有するタスクモジュールを表す。Ｙ_ｇは、グラウンドトゥルースセグメンテーションマップであり、Ｌ（）は訓練サンプル上のネットワーク誤差を表し、Ｌ_Ｒ（）は、曲線セグメンテーションのタスクに関する事前知識を組み込んだ幾何学的正則化項であり、式２に示される。

ここで、Ｉ_Ｓｉｋは、ｉ番目の向き及びｋ番目のスケールに沿った強い曲線パターンを含む第１の訓練幾何学的パターン画像を表す（Ｓ_ｉｋと表記される）。Ｉ_Ｏｉｋは、Ｉ_Ｓｉｋに直交する方向のパターンを有する第２の訓練画像を表す。これらの２つの画像の例を図４Ａ及び図４Ｂに示す。図４Ａは、例示的な第１の幾何学的訓練画像を示し、図４Ｂは、第２の幾何学的訓練画像の例を示す。これらの２つの画像は共に、ｋ番目のスケールでの表現フィルタがＳ_ｉｋに沿って配向するように促す。様々な実施形態によれば、画像パターンは、所与のサイズ（例えば２２×２２）の長方形グリッドを特定の角度ｉだけ回転させて得られた座標に適用される、所与のスケールｋの２次元ガウス関数によって形成される。例示の長方形グリッドは正方形として表されているが、長方形グリッドは正方形ではない場合があることを理解されたい。

式１及び２を使用して、Θ_Ｒパラメータは、ガボールフィルタとして初期化され、ネットワーク訓練プロセス中に進化して、曲線形状Ｌ_Ｒ１を尊重しながら、訓練誤差Ｌを最小化するバランスのとれた目標を達成する。いくつかの事例において、学習可能フィルタは、訓練プロセス前のガボールフィルタであり、学習プロセス中に変化するように学習可能フィルタが構成され、曲線特徴のターゲットセグメンテーションが提供される。図５Ａは、初期段階におけるドメイン及び／又はタスクに関する事前知識を組み込んでいない訓練から学習されたフィルタの可視化を示す。図５Ｂは、静的ガボールフィルタを示す。図５Ｃは、本明細書に記載される実施形態による、曲線特徴の認識の訓練後の学習可能フィルタの可視化を示す。本明細書に記載されるような学習可能なガボールフィルタを使用することは、画像内の曲線形状に応答するガボールのような構造を保持する一方で、訓練標本に基づいてガボール構造を調節及び適応させる能力を保持する。

様々な構成によれば、学習可能フィルタは、少なくとも１つの学習可能なパラメータを持つガボールフィルタである。式３は、本明細書に記載される実施形態によるガボールフィルタを表す式を示す。

式３において、［ｉ、ｊ］は画像の画素座標であり、γは離心率、ｆは搬送周波数であり、θは方向、σはスケールである。様々な実施形態によれば、γ、ｆ、θ、及びσのうちの１つ以上は、システムの訓練中に訓練データを使用して学習可能な値である。この実施形態では、損失関数は、訓練サンプル項Ｌ（）上のデータネットワーク誤差のみを含み、式１における第２の正則化項（Ｌ_Ｒ１）は、式４に示されるように使用されない。

様々な実施形態によれば、本明細書に記載されるような学習可能なパラメータを有するフィルタを使用することは、全てのフィルタ重みを学習しなければならない従来の畳み込みニューラルネットワークと比較した場合、訓練可能なパラメータの数が大幅に減少する。訓練パラメータの減少により、従来の方法よりも複雑さが軽減され、訓練要件が減少される。訓練標本に基づいていくつかの重要なパラメータを学習する機能は、静的フィルタ表現よりも優れた適応性と表現力をネットワークに与える。式４は、全ての４つのガボールパラメータに関して平滑であり、微分可能であるため、パラメータは、逆伝播を介して学習され得る。

様々な実施形態によれば、画像セグメンテーションに使用されるネットワークは、スパースな訓練の場合に、ノイズに対してより敏感になり得る。本明細書に記載される実施形態は、データ内のノイズに対するディープセグメンテーションネットワークの堅牢性を改善するように構成される。具体的には、バックグラウンドにフォアグラウンドオブジェクトと同様の特徴を含む場合に発生し得る誤検知の問題に対処する。ドメイン及び／又はタスクに関する事前知識をディープラーニングタスクに組み込むことで、ノイズがある訓練サンプルへのネットワーク最適化の依存性を低下させることができる。本明細書に記載される実施形態は、ノイズに対して堅牢である方法でセグメンテーションを実行するためのシステム及び方法を説明する。

様々な構成によれば、学習可能フィルタを使用して、曲線画像セグメンテーションにおけるノイズを抑制することができる。式５は、曲線画像セグメンテーションにおけるノイズ抑制と訓練誤差とをバランスさせるように構成された損失関数を示す。

ここで、ｆ（）はパラメータΘ_Ｒを有するパラメータを有する表現モジュールを表し、Ｆ（）は、パラメータΘ_Ｔを有するタスクモジュールを表す。Ｙ_ｇは、グラウンドトゥルースセグメンテーションマップであり、Ｌ（）は訓練サンプル上のネットワーク誤差を表し、Ｌ_Ｒ２（）は、データ内のノイズを抑制しようと試みるノイズ正則化項である。様々な実施形態によれば、Ｌ_Ｒ２は、曲線データセグメンテーションにおけるノイズをモデル化するように構成される。Ｌ_Ｒ２の計算は、式６に示される。

ここで、Ｉ_ｊは、ドメイン及びタスクに固有のノイズパターンを含む補助訓練画像のセットであり、Ｗ_ｉｋはθ_Ｒにおけるスケールｋのフィルタ重みである。式５のＬ（）項と組み合わされると、表現モジュールは、タスク性能（すなわち、曲線セグメンテーション）とノイズ抑制とのバランスをとる。

本明細書に記載される様々な実施形態によれば、ノイズパターンは、標識された曲線オブジェクトを含まない訓練画像からバックグラウンドパッチを抽出することによって作られる。これらのパッチは、例えばガボールフィルタなどのフィルタを介して送信される。最大の応答を与える所定数のパッチが潜在的なノイズのあるパッチ（つまり、曲線構造と混同される可能性が最も高いパッチ）として選択される。様々な実施態様によれば、ノイズがあるパッチのパッチサイズは６４×６４に選択され、最大応答が１００パッチとなるように選択される。

本明細書に記載される実施形態は、網膜血管セグメンテーションの適用例について実証される。これは、医療専門家がヒト網膜の血管経路における病理を迅速に診断することを可能にする重要な機能である。ＤＲＩＶＥ［１１］及びＳＴＡＲＥデータセットを使用して、手法を訓練及び評価した。ネットワークアーキテクチャは、以下のとおりである。表現層には、サイズが１１×１１で、０～１８０度の方向で均一にサンプリングした１２個のガボールフィルタを使用した。タスクネットワークのために、Ｕ－Ｎｅｔアーキテクチャを使用した。表現ネットワークは、Ａｄａｍオプティマイザを活用した標準の確率的勾配降下法を使用して訓練し、学習率は．０００５に設定した。サイズ１２８×１２８のパッチを訓練画像から抽出し、２０個の訓練画像から約７０００個のパッチを得た。限定訓練シナリオも評価し、２つの画像から７００個のパッチを抽出した。ネットワークの訓練用に６４のバッチサイズを使用した。初期検証では、単一スケールのガボール正則化のみをテストした。推論では、ネットワークは、パッチではなく画像全体で使用された。以下の方法は、ガボール正則化、ガボールパラメータ化、及び深層網膜画像理解（ＤＲＩＵ）で評価された。

表１及び２は、それぞれ、完全訓練及び限定訓練シナリオの結果を示す。結果は、２つのバイナリマップ間のオーバーラップ係数の正規化された尺度である、Ｄｉｃｅ係数に関して表される。ガボール正則化及びガボールパラメータ化の方法は、両方のシナリオにおいて競合的であり、限定訓練シナリオで大幅なマージンを確保し、最先端のＤＲＩＵよりも優れている。限定データセットで訓練された提案されたアプローチは、完全データセットで訓練されたＤＲＩＵよりも優れている。

図６Ａは、実施例１の元の入力を示す。望ましい曲線特徴のグラウンドトゥルースマップを図６Ｂに示す。図７Ａは、ＤＲＩＵを使用した結果セグメンテーションマップを示しており、灰色部分が誤った結果を表し、白色部分が正しい結果を表す。図７Ｂは、本明細書に記載のガボール正則化システムを使用した結果を示す。図７Ａ及び図７Ｂからわかるように、ＤＲＩＵの結果と比較すると、ガボール正則化されたセグメンテーション結果には、より多くの白色とより少ない灰色が存在する。

実施例２は、網膜画像のセグメンテーションにおけるノイズ抑制の結果を示す。正確かつ安定したセグメンテーションは、疾患の正確かつ安定した診断に有用である。ここでも、ＤＲＩＶＥ及びＳＴＡＲＥ画像データセットを様々な手法の訓練及びテストの両方に使用した。表現層には、サイズが１１×１１で、０～１８０度の方向で均一にサンプリングした１２個のガボールフィルタを使用した。タスクネットワークでは、セグメンテーションにＵｎｅｔアーキテクチャを使用した。ネットワークは、Ａｄａｍオプティマイザを活用した標準の確率的勾配降下法を使用して訓練し、学習率は．０００５に設定した。サイズ１２８×１２８のパッチを訓練画像から抽出した。２０個の訓練画像から合計約７０００個のパッチを抽出した。限定訓練シナリオでは、２つの画像からのパッチを抽出し、合計で約７００個のパッチを抽出した。６４個のパッチのバッチサイズを訓練用に使用した。推論では、ネットワークは、パッチではなく画像全体で使用された。

以下の方法は、本明細書及びＤＲＩＵに記載されているように、ノイズ正則化曲線セグメンテーションネット（ＮＲＣＳＮ）で評価した。表３は、推定セグメンテーションマップとグラウンドトゥルースセグメンテーションマップとの間のオーバーラップの尺度である、Ｄｉｃｅオーバーラップ係数を用いたＤＲＩＵ技術との比較である。提案されたアプローチは、完全訓練のケースの明確なマージンと、低訓練シナリオにおける、より広いマージンによってＤＲＩＵよりも優れている。興味深いことに、スパースな訓練を伴う提案されたアプローチは、完全な訓練を伴うＤＲＩＵよりも優れている。

図６Ａは、実施例２の元の入力を示す。望ましい曲線特徴のグラウンドトゥルースマップを図６Ｂに示す。図８Ａは、ＤＲＩＵを使用した結果セグメンテーションマップを示しており、灰色部分が誤った結果を表し、白色部分が正しい結果を表す。図８Ｂは、本明細書に記載のＮＲＣＳＮシステムを使用した結果を示す。図８Ａ及び図８Ｂからわかるように、ＤＲＩＵの結果と比較すると、ＮＲＣＳＮセグメンテーション結果には、より多くの白色とより少ない灰色が存在する。

上述の方法は、周知のコンピュータプロセッサ、メモリユニット、記憶デバイス、コンピュータソフトウェア、及び他の構成要素を使用してコンピュータ上に実施することができる。このようなコンピュータの高レベルのブロック図を図９に示す。コンピュータ９００は、プロセッサ９１０を含み、プロセッサ９１０は、そのような動作を定義するコンピュータプログラム命令を実行することにより、コンピュータ９００の全体的な動作を制御する。コンピュータプログラム命令は、記憶デバイス９２０（例えば、磁気ディスク）内に記憶され、コンピュータプログラム命令の実行が所望されるときにメモリ９３０にロードされてもよい。したがって、本明細書に記載の方法のステップは、メモリ９３０に記憶されたコンピュータプログラム命令によって定義され、コンピュータプログラム命令を実行するプロセッサ９１０によって制御されてもよい。画像取得デバイス９４０は、コンピュータ９００に画像データを入力するためにコンピュータ９００に接続されてもよい。様々な構成によれば、画像取得デバイス９４０は、コンピュータ９００上に配置される。場合によっては、画像取得デバイス９４０及びコンピュータ９００は、ネットワークを通じて無線で通信する。様々な実施態様によれば、コンピュータ９００は、画像取得デバイス９４０から遠隔に位置してもよく、コンピュータ９００は、サーバ又はクラウドベースのサービスの一部として方法ステップを実行してもよい。コンピュータ９００は、ネットワークを介して他のデバイスと通信するための１つ以上のネットワークインターフェース９５０を含んでもよい。コンピュータ９００はまた、コンピュータ９００とのユーザインタラクションを可能にする他の入力／出力デバイス９６０（例えば、ディスプレイ、キーボード、マウス、スピーカ、ボタンなど）を含む。このような入力／出力デバイス９６０は、画像取得デバイス９００から受信したボリュームに注釈を付ける注釈ツールとしてコンピュータプログラムのセットと組み合わせて使用されてもよい。様々な実施形態によれば、図９は、例示目的のためのコンピュータの可能な構成要素の高レベル表現であり、コンピュータは他の構成要素を含むことができる。

別途記載のない限り、本明細書及び特許請求の範囲で使用される特徴のサイズ、量、及び物理的特性を表す全ての数字は、用語「約」によって修飾されるものとして理解されるべきである。したがって、反対に指示されない限り、前述の明細書及び添付の特許請求の範囲に記載される数値パラメータは、本明細書に開示される教示を利用して当業者が得ようとする所望の特性に応じて変化し得る近似値である。端点による数値範囲の使用は、その範囲内の全ての数を含む（例えば、１～５は、１、１．５、２、２．７５、３、３．８０、４及び５を含む）、及びその範囲内の任意の範囲を含む。

上述の様々な実施形態は、相互作用して特定の結果を提供する回路及び／又はソフトウェアモジュールを使用して実装されてもよい。コンピューティング技術の当業者は、当該技術分野において一般的に知られている知識を使用して、モジュールレベル又は全体でのいずれかで、記載された機能を容易に実施することができる。例えば、本明細書に示されるフローチャートは、プロセッサによる実行のためのコンピュータ可読命令／コードを作成するために使用されてもよい。このような命令は、当技術分野で知られているように、コンピュータ可読媒体に記憶され、実行のためにプロセッサに転送されてもよい。上記の構造及び手順は、上記のインクジェット排出器の診断を容易にするために使用することができる実施形態の代表的な例に過ぎない。

Claims

曲線オブジェクトセグメンテーションのための方法であって、
曲線特徴を含む少なくとも１つの入力画像を受信することと、
パラメータΘ _R を用いるパラメータを有する表現モジュールｆ（）、及びパラメータΘ _T を有するタスクモジュールＦ（）を有するディープネットワークを使用して、セグメンテーションマップを出力するために、プロセッサを使用して前記少なくとも１つの画像をマッピングすることと、を含み、前記マッピングが、
グラウンドトゥルースセグメンテーションマップＹ _g と、前記表現モジュールｆ（）の出力を入力とする前記タスクモジュールＦ（）の出力とのネットワーク誤差を用いた損失関数

ここで

であり、ここで、Ｗ _ik はθ _R におけるスケールｋの学習可能フィルタの重みである損失関数に基づいて、前記少なくとも１つの入力画像のドメイン及びタスクのうちの１つ以上におけるノイズを抑制するように訓練された前記学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、方法。
前記入力画像が、道路、血管、機械亀裂、及び皮膚のしわのうちの１つ以上を含む、請求項１に記載の方法。
前記学習可能フィルタが、訓練画像におけるノイズ抑制と曲線セグメンテーション誤差とのバランスをとるように訓練される、請求項１に記載の方法。
前記学習可能フィルタの前記訓練が、損失関数の前記出力を最小化することを含み、前記損失関数が、ノイズ抑制と訓練画像における曲線セグメンテーション誤差の最小化とのバランスをとるように構成されている、請求項３に記載の方法。
前記損失関数が、訓練画像に対応する推定セグメンテーションマップと真のセグメンテーションマップとの間の訓練誤差と、ノイズ正則化項との合計を含む、請求項４に記載の方法。
前記学習可能フィルタのうちの少なくとも１つが、ガボールフィルタとして初期化される、請求項３に記載の方法。
少なくとも１つの訓練ノイズ画像を用いて前記学習可能フィルタを訓練することを更に含む、請求項３に記載の方法。
前記少なくとも１つの訓練ノイズ画像が、前記入力画像の前記ドメイン及び前記タスクに固有のノイズパターンを有する少なくとも１つの訓練画像を含む、請求項７に記載の方法。
前記少なくとも１つの訓練ノイズ画像が、ラベル付けされた曲線オブジェクトを含まない前記訓練画像の少なくとも一部を含む、請求項８に記載の方法。
前記入力画像の前記ドメイン及び前記タスクに固有の前記ノイズパターンを作成することを更に含む、請求項８に記載の方法。
前記ノイズパターンを作成することが、
ラベル付き曲線オブジェクトを含まない前記訓練画像からバックグラウンドパッチを抽出することと、
ガボールフィルタを通して前記抽出されたバックグラウンドパッチを処理することと、
ノイズパターンとして最も高い応答を有する所定の数の処理済みバックグラウンドパッチを選択することと、を含む、請求項１０に記載の方法。
前記タスクモジュールが、Ｕ－Ｎｅｔディープニューラルネットワークである、請求項１に記載の方法。
曲線オブジェクトセグメンテーションのためのシステムであって、
プロセッサと、
コンピュータプログラム命令を記憶するメモリと、を含み、前記コンピュータプログラム命令が、前記プロセッサによって実行されると、前記プロセッサに、
曲線特徴を含む少なくとも１つの入力画像を受信することと、
パラメータΘ _R を用いるパラメータを有する表現モジュールｆ（）、及びパラメータΘ _T を有するタスクモジュールＦ（）を有するディープネットワークを使用して、セグメンテーションマップを出力するために、プロセッサを使用して前記少なくとも１つの画像をマッピングすることと、を含む動作行わせ、前記マッピングが、
グラウンドトゥルースセグメンテーションマップＹ _g と、前記表現モジュールｆ（）の出力を入力とする前記タスクモジュールＦ（）の出力とのネットワーク誤差を用いた損失関数

ここで

であり、ここで、Ｗ _ik はθ _R におけるスケールｋの学習可能フィルタの重みである損失関数に基づいて、前記少なくとも１つの入力画像のドメイン及びタスクのうちの１つ以上におけるノイズを抑制するように訓練された前記学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、システム。
前記入力画像の前記ドメイン及び前記タスクに固有のノイズパターンを有する少なくとも１つの訓練画像を用いて前記学習可能フィルタを訓練することを更に含む、請求項１３に記載のシステム。
前記少なくとも１つの訓練画像が、ラベル付けされた曲線オブジェクトを含まない少なくとも１つの部分を含む、請求項１４に記載のシステム。
前記プロセッサが、前記入力画像の前記ドメイン及び前記タスクに固有の前記ノイズパターンを作成するように更に構成されている、請求項１４に記載のシステム。
前記プロセッサが、
ラベル付き曲線オブジェクトを含まない前記訓練画像からバックグラウンドパッチを抽出し、
ガボールフィルタを通して前記抽出されたバックグラウンドパッチを処理し、かつ
ノイズパターンとして最も高い応答を有する所定の数の処理済みバックグラウンドパッチを選択するように更に構成されている、請求項１６に記載のシステム。
前記プロセッサが、訓練画像におけるノイズ抑制と曲線セグメンテーション誤差とのバランスをとるように構成された損失関数を最小化するように更に構成されている、請求項１３に記載のシステム。
前記損失関数が、訓練画像に対応する推定セグメンテーションマップと真のセグメンテーションマップとの間の訓練誤差と、ノイズ正則化項との合計を含む、請求項１８に記載のシステム。
前記学習可能フィルタのうちの少なくとも１つが、ガボールフィルタとして初期化される、請求項１３に記載のシステム。
曲線オブジェクトセグメンテーションのためのコンピュータプログラム命令を記憶する非一時的コンピュータ可読媒体であって、前記コンピュータプログラム命令が、プロセッサによって実行されると、前記プロセッサに、
曲線特徴を含む少なくとも１つの入力画像を受信することと、
パラメータΘ _R を用いるパラメータを有する表現モジュールｆ（）、及びパラメータΘ _T を有するタスクモジュールＦ（）を有するディープネットワークを使用して、セグメンテーションマップを出力するために、プロセッサを使用して前記少なくとも１つの画像をマッピングすることと、を含む動作を行わせ、前記マッピングが、
グラウンドトゥルースセグメンテーションマップＹ _g と、前記表現モジュールｆ（）の出力を入力とする前記タスクモジュールＦ（）の出力とのネットワーク誤差を用いた損失関数

ここで

であり、ここで、Ｗ _ik はθ _R におけるスケールｋの学習可能フィルタの重みである損失関数に基づいて、前記少なくとも１つの入力画像のドメイン及びタスクのうちの１つ以上におけるノイズを抑制するように訓練された前記学習可能フィルタを使用して、前記表現モジュールにおいて前記入力画像を変換することと、
前記タスクモジュールにおいて前記変換された入力画像を使用して前記セグメンテーションマップを生成することと、を含む、非一時的コンピュータ可読媒体。