JP6504590B2 - 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 - Google Patents

画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体

Info

Publication number
JP6504590B2
JP6504590B2 JP2018523830A JP2018523830A JP6504590B2 JP 6504590 B2 JP6504590 B2 JP 6504590B2 JP 2018523830 A JP2018523830 A JP 2018523830A JP 2018523830 A JP2018523830 A JP 2018523830A JP 6504590 B2 JP6504590 B2 JP 6504590B2
Authority
JP
Japan
Prior art keywords
image
pixel
subnetwork
pixels
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018523830A
Other languages
English (en)
Other versions
JP2018535491A (ja
Inventor
チュゼル、オンセル
ベムラパリ、ラビテジャ
リウ、ミン−ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018535491A publication Critical patent/JP2018535491A/ja
Application granted granted Critical
Publication of JP6504590B2 publication Critical patent/JP6504590B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20088Trinocular vision calculations; trifocal tensor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には、コンピュータービジョン及び機械学習に関し、より詳細には、画像を意味的にラベル付けすることに関する。
画像におけるあらゆるピクセルのカテゴリラベルを予測することを目的としたセマンティックセグメンテーションは、シーンの理解のための重要なタスクである。セマンティックセグメンテーションは、意味クラスの視覚的外観の大きな変化と、視覚世界における様々なクラス間の複雑な相互作用とに起因する困難な問題である。近年、畳み込みニューラルネットワーク(CNN(convolutional neural network))が、この困難なタスクに効果的であることが示されている。しかしながら、畳み込みニューラルネットワークは、セマンティックセグメンテーション等の構造予測タスクには最適でない場合がある。なぜならば、構造予測タスクは、出力変数間の相互作用を直接モデル化するものではないからである。
様々なセマンティックセグメンテーション方法が、CNN上で離散条件付き確率場(CRF(conditional random field))を用いる。CNN及びCRFを組み合わせることによって、これらの方法は、CNNが複雑な入力出力関係をモデル化する能力と、CRFが出力変数間の相互作用を直接モデル化する能力とを提供する。これらの方法の大部分は、CRFを別個の後処理ステップとして用いる。通常、CNNは、画像を処理してユーナリ(unary:単一)エネルギーを生成し、このユーナリエネルギーは、次に、CRFによって処理され、画像がラベル付けされる。しかしながら、CRFは、CNNと異なる動作原理を有する。そのことは、CNNをCRFから切り離し、それらの合同トレーニングを妨げる。一般に、CRFは、手動で調節されるか、又は、CNNとは別にトレーニングされる。
CRFを後処理ステップとして用いることに代わる1つの方法は、離散CRFの推定手順をリカレントニューラルネットワークに変換することによって、離散CRFとともにCNNをトレーニングするものである。しかしながら、一般に、離散CRFにおける推定は、CRF定式化の離散的で微分不能な性質に起因して取り扱いにくい。そのために、その方法は、大域的最適保証を有せず、不十分なトレーニング結果をもたらす可能性がある近似推定手順を用いる。
本発明の幾つかの実施の形態は、畳み込みニューラルネットワーク(CNN)及び離散条件付き確率場(CRF)の組み合わせを用いて画像のセマンティックセグメンテーションを提供することが有利であるという認識に基づいている。一方、幾つかの実施の形態は、この組み合わせにおいて、CRFをニューラルネットワーク(NN(neural network))と置き換えることが有利であるというさらなる別の認識に基づいている。そのような置き換えは、セマンティックセグメンテーションに参加する様々なサブネットワークを、合同でトレーニングすることができる共通のニューラルネットワーク内に接続することができる。しかしながら、NNを用いてCRFの演算をエミュレートすることは、CRF定式化の離散的で微分不能な性質に起因して困難である。
幾つかの実施の形態は、最初に、CRFを、当該CRFのサブクラスであるガウス確率場(GRF(Gaussian random field))に置き換えることができるという認識に基づいている。GRF推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像セグメンテーションが離散タスクであるにもかかわらず、GRFは、それでもセマンティックセグメンテーションに適している。
幾つかの実施の形態は、ニューラルネットワークを用いてGRF推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びGRF演算の双方は、連続かつ微分可能であるので、GRFの演算の連続性によって、GRFにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、GRF推定中に適用されるそれらの代数的演算として逐次的に適用される。
そのために、実施の形態は、ユーナリエネルギーを求める第1のサブネットワークと、ペアワイズ(pairwise:対)エネルギーを求める第2のサブネットワークと、GRF推定をエミュレートする第3のサブネットワークとを作成し、3つの全てのサブネットワークを合同でトレーニングする。
したがって、本発明の1つの実施形態は、画像のセマンティックセグメンテーションのためのコンピューター実施方法を開示する。本方法は、第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分である。本方法のステップは、プロセッサによって実行される。
更に別の実施形態は、画像のセマンティックセグメンテーションのためのシステムであって、前記画像及び意味的セグメント化画像を記憶する少なくとも1つの非一時的コンピューター可読メモリと、ガウス確率場(GRF)ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、を備え、前記GRFネットワークは、画像における各ピクセルのユーナリエネルギーを求める第1のサブネットワークと、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第2のサブネットワークと、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成する第3のサブネットワークと、を備えるニューラルネットワークであり、前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換する、システムを開示する。
更に別の実施形態は、命令が記憶された非一時的コンピューター可読媒体であって、前記命令は、プロセッサによって実行されると、第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含むステップを実行し、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされる、非一時的コンピューター可読媒体を開示する。
本発明の幾つかの実施形態による画像のセマンティックセグメンテーションのためのコンピューターシステムのブロック図である。 本発明の幾つかの実施形態によるガウス確率場(GRF)ニューラルネットワークを用いる画像ラベル付け(image labeling:画像ラベリング)を介したセマンティックセグメンテーションの概略図である。 本発明の1つの実施形態による画像の意味的ラベル付け(semantic labeling:セマンティックラベリング)のためのコンピューター実施方法のブロック図である。 本発明の1つの実施形態によるGRFネットワークのブロック図である。 本発明の幾つかの実施形態によるエネルギー関数の最小化の概略図である。 本発明の1つの実施形態によるGRFネットワークのブロック図である。 本発明の1つの実施形態によるGRFネットワークの実施態様の擬似コードである。 本発明の1つの実施形態によるペアワイズエネルギーを求めるピクセルのペアを形成する方法のブロック図である。 本発明の幾つかの実施形態による図4Aの2部グラフ構造を利用するネットワークのブロック図である。 本発明の幾つかの実施形態によって用いられるトレーニング方法の概略図である。 本発明の幾つかの実施形態によって用いられるトレーニング方法のブロック図である。 本発明の1つの実施形態によるトレーニングシステムのブロック図である。
図1Aは、本発明の幾つかの実施形態による画像のセマンティックセグメンテーションのためのコンピューターシステム100のブロック図を示す。コンピューターシステム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ以上の入力デバイス及び出力デバイスに接続される。
図1Bは、本発明の幾つかの実施形態によるガウス確率場(GRF)ニューラルネットワークを用いる画像ラベル付け(image labeling:画像ラベリング)を介したセマンティックセグメンテーションの概略図を示す。セマンティックセグメンテーションは、メモリ104に記憶された命令を実行するプロセッサ102によって実行することができる。GRFネットワーク114は、画像160の意味的ラベル付けを実行して、意味クラス、例えば、意味ラベル171、172、及び173を用いてラベル付けされたピクセルを有するセグメント化画像170を生成する。GRFネットワーク114は、ニューラルネットワークであり、GRFネットワーク114の少なくとも幾つかの演算は、GRF推定の演算をエミュレートする。
GRFは、変数のガウス分布及び/又はガウス確率密度関数を伴う確率場である。1次元GRFは、ガウスプロセスとも呼ばれる。例えば、GRFネットワーク114は、画像160の各ピクセルの値を条件とする可能な意味ラベル171、172、及び173の確率密度をユーナリエネルギー及びペアワイズエネルギーを含むエネルギー関数のガウス分布としてモデル化し、エネルギー関数に関するガウス推定を実行して、画像の各ピクセルの各意味ラベルの確率を求める。
一般に、ガウス推定は、基礎をなすガウス分布の特性(例えば、平均又は共分散)を求めることを指す。この場合、このガウス分布は、画像のピクセルが異なる意味クラスに属する確率を規定する統計的変数によって形成される。そのために、ユーナリエネルギー及びペアワイズエネルギーは、ピクセルの意味ラベルの確率の関数である。例えば、幾つかの実施形態では、ガウス推定は、ユーナリエネルギー及びペアワイズエネルギーを用いて規定されるガウス分布の平均を求める。
幾つかの実施形態は、最初に、CRFを、当該CRFのサブクラスであるGRFに置き換えることができるという認識に基づいている。GRF推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像のセマンティックセグメンテーションが離散タスクであるにもかかわらず、GRFは、それでもセマンティックセグメンテーションに適している。
コンピューターシステム100は、元画像110を記憶するように適合された記憶デバイス108、元画像をフィルタリングして、セグメンテーションに適した画像160を生成するフィルター112を備えることもできる。例えば、このフィルターは、元画像をサイズ変更して、トレーニングデータの画像と位置合わせすることができる。記憶デバイス108は、GRFネットワーク114の構造及びパラメーターも記憶することができる。様々な実施形態では、GRFネットワーク114は、トレーニング画像のセット及び対応するトレーニング意味ラベルのセットに関してトレーニングされる。
記憶デバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。コンピューターシステム100内のヒューマンマシンインターフェース116は、システムをキーボード118及びポインティングデバイス120に接続することができ、ポインティングデバイス120は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチ画面を含むことができる。コンピューターシステム100は、当該システム100をディスプレイデバイス124に接続するように適合されたディスプレイインターフェース122にバス106を通じてリンクすることができ、ディスプレイデバイス124は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。
コンピューターシステム100は、当該システムを撮像デバイス128に接続するように適合された撮像インターフェース126に接続することもできる。1つの実施形態では、セマンティックセグメンテーション用の画像は、この撮像デバイスから受信される。撮像デバイス128は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。プリンターインターフェース130も、バス106を通じてコンピューターシステム100に接続することができ、コンピューターシステム100を印刷デバイス132に接続するように適合させることができ、印刷デバイス132は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、UVプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー134は、コンピューターシステム100を、バス106を通じてネットワーク136に接続するように適合されている。ネットワーク136を通じて、電子テキスト及び撮像入力文書のうちの一方又は組み合わせを含む画像138をダウンロードし、記憶及び/又は更なる処理のためにコンピューターの記憶システム108内に記憶することができる。
説明を容易にするために、本開示は、太字体小文字を用いてベクトルを示し、太字体大文字を用いて行列を示す。
Figure 0006504590
及び
Figure 0006504590
は、行列
Figure 0006504590
の転置行列及び逆行列を示す。表記
Figure 0006504590
は、ベクトル
Figure 0006504590
の二乗
Figure 0006504590
ノルムを示す。
Figure 0006504590
は、
Figure 0006504590
が対称半正定値行列(symmetric and positive semidefinite matrix)であることを意味する。
ニューラルネットワークは、生物学的なニューラルネットワークによってインスパイアされたモデルのファミリーであり、多数の入力に依存する可能性があり一般に未知である関数を推定又は近似するのに用いられる。ニューラルネットワークは、一般に、互いの間でメッセージを交換する相互接続されたノード又は「ニューロン」のシステムとして提供される。各ノードは、メッセージを変換する関数に関連付けられている。この関数は、通常、メッセージ変換の非線形部分を形成するために非線形である。ノード間の各接続は、メッセージ変換の線形部分を形成するためにメッセージをスケーリングする数値重みに関連付けられる。通常、これらの関数は、全てのノードについて固定され、事前に定められ、例えば、ニューラルネットワークの設計者によって選択されている。ノードについて通常選択される関数の例には、シグモイド関数及び整流関数が含まれる。これとは対照的に、数値重みは異なり、トレーニングデータに基づいて調節され、ニューラルネットワークを入力に適応したものとするとともに学習可能なものにする。
幾つかの実施形態は、ニューラルネットワークを用いてGRF推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びGRF演算の双方は、連続かつ微分可能であるので、GRFの演算の連続性によって、GRFにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、GRF推定中に適用されるそれらの代数的演算として逐次的に適用される。
セマンティックセグメンテーションは、画像
Figure 0006504590
160における各ピクセルを、画像170におけるK個の可能なクラスのうちの1つに割り当てる。そのような割り当ては、本明細書では、意味的ラベル付けと呼ばれる。意味的ラベル付けが行われた後、ピクセルの意味的ラベル付けの結果は、画像のセマンティックセグメンテーションを生成する。幾つかの実施形態は、K個の変数(各クラスにつき1つ)を用いて、各ピクセルにおける出力をモデル化し、最終ラベル割り当ては、これらのK個の変数のうちのいずれが最大値、例えば、確率の値を有するのかに基づいて行われる。第iのピクセルに関連付けられたK個の出力変数のベクトルを
Figure 0006504590
とし、全ての出力変数のベクトルを
Figure 0006504590
とする。例えば、条件付き確率密度
Figure 0006504590
は、以下の式によって与えられるガウス分布としてモデル化することができる。
Figure 0006504590
上記エネルギー関数Eにおける第1項は、ユーナリエネルギーを表すユーナリ項であり、第2項は、ペアワイズエネルギーを表すペアワイズ項である。ここで、各ピクセルiのユーナリエネルギーパラメーター
Figure 0006504590
及び第1のピクセルiと第2のピクセルjとの間のペアワイズエネルギーパラメーター
Figure 0006504590
の双方は、θ及びθがそれぞれの関数パラメーターである入力画像
Figure 0006504590
の関数を用いて計算される。ピクセルの全てのペアについて
Figure 0006504590
を有する実施形態では、ユーナリ項及びペアワイズ項を互いに組み合わせて、単一の半正定値二次形式にすることができる。
図1Cは、本発明の1つの実施形態による画像の意味的ラベル付けの方法のブロック図を示している。本方法は、プロセッサ102によって実行されるGRFネットワーク114によって実行することができる。本方法は、画像における各ピクセルのユーナリエネルギー185を求め(180)、画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギー195を求める(190)。次に、本方法は、ユーナリエネルギー185及びペアワイズエネルギー195を処理することによって画像のGRF推定176を求める(175)。例えば、幾つかの実施形態では、GRF推定は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にすることによって求められる。
様々な実施形態では、ユーナリエネルギー185は、第1のサブネットワークを用いて求められ(180)、ペアワイズエネルギー195は、第2のサブネットワークを用いて求められ(190)、GRF推定176は、第3のサブネットワークを用いて求められる(175)。これらの第1のサブネットワーク、第2のサブネットワーク、及び第3のサブネットワークは、ニューラルネットワークの一部分である。そのような方法では、ニューラルネットワークの全てのパラメーターを合同でトレーニングすることができる。
GRF推定は、画像における各ピクセルの意味ラベルの確率を規定する。例えば、本発明の幾つかの実施形態では、ユーナリエネルギー185は、第1のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第1の関数であり、ペアワイズエネルギー195は、第2のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第2の関数である。そのために、本方法は、意味的セグメント化画像170におけるピクセルに、第3のサブネットワークによって求められる確率の中で画像160における対応するピクセルの最も高い確率を有する意味ラベルを割り当てる(196)ことによって、画像160を意味的セグメント化画像170に変換する。ここで、第1のサブネットワーク、第2のサブネットワーク。
エネルギー関数Eを最小にする最適な意味ラベル
Figure 0006504590
は、閉形式で取得することができる。なぜならば、Eの最小化は制約なし2次計画法であるからである。しかしながら、この閉形式解は、クラスの数にピクセルの数を乗算したものに等しい数の変数を有する線形システムを解くことを必要とする。幾つかの実施形態は、そのような大規模な線形システムを解くことは計算上法外であり得るという認識に基づいている。それらの実施形態では、第3のサブネットワークは、ガウス平均場(GMI(Gaussian mean field))推定の演算をエミュレートすることによってGRF推定を求める。
図2Aは、本発明の1つの実施形態によるGRFネットワークのブロック図を示す。この実施形態では、GRFネットワークは、3つのサブネットワーク、すなわち、ユーナリエネルギー185を求めるユーナリネットワーク201としてトレーニングされる第1のサブネットワークと、ペアワイズエネルギー195を求めるペアワイズネットワーク202としてトレーニングされる第2のサブネットワークと、エネルギー関数を最小にする平均場推定更新を求めるGMIネットワーク203である第3のサブネットワークとを備える。ユーナリネットワーク及びペアワイズネットワークは、エネルギー関数式(1)のユーナリ項及びペアワイズ項においてそれぞれ用いられるパラメーター
Figure 0006504590
及び
Figure 0006504590
を生成する一方、GMIネットワークは、ユーナリネットワーク及びペアワイズネットワークの出力を用いてガウス平均場推定を実行する。
1つの実施形態では、平均
Figure 0006504590
を計算する平均場更新は、以下の式によって与えられる。
Figure 0006504590
ここで、これらの更新は、各ピクセルiについて逐次的に実行される。エネルギー関数は、GRFの場合には凸二次であり、式(2)の更新は、各部分問題(sub-problem)を最適に解く。すなわち、他の全ての
Figure 0006504590
(又は
Figure 0006504590
)が固定されているときの最適な
Figure 0006504590
(又は
Figure 0006504590
)を見つける。そのために、逐次的な更新を実行して最大事後確率(MAP(maximum a posteriori))解を与えることが保証される。
図2Bは、本発明の幾つかの実施形態によるNNを含有するエネルギー関数の最小化の概略図を示す。エネルギー関数210は、ユーナリエネルギー185及びペアワイズエネルギー195の組み合わせを含む。エネルギー関数の一例は、式(1)の関数である。第3のサブネットワーク203の各層231、232、233、234、235、及び236は、エネルギー関数210を最小にする平均場推定更新を再帰的に求める。再帰的最小化の例は、式(2)に提供されている。サブネットワーク203における層の数は、更新の所望の反復数に基づいて選択することができる。
図3Aは、本発明の1つの実施形態によるGRFネットワークのブロック図を示す。この実施形態では、第1のサブネットワーク201は、パラメーター
Figure 0006504590
を有するユーナリCNN305と本明細書では呼ばれる畳み込みNN(CNN)である。ユーナリCNNは、画像160の各ピクセルについて、そのピクセルの近傍にあり、かつ、そのピクセルが各可能な意味ラベルに属する確率を生成するピクセルのサブセットを入力として受信する。例えば、このサブセットのピクセルは、そのピクセルを中心とする矩形パッチのピクセルとすることができる。
この実施形態では、ユーナリエネルギーパラメーター
Figure 0006504590
306は、ピクセルの近傍にあるピクセルのサブセットの関数を用いて計算され、式(1)のエネルギー関数のユーナリ項において用いられる。例えば、ユーナリエネルギー関数は、二次関数
Figure 0006504590
である。ここで、
Figure 0006504590
は、ユーナリCNNを通じて計算されるユーナリエネルギーパラメーターであり、θは、線形フィルターのパラメーターであり、
Figure 0006504590
は、意味ラベルの確率であり、iは、ピクセルのインデックスである。ユーナリCNNは、畳み込み演算を実行する一連の線形フィルターを各層への入力に適用し、少なくとも幾つかの層において、各線形フィルターの出力の非線形関数を適用する。
例えば、1つの実施態様では、ユーナリCNN305は、オックスフォードビジュアルジオメトリグループ(Oxford Visual Geometry Group)(VGG−16)ネットワークの変更版である。VGG−16と比較した変更点には、完全接続層を畳み込み層に変換することと、ダウンサンプリング層をスキップすることと、例えば、第4のプーリング層後の畳み込み層を変更して、ダウンサンプリングをスキップすることによる視野の損失を補償することと、マルチスケール特徴量を用いることとが含まれる。
第2のサブネットワーク(すなわち、ペアワイズネットワーク)202は、式(1)のエネルギー関数のペアワイズ項において用いられる行列
Figure 0006504590
310を求めるパラメーター
Figure 0006504590
を有するペアワイズCNN301を備える。例えば、ペアワイズネットワーク202は、ペアワイズCNN301を用いてペアのピクセル間の類似度を求め、この類似度に基づいて共分散行列を求め、この共分散行列の関数としてペアワイズエネルギーを求める。
例えば、ペアワイズネットワーク202は、ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、第1のピクセルの特徴量
Figure 0006504590
を生成する(302)とともに、ペアの第2のピクセルjの近傍の第2のピクセルのサブセットを処理して、第2のピクセルの特徴量
Figure 0006504590
を生成する(302)。ペアワイズネットワーク202は、第1の特徴量と第2の特徴量との間の差の関数を求めて類似度sijを生成し(303)、ペアワイズエネルギーを共分散行列
Figure 0006504590
として以下の式に従って求める(304)。
Figure 0006504590
ここで、sij∈[0,1]は、ピクセルiとピクセルjとの間の類似度であり、学習された行列
Figure 0006504590
は、クラス適合性情報(class compatibility information)を符号化する。類似度sijは、以下の式に従って求めることができる(303)。
Figure 0006504590
ここで、
Figure 0006504590
(302)は、ペアワイズCNN301を用いて第iのピクセルにおいて抽出された特徴量ベクトルであり、学習された行列
Figure 0006504590
は、距離関数、例えばマハラノビス(Mahalanobis)距離関数を規定する。
ペアワイズCNNの構造は、ユーナリCNNと同じものとすることができる。幾つかの実施形態では、sijの指数は以下となる。
Figure 0006504590
ここで、
Figure 0006504590
である。この実施形態では、マハラノビス距離計算は、
Figure 0006504590
とフィルター
Figure 0006504590
との畳み込み及びその後に続くユークリッド距離計算として実施される。
1つの実施形態では、ペアワイズネットワーク202は、ピクセル特徴量
Figure 0006504590
を生成するペアワイズCNNと、接続されたピクセルのあらゆるペアのsijを式(4)及び/又は式(5)を用いて計算する類似層303と、行列
Figure 0006504590
を式(3)を用いて計算する行列生成層304とを備える。この実施形態では、
Figure 0006504590
は、類似層303のパラメーターであり、
Figure 0006504590
は、行列生成層304のパラメーターである。
GMI203は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数が最小になるような各ピクセルの意味ラベルの確率を反復して求める。各ピクセルにおける最終出力は、K次元クラス予測スコアベクトル307である。ここで、Kはクラスの数である。第iのピクセルにおける最終出力を
Figure 0006504590
とする。その場合、第iのピクセルの意味ラベルは、
Figure 0006504590
308によって与えられる。
図3Bは、本発明の1つの実施形態によるGRFネットワークの実施態様の擬似コードである。
図4Aは、本発明の1つの実施形態によるペアワイズエネルギーを求める画像160のピクセルのペアを形成する方法のブロック図を示す。この実施形態は、画像160におけるピクセルの全ての可能なペアのペアワイズエネルギーを求めることが、多数の変数に起因して計算を遅くするという理解に基づいている。全てのピクセルの並列更新を同時に用いることが、合理的な代替案であるように見えるが、並列更新の収束は、限られた条件下でしか保証されない。
この問題に対処するために、実施形態は2部グラフ構造を用いる。この2部グラフ構造によって、各ステップにおいて変数の半分を並列に更新することが可能になるとともに、それでも、対角優位制約なしの収束が保証される。例えば、実施形態は、ピクセルの列又は行のインデックスのパリティに基づいて画像160におけるピクセルを奇数ピクセル又は偶数ピクセルに分割し(420)、ピクセルの各ペアにおいて、第1のピクセルが奇数ピクセルであり、第2のピクセルが偶数ピクセルであるようにピクセルのペアを形成する(430)。例えば、ピクセル410は、ピクセル411、412、413、及び414等のより大きな黒色の円を用いて示された7×7空間近傍内のピクセルとのみペアリングされる。
幾つかの実施態様では、グラフィカルモデルは各ピクセルのノードを有し、各ノードはK個の変数のベクトルを表す。式(2)を用いて第iのノードを更新するために、実施形態は、第iのノードに接続された他の全てのノード(すなわち、非ゼロの
Figure 0006504590
を有する全てのノード)を固定した状態にしておく。画像を奇数列及び偶数列(又は奇数行及び偶数行)に分割するとともに、分割した部分内のエッジを回避することによって、偶数列(又は偶数行)を固定した状態のままで全ての奇数列(又は奇数行)を、式(2)を用いて並列に更新することが可能になり、また、その逆も可能になる。この交互の最小化を最適に解いて、大域的最適に収束することができる。
図4Bは、本発明の幾つかの実施形態による図4Aの2部グラフ構造を利用するGMIネットワーク440のブロック図を示す。GMIネットワーク440は、ユーナリネットワーク及びペアワイズネットワークの出力を用いて固定数のガウス平均場更新を実行する。このネットワークへの入力は、ユーナリ出力
Figure 0006504590
を用いて初期化される。
GMIネットワーク440は、連続的に組み合わされた幾つかのGMI層401を備える。各層は、2つの副層、すなわち、偶数更新副層402と、これに後続又は先行する奇数更新副層403とを有する。偶数更新副層402は、先行層の出力を入力として取り込み、奇数ピクセルノードを固定した状態のままで式(2)を用いて偶数ピクセルノードを更新する。同様に、奇数更新副層は、偶数更新副層の出力を入力として取り込み、偶数ピクセルノードを固定した状態のままで式(2)を用いて奇数ピクセルノードを更新する。奇数更新副層及び偶数更新副層の順序は逆にすることができる。
2部グラフ構造に起因して、上記副層のそれぞれによって実行される更新は、最適な更新であり得る。したがって、本発明者らのGMIネットワークの各層は、その入力と比較してMAP解により近い出力を生成することが保証される(入力自体がMAP解でない場合であり、入力自体がMAP解である場合に、出力は入力に等しい)。
トレーニング
GRFネットワーク114は、相互接続されたサブネットワークを備えるので、GRFネットワーク114のこれらの様々なサブネットワークを合同でトレーニングすることができる。例えば、図3Aのユーナリネットワーク、ペアワイズネットワーク及びGMIネットワークの組み合わせをエンドツーエンド形式でトレーニングすることができる。1つの実施形態は、GMIネットワーク内の固定数の層を用いる。層が有限個であるので、GRFネットワークの出力は、潜在的に準最適であり得る。一方、実施形態は、GRFネットワーク全体をエンドツーエンド形式で弁別的にトレーニングするので、ユーナリネットワーク及びペアワイズネットワークは、固定数の平均場更新後の出力が最適解に近づくように近似的なユーナリエネルギーパラメーター
Figure 0006504590
及びペアワイズエネルギーパラメーター
Figure 0006504590
を生成するように学習する。
図5は、本発明の幾つかの実施形態によって用いられるトレーニングの概略図を示す。トレーニング510は、画像のペアのトレーニングセット501と、対応する意味的セグメント化画像502とを用いて、GRFネットワークのパラメーター520を生成する。一般に、人工ニューラルネットワークをトレーニングすることは、トレーニングセットを考慮して、「学習」アルゴリズムと呼ばれることがあるトレーニングアルゴリズムを人工ニューラルネットワークに適用することを含む。トレーニングセットは、入力の1つ以上のセットと、出力の1つ以上のセットとを含むことができ、入力の各セットは、出力の1つのセットに対応する。トレーニングセットにおける出力のセットは、対応する入力のセットが人工ニューラルネットワークに入力され、人工ニューラルネットワークがその後フィードフォワード形式で動作されたときに人工ニューラルネットワークが生成することが望まれる出力のセットを含む。ニューラルネットワークをトレーニングすることは、パラメーター、例えば、人工ニューラルネットワークにおける接続に関連付けられた重み値を計算することを伴う。例えば、GRFネットワークのパラメーターは、ユーナリネットワークパラメーター
Figure 0006504590
と、ペアワイズネットワークパラメーター
Figure 0006504590
とを含むことができる。
図6は、本発明の幾つかの実施形態によって用いられるトレーニング方法510のブロック図を示す。本方法は、GRFネットワーク114を用いてセット501からの画像610を処理して意味的セグメント化画像630を生成し、この意味的セグメント化画像630を、セット502からの対応する意味的セグメント化画像620と比較して、これらの2つの意味的セグメント化画像間の距離を生成する(640)。例えば、1つの実施形態は、各ピクセルにおける以下の損失関数を求める。
Figure 0006504590
ここで、lは、距離640としての真のクラスラベルである。この損失関数は、基本的に、真のクラスに関連付けられた出力をマージンTによって他の全てのクラスに関連付けられた出力よりも大きくなるように促進する。
そのために、実施形態は、損失関数を最小にすることによってGRFネットワーク114を弁別的にトレーニングする。例えば、トレーニングは、ネットワークパラメーターの勾配を計算するバックプロパゲーションを用いて実行される。トレーニングは、パラメーター
Figure 0006504590
に対する対称半正定値性制約に起因した制約付き最適化を含むことができる。1つの実施形態は、
Figure 0006504590

Figure 0006504590
としてパラメーター化することによってこの制約付き最適化を制約なし最適化に変換し、確率的勾配降下法を最適化に用いる。ここで、
Figure 0006504590
は、下三角行列である。
図7は、本発明の1つの実施形態によるトレーニングシステムのブロック図を示す。このトレーニングシステムは、バス22によって読み出し専用メモリ(ROM)24及びメモリ38に接続されたプロセッサを備える。このトレーニングシステムは、ユーザーに情報を提示するディスプレイ28と、キーボード26、マウス34及び入力/出力ポート30を介して取り付けることができる他のデバイスを含む複数の入力デバイスとを備えることもできる。他のポインティングデバイス又は音声センサー若しくは画像センサー等の他の入力デバイスも取り付けることができる。他のポインティングデバイスは、タブレット、数値キーパッド、タッチ画面、タッチ画面オーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。I/O30は、通信ライン、ディスク記憶装置、入力デバイス、出力デバイス又は他のI/O機器に接続することができる。メモリ38は、表示画面のピクセル強度値を含むディスプレイバッファー72を備える。ディスプレイ28は、ディスプレイバッファー72からピクセル値を周期的に読み出し、これらの値を表示画面上に表示する。ピクセル強度値は、グレーレベルを表すこともできるし、カラーを表すこともできる。
メモリ38は、データベース90、トレーナー82、GRF114、プリプロセッサ84を含む。データベース90は、履歴データ105、トレーニングデータ、テストデータ92を含むことができる。データベースは、ニューラルネットワークを用いる動作モード、トレーニングモード又は保持モードからの結果も含むことができる。これらの要素は、上記で詳細に説明されている。
メモリ38には、オペレーティングシステム74も示されている。オペレーティングシステムの例には、AIX、OS/2、及びDOSが含まれる。メモリ38に示されている他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバー76を含む。ワーキングメモリエリア78もメモリ38に示されている。ワーキングメモリエリア78は、メモリ38に示された要素のいずれもが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク101、トレーナー82、オペレーティングシステム74及び他の機能が利用することができる。ワーキングメモリエリア78は、要素間で分割することもできるし、或る要素内において分割することもできる。ワーキングメモリエリア78は、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶に利用することができる。
本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、1つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。
また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。
請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims (18)

  1. 画像のセマンティックセグメンテーションのためのコンピューター実施方法であって、
    第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
    第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
    第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成するステップと、
    意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
    を含み、前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分であり、
    前記画像のピクセルのペアのペアワイズエネルギーを求める前記ステップは、
    前記画像における前記ペアの前記ピクセル間の類似度を求めることと、
    前記類似度に基づいて共分散行列を求めることと、
    前記ペアワイズエネルギーを前記共分散行列の関数として求めることと
    を含み、
    該方法の各前記ステップは、プロセッサが実行する、方法。
  2. 前記意味的セグメント化画像を非一時的コンピューター可読メモリにレンダリングすること、
    を更に含む、請求項1に記載の方法。
  3. 前記第3のサブネットワークは、該第3のサブネットワークの各層が、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にする平均場推定更新を再帰的に求めるようにガウス平均場(GMI)推定の演算をエミュレートすることによってGRF推定結果を求める、請求項1に記載の方法。
  4. 前記画像における各ピクセルについて、前記第1のサブネットワークは、前記画像における該ピクセルの近傍のピクセルのサブセットを入力として受信し、該ピクセルのユーナリエネルギーパラメーターを生成し、前記ユーナリエネルギーは、前記画像における各ピクセルの前記ユーナリエネルギーパラメーターと、各可能な意味ラベルに属する前記画像における各ピクセルの確率との関数である、請求項1に記載の方法。
  5. 畳み込み演算を実行する一連の線形フィルターを前記第1のサブネットワークの各層への入力に適用することと、
    前記第1のサブネットワークの幾つかの層において、各線形フィルターの出力のための非線形関数を適用することと
    を更に含む、請求項4に記載の方法。
  6. 前記ユーナリエネルギー関数は、二次関数
    Figure 0006504590
    であり、ここで、
    Figure 0006504590
    は、前記第1のサブネットワークを通じて計算される前記ユーナリエネルギーパラメーターであり、θは、前記線形フィルターのパラメーターであり、
    Figure 0006504590
    は、前記意味ラベルの前記確率であり、iは、前記ピクセルのインデックスである、請求項5に記載の方法。
  7. 前記ピクセルのサブセットは、前記画像における前記ピクセルを中心とする矩形パッチである、請求項4に記載の方法。
  8. 前記類似度を前記求めることは、
    前記第2のサブネットワークを用いて、前記ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、前記第1のピクセルの特徴量
    Figure 0006504590
    を生成することと、
    前記第2のサブネットワークを用いて、前記ペアの第2のピクセルjの近傍の第2のピクセルのサブセットを処理して、前記第2のピクセルの特徴量
    Figure 0006504590
    を生成することと、
    前記第1の特徴量と前記第2の特徴量との間の差の関数を求めて前記類似度sijを生成することと
    を含む、請求項に記載の方法。
  9. 前記画像における前記ピクセルの列又は行のインデックスのパリティに基づいて、前記画像における前記ピクセルを奇数ピクセル又は偶数ピクセルに分割することと、
    前記ピクセルの各ペアにおいて、前記第1のピクセルが前記奇数ピクセルであり、前記第2のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成することと
    を更に含む、請求項に記載の方法。
  10. 前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、合同でトレーニングされる、請求項1に記載の方法。
  11. 前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、トレーニング画像のセットと、対応するトレーニング意味ラベルのセットとの損失関数を最小にするように合同でトレーニングされる、請求項1に記載の方法。
  12. 画像のセマンティックセグメンテーションのためのシステムであって、
    前記画像及び意味的セグメント化画像を記憶する少なくとも1つの非一時的コンピューター可読メモリと、
    ガウス確率場(GRF)ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、
    を備え、
    前記GRFネットワークは、
    画像における各ピクセルのユーナリエネルギーを求める第1のサブネットワークと、
    前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第2のサブネットワークと、
    前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成する第3のサブネットワークと、
    を備えるニューラルネットワークであり、
    前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換
    前記第2のサブネットワークは、
    前記画像における前記ペアの前記ピクセル間の類似度を求め、
    前記類似度に基づいて共分散行列を求め、
    前記ペアワイズエネルギーを前記共分散行列の関数として求める、
    システム。
  13. 前記第3のサブネットワークは、該第3のサブネットワークの各層が、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にする平均場推定更新を再帰的に求めるようにガウス平均場(GMI)推定の演算をエミュレートすることによってGRF推定結果を求める、
    請求項12に記載のシステム。
  14. 前記画像における各ピクセルについて、前記第1のサブネットワークは、前記画像における該ピクセルの近傍のピクセルのサブセットを入力として受信し、該ピクセルのユーナリエネルギーパラメーターを生成し、前記ユーナリエネルギーは、前記画像における各ピクセルの前記ユーナリエネルギーパラメーターと、各可能な意味ラベルに属する前記画像における各ピクセルの確率との関数である、請求項12に記載のシステム。
  15. 前記第2のサブネットワークは、
    前記ペアの第1のピクセルiの近傍の第1のピクセルのサブセットを処理して、前記第1のピクセルの特徴量
    Figure 0006504590
    を生成することと、
    前記ペアの第2のピクセルjの近傍の第2のピクセルのサブセットを処理して、前記第2のピクセルの特徴量
    Figure 0006504590
    を生成することと、
    前記第1の特徴量と前記第2の特徴量との間の差の関数を求めて前記類似度sijを生成することと
    によって前記類似度を求める、請求項12に記載のシステム。
  16. 前記プロセッサは、
    前記画像における前記ピクセルの列又は行のインデックスのパリティに基づいて、前記画像における前記ピクセルを奇数ピクセル又は偶数ピクセルに分割し、
    前記ピクセルの各ペアにおいて、前記第1のピクセルが前記奇数ピクセルであり、前記第2のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成する、請求項12に記載のシステム。
  17. 前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、合同でトレーニングされる、請求項12に記載のシステム。
  18. 命令が記憶された非一時的コンピューター可読媒体であって、前記命令は、プロセッサによって実行されるときに、
    第1のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
    第2のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
    第3のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場(GRF)に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するGRF推定結果を生成するステップと、
    意味的セグメント化画像におけるピクセルに、前記第3のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
    を実行し、
    前記第1のサブネットワーク、前記第2のサブネットワーク、及び前記第3のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされ、
    前記画像のピクセルのペアのペアワイズエネルギーを求める前記ステップは、
    前記画像における前記ペアの前記ピクセル間の類似度を求めることと、
    前記類似度に基づいて共分散行列を求めることと、
    前記ペアワイズエネルギーを前記共分散行列の関数として求めることと
    を含む、
    非一時的コンピューター可読媒体。
JP2018523830A 2016-03-25 2017-02-21 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 Expired - Fee Related JP6504590B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/081,337 US9704257B1 (en) 2016-03-25 2016-03-25 System and method for semantic segmentation using Gaussian random field network
US15/081,337 2016-03-25
PCT/JP2017/007263 WO2017163759A1 (en) 2016-03-25 2017-02-21 System and computer-implemented method for semantic segmentation of image, and non-transitory computer-readable medium

Publications (2)

Publication Number Publication Date
JP2018535491A JP2018535491A (ja) 2018-11-29
JP6504590B2 true JP6504590B2 (ja) 2019-04-24

Family

ID=58455587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018523830A Expired - Fee Related JP6504590B2 (ja) 2016-03-25 2017-02-21 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体

Country Status (3)

Country Link
US (1) US9704257B1 (ja)
JP (1) JP6504590B2 (ja)
WO (1) WO2017163759A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
JP6150964B1 (ja) * 2016-10-03 2017-06-21 三菱電機株式会社 ネットワーク構築装置及びネットワーク構築方法
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10699412B2 (en) * 2017-03-23 2020-06-30 Petuum Inc. Structure correcting adversarial network for chest X-rays organ segmentation
CN106886801B (zh) * 2017-04-14 2021-12-17 北京图森智途科技有限公司 一种图像语义分割方法及装置
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
JP6989688B2 (ja) * 2017-07-21 2022-01-05 トヨタ モーター ヨーロッパ セマンティック・インスタンス・セグメンテーションに使用されるニューラルネットワークを訓練するための方法およびシステム
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US11961001B2 (en) 2017-12-15 2024-04-16 Nvidia Corporation Parallel forward and backward propagation
JP6809495B2 (ja) * 2018-03-05 2021-01-06 株式会社デンソー 画像作成装置
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
CN109145939B (zh) * 2018-07-02 2021-11-02 南京师范大学 一种小目标敏感的双通道卷积神经网络语义分割方法
CN110163862B (zh) * 2018-10-22 2023-08-25 腾讯科技(深圳)有限公司 图像语义分割方法、装置及计算机设备
US11922690B2 (en) 2019-06-25 2024-03-05 Semiconductor Energy Laboratory Co., Ltd. Data processing system and data processing method
JP7148462B2 (ja) * 2019-07-19 2022-10-05 京セラ株式会社 画像認識評価プログラム、画像認識評価方法、評価装置及び評価システム
CN112288748B (zh) * 2019-07-25 2024-03-01 银河水滴科技(北京)有限公司 一种语义分割网络训练、图像语义分割方法及装置
US11263756B2 (en) * 2019-12-09 2022-03-01 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
US11361484B1 (en) 2020-12-04 2022-06-14 Argo AI, LLC Methods and systems for ground segmentation using graph-cuts
CN113657403B (zh) * 2021-10-18 2022-02-25 北京市商汤科技开发有限公司 图像处理方法及图像处理网络的训练方法
CN114332466B (zh) * 2022-03-11 2022-07-15 中国科学技术大学 图像语义分割网络持续学习方法、系统、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0766205B1 (fr) * 1995-09-29 2003-12-03 Koninklijke Philips Electronics N.V. Procédé et dispositif de traitement d'image, pour la détection automatique de régions d'un type prédéterminé de cancer dans une image d'intensité
US7729537B2 (en) * 2005-08-01 2010-06-01 Siemens Medical Solutions Usa, Inc. Editing of presegemented images/volumes with the multilabel random walker or graph cut segmentations
US8467599B2 (en) * 2010-09-02 2013-06-18 Edge 3 Technologies, Inc. Method and apparatus for confusion learning
US9344690B2 (en) * 2014-01-24 2016-05-17 Microsoft Technology Licensing, Llc Image demosaicing

Also Published As

Publication number Publication date
WO2017163759A1 (en) 2017-09-28
US9704257B1 (en) 2017-07-11
JP2018535491A (ja) 2018-11-29

Similar Documents

Publication Publication Date Title
JP6504590B2 (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
US11875268B2 (en) Object recognition with reduced neural network weight precision
US20210390653A1 (en) Learning robotic tasks using one or more neural networks
Jaafra et al. Reinforcement learning for neural architecture search: A review
JP6983937B2 (ja) 畳み込みニューラルネットワークにおける構造学習
JP6574503B2 (ja) 機械学習方法および装置
JP6807471B2 (ja) セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
JP6639700B2 (ja) マルチモーダルデジタル画像を生成する方法及びシステム
KR102693803B1 (ko) 2차원 이미지들로부터 3차원 객체 모델들의 생성
Chalasani et al. Deep predictive coding networks
CN110062934A (zh) 使用神经网络确定图像中的结构和运动
US20240037398A1 (en) Reinforcement learning-based techniques for training a natural media agent
JP2021535482A (ja) 深層学習ベースのコレジストレーション
WO2020151438A1 (zh) 神经网络的处理方法及评估方法、数据分析方法及装置
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
JP7536893B2 (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
JP6107531B2 (ja) 特徴抽出プログラム及び情報処理装置
Jaafra et al. A review of meta-reinforcement learning for deep neural networks architecture search
Tesfaldet et al. Attention-based neural cellular automata
CN110222817A (zh) 基于学习自动机的卷积神经网络压缩方法、系统及介质
CN110188621A (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
US20230342626A1 (en) Model processing method and related apparatus
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
JP2021527859A (ja) 深層領域拡張を使用した画像内の不規則形状のセグメント化
Bhattacharjya et al. A genetic algorithm for intelligent imaging from quantum-limited data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180509

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180509

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190319

R150 Certificate of patent or registration of utility model

Ref document number: 6504590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees