JP2018535491A

JP2018535491A - 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体

Info

Publication number: JP2018535491A
Application number: JP2018523830A
Authority: JP
Inventors: チュゼル、オンセル; ベムラパリ、ラビテジャ; リウ、ミン−ユ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-03-25
Filing date: 2017-02-21
Publication date: 2018-11-29
Anticipated expiration: 2037-02-21
Also published as: WO2017163759A1; JP6504590B2; US9704257B1

Abstract

画像のセマンティックセグメンテーションのためのコンピューター実施方法が、第１のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求め、第２のサブネットワークを用いて、画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求め、第３のサブネットワークを用いて、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求める。画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果、及び、本方法は、意味的セグメント化画像におけるピクセルに、第３のサブネットワークによって求められる確率の中で画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、画像を意味的セグメント化画像に変換する。第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークは、ニューラルネットワークの一部分である。

Description

本発明は、包括的には、コンピュータービジョン及び機械学習に関し、より詳細には、画像を意味的にラベル付けすることに関する。

画像におけるあらゆるピクセルのカテゴリラベルを予測することを目的としたセマンティックセグメンテーションは、シーンの理解のための重要なタスクである。セマンティックセグメンテーションは、意味クラスの視覚的外観の大きな変化と、視覚世界における様々なクラス間の複雑な相互作用とに起因する困難な問題である。近年、畳み込みニューラルネットワーク（ＣＮＮ(convolutional neural network)）が、この困難なタスクに効果的であることが示されている。しかしながら、畳み込みニューラルネットワークは、セマンティックセグメンテーション等の構造予測タスクには最適でない場合がある。なぜならば、構造予測タスクは、出力変数間の相互作用を直接モデル化するものではないからである。

様々なセマンティックセグメンテーション方法が、ＣＮＮ上で離散条件付き確率場（ＣＲＦ(conditional random field)）を用いる。ＣＮＮ及びＣＲＦを組み合わせることによって、これらの方法は、ＣＮＮが複雑な入力出力関係をモデル化する能力と、ＣＲＦが出力変数間の相互作用を直接モデル化する能力とを提供する。これらの方法の大部分は、ＣＲＦを別個の後処理ステップとして用いる。通常、ＣＮＮは、画像を処理してユーナリ（unary：単一）エネルギーを生成し、このユーナリエネルギーは、次に、ＣＲＦによって処理され、画像がラベル付けされる。しかしながら、ＣＲＦは、ＣＮＮと異なる動作原理を有する。そのことは、ＣＮＮをＣＲＦから切り離し、それらの合同トレーニングを妨げる。一般に、ＣＲＦは、手動で調節されるか、又は、ＣＮＮとは別にトレーニングされる。

ＣＲＦを後処理ステップとして用いることに代わる１つの方法は、離散ＣＲＦの推定手順をリカレントニューラルネットワークに変換することによって、離散ＣＲＦとともにＣＮＮをトレーニングするものである。しかしながら、一般に、離散ＣＲＦにおける推定は、ＣＲＦ定式化の離散的で微分不能な性質に起因して取り扱いにくい。そのために、その方法は、大域的最適保証を有せず、不十分なトレーニング結果をもたらす可能性がある近似推定手順を用いる。

本発明の幾つかの実施の形態は、畳み込みニューラルネットワーク（ＣＮＮ）及び離散条件付き確率場（ＣＲＦ）の組み合わせを用いて画像のセマンティックセグメンテーションを提供することが有利であるという認識に基づいている。一方、幾つかの実施の形態は、この組み合わせにおいて、ＣＲＦをニューラルネットワーク（ＮＮ(neural network)）と置き換えることが有利であるというさらなる別の認識に基づいている。そのような置き換えは、セマンティックセグメンテーションに参加する様々なサブネットワークを、合同でトレーニングすることができる共通のニューラルネットワーク内に接続することができる。しかしながら、ＮＮを用いてＣＲＦの演算をエミュレートすることは、ＣＲＦ定式化の離散的で微分不能な性質に起因して困難である。

幾つかの実施の形態は、最初に、ＣＲＦを、当該ＣＲＦのサブクラスであるガウス確率場（ＧＲＦ(Gaussian random field)）に置き換えることができるという認識に基づいている。ＧＲＦ推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像セグメンテーションが離散タスクであるにもかかわらず、ＧＲＦは、それでもセマンティックセグメンテーションに適している。

幾つかの実施の形態は、ニューラルネットワークを用いてＧＲＦ推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びＧＲＦ演算の双方は、連続かつ微分可能であるので、ＧＲＦの演算の連続性によって、ＧＲＦにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、ＧＲＦ推定中に適用されるそれらの代数的演算として逐次的に適用される。

そのために、実施の形態は、ユーナリエネルギーを求める第１のサブネットワークと、ペアワイズ（pairwise：対）エネルギーを求める第２のサブネットワークと、ＧＲＦ推定をエミュレートする第３のサブネットワークとを作成し、３つの全てのサブネットワークを合同でトレーニングする。

したがって、本発明の１つの実施形態は、画像のセマンティックセグメンテーションのためのコンピューター実施方法を開示する。本方法は、第１のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第２のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第３のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含み、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークの一部分である。本方法のステップは、プロセッサによって実行される。

更に別の実施形態は、画像のセマンティックセグメンテーションのためのシステムであって、前記画像及び意味的セグメント化画像を記憶する少なくとも１つの非一時的コンピューター可読メモリと、ガウス確率場（ＧＲＦ）ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、を備え、前記ＧＲＦネットワークは、画像における各ピクセルのユーナリエネルギーを求める第１のサブネットワークと、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第２のサブネットワークと、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成する第３のサブネットワークと、を備えるニューラルネットワークであり、前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換する、システムを開示する。

更に別の実施形態は、命令が記憶された非一時的コンピューター可読媒体であって、前記命令は、プロセッサによって実行されると、第１のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めることと、第２のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めることと、第３のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成することと、意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換することと、を含むステップを実行し、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされる、非一時的コンピューター可読媒体を開示する。

本発明の幾つかの実施形態による画像のセマンティックセグメンテーションのためのコンピューターシステムのブロック図である。本発明の幾つかの実施形態によるガウス確率場（ＧＲＦ）ニューラルネットワークを用いる画像ラベル付け（image labeling：画像ラベリング）を介したセマンティックセグメンテーションの概略図である。本発明の１つの実施形態による画像の意味的ラベル付け（semantic labeling：セマンティックラベリング）のためのコンピューター実施方法のブロック図である。本発明の１つの実施形態によるＧＲＦネットワークのブロック図である。本発明の幾つかの実施形態によるエネルギー関数の最小化の概略図である。本発明の１つの実施形態によるＧＲＦネットワークのブロック図である。本発明の１つの実施形態によるＧＲＦネットワークの実施態様の擬似コードである。本発明の１つの実施形態によるペアワイズエネルギーを求めるピクセルのペアを形成する方法のブロック図である。本発明の幾つかの実施形態による図４Ａの２部グラフ構造を利用するネットワークのブロック図である。本発明の幾つかの実施形態によって用いられるトレーニング方法の概略図である。本発明の幾つかの実施形態によって用いられるトレーニング方法のブロック図である。本発明の１つの実施形態によるトレーニングシステムのブロック図である。

図１Ａは、本発明の幾つかの実施形態による画像のセマンティックセグメンテーションのためのコンピューターシステム１００のブロック図を示す。コンピューターシステム１００は、記憶された命令を実行するように構成されたプロセッサ１０２と、このプロセッサによって実行可能な命令を記憶するメモリ１０４とを備える。プロセッサ１０２は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ１０４は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ１０２は、バス１０６を通じて１つ以上の入力デバイス及び出力デバイスに接続される。

図１Ｂは、本発明の幾つかの実施形態によるガウス確率場（ＧＲＦ）ニューラルネットワークを用いる画像ラベル付け（image labeling：画像ラベリング）を介したセマンティックセグメンテーションの概略図を示す。セマンティックセグメンテーションは、メモリ１０４に記憶された命令を実行するプロセッサ１０２によって実行することができる。ＧＲＦネットワーク１１４は、画像１６０の意味的ラベル付けを実行して、意味クラス、例えば、意味ラベル１７１、１７２、及び１７３を用いてラベル付けされたピクセルを有するセグメント化画像１７０を生成する。ＧＲＦネットワーク１１４は、ニューラルネットワークであり、ＧＲＦネットワーク１１４の少なくとも幾つかの演算は、ＧＲＦ推定の演算をエミュレートする。

ＧＲＦは、変数のガウス分布及び／又はガウス確率密度関数を伴う確率場である。１次元ＧＲＦは、ガウスプロセスとも呼ばれる。例えば、ＧＲＦネットワーク１１４は、画像１６０の各ピクセルの値を条件とする可能な意味ラベル１７１、１７２、及び１７３の確率密度をユーナリエネルギー及びペアワイズエネルギーを含むエネルギー関数のガウス分布としてモデル化し、エネルギー関数に関するガウス推定を実行して、画像の各ピクセルの各意味ラベルの確率を求める。

一般に、ガウス推定は、基礎をなすガウス分布の特性（例えば、平均又は共分散）を求めることを指す。この場合、このガウス分布は、画像のピクセルが異なる意味クラスに属する確率を規定する統計的変数によって形成される。そのために、ユーナリエネルギー及びペアワイズエネルギーは、ピクセルの意味ラベルの確率の関数である。例えば、幾つかの実施形態では、ガウス推定は、ユーナリエネルギー及びペアワイズエネルギーを用いて規定されるガウス分布の平均を求める。

幾つかの実施形態は、最初に、ＣＲＦを、当該ＣＲＦのサブクラスであるＧＲＦに置き換えることができるという認識に基づいている。ＧＲＦ推定の演算は、連続かつ微分可能であり、最適に解くことができる。画像のセマンティックセグメンテーションが離散タスクであるにもかかわらず、ＧＲＦは、それでもセマンティックセグメンテーションに適している。

コンピューターシステム１００は、元画像１１０を記憶するように適合された記憶デバイス１０８、元画像をフィルタリングして、セグメンテーションに適した画像１６０を生成するフィルター１１２を備えることもできる。例えば、このフィルターは、元画像をサイズ変更して、トレーニングデータの画像と位置合わせすることができる。記憶デバイス１０８は、ＧＲＦネットワーク１１４の構造及びパラメーターも記憶することができる。様々な実施形態では、ＧＲＦネットワーク１１４は、トレーニング画像のセット及び対応するトレーニング意味ラベルのセットに関してトレーニングされる。

記憶デバイス１０８は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。コンピューターシステム１００内のヒューマンマシンインターフェース１１６は、システムをキーボード１１８及びポインティングデバイス１２０に接続することができ、ポインティングデバイス１２０は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチ画面を含むことができる。コンピューターシステム１００は、当該システム１００をディスプレイデバイス１２４に接続するように適合されたディスプレイインターフェース１２２にバス１０６を通じてリンクすることができ、ディスプレイデバイス１２４は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。

コンピューターシステム１００は、当該システムを撮像デバイス１２８に接続するように適合された撮像インターフェース１２６に接続することもできる。１つの実施形態では、セマンティックセグメンテーション用の画像は、この撮像デバイスから受信される。撮像デバイス１２８は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。プリンターインターフェース１３０も、バス１０６を通じてコンピューターシステム１００に接続することができ、コンピューターシステム１００を印刷デバイス１３２に接続するように適合させることができ、印刷デバイス１３２は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、ＵＶプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー１３４は、コンピューターシステム１００を、バス１０６を通じてネットワーク１３６に接続するように適合されている。ネットワーク１３６を通じて、電子テキスト及び撮像入力文書のうちの一方又は組み合わせを含む画像１３８をダウンロードし、記憶及び／又は更なる処理のためにコンピューターの記憶システム１０８内に記憶することができる。

説明を容易にするために、本開示は、太字体小文字を用いてベクトルを示し、太字体大文字を用いて行列を示す。

及び

は、行列

の転置行列及び逆行列を示す。表記

は、ベクトル

の二乗

ノルムを示す。

は、

が対称半正定値行列（symmetric and positive semidefinite matrix）であることを意味する。

ニューラルネットワークは、生物学的なニューラルネットワークによってインスパイアされたモデルのファミリーであり、多数の入力に依存する可能性があり一般に未知である関数を推定又は近似するのに用いられる。ニューラルネットワークは、一般に、互いの間でメッセージを交換する相互接続されたノード又は「ニューロン」のシステムとして提供される。各ノードは、メッセージを変換する関数に関連付けられている。この関数は、通常、メッセージ変換の非線形部分を形成するために非線形である。ノード間の各接続は、メッセージ変換の線形部分を形成するためにメッセージをスケーリングする数値重みに関連付けられる。通常、これらの関数は、全てのノードについて固定され、事前に定められ、例えば、ニューラルネットワークの設計者によって選択されている。ノードについて通常選択される関数の例には、シグモイド関数及び整流関数が含まれる。これとは対照的に、数値重みは異なり、トレーニングデータに基づいて調節され、ニューラルネットワークを入力に適応したものとするとともに学習可能なものにする。

幾つかの実施形態は、ニューラルネットワークを用いてＧＲＦ推定の演算をエミュレートすることが可能であるという認識に基づいている。ニューロン演算及びＧＲＦ演算の双方は、連続かつ微分可能であるので、ＧＲＦの演算の連続性によって、ＧＲＦにおける各代数的演算を幾つかのニューロン演算に置き換えることが可能になる。これらのニューロン演算は、ＧＲＦ推定中に適用されるそれらの代数的演算として逐次的に適用される。

セマンティックセグメンテーションは、画像

１６０における各ピクセルを、画像１７０におけるＫ個の可能なクラスのうちの１つに割り当てる。そのような割り当ては、本明細書では、意味的ラベル付けと呼ばれる。意味的ラベル付けが行われた後、ピクセルの意味的ラベル付けの結果は、画像のセマンティックセグメンテーションを生成する。幾つかの実施形態は、Ｋ個の変数（各クラスにつき１つ）を用いて、各ピクセルにおける出力をモデル化し、最終ラベル割り当ては、これらのＫ個の変数のうちのいずれが最大値、例えば、確率の値を有するのかに基づいて行われる。第ｉのピクセルに関連付けられたＫ個の出力変数のベクトルを

とし、全ての出力変数のベクトルを

とする。例えば、条件付き確率密度

は、以下の式によって与えられるガウス分布としてモデル化することができる。

上記エネルギー関数Ｅにおける第１項は、ユーナリエネルギーを表すユーナリ項であり、第２項は、ペアワイズエネルギーを表すペアワイズ項である。ここで、各ピクセルｉのユーナリエネルギーパラメーター

及び第１のピクセルｉと第２のピクセルｊとの間のペアワイズエネルギーパラメーター

の双方は、θ_ｕ及びθ_ｐがそれぞれの関数パラメーターである入力画像

の関数を用いて計算される。ピクセルの全てのペアについて

を有する実施形態では、ユーナリ項及びペアワイズ項を互いに組み合わせて、単一の半正定値二次形式にすることができる。

図１Ｃは、本発明の１つの実施形態による画像の意味的ラベル付けの方法のブロック図を示している。本方法は、プロセッサ１０２によって実行されるＧＲＦネットワーク１１４によって実行することができる。本方法は、画像における各ピクセルのユーナリエネルギー１８５を求め（１８０）、画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギー１９５を求める（１９０）。次に、本方法は、ユーナリエネルギー１８５及びペアワイズエネルギー１９５を処理することによって画像のＧＲＦ推定１７６を求める（１７５）。例えば、幾つかの実施形態では、ＧＲＦ推定は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にすることによって求められる。

様々な実施形態では、ユーナリエネルギー１８５は、第１のサブネットワークを用いて求められ（１８０）、ペアワイズエネルギー１９５は、第２のサブネットワークを用いて求められ（１９０）、ＧＲＦ推定１７６は、第３のサブネットワークを用いて求められる（１７５）。これらの第１のサブネットワーク、第２のサブネットワーク、及び第３のサブネットワークは、ニューラルネットワークの一部分である。そのような方法では、ニューラルネットワークの全てのパラメーターを合同でトレーニングすることができる。

ＧＲＦ推定は、画像における各ピクセルの意味ラベルの確率を規定する。例えば、本発明の幾つかの実施形態では、ユーナリエネルギー１８５は、第１のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第１の関数であり、ペアワイズエネルギー１９５は、第２のサブネットワークを用いて求められるピクセルの意味ラベルの確率の第２の関数である。そのために、本方法は、意味的セグメント化画像１７０におけるピクセルに、第３のサブネットワークによって求められる確率の中で画像１６０における対応するピクセルの最も高い確率を有する意味ラベルを割り当てる（１９６）ことによって、画像１６０を意味的セグメント化画像１７０に変換する。ここで、第１のサブネットワーク、第２のサブネットワーク。

エネルギー関数Ｅを最小にする最適な意味ラベル

は、閉形式で取得することができる。なぜならば、Ｅの最小化は制約なし２次計画法であるからである。しかしながら、この閉形式解は、クラスの数にピクセルの数を乗算したものに等しい数の変数を有する線形システムを解くことを必要とする。幾つかの実施形態は、そのような大規模な線形システムを解くことは計算上法外であり得るという認識に基づいている。それらの実施形態では、第３のサブネットワークは、ガウス平均場（ＧＭＩ(Gaussian mean field)）推定の演算をエミュレートすることによってＧＲＦ推定を求める。

図２Ａは、本発明の１つの実施形態によるＧＲＦネットワークのブロック図を示す。この実施形態では、ＧＲＦネットワークは、３つのサブネットワーク、すなわち、ユーナリエネルギー１８５を求めるユーナリネットワーク２０１としてトレーニングされる第１のサブネットワークと、ペアワイズエネルギー１９５を求めるペアワイズネットワーク２０２としてトレーニングされる第２のサブネットワークと、エネルギー関数を最小にする平均場推定更新を求めるＧＭＩネットワーク２０３である第３のサブネットワークとを備える。ユーナリネットワーク及びペアワイズネットワークは、エネルギー関数式（１）のユーナリ項及びペアワイズ項においてそれぞれ用いられるパラメーター

及び

を生成する一方、ＧＭＩネットワークは、ユーナリネットワーク及びペアワイズネットワークの出力を用いてガウス平均場推定を実行する。

１つの実施形態では、平均

を計算する平均場更新は、以下の式によって与えられる。

ここで、これらの更新は、各ピクセルｉについて逐次的に実行される。エネルギー関数は、ＧＲＦの場合には凸二次であり、式（２）の更新は、各部分問題(sub-problem)を最適に解く。すなわち、他の全ての

（又は

）が固定されているときの最適な

（又は

）を見つける。そのために、逐次的な更新を実行して最大事後確率（ＭＡＰ(maximum a posteriori)）解を与えることが保証される。

図２Ｂは、本発明の幾つかの実施形態によるＮＮを含有するエネルギー関数の最小化の概略図を示す。エネルギー関数２１０は、ユーナリエネルギー１８５及びペアワイズエネルギー１９５の組み合わせを含む。エネルギー関数の一例は、式（１）の関数である。第３のサブネットワーク２０３の各層２３１、２３２、２３３、２３４、２３５、及び２３６は、エネルギー関数２１０を最小にする平均場推定更新を再帰的に求める。再帰的最小化の例は、式（２）に提供されている。サブネットワーク２０３における層の数は、更新の所望の反復数に基づいて選択することができる。

図３Ａは、本発明の１つの実施形態によるＧＲＦネットワークのブロック図を示す。この実施形態では、第１のサブネットワーク２０１は、パラメーター

を有するユーナリＣＮＮ３０５と本明細書では呼ばれる畳み込みＮＮ（ＣＮＮ）である。ユーナリＣＮＮは、画像１６０の各ピクセルについて、そのピクセルの近傍にあり、かつ、そのピクセルが各可能な意味ラベルに属する確率を生成するピクセルのサブセットを入力として受信する。例えば、このサブセットのピクセルは、そのピクセルを中心とする矩形パッチのピクセルとすることができる。

この実施形態では、ユーナリエネルギーパラメーター

３０６は、ピクセルの近傍にあるピクセルのサブセットの関数を用いて計算され、式（１）のエネルギー関数のユーナリ項において用いられる。例えば、ユーナリエネルギー関数は、二次関数

である。ここで、

は、ユーナリＣＮＮを通じて計算されるユーナリエネルギーパラメーターであり、θ_ｕは、線形フィルターのパラメーターであり、

は、意味ラベルの確率であり、ｉは、ピクセルのインデックスである。ユーナリＣＮＮは、畳み込み演算を実行する一連の線形フィルターを各層への入力に適用し、少なくとも幾つかの層において、各線形フィルターの出力の非線形関数を適用する。

例えば、１つの実施態様では、ユーナリＣＮＮ３０５は、オックスフォードビジュアルジオメトリグループ（Oxford Visual Geometry Group）（ＶＧＧ−１６）ネットワークの変更版である。ＶＧＧ−１６と比較した変更点には、完全接続層を畳み込み層に変換することと、ダウンサンプリング層をスキップすることと、例えば、第４のプーリング層後の畳み込み層を変更して、ダウンサンプリングをスキップすることによる視野の損失を補償することと、マルチスケール特徴量を用いることとが含まれる。

第２のサブネットワーク（すなわち、ペアワイズネットワーク）２０２は、式（１）のエネルギー関数のペアワイズ項において用いられる行列

３１０を求めるパラメーター

を有するペアワイズＣＮＮ３０１を備える。例えば、ペアワイズネットワーク２０２は、ペアワイズＣＮＮ３０１を用いてペアのピクセル間の類似度を求め、この類似度に基づいて共分散行列を求め、この共分散行列の関数としてペアワイズエネルギーを求める。

例えば、ペアワイズネットワーク２０２は、ペアの第１のピクセルｉの近傍の第１のピクセルのサブセットを処理して、第１のピクセルの特徴量

を生成する（３０２）とともに、ペアの第２のピクセルｊの近傍の第２のピクセルのサブセットを処理して、第２のピクセルの特徴量

を生成する（３０２）。ペアワイズネットワーク２０２は、第１の特徴量と第２の特徴量との間の差の関数を求めて類似度ｓ_ｉｊを生成し（３０３）、ペアワイズエネルギーを共分散行列

として以下の式に従って求める（３０４）。

ここで、ｓ_ｉｊ∈［０，１］は、ピクセルｉとピクセルｊとの間の類似度であり、学習された行列

は、クラス適合性情報（class compatibility information）を符号化する。類似度ｓ_ｉｊは、以下の式に従って求めることができる（３０３）。

ここで、

（３０２）は、ペアワイズＣＮＮ３０１を用いて第ｉのピクセルにおいて抽出された特徴量ベクトルであり、学習された行列

は、距離関数、例えばマハラノビス（Mahalanobis）距離関数を規定する。

ペアワイズＣＮＮの構造は、ユーナリＣＮＮと同じものとすることができる。幾つかの実施形態では、ｓ_ｉｊの指数は以下となる。

ここで、

である。この実施形態では、マハラノビス距離計算は、

とフィルター

との畳み込み及びその後に続くユークリッド距離計算として実施される。

１つの実施形態では、ペアワイズネットワーク２０２は、ピクセル特徴量

を生成するペアワイズＣＮＮと、接続されたピクセルのあらゆるペアのｓ_ｉｊを式（４）及び／又は式（５）を用いて計算する類似層３０３と、行列

を式（３）を用いて計算する行列生成層３０４とを備える。この実施形態では、

は、類似層３０３のパラメーターであり、

は、行列生成層３０４のパラメーターである。

ＧＭＩ２０３は、ユーナリエネルギー及びペアワイズエネルギーの組み合わせを含むエネルギー関数が最小になるような各ピクセルの意味ラベルの確率を反復して求める。各ピクセルにおける最終出力は、Ｋ次元クラス予測スコアベクトル３０７である。ここで、Ｋはクラスの数である。第ｉのピクセルにおける最終出力を

とする。その場合、第ｉのピクセルの意味ラベルは、

３０８によって与えられる。

図３Ｂは、本発明の１つの実施形態によるＧＲＦネットワークの実施態様の擬似コードである。

図４Ａは、本発明の１つの実施形態によるペアワイズエネルギーを求める画像１６０のピクセルのペアを形成する方法のブロック図を示す。この実施形態は、画像１６０におけるピクセルの全ての可能なペアのペアワイズエネルギーを求めることが、多数の変数に起因して計算を遅くするという理解に基づいている。全てのピクセルの並列更新を同時に用いることが、合理的な代替案であるように見えるが、並列更新の収束は、限られた条件下でしか保証されない。

この問題に対処するために、実施形態は２部グラフ構造を用いる。この２部グラフ構造によって、各ステップにおいて変数の半分を並列に更新することが可能になるとともに、それでも、対角優位制約なしの収束が保証される。例えば、実施形態は、ピクセルの列又は行のインデックスのパリティに基づいて画像１６０におけるピクセルを奇数ピクセル又は偶数ピクセルに分割し（４２０）、ピクセルの各ペアにおいて、第１のピクセルが奇数ピクセルであり、第２のピクセルが偶数ピクセルであるようにピクセルのペアを形成する（４３０）。例えば、ピクセル４１０は、ピクセル４１１、４１２、４１３、及び４１４等のより大きな黒色の円を用いて示された７×７空間近傍内のピクセルとのみペアリングされる。

幾つかの実施態様では、グラフィカルモデルは各ピクセルのノードを有し、各ノードはＫ個の変数のベクトルを表す。式（２）を用いて第ｉのノードを更新するために、実施形態は、第ｉのノードに接続された他の全てのノード（すなわち、非ゼロの

を有する全てのノード）を固定した状態にしておく。画像を奇数列及び偶数列（又は奇数行及び偶数行）に分割するとともに、分割した部分内のエッジを回避することによって、偶数列（又は偶数行）を固定した状態のままで全ての奇数列（又は奇数行）を、式（２）を用いて並列に更新することが可能になり、また、その逆も可能になる。この交互の最小化を最適に解いて、大域的最適に収束することができる。

図４Ｂは、本発明の幾つかの実施形態による図４Ａの２部グラフ構造を利用するＧＭＩネットワーク４４０のブロック図を示す。ＧＭＩネットワーク４４０は、ユーナリネットワーク及びペアワイズネットワークの出力を用いて固定数のガウス平均場更新を実行する。このネットワークへの入力は、ユーナリ出力

を用いて初期化される。

ＧＭＩネットワーク４４０は、連続的に組み合わされた幾つかのＧＭＩ層４０１を備える。各層は、２つの副層、すなわち、偶数更新副層４０２と、これに後続又は先行する奇数更新副層４０３とを有する。偶数更新副層４０２は、先行層の出力を入力として取り込み、奇数ピクセルノードを固定した状態のままで式（２）を用いて偶数ピクセルノードを更新する。同様に、奇数更新副層は、偶数更新副層の出力を入力として取り込み、偶数ピクセルノードを固定した状態のままで式（２）を用いて奇数ピクセルノードを更新する。奇数更新副層及び偶数更新副層の順序は逆にすることができる。

２部グラフ構造に起因して、上記副層のそれぞれによって実行される更新は、最適な更新であり得る。したがって、本発明者らのＧＭＩネットワークの各層は、その入力と比較してＭＡＰ解により近い出力を生成することが保証される（入力自体がＭＡＰ解でない場合であり、入力自体がＭＡＰ解である場合に、出力は入力に等しい）。

トレーニング
ＧＲＦネットワーク１１４は、相互接続されたサブネットワークを備えるので、ＧＲＦネットワーク１１４のこれらの様々なサブネットワークを合同でトレーニングすることができる。例えば、図３Ａのユーナリネットワーク、ペアワイズネットワーク及びＧＭＩネットワークの組み合わせをエンドツーエンド形式でトレーニングすることができる。１つの実施形態は、ＧＭＩネットワーク内の固定数の層を用いる。層が有限個であるので、ＧＲＦネットワークの出力は、潜在的に準最適であり得る。一方、実施形態は、ＧＲＦネットワーク全体をエンドツーエンド形式で弁別的にトレーニングするので、ユーナリネットワーク及びペアワイズネットワークは、固定数の平均場更新後の出力が最適解に近づくように近似的なユーナリエネルギーパラメーター

及びペアワイズエネルギーパラメーター

を生成するように学習する。

図５は、本発明の幾つかの実施形態によって用いられるトレーニングの概略図を示す。トレーニング５１０は、画像のペアのトレーニングセット５０１と、対応する意味的セグメント化画像５０２とを用いて、ＧＲＦネットワークのパラメーター５２０を生成する。一般に、人工ニューラルネットワークをトレーニングすることは、トレーニングセットを考慮して、「学習」アルゴリズムと呼ばれることがあるトレーニングアルゴリズムを人工ニューラルネットワークに適用することを含む。トレーニングセットは、入力の１つ以上のセットと、出力の１つ以上のセットとを含むことができ、入力の各セットは、出力の１つのセットに対応する。トレーニングセットにおける出力のセットは、対応する入力のセットが人工ニューラルネットワークに入力され、人工ニューラルネットワークがその後フィードフォワード形式で動作されたときに人工ニューラルネットワークが生成することが望まれる出力のセットを含む。ニューラルネットワークをトレーニングすることは、パラメーター、例えば、人工ニューラルネットワークにおける接続に関連付けられた重み値を計算することを伴う。例えば、ＧＲＦネットワークのパラメーターは、ユーナリネットワークパラメーター

と、ペアワイズネットワークパラメーター

とを含むことができる。

図６は、本発明の幾つかの実施形態によって用いられるトレーニング方法５１０のブロック図を示す。本方法は、ＧＲＦネットワーク１１４を用いてセット５０１からの画像６１０を処理して意味的セグメント化画像６３０を生成し、この意味的セグメント化画像６３０を、セット５０２からの対応する意味的セグメント化画像６２０と比較して、これらの２つの意味的セグメント化画像間の距離を生成する（６４０）。例えば、１つの実施形態は、各ピクセルにおける以下の損失関数を求める。

ここで、ｌ_ｉは、距離６４０としての真のクラスラベルである。この損失関数は、基本的に、真のクラスに関連付けられた出力をマージンＴによって他の全てのクラスに関連付けられた出力よりも大きくなるように促進する。

そのために、実施形態は、損失関数を最小にすることによってＧＲＦネットワーク１１４を弁別的にトレーニングする。例えば、トレーニングは、ネットワークパラメーターの勾配を計算するバックプロパゲーションを用いて実行される。トレーニングは、パラメーター

に対する対称半正定値性制約に起因した制約付き最適化を含むことができる。１つの実施形態は、

を

としてパラメーター化することによってこの制約付き最適化を制約なし最適化に変換し、確率的勾配降下法を最適化に用いる。ここで、

は、下三角行列である。

図７は、本発明の１つの実施形態によるトレーニングシステムのブロック図を示す。このトレーニングシステムは、バス２２によって読み出し専用メモリ（ＲＯＭ）２４及びメモリ３８に接続されたプロセッサを備える。このトレーニングシステムは、ユーザーに情報を提示するディスプレイ２８と、キーボード２６、マウス３４及び入力／出力ポート３０を介して取り付けることができる他のデバイスを含む複数の入力デバイスとを備えることもできる。他のポインティングデバイス又は音声センサー若しくは画像センサー等の他の入力デバイスも取り付けることができる。他のポインティングデバイスは、タブレット、数値キーパッド、タッチ画面、タッチ画面オーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。Ｉ／Ｏ３０は、通信ライン、ディスク記憶装置、入力デバイス、出力デバイス又は他のＩ／Ｏ機器に接続することができる。メモリ３８は、表示画面のピクセル強度値を含むディスプレイバッファー７２を備える。ディスプレイ２８は、ディスプレイバッファー７２からピクセル値を周期的に読み出し、これらの値を表示画面上に表示する。ピクセル強度値は、グレーレベルを表すこともできるし、カラーを表すこともできる。

メモリ３８は、データベース９０、トレーナー８２、ＧＲＦ１１４、プリプロセッサ８４を含む。データベース９０は、履歴データ１０５、トレーニングデータ、テストデータ９２を含むことができる。データベースは、ニューラルネットワークを用いる動作モード、トレーニングモード又は保持モードからの結果も含むことができる。これらの要素は、上記で詳細に説明されている。

メモリ３８には、オペレーティングシステム７４も示されている。オペレーティングシステムの例には、ＡＩＸ、ＯＳ／２、及びＤＯＳが含まれる。メモリ３８に示されている他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバー７６を含む。ワーキングメモリエリア７８もメモリ３８に示されている。ワーキングメモリエリア７８は、メモリ３８に示された要素のいずれもが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク１０１、トレーナー８２、オペレーティングシステム７４及び他の機能が利用することができる。ワーキングメモリエリア７８は、要素間で分割することもできるし、或る要素内において分割することもできる。ワーキングメモリエリア７８は、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶に利用することができる。

本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピューターに設けられるのか又は複数のコンピューター間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、幾つかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、１つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する１つの請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

画像のセマンティックセグメンテーションのためのコンピューター実施方法であって、
第１のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
第２のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
第３のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成するステップと、
意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
を含み、前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークの一部分であり、該方法の各前記ステップは、プロセッサが実行する、方法。
前記意味的セグメント化画像を非一時的コンピューター可読メモリにレンダリングすること、
を更に含む、請求項１に記載の方法。
前記第３のサブネットワークは、該第３のサブネットワークの各層が、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にする平均場推定更新を再帰的に求めるようにガウス平均場（ＧＭＩ）推定の演算をエミュレートすることによってＧＲＦ推定結果を求める、請求項１に記載の方法。
前記画像における各ピクセルについて、前記第１のサブネットワークは、前記画像における該ピクセルの近傍のピクセルのサブセットを入力として受信し、該ピクセルのユーナリエネルギーパラメーターを生成し、前記ユーナリエネルギーは、前記画像における各ピクセルの前記ユーナリエネルギーパラメーターと、各可能な意味ラベルに属する前記画像における各ピクセルの確率との関数である、請求項１に記載の方法。
畳み込み演算を実行する一連の線形フィルターを前記第１のサブネットワークの各層への入力に適用することと、
前記第１のサブネットワークの幾つかの層において、各線形フィルターの出力のための非線形関数を適用することと
を更に含む、請求項４に記載の方法。
前記ユーナリエネルギー関数は、二次関数

であり、ここで、

は、前記第１のサブネットワークを通じて計算される前記ユーナリエネルギーパラメーターであり、θ_ｕは、前記線形フィルターのパラメーターであり、

は、前記意味ラベルの前記確率であり、ｉは、前記ピクセルのインデックスである、請求項５に記載の方法。
前記ピクセルのサブセットは、前記画像における前記ピクセルを中心とする矩形パッチである、請求項４に記載の方法。
前記画像のピクセルのペアのペアワイズエネルギーを求める前記ステップは、
前記画像における前記ペアの前記ピクセル間の類似度を求めることと、
前記類似度に基づいて共分散行列を求めることと、
前記ペアワイズエネルギーを前記共分散行列の関数として求めることと
を含む、請求項１に記載の方法。
前記類似度を前記求めることは、
前記第２のサブネットワークを用いて、前記ペアの第１のピクセルｉの近傍の第１のピクセルのサブセットを処理して、前記第１のピクセルの特徴量

を生成することと、
前記第２のサブネットワークを用いて、前記ペアの第２のピクセルｊの近傍の第２のピクセルのサブセットを処理して、前記第２のピクセルの特徴量

を生成することと、
前記第１の特徴量と前記第２の特徴量との間の差の関数を求めて前記類似度ｓ_ｉｊを生成することと
を含む、請求項８に記載の方法。
前記画像における前記ピクセルの列又は行のインデックスのパリティに基づいて、前記画像における前記ピクセルを奇数ピクセル又は偶数ピクセルに分割することと、
前記ピクセルの各ペアにおいて、前記第１のピクセルが前記奇数ピクセルであり、前記第２のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成することと
を更に含む、請求項９に記載の方法。
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、合同でトレーニングされる、請求項１に記載の方法。
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、トレーニング画像のセットと、対応するトレーニング意味ラベルのセットとの損失関数を最小にするように合同でトレーニングされる、請求項１に記載の方法。
画像のセマンティックセグメンテーションのためのシステムであって、
前記画像及び意味的セグメント化画像を記憶する少なくとも１つの非一時的コンピューター可読メモリと、
ガウス確率場（ＧＲＦ）ネットワークを用いて前記画像のセマンティックセグメンテーションを実行して、前記意味的セグメント化画像を生成するプロセッサと、
を備え、
前記ＧＲＦネットワークは、
画像における各ピクセルのユーナリエネルギーを求める第１のサブネットワークと、
前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求める第２のサブネットワークと、
前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成する第３のサブネットワークと、
を備えるニューラルネットワークであり、
前記プロセッサは、意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換する、システム。
前記第３のサブネットワークは、該第３のサブネットワークの各層が、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にする平均場推定更新を再帰的に求めるようにガウス平均場（ＧＭＩ）推定の演算をエミュレートすることによってＧＲＦ推定結果を求める、請求項１３に記載のシステム。
前記画像における各ピクセルについて、前記第１のサブネットワークは、前記画像における該ピクセルの近傍のピクセルのサブセットを入力として受信し、該ピクセルのユーナリエネルギーパラメーターを生成し、前記ユーナリエネルギーは、前記画像における各ピクセルの前記ユーナリエネルギーパラメーターと、各可能な意味ラベルに属する前記画像における各ピクセルの確率との関数である、請求項１３に記載のシステム。
前記第２のサブネットワークは、
前記画像における前記ペアの前記ピクセル間の類似度を求め、
前記類似度に基づいて共分散行列を求め、
前記ペアワイズエネルギーを前記共分散行列の関数として求める、請求項１３に記載のシステム。
前記第２のサブネットワークは、
前記ペアの第１のピクセルｉの近傍の第１のピクセルのサブセットを処理して、前記第１のピクセルの特徴量

を生成することと、
前記ペアの第２のピクセルｊの近傍の第２のピクセルのサブセットを処理して、前記第２のピクセルの特徴量

を生成することと、
前記第１の特徴量と前記第２の特徴量との間の差の関数を求めて前記類似度ｓ_ｉｊを生成することと
によって前記類似度を求める、請求項１６に記載のシステム。
前記プロセッサは、
前記画像における前記ピクセルの列又は行のインデックスのパリティに基づいて、前記画像における前記ピクセルを奇数ピクセル又は偶数ピクセルに分割し、
前記ピクセルの各ペアにおいて、前記第１のピクセルが前記奇数ピクセルであり、前記第２のピクセルが前記偶数ピクセルであるように、前記ピクセルのペアを形成する、請求項１６に記載のシステム。
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、合同でトレーニングされる、請求項１３に記載のシステム。
命令が記憶された非一時的コンピューター可読媒体であって、前記命令は、プロセッサによって実行されるときに、
第１のサブネットワークを用いて、画像における各ピクセルのユーナリエネルギーを求めるステップと、
第２のサブネットワークを用いて、前記画像のピクセルの少なくとも幾つかのペアのペアワイズエネルギーを求めるステップと、
第３のサブネットワークを用いて、前記ユーナリエネルギー及び前記ペアワイズエネルギーの組み合わせを含むエネルギー関数を最小にするガウス確率場（ＧＲＦ）に関する推定結果を求めて、前記画像における各ピクセルの意味ラベルの確率を規定するＧＲＦ推定結果を生成するステップと、
意味的セグメント化画像におけるピクセルに、前記第３のサブネットワークによって求められる前記確率の中で前記画像における対応するピクセルの最も高い確率を有する意味ラベルを割り当てることによって、前記画像を前記意味的セグメント化画像に変換するステップと
を実行し、
前記第１のサブネットワーク、前記第２のサブネットワーク、及び前記第３のサブネットワークは、ニューラルネットワークの一部分として合同でトレーニングされる、非一時的コンピューター可読媒体。