JP2012529110A

JP2012529110A - 無作為多項ロジットを用いる意味場面区画

Info

Publication number: JP2012529110A
Application number: JP2012514018A
Authority: JP
Inventors: ランガナサン，アナンス
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-06-04
Filing date: 2010-05-28
Publication date: 2012-11-15
Anticipated expiration: 2030-05-28
Also published as: DE112010002232B4; DE112010002232T5; JP5357331B2; US20100310159A1; US8442309B2; WO2010141369A1

Abstract

【課題】画像レベルの特徴及び統計データが不充分である画像中にある、特に小さいサイズの被写体を検出し、その位置を決定する。
【解決手段】無作為多項ロジット（ＲＭＬ）分類装置を使用し、場面区画に当該装置を適用するシステム及び方法が開示される。システムは、画像テクストン化モジュール、特徴選択モジュール及びＲＭＬ分類装置を含む。画像テクストン化モジュールは、画像の被写体が事前にラベル付けされている訓練画像集合を受け取り、訓練画像集合から対応するテクストン画像を生成する。特徴選択モジュールは、テクストン画像から１又は複数のテクスチャレイアウト特徴を無作為に選択する。ＲＭＬ分類装置は、複数の多項ロジスティック回帰モデルを有し、選択されたテクスチャレイアウト特徴を使用して多項ロジスティック回帰モデルのそれぞれを学習し、学習済のモデルを、入力画像に対して適用し場面を区画する。
【選択図】図３Ａ

Description

本開示は、一般的には、画像処理システムにおける場面区画に関する。具体的には、多項ロジスティック回帰モデルを使用する意味場面区画に関する。

高度道路交通システムのようなコンピュータ画像分析において、共通タスクとは、取得された画像内の街路場面を分類することである。当該共通タスクは、道、他の車両又は歩行者を検出し、高度道路交通システムのユーザが潜在的に危険な状態にいると警告を発することが多い。取得された画像内で関心被写体を検出するには、一般的に、画像を関心領域に区分し、及び／又は、さらに関心領域を関心被写体に区分することが必要になる。

場面区画は、盛んに研究されている分野であり、ロボットシステム及び自動車システムでの適用例のように、現実世界の問題に対する広範囲の適応例を有する。１つの従来型場面区画方法は、特徴のコードブック、すなわちテクストン画像（texton image）のような離散表現を使用する。特徴のコードブックは、画像の空間的関係を用いて、又は画像の空間的関係を用いずに、全体画像又は画像の特定の領域をモデル化する。入力画像のテクストン（texton）は、離散化されたテクスチャ語である。このテクスチャ語は、入力画像をフィルタバンクに通し、フィルタバンクからの出力をクラスタリングすることによって知られる。当該方法の問題は、当該方法が専ら画像レベルの場面区画向けであるということである。そこで、画像レベルの特徴及び統計データが不充分である画像中において、特に小さいサイズの被写体を検出し、その位置を決定することが課題となる。

他の従来型場面区画方法は、入力画像のテクスチャレイアウト特徴を使用し、テクストンに影響を及ぼす特徴選択を促進する。当該従来型場面区画方法の一例は、テクストン生成及びテクストン分類の両者を目的とする、意味テクスチャ林（semantic texture forest）を使用する。このような特徴の数は非常に大きいので、当該方法において使用される場面区画エンジンの訓練は、非常に低速であり、訓練データ集合のサイズが大きくなるにつれて、そして、訓練データ集合内の被写体分類のバリエーションが増加するにつれて、このような場面区画の性能は低下する。

本発明の一実施形態に係る、無作為多項ロジット分類子を使用する、意味場面区画のためのコンピュータシステムの図である。本発明の一実施形態に係る、無作為多項ロジット分類子の多項ロジスティック回帰モデルを学習するフローチャートである。本発明の一実施形態に係る、意味場面区画の白黒図である。本発明の一実施形態に係る、意味場面区画の図３Ａの白黒図に対応するカラー図である。本発明の一実施形態に係る、画像テクストン化モジュールのブロック図である。本発明の一実施形態に係る、特徴選択の白黒図である。本発明の一実施形態に係る、特徴選択の図５Ａの白黒図に対応するカラー図である。本発明の一実施形態に係る、入力画像の意味場面区画のための、学習済の多項ロジスティック回帰モデルを適用するフローチャートである。

図を参照しつつ、本発明の実施形態を説明する。同じ参照番号は、同一の構成要素又は機能的に類似する構成要素を示す。

本明細書において、“一実施形態”又は“ある実施形態”と言う場合は、本発明の少なくとも１つの実施形態に、その実施形態に関連して記述される１つの特徴又は構造が含まれていることを意味する。本明細書のあちこちに“ある実施形態では”という語が出現しても、必ずしも同一の実施形態を指しているわけではない。

後記する詳細説明のいくつかの部分は、アルゴリズム用語や、コンピュータメモリ内のデータビット作業を示す象徴的な表現による。これらのアルゴリズム的な説明や表現は、情報処理分野の当業者が、自らの業績の要旨を、同分野の他の当業者に最も効率的に伝えるために用いる手段である。アルゴリズムとは、ここでは、そして一般的にも、ある所望の結果に至る複数のステップ（命令）の首尾一貫したシーケンスのことを言う。ステップとは、物理量に対する物理的操作を要求するステップのことである。通常、必ずしも必要条件ではないが、それらの数値は、記憶され、送信され、合成され、比較されかつ操作され得る、電子的、磁気的又は光学的信号の形を取る。これらの信号のことを、ビット、値、要素、シンボル、文字、語又は番号等と呼ぶことが主として用語の共通化の理由から便宜である。さらに、物理量に対する物理的操作を要求するステップの配列のうちいくつかのものは、一般性を失うことなく、モジュール又はコードデバイスと呼ぶことが便宜である。

しかしながら、このような用語の全ては適当な物理量と関連付けられており、これらの物理量に付された単なる便宜的なラベルに過ぎない。後記において特段の説明がない限り、明細書本文全体を通じて、“処理”、“計算”、“算出”、“決定”又は“表示”等の用語を用いた説明は、（電子的な）物理量としてのデータを、コンピュータシステムのメモリ、レジスタ又は他の情報ストレージのなかで操作しかつ変形するコンピュータシステムや同様の電子的コンピューティングデバイスの動作や処理のことを言う。

本発明のいくつかの側面は、アルゴリズムの形になったプロセスステップや命令を含む。本発明のプロセスステップや命令は、ソフトウエア、ファームウエア又はハードウエアによって実装され、ソフトウエアで実施される場合は、ダウンロードされることが可能であり、多様なオペレーティングシステムが用いる別のプラットフォームから操作されることも可能である。

本発明は、操作を実行する装置にも関する。この装置は、所与の目的を達成する専用装置であってもよいし、コンピュータに記憶されたコンピュータプログラムによって動作する汎用コンピュータであってもよい。このようなコンピュータプログラムは、コンピュータが読取り可能な媒体に記憶され得る。その媒体とは、コンピュータシステムバスに接続可能な、フロッピーディスク（登録商標）、光ディスク、ＣＤ−ＲＯＭ、電磁光学的ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、電磁的又は光学的カード、ＡＳＩＣ又は電子的命令を記憶し得るあらゆる媒体を含むが、これらに限定されない。さらに、本明細書で言うコンピュータは、単体のプロセッサを含んでもよいし、コンピュータ性能を増加させるために複数のプロセッサを用いた装置であってもよい。

ここでいうアルゴリズムやディスプレイは、もともと特定のコンピュータや他の装置に関係している訳ではない。ここで教示される内容に従って、プログラムとともに多様な一般目的システムが使用され得る。又は、必要とされる方法ステップを実行するためにさらに特化した装置を作成することも便宜である。これらのシステムのそれぞれについてどのような構成が必要となるかは、後記する明細書本文から明らかになる。さらには、本発明は特定のプログラム言語を参照して記載されるものではない。本発明の教示を実施するために、多様なプログラム言語が使用され得る。後記において特定の言語に言及した場合、それは本発明の実施可能性及びベストモードを開示するためである。

さらに、本明細書で使用される言語は、主として意味の取りやすさ及び教示目的から選択されているのであって、本発明の主旨を限定するために選択されているのではない。従って、本発明の開示は、特許請求の範囲にて記述されている本発明の範囲を例示するものであるが限定するものではない。

本発明の実施形態は、場面区画ごとに、無作為多項ロジット（ＲＭＬ）分類子を学習し、場面区画ごとに、入力画像に対し学習済のＲＭＬ分類子を適用する。ＲＭＬ分類子を使用する場面区画システムは、事前にラベル付けされた訓練画像集合を通じてＲＭＬ分類子を学習し、無作為に選択されたテクスチャレイアウト特徴によって、ＲＭＬ分類子が場面を区画する性能を増加させる。場面区画システムは、訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、訓練画像集合内のすべての画像を多重化し、クラスタリングすることによって、訓練画像を事前処理する。場面区画システムは、特徴に関連付けられた統計的に有意な測定値に基づいて、ＲＭＬ分類子によって使用される特徴を、無作為に選択されたテクスチャレイアウト特徴に置換する。ＲＭＬ分類子の多項ロジスティック回帰モデルのそれぞれは、選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定する。場面区画システムは、ＲＭＬ分類子の多項ロジスティック回帰モデルのそれぞれの確率分布を平均することによって、テクストン語ごとに、最終ラベルを生成する。学習済のＲＭＬ分類子は、場面区画ごとに入力画像に対して適用され得る。本明細書に開示する場面区画システムは、ロボットシステム及び自動車システムでの適用例のような、現実世界の問題に対する広範囲の適応例も有する。

開示されるシステム（及び方法）の一実施形態は、無作為多項ロジット（ＲＭＬ）分類子を学習し、場面区画ごとにＲＭＬ分類子を適用することを含む。システムは、画像テクストン化モジュール、特徴選択モジュール及びＲＭＬ分類子を含む。画像テクストン化モジュールは、画像の被写体が事前にラベル付けされている訓練画像集合を受け取る。画像テクストン化モジュールはさらに、訓練画像集合から、対応するテクストン画像を生成する。特徴選択モジュールは、テクストン画像から、１又は複数のテクスチャレイアウト特徴を無作為に選択する。ＲＭＬ分類子は、複数の多項ロジスティック回帰モデルを有する。ＲＭＬ分類子は、選択されたテクスチャレイアウト特徴を使用して、多項ロジスティック回帰モデルのそれぞれを学習する。ＲＭＬ分類子はさらに、場面区画ごとに、入力画像に対して、学習済の多項ロジスティック回帰モデルを適用する。
（システム概要）

図１は、本発明の一実施形態に係る無作為多項ロジット（ＲＭＬ）分類子１２６を使用する、意味場面区画のためのコンピュータシステム１００を示す。コンピュータシステム１００は、メモリ１２０、入力制御装置１３０、出力制御装置１４０及びプロセッサ１５０を有する。ある実施形態においては、コンピュータシステム１００は、訓練画像集合１１０Ａを受け取り、ＲＭＬ分類子を学習する。他の実施形態においては、コンピュータシステム１００は、学習済のＲＭＬ分類子１２６によって、場面区画ごとに入力画像１１０Ｂを受け取る。訓練画像集合１１０Ａは、複数の事前にラベル付けされた画像を有する。入力画像１１０Ｂは、コンピュータシステム１００によって場面区画ごとに受け取られた、任意の静止画像又はビデオフレームである。訓練画像集合１１０Ａを使用してＲＭＬ分類子１２６を学習することは、図２を参照しさらに後記される。入力画像１１０Ｂに対してＲＭＬ分類子１２６を適用することは、図６を参照しさらに後記される。

ある実施形態においては、訓練画像集合１１０Ａは、移動している自動車にカメラを取り付けて路上のオートバイを撮像することによって入手されたビデオシーケンスを有する。ビデオ画像は、移動している自動車のサイドバックミラー内でドライバーが視認するものと同じである。ビデオ画像は、撮像されるオートバイのタイプ、視点、ノイズの量及び照明の質の点で異なり得る。例えば、ある訓練画像集合１１０Ａは、全体で約５８００個のフレームを有する６個のビデオシーケンスから選択された６３個のフレームを含む。選択されたフレームは、オートバイ、道、空及びその他のような、それらのフレームが表す被写体のタイプに応じてラベル付けされる。事前にラベル付けされた訓練画像集合１１０Ａは、コンピュータシステム１００によって受け取られ、ＲＭＬ分類子１２６を学習する。ＲＭＬ分類子１２６の学習結果は、ＲＭＬ分類子１２６の性能を評価するために訓練画像集合１１０Ａのラベルと比較される。

メモリ１２０は、データ、及び／又は、プロセッサ１５０によって実行され得る命令を格納する。命令は、ここに記述される任意の及び／又はすべての技術を実行するためのコードを含む。メモリ１２０は、ＤＲＡＭ装置、静的ランダムアクセスメモリ（ＳＲＡＭ）、フラッシュ（登録商標）ＲＡＭ（非揮発性ストレージ）、これらの組合せ、又は、当業界で知られている他の記憶装置であってもよい。ある実施形態においては、メモリ１２０は、画像テクストン化モジュール１２２、特徴選択モジュール１２４、ＲＭＬ分類子１２６、及び、データストア１２８を有する。

画像テクストン化モジュール１２２は、入力画像から対応するテクストン画像を生成するためのコンピュータ実行可能な命令を有する。入力画像から生成されたテクストン画像は、複数の画素を有する画像である。テクストン画像内のそれぞれの画素値は、入力画像内の対応する画素値の代表値である。具体的には、入力画像の画素値のそれぞれは、代表値、例えば、クラスタ識別子に置換される。この代表値は、事前処理後の入力画像の画素値に対応する。例えば、入力画像は、フィルタバンクを用いて多重化され、入力画像の画素ごとに、１７次元ベクトルとなる。フィルタリング後の入力画像の１７次元ベクトルがクラスタリングされると、１７次元ベクトルのそれぞれは、当該ベクトルが属するクラスタの識別子（例えば、クラスタ番号）によって表される。入力画像の画素値のそれぞれが、対応するクラスタ識別子によって置換されると、テクストン画像が入手される。テクストン画像のそれぞれの画素は、テクスチャクラスタとも呼ばれるテクストン語である。画像テクストン化モジュール１２２は、図４を参照してさらに後記される。

特徴選択モジュール１２４は、図５Ａ及び図５Ｂを参照して後記される無作為テクスチャレイアウト特徴選択を実行するための、コンピュータ実行可能な命令を有する。テクスチャレイアウト特徴は、テクストン画像のうちの選択された部分、例えば、テクストン画像のうちの選択された長方形領域である。選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール１２４は、その画素値が所定のテクスチャクラスタのクラスタ識別子に等しい画素の百分率を算出する。図２、図３Ａ及び図３Ｂを参照して後記される、ＲＭＬ分類子１２６の複数の多項ロジスティック回帰モデルを学習し適用するためのコンピュータ実行可能な命令を、ＲＭＬ分類子１２６は有する。本発明のある実施形態においては、データストア１２８は、ＲＭＬ分類子１２６の学習結果及び／又は意味区画結果を格納する。

図２は、本発明の一実施形態に係る、無作為多項ロジット分類子１２６の多項ロジスティック回帰モデルを学習するフローチャートである。まず、コンピュータシステム１００は、複数の画像を含む訓練画像集合を受け取る（ステップ２１０）。ここでは、それぞれの画像は、オートバイ、道、空及びその他のような、画像内の被写体のタイプに応じてラベル付けされている。画像テクストン化モジュール１２２は、訓練画像集合内の画像から、対応するテクストン画像を生成する（ステップ２１２）。特徴選択モジュール１２４は、テクストン画像からテクスチャレイアウト特徴を無作為に選択し、選択されたテクスチャレイアウト特徴をＲＭＬ分類子１２６に送信する（ステップ２１４）。ＲＭＬ分類子１２６の多項ロジスティック回帰モデルのそれぞれは、テクストン画像の選択された特徴内の所与のテクストン語の確率分布をモデル化する（ステップ２１６）。ＲＭＬ分類子１２６は、多項ロジスティック回帰モデルの性能を評価する（ステップ２１８）。多項ロジスティック回帰モデルの性能が満足できるものである場合は、ＲＭＬ分類子１２６は、学習処理を終了する。それ以外の場合は、ＲＭＬ分類子１２６は、テクストン画像からテクスチャレイアウト特徴を新たに選択したうえで、学習処理を繰り返す（ステップ２２０）。

図３Ａは、本発明の一実施形態に係る、意味場面区画の白黒図である。まず、訓練画像集合３０２は、図２で記述された多項ロジスティック回帰モデルを学習するために、図１のコンピュータシステム１００に受け取られる。説明を単純化するために、図３Ａ及び図３Ｂにおいては、本来複数の画像を含む訓練画像集合は、１つの画像３０２として表される。同様に、対応するテクストン画像も１つのテクストン画像３０６として表され、ラベル付けされた出力（すなわち、訓練画像集合の画像に対応する場面区画された画像）も１つのラベル付けされた画像３１０として表される。訓練画像集合は、事前に処理され、多重化され、クラスタリングされ（３０４）、訓練画像集合の画像に対応するテクストン画像３０６を生成する。特徴選択モジュール１２４は、複数のテクスチャレイアウト特徴３０８（例えば、選択されたテクスチャレイアウト特徴を表す長方形）を無作為に選択し、これらをＲＭＬ分類子１２６に送信し、ＲＭＬ分類子１２６の多項ロジスティック回帰モデルを学習する。図３Ａにおいては、ＲＭＬ分類子１２６は、全部でＮ個の多項ロジスティック回帰モデルを有する。ここで、Ｎは、設計パラメータである。多項ロジスティック回帰モデルのそれぞれは、選択されたテクスチャレイアウト特徴内の所与のテクストン語の確率分布を算出し、入力画像３０２のラベル付けされた出力３１０を生成する。出力のラベルは、すべての入力画像の場面区画の結果を示す。図３Ｂは、本発明の一実施形態に係る、意味場面区画の図３Ａの白黒図に対応するカラー図である。
（ＲＭＬ画像テクストン化）

図４は、本発明の一実施形態に係る、画像テクストン化モジュール１２２のブロック図である。図４の実施形態においては、画像テクストン化モジュール１２２は、画像事前処理モジュール４１０、画像多重化モジュール４２０及び画像クラスタリングモジュール４３０を含む。画像テクストン化モジュール１２２は、訓練画像集合を事前処理し、事前処理された訓練画像集合を多重化し、クラスタリングすることによって、訓練画像集合から対応するテクストン画像を生成する。

一般に、複数の画像からなる画像集合は、訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを含む。コントラストのばらつき及び輝度のばらつきは、テクスチャ算出に対して悪影響を与え得る。画像事前処理モジュールジュール４１０は、テクスチャ算出の前に、画像集合内のコントラストのばらつき及び輝度のばらつきを除去する。具体的には、画像事前処理モジュールジュール４１０は、処理後の画像が平坦化されたヒストグラムとなりゼロ平均単位標準偏差を有するように、画像集合内の画像を処理する。

画像多重化モジュール４２０は、フィルタバンクを用いて、事前処理された訓練画像集合を多重化する。ある実施形態においては、画像多重化モジュール４２０は、１７次元のフィルタバンクを使用する。フィルタバンクは、縮尺ｋ、２ｋ及び４ｋではガウシアンからなり、縮尺２ｋ及び４ｋではｘ軸及びｙ軸方向のガウシアンの微分係数からなり、縮尺ｋ、２ｋ、４ｋ及び８ｋではガウシアンのラプラシアンからなり、ｋは設計パラメータである。ガウシアンは、ＣＩＥＬａｂ色空間のすべての３チャネルについて算出される。当該フィルタ以外は、輝度チャネルに対してのみ適用される。

画像クラスタリングモジュール４３０は、多重化された訓練画像集合をクラスタリングする。ある実施形態においては、画像クラスタリングモジュール４３０は、多重化された画像集合から生成された１７次元ベクトルを、階層的ｋ平均クラスタリング方法を使用してクラスタリングする。多重化された後の訓練画像集合の画像の１７次元ベクトルのそれぞれは、そのベクトルが属するクラスタの識別子（例えば、クラスタ番号）によって表される。画像の画素値のそれぞれが、対応するクラスタ識別子によって置換されると、テクストン画像が入手される。テクストン画像のそれぞれの画素は、テクストン語である。テクストン語は、テクスチャクラスタとも呼ばれる。画像クラスタリングモジュール４３０は、三角不等式を使用し、ｋ平均クラスタリングを加速し得る。当業者に知られている他のクラスタリング方法は、本発明の実施形態に対し容易に利用可能である。
（無作為多項ロジット（ＲＭＬ）分類子）

１つのＲＭＬ分類子は、Ｎ個の多項ロジスティック回帰モデルからなる。これらの回帰モデルのそれぞれは、以下の式（１）のように、入力ベクトルｘが与えられると、ラベルｙの確率分布をモデル化する。

ここで、ｉ及びｌは、それぞれ、モデル集合及びラベル集合に対するインデクスである。Ｚは、確率分布の和を単位元にする正規化定数である。φ（.）は、ベクトルｘを入力とする特徴関数である。β_ｉｌは、被写体カテゴリｌごとに検出関数を定義する、長さ（Ｌ−１）の係数のベクトルである。これらのベクトルのそれぞれを並べると、多項ロジスティック回帰モデルごとに、すべての係数を示す（Ｌ−１）×（Ｍ＋１）の行列β_ｉを得る。

ＲＭＬ分類子１２６を学習するということは、訓練画像集合から、係数βを学習するということである。訓練画像集合から、より小さなＮ個の集合が繰り返しサンプリングされる。当該小さな集合を用いて、ＲＭＬ分類子１２６の個々の多項ロジスティック回帰モデルが学習される。１つのモデルあたりＭ個の特徴というように、個々のモデルごとの特徴も無作為に選択される。ここで、Ｍは通常小さな数（例えば、１０から２０まで）である。使用される特徴の数を増加させると出力分散が増大するので、当該通常の数を超えて特徴の数が増加すると性能は低下する。ＲＭＬの最終的な出力ラベル分布は、以下の式（２）のように、個々のモデルの出力を平均することによって算出される。

個々の回帰モデルごとの係数βは、すべての訓練データに亘って、式（１）において記述される分散の誤差を最小化する最尤フレームワーク内で学習される。対数尤度を考慮すると、最大化されるべき関数は式（３）となる（モデル数のインデクスは省略されている）。

ここで、{ｘ，ｙ}は、訓練画像データであり、π_ｙは、式（１）で定義される確率分布である。

式（３）の対数尤度は、当業者に知られている勾配降下法又は二次法によって最適化され得る。例えば、ある特定の係数についての式（３）の勾配は、式（４）で与えられる。

ここで、Ｉ（.）は、引数が真である場合に単位元を出力する指示関数である。
（ＲＭＬテクスチャレイアウト特徴選択）

式（１）から式（４）までに記述されるＲＭＬ分類子１２６の性能は、テクスチャレイアウト特徴選択を通じて改良することが可能である。テクスチャレイアウト特徴は、テクストン画像の選択された部分、例えば、テクストン画像の選択された長方形領域である。ＲＭＬ特徴選択は、ＲＭＬ分類子によって現在使用されている特徴の統計的有意性に基づいて、現在使用されている特徴を無作為に選択された特徴と交換することによって実行される。そして、選択された特徴は、ＲＭＬ分類子によって使用され、その複数の多項ロジスティック回帰モデルを学習する。ある多項ロジスティック回帰モデルで使用されるすべての特徴が統計的に有意であるとき、無作為化された特徴選択によってモデルが改良される。

ある実施形態においては、特徴選択モジュール１２４は、選択された特徴の統計的有意性を決定するために、縮尺の如何に依らず単一の検定を使用する。特徴に対応する係数の列がすべて極端に小さな値である場合は、その特徴は、式（１）に記述される回帰モデルに貢献しない。特徴の貢献を決定するための縮尺の如何に依らない検定は、βの値をそれらの標準偏差と比較することにより、βの値の統計的な有意性を確認することである。
その後、回帰モデルは、現在の係数を初期値として、最適化のために再学習される。消去された特徴は統計的に有意ではないので、他の特徴についての係数値は一般的には有意に変化することはなく、再学習は効率的に進む。

係数推定の標準偏差は、以下の式（５）のような、対数尤度関数のヘッシアンから算出され得る。

ここで、ｃ及びｌ、並びに、ｈ及びｆは、それぞれ、ラベル集合及び特徴集合に対するインデクスである。ヘッシアンの逆元は、そこから標準偏差が入手され得る、βの共分散行列である。多項ロジスティック回帰モデル内のすべての特徴が統計的に有意であるとき、モデルは、最尤法に基づく無作為化された特徴選択によって改良される。Ｌをモデルの対数尤度とすると、量−２logＬは、カイ二乗統計量に従い、最良適合モデルに対応するとき最小値となる。したがって、１つの特徴のみが異なる２つのモデルの場合、小さな統計量を有するモデルが保持される。

テクスチャレイアウト特徴選択をさらに図示するために、以下にＲＭＬ特徴選択の一例の疑似コードを示す。

ある実施形態においては、テクスチャレイアウト特徴は、長方形ｒ及びテクストン語ｔからなる。テクストン語は、前記では、テクスチャクラスタとも呼ばれている。画素ｐごとに、特徴選択モジュール１２４は、長方形ｒの内側にあるテクストン語ｔの割合を算出する。ここで、長方形ｒは、画素ｐが原点となる座標系内に入るように平行移動されている。例えば、選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール１２４は、画素値がテクストン語ｔのクラスタ識別子に等しい画素が、長方形ｒの内側にある百分率を算出する。テクスチャレイアウト特徴が画像内の局所的テクスチャ関係、例えば、ボートが通常水面上にあるという関係を取得することがわかる。さらに、当該関係は、複数のテクスチャレイアウト特徴値の線形結合として表されており、画素に基づく場面ラベリングを実行するのに充分である。

テクスチャレイアウト特徴に基づいてＲＭＬ分類子を学習するために、特徴選択モジュール１２４は、まず、特徴候補の総数がＮ_ｒ×Ｎ_ｔとなるように、Ｎ_ｒ個の長方形領域を無作為に事前選択する。ここで、Ｎ_ｔは、学習処理において使用されているコードブック内のテクストン語の数である。その後、ＲＭＬ分類子内の多項回帰モデルごとに、Ｍ＜＜Ｎ_ｒ×Ｎ_ｔ個の特徴の集合が無作為に選択され、式（１）で与えられた分布を生成する。

ＲＭＬは、画素にラベル付けしたデータを使用して、教師付で学習される。画素及びその画素ラベルが評価された特徴値は、訓練インスタンスの構成要素となる。当該訓練データの無作為に選択された部分集合は、個々の回帰モデルを学習するのに使用される。実行時間に亘って、回帰モデル内の特徴は、入力画像について評価され、回帰モデルを通されて、式（２）のような出力ラベルを得る。

図５Ａを参照する。図５Ａは、本発明の一実施形態に係る、特徴選択の白黒図である。画像５１０ａは、ＲＭＬ分類子学習処理において使用される訓練画像集合の画像の１つである。画像５１０ｂは、画像５１０ａに対応するテクストン画像である。ＲＭＬ分類子の個々の回帰モデルについて式（１）で定義される係数β（５１２）は、最尤フレームワーク内で学習される。図５Ａの例では、合計４個のテクスチャレイアウト特徴（５２０ａ、５３０ａ、５４０ａ、５５０ａ）が無作為に選択されている。選択されたテクスチャレイアウト特徴のそれぞれは、テクストン画像５１０ｂの一部である１つの長方形及び１つのテクストン語（例えば、５２０ｂ、５３０ｂ、５４０ｂ、５５０ｂ）からなる。選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール１２４は、テクスチャレイアウト特徴の長方形の内側にある画素であって、その画素値が選択された特徴に関連付けられたテクストン語の値に等しい画素の百分率を算出する。テクストン語がテクストン化後のクラスタ識別子によって表されている場合は、特徴選択モジュール１２４は、選択された特徴長方形内にあり、画素値がクラスタ識別子に等しい画素の数の、長方形の内側にある画素の総数に対する比率を算出する。

図５Ｂは、本発明の一実施形態に係る、特徴選択の図５Ａの白黒図に対応するカラー図である。色付けされた長方形のそれぞれは、長方形ウインドウを介し、さらに、テクスチャレイアウト特徴に関連付けられたテクストン語（図では色が語を示す）を介してテクスチャレイアウト特徴を表している。画素値が画素ラベルを示していないとき、場面内のその画素についての特徴は、統計的に有意ではない。統計的に有意ではないのは、特徴の形状が大きすぎる又は小さすぎるからである。図５Ｂの例では、学習されている多項回帰モデルにおいて係数β_４が乗じられる４つ目の特徴は、統計的に有意ではなく、特徴選択を通じて消去される。
（場面区画へのＲＭＬ分類子の適用）

前記した学習済のＲＭＬ分類子１２６は、従来型の場面区画方法と比較して正確性及び効率が改良されたテクスチャベースの場面区画のために使用され得る。図６は、本発明の一実施形態に係る、意味場面区画の対象となる入力画像に対してＲＭＬ分類子１２６を適用するフローチャートである。学習済のＲＭＬ分類子１２６を有するコンピュータシステム１００は、まず、場面区画の対象となる入力画像を受け取る（ステップ６１０）。画像テクストン化モジュール１２２は、ＲＭＬ分類子学習処理の間に学習されたクラスタを使用して、対応するテクストン画像を生成する（ステップ６１２）。ＲＭＬ分類子１２６は、入力画像に対して学習済の多項ロジスティック回帰モデルを適用する（ステップ６１４）。例えば、ＲＭＬ分類子１２６は、ＲＭＬ分類子１２６の多項ロジスティック回帰モデルのそれぞれが式（１）を使用してモデル化した画素ラベルの確率分布を算出する。ＲＭＬ分類子１２６は、入力画像ごとに、区画ラベルによって表される意味画像区画を生成する（ステップ６１６）。例えば、ＲＭＬ分類子１２６は、ＲＭＬ分類子１２６の個々の多項ロジスティック回帰モデルの出力を、式（２）を使用して平均することによって、入力画像の最終出力ラベル分布を算出する。最後に、コンピュータシステム１００は、画像の意味画像区画を出力する（ステップ６１８）。

高度道路交通システム及び他の適用例において使用される路上場面を分類するために、ＲＭＬ分類子は、事前にラベル付けされた画像を有する訓練画像集合を介して学習される。ＲＭＬ分類子は、複数の多項ロジスティック回帰モデルからなる。多項ロジスティック回帰モデルのそれぞれは、訓練画像集合から無作為に選択された特徴の部分集合について作動し、選択された特徴に対応する画素のラベルについての確率分布を出力する。最尤フレームワークを使用すると、多項ロジスティック回帰モデルは、大きな特徴空間内においても改良された性能で作動できる。学習済のＲＭＬ分類子は、場面区画の対象となる入力画像に対して効率的に使用され得る。開示されるＲＭＬベースの場面区画装置は、ロボットシステム及び自動車システムにおける適用のように、現実世界の問題に広範囲に適用できる。

本発明の特定の実施形態と応用例をここに記載したが、付属の特許請求の範囲に定義される本発明の技術的精神と範囲から逸脱しない限りにおいて、本発明はここに記載される厳密な構成および要素にのみ限定されることなく、本発明の方法および装置の構成、動作およびその詳細について、各種の変更、修正および変形を加えることが可能であることを理解すべきである。

１００コンピュータシステム
１１０Ａ訓練画像集合
１１０Ｂ入力画像
１２０メモリ
１２２画像テクストン化モジュール
１２４特徴選択モジュール
１２６無作為多項ロジット（ＲＭＬ）分類子
１２８データストア
１４０出力制御装置
１５０プロセッサ

Claims

場面区画のための無作為多項ロジット（ＲＭＬ）分類子を使用するコンピュータを用いる方法であって、
前記方法は、
意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
前記複数のテクストン画像から、１又は複数のテクスチャレイアウト特徴を選択し、
前記選択されたテクスチャレイアウト特徴に基づいて、前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習し、
前記訓練画像集合内の被写体の意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価すること、
を特徴とする方法。
前記訓練画像情報内の前記画像に対応する前記複数のテクストン画像を生成することは、
前記訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、
フィルタバンクを用いて前記訓練画像集合の前記画像を多重化し、
前記多重化された画像をクラスタリングすることを含むこと、
を特徴とする請求項１に記載の方法。
前記フィルタバンクは、
異なる縮尺におけるガウシアン、異なる縮尺におけるガウシアンの微分係数、及び、異なる縮尺におけるガウシアンのラプラシアンからなる１７次元フィルタバンクであること、
を特徴とする請求項２に記載の方法。
前記多重化された画像をクラスタリングすることは、
階層的ｋ平均クラスタリング方法を使用して前記多重化された画像をクラスタクリングすることを含むこと、
を特徴とする請求項２に記載の方法。
前記多重化された画像の１７次元ベクトルは、
前記ベクトルが属するクラスタの識別子によって表されること、
を特徴とする請求項４に記載の方法。
前記複数のテクストン画像から、１又は複数のテクスチャレイアウト特徴を選択することは、
前記ＲＭＬ分類子によって現在使用されている特徴の統計的有意性に基づいて、前記現在使用されている特徴を無作為に選択された新たな特徴と交換することを含むこと、
を特徴とする請求項１に記載の方法。
前記特徴の統計的有意性は、
前記特徴に関連付けられた係数値と前記係数値の標準偏差とを比較することによって決定されること、
を特徴とする請求項６に記載の方法。
前記テクストン画像から選択された前記テクスチャレイアウト特徴は、
前記テクストン画像の長方形領域及びテクストン語を含むこと、
を特徴とする請求項６に記載の方法。
前記方法は、
前記長方形領域の内側にある画素のうち画素値が前記テクストン語の値に等しい画素の数が、前記長方形領域の内側にある画素の総数に占める百分率を算出すること、
を特徴とする請求項８に記載の方法。
前記テクストン語の値は、
前記テクストン語のクラスタ識別子に等しいこと、
を特徴とする請求項９に記載の方法。
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習することは、
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルごとに、
選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
前記テクストン語の前記推定された確率分布の誤差を最小化し、
前記テクストン語の前記推定された確率分布を最適化することを含むこと、
を特徴とする請求項１に記載の方法。
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習することは、
前記複数の多項ロジスティック回帰モデルからの、テクストン語の確率分布を平均し、前記テクストン語ごとに最終出力ラベルを生成することを含むこと、
を特徴とする請求項１１に記載の方法。
前記方法は、
前記多項ロジスティック回帰モデルの性能が性能閾値より低い場合は、前記ＲＭＬ分類子の多項ロジスティック回帰モデルを再学習すること、
を特徴とする請求項１に記載の方法。
前記方法は、
場面区画の対象となる入力画像に対して前記ＲＭＬ分類子を適用すること、
を特徴とする請求項１に記載の方法。
場面区画のための無作為多項ロジット（ＲＭＬ）分類子を使用する方法のためのコンピュータシステムであって、
前記コンピュータシステムは、
画像テクストン化モジュール、特徴選択モジュール及びＲＭＬ分類子を有し、
前記テクストン化モジュールは、
意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
前記特徴選択モジュールは、
前記複数のテクストン画像から、１又は複数のテクスチャレイアウト特徴を選択し、
前記ＲＭＬ分類子は、
前記選択されたテクスチャレイアウト特徴に基づいて、前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習し、
前記訓練画像集合内の前記被写体の前記意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価すること、
を特徴とするコンピュータシステム。
前記テクストン化モジュールは、
前記訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、
フィルタバンクを用いて前記訓練画像集合を多重化し、
前記多重化された画像をクラスタリングすること、
を特徴とする請求項１５に記載のコンピュータシステム。
前記フィルタバンクは、
異なる縮尺におけるガウシアン、異なる縮尺におけるガウシアンの微分係数、及び、異なる縮尺におけるガウシアンのラプラシアンからなる１７次元フィルタバンクであること、
を特徴とする請求項１６に記載のコンピュータシステム。
前記多重化された画像の１７次元ベクトルは、
前記ベクトルが属するクラスタの識別子によって表されること、
を特徴とする請求項１７に記載のコンピュータシステム。
前記特徴選択モジュールは、
前記ＲＭＬ分類子によって現在使用されている特徴の統計的有意性に基づいて、前記現在使用されている特徴を無作為に選択された新たな特徴と交換すること、
を特徴とする請求項１５に記載のコンピュータシステム。
前記テクストン画像から選択された前記テクスチャレイアウト特徴は、
前記テクストン画像の長方形領域及びテクストン語を含むこと、
を特徴とする請求項１９に記載のコンピュータシステム。
前記特徴選択モジュールは、
前記長方形領域の内側にある画素のうち画素値が前記テクストン語の値に等しい画素の数が、前記長方形領域の内側にある画素の総数に占める百分率を算出すること、
を特徴とする請求項２０に記載のコンピュータシステム。
前記ＲＭＬ分類子は、
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルのそれぞれを設定し、
選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
前記テクストン語の前記推定された確率分布の誤差を最小化し、
前記テクストン語の前記推定された確率分布を最適化すること、
を特徴とする請求項１５に記載のコンピュータシステム。
前記ＲＭＬ分類子は、
前記複数の多項ロジスティック回帰モデルからの、テクストン語の確率分布を平均し、前記テクストン語ごとに最終出力ラベルを生成すること、
を特徴とする請求項２２に記載のコンピュータシステム。
前記ＲＭＬ分類子は、
前記多項ロジスティック回帰モデルの性能が性能閾値より低い場合は、前記ＲＭＬ分類子の多項ロジスティック回帰モデルを再学習すること、
を特徴とする請求項１５に記載のコンピュータシステム。
前記ＲＭＬ分類子は、
場面区画の対象となる入力画像に対して前記ＲＭＬ分類子を適用すること、
を特徴とする請求項１５に記載のコンピュータシステム。
場面区画のための無作為多項ロジット（ＲＭＬ）分類子を使用するコンピュータプログラム製品であって、
前記コンピュータプログラム製品は、
意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
前記複数のテクストン画像から、１又は複数のテクスチャレイアウト特徴を選択し、
前記選択されたテクスチャレイアウト特徴に基づいて、前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習し、
前記訓練画像集合内の前記被写体の前記意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価する処理を実行するためのコンピュータプログラムコードを格納するコンピュータ読取可能な媒体を含むこと、
を特徴とするコンピュータプログラム製品。
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルを学習するためのコンピュータプログラムコードは、
前記ＲＭＬ分類子の複数の多項ロジスティック回帰モデルごとに、
選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
前記テクストン語の前記推定された確率分布の誤差を最小化し、
前記テクストン語の前記推定された確率分布を最適化するコンピュータプログラムコードを含むこと、
を特徴とする請求項２６に記載のコンピュータプログラム製品。
前記コンピュータプログラム製品は、
場面区画の対象となる入力画像に対して前記ＲＭＬ分類子を適用するコンピュータプログラムコードを含むこと、
を特徴とする請求項２６に記載のコンピュータプログラム製品。