JP2012529110A - 無作為多項ロジットを用いる意味場面区画 - Google Patents

無作為多項ロジットを用いる意味場面区画 Download PDF

Info

Publication number
JP2012529110A
JP2012529110A JP2012514018A JP2012514018A JP2012529110A JP 2012529110 A JP2012529110 A JP 2012529110A JP 2012514018 A JP2012514018 A JP 2012514018A JP 2012514018 A JP2012514018 A JP 2012514018A JP 2012529110 A JP2012529110 A JP 2012529110A
Authority
JP
Japan
Prior art keywords
texton
rml
classifier
image
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012514018A
Other languages
English (en)
Other versions
JP5357331B2 (ja
JP2012529110A5 (ja
Inventor
ランガナサン,アナンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2012529110A publication Critical patent/JP2012529110A/ja
Publication of JP2012529110A5 publication Critical patent/JP2012529110A5/ja
Application granted granted Critical
Publication of JP5357331B2 publication Critical patent/JP5357331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space

Abstract

【課題】画像レベルの特徴及び統計データが不充分である画像中にある、特に小さいサイズの被写体を検出し、その位置を決定する。
【解決手段】無作為多項ロジット(RML)分類装置を使用し、場面区画に当該装置を適用するシステム及び方法が開示される。システムは、画像テクストン化モジュール、特徴選択モジュール及びRML分類装置を含む。画像テクストン化モジュールは、画像の被写体が事前にラベル付けされている訓練画像集合を受け取り、訓練画像集合から対応するテクストン画像を生成する。特徴選択モジュールは、テクストン画像から1又は複数のテクスチャレイアウト特徴を無作為に選択する。RML分類装置は、複数の多項ロジスティック回帰モデルを有し、選択されたテクスチャレイアウト特徴を使用して多項ロジスティック回帰モデルのそれぞれを学習し、学習済のモデルを、入力画像に対して適用し場面を区画する。
【選択図】図3A

Description

本開示は、一般的には、画像処理システムにおける場面区画に関する。具体的には、多項ロジスティック回帰モデルを使用する意味場面区画に関する。
高度道路交通システムのようなコンピュータ画像分析において、共通タスクとは、取得された画像内の街路場面を分類することである。当該共通タスクは、道、他の車両又は歩行者を検出し、高度道路交通システムのユーザが潜在的に危険な状態にいると警告を発することが多い。取得された画像内で関心被写体を検出するには、一般的に、画像を関心領域に区分し、及び/又は、さらに関心領域を関心被写体に区分することが必要になる。
場面区画は、盛んに研究されている分野であり、ロボットシステム及び自動車システムでの適用例のように、現実世界の問題に対する広範囲の適応例を有する。1つの従来型場面区画方法は、特徴のコードブック、すなわちテクストン画像(texton image)のような離散表現を使用する。特徴のコードブックは、画像の空間的関係を用いて、又は画像の空間的関係を用いずに、全体画像又は画像の特定の領域をモデル化する。入力画像のテクストン(texton)は、離散化されたテクスチャ語である。このテクスチャ語は、入力画像をフィルタバンクに通し、フィルタバンクからの出力をクラスタリングすることによって知られる。当該方法の問題は、当該方法が専ら画像レベルの場面区画向けであるということである。そこで、画像レベルの特徴及び統計データが不充分である画像中において、特に小さいサイズの被写体を検出し、その位置を決定することが課題となる。
他の従来型場面区画方法は、入力画像のテクスチャレイアウト特徴を使用し、テクストンに影響を及ぼす特徴選択を促進する。当該従来型場面区画方法の一例は、テクストン生成及びテクストン分類の両者を目的とする、意味テクスチャ林(semantic texture forest)を使用する。このような特徴の数は非常に大きいので、当該方法において使用される場面区画エンジンの訓練は、非常に低速であり、訓練データ集合のサイズが大きくなるにつれて、そして、訓練データ集合内の被写体分類のバリエーションが増加するにつれて、このような場面区画の性能は低下する。
本発明の一実施形態に係る、無作為多項ロジット分類子を使用する、意味場面区画のためのコンピュータシステムの図である。 本発明の一実施形態に係る、無作為多項ロジット分類子の多項ロジスティック回帰モデルを学習するフローチャートである。 本発明の一実施形態に係る、意味場面区画の白黒図である。 本発明の一実施形態に係る、意味場面区画の図3Aの白黒図に対応するカラー図である。 本発明の一実施形態に係る、画像テクストン化モジュールのブロック図である。 本発明の一実施形態に係る、特徴選択の白黒図である。 本発明の一実施形態に係る、特徴選択の図5Aの白黒図に対応するカラー図である。 本発明の一実施形態に係る、入力画像の意味場面区画のための、学習済の多項ロジスティック回帰モデルを適用するフローチャートである。
図を参照しつつ、本発明の実施形態を説明する。同じ参照番号は、同一の構成要素又は機能的に類似する構成要素を示す。
本明細書において、“一実施形態”又は“ある実施形態”と言う場合は、本発明の少なくとも1つの実施形態に、その実施形態に関連して記述される1つの特徴又は構造が含まれていることを意味する。本明細書のあちこちに“ある実施形態では”という語が出現しても、必ずしも同一の実施形態を指しているわけではない。
後記する詳細説明のいくつかの部分は、アルゴリズム用語や、コンピュータメモリ内のデータビット作業を示す象徴的な表現による。これらのアルゴリズム的な説明や表現は、情報処理分野の当業者が、自らの業績の要旨を、同分野の他の当業者に最も効率的に伝えるために用いる手段である。アルゴリズムとは、ここでは、そして一般的にも、ある所望の結果に至る複数のステップ(命令)の首尾一貫したシーケンスのことを言う。ステップとは、物理量に対する物理的操作を要求するステップのことである。通常、必ずしも必要条件ではないが、それらの数値は、記憶され、送信され、合成され、比較されかつ操作され得る、電子的、磁気的又は光学的信号の形を取る。これらの信号のことを、ビット、値、要素、シンボル、文字、語又は番号等と呼ぶことが主として用語の共通化の理由から便宜である。さらに、物理量に対する物理的操作を要求するステップの配列のうちいくつかのものは、一般性を失うことなく、モジュール又はコードデバイスと呼ぶことが便宜である。
しかしながら、このような用語の全ては適当な物理量と関連付けられており、これらの物理量に付された単なる便宜的なラベルに過ぎない。後記において特段の説明がない限り、明細書本文全体を通じて、“処理”、“計算”、“算出”、“決定”又は“表示”等の用語を用いた説明は、(電子的な)物理量としてのデータを、コンピュータシステムのメモリ、レジスタ又は他の情報ストレージのなかで操作しかつ変形するコンピュータシステムや同様の電子的コンピューティングデバイスの動作や処理のことを言う。
本発明のいくつかの側面は、アルゴリズムの形になったプロセスステップや命令を含む。本発明のプロセスステップや命令は、ソフトウエア、ファームウエア又はハードウエアによって実装され、ソフトウエアで実施される場合は、ダウンロードされることが可能であり、多様なオペレーティングシステムが用いる別のプラットフォームから操作されることも可能である。
本発明は、操作を実行する装置にも関する。この装置は、所与の目的を達成する専用装置であってもよいし、コンピュータに記憶されたコンピュータプログラムによって動作する汎用コンピュータであってもよい。このようなコンピュータプログラムは、コンピュータが読取り可能な媒体に記憶され得る。その媒体とは、コンピュータシステムバスに接続可能な、フロッピーディスク(登録商標)、光ディスク、CD−ROM、電磁光学的ディスク、ROM、RAM、EPROM、EEPROM、電磁的又は光学的カード、ASIC又は電子的命令を記憶し得るあらゆる媒体を含むが、これらに限定されない。さらに、本明細書で言うコンピュータは、単体のプロセッサを含んでもよいし、コンピュータ性能を増加させるために複数のプロセッサを用いた装置であってもよい。
ここでいうアルゴリズムやディスプレイは、もともと特定のコンピュータや他の装置に関係している訳ではない。ここで教示される内容に従って、プログラムとともに多様な一般目的システムが使用され得る。又は、必要とされる方法ステップを実行するためにさらに特化した装置を作成することも便宜である。これらのシステムのそれぞれについてどのような構成が必要となるかは、後記する明細書本文から明らかになる。さらには、本発明は特定のプログラム言語を参照して記載されるものではない。本発明の教示を実施するために、多様なプログラム言語が使用され得る。後記において特定の言語に言及した場合、それは本発明の実施可能性及びベストモードを開示するためである。
さらに、本明細書で使用される言語は、主として意味の取りやすさ及び教示目的から選択されているのであって、本発明の主旨を限定するために選択されているのではない。従って、本発明の開示は、特許請求の範囲にて記述されている本発明の範囲を例示するものであるが限定するものではない。
本発明の実施形態は、場面区画ごとに、無作為多項ロジット(RML)分類子を学習し、場面区画ごとに、入力画像に対し学習済のRML分類子を適用する。RML分類子を使用する場面区画システムは、事前にラベル付けされた訓練画像集合を通じてRML分類子を学習し、無作為に選択されたテクスチャレイアウト特徴によって、RML分類子が場面を区画する性能を増加させる。場面区画システムは、訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、訓練画像集合内のすべての画像を多重化し、クラスタリングすることによって、訓練画像を事前処理する。場面区画システムは、特徴に関連付けられた統計的に有意な測定値に基づいて、RML分類子によって使用される特徴を、無作為に選択されたテクスチャレイアウト特徴に置換する。RML分類子の多項ロジスティック回帰モデルのそれぞれは、選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定する。場面区画システムは、RML分類子の多項ロジスティック回帰モデルのそれぞれの確率分布を平均することによって、テクストン語ごとに、最終ラベルを生成する。学習済のRML分類子は、場面区画ごとに入力画像に対して適用され得る。本明細書に開示する場面区画システムは、ロボットシステム及び自動車システムでの適用例のような、現実世界の問題に対する広範囲の適応例も有する。
開示されるシステム(及び方法)の一実施形態は、無作為多項ロジット(RML)分類子を学習し、場面区画ごとにRML分類子を適用することを含む。システムは、画像テクストン化モジュール、特徴選択モジュール及びRML分類子を含む。画像テクストン化モジュールは、画像の被写体が事前にラベル付けされている訓練画像集合を受け取る。画像テクストン化モジュールはさらに、訓練画像集合から、対応するテクストン画像を生成する。特徴選択モジュールは、テクストン画像から、1又は複数のテクスチャレイアウト特徴を無作為に選択する。RML分類子は、複数の多項ロジスティック回帰モデルを有する。RML分類子は、選択されたテクスチャレイアウト特徴を使用して、多項ロジスティック回帰モデルのそれぞれを学習する。RML分類子はさらに、場面区画ごとに、入力画像に対して、学習済の多項ロジスティック回帰モデルを適用する。
(システム概要)
図1は、本発明の一実施形態に係る無作為多項ロジット(RML)分類子126を使用する、意味場面区画のためのコンピュータシステム100を示す。コンピュータシステム100は、メモリ120、入力制御装置130、出力制御装置140及びプロセッサ150を有する。ある実施形態においては、コンピュータシステム100は、訓練画像集合110Aを受け取り、RML分類子を学習する。他の実施形態においては、コンピュータシステム100は、学習済のRML分類子126によって、場面区画ごとに入力画像110Bを受け取る。訓練画像集合110Aは、複数の事前にラベル付けされた画像を有する。入力画像110Bは、コンピュータシステム100によって場面区画ごとに受け取られた、任意の静止画像又はビデオフレームである。訓練画像集合110Aを使用してRML分類子126を学習することは、図2を参照しさらに後記される。入力画像110Bに対してRML分類子126を適用することは、図6を参照しさらに後記される。
ある実施形態においては、訓練画像集合110Aは、移動している自動車にカメラを取り付けて路上のオートバイを撮像することによって入手されたビデオシーケンスを有する。ビデオ画像は、移動している自動車のサイドバックミラー内でドライバーが視認するものと同じである。ビデオ画像は、撮像されるオートバイのタイプ、視点、ノイズの量及び照明の質の点で異なり得る。例えば、ある訓練画像集合110Aは、全体で約5800個のフレームを有する6個のビデオシーケンスから選択された63個のフレームを含む。選択されたフレームは、オートバイ、道、空及びその他のような、それらのフレームが表す被写体のタイプに応じてラベル付けされる。事前にラベル付けされた訓練画像集合110Aは、コンピュータシステム100によって受け取られ、RML分類子126を学習する。RML分類子126の学習結果は、RML分類子126の性能を評価するために訓練画像集合110Aのラベルと比較される。
メモリ120は、データ、及び/又は、プロセッサ150によって実行され得る命令を格納する。命令は、ここに記述される任意の及び/又はすべての技術を実行するためのコードを含む。メモリ120は、DRAM装置、静的ランダムアクセスメモリ(SRAM)、フラッシュ(登録商標)RAM(非揮発性ストレージ)、これらの組合せ、又は、当業界で知られている他の記憶装置であってもよい。ある実施形態においては、メモリ120は、画像テクストン化モジュール122、特徴選択モジュール124、RML分類子126、及び、データストア128を有する。
画像テクストン化モジュール122は、入力画像から対応するテクストン画像を生成するためのコンピュータ実行可能な命令を有する。入力画像から生成されたテクストン画像は、複数の画素を有する画像である。テクストン画像内のそれぞれの画素値は、入力画像内の対応する画素値の代表値である。具体的には、入力画像の画素値のそれぞれは、代表値、例えば、クラスタ識別子に置換される。この代表値は、事前処理後の入力画像の画素値に対応する。例えば、入力画像は、フィルタバンクを用いて多重化され、入力画像の画素ごとに、17次元ベクトルとなる。フィルタリング後の入力画像の17次元ベクトルがクラスタリングされると、17次元ベクトルのそれぞれは、当該ベクトルが属するクラスタの識別子(例えば、クラスタ番号)によって表される。入力画像の画素値のそれぞれが、対応するクラスタ識別子によって置換されると、テクストン画像が入手される。テクストン画像のそれぞれの画素は、テクスチャクラスタとも呼ばれるテクストン語である。画像テクストン化モジュール122は、図4を参照してさらに後記される。
特徴選択モジュール124は、図5A及び図5Bを参照して後記される無作為テクスチャレイアウト特徴選択を実行するための、コンピュータ実行可能な命令を有する。テクスチャレイアウト特徴は、テクストン画像のうちの選択された部分、例えば、テクストン画像のうちの選択された長方形領域である。選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール124は、その画素値が所定のテクスチャクラスタのクラスタ識別子に等しい画素の百分率を算出する。図2、図3A及び図3Bを参照して後記される、RML分類子126の複数の多項ロジスティック回帰モデルを学習し適用するためのコンピュータ実行可能な命令を、RML分類子126は有する。本発明のある実施形態においては、データストア128は、RML分類子126の学習結果及び/又は意味区画結果を格納する。
図2は、本発明の一実施形態に係る、無作為多項ロジット分類子126の多項ロジスティック回帰モデルを学習するフローチャートである。まず、コンピュータシステム100は、複数の画像を含む訓練画像集合を受け取る(ステップ210)。ここでは、それぞれの画像は、オートバイ、道、空及びその他のような、画像内の被写体のタイプに応じてラベル付けされている。画像テクストン化モジュール122は、訓練画像集合内の画像から、対応するテクストン画像を生成する(ステップ212)。特徴選択モジュール124は、テクストン画像からテクスチャレイアウト特徴を無作為に選択し、選択されたテクスチャレイアウト特徴をRML分類子126に送信する(ステップ214)。RML分類子126の多項ロジスティック回帰モデルのそれぞれは、テクストン画像の選択された特徴内の所与のテクストン語の確率分布をモデル化する(ステップ216)。RML分類子126は、多項ロジスティック回帰モデルの性能を評価する(ステップ218)。多項ロジスティック回帰モデルの性能が満足できるものである場合は、RML分類子126は、学習処理を終了する。それ以外の場合は、RML分類子126は、テクストン画像からテクスチャレイアウト特徴を新たに選択したうえで、学習処理を繰り返す(ステップ220)。
図3Aは、本発明の一実施形態に係る、意味場面区画の白黒図である。まず、訓練画像集合302は、図2で記述された多項ロジスティック回帰モデルを学習するために、図1のコンピュータシステム100に受け取られる。説明を単純化するために、図3A及び図3Bにおいては、本来複数の画像を含む訓練画像集合は、1つの画像302として表される。同様に、対応するテクストン画像も1つのテクストン画像306として表され、ラベル付けされた出力(すなわち、訓練画像集合の画像に対応する場面区画された画像)も1つのラベル付けされた画像310として表される。訓練画像集合は、事前に処理され、多重化され、クラスタリングされ(304)、訓練画像集合の画像に対応するテクストン画像306を生成する。特徴選択モジュール124は、複数のテクスチャレイアウト特徴308(例えば、選択されたテクスチャレイアウト特徴を表す長方形)を無作為に選択し、これらをRML分類子126に送信し、RML分類子126の多項ロジスティック回帰モデルを学習する。図3Aにおいては、RML分類子126は、全部でN個の多項ロジスティック回帰モデルを有する。ここで、Nは、設計パラメータである。多項ロジスティック回帰モデルのそれぞれは、選択されたテクスチャレイアウト特徴内の所与のテクストン語の確率分布を算出し、入力画像302のラベル付けされた出力310を生成する。出力のラベルは、すべての入力画像の場面区画の結果を示す。図3Bは、本発明の一実施形態に係る、意味場面区画の図3Aの白黒図に対応するカラー図である。
(RML画像テクストン化)
図4は、本発明の一実施形態に係る、画像テクストン化モジュール122のブロック図である。図4の実施形態においては、画像テクストン化モジュール122は、画像事前処理モジュール410、画像多重化モジュール420及び画像クラスタリングモジュール430を含む。画像テクストン化モジュール122は、訓練画像集合を事前処理し、事前処理された訓練画像集合を多重化し、クラスタリングすることによって、訓練画像集合から対応するテクストン画像を生成する。
一般に、複数の画像からなる画像集合は、訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを含む。コントラストのばらつき及び輝度のばらつきは、テクスチャ算出に対して悪影響を与え得る。画像事前処理モジュールジュール410は、テクスチャ算出の前に、画像集合内のコントラストのばらつき及び輝度のばらつきを除去する。具体的には、画像事前処理モジュールジュール410は、処理後の画像が平坦化されたヒストグラムとなりゼロ平均単位標準偏差を有するように、画像集合内の画像を処理する。
画像多重化モジュール420は、フィルタバンクを用いて、事前処理された訓練画像集合を多重化する。ある実施形態においては、画像多重化モジュール420は、17次元のフィルタバンクを使用する。フィルタバンクは、縮尺k、2k及び4kではガウシアンからなり、縮尺2k及び4kではx軸及びy軸方向のガウシアンの微分係数からなり、縮尺k、2k、4k及び8kではガウシアンのラプラシアンからなり、kは設計パラメータである。ガウシアンは、CIELab色空間のすべての3チャネルについて算出される。当該フィルタ以外は、輝度チャネルに対してのみ適用される。
画像クラスタリングモジュール430は、多重化された訓練画像集合をクラスタリングする。ある実施形態においては、画像クラスタリングモジュール430は、多重化された画像集合から生成された17次元ベクトルを、階層的k平均クラスタリング方法を使用してクラスタリングする。多重化された後の訓練画像集合の画像の17次元ベクトルのそれぞれは、そのベクトルが属するクラスタの識別子(例えば、クラスタ番号)によって表される。画像の画素値のそれぞれが、対応するクラスタ識別子によって置換されると、テクストン画像が入手される。テクストン画像のそれぞれの画素は、テクストン語である。テクストン語は、テクスチャクラスタとも呼ばれる。画像クラスタリングモジュール430は、三角不等式を使用し、k平均クラスタリングを加速し得る。当業者に知られている他のクラスタリング方法は、本発明の実施形態に対し容易に利用可能である。
(無作為多項ロジット(RML)分類子)
1つのRML分類子は、N個の多項ロジスティック回帰モデルからなる。これらの回帰モデルのそれぞれは、以下の式(1)のように、入力ベクトルxが与えられると、ラベルyの確率分布をモデル化する。
ここで、i及びlは、それぞれ、モデル集合及びラベル集合に対するインデクスである。Zは、確率分布の和を単位元にする正規化定数である。φ(.)は、ベクトルxを入力とする特徴関数である。βilは、被写体カテゴリlごとに検出関数を定義する、長さ(L−1)の係数のベクトルである。これらのベクトルのそれぞれを並べると、多項ロジスティック回帰モデルごとに、すべての係数を示す(L−1)×(M+1)の行列βを得る。
RML分類子126を学習するということは、訓練画像集合から、係数βを学習するということである。訓練画像集合から、より小さなN個の集合が繰り返しサンプリングされる。当該小さな集合を用いて、RML分類子126の個々の多項ロジスティック回帰モデルが学習される。1つのモデルあたりM個の特徴というように、個々のモデルごとの特徴も無作為に選択される。ここで、Mは通常小さな数(例えば、10から20まで)である。使用される特徴の数を増加させると出力分散が増大するので、当該通常の数を超えて特徴の数が増加すると性能は低下する。RMLの最終的な出力ラベル分布は、以下の式(2)のように、個々のモデルの出力を平均することによって算出される。
個々の回帰モデルごとの係数βは、すべての訓練データに亘って、式(1)において記述される分散の誤差を最小化する最尤フレームワーク内で学習される。対数尤度を考慮すると、最大化されるべき関数は式(3)となる(モデル数のインデクスは省略されている)。
ここで、{x,y}は、訓練画像データであり、πは、式(1)で定義される確率分布である。
式(3)の対数尤度は、当業者に知られている勾配降下法又は二次法によって最適化され得る。例えば、ある特定の係数についての式(3)の勾配は、式(4)で与えられる。
ここで、I(.)は、引数が真である場合に単位元を出力する指示関数である。
(RMLテクスチャレイアウト特徴選択)
式(1)から式(4)までに記述されるRML分類子126の性能は、テクスチャレイアウト特徴選択を通じて改良することが可能である。テクスチャレイアウト特徴は、テクストン画像の選択された部分、例えば、テクストン画像の選択された長方形領域である。RML特徴選択は、RML分類子によって現在使用されている特徴の統計的有意性に基づいて、現在使用されている特徴を無作為に選択された特徴と交換することによって実行される。そして、選択された特徴は、RML分類子によって使用され、その複数の多項ロジスティック回帰モデルを学習する。ある多項ロジスティック回帰モデルで使用されるすべての特徴が統計的に有意であるとき、無作為化された特徴選択によってモデルが改良される。
ある実施形態においては、特徴選択モジュール124は、選択された特徴の統計的有意性を決定するために、縮尺の如何に依らず単一の検定を使用する。特徴に対応する係数の列がすべて極端に小さな値である場合は、その特徴は、式(1)に記述される回帰モデルに貢献しない。特徴の貢献を決定するための縮尺の如何に依らない検定は、βの値をそれらの標準偏差と比較することにより、βの値の統計的な有意性を確認することである。
その後、回帰モデルは、現在の係数を初期値として、最適化のために再学習される。消去された特徴は統計的に有意ではないので、他の特徴についての係数値は一般的には有意に変化することはなく、再学習は効率的に進む。
係数推定の標準偏差は、以下の式(5)のような、対数尤度関数のヘッシアンから算出され得る。
ここで、c及びl、並びに、h及びfは、それぞれ、ラベル集合及び特徴集合に対するインデクスである。ヘッシアンの逆元は、そこから標準偏差が入手され得る、βの共分散行列である。多項ロジスティック回帰モデル内のすべての特徴が統計的に有意であるとき、モデルは、最尤法に基づく無作為化された特徴選択によって改良される。Lをモデルの対数尤度とすると、量−2logLは、カイ二乗統計量に従い、最良適合モデルに対応するとき最小値となる。したがって、1つの特徴のみが異なる2つのモデルの場合、小さな統計量を有するモデルが保持される。
テクスチャレイアウト特徴選択をさらに図示するために、以下にRML特徴選択の一例の疑似コードを示す。
ある実施形態においては、テクスチャレイアウト特徴は、長方形r及びテクストン語tからなる。テクストン語は、前記では、テクスチャクラスタとも呼ばれている。画素pごとに、特徴選択モジュール124は、長方形rの内側にあるテクストン語tの割合を算出する。ここで、長方形rは、画素pが原点となる座標系内に入るように平行移動されている。例えば、選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール124は、画素値がテクストン語tのクラスタ識別子に等しい画素が、長方形rの内側にある百分率を算出する。テクスチャレイアウト特徴が画像内の局所的テクスチャ関係、例えば、ボートが通常水面上にあるという関係を取得することがわかる。さらに、当該関係は、複数のテクスチャレイアウト特徴値の線形結合として表されており、画素に基づく場面ラベリングを実行するのに充分である。
テクスチャレイアウト特徴に基づいてRML分類子を学習するために、特徴選択モジュール124は、まず、特徴候補の総数がN×Nとなるように、N個の長方形領域を無作為に事前選択する。ここで、Nは、学習処理において使用されているコードブック内のテクストン語の数である。その後、RML分類子内の多項回帰モデルごとに、M<<N×N個の特徴の集合が無作為に選択され、式(1)で与えられた分布を生成する。
RMLは、画素にラベル付けしたデータを使用して、教師付で学習される。画素及びその画素ラベルが評価された特徴値は、訓練インスタンスの構成要素となる。当該訓練データの無作為に選択された部分集合は、個々の回帰モデルを学習するのに使用される。実行時間に亘って、回帰モデル内の特徴は、入力画像について評価され、回帰モデルを通されて、式(2)のような出力ラベルを得る。
図5Aを参照する。図5Aは、本発明の一実施形態に係る、特徴選択の白黒図である。画像510aは、RML分類子学習処理において使用される訓練画像集合の画像の1つである。画像510bは、画像510aに対応するテクストン画像である。RML分類子の個々の回帰モデルについて式(1)で定義される係数β(512)は、最尤フレームワーク内で学習される。図5Aの例では、合計4個のテクスチャレイアウト特徴(520a、530a、540a、550a)が無作為に選択されている。選択されたテクスチャレイアウト特徴のそれぞれは、テクストン画像510bの一部である1つの長方形及び1つのテクストン語(例えば、520b、530b、540b、550b)からなる。選択されたテクスチャレイアウト特徴ごとに、特徴選択モジュール124は、テクスチャレイアウト特徴の長方形の内側にある画素であって、その画素値が選択された特徴に関連付けられたテクストン語の値に等しい画素の百分率を算出する。テクストン語がテクストン化後のクラスタ識別子によって表されている場合は、特徴選択モジュール124は、選択された特徴長方形内にあり、画素値がクラスタ識別子に等しい画素の数の、長方形の内側にある画素の総数に対する比率を算出する。
図5Bは、本発明の一実施形態に係る、特徴選択の図5Aの白黒図に対応するカラー図である。色付けされた長方形のそれぞれは、長方形ウインドウを介し、さらに、テクスチャレイアウト特徴に関連付けられたテクストン語(図では色が語を示す)を介してテクスチャレイアウト特徴を表している。画素値が画素ラベルを示していないとき、場面内のその画素についての特徴は、統計的に有意ではない。統計的に有意ではないのは、特徴の形状が大きすぎる又は小さすぎるからである。図5Bの例では、学習されている多項回帰モデルにおいて係数βが乗じられる4つ目の特徴は、統計的に有意ではなく、特徴選択を通じて消去される。
(場面区画へのRML分類子の適用)
前記した学習済のRML分類子126は、従来型の場面区画方法と比較して正確性及び効率が改良されたテクスチャベースの場面区画のために使用され得る。図6は、本発明の一実施形態に係る、意味場面区画の対象となる入力画像に対してRML分類子126を適用するフローチャートである。学習済のRML分類子126を有するコンピュータシステム100は、まず、場面区画の対象となる入力画像を受け取る(ステップ610)。画像テクストン化モジュール122は、RML分類子学習処理の間に学習されたクラスタを使用して、対応するテクストン画像を生成する(ステップ612)。RML分類子126は、入力画像に対して学習済の多項ロジスティック回帰モデルを適用する(ステップ614)。例えば、RML分類子126は、RML分類子126の多項ロジスティック回帰モデルのそれぞれが式(1)を使用してモデル化した画素ラベルの確率分布を算出する。RML分類子126は、入力画像ごとに、区画ラベルによって表される意味画像区画を生成する(ステップ616)。例えば、RML分類子126は、RML分類子126の個々の多項ロジスティック回帰モデルの出力を、式(2)を使用して平均することによって、入力画像の最終出力ラベル分布を算出する。最後に、コンピュータシステム100は、画像の意味画像区画を出力する(ステップ618)。
高度道路交通システム及び他の適用例において使用される路上場面を分類するために、RML分類子は、事前にラベル付けされた画像を有する訓練画像集合を介して学習される。RML分類子は、複数の多項ロジスティック回帰モデルからなる。多項ロジスティック回帰モデルのそれぞれは、訓練画像集合から無作為に選択された特徴の部分集合について作動し、選択された特徴に対応する画素のラベルについての確率分布を出力する。最尤フレームワークを使用すると、多項ロジスティック回帰モデルは、大きな特徴空間内においても改良された性能で作動できる。学習済のRML分類子は、場面区画の対象となる入力画像に対して効率的に使用され得る。開示されるRMLベースの場面区画装置は、ロボットシステム及び自動車システムにおける適用のように、現実世界の問題に広範囲に適用できる。
本発明の特定の実施形態と応用例をここに記載したが、付属の特許請求の範囲に定義される本発明の技術的精神と範囲から逸脱しない限りにおいて、本発明はここに記載される厳密な構成および要素にのみ限定されることなく、本発明の方法および装置の構成、動作およびその詳細について、各種の変更、修正および変形を加えることが可能であることを理解すべきである。
100 コンピュータシステム
110A 訓練画像集合
110B 入力画像
120 メモリ
122 画像テクストン化モジュール
124 特徴選択モジュール
126 無作為多項ロジット(RML)分類子
128 データストア
140 出力制御装置
150 プロセッサ

Claims (28)

  1. 場面区画のための無作為多項ロジット(RML)分類子を使用するコンピュータを用いる方法であって、
    前記方法は、
    意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
    前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
    前記複数のテクストン画像から、1又は複数のテクスチャレイアウト特徴を選択し、
    前記選択されたテクスチャレイアウト特徴に基づいて、前記RML分類子の複数の多項ロジスティック回帰モデルを学習し、
    前記訓練画像集合内の被写体の意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価すること、
    を特徴とする方法。
  2. 前記訓練画像情報内の前記画像に対応する前記複数のテクストン画像を生成することは、
    前記訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、
    フィルタバンクを用いて前記訓練画像集合の前記画像を多重化し、
    前記多重化された画像をクラスタリングすることを含むこと、
    を特徴とする請求項1に記載の方法。
  3. 前記フィルタバンクは、
    異なる縮尺におけるガウシアン、異なる縮尺におけるガウシアンの微分係数、及び、異なる縮尺におけるガウシアンのラプラシアンからなる17次元フィルタバンクであること、
    を特徴とする請求項2に記載の方法。
  4. 前記多重化された画像をクラスタリングすることは、
    階層的k平均クラスタリング方法を使用して前記多重化された画像をクラスタクリングすることを含むこと、
    を特徴とする請求項2に記載の方法。
  5. 前記多重化された画像の17次元ベクトルは、
    前記ベクトルが属するクラスタの識別子によって表されること、
    を特徴とする請求項4に記載の方法。
  6. 前記複数のテクストン画像から、1又は複数のテクスチャレイアウト特徴を選択することは、
    前記RML分類子によって現在使用されている特徴の統計的有意性に基づいて、前記現在使用されている特徴を無作為に選択された新たな特徴と交換することを含むこと、
    を特徴とする請求項1に記載の方法。
  7. 前記特徴の統計的有意性は、
    前記特徴に関連付けられた係数値と前記係数値の標準偏差とを比較することによって決定されること、
    を特徴とする請求項6に記載の方法。
  8. 前記テクストン画像から選択された前記テクスチャレイアウト特徴は、
    前記テクストン画像の長方形領域及びテクストン語を含むこと、
    を特徴とする請求項6に記載の方法。
  9. 前記方法は、
    前記長方形領域の内側にある画素のうち画素値が前記テクストン語の値に等しい画素の数が、前記長方形領域の内側にある画素の総数に占める百分率を算出すること、
    を特徴とする請求項8に記載の方法。
  10. 前記テクストン語の値は、
    前記テクストン語のクラスタ識別子に等しいこと、
    を特徴とする請求項9に記載の方法。
  11. 前記RML分類子の複数の多項ロジスティック回帰モデルを学習することは、
    前記RML分類子の複数の多項ロジスティック回帰モデルごとに、
    選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
    前記テクストン語の前記推定された確率分布の誤差を最小化し、
    前記テクストン語の前記推定された確率分布を最適化することを含むこと、
    を特徴とする請求項1に記載の方法。
  12. 前記RML分類子の複数の多項ロジスティック回帰モデルを学習することは、
    前記複数の多項ロジスティック回帰モデルからの、テクストン語の確率分布を平均し、前記テクストン語ごとに最終出力ラベルを生成することを含むこと、
    を特徴とする請求項11に記載の方法。
  13. 前記方法は、
    前記多項ロジスティック回帰モデルの性能が性能閾値より低い場合は、前記RML分類子の多項ロジスティック回帰モデルを再学習すること、
    を特徴とする請求項1に記載の方法。
  14. 前記方法は、
    場面区画の対象となる入力画像に対して前記RML分類子を適用すること、
    を特徴とする請求項1に記載の方法。
  15. 場面区画のための無作為多項ロジット(RML)分類子を使用する方法のためのコンピュータシステムであって、
    前記コンピュータシステムは、
    画像テクストン化モジュール、特徴選択モジュール及びRML分類子を有し、
    前記テクストン化モジュールは、
    意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
    前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
    前記特徴選択モジュールは、
    前記複数のテクストン画像から、1又は複数のテクスチャレイアウト特徴を選択し、
    前記RML分類子は、
    前記選択されたテクスチャレイアウト特徴に基づいて、前記RML分類子の複数の多項ロジスティック回帰モデルを学習し、
    前記訓練画像集合内の前記被写体の前記意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価すること、
    を特徴とするコンピュータシステム。
  16. 前記テクストン化モジュールは、
    前記訓練画像集合内の画像間のコントラストのばらつき及び輝度のばらつきを除去し、
    フィルタバンクを用いて前記訓練画像集合を多重化し、
    前記多重化された画像をクラスタリングすること、
    を特徴とする請求項15に記載のコンピュータシステム。
  17. 前記フィルタバンクは、
    異なる縮尺におけるガウシアン、異なる縮尺におけるガウシアンの微分係数、及び、異なる縮尺におけるガウシアンのラプラシアンからなる17次元フィルタバンクであること、
    を特徴とする請求項16に記載のコンピュータシステム。
  18. 前記多重化された画像の17次元ベクトルは、
    前記ベクトルが属するクラスタの識別子によって表されること、
    を特徴とする請求項17に記載のコンピュータシステム。
  19. 前記特徴選択モジュールは、
    前記RML分類子によって現在使用されている特徴の統計的有意性に基づいて、前記現在使用されている特徴を無作為に選択された新たな特徴と交換すること、
    を特徴とする請求項15に記載のコンピュータシステム。
  20. 前記テクストン画像から選択された前記テクスチャレイアウト特徴は、
    前記テクストン画像の長方形領域及びテクストン語を含むこと、
    を特徴とする請求項19に記載のコンピュータシステム。
  21. 前記特徴選択モジュールは、
    前記長方形領域の内側にある画素のうち画素値が前記テクストン語の値に等しい画素の数が、前記長方形領域の内側にある画素の総数に占める百分率を算出すること、
    を特徴とする請求項20に記載のコンピュータシステム。
  22. 前記RML分類子は、
    前記RML分類子の複数の多項ロジスティック回帰モデルのそれぞれを設定し、
    選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
    前記テクストン語の前記推定された確率分布の誤差を最小化し、
    前記テクストン語の前記推定された確率分布を最適化すること、
    を特徴とする請求項15に記載のコンピュータシステム。
  23. 前記RML分類子は、
    前記複数の多項ロジスティック回帰モデルからの、テクストン語の確率分布を平均し、前記テクストン語ごとに最終出力ラベルを生成すること、
    を特徴とする請求項22に記載のコンピュータシステム。
  24. 前記RML分類子は、
    前記多項ロジスティック回帰モデルの性能が性能閾値より低い場合は、前記RML分類子の多項ロジスティック回帰モデルを再学習すること、
    を特徴とする請求項15に記載のコンピュータシステム。
  25. 前記RML分類子は、
    場面区画の対象となる入力画像に対して前記RML分類子を適用すること、
    を特徴とする請求項15に記載のコンピュータシステム。
  26. 場面区画のための無作為多項ロジット(RML)分類子を使用するコンピュータプログラム製品であって、
    前記コンピュータプログラム製品は、
    意味ラベルを有する被写体の画像の複数のデジタル代表値を含む訓練画像集合を受け取り、
    前記訓練画像集合内の画像に対応する複数のテクストン画像であって、画素値が前記訓練画像集合内の対応する画像の画素値の代表値によって置換される画素を有する複数のテクストン画像を生成し、
    前記複数のテクストン画像から、1又は複数のテクスチャレイアウト特徴を選択し、
    前記選択されたテクスチャレイアウト特徴に基づいて、前記RML分類子の複数の多項ロジスティック回帰モデルを学習し、
    前記訓練画像集合内の前記被写体の前記意味ラベルに基づいて、前記複数の多項ロジスティック回帰モデルの性能を評価する処理を実行するためのコンピュータプログラムコードを格納するコンピュータ読取可能な媒体を含むこと、
    を特徴とするコンピュータプログラム製品。
  27. 前記RML分類子の複数の多項ロジスティック回帰モデルを学習するためのコンピュータプログラムコードは、
    前記RML分類子の複数の多項ロジスティック回帰モデルごとに、
    選択されたテクスチャレイアウト特徴のテクストン語の確率分布を推定し、
    前記テクストン語の前記推定された確率分布の誤差を最小化し、
    前記テクストン語の前記推定された確率分布を最適化するコンピュータプログラムコードを含むこと、
    を特徴とする請求項26に記載のコンピュータプログラム製品。
  28. 前記コンピュータプログラム製品は、
    場面区画の対象となる入力画像に対して前記RML分類子を適用するコンピュータプログラムコードを含むこと、
    を特徴とする請求項26に記載のコンピュータプログラム製品。
JP2012514018A 2009-06-04 2010-05-28 無作為多項ロジットを用いる意味場面区画 Active JP5357331B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US21793009P 2009-06-04 2009-06-04
US61/217,930 2009-06-04
US12/789,292 US8442309B2 (en) 2009-06-04 2010-05-27 Semantic scene segmentation using random multinomial logit (RML)
US12/789,292 2010-05-27
PCT/US2010/036656 WO2010141369A1 (en) 2009-06-04 2010-05-28 Semantic scene segmentation using random multinomial logit (rml)

Publications (3)

Publication Number Publication Date
JP2012529110A true JP2012529110A (ja) 2012-11-15
JP2012529110A5 JP2012529110A5 (ja) 2013-07-18
JP5357331B2 JP5357331B2 (ja) 2013-12-04

Family

ID=43298064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012514018A Active JP5357331B2 (ja) 2009-06-04 2010-05-28 無作為多項ロジットを用いる意味場面区画

Country Status (4)

Country Link
US (1) US8442309B2 (ja)
JP (1) JP5357331B2 (ja)
DE (1) DE112010002232B4 (ja)
WO (1) WO2010141369A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891869B2 (en) * 2011-03-31 2014-11-18 Sony Corporation System and method for effectively performing an integrated segmentation procedure
WO2012166840A2 (en) * 2011-06-01 2012-12-06 The Board Of Trustees Of The Leland Stanford Junior University Learning of image processing pipeline for digital imaging devices
CN102663418B (zh) * 2012-03-21 2014-04-23 清华大学 一种基于回归模型的图像集合建模与匹配方法
FR2996939B1 (fr) * 2012-10-12 2014-12-19 Commissariat Energie Atomique Procede de classification d'un objet multimodal
CN103268635B (zh) * 2013-05-15 2016-08-10 北京交通大学 一种几何网格场景模型的分割及语义标注方法
US9488483B2 (en) * 2013-05-17 2016-11-08 Honda Motor Co., Ltd. Localization using road markings
EP3120300A4 (en) * 2014-03-19 2017-11-22 Neurala Inc. Methods and apparatus for autonomous robotic control
CN105389583A (zh) * 2014-09-05 2016-03-09 华为技术有限公司 图像分类器的生成方法、图像分类方法和装置
CN106327469B (zh) * 2015-06-29 2019-06-18 北京航空航天大学 一种语义标签引导的视频对象分割方法
US20170200041A1 (en) * 2016-01-13 2017-07-13 Regents Of The University Of Minnesota Multi-modal data and class confusion: application in water monitoring
CN106021376B (zh) * 2016-05-11 2019-05-10 上海点融信息科技有限责任公司 用于处理用户信息的方法和设备
WO2017211395A1 (en) * 2016-06-07 2017-12-14 Toyota Motor Europe Control device, system and method for determining the perceptual load of a visual and dynamic driving scene
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10635927B2 (en) 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
CN106971150B (zh) * 2017-03-15 2020-09-08 国网山东省电力公司威海供电公司 基于逻辑回归的排队异常检测方法及装置
US11798297B2 (en) * 2017-03-21 2023-10-24 Toyota Motor Europe Nv/Sa Control device, system and method for determining the perceptual load of a visual and dynamic driving scene
CN110533749B (zh) * 2018-02-07 2022-11-11 深圳市腾讯计算机系统有限公司 一种动态纹理视频生成方法、装置、服务器及存储介质
KR20190134272A (ko) 2018-05-25 2019-12-04 삼성전자주식회사 영상 처리를 위한 네트워크 조정 방법 및 장치
JP7242882B2 (ja) * 2019-09-27 2023-03-20 富士フイルム株式会社 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム
US20230028042A1 (en) * 2021-07-21 2023-01-26 Canoo Technologies Inc. Augmented pseudo-labeling for object detection learning with unlabeled images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252870A1 (en) * 2000-04-11 2004-12-16 Reeves Anthony P. System and method for three-dimensional image rendering and analysis
US20080027917A1 (en) * 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
US20080075361A1 (en) * 2006-09-21 2008-03-27 Microsoft Corporation Object Recognition Using Textons and Shape Filters

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4945478A (en) 1987-11-06 1990-07-31 Center For Innovative Technology Noninvasive medical imaging system and method for the identification and 3-D display of atherosclerosis and the like
DE19623033C1 (de) 1996-06-08 1997-10-16 Aeg Electrocom Gmbh Verfahren und Anordnung zur Mustererkennung auf statistischer Basis
US6711278B1 (en) 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
FR2832832A1 (fr) * 2001-11-23 2003-05-30 Ge Med Sys Global Tech Co Llc Procede de detection et de caracterisation automatique de nodules dans une image tomographique et systeme d'imagerie medicale par tomodensimetrie correspondant
US7313268B2 (en) * 2002-10-31 2007-12-25 Eastman Kodak Company Method for using effective spatio-temporal image recomposition to improve scene classification
WO2004083986A2 (en) 2003-03-19 2004-09-30 Customiser Ltd Recognition of patterns in data
US7110000B2 (en) * 2003-10-31 2006-09-19 Microsoft Corporation Synthesis of progressively-variant textures and application to arbitrary surfaces
US20050221266A1 (en) * 2004-04-02 2005-10-06 Mislevy Robert J System and method for assessment design
JP4260060B2 (ja) * 2004-05-12 2009-04-30 ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー X線ct装置および画像再構成装置
CN101422035B (zh) * 2006-05-29 2012-02-29 松下电器产业株式会社 光源推定装置、光源推定系统与光源推定方法以及图像高分辨率化装置与图像高分辨率化方法
US20090083790A1 (en) 2007-09-26 2009-03-26 Tao Wang Video scene segmentation and categorization
US8213725B2 (en) * 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040252870A1 (en) * 2000-04-11 2004-12-16 Reeves Anthony P. System and method for three-dimensional image rendering and analysis
US20080027917A1 (en) * 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
US20080075361A1 (en) * 2006-09-21 2008-03-27 Microsoft Corporation Object Recognition Using Textons and Shape Filters

Also Published As

Publication number Publication date
DE112010002232B4 (de) 2021-12-23
DE112010002232T5 (de) 2012-07-05
JP5357331B2 (ja) 2013-12-04
US20100310159A1 (en) 2010-12-09
US8442309B2 (en) 2013-05-14
WO2010141369A1 (en) 2010-12-09

Similar Documents

Publication Publication Date Title
JP5357331B2 (ja) 無作為多項ロジットを用いる意味場面区画
US11182620B2 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
CN111160311B (zh) 基于多注意力机制双流融合网络的黄河冰凌语义分割方法
US10699151B2 (en) System and method for performing saliency detection using deep active contours
US20230351544A1 (en) Low- And High-Fidelity Classifiers Applied To Road-Scene Images
US8620026B2 (en) Video-based detection of multiple object types under varying poses
US20220277549A1 (en) Generative Adversarial Networks for Image Segmentation
CN111553397B (zh) 基于区域全卷积网络和自适应的跨域目标检测方法
CN113468967B (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN111768432A (zh) 基于孪生深度神经网络的动目标分割方法及系统
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
Wang et al. A feature-supervised generative adversarial network for environmental monitoring during hazy days
Vaiyapuri et al. Automatic Vehicle License Plate Recognition Using Optimal Deep Learning Model.
CN112613387A (zh) 一种基于YOLOv3的交通标志检测方法
CN112651274A (zh) 路上障碍物检测装置、路上障碍物检测方法及记录介质
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN110969104A (zh) 基于二值化网络检测可行驶区域的方法、系统及存储介质
CN115641317A (zh) 面向病理图像的动态知识回溯多示例学习及图像分类方法
Nakazawa et al. An EM algorithm based method for constructing dynamic saliency maps considering characteristics while driving
CN113807354A (zh) 图像语义分割方法、装置、设备和存储介质
CN114882449B (zh) 一种基于Car-Det网络模型的车辆检测方法及装置
US20230245319A1 (en) Image processing apparatus, image processing method, learning device, learning method, and program
CN116630212A (zh) 一种基于条件gan网络的自适应特征融合的数据合成方法
CN117876719A (zh) 一种基于逆向知识蒸馏的工业产品异常检测方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130528

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130528

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130528

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130829

R150 Certificate of patent or registration of utility model

Ref document number: 5357331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250