JP2016110635A - 画像署名をフィッシャーベクトルとマッチングするための適応型語彙 - Google Patents

画像署名をフィッシャーベクトルとマッチングするための適応型語彙 Download PDF

Info

Publication number
JP2016110635A
JP2016110635A JP2015221043A JP2015221043A JP2016110635A JP 2016110635 A JP2016110635 A JP 2016110635A JP 2015221043 A JP2015221043 A JP 2015221043A JP 2015221043 A JP2015221043 A JP 2015221043A JP 2016110635 A JP2016110635 A JP 2016110635A
Authority
JP
Japan
Prior art keywords
camera
image
generation model
universal
dependent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015221043A
Other languages
English (en)
Other versions
JP6687364B2 (ja
Inventor
ウスマン・タリク
Tariq Usman
ホセ・アントニオ・ロドリゲス・セラーノ
Antonio Rodriguez Serrano Jose
フロラン・シー・ペロナン
C Perronnin Florent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2016110635A publication Critical patent/JP2016110635A/ja
Application granted granted Critical
Publication of JP6687364B2 publication Critical patent/JP6687364B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】画像マッチングの撮像条件における差異の影響を削減するシステムおよび方法を提供する。【解決手段】局所的な記述子の普遍的な生成モデルを第1のカメラ16へ適用して、第1のカメラ依存の生成モデルを取得する。さらに、同じ普遍的な生成モデルが第2のカメラ18へ適用され、第2のカメラ依存の生成モデルを取得する。第1のカメラにより撮像された第1の画像から、第1の画像レベル記述子が、第1のカメラ依存の生成モデルを使用して抽出される。第2のカメラにより撮像された第2の画像から、第2の画像レベル記述子が、第2のカメラ依存の生成モデルを使用して抽出される。類似性が、第1の画像レベル記述子と第2の画像レベル記述子との間で計算される。情報が、計算された類似性に基づいて出力される。適応により、画像レベル記述子間の差異が許容され、画像条件ではなく、画像コンテンツにおける偏差の方にずらされる。【選択図】図3

Description

例示的な実施形態は画像処理に関し、画像における物体検出に関連して特定の用途を見出す。
異なる位置の異なるカメラにより取得される画像における物体をマッチングすることが望ましい事例が多くある。例えば、静止カメラまたはビデオカメラは、有料道路および橋の自動または半自動の通行料金査定、駐車施設の自動監視、速度制限または他の交通規制のカメラベースの実施、カープール車線の監視、車道使用量調査など、において使用する画像を取得するために配置されてよい。用途に応じて、取得される車両画像は、車両全体の画像であってよく、または、後ろのナンバープレートなど、車両の一部の画像であってよい。
異なる画像における物体をマッチング(再同定と称される)する際の1つの問題は、撮像条件が異なる場合があることである。撮像条件の差異は、異なる角度で置かれたカメラ、背景の差異、例えば、撮影時刻または異なる天候条件などに起因する、照明条件、カメラの設定、カメラの解像度または他のカメラ特性、被写体ぶれの量、および後処理など、様々な理由に起因する可能性がある。一般的に、撮像条件の差異が大きい場合、物体認識または画像マッチングなど、コンピュータの映像タスクに影響を及ぼす可能性がある。1つの理由は、たとえ同じ特徴が両方の事例において抽出される場合であっても、撮像条件が特徴分布に大きな影響を与え得ることである。これは、ある条件のために訓練された分類器の前提が、他の条件にも常に当てはまるとは限らないことを意味する。
画像マッチングでは、撮像された画像の特徴ベース表現が生成されることが多い。例えば、画像または画像の一部を表現する1つの方法は、フィッシャーベクトル(FV)を伴う。この方法において、画像パッチの記述子の発行元である、生成モデル(ガウス混合モデル(GMM)など)が存在すると想定され、フィッシャーベクトルコンポーネントは、モデルの1つ以上のパラメータに対する記述子の対数尤度の勾配である。したがって、訓練に使用される各パッチは重みのベクトルにより特徴づけられることができ、一連のガウス関数の各々に対する1つ(または、複数)の重みは、混合モデルを形成する。新しい画像を考えると、表現は、訓練されたGMMに対するパッチの特性に基づいて生成され得る(多くの場合、画像署名と称される)。
典型的な運搬用途において、カメラは、例えば、様々な料金所など、様々な戦略上の位置に置かれ、各カメラは独立的に訓練された後、その場所にある(または、その場所を通過する)車両の表現を生成するために使用される。2つの表現が一致する場合、車両は同じであると推定され得る。しかしながら、異なるカメラで撮像された画像間の小さな差異さえ、性能に大きく影響し得る。
ドメイン適応技術は、あるドメインからのデータを別のドメインでの使用に適応するために、開発されてきた。Jiang,J.による、「A literature survey on domain adaptation of statistical classifiers(統計分類器のドメイン適応に関する文献調査)」(Technical report pp.1−12(2008))、および、Beijbom,O.による、「Domain Adaptations for computer vision applications(コンピュータ視覚アプリケーションのためのドメイン適応)」(Technical report,arXiv:1211.4860v1[cs.CV]20 pp.1−9(Nov.2012))は、学習理論および自然言語処理アプリケーションおよびコンピュータ視覚アプリケーションに注目する調査を、提供する。一部の手法は、ドメインを近づけるために、特徴空間を変換することに注目している。一部の事例において、一般的にPCA投影に基づく、監視されない変換が使用される。以下を参照されたい:Gopalan,R.らによる、「Domain adaptation for object recognition: An unsupervised approach(物体認識のためのドメイン適応:監視されない手法)」(ICCV,pp.999−1006(2011));Gong,B.らによる、「Geodesic flow kernel for unsupervised domain adaptation(監視されないドメイン適応のための測地流カーネル)」(CVPR,pp.2066−2073(2012));および、Fernando,B.らによる、「Unsupervised visual domain adaptation using subspace alignment(サブ空間配列を使用する監視されない視覚ドメイン適応)」(ICCV,pp.2960−2967(2013))。他の技術において、(一般的に、ソースおよび対象ドメインの両方において)クラスラベルを利用する測定基準学習が、特徴空間の変換を学習するために使用され、それにより、この新しい空間において、同じクラスのインスタンスは、インスタンスが属するドメインとは独立して、他のクラスからのインスタンスより互いに近くなる。以下を参照されたい:Zha,Z.−J.らによる、「Robust distance metric learning with auxiliary knowledge(予備知識を用いるロバスト距離測定基準学習)」(IJCAI,pp.1327−1332(2009));Saenko,Kらによる、「Adapting visual category models to new domains(視覚カテゴリモデルの新しいドメインへの適応)」(ECCV,Vol.6314 of Lecture Notes in Computer Science,pp.213−226(2010));Kulis,B.らによる、「What you saw is not what you get: Domain adaptation using asymmetric kernel transforms(見たことと得ることは違う:非対称カーネル変換を使用するドメイン適応)」(CVPR,pp.1785−1792(2011));および、Hoffman,J.らによる、「Discovering latent domains for multisource domain adaptation(マルチソースドメイン適応のための潜在的なドメインの発見)」(ECCV,Vol.Part II,pp.702−715(2012))。
これらの技術の多くは分類の問題を対象としており、したがって、クラスの概念がない再同定など、マッチングの問題に適用するには困難であり得る。他の技術は、多くの用途で実用的ではない、膨大な量の訓練データを必要とする。
例示的な実施形態は、画像マッチングの撮像条件における差異の影響を削減する、フィッシャーベクトルなどの画像表現を生成する、システムおよび方法を提供する。
例示的な実施形態の1つの態様によると、方法は、局所的な記述子の普遍的な生成モデルを提供すること、普遍的な生成モデルを第1のカメラに適用して、第1のカメラ依存の生成モデルを取得すること、を含む。さらに、普遍的な生成モデルは、第2のカメラに適用されて、第2のカメラ依存の生成モデルを取得する(または、普遍的な生成モデルは、第2のカメラ依存の生成モデルとして使用され得る)。第1のカメラにより撮像された第1の画像から、第1の画像レベル記述子が、第1のカメラ依存の生成モデルを使用して抽出される。第2のカメラにより撮像された第2の画像から、第2の画像レベル記述子が、第2のカメラ依存の生成モデルを使用して抽出される。類似性が、第1の画像レベル記述子と第2の画像レベル記述子との間で計算される。情報は、計算された類似性に基づいて出力される。
普遍的な生成モデルを第1および第2のカメラに適用すること、第1および第2の画像レベル記述子を抽出すること、および、類似性を計算すること、のうちの少なくとも1つは、コンピュータプロセッサで行われてよい。
例示的な実施形態の別の態様によると、システムは、局所的な記述子の普遍的な生成モデルを保存するメモリを含む。適応コンポーネントは、普遍的な生成モデルを第1のカメラに適用して第1のカメラ依存の生成モデルを取得し、普遍的な生成モデルを第2のカメラに適用して第2のカメラ依存の生成モデルを取得する。プロセッサは、適応コンポーネントを実装する。
例示的な実施形態の別の態様によると、物体の再同定のためのシステムを生成する方法は、訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供することを含む。普遍的な生成モデルは第1のカメラに適用され、第1のカメラ依存の生成モデルを、第1のカメラにより撮像された画像から抽出される局所的な記述子を使用して取得する。普遍的な生成モデルは第2のカメラに適用され、第2のカメラ依存の生成モデルを、第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して取得する。コンポーネントは、第1のカメラ依存の生成モデルを使用する第1の画像の画像レベル表現、および、第1のカメラ依存の生成モデルを使用する第1の画像の画像レベル表現、のうちの少なくとも1つを計算するために提供される。コンポーネントは、第1の画像レベル記述子と第2の画像レベル記述子との間の類似性を計算するために提供される。
適応は、コンピュータプロセッサで行われてよい。
図1は、例示的な実施形態の1つの態様による、物体の再同定のためのシステムの機能ブロック図である。 図2Aは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。 図2Bは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。 図3は、適用型GMMの生成をグラフ化して図示する。 図4は、適応前の各車線からの特徴x全体で均等化されたプロットp(k|x)である。 図5は、適応後の各車線からの特徴x全体で均等化されたプロットp(k|x)である。
例示的な実施形態は物体マッチングに関し、物体の再同定を特に参照して記載される。例示的な実施形態の態様において、物体の再同定のためのシステムおよび方法が記載される。システムおよび方法は、例えば、2つの画像が、同じ車、同じ自転車、同じ飛行機などの画像であるか(例えば、同じ車両が施設の入口および出口で観察されるか)など、2つの画像が同じ物体インスタンスを包含するか判定するために、使用され得る。2つの画像をマッチングするために、表現が、画像の画素を代表する局所的な記述子に基づいて、抽出される。例として、各表現は、画像全体の代表または物体(例えば、ナンバープレート)を含むと予想される画像の対象領域(ROI)の代表である、1つ以上のフィッシャーベクトルを含んでよい。その後、2つのフィッシャーベクトル間の類似性測定基準が計算される。フィッシャーベクトルは、生成モデルに対する偏差を符号化する。その後、類似性測定基準の閾値が、2つの画像が同じ物体インスタンスのものであるか決定するために使用されてよい。
例示的な実施形態の他の態様において、物体の再同定システムを生成するシステムおよび方法が、記載される。
上述したように、撮像条件が物体の2つの画像の撮像で異なる場合、同じ物体インスタンスを包含するにも関わらず、抽出されたフィッシャーベクトルは類似しない可能性がある。例示的な実施形態において、普遍的な生成モデルは先天的に学習される。撮像条件のずれは、対応するモデルのずれの形式で反映される。このずれを無効にするために、生成モデルのパラメータが、(例えば、2つのカメラからの)2つの撮像条件の各々で撮像された画像を使用する、監視されない手法に適用される。結果として、各々が「適応型視覚語彙」を伴う、2つのカメラ特有の生成モデルが取得される。その後、フィッシャーベクトルの形式で符号化された、これらのモデルからの偏差は、撮像条件ではなく、画像コンテンツにおける偏差の方にずらされる。
図1を参照すると、物体の再同定のためのシステム10が示されている。システム10は、テスト画像12,14をカメラ16,18から受信し、画像12,14を処理して、これらの画像が同じ物体を含むか判定する。
本明細書に使用される「物体」という用語は、車両、ナンバープレート、他の製造品、建物などの無生物物体(または、無生物物体の群)、または、人物または人物の群、または、動物または動物の群などの生物物体(または、生物物体の群)を指す。特に、「物体」という用語は、システムにより使用されるカメラ16,18により撮像され得る物理的な物体を指す。
例示的な実施形態において、物体は、モータ付き車両などの車両、または、車両の登録番号を含む、車両の識別子を含む車両のナンバープレートである。しかしながら、人物と指紋および/または眼球スキャン、配送荷物と追跡または宛先情報など、他の移動物体と識別子も考慮されることに、留意されたい。車両の同定は、例えば、駐車場の入口および出口、または、道路の異なる地点など、複数の位置および/または異なる時間で行われることが望ましい場合がある。簡易化するために、互いに距離Zだけ離れた2つの位置XおよびYが考慮されるが、XおよびYは、同じ位置か、または、近い位置であってよいことに、留意されたい。
1つの例示的な実施形態において、目的は、XおよびYでの車両の同一性間の一致を見出し、2つの同一性間の一致が確立された場合、XおよびYで撮像された情報に依存する一定の条件が適合するか判定することである。条件が適合する場合、ナンバープレート認識など、特定の動作が引き起こされる。
本明細書において使用される「カメラ」という用語は、対象物体の画像を取得することが可能な撮像デバイスを指す。一部の限定されない例として、ガメラは、以下であってよい:人間の視覚により観察されるものと類似のカラーまたはモノクロ画像を取得することが可能な、写真フィルムまたはデジタル撮像アレイ(例えば、選択的にカラーフィルタを伴うCCDアレイ)を含む、従来のカメラ;または、X線ソースと連動して動作し、X線投影画像を生成する、X線高感度撮像アレイを含む、X線スキャナ;または、コンピュータ断層撮影スキャナ;または、夜間または低光量画像を取得するために使用される種類の赤外線カメラ;または、文書ページ画像を生成するよう動作する、文書スキャナなど。カメラは、例えば、物体上または物体中に存在し得る蛍光染料により放射される波長(複数可)に敏感であるよう、波長選択フィルタを含む、特定の物体ラベリングタスクに特化されることが考慮される。一般的に、カメラは、静止カメラ(すなわち、単一の静止画像を取得する)、または、ビデオカメラ(すなわち、通常は「フレーム」と称される時系列の画像を取得し、本明細書において、画像前処理は、対象の物体を最適に撮像するビデオバーストのフレームを選択することを必要としてよい)であってよい。コンピュータ断層撮影スキャナなど、一部の種類のカメラにおいて、カメラにより物体から取得されたデータは、画像を生成するために画像復元処理が行われてよい。
図1に図示されるシステム10は、図2を参照して記載される方法を行うための命令22を保存するメモリ20、および、命令を実行するためのメモリと通信するプロセッサデバイス24を含む。1つ以上のネットワークインタフェース26,28が、画像12,14(または、画像から抽出された特徴)をカメラ16,18から受信し、それらに基づく情報30を出力するために、提供される。システムのハードウェアコンポーネント20,24,26,28は、データ/制御バス32を介して通信する。一般的な訓練画像のセット34は、例えば、システムメモリ20における、または、システムと通信可能に接続される関連メモリにおける、データベース38に保存されてよい。訓練画像34は、カメラ16,18のいずれか1つに特有のものではないが、カメラにより撮像される代表的な種類の画像であってよい。
簡潔には、命令22は、特徴抽出コンポーネント40、訓練コンポーネント42、適応コンポーネント44、署名生成コンポーネント46、マッチングコンポーネント48、選択的に、プロセス実装コンポーネント50、および情報出力コンポーネント52を含む。
特徴抽出コンポーネント40は、画像12,14および訓練画像34など、画像から局所的な特徴を抽出して、局所的な記述子54,56を生成する。留意されるように、訓練画像34、および、カメラにより取得された画像12,14は、クロッピングされてよく、あるいは、そうでない場合は、局所的な記述子を抽出する前に、前処理されてよい。
訓練コンポーネント42は、局所的な記述子の普遍的な生成モデル60を、一般的な訓練画像のセット34から生成された局所的な記述子を訓練データとして使用して、訓練する。訓練画像34は、1つの実施形態において、カメラ16,18を含んでよい、カメラのセットから取得された可能性がある。したがって、訓練データ34は、視覚コンテンツにおいて、カメラ16,18により取得される画像と類似してよい。生成モデル60は、普遍的な背景モデル(UBM)と称される。UBM60は、ガウス関数のセットのパラメータを含む、ガウス混合モデル(GMM)であってよい。
適応コンポーネント44は、生成モデル60を各カメラ16,18に適用して、例示的な実施形態がGMMである、各々のカメラ特有モデル62,64を取得する。UBM60を適用するために、カメラ16,18の各々(または、撮像位置に特有のカメラ)により撮像された、ラベル化されない訓練サンプル66,68の各々のセットから抽出される局所的な記述子が、生成モデル60を適用するために使用され、各々の位置での異なる撮像条件を適合させる。留意されるように、2つのカメラ16,18が図示される一方で、任意の数のカメラが、各々のカメラ依存モデル62,64で提供されてよい。
第1のテスト画像12から抽出される局所的な記述子54および第1のカメラ16の生成モデル62を考慮すると、署名生成コンポーネント46は、SIで示される、第1の画像レベル記述子(画像署名)70を抽出する。第2のテスト画像14から抽出される局所的な記述子56および第2のカメラ18の生成モデル64を考慮すると、(個別の署名生成コンポーネントであり得る)署名生成コンポーネント46は、SIで示される、第2の画像レベル記述子72を抽出する。画像レベル記述子70,72は、各々が柔軟なバグオブビジュアルワードまたはフィッシャーベクトルであってよい。
マッチングコンポーネント48は、例えば、SIとSIとの間のコサイン距離など、類似性を計算することにより、異なる画像から計算される画像署名70,72間の整合性を計算する。整合性が閾値に少なくとも適合する場合、2つの画像(または、画像内に撮像された物体)は、一致すると推測されてよく、すなわち、同じ物体であると推測されてよい。
プロセス実装コンポーネント50は、マッチングコンポーネントの出力に基づいて、プロセスを実施してよい。例えば、車両の画像の事例において、車両が一致すると、ナンバープレート情報が画像の一方または両方から抽出されてよい。これは、閾値を超える車両の速度が計算された場合など、さらなる条件が適合することを条件としてよい。これは、各々の画像12,14の撮像と関連付けられる、タイムスタンプなどの情報M,M74,76に基づいて、計算されてよい。
情報出力コンポーネント52は、情報30を、例えば、遠隔コンピュータ、プリンタ、表示デバイス(例えば、コンピュータスクリーン)、または、遠隔メモリ保存デバイス、または、それらの組み合わせなど、出力デバイス80へ、マッチングコンポーネントまたは他の情報による推論に基づいて、プロセス実装コンポーネント50により計算される情報に基づいて、出力する。
システム10は、入力/出力インタフェース28を介して、LCDスクリーンまたはコンピュータモニタなど、情報をユーザへ表示するための表示デバイス、および、テキストを入力し、プロセッサ24へのユーザ入力情報および命令の選択を通信するための、キーボードまたはタッチまたは書き込み可能スクリーンなど、ユーザ入力デバイス、および/または、マウス、トラックボールなど、カーソル制御デバイス、のうちの1つ以上と通信してよい。表示デバイスおよびユーザ入力デバイスは、クライアント計算デバイス80の一部として図示されるが、他の実施形態において、システムを管理するコンピュータ82と直接的に結合されてよい。
システム10は、デスクトップなどのPC、ラップトップ、パームトップコンピュータ、携帯情報端末(PDA)、サーバコンピュータ、セルラー電話、タブレットコンピュータ、ポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行することが可能な他の計算デバイスなど、1つ以上の計算デバイス82に常駐してよい。留意されるように、システム10の部品は、2つ以上の計算デバイスに分散されてよい。例えば、画像12,14の局所的な記述子は、各々のカメラ16,18のコンポーネント84,86を処理することにより計算され、計算デバイス82にアクセス可能なデータベース38に保存されてよい。
メモリ20は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスクまたはテープ、光ディスク、フラッシュメモリ、またはホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。1つの実施形態において、メモリ20は、ランダムアクセスメモリと読み出し専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ24およびメモリ20は、単一チップに統合されてよい。
ネットワークインタフェース26,28は、コンピュータ82が、他のデバイスと、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)などのコンピュータ網、または、インターネットなど、有線または無線リンクを介して通信することを許容し、変調器/復調器(MODEM)、ルータ、ケーブル、および/またはイーサネット(登録商標)ポートを備えてよい。
デジタルプロセッサ24は、例えば、シングルコアプロセッサ、デュアルコアプロセッサ(または、より一般的には、多重コアプロセッサ)、デジタルプロセッサおよび協調数値演算コプロセッサ、デジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ24は、コンピュータ82の動作を制御することに加えて、図2で概要を述べた方法を行うためのメモリ20に保存された命令を実行する。
一部の実施形態において、システム10は、単に、例えば、適応コンポーネント44を包含する、再同定システムの部品を生成するためのシステムとして使用され得る一方で、他のコンポーネントは省略されてよい。他の実施形態において、システム10は、既に適用されたカメラ依存の生成モデル62,64を利用するために使用され得る一方で、訓練および適応コンポーネント42,44などの他のコンポーネントは省略されてよい。
本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意の集合またはセットを網羅し、それにより、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図しており、さらに、ROMなどに保存されるソフトウェアである、いわゆるファームウェアを網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ、遠隔サーバなどに保存されたインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接的に実行可能なコードなどとして体系化される、ソフトウェアコンポーネントを含んでよい。ソフトウェアはシステムレベルのコードを起動してよく、または、サーバまたは他の位置に常駐する他のソフトウェアを呼び出して特定の機能を行うことが、予期される。
図2は、図1のシステムで行われてよい、物体再同定のための方法を図示する。最初に図2Aを参照すると、方法はS100で開始される。
S102で、局所的な記述子の普遍的な生成モデルUBM60が提供される。これは、UBM60を訓練コンポーネント42で訓練することを含んでよい。UBM60は、K個のガウス関数のセット(ガウス分布または混合とも称される)のパラメータを含む。一部の実施形態において、普遍的な生成モデルUBM60は、事前に訓練されてよく、単にシステム10にアクセス可能なメモリ20に保存されてよい。
S104で、普遍的な生成モデル60は第1のカメラ16に適用され、第1のカメラ依存の生成モデル62を取得する。これは、第1のカメラ16により撮像された訓練画像66の第1のセットから抽出される記述子を使用して(すなわち、第1のカメラにより撮像された、第2のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第1のカメラ依存の生成モデル62は、UBM60のパラメータを適用することにより、訓練画像66の第1のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。
S106で、普遍的な生成モデル60は第2のカメラ18に適用され、第2のカメラ依存の生成モデル64を取得する。これは、第2のカメラ18により撮像された訓練画像68の第2のセットから抽出される記述子を使用して(すなわち、第2のカメラにより撮像された、第1のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第2のカメラ依存の生成モデル64は、UBM60のパラメータを適用することにより、訓練画像68の第2のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。したがって、GMM62および64は、同じ数のガウス関数のためのパラメータをUBM60として含む。別の実施形態において、普遍的な生成モデルは、第2のカメラ依存の生成モデルとして使用される(したがって、当該のカメラにより撮像された画像から、単独に、または、主に、取得される記述子で生成されてよい)。
S108で、局所的な記述子54は、第1のカメラ16により撮像される第1のテスト画像12から抽出される。
S110で、局所的な記述子56は、第2のカメラ18により撮像される第2のテスト画像14から抽出される。
S112で、第1の画像レベル記述子70は、第1の画像の局所的な記述子54および第1のカメラ16の適応型生成モデルu Θx62に基づいて生成される。
S114で、第2の画像レベル記述子72は、第2の画像の局所的な記述子56および第2のカメラ18の適応型生成モデルu Θy64に基づいて生成される。
S116で、第1および第2の画像レベル記述子70,72が比較される。図2Bへと続き、S118で、署名間の類似性が、閾値と合致する場合(および/または、比較されている画像のセットの最も高い類似性である場合)、S120で、一致が確認される。
S122で、プロセスは、一致の判定に基づいて実施されてよい。
S124で、一致があるか否か、または、一致が見られる場合、他の情報が計算されてよいか否か(または、別の実施形態において、一致が見られない場合、情報が計算されてよいか否か)など、情報30が出力される。
本方法は、S126で終了し、または、カメラのうちの1つにより撮像される新しいテスト画像(単数または複数)を処理するために、S108および/またはS110へ戻ってよい。
留意されるように、適応ステップが行われると、本方法はS108で開始され得る。代替的に、本方法は、S106から、本方法の後続のステップを行うためのコンポーネントの提供へ進み得る。
本方法は、図3においてグラフを使用して図示される。特に、各カメラ依存の混合モデルは、UBMの元のガウス分布(楕円により示される)の少なくとも一部を、わずかに移動することにより(平均適応により)、および/または、縮尺することにより(分散適応により)形成され、カメラ特有の記述子(星印により示される)を反映することが、確認され得る。カメラ依存の混合モデルの適応型ガウス分布は、同じ一般的な視覚クラスを、UBMにおけるものとして表し(元のガウス分布と重なって図示される)、したがって、画像レベル表現において比較可能である。
図2および図3において図示される方法は、コンピュータ上で実行されてよい、コンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスク、ハードドライブなど、制御プログラムが記録(保存)される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通の形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、CD−ROM、DVD、または、任意の他の光媒体、RAM、PROM、EPROM、FLASH−EPROM、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る任意の他の持続性媒体、を含む。コンピュータプログラム製品は、コンピュータ82と統合されてよく(例えば、RAMの内部ハードドライブ)、または、別個であってよく(例えば、コンピュータ82と動作可能に接続される外部ハードドライブ)、または、別個であり、ローカルエリアネットワーク(LAN)またはインターネットなど、デジタルデータ網を介して(例えば、低価格独立ディスク冗長アレイ(RAID)、または、コンピュータ82によりデジタル網を介して間接的にアクセスされる、他のネットワークサーバストレージとして)、アクセスされてよい。
代替的に、本方法は、制御プログラムが、電波および赤外線データ通信中に生成されるような、音波または光波などの伝送媒体を使用して、データ信号として具現化される、伝送可能な搬送波など、一時的な媒体において実装されてよい。
例示的な方法は、1つ以上の汎用コンピュータ、特定用途コンピュータ(複数可)、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺用集積回路素子、ASICまたは他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線接続された電子機器または論理回路、PLD、PDA、FPGA、グラフィカルカードCPU(GPU)、またはPALなどのプログラム可能論理デバイスなど、に実装されてよい。一般的に、有限状態機器を実装できる任意のデバイス、すなわち、図2に示されるフローチャートを実装できる任意のデバイスは、物体再同定のための方法を実施するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、1つ以上のステップが、少なくとも部分的に手動で行われてよい。
システムおよび方法の追加的な詳細が、ここで説明される。
画像の撮像
撮像された画像12,14(IおよびI)および訓練画像34,66,68は、システム10により、JPEG、GIF、JBIG、BMP、TIFFなど、任意の好都合なファイル形式で、または、画像に使用される他の共通ファイル形式であって、処理の前に選択的に別の適切な形式へ変換されてよい形式で、受信されてよい。入力画像は、処理中、データメモリに保存されてよい。画像は、写真など個別の画像であってよく、または、ビデオ画像などの連続する画像から抽出される画像であってよい。一般的に、各入力デジタル画像は、画像を形成する画素配列のための画像データを含む。画像データは、グレースケール値などの着色剤値を、L*a*b*またはRGBなどの色分離のセットごとに含んでよく、または、異なる色が表され得る別の他の色空間において表現されてよい。一般的に、「グレースケール」は、任意の単一色チャネルであるが、表現される(L*a*b*、RGB、YCbCrなど)、光学的な濃度値を指す。本方法は、白黒(モノクロ)画像および多色画像に適している。「色」という単語は、色彩、彩度、および明度などの絶対的色値、および、色彩、彩度、および明度の違いなどの相対的色値を含むが、それらに限定されない、特定される場合がある色の任意の態様を指すために、使用される。一部の実施形態において、色は、近赤外線(NIR)領域など、約800nm〜2500nmである、電磁スペクトルの非可視領域を指し得る。
所与の位置X,Yでの画像の撮像は、任意の適切な手法で始動されてよい。1つの実施形態において、ループセンサは、例えば、地中など、局所的に配置されてよく、車両の存在を検出し、撮影(フラッシュの可能性もある)を始動させる。1つの実施形態において、カメラ16,18は、画像の配列を備えるビデオを撮影し、移動検出アルゴリズムまたは物体検出アルゴリズム(または、両方の組み合わせ)が適用され、画像配列の車両の存在を検出し、それに応じて配列から1つの画像を選択する。車両検出技術は既知であり、例えば、米国特許第4,433,325号、第5,083,200号、第5,592,567号、第5,809,161号、第5,995,900号、第6,996,255号、および、米国公開番号第20140270381号および第20140063263号に開示されている。画像は、フルカラー、モノクロ、NIR(近赤外線)、または、それらの組み合わせにおいて、撮像され得る。
一部の実施形態において、同じ画像撮像デバイスが、両方の画像IおよびIを、例えば、駐車場において、例えば、カメラを回転/移動することにより撮像するために、使用され得る。
関連メタデータ74,76は、所定の条件が適合されたか判定できるよう、十分な情報を含んでよい。1つ以上のタイムスタンプ、車両の現行速度、GPS位置、支払い情報、天候情報など、1つ以上の異なる種類の情報が取得されてよい。
局所的な記述子の抽出(S108,S110)
局所的な記述子は、訓練およびテスト画像34,66,68,12,14から、同じ手法で抽出される。例えば、選択的にクロッピングされた画像のパッチのセットが、例えば、密に、1つまたは多重尺度で格子状に抽出される。パッチは、画像分割により、特定の対象点検出器を適用することにより、正規の格子を考慮することにより、または、単に画像パッチの無作為なサンプリングにより、取得され得る。例示的な実施形態において、パッチは、正規の格子上に、選択的に多重尺度で、クロッピングされた画像全体で、または、画像の少なくとも一部または大部分で、抽出される。例えば、少なくとも10個、または少なくとも20個、または少なくとも50個のパッチが、各クロッピングされた画像から抽出される。各パッチは、少なくとも40個、または少なくとも100個の画素を備えてよく、最大で1,000,000個以上の画素を備えてよい。
各パッチに対して、形状、色、および/または勾配(SIFT)特徴など、低レベルの特徴が抽出される(D.Loweによる、「Distinctive image features from scale−invariant keypoints(尺度不変性キーポイントからの特有の画像特徴)」(IJCV,2004)を参照されたい)。パッチに対して抽出された低レベルの特徴の表現である、ベクトルまたはヒストグラムなど、パッチ記述子が生成される。全てのパッチの記述子に基づいて、画像の画像署名全体が生成される。特に、統計値がこれらのパッチ記述子で計算され、その後、統計値は統合される。
例として、局所的な記述子は、SIFT記述子として、パッチごとに勾配特徴を含む。SIFT特徴を適用する1つの実例的な例において、局所的な記述子は、5つの尺度で正規の格子(16画素ごと)の32×32画素パッチから、抽出される。これらの記述子の次元は、例えば、主成分分析(PCA)を介して、128次元から32次元に削減され得る。抽出され得る他の適切な局所的な記述子は、パッチが4×4のサブ領域に、さらに分割される、単一の96次元色特徴を含み、各サブ領域において、平均および標準偏差が、3つのチャネル(R、G、およびB)に対して計算される。これらは単に実例的な例にすぎず、追加的および/または他の特徴が使用され得る。
画像署名の抽出(S112,S114)
各画像レベルの記述子または「画像署名」70,72などは、D次元空間の(選択的にクロッピングされた)画像の固定長ベクトル表現である。1つの実施形態において、画像レベル記述子は、フィッシャーベクトル(FV)に基づく。例えば、以下を参照されたい:PerronninおよびDanceによる、「Fisher kernels on visual vocabularies for image categorization(画像カテゴリ化のための視覚語彙のフィッシャーカーネル)」(CVPR,2007);Perronninらによる、「Improving the Fisher kernel for large−scale image classification(大規模な画像分類のためのフィッシャーカーネルの向上)」(ECCV,143−156(2010));Sanchezらによる、「High−dimensional signature compression for large−scale image classification(大規模な画像分類のための高次元署名圧縮)」(CVPR 2011);2012年3月29日に発行された、Jorge Sanchezらによる、米国公開番号第20120076401号「IMAGE CLASSIFICATION EMPLOYING IMAGE VECTORS COMPRESSED USING VECTOR QUANTIZATION(ベクトル量子化を使用して圧縮される画像ベクトルを利用する画像分類)」;および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGE SCALE IMAGE CLASSIFICATION(大規模な画像分類)」。フィッシャーベクトルは、画像分類、画像検索、物体検出、および、人物再同定を含む、様々な用途において良好な結果を見せた。したがって、フィッシャーベクトルを向上させ得る任意の改善は、多くの用途に大きな影響を与えるであろう。以下にフィッシャーベクトル抽出が記載され、続いて適応技術が記載される。
フィッシャーベクトルは、ナンバープレート処理において確認された、光度および幾何学変動性の範囲でロバスト性を示す。簡単に言えば、フィッシャーベクトルは、局所的なパッチ記述子を固定長表現に統合することにより機能する。上述したように、SIFTおよび/または他の局所的な記述子は、正規の格子の多重尺度で抽出されたパッチから抽出され、それらの次元は、選択的に、主成分分析(PCA)を使用して削減される。以下に記載されるように、全ての局所的な記述子が発行されると推測される、予測されるカメラ特有のガウス混合モデル(GMM)を考慮すると、パッチのセットは、重みのベクトルにより特徴づけられ、パラメータごとに、混合モデルを形成する(例えば、少なくとも5個または10個の)ガウス関数のセットの各々に対して1つの重みである。
目下の事例において、X={x,x,…,x}は、画像パッチから抽出されたN個の多次元特徴ベクトル(局所的な記述子)のセットであると仮定する。uΘを、そのような特徴ベクトルをもたらす生成モデルの確率濃度関数とし、ここで、Θは確率濃度関数のパラメータを表す。その後、フィッシャーベクトルが以下の式により与えられる:
Figure 2016110635
ここで、LΘは、uΘのフィッシャー情報行列の逆数の平方根である。
Figure 2016110635
は、uΘに対するデータサンプル(パッチ記述子)xの対数尤度である。したがって、その勾配(▽Θ)を計算することで、生成モデルuΘのパラメータが、Xのデータサンプルに適合するために修正されるべき度合いの測定値が与えられる。Sanchez2013を参照されたい。勾配は、平均、分散、および/または重みなど、GMMの1つ以上のパラメータに対して計算され得る。
普遍的な生成モデル(S102)
例示的な方法において、普遍的な生成モデルuΘ60は、パラメータΘ={π,μ,Σ,k=1,…,K}を伴う、Kコンポーネントガウス混合モデル(GMM)である。ここで、π、μおよびΣは、それぞれ重み、平均ベクトルであり、k番目のガウス分布の共分散行列である。利便性のため、以下とする:
Figure 2016110635
したがって、任意の特徴ベクトルxに対して、以下が成り立つ:
Figure 2016110635
ここで、以下が成り立つ:
Figure 2016110635
pは、特徴ベクトルxの次元である。GMM60は、訓練画像34から抽出された局所的な記述子を使用して先天的に学習され、普遍的な背景モデル(UBM(音声処理の慣例に従う:例えば、Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))を参照されたい)と称される場合がある。
Sanchez2013におけるような、一部の前提の下でLΘを計算し、対角線の共分散行列Σを考慮した後、GMMの異なるパラメータの各々に対して(方程式(1)から生じる)方程式が、推定され得る。しかしながら、平均のみを使用してフィッシャーベクトルを導くと、マッチングの用途において良好な性能を与えることが分かっている。したがって、平均Σに対する勾配に対して、以下が成り立つ:
Figure 2016110635
ここで、以下が成り立つ:
Figure 2016110635
ここで、σは、k番目のガウス分布に対する、対角線の共分散行列の対角線エントリであり、除算は要素関連動作を暗示する。さらに、
Figure 2016110635
は、xでのk番目のガウス分布に対するpdfの値である。
Figure 2016110635
は、p×1ベクトルであることに、留意されたい。最終的なフィッシャーベクトルは、混合モデルにおけるK個のガウス関数の全てに対する勾配
Figure 2016110635
の連鎖である。したがって、これはKp−dimベクトルである。その後、これはサイン平方根およびl正規化されてよい。Sanchez2013を参照されたい。
カメラ16,18は、異なる撮像条件を有していると仮定する。撮像条件のバランスを取るための1つの手法は、独立して最初から各カメラに対するGMMを学習することであり得る。しかしながら、これにより、異なるGMMからの異なるガウス分布が一致するわけではない。したがって、カメラ全体でフィッシャーベクトルを比較することは、フィッシャーベクトルが全てのガウス分布sに対する勾配統計値の連鎖として構築されるため、困難になり得る。目下の方法において、UBM60のモデルパラメータは、異なるカメラからの画像に適用され、カメラ特有のGMM62,64をもたらす。その後、これらのカメラ特有のGMM62,64がフィッシャーベクトルを計算するために使用される際、特定の画像に特有である偏差を主に符号化し、撮像条件の差異は符号化しない。
留意されるように、さらに、バグオブワードの画像レベル記述子が、ガウス混合モデルにより生成され、したがって、さらに、本方法はこれらの画像レベル記述子に適用可能である。例えば、バグオブワードの画像レベル記述子のより完全な記述に関して、Csurkaらによる、「Visual Categorization with Bags of Key−points(キーポイントのバグを伴う視覚カテゴリ化)」(ECCV Workshop on Statistical Learning for Computer Vision(2004))、2008年3月20日に発行された、Florent Perronninによる、米国公開番号第20080069456号「BAGS OF VISUAL CONTEXT−DEPENDENT WORDS FOR GENERIC VISUAL CATEGORIZATION(生成視覚カテゴリ化のための視覚的な文脈依存語のバグ)」、および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGE SCALE IMAGE CLASSIFICATION(大規模な画像分類)」を参照されたい。
生成モデルの適用化(S104,S106)
例示的な画像レベル記述子70,72は、テスト画像12,14から同様の手法で抽出される、フィッシャーベクトルである。しかしながら、フィッシャーベクトルを生成するために使用される生成モデル62および64は、異なる。
さらに、適応の必要性を説明するために、方程式(5)を考慮すると、平均ベクトルに対するフィッシャーベクトルの勾配は、以下となる:
Figure 2016110635
ここで、以下が成り立つ:
Figure 2016110635
Figure 2016110635
および
Figure 2016110635
は、それぞれ、Xからのデータサンプルが与えられる、k番目のガウスコンポーネントの平均ベクトルおよび混合重みの予測値である。したがって、方程式(7)は、フィッシャーベクトルを、予測された平均ベクトル
Figure 2016110635
と各々のUBMガウス平均ベクトル(μ)との間の差異の関数として、規定する。
ガウス分布kのサポートΩは、Ω={x:k=argmaxp(i|x)}として規定される。したがって、撮像条件の変化が各ガウス分布kのサポート全体で区分的に一定のずれδによりモデル化され得る場合、破損されたUBM平均μおよび画像特有の平均
Figure 2016110635
は、μ+δおよび
Figure 2016110635
となる(ハード割当てを前提として、p(i|x)が二値であると推定され、これは高次元入力ベクトルxに妥当であることを意味する)。しかしながら、方程式(7)におけるδkの取消の影響は、UBM適応戦略を正当化する。
様々な適応方法が考慮される。これらの方法は、最大帰納的(MAP)適応、例えば最尤線形回帰(MLLR)など、線形変換体系に関する適応技術、例えば音声認識方法から適用される、例えば固有声など、発話者クラスタリング体系に関する技術を含む(Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))(以降、Reynoldsら)を参照されたい)。選択は、利用可能な適応データの量および意図される用途に依存してよい。1つの例示的なMAP適応が、使用されてよい。
MAP適応
例示的な適応プロセスは、完全に監視されない:カメラ16または18と関連付けられる画像のセットを考慮すると、これらの画像(例えば、ラベル)の内容に関する情報は、UBM60を適用してカメラ特有のモデル62,64を生成するのに必要でない。
MAP適応において、カメラ特有のモデル
Figure 2016110635
は、UBMuΘにおける好適に訓練されたパラメータを更新することにより、各々のカメラcで撮影された画像66または68から抽出される局所的な記述子を使用して、もたらされる。適応は、2つのステップの期待最大化(EM)反復プロセスにおいて行われ得る(例えば、EMの考察に関して、Jeff A.Bilmesらによる、「A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and Hidden Markov models(ガウス混合および隠れマルコフモデルのためのパラメータ予測に対するEMアルゴリズムおよびその応用の指導書)」(Intern’l Computer Science Institute,4(510),p.126(1998)を参照されたい)。第1のステップにおいて、カメラcからの特徴の十分な統計値の予測は、UBMにおける各ガウス分布に対して計算される(確率的カウント、第1および第2の瞬間)。その後、これらは、UBMガウス分布からの古い十分な統計値と組み合わされる。この組み合わせは、データ依存の混合係数を介して行われる。この係数は、より大きな重みを、適応データからの高度な確率的カウントを有するガウス分布に対する新しい十分な統計値に加える。
以下において、「最適化」「最小化」という用語および類似の表現は、当業者がこれらの用語を理解するのと同様に、幅広く解釈される。例えば、これらの用語は、絶対的な大域的最適値、絶対的な大域的最小値などへ、限定されるものとして解釈されない。例えば、関数の最小化は、絶対的な最小値に到達する前に、停止基準で終了する反復最小化アルゴリズムを適用してよい。さらに、最適値または最小値は、局所的な最適値または局所的な最小値であることが予期される。
Figure 2016110635
は、カメラcからの訓練画像66または68の重複または非重複パッチから抽出される、N個の特徴ベクトル(局所的な記述子)のセットであると仮定する。各ガウス分布kおよび特徴ベクトルxに対して、確率p(k|x)は、最初の予測ステップにおいて方程式(6)から計算される。その後、p(k|x)およびxは、方程式8〜10にしたがって、各ガウス分布kおよび第1および第2の瞬間の確率的カウントを計算するために使用される(Reynoldsらを参照されたい):
Figure 2016110635
は、どれくらい多くの点xがガウス分布に割り当てられるかを表す、ガウス分布kに関する予測による。mは、ガウス分布kに割り当てられる全ての点の平均を表す、1次オーダーの統計的な予測である。sは、ガウス分布kにおける全ての点の統計的な分散を表す、2次オーダーの統計的な予測である。2番目に、最大化ステップにおいて、その後、これらの統計値は、各ガウス分布kに対するUBMパラメータを以下の方程式を使用して更新するために、使用される:
混合重みに対して:
Figure 2016110635
平均ベクトルに対して:
Figure 2016110635
共分散行列に対して:
Figure 2016110635
その後、上記の2つのステップのプロセスが、更新されたUBMパラメータを伴って数回にわたり、例えば、I回の反復を伴って、または、収束するまで、または、一部の他の停止基準が満たされるまで、繰り返される。方程式11のαがガウス分布全体で再計算され、
Figure 2016110635
が確実に成り立つようにする。各パラメータρ∈{π,μ,σ}に対する適応パラメータ
Figure 2016110635
は、以下の式により与えられる:
Figure 2016110635
ここで、rは、新しい統計値と古い統計値との間の適応のレベルを制御する、設計パラメータであり、相互検証により確立され得る。rが固定されると、新しい統計値は、適応データに対して高い確率的カウントnを有する、これらのガウス分布において、より強調される。実際には、同じ適応パラメータは、全てのガウス分布の全てのパラメータに対して使用され得る。すなわち、
Figure 2016110635
である。留意されるように、1つまたは2つの例示的なパラメータπ,μ,σなど、3つに満たないパラメータが考慮されてよく、各フィッシャーベクトルに対する重み(次元値)を生成するために、更新および/または使用される。
クロッピングされた画像に関する空間情報を含めるために、画像は、少なくとも3つの領域など、領域に、領域レベルで統合されるパッチごとの統計値に、および、その後、画像表現を形成するために連結される領域レベル表現に、区分化され得る。例えば、S.Lazebnikらによる、「Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories(多くの特徴を超えて:自然シーンカテゴリを認識するための空間ピラミッドマッチング)」(CVPR ’06 Proc.2006 IEEE Computer Society Conf. on Computer Vision and Pattern Recognition − Volume 2, Pages 2169−2178)を参照されたい。
例示的な画像署名は、固定された次元Dのものである。すなわち、各画像表現は、考慮されるガウス分布の数およびパラメータの数の関数である、同じ数の要素を有する。例えば、32個のガウス分布の視覚語彙は、GMM60,62,64において使用され、パラメータのうちの2つが考慮される。結果的に、32×2=64次元のFV表現が生じる。
FV表現の使用は、ナンバープレートのナンバーを目立たなくする際のナンバープレートマッチングにおいて、他の利点を有する。元の画像が再構築され得ないので、ナンバープレートのナンバーは認識されず、したがって、画像署名から元の画像(または、ナンバープレートのナンバー)を復元する実現可能な手法がないため、元の画像のハッシュキーと見なされ得る。これは、個々のパッチの正体が、統合プロセスにおいて失われるからである。結果として、ナンバープレートのナンバーのプライバシー(または、画像の他のプライベート情報)を、情報を使用する必要性が確立されるまで、(例えば、画像に撮像された車両の速度が閾値速度を超えていることを確立することにより)保持する。
画像署名の比較(S116,S118)
一部の実施形態において、位置Xの画像署名はデータベース38に保存され、その後、これらの保存された署名の中での最も近い一致の検索が、位置Yで以降に取得される各画像署名に対して網羅的な手法で行われる。データベース38が多数の画像を含有する場合、網羅的な検索は時間がかかる場合がある。この事例において、近接した検索技術が適用されてよい。高次元ベクトルの近接した検索のための技術は、例えば、Jegouらによる、「Aggregating local image descriptors into compact codes(局所的な画像記述子のコンパクト符号への統合)」(IEEE TPAMI,34(9)1704−1716(2002))に開示される。最も近い一致の正体が割り当てられ、少なくとも所定の閾値に適合する類似性が提供される。
フィッシャーベクトルはフィッシャーカーネルの明確な埋め込みであるので、2つのこのような画像記述子SIおよびSI間の対応するコサイン類似測定値は、ドット積SI SIである。
1つの実施形態において、画像署名(例えば、FV)は、取得される投影を適用することにより、例えば、画像署名を、類似性が(識別子を形成する文字の配列に関する)実際の類似性の良好な指標である、ベクトル空間内に埋め込むための測定基準を学習することにより、さらに特徴的になされ得る。例として、低いランクのマハラノビス測定基準が利用されてよい。例えば、Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)を参照されたい。さらに、例示的な埋め込み技術の説明に関して、米国発行番号第20140056520号および第20140219563号、および、米国出願番号第13/903,218号を参照されたい。
プロセス実施(S122)
S122で使用されてよい、ナンバープレート認識方法は、例えば、米国発行番号第20130129151号、第20130129152号、第20130182909号、第20130259314号、第20140056520号、第20140270381号、および第20140219563号、および、米国出願番号第13/903,218号、および、J−A Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)に開示される。1つの実施形態において、Xerox License Plate Recognition(XLPR)ソフトウェアが利用される。留意されるように、ナンバープレートのナンバーおよびナンバープレートの画像は、単なる例にすぎず、例示的な実施形態を図示するために使用される。他の実施形態において、多数のASCII、UNICODE、および/またはUTF−8文字が、アルファベットとして使用されてよい。
情報処理コンポーネント50により起動される動作は、アプリケーションの種類に依存してよい。ナンバープレートの事例において、引き起こされる動作は、同定される各々のナンバープレートのナンバーと関連付けられてよい(例えば、違反者の告訴、駐車場オペレータの警告、駐車場の罰金の送信など)。駐車場の事例において、第1および第2の画像が一致する場合(および、選択的に、2つの画像の撮像間に有料な継続時間が超過していない場合)、駐車場の柵が自動的に開く。
本明細書に開示される実例的な実施形態は、カメラベースの車両ラベリングタスクに向けられる一方で、類似の難点が、複数の静止またはビデオカメラがラベル化される物体の画像を取得するために使用される(または、同じカメラが異なる時間間隔全体および/または異なる位置で画像を取得するために使用される)、他のカメラベースの物体ラベリングタスクに生じることに、留意されたい。例えば、小売りまたは広告の設定において、カメラベースの顧客ラベリングを、性別、年齢などで、対象となる広告を提供するために、適用するのに有用であってよい。この事例において、ラベル化される物体は、人物(または、顔などの一部分)である。イベント出席者監視システムにおいて、画像は、画像に示される人数でラベル化されてよい。さらに、物体は、動物または実例的な車両などの非生物物体であってよい。対象の非生物物体のカメラベースのラベリングに関する、さらなる例として、小売りの製造ラインにおいて、製造商品は、不具合を監視できる撮像技術に基づいて特定の不具合の有無でラベル化されてよい。セキュリティスキャナの事例において、カメラは、X線撮像機器または他の専用撮像デバイスであってよく、物体ラベリングは、銃器、ナイフ、液体など、懸念される非生物物体の同定を試みる。これらは、単に実例的な例である。さらに、適用型混合モデルは、分類での使用法を見つけ得る(異なるカメラからの画像が、訓練画像34から抽出された画像レベル記述子および各々のラベルで訓練されている場合がある、同じ分類器で分類され得る)。
例示的な実施形態の範囲を限定する意図はなく、以下の例は、ナンバープレートマッチングへの方法の適用可能性を図示する。

本方法が、車両ナンバープレートマッチング/再同定の問題に利用された。カメラは、駐車場の様々な入口−出口車線に配置される。目的は、駐車場にある車両のナンバープレートが、この車両が区画に入った時に撮像されたナンバープレートの画像と一致することである。しかしながら、両方の事例における撮像条件は、大幅に異なる場合がある。異なる撮像条件は、異なる配置、異なるカメラ品質、異なる照明条件などを含んでよい。このシナリオは、UBMの適応に関する良好な候補であり、マッチングに役立つよう、フィッシャーベクトル計算の前にカメラ特有(車線特有)のGMMを学習する。
データセット
異なる街における2つの実際の駐車施設から生じる2つの施設内データセットは、AおよびBで示される。両方のデータセットは、ナンバープレート領域を抽出して、50個の画素の高さを正規化することにより、前処理される。データセットAは、11個の車線/カメラからの13,006個の画像(6503個の入口−出口の組)を有する。種々の入口−出口統計値の分散により、11個のうちの5個は入口車線であり、残りは出口車線である。データセットBでは、2つの車線からの9,629個の画像が使用された。
実験的セットアップ
特徴および局所的な記述子は、画像からの重複するパッチから抽出された。各データセットは、3つの部分に分割される。第1の部分は、局所的な記述子およびUBM予測の次元的削減のためのPCAモデルを学習するために使用され、第2の部分は、UBM適応のために使用され、第3の部分はテストのために使用される。テスト中、既存のナンバープレートは、入ってくるナンバープレートとマッチングされ、結果は正しくマッチングされた組の割合として報告される。
1つのテストにおいて、データセットAの第1の部分のUBMを全ての車線/カメラからの画像で学習した後、UBMは、データセットAの異なる車線/カメラの各々に適用されて、第2の部分における各々の車線からの画像を使用してカメラ特有のGMMを生成する。その後、第3の部分の画像および適応型GMMは、マッチングとして使用されるフィッシャーベクトルを計算するために使用される。
別のテストにおいて、データセットBからの画像の第1の部分は、UBMを学習するために使用される。その後、このUBMは、続いてデータセットAの第3の部分をテストする、データセットAの第2の部分を使用して適応される。これは、UBMが、同じデータセット/駐車場からではない画像で学習される場合、シナリオを再現する。
適応型GMMと一致する画像の結果は、2つの基準値と比較される。
1.適応なしのシステム(「非適応」)。
2.平均および標準偏差調整後のシステム(「平均−標準偏差調整」):各カメラで、訓練サンプル(第2の部分)の平均および標準偏差が計算され、それにしたがって、テストベクトルが標準化された。平均調整は、VLAD画像記述子のために提案された、ドメイン適応手法である。VLAD画像記述子の説明に関して、Relja Arandjelovicらによる、「All about VLAD(VLADの全て)」(Proc.2013 IEEE Conf. on Computer Vision and Pattern Recognition(CVPR’13),pp.1578−1585(2013))を参照されたい。VLAD画像記述子は、フィッシャーベクトルと近接に関連するが、フィッシャーベクトルの確率的解釈を有さない。平均および標準偏差調整は、平均調整手法の自然な流れである。これは、高次元ベクトルに対処する際に、より実用的である、Basura Fernandoらによる、「Unsupervised visual domain adaptation using subspace alignment(サブ空間配列を使用する監視されない視覚ドメイン適応)」(ICCV,pp.2960−2967(2013))のサブ空間配列手法の対角近似として理解され得ることに、留意されたい。
UBM適応には様々な選択肢がある。例えば、全てのUBMパラメータが適用されるか、または、適用されるパラメータが選択される。これらの例において、平均および分散の両方が適用される。重み適応は、追加的な影響をほとんど有さないことが分かった。
結果
表1〜表4は、GMMにおける異なる数のガウス分布(Nmix)を使用して、MAP適応あり(MAP Adapt.)、MAP適応なし(No Adapt.)、および、平均および標準偏差調整あり(Mean−Std. Adj.)の結果を示す。表1および表2は、平均ベクトルが適用される場合にのみ結果をもたらし、一方で表3および表4は、平均ベクトルおよび共分散行列の両方が適用される場合の結果をもたらす。「Inc.」は、適応なし全体でのMAP適応ありの性能向上を示す。
表1:データセットAで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果
Figure 2016110635
表2:データセットBで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果
Figure 2016110635
表3:データセットAで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果
Figure 2016110635
表4:データセットBで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果
Figure 2016110635
MAP適応が全ての事例において性能向上をもたらしていることが、表1〜表4から確認でき、一方で平均および標準偏差調整は、適応なしの基準値全体で性能が低下することを示している。MAP適応による性能向上は、適応なし全体で、これらの実験において2.16%と同等であり得る。
適応の評価
適応を評価するために、UBM/GMMにおける異なるガウス分布に対する特徴の割り当ての内部機構が、評価される。例として、データセットBで32個のガウス分布により学習されたUBMが使用された。その後、データセットAからの適応データが取得された。データセットAからのデータは、11個の車線からの画像を包含する。その後、各車線からの画像は、車線/カメラ依存のGMMを学習するために使用される。その後、p(k|x)が、UBMおよび各車線/カメラ依存のGMMのガウス分布kに対する特徴xから、方程式(6)を介して計算される。
適応データセットにおける特定の車線からの特徴x全体で平均化された、p(k|x)とkとの対比のプロットが、UBM(図4)および車線/カメラ依存のGMM(図5)に対して取得された。図4から、同じUBMが使用される場合、異なる車線からの画像全体へ相当に広まることが確認され得る。一部の車線で、一部のガウス分布は高いp(k|x)を有し、一方で一部の他の車線で、著しく低くなる場合がある。これは、UBMは特徴を表し得るが、表現は異なる車線/カメラに対して異なってよい。このずれを無効にするために、適応および図5において使用される車線/カメラ特有のGMMは、大幅に削減される広がりをもたらす。これは、これらの車線/カメラ特有のGMMがフィッシャーベクトル計算に使用される際、フィッシャーベクトルが、問題になっている特定の物体に起因し、撮像条件に起因しない、偏差を符号化し得ることを示す。

Claims (10)

  1. 局所的な記述子の普遍的な生成モデルを提供すること、
    前記普遍的な生成モデルを第1のカメラに適用して、第1のカメラ依存の生成モデルを取得すること、
    前記普遍的な生成モデルを第2のカメラに適用して、第2のカメラ依存の生成モデルを生成すること、または、前記普遍的な生成モデルを前記第2のカメラ依存の生成モデルとして使用すること、
    前記第1のカメラにより撮像される第1の画像から、第1の画像レベル記述子を前記第1のカメラ依存の生成モデルを使用して抽出すること、
    前記第2のカメラにより撮像される第2の画像から、第2の画像レベル記述子を前記第2のカメラ依存の生成モデルを使用して抽出すること、
    前記第1の画像レベル記述子と前記第2の画像レベル記述子との間の類似性を計算すること、および、
    前記計算される類似性に基づく情報を出力することであって、前記普遍的な生成モデルを前記第1および第2のカメラに適用すること、前記第1および第2の画像レベル記述子を抽出すること、および、前記類似性を前記計算すること、のうちの少なくとも1つは、コンピュータプロセッサで行われる、出力すること、
    を備える、方法。
  2. 前記普遍的な生成モデルはガウス混合モデルである、請求項1に記載の方法。
  3. 前記第1および第2のカメラ依存の生成モデルはガウス混合モデルであり、各々が同じ数のガウス関数を前記普遍的な生成モデルとして備える、請求項2に記載の方法。
  4. 前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、監視されない適応方法で行われる、請求項1に記載の方法。
  5. 前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、前記普遍的な生成モデルのパラメータの最大事後確率(MAP)適応を備える、請求項4に記載の方法。
  6. 前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、前記第1および第2のカメラにより撮像された画像から局所的な記述子を、前記普遍的な生成モデルを前記第1のカメラへ適用するために使用される、前記第1のカメラにより撮像された画像から前記局所的な記述子を、前記普遍的な生成モデルを前記第2のカメラへ適用するために使用される、前記第2のカメラにより撮像された前記画像から前記局所的な記述子を、抽出すること、を備える、請求項1に記載の方法。
  7. 局所的な記述子の普遍的な生成モデルを保存するメモリ、および、
    前記普遍的な生成モデルを第1のカメラへ適用して第1のカメラ依存の生成モデルを取得し、前記普遍的な生成モデルを第2のカメラへ適用して第2のカメラ依存の生成モデルを取得する、適応コンポーネント、および、
    前記適応コンポーネントを実装するプロセッサ、
    を備える、システム。
  8. 第1の画像レベル記述子と第2の画像レベル記述子との間の類似性を計算するマッチングコンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、マッチングコンポーネント、
    をさらに備える、請求項7に記載のシステム。
  9. 第1の画像レベル記述子および第2の画像レベル記述子のうちの少なくとも1つを抽出する署名生成コンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、署名生成コンポーネント、
    をさらに備える、請求項7に記載のシステム。
  10. 訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供すること、
    コンピュータプロセッサで、前記普遍的な生成モデルを第1のカメラへ適用して、前記第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第1のカメラ依存の生成モデルを取得すること、
    コンピュータプロセッサで、前記普遍的な生成モデルを第2のカメラへ適用して、前記第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第2のカメラ依存の生成モデルを取得すること、
    提供することであって、
    前記第1のカメラ依存の生成モデルを使用する、第1の画像の画像レベル表現と、
    前記第1のカメラ依存の生成モデルを使用する、第1の画像の画像レベル表現と、
    のうちの少なくとも1つを計算するためのコンポーネントを提供すること、および、
    前記第1の画像レベル記述子と前記第2の画像レベル記述子との間の類似性を計算するためのコンポーネントを提供すること、
    を備える、物体再同定のためのシステムを生成する方法。
JP2015221043A 2014-12-02 2015-11-11 画像署名をフィッシャーベクトルとマッチングするための適応型語彙 Expired - Fee Related JP6687364B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/557,891 2014-12-02
US14/557,891 US9607245B2 (en) 2014-12-02 2014-12-02 Adapted vocabularies for matching image signatures with fisher vectors

Publications (2)

Publication Number Publication Date
JP2016110635A true JP2016110635A (ja) 2016-06-20
JP6687364B2 JP6687364B2 (ja) 2020-04-22

Family

ID=54697474

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015221043A Expired - Fee Related JP6687364B2 (ja) 2014-12-02 2015-11-11 画像署名をフィッシャーベクトルとマッチングするための適応型語彙

Country Status (3)

Country Link
US (1) US9607245B2 (ja)
EP (1) EP3035239B1 (ja)
JP (1) JP6687364B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022137337A1 (ja) * 2020-12-22 2022-06-30 日本電気株式会社 学習装置、学習方法、及び、記録媒体

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205144B (zh) * 2016-09-07 2018-06-19 东南大学 高速公路应急车道占用监督处罚方法和系统
WO2018049514A1 (en) 2016-09-13 2018-03-22 Genetec Inc. Auto-calibration of tracking systems
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
US11055538B2 (en) * 2017-03-31 2021-07-06 Disney Enterprises, Inc. Object re-identification with temporal context
US10474929B2 (en) * 2017-04-25 2019-11-12 Nec Corporation Cyclic generative adversarial network for unsupervised cross-domain image generation
US10503981B2 (en) 2017-06-27 2019-12-10 Canon Kabushiki Kaisha Method and apparatus for determining similarity of objects in images
US10496880B2 (en) 2017-06-27 2019-12-03 Canon Kabushiki Kaisha Method and apparatus for comparing objects in images
GB2563952A (en) * 2017-06-29 2019-01-02 Cirrus Logic Int Semiconductor Ltd Speaker identification
US10497257B2 (en) * 2017-08-31 2019-12-03 Nec Corporation Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation
US11699207B2 (en) * 2018-08-20 2023-07-11 Waymo Llc Camera assessment techniques for autonomous vehicles
CN109815784A (zh) * 2018-11-29 2019-05-28 广州紫川物联网科技有限公司 一种基于红外热像仪的智能分类方法、系统及存储介质
CN111738039B (zh) * 2019-05-10 2024-05-24 北京京东尚科信息技术有限公司 一种行人重识别方法、终端及存储介质
CN110263864A (zh) * 2019-06-24 2019-09-20 北京精英路通科技有限公司 车辆的匹配方法、装置、计算机设备及存储介质
CN111274973B (zh) * 2020-01-21 2022-02-18 同济大学 基于自动划分域的人群计数模型训练方法及应用
CN112185395B (zh) * 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4433325A (en) 1980-09-30 1984-02-21 Omron Tateisi Electronics, Co. Optical vehicle detection system
FR2645310B1 (fr) 1989-03-31 1991-06-21 Elsydel Procede d'identification d'objets en mouvement, notamment de vehicules, et systemes pour sa mise en oeuvre
ATE203844T1 (de) 1992-03-20 2001-08-15 Commw Scient Ind Res Org Gegenstands-überwachungsystem
WO1994011852A1 (de) 1992-11-10 1994-05-26 Siemens Aktiengesellschaft Verfahren zur detektion und abspaltung des schattens sich bewegender objekte in einer digitalen bildsequenz
US5995900A (en) 1997-01-24 1999-11-30 Grumman Corporation Infrared traffic sensor with feature curve generation
EP0930585B1 (en) * 1998-01-14 2004-03-31 Canon Kabushiki Kaisha Image processing apparatus
DE60037360T2 (de) 1999-05-28 2008-12-04 Nippon Telegraph And Telephone Corp. Verfahren und Vorrichtung zur Geschwindigkeitsmessung von Fahrzeugen mit ein Bildverarbeitungssystem
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US7885794B2 (en) * 2007-11-30 2011-02-08 Xerox Corporation Object comparison, retrieval, and categorization methods and apparatuses
US8229168B2 (en) * 2008-02-20 2012-07-24 International Business Machines Corporation Fast license plate verifier
TWI416068B (zh) * 2009-12-10 2013-11-21 Ind Tech Res Inst 跨感測器間之物體追蹤方法與系統
GB2515926B (en) * 2010-07-19 2015-02-11 Ipsotek Ltd Apparatus, system and method
US8532399B2 (en) 2010-08-20 2013-09-10 Xerox Corporation Large scale image classification
US8731317B2 (en) 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
IL210427A0 (en) * 2011-01-02 2011-06-30 Agent Video Intelligence Ltd Calibration device and method for use in a surveillance system for event detection
US10027952B2 (en) * 2011-08-04 2018-07-17 Trx Systems, Inc. Mapping and tracking system with features in three-dimensional space
US8588470B2 (en) 2011-11-18 2013-11-19 Xerox Corporation Methods and systems for improved license plate signature matching by similarity learning on synthetic images
US8582819B2 (en) 2011-11-18 2013-11-12 Xerox Corporation Methods and systems for improving yield in wanted vehicle searches
AU2011265430B2 (en) * 2011-12-21 2015-03-19 Canon Kabushiki Kaisha 3D reconstruction of partially unobserved trajectory
US8917910B2 (en) 2012-01-16 2014-12-23 Xerox Corporation Image segmentation based on approximation of segmentation similarity
US8781172B2 (en) * 2012-03-30 2014-07-15 Xerox Corporation Methods and systems for enhancing the performance of automated license plate recognition applications utilizing multiple results
US8824742B2 (en) 2012-06-19 2014-09-02 Xerox Corporation Occupancy detection for managed lane enforcement based on localization and classification of windshield images
US9031331B2 (en) 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers
US8879796B2 (en) 2012-08-23 2014-11-04 Xerox Corporation Region refocusing for data-driven object localization
US9641763B2 (en) 2012-08-29 2017-05-02 Conduent Business Services, Llc System and method for object tracking and timing across multiple camera views
US9008429B2 (en) 2013-02-01 2015-04-14 Xerox Corporation Label-embedding for text recognition
US8971581B2 (en) 2013-03-15 2015-03-03 Xerox Corporation Methods and system for automated in-field hierarchical training of a vehicle detection system
US8913791B2 (en) * 2013-03-28 2014-12-16 International Business Machines Corporation Automatically determining field of view overlap among multiple cameras
JP5896084B2 (ja) * 2013-08-01 2016-03-30 パナソニック株式会社 類似症例検索装置、類似症例検索装置の制御方法、およびプログラム
US20150262033A1 (en) * 2014-03-14 2015-09-17 Xiaomi Inc. Method and terminal device for clustering
US10037345B2 (en) * 2014-03-14 2018-07-31 Xiaomi Inc. Clustering method and device
US10043101B2 (en) * 2014-11-07 2018-08-07 Adobe Systems Incorporated Local feature representation for image recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022137337A1 (ja) * 2020-12-22 2022-06-30 日本電気株式会社 学習装置、学習方法、及び、記録媒体
JP7416284B2 (ja) 2020-12-22 2024-01-17 日本電気株式会社 学習装置、学習方法、及び、プログラム

Also Published As

Publication number Publication date
US9607245B2 (en) 2017-03-28
EP3035239B1 (en) 2024-04-17
EP3035239A1 (en) 2016-06-22
US20160155020A1 (en) 2016-06-02
JP6687364B2 (ja) 2020-04-22

Similar Documents

Publication Publication Date Title
JP6687364B2 (ja) 画像署名をフィッシャーベクトルとマッチングするための適応型語彙
CN109740478B (zh) 车辆检测及识别方法、装置、计算机设备及可读存储介质
US10346464B2 (en) Cross-modiality image matching method
US9412031B2 (en) Delayed vehicle identification for privacy enforcement
US7869657B2 (en) System and method for comparing images using an edit distance
US9626594B2 (en) Method and system to perform text-to-image queries with wildcards
US9911055B2 (en) Method and system for detection and classification of license plates
US8345921B1 (en) Object detection with false positive filtering
Bhunia et al. Text recognition in scene image and video frame using color channel selection
US11055538B2 (en) Object re-identification with temporal context
JP2016058079A (ja) クラス事前確率を用いる画像分類のドメイン適応化
US20150286884A1 (en) Machine learning approach for detecting mobile phone usage by a driver
US10331968B2 (en) One shot color calibrated metric learning for object re-identification
TW200529093A (en) Face image detection method, face image detection system, and face image detection program
Awang et al. Vehicle counting system based on vehicle type classification using deep learning method
US11921774B2 (en) Method for selecting image of interest to construct retrieval database and image control system performing the same
Gowda Age estimation by LS-SVM regression on facial images
Liang et al. Pedestrian detection based on sparse coding and transfer learning
Adak et al. Automatic number plate recognition (ANPR) with YOLOv3-CNN
Singh et al. Cloud-Based License Plate Recognition for Smart City Using Deep Learning
Lyu Research on subway pedestrian detection algorithm based on big data cleaning technology
Bennur et al. Face Mask Detection and Face Recognition of Unmasked People in Organizations
CN110717544A (zh) 一种垂直鱼眼镜头下行人属性分析方法及系统
US20240161483A1 (en) In-situ model adaptation for privacy-compliant image processing
Xu et al. Saliency detection based region extraction for pedestrian detection system with thermal imageries

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20151207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160212

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181010

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200402

R150 Certificate of patent or registration of utility model

Ref document number: 6687364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees