JP2014232533A

JP2014232533A - Ｏｃｒ出力検証システム及び方法

Info

Publication number: JP2014232533A
Application number: JP2014103364A
Authority: JP
Inventors: ジョーズ・アントニオ・ロドリゲス−セラーノ; Antonio Rodriguez-Serrano Jose; フロラン・シー・ペロナン; C Perronnin Florent
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2013-05-28
Filing date: 2014-05-19
Publication date: 2014-12-11
Also published as: US20140355835A1; EP2808827B1; EP2808827A1; US9384423B2

Abstract

【課題】ナンバープレート認識など画像内のテキスト認識におけるＯＣＲ出力の検証方法を提供する。【解決手段】テキスト認識システムの出力における信頼度を算出するシステム及び方法は、テキスト認識システムによって入力テキスト画像について文字認識を行い、候補文字列を生成することを含む。第１の表現は、候補文字列に基づいて生成され、第２の表現は、入力テキスト画像に基づいて生成される。候補文字列における信頼度は、共通埋め込み空間内の第１及び第２の表現間の算出される類似度に基づいて算出される。【選択図】図３

Description

典型的な実施形態は、画像内のテキスト認識に関する。それは、ナンバープレート認識などにおけるＯＣＲ出力の検証と関連した特定用途を見出す。

光学式文字認識（ＯＣＲ）は、画像内に存在するテキストの認識、すなわち、画像内に現れる実際のテキスト列への画像の画素変換処理をいう。文書解析領域及びナンバープレート認識などの他の用途分野におけるＯＣＲについて多くの作業がある。ここで、ナンバープレートは、一般に、装着された車両についての固有の識別子である。

ＯＣＲシステムは、通常、語句に対応するサブ画像に完全画像を切り出した後に個々のサブ画像における語句を認識することによって動作する。そのような単一語などの文字列を含むサブ画像は、本願明細書においては「テキスト画像」と称される。ナンバープレートの場合には、サブ画像は、ナンバープレート番号が配置された車両のトリミングされた画像とすることができる。所望の出力は、テキスト画像内に存在する語句又は他の文字列に対応するテキスト文字列である。しかしながら、ＯＣＲ認識は、多くの理由のために完全に正確ではない。例えば、精度は、撮像時の視認性が悪い場合に悪化する。さらに、ＯＣＲシステムによって受け入れられない画像内の文字があることがある。したがって、実際の用途においては、認識された文字列についての信頼度スコアを出力することがＯＣＲシステムにとって一般的である。信頼度スコアは、出力の信頼度のＯＣＲアルゴリズムによる自己評価である。ＯＣＲの信頼度スコアの算出は、内部認識処理に依存する。一例として、確率モデルについて、それは所定の画像データのテキスト文字列出力の事後確率とすることができる。個々の文字検出及び分類に基づくシステムの場合には、それは、個々の文字分類スコアの算術平均又は幾何平均とすることができる。

ナンバープレート認識などのＯＣＲのいくつかの用途において、ＯＣＲ誤差は、高コストであり得る（例えば、通行料金について誤った顧客への課金をもたらす）。そのような用途においては、信頼度スコアは、通常、信頼度が閾値未満であるＯＣＲ判定を破棄することにより、「拒否」判定をトリガするのに使用される。拒否の場合には、テキスト画像は、手動再検査のために第２の自動段階（例えば、第２のＯＣＲ）に又は人間の注釈者に送られることができる。実際には、ＯＣＲの信頼度スコアは、常に、ＯＣＲ出力が真の根拠と一致するかどうかの信頼性の高い予測を提供せず、それゆえに、信頼度スコアは、部分的に閾値が配置された場所に依存して正確なＯＣＲ判定の拒絶又は誤ったＯＣＲ判定の受け入れをもたらすことがある。

その内部認識処理へのアクセスに頼る必要がないテキスト認識システムの出力における信頼度を算出するための信頼性のあるシステム及び方法の必要が残る。

例示的な実施形態の１つの態様において、信頼度を算出する方法は、候補文字列を生成するための入力テキスト画像についてのテキスト認識システムによって文字認識を行うことを含む。第１の表現は、文字列の候補に基づいて生成される。第２の表現は、入力テキスト画像に基づいて生成される。文字列の候補における信頼度は、共通の埋め込み空間内の第１及び第２の表現間において算出された類似度に基づいて算出される。第１及び第２の表現のうちの少なくとも一方は、この共通空間に射影される。

文字認識を行うこと、第１の表現を生成すること、第２の表現を生成すること、及び、信頼度を算出することのうちの少なくとも１つは、コンピュータプロセッサによって行われることができる。

例示的な実施形態の他の態様によれば、信頼度を算出するシステムは、テキスト画像から抽出された特徴に基づいてテキスト画像表現を生成するテキスト画像表現要素を含む。テキスト列表現要素は、テキスト画像についての候補文字列として関連するテキスト認識システムから文字列を受信し、文字列から抽出された特徴に基づいて、文字列表現を生成する。比較要素は、テキスト画像表現と学習された埋め込み空間内の文字列表現との間の類似度に基づいて、文字列における信頼度を算出する。情報出力要素は、算出された信頼度に基づいて情報を出力する。プロセッサは、テキスト画像表現要素、テキスト列表現要素、比較要素及び情報出力要素を実装する。

例示的な実施形態の他の態様によれば、ナンバープレート認識方法は、ナンバープレートの画像について光学式文字認識を行い、候補ナンバープレート番号としての文字列を生成すること、ナンバープレート画像の注釈付きセットについて学習された重みのマトリクスによって埋め込み空間内にナンバープレート画像の表現と候補ナンバープレート番号の表現とを埋め込む機能に基づいて、候補ナンバープレート番号における信頼度を算出することを含む。信頼度が閾値を満たす場合には、本方法は、ナンバープレートの画像について認識されたナンバープレート番号として文字列を出力することを含む。そうでなければ、ナンバープレート番号認識のための他の処理が開始される。行うこと、算出すること及び出力することのうちの少なくとも１つは、プロセッサによって行われる。

図１は、例示的なＯＣＲ出力検証システム及び方法の概要である。図２Ａは、ＯＣＲ出力検証システムの機能ブロック図である。図２Ｂは、ＯＣＲ出力検証システムの機能ブロック図である。図３は、ＯＣＲ出力検証方法のフローチャートである。図４は、１つの実施形態に係る図２及び図３のシステム及び方法において使用される信頼度関数の学習パラメータを図示するフローチャートである。図５は、他の実施形態に係る図２及び図３のシステム及び方法において使用される信頼度関数の学習パラメータを図示するフローチャートである。図６は、図３の方法への適応を図示している。図７は、例示的な方法を使用した信頼度推定実験の実験結果のプロットである。

例示的な実施形態は、所定の入力テキスト画像のＯＣＲ出力などのテキスト認識処理の出力についての信頼度測定値を算出するシステム及び方法に関し、ナンバープレート認識との関連で特定の用途を見出す。

図１は、信頼度算出システム及び処理の概要を提供している。入力画像又は「テキスト画像」１０は、Ｉで表されている。画像１０は、大きな画像内に自動的に配置された単一の語句又は他の短い文字列からなることができる。

画像Ｉは、従来のＯＣＲシステムなどのテキスト認識要素１２によって処理される。テキスト認識要素１２は、画像内のテキストを認識する任意の適切なシステムとすることができ、単にブラックボックスとして扱われることができる。ＯＣＲシステム１２は、ＯＣＲ出力１４、具体的には、所定のアルファベット（文字の有限セット）から引き出される文字列から構成されるｔで表される候補テキスト列を出力する。

ナンバープレートの場合、例えば、画像１０は、ナンバープレート検出部を使用して車両の大きな画像内に局在したナンバープレートからなることができる。ＯＣＲシステムによって認識されたアルファベットは、ナンバープレート番号に使用されることが許可されている特定の文字セット（例えば、文字及び数字）に限定されることができる（登録識別子と称されることがある）。スペース及びダッシュなどの一部の文字は無視されてもよい。例えば、ＡＢ１２−３４−３２は、文字列ＡＢ１２３４３２としてＯＣＲシステムによって認識されて出力されることができる。ナンバープレート番号は、発行領域のデータベース内でそれが装着された車両を固有に識別する数字又は英数字のコードとすることができる。

理解されるように、ナンバープレート番号及びナンバープレートの画像は、例示にすぎず、テキスト画像が所定の有限の語彙から引き出された文字の文字列と比較される例示的な実施形態を図示するために使用される。他の実施形態においては、ＡＳＣＩＩ、ＵＮＩＣＯＤＥ及び／又はＵＴＦ−８文字の大きなセットがアルファベットとして使用されることができる。目的が語句を認識することであるテキスト認識用途においては、ＯＣＲシステム１２は、所定の語彙において見出された候補テキスト列を出力することができ、且つ、語彙にはない文字列を候補から自動的に拒否することができる。受信した画像が２つ以上の潜在的な語句を含む場合、それぞれは、例示的な方法によってテキスト画像として別個に処理されることができる。しかしながら、このステップは、一般に、テキスト検出部によってより早い段階で行われる。

ＯＣＲシステム１２はまた、所定のフォントセットから認識された文字列について認識されたフォントなどの他の非テキスト情報を出力することができる。ロゴはまた、記憶されたロゴデータベースから認識されることができる。

画像表現要素１６は、ｘ（Ｉ）で表される多次元特徴ベクトルなどのテキスト画像Ｉの表現１８を算出する。テキスト表現要素２０は、ｅ（ｔ）で表される多次元特徴ベクトルなどのテキスト列ｔの表現２２を算出する。比較要素２４は、ｅ（ｔ）とｘ（Ｉ）との間の比較測定値（例えば、類似度）を算出するｃ（ｔ，Ｉ）で表される比較関数を適用することによってＯＣＲ出力における信頼度測定値２６を算出する。類似度は、トレーニング画像のセットの埋め込まれた表現ｘ（Ｉ）とｅ（ｔ）との間の類似度が、ＯＣＲ出力がＯＣＲシステム自体よりもテキスト画像１０の真のラベル（例えば、実際のナンバープレート番号）と一致するかどうかのより信頼性の高い予測因子である、学習された共通の埋め込み空間内で算出される。１つの実施形態において、Ｗで表される射影行列は学習され、この埋め込みサブ空間内に表現ｘ（Ｉ）及びｅ（ｔ）を射影（マッピング）する。それゆえに、例えば画像Ｉについてのｔのスコアの形式における信頼度測定値は、

の形式の比較関数で使用して算出されることができる。ここで、ｘ（Ｉ）^Ｔは、ｘ（Ｉ）の転置を表しており、・はドット積を表している。勿論、表現ｘ（Ｉ）又はｅ（ｔ）のいずれかは、転置されたものとすることができる。

射影行列Ｗは、各表現ｘ（Ｉ）及びｅ（ｔ）に適用される２つの小さな行列Ｕ及びＶに分解されることができる。ここで、Ｗ＝Ｕ^ＴＶである。射影行列Ｗ（又は２つの別個の射影行列）は、構造化された学習によって学習されることができる。例示的な実施形態では、画像と語句との間の比較は、サブ空間にＷによって埋め込まれたときに表現ｘ（Ｉ）及びｅ（ｔ）の射影間のドット積として算出される。しかしながら、他の類似度測定値も考慮される。信頼度スコアとして使用されるとき、ドット積の結果は、商業的なＯＣＲシステムの例の場合には、ＯＣＲシステム自体の信頼度スコアよりも信頼性が高いことが、以下の例において実証される。

本願明細書に開示された１つの実施形態においては、画像の表現１８は、パッチから画像が抽出された低レベルの特徴に由来する画像の統計的表現である。一例として、画像の表現を生成するためにフィッシャベクトルが使用されることができる。例えば、Ｐｅｒｒｏｎｎｉｎら、「大規模画像分類のためのフィッシャカーネルの改善（ＩｍｐｒｏｖｉｎｇｔｈｅＦｉｓｈｅｒｋｅｒｎｅｌｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）」、ＥＣＣＶ、２０１０年を参照のこと。多次元表現ｘ（Ｉ）は、少なくとも１００個又は少なくとも１０００個又は少なくとも５０００個又はそれ以上の特徴を含むことができる。

本願明細書に開示された１つの実施形態においては、テキスト列１４の表現２２は、例えば、米国特許出願第１３／７５７，０１４号（‘０１４出願）に記載されたように、空間ピラミッドバッグオブキャラクタ（ＳＰＢＯＣ）である。多次元表現ｅ（ｔ）は、少なくとも５０個又は少なくとも１００個又は少なくとも５００個又は少なくとも１０００個又はそれ以上の特徴を含むことができる。

１つの実施形態において、射影行列Ｗは、例えば、‘０１４出願及び米国特許出願第１３／５９２，９６１号（‘９６１出願）に記載されたような注釈付きデータを使用して学習される。

信頼度スコアｃ（ｔ，Ｉ）は、以下の様々な用途に使用されることができる。

１つの実施形態において、例示的なシステム及び方法は、信頼度スコアｃ（ｔ，Ｉ）が与えられたスコアなどの所定の閾値スコアＴ_ｃを満たしたか又は超えたときに認識されたテキスト列として暫定的なＯＣＲ出力ｔを出力する。

１つの実施形態において、信頼度スコアｃ（ｔ，Ｉ）は、ＯＣＲシステム１２自体によって出力されるｏ（ｔ）で表されるｔの信頼度スコア２８にとってかわる。

１つの実施形態において、信頼度スコアｃ（ｔ，Ｉ）は、信頼度スコア２８とともに使用されることができる。例えば、ｃ（ｔ，Ｉ）及びｏ（ｔ）が双方とも同一又は異なることができる各閾値を満たすか又は超えた場合には、暫定的なテキスト列ｔは、正しいと仮定される。他の実施形態において、例示的な検証システムは、ｏ（ｔ）が所定の閾値スコアＴ_ｏを満たさないときにのみ呼び出される。

１つの実施形態において、ＯＣＲシステム１２は、各出力列についてのＯＣＲ信頼度スコア２８｛ｏ（ｔ_１），ｏ（ｔ_２），・・・ｏ（ｔ_ｎ）｝がランキングの基礎として使用される場合には、他のテキスト列｛ｔ_１，ｔ_２，・・・，ｔ_ｎ｝のランク付けされたセットを出力することができる。この場合、各信頼度スコアｃ（Ｉ，ｔ_１），ｃ（Ｉ，ｔ_２），・・・ｃ（Ｉ，ｔ_ｎ）は、最も高いランキングテキスト列ｔ_１，ｔ_２，・・・，ｔ_ｎを再ランク付けするのに使用されることができる。

図２も参照すると、図１に図示された要素１２、１６、２０、２４を組み込むコンピュータ実装信頼度算出（及びテキスト認識）システム１００の機能ブロック図が示されている。コンピュータ実装システム１００は、算出されることになる類似度（したがって信頼度）の有意な測定値を許容する空間内の各文字列及び画像の表現を生成することにより、テキスト認識システム１２によって出力されたナンバープレート番号などの文字列１４と、文字列１４が生成されるナンバープレートの画像などのテキスト画像１０との間の類似度の測定値に基づいて信頼度を算出し、それらに基づいて情報１０２を出力するために構成されている。

図示されたコンピュータシステム１００は、図３〜図６のうちの１つ以上において概説される本方法（複数可）を実行するためのメインメモリ１０８に記憶された命令１０６を実行するプロセッサ１０４を含む。プロセッサ１０４はまた、メモリ１０８に記憶された処理命令の実行によってコンピュータシステム１００の全体動作を制御することができる。データは、メモリ１０８と一体又は別個であって示されるように同じ算出装置１１２又はリモート算出装置にあることができるデータメモリ１１０に記憶されることができる。１つ以上の入力／出力（Ｉ／Ｏ）装置１１４、１１６は、システムが外部装置と通信するのを可能とする。システムのハードウェア要素１０４、１０８、１１０、１１４、１１６は、データ／制御バス１１８を介して通信する。

命令１０６は、画像プロセッサ１２０と、ＯＣＲシステム１２と、テキスト画像表現要素１６と、テキスト列表現要素２０と、比較要素２４と、情報出力要素１２２と、トレーニング要素１２４とを含む。これらの要素は、図３を参照しながら記載される方法に関して最も良く理解される。いくつかの実施形態において、これらの要素のうちの１つ以上は、遠隔地からシステムによって呼び出されることができる。例えば、ＯＣＲシステム１２は、コンピュータ１１２から遠くに配置され、システムから、又は、外部ソースから直接、入力される画像１０を受信し、候補列１４（又は２つ以上の候補列及び関連付けられた信頼度スコア）をシステムに戻すことができる。

情報出力要素１２２は、システムによって生成された情報１０２を出力する。様々な形態の情報１０２は、算出された信頼度（類似度）測定値に基づいて出力されることができ、システム１００の最終用途に依存することができる。１つの実施形態において、情報は、類似度測定値が閾値１２６を満たしたときにシステム１００によって出力されることができるテキスト画像１０に対応すると予測される文字列１４を含むことができる。他の実施形態において、可能な文字列のセットから最も類似する文字列１４が出力されてもよい。さらに他の実施形態において、出力された情報１０２は、ＯＣＲ出力における信頼度が出力される文字列１４には不十分である旨の通知を含むことができる。これは、画像１０が人間の注釈者によって検討される要求によって達成されることができる。

例示的なシステム１００は、図示された実施形態がカメラなどの撮像装置１３０によって取得された車両の画像である１つ以上の画像１２８の入力として受信するように構成されることができる。画像前処理要素１２０は、ナンバープレートについての画像の最も可能性の高い領域を決め、テキスト画像１０を形成するように画像１２８から無関係な内容をトリミングするナンバープレート認識要素として機能する。いくつかの実施形態において、この機能は、ＯＣＲシステム１２によって行われる。さらに他の実施形態において、システム１００は、入力として、画像１２８におけるテキスト内容を局在化することによって形成された前処理されたテキスト画像１０を受信することができる。大きな画像においてナンバープレートなどの関心のある対象を局在化する方法は、例えば、米国特許出願第１３／３５１，０３８号に記載されている。

システム１００は、入力装置１１４を介して、ローカルエリアネットワーク又はインターネットなどのワイドエリアネットワークなどの有線又は無線接続１３４を介して、撮像装置１３０又は１つ以上の中間コンピュータ実装画像処理システム（図示しない）と通信可能に接続されることができる。

任意には、それらの各認識されたテキスト列１４によって注釈付けられた以前にみたテキスト画像１０のセット１３６は、検証目的のために使用するようにシステム１００によって記憶されることができる。

システム１００をトレーニングするために、少なくとも２個又は少なくとも５個又は少なくとも１０個又は少なくとも１００個のトレーニング画像などのテキスト画像１０に類似する複数のテキスト画像を含むトレーニング画像集合１４０が、収集されてシステムのメモリ１１０又はシステムにアクセス可能なリモートメモリに記憶されることができる。これらのトレーニング画像は、システム１００をトレーニングするために、具体的には行列Ｗなどの比較関数の固定パラメータを学習するためにトレーニング要素１２４によって使用されるように、画像内の根拠が真の実際のテキストに対応するラベルによって注釈付けられることができる。他の実施形態において、Ｗは、別個に学習されてシステムに入力されることができる。

入力／出力装置１１６は、１つ以上のクライアント装置１４４と有線又は無線リンク１４２を介して通信することができる。クライアント装置１４４は、例えば、算出された信頼度が低いときに、システム１００によって要求されたときに候補テキスト列１４を編集するように、人間の注釈者のためのグラフィカルユーザインターフェース１４８を表示するＬＣＤ画面、コンピュータモニタなどの表示装置１４６を含む。クライアント装置１４４は、テキストを入力してプロセッサ１０４に対してユーザ入力情報及びコマンド選択を通信するために、キーボード又はタッチ若しくはライタブルスクリーンなどのユーザ入力装置１５０、及び／又は、マウス、トラックボールなどのカーソル制御装置を含むことができる。他の実施形態において、表示装置１４６及びユーザ入力装置１５０は、リンク１３６に類似する有線又は無線接続により、コンピュータ１１２に直接連結されることができる。

コンピュータ１１２は、デスクトップ、ラップトップ、パームトップコンピュータ、携帯情報端末（ＰＤＡ）、サーバコンピュータ、携帯電話機、タブレットコンピュータ、ページャ、それらの組み合わせなどのＰＣ、又は、例示的な方法を実行するための命令を実行可能な他の算出装置とすることができる。

メモリ１０８、１１０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気ディスク若しくはテープ、光ディスク、フラッシュメモリ又はホログラフィックメモリなどの任意の種類の持続性コンピュータ読み取り可能な媒体を表すことができる。ネットワークインターフェース１１４、１１６は、コンピュータがローカルエリアネットワーク（ＬＡＮ）若しくはワイドエリアネットワーク（ＷＡＮ）などのコンピュータネットワーク又はインターネットを介して他の装置と通信するのを可能とし、変調器／復調器（ＭＯＤＥＭ）、ルータ、ケーブル、及び／又は、イーサネット（登録商標）ポートを含むことができる。

ディジタルプロセッサ１０４は、シングルコアプロセッサ、デュアルコアプロセッサ（又はより一般的にはマルチブルコアプロセッサ）などによって様々に具現化されることができる。

画像１０及び／又は１２８は、ＪＰＥＧ、ＧＩＦ、ＪＢＩＧ、ＢＭＰ、ＴＩＦＦなどの任意の便利なファイル形式でシステム１００によって受信され、処理中にデータメモリ１１０に記憶されることができる。一般に、各入力ディジタル画像は、画像を形成する画素のアレイについての画像データを含む。画像は、写真などの個々の画像、ビデオ画像又は複合画像とすることができる。一般に、各画像１０、１２８は、テキスト列の文字が画像の画素の集合として視認できるテキスト領域を含むことが予想されるディジタル写真とすることができる。

図３は、図１及び図２のシステムによって行われることができる信頼度推定及びテキスト認識方法を図示している。本方法は、Ｓ３００で開始する。

Ｓ３０２において、テキスト列を含むと予想される入力画像１０、１２８が受信される。

Ｓ３０４において、入力画像１２８は、例えば画像プリプロセッサ１２０によって又はＯＣＲシステム１２によってテキスト画像１０を識別するように前処理されることができる。

Ｓ３０６において、ＯＣＲシステム１２によって少なくとも１つの候補列１４を識別するようにテキスト画像１０についてテキスト認識が行われる。テキスト列１４は、受信されてメモリ１１０に記憶される。

Ｓ３０８において、テキスト表現要素２０によって各候補テキスト文字列１４からテキスト列表現２２が生成され、メモリ１１０に記憶される。Ｓ３０８は、テキスト列からの特徴抽出（Ｓ３１０）と、抽出された特徴に基づく例えばユークリッド空間におけるベクトル表現１８の生成（Ｓ３１２）とを含むことができる。

Ｓ３１４において、画像１０に基づいて画像表現要素１６によって画像表現１８が生成されてメモリ１１０に記憶される。このステップは、画像１０からの特徴抽出（Ｓ３１６）と、抽出された特徴に基づく画像のベクトル画像表現１８の生成（Ｓ３１８）とを含むことができる。

Ｓ３２０において、例えば双一次形式を使用して、適切なサブ空間内のテキスト画像表現とテキスト列表現との間の類似度の関数として信頼度が算出される。特に、２つの多次元表現１８、２２は、メモリ１１０に記憶された類似度スコアなどの比較測定値を生成するように比較要素２４によって比較される。比較は、例えば、（ｉ）行列Ｗ^Ｔによってｘ（Ｉ）を射影することにより、（ｉｉ）Ｗによってｅ（ｔ）を射影することにより、又は、（ｉｉｉ）Ｗ＝Ｕ^ＴＶの場合に、Ｕによってｘ（Ｉ）を、Ｖによってｅ（ｔ）を射影することにより、サブ空間内に２つの表現のうちの１つ又は双方を埋め込むことによって共通のサブ空間内で行われることができる。１つの実施形態において、行列Ｗの要素などの埋め込み関数のパラメータは、図４及び／又は図５を参照しながら記載されたように、ラベル及び画像についての類似度のより正確な測定値を得る可能性が高くなる比較測定値を提供するようにラベル付けされた検査画像の実際のラベルを使用して学習されていてもよい。埋め込み及び埋め込まれた表現の比較は、上記式１において記載されたように、２つの表現１８、２２を入力とする単一の埋め込み／比較機能を有する単一ステップで行われることができる。他の実施形態において、埋め込み及び埋め込まれた表現の比較は、別個のステップとして行われることができる。

Ｓ３２２において、それに基づく類似度スコア又は信頼度測定値は、暫定的なテキスト列１４が画像１０についての閾値信頼度を満たすか又は超えたかどうかを判定するために比較要素２４によって閾値信頼度測定値（類似度スコア）と比較されることができる。Ｓ３２４における場合、閾値は、少なくとも（ｃ（Ｉ，ｔ）≧Ｔ）が満たされた後、Ｓ３２６において、候補列１４は、ナンバープレートの画像１０に対応するナンバープレートの番号などの認識された文字列として出力されることができる。信頼度閾値が（ｃ（Ｉ，ｔ）＜Ｔ）を満たさない場合には、Ｓ３２８において、さらなる検討が開始されることができる。例えば、画像１０は、人間の注釈者に送られることができ、又は、他のＯＣＲシステムなどの第２の自動化処理に供されることができる。１つの実施形態において、第２のＯＣＲシステムは、Ｓ３０６についてのような候補テキスト列を生成することができ、前述したようにステップＳ３０８及びＳ３２０からＳ３２４が繰り返される。本方法は、Ｓ３３０において終了する。

システム及び方法のさらなる詳細がここで記載される。

画像前処理（Ｓ３０４）
大きな画像内でのナンバープレートなどの関心のある対象を局在化する方法は、例えば、米国特許出願第１３／３５１，０３８号及び第１３／５９２，９６１号（‘９６１出願）に記載されている。これらの方法は、切り出されることになるクエリ画像に類似する画像又は複数の画像を識別し、クエリ画像に注釈（ナンバープレート番号を囲む矩形ブロックの位置など）を適用するために記憶された注釈付き画像のセットを使用する。‘９６１出願は、関心のある対象により焦点をあてた画像の第２のセットを使用して初期局在化を改良する２段階アプローチを使用する。

使用されることができる他の切り出し技術は、テキストの特性などの切り出されることになる対象の事前に公知の特性を利用する経験則に基づいている。例えば、いくつかは、水平及び垂直エッジの頻繁な存在を利用し、又は、高い局所コントラスト若しくは一定のストローク幅に依拠する。

ｘ（Ｉ）を埋め込む入力画像（Ｓ３１４）
１つの実施形態において、関数Ｉ→ｘ（Ｉ）は、画像Ｉの入力をとり、Ｄ次元空間内の画像１０の固定長のベクトル表現１６を出力する。適切な画像表現は、（ｉ）パッチ記述子の抽出、（ｉｉ）これらの記述子に基づくパッチあたりの統計の算出、及び、（ｉｉｉ）画像レベル表現１８を生成するためのこれらの統計の集計に基づくことができる。以下の例において、Ｐｅｒｒｏｎｎｉｎら、「大規模画像分類のためのフィッシャカーネルの改善（Ｉｍｐｒｏｖｉｎｇｔｈｅｆｉｓｈｅｒｋｅｒｎｅｌｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）」、ＥＣＣＶ、２０１０年のフィッシャベクトル表現が使用されるが、Ｃｓｕｒｋａらのバッグオブビジュアルワーズ（ｔｈｅｂａｇ−ｏｆ−ｖｉｓｕａｌ−ｗｏｒｄｓ）表現、キーポイントのバッグによる視覚的カテゴリ化（ＶｉｓｕａｌＣａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈＢａｇｓｏｆＫｅｙｐｏｉｎｔｓ）、ＥＣＣＶワークショップ、２００４年などの他の画像表現が使用されてもよい。

一般に、Ｄ次元空間内の画像の埋め込みは、色及び／又は勾配特徴の集合などの画像及び同様にトレーニング画像１４０のパッチから記述子を抽出することを含む。各パッチは、画素のセットから構成されている。パッチは、いくつかのパッチが重複しているように複数のスケールにおけるものとすることができる。統計は、記述子に基づいて各パッチについて算出される。パッチ統計は、例えば、以下のフィッシャベクトル（ＦＶ）原理を使用して算出されることができる。パッチの生成モデルが存在し（ガウス混合モデル（ＧＭＭ）など）、パッチ記述子の対数尤度の勾配がモデルのパラメータに対して測定されると仮定される。ガウス混合モデルは、重みがパラメータトレーニングに割り当てられているガウス関数（ガウシアン）のセットを含む。各ガウシアンは、その平均ベクトル及び共分散行列によって表される。共分散行列が対角であると仮定することができる。フィッシャベクトルを算出する方法はまた、米国特許出願公開第２０１２００７６４０１号明細書、第２０１２００４５１３４号明細書、及び、ＪｏｒｇｅＳａｎｃｈｅｚ及びＦｌｏｒｅｎｔＰｅｒｒｏｎｎｉｎ、「大規模画像分類のための高次元の署名圧縮（Ｈｉｇｈ−ｄｉｍｅｎｓｉｏｎａｌｓｉｇｎａｔｕｒｅｃｏｍｐｒｅｓｓｉｏｎｆｏｒｌａｒｇｅ−ｓｃａｌｅｉｍａｇｅｃｌａｓｓｉｆｉｃａｔｉｏｎ）」、ＣＶＰＲ、２０１１年に記載されている。フィッシャカーネル表現は、フィッシャベクトルの集合によって生成されることができる。

テキスト画像に関する空間情報を含むために、画像は、領域に分割されることができ、パッチあたりの統計は、領域レベルで集計されることができ、そして、領域レベルの表現は、画像表現を形成するために連結されることができる。

例示的な画像表現１８は、固定次元からなる、すなわち、各画像表現は、同数の要素を有する。一般に、各画像表現は、少なくとも３０個又は少なくとも６０個又は少なくとも１００個又は少なくとも５００個の次元及び最大で１０００以上の次元を有し、各次元は、より少ない次元に低減されることができる各特徴値を有する。

１つの実施形態において、表現要素１６は、形状、質感又は色特徴などの画像１０のパッチの低レベルの視覚的特徴を抽出して解析するパッチ抽出部を含む。パッチは、画像切り出しにより、特定の関心点検出部を適用することにより、規則的なグリッドを考慮することにより、又は、単に画像パッチのランダムサンプリングを行うことにより得られることができる。例示的な実施形態において、パッチは、画像全体又は画像の少なくとも一部若しくは大部分にわたって、任意に複数スケールで規則的なグリッド上に抽出される。例えば、少なくとも１０個又は少なくとも２０個又は少なくとも５０個のパッチが各画像から抽出される。各パッチは、少なくとも４０画素又は少なくとも１００画素及び最大で１００万画素以上を含むことができる。

各パッチから（例えば、ベクトル又はヒストグラムなどの局所記述子の形態で）抽出された低レベル特徴は、グローバルな画像表現として機能する特徴ベクトルを形成するように次元に連結されて任意に低減されることができる。他のアプローチにおいて、画像のパッチの局所記述子は、クラスタに割り当てられる。例えば、視覚的語彙は、例えばＫ−ｍｅａｎｓクラスタリング解析を使用してトレーニング画像から抽出された局所記述子をクラスタリングすることによって前もって得られる。そして、各パッチベクトルは、最も近いクラスタに割り当てられ、割り当てのヒストグラムが生成されることができる。他のアプローチにおいて、上述したフィッシャベクトルの場合のように確率的フレームワークが使用される。例えば、全ての局所記述子が放出されるガウス混合モデル（ＧＭＭ）などの基礎となる生成モデルが存在すると仮定される。それゆえに、各パッチは、重みベクトル、混合モデルを形成するガウス関数のそれぞれについての１つの重みによって特徴付けられることができる。この場合、視覚的語彙は、期待値最大化（ＥＭ）アルゴリズムを使用して推定されることができる。いずれの場合においても、語彙における各視覚的語句は、典型的な低レベル特徴のグループ化に対応する。視覚的語句は、それぞれ、（ディジタルよりもむしろ）視覚的な対象（例えば、直線、曲線などの文字の特徴）の種類、特徴的な背景（例えば、明るい又は暗い面など）などの中間レベルの画像特徴に（おおよそ）対応することができる。表現が割り当てられる画像１０を考慮すると、抽出された各局所記述子は、以前にトレーニングされた語彙に最も近い視覚的語句又は確率論的モデルの場合には確率的な方法における全ての視覚的語句に割り当てられる。ヒストグラムは、各視覚的語句の出現を累積することによって算出される。ヒストグラムは、それに基づく画像表現を出力する生成モデルに対する画像表現又は入力として機能することができる。

例示的な実施形態において、低レベルの特徴は、パッチあたり１つのＳＩＦＴ記述子などの勾配特徴を含む。例えば、Ｌｏｗｅ、「スケール不変キーポイントからの典型的な画像特徴（Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅ−ｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ）」、ＩＪＣＶ、第６０巻（２００４年）を参照のこと。ＳＩＦＴ特徴を使用した説明的な１つの例において、特徴は、５つのスケールで規則的なグリッド（１６画素毎）に３２×３２画素のパッチから抽出される。これらの記述子の次元は、１２８から３２次元まで低減されることができる。抽出されることができる他の適切な局所記述子は、パッチが４×４のサブ領域に分割されて各サブ領域における平均及び標準偏差が３つのチャネル（Ｒ、Ｇ及びＢ）について算出される単純な９６次元の色特徴を含む。これらは、単に説明的な例であり、追加の及び／又は他の特徴が使用可能である。表現は、画像の２つ以上の領域について算出されて集約、例えば連結されることができる。以下の例において、６４ガウシアンの視覚的語彙がＧＭＭにおいて使用され、平均パラメータに関する勾配のみが考えられる。テキスト画像１０は、４つの領域（４つの縦縞）に分割される。これは、３２×６４×４＝８１９２次元のＦＶ表現をもたらす。

表現は、処理を高速化するために従来の技術（局所性鋭敏型ハッシュ（ＬＳＨ）、積量子化、主成分分析（ＰＣＡ）など）を使用してインデキシング又は圧縮されることができる。

テキスト埋め込み（Ｓ３０８）
関数ｔ→ｅ（ｔ）は、テキスト列１４を入力とし、文字列の固定長ベクトル表現を出力する。ｅ（ｔ）の次元数は、Ｅ次元空間内の文字列長（文字数）とは無関係である。２つの方法が説明のために提供される。

Ａ．合成画像
この実施形態において、テキスト埋め込みｔ→ｅ（ｔ）は、コンピュータ生成フォントを使用してテキスト列から語句画像を合成し、この合成画像から特徴を抽出し、抽出された特徴に基づいてＥ次元表現２２を生成することによって行われる。語句画像は、２値画像（全画素が黒又は白）又はグレースケール画像とすることができるモノクロ画像などの画素のアレイの形態とすることができ、この場合、画素はまた、１つ以上の色チャネルに中間値を有することができる。付加情報は、用途に応じて、語句画像合成部への入力として使用されることができる。例として以下である。

１．汎用ＯＣＲシステム１２との関連で、ＯＣＲは、候補テキスト列１４のみならず、一般にコンピュータで生成されたフォントの所定のセットから認識されたフォントを出力する。このフォント情報は、入力画像Ｉとより一致する語句画像を合成するのに使用されることができる。

２．ナンバープレート認識（ＬＰＲ）システムとの関連で、ＬＰＲＯＣＲソフトウェアは、候補ナンバープレート番号１４を出力するのみならず、発行の認識状態、場合によっては、プレート種類（例えば、プレートは「障害者」サインを含むという事実）を出力することができる。例えば、ＯＣＲ認識された情報に基づくナンバープレート画像の合成の詳細については、米国特許出願第１３／３００，１２４号及び第１３／４５８，４６４号を参照のこと。

１つの実施形態において、この方法によって生成された合成語句画像（プレート）は、テキスト埋め込みｅ（ｔ）として直接使用されることができる。すなわち、各画素はベクトル表現における特徴である。しかしながら、例示的な実施形態においては、固定次元、特徴ベースの表現が生成される。例えば、パッチレベル特徴及びフィッシャベクトルが画像表現生成のためと同様に合成画像について算出される。この場合、期待値は、テキスト（及びフォント、状態など）が正しく認識された場合に、合成画像がクエリ画像に非常に類似していなければならないということである。この場合、行列Ｗは、（それらがさらに異なる分布を有することができることから）「合成画像」領域に対して「実画像」領域をマッピングするために測定基準を課している。

この実施形態の利点は、それが考慮されることになるフォント又はナンバープレート種類などのサイド情報を可能にするということである。

Ｂ．文字表現のバッグ
この実施形態において、テキスト埋め込み関数ｔ→ｅ（ｔ）は、Ｅ次元表現２２を生成するために文字の出現頻度とともに文字列１４におけるそれらの位置に関する統計を算出することによって行われる。１つの適切なテキスト表現は、記載されたように、例えば‘０１４出願において提案された空間ピラミッドバッグオブキャラクタ（ＳＰＢＯＣ）である。

この実施形態の１つの利点は、ＳＰＢＯＣが、それが任意の複雑な画像合成ソフトウェアを必要としないことから、算出が非常に高速であって実装がはるかに単純であるということである。以下の例においては、ＳＰＢＯＣ方法がテキスト表現を生成するのに使用される。

ＳＰＢＯＣ方法において、テキスト列は、サイズＬの文字の有限集合

における文字から構成される。例えば、ナンバープレート認識方法について、可能な文字の集合

は、アルファベットにおける可能な文字Ａ〜Ｚ及び数字０〜９のセット、すなわち、合計３６個の異なる文字とすることができる。理解されるように、他の文字が用途又は目標言語に応じて考慮されてもよい。特殊文字はまた、２文字間の少なくとも所定の隙間になる空間などと考えられることができる。

語句は、単に各文字の出現回数をカウントすることによってＬ次元空間に埋め込まれることができた。そのような表現は、バッグオブキャラクタ（ＢＯＣ）に対応するであろう。しかしながら、この表現は、文字の順序を考慮しない。したがって、それらがアルファベットにおける文字の同じサブセットを含む場合には、２つの文字列は、同じ表現を有することができる。

ＳＰＢＯＣにおいて、文字列は、連続的に領域に分割され、各領域の提示は、それが含む文字及び文字の部分に基づいて生成される。そして、領域ベースの表現は、集約されることができる。このようにして、同数の領域が作成されることから、文字数と独立して、例えば領域表現を連結することによって生成された最終的な表現は固定長からなる。例として、候補文字列ＡＢＣＤＥを考えると、完全な文字列は、第１のレベルについて１つの領域と考えられ、この領域の表現は、何も繰り返されないことから、文字列における文字のそれぞれについて値１を有する。第２のレベルにおいてこの領域を３つの領域に分割することは（各文字が同じ幅を与えられていると仮定して）、［Ａ，２／３Ｂ］、［１／３Ｂ，Ｃ，１／３Ｄ］及び［２／３Ｄ，Ｅ］にそれぞれ対応した特徴を有する３つの領域を生成する。領域のそれぞれは、さらに、（９領域を与える）第３のレベルに分割されることができ、分割は、例えば（第１から離れた）各レベルが以前の（より高い）レベルにおける領域（複数可）を分割することによって形成される４個又は５個の空間レベルを生成するために繰り返される。分割は、テキストの方向に対して垂直に行われる。理解されるように、分割は、第２の及び連続したレベルにおける３つよりもむしろ２つの領域にされてもよく、又は、異なるレベルは、異なる程度の分割を使用してもよい。

そして、各領域における文字数は、ＢＯＣを生成するためにカウントされる。ＢＯＣは、文字セット内の各文字についての要素を有するベクトルとすることができ、各要素は、各領域における文字の出現回数に基づいている値を有する。そして、そのようなヒストグラム表現は、例えばｌ_１ノルム又はｌ_２ノルム（又は任意のノルムｌ_ｐ正規化技術）を使用して続いて正規化されることができる。例えば、カウントは、ベクトル和の要素が１であるか又はそれらの二乗和の平方根＝１であるように正規化される。

そして、各領域及び各レベルに対応したＢＯＣ表現が連結される。この表現は、本願明細書では空間ピラミッドＢＯＣ（ＳＰＢＯＣ）と称される。

レベルの数は、少なくとも２個又は少なくとも３個又は少なくとも４個とすることができる。１つの実施形態において、５つのレベルが使用されることができ、これは、３２×（１＋２＋４＋８＋１６）＝１１１６次元までのＳＰＢＯＣ表現を生成することができる。ここで、３２文字が考慮され、各領域は、次のレベルにおいて２つに分割される。ヒストグラム表現は、正規化されたｌ_１である。この表現の利点は、それが通常はわずかであり、したがって、効率的な方法で記憶されることができるということである。

理解されるように、ユークリッド空間内にＡＳＣＩＩワードを埋め込むために他の技術が使用されてもよい。

信頼度スコアの算出（Ｓ３２０）
一般に、画像１０及びテキスト列１４は、異なる空間に埋め込まれ、したがって、ユークリッド距離などの単純なメトリックを使用して容易に比較することができない。

例示的な実施形態において、Ｄ×Ｅ行列Ｗは、画像表現の共通空間内にテキスト表現ｅ（ｔ）を射影するのに使用される（又は逆にはＥ×Ｄ行列によって）。ここで、Ｄは、各テキスト列表現の要素数を表し、Ｅは、各画像表現における要素数を表している。そして、Ｗ・ｅ（ｔ）を埋め込んだ射影テキストは、ドット積を使用して、すなわち以下を算出することによってｘ（Ｉ）を埋め込んだ画像と比較されることができる。

これは、テキスト埋め込みの空間内の画像埋め込みｘ（Ｉ）を射影した後にｘ（Ｉ）^Ｔ・Ｗとｅ（ｔ）とのドット積を使用することと厳密に等価である。

他の実施形態において、ｘ（Ｉ）及びｅ（ｔ）は双方とも、共通の下位次元空間に射影される。これは、埋め込み空間Ｄ及びＥの大きさが大きいとき、すなわち、行列Ｗが大きいときに特に有利である。そのような場合、Ｗは、低ランクの行列の積、すなわち、ＵがＫ×Ｄ行列であり、ＶがＫ×Ｅ行列であるときＷ＝Ｕ’Ｖとして表現されることができる。ここで、Ｋ＜ｍｉｎ（Ｄ，Ｅ）である。このアプローチの利点は、推定するためのパラメータの数が、通常Ｄ×Ｅよりもはるかに小さいＫ（Ｄ＋Ｅ）であるということである。また、画像埋め込み及びテキスト埋め込みが低次元のサブ空間に射影されると、類似度算出は、非常に高速である。

なお、ドット積が類似度測定値として本願明細書において使用されるとともに、表現間の類似度を算出するのに適した任意の類似度測定値が使用可能である。例えば、マンハッタン距離、ＫＬ発散、ヘリンジャー（ＨＥ）発散、レーニイ発散、ユークリッド距離、マハラノビス距離、Ｌ１距離、又はカイ２乗類似度測定値が使用可能である。例えば、ユークリッド距離又は他の類似度測定値は、ｘ（Ｉ）^ＴとＷｅ（ｔ）との間又はｘ（Ｉ）^ＴＷとｅ（ｔ）との間で算出されることができた。例えば、これらの類似度測定値のいくつかについてのさらなる詳細については、米国特許出願公開第２０１００１９１７４３号明細書を参照のこと。

式１によって算出される類似度測定値は、スカラー値である。それは、信頼度測定値として直接使用されることができ、又は、信頼度測定値を算出するために百分率、ランク若しくは処理された他のものに変換されることができる。

行列Ｗの推定
図３の方法は、比較関数のパラメータが２つの表現を比較するために学習されていると仮定する。行列Ｗを算出するための２つの方法は、ここで一例として記載される。

Ａ．標準の構造化学習
この方法において、行列Ｗは、形態（ｅ（ｔ），ｘ＋，ｘ−）の「トリプレット」を構築することによって学習される。ここで、ｅ（ｔ）は、根拠が真のラベルｔの表現であり、ｘ＋は、ラベルｔに対応するトレーニングセットからのテキスト画像の表現であり、ｘ−は、ラベルｔに対応していないトレーニングセットからのテキスト画像の表現である。そのようなトリプレットのセットから、行列Ｗは、ラベルｔに対応していない画像についてよりも真の画像について、各トリプレットにおいて、算出された信頼度がより高い全てのトレーニングサンプルにわたって、尤度を最適化するように機能する構造化出力学習アルゴリズムを使用して算出されることができる。

この方法は、‘０１４出願に記載されているように実現されることができる。

図４は、比較関数を学習するための方法の例を図示している。本方法は、前述した他の要素を求める又は別個の計算装置上で実行されることができるシステム１００のトレーニング要素１２４によって実装されることができる。

本方法は、Ｓ４００において開始する。

Ｓ４０２において、それぞれが画像１０と類似するトレーニング画像のセット１４０が受信される（セット１４０における画像は、Ｓ３０４に関して前処理されることができる）。データセットにおける各トレーニング画像Ｉ_ｎは、人間の検査者がナンバープレート番号を形成する文字及び数字のシーケンスなどの画像内で認識した文字列である手動で割り当てられた（真の根拠）ラベルｔを有する。文字列（ラベル）は、文字の有限集合から選択された一連の文字から構成されている。

Ｓ４０４において、テキスト認識は、ＯＣＲシステム１２により、各候補文字列１４及び任意にはフォント情報などの関連情報を識別するために、セット１４０における各トレーニング画像に対して任意に行われる。ＯＣＲ出力は、それが一致するのを確実にするように根拠が真のラベルと比較される。他の実施形態において、根拠が真のラベルは、テキスト表現要素がテキスト列のみを使用し、及び追加情報を使用しない場合には、ＯＣＲを行うことなく、ｔとすることができる。

Ｓ４０６において、各テキスト列１４の表現ｅ_ｎは、Ｓ３０８に関して生成される。

Ｓ４０８において、画像表現ｘ_ｎは、Ｓ３１４について記載されたように、例えばフィッシャベクトルを使用して、検査画像１０の場合と同様に、画像表現要素１６によって各トレーニング画像Ｉ_ｎについて生成される。

Ｓ４１０において、行列Ｗの重みｗなどの埋め込みパラメータは、画像表現が他のラベル表現に対してよりも対応する正しいＯＣＲ文字列に対して最も類似する可能性が高い空間内の画像及びテキスト列表現の一方又は双方を埋め込むために学習されるか又はその逆である。これは、信頼度スコアに基づいて、非一致対よりも、一致する画像／文字列対がより高いランクであるのを保証する。トレーニングセットから全ての可能なサンプルにわたる重みの最適化は、算出的にコスト高とすることができる。したがって、重みは、徐々にトレーニングセットからサンプリングし、各反復において行列における重みを更新することによって最適化されることができる。重み行列Ｗは、例えば、確率的勾配降下又は他の構造化出力予測学習方法を使用して、学習されることができる。特に、重みｗの行列Ｗは初期化され、行列における値は、次第に改善される。重みｗの初期化のために、行列のパラメータは、例えば、画像特徴ベクトルの次元によって除算された正規分布からランダムにサンプリングされることができる。

学習は、ラベルｔに対応していないテキスト画像の表現ｘ−間の類似度が、ラベルｔに対応していない画像の表現ｘ＋よりもｅ（ｔ）と類似しているトリプレットが描画されるときに、重みを更新することによって行われることができる。学習速度は、例えば‘０１４出願に記載されたように、パラメータが更新される程度を変更するように選択されることができる。

Ｓ４１２において、学習されたパラメータは、メモリ１１０などのメモリに記憶されている。本方法は、Ｓ４１４において終了する及び／又は図３のＳ３２０に進むことができる。

Ｂ．適応的方法
ＯＣＲ検証の問題に合わせて調整されるＷを学習するための他のアプローチが図５に図示されように行われることができる。

本方法は、Ｓ５００において開始する。

Ｓ５０２において、画像１０にそれぞれ類似するトレーニング画像のセット１４０が受信される（セット１４０における画像は、Ｓ３０４に関して前処理されることができる）。

Ｓ５０４において、トレーニング画像のデータセット１４０の各画像Ｉ_ｎについて、テキスト認識は、各暫定的ラベルｔ_ｎを得るようにＯＣＲシステム１２を実行することによって行われる。

Ｓ５０６において、埋め込みは、Ｓ４０６に関して、ｅ_ｎ＝ｅ（ｔ_ｎ）で表される暫定的ラベルｔ_ｎから算出される。

Ｓ５０８において、埋め込みは、Ｓ４０８に関して、ｘ_ｎで表されるＩ_ｎから算出される。

Ｓ５１０において、ＯＣＲ出力が正確（ｇ_ｎ＝１）であったか又は不正確（ｇ_ｎ＝０）であったかに応じて、各対（ｘ_ｎ，ｅ_ｎ）の真の根拠のラベルｇ_ｎが判定される。

Ｓ５１２において、‘０１４出願及びＳ４１０と同様に、Ｗは学習されるが、任意の正の対の信頼度（ｇ_ｎ＝１）が任意の負の対（ｇ_ｎ＝０）よりも高くなければならず、そうでなければ重みが更新されることを課している。

それゆえに、このアルゴリズムは、図４と同様であるが、ランダムに作成された対よりもテキスト画像についての真のラベルと非常に近いことが予想される負のサンプルとして誤ったＯＣＲ出力を使用する。図５の方法はまた、ＯＣＲシステムが大抵は行列Ｗに織り込まれている一貫性のある誤りを形成することから、テキスト画像を出力するのに使用されるＯＣＲシステムに比較的特有である。

対に基づく図５の学習アルゴリズムは、ＯＣＲ検証シナリオに良好に適している。しかしながら、図４の方法に関するランダムなトリプレットによるトレーニングもまた考えられる。

情報の出力（Ｓ３２８、Ｓ３２６）
理解されるように、システムは、信頼度スコアに加えて又はその代わりに、認識されたテキスト列などの他の情報を出力することができる。例えば、システムは、用途に応じて、通行料又は駐車料金のためにナンバープレート番号を有する車両の所有者の口座の引き落としのための情報を出力することができる。システムはまた、ナンバープレート番号などのテキスト列のデータベースにおいて、ナンバープレート画像などの所定のテキスト画像についての一致を検索する認識システムとして使用されることができる。この場合、情報出力は、認識されたテキスト列と一致するナンバープレートにより、データベースからのナンバープレート番号、又は、車両の所有者に関する情報、例えばナンバープレート画像を撮像したカメラの位置などの所定時間における車両の位置若しくは駐車場などの所定位置に車両がある旨などのそれに基づく情報のうちの１つ（又はそれ以上）との最も近い一致とすることができる。例えば、ナンバープレート画像などのテキスト画像のデータベースにおいて所定の画像との一致をみつけるための検索に本方法が使用される場合には、情報出力は、各認識されたテキスト列に基づいて、データベースからのナンバープレート画像のうちの１つ（又はそれ以上）との最も近い一致とすることができる。

再ランク付けリスト
１つの実施形態において、ＯＣＲシステム１２は、単一の候補文字列及びその信頼度よりもむしろ、各信頼度ｏ（ｔ_ｋ）とともにＫ個の文字列ｔ_ｋのランク付けされたリストを出力する。ここで、Ｋは、２〜１０などの少なくとも２である。

そして、例示的な方法は、以下のようにｋ番目の候補についての（ラベル埋め込みを介して）新たな信頼度を算出するのに使用されることができる。

そして、Ｋ個の文字列ｔ_ｋのリストは、ｃ（Ｉ，ｔ_ｋ）の値に基づいて再ランク付けされる。正確な候補がＫ個の要素内にある場合に、それが上位に昇格する機会を有するように、目的が候補文字列を再ランクすることであるため、このアプローチは、「ＯＣＲ補正」と考えることができる。したがって、この方法は、ＯＣＲシステムの信頼度とともに、例示的な要素２４による出力を考慮する。本方法は、（信頼度スコアに基づいて）リストＫ内の最上位にランク付けされたテキスト列を出力することができる。

他の実施形態
１つの実施形態において、例示的な方法は、ＯＣＲシステム１２によって算出された信頼度２８が所定の閾値未満であるときにのみ行われる。例えば、図６に図示されるように、図３の方法は、ＯＣＲ信頼度を出力して（Ｓ３３２）信頼度が所定の閾値未満であるかどうかを判定する（Ｓ３３４）中間ステップによって変更されることができる。そうである場合、本方法は、図３のＳ３０８及びＳ３１４に進む（本方法の残りの部分は、明確化のために図６から省略されている）。そうでない場合には、ＯＣＲシステムによって識別される文字列１４は、Ｓ３３６において出力され、本方法は、Ｓ３２２の例示的な信頼度推定方法を介して進むことなく終了する。

他の実施形態において、画像Ｉの主題である対象は、以前に既にみられることができる。例えば、自動通行料金支払いシステムを使用した車両は、認識されたナンバープレート番号（図１における集合１３６）とともにメモリに記憶されることができるいくつかの料金所において撮像されたそのナンバープレートの画像を有することができる。これらは、現在の画像についてのＯＣＲ文字列における信頼度ｃ（ｔ，Ｉ）が閾値未満である場合に支援するのに使用されることができる。

一例として、図３に示された方法のステップＳ３２８は、以下のように始めることができる。Ｓ３２４における信頼度が閾値未満である場合、システム１００の署名照合要素（図示しない）は、プレート画像１０が以前に注釈付けされた画像１３６のセットと比較される最近傍探索を実行する。これは、最近傍（例えば、類似度の測定値としてユークリッド距離又はドット積を使用して最も類似した画像）を探索するように、現在の画像１０の画像表現１８と、セット１３６における以前に取得された画像の対応する画像表現との間の類似度を算出することによって行われることができる。２つの画像表現の間の類似度が所定の画像類似度閾値を満たす場合、２つの画像は、集合１３６内の既存の画像と関連付けられた同一のナンバープレート及びナンバープレート番号が現在の画像に割り当てられて構成されると仮定される。一方、署名照合アルゴリズムが十分な信頼度との一致がみつからない場合には、現在のプレート画像は、手動検査又は他の処理のために人間の操作者に送られることができる。

理解されるように、この方法はまた、図６に示される適応と組み合わせられることができる。

いくつかの実施形態において、毎回、新たなナンバープレート番号は、以前に料金徴収システムによって観察されていないＯＣＲシステム１２によって識別され、対応する取得された画像１０は、手動検証のために自動的に送られ、取得された画像は、将来の参照のためにデータベース１３６に記憶される。

図３、図４、図５及び図６のうちの任意の１つ以上に図示された本方法は、ディスク、ハードドライブなどのコンピュータ上で実行されることができるコンピュータプログラム製品に実装されることができる。

あるいは、本方法は、制御プログラムが伝送媒体を使用してデータ信号として具現化される伝送可能な搬送波などの一時的媒体に実装されることができる。

例示的な方法は、得られた実データを使用した電子料金徴収用途の関連で評価された。具体的には、１週間の料金徴収データに対応する２１４９７個の画像１０のデータセットが取得された。画像のこのバッチは、（通常はナンバープレート認識システムにおける場合のように）ＯＣＲ出力を容易にするようには微調整されておらず、したがって、困難なセットを構成する撮像構成を使用して得られた。ナンバープレート自動認識技術を使用してより大きな画像から抽出された画像は、候補のナンバープレート番号とともに文字列についての信頼度スコアを出力するＳＯＴＡで表されるナンバープレート認識についての商業的なＯＣＲシステムに供給される。

データは、ランダムに２等分に分割され、一方は、トレーニング及び検査のために使用された。実験のために、フィッシャベクトルは、画像埋め込みと、テキスト埋め込みのための空間ピラミッドバッグオブキャラクタ（ＳＰＢＯＣ）とのために使用された。行列Ｗは、上述した標準構造化学習方法を使用して学習された。この方法のために、（画像、正確なテキスト及びランダムな誤ったテキスト）のトリプレットが考慮された。ここで、「ランダムな誤ったテキスト」は、トレーニングセットからランダムに選択されたラベルを表す。最適化は、確率的勾配降下を使用して行われた。これらの実験のために、次元Ｄ×Ｅの「完全な」行列Ｗが使用される。ここで、Ｄ＝８１９２は、フィッシャベクトルの大きさであり、Ｅ＝１１１６は、（３６個の文字及び５つのレベルを使用した）ＳＰＢＯＣの大きさである。Ｗがトレーニングセット上に生成されると、上述したように、信頼度スコアｃ（ｔ，Ｉ）が検査セット内の各画像について算出されることができる。

方法の性能を評価し、それをＳＯＴＡ信頼度とコアのものと比較するために、例示的な方法及びＳＯＴＡによって出力された信頼度スコアの本人拒否（ＦＲ）対他人許容（ＦＲ）特性がプロットされる。各可能な閾値について、カウントは、信頼度＜閾値（ＦＲ）を有する正確な認識結果の一部と、信頼度＞閾値を有する誤って認識された結果の一部とから構成される。その結果は、図７に示されている。

提案された信頼度が他人許容及び本人拒否率の双方を減少させて改善を生み出すことを理解することができる。
目視検査により、商業用ＯＣＲが

などの垂直に配置された小さな文字の対を認識しないことに留意されたい。番号３４８５６における高いＯＣＲ信頼度をなおも出力する一方で、積層された文字Ｃ及びＤは、大抵は無視される。しかしながら、この動作を補正するためにＯＣＲの内部へのアクセスを有する必要はない。代わりに、例示的な方法は、番号３４８５６への低い信頼度を割り当て、この認識結果は拒否される。

Claims

信頼度を算出する方法において、
候補文字列を生成するように入力テキスト画像についての文字認識を行うテキスト認識システムにより、
候補文字列に基づいて第１の表現を生成することと、
入力テキスト画像に基づいて第２の表現を生成することと、
共通埋め込み空間内の前記第１及び第２の表現間の算出された類似度に基づいて前記候補文字列における信頼度を算出することとを備え、前記第１及び第２の表現のうちの少なくとも１つが前記共通埋め込み空間に射影され、
文字認識を行うこと、前記第１の表現を生成すること、前記第２の表現を生成すること、及び、前記信頼度を算出することのうちの少なくとも１つが、コンピュータプロセッサによって行われる、方法。
前記算出された類似度が、前記射影された第１及び第２の表現のドット積として算出される、請求項１に記載の方法。
前記第１の表現を生成することが、ベクトル空間に文字列を埋め込むことを備え、前記埋め込むことが、前記文字列から特徴のセットを抽出することと、任意に前記抽出された文字列の特徴に基づいて文字列表現を生成することとを備え、
前記埋め込むことが、空間ピラミッドバッグオブキャラクタを生成することを備え、前記生成することが、前記文字列を複数の領域に分割することと、前記領域のそれぞれの表現を抽出することとを備え、前記文字列表現が前記領域表現から得られる、請求項１に記載の方法。
前記第１の表現を生成することが、前記文字列の合成画像を合成することと、任意に前記合成画像に基づいて表現を算出することとを備え、
前記合成画像の合成が、
前記行われた文字認識において前記入力画像から識別されたフォントにおける前記文字列の文字を表現することと、
前記画像から抽出された非テキスト情報を表現することとのうちの少なくとも１つを備える、請求項１に記載の方法。
前記第２の表現を生成することが、生成モデルを使用して前記画像のパッチから抽出された特徴の統計表現を生成することを備える、請求項１に記載の方法。
さらに、前記第１及び第２の表現のうちの少なくとも１つを前記共通空間に射影するための射影を学習することを備え、前記射影が、構造化出力予測アルゴリズムによって学習される、請求項１に記載の方法。
さらに、任意に前記算出された信頼度に基づいて情報を出力することを備え、
前記情報を出力することが、前記算出された信頼度が所定の信頼度閾値を満たすときに候補文字列を出力することを備える、請求項１に記載の方法。
前記入力画像について前記文字認識を行うことが、前記テキスト認識システムにより、同じ入力テキスト画像についての複数の候補文字列を生成することを備え、本方法が、さらに、前記各算出された信頼度に基づいて前記複数の候補文字列をランク付けすることを備える、請求項１に記載の方法。
さらに、ｘ（Ｉ）が前記テキスト画像表現及び前記文字列表現のうちの一方を表し、ｅ（ｔ）が前記テキスト画像表現及び前記文字列表現のうちの他方を表し、Ｔが転置作用素を表し、Ｗが重み行列を表すとき、

の形態の関数を使用して前記第１及び第２の表現間の前記類似度を算出することを備える、請求項１に記載の方法。
信頼度を算出するシステムにおいて、
テキスト画像から抽出された特徴に基づいてテキスト画像表現を生成するテキスト画像表現要素と、
前記テキスト画像についての候補文字列として関連付けられたテキスト認識システムから文字列を受信し、前記文字列から抽出された特徴に基づいて文字列表現を生成するテキスト列表現要素と、
学習された埋め込み空間内の前記テキスト画像表現と前記文字列表現との間の類似度に基づいて前記文字列における信頼度を算出する比較要素と、
前記算出された信頼度に基づいて情報を出力する情報出力要素と、
前記テキスト画像表現要素、テキスト列表現要素、比較要素及び情報出力要素を実装するプロセッサとを備える、システム。