JP2014232533A - Ocr出力検証システム及び方法 - Google Patents

Ocr出力検証システム及び方法 Download PDF

Info

Publication number
JP2014232533A
JP2014232533A JP2014103364A JP2014103364A JP2014232533A JP 2014232533 A JP2014232533 A JP 2014232533A JP 2014103364 A JP2014103364 A JP 2014103364A JP 2014103364 A JP2014103364 A JP 2014103364A JP 2014232533 A JP2014232533 A JP 2014232533A
Authority
JP
Japan
Prior art keywords
image
representation
text
string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2014103364A
Other languages
English (en)
Other versions
JP2014232533A5 (ja
Inventor
ジョーズ・アントニオ・ロドリゲス−セラーノ
Antonio Rodriguez-Serrano Jose
フロラン・シー・ペロナン
C Perronnin Florent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2014232533A publication Critical patent/JP2014232533A/ja
Publication of JP2014232533A5 publication Critical patent/JP2014232533A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ナンバープレート認識など画像内のテキスト認識におけるOCR出力の検証方法を提供する。【解決手段】テキスト認識システムの出力における信頼度を算出するシステム及び方法は、テキスト認識システムによって入力テキスト画像について文字認識を行い、候補文字列を生成することを含む。第1の表現は、候補文字列に基づいて生成され、第2の表現は、入力テキスト画像に基づいて生成される。候補文字列における信頼度は、共通埋め込み空間内の第1及び第2の表現間の算出される類似度に基づいて算出される。【選択図】図3

Description

典型的な実施形態は、画像内のテキスト認識に関する。それは、ナンバープレート認識などにおけるOCR出力の検証と関連した特定用途を見出す。
光学式文字認識(OCR)は、画像内に存在するテキストの認識、すなわち、画像内に現れる実際のテキスト列への画像の画素変換処理をいう。文書解析領域及びナンバープレート認識などの他の用途分野におけるOCRについて多くの作業がある。ここで、ナンバープレートは、一般に、装着された車両についての固有の識別子である。
OCRシステムは、通常、語句に対応するサブ画像に完全画像を切り出した後に個々のサブ画像における語句を認識することによって動作する。そのような単一語などの文字列を含むサブ画像は、本願明細書においては「テキスト画像」と称される。ナンバープレートの場合には、サブ画像は、ナンバープレート番号が配置された車両のトリミングされた画像とすることができる。所望の出力は、テキスト画像内に存在する語句又は他の文字列に対応するテキスト文字列である。しかしながら、OCR認識は、多くの理由のために完全に正確ではない。例えば、精度は、撮像時の視認性が悪い場合に悪化する。さらに、OCRシステムによって受け入れられない画像内の文字があることがある。したがって、実際の用途においては、認識された文字列についての信頼度スコアを出力することがOCRシステムにとって一般的である。信頼度スコアは、出力の信頼度のOCRアルゴリズムによる自己評価である。OCRの信頼度スコアの算出は、内部認識処理に依存する。一例として、確率モデルについて、それは所定の画像データのテキスト文字列出力の事後確率とすることができる。個々の文字検出及び分類に基づくシステムの場合には、それは、個々の文字分類スコアの算術平均又は幾何平均とすることができる。
ナンバープレート認識などのOCRのいくつかの用途において、OCR誤差は、高コストであり得る(例えば、通行料金について誤った顧客への課金をもたらす)。そのような用途においては、信頼度スコアは、通常、信頼度が閾値未満であるOCR判定を破棄することにより、「拒否」判定をトリガするのに使用される。拒否の場合には、テキスト画像は、手動再検査のために第2の自動段階(例えば、第2のOCR)に又は人間の注釈者に送られることができる。実際には、OCRの信頼度スコアは、常に、OCR出力が真の根拠と一致するかどうかの信頼性の高い予測を提供せず、それゆえに、信頼度スコアは、部分的に閾値が配置された場所に依存して正確なOCR判定の拒絶又は誤ったOCR判定の受け入れをもたらすことがある。
その内部認識処理へのアクセスに頼る必要がないテキスト認識システムの出力における信頼度を算出するための信頼性のあるシステム及び方法の必要が残る。
例示的な実施形態の1つの態様において、信頼度を算出する方法は、候補文字列を生成するための入力テキスト画像についてのテキスト認識システムによって文字認識を行うことを含む。第1の表現は、文字列の候補に基づいて生成される。第2の表現は、入力テキスト画像に基づいて生成される。文字列の候補における信頼度は、共通の埋め込み空間内の第1及び第2の表現間において算出された類似度に基づいて算出される。第1及び第2の表現のうちの少なくとも一方は、この共通空間に射影される。
文字認識を行うこと、第1の表現を生成すること、第2の表現を生成すること、及び、信頼度を算出することのうちの少なくとも1つは、コンピュータプロセッサによって行われることができる。
例示的な実施形態の他の態様によれば、信頼度を算出するシステムは、テキスト画像から抽出された特徴に基づいてテキスト画像表現を生成するテキスト画像表現要素を含む。テキスト列表現要素は、テキスト画像についての候補文字列として関連するテキスト認識システムから文字列を受信し、文字列から抽出された特徴に基づいて、文字列表現を生成する。比較要素は、テキスト画像表現と学習された埋め込み空間内の文字列表現との間の類似度に基づいて、文字列における信頼度を算出する。情報出力要素は、算出された信頼度に基づいて情報を出力する。プロセッサは、テキスト画像表現要素、テキスト列表現要素、比較要素及び情報出力要素を実装する。
例示的な実施形態の他の態様によれば、ナンバープレート認識方法は、ナンバープレートの画像について光学式文字認識を行い、候補ナンバープレート番号としての文字列を生成すること、ナンバープレート画像の注釈付きセットについて学習された重みのマトリクスによって埋め込み空間内にナンバープレート画像の表現と候補ナンバープレート番号の表現とを埋め込む機能に基づいて、候補ナンバープレート番号における信頼度を算出することを含む。信頼度が閾値を満たす場合には、本方法は、ナンバープレートの画像について認識されたナンバープレート番号として文字列を出力することを含む。そうでなければ、ナンバープレート番号認識のための他の処理が開始される。行うこと、算出すること及び出力することのうちの少なくとも1つは、プロセッサによって行われる。
図1は、例示的なOCR出力検証システム及び方法の概要である。 図2Aは、OCR出力検証システムの機能ブロック図である。 図2Bは、OCR出力検証システムの機能ブロック図である。 図3は、OCR出力検証方法のフローチャートである。 図4は、1つの実施形態に係る図2及び図3のシステム及び方法において使用される信頼度関数の学習パラメータを図示するフローチャートである。 図5は、他の実施形態に係る図2及び図3のシステム及び方法において使用される信頼度関数の学習パラメータを図示するフローチャートである。 図6は、図3の方法への適応を図示している。 図7は、例示的な方法を使用した信頼度推定実験の実験結果のプロットである。
例示的な実施形態は、所定の入力テキスト画像のOCR出力などのテキスト認識処理の出力についての信頼度測定値を算出するシステム及び方法に関し、ナンバープレート認識との関連で特定の用途を見出す。
図1は、信頼度算出システム及び処理の概要を提供している。入力画像又は「テキスト画像」10は、Iで表されている。画像10は、大きな画像内に自動的に配置された単一の語句又は他の短い文字列からなることができる。
画像Iは、従来のOCRシステムなどのテキスト認識要素12によって処理される。テキスト認識要素12は、画像内のテキストを認識する任意の適切なシステムとすることができ、単にブラックボックスとして扱われることができる。OCRシステム12は、OCR出力14、具体的には、所定のアルファベット(文字の有限セット)から引き出される文字列から構成されるtで表される候補テキスト列を出力する。
ナンバープレートの場合、例えば、画像10は、ナンバープレート検出部を使用して車両の大きな画像内に局在したナンバープレートからなることができる。OCRシステムによって認識されたアルファベットは、ナンバープレート番号に使用されることが許可されている特定の文字セット(例えば、文字及び数字)に限定されることができる(登録識別子と称されることがある)。スペース及びダッシュなどの一部の文字は無視されてもよい。例えば、AB 12−34−32は、文字列AB123432としてOCRシステムによって認識されて出力されることができる。ナンバープレート番号は、発行領域のデータベース内でそれが装着された車両を固有に識別する数字又は英数字のコードとすることができる。
理解されるように、ナンバープレート番号及びナンバープレートの画像は、例示にすぎず、テキスト画像が所定の有限の語彙から引き出された文字の文字列と比較される例示的な実施形態を図示するために使用される。他の実施形態においては、ASCII、UNICODE及び/又はUTF−8文字の大きなセットがアルファベットとして使用されることができる。目的が語句を認識することであるテキスト認識用途においては、OCRシステム12は、所定の語彙において見出された候補テキスト列を出力することができ、且つ、語彙にはない文字列を候補から自動的に拒否することができる。受信した画像が2つ以上の潜在的な語句を含む場合、それぞれは、例示的な方法によってテキスト画像として別個に処理されることができる。しかしながら、このステップは、一般に、テキスト検出部によってより早い段階で行われる。
OCRシステム12はまた、所定のフォントセットから認識された文字列について認識されたフォントなどの他の非テキスト情報を出力することができる。ロゴはまた、記憶されたロゴデータベースから認識されることができる。
画像表現要素16は、x(I)で表される多次元特徴ベクトルなどのテキスト画像Iの表現18を算出する。テキスト表現要素20は、e(t)で表される多次元特徴ベクトルなどのテキスト列tの表現22を算出する。比較要素24は、e(t)とx(I)との間の比較測定値(例えば、類似度)を算出するc(t,I)で表される比較関数を適用することによってOCR出力における信頼度測定値26を算出する。類似度は、トレーニング画像のセットの埋め込まれた表現x(I)とe(t)との間の類似度が、OCR出力がOCRシステム自体よりもテキスト画像10の真のラベル(例えば、実際のナンバープレート番号)と一致するかどうかのより信頼性の高い予測因子である、学習された共通の埋め込み空間内で算出される。1つの実施形態において、Wで表される射影行列は学習され、この埋め込みサブ空間内に表現x(I)及びe(t)を射影(マッピング)する。それゆえに、例えば画像Iについてのtのスコアの形式における信頼度測定値は、
Figure 2014232533
の形式の比較関数で使用して算出されることができる。ここで、x(I)は、x(I)の転置を表しており、・はドット積を表している。勿論、表現x(I)又はe(t)のいずれかは、転置されたものとすることができる。
射影行列Wは、各表現x(I)及びe(t)に適用される2つの小さな行列U及びVに分解されることができる。ここで、W=UVである。射影行列W(又は2つの別個の射影行列)は、構造化された学習によって学習されることができる。例示的な実施形態では、画像と語句との間の比較は、サブ空間にWによって埋め込まれたときに表現x(I)及びe(t)の射影間のドット積として算出される。しかしながら、他の類似度測定値も考慮される。信頼度スコアとして使用されるとき、ドット積の結果は、商業的なOCRシステムの例の場合には、OCRシステム自体の信頼度スコアよりも信頼性が高いことが、以下の例において実証される。
本願明細書に開示された1つの実施形態においては、画像の表現18は、パッチから画像が抽出された低レベルの特徴に由来する画像の統計的表現である。一例として、画像の表現を生成するためにフィッシャベクトルが使用されることができる。例えば、Perronninら、「大規模画像分類のためのフィッシャカーネルの改善(Improving the Fisher kernel for large−scale image classification)」、ECCV、2010年を参照のこと。多次元表現x(I)は、少なくとも100個又は少なくとも1000個又は少なくとも5000個又はそれ以上の特徴を含むことができる。
本願明細書に開示された1つの実施形態においては、テキスト列14の表現22は、例えば、米国特許出願第13/757,014号(‘014出願)に記載されたように、空間ピラミッドバッグオブキャラクタ(SPBOC)である。多次元表現e(t)は、少なくとも50個又は少なくとも100個又は少なくとも500個又は少なくとも1000個又はそれ以上の特徴を含むことができる。
1つの実施形態において、射影行列Wは、例えば、‘014出願及び米国特許出願第13/592,961号(‘961出願)に記載されたような注釈付きデータを使用して学習される。
信頼度スコアc(t,I)は、以下の様々な用途に使用されることができる。
1つの実施形態において、例示的なシステム及び方法は、信頼度スコアc(t,I)が与えられたスコアなどの所定の閾値スコアTを満たしたか又は超えたときに認識されたテキスト列として暫定的なOCR出力tを出力する。
1つの実施形態において、信頼度スコアc(t,I)は、OCRシステム12自体によって出力されるo(t)で表されるtの信頼度スコア28にとってかわる。
1つの実施形態において、信頼度スコアc(t,I)は、信頼度スコア28とともに使用されることができる。例えば、c(t,I)及びo(t)が双方とも同一又は異なることができる各閾値を満たすか又は超えた場合には、暫定的なテキスト列tは、正しいと仮定される。他の実施形態において、例示的な検証システムは、o(t)が所定の閾値スコアTを満たさないときにのみ呼び出される。
1つの実施形態において、OCRシステム12は、各出力列についてのOCR信頼度スコア28{o(t),o(t),・・・o(t)}がランキングの基礎として使用される場合には、他のテキスト列{t,t,・・・,t}のランク付けされたセットを出力することができる。この場合、各信頼度スコアc(I,t),c(I,t),・・・c(I,t)は、最も高いランキングテキスト列t,t,・・・,tを再ランク付けするのに使用されることができる。
図2も参照すると、図1に図示された要素12、16、20、24を組み込むコンピュータ実装信頼度算出(及びテキスト認識)システム100の機能ブロック図が示されている。コンピュータ実装システム100は、算出されることになる類似度(したがって信頼度)の有意な測定値を許容する空間内の各文字列及び画像の表現を生成することにより、テキスト認識システム12によって出力されたナンバープレート番号などの文字列14と、文字列14が生成されるナンバープレートの画像などのテキスト画像10との間の類似度の測定値に基づいて信頼度を算出し、それらに基づいて情報102を出力するために構成されている。
図示されたコンピュータシステム100は、図3〜図6のうちの1つ以上において概説される本方法(複数可)を実行するためのメインメモリ108に記憶された命令106を実行するプロセッサ104を含む。プロセッサ104はまた、メモリ108に記憶された処理命令の実行によってコンピュータシステム100の全体動作を制御することができる。データは、メモリ108と一体又は別個であって示されるように同じ算出装置112又はリモート算出装置にあることができるデータメモリ110に記憶されることができる。1つ以上の入力/出力(I/O)装置114、116は、システムが外部装置と通信するのを可能とする。システムのハードウェア要素104、108、110、114、116は、データ/制御バス118を介して通信する。
命令106は、画像プロセッサ120と、OCRシステム12と、テキスト画像表現要素16と、テキスト列表現要素20と、比較要素24と、情報出力要素122と、トレーニング要素124とを含む。これらの要素は、図3を参照しながら記載される方法に関して最も良く理解される。いくつかの実施形態において、これらの要素のうちの1つ以上は、遠隔地からシステムによって呼び出されることができる。例えば、OCRシステム12は、コンピュータ112から遠くに配置され、システムから、又は、外部ソースから直接、入力される画像10を受信し、候補列14(又は2つ以上の候補列及び関連付けられた信頼度スコア)をシステムに戻すことができる。
情報出力要素122は、システムによって生成された情報102を出力する。様々な形態の情報102は、算出された信頼度(類似度)測定値に基づいて出力されることができ、システム100の最終用途に依存することができる。1つの実施形態において、情報は、類似度測定値が閾値126を満たしたときにシステム100によって出力されることができるテキスト画像10に対応すると予測される文字列14を含むことができる。他の実施形態において、可能な文字列のセットから最も類似する文字列14が出力されてもよい。さらに他の実施形態において、出力された情報102は、OCR出力における信頼度が出力される文字列14には不十分である旨の通知を含むことができる。これは、画像10が人間の注釈者によって検討される要求によって達成されることができる。
例示的なシステム100は、図示された実施形態がカメラなどの撮像装置130によって取得された車両の画像である1つ以上の画像128の入力として受信するように構成されることができる。画像前処理要素120は、ナンバープレートについての画像の最も可能性の高い領域を決め、テキスト画像10を形成するように画像128から無関係な内容をトリミングするナンバープレート認識要素として機能する。いくつかの実施形態において、この機能は、OCRシステム12によって行われる。さらに他の実施形態において、システム100は、入力として、画像128におけるテキスト内容を局在化することによって形成された前処理されたテキスト画像10を受信することができる。大きな画像においてナンバープレートなどの関心のある対象を局在化する方法は、例えば、米国特許出願第13/351,038号に記載されている。
システム100は、入力装置114を介して、ローカルエリアネットワーク又はインターネットなどのワイドエリアネットワークなどの有線又は無線接続134を介して、撮像装置130又は1つ以上の中間コンピュータ実装画像処理システム(図示しない)と通信可能に接続されることができる。
任意には、それらの各認識されたテキスト列14によって注釈付けられた以前にみたテキスト画像10のセット136は、検証目的のために使用するようにシステム100によって記憶されることができる。
システム100をトレーニングするために、少なくとも2個又は少なくとも5個又は少なくとも10個又は少なくとも100個のトレーニング画像などのテキスト画像10に類似する複数のテキスト画像を含むトレーニング画像集合140が、収集されてシステムのメモリ110又はシステムにアクセス可能なリモートメモリに記憶されることができる。これらのトレーニング画像は、システム100をトレーニングするために、具体的には行列Wなどの比較関数の固定パラメータを学習するためにトレーニング要素124によって使用されるように、画像内の根拠が真の実際のテキストに対応するラベルによって注釈付けられることができる。他の実施形態において、Wは、別個に学習されてシステムに入力されることができる。
入力/出力装置116は、1つ以上のクライアント装置144と有線又は無線リンク142を介して通信することができる。クライアント装置144は、例えば、算出された信頼度が低いときに、システム100によって要求されたときに候補テキスト列14を編集するように、人間の注釈者のためのグラフィカルユーザインターフェース148を表示するLCD画面、コンピュータモニタなどの表示装置146を含む。クライアント装置144は、テキストを入力してプロセッサ104に対してユーザ入力情報及びコマンド選択を通信するために、キーボード又はタッチ若しくはライタブルスクリーンなどのユーザ入力装置150、及び/又は、マウス、トラックボールなどのカーソル制御装置を含むことができる。他の実施形態において、表示装置146及びユーザ入力装置150は、リンク136に類似する有線又は無線接続により、コンピュータ112に直接連結されることができる。
コンピュータ112は、デスクトップ、ラップトップ、パームトップコンピュータ、携帯情報端末(PDA)、サーバコンピュータ、携帯電話機、タブレットコンピュータ、ページャ、それらの組み合わせなどのPC、又は、例示的な方法を実行するための命令を実行可能な他の算出装置とすることができる。
メモリ108、110は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスク若しくはテープ、光ディスク、フラッシュメモリ又はホログラフィックメモリなどの任意の種類の持続性コンピュータ読み取り可能な媒体を表すことができる。ネットワークインターフェース114、116は、コンピュータがローカルエリアネットワーク(LAN)若しくはワイドエリアネットワーク(WAN)などのコンピュータネットワーク又はインターネットを介して他の装置と通信するのを可能とし、変調器/復調器(MODEM)、ルータ、ケーブル、及び/又は、イーサネット(登録商標)ポートを含むことができる。
ディジタルプロセッサ104は、シングルコアプロセッサ、デュアルコアプロセッサ(又はより一般的にはマルチブルコアプロセッサ)などによって様々に具現化されることができる。
画像10及び/又は128は、JPEG、GIF、JBIG、BMP、TIFFなどの任意の便利なファイル形式でシステム100によって受信され、処理中にデータメモリ110に記憶されることができる。一般に、各入力ディジタル画像は、画像を形成する画素のアレイについての画像データを含む。画像は、写真などの個々の画像、ビデオ画像又は複合画像とすることができる。一般に、各画像10、128は、テキスト列の文字が画像の画素の集合として視認できるテキスト領域を含むことが予想されるディジタル写真とすることができる。
図3は、図1及び図2のシステムによって行われることができる信頼度推定及びテキスト認識方法を図示している。本方法は、S300で開始する。
S302において、テキスト列を含むと予想される入力画像10、128が受信される。
S304において、入力画像128は、例えば画像プリプロセッサ120によって又はOCRシステム12によってテキスト画像10を識別するように前処理されることができる。
S306において、OCRシステム12によって少なくとも1つの候補列14を識別するようにテキスト画像10についてテキスト認識が行われる。テキスト列14は、受信されてメモリ110に記憶される。
S308において、テキスト表現要素20によって各候補テキスト文字列14からテキスト列表現22が生成され、メモリ110に記憶される。S308は、テキスト列からの特徴抽出(S310)と、抽出された特徴に基づく例えばユークリッド空間におけるベクトル表現18の生成(S312)とを含むことができる。
S314において、画像10に基づいて画像表現要素16によって画像表現18が生成されてメモリ110に記憶される。このステップは、画像10からの特徴抽出(S316)と、抽出された特徴に基づく画像のベクトル画像表現18の生成(S318)とを含むことができる。
S320において、例えば双一次形式を使用して、適切なサブ空間内のテキスト画像表現とテキスト列表現との間の類似度の関数として信頼度が算出される。特に、2つの多次元表現18、22は、メモリ110に記憶された類似度スコアなどの比較測定値を生成するように比較要素24によって比較される。比較は、例えば、(i)行列Wによってx(I)を射影することにより、(ii)Wによってe(t)を射影することにより、又は、(iii)W=UVの場合に、Uによってx(I)を、Vによってe(t)を射影することにより、サブ空間内に2つの表現のうちの1つ又は双方を埋め込むことによって共通のサブ空間内で行われることができる。1つの実施形態において、行列Wの要素などの埋め込み関数のパラメータは、図4及び/又は図5を参照しながら記載されたように、ラベル及び画像についての類似度のより正確な測定値を得る可能性が高くなる比較測定値を提供するようにラベル付けされた検査画像の実際のラベルを使用して学習されていてもよい。埋め込み及び埋め込まれた表現の比較は、上記式1において記載されたように、2つの表現18、22を入力とする単一の埋め込み/比較機能を有する単一ステップで行われることができる。他の実施形態において、埋め込み及び埋め込まれた表現の比較は、別個のステップとして行われることができる。
S322において、それに基づく類似度スコア又は信頼度測定値は、暫定的なテキスト列14が画像10についての閾値信頼度を満たすか又は超えたかどうかを判定するために比較要素24によって閾値信頼度測定値(類似度スコア)と比較されることができる。S324における場合、閾値は、少なくとも(c(I,t)≧T)が満たされた後、S326において、候補列14は、ナンバープレートの画像10に対応するナンバープレートの番号などの認識された文字列として出力されることができる。信頼度閾値が(c(I,t)<T)を満たさない場合には、S328において、さらなる検討が開始されることができる。例えば、画像10は、人間の注釈者に送られることができ、又は、他のOCRシステムなどの第2の自動化処理に供されることができる。1つの実施形態において、第2のOCRシステムは、S306についてのような候補テキスト列を生成することができ、前述したようにステップS308及びS320からS324が繰り返される。本方法は、S330において終了する。
システム及び方法のさらなる詳細がここで記載される。
画像前処理(S304)
大きな画像内でのナンバープレートなどの関心のある対象を局在化する方法は、例えば、米国特許出願第13/351,038号及び第13/592,961号(‘961出願)に記載されている。これらの方法は、切り出されることになるクエリ画像に類似する画像又は複数の画像を識別し、クエリ画像に注釈(ナンバープレート番号を囲む矩形ブロックの位置など)を適用するために記憶された注釈付き画像のセットを使用する。‘961出願は、関心のある対象により焦点をあてた画像の第2のセットを使用して初期局在化を改良する2段階アプローチを使用する。
使用されることができる他の切り出し技術は、テキストの特性などの切り出されることになる対象の事前に公知の特性を利用する経験則に基づいている。例えば、いくつかは、水平及び垂直エッジの頻繁な存在を利用し、又は、高い局所コントラスト若しくは一定のストローク幅に依拠する。
x(I)を埋め込む入力画像(S314)
1つの実施形態において、関数I→x(I)は、画像Iの入力をとり、D次元空間内の画像10の固定長のベクトル表現16を出力する。適切な画像表現は、(i)パッチ記述子の抽出、(ii)これらの記述子に基づくパッチあたりの統計の算出、及び、(iii)画像レベル表現18を生成するためのこれらの統計の集計に基づくことができる。以下の例において、Perronninら、「大規模画像分類のためのフィッシャカーネルの改善(Improving the fisher kernel for large−scale image classification)」、ECCV、2010年のフィッシャベクトル表現が使用されるが、Csurkaらのバッグオブビジュアルワーズ(the bag−of−visual−words)表現、キーポイントのバッグによる視覚的カテゴリ化(Visual Categorization with Bags of Keypoints)、ECCVワークショップ、2004年などの他の画像表現が使用されてもよい。
一般に、D次元空間内の画像の埋め込みは、色及び/又は勾配特徴の集合などの画像及び同様にトレーニング画像140のパッチから記述子を抽出することを含む。各パッチは、画素のセットから構成されている。パッチは、いくつかのパッチが重複しているように複数のスケールにおけるものとすることができる。統計は、記述子に基づいて各パッチについて算出される。パッチ統計は、例えば、以下のフィッシャベクトル(FV)原理を使用して算出されることができる。パッチの生成モデルが存在し(ガウス混合モデル(GMM)など)、パッチ記述子の対数尤度の勾配がモデルのパラメータに対して測定されると仮定される。ガウス混合モデルは、重みがパラメータトレーニングに割り当てられているガウス関数(ガウシアン)のセットを含む。各ガウシアンは、その平均ベクトル及び共分散行列によって表される。共分散行列が対角であると仮定することができる。フィッシャベクトルを算出する方法はまた、米国特許出願公開第20120076401号明細書、第20120045134号明細書、及び、Jorge Sanchez及びFlorent Perronnin、「大規模画像分類のための高次元の署名圧縮(High−dimensional signature compression for large−scale image classification)」、CVPR、2011年に記載されている。フィッシャカーネル表現は、フィッシャベクトルの集合によって生成されることができる。
テキスト画像に関する空間情報を含むために、画像は、領域に分割されることができ、パッチあたりの統計は、領域レベルで集計されることができ、そして、領域レベルの表現は、画像表現を形成するために連結されることができる。
例示的な画像表現18は、固定次元からなる、すなわち、各画像表現は、同数の要素を有する。一般に、各画像表現は、少なくとも30個又は少なくとも60個又は少なくとも100個又は少なくとも500個の次元及び最大で1000以上の次元を有し、各次元は、より少ない次元に低減されることができる各特徴値を有する。
1つの実施形態において、表現要素16は、形状、質感又は色特徴などの画像10のパッチの低レベルの視覚的特徴を抽出して解析するパッチ抽出部を含む。パッチは、画像切り出しにより、特定の関心点検出部を適用することにより、規則的なグリッドを考慮することにより、又は、単に画像パッチのランダムサンプリングを行うことにより得られることができる。例示的な実施形態において、パッチは、画像全体又は画像の少なくとも一部若しくは大部分にわたって、任意に複数スケールで規則的なグリッド上に抽出される。例えば、少なくとも10個又は少なくとも20個又は少なくとも50個のパッチが各画像から抽出される。各パッチは、少なくとも40画素又は少なくとも100画素及び最大で100万画素以上を含むことができる。
各パッチから(例えば、ベクトル又はヒストグラムなどの局所記述子の形態で)抽出された低レベル特徴は、グローバルな画像表現として機能する特徴ベクトルを形成するように次元に連結されて任意に低減されることができる。他のアプローチにおいて、画像のパッチの局所記述子は、クラスタに割り当てられる。例えば、視覚的語彙は、例えばK−meansクラスタリング解析を使用してトレーニング画像から抽出された局所記述子をクラスタリングすることによって前もって得られる。そして、各パッチベクトルは、最も近いクラスタに割り当てられ、割り当てのヒストグラムが生成されることができる。他のアプローチにおいて、上述したフィッシャベクトルの場合のように確率的フレームワークが使用される。例えば、全ての局所記述子が放出されるガウス混合モデル(GMM)などの基礎となる生成モデルが存在すると仮定される。それゆえに、各パッチは、重みベクトル、混合モデルを形成するガウス関数のそれぞれについての1つの重みによって特徴付けられることができる。この場合、視覚的語彙は、期待値最大化(EM)アルゴリズムを使用して推定されることができる。いずれの場合においても、語彙における各視覚的語句は、典型的な低レベル特徴のグループ化に対応する。視覚的語句は、それぞれ、(ディジタルよりもむしろ)視覚的な対象(例えば、直線、曲線などの文字の特徴)の種類、特徴的な背景(例えば、明るい又は暗い面など)などの中間レベルの画像特徴に(おおよそ)対応することができる。表現が割り当てられる画像10を考慮すると、抽出された各局所記述子は、以前にトレーニングされた語彙に最も近い視覚的語句又は確率論的モデルの場合には確率的な方法における全ての視覚的語句に割り当てられる。ヒストグラムは、各視覚的語句の出現を累積することによって算出される。ヒストグラムは、それに基づく画像表現を出力する生成モデルに対する画像表現又は入力として機能することができる。
例示的な実施形態において、低レベルの特徴は、パッチあたり1つのSIFT記述子などの勾配特徴を含む。例えば、Lowe、「スケール不変キーポイントからの典型的な画像特徴(Distinctive image features from scale−invariant keypoints)」、IJCV、第60巻(2004年)を参照のこと。SIFT特徴を使用した説明的な1つの例において、特徴は、5つのスケールで規則的なグリッド(16画素毎)に32×32画素のパッチから抽出される。これらの記述子の次元は、128から32次元まで低減されることができる。抽出されることができる他の適切な局所記述子は、パッチが4×4のサブ領域に分割されて各サブ領域における平均及び標準偏差が3つのチャネル(R、G及びB)について算出される単純な96次元の色特徴を含む。これらは、単に説明的な例であり、追加の及び/又は他の特徴が使用可能である。表現は、画像の2つ以上の領域について算出されて集約、例えば連結されることができる。以下の例において、64ガウシアンの視覚的語彙がGMMにおいて使用され、平均パラメータに関する勾配のみが考えられる。テキスト画像10は、4つの領域(4つの縦縞)に分割される。これは、32×64×4=8192次元のFV表現をもたらす。
表現は、処理を高速化するために従来の技術(局所性鋭敏型ハッシュ(LSH)、積量子化、主成分分析(PCA)など)を使用してインデキシング又は圧縮されることができる。
テキスト埋め込み(S308)
関数t→e(t)は、テキスト列14を入力とし、文字列の固定長ベクトル表現を出力する。e(t)の次元数は、E次元空間内の文字列長(文字数)とは無関係である。2つの方法が説明のために提供される。
A. 合成画像
この実施形態において、テキスト埋め込みt→e(t)は、コンピュータ生成フォントを使用してテキスト列から語句画像を合成し、この合成画像から特徴を抽出し、抽出された特徴に基づいてE次元表現22を生成することによって行われる。語句画像は、2値画像(全画素が黒又は白)又はグレースケール画像とすることができるモノクロ画像などの画素のアレイの形態とすることができ、この場合、画素はまた、1つ以上の色チャネルに中間値を有することができる。付加情報は、用途に応じて、語句画像合成部への入力として使用されることができる。例として以下である。
1. 汎用OCRシステム12との関連で、OCRは、候補テキスト列14のみならず、一般にコンピュータで生成されたフォントの所定のセットから認識されたフォントを出力する。このフォント情報は、入力画像Iとより一致する語句画像を合成するのに使用されることができる。
2. ナンバープレート認識(LPR)システムとの関連で、LPR OCRソフトウェアは、候補ナンバープレート番号14を出力するのみならず、発行の認識状態、場合によっては、プレート種類(例えば、プレートは「障害者」サインを含むという事実)を出力することができる。例えば、OCR認識された情報に基づくナンバープレート画像の合成の詳細については、米国特許出願第13/300,124号及び第13/458,464号を参照のこと。
1つの実施形態において、この方法によって生成された合成語句画像(プレート)は、テキスト埋め込みe(t)として直接使用されることができる。すなわち、各画素はベクトル表現における特徴である。しかしながら、例示的な実施形態においては、固定次元、特徴ベースの表現が生成される。例えば、パッチレベル特徴及びフィッシャベクトルが画像表現生成のためと同様に合成画像について算出される。この場合、期待値は、テキスト(及びフォント、状態など)が正しく認識された場合に、合成画像がクエリ画像に非常に類似していなければならないということである。この場合、行列Wは、(それらがさらに異なる分布を有することができることから)「合成画像」領域に対して「実画像」領域をマッピングするために測定基準を課している。
この実施形態の利点は、それが考慮されることになるフォント又はナンバープレート種類などのサイド情報を可能にするということである。
B. 文字表現のバッグ
この実施形態において、テキスト埋め込み関数t→e(t)は、E次元表現22を生成するために文字の出現頻度とともに文字列14におけるそれらの位置に関する統計を算出することによって行われる。1つの適切なテキスト表現は、記載されたように、例えば‘014出願において提案された空間ピラミッドバッグオブキャラクタ(SPBOC)である。
この実施形態の1つの利点は、SPBOCが、それが任意の複雑な画像合成ソフトウェアを必要としないことから、算出が非常に高速であって実装がはるかに単純であるということである。以下の例においては、SPBOC方法がテキスト表現を生成するのに使用される。
SPBOC方法において、テキスト列は、サイズLの文字の有限集合
Figure 2014232533
における文字から構成される。例えば、ナンバープレート認識方法について、可能な文字の集合
Figure 2014232533
は、アルファベットにおける可能な文字A〜Z及び数字0〜9のセット、すなわち、合計36個の異なる文字とすることができる。理解されるように、他の文字が用途又は目標言語に応じて考慮されてもよい。特殊文字はまた、2文字間の少なくとも所定の隙間になる空間などと考えられることができる。
語句は、単に各文字の出現回数をカウントすることによってL次元空間に埋め込まれることができた。そのような表現は、バッグオブキャラクタ(BOC)に対応するであろう。しかしながら、この表現は、文字の順序を考慮しない。したがって、それらがアルファベットにおける文字の同じサブセットを含む場合には、2つの文字列は、同じ表現を有することができる。
SPBOCにおいて、文字列は、連続的に領域に分割され、各領域の提示は、それが含む文字及び文字の部分に基づいて生成される。そして、領域ベースの表現は、集約されることができる。このようにして、同数の領域が作成されることから、文字数と独立して、例えば領域表現を連結することによって生成された最終的な表現は固定長からなる。例として、候補文字列ABCDEを考えると、完全な文字列は、第1のレベルについて1つの領域と考えられ、この領域の表現は、何も繰り返されないことから、文字列における文字のそれぞれについて値1を有する。第2のレベルにおいてこの領域を3つの領域に分割することは(各文字が同じ幅を与えられていると仮定して)、[A,2/3B]、[1/3B,C,1/3D]及び[2/3D,E]にそれぞれ対応した特徴を有する3つの領域を生成する。領域のそれぞれは、さらに、(9領域を与える)第3のレベルに分割されることができ、分割は、例えば(第1から離れた)各レベルが以前の(より高い)レベルにおける領域(複数可)を分割することによって形成される4個又は5個の空間レベルを生成するために繰り返される。分割は、テキストの方向に対して垂直に行われる。理解されるように、分割は、第2の及び連続したレベルにおける3つよりもむしろ2つの領域にされてもよく、又は、異なるレベルは、異なる程度の分割を使用してもよい。
そして、各領域における文字数は、BOCを生成するためにカウントされる。BOCは、文字セット内の各文字についての要素を有するベクトルとすることができ、各要素は、各領域における文字の出現回数に基づいている値を有する。そして、そのようなヒストグラム表現は、例えばlノルム又はlノルム(又は任意のノルムl正規化技術)を使用して続いて正規化されることができる。例えば、カウントは、ベクトル和の要素が1であるか又はそれらの二乗和の平方根=1であるように正規化される。
そして、各領域及び各レベルに対応したBOC表現が連結される。この表現は、本願明細書では空間ピラミッドBOC(SPBOC)と称される。
レベルの数は、少なくとも2個又は少なくとも3個又は少なくとも4個とすることができる。1つの実施形態において、5つのレベルが使用されることができ、これは、32×(1+2+4+8+16)=1116次元までのSPBOC表現を生成することができる。ここで、32文字が考慮され、各領域は、次のレベルにおいて2つに分割される。ヒストグラム表現は、正規化されたlである。この表現の利点は、それが通常はわずかであり、したがって、効率的な方法で記憶されることができるということである。
理解されるように、ユークリッド空間内にASCIIワードを埋め込むために他の技術が使用されてもよい。
信頼度スコアの算出(S320)
一般に、画像10及びテキスト列14は、異なる空間に埋め込まれ、したがって、ユークリッド距離などの単純なメトリックを使用して容易に比較することができない。
例示的な実施形態において、D×E行列Wは、画像表現の共通空間内にテキスト表現e(t)を射影するのに使用される(又は逆にはE×D行列によって)。ここで、Dは、各テキスト列表現の要素数を表し、Eは、各画像表現における要素数を表している。そして、W・e(t)を埋め込んだ射影テキストは、ドット積を使用して、すなわち以下を算出することによってx(I)を埋め込んだ画像と比較されることができる。
Figure 2014232533
これは、テキスト埋め込みの空間内の画像埋め込みx(I)を射影した後にx(I)・Wとe(t)とのドット積を使用することと厳密に等価である。
他の実施形態において、x(I)及びe(t)は双方とも、共通の下位次元空間に射影される。これは、埋め込み空間D及びEの大きさが大きいとき、すなわち、行列Wが大きいときに特に有利である。そのような場合、Wは、低ランクの行列の積、すなわち、UがK×D行列であり、VがK×E行列であるときW=U’Vとして表現されることができる。ここで、K<min(D,E)である。このアプローチの利点は、推定するためのパラメータの数が、通常D×Eよりもはるかに小さいK(D+E)であるということである。また、画像埋め込み及びテキスト埋め込みが低次元のサブ空間に射影されると、類似度算出は、非常に高速である。
なお、ドット積が類似度測定値として本願明細書において使用されるとともに、表現間の類似度を算出するのに適した任意の類似度測定値が使用可能である。例えば、マンハッタン距離、KL発散、ヘリンジャー(HE)発散、レーニイ発散、ユークリッド距離、マハラノビス距離、L1距離、又はカイ2乗類似度測定値が使用可能である。例えば、ユークリッド距離又は他の類似度測定値は、x(I)とWe(t)との間又はx(I)Wとe(t)との間で算出されることができた。例えば、これらの類似度測定値のいくつかについてのさらなる詳細については、米国特許出願公開第20100191743号明細書を参照のこと。
式1によって算出される類似度測定値は、スカラー値である。それは、信頼度測定値として直接使用されることができ、又は、信頼度測定値を算出するために百分率、ランク若しくは処理された他のものに変換されることができる。
行列Wの推定
図3の方法は、比較関数のパラメータが2つの表現を比較するために学習されていると仮定する。行列Wを算出するための2つの方法は、ここで一例として記載される。
A. 標準の構造化学習
この方法において、行列Wは、形態(e(t),x+,x−)の「トリプレット」を構築することによって学習される。ここで、e(t)は、根拠が真のラベルtの表現であり、x+は、ラベルtに対応するトレーニングセットからのテキスト画像の表現であり、x−は、ラベルtに対応していないトレーニングセットからのテキスト画像の表現である。そのようなトリプレットのセットから、行列Wは、ラベルtに対応していない画像についてよりも真の画像について、各トリプレットにおいて、算出された信頼度がより高い全てのトレーニングサンプルにわたって、尤度を最適化するように機能する構造化出力学習アルゴリズムを使用して算出されることができる。
この方法は、‘014出願に記載されているように実現されることができる。
図4は、比較関数を学習するための方法の例を図示している。本方法は、前述した他の要素を求める又は別個の計算装置上で実行されることができるシステム100のトレーニング要素124によって実装されることができる。
本方法は、S400において開始する。
S402において、それぞれが画像10と類似するトレーニング画像のセット140が受信される(セット140における画像は、S304に関して前処理されることができる)。データセットにおける各トレーニング画像Iは、人間の検査者がナンバープレート番号を形成する文字及び数字のシーケンスなどの画像内で認識した文字列である手動で割り当てられた(真の根拠)ラベルtを有する。文字列(ラベル)は、文字の有限集合から選択された一連の文字から構成されている。
S404において、テキスト認識は、OCRシステム12により、各候補文字列14及び任意にはフォント情報などの関連情報を識別するために、セット140における各トレーニング画像に対して任意に行われる。OCR出力は、それが一致するのを確実にするように根拠が真のラベルと比較される。他の実施形態において、根拠が真のラベルは、テキスト表現要素がテキスト列のみを使用し、及び追加情報を使用しない場合には、OCRを行うことなく、tとすることができる。
S406において、各テキスト列14の表現eは、S308に関して生成される。
S408において、画像表現xは、S314について記載されたように、例えばフィッシャベクトルを使用して、検査画像10の場合と同様に、画像表現要素16によって各トレーニング画像Iについて生成される。
S410において、行列Wの重みwなどの埋め込みパラメータは、画像表現が他のラベル表現に対してよりも対応する正しいOCR文字列に対して最も類似する可能性が高い空間内の画像及びテキスト列表現の一方又は双方を埋め込むために学習されるか又はその逆である。これは、信頼度スコアに基づいて、非一致対よりも、一致する画像/文字列対がより高いランクであるのを保証する。トレーニングセットから全ての可能なサンプルにわたる重みの最適化は、算出的にコスト高とすることができる。したがって、重みは、徐々にトレーニングセットからサンプリングし、各反復において行列における重みを更新することによって最適化されることができる。重み行列Wは、例えば、確率的勾配降下又は他の構造化出力予測学習方法を使用して、学習されることができる。特に、重みwの行列Wは初期化され、行列における値は、次第に改善される。重みwの初期化のために、行列のパラメータは、例えば、画像特徴ベクトルの次元によって除算された正規分布からランダムにサンプリングされることができる。
学習は、ラベルtに対応していないテキスト画像の表現x−間の類似度が、ラベルtに対応していない画像の表現x+よりもe(t)と類似しているトリプレットが描画されるときに、重みを更新することによって行われることができる。学習速度は、例えば‘014出願に記載されたように、パラメータが更新される程度を変更するように選択されることができる。
S412において、学習されたパラメータは、メモリ110などのメモリに記憶されている。本方法は、S414において終了する及び/又は図3のS320に進むことができる。
B. 適応的方法
OCR検証の問題に合わせて調整されるWを学習するための他のアプローチが図5に図示されように行われることができる。
本方法は、S500において開始する。
S502において、画像10にそれぞれ類似するトレーニング画像のセット140が受信される(セット140における画像は、S304に関して前処理されることができる)。
S504において、トレーニング画像のデータセット140の各画像Iについて、テキスト認識は、各暫定的ラベルtを得るようにOCRシステム12を実行することによって行われる。
S506において、埋め込みは、S406に関して、e=e(t)で表される暫定的ラベルtから算出される。
S508において、埋め込みは、S408に関して、xで表されるIから算出される。
S510において、OCR出力が正確(g=1)であったか又は不正確(g=0)であったかに応じて、各対(x,e)の真の根拠のラベルgが判定される。
S512において、‘014出願及びS410と同様に、Wは学習されるが、任意の正の対の信頼度(g=1)が任意の負の対(g=0)よりも高くなければならず、そうでなければ重みが更新されることを課している。
それゆえに、このアルゴリズムは、図4と同様であるが、ランダムに作成された対よりもテキスト画像についての真のラベルと非常に近いことが予想される負のサンプルとして誤ったOCR出力を使用する。図5の方法はまた、OCRシステムが大抵は行列Wに織り込まれている一貫性のある誤りを形成することから、テキスト画像を出力するのに使用されるOCRシステムに比較的特有である。
対に基づく図5の学習アルゴリズムは、OCR検証シナリオに良好に適している。しかしながら、図4の方法に関するランダムなトリプレットによるトレーニングもまた考えられる。
情報の出力(S328、S326)
理解されるように、システムは、信頼度スコアに加えて又はその代わりに、認識されたテキスト列などの他の情報を出力することができる。例えば、システムは、用途に応じて、通行料又は駐車料金のためにナンバープレート番号を有する車両の所有者の口座の引き落としのための情報を出力することができる。システムはまた、ナンバープレート番号などのテキスト列のデータベースにおいて、ナンバープレート画像などの所定のテキスト画像についての一致を検索する認識システムとして使用されることができる。この場合、情報出力は、認識されたテキスト列と一致するナンバープレートにより、データベースからのナンバープレート番号、又は、車両の所有者に関する情報、例えばナンバープレート画像を撮像したカメラの位置などの所定時間における車両の位置若しくは駐車場などの所定位置に車両がある旨などのそれに基づく情報のうちの1つ(又はそれ以上)との最も近い一致とすることができる。例えば、ナンバープレート画像などのテキスト画像のデータベースにおいて所定の画像との一致をみつけるための検索に本方法が使用される場合には、情報出力は、各認識されたテキスト列に基づいて、データベースからのナンバープレート画像のうちの1つ(又はそれ以上)との最も近い一致とすることができる。
再ランク付けリスト
1つの実施形態において、OCRシステム12は、単一の候補文字列及びその信頼度よりもむしろ、各信頼度o(t)とともにK個の文字列tのランク付けされたリストを出力する。ここで、Kは、2〜10などの少なくとも2である。
そして、例示的な方法は、以下のようにk番目の候補についての(ラベル埋め込みを介して)新たな信頼度を算出するのに使用されることができる。
Figure 2014232533
そして、K個の文字列tのリストは、c(I,t)の値に基づいて再ランク付けされる。正確な候補がK個の要素内にある場合に、それが上位に昇格する機会を有するように、目的が候補文字列を再ランクすることであるため、このアプローチは、「OCR補正」と考えることができる。したがって、この方法は、OCRシステムの信頼度とともに、例示的な要素24による出力を考慮する。本方法は、(信頼度スコアに基づいて)リストK内の最上位にランク付けされたテキスト列を出力することができる。
他の実施形態
1つの実施形態において、例示的な方法は、OCRシステム12によって算出された信頼度28が所定の閾値未満であるときにのみ行われる。例えば、図6に図示されるように、図3の方法は、OCR信頼度を出力して(S332)信頼度が所定の閾値未満であるかどうかを判定する(S334)中間ステップによって変更されることができる。そうである場合、本方法は、図3のS308及びS314に進む(本方法の残りの部分は、明確化のために図6から省略されている)。そうでない場合には、OCRシステムによって識別される文字列14は、S336において出力され、本方法は、S322の例示的な信頼度推定方法を介して進むことなく終了する。
他の実施形態において、画像Iの主題である対象は、以前に既にみられることができる。例えば、自動通行料金支払いシステムを使用した車両は、認識されたナンバープレート番号(図1における集合136)とともにメモリに記憶されることができるいくつかの料金所において撮像されたそのナンバープレートの画像を有することができる。これらは、現在の画像についてのOCR文字列における信頼度c(t,I)が閾値未満である場合に支援するのに使用されることができる。
一例として、図3に示された方法のステップS328は、以下のように始めることができる。S324における信頼度が閾値未満である場合、システム100の署名照合要素(図示しない)は、プレート画像10が以前に注釈付けされた画像136のセットと比較される最近傍探索を実行する。これは、最近傍(例えば、類似度の測定値としてユークリッド距離又はドット積を使用して最も類似した画像)を探索するように、現在の画像10の画像表現18と、セット136における以前に取得された画像の対応する画像表現との間の類似度を算出することによって行われることができる。2つの画像表現の間の類似度が所定の画像類似度閾値を満たす場合、2つの画像は、集合136内の既存の画像と関連付けられた同一のナンバープレート及びナンバープレート番号が現在の画像に割り当てられて構成されると仮定される。一方、署名照合アルゴリズムが十分な信頼度との一致がみつからない場合には、現在のプレート画像は、手動検査又は他の処理のために人間の操作者に送られることができる。
理解されるように、この方法はまた、図6に示される適応と組み合わせられることができる。
いくつかの実施形態において、毎回、新たなナンバープレート番号は、以前に料金徴収システムによって観察されていないOCRシステム12によって識別され、対応する取得された画像10は、手動検証のために自動的に送られ、取得された画像は、将来の参照のためにデータベース136に記憶される。
図3、図4、図5及び図6のうちの任意の1つ以上に図示された本方法は、ディスク、ハードドライブなどのコンピュータ上で実行されることができるコンピュータプログラム製品に実装されることができる。
あるいは、本方法は、制御プログラムが伝送媒体を使用してデータ信号として具現化される伝送可能な搬送波などの一時的媒体に実装されることができる。
例示的な方法は、得られた実データを使用した電子料金徴収用途の関連で評価された。具体的には、1週間の料金徴収データに対応する21497個の画像10のデータセットが取得された。画像のこのバッチは、(通常はナンバープレート認識システムにおける場合のように)OCR出力を容易にするようには微調整されておらず、したがって、困難なセットを構成する撮像構成を使用して得られた。ナンバープレート自動認識技術を使用してより大きな画像から抽出された画像は、候補のナンバープレート番号とともに文字列についての信頼度スコアを出力するSOTAで表されるナンバープレート認識についての商業的なOCRシステムに供給される。
データは、ランダムに2等分に分割され、一方は、トレーニング及び検査のために使用された。実験のために、フィッシャベクトルは、画像埋め込みと、テキスト埋め込みのための空間ピラミッドバッグオブキャラクタ(SPBOC)とのために使用された。行列Wは、上述した標準構造化学習方法を使用して学習された。この方法のために、(画像、正確なテキスト及びランダムな誤ったテキスト)のトリプレットが考慮された。ここで、「ランダムな誤ったテキスト」は、トレーニングセットからランダムに選択されたラベルを表す。最適化は、確率的勾配降下を使用して行われた。これらの実験のために、次元D×Eの「完全な」行列Wが使用される。ここで、D=8192は、フィッシャベクトルの大きさであり、E=1116は、(36個の文字及び5つのレベルを使用した)SPBOCの大きさである。Wがトレーニングセット上に生成されると、上述したように、信頼度スコアc(t,I)が検査セット内の各画像について算出されることができる。
方法の性能を評価し、それをSOTA信頼度とコアのものと比較するために、例示的な方法及びSOTAによって出力された信頼度スコアの本人拒否(FR)対他人許容(FR)特性がプロットされる。各可能な閾値について、カウントは、信頼度<閾値(FR)を有する正確な認識結果の一部と、信頼度>閾値を有する誤って認識された結果の一部とから構成される。その結果は、図7に示されている。
提案された信頼度が他人許容及び本人拒否率の双方を減少させて改善を生み出すことを理解することができる。
目視検査により、商業用OCRが
Figure 2014232533
などの垂直に配置された小さな文字の対を認識しないことに留意されたい。番号34856における高いOCR信頼度をなおも出力する一方で、積層された文字C及びDは、大抵は無視される。しかしながら、この動作を補正するためにOCRの内部へのアクセスを有する必要はない。代わりに、例示的な方法は、番号34856への低い信頼度を割り当て、この認識結果は拒否される。

Claims (10)

  1. 信頼度を算出する方法において、
    候補文字列を生成するように入力テキスト画像についての文字認識を行うテキスト認識システムにより、
    候補文字列に基づいて第1の表現を生成することと、
    入力テキスト画像に基づいて第2の表現を生成することと、
    共通埋め込み空間内の前記第1及び第2の表現間の算出された類似度に基づいて前記候補文字列における信頼度を算出することとを備え、前記第1及び第2の表現のうちの少なくとも1つが前記共通埋め込み空間に射影され、
    文字認識を行うこと、前記第1の表現を生成すること、前記第2の表現を生成すること、及び、前記信頼度を算出することのうちの少なくとも1つが、コンピュータプロセッサによって行われる、方法。
  2. 前記算出された類似度が、前記射影された第1及び第2の表現のドット積として算出される、請求項1に記載の方法。
  3. 前記第1の表現を生成することが、ベクトル空間に文字列を埋め込むことを備え、前記埋め込むことが、前記文字列から特徴のセットを抽出することと、任意に前記抽出された文字列の特徴に基づいて文字列表現を生成することとを備え、
    前記埋め込むことが、空間ピラミッドバッグオブキャラクタを生成することを備え、前記生成することが、前記文字列を複数の領域に分割することと、前記領域のそれぞれの表現を抽出することとを備え、前記文字列表現が前記領域表現から得られる、請求項1に記載の方法。
  4. 前記第1の表現を生成することが、前記文字列の合成画像を合成することと、任意に前記合成画像に基づいて表現を算出することとを備え、
    前記合成画像の合成が、
    前記行われた文字認識において前記入力画像から識別されたフォントにおける前記文字列の文字を表現することと、
    前記画像から抽出された非テキスト情報を表現することとのうちの少なくとも1つを備える、請求項1に記載の方法。
  5. 前記第2の表現を生成することが、生成モデルを使用して前記画像のパッチから抽出された特徴の統計表現を生成することを備える、請求項1に記載の方法。
  6. さらに、前記第1及び第2の表現のうちの少なくとも1つを前記共通空間に射影するための射影を学習することを備え、前記射影が、構造化出力予測アルゴリズムによって学習される、請求項1に記載の方法。
  7. さらに、任意に前記算出された信頼度に基づいて情報を出力することを備え、
    前記情報を出力することが、前記算出された信頼度が所定の信頼度閾値を満たすときに候補文字列を出力することを備える、請求項1に記載の方法。
  8. 前記入力画像について前記文字認識を行うことが、前記テキスト認識システムにより、同じ入力テキスト画像についての複数の候補文字列を生成することを備え、本方法が、さらに、前記各算出された信頼度に基づいて前記複数の候補文字列をランク付けすることを備える、請求項1に記載の方法。
  9. さらに、x(I)が前記テキスト画像表現及び前記文字列表現のうちの一方を表し、e(t)が前記テキスト画像表現及び前記文字列表現のうちの他方を表し、Tが転置作用素を表し、Wが重み行列を表すとき、
    Figure 2014232533
    の形態の関数を使用して前記第1及び第2の表現間の前記類似度を算出することを備える、請求項1に記載の方法。
  10. 信頼度を算出するシステムにおいて、
    テキスト画像から抽出された特徴に基づいてテキスト画像表現を生成するテキスト画像表現要素と、
    前記テキスト画像についての候補文字列として関連付けられたテキスト認識システムから文字列を受信し、前記文字列から抽出された特徴に基づいて文字列表現を生成するテキスト列表現要素と、
    学習された埋め込み空間内の前記テキスト画像表現と前記文字列表現との間の類似度に基づいて前記文字列における信頼度を算出する比較要素と、
    前記算出された信頼度に基づいて情報を出力する情報出力要素と、
    前記テキスト画像表現要素、テキスト列表現要素、比較要素及び情報出力要素を実装するプロセッサとを備える、システム。
JP2014103364A 2013-05-28 2014-05-19 Ocr出力検証システム及び方法 Withdrawn JP2014232533A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/903,218 2013-05-28
US13/903,218 US9384423B2 (en) 2013-05-28 2013-05-28 System and method for OCR output verification

Publications (2)

Publication Number Publication Date
JP2014232533A true JP2014232533A (ja) 2014-12-11
JP2014232533A5 JP2014232533A5 (ja) 2017-06-29

Family

ID=50732041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014103364A Withdrawn JP2014232533A (ja) 2013-05-28 2014-05-19 Ocr出力検証システム及び方法

Country Status (3)

Country Link
US (1) US9384423B2 (ja)
EP (1) EP2808827B1 (ja)
JP (1) JP2014232533A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021792A (ja) * 2015-07-08 2017-01-26 ゼロックス コーポレイションXerox Corporation 辞書を使わない、マッチングベースの単語画像認識
JP2020119206A (ja) * 2019-01-23 2020-08-06 富士ゼロックス株式会社 情報処理装置、及びプログラム
KR20210001817A (ko) * 2019-06-27 2021-01-06 경북대학교 산학협력단 한자인식시스템 및 이를 이용한 한자인식방법

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2513431B (en) * 2013-04-25 2018-12-05 Testplant Europe Ltd Method for creating a label
US9934526B1 (en) * 2013-06-27 2018-04-03 A9.Com, Inc. Text recognition for search results
US20150006360A1 (en) 2013-06-28 2015-01-01 Google Inc. Threshold Confidence Levels for Extracted Card Data
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US9792301B2 (en) * 2014-09-26 2017-10-17 Conduent Business Services, Llc Multi-query privacy-preserving parking management system and method
KR20150081838A (ko) * 2014-01-07 2015-07-15 한국전자통신연구원 수배차량 검색 장치 및 그 방법
JP5664813B1 (ja) * 2014-06-10 2015-02-04 富士ゼロックス株式会社 デザイン管理装置及びプログラム
US10867327B1 (en) * 2014-06-27 2020-12-15 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US9563814B1 (en) 2014-06-27 2017-02-07 Blinker, Inc. Method and apparatus for recovering a vehicle identification number from an image
US9589202B1 (en) * 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for receiving an insurance quote from an image
US9818154B1 (en) 2014-06-27 2017-11-14 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US10572758B1 (en) 2014-06-27 2020-02-25 Blinker, Inc. Method and apparatus for receiving a financing offer from an image
US9892337B1 (en) * 2014-06-27 2018-02-13 Blinker, Inc. Method and apparatus for receiving a refinancing offer from an image
US9760776B1 (en) * 2014-06-27 2017-09-12 Blinker, Inc. Method and apparatus for obtaining a vehicle history report from an image
US9754171B1 (en) * 2014-06-27 2017-09-05 Blinker, Inc. Method and apparatus for receiving vehicle information from an image and posting the vehicle information to a website
US9773184B1 (en) * 2014-06-27 2017-09-26 Blinker, Inc. Method and apparatus for receiving a broadcast radio service offer from an image
US10540564B2 (en) 2014-06-27 2020-01-21 Blinker, Inc. Method and apparatus for identifying vehicle information from an image
US9558419B1 (en) 2014-06-27 2017-01-31 Blinker, Inc. Method and apparatus for receiving a location of a vehicle service center from an image
US9607236B1 (en) * 2014-06-27 2017-03-28 Blinker, Inc. Method and apparatus for providing loan verification from an image
US10733471B1 (en) 2014-06-27 2020-08-04 Blinker, Inc. Method and apparatus for receiving recall information from an image
US9594971B1 (en) 2014-06-27 2017-03-14 Blinker, Inc. Method and apparatus for receiving listings of similar vehicles from an image
US10515285B2 (en) 2014-06-27 2019-12-24 Blinker, Inc. Method and apparatus for blocking information from an image
US9600733B1 (en) * 2014-06-27 2017-03-21 Blinker, Inc. Method and apparatus for receiving car parts data from an image
US10579892B1 (en) 2014-06-27 2020-03-03 Blinker, Inc. Method and apparatus for recovering license plate information from an image
US9589201B1 (en) * 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for recovering a vehicle value from an image
US9779318B1 (en) * 2014-06-27 2017-10-03 Blinker, Inc. Method and apparatus for verifying vehicle ownership from an image
US9396404B2 (en) 2014-08-04 2016-07-19 Datalogic ADC, Inc. Robust industrial optical character recognition
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
US9721186B2 (en) * 2015-03-05 2017-08-01 Nant Holdings Ip, Llc Global signatures for large-scale image recognition
US10769200B1 (en) * 2015-07-01 2020-09-08 A9.Com, Inc. Result re-ranking for object recognition
CN106326821B (zh) * 2015-07-07 2019-08-30 北京易车互联信息技术有限公司 车牌定位的方法及装置
US9798948B2 (en) 2015-07-31 2017-10-24 Datalogic IP Tech, S.r.l. Optical character recognition localization tool
CN107924470A (zh) * 2015-08-21 2018-04-17 3M创新有限公司 增加设置在光学活性制品上的字符的相异性
US10078889B2 (en) * 2015-08-25 2018-09-18 Shanghai United Imaging Healthcare Co., Ltd. System and method for image calibration
US11238362B2 (en) * 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions
US10019640B2 (en) * 2016-06-24 2018-07-10 Accenture Global Solutions Limited Intelligent automatic license plate recognition for electronic tolling environments
US10474923B2 (en) * 2016-06-27 2019-11-12 Facebook, Inc. Systems and methods for incremental character recognition to recognize characters in images
US10255516B1 (en) 2016-08-29 2019-04-09 State Farm Mutual Automobile Insurance Company Systems and methods for using image analysis to automatically determine vehicle information
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US10083171B1 (en) * 2017-08-03 2018-09-25 Gyrfalcon Technology Inc. Natural language processing using a CNN based integrated circuit
KR101873576B1 (ko) * 2016-10-31 2018-07-03 한국전자통신연구원 자동차 번호판 정보 인식 시스템 및 방법
US10216766B2 (en) * 2017-03-20 2019-02-26 Adobe Inc. Large-scale image tagging using image-to-topic embedding
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
US10950124B2 (en) 2017-08-22 2021-03-16 Q-Free Netherlands B.V. License plate recognition
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
CN107679074B (zh) 2017-08-25 2021-05-04 百度在线网络技术(北京)有限公司 一种图片生成方法与设备
CN107992872B (zh) * 2017-12-25 2020-04-28 广东小天才科技有限公司 一种对图片进行文本识别的方法及移动终端
US10521654B2 (en) 2018-03-29 2019-12-31 Fmr Llc Recognition of handwritten characters in digital images using context-based machine learning
US11763188B2 (en) * 2018-05-03 2023-09-19 International Business Machines Corporation Layered stochastic anonymization of data
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
US10311149B1 (en) * 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
RU2743898C1 (ru) 2018-11-16 2021-03-01 Общество С Ограниченной Ответственностью "Яндекс" Способ выполнения задач
US10963717B1 (en) * 2018-12-21 2021-03-30 Automation Anywhere, Inc. Auto-correction of pattern defined strings
US11386636B2 (en) 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
RU2744032C2 (ru) * 2019-04-15 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения результата выполнения задачи в краудсорсинговой среде
US11281911B2 (en) 2019-04-27 2022-03-22 Gyrfalcon Technology Inc. 2-D graphical symbols for representing semantic meaning of a video clip
US10713830B1 (en) 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
SG10201904554TA (en) * 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
RU2744038C2 (ru) 2019-05-27 2021-03-02 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для определения результата для задачи, выполняемой в краудсорсинговой среде
US11227174B1 (en) 2019-06-10 2022-01-18 James Alves License plate recognition
US11526723B2 (en) 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits
CN110796134B (zh) * 2019-08-06 2023-03-28 汕头大学 一种强噪声复杂背景图像中的汉字组词方法
RU2019128272A (ru) 2019-09-09 2021-03-09 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для определения производительности пользователя в компьютерной краудсорсинговой среде
US11302108B2 (en) * 2019-09-10 2022-04-12 Sap Se Rotation and scaling for optical character recognition using end-to-end deep learning
CN110717493B (zh) * 2019-09-16 2022-04-01 浙江大学 一种基于深度学习的含堆叠字符的车牌识别方法
CN110660051B (zh) * 2019-09-20 2022-03-15 西南石油大学 一种基于导航金字塔的张量投票处理方法
RU2019135532A (ru) 2019-11-05 2021-05-05 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для выбора метки из множества меток для задачи в краудсорсинговой среде
US11562203B2 (en) 2019-12-30 2023-01-24 Servicenow Canada Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
US11481691B2 (en) 2020-01-16 2022-10-25 Hyper Labs, Inc. Machine learning-based text recognition system with fine-tuning model
RU2020107002A (ru) 2020-02-14 2021-08-16 Общество С Ограниченной Ответственностью «Яндекс» Способ и система приема метки для цифровой задачи, исполняемой в краудсорсинговой среде
US12002274B2 (en) * 2020-08-24 2024-06-04 Electronic Transaction Consultants, Llc Gamified alphanumeric character identification
US20220414328A1 (en) * 2021-06-23 2022-12-29 Servicenow Canada Inc. Method and system for predicting field value using information extracted from a document
KR102509943B1 (ko) * 2021-07-20 2023-03-14 강상훈 문서 작성 보조 장치
US20230084845A1 (en) * 2021-09-13 2023-03-16 Microsoft Technology Licensing, Llc Entry detection and recognition for custom forms
US20230090269A1 (en) * 2021-09-22 2023-03-23 International Business Machines Corporation Historical image search
US20230133690A1 (en) * 2021-11-01 2023-05-04 Salesforce.Com, Inc. Processing forms using artificial intelligence models

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
US5774588A (en) * 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
US6597809B1 (en) * 1999-03-19 2003-07-22 Raf Technology, Inc. Rollup functions for efficient storage presentation and analysis of data
JP4527322B2 (ja) 2001-07-25 2010-08-18 日本電気株式会社 画像検索装置、画像検索方法、及び画像検索用プログラム
US7236632B2 (en) * 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
US7680330B2 (en) * 2003-11-14 2010-03-16 Fujifilm Corporation Methods and apparatus for object recognition using textons
US7756341B2 (en) 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US7680341B2 (en) 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US20080240572A1 (en) 2007-03-26 2008-10-02 Seiko Epson Corporation Image Search Apparatus and Image Search Method
US7933454B2 (en) 2007-06-25 2011-04-26 Xerox Corporation Class-based image enhancement system
US7885794B2 (en) 2007-11-30 2011-02-08 Xerox Corporation Object comparison, retrieval, and categorization methods and apparatuses
US8009921B2 (en) 2008-02-19 2011-08-30 Xerox Corporation Context dependent intelligent thumbnail images
US8111923B2 (en) 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
JP4944993B2 (ja) 2008-08-19 2012-06-06 リンテック株式会社 成形体、その製造方法、電子デバイス部材および電子デバイス
US9183227B2 (en) 2008-09-19 2015-11-10 Xerox Corporation Cross-media similarity measures through trans-media pseudo-relevance feedback and document reranking
US8463051B2 (en) 2008-10-16 2013-06-11 Xerox Corporation Modeling images as mixtures of image models
US8249343B2 (en) 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
US8150858B2 (en) 2009-01-28 2012-04-03 Xerox Corporation Contextual similarity measures for objects and retrieval, classification, and clustering using same
US8774498B2 (en) 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
US8175376B2 (en) 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
US8280828B2 (en) 2009-06-12 2012-10-02 Xerox Corporation Fast and efficient nonlinear classifier generated from a trained linear classifier
US8644622B2 (en) 2009-07-30 2014-02-04 Xerox Corporation Compact signature for unordered vector sets with application to image retrieval
US8380647B2 (en) 2009-08-14 2013-02-19 Xerox Corporation Training a classifier by dimension-wise embedding of training data
US9355337B2 (en) 2009-08-25 2016-05-31 Xerox Corporation Consistent hierarchical labeling of image and image regions
US8171049B2 (en) 2009-09-18 2012-05-01 Xerox Corporation System and method for information seeking in a multimedia collection
US20110137898A1 (en) 2009-12-07 2011-06-09 Xerox Corporation Unstructured document classification
US20110194733A1 (en) * 2010-02-11 2011-08-11 Tc License Ltd. System and method for optical license plate matching
US8532399B2 (en) 2010-08-20 2013-09-10 Xerox Corporation Large scale image classification
US8340429B2 (en) 2010-09-18 2012-12-25 Hewlett-Packard Development Company, Lp Searching document images
US8731317B2 (en) 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
US8370338B2 (en) 2010-12-03 2013-02-05 Xerox Corporation Large-scale asymmetric comparison computation for binary embeddings
US8447767B2 (en) 2010-12-15 2013-05-21 Xerox Corporation System and method for multimedia information retrieval
US8483440B2 (en) * 2011-04-13 2013-07-09 Xerox Corporation Methods and systems for verifying automatic license plate recognition results
US8533204B2 (en) 2011-09-02 2013-09-10 Xerox Corporation Text-based searching of image data
US8582819B2 (en) 2011-11-18 2013-11-12 Xerox Corporation Methods and systems for improving yield in wanted vehicle searches
US8588470B2 (en) 2011-11-18 2013-11-19 Xerox Corporation Methods and systems for improved license plate signature matching by similarity learning on synthetic images

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021792A (ja) * 2015-07-08 2017-01-26 ゼロックス コーポレイションXerox Corporation 辞書を使わない、マッチングベースの単語画像認識
JP2020119206A (ja) * 2019-01-23 2020-08-06 富士ゼロックス株式会社 情報処理装置、及びプログラム
JP7404625B2 (ja) 2019-01-23 2023-12-26 富士フイルムビジネスイノベーション株式会社 情報処理装置、及びプログラム
KR20210001817A (ko) * 2019-06-27 2021-01-06 경북대학교 산학협력단 한자인식시스템 및 이를 이용한 한자인식방법
KR102264988B1 (ko) * 2019-06-27 2021-06-16 경북대학교 산학협력단 한자인식시스템 및 이를 이용한 한자인식방법

Also Published As

Publication number Publication date
US20140355835A1 (en) 2014-12-04
EP2808827B1 (en) 2017-04-26
EP2808827A1 (en) 2014-12-03
US9384423B2 (en) 2016-07-05

Similar Documents

Publication Publication Date Title
EP2808827B1 (en) System and method for OCR output verification
US11657602B2 (en) Font identification from imagery
US9626594B2 (en) Method and system to perform text-to-image queries with wildcards
US9008429B2 (en) Label-embedding for text recognition
EP2701098B1 (en) Region refocusing for data-driven object localization
US9367763B1 (en) Privacy-preserving text to image matching
US8533204B2 (en) Text-based searching of image data
WO2017124990A1 (zh) 基于多张图片一致性实现保险理赔反欺诈的方法、系统、设备及可读存储介质
US9158995B2 (en) Data driven localization using task-dependent representations
US8699789B2 (en) Document classification using multiple views
WO2017016240A1 (zh) 一种钞票冠字号识别方法
EP2615572A1 (en) Image segmentation based on approximation of segmentation similarity
Walker et al. Locating Salient Object Features.
JP2011525012A (ja) デジタルコンテンツ記録のための意味論的イベント検出
CN110728307A (zh) 自生成数据集与标签实现x光影像图小样本字符识别方法
CN110580507B (zh) 一种城市肌理分类识别方法
JP2009276937A (ja) 辞書作成装置、認識装置、認識方法及び認識プログラム
Rahul et al. Multilingual text detection and identification from Indian signage boards
JP5959446B2 (ja) コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
CN115984588A (zh) 图像背景相似度分析方法、装置、电子设备及存储介质
Lakshmi et al. A new hybrid algorithm for Telugu word retrieval and recognition
Naveen et al. Pose and head orientation invariant face detection based on optimised aggregate channel feature
Kamal et al. A Robust Authentication System Handwritten Documents using Local Features for Writer Identification.
Tran et al. Fast growing hough forest as a stable model for object detection
Parizi et al. Reading Street Signs using a Generic Structured Object Detection and Signature Recognition Approach.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170519

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170519

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170908

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20171006