JP5755655B2 - 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 - Google Patents

光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 Download PDF

Info

Publication number
JP5755655B2
JP5755655B2 JP2012537459A JP2012537459A JP5755655B2 JP 5755655 B2 JP5755655 B2 JP 5755655B2 JP 2012537459 A JP2012537459 A JP 2012537459A JP 2012537459 A JP2012537459 A JP 2012537459A JP 5755655 B2 JP5755655 B2 JP 5755655B2
Authority
JP
Japan
Prior art keywords
ocr
character
learning set
imagelet
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012537459A
Other languages
English (en)
Other versions
JP2013509664A (ja
Inventor
ウルブシャット、ハリー
マイアー、ラルフ
バンシュラ、トルステン
ハオスマン、ヨハンネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BDGB Enterprise Software SARL
Original Assignee
BDGB Enterprise Software SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BDGB Enterprise Software SARL filed Critical BDGB Enterprise Software SARL
Publication of JP2013509664A publication Critical patent/JP2013509664A/ja
Application granted granted Critical
Publication of JP5755655B2 publication Critical patent/JP5755655B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

関連出願に対する相互参照
本出願は、2009年11月2日に出願された、米国特許出願番号第12/588,928号の出願日の利益に基づいており、この利益を得る。この出願の全体の内容は、その全体の参照によりここに組み込まれている。
図1は、1つの実施形態にしたがった、OCRの認識の精度を向上させるシステムを図示している。 図2は、1つの実施形態にしたがった、OCRの認識の精度を向上させる方法を図示している。 図3は、1つの実施形態にしたがった、例示的な方法を図示している。 図4は、1つの実施形態にしたがった、OCRの認識の精度を向上させる方法を図示している。 図5は、1つの実施形態にしたがった、例示的な方法を図示している。
本発明の実施形態の詳細な説明
図1は、1つの実施形態にしたがった、OCRの認識の精度を向上させるシステムを図示している。1つの実施形態において、システム100は、ハードウェアエレメントおよびソフトウェアエレメントを接続する少なくとも1つの通信ネットワーク101を具備することができる。いくつかの実施形態では、ハードウェアが、ソフトウェアを実行することができる。
ハードウェアは、少なくとも1つの通信/出力ユニット105と、少なくとも1つの表示ユニット110と、少なくとも1つの中央処理ユニット(CPU)115と、少なくとも1つのハードディスクユニット120と、少なくとも1つのメモリユニット125と、少なくとも1つの入力ユニット130とを具備することができる。通信/出力ユニット105は、抽出処理の結果を、例えば、スクリーン、プリンタ、ディスク、コンピュータ、および/またはアプリケーションに送ることができる。表示ユニット110は、情報を表示することができる。CPU115は、ハードウェアコンポーネントおよび/またはソフトウェアコンポーネントからの命令を解釈して実行することができる。ハードディスクユニット120は、記憶デバイスから情報(例えば、ドキュメント、データ)を受け取ることができる。メモリユニット125は、情報を記憶することができる。入力ユニット130(例えば、キーボード、マウス、人的なまたは人的でない他の入力デバイス)が、スクリーン、スキャナ、ディスク、コンピュータ、および/またはアプリケーションから、処理するための情報(例えば、少なくとも1つのドキュメントイメージ)を受け取ることができる。
ソフトウェアは、1つ以上のデータベース145と、少なくとも1つのOCRブースティングモジュール150と、少なくとも1つのイメージ処理モジュール155と、少なくとも1つのOCRモジュール160と、少なくとも1つのドキュメント入力モジュール165と、少なくとも1つのドキュメントコンバートモジュール170と、少なくとも1つのテキスト処理統計的解析モジュール175と、少なくとも1つのドキュメント/出力後処理モジュール180と、少なくとも1つのシステムアドミニストレーションモジュール185とを具備することができる。データベース145は、情報を記憶することができる。イメージ処理モジュール155は、イメージを処理することができる、ソフトウェアを備えることができる。OCRモジュール160は、入力ユニット130によって(例えば、スキャナを使用して)スキャンインされたイメージのテキスト表現を発生させることができるソフトウェアを備えることができる。1つの実施形態において、複数のOCRモジュール160を利用できることに留意すべきである。加えて、異なるパラメータセットおよび異なるイメージの前処理を利用することができる。例えば、異なるOCRモジュールに対して利用できるパラメータセットは、あるディクショナリ、適用可能言語、認識されるべきキャラクタサブセット(例えば、すべての数字、または、すべてのキャラクタ)を含むことができるが、これらに限定されない。イメージの前処理は、回転補正、ノイズ除去、(例えば、イメージのエッジのコントラストを強調して、エッジをより明確に見せる)エッジ強調フィルタ、(例えば、色の表現を、1つの参照フレームから別の参照フレームに変換して、変換したイメージを元々のイメージに、より類似して見せる)色空間変更、および、これらの任意の組み合わせを含むことができるが、これらに限定されない。ドキュメント入力モジュール165は、(例えば、トレーニングのために使用される)情報を取得するために、(例えば、システム100中で、または、他の場所で前処理された)前処理されたドキュメントを扱うことができるソフトウェアを備えることができる。例えば、既にOCRされたドキュメントが利用可能である場合、OCRブースタートレーニング段階において、これらのドキュメント(例えば、イメージレットおよびキャラクタ)からの情報を使用して、OCRブースターセットを生成させることができる。ドキュメント表現(例えば、イメージおよび/またはOCRテキスト)をOCRブースティングモジュール150に送ることができ、このOCRブースティングモジュール150は、学習と、抽出と、妥当性検証とを実行することができる。例えば、図2−図5に関して以下でより詳細に説明するように、イメージおよび最初のOCR結果を入力として使用し、OCRブースティングモジュール150をトレーニングおよび/または使用して、第2のOCR結果に関連する信頼度レーティングを含む最初のOCR結果の正確さに関するセカンドオピニオンを得ることができる。ドキュメントコンバートモジュール170は、ドキュメントを1つの形式から別の形式に(例えば、WordからPDFに)変えることができるソフトウェアを備えることができる。テキスト処理統計的解析モジュール175は、テキスト情報を前処理するために、発生されたテキストの統計的解析を提供することができるソフトウェアを備えることができる。例えば、ワードの頻度等のような情報を提供することができる。ドキュメント/出力後処理モジュール180は、特定の形態(例えば、ユーザによって要求されたフォーマット)で、結果ドキュメントを整えることができるソフトウェアを備えることができる。ドキュメント/出力後処理モジュール180は、付加的なフォーマット化および処理のために、結果情報を第三者または内部アプリケーションに送ることもできる。システムアドミニストレーションモジュール185は、アドミニストレータがソフトウェアおよびハードウェアを管理することを可能にするソフトウェアを備えることができる。1つの実施形態において、個々のモジュールは、(これらの特定の入力インターフェースを通して)接続することができるソフトウェアモジュールとして実現することができ、これらの出力は、さらなる処理のために所望されたモジュールにルーティングすることができる。すべての記述したモジュールは、1つのCPUまたは多くのCPU上で、仮想機械上で、メインフレーム上で、あるいはCPU115のような、記述した情報処理インフラストラクチャ内のシェル上でランすることができる。データベース145は、ハードディスクユニット120上に記憶させることができる。
OCRブースティングモジュール150は、(図2−図3に関してさらに説明する)学習と、抽出と、妥当性検証とを実行することができる。OCRブースティングモジュール150によって発生された付加的な情報を、データベース145に、または、外部入力(例えば、通信/出力ユニット105、通信ネットワーク101、ハードディスクユニット120、およびアドミニストレーションモジュール185)に送ることができる。抽出モジュール150の出力または出力の一部は、後処理モジュール180を使用して、または、後処理モジュール180を使用しないで、さまざまなコンポーネント(例えば、通信/出力ユニット105、表示ユニット110、ハードディスクユニット120、メモリユニット125、通信ネットワーク101、コンバートモジュール170、データベース145、OCRモジュール160、統計的解析モジュール175)中で入力パラメータとして記憶、提示、または使用することができる。このようなフィードバックシステムが、反復改良を可能にすることができる。
図2および図4は、1つの実施形態にしたがった、OCRの認識の精度を向上させる方法を図示しており、図3および図5は、1つの実施形態にしたがった、例示的な方法を図示している。特に、図2および図3は、OCRの認識の精度を向上させるために学習セットを構築する方法200と、方法200の例とを図示している。図4および図5は、OCRの認識の精度を向上させるために新しいドキュメントを学習セットと比較する方法400と、方法400の例とを図示している。
図2を参照すると、205では、少なくとも1つのドキュメントの少なくとも1つのイメージを(例えば、スキャナを使用して)入力ユニット130にスキャンすることができ、スキャンしたイメージをOCRブースティングモジュール150に入力することができる。例えば、インボイスのイメージを、スキャンインすることができる。加えて、少なくとも1つのドキュメントに適用された、少なくとも1つのOCRモジュール160からの最初のOCR結果を、OCRブースティングモジュール150に入力することができる。例えば、インボイス上のデータであると推定されるデータ(例えば、「インボイスの日付」、「10/20/2008」、「インボイスの額」、「203.35」)を含む、インボイスからの最初のOCR結果を、OCRブースティングモジュール150に入力することができる。1つの実施形態において、キャラクタイメージレット(すなわち、OCRモジュール160にキャラクタを検出させたイメージのその一部分)は、OCRモジュール160によって見いだされたキャラクタとともに、OCRブースティングモジュール150に送ることができる。
1つの実施形態において、1つのドキュメント、1ページ、ページの一部(例えば、ゾーン、パラグラフ、行、またはワード)、複数のページ、または、複数のドキュメント、またはこれらの任意の組み合わせを、OCRブースティングモジュール150に入力できることに留意されたい。方法200は、完全なドキュメントまたは複数のドキュメントよりはむしろ小さいドキュメント部分に基づくことができることから、より大きいセットよりはむしろ、より小さいセット(例えば、複数ページと比べて行またはパラグラフ)をOCRブースティングモジュール150に入力するとき分散は小さいことが多いので、関心あるキャラクタを識別するために実行される、(例えば、複数のフォント、複数のフォントスケール、複数のフォント属性(例えば、ボールド、イタリック)による)汎化を最小にすることができる。付加的に、1つの実施形態において、キャラクタのそれぞれのサブセットに対して、方法200を利用することができる。したがって、学習セット内のキャラクタ間の潜在的な混乱を、このようなキャラクタサブセットに制限することができる。このようなサブセットの例は、数字、句読点マーク、小文字のアルファベットのキャラクタ、大文字のアルファベットのキャラクタ等である。
210では、ドキュメントのイメージからOCRモジュール160によって取得されたキャラクタに対応しているイメージレット(すなわち、イメージ部分またはキャラクタイメージレット)をコンパイルすることによって、少なくとも1つのOCRシードを生成させる。ドキュメントイメージからそれぞれのキャラクタイメージレットを抽出することによって、イメージレットを取得することができる。ドキュメントイメージ中の(例えば、バウンディングボックスによって表されている)キャラクタイメージレットの調整に基づいてキャラクタイメージレットを発生させるために、キャラクタセグメント化アルゴリズムを使用することができる。例えば、キャラクタセグメント化アルゴリズムのオプションは、Casey, R G. et al., キャラクタセグメント化の方法および戦略の研究(A Survey of Methods and Strategies in Character Segmentation), IEEE Trans. Pattern Anal. Mach Intell, Vol.18, No.7 (July 1996), 690-706.を参照する。
例えば、図3を参照すると、OCRモジュール160がキャラクタ「6」としてコンバートした、ドキュメント中のキャラクタイメージレットを、OCRブースティングモジュール160が取得することができる。したがって、OCRモジュールは、いくつかの「6」のキャラクタを取得する可能性があり、また、「8」、「5」、および「E」はキャラクタ「6」に類似して見えることが多いので、OCRモジュールは、これらのものを誤って取得する可能性がある。
OCRのエラーが原因で、キャラクタイメージレットは、すべて同一であるとは限らないことに留意すべきである。しかしながら、OCRモジュール160は、(例えば、50%より多い)非常に多くの正しいキャラクタを返すことができるので、正しいクラスがデータセットを支配できる。
再び図2を参照すると、215では、(例えば、図5の515および520において以下で記述するような、ピクセルまたは色空間情報に基づいて)OCRシードから、類似したイメージレットを選択することによって、OCRクリーンされたシードを生成させることができる。イメージレット間の間隔(例えば、ピクセルベース)を計算して、これらの類似性を決定することができる統計的測定および/またはクラスタリング方法によって、類似したイメージレットを決定することができる。使用することができる、統計的測定および/またはクラスタリング方法の例は、ベイズネットワーク、主成分解析、ANOVA、MANOVA、独立成分解析、または人間の介入、またはこれらの任意の組み合わせを含むが、これらに限定されない。図5では、この類似性ベースの選択プロセスを図示している。その後、計算された間隔を使用して、OCRクリーンされたシードと呼ばれる、類似したイメージレットのサブセットを生成させることができる。OCRクリーンされたシードは、最初のセットからの任意の数(例えば、なし、いくつか、すべて)のイメージレットを含むことができる。複数のフォント、複数のフォントスケール、および/または複数のフォント属性(例えば、ボールド、イタリック)を考慮に入れることができる。例えば、1つの実施形態では、フォントタイプおよびフォントサイズに関する、OCRから返された、または、OCRブースターモジュールによって抽出された情報を使用して、特定のフォントタイプまたはフォントサイズに関しても類似するイメージレットのみを含むOCRクリーンされたサブシードを生成させることもあり得る。別の例としては、数字であるイメージレットのみを含むOCRクリーンされたサブシードを生成させることでき、ボールドフォントの数字であるイメージレットのみを含む別のOCRクリーンされたサブシードを生成させることができる。クリーンされたサブシードの生成および後続する適用が、OCRブースティング性能を改善することができる。
図3の315は、(図2の215において生成された)クリーンされたOCRシードの例を図示している。315では、OCR結果とフォント属性との点で大変類似しているイメージレットのフィルタリングされたセットを示している。図2の220において示されているように、イメージレットのこのセットに基づいて、学習セットを生成させることができる。学習セットは、OCRモジュール160によって識別されたキャラクタのそれぞれに対して、それぞれのキャラクタに対応しているとして識別されたイメージレットに対する平均および分散を含むことができる。図3の320aおよび320bでは、関心あるイメージレットが数字0ないし9である、このような学習セットの例を示している。320aでは、それぞれのキャラクタ(例えば、0ないし9)に対するすべての選択されたイメージレットに対する(例えば、2Dの)ピクセルに関する平均を示しており、ここでは、分散を黒で示している。320bでは、(例えば、キャラクタ0ないし9に対応している)同じ選択されたイメージレットに対する分散を示している。数字のエッジにおいて、最高のばらつきが示され得ることに留意されたい。図5に関して記述したように、実際のOCRブースティングが信頼度レベルを計算する学習セットの適用の間、この情報を考慮に入れることができる。
分類器(例えば、サポートベクターマシーン、ニューラルネットワーク)を直接的にトレーニングするためにOCR学習セットを使用できることにも留意すべきである。イメージレットおよび各OCRの最初の結果を、このようなトレーニング可能な分類器に対する入力として使用することができ、あるアルゴリズムにしたがってトレーニングを実行することができる。このようなアルゴリズムは、サポートベクターマシーン、ニューラルネットワーク、ベイズ分類器、決定ツリー、およびブーストラッピング方法とすることができるが、これらに限定されない。予めトレーニングされた分類器を適用する(このプロセスを、分類段階と呼ぶことがある)ことによって、実際のOCRブースティング(すなわち、所定のイメージレットに対する所定のOCR結果に関するセカンドオピニオンを取得すること)を実行することができる。フィルタリングされたイメージレットセット、フィルタリングされていないイメージレットセット、前処理されたイメージレットセット、または生のイメージレットセットに基づいて、分類器をトレーニングすることができる。
先に述べたように、図4および図5は、1つの実施形態にしたがった、OCRの認識の精度を向上させるために新しいドキュメントを学習セットと比較する方法400と、方法400の例とを図示している。図4を参照すると、405において、少なくとも1つの新しいドキュメントからの少なくとも1つのイメージレットを、その最初のOCR結果とともに入力する。図5の505では、例のイメージレット「8」が、OCRが見いだした結果:「6」とともに入力される。他の多くのイメージレット、および、これらのOCR結果が入力される可能性があることに留意されたい。
410において、220において学習されたOCR学習セットを入力する。先に述べたように、OCR学習セットは、関心あるそれぞれのイメージレットに対する、平均および分散を含むことができる。図5の例では、図5の510a/510bにおいて、図3の320a/320b中で図示されているOCR学習セットを利用している。
415において、新しいドキュメントからの関心あるそれぞれのイメージレットを、OCR学習セットと比較する。図5における515の例では、イメージレット「8」を、(数字0ないし9に対する、平均510aおよび分散510bによって視覚化されている)学習セット中のそれぞれのキャラクタと比較する。515では、イメージレット「8」と学習セット中の数字のそれぞれとの比較を図示するために、学習セット(510aおよび510b)中のそれぞれの数字の下に、同じイメージレット「8」を示している。
図4に戻って参照すると、420において、新しいドキュメントのイメージレットと、OCR学習セットとの比較を使用し、それぞれのイメージレットに対する不整合の分布を生成させる。図5の520では、比較の不整合の分布の例を図示しており、ここでは、数字0ないし9と比べたイメージレット「8」(この例示的な学習セット中のすべての数字)に対する不整合の分布が生成されている。不整合の分布520において、緑は、チェックされるべきイメージレットと学習セットのキャラクタとの間での相対的に過剰なピクセルを示し、赤は、チェックされるべきイメージレットと学習セットのキャラクタとの間でのピクセルの不足を示し、黒は、各ポジションにおける整合(例えば、チェックされるべきイメージレットと学習セットのキャラクタとの間に相違がないこと)を示す。
425では、解析されているイメージと学習セット中のイメージとの間で最も近く整合しているものを選択することによって、特定のイメージレットに対するOCRブースターの結果が見いだされる。したがって、OCR学習セットを使用して、元々OCRスキャンされたイメージからのそれぞれのキャラクタイメージレットを再分類することができる。このことは、不一致を解決し、OCR補正レートをブーストすることに役立つことができる。425では、信頼度レーティングも提供することができる。図5の525では、「8」のOCRブースターの結果の例を、5.64の信頼度レーティングで図示している。
先に述べたように、それぞれの学習されたキャラクタに対するOCRブースター学習セットの統計を、実際のイメージレットと比較することによって、関心あるそれぞれのイメージレットに対するOCRブースターの結果に対して、信頼度レーティングを計算することができる。トレーニングされた分類器(例えば、サポートベクターマシーン、ニューラルネットワーク)のアプリケーションによっても、信頼値を取得することができる。したがって、例としてここで与えられた信頼度レーティング5.64は、OCRブーストされるべきである提示されているイメージレットと、その現在の状態における学習セットとの間の相対的なスコアとして理解することができる。
学習セット内のそれぞれのキャラクタに対する信頼度レーティングは、混同行列に対する根拠として使用することができる。OCRブースティングにより取得された信頼度レーティングは、(高い信頼度レーティングを持つキャラクタのみがチェックされるように)チェックされるべき潜在的キャラクタの数を絞ることができるので、混同行列は、(例えば、N−グラム統計を適宜変更することによる)さらなる改良の曖昧なサーチングアプローチ、ディクショナリ探索、あるいはドキュメントからの妥当性検証ルールまたは正規表現ベースの情報検索に役立つことができる。したがって、組み合わせ的爆発を回避することができる。例えば、キャラクタシーケンス「28/1/2009」の場合、上記で下線が引かれている月の場所に対してキャラクタ0−9が正確なキャラクタであるために、OCRブースターは、以下の信頼度レーティングを返すことができる。
Figure 0005755655
上記のチャートによると、すべての他のキャラクタが大変低いスコアを有しているので、チェックする潜在的なブースティングされるキャラクタの量を、10個(0、1、2、3、4、5、6、7、8、および9)から、2個(0および9)に減少させることができる。その上、データが、日付のフォーマットXX/X/XXXXを有するキャラクタシーケンスである情報であるならば、下線が引かれた場所における「9」は、同様に除外することができる。したがって、さらなる何らかの処理のために、関心あるキャラクタは「0」のみであると仮定することができる。
現在のドキュメント(または、ページ、ゾーン等)に対して、確率重み付けされた2Dピクセル情報を含むOCRブースター学習セットを発生させることができ、そしてイメージレットの履歴を維持したり、新しいものを連続的に追加したりすることによって、ドキュメント(または、ページ、ゾーン等)を変更している間に動的に適合させることができることにも留意すべきである。例えば、ドキュメント処理を修正するために、図3の例示的なOCRシード310を使用することができる。したがって、イメージレットの数が、増加し続けることもある。イメージレットバッファ上でエイジングを使用することも、そして、新しいものを追加するときに、「最も古い」イメージレットを除去することも可能である。このような方法では、例えば、シーケンシャルなゾーンにおいてドキュメントを処理するとき、OCRブースター学習セットを、ドキュメントの属性の変更に適合させることができる。このような方法では、上述したように、典型的なドキュメントは、フォントを、キャラクタごとに変えるのではなく、むしろパラグラフ(または他の類似したテキストゾーン)ごとに変えるので、OCRブースター学習セットは、現在のフォントと正確に整合することができる。
加えて、信頼レートが付与された2Dピクセル情報を含むOCRブースター学習セットは、キャラクタピクセルの分散と、キャラクタの周囲のホワイトスペースのノイズ統計とを含むことができることに留意すべきである。バックグラウンドノイズについての統計は、そのノイズを除去するためのフィルタを考案するのに非常に有用であることができる。OCRブースター学習セットは、キャラクタの統計(例えば、キャラクタの各ピクセル)と、エッジの分散(320aおよび320bの双方において示されている例)とを含むことができる。付加的に、バックグラウンドの統計(例えば、空間に加えてキャラクタ−ピクセル)を取得することができる。このことから、スペックルノイズについての統計を考案することができ、スペックル除去フィルタ設計では追加入力として利用することができる。
さらには、単一のページ上でOCRブースター学習およびアプリケーションを実行するとき、それぞれのキャラクタを個々にではなく、ページ全体を回転させることができるので、ドキュメントの回転でさえもOCRブースター学習セットに組み込むことができる。このことは、結果として、ページ全体を回転させるときでさえ、1ページ内のキャラクタ間でゼロ度の相対的回転になることができる。
図2の205に関して上記で説明したように、より小さいセット(例えば、数ページと比べてページの一部)をOCRブースティングモジュール150に入力することができるので、(図3に関してより詳細に記述されている)イメージレットのバックグラウンド情報は、OCR学習セットを考慮に入れることができることにも留意すべきである。例えば、イメージレットのバックグラウンドが、特定のピクセルパターン(例えば、1ビットの色空間において、グレースケールのイメージをサンプリングするときに通常生じるもの)を含むとき、イメージレット間隔の計算の際に、このようなピクセルパターンの重み付けを少なくすることができる。そして、これらのピクセルパターンは、OCRブースティングイメージレットの比較の間に無視されるべきであるバックグラウンド情報のみを表すことで知られている。したがって、バックグラウンドノイズを除去する付加的なアルゴリズムは、必須ではない。
さらには、OCR学習セットは、より小さいセットに基づくことができるので、イメージの歪みは共通なものにならないだろう。例えば、OCR学習セットを生成させるために複数のページを使用する場合に、ページをスキャンするとき、ページは完全に整列されないことが多く、したがって、イメージレットは、より多くのばらつきを有し、実行しなければならない汎化が増加するだろう。しかしながら、1ページの1パラグラフだけを使用する場合には、1ページだけスキャンするので、イメージの歪みは存在しないだろう。大量の汎化は、人間がしそうにもないエラー(例えば、わずかに歪んだ「8」と「f」との間違い)の原因となることに留意すべきである。これに対して、少量の汎化は、人間がするであろうエラー(例えば、「1」(1)と「l」(文字l)との間違い)の原因となることが多い。システム100は、人間よりも不正確であることはなく、かつ、人間よりも、使用するコストがずっと低いであろうことが多いので、人間がするであろうエラーのみをすることは、システム100の受容性を向上させることができる。
上記のシステム100および方法200を利用して見いだされた情報(例えば、OCRシード、OCRクリーンされたシード、OCR学習セットとともに、不整合の分布に関連する何らかの情報、OCRブースターの結果、および信頼度レーティング)のうちの任意のものを、(例えば、学習セット、イメージレットの集まり、または各統計として)記憶することができることに留意すべきである。この情報は、同じまたは類似したクラスからのイメージをレビューすべきときに再使用することができる。この情報は、OCRシードを生成させる最初のOCRランの一部または置換として、あるいは、ドキュメントに対する学習セットの根拠として使用することができ、したがって、統計の信頼性を増加させることができる。加えて、データ、前処理方法、および/または他のパラメータの改良を可能にするために、方法200の手順全体は反復して実行することができる。
本発明のさまざまな実施形態を上記で記述してきたが、本発明のさまざまな実施形態は、例により提示しており、限定されていないことを理解すべきである。本発明の精神および範囲から逸脱することなく、形態および詳細のさまざまな変更をここで行うことができることは当業者に明らかになるだろう。したがって、本発明は、上述した例示的な実施形態のうちのいずれのものによって限定されるべきではない。
加えて、上述した図面は、本発明の機能性および利点を強調しており、例示目的のみのために提示していることを理解すべきである。本発明のアーキテクチャは、十分に柔軟性があり、構成可能であり、これにより、図面中で示したもの以外の方法で、本発明のアーキテクチャを利用できる。
さらには、この開示の要約書の目的は、米国特許商標庁が、および、一般的な人々が、特に、特許または法律用語または語句に精通していない、科学者や、エンジニアや、技術的な従業者が、この出願の技術的開示の性質および本質を大雑把な検討から迅速に決定することを可能にすることである。この開示の要約書は、決して、本発明の範囲について限定することを意図したものではない。
最後に、「する手段」または「するステップ」という明確な言葉を含む請求項のみが35U.S.C.112条第6パラグラフのもと解釈されることが出願人の意図である。「する手段」または「するステップ」というフレーズを明確に含まない請求項は、35U.S.C.112条第6パラグラフのもとで解釈されるべきではない。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させる方法において、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記OCR学習セットを前記少なくとも1つのアイテムに適用して、付加的な光学式文字認識(OCR)結果を取得することとを含む方法。
[C2]
前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹するC1記載の方法。
[C3]
前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含むC1記載の方法。
[C4]
異なるアイテムに対して、前記少なくとも1つのOCR学習セットを使用するC1記載の方法。
[C5]
異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用するC1記載の方法。
[C6]
前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるC1記載の方法。
[C7]
前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるC1記載の方法。
[C8]
前記方法の改良を可能にするために、前記方法は反復して前もって形成されるC1記載の方法。
[C9]
前記OCR結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも1つのOCRシードを生成させるC1記載の方法。
[C10]
前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含むC9記載の方法。
[C11]
統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択するC15記載の方法。
[C12]
前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含むC11記載の方法。
[C13]
前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用するC9記載の方法。
[C14]
少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用するC9記載の方法。
[C15]
前記OCR結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも1つのOCRシードがクリーンされるC9記載の方法。
[C16]
前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させるC1記載の方法。
[C17]
前記イメージ表現は、ビットマップであるC16記載の方法。
[C18]
前記ビットマップは、グレースケールまたはカラーであるC17記載の方法。
[C19]
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、
前記少なくとも1つの不整合の分布に基づいて、前記OCRの付加的な結果を発生させることとをさらに含むC9記載の方法。
[C20]
少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させるシステムにおいて、
少なくとも1つのプロセッサを具備し、
前記少なくとも1つのプロセッサは、
少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、
前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
前記OCR学習セットを前記少なくとも1つのアイテムに適用して、付加的な光学式文字認識(OCR)結果を取得することとを実行するように構成されているシステム。
[C21]
前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹するC20記載のシステム。
[C22]
前記少なくとも1つのアイテムは、
少なくとも1つのページ、
少なくとも1つのドキュメント、
少なくとも1つのドキュメントの少なくとも1つの部分、
少なくとも1つのゾーン、
少なくとも1つのパラグラフ、
少なくとも1つの行、
少なくとも1つのワード、または、
少なくとも1つのキャラクタ、または、
これらの任意の組み合わせを含むC20記載のシステム。
[C23]
異なるアイテムに対して、前記少なくとも1つのOCR学習セットをC20記載のシステム。
[C24]
異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用するC20記載のシステム。
[C25]
前記付加的なOCR結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるC20記載のシステム。
[C26]
前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるC20記載のシステム。
[C27]
方法の改良を可能にするために、前記方法は反復して前もって形成されるC20記載のシステム。
[C28]
前記OCR結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも1つのOCRシードを生成させるC20記載のシステム。
[C29]
前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含むC28記載のシステム。
[C30]
統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択するC34記載のシステム。
[C31]
前記統計的測定および/またはクラスタ解析は、
少なくとも1つのベイズ分類器、
少なくとも1つのニューラルネットワーク分類器、
少なくとも1つのサポートベクター分類器、または
これらの任意の組み合わせを含むC30記載のシステム。
[C32]
前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用するC28記載のシステム。
[C33]
少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用するC28記載のシステム。
[C34]
前記OCR結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも1つのOCRシードがクリーンされるC28記載のシステム。
[C35]
前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させるC20記載のシステム。
[C36]
前記イメージ表現は、ビットマップであるC35記載の方法。
[C37]
前記ビットマップは、グレースケールまたはカラーであるC36記載の方法。
[C38]
前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、
前記少なくとも1つの不整合の分布に基づいて、前記OCRの付加的な結果を発生させることとをさらに含むC28記載の方法。

Claims (32)

  1. 少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させる方法において、
    少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
    前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
    前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
    前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、前記少なくとも1つの不整合の分布は、少なくとも1つの可能性のあるキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも1つの信頼度レーティングを含み、
    前記少なくとも1つの不整合の分布を適用し付加的なOCR結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記OCR学習セットおよび前記少なくとも1つの不整合の分布を前記少なくとも1つのアイテムに適用して、前記付加的なOR結果を取得することとを含む方法。
  2. 前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹する請求項1記載の方法。
  3. 前記少なくとも1つのアイテムは、
    少なくとも1つのページ、
    少なくとも1つのドキュメント、
    少なくとも1つのドキュメントの少なくとも1つの部分、
    少なくとも1つのゾーン、
    少なくとも1つのパラグラフ、
    少なくとも1つの行、
    少なくとも1つのワード、または、
    少なくとも1つのキャラクタ、または、
    これらの任意の組み合わせを含む請求項1記載の方法。
  4. 異なるアイテムに対して、前記少なくとも1つのOCR学習セットを使用する請求項1記載の方法。
  5. 異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用する請求項1記載の方法。
  6. 前記付加的なOCR結果は、
    フォントサイズ、
    フォントタイプ、または、
    フォント属性、または、
    これらの任意の組み合わせを考慮に入れる請求項1記載の方法。
  7. 前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項1記載の方法。
  8. 前記方法の改良を可能にするために、前記方法は反復して実行される請求項1記載の方法。
  9. 前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含む請求項記載の方法。
  10. 統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択する請求項記載の方法。
  11. 前記統計的測定および/またはクラスタ解析は、
    少なくとも1つのベイズ分類器、
    少なくとも1つのニューラルネットワーク分類器、
    少なくとも1つのサポートベクター分類器、または
    これらの任意の組み合わせを含む請求項10記載の方法。
  12. 前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用する請求項記載の方法。
  13. 少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用する請求項記載の方法。
  14. 前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させる請求項1記載の方法。
  15. 前記イメージ表現は、ビットマップである請求項14記載の方法。
  16. 前記ビットマップは、グレースケールまたはカラーである請求項15記載の方法。
  17. 少なくとも1つのアイテムに対する光学式文字認識(OCR)の精度を向上させるシステムにおいて、
    少なくとも1つのプロセッサを具備し、
    前記少なくとも1つのプロセッサは、
    少なくとも1つのOCRモジュールから、OCRスキャニングのOCR結果を取得することと、
    前記OCR結果の少なくとも一部分を使用して、少なくとも1つのOCRシードを生成させることと、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも1つのOCRシードは、前記OCR結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
    前記OCRシードの少なくとも一部分を使用して、少なくとも1つのOCR学習セットを生成させることと、
    前記少なくとも1つのOCR学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも1つのOCR学習セットの少なくとも1つの不整合の分布を生成させることと、前記少なくとも1つの不整合の分布は、少なくとも1つの可能なキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも1つの信頼度レーティングを含み、
    前記少なくとも1つの不整合の分布を適用し付加的なOCR結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記OCR学習セットおよび前記少なくとも1つの不整合の分布を前記少なくとも1つのアイテムに適用して、前記付加的なOR結果を取得することとを実行するように構成されているシステム。
  18. 前記少なくとも1つのOCR学習セットに基づいて、イメージ統計を演繹する請求項17記載のシステム。
  19. 前記少なくとも1つのアイテムは、
    少なくとも1つのページ、
    少なくとも1つのドキュメント、
    少なくとも1つのドキュメントの少なくとも1つの部分、
    少なくとも1つのゾーン、
    少なくとも1つのパラグラフ、
    少なくとも1つの行、
    少なくとも1つのワード、または、
    少なくとも1つのキャラクタ、または、
    これらの任意の組み合わせを含む請求項17記載のシステム。
  20. 異なるアイテムに対して、前記少なくとも1つのOCR学習セットを請求項17記載のシステム。
  21. 異なるOCRモジュールおよび/または異なるパラメータセットおよび/または異なる前処理ステップを使用する請求項17記載のシステム。
  22. 前記付加的なOCR結果は、
    フォントサイズ、
    フォントタイプ、または、
    フォント属性、または、
    これらの任意の組み合わせを考慮に入れる請求項17記載のシステム。
  23. 前記少なくとも1つのOCR学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項17記載のシステム。
  24. 方法の改良を可能にするために、前記方法は反復して実行される請求項17記載のシステム。
  25. 前記少なくとも1つのOCR学習セットは、記憶されているイメージレットおよび/または新しいイメージレットを含む請求項17記載のシステム。
  26. 統計的測定および/またはクラスタ解析を使用して、類似したイメージレットを選択する請求項17記載のシステム。
  27. 前記統計的測定および/またはクラスタ解析は、
    少なくとも1つのベイズ分類器、
    少なくとも1つのニューラルネットワーク分類器、
    少なくとも1つのサポートベクター分類器、または
    これらの任意の組み合わせを含む請求項26記載のシステム。
  28. 前記少なくとも1つのOCR学習セットを増加させるために、記憶されているイメージレットを使用する請求項17記載のシステム。
  29. 少なくとも1つのイメージフィルタリング技術を得るために、前記少なくとも1つのOCR学習セットおよび関連する統計を使用する請求項17記載のシステム。
  30. 前記少なくとも1つのOCRクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記OCR学習セットを生成させる請求項17記載のシステム。
  31. 前記イメージ表現は、ビットマップである請求項30記載の方法。
  32. 前記ビットマップは、グレースケールまたはカラーである請求項31記載の方法。
JP2012537459A 2009-11-02 2010-10-29 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法 Active JP5755655B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/588,928 US9152883B2 (en) 2009-11-02 2009-11-02 System and method for increasing the accuracy of optical character recognition (OCR)
US12/588,928 2009-11-02
PCT/IB2010/003252 WO2011051817A2 (en) 2009-11-02 2010-10-29 System and method for increasing the accuracy of optical character recognition (ocr)

Publications (2)

Publication Number Publication Date
JP2013509664A JP2013509664A (ja) 2013-03-14
JP5755655B2 true JP5755655B2 (ja) 2015-07-29

Family

ID=43922702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537459A Active JP5755655B2 (ja) 2009-11-02 2010-10-29 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法

Country Status (6)

Country Link
US (1) US9152883B2 (ja)
EP (1) EP2497053A2 (ja)
JP (1) JP5755655B2 (ja)
AU (1) AU2010311067B2 (ja)
CA (1) CA2777930C (ja)
WO (1) WO2011051817A2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
GB2485833A (en) * 2010-11-26 2012-05-30 S3 Res & Dev Ltd Improved OCR Using Configurable Filtering for Analysing Set Top Boxes
JP5585472B2 (ja) * 2011-01-28 2014-09-10 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
JP6119952B2 (ja) * 2012-05-15 2017-04-26 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US9147275B1 (en) * 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9870520B1 (en) * 2013-08-02 2018-01-16 Intuit Inc. Iterative process for optimizing optical character recognition
US10176392B2 (en) 2014-01-31 2019-01-08 Longsand Limited Optical character recognition
US10410218B2 (en) 2014-09-12 2019-09-10 Nextiva, Inc. Customer management system
US10255516B1 (en) 2016-08-29 2019-04-09 State Farm Mutual Automobile Insurance Company Systems and methods for using image analysis to automatically determine vehicle information
US10528649B2 (en) * 2016-09-29 2020-01-07 Adobe Inc. Recognizing unseen fonts based on visual similarity
US10089523B2 (en) * 2016-10-05 2018-10-02 Intuit Inc. Automating creation of accurate OCR training data using specialized UI application
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム
CN108875748B (zh) * 2018-06-27 2021-10-01 上海尚往网络科技有限公司 无线访问接入点信息的生成方法、设备和计算机可读介质
US11631266B2 (en) 2019-04-02 2023-04-18 Wilco Source Inc Automated document intake and processing system
JP7243409B2 (ja) * 2019-04-17 2023-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11093774B2 (en) 2019-12-04 2021-08-17 International Business Machines Corporation Optical character recognition error correction model
US11776287B2 (en) 2021-04-27 2023-10-03 International Business Machines Corporation Document segmentation for optical character recognition

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) * 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS61204733A (ja) 1985-03-07 1986-09-10 Oki Electric Ind Co Ltd 視野管理システム
JPS61217863A (ja) 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
AU595378B2 (en) 1986-08-22 1990-03-29 Commonwealth Scientific And Industrial Research Organisation Content-addressable memory system with active memory circuit
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
AU632267B2 (en) 1987-10-09 1992-12-24 Nucleus International Corporation A relational database representation with relational database operation capability
EP0320266A3 (en) 1987-12-11 1992-03-11 Hewlett-Packard Company View composition in a data base management system
JPH01277977A (ja) 1988-04-28 1989-11-08 Nec Corp パタン照合装置
JPH02186484A (ja) 1989-01-12 1990-07-20 Ricoh Co Ltd 認識辞書の学習方式
US5201047A (en) 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5191525A (en) 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5344132A (en) 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
FR2660085A1 (fr) 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
JP2991754B2 (ja) * 1990-09-14 1999-12-20 株式会社リコー 認識辞書作成方法
JP3329806B2 (ja) 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
JPH04123283U (ja) 1991-04-19 1992-11-06 鐘紡株式会社 編立機の不使用糸処理装置
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5245672A (en) 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5377348A (en) 1992-06-04 1994-12-27 International Business Machines Corporation System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
GB2281997B (en) * 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
US5537491A (en) 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) * 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JPH07271916A (ja) 1994-03-31 1995-10-20 Suzuki Motor Corp 学習パターン生成装置及びこれを用いた文字認識装置
US5671333A (en) 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5956419A (en) * 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5675710A (en) 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH096799A (ja) 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
EP0856175A4 (en) 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5889886A (en) 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6009196A (en) 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP2987099B2 (ja) 1996-03-27 1999-12-06 株式会社日立国際ビジネス 文書作成支援システム及び用語辞書
US5787201A (en) 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (de) 1996-07-08 1998-01-15 Ser Systeme Ag Datenbanksystem
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5745889A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
WO1998012616A2 (en) 1996-09-23 1998-03-26 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
DE19715723A1 (de) 1997-04-15 1998-11-12 Dci Datenbank Fuer Wirtschafts Array-Verfahren
US6353840B2 (en) 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP4116688B2 (ja) 1997-12-22 2008-07-09 株式会社日本デジタル研究所 辞書学習方法および文字認識装置
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6115708A (en) 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6243713B1 (en) 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US20030069873A1 (en) 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
JP2000155803A (ja) 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6622134B1 (en) 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
DE60042165D1 (de) * 1999-01-13 2009-06-18 Computer Ass Think Inc Unterschriften-erkennungs-system und -verfahren
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
DE19912648A1 (de) * 1999-03-20 2000-09-21 Aesculap Ag & Co Kg Flächiges Implantat, Verfahren zu seiner Herstellung und Verwendung in der Chirurgie
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6629097B1 (en) 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6611825B1 (en) 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6501855B1 (en) * 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6785810B1 (en) 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
US6453315B1 (en) 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6188010B1 (en) 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (de) 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE60005293T2 (de) 2000-02-23 2004-07-01 Ser Solutions Inc. Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7213024B2 (en) 2000-03-09 2007-05-01 The Web Access, Inc. Method and apparatus for accessing information within an electronic system
US6741724B1 (en) * 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (ja) 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
AU2001264928A1 (en) 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6895552B1 (en) * 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) * 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) * 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
ES2375403T3 (es) 2001-08-27 2012-02-29 BDGB Enterprise Software Sàrl Un método para la indexación automática de documentos.
EP1315096B1 (en) 2001-11-21 2012-07-18 Werner Voegeli Method and apparatus for retrieving relevant information
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
GB0308413D0 (en) * 2003-04-11 2003-05-21 Enseal Systems Ltd Verification of authenticity of check data
JP4366108B2 (ja) 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005038077A (ja) 2003-07-17 2005-02-10 Hitachi Ltd 筆記データ入力装置
JP2005043977A (ja) 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7483570B1 (en) 2004-02-11 2009-01-27 Knight Andrew F Software and method for creating a dynamic handwriting font
US7805446B2 (en) 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US8570586B2 (en) * 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7865018B2 (en) * 2005-06-02 2011-01-04 Microsoft Corporation Personalized implicit and explicit character shape adaptation and recognition
US7949714B1 (en) 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US7472121B2 (en) 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US7610281B2 (en) 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
WO2008097194A1 (en) 2007-02-09 2008-08-14 Agency For Science, Technology And Research Keyword classification and determination in language modelling
US8280877B2 (en) 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
US8049921B2 (en) 2007-04-16 2011-11-01 Bottomline Technologies (De) Inc. System and method for transferring invoice data output of a print job source to an automated data processing system
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20090125529A1 (en) 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
US20090198677A1 (en) 2008-02-05 2009-08-06 Nuix Pty.Ltd. Document Comparison Method And Apparatus
JP5402099B2 (ja) 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP4538507B2 (ja) 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体

Also Published As

Publication number Publication date
WO2011051817A2 (en) 2011-05-05
AU2010311067B2 (en) 2016-08-04
JP2013509664A (ja) 2013-03-14
US20110103688A1 (en) 2011-05-05
WO2011051817A3 (en) 2012-03-29
AU2010311067A1 (en) 2012-05-10
US9152883B2 (en) 2015-10-06
EP2497053A2 (en) 2012-09-12
CA2777930C (en) 2018-07-10
CA2777930A1 (en) 2011-05-05

Similar Documents

Publication Publication Date Title
JP5755655B2 (ja) 光学式文字認識(ocr)の精度を向上させるためのシステムおよび方法
US11501061B2 (en) Extracting structured information from a document containing filled form images
US11348353B2 (en) Document spatial layout feature extraction to simplify template classification
JP2020095713A (ja) 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP5710624B2 (ja) 抽出のための方法及びシステム
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
CN111401099A (zh) 文本识别方法、装置以及存储介质
Yalniz et al. Ottoman archives explorer: A retrieval system for digital Ottoman archives
Biswas et al. A hybrid deep architecture for robust recognition of text lines of degraded printed documents
Ramesh et al. Recognition of Kannada handwritten words using SVM classifier with convolutional neural network
Jyothi et al. Innovative feature sets for machine learning based Telugu character recognition
Sarika et al. Deep learning techniques for optical character recognition
Ganai et al. A novel holistic unconstrained handwritten urdu recognition system using convolutional neural networks
Smitha et al. Document image analysis using imagemagick and tesseract-ocr
Doughman et al. Time-aware word embeddings for three Lebanese news archives
Nguyen-Trong An End-to-End Method to Extract Information from Vietnamese ID Card Images
Jabonete et al. Development of an Automatic Document to Digital Record Association Feature for a Cloud-Based Accounting Information System
JP2010205122A (ja) レイアウト構造解析装置及びレイアウト構造解析方法
JP4332161B2 (ja) 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
Ansari et al. Automatic recognition of offline handwritten Urdu digits In unconstrained environment using daubechies wavelet transforms
Mnasri Arabic-Character Historical Document Processing: Why and How To?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140917

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150527

R150 Certificate of patent or registration of utility model

Ref document number: 5755655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250