JP5755655B2

JP5755655B2 - 光学式文字認識（ｏｃｒ）の精度を向上させるためのシステムおよび方法

Info

Publication number: JP5755655B2
Application number: JP2012537459A
Authority: JP
Inventors: ウルブシャット、ハリー; マイアー、ラルフ; バンシュラ、トルステン; ハオスマン、ヨハンネス
Original assignee: BDGB Enterprise Software SARL
Current assignee: BDGB Enterprise Software SARL
Priority date: 2009-11-02
Filing date: 2010-10-29
Publication date: 2015-07-29
Anticipated expiration: 2030-10-29
Also published as: WO2011051817A2; AU2010311067B2; JP2013509664A; US20110103688A1; WO2011051817A3; AU2010311067A1; US9152883B2; EP2497053A2; CA2777930C; CA2777930A1

Description

関連出願に対する相互参照

本出願は、２００９年１１月２日に出願された、米国特許出願番号第１２／５８８，９２８号の出願日の利益に基づいており、この利益を得る。この出願の全体の内容は、その全体の参照によりここに組み込まれている。

図１は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させるシステムを図示している。図２は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させる方法を図示している。図３は、１つの実施形態にしたがった、例示的な方法を図示している。図４は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させる方法を図示している。図５は、１つの実施形態にしたがった、例示的な方法を図示している。

本発明の実施形態の詳細な説明

図１は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させるシステムを図示している。１つの実施形態において、システム１００は、ハードウェアエレメントおよびソフトウェアエレメントを接続する少なくとも１つの通信ネットワーク１０１を具備することができる。いくつかの実施形態では、ハードウェアが、ソフトウェアを実行することができる。

ハードウェアは、少なくとも１つの通信／出力ユニット１０５と、少なくとも１つの表示ユニット１１０と、少なくとも１つの中央処理ユニット（ＣＰＵ）１１５と、少なくとも１つのハードディスクユニット１２０と、少なくとも１つのメモリユニット１２５と、少なくとも１つの入力ユニット１３０とを具備することができる。通信／出力ユニット１０５は、抽出処理の結果を、例えば、スクリーン、プリンタ、ディスク、コンピュータ、および／またはアプリケーションに送ることができる。表示ユニット１１０は、情報を表示することができる。ＣＰＵ１１５は、ハードウェアコンポーネントおよび／またはソフトウェアコンポーネントからの命令を解釈して実行することができる。ハードディスクユニット１２０は、記憶デバイスから情報（例えば、ドキュメント、データ）を受け取ることができる。メモリユニット１２５は、情報を記憶することができる。入力ユニット１３０（例えば、キーボード、マウス、人的なまたは人的でない他の入力デバイス）が、スクリーン、スキャナ、ディスク、コンピュータ、および／またはアプリケーションから、処理するための情報（例えば、少なくとも１つのドキュメントイメージ）を受け取ることができる。

ソフトウェアは、１つ以上のデータベース１４５と、少なくとも１つのＯＣＲブースティングモジュール１５０と、少なくとも１つのイメージ処理モジュール１５５と、少なくとも１つのＯＣＲモジュール１６０と、少なくとも１つのドキュメント入力モジュール１６５と、少なくとも１つのドキュメントコンバートモジュール１７０と、少なくとも１つのテキスト処理統計的解析モジュール１７５と、少なくとも１つのドキュメント／出力後処理モジュール１８０と、少なくとも１つのシステムアドミニストレーションモジュール１８５とを具備することができる。データベース１４５は、情報を記憶することができる。イメージ処理モジュール１５５は、イメージを処理することができる、ソフトウェアを備えることができる。ＯＣＲモジュール１６０は、入力ユニット１３０によって（例えば、スキャナを使用して）スキャンインされたイメージのテキスト表現を発生させることができるソフトウェアを備えることができる。１つの実施形態において、複数のＯＣＲモジュール１６０を利用できることに留意すべきである。加えて、異なるパラメータセットおよび異なるイメージの前処理を利用することができる。例えば、異なるＯＣＲモジュールに対して利用できるパラメータセットは、あるディクショナリ、適用可能言語、認識されるべきキャラクタサブセット（例えば、すべての数字、または、すべてのキャラクタ）を含むことができるが、これらに限定されない。イメージの前処理は、回転補正、ノイズ除去、（例えば、イメージのエッジのコントラストを強調して、エッジをより明確に見せる）エッジ強調フィルタ、（例えば、色の表現を、１つの参照フレームから別の参照フレームに変換して、変換したイメージを元々のイメージに、より類似して見せる）色空間変更、および、これらの任意の組み合わせを含むことができるが、これらに限定されない。ドキュメント入力モジュール１６５は、（例えば、トレーニングのために使用される）情報を取得するために、（例えば、システム１００中で、または、他の場所で前処理された）前処理されたドキュメントを扱うことができるソフトウェアを備えることができる。例えば、既にＯＣＲされたドキュメントが利用可能である場合、ＯＣＲブースタートレーニング段階において、これらのドキュメント（例えば、イメージレットおよびキャラクタ）からの情報を使用して、ＯＣＲブースターセットを生成させることができる。ドキュメント表現（例えば、イメージおよび／またはＯＣＲテキスト）をＯＣＲブースティングモジュール１５０に送ることができ、このＯＣＲブースティングモジュール１５０は、学習と、抽出と、妥当性検証とを実行することができる。例えば、図２−図５に関して以下でより詳細に説明するように、イメージおよび最初のＯＣＲ結果を入力として使用し、ＯＣＲブースティングモジュール１５０をトレーニングおよび／または使用して、第２のＯＣＲ結果に関連する信頼度レーティングを含む最初のＯＣＲ結果の正確さに関するセカンドオピニオンを得ることができる。ドキュメントコンバートモジュール１７０は、ドキュメントを１つの形式から別の形式に（例えば、ＷｏｒｄからＰＤＦに）変えることができるソフトウェアを備えることができる。テキスト処理統計的解析モジュール１７５は、テキスト情報を前処理するために、発生されたテキストの統計的解析を提供することができるソフトウェアを備えることができる。例えば、ワードの頻度等のような情報を提供することができる。ドキュメント／出力後処理モジュール１８０は、特定の形態（例えば、ユーザによって要求されたフォーマット）で、結果ドキュメントを整えることができるソフトウェアを備えることができる。ドキュメント／出力後処理モジュール１８０は、付加的なフォーマット化および処理のために、結果情報を第三者または内部アプリケーションに送ることもできる。システムアドミニストレーションモジュール１８５は、アドミニストレータがソフトウェアおよびハードウェアを管理することを可能にするソフトウェアを備えることができる。１つの実施形態において、個々のモジュールは、（これらの特定の入力インターフェースを通して）接続することができるソフトウェアモジュールとして実現することができ、これらの出力は、さらなる処理のために所望されたモジュールにルーティングすることができる。すべての記述したモジュールは、１つのＣＰＵまたは多くのＣＰＵ上で、仮想機械上で、メインフレーム上で、あるいはＣＰＵ１１５のような、記述した情報処理インフラストラクチャ内のシェル上でランすることができる。データベース１４５は、ハードディスクユニット１２０上に記憶させることができる。

ＯＣＲブースティングモジュール１５０は、（図２−図３に関してさらに説明する）学習と、抽出と、妥当性検証とを実行することができる。ＯＣＲブースティングモジュール１５０によって発生された付加的な情報を、データベース１４５に、または、外部入力（例えば、通信／出力ユニット１０５、通信ネットワーク１０１、ハードディスクユニット１２０、およびアドミニストレーションモジュール１８５）に送ることができる。抽出モジュール１５０の出力または出力の一部は、後処理モジュール１８０を使用して、または、後処理モジュール１８０を使用しないで、さまざまなコンポーネント（例えば、通信／出力ユニット１０５、表示ユニット１１０、ハードディスクユニット１２０、メモリユニット１２５、通信ネットワーク１０１、コンバートモジュール１７０、データベース１４５、ＯＣＲモジュール１６０、統計的解析モジュール１７５）中で入力パラメータとして記憶、提示、または使用することができる。このようなフィードバックシステムが、反復改良を可能にすることができる。

図２および図４は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させる方法を図示しており、図３および図５は、１つの実施形態にしたがった、例示的な方法を図示している。特に、図２および図３は、ＯＣＲの認識の精度を向上させるために学習セットを構築する方法２００と、方法２００の例とを図示している。図４および図５は、ＯＣＲの認識の精度を向上させるために新しいドキュメントを学習セットと比較する方法４００と、方法４００の例とを図示している。

図２を参照すると、２０５では、少なくとも１つのドキュメントの少なくとも１つのイメージを（例えば、スキャナを使用して）入力ユニット１３０にスキャンすることができ、スキャンしたイメージをＯＣＲブースティングモジュール１５０に入力することができる。例えば、インボイスのイメージを、スキャンインすることができる。加えて、少なくとも１つのドキュメントに適用された、少なくとも１つのＯＣＲモジュール１６０からの最初のＯＣＲ結果を、ＯＣＲブースティングモジュール１５０に入力することができる。例えば、インボイス上のデータであると推定されるデータ（例えば、「インボイスの日付」、「１０／２０／２００８」、「インボイスの額」、「２０３．３５」）を含む、インボイスからの最初のＯＣＲ結果を、ＯＣＲブースティングモジュール１５０に入力することができる。１つの実施形態において、キャラクタイメージレット（すなわち、ＯＣＲモジュール１６０にキャラクタを検出させたイメージのその一部分）は、ＯＣＲモジュール１６０によって見いだされたキャラクタとともに、ＯＣＲブースティングモジュール１５０に送ることができる。

１つの実施形態において、１つのドキュメント、１ページ、ページの一部（例えば、ゾーン、パラグラフ、行、またはワード）、複数のページ、または、複数のドキュメント、またはこれらの任意の組み合わせを、ＯＣＲブースティングモジュール１５０に入力できることに留意されたい。方法２００は、完全なドキュメントまたは複数のドキュメントよりはむしろ小さいドキュメント部分に基づくことができることから、より大きいセットよりはむしろ、より小さいセット（例えば、複数ページと比べて行またはパラグラフ）をＯＣＲブースティングモジュール１５０に入力するとき分散は小さいことが多いので、関心あるキャラクタを識別するために実行される、（例えば、複数のフォント、複数のフォントスケール、複数のフォント属性（例えば、ボールド、イタリック）による）汎化を最小にすることができる。付加的に、１つの実施形態において、キャラクタのそれぞれのサブセットに対して、方法２００を利用することができる。したがって、学習セット内のキャラクタ間の潜在的な混乱を、このようなキャラクタサブセットに制限することができる。このようなサブセットの例は、数字、句読点マーク、小文字のアルファベットのキャラクタ、大文字のアルファベットのキャラクタ等である。

２１０では、ドキュメントのイメージからＯＣＲモジュール１６０によって取得されたキャラクタに対応しているイメージレット（すなわち、イメージ部分またはキャラクタイメージレット）をコンパイルすることによって、少なくとも１つのＯＣＲシードを生成させる。ドキュメントイメージからそれぞれのキャラクタイメージレットを抽出することによって、イメージレットを取得することができる。ドキュメントイメージ中の（例えば、バウンディングボックスによって表されている）キャラクタイメージレットの調整に基づいてキャラクタイメージレットを発生させるために、キャラクタセグメント化アルゴリズムを使用することができる。例えば、キャラクタセグメント化アルゴリズムのオプションは、Casey, R G. et al., キャラクタセグメント化の方法および戦略の研究（A Survey of Methods and Strategies in Character Segmentation）, IEEE Trans. Pattern Anal. Mach Intell, Vol.18, No.7 (July 1996), 690-706.を参照する。

例えば、図３を参照すると、ＯＣＲモジュール１６０がキャラクタ「６」としてコンバートした、ドキュメント中のキャラクタイメージレットを、ＯＣＲブースティングモジュール１６０が取得することができる。したがって、ＯＣＲモジュールは、いくつかの「６」のキャラクタを取得する可能性があり、また、「８」、「５」、および「Ｅ」はキャラクタ「６」に類似して見えることが多いので、ＯＣＲモジュールは、これらのものを誤って取得する可能性がある。

ＯＣＲのエラーが原因で、キャラクタイメージレットは、すべて同一であるとは限らないことに留意すべきである。しかしながら、ＯＣＲモジュール１６０は、（例えば、５０％より多い）非常に多くの正しいキャラクタを返すことができるので、正しいクラスがデータセットを支配できる。

再び図２を参照すると、２１５では、（例えば、図５の５１５および５２０において以下で記述するような、ピクセルまたは色空間情報に基づいて）ＯＣＲシードから、類似したイメージレットを選択することによって、ＯＣＲクリーンされたシードを生成させることができる。イメージレット間の間隔（例えば、ピクセルベース）を計算して、これらの類似性を決定することができる統計的測定および／またはクラスタリング方法によって、類似したイメージレットを決定することができる。使用することができる、統計的測定および／またはクラスタリング方法の例は、ベイズネットワーク、主成分解析、ＡＮＯＶＡ、ＭＡＮＯＶＡ、独立成分解析、または人間の介入、またはこれらの任意の組み合わせを含むが、これらに限定されない。図５では、この類似性ベースの選択プロセスを図示している。その後、計算された間隔を使用して、ＯＣＲクリーンされたシードと呼ばれる、類似したイメージレットのサブセットを生成させることができる。ＯＣＲクリーンされたシードは、最初のセットからの任意の数（例えば、なし、いくつか、すべて）のイメージレットを含むことができる。複数のフォント、複数のフォントスケール、および／または複数のフォント属性（例えば、ボールド、イタリック）を考慮に入れることができる。例えば、１つの実施形態では、フォントタイプおよびフォントサイズに関する、ＯＣＲから返された、または、ＯＣＲブースターモジュールによって抽出された情報を使用して、特定のフォントタイプまたはフォントサイズに関しても類似するイメージレットのみを含むＯＣＲクリーンされたサブシードを生成させることもあり得る。別の例としては、数字であるイメージレットのみを含むＯＣＲクリーンされたサブシードを生成させることでき、ボールドフォントの数字であるイメージレットのみを含む別のＯＣＲクリーンされたサブシードを生成させることができる。クリーンされたサブシードの生成および後続する適用が、ＯＣＲブースティング性能を改善することができる。

図３の３１５は、（図２の２１５において生成された）クリーンされたＯＣＲシードの例を図示している。３１５では、ＯＣＲ結果とフォント属性との点で大変類似しているイメージレットのフィルタリングされたセットを示している。図２の２２０において示されているように、イメージレットのこのセットに基づいて、学習セットを生成させることができる。学習セットは、ＯＣＲモジュール１６０によって識別されたキャラクタのそれぞれに対して、それぞれのキャラクタに対応しているとして識別されたイメージレットに対する平均および分散を含むことができる。図３の３２０ａおよび３２０ｂでは、関心あるイメージレットが数字０ないし９である、このような学習セットの例を示している。３２０ａでは、それぞれのキャラクタ（例えば、０ないし９）に対するすべての選択されたイメージレットに対する（例えば、２Ｄの）ピクセルに関する平均を示しており、ここでは、分散を黒で示している。３２０ｂでは、（例えば、キャラクタ０ないし９に対応している）同じ選択されたイメージレットに対する分散を示している。数字のエッジにおいて、最高のばらつきが示され得ることに留意されたい。図５に関して記述したように、実際のＯＣＲブースティングが信頼度レベルを計算する学習セットの適用の間、この情報を考慮に入れることができる。

分類器（例えば、サポートベクターマシーン、ニューラルネットワーク）を直接的にトレーニングするためにＯＣＲ学習セットを使用できることにも留意すべきである。イメージレットおよび各ＯＣＲの最初の結果を、このようなトレーニング可能な分類器に対する入力として使用することができ、あるアルゴリズムにしたがってトレーニングを実行することができる。このようなアルゴリズムは、サポートベクターマシーン、ニューラルネットワーク、ベイズ分類器、決定ツリー、およびブーストラッピング方法とすることができるが、これらに限定されない。予めトレーニングされた分類器を適用する（このプロセスを、分類段階と呼ぶことがある）ことによって、実際のＯＣＲブースティング（すなわち、所定のイメージレットに対する所定のＯＣＲ結果に関するセカンドオピニオンを取得すること）を実行することができる。フィルタリングされたイメージレットセット、フィルタリングされていないイメージレットセット、前処理されたイメージレットセット、または生のイメージレットセットに基づいて、分類器をトレーニングすることができる。

先に述べたように、図４および図５は、１つの実施形態にしたがった、ＯＣＲの認識の精度を向上させるために新しいドキュメントを学習セットと比較する方法４００と、方法４００の例とを図示している。図４を参照すると、４０５において、少なくとも１つの新しいドキュメントからの少なくとも１つのイメージレットを、その最初のＯＣＲ結果とともに入力する。図５の５０５では、例のイメージレット「８」が、ＯＣＲが見いだした結果：「６」とともに入力される。他の多くのイメージレット、および、これらのＯＣＲ結果が入力される可能性があることに留意されたい。

４１０において、２２０において学習されたＯＣＲ学習セットを入力する。先に述べたように、ＯＣＲ学習セットは、関心あるそれぞれのイメージレットに対する、平均および分散を含むことができる。図５の例では、図５の５１０ａ／５１０ｂにおいて、図３の３２０ａ／３２０ｂ中で図示されているＯＣＲ学習セットを利用している。

４１５において、新しいドキュメントからの関心あるそれぞれのイメージレットを、ＯＣＲ学習セットと比較する。図５における５１５の例では、イメージレット「８」を、（数字０ないし９に対する、平均５１０ａおよび分散５１０ｂによって視覚化されている）学習セット中のそれぞれのキャラクタと比較する。５１５では、イメージレット「８」と学習セット中の数字のそれぞれとの比較を図示するために、学習セット（５１０ａおよび５１０ｂ）中のそれぞれの数字の下に、同じイメージレット「８」を示している。

図４に戻って参照すると、４２０において、新しいドキュメントのイメージレットと、ＯＣＲ学習セットとの比較を使用し、それぞれのイメージレットに対する不整合の分布を生成させる。図５の５２０では、比較の不整合の分布の例を図示しており、ここでは、数字０ないし９と比べたイメージレット「８」（この例示的な学習セット中のすべての数字）に対する不整合の分布が生成されている。不整合の分布５２０において、緑は、チェックされるべきイメージレットと学習セットのキャラクタとの間での相対的に過剰なピクセルを示し、赤は、チェックされるべきイメージレットと学習セットのキャラクタとの間でのピクセルの不足を示し、黒は、各ポジションにおける整合（例えば、チェックされるべきイメージレットと学習セットのキャラクタとの間に相違がないこと）を示す。

４２５では、解析されているイメージと学習セット中のイメージとの間で最も近く整合しているものを選択することによって、特定のイメージレットに対するＯＣＲブースターの結果が見いだされる。したがって、ＯＣＲ学習セットを使用して、元々ＯＣＲスキャンされたイメージからのそれぞれのキャラクタイメージレットを再分類することができる。このことは、不一致を解決し、ＯＣＲ補正レートをブーストすることに役立つことができる。４２５では、信頼度レーティングも提供することができる。図５の５２５では、「８」のＯＣＲブースターの結果の例を、５．６４の信頼度レーティングで図示している。

先に述べたように、それぞれの学習されたキャラクタに対するＯＣＲブースター学習セットの統計を、実際のイメージレットと比較することによって、関心あるそれぞれのイメージレットに対するＯＣＲブースターの結果に対して、信頼度レーティングを計算することができる。トレーニングされた分類器（例えば、サポートベクターマシーン、ニューラルネットワーク）のアプリケーションによっても、信頼値を取得することができる。したがって、例としてここで与えられた信頼度レーティング５．６４は、ＯＣＲブーストされるべきである提示されているイメージレットと、その現在の状態における学習セットとの間の相対的なスコアとして理解することができる。

学習セット内のそれぞれのキャラクタに対する信頼度レーティングは、混同行列に対する根拠として使用することができる。ＯＣＲブースティングにより取得された信頼度レーティングは、（高い信頼度レーティングを持つキャラクタのみがチェックされるように）チェックされるべき潜在的キャラクタの数を絞ることができるので、混同行列は、（例えば、Ｎ−グラム統計を適宜変更することによる）さらなる改良の曖昧なサーチングアプローチ、ディクショナリ探索、あるいはドキュメントからの妥当性検証ルールまたは正規表現ベースの情報検索に役立つことができる。したがって、組み合わせ的爆発を回避することができる。例えば、キャラクタシーケンス「２８／０１／２００９」の場合、上記で下線が引かれている月の場所に対してキャラクタ０−９が正確なキャラクタであるために、ＯＣＲブースターは、以下の信頼度レーティングを返すことができる。

上記のチャートによると、すべての他のキャラクタが大変低いスコアを有しているので、チェックする潜在的なブースティングされるキャラクタの量を、１０個（０、１、２、３、４、５、６、７、８、および９）から、２個（０および９）に減少させることができる。その上、データが、日付のフォーマットＸＸ／ＸＸ／ＸＸＸＸを有するキャラクタシーケンスである情報であるならば、下線が引かれた場所における「９」は、同様に除外することができる。したがって、さらなる何らかの処理のために、関心あるキャラクタは「０」のみであると仮定することができる。

現在のドキュメント（または、ページ、ゾーン等）に対して、確率重み付けされた２Ｄピクセル情報を含むＯＣＲブースター学習セットを発生させることができ、そしてイメージレットの履歴を維持したり、新しいものを連続的に追加したりすることによって、ドキュメント（または、ページ、ゾーン等）を変更している間に動的に適合させることができることにも留意すべきである。例えば、ドキュメント処理を修正するために、図３の例示的なＯＣＲシード３１０を使用することができる。したがって、イメージレットの数が、増加し続けることもある。イメージレットバッファ上でエイジングを使用することも、そして、新しいものを追加するときに、「最も古い」イメージレットを除去することも可能である。このような方法では、例えば、シーケンシャルなゾーンにおいてドキュメントを処理するとき、ＯＣＲブースター学習セットを、ドキュメントの属性の変更に適合させることができる。このような方法では、上述したように、典型的なドキュメントは、フォントを、キャラクタごとに変えるのではなく、むしろパラグラフ（または他の類似したテキストゾーン）ごとに変えるので、ＯＣＲブースター学習セットは、現在のフォントと正確に整合することができる。

加えて、信頼レートが付与された２Ｄピクセル情報を含むＯＣＲブースター学習セットは、キャラクタピクセルの分散と、キャラクタの周囲のホワイトスペースのノイズ統計とを含むことができることに留意すべきである。バックグラウンドノイズについての統計は、そのノイズを除去するためのフィルタを考案するのに非常に有用であることができる。ＯＣＲブースター学習セットは、キャラクタの統計（例えば、キャラクタの各ピクセル）と、エッジの分散（３２０ａおよび３２０ｂの双方において示されている例）とを含むことができる。付加的に、バックグラウンドの統計（例えば、空間に加えてキャラクタ−ピクセル）を取得することができる。このことから、スペックルノイズについての統計を考案することができ、スペックル除去フィルタ設計では追加入力として利用することができる。

さらには、単一のページ上でＯＣＲブースター学習およびアプリケーションを実行するとき、それぞれのキャラクタを個々にではなく、ページ全体を回転させることができるので、ドキュメントの回転でさえもＯＣＲブースター学習セットに組み込むことができる。このことは、結果として、ページ全体を回転させるときでさえ、１ページ内のキャラクタ間でゼロ度の相対的回転になることができる。

図２の２０５に関して上記で説明したように、より小さいセット（例えば、数ページと比べてページの一部）をＯＣＲブースティングモジュール１５０に入力することができるので、（図３に関してより詳細に記述されている）イメージレットのバックグラウンド情報は、ＯＣＲ学習セットを考慮に入れることができることにも留意すべきである。例えば、イメージレットのバックグラウンドが、特定のピクセルパターン（例えば、１ビットの色空間において、グレースケールのイメージをサンプリングするときに通常生じるもの）を含むとき、イメージレット間隔の計算の際に、このようなピクセルパターンの重み付けを少なくすることができる。そして、これらのピクセルパターンは、ＯＣＲブースティングイメージレットの比較の間に無視されるべきであるバックグラウンド情報のみを表すことで知られている。したがって、バックグラウンドノイズを除去する付加的なアルゴリズムは、必須ではない。

さらには、ＯＣＲ学習セットは、より小さいセットに基づくことができるので、イメージの歪みは共通なものにならないだろう。例えば、ＯＣＲ学習セットを生成させるために複数のページを使用する場合に、ページをスキャンするとき、ページは完全に整列されないことが多く、したがって、イメージレットは、より多くのばらつきを有し、実行しなければならない汎化が増加するだろう。しかしながら、１ページの１パラグラフだけを使用する場合には、１ページだけスキャンするので、イメージの歪みは存在しないだろう。大量の汎化は、人間がしそうにもないエラー（例えば、わずかに歪んだ「８」と「ｆ」との間違い）の原因となることに留意すべきである。これに対して、少量の汎化は、人間がするであろうエラー（例えば、「１」（１）と「ｌ」（文字ｌ）との間違い）の原因となることが多い。システム１００は、人間よりも不正確であることはなく、かつ、人間よりも、使用するコストがずっと低いであろうことが多いので、人間がするであろうエラーのみをすることは、システム１００の受容性を向上させることができる。

上記のシステム１００および方法２００を利用して見いだされた情報（例えば、ＯＣＲシード、ＯＣＲクリーンされたシード、ＯＣＲ学習セットとともに、不整合の分布に関連する何らかの情報、ＯＣＲブースターの結果、および信頼度レーティング）のうちの任意のものを、（例えば、学習セット、イメージレットの集まり、または各統計として）記憶することができることに留意すべきである。この情報は、同じまたは類似したクラスからのイメージをレビューすべきときに再使用することができる。この情報は、ＯＣＲシードを生成させる最初のＯＣＲランの一部または置換として、あるいは、ドキュメントに対する学習セットの根拠として使用することができ、したがって、統計の信頼性を増加させることができる。加えて、データ、前処理方法、および／または他のパラメータの改良を可能にするために、方法２００の手順全体は反復して実行することができる。

本発明のさまざまな実施形態を上記で記述してきたが、本発明のさまざまな実施形態は、例により提示しており、限定されていないことを理解すべきである。本発明の精神および範囲から逸脱することなく、形態および詳細のさまざまな変更をここで行うことができることは当業者に明らかになるだろう。したがって、本発明は、上述した例示的な実施形態のうちのいずれのものによって限定されるべきではない。

加えて、上述した図面は、本発明の機能性および利点を強調しており、例示目的のみのために提示していることを理解すべきである。本発明のアーキテクチャは、十分に柔軟性があり、構成可能であり、これにより、図面中で示したもの以外の方法で、本発明のアーキテクチャを利用できる。

さらには、この開示の要約書の目的は、米国特許商標庁が、および、一般的な人々が、特に、特許または法律用語または語句に精通していない、科学者や、エンジニアや、技術的な従業者が、この出願の技術的開示の性質および本質を大雑把な検討から迅速に決定することを可能にすることである。この開示の要約書は、決して、本発明の範囲について限定することを意図したものではない。

最後に、「する手段」または「するステップ」という明確な言葉を含む請求項のみが３５Ｕ．Ｓ．Ｃ．１１２条第６パラグラフのもと解釈されることが出願人の意図である。「する手段」または「するステップ」というフレーズを明確に含まない請求項は、３５Ｕ．Ｓ．Ｃ．１１２条第６パラグラフのもとで解釈されるべきではない。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
少なくとも１つのアイテムに対する光学式文字認識（ＯＣＲ）の精度を向上させる方法において、
少なくとも１つのＯＣＲモジュールから、ＯＣＲスキャニングのＯＣＲ結果を取得することと、
前記ＯＣＲ結果の少なくとも一部分を使用して、少なくとも１つのＯＣＲシードを生成させることと、
前記ＯＣＲシードの少なくとも一部分を使用して、少なくとも１つのＯＣＲ学習セットを生成させることと、
前記ＯＣＲ学習セットを前記少なくとも１つのアイテムに適用して、付加的な光学式文字認識（ＯＣＲ）結果を取得することとを含む方法。
［Ｃ２］
前記少なくとも１つのＯＣＲ学習セットに基づいて、イメージ統計を演繹するＣ１記載の方法。
［Ｃ３］
前記少なくとも１つのアイテムは、
少なくとも１つのページ、
少なくとも１つのドキュメント、
少なくとも１つのドキュメントの少なくとも１つの部分、
少なくとも１つのゾーン、
少なくとも１つのパラグラフ、
少なくとも１つの行、
少なくとも１つのワード、または、
少なくとも１つのキャラクタ、または、
これらの任意の組み合わせを含むＣ１記載の方法。
［Ｃ４］
異なるアイテムに対して、前記少なくとも１つのＯＣＲ学習セットを使用するＣ１記載の方法。
［Ｃ５］
異なるＯＣＲモジュールおよび／または異なるパラメータセットおよび／または異なる前処理ステップを使用するＣ１記載の方法。
［Ｃ６］
前記付加的なＯＣＲ結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるＣ１記載の方法。
［Ｃ７］
前記少なくとも１つのＯＣＲ学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるＣ１記載の方法。
［Ｃ８］
前記方法の改良を可能にするために、前記方法は反復して前もって形成されるＣ１記載の方法。
［Ｃ９］
前記ＯＣＲ結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも１つのＯＣＲシードを生成させるＣ１記載の方法。
［Ｃ１０］
前記少なくとも１つのＯＣＲ学習セットは、記憶されているイメージレットおよび／または新しいイメージレットを含むＣ９記載の方法。
［Ｃ１１］
統計的測定および／またはクラスタ解析を使用して、類似したイメージレットを選択するＣ１５記載の方法。
［Ｃ１２］
前記統計的測定および／またはクラスタ解析は、
少なくとも１つのベイズ分類器、
少なくとも１つのニューラルネットワーク分類器、
少なくとも１つのサポートベクター分類器、または
これらの任意の組み合わせを含むＣ１１記載の方法。
［Ｃ１３］
前記少なくとも１つのＯＣＲ学習セットを増加させるために、記憶されているイメージレットを使用するＣ９記載の方法。
［Ｃ１４］
少なくとも１つのイメージフィルタリング技術を得るために、前記少なくとも１つのＯＣＲ学習セットおよび関連する統計を使用するＣ９記載の方法。
［Ｃ１５］
前記ＯＣＲ結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも１つのＯＣＲシードがクリーンされるＣ９記載の方法。
［Ｃ１６］
前記少なくとも１つのＯＣＲクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記ＯＣＲ学習セットを生成させるＣ１記載の方法。
［Ｃ１７］
前記イメージ表現は、ビットマップであるＣ１６記載の方法。
［Ｃ１８］
前記ビットマップは、グレースケールまたはカラーであるＣ１７記載の方法。
［Ｃ１９］
前記少なくとも１つのＯＣＲ学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも１つのＯＣＲ学習セットの少なくとも１つの不整合の分布を生成させることと、
前記少なくとも１つの不整合の分布に基づいて、前記ＯＣＲの付加的な結果を発生させることとをさらに含むＣ９記載の方法。
［Ｃ２０］
少なくとも１つのアイテムに対する光学式文字認識（ＯＣＲ）の精度を向上させるシステムにおいて、
少なくとも１つのプロセッサを具備し、
前記少なくとも１つのプロセッサは、
少なくとも１つのＯＣＲモジュールから、ＯＣＲスキャニングのＯＣＲ結果を取得することと、
前記ＯＣＲ結果の少なくとも一部分を使用して、少なくとも１つのＯＣＲシードを生成させることと、
前記ＯＣＲシードの少なくとも一部分を使用して、少なくとも１つのＯＣＲ学習セットを生成させることと、
前記ＯＣＲ学習セットを前記少なくとも１つのアイテムに適用して、付加的な光学式文字認識（ＯＣＲ）結果を取得することとを実行するように構成されているシステム。
［Ｃ２１］
前記少なくとも１つのＯＣＲ学習セットに基づいて、イメージ統計を演繹するＣ２０記載のシステム。
［Ｃ２２］
前記少なくとも１つのアイテムは、
少なくとも１つのページ、
少なくとも１つのドキュメント、
少なくとも１つのドキュメントの少なくとも１つの部分、
少なくとも１つのゾーン、
少なくとも１つのパラグラフ、
少なくとも１つの行、
少なくとも１つのワード、または、
少なくとも１つのキャラクタ、または、
これらの任意の組み合わせを含むＣ２０記載のシステム。
［Ｃ２３］
異なるアイテムに対して、前記少なくとも１つのＯＣＲ学習セットをＣ２０記載のシステム。
［Ｃ２４］
異なるＯＣＲモジュールおよび／または異なるパラメータセットおよび／または異なる前処理ステップを使用するＣ２０記載のシステム。
［Ｃ２５］
前記付加的なＯＣＲ結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れるＣ２０記載のシステム。
［Ｃ２６］
前記少なくとも１つのＯＣＲ学習セットを生成させる際に、ホワイトスペース特性を考慮に入れるＣ２０記載のシステム。
［Ｃ２７］
方法の改良を可能にするために、前記方法は反復して前もって形成されるＣ２０記載のシステム。
［Ｃ２８］
前記ＯＣＲ結果において識別されたそれぞれのキャラクタに対応しているイメージレットをコンパイルすることによって、前記少なくとも１つのＯＣＲシードを生成させるＣ２０記載のシステム。
［Ｃ２９］
前記少なくとも１つのＯＣＲ学習セットは、記憶されているイメージレットおよび／または新しいイメージレットを含むＣ２８記載のシステム。
［Ｃ３０］
統計的測定および／またはクラスタ解析を使用して、類似したイメージレットを選択するＣ３４記載のシステム。
［Ｃ３１］
前記統計的測定および／またはクラスタ解析は、
少なくとも１つのベイズ分類器、
少なくとも１つのニューラルネットワーク分類器、
少なくとも１つのサポートベクター分類器、または
これらの任意の組み合わせを含むＣ３０記載のシステム。
［Ｃ３２］
前記少なくとも１つのＯＣＲ学習セットを増加させるために、記憶されているイメージレットを使用するＣ２８記載のシステム。
［Ｃ３３］
少なくとも１つのイメージフィルタリング技術を得るために、前記少なくとも１つのＯＣＲ学習セットおよび関連する統計を使用するＣ２８記載のシステム。
［Ｃ３４］
前記ＯＣＲ結果において識別されたそれぞれのキャラクタに対する類似したイメージレットを選択することによって、前記少なくとも１つのＯＣＲシードがクリーンされるＣ２８記載のシステム。
［Ｃ３５］
前記少なくとも１つのＯＣＲクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記ＯＣＲ学習セットを生成させるＣ２０記載のシステム。
［Ｃ３６］
前記イメージ表現は、ビットマップであるＣ３５記載の方法。
［Ｃ３７］
前記ビットマップは、グレースケールまたはカラーであるＣ３６記載の方法。
［Ｃ３８］
前記少なくとも１つのＯＣＲ学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも１つのＯＣＲ学習セットの少なくとも１つの不整合の分布を生成させることと、
前記少なくとも１つの不整合の分布に基づいて、前記ＯＣＲの付加的な結果を発生させることとをさらに含むＣ２８記載の方法。

Claims

少なくとも１つのアイテムに対する光学式文字認識（ＯＣＲ）の精度を向上させる方法において、
少なくとも１つのＯＣＲモジュールから、ＯＣＲスキャニングのＯＣＲ結果を取得することと、
前記ＯＣＲ結果の少なくとも一部分を使用して、少なくとも１つのＯＣＲシードを生成させることと、前記少なくとも１つのＯＣＲシードは、前記ＯＣＲ結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも１つのＯＣＲシードは、前記ＯＣＲ結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
前記ＯＣＲシードの少なくとも一部分を使用して、少なくとも１つのＯＣＲ学習セットを生成させることと、
前記少なくとも１つのＯＣＲ学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも１つのＯＣＲ学習セットの少なくとも１つの不整合の分布を生成させることと、前記少なくとも１つの不整合の分布は、少なくとも１つの可能性のあるキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも１つの信頼度レーティングを含み、
前記少なくとも１つの不整合の分布を適用し付加的なＯＣＲ結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記ＯＣＲ学習セットおよび前記少なくとも１つの不整合の分布を前記少なくとも１つのアイテムに適用して、前記付加的なＯＣＲ結果を取得することとを含む方法。
前記少なくとも１つのＯＣＲ学習セットに基づいて、イメージ統計を演繹する請求項１記載の方法。
前記少なくとも１つのアイテムは、
少なくとも１つのページ、
少なくとも１つのドキュメント、
少なくとも１つのドキュメントの少なくとも１つの部分、
少なくとも１つのゾーン、
少なくとも１つのパラグラフ、
少なくとも１つの行、
少なくとも１つのワード、または、
少なくとも１つのキャラクタ、または、
これらの任意の組み合わせを含む請求項１記載の方法。
異なるアイテムに対して、前記少なくとも１つのＯＣＲ学習セットを使用する請求項１記載の方法。
異なるＯＣＲモジュールおよび／または異なるパラメータセットおよび／または異なる前処理ステップを使用する請求項１記載の方法。
前記付加的なＯＣＲ結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れる請求項１記載の方法。
前記少なくとも１つのＯＣＲ学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項１記載の方法。
前記方法の改良を可能にするために、前記方法は反復して実行される請求項１記載の方法。
前記少なくとも１つのＯＣＲ学習セットは、記憶されているイメージレットおよび／または新しいイメージレットを含む請求項１記載の方法。
統計的測定および／またはクラスタ解析を使用して、類似したイメージレットを選択する請求項１記載の方法。
前記統計的測定および／またはクラスタ解析は、
少なくとも１つのベイズ分類器、
少なくとも１つのニューラルネットワーク分類器、
少なくとも１つのサポートベクター分類器、または
これらの任意の組み合わせを含む請求項１０記載の方法。
前記少なくとも１つのＯＣＲ学習セットを増加させるために、記憶されているイメージレットを使用する請求項１記載の方法。
少なくとも１つのイメージフィルタリング技術を得るために、前記少なくとも１つのＯＣＲ学習セットおよび関連する統計を使用する請求項１記載の方法。
前記少なくとも１つのＯＣＲクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記ＯＣＲ学習セットを生成させる請求項１記載の方法。
前記イメージ表現は、ビットマップである請求項１４記載の方法。
前記ビットマップは、グレースケールまたはカラーである請求項１５記載の方法。
少なくとも１つのアイテムに対する光学式文字認識（ＯＣＲ）の精度を向上させるシステムにおいて、
少なくとも１つのプロセッサを具備し、
前記少なくとも１つのプロセッサは、
少なくとも１つのＯＣＲモジュールから、ＯＣＲスキャニングのＯＣＲ結果を取得することと、
前記ＯＣＲ結果の少なくとも一部分を使用して、少なくとも１つのＯＣＲシードを生成させることと、前記少なくとも１つのＯＣＲシードは、前記ＯＣＲ結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対応している複数のイメージレットを含み、前記少なくとも１つのＯＣＲシードは、前記ＯＣＲ結果の前記少なくとも一部分において識別されたそれぞれのキャラクタに対し互いに類似したイメージレットを選択することによって、クリーンされ、
前記ＯＣＲシードの少なくとも一部分を使用して、少なくとも１つのＯＣＲ学習セットを生成させることと、
前記少なくとも１つのＯＣＲ学習セットをそれぞれのイメージレットと比較して、それぞれのイメージレットと比較した前記少なくとも１つのＯＣＲ学習セットの少なくとも１つの不整合の分布を生成させることと、前記少なくとも１つの不整合の分布は、少なくとも１つの可能なキャラクタと比較した前記イメージレットに対する信頼度スコアを含む少なくとも１つの信頼度レーティングを含み、
前記少なくとも１つの不整合の分布を適用し付加的なＯＣＲ結果を取得する場合に、しきい値より高い信頼度スコアを有している、可能性のあるキャラクタだけが検討されるように、前記ＯＣＲ学習セットおよび前記少なくとも１つの不整合の分布を前記少なくとも１つのアイテムに適用して、前記付加的なＯＣＲ結果を取得することとを実行するように構成されているシステム。
前記少なくとも１つのＯＣＲ学習セットに基づいて、イメージ統計を演繹する請求項１７記載のシステム。
前記少なくとも１つのアイテムは、
少なくとも１つのページ、
少なくとも１つのドキュメント、
少なくとも１つのドキュメントの少なくとも１つの部分、
少なくとも１つのゾーン、
少なくとも１つのパラグラフ、
少なくとも１つの行、
少なくとも１つのワード、または、
少なくとも１つのキャラクタ、または、
これらの任意の組み合わせを含む請求項１７記載のシステム。
異なるアイテムに対して、前記少なくとも１つのＯＣＲ学習セットを請求項１７記載のシステム。
異なるＯＣＲモジュールおよび／または異なるパラメータセットおよび／または異なる前処理ステップを使用する請求項１７記載のシステム。
前記付加的なＯＣＲ結果は、
フォントサイズ、
フォントタイプ、または、
フォント属性、または、
これらの任意の組み合わせを考慮に入れる請求項１７記載のシステム。
前記少なくとも１つのＯＣＲ学習セットを生成させる際に、ホワイトスペース特性を考慮に入れる請求項１７記載のシステム。
方法の改良を可能にするために、前記方法は反復して実行される請求項１７記載のシステム。
前記少なくとも１つのＯＣＲ学習セットは、記憶されているイメージレットおよび／または新しいイメージレットを含む請求項１７記載のシステム。
統計的測定および／またはクラスタ解析を使用して、類似したイメージレットを選択する請求項１７記載のシステム。
前記統計的測定および／またはクラスタ解析は、
少なくとも１つのベイズ分類器、
少なくとも１つのニューラルネットワーク分類器、
少なくとも１つのサポートベクター分類器、または
これらの任意の組み合わせを含む請求項２６記載のシステム。
前記少なくとも１つのＯＣＲ学習セットを増加させるために、記憶されているイメージレットを使用する請求項１７記載のシステム。
少なくとも１つのイメージフィルタリング技術を得るために、前記少なくとも１つのＯＣＲ学習セットおよび関連する統計を使用する請求項１７記載のシステム。
前記少なくとも１つのＯＣＲクリーンされたシードにおけるそれぞれのキャラクタに対するイメージ表現と、前記それぞれのキャラクタに対するイメージ表現からの類似したイメージレットのばらつきとに関連する情報を取得することによって、前記ＯＣＲ学習セットを生成させる請求項１７記載のシステム。
前記イメージ表現は、ビットマップである請求項３０記載の方法。
前記ビットマップは、グレースケールまたはカラーである請求項３１記載の方法。