JP5078321B2

JP5078321B2 - 文書の画像に対し光学文字認識を実行する方法

Info

Publication number: JP5078321B2
Application number: JP2006302431A
Authority: JP
Inventors: ジェイローゼンバウアーデビン; シーデヤングデニス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-11-15
Filing date: 2006-11-08
Publication date: 2012-11-21
Anticipated expiration: 2026-11-08
Also published as: US20070110339A1; JP2007141233A; US7505180B2

Description

本開示は一般に、光学文字認識の分野に関する。より具体的には、本開示は、光学文字認識を行なう際の文字の誤識別を減らす方法に関する。

印刷テキストメッセージが書かれた物理的文書から、テキストメッセージの電子ファイルを取得する処理は、文書を光学スキャナやファクシミリ機等の装置で走査することから始まる。そのような装置は、原文書の電子画像を生成する。出力画像は次いでコンピュータその他の処理装置へ送られ、走査された画像に対し光学文字認識（「ＯＣＲ」）アルゴリズムを実行する。

ＯＣＲソフトウェアは次いで、走査された文書の画像を処理して画像とテキストを区別し、明るい領域と暗い領域において何の文字が表わされているかを判定する。旧来のＯＣＲシステムは、これらの画像を特定のフォントに基づいて、格納されているビットマップとマッチングするものであった。そのようなパターン認識システムは結果に当たり外れがあるため、ＯＣＲは不正確との評判が立つ原因となった。より新しいＯＣＲエンジンは、各種の技術を利用して画像を解析し、テキスト文字を画像に関連付けることができる。

例えば、ニューラル・ネットワーク技術を用いて、ストロークのエッジ、テキスト文字間の不連続線、および背景を解析することができる。紙に印刷されたインクの不規則性を許容しつつ、各々のアルゴリズムは、ストロークのエッジに沿った明部と暗部の平均を求め、これを既知の文字とマッチングして、どの文字であるかの最適推測を行なう。ＯＣＲソフトウェアは次いで、全てのアルゴリズムから得た結果を平均化またはポーリングして単一の読み取り内容を得る。あるいは、ＯＣＲソフトウェアは文法認識、スペルチェック、またはウェーブレット変換を用いて各種の文字を認識することができる。

米国特許出願公開第２００３／０１５６７５３号明細書米国特許出願公開第２００５／０１２３１９４号明細書米国特許第５７６５１７６号明細書米国特許第６５７７７５５号明細書

しかし、従来のＯＣＲアルゴリズムは、コピー、印刷、または走査の際に追加または削除される情報に起因して、例えば“ｏａｒ”と“ｃａｒ”、あるいは“ｗｅｔ”と“ｖｅｔ”のような単純な区別を失敗し続ける。現行システムを用いても、光学文字認識では２個の文法的に適切且つ正しくつづられた単語間の相違を効率的に克服することができない。

本発明に係る文書の画像に対し光学文字認識を実行する方法は、テキストを含む文書の画像に対し光学文字認識（ＯＣＲ）を実行する方法であって、前記文書上のテキストに関連付けられたデジタル情報の物理的表記を埋め込むステップと、前記文書をスキャナ装置で走査して、デジタル情報およびデジタル・テキストファイルを生成するステップと、前記デジタル情報を用いて前記デジタル・テキストファイルを検証するステップとを含み、前記テキストに関連付けられた前記デジタル情報の物理的表記を埋め込むステップが、符号化アルゴリズムにより前記テキストを符号化して前記デジタル情報を生成するステップと、前記文書に前記デジタル情報の物理的表記を添付するステップとを含み、前記デジタル・テキストファイルを検証するステップが、前記符号化アルゴリズムにより前記デジタル・テキストファイルを符号化して符号化テキストを生成するステップと、前記符号化テキストを前記デジタル情報と比較するステップと、前記符号化テキストが前記デジタル情報に一致する場合、前記デジタル・テキストファイルをアップロードまたは送信するステップ、または前記符号化テキストが前記デジタル情報に一致しない場合、前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップと、頻繁に誤りが発生する文字または文字群を不詳文字として識別するステップと、前記不詳文字を解析して、誤り発生確率が最も高い前記不詳文字から、誤り発生確率が最低の前記不詳文字まで前記不詳文字のランキングを決定するステップと、それぞれの不詳文字に対して、少なくとも１個の代替文字候補を特定するステップと、それぞれの不詳文字についての代替文字を解析して、正しい文字である確率が最良の代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定するステップと、誤りの確率が最も高い文字を最良な代替文字により置換し、デジタル・テキストファイルを生成するステップと、物理的表記埋め込み用の前記アルゴリズムを用いてデジタル・テキストファイルを符号化し、符号化テキストを生成するステップと、前記符号化テキストと前記デジタル情報とを比較し、前記符号化テキストが前記デジタル情報と一致する場合には前記デジタル・テキストファイルをアップロードまたは送信するステップ、または前記符号化テキストが前記デジタル情報と不一致の場合には前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップとを含む方法である。

デジタル情報は、フォントの高さ、フォントの見当合わせ、またはフォント間隔のずれを用いて文書に隠蔽することができる。文書にデジタル情報の物理的表記を添付するステップは、テキストおよびデジタル情報を１回の印刷動作、または別々の印刷動作で印刷するステップを含んでいてもよい。

好ましくは、デジタル・テキストファイルに誤識別のフラグが立てられた場合、（Ａ）次善の代替文字により誤り発生確率が最も高い不詳文字を置換して、デジタル・テキストファイルを生成し、（Ｂ）デジタル・テキストファイルが符号化アルゴリズムより符号化されて、符号化テキストを生成し、（Ｃ）符号化テキストがデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。好ましくは、符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられ、本方法は（Ａ）に戻って、全ての識別された代替文字により誤り発生確率が最も高い不詳文字を置換するまで繰り返す。

好ましくは、全ての識別された代替文字により不詳文字が置換された後でデジタル・テキストファイルに誤識別のフラグが立てられた場合、最適な代替文字により誤りの確率が次に高い不詳文字を置換してデジタル・テキストファイルを生成する。デジタル・テキストファイルは符号化アルゴリズムにより符号化されて符号化テキストを生成する。好ましくは、符号化テキストはデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられる。

好ましくは、デジタル・テキストファイルに誤識別のフラグが立てられた場合、（Ａ）次善の代替文字により誤り発生確率が次に高い不詳文字を置換して、デジタル・テキストファイルを生成し、（Ｂ）デジタル・テキストファイルが符号化アルゴリズムより符号化されて、符号化テキストを生成し、（Ｃ）符号化テキストがデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。好ましくは、符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられ、本方法は（Ａ）に戻って、全ての識別された代替文字により誤り発生確率が次に高い不詳文字を置換するまで繰り返す。

複数の図にわたり同一部品に同一番号が付与された図面を参照する。より具体的には図１に、印刷文書にデジタル情報を埋め込み、後で印刷文書が走査された際に、このように生成されたデジタル・ファイルが誤識別された文字を含むか否かを判定すべく当該情報を利用可能にする装置１０を示す。装置１０は、キーボード、ディスプレイおよびマウス（いずれも非表示）を含み、インターネット１４に接続可能なコンピュータシステム１２を含んでいる。また、コンピュータシステム１２は、以下でより詳細に述べるように、印刷装置１６およびスキャナ装置１８を含んでいる。印刷装置１６およびスキャナ装置１８が、デジタル複写機等の多機能装置の一部を構成していてよい点を理解されたい。また、スキャナ装置１８の代わりにデジタル・カメラを用いてもよい点を理解されたい。

図２を参照するに、光学文字認識に際して文字の誤識別を減らす本方法２０は、文書に関するデジタル情報が書き込まれた印刷文書を提供する。このデジタル情報を用いて、文書を後日走査する場合でも、印刷文書を構成する文字が光学文字認識（「ＯＣＲ」）アルゴリズムにより正しく識別されたことを確認する。従って、本方法は、自身の内部に埋め込まれたデジタル情報の物理的表記を有する文書を印刷する第１の埋め込みルーチン２２を含んでいる。本方法の第２の検証ルーチン２４は、印刷文書を後日走査する場合、デジタル情報を利用してＯＣＲアルゴリズムの出力を検証する。

図３を参照するに、文書を印刷する際に、デジタル情報の物理的表記が書き込まれる。以下で「デジタル情報の物理的表記」という用語を、印刷等により文書に添付された機械可読フォーマットとして定義し、デジタル情報の完全なデータ内容を表示するのに十分な容量を有している。この情報は、フォントの高さ、フォントの見当合わせ、またはフォント間隔のずれを用いて文書に隠蔽することができる。代替的に、可視マーキングをページに（例えば２次元バーコードのように）印刷したり、あるいは印刷物にデジタル情報を含める他の方法を用いてもよい。より具体的には、文書が用意された（２６）後で、埋め込みルーチン２２がテキストをデジタル的に符号化する（２８）。例えば、デジタル・テキストをハッシュ・アルゴリズムおよび／またはチェックサム・アルゴリズムにより処理する。符号化プログラムの出力は文書に印刷されるため、符号化はアナログ的制約（例：線幅）が許す限り詳細に行なうことができる。隠蔽されたデジタル情報は、１個の単語から、単語の行、文全体、段落、およびページ全体まで、求められる精度および許容されるオーバーヘッドに応じて任意の量のデータについてハッシュまたはチェックサムを表わすことができる。デジタル情報は文書テキスト内に埋め込まれて（３０）、文書テキストと共に印刷することができる（３２）。あるいは、別々の印刷工程によりデジタル情報を文書に印刷してもよい（３４）。

図５に文のチェックサム・アルゴリズムの動作を示す。図に示すアルゴリズムは、説明を簡潔にすべく選択した任意のチェックサム・アルゴリズムである。そのようなアルゴリズムは、大多数のテキスト文字列には不十分ながら、例として示すテキスト文字列には適宜機能する。実用に際して、本方法は、より長いチェックサムまたはＭＤ５符号化等のメッセージ・ダイジェスト／ハッシュのように、より複雑で信頼性が高い方法を用いる。符号化をより正確にすべく、より長いビット列または、より良いアルゴリズムを用いてもよいが、文字列が長いほど印刷文字列内で確実に符号化するのが困難になる。そのようなシステムを実装する者は、最大のハッシュで最小の単語群を表わすことで高速且つ正確な誤り訂正の最良の機会が得られることを認識する必要がある。

図に示すアルゴリズムはテキスト文字列内の全てのバイトにＸＯＲ演算３６を実行して、結果の数値の２ビット片（two-bit segments）同士にＸＯＲ演算３８を実行することにより、最終的に２ビット数値（two-bit number）４０が得られる。図５に示す例において、２ビットのチェックサム４０は０１と計算される。ビット列０１は次いで、当該文内で、印刷時点または印刷前に、任意の方法を用いて符号化されてよい。オプションとして、ビット列は２次元バーコードを用いて符号化して、ページの辺に沿ってテキストと同じ印刷動作３２で、またはテキストとは別の印刷動作３４で印刷することができる。

図４を参照するに、上述の文書を後日走査する場合、文書に記録されたデジタル情報を用いてＯＣＲアルゴリズムの出力を検証することができる。文書上のテキストおよびデジタル情報を走査した（４２）後で、検証ルーチン２４は埋め込みデジタル情報の生成に用いたのと同一の符号化アルゴリズムを用いてテキストを符号化する（４４）。例えば、“ＯＡＲ”内の“Ｏ”の部分がスキャナからＯＣＲプログラムへのファイル出力に現れないと仮定する。文字の一部の欠落は、スキャナの誤動作、欠落部分の抹消／白色塗りつぶし等を含む、あらゆる要因で起こり得る。図６に示すように、符号化アルゴリズムが生成したサンプル文の２ビット・チェックサム４６は１０と計算されている。

従来のＯＣＲアルゴリズムでは、損傷した“ＯＡＲ”は、単語“ＣＡＲ”と認識される。この結果は、スペルチェックまたは文法チェックルーチンのいずれかにとって満足すべきものと見え、従って従来のＯＣＲシステムでは検出から漏れる。しかし、検証ルーチンは、符号化テキストをデジタル情報と比較する（４８）。符号化テキストがデジタル情報に一致する場合（５０）、ＯＣＲシステムは従来の仕方でデジタル・テキストファイルをアップロードまたは送信する（５２）。符号化テキストがデジタル情報に一致しない（５４）場合（例：符号化テキスト例の２ビットチェックサム“１０”４６が、デジタル情報の２ビットチェックサム“０１” ４０に一致しない）、検証ルーチンは不詳テキスト（文、行、ページ等）が誤識別された旨のフラグを立てる（５６）。

検証ルーチン２４は次いで、頻繁に誤りが発生する文字（群）、および代替文字候補を識別する（５８）。例えば、「ｔ」（小文字のＴ）と認識されたのは、「ｌ」（小文字のＬ）の汚れによる（またはその逆）場合があり、またＯがＣ（またはその逆）に変換される場合もある。不詳文字を解析して、誤り発生確率が最も高い不詳文字から、誤り発生確率が最低の不詳文字まで、不詳文字のランキングを決定する。各々の不詳文字に対して、少なくとも１個の代替文字候補が特定される。各々の不詳文字の代替文字を解析して、正しい文字である確率が最適な代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定する。

ルーチン２４は次いで、誤りの確率が最も高い文字を最適な代替文字により置換する（６０）。この代替テキストは次いで、埋め込みデジタル情報の生成に用いたのと同一の符号化アルゴリズムを用いて符号化され（４４）、符号化テキストは再びデジタル情報と比較される（４８）。符号化テキストがデジタル情報に一致する（５０）場合、ＯＣＲシステムはデジタル・テキストファイルを従来の仕方でアップロードまたは送信する（５２）。符号化テキストがデジタル情報に一致せず（５４）、且つ不詳テキストが誤識別された旨のフラグを検証ルーチンが立てた場合（５６）、ルーチン２４は、次善の代替文字により誤り発生確率が最も高い不詳文字を置換して（６０）、デジタル・テキストファイルを生成し、符号化アルゴリズムを用いてデジタル・テキストファイルを符号化して、符号化テキストをデジタル情報と比較し、全ての識別された代替文字により誤りの確率が最も高い不詳文字を置換するまでループする。

誤り発生確率が最も高い文字用に可能性のある全ての代替文字が尽きて、符号化テキストとデジタル情報との一致が得られなかった場合、検証ルーチンは誤りの確率が次に高い文字を識別し（５８）、これを次善の代替文字により置換して（６０）、符号化テキストがデジタル情報に一致する（５０）までループし続ける。この例の場合、適当なチェックサムが得られる唯一の可能な修正点は、“ＣＡＲ”のＣを元の文字Ｏに戻すことである。

ＯＣＲ動作に際して文字の誤識別を減らす本システム１０および方法２０は、従来の文書処理、印刷、およびスキャニング・システムに組み込むことができる。ユーザーは、照合ビット数および使用する照合方法の種類を指定することが許される。可能な照合アルゴリズムには、上の例で使用した単純なチェックサム・アルゴリズムから、ＭＤ５等、任意の長さのハッシュを出力可能なアルゴリズムまで任意のものが含まれる。利用できる照合ビット数は、使用する符号化方法により制限される。例えば、各単語の間隔内でバイトを符号化することは、ビット数を単語の数より１個少なく制限する。平均的な行では、これは依然として当該行にとって相当に大きく強力なキーである。

方法２０の性能は、デジタル情報を含む文書の表示に関するユーザーの嗜好および「受容度」による制約に応じてカスタマイズすることができる。上述のように、ユーザーは個々の単語、単語の行、文全体、段落、またはページ全体の符号化を選択することができる。例えば、ユーザーは「データの単位」で文書の重要な部分、例えばページ全体を表わすように選択することができる。これにより、デジタル情報の物理的表記として文書に書き込む必要のあるデジタル情報の量が制限される。しかし、本方法は、走査されたページのＯＣＲが誤りを含む場合に通知は行なうものの、ページのどこに誤りが生じているかについて殆ど情報を与えない。ユーザーが、データの単位で文書の小さい部分、例えば単語１個を表わすように選択した場合、本方法はその単語のＯＣＲが誤りを含んでいれば通知を行なうが、走査されたページに存在するかもしれない他のＯＣＲ誤りについては一切通知しない。当該ページの個々の単語が符号化されている場合、本方法は、走査されたページのＯＣＲが誤りを含む場合に通知するだけでなく、誤りを含む特定の単語（群）を識別する。しかし、デジタル情報の物理的表記として文書に書き込む必要があるデジタル情報の量は比例的に増加し、特定の文書はこれほど大量に余分の印字データを表示する負荷を受容できない恐れがある。

光学文字認識に際して文字の誤識別を減らす装置の模式図である。光学文字認識に際して文字の誤識別を減らすフロー図である。デジタル情報が埋め込まれた文書を印刷する図２のルーチンのフロー図である。走査された文書に埋め込まれたデジタル情報を用いて光学文字認識プログラムの出力を検証する図２のルーチンのフロー図である。第１の文のチェックサム・アルゴリズムの動作を示す図である。第２の文のチェックサム・アルゴリズムの動作を示す図である。

符号の説明

１０デジタル情報埋め込み装置、１２コンピュータシステム、１４インターネット、１６印刷装置、１８スキャナ装置。

Claims

テキストを含む文書の画像に対し光学文字認識（ＯＣＲ）を実行する方法であって、
前記文書上のテキストに関連付けられたデジタル情報の物理的表記を埋め込むステップと、
前記文書をスキャナ装置で走査して、デジタル情報およびデジタル・テキストファイルを生成するステップと、
前記デジタル情報を用いて前記デジタル・テキストファイルを検証するステップとを含み、
前記テキストに関連付けられた前記デジタル情報の物理的表記を埋め込むステップが、
符号化アルゴリズムにより前記テキストを符号化して前記デジタル情報を生成するステップと、
前記文書に前記デジタル情報の物理的表記を添付するステップとを含み、
前記デジタル・テキストファイルを検証するステップが、
前記符号化アルゴリズムにより前記デジタル・テキストファイルを符号化して符号化テキストを生成するステップと、
前記符号化テキストを前記デジタル情報と比較するステップと、
前記符号化テキストが前記デジタル情報に一致する場合、前記デジタル・テキストファイルをアップロードまたは送信するステップ、または
前記符号化テキストが前記デジタル情報に一致しない場合、前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップと、
頻繁に誤りが発生する文字または文字群を不詳文字として識別するステップと、
前記不詳文字を解析して、誤り発生確率が最も高い前記不詳文字から、誤り発生確率が最低の前記不詳文字まで前記不詳文字のランキングを決定するステップと、
それぞれの不詳文字に対して、少なくとも１個の代替文字候補を特定するステップと、
それぞれの不詳文字についての代替文字を解析して、正しい文字である確率が最良の代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定するステップと、
誤りの確率が最も高い文字を最良な代替文字により置換し、デジタル・テキストファイルを生成するステップと、
物理的表記埋め込み用の前記アルゴリズムを用いてデジタル・テキストファイルを符号化し、符号化テキストを生成するステップと、
前記符号化テキストと前記デジタル情報とを比較し、前記符号化テキストが前記デジタル情報と一致する場合には前記デジタル・テキストファイルをアップロードまたは送信するステップ、または
前記符号化テキストが前記デジタル情報と不一致の場合には前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップとを含む方法。