JP5078321B2 - 文書の画像に対し光学文字認識を実行する方法 - Google Patents

文書の画像に対し光学文字認識を実行する方法 Download PDF

Info

Publication number
JP5078321B2
JP5078321B2 JP2006302431A JP2006302431A JP5078321B2 JP 5078321 B2 JP5078321 B2 JP 5078321B2 JP 2006302431 A JP2006302431 A JP 2006302431A JP 2006302431 A JP2006302431 A JP 2006302431A JP 5078321 B2 JP5078321 B2 JP 5078321B2
Authority
JP
Japan
Prior art keywords
text
character
digital
digital information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006302431A
Other languages
English (en)
Other versions
JP2007141233A (ja
Inventor
ジェイ ローゼンバウアー デビン
シー デヤング デニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007141233A publication Critical patent/JP2007141233A/ja
Application granted granted Critical
Publication of JP5078321B2 publication Critical patent/JP5078321B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本開示は一般に、光学文字認識の分野に関する。より具体的には、本開示は、光学文字認識を行なう際の文字の誤識別を減らす方法に関する。
印刷テキストメッセージが書かれた物理的文書から、テキストメッセージの電子ファイルを取得する処理は、文書を光学スキャナやファクシミリ機等の装置で走査することから始まる。そのような装置は、原文書の電子画像を生成する。出力画像は次いでコンピュータその他の処理装置へ送られ、走査された画像に対し光学文字認識(「OCR」)アルゴリズムを実行する。
OCRソフトウェアは次いで、走査された文書の画像を処理して画像とテキストを区別し、明るい領域と暗い領域において何の文字が表わされているかを判定する。旧来のOCRシステムは、これらの画像を特定のフォントに基づいて、格納されているビットマップとマッチングするものであった。そのようなパターン認識システムは結果に当たり外れがあるため、OCRは不正確との評判が立つ原因となった。より新しいOCRエンジンは、各種の技術を利用して画像を解析し、テキスト文字を画像に関連付けることができる。
例えば、ニューラル・ネットワーク技術を用いて、ストロークのエッジ、テキスト文字間の不連続線、および背景を解析することができる。紙に印刷されたインクの不規則性を許容しつつ、各々のアルゴリズムは、ストロークのエッジに沿った明部と暗部の平均を求め、これを既知の文字とマッチングして、どの文字であるかの最適推測を行なう。OCRソフトウェアは次いで、全てのアルゴリズムから得た結果を平均化またはポーリングして単一の読み取り内容を得る。あるいは、OCRソフトウェアは文法認識、スペルチェック、またはウェーブレット変換を用いて各種の文字を認識することができる。
米国特許出願公開第2003/0156753号明細書 米国特許出願公開第2005/0123194号明細書 米国特許第5765176号明細書 米国特許第6577755号明細書
しかし、従来のOCRアルゴリズムは、コピー、印刷、または走査の際に追加または削除される情報に起因して、例えば“oar”と“car”、あるいは“wet”と“vet”のような単純な区別を失敗し続ける。現行システムを用いても、光学文字認識では2個の文法的に適切且つ正しくつづられた単語間の相違を効率的に克服することができない。
本発明に係る文書の画像に対し光学文字認識を実行する方法は、テキストを含む文書の画像に対し光学文字認識(OCR)を実行する方法であって、前記文書上のテキストに関連付けられたデジタル情報の物理的表記を埋め込むステップと、前記文書をスキャナ装置で走査して、デジタル情報およびデジタル・テキストファイルを生成するステップと、前記デジタル情報を用いて前記デジタル・テキストファイルを検証するステップとを含み、前記テキストに関連付けられた前記デジタル情報の物理的表記を埋め込むステップが、符号化アルゴリズムにより前記テキストを符号化して前記デジタル情報を生成するステップと、前記文書に前記デジタル情報の物理的表記を添付するステップとを含み、前記デジタル・テキストファイルを検証するステップが、前記符号化アルゴリズムにより前記デジタル・テキストファイルを符号化して符号化テキストを生成するステップと、前記符号化テキストを前記デジタル情報と比較するステップと、前記符号化テキストが前記デジタル情報に一致する場合、前記デジタル・テキストファイルをアップロードまたは送信するステップ、または前記符号化テキストが前記デジタル情報に一致しない場合、前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップと、頻繁に誤りが発生する文字または文字群を不詳文字として識別するステップと、前記不詳文字を解析して、誤り発生確率が最も高い前記不詳文字から、誤り発生確率が最低の前記不詳文字まで前記不詳文字のランキングを決定するステップと、それぞれの不詳文字に対して、少なくとも1個の代替文字候補を特定するステップと、それぞれの不詳文字についての代替文字を解析して、正しい文字である確率が最良の代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定するステップと、誤りの確率が最も高い文字を最良な代替文字により置換し、デジタル・テキストファイルを生成するステップと、物理的表記埋め込み用の前記アルゴリズムを用いてデジタル・テキストファイルを符号化し、符号化テキストを生成するステップと、前記符号化テキストと前記デジタル情報とを比較し、前記符号化テキストが前記デジタル情報と一致する場合には前記デジタル・テキストファイルをアップロードまたは送信するステップ、または前記符号化テキストが前記デジタル情報と不一致の場合には前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップとを含む方法である。
デジタル情報は、フォントの高さ、フォントの見当合わせ、またはフォント間隔のずれを用いて文書に隠蔽することができる。文書にデジタル情報の物理的表記を添付するステップは、テキストおよびデジタル情報を1回の印刷動作、または別々の印刷動作で印刷するステップを含んでいてもよい
好ましくは、デジタル・テキストファイルに誤識別のフラグが立てられた場合、(A)次善の代替文字により誤り発生確率が最も高い不詳文字を置換して、デジタル・テキストファイルを生成し、(B)デジタル・テキストファイルが符号化アルゴリズムより符号化されて、符号化テキストを生成し、(C)符号化テキストがデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。好ましくは、符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられ、本方法は(A)に戻って、全ての識別された代替文字により誤り発生確率が最も高い不詳文字を置換するまで繰り返す。
好ましくは、全ての識別された代替文字により不詳文字が置換された後でデジタル・テキストファイルに誤識別のフラグが立てられた場合、最適な代替文字により誤りの確率が次に高い不詳文字を置換してデジタル・テキストファイルを生成する。デジタル・テキストファイルは符号化アルゴリズムにより符号化されて符号化テキストを生成する。好ましくは、符号化テキストはデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられる。
好ましくは、デジタル・テキストファイルに誤識別のフラグが立てられた場合、(A)次善の代替文字により誤り発生確率が次に高い不詳文字を置換して、デジタル・テキストファイルを生成し、(B)デジタル・テキストファイルが符号化アルゴリズムより符号化されて、符号化テキストを生成し、(C)符号化テキストがデジタル情報と比較される。好ましくは、符号化テキストがデジタル情報に一致する場合、デジタル・テキストファイルはアップロードまたは送信される。好ましくは、符号化テキストがデジタル情報に一致しない場合、デジタル・テキストファイルに誤識別のフラグが立てられ、本方法は(A)に戻って、全ての識別された代替文字により誤り発生確率が次に高い不詳文字を置換するまで繰り返す。



複数の図にわたり同一部品に同一番号が付与された図面を参照する。より具体的には図1に、印刷文書にデジタル情報を埋め込み、後で印刷文書が走査された際に、このように生成されたデジタル・ファイルが誤識別された文字を含むか否かを判定すべく当該情報を利用可能にする装置10を示す。装置10は、キーボード、ディスプレイおよびマウス(いずれも非表示)を含み、インターネット14に接続可能なコンピュータシステム12を含んでいる。また、コンピュータシステム12は、以下でより詳細に述べるように、印刷装置16およびスキャナ装置18を含んでいる。印刷装置16およびスキャナ装置18が、デジタル複写機等の多機能装置の一部を構成していてよい点を理解されたい。また、スキャナ装置18の代わりにデジタル・カメラを用いてもよい点を理解されたい。
図2を参照するに、光学文字認識に際して文字の誤識別を減らす本方法20は、文書に関するデジタル情報が書き込まれた印刷文書を提供する。このデジタル情報を用いて、文書を後日走査する場合でも、印刷文書を構成する文字が光学文字認識(「OCR」)アルゴリズムにより正しく識別されたことを確認する。従って、本方法は、自身の内部に埋め込まれたデジタル情報の物理的表記を有する文書を印刷する第1の埋め込みルーチン22を含んでいる。本方法の第2の検証ルーチン24は、印刷文書を後日走査する場合、デジタル情報を利用してOCRアルゴリズムの出力を検証する。
図3を参照するに、文書を印刷する際に、デジタル情報の物理的表記が書き込まれる。以下で「デジタル情報の物理的表記」という用語を、印刷等により文書に添付された機械可読フォーマットとして定義し、デジタル情報の完全なデータ内容を表示するのに十分な容量を有している。この情報は、フォントの高さ、フォントの見当合わせ、またはフォント間隔のずれを用いて文書に隠蔽することができる。代替的に、可視マーキングをページに(例えば2次元バーコードのように)印刷したり、あるいは印刷物にデジタル情報を含める他の方法を用いてもよい。より具体的には、文書が用意された(26)後で、埋め込みルーチン22がテキストをデジタル的に符号化する(28)。例えば、デジタル・テキストをハッシュ・アルゴリズムおよび/またはチェックサム・アルゴリズムにより処理する。符号化プログラムの出力は文書に印刷されるため、符号化はアナログ的制約(例:線幅)が許す限り詳細に行なうことができる。隠蔽されたデジタル情報は、1個の単語から、単語の行、文全体、段落、およびページ全体まで、求められる精度および許容されるオーバーヘッドに応じて任意の量のデータについてハッシュまたはチェックサムを表わすことができる。デジタル情報は文書テキスト内に埋め込まれて(30)、文書テキストと共に印刷することができる(32)。あるいは、別々の印刷工程によりデジタル情報を文書に印刷してもよい(34)。
図5に文のチェックサム・アルゴリズムの動作を示す。図に示すアルゴリズムは、説明を簡潔にすべく選択した任意のチェックサム・アルゴリズムである。そのようなアルゴリズムは、大多数のテキスト文字列には不十分ながら、例として示すテキスト文字列には適宜機能する。実用に際して、本方法は、より長いチェックサムまたはMD5符号化等のメッセージ・ダイジェスト/ハッシュのように、より複雑で信頼性が高い方法を用いる。符号化をより正確にすべく、より長いビット列または、より良いアルゴリズムを用いてもよいが、文字列が長いほど印刷文字列内で確実に符号化するのが困難になる。そのようなシステムを実装する者は、最大のハッシュで最小の単語群を表わすことで高速且つ正確な誤り訂正の最良の機会が得られることを認識する必要がある。
図に示すアルゴリズムはテキスト文字列内の全てのバイトにXOR演算36を実行して、結果の数値の2ビット片(two-bit segments)同士にXOR演算38を実行することにより、最終的に2ビット数値(two-bit number)40が得られる。図5に示す例において、2ビットのチェックサム40は01と計算される。ビット列01は次いで、当該文内で、印刷時点または印刷前に、任意の方法を用いて符号化されてよい。オプションとして、ビット列は2次元バーコードを用いて符号化して、ページの辺に沿ってテキストと同じ印刷動作32で、またはテキストとは別の印刷動作34で印刷することができる。
図4を参照するに、上述の文書を後日走査する場合、文書に記録されたデジタル情報を用いてOCRアルゴリズムの出力を検証することができる。文書上のテキストおよびデジタル情報を走査した(42)後で、検証ルーチン24は埋め込みデジタル情報の生成に用いたのと同一の符号化アルゴリズムを用いてテキストを符号化する(44)。例えば、“OAR”内の“O”の部分がスキャナからOCRプログラムへのファイル出力に現れないと仮定する。文字の一部の欠落は、スキャナの誤動作、欠落部分の抹消/白色塗りつぶし等を含む、あらゆる要因で起こり得る。図6に示すように、符号化アルゴリズムが生成したサンプル文の2ビット・チェックサム46は10と計算されている。
従来のOCRアルゴリズムでは、損傷した“OAR”は、単語“CAR”と認識される。この結果は、スペルチェックまたは文法チェックルーチンのいずれかにとって満足すべきものと見え、従って従来のOCRシステムでは検出から漏れる。しかし、検証ルーチンは、符号化テキストをデジタル情報と比較する(48)。符号化テキストがデジタル情報に一致する場合(50)、OCRシステムは従来の仕方でデジタル・テキストファイルをアップロードまたは送信する(52)。符号化テキストがデジタル情報に一致しない(54)場合(例:符号化テキスト例の2ビットチェックサム“10”46が、デジタル情報の2ビットチェックサム“01” 40に一致しない)、検証ルーチンは不詳テキスト(文、行、ページ等)が誤識別された旨のフラグを立てる(56)。
検証ルーチン24は次いで、頻繁に誤りが発生する文字(群)、および代替文字候補を識別する(58)。例えば、「t」(小文字のT)と認識されたのは、「l」(小文字のL)の汚れによる(またはその逆)場合があり、またOがC(またはその逆)に変換される場合もある。不詳文字を解析して、誤り発生確率が最も高い不詳文字から、誤り発生確率が最低の不詳文字まで、不詳文字のランキングを決定する。各々の不詳文字に対して、少なくとも1個の代替文字候補が特定される。各々の不詳文字の代替文字を解析して、正しい文字である確率が最適な代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定する。
ルーチン24は次いで、誤りの確率が最も高い文字を最適な代替文字により置換する(60)。この代替テキストは次いで、埋め込みデジタル情報の生成に用いたのと同一の符号化アルゴリズムを用いて符号化され(44)、符号化テキストは再びデジタル情報と比較される(48)。符号化テキストがデジタル情報に一致する(50)場合、OCRシステムはデジタル・テキストファイルを従来の仕方でアップロードまたは送信する(52)。符号化テキストがデジタル情報に一致せず(54)、且つ不詳テキストが誤識別された旨のフラグを検証ルーチンが立てた場合(56)、ルーチン24は、次善の代替文字により誤り発生確率が最も高い不詳文字を置換して(60)、デジタル・テキストファイルを生成し、符号化アルゴリズムを用いてデジタル・テキストファイルを符号化して、符号化テキストをデジタル情報と比較し、全ての識別された代替文字により誤りの確率が最も高い不詳文字を置換するまでループする。
誤り発生確率が最も高い文字用に可能性のある全ての代替文字が尽きて、符号化テキストとデジタル情報との一致が得られなかった場合、検証ルーチンは誤りの確率が次に高い文字を識別し(58)、これを次善の代替文字により置換して(60)、符号化テキストがデジタル情報に一致する(50)までループし続ける。この例の場合、適当なチェックサムが得られる唯一の可能な修正点は、“CAR”のCを元の文字Oに戻すことである。
OCR動作に際して文字の誤識別を減らす本システム10および方法20は、従来の文書処理、印刷、およびスキャニング・システムに組み込むことができる。ユーザーは、照合ビット数および使用する照合方法の種類を指定することが許される。可能な照合アルゴリズムには、上の例で使用した単純なチェックサム・アルゴリズムから、MD5等、任意の長さのハッシュを出力可能なアルゴリズムまで任意のものが含まれる。利用できる照合ビット数は、使用する符号化方法により制限される。例えば、各単語の間隔内でバイトを符号化することは、ビット数を単語の数より1個少なく制限する。平均的な行では、これは依然として当該行にとって相当に大きく強力なキーである。
方法20の性能は、デジタル情報を含む文書の表示に関するユーザーの嗜好および「受容度」による制約に応じてカスタマイズすることができる。上述のように、ユーザーは個々の単語、単語の行、文全体、段落、またはページ全体の符号化を選択することができる。例えば、ユーザーは「データの単位」で文書の重要な部分、例えばページ全体を表わすように選択することができる。これにより、デジタル情報の物理的表記として文書に書き込む必要のあるデジタル情報の量が制限される。しかし、本方法は、走査されたページのOCRが誤りを含む場合に通知は行なうものの、ページのどこに誤りが生じているかについて殆ど情報を与えない。ユーザーが、データの単位で文書の小さい部分、例えば単語1個を表わすように選択した場合、本方法はその単語のOCRが誤りを含んでいれば通知を行なうが、走査されたページに存在するかもしれない他のOCR誤りについては一切通知しない。当該ページの個々の単語が符号化されている場合、本方法は、走査されたページのOCRが誤りを含む場合に通知するだけでなく、誤りを含む特定の単語(群)を識別する。しかし、デジタル情報の物理的表記として文書に書き込む必要があるデジタル情報の量は比例的に増加し、特定の文書はこれほど大量に余分の印字データを表示する負荷を受容できない恐れがある。
光学文字認識に際して文字の誤識別を減らす装置の模式図である。 光学文字認識に際して文字の誤識別を減らすフロー図である。 デジタル情報が埋め込まれた文書を印刷する図2のルーチンのフロー図である。 走査された文書に埋め込まれたデジタル情報を用いて光学文字認識プログラムの出力を検証する図2のルーチンのフロー図である。 第1の文のチェックサム・アルゴリズムの動作を示す図である。 第2の文のチェックサム・アルゴリズムの動作を示す図である。
符号の説明
10 デジタル情報埋め込み装置、12 コンピュータシステム、14 インターネット、16 印刷装置、18 スキャナ装置。

Claims (1)

  1. テキストを含む文書の画像に対し光学文字認識(OCR)を実行する方法であって、
    前記文書上のテキストに関連付けられたデジタル情報の物理的表記を埋め込むステップと、
    前記文書をスキャナ装置で走査して、デジタル情報およびデジタル・テキストファイルを生成するステップと、
    前記デジタル情報を用いて前記デジタル・テキストファイルを検証するステップとを含み、
    前記テキストに関連付けられた前記デジタル情報の物理的表記を埋め込むステップが、
    符号化アルゴリズムにより前記テキストを符号化して前記デジタル情報を生成するステップと、
    前記文書に前記デジタル情報の物理的表記を添付するステップとを含み、
    前記デジタル・テキストファイルを検証するステップが、
    前記符号化アルゴリズムにより前記デジタル・テキストファイルを符号化して符号化テキストを生成するステップと、
    前記符号化テキストを前記デジタル情報と比較するステップと、
    前記符号化テキストが前記デジタル情報に一致する場合、前記デジタル・テキストファイルをアップロードまたは送信するステップ、または
    前記符号化テキストが前記デジタル情報に一致しない場合、前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップと、
    頻繁に誤りが発生する文字または文字群を不詳文字として識別するステップと、
    前記不詳文字を解析して、誤り発生確率が最も高い前記不詳文字から、誤り発生確率が最低の前記不詳文字まで前記不詳文字のランキングを決定するステップと、
    それぞれの不詳文字に対して、少なくとも1個の代替文字候補を特定するステップと、
    それぞれの不詳文字についての代替文字を解析して、正しい文字である確率が最良の代替文字から、正しい文字である確率が最低の代替文字まで、代替文字のランキングを決定するステップと、
    誤りの確率が最も高い文字を最良な代替文字により置換し、デジタル・テキストファイルを生成するステップと、
    物理的表記埋め込み用の前記アルゴリズムを用いてデジタル・テキストファイルを符号化し、符号化テキストを生成するステップと、
    前記符号化テキストと前記デジタル情報とを比較し、前記符号化テキストが前記デジタル情報と一致する場合には前記デジタル・テキストファイルをアップロードまたは送信するステップ、または
    前記符号化テキストが前記デジタル情報と不一致の場合には前記デジタル・テキストファイルが誤識別された旨のフラグを立てるステップとを含む方法。
JP2006302431A 2005-11-15 2006-11-08 文書の画像に対し光学文字認識を実行する方法 Expired - Fee Related JP5078321B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/274,805 2005-11-15
US11/274,805 US7505180B2 (en) 2005-11-15 2005-11-15 Optical character recognition using digital information from encoded text embedded in the document

Publications (2)

Publication Number Publication Date
JP2007141233A JP2007141233A (ja) 2007-06-07
JP5078321B2 true JP5078321B2 (ja) 2012-11-21

Family

ID=38040876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006302431A Expired - Fee Related JP5078321B2 (ja) 2005-11-15 2006-11-08 文書の画像に対し光学文字認識を実行する方法

Country Status (2)

Country Link
US (1) US7505180B2 (ja)
JP (1) JP5078321B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7880912B2 (en) * 2005-12-07 2011-02-01 Xerox Corporation Network printing system having automated selection of a destination printer
US9277090B2 (en) 2007-10-01 2016-03-01 Hewlett-Packard Development Company, L.P. System and method of document reproduction
US9025828B2 (en) 2010-12-02 2015-05-05 3M Innovative Properties Company Methods and systems for enhancing read accuracy in an automated license plate reader system
JP6804977B2 (ja) * 2014-09-08 2020-12-23 株式会社根本杏林堂 薬液吸引装置、薬液注入システムおよび透視撮像システム
US9501853B2 (en) * 2015-01-09 2016-11-22 Adobe Systems Incorporated Providing in-line previews of a source image for aid in correcting OCR errors
US9830508B1 (en) 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
DE102015216574A1 (de) * 2015-08-31 2017-03-02 Siemens Aktiengesellschaft Verfahren zum Überprüfen der Richtigkeit von einer Darstellung von Bilddaten auf einem Anzeigemittel und Anzeigeeinrichtung
JP6291098B2 (ja) * 2017-02-20 2018-03-14 スリーエム イノベイティブ プロパティズ カンパニー 自動ライセンスプレート読み取りシステムの読み取り精度を高めるための方法及びシステム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2155891A1 (en) * 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
US5765176A (en) * 1996-09-06 1998-06-09 Xerox Corporation Performing document image management tasks using an iconic image having embedded encoded information
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
JP2002298101A (ja) * 2001-04-03 2002-10-11 Sony Corp キャラクタ情報認識方法およびキャラクタ情報認識装置
JP2003044257A (ja) * 2001-08-02 2003-02-14 Dainippon Printing Co Ltd 印刷物、印刷システム、読み取り装置
JP2003259112A (ja) * 2001-12-25 2003-09-12 Canon Inc 透かし情報抽出装置及びその制御方法
US6956958B2 (en) * 2002-02-21 2005-10-18 Xerox Corporation Method of embedding color information in printed documents using watermarking
JP4168673B2 (ja) * 2002-06-04 2008-10-22 富士ゼロックス株式会社 文書交付システム、認証システム、方法、及びプログラム群
JP4164458B2 (ja) * 2004-03-08 2008-10-15 キヤノン株式会社 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体

Also Published As

Publication number Publication date
US20070110339A1 (en) 2007-05-17
JP2007141233A (ja) 2007-06-07
US7505180B2 (en) 2009-03-17

Similar Documents

Publication Publication Date Title
JP5078321B2 (ja) 文書の画像に対し光学文字認識を実行する方法
KR100311338B1 (ko) 보증가능한광학문자인식방법
JP4777041B2 (ja) 画像処理装置、その画像処理装置におけるデータ処理方法およびプログラム
JP4854491B2 (ja) 画像処理装置及びその制御方法
US20060210138A1 (en) Verification of authenticity of check data
JPH07168912A (ja) プリント文書の光学的文字認識能力強化方法及びその手段
JP7038988B2 (ja) 画像処理方法及び画像処理システム
CN101267491A (zh) 使用条形码来控制文档复印操作的装置和方法
US20070246542A1 (en) Document element repair
CN109740473B (zh) 一种基于阅卷系统的图片内容自动标记方法及系统
US7911653B2 (en) Device using low visibility encoded image to manage copy history
US8351086B2 (en) Two-dimensional code generating device
JP4943354B2 (ja) 情報識別装置、情報識別方法、プログラム及び記録媒体
JP5518140B2 (ja) 印刷装置、印刷制御装置、データ処理方法およびプログラム
JP5073079B2 (ja) 印刷装置、印刷制御装置、データ処理方法およびプログラム
JP6763173B2 (ja) 文書修正方法、文書修正装置、およびコンピュータプログラム
JP2008085579A (ja) 情報埋め込み装置、情報読み取り装置、情報埋め込み方法、情報読み取り方法、およびコンピュータプログラム
JP2004199483A (ja) 画像出力装置
JP4280939B2 (ja) 位置面システム画像認識コンピューターソフトウェア
JP7452060B2 (ja) 情報処理装置及びプログラム
JP3823005B2 (ja) ビットマップフォント作成装置および文書復元装置
JP2000011095A (ja) 文字認識装置及び方法
Garg et al. Identifying the Leak Sources of Hard Copy Documents
CN115331248A (zh) 结合语音识别与ocr识别的文档图像结构化录入平台
JP2010026986A (ja) 画像形成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5078321

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees