JPH06282679A - 原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成されて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物を提供するための方法 - Google Patents

原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成されて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物を提供するための方法

Info

Publication number
JPH06282679A
JPH06282679A JP5254535A JP25453593A JPH06282679A JP H06282679 A JPH06282679 A JP H06282679A JP 5254535 A JP5254535 A JP 5254535A JP 25453593 A JP25453593 A JP 25453593A JP H06282679 A JPH06282679 A JP H06282679A
Authority
JP
Japan
Prior art keywords
document
data
computer
value
printed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5254535A
Other languages
English (en)
Inventor
Pii Roopuresutei Danieru
ダニエル・ピー・ロープレスティ
Efu Koosu Henrii
ヘンリー・エフ・コース
Sandobaagu Jiyonasan
ジョナサン・サンドバーグ
Jiei Riputon Richiyaado
リチャード・ジェイ・リプトン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JPH06282679A publication Critical patent/JPH06282679A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【目的】 情報を文書で自動的に組み込むための方法を
得る。 【構成】 再生されるべき文書のテキストで計算された
証明書は、機械が読み取れる形態で前記文書に含まれ
る。光学式文字認識走査時、前記証明書も走査されて比
較のため蓄積される。新しい証明書は再生された文書の
内容で計算され且つ走査された証明書と比較される。も
し両方の証明書が一致しないなら、前記再生された文書
中に少なくとも1つのエラーがあることが分かる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、自動的に生成された
文書マーカを使用すること、特に文書の識別及び組織認
識のためのみならず、光学式文字認識技術を使用してマ
ーク付き文書が再生される時のエラーの検出及び補正も
行うための手段を提供するのに、書類の各頁に組み込ま
れたコード化情報のマーカを使用することに関するもの
である。
【0002】
【発明の背景】コンピュータで読み取れるバーコード
(デジタルデータが紙に直接記録されている)を使用し
て製品を識別するために、簡単な数値コード化・走査技
術を使用して固定組の値が与えられた項目識別を用意す
る。コンピュータで生成されて蓄積された文書を識別す
ることは、2進コードを使用して蓄積された文書を識別
且つ検索するために工夫された他の技術である。大抵の
文書作成ソフトウェアのプログラムは、文書の識別と検
索情報の少なくとも一方を提供するだけでなく、例えば
スペース決め、余白及び関連レイアウト情報のような細
目を特定する関連プリンタへ供給するためのコード化情
報も含む。しかしながら、文書が一度紙に印刷されてし
まうと、その情報はユーザによって見分けられる時以外
もはやその文書を伴わない。もし光学式文字認識(OC
R)システムを使用して文書を再生したくても、スキャ
ナを介して受信用コンピュータへレイアウト情報を送る
自動的手段が無い。識別技術の望ましい延長は、従っ
て、文書の紙バージョンを生成するための手段を提供す
ることであり、前記文書はそのOCRテキスト走査と共
に紙文書に組み込まれたマーカを光学的に走査すること
によりコンピュータで認識、再生且つ校正できる。
【0003】過去に用いられた文書又は製品の識別装置
は、広範囲の場に用途を見い出したバーコード・マーカ
及びスキャナを含む。紙文書について、紙上の特定のマ
ークやパターンは、装置の関連した部分、例えば米国特
許第5,051,779号にてヒカワ(Hikawa)から教
示されたようなイメージ処理のためのジョブ制御シート
に情報を提供するために使用された。同様に、識別マー
クはジョンソン(Johnson)等の米国特許第5,060,
980号に述べられたようなフォームに組み込まれた。
この米国特許の装置は、コンピュータ中に既に存在して
いるフォームを編集することである。そのフォームの紙
コピーは、ユーザによって編集されて走査され、コンピ
ュータ中に電子的に蓄積されている再現フォームの領域
に挿入される。もっと最近に特許された装置はブルーン
バーグ(Bloomberg)等の米国特許第5,091,966
号に述べられており、これはグリフ状コード(紙上にデ
ジタル・コード化されたデータである)の解説を教示す
る。識別コードはコンピュータで読み出せ、これにより
文書を識別し、検索し且つ送信するような文書の、コン
ピュータによる扱いを容易にする。この分野の装置はテ
キスト・エラーの検出又はその補正を行わない。更に、
その装置には、走査による情報の入力前に関連コンピュ
ータがそのメモリに問題の文書のコピーを持つことを必
要とする。その装置は、OCRにより走査用コンピュー
タ中で作られている文書には適用され得ない。
【0004】図1に概略図で示されたような従来の光学
式文字認識装置は、一般に、デジタイジング・スキャナ
16及びこれに関連した“走査用”コンピュータ18を
備える。このコンピュータ18は、原コンピュータ12
によって作成され且つプリンタ13によって出力された
印刷された頁14を走査する。デジタイジング・スキャ
ナ16は、ASCIIのような標準の電子フォーマット
で電子文書15として蓄積されるべきテキストを抽出す
る。望ましいものは、エラーの検出のためのテキストに
関する情報及びそのレイアウトに関する情報を更に組み
込むことであり、この情報は光学的に走査され得るか、
さもなければ自動的に入力され得る。
【0005】正確な文字認識を行うための光学式文字認
識装置の走査方法及び性能の両方に固有の諸制限のせい
で、出力にはエラーが導入される。なお、エラーには、
文字誤解エラーだけでなく、レイアウト依存エラーも含
まれる。後処理(特にエラーの検出)は、主として再生
された文書を人間が校正することで行わなければならな
い。レイアウト時のエラーは、普通、コンピュータでは
自動的に修正できず、むしろ大量のユーザ集中編集や文
書の再作成を積極的に必要とする。人による後処理は、
実際のお金の面だけでなく被処理文書を完成するのに要
する時間の面でも高価になる。エラーを検出するための
手段だけでなく、エラーを補正するための手段も提供す
る解決策が最適である。更に、理想的な解決策では、文
書の識別を容易にし且つ文書の適切なレイアウト組織を
規定すべきである。
【0006】コンピュータによる文書作成技術(例えば
語処理)に用いられたエラー検出装置は、辞書検索に基
づいた技術と、エラーを識別して補正するために文書か
ら抽出した意味のある又は文脈の情報を使用するための
試みとの少なくとも一方を含む。これら装置の多くで
は、辞典中のエントリと相関しない文書中のエントリを
“人による後処理”で再検討する必要がある。辞書系の
被自動化エラー補正バージョンは、識別時に、辞書エン
トリと相関しないエントリを無意識に補正する。適当な
名前、意識的な誤つづり又は新しく作り出された用語の
場合におけるように自動補正が望ましくない環境を人は
容易に目論める。そのような系の辞書比較バージョンの
使用における仮定は、全文書中の各エントリが用語のデ
ータ・ベース辞書と比較されることである。文書の各エ
ントリと所定の辞典との比較費は極めて高価である。
【0007】その文書から抽出した意味的情報を使用す
ることは、入手できる辞書用語の誤つづりとして容易に
識別され得ない、又は1つよりも多い入手できる辞書エ
ントリに似ているエラーの識別及び自動補正を容易にす
るために、この分野で更に提案される。そのような装置
は、辞書索引が用語“ofthe”を解読不能として拒否す
る時にその用語を認識して用語“of the”と補正す
る。同様に、使用中のハードウェア又はソフトウェアの
ためのそして走査中の1つ又は複数の字体のための一群
の普通に起きるエラーは、“rn”が誤って“m”と識別
され或は文字“l”が誤って数字“1”と識別されるよ
うな普通のエラーを識別して自動的に補正するために、
文脈情報や語義情報と一緒に使用することが提案され
た。
【0008】特に拡張回路網を介して伝送される文書に
対してエントリ・バイ・エントリ・ルックアップを要す
ることなくエラーを検出するために、装置はデータと一
緒に伝送されるパリティ・ビットを使用した伝送が一度
行われると、“新しい”文書についてビット・カウント
がされる。もし計算されたビットが送られて来たパリテ
ィ・ビットと一致するなら、エラーの無い伝送が行われ
る。そのような方式、及びチャンドラン(Chandran)
等の米国特許第5,068,854号にて教示されたよう
なパリティ及びチェック・ビットの概念の延長は、デジ
タル・コード化された情報でエラーを検出するのに有用
である。1ビットよりも多いエラーを検出して補正する
ための、平衡重みエラー補正コードのようなパリティ・
ビット概念の更なる延長は、カービィ(Kirby)の米国
特許第4,965,883号におけるような技術にも見ら
れる。2進コード情報と共に使用するために工夫された
パリティ及びチェック・ビット方式は、送られて来た材
料のチェック・ビットと一致するデータの誤って受信し
た量のエラー・ビットの可能性が低ければ適正な精度で
エラーの有無を確認できる。両ビットが2進コード化デ
ータで計算されるので、重み付け平衡化且つランダム・
チェック時に変更される以外、1ビット・エラーを検出
するために最も効果的である。しかしながら、概して云
えば、チェック及びパリティ・ビット方式はコンピュー
タからコンピュータへの無エラー伝送を確実にするため
のデータとは無関係な方法であろうとする。チェック及
びパリティ・ビット方式は、従って絶対チェック方式と
考えられず、単なる第1選別技術(デジタル/デジタル
伝送に制限され且つ光学式文字認識のようなアナログ/
デジタル変換には適用できない)である。
【0009】データに依存し且つデータ・フィールドの
内容で計算される16ビットのチェック・シーケンスを
提供する他の従来装置はカルビナック(Calvignac)等
の米国特許第4,964,127号に見出される。ここで
も、この装置は、データ路沿いに伝送されるデータに、
多分デジタル・フォーマットで適用される。
【0010】光学式文字認識(OCR)の分野には、光
学的走査、ビット・マッピング及びコンピュータによる
コード化で再生されたデータのエラーを検出して補正す
るための手段を提供するための必要性が同様にある。辞
書検索及び普通のエラー基準の両方がOCRで使用する
ために提案された。しかしながら、過去の文書作成上の
必要性でのように、エントリ・バイ・エントリ・チェッ
キングは高価であるばかりでなく役に立たない。更に、
印刷された語に加えて、文書レイアウトはOCRでは重
要な特色である。光学的に走査されてビット・マッピン
グが行われる装置に現在のパリティ・ビット・チェック
方式を使用すれば、エラーの検出だけにわずかに有効で
あるが、エラー位置をつきとめるのは比較的有効でなく
且つ不適当なレイアウトを検出して補正するのは全く有
効でない。
【0011】OCR機中の“認識不能”文字を識別して
補正するための装置は、ラダック(Rudak)の米国特許
第4,974,260号にて教示される。この装置では、
電子辞書検索動作で認識されない文字はオペレータが解
釈して補正するために選択的に表示される。もっと完全
に自動化されたOCRエラー検出且つ補正装置が欲しい
が、現在では入手不能である。
【0012】従って、この発明の第1の目的は、情報
(これはコード化されて紙文書に関する様々な詳細を関
連コンピュータに提供する)を文書で自動的に組み込む
ための手段及び方法を提供することである。この発明の
第2の目的は、エントリづつの比較を必要とせずにOC
R技術を使用して再生された頁におけるエラーの有無を
確認することである。この発明の第3の目的は、OCR
技術を使用して再生された頁上のエラーを正確につきと
めるためのエラー検出装置及び方法を提供することであ
る。この発明の第4の目的は、現存のエラー補正装置と
一緒に使用されてエラー補正前にエラーに対して文書を
遮蔽し得るエラー検出装置を提供することである。この
発明の第5の目的は、OCR技術を使用して再生される
文書のための自動エラー補正手段及び方法を提供するこ
とである。この発明の第6の目的は、故意の誤つづり、
省略等を監視し得るエラー検出装置を提供することであ
る。この発明の第7の目的は、どんな文書フォーマッ
ト、字体、及び関連ハードウェアとも一緒に使用され得
るエラー検出装置を提供することである。この発明の第
8の目的は、種々の情報をコンピュータへ与えるために
使用され得る独特のマーカを文書に提供するための手段
を提供することである。この発明の第9の目的は、文書
についての情報(文書の組織、エラーの識別、位置及び
補正情報、並びに識別/検索情報を含む)を含みコンピ
ュータで読み取れるマーカを文書に提供するための手段
及び方法を提供することである。
【0013】
【発明の要約】これらの目的やその他の目的は、再生さ
れるべき文書のためのマーカの作成及び組み込みを実施
する装置で実現される。マーカは、書類の組織及びエラ
ー検出のコード化を含む様々な情報を含み得る。このエ
ラー検出コード化情報は、テキスト上で計算され且つ再
生されるべき文書の面上に種々のコード化技術の1つで
提供される証明書(certificate)である。文書のOC
R再生時に、テキストのための証明書は、再生時にテキ
ストが現れるので、再計算されてから原証明書と比較さ
れる。もしその値が一致すれば、再生物にエラーが無い
可能性が大である。証明書が一致しないなら、再生され
たようなテキスト中に少なくとも1つのエラーがある。
証明書は、エラー検出を行えるだけでなく、エラー位置
(例えばどの行がエラーを含むか)も提供でき、且つ従
来の辞書検索兼意味装置と共に利用されてエラー補正を
行える。計算されたテキスト証明書と一緒に或は紙文書
上の別々の証明書として別な情報をコード化できる。こ
れは機械で読み取って文書レイアウト、文書識別、コン
ピュータ・システム中での文書位置、コンピュータ又は
他の相互接続された周辺機器の、文書の伝送宛先に関す
る情報及び所要の他の情報を提供する。
【0014】
【実施例】以下、この発明を添付図面について詳しく説
明する。この発明によれば、紙文書用のマーカが作られ
るが、これはデータに依存するエラー検出情報(以後、
“証明書”と称す。)を含むことができ、また“走査
用”コンピュータに送られ且つOCR技術を使用して文
書を再生する際に走査用コンピュータで使用される文書
レイアウト情報も含むことができる。
【0015】マーカの証明書成分を使用して原文書をコ
ンピュータで作成するのを助けるために、図2に示され
たような第1コンピュータすなわち親コンピュータ22
の証明書作成器21が適切なアルゴリズムで1つ以上の
データ依存証明書27を計算する時に、その一例を以下
に詳しく述べる。証明書は、頁の内容に関する簡明なキ
ー・コード化情報であって、印刷時に作成され、且つ第
2コンピュータすなわち走査用コンピュータ28に関連
したOCRソフトウェア29で認識できる。コンピュー
タで作成されたどんな文書も、各テキスト・ブロック又
は頁に付属ないし関連した証明書を持つことができる。
証明書を作成するプロセスには人の介入は不要であり、
わずかな計算費だけが必要である。図3に示されたよう
に、印刷された頁として又は他の媒体で生成されたよう
な文書34は、主として人が使用するためにフォーマッ
トされた区域35及び機械が使用するためにフォーマッ
トされた区域37(いわゆる“人”区域を“理解”する
際に機械を助けるため)から成る。人区域は文書のアナ
ログ部分であり、そして機械区域は文書のデジタル部分
である。宛先は、特定実施例よりもむしろ文書のその部
分の使用を示すために使用される。2つの部分は、同じ
技術を使用して印刷されることができ、そしてこうする
ことが望ましい。一例として、“デジタル”部分は特定
の字体、バーコード又は他の記号(人であるユーザが読
み取れても或は読み取れなくても良いが、コンピュータ
が容易に読み取れるように選ばれる。)を使用して印刷
できる。証明書は、原印刷頁の完全に書き換えられたデ
ジタル・コピーを作ることが可能になるようにOCRソ
フトウェア29へ情報を提供するためのものである。
【0016】計算されて頁上に印刷される証明書は、そ
の頁の内容に関する情報を含む。図2の第1コンピュー
タ22は、証明書作成器と称される証明用ソフトウェア
21を含む。一度、文書が作られるか作成方法に置かれ
ると、証明書作成器21はその文書の情報に基づいて1
つ以上の証明書を計算する。作成された証明書27は、
プリンタ13から出力された文書のハードコピー24の
機械で読み取れる部分として作られる。従来技術におけ
るように、再生されるべきハードコピー24はデジタイ
ジング・スキャナ16を使って走査され、このデジタイ
ジング・スキャナ16はOCRソフトウェア29を持つ
第2コンピュータ28と組み合わされている。原証明書
27は第2コンピュータ28によって走査されてその結
果が蓄積される。OCR文書が作られた後に、OCRソ
フトウェア29は原印刷用ソフトウェアで使用されたの
と同一のアルゴリズムを使用して引出したテキストの証
明書を計算する。図面には、第2コンピュータ28の一
部としての証明書立証器26及び第1コンピュータ22
の一部としての証明書作成器21が示されている。当業
者には明らかなように、証明書作成器21や証明書立証
器26はシステム全体に組み込まれて別々のプログラム
である必要がない。その上、原データ又は走査されたデ
ータの証明書の計算は必ずしも別々の方法ステップでは
なく、データの作成と蓄積の少なくとも一方と同時に行
われて良い。一度計算されると、新しい証明書は印刷さ
れた頁から走査される原証明書と比較される。もし両方
の証明書が一致すれば、変換は完全であると思われ且つ
高い確率でエラーが無いと思われる。もし一致しなけれ
ば、それ自体の或は1つ以上の既知のエラー補正計画が
上述したように現在の文書作成すなわちOCR方式によ
って手動で使用された場合に、OCRソフトウェア29
は少数のエラーを検出して補正できる。エラーを補正し
終った時に、証明書立証器26は補正されたテキストの
ための証明書を再計算して再びこれを原証明書と比較す
ることにより何時出力が正しいかを明白にする。
【0017】証明書は多数の方法のどれかで計算でき
る。例えば、下記に示された“C”サブルーチンは簡単
な検査合計を1行づつ下記のようにして計算する。
【表1】 #include <stdio.h> #include <ctype.h> #define MAXLEN 200 /* maximun input line length */ Main() { char line [MAXLEN], /* input line */ hash; /* 8-bit hash value */ int len, /* length of input line */ i; /* counter */ while (gets (line) != NULL) { /* while more lines */ len = strlen(line); /* get length of input line */ if (len > 0) /* if line is non-empty */ hash = 0; /* initialize 8-bit hash */ for (i = 0; i < len; i++) { /* check each character */ if (!isspace (line[i])) { /* if character is non-space */ hash ^= line[i]; /* XOR ASCII value with hash */ hash = (hash<<1) | ((hash >> 7) & 0x01); /* left-rotate hash */ } } } printf("%.2x", hash & 0xff); /* print hash value */ } }
【0018】スペース無しの各文字のASCII値は8
ビットの検査合計との排他的論理和がとられる。この検
査合計は1位置左へビット回転され、そして方法は一連
の文字中の次の文字で繰り返される。この場合、行“T
his is a test.”は証明書“03”(16進数で表され
た)を受け、これは問題の頁に印刷される。もし走査中
にOCRソフトウェア29が上記行を“Thus is a tes
t.”と誤読するなら、計算された証明書は“73”であ
る。従って、OCRソフトウェア29は、2つの証明書
(その一方は再生されたテキストで新しく計算され、も
う一方は最初に計算され、印刷され且つ印刷された証明
書から読み出された)を比較して両者が一致しないと判
定することによりそのエラーを検出する。このサンプル
方式を使用する際に、テキストの任意の2行が同一証明
書に対して吟味する確率は1/(256)である。8ビ
ットの検査合計は証明書計算方式の一例にすぎない。当
業者は、この発明の範囲内に入る別な計算方法を容易に
認識し、そして特定用途で必要とされるようなエラー検
出の確率を増減するために検査合計のサイズ及び計算方
法を変えれることも認識する。
【0019】〔発明の背景〕なエラー補正方法は、辞書
検索戦略、意味的又は文脈情報コード及び普通のエラー
認識コード、等を含む。更に、証明書生成アルゴリズム
の正確な数学的性質は、エラーを正確に識別して補助エ
ラー補正プログラムに頼る必要無しにその補正を用意す
るのに役立つ。証明書はOCR認識レートを改善して信
頼できる方法を提供でき、この方法によりユーザは走査
される各頁にエラーが無いかどうかを確認できる。上述
したように、意図的な“エラー”が文書中に存在するか
どうかを知ることなくエラー検出且つ補正方式を使用す
れば、実際にエラーをテキストへ導入させ得る。しかし
ながら、エラー検出且つ補正の証明書方式を使用する時
に、これは避けれる。例えば意図的な誤つづりの場合に
は、証明書方式は、エラーがされたことを示さず、従っ
て意図的な誤つづりを間違って補正しない。
【0020】特に複雑な組織を持つ文書の場合に重要な
1つの考察は、証明書を計算するための規範的な文法的
関係説明順序を求めることである。明らかに、原証明書
及びOCRソフトウェアを計算するソフトウェアは両方
共同じ順序を使用しなければならない。1つの線形化式
は、英文テキストが通常、人によって読まれるのと同じ
仕方で左から右へ、上から下への順序をたどり得る。他
の解決策は頁を一連のテキスト・ブロック(その各々は
計算中の別々のエンティティである)として分解する。
図形又は他の非テキスト情報を含むどのブロックも標準
テキストと違って扱われなければならない。図の場合、
“ドット”の集合が完全な丸に相当するとの認識は、イ
メージ処理ソフトウェアにとっては異なる仕事である。
しかしながら、所定の図が3個の丸及び1個の3角を含
む情報をもし証明書作成器がコード化するなら、この情
報は処理時間を大巾に短縮して精度を増す。図成分の存
在をコード化することを越えて、図中の基本的図形要素
の正確な位置及びサイズはコード化され得る(例えば丸
の半径は0.3cm、x座標は1.3cm、y座標は3.8c
m、等)。証明書計画を採用して数式又は他の特定植字
組織を認識することが更に可能である。
【0021】文書組織情報を文書マーカに組み込むこと
も望ましい。複雑なレイアウト組織を持つ6”×7”の
文書が図4に示されている。文書44はテキスト・ブロ
ックA,B,D,E及びG(符号45で示す)、ブロッ
クC(符号48)の写真、並びにブロックF(符号4
6)の図を含む。走査系に対する文書レイアウトを識別
するために、利用できる1つのレイアウト識別方式は図
5の(A)〜(F)に示されるような平面分割モデルに基づ
く。他のモデルも利用できる。平面分割モデル例は、文
書のレイアウトがどんなに複雑でも或る数のカットによ
って述べられ得ることを仮定する。平面分割はバイナリ
ー・ツリーとして再帰的に表され得るが、それは葉で表
されたサブ平面の規範的な順序が定められた場合であ
る。平面は最初識別され且つ例えば特定の水平成分H及
び垂直成分Vとして特徴付けられる。各平面すなわちス
ライスはツリー組織の一部として識別される。このツリ
ー組織は次に線形糸(linear string)としてコード化
される。再帰的講文は図示の文書に対して(H1“CR
A(V2”(H3”CRTB(H5”PHTCCR
D))(V4”CRTE(H3”FIGFCRTG)))
を生じるために使用され、ここで正確な各位置は水平方
向及び垂直方向にてインチで定められ、CRTは指定さ
れたテキスト・ブロックのために計算された証明書を表
し、PHTは写真を表し、そしてFIGは図を表す。こ
の短い糸は文書の基本的レイアウトを完全に述べる。こ
の糸内に、サブ平面の内容(例えばテキスト、図番号、
式、写真)の説明、頁上のサブ平面の正確なx,y座
標、そしてもちろんエラー検出証明書のような他の情報
を埋め込める。
【0022】人に対する慎み深さを保つために、例えば
ロゴ(logo)中にマーカを隠すことが可能である。3/
4×3/4インチのロゴは1000ビットを越える情報
をコード化できる。他の実施例は、見えないインクを使
用すること、又は文章それ自体のフォーマット中にマー
カを隠すことを包含し得る。例えばブランク中の文書の
人が読める部分から離れて情報が提供されることは必要
でない。必要なことは、コンピュータがその位置を容易
に確めてコード化された情報を簡単に読み出せるような
仕方で情報が提供されること、及びこれを読めなくする
ような仕方で人の読める部分と干渉しないことである。
【0023】OCRの使用についてマーカを説明してき
たが、マーカを読み取るための媒体がデジタイジング・
スキャナであることはおおいに仮定された。他の入力媒
体の開発によりコード化計画は適切な方式と適応する必
要がある。
【図面の簡単な説明】
【図1】文書を走査して再生する従来のOCR方法を説
明する概略図である。
【図2】エラーを検出するために証明書を有するマーカ
がある文書を再生するこの発明のOCR方法を説明する
概略図である。
【図3】この発明に従って作成された文書を示す図であ
る。
【図4】図、テキスト・ブロック及び写真を含む複雑な
文書を示す図である。
【図5】図4に示された複雑な文書のレイアウトをコー
ド化するための1例を示す図である。
【符号の説明】
13 プリンタ 16 デジタイジング・スキャナ 21 証明書作成器 22 第1コンピュータ 24 ハードコピー 26 証明書立証器 27 証明書 28 第2コンピュータ 29 OCRソフトウェア
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョナサン・サンドバーグ アメリカ合衆国、ニューヨーク州、ニュー ヨーク、ウエスト・ナインティサード・ス トリート 257、アパートメント 1−シ ー (72)発明者 リチャード・ジェイ・リプトン アメリカ合衆国、ニュージャージー州、ク ランベリー、イェガー・レーン 5 (54)【発明の名称】 原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成さ れて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物 を提供するための方法

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 データに依存する少なくとも1つの第1
    値を原データにまず付与するステップと、 データに依存する少なくとも1つの第2値を前記原デー
    タから電子的に再生されたデータに付与するステップ
    と、 前記第1値と前記第2値を比較するステップと、 を含む、原データから電子的に再生されたデータの正確
    さを確保するための方法。
  2. 【請求項2】 前記付与するステップは、前記データに
    依存する値を計算するステップである請求項1の、原デ
    ータから電子的に再生されたデータの正確さを確保する
    ための方法。
  3. 【請求項3】 前記第1値と第2値が違う場合にエラー
    を識別するステップを更に含む請求項1の、原データか
    ら電子的に再生されたデータの正確さを確保するための
    方法。
  4. 【請求項4】 前記識別されたエラーを補正するステッ
    プを更に含む請求項3の、原データから電子的に再生さ
    れたデータの正確さを確保するための方法。
  5. 【請求項5】 データに依存する少なくとも1つの第1
    値を、コンピュータで生成されて印刷された文書のデー
    タに付与するステップと、 前記少なくとも1つの第1値を含む前記文書を印刷する
    ステップと、 前記印刷された文書及び前記第1値を光学的に走査する
    ことにより電子文書を作り且つ前記作られたデータ及び
    第1値を蓄積するステップと、 データに依存する少なくとも1つの第2値を前記作られ
    たデータに付与するステップと、 を含む、コンピュータで生成されて印刷された文書のデ
    ータを電子的に再生するための方法。
  6. 【請求項6】 前記第1値と前記第2値を比較するステ
    ップを更に含む請求項5の、コンピュータで生成されて
    印刷された文書のデータを電子的に再生するための方
    法。
  7. 【請求項7】 前記第1値と第2値が違う場合にエラー
    を識別するステップを更に含む請求項6の、コンピュー
    タで生成されて印刷された文書のデータを電子的に再生
    するための方法。
  8. 【請求項8】 前記識別されたエラーを補正するステッ
    プを更に含む請求項7の、コンピュータで生成されて印
    刷された文書のデータを電子的に再生するための方法。
  9. 【請求項9】 前記第1値及び前記第2値を付与するス
    テップは、前記コンピュータで生成され且つ電子文書の
    各々のデータへ同一のアルゴリズムを適用するステップ
    である請求項5の、コンピュータで生成されて印刷され
    た文書のデータを電子的に再生するための方法。
  10. 【請求項10】 前記電子文書を作るステップ及び前記
    第2値を付与するステップが同時に行われる請求項5
    の、コンピュータで生成されて印刷された文書のデータ
    を電子的に再生するための方法。
  11. 【請求項11】 光学式文字認識技術を使用して印刷さ
    れた文書の電子再生物を提供するための方法であって、 第1コンピュータ中の前記文書の第1コンピュータ・バ
    ージョンを作るステップと、 少なくとも1つの第1デジタル値を前記文書の第1バー
    ジョンに付与するステップと、 前記第1バージョン及び前記少なくとも1つの第1デジ
    タル値を前記第1コンピュータと関連させられたプリン
    タへ出力することにより前記文書の印刷されたバージョ
    ンを作るステップと、 前記光学式文字及び前記デジタル値を認識するためのソ
    フトウェアを有する第2コンピュータと関連させられた
    スキャナで前記印刷されたバージョン及び前記少なくと
    も1つの第1デジタル値を光学的に走査することにより
    前記文書の第2コンピュータ・バージョンを作るステッ
    プと、 を含む、印刷された文書の電子再生物を提供するための
    方法。
  12. 【請求項12】 前記少なくとも1つの第1デジタル値
    を付与するステップは、前記文書のレイアウトの少なく
    とも1つの第1デジタル特徴を提供することを含む請求
    項11の、印刷された文書の電子再生物を提供するため
    の方法。
  13. 【請求項13】 前記文書の前記第2コンピュータ・バ
    ージョンに少なくとも1つの第2デジタル値を付与する
    ステップを更に含む請求項11の、印刷された文書の電
    子再生物を提供するための方法。
  14. 【請求項14】 前記少なくとも1つの第1デジタル
    値、第2デジタル値を付与するステップは、前記文書の
    それぞれ前記第1コンピュータ・バージョン、第2コン
    ピュータ・バージョンの各々中のデータで前記値を計算
    することである請求項13の、印刷された文書の電子再
    生物を提供するための方法。
  15. 【請求項15】 前記少なくとも1つの第1デジタル値
    を前記少なくとも1つの第2デジタル値と比較するステ
    ップを更に含む請求項13の、印刷された文書の電子再
    生物を提供するための方法。
  16. 【請求項16】 前記少なくとも1つの第1デジタル値
    と第2デジタル値が違う場合に前記第2コンピュータ・
    バージョンのエラー補正を行うステップを更に含む請求
    項15の、印刷された文書の電子再生物を提供するため
    の方法。
  17. 【請求項17】 前記エラー補正後に前記文書の前記第
    2コンピュータ・バージョンに少なくとも1つの第3デ
    ジタル値を付与するステップ、及び前記少なくとも1つ
    の第1デジタル値を前記少なくとも1つの第3デジタル
    値と比較するステップを更に含む請求項16の、印刷さ
    れた文書の電子再生物を提供するための方法。
JP5254535A 1992-10-09 1993-10-12 原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成されて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物を提供するための方法 Pending JPH06282679A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US95893892A 1992-10-09 1992-10-09
US07/958938 1992-10-09

Publications (1)

Publication Number Publication Date
JPH06282679A true JPH06282679A (ja) 1994-10-07

Family

ID=25501468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5254535A Pending JPH06282679A (ja) 1992-10-09 1993-10-12 原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成されて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物を提供するための方法

Country Status (6)

Country Link
US (2) US5625721A (ja)
EP (1) EP0592238B1 (ja)
JP (1) JPH06282679A (ja)
KR (1) KR100311338B1 (ja)
DE (1) DE69331456T2 (ja)
TW (1) TW401567B (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748807A (en) * 1992-10-09 1998-05-05 Panasonic Technologies, Inc. Method and means for enhancing optical character recognition of printed documents
TW250558B (en) * 1993-10-20 1995-07-01 Yamaha Corp Sheet music recognition device
US6535618B1 (en) 1994-10-21 2003-03-18 Digimarc Corporation Image capture device with steganographic data embedding
US5832474A (en) * 1996-02-26 1998-11-03 Matsushita Electric Industrial Co., Ltd. Document search and retrieval system with partial match searching of user-drawn annotations
GB9603998D0 (en) * 1996-02-26 1996-04-24 Domino Printing Sciences Plc Method of and apparatus for print verification
US5719960A (en) * 1996-06-26 1998-02-17 Canon Kabushiki Kaisha System for dispatching task orders into a user network and method
DE69725665T2 (de) * 1996-08-09 2004-07-29 Canon Finetech Inc., Mitsukaido Strichkodedrucksystem und Steuerverfahren dafür
US5937110A (en) * 1996-12-20 1999-08-10 Xerox Corporation Parallel propagating embedded binary sequences for characterizing objects in N-dimensional address space
US5870510A (en) * 1996-12-20 1999-02-09 Xerox Corporation Parallel propagating embedded binary sequences for parameterizing two dimensional image domain code patterns in N-dimensional address space
US5862271A (en) * 1996-12-20 1999-01-19 Xerox Corporation Parallel propagating embedded binary sequences for characterizing and parameterizing two dimensional image domain code patterns in N-dimensional address space
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
US6023534A (en) * 1997-08-04 2000-02-08 Xerox Corporation Method of extracting image data from an area generated with a halftone pattern
EA003619B1 (ru) * 1998-04-01 2003-08-28 Уильям Петерман Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
US6533175B1 (en) * 1999-05-28 2003-03-18 Barcode Graphic Inc. Automatic compliance-testing system for desktop designed consumer packaging
US6674919B1 (en) 1999-09-21 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for determining the skew angle of a two-dimensional barcode
JP3862198B2 (ja) * 1999-12-21 2006-12-27 富士フイルムホールディングス株式会社 証明写真撮影装置と画像処理装置及び証明写真作成システム
US6950553B1 (en) * 2000-03-23 2005-09-27 Cardiff Software, Inc. Method and system for searching form features for form identification
US6862113B1 (en) 2000-05-19 2005-03-01 Xerox Corporation Assist channel coding with character classifications
US6628837B1 (en) 2000-05-19 2003-09-30 Xerox Corporation Assist channel coding with convolution coding
US7110621B1 (en) 2000-05-19 2006-09-19 Xerox Corporation Assist channel coding using a rewrite model
US6768560B1 (en) 2000-05-19 2004-07-27 Xerox Corporation Assist channel coding with vertical block error correction
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US7917844B1 (en) * 2000-07-14 2011-03-29 International Business Machines Corporation Directory service for form processing
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
JP2002344736A (ja) * 2001-05-21 2002-11-29 Oki Electric Ind Co Ltd プリント紙の原本保証システム,プリンタ装置,および,検証装置
US20030065677A1 (en) * 2001-09-28 2003-04-03 Culp Jerlyn R. Electronic calendaring device
EP3633680A1 (en) 2002-02-04 2020-04-08 QIAGEN Redwood City, Inc. Drug discovery methods
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
FR2837011B1 (fr) * 2002-03-05 2004-05-28 Comptacom Procede de lecture automatique d'un document sur lequel est apposee une etiquette pre-imprimee a completer, etiquette, systeme et procede de comptabilite correspondants
AU2002952106A0 (en) * 2002-10-15 2002-10-31 Silverbrook Research Pty Ltd Methods and systems (npw008)
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
JPWO2004055713A1 (ja) * 2002-12-17 2006-04-20 シャープ株式会社 バーコード認識装置
US20040199877A1 (en) * 2003-03-17 2004-10-07 Hiroshi Yasuda System for processing handwritten document and method for processing handwritten document
US20040202386A1 (en) * 2003-04-11 2004-10-14 Pitney Bowes Incorporated Automatic paper to digital converter and indexer
US20040223648A1 (en) * 2003-05-05 2004-11-11 Keith Hoene Determining differences between documents
US20050281450A1 (en) * 2004-06-18 2005-12-22 Digicor Llc System and method for correcting data in financial documents
US8549400B2 (en) * 2004-09-28 2013-10-01 Ricoh Company, Ltd. Techniques for encoding media objects to a static visual representation
US7725825B2 (en) * 2004-09-28 2010-05-25 Ricoh Company, Ltd. Techniques for decoding and reconstructing media objects from a still visual representation
US7774705B2 (en) 2004-09-28 2010-08-10 Ricoh Company, Ltd. Interactive design process for creating stand-alone visual representations for media objects
US20060112017A1 (en) * 2004-11-22 2006-05-25 George Koppich System and method for auditing an electronic document trail
US8553968B1 (en) 2005-02-18 2013-10-08 Western Digital Technologies, Inc. Using optical character recognition augmented by an error correction code to detect serial numbers written on a wafer
GB2426100B (en) * 2005-05-11 2007-08-22 Ingenia Technology Ltd Authenticity vertification
US20080033819A1 (en) * 2006-07-28 2008-02-07 Ingenuity Systems, Inc. Genomics based targeted advertising
US7715045B2 (en) * 2006-10-31 2010-05-11 Pitney Bowes Inc. System and methods for comparing documents
JP4389945B2 (ja) * 2007-02-07 2009-12-24 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置、印刷用紙選択方法及び印刷用紙選択プログラム
DE102010038729A1 (de) 2010-07-30 2012-02-02 Hans-Peter Bannert Verfahren und Vorrichtung zum elektronischen Erfassen von Rechnungsdaten
US10445966B1 (en) 2018-07-27 2019-10-15 Hart Intercivic, Inc. Optical character recognition of voter selections for cast vote records
CN117315808B (zh) * 2023-11-28 2024-02-13 成都博瑞科传科技有限公司 基于数据完整性校验的水质便携式巡检仪及采集方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3200372A (en) * 1960-07-26 1965-08-10 Ibm Error detection and correction system
US3713097A (en) * 1971-05-14 1973-01-23 Ibm Test bit pattern generator for pattern recognition machines
USRE29104E (en) * 1971-08-18 1977-01-04 Cognitronics Corporation Method of scanning documents to read characters thereon without interference from visible marks on the document which are not to be read by the scanner
US3763467A (en) * 1972-05-04 1973-10-02 Ibm Method and apparatus for reading documents
US4105997A (en) * 1977-01-12 1978-08-08 United States Postal Service Method for achieving accurate optical character reading of printed text
DE3113555A1 (de) * 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
JPS58103266A (ja) * 1981-12-15 1983-06-20 Toshiba Corp 文字画像処理装置
JPS60235136A (ja) * 1984-05-09 1985-11-21 Kyodo Printing Co Ltd 検版方法
US4741046A (en) * 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
US4866666A (en) * 1984-10-29 1989-09-12 Francisco Michael H Method for maintaining data integrity during information transmission by generating indicia representing total number of binary 1's and 0's of the data
JPS6265554A (ja) * 1985-09-17 1987-03-24 Toshiba Corp フアクシミリの通信方法
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US4928313A (en) * 1985-10-25 1990-05-22 Synthetic Vision Systems, Inc. Method and system for automatically visually inspecting an article
JPS62137974A (ja) * 1985-12-12 1987-06-20 Ricoh Co Ltd 画像処理方式
US4809341A (en) * 1986-07-18 1989-02-28 Fujitsu Limited Test method and apparatus for a reticle or mask pattern used in semiconductor device fabrication
JPS63182771A (ja) * 1987-01-23 1988-07-28 Fujitsu Ltd 文書の文体解析方式
JP2702928B2 (ja) * 1987-06-19 1998-01-26 株式会社日立製作所 画像入力装置
US5001767A (en) * 1987-11-30 1991-03-19 Kabushiki Kaisha Toshiba Image processing device

Also Published As

Publication number Publication date
EP0592238A3 (en) 1994-10-19
KR100311338B1 (ko) 2001-12-28
KR940009877A (ko) 1994-05-24
EP0592238A2 (en) 1994-04-13
DE69331456D1 (de) 2002-02-21
US5703972A (en) 1997-12-30
DE69331456T2 (de) 2002-11-07
TW401567B (en) 2000-08-11
US5625721A (en) 1997-04-29
EP0592238B1 (en) 2002-01-16

Similar Documents

Publication Publication Date Title
JPH06282679A (ja) 原データから電子的に再生されたデータの正確さを確保するための方法、コンピュータで生成されて印刷された文書のデータを電子的に再生するための方法、及び印刷された文書の電子再生物を提供するための方法
US5748807A (en) Method and means for enhancing optical character recognition of printed documents
US5852684A (en) Multimedia rendering marker and method
US5761686A (en) Embedding encoded information in an iconic version of a text image
US5862270A (en) Clock free two-dimensional barcode and method for printing and reading the same
US5920878A (en) Method for hiding a binary encoded message in an electronic document by modulating the case of the characters in a case-insensitive markup language
JPS61502495A (ja) 暗号解析装置
JP2754062B2 (ja) 文書作成装置
JP2000200321A (ja) 2次元バ―コ―ドを場所検知し及び読取るための方法
JP2020184109A (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
Memon et al. EVALUATION OF STEGANOGRAPHY FOR URDU/ARABIC TEXT.
US20070110339A1 (en) Optical character recognition
JP2003022269A (ja) 漫画翻訳装置及びそのシステム並びに漫画翻訳方法
JP3058491B2 (ja) 録音及び再生方式
JP3727422B2 (ja) 文字認識装置及びその方法
JP4159948B2 (ja) 2次元コード読み取り装置、2次元コード読み取り方法及び2次元コード読み取りプログラム、記憶媒体
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP2000352928A (ja) 文字情報編集加工方法、装置、および文字情報編集加工プログラムを記録した記録媒体
JPH0624909Y2 (ja) 文書作成装置
JPS5972577A (ja) 図面読取装置
JPH0528302A (ja) 文字読取装置
JP3476872B2 (ja) 文字認識装置
JPS59133683A (ja) 画像編集装置
JP2001265317A (ja) ビットマップフォント、ビットマップフォント作成方法および装置、専用フォント文字を用いた文書データ作成方法および装置並びに文字認識方法および装置
JP2784004B2 (ja) 文字認識装置