JP3640972B2 - ドキュメントの解読又は解釈を行う装置 - Google Patents
ドキュメントの解読又は解釈を行う装置 Download PDFInfo
- Publication number
- JP3640972B2 JP3640972B2 JP35615892A JP35615892A JP3640972B2 JP 3640972 B2 JP3640972 B2 JP 3640972B2 JP 35615892 A JP35615892 A JP 35615892A JP 35615892 A JP35615892 A JP 35615892A JP 3640972 B2 JP3640972 B2 JP 3640972B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- word
- document
- list
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
【0001】
【産業上の利用分野】
本発明はドキュメント認識に関し、より詳細には初めはビットマップ・イメージとして表されているドキュメントにおけるテクスチュアル及びグラフィックス構造を認識し、認識プロセスの結果を記録するための方法及び装置に関する。
【0002】
【従来の技術】
ドキュメント認識とは、ペーパードキュメントを編集可能な電子ドキュメントに自動的に変換することである。それは様々なプロセスの連続的かつ循環的な介入を通じて、組織化された構成要素へのビットマップの逐次変換を伴う。このプロセスには、ページ・セグメント化、キャラクタ(字)認識、グラフィックス認識、論理構造の再構築、スペリング訂正、意味論解析等が含まれる。これらのプロセスの全ては誤って解読又は解釈(misinterpretation)しやすい傾向がある。全てのプロセスが自認した誤った解読又は解釈の記録を取っているわけではないし、記録しているプロセスでもそれを行う基準を決めているわけではない。その結果、後にくるプロセスは、先に済んだプロセスから手渡されたアンビギティー(ambignity、あいまいさ) の記録を処理する準備が通常為されておらず、単にそれらを切り捨ててしまう。貴重な情報が、ドキュメント認識機能の自動的改善に向けて開発される代わりに失われていく。一方、アンビギティー記録が未加工のまま使用者に手渡されると、全ドキュメントの手作業の再構築を通して、手作業の修正をするという雑用が自動認識の利点を殺してしまう。
【0003】
コンピューター言語学の第16巻No.1(1990年3月)の中のケネス・W・チャーチ及びパトリック・ハンクスによる「ワード(語)連想基準、相互情報、及び辞書編集」には、コンピューターが読み取れる知識の集積からワード連想基準を見積もるための、相互情報の情報理論概念に基づいた「連想比」と称される手段が記載されている。この連想比は、可能性のあるワードとして識別された2個〜数個のワードの選択から最も適当なワードを判断するため、意味論解析器により使用される。
【0004】
パターン解析及び機械知能の米国電気電子学会 (IEEE) 処理、PAM1-9巻、No.2(1987年3月)の中のサイモン・カハン、セオ・パブリディス及びヘンリー・エス・バイヤードによる「あらゆるフォント及びサイズの印刷されたキャラクタの認識」には、ラテン文字のための様々なフォントとサイズの印刷されたテキストを認識するシステムが記載されている。バイナリーイメージのランレングス符号化グラフに細文字化とシェープ抽出が直接行われる。結果として生じるストロークとその他のシェープは、シェープイメージ・クラスター化アプローチを用いてバイナリー演算機構に写像され、統計的なベイズの分級機に送られる。このシステムは多数の可能性のあるキャラクタとワードを識別し、それらを記録する。しかしながら、認識プロセスにおける不確定性は、本発明の標準表示法を用いては記録されない。
【0005】
要約すると、グラフィックス構造、テキスト(キャラクタ、ワード、意味論、フォント)、及び論理学上の構造(ページ、パラグラフ、脚注)を認識することができ、認識される特徴を認識したときの不確定性を決定することができる数多くのシステムが存在する。従って、上記の先行技術に関する資料はここに参考のため挿入しておく。しかしながら、これらのシステムのいずれも、認識プロセス(不確定性も含む)の結果を、その他の装置により使用される方法では記録しない。その結果、特に異なる認識システム(例えば、キャラクタ認識、ワード認識、意味論解析器)が異なった時に(一つのシステムに統合されるのとは反対に)使用される時に、多くの情報(特に不確定性に関して)が失われることになる。
【0006】
【課題を解決するための手段及び作用】
ビットマップ・イメージとして表されるドキュメントを、編集可能なコード化データに変換する方法及び装置が提供され、該方法及び装置において、ドキュメント記述言語における標準表示法が各ドキュメント認識装置によりドキュメント認識アンビギティーを記録するために利用される。ドキュメント認識プロセスの結果がこの標準表示法を用いて記録された場合、如何なるアンビギティーも統一された方法で識別され、後にくるより高水準のドキュメント認識プロセスが、先に済んだドキュメント認識プロセスにより得られるアンビギティーについての情報を用いて、これらのアンビギティーを解消することを試みることが出来る。
【0007】
特に、本発明の標準表示法を用いる時に、各ドキュメント認識装置はドキュメント記述言語を用いて選択別に識別された1つまたはそれ以上のエレメントにおける認識プロセスの結果を記録することができる。各エレメントはその中に含まれる認識された(変換された)ビットマップ・イメージに関して、コード化データ(情報)のタイプを示すタイプ識別名を持っている。各エレメントはまた、その中にタイプ識別名により識別されたタイプの編集可能なコード化データを含んでおり、既定の信頼度で変換されなかったコード化データを識別する不確定情報を含むことができる。この不確定情報はドキュメント認識装置により判断され、より高水準の後にくるドキュメント認識装置により読み取り可能なフォーマットで記録される。この不確定情報は、アンビギティーを解決する際により高水準のドキュメント認識装置を助けるために、不確定なコード化データがドキュメント認識装置により認識された際の信頼度を持つことができる。不確定情報はまた各不確定な認識に関する代替コード化データを含むことができる。
さらに、本発明では、ドキュメント変換プロセスにおける不確定性に関する情報を記録するため、ビットマップ・イメージ・データとして表されるドキュメントを、ドキュメント記述言語の標準表示法を用いて、編集可能なコード化データストリームに変換する自動ドキュメント認識装置であり、前記コード化データストリームはエレメントのシリーズを含み、ビットマップ・イメージのコード化された部分を記録するために使われる、エレメントを定義したシンタックスリストを記憶するためのメモリであり、前記シンタックスリストはグラフィックス・ビットマップ・データを記録するためのエレメントを含み、前記データの属性と同様に、前記シンタックスリストは前記コード化されたデータストリームを文法的に説明するためのダウンストリーム・プロセス (downstream process) を可能とする、自動ドキュメント認識装置であり、第一の認識装置は、 a) 前記ドキュメントの前記ビットマップ・イメージ表示において、前記ドキュメントをコード化データを含む1つ以上のエレメントに変換する第1の変換操作を行う第1の変換手段と、 b) 前記ドキュメント記述言語を、前記第一の変換手段によって変換された、前記1つ以上のエレメントを識別するために、使用する第1の識別手段であり、 各エレメントは前記エレメントに含まれる認識されるビットマップ・イメージに関するコード化データのタイプを識別するエレメント・タイプ識別名を有し、前記第一の変換手段が、規定の信頼度で変換されたエレメントに含まれるコード化データを決定するとき、前記識別装置も前記エレメントに含まれる前記コード化データを認識する第一の変換手段によって決定される前記エレメントの不確定な情報を含む。
【0008】
ドキュメント認識装置がキャラクタ認識装置である場合、既定の信頼度で認識されないキャラクタが識別され、それらを疑わしい・キャラクタ・エレメントに配置することにより記録される。代替の可能性のあるキャラクタ及びその確定度と共に確定度が、疑わしいキャラクタのために記録される。少なくとも既定の信頼度で認識されたキャラクタは、キャラクタ・ストリング・エレメントの中に置かれる。
【0009】
ドキュメント認識装置がワード認識装置(例えば、スペリング・チェッカー等)を含む場合は、ワード認識装置はワードが、各疑わしいキャラクタと各疑わしいキャラクタを含むワードの中の特定のキャラクタとに基づいた辞書の中に存在するかどうかを判断することにより、存在する疑わしいキャラクタを解決しようと試みる。疑わしいキャラクタを含むワードの辞書の中で、ワードが識別された場合、該かるワードは確認済みワードとして識別され、確認済み・ワード・エレメントの中に記録される。1つ以上の確認済みワードが見つけられた場合、それらのワードは代替・ワード・エレメントの中に集合的に分類される個々の確認済み・ワード・エレメントの中に配置される。疑わしいキャラクタを含むワードについての確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残る。
【0010】
ドキュメント認識装置が意味論解析器を含む場合、識別された代替確認済みのワードは、代替確認済みのワードを取り巻くワードを解析することにより解決される。代替確認済みのワードの内の1つが、意味論解析に基づいて既定の信頼度で確認される場合、そのワードは戻されて周囲のキャラクタ・ストリング・エレメントに併合される。意味論解析器がどの代替確認済みのワードが正しいのか判断できない場合、意味論解析器は代替・ワード・エレメントそれ自体(及び含まれた確認済み・ワード・エレメント)を戻し、その中の確認済みワードが正しいワードである可能性を指示するデータを含むことができる。
【0011】
ドキュメント認識装置がグラフィックス構造イメージ認識装置を含む場合、ドキュメント認識装置はグラフィックスイメージの中の認識されたグラフィックス構造を表わすコード化データを含むグラフィックス・エレメントを出力する。これらの構造は、終了点、円、弓形等の間で明確にされた線を含むことができる。加えて、線の厚さの情報も戻されて記録され得る。xやyの方向オフセットや線の厚さの変化等の認識プロセスの中のアンビギティーも記録され得る。該データはアンビギティーを解決したり、より複雑なグラフィックス構造を認識するために、後にくるより高水準のグラフィックス認識プロセスにより使用される。例えば、低水準のグラフィックス認識装置により認識された4本の線は、もし、例えば、終了点が高い確実性で一致していると断定されるなら、より高水準のグラフィックス認識装置によって箱であると断定されるのである。
【0012】
追加的なイメージ認識エレメントがドキュメントイメージのより大きな部分(もしくはサブイメージ)に関する情報を記録するために作られる。例えば、フォントテキストブロック、フレーム、ページ、ドキュメント、及び大小の未解決のビットマップ・イメージ等に関するデータもまた記録することができる。
【0013】
【実施例】
本発明はドキュメント認識プロセスの連続的段階を通して、アンビギティーを記録する明瞭な手順を利用する。これらのアンビギティーは、キャラクタ認識装置により調査分析されたキャラクタ;キャラクタ認識装置、スペリング・チェッカー、及び意味論解析器により調査分析されたワード;論理的構造再構築器により調査分析されたテキスト・フロー;グラフィックス認識装置により調査分析されたライン・セグメント及び弓形の幾何学と関係している。
【0014】
これらのプロセスの各々は、バイトオリエンテッドデータ・ストリーム(以後ドキュメント認識ストリームまたはDRストリームと称する)、及びDRストリームによって言及されるビットマップ・ストリーム(以降イメージファイルと称する)を作りだし、及び/または消費する。該DRストリームは、1ページまたは数ページの計数化されたドキュメントに関する情報を運ぶ。該情報はフォント付きのテキスト、特定のグラフィックス原語、ハーフトーン・イメージを、それらの関係及びそれらに付いてのアンビギティーと共に表わす。
【0015】
本発明は、例えばキャラクタもしくはグラフィックス構造等を認識し、またはワードを決定する(キャラクタのシーケンスを知られているワードの辞書と比較することにより)、あるいは可能性のあるワードの選択からどのワードが正しいかを判断する現存する認識装置で使用できるという意味で、全く新しいドキュメント認識プロセス(またはドキュメント認識装置)を提供するのではない。しかしながら、本発明はドキュメント認識言語で認識装置によって得られる結果を記録するための標準表示法を提供することにより、これら異なったタイプの認識装置が機能する効率及び適合性を改良するものである。
【0016】
図2〜図22は下記で論じられるドキュメントタイプ定義に従って、ISO 8879標準法則化マークアップ言語(SGML)における本ドキュメント認識表示法を示している。本発明によれば、各認識装置は、SGMLにおいてエレメント(elements)と称され、コード化情報としての、それが実行する認識プロセスの結果と一致する、コード化データを記録する。各エレメントはいくつかの方法(例えば、テキスト、グラフィックス、同じページ、特定の全てのキャラクタ等)において類似していると認識されたコード化データを含んでいる。各エレメントは、a)該エレメントに含まれるコード化データのタイプを指示するタイプ識別名;b)ドキュメントの類似したタイプのエレメントの中で独得であり、あるエレメントが他のエレメントによって参照されるように(ほとんどのエレメントは識別番号を持っている)、他の類似のタイプ・エレメントから該エレメントを識別する任意の識別番号;c)ドキュメント認識プロセス(これはキャラクタのストリングあるいはグラフィックス構造を明確にするパラメーターであって良い)によって得られたコード化データ;及びd)エレメントに含まれるコード化データについて追加的情報(例えば、不確定情報)を提供するための任意の内容(属性(attribute) と称する)を含んでいる。エレメントの属性はエレメントにおけるコード化データに関する不確定情報(例えば、コード化データが認識される信頼度またはグラフィックス構造のパラメーター(例えばライン・セグメントを明確にする終了点)のための可能性のあるオフセット)を記録するために使用されるが、いくつかの場合におけるタイプ識別は、該エレメントの内容が既定の信頼度以下の信頼度で判断されたことを指示することにより、不確定情報を伝えるためにも役立っている。例証された例において、コード化データは人間が読むことの出来るASCII として記録されるが、他のコードも使用できる。
【0017】
SGMLに慣れている人なら、以下に述べるエレメントの包括的な内容を理解できるであろう。従って、図18〜図22に関しては、包括的なエレメントについての短い論議だけで充分であろう。次に、図2〜図17に関して、各エレメントのタイプを特に記述する。図18〜図22は、本発明に従いドキュメントを記述するために使用することができる複雑なエレメントのシンタックスを示している。このエレメント・リストは各DRストリームの始まりに位置し、SGMLで書かれたストリームを分析し、それ以降に含まれるDRストリームを分析するようプログラムされた従来の分析器により使用される。つまり、エレメントのシンタックスリストの後で、特別のドキュメントを記述するエレメントの連続ストリームが提供される。ここで用いられるように、「エレメントの連続ストリーム」(continuous stream of elements) という用語は、同属するものとして識別されるエレメントのグループに関連している。このように、空白スペースが認められる(また実際、読みやすさのために奨励される)SGMLのようなマークアップ言語においては、別のラインへの侵入であるタブは分析機が無視する空白スペースを構成する。この意味で、空白スペースはエレメントの連続ストリームの一部である。その他のシステムはキャラクタストリームの規模に制限を設けることもある。これらのシステムにおいて、長いDRストリームは同属するものとして識別されるであろう数個のファイルに分けられる。数個のファイルが同属するものとして識別される該DRストリームも、やはり「エレメントの連続ストリーム」という用語でカバーされるよう意図されている。(図18〜図22におけるいくつかのエレメントも、やはりDRストリームの始まりの所で記録される属性(下記に記述される)を含んでいる。)もちろん、図18〜図22に記録された全てのエレメントがドキュメント認識プロセスの結果を記録する必要があるわけではない。しかしながら、より多くのエレメントが提供された場合、より多くの情報を記録することができる。SGMLの図2に関連して、「!エレメントs 」という用語は「エレメントをそのタイプが's' であると定義する」ことを意味し;「- O」という用語は「タイプ識別名が<>に囲まれて現れる時にエレメントが始まり、</ >(エレメント終了マーカー)でエレメントが終わる、あるいは別のエレメントが入れ子構造の中の同等か高水準で始まる時」を意味し;「(#PCDATA )」は「このエレメントの内容はキャラクタストリングである」ことを意味している。このように、図2は以下のように記録されるキャラクタストリング(例えば「horse 」)を含むエレメントを定義している:
<s>horse </s>;または
<S>horse </ >;または
<S>horse
エレメントのその他の可能性のある内容は、その他のエレメント(例えば、その内容として2つかそれ以上のvwエレメントを含む図5のawエレメント参照)、もしくは属性(EMPTY 及び属性リストで表される - 図8参照)である。「+」という用語は直前の項目が繰り返されることを示している。これらの定義は、各エレメントが下記でより詳細に定義されるので、より明確になるであろう。
【0018】
図1は本発明を用いて変換・記録できるビットマップ・イメージのタイプ、及び記録形式を例証するため使用されるサンプルページ・イメージである。サンプル・イメージは様々な興味深い特徴、例えば、不十分な形とか不十分な品質のために認識されにくいキャラクタ;2つのライン・セグメントの形態での構造化グラフィックス;明確化されていない素描の形態でのビットマップ・グラフィックス;脚注及び誘導キャラクタの形態での論理的構造等を含んでいる。
【0019】
図2は、キャラクタ・ストリング・エレメントを示しており、キャラクタ認識装置が以下の条件を満足するキャラクタをその中に集める:
全てのキャラクタが高い信頼度(少なくとも既定の信頼度)で認識されたこと;
全てのキャラクタが同じフォント、基線の位置、下線状態を持っていること;および
各キャラクタの間に重大な空所がないこと(例えば、水平的に整列しているが、空白のスペースの特定量により分離されたテキストの2つのカラムに属しているキャラクタが同じエレメントに入れられないこと)。例証されたタイプ識別名は「s」である。キャラクタ・ストリング・エレメントは識別番号を持っていないが、代わりにより大きなエレメントに配置することができる。
【0020】
図1のイメージに関連して、キャラクタ認識装置により少なくとも既定の信頼度で認識される一連のキャラクタを持った該イメージ部分は、SGMLにおいて実行される本発明を用いて以下のように記録される。
<s >Etymologies appear in square brackets []following </ >
<s >the "definitions". In accordance with the</ >
【0021】
図3は、キャラクタ認識装置が正しく認識される確率が低いキャラクタを配置する、疑わしい・キャラクタ・エレメント(qc)を示している。現存するキャラクタ認識装置が各キャラクタのための信頼度を目下決定している。キャラクタが少なくとも既定の信頼度で認識されない場合、これらのキャラクタ認識装置はキャラクタに何とかして印を付ける。しかしながら、不確かなキャラクタに使用者の注意を向けるのは別問題である。いくつかのベンダーは、認識し、使用者の指図を求めることが織り込まれている対話式パッケージを持っている;これらのシステムがそれだけで不確かなキャラクタに印を付けるかどうかは解っていない。なぜなら、それは内部的な問題であり、不確定性が使用者の干渉により直ちに取り除かれるからである。他のベンダーは単に不確かなキャラクタに、例えば1組のクェスチョンマークで印を付けることを考えたが、その線より下の次のプロセスがこれらのクェスチョンマークを本物のものと区別できないという問題が生じてきた。しかしながら、疑わしいキャラクタは他の機械によって使用できる方法では記録されない。(つまり、クェスチョンマークやハイライトは他の意味を持つかもしれない。)このように、該データがより高水準の装置、例えばスペリング・チェッカーなどの装置に送られた場合、スペリング・チェッカーはキャラクタが高い確定度で認識されなかった情報を利用することができないであろう。
【0022】
本発明においては、より高水準の装置は、疑わしい・キャラクタ・エレメントの中にあるあらゆるキャラクタがその特徴を含んでいるので、キャラクタが高い確実性で認識されなかったという情報を受け取る。このように、アンビギティーを記録するドキュメント記述言語の表示法を用いて、他の認識装置も不確定情報を利用することができる。おそらく、各qcエレメントが1つの疑わしいキャラクタを保持するのであろう。キャラクタ認識装置がビットマップ・イメージの特定部分のために既定の信頼度以下で1つ以上の可能性のあるキャラクタを識別すれば、qcエレメントもまた代替キャラクタのリストを包含することができる。加えて、1つまたは複数の疑わしいキャラクタのための確定度が、各qcエレメントに提供される。疑わしい・キャラクタ・エレメントが続いてスペリング・チェッカーによって除去されることが理想的である。
【0023】
例えば、サイモン・カハン等による上記書籍に記述されたシステムは代替キャラクタ(またはワード)を作るために使用でき、各キャラクタ(またはワード)がそのキャラクタ(またはワード)に関連する信頼度を示す測定方法を持っている。しかしながら、カハン等により開示されたシステムと異なり、キャラクタ及び/またはワードに関係するこの情報は、本発明によるドキュメント記述言語を用いて、適当で独特なエレメントに記録される。これは他のより高水準のドキュメント認識プロセス(カハン等のシステムとは別のもので、別の時に使用される)が該情報に統一された方法で近付くことを可能にする。本発明は現存する認識装置がもっと効率的な方法で作用することを可能にする。例えば、確かなキャラクタ(またはワード)と不確かなキャラクタ(またはワード)とを区別することにより、より複雑で時間のかかる認識手順は、不確かなキャラクタ(またはワード)のみに制限できる。
【0024】
図4はワード認識装置(例えばスペリング・チェッカー)が高い信頼度で認識されたが、ワード認識装置の辞書には見いだせないキャラクタを含むワードを配置する、疑わしい・ワード・エレメント(qw)を示している。1つのqwエレメントにつき、1つの疑わしいワードがある。これらの疑わしいワードは異なる辞書を持つ他のワード認識装置または、以下に述べるような他の手段(意味論解析器)により解決される。
【0025】
図1に関連して、"Jumblatt"というワードの中の全てのキャラクタが確かに認識されたが、ワード認識装置のスペル・チェッカーはその辞書の中に"Jumblatt"というワードをみいだせなかったと仮定してみよう。そうすると、それは次のようなqwエレメントに記録される:
<qw>Jumblatt</ >
【0026】
図5は疑わしい・キャラクタ・エレメントを除去する試みにおいて見つけられたワードをワード認識装置が配置する確認済み・ワード・エレメント(vw)と代替・ワード・エレメント(aw)とを示している。ワード認識装置は、疑わしい・キャラクタ・エレメントに関連するワードに基づき、疑わしいキャラクタが発生するたびに辞書の中でワードを探す。もしワードがその辞書の中に見つかると、ワード認識装置はそのワードをvwエレメントに配置する。ワード認識装置が疑わしいキャラクタを除去しようとする時、ワード認識装置はその辞書の中に確認された数個のワードを見つけるかもしれない。ワード認識装置が確認済みワードの中で判断できない場合は、ワード認識装置はそれらのワードの各々をvwエレメントに配置し、意味論解析器のような後にくるプロセスのために、1組のvwエレメントをawエレメントに配置する。
【0027】
次に、意味論解析器は確認済みワードのどれが正しいかを、代替ワードの発生を囲むワードを解析することにより判断しようと試みる。
【0028】
ワード認識装置は辞書と比較すべきワードを選ぶために、従来からの様々なプロセスを用いる。例えば、アルファベットの全てのキャラクタは、疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントと置き換えることができ、これらの結果は辞書でサーチされる。代替疑わしいキャラクタが疑わしい・キャラクタ・エレメントに提供された場合、置き換えを代替疑わしいキャラクタのみに制限することができる。確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残り、その中に含まれる不確定情報を随意にワード認識装置により新しくすることができる。
【0029】
例えば、下記に示す図1から2つのストリングと疑わしいキャラクタがキャラクタ認識装置により発見されたとしよう:
<s >the origins of numerous English w </s>
<qc>a </q>
<s >rds are still obscure </s>
ワード認識装置は、疑わしい"a" を減らそうとして、候補として"wards" と"words" を見つけ、上記表示を以下のように置き換える:
<s >The origins of numerous English</s>
<aw><vw>wards </vw ><vw>words </vw ></aw >
<s >are still obscure </s>
【0030】
エレメントのストリームを、どのワードが正しいかを判断しようと試みる意味論解析器に送ることができる。意味論解析器がどのワードが正しいかを判断することができれば、意味論解析器はそのキャラクタを回りのs・エレメントに併合させる。例えば、以下のデータが意味論解析器に提供されたと仮定すると:
<s >, the origins of numerous English </s>
<aw>
<vw>wards </ >
<vw>words </ >
<s >are still obscure.</ >
そして、意味論解析器はその前後関係から、"wards" ではなく"words" の方が正しい選択であると判断する。意味論解析器は上記表示を以下に示すものの中のどれによってでも置き換えることができる(どれを選ぶかはさして重要ではないが、最初の選択は最も論理的なものであり、2番目の選択は最も好都合なものを選ぶ):
<s >, the origins of numerous English words are still obscure.</ >
<s >, the origins of numerous English <s >words<s >are still obscure.</ >
<s >, the origins of numerous English words <s >are still obscure.</ >
<s >, the origins of numerous English <s >words are still obscure.</ >
中間の</ >s は任意のものなので、省略されることに注意する必要がある。
【0031】
図6は同じフォントのキャラクタデータ(s、aw、qc及びqwエレメント)を集めるために使用されるテキスト・エレメントを示している。テキスト・エレメントはid属性を持っており、より高いエレメントにより照合されることを可能にし、フォント識別名(下記にて定義される)と任意的な照合をすることができる。フォント照合ができない場合は、最も新しく供給されたものが使用される。テキスト・エレメントは異なるフォントを識別することができるキャラクタ認識装置により作られる。テキスト・エレメントに記録されたデータの例として以下のようなものがある:
<text id=123 font=2>list of s, aw, qc and qw elements </ >
【0032】
図7はフォントデフ・エレメントを示している。キャラクタ認識プロセスにより解析された書体はできる限り多くの情報と共にフォントデフ・エレメントに記録される。フォントデフ・エレメントの内容は、キャラクタ認識装置が確実に引き出すことができる場合、フォントの族名である。そのフォントの族名を引き出すことができそうもない場合、その内容は空のまま残され;後にくるプロセスかまたは使用者との対話により後で書き込むことができる。
【0033】
id・属性はテキスト・エレメントをフォント記述と照合することを可能にする。size・属性は局部で測られる。base・属性は、基準線が上に書いたり下に書いたりすることによって相殺されているかどうかを指示する。下線がある場合、under ・属性がフォントの基準線の下の下線の位置を指示する。フォントの族名がFrutigerであるフォントデフ・エレメントに記録されたデータの例は以下のようになる:
<fontDef id = 2 size = 10 under = 1>Frutiger</ >
属性は括弧<>の最初のセットに記録される。
【0034】
図8はグラフィックス・エレメントの1つのタイプであるセグメント・エレメントを示している。セグメント・エレメントはグラフィックス認識装置により使用され、ビットマップ・イメージから認識するライン・セグメントを書き留める。id・属性がより高いエレメントをセグメント・エレメントに照合することを可能にする。終了点(x1、y1及びx2,y2)の座標は、そのページの左上の角に関連して、セグメントを数学的に定義する。正確な終了点座標についての不確定性は、dx1、dy1及びdx2、dy2・属性に記録される。このようにして、dx1、dy1、dx2、及びdy2はライン・セグメント・グラフィックス構造を記述するために用いられるパラメーター(x1、y1、x2、y2)の可能性のあるオフセットを記録する。ライン・セグメントの厚さ及び不確定性は、thick及びdThick・属性により書き留められる。ライン・セグメント・エレメントに記録されるデータの例として下記のようなものが挙げられる:
<segment id=14x1=2100dx1=5y1=1440x2=2100dx2=5y2=2160thick=17 ></ >
フォントデフ・エレメントの場合と同じように、属性は括弧の最初のセットの中に用意される。セグメント・エレメントは如何なるキャラクタストリングも含まない(その内容は空(EMPTY) である)ので、括弧の最初のセットの次はエレメント終了マーカーの</ >であるか、または新しいエレメントはエレメント終了マーカーを必要としない。
【0035】
図9はグラフィックス・エレメントのもう1つのタイプである弓形・エレメント(arc-element )を示している。弓形・エレメント(arc-elements)はグラフィックス認識装置によってビットマップ・イメージから認識される、円、円形の弓形、楕円及び楕円形の弓形を書き留めるために使用される。id・属性はより高水準のエレメントに弓形の参照符をつけることを可能にする。その他の属性には次のようなものが挙げられる:
x、y、dx、dy:座標、及びページの左上の角から測定された円、楕円の弓形の中心での不確定性;
r、dr:円の弓形の半径または楕円の弓形の長軸の長さ及び不確定性;
rShort、drshort :楕円の弓形の短い半径の長さ及びその不正確性;
theta1、dTheta1 :垂直軸と、中心及び弓形の終了点の1つを通る線の間の角度。この属性は弓形のためだけに存在する。角度はミリラジアンで測定できる;
theta2、dTheta2 :他の終了点のためのtheta1、dTheta1 と同じ;
theta0、dTheta0 :垂直軸と、楕円の長軸との間の角度。この属性は楕円及び楕円形の弓形のためだけに存在する;
thick 、dThick:弓形、円もしくは楕円の厚さと不確定性。
【0036】
弓形・エレメントに記録されるデータの例として以下のようなものが挙げられる:
<arc id=5462x=2300dx=8y=1440dy=8r=2100dr=15></ >
【0037】
図10はグラフィックス・エレメントの3番目のタイプであるイメージ・エレメントを示している。イメージ・エレメントはテキストまたは構造的グラフィックスとして解決されなかったページの方形部分を表示するために使用され、従って、別のファイルにあるビットマップ・フォームに残される。イメージ・エレメントはファイル名を含む。
【0038】
イメージ・エレメント属性はページ(x、dx、y、dy)の左上の角に関連した位置及び不確定性、及びイメージの寸法(w、dw、h、dh)を符号化する。resol・属性は測定単位(測定単位は後に定義するdsストリーム・エレメントにより供給される)ごとのビットで表される。
【0039】
ドキュメント認識操作に着手する時には、DRストリームは通常ペーパードキュメントの計数化されたページ毎に1つのイメージ・エレメントだけを含んでいる。キャラクタストリング、ライン・セグメント、及び弓形が引き出される(従来の技術を用いて)につれて、徐々にビットマップがより小さく、おそらくより多数のものと置き換えられる。操作の終了時に、残されたビットマップだけが本物のハーフトーンイメージであり、キャラクタ認識装置及びグラフィックス認識装置が判読できなかったドキュメントの部分である。
【0040】
"Squiggle"と名付けられたファイルに保存されたビットマップ・イメージは、次のように記録される:
<image id=567x=1840y=1680w=260h=480>Squiggle</ >
【0041】
図11は4番目のグラフィックス・エレメントであるスポット・エレメントを示している。スポット・エレメントは小さなイメージを含み、認識されないような小さなしみや記号、知られていないシンボル等のビットマップ・フォーマットに残された非常に小さな方形部分を表示する。ビットマップは非常に小さいので、別のファイルに保持されるよりは、16進法形式でスポット・エレメントの内容として便利に符号化することができる。
【0042】
x、dx、y及びdy・属性はページの左上の角に関してスポットの位置を供給する。bx・属性は水平方向のビットの数を与える。それは強制的に8の倍数になるようになっている。by・属性は1ビットの高さの列の数を与える。スポット・エレメントをイメージする必要がある時は、16進法の値は1度に1列につき8*bxビット(2*bx16進法キャラクタ)で消費される。16進法の値は適当な場合には後続0ビットを含んでいる。
【0043】
図1のサンプルページの小球●が認識されなかったと仮定しよう。それは次のような小さなイメージとして表示されるだろう。
<spot id=11x=590y=850bx=25by=25>03FFB000... </ >
【0044】
図12は他のエレメントに対する参照を示している。テキスト、セグメント、弓形、イメージ及びスポット・エレメントは各々の識別名と参照することにより、高水準のエレメント(下記で論じるテキスト・ブロック、フレーム及びページ等)に分類することができる。単一のエレメントに対する参照は、アイテム・エレメントによって行われ、その単一属性は参照済みエレメントの識別名の値を持つ。
【0045】
一貫した連続エレメントに対する参照はレンジ・エレメントにより行われる:"from"と"to"属性が最初と最後の参照済みエレメントの識別名を引用する。「最初」と「最後」はエレメントがDRストリームの中に見いだされる年代順に関連する。レンジ・エレメントはアイテム・エレメントの間断のない連続のための速記表示である。
【0046】
グルーピングについてのアンビギティーはaltern・エレメントにより表示される。代替グルーピングは適正なエレメント・グルーピングの数を符号化するためのプロセスにより使用される。例えば、テキストのページが4つ、つまり左側に2つと右側に2つのテキスト・ブロックを持ったものとして認識されたとする:論理的構造のプロセッサー(もしくは論理的復元器)はテキストが2つのカラムまたは2つの列として読んだのかどうか判断できずに、それらを左上、左下、右上、右下の順に;あるいは左上、右上、左下、右下の順に分類する;構文法解析器のような下流のプロセスがアンビギティーを解消できるかもしれない。
【0047】
図13はtBlock・エレメントを示している。tBlock・エレメントはテキスト・ラインまたは等間隔を空けたテキスト・ラインのまわりの見えない境界を形成する方形部分を符号化する。ページの左上の角に関連するtBlockの位置、及びその不正確性はx、y、dx、dy・属性により与えられる。寸法と不確定性はw、h、dw、dhにより記録される。interl・属性はブロック内の等間隔のライン間の間隔を測定する;その値はテキスト・ブロックが1つのラインだけを含んでいる時は0である。x1、dx1、y1、dy1・属性はブロックの左上の角に関連するテキスト・ブロックの最初のキャラクタの位置を与える。
【0048】
図14はフレーム・エレメントを示している。フレーム・エレメントはページ部分より小さいか、または等しい方形部分を符号化する。該エレメントは他のフレームと共に、テキスト・ブロック、イメージ、スポット、弓形、及びセグメントを集めるために使用される。フレームはページの上に重なってもよい。
【0049】
図15はページ・エレメントを示している。ページ・エレメントはドキュメントの計数化されたページに関する情報の全てを集める。もしDRストリームの中にページ・エレメントがなければ、全てのDRストリームのデータは単一ページに属していると仮定される。
【0050】
図16はグループ・エレメントを示している。グループ・エレメントはページの境界線を横切るエレメントの収集を可能にする。該エレメントはページを横切るテキストの流れを指示するため、論理的構造の改造器及び意味論解析器により使用される。
【0051】
図17はdrStream・エレメントを示している。ドキュメント・タイプの定義の一番上にあるのがdrStream・エレメントである。その単位・属性はdrStreamを通じて使用される測定単位の名前を示す。フラクション・属性は座標、寸法及びそれらの不正確性が実際に表す測定単位の断片を指示している。例えば、測定がミクロンで行われれば、drStream・エレメント・属性は以下のようになる:
<drStream unit=meter fraction=1000000>
【0052】
図18〜図22は開示されたページ記述言語で用いられる全てのエレメントを示している。
【0053】
図23は本発明において使用できるドキュメント認識システムを示している。図24と図25は本発明に従って図23のシステムを操作するための手順を示すフローチャートである。ビットマップ・イメージ(S100)を入力するために、イメージスキャナー100を用いてペーパードキュメントが走査され、ビットマップ・ドキュメント・イメージ110が作られる。走査プロセスは、本質的に認識プロセスが実行されると同時に実行できるか、または、ビットマップ・ドキュメント・イメージ110がハードまたはフロッピー・ディスクのような数タイプの電子記憶媒体に供給できると同時に実行できることが理解できる。ビットマップ・ドキュメント・イメージ110はビットマップ・イメージをもっと小さなサブイメージ、例えば、テキストだけを包含するテクスチュアル・サブイメージとか、グラフィックスだけを包含するグラフィックス・サブイメージ等に分裂させる従来のセグメンター150(S110)に供給される。セグメンター150は、各サブイメージがテキストのみまたはグラフィックスのみを包含していると認識されるまで、ビットマップ・イメージをもっと小さなサブイメージに反復して分裂させる。テクスチュアル・サブイメージがキャラクタ認識装置300に供給されている間に、グラフィックス・サブイメージは次に構造イメージ認識装置200(またはグラフィックス認識装置)に送られる。もちろん、ビットマップ・ドキュメント・イメージがテキストもしくはグラフィックスだけを包含していることが事前に解っていれば、該イメージは直接構造イメージ認識装置200またはキャラクタ認識装置300に送られる。
【0054】
構造イメージ認識装置200は、次にビットマップ・グラフィックス・イメージ(又はサブイメージ)を、ドキュメント記述言語を使用する上記グラフィックス・エレメントのような、グラフィックス・エレメントに記録できるコード化グラフィックス・データ(S160)に変換する。つまり、認識されないビットマップ・イメージは未解決・グラフィックス・イメージ・タイプ・エレメント(S170)に配置される:大きい場合はイメージ・エレメント、小さい場合はスポット・エレメント及び16進法の値として表される。グラフィックス・イメージまたはサブイメージが認識され、コード化グラフィックス・データに変換される場合、該イメージは1つかそれ以上のセグメント・エレメント及び/または弓形・エレメント(S180)に配置される。不正確性に関する追加的情報(例えば、グラフィックス構造を随意に記述するパラメーター(コード化データ)の可能性のあるオフセット)はこれらのエレメント(S185)に記録できる。
【0055】
このように、グラフィックス・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、グラフィックス構造イメージ認識装置200は、グラフィックス・ビットマップ・イメージをグラフィックス構造を明確にするコード化データを含む1つかそれ以上のグラフィックス・エレメントに変換するため、ビットマップ・グラフィックス・イメージに最初の変換操作を行うための第一の変換手段として;また、第一の変換手段により変換される1つかそれ以上のグラフィックス・エレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各グラフィックス・エレメントは該エレメントに含まれる認識されたビットマップ・イメージに関するコード化データのタイプを指示するエレメント・タイプ識別名を包含している。第一の変換手段が、グラフィックス・エレメントに含まれるコード化データが既定の信頼度で変換されていないと判断した場合、識別手段もまたグラフィックス・エレメント内に、各グラフィックス・エレメントに含まれるコード化データに関して第一の変換手段により判断される不確定情報(オフセット)を包含している。
【0056】
キャラクタ認識装置300はビットマップ・テクスチュアル・イメージ(またはサブイメージ)をコード化キャラクタデータ(S120)に変換し、該データはそれから上記されたようにS140かS150(キャラクタ・ストリングまたは疑わしい・キャラクタ)の中の適当なエレメントに記憶される。コード化キャラクタデータをキャラクタ・ストリング・エレメントか疑わしい・キャラクタ・エレメントに配置するかどうかを判断するために、認識されたキャラクタが少なくとも既定の信頼度で認識されたかどうかに関する判断がS130で行われる。疑わしい・キャラクタ・エレメントへのキャラクタの挿入は該キャラクタに関する不確定情報を伝えるために役立つが、代替の可能性のある不確かなキャラクタ、あるいは不確かなキャラクタのための確定度などの追加的情報も、疑わしい・キャラクタ・エレメント(S155)に含むことができる。このように、キャラクタ認識装置300はキャラクタ・ストリング・エレメントや疑わしい・キャラクタ・エレメントのストリームを作りだし、そのストリームは次にワード認識装置400に送られる。
【0057】
ワード認識装置400はその中にワードの辞書または語彙を持っている。本発明に従って操作されるワード認識装置400は、それから各疑わしい・キャラクタ・エレメントのための図25に示された手順を実行する。まず、S200において、複数のキャラクタが疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントに続いて置き換えられる。S210において、置き換えステップ(S200)により形成されたワードのいずれかがワード認識装置400の辞書の中に見いだされるかどうかについての判断が為される。該かるワードは「確認済みワード」と称される。確認済みワードが見いだせない場合、疑わしい・キャラクタ・エレメントはS240に戻され、随意にS245において、疑わしい・キャラクタ・エレメントに含まれる不確定情報がワード認識装置400により為された判断に基づいて新しくされる。もしS210における判断が肯定的であれば、各確認済みワードを確認済み・ワード・エレメント (S220) に配置する。次に、S230において、1つ以上の確認済み・ワード・エレメントが1つの疑わしい・キャラクタ・エレメントから作られた場合、複数の確認済み・ワード・エレメントが代替・ワード・エレメントに配置される。
【0058】
代替・ワード・エレメントの中の確認済みワードのどれが正しいかをまわりのワードに基づいて判断しようとする意味論解析器500によって、各代替・ワード・エレメントをキャラクタ・ストリング・エレメントに変換することができる。意味論解析器が代替・ワード・エレメントの中の確認済みワードのどれが正しいかを判断できない場合、そのワードは代替・ワード・エレメントに戻り、そこで各確認済み・ワード・エレメントの中の各確認済みワードのための不確定情報を随意に提供する。
【0059】
このように、テクスチュアル・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、キャラクタ認識装置300は、テクスチュアル・ビットマップ・イメージをコード化キャラクタデータを含む1つかそれ以上のエレメントに変換するため、テクスチュアル・ビットマップ・イメージに最初の変換操作を行うための第一の変換手段として;また、第一の変換手段により変換される1つかそれ以上のエレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各エレメントは該エレメントに含まれる認識されたビットマップ・テクスチュアル・イメージに関するコード化キャラクタデータのタイプを指示するエレメント・タイプ識別名を包含している。特定のキャラクタがキャラクタ・ストリング・エレメントとして識別されるエレメントに記録される一方で、既定の信頼度で認識されないキャラクタを含むエレメントは、第一の識別手段により疑わしい・キャラクタ・エレメントとして識別されたエレメントに記録される。
【0060】
ワード認識装置400は、代替キャラクタを疑わしい・キャラクタ・エレメントに置き換え、置き換えから生じたワードが辞書の中に存在するかどうかを確認することによって、各疑わしい・キャラクタ・エレメントと、疑わしい・キャラクタ・エレメントと同じワードの中の隣接する確信を持って認識されたキャラクタを、1つかそれ以上の確認済みワードに変換するための第二の変換手段として;また、確認済み・ワード・エレメントの中に各確認済みワードを配置するためにドキュメント記述言語を用いる第二の識別手段として作用する。1つ以上の確認済み・ワード・エレメントが疑わしい・キャラクタ・エレメントのために作られた場合、第二の識別手段もまた1つ以上の確認済み・ワード・エレメントを代替・ワード・エレメントの中に配置する。第二の識別手段は、未確認ワードが存在すると判断された場合、疑わしい・ワード・エレメントを保持する。
【0061】
次に、代替・ワード・エレメントが、代替・ワード・エレメント内のどの確認済みワードが正しい確認済みワードであるかを、代替・ワード・エレメントを囲むワードに基づいて判断する手段として;また、正しい確認済みワードを識別し、代替・ワード・エレメントを正しい確認済みワードを含むキャラクタ・ストリング・エレメントで置き換えるための第三の識別手段として作用する意味論解析器500に送られる。
【図面の簡単な説明】
【図1】 本発明を図示するために使用されるサンプルページイメージである。
【図2】 既定の信頼度で、またそれ以上で、認識されたキャラクタの連続を集めるためのキャラクタストリング・エレメントを示す。
【図3】 低い信頼度で認識された疑わしいキャラクタを集めるための疑わしいキャラクタエレメントを示す。
【図4】 高い信頼度で認識されたが辞書の中に見いだせなかったキャラクタを含む、疑わしいワードを集めるための疑わしいワードエレメントを示す。
【図5】 1つかそれ以上の疑わしいキャラクタを含むワードを解決することにより、辞書の中に見いだされる確認済みワードを集めるための確認済みワードエレメント、及び2つかそれ以上の確認済みワードが疑わしいキャラクタを含む1つのワードのために見つけられた時に、代替ワードを集めるための代替ワードエレメントを示す。
【図6】 同じフォントを持つテキスト・エレメントを集めるためのテキスト・エレメントを示す。
【図7】 フォントタイプに関するデータを集めるためのフォントデフ・エレメントを示す。
【図8】 ライン・セグメントに関するデータを集めるためのセグメント・エレメントであるグラフィックス・エレメントの一例を示す。
【図9】 弓形に関するデータを集めるための弓形エレメントであるグラフィックス・エレメントの別例を示す。
【図10】 大きな未解決のビットマップ・イメージに関するデータを集めるためのイメージ・エレメントであるグラフィックス・エレメントの別例を示す。
【図11】 スポットと称される小さな未解決のビットマップ・イメージに関する情報を集めるため、及び該情報を16進法の値として記憶するためのスポット・エレメントであるグラフィックス・エレメントの別例を示す。
【図12】 その他のエレメントに関するエレメントの実例を示す。
【図13】 テキストのブロックに関する情報を集めるためのtブロック・エレメントを示す。
【図14】 その他のフレームと共に、テキストブロック、イメージ、スポット、弓形、セグメントを含むことができるフレームに関する情報を集めるためのフレーム・エレメントを示す。
【図15】 ページに関するデータを集めるためのページ・エレメントを示す。
【図16】 ページの境界線を越えるエレメントのグループに関する情報を集めるためのグループ・エレメントを示す。
【図17】 全ドキュメントに関するデータを集めるためのdrストリーム・エレメントを示す。
【図18】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図19】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図20】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図21】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図22】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図23】 本発明を用いてビットマップ・イメージをコード化データストリームに入力・変換するためのシステムのブロック図である。
【図24】 本発明を用いた時の図23のシステムにより実施される手順を示すフローチャートである。
【図25】 本発明を用いた時の図23のワード認識装置により実施される手順を示すフローチャートである。
【産業上の利用分野】
本発明はドキュメント認識に関し、より詳細には初めはビットマップ・イメージとして表されているドキュメントにおけるテクスチュアル及びグラフィックス構造を認識し、認識プロセスの結果を記録するための方法及び装置に関する。
【0002】
【従来の技術】
ドキュメント認識とは、ペーパードキュメントを編集可能な電子ドキュメントに自動的に変換することである。それは様々なプロセスの連続的かつ循環的な介入を通じて、組織化された構成要素へのビットマップの逐次変換を伴う。このプロセスには、ページ・セグメント化、キャラクタ(字)認識、グラフィックス認識、論理構造の再構築、スペリング訂正、意味論解析等が含まれる。これらのプロセスの全ては誤って解読又は解釈(misinterpretation)しやすい傾向がある。全てのプロセスが自認した誤った解読又は解釈の記録を取っているわけではないし、記録しているプロセスでもそれを行う基準を決めているわけではない。その結果、後にくるプロセスは、先に済んだプロセスから手渡されたアンビギティー(ambignity、あいまいさ) の記録を処理する準備が通常為されておらず、単にそれらを切り捨ててしまう。貴重な情報が、ドキュメント認識機能の自動的改善に向けて開発される代わりに失われていく。一方、アンビギティー記録が未加工のまま使用者に手渡されると、全ドキュメントの手作業の再構築を通して、手作業の修正をするという雑用が自動認識の利点を殺してしまう。
【0003】
コンピューター言語学の第16巻No.1(1990年3月)の中のケネス・W・チャーチ及びパトリック・ハンクスによる「ワード(語)連想基準、相互情報、及び辞書編集」には、コンピューターが読み取れる知識の集積からワード連想基準を見積もるための、相互情報の情報理論概念に基づいた「連想比」と称される手段が記載されている。この連想比は、可能性のあるワードとして識別された2個〜数個のワードの選択から最も適当なワードを判断するため、意味論解析器により使用される。
【0004】
パターン解析及び機械知能の米国電気電子学会 (IEEE) 処理、PAM1-9巻、No.2(1987年3月)の中のサイモン・カハン、セオ・パブリディス及びヘンリー・エス・バイヤードによる「あらゆるフォント及びサイズの印刷されたキャラクタの認識」には、ラテン文字のための様々なフォントとサイズの印刷されたテキストを認識するシステムが記載されている。バイナリーイメージのランレングス符号化グラフに細文字化とシェープ抽出が直接行われる。結果として生じるストロークとその他のシェープは、シェープイメージ・クラスター化アプローチを用いてバイナリー演算機構に写像され、統計的なベイズの分級機に送られる。このシステムは多数の可能性のあるキャラクタとワードを識別し、それらを記録する。しかしながら、認識プロセスにおける不確定性は、本発明の標準表示法を用いては記録されない。
【0005】
要約すると、グラフィックス構造、テキスト(キャラクタ、ワード、意味論、フォント)、及び論理学上の構造(ページ、パラグラフ、脚注)を認識することができ、認識される特徴を認識したときの不確定性を決定することができる数多くのシステムが存在する。従って、上記の先行技術に関する資料はここに参考のため挿入しておく。しかしながら、これらのシステムのいずれも、認識プロセス(不確定性も含む)の結果を、その他の装置により使用される方法では記録しない。その結果、特に異なる認識システム(例えば、キャラクタ認識、ワード認識、意味論解析器)が異なった時に(一つのシステムに統合されるのとは反対に)使用される時に、多くの情報(特に不確定性に関して)が失われることになる。
【0006】
【課題を解決するための手段及び作用】
ビットマップ・イメージとして表されるドキュメントを、編集可能なコード化データに変換する方法及び装置が提供され、該方法及び装置において、ドキュメント記述言語における標準表示法が各ドキュメント認識装置によりドキュメント認識アンビギティーを記録するために利用される。ドキュメント認識プロセスの結果がこの標準表示法を用いて記録された場合、如何なるアンビギティーも統一された方法で識別され、後にくるより高水準のドキュメント認識プロセスが、先に済んだドキュメント認識プロセスにより得られるアンビギティーについての情報を用いて、これらのアンビギティーを解消することを試みることが出来る。
【0007】
特に、本発明の標準表示法を用いる時に、各ドキュメント認識装置はドキュメント記述言語を用いて選択別に識別された1つまたはそれ以上のエレメントにおける認識プロセスの結果を記録することができる。各エレメントはその中に含まれる認識された(変換された)ビットマップ・イメージに関して、コード化データ(情報)のタイプを示すタイプ識別名を持っている。各エレメントはまた、その中にタイプ識別名により識別されたタイプの編集可能なコード化データを含んでおり、既定の信頼度で変換されなかったコード化データを識別する不確定情報を含むことができる。この不確定情報はドキュメント認識装置により判断され、より高水準の後にくるドキュメント認識装置により読み取り可能なフォーマットで記録される。この不確定情報は、アンビギティーを解決する際により高水準のドキュメント認識装置を助けるために、不確定なコード化データがドキュメント認識装置により認識された際の信頼度を持つことができる。不確定情報はまた各不確定な認識に関する代替コード化データを含むことができる。
さらに、本発明では、ドキュメント変換プロセスにおける不確定性に関する情報を記録するため、ビットマップ・イメージ・データとして表されるドキュメントを、ドキュメント記述言語の標準表示法を用いて、編集可能なコード化データストリームに変換する自動ドキュメント認識装置であり、前記コード化データストリームはエレメントのシリーズを含み、ビットマップ・イメージのコード化された部分を記録するために使われる、エレメントを定義したシンタックスリストを記憶するためのメモリであり、前記シンタックスリストはグラフィックス・ビットマップ・データを記録するためのエレメントを含み、前記データの属性と同様に、前記シンタックスリストは前記コード化されたデータストリームを文法的に説明するためのダウンストリーム・プロセス (downstream process) を可能とする、自動ドキュメント認識装置であり、第一の認識装置は、 a) 前記ドキュメントの前記ビットマップ・イメージ表示において、前記ドキュメントをコード化データを含む1つ以上のエレメントに変換する第1の変換操作を行う第1の変換手段と、 b) 前記ドキュメント記述言語を、前記第一の変換手段によって変換された、前記1つ以上のエレメントを識別するために、使用する第1の識別手段であり、 各エレメントは前記エレメントに含まれる認識されるビットマップ・イメージに関するコード化データのタイプを識別するエレメント・タイプ識別名を有し、前記第一の変換手段が、規定の信頼度で変換されたエレメントに含まれるコード化データを決定するとき、前記識別装置も前記エレメントに含まれる前記コード化データを認識する第一の変換手段によって決定される前記エレメントの不確定な情報を含む。
【0008】
ドキュメント認識装置がキャラクタ認識装置である場合、既定の信頼度で認識されないキャラクタが識別され、それらを疑わしい・キャラクタ・エレメントに配置することにより記録される。代替の可能性のあるキャラクタ及びその確定度と共に確定度が、疑わしいキャラクタのために記録される。少なくとも既定の信頼度で認識されたキャラクタは、キャラクタ・ストリング・エレメントの中に置かれる。
【0009】
ドキュメント認識装置がワード認識装置(例えば、スペリング・チェッカー等)を含む場合は、ワード認識装置はワードが、各疑わしいキャラクタと各疑わしいキャラクタを含むワードの中の特定のキャラクタとに基づいた辞書の中に存在するかどうかを判断することにより、存在する疑わしいキャラクタを解決しようと試みる。疑わしいキャラクタを含むワードの辞書の中で、ワードが識別された場合、該かるワードは確認済みワードとして識別され、確認済み・ワード・エレメントの中に記録される。1つ以上の確認済みワードが見つけられた場合、それらのワードは代替・ワード・エレメントの中に集合的に分類される個々の確認済み・ワード・エレメントの中に配置される。疑わしいキャラクタを含むワードについての確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残る。
【0010】
ドキュメント認識装置が意味論解析器を含む場合、識別された代替確認済みのワードは、代替確認済みのワードを取り巻くワードを解析することにより解決される。代替確認済みのワードの内の1つが、意味論解析に基づいて既定の信頼度で確認される場合、そのワードは戻されて周囲のキャラクタ・ストリング・エレメントに併合される。意味論解析器がどの代替確認済みのワードが正しいのか判断できない場合、意味論解析器は代替・ワード・エレメントそれ自体(及び含まれた確認済み・ワード・エレメント)を戻し、その中の確認済みワードが正しいワードである可能性を指示するデータを含むことができる。
【0011】
ドキュメント認識装置がグラフィックス構造イメージ認識装置を含む場合、ドキュメント認識装置はグラフィックスイメージの中の認識されたグラフィックス構造を表わすコード化データを含むグラフィックス・エレメントを出力する。これらの構造は、終了点、円、弓形等の間で明確にされた線を含むことができる。加えて、線の厚さの情報も戻されて記録され得る。xやyの方向オフセットや線の厚さの変化等の認識プロセスの中のアンビギティーも記録され得る。該データはアンビギティーを解決したり、より複雑なグラフィックス構造を認識するために、後にくるより高水準のグラフィックス認識プロセスにより使用される。例えば、低水準のグラフィックス認識装置により認識された4本の線は、もし、例えば、終了点が高い確実性で一致していると断定されるなら、より高水準のグラフィックス認識装置によって箱であると断定されるのである。
【0012】
追加的なイメージ認識エレメントがドキュメントイメージのより大きな部分(もしくはサブイメージ)に関する情報を記録するために作られる。例えば、フォントテキストブロック、フレーム、ページ、ドキュメント、及び大小の未解決のビットマップ・イメージ等に関するデータもまた記録することができる。
【0013】
【実施例】
本発明はドキュメント認識プロセスの連続的段階を通して、アンビギティーを記録する明瞭な手順を利用する。これらのアンビギティーは、キャラクタ認識装置により調査分析されたキャラクタ;キャラクタ認識装置、スペリング・チェッカー、及び意味論解析器により調査分析されたワード;論理的構造再構築器により調査分析されたテキスト・フロー;グラフィックス認識装置により調査分析されたライン・セグメント及び弓形の幾何学と関係している。
【0014】
これらのプロセスの各々は、バイトオリエンテッドデータ・ストリーム(以後ドキュメント認識ストリームまたはDRストリームと称する)、及びDRストリームによって言及されるビットマップ・ストリーム(以降イメージファイルと称する)を作りだし、及び/または消費する。該DRストリームは、1ページまたは数ページの計数化されたドキュメントに関する情報を運ぶ。該情報はフォント付きのテキスト、特定のグラフィックス原語、ハーフトーン・イメージを、それらの関係及びそれらに付いてのアンビギティーと共に表わす。
【0015】
本発明は、例えばキャラクタもしくはグラフィックス構造等を認識し、またはワードを決定する(キャラクタのシーケンスを知られているワードの辞書と比較することにより)、あるいは可能性のあるワードの選択からどのワードが正しいかを判断する現存する認識装置で使用できるという意味で、全く新しいドキュメント認識プロセス(またはドキュメント認識装置)を提供するのではない。しかしながら、本発明はドキュメント認識言語で認識装置によって得られる結果を記録するための標準表示法を提供することにより、これら異なったタイプの認識装置が機能する効率及び適合性を改良するものである。
【0016】
図2〜図22は下記で論じられるドキュメントタイプ定義に従って、ISO 8879標準法則化マークアップ言語(SGML)における本ドキュメント認識表示法を示している。本発明によれば、各認識装置は、SGMLにおいてエレメント(elements)と称され、コード化情報としての、それが実行する認識プロセスの結果と一致する、コード化データを記録する。各エレメントはいくつかの方法(例えば、テキスト、グラフィックス、同じページ、特定の全てのキャラクタ等)において類似していると認識されたコード化データを含んでいる。各エレメントは、a)該エレメントに含まれるコード化データのタイプを指示するタイプ識別名;b)ドキュメントの類似したタイプのエレメントの中で独得であり、あるエレメントが他のエレメントによって参照されるように(ほとんどのエレメントは識別番号を持っている)、他の類似のタイプ・エレメントから該エレメントを識別する任意の識別番号;c)ドキュメント認識プロセス(これはキャラクタのストリングあるいはグラフィックス構造を明確にするパラメーターであって良い)によって得られたコード化データ;及びd)エレメントに含まれるコード化データについて追加的情報(例えば、不確定情報)を提供するための任意の内容(属性(attribute) と称する)を含んでいる。エレメントの属性はエレメントにおけるコード化データに関する不確定情報(例えば、コード化データが認識される信頼度またはグラフィックス構造のパラメーター(例えばライン・セグメントを明確にする終了点)のための可能性のあるオフセット)を記録するために使用されるが、いくつかの場合におけるタイプ識別は、該エレメントの内容が既定の信頼度以下の信頼度で判断されたことを指示することにより、不確定情報を伝えるためにも役立っている。例証された例において、コード化データは人間が読むことの出来るASCII として記録されるが、他のコードも使用できる。
【0017】
SGMLに慣れている人なら、以下に述べるエレメントの包括的な内容を理解できるであろう。従って、図18〜図22に関しては、包括的なエレメントについての短い論議だけで充分であろう。次に、図2〜図17に関して、各エレメントのタイプを特に記述する。図18〜図22は、本発明に従いドキュメントを記述するために使用することができる複雑なエレメントのシンタックスを示している。このエレメント・リストは各DRストリームの始まりに位置し、SGMLで書かれたストリームを分析し、それ以降に含まれるDRストリームを分析するようプログラムされた従来の分析器により使用される。つまり、エレメントのシンタックスリストの後で、特別のドキュメントを記述するエレメントの連続ストリームが提供される。ここで用いられるように、「エレメントの連続ストリーム」(continuous stream of elements) という用語は、同属するものとして識別されるエレメントのグループに関連している。このように、空白スペースが認められる(また実際、読みやすさのために奨励される)SGMLのようなマークアップ言語においては、別のラインへの侵入であるタブは分析機が無視する空白スペースを構成する。この意味で、空白スペースはエレメントの連続ストリームの一部である。その他のシステムはキャラクタストリームの規模に制限を設けることもある。これらのシステムにおいて、長いDRストリームは同属するものとして識別されるであろう数個のファイルに分けられる。数個のファイルが同属するものとして識別される該DRストリームも、やはり「エレメントの連続ストリーム」という用語でカバーされるよう意図されている。(図18〜図22におけるいくつかのエレメントも、やはりDRストリームの始まりの所で記録される属性(下記に記述される)を含んでいる。)もちろん、図18〜図22に記録された全てのエレメントがドキュメント認識プロセスの結果を記録する必要があるわけではない。しかしながら、より多くのエレメントが提供された場合、より多くの情報を記録することができる。SGMLの図2に関連して、「!エレメントs 」という用語は「エレメントをそのタイプが's' であると定義する」ことを意味し;「- O」という用語は「タイプ識別名が<>に囲まれて現れる時にエレメントが始まり、</ >(エレメント終了マーカー)でエレメントが終わる、あるいは別のエレメントが入れ子構造の中の同等か高水準で始まる時」を意味し;「(#PCDATA )」は「このエレメントの内容はキャラクタストリングである」ことを意味している。このように、図2は以下のように記録されるキャラクタストリング(例えば「horse 」)を含むエレメントを定義している:
<s>horse </s>;または
<S>horse </ >;または
<S>horse
エレメントのその他の可能性のある内容は、その他のエレメント(例えば、その内容として2つかそれ以上のvwエレメントを含む図5のawエレメント参照)、もしくは属性(EMPTY 及び属性リストで表される - 図8参照)である。「+」という用語は直前の項目が繰り返されることを示している。これらの定義は、各エレメントが下記でより詳細に定義されるので、より明確になるであろう。
【0018】
図1は本発明を用いて変換・記録できるビットマップ・イメージのタイプ、及び記録形式を例証するため使用されるサンプルページ・イメージである。サンプル・イメージは様々な興味深い特徴、例えば、不十分な形とか不十分な品質のために認識されにくいキャラクタ;2つのライン・セグメントの形態での構造化グラフィックス;明確化されていない素描の形態でのビットマップ・グラフィックス;脚注及び誘導キャラクタの形態での論理的構造等を含んでいる。
【0019】
図2は、キャラクタ・ストリング・エレメントを示しており、キャラクタ認識装置が以下の条件を満足するキャラクタをその中に集める:
全てのキャラクタが高い信頼度(少なくとも既定の信頼度)で認識されたこと;
全てのキャラクタが同じフォント、基線の位置、下線状態を持っていること;および
各キャラクタの間に重大な空所がないこと(例えば、水平的に整列しているが、空白のスペースの特定量により分離されたテキストの2つのカラムに属しているキャラクタが同じエレメントに入れられないこと)。例証されたタイプ識別名は「s」である。キャラクタ・ストリング・エレメントは識別番号を持っていないが、代わりにより大きなエレメントに配置することができる。
【0020】
図1のイメージに関連して、キャラクタ認識装置により少なくとも既定の信頼度で認識される一連のキャラクタを持った該イメージ部分は、SGMLにおいて実行される本発明を用いて以下のように記録される。
<s >Etymologies appear in square brackets []following </ >
<s >the "definitions". In accordance with the</ >
【0021】
図3は、キャラクタ認識装置が正しく認識される確率が低いキャラクタを配置する、疑わしい・キャラクタ・エレメント(qc)を示している。現存するキャラクタ認識装置が各キャラクタのための信頼度を目下決定している。キャラクタが少なくとも既定の信頼度で認識されない場合、これらのキャラクタ認識装置はキャラクタに何とかして印を付ける。しかしながら、不確かなキャラクタに使用者の注意を向けるのは別問題である。いくつかのベンダーは、認識し、使用者の指図を求めることが織り込まれている対話式パッケージを持っている;これらのシステムがそれだけで不確かなキャラクタに印を付けるかどうかは解っていない。なぜなら、それは内部的な問題であり、不確定性が使用者の干渉により直ちに取り除かれるからである。他のベンダーは単に不確かなキャラクタに、例えば1組のクェスチョンマークで印を付けることを考えたが、その線より下の次のプロセスがこれらのクェスチョンマークを本物のものと区別できないという問題が生じてきた。しかしながら、疑わしいキャラクタは他の機械によって使用できる方法では記録されない。(つまり、クェスチョンマークやハイライトは他の意味を持つかもしれない。)このように、該データがより高水準の装置、例えばスペリング・チェッカーなどの装置に送られた場合、スペリング・チェッカーはキャラクタが高い確定度で認識されなかった情報を利用することができないであろう。
【0022】
本発明においては、より高水準の装置は、疑わしい・キャラクタ・エレメントの中にあるあらゆるキャラクタがその特徴を含んでいるので、キャラクタが高い確実性で認識されなかったという情報を受け取る。このように、アンビギティーを記録するドキュメント記述言語の表示法を用いて、他の認識装置も不確定情報を利用することができる。おそらく、各qcエレメントが1つの疑わしいキャラクタを保持するのであろう。キャラクタ認識装置がビットマップ・イメージの特定部分のために既定の信頼度以下で1つ以上の可能性のあるキャラクタを識別すれば、qcエレメントもまた代替キャラクタのリストを包含することができる。加えて、1つまたは複数の疑わしいキャラクタのための確定度が、各qcエレメントに提供される。疑わしい・キャラクタ・エレメントが続いてスペリング・チェッカーによって除去されることが理想的である。
【0023】
例えば、サイモン・カハン等による上記書籍に記述されたシステムは代替キャラクタ(またはワード)を作るために使用でき、各キャラクタ(またはワード)がそのキャラクタ(またはワード)に関連する信頼度を示す測定方法を持っている。しかしながら、カハン等により開示されたシステムと異なり、キャラクタ及び/またはワードに関係するこの情報は、本発明によるドキュメント記述言語を用いて、適当で独特なエレメントに記録される。これは他のより高水準のドキュメント認識プロセス(カハン等のシステムとは別のもので、別の時に使用される)が該情報に統一された方法で近付くことを可能にする。本発明は現存する認識装置がもっと効率的な方法で作用することを可能にする。例えば、確かなキャラクタ(またはワード)と不確かなキャラクタ(またはワード)とを区別することにより、より複雑で時間のかかる認識手順は、不確かなキャラクタ(またはワード)のみに制限できる。
【0024】
図4はワード認識装置(例えばスペリング・チェッカー)が高い信頼度で認識されたが、ワード認識装置の辞書には見いだせないキャラクタを含むワードを配置する、疑わしい・ワード・エレメント(qw)を示している。1つのqwエレメントにつき、1つの疑わしいワードがある。これらの疑わしいワードは異なる辞書を持つ他のワード認識装置または、以下に述べるような他の手段(意味論解析器)により解決される。
【0025】
図1に関連して、"Jumblatt"というワードの中の全てのキャラクタが確かに認識されたが、ワード認識装置のスペル・チェッカーはその辞書の中に"Jumblatt"というワードをみいだせなかったと仮定してみよう。そうすると、それは次のようなqwエレメントに記録される:
<qw>Jumblatt</ >
【0026】
図5は疑わしい・キャラクタ・エレメントを除去する試みにおいて見つけられたワードをワード認識装置が配置する確認済み・ワード・エレメント(vw)と代替・ワード・エレメント(aw)とを示している。ワード認識装置は、疑わしい・キャラクタ・エレメントに関連するワードに基づき、疑わしいキャラクタが発生するたびに辞書の中でワードを探す。もしワードがその辞書の中に見つかると、ワード認識装置はそのワードをvwエレメントに配置する。ワード認識装置が疑わしいキャラクタを除去しようとする時、ワード認識装置はその辞書の中に確認された数個のワードを見つけるかもしれない。ワード認識装置が確認済みワードの中で判断できない場合は、ワード認識装置はそれらのワードの各々をvwエレメントに配置し、意味論解析器のような後にくるプロセスのために、1組のvwエレメントをawエレメントに配置する。
【0027】
次に、意味論解析器は確認済みワードのどれが正しいかを、代替ワードの発生を囲むワードを解析することにより判断しようと試みる。
【0028】
ワード認識装置は辞書と比較すべきワードを選ぶために、従来からの様々なプロセスを用いる。例えば、アルファベットの全てのキャラクタは、疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントと置き換えることができ、これらの結果は辞書でサーチされる。代替疑わしいキャラクタが疑わしい・キャラクタ・エレメントに提供された場合、置き換えを代替疑わしいキャラクタのみに制限することができる。確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残り、その中に含まれる不確定情報を随意にワード認識装置により新しくすることができる。
【0029】
例えば、下記に示す図1から2つのストリングと疑わしいキャラクタがキャラクタ認識装置により発見されたとしよう:
<s >the origins of numerous English w </s>
<qc>a </q>
<s >rds are still obscure </s>
ワード認識装置は、疑わしい"a" を減らそうとして、候補として"wards" と"words" を見つけ、上記表示を以下のように置き換える:
<s >The origins of numerous English</s>
<aw><vw>wards </vw ><vw>words </vw ></aw >
<s >are still obscure </s>
【0030】
エレメントのストリームを、どのワードが正しいかを判断しようと試みる意味論解析器に送ることができる。意味論解析器がどのワードが正しいかを判断することができれば、意味論解析器はそのキャラクタを回りのs・エレメントに併合させる。例えば、以下のデータが意味論解析器に提供されたと仮定すると:
<s >, the origins of numerous English </s>
<aw>
<vw>wards </ >
<vw>words </ >
<s >are still obscure.</ >
そして、意味論解析器はその前後関係から、"wards" ではなく"words" の方が正しい選択であると判断する。意味論解析器は上記表示を以下に示すものの中のどれによってでも置き換えることができる(どれを選ぶかはさして重要ではないが、最初の選択は最も論理的なものであり、2番目の選択は最も好都合なものを選ぶ):
<s >, the origins of numerous English words are still obscure.</ >
<s >, the origins of numerous English <s >words<s >are still obscure.</ >
<s >, the origins of numerous English words <s >are still obscure.</ >
<s >, the origins of numerous English <s >words are still obscure.</ >
中間の</ >s は任意のものなので、省略されることに注意する必要がある。
【0031】
図6は同じフォントのキャラクタデータ(s、aw、qc及びqwエレメント)を集めるために使用されるテキスト・エレメントを示している。テキスト・エレメントはid属性を持っており、より高いエレメントにより照合されることを可能にし、フォント識別名(下記にて定義される)と任意的な照合をすることができる。フォント照合ができない場合は、最も新しく供給されたものが使用される。テキスト・エレメントは異なるフォントを識別することができるキャラクタ認識装置により作られる。テキスト・エレメントに記録されたデータの例として以下のようなものがある:
<text id=123 font=2>list of s, aw, qc and qw elements </ >
【0032】
図7はフォントデフ・エレメントを示している。キャラクタ認識プロセスにより解析された書体はできる限り多くの情報と共にフォントデフ・エレメントに記録される。フォントデフ・エレメントの内容は、キャラクタ認識装置が確実に引き出すことができる場合、フォントの族名である。そのフォントの族名を引き出すことができそうもない場合、その内容は空のまま残され;後にくるプロセスかまたは使用者との対話により後で書き込むことができる。
【0033】
id・属性はテキスト・エレメントをフォント記述と照合することを可能にする。size・属性は局部で測られる。base・属性は、基準線が上に書いたり下に書いたりすることによって相殺されているかどうかを指示する。下線がある場合、under ・属性がフォントの基準線の下の下線の位置を指示する。フォントの族名がFrutigerであるフォントデフ・エレメントに記録されたデータの例は以下のようになる:
<fontDef id = 2 size = 10 under = 1>Frutiger</ >
属性は括弧<>の最初のセットに記録される。
【0034】
図8はグラフィックス・エレメントの1つのタイプであるセグメント・エレメントを示している。セグメント・エレメントはグラフィックス認識装置により使用され、ビットマップ・イメージから認識するライン・セグメントを書き留める。id・属性がより高いエレメントをセグメント・エレメントに照合することを可能にする。終了点(x1、y1及びx2,y2)の座標は、そのページの左上の角に関連して、セグメントを数学的に定義する。正確な終了点座標についての不確定性は、dx1、dy1及びdx2、dy2・属性に記録される。このようにして、dx1、dy1、dx2、及びdy2はライン・セグメント・グラフィックス構造を記述するために用いられるパラメーター(x1、y1、x2、y2)の可能性のあるオフセットを記録する。ライン・セグメントの厚さ及び不確定性は、thick及びdThick・属性により書き留められる。ライン・セグメント・エレメントに記録されるデータの例として下記のようなものが挙げられる:
<segment id=14x1=2100dx1=5y1=1440x2=2100dx2=5y2=2160thick=17 ></ >
フォントデフ・エレメントの場合と同じように、属性は括弧の最初のセットの中に用意される。セグメント・エレメントは如何なるキャラクタストリングも含まない(その内容は空(EMPTY) である)ので、括弧の最初のセットの次はエレメント終了マーカーの</ >であるか、または新しいエレメントはエレメント終了マーカーを必要としない。
【0035】
図9はグラフィックス・エレメントのもう1つのタイプである弓形・エレメント(arc-element )を示している。弓形・エレメント(arc-elements)はグラフィックス認識装置によってビットマップ・イメージから認識される、円、円形の弓形、楕円及び楕円形の弓形を書き留めるために使用される。id・属性はより高水準のエレメントに弓形の参照符をつけることを可能にする。その他の属性には次のようなものが挙げられる:
x、y、dx、dy:座標、及びページの左上の角から測定された円、楕円の弓形の中心での不確定性;
r、dr:円の弓形の半径または楕円の弓形の長軸の長さ及び不確定性;
rShort、drshort :楕円の弓形の短い半径の長さ及びその不正確性;
theta1、dTheta1 :垂直軸と、中心及び弓形の終了点の1つを通る線の間の角度。この属性は弓形のためだけに存在する。角度はミリラジアンで測定できる;
theta2、dTheta2 :他の終了点のためのtheta1、dTheta1 と同じ;
theta0、dTheta0 :垂直軸と、楕円の長軸との間の角度。この属性は楕円及び楕円形の弓形のためだけに存在する;
thick 、dThick:弓形、円もしくは楕円の厚さと不確定性。
【0036】
弓形・エレメントに記録されるデータの例として以下のようなものが挙げられる:
<arc id=5462x=2300dx=8y=1440dy=8r=2100dr=15></ >
【0037】
図10はグラフィックス・エレメントの3番目のタイプであるイメージ・エレメントを示している。イメージ・エレメントはテキストまたは構造的グラフィックスとして解決されなかったページの方形部分を表示するために使用され、従って、別のファイルにあるビットマップ・フォームに残される。イメージ・エレメントはファイル名を含む。
【0038】
イメージ・エレメント属性はページ(x、dx、y、dy)の左上の角に関連した位置及び不確定性、及びイメージの寸法(w、dw、h、dh)を符号化する。resol・属性は測定単位(測定単位は後に定義するdsストリーム・エレメントにより供給される)ごとのビットで表される。
【0039】
ドキュメント認識操作に着手する時には、DRストリームは通常ペーパードキュメントの計数化されたページ毎に1つのイメージ・エレメントだけを含んでいる。キャラクタストリング、ライン・セグメント、及び弓形が引き出される(従来の技術を用いて)につれて、徐々にビットマップがより小さく、おそらくより多数のものと置き換えられる。操作の終了時に、残されたビットマップだけが本物のハーフトーンイメージであり、キャラクタ認識装置及びグラフィックス認識装置が判読できなかったドキュメントの部分である。
【0040】
"Squiggle"と名付けられたファイルに保存されたビットマップ・イメージは、次のように記録される:
<image id=567x=1840y=1680w=260h=480>Squiggle</ >
【0041】
図11は4番目のグラフィックス・エレメントであるスポット・エレメントを示している。スポット・エレメントは小さなイメージを含み、認識されないような小さなしみや記号、知られていないシンボル等のビットマップ・フォーマットに残された非常に小さな方形部分を表示する。ビットマップは非常に小さいので、別のファイルに保持されるよりは、16進法形式でスポット・エレメントの内容として便利に符号化することができる。
【0042】
x、dx、y及びdy・属性はページの左上の角に関してスポットの位置を供給する。bx・属性は水平方向のビットの数を与える。それは強制的に8の倍数になるようになっている。by・属性は1ビットの高さの列の数を与える。スポット・エレメントをイメージする必要がある時は、16進法の値は1度に1列につき8*bxビット(2*bx16進法キャラクタ)で消費される。16進法の値は適当な場合には後続0ビットを含んでいる。
【0043】
図1のサンプルページの小球●が認識されなかったと仮定しよう。それは次のような小さなイメージとして表示されるだろう。
<spot id=11x=590y=850bx=25by=25>03FFB000... </ >
【0044】
図12は他のエレメントに対する参照を示している。テキスト、セグメント、弓形、イメージ及びスポット・エレメントは各々の識別名と参照することにより、高水準のエレメント(下記で論じるテキスト・ブロック、フレーム及びページ等)に分類することができる。単一のエレメントに対する参照は、アイテム・エレメントによって行われ、その単一属性は参照済みエレメントの識別名の値を持つ。
【0045】
一貫した連続エレメントに対する参照はレンジ・エレメントにより行われる:"from"と"to"属性が最初と最後の参照済みエレメントの識別名を引用する。「最初」と「最後」はエレメントがDRストリームの中に見いだされる年代順に関連する。レンジ・エレメントはアイテム・エレメントの間断のない連続のための速記表示である。
【0046】
グルーピングについてのアンビギティーはaltern・エレメントにより表示される。代替グルーピングは適正なエレメント・グルーピングの数を符号化するためのプロセスにより使用される。例えば、テキストのページが4つ、つまり左側に2つと右側に2つのテキスト・ブロックを持ったものとして認識されたとする:論理的構造のプロセッサー(もしくは論理的復元器)はテキストが2つのカラムまたは2つの列として読んだのかどうか判断できずに、それらを左上、左下、右上、右下の順に;あるいは左上、右上、左下、右下の順に分類する;構文法解析器のような下流のプロセスがアンビギティーを解消できるかもしれない。
【0047】
図13はtBlock・エレメントを示している。tBlock・エレメントはテキスト・ラインまたは等間隔を空けたテキスト・ラインのまわりの見えない境界を形成する方形部分を符号化する。ページの左上の角に関連するtBlockの位置、及びその不正確性はx、y、dx、dy・属性により与えられる。寸法と不確定性はw、h、dw、dhにより記録される。interl・属性はブロック内の等間隔のライン間の間隔を測定する;その値はテキスト・ブロックが1つのラインだけを含んでいる時は0である。x1、dx1、y1、dy1・属性はブロックの左上の角に関連するテキスト・ブロックの最初のキャラクタの位置を与える。
【0048】
図14はフレーム・エレメントを示している。フレーム・エレメントはページ部分より小さいか、または等しい方形部分を符号化する。該エレメントは他のフレームと共に、テキスト・ブロック、イメージ、スポット、弓形、及びセグメントを集めるために使用される。フレームはページの上に重なってもよい。
【0049】
図15はページ・エレメントを示している。ページ・エレメントはドキュメントの計数化されたページに関する情報の全てを集める。もしDRストリームの中にページ・エレメントがなければ、全てのDRストリームのデータは単一ページに属していると仮定される。
【0050】
図16はグループ・エレメントを示している。グループ・エレメントはページの境界線を横切るエレメントの収集を可能にする。該エレメントはページを横切るテキストの流れを指示するため、論理的構造の改造器及び意味論解析器により使用される。
【0051】
図17はdrStream・エレメントを示している。ドキュメント・タイプの定義の一番上にあるのがdrStream・エレメントである。その単位・属性はdrStreamを通じて使用される測定単位の名前を示す。フラクション・属性は座標、寸法及びそれらの不正確性が実際に表す測定単位の断片を指示している。例えば、測定がミクロンで行われれば、drStream・エレメント・属性は以下のようになる:
<drStream unit=meter fraction=1000000>
【0052】
図18〜図22は開示されたページ記述言語で用いられる全てのエレメントを示している。
【0053】
図23は本発明において使用できるドキュメント認識システムを示している。図24と図25は本発明に従って図23のシステムを操作するための手順を示すフローチャートである。ビットマップ・イメージ(S100)を入力するために、イメージスキャナー100を用いてペーパードキュメントが走査され、ビットマップ・ドキュメント・イメージ110が作られる。走査プロセスは、本質的に認識プロセスが実行されると同時に実行できるか、または、ビットマップ・ドキュメント・イメージ110がハードまたはフロッピー・ディスクのような数タイプの電子記憶媒体に供給できると同時に実行できることが理解できる。ビットマップ・ドキュメント・イメージ110はビットマップ・イメージをもっと小さなサブイメージ、例えば、テキストだけを包含するテクスチュアル・サブイメージとか、グラフィックスだけを包含するグラフィックス・サブイメージ等に分裂させる従来のセグメンター150(S110)に供給される。セグメンター150は、各サブイメージがテキストのみまたはグラフィックスのみを包含していると認識されるまで、ビットマップ・イメージをもっと小さなサブイメージに反復して分裂させる。テクスチュアル・サブイメージがキャラクタ認識装置300に供給されている間に、グラフィックス・サブイメージは次に構造イメージ認識装置200(またはグラフィックス認識装置)に送られる。もちろん、ビットマップ・ドキュメント・イメージがテキストもしくはグラフィックスだけを包含していることが事前に解っていれば、該イメージは直接構造イメージ認識装置200またはキャラクタ認識装置300に送られる。
【0054】
構造イメージ認識装置200は、次にビットマップ・グラフィックス・イメージ(又はサブイメージ)を、ドキュメント記述言語を使用する上記グラフィックス・エレメントのような、グラフィックス・エレメントに記録できるコード化グラフィックス・データ(S160)に変換する。つまり、認識されないビットマップ・イメージは未解決・グラフィックス・イメージ・タイプ・エレメント(S170)に配置される:大きい場合はイメージ・エレメント、小さい場合はスポット・エレメント及び16進法の値として表される。グラフィックス・イメージまたはサブイメージが認識され、コード化グラフィックス・データに変換される場合、該イメージは1つかそれ以上のセグメント・エレメント及び/または弓形・エレメント(S180)に配置される。不正確性に関する追加的情報(例えば、グラフィックス構造を随意に記述するパラメーター(コード化データ)の可能性のあるオフセット)はこれらのエレメント(S185)に記録できる。
【0055】
このように、グラフィックス・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、グラフィックス構造イメージ認識装置200は、グラフィックス・ビットマップ・イメージをグラフィックス構造を明確にするコード化データを含む1つかそれ以上のグラフィックス・エレメントに変換するため、ビットマップ・グラフィックス・イメージに最初の変換操作を行うための第一の変換手段として;また、第一の変換手段により変換される1つかそれ以上のグラフィックス・エレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各グラフィックス・エレメントは該エレメントに含まれる認識されたビットマップ・イメージに関するコード化データのタイプを指示するエレメント・タイプ識別名を包含している。第一の変換手段が、グラフィックス・エレメントに含まれるコード化データが既定の信頼度で変換されていないと判断した場合、識別手段もまたグラフィックス・エレメント内に、各グラフィックス・エレメントに含まれるコード化データに関して第一の変換手段により判断される不確定情報(オフセット)を包含している。
【0056】
キャラクタ認識装置300はビットマップ・テクスチュアル・イメージ(またはサブイメージ)をコード化キャラクタデータ(S120)に変換し、該データはそれから上記されたようにS140かS150(キャラクタ・ストリングまたは疑わしい・キャラクタ)の中の適当なエレメントに記憶される。コード化キャラクタデータをキャラクタ・ストリング・エレメントか疑わしい・キャラクタ・エレメントに配置するかどうかを判断するために、認識されたキャラクタが少なくとも既定の信頼度で認識されたかどうかに関する判断がS130で行われる。疑わしい・キャラクタ・エレメントへのキャラクタの挿入は該キャラクタに関する不確定情報を伝えるために役立つが、代替の可能性のある不確かなキャラクタ、あるいは不確かなキャラクタのための確定度などの追加的情報も、疑わしい・キャラクタ・エレメント(S155)に含むことができる。このように、キャラクタ認識装置300はキャラクタ・ストリング・エレメントや疑わしい・キャラクタ・エレメントのストリームを作りだし、そのストリームは次にワード認識装置400に送られる。
【0057】
ワード認識装置400はその中にワードの辞書または語彙を持っている。本発明に従って操作されるワード認識装置400は、それから各疑わしい・キャラクタ・エレメントのための図25に示された手順を実行する。まず、S200において、複数のキャラクタが疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントに続いて置き換えられる。S210において、置き換えステップ(S200)により形成されたワードのいずれかがワード認識装置400の辞書の中に見いだされるかどうかについての判断が為される。該かるワードは「確認済みワード」と称される。確認済みワードが見いだせない場合、疑わしい・キャラクタ・エレメントはS240に戻され、随意にS245において、疑わしい・キャラクタ・エレメントに含まれる不確定情報がワード認識装置400により為された判断に基づいて新しくされる。もしS210における判断が肯定的であれば、各確認済みワードを確認済み・ワード・エレメント (S220) に配置する。次に、S230において、1つ以上の確認済み・ワード・エレメントが1つの疑わしい・キャラクタ・エレメントから作られた場合、複数の確認済み・ワード・エレメントが代替・ワード・エレメントに配置される。
【0058】
代替・ワード・エレメントの中の確認済みワードのどれが正しいかをまわりのワードに基づいて判断しようとする意味論解析器500によって、各代替・ワード・エレメントをキャラクタ・ストリング・エレメントに変換することができる。意味論解析器が代替・ワード・エレメントの中の確認済みワードのどれが正しいかを判断できない場合、そのワードは代替・ワード・エレメントに戻り、そこで各確認済み・ワード・エレメントの中の各確認済みワードのための不確定情報を随意に提供する。
【0059】
このように、テクスチュアル・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、キャラクタ認識装置300は、テクスチュアル・ビットマップ・イメージをコード化キャラクタデータを含む1つかそれ以上のエレメントに変換するため、テクスチュアル・ビットマップ・イメージに最初の変換操作を行うための第一の変換手段として;また、第一の変換手段により変換される1つかそれ以上のエレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各エレメントは該エレメントに含まれる認識されたビットマップ・テクスチュアル・イメージに関するコード化キャラクタデータのタイプを指示するエレメント・タイプ識別名を包含している。特定のキャラクタがキャラクタ・ストリング・エレメントとして識別されるエレメントに記録される一方で、既定の信頼度で認識されないキャラクタを含むエレメントは、第一の識別手段により疑わしい・キャラクタ・エレメントとして識別されたエレメントに記録される。
【0060】
ワード認識装置400は、代替キャラクタを疑わしい・キャラクタ・エレメントに置き換え、置き換えから生じたワードが辞書の中に存在するかどうかを確認することによって、各疑わしい・キャラクタ・エレメントと、疑わしい・キャラクタ・エレメントと同じワードの中の隣接する確信を持って認識されたキャラクタを、1つかそれ以上の確認済みワードに変換するための第二の変換手段として;また、確認済み・ワード・エレメントの中に各確認済みワードを配置するためにドキュメント記述言語を用いる第二の識別手段として作用する。1つ以上の確認済み・ワード・エレメントが疑わしい・キャラクタ・エレメントのために作られた場合、第二の識別手段もまた1つ以上の確認済み・ワード・エレメントを代替・ワード・エレメントの中に配置する。第二の識別手段は、未確認ワードが存在すると判断された場合、疑わしい・ワード・エレメントを保持する。
【0061】
次に、代替・ワード・エレメントが、代替・ワード・エレメント内のどの確認済みワードが正しい確認済みワードであるかを、代替・ワード・エレメントを囲むワードに基づいて判断する手段として;また、正しい確認済みワードを識別し、代替・ワード・エレメントを正しい確認済みワードを含むキャラクタ・ストリング・エレメントで置き換えるための第三の識別手段として作用する意味論解析器500に送られる。
【図面の簡単な説明】
【図1】 本発明を図示するために使用されるサンプルページイメージである。
【図2】 既定の信頼度で、またそれ以上で、認識されたキャラクタの連続を集めるためのキャラクタストリング・エレメントを示す。
【図3】 低い信頼度で認識された疑わしいキャラクタを集めるための疑わしいキャラクタエレメントを示す。
【図4】 高い信頼度で認識されたが辞書の中に見いだせなかったキャラクタを含む、疑わしいワードを集めるための疑わしいワードエレメントを示す。
【図5】 1つかそれ以上の疑わしいキャラクタを含むワードを解決することにより、辞書の中に見いだされる確認済みワードを集めるための確認済みワードエレメント、及び2つかそれ以上の確認済みワードが疑わしいキャラクタを含む1つのワードのために見つけられた時に、代替ワードを集めるための代替ワードエレメントを示す。
【図6】 同じフォントを持つテキスト・エレメントを集めるためのテキスト・エレメントを示す。
【図7】 フォントタイプに関するデータを集めるためのフォントデフ・エレメントを示す。
【図8】 ライン・セグメントに関するデータを集めるためのセグメント・エレメントであるグラフィックス・エレメントの一例を示す。
【図9】 弓形に関するデータを集めるための弓形エレメントであるグラフィックス・エレメントの別例を示す。
【図10】 大きな未解決のビットマップ・イメージに関するデータを集めるためのイメージ・エレメントであるグラフィックス・エレメントの別例を示す。
【図11】 スポットと称される小さな未解決のビットマップ・イメージに関する情報を集めるため、及び該情報を16進法の値として記憶するためのスポット・エレメントであるグラフィックス・エレメントの別例を示す。
【図12】 その他のエレメントに関するエレメントの実例を示す。
【図13】 テキストのブロックに関する情報を集めるためのtブロック・エレメントを示す。
【図14】 その他のフレームと共に、テキストブロック、イメージ、スポット、弓形、セグメントを含むことができるフレームに関する情報を集めるためのフレーム・エレメントを示す。
【図15】 ページに関するデータを集めるためのページ・エレメントを示す。
【図16】 ページの境界線を越えるエレメントのグループに関する情報を集めるためのグループ・エレメントを示す。
【図17】 全ドキュメントに関するデータを集めるためのdrストリーム・エレメントを示す。
【図18】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図19】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図20】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図21】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図22】 ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図23】 本発明を用いてビットマップ・イメージをコード化データストリームに入力・変換するためのシステムのブロック図である。
【図24】 本発明を用いた時の図23のシステムにより実施される手順を示すフローチャートである。
【図25】 本発明を用いた時の図23のワード認識装置により実施される手順を示すフローチャートである。
Claims (6)
- 文字、ワード、ドキュメントの何れか一のレベルでドキュメントの解読又は解釈を行う装置であって、
標準化されたシンタックスに従って示されるコード化文字データを分析する分析器を備え、
前記分析器は、
前記標準化されたシンタックスに基づいて、前記コード化文字データに含まれる情報をエレメントとして示すために使用される定義を含むシンタックス・リストと、コード化文字データにより示されるドキュメントと、を読み込み、
前記シンタックス・リストに基づいて、不確定な情報を示すエレメントが前記コード化文字データに含まれているか否か判断し、
前記エレメントにより示される不確定な情報が、前記装置の解読又は解釈機能により確信された情報として認識された場合には、前記エレメントにより示される不確定な情報を該確信された情報に置換し、
前記装置の解読又は解釈機能により、前記コード化文字データに不確定な情報が含まれていると判断された場合には、前記シンタックス・リストに基づいて、該不確定な情報を不確定な情報を示すエレメントに置換して該コード化文字データに埋め込み、
前記コード化文字データにより示されるドキュメントを出力する、
装置。 - 前記分析器は、
前記エレメントにより示される不確定な情報を、前記装置の解読又は解釈機能が確信して認識することはできないが、該装置の解読又は解釈機能が該不確定な情報に対応する情報のリストを提示することができる場合には、該不確定な情報を示すエレメントを、前記シンタックス・リストに基づいて、該情報のリストを示すエレメントに置換し、
前記シンタックス・リストに基づいて、情報のリストを示すエレメントが前記コード化文字データに含まれているか否か判断し、
前記エレメントにより示される情報のリストから、前記装置の解読又は解釈機能が確信して情報を選択できる場合には、前記情報のリストを示すエレメントを選択された該情報に置換する、
請求項1に記載の装置。 - 前記装置は、ドキュメントに含まれる文字を文字レベルで調査分析する文字認識装置、スペルチェックにより文字を含むワードをワード・レベルで調査分析するワード認識装置、ワードの前後関係からワードをワード・レベルで調査分析する意味論解析器、ワードを含むドキュメントのテキスト・フローをドキュメント・レベルで調査分析する論理的構造再構築器の何れかである、請求項1又は2に記載の装置。
- 前記不確定な情報、情報のリストを示すエレメントは、前記標準化されたシンタックスに基づいて所定のマーカーで開始と終了とを示され、前記シンタックス・リストに基づいて該エレメントのタイプを示す特有の識別名を備える、
請求項1〜3の何れか一項に記載の装置。 - 前記エレメントのタイプは、該エレメントに示される情報が、不確定な情報、情報のリストの何れであるか、文字レベル、ワード・レベル、ドキュメント・レベルの何れであるかを示す、請求項4に記載の装置。
- 前記標準化されたシンタックスは、ISO8879標準化法則マークアップ言語である、請求項1〜5の何れか一項に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/814,347 US5359673A (en) | 1991-12-27 | 1991-12-27 | Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities |
US814347 | 1991-12-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05307638A JPH05307638A (ja) | 1993-11-19 |
JP3640972B2 true JP3640972B2 (ja) | 2005-04-20 |
Family
ID=25214790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35615892A Expired - Fee Related JP3640972B2 (ja) | 1991-12-27 | 1992-12-18 | ドキュメントの解読又は解釈を行う装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5359673A (ja) |
EP (1) | EP0549329B1 (ja) |
JP (1) | JP3640972B2 (ja) |
CA (1) | CA2080966C (ja) |
DE (1) | DE69230784T2 (ja) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5499329A (en) * | 1992-04-30 | 1996-03-12 | Ricoh Company, Ltd. | Method and system to handle context of interpretation in a document processing language |
JPH06236367A (ja) * | 1992-11-12 | 1994-08-23 | Ricoh Co Ltd | 文書作成装置の制御方法 |
US6002798A (en) * | 1993-01-19 | 1999-12-14 | Canon Kabushiki Kaisha | Method and apparatus for creating, indexing and viewing abstracted documents |
NL9300310A (nl) * | 1993-02-19 | 1994-09-16 | Oce Nederland Bv | Inrichting en werkwijze voor syntactische signaal-analyse. |
US6501853B1 (en) * | 1994-06-27 | 2002-12-31 | International Business Machines Corporation | Apparatus and method for processing video data |
US5535313A (en) * | 1994-07-18 | 1996-07-09 | Motorola, Inc. | Automated quality control in a document conversion system |
US5802205A (en) * | 1994-09-09 | 1998-09-01 | Motorola, Inc. | Method and system for lexical processing |
CA2154952A1 (en) * | 1994-09-12 | 1996-03-13 | Robert M. Ayers | Method and apparatus for identifying words described in a page description language file |
EP0702322B1 (en) * | 1994-09-12 | 2002-02-13 | Adobe Systems Inc. | Method and apparatus for identifying words described in a portable electronic document |
US5752057A (en) * | 1994-10-27 | 1998-05-12 | Shira Computers Ltd. | Method for conversion of a color electronic pre-press system data file to a page description language data file |
US6055064A (en) * | 1994-10-27 | 2000-04-25 | Shira Computers Ltd. | Method for conversion of a color electronic pre-press system data file to a page description language data file |
US5649024A (en) * | 1994-11-17 | 1997-07-15 | Xerox Corporation | Method for color highlighting of black and white fonts |
US5668891A (en) * | 1995-01-06 | 1997-09-16 | Xerox Corporation | Methods for determining font attributes of characters |
JPH08212293A (ja) * | 1995-01-31 | 1996-08-20 | Toshiba Corp | Sgmlタグ付与処理システム |
EP0733965B1 (en) * | 1995-03-23 | 2001-12-05 | Agfa-Gevaert N.V. | Parallel processing of page description language data stream |
US6115723A (en) * | 1995-04-27 | 2000-09-05 | International Business Machines Corporation | System and method for converting a coordinate based document to a markup language (ML) based document |
US6003048A (en) * | 1995-04-27 | 1999-12-14 | International Business Machines Corporation | System and method for converting a coordinate based document to a markup language (ML) based document |
US6230173B1 (en) * | 1995-07-17 | 2001-05-08 | Microsoft Corporation | Method for creating structured documents in a publishing system |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
US5850474A (en) * | 1996-07-26 | 1998-12-15 | Xerox Corporation | Apparatus and method for segmenting and classifying image data |
US6870633B1 (en) * | 1996-09-30 | 2005-03-22 | Brother Kogyo Kabushiki Kaisha | Printing device |
US5893127A (en) * | 1996-11-18 | 1999-04-06 | Canon Information Systems, Inc. | Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document |
JP3427692B2 (ja) * | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
JPH10162098A (ja) * | 1996-12-02 | 1998-06-19 | Nec Corp | 文書電子化装置及び文書電子化方法 |
JPH11110480A (ja) * | 1997-07-25 | 1999-04-23 | Kuraritec Corp | テキストの表示方法およびその装置 |
JPH11102414A (ja) | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
US5970483A (en) | 1997-07-25 | 1999-10-19 | Claritech Corporation | Apparatus and methodology for submitting search queries |
US5987448A (en) | 1997-07-25 | 1999-11-16 | Claritech Corporation | Methodology for displaying search results using character recognition |
US7046857B2 (en) * | 1997-07-31 | 2006-05-16 | The Regents Of The University Of California | Apparatus and methods for image and signal processing |
US6154208A (en) * | 1997-10-06 | 2000-11-28 | Canon Kabushiki Kaisha | Proxy mechanism for non-native GDI formats |
JP3997026B2 (ja) * | 1999-01-29 | 2007-10-24 | キヤノン株式会社 | フォーム編集方法及び装置及びコンピュータ読取り可能なプログラムが格納された記憶媒体 |
US6850643B1 (en) * | 1999-09-08 | 2005-02-01 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for collateral risk monitoring |
US6850908B1 (en) * | 1999-09-08 | 2005-02-01 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for monitoring collateral for lending |
US6546133B1 (en) * | 1999-09-08 | 2003-04-08 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for print scraping |
US7136082B2 (en) | 2002-01-25 | 2006-11-14 | Xerox Corporation | Method and apparatus to convert digital ink images for use in a structured text/graphics editor |
US7139004B2 (en) | 2002-01-25 | 2006-11-21 | Xerox Corporation | Method and apparatus to convert bitmapped images for use in a structured text/graphics editor |
US8693043B2 (en) | 2003-12-19 | 2014-04-08 | Kofax, Inc. | Automatic document separation |
US20060002614A1 (en) * | 2004-06-30 | 2006-01-05 | Alliances Artquest International Inc. | Raster-to-vector conversion process and apparatus |
ITTO20040467A1 (it) * | 2004-07-08 | 2004-10-08 | Bankersoft S R L | Procedimento e sistema di introduzione di dati |
US7289123B2 (en) * | 2004-09-30 | 2007-10-30 | Microsoft Corporation | Simplifying complex characters to maintain legibility |
US8677274B2 (en) * | 2004-11-10 | 2014-03-18 | Apple Inc. | Highlighting items for search results |
US9769354B2 (en) | 2005-03-24 | 2017-09-19 | Kofax, Inc. | Systems and methods of processing scanned data |
US9137417B2 (en) | 2005-03-24 | 2015-09-15 | Kofax, Inc. | Systems and methods for processing video data |
JP2007304864A (ja) * | 2006-05-11 | 2007-11-22 | Fuji Xerox Co Ltd | 文字認識処理システムおよび文字認識処理プログラム |
EP2143273A4 (en) * | 2007-04-02 | 2012-08-08 | Esight Corp | APPARATUS AND METHOD FOR INCREASING VISION |
US7480411B1 (en) * | 2008-03-03 | 2009-01-20 | International Business Machines Corporation | Adaptive OCR for books |
US8958605B2 (en) | 2009-02-10 | 2015-02-17 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US9576272B2 (en) | 2009-02-10 | 2017-02-21 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US9349046B2 (en) | 2009-02-10 | 2016-05-24 | Kofax, Inc. | Smart optical input/output (I/O) extension for context-dependent workflows |
US8774516B2 (en) | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US11610653B2 (en) * | 2010-09-01 | 2023-03-21 | Apixio, Inc. | Systems and methods for improved optical character recognition of health records |
US9058580B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9058515B1 (en) | 2012-01-12 | 2015-06-16 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9483794B2 (en) | 2012-01-12 | 2016-11-01 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
US9165188B2 (en) | 2012-01-12 | 2015-10-20 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
CN105283884A (zh) | 2013-03-13 | 2016-01-27 | 柯法克斯公司 | 对移动设备捕获的数字图像中的对象进行分类 |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
EP2992481A4 (en) | 2013-05-03 | 2017-02-22 | Kofax, Inc. | Systems and methods for detecting and classifying objects in video captured using mobile devices |
US9386235B2 (en) | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
RU2571396C2 (ru) * | 2014-03-26 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система для верификации в процессе чтения |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
US9928410B2 (en) * | 2014-11-24 | 2018-03-27 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object, and method and apparatus for training recognizer |
US10242285B2 (en) | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
JP6769045B2 (ja) * | 2016-02-29 | 2020-10-14 | ブラザー工業株式会社 | 画像処理装置、および、コンピュータプログラム |
US9779296B1 (en) | 2016-04-01 | 2017-10-03 | Kofax, Inc. | Content-based detection and three dimensional geometric reconstruction of objects in image and video data |
US11062176B2 (en) | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
JP7226136B2 (ja) * | 2019-06-25 | 2023-02-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4058795A (en) * | 1972-10-03 | 1977-11-15 | International Business Machines Corporation | Method and apparatus for context-aided recognition |
US4136395A (en) * | 1976-12-28 | 1979-01-23 | International Business Machines Corporation | System for automatically proofreading a document |
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
US4654875A (en) * | 1983-05-23 | 1987-03-31 | The Research Foundation Of State University Of New York | System to achieve automatic recognition of linguistic strings |
US4907285A (en) * | 1984-08-24 | 1990-03-06 | Hitachi, Ltd. | Image understanding system |
US4760604A (en) * | 1985-02-15 | 1988-07-26 | Nestor, Inc. | Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier |
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
JP2614252B2 (ja) * | 1988-01-19 | 1997-05-28 | キヤノン株式会社 | 画像合成装置 |
US4974260A (en) * | 1989-06-02 | 1990-11-27 | Eastman Kodak Company | Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines |
US4914709A (en) * | 1989-06-02 | 1990-04-03 | Eastman Kodak Company | Method for identifying unrecognizable characters in optical character recognition machines |
US5257323A (en) * | 1991-05-29 | 1993-10-26 | Canon Kabushiki Kaisha | Selection agent for a symbol determination system with multiple character recognition processors |
US5251273A (en) * | 1992-04-15 | 1993-10-05 | International Business Machines Corporation | Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms |
-
1991
- 1991-12-27 US US07/814,347 patent/US5359673A/en not_active Expired - Lifetime
-
1992
- 1992-10-20 CA CA002080966A patent/CA2080966C/en not_active Expired - Fee Related
- 1992-12-18 JP JP35615892A patent/JP3640972B2/ja not_active Expired - Fee Related
- 1992-12-22 DE DE69230784T patent/DE69230784T2/de not_active Expired - Fee Related
- 1992-12-22 EP EP92311711A patent/EP0549329B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69230784T2 (de) | 2000-07-27 |
DE69230784D1 (de) | 2000-04-20 |
EP0549329A2 (en) | 1993-06-30 |
CA2080966C (en) | 1996-08-13 |
CA2080966A1 (en) | 1993-06-28 |
EP0549329A3 (ja) | 1994-04-20 |
US5359673A (en) | 1994-10-25 |
JPH05307638A (ja) | 1993-11-19 |
EP0549329B1 (en) | 2000-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3640972B2 (ja) | ドキュメントの解読又は解釈を行う装置 | |
JP3822277B2 (ja) | 文字テンプレートセット学習マシン動作方法 | |
EP0544430B1 (en) | Method and apparatus for determining the frequency of words in a document without document image decoding | |
Haralick | Document image understanding: Geometric and logical layout | |
EP0544431B1 (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
US7013309B2 (en) | Method and apparatus for extracting anchorable information units from complex PDF documents | |
US5491760A (en) | Method and apparatus for summarizing a document without document image decoding | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
US5699453A (en) | Method and apparatus for logically tagging of document elements in the column by major white region pattern matching | |
JP3452774B2 (ja) | 文字認識方法 | |
JPH10260993A (ja) | 書類の走査画像からのタイトル、見出しおよび写真抽出 | |
JP2005526314A (ja) | 文書構造識別器 | |
JPH07200745A (ja) | 少なくとも二つのイメージセクションの比較方法 | |
JP3485020B2 (ja) | 文字認識方法及び装置ならびに記憶媒体 | |
CN114005123A (zh) | 一种印刷体文本版面数字化重建系统及方法 | |
US7046847B2 (en) | Document processing method, system and medium | |
JP7282989B2 (ja) | テキスト分類 | |
JPH11161736A (ja) | 文字認識方法 | |
CN113610068A (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
US20110103713A1 (en) | Word length indexed dictionary for use in an optical character recognition (ocr) system | |
Marinai | Text retrieval from early printed books | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Chaudhuri et al. | An approach for processing mathematical expressions in printed document | |
Baker | A linear grammar approach for the analysis of mathematical documents | |
Viswanathan | A syntactic approach to document segmentation and labeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20001121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050120 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |