JP3640972B2

JP3640972B2 - ドキュメントの解読又は解釈を行う装置

Info

Publication number: JP3640972B2
Application number: JP35615892A
Authority: JP
Inventors: アール．ドゥラボージャルディエールジーン−マリー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-12-27
Filing date: 1992-12-18
Publication date: 2005-04-20
Anticipated expiration: 2020-04-20
Also published as: DE69230784T2; DE69230784D1; EP0549329A2; CA2080966C; CA2080966A1; EP0549329A3; US5359673A; JPH05307638A; EP0549329B1

Description

【０００１】
【産業上の利用分野】
本発明はドキュメント認識に関し、より詳細には初めはビットマップ・イメージとして表されているドキュメントにおけるテクスチュアル及びグラフィックス構造を認識し、認識プロセスの結果を記録するための方法及び装置に関する。
【０００２】
【従来の技術】
ドキュメント認識とは、ペーパードキュメントを編集可能な電子ドキュメントに自動的に変換することである。それは様々なプロセスの連続的かつ循環的な介入を通じて、組織化された構成要素へのビットマップの逐次変換を伴う。このプロセスには、ページ・セグメント化、キャラクタ（字）認識、グラフィックス認識、論理構造の再構築、スペリング訂正、意味論解析等が含まれる。これらのプロセスの全ては誤って解読又は解釈（misinterpretation)しやすい傾向がある。全てのプロセスが自認した誤った解読又は解釈の記録を取っているわけではないし、記録しているプロセスでもそれを行う基準を決めているわけではない。その結果、後にくるプロセスは、先に済んだプロセスから手渡されたアンビギティー(ambignity、あいまいさ) の記録を処理する準備が通常為されておらず、単にそれらを切り捨ててしまう。貴重な情報が、ドキュメント認識機能の自動的改善に向けて開発される代わりに失われていく。一方、アンビギティー記録が未加工のまま使用者に手渡されると、全ドキュメントの手作業の再構築を通して、手作業の修正をするという雑用が自動認識の利点を殺してしまう。
【０００３】
コンピューター言語学の第１６巻No.1（１９９０年３月）の中のケネス・Ｗ・チャーチ及びパトリック・ハンクスによる「ワード（語）連想基準、相互情報、及び辞書編集」には、コンピューターが読み取れる知識の集積からワード連想基準を見積もるための、相互情報の情報理論概念に基づいた「連想比」と称される手段が記載されている。この連想比は、可能性のあるワードとして識別された２個〜数個のワードの選択から最も適当なワードを判断するため、意味論解析器により使用される。
【０００４】
パターン解析及び機械知能の米国電気電子学会 (IEEE) 処理、PAM1-9巻、No.2（１９８７年３月）の中のサイモン・カハン、セオ・パブリディス及びヘンリー・エス・バイヤードによる「あらゆるフォント及びサイズの印刷されたキャラクタの認識」には、ラテン文字のための様々なフォントとサイズの印刷されたテキストを認識するシステムが記載されている。バイナリーイメージのランレングス符号化グラフに細文字化とシェープ抽出が直接行われる。結果として生じるストロークとその他のシェープは、シェープイメージ・クラスター化アプローチを用いてバイナリー演算機構に写像され、統計的なベイズの分級機に送られる。このシステムは多数の可能性のあるキャラクタとワードを識別し、それらを記録する。しかしながら、認識プロセスにおける不確定性は、本発明の標準表示法を用いては記録されない。
【０００５】
要約すると、グラフィックス構造、テキスト（キャラクタ、ワード、意味論、フォント）、及び論理学上の構造（ページ、パラグラフ、脚注）を認識することができ、認識される特徴を認識したときの不確定性を決定することができる数多くのシステムが存在する。従って、上記の先行技術に関する資料はここに参考のため挿入しておく。しかしながら、これらのシステムのいずれも、認識プロセス（不確定性も含む）の結果を、その他の装置により使用される方法では記録しない。その結果、特に異なる認識システム（例えば、キャラクタ認識、ワード認識、意味論解析器）が異なった時に（一つのシステムに統合されるのとは反対に）使用される時に、多くの情報（特に不確定性に関して）が失われることになる。
【０００６】
【課題を解決するための手段及び作用】
ビットマップ・イメージとして表されるドキュメントを、編集可能なコード化データに変換する方法及び装置が提供され、該方法及び装置において、ドキュメント記述言語における標準表示法が各ドキュメント認識装置によりドキュメント認識アンビギティーを記録するために利用される。ドキュメント認識プロセスの結果がこの標準表示法を用いて記録された場合、如何なるアンビギティーも統一された方法で識別され、後にくるより高水準のドキュメント認識プロセスが、先に済んだドキュメント認識プロセスにより得られるアンビギティーについての情報を用いて、これらのアンビギティーを解消することを試みることが出来る。
【０００７】
特に、本発明の標準表示法を用いる時に、各ドキュメント認識装置はドキュメント記述言語を用いて選択別に識別された１つまたはそれ以上のエレメントにおける認識プロセスの結果を記録することができる。各エレメントはその中に含まれる認識された（変換された）ビットマップ・イメージに関して、コード化データ（情報）のタイプを示すタイプ識別名を持っている。各エレメントはまた、その中にタイプ識別名により識別されたタイプの編集可能なコード化データを含んでおり、既定の信頼度で変換されなかったコード化データを識別する不確定情報を含むことができる。この不確定情報はドキュメント認識装置により判断され、より高水準の後にくるドキュメント認識装置により読み取り可能なフォーマットで記録される。この不確定情報は、アンビギティーを解決する際により高水準のドキュメント認識装置を助けるために、不確定なコード化データがドキュメント認識装置により認識された際の信頼度を持つことができる。不確定情報はまた各不確定な認識に関する代替コード化データを含むことができる。
さらに、本発明では、ドキュメント変換プロセスにおける不確定性に関する情報を記録するため、ビットマップ・イメージ・データとして表されるドキュメントを、ドキュメント記述言語の標準表示法を用いて、編集可能なコード化データストリームに変換する自動ドキュメント認識装置であり、前記コード化データストリームはエレメントのシリーズを含み、ビットマップ・イメージのコード化された部分を記録するために使われる、エレメントを定義したシンタックスリストを記憶するためのメモリであり、前記シンタックスリストはグラフィックス・ビットマップ・データを記録するためのエレメントを含み、前記データの属性と同様に、前記シンタックスリストは前記コード化されたデータストリームを文法的に説明するためのダウンストリーム・プロセス (downstream process) を可能とする、自動ドキュメント認識装置であり、第一の認識装置は、 a) 前記ドキュメントの前記ビットマップ・イメージ表示において、前記ドキュメントをコード化データを含む１つ以上のエレメントに変換する第１の変換操作を行う第１の変換手段と、 b) 前記ドキュメント記述言語を、前記第一の変換手段によって変換された、前記１つ以上のエレメントを識別するために、使用する第１の識別手段であり、各エレメントは前記エレメントに含まれる認識されるビットマップ・イメージに関するコード化データのタイプを識別するエレメント・タイプ識別名を有し、前記第一の変換手段が、規定の信頼度で変換されたエレメントに含まれるコード化データを決定するとき、前記識別装置も前記エレメントに含まれる前記コード化データを認識する第一の変換手段によって決定される前記エレメントの不確定な情報を含む。
【０００８】
ドキュメント認識装置がキャラクタ認識装置である場合、既定の信頼度で認識されないキャラクタが識別され、それらを疑わしい・キャラクタ・エレメントに配置することにより記録される。代替の可能性のあるキャラクタ及びその確定度と共に確定度が、疑わしいキャラクタのために記録される。少なくとも既定の信頼度で認識されたキャラクタは、キャラクタ・ストリング・エレメントの中に置かれる。
【０００９】
ドキュメント認識装置がワード認識装置（例えば、スペリング・チェッカー等）を含む場合は、ワード認識装置はワードが、各疑わしいキャラクタと各疑わしいキャラクタを含むワードの中の特定のキャラクタとに基づいた辞書の中に存在するかどうかを判断することにより、存在する疑わしいキャラクタを解決しようと試みる。疑わしいキャラクタを含むワードの辞書の中で、ワードが識別された場合、該かるワードは確認済みワードとして識別され、確認済み・ワード・エレメントの中に記録される。１つ以上の確認済みワードが見つけられた場合、それらのワードは代替・ワード・エレメントの中に集合的に分類される個々の確認済み・ワード・エレメントの中に配置される。疑わしいキャラクタを含むワードについての確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残る。
【００１０】
ドキュメント認識装置が意味論解析器を含む場合、識別された代替確認済みのワードは、代替確認済みのワードを取り巻くワードを解析することにより解決される。代替確認済みのワードの内の１つが、意味論解析に基づいて既定の信頼度で確認される場合、そのワードは戻されて周囲のキャラクタ・ストリング・エレメントに併合される。意味論解析器がどの代替確認済みのワードが正しいのか判断できない場合、意味論解析器は代替・ワード・エレメントそれ自体（及び含まれた確認済み・ワード・エレメント）を戻し、その中の確認済みワードが正しいワードである可能性を指示するデータを含むことができる。
【００１１】
ドキュメント認識装置がグラフィックス構造イメージ認識装置を含む場合、ドキュメント認識装置はグラフィックスイメージの中の認識されたグラフィックス構造を表わすコード化データを含むグラフィックス・エレメントを出力する。これらの構造は、終了点、円、弓形等の間で明確にされた線を含むことができる。加えて、線の厚さの情報も戻されて記録され得る。ｘやｙの方向オフセットや線の厚さの変化等の認識プロセスの中のアンビギティーも記録され得る。該データはアンビギティーを解決したり、より複雑なグラフィックス構造を認識するために、後にくるより高水準のグラフィックス認識プロセスにより使用される。例えば、低水準のグラフィックス認識装置により認識された４本の線は、もし、例えば、終了点が高い確実性で一致していると断定されるなら、より高水準のグラフィックス認識装置によって箱であると断定されるのである。
【００１２】
追加的なイメージ認識エレメントがドキュメントイメージのより大きな部分（もしくはサブイメージ）に関する情報を記録するために作られる。例えば、フォントテキストブロック、フレーム、ページ、ドキュメント、及び大小の未解決のビットマップ・イメージ等に関するデータもまた記録することができる。
【００１３】
【実施例】
本発明はドキュメント認識プロセスの連続的段階を通して、アンビギティーを記録する明瞭な手順を利用する。これらのアンビギティーは、キャラクタ認識装置により調査分析されたキャラクタ；キャラクタ認識装置、スペリング・チェッカー、及び意味論解析器により調査分析されたワード；論理的構造再構築器により調査分析されたテキスト・フロー；グラフィックス認識装置により調査分析されたライン・セグメント及び弓形の幾何学と関係している。
【００１４】
これらのプロセスの各々は、バイトオリエンテッドデータ・ストリーム（以後ドキュメント認識ストリームまたはＤＲストリームと称する）、及びＤＲストリームによって言及されるビットマップ・ストリーム（以降イメージファイルと称する）を作りだし、及び／または消費する。該ＤＲストリームは、１ページまたは数ページの計数化されたドキュメントに関する情報を運ぶ。該情報はフォント付きのテキスト、特定のグラフィックス原語、ハーフトーン・イメージを、それらの関係及びそれらに付いてのアンビギティーと共に表わす。
【００１５】
本発明は、例えばキャラクタもしくはグラフィックス構造等を認識し、またはワードを決定する（キャラクタのシーケンスを知られているワードの辞書と比較することにより）、あるいは可能性のあるワードの選択からどのワードが正しいかを判断する現存する認識装置で使用できるという意味で、全く新しいドキュメント認識プロセス（またはドキュメント認識装置）を提供するのではない。しかしながら、本発明はドキュメント認識言語で認識装置によって得られる結果を記録するための標準表示法を提供することにより、これら異なったタイプの認識装置が機能する効率及び適合性を改良するものである。
【００１６】
図２〜図２２は下記で論じられるドキュメントタイプ定義に従って、ISO 8879標準法則化マークアップ言語(SGML)における本ドキュメント認識表示法を示している。本発明によれば、各認識装置は、SGMLにおいてエレメント(elements)と称され、コード化情報としての、それが実行する認識プロセスの結果と一致する、コード化データを記録する。各エレメントはいくつかの方法（例えば、テキスト、グラフィックス、同じページ、特定の全てのキャラクタ等）において類似していると認識されたコード化データを含んでいる。各エレメントは、a)該エレメントに含まれるコード化データのタイプを指示するタイプ識別名；b)ドキュメントの類似したタイプのエレメントの中で独得であり、あるエレメントが他のエレメントによって参照されるように（ほとんどのエレメントは識別番号を持っている）、他の類似のタイプ・エレメントから該エレメントを識別する任意の識別番号；c)ドキュメント認識プロセス（これはキャラクタのストリングあるいはグラフィックス構造を明確にするパラメーターであって良い）によって得られたコード化データ；及びd)エレメントに含まれるコード化データについて追加的情報（例えば、不確定情報）を提供するための任意の内容（属性(attribute) と称する）を含んでいる。エレメントの属性はエレメントにおけるコード化データに関する不確定情報（例えば、コード化データが認識される信頼度またはグラフィックス構造のパラメーター（例えばライン・セグメントを明確にする終了点）のための可能性のあるオフセット）を記録するために使用されるが、いくつかの場合におけるタイプ識別は、該エレメントの内容が既定の信頼度以下の信頼度で判断されたことを指示することにより、不確定情報を伝えるためにも役立っている。例証された例において、コード化データは人間が読むことの出来るASCII として記録されるが、他のコードも使用できる。
【００１７】
SGMLに慣れている人なら、以下に述べるエレメントの包括的な内容を理解できるであろう。従って、図１８〜図２２に関しては、包括的なエレメントについての短い論議だけで充分であろう。次に、図２〜図１７に関して、各エレメントのタイプを特に記述する。図１８〜図２２は、本発明に従いドキュメントを記述するために使用することができる複雑なエレメントのシンタックスを示している。このエレメント・リストは各ＤＲストリームの始まりに位置し、SGMLで書かれたストリームを分析し、それ以降に含まれるＤＲストリームを分析するようプログラムされた従来の分析器により使用される。つまり、エレメントのシンタックスリストの後で、特別のドキュメントを記述するエレメントの連続ストリームが提供される。ここで用いられるように、「エレメントの連続ストリーム」(continuous stream of elements) という用語は、同属するものとして識別されるエレメントのグループに関連している。このように、空白スペースが認められる（また実際、読みやすさのために奨励される）SGMLのようなマークアップ言語においては、別のラインへの侵入であるタブは分析機が無視する空白スペースを構成する。この意味で、空白スペースはエレメントの連続ストリームの一部である。その他のシステムはキャラクタストリームの規模に制限を設けることもある。これらのシステムにおいて、長いＤＲストリームは同属するものとして識別されるであろう数個のファイルに分けられる。数個のファイルが同属するものとして識別される該ＤＲストリームも、やはり「エレメントの連続ストリーム」という用語でカバーされるよう意図されている。（図１８〜図２２におけるいくつかのエレメントも、やはりＤＲストリームの始まりの所で記録される属性（下記に記述される）を含んでいる。）もちろん、図１８〜図２２に記録された全てのエレメントがドキュメント認識プロセスの結果を記録する必要があるわけではない。しかしながら、より多くのエレメントが提供された場合、より多くの情報を記録することができる。SGMLの図２に関連して、「！エレメントs 」という用語は「エレメントをそのタイプが's' であると定義する」ことを意味し；「- Ｏ」という用語は「タイプ識別名が＜＞に囲まれて現れる時にエレメントが始まり、＜/ ＞（エレメント終了マーカー）でエレメントが終わる、あるいは別のエレメントが入れ子構造の中の同等か高水準で始まる時」を意味し；「（#PCDATA ）」は「このエレメントの内容はキャラクタストリングである」ことを意味している。このように、図２は以下のように記録されるキャラクタストリング（例えば「horse 」）を含むエレメントを定義している：
＜s＞horse ＜/s＞；または
＜S＞horse ＜/ ＞；または
＜S＞horse
エレメントのその他の可能性のある内容は、その他のエレメント（例えば、その内容として２つかそれ以上のｖｗエレメントを含む図５のａｗエレメント参照）、もしくは属性（EMPTY 及び属性リストで表される - 図８参照）である。「＋」という用語は直前の項目が繰り返されることを示している。これらの定義は、各エレメントが下記でより詳細に定義されるので、より明確になるであろう。
【００１８】
図１は本発明を用いて変換・記録できるビットマップ・イメージのタイプ、及び記録形式を例証するため使用されるサンプルページ・イメージである。サンプル・イメージは様々な興味深い特徴、例えば、不十分な形とか不十分な品質のために認識されにくいキャラクタ；２つのライン・セグメントの形態での構造化グラフィックス；明確化されていない素描の形態でのビットマップ・グラフィックス；脚注及び誘導キャラクタの形態での論理的構造等を含んでいる。
【００１９】
図２は、キャラクタ・ストリング・エレメントを示しており、キャラクタ認識装置が以下の条件を満足するキャラクタをその中に集める：
全てのキャラクタが高い信頼度（少なくとも既定の信頼度）で認識されたこと；
全てのキャラクタが同じフォント、基線の位置、下線状態を持っていること；および
各キャラクタの間に重大な空所がないこと（例えば、水平的に整列しているが、空白のスペースの特定量により分離されたテキストの２つのカラムに属しているキャラクタが同じエレメントに入れられないこと）。例証されたタイプ識別名は「s」である。キャラクタ・ストリング・エレメントは識別番号を持っていないが、代わりにより大きなエレメントに配置することができる。
【００２０】
図１のイメージに関連して、キャラクタ認識装置により少なくとも既定の信頼度で認識される一連のキャラクタを持った該イメージ部分は、SGMLにおいて実行される本発明を用いて以下のように記録される。
＜s ＞Etymologies appear in square brackets []following ＜/ ＞
＜s ＞the "definitions". In accordance with the＜/ ＞
【００２１】
図３は、キャラクタ認識装置が正しく認識される確率が低いキャラクタを配置する、疑わしい・キャラクタ・エレメント(qc)を示している。現存するキャラクタ認識装置が各キャラクタのための信頼度を目下決定している。キャラクタが少なくとも既定の信頼度で認識されない場合、これらのキャラクタ認識装置はキャラクタに何とかして印を付ける。しかしながら、不確かなキャラクタに使用者の注意を向けるのは別問題である。いくつかのベンダーは、認識し、使用者の指図を求めることが織り込まれている対話式パッケージを持っている；これらのシステムがそれだけで不確かなキャラクタに印を付けるかどうかは解っていない。なぜなら、それは内部的な問題であり、不確定性が使用者の干渉により直ちに取り除かれるからである。他のベンダーは単に不確かなキャラクタに、例えば１組のクェスチョンマークで印を付けることを考えたが、その線より下の次のプロセスがこれらのクェスチョンマークを本物のものと区別できないという問題が生じてきた。しかしながら、疑わしいキャラクタは他の機械によって使用できる方法では記録されない。（つまり、クェスチョンマークやハイライトは他の意味を持つかもしれない。）このように、該データがより高水準の装置、例えばスペリング・チェッカーなどの装置に送られた場合、スペリング・チェッカーはキャラクタが高い確定度で認識されなかった情報を利用することができないであろう。
【００２２】
本発明においては、より高水準の装置は、疑わしい・キャラクタ・エレメントの中にあるあらゆるキャラクタがその特徴を含んでいるので、キャラクタが高い確実性で認識されなかったという情報を受け取る。このように、アンビギティーを記録するドキュメント記述言語の表示法を用いて、他の認識装置も不確定情報を利用することができる。おそらく、各ｑｃエレメントが１つの疑わしいキャラクタを保持するのであろう。キャラクタ認識装置がビットマップ・イメージの特定部分のために既定の信頼度以下で１つ以上の可能性のあるキャラクタを識別すれば、ｑｃエレメントもまた代替キャラクタのリストを包含することができる。加えて、１つまたは複数の疑わしいキャラクタのための確定度が、各ｑｃエレメントに提供される。疑わしい・キャラクタ・エレメントが続いてスペリング・チェッカーによって除去されることが理想的である。
【００２３】
例えば、サイモン・カハン等による上記書籍に記述されたシステムは代替キャラクタ（またはワード）を作るために使用でき、各キャラクタ（またはワード）がそのキャラクタ（またはワード）に関連する信頼度を示す測定方法を持っている。しかしながら、カハン等により開示されたシステムと異なり、キャラクタ及び／またはワードに関係するこの情報は、本発明によるドキュメント記述言語を用いて、適当で独特なエレメントに記録される。これは他のより高水準のドキュメント認識プロセス（カハン等のシステムとは別のもので、別の時に使用される）が該情報に統一された方法で近付くことを可能にする。本発明は現存する認識装置がもっと効率的な方法で作用することを可能にする。例えば、確かなキャラクタ（またはワード）と不確かなキャラクタ（またはワード）とを区別することにより、より複雑で時間のかかる認識手順は、不確かなキャラクタ（またはワード）のみに制限できる。
【００２４】
図４はワード認識装置（例えばスペリング・チェッカー）が高い信頼度で認識されたが、ワード認識装置の辞書には見いだせないキャラクタを含むワードを配置する、疑わしい・ワード・エレメント（ｑｗ）を示している。１つのｑｗエレメントにつき、１つの疑わしいワードがある。これらの疑わしいワードは異なる辞書を持つ他のワード認識装置または、以下に述べるような他の手段（意味論解析器）により解決される。
【００２５】
図１に関連して、"Jumblatt"というワードの中の全てのキャラクタが確かに認識されたが、ワード認識装置のスペル・チェッカーはその辞書の中に"Jumblatt"というワードをみいだせなかったと仮定してみよう。そうすると、それは次のようなｑｗエレメントに記録される：
＜qw＞Jumblatt＜/ ＞
【００２６】
図５は疑わしい・キャラクタ・エレメントを除去する試みにおいて見つけられたワードをワード認識装置が配置する確認済み・ワード・エレメント（ｖｗ）と代替・ワード・エレメント（ａｗ）とを示している。ワード認識装置は、疑わしい・キャラクタ・エレメントに関連するワードに基づき、疑わしいキャラクタが発生するたびに辞書の中でワードを探す。もしワードがその辞書の中に見つかると、ワード認識装置はそのワードをｖｗエレメントに配置する。ワード認識装置が疑わしいキャラクタを除去しようとする時、ワード認識装置はその辞書の中に確認された数個のワードを見つけるかもしれない。ワード認識装置が確認済みワードの中で判断できない場合は、ワード認識装置はそれらのワードの各々をｖｗエレメントに配置し、意味論解析器のような後にくるプロセスのために、１組のｖｗエレメントをａｗエレメントに配置する。
【００２７】
次に、意味論解析器は確認済みワードのどれが正しいかを、代替ワードの発生を囲むワードを解析することにより判断しようと試みる。
【００２８】
ワード認識装置は辞書と比較すべきワードを選ぶために、従来からの様々なプロセスを用いる。例えば、アルファベットの全てのキャラクタは、疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントと置き換えることができ、これらの結果は辞書でサーチされる。代替疑わしいキャラクタが疑わしい・キャラクタ・エレメントに提供された場合、置き換えを代替疑わしいキャラクタのみに制限することができる。確認済みワードが見つからない場合、疑わしい・キャラクタ・エレメントはそのまま残り、その中に含まれる不確定情報を随意にワード認識装置により新しくすることができる。
【００２９】
例えば、下記に示す図１から２つのストリングと疑わしいキャラクタがキャラクタ認識装置により発見されたとしよう：
＜s ＞the origins of numerous English w ＜/s＞
＜qc＞a ＜/q＞
＜s ＞rds are still obscure ＜/s＞
ワード認識装置は、疑わしい"a" を減らそうとして、候補として"wards" と"words" を見つけ、上記表示を以下のように置き換える：
＜s ＞The origins of numerous English＜/s＞
＜aw＞＜vw＞wards ＜/vw ＞＜vw＞words ＜/vw ＞＜/aw ＞
＜s ＞are still obscure ＜/s＞
【００３０】
エレメントのストリームを、どのワードが正しいかを判断しようと試みる意味論解析器に送ることができる。意味論解析器がどのワードが正しいかを判断することができれば、意味論解析器はそのキャラクタを回りのｓ・エレメントに併合させる。例えば、以下のデータが意味論解析器に提供されたと仮定すると：
＜s ＞, the origins of numerous English ＜/s＞
＜aw＞
＜vw＞wards ＜/ ＞
＜vw＞words ＜/ ＞
＜s ＞are still obscure.＜/ ＞
そして、意味論解析器はその前後関係から、"wards" ではなく"words" の方が正しい選択であると判断する。意味論解析器は上記表示を以下に示すものの中のどれによってでも置き換えることができる（どれを選ぶかはさして重要ではないが、最初の選択は最も論理的なものであり、２番目の選択は最も好都合なものを選ぶ）：
＜s ＞, the origins of numerous English words are still obscure.＜/ ＞
＜s ＞, the origins of numerous English ＜s ＞words＜s ＞are still obscure.＜/ ＞
＜s ＞, the origins of numerous English words ＜s ＞are still obscure.＜/ ＞
＜s ＞, the origins of numerous English ＜s ＞words are still obscure.＜/ ＞
中間の＜/ ＞s は任意のものなので、省略されることに注意する必要がある。
【００３１】
図６は同じフォントのキャラクタデータ（ｓ、ａｗ、ｑｃ及びｑｗエレメント）を集めるために使用されるテキスト・エレメントを示している。テキスト・エレメントはｉｄ属性を持っており、より高いエレメントにより照合されることを可能にし、フォント識別名（下記にて定義される）と任意的な照合をすることができる。フォント照合ができない場合は、最も新しく供給されたものが使用される。テキスト・エレメントは異なるフォントを識別することができるキャラクタ認識装置により作られる。テキスト・エレメントに記録されたデータの例として以下のようなものがある：
＜text id=123 font=2＞list of s, aw, qc and qw elements ＜/ ＞
【００３２】
図７はフォントデフ・エレメントを示している。キャラクタ認識プロセスにより解析された書体はできる限り多くの情報と共にフォントデフ・エレメントに記録される。フォントデフ・エレメントの内容は、キャラクタ認識装置が確実に引き出すことができる場合、フォントの族名である。そのフォントの族名を引き出すことができそうもない場合、その内容は空のまま残され；後にくるプロセスかまたは使用者との対話により後で書き込むことができる。
【００３３】
ｉｄ・属性はテキスト・エレメントをフォント記述と照合することを可能にする。size・属性は局部で測られる。base・属性は、基準線が上に書いたり下に書いたりすることによって相殺されているかどうかを指示する。下線がある場合、under ・属性がフォントの基準線の下の下線の位置を指示する。フォントの族名がFrutigerであるフォントデフ・エレメントに記録されたデータの例は以下のようになる：
＜fontDef id = 2 size = 10 under = 1＞Frutiger＜/ ＞
属性は括弧＜＞の最初のセットに記録される。
【００３４】
図８はグラフィックス・エレメントの１つのタイプであるセグメント・エレメントを示している。セグメント・エレメントはグラフィックス認識装置により使用され、ビットマップ・イメージから認識するライン・セグメントを書き留める。ｉｄ・属性がより高いエレメントをセグメント・エレメントに照合することを可能にする。終了点（ｘ１、ｙ１及びｘ２，ｙ２）の座標は、そのページの左上の角に関連して、セグメントを数学的に定義する。正確な終了点座標についての不確定性は、ｄｘ１、ｄｙ１及びｄｘ２、ｄｙ２・属性に記録される。このようにして、ｄｘ１、ｄｙ１、ｄｘ２、及びｄｙ２はライン・セグメント・グラフィックス構造を記述するために用いられるパラメーター（ｘ１、ｙ１、ｘ２、ｙ２）の可能性のあるオフセットを記録する。ライン・セグメントの厚さ及び不確定性は、thick及びdThick・属性により書き留められる。ライン・セグメント・エレメントに記録されるデータの例として下記のようなものが挙げられる：
＜segment id=14x1=2100dx1=5y1=1440x2=2100dx2=5y2=2160thick=17 ＞＜/ ＞
フォントデフ・エレメントの場合と同じように、属性は括弧の最初のセットの中に用意される。セグメント・エレメントは如何なるキャラクタストリングも含まない（その内容は空(EMPTY) である）ので、括弧の最初のセットの次はエレメント終了マーカーの＜/ ＞であるか、または新しいエレメントはエレメント終了マーカーを必要としない。
【００３５】
図９はグラフィックス・エレメントのもう１つのタイプである弓形・エレメント（arc-element ）を示している。弓形・エレメント(arc-elements)はグラフィックス認識装置によってビットマップ・イメージから認識される、円、円形の弓形、楕円及び楕円形の弓形を書き留めるために使用される。ｉｄ・属性はより高水準のエレメントに弓形の参照符をつけることを可能にする。その他の属性には次のようなものが挙げられる：
ｘ、ｙ、ｄｘ、ｄｙ：座標、及びページの左上の角から測定された円、楕円の弓形の中心での不確定性；
ｒ、ｄｒ：円の弓形の半径または楕円の弓形の長軸の長さ及び不確定性；
rShort、drshort ：楕円の弓形の短い半径の長さ及びその不正確性；
theta1、dTheta1 ：垂直軸と、中心及び弓形の終了点の１つを通る線の間の角度。この属性は弓形のためだけに存在する。角度はミリラジアンで測定できる；
theta2、dTheta2 ：他の終了点のためのtheta1、dTheta1 と同じ；
theta0、dTheta0 ：垂直軸と、楕円の長軸との間の角度。この属性は楕円及び楕円形の弓形のためだけに存在する；
thick 、dThick：弓形、円もしくは楕円の厚さと不確定性。
【００３６】
弓形・エレメントに記録されるデータの例として以下のようなものが挙げられる：
＜arc id=5462x=2300dx=8y=1440dy=8r=2100dr=15＞＜/ ＞
【００３７】
図１０はグラフィックス・エレメントの３番目のタイプであるイメージ・エレメントを示している。イメージ・エレメントはテキストまたは構造的グラフィックスとして解決されなかったページの方形部分を表示するために使用され、従って、別のファイルにあるビットマップ・フォームに残される。イメージ・エレメントはファイル名を含む。
【００３８】
イメージ・エレメント属性はページ（ｘ、ｄｘ、ｙ、ｄｙ）の左上の角に関連した位置及び不確定性、及びイメージの寸法（ｗ、ｄｗ、ｈ、ｄｈ）を符号化する。resol・属性は測定単位（測定単位は後に定義するｄｓストリーム・エレメントにより供給される）ごとのビットで表される。
【００３９】
ドキュメント認識操作に着手する時には、ＤＲストリームは通常ペーパードキュメントの計数化されたページ毎に１つのイメージ・エレメントだけを含んでいる。キャラクタストリング、ライン・セグメント、及び弓形が引き出される（従来の技術を用いて）につれて、徐々にビットマップがより小さく、おそらくより多数のものと置き換えられる。操作の終了時に、残されたビットマップだけが本物のハーフトーンイメージであり、キャラクタ認識装置及びグラフィックス認識装置が判読できなかったドキュメントの部分である。
【００４０】
"Squiggle"と名付けられたファイルに保存されたビットマップ・イメージは、次のように記録される：
＜image id=567x=1840y=1680w=260h=480＞Squiggle＜/ ＞
【００４１】
図１１は４番目のグラフィックス・エレメントであるスポット・エレメントを示している。スポット・エレメントは小さなイメージを含み、認識されないような小さなしみや記号、知られていないシンボル等のビットマップ・フォーマットに残された非常に小さな方形部分を表示する。ビットマップは非常に小さいので、別のファイルに保持されるよりは、１６進法形式でスポット・エレメントの内容として便利に符号化することができる。
【００４２】
ｘ、ｄｘ、ｙ及びｄｙ・属性はページの左上の角に関してスポットの位置を供給する。ｂｘ・属性は水平方向のビットの数を与える。それは強制的に８の倍数になるようになっている。ｂｙ・属性は１ビットの高さの列の数を与える。スポット・エレメントをイメージする必要がある時は、１６進法の値は１度に１列につき８＊ｂｘビット（２＊ｂｘ１６進法キャラクタ）で消費される。１６進法の値は適当な場合には後続０ビットを含んでいる。
【００４３】
図１のサンプルページの小球●が認識されなかったと仮定しよう。それは次のような小さなイメージとして表示されるだろう。
＜spot id=11x=590y=850bx=25by=25＞03FFB000... ＜/ ＞
【００４４】
図１２は他のエレメントに対する参照を示している。テキスト、セグメント、弓形、イメージ及びスポット・エレメントは各々の識別名と参照することにより、高水準のエレメント（下記で論じるテキスト・ブロック、フレーム及びページ等）に分類することができる。単一のエレメントに対する参照は、アイテム・エレメントによって行われ、その単一属性は参照済みエレメントの識別名の値を持つ。
【００４５】
一貫した連続エレメントに対する参照はレンジ・エレメントにより行われる："from"と"to"属性が最初と最後の参照済みエレメントの識別名を引用する。「最初」と「最後」はエレメントがＤＲストリームの中に見いだされる年代順に関連する。レンジ・エレメントはアイテム・エレメントの間断のない連続のための速記表示である。
【００４６】
グルーピングについてのアンビギティーはaltern・エレメントにより表示される。代替グルーピングは適正なエレメント・グルーピングの数を符号化するためのプロセスにより使用される。例えば、テキストのページが４つ、つまり左側に２つと右側に２つのテキスト・ブロックを持ったものとして認識されたとする：論理的構造のプロセッサー（もしくは論理的復元器）はテキストが２つのカラムまたは２つの列として読んだのかどうか判断できずに、それらを左上、左下、右上、右下の順に；あるいは左上、右上、左下、右下の順に分類する；構文法解析器のような下流のプロセスがアンビギティーを解消できるかもしれない。
【００４７】
図１３はtBlock・エレメントを示している。tBlock・エレメントはテキスト・ラインまたは等間隔を空けたテキスト・ラインのまわりの見えない境界を形成する方形部分を符号化する。ページの左上の角に関連するtBlockの位置、及びその不正確性はｘ、ｙ、ｄｘ、ｄｙ・属性により与えられる。寸法と不確定性はｗ、ｈ、ｄｗ、ｄｈにより記録される。interl・属性はブロック内の等間隔のライン間の間隔を測定する；その値はテキスト・ブロックが１つのラインだけを含んでいる時は０である。ｘ１、ｄｘ１、ｙ１、ｄｙ１・属性はブロックの左上の角に関連するテキスト・ブロックの最初のキャラクタの位置を与える。
【００４８】
図１４はフレーム・エレメントを示している。フレーム・エレメントはページ部分より小さいか、または等しい方形部分を符号化する。該エレメントは他のフレームと共に、テキスト・ブロック、イメージ、スポット、弓形、及びセグメントを集めるために使用される。フレームはページの上に重なってもよい。
【００４９】
図１５はページ・エレメントを示している。ページ・エレメントはドキュメントの計数化されたページに関する情報の全てを集める。もしＤＲストリームの中にページ・エレメントがなければ、全てのＤＲストリームのデータは単一ページに属していると仮定される。
【００５０】
図１６はグループ・エレメントを示している。グループ・エレメントはページの境界線を横切るエレメントの収集を可能にする。該エレメントはページを横切るテキストの流れを指示するため、論理的構造の改造器及び意味論解析器により使用される。
【００５１】
図１７はdrStream・エレメントを示している。ドキュメント・タイプの定義の一番上にあるのがdrStream・エレメントである。その単位・属性はdrStreamを通じて使用される測定単位の名前を示す。フラクション・属性は座標、寸法及びそれらの不正確性が実際に表す測定単位の断片を指示している。例えば、測定がミクロンで行われれば、drStream・エレメント・属性は以下のようになる：
＜drStream unit=meter fraction=1000000＞
【００５２】
図１８〜図２２は開示されたページ記述言語で用いられる全てのエレメントを示している。
【００５３】
図２３は本発明において使用できるドキュメント認識システムを示している。図２４と図２５は本発明に従って図２３のシステムを操作するための手順を示すフローチャートである。ビットマップ・イメージ（S100）を入力するために、イメージスキャナー１００を用いてペーパードキュメントが走査され、ビットマップ・ドキュメント・イメージ１１０が作られる。走査プロセスは、本質的に認識プロセスが実行されると同時に実行できるか、または、ビットマップ・ドキュメント・イメージ１１０がハードまたはフロッピー・ディスクのような数タイプの電子記憶媒体に供給できると同時に実行できることが理解できる。ビットマップ・ドキュメント・イメージ１１０はビットマップ・イメージをもっと小さなサブイメージ、例えば、テキストだけを包含するテクスチュアル・サブイメージとか、グラフィックスだけを包含するグラフィックス・サブイメージ等に分裂させる従来のセグメンター１５０（S110）に供給される。セグメンター１５０は、各サブイメージがテキストのみまたはグラフィックスのみを包含していると認識されるまで、ビットマップ・イメージをもっと小さなサブイメージに反復して分裂させる。テクスチュアル・サブイメージがキャラクタ認識装置３００に供給されている間に、グラフィックス・サブイメージは次に構造イメージ認識装置２００（またはグラフィックス認識装置）に送られる。もちろん、ビットマップ・ドキュメント・イメージがテキストもしくはグラフィックスだけを包含していることが事前に解っていれば、該イメージは直接構造イメージ認識装置２００またはキャラクタ認識装置３００に送られる。
【００５４】
構造イメージ認識装置２００は、次にビットマップ・グラフィックス・イメージ（又はサブイメージ）を、ドキュメント記述言語を使用する上記グラフィックス・エレメントのような、グラフィックス・エレメントに記録できるコード化グラフィックス・データ（S160）に変換する。つまり、認識されないビットマップ・イメージは未解決・グラフィックス・イメージ・タイプ・エレメント（S170）に配置される：大きい場合はイメージ・エレメント、小さい場合はスポット・エレメント及び１６進法の値として表される。グラフィックス・イメージまたはサブイメージが認識され、コード化グラフィックス・データに変換される場合、該イメージは１つかそれ以上のセグメント・エレメント及び／または弓形・エレメント（S180）に配置される。不正確性に関する追加的情報（例えば、グラフィックス構造を随意に記述するパラメーター（コード化データ）の可能性のあるオフセット）はこれらのエレメント（S185）に記録できる。
【００５５】
このように、グラフィックス・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、グラフィックス構造イメージ認識装置２００は、グラフィックス・ビットマップ・イメージをグラフィックス構造を明確にするコード化データを含む１つかそれ以上のグラフィックス・エレメントに変換するため、ビットマップ・グラフィックス・イメージに最初の変換操作を行うための第一の変換手段として；また、第一の変換手段により変換される１つかそれ以上のグラフィックス・エレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各グラフィックス・エレメントは該エレメントに含まれる認識されたビットマップ・イメージに関するコード化データのタイプを指示するエレメント・タイプ識別名を包含している。第一の変換手段が、グラフィックス・エレメントに含まれるコード化データが既定の信頼度で変換されていないと判断した場合、識別手段もまたグラフィックス・エレメント内に、各グラフィックス・エレメントに含まれるコード化データに関して第一の変換手段により判断される不確定情報（オフセット）を包含している。
【００５６】
キャラクタ認識装置３００はビットマップ・テクスチュアル・イメージ（またはサブイメージ）をコード化キャラクタデータ（S120）に変換し、該データはそれから上記されたようにS140かS150（キャラクタ・ストリングまたは疑わしい・キャラクタ）の中の適当なエレメントに記憶される。コード化キャラクタデータをキャラクタ・ストリング・エレメントか疑わしい・キャラクタ・エレメントに配置するかどうかを判断するために、認識されたキャラクタが少なくとも既定の信頼度で認識されたかどうかに関する判断がS130で行われる。疑わしい・キャラクタ・エレメントへのキャラクタの挿入は該キャラクタに関する不確定情報を伝えるために役立つが、代替の可能性のある不確かなキャラクタ、あるいは不確かなキャラクタのための確定度などの追加的情報も、疑わしい・キャラクタ・エレメント（S155）に含むことができる。このように、キャラクタ認識装置３００はキャラクタ・ストリング・エレメントや疑わしい・キャラクタ・エレメントのストリームを作りだし、そのストリームは次にワード認識装置４００に送られる。
【００５７】
ワード認識装置４００はその中にワードの辞書または語彙を持っている。本発明に従って操作されるワード認識装置４００は、それから各疑わしい・キャラクタ・エレメントのための図２５に示された手順を実行する。まず、S200において、複数のキャラクタが疑わしい・キャラクタ・エレメントを含むワードの中の疑わしい・キャラクタ・エレメントに続いて置き換えられる。S210において、置き換えステップ（S200）により形成されたワードのいずれかがワード認識装置４００の辞書の中に見いだされるかどうかについての判断が為される。該かるワードは「確認済みワード」と称される。確認済みワードが見いだせない場合、疑わしい・キャラクタ・エレメントはS240に戻され、随意にS245において、疑わしい・キャラクタ・エレメントに含まれる不確定情報がワード認識装置４００により為された判断に基づいて新しくされる。もしS210における判断が肯定的であれば、各確認済みワードを確認済み・ワード・エレメント (S220) に配置する。次に、S230において、１つ以上の確認済み・ワード・エレメントが１つの疑わしい・キャラクタ・エレメントから作られた場合、複数の確認済み・ワード・エレメントが代替・ワード・エレメントに配置される。
【００５８】
代替・ワード・エレメントの中の確認済みワードのどれが正しいかをまわりのワードに基づいて判断しようとする意味論解析器５００によって、各代替・ワード・エレメントをキャラクタ・ストリング・エレメントに変換することができる。意味論解析器が代替・ワード・エレメントの中の確認済みワードのどれが正しいかを判断できない場合、そのワードは代替・ワード・エレメントに戻り、そこで各確認済み・ワード・エレメントの中の各確認済みワードのための不確定情報を随意に提供する。
【００５９】
このように、テクスチュアル・ビットマップ・イメージを本発明を用いて編集可能なコード化データに変換する際、キャラクタ認識装置３００は、テクスチュアル・ビットマップ・イメージをコード化キャラクタデータを含む１つかそれ以上のエレメントに変換するため、テクスチュアル・ビットマップ・イメージに最初の変換操作を行うための第一の変換手段として；また、第一の変換手段により変換される１つかそれ以上のエレメントを識別するためのドキュメント記述言語を用いた第一の識別手段として作用し、各エレメントは該エレメントに含まれる認識されたビットマップ・テクスチュアル・イメージに関するコード化キャラクタデータのタイプを指示するエレメント・タイプ識別名を包含している。特定のキャラクタがキャラクタ・ストリング・エレメントとして識別されるエレメントに記録される一方で、既定の信頼度で認識されないキャラクタを含むエレメントは、第一の識別手段により疑わしい・キャラクタ・エレメントとして識別されたエレメントに記録される。
【００６０】
ワード認識装置４００は、代替キャラクタを疑わしい・キャラクタ・エレメントに置き換え、置き換えから生じたワードが辞書の中に存在するかどうかを確認することによって、各疑わしい・キャラクタ・エレメントと、疑わしい・キャラクタ・エレメントと同じワードの中の隣接する確信を持って認識されたキャラクタを、１つかそれ以上の確認済みワードに変換するための第二の変換手段として；また、確認済み・ワード・エレメントの中に各確認済みワードを配置するためにドキュメント記述言語を用いる第二の識別手段として作用する。１つ以上の確認済み・ワード・エレメントが疑わしい・キャラクタ・エレメントのために作られた場合、第二の識別手段もまた１つ以上の確認済み・ワード・エレメントを代替・ワード・エレメントの中に配置する。第二の識別手段は、未確認ワードが存在すると判断された場合、疑わしい・ワード・エレメントを保持する。
【００６１】
次に、代替・ワード・エレメントが、代替・ワード・エレメント内のどの確認済みワードが正しい確認済みワードであるかを、代替・ワード・エレメントを囲むワードに基づいて判断する手段として；また、正しい確認済みワードを識別し、代替・ワード・エレメントを正しい確認済みワードを含むキャラクタ・ストリング・エレメントで置き換えるための第三の識別手段として作用する意味論解析器５００に送られる。
【図面の簡単な説明】
【図１】本発明を図示するために使用されるサンプルページイメージである。
【図２】既定の信頼度で、またそれ以上で、認識されたキャラクタの連続を集めるためのキャラクタストリング・エレメントを示す。
【図３】低い信頼度で認識された疑わしいキャラクタを集めるための疑わしいキャラクタエレメントを示す。
【図４】高い信頼度で認識されたが辞書の中に見いだせなかったキャラクタを含む、疑わしいワードを集めるための疑わしいワードエレメントを示す。
【図５】１つかそれ以上の疑わしいキャラクタを含むワードを解決することにより、辞書の中に見いだされる確認済みワードを集めるための確認済みワードエレメント、及び２つかそれ以上の確認済みワードが疑わしいキャラクタを含む１つのワードのために見つけられた時に、代替ワードを集めるための代替ワードエレメントを示す。
【図６】同じフォントを持つテキスト・エレメントを集めるためのテキスト・エレメントを示す。
【図７】フォントタイプに関するデータを集めるためのフォントデフ・エレメントを示す。
【図８】ライン・セグメントに関するデータを集めるためのセグメント・エレメントであるグラフィックス・エレメントの一例を示す。
【図９】弓形に関するデータを集めるための弓形エレメントであるグラフィックス・エレメントの別例を示す。
【図１０】大きな未解決のビットマップ・イメージに関するデータを集めるためのイメージ・エレメントであるグラフィックス・エレメントの別例を示す。
【図１１】スポットと称される小さな未解決のビットマップ・イメージに関する情報を集めるため、及び該情報を１６進法の値として記憶するためのスポット・エレメントであるグラフィックス・エレメントの別例を示す。
【図１２】その他のエレメントに関するエレメントの実例を示す。
【図１３】テキストのブロックに関する情報を集めるためのｔブロック・エレメントを示す。
【図１４】その他のフレームと共に、テキストブロック、イメージ、スポット、弓形、セグメントを含むことができるフレームに関する情報を集めるためのフレーム・エレメントを示す。
【図１５】ページに関するデータを集めるためのページ・エレメントを示す。
【図１６】ページの境界線を越えるエレメントのグループに関する情報を集めるためのグループ・エレメントを示す。
【図１７】全ドキュメントに関するデータを集めるためのｄｒストリーム・エレメントを示す。
【図１８】ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図１９】ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図２０】ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図２１】ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図２２】ドキュメントを記述するために必要な全ての構文(syntax)を集めたものである。
【図２３】本発明を用いてビットマップ・イメージをコード化データストリームに入力・変換するためのシステムのブロック図である。
【図２４】本発明を用いた時の図２３のシステムにより実施される手順を示すフローチャートである。
【図２５】本発明を用いた時の図２３のワード認識装置により実施される手順を示すフローチャートである。

Claims

文字、ワード、ドキュメントの何れか一のレベルでドキュメントの解読又は解釈を行う装置であって、
標準化されたシンタックスに従って示されるコード化文字データを分析する分析器を備え、
前記分析器は、
前記標準化されたシンタックスに基づいて、前記コード化文字データに含まれる情報をエレメントとして示すために使用される定義を含むシンタックス・リストと、コード化文字データにより示されるドキュメントと、を読み込み、
前記シンタックス・リストに基づいて、不確定な情報を示すエレメントが前記コード化文字データに含まれているか否か判断し、
前記エレメントにより示される不確定な情報が、前記装置の解読又は解釈機能により確信された情報として認識された場合には、前記エレメントにより示される不確定な情報を該確信された情報に置換し、
前記装置の解読又は解釈機能により、前記コード化文字データに不確定な情報が含まれていると判断された場合には、前記シンタックス・リストに基づいて、該不確定な情報を不確定な情報を示すエレメントに置換して該コード化文字データに埋め込み、
前記コード化文字データにより示されるドキュメントを出力する、
装置。
前記分析器は、
前記エレメントにより示される不確定な情報を、前記装置の解読又は解釈機能が確信して認識することはできないが、該装置の解読又は解釈機能が該不確定な情報に対応する情報のリストを提示することができる場合には、該不確定な情報を示すエレメントを、前記シンタックス・リストに基づいて、該情報のリストを示すエレメントに置換し、
前記シンタックス・リストに基づいて、情報のリストを示すエレメントが前記コード化文字データに含まれているか否か判断し、
前記エレメントにより示される情報のリストから、前記装置の解読又は解釈機能が確信して情報を選択できる場合には、前記情報のリストを示すエレメントを選択された該情報に置換する、
請求項１に記載の装置。
前記装置は、ドキュメントに含まれる文字を文字レベルで調査分析する文字認識装置、スペルチェックにより文字を含むワードをワード・レベルで調査分析するワード認識装置、ワードの前後関係からワードをワード・レベルで調査分析する意味論解析器、ワードを含むドキュメントのテキスト・フローをドキュメント・レベルで調査分析する論理的構造再構築器の何れかである、請求項１又は２に記載の装置。
前記不確定な情報、情報のリストを示すエレメントは、前記標準化されたシンタックスに基づいて所定のマーカーで開始と終了とを示され、前記シンタックス・リストに基づいて該エレメントのタイプを示す特有の識別名を備える、
請求項１〜３の何れか一項に記載の装置。
前記エレメントのタイプは、該エレメントに示される情報が、不確定な情報、情報のリストの何れであるか、文字レベル、ワード・レベル、ドキュメント・レベルの何れであるかを示す、請求項４に記載の装置。
前記標準化されたシンタックスは、ＩＳＯ８８７９標準化法則マークアップ言語である、請求項１〜５の何れか一項に記載の装置。