JPH05307638A - ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 - Google Patents

ビットマップ・イメージ・ドキュメントのコード化データへの変換方法

Info

Publication number
JPH05307638A
JPH05307638A JP4356158A JP35615892A JPH05307638A JP H05307638 A JPH05307638 A JP H05307638A JP 4356158 A JP4356158 A JP 4356158A JP 35615892 A JP35615892 A JP 35615892A JP H05307638 A JPH05307638 A JP H05307638A
Authority
JP
Japan
Prior art keywords
elements
word
character
document
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4356158A
Other languages
English (en)
Other versions
JP3640972B2 (ja
Inventor
La Beaujardiere Jean-Marie De
アール. ドゥ ラ ボージャルディエール ジーン−マリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH05307638A publication Critical patent/JPH05307638A/ja
Application granted granted Critical
Publication of JP3640972B2 publication Critical patent/JP3640972B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

(57)【要約】 【目的】 ビットマップ・イメージとして表されるドキ
ュメントにおけるテクスチュアル及びグラフィックス構
造を認識し、アンビギティーを含むドキュメント認識プ
ロセスの結果を記録する。 【構成】 編集可能なコード化データとして表されるド
キュメントの認識された部分、例えばASCII のようなも
のは、いくつかの共通の特徴を持つエレメントの全ての
内容と共に、ドキュメント記述言語で明確化されるエレ
メントに配置される。例えば、エレメントには次のよう
なものが挙げられる:キャラクタ・ストリング・エレメ
ント、疑わしい・キャラクタ・エレメント、疑わしい・
ワード・エレメント、確認済み・ワード・エレメント、
代替・ワード・エレメント、セグメント・エレメント、
及び弓形・エレメント。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はドキュメント認識に関
し、より詳細には初めはビットマップ・イメージとして
表されているドキュメントにおけるテクスチュアル及び
グラフィックス構造を認識し、認識プロセスの結果を記
録するための方法及び装置に関する。
【0002】
【従来の技術】ドキュメント認識とは、ペーパードキュ
メントを編集可能な電子ドキュメントに自動的に変換す
ることである。それは様々なプロセスの連続的かつ循環
的な介入を通じて、組織化された構成要素へのビットマ
ップの逐次変換を伴う。このプロセスには、ページ・セ
グメント化、キャラクタ(字)認識、グラフィックス認
識、論理構造の再構築、スペリング訂正、意味論解析等
が含まれる。これらのプロセスの全ては誤って解読又は
解釈(misinterpretation)しやすい傾向がある。全ての
プロセスが自認した誤った解読又は解釈の記録を取って
いるわけではないし、記録しているプロセスでもそれを
行う基準を決めているわけではない。その結果、後にく
るプロセスは、先に済んだプロセスから手渡されたアン
ビギティー(ambignity、あいまいさ) の記録を処理する
準備が通常為されておらず、単にそれらを切り捨ててし
まう。貴重な情報が、ドキュメント認識機能の自動的改
善に向けて開発される代わりに失われていく。一方、ア
ンビギティー記録が未加工のまま使用者に手渡される
と、全ドキュメントの手作業の再構築を通して、手作業
の修正をするという雑用が自動認識の利点を殺してしま
う。
【0003】コンピューター言語学の第16巻No.1(1
990年3月)の中のケネス・W・チャーチ及びパトリ
ック・ハンクスによる「ワード(語)連想基準、相互情
報、及び辞書編集」には、コンピューターが読み取れる
知識の集積からワード連想基準を見積もるための、相互
情報の情報理論概念に基づいた「連想比」と称される手
段が記載されている。この連想比は、可能性のあるワー
ドとして識別された2個〜数個のワードの選択から最も
適当なワードを判断するため、意味論解析器により使用
される。
【0004】パターン解析及び機械知能の米国電気電子
学会 (IEEE) 処理、PAM1-9巻、No.2(1987年3月)
の中のサイモン・カハン、セオ・パブリディス及びヘン
リー・エス・バイヤードによる「あらゆるフォント及び
サイズの印刷されたキャラクタの認識」には、ラテン文
字のための様々なフォントとサイズの印刷されたテキス
トを認識するシステムが記載されている。バイナリーイ
メージのランレングス符号化グラフに細文字化とシェー
プ抽出が直接行われる。結果として生じるストロークと
その他のシェープは、シェープイメージ・クラスター化
アプローチを用いてバイナリー演算機構に写像され、統
計的なベイズの分級機に送られる。このシステムは多数
の可能性のあるキャラクタとワードを識別し、それらを
記録する。しかしながら、認識プロセスにおける不確定
性は、本発明の標準表示法を用いては記録されない。
【0005】要約すると、グラフィックス構造、テキス
ト(キャラクタ、ワード、意味論、フォント)、及び論
理学上の構造(ページ、パラグラフ、脚注)を認識する
ことができ、認識される特徴を認識したときの不確定性
を決定することができる数多くのシステムが存在する。
従って、上記の先行技術に関する資料はここに参考のた
め挿入しておく。しかしながら、これらのシステムのい
ずれも、認識プロセス(不確定性も含む)の結果を、そ
の他の装置により使用される方法では記録しない。その
結果、特に異なる認識システム(例えば、キャラクタ認
識、ワード認識、意味論解析器)が異なった時に(一つ
のシステムに統合されるのとは反対に)使用される時
に、多くの情報(特に不確定性に関して)が失われるこ
とになる。
【0006】
【課題を解決するための手段及び作用】ビットマップ・
イメージとして表されるドキュメントを、編集可能なコ
ード化データに変換する方法及び装置が提供され、該方
法及び装置において、ドキュメント記述言語における標
準表示法が各ドキュメント認識装置によりドキュメント
認識アンビギティーを記録するために利用される。ドキ
ュメント認識プロセスの結果がこの標準表示法を用いて
記録された場合、如何なるアンビギティーも統一された
方法で識別され、後にくるより高水準のドキュメント認
識プロセスが、先に済んだドキュメント認識プロセスに
より得られるアンビギティーについての情報を用いて、
これらのアンビギティーを解消することを試みることが
出来る。
【0007】特に、本発明の標準表示法を用いる時に、
各ドキュメント認識装置はドキュメント記述言語を用い
て選択別に識別された1つまたはそれ以上のエレメント
における認識プロセスの結果を記録することができる。
各エレメントはその中に含まれる認識された(変換され
た)ビットマップ・イメージに関して、コード化データ
(情報)のタイプを示すタイプ識別名を持っている。各
エレメントはまた、その中にタイプ識別名により識別さ
れたタイプの編集可能なコード化データを含んでおり、
既定の信頼度で変換されなかったコード化データを識別
する不確定情報を含むことができる。この不確定情報は
ドキュメント認識装置により判断され、より高水準の後
にくるドキュメント認識装置により読み取り可能なフォ
ーマットで記録される。この不確定情報は、アンビギテ
ィーを解決する際により高水準のドキュメント認識装置
を助けるために、不確定なコード化データがドキュメン
ト認識装置により認識された際の信頼度を持つことがで
きる。不確定情報はまた各不確定な認識に関する代替コ
ード化データを含むことができる。
【0008】ドキュメント認識装置がキャラクタ認識装
置である場合、既定の信頼度で認識されないキャラクタ
が識別され、それらを疑わしい・キャラクタ・エレメン
トに配置することにより記録される。代替の可能性のあ
るキャラクタ及びその確定度と共に確定度が、疑わしい
キャラクタのために記録される。少なくとも既定の信頼
度で認識されたキャラクタは、キャラクタ・ストリング
・エレメントの中に置かれる。
【0009】ドキュメント認識装置がワード認識装置
(例えば、スペリング・チェッカー等)を含む場合は、
ワード認識装置はワードが、各疑わしいキャラクタと各
疑わしいキャラクタを含むワードの中の特定のキャラク
タとに基づいた辞書の中に存在するかどうかを判断する
ことにより、存在する疑わしいキャラクタを解決しよう
と試みる。疑わしいキャラクタを含むワードの辞書の中
で、ワードが識別された場合、該かるワードは確認済み
ワードとして識別され、確認済み・ワード・エレメント
の中に記録される。1つ以上の確認済みワードが見つけ
られた場合、それらのワードは代替・ワード・エレメン
トの中に集合的に分類される個々の確認済み・ワード・
エレメントの中に配置される。疑わしいキャラクタを含
むワードについての確認済みワードが見つからない場
合、疑わしい・キャラクタ・エレメントはそのまま残
る。
【0010】ドキュメント認識装置が意味論解析器を含
む場合、識別された代替確認済みのワードは、代替確認
済みのワードを取り巻くワードを解析することにより解
決される。代替確認済みのワードの内の1つが、意味論
解析に基づいて既定の信頼度で確認される場合、そのワ
ードは戻されて周囲のキャラクタ・ストリング・エレメ
ントに併合される。意味論解析器がどの代替確認済みの
ワードが正しいのか判断できない場合、意味論解析器は
代替・ワード・エレメントそれ自体(及び含まれた確認
済み・ワード・エレメント)を戻し、その中の確認済み
ワードが正しいワードである可能性を指示するデータを
含むことができる。
【0011】ドキュメント認識装置がグラフィックス構
造イメージ認識装置を含む場合、ドキュメント認識装置
はグラフィックスイメージの中の認識されたグラフィッ
クス構造を表わすコード化データを含むグラフィックス
・エレメントを出力する。これらの構造は、終了点、
円、弓形等の間で明確にされた線を含むことができる。
加えて、線の厚さの情報も戻されて記録され得る。xや
yの方向オフセットや線の厚さの変化等の認識プロセス
の中のアンビギティーも記録され得る。該データはアン
ビギティーを解決したり、より複雑なグラフィックス構
造を認識するために、後にくるより高水準のグラフィッ
クス認識プロセスにより使用される。例えば、低水準の
グラフィックス認識装置により認識された4本の線は、
もし、例えば、終了点が高い確実性で一致していると断
定されるなら、より高水準のグラフィックス認識装置に
よって箱であると断定されるのである。
【0012】追加的なイメージ認識エレメントがドキュ
メントイメージのより大きな部分(もしくはサブイメー
ジ)に関する情報を記録するために作られる。例えば、
フォントテキストブロック、フレーム、ページ、ドキュ
メント、及び大小の未解決のビットマップ・イメージ等
に関するデータもまた記録することができる。
【0013】
【実施例】本発明はドキュメント認識プロセスの連続的
段階を通して、アンビギティーを記録する明瞭な手順を
利用する。これらのアンビギティーは、キャラクタ認識
装置により調査分析されたキャラクタ;キャラクタ認識
装置、スペリング・チェッカー、及び意味論解析器によ
り調査分析されたワード;論理的構造再構築器により調
査分析されたテキスト・フロー;グラフィックス認識装
置により調査分析されたライン・セグメント及び弓形の
幾何学と関係している。
【0014】これらのプロセスの各々は、バイトオリエ
ンテッドデータ・ストリーム(以後ドキュメント認識ス
トリームまたはDRストリームと称する)、及びDRス
トリームによって言及されるビットマップ・ストリーム
(以降イメージファイルと称する)を作りだし、及び/
または消費する。該DRストリームは、1ページまたは
数ページの計数化されたドキュメントに関する情報を運
ぶ。該情報はフォント付きのテキスト、特定のグラフィ
ックス原語、ハーフトーン・イメージを、それらの関係
及びそれらに付いてのアンビギティーと共に表わす。
【0015】本発明は、例えばキャラクタもしくはグラ
フィックス構造等を認識し、またはワードを決定する
(キャラクタのシーケンスを知られているワードの辞書
と比較することにより)、あるいは可能性のあるワード
の選択からどのワードが正しいかを判断する現存する認
識装置で使用できるという意味で、全く新しいドキュメ
ント認識プロセス(またはドキュメント認識装置)を提
供するのではない。しかしながら、本発明はドキュメン
ト認識言語で認識装置によって得られる結果を記録する
ための標準表示法を提供することにより、これら異なっ
たタイプの認識装置が機能する効率及び適合性を改良す
るものである。
【0016】図2〜図22は下記で論じられるドキュメ
ントタイプ定義に従って、ISO 8879標準法則化マークア
ップ言語(SGML)における本ドキュメント認識表示法を示
している。本発明によれば、各認識装置は、SGMLにおい
てエレメント(elements)と称され、コード化情報として
の、それが実行する認識プロセスの結果と一致する、コ
ード化データを記録する。各エレメントはいくつかの方
法(例えば、テキスト、グラフィックス、同じページ、
特定の全てのキャラクタ等)において類似していると認
識されたコード化データを含んでいる。各エレメント
は、a)該エレメントに含まれるコード化データのタイプ
を指示するタイプ識別名;b)ドキュメントの類似したタ
イプのエレメントの中で独得であり、あるエレメントが
他のエレメントによって参照されるように(ほとんどの
エレメントは識別番号を持っている)、他の類似のタイ
プ・エレメントから該エレメントを識別する任意の識別
番号;c)ドキュメント認識プロセス(これはキャラクタ
のストリングあるいはグラフィックス構造を明確にする
パラメーターであって良い)によって得られたコード化
データ;及びd)エレメントに含まれるコード化データに
ついて追加的情報(例えば、不確定情報)を提供するた
めの任意の内容(属性(attribute) と称する)を含んで
いる。エレメントの属性はエレメントにおけるコード化
データに関する不確定情報(例えば、コード化データが
認識される信頼度またはグラフィックス構造のパラメー
ター(例えばライン・セグメントを明確にする終了点)
のための可能性のあるオフセット)を記録するために使
用されるが、いくつかの場合におけるタイプ識別は、該
エレメントの内容が既定の信頼度以下の信頼度で判断さ
れたことを指示することにより、不確定情報を伝えるた
めにも役立っている。例証された例において、コード化
データは人間が読むことの出来るASCII として記録され
るが、他のコードも使用できる。
【0017】SGMLに慣れている人なら、以下に述べるエ
レメントの包括的な内容を理解できるであろう。従っ
て、図18〜図22に関しては、包括的なエレメントに
ついての短い論議だけで充分であろう。次に、図2〜図
17に関して、各エレメントのタイプを特に記述する。
図18〜図22は、本発明に従いドキュメントを記述す
るために使用することができる複雑なエレメントのシン
タックスを示している。このエレメント・リストは各D
Rストリームの始まりに位置し、SGMLで書かれたストリ
ームを分析し、それ以降に含まれるDRストリームを分
析するようプログラムされた従来の分析器により使用さ
れる。つまり、エレメントのシンタックスリストの後
で、特別のドキュメントを記述するエレメントの連続ス
トリームが提供される。ここで用いられるように、「エ
レメントの連続ストリーム」(continuous stream of el
ements) という用語は、同属するものとして識別される
エレメントのグループに関連している。このように、空
白スペースが認められる(また実際、読みやすさのため
に奨励される)SGMLのようなマークアップ言語において
は、別のラインへの侵入であるタブは分析機が無視する
空白スペースを構成する。この意味で、空白スペースは
エレメントの連続ストリームの一部である。その他のシ
ステムはキャラクタストリームの規模に制限を設けるこ
ともある。これらのシステムにおいて、長いDRストリ
ームは同属するものとして識別されるであろう数個のフ
ァイルに分けられる。数個のファイルが同属するものと
して識別される該DRストリームも、やはり「エレメン
トの連続ストリーム」という用語でカバーされるよう意
図されている。(図18〜図22におけるいくつかのエ
レメントも、やはりDRストリームの始まりの所で記録
される属性(下記に記述される)を含んでいる。)もち
ろん、図18〜図22に記録された全てのエレメントが
ドキュメント認識プロセスの結果を記録する必要がある
わけではない。しかしながら、より多くのエレメントが
提供された場合、より多くの情報を記録することができ
る。SGMLの図2に関連して、「!エレメントs 」という
用語は「エレメントをそのタイプが's' であると定義す
る」ことを意味し;「- O」という用語は「タイプ識別
名が<>に囲まれて現れる時にエレメントが始まり、<
/ >(エレメント終了マーカー)でエレメントが終わ
る、あるいは別のエレメントが入れ子構造の中の同等か
高水準で始まる時」を意味し;「(#PCDATA )」は「こ
のエレメントの内容はキャラクタストリングである」こ
とを意味している。このように、図2は以下のように記
録されるキャラクタストリング(例えば「horse 」)を
含むエレメントを定義している: <s>horse </s>;または <S>horse </ >;または <S>horse エレメントのその他の可能性のある内容は、その他のエ
レメント(例えば、その内容として2つかそれ以上のv
wエレメントを含む図5のawエレメント参照)、もし
くは属性(EMPTY 及び属性リストで表される - 図8参
照)である。「+」という用語は直前の項目が繰り返さ
れることを示している。これらの定義は、各エレメント
が下記でより詳細に定義されるので、より明確になるで
あろう。
【0018】図1は本発明を用いて変換・記録できるビ
ットマップ・イメージのタイプ、及び記録形式を例証す
るため使用されるサンプルページ・イメージである。サ
ンプル・イメージは様々な興味深い特徴、例えば、不十
分な形とか不十分な品質のために認識されにくいキャラ
クタ;2つのライン・セグメントの形態での構造化グラ
フィックス;明確化されていない素描の形態でのビット
マップ・グラフィックス;脚注及び誘導キャラクタの形
態での論理的構造等を含んでいる。
【0019】図2は、キャラクタ・ストリング・エレメ
ントを示しており、キャラクタ認識装置が以下の条件を
満足するキャラクタをその中に集める:全てのキャラク
タが高い信頼度(少なくとも既定の信頼度)で認識され
たこと;全てのキャラクタが同じフォント、基線の位
置、下線状態を持っていること;および各キャラクタの
間に重大な空所がないこと(例えば、水平的に整列して
いるが、空白のスペースの特定量により分離されたテキ
ストの2つのカラムに属しているキャラクタが同じエレ
メントに入れられないこと)。例証されたタイプ識別名
は「s」である。キャラクタ・ストリング・エレメント
は識別番号を持っていないが、代わりにより大きなエレ
メントに配置することができる。
【0020】図1のイメージに関連して、キャラクタ認
識装置により少なくとも既定の信頼度で認識される一連
のキャラクタを持った該イメージ部分は、SGMLにおいて
実行される本発明を用いて以下のように記録される。 <s >Etymologies appear in square brackets []foll
owing </ > <s >the "definitions". In accordance with the<
/ >
【0021】図3は、キャラクタ認識装置が正しく認識
される確率が低いキャラクタを配置する、疑わしい・キ
ャラクタ・エレメント(qc)を示している。現存するキャ
ラクタ認識装置が各キャラクタのための信頼度を目下決
定している。キャラクタが少なくとも既定の信頼度で認
識されない場合、これらのキャラクタ認識装置はキャラ
クタに何とかして印を付ける。しかしながら、不確かな
キャラクタに使用者の注意を向けるのは別問題である。
いくつかのベンダーは、認識し、使用者の指図を求める
ことが織り込まれている対話式パッケージを持ってい
る;これらのシステムがそれだけで不確かなキャラクタ
に印を付けるかどうかは解っていない。なぜなら、それ
は内部的な問題であり、不確定性が使用者の干渉により
直ちに取り除かれるからである。他のベンダーは単に不
確かなキャラクタに、例えば1組のクェスチョンマーク
で印を付けることを考えたが、その線より下の次のプロ
セスがこれらのクェスチョンマークを本物のものと区別
できないという問題が生じてきた。しかしながら、疑わ
しいキャラクタは他の機械によって使用できる方法では
記録されない。(つまり、クェスチョンマークやハイラ
イトは他の意味を持つかもしれない。)このように、該
データがより高水準の装置、例えばスペリング・チェッ
カーなどの装置に送られた場合、スペリング・チェッカ
ーはキャラクタが高い確定度で認識されなかった情報を
利用することができないであろう。
【0022】本発明においては、より高水準の装置は、
疑わしい・キャラクタ・エレメントの中にあるあらゆる
キャラクタがその特徴を含んでいるので、キャラクタが
高い確実性で認識されなかったという情報を受け取る。
このように、アンビギティーを記録するドキュメント記
述言語の表示法を用いて、他の認識装置も不確定情報を
利用することができる。おそらく、各qcエレメントが
1つの疑わしいキャラクタを保持するのであろう。キャ
ラクタ認識装置がビットマップ・イメージの特定部分の
ために既定の信頼度以下で1つ以上の可能性のあるキャ
ラクタを識別すれば、qcエレメントもまた代替キャラ
クタのリストを包含することができる。加えて、1つま
たは複数の疑わしいキャラクタのための確定度が、各q
cエレメントに提供される。疑わしい・キャラクタ・エ
レメントが続いてスペリング・チェッカーによって除去
されることが理想的である。
【0023】例えば、サイモン・カハン等による上記書
籍に記述されたシステムは代替キャラクタ(またはワー
ド)を作るために使用でき、各キャラクタ(またはワー
ド)がそのキャラクタ(またはワード)に関連する信頼
度を示す測定方法を持っている。しかしながら、カハン
等により開示されたシステムと異なり、キャラクタ及び
/またはワードに関係するこの情報は、本発明によるド
キュメント記述言語を用いて、適当で独特なエレメント
に記録される。これは他のより高水準のドキュメント認
識プロセス(カハン等のシステムとは別のもので、別の
時に使用される)が該情報に統一された方法で近付くこ
とを可能にする。本発明は現存する認識装置がもっと効
率的な方法で作用することを可能にする。例えば、確か
なキャラクタ(またはワード)と不確かなキャラクタ
(またはワード)とを区別することにより、より複雑で
時間のかかる認識手順は、不確かなキャラクタ(または
ワード)のみに制限できる。
【0024】図4はワード認識装置(例えばスペリング
・チェッカー)が高い信頼度で認識されたが、ワード認
識装置の辞書には見いだせないキャラクタを含むワード
を配置する、疑わしい・ワード・エレメンt(qw)を
示している。1つのqwエレメントにつき、1つの疑わ
しいワードがある。これらの疑わしいワードは異なる辞
書を持つ他のワード認識装置または、以下に述べるよう
な他の手段(意味論解析器)により解決される。
【0025】図1に関連して、"Jumblatt"というワード
の中の全てのキャラクタが確かに認識されたが、ワード
認識装置のスペル・チェッカーはその辞書の中に"Jumbl
att"というワードをみいだせなかったと仮定してみよ
う。そうすると、それは次のようなqwエレメントに記
録される: <qw>Jumblatt</ >
【0026】図5は疑わしい・キャラクタ・エレメント
を除去する試みにおいて見つけられたワードをワード認
識装置が配置する確認済み・ワード・エレメント(v
w)と代替・ワード・エレメント(aw)とを示してい
る。ワード認識装置は、疑わしい・キャラクタ・エレメ
ントに関連するワードに基づき、疑わしいキャラクタが
発生するたびに辞書の中でワードを探す。もしワードが
その辞書の中に見つかると、ワード認識装置はそのワー
ドをvwエレメントに配置する。ワード認識装置が疑わ
しいキャラクタを除去しようとする時、ワード認識装置
はその辞書の中に確認された数個のワードを見つけるか
もしれない。ワード認識装置が確認済みワードの中で判
断できない場合は、ワード認識装置はそれらのワードの
各々をvwエレメントに配置し、意味論解析器のような
後にくるプロセスのために、1組のvwエレメントをa
wエレメントに配置する。
【0027】次に、意味論解析器は確認済みワードのど
れが正しいかを、代替ワードの発生を囲むワードを解析
することにより判断しようと試みる。
【0028】ワード認識装置は辞書と比較すべきワード
を選ぶために、従来からの様々なプロセスを用いる。例
えば、アルファベットの全てのキャラクタは、疑わしい
・キャラクタ・エレメントを含むワードの中の疑わしい
・キャラクタ・エレメントと置き換えることができ、こ
れらの結果は辞書でサーチされる。代替疑わしいキャラ
クタが疑わしい・キャラクタ・エレメントに提供された
場合、置き換えを代替疑わしいキャラクタのみに制限す
ることができる。確認済みワードが見つからない場合、
疑わしい・キャラクタ・エレメントはそのまま残り、そ
の中に含まれる不確定情報を随意にワード認識装置によ
り新しくすることができる。
【0029】例えば、下記に示す図1から2つのストリ
ングと疑わしいキャラクタがキャラクタ認識装置により
発見されたとしよう: <s >the origins of numerous English w </s> <qc>a </q> <s >rds are still obscure </s> ワード認識装置は、疑わしい"a" を減らそうとして、候
補として"wards" と"words" を見つけ、上記表示を以下
のように置き換える: <s >The origins of numerous English</s> <aw><vw>wards </vw ><vw>words </vw ></a
w > <s >are still obscure </s>
【0030】エレメントのストリームを、どのワードが
正しいかを判断しようと試みる意味論解析器に送ること
ができる。意味論解析器がどのワードが正しいかを判断
することができれば、意味論解析器はそのキャラクタを
回りのs・エレメントに併合させる。例えば、以下のデ
ータが意味論解析器に提供されたと仮定すると: <s >, the origins of numerous English </s> <aw> <vw>wards </ > <vw>words </ > <s >are still obscure.</ > そして、意味論解析器はその前後関係から、"wards" で
はなく"words" の方が正しい選択であると判断する。意
味論解析器は上記表示を以下に示すものの中のどれによ
ってでも置き換えることができる(どれを選ぶかはさし
て重要ではないが、最初の選択は最も論理的なものであ
り、2番目の選択は最も好都合なものを選ぶ): <s >, the origins of numerous English words are
still obscure.</ > <s >, the origins of numerous English <s >word
s<s >are still obscure.</ > <s >, the origins of numerous English words <s
>are still obscure.</ > <s >, the origins of numerous English <s >word
s are still obscure.</ > 中間の</ >s は任意のものなので、省略されることに
注意する必要がある。
【0031】図6は同じフォントのキャラクタデータ
(s、aw、qc及びqwエレメント)を集めるために
使用されるテキスト・エレメントを示している。テキス
ト・エレメントはid属性を持っており、より高いエレ
メントにより照合されることを可能にし、フォント識別
名(下記にて定義される)と任意的な照合をすることが
できる。フォント照合ができない場合は、最も新しく供
給されたものが使用される。テキスト・エレメントは異
なるフォントを識別することができるキャラクタ認識装
置により作られる。テキスト・エレメントに記録された
データの例として以下のようなものがある: <text id=123 font=2>list of s, aw, qc and qw ele
ments </ >
【0032】図7はフォントデフ・エレメントを示して
いる。キャラクタ認識プロセスにより解析された書体は
できる限り多くの情報と共にフォントデフ・エレメント
に記録される。フォントデフ・エレメントの内容は、キ
ャラクタ認識装置が確実に引き出すことができる場合、
フォントの族名である。そのフォントの族名を引き出す
ことができそうもない場合、その内容は空のまま残さ
れ;後にくるプロセスかまたは使用者との対話により後
で書き込むことができる。
【0033】id・属性はテキスト・エレメントをフォ
ント記述と照合することを可能にする。size・属性は局
部で測られる。base・属性は、基準線が上に書いたり下
に書いたりすることによって相殺されているかどうかを
指示する。下線がある場合、under ・属性がフォントの
基準線の下の下線の位置を指示する。フォントの族名が
Frutigerであるフォントデフ・エレメントに記録された
データの例は以下のようになる: <fontDef id = 2 size = 10 under = 1>Frutiger</
> 属性は括弧<>の最初のセットに記録される。
【0034】図8はグラフィックス・エレメントの1つ
のタイプであるセグメント・エレメントを示している。
セグメント・エレメントはグラフィックス認識装置によ
り使用され、ビットマップ・イメージから認識するライ
ン・セグメントを書き留める。id・属性がより高いエ
レメントをセグメント・エレメントに照合することを可
能にする。終了点(x1、y1及びx2,y2)の座標
は、そのページの左上の角に関連して、セグメントを数
学的に定義する。正確な終了点座標についての不確定性
は、dx1、dy1及びdx2、dy2・属性に記録さ
れる。このようにして、dx1、dy1、dx2、及び
dy2はライン・セグメント・グラフィックス構造を記
述するために用いられるパラメーター(x1、y1、x
2、y2)の可能性のあるオフセットを記録する。ライ
ン・セグメントの厚さ及び不確定性は、thick及びdThic
k・属性により書き留められる。ライン・セグメント・
エレメントに記録されるデータの例として下記のような
ものが挙げられる: <segment id=14x1=2100dx1=5y1=1440x2=2100dx2=5y2=2
160thick=17 ></ > フォントデフ・エレメントの場合と同じように、属性は
括弧の最初のセットの中に用意される。セグメント・エ
レメントは如何なるキャラクタストリングも含まない
(その内容は空(EMPTY) である)ので、括弧の最初のセ
ットの次はエレメント終了マーカーの</ >であるか、
または新しいエレメントはエレメント終了マーカーを必
要としない。
【0035】図9はグラフィックス・エレメントのもう
1つのタイプである弓形・エレメント(arc-element )
を示している。弓形・エレメント(arc-elements)はグラ
フィックス認識装置によってビットマップ・イメージか
ら認識される、円、円形の弓形、楕円及び楕円形の弓形
を書き留めるために使用される。id・属性はより高水
準のエレメントに弓形の参照符をつけることを可能にす
る。その他の属性には次のようなものが挙げられる: x、y、dx、dy:座標、及びページの左上の角から
測定された円、楕円の弓形の中心での不確定性; r、dr:円の弓形の半径または楕円の弓形の長軸の長
さ及び不確定性; rShort、drshort :楕円の弓形の短い半径の長さ及びそ
の不正確性; theta1、dTheta1 :垂直軸と、中心及び弓形の終了点の
1つを通る線の間の角度。この属性は弓形のためだけに
存在する。角度はミリラジアンで測定できる; theta2、dTheta2 :他の終了点のためのtheta1、dTheta
1 と同じ; theta0、dTheta0 :垂直軸と、楕円の長軸との間の角
度。この属性は楕円及び楕円形の弓形のためだけに存在
する; thick 、dThick:弓形、円もしくは楕円の厚さと不確定
性。
【0036】弓形・エレメントに記録されるデータの例
として以下のようなものが挙げられる: <arc id=5462x=2300dx=8y=1440dy=8r=2100dr=15></
【0037】図10はグラフィックス・エレメントの3
番目のタイプであるイメージ・エレメントを示してい
る。イメージ・エレメントはテキストまたは構造的グラ
フィックスとして解決されなかったページの方形部分を
表示するために使用され、従って、別のファイルにある
ビットマップ・フォームに残される。イメージ・エレメ
ントはファイル名を含む。
【0038】イメージ・エレメント属性はページ(x、
dx、y、dy)の左上の角に関連した位置及び不確定
性、及びイメージの寸法(w、dw、h、dh)を符号
化する。resol・属性は測定単位(測定単位は後に定義
するdsストリーム・エレメントにより供給される)ご
とのビットで表される。
【0039】ドキュメント認識操作に着手する時には、
DRストリームは通常ペーパードキュメントの計数化さ
れたページ毎に1つのイメージ・エレメントだけを含ん
でいる。キャラクタストリング、ライン・セグメント、
及び弓形が引き出される(従来の技術を用いて)につれ
て、徐々にビットマップがより小さく、おそらくより多
数のものと置き換えられる。操作の終了時に、残された
ビットマップだけが本物のハーフトーンイメージであ
り、キャラクタ認識装置及びグラフィックス認識装置が
判読できなかったドキュメントの部分である。
【0040】"Squiggle"と名付けられたファイルに保存
されたビットマップ・イメージは、次のように記録され
る: <image id=567x=1840y=1680w=260h=480>Squiggle</
【0041】図11は4番目のグラフィックス・エレメ
ントであるスポット・エレメントを示している。スポッ
ト・エレメントは小さなイメージを含み、認識されない
ような小さなしみや記号、知られていないシンボル等の
ビットマップ・フォーマットに残された非常に小さな方
形部分を表示する。ビットマップは非常に小さいので、
別のファイルに保持されるよりは、16進法形式でスポ
ット・エレメントの内容として便利に符号化することが
できる。
【0042】x、dx、y及びdy・属性はページの左
上の角に関してスポットの位置を供給する。bx・属性
は水平方向のビットの数を与える。それは強制的に8の
倍数になるようになっている。by・属性は1ビットの
高さの列の数を与える。スポット・エレメントをイメー
ジする必要がある時は、16進法の値は1度に1列につ
き8*bxビット(2*bx16進法キャラクタ)で消
費される。16進法の値は適当な場合には後続0ビット
を含んでいる。
【0043】図1のサンプルページの小球●が認識され
なかったと仮定しよう。それは次のような小さなイメー
ジとして表示されるだろう。 <spot id=11x=590y=850bx=25by=25>03FFB000... </ >
【0044】図12は他のエレメントに対する参照を示
している。テキスト、セグメント、弓形、イメージ及び
スポット・エレメントは各々の識別名と参照することに
より、高水準のエレメント(下記で論じるテキスト・ブ
ロック、フレーム及びページ等)に分類することができ
る。単一のエレメントに対する参照は、アイテム・エレ
メントによって行われ、その単一属性は参照済みエレメ
ントの識別名の値を持つ。
【0045】一貫した連続エレメントに対する参照はレ
ンジ・エレメントにより行われる:"from"と"to"属性が
最初と最後の参照済みエレメントの識別名を引用する。
「最初」と「最後」はエレメントがDRストリームの中
に見いだされる年代順に関連する。レンジ・エレメント
はアイテム・エレメントの間断のない連続のための速記
表示である。
【0046】グルーピングについてのアンビギティーは
altern・エレメントにより表示される。代替グルーピン
グは適正なエレメント・グルーピングの数を符号化する
ためのプロセスにより使用される。例えば、テキストの
ページが4つ、つまり左側に2つと右側に2つのテキス
ト・ブロックを持ったものとして認識されたとする:論
理的構造のプロセッサー(もしくは論理的復元器)はテ
キストが2つのカラムまたは2つの列として読んだのか
どうか判断できずに、それらを左上、左下、右上、右下
の順に;あるいは左上、右上、左下、右下の順に分類す
る;構文法解析器のような下流のプロセスがアンビギテ
ィーを解消できるかもしれない。
【0047】図13はtBlock・エレメントを示してい
る。tBlock・エレメントはテキスト・ラインまたは等間
隔を空けたテキスト・ラインのまわりの見えない境界を
形成する方形部分を符号化する。ページの左上の角に関
連するtBlockの位置、及びその不正確性はx、y、d
x、dy・属性により与えられる。寸法と不確定性は
w、h、dw、dhにより記録される。interl・属性は
ブロック内の等間隔のライン間の間隔を測定する;その
値はテキスト・ブロックが1つのラインだけを含んでい
る時は0である。x1、dx1、y1、dy1・属性は
ブロックの左上の角に関連するテキスト・ブロックの最
初のキャラクタの位置を与える。
【0048】図14はフレーム・エレメントを示してい
る。フレーム・エレメントはページ部分より小さいか、
または等しい方形部分を符号化する。該エレメントは他
のフレームと共に、テキスト・ブロック、イメージ、ス
ポット、弓形、及びセグメントを集めるために使用され
る。フレームはページの上に重なってもよい。
【0049】図15はページ・エレメントを示してい
る。ページ・エレメントはドキュメントの計数化された
ページに関する情報の全てを集める。もしDRストリー
ムの中にページ・エレメントがなければ、全てのDRス
トリームのデータは単一ページに属していると仮定され
る。
【0050】図16はグループ・エレメントを示してい
る。グループ・エレメントはページの境界線を横切るエ
レメントの収集を可能にする。該エレメントはページを
横切るテキストの流れを指示するため、論理的構造の改
造器及び意味論解析器により使用される。
【0051】図17はdrStream・エレメントを示してい
る。ドキュメント・タイプの定義の一番上にあるのがdr
Stream・エレメントである。その単位・属性はdrStream
を通じて使用される測定単位の名前を示す。フラクショ
ン・属性は座標、寸法及びそれらの不正確性が実際に表
す測定単位の断片を指示している。例えば、測定がミク
ロンで行われれば、drStream・エレメント・属性は以下
のようになる: <drStream unit=meter fraction=1000000>
【0052】図18〜図22は開示されたページ記述言
語で用いられる全てのエレメントを示している。
【0053】図23は本発明において使用できるドキュ
メント認識システムを示している。図24と図25は本
発明に従って図23のシステムを操作するための手順を
示すフローチャートである。ビットマップ・イメージ
(S100)を入力するために、イメージスキャナー100
を用いてペーパードキュメントが走査され、ビットマッ
プ・ドキュメント・イメージ110が作られる。走査プ
ロセスは、本質的に認識プロセスが実行されると同時に
実行できるか、または、ビットマップ・ドキュメント・
イメージ110がハードまたはフロッピー・ディスクの
ような数タイプの電子記憶媒体に供給できると同時に実
行できることが理解できる。ビットマップ・ドキュメン
ト・イメージ110はビットマップ・イメージをもっと
小さなサブイメージ、例えば、テキストだけを包含する
テクスチュアル・サブイメージとか、グラフィックスだ
けを包含するグラフィックス・サブイメージ等に分裂さ
せる従来のセグメンター150(S110)に供給される。
セグメンター150は、各サブイメージがテキストのみ
またはグラフィックスのみを包含していると認識される
まで、ビットマップ・イメージをもっと小さなサブイメ
ージに反復して分裂させる。テクスチュアル・サブイメ
ージがキャラクタ認識装置300に供給されている間
に、グラフィックス・サブイメージは次に構造イメージ
認識装置200(またはグラフィックス認識装置)に送
られる。もちろん、ビットマップ・ドキュメント・イメ
ージがテキストもしくはグラフィックスだけを包含して
いることが事前に解っていれば、該イメージは直接構造
イメージ認識装置200またはキャラクタ認識装置30
0に送られる。
【0054】構造イメージ認識装置200は、次にビッ
トマップ・グラフィックス・イメージ(又はサブイメー
ジ)を、ドキュメント記述言語を使用する上記グラフィ
ックス・エレメントのような、グラフィックス・エレメ
ントに記録できるコード化グラフィックス・データ(S1
60)に変換する。つまり、認識されないビットマップ・
イメージは未解決・グラフィックス・イメージ・タイプ
・エレメント(S170)に配置される:大きい場合はイメ
ージ・エレメント、小さい場合はスポット・エレメント
及び16進法の値として表される。グラフィックス・イ
メージまたはサブイメージが認識され、コード化グラフ
ィックス・データに変換される場合、該イメージは1つ
かそれ以上のセグメント・エレメント及び/または弓形
・エレメント(S180)に配置される。不正確性に関する
追加的情報(例えば、グラフィックス構造を随意に記述
するパラメーター(コード化データ)の可能性のあるオ
フセット)はこれらのエレメント(S185)に記録でき
る。
【0055】このように、グラフィックス・ビットマッ
プ・イメージを本発明を用いて編集可能なコード化デー
タに変換する際、グラフィックス構造イメージ認識装置
200は、グラフィックス・ビットマップ・イメージを
グラフィックス構造を明確にするコード化データを含む
1つかそれ以上のグラフィックス・エレメントに変換す
るため、ビットマップ・グラフィックス・イメージに最
初の変換操作を行うための第一の変換手段として;ま
た、第一の変換手段により変換される1つかそれ以上の
グラフィックス・エレメントを識別するためのドキュメ
ント記述言語を用いた第一の識別手段として作用し、各
グラフィックス・エレメントは該エレメントに含まれる
認識されたビットマップ・イメージに関するコード化デ
ータのタイプを指示するエレメント・タイプ識別名を包
含している。第一の変換手段が、グラフィックス・エレ
メントに含まれるコード化データが既定の信頼度で変換
されていないと判断した場合、識別手段もまたグラフィ
ックス・エレメント内に、各グラフィックス・エレメン
トに含まれるコード化データに関して第一の変換手段に
より判断される不確定情報(オフセット)を包含してい
る。
【0056】キャラクタ認識装置300はビットマップ
・テクスチュアル・イメージ(またはサブイメージ)を
コード化キャラクタデータ(S120)に変換し、該データ
はそれから上記されたようにS140かS150(キャラクタ・
ストリングまたは疑わしい・キャラクタ)の中の適当な
エレメントに記憶される。コード化キャラクタデータを
キャラクタ・ストリング・エレメントか疑わしい・キャ
ラクタ・エレメントに配置するかどうかを判断するため
に、認識されたキャラクタが少なくとも既定の信頼度で
認識されたかどうかに関する判断がS130で行われる。疑
わしい・キャラクタ・エレメントへのキャラクタの挿入
は該キャラクタに関する不確定情報を伝えるために役立
つが、代替の可能性のある不確かなキャラクタ、あるい
は不確かなキャラクタのための確定度などの追加的情報
も、疑わしい・キャラクタ・エレメント(S155)に含む
ことができる。このように、キャラクタ認識装置300
はキャラクタ・ストリング・エレメントや疑わしい・キ
ャラクタ・エレメントのストリームを作りだし、そのス
トリームは次にワード認識装置400に送られる。
【0057】ワード認識装置400はその中にワードの
辞書または語彙を持っている。本発明に従って操作され
るワード認識装置400は、それから各疑わしい・キャ
ラクタ・エレメントのための図25に示された手順を実
行する。まず、S200において、複数のキャラクタが疑わ
しい・キャラクタ・エレメントを含むワードの中の疑わ
しい・キャラクタ・エレメントに続いて置き換えられ
る。S210において、置き換えステップ(S200)により形
成されたワードのいずれかがワード認識装置400の辞
書の中に見いだされるかどうかについての判断が為され
る。該かるワードは「確認済みワード」と称される。確
認済みワードが見いだせない場合、疑わしい・キャラク
タ・エレメントはS240に戻され、随意にS245において、
疑わしい・キャラクタ・エレメントに含まれる不確定情
報がワード認識装置400により為された判断に基づい
て新しくされる。もしS210における判断が肯定的であれ
ば、各確認済みワードを確認済み・ワード・エレメント
(S220) に配置する。次に、S230において、1つ以上の
確認済み・ワード・エレメントが1つの疑わしい・キャ
ラクタ・エレメントから作られた場合、複数の確認済み
・ワード・エレメントが代替・ワード・エレメントに配
置される。
【0058】代替・ワード・エレメントの中の確認済み
ワードのどれが正しいかをまわりのワードに基づいて判
断しようとする意味論解析器500によって、各代替・
ワード・エレメントをキャラクタ・ストリング・エレメ
ントに変換することができる。意味論解析器が代替・ワ
ード・エレメントの中の確認済みワードのどれが正しい
かを判断できない場合、そのワードは代替・ワード・エ
レメントに戻り、そこで各確認済み・ワード・エレメン
トの中の各確認済みワードのための不確定情報を随意に
提供する。
【0059】このように、テクスチュアル・ビットマッ
プ・イメージを本発明を用いて編集可能なコード化デー
タに変換する際、キャラクタ認識装置300は、テクス
チュアル・ビットマップ・イメージをコード化キャラク
タデータを含む1つかそれ以上のエレメントに変換する
ため、テクスチュアル・ビットマップ・イメージに最初
の変換操作を行うための第一の変換手段として;また、
第一の変換手段により変換される1つかそれ以上のエレ
メントを識別するためのドキュメント記述言語を用いた
第一の識別手段として作用し、各エレメントは該エレメ
ントに含まれる認識されたビットマップ・テクスチュア
ル・イメージに関するコード化キャラクタデータのタイ
プを指示するエレメント・タイプ識別名を包含してい
る。特定のキャラクタがキャラクタ・ストリング・エレ
メントとして識別されるエレメントに記録される一方
で、既定の信頼度で認識されないキャラクタを含むエレ
メントは、第一の識別手段により疑わしい・キャラクタ
・エレメントとして識別されたエレメントに記録され
る。
【0060】ワード認識装置400は、代替キャラクタ
を疑わしい・キャラクタ・エレメントに置き換え、置き
換えから生じたワードが辞書の中に存在するかどうかを
確認することによって、各疑わしい・キャラクタ・エレ
メントと、疑わしい・キャラクタ・エレメントと同じワ
ードの中の隣接する確信を持って認識されたキャラクタ
を、1つかそれ以上の確認済みワードに変換するための
第二の変換手段として;また、確認済み・ワード・エレ
メントの中に各確認済みワードを配置するためにドキュ
メント記述言語を用いる第二の識別手段として作用す
る。1つ以上の確認済み・ワード・エレメントが疑わし
い・キャラクタ・エレメントのために作られた場合、第
二の識別手段もまた1つ以上の確認済み・ワード・エレ
メントを代替・ワード・エレメントの中に配置する。第
二の識別手段は、未確認ワードが存在すると判断された
場合、疑わしい・ワード・エレメントを保持する。
【0061】次に、代替・ワード・エレメントが、代替
・ワード・エレメント内のどの確認済みワードが正しい
確認済みワードであるかを、代替・ワード・エレメント
を囲むワードに基づいて判断する手段として;また、正
しい確認済みワードを識別し、代替・ワード・エレメン
トを正しい確認済みワードを含むキャラクタ・ストリン
グ・エレメントで置き換えるための第三の識別手段とし
て作用する意味論解析器500に送られる。
【図面の簡単な説明】
【図1】 本発明を図示するために使用されるサンプル
ページイメージである。
【図2】 既定の信頼度で、またそれ以上で、認識され
たキャラクタの連続を集めるためのキャラクタストリン
グ・エレメントを示す。
【図3】 低い信頼度で認識された疑わしいキャラクタ
を集めるための疑わしいキャラクタエレメントを示す。
【図4】 高い信頼度で認識されたが辞書の中に見いだ
せなかったキャラクタを含む、疑わしいワードを集める
ための疑わしいワードエレメントを示す。
【図5】 1つかそれ以上の疑わしいキャラクタを含む
ワードを解決することにより、辞書の中に見いだされる
確認済みワードを集めるための確認済みワードエレメン
ト、及び2つかそれ以上の確認済みワードが疑わしいキ
ャラクタを含む1つのワードのために見つけられた時
に、代替ワードを集めるための代替ワードエレメントを
示す。
【図6】 同じフォントを持つテキスト・エレメントを
集めるためのテキスト・エレメントを示す。
【図7】 フォントタイプに関するデータを集めるため
のフォントデフ・エレメントを示す。
【図8】 ライン・セグメントに関するデータを集める
ためのセグメント・エレメントであるグラフィックス・
エレメントの一例を示す。
【図9】 弓形に関するデータを集めるための弓形エレ
メントであるグラフィックス・エレメントの別例を示
す。
【図10】 大きな未解決のビットマップ・イメージに
関するデータを集めるためのイメージ・エレメントであ
るグラフィックス・エレメントの別例を示す。
【図11】 スポットと称される小さな未解決のビット
マップ・イメージに関する情報を集めるため、及び該情
報を16進法の値として記憶するためのスポット・エレ
メントであるグラフィックス・エレメントの別例を示
す。
【図12】 その他のエレメントに関するエレメントの
実例を示す。
【図13】 テキストのブロックに関する情報を集める
ためのtブロック・エレメントを示す。
【図14】 その他のフレームと共に、テキストブロッ
ク、イメージ、スポット、弓形、セグメントを含むこと
ができるフレームに関する情報を集めるためのフレーム
・エレメントを示す。
【図15】 ページに関するデータを集めるためのペー
ジ・エレメントを示す。
【図16】 ページの境界線を越えるエレメントのグル
ープに関する情報を集めるためのグループ・エレメント
を示す。
【図17】 全ドキュメントに関するデータを集めるた
めのdrストリーム・エレメントを示す。
【図18】 ドキュメントを記述するために必要な全て
の構文(syntax)を集めたものである。
【図19】 ドキュメントを記述するために必要な全て
の構文(syntax)を集めたものである。
【図20】 ドキュメントを記述するために必要な全て
の構文(syntax)を集めたものである。
【図21】 ドキュメントを記述するために必要な全て
の構文(syntax)を集めたものである。
【図22】 ドキュメントを記述するために必要な全て
の構文(syntax)を集めたものである。
【図23】 本発明を用いてビットマップ・イメージを
コード化データストリームに入力・変換するためのシス
テムのブロック図である。
【図24】 本発明を用いた時の図23のシステムによ
り実施される手順を示すフローチャートである。
【図25】 本発明を用いた時の図23のワード認識装
置により実施される手順を示すフローチャートである。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメント変換プロセスにおける不確
    定性に関する情報を記録するため、ビットマップ・イメ
    ージとして表されるドキュメントを、ドキュメント記述
    言語を用いて編集可能なコード化データストリームに変
    換する方法であって、 少なくとも該ビットマップ・イメージの一部を1つもし
    くはそれ以上の該ドキュメント記述言語を用いて選択的
    に識別されたエレメントに変換するために、第一の認識
    装置を用いて該ビットマップ・イメージの少なくとも前
    記一部に第一の変換操作を行うステップからなり、各エ
    レメントは該エレメントに含まれる認識されたビットマ
    ップ・イメージに関するコード化情報のタイプを指示す
    るエレメント・タイプ識別名を含み、前記第一の認識装
    置が、エレメントに含まれる認識されたビットマップ・
    イメージは少なくとも既定の信頼度で認識されていない
    と判断した場合、該エレメントに含まれる前記認識され
    たビットマップ・イメージに関して、各エレメントもま
    た該第一の認識装置により判断された不確定情報を含ん
    でいる変換方法。
JP35615892A 1991-12-27 1992-12-18 ドキュメントの解読又は解釈を行う装置 Expired - Fee Related JP3640972B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US814347 1991-12-27
US07/814,347 US5359673A (en) 1991-12-27 1991-12-27 Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities

Publications (2)

Publication Number Publication Date
JPH05307638A true JPH05307638A (ja) 1993-11-19
JP3640972B2 JP3640972B2 (ja) 2005-04-20

Family

ID=25214790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35615892A Expired - Fee Related JP3640972B2 (ja) 1991-12-27 1992-12-18 ドキュメントの解読又は解釈を行う装置

Country Status (5)

Country Link
US (1) US5359673A (ja)
EP (1) EP0549329B1 (ja)
JP (1) JP3640972B2 (ja)
CA (1) CA2080966C (ja)
DE (1) DE69230784T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212293A (ja) * 1995-01-31 1996-08-20 Toshiba Corp Sgmlタグ付与処理システム
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JP2006106729A (ja) * 2004-09-30 2006-04-20 Microsoft Corp 可読性を損なわない複雑文字の簡略化
JP2021005160A (ja) * 2019-06-25 2021-01-14 富士ゼロックス株式会社 情報処理装置及びプログラム

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5499329A (en) * 1992-04-30 1996-03-12 Ricoh Company, Ltd. Method and system to handle context of interpretation in a document processing language
JPH06236367A (ja) * 1992-11-12 1994-08-23 Ricoh Co Ltd 文書作成装置の制御方法
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US6501853B1 (en) * 1994-06-27 2002-12-31 International Business Machines Corporation Apparatus and method for processing video data
US5535313A (en) * 1994-07-18 1996-07-09 Motorola, Inc. Automated quality control in a document conversion system
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems Inc Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
US5752057A (en) * 1994-10-27 1998-05-12 Shira Computers Ltd. Method for conversion of a color electronic pre-press system data file to a page description language data file
US6055064A (en) * 1994-10-27 2000-04-25 Shira Computers Ltd. Method for conversion of a color electronic pre-press system data file to a page description language data file
US5649024A (en) * 1994-11-17 1997-07-15 Xerox Corporation Method for color highlighting of black and white fonts
US5668891A (en) * 1995-01-06 1997-09-16 Xerox Corporation Methods for determining font attributes of characters
EP0733965B1 (en) * 1995-03-23 2001-12-05 Agfa-Gevaert N.V. Parallel processing of page description language data stream
US6003048A (en) * 1995-04-27 1999-12-14 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6115723A (en) * 1995-04-27 2000-09-05 International Business Machines Corporation System and method for converting a coordinate based document to a markup language (ML) based document
US6230173B1 (en) * 1995-07-17 2001-05-08 Microsoft Corporation Method for creating structured documents in a publishing system
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US5850474A (en) * 1996-07-26 1998-12-15 Xerox Corporation Apparatus and method for segmenting and classifying image data
US6870633B1 (en) * 1996-09-30 2005-03-22 Brother Kogyo Kabushiki Kaisha Printing device
US5893127A (en) * 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US5970483A (en) * 1997-07-25 1999-10-19 Claritech Corporation Apparatus and methodology for submitting search queries
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
JPH11102414A (ja) 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH11110480A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp テキストの表示方法およびその装置
US7046857B2 (en) * 1997-07-31 2006-05-16 The Regents Of The University Of California Apparatus and methods for image and signal processing
US6154208A (en) * 1997-10-06 2000-11-28 Canon Kabushiki Kaisha Proxy mechanism for non-native GDI formats
JP3997026B2 (ja) * 1999-01-29 2007-10-24 キヤノン株式会社 フォーム編集方法及び装置及びコンピュータ読取り可能なプログラムが格納された記憶媒体
US6546133B1 (en) * 1999-09-08 2003-04-08 Ge Capital Commercial Finance, Inc. Methods and apparatus for print scraping
US6850643B1 (en) * 1999-09-08 2005-02-01 Ge Capital Commercial Finance, Inc. Methods and apparatus for collateral risk monitoring
US6850908B1 (en) * 1999-09-08 2005-02-01 Ge Capital Commercial Finance, Inc. Methods and apparatus for monitoring collateral for lending
US7139004B2 (en) 2002-01-25 2006-11-21 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US7136082B2 (en) 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US8693043B2 (en) * 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US20060002614A1 (en) * 2004-06-30 2006-01-05 Alliances Artquest International Inc. Raster-to-vector conversion process and apparatus
ITTO20040467A1 (it) * 2004-07-08 2004-10-08 Bankersoft S R L Procedimento e sistema di introduzione di dati
US8677274B2 (en) * 2004-11-10 2014-03-18 Apple Inc. Highlighting items for search results
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
CA2916780C (en) * 2007-04-02 2020-12-22 Esight Corp. An apparatus and method for augmenting sight
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US11610653B2 (en) * 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
WO2014160426A1 (en) 2013-03-13 2014-10-02 Kofax, Inc. Classifying objects in digital images captured using mobile devices
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
RU2571396C2 (ru) * 2014-03-26 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система для верификации в процессе чтения
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9928410B2 (en) * 2014-11-24 2018-03-27 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognizer
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
JP6769045B2 (ja) * 2016-02-29 2020-10-14 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
US4136395A (en) * 1976-12-28 1979-01-23 International Business Machines Corporation System for automatically proofreading a document
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4654875A (en) * 1983-05-23 1987-03-31 The Research Foundation Of State University Of New York System to achieve automatic recognition of linguistic strings
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
US4760604A (en) * 1985-02-15 1988-07-26 Nestor, Inc. Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
JP2614252B2 (ja) * 1988-01-19 1997-05-28 キヤノン株式会社 画像合成装置
US4914709A (en) * 1989-06-02 1990-04-03 Eastman Kodak Company Method for identifying unrecognizable characters in optical character recognition machines
US4974260A (en) * 1989-06-02 1990-11-27 Eastman Kodak Company Apparatus for identifying and correcting unrecognizable characters in optical character recognition machines
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
US5251273A (en) * 1992-04-15 1993-10-05 International Business Machines Corporation Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212293A (ja) * 1995-01-31 1996-08-20 Toshiba Corp Sgmlタグ付与処理システム
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JP2006106729A (ja) * 2004-09-30 2006-04-20 Microsoft Corp 可読性を損なわない複雑文字の簡略化
JP2021005160A (ja) * 2019-06-25 2021-01-14 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
CA2080966A1 (en) 1993-06-28
EP0549329A2 (en) 1993-06-30
EP0549329A3 (ja) 1994-04-20
EP0549329B1 (en) 2000-03-15
JP3640972B2 (ja) 2005-04-20
US5359673A (en) 1994-10-25
CA2080966C (en) 1996-08-13
DE69230784D1 (de) 2000-04-20
DE69230784T2 (de) 2000-07-27

Similar Documents

Publication Publication Date Title
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
Fischer et al. Ground truth creation for handwriting recognition in historical documents
Guo et al. Separating handwritten material from machine printed text using hidden markov models
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
EP0544430B1 (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US7705848B2 (en) Method of identifying semantic units in an electronic document
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
JP2713622B2 (ja) 表形式文書読取装置
RU2631168C2 (ru) Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
RU2625533C1 (ru) Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
JPH11161736A (ja) 文字認識方法
StevensÝ et al. Automatic processing of document annotations
JPH04175966A (ja) 文書論理構造生成方法
Kumar et al. Lipi Gnani: a versatile OCR for documents in any language printed in Kannada script
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
WO1999041681A1 (fr) Procede d'analyse de structure d'image de document
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
RU2625020C1 (ru) Устройства и способы, которые порождают параметризованные символы для преобразования изображений документов в электронные документы
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20001121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees