JPH1075351A

JPH1075351A - テキストのバイナリー画像から抽出されたシンボルを比較する方法

Info

Publication number: JPH1075351A
Application number: JP9135587A
Authority: JP
Inventors: J Rutsukuritsuji William; ウイリアム・ジェイ・ルックリッジ; P Futsutenrotsuchiyaa Daniel; ダニエル・ピー・フッテンロッチャー; W Jiyakuisu Eric; エリック・ダブリュー・ジャクィス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1996-05-30
Filing date: 1997-05-26
Publication date: 1998-03-17
Anticipated expiration: 2017-05-26
Also published as: JP4098845B2; US5835638A

Abstract

(57)【要約】【課題】テキストのバイナリー画像から抽出されたシ
ンボルを等価クラスに分類するために比較する方法を提
供する。【解決手段】ａ）シンボル画像の前記第１ビットマップ
に関してトポロジー保存式の拡張表示を生成し；ｂ）シ
ンボル画像の前記第１ビットマップの前記トポロジー保
存式拡張表示をシンボル画像の前記第２ビットマップと
比べて、整合性が存在するかどうかを決定し；ｃ）整合
性が存在する場合には、シンボル画像の前記第２ビット
マップのトポロジー保存式拡張表示を生成し；ｄ）シン
ボルの前記第２ビットマップの前記トポロジー保存式拡
張表示をシンボル画像の前記第１ビットマップと比べ
て、整合性が存在するかどうかを決定し；ｅ）整合性が
存在する場合には、シンボル画像の前記第１ビットマッ
プがシンボル画像の前記第２ビットマップに整合するこ
とを表示する各ステップから構成される比較方法。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストの走査画
像の処理の分野に関するものであり、より詳細には、テ
キストの前記走査画像から抽出されたシンボルを等価ク
ラスに分類するために比較することに関する。

【０００２】

【従来の技術】テキストの走査画像を操作することは、
当たり前のことになった。テキストの走査画像は、テキ
ストを包含する媒体のビットマップ表示である。画像圧
縮及び光学的文字認識（ＯＣＲ）のような画像処理作業
を実行する所定のアプリケーションは、シンボルを等価
クラスにグルーピングすることによって実行されること
が可能である。言い換えれば、類似の形状を有するシン
ボルが識別されるのである。シンボルのこのグルーピン
グは、シンボル分類法とも呼ばれる。画像圧縮の場合、
このグルーピングは、当該形状が位置決めされるべき媒
体の上における位置を表示する位置情報と共に当該グル
ープが形状（例えば文字又は数字）の単一事例によって
表示されることを許容する。ＯＣＲの場合には、グルー
ピングは、事例が特定の文字であることを表示する。

【０００３】シンボル整合性に基づく画像圧縮の具体例
は、１９９４年４月１２日に発行されたマーク他（Mark
et al）の「画像の圧縮のための方法並びに装置（Meth
od and Apparatus For Compression Of Images）」とい
うタイトルの米国特許第５，３０３，３１３号（’３１
３号特許）において説明されている。’３１３号特許で
は、画像は、シンボル整合化に先立って「事前圧縮（Pr
ecompressed）」される。’３１３号特許は、そのよう
な圧縮のためにラン長さの符号化を使用することを説明
する。シンボルは、ラン長さの表示から抽出される。投
票機構が、シンボル整合性の精度を改善するために、複
数の類似性テストと共に使用される。’３１３号特許
は、更に、テンプレートがシンボル整合性に基づいて修
正され得るようにしたテンプレート合成機構をも開示す
る。

【０００４】シンボル整合化に関するもう１つの技術
は、ハウスドルフ方式として知られている。ハウスドル
フ方式は、距離測定技術を使用するものであり、フッテ
ンロクサー他（Huttenlocher et al）によって、１９９
１年６月の「ハウスドルフ距離を使用する画像比較（Co
mparing Images Using the Hausdorff Distance）」
（ＴＲ９１−１２１１号）、及び１９９２年１２月の
「ハウスドルフ距離を使用する画像比較のためのマルチ
解像技術（A Multi-Resolution Technique for Compari
ng Images Using the Hausdorff Distance）」（ＴＲ９
２−１３２１号）において説明されている。これらは、
両者とも、コーネル大学のコンピュータ科学学部（Depa
rtment of Computer Science, Cornell University）に
よって発行されたものである。ハウスドルフ距離は、バ
イナリー画像を比較するために使用されることが可能で
ある点集合を比較するための手段である。詳細には、任
意の２つの有限点集合Ａ及びＢとすれば、ハウスドルフ
距離は、以下のように定義される：Ｈ（Ａ，Ｂ）＝ｍａｘ（ｈ（Ａ，Ｂ），ｈ（Ｂ，Ａ））その場合に、そして、｜ａ−ｂ｜は、２つの任意の点ａ及びｂの間の
距離である。

【０００５】関数ｈ（Ａ，Ｂ）は、Ａの各々の点をＢの
最も近い点に対するその距離に基づいてランク付けし、
最大にランク付けされるそのような点（最も整合しない
点）が、その距離の値を指定する。従って、ｈ（Ａ，
Ｂ）＝δ（デルタ）である場合、これは、Ａの各々の点
がＢの所定の点の距離δの範囲内にあることを意味す
る。関数Ｈ（Ａ，Ｂ）は、２つの非対称距離の最大値で
あり、従って、Ｈ（Ａ，Ｂ）＝δである場合、これは、
Ａの各々の点がＢの所定の点のδの範囲内にあって、逆
もまた同じであることを意味する。ハウスドルフ距離
は、このようにして、δの値が大きくなるにつれて画像
の間の類似性が小さくなることを表示するものであり、
２つのバイナリー画像（即ち有限点集合）の間の類似性
の基準を提供するのである。

【０００６】ハウスドルフ距離に由来するもう１つの技
術は、シンボルが比較されているとき、シンボルを拡張
することである。シンボルの拡張は、各々の「オン」ピ
クセルを１組（概ね小さな）の「オン」ピクセルに置換
することによって構成される。画像をもう１つの画像と
比較する前に、画像を半径１（４個の直接的な隣接物）
又は半径１．５（８個の直接的な隣接物）の円板によっ
て拡張することによれば、量子化の影響は、最小化され
ることが可能である。

【０００７】

【発明が解決しようとする課題】そのような拡張を使用
するビットマップ比較に関する１つの技術が、ここで説
明される。任意の２つの画像ビットマップが与えられ、
それらをＡ及びＢと呼び、半径δの円板によるＢの拡張
をＢδと呼び、Ａ及びＢδの論理積内における「オン」
ピクセルの個数をカウントし、Ａの「オン」ピクセルの
個数によって割算するものとする。この比率が大きくな
れば、Ｂに対するＡの整合性がより良好になる（１．０
が完全な整合性を示す）のである。

【０００８】

【課題を解決するための手段】テキストのバイナリー画
像から抽出されたシンボルを等価クラスに分類するため
に比較する方法並びに装置が開示される。等価クラスへ
のシンボルの分類は、画像圧縮及び光学的文字認識のよ
うな画像処理作業を可能とするために使用される。本発
明は、シンボル整合化プロセスの間に発生する不正確な
比較によって引き起こされるエラーの個数を最小化しよ
うと努めるものである。そのようなエラーは、典型的に
は、走査プロセスの間に発生する量子化の影響の故に発
生する可能性がある。量子化の影響は、典型的には、ピ
クセルが黒から白に変化するシンボルの境界線に沿って
エラーを発生させることになる。

【０００９】本発明は、ビットマップの類似性を比較す
るハウスドルフ類似方式に基づくものである。ビットマ
ップＡの中に包含されたシンボル及びビットマップＢの
中に包含されたシンボルを考慮するものとする。関係す
る内容は、ビットマップＡの中に包含されたシンボルが
ビットマップＢの中に包含されたシンボルと整合するか
どうかということである。本発明のシンボル整合化ステ
ップは、以下の通りに構成される：ビットマップＡの
中に包含されたシンボルの拡張表示を包含する第１の比
較ビットマップを作成し、ビットマップＢの中に包含さ
れたシンボルのサイズに基づいて第１のエラー許容値を
決定し、ビットマップＢの中に包含されたシンボルが第
１エラー許容値の閾値内において第１比較ビットマップ
の中に包含される拡張されたシンボルの中に納まるかど
うか、更に過剰なエラー密度が存在しないかどうかを決
定し、それが肯定である場合には、ビットマップＢの中
に包含されたシンボルの拡張表示を包含する第２の比較
ビットマップを作成し、ビットマップＡの中に包含され
たシンボルのサイズに基づいて第２のエラー許容値を決
定し、ビットマップＡの中に包含されたシンボルが第２
エラー許容値の閾値内において第２比較ビットマップの
中に包含される拡張されたシンボルの中に納まるかどう
か、更に過剰なエラー密度が存在しないかどうかを決定
し、両者が適合して過剰なエラー密度が存在しない場合
には、ビットマップＡがビットマップＢに整合すること
を表示するのである。最後に、整合性が決定されると
き、ビットマップの一方を他方に対してシフトさせるこ
とによって「最適整合性」位置を発見し、最もエラーが
少ない位置を識別することになる。

【００１０】上述したように、量子化の影響は、シンボ
ルの境界線に沿ってエラーを導入する可能性がある。そ
のような量子化エラーは、２つの様式で処理される：
１）トポロジー保存式の拡張の使用と、２）非線形のエ
ラー許容値機構の使用という２つの様式である。トポロ
ジー保存式拡張は、シンボルは「肥大化」されるがシン
ボルの局所的なトポロジー（即ち連続性）は変更されな
いものである。そのような拡張は、「オン」ピクセルに
隣接する「オフ」ピクセルに１組の局所的なルールを適
用することによって実行される。非線形エラー許容値機
構は、小さなシンボルはエラーを少ししか提供しないか
又は全く提供しないが、大きなシンボルは釣り合った大
量のエラーを提供するはずであるというアイデアに従う
ものである。

【００１１】

【発明の実施の形態】図１は、本発明を利用することが
可能であるアプリケーションによって実行されるステッ
プを示すフローチャートである。図２は、本発明の現在
の好適な実施例のシンボル比較及び等価クラス分類にお
いて使用されるシンボルの辞書のためのデータ構造のブ
ロック表示である。図３は、本発明の現在の好適な実施
例において実行され得るシンボル比較及び等価クラス分
類の過程において図２のシンボル辞書を使用するために
実行されるステップを示すフローチャートである。図４
は、本発明の現在の好適な実施例において実行され得る
ビットマップの中に包含されたシンボルの整合化のため
のフローチャートである。図５は、エラー許容値とシン
ボルのサイズの間の関係を示すダイヤグラムである。図
６は、本発明の現在の好適な実施例における隣接ピクセ
ルのアイデアを示すダイヤグラムである。図７は、「オ
ン」ピクセルに隣接する「オフ」ピクセルが「オン」さ
れないときの「例外的な」ピクセルの構成を示す。図８
は、図７の構成における「オフ」ピクセルであるが、そ
れにも関わらず「オン」されるようにした、図７の例外
に対する例外を示す。図９は、本発明の現在の好適な実
施例が利用されることが可能であるコンピュータベース
のシステムのブロックダイヤグラムである。

【００１２】テキストのバイナリー画像から抽出された
シンボルを等価クラスに分類するために比較する方法並
びに装置が開示される。本発明は、光学的文字認識（Ｏ
ＣＲ）データ暗号化又は画像圧縮のような種々のアプリ
ケーションにおいて使用されることが可能である。その
ようなアプリケーションは、総合的な画像処理システム
の一部として、或いはスタンドアロン型のアプリケーシ
ョンとして提供されることも可能である。本発明の現在
の好適な実施例は、テキスト画像データ圧縮を実行する
ためのコンピュータベースのシステムにおいて機能する
ソフトウェアとして実行される。そのようなソフトウェ
アは、磁気ハード・ディスク又はディスケット、ＣＤ−
ＲＯＭのような光学ディスク、記憶媒体を有するＰＣＭ
ＣＩＡカードなどのような適当な記憶媒体に分散される
か又は常駐するものであることも可能である。

【００１３】以下の用語及びそれらの意味は、本文の説
明において使用されるものである：

【００１４】画像とは、媒体のマーキング又は外観を指
す。

【００１５】画像データとは、画像を再現するために使
用されることが可能である画像表示を指す。

【００１６】等価クラスとは、画像の外観を不都合な様
式で変化させることなく互いに置換され得るようにし
た、画像の中に見出される１組のシンボルである。

【００１７】等価クラスの標本は、画像が圧縮解除され
又はその他の方法で再現されるとき、等価クラスのあら
ゆる要素に置換されることになる、ビットマップであ
る。

【００１８】抽出されたシンボル又はシンボルは、画像
データから獲得された媒体の上におけるマーキングのビ
ットマップ、ラン長さ又はその他の標準的な符号化の形
態にある画像表示である。

【００１９】シンボル辞書又は辞書は、等価クラスを組
織化し維持するために使用される構造であり、画像が圧
縮解除され又はその他の方法で再現されるときばかりで
なく、分類プロセスにおいても使用される。

【００２０】現在の好適な実施例のシステムは、等価ク
ラスのリスト（辞書とも呼ばれる）を利用し維持するも
のである。抽出されたシンボルは、それが既存の等価ク
ラスに追加されるべきであるかどうかを決定するため
に、等価クラスの標本と比較される。整合性が存在しな
い場合には、新しい等価クラスが、抽出されたシンボル
に従って標本として作成される。

【００２１】上述したように、本発明は、様々なアプリ
ケーションにおいて使用されることが可能である。図１
は、本発明を利用するアプリケーションの一般的なステ
ップを説明するフローチャートである。先ず、ステップ
１０１で、画像データを作成するために、原稿が走査さ
れる。その画像データは、典型的には、画像のビットマ
ップ表示である。以下で説明されるように、走査ステッ
プは、エラー又はノイズを導入する可能性がある量子化
の影響を有するものである。続いて、ステップ１０２で
は、テキスト及び画像の画像クリーンアップ又はセグメ
ント分割のような種々の演算が、画像データに関して実
行され得ることになる。本発明によって処理されるもの
は、テキスト部分である。画像データのテキスト部分
は、続いて、ステップ１０３において、各々のピクセル
が単一ビットで表現される表示を作成するために、例え
ば所定の閾値化技術によって、バイナリー表示に変換さ
れる。「黒」即ち「オン」のピクセルは、典型的には、
二進法の値１によって表現され、一方、「白」即ち「オ
フ」のピクセルは、二進法の０として表現される。シン
ボル分類が始まるのは、このポイントである。

【００２２】先ず、ステップ１０４で、新しい個別的な
シンボルがテキスト画像データから抽出される。現在の
好適な実施例では、この抽出は、バイナリー画像の接続
要素分析によって行われることになる。接続要素分析
は、典型的には、隣接するものであり従ってシンボルを
形成している「黒」即ち「オン」のピクセルの集合を発
見するプロセスである。当該分野では接続要素分析を実
行するための様々な技術が知られており、いかなる技術
であっても本発明において適切に使用されることにな
る。抽出されたシンボルは、上部左側のコーナーを原点
とする座標系における境界設定ボックスによって表現さ
れる。境界設定ボックスは、抽出されたシンボルのピク
セルから構成されるバイナリー値を内容とする。続い
て、抽出されたシンボルは、ステップ１０５において、
抽出されたシンボルの物理的寸法と同じであるか又は類
似するものである、シンボル辞書内に記憶されている先
に抽出されたいずれかのシンボルに整合するかどうかが
決定される。その物理的寸法は、典型的には、そのシン
ボルを内包する境界設定ボックスによって表現される。
分類プロセスの心臓部が、この比較ステップである。整
合性が見出される場合、抽出されたシンボルは、ステッ
プ１０６において、整合したシンボルの等価クラスに追
加される。新しいシンボルがいずれの等価クラスにも納
まらない場合には、ステップ１０７において、新しい等
価クラスが作成される。現在の好適な実施例では、既存
のクラスに追加されるシンボルの正確な形状は、以下で
説明されるように収容プロセスを保留してセーブされ
る。１０４から１０７までのステップは、その後、ステ
ップ１０８において、画像内におけるすべてのシンボル
に関して繰り返される。

【００２３】現在の好適な実施例で実行されるようなシ
ンボル分類のプロセスは、図２及び図３を参照して説明
される。図２は、現在の好適な実施例の整合化プロセス
において使用される、本文ではシンボル辞書と呼ばれる
データ構造のブロック表示である。図２を参照すると、
テーブル２０１は、シンボルの境界設定ボックスの寸法
によってインデックスを付けられる内容を有する。例え
ばテーブル・エントリー２０４のような各々のテーブル
・エントリーは、連結式データ構造によって連結される
１つ又はそれ以上の等価クラス２０２を指示する（即ち
指し示す）ものであることが可能である。各々の等価ク
ラス２０２は、当該クラスの中のシンボル２０３に関す
る事例のもう１つの連結式リストによって構成される。
シンボルの各々の事例は、事例が見出され得る媒体の上
における位置情報を内包するデータ構造、事例のビット
マップ、及び「最適整合位置」を識別する情報によって
表現される。以下で詳細に説明されるように、最適整合
位置は、事例がクラスの標本と最適に整合する実行可能
なシフト位置を表示する。

【００２４】現在の好適な実施例において、テーブル２
０１は、ハッシュテーブルである。ハッシュテーブル
は、ハッシュテーブルのサイズを基準として応答する任
意の関数を使用して「多数から少数への」マッピングが
行われる周知の構造である。この特性は、同じ寸法のも
のであるシンボルの連結リストを維持し且つそれにアク
セスするために使用される。連結リストは、リスト内の
節点の事例がリスト内における次の節点を指し示す周知
の構造である。図２において説明されたデータ構造は、
本発明の範囲を限定するものとしては意図されていない
ことが留意されるべきである。等価クラスの機構及びそ
れに対する比較を維持するための代替的なデータ構造の
使用は、本発明の精神及び範囲から引き離すことにはな
らない。

【００２５】図２において説明されたシンボル辞書は、
潜在的なシンボル整合性の照合を可能にするために使用
されるダイナミックな構造である。図３のフローチャー
トは、シンボル辞書の使用に関して整合化プロセスを説
明するものである。先ず、ステップ３０１では、ハッシ
ュ関数が、潜在的な整合性を内包するハッシュテーブル
・エントリーを発見するために、抽出されたシンボルの
寸法（即ち幅及び高さ）に関して実行される。このエン
トリーは、ステップ３０２において、チェックすべき等
価クラスが存在するかどうかを決定するために審査を受
ける。そのエントリーは、それが空ではなく、連結リス
トが先行する整合化の試みにおいて既に完全にトラバー
スされていない場合には、検査するための等価クラスを
有する。等価クラスが識別されると、続いて、ステップ
３０３において、抽出されたシンボルと等価クラスの標
本が整合するかどうかが決定される。等価クラスの標本
は、１）等価クラスが作成される原因となったシンボル
であるか、又は２）等価クラスを「収容（committin
g）」する過程で作成される平均的なシンボル（以下で
説明される）のいずれかである。シンボル比較の細部
は、以下で詳細に説明される。いずれにせよ、連結リス
ト内の標本の１つとの整合性が生じる場合には、続い
て、そのシンボルは、ステップ３０４において、対応す
る等価クラスに追加される。シンボルを等価クラスに追
加することは、それを等価クラスのデータ構造に追加す
ることを必然的に伴う。整合性が生じない場合には、連
結リストが、ステップ３０５において、更にトラバース
され、ステップ３０２によって比較すべきもう１つの等
価クラスが存在するかどうかの決定が為される。

【００２６】現在のシンボルテーブル・エントリーに関
して連結リスト内に等価クラスがもはや存在しない場
合、ステップ３０６において、すべての類似サイズの等
価クラスがチェックされたかどうかを決定するためのチ
ェックが為される。それらがチェックされていない場合
には、ハッシュテーブル・エントリーを決定するために
使用されたサイズパラメータは、類似サイズのものに修
正され、ステップ３０１によって新しいテーブル・エン
トリーがアクセスされる。すべての類似サイズの等価ク
ラスがチェックされていた場合には、ステップ３０７に
よって新しい等価クラスが作成される。この新しい等価
クラスは、抽出されたシンボルのオリジナルのサイズに
対応するテーブル・エントリーの連結リスト内における
シンボル辞書の中に配置される。

【００２７】シンボル分類の過程において実行される２
つのその他のステップは、シンボル辞書管理として考察
されることが可能である。一方は収容であり、もう一方
は等価クラスの併合である。収容は、抽出されたシンボ
ルの所定の個数（例えば１０個）が等価クラスの一部に
なるときに呼び出されるプロセスである。収容プロセス
は、平均的な等価クラスの標本が最終決定され、即ちそ
のクラスを表示するビットマップが収容されることにな
る、プロセスである。このステップの前には、等価クラ
スの標本は、単にそのクラスを作成する原因となった第
１のシンボルであるに過ぎなかったのである。平均的な
クラス標本は、そのクラス内におけるすべてのシンボル
に関するより正確な表示である。これは、クラスの要素
であるシンボルを表示するビットマップを「平均化」す
ることによって獲得される。平均化は、異なったピクセ
ル位置の各々において「オン」ピクセルを有する（それ
らの「最適整合」位置合わせにおける）クラスの要素の
個数のカウントを内容とするヒストグラムを維持するこ
とによって達成される。標本は、このヒストグラムを閾
値化することによって生成される。即ち、最終的な標本
において、対応するピクセル位置が所定の閾値を越える
場合に、ピクセルが「オン」になる。閾値は、標本内に
おける「オン」ピクセルの個数がクラスの要素内におけ
る「オン」ピクセルのメジアン数値に可能な限り近いよ
うにして選択される。

【００２８】一旦、最終的な標本が生成されると、すべ
てのシンボルは、それらが平均的なクラス標本に整合す
ることを確認するためにチェックを受ける。このチェッ
クは、上述したものと同じ判定基準を使用する。平均的
なクラス標本に整合しないそれらのシンボルは、等価ク
ラスから取り除かれ、新たに抽出されたシンボルとして
処理される（即ち、それらは既存の等価クラスなどに対
して整合化される）。

【００２９】より正確なクラス標本を提供する以外に
も、平均化は、クラスの要素のビットマップによって占
有されるメモリ資源を解放することによって総合的な比
較プロセスを促進するものである。

【００３０】併合は、等価クラスの標本が比較されて、
それらが併合される（即ち結合される）ことが可能かど
うかを決定するプロセスである。併合は、それが等価ク
ラスの総数を削減するので、望ましいことである。等価
クラスの個数を削減することは、結果としてパフォーマ
ンスを改善する。現在の好適な実施例では、併合は、す
べてのシンボルが処理されて等価クラスが作成された後
に第２のパスとして生じる。しかしながら、それは、当
該プロセスにおける様々なチェックポイントにおいて
（例えばマルチページ文書の各々のページが処理された
後に）実行されることも可能である。その併合プロセス
は、上述の整合化プロセスがクラス標本の集合に適用さ
れ、それらの標本が整合する場合に２つのクラスが結合
されるというものであるに過ぎない。

【００３１】等価クラスの収容及び併合のプロセスは、
以下に説明される画像圧縮／圧縮解除の実施例に特に関
連するものである。

【００３２】上述したように、シンボルの整合化は、分
類プロセスの心臓部である。現在の好適な実施例の整合
化技術は、改良されたハウスドルフ類似の方式である。
２つのシンボルの比較は、両方向性である。２つのビッ
トマップＡ及びＢが、同じ形状の２つの事例をそれらが
表示しているかどうかを決定するために比較されること
を想定するものとする。各々のビットマップは、「オ
フ」（「白い」点）である背景の点に対してオン（「黒
い」点）にされる数多くの点を内包する。

【００３３】整合化の目的のため、２つの新しいビット
マップが、オリジナルのビットマップの拡張したバージ
ョンであるＡδ及びＢδとして計算される。現在の好適
な実施例では、その拡張は、トポロジー保存式である。
即ち、局所的な連続性はオリジナルと同じであるが、シ
ンボルの境界線が僅かに肥大化されるのである。そのよ
うな拡張のための好適な技術は、以下で詳細に説明され
る。拡張したバージョンは、シンボルの境界線を混乱さ
せる可能性がある量子化及びその他の影響から生じる妥
当な「ノイズ」に関して許容範囲を提示するものであ
る。続いて、Ａ内における黒い点の大部分がＢδの形状
の内部に位置するかどうか、更にＢ内における黒い点の
大部分が形状Ａδの内部に位置するかどうかを確認する
テストが行われる。これらのテストの両方に合格する
と、Ａ及びＢは、同じ形状を表示する（即ちそれらは整
合する）ものであると結論される。

【００３４】このテストの背後の合理性は、Ａ及びＢが
同じシンボルを表示する（即ち同じ形状を有する）なら
ば、それらの境界線が（大部分に関して）整合するはず
であるという印刷及び走査プロセスのモデルにある。し
かしながら、走査プロセスは所定密度における点のサン
プリングの１つであるので、各々のシンボルの境界線は
サンプリングを実行するピクセル・グリッドの故に１つ
又は２つのピクセルだけシフトされてしまうかもしれな
い。従って、Ａの境界線がＢの境界線に接近して位置す
るならば、ＡはＢδ（それは１ビット肥大しているの
で）の内部に位置することになり、逆もまた同じである
ことになる。一方の方向のみを使用することは、１つの
シンボルが他のシンボルの部分集合と似ているとき、例
えば文字「Ｏ」及び文字「Ｑ」のような場合、間違った
整合性を算出する可能性があるので、両方向のテストが
必要であると留意されるべきである。

【００３５】比較が為される様式は、以下の具体例を参
照して説明される。この具体例において、ビットマップ
Ａは、ビットマップＢに対して比較される。即ち、Ｂが
所定の許容範囲内でＡの内部に納まるか？である。これ
が肯定で答えられ得る場合には、「他の」側面、即ちＡ
がＢの内部に納まるか？に関して同じステップが実行さ
れる。整合性を決定する各ステップは、図４のフローチ
ャートにおいて説明される。簡潔さのために、比較の一
方の側面のみが説明されている。図４を参照すると、ス
テップ４０１では、トポロジー保存式の拡張が、ビット
マップＡ内のシンボルの拡張表示（拡張ビットマップＡ
と呼ばれる）を作成するために、ビットマップＡにおい
て実行される。そのような拡張を実行するステップは、
以下で詳細に説明される。続いて、ステップ４０２で
は、拡張ビットマップＡ及びビットマップＢに関してエ
ラービットマップが計算される。エラービットマップ
は、拡張ビットマップＡの中には存在しないビットマッ
プＢ内における「オン」ピクセルを表示する。現在の好
適な実施例において、エラービットマップは、拡張ビッ
トマップＡに関するものであり、先ず拡張ビットマップ
Ａの値を逆転させ（即ち１を０に変換し、逆もまた同じ
く変換する）、続いてビットマップＢとの論理積関数を
実行することによって計算される。その結果、１の値を
有するエラーピクセルは、ビットマップＢが拡張ビット
マップＡの内部に納まらないことを表示する。更に、各
々のビットマップは、その原点が上部左側のコーナーに
位置するようにして表示されることが留意されるべきで
ある。この位置合わせに基づいて、論理積が対応するピ
クセルにおいて実行されるのである。本文において生成
されるエラービットマップが、先行技術のエラービット
マップ（典型的には２つのビットマップの排他的論理
和）とは異なっていることもまた注目に値する。排他的
論理和は、ビットマップＢが拡張ビットマップＡの内部
に納まらない場合だけでなく、拡張ビットマップＡがビ
ットマップＢにオーバーラップしない場合にも、値１の
エラーピクセルを作成するので、単純な排他的論理和
は、本発明では機能しないことになる。１の値を有する
エラービットマップ内におけるエラーピクセルの個数
は、続いて、ステップ４０３において、エラーカウント
を算出するようにカウントされる。

【００３６】続いて、ステップ４０４では、エラー許容
値が、ビットマップＢの中に内包されるシンボルのサイ
ズに基づいて決定される。このエラー許容値は、ノイズ
の影響及びその他の量子化の影響を考慮に入れてエラー
の閾値を定義する。現在の好適な実施例では、エラー許
容値は、小さなシンボルには許容値が全く存在せず、大
きなシンボルには釣り合った大きな許容値が存在すると
いう特性を有する非線形の関数に基づいて決定される。
エラー許容値の計算は、以下で詳細に説明される。続い
て、ステップ４０５では、エラーカウントが、計算され
たエラー許容値より大きいかどうかが決定される。エラ
ーカウントがそのエラー許容値より大きい場合、ビット
マップＢは、その許容された範囲内において拡張ビット
マップＡの内部には納まらず、ステップ４０６で示され
るように、整合は存在しない。その他の場合には、エラ
ーカウントは、ステップ４０７において、エラー密度限
界に対して比較される。エラー密度限界は、「オン」エ
ラーピクセルの接近したグルーピングを識別するための
閾値である。現在の好適な実施例において、エラー密度
限界は、３である。エラーピクセル及びエラー密度限界
に関わるチェック（以下に説明される）に合格すると、
ステップ４０８で示されるように、整合性が存在する。
即ち、ビットマップＢは、拡張ビットマップＡの内部に
納まる。続いて、処理は、ステップ４１３に進んで、最
適整合位置を決定することになる（以下でより詳細に説
明される）。

【００３７】エラーカウントがエラー密度限界より大き
い場合には、エラー密度チェックが実行される。ここで
は、ステップ４０２で計算されたエラービットマップ
が、ステップ４０９において、「オン」エラーピクセル
の過剰なグルーピングを検出すべく、３×３平方増分に
おける検査を受ける。ステップ４１０では、いずれかの
３×３平方がエラー密度限界を超過するかどうかの決定
が為される。いずれかの３×３平方がエラー密度限界を
超過する場合、ステップ４１１で示されるように、整合
性は存在しない。いかなる３×３平方もエラー密度限界
を超過しないと決定される場合には、ステップ４１２で
示されるように、整合性が存在することになる。

【００３８】両方の方向がテストされ整合性が決定され
ると、シンボル分類の実施例は、ステップ４１３におい
て「最適整合」位置が識別されるように決定されたこと
になる。「最適整合」位置は、２つのビットマップが比
較されるときに最も少ないエラーを算出する等価クラス
の標本に対する位置として定義される。上述したよう
に、各々のビットマップは、上部左側のコーナーを原点
として有する座標系において方向付けされている。図４
に関して説明された比較は、各々のビットマップの原点
が完全に位置合わせされるものと想定して実行される。
しかしながら、この位置合わせは、最適の整合性を算出
しないかもしれないのである。現在の好適な実施例で
は、抽出されたシンボルに対応するビットマップは、大
部分の「オン」ピクセルが位置合わせされる位置を見出
すべく、原点及び整合したビットマップに対してシフト
される。これは、２つのビットマップをシフトさせ、そ
れらの間で論理積関数を実行し、その結果における「オ
ン」ピクセルの個数をカウントすることによって実行さ
れる。大部分の「オン」ピクセルを備えてシフトされた
位置が、「最適整合」位置なのである。この位置は、ビ
ットマップと共にセーブされる。この最適整合位置を識
別することは、等価クラスが収容されるときにそれが等
価クラスの最も正確な「最終的」表示の生成を容易にす
るので、好都合である。

【００３９】走査プロセスにおいて導入される量子化の
影響の故に、シンボルを比較するとき、所定の量のエラ
ーは、容認されるものとして決定される。現在の好適な
実施例では、エラー許容値は、文字のサイズに関して非
線形である。Ａ及びＢが小さなシンボル（例えば１イン
チ当り３００ドットで走査される６ポイントの文字）を
内容とするビットマップである場合には、それらが、両
方向のテストに厳格に合格しなければならない、即ち、
Ａのいかなるピクセルも拡張Ｂの外部には全く存在せ
ず、Ｂのいかなるピクセルも拡張Ａの外部には全く存在
すべきではないと主張することは、合理的である。逆
に、Ａ及びＢが大きなシンボル（例えば１インチ当り３
００ドットで走査される１２ポイントの文字）を内容と
するビットマップである場合には、厳格な両方向のテス
トは、シンボル境界線の間の差もまたそれに比例して大
きくなり得るので、余りに厳格である可能性がある。そ
こで、大きなシンボルに関しては、Ａの点のｋ以外の
すべてが拡張Ｂの内部に位置し、且つＢの点のｋ以外
のすべてが拡張Ａの内部に位置することを主張して、ゼ
ロではないエラー許容値が両方向のテストにおいて使用
されることになる。

【００４０】上述したように、使用されるエラー許容値
は、Ａ及びＢの「サイズ」の関数であり、両方向テスト
の各々の側面に関して別個に計算される。シンボルの
「サイズ」は、ここでは、シンボル境界設定ボックスの
寸法によって単純に測定されるものではなく、シンボル
の境界線の長さ（それは「オフ」ピクセルに隣接してい
るシンボルのビットマップの「オン」ピクセルの個数で
ある）によって測定される。エラー許容値は、Ａ（又は
Ｂ）のサイズが所定の閾値のシンボルサイズ（１００ピ
クセル）以下である間は、ゼロに留まり、続いて、第２
の閾値サイズ（２００ピクセル）までは、「ターゲッ
ト」エラー許容値に随伴する比率で増大し、その後、再
びエラー許容値が「ターゲット」比率に基づくようにし
た第３の閾値サイズ（３００ピクセル）までは、２×比
率で増大することになる。

【００４１】エラー許容値は、境界線ピクセルに対する
エラーピクセルの比率として定義される。エッジピクセ
ルの個数の３パーセントのエラー許容値は、このモデル
において使用されるとき、大部分の文書における妥当な
結果を提供するものであると実験的に決定された。しか
しながら、上述したように、線形のエラー許容値になっ
てしまうものを単純に使用することは、不十分である。
以下のルールは、現在の好適な実施例のエラー許容値の
非線形的な性質を説明するものである：（１）ｅ（Ａ）をＡ内におけるエッジ（境界線）黒ピ
クセルの個数とする。（２）ｆを「ターゲット」エラー許容値、即ちエッジ
ピクセルの個数の３パーセント（直線の傾き）とする。ｆ*ｅ（Ａ）≦３ならば、エラー許容値は、０。３＜ｆ*
ｅ（Ａ）≦６ならば、エラー許容値は、ｆ*ｅ（Ａ）−
３。６＜ｆ*ｅ（Ａ）ならば、エラー許容値は、ＭＩＮ
（３＋２*（ｆ*ｅ(Ａ)−６），ｆ*ｅ(Ａ)）。

【００４２】図５は、適用されたこれらのルールのグラ
フ表示である。図５を参照すると、水平軸５０１は、ｆ
*ｅ（Ａ）の値を表わし、垂直軸５０２は、エラー許容
値を表わしている。線５０７は、シンボルサイズとエラ
ー許容値の間の関係をプロットするものである。上記の
ルールを適用すると、線５０７は、以下のような傾斜の
値を有する：（１）ｆ*ｅ（Ａ）の値が０から３の場合、それは、
線分５０３で示されたように傾斜０を有する。（２）ｆ*ｅ（Ａ）の値が３から６の場合、それは、
線分５０４で示されたように傾斜１（即ち０．０３のタ
ーゲットエラー許容値）を有する。（３）ｆ*ｅ（Ａ）の値が６から９の場合、それは、
線分５０５で示されたように傾斜２（即ちターゲットエ
ラー許容値の２倍）を有する。（４）ｆ*ｅ（Ａ）の値が９を越える場合、それは、
線分５０６で示されたように傾斜１を有する。

【００４３】ここで、値３は、第１の閾値５０８を表わ
し、値６は、第２の閾値５０９を表わし、値９は、第３
の閾値５１０を表わしている。

【００４４】エラー許容値を見積もるためにその他の関
数が使用されることも可能であるが、そのような関数
は、小さな形状に関しては、いかなるエラーも許容され
るべきではなく、大きな形状に関しては、より多くのエ
ラーが許容され得るという特性を有するものでなければ
ならない。

【００４５】上述したように、整合化プロセスにおいて
生成される新しいビットマップ、即ちＡδ及びＢδは、
オリジナルのビットマップの拡張表示である。現在の好
適な実施例では、トポロジー保存式の拡張が実行され
る。トポロジー保存式拡張においては、不明瞭ではあっ
ても知覚的には重要である、形状の様相が保存される。
これは、文字「ｈ」及び「ｂ」を比較することによって
例証される。それらの総体的な形状は、「ｈ」の底部に
おける間隙を除けば、全く同様である。単純に線を肥大
化させることは、「ｈ」の底部における間隙を閉鎖し
て、拡張した「ｈ」（その「ｈ」は拡張した「ｂ」の中
に明らかに納まることになる）の内部に「ｂ」を納めて
しまうという結果を生じるかもしれない。これは、それ
らの形状を誤って整合させてしまうことになる。

【００４６】トポロジー保存式拡張では、「オン」ピク
セルの局所的なトポロジーが検査を受け、「オフ」ピク
セルは、それを「オン」にすることがオリジナルのビッ
トマップの中に存在する小さな間隙又は孔を閉鎖しない
場合にのみ、拡張において「オン」にされる。従って、
拡張した「ｈ」は、それでもなお底部における間隙を有
し、「ｂ」は、この拡張した形状の境界線の内部には納
まらないのである。それらの形状がそのような小さな間
隙を内包しない場合には、この拡張は、通常の拡張と同
等なものである。

【００４７】トポロジー保存式拡張技術は、任意の「オ
フ」ピクセルの拡張値を決定する１組の局所的なルール
によって構成される。各々の「オフ」ピクセルは、オリ
ジナルの未拡張のビットマップを参照して検分される。
そこで、実際には、作成されている拡張表示は、すべて
の「オン」ピクセルを直接的にコピーし、「オフ」ピク
セルのいずれのものが局所的なルールに基づいて「オ
ン」にされるべきであるかどうかを決定することによっ
て達成される。

【００４８】図６から図８を参照して説明されるもの
は、１ピクセルだけ拡張（４個の連続隣接物）する場合
のルールである。同様のルールは、２つ又はそれ以上の
ピクセルだけ拡張するためにも使用されることになる。
実際に使用される拡張の量は、オリジナルの画像の印刷
密度及び走査密度を包含する様々なファクターに従属す
ることになる。とにかく、図６を参照すると、現在の好
適な実施例の拡張は、１２個の隣接するピクセル（シン
ボル「？」によって夫々に指示される）の値に基づいて
任意の「オフ」ピクセル（シンボル「＠」によって指示
される）をオンにするか否かを決定することによって機
能する。図６から理解され得るように、検査されるピク
セルの配列は、水平及び垂直の隣接物がピクセル２個分
の深さで検査され、対角線の隣接物がピクセル１個分の
深さで検査されるという基本的な特性を有する。

【００４９】本発明のトポロジー保存式拡張方式の概略
的な原理は、その直接的な４個の隣接物（即ち水平方向
又は垂直方向の隣接物）の１つがオンである場合には、
この１３個のピクセル隣接物の内部における局所的な連
続性を変更することにならない限り、中心のピクセルを
「オン」にするということである。以下のルールがこの
原理を実行するものとして決定された。簡潔さのため
に、左側の隣接物がオンである場合のみが説明される。
その他の場合は、これらのパターンの９０度の回転によ
って獲得される（３個のその他の隣接物：上側、右側
及び下側に対応する）。シンボル＠は、拡張において
「オン」にされるべきか否かに関して検査を受けている
「オフ」ピクセルを指示するものであることが想起され
る。それらのルールを説明する図７及び図８において、
シンボルＯは、隣接する「オフ」ピクセルを指示し、シ
ンボルＸは、隣接する「オン」ピクセルを指示してい
る。

【００５０】パターンＸ＠は、即ち左側の隣接物が「オ
ン」ピクセルである場合は、それが図７で示された例外
ピクセル配列の１つであるときを除いて、「オン」を算
出する。隣接する所定個数のピクセルのみが例外を引き
起こすことが留意されるべきである。これらの場合、そ
の他のピクセルの値が何であるかは問題にならない。図
７で示された例外の各々は、評価されているピクセルに
隣接する可能性がある孔又は間隙を表わすものである。
しかしながら、図８は、図７の例外に対する例外を示し
ている。ピクセル隣接物が図８の配列の１つである場
合、評価されているピクセルは、「オン」にされる。

【００５１】従って、総合的には、総計で４８のテスト
に関して、夫々に、４つの例外と、それらの例外に対す
る７つの例外とを備えた４つのルール（左側、右側、上
側及び下側の４方向に関する）が存在する。現在の好適
な実施例では、これらのテストは、その成果（ピクセル
のオン又はオフ）に対する１３ビット（「＠」ピクセル
の廻りにおける隣接物）のテーブル・マッピング・パタ
ーンを構築するために使用される。

【００５２】現在の好適な実施例では、ビットマップが
拡張されると、それは、走査されて、すべてのピクセル
位置が検査される。「オフ」ピクセルに遭遇すると、１
３個のピクセルの隣接物は、上述のような成果テーブル
の中に１３ビットのインデックスを作成するために使用
される。検査されているピクセルは、その後、テーブル
の結果に応じて「オン」にされることになる。

【００５３】実際において、この拡張方式は、先行技術
に関連して簡潔に説明されたハウスドルフのビットマッ
プ比較方式を大きく改良するものである。これは、小さ
な文字及び「微粒子」形状を備えたその他のトークンの
ビットマップに関して特に重要である。

【００５４】上述したように、本発明は、好ましくは、
テキストの画像圧縮及び圧縮解除のためのシステムにお
いて具体化される。機械印刷されたテキストを内容とす
る走査画像は、等価クラスの中に見出されるシンボルを
グルーピングすることによって圧縮されることが可能で
ある。このシステムでは、シンボル分類器が使用され
て、抽出されたシンボルを独特な標本によって表示され
る等価クラスの中に分類する。作成される等価クラスの
個数は、抽出されたシンボルの総数よりも非常に少ない
ことになる。一旦、すべての抽出されたシンボルが等価
クラスに分類されてしまうと、圧縮された出力ストリー
ムが作成される。作成された出力ストリームは、標本の
ＩＤ／位置ペアを随伴する標本から構成される辞書によ
って構成される。

【００５５】画像が圧縮解除されるとき、それらのペア
の各々は、識別された標本の事例が指定された位置に配
置されるようにして処理される。これは、オリジナルの
テキスト画像が再現されるまで、すべてのペアに関して
継続する。

【００５６】以上の説明では、走査画像は、１インチ当
り３００ドット（ｄｐｉ）の解像度を有するスキャナを
使用して作成されるものと想定された。本文で説明され
た様々な閾値は、この解像度に基づいている。従って、
走査画像が３００ｄｐｉとは異なる解像度を備えたスキ
ャナを使用して作成された場合、異なった閾値が使用さ
れ得ることが、当該分野の熟練技術者には明白であろ
う。例えば、テキストを形成する媒体が３００ｄｐｉの
解像度を有するプリンタを使用して作成され、走査画像
を形成する媒体が６００ｄｐｉの解像度を有するスキャ
ナを使用して作成された場合には、拡張値における更な
る修正もまた必要であるかもしれない。この場合には、
本文で説明されたピクセル１個分とは異なって、ピクセ
ル２個分までの拡張表示を作成することが必要になるか
もしれないのである。

【００５７】本発明の現在の好適な実施例が使用される
ことが可能であるコンピュータベースのシステムは、図
９を参照して説明される。図９を参照すると、当該コン
ピュータベースのシステムは、バス９０１を介して連結
される多数のコンポーネントから構成される。ここに示
されたバス９０１は、本発明を分かりにくいものにしな
いために簡略化されている。バス９０１は、複数の並列
バス（例えばアドレス・バス、データ・バス及びステー
タス・バス）ばかりでなく、バスの階層（例えばプロセ
ッサ・バス、ローカル・バス及び入出力バス）から構成
されても構わない。とにかく、当該コンピュータシステ
ムは、更に、内部メモリ９０３（この内部メモリ９０３
は、典型的には、ランダムアクセス・メモリ又はリード
オンリー・メモリの組合せであることに留意すること）
からバス９０１を介して提供される命令を実行するため
のプロセッサ９０２をも含んで成る。そのような命令
は、好ましくは、図１、図３及び図４のフローチャート
において以上のように概説された処理ステップを実施
し、更に、図６から図８に関連して説明されたトポロジ
ー保存式拡張に関するルールをも実行するために、ソフ
トウェアにおいて実行されるものである。プロセッサ９
０２及び内部メモリ９０３は、個別のコンポーネントで
あっても良いが、特定用途向け集積回路（ＡＳＩＣ）チ
ップのような単一の統合された装置であっても良い。更
に、プロセッサ９０２及び内部メモリ９０３の組合せ
は、本発明の機能性を実行するための回路構成をも含ん
で成る。

【００５８】更に、バス９０１には、英数字入力を入力
するためのキーボード９０４、圧縮されたテキスト画像
のデータファイルのようなデータを記憶するための外部
記憶装置９０５、カーソルを操作するためのカーソル制
御装置９０６、及び視覚的出力を表示するためのディス
プレイ９０７が連結される。キーボード９０４は、典型
的には、標準的なクエーティ（ＱＷＥＲＴＹ）キーボー
ドであることになるが、電話機のようなキーパッドであ
っても構わない。外部記憶装置９０５は、固定式である
か又は取外し可能である磁気的又は光学的なディスクド
ライブであっても良い。カーソル制御装置９０６は、典
型的には、所定の機能のパフォーマンスがそれによって
プログラムされることが可能であるボタン又はスイッチ
を付随して有することになる。バス９０１には、スキャ
ナ９０８もまた連結される。スキャナ９０８は、媒体の
ビットマップ表示（即ち走査された文書画像）を作成す
るための手段を提供する。

【００５９】バス９０１に対して連結されることが可能
である光学的な要素は、プリンタ９０９、ファクシミリ
要素９１０及びネットワーク接続９１１を包含すること
になる。プリンタ９０９は、ビットマップ表示を印刷す
るために使用されることが可能である。ファクシミリ要
素９１０は、本発明を使用して圧縮された画像データを
送信するために使用される要素を内包することも可能で
ある。二者択一的に、ファクシミリ要素９１０は、本発
明を使用して圧縮された文書画像の圧縮解除のための要
素を包含することもまた可能である。ネットワーク接続
９１１は、画像データを内包するデータを受信及び／又
は送信するために使用されることになる。従って、本発
明によって利用される画像データは、走査プロセスを介
して、受信したファクシミリを経由して、或いはネット
ワークによって入手されることも可能である。

【図面の簡単な説明】

【図１】本発明を利用することが可能であるアプリケ
ーションによって実行されるステップを示すフローチャ
ートである。

【図２】本発明の現在の好適な実施例のシンボル比較
及び等価クラス分類において使用されるシンボルの辞書
のためのデータ構造のブロック表示である。

【図３】本発明の現在の好適な実施例において実行さ
れ得るシンボル比較及び等価クラス分類の過程において
図２のシンボル辞書を使用するために実行されるステッ
プを示すフローチャートである。

【図４】本発明の現在の好適な実施例において実行さ
れ得るビットマップの中に包含されたシンボルの整合化
のためのフローチャートである。

【図５】エラー許容値とシンボルのサイズの間の関係
を示すダイヤグラムである。

【図６】本発明の現在の好適な実施例における隣接ピ
クセルのアイデアを示すダイヤグラムである。

【図７】「オン」ピクセルに隣接する「オフ」ピクセ
ルが「オン」されないときの「例外的な」ピクセルの構
成を示す。

【図８】図７の構成における「オフ」ピクセルである
が、それにも関わらず「オン」されるようにした、図７
の例外に対する例外を示す。

【図９】本発明の現在の好適な実施例が利用されるこ
とが可能であるコンピュータベースのシステムのブロッ
クダイヤグラムである。

【符号の説明】

２０１テーブル、２０２等価クラス、２０３シン
ボル、２０４テーブル・エントリー、９０１バス、
９０２プロセッサ、９０３内部メモリ、９０４キ
ーボード、９０５外部記憶装置、９０６カーソル制
御装置、９０７ディスプレイ、９０８スキャナ、９０
９プリンタ、９１０ファクシミリ要素、９１１ネ
ットワーク接続

───────────────────────────────────────────────────── フロントページの続き (72)発明者ダニエル・ピー・フッテンロッチャーアメリカ合衆国ニューヨーク州 14850 イサカコムストック 314 (72)発明者エリック・ダブリュー・ジャクィスアメリカ合衆国カリフォルニア州 94114 サンフランシスコ＃３ウォルターストリート 51

Claims

【特許請求の範囲】

【請求項１】整合性を決定すべく、シンボル画像の第
１ビットマップをシンボル画像の第２ビットマップと比
較する方法であって：ａ）シンボル画像の前記第１ビットマップに関してト
ポロジー保存式の拡張表示を生成し；ｂ）シンボル画像の前記第１ビットマップの前記トポ
ロジー保存式拡張表示をシンボル画像の前記第２ビット
マップと比べて、整合性が存在するかどうかを決定し；ｃ）整合性が存在する場合には、シンボル画像の前記
第２ビットマップのトポロジー保存式拡張表示を生成
し；ｄ）シンボルの前記第２ビットマップの前記トポロジ
ー保存式拡張表示をシンボル画像の前記第１ビットマッ
プと比べて、整合性が存在するかどうかを決定し；ｅ）整合性が存在する場合には、シンボル画像の前記
第１ビットマップがシンボル画像の前記第２ビットマッ
プに整合することを表示するようにした：各ステップか
ら構成される前記比較方法。
【請求項２】テキストのビットマップ表示からのシン
ボルを整合化させる方法であって：ａ）テキストの前記ビットマップ表示からシンボル画
像を抽出し；ｂ）以下のサブステップを実行することによって前記
シンボル画像を潜在的な整合画像の等価クラスの標本と
比較し：ｂ１）前記シンボル画像に関してトポロジー保存式の
拡張表示を生成し；ｂ２）前記シンボル画像の前記トポロジー保存式拡張
表示を前記標本と比べて、整合性が存在するかどうかを
決定し；ｂ４）整合性が存在する場合には、前記標本のトポロ
ジー保存式拡張表示を生成し；ｂ５）前記標本のトポロジー保存式拡張表示を前記シ
ンボル画像と比べて、整合性が存在するかどうかを決定
し；ｂ６）整合性が存在する場合には、前記シンボル画像
が前記標本に整合することを表示するようにし：ｃ）ステップｂ）が整合性を算出する場合には、前記
シンボル画像を前記潜在的整合画像の等価クラスに追加
し；ｄ）ステップｂ）が整合性を算出しない場合には、す
べての潜在的整合画像が比較されるか又は整合性が見出
されるまで、すべての潜在的整合画像に関してステップ
ｂ）を繰返し；ｅ）前記シンボル画像がいかなる潜在的整合画像とも
整合しない場合には、前記シンボル画像に関する新しい
等価クラスを作成して辞書の中に記憶するようにした：
各ステップから構成される前記整合化の方法。