JPH09185715A - 統合同値類の作成方法 - Google Patents

統合同値類の作成方法

Info

Publication number
JPH09185715A
JPH09185715A JP8319936A JP31993696A JPH09185715A JP H09185715 A JPH09185715 A JP H09185715A JP 8319936 A JP8319936 A JP 8319936A JP 31993696 A JP31993696 A JP 31993696A JP H09185715 A JPH09185715 A JP H09185715A
Authority
JP
Japan
Prior art keywords
sample
symbol
equivalence class
symbols
run
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8319936A
Other languages
English (en)
Other versions
JP3925971B2 (ja
Inventor
Daniel Davies
デイヴィーズ ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH09185715A publication Critical patent/JPH09185715A/ja
Application granted granted Critical
Publication of JP3925971B2 publication Critical patent/JP3925971B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/005Statistical coding, e.g. Huffman, run length coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Abstract

(57)【要約】 【課題】 同値類同士を併合して、統合同値類を作成す
る方法を提供する。 【手段】 本発明の統合同値類作成方法は、a)画像デ
ータから抽出されたシンボルを分類して複数の同値類を
作成するステップを含み、該同値類の各々がその同値類
を表す標本を有し、b)第1同値類標本を第2同値類標
本にマッチングするステップを含み、該マッチングステ
ップが第1同値類標本のランと第2同値類標本のランか
ら得られる情報を有し、c)前記第1同値類標本と前記
第2同値類標本がマッチする場合に、第1同値類と第2
同値類の標本を結合して統合同値類を作成するステップ
を含み、d)上記ステップb〜cを前記複数の同値類の
各々に対して繰り返し、複数の同値類を作成するステッ
プを含み、e)前記複数の統合同値類の各々に対して、
前記統合同値類を作成するために使用された標本のセッ
トから、該統合同値類を表す1つの標本を選択するステ
ップを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストの走査画
像の圧縮の分野に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】デジタ
ル化された画像の一般的な使用に対する主な障害は、そ
れらのサイズである。300ドット/インチ(dpi )の
8.5×11インチの画像は、およそ8,000,00
0個のピクセルを含む。走査画像の二値化により1ピク
セルにつき1ビットまでビット数が減少された後でさ
え、まだ1メガバイトである。圧縮方法は、典型的にLO
SSLESS(ロスレス)又はLOSSY (ロシー)と特徴づけら
れる。LOSSLESS圧縮方法では、データは圧縮及びその後
の圧縮解除中に消失されない。LOSSY 圧縮方法では、所
定量のデータが消失されるが、圧縮されたデータの本質
は圧縮解除後も保持されるのでデータの消失は許容でき
る。
【0003】CCITTグループ3又はグループ4のよ
うなバイナリ画像に対する一般的なLOSSLESS圧縮方法
は、1/10〜1/20にバイナリ画像を圧縮できる。
同等画像を作成するために使用される合成電子フォーム
に比較すると、これでもまだ大きい。
【0004】ほとんどの文書はテキストを含む。バイナ
リ画像においてテキストを圧縮する一つの方法は、光学
文字認識を実行してテキストストリームを作成し、ある
種のテキスト圧縮スキームを使用してテキストストリー
ムを圧縮し、得られたものを格納することである。あい
にく、キャラクタ、フォント、フェース及び位置の選択
において生じるミスは、しばしば問題を含む。
【0005】別の方法は、見出されるシンボルを同値類
にグループ化することである。この方法では、シンボル
がバイナリ画像から抽出され、一つ以上の同値類に対す
るテンプレートにマッチングされる。分類は部分的に
は、幅、高さ、マス(黒ピクセルの数)等のシンボルの
特徴に基づく。典型的に、テンプレートは同値類を示す
シンボルの「ビットマップ」である。主要な分類基準
は、エラーピクセルの位置、構成及び数に基づく。エラ
ーピクセルは、抽出されたシンボル又はテンプレートの
両方ではなくどちらか一方において「オン」となるピク
セルと定義される。圧縮された出力ファイルは、各シン
ボルの位置と、同値類を表すために使用される同値類の
標本のIDと、各同値類の標本の1つの表現(テンプレ
ート)とを含む。
【0006】うまく実行されると、この方法は標準的な
LOSSLESS圧縮で実行されるあらゆるシンボルの個々の符
号化を全て回避する。この方法はまた、(未知のフォン
トで)印刷、ファックス、コピー及び走査されることに
よって質の低下したキャラクタの外観及び間隔を適切に
表現するフォント及びフェースを見出そうとすることに
関連する問題の多くを回避する。詳細には、この方法は
ローマ字でないキャラクタセット、破壊及び結合された
キャラクタ、グラフィクス、及びページ上に現れる他の
いずれにもはたらく。従来のスキームは、シンボルのビ
ットマップを標本のビットマップと比較することによっ
て分類を実行する。
【0007】従ってそのようなシステムの中心となるの
はシンボル分類子である。良好な圧縮を得るには、分類
子は少数の同値類を生成すべきである。シンボル置換エ
ラーを回避するために、分類子は新しいシンボルが既存
のテンプレートのいずれにもマッチしないことを実際に
確信する度に、新たな同値類を作成しなければならな
い。これでは多数の同値類が作成されがちである。バイ
ナリ画像中のテキストのキャラクタセットに馴染んだ人
間により使用される測定基準を正確に測定する分類子を
有することが目的である。しかし、既知の分類子はこれ
らの測定基準とあまり関連性のないシンボル特徴を測定
する。これはでは、シンボルが置換されたり、極端な数
の同値類が生成されたりすることになる。
【0008】シンボルマッチングに基づく画像圧縮の例
は、”Method and Apparatus For Compression of Imag
es”と題され、1994年4月12日に出願されたマー
ク(Mark)他による米国特許番号第5,303,313
号('313特許)に記載されている。'313特許では画像は
シンボルのマッチングに先立って「予備圧縮」され
る。'313特許は、このような予備圧縮のためにランレン
グス符号化の使用を述べている。シンボルは、ランレン
グス表現から抽出される。投票スキームは、シンボルマ
ッチングの正確さを向上するために複数の類似テストと
共に使用される。'313特許はさらに、マッチするシンボ
ルに基づいてテンプレートが修正され得るテンプレート
構成スキームを開示する。
【0009】
【課題を解決するための手段】走査シンボルの同値類へ
の分類方法及び装置を示す。本発明は、水平方向及び垂
直方向の両方向におけるランレングス情報に基づいてラ
ンレングスシンボル抽出を実行し、シンボルを分類す
る。同値類は1つの標本により表される。標本とのマッ
チングのための特徴に基づいた分類規準は、対応する標
本テンプレートによって定義される。標本テンプレート
は、各々が一つ以上のシンボルにマッチする規準を定義
する水平方向及び垂直方向テンプレートグループを含
む。特徴ベースの分類規準は全て、ランの終点から容易
に計算できる量を使用する。
【0010】本発明のシンボル分類方法は概して;シン
ボルを抽出するステップと;抽出されたシンボルを整合
のために準備するステップと;比較される同値類を識別
するステップと;シンボルの特徴をラン情報から生成す
るステップと;識別された同値類の1つから標本テンプ
レートを得るステップと;シンボルが標本のサイズ及び
傾斜(度)のしきい値を満たすことをチェックするステ
ップであって、抽出されたシンボルが小さい場合には小
シンボルチェックを実行するステップと;必要であれば
抽出されたシンボル又は標本テンプレートを調整するス
テップと;標本テンプレートグループの規準を満たすシ
ンボルランを見出すステップであって、全てのテンプレ
ートグループ規準が満たされ、全てのシンボルランが消
費され、マッチするものがあれば、標本にマッチングす
るための識別子及びシンボルの位置を記録するステップ
と;を含む。これは、比較に対して識別される各同値類
に対してマッチするものが見つかるまで繰り返される。
マッチするものがなければ、抽出されたシンボルを標本
として用いて新たな同値類が作成される。小シンボルチ
ェックは概して、小さいシンボルに特に関連があると決
定されたシンボル特徴を同値類の標本のしきい値に比較
することを含む。
【0011】同値類の数の減少は、同値類の統合と呼ば
れるプロセスを通して達成される。同値類の統合では、
上述されたシンボル分類プロセスを使用して標本同士が
マッチングされる。各標本の3つのバージョン、即ちオ
リジナルの標本と、1ピクセル分上にシフトされた標本
と、1ピクセル分右にシフトされた標本とが、他の同値
類とマッチングされる。これはミスアラインメント(不
整列、不整合)又はノイズの影響を最小化することに貢
献すると共に、可能な限りマッチするものを見つけ出す
ことを容易にする。統合同値類を表すのに使用される標
本の選択は、どの標本がほとんどのシンボルにマッチす
るかを決定することにより行われる。
【0012】本発明の一態様は、画像を表す画像データ
中のシンボルを分類するシステムにおいて、同値類同士
を併合して統合同値類を作成する方法であって、a)画
像データから抽出されたシンボルを分類して複数の同値
類を作成するステップを含み、該同値類の各々がその同
値類を表す標本を有し、b)第1の同値類の標本を第2
の同値類の標本にマッチングするステップを含み、該マ
ッチングステップが、第1の同値類の標本のランと第2
の同値類の標本のランから得られる情報を有し、c)前
記第1の同値類の標本と前記第2の同値類の標本がマッ
チする場合に、第1の同値類と第2の同値類の標本を結
合して統合同値類を作成するステップを含み、d)上記
ステップb〜cを前記複数の同値類の各々に対して繰り
返して、複数の同値類を作成するステップを含み、e)
前記複数の統合同値類の各々に対して、前記統合同値類
を作成するために使用された標本のセットから、該統合
同値類を表す1つの標本を選択するステップを含む、こ
とを特徴とする。
【0013】
【発明の実施の形態】走査シンボルを同値類に分類する
方法及び装置を示す。本発明は、光学文字認識(OC
R)やデータの暗号化やデータ圧縮等の種々のアプリケ
ーションで使用され得る。かかるアプリケーションは、
全体的な画像処理システムとして又はスタンドアロンア
プリケーションとして見出され得る。
【0014】以下の用語及びそれらの意味は以下のよう
に用いられる。「画像」は、媒体上にマーキングされた
もの、又は媒体の外観に関していう。「画像データ」
は、画像の再生に使用され得る画像表現である。「同値
類」は、問題を生じる程に画像の外観を変更することな
く互いに置換されることのできる、画像中に見出される
シンボルのセットである。「同値類の標本」は、画像が
圧縮解除又はさもなければ再生される時に同値類の全て
のメンバに対して置換されるシンボルである。「標本テ
ンプレート」又は「テンプレート」は、シンボルを標本
にマッチングするのに使用されるデータ構造及び規準の
セットである。「抽出(された)シンボル」又は「シン
ボル」は、画像データから得られる媒体上のマーキング
の画像表現である。
【0015】本発明は、向上されたシンボル分類子に関
する。好適な実施形態のシステムは、同値類のリスト
(またはディクショナリと呼ぶ)を使用し、維持する。
抽出シンボルは、それが既存の同値類に追加されるべき
かどうかを決定するために同値類の標本(複数)に比較
される。マッチするものがなければ、抽出シンボルを標
本として用いて新しい同値類が作成される。
【0016】上記のように、本発明は種々のアプリケー
ションで使用され得る。図1は、本発明を使用するアプ
リケーションの概略ステップを記述するフローチャート
である。まず、ステップ101で文書が走査され、画像
データが生成される。画像データは典型的に、画像のビ
ットマップ表現である。次いでステップ102では、画
像のクリーンアップ又はテキスト及び画像のセグメンテ
ーション等の種々のオペレーションが画像データ上で実
行され得る。本発明が処理するのはテキスト部分であ
る。ステップ103では、例えば何らかのしきい値処理
方法により画像データのテキスト部分がバイナリ表現に
変換されて、各ピクセルがシングルビットにより表され
る表現が作成される。「黒」又は「オン」ピクセルはバ
イナリの1で表され、「白」又は「オフ」ピクセルはバ
イナリの0で表されるのが典型的である。シンボルのマ
ッチングが始まるのはこの時点においてである。
【0017】まず、ステップ104において新たな個々
のシンボルが抽出される。この好適な実施形態では、こ
の抽出はバイナリ画像の結合されたコンポーネントの分
析を介して発生する。シンボルは、水平方向ランのリス
トとして表される。ランは、「黒」又は「オン」ピクセ
ルのシーケンスと定義される。次いで、抽出されたシン
ボルはステップ105において、抽出されたシンボルに
サイズの類似する同値類の各標本に比較される。このス
テップはシンボル分類と呼ばれる。マッチするものがみ
つかると、抽出されたシンボルはステップ106におい
て、マッチした標本の同値類に追加される。新たなシン
ボルがどの同値類にもあてはまらない場合には、ステッ
プ107において新たな同値類が作成される。この好適
な実施形態では、既存の同値類に追加されるシンボルの
形状はすぐに捨てられ、その同値類を表す標本のみが残
される。次いでステップ108では全てのシンボルに対
してステップ104〜107が繰り返される。全てのシ
ンボルが処理されると、ステップ109において、各同
値類の標本の何らかの表現と各シンボルを表すべき標本
の識別子と共に各シンボルの位置を含む情報が出力され
る。換言すれば、位置と標本識別子のペアのセットは、
標本を含むディクショナリに引き継がれる。典型的に
は、この情報は結果的に圧縮画像となる画像のバイナリ
表現よりもずっと少ない。次いでステップ110におい
て、同値類が統合されて、より少数の同値類が作成され
得る。同値類が統合されると、ステップ109で出力さ
れた標本識別子と標本ディクショナリが同値類の統合を
反映するようにステップ111において修正される。
【0018】マシンの印刷したテキストを含む走査画像
は、見出されるシンボルを同値類にグループ化すること
により圧縮できる。この好適な実施形態は、画像データ
を圧縮するシステムにおいて実行された。このシステム
では、シンボル分類子が使用されて、抽出されたシンボ
ルを独自の標本により表される同値類に分類する。作成
される同値類の数は、抽出されたシンボルをトータルし
た数よりも少ない。作成される出力ストリームは、標本
を含むディクショナリに引き継がれる標本ID/位置の
ペアを含む。
【0019】上述のように、本発明はさらに同値類のセ
ットの統合を提供する。同値類の数の減少はさらに、デ
ィクショナリのサイズを減少することにより画像データ
を圧縮する。統合を生じる方法は、シンボルが標本に比
較される方法と略同じである。一般に、シンボルをマッ
チングする作業をより拡大すると(互いにいくらかオフ
セットさせようとすると)、マッチするものがより多く
みつかる。効率のためには、この余分な努力をそのまま
のシンボルの全体的なセットに実行するのではなく、同
値類の比較的小さいセットに広げるのがより効率的であ
る。
【0020】画像が圧縮解除されると、識別された標本
の一例が指定されたロケーションに配置されるように上
記ペアの各々が処理される。これは、すべてのペアに対
して継続して行われる。いくらかのデータがマッチング
プロセス中に消失するかもしれないので、このタイプの
圧縮はLOSSY 圧縮と呼ばれる。データの消失にもかかわ
らず、画像の本質は残る。
【0021】上記のように、本発明の目的は、向上され
たシンボル分類子を提供することである。本発明のシン
ボル分類子はビットマップを分析するのではなく、シン
ボルを表すランを直接使用してシンボルを分類する。分
類子は、分類のために幅及び高さのようなシンボル特徴
を使用する。より詳細なシンボル特徴に対しては、分類
子は、標本中の隣接する3つの走査線からなる対応する
グループを見ることによって計算される正規の終点位置
同士の対応する範囲と各シンボルのランの終点の位置を
比較する。
【0022】十分な正確さを成し遂げるために、垂直方
向ランが水平方向ランから生成され、ランの両セットが
分類に使用される。
【0023】特徴ベースの分類規準は全て、ランの終点
から容易に計算できる量を使用する。これらの終点の有
効性により、ビットマップを用いた場合よりもシンボル
の測定値の生成がずっと容易になる。特徴ベースの分類
規準がシンボル分類子により如何に使用されるかを記述
することにより、特徴ベースの分類規準について以下に
記載する。
【0024】シンボルの幅及び高さは、シンボルを囲む
境界ボックスにより特定される。境界ボックスを用いて
比較の対象とする同値類のサブセットが選択されると共
に、どのシンボル特徴テストを適用すべきかが決定され
る。この好適な実施の形態では、同値類の標本は、比較
の資格を得るにはシンボルの幅及び高さに2つのピクセ
ルをプラスマイナスした範囲内になければならない。
【0025】最も基本的なテストは、大きいシンボルの
識別に適している。より小さいシンボルにおいては微妙
な特徴が重要になるので、より多くのテストが必要とな
る。小さいシンボルは一般に、20個以下のピクセルの
幅又は高さを有するシンボルと定義される。
【0026】これは2つの方法で使用される。まず、非
常に小さいシンボルは、幅及び高さをマッチングする比
較的小さい範囲を有する。従って最小及び最大の許容幅
及び許容高さが各同値類に記録される。この範囲外のシ
ンボルは、この同値類に含められることができない。
【0027】幅及び高さの範囲の他方の使用は、同値類
の統合中に発生する。この場合も、最小及び最大の許容
幅及び高さが提供されるが、この場合には同値類が統合
されると範囲が変化する。同値類統合について、より詳
細に以下に記載する。
【0028】シンボルのマスは、シンボルが含有する黒
ピクセルの数である。マスのチェックは、小シンボルチ
ェックの一つである。それは主に太く標準的なフェース
キャラクタの識別に使用される。2つのシンボルのマス
の比が大きすぎる場合には、それらはマッチしない。除
算は時間のかかるオペレーションであるので、この好適
な実施形態の規準はマス同士の差に基づく。許容される
差の量を求めるここでの計算は、(シンボル領域×(1
+シンボル領域/256))/8である。主にシンボル
のマスに基づく計算、又はシンボルのマスと領域の両方
の関数に基づく計算等の他の計算も使用され得る。な
お、上記式中に示される除算演算子は、全ての端数ビッ
トが意図的に消去される整数除算である。
【0029】内部(interior)のチェックは、小シンボ
ルチェックの一つである。これは困難であるが、非常に
小さい句読点シンボルを識別するために重要である。連
結した黒ピクセルの小さな丸いしみ状のものは、大抵の
ものにマッチする。非常に多くのシンボルが、丸いしみ
から1ピクセル分プラスマイナスしたエンベロープ内に
あてはまる。しかし、丸いしみは、コンマとはかなり異
なる数の内部ピクセルを有する。内部ピクセルの数は、
水平方向ランの数を倍にした数をマスから引いたもの
(これは黒ピクセルの数から水平方向エッジのピクセル
の数をマイナスすることにより大雑把に決定できる)で
あると定義される。これは正確ではないが、十分な近似
値であり計算が容易である。2つのシンボルは、それら
の内部が上記指定されたマスの差の範囲よりも異なると
マッチしない。
【0030】小さく丸いイタリックキャラクタは、小さ
くて丸い非イタリックのキャラクタと見分けるのが難し
い。以下に1つの例を示す。
【0031】
【外1】
【0032】一方のキャラクタにおける全ピクセルは、
他方のキャラクタ中のピクセルに非常に近い。傾斜度
は、シンボルがどれくらい傾斜しているかを測定するも
のとして計算される。「y」のように自然に傾斜したキ
ャラクタもあるので、シンボルの傾斜度を用いて「この
シンボルはイタリックキャラクタである」ということは
できない。傾斜度を用いて2つのキャラクタを比較し、
それらのキャラクタの傾斜度の差が大きすぎる場合には
それらのキャラクタはマッチしないといえる。
【0033】傾斜度はシンボルにおけるコーナーの数と
広がりの関数として計算される。連続的な列におけるラ
ンの終点のx位置の間の差が+1又は−1となる度に、
その差が傾斜度に加算される。差が+1より大きいか又
は−1より小さい場合には、+2又は−2が適切である
ように加算される。これは垂直方向ランに対しても実行
され、傾斜が強調される。2つのシンボルは、それらの
傾斜度がMIN(幅,高さ)/2よりも異なっている場
合にはマッチしない。
【0034】Bやaのように小さくて濃い略方形のもの
はしばしば、8やeのように小さくて濃い丸みがかった
ものと見分けるのが困難である。これらのキャラクタの
ホールは、サイズがかなり異なっている。シンボルの外
部だけに基づいて測定を計算するのが最も安全である。
これらのマッチしないシンボル同士がマス及び内部テス
トをパスした順序で、丸いシンボルは、より高さが高く
若しくは幅が広く、又は高さも高く幅も広い傾向があ
る。
【0035】水平方向ボリューム及び垂直方向ボリュー
ムも同様に定義される。水平方向ボリュームは、全範囲
がシンボルの幅の少なくとも7/8である列における左
右の終点同士の間のピクセルの数として定義される。同
様に、垂直方向ボリュームは、全範囲がシンボルの高さ
の少くとも7/8であるコラム(縦列)の上下の終点同
士の間のピクセル数と定義される。これは丸いものより
も四角いものを優遇する。しかし、水平方向ボリューム
及び垂直方向ボリュームはしばしば意味がないので、ch
eckHVolume及びcheckVVolumeという2つのフラグが提供
される。対応するボリュームが全領域の少くとも3/4
である場合にフラグがセットされる。2つのシンボルの
checkHVolumeフラグの両方がセットされ、それらの幅が
等しくなく、より幅の広いシンボルがより小さい水平方
向ボリュームを有する(即ち非常に丸い)場合には、そ
れら2つのシンボルはマッチしない。対応するテストが
垂直方向ボリュームに適用される。水平方向ボリューム
及び垂直方向ボリュームをチェックすることも、小シン
ボルチェックの一つである。
【0036】シンボル分類子により実行される種々の処
理ステップを記載する。
【0037】シンボルアラインメント(整列、整合)を
用いて、標本のランテンプレートグループに対するシン
ボルのランのマッチングに備えられる。2つのアクショ
ンがとられる。1つのアクションは、ランの軸に沿うミ
スアラインメント(不整列、不整合)の影響を改善しよ
うとする。2つ目のアクションはシンボルランとテンプ
レートランを整列させようとするものである。
【0038】2つのシンボルがランの軸に沿って整列さ
れていない場合には、ケアされなければあらゆるノイズ
が比較ミスを生じるおそれがある。この問題を処理する
ために、終点の座標が変更され、重要な余剰ビットで表
される。このシンボルの座標表現の変更は、ノイズに起
因する寸法の変化の影響の最小化を促す。記録される水
平方向ランの終点は−(実幅−1)から+(実幅−1)
までの範囲をとる。これは、(実幅−1−(−(実幅−
1))= 2×実幅、という計算された幅を提供する。垂
直方向ランの終点は、トップの−(実高さ−1)からボ
トムの(実高さ−1)までの範囲を有する。
【0039】2つのシンボルのミスアラインメントに対
する最も一般的な理由は、一方のシンボルが、他方のシ
ンボルがノイズを有さない側にノイズを有することであ
る。これは、シンボルのうちの1つを1ピクセル分幅広
く(又は高さを高く)する。しかし、これは対応するラ
ンの記録された座標を1だけ変化させる。この好適な実
施の形態における最小のシンボル以外のすべてに対し
て、シンボルの終点と標本の終点の間に3という距離が
許容される。3は、ミスアラインメントに対する1に1
ピクセルだけオフするための2を加えた合計である。そ
の測定は各ランの軸に沿ったミスアラインメントを考慮
しようとする。
【0040】行われる第2のアクションは、ランに垂直
な軸においてランを整列させようとする。シンボルのラ
ンを処理するシステムを以下に詳細に記述する。手短に
言えば、各標本は、マッチするシンボルの終点に対する
正規の範囲を記述したテンプレートを有する。アライン
メントステップがなければ、比較は常にシンボルのボト
ム(最下)列とテンプレートの標本のボトム列との間で
行われる。標本がノイズを有さないボトムにシンボルが
ノイズを有する場合には、シンボルと標本は正確に整合
されない。これが比較ミスにつながるおそれがある。こ
れはさらに悪いことに、実際に違うシンボル同士がそれ
らのエンベロープがかろうじて近くなるようにミスアラ
インメントされることにつながりかねない。例えば、大
文字の「I」がわずかに数字の「1」の左にミスアライ
ンメントされると、文字「I」の上のキャップの右側
が、数字の「1」と十分に異なってみえる程には伸びき
らない。
【0041】これを避けるために、シンボルの水平方向
及び垂直方向の中心軸のロケーションが計算される。垂
直軸のロケーションは、シンボルのエンベロープ(すな
わち境界)の左右のサイドに見出されるポイントを平均
することにより見いだされる。水平軸は、シンボルのエ
ンベロープのトップの終点及びボトムの終点を平均する
ことにより見出される。この計算は、二つの余剰ビット
精度を用いて行われる(すなわち、得られる値は二進少
数点未満に2ビットを有する)。次いで、シンボルの水
平軸からボトムラインまで(及びシンボルの垂直軸から
左サイドまで)の距離が計算される。
【0042】新しいシンボルを任意の標本に比較する前
に、シンボルの余分なボトム列及び左コラムが作成され
る。これらの追加された列及びコラムはそれぞれ、アラ
インメント列及びアラインメントコラムと呼ばれる。余
分な列(コラム)は、実際のボトム(左)列(コラム)
における各ランの中央と同じコラムに1つの黒ピクセル
を有する。同様に、アラインメント列及びコラムは、シ
ンボルランのチェックに使用されるテンプレートデータ
構造に追加される。テンプレートのアラインメント列及
びコラムに関して言えば、それらはそれぞれボトム列及
び左コラムをチェックするのに使用される1セットの二
重テンプレートグループの形態にある。テンプレートグ
ループについて以下により詳細に記載する。特定のシン
ボルの水平方向ランの特定の標本の水平方向ランへの比
較を開始する前に、水平軸とボトム列(垂直方向ランの
垂直軸と左コラム)の間の距離が調べられる。シンボル
の水平軸がそのボトム列に対して、標本の水平軸がその
ボトム列に対するよりも少なくとも一列近ければ、シン
ボルのアラインメント列を用いて比較が開始される。標
本の水平軸がそのボトムに対して、標本の水平軸がその
ボトム列に対するよりも一列を越えて近い場合には、標
本のテンプレートの二重セットを用いて比較が開始され
る。これによりシンボルランが標本テンプレートに合わ
せられる。
【0043】ランの中央において列又はコラムに黒ピク
セルを加えることは、ノイズを加えるのと同種である。
シンボルのトップ及びボトムにおいてはノイズに対して
だけチェックがなされる。ノイズについてチェックする
ことは、シンボルのピクセルが標本に対して遠く離れて
いるかどうかを見るチェックである。アラインメント列
(コラム)における各ランの中央にピクセルが1つだけ
存在するので、シンボルのピクセルが標本上のいずれか
らも遠く離れてミスマッチを生じるようなことはあり得
ない。
【0044】この方法を用いると、エラーの減少と共に
同値類の数が目立って減少することがわかった。
【0045】これは、シンボルを同値類標本と比較する
第一の方法である。大きいシンボルに対してはこれを行
うだけでよい。この方法は、非常に小さいシンボルの非
常に小さな差をとらえることに対しては実際のところ適
切ではない(このような小さな差は小シンボルチェック
によってとらえられる)。テンプレート範囲がそのよう
な差を捕らえる程に狭くされると、かなり多くの同値類
が生成される可能性がある。
【0046】まさに同じ方法(及び同じソフトウェアコ
ード)を用いて、水平方向標本テンプレートに対して水
平方向シンボルランがマッチングされ、垂直方向標本テ
ンプレートに対して垂直方向シンボルランがマッチング
される。水平方向ランチェックは、垂直方向エッジにお
けるミスマッチの検出に用いられる。垂直方向ランチェ
ックは、水平方向エッジにおけるミスマッチの検出に用
いられる。両タイプのチェックが行われることにより、
全てのエッジにおいて正確なチェックが行われることが
保証される。簡潔さのために、水平方向テンプレート及
び水平方向ランのチェックについてのみ記載する。垂直
方向テンプレート及び垂直方向ランのチェックも同様で
ある。
【0047】標本をシンボルと比較する最も単純な方法
は、各標本ランを1つのシンボルランと比較することで
ある。あいにく、この方法は標本とシンボルの間の十分
なバリエーションを考慮しないことが決定された。各シ
ンボルランに対して単一の標本ランを参照するのではな
く、標本の薄い3列水平方向スライスを用いて、各シン
ボルランに対する終点テンプレートを計算する。標本中
の全ての列nに対して、列n−1、n、及びn+1を含
む標本の水平方向スライスが抽出される。このスライス
中の各関連するコンポーネントが1つのグループに対応
する。関連するコンポーネントは、スライス中の隣接す
る列におけるランとオーバーラップするランのセットに
より容易に識別できる。グループは、シンボルランの終
点をチェックするのに使用されるテンプレートを保持す
るデータ構造である。
【0048】グループのこの概念を図2で示す。図2を
参照すると、1行目201は「a」のラン205、
「b」のラン206及び「d」のラン207を、2行目
202は「c」のラン208及び「e」のラン209
を、3行目203は「f」のラン210及び「g」のラ
ン211を、4行目204は「h」のラン212を含
む。従って1行目201、2行目202及び3行目20
3により規定されるスライスには、2つのグループが存
在する。第1のグループは、ラン「a」205、「b」
206、「c」208及び「f」210により規定され
る。第2のグループはラン「d」207、「e」209
及び「g」211により規定される。2行目202、3
行目203及び4行目204により規定されるスライス
に対しては、1つだけのグループが存在する。このグル
ープは、ラン「c」208、「e」209、「f」21
0、「g」211及び「h」212である。
【0049】このグルーピングの有利な点は、エッジの
配置における不確かさを大目に見ることができる点であ
る。例えば、本発明はラン「h」212により表される
エッジが1行上に移動してラン「f」210及び「g」
211と結合することを許容する。従ってグルーピング
は、水平方向グループが垂直方向のノイズを許容し、垂
直方向グループが水平方向のノイズを許容することを可
能にする。別の例としては、薄壁を有する10×10の
円の左右のサイドは画像中でつながっているが、円の中
央を通る3列スライスが、連結された2つの異なるコン
ポーネントを含むので、それらは個々のグループを有す
る。トップにおける3列スライスは、1つの関連するコ
ンポーネントを有するので、1つのグループである。し
かしながら、3列の高さ(又は3コラム分の幅)未満の
ホールの回りの全ての水平方向3列スライスは、単一の
関連するコンポーネントを有するので、ここに1つのグ
ループが生成される。
【0050】各テンプレートグループは特定のタイプか
らなる。4つのタイプのテンプレートグループがある。
グループのタイプにより、どの種類のチェックが行われ
るかが決まる。チェックが失敗すると、シンボルと標本
は上記のことを除いてマッチしない。4つのテンプレー
トグループタイプを以下に記載する。
【0051】CheckNoise:このタイプは、標本のエッジ
で使用される。標本のピクセルの最終ラインは、マッチ
ングシンボル中に存在するかもしれないし、存在しない
かもしれない。同様に、標本のエッジのすぐ隣の空白
は、その中にマッチングシンボルからのビットを有し得
る。CheckNoiseグループの目的は、シンボルランがChec
kNoiseグループによりカバーされる範囲と交差する場合
に、全体のシンボルランがその範囲内に含まれることを
保証することである。それ自身のCheckNoiseグループに
適する標本エッジの最小レングスを特定するパラメータ
が存在する。さらに、所与のポイントの右のシンボルラ
ンだけがチェックされることにより、このグループはCh
eck1RunNoAdvance規準(後述する)と共に後で使用され
得る。
【0052】Check1Run :これは、最も一般的なグルー
プである。これは、対象とする領域の3本の走査線の各
々において標本が正確に1つのランを有する場合に使用
される。これは、左右の終点の値の範囲を含む。左終点
の範囲は、3つのランの最も左の左終点と3つのライン
の最も右の左終点との間である。次いで、或るスロップ
(slop)が追加される。左におけるスロップのサイズ
は、シンボルサイズと最も左の終点が標本のラインに属
するかどうかとの関数である(中間のラインに対しては
より多くのスロップが許容される)。右の終点範囲も同
様に計算される。
【0053】時に、シンボルは中央の走査線上に2つの
ランを有し得る。これは、標本を作成するのに使用され
る一例のシンボルが閉(つまった)ループを有するが他
のシンボルは有さない場合に発生する。分類は主にシン
ボルのエンベロープの形状に関係するので、この差によ
って比較ミスは発生しないはずである。従って、上記規
準が失敗すると、CheckEndpointsテストが実行される。
【0054】CheckEndpoints:このテストは、1つのグ
ループの3つの列のいずれかの上に1つより多くランが
存在する場合に用いられる。範囲内に含まれるランのブ
ロックの最も左の端及び最も右の端が正しい場所にある
かについてチェックが行われる。これは、小さいホール
の有無が重要でないとする考え方と一致する。これはま
た、標本におけるフォーク(分岐)及びジョイント(連
結)を上下に移動させる。最も左の終点と最も右の終点
の範囲は、Check1Run において行われる方法と同様に決
定される。
【0055】Check1RunNoAdvance:このグループタイプ
は特別なケースを扱う。これは、現行のシンボルランを
越えて進行しないことを除けばCheck1Run グループと同
じである。この特別なケースを以下に示す。
【0056】垂直方向ストロークは、垂直方向に隣接す
る水平方向ランの集まりと定義される。同様に水平方向
ストロークもあるが、垂直方向ストロークを説明する目
的でそれについては考慮しないことにする。ストローク
の各列には正確に一つのランがある。非常に小さいシン
ボルのループにおいては、1つのみランを含むストロー
クにより2つの垂直方向ストロークがトップ又はボトム
において連結され得る。ランの正確な位置は、それが実
際にストローク同士の間のギャップにわたらなければ重
要でない。この場合、CheckNoiseグループが用いられて
ギャップの右のノイズが放棄され、Check1RunNoAdvance
グループが用いられてギャップを覆うランがあるかどう
かが調査され、別のCheckNoiseグループによりギャップ
の上/下のラインの右端の右にあるランが放棄される。
したがって、ノイズブリップは、ギャップの右及び/又
は左に対してチェックされると共に許容され、CheckNoi
seグループはギャップをまさにカバーする単一のラン、
又はギャップの上/下のライン近くの全てのスペースを
カバーする単一のランをチェックする。
【0057】以下により詳細に記載するように、上述の
タイプの1セットのテンプレートグループが生成され、
その後標本とシンボルの比較に使用される。テンプレー
トグループのセットは、マッチが発生する場合に満たさ
れなければならない1セットのマッチング規準を定義す
る。このマッチング規準は、同値類及びその標本に唯一
のものであり得る。比較中に、テンプレートグループと
シンボルランの両方が右から左、下から上へと処理され
る。1つのテンプレートグループは複数のタイプからな
るように規定できるので、各テンプレートグループは、
1つ以上のシンボルランをチェックするように使用され
る。グループの余剰セットが標本のトップより上に生成
されると、シンボルのトップにおけるノイズが捕えられ
る。すべての標本グループが失敗することなくチェック
されると、残りのシンボルランの数がチェックされる。
左にシンボルランが存在する場合には、シンボルと標本
はマッチしない。ランの水平方向セットと垂直方向セッ
トの両方がマッチする場合には、シンボルと標本はマッ
チする。
【0058】上記チェックが十分でないこともある。注
意されるべき特定的な問題は、小さい太字の「e」と小
さい太字の「a」である。これら両者は傾向として、つ
まり気味で丸みがかっている。人は、比較的大きな特徴
(差)を比較的小さい特徴にあてはめることによりこれ
を扱う。小さくて濃い丸いものを比較する場合には、別
の、即ちより敏感なテストが用いられる。シンボルの終
点が標本により特定される範囲内にあるかどうかを決定
するばかりでなく、シンボル同士が実際には同じでない
ことを示すようにシンボルの終点が範囲内で移動してい
ないかを決定することが意図される。
【0059】例えば、「a」は「e」よりも少し方形で
あり、左に小さなくぼみを有する。「a」の左のエッジ
は、(ボトムにおいて)「e」の左のエッジよりも左に
あると共に、(中央においては)「e」の左のエッジよ
り右にある。しかしながら、シンボルと標本における相
関性のないノイズをシンボルと標本が互いに放棄するこ
ともできる。
【0060】シンボルの左サイド及び右サイド(又は垂
直方向ランを見る際にはトップ及びボトム)に対して別
々に計算が実行される。両サイドに対する計算は同じで
あるので、左サイドの計算に関してのみ記載する。各列
において、シンボルの最も左の終点(Sとラベル付けさ
れるコラム)と標本の最も左の終点(Eとラベル付けさ
れるコラム)の間の距離が決定される(EΔとラベル付
けされるコラム)。なお、シンボルSの終点と標本Eの
終点は常に、上述のアラインメントプロセスにより2の
倍数である。これらの間の距離の差は、隣接するライン
(EΔ−PΔとラベル付けされるコラム)において計算
される。これは、最初の誘導体のようなものである。変
数Pは、先行する0でない距離(即ちEΔ−PΔのイン
スタンス)を保持するように維持される。この変数は、
比較プロセスの開始時に0(ゼロ)に初期化される。距
離のこの差(すなわちEΔ−PΔ)がゼロでない時毎
に、(P+この差)の絶対値が差の実行中の合計に加算
され、次いでPが新たな差に取り替えられる。右サイド
のトータルか左サイドのトータルのいずれかが高さの3
/4(垂直方向ランを比較する際には幅の3/4)より
大きい場合には、シンボルと標本はマッチしない。
【0061】
【表1】
【0062】この計算の一例について表1を参照して説
明する。表1の種々のコラムは、上述の情報を含む。表
1の合計の更新というコラムは、合計値が更新されるべ
きかを示すと共に、記述の目的で提供される。EΔ−P
Δの値が0でない場合には、合計が更新されることを思
い起こしていただきたい。
【0063】表1の列1は、分析される最初の列を例証
する。処理の開始時にPΔ及びPの値はゼロに初期化さ
れる。EΔ−PΔが0ではないので、合計は変更され
る。結果的に、合計フィールドが3という値をとること
になる。
【0064】列2では、シンボル及び標本の終点が動か
ないのでEΔ−PΔ=0である。従って、合計に変化は
生じない。値Pは列1からのものである。
【0065】列3では、標本の終点Eが移動され、EΔ
が1という値になる。EΔ−PΔがゼロでない(−2)
ので、合計の更新が示される。値Pは列1からのもので
ある。よって、(EΔ−PΔ)+P=−2+3は1であ
り、これが合計に加算されて4という値が得られる。
【0066】列4では、標本の終点は、列1及び列2に
あった場所に戻る。EΔ−PΔが0でないので、合計の
更新が示される。値Pは列3からのものである。しか
し、(EΔ−PΔ)+P即ち(−2+2)の絶対値はゼ
ロであるので、合計に対して有効な変化が生じない。
【0067】列5では、標本の終点は列3にあった場所
に戻る。EΔ−PΔが0ではないので、合計の更新が示
される。値Pは列4からのものである。しかし、この場
合には(EΔ−PΔ)+P(即ち、−2+2)は0であ
るので、合計に有効な変化は生じない。
【0068】列6では、シンボルの終点と標本の終点が
等量移動する。Pは列5からその値を得る。EΔ−PΔ
が0であるので、合計に変化は生じない。
【0069】列7では、標本の終点が移動する。これは
結果的に−1というマイナスのEΔに帰結する。Pは列
5からの値を保持する。値EΔ−PΔ=−1−1=−2
であり、合計に加算される値は(EΔ−PΔ)+P=−
2−2=−4の絶対値の4であり、これが合計に加算さ
れる。次いで合計は8の値をとる。
【0070】列8では、標本の終点が再び動く。これ
は、−3というマイナスのオフセットEΔに帰結する。
値Pは列7からのものである。EΔ−PΔ=−3−1=
4であり、合計に追加される値は(EΔ−PΔ)+P=
−4−2=−6の絶対値である6である。合計は14と
いうの値をとる。
【0071】このように作用すると、2つのシンボルが
完全にミスアラインメントされる場合には終点の距離は
全てこの同じミスアラインメント距離に等しいので、差
は全く記録されず、合計には何も追加されない。関連の
ないノイズは、その差を+1、−1、+1、−1等のよ
うに見せる傾向がある。各ペアの合計は0であるので、
不規則変動は行われない。一方、実際の変動は少くとも
2つのステップに対して同じ方向に生じる傾向があるの
で、発現する。
【0072】これを実施するために、標本の最も左端と
最も右端にタグが付けられる。タグがセットされると、
グループの中央のライン上の標本ランとシンボルランと
の差が計算される。標本が小さくて丸く濃いシンボルを
表す場合にのみフラグがセットされる。
【0073】分類に使用される個々のテストについて記
載した。ここではテストが実行される順序を記載する。
先に述べたように、シンボル抽出ステップは、画像中の
すべての関連するコンポーネント、又はシンボルを見出
す。見出された各シンボルに対して、シンボル−ファイ
ンダ(symbol-finder )がシンボルのロケーション、境
界ボックス、及びシンボルを含むランのリストを用いる
分類ルーチンを呼び出す。
【0074】図3は、分類ルーチンのステップを概説す
るフローチャートである。まず、入力される水平方向ラ
ンの座標が、(1)シンボルの中心に対して、(2)2
を乗じられたオフセットを有するように、ステップ30
1において変更される。これにより、上記2つのステッ
プにおいて−(幅−1)から+(幅−1)までの範囲を
とるシンボルランが生成される。次いで、シンボルのマ
ス及び内部がステップ302において計算される。ステ
ップ303においてシンボルのボトムに対してアライン
メント列が作成される。これは、ボトムの走査線におけ
る水平方向ランから水平方向ランの二重セットを計算す
ることにより行われる。これらは、各実際の水平方向ラ
ンの中央のコラムに単一の黒ピクセルを有するランであ
る。上述のように、アラインメント列は、必要であれば
シンボルを垂直方向(上)にオフセットするように用い
られ得る。
【0075】ステップ304では、シンボルの垂直方向
ランが水平方向ランから計算される。垂直方向ランも、
シンボルの中央に中心を置く2×座標を使用する。次に
アラインメントコラムがステップ305で作成される。
ここで、左コラムにおいて垂直方向ランから垂直方向ラ
ンの二重セットが作成される。これらは、各実際の垂直
方向ランの中央の列に一つの黒ピクセルを有するランで
ある。それらは、必要であればシンボルを右にオフセッ
トするように用いられる。
【0076】次に、ステップ306においてシンボル特
徴が計算される。先に述べたように、これらの特徴は、
傾斜(度)、水平方向ボリューム及び垂直方向ボリュー
ム、水平方向中心軸からシンボルのボトムまでの距離、
そして垂直方向中心軸から左コラムまでの距離を含む。
また、ステップ307では水平方向ボリューム及び垂直
方向ボリュームが決定され、必要であればボリュームフ
ラグがセットされる。対応するボリュームが全領域の少
くとも3/4であれば、フラグがセットされる。これら
フラグは、小さくて濃いシンボルのチェックを補助す
る。
【0077】次いでステップ308において、シンボル
との比較に適格な標本テンプレートがディクショナリか
ら識別される。上述のように、標本は、比較が行われる
ために抽出シンボルの2つのピクセルの範囲内の高さ及
び幅を有さなければならない。標本テンプレートは、幅
及び高さによりグルーピングされる。表2は、標本が比
較されるシーケンスを示す。「w」及び「h」のコラム
の下に与えられる数はそれぞれ、シンボルの幅及び高さ
からのオフセットである。例えば、標本の第1のグルー
プはシンボルと同じ幅及び高さを有する。調査される標
本の第2のグループは、シンボルよりも1だけ幅が広
い、等。所与の幅及び高さのグループの全標本は、シー
ケンスにおける次のサイズグループの標本を見る前に調
査される。
【0078】
【表2】
【0079】ステップ309においてディクショナリが
空であること又はその範囲に標本がないことが決定され
れば、ステップ318において新たな同値類が作成され
る。最初のチェックは、シンボルの幅及び高さとシンボ
ルの傾斜特徴が標本のしきい値内にあるかどうかをステ
ップ311で決定することである。標本は、シンボルの
高さ及び幅に対する最小値及び最大値を規定する。傾斜
のしきい値は、MIN(幅、高さ)/2という関数によ
り定義される。これらの特徴が標本のしきい値の範囲内
になければ、それが比較に適格な最後の標本であったか
どうかのチェックがステップ312において行われる。
最後の標本でなければ、次の標本がステップ310で読
み出される。それが最後の標本であれば、新たな同値類
がステップ318で作成される。新たな同値類を作成す
るステップ318については、標本テンプレートを参照
して後述する。
【0080】シンボルの幅及び高さと傾斜特徴が標本の
しきい値の範囲内であれば、小さいシンボル(即ち大き
くないこと)に関する検査と小シンボルチェックがステ
ップ313で実行される。小さいシンボルに関する検査
は、シンボルの高さ及び幅が20ピクセル以下であるか
どうかである。これにより、小さいシンボルに対する特
別なチェックが幅の狭い又は偏平なシンボルに実行され
ることができる。小シンボルチェックについては図4を
参照してより詳細に、及び大きいシンボルに実行される
チェックに追加して説明する。シンボルが小さく、小シ
ンボルチェックのいずれをもみたさない場合には、標本
とマッチするものはなく、ステップ312において処理
は可能であれば別の標本を試行し続ける。
【0081】シンボルが大きいか、又はシンボルが小さ
いと共に全ての小シンボルチェックをパスした場合に
は、ステップ314においてテンプレートグループ規準
にマッチングするシンボルランが見出される。先に述べ
たように、標本テンプレートは、各々が特別なマッチ規
準を有する水平方向及び垂直方向テンプレートグループ
を含む。テンプレートグループを使用するこのプロセス
については、さらに図5を参照して説明する。次いでス
テップ315では、標本テンプレートがマッチされるか
どうかが決定される。マッチするものが生じなければ、
処理はステップ312で可能であれば別の標本を試行し
続ける。マッチするものが生じれば、シンボルの位置及
びマッチングした標本のIDがステップ316で記録さ
れる。最後に、標本テンプレートに対するマッチカウン
タがステップ317で増分される。後述するように、マ
ッチカウンタは同値類統合中に使用され、統合された同
値類を表現するのにどの標本が使用されるべきかを決定
する。
【0082】図3に記されるステップは、画像から抽出
される各シンボルに対して繰り返される。
【0083】図4は、小シンボルチェックを示すフロー
チャートである。これらのチェックについては図3のス
テップ313で言及した。概して、これらのチェックは
シンボル特徴を標本しきい値と比較する。なお、小さく
濃いシンボルに対する更なるチェックは、テンプレート
グループとシンボルランの比較に関して実行され、これ
については図5を参照して説明する。図4では、以下の
チェックが小さいシンボルに実行される。
【0084】ステップ401では、シンボルのマスが標
本により指定される範囲内にあるかどうかのチェックが
行われる。2つのシンボルはそれらのマスの比が大きす
ぎる場合にはマッチしない。大きすぎる場合には、図3
のステップ312で次の標本が試行される。大きすぎな
い場合には次のチェックが実行される。
【0085】ステップ402ではシンボルの内部が標本
により特定される範囲内にあるかどうかのチェックが行
われる。2つのシンボルはそれらの内部がマスの範囲を
越えて異なる場合にはマッチしない。内部がマスの範囲
を越えて異なれば、図3のステップ312で次の標本が
試行される。
【0086】次いで、残りのチェックは小さく濃いシン
ボルに使用される。濃さの指標は、HVolume 又はVVolum
e フラグのセットである。
【0087】ステップ403では、シンボルのcheckHVo
lumeフラグ又は標本のcheckHVolumeフラグがセットされ
たか、及びシンボルと標本が同一の幅でないか、及びそ
れらのうちの幅の広い方がより小さいHVolume を有する
かのチェックが行われる。そうである場合には、図3の
ステップ312で次の標本が試行される。そうでない場
合には、次のチェックが実行される。
【0088】シンボルのcheckVVolumeフラグ又は標本の
checkVVolumeフラグがセットされ、及びシンボルと標本
が同一の高さでないか、及びそれらのうちの高さの高い
方がより小さいVVolume を有するかのチェックがステッ
プ404で行われる。そうであれば、図3のステップ3
12で次の標本が試行される。そうでない場合には、す
べての小シンボルチェックがパスされ、標本のテンプレ
ートグループ規準の分析が図3のステップ314で実行
される。
【0089】テンプレートグループをシンボルとマッチ
ングするプロセスは、水平方向/垂直方向テンプレート
グループと水平方向/垂直方向シンボルランの両方に対
して同一である。従って、図5のフローチャートで記述
されるステップは、水平方向及び垂直方向ランに対して
適用される。なお、図5はまた、小さくて濃い丸いシン
ボルをチェックするための更なるステップについても記
述する。図5を参照すると、最初のステップは、シンボ
ルの水平方向/垂直方向軸とそのボトム列/左コラムと
の間の距離(値Xと呼ぶ)と標本の水平方向/垂直方向
軸とそのボトム列/左コラムとの間の距離(値Yと呼
ぶ)を決定する。これらの測定は、アラインメント列/
コラムがシンボル又は標本に付加されるかどうかを決定
するために使用される。ステップ502でX−Y≧1が
真であれば、ステップ503でアラインメント列/コラ
ムがシンボルに付加される。換言すれば、水平方向ラン
の場合、シンボルの軸がそのボトム列に対して、標本の
軸がそのボトム列に対するよりも少なくとも一列近けれ
ば、シンボルのアラインメント列を用いてシンボルが標
本と整合され始める。逆にステップ504でY−X≧1
が真であれば、ステップ505でアラインメント列/コ
ラムが標本に付加される。換言すれば、標本の軸がその
ボトム列に対して、シンボルの軸がそのボトム列に対す
るよりも少なくとも一列近ければ、標本のアラインメン
ト列を用いて開始される。なお、これはシンボルのボト
ム列を標本にマッチングするのに使用されるテンプレー
トグループの二重セットに対応する。
【0090】処理は、各標本のボトム列、右コラムにお
いて始まるテンプレート及びシンボルランを用いて進行
する。ステップ506でテンプレートグループが得られ
る。次いでステップ507において、シンボルランリス
ト中の現行のラン(単数又は複数)がテンプレートグル
ープ規準にマッチするかどうかが決定される。先に述べ
たように一つより多くのランがテンプレートグループの
規準にマッチすることを要求されることができ、マッチ
規準はグループのタイプにより特定される。テンプレー
ト規準がランリスト中のランによって満たされない場合
には、処理は図3のステップ312において次の標本を
得るように継続する。ステップ508において規準が満
たされる場合には、テンプレートグループにマッチング
するランが消費され、ランリスト中の次のランがステッ
プ509で現行ランとなる。これにより、すべてのラン
が標本の或るテンプレートにマッチすることが保証され
る。シンボルが小さく、丸く、濃い場合には、ステップ
510においてアラインメント及びノイズチェックが列
に対して実行される。このチェックは、現行列がゼロで
ない隣接列オフセットを有する際の隣接列オフセットの
差の集積であり、これについては表1を参照して上述し
た。
【0091】ステップ511では、より多くのテンプレ
ートグループがチェックされる必要があるかどうかが決
定される。そうである場合には、処理はステップ506
で継続する。そうでない場合には、シンボルランリスト
が使用されきったかどうかがステップ512において決
定される。そうでない場合には、マッチするものが発生
しなかったので、処理は図3のステップ312で次の標
本を得るように継続する。小さく、丸い、濃いシンボル
の場合、ランリストが消費されきった場合には、集積さ
れたオフセットの差が所定のしきい値よりも大きいかど
うかがステップ513で決定される。この好適な実施の
形態では、所定のしきい値は、高さの3/4(垂直方向
ランを比較する場合には幅の3/4)である。小さくて
丸く濃いシンボルでない場合、又は所定のしきい値が越
えられない場合には、マッチが発生し、処理は図3のス
テップ316においてシンボルをコード化するように継
続する。しきい値を越える場合には、処理は図3のステ
ップ312において次の標本を得るように継続する。
【0092】シンボルの抽出及びマッチングプロセスの
間に、シンボルがどの標本にもマッチしないこともあ
る。この場合には、新しい同値類が作成される。新しい
同値類の標本は、抽出されたシンボルである。新しい同
値類が作成されると、新しい標本にシンボルをマッチン
グすることを要求されるテンプレートが作成される。幸
いにも、テンプレートに使用されるシンボル特徴の多く
は、分類プロセス中に作成されたので、再計算される必
要がない。新たな標本は、その後のシンボル分類のため
に標本リスト(すなわちディクショナリ)に挿入され
る。検索が楽なように、標本は標本を定義する境界ボッ
クスのサイズによりインデックスを付けられる。
【0093】標本テンプレートは、シンボルを標本にマ
ッチングすることを必要とされるすべてのデータを含
む。図6は、標本テンプレートの基本構成要素を示す。
図6を参照すると、標本テンプレートは、標本ID番号
601と、マッチカウント602と、標本特徴パート6
03と、標本フラグ604と、しきい値範囲605と、
種々のランポインタ606とを含む。
【0094】標本ID番号601は、標本テンプレート
にアクセスするためにシンボル分類子により使用される
インデックスである。
【0095】マッチカウント602は、標本にマッチン
グするシンボルの数を含む記憶場所である。
【0096】標本特徴パート603は、幅及び高さ情
報、標本中の1(黒ピクセル)の数、標本の傾斜、内部
ピクセルの数、水平方向ランから計算されるアシメトリ
(非対称性)、垂直方向ランから計算されるアシメト
リ、水平方向ランから計算されるボリューム(各走査線
上の最も左の終点と最も右の終点との間に含まれるピク
セルの数の合計)、及び垂直方向ランから計算されるボ
リューム(垂直方向ランに対する各走査コラムにおける
トップとボトムの間に含まれるピクセルの数の合計)を
含む。
【0097】標本フラグ604は、小さく濃いシンボル
に対するチェックに使用されるHVolume 及び VVolumeフ
ラグを含む。
【0098】しきい値範囲パート605は、種々のシン
ボルと標本特徴を比較するしきい値を含む。なお、他の
しきい値範囲は実際のシンボル分類処理の間に計算され
る。
【0099】ランポインタパート606は、テンプレー
トを用いて抽出シンボル中のランをチェックするのに使
用される水平方向及び垂直方向テンプレートグループの
リストに対するポインタと、対応する標本を定義するラ
ンに対するポインタとを含む。
【0100】すべての画像シンボルを標本と比較した
後、あまりに多くの同値類が存在する可能性がある。そ
れにはいくつかの原因がある。第一は、比較における共
有( communitivity)の不足である。シンボルAが標本
Bにマッチしないことがわかっても、標本Bにより表さ
れるシンボルがシンボルAに対する標本にマッチするか
どうかはわからない。シンボルBが第1でシンボルAが
第2であることがわかると、実際には併合されるべき2
つの標本が作成され得る。同値類超過の別の原因は、ミ
スアラインメント(不整列)である。ランの軸に沿うミ
スアラインメントを許容すると共に正確な走査線とマッ
チングしようとする試みがなされるが、それは必ずしも
うまくいかない。
【0101】同値類を合併する結果生ずる同値類は、統
合同値類と呼ばれる。同値類の統合は少なくとも4つの
ケースを考慮に入れる: 1.統合同値類のメンバでない2つの独立した標本同士
がマッチする。この場合、新しい統合同値類が生成され
る。 2.孤立した標本が、すでに統合同値類のメンバである
標本にマッチする。この場合、孤立した標本が既存の統
合同値類に追加される。 3.すでに統合同値類のメンバである標本が、孤立した
標本にマッチする。この場合、孤立した標本が既存の統
合同値類に追加される。 4.すでに2つの異なる統合同値類のメンバである2つ
の標本同士がマッチする。この場合、2つの既存する統
合同値類が併合され、2つの元々の統合同値類のメンバ
を含む新たな統合同値類が生成される。
【0102】同値類統合の際には、別の同値類の少くと
も1つのメンバにマッチする或る同値類の少くとも1つ
のメンバを見出すことにより、同値類同士が合併され
る。マッチが正確でないので、推移性(移行性)に関す
る何らかのトラブルが発生する。すなわち、シンボルA
はシンボルBにマッチし、シンボルBはシンボルCにマ
ッチするが、シンボルAはシンボルCにマッチしないか
もしれない。かなり拡張されると、不正確な同値類同士
につながりが存在するので、同じ同値類中にかなり異な
るシンボル同士が存在し得る。
【0103】この好適な実施の形態では、推移性の問題
は、併合される各同値類の許容サイズ範囲を、併合して
いる同値類の範囲の交わりに制限することにより最小に
される。これは、或る同値類のシンボルが他の同値類の
いずれのシンボルにも類似することを保証する。サイズ
範囲が制限されると、他のテストは、大きな差の防止に
対して十分に正確である。なお、他のテストはマスの許
容範囲を提供すること等のアドレス指定にも使用され得
るが、サイズの許容範囲に対する制限が大抵のケースを
処理することが決定した。
【0104】さらに、同値類統合中に個々のシンボルを
比較する際、第1のシンボルの同値類中に見出されるシ
ンボルの寸法の範囲が第2のシンボルの同値類により許
容される範囲と比較される。第1の同値類中のすべての
シンボルが第2の同値類において指定される範囲内に合
わなければ、2つのシンボルはマッチすることができな
い。同様に、第2の同値類中のすべてのシンボルが第1
の同値類において指定される範囲内に合わなければ、2
つのシンボルはマッチすることができない。
【0105】同値類を統合する時には、それらのうちど
れが新しい同値類の標本になるかが決定されるまで、す
べての同値類標本が保持される。或る同値類の標本が別
の同値類の標本にマッチすれば、それらの同値類は統合
される。分類プロセスの特徴は、2つのシンボルがすで
に同じ同値類のメンバである場合にはそれら2つのシン
ボルは比較されないことである。
【0106】図7及び図8は、この好適な実施の形態の
同値類統合を述べたものである。図7は、本発明のこの
好適な実施形態における同値類統合の基本ステップを概
説するフローチャートである。図7を参照すると、標本
はまずステップ701で「シフトされない」位置におい
て他の標本とマッチングされ、統合同値類が作成され
る。なお、ここでは各標本は統合同値類中にセーブされ
る。「マッチする」とは、セット中の標本が全て、セッ
ト中の少なくとも1つの他の標本にマッチしたとの意味
である。使用されるマッチング方法は、上述のシンボル
分類子のものと同じである。図8に関して後述するよう
に、マッチングの規準は、より多くの標本がマッチング
される程、より厳しくなる。なお、各標本は正確に統合
された1つの同値類に属する。
【0107】マッチするものの最大数を見出すために、
標本がシフトされる。「シフトされる」とは、全ランの
終点が変更されるという意味である。まず、ステップ7
02において標本が右にシフトされて他の標本にマッチ
ングされ、次いでステップ703において上にシフトさ
れて他の標本に比較される。ステップ701〜703
は、マッチされる標本の複数のセットを得るためにステ
ップ704において全ての標本に対して繰り返される。
【0108】標本が統合同値類に一旦合併されると、ス
テップ705においてその統合同値類に対する標本とな
るように標本の中から1つの標本が選択される。この好
適な実施の形態では、これは累積されたマッチスコアに
より決定される。先に述べたように、各同値類テンプレ
ートはマッチカウントを有している。このマッチカウン
トは、標本にマッチすることがわかったシンボルの数に
対応する。同値類の統合中に2つの標本がマッチするこ
とがわかると、各標本は、他の標本のマッチカウントを
受け継ぐ(即ち、他の標本のマッチカウントがそれらの
マッチカウントに追加される)。最も高いマッチカウン
トを有する標本が、その同値類を表す標本となる。本発
明の主旨及び範囲を逸脱しなければ、マッチカウントの
重みづけ平均等の他の方法を使用することもできる。
【0109】最後にステップ706において、処理され
るシンボルを含むデータストリームが、新たな統合同値
類を反映するように変更される。これは、出力データス
トリーム中の標本IDを実際に変更することにより、又
は画像は再生される時に使用される平行移動表を提供す
ることにより、達成されることができる。またこれは、
新たな同値類をディクショナリとして提供することも含
む。
【0110】図8は、図7のステップ701〜703で
実行される標本のマッチングステップを概説するフロー
チャートである。このプロセスを説明する目的で、図8
は標本Aと標本Bを使用する。標本Aは、他の標本に比
較されている標本である。標本Bは、標本Aに比較され
ている標本の一例を表す。標本A及びBの両者は、孤立
した標本、又は統合同値類の一部である標本であり得
る。前者の場合、図8中に挙げられる値/範囲は、その
標本の値/範囲のことである。後者の場合、図8に挙げ
られる値/範囲は、統合同値類の値のことである。さら
に、各標本は、2つの指定されたサイズ範囲、即ち実際
のサイズ範囲と許容されるサイズ範囲を有する。実際の
サイズ範囲は、標本又は統合同値類中の標本(複数)に
対する実際のサイズ又はサイズ範囲を示す。許容サイズ
範囲は、標本にマッチすることのできるサイズの許容範
囲を表す。
【0111】図8を参照すると、まずステップ801に
おいて、標本Bの実際のサイズ範囲が標本Aの許容サイ
ズ範囲内にあるかどうか、及び標本Aの実際のサイズ範
囲が標本Bの許容サイズ範囲内にあるかどうかが決定さ
れる。上述したように、これらのサイズチェックにより
推移性の問題が処理されることが決定された。
【0112】ステップ802の「サイズはOK」がノー
であれば、ステップ803において同じ同値類中にまだ
存在しない次の標本が比較され、処理はステップ801
で再開する。ステップ802の「サイズはOK」がイエ
スであれば、ステップ804において標本Aが標本Bに
比較される。比較ステップは、シンボル特徴がそれぞれ
の標本テンプレート内に含まれるのでそれらを計算する
必要がないことを除いて、上述の比較ステップと同じで
ある。ステップ805の「マッチする」がノーであれ
ば、同一の統合同値類中にまだ存在しない次の標本がス
テップ803で比較され、処理はステップ801で再開
する。
【0113】ステップ805の「マッチする」がイエス
である場合には、ステップ806で標本Aが標本Bと合
併される。合併により、上述した種々の組み合わせに対
応する統合同値類、即ち新たな統合同値類が得られたり
(標本A及び標本Bは両者とも孤立した標本である場
合)、それら標本のうちの1つが既存の統合同値類に併
合されたり(標本A又は標本Bのいずれかが既存の同値
類中にある場合)、あるいは2つの統合同値類が併合さ
れたりする(標本Aと標本Bが両者とも既存の統合同値
類のメンバである場合)。
【0114】次いで、統合同値類の実際のサイズ範囲及
び許容サイズ範囲は、ステップ807において標本B
(又は使用される標本Bが帰属すべき統合同値類)を考
慮するように変更される。その結果、2つのサイズ範囲
が次のように変更される:(1)同値類中の実際のサイ
ズは典型的に、標本が追加されるためにより大きくな
る;(2)新たな同値類にマッチングする許容サイズ範
囲は、2つの合併される同値類に対して許容される範囲
の交わりであるので、典型的により小さくなる。
【0115】前述の例に関して同値類統合をさらに説明
する。ABCDEFGHという8つの同値類標本を有す
ると仮定する。
【0116】まず、同値類Aは同値類B、E及びGとマ
ッチすると仮定すると、(A,B,E,G)CDFHが
得られる。従って、表される同値類のセットが5つのみ
存在し、(A,B,E,F)は統合同値類となる。比較
は各標本に対して繰り返される、即ち、同一セット中の
標本同士は比較されないことを除いて、同値類B〜Hは
全て他に比較される。同値類CとFがマッチし、同値類
D及びHは他のどの同値類にもマッチしないと仮定す
る。これにより、(A,B,E,G)(C,F)DHが
得られる。従って、(C,F)も統合同値類となり、4
つのみの同値類が存在することになる。統合同値類に対
して、同値類を表す標本の選択が残る。ここで、最も累
積したシンボルマッチを有するものが代表者となる。従
って例えば、標本Aが50個のマッチを有し、Bが40
個のマッチを有し、Eが46個のマッチを、そしてGが
20個のマッチを有する場合には、標本Aがその同値類
を表すことになる。
【0117】本発明のこの好適な実施形態が使用され得
るコンピュータベースシステムについて図9を参照して
説明する。図9を参照すると、コンピュータベースシス
テムは、バス901を介して接続される複数のコンポー
ネントを含む。ここで示されるバス901は、本発明を
不明瞭にしないように単純化されている。バス901
は、複数の並列バスから成る(例えばアドレスバス、デ
ータバス、状態バス)かもしれないし、複数のバスの階
層構造(例えばプロセッサバス、ローカルバス、及びI
/Oバス)であるかもしれない。いずれにせよ、コンピ
ュータシステムはさらに、内部メモリ903からバス9
01を介して提供される命令を実行するプロセッサ90
2を含む(なお、内部メモリ903は典型的にはランダ
ムアクセスメモリ又は読出し専用メモリの組み合わせで
ある)。かかる命令は、図1〜図5と図7及び図8のフ
ローチャートで概説された処理ステップを実行するソフ
トウェア中で実行されるのが好ましい。プロセッサ90
2及び内部メモリROM903は、別々のコンポーネン
トであっても、アプリケーション指定集積回路(ASIC)
チップ等の単一の集積デバイスであってもよい。
【0118】またバス901には、英数字入力のための
キーボード904、データ格納のための外部記憶装置9
05、カーソル操作のためのカーソル制御デバイス90
6、及びビジュアル出力をディスプレイするためのディ
スプレイ907も接続される。キーボード904は典型
的に、標準のQWERTYキーボードであるが、電話の
ようなキーパッドであってもよい。外部記憶装置905
は、固定された又は取り外し可能な磁気若しくは光ディ
スクドライブであってよい。カーソル制御デバイス装置
906は典型的に、ある種の機能の実行をプログラムで
きるボタン若しくはスイッチを有する。さらに、スキャ
ナ908もバス901に接続される。スキャナ908
は、媒体(すなわち走査文書画像)のビットマップ表現
を作成する手段を提供する。
【0119】バス901に接続されることのできる任意
のエレメントは、プリンタ909、ファクシミリエレメ
ント910及びネットワークコネクション911を含
む。プリンタ909はビットマップ表現を印刷するのに
使用できる。ファクシミリエレメント912は、本発明
を用いて圧縮された画像データを伝送するのに使用され
るエレメントを含み得る。あるいはファクシミリエレメ
ント912は、本発明を使用して圧縮された文書画像を
圧縮解除するエレメントを含んでもよい。ネットワーク
コネクション911は、画像データを含むデータの受信
/伝送に使用される。従って本発明により使用される画
像データは、走査プロセスを介して、又は受け取られた
ファックスを介して、又はネットワーク上で得られるこ
とが可能である。
【図面の簡単な説明】
【図1】本発明の好適な実施形態で実行され得る、走査
されたシンボルを同値類に分類するステップのフローチ
ャートである。
【図2】標本の薄い水平方向スライスから作成されるラ
ンのグループを示す図である。
【図3】本発明の好適な実施形態で実行され得るシンボ
ル分類のステップを概説するフローチャートである。
【図4】本発明の好適な実施形態において実行され得る
小シンボルチェックのステップを概説するフローチャー
トである。
【図5】本発明の好適な実施形態において実行され得る
テンプレートグループ/シンボルラン比較ステップを概
説するフローチャートである。
【図6】標本テンプレートのコンポーネントを示すブロ
ック図である。
【図7】本発明の好適な実施形態において実行され得る
同値類統合の基本ステップを概説するフローチャートで
ある。
【図8】図7で記述された統合同値類を作成するための
標本のマッチングステップのサブステップを概説するフ
ローチャートである。
【図9】本発明の好適な実施形態が使用され得るコンピ
ュータベースシステムのブロック図である。
【符号の説明】
901 バス 902 プロセッサ 903 内部メモリ 904 キーボード 905 外部記憶装置 906 カーソル制御デバイス 907 ディスプレイ 908 スキャナ 909 プリンタ 910 ファクシミリエレメント 911 ネットワークコネクション

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 画像を表す画像データ中のシンボルを分
    類するシステムにおいて、同値類同士を併合して統合同
    値類を作成する方法であって、 a)画像データから抽出されたシンボルを分類して複数
    の同値類を作成するステップを含み、該同値類の各々が
    その同値類を表す標本を有し、 b)第1の同値類の標本を第2の同値類の標本にマッチ
    ングするステップを含み、該マッチングステップが、第
    1の同値類の標本のランと第2の同値類の標本のランか
    ら得られる情報を有し、 c)前記第1の同値類の標本と前記第2の同値類の標本
    がマッチする場合に、第1の同値類と第2の同値類の標
    本を結合して統合同値類を作成するステップを含み、 d)上記ステップb〜cを前記複数の同値類の各々に対
    して繰り返して、複数の同値類を作成するステップを含
    み、 e)前記複数の統合同値類の各々に対して、前記統合同
    値類を作成するために使用された標本のセットから、該
    統合同値類を表す1つの標本を選択するステップを含
    む、ことを特徴とする統合同値類の作成方法。
JP31993696A 1995-12-20 1996-11-29 統合同値類の作成方法 Expired - Fee Related JP3925971B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/575,313 US5818965A (en) 1995-12-20 1995-12-20 Consolidation of equivalence classes of scanned symbols
US575313 2000-05-19

Publications (2)

Publication Number Publication Date
JPH09185715A true JPH09185715A (ja) 1997-07-15
JP3925971B2 JP3925971B2 (ja) 2007-06-06

Family

ID=24299810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31993696A Expired - Fee Related JP3925971B2 (ja) 1995-12-20 1996-11-29 統合同値類の作成方法

Country Status (2)

Country Link
US (1) US5818965A (ja)
JP (1) JP3925971B2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5930393A (en) * 1997-08-11 1999-07-27 Lucent Technologies Inc. Method and apparatus for enhancing degraded document images
US6112208A (en) * 1997-08-25 2000-08-29 Fujitsu Limited Data compressing method and apparatus to generate bit maps in accordance with extracted data symbols
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6101275A (en) * 1998-01-26 2000-08-08 International Business Machines Corporation Method for finding a best test for a nominal attribute for generating a binary decision tree
US6748115B1 (en) 1998-06-19 2004-06-08 Cvision Technologies Llc Perceptually lossless image compression
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US20030079184A1 (en) * 2000-05-05 2003-04-24 International Business Machines Corporation Dynamic image storage using domain-specific compression
CN100541537C (zh) * 2003-11-24 2009-09-16 廖宏 一种利用计算机对数字化档案文件压缩的方法
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
WO2005106643A2 (en) * 2004-04-12 2005-11-10 Exbiblio, B.V. Adding value to a rendered document
US8713418B2 (en) * 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
GB0411245D0 (en) * 2004-05-20 2004-06-23 Enseal Systems Ltd A method for the assessment of quality and usability of digital cheque images with minimal computational requirements
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7403932B2 (en) * 2005-07-01 2008-07-22 The Boeing Company Text differentiation methods, systems, and computer program products for content analysis
US8068684B2 (en) * 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US8229232B2 (en) * 2007-08-24 2012-07-24 CVISION Technologies, Inc. Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
US8638363B2 (en) 2009-02-18 2014-01-28 Google Inc. Automatically capturing information, such as capturing information using a document-aware device
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
CN113127637A (zh) * 2019-12-31 2021-07-16 中兴通讯股份有限公司 一种字符的还原方法及装置、存储介质、电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864628A (en) * 1983-08-26 1989-09-05 Texas Instruments Incorporated Method of optical character recognition
US5054093A (en) * 1985-09-12 1991-10-01 Cooper Leon N Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier
JPH01183793A (ja) * 1988-01-18 1989-07-21 Toshiba Corp 文字認識装置
US5020112A (en) * 1989-10-31 1991-05-28 At&T Bell Laboratories Image recognition method using two-dimensional stochastic grammars
US5303313A (en) * 1991-12-16 1994-04-12 Cartesian Products, Inc. Method and apparatus for compression of images

Also Published As

Publication number Publication date
JP3925971B2 (ja) 2007-06-06
US5818965A (en) 1998-10-06

Similar Documents

Publication Publication Date Title
JP3925971B2 (ja) 統合同値類の作成方法
US5303313A (en) Method and apparatus for compression of images
JP3977468B2 (ja) シンボル分類装置
KR100938099B1 (ko) 클러스터링 시스템, 클러스터링 방법, 문서 인코딩 시스템 및 클러스터링 방법을 수행하기 위한 컴퓨터 판독가능 매체
US7460710B2 (en) Converting digital images containing text to token-based files for rendering
US5335290A (en) Segmentation of text, picture and lines of a document image
US7991224B2 (en) Segmenting digital image and producing compact representation
JP4494563B2 (ja) トークン化によるイメージ分割を用いたイメージ処理方法および装置
US7702182B2 (en) Method and apparatus for creating a high-fidelity glyph prototype from low-resolution glyph images
US5835638A (en) Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols
JPH03201866A (ja) 圧縮形態のデータを含むデータから画像スキュー角度を決定する方法
Witten et al. Textual image compression: Two-stage lossy/lossless encoding of textual images
US6532302B2 (en) Multiple size reductions for image segmentation
Kia et al. Symbolic compression and processing of document images
US6360006B1 (en) Color block selection
US6266445B1 (en) Classification-driven thresholding of a normalized grayscale image
US6088478A (en) Method and apparatus for distinguishing bold face characters
US6259814B1 (en) Image recognition through localized interpretation
Garain et al. Compression of scan-digitized indian language printed text: a soft pattern matching technique
Boiangiu et al. Efficient solutions for ocr text remote correction in content conversion systems
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
WO2001029771A1 (en) Fast segmentation algorithm for bi-level image compression using jbig2
AU2004242418A1 (en) Generating compressed output representation
AU2004242421A1 (en) Segmenting digital image and producing compact representation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees