JP2003228712A

JP2003228712A - イメージからテキスト状のピクセルを識別する方法

Info

Publication number: JP2003228712A
Application number: JP2003005035A
Authority: JP
Inventors: Jian Fan; チャン・ファン
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2002-01-11
Filing date: 2003-01-10
Publication date: 2003-08-15
Also published as: US20030133612A1; US8103104B2; EP1327955A3; EP1327955A2

Abstract

(57)【要約】【課題】イメージからテキスト状のピクセルを識別す
る。イメージ内のピクセルのライン（線）セグメントを
分類する。【解決手段】イメージからテキスト状のピクセルを識別
する方法であって、イメージを用意し、前記イメージ内
のピクセルのラインセグメントをエッジ境界平均化によ
って分類することを含む方法を提供する。イメージ内の
サブブロブのピクセルを調べること、およびサブブロブ
接続性の分析を行うこと、をさらに含む。また、前記イ
メージ内でピクセルのエッジを識別し分類すること、前
記イメージ内でさらにピクセルを分類するため充填を行
うこと、前記イメージ内でピクセルの整合性分析を行う
こと、前記イメージ内でピクセルの接続性の分析を行う
こと、および前記イメージ内でテキストピクセルを識別
すること、を含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、デジタルイメージ
中のテキスト状ピクセル(text-like pixels)を自動的に
識別するアルゴリズムに関する。

【０００２】

【従来の技術】テキスト抽出という用語は、テキスト・
キャラクタやグラフィックを、基本となるアルファベッ
ト、テキスト・レイアウト、フォントサイズ、位置確認
を予め知ることなく、イメージから識別することを意味
している。各ピクセルは１つのビットを用いてテキスト
または非テキストを区別することができる。これは２進
形式で見ることができる。

【０００３】テキスト抽出は、多くのイメージ処理アプ
リケーションで必要になってきている。自動の光学テキ
スト認識（OCR）は、一般的な消費者に幅広く用いられ
ている。電子スキャナと組み合わさって、OCRソフトウ
ェアは、紙文書を便利に保存され処理される電子形式に
変換する便利な方法を手軽に提供する。テキスト抽出は
OCR処理の最初のステップであるが、グレースケールイ
メージから直接外形を抽出することも可能である。複合
文書の圧縮を適用するのにおいて、テキストピクセルが
別のものから識別され分離された後、適切な圧縮方法が
テキストピクセルに適用され、高い圧縮率で読みやすい
ものにできる。

【０００４】テキスト抽出は信号検出の問題として考え
ることができるので、信号の特徴づけが必要になる。例
えば、仮定されたイメージの輝度分布などのグローバル
しきい値アルゴリズムは、二項のガウシアンモデルにう
まく合う。そうしたモデルは、初期の二進印刷技術によ
り生成された白の背景にある黒のテキストを区別するこ
とができる。文書イメージが緩やかに変化する背景に黒
のテキストがあると識別できる場合、様々なしきい値ア
ルゴリズムを当てはめるのがより適切な場合がある。し
かしながら、印刷技術が進むにつれて、複雑な背景にテ
キストをおくことが一般的になってきた。このタイプの
イメージについては、背景は単一または緩やかに変化す
るものと扱うことはもはやできない。その結果、グロー
バルしきい値またはしきい値を当てはめることでは、テ
キストピクセルを満足に抽出することはできなくなっ
た。さらに最近では、多くの研究者が色の整合性やスト
ローク幅などのテキストの特性に基づいた様々な技術を
提案している。初期の方法は、ストローク幅を利用して
背景からテキストを識別しているが、エッジの近くのピ
クセルを検出し、２次導関数演算を用い、ストローク幅
の距離内のマッチングを探すことによって行われてい
る。２次導関数によって生じたノイズの感度の問題は、
後にウィンドウベースの局所平均を用いるという提案に
より示される。

【０００５】ストローク幅に基づく技術は、一般的に手
書きテキストを複合的な背景から抽出することを目的と
したものである。一般的な例はサインチェックである。
この場合、ストローク幅が小さく既知の範囲内であるこ
とを仮定するのが合理的である。しかしながら、雑誌の
ページなどの印刷されたテキストがある多くのタイプの
文書イメージは、ストローク幅に基づく技術を無効にし
てしまうような大きく道の範囲のフォントサイズを通常
有している。さらに、線形空間平均が、識別されたテキ
ストの境界精度に影響を与える場合がある。

【０００６】デジタルイメージ中のテキスト状のピクセ
ルを識別することに関連した様々な問題の他の例とし
て、次のものがある。テキストが絵入りのパッチ上にあ
ったり、テキストブロックが矩形でなかったり、そして
テキストの輝度が周辺に比べて暗かったり明るかったり
する場合があることである。これらの問題は、デジタル
イメージ中のテキスト状のピクセルを信頼できる形で識
別することを難しくしている。

【０００７】テキスト抽出は多くのアプリケーションで
用いられている。例えば、テキスト抽出はコンピュータ
上で動作するソフトウェアにおいて用いることができ
る。ここでイメージファイルが与えられると、ソフトウ
ェアはファイルをPDFフォーマットに圧縮する。テキス
ト抽出を用いる別の例は、スキャナである。文書がスキ
ャンされると、スキャナは文書を圧縮しPDFフォーマッ
トで保存する。テキスト抽出を用いる第３の例は、コン
ピュータで動作するソフトウェアを用いることである。
ここでイメージファイルが与えられると、ソフトウェア
はテキストピクセルをイメージへと抽出し、イメージを
別のOCRソフトウェアプログラムに送る。

【０００８】

【発明が解決しようとする課題】したがって、イメージ
からテキスト状のピクセルを識別するシステムおよび方
法に対する必要性がある。さらに、イメージ内のピクセ
ルのライン（線）セグメントを分類する方法に対する必
要性がある。

【０００９】

【課題を解決するための手段】この発明は、その一態様
によると、イメージからテキスト状のピクセルを識別す
る方法であって、イメージを用意し、前記イメージ内の
ピクセルのラインセグメントをエッジ境界平均化によっ
て分類することを含む方法を提供する。

【００１０】この発明は、一実施態様では、イメージ内
のサブブロブのピクセルを調べること、およびサブブロ
ブ接続性の分析を行うこと、をさらに含む。また、一態
様では、前記イメージ内でピクセルのエッジを識別し分
類すること、前記イメージ内でさらにピクセルを分類す
るため充填を行うこと、前記イメージ内でピクセルの整
合性分析を行うこと、前記イメージ内でピクセルの接続
性の分析を行うこと、および前記イメージ内でテキスト
ピクセルを識別すること、を含む。

【００１１】さらに、この発明の一態様は、前記イメー
ジのカラー空間変換を行い、また、前記イメージのスム
ージングを行う。

【００１２】この発明の一実施態様では、あるラインの
第１の側からはじめて該ラインの第２の側に進み、ピク
セルの連続セグメントを非エッジ、白エッジ、または黒
エッジとして識別し、中央インテリア204、205の両端
点、左エッジセグメント202、203の両端点、右エッジセ
グメント206、207の両端点、左インテリア201の右端
点、右インテリア208の左端点を含む少なくとも８つの
位置についてエッジ境界平均化を計算し、前記エッジ境
界平均化の値に基づいて、中央インテリアを非テキス
ト、黒インテリア、または白インテリアとして分類す
る。

【００１３】

【発明の実施の形態】本発明は、デジタルまたはビット
マップイメージなどのイメージからテキスト状の形を識
別するためのシステム化された方法を提供する。本発明
の好ましい実施形態は、明るい背景の暗いテキスト、暗
い背景の明るいテキスト、絵の領域にあるテキストなど
の様々なタイプのテキストを操作し、テキストの境界を
高い精度で見つけるものである。

【００１４】本発明の実施形態に従った処理の、好まし
い実施形態のフローチャートが、図１に示されている。
図１に示される好ましい実施形態の方法のステップ１０
１では色空間変換を行うが、好ましい実施形態での主な
アルゴリズムはイメージの輝度に関して行われるものだ
からである。イメージ入力がRGB（赤、緑、青）で行わ
れると仮定すると、RGB入力データは、YCrCb空間などの
輝度／クロミナンス空間に変換されるのが好ましい。大
半のイメージ／ビデオ圧縮プログラムで具現化されるよ
うに、変換は予め計算されたルックアップテーブルを用
いて計算を早めるために行うことができる。もちろん、
イメージデータが輝度で入力される場合、ステップ１０
１の色空間変換は、必要なければ省略してもよい。

【００１５】説明する実施形態のステップ１０２では、
スムージングが行われる。スムージングはローパスフィ
ルタリングともよばれるが、ノイズの効果を除去する上
で有用である。しかしながら、スムージングは、テキス
トをもんやりさせ、破壊すらする。従ってスムージング
を適用するかどうかにあたっては、そのパラメータを、
イメージが取得される解像度およびアルゴリズムがそこ
で働くよう設計されたテキストの最小サイズにより決定
されるのが好ましい。従って、ステップ２０１は、所定
の状況においては、省略することもできる。

【００１６】例えばスムージングを、本発明の好ましい
実施形態の従った300DPI（ドット／インチ）以下の解像
度でスキャンされたイメージに適用せず、300DPIの解像
度のイメージについて、ガウシアンローパスフィルタ構
造体を適用して後述の式を用いた必須レベルのスムージ
ングを提供することができる。

【００１７】

【数１】式（１）

【００１８】ここでｋは、Σｆ_i,j＝1.0となるような規
格化要素であり、ｃはフィルタの中心である。本発明の
もっとも好ましい実施形態によると、３×３のフィルタ
サイズが用いられ、α＝1.0である。高い解像度を持つ
イメージについては、パラメータαと組み合わせて、よ
り大きなサイズ（５×５、７×７）のフィルタを用いる
ことができる。パラメータαは、フィルタサイズに基づ
いて変化することができ、様々な程度のノイズのフィル
タを行うことができる。一般的に、所定フィルタに対し
てαが大きくなると、フィルタの程度は小さくなる。

【００１９】説明する実施形態のステップ１０３では、
イメージの中のエッジの識別および区別を行う。このス
テップでは、各ピクセルは非エッジ、白エッジ、または
黒エッジに区別するのが好ましい。好ましい実施形態に
おけるエッジの識別および区別のための式を次に示す。

【００２０】

【数２】１．垂直方向の勾配G_i,j ^I、水平方向の勾配G
_i,j ^J、および勾配の大きさM_i,jを、次の式を用いて計算
する。 G_i,j ^I＝（y_i+1,j-1+2y_i+1,j+y_i+1,j+1）−（y_i-1,j-1+2
y_i-1,j+y_i-1,j+1） G_i,j ^J＝（y_i+1,j+1+2y_i,j+1+y_i-1,j+1）−（y_i+1,j-1+2
y_i,j-1+y_i-1,j-1） M_i,j＝√｛（G_i,j ^I）²＋（G_i,j ^J）²｝ここで、y_i,jは、インデックス_i,jにおけるピクセルの
輝度である。

【００２１】

【数３】２．下に規定される離散ラプラシアン（２次デ
ィレクティブ、second directive）を計算する。 L_i,j = (y_i-2,j + y_i+2,j + y_i,j+2 + y_i,j+2) - 4y_i,j

【００２２】

【数４】３．全てのピクセルを次のように分類する。 Mi,j＞T_eの場合、 L_i,j＜０の場合、（i,j）のピクセルを白エッジに分類
する。 L_i,j＜０でない場合、（i,j）のピクセルを黒エッジに
分類する。 M_i,j＞T_eでない場合、（i,j）のピクセルを、非エッジに分類する。

【００２３】上述の通り示される好ましい実施形態の式
は、しきい値T_e＝２０を用いる。上で用いられるしきい
値は説明のためのものであり、他のしきい値を、解析さ
れるイメージデータのタイプおよび他の検討事項に基づ
いくものとして用いることができる。

【００２４】好ましい実施形態のステップ１０４は、水
平の線セグメントを、エッジ境界の平均化により分類す
ることができる。例えば、最も好ましい実施形態によれ
ば、全ての水平線について、j＝０となる左からはじめ
て、右に進み、非エッジピクセルおよびエッジあり（黒
エッジおよび白エッジの両方を含む）ピクセルの連続セ
グメントを識別する。各非エッジのセグメントは、テキ
ストキャラクタのインテリアとなりうる。好ましい実施
形態によると、非エッジセグメントは、左および右イメ
ージ境界を除き、図２に示されるように、２つのエッジ
セグメントに挟まれている。これら様々なセグメント
は、ここで左インテリア２０９、左エッジ２１０、中央
インテリア２１１、右エッジ２１２、右インテリア２１
３と呼ばれる。本発明の好ましい実施形態に従った中央
インテリア２１１のセグメントを分類するために、８つ
の場所でのエッジ境界平均値を計算する。その場所は図
２に示されるように、次の通りである。中央インテリア
の両端の点２０４、２０５。左エッジセグメントの両端
の点２０２、２０３。右エッジセグメントの両端の点２
０６、２０７。左インテリア２０１の右端の点。右イン
テリア２０８の左端の点。

【００２５】エッジ境界平均を計算するのに用いられる
マスクは、ステップ１０３のピクセル分類および接続性
に基づくのが好ましい。位置（i,j）におけるエッジ境
界平均は、（i,j）にあるマスク内の接続されたピクセ
ルの平均値として定義することができる。接続性は、ラ
ベルと空間の近接の両方により定義することができる。
エッジが境界を持つ平均について、好ましい実施形態で
は、全てのピクセルをエッジと非エッジに分類する。白
と黒のエッジは、両方とも１カテゴリーのエッジに組み
込まれる。非エッジピクセルには４隣接接続が、エッジ
ピクセルには８隣接接続が、用いられるのが好ましい。
４隣接接続および８隣接接続システムは、図３に説明さ
れている。平均化マスクのサイズは、イメージ解像度に
依存している。例えば、７×７のマスクサイズは、イメ
ージ解像度が３００DPIのときに用いることができ、よ
り高い解像度のイメージのときに９×９のマスクサイズ
が用いられる。

【００２６】図４は、８つの位置のうち４つについての
マスク構造の例を説明している。８つの位置は、図２で
識別されるセグメント２０１−２０８である。例えば、
接続要件に合致する全ての非エッジピクセルには、図４
で説明される１の値が与えられる。図４は、本発明の好
ましい実施形態に従った４つのマスク４０２，４０３，
４０４，４０５を示している。中央参照点４０６を有す
るマスク４０５は、中央参照点４０６からの４隣接接続
をもつ全ての非エッジピクセルには、好ましい実施形態
では１の値が与えられる。１の値を有する全てのピクセ
ルは、平均化されるのが好ましい。マスク４０５内にお
いて、右手の下の角には非エッジピクセルがあるが、マ
スクには中央ピクセル４０６との４隣接接続がないので
１の値が割り当てられず、平均化において用いられな
い。他の例として、マスク４０３は、グレーセグメント
の左端における平均値のために参照点４０１を用いる。
マスクの“１”に対応する全てのピクセルを足し、
“１”の全体の数でその和を割る。８つの平均値がy_Lx,
e_LL,e_LR,y_Li,y_Ri,e_RL,e_RR,およびy_Rsとして示される
が、これは図２で説明される通りである。

【００２７】これら８つの平均値について、決定ルール
を用いることにより中央インテリアについて仮の分類を
することが可能である。この決定ルールは、例えば図５
で特定される好ましい実施形態の決定ルールなどであ
る。図５で説明される決定ルールでは、パラメータΔは
インテリアの整合性についての許容範囲を特定し、パラ
メータδ_yおよびδ_eは、テキストの最小コントラストを
特定する。これらのパラメータはしきい値T_eと結びつく
のが好ましく、例えばΔ＝２^＊、δ_y＝T_e、およびδ_e＝
0.8^＊T_eとすることができる。左または右境界におい
て、失われた平均値との比較はスキップするのが好まし
い。左および右のエッジをとばす場合、セグメントは非
テキストと分類するのが好ましい。

【００２８】好ましい実施形態では、垂直方向の整合性
を考慮に入れるのが好ましい。例えば、黒インテリア
（白インテリア）と仮に分類されたセグメントについ
て、好ましい実施形態では、先のラインで白インテリア
（黒インテリア）と分類されたピクセルの数を数える。
数えた数が予め設定された比率（例えば２０％、高い比
率が高い許容度を意味する）のセグメント長よりも大き
い場合、セグメントの質を下げ、非テキストとすること
が好ましい。または仮に行った分類を用いることもでき
る。

【００２９】好ましい実施形態のステップ１０５では、
垂直充填を行う。このステップでは、非テキストに分類
された垂直セグメントが検査され、そのうちいくつかを
垂直充填境界を用いて再分類できるかどうかが決定され
る。好ましい実施形態の垂直充填境界によると、セグメ
ント長（水平または垂直方向のピクセル数を参照）は所
定数以下となるべきである。その数は例えば、３００DP
I以下では２であり、３００DPIについては５である。さ
らに、２つの端にあるすぐ隣りのピクセルは、本発明の
垂直充填境界に従った互換の型となるべきである。例え
ば、黒インテリアおよび黒エッジ、または白インテリア
および白エッジは、隣接ピクセルの互換タイプとして識
別される。こうした制限されたセグメント内で、好まし
い実施形態の垂直充填境界は、長さが１のセグメントを
識別し、２つの八の隣接するものの両方は、黒エッジま
たは白エッジのいずれかと同じ型のエッジである。この
タイプのセグメントについては、セグメントはその端で
隣接するものと同じ型に再分類されるのが好ましい。他
の制限セグメントについては、セグメントは、端で隣接
するものが黒インテリアまたは黒エッジの場合は黒イン
テリアとして、白インテリアまたは白エッジの場合は白
インテリアとして再分類されるのが好ましい。

【００３０】説明している方法のステップ１０６では、
垂直整合性解析を行う。非テキストとしてまだ分類され
ていないピクセルはテキストピクセルの候補である。こ
のステップでは、まだ分類されていないピクセルは、垂
直整合性についてのさらなる検査の対象になる。好まし
い実施形態の垂直整合性解析は、エッジ（白エッジ、黒
エッジ、およびこのステップで新たに導入される削除エ
ッジ）に分類されていないピクセルの連続、および例え
ば５などの所定のしきい値より大きい長さで特徴付けら
れた、全ての水平セグメントを識別する。こうしたセグ
メントの中の全てのピクセルは、白インテリア、黒イン
テリア、または非テキストとするべきである。削除エッ
ジは、エッジピクセルとなるピクセルを参照するが、テ
キストピクセルに限定されるものではない。

【００３１】こうしたセグメントのそれぞれについて、
好ましい実施形態の垂直整合性解析では、白インテリア
として分類されるピクセルの数をwcとして、黒インテリ
アとしての数をkcとして数え、垂直境界の矛盾、すなわ
ちエラーを解析する。

【００３２】垂直整合性の解析では、２つのタイプの境
界の整合性を解析する。第１タイプのエラーは、境界の
失われたエッジに起因するものである。このことは、少
なくとも２つのケース含む。（１）現在のピクセルが白
インテリアであり、上または下に隣り合うものが黒イン
テリアまたは非テキストの場合（２）現在のピクセルが
黒インテリアであり、上または下に隣り合うものが白イ
ンテリアまたは非テキストの場合、である。第２タイプ
のエラーは、非互換エッジタイプに起因するものであ
り、少なくとも２つのケースを含む。（１）現在および
上のピクセルが、同じタイプのインテリアピクセル（白
または黒インテリア）であり、下に隣り合うものが逆の
タイプのピクセルのエッジ（黒または白エッジ）である
場合（２）現在および下のピクセルが同じタイプのイン
テリアピクセル（白または黒インテリア）であり、上に
隣り合うものが逆のタイプのピクセルのエッジ（黒また
は白エッジ）である場合、である。本発明の好ましい実
施形態の垂直整合性の解析は、第１タイプのエラーだけ
についての最大ランレングス（最長の連続セグメント）
EL₁、および第１と第２タイプのエラーの組み合わせに
ついての最大ランレングスEL₁₂を数える。

【００３３】セグメントと隣接ピクセルを、削除または
再分類することについての決定がなされるのが好まし
い。例えば、第１タイプエラーの最大ランレングスEL₁
が、パラメータmax_boaderErr1RunLenまたは例えばセグ
メント長の６０％など所定の第１比率より大きい場合、
もしくは、第１と第２タイプのエラーの組み合わせの最
大ランレングスEL12が、例えばセグメント長の８０％な
ど第２比率よりも大きい場合、セグメントは削除のため
に識別することができる。決定がセグメントおよび隣接
するピクセルを削除するものではない場合、好ましい実
施形態では、別のセグメントを解析するのに移る。max_
boaderErr1RunLenは、イメージ解像度に依存するのが好
ましい。例えば６００DPI以下の解像度では５、他のも
のであれば１０などである。

【００３４】削除用に識別されたセグメントについて、
好ましい実施形態では、セグメント内の全てのピクセル
を非テキストとして再分類する。さらに、好ましい実施
形態の垂直整合性解析では、次で説明するように、削除
可能とするための、セグメントの関連する隣接する
（左、右、上、および下）エッジピクセルを調べる、最
初の場合、エッジセグメント（エッジピクセルの垂直ま
たは水平線セグメント）の長さが、例えば３００DPIに
ついては１０にするような特定の値よりも長い場合、エ
ッジセグメントは削除されないのが好ましい。これは圧
縮アプリケーションに対する好ましい実施形態に従って
「テキスト」として数えられる細い線の削除を防ぐこと
である。

【００３５】別の第２の例では、w_cが、セグメント内の
全てのピクセルに対する第１の比率、例えば５０％より
大きい場合、セグメントは白セグメントと仮定するのが
好ましく、白エッジセグメントは削除のためにマークす
ることができる。好ましい実施形態においては、黒エッ
ジが出てくるまで白エッジが削除される。そうでない場
合、kcが、セグメント内の全てのピクセルの第２の比
率、例えば５０％より大きい場合、セグメントは黒セグ
メントと仮定されるのが好ましく、黒エッジを削除のた
めマークすることができる。好ましい実施形態において
は、黒エッジは、白エッジが出てくるまで削除される。
そうでない場合、セグメント内のピクセルの大多数は、
テキストピクセルと分類されないのが好ましく、削除さ
れるべきエッジのタイプが決定されるべきである。

【００３６】上述のものが満たされない場合は、第３の
場合において、ステップ１０４で詳述されたエッジ境界
平均アプローチを削除すべきエッジのタイプを決定する
のに用いることができる。しかしながら、図４の逆の論
理が、好ましくはそして一方のみに適用されるのである
が、好ましい実施形態に従って削除されるべきエッジタ
イプを決定するのに用いられる。例えば、後述のルール
は、削除するエッジのタイプを左端から決定するのに用
いることができる。

【００３７】

【表１】ならば、エッジ＝黒いエッジを削除、 Els, ならば、エッジ＝白いエッジを削除 Els, ならば、エッジ＝黒いエッジを削除 Els, ならば、エッジ＝白いエッジを削除 Els, エッジを削除しない

【００３８】従って、３つの全てのケースは所定の状況
で解析されるのが好ましい。決定が、左エッジからエッ
ジを削除することであった場合、好ましい実施形態では
左エッジの右端からはじめて、異なるタイプのピクセル
になるまで、左に動き、ピクセルを削除する。同様のア
プローチが右端にも適用されるのが好ましい。削除は、
好ましい実施形態に従ってエッジピクセルを新たなラベ
ル「削除されたエッジ」に再分類することにより行われ
る。エッジ境界平均の処理のためにエッジとして数えら
れるのが好ましいからである。

【００３９】好ましい実施形態では、削除のためセグメ
ントの上および下のエッジを考慮に入れる。例えば、ピ
クセルの上（または下）に隣り合うものがエッジピクセ
ルである場合、本発明は、それを上方向に所定の距離ま
でトレースする。この距離は、たとえば300DPIについて
は10に選ぶことができる。上述した水平方向について
も、削除するピクセルをマークするために同様の方法を
使うことができる。

【００４０】説明した実施形態のステップ１０７では、
ピクセル接続性の解析を行う。好ましい実施形態におけ
るこのステップでは、テキストの候補として識別された
ピクセルの集合を識別し、同時にその統計を集める。こ
の集合はサブブロブ（sub-blob）と呼ばれる。２つのピ
クセルは、８隣接接続されている場合、好ましい実施形
態に従った同じサブブロブに属する。そして、同じカテ
ゴリーの黒（エッジまたはインテリア）または白（エッ
ジまたはインテリア）に分類される。例えば、ラスタス
キャンモデルにおいて、好ましい実施形態ではj＝０と
なる左側から始まり、右に進み、同じカテゴリーの連続
ピクセル（黒エッジかつ黒インテリア、白エッジかつ白
インテリア）により特徴付けられた全ての水平セグメン
トを識別する。好ましい実施形態では、先の線をチェッ
クして接続があるかどうかを見る。同時に各サブブロブ
について続く統計が集められるのが好ましい。それは、
ピクセルの全体数、色彩値（Y,Cr,Cbが独立して）の
和、境界ピクセルの数、破境界ピクセルの数、および水
平ランレングスである。水平ランレングスは、セグメン
トの長さである。

【００４１】好ましい実施形態において、境界ピクセル
は、白エッジまたは黒エッジのどちらかのエッジピクセ
ルにより構成されている。白ピクセルが黒インテリアピ
クセルに直接接触する、または黒インテリアピクセルが
白インテリアピクセルに直接接触する、または白インテ
リアか黒インテリアピクセルが非テキストピクセルに接
触する場合、ピクセルは紛失境界(missing border)と呼
ばれる。

【００４２】好ましい実施形態においては、現在のピク
セルが黒（または白）インテリアであり、その隣接する
ものの１つが白（または黒）インテリアまたは非テキス
トであるとき、破損境界（broken border）ピクセルが
ある。サブブロブは、少なくとも２つのタイプにより区
別することができる。例えば、黒のサブブロブは黒イン
テリアおよび黒エッジのピクセルを含んでいる。白のサ
ブブロブは、白のインテリアおよび白のエッジを含んで
いる。

【００４３】示された実施形態のステップ１０８は、サ
ブブロブを検査している。ピクセル接続性の解析中に各
サブブロブについて集められた情報で、更なる識別化を
サブブロブについて実行することができる。

【００４４】ピクセルの全体数が所定しきい値minSubSi
ze（解像度および最小フォントサイズに依存）よりも小
さい場合、サブブロブは非テキストとしてマークするこ
とができる。例えばminSubSizeは３００DPI未満の解像
度については３に、３００DPIについては６に、３００D
PI超については１２に等しいとすることができる。

【００４５】全ブロークンボーダの数がパラメータmaxN
oBorderPixels（イメージ解像度に依存）よりも大きい
場合、サブブロブは、非テキストとしてマークされるの
が好ましい。例えば、maxNoBorderPixelsは、３００DPI
未満については１０に等しく、３００DPIについては１
５に等しく、３００DPI超については３０に等しいとす
ることができる。

【００４６】境界カウントが例えば５などの値より大き
く、全境界カウントを超える破損境界カウントの比率が
例えば０．２などの所定しきい値maxBrokenBorderRatio
よりも大きい場合、サブブロブは、非テキストとマーク
されるのが好ましい。

【００４７】現在のサブブロブの数が例えば７^＊minSub
Sizeなどのしきい値よりも大きい場合、好ましい実施形
態では、同じタイプであり（黒または白）現在のピクセ
ル位置の中心にある特定サイズ（解像度に依存）の「コ
ンテキストウィンドウ」内の、現在のサブブロブのピク
セルカウント、例えば少なくとも７０％をもつ、別のサ
ブブロブを探す。例えば、コンテキストウィンドウ２１
×２１を３００DPI未満に対して用いることができ、コ
ンテキストウィンドウ２９×２９を３００DPIに対して
用いることができる。そのようなサブブロブが見つから
ない場合、サブブロブは非テキストとしてマークするの
が好ましい。

【００４８】説明した実施形態のステップ１０９は、サ
ブブロブ接続性の解析である。このステップでは、非テ
キストとしてはマークされない８隣接接続サブブロブ
は、ブロブにグループ化されるのが好ましい。サブブロ
ブの接続性は、ピクセルに対するものと同じであること
が好ましい。すなわち、２つのサブブロブは、白のサブ
ブロブか黒のサブブロブかに関わらず、少なくとも１つ
の８接続ピクセルの組を共有する場合に接続される。好
ましい実施形態の従った１つのブロブ内のサブブロブの
数および位相的な配置に制約はない。各ブロブについて
次の統計値を収集するのが好ましい。それは、外側ボー
ダピクセルの数および内側サブブロブの数である。外側
ボーダピクセルは、ブロブに属するピクセルであり、非
テキストピクセルの隣にある。内側サブブロブは、ブロ
ブに属するサブブロブであり、ブロブに属さないどのピ
クセルとも接続されていない。

【００４９】説明している実施形態のステップ１１０
は、テキストピクセルを識別している。複合文書イメー
ジは、明るい背景上の暗いキャラクタ、暗い背景上の明
るいキャラクタ、絵の領域上のキャラクタを含むことが
できる。従ってブロブは黒および白のサブブロブを含む
ことができる。テキストピクセルを識別するために、本
発明の好ましい実施形態では、どのタイプ（黒または
白）のサブブロブがテキストであるかを判定している。
図６は、どのタイプのサブブロブがテキストであるかを
判定するのに用いられる、好ましい実施形態の決定ルー
ルを示している。ここで、Rは平均ランレングス、NSbは
内側サブブロブの数、BBは破損境界カウント、Bは境界
ピクセルカウント、BRは破損境界比率（BR=BB/B）であ
り、下付きのｗは白を、ｋは黒を示している。

【００５０】好ましい実施形態では、イメージ内の全て
のピクセルを２進表記を用いてテキストおよび非テキス
トに分類する。たとえばここではビット１はテキストピ
クセルを、ビット０は非テキストピクセルを表す。好ま
しい実施形態に従った最終的な分類のための論理は、図
７に示される。代わりとして、テキストを表すのにビッ
ト０を、テキストを表すのにビット１を、用いることが
できる。

【００５１】本発明の好ましい実施形態のアプリケーシ
ョンでは、混合文書圧縮が含まれる。混合文書のイメー
ジは、テキストキャラクタ、線による絵、および連続ト
ーンの絵の領域を混ぜたものを含んだイメージである。
全ての単一イメージ圧縮手法を全体イメージに統一的に
当てはめても、高い圧縮率とイメージ品質の最適な結果
は達成されない。最近、新たな手法が開発され、混合文
書イメージの別々の要素を分けている。そして異なる圧
縮手法を当てはめて高い圧縮率とイメージ品質の両方を
達成している。ある既知の方法では、３つのイメージ
（前面／後面／マスク）を混合文書イメージから作成
し、異なる圧縮手法をそのそれぞれに当てはめている。
しかしながら、この方法は、圧縮手法をサポートする特
別のファイルフォーマットを必要とし、表示および印刷
のための特別のビュアーを必要とする。

【００５２】上述のようなこれらのイメージ作成とは対
照的に、本発明の好ましい実施形態におけるアプリケー
ションでは、混合文書からのテキストの抽出を行う。従
って、本発明により開示される圧縮手法は、アドビ社の
PDFファイルフォーマットと互換であり、従って圧縮さ
れたファイルは、見て印刷するためのPDFビュアーと共
に利用することができる。

【００５３】例で挙げた２つの圧縮手法が、PDFレファ
ランス1.2および1.3と互換となるよう、好ましい実施形
態でのテキスト抽出技術を利用して考え出された。特に
２層混合文書イメージ圧縮手法は、以下に示すように、
本発明に従ったテキスト抽出を利用することができ、PD
Fレファランス1.2との互換性を提供することができる。
同様に、３層混合文書イメージ圧縮手法は、これも下に
示すように、本発明に従ったテキスト抽出を利用するこ
とができ、PDFレファランス1.3との互換性を提供するこ
とができる。先行技術のように、本発明はイメージを２
つまたは３つの層に分離する。しかしながら、本発明の
好ましい実施形態によれば、１つのPDFビュアーを用い
て層を見ることができるようになり、この形態は、単一
のファイルタイプ、アドビPDFと互換である。

【００５４】図９を参照すると、PDFレファランス1.2と
互換の好ましい実施形態の２層混合文書イメージが示さ
れている。圧縮手法によると、図９で説明するように、
２つのイメージが入力文書イメージ９０１から生成され
るのが好ましい。第１イメージは２進イメージ９０２で
あるのが好ましく、ピクセル０は予め選択された色範囲
のテキストピクセルに対応し、ピクセル１は他のものに
対応している。この層はここではマスク層と呼ばれる。
第２イメージはカラーイメージ９０３であるのが好まし
く、全ての非テキストピクセルと、テキストピクセルに
より占められるうまく満たされたピクセル位置を含む。
これは背景層とも呼ばれる。

【００５５】２進イメージをつくるためのテキスト抽出
アルゴリズムの修正バージョンを用いて、好ましい実施
形態では、一般的なテキスト抽出手順のステップ１０１
から１０８を実行する。しかしながら、上述の一般的な
アルゴリズムのステップ１０７は、修正され各サブブロ
ブについての輝度とクロマの和のためのカウンタを含む
のが好ましい。新たなピクセルがサブブロブに足される
とき、輝度およびクロマが計算される。例としての実施
形態によると、輝度値はYの値であり、クロマ値はC＝√
｛（Cr−１２８）^２＋（Cb−１２８）^２｝である。エッ
ジピクセルについては、０．７５^＊Yおよび０．５^＊Cが
カウンタに足されるのか好ましく、非エッジピクセルに
ついてはYおよびCが足されるのが好ましい。

【００５６】上述のステップの処理後、混合文書圧縮手
法の例としての実施形態は、２進イメージを出力する。
黒のサブブロブのそれぞれについて、好ましい実施形態
の方法では、平均輝度（輝度の和をピクセルの全体数で
割ったもの）および平均クロマ（クロマの和をピクセル
の全体数で割ったもの）の値を計算する。平均輝度およ
びクロマが特定範囲内であれば、サブブロブは、テキス
トとして分類されるのが好ましく、そこに属する全ての
ピクセルは出力値０を含む。他の全てのピクセルは、出
力値１を持つのが好ましい。例えば、Y＜２０または
（２０≦Y＜１８０）＾（C＜１８）であるが、ここでY
は平均輝度を表し、Cは平均クロマを表す。この範囲内
の色は一般的に黒として受けとられる。

【００５７】一度２進イメージが決定されると、カラー
イメージの一部も決定される。すなわち、全ての非テキ
ストピクセルは、カラーイメージに属するのが望まし
い。問題はどのようにテキストピクセルに残された穴を
満たすかである。カラーイメージを、より高い圧縮率お
よび小さい圧縮の影響のために可能な限り滑らかにする
ために、線ベースの適合充填アルゴリズムが利用される
のが好ましい。

【００５８】好ましい実施形態の線ベース適合充填アル
ゴリズムを、以下のステップで説明する。第１に、好ま
しい実施形態の線ベース適合充填アルゴリズムは、線の
第１ピクセル（indexj＝０）から始め、j₀＝０にセット
する。

【００５９】第２に、好ましい実施形態の線ベース適合
充填アルゴリズムは、テキストと識別されたピクセルが
見つかり、位置がj_Lとして記憶されるまで、最終ピクセ
ル（indexj＝イメージ幅−１）までサーチを行う。

【００６０】第３に、好ましい実施形態の線ベース適合
充填アルゴリズムは、非テキストと識別されたピクセル
が見つかり、このインデックスと次のテキストピクセル
との間の空間がが少なくともspDであり（例えば解像度
３００DPIについては３を選択する）、位置をj_Rとして
記憶するまで、最終ピクセル（indexj＝イメージ幅−
１）までサーチを行う。

【００６１】第４に、好ましい実施形態の線ベース適合
充填アルゴリズムは、２つのサンプリング点で左および
右のサンプリング点を決定する。図８で説明されるよう
に、サンプリング点はテキストセグメントの２つの境界
点から離されている。左のサンプリング点s_L８０１はsp
Dまたは（j_L-j₀）/2の小さい方である。右サンプリング
点s_Rは、spDまたは（幅-1-j_R）/2の小さい方である。

【００６２】第５に、好ましい実施形態の線ベース適合
充填アルゴリズムは、２つのサンプリング点において、
Y,Cr,Cbの値をとり、全テキストピクセル上で線形的に
補間する。例えば、j_L≦j＜j_Rの範囲内の位置ｊについ
て、補間値はx(j)=x(s_L)+(j-s _L)・(x(s_R)-x(s_L))/(s_R-s
_L)であり、ここでxは、Y,C_r,C_bのそれぞれを表す。

【００６３】第６に、イメージ境界の右端に達すると
き、好ましい実施形態の線ベース適合充填アルゴリズム
は中断する。そうでない場合、j_０＝j_R＋１をセット
し、第２ステップに戻る。

【００６４】上述の手順は全てのイメージ線（列）に当
てはまるのが好ましい。混合文書イメージから生成され
た２つのイメージの例を、図９で示している。

【００６５】一般に絵入り成分の滑らかな領域およびカ
ラーのパッチを含むカラーイメージをさらに圧縮するた
め、ファクタＮ（好ましい実施例では２）のサブサンプ
リングによって解像度を減らすことができる。サブアン
プリングの簡単な方法は、平均化である。たとえば、Ｎ
かけるＮの正方形のピクセルブロックごとに、Ｎかける
Ｎのブロックの平均に等しい値で１ピクセルを出力す
る。

【００６６】CCITT/ITU-Tグループ４のような無損失
（可逆）の圧縮法を、バイナリマスクレイヤに適用する
ことができ、JPEGのような損失あり（非可逆）の圧縮法
をRGBカラー空間に逆変換された背景レイヤに適用する
ことができる。PDFレフェレンス1.2は、両方の圧縮法を
サポートしており、PDFビューアによってただしく変換
されるようマスクレイヤを指定することができる。好ま
しい実施例ではステンシルマーキング（stenci markin
g）と呼ばれる機能が使われる。

【００６７】図１１を参照して、PDFレファレンス1.3と
互換性のある３レイヤ複合文書イメージ圧縮法の実施例
を説明する。２レイヤ圧縮法の欠点は、正しくレンダリ
ングするために単色のテキストをバイナリレイヤに置く
ことができることである。任意のカラーのテキストがカ
ラーイメージレイヤ上に置かれ、その品質および読み取
り性は、大きく譲歩させられる。

【００６８】全カラーのテキストをバイナリレイヤに含
めるためには３レイヤが望ましい。図１１では、オリジ
ナルイメージ1101が前景レイヤ1102、マスクレイヤ110
3、および背景レイヤ1104に分解されている。テキスト
のカラーについてはエキストラのカラーレイヤが使用さ
れ、ここでは前景と呼ばれる。本発明は、従来技術と同
様にイメージを３レイヤに分解するが、本発明の好まし
い実施例では、１つのPDFビューアを用いてレイヤを見
ることができ、１つのファイル形式Adobe PDFを互換性
がある。

【００６９】マスクレイヤについてすべてのピクセルを
識別するために、実施例の複合文書圧縮法は、ステップ
101-110に示した完全なプロシーじゃを適用する。しか
し、ステップ107のピクセル接続性の解析は、各サブブ
ロブについてY、Cr、Cbの和について３つのカウンタを
含むよう修正するのが好ましい。新しいピクセルがサブ
ブロブに加えられるとき、そのY、Cr、Cb値に対応する
値がそれぞれのカウンタに加えられることが好ましい。
たとえば、黒いエッジピクセルについて、0.7*Y、Cr、C
bが加えられ、白いエッジピクセルについて、1.2*Y(1.2
*Y>255, 255ならば)、Cr、Cbが加えられる。これによ
り、テキストのコントラストを高めることができる。

【００７０】マスクレイヤおよび背景レイヤが２レイヤ
法の方法と同様にして生成されるのが好ましい。ラスタ
スキャン順に前景レイヤを生成するため、ラインベース
の充填法を使うのが好ましい。図１０を参照して、ライ
ンベースの充填法のステップを説明する。

【００７１】まず、ラインの最初のピクセル（インデッ
クス j=0）から始まり、j_L0=-1, j _R0=-1 にセットす
る。

【００７２】第２に、テキストセグメントが見つかる
か、終端に達するまで最後のピクセルに向かってサーチ
する。

【００７３】第３に、テキストセグメントが見つかるな
らば、それはサブブロブに属しなければならない。ライ
ンベースの充填法は、[j_L1 , j_R1] をテキストセグメン
トの間隔とし、サブブロブの平均値Y１、C_r1バー、C_b1
バーを得、それらを使って前景レイヤの間隔[j_L1 ,
j_R1]を充填する。これが最初のテキストセグメントでな
いならば（j_R0>0）、２組のカラーY₁、C_r1バー、C_b1バ
ー、およびY₀、C_r0バー、C_b0バー（前のテキストセグメ
ント[j_L0 , j_R0]のもの）の線形補間（前述したと同
様）によって前景の間隔[j_R0 , j_L1]を充填する。これ
が最初のテキストセグメントでありj_L1>0であるなら
ば、前景の間隔[0, j_L1 ]を Y₁、C_r1バー、C_b1バーで充
填する。j_L0= j_L1 ,j_R0= j_R1、Y₀ = Y₁、C_r0バー＝C
_r1バー、C_b0バー＝C_b1バー、に更新する。

【００７４】第４に、これがラインの終わりでないなら
ば、ラインベースの充填法は、第２のステップにもど
る。

【００７５】もし、これがラインの終わりであるなら
ば、j_R0>0であり最後のテキストセグメントが端までの
びないなら（テキストセグメントが端までのびるケース
は第２のステップでカバーされている）、前景レイヤの
間隔[j_R0 , 端]をY₀、C_r0バー、C_b0バーで充填する。

【００７６】j_R0<0であり（このラインについてテキス
トセグメントは見つからなかったことを意味する）これ
が最初のラインでないならば、前景レイヤの前のライン
をこのラインにコピーする。これが最初のラインである
ならば、この線に値128、128、128（[0,255]のレンジの
中間値）を割り当てる。

【００７７】次いで、前景レイヤのこのラインをバッフ
ァにコピーする。

【００７８】効率的に実施するため、背景レイヤおよび
前景レイヤを１つのプロシージャで実行することができ
る。

【００７９】図１１は、複合文書イメージから３レイヤ
を生成する例を示している。高い圧縮率を得るため、２
かける２のサブサンプリングを背景レイヤに適用し、４
かける４のサブサンプリングを前景に適用する。高い圧
縮率を得るために高いサブサンプリング係数を使うこと
ができるが、品質を妥協しなければならなくなる。

【００８０】CCITT/ITU-Tグループ４などの既知の無損
失圧縮方法を、２進マスク層に適用するのが好ましく、
JPEGなどの高損失圧縮方法を、RGB色空間に変換して戻
す背景および前面層の両方に適用するのが好ましい。PD
Fレファランス１．３は、両方の圧縮手法をサポートし
ていることを理解すべきである。好ましい実施形態で
は、PDFビュアーによる正しい解釈についてマスク層を
特定するためのイメージによるマスキングと呼ばれる既
知の方法を利用している。背景は最初に描かれるのが好
ましく、マスク層が続き、最後に前面層になる。

【００８１】実行可能な命令で実現されるとき、本発明
の様々な要素は、本質的にこの様々な要素の処理を定義
するコードである。実行可能な命令すなわちコードは、
読み出し可能な媒体（ハードドライブ媒体、光媒体、EP
ROM、EEPROM、テープ媒体、カートリッジ媒体、その
他）から得ることができ、または通信媒体（例えばイン
ターネット）からデータ信号を介して通信することがで
きる。実際は、読み出し可能な媒体は情報を記憶または
移すことのできるいかなる媒体ともすることができる。

【００８２】図１２は、本発明の実施形態に従って当て
はまるコンピュータシステム１２００を説明している。
中央演算ユニット（CPU）１２０１は、システムバス１
２０２につながっている。CPU１２０１は、いかなる一
般用途CPUとしてもよい。しかしながら、本発明はCPU１
２０１がここで説明される発明の処理をサポートする限
りにおいて、CPU１２０１のアーキテクチャに制限され
ることはない。

【００８３】コンピュータシステム１２００は、ランダ
ムアクセスメモリ（RAM）１２０３も含み、SRAM、DRA
M、SDRAM、またはその他とすることができる。コンピュ
ータシステム１２００はROM１２０４を含み、PROM、EPR
OM、EEPROM、またはその他とすることができる。RAM１
２０３およびROM１２０４は、業界では知られるように
ユーザおよびシステムデータ、プログラムを保持する。
本発明の好ましい実施形態では、メモリ中の処理を定義
するアルゴリズムを記憶し、プロセッサはアルゴリズム
を実行してここで説明したテキスト抽出をを行う。

【００８４】コンピュータシステム１２００はまた、入
出力（I/O）アダプタ１２０５、通信アダプタ１２１
１、ユーザインターフェースアダプタ１２０８、ディス
プレイアダプタ１２０９を含む。I/Oアダプタ１２０５
は、記憶装置１２０６につながり、それは例えばハード
ディスクドライブ、CDドライブ、フロッピディスクドラ
イブ、テープドライブ、のうちの１つまたは複数であ
り、さらにコンピュータシステム１２００につながって
いる。I/Oアダプタ１２０５は、スキャナまたはデジタ
ルカメラなどの、イメージング装置１２１４にも接続す
ることができる。通信アダプタ１２１１は、コンピュー
タシステム１２００をネットワーク１２１２につなぐも
のであり、電話ネットワーク、地域（LAN）広域（WAN）
ネットワーク、イーサネット（登録商標）ネットワー
ク、インターネットネットワークのうち１つまたは複数
とすることができる。ユーザインターフェースアダプタ
１２０８は、キーボード１２１３およびポインティング
デバイス１２０７などのユーザ入力装置をコンピュータ
システム１２００につなぐものである。ディスプレイア
ダプタ１２０９は、CPU１２０１により駆動され、ディ
スプレイ装置１２１０上のディスプレイを制御する。

【図面の簡単な説明】

【図１】実施例におけるテキスト抽出法の流れ図。

【図２】ピクセルセグメントを示す図。

【図３】ピクセル近傍の接続性を示す図。

【図４】マスク構造の例を示す図。

【図５】ピクセルを分類する決定ルールを示す図。

【図６】ピクセルを分類する決定ルールを示す図。

【図７】ピクセルを分類する決定ルールを示す図。

【図８】実施例の適応充填法のためのサンプリング点を
示す図。

【図９Ａ】レイヤ分離の例を示す図。

【図９Ｂ】レイヤ分離の例を示す図。

【図９Ｃ】レイヤ分離の例を示す図。

【図１０】実施例の充填法を示す図。

【図１１Ａ】実施例のレイヤ分離を示す図。

【図１１Ｂ】実施例のレイヤ分離を示す図。

【図１１Ｃ】実施例のレイヤ分離を示す図。

【図１１Ｄ】実施例のレイヤ分離を示す図。

【図１２】実施例におけるコンピュータシステムのブロ
ック図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 1/60 Ｈ０４Ｎ 1/40 １０１ＤＦターム(参考） 5B057 AA20 CA01 CA12 CA16 CB01 CB12 CB16 CE16 CH01 DA16 DC16 5C077 MP05 MP07 MP08 PP03 PP32 PP47 PQ12 PQ22 5C079 HB01 HB12 LA15 LA27 MA01 MA11 5L096 AA02 BA17 EA06 FA06 FA73

Claims

【特許請求の範囲】

【請求項１】イメージからテキスト状のピクセルを識別
する方法であって、 (a) イメージを用意こと、および (b) 前記イメージ内のピクセルのラインセグメントをエ
ッジ境界平均化によって分類することを含む前記方法。
【請求項２】請求項１に記載の方法であって、さらに (c) 前記イメージ内のサブブロブのピクセルを調べるこ
と、 (d) サブブロブ接続性の分析を行うこと、を含む前記方
法。
【請求項３】請求項２に記載の方法であって、さらに (e) 前記イメージ内でピクセルのエッジを識別し分類す
ること、 (f) 前記イメージ内でさらにピクセルを分類するため充
填を行うこと、 (g) 前記イメージ内でピクセルの整合性分析を行うこ
と、 (h) 前記イメージ内でピクセルのピクセル接続性の分析
を行うこと、および (i) 前記イメージ内でテキストピクセルを識別するこ
と、を含む前記方法。
【請求項４】前記イメージのカラー空間変換を行うこと
を含む請求項１に記載の方法。
【請求項５】前記イメージのスムージングを行うことを
含む請求項１に記載の方法。
【請求項６】請求項１に記載の方法であって、前記ステ
ップ(b)は、あるラインの第１の側からはじめて該ラインの第２の側
に進み、ピクセルの連続セグメントを非エッジ、白エッ
ジ、または黒エッジとして識別すること、中央インテリア204、205の両端点、左エッジセグメント
202、203の両端点、右エッジセグメント206、207の両端
点、左インテリア201の右端点、右インテリア208の左端
点を含む少なくとも８つの位置についてエッジ境界平均
化を計算すること、および前記エッジ境界平均化の値に
基づいて、中央インテリアを非テキスト、黒インテリ
ア、または白インテリアとして分類すること、を含む前
記方法。
【請求項７】イメージからテキスト状のピクセルを識別
する方法であって、複合文書イメージ圧縮法に適してお
り、イメージを用意するステップと、前記イメージ内でピクセルのエッジを識別し分類するス
テップと、エッジ境界平均化によって前記イメージ内のピクセルの
ラインセグメントを分類するステップと、前記イメージ内のピクセルをさらに分類するため、垂直
充填を行うステップと、前記イメージ内のピクセルの垂直整合性分析を行うステ
ップと、前記イメージ内のピクセルのピクセル接続性分析を行う
ステップと、前記イメージ内のピクセルのサブブロブを調べるステッ
プと、を含む前記方法。
【請求項８】PDFレファレンス1.2と互換性のある２レイ
ヤのイメージ表現を出力する請求項７に記載の方法。
【請求項９】PDFレファレンス1.3と互換性のある３レイ
ヤのイメージ表現を出力する請求項７に記載の方法。
【請求項１０】イメージからテキスト状のピクセルを識
別するシステムであって、前記イメージ内のピクセルのエッジを分類し、エッジ境界平均化によって前記イメージ内のピクセルの
ラインセグメントを分類し、前記イメージ内のピクセルをさらに分類するため、垂直
充填を行い、前記イメージ内のピクセルの垂直整合性分析を行い、前記イメージ内のピクセルのピクセル接続性の分析を行
い、前記イメージ内のピクセルのサブブロブを調べ、サブブロブ接続性分析を行い、テキストピクセルと識別する、ソフトウェアを走らせるCPUを備える前記システム。