JP2003228712A - イメージからテキスト状のピクセルを識別する方法 - Google Patents

イメージからテキスト状のピクセルを識別する方法

Info

Publication number
JP2003228712A
JP2003228712A JP2003005035A JP2003005035A JP2003228712A JP 2003228712 A JP2003228712 A JP 2003228712A JP 2003005035 A JP2003005035 A JP 2003005035A JP 2003005035 A JP2003005035 A JP 2003005035A JP 2003228712 A JP2003228712 A JP 2003228712A
Authority
JP
Japan
Prior art keywords
image
pixels
text
edge
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003005035A
Other languages
English (en)
Other versions
JP2003228712A5 (ja
Inventor
Jian Fan
チャン・ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2003228712A publication Critical patent/JP2003228712A/ja
Publication of JP2003228712A5 publication Critical patent/JP2003228712A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Color Image Communication Systems (AREA)

Abstract

(57)【要約】 【課題】 イメージからテキスト状のピクセルを識別す
る。イメージ内のピクセルのライン(線)セグメントを
分類する。 【解決手段】イメージからテキスト状のピクセルを識別
する方法であって、イメージを用意し、前記イメージ内
のピクセルのラインセグメントをエッジ境界平均化によ
って分類することを含む方法を提供する。イメージ内の
サブブロブのピクセルを調べること、およびサブブロブ
接続性の分析を行うこと、をさらに含む。また、前記イ
メージ内でピクセルのエッジを識別し分類すること、前
記イメージ内でさらにピクセルを分類するため充填を行
うこと、前記イメージ内でピクセルの整合性分析を行う
こと、前記イメージ内でピクセルの接続性の分析を行う
こと、および前記イメージ内でテキストピクセルを識別
すること、を含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、デジタルイメージ
中のテキスト状ピクセル(text-like pixels)を自動的に
識別するアルゴリズムに関する。
【0002】
【従来の技術】テキスト抽出という用語は、テキスト・
キャラクタやグラフィックを、基本となるアルファベッ
ト、テキスト・レイアウト、フォントサイズ、位置確認
を予め知ることなく、イメージから識別することを意味
している。各ピクセルは1つのビットを用いてテキスト
または非テキストを区別することができる。これは2進
形式で見ることができる。
【0003】テキスト抽出は、多くのイメージ処理アプ
リケーションで必要になってきている。自動の光学テキ
スト認識(OCR)は、一般的な消費者に幅広く用いられ
ている。電子スキャナと組み合わさって、OCRソフトウ
ェアは、紙文書を便利に保存され処理される電子形式に
変換する便利な方法を手軽に提供する。テキスト抽出は
OCR処理の最初のステップであるが、グレースケールイ
メージから直接外形を抽出することも可能である。複合
文書の圧縮を適用するのにおいて、テキストピクセルが
別のものから識別され分離された後、適切な圧縮方法が
テキストピクセルに適用され、高い圧縮率で読みやすい
ものにできる。
【0004】テキスト抽出は信号検出の問題として考え
ることができるので、信号の特徴づけが必要になる。例
えば、仮定されたイメージの輝度分布などのグローバル
しきい値アルゴリズムは、二項のガウシアンモデルにう
まく合う。そうしたモデルは、初期の二進印刷技術によ
り生成された白の背景にある黒のテキストを区別するこ
とができる。文書イメージが緩やかに変化する背景に黒
のテキストがあると識別できる場合、様々なしきい値ア
ルゴリズムを当てはめるのがより適切な場合がある。し
かしながら、印刷技術が進むにつれて、複雑な背景にテ
キストをおくことが一般的になってきた。このタイプの
イメージについては、背景は単一または緩やかに変化す
るものと扱うことはもはやできない。その結果、グロー
バルしきい値またはしきい値を当てはめることでは、テ
キストピクセルを満足に抽出することはできなくなっ
た。さらに最近では、多くの研究者が色の整合性やスト
ローク幅などのテキストの特性に基づいた様々な技術を
提案している。初期の方法は、ストローク幅を利用して
背景からテキストを識別しているが、エッジの近くのピ
クセルを検出し、2次導関数演算を用い、ストローク幅
の距離内のマッチングを探すことによって行われてい
る。2次導関数によって生じたノイズの感度の問題は、
後にウィンドウベースの局所平均を用いるという提案に
より示される。
【0005】ストローク幅に基づく技術は、一般的に手
書きテキストを複合的な背景から抽出することを目的と
したものである。一般的な例はサインチェックである。
この場合、ストローク幅が小さく既知の範囲内であるこ
とを仮定するのが合理的である。しかしながら、雑誌の
ページなどの印刷されたテキストがある多くのタイプの
文書イメージは、ストローク幅に基づく技術を無効にし
てしまうような大きく道の範囲のフォントサイズを通常
有している。さらに、線形空間平均が、識別されたテキ
ストの境界精度に影響を与える場合がある。
【0006】デジタルイメージ中のテキスト状のピクセ
ルを識別することに関連した様々な問題の他の例とし
て、次のものがある。テキストが絵入りのパッチ上にあ
ったり、テキストブロックが矩形でなかったり、そして
テキストの輝度が周辺に比べて暗かったり明るかったり
する場合があることである。これらの問題は、デジタル
イメージ中のテキスト状のピクセルを信頼できる形で識
別することを難しくしている。
【0007】テキスト抽出は多くのアプリケーションで
用いられている。例えば、テキスト抽出はコンピュータ
上で動作するソフトウェアにおいて用いることができ
る。ここでイメージファイルが与えられると、ソフトウ
ェアはファイルをPDFフォーマットに圧縮する。テキス
ト抽出を用いる別の例は、スキャナである。文書がスキ
ャンされると、スキャナは文書を圧縮しPDFフォーマッ
トで保存する。テキスト抽出を用いる第3の例は、コン
ピュータで動作するソフトウェアを用いることである。
ここでイメージファイルが与えられると、ソフトウェア
はテキストピクセルをイメージへと抽出し、イメージを
別のOCRソフトウェアプログラムに送る。
【0008】
【発明が解決しようとする課題】したがって、イメージ
からテキスト状のピクセルを識別するシステムおよび方
法に対する必要性がある。さらに、イメージ内のピクセ
ルのライン(線)セグメントを分類する方法に対する必
要性がある。
【0009】
【課題を解決するための手段】この発明は、その一態様
によると、イメージからテキスト状のピクセルを識別す
る方法であって、イメージを用意し、前記イメージ内の
ピクセルのラインセグメントをエッジ境界平均化によっ
て分類することを含む方法を提供する。
【0010】この発明は、一実施態様では、イメージ内
のサブブロブのピクセルを調べること、およびサブブロ
ブ接続性の分析を行うこと、をさらに含む。また、一態
様では、前記イメージ内でピクセルのエッジを識別し分
類すること、前記イメージ内でさらにピクセルを分類す
るため充填を行うこと、前記イメージ内でピクセルの整
合性分析を行うこと、前記イメージ内でピクセルの接続
性の分析を行うこと、および前記イメージ内でテキスト
ピクセルを識別すること、を含む。
【0011】さらに、この発明の一態様は、前記イメー
ジのカラー空間変換を行い、また、前記イメージのスム
ージングを行う。
【0012】この発明の一実施態様では、あるラインの
第1の側からはじめて該ラインの第2の側に進み、ピク
セルの連続セグメントを非エッジ、白エッジ、または黒
エッジとして識別し、中央インテリア204、205の両端
点、左エッジセグメント202、203の両端点、右エッジセ
グメント206、207の両端点、左インテリア201の右端
点、右インテリア208の左端点を含む少なくとも8つの
位置についてエッジ境界平均化を計算し、前記エッジ境
界平均化の値に基づいて、中央インテリアを非テキス
ト、黒インテリア、または白インテリアとして分類す
る。
【0013】
【発明の実施の形態】本発明は、デジタルまたはビット
マップイメージなどのイメージからテキスト状の形を識
別するためのシステム化された方法を提供する。本発明
の好ましい実施形態は、明るい背景の暗いテキスト、暗
い背景の明るいテキスト、絵の領域にあるテキストなど
の様々なタイプのテキストを操作し、テキストの境界を
高い精度で見つけるものである。
【0014】本発明の実施形態に従った処理の、好まし
い実施形態のフローチャートが、図1に示されている。
図1に示される好ましい実施形態の方法のステップ10
1では色空間変換を行うが、好ましい実施形態での主な
アルゴリズムはイメージの輝度に関して行われるものだ
からである。イメージ入力がRGB(赤、緑、青)で行わ
れると仮定すると、RGB入力データは、YCrCb空間などの
輝度/クロミナンス空間に変換されるのが好ましい。大
半のイメージ/ビデオ圧縮プログラムで具現化されるよ
うに、変換は予め計算されたルックアップテーブルを用
いて計算を早めるために行うことができる。もちろん、
イメージデータが輝度で入力される場合、ステップ10
1の色空間変換は、必要なければ省略してもよい。
【0015】説明する実施形態のステップ102では、
スムージングが行われる。スムージングはローパスフィ
ルタリングともよばれるが、ノイズの効果を除去する上
で有用である。しかしながら、スムージングは、テキス
トをもんやりさせ、破壊すらする。従ってスムージング
を適用するかどうかにあたっては、そのパラメータを、
イメージが取得される解像度およびアルゴリズムがそこ
で働くよう設計されたテキストの最小サイズにより決定
されるのが好ましい。従って、ステップ201は、所定
の状況においては、省略することもできる。
【0016】例えばスムージングを、本発明の好ましい
実施形態の従った300DPI(ドット/インチ)以下の解像
度でスキャンされたイメージに適用せず、300DPIの解像
度のイメージについて、ガウシアンローパスフィルタ構
造体を適用して後述の式を用いた必須レベルのスムージ
ングを提供することができる。
【0017】
【数1】 式(1)
【0018】ここでkは、Σfi,j=1.0となるような規
格化要素であり、cはフィルタの中心である。本発明の
もっとも好ましい実施形態によると、3×3のフィルタ
サイズが用いられ、α=1.0である。高い解像度を持つ
イメージについては、パラメータαと組み合わせて、よ
り大きなサイズ(5×5、7×7)のフィルタを用いる
ことができる。パラメータαは、フィルタサイズに基づ
いて変化することができ、様々な程度のノイズのフィル
タを行うことができる。一般的に、所定フィルタに対し
てαが大きくなると、フィルタの程度は小さくなる。
【0019】説明する実施形態のステップ103では、
イメージの中のエッジの識別および区別を行う。このス
テップでは、各ピクセルは非エッジ、白エッジ、または
黒エッジに区別するのが好ましい。好ましい実施形態に
おけるエッジの識別および区別のための式を次に示す。
【0020】
【数2】1.垂直方向の勾配Gi,j I、水平方向の勾配G
i,j J、および勾配の大きさMi,jを、次の式を用いて計算
する。 Gi,j I=(yi+1,j-1+2yi+1,j+yi+1,j+1)−(yi-1,j-1+2
yi-1,j+yi-1,j+1) Gi,j J=(yi+1,j+1+2yi,j+1+yi-1,j+1)−(yi+1,j-1+2
yi,j-1+yi-1,j-1) Mi,j=√{(Gi,j I2+(Gi,j J2} ここで、yi,jは、インデックスi,jにおけるピクセルの
輝度である。
【0021】
【数3】2.下に規定される離散ラプラシアン(2次デ
ィレクティブ、second directive)を計算する。 Li,j = (yi-2,j + yi+2,j + yi,j+2 + yi,j+2) - 4yi,j
【0022】
【数4】3.全てのピクセルを次のように分類する。 Mi,j>Teの場合、 Li,j<0の場合、(i,j)のピクセルを白エッジに分類
する。 Li,j<0でない場合、(i,j)のピクセルを黒エッジに
分類する。 Mi,j>Teでない場合、 (i,j)のピクセルを、非エッジに分類する。
【0023】上述の通り示される好ましい実施形態の式
は、しきい値Te=20を用いる。上で用いられるしきい
値は説明のためのものであり、他のしきい値を、解析さ
れるイメージデータのタイプおよび他の検討事項に基づ
いくものとして用いることができる。
【0024】好ましい実施形態のステップ104は、水
平の線セグメントを、エッジ境界の平均化により分類す
ることができる。例えば、最も好ましい実施形態によれ
ば、全ての水平線について、j=0となる左からはじめ
て、右に進み、非エッジピクセルおよびエッジあり(黒
エッジおよび白エッジの両方を含む)ピクセルの連続セ
グメントを識別する。各非エッジのセグメントは、テキ
ストキャラクタのインテリアとなりうる。好ましい実施
形態によると、非エッジセグメントは、左および右イメ
ージ境界を除き、図2に示されるように、2つのエッジ
セグメントに挟まれている。これら様々なセグメント
は、ここで左インテリア209、左エッジ210、中央
インテリア211、右エッジ212、右インテリア21
3と呼ばれる。本発明の好ましい実施形態に従った中央
インテリア211のセグメントを分類するために、8つ
の場所でのエッジ境界平均値を計算する。その場所は図
2に示されるように、次の通りである。中央インテリア
の両端の点204、205。左エッジセグメントの両端
の点202、203。右エッジセグメントの両端の点2
06、207。左インテリア201の右端の点。右イン
テリア208の左端の点。
【0025】エッジ境界平均を計算するのに用いられる
マスクは、ステップ103のピクセル分類および接続性
に基づくのが好ましい。位置(i,j)におけるエッジ境
界平均は、(i,j)にあるマスク内の接続されたピクセ
ルの平均値として定義することができる。接続性は、ラ
ベルと空間の近接の両方により定義することができる。
エッジが境界を持つ平均について、好ましい実施形態で
は、全てのピクセルをエッジと非エッジに分類する。白
と黒のエッジは、両方とも1カテゴリーのエッジに組み
込まれる。非エッジピクセルには4隣接接続が、エッジ
ピクセルには8隣接接続が、用いられるのが好ましい。
4隣接接続および8隣接接続システムは、図3に説明さ
れている。平均化マスクのサイズは、イメージ解像度に
依存している。例えば、7×7のマスクサイズは、イメ
ージ解像度が300DPIのときに用いることができ、よ
り高い解像度のイメージのときに9×9のマスクサイズ
が用いられる。
【0026】図4は、8つの位置のうち4つについての
マスク構造の例を説明している。8つの位置は、図2で
識別されるセグメント201−208である。例えば、
接続要件に合致する全ての非エッジピクセルには、図4
で説明される1の値が与えられる。図4は、本発明の好
ましい実施形態に従った4つのマスク402,403,
404,405を示している。中央参照点406を有す
るマスク405は、中央参照点406からの4隣接接続
をもつ全ての非エッジピクセルには、好ましい実施形態
では1の値が与えられる。1の値を有する全てのピクセ
ルは、平均化されるのが好ましい。マスク405内にお
いて、右手の下の角には非エッジピクセルがあるが、マ
スクには中央ピクセル406との4隣接接続がないので
1の値が割り当てられず、平均化において用いられな
い。他の例として、マスク403は、グレーセグメント
の左端における平均値のために参照点401を用いる。
マスクの“1”に対応する全てのピクセルを足し、
“1”の全体の数でその和を割る。8つの平均値がyLx,
eLL,eLR,yLi,yRi,eRL,eRR,およびyRsとして示される
が、これは図2で説明される通りである。
【0027】これら8つの平均値について、決定ルール
を用いることにより中央インテリアについて仮の分類を
することが可能である。この決定ルールは、例えば図5
で特定される好ましい実施形態の決定ルールなどであ
る。図5で説明される決定ルールでは、パラメータΔは
インテリアの整合性についての許容範囲を特定し、パラ
メータδyおよびδeは、テキストの最小コントラストを
特定する。これらのパラメータはしきい値Teと結びつく
のが好ましく、例えばΔ=2、δy=Te、およびδe
0.8Teとすることができる。左または右境界におい
て、失われた平均値との比較はスキップするのが好まし
い。左および右のエッジをとばす場合、セグメントは非
テキストと分類するのが好ましい。
【0028】好ましい実施形態では、垂直方向の整合性
を考慮に入れるのが好ましい。例えば、黒インテリア
(白インテリア)と仮に分類されたセグメントについ
て、好ましい実施形態では、先のラインで白インテリア
(黒インテリア)と分類されたピクセルの数を数える。
数えた数が予め設定された比率(例えば20%、高い比
率が高い許容度を意味する)のセグメント長よりも大き
い場合、セグメントの質を下げ、非テキストとすること
が好ましい。または仮に行った分類を用いることもでき
る。
【0029】好ましい実施形態のステップ105では、
垂直充填を行う。このステップでは、非テキストに分類
された垂直セグメントが検査され、そのうちいくつかを
垂直充填境界を用いて再分類できるかどうかが決定され
る。好ましい実施形態の垂直充填境界によると、セグメ
ント長(水平または垂直方向のピクセル数を参照)は所
定数以下となるべきである。その数は例えば、300DP
I以下では2であり、300DPIについては5である。さ
らに、2つの端にあるすぐ隣りのピクセルは、本発明の
垂直充填境界に従った互換の型となるべきである。例え
ば、黒インテリアおよび黒エッジ、または白インテリア
および白エッジは、隣接ピクセルの互換タイプとして識
別される。こうした制限されたセグメント内で、好まし
い実施形態の垂直充填境界は、長さが1のセグメントを
識別し、2つの八の隣接するものの両方は、黒エッジま
たは白エッジのいずれかと同じ型のエッジである。この
タイプのセグメントについては、セグメントはその端で
隣接するものと同じ型に再分類されるのが好ましい。他
の制限セグメントについては、セグメントは、端で隣接
するものが黒インテリアまたは黒エッジの場合は黒イン
テリアとして、白インテリアまたは白エッジの場合は白
インテリアとして再分類されるのが好ましい。
【0030】説明している方法のステップ106では、
垂直整合性解析を行う。非テキストとしてまだ分類され
ていないピクセルはテキストピクセルの候補である。こ
のステップでは、まだ分類されていないピクセルは、垂
直整合性についてのさらなる検査の対象になる。好まし
い実施形態の垂直整合性解析は、エッジ(白エッジ、黒
エッジ、およびこのステップで新たに導入される削除エ
ッジ)に分類されていないピクセルの連続、および例え
ば5などの所定のしきい値より大きい長さで特徴付けら
れた、全ての水平セグメントを識別する。こうしたセグ
メントの中の全てのピクセルは、白インテリア、黒イン
テリア、または非テキストとするべきである。削除エッ
ジは、エッジピクセルとなるピクセルを参照するが、テ
キストピクセルに限定されるものではない。
【0031】こうしたセグメントのそれぞれについて、
好ましい実施形態の垂直整合性解析では、白インテリア
として分類されるピクセルの数をwcとして、黒インテリ
アとしての数をkcとして数え、垂直境界の矛盾、すなわ
ちエラーを解析する。
【0032】垂直整合性の解析では、2つのタイプの境
界の整合性を解析する。第1タイプのエラーは、境界の
失われたエッジに起因するものである。このことは、少
なくとも2つのケース含む。(1)現在のピクセルが白
インテリアであり、上または下に隣り合うものが黒イン
テリアまたは非テキストの場合(2)現在のピクセルが
黒インテリアであり、上または下に隣り合うものが白イ
ンテリアまたは非テキストの場合、である。第2タイプ
のエラーは、非互換エッジタイプに起因するものであ
り、少なくとも2つのケースを含む。(1)現在および
上のピクセルが、同じタイプのインテリアピクセル(白
または黒インテリア)であり、下に隣り合うものが逆の
タイプのピクセルのエッジ(黒または白エッジ)である
場合(2)現在および下のピクセルが同じタイプのイン
テリアピクセル(白または黒インテリア)であり、上に
隣り合うものが逆のタイプのピクセルのエッジ(黒また
は白エッジ)である場合、である。本発明の好ましい実
施形態の垂直整合性の解析は、第1タイプのエラーだけ
についての最大ランレングス(最長の連続セグメント)
EL1、および第1と第2タイプのエラーの組み合わせに
ついての最大ランレングスEL12を数える。
【0033】セグメントと隣接ピクセルを、削除または
再分類することについての決定がなされるのが好まし
い。例えば、第1タイプエラーの最大ランレングスEL1
が、パラメータmax_boaderErr1RunLenまたは例えばセグ
メント長の60%など所定の第1比率より大きい場合、
もしくは、第1と第2タイプのエラーの組み合わせの最
大ランレングスEL12が、例えばセグメント長の80%な
ど第2比率よりも大きい場合、セグメントは削除のため
に識別することができる。決定がセグメントおよび隣接
するピクセルを削除するものではない場合、好ましい実
施形態では、別のセグメントを解析するのに移る。max_
boaderErr1RunLenは、イメージ解像度に依存するのが好
ましい。例えば600DPI以下の解像度では5、他のも
のであれば10などである。
【0034】削除用に識別されたセグメントについて、
好ましい実施形態では、セグメント内の全てのピクセル
を非テキストとして再分類する。さらに、好ましい実施
形態の垂直整合性解析では、次で説明するように、削除
可能とするための、セグメントの関連する隣接する
(左、右、上、および下)エッジピクセルを調べる、最
初の場合、エッジセグメント(エッジピクセルの垂直ま
たは水平線セグメント)の長さが、例えば300DPIに
ついては10にするような特定の値よりも長い場合、エ
ッジセグメントは削除されないのが好ましい。これは圧
縮アプリケーションに対する好ましい実施形態に従って
「テキスト」として数えられる細い線の削除を防ぐこと
である。
【0035】別の第2の例では、wcが、セグメント内の
全てのピクセルに対する第1の比率、例えば50%より
大きい場合、セグメントは白セグメントと仮定するのが
好ましく、白エッジセグメントは削除のためにマークす
ることができる。好ましい実施形態においては、黒エッ
ジが出てくるまで白エッジが削除される。そうでない場
合、kcが、セグメント内の全てのピクセルの第2の比
率、例えば50%より大きい場合、セグメントは黒セグ
メントと仮定されるのが好ましく、黒エッジを削除のた
めマークすることができる。好ましい実施形態において
は、黒エッジは、白エッジが出てくるまで削除される。
そうでない場合、セグメント内のピクセルの大多数は、
テキストピクセルと分類されないのが好ましく、削除さ
れるべきエッジのタイプが決定されるべきである。
【0036】上述のものが満たされない場合は、第3の
場合において、ステップ104で詳述されたエッジ境界
平均アプローチを削除すべきエッジのタイプを決定する
のに用いることができる。しかしながら、図4の逆の論
理が、好ましくはそして一方のみに適用されるのである
が、好ましい実施形態に従って削除されるべきエッジタ
イプを決定するのに用いられる。例えば、後述のルール
は、削除するエッジのタイプを左端から決定するのに用
いることができる。
【0037】
【表1】 ならば、エッジ=黒いエッジ を削除、 Els, ならば、エッジ=白いエッジ を削除 Els, ならば、エッジ=黒いエッジ を削除 Els, ならば、エッジ=白いエッジ を削除 Els, エッジを削除しない
【0038】従って、3つの全てのケースは所定の状況
で解析されるのが好ましい。決定が、左エッジからエッ
ジを削除することであった場合、好ましい実施形態では
左エッジの右端からはじめて、異なるタイプのピクセル
になるまで、左に動き、ピクセルを削除する。同様のア
プローチが右端にも適用されるのが好ましい。削除は、
好ましい実施形態に従ってエッジピクセルを新たなラベ
ル「削除されたエッジ」に再分類することにより行われ
る。エッジ境界平均の処理のためにエッジとして数えら
れるのが好ましいからである。
【0039】好ましい実施形態では、削除のためセグメ
ントの上および下のエッジを考慮に入れる。例えば、ピ
クセルの上(または下)に隣り合うものがエッジピクセ
ルである場合、本発明は、それを上方向に所定の距離ま
でトレースする。この距離は、たとえば300DPIについて
は10に選ぶことができる。上述した水平方向について
も、削除するピクセルをマークするために同様の方法を
使うことができる。
【0040】説明した実施形態のステップ107では、
ピクセル接続性の解析を行う。好ましい実施形態におけ
るこのステップでは、テキストの候補として識別された
ピクセルの集合を識別し、同時にその統計を集める。こ
の集合はサブブロブ(sub-blob)と呼ばれる。2つのピ
クセルは、8隣接接続されている場合、好ましい実施形
態に従った同じサブブロブに属する。そして、同じカテ
ゴリーの黒(エッジまたはインテリア)または白(エッ
ジまたはインテリア)に分類される。例えば、ラスタス
キャンモデルにおいて、好ましい実施形態ではj=0と
なる左側から始まり、右に進み、同じカテゴリーの連続
ピクセル(黒エッジかつ黒インテリア、白エッジかつ白
インテリア)により特徴付けられた全ての水平セグメン
トを識別する。好ましい実施形態では、先の線をチェッ
クして接続があるかどうかを見る。同時に各サブブロブ
について続く統計が集められるのが好ましい。それは、
ピクセルの全体数、色彩値(Y,Cr,Cbが独立して)の
和、境界ピクセルの数、破境界ピクセルの数、および水
平ランレングスである。水平ランレングスは、セグメン
トの長さである。
【0041】好ましい実施形態において、境界ピクセル
は、白エッジまたは黒エッジのどちらかのエッジピクセ
ルにより構成されている。白ピクセルが黒インテリアピ
クセルに直接接触する、または黒インテリアピクセルが
白インテリアピクセルに直接接触する、または白インテ
リアか黒インテリアピクセルが非テキストピクセルに接
触する場合、ピクセルは紛失境界(missing border)と呼
ばれる。
【0042】好ましい実施形態においては、現在のピク
セルが黒(または白)インテリアであり、その隣接する
ものの1つが白(または黒)インテリアまたは非テキス
トであるとき、破損境界(broken border)ピクセルが
ある。サブブロブは、少なくとも2つのタイプにより区
別することができる。例えば、黒のサブブロブは黒イン
テリアおよび黒エッジのピクセルを含んでいる。白のサ
ブブロブは、白のインテリアおよび白のエッジを含んで
いる。
【0043】示された実施形態のステップ108は、サ
ブブロブを検査している。ピクセル接続性の解析中に各
サブブロブについて集められた情報で、更なる識別化を
サブブロブについて実行することができる。
【0044】ピクセルの全体数が所定しきい値minSubSi
ze(解像度および最小フォントサイズに依存)よりも小
さい場合、サブブロブは非テキストとしてマークするこ
とができる。例えばminSubSizeは300DPI未満の解像
度については3に、300DPIについては6に、300D
PI超については12に等しいとすることができる。
【0045】全ブロークンボーダの数がパラメータmaxN
oBorderPixels(イメージ解像度に依存)よりも大きい
場合、サブブロブは、非テキストとしてマークされるの
が好ましい。例えば、maxNoBorderPixelsは、300DPI
未満については10に等しく、300DPIについては1
5に等しく、300DPI超については30に等しいとす
ることができる。
【0046】境界カウントが例えば5などの値より大き
く、全境界カウントを超える破損境界カウントの比率が
例えば0.2などの所定しきい値maxBrokenBorderRatio
よりも大きい場合、サブブロブは、非テキストとマーク
されるのが好ましい。
【0047】現在のサブブロブの数が例えば7minSub
Sizeなどのしきい値よりも大きい場合、好ましい実施形
態では、同じタイプであり(黒または白)現在のピクセ
ル位置の中心にある特定サイズ(解像度に依存)の「コ
ンテキストウィンドウ」内の、現在のサブブロブのピク
セルカウント、例えば少なくとも70%をもつ、別のサ
ブブロブを探す。例えば、コンテキストウィンドウ21
×21を300DPI未満に対して用いることができ、コ
ンテキストウィンドウ29×29を300DPIに対して
用いることができる。そのようなサブブロブが見つから
ない場合、サブブロブは非テキストとしてマークするの
が好ましい。
【0048】説明した実施形態のステップ109は、サ
ブブロブ接続性の解析である。このステップでは、非テ
キストとしてはマークされない8隣接接続サブブロブ
は、ブロブにグループ化されるのが好ましい。サブブロ
ブの接続性は、ピクセルに対するものと同じであること
が好ましい。すなわち、2つのサブブロブは、白のサブ
ブロブか黒のサブブロブかに関わらず、少なくとも1つ
の8接続ピクセルの組を共有する場合に接続される。好
ましい実施形態の従った1つのブロブ内のサブブロブの
数および位相的な配置に制約はない。各ブロブについて
次の統計値を収集するのが好ましい。それは、外側ボー
ダピクセルの数および内側サブブロブの数である。外側
ボーダピクセルは、ブロブに属するピクセルであり、非
テキストピクセルの隣にある。内側サブブロブは、ブロ
ブに属するサブブロブであり、ブロブに属さないどのピ
クセルとも接続されていない。
【0049】説明している実施形態のステップ110
は、テキストピクセルを識別している。複合文書イメー
ジは、明るい背景上の暗いキャラクタ、暗い背景上の明
るいキャラクタ、絵の領域上のキャラクタを含むことが
できる。従ってブロブは黒および白のサブブロブを含む
ことができる。テキストピクセルを識別するために、本
発明の好ましい実施形態では、どのタイプ(黒または
白)のサブブロブがテキストであるかを判定している。
図6は、どのタイプのサブブロブがテキストであるかを
判定するのに用いられる、好ましい実施形態の決定ルー
ルを示している。ここで、Rは平均ランレングス、NSbは
内側サブブロブの数、BBは破損境界カウント、Bは境界
ピクセルカウント、BRは破損境界比率(BR=BB/B)であ
り、下付きのwは白を、kは黒を示している。
【0050】好ましい実施形態では、イメージ内の全て
のピクセルを2進表記を用いてテキストおよび非テキス
トに分類する。たとえばここではビット1はテキストピ
クセルを、ビット0は非テキストピクセルを表す。好ま
しい実施形態に従った最終的な分類のための論理は、図
7に示される。代わりとして、テキストを表すのにビッ
ト0を、テキストを表すのにビット1を、用いることが
できる。
【0051】本発明の好ましい実施形態のアプリケーシ
ョンでは、混合文書圧縮が含まれる。混合文書のイメー
ジは、テキストキャラクタ、線による絵、および連続ト
ーンの絵の領域を混ぜたものを含んだイメージである。
全ての単一イメージ圧縮手法を全体イメージに統一的に
当てはめても、高い圧縮率とイメージ品質の最適な結果
は達成されない。最近、新たな手法が開発され、混合文
書イメージの別々の要素を分けている。そして異なる圧
縮手法を当てはめて高い圧縮率とイメージ品質の両方を
達成している。ある既知の方法では、3つのイメージ
(前面/後面/マスク)を混合文書イメージから作成
し、異なる圧縮手法をそのそれぞれに当てはめている。
しかしながら、この方法は、圧縮手法をサポートする特
別のファイルフォーマットを必要とし、表示および印刷
のための特別のビュアーを必要とする。
【0052】上述のようなこれらのイメージ作成とは対
照的に、本発明の好ましい実施形態におけるアプリケー
ションでは、混合文書からのテキストの抽出を行う。従
って、本発明により開示される圧縮手法は、アドビ社の
PDFファイルフォーマットと互換であり、従って圧縮さ
れたファイルは、見て印刷するためのPDFビュアーと共
に利用することができる。
【0053】例で挙げた2つの圧縮手法が、PDFレファ
ランス1.2および1.3と互換となるよう、好ましい実施形
態でのテキスト抽出技術を利用して考え出された。特に
2層混合文書イメージ圧縮手法は、以下に示すように、
本発明に従ったテキスト抽出を利用することができ、PD
Fレファランス1.2との互換性を提供することができる。
同様に、3層混合文書イメージ圧縮手法は、これも下に
示すように、本発明に従ったテキスト抽出を利用するこ
とができ、PDFレファランス1.3との互換性を提供するこ
とができる。先行技術のように、本発明はイメージを2
つまたは3つの層に分離する。しかしながら、本発明の
好ましい実施形態によれば、1つのPDFビュアーを用い
て層を見ることができるようになり、この形態は、単一
のファイルタイプ、アドビPDFと互換である。
【0054】図9を参照すると、PDFレファランス1.2と
互換の好ましい実施形態の2層混合文書イメージが示さ
れている。圧縮手法によると、図9で説明するように、
2つのイメージが入力文書イメージ901から生成され
るのが好ましい。第1イメージは2進イメージ902で
あるのが好ましく、ピクセル0は予め選択された色範囲
のテキストピクセルに対応し、ピクセル1は他のものに
対応している。この層はここではマスク層と呼ばれる。
第2イメージはカラーイメージ903であるのが好まし
く、全ての非テキストピクセルと、テキストピクセルに
より占められるうまく満たされたピクセル位置を含む。
これは背景層とも呼ばれる。
【0055】2進イメージをつくるためのテキスト抽出
アルゴリズムの修正バージョンを用いて、好ましい実施
形態では、一般的なテキスト抽出手順のステップ101
から108を実行する。しかしながら、上述の一般的な
アルゴリズムのステップ107は、修正され各サブブロ
ブについての輝度とクロマの和のためのカウンタを含む
のが好ましい。新たなピクセルがサブブロブに足される
とき、輝度およびクロマが計算される。例としての実施
形態によると、輝度値はYの値であり、クロマ値はC=√
{(Cr−128)+(Cb−128)}である。エッ
ジピクセルについては、0.75Yおよび0.5Cが
カウンタに足されるのか好ましく、非エッジピクセルに
ついてはYおよびCが足されるのが好ましい。
【0056】上述のステップの処理後、混合文書圧縮手
法の例としての実施形態は、2進イメージを出力する。
黒のサブブロブのそれぞれについて、好ましい実施形態
の方法では、平均輝度(輝度の和をピクセルの全体数で
割ったもの)および平均クロマ(クロマの和をピクセル
の全体数で割ったもの)の値を計算する。平均輝度およ
びクロマが特定範囲内であれば、サブブロブは、テキス
トとして分類されるのが好ましく、そこに属する全ての
ピクセルは出力値0を含む。他の全てのピクセルは、出
力値1を持つのが好ましい。例えば、Y<20または
(20≦Y<180)^(C<18)であるが、ここでY
は平均輝度を表し、Cは平均クロマを表す。この範囲内
の色は一般的に黒として受けとられる。
【0057】一度2進イメージが決定されると、カラー
イメージの一部も決定される。すなわち、全ての非テキ
ストピクセルは、カラーイメージに属するのが望まし
い。問題はどのようにテキストピクセルに残された穴を
満たすかである。カラーイメージを、より高い圧縮率お
よび小さい圧縮の影響のために可能な限り滑らかにする
ために、線ベースの適合充填アルゴリズムが利用される
のが好ましい。
【0058】好ましい実施形態の線ベース適合充填アル
ゴリズムを、以下のステップで説明する。第1に、好ま
しい実施形態の線ベース適合充填アルゴリズムは、線の
第1ピクセル(indexj=0)から始め、j0=0にセット
する。
【0059】第2に、好ましい実施形態の線ベース適合
充填アルゴリズムは、テキストと識別されたピクセルが
見つかり、位置がjLとして記憶されるまで、最終ピクセ
ル(indexj=イメージ幅−1)までサーチを行う。
【0060】第3に、好ましい実施形態の線ベース適合
充填アルゴリズムは、非テキストと識別されたピクセル
が見つかり、このインデックスと次のテキストピクセル
との間の空間がが少なくともspDであり(例えば解像度
300DPIについては3を選択する)、位置をjRとして
記憶するまで、最終ピクセル(indexj=イメージ幅−
1)までサーチを行う。
【0061】第4に、好ましい実施形態の線ベース適合
充填アルゴリズムは、2つのサンプリング点で左および
右のサンプリング点を決定する。図8で説明されるよう
に、サンプリング点はテキストセグメントの2つの境界
点から離されている。左のサンプリング点sL801はsp
Dまたは(jL-j0)/2の小さい方である。右サンプリング
点sRは、spDまたは(幅-1-jR)/2の小さい方である。
【0062】第5に、好ましい実施形態の線ベース適合
充填アルゴリズムは、2つのサンプリング点において、
Y,Cr,Cbの値をとり、全テキストピクセル上で線形的に
補間する。例えば、jL≦j<jRの範囲内の位置jについ
て、補間値はx(j)=x(sL)+(j-s L)・(x(sR)-x(sL))/(sR-s
L)であり、ここでxは、Y,Cr,Cbのそれぞれを表す。
【0063】第6に、イメージ境界の右端に達すると
き、好ましい実施形態の線ベース適合充填アルゴリズム
は中断する。そうでない場合、j=jR+1をセット
し、第2ステップに戻る。
【0064】上述の手順は全てのイメージ線(列)に当
てはまるのが好ましい。混合文書イメージから生成され
た2つのイメージの例を、図9で示している。
【0065】一般に絵入り成分の滑らかな領域およびカ
ラーのパッチを含むカラーイメージをさらに圧縮するた
め、ファクタN(好ましい実施例では2)のサブサンプ
リングによって解像度を減らすことができる。サブアン
プリングの簡単な方法は、平均化である。たとえば、N
かけるNの正方形のピクセルブロックごとに、Nかける
Nのブロックの平均に等しい値で1ピクセルを出力す
る。
【0066】CCITT/ITU-Tグループ4のような無損失
(可逆)の圧縮法を、バイナリマスクレイヤに適用する
ことができ、JPEGのような損失あり(非可逆)の圧縮法
をRGBカラー空間に逆変換された背景レイヤに適用する
ことができる。PDFレフェレンス1.2は、両方の圧縮法を
サポートしており、PDFビューアによってただしく変換
されるようマスクレイヤを指定することができる。好ま
しい実施例ではステンシルマーキング(stenci markin
g)と呼ばれる機能が使われる。
【0067】図11を参照して、PDFレファレンス1.3と
互換性のある3レイヤ複合文書イメージ圧縮法の実施例
を説明する。2レイヤ圧縮法の欠点は、正しくレンダリ
ングするために単色のテキストをバイナリレイヤに置く
ことができることである。任意のカラーのテキストがカ
ラーイメージレイヤ上に置かれ、その品質および読み取
り性は、大きく譲歩させられる。
【0068】全カラーのテキストをバイナリレイヤに含
めるためには3レイヤが望ましい。図11では、オリジ
ナルイメージ1101が前景レイヤ1102、マスクレイヤ110
3、および背景レイヤ1104に分解されている。テキスト
のカラーについてはエキストラのカラーレイヤが使用さ
れ、ここでは前景と呼ばれる。本発明は、従来技術と同
様にイメージを3レイヤに分解するが、本発明の好まし
い実施例では、1つのPDFビューアを用いてレイヤを見
ることができ、1つのファイル形式Adobe PDFを互換性
がある。
【0069】マスクレイヤについてすべてのピクセルを
識別するために、実施例の複合文書圧縮法は、ステップ
101-110に示した完全なプロシーじゃを適用する。しか
し、ステップ107のピクセル接続性の解析は、各サブブ
ロブについてY、Cr、Cbの和について3つのカウンタを
含むよう修正するのが好ましい。新しいピクセルがサブ
ブロブに加えられるとき、そのY、Cr、Cb値に対応する
値がそれぞれのカウンタに加えられることが好ましい。
たとえば、黒いエッジピクセルについて、0.7*Y、Cr、C
bが加えられ、白いエッジピクセルについて、1.2*Y(1.2
*Y>255, 255ならば)、Cr、Cbが加えられる。これによ
り、テキストのコントラストを高めることができる。
【0070】マスクレイヤおよび背景レイヤが2レイヤ
法の方法と同様にして生成されるのが好ましい。ラスタ
スキャン順に前景レイヤを生成するため、ラインベース
の充填法を使うのが好ましい。図10を参照して、ライ
ンベースの充填法のステップを説明する。
【0071】まず、ラインの最初のピクセル(インデッ
クス j=0)から始まり、jL0=-1, j R0=-1 にセットす
る。
【0072】第2に、テキストセグメントが見つかる
か、終端に達するまで最後のピクセルに向かってサーチ
する。
【0073】第3に、テキストセグメントが見つかるな
らば、それはサブブロブに属しなければならない。ライ
ンベースの充填法は、[jL1 , jR1] をテキストセグメン
トの間隔とし、サブブロブの平均値Y1、Cr1バー、Cb1
バーを得、それらを使って前景レイヤの間隔[jL1 ,
jR1]を充填する。これが最初のテキストセグメントでな
いならば(jR0>0)、2組のカラーY1、Cr1バー、Cb1
ー、およびY0、Cr0バー、Cb0バー(前のテキストセグメ
ント[jL0 , jR0]のもの)の線形補間(前述したと同
様)によって前景の間隔[jR0 , jL1]を充填する。これ
が最初のテキストセグメントでありjL1>0であるなら
ば、前景の間隔[0, jL1 ]を Y1、Cr1バー、Cb1バーで充
填する。jL0= jL1 ,jR0 = jR1、Y0 = Y1、Cr0バー=C
r1バー、Cb0バー=Cb1バー、に更新する。
【0074】第4に、これがラインの終わりでないなら
ば、ラインベースの充填法は、第2のステップにもど
る。
【0075】もし、これがラインの終わりであるなら
ば、jR0>0であり最後のテキストセグメントが端までの
びないなら(テキストセグメントが端までのびるケース
は第2のステップでカバーされている)、前景レイヤの
間隔[jR0 , 端]をY0、Cr0バー、Cb0バーで充填する。
【0076】jR0<0であり(このラインについてテキス
トセグメントは見つからなかったことを意味する)これ
が最初のラインでないならば、前景レイヤの前のライン
をこのラインにコピーする。これが最初のラインである
ならば、この線に値128、128、128([0,255]のレンジの
中間値)を割り当てる。
【0077】次いで、前景レイヤのこのラインをバッフ
ァにコピーする。
【0078】効率的に実施するため、背景レイヤおよび
前景レイヤを1つのプロシージャで実行することができ
る。
【0079】図11は、複合文書イメージから3レイヤ
を生成する例を示している。高い圧縮率を得るため、2
かける2のサブサンプリングを背景レイヤに適用し、4
かける4のサブサンプリングを前景に適用する。高い圧
縮率を得るために高いサブサンプリング係数を使うこと
ができるが、品質を妥協しなければならなくなる。
【0080】CCITT/ITU-Tグループ4などの既知の無損
失圧縮方法を、2進マスク層に適用するのが好ましく、
JPEGなどの高損失圧縮方法を、RGB色空間に変換して戻
す背景および前面層の両方に適用するのが好ましい。PD
Fレファランス1.3は、両方の圧縮手法をサポートし
ていることを理解すべきである。好ましい実施形態で
は、PDFビュアーによる正しい解釈についてマスク層を
特定するためのイメージによるマスキングと呼ばれる既
知の方法を利用している。背景は最初に描かれるのが好
ましく、マスク層が続き、最後に前面層になる。
【0081】実行可能な命令で実現されるとき、本発明
の様々な要素は、本質的にこの様々な要素の処理を定義
するコードである。実行可能な命令すなわちコードは、
読み出し可能な媒体(ハードドライブ媒体、光媒体、EP
ROM、EEPROM、テープ媒体、カートリッジ媒体、その
他)から得ることができ、または通信媒体(例えばイン
ターネット)からデータ信号を介して通信することがで
きる。実際は、読み出し可能な媒体は情報を記憶または
移すことのできるいかなる媒体ともすることができる。
【0082】図12は、本発明の実施形態に従って当て
はまるコンピュータシステム1200を説明している。
中央演算ユニット(CPU)1201は、システムバス1
202につながっている。CPU1201は、いかなる一
般用途CPUとしてもよい。しかしながら、本発明はCPU1
201がここで説明される発明の処理をサポートする限
りにおいて、CPU1201のアーキテクチャに制限され
ることはない。
【0083】コンピュータシステム1200は、ランダ
ムアクセスメモリ(RAM)1203も含み、SRAM、DRA
M、SDRAM、またはその他とすることができる。コンピュ
ータシステム1200はROM1204を含み、PROM、EPR
OM、EEPROM、またはその他とすることができる。RAM1
203およびROM1204は、業界では知られるように
ユーザおよびシステムデータ、プログラムを保持する。
本発明の好ましい実施形態では、メモリ中の処理を定義
するアルゴリズムを記憶し、プロセッサはアルゴリズム
を実行してここで説明したテキスト抽出をを行う。
【0084】コンピュータシステム1200はまた、入
出力(I/O)アダプタ1205、通信アダプタ121
1、ユーザインターフェースアダプタ1208、ディス
プレイアダプタ1209を含む。I/Oアダプタ1205
は、記憶装置1206につながり、それは例えばハード
ディスクドライブ、CDドライブ、フロッピディスクドラ
イブ、テープドライブ、のうちの1つまたは複数であ
り、さらにコンピュータシステム1200につながって
いる。I/Oアダプタ1205は、スキャナまたはデジタ
ルカメラなどの、イメージング装置1214にも接続す
ることができる。通信アダプタ1211は、コンピュー
タシステム1200をネットワーク1212につなぐも
のであり、電話ネットワーク、地域(LAN)広域(WAN)
ネットワーク、イーサネット(登録商標)ネットワー
ク、インターネットネットワークのうち1つまたは複数
とすることができる。ユーザインターフェースアダプタ
1208は、キーボード1213およびポインティング
デバイス1207などのユーザ入力装置をコンピュータ
システム1200につなぐものである。ディスプレイア
ダプタ1209は、CPU1201により駆動され、ディ
スプレイ装置1210上のディスプレイを制御する。
【図面の簡単な説明】
【図1】実施例におけるテキスト抽出法の流れ図。
【図2】ピクセルセグメントを示す図。
【図3】ピクセル近傍の接続性を示す図。
【図4】マスク構造の例を示す図。
【図5】ピクセルを分類する決定ルールを示す図。
【図6】ピクセルを分類する決定ルールを示す図。
【図7】ピクセルを分類する決定ルールを示す図。
【図8】実施例の適応充填法のためのサンプリング点を
示す図。
【図9A】レイヤ分離の例を示す図。
【図9B】レイヤ分離の例を示す図。
【図9C】レイヤ分離の例を示す図。
【図10】実施例の充填法を示す図。
【図11A】実施例のレイヤ分離を示す図。
【図11B】実施例のレイヤ分離を示す図。
【図11C】実施例のレイヤ分離を示す図。
【図11D】実施例のレイヤ分離を示す図。
【図12】実施例におけるコンピュータシステムのブロ
ック図。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 1/60 H04N 1/40 101D Fターム(参考) 5B057 AA20 CA01 CA12 CA16 CB01 CB12 CB16 CE16 CH01 DA16 DC16 5C077 MP05 MP07 MP08 PP03 PP32 PP47 PQ12 PQ22 5C079 HB01 HB12 LA15 LA27 MA01 MA11 5L096 AA02 BA17 EA06 FA06 FA73

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】イメージからテキスト状のピクセルを識別
    する方法であって、 (a) イメージを用意こと、および (b) 前記イメージ内のピクセルのラインセグメントをエ
    ッジ境界平均化によって分類することを含む前記方法。
  2. 【請求項2】請求項1に記載の方法であって、さらに (c) 前記イメージ内のサブブロブのピクセルを調べるこ
    と、 (d) サブブロブ接続性の分析を行うこと、を含む前記方
    法。
  3. 【請求項3】請求項2に記載の方法であって、さらに (e) 前記イメージ内でピクセルのエッジを識別し分類す
    ること、 (f) 前記イメージ内でさらにピクセルを分類するため充
    填を行うこと、 (g) 前記イメージ内でピクセルの整合性分析を行うこ
    と、 (h) 前記イメージ内でピクセルのピクセル接続性の分析
    を行うこと、および (i) 前記イメージ内でテキストピクセルを識別するこ
    と、を含む前記方法。
  4. 【請求項4】前記イメージのカラー空間変換を行うこと
    を含む請求項1に記載の方法。
  5. 【請求項5】前記イメージのスムージングを行うことを
    含む請求項1に記載の方法。
  6. 【請求項6】請求項1に記載の方法であって、前記ステ
    ップ(b)は、 あるラインの第1の側からはじめて該ラインの第2の側
    に進み、ピクセルの連続セグメントを非エッジ、白エッ
    ジ、または黒エッジとして識別すること、 中央インテリア204、205の両端点、左エッジセグメント
    202、203の両端点、右エッジセグメント206、207の両端
    点、左インテリア201の右端点、右インテリア208の左端
    点を含む少なくとも8つの位置についてエッジ境界平均
    化を計算すること、および前記エッジ境界平均化の値に
    基づいて、中央インテリアを非テキスト、黒インテリ
    ア、または白インテリアとして分類すること、を含む前
    記方法。
  7. 【請求項7】イメージからテキスト状のピクセルを識別
    する方法であって、複合文書イメージ圧縮法に適してお
    り、 イメージを用意するステップと、 前記イメージ内でピクセルのエッジを識別し分類するス
    テップと、 エッジ境界平均化によって前記イメージ内のピクセルの
    ラインセグメントを分類するステップと、 前記イメージ内のピクセルをさらに分類するため、垂直
    充填を行うステップと、 前記イメージ内のピクセルの垂直整合性分析を行うステ
    ップと、 前記イメージ内のピクセルのピクセル接続性分析を行う
    ステップと、 前記イメージ内のピクセルのサブブロブを調べるステッ
    プと、を含む前記方法。
  8. 【請求項8】PDFレファレンス1.2と互換性のある2レイ
    ヤのイメージ表現を出力する請求項7に記載の方法。
  9. 【請求項9】PDFレファレンス1.3と互換性のある3レイ
    ヤのイメージ表現を出力する請求項7に記載の方法。
  10. 【請求項10】イメージからテキスト状のピクセルを識
    別するシステムであって、 前記イメージ内のピクセルのエッジを分類し、 エッジ境界平均化によって前記イメージ内のピクセルの
    ラインセグメントを分類し、 前記イメージ内のピクセルをさらに分類するため、垂直
    充填を行い、 前記イメージ内のピクセルの垂直整合性分析を行い、 前記イメージ内のピクセルのピクセル接続性の分析を行
    い、 前記イメージ内のピクセルのサブブロブを調べ、 サブブロブ接続性分析を行い、 テキストピクセルと識別する、 ソフトウェアを走らせるCPUを備える前記システム。
JP2003005035A 2002-01-11 2003-01-10 イメージからテキスト状のピクセルを識別する方法 Withdrawn JP2003228712A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/044,558 2002-01-11
US10/044,558 US8103104B2 (en) 2002-01-11 2002-01-11 Text extraction and its application to compound document image compression

Publications (2)

Publication Number Publication Date
JP2003228712A true JP2003228712A (ja) 2003-08-15
JP2003228712A5 JP2003228712A5 (ja) 2006-02-23

Family

ID=21933034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003005035A Withdrawn JP2003228712A (ja) 2002-01-11 2003-01-10 イメージからテキスト状のピクセルを識別する方法

Country Status (3)

Country Link
US (1) US8103104B2 (ja)
EP (1) EP1327955A3 (ja)
JP (1) JP2003228712A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228341A (ja) * 2004-02-12 2005-08-25 Xerox Corp 画像データを領域へ編成するシステムおよび方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346136A (ja) * 2002-05-23 2003-12-05 Canon Inc 画像処理装置およびその方法
US7376265B2 (en) * 2004-06-17 2008-05-20 Seiko Epson Corporation Segmentation-based hybrid compression scheme for scanned documents
EP1779664A1 (fr) * 2004-07-23 2007-05-02 Pascale Loiseau Procede de reduction de la taille des donnees d'un fichier numerique audio, image ou video par desynchronisation des criteres originels de lecture.
US7345688B2 (en) * 2004-10-18 2008-03-18 Microsoft Corporation Semantic thumbnails
US20060269132A1 (en) * 2005-05-31 2006-11-30 Xerox Corporation Apparatus and method for detecting white areas within windows and selectively merging the detected white areas into the enclosing window
US7724955B2 (en) * 2005-05-31 2010-05-25 Xerox Corporation Apparatus and method for auto windowing using multiple white thresholds
US20060269133A1 (en) * 2005-05-31 2006-11-30 Xerox Corporation Systems and methods for information handling in an image processing system
US7594169B2 (en) * 2005-08-18 2009-09-22 Adobe Systems Incorporated Compressing, and extracting a value from, a page descriptor format file
US7672539B2 (en) * 2005-12-15 2010-03-02 General Instrument Corporation Method and apparatus for scaling selected areas of a graphics display
US8630498B2 (en) * 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US7889932B2 (en) * 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7792359B2 (en) * 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7864365B2 (en) * 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US8437054B2 (en) * 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US20080005684A1 (en) * 2006-06-29 2008-01-03 Xerox Corporation Graphical user interface, system and method for independent control of different image types
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US8280157B2 (en) * 2007-02-27 2012-10-02 Sharp Laboratories Of America, Inc. Methods and systems for refining text detection in a digital image
US8068684B2 (en) 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
US8000529B2 (en) * 2007-07-11 2011-08-16 Hewlett-Packard Development Company, L.P. System and method for creating an editable template from a document image
US20090041344A1 (en) * 2007-08-08 2009-02-12 Richard John Campbell Methods and Systems for Determining a Background Color in a Digital Image
US7991229B2 (en) * 2007-08-28 2011-08-02 Seiko Epson Corporation Reducing compression artifacts in multi-layer images
US8014596B2 (en) * 2007-10-30 2011-09-06 Sharp Laboratories Of America, Inc. Methods and systems for background color extrapolation
JP4940116B2 (ja) * 2007-12-06 2012-05-30 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
US20090300068A1 (en) * 2008-05-30 2009-12-03 Tang ding-yuan System and method for processing structured documents
KR100974900B1 (ko) * 2008-11-04 2010-08-09 한국전자통신연구원 동적 임계값을 이용한 마커 인식 장치 및 방법
KR101114744B1 (ko) * 2009-02-12 2012-03-05 전남대학교산학협력단 영상으로부터 텍스트를 인식하는 방법
US8442319B2 (en) * 2009-07-10 2013-05-14 Palo Alto Research Center Incorporated System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US20110150317A1 (en) * 2009-12-17 2011-06-23 Electronics And Telecommunications Research Institute System and method for automatically measuring antenna characteristics
US20120092374A1 (en) * 2010-10-19 2012-04-19 Apple Inc. Systems, methods, and computer-readable media for placing a representation of the captured signature in a document
US8805095B2 (en) 2010-12-03 2014-08-12 International Business Machines Corporation Analysing character strings
US8712188B2 (en) * 2011-04-28 2014-04-29 Hewlett-Packard Development Company, L.P. System and method for document orientation detection
US9418310B1 (en) * 2012-06-21 2016-08-16 Amazon Technologies, Inc. Assessing legibility of images
US8942420B2 (en) * 2012-10-18 2015-01-27 Qualcomm Incorporated Detecting embossed characters on form factor
CN103281474B (zh) * 2013-05-02 2015-04-15 武汉大学 一种多功能一体化打印机扫描图像的图文分离方法
CN106251341B (zh) * 2016-07-22 2019-12-24 凌云光技术集团有限责任公司 一种印刷品质量检测方法
WO2020107866A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 一种文字区域获取方法、装置、存储介质及终端设备
WO2021150226A1 (en) * 2020-01-23 2021-07-29 Hewlett-Packard Development Company, L.P. Determining minimum scanning resolution

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3542484A1 (de) * 1985-11-30 1987-07-02 Ant Nachrichtentech Verfahren zur erkennung von kantenstrukturen in einem bildsignal
US4821336A (en) * 1987-02-19 1989-04-11 Gtx Corporation Method and apparatus for simplifying runlength data from scanning of images
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5596655A (en) 1992-08-18 1997-01-21 Hewlett-Packard Company Method for finding and classifying scanned information
JPH07220091A (ja) * 1994-02-04 1995-08-18 Canon Inc 画像処理装置及び方法
US6268935B1 (en) 1994-04-15 2001-07-31 Minolta Co., Ltd. Image processor
US5583659A (en) * 1994-11-10 1996-12-10 Eastman Kodak Company Multi-windowing technique for thresholding an image using local image properties
US6307962B1 (en) * 1995-09-01 2001-10-23 The University Of Rochester Document data compression system which automatically segments documents and generates compressed smart documents therefrom
US6246794B1 (en) * 1995-12-13 2001-06-12 Hitachi, Ltd. Method of reading characters and method of reading postal addresses
US5850474A (en) 1996-07-26 1998-12-15 Xerox Corporation Apparatus and method for segmenting and classifying image data
US5767978A (en) * 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
KR100213089B1 (ko) * 1997-01-29 1999-08-02 윤종용 루프필터링 방법 및 루프필터
US6160913A (en) * 1998-03-25 2000-12-12 Eastman Kodak Company Method and apparatus for digital halftone dots detection and removal in business documents
US6406062B1 (en) * 1998-05-20 2002-06-18 Global Commerce Group, Llc Hidden image game piece
US6108455A (en) * 1998-05-29 2000-08-22 Stmicroelectronics, Inc. Non-linear image filter for filtering noise
US6868183B1 (en) * 1999-04-01 2005-03-15 Kabushiki Kaisha Toshiba Image processing apparatus, image forming apparatus, and image processing method depending on the type of original image
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US6757081B1 (en) * 2000-04-07 2004-06-29 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing and image and for controlling a scanner
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005228341A (ja) * 2004-02-12 2005-08-25 Xerox Corp 画像データを領域へ編成するシステムおよび方法
JP4587832B2 (ja) * 2004-02-12 2010-11-24 ゼロックス コーポレイション 画像データ内で識別された領域を編成する方法及び装置

Also Published As

Publication number Publication date
US20030133612A1 (en) 2003-07-17
US8103104B2 (en) 2012-01-24
EP1327955A3 (en) 2005-07-13
EP1327955A2 (en) 2003-07-16

Similar Documents

Publication Publication Date Title
JP2003228712A (ja) イメージからテキスト状のピクセルを識別する方法
US7532767B2 (en) Removing ringing and blocking artifacts from JPEG compressed document images
JP4423298B2 (ja) デジタル画像におけるテキスト状エッジの強調
CN1655583B (zh) 生成具有多个前景平面的高压缩图像数据文件的系统和方法
US6757081B1 (en) Methods and apparatus for analyzing and image and for controlling a scanner
US7672022B1 (en) Methods and apparatus for analyzing an image
EP1173003B1 (en) Image processing method and image processing apparatus
US20120183216A1 (en) Perceptually lossless color compression
JP2007504719A (ja) 組み込みアプリケーションに適した、画像における赤目の検出と補正を行うシステム及び方法
JP2000175051A (ja) デジタル画像デ―タの区分方法並びにデ―タブロックの区分方法及び分類方法
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US8395813B2 (en) Subtractive color method, subtractive color processing apparatus, image forming apparatus, and computer-readable storage medium for computer program
US8611658B2 (en) Image processing apparatus and image processing method
JP2005150855A (ja) カラー画像の圧縮方法及びカラー画像圧縮装置
KR100524072B1 (ko) 화질 개선 방법
JP2003152995A (ja) 画像処理装置
JP4423333B2 (ja) 背景領域特定方法、背景領域特定システム、背景色決定方法、制御プログラム、および、記録媒体
US8477988B2 (en) Image processing apparatus, image forming apparatus and computer readable medium
US8810877B2 (en) Image processing apparatus, image processing method, and storage medium for eliminating blurring of scanned image
US8472716B2 (en) Block-based noise detection and reduction method with pixel level classification granularity
JP2005275854A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP4228905B2 (ja) 画像処理装置及びプログラム
JP2004242075A (ja) 画像処理装置および方法
JP2006262258A (ja) 画像処理装置、画像処理方法及びプログラム
JP5846011B2 (ja) 画像処理装置およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051226

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060602