JP2004529404A - 画像を分析するための方法及び装置 - Google Patents
画像を分析するための方法及び装置 Download PDFInfo
- Publication number
- JP2004529404A JP2004529404A JP2002556841A JP2002556841A JP2004529404A JP 2004529404 A JP2004529404 A JP 2004529404A JP 2002556841 A JP2002556841 A JP 2002556841A JP 2002556841 A JP2002556841 A JP 2002556841A JP 2004529404 A JP2004529404 A JP 2004529404A
- Authority
- JP
- Japan
- Prior art keywords
- image
- pixels
- blob
- pixel
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012512 characterization method Methods 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 31
- 238000004458 analytical method Methods 0.000 description 59
- 238000012545 processing Methods 0.000 description 58
- 230000008569 process Effects 0.000 description 54
- 238000010191 image analysis Methods 0.000 description 19
- 239000000872 buffer Substances 0.000 description 15
- 230000008859 change Effects 0.000 description 14
- 230000008878 coupling Effects 0.000 description 13
- 238000010168 coupling process Methods 0.000 description 13
- 238000005859 coupling reaction Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000003703 image analysis method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration by the use of local operators
-
- G06T5/73—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
【選択図】図3
Description
【0001】
本発明は、テキストの識別、画像の強調・圧縮、及びデータスループットの向上などのために画像を分析する方法および装置に関し、例えばスキャンされた画像を分析するための方法および装置に関する。
【背景技術】
【0002】
画像の電子処理が普及してきた。新聞、雑誌、書籍、及び印画紙等の永久媒体に書き込まれた画像が日々の生活の多くの局面で使用されている。コンピュータアニメーション、デジタルカメラ、ワードプロセッサ及びグラフィックを作成するその他の装置などによって電子的に作成された画像も、かなり一般的になっている。また、永久媒体に書き込んだ画像を、スキャン、デジタル写真撮像等を含む複数の方法で電子形態に変換することも一般的になっている。
【0003】
永久媒体形態から電子形態に変換された画像は、次いで個別に複製された個々の形態に変換され、いずれの電子画像の表示も元の永久媒体と同じになるように変換される。わずかな違いであっても、人間の目には気付かれてしまうことが多い。また、デジタルで作成された画像は、情報が失われたり変更されたりするような方法で処理されることも時々ある。場合によっては、電子画像を処理して電子画像の外観を向上させることが望ましいこともあり、種々のプロセッサや周辺機器における電子画像の処理方法を変更したり、電子画像の格納方法を変更したりする場合がある。
【0004】
フラットベッドスキャナやフィードスキャナ等のスキャンによってデジタル画像を作成した場合、スキャン画像は、ビットマップ、JPEGファイル、GIFなど、任意数の異なる形式で記憶される場合がある。記憶形式は、その情報の最終的な目的によって決まることが多い。例えば、ワードプロセッサの文書に組み込まれる情報の記憶方法は視聴覚表現に使用される記憶方法とは異なる場合があり、ウェブページに組み込まれる情報はワードプロセッサの文書に組み込まれる情報よりも様々な形式で記憶される場合がある。また、編集のためワードプロセッサアプリケーションに送信できるのは、全てテキスト形式でのみ受信された情報や、テキストとグラフィックや図の画像とを組み合わせた形式で受信された情報である。
【0005】
多くの場合、スキャン設定などの画像を最初にスキャンする方法は、スキャン画像の用途で決まる。例えば、画像がテキストだけである場合は、スキャンを低ビット深度及び高解像度に設定することにより、光学式文字認識(OCR)、複写および印刷についてスキャン画像が最適になる。グラフィックや図の画像の場合、スキャン設定は、高ビット深度および低解像度に設定することが多い。したがって、テキストのみの文書を後で編集するために電子形態またはデジタル形態にする場合、スキャン設定は低ビット深度および高解像度にすべきである。画像をプレビュースキャンする前、少なくとも何らかの最終スキャンを行う前に、スキャナを300dpiおよび白黒に設定すべきである。次いで、得られた画像に対して、傾き補正、自動クロッピングおよびOCRなどの処理を施すことができる。
【0006】
多くのイメージスキャナは、ユーザインタフェースを備えていて、ユーザが所望の設定を選択できるようになっている。必要な設定を知っていて、その設定を容易に使用することができれば、後で処理を行なうための所望の画像データが首尾よく受信されるはずである。しかしながら、適正な設定が行われなければ、得られるデジタルデータは、そのデータの所望の最終的用途に適したフォーマットにならない可能性が高い。例えば、最終的に編集可能なテキスト文書を得るつもりの画像を、低解像度および高ビット深度でスキャンしても、OCRを通して適切に処理することができるデータファイルは生成されない。
【0007】
スキャン画像を元の画像にさらに似せるため、スキャン画像をスキャン後に処理することが多い。デジタルデータ表現の背景は必ずしも常に与えられるものでなく、ゼロ値が割り当てられたり100%の白を表わす他の数値が割り当てられたりするので、例えば、図またはグラフィック表現として表示することしか意図せずにスキャンされたテキスト文書は、ライトグレーまたはわずかに黄色がかった背景上に表示されることがある。したがって、その画像は元の文書と同じようには見えない。そのような外観を改善するため、画像データファイルを処理して背景を白に近づける場合がある。また、画像データファイルを処理することにより、そのテキストの外観を鮮明にすることもできる。しかしながら、スキャナに正しい設定がなされなかったり、デジタルデータの適切な用途が選択されなかったりした場合は、その画像に対して所望の処理が実行されない場合がある。
【発明の開示】
【発明が解決しようとする課題】
【0008】
様々なハードウェア、スキャナおよび様々な環境によって、所与の画像について様々なスキャン結果が生成される。例えば、全ての黒ピクセル及び全ての白ピクセルについて、異なる値が割り当てられる場合がある。その結果、ピクセルが白として扱われるか黒として扱われるかに応じて、白または黒として識別されるピクセルも生じれば、グレーの濃淡として識別されるピクセルも生じる。カラースキャナを使用した場合、黒および白を含む検出色は、温度や周囲光の作用に応じて変化する場合がある。全体が白黒の画像は、デジタルデータに変換して、ライトグレーまたはライトイエローを背景にして表示することができる。また、黒テキストの部分は、濃いグレーとして描写される場合がある。従って、画像が黒テキストとして適当に扱われなかったり、画像が適当に処理されなかったりすると、その画像は元の画像と同じように表示されないことがある。
【課題を解決するための手段】
【0009】
画像を分析および処理するための方法及び装置を記載する。本発明の1以上の態様では、画像または画像の一部の1以上の特徴に基づいて、画像をセグメント化または分離することができる。より簡単に画像内部を認識し、より簡単に画像内の変化を分析して、適当に処理することができるようにする。画像内容を強調する状況を含むいくつかの状況において、より簡単に画像を強調することができるようにする。本発明のうちの1つの一態様では、エッジを際立たせ、すなわち鮮明にすることができ、これによってテキスト認識が容易になり、例えば、画像のカラー部分および白黒部分が強調され、より忠実に再現される。本発明のうちの1つの1以上の他の態様では、画像強調を従来可能であったものよりも均一に実施することができ、例えば共通の特徴を同じ方法または類似の方法で処理することができる。状況によっては、画像処理は、画像データを圧縮する能力を得るのに有効である。
【0010】
本発明のうちの1つの一態様では、知覚される特徴に従って画像内の要素を特徴付け、所与の特徴を有する隣接した類似要素または同一要素の各々を識別することにより画像を分析する方法を提供する。画像要素を特徴付けることのできる少なくとも3つの異なる特徴が存在することが好ましい。好ましい実施形態の1つでは、類似の特徴または同一の特徴を有する隣接要素をブロッブと呼ばれるグループに、リンク、関連付け、タグ付け、またはその他関連付けする。それ以後、例えばそのグループすなわちブロッブは、他の画像要素とは別に処理される。例えば別個に処理すべき画像部分をセグメント化する能力により、その画像を分析した後に使用されるプロセスに応じたより選択的な強調、より均一なカラー・白黒の扱い、または、画像レンダリングの向上を可能にすることが好ましい。画像は、カメラ等の画像取り込み装置や、Word、Paint、Adobe等のアプリケーションソフトウェアを含む広く様々なソースから受信される。
【0011】
本発明のうちの1つの他の態様では、画像内のピクセルを特徴付けることによってその画像を分析する。各ピクセルは、背景、非背景、カラー、グレー、または黒など、そのピクセルが有している特徴によって特徴付けられる。物理的位置が互いに十分近接しているピクセル同士、及び、画像特徴が互いに十分似ているピクセル同士をまとめてグループ化し、1つのブロッブに含める。好ましい実施形態の1つでは、選択された画像特徴を有する少なくとも1つの他のピクセルと直接隣接しているピクセルだけをまとめてグループ化するように、物理的近接度を設定する。例えば、近接度は8近傍体系を用いて評価することができる。他の実施形態では、特定の閾値要件を満たすピクセルをグループすなわちブロッブに含めるように、「画像特徴」近接度を設定する場合がある。例えば、すべての背景ピクセルは特定の閾値を超える輝度値を有しなければならず、特定閾値未満の輝度値を有するすべてのピクセルには黒または黒エッジとしてラベルを付けなければならない。ピクセルすなわち画像要素を特徴付けるための閾値その他基準の選択は、経験的に決めることができ、画像ソースの影響を受ける場合もある。
【0012】
本発明のうちの1つのさらなる態様では、複数の基準を用いて画像要素を特徴付けることができる。例えば、1つの基準として、ピクセルを白黒、グレーまたはカラーなどに特徴付けるための閾値等、数値的限界すなわち閾値を用いる場合がある。また、画像要素は輝度値の空間的変化などの2以上の基準を用いて特徴付けることもでき、それらの基準は例えば勾配演算子その他の手段により定められる。輝度値その他の空間的変化は、例えばエッジを表わすピクセルを識別するのに用いられる。
【0013】
本発明のうちの1つのさらなる態様では、ピクセルをブロッブ及びサブブロッブとして階層的にグループ化する。ブロッブまたはサブブロッブがどんなタイプ(例えば図)であるかの尺度として、そのブロッブまたはサブブロッブ内の所与の特徴を持つピクセル数を選択された閾値と比較することができる。この比較は、ピクセルを特徴付けるときに実施することもできるし、ピクセルのタイプに応じて強調のタイプが異なる場合は、後で強調その他の処理を行う際に実施することもできる。比較の一例は、黒のピクセル、カラーのピクセル、及び、グレーピクセルの数をカウントすることである。サブブロッブ内に比較的多数の非黒(カラー及び/又はグレー)のピクセルが存在した場合、そのサブブロッブは図として分類される。例えば、選択された閾値と比較して比較的多数の黒のピクセルが存在し、カラーまたはグレーのピクセル数がほとんどない場合、そのブロッブのピクセルは、黒ピクセルとして扱われ、黒ピクセルに変換される。たとえば、輝度値がブロッブピクセルの平均輝度値に等しくなるように変更することにより、サブブロッブピクセルを変換することができる。他の例では、サブブロッブ中のピクセルの輝度値を、ブロッブピクセルの輝度値の既知の割合すなわちパーセントの値に変更する場合がある。他の調節も同様に行うことが可能である。
【0014】
本発明のうちの1以上のさらなる態様では、ブロッブ内のピクセルをグループとして、選択された値または閾値と比較することができる。所与のタイプのピクセルの数が選択された閾値よりも大きい場合は、そのブロッブを図またはグラフィックとして扱い、すなわち特徴付け、所与のタイプのピクセルの数が選択された閾値未満である場合は、そのブロッブを何か別のものとして特徴付けることができる。例えば、あるブロッブがサブブロッブ以外黒であり、サブブロッブ内のピクセル数が少ない場合、そのブロッブは黒のテキストとして扱うことができる。あるいは、ブロッブがカラーまたはグレーである場合、希望に応じてサブブロッブを強調することができる。
【0015】
本発明の他の一態様では、画像中のエッジを表わす要素を識別し、少なくとも1つの他のエッジ要素に隣接するエッジ要素を識別することにより、画像の要素を処理する。隣接度すなわち空間近接度は、1ピクセル離れであることが好ましい。エッジの認識は、様々な状況で有用である。エッジ検出は、テキスト画像を強調する際に有用である。また、テキストとグラフィックとが混じり合った画像において、図やグラフィックの領域についてエッジ検出をすることは、あるグラフィック領域から隣接グラフィック領域への緩やかな遷移など、比較的緩やかな遷移が望ましい領域を認識するのに有用である。画像にテキストとグラフィックが混じっている場合、状況によっては、テキスト強調のために使用する方法は、グラフィック領域の強調に用いる方法と同じ方法ではないことが好ましい場合もある。例えば、テキストと背景との間のエッジの鮮明化処理は、滑らか又は緩やかな遷移の方が好ましいグラフィック領域のエッジには使用しないことが好ましい。
【0016】
本発明の他のさらなる態様では、勾配演算を利用してエッジを表わす画像要素を識別し、次いで、分析によって少なくとも1つの他のエッジ要素に隣接しているエッジ要素を判定する。この態様では、所与のピクセルを特徴付ける際、勾配演算によって輝度の空間変化またはその他画像要素基準を考慮する。希望に応じて、ピクセルの特徴付けに、ピクセル特徴の他の関係を用いることもできる。さらに、隣接エッジを識別するステップでは、8近傍体系を用いることが好ましい。隣接エッジ画像要素を一意のラベルまたはポインタで識別し、それらの隣接エッジ画像要素をまとめてサブブロッブなどにグループ化することで、グループとして強調その他の処理が行なえるようにすることが好ましい。好ましい一形態では、アンシャープマスキングを用いてエッジ画像要素を処理することができる。
【0017】
本発明のうちの1つの他の態様では、少なくとも3つの画像特徴のうちの1つを有する画像要素を識別し、それと同じまたは類似の画像特徴を有する少なくとも1つの他の画像要素に隣接する画像要素をまとめてサブブロッブなどにグループ化する。このグループ化は、少なくとも3つの特徴に従って画像要素が特徴付けられた後に行うことが好ましい。一例では、これらの特徴に、黒、エッジ、及び、背景が含まれる場合がある。他の例では、これらの特徴に、黒、グレー、グレーエッジ、及び、背景が含まれる場合がある。さらに他の例では、これらの特徴に、黒テキスト、グレーテキスト、図またはグラフィック、及び、背景が含まれる場合がある。さらに他の例では、これらの特徴に、白、白エッジ、グレー、グレーエッジ、黒、カラー、及び、カラーエッジが含まれる場合がある。分離したいと考える画像特徴や、所望の特徴を分離または識別するのに用いられる方法などに従って、希望に応じて他の特徴を使用することもできる。同じ特徴または実質的に同じ特徴をもつ画像要素は、例えば同じラベルまたはタグを与えることなどにより、同じものとして特徴付けることが好ましい。同じラベルを有し、同じラベルを有する少なくとも1つの画像要素に隣接する画像要素は、まとめてグループ化し、同じポインタを与える、すなわち割り当てるのが好ましい。
【0018】
本発明のうちの1つのさらなる態様では、少なくとも3つの画像特徴のうちの1つを有する画像要素を識別する。同じ画像特徴を有する少なくとも1つの他の画像要素に隣接する画像要素をまとめて第1のグループにグループ化する。グループ内の画像要素の数を計算し、選択された閾値と比較する。このような判定により、画像を強調するための実施可能な複数の強調方法の中から選択を行なうことができる。例えば、テキスト文字としてグループ化された画像要素の中には、高感度機器の使用により検出された可能性がある異常を表す画像要素からなる相対的に極めて小さなグループが含まれることがある。異常の小グループを構成する画像要素の数が比較的少ない場合、それらの画像要素を処理して、テキスト文字グループの画像要素に近づけることができる。画像要素のタイプ及びグループサイズに応じて、平滑化、平均化、及び、鮮明化などが、他の処理に含まれる場合もある。
【0019】
本発明のこれらの態様およびその他の態様については、図面、図面の簡単な説明、及び、好ましい実施形態の詳細な説明と併せてさらに考察する。
【発明を実施するための最良の形態】
【0020】
図面と併せた以下の記載は、当業者が本発明を製造および実施することができるように、本発明の好ましい実施形態を説明したものである。本明細書に開示する実施形態は、商業的環境で本発明を実施するのに最良の形態だと本発明者が考える実施形態であるが、本発明の範囲内で様々な変更を行なうことができるものと考えられる。
【0021】
画像を分析し、例えば画像のセグメント化、画像内部部分の認識、画像強調の向上などを可能にし、及び/又は、データ圧縮その他の処理を可能にする方法および装置について説明する。本方法の1つまたは複数によると、例えば複数レベルでの画像の特徴付けが容易になり、画像レイヤまたはセグメントの分解が可能になり、複数のカラー属性を考慮して、エッジ鮮明化、選択的かつ均一な画像強調、カラーおよび白黒の強調、カラーテキストの強調などの画像強調を行なうことが容易になる。より的確な画像レンダリングが可能になり、画像内容に基づく画像強調が改良される。例えば、通常なら白黒のテキスト文書として生成されてしまうことがあるカラー異常を除去または修正することにより画像処理も改良することができ、それによってカラーインクカートリッジの使用が低減され、インクジェットプリンタでの白黒文書の印刷が効率的になる。本発明のうちの1つの一応用形態は、画像の特徴付けを利用することで、スキャナから得られた画像などを、テキストのみ、グラフィックまたは図のみ、及び、テキストとグラフィックの混合のうちのいずれか1つとして識別することができる。次いで、かかる情報は、スキャナ設定や画像強調に使用されるパラメータを決めるのに使用することができ、他の用途に用いることもできる。
【0022】
画像をスキャン及び分析する方法のコンテクストで、特定用途を有する画像を分析し、テキストおよびグラフィックを高い信頼性で識別するためにスキャン画像を分析する方法および装置について説明する。テキストの適切な識別は、スキャン画像から得られたデータが高解像度かつ低ビット深度などの最も望ましい形態になることを保証することに関連する。画像データが最も望ましい形態でない場合、望ましい設定のスキャナで画像を再スキャンすることもできるし、あるいは、画像データは処理によって望ましい形態にすることができる形態であってもよい。また、画像の適切な識別は、スキャン画像から得られたデータが周辺装置への出力や特定用途における後の処理について確実に最も望ましい形態になっていることを保証することにも関連し、逆にいえば、そのデータがそのデータを最適に処理することが可能な周辺装置またはアプリケーションに確実に送信されることを保証することにも関連している。同様の理由から、グラフィック画像の適切な識別も重要である。例えば、図のデータは、表示または出力する前に強調または修正を施して、確実にそのデータの全ダイナミックレンジを利用できるようにする場合がある。
【0023】
画像および画像データと言及した場合、それらは、文書その他の媒体上にある画像のすべての部分に対応することも、任意の部分に対応することもあると考えるべきである。例えば、多くの文書には、テキストのみ又はグラフィックのみなど、1種類の画像しか含まれない。また、それら2つの混合が同一ページ上に含まれる場合もあり、例えばページのある領域にグラフィック画像があり、同ページの他の領域にはテキストしかないという場合もある。さらに、画像内にテキストがグラフィック画像の一部として現れることもあり、ユーザは、テキスト/グラフィックの画像を編集用の純粋な黒テキストなどの他の形態に変換したいと思わない場合がある。従って、画像および画像データと言及した場合、それらは、文書その他の媒体の中身のすべての部分に対応することも、任意の部分に対応することもある。本発明の1以上の態様は、希望に応じて、画像の全ての部分に対しても、画像の一部のみに対しても機能することを意図している。
【0024】
本発明の一態様によれば、画像を分析して特徴付けるためのシステム30(図1)は、分析すべき画像データまたはその画像データの一部を受信して処理するためのプロセッサすなわちCPU32を備える。画像は、記憶装置装置などから得られる既存の電子ファイル、スキャナその他の撮像装置、デジタル的または合成的に画像を作成するためのアプリケーションプログラムなどを含む多数のソースから受信される場合がある。プロセッサは、ユーザが他の用途を選択していなければ、すなわちデフォルトとして他の用途を設定していなければデフォルトでデータを記憶する記憶装置を備え、画像データをリモートで記憶することができる。画像データは、ネットワークまたは通信リンク34を介して表示装置、閲覧装置または投影装置36に送信することができ、閲覧装置はカラーモニターや白黒モニターである場合もあるし、その他の閲覧装置である場合もある。キーボード38またはマウス等他の入力装置を用いて、コマンドまたは入力データをプロセッサ32に送信することができる。例えば、キーボードは、ネットワーク34を介してプロセッサ32に接続されたスキャナ、すなわちネットワーク34を介してプロセッサ32と通信するスキャナ40の設定を選択または確認するのに使用され、あるいは、データの1以上の用途を選択するために使用される。また、このシステムは、ネットワーク34から受信する画像その他のデータに関するプリンタまたはその他出力装置42をさらに含む。スキャナとプリンタは一体型ユニットにすることもでき、例えば複写機としても機能するような一体型ユニットにすることができ、さらに他の構成も可能である。
【0025】
スキャナ40には、従来のフラッドベッドスキャナ、連続フィード式スキャナ、シートフィード式スキャナ、またはスクロールフィードスキャナなどを用いることができ、文書などの媒体上の情報を検出できるものであれば他の媒体移動装置でもよい。媒体からデータを取得する形態は任意の数の形態をとりうるが、本発明の説明では、光を用いて文書上の画像を表すデータを取得する文書スキャナを使用した例を挙げる。
【0026】
本発明の方法の1つまたは複数によって利点が得られるアプリケーションすなわちアプリケーションプログラムには、画像セグメントに対して処理を行なう手順、画像強調を行なう手順、データ圧縮を行なう手順、光学文字認識を行なう手順、及び、写真処理を行なう手順が含まれる。本発明の一態様によれば、画像を別個の部分にセグメント化することにより、各画像セグメントに対して異なる処理を適用することができる。たとえば、画像の黒テキスト部分の強調をエッジの鮮明化に集中させることにより、テキスト文字が均一に黒くなる。テキスト文字の内部を認識して評価することにより、それらの内部が確実に適切に処理されるようにし、その画像が適切に表示される可能性を向上させることができる。このような内部の認識は、通常ならグラフィック画像として認識されてしまう可能性がある特大サイズのテキスト文字を適切に特徴付けるのに有用である。同じ画像のグラフィック部分の強調は、グラフィック部分内部の遷移の平滑化に集中させることができる。また、セグメント化により、従来の傾き補正ルーチンで認識できる程度よりも大きく歪んだテキストの認識も可能になる。また、従来認識されているスペーシングやその他標準的表示形態に従わないテキストの適切な認識も向上する。また、セグメント化によって、同じ画像内に色のばらつきがある場合の画像の適切な認識も向上する。
【0027】
本発明のうちの1つの1以上の態様を用いると、画像の強調を容易に行なうことができ、テキスト、グラフィック及び背景特徴などのページ内容に基づいて強調を実施することができる。テキスト強調をもっと簡単に行なうことができ、テキスト領域をもっと簡単に認識し、白の背景やテキスト文字の内部などからあらゆる異常な色情報を取り除くことができる。テキスト強調によって、テキスト文字がきれいに見えるようになり、光学文字認識による認識率を上げることができる。
【0028】
エッジを認識する能力および内部画像部分を認識する能力を向上させることによって、エッジおよび内部の強調も容易になる。特に、エッジを別個に分離することができる場合、エッジの鮮明化も向上する。また、内部領域も個別に処理することができ、例えば、小さな文字だけでなく大きな文字であっても所与の領域については、結合度分析によって該領域内で同様の特徴をもつ画像要素がすべてまとめてリンクされる。例えば内部グラフィック領域がある領域の全部として識別できる場合、その内部グラフィック領域の望ましい強調方法を適切に制御する、すなわち判定する能力も向上する。
【0029】
テキストの適切なセグメント化および識別によって画像のデータ圧縮も向上し、特に黒テキスト文書の場合に向上する。黒文字は二値情報として容易に格納することができる一方、他のもっとデータを大量に使うセグメントは重要な情報を失うことなく格納したままにしておくことができる。
【0030】
画像処理の後CPU32(図2)が画像ファイルを送信することが可能な宛先は複数あり、それらの宛先には、画像ファイルを汎用その他のワードプロセッサ46で処理可能なテキストその他の編集可能なデータファイルに変換するためのOCRアプリケーション44や、編集可能なテキストだけでなく図、記号、その他画像ファイルなども受信することが可能なMicrosoft Word48などが含まれる。CPU32は、画像ファイルをMicrosoft Paint、Adobe Photoshop等の画像処理プログラム50に送信することも可能である。他のアプリケーションプログラムとしては、ウェブオーサリングツール52、PowerPoint等のプレゼンテーションプログラムなども含まれる。これらの宛先アプリケーションには最適な入力フォーマットがあり、CPUは、自動的に、あるいはユーザの入力に基づいて、アプリケーションプログラムに渡される画像データファイルが適切な構成になるようにスキャナ40を適当に設定することが好ましい。CPU32は、画像に対応するデータがアプリケーションプログラムで最適に処理されるのに必要な適切な解像度およびビット深度で得られるように、スキャナ40を設定することが好ましい。CPU32は、ユーザの入力に基づいて適切な設定を施すこともできるし、本明細書に記載する画像分析やその他の手段に基づいて適切な設定を施すこともできる。あるいは、スキャナには想定されるあらゆる画像フォーマットに対応する最適データ取得を設定しておき、CPU32で画像データファイルを処理してアプリケーションプログラムが受け入れられる最適フォーマットに変換することもできる。例えば、画像ファイルの設定は、OCRアプリケーションについてはテキストだけに最適化し、写真アプリケーションについてはテキストを適当なカラー情報及び/又はグレースケール情報を有する画像として、又は、適当なカラー情報及び/又はグレースケール情報を有する写真とテキストの混合として最適化することができる。
【0031】
本発明の一態様によるプロセスでは、画像または画像の一部をCPU32が受信する。上述したように、「画像」という用語を使用した場合、それは分析すべき文書またはその他の媒体上の画像すべてを指す場合もあるし、その画像の一部を指す場合もある。また、画像を表わすデータは、記憶装置、スキャナ40、通信リンクなどを含む任意数の手段から取得することができる。さらに、画像データファイルは、セグメント単位で取得することもできるし、検討中の画像全体からなる1つの完全なファイルとして取得することもできる。画像の取得が済むと、その画像は希望に応じて処理および分析することができる。
【0032】
画像分析および特徴付けステップについてさらに詳細に述べると、画像を分析し、その画像をテキストのみ、図またはグラフィックのみ、あるいはそれらの混合として特徴付けるための処理の一形態では、画像データを受信した後、その画像データをピクセル単位で特徴付けることが好ましい。好ましい一実施形態では、画像を複数の領域または画像セグメントにセグメント化し、他の実施形態では、それらの画像領域を分析して、ブロッブ、サブブロッブ等の階層に従ってピクセルを識別する。さらに他の実施形態では、画像領域を分析してエッジ部分をその画像の他の領域とは別個に識別することで例えばエッジの強調を可能にし、さらに他の実施形態では、画像を分析してその画像の比較的広い部分を形成するその画像の内部領域を識別する。一実施形態では、何らかの適当な基準を用いて各ピクセルを白、黒またはカラーとして特徴付け、他の実施形態では、各ピクセルを白、白エッジ、グレー、グレーエッジ、黒、カラーまたはカラーエッジとして特徴付ける。一実施形態において、画像の分析および特徴付けは、テキストのみの画像を識別することを1つの目的として実行される。他の状況では、画像の分析および特徴付けは、画像の強調、画像の圧縮、あるいは、後続処理のための画像のセグメント化を目的として実行される。
【0033】
また、ピクセル画像データを分析することで、ピクセル間の適当な関係を識別し、特に互いに隣接するピクセルを識別する。次いで、好ましい一実施形態では、互いに隣接していて黒、白、カラーなどの同じ特徴をもつピクセルを、グループ化し、集め、あるいは互いにリンクさせ、ブロッブと呼ばれることがある結合領域として識別する。好ましい実施形態において、関連性のある画像部分の特徴付けは、強調、セグメント化、その他の目的に関して、関連性のある画像部分が同じまたは類似の特徴を有しているであろうこと、即ち、それらの画像部分が少なくともまとめて扱える程度に十分類似しているであろうということを認識し、それを利用する意図がある。例えば、黒テキストのみの領域は、ピクセルが白か黒になっていて、あるいはそれら両極端の間に比較的急激なすなわち急傾斜の遷移があり、黒領域および白領域の強度または輝度が比較的均一になっているという共通の特徴がある。一方、図やグラフィックの領域は、グレースケールで表現され、実質的にグレーの領域が多く、明暗の遷移が比較的滑らか又は緩やかであり、黒ピクセルおよび白ピクセルの集合が比較的少ない。したがって、好ましい実施形態では、ピクセルの内容を分析するだけでなく、隣接ピクセルおよび近傍ピクセルとの関係についてもピクセルを分析する。
【0034】
本発明の好ましい一態様における追加ステップとして、様々な特徴を追加して、それらをカウントしたり、その他の方法で評価することにより、それらの様々な特徴の各々に対応する相対的大きさ、パーセンテージ、又はその他の基準を判定することができる。例えば、黒ピクセルの数、白ピクセルの数、およびグラフィックピクセルの数をカウントし、黒ピクセルの数がソフトウェアその他に設定された遮断値すなわち閾値に応じて決まる閾値よりもはるかに大きい場合、その画像は黒テキストとして特徴付けることができる。例えば、好ましい一実施形態では、黒領域および白領域の数が画像の95%を占める場合、その画像は黒テキストとして特徴付けられる。黒領域および白領域の数が画像の5%未満であった場合、その画像はグラフィックまたは図として特徴付けることができる。黒領域および白領域の数が5%〜95%である場合、その画像は混合として特徴付けることができる。設計者の判断で他の閾値および特徴付けを使用することもでき、それらはスキャンまたは分析する予定の画像のタイプや所望の許容公差すなわちパーセンテージなどによって変わる場合もある。前記5%および95%の閾値すなわち遮断値は、設計者が好ましい基準として選択した値に応じて異なる場合もある。
【0035】
画像が適切に特徴付けられると、CPU32には、その画像をさらに処理するための有用な補助的情報が得られる。例えば、一実施形態では、次に、プロセッサは例えば画像の内容に基づいて画像を強調することができる。グラフィック画像の場合、プロセッサは、セグメント間すなわち領域間の遷移を平滑化することができる。テキスト領域の場合、プロセッサは、光学文字認識のため、ピクセルをグレーレベルまたは白黒に変換することができる。プロセッサは、任意の色属性を除去することを含めて、エッジを鮮明化し、背景を白のみにしたり、比例的に白にしたり、テキスト文字を黒のみにしたり、比例的に黒にしたりすることができる。その結果、カラーアーチファクト、すなわちノイズや背景などの影響によって黒テキスト画像中に生成されたカラーデータを除去することができる。次に、プロセッサはその画像を印刷または格納することができる。この強調されたテキスト画像を用いると、ほとんど黒に近いテキスト文字をカラーカートリッジではなくブラックカートリッジを用いて印刷することができ、画像をインクジェットプリンタで効率的に印刷することができる。
【0036】
他の応用例として、プロセッサは、画像の分離されたセグメントに対して処理を行うことができる。例えば、テキストを強調する場合、個々のテキスト文字を処理して、それら文字内部を均一にし、実質的に黒だけにすることで、外観を改善したり、スループットを向上させたりすることができる。テキスト文字の外観は、その内部を均一な黒にして外観がより均一になるようにすることで改善される。スループットは後の処理または印刷の際に向上させることができ、例えば、白の背景に黒の文字を表現するデータを2値形態に簡略化することにより、黒のテキストファイルであればデータファイルが圧縮される。望むなら、色情報の圧縮は別の方法で行なうこともできる。
【0037】
他の例では、CPUは、スキャン中の画像の種別に基づいて最適な設定をスキャナ40に適用する場合がある。次いでスキャナが最終スキャンを実行し、その際画像データが再分析される場合もされない場合もあり、最終スキャンによって得られた画像データがCPUに受信される。次いでCPUは、その画像データを格納するか、又は所望の宛先に送信する。
【0038】
本システムは、画像を分析して特徴付けることによって、その画像が所望の方法で処理されレンダリングされることをより確実にすることができる。スキャンプロセスの例の場合、この適切な特徴付けによって、CPUは適当なスキャン設定を使用でき、結果得られる画像データが最終的な宛先にとって最良の形態になる可能性を向上させることができる。画像の特徴付けはユーザ入力なしで行うこともでき、その場合データの適切な取得がさらに迅速に実行できるようになる。
【0039】
画像分析ステップ104を詳細に考察すると、画像ストリップ112(図3)は輝度形態に変換されている(画像データには、破棄する必要のない何らかの色情報や輝度情報が含まれる場合があると考えられる。しかしながら、説明の都合上、画像データは輝度のみの形態に変換されているものと仮定する)。
【0040】
好ましい実施形態では、次に、画像データをライン単位で処理し、好ましくはピクセル単位で処理し、各ピクセルを分析して特徴付け、可能であればピクセルをグループ化する。画像データの背景レベルをチェックして、純粋な白および純粋な黒に対応するデジタル値を設定することができる。これらの値は、画像全体にわたって固定の値にすることもできるし、画像全体にわたって動的に設定(114)することもできる。好ましい一実施形態では、CPUは、ダイナミックレンジおよび白点値を受信して、何を白とみなすかについての閾値および何を黒とみなすかについての閾値を設定(114)する。この好ましい実施形態の場合、閾値には、Kittler−Illingworthアルゴリズムによって判定されるような、白ピクセルに対応する値を0.95倍したものを用いることができ、あるいは一般的に、1ライン内のピクセル又は一連の隣接ライン中のピクセルのデジタル値の最大値または最小値を用いることもできる。間のデジタル値は様々なグレースケール値に割り当てることができ、同様の閾値判定を用いて、Kittler−Illingworthアルゴリズムによって判定されるような、白ピクセル値を0.5〜9.5倍した何らかの値などをグレー値に割り当てることができる。次に、黒を0.5以下の何らかの数にすることができる。あるいは、経験的な要素などに基づいて、別の閾値も容易に設定することができる。
【0041】
CPUは、勾配演算子116を用いて、所与のピクセルがエッジを表しているか否か、またはエッジに直に隣接しているか否かを判定する。プロセッサは、データが明から暗へ変化しているか、それとも暗から明へ変化しているかをチェックし、その変化の量および方向に関する表示を生成する。この変化の方向は、データが明から暗へ変化するものであるか、それとも暗から明へ変化するものであるかを示すものである。次に、プロセッサは、その変化がエッジを表現するのに十分な程度大きいものであるか否か、または、その変化が写真やグラフィック画像に現れるような比較的緩やかな変化を表わすのに十分な程度小さいものであるか否かを判定する。
【0042】
次にプロセッサは、プロセッサによって設定された閾値(1つ又は複数)および分析中のライン内にあるピクセルに対応する勾配値を用いて、各ピクセルを特徴付ける(118)。プロセッサは、閾値と、ピクセルがエッジ上にあるか否かを示す指示とを用いて、各ピクセルを白、黒、グレー及びカラーのうちのいずれとして特徴付けるべきかを判断する。ピクセルが閾値を超えている場合そのピクセルは白として特徴付けられ、ピクセルがスペクトルの反対端にあるデジタル値である場合(グレーの閾値未満である場合)そのピクセルは黒として特徴付けられる。ピクセルが間にあって、勾配値が小さい場合(勾配閾値未満、例えば30未満の場合など)や、その他勾配変化を示している場合、そのピクセルはグレースケールまたはカラーとして特徴付けられる。次いで、望むならば、各ピクセルの特徴を勾配値と共に格納する。さらに、各ピクセルに4つ以上の値のうちの1つを割り当てることができ、すなわち、黒、白、グレー、カラーの他に中間値を割り当てることができる。各ピクセルに付けることができるラベルには、例えば、ダークグレー、ライトグレー、黒、白、カラー、グレーエッジ、カラーエッジ、その他の有用な特徴などが含まれる。それらのラベルや特徴及びそれらの数は、最終的に使用される特徴や、データに関する望ましい量および精度によって決まる。
【0043】
ピクセルを分類した後、プロセッサは、ピクセル間の結合度すなわち関連性を分析(120)することにより、同じ特徴または1種類のピクセルで表現できる程度十分類似した特徴であるものとして特徴付けられたピクセルの結合範囲すなわち範囲を識別することが好ましい。例えば、1以上のピクセルが同じラベルまたは同等のものとして特徴付けられる程度十分類似したラベルをもつ所与のピクセルに直に隣接している場合、それらのピクセルは1つの領域タイプまたは特徴にグループ化、区分または結合することができる。例えば、黒のラベルをもつすべての隣接ピクセルは、特に白のラベルをもつ隣接ピクセルがかなりの数存在する場合、最終的にテキストとして識別される。しかしながら、それらの黒のラベルをもつピクセルがグレースケールレベルの領域の中にある場合や、様々なグレースケールレベルの領域に囲まれている場合、それらの黒のラベルを持つピクセルおよびグレースケールレベルのピクセルは、グラフィックまたは図の領域として識別され、グラフィックテキストとして識別される可能性もある。この分析は、個々のピクセルの統計分析に基づくのではなく、領域の統計に基づいて実施することが好ましい。次いで、それらの領域に、例えばテキスト及びグラフィック、何らかのその他有用な特徴など、その領域がどのように特徴づけられたかを示すタグその他の適当な記録を付けることが好ましい。結合度の処理はピクセルの分類とほぼ同時に実施することができ、望むならばリアルタイムで実施することもできる。あるいは、望むならば、結合度の処理は別のプロセスまたは別の方法で別個に行なうこともできる。
【0044】
次にプロセッサは、結合度分析で得られた情報を用いて、各領域またはブロッブを特徴付ける(122)。次にプロセッサは、各領域のテキスト、グラフィック、またはその他の特徴の相対数を表にし、合算し、あるいは他の方法で明らかにする。画像は、希望に応じて処理または格納することができる。例えば、画像の用途すなわち宛先が分かっている場合、画像の処理は完了する場合がある。画像を強調したい場合、テキスト領域のエッジを鮮明化して、テキスト文字を真黒にすることができる。望むならば、カラー領域を平滑化し、何らかのカラー操作を施すこともできる。テキスト及びグラフィックの領域を圧縮することもできる。
【0045】
OCRのため画像をスキャナに送信したい場合、後述するようにスキャナがCPUによって制御されていれば、プロセッサは画像処理をより細かく制御することができる。例えば、プロセッサは、画像分析を続けるべきか否か、または画像データをユーザインタフェースに直接送信すべきか、それともさらに処理すべきかを、リアルタイムで判断することができる。例えば、画像ストリップ112の分析によってその画像がテキストのみ又はグラフィックのみであることが判明した場合であっても、引き続きページ分析を行い、その画像の残りの部分が他のタイプのピクセルを相当数含んでいるか否かを判定することが好ましい。画像全体の分析によって、他の分析であればテキストだけの画像とみなされる画像の終わり付近に相当量のグラフィックが含まれることが判明した場合、その画像は混合として特徴付けられる。同様に、画像全体の分析によって、他の分析であればグラフィックだけとみなされる画像の終わり付近に相当量のテキストが含まれることが判明した場合も、その画像は混合として特徴付けられる。反対に、画像がすべて1種類からなる場合、またはほぼすべて1種類からなる場合、その画像はその種類として特徴付けられ、プロセッサは処理を継続する。例えば、プロセッサは、適当な設定で最終スキャンを行ったり、画像データを適当な宛先へ送信することができる。スキャンが最初および最後のスキャンであった場合、プロセッサは、画像データを変換または処理して、選択された宛先すなわち適当な宛先について適した形態にすることができる。例えば、画像データはOCRアプリケーションで処理するためのテキストだけのフォーマットに変換することができ、あるいは、グラフィックに変換した場合は、それをグラフィックアプリケーションやフォトアプリケーションに送信することができる。
【0046】
スキャンによって得られる画像の例において、スキャンの初期にプロセッサがその画像を混合であると判定した場合、即ち、その画像がテキストとして特徴付けられた相当量のピクセル及びグラフィックとして特徴付けられた相当量のピクセルを有することが判定された場合、プロセッサは、その画像全体を混合として即座に特徴付け、画像分析を停止することができる。画像をストリップまたはセグメントで分析することによって、プロセッサにそのような初期判断を行なう能力を持たせることが容易になる。あるいは、例えばプロセッサが他の分析であればグラフィック画像とみなされる画像内にあるテキストブロックを分離する能力を有している場合、プロセッサは、処理を継続する、すなわち他の処理を行なうこともできる。
【0047】
本発明のうちの1つの好ましい一形態では、画像分析に画像セグメント化プロセスが含まれ、このプロセスによって画像の一部をテキストだけのセグメント、写真や図だけの部分又はその他の用途として識別または特徴付けることができる。例えば、この画像セグメント化により、画像を、テキスト、グラフィック及び図からなる複数の結合要素、並びに向きやレイアウトとは無関係の背景に分割することが可能になる。また、このセグメント化は、循環バッファを用いてラスタスキャンモードのデータ入力/出力に対して実施することもできる。好ましい実施形態において、この画像分析は、ピクセル属性および相互結合度を用いて、向きおよびレイアウトとは無関係のセグメント化を実現する。
【0048】
画像分析の好ましい一形態において、本プロセスは、ピクセル分類、階層的結合要素(HCC)分析、並びに領域分類又はブロッブ分類と呼ぶ3つの逐次的ステップを用いる。これらの各ステップについてこれから説明する。
【0049】
ピクセル分類は、好ましくは、画像特徴を識別または使用して画像の異なる部分を区別するステップである。グレースケール形態で画像を分析する好ましい一実施形態では、それらの特徴を白黒値、エッジ要素およびバランスで表現し、バランスのことをグレーと呼ぶ。画像にカラーデータが含まれる一実施形態では、各ピクセルを特徴付けるのに使用される特徴を、黒、白、白エッジ、グレー、グレーエッジ、カラー、およびカラーエッジにすることができる。他の特徴または画像特徴を用いて画像部分を区別することもできるが、通常実施する際に直面するであろう画像の多くについて、それらが特に適していると考えられる。
【0050】
グレースケールでスキャンした画像の場合、明るい背景上の各種フォントサイズの黒テキストは、比較的少数の離散的曲線でモデル化することができ、図4はそのような曲線を示すものであり、この図は明るい背景上にモデル化した黒テキストのプロファイルである。曲線124は一次元プロファイルを表している。図4のプロファイルは、4つのセクションに分割することができる。すなわち、
ライン126(白閾値)を超える輝度を有する白背景、
勾配領域または垂直線領域128として特徴付けられた遷移セクション、
ライン130(グレー閾値)未満の輝度を有する内部黒部分、及び、
ライン126とライン130の間の輝度を有するグレーセクション
である。比較的小さなフォントサイズ(例えば画質およびスキャン解像度に応じて、8ポイント未満など)のテキストは、内部黒部分がわずかであるか又はまったくない状態である遷移のみの領域として特徴付けることができる。好ましい実施形態では、Kittler−Illingworthのヒストグラムベースの閾値アルゴリズム(J.KittlerおよびJ.Illingworth著「Minimum Error Thresholding」(Pattern Recognition, Vol.19,No.1, 41〜47, 1986)に記載されている)を用いて適当な白閾値を見つけ、その白閾値を半分にしたものでグレー閾値を表わす。遷移エリアは、閾値を約30に設定して、勾配ノルム(図4の場合|s(i+1)−s(i−1)|で計算される)によって識別することができる。図4の例では、白閾値が約230に設定され、グレー閾値が約115に設定されている。
【0051】
図4では輝度および勾配(輝度値間の遷移)の量子化の間にいくつかの重複が発生するため、遷移エリアでは、ピクセル特徴がどのように確定されるかに応じて、ピクセルが一種別または別の種別に特徴付けられる可能性があることに留意されたい。好ましい一実施形態では、大勾配を有するグレーピクセルは、黒テキストに属する可能性が極めて高いので、黒ピクセルと共にグループ化する。テキストがグラフィックオブジェクトと結合されてしまう可能性を低らすため、大勾配を有する白ピクセルは白ピクセルと共にグループ化する。大勾配を有する黒ピクセルの特徴付けは、大半は強調の問題である。好ましい一実施形態では、それらのピクセルを黒ピクセルとして特徴付ける。後述する他の好ましい実施形態ではグレーエッジや白エッジなどの独自のラベルを大勾配グレーピクセルに割り当てることもできるが、基本的な黒テキスト分析の場合、多くの用途について、「白」、「黒」、および「グレー」のラベルで十分である。
【0052】
二次元画像または他の画像部分を評価する場合にも、図4のプロファイルと同様のプロファイルを作成し、同様の閾値を用いてピクセルを特徴付けることができる。好ましい一実施形態において、ピクセル分類方式は数1で表すことができる。ただし、TwおよびTg=0.5・Twはそれぞれ白閾値およびグレー閾値であり、‖∇Y‖=√(G2 i+G2 j)は、図5に示す2つの3x3ソーベル演算(Rafael C.GonzalezおよびPaul Wintz著、Digital Image Processing(second edition, Addison-Wesley, Reading,MA,1987)に記載)132および134を用いて計算された勾配ノルムであり、Teはエッジ閾値である。
【0053】
【数1】
【0054】
例えば、Teの値は約50でよく、40などのように50未満にすることも、50よりも大きくすることもできる。ラベル「白エッジ」および「グレーエッジ」は、内容ベースの強調を行なうためのものである。セグメント化のため、「白エッジ」のピクセルに「白」を割り当て、「グレーエッジ」のピクセルに「黒」を割り当てることもできる。
【0055】
輝度だけの方法は、カラー画像にも使用することができ、複合文書圧縮のためのテキスト/非テキストレイヤ分離等の目的に有用な結果を得ることができる。しかしながら、テキスト強調目的の場合、黒テキストの識別を先に実施することが好ましい。カラー画像の場合、測定基準に彩度を使用する。YCrCb色空間を使用した場合、式:彩度=√(C2 r+C2 b)から彩度が計算される。このカラー測定基準は計算が容易であるにもかかわらず、CIELA*B*色空間で使用される式:彩度=√((A*)2+(B*)2)から計算される彩度と極めて類似した結果が得られる。輝度および彩度を用いたピクセル分類方法は、図6に示す式2を特徴とする。ただし、Tcは彩度閾値である。測定基準に彩度を用いてカラー画像を処理する場合、Tcは例えば約15にすることができる。このピクセル分類すなわち画像分析は、Tcを255に設定することにより、輝度だけの属性に対して機能させることができることに留意されたい。これらの閾値によると、多くの用途について適当なピクセル分類を行なうことができる。しかしながら、例としてあげた閾値はすべて、所望の結果を得るために高く調節することも低く調節することも可能であり、それでも本発明の利点は得られる。処理要素、画像情報などを少なくしたり、それらを強調したりするため、閾値の多くは、要望に応じて例えば5%または10%、あるいはそれ以上、上下に調節することができる。例えば、エッジ閾値などのように、いくつかの例で使用されるもっと高い閾値は、画像が比較的高品質でない限り、テキストや文字のエッジ等の特定の画像特徴が容易に検出されないようにする意図がある。当業者であれば、閾値の変更が画像分析にどのように影響するか分かるであろう。また、閾値を一方の領域に含めるか他方の領域の方に含めるかの違い(例えば、大なり、大なりイコール、小なり、小なりイコールなどのうち、いずれの関係を使用するか)は、全体としては比較的小さな影響だと考えるべきである。
【0056】
結合要素分析(階層的結合要素(HCC)分析)では、十分に類似しているとみなすことができる隣接画素に、同じラベルまたは識別を与える。好ましい一実施形態では、例えば白の隣接ピクセルに、すべて同じラベルを与え、すなわち、すべて同じものとして特徴付ける。図7に示すような8近傍体系を使用し、色の略記および番号を用いて各ピクセルの特徴および識別を表すことが好ましい。3つの黒(B)ピクセル136が互いに隣接し、2つの白(W)ピクセル138が互いに隣接し、2つの赤(R)ピクセル140が隣接し、2つのグレー(G)ピクセル142が互いに隣接している。二値画像の場合、複数のピクセルから図8に示すような高レベル視覚オブジェクトを形成する際には2ラベル結合要素分析が優れていて、この図では、元画像146をもとにして、「2」というラベルを付けた結合要素が文字「a」に対応し、「1」および「3」というラベルを付けた結合要素が背景すなわち白に対応している。
【0057】
しかしながら、ピクセルのカテゴリが3以上ある分類方法の場合は、2つしかラベルを使用しない結合度分析では断片化が生じてしまう可能性がある。画像部分の断片化は図9に見ることができる。図9では、1つの文字148が32個の結合要素から構成されている。これは、セグメント化および強調を望むほど有用ではない。文字全体の認識は、3以上のカテゴリすなわち特徴に従って画像要素を特徴付けることにより行なうことができ、例えば画像要素に関するラベルを2以上のレベルに有することなどにより行なうことができる。それらのレベルは、階層的結合要素とみなされる。
【0058】
好ましい一実施形態では、粗から密などの階層形態に分類されたピクセルグループ間の空間的関係を特徴付けるため、階層的結合要素分析を用いる。階層的結合要素は、画像の一部に適用可能なクラスまたはラベルに部分的に基づくことが好ましい。多くの現在のアプリケーションにおいて、画像中の背景には、例えばグラフィックと画像の残り部分、グラフィックとテキスト、アルファベット等の文字と背景など、可視対象物同士を分離する空間的区切りとしての働きがある。次に、背景の使用または認識、および背景分類の割り当てによって、少なくとも2レベルの結合要素の階層が得られる。第1のレベルでは、ピクセルを、「背景」と「非背景」など、2クラスのうちの一方に分類することが好ましい。このレベルにある結合要素は、リージョンまたはブロッブと呼ばれることもあり、以下ではブロッブと呼ぶことにする。2つの隣接ピクセルが「背景」または「非背景」という同じカテゴリ(同じ分類)に属している場合、それらのピクセルは同じブロッブに属する。第2のレベルでは、この実施形態の場合、背景ピクセルおよび非背景ピクセルを両方とも複数のサブクラスにさらに分割し、分類方法に応じて例えば「黒」、「グレー」、「グレーエッジ」、「カラー」、「カラーエッジ」などに分割する。このレベルの結合要素はサブブロッブと呼ばれる。換言すれば、同じサブブロッブに属する2つのピクセルは、「カラー」、「グレーエッジ」など、まったく同じラベルを有することが好ましい。図10は、2レベルのクラス(150および152)およびブロッブ階層(154および156)を示している。
【0059】
背景ブロッブの場合、サブブロッブは、例えば白および白エッジになる場合がある。それらの特徴は、強調目的などで分析を行いたい画像の多くにとって有用であるが、他の特徴を用いることが可能な画像もあると考えるべきである。背景でないブロッブの場合、サブブロッブは黒、グレー、グレーエッジ、カラー、およびカラーエッジなどになる場合があり、輝度のみの場合は、カラーではなく黒、グレー、およびグレーエッジになる場合がある。
【0060】
図11は、2レベルの階層的結合要素分析の結果の一例を示すものである。3つの結合要素158、160及び162が存在し、トップレベルには単一要素として文字があり、サブレベルには32個の結合された要素がある。
【0061】
結合度分析では、内部領域の認識も可能である。また、結合度分析では、内容情報などの画像情報とその画像に関する空間情報とを関連付けることも可能である。3クラス即ち3種類以上の特徴を用いたピクセル分類と2レベル以上のピクセル特徴を用いたピクセル分類とを組み合わせると、結合度分析は、分析中の画像についてさらに多くの情報および詳細を提供することができる。結合度は、複数のレベルに適用することができ、複数の異なるピクセルタイプに適用することができる。結合度により、より広い領域内に配置された対象物が適切に認識され、適当に処理される可能性を向上させることができる。例えば、黒テキスト文字の場合、色彩のある小領域が分散されてしまったり、比較的少数のピクセルしか持たないようになる可能性が高い。反対に、カラーグラフィック及びカラーテキストの領域は、その領域内に優勢なカラーピクセルを有する。
【0062】
階層的結合要素分析により、両方(例えば輝度及び/又は彩度)の値において特定の性質を有するピクセルをグループ化することが可能になるとともに、観察者が画像中に知覚するものにいくらか対応する空間領域をブロッブより高いレベルのオブジェクトとしてグループ化することが可能になる。従って、階層的結合度分析は、より的確なブロッブの分類を行なうのに有用である。例えば、互いに十分異なる複数のサブブロッブを含む領域は、サブブロッブが少ない又は存在しない場合、あるいは、総ピクセル数が完全なブロッブに比べて相対的に少ないブロッブ内にサブブロッブがある場合に比べて、テキスト領域として分類される可能性が低い。
【0063】
プロセッサは、結合度分析と同時に、各ピクセルをブロッブ及び/又はサブブロッブに関連付けることが好ましい。好ましい実施形態では、ブロッブの特徴に従って各ピクセルを背景または非背景に分類し、サブブロッブの特徴に従って各背景ピクセルに白または白エッジのラベルを付ける。また、サブブロッブの特徴に従って、非背景ピクセルの各々に黒、グレー、グレーエッジ、カラー、またはカラーエッジのラベルを付ける。各ブロッブは一群のピクセルから構成された領域である。ピクセルの各々はラベルを有することが好ましく、このラベルは後でそのピクセルが属するブロッブを逆参照するポインタとして識別される。好ましい実施形態では、空間情報を保持するため、画像全体を通して全てのサブブロッブについて別個のポインタが存在する。任意の所与のブロッブには、そのブロッブ内に存在する異なるピクセルタイプの数と同数のサブブロッブが存在することになる。
【0064】
ブロッブ分類は、ピクセルについての高レベルの情報、すなわち黒、白、グレー、カラーまたはエッジなどのピクセル特徴およびピクセル位置の存在を認識する。また、ブロッブ分類は、あるピクセルとそのピクセルに隣接する同一または類似のピクセルとを結合することによって、そのピクセルに関する情報の追加も行なう。従って、ピクセル分類、結合度分析、および、ブロッブ分類を実施した後は、ピクセル分類だけを実施した後よりも、多くの情報が存在することになる。ブロッブ分類の利点の1つは、結合されたエッジピクセルの識別ができることである。大きなテキスト文字はその文字中の総ピクセルの割合が小さいか大きいかに関わらず文字内部が何らかの割合でカラー又はグレーになっている場合があり、エッジを識別する能力はそのような大きなテキスト文字を適切に識別するのに有用である。また、エッジは、異なるタイプの領域やピクセルを定義したり、それらを互いに分離したりするのに有用である。
【0065】
サブブロッブの分類(図12)に使用することできる一例において、各ピクセルは、ピクセル分類およびピクセル近接度を用いて、類似ピクセルまたは同一ピクセルとして特徴付けることができる。好ましい一実施形態において、プロセッサは、すべてのピクセルの分析が完了したか否かをチェックする(164)。分析が完了していればプロセッサは戻り、まだ完了していなければラベルLを有する他のピクセルpx,yを取得する(166)。プロセッサは、そのピクセルラベルLを近傍のラベルと比較する(168)。エッジピクセル以外の任意のピクセルの場合、その近傍は、左のピクセル、左上のピクセル、上のピクセル、および右上のピクセルが考えられる。上エッジピクセルの場合、その近傍は、あるとすれば左だけである。左エッジピクセルの場合、その近傍は、あるとすれば上および右上だけである。右エッジピクセルの場合、その近傍は、左上、上、および左だけである。ピクセルpx,yが、左ピクセル及び右上ピクセルと、あるいは左上ピクセル及び右上ピクセルと繋がっている場合、プロセッサは結合処理を実施する(170)。次に、プロセッサは、近傍ピクセルのうちのいずれか1つがサブブロッブレベルで同じラベルを有しているか否か、例えば背景ブロッブの場合は白または白エッジラベル、非背景ブロッブの場合は黒、グレー、グレーエッジ、カラー又はカラーエッジを有しているか否かをチェックする(172)。同じラベルを有するものがあれば、プロセッサは、その近傍のポインタをピクセルpx,yに割り当て(172A)、ピクセルpx,yの属性をサブブロッブおよびブロッブに追加する(174)(図12A)。
【0066】
同じラベルを有する近傍ピクセルがなかった場合、プロセッサは、サブブロッブオブジェクトを作成し、ピクセルpx,yのポインタがそのサブブロッブオブジェクトを指すようにする(176)。次に、プロセッサは、近傍ピクセルの中にブロッブレベルで同じラベルを有するものが有るか否か、本実施形態の場合は背景または非背景を有するものがあるか否かをチェックする(178)。ブロッブレベルで同じラベルを有する近傍ピクセルがあった場合、プロセッサは、ピクセルpx,yのサブブロッブのブロッブポインタがその近傍ピクセルのブロッブを指すようにし(178A)、ピクセルpx,yの属性をサブブロッブおよびブロッブに追加する(174)(図12A)。ブロッブレベルで同じラベルを有する近傍ピクセルがなかった場合、プロセッサは、ブロッブオブジェクトを作成し、ピクセルpx,yのサブブロッブのブロッブポインタがそのブロッブオブジェクトを指すようにする(180)。その後、プロセッサは、ピクセルpx,yの属性をサブブロッブおよびブロッブに追加し(174)、すべてのピクセルの分析が完了するまでこのプロセスを繰り返す。
【0067】
属性を追加する方法は複数あり、そのうちの1つを図12Aに示す。ピクセルpx,yの属性は、そのピクセルカウントを1だけ増分することによってサブブロッブに追加される(174A)。また、ピクセルの彩度もそのサブブロッブの彩度累算器に追加する。次に、ピクセルpx,yの属性をブロッブに追加する(174B)。ブロッブのバウンディングボックスを更新し、総ピクセルカウントを1だけ増分する。通常、バウンディングボックスにはブロッブを包含する最小の矩形を選択し、プロセッサがブロッブの空間的範囲を知ることができるようにする。また、入力ピクセルに対応するラベルに応じて、対応するカウンタ、例えば黒、グレー、グレーエッジ、カラー、カラーエッジ、白、白エッジなどのピクセルラベルに対応するカウンタも更新する。さらに、ピクセルpx,yの彩度もブロッブの彩度累積器に追加する。次に、プロセッサは、各種カウンタの値を閾値T−bigと比較する。黒ピクセルの数がT−bigよりも大きい場合、フラグk−Bigを1に設定する。グレーピクセルの数がT−bigよりも大きい場合、フラグg−Bigを1に設定する。カラーピクセルの数がT−bigよりも大きい場合、フラグc−Bigを1に設定する。次に、プロセッサは、3つのフラグのうちの2以上が1に設定されているか否かをチェックし、2以上が1に設定された場合、ブロッブタイプを初期設定である「未定」から「図」に変更する。そして、プロセッサはピクセルの処理を継続する。
【0068】
すべてのピクセルの処理が完了すると、プロセッサは、もっと前のステップでブロッブ分類により得られた情報に従って画像を処理することが好ましい(図13)。以後の画像処理は画像の最終的用途によって異なり、例えばその画像を印刷するつもりなのか、スキャンするつもりなのか、格納するつもりなのか等によって異なる。同様に、画像処理に使用するパラメータの選択も、画像の最終的な用途によって異なることになる。たとえば、画像をテキストおよび図の要素について評価する場合、サブブロッブを評価し、その評価に従って変更することができる。
【0069】
この階層的方法は、ピクセルの意味のあるグループ化について好ましいだけでなく、ブロッブの特徴付け、すなわち「ブロッブ分類」の手段も提供する。この特徴付け方法は、図要素と比較したテキスト文字に関する下記の2つの経験的知識に基づくものである。
(A)テキスト文字は大抵、同種類のピクセルのクラスタから構成されている。これは、テキスト文字のHCC分析の結果が一般に、1つの優勢サブブロッブとその他のエッジサブブロッブとから構成されているという結果になるであろうことを意味する。他のサブブロッブも多数存在し得るが、テキスト文字の場合、それらのサイズは一般に小さいものである。
(B)図のオブジェクトは通常、同種類から構成されていない。従って、図のオブジェクトの一般的なHCC分析の結果は大抵、画像が異なるタイプの複数のそれほど大きくないサブブロッブから構成されているという結果になる。
【0070】
これらの経験的知識およびHCCの枠組みにより、図のオブジェクトを特徴付けるための1つの基礎が下記のように得られる。
(A)ブロッブ内に所与の閾値(ピクセルカウント)Tbig(例えば150dpiの場合は15、300dpiの場合は約60など。他の解像度の場合の閾値も、経験的に選択したり、150dpiおよび300dpiの値から適当にスケーリングしたりすることで得られる)よりも大きなサイズの異なる非エッジサブブロッブが複数存在する場合、そのブロッブは図として特徴付けることができる。これは、2レベル階層分析方法の利点を例示している。「背景」/「非背景」および各サブクラスについてのピクセルカウンタに基づく最上位レベルだけの結合度分析を行なうことも可能であったが、それらのサブクラスピクセルの空間情報が失われる可能性があった。
(B)すべての他の非背景ブロッブは1つしか優勢サブブロッブを持たず、それらの非背景ブロッブをその優勢サブブロッブで特徴付けることができることが好ましい。例えば、黒テキストとして特徴付けられるブロッブでは、黒のサブブロッブが優勢であることが好ましい。
【0071】
他の関係を用いてブロッブおよびサブブロッブを分離すなわち特徴付けることも可能であるが、テキスト対図の分析については、閾値評価を利用することが便利で信頼性が高いものと考えられる。また、色の異なるサブブロックを識別することなど、他の目的については、他の方法並びに他のピクセル特徴及びブロッブ特徴を用いることもできる。適切な閾値の選択は、最終的な用途に応じて異なる場合がある。テキスト要素にしか関心がない場合、グレー閾値は無視することもできる。テキストおよびグラフィックの両方に関心がある場合、白閾値およびグレー閾値の双方を使用することができる。実際の値は、経験的に決めることができる。
【0072】
上記経験的知識の応用の一例として、カラー、グレーまたは図として特徴付けられたサブブロッブが黒テキストブロッブの一部であった場合、ピクセルを評価することにより、そのサブブロッブの特徴をそのまま維持するべきか黒テキストに変更すべきかを知ることができる。一実施形態において、要望に応じて、プロセッサはピクセルを再度特徴付けることができる場合がある。好ましい実施形態では、この処理は、相当数のピクセルの分析が終った後に行うことができるが、すべてのピクセルの分析が終った後に行うこともできる。例えば、プロセッサは、数本Nのラインのピクセルに対して結合度分析を行った後、ラインN−Dに対応するラインのピクセルを取得してピクセルタイプを判定することができる。ただし、Dは結合度分析用のラベルバッファの遅延すなわちライン数(図16の符号216)である。さらに、1ラインのピクセルの特徴に関する判定を行なう前に、このラベルバッファのライン数により、完全に分析することが可能な文字のサイズを判定することもできる。
【0073】
ブロッブの特徴付けに関して、プロセッサは、各ピクセルに関連するサブブロッブリンクを平坦化し、サブブロッブに関連するブロッブリンクを平坦化する平坦化処理(184)を行なうことが好ましい(図13)。プロセッサは、ブロッブタイプが判定されているか否かをチェックする(186)。判定されていればそのブロッブタイプを返し(188)、プロセッサは処理を継続する。ブロッブタイプがまだ判定されていなければ、プロセッサは、バウンディングボックスの底部が、結合度分析が済んでいる一番新しいラインよりも上にあるか否かをチェックする(190)。上になければ、そのブロッブはまだ完全に分析されていないので、プロセッサは、「大型ブロッブ」というタイプをそのブロッブに割り当ててそのタイプを返すことにより、ブロッブタイプに関する判定ができるようになる時まで画像全体の分析がまだ完了していないことを示す。何時ブロッブに「大型ブロッブ」というラベルを付けるかに関する基準は、バッファのサイズに関係する場合がある。バッファサイズがページ全体のサイズに設定されていれば、「大型ブロッブ」は存在しないであろう。「大型ブロッブ」を指定して何をするかは、用途により異なる。例えば、「大型ブロッブ」は、大きなブロッブを強調せずに残しておくための判断に用いられる場合がある。
【0074】
それが終わると、次に、プロセッサはブロッブを特徴付ける(194)。具体的には、ブロッブ中のピクセルの総数がスキャン解像度および所望の最小フォントサイズまたは他の適当な画像属性に従って選択された所与の閾値T−min未満である場合は、分析された画像部分がハーフトーンドットまたはノイズである可能性が極めて高いので、ブロッブタイプを「図」に設定する。例えば、T−minは、「i」の上部にあるドットのサイズや、ピリオドのサイズに基づいて決めることができる。反対に、カラーピクセルおよびカラーエッジピクセルの総数が全ピクセルの所与の割合、例えば60%よりも大きい場合は、ブロックタイプを「カラーテキスト」に設定する。さらに、平均彩度(ブロッブのピクセルの彩度の合計をピクセル総数で割ったもの)が所与の閾値T−color(図6ではTc)よりも大きい場合は、ブロッブタイプを「カラーテキスト」に設定する。それ以外の場合は、黒ピクセルおよびグレーエッジピクセルの数がグレーピクセルの数よりも大きければ、ブロッブタイプを「黒テキスト」に設定する。大きくなければ、ブロッブタイプを「グレーテキスト」に設定する。そしてプロセッサは、そのブロッブタイプを返し、画像全体が特徴付けられるまで処理を継続する。
【0075】
その後、強調、スキャン、圧縮、その他などのため、その画像または画像の一部を処理することができる。例えば、あるブロッブが背景として特徴付けられていて、そのブロッブのサブブロッブのうちの優勢サブブロッブであるものの割合が小さい場合、すべてのサブブロッブを白のみにしたり、比例的に白を増やしたりすることができる。一例としては、すべてのサブブロッブのピクセル値を255に変更することができる。あるいは、各サブブロッブ中のすべてのピクセルをすべてのサブブロッブ内のすべてのピクセル値の平均に等しい輝度値に変更したり、所与のサブブロッブ中のピクセルをそのサブブロッブ中のすべてのピクセル値の平均に変更したりすることができる。他の代替形態では、サブブロッブ中の輝度値を、255のうちのある割合、優勢サブブロッブ中の平均輝度値のうちのある割合、経験的に確立された線形関係に基づく値、または、何らかの他の方法で選択された値に変更することができる場合がある(図15)。反対に、背景エッジとして分類された背景ブロッブ中のサブブロッブは、いずれも変更しないままにすることが好ましい。
【0076】
ブロッブまたはサブブロッブが非背景に属している場合、そのブロッブはテキストとして特徴付けられる場合がある。背景の場合と同様に、非エッジサブブロッブの各々を優勢サブブロッブと比較し、それらの非エッジサブブロッブのうちの優勢サブブロッブであるものの割合が比較的大きい場合、それらは変更しない。そして、そのブロッブ全体を図またはグラフィックとして分類することができる。しかしながら、その他のサブブロッブが比較的小さい場合は、すべてのカラーを除去して、その他のサブブロッブ中のピクセルの輝度値を0、該ピクセルの元の値の75%または50%などの値、あるいは、優勢サブブロッブ中の輝度値の平均に変更することができる。それらはスケーリングすることも可能である。好ましい実施形態では、ブロッブ単位で平均化を行い、文字「B」のピクセル値が文字「i」のピクセル値と一致しないようにすることが好ましい。好ましい実施形態では、背景の場合と同様に、エッジサブブロッブは変更しない。
【0077】
エッジサブブロッブは別個に強調することができる。エッジの強調は、アンシャープマスクまたは他のエッジ鮮明化手段によって行なうことができる。
【0078】
カラーテキストも、同様の方法で処理することができる。エッジを強調することができ、RGB値の平均に基づいてブロッブ中のすべてのピクセルに平均値を割り当てることができる。
【0079】
黒テキストの特定の例では、黒エッジとして特徴付けられたピクセルを鮮明化し、色情報を除去することができる。非エッジ黒テキスト(内部)として特徴付けられたピクセルを暗くすなわち濃くすることができ、色情報を除去することができる。
【0080】
カラーテキストまたはグレーテキストの例でも、カラーエッジを鮮明化することができるが、その程度は、黒テキストエッジについて行うことができる程度よりも低い、すなわち緩やかなものである。非エッジカラーテキスト(内部)として特徴付けられたピクセルも、所望に応じて強調することができる。
【0081】
背景ピクセル、例えば白背景の例では、背景ピクセルを上述したように変更することができる。背景ピクセルは、アンシャープマスクまたはモアレ除去によって処理することもできる。図のピクセルは、アンシャープマスクまたはモアレ除去、あるいは他の所望の処理によって処理することも可能である。
【0082】
一般に、それらの処理は、ピクセル特徴と閾値等のサブブロッブ処理タグとを含むピクセルデータを最初に受信すること(198)として表現される(図14)。ピクセルは、ブロッブ特徴および所望の強調処理または他の処理ステップに従って、それぞれのサブブロッブで強調または処理される(200)。そして、そのピクセルデータが、変更の施されたピクセル特徴及び画像情報と共に使用される何らかの他のデータと一緒に出力される(202)。
【0083】
本発明の1以上の態様を組み込んだ状態で、いくつかの方法を変更することが可能である。また、本発明によって得られる利点のうちの1以上を得られるようにしたまま、方法のいずれかで使用されるパラメータや設定を容易に変更することも可能である。ピクセル分類方法、結合度分析方法、及び/又は、ブロッブ分類方法の様々な組み合わせおよび変更により、画像分析を向上させることができる。彩度情報を使用する画像分析には、上記の各種代替方法の他にも、輝度情報だけを使用する画像分析で使用される方法とは異なる方法を使用することができる。図27は、色によるピクセル分類320の後に上記の方法などを用いて結合度分析322を行う一般的方法を示している。ブロッブ分類は、既に行なった説明に従って実施することができる。この方法を用いると、輝度情報および彩度情報の両方に従って白として分類されたピクセルは背景とみなされるが、カラー背景とみなされるピクセルなど、白以外のカラー情報を相当量有するピクセルは、例えばテキスト文字の検出の際に、背景として扱われない。例えば、色彩のある領域上にあるテキストは通常、さらに何らかの分析を行なわない限り認識されない。
【0084】
画像分析方法の他の例(図28)として、輝度によるピクセル分類324を行なった後、結合度分析326およびブロッブ分類328を行うこともできる。ブロッブ分類は、平均ブロッブ彩度を用いてカラーおよび非カラーの文字を分類することにより行うことができる。この方法では、例えば高輝度のピクセルが背景(色彩のある領域も含む)とみなされ、均一色の背景上にあるテキストを認識できるような値に、閾値を設定することができる。この例では、テキストが白の背景及び/又は色彩のある背景上にある場合であっても、同様の方法でテキストを認識および処理することができ、それでも本発明の1以上の利点が実現される。
【0085】
多くの実際の用途では、画像は、ラスタスキャンモードのように左から右へ、及び上から下へ向けて逐次アクセスされる。例えばメモリの制約などに起因して、画像全体を同時に得ることはできない場合がある。全画像分析の代替、あるいは、相当数のラインを利用可能なスライス分析またはセグメント分析の代替として、走査線ベースの処理を用いることもできる。走査線ベースのプロセスは、スキャンから印刷までの遅延時間、またはスキャンから表示までの遅延時間を最小にしたい場合に有利である。図16は、走査線方法を用いた一実施形態を示している。この方法では、例えばスキャン画像の処理に用いられる従来のプロセッサ218において、画像データのいくつかの行210、212、および214(ソーベル演算のマスクサイズの行が少なくとも3行あると好ましい)をモジュール式(循環)バッファ216に格納することができる。さらに、ピクセル分類および結合度分析の結果を格納するため、ラベルバッファ220(好ましくは少なくとも2行を有する)も有している。N行のデータバッファを備えたこのような実施態様は、N行の遅延を有するパイプラインとみなすことができる。N行を埋める初期遅延時間の後、このパイプラインは1行入力−1行出力様式で動作する。バッファに使用される実際の行数は、コストとパフォーマンスとの間のトレードオフに基づいて選択される場合がある。
【0086】
走査線方法におけるピクセル分類にはヒストグラムベースの閾値判定を使用することが好ましく、この閾値判定はこの処理形態に合わせて容易に変更を施すことができる。ヒストグラムを作成または更新する2つの方法として、バッファ(窓)内のピクセルだけ用いてヒストグラムを計算する方法と、窓状に区切った画像のヒストグラムを与える方法とがある。他の方法としては、新たな行が入力されたときにピクセルカウントをヒストグラムに追加するという累積的なものもある。画像の最後で、ヒストグラムはグローバルヒストグラムになる。いずれの方法においても、ヒストグラムは、従って閾値は、新たな行ごとに更新される。行数は、ヒストグラムが統計上意味のないものになってしまう程少なくしないことが好ましい。ヒストグラムの作成中、またはグローバルヒストグラムが完成した後、既に説明したプロセスと同じものを用いて、ピクセルを特徴付けることができる。
【0087】
このラスタスキャン順の結合度分析は、逐次的ラベル付け(Berthold K. P. Horn,Robot Vision, The MIT Press, Cambridge, MA, 1986に詳細に記載されている)を用いて実行することができる。一形態において、入力された新たなピクセルはいずれも、図17に示すように、行中の位置に応じて、利用可能な近傍ピクセル222、224、および226をそれぞれ2個、3個、または4個だけ有する。既知の近傍ピクセルを2個だけ有する未知のピクセルすなわちラベル付けされていない(以下「未割り当て」とも呼ぶ)ピクセルは左境界であり、既知のラベル付けされた近傍ピクセルすなわち割り当て済みピクセルを3個だけ有する未知のピクセルは右境界であり、残りは内部ピクセルである。未知のピクセルが原因で、ブロッブの一部しか分からないことにより、ブロッブの特徴付けの際にアーチファクトが生成される場合があり、図18に示すように、結合ブロッブが結合ピクセルと出会う前に非結合ブロッブとして処理されてしまうことがある。図18は、「?」を付けた未知の入力ピクセルと、その未知の入力ピクセルがサブブロッブの一部である状況228および230とを示している。また、この図は、未知の入力ピクセルがブロッブの一部である状況232および234も示している。陰影を付けていないピクセルは背景ピクセルである。
【0088】
ブロッブの特徴付け誤りによって生じるアーチファクトの第1の原因は、ブロッブサイズがバッファよりも大きく、データの不完全性に起因して、望ましくない判定がなされたときに生じる。これに対処する方法はおそらく2つある。第1の方法は、バッファサイズよりも大きなサイズのすべてのブロッブについて「大型ブロッブ」という特別なタグまたはタイトルを付け、それらのアプリケーションにおいて適当なアクションを選択し、例えばタイトル及び/又はラベルを保持することである。第2の方法は、後から特徴を変更する際に、利用可能な情報に基づいてピクセルを特徴付け、ゆるやかな遷移手段を設計することである。文字に関する強調の一貫性を向上させるため、バッファの行数はアルゴリズムが分析で使用することを想定している最大フォントサイズ以上にすることが好ましい。
【0089】
しかしながら、バッファサイズ内のブロッブであっても、アーチファクトの第2の原因が生じる可能性がまだある。結合処理を位置調整する場合の例を図18に示す。ただし、図中に示したグレースケールおよび番号は、ピクセルのラベルおよびサブブロッブIDをそれぞれ表している。
【0090】
結合処理を実施するため、システムは、ブロッブ及びサブブロッブに属するピクセルを追跡することが好ましい。ブロッブに属するピクセルは多数存在する場合があり、この種の処理はブロッブの存続期間中に複数回行われることがあるので、ブロッブのすべてのピクセルに対する再割り当ては、避けることが好ましい。この目的を考えて、図13に示すように、2レベルのリンクリスト236を用いることができる。すべてのピクセルに、サブブロッブデータ構造(図19Aに示す)のアドレスになるポインタタグpSBを割り当てる。ラベルxを有する新たな入力ピクセルについて、その近傍との比較(図17に示す)を実施する。近傍のうちの1つが同じラベルxを有していた場合、その近傍のアドレスタグを当該ピクセルにコピーする。そうでない場合は、サブブロッブの新たなデータ項目を作成し、そのアドレスを当該ピクセルに割り当てる。いずれの場合も、当該入力ピクセルに関するサブブロッブを更新し、次いでその最上位レベルのブロッブを更新する。さらに、そのピクセル小集団を検査して、結合処理が望ましいか否かを調べる。データ構造を用いた結合処理は、リンクをたどって移動する処理およびポインタ処理から構成され、全ピクセルの再割り当てを必要としない。この結合処理について考えられる擬似コード238を図20に示す。
【0091】
サブブロッブ/ブロッブに対する結合処理の回数が増えるにつれて、リンクの長さも増加する。リンクが長くなると、サブブロッブ/ブロッブに関する何らかの後の結合処理および取得処理の速度が低下する場合がある。サブブロッブ/ブロッブには通常多数のピクセルが含まれるので、長いリンクの追跡は最小限にとどめ、あるいは避けることが好ましい。そのため、結合処理および取得処理に「平坦化」処理を組み込むことによって、ノードから直接ルートへのショートカットを導入し、後の処理に備えてリンクを短縮しておく。サブブロッブに対する平坦化処理の擬似コード240を図21に示す。図22は、単純な例による平坦化操作242を示す。同じ方法をブロッブにも適用することが好ましい。
【0092】
本発明の方法および装置の説明は、文書をスキャンまたはコピーするためのスキャナの使用に適用することができ、特にテキストだけの画像やテキストが優勢な画像に対して適用されているが、それらの方法および装置の1以上の態様は他の用途にも適しており、例えばテキストだけの状態とグラフィックが全く存在しない状態とがまったく区別できない方法で過去にスキャンまたは作成されたデータファイルを分析し、特徴付けることなどにも適している。
【0093】
スキャンシーケンス等では画像をテキスト、グラフィック、またはそれら両方として分類する場合があり、その一例においては、画像を分析することにより、プレビュースキャン及び/又は最終スキャンを行う際に、プロセッサがスキャナをより厳密に制御できるようにすることが望ましい場合がある。スキャナ40(図25)には、プレビュースキャン252および最終スキャン254の選択に使用されるソフトウェア、またはユーザインタフェース250(図24)を含むソフトウェアが付属する場合がある。ユーザインタフェース250は従来のものであり、プレビュースキャンおよび最終スキャンは周知である。プレビュースキャンの際には、プレビュースキャンデータが1以上の画像ストリップ256(図25)の形態でスキャナ40からCPU32へ供給される。CPU32は、スキャンが進行するのにつれて、画像データをセグメント単位、ブロック単位またはストリップ単位、あるいはライン単位で受信及び処理することができ、画像分析および特徴付けをリアルタイムで実行することができる。各画像ストリップは、スキャンが進行するのにつれてリアルタイムでCPUに供給することが好ましく、複数ライン分の長さにすることが好ましい。たとえば、各画像ストリップは、スキャン中の画像全体のうちのある割合、例えば25パーセントを表す場合があり、数百ライン分の画像である場合がある。画像ストリップのサイズは、バッファサイズ等によって決まる場合がある。
【0094】
本発明の好ましい一形態では、CPU32は、データをデータブロックまたはデータスライスとして受信する場合であっても、開始コードまたは開始命令を受信した後から停止コードまたは停止命令を受信するまでの間に受信したすべてのデータを1つの画像として処理することができる。例えば、CPU32に対して、画像の第1のライングループ、例えば25〜100ラインを受信したときに処理を開始するように命令することができる。CPUは、画像の終端部を受信するまで、追加された各ラインまたは各ライングループの処理を逐次続けることができる。代替として、CPU32は、画像セグメントを画像分析プロセスに供給する方法を制御したり、処理されるブロックサイズまたはスライスサイズを制御することにより、あるいは他の方法で、画像分析を制御することもできる。
【0095】
状況によっては、スキャンが完了する前であっても、画像を適切に特徴付けることができる場合がある。例えば、スキャンの途中で画像が混合として、例えばテキストと写真の混合として特徴付けられた場合、テキストのみ又は写真のみとして特徴付けるための基準によると、その画像はそれらのいずれとして特徴付けられることもないので、その画像のさらなる分析は不要となる場合がある。次に、画像分析処理および特徴付け処理以外の適当な処理を行なうため、その画像データをCPU23に送信することができる。スキャン終了後に画像データを受信して分析及び特徴付けすることもできるが、画像データの処理にかかる時間全体を短くするためには、リアルタイム分析またはセグメント化分析が好ましい。
【0096】
CPUは、何らかのスケーリングが必要か否かをチェック(258)し、スケーリングが必要な場合、さらなる処理に備えてその画像を適当なサイズにスケーリングする(260)。スケーリングが必要ない場合、画像スケーリングステップ260はバイパスすることができる。
【0097】
次に、CPUは、ページ分析を実施すべきか否かをチェックする(262)。ユーザがスキャンする画像に関する知識を基にしてスキャナに設定を手動で既に入力している場合や、その他スキャナに適当な設定が既に施されている場合、このページ設定は不要である。後で詳しく説明するが、バイパスされなければページ分析264が実施され、その結果が、画像処理ステップ266におけるCPUによる画像の処理に用いられる。画像処理ステップ266の結果は、サイズ変更、鮮明化、階調調節などの後続の処理270のため、画像キャッシュ268に格納される。次に、画像プレビューステップ272において、処理された画像がユーザインタフェース250に供給され、その後、ユーザによってさらに編集(270)され、あるいは、それ以上変更がない場合は承認されて画像キャッシュ268に格納される。最新のプレビューが承認されると画像領域が確定され、274においてスキャン設定が確立され、プロセッサは最終スキャンを行なうため、スキャナ40へ戻る。
【0098】
最終スキャンの際には、各画像ストリップ276をCPUに送信し、何らかのスケーリングが必要であるか否かをチェックする(278)。必要に応じてスケーリング280を行い、続いて画像処理282を行い、そして何らかの画像編集284を行なった後、その画像をスキャン宛先286に送信する。その後、要望に応じて、スキャンを終了することもできるし、反復することもできる。
【0099】
プレビューシーケンスおよび最終スキャンシーケンスを設けることは、比較的従来的であると言える。しかしながら、プレビューシーケンスと最終シーケンスは、スケーリング分析、ページ分析、画像処理、画像編集および画像プレビューを含む一連のステップにまとめることもでき、一連のステップは更なる画像編集および宛先への最終的送信をさらに含む場合もある。同様に、ステップの他の組み合わせも可能である。例えば、最初のスキャンとしては、スキャナがサポートしている最大光学解像度および最大深度で画像をスキャンし、その画像をキャッシュに保存することもできる。その後、解像度及び/又は深度を下げてプレビュー画像を作成する。最終スキャンの要求があった場合、その画像タイプに関する最適な設定で新たにスキャンを開始するのではなく、キャッシュ内の画像を処理することで所望の結果を得ることができる。この方法は、スキャナがプレビュー/最終スキャンシーケンスをサポートしていない場合に使用される場合があり、例えば画像の印刷された用紙を排出してしまうシートフィードスキャナの場合に使用される場合がある。
【0100】
ページ分析および編集処理についてさらに詳細に説明すると、上述した画像ストリップなどの画像ストリップ288(図26)はCPU32に供給される。CPUはページ分析を実施すべきか否かをチェック(290)し、実施すべき場合、CPUは、例えば設定されたRGB(赤、緑、青)変換係数0.299×R+0.587×G+0.114×Bを用いて、その画像データを輝度形態に変換する(292)。この変換係数は、「sRGB」規格で従来から使用されている変換係数である。ページ分析を実施しない場合、CPUは輝度変換ステップをスキップする。次に、CPUは、何らかのローラアーチファクトを除去する必要があるか否かをチェックする(294)。ローラアーチファクトは、シートフィードスキャナにおいてシートが通常サイズよりも小さい場合に現れることがあるアーチファクトである。もし在ればローラアーチファクトを除去し(296)、その後、CPUはページ分析および特徴付けプロセスをその画像ストリップに適用すべきか否かをチェックする(298)。それらを適用すべき場合、下記で詳細に説明するように画像ストリップを分析し(300)、適用する必要がなければ、画像タイプ分析ステップ300をバイパスする。次に、CPUは、画像を自動クロッピングまたは傾き補正する必要があるか否かをチェックし(302)、それらが必要である場合は、画像をそのように処理する(304)。次に、CPUは他の変換を適宜実施する(306)。
【0101】
これらの方法および装置により、所与のタイプの画像に対応する画像データを得るためのスキャナの適切な設定が容易になる。特定タイプに従って画像を分析して特徴付ける場合、その画像をスキャンすることで、特定の画像タイプについて最も望ましい形態の画像データを得ることができる。また、画像の分析および特徴付け並びにその後のスキャンは、わずかなユーザ介入で、あるいはユーザの介入なしで実施することができ、例えば既知の画像タイプに関連付けて予め施された設定を用いて実施することができる。画像タイプが分かれば、スキャナに適切な設定を施して所望の画像データを得ることができ、それを適当な宛先に格納または送信することができるようになる。あるいは、可能な限り多数のフォーマットについて最適な設定を用いて画像を一度スキャンし、その後又はその間に、画像を特徴付けることもできる。画像が適当なレベルの確実性で特徴付けられれば、その画像データは、意図する宛先にとって適した形態に変換することができるようになる。
【0102】
本発明のいくつかの例示的な実施形態について上記のように説明してきたが、本発明または本明細書に記載した思想から外れることなく、様々な変更および修正が可能であることは明らかである。そうした処理および変更については、特に上述していないが、それでも本発明の思想および範囲に含めることを意図している。従って、上記説明は単に例を目的としたものである。
【図面の簡単な説明】
【0103】
【図1】本発明の複数の態様による、画像を分析し、周辺装置用の出力を生成したり、後の使用のためにデータファイルを変更したりするためのシステムを示す概略図である。
【図2】画像を分析するためのシステムおよびデータファイルを受信するための宛先アプリケーションを示す略ブロック図である。
【図3】本発明の一態様による画像分析方法のステップを示すフロー図である。
【図4】明るい背景上にモデリングされた黒テキストのプロファイルである。
【図5】ソーベルマスクを用いた勾配計算を示すブロック図および図式的表現である。
【図6】輝度および彩度を用いたピクセル分類に使用される一体系の式を示す図である。
【図7】8ピクセル結合度を示すピクセルの概略図である。
【図8】元の画像を示すグレースケール画像および結合要素についての8近傍結合度の一例を示す図的表現である。
【図9】元の画像および結合要素を含む、カラー画像についての結合要素の一例を示す図的表現である。
【図10】クラスおよび領域についての2レベル階層の略図である。
【図11】元の画像、最上位レベルの結合要素およびサブレベルの結合要素を含む、カラー画像についての階層結合要素の一例を示す図的表現である。
【図12】本発明のうちの1つの他の態様による、結合度分析手順を示すフロー図である。
【図13】本発明のうちの1つの他の態様による、ブロッブまたは画像領域の特徴付けを示すフロー図である。
【図14】ピクセル分類、結合度分析、およびブロッブ分類の結果を用いて画像の一部を強調または処理する全体的な方法を示すフロー図である。
【図15】ピクセルを背景として分類する処理に用いられる、生じ得る輝度値と実際のピクセル値との関係を示すグラフ表現である。
【図16】ラスタスキャン処理のアーキテクチャを示す概略図である。
【図17】ラベル付けされたピクセルおよびラベル付けされていないピクセルを示す概略図である。
【図18】誤った領域境界を生じさせる可能性がある様々なピクセル分類を示す概略図である。
【図19】図19は2レベルリンクリストおよびプロセス例を示す概略図であり、図19Aはピクセルをラベル付けするのためのピクセルタグ変換を示す概略図である。
【図20】結合処理の擬似コードを示す図である。
【図21】平坦化処理の擬似コードを示す図である。
【図22】処理前後に行なうリンクに対する平坦化処理を示す図である。
【図23】本発明の方法および装置により分析可能なサンプル画像を示す図である。
【図24】設定および画像スキャン関して様々なレベルのユーザ制御を可能にする、画像スキャナに対するユーザインタフェースを示す図である。
【図25】画像のスキャンおよび分析するための本発明の一態様が従うプロセスの例を示すフロー図である。
【図26】テキストおよびグラフィックについての画像分析を含む、画像に対して実行可能な方法ステップを示すフロー図である。
【図27】画像を分析する代替方法を示す概略である。
【図28】画像を分析するさらなる代替方法を示す概略図である。
Claims (10)
- 画像を分析するための方法(146)であって、
画像の複数の要素を表わすデータを受信するステップ(112)と、
前記複数の要素の各要素を知覚される特徴に従って特徴付けるステップ(118)と、
所与の特徴(158,160A-D,162)を有し、該所与の特徴とほぼ同一の特徴を有する要素に隣接する各要素を識別するステップ(120)と、
からなる方法。 - 前記特徴付けるステップ(118)が画像を表わす複数のピクセル(164-174)を特徴付けるステップを含む、請求項1の方法。
- 前記特徴付けるステップ(118)が背景を表わすピクセルを識別するステップ(158)を含む、請求項2の方法。
- 前記特徴付けるステップ(118)が黒情報を表わすピクセルを識別するステップ(160A)を含む、請求項2の方法。
- 前記特徴付けるステップ(118)がエッジを表わすピクセルを識別するステップ(160B)を含む、請求項2の方法。
- 前記隣接する各要素を識別するステップが前記所与の特徴を有する隣接要素である各要素を識別するステップ(172)を含む、請求項1の方法。
- 前記隣接する各要素を識別するステップが非背景ピクセルである隣接ピクセル(150,160A-D)を識別するステップ(172)を含む、請求項1の方法。
- エッジを表わし隣接している画像の要素を識別するステップと、
エッジ(160B)を表わす第1のピクセルを選択し、複数の隣接ピクセルを識別し(172)、前記複数の隣接ピクセルのうちのエッジを表わすいずれかの隣接ピクセルを識別するステップと、
をさらに含む、請求項22の方法。 - 前記複数の隣接ピクセルのうちのエッジを表わす隣接ピクセルを識別するステップが、エッジを表わす隣接ピクセルに一意のラベルを付けるステップを含む、請求項9の方法。
- 前記同一ラベルを有し結合しているピクセルを識別するステップが、同一ラベルを有する結合ピクセルにサブラベル(152)を付けるステップを含む、請求項9の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/709,685 US7672022B1 (en) | 2000-04-07 | 2000-11-09 | Methods and apparatus for analyzing an image |
PCT/US2001/045584 WO2002056255A2 (en) | 2000-11-09 | 2001-10-25 | Methods and apparatus for analyzing an image |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004529404A true JP2004529404A (ja) | 2004-09-24 |
JP2004529404A5 JP2004529404A5 (ja) | 2005-12-22 |
JP4098087B2 JP4098087B2 (ja) | 2008-06-11 |
Family
ID=24850914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002556841A Expired - Fee Related JP4098087B2 (ja) | 2000-11-09 | 2001-10-25 | 画像を分析するための方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7672022B1 (ja) |
EP (1) | EP1334462B1 (ja) |
JP (1) | JP4098087B2 (ja) |
AU (1) | AU2002239437A1 (ja) |
DE (1) | DE60118240T2 (ja) |
WO (1) | WO2002056255A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101829231B1 (ko) | 2016-07-01 | 2018-02-19 | 위드로봇 주식회사 | 블롭 검출 시스템 및 블롭 검출 방법 |
Families Citing this family (60)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596606B2 (en) * | 1999-03-11 | 2009-09-29 | Codignotto John D | Message publishing system for publishing messages from identified, authorized senders |
US20050097046A1 (en) | 2003-10-30 | 2005-05-05 | Singfield Joy S. | Wireless electronic check deposit scanning and cashing machine with web-based online account cash management computer application system |
US7379587B2 (en) * | 2004-02-12 | 2008-05-27 | Xerox Corporation | Systems and methods for identifying regions within an image having similar continuity values |
US7343046B2 (en) * | 2004-02-12 | 2008-03-11 | Xerox Corporation | Systems and methods for organizing image data into regions |
US7403661B2 (en) | 2004-02-12 | 2008-07-22 | Xerox Corporation | Systems and methods for generating high compression image data files having multiple foreground planes |
US7386166B2 (en) * | 2004-02-12 | 2008-06-10 | Xerox Corporation | Systems and methods for connecting regions image data having similar characteristics |
US9229646B2 (en) * | 2004-02-26 | 2016-01-05 | Emc Corporation | Methods and apparatus for increasing data storage capacity |
US8708227B1 (en) | 2006-10-31 | 2014-04-29 | United Services Automobile Association (Usaa) | Systems and methods for remote deposit of checks |
US7873200B1 (en) | 2006-10-31 | 2011-01-18 | United Services Automobile Association (Usaa) | Systems and methods for remote deposit of checks |
US8799147B1 (en) | 2006-10-31 | 2014-08-05 | United Services Automobile Association (Usaa) | Systems and methods for remote deposit of negotiable instruments with non-payee institutions |
US10380559B1 (en) | 2007-03-15 | 2019-08-13 | United Services Automobile Association (Usaa) | Systems and methods for check representment prevention |
TWI344623B (en) * | 2007-04-13 | 2011-07-01 | Primax Electronics Ltd | Method for text and graphic separation and text enhancement |
US8553279B2 (en) * | 2007-07-04 | 2013-10-08 | Samsung Electronics Co., Ltd | Image forming apparatus and a control method to improve image quality based on an edge pixel |
US9058512B1 (en) | 2007-09-28 | 2015-06-16 | United Services Automobile Association (Usaa) | Systems and methods for digital signature detection |
US9159101B1 (en) | 2007-10-23 | 2015-10-13 | United Services Automobile Association (Usaa) | Image processing |
US9898778B1 (en) | 2007-10-23 | 2018-02-20 | United Services Automobile Association (Usaa) | Systems and methods for obtaining an image of a check to be deposited |
US9892454B1 (en) | 2007-10-23 | 2018-02-13 | United Services Automobile Association (Usaa) | Systems and methods for obtaining an image of a check to be deposited |
US8532374B2 (en) | 2007-12-05 | 2013-09-10 | Canon Kabushiki Kaisha | Colour document layout analysis with multi-level decomposition |
US8136034B2 (en) | 2007-12-18 | 2012-03-13 | Aaron Stanton | System and method for analyzing and categorizing text |
US10380562B1 (en) | 2008-02-07 | 2019-08-13 | United Services Automobile Association (Usaa) | Systems and methods for mobile deposit of negotiable instruments |
KR101432227B1 (ko) * | 2008-03-06 | 2014-08-27 | 삼성전자주식회사 | 전자기기에서 비트 해상도 증가 및 에지 강화 방법 및 장치 |
JP4952627B2 (ja) * | 2008-03-21 | 2012-06-13 | 富士通株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
US8170291B2 (en) * | 2008-05-09 | 2012-05-01 | The United States Postal Service | Methods and systems for analyzing the quality of digital signature confirmation images |
US8331680B2 (en) | 2008-06-23 | 2012-12-11 | International Business Machines Corporation | Method of gray-level optical segmentation and isolation using incremental connected components |
US8103098B2 (en) * | 2008-09-03 | 2012-01-24 | Primax Electronics Ltd. | Method for generating a non-graphical digital image from an original digital image |
US10504185B1 (en) | 2008-09-08 | 2019-12-10 | United Services Automobile Association (Usaa) | Systems and methods for live video financial deposit |
JP2010123002A (ja) * | 2008-11-20 | 2010-06-03 | Canon Inc | 文書画像レイアウト装置 |
US8452689B1 (en) | 2009-02-18 | 2013-05-28 | United Services Automobile Association (Usaa) | Systems and methods of check detection |
US10956728B1 (en) | 2009-03-04 | 2021-03-23 | United Services Automobile Association (Usaa) | Systems and methods of check processing with background removal |
US9779392B1 (en) | 2009-08-19 | 2017-10-03 | United Services Automobile Association (Usaa) | Apparatuses, methods and systems for a publishing and subscribing platform of depositing negotiable instruments |
US8699779B1 (en) | 2009-08-28 | 2014-04-15 | United Services Automobile Association (Usaa) | Systems and methods for alignment of check during mobile deposit |
US9129340B1 (en) | 2010-06-08 | 2015-09-08 | United Services Automobile Association (Usaa) | Apparatuses, methods and systems for remote deposit capture with enhanced image detection |
US8326034B2 (en) * | 2010-08-05 | 2012-12-04 | Kuo-Ping Yang | Method of reducing the amount of black in an image |
US8571307B2 (en) * | 2010-11-16 | 2013-10-29 | Hand Held Products, Inc. | Method and system operative to process monochrome image data |
US8600158B2 (en) | 2010-11-16 | 2013-12-03 | Hand Held Products, Inc. | Method and system operative to process color image data |
US20120210229A1 (en) | 2011-02-16 | 2012-08-16 | Andrew Bryant | Color workflow |
US8891864B2 (en) | 2011-02-16 | 2014-11-18 | Apple Inc. | User-aided image segmentation |
US8854370B2 (en) | 2011-02-16 | 2014-10-07 | Apple Inc. | Color waveform |
JP5842441B2 (ja) * | 2011-07-29 | 2016-01-13 | ブラザー工業株式会社 | 画像処理装置およびプログラム |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
US10380565B1 (en) | 2012-01-05 | 2019-08-13 | United Services Automobile Association (Usaa) | System and method for storefront bank deposits |
US8823770B2 (en) * | 2012-01-26 | 2014-09-02 | Meditory Llc | Device and methods for fabricating a two-dimensional image of a three-dimensional object |
US10552810B1 (en) | 2012-12-19 | 2020-02-04 | United Services Automobile Association (Usaa) | System and method for remote deposit of financial instruments |
US11138578B1 (en) | 2013-09-09 | 2021-10-05 | United Services Automobile Association (Usaa) | Systems and methods for remote deposit of currency |
US9286514B1 (en) | 2013-10-17 | 2016-03-15 | United Services Automobile Association (Usaa) | Character count determination for a digital image |
DE102015203628A1 (de) * | 2014-03-31 | 2015-10-01 | Heidelberger Druckmaschinen Ag | Verfahren zur automatischen Prüfparameterwahl eines Bildinspektionssystems |
DE102015203521A1 (de) * | 2014-03-31 | 2015-10-01 | Heidelberger Druckmaschinen Ag | Verfahren zur automatischen Parametrisierung der Fehlererkennung eines Bildinspektionssystem |
US9380312B2 (en) * | 2014-07-14 | 2016-06-28 | Apple Inc. | Encoding blocks in video frames containing text using histograms of gradients |
US9286653B2 (en) * | 2014-08-06 | 2016-03-15 | Google Inc. | System and method for increasing the bit depth of images |
RU2579899C1 (ru) * | 2014-09-30 | 2016-04-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Обработка документа с использованием нескольких потоков обработки |
US10402790B1 (en) | 2015-05-28 | 2019-09-03 | United Services Automobile Association (Usaa) | Composing a focused document image from multiple image captures or portions of multiple image captures |
JP6173542B1 (ja) * | 2016-08-10 | 2017-08-02 | 株式会社Pfu | 画像処理装置、画像処理方法、および、プログラム |
CN107784301B (zh) * | 2016-08-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 用于识别图像中文字区域的方法和装置 |
US10649666B1 (en) * | 2017-05-10 | 2020-05-12 | Ambarella International Lp | Link-list shortening logic |
US11030752B1 (en) | 2018-04-27 | 2021-06-08 | United Services Automobile Association (Usaa) | System, computing device, and method for document detection |
US11143599B2 (en) | 2018-12-03 | 2021-10-12 | Mistras Group, Inc. | Systems and methods for inspecting pipelines using a pipeline inspection robot |
US10783623B2 (en) | 2018-12-03 | 2020-09-22 | Mistras Group, Inc. | Systems and methods for inspecting pipelines using a robotic imaging system |
WO2021150226A1 (en) * | 2020-01-23 | 2021-07-29 | Hewlett-Packard Development Company, L.P. | Determining minimum scanning resolution |
US11803706B2 (en) | 2020-01-24 | 2023-10-31 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for structure and header extraction |
US11900755B1 (en) | 2020-11-30 | 2024-02-13 | United Services Automobile Association (Usaa) | System, computing device, and method for document detection and deposit processing |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61291944A (ja) * | 1985-06-20 | 1986-12-22 | Agency Of Ind Science & Technol | 摺動面用材料 |
JPS62200976A (ja) * | 1986-02-28 | 1987-09-04 | Dainippon Screen Mfg Co Ltd | 高分解能2値化画像出力装置 |
US5056154A (en) * | 1988-11-07 | 1991-10-08 | Sharp Kabushiki Kaisha | Text image data compression system |
US5668646A (en) * | 1990-02-06 | 1997-09-16 | Canon Kabushiki Kaisha | Apparatus and method for decoding differently encoded multi-level and binary image data, the later corresponding to a color in the original image |
US5371810A (en) | 1991-09-27 | 1994-12-06 | E. I. Du Pont De Nemours And Company | Method of determining the interior points of an object in a background |
JP3495743B2 (ja) | 1991-11-06 | 2004-02-09 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
JP2978325B2 (ja) * | 1992-03-31 | 1999-11-15 | キヤノン株式会社 | 画像処理方法及びそれを実現するプリンタインタフェース |
US5680479A (en) | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
JPH06309437A (ja) | 1993-02-26 | 1994-11-04 | Fujitsu Ltd | パターン検査装置 |
EP0811946A3 (en) * | 1994-04-15 | 1998-01-14 | Canon Kabushiki Kaisha | Image pre-processor for character recognition system |
JPH08139933A (ja) | 1994-11-07 | 1996-05-31 | Mita Ind Co Ltd | 画像処理装置 |
US5754312A (en) * | 1994-11-22 | 1998-05-19 | Mita Industrial Co., Ltd. | Method of and apparatus for detecting pixels constituting dotted image area utilizing distance between change points of pixel values |
US6005680A (en) * | 1995-04-04 | 1999-12-21 | Canon Information Systems, Inc. | Method for capturing a document image, a scanner using the method and a document image management system using the scanner |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
JP3720892B2 (ja) | 1995-12-15 | 2005-11-30 | 株式会社東芝 | 画像処理方法および画像処理装置 |
US5956468A (en) * | 1996-07-12 | 1999-09-21 | Seiko Epson Corporation | Document segmentation system |
DE19636949A1 (de) * | 1996-09-11 | 1998-03-12 | Siemens Ag | Verfahren zur Detektion von Kanten in einem Bildsignal |
JP3342373B2 (ja) | 1997-10-08 | 2002-11-05 | 三洋電機株式会社 | マーカー領域獲得方法及び装置、及び領域分割装置 |
US6535254B1 (en) * | 1997-10-31 | 2003-03-18 | Pinnacle Systems Inc. | Method and device for noise reduction |
JP3435334B2 (ja) | 1998-02-23 | 2003-08-11 | 日本電信電話株式会社 | 映像中文字領域抽出装置および方法および記録媒体 |
JPH11331615A (ja) * | 1998-05-14 | 1999-11-30 | Matsushita Electric Ind Co Ltd | 画像圧縮装置 |
US6400844B1 (en) * | 1998-12-02 | 2002-06-04 | Xerox Corporation | Method and apparatus for segmenting data to create mixed raster content planes |
JP4227238B2 (ja) * | 1999-02-19 | 2009-02-18 | 株式会社キーエンス | 画像表示方法、画像処理装置、及び記録媒体 |
US6728391B1 (en) * | 1999-12-03 | 2004-04-27 | United Parcel Service Of America, Inc. | Multi-resolution label locator |
US6753976B1 (en) * | 1999-12-03 | 2004-06-22 | Xerox Corporation | Adaptive pixel management using object type identification |
US6757081B1 (en) * | 2000-04-07 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Methods and apparatus for analyzing and image and for controlling a scanner |
US6847377B2 (en) * | 2001-01-05 | 2005-01-25 | Seiko Epson Corporation | System, method and computer program converting pixels to luminance levels and assigning colors associated with luminance levels in printer or display output devices |
US7116836B2 (en) * | 2002-01-23 | 2006-10-03 | Sony Corporation | Method and apparatus for enhancing an image using a wavelet-based retinex algorithm |
JP3775409B2 (ja) * | 2003-10-29 | 2006-05-17 | ブラザー工業株式会社 | 画像読取装置 |
JP3840471B2 (ja) * | 2003-12-24 | 2006-11-01 | 松下電器産業株式会社 | 原稿読取装置及びこれを備えた画像形成装置 |
US7379687B2 (en) * | 2004-11-12 | 2008-05-27 | Canon Kabushiki Kaisha | Image forming apparatus with first and second opening and closing units |
US7502145B2 (en) * | 2004-12-22 | 2009-03-10 | Xerox Corporation | Systems and methods for improved line edge quality |
JP4487903B2 (ja) * | 2005-11-09 | 2010-06-23 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
-
2000
- 2000-11-09 US US09/709,685 patent/US7672022B1/en not_active Expired - Fee Related
-
2001
- 2001-10-25 EP EP01987198A patent/EP1334462B1/en not_active Expired - Lifetime
- 2001-10-25 WO PCT/US2001/045584 patent/WO2002056255A2/en active IP Right Grant
- 2001-10-25 AU AU2002239437A patent/AU2002239437A1/en not_active Abandoned
- 2001-10-25 JP JP2002556841A patent/JP4098087B2/ja not_active Expired - Fee Related
- 2001-10-25 DE DE60118240T patent/DE60118240T2/de not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101829231B1 (ko) | 2016-07-01 | 2018-02-19 | 위드로봇 주식회사 | 블롭 검출 시스템 및 블롭 검출 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1334462A2 (en) | 2003-08-13 |
US7672022B1 (en) | 2010-03-02 |
DE60118240T2 (de) | 2006-09-07 |
DE60118240D1 (de) | 2006-05-11 |
WO2002056255A3 (en) | 2002-10-31 |
WO2002056255A2 (en) | 2002-07-18 |
AU2002239437A1 (en) | 2002-07-24 |
EP1334462B1 (en) | 2006-03-22 |
JP4098087B2 (ja) | 2008-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4098087B2 (ja) | 画像を分析するための方法及び装置 | |
US6757081B1 (en) | Methods and apparatus for analyzing and image and for controlling a scanner | |
US8515163B2 (en) | System and method for identifying and classifying color regions from a digital image | |
US9769354B2 (en) | Systems and methods of processing scanned data | |
US8749839B2 (en) | Systems and methods of processing scanned data | |
US7221790B2 (en) | Processing for accurate reproduction of symbols and other high-frequency areas in a color image | |
US7330600B2 (en) | Image processing device estimating black character color and ground color according to character-area pixels classified into two classes | |
US8103104B2 (en) | Text extraction and its application to compound document image compression | |
US8115969B2 (en) | Systems and methods of accessing random access cache for rescanning | |
US7433535B2 (en) | Enhancing text-like edges in digital images | |
US20140333971A1 (en) | Systems and methods of processing scanned data | |
US20040096102A1 (en) | Methodology for scanned color document segmentation | |
US20030198381A1 (en) | Image compression method and apparatus, and image coding method and apparatus | |
JP2001297303A (ja) | 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 | |
JP4035456B2 (ja) | 画像圧縮方法、画像圧縮装置 | |
US9338310B2 (en) | Image processing apparatus and computer-readable medium for determining pixel value of a target area and converting the pixel value to a specified value of a target image data | |
US20050200903A1 (en) | Image processing device | |
US20110007334A1 (en) | Between-segment discontinuity reduction for text vectorization using dominant point classification | |
KR20140063378A (ko) | 화상형성장치, 화상형성방법 및 컴퓨터 판독가능 기록매체 | |
JP4228905B2 (ja) | 画像処理装置及びプログラム | |
JP2007235367A (ja) | 画像処理装置、画像処理方法、情報処理装置、プログラム、および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071107 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110321 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120321 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140321 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |