JP2004529404A

JP2004529404A - 画像を分析するための方法及び装置

Info

Publication number: JP2004529404A
Application number: JP2002556841A
Authority: JP
Inventors: ファン，ジアン
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2000-11-09
Filing date: 2001-10-25
Publication date: 2004-09-24
Anticipated expiration: 2021-10-25
Also published as: US7672022B1; DE60118240T2; AU2002239437A1; WO2002056255A2; WO2002056255A3; EP1334462A2; EP1334462B1; DE60118240D1; JP4098087B2

Abstract

スキャンする画像を分析し、画像の少なくとも一部をピクセル毎に分析する方法。画像内の要素を認識された特徴によって特徴付け、所与の特徴と類似または同一の特徴を有する隣接した各画像要素を識別する。一形態では、黒、背景、およびエッジ等、画像要素を特徴付けることができることが可能な少なくとも３つの異なる特徴があることが好ましい。他の形態では、物理的な位置が互いに十分近く画像特徴が互いに十分類似した画像要素をまとめて共にグループ化する。すなわちブロッブに含める。優勢ブロッブの一部としてサブブロッブが見つかる場合がある。更に他の形態では、画像内のエッジを表す画像要素を識別すると共に、少なくとも１つの他のエッジ要素に隣接するエッジ要素も識別する。
【選択図】図３

Description

【技術分野】
【０００１】
本発明は、テキストの識別、画像の強調・圧縮、及びデータスループットの向上などのために画像を分析する方法および装置に関し、例えばスキャンされた画像を分析するための方法および装置に関する。
【背景技術】
【０００２】
画像の電子処理が普及してきた。新聞、雑誌、書籍、及び印画紙等の永久媒体に書き込まれた画像が日々の生活の多くの局面で使用されている。コンピュータアニメーション、デジタルカメラ、ワードプロセッサ及びグラフィックを作成するその他の装置などによって電子的に作成された画像も、かなり一般的になっている。また、永久媒体に書き込んだ画像を、スキャン、デジタル写真撮像等を含む複数の方法で電子形態に変換することも一般的になっている。
【０００３】
永久媒体形態から電子形態に変換された画像は、次いで個別に複製された個々の形態に変換され、いずれの電子画像の表示も元の永久媒体と同じになるように変換される。わずかな違いであっても、人間の目には気付かれてしまうことが多い。また、デジタルで作成された画像は、情報が失われたり変更されたりするような方法で処理されることも時々ある。場合によっては、電子画像を処理して電子画像の外観を向上させることが望ましいこともあり、種々のプロセッサや周辺機器における電子画像の処理方法を変更したり、電子画像の格納方法を変更したりする場合がある。
【０００４】
フラットベッドスキャナやフィードスキャナ等のスキャンによってデジタル画像を作成した場合、スキャン画像は、ビットマップ、ＪＰＥＧファイル、ＧＩＦなど、任意数の異なる形式で記憶される場合がある。記憶形式は、その情報の最終的な目的によって決まることが多い。例えば、ワードプロセッサの文書に組み込まれる情報の記憶方法は視聴覚表現に使用される記憶方法とは異なる場合があり、ウェブページに組み込まれる情報はワードプロセッサの文書に組み込まれる情報よりも様々な形式で記憶される場合がある。また、編集のためワードプロセッサアプリケーションに送信できるのは、全てテキスト形式でのみ受信された情報や、テキストとグラフィックや図の画像とを組み合わせた形式で受信された情報である。
【０００５】
多くの場合、スキャン設定などの画像を最初にスキャンする方法は、スキャン画像の用途で決まる。例えば、画像がテキストだけである場合は、スキャンを低ビット深度及び高解像度に設定することにより、光学式文字認識（ＯＣＲ）、複写および印刷についてスキャン画像が最適になる。グラフィックや図の画像の場合、スキャン設定は、高ビット深度および低解像度に設定することが多い。したがって、テキストのみの文書を後で編集するために電子形態またはデジタル形態にする場合、スキャン設定は低ビット深度および高解像度にすべきである。画像をプレビュースキャンする前、少なくとも何らかの最終スキャンを行う前に、スキャナを３００ｄｐｉおよび白黒に設定すべきである。次いで、得られた画像に対して、傾き補正、自動クロッピングおよびＯＣＲなどの処理を施すことができる。
【０００６】
多くのイメージスキャナは、ユーザインタフェースを備えていて、ユーザが所望の設定を選択できるようになっている。必要な設定を知っていて、その設定を容易に使用することができれば、後で処理を行なうための所望の画像データが首尾よく受信されるはずである。しかしながら、適正な設定が行われなければ、得られるデジタルデータは、そのデータの所望の最終的用途に適したフォーマットにならない可能性が高い。例えば、最終的に編集可能なテキスト文書を得るつもりの画像を、低解像度および高ビット深度でスキャンしても、ＯＣＲを通して適切に処理することができるデータファイルは生成されない。
【０００７】
スキャン画像を元の画像にさらに似せるため、スキャン画像をスキャン後に処理することが多い。デジタルデータ表現の背景は必ずしも常に与えられるものでなく、ゼロ値が割り当てられたり１００％の白を表わす他の数値が割り当てられたりするので、例えば、図またはグラフィック表現として表示することしか意図せずにスキャンされたテキスト文書は、ライトグレーまたはわずかに黄色がかった背景上に表示されることがある。したがって、その画像は元の文書と同じようには見えない。そのような外観を改善するため、画像データファイルを処理して背景を白に近づける場合がある。また、画像データファイルを処理することにより、そのテキストの外観を鮮明にすることもできる。しかしながら、スキャナに正しい設定がなされなかったり、デジタルデータの適切な用途が選択されなかったりした場合は、その画像に対して所望の処理が実行されない場合がある。
【発明の開示】
【発明が解決しようとする課題】
【０００８】
様々なハードウェア、スキャナおよび様々な環境によって、所与の画像について様々なスキャン結果が生成される。例えば、全ての黒ピクセル及び全ての白ピクセルについて、異なる値が割り当てられる場合がある。その結果、ピクセルが白として扱われるか黒として扱われるかに応じて、白または黒として識別されるピクセルも生じれば、グレーの濃淡として識別されるピクセルも生じる。カラースキャナを使用した場合、黒および白を含む検出色は、温度や周囲光の作用に応じて変化する場合がある。全体が白黒の画像は、デジタルデータに変換して、ライトグレーまたはライトイエローを背景にして表示することができる。また、黒テキストの部分は、濃いグレーとして描写される場合がある。従って、画像が黒テキストとして適当に扱われなかったり、画像が適当に処理されなかったりすると、その画像は元の画像と同じように表示されないことがある。
【課題を解決するための手段】
【０００９】
画像を分析および処理するための方法及び装置を記載する。本発明の１以上の態様では、画像または画像の一部の１以上の特徴に基づいて、画像をセグメント化または分離することができる。より簡単に画像内部を認識し、より簡単に画像内の変化を分析して、適当に処理することができるようにする。画像内容を強調する状況を含むいくつかの状況において、より簡単に画像を強調することができるようにする。本発明のうちの１つの一態様では、エッジを際立たせ、すなわち鮮明にすることができ、これによってテキスト認識が容易になり、例えば、画像のカラー部分および白黒部分が強調され、より忠実に再現される。本発明のうちの１つの１以上の他の態様では、画像強調を従来可能であったものよりも均一に実施することができ、例えば共通の特徴を同じ方法または類似の方法で処理することができる。状況によっては、画像処理は、画像データを圧縮する能力を得るのに有効である。
【００１０】
本発明のうちの１つの一態様では、知覚される特徴に従って画像内の要素を特徴付け、所与の特徴を有する隣接した類似要素または同一要素の各々を識別することにより画像を分析する方法を提供する。画像要素を特徴付けることのできる少なくとも３つの異なる特徴が存在することが好ましい。好ましい実施形態の１つでは、類似の特徴または同一の特徴を有する隣接要素をブロッブと呼ばれるグループに、リンク、関連付け、タグ付け、またはその他関連付けする。それ以後、例えばそのグループすなわちブロッブは、他の画像要素とは別に処理される。例えば別個に処理すべき画像部分をセグメント化する能力により、その画像を分析した後に使用されるプロセスに応じたより選択的な強調、より均一なカラー・白黒の扱い、または、画像レンダリングの向上を可能にすることが好ましい。画像は、カメラ等の画像取り込み装置や、Ｗｏｒｄ、Ｐａｉｎｔ、Ａｄｏｂｅ等のアプリケーションソフトウェアを含む広く様々なソースから受信される。
【００１１】
本発明のうちの１つの他の態様では、画像内のピクセルを特徴付けることによってその画像を分析する。各ピクセルは、背景、非背景、カラー、グレー、または黒など、そのピクセルが有している特徴によって特徴付けられる。物理的位置が互いに十分近接しているピクセル同士、及び、画像特徴が互いに十分似ているピクセル同士をまとめてグループ化し、１つのブロッブに含める。好ましい実施形態の１つでは、選択された画像特徴を有する少なくとも１つの他のピクセルと直接隣接しているピクセルだけをまとめてグループ化するように、物理的近接度を設定する。例えば、近接度は８近傍体系を用いて評価することができる。他の実施形態では、特定の閾値要件を満たすピクセルをグループすなわちブロッブに含めるように、「画像特徴」近接度を設定する場合がある。例えば、すべての背景ピクセルは特定の閾値を超える輝度値を有しなければならず、特定閾値未満の輝度値を有するすべてのピクセルには黒または黒エッジとしてラベルを付けなければならない。ピクセルすなわち画像要素を特徴付けるための閾値その他基準の選択は、経験的に決めることができ、画像ソースの影響を受ける場合もある。
【００１２】
本発明のうちの１つのさらなる態様では、複数の基準を用いて画像要素を特徴付けることができる。例えば、１つの基準として、ピクセルを白黒、グレーまたはカラーなどに特徴付けるための閾値等、数値的限界すなわち閾値を用いる場合がある。また、画像要素は輝度値の空間的変化などの２以上の基準を用いて特徴付けることもでき、それらの基準は例えば勾配演算子その他の手段により定められる。輝度値その他の空間的変化は、例えばエッジを表わすピクセルを識別するのに用いられる。
【００１３】
本発明のうちの１つのさらなる態様では、ピクセルをブロッブ及びサブブロッブとして階層的にグループ化する。ブロッブまたはサブブロッブがどんなタイプ（例えば図）であるかの尺度として、そのブロッブまたはサブブロッブ内の所与の特徴を持つピクセル数を選択された閾値と比較することができる。この比較は、ピクセルを特徴付けるときに実施することもできるし、ピクセルのタイプに応じて強調のタイプが異なる場合は、後で強調その他の処理を行う際に実施することもできる。比較の一例は、黒のピクセル、カラーのピクセル、及び、グレーピクセルの数をカウントすることである。サブブロッブ内に比較的多数の非黒（カラー及び／又はグレー）のピクセルが存在した場合、そのサブブロッブは図として分類される。例えば、選択された閾値と比較して比較的多数の黒のピクセルが存在し、カラーまたはグレーのピクセル数がほとんどない場合、そのブロッブのピクセルは、黒ピクセルとして扱われ、黒ピクセルに変換される。たとえば、輝度値がブロッブピクセルの平均輝度値に等しくなるように変更することにより、サブブロッブピクセルを変換することができる。他の例では、サブブロッブ中のピクセルの輝度値を、ブロッブピクセルの輝度値の既知の割合すなわちパーセントの値に変更する場合がある。他の調節も同様に行うことが可能である。
【００１４】
本発明のうちの１以上のさらなる態様では、ブロッブ内のピクセルをグループとして、選択された値または閾値と比較することができる。所与のタイプのピクセルの数が選択された閾値よりも大きい場合は、そのブロッブを図またはグラフィックとして扱い、すなわち特徴付け、所与のタイプのピクセルの数が選択された閾値未満である場合は、そのブロッブを何か別のものとして特徴付けることができる。例えば、あるブロッブがサブブロッブ以外黒であり、サブブロッブ内のピクセル数が少ない場合、そのブロッブは黒のテキストとして扱うことができる。あるいは、ブロッブがカラーまたはグレーである場合、希望に応じてサブブロッブを強調することができる。
【００１５】
本発明の他の一態様では、画像中のエッジを表わす要素を識別し、少なくとも１つの他のエッジ要素に隣接するエッジ要素を識別することにより、画像の要素を処理する。隣接度すなわち空間近接度は、１ピクセル離れであることが好ましい。エッジの認識は、様々な状況で有用である。エッジ検出は、テキスト画像を強調する際に有用である。また、テキストとグラフィックとが混じり合った画像において、図やグラフィックの領域についてエッジ検出をすることは、あるグラフィック領域から隣接グラフィック領域への緩やかな遷移など、比較的緩やかな遷移が望ましい領域を認識するのに有用である。画像にテキストとグラフィックが混じっている場合、状況によっては、テキスト強調のために使用する方法は、グラフィック領域の強調に用いる方法と同じ方法ではないことが好ましい場合もある。例えば、テキストと背景との間のエッジの鮮明化処理は、滑らか又は緩やかな遷移の方が好ましいグラフィック領域のエッジには使用しないことが好ましい。
【００１６】
本発明の他のさらなる態様では、勾配演算を利用してエッジを表わす画像要素を識別し、次いで、分析によって少なくとも１つの他のエッジ要素に隣接しているエッジ要素を判定する。この態様では、所与のピクセルを特徴付ける際、勾配演算によって輝度の空間変化またはその他画像要素基準を考慮する。希望に応じて、ピクセルの特徴付けに、ピクセル特徴の他の関係を用いることもできる。さらに、隣接エッジを識別するステップでは、８近傍体系を用いることが好ましい。隣接エッジ画像要素を一意のラベルまたはポインタで識別し、それらの隣接エッジ画像要素をまとめてサブブロッブなどにグループ化することで、グループとして強調その他の処理が行なえるようにすることが好ましい。好ましい一形態では、アンシャープマスキングを用いてエッジ画像要素を処理することができる。
【００１７】
本発明のうちの１つの他の態様では、少なくとも３つの画像特徴のうちの１つを有する画像要素を識別し、それと同じまたは類似の画像特徴を有する少なくとも１つの他の画像要素に隣接する画像要素をまとめてサブブロッブなどにグループ化する。このグループ化は、少なくとも３つの特徴に従って画像要素が特徴付けられた後に行うことが好ましい。一例では、これらの特徴に、黒、エッジ、及び、背景が含まれる場合がある。他の例では、これらの特徴に、黒、グレー、グレーエッジ、及び、背景が含まれる場合がある。さらに他の例では、これらの特徴に、黒テキスト、グレーテキスト、図またはグラフィック、及び、背景が含まれる場合がある。さらに他の例では、これらの特徴に、白、白エッジ、グレー、グレーエッジ、黒、カラー、及び、カラーエッジが含まれる場合がある。分離したいと考える画像特徴や、所望の特徴を分離または識別するのに用いられる方法などに従って、希望に応じて他の特徴を使用することもできる。同じ特徴または実質的に同じ特徴をもつ画像要素は、例えば同じラベルまたはタグを与えることなどにより、同じものとして特徴付けることが好ましい。同じラベルを有し、同じラベルを有する少なくとも１つの画像要素に隣接する画像要素は、まとめてグループ化し、同じポインタを与える、すなわち割り当てるのが好ましい。
【００１８】
本発明のうちの１つのさらなる態様では、少なくとも３つの画像特徴のうちの１つを有する画像要素を識別する。同じ画像特徴を有する少なくとも１つの他の画像要素に隣接する画像要素をまとめて第１のグループにグループ化する。グループ内の画像要素の数を計算し、選択された閾値と比較する。このような判定により、画像を強調するための実施可能な複数の強調方法の中から選択を行なうことができる。例えば、テキスト文字としてグループ化された画像要素の中には、高感度機器の使用により検出された可能性がある異常を表す画像要素からなる相対的に極めて小さなグループが含まれることがある。異常の小グループを構成する画像要素の数が比較的少ない場合、それらの画像要素を処理して、テキスト文字グループの画像要素に近づけることができる。画像要素のタイプ及びグループサイズに応じて、平滑化、平均化、及び、鮮明化などが、他の処理に含まれる場合もある。
【００１９】
本発明のこれらの態様およびその他の態様については、図面、図面の簡単な説明、及び、好ましい実施形態の詳細な説明と併せてさらに考察する。
【発明を実施するための最良の形態】
【００２０】
図面と併せた以下の記載は、当業者が本発明を製造および実施することができるように、本発明の好ましい実施形態を説明したものである。本明細書に開示する実施形態は、商業的環境で本発明を実施するのに最良の形態だと本発明者が考える実施形態であるが、本発明の範囲内で様々な変更を行なうことができるものと考えられる。
【００２１】
画像を分析し、例えば画像のセグメント化、画像内部部分の認識、画像強調の向上などを可能にし、及び／又は、データ圧縮その他の処理を可能にする方法および装置について説明する。本方法の１つまたは複数によると、例えば複数レベルでの画像の特徴付けが容易になり、画像レイヤまたはセグメントの分解が可能になり、複数のカラー属性を考慮して、エッジ鮮明化、選択的かつ均一な画像強調、カラーおよび白黒の強調、カラーテキストの強調などの画像強調を行なうことが容易になる。より的確な画像レンダリングが可能になり、画像内容に基づく画像強調が改良される。例えば、通常なら白黒のテキスト文書として生成されてしまうことがあるカラー異常を除去または修正することにより画像処理も改良することができ、それによってカラーインクカートリッジの使用が低減され、インクジェットプリンタでの白黒文書の印刷が効率的になる。本発明のうちの１つの一応用形態は、画像の特徴付けを利用することで、スキャナから得られた画像などを、テキストのみ、グラフィックまたは図のみ、及び、テキストとグラフィックの混合のうちのいずれか１つとして識別することができる。次いで、かかる情報は、スキャナ設定や画像強調に使用されるパラメータを決めるのに使用することができ、他の用途に用いることもできる。
【００２２】
画像をスキャン及び分析する方法のコンテクストで、特定用途を有する画像を分析し、テキストおよびグラフィックを高い信頼性で識別するためにスキャン画像を分析する方法および装置について説明する。テキストの適切な識別は、スキャン画像から得られたデータが高解像度かつ低ビット深度などの最も望ましい形態になることを保証することに関連する。画像データが最も望ましい形態でない場合、望ましい設定のスキャナで画像を再スキャンすることもできるし、あるいは、画像データは処理によって望ましい形態にすることができる形態であってもよい。また、画像の適切な識別は、スキャン画像から得られたデータが周辺装置への出力や特定用途における後の処理について確実に最も望ましい形態になっていることを保証することにも関連し、逆にいえば、そのデータがそのデータを最適に処理することが可能な周辺装置またはアプリケーションに確実に送信されることを保証することにも関連している。同様の理由から、グラフィック画像の適切な識別も重要である。例えば、図のデータは、表示または出力する前に強調または修正を施して、確実にそのデータの全ダイナミックレンジを利用できるようにする場合がある。
【００２３】
画像および画像データと言及した場合、それらは、文書その他の媒体上にある画像のすべての部分に対応することも、任意の部分に対応することもあると考えるべきである。例えば、多くの文書には、テキストのみ又はグラフィックのみなど、１種類の画像しか含まれない。また、それら２つの混合が同一ページ上に含まれる場合もあり、例えばページのある領域にグラフィック画像があり、同ページの他の領域にはテキストしかないという場合もある。さらに、画像内にテキストがグラフィック画像の一部として現れることもあり、ユーザは、テキスト／グラフィックの画像を編集用の純粋な黒テキストなどの他の形態に変換したいと思わない場合がある。従って、画像および画像データと言及した場合、それらは、文書その他の媒体の中身のすべての部分に対応することも、任意の部分に対応することもある。本発明の１以上の態様は、希望に応じて、画像の全ての部分に対しても、画像の一部のみに対しても機能することを意図している。
【００２４】
本発明の一態様によれば、画像を分析して特徴付けるためのシステム３０（図１）は、分析すべき画像データまたはその画像データの一部を受信して処理するためのプロセッサすなわちＣＰＵ３２を備える。画像は、記憶装置装置などから得られる既存の電子ファイル、スキャナその他の撮像装置、デジタル的または合成的に画像を作成するためのアプリケーションプログラムなどを含む多数のソースから受信される場合がある。プロセッサは、ユーザが他の用途を選択していなければ、すなわちデフォルトとして他の用途を設定していなければデフォルトでデータを記憶する記憶装置を備え、画像データをリモートで記憶することができる。画像データは、ネットワークまたは通信リンク３４を介して表示装置、閲覧装置または投影装置３６に送信することができ、閲覧装置はカラーモニターや白黒モニターである場合もあるし、その他の閲覧装置である場合もある。キーボード３８またはマウス等他の入力装置を用いて、コマンドまたは入力データをプロセッサ３２に送信することができる。例えば、キーボードは、ネットワーク３４を介してプロセッサ３２に接続されたスキャナ、すなわちネットワーク３４を介してプロセッサ３２と通信するスキャナ４０の設定を選択または確認するのに使用され、あるいは、データの１以上の用途を選択するために使用される。また、このシステムは、ネットワーク３４から受信する画像その他のデータに関するプリンタまたはその他出力装置４２をさらに含む。スキャナとプリンタは一体型ユニットにすることもでき、例えば複写機としても機能するような一体型ユニットにすることができ、さらに他の構成も可能である。
【００２５】
スキャナ４０には、従来のフラッドベッドスキャナ、連続フィード式スキャナ、シートフィード式スキャナ、またはスクロールフィードスキャナなどを用いることができ、文書などの媒体上の情報を検出できるものであれば他の媒体移動装置でもよい。媒体からデータを取得する形態は任意の数の形態をとりうるが、本発明の説明では、光を用いて文書上の画像を表すデータを取得する文書スキャナを使用した例を挙げる。
【００２６】
本発明の方法の１つまたは複数によって利点が得られるアプリケーションすなわちアプリケーションプログラムには、画像セグメントに対して処理を行なう手順、画像強調を行なう手順、データ圧縮を行なう手順、光学文字認識を行なう手順、及び、写真処理を行なう手順が含まれる。本発明の一態様によれば、画像を別個の部分にセグメント化することにより、各画像セグメントに対して異なる処理を適用することができる。たとえば、画像の黒テキスト部分の強調をエッジの鮮明化に集中させることにより、テキスト文字が均一に黒くなる。テキスト文字の内部を認識して評価することにより、それらの内部が確実に適切に処理されるようにし、その画像が適切に表示される可能性を向上させることができる。このような内部の認識は、通常ならグラフィック画像として認識されてしまう可能性がある特大サイズのテキスト文字を適切に特徴付けるのに有用である。同じ画像のグラフィック部分の強調は、グラフィック部分内部の遷移の平滑化に集中させることができる。また、セグメント化により、従来の傾き補正ルーチンで認識できる程度よりも大きく歪んだテキストの認識も可能になる。また、従来認識されているスペーシングやその他標準的表示形態に従わないテキストの適切な認識も向上する。また、セグメント化によって、同じ画像内に色のばらつきがある場合の画像の適切な認識も向上する。
【００２７】
本発明のうちの１つの１以上の態様を用いると、画像の強調を容易に行なうことができ、テキスト、グラフィック及び背景特徴などのページ内容に基づいて強調を実施することができる。テキスト強調をもっと簡単に行なうことができ、テキスト領域をもっと簡単に認識し、白の背景やテキスト文字の内部などからあらゆる異常な色情報を取り除くことができる。テキスト強調によって、テキスト文字がきれいに見えるようになり、光学文字認識による認識率を上げることができる。
【００２８】
エッジを認識する能力および内部画像部分を認識する能力を向上させることによって、エッジおよび内部の強調も容易になる。特に、エッジを別個に分離することができる場合、エッジの鮮明化も向上する。また、内部領域も個別に処理することができ、例えば、小さな文字だけでなく大きな文字であっても所与の領域については、結合度分析によって該領域内で同様の特徴をもつ画像要素がすべてまとめてリンクされる。例えば内部グラフィック領域がある領域の全部として識別できる場合、その内部グラフィック領域の望ましい強調方法を適切に制御する、すなわち判定する能力も向上する。
【００２９】
テキストの適切なセグメント化および識別によって画像のデータ圧縮も向上し、特に黒テキスト文書の場合に向上する。黒文字は二値情報として容易に格納することができる一方、他のもっとデータを大量に使うセグメントは重要な情報を失うことなく格納したままにしておくことができる。
【００３０】
画像処理の後ＣＰＵ３２（図２）が画像ファイルを送信することが可能な宛先は複数あり、それらの宛先には、画像ファイルを汎用その他のワードプロセッサ４６で処理可能なテキストその他の編集可能なデータファイルに変換するためのＯＣＲアプリケーション４４や、編集可能なテキストだけでなく図、記号、その他画像ファイルなども受信することが可能なＭｉｃｒｏｓｏｆｔＷｏｒｄ４８などが含まれる。ＣＰＵ３２は、画像ファイルをＭｉｃｒｏｓｏｆｔＰａｉｎｔ、ＡｄｏｂｅＰｈｏｔｏｓｈｏｐ等の画像処理プログラム５０に送信することも可能である。他のアプリケーションプログラムとしては、ウェブオーサリングツール５２、ＰｏｗｅｒＰｏｉｎｔ等のプレゼンテーションプログラムなども含まれる。これらの宛先アプリケーションには最適な入力フォーマットがあり、ＣＰＵは、自動的に、あるいはユーザの入力に基づいて、アプリケーションプログラムに渡される画像データファイルが適切な構成になるようにスキャナ４０を適当に設定することが好ましい。ＣＰＵ３２は、画像に対応するデータがアプリケーションプログラムで最適に処理されるのに必要な適切な解像度およびビット深度で得られるように、スキャナ４０を設定することが好ましい。ＣＰＵ３２は、ユーザの入力に基づいて適切な設定を施すこともできるし、本明細書に記載する画像分析やその他の手段に基づいて適切な設定を施すこともできる。あるいは、スキャナには想定されるあらゆる画像フォーマットに対応する最適データ取得を設定しておき、ＣＰＵ３２で画像データファイルを処理してアプリケーションプログラムが受け入れられる最適フォーマットに変換することもできる。例えば、画像ファイルの設定は、ＯＣＲアプリケーションについてはテキストだけに最適化し、写真アプリケーションについてはテキストを適当なカラー情報及び／又はグレースケール情報を有する画像として、又は、適当なカラー情報及び／又はグレースケール情報を有する写真とテキストの混合として最適化することができる。
【００３１】
本発明の一態様によるプロセスでは、画像または画像の一部をＣＰＵ３２が受信する。上述したように、「画像」という用語を使用した場合、それは分析すべき文書またはその他の媒体上の画像すべてを指す場合もあるし、その画像の一部を指す場合もある。また、画像を表わすデータは、記憶装置、スキャナ４０、通信リンクなどを含む任意数の手段から取得することができる。さらに、画像データファイルは、セグメント単位で取得することもできるし、検討中の画像全体からなる１つの完全なファイルとして取得することもできる。画像の取得が済むと、その画像は希望に応じて処理および分析することができる。
【００３２】
画像分析および特徴付けステップについてさらに詳細に述べると、画像を分析し、その画像をテキストのみ、図またはグラフィックのみ、あるいはそれらの混合として特徴付けるための処理の一形態では、画像データを受信した後、その画像データをピクセル単位で特徴付けることが好ましい。好ましい一実施形態では、画像を複数の領域または画像セグメントにセグメント化し、他の実施形態では、それらの画像領域を分析して、ブロッブ、サブブロッブ等の階層に従ってピクセルを識別する。さらに他の実施形態では、画像領域を分析してエッジ部分をその画像の他の領域とは別個に識別することで例えばエッジの強調を可能にし、さらに他の実施形態では、画像を分析してその画像の比較的広い部分を形成するその画像の内部領域を識別する。一実施形態では、何らかの適当な基準を用いて各ピクセルを白、黒またはカラーとして特徴付け、他の実施形態では、各ピクセルを白、白エッジ、グレー、グレーエッジ、黒、カラーまたはカラーエッジとして特徴付ける。一実施形態において、画像の分析および特徴付けは、テキストのみの画像を識別することを１つの目的として実行される。他の状況では、画像の分析および特徴付けは、画像の強調、画像の圧縮、あるいは、後続処理のための画像のセグメント化を目的として実行される。
【００３３】
また、ピクセル画像データを分析することで、ピクセル間の適当な関係を識別し、特に互いに隣接するピクセルを識別する。次いで、好ましい一実施形態では、互いに隣接していて黒、白、カラーなどの同じ特徴をもつピクセルを、グループ化し、集め、あるいは互いにリンクさせ、ブロッブと呼ばれることがある結合領域として識別する。好ましい実施形態において、関連性のある画像部分の特徴付けは、強調、セグメント化、その他の目的に関して、関連性のある画像部分が同じまたは類似の特徴を有しているであろうこと、即ち、それらの画像部分が少なくともまとめて扱える程度に十分類似しているであろうということを認識し、それを利用する意図がある。例えば、黒テキストのみの領域は、ピクセルが白か黒になっていて、あるいはそれら両極端の間に比較的急激なすなわち急傾斜の遷移があり、黒領域および白領域の強度または輝度が比較的均一になっているという共通の特徴がある。一方、図やグラフィックの領域は、グレースケールで表現され、実質的にグレーの領域が多く、明暗の遷移が比較的滑らか又は緩やかであり、黒ピクセルおよび白ピクセルの集合が比較的少ない。したがって、好ましい実施形態では、ピクセルの内容を分析するだけでなく、隣接ピクセルおよび近傍ピクセルとの関係についてもピクセルを分析する。
【００３４】
本発明の好ましい一態様における追加ステップとして、様々な特徴を追加して、それらをカウントしたり、その他の方法で評価することにより、それらの様々な特徴の各々に対応する相対的大きさ、パーセンテージ、又はその他の基準を判定することができる。例えば、黒ピクセルの数、白ピクセルの数、およびグラフィックピクセルの数をカウントし、黒ピクセルの数がソフトウェアその他に設定された遮断値すなわち閾値に応じて決まる閾値よりもはるかに大きい場合、その画像は黒テキストとして特徴付けることができる。例えば、好ましい一実施形態では、黒領域および白領域の数が画像の９５％を占める場合、その画像は黒テキストとして特徴付けられる。黒領域および白領域の数が画像の５％未満であった場合、その画像はグラフィックまたは図として特徴付けることができる。黒領域および白領域の数が５％〜９５％である場合、その画像は混合として特徴付けることができる。設計者の判断で他の閾値および特徴付けを使用することもでき、それらはスキャンまたは分析する予定の画像のタイプや所望の許容公差すなわちパーセンテージなどによって変わる場合もある。前記５％および９５％の閾値すなわち遮断値は、設計者が好ましい基準として選択した値に応じて異なる場合もある。
【００３５】
画像が適切に特徴付けられると、ＣＰＵ３２には、その画像をさらに処理するための有用な補助的情報が得られる。例えば、一実施形態では、次に、プロセッサは例えば画像の内容に基づいて画像を強調することができる。グラフィック画像の場合、プロセッサは、セグメント間すなわち領域間の遷移を平滑化することができる。テキスト領域の場合、プロセッサは、光学文字認識のため、ピクセルをグレーレベルまたは白黒に変換することができる。プロセッサは、任意の色属性を除去することを含めて、エッジを鮮明化し、背景を白のみにしたり、比例的に白にしたり、テキスト文字を黒のみにしたり、比例的に黒にしたりすることができる。その結果、カラーアーチファクト、すなわちノイズや背景などの影響によって黒テキスト画像中に生成されたカラーデータを除去することができる。次に、プロセッサはその画像を印刷または格納することができる。この強調されたテキスト画像を用いると、ほとんど黒に近いテキスト文字をカラーカートリッジではなくブラックカートリッジを用いて印刷することができ、画像をインクジェットプリンタで効率的に印刷することができる。
【００３６】
他の応用例として、プロセッサは、画像の分離されたセグメントに対して処理を行うことができる。例えば、テキストを強調する場合、個々のテキスト文字を処理して、それら文字内部を均一にし、実質的に黒だけにすることで、外観を改善したり、スループットを向上させたりすることができる。テキスト文字の外観は、その内部を均一な黒にして外観がより均一になるようにすることで改善される。スループットは後の処理または印刷の際に向上させることができ、例えば、白の背景に黒の文字を表現するデータを２値形態に簡略化することにより、黒のテキストファイルであればデータファイルが圧縮される。望むなら、色情報の圧縮は別の方法で行なうこともできる。
【００３７】
他の例では、ＣＰＵは、スキャン中の画像の種別に基づいて最適な設定をスキャナ４０に適用する場合がある。次いでスキャナが最終スキャンを実行し、その際画像データが再分析される場合もされない場合もあり、最終スキャンによって得られた画像データがＣＰＵに受信される。次いでＣＰＵは、その画像データを格納するか、又は所望の宛先に送信する。
【００３８】
本システムは、画像を分析して特徴付けることによって、その画像が所望の方法で処理されレンダリングされることをより確実にすることができる。スキャンプロセスの例の場合、この適切な特徴付けによって、ＣＰＵは適当なスキャン設定を使用でき、結果得られる画像データが最終的な宛先にとって最良の形態になる可能性を向上させることができる。画像の特徴付けはユーザ入力なしで行うこともでき、その場合データの適切な取得がさらに迅速に実行できるようになる。
【００３９】
画像分析ステップ１０４を詳細に考察すると、画像ストリップ１１２（図３）は輝度形態に変換されている（画像データには、破棄する必要のない何らかの色情報や輝度情報が含まれる場合があると考えられる。しかしながら、説明の都合上、画像データは輝度のみの形態に変換されているものと仮定する）。
【００４０】
好ましい実施形態では、次に、画像データをライン単位で処理し、好ましくはピクセル単位で処理し、各ピクセルを分析して特徴付け、可能であればピクセルをグループ化する。画像データの背景レベルをチェックして、純粋な白および純粋な黒に対応するデジタル値を設定することができる。これらの値は、画像全体にわたって固定の値にすることもできるし、画像全体にわたって動的に設定（１１４）することもできる。好ましい一実施形態では、ＣＰＵは、ダイナミックレンジおよび白点値を受信して、何を白とみなすかについての閾値および何を黒とみなすかについての閾値を設定（１１４）する。この好ましい実施形態の場合、閾値には、Ｋｉｔｔｌｅｒ−Ｉｌｌｉｎｇｗｏｒｔｈアルゴリズムによって判定されるような、白ピクセルに対応する値を０．９５倍したものを用いることができ、あるいは一般的に、１ライン内のピクセル又は一連の隣接ライン中のピクセルのデジタル値の最大値または最小値を用いることもできる。間のデジタル値は様々なグレースケール値に割り当てることができ、同様の閾値判定を用いて、Ｋｉｔｔｌｅｒ−Ｉｌｌｉｎｇｗｏｒｔｈアルゴリズムによって判定されるような、白ピクセル値を０．５〜９．５倍した何らかの値などをグレー値に割り当てることができる。次に、黒を０．５以下の何らかの数にすることができる。あるいは、経験的な要素などに基づいて、別の閾値も容易に設定することができる。
【００４１】
ＣＰＵは、勾配演算子１１６を用いて、所与のピクセルがエッジを表しているか否か、またはエッジに直に隣接しているか否かを判定する。プロセッサは、データが明から暗へ変化しているか、それとも暗から明へ変化しているかをチェックし、その変化の量および方向に関する表示を生成する。この変化の方向は、データが明から暗へ変化するものであるか、それとも暗から明へ変化するものであるかを示すものである。次に、プロセッサは、その変化がエッジを表現するのに十分な程度大きいものであるか否か、または、その変化が写真やグラフィック画像に現れるような比較的緩やかな変化を表わすのに十分な程度小さいものであるか否かを判定する。
【００４２】
次にプロセッサは、プロセッサによって設定された閾値（１つ又は複数）および分析中のライン内にあるピクセルに対応する勾配値を用いて、各ピクセルを特徴付ける（１１８）。プロセッサは、閾値と、ピクセルがエッジ上にあるか否かを示す指示とを用いて、各ピクセルを白、黒、グレー及びカラーのうちのいずれとして特徴付けるべきかを判断する。ピクセルが閾値を超えている場合そのピクセルは白として特徴付けられ、ピクセルがスペクトルの反対端にあるデジタル値である場合（グレーの閾値未満である場合）そのピクセルは黒として特徴付けられる。ピクセルが間にあって、勾配値が小さい場合（勾配閾値未満、例えば３０未満の場合など）や、その他勾配変化を示している場合、そのピクセルはグレースケールまたはカラーとして特徴付けられる。次いで、望むならば、各ピクセルの特徴を勾配値と共に格納する。さらに、各ピクセルに４つ以上の値のうちの１つを割り当てることができ、すなわち、黒、白、グレー、カラーの他に中間値を割り当てることができる。各ピクセルに付けることができるラベルには、例えば、ダークグレー、ライトグレー、黒、白、カラー、グレーエッジ、カラーエッジ、その他の有用な特徴などが含まれる。それらのラベルや特徴及びそれらの数は、最終的に使用される特徴や、データに関する望ましい量および精度によって決まる。
【００４３】
ピクセルを分類した後、プロセッサは、ピクセル間の結合度すなわち関連性を分析（１２０）することにより、同じ特徴または１種類のピクセルで表現できる程度十分類似した特徴であるものとして特徴付けられたピクセルの結合範囲すなわち範囲を識別することが好ましい。例えば、１以上のピクセルが同じラベルまたは同等のものとして特徴付けられる程度十分類似したラベルをもつ所与のピクセルに直に隣接している場合、それらのピクセルは１つの領域タイプまたは特徴にグループ化、区分または結合することができる。例えば、黒のラベルをもつすべての隣接ピクセルは、特に白のラベルをもつ隣接ピクセルがかなりの数存在する場合、最終的にテキストとして識別される。しかしながら、それらの黒のラベルをもつピクセルがグレースケールレベルの領域の中にある場合や、様々なグレースケールレベルの領域に囲まれている場合、それらの黒のラベルを持つピクセルおよびグレースケールレベルのピクセルは、グラフィックまたは図の領域として識別され、グラフィックテキストとして識別される可能性もある。この分析は、個々のピクセルの統計分析に基づくのではなく、領域の統計に基づいて実施することが好ましい。次いで、それらの領域に、例えばテキスト及びグラフィック、何らかのその他有用な特徴など、その領域がどのように特徴づけられたかを示すタグその他の適当な記録を付けることが好ましい。結合度の処理はピクセルの分類とほぼ同時に実施することができ、望むならばリアルタイムで実施することもできる。あるいは、望むならば、結合度の処理は別のプロセスまたは別の方法で別個に行なうこともできる。
【００４４】
次にプロセッサは、結合度分析で得られた情報を用いて、各領域またはブロッブを特徴付ける（１２２）。次にプロセッサは、各領域のテキスト、グラフィック、またはその他の特徴の相対数を表にし、合算し、あるいは他の方法で明らかにする。画像は、希望に応じて処理または格納することができる。例えば、画像の用途すなわち宛先が分かっている場合、画像の処理は完了する場合がある。画像を強調したい場合、テキスト領域のエッジを鮮明化して、テキスト文字を真黒にすることができる。望むならば、カラー領域を平滑化し、何らかのカラー操作を施すこともできる。テキスト及びグラフィックの領域を圧縮することもできる。
【００４５】
ＯＣＲのため画像をスキャナに送信したい場合、後述するようにスキャナがＣＰＵによって制御されていれば、プロセッサは画像処理をより細かく制御することができる。例えば、プロセッサは、画像分析を続けるべきか否か、または画像データをユーザインタフェースに直接送信すべきか、それともさらに処理すべきかを、リアルタイムで判断することができる。例えば、画像ストリップ１１２の分析によってその画像がテキストのみ又はグラフィックのみであることが判明した場合であっても、引き続きページ分析を行い、その画像の残りの部分が他のタイプのピクセルを相当数含んでいるか否かを判定することが好ましい。画像全体の分析によって、他の分析であればテキストだけの画像とみなされる画像の終わり付近に相当量のグラフィックが含まれることが判明した場合、その画像は混合として特徴付けられる。同様に、画像全体の分析によって、他の分析であればグラフィックだけとみなされる画像の終わり付近に相当量のテキストが含まれることが判明した場合も、その画像は混合として特徴付けられる。反対に、画像がすべて１種類からなる場合、またはほぼすべて１種類からなる場合、その画像はその種類として特徴付けられ、プロセッサは処理を継続する。例えば、プロセッサは、適当な設定で最終スキャンを行ったり、画像データを適当な宛先へ送信することができる。スキャンが最初および最後のスキャンであった場合、プロセッサは、画像データを変換または処理して、選択された宛先すなわち適当な宛先について適した形態にすることができる。例えば、画像データはＯＣＲアプリケーションで処理するためのテキストだけのフォーマットに変換することができ、あるいは、グラフィックに変換した場合は、それをグラフィックアプリケーションやフォトアプリケーションに送信することができる。
【００４６】
スキャンによって得られる画像の例において、スキャンの初期にプロセッサがその画像を混合であると判定した場合、即ち、その画像がテキストとして特徴付けられた相当量のピクセル及びグラフィックとして特徴付けられた相当量のピクセルを有することが判定された場合、プロセッサは、その画像全体を混合として即座に特徴付け、画像分析を停止することができる。画像をストリップまたはセグメントで分析することによって、プロセッサにそのような初期判断を行なう能力を持たせることが容易になる。あるいは、例えばプロセッサが他の分析であればグラフィック画像とみなされる画像内にあるテキストブロックを分離する能力を有している場合、プロセッサは、処理を継続する、すなわち他の処理を行なうこともできる。
【００４７】
本発明のうちの１つの好ましい一形態では、画像分析に画像セグメント化プロセスが含まれ、このプロセスによって画像の一部をテキストだけのセグメント、写真や図だけの部分又はその他の用途として識別または特徴付けることができる。例えば、この画像セグメント化により、画像を、テキスト、グラフィック及び図からなる複数の結合要素、並びに向きやレイアウトとは無関係の背景に分割することが可能になる。また、このセグメント化は、循環バッファを用いてラスタスキャンモードのデータ入力／出力に対して実施することもできる。好ましい実施形態において、この画像分析は、ピクセル属性および相互結合度を用いて、向きおよびレイアウトとは無関係のセグメント化を実現する。
【００４８】
画像分析の好ましい一形態において、本プロセスは、ピクセル分類、階層的結合要素（ＨＣＣ）分析、並びに領域分類又はブロッブ分類と呼ぶ３つの逐次的ステップを用いる。これらの各ステップについてこれから説明する。
【００４９】
ピクセル分類は、好ましくは、画像特徴を識別または使用して画像の異なる部分を区別するステップである。グレースケール形態で画像を分析する好ましい一実施形態では、それらの特徴を白黒値、エッジ要素およびバランスで表現し、バランスのことをグレーと呼ぶ。画像にカラーデータが含まれる一実施形態では、各ピクセルを特徴付けるのに使用される特徴を、黒、白、白エッジ、グレー、グレーエッジ、カラー、およびカラーエッジにすることができる。他の特徴または画像特徴を用いて画像部分を区別することもできるが、通常実施する際に直面するであろう画像の多くについて、それらが特に適していると考えられる。
【００５０】
グレースケールでスキャンした画像の場合、明るい背景上の各種フォントサイズの黒テキストは、比較的少数の離散的曲線でモデル化することができ、図４はそのような曲線を示すものであり、この図は明るい背景上にモデル化した黒テキストのプロファイルである。曲線１２４は一次元プロファイルを表している。図４のプロファイルは、４つのセクションに分割することができる。すなわち、
ライン１２６（白閾値）を超える輝度を有する白背景、
勾配領域または垂直線領域１２８として特徴付けられた遷移セクション、
ライン１３０（グレー閾値）未満の輝度を有する内部黒部分、及び、
ライン１２６とライン１３０の間の輝度を有するグレーセクション
である。比較的小さなフォントサイズ（例えば画質およびスキャン解像度に応じて、８ポイント未満など）のテキストは、内部黒部分がわずかであるか又はまったくない状態である遷移のみの領域として特徴付けることができる。好ましい実施形態では、Ｋｉｔｔｌｅｒ−Ｉｌｌｉｎｇｗｏｒｔｈのヒストグラムベースの閾値アルゴリズム（J．KittlerおよびJ．Illingworth著「Minimum Error Thresholding」（Pattern Recognition, Vol.19,No.1, 41〜47, 1986）に記載されている）を用いて適当な白閾値を見つけ、その白閾値を半分にしたものでグレー閾値を表わす。遷移エリアは、閾値を約３０に設定して、勾配ノルム（図４の場合｜ｓ（ｉ＋１）−ｓ（ｉ−１）｜で計算される）によって識別することができる。図４の例では、白閾値が約２３０に設定され、グレー閾値が約１１５に設定されている。
【００５１】
図４では輝度および勾配（輝度値間の遷移）の量子化の間にいくつかの重複が発生するため、遷移エリアでは、ピクセル特徴がどのように確定されるかに応じて、ピクセルが一種別または別の種別に特徴付けられる可能性があることに留意されたい。好ましい一実施形態では、大勾配を有するグレーピクセルは、黒テキストに属する可能性が極めて高いので、黒ピクセルと共にグループ化する。テキストがグラフィックオブジェクトと結合されてしまう可能性を低らすため、大勾配を有する白ピクセルは白ピクセルと共にグループ化する。大勾配を有する黒ピクセルの特徴付けは、大半は強調の問題である。好ましい一実施形態では、それらのピクセルを黒ピクセルとして特徴付ける。後述する他の好ましい実施形態ではグレーエッジや白エッジなどの独自のラベルを大勾配グレーピクセルに割り当てることもできるが、基本的な黒テキスト分析の場合、多くの用途について、「白」、「黒」、および「グレー」のラベルで十分である。
【００５２】
二次元画像または他の画像部分を評価する場合にも、図４のプロファイルと同様のプロファイルを作成し、同様の閾値を用いてピクセルを特徴付けることができる。好ましい一実施形態において、ピクセル分類方式は数１で表すことができる。ただし、Ｔ_wおよびＴ_g＝０．５・Ｔ_wはそれぞれ白閾値およびグレー閾値であり、‖∇Ｙ‖＝√（Ｇ² _i＋Ｇ² _j）は、図５に示す２つの３ｘ３ソーベル演算（Rafael C.GonzalezおよびPaul Wintz著、Digital Image Processing(second edition, Addison-Wesley, Reading,MA,1987)に記載）１３２および１３４を用いて計算された勾配ノルムであり、Ｔ_eはエッジ閾値である。
【００５３】
【数１】

【００５４】
例えば、Ｔ_eの値は約５０でよく、４０などのように５０未満にすることも、５０よりも大きくすることもできる。ラベル「白エッジ」および「グレーエッジ」は、内容ベースの強調を行なうためのものである。セグメント化のため、「白エッジ」のピクセルに「白」を割り当て、「グレーエッジ」のピクセルに「黒」を割り当てることもできる。
【００５５】
輝度だけの方法は、カラー画像にも使用することができ、複合文書圧縮のためのテキスト／非テキストレイヤ分離等の目的に有用な結果を得ることができる。しかしながら、テキスト強調目的の場合、黒テキストの識別を先に実施することが好ましい。カラー画像の場合、測定基準に彩度を使用する。ＹＣｒＣｂ色空間を使用した場合、式：彩度＝√（Ｃ² _r＋Ｃ² _b）から彩度が計算される。このカラー測定基準は計算が容易であるにもかかわらず、ＣＩＥＬＡ^＊Ｂ^＊色空間で使用される式：彩度＝√（（Ａ^*）²＋（Ｂ^*）²）から計算される彩度と極めて類似した結果が得られる。輝度および彩度を用いたピクセル分類方法は、図６に示す式２を特徴とする。ただし、Ｔcは彩度閾値である。測定基準に彩度を用いてカラー画像を処理する場合、Ｔcは例えば約１５にすることができる。このピクセル分類すなわち画像分析は、Ｔcを２５５に設定することにより、輝度だけの属性に対して機能させることができることに留意されたい。これらの閾値によると、多くの用途について適当なピクセル分類を行なうことができる。しかしながら、例としてあげた閾値はすべて、所望の結果を得るために高く調節することも低く調節することも可能であり、それでも本発明の利点は得られる。処理要素、画像情報などを少なくしたり、それらを強調したりするため、閾値の多くは、要望に応じて例えば５％または１０％、あるいはそれ以上、上下に調節することができる。例えば、エッジ閾値などのように、いくつかの例で使用されるもっと高い閾値は、画像が比較的高品質でない限り、テキストや文字のエッジ等の特定の画像特徴が容易に検出されないようにする意図がある。当業者であれば、閾値の変更が画像分析にどのように影響するか分かるであろう。また、閾値を一方の領域に含めるか他方の領域の方に含めるかの違い（例えば、大なり、大なりイコール、小なり、小なりイコールなどのうち、いずれの関係を使用するか）は、全体としては比較的小さな影響だと考えるべきである。
【００５６】
結合要素分析（階層的結合要素（ＨＣＣ）分析）では、十分に類似しているとみなすことができる隣接画素に、同じラベルまたは識別を与える。好ましい一実施形態では、例えば白の隣接ピクセルに、すべて同じラベルを与え、すなわち、すべて同じものとして特徴付ける。図７に示すような８近傍体系を使用し、色の略記および番号を用いて各ピクセルの特徴および識別を表すことが好ましい。３つの黒（Ｂ）ピクセル１３６が互いに隣接し、２つの白（Ｗ）ピクセル１３８が互いに隣接し、２つの赤（Ｒ）ピクセル１４０が隣接し、２つのグレー（Ｇ）ピクセル１４２が互いに隣接している。二値画像の場合、複数のピクセルから図８に示すような高レベル視覚オブジェクトを形成する際には２ラベル結合要素分析が優れていて、この図では、元画像１４６をもとにして、「２」というラベルを付けた結合要素が文字「ａ」に対応し、「１」および「３」というラベルを付けた結合要素が背景すなわち白に対応している。
【００５７】
しかしながら、ピクセルのカテゴリが３以上ある分類方法の場合は、２つしかラベルを使用しない結合度分析では断片化が生じてしまう可能性がある。画像部分の断片化は図９に見ることができる。図９では、１つの文字１４８が３２個の結合要素から構成されている。これは、セグメント化および強調を望むほど有用ではない。文字全体の認識は、３以上のカテゴリすなわち特徴に従って画像要素を特徴付けることにより行なうことができ、例えば画像要素に関するラベルを２以上のレベルに有することなどにより行なうことができる。それらのレベルは、階層的結合要素とみなされる。
【００５８】
好ましい一実施形態では、粗から密などの階層形態に分類されたピクセルグループ間の空間的関係を特徴付けるため、階層的結合要素分析を用いる。階層的結合要素は、画像の一部に適用可能なクラスまたはラベルに部分的に基づくことが好ましい。多くの現在のアプリケーションにおいて、画像中の背景には、例えばグラフィックと画像の残り部分、グラフィックとテキスト、アルファベット等の文字と背景など、可視対象物同士を分離する空間的区切りとしての働きがある。次に、背景の使用または認識、および背景分類の割り当てによって、少なくとも２レベルの結合要素の階層が得られる。第１のレベルでは、ピクセルを、「背景」と「非背景」など、２クラスのうちの一方に分類することが好ましい。このレベルにある結合要素は、リージョンまたはブロッブと呼ばれることもあり、以下ではブロッブと呼ぶことにする。２つの隣接ピクセルが「背景」または「非背景」という同じカテゴリ（同じ分類）に属している場合、それらのピクセルは同じブロッブに属する。第２のレベルでは、この実施形態の場合、背景ピクセルおよび非背景ピクセルを両方とも複数のサブクラスにさらに分割し、分類方法に応じて例えば「黒」、「グレー」、「グレーエッジ」、「カラー」、「カラーエッジ」などに分割する。このレベルの結合要素はサブブロッブと呼ばれる。換言すれば、同じサブブロッブに属する２つのピクセルは、「カラー」、「グレーエッジ」など、まったく同じラベルを有することが好ましい。図１０は、２レベルのクラス（１５０および１５２）およびブロッブ階層（１５４および１５６）を示している。
【００５９】
背景ブロッブの場合、サブブロッブは、例えば白および白エッジになる場合がある。それらの特徴は、強調目的などで分析を行いたい画像の多くにとって有用であるが、他の特徴を用いることが可能な画像もあると考えるべきである。背景でないブロッブの場合、サブブロッブは黒、グレー、グレーエッジ、カラー、およびカラーエッジなどになる場合があり、輝度のみの場合は、カラーではなく黒、グレー、およびグレーエッジになる場合がある。
【００６０】
図１１は、２レベルの階層的結合要素分析の結果の一例を示すものである。３つの結合要素１５８、１６０及び１６２が存在し、トップレベルには単一要素として文字があり、サブレベルには３２個の結合された要素がある。
【００６１】
結合度分析では、内部領域の認識も可能である。また、結合度分析では、内容情報などの画像情報とその画像に関する空間情報とを関連付けることも可能である。３クラス即ち３種類以上の特徴を用いたピクセル分類と２レベル以上のピクセル特徴を用いたピクセル分類とを組み合わせると、結合度分析は、分析中の画像についてさらに多くの情報および詳細を提供することができる。結合度は、複数のレベルに適用することができ、複数の異なるピクセルタイプに適用することができる。結合度により、より広い領域内に配置された対象物が適切に認識され、適当に処理される可能性を向上させることができる。例えば、黒テキスト文字の場合、色彩のある小領域が分散されてしまったり、比較的少数のピクセルしか持たないようになる可能性が高い。反対に、カラーグラフィック及びカラーテキストの領域は、その領域内に優勢なカラーピクセルを有する。
【００６２】
階層的結合要素分析により、両方（例えば輝度及び／又は彩度）の値において特定の性質を有するピクセルをグループ化することが可能になるとともに、観察者が画像中に知覚するものにいくらか対応する空間領域をブロッブより高いレベルのオブジェクトとしてグループ化することが可能になる。従って、階層的結合度分析は、より的確なブロッブの分類を行なうのに有用である。例えば、互いに十分異なる複数のサブブロッブを含む領域は、サブブロッブが少ない又は存在しない場合、あるいは、総ピクセル数が完全なブロッブに比べて相対的に少ないブロッブ内にサブブロッブがある場合に比べて、テキスト領域として分類される可能性が低い。
【００６３】
プロセッサは、結合度分析と同時に、各ピクセルをブロッブ及び／又はサブブロッブに関連付けることが好ましい。好ましい実施形態では、ブロッブの特徴に従って各ピクセルを背景または非背景に分類し、サブブロッブの特徴に従って各背景ピクセルに白または白エッジのラベルを付ける。また、サブブロッブの特徴に従って、非背景ピクセルの各々に黒、グレー、グレーエッジ、カラー、またはカラーエッジのラベルを付ける。各ブロッブは一群のピクセルから構成された領域である。ピクセルの各々はラベルを有することが好ましく、このラベルは後でそのピクセルが属するブロッブを逆参照するポインタとして識別される。好ましい実施形態では、空間情報を保持するため、画像全体を通して全てのサブブロッブについて別個のポインタが存在する。任意の所与のブロッブには、そのブロッブ内に存在する異なるピクセルタイプの数と同数のサブブロッブが存在することになる。
【００６４】
ブロッブ分類は、ピクセルについての高レベルの情報、すなわち黒、白、グレー、カラーまたはエッジなどのピクセル特徴およびピクセル位置の存在を認識する。また、ブロッブ分類は、あるピクセルとそのピクセルに隣接する同一または類似のピクセルとを結合することによって、そのピクセルに関する情報の追加も行なう。従って、ピクセル分類、結合度分析、および、ブロッブ分類を実施した後は、ピクセル分類だけを実施した後よりも、多くの情報が存在することになる。ブロッブ分類の利点の１つは、結合されたエッジピクセルの識別ができることである。大きなテキスト文字はその文字中の総ピクセルの割合が小さいか大きいかに関わらず文字内部が何らかの割合でカラー又はグレーになっている場合があり、エッジを識別する能力はそのような大きなテキスト文字を適切に識別するのに有用である。また、エッジは、異なるタイプの領域やピクセルを定義したり、それらを互いに分離したりするのに有用である。
【００６５】
サブブロッブの分類（図１２）に使用することできる一例において、各ピクセルは、ピクセル分類およびピクセル近接度を用いて、類似ピクセルまたは同一ピクセルとして特徴付けることができる。好ましい一実施形態において、プロセッサは、すべてのピクセルの分析が完了したか否かをチェックする（１６４）。分析が完了していればプロセッサは戻り、まだ完了していなければラベルＬを有する他のピクセルｐ_x,yを取得する（１６６）。プロセッサは、そのピクセルラベルＬを近傍のラベルと比較する（１６８）。エッジピクセル以外の任意のピクセルの場合、その近傍は、左のピクセル、左上のピクセル、上のピクセル、および右上のピクセルが考えられる。上エッジピクセルの場合、その近傍は、あるとすれば左だけである。左エッジピクセルの場合、その近傍は、あるとすれば上および右上だけである。右エッジピクセルの場合、その近傍は、左上、上、および左だけである。ピクセルｐ_x,yが、左ピクセル及び右上ピクセルと、あるいは左上ピクセル及び右上ピクセルと繋がっている場合、プロセッサは結合処理を実施する（１７０）。次に、プロセッサは、近傍ピクセルのうちのいずれか１つがサブブロッブレベルで同じラベルを有しているか否か、例えば背景ブロッブの場合は白または白エッジラベル、非背景ブロッブの場合は黒、グレー、グレーエッジ、カラー又はカラーエッジを有しているか否かをチェックする（１７２）。同じラベルを有するものがあれば、プロセッサは、その近傍のポインタをピクセルｐ_x,yに割り当て（１７２Ａ）、ピクセルｐ_x,yの属性をサブブロッブおよびブロッブに追加する（１７４）（図１２Ａ）。
【００６６】
同じラベルを有する近傍ピクセルがなかった場合、プロセッサは、サブブロッブオブジェクトを作成し、ピクセルｐ_x,yのポインタがそのサブブロッブオブジェクトを指すようにする（１７６）。次に、プロセッサは、近傍ピクセルの中にブロッブレベルで同じラベルを有するものが有るか否か、本実施形態の場合は背景または非背景を有するものがあるか否かをチェックする（１７８）。ブロッブレベルで同じラベルを有する近傍ピクセルがあった場合、プロセッサは、ピクセルｐ_x,yのサブブロッブのブロッブポインタがその近傍ピクセルのブロッブを指すようにし（１７８Ａ）、ピクセルｐ_x,yの属性をサブブロッブおよびブロッブに追加する（１７４）（図１２Ａ）。ブロッブレベルで同じラベルを有する近傍ピクセルがなかった場合、プロセッサは、ブロッブオブジェクトを作成し、ピクセルｐ_x,yのサブブロッブのブロッブポインタがそのブロッブオブジェクトを指すようにする（１８０）。その後、プロセッサは、ピクセルｐ_x,yの属性をサブブロッブおよびブロッブに追加し（１７４）、すべてのピクセルの分析が完了するまでこのプロセスを繰り返す。
【００６７】
属性を追加する方法は複数あり、そのうちの１つを図１２Ａに示す。ピクセルｐ_x,yの属性は、そのピクセルカウントを１だけ増分することによってサブブロッブに追加される（１７４Ａ）。また、ピクセルの彩度もそのサブブロッブの彩度累算器に追加する。次に、ピクセルｐ_x,yの属性をブロッブに追加する（１７４Ｂ）。ブロッブのバウンディングボックスを更新し、総ピクセルカウントを１だけ増分する。通常、バウンディングボックスにはブロッブを包含する最小の矩形を選択し、プロセッサがブロッブの空間的範囲を知ることができるようにする。また、入力ピクセルに対応するラベルに応じて、対応するカウンタ、例えば黒、グレー、グレーエッジ、カラー、カラーエッジ、白、白エッジなどのピクセルラベルに対応するカウンタも更新する。さらに、ピクセルｐ_x,yの彩度もブロッブの彩度累積器に追加する。次に、プロセッサは、各種カウンタの値を閾値Ｔ−ｂｉｇと比較する。黒ピクセルの数がＴ−ｂｉｇよりも大きい場合、フラグｋ−Ｂｉｇを１に設定する。グレーピクセルの数がＴ−ｂｉｇよりも大きい場合、フラグｇ−Ｂｉｇを１に設定する。カラーピクセルの数がＴ−ｂｉｇよりも大きい場合、フラグｃ−Ｂｉｇを１に設定する。次に、プロセッサは、３つのフラグのうちの２以上が１に設定されているか否かをチェックし、２以上が１に設定された場合、ブロッブタイプを初期設定である「未定」から「図」に変更する。そして、プロセッサはピクセルの処理を継続する。
【００６８】
すべてのピクセルの処理が完了すると、プロセッサは、もっと前のステップでブロッブ分類により得られた情報に従って画像を処理することが好ましい（図１３）。以後の画像処理は画像の最終的用途によって異なり、例えばその画像を印刷するつもりなのか、スキャンするつもりなのか、格納するつもりなのか等によって異なる。同様に、画像処理に使用するパラメータの選択も、画像の最終的な用途によって異なることになる。たとえば、画像をテキストおよび図の要素について評価する場合、サブブロッブを評価し、その評価に従って変更することができる。
【００６９】
この階層的方法は、ピクセルの意味のあるグループ化について好ましいだけでなく、ブロッブの特徴付け、すなわち「ブロッブ分類」の手段も提供する。この特徴付け方法は、図要素と比較したテキスト文字に関する下記の２つの経験的知識に基づくものである。
（Ａ）テキスト文字は大抵、同種類のピクセルのクラスタから構成されている。これは、テキスト文字のＨＣＣ分析の結果が一般に、１つの優勢サブブロッブとその他のエッジサブブロッブとから構成されているという結果になるであろうことを意味する。他のサブブロッブも多数存在し得るが、テキスト文字の場合、それらのサイズは一般に小さいものである。
（Ｂ）図のオブジェクトは通常、同種類から構成されていない。従って、図のオブジェクトの一般的なＨＣＣ分析の結果は大抵、画像が異なるタイプの複数のそれほど大きくないサブブロッブから構成されているという結果になる。
【００７０】
これらの経験的知識およびＨＣＣの枠組みにより、図のオブジェクトを特徴付けるための１つの基礎が下記のように得られる。
（Ａ）ブロッブ内に所与の閾値（ピクセルカウント）Ｔ_big（例えば１５０ｄｐｉの場合は１５、３００ｄｐｉの場合は約６０など。他の解像度の場合の閾値も、経験的に選択したり、１５０ｄｐｉおよび３００ｄｐｉの値から適当にスケーリングしたりすることで得られる）よりも大きなサイズの異なる非エッジサブブロッブが複数存在する場合、そのブロッブは図として特徴付けることができる。これは、２レベル階層分析方法の利点を例示している。「背景」／「非背景」および各サブクラスについてのピクセルカウンタに基づく最上位レベルだけの結合度分析を行なうことも可能であったが、それらのサブクラスピクセルの空間情報が失われる可能性があった。
（Ｂ）すべての他の非背景ブロッブは１つしか優勢サブブロッブを持たず、それらの非背景ブロッブをその優勢サブブロッブで特徴付けることができることが好ましい。例えば、黒テキストとして特徴付けられるブロッブでは、黒のサブブロッブが優勢であることが好ましい。
【００７１】
他の関係を用いてブロッブおよびサブブロッブを分離すなわち特徴付けることも可能であるが、テキスト対図の分析については、閾値評価を利用することが便利で信頼性が高いものと考えられる。また、色の異なるサブブロックを識別することなど、他の目的については、他の方法並びに他のピクセル特徴及びブロッブ特徴を用いることもできる。適切な閾値の選択は、最終的な用途に応じて異なる場合がある。テキスト要素にしか関心がない場合、グレー閾値は無視することもできる。テキストおよびグラフィックの両方に関心がある場合、白閾値およびグレー閾値の双方を使用することができる。実際の値は、経験的に決めることができる。
【００７２】
上記経験的知識の応用の一例として、カラー、グレーまたは図として特徴付けられたサブブロッブが黒テキストブロッブの一部であった場合、ピクセルを評価することにより、そのサブブロッブの特徴をそのまま維持するべきか黒テキストに変更すべきかを知ることができる。一実施形態において、要望に応じて、プロセッサはピクセルを再度特徴付けることができる場合がある。好ましい実施形態では、この処理は、相当数のピクセルの分析が終った後に行うことができるが、すべてのピクセルの分析が終った後に行うこともできる。例えば、プロセッサは、数本Ｎのラインのピクセルに対して結合度分析を行った後、ラインＮ−Ｄに対応するラインのピクセルを取得してピクセルタイプを判定することができる。ただし、Ｄは結合度分析用のラベルバッファの遅延すなわちライン数（図１６の符号２１６）である。さらに、１ラインのピクセルの特徴に関する判定を行なう前に、このラベルバッファのライン数により、完全に分析することが可能な文字のサイズを判定することもできる。
【００７３】
ブロッブの特徴付けに関して、プロセッサは、各ピクセルに関連するサブブロッブリンクを平坦化し、サブブロッブに関連するブロッブリンクを平坦化する平坦化処理（１８４）を行なうことが好ましい（図１３）。プロセッサは、ブロッブタイプが判定されているか否かをチェックする（１８６）。判定されていればそのブロッブタイプを返し（１８８）、プロセッサは処理を継続する。ブロッブタイプがまだ判定されていなければ、プロセッサは、バウンディングボックスの底部が、結合度分析が済んでいる一番新しいラインよりも上にあるか否かをチェックする（１９０）。上になければ、そのブロッブはまだ完全に分析されていないので、プロセッサは、「大型ブロッブ」というタイプをそのブロッブに割り当ててそのタイプを返すことにより、ブロッブタイプに関する判定ができるようになる時まで画像全体の分析がまだ完了していないことを示す。何時ブロッブに「大型ブロッブ」というラベルを付けるかに関する基準は、バッファのサイズに関係する場合がある。バッファサイズがページ全体のサイズに設定されていれば、「大型ブロッブ」は存在しないであろう。「大型ブロッブ」を指定して何をするかは、用途により異なる。例えば、「大型ブロッブ」は、大きなブロッブを強調せずに残しておくための判断に用いられる場合がある。
【００７４】
それが終わると、次に、プロセッサはブロッブを特徴付ける（１９４）。具体的には、ブロッブ中のピクセルの総数がスキャン解像度および所望の最小フォントサイズまたは他の適当な画像属性に従って選択された所与の閾値Ｔ−ｍｉｎ未満である場合は、分析された画像部分がハーフトーンドットまたはノイズである可能性が極めて高いので、ブロッブタイプを「図」に設定する。例えば、Ｔ−ｍｉｎは、「ｉ」の上部にあるドットのサイズや、ピリオドのサイズに基づいて決めることができる。反対に、カラーピクセルおよびカラーエッジピクセルの総数が全ピクセルの所与の割合、例えば６０％よりも大きい場合は、ブロックタイプを「カラーテキスト」に設定する。さらに、平均彩度（ブロッブのピクセルの彩度の合計をピクセル総数で割ったもの）が所与の閾値Ｔ−ｃｏｌｏｒ（図６ではＴｃ）よりも大きい場合は、ブロッブタイプを「カラーテキスト」に設定する。それ以外の場合は、黒ピクセルおよびグレーエッジピクセルの数がグレーピクセルの数よりも大きければ、ブロッブタイプを「黒テキスト」に設定する。大きくなければ、ブロッブタイプを「グレーテキスト」に設定する。そしてプロセッサは、そのブロッブタイプを返し、画像全体が特徴付けられるまで処理を継続する。
【００７５】
その後、強調、スキャン、圧縮、その他などのため、その画像または画像の一部を処理することができる。例えば、あるブロッブが背景として特徴付けられていて、そのブロッブのサブブロッブのうちの優勢サブブロッブであるものの割合が小さい場合、すべてのサブブロッブを白のみにしたり、比例的に白を増やしたりすることができる。一例としては、すべてのサブブロッブのピクセル値を２５５に変更することができる。あるいは、各サブブロッブ中のすべてのピクセルをすべてのサブブロッブ内のすべてのピクセル値の平均に等しい輝度値に変更したり、所与のサブブロッブ中のピクセルをそのサブブロッブ中のすべてのピクセル値の平均に変更したりすることができる。他の代替形態では、サブブロッブ中の輝度値を、２５５のうちのある割合、優勢サブブロッブ中の平均輝度値のうちのある割合、経験的に確立された線形関係に基づく値、または、何らかの他の方法で選択された値に変更することができる場合がある（図１５）。反対に、背景エッジとして分類された背景ブロッブ中のサブブロッブは、いずれも変更しないままにすることが好ましい。
【００７６】
ブロッブまたはサブブロッブが非背景に属している場合、そのブロッブはテキストとして特徴付けられる場合がある。背景の場合と同様に、非エッジサブブロッブの各々を優勢サブブロッブと比較し、それらの非エッジサブブロッブのうちの優勢サブブロッブであるものの割合が比較的大きい場合、それらは変更しない。そして、そのブロッブ全体を図またはグラフィックとして分類することができる。しかしながら、その他のサブブロッブが比較的小さい場合は、すべてのカラーを除去して、その他のサブブロッブ中のピクセルの輝度値を０、該ピクセルの元の値の７５％または５０％などの値、あるいは、優勢サブブロッブ中の輝度値の平均に変更することができる。それらはスケーリングすることも可能である。好ましい実施形態では、ブロッブ単位で平均化を行い、文字「Ｂ」のピクセル値が文字「ｉ」のピクセル値と一致しないようにすることが好ましい。好ましい実施形態では、背景の場合と同様に、エッジサブブロッブは変更しない。
【００７７】
エッジサブブロッブは別個に強調することができる。エッジの強調は、アンシャープマスクまたは他のエッジ鮮明化手段によって行なうことができる。
【００７８】
カラーテキストも、同様の方法で処理することができる。エッジを強調することができ、ＲＧＢ値の平均に基づいてブロッブ中のすべてのピクセルに平均値を割り当てることができる。
【００７９】
黒テキストの特定の例では、黒エッジとして特徴付けられたピクセルを鮮明化し、色情報を除去することができる。非エッジ黒テキスト（内部）として特徴付けられたピクセルを暗くすなわち濃くすることができ、色情報を除去することができる。
【００８０】
カラーテキストまたはグレーテキストの例でも、カラーエッジを鮮明化することができるが、その程度は、黒テキストエッジについて行うことができる程度よりも低い、すなわち緩やかなものである。非エッジカラーテキスト（内部）として特徴付けられたピクセルも、所望に応じて強調することができる。
【００８１】
背景ピクセル、例えば白背景の例では、背景ピクセルを上述したように変更することができる。背景ピクセルは、アンシャープマスクまたはモアレ除去によって処理することもできる。図のピクセルは、アンシャープマスクまたはモアレ除去、あるいは他の所望の処理によって処理することも可能である。
【００８２】
一般に、それらの処理は、ピクセル特徴と閾値等のサブブロッブ処理タグとを含むピクセルデータを最初に受信すること（１９８）として表現される（図１４）。ピクセルは、ブロッブ特徴および所望の強調処理または他の処理ステップに従って、それぞれのサブブロッブで強調または処理される（２００）。そして、そのピクセルデータが、変更の施されたピクセル特徴及び画像情報と共に使用される何らかの他のデータと一緒に出力される（２０２）。
【００８３】
本発明の１以上の態様を組み込んだ状態で、いくつかの方法を変更することが可能である。また、本発明によって得られる利点のうちの１以上を得られるようにしたまま、方法のいずれかで使用されるパラメータや設定を容易に変更することも可能である。ピクセル分類方法、結合度分析方法、及び／又は、ブロッブ分類方法の様々な組み合わせおよび変更により、画像分析を向上させることができる。彩度情報を使用する画像分析には、上記の各種代替方法の他にも、輝度情報だけを使用する画像分析で使用される方法とは異なる方法を使用することができる。図２７は、色によるピクセル分類３２０の後に上記の方法などを用いて結合度分析３２２を行う一般的方法を示している。ブロッブ分類は、既に行なった説明に従って実施することができる。この方法を用いると、輝度情報および彩度情報の両方に従って白として分類されたピクセルは背景とみなされるが、カラー背景とみなされるピクセルなど、白以外のカラー情報を相当量有するピクセルは、例えばテキスト文字の検出の際に、背景として扱われない。例えば、色彩のある領域上にあるテキストは通常、さらに何らかの分析を行なわない限り認識されない。
【００８４】
画像分析方法の他の例（図２８）として、輝度によるピクセル分類３２４を行なった後、結合度分析３２６およびブロッブ分類３２８を行うこともできる。ブロッブ分類は、平均ブロッブ彩度を用いてカラーおよび非カラーの文字を分類することにより行うことができる。この方法では、例えば高輝度のピクセルが背景（色彩のある領域も含む）とみなされ、均一色の背景上にあるテキストを認識できるような値に、閾値を設定することができる。この例では、テキストが白の背景及び／又は色彩のある背景上にある場合であっても、同様の方法でテキストを認識および処理することができ、それでも本発明の１以上の利点が実現される。
【００８５】
多くの実際の用途では、画像は、ラスタスキャンモードのように左から右へ、及び上から下へ向けて逐次アクセスされる。例えばメモリの制約などに起因して、画像全体を同時に得ることはできない場合がある。全画像分析の代替、あるいは、相当数のラインを利用可能なスライス分析またはセグメント分析の代替として、走査線ベースの処理を用いることもできる。走査線ベースのプロセスは、スキャンから印刷までの遅延時間、またはスキャンから表示までの遅延時間を最小にしたい場合に有利である。図１６は、走査線方法を用いた一実施形態を示している。この方法では、例えばスキャン画像の処理に用いられる従来のプロセッサ２１８において、画像データのいくつかの行２１０、２１２、および２１４（ソーベル演算のマスクサイズの行が少なくとも３行あると好ましい）をモジュール式（循環）バッファ２１６に格納することができる。さらに、ピクセル分類および結合度分析の結果を格納するため、ラベルバッファ２２０（好ましくは少なくとも２行を有する）も有している。Ｎ行のデータバッファを備えたこのような実施態様は、Ｎ行の遅延を有するパイプラインとみなすことができる。Ｎ行を埋める初期遅延時間の後、このパイプラインは１行入力−１行出力様式で動作する。バッファに使用される実際の行数は、コストとパフォーマンスとの間のトレードオフに基づいて選択される場合がある。
【００８６】
走査線方法におけるピクセル分類にはヒストグラムベースの閾値判定を使用することが好ましく、この閾値判定はこの処理形態に合わせて容易に変更を施すことができる。ヒストグラムを作成または更新する２つの方法として、バッファ（窓）内のピクセルだけ用いてヒストグラムを計算する方法と、窓状に区切った画像のヒストグラムを与える方法とがある。他の方法としては、新たな行が入力されたときにピクセルカウントをヒストグラムに追加するという累積的なものもある。画像の最後で、ヒストグラムはグローバルヒストグラムになる。いずれの方法においても、ヒストグラムは、従って閾値は、新たな行ごとに更新される。行数は、ヒストグラムが統計上意味のないものになってしまう程少なくしないことが好ましい。ヒストグラムの作成中、またはグローバルヒストグラムが完成した後、既に説明したプロセスと同じものを用いて、ピクセルを特徴付けることができる。
【００８７】
このラスタスキャン順の結合度分析は、逐次的ラベル付け（Berthold K. P. Horn,Robot Vision, The MIT Press, Cambridge, MA, 1986に詳細に記載されている）を用いて実行することができる。一形態において、入力された新たなピクセルはいずれも、図１７に示すように、行中の位置に応じて、利用可能な近傍ピクセル２２２、２２４、および２２６をそれぞれ２個、３個、または４個だけ有する。既知の近傍ピクセルを２個だけ有する未知のピクセルすなわちラベル付けされていない（以下「未割り当て」とも呼ぶ）ピクセルは左境界であり、既知のラベル付けされた近傍ピクセルすなわち割り当て済みピクセルを３個だけ有する未知のピクセルは右境界であり、残りは内部ピクセルである。未知のピクセルが原因で、ブロッブの一部しか分からないことにより、ブロッブの特徴付けの際にアーチファクトが生成される場合があり、図１８に示すように、結合ブロッブが結合ピクセルと出会う前に非結合ブロッブとして処理されてしまうことがある。図１８は、「？」を付けた未知の入力ピクセルと、その未知の入力ピクセルがサブブロッブの一部である状況２２８および２３０とを示している。また、この図は、未知の入力ピクセルがブロッブの一部である状況２３２および２３４も示している。陰影を付けていないピクセルは背景ピクセルである。
【００８８】
ブロッブの特徴付け誤りによって生じるアーチファクトの第１の原因は、ブロッブサイズがバッファよりも大きく、データの不完全性に起因して、望ましくない判定がなされたときに生じる。これに対処する方法はおそらく２つある。第１の方法は、バッファサイズよりも大きなサイズのすべてのブロッブについて「大型ブロッブ」という特別なタグまたはタイトルを付け、それらのアプリケーションにおいて適当なアクションを選択し、例えばタイトル及び／又はラベルを保持することである。第２の方法は、後から特徴を変更する際に、利用可能な情報に基づいてピクセルを特徴付け、ゆるやかな遷移手段を設計することである。文字に関する強調の一貫性を向上させるため、バッファの行数はアルゴリズムが分析で使用することを想定している最大フォントサイズ以上にすることが好ましい。
【００８９】
しかしながら、バッファサイズ内のブロッブであっても、アーチファクトの第２の原因が生じる可能性がまだある。結合処理を位置調整する場合の例を図１８に示す。ただし、図中に示したグレースケールおよび番号は、ピクセルのラベルおよびサブブロッブＩＤをそれぞれ表している。
【００９０】
結合処理を実施するため、システムは、ブロッブ及びサブブロッブに属するピクセルを追跡することが好ましい。ブロッブに属するピクセルは多数存在する場合があり、この種の処理はブロッブの存続期間中に複数回行われることがあるので、ブロッブのすべてのピクセルに対する再割り当ては、避けることが好ましい。この目的を考えて、図１３に示すように、２レベルのリンクリスト２３６を用いることができる。すべてのピクセルに、サブブロッブデータ構造（図１９Ａに示す）のアドレスになるポインタタグｐＳＢを割り当てる。ラベルｘを有する新たな入力ピクセルについて、その近傍との比較（図１７に示す）を実施する。近傍のうちの１つが同じラベルｘを有していた場合、その近傍のアドレスタグを当該ピクセルにコピーする。そうでない場合は、サブブロッブの新たなデータ項目を作成し、そのアドレスを当該ピクセルに割り当てる。いずれの場合も、当該入力ピクセルに関するサブブロッブを更新し、次いでその最上位レベルのブロッブを更新する。さらに、そのピクセル小集団を検査して、結合処理が望ましいか否かを調べる。データ構造を用いた結合処理は、リンクをたどって移動する処理およびポインタ処理から構成され、全ピクセルの再割り当てを必要としない。この結合処理について考えられる擬似コード２３８を図２０に示す。
【００９１】
サブブロッブ／ブロッブに対する結合処理の回数が増えるにつれて、リンクの長さも増加する。リンクが長くなると、サブブロッブ／ブロッブに関する何らかの後の結合処理および取得処理の速度が低下する場合がある。サブブロッブ／ブロッブには通常多数のピクセルが含まれるので、長いリンクの追跡は最小限にとどめ、あるいは避けることが好ましい。そのため、結合処理および取得処理に「平坦化」処理を組み込むことによって、ノードから直接ルートへのショートカットを導入し、後の処理に備えてリンクを短縮しておく。サブブロッブに対する平坦化処理の擬似コード２４０を図２１に示す。図２２は、単純な例による平坦化操作２４２を示す。同じ方法をブロッブにも適用することが好ましい。
【００９２】
本発明の方法および装置の説明は、文書をスキャンまたはコピーするためのスキャナの使用に適用することができ、特にテキストだけの画像やテキストが優勢な画像に対して適用されているが、それらの方法および装置の１以上の態様は他の用途にも適しており、例えばテキストだけの状態とグラフィックが全く存在しない状態とがまったく区別できない方法で過去にスキャンまたは作成されたデータファイルを分析し、特徴付けることなどにも適している。
【００９３】
スキャンシーケンス等では画像をテキスト、グラフィック、またはそれら両方として分類する場合があり、その一例においては、画像を分析することにより、プレビュースキャン及び／又は最終スキャンを行う際に、プロセッサがスキャナをより厳密に制御できるようにすることが望ましい場合がある。スキャナ４０（図２５）には、プレビュースキャン２５２および最終スキャン２５４の選択に使用されるソフトウェア、またはユーザインタフェース２５０（図２４）を含むソフトウェアが付属する場合がある。ユーザインタフェース２５０は従来のものであり、プレビュースキャンおよび最終スキャンは周知である。プレビュースキャンの際には、プレビュースキャンデータが１以上の画像ストリップ２５６（図２５）の形態でスキャナ４０からＣＰＵ３２へ供給される。ＣＰＵ３２は、スキャンが進行するのにつれて、画像データをセグメント単位、ブロック単位またはストリップ単位、あるいはライン単位で受信及び処理することができ、画像分析および特徴付けをリアルタイムで実行することができる。各画像ストリップは、スキャンが進行するのにつれてリアルタイムでＣＰＵに供給することが好ましく、複数ライン分の長さにすることが好ましい。たとえば、各画像ストリップは、スキャン中の画像全体のうちのある割合、例えば２５パーセントを表す場合があり、数百ライン分の画像である場合がある。画像ストリップのサイズは、バッファサイズ等によって決まる場合がある。
【００９４】
本発明の好ましい一形態では、ＣＰＵ３２は、データをデータブロックまたはデータスライスとして受信する場合であっても、開始コードまたは開始命令を受信した後から停止コードまたは停止命令を受信するまでの間に受信したすべてのデータを１つの画像として処理することができる。例えば、ＣＰＵ３２に対して、画像の第１のライングループ、例えば２５〜１００ラインを受信したときに処理を開始するように命令することができる。ＣＰＵは、画像の終端部を受信するまで、追加された各ラインまたは各ライングループの処理を逐次続けることができる。代替として、ＣＰＵ３２は、画像セグメントを画像分析プロセスに供給する方法を制御したり、処理されるブロックサイズまたはスライスサイズを制御することにより、あるいは他の方法で、画像分析を制御することもできる。
【００９５】
状況によっては、スキャンが完了する前であっても、画像を適切に特徴付けることができる場合がある。例えば、スキャンの途中で画像が混合として、例えばテキストと写真の混合として特徴付けられた場合、テキストのみ又は写真のみとして特徴付けるための基準によると、その画像はそれらのいずれとして特徴付けられることもないので、その画像のさらなる分析は不要となる場合がある。次に、画像分析処理および特徴付け処理以外の適当な処理を行なうため、その画像データをＣＰＵ２３に送信することができる。スキャン終了後に画像データを受信して分析及び特徴付けすることもできるが、画像データの処理にかかる時間全体を短くするためには、リアルタイム分析またはセグメント化分析が好ましい。
【００９６】
ＣＰＵは、何らかのスケーリングが必要か否かをチェック（２５８）し、スケーリングが必要な場合、さらなる処理に備えてその画像を適当なサイズにスケーリングする（２６０）。スケーリングが必要ない場合、画像スケーリングステップ２６０はバイパスすることができる。
【００９７】
次に、ＣＰＵは、ページ分析を実施すべきか否かをチェックする（２６２）。ユーザがスキャンする画像に関する知識を基にしてスキャナに設定を手動で既に入力している場合や、その他スキャナに適当な設定が既に施されている場合、このページ設定は不要である。後で詳しく説明するが、バイパスされなければページ分析２６４が実施され、その結果が、画像処理ステップ２６６におけるＣＰＵによる画像の処理に用いられる。画像処理ステップ２６６の結果は、サイズ変更、鮮明化、階調調節などの後続の処理２７０のため、画像キャッシュ２６８に格納される。次に、画像プレビューステップ２７２において、処理された画像がユーザインタフェース２５０に供給され、その後、ユーザによってさらに編集（２７０）され、あるいは、それ以上変更がない場合は承認されて画像キャッシュ２６８に格納される。最新のプレビューが承認されると画像領域が確定され、２７４においてスキャン設定が確立され、プロセッサは最終スキャンを行なうため、スキャナ４０へ戻る。
【００９８】
最終スキャンの際には、各画像ストリップ２７６をＣＰＵに送信し、何らかのスケーリングが必要であるか否かをチェックする（２７８）。必要に応じてスケーリング２８０を行い、続いて画像処理２８２を行い、そして何らかの画像編集２８４を行なった後、その画像をスキャン宛先２８６に送信する。その後、要望に応じて、スキャンを終了することもできるし、反復することもできる。
【００９９】
プレビューシーケンスおよび最終スキャンシーケンスを設けることは、比較的従来的であると言える。しかしながら、プレビューシーケンスと最終シーケンスは、スケーリング分析、ページ分析、画像処理、画像編集および画像プレビューを含む一連のステップにまとめることもでき、一連のステップは更なる画像編集および宛先への最終的送信をさらに含む場合もある。同様に、ステップの他の組み合わせも可能である。例えば、最初のスキャンとしては、スキャナがサポートしている最大光学解像度および最大深度で画像をスキャンし、その画像をキャッシュに保存することもできる。その後、解像度及び／又は深度を下げてプレビュー画像を作成する。最終スキャンの要求があった場合、その画像タイプに関する最適な設定で新たにスキャンを開始するのではなく、キャッシュ内の画像を処理することで所望の結果を得ることができる。この方法は、スキャナがプレビュー／最終スキャンシーケンスをサポートしていない場合に使用される場合があり、例えば画像の印刷された用紙を排出してしまうシートフィードスキャナの場合に使用される場合がある。
【０１００】
ページ分析および編集処理についてさらに詳細に説明すると、上述した画像ストリップなどの画像ストリップ２８８（図２６）はＣＰＵ３２に供給される。ＣＰＵはページ分析を実施すべきか否かをチェック（２９０）し、実施すべき場合、ＣＰＵは、例えば設定されたＲＧＢ（赤、緑、青）変換係数０．２９９×Ｒ＋０．５８７×Ｇ＋０．１１４×Ｂを用いて、その画像データを輝度形態に変換する（２９２）。この変換係数は、「ｓＲＧＢ」規格で従来から使用されている変換係数である。ページ分析を実施しない場合、ＣＰＵは輝度変換ステップをスキップする。次に、ＣＰＵは、何らかのローラアーチファクトを除去する必要があるか否かをチェックする（２９４）。ローラアーチファクトは、シートフィードスキャナにおいてシートが通常サイズよりも小さい場合に現れることがあるアーチファクトである。もし在ればローラアーチファクトを除去し（２９６）、その後、ＣＰＵはページ分析および特徴付けプロセスをその画像ストリップに適用すべきか否かをチェックする（２９８）。それらを適用すべき場合、下記で詳細に説明するように画像ストリップを分析し（３００）、適用する必要がなければ、画像タイプ分析ステップ３００をバイパスする。次に、ＣＰＵは、画像を自動クロッピングまたは傾き補正する必要があるか否かをチェックし（３０２）、それらが必要である場合は、画像をそのように処理する（３０４）。次に、ＣＰＵは他の変換を適宜実施する（３０６）。
【０１０１】
これらの方法および装置により、所与のタイプの画像に対応する画像データを得るためのスキャナの適切な設定が容易になる。特定タイプに従って画像を分析して特徴付ける場合、その画像をスキャンすることで、特定の画像タイプについて最も望ましい形態の画像データを得ることができる。また、画像の分析および特徴付け並びにその後のスキャンは、わずかなユーザ介入で、あるいはユーザの介入なしで実施することができ、例えば既知の画像タイプに関連付けて予め施された設定を用いて実施することができる。画像タイプが分かれば、スキャナに適切な設定を施して所望の画像データを得ることができ、それを適当な宛先に格納または送信することができるようになる。あるいは、可能な限り多数のフォーマットについて最適な設定を用いて画像を一度スキャンし、その後又はその間に、画像を特徴付けることもできる。画像が適当なレベルの確実性で特徴付けられれば、その画像データは、意図する宛先にとって適した形態に変換することができるようになる。
【０１０２】
本発明のいくつかの例示的な実施形態について上記のように説明してきたが、本発明または本明細書に記載した思想から外れることなく、様々な変更および修正が可能であることは明らかである。そうした処理および変更については、特に上述していないが、それでも本発明の思想および範囲に含めることを意図している。従って、上記説明は単に例を目的としたものである。
【図面の簡単な説明】
【０１０３】
【図１】本発明の複数の態様による、画像を分析し、周辺装置用の出力を生成したり、後の使用のためにデータファイルを変更したりするためのシステムを示す概略図である。
【図２】画像を分析するためのシステムおよびデータファイルを受信するための宛先アプリケーションを示す略ブロック図である。
【図３】本発明の一態様による画像分析方法のステップを示すフロー図である。
【図４】明るい背景上にモデリングされた黒テキストのプロファイルである。
【図５】ソーベルマスクを用いた勾配計算を示すブロック図および図式的表現である。
【図６】輝度および彩度を用いたピクセル分類に使用される一体系の式を示す図である。
【図７】８ピクセル結合度を示すピクセルの概略図である。
【図８】元の画像を示すグレースケール画像および結合要素についての８近傍結合度の一例を示す図的表現である。
【図９】元の画像および結合要素を含む、カラー画像についての結合要素の一例を示す図的表現である。
【図１０】クラスおよび領域についての２レベル階層の略図である。
【図１１】元の画像、最上位レベルの結合要素およびサブレベルの結合要素を含む、カラー画像についての階層結合要素の一例を示す図的表現である。
【図１２】本発明のうちの１つの他の態様による、結合度分析手順を示すフロー図である。
【図１３】本発明のうちの１つの他の態様による、ブロッブまたは画像領域の特徴付けを示すフロー図である。
【図１４】ピクセル分類、結合度分析、およびブロッブ分類の結果を用いて画像の一部を強調または処理する全体的な方法を示すフロー図である。
【図１５】ピクセルを背景として分類する処理に用いられる、生じ得る輝度値と実際のピクセル値との関係を示すグラフ表現である。
【図１６】ラスタスキャン処理のアーキテクチャを示す概略図である。
【図１７】ラベル付けされたピクセルおよびラベル付けされていないピクセルを示す概略図である。
【図１８】誤った領域境界を生じさせる可能性がある様々なピクセル分類を示す概略図である。
【図１９】図１９は２レベルリンクリストおよびプロセス例を示す概略図であり、図１９Ａはピクセルをラベル付けするのためのピクセルタグ変換を示す概略図である。
【図２０】結合処理の擬似コードを示す図である。
【図２１】平坦化処理の擬似コードを示す図である。
【図２２】処理前後に行なうリンクに対する平坦化処理を示す図である。
【図２３】本発明の方法および装置により分析可能なサンプル画像を示す図である。
【図２４】設定および画像スキャン関して様々なレベルのユーザ制御を可能にする、画像スキャナに対するユーザインタフェースを示す図である。
【図２５】画像のスキャンおよび分析するための本発明の一態様が従うプロセスの例を示すフロー図である。
【図２６】テキストおよびグラフィックについての画像分析を含む、画像に対して実行可能な方法ステップを示すフロー図である。
【図２７】画像を分析する代替方法を示す概略である。
【図２８】画像を分析するさらなる代替方法を示す概略図である。

Claims

画像を分析するための方法(146)であって、
画像の複数の要素を表わすデータを受信するステップ(112)と、
前記複数の要素の各要素を知覚される特徴に従って特徴付けるステップ(118)と、
所与の特徴(158,160A-D,162)を有し、該所与の特徴とほぼ同一の特徴を有する要素に隣接する各要素を識別するステップ(120)と、
からなる方法。
前記特徴付けるステップ(118)が画像を表わす複数のピクセル(164-174)を特徴付けるステップを含む、請求項１の方法。
前記特徴付けるステップ(118)が背景を表わすピクセルを識別するステップ(158)を含む、請求項２の方法。
前記特徴付けるステップ(118)が黒情報を表わすピクセルを識別するステップ(160A)を含む、請求項２の方法。
前記特徴付けるステップ(118)がエッジを表わすピクセルを識別するステップ(160B)を含む、請求項２の方法。
前記隣接する各要素を識別するステップが前記所与の特徴を有する隣接要素である各要素を識別するステップ(172)を含む、請求項１の方法。
前記隣接する各要素を識別するステップが非背景ピクセルである隣接ピクセル(150,160A-D)を識別するステップ(172)を含む、請求項１の方法。
エッジを表わし隣接している画像の要素を識別するステップと、
エッジ(160B)を表わす第１のピクセルを選択し、複数の隣接ピクセルを識別し(172)、前記複数の隣接ピクセルのうちのエッジを表わすいずれかの隣接ピクセルを識別するステップと、
をさらに含む、請求項２２の方法。
前記複数の隣接ピクセルのうちのエッジを表わす隣接ピクセルを識別するステップが、エッジを表わす隣接ピクセルに一意のラベルを付けるステップを含む、請求項９の方法。
前記同一ラベルを有し結合しているピクセルを識別するステップが、同一ラベルを有する結合ピクセルにサブラベル(152)を付けるステップを含む、請求項９の方法。