JP2003348360A

JP2003348360A - 文書エンコーディングシステム、文書デコーディングシステムおよびその方法

Info

Publication number: JP2003348360A
Application number: JP2003083848A
Authority: JP
Inventors: Patrice Y Simard; ワイ．シマルドパトリス; Erin L Renshaw; エル．レンショウエリン; James Russell Rinker; ラッセルリンカージェームズ; Henrique S Malvar; エス．マルバーヘンリク
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-04-25
Filing date: 2003-03-25
Publication date: 2003-12-05
Anticipated expiration: 2023-03-25
Also published as: TWI230516B; EP1388815A3; KR20030084591A; JP4773678B2; EP1388815A2; KR100937542B1; TW200306080A; CN1458791A; CN100563296C

Abstract

(57)【要約】【課題】文書イメージのエンコードおよびデコードを
行うシステムおよび方法を提供すること。【解決手段】文書イメージはマスクに従って複数のレ
イヤに分割される。複数のレイヤは非２値である。そこ
で、それぞれのレイヤを処理して、別々に圧縮すること
により、文書イメージ全体の圧縮率を高めることができ
る。文書イメージからマスクを生成する。マスクを生成
するのは、文書イメージのマスクおよび複数のレイヤを
組み合わせた場合のサイズに対する圧縮推定値を引き下
げるためである。その後マスクを使用して文書イメージ
を複数のレイヤに分割する。このマスクにより、文書イ
メージのピクセルを決定するか、またはそれぞれのレイ
ヤに割り当てる。マスクおよび複数のレイヤを処理し
て、別々にエンコードし、文書イメージ全体の圧縮率を
高め、圧縮速度を改善する。複数のレイヤは非２値イメ
ージであり、たとえば前景イメージと背景イメージを含
むことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、文書イメ
ージ処理（ｄｏｃｕｍｅｎｔｉｍａｇｅｐｒｏｃｅ
ｓｓｉｎｇ）に関するものであり、特に、文書イメージ
を識別し圧縮するシステムと方法に関する。

【０００２】

【従来の技術】コンピュータネットワーク、インターネ
ット、およびデジタル式記憶手段の普及に伴ない、コン
ピュータを介して入手できる情報量が飛躍的に増大して
いる。この情報量の増大に伴ない、情報を高速で伝送
し、かつ情報を効率的に格納することが必要になってき
ている。情報を効果的に伝送し、かつ格納しやすくする
技術の１つがデータ圧縮である。

【０００３】データ圧縮を利用すると情報を表すために
必要な領域を減らすことができ、またデータ圧縮はさま
ざまな種類の情報に使用できる。イメージ、テキスト、
オーディオ、およびビデオを含む、デジタル情報の圧縮
技術に対する要求がますます高まってきている。通常、
データ圧縮は標準のコンピュータシステムで使用されて
いるが、デジタル衛星テレビや携帯／デジタル電話など
の他の技術でもデータ圧縮を利用している。

【０００４】大量の情報を取り扱い、送信し、処理する
ことに対する要求が高まり、このようなデータの圧縮に
対する要求も高まっている。ストレージデバイスの容量
は著しく増加したとはいえ、情報に対する要求は容量増
大のペースを凌いでいる。たとえば、未圧縮のイメージ
だと５メガバイトの領域を必要とするところ、たとえ
ば、可逆圧縮で圧縮すると２．５メガバイトの領域で済
み、非可逆圧縮で圧縮すると５００キロバイトの領域で
済む。したがって、データ圧縮を用いれば、より多くの
情報を転送することができる。ブロードバンド、ＤＳ
Ｌ、ケーブルモデムインターネットなど、いくら伝送速
度が向上しても、情報が未圧縮だとたちまち伝送限界に
達してしまう。たとえば、ＤＳＬ回線で未圧縮のイメー
ジを送信すると１０分かかる。しかし、同じ画像を圧縮
すれば１分ほどで送信することができ、データ効率の面
では１０倍の利得が得られる。

【０００５】一般に、圧縮には可逆と非可逆の２種類が
ある。可逆圧縮では、圧縮した後オリジナルデータを正
確に復元することができるが、非可逆圧縮では、圧縮後
復元したデータはオリジナルデータと異なることがあ
る。非可逆圧縮はある程度データ完全性の損なわれるこ
とが許容されるため可逆圧縮に比べて圧縮比が高いとい
う点でこの２つの圧縮モードにはトレードオフの関係が
ある。たとえば、データを正確に再構成できないとテキ
ストの品質および可読性がひどく影響を受ける可能性が
あるため重要なテキストを圧縮する場合には可逆圧縮が
使用される。非可逆圧縮は、ある程度のひずみやノイズ
が許容できるか、または人間の感覚では感知できないイ
メージや重要でないテキストで使用することができる。
データ圧縮は、特に、文書のデジタル表現（デジタル文
書）に適用することができる。通常、デジタル文書とし
ては、テキスト、イメージ、および／またはテキストと
イメージがある。現在のデジタルデータに対する記憶領
域が少なくて済むだけでなく、品質の著しい劣化を起こ
さずにコンパクトに格納できると、文書の現在のハード
コピーのデジタル化が促進され、ペーパーレスオフィス
の実現可能性がより高くなる。ペーパーレスオフィスを
実現すると情報に簡単にアクセスすることができる、環
境コストを低減できる、格納コストを低減できるなどの
メリットがあるため、このようなペーパーレスオフィス
への努力は多くの企業の目標となっている。さらに、圧
縮によりデジタル文書のファイルサイズを縮小すると、
インターネット帯域幅をより効率的に活用することがで
き、より多くの情報をより高速に伝送し、ネットワーク
輻輳を緩和することができる。情報に必要な記憶領域の
低減、効率的なペーパーレスオフィスへの移行、インタ
ーネット帯域幅の効率の向上は、圧縮技術と関連する多
くの著しい利点のうちの一部にすぎない。

【０００６】

【発明が解決しようとする課題】デジタル文書の圧縮
は、デジタル文書の利用をより魅力的なものとするため
に、一定の目標を達成できなければならない。まず、大
量の情報を短時間のうちに圧縮、伸張ができなければな
らない。第２に、圧縮してもデジタル文書を正確に再現
できなければならない。さらに、デジタル文書のデータ
圧縮では、文書の意図した目的または最終利用を活かさ
なければならない。ハードコピーのファイリングやハー
ドコピーの提出にデジタル文書が使用される。また改訂
や編集を行う文書もある。多くの従来のデータ圧縮方法
では、表示したときのテキストおよび／またはイメージ
のリフロー (re-flow) を処理できず、また圧縮技術を
使って文字を認識し、それをワードプロセッサ、パーソ
ナルデジタルアシスタント（ＰＤＡ）、携帯電話などに
リフローできる効率的かつ効果的な手段を提供できな
い。たがって、ハードコピーのオフィス文書をスキャン
してデジタル形式に変換する場合、現在の圧縮技術で
は、デジタル化された文書を更新したり、訂正したり、
あるいは一般に変更したりすることは不可能でないにし
ても困難である。

【０００７】多くの場合、圧縮方式は、圧縮率を高める
ために、２値、非２値、テキスト、またはイメージなど
の文書の特定の種類に合わせて適合されている。しか
し、ある種の文書に合わせて適合された圧縮方式は通
常、他の種類の文書では効率的ではない。たとえば、テ
キストベースの文書に合わせて適合された圧縮方式は一
般に、イメージ文書に対しては効率が良くない。この問
題に対する解決策の１つに、エンコードする文書または
イメージの種類に合わせて改造した圧縮方式を選択する
ようにする方法がある。しかし、この解決方法では、単
一の文書内に複数の種類の情報が含まれるデジタル文書
ではうまくいかない。たとえば、雑誌の記事によく見ら
れるような、テキスト情報とともにハイカラーイメージ
（ｈｉ−ｃｏｌｏｒｉｍａｇｅ）が含まれるデジタル
文書の場合である。このような不具合に対処する１つの
方法に、文書を分析して、複数の領域に分割するという
方法がある。さまざまな領域を分析し、それらの領域内
に含まれる情報の種類を判別することができる。情報の
種類に基づいてそれぞれの領域に対して圧縮方式を選択
することができる。しかし、この方式は実装するのが極
めて困難であり、さまざまなサイズおよび形状の領域が
必要で、圧縮が困難である。他の方式として、文書を背
景と一定色イメージ（ｃｏｎｓｔａｎｔｃｏｌｏｒ
ｉｍａｇｅ）とに分ける方法がある。これは、背景と一
定色イメージに対して異なる圧縮方式を使用できるため
都合がよい。しかし、一定色イメージだと、ピクセル値
を強制的に一定色にすることにより情報が失われること
がある。

【０００８】さらに、デジタル文書のデータ圧縮では、
文書の意図した目的を活かさなければならない。ハード
コピーのファイリングやハードコピーの提出にデジタル
文書が使用される。また改訂および編集を行う文書があ
るかもしれない。現在のデータ圧縮では、表示したとき
のテキストおよび／またはイメージのリフローを処理で
きず、また圧縮技術を使って文字を認識し、それをワー
ドプロセッサ、パーソナルデジタルアシスタント（ＰＤ
Ａ）、携帯電話などにリフローできる効率的かつ効果的
な手段を提供できない。たがって、ハードコピーのオフ
ィス文書をスキャンしてデジタル形式に変換する場合、
現在の圧縮技術では、デジタル化された文書を更新した
り、訂正したり、あるいは一般に変更したりすることは
不可能でないにしても困難である。

【０００９】

【課題を解決するための手段】本発明のいくつかの態様
の基本的な内容を理解できるように、本発明の概要を簡
単に述べる。この概要は、本発明の鍵となる要素や決定
的な要素を示したり、本発明の範囲を定めることを意図
していない。後で提示する詳細な説明の前置きとして本
発明のいくつかの概念を簡単に示すことのみを目的とす
る。

【００１０】本発明は、一般に、文書イメージのエンコ
ード（ｅｎｃｏｄｉｎｇ）およびデコード（ｄｅｃｏｄ
ｉｎｇ）を行うシステムおよび方法に関する。文書イメ
ージは、複数のレイヤが非２値で表される場合にマスク
に従って複数のレイヤに分割される。次に、それぞれの
レイヤを処理して、別々に圧縮することにより、文書イ
メージ全体の圧縮率を高めることができる。

【００１１】本発明の一態様によれば、マスクは文書イ
メージから生成される。マスクを生成するのは、文書イ
メージのマスクおよび複数のレイヤを組み合わせた場合
のサイズに対する圧縮推定値を引き下げるためである。
その後マスクを使用して文書イメージを複数のレイヤに
分割する。このマスクにより、文書イメージのピクセル
を決定するか、またはそれぞれのレイヤに割り当てる。
マスクおよび複数のレイヤを処理して、別々にエンコー
ドし、文書イメージ全体の圧縮率を高め、圧縮速度を改
善する。複数のレイヤは非２値イメージであり、たとえ
ば前景イメージと背景イメージとを備える。

【００１２】本発明の他の態様によれば、文書イメージ
は複数のレイヤに分割され、それら複数のレイヤは前景
イメージ、背景イメージ、およびマスクを含む。マスク
は２値イメージであり、文書イメージを前景イメージと
背景イメージに分割するために使用する。一般に、マス
クを生成するのは、マスク、前景イメージ、および背景
イメージを組み合わせた場合のサイズに対する推定値を
引き下げるためである。レイヤを単色に制限するいくつ
かの従来のシステムとは異なり、前景イメージおよび背
景イメージの両方において、適当な範囲の色を使用する
ことができ、単色または一定色に制限されない。マス
ク、前景イメージ、および背景イメージの追加的な処理
を実行できる。マスク、前景イメージ、および背景イメ
ージをエンコードし、組み合わせて単一のビットストリ
ームにする。エンコードには、適当な圧縮方式をいくつ
でも使用できる。デコードの場合、圧縮されたビットス
トリームをマスクビットストリーム、前景ビットストリ
ーム、および背景ビットストリームに分割する。マスク
ビットストリーム、前景ビットストリーム、および背景
ビットストリームをマスク、前景イメージ、および背景
イメージにデコードする。マスク、前景イメージ、およ
び背景イメージに対する追加的な処理を実行できる。マ
スクに従って前景イメージおよび背景イメージを組み合
わせて再結合文書イメージにする。

【００１３】本発明のさらに他の態様によれば、マスク
セパレータ（ｍａｓｋｓｅｐａｒａｔｏｒ）は文書イ
メージを受け取り、その文書イメージからマスクを生成
する。マスクは２値形式で表される。前景背景セグメン
タ（ｆｏｒｅｇｒｏｕｎｄｂａｃｋｇｒｏｕｎｄｓｅ
ｇｍｅｎｔｅｒ）は、マスクおよび文書イメージを受け
取り、その文書イメージを前景イメージおよび背景イメ
ージに分割する。マスクエンコーダ（ｍａｓｋｅｎｃ
ｏｄｅｒ）は、マスクをマスクビットストリームにエン
コードする。前景エンコーダは、前景イメージを前景ビ
ットストリームにエンコードする。背景エンコーダは、
背景を背景ビットストリームにエンコードする。コンバ
イナコンポーネント（ｃｏｍｂｉｎｅｒｃｏｍｐｏｎ
ｅｎｔ）は、マスクビットストリーム、前景ビットスト
リーム、および背景ビットストリームを組み合わせて組
合せビットストリームを生成する。

【００１４】前記の目的および関連する目的を達成する
ために、以下の説明および付属の図面に関して、本発明
のいくつかの例示の態様を本明細書で説明する。これら
の態様は、本発明を実施するさまざまな方法を示してお
り、すべて本発明の対象となるものである。本発明の他
の利点および新規性のある特徴は、図面とともに本発明
の以下の詳細な説明を読むと明らかになるであろう。

【００１５】

【発明の実施の形態】全体を通して同様の参照番号が同
様の要素を参照するために使用されている図面を参照し
ながら、本発明について説明する。以下の説明では、説
明のため本発明を完全に理解できるように多数の特定の
詳細を定めている。ただし、こうした具体的内容がなく
ても本発明を実践できることは明白であろう。他の例で
は、よく知られている構造およびデバイスはブロック図
の形式で示されており、本発明を説明しやすくしてい
る。

【００１６】本願で使用されているように、「コンポー
ネント」という用語は、コンピュータ関連の実体（エン
ティティ）、ハードウェア、ハードウェアとソフトウェ
アとの組合せ、ソフトウェア、または実行中のソフトウ
ェアのいずれかを指すものとする。たとえば、コンポー
ネントとして、プロセッサ上で実行されているプロセ
ス、プロセッサ、オブジェクト、実行可能ファイル（ｅ
ｘｅｃｕｔａｂｌｅ）、実行（ｅｘｅｃｕｔｉｏｎ）の
スレッド、プログラム、およびコンピュータを挙げるこ
とができる。説明のために、サーバ上で実行されている
アプリケーションおよびサーバを両方ともコンポーネン
トとする。１つまたは複数のコンポーネントを１つのプ
ロセッサおよび／または実行のスレッド内に常駐させる
ことができ、またコンポーネントを１台のコンピュータ
にローカルとして配置し、かつ／または２台またはそれ
以上のコンピュータ間に分散させることができる。

【００１７】さらに、「文書イメージ」は、単色または
複数の色を含む文書のデジタル表現を指すものとする
（たとえば、２値（白黒）、階調、および／またはカラ
ー文書）。さらに、文書イメージは、イメージ、テキス
トおよび／またはイメージを含むテキストで構成するこ
とができ、場合によってはテキストとイメージとを重ね
合わせることもできる。文書イメージは、２値、ＲＧ
Ｂ、ＹＵＶ、および／またはその他の文書表現を含むこ
とができる。ＲＧＢ文書イメージは、赤、緑、および青
の成分で表される。ＹＵＶ文書イメージは、Ｙで示され
るルミネセンス成分とＵおよびＶで示されるクロミナン
ス成分を使用して表される。ＹＵＶ表現は、一般に、圧
縮に適しているが、それは人間の目がＵとＶの歪みに余
り敏感に反応せず、したがってＵおよびＶは１／２でサ
ブサンプリング（ｓｕｂｓａｍｐｌｅ）することがで
き、またＹでＲ、Ｇ、Ｂの相関が得られるからである。
テキストのクラスタ化のためには、Ｙ表現は特に興味深
いが、それは、テキストが輝度の変化から生じたときに
かなり読み取りやすいからである。所与の輝度に対する
クロミナンスの変化（たとえば赤から緑）から生じるテ
キストは所定の輝度においてかなり読みにくい。したが
って、カラー文書は、ＹＵＶ文書に変換し、その後、テ
キスト情報をそれほど失うことなく２値化することがで
きる。文書イメージは、一般に「ピクセル」と呼ばれる
画像要素を含む。文書イメージは、任意の形状またはサ
イズの単一文書または複数ページ文書に基づく。

【００１８】図１は、本発明の一態様による分割された
レイヤ化イメージエンコードシステム１００を示す高水
準ブロック図である。システム１００は、テキスト、手
書き、図面などを識別して圧縮し、任意の適当な形状ま
たはサイズの単一文書または複数ページ文書を操作する
ことができる。システム１００は、マスクセパレータ１
０２、前景背景セグメンタ１０４、マスクエンコーダ１
０６、前景エンコーダ１０８、背景エンコーダ１１０、
および組合せコンポーネント１１２を含む。マスクセパ
レータ１０２は、文書イメージ（たとえば、文書のデジ
タル表現）を受け取って、マスクを生成する。文書イメ
ージには、１つまたは複素のページを入れることがで
き、通常は、文書からスキャンされる。文書イメージ
は、任意の解像度を設定でき、これは一般にドット／イ
ンチ（ｄｐｉ）で表される。たとえば、ＦＡＸ送信文書
は通常、１５０〜２００ｄｐｉ程度の解像度を使用す
る。さらに、文書イメージは、実質的にどのようなピク
セルサイズまたは文書サイズでも設定でき、たとえば、
６４０×４８０ピクセルやＡ４サイズを設定できる。

【００１９】マスクセパレータ１０２によって生成され
るマスクを使用して、文書イメージを２つのレイヤ、前
景イメージと背景イメージに分割することができる。本
発明の他の態様ではイメージを２つよりも多いレイヤに
分割できることは理解されるであろう。マスクは、マス
クイメージとも呼ばれ、２値イメージであり、ピクセル
値によってそれぞれのピクセルが前景イメージに属する
のか、それとも背景イメージに属するのかを判別する。
マスクセパレータ１０２によって、前景イメージと背景
イメージを組み合わせたサイズが小さくなるようにマス
クが生成される。この概念を複数のマスクと複数の前景
に拡張し、それでも本発明に従うことができることは理
解されるであろう。

【００２０】マスクを生成するのにさまざまな方式を使
用できる。圧縮の場合、同等のピクセル値は異なるピク
セル値よりも圧縮率がよい。たとえば、青空の領域は色
と強度が変化する領域よりも圧縮率がよい。上述のよう
に、マスクを生成するのは、マスク、前景イメージ、お
よび背景イメージを組み合わせた場合のサイズを引き下
げるためである。

【００２１】使用できる方法の１つに、考えられるマス
クのスーパーセットを生成し、そのスーパーセットの最
良のマスクを選択する方法がある。ピクセルをＮ個含む
文書イメージの場合、可能なマスクは２^Ｎ個ある。した
がって、可能なすべてのマスクを分析して、どのマスク
で組み合わせた全体が最小になるイメージを生成するか
を判別することができる。しかし、可能なすべてのマス
クを分析することは高い計算能力を必要とし、時間もか
かるため、一般的には実用的でない。

【００２２】他の方法として、文書を複数の領域に細分
し、それぞれの領域を分析してピクセルを割り当て、少
なくとも一部はエネルギー（たとえば、エネルギー分散
(variance) ）に基づいて領域をマージする方法があ
る。エネルギー分散（得られる圧縮率の推定）は距離の
平方和に基づく測定である。文書の小さな領域、たとえ
ば２×２ピクセルまたは４×４ピクセルをエネルギー分
散に関して分析することができる。この小さな領域を前
景領域と背景領域に分割し、その小さな領域のエネルギ
ー分散が低減または最小化されるようにできる。可能な
すべてのマスクを使用して、使用するマスクを決定でき
るが、それは、分析された領域がこのような分析を実現
可能なものにできる十分な小ささであるからである。た
とえば、４ピクセルの領域については、その領域に対し
てマスクの１６の可能な順列しかない。その小さな領域
（たとえば、ペアにして）マージしてまとめ、マスクを
生成できるが、それは全体として、マスク、前景イメー
ジ、および背景イメージの組み合わせたサイズを低減す
る。

【００２３】前景背景セグメンタ１０４は、マスクセパ
レータ１０２と文書イメージからマスクを受け取る。前
景背景セグメンタ１０４は、マスクを使用して文書イメ
ージを前景イメージと背景イメージに分割する。文書イ
メージのピクセル毎に、そのマスクの対応するピクセル
が参照される。ピクセルは、そのマスクの対応するピク
セルに基づき前景イメージまたは背景イメージに割り当
てられる。たとえば、マスクの対応するピクセルが
「１」であれば、そのピクセルは前景イメージに割り当
てられる。逆に、マスクの対応するピクセルが「０」で
あれば、そのピクセルは背景イメージに割り当てられ
る。しかし、「０」または「１」が前景を示すのか背景
を示すのかは、ユーザー側で定義できることは理解され
るであろう（たとえば、「１」は背景に割り当てられ、
「０」は前景に割り当てられる）。

【００２４】さらに、前景イメージおよび背景イメージ
は互いに交わらない。しかし、マスクの追加的な処理を
実行することで、時々重なり合う場合もある異なる前景
マスクおよび背景マスクを生成し、マスク境界に沿った
結果を低減するか、またはいくつかのピクセルを完全に
無視し、圧縮率を高めることができる。次に、前景マス
クを使用して、前景イメージを文書イメージから分割
し、背景マスクを使用して文書イメージから背景イメー
ジを分割する。この場合、前景イメージと背景イメージ
は互いに素ではなく、わずかに重なり合い、このような
重なり合いのため圧縮率が低下するが、エッジ効果は下
がる。前景マスクおよび背景マスクを採用して文書イメ
ージをセグメント分割しても、前景マスクおよび背景マ
スクは文書イメージの分割後には必要ない。

【００２５】背景イメージと前景イメージには、ピクセ
ルが他方のイメージに割り当てられた穴または空の領域
がある。これらの空の領域は、注意しなくてよい（ｄｏ
ｎ’ｔｃａｒｅ）ピクセルということもできる。それ
と対照的に、空でない領域は、注意する（ｃａｒｅ）ピ
クセルということができる。空の領域は、前景と背景の
イメージの全体的な圧縮サイズが小さくなるように適当
な方法で処理することができる。これらの空の領域を注
意しなくてよいピクセル値で塗りつぶすという方法があ
る。注意しなくてよいピクセル値は、圧縮率を高め、そ
れによりイメージのサイズが小さくなるように選択され
る。たとえば、背景イメージの例は白色であるが、テキ
ストが配置されているところに注意しなくてよいピクセ
ルが設定されている。この例の、この注意しなくてよい
ピクセルを白で塗りつぶして、圧縮率を高めることがで
きる。別の方法では、空の領域を塗りつぶさず、たとえ
ばマスクウェーブレット圧縮（ｍａｓｋｅｄｗａｖｅ
ｌｅｔｃｏｍｐｒｅｓｓｉｏｎ）など空の領域を利用
する圧縮方式を使用する。本発明によればそれ以外の方
法も使用できる。

【００２６】前景イメージおよび背景イメージに追加的
な処理を実行することもできる。背景イメージおよび前
景イメージを低解像度に下げて、それぞれの圧縮サイズ
を小さくすることができる。たとえば、背景イメージと
前景イメージを３００ｄｐｉから１００ｄｐｉに引き下
げることができる。また、一定色接続コンポーネント
（ｃｏｎｓｔａｎｔｃｏｌｏｒｃｏｎｎｅｃｔｅｄ
ｃｏｍｐｏｎｅｎｔｓ）を背景イメージと前景イメー
ジ内で識別することもできる。一定色接続コンポーネン
トは、実質的に色値が同じである複数の接続ピクセルで
ある。一定色接続コンポーネントは、シードピクセル
（ｓｅｅｄｐｉｘｅｌ）を配置し、それに接続されて
いる実質的に同じ色ピクセルを決定するアルゴリズムを
利用することにより識別することができる。一定色接続
コンポーネントに最小数のピクセルが含まれるようにし
きい値または最小ピクセルを設定できる。識別された一
定色接続コンポーネントで文書イメージの圧縮率を高め
ることができる。

【００２７】マスクエンコーダ１０６は、マスクセパレ
ータ１０２からマスクを受け取り、そのマスクをエンコ
ードして、圧縮されたビットまたはビットの圧縮された
マスクストリームをマスクから生成する。マスクエンコ
ーダ１０６には適当な圧縮方式を使用できる。マスクは
２値形式であり、通常はテキスト情報を含む。２値形式
とテキスト情報も圧縮する圧縮方式を選択しなければな
らない。２レベル圧縮方式を使用してマスクをエンコー
ドすることもできる。

【００２８】マスクをエンコードするのに使用できる圧
縮方式としてＣＣＩＴＴ（国際電信電話諮問委員会）方
式がある。ＣＣＩＴＴは、現在ＩＴＵ−Ｔ国際電気通信
連合−通信部門（１９９４年に名称変更）と呼ばれる規
格制定機関であり、ＦＡＸ／モデム通信のための可逆圧
縮技術の名称になっている。この種の圧縮は、２値イメ
ージでうまく働く。標準的な圧縮比は、旧バージョンの
Ｖ．４２ｂｉｓでは、４：１、新しいバージョンのＶ．
４４２０００では６：１で、これはＬｅｍｐｅｌ−Ｚ
ｉｖ−Ｊｅｆｆ−Ｈｅａｔｈ（ＬＺＪＨ）圧縮アルゴリ
ズムに基づいている。本発明により他の適当な圧縮方法
または方式を使用してマスクをエンコードすることがで
きることは理解されるであろう。

【００２９】前景エンコーダ１０８は、前景背景セグメ
ンタ１０４から前景イメージを受け取り、その前景イメ
ージを前景ビットストリームにエンコードする。背景エ
ンコーダ１１０は、前景背景セグメンタ１０４から背景
イメージを受け取り、その背景イメージを背景ビットス
トリームにエンコードする。前景エンコーダ１０８と背
景エンコーダ１１０には適当な圧縮方式を使用できる。
たとえば、プログレッシブ波長符号化（ＰＷＣ）（ｐｒ
ｏｇｒｅｓｓｉｖｅｗａｖｅｌｅｎｇｔｈｅｎｃｏｄ
ｉｎｇ）、プログレッシブトランスフォームコーディン
グ（ＰＴＣ）（ｐｒｏｇｒｅｓｓｉｖｅｔｒａｎｓｆ
ｏｒｍｃｏｄｉｎｇ）、ＪＰＥＧ、ＪＰＥＧ２００
０、およびマスクウェーブレット圧縮方式（ｍａｓｋｅ
ｄｗａｖｅｌｅｔｃｏｍｐｒｅｓｓｉｏｎｓｃｈ
ｅｍｅｓ）を使用して前景イメージまたは背景領域をエ
ンコードすることができる。一部の圧縮方式（たとえ
ば、マスクウェーブレット）では、前景エンコーダ１０
８および背景エンコーダ１１０は前景イメージおよび背
景イメージをエンコードするためにマスクを必要とする
ことがある。

【００３０】コンバイナ（ｃｏｍｂｉｎｅｒ）コンポー
ネント１１２は、マスクエンコーダ１０６、前景エンコ
ーダ１０８、および背景エンコーダ１１０から圧縮され
たビット列を受け取り、それらのビットを出力ストリー
ムまたは出力ファイルにまとめる。コンバイナコンポー
ネント１１２は、エンコーディングの種類、辞書、およ
びデコーダによって文書イメージを再構成するために使
用できるものなどの情報を識別または提供するヘッダ情
報を出力ファイルに書き込む。

【００３１】説明のため、エンコーディングシステムを
上述のさまざまなコンポーネントを介してイメージ全体
を一度に処理するものとして説明した。しかし、重なり
合うスキャン領域を使用してメモリの使用量を減らせる
ことは理解されるであろう。たとえば、このシステムで
は、文書イメージの５１２ラインからなる第１の帯状領
域（ｓｔｒｉｐ）を処理することができる。次に、重な
り合う量、たとえば１０ラインだけ第１の帯状領域と重
なり合う第２の帯状領域がシステムによって処理され
る。文書イメージ全体が処理されるまでそれ以降の帯状
領域を処理するため、この重なり合う量により帯状領域
の間の変動が緩和される。

【００３２】上述のように、前景イメージおよび背景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。１
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比（ＰＳＮＲ）に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク（または注意する領域）ピクセルの色をつけ
る。標準の形態論アルゴリズム（ｍｏｒｐｈｏｌｏｇｙ
ａｌｇｏｒｉｔｈｍ）を使用すると、すべてのピクセ
ルにわたり２パス（ｐａｓｓ）のみでプロセスを実行す
ることができ、マスクの下にボロノイ充填空領域（Ｖｏ
ｒｏｎｏｉ−ｆｉｌｌｅｄｖａｃａｎｔｒｅｇｉｏ
ｎｓ）が生じる。次に、前景イメージまたは背景イメー
ジを再構成したら、再構成されたイメージにローパス
（ｌｏｗ−ｐａｓｓｅｄ）を実行し、既知のピクセルを
その正しい値に復元する。ローパスフィルタの遮断周波
数が低すぎる場合、鋭いエッジが発生し、境界の付近に
必要なビットレートが高くなり、顕著なリンギングが増
える。

【００３３】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、２つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と０に設定されたある種のウェーブレット係数を持つ
イメージの集合とを考察する（たとえば、特定の解像度
レベルを超える全ての高周波係数）。２つの集合への射
影を交互に切り替えることにより、表示ピクセルと一致
し、０のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。

【００３４】空領域を扱うさらに他の方法では、前景エ
ンコーダ１０８および不規則なグリッドに対して明示的
に設計された背景エンコーダ１１０にウェーブレット変
換を使用する。このようなウェーブレット分解は、コン
ピュータビジョンおよびたとえばコンピュータグラフィ
ックスにおける幾何データの圧縮とともに使用される。
このようなウェーブレットは、マスクの不規則パターン
に適合される。

【００３５】採用できるウェーブレット変換圧縮方式
は、マスクウェーブレット変換である。マスクウェーブ
レット変換は、ウェーブレット関数がマスクの変化に応
じてケースバイケースで変化する前景エンコーダ１０８
および背景エンコーダ１１０に使用できる。図１には示
されていないが、マスクウェーブレット変換圧縮方式を
使用するためにマスクが前景エンコーダ１０８と背景エ
ンコーダに供給されることは理解されるであろう。たと
えば、通常の従来のウェーブレット関数では予測にｋ個
の値を使用することができる。しかし、マスクと空領域
の場合、通常のウェーブレット関数は値が含まれないピ
クセルを処理することはできない（たとえば、注意しな
くてよい領域または空領域内の注意しなくてよいピクセ
ル）。それと対照的に、変更可能なウェーブレット関数
では前景イメージおよび背景イメージの使用可能な値ま
たは表示領域のみを使用する。したがって、マスクウェ
ーブレット変換では空領域を注意しなくてよいピクセル
で埋める必要はない。

【００３６】図２は、「リフティング（ｌｉｆｔｉｎ
ｇ）」を使用したウェーブレットの従来の一計算ステッ
プの図である。この図は、三次ウェーブレット（ｃｕｂ
ｉｃｗａｖｅｌｅｔ）に関して、位置３の予測ステップ
と、位置６の対応する更新ステップを示している（分か
りやすくするため図では他の位置を省略している）。そ
れぞれの矢印の隣にある係数は、各ステップを実行する
ために一次結合を計算する方法を示している。たとえ
ば、位置３の「詳細」値（ハイパスフィルタから得られ
る）は、以下の式を計算して求められる。ｄ_３＝ｓ_３−（−ｓ_０＋９ｓ_２＋９ｓ_４−ｓ_６）／１６式１

【００３７】更新ステップは、以下の式で計算される。ｓ_６＝ｄ_６＋（−ｄ_３＋９ｄ_５＋９ｄ_７−ｄ_９）／３２式２

【００３８】図３は、いくつかのピクセル値が欠損して
いる場合に生じる問題を示している。図では、位置１、
２、５、８、９に対する値は用意されていない。明らか
に、結果が欠損値に依存するため従来の三次ウェーブレ
ットの計算はうまく実行されない。欠損値を何らかの定
数（０またはイメージ全体にわたってとった平均値）に
設定すると鋭い不連続性が入り込み、これが圧縮率の低
下や望ましくない効果の発生につながる。それとは対照
的に、マスクウェーブレット圧縮方式では、ウェーブレ
ット関数はマスクに応じてケースバイケースで変更され
る。たとえば、リフティングの予測ステップで、ｋ個の
値を予測に使用できる場合、次数ｋ−１の多項式を補間
に使用する。値を３つしか使用できない場合、三次多項
式ではなく二次多項式を使用する。値を１つしか使用で
きない場合は、定数多項式を使用し、ウェーブレットを
Ｈａａｒウェーブレットとする。信号が次数Ｋ−１の多
項式で、ｋ個のピクセルがマスクされていない場合、予
測は完全に正確である。

【００３９】マスクウェーブレット変換の圧縮方式で
は、偶数位置にある係数から奇数位置にあるすべての係
数に対する予測の計算を利用する。奇数係数とその予測
との差がウェーブレット係数であり、これは奇数位置に
いくつかの０があるハイパスフィルタとみなすことがで
きる。信号ｓがある位置を中心に置かれ、それに応じて
インデックスが作成される。説明を簡単にするため、図
４に示されているような７タップフィルタに関してこの
方式を説明する。図４は、ｓ_０がｓ_−３、ｓ_−１、
ｓ_１、ｓ_３の関数として予測されるリフティングステッ
プを示しており、残渣ｄが計算される。

【００４０】標準の行列表記に従ってフィルタａには０
からｉまでのインデックスがつけられる。ウェーブレッ
ト係数ｄは以下の式によって与えられる。

【００４１】

【数１】

【００４２】ただし，ｋはフィルタ内のタップの個数で
ある（この場合ｋ＝７）。ハイパスフィルタのモーメン
トＭは以下のように書くことができる（ｓ_ｉ＝ｉ^ｎに設
定）。

【００４３】

【数２】

【００４４】通常の信号はｊ次の低次多項式（Ｔａｙｌ
ｏｒ展開）を使用して近似し、ａを最初のｊ＋１モーメ
ントが０に設定されるように選択する。すると、ウェー
ブレット変換は多数の０点を持ち、圧縮率が高くなる。
そこで、ｋ＝７であれば、ａは自由度４で、最初の４つ
のモーメントは０に設定される。これらの結果は以下の
系で検証される。

【００４５】

【数３】

【００４６】これは、ｗａ＝ｃと行列表記で書くことが
できる。この方程式系の解は、よく知られている三次ウ
ェーブレットａ＝［１／１６，−９／１６，−９／１
６，１／１６］で使用されている係数である。

【００４７】この方程式系は、図１に示されているマス
クなど、マスクが存在している場合に一般化される。つ
まり、係数ｓ_{２ｉ−ｋ／２}のうちいくつかが欠損してお
り、これは行列ｍを導入することによりモデル化するこ
とができる。

【００４８】

【数４】

【００４９】ただし、ｗｍａ＝ｃとなるようなｍ_ｉ∈
｛０，１｝である。ｍには、式５の方程式内の列を取り
除くという効果がある。しかし残念なことにこの方程式
系では、ｍ_ｉ＝０の場合には劣決定方程式系であり、そ
うでない場合には優決定方程式系である。その理由は、
表示ピクセルに対応するａ_ｉに課される消えるモーメン
トの制約が多すぎるからである。これは、ｍ_ｉ≠０とな
るようなｊ個の係数がある場合に最初のｊ個のモーメン
トを０にしなければならないという条件を課すことによ
り解決できる。これは、図５の方程式系の最初のｊ個の
式のみを保持することに対応する。劣決定方程式系の係
数ａ_ｉ（ａ_ｉにｍ_ｉ＝０を掛けた場合）では、任意の制
約条件ａ_ｉ＝０が追加され、このようなことは単一の方
程式系で実行できる。（ｐｗｍ＋ｍ−Ｉ）ａ＝ｐｃ式７ただし、Ｉは単位行列であり、

【００５０】

【数５】

【００５１】ここでｐ_ｉ＝（ｔｒ（ｍ）＞ｉ）？１：０式９ｐ_ｉに対する制約条件により、式５の方程式系内の行が
ｍ内の０係数毎に式５の方程式系の最下段の係数から取
り除かれる。つまり、０に等しくないｊ個の係数ｍ_ｉが
ある場合、ｉ＝［０．．ｊ−１］に対してｐ_ｉ＝１、そ
れ以外のときｐ _ｉ＝０である。システムは常にｍ_ｉ∈
｛０，１｝の値に対して一意的な解を持つことが容易に
検証できる。ｍの可能なすべての値に対するａについて
の解は、方程式系の式９によって与えられ、以下の表１
の三次ウェーブレットについてこれをまとめたが、シス
テムの次元が４の場合にｍの異なる値に対する式９の解
を示している。

【００５２】

【表１】

【００５３】次に、信号ｓを上からの予測値で更新す
る。更新ステップでは、信号に（−１）^ｉを掛けた後に
ローパスフィルタの最初のモーメントが消えることが望
ましい。つまり、通常の信号（たとえば、低次多項式と
して書くことができる）に最高周波数信号（−１）^ｉを
掛けた場合、ローパスフィルタは０を出力しなければな
らない。この条件は、前のセクションでのように０モー
メント制約として容易にキャストすることができるが、
ただし入力はｓ_ｉ＝ｉ^ｎではなくｓ_ｉ＝（−１） ^ｉｉ^ｎ
の形式となる。予測ステップと類似の表記を使用する
と、更新ステップは次の式に対応する。

【００５４】

【数６】

【００５５】ただし，ｋはフィルタ内のタップの個数で
ある（この場合ｋ＝７）。ローパスフィルタのモーメン
トは以下のように書くことができる。

【００５６】

【数７】

【００５７】しかし、各ｄ_ｉについて、式は局所的に次
のように書き直すことができる（ｓ_ｉ＝（−１）
^ｉｉ^ｎ）。

【００５８】

【数８】

【００５９】これはｊとｋ／２が奇数だからである。個
々のａ_ｉは０モーメントを生成するように設定されるた
め、以下の式が成立する。

【００６０】

【数９】

【００６１】これは、ｄ_ｊ＝−２ｊ^ｎを意味する。

【００６２】

【数１０】

【００６３】ウェーブレットで通常の信号も圧縮するに
は、できる限り多くのモーメントをできる限り０に等し
くしなければならない。自由度は４なので、最初の４つ
のモーメントを０に設定できる。以下の方程式系でこの
結果を検証することは容易である。

【００６４】

【数１１】

【００６５】これは、ｗｂ＝ｃ’と行列表記で書くこと
ができる。この方程式系の解は、よく知られている三次
ウェーブレットｂ＝［−１／３２，９／３２，９／３
２，−１／３２］で使用されている係数である。

【００６６】そこで、係数ｓ_ｉのうちいくつかが欠損し
ていると仮定する。最初に、すべての欠損値が偶数の位
置にのみあると仮定する。この方程式系は、前と同様に
して解いて以下を検証することができる。（ｐｗｍ＋ｍ−Ｉ）ｂ＝ｐｃ’ 式１６ｍとｐ行列は、ｓ_０内を中心とする位置に依存すること
に留意されたい。それぞれの位置ではマスクの異なる部
分が見えるため、それに対応するｍとｐがある。式１６
の解は、下に示す表２で与えられ、これは、方程式系の
次元が４のときの異なる値に対する式１６の解を表して
いる。式１６を導くために、奇数の位置がマスクされて
いないと仮定した。いくつかの奇数位置がマスクされて
いて、マスクされた値の個数がｎよりも小さい場合、ｄ
_ｊ＝−２ｊ^ｎと式１６が成立する。そうでない場合、予
測ステップでマスクされたピクセルが多すぎて更新ステ
ップでｎ番目のモーメントを無効にできない（ウェーブ
レット係数は小さいとしても、０ではない）。逆ウェー
ブレット変換は、リフティング形式主義のおかげで各ス
テップを局所的に逆に実行することにより容易に計算で
きる。

【００６７】

【表２】

【００６８】したがって、マスクされたウェーブレット
変換を使用して、前景イメージおよび背景イメージをエ
ンコードし、その際に空領域を埋める必要がない。しか
し、さまざまな実装において上述のように注意しなくて
よい値で空領域を充てんする他のエンコード方法または
圧縮方式を使用できることは明白である。

【００６９】図５は、本発明の一態様によるセグメント
化されたレイヤ化イメージデコードシステムを示すブロ
ック図である。システムは、圧縮されたビットストリー
ムを受け取り、組み替えたイメージを圧縮ビットストリ
ームから生成する。このシステムには、セパレータコン
ポーネント５０２、前景デコーダ５０４、背景デコーダ
５０６、マスクデコーダ５０８、およびコンバイナ５１
０が含まれる。

【００７０】セパレータコンポーネント５０２は、圧縮
されたビット列を受け取り、それらのビットを分離して
前掲ビットストリーム、背景ビットストリーム、および
マスクビットストリームを形成する。セパレータコンポ
ーネント５０２は、ヘッダ情報を使用してビットストリ
ームを分離する。前景デコーダ５０４は、前景ビットス
トリームを伸張して、前景イメージを生成する。背景デ
コーダ５０６は、背景ビットストリームを伸張して、背
景イメージを生成する。前景デコーダ５０４および背景
デコーダ５０６はたとえば、プログレッシブ波形または
プログレッシブ変換など任意の数の伸張方式を使用でき
る。

【００７１】マスクデコーダ５０８は、マスクビットス
トリームを伸張して、マスクまたはマスクイメージを生
成する。また、マスクデコーダ５０８はレイアウトおよ
び／またはリフロー情報を受け取る。さらに、マスクデ
コーダ５０８は、テキスト情報を再構成するために使用
される辞書を取得することができる。マスクデコーダ５
０８は、通常、２レベル伸張方式を使用する。一部の圧
縮方式（たとえば、マスクウェーブレット）では、前景
デコーダ５０４および背景デコーダ５０６は前景イメー
ジおよび背景イメージを取得するためにマスクデコーダ
５０８から伸張されたマスクを必要とする場合がある。

【００７２】コンバイナ５１０は、前景イメージ、背景
イメージ、およびマスクを組み合わせて組み換え文書イ
メージを生成する。組み替えられたイメージは、オリジ
ナルの文書イメージと同一であるかまたは近似的なイメ
ージである。さらに、組み替えられたイメージは所望の
表示装置に応じて形状やサイズが異なることがある。た
とえば、手紙サイズの文書のスキャンはそれよりもさら
小さい画面を持つ携帯型デバイスでは表示が異なること
がある。コンバイナ５１０は、マスクに基づいて前景イ
メージおよび背景イメージから組み替えられた文書イメ
ージのピクセルを生成する。組み替えられた文書のそれ
ぞれのピクセルは、マスクの対応するピクセルを参照す
ることにより決定され、それにより組み替えられた文書
のピクセルの出所が前景イメージなのか背景イメージな
のかを判別することができる。たとえば、マスクピクセ
ル値１は組み替えられた文書のピクセルの出所が前景イ
メージの対応するピクセルであることを示す。

【００７３】図６は本発明の一態様による文書イメージ
サンプルの図である。図６は、例であり本発明をさらに
詳しく説明することのみを目的としている。文書イメー
ジ６０１は、さまざまな色および／または陰影で表され
る。文書イメージ６０１は、テキスト情報６０２および
イメージ情報６０４および６０３と、背景６０５を含む
通常の文書イメージである。図６に示されているパター
ンは陰影または色を示している。したがって、テキスト
情報６０２は、イメージ情報６０３および６０４または
背景６０５と異なる色であってよい。さらに、この情報
では適当な数の色を使用できる。本発明により、図１の
システムを使用するなど、文書イメージ６０１を３つの
コンポーネント、マスク６１０、前景イメージ６１１、
および背景イメージ６１２に分割する。本発明の他の態
様では、文書イメージを２つまたは３つ以上のレイヤに
分割することができる。

【００７４】マスク６１０は、２値イメージであり、そ
こで、白黒領域のみで表示される。マスク６１０は、文
書イメージのピクセルが前景イメージ６１１に入るの
か、背景イメージ６１２に入るのかを決定しまたは割り
当てる。マスク６１０はさらに、前景イメージ６１１お
よび背景イメージ６１２のどのピクセルが再構成された
文書内に配置されるかを決定することにより再構成され
た文書イメージを生成するのに使用される。再構成され
た文書は同一であるか、または文書イメージ６０１を近
似したものになっている。

【００７５】図６から分かるように、前景イメージ６１
１はマスク６１０で示されているように文書イメージ６
０１の一部を含む。このマスク６１０の黒色ピクセルに
より、文書イメージ６０１のピクセルが前景イメージ６
１１に割り当てられる。前景イメージ６０３の他の部分
を注意しなくてよいピクセル６１５で埋めることができ
る。上述したように、注意しなくてよいピクセル６１５
は、圧縮率を高めるが、再構成されたイメージ内には存
在しない。同様に、背景イメージ６１２は、マスク６１
０により示されているように文書イメージ６０１の一部
を含む。このマスク６１０の白色ピクセルにより、文書
イメージ６０１のピクセルが背景イメージ６１２に割り
当てられる。図６に示されているように、背景イメージ
６０４の他の部分を注意しなくてよいピクセル６０６で
埋めることができる。注意しなくてよいピクセル６０６
は、圧縮のため存在しており、再構成されたイメージ内
に含まれない。テキスト情報６０２のアウトラインが説
明のため背景イメージ６１２内に示されている。しか
し、テキスト情報６０２は、背景６０５と一致する注意
しなくてよいピクセルで埋めて、テキスト情報６０２が
背景イメージ６１２内で見えなくすることができること
は明白である。

【００７６】上述のように、図６は本発明による数多く
のありうる文書イメージのうちの一例にすぎない。イメ
ージの多くのバリエーションを作成でき、また本発明に
そのまま基づく。

【００７７】図７は、本発明の一態様による分割（セグ
メント化）されたレイヤ化イメージエンコードシステム
を示すブロック図である。システムでは、テキスト、手
書き、図面、文書内にあるものなどの情報を識別し、文
書を圧縮することができる。システムは、適当な形状ま
たはサイズの単一文書または複数ページ文書に作用す
る。

【００７８】カラースペースコンバータ（ｃｏｌｏｒｓ
ｐａｃｅｃｏｎｖｅｒｔｅｒ）７０２は、文書イメー
ジに作用し、文書イメージのカラースペースを変換す
る。カラースペースは、文書イメージ内で色を表す方法
を指す。カラースペースは一般にピクセル毎に色を表示
する多数のコンポーネントを有する。たとえば、イメー
ジは、各ピクセルがＲＧＢ成分のそれぞれについて値を
持つＲＧＢ（赤、緑、青）カラースペースで表すことが
できる。さらに、透明成分を追加して、ピクセルの透明
性を示すこともできる。ピクセルの色全体は、これらの
成分を組み合わせることにより得られる。たとえば、白
色はＲＧＢ値２５５、２５５、２５５（１成分につき８
ビットと仮定する）を使用して得ることができ、青色は
ＲＧＢ値０、０、２００で得ることができる。ＲＧＢカ
ラースペースは、イメージの表示や文書のスキャンに使
用されることが多い。しかし、ＲＧＢカラースペースは
圧縮の妨げになることがある。

【００７９】文書内の色は一般に、相関および／または
相互関係がある。ＲＧＢカラースペースでは、各成分は
個別に圧縮されるため（チャネルにより）、同じ情報が
何回も符号化される。文書イメージの圧縮を改善するた
めに、文書のカラースペースをより圧縮率の高いカラー
スペースに変換する。

【００８０】実現可能なカラースペース変換の１つに、
文書イメージをＲＧＢカラースペースからＹＵＶカラー
スペースに変換する方法がある。Ｙ、Ｕ、Ｖ成分はそれ
ぞれ、ルミネセンス、クロミナンス赤、およびクロミナ
ンス青の成分である。ＹＵＶはもともと、テレビ視聴用
に開発されたものである。変換は、圧縮率の高さではな
く表示の好みに基づいて開発された。したがって、文書
イメージは、以下の式を使ってＲＧＢカラースペースか
らＹＵＶカラースペースに変換できる。Ｙ＝０．６Ｇ＋０．３Ｒ＋０．１ＢＵ＝Ｒ−Ｙ式１７Ｖ＝Ｂ−Ｙ

【００８１】ＹＵＶカラースペースは、ＲＧＢカラース
ペースに比べて圧縮率が優れているが、それは、成分間
の相関を利用しており、同じ情報が何回も符号化されな
いからである。相関情報のほとんどは、Ｙ成分に含まれ
ている。式１７は、ＹＵＶ成分が対応するＲＧＢ成分よ
りも小さな値で表されることを示している。しかし、上
述のように、ＹＵＶカラースペースは圧縮率を高めるた
めに設計されたわけではなく、表示性を高めるために設
計されたのである。たとえば、表示などのために式１７
を修正することにより適当な何らかの目的のために文書
イメージを再びＲＧＢカラースペースに変換することが
できることは明白である。

【００８２】他のカラースペース変換に、文書イメージ
をＲＧＢカラースペースからＹＣ_ｏＣ_ｇカラースペース
に変換する方法がある。ＹＣ_ｏＣ_ｇ表現では、Ｙで表さ
れるルミネセンス、Ｃ_ｏで表されるクロミナンスオレン
ジ、Ｃ_ｇで表されるクロミナンスグリーンを利用する。
ＲＧＢ成分は、（たとえば、上述の従来のＹＵＶの代わ
りに）変換を使用してＹＣ_ｏＣ_ｇにマッピングすること
ができる。

【００８３】

【数１２】

【００８４】ＹＣｏＣｇカラースペースマッピングの利
点は、ＲＧＢからＹＣｏＣｇへ、またＹＣｏＣｇからＲ
ＧＢへの逆変換に整数演算を利用できるという点である
ことが著しい。さらに、逆変換は乗算なしで実行でき
る。ＹＣ_ｏＣ_ｇカラースペース表現を使用すると、普及
しているＹＵＶに比べて圧縮効率が著しく高いが、それ
は現代的なデジタル画像データに対する主成分分析から
得られる統計的に最適な空間に対する近似が優れている
からである。アドバンストＹＣ_ｏＣ_ｇカラースペース
は、表示目的には設計されておらず、圧縮用に設計され
ている。さらに、式１８の式または変換では整数演算を
使用するため、文書イメージを計算効率の高い方法でＹ
Ｃ_ｏＣ_ｇカラースペースに変換することができる。

【００８５】カラースペースコンバータ７０２は、カラ
ースペースからカラースペースへ文書イメージを変換で
きることは明白である。たとえば、カラースペースコン
バータ７０２は、文書イメージをＹＵＶカラースペース
からＹＣｏＣｇカラースペースに変換することができ
る。さらに、文書イメージがすでに好ましいカラースペ
ース内にある場合、変換は実行されない。

【００８６】マスクセパレータ７０４は、文書イメージ
をカラースペースコンポーネント７０２から受け取っ
て、マスクを生成する。マスクセパレータ７０４によっ
て生成されるマスクを使用して、文書イメージを２つの
レイヤ、前景イメージと背景イメージに分割する。本発
明の他の態様ではイメージを２つよりも多いレイヤに分
割できることは理解されるであろう。マスクは、マスク
イメージとも呼ばれ、２値イメージであり、各ピクセル
値によってピクセルが前景イメージに属するのか、それ
とも背景イメージに属するのかを判別する。マスクセパ
レータ７０４によって、マスク、前景イメージ、背景イ
メージの合わせたサイズが小さくなるようにマスクが生
成される。

【００８７】マスクを生成するのにさまざまな方式が使
用できる。圧縮の場合、同等のピクセル値は異なるピク
セル値よりも圧縮率がよい。たとえば、青空の領域は色
と強度が変化する領域よりも圧縮率がよい。上述のよう
に、マスクを生成するのは、マスク、前景イメージ、お
よび背景イメージを組み合わせた場合のサイズに対する
推定値を引き下げるためである。

【００８８】採用できる方法の１つに、可能なすべての
マスクを生成し、単に最良のものを選択するという方法
がある。ピクセルをＮ個含む文書イメージの場合、可能
なマスクは２^Ｎ個ある。したがって、可能なすべてのマ
スクを検討して、どれが最小になる組合せイメージを生
成するかを判別することができる。しかし、可能なすべ
てのマスクを検討することは高い計算能力を必要とし、
時間もかかるため、一般的には実用的でない。

【００８９】他の方法として、文書を複数の領域に細分
し、それぞれの領域を分析してピクセルを割り当て、領
域をマージする方法がある。エネルギー分散は、得られ
る圧縮率の推定であり、距離の平方和に基づく測定であ
る。文書の小さな領域、たとえば２×２ピクセルまたは
４×４ピクセルをエネルギー分散に関して分析すること
ができる。この小さな領域を前景領域と背景領域に分割
し、その小さな領域のエネルギー分散が低減または最小
化されるようにできる。可能なすべてのマスクを分析し
て、使用するマスクを決定できるが、それは、領域がこ
のような分析を実現可能なものにできるほど小さいから
である。たとえば、４ピクセルの領域については、その
領域に対してマスクの１６の可能な順列しかない。その
小さな領域をマージしてまとめ、マスクを生成できる
が、それは全体として、マスク、前景イメージ、および
背景イメージの組み合わせたサイズを低減する。

【００９０】マスクを生成する他の方法として、前景お
よび背景がある領域上で一定であり、それらの定数値に
関して分散またはエネルギー分散を最小にするか、また
は実質的に減らすマスクが生成される。ここで分散は、
実際にマスクを生成する代わりに、文書イメージを分割
して前景と背景のイメージを取得し、それらを圧縮する
前景および背景の両方に関して得られる圧縮の推定値と
して使用される。上述のようにエネルギー分散は、エネ
ルギー測度でもあり（距離の平方の和）、圧縮後の前景
および背景のサイズの許容可能な推定値である。まず、
マスクを圧縮するコストは完全に無視できる。さらなる
ステップでは、マスクのサイズを考慮することもでき
る。

【００９１】与えられた領域についてその領域がＮ個の
ピクセルの集合Ｓであり、ＦおよびＢはパーティション
である（つまり、Ｆ∪Ｂ＝Ｓかつ

【００９２】

【数１３】

【００９３】）。ｆ（ｘ）がピクセル位置ｘ，ｘ∈Ｓの
イメージ値の場合、前景および背景の分散はそれぞれ次
のようになる。

【００９４】

【数１４】

【００９５】ただし、

【００９６】

【数１５】

【００９７】は、それぞれ、前景および背景の平均であ
り、Ｎ_ＦおよびＮ_Ｂはそれぞれ、前景および背景内のピ
クセルの個数である。これらの分散は以下のように表す
こともできることに留意されたい。

【００９８】

【数１６】

【００９９】和Ｅ＝ｖ_Ｆ＋ｖ_Ｂを最小にするＳの適当な
パーティションＦおよびＢを見つける。このような簡素
化を行っても、２^Ｎ個のマスクがあり得るため問題はそ
れでも並外れて困難である。したがって、イメージをさ
らに２×２ピクセルサブイメージに分割する。それぞれ
の２×２サブイメージ上に、マスクは２^４＝１６個しか
あり得ず、これは、このような領域のそれぞれで（１６
の組合せすべてを試して、最小のエネルギーで保持する
ことにより）Ｅ＝ｖ_Ｆ＋ｖ_Ｂを最小にする最適なＦおよ
びＢを求めることが可能であることを意味している。１
６の組合せすべてを試す必要がないことが分かる。問題
は、Ｋ＝２の場合のＫ−ｍｅａｎｓ問題と等価であり、
ｆ（イメージ）がスカラー関数であるので、解を求めら
れる値ｆ（ｘ）を並べ替え、非常に効率よく計算でき
る、つまり４ピクセル値すべてを並べ替え、３つのパー
ティションのうちの１つ（並べ替えに関して）から最低
のエネルギーが求められる。それぞれのパーティション
において部分和を再利用して、演算回数を最小にするこ
とができる。

【０１００】しかし、この解法には欠点があり、すべて
の２×２部分領域はピクセルノイズがごくわずかであっ
てもピックアップする可能性のある異なる前景および背
景を持ち、不適切なマスクが生じるというものである。
次のステップで、隣接する領域同士を結合する。たとえ
ば、２つの領域１および２と、対応する前景および背景
Ｆ_１、Ｂ_１、およびＦ_２、Ｂ_２を仮定する。これら４つ
の集合を組み合わせると、実際に７つの異なる組合せが
得られる。

【０１０１】

【表３】

【０１０２】勝利の組合せは、最低エネルギーＥ＝ｖ_Ｆ
＋ｖ_Ｂが得られる組合せである。７つの組合せすべてを
試すか、または前景および背景の平均を並べ替えてその
並べ替えに関するパーティションのみを考慮することに
注意されたい。さらに、それぞれの領域が量

【０１０３】

【数１７】

【０１０４】と前景に対するＮ_Ｆおよび

【０１０５】

【数１８】

【０１０６】およびＮ_Ｂを保持する場合、Ｅの組合せを
一定時間で計算できる。マージした後、通常、これらの
量を再計算する必要があるが、幸運なことに、これも一
定時間で実行できる。さらに、領域にわたる和

【０１０７】

【数１９】

【０１０８】は、それぞれの領域に関して一定であり、
最適なパーティションを選択する目的で計算する必要は
ないことに注意されたい。さらに領域にわたるこの和

【０１０９】

【数２０】

【０１１０】を使用して、以下に示すように、領域をマ
ージしない場合を決定することもできる。

【０１１１】隣接する領域同士を組み合わせる操作は、
水平方向に隣接する２×２領域を組み合わせて２×４領
域にし、その後垂直方向に隣接する２×４領域を組み合
わせて４×４領域にすることで行う。４×４領域は、８
×８領域に組み合わされ、領域が１つだけ残るまで繰り
返され、この領域が前景と背景とに分割される。

【０１１２】残念なことに、このような手法で複数の階
調を前景または背景に入れるマージとなり、領域内に２
色を超える色があるときはいつもテキストなどの重要な
詳細が失われる可能性がある。たとえば、領域１に白地
に灰色で書かれたテキストが置かれ領域２はほとんど黒
である場合、これら２つの領域のマージにより灰色と白
色が得られる領域の前景に入り、黒が背景に入るため、
テキスト情報が失われることになる。しかし、２色を前
景または背景のいずれかにマージするときはいつも、そ
の領域に対してエネルギーの急激な増大（または分散）
が顕著になるが、それはこのような領域に対しては一定
であるということはもはやよいモデルではなくなるから
である。そこで、エネルギーＥが実験的に求められる特
定のしきい値Ｋを超えた場合に隣接する領域をマージし
ないようにするアルゴリズムを採用することが望まし
い。このアルゴリズムにより、１ページ内のテキストお
よびグラフィックスラインの大半を捕捉するマスクが得
られる。

【０１１３】しかし、このアルゴリズムは、数多くの改
良点を持ち、その１つは単純領域を採用していることで
ある。小領域（たとえば、４×４）のＩ領域エネルギー
を測定し、そのエネルギーが十分に低い場合（実験的に
求めた別のしきい値を使用して）、領域全体を前景また
は背景に配置することができる。したがって、エネルギ
ーがしきい値よりも低い場合に、小さな領域の分割を避
けることで、アルゴリズムの動作を高速化することがで
きる。前景および背景に対する一定という仮定を使用す
る代わりに、多項式回帰を使用して、前景と背景を表す
ことができる。たとえば、多項式が式αｘ＋βｙ＋μで
定められる平面の場合、エネルギーは以下の式で定義さ
れる。

【０１１４】

【数２１】

【０１１５】ただし、ｘ、ｙはピクセル位置のインデッ
クスであり、α_Ｆ、β_Ｆおよびμ_Ｆはｖ_Ｆを最小にする
スカラーであり、α_Ｂ、β_Ｂ、およびμ_Ｂはｖ_Ｂを最小
にするスカラーである。α_Ｆ、β_Ｆ、およびμ_Ｆは量

【０１１６】

【数２２】

【０１１７】を使用して一定時間内に解くことができ
る。これは、３つの未知数と３つの方程式からなる一次
方程式系であり、同じことがα_Ｂ、β_Ｂ、およびμ_Ｂに
適用される。前のように、アルゴリズムはボトムアップ
であり、マージ毎にＥを最小にする。前景および背景
は、平均で並べ替えることはできず、したがって、７つ
の組合せすべてをテストしてＥを最小にする組合せを求
める。一定時間内に各テストおよびマージの実行を続け
るために、量

【０１１８】

【数２３】

【０１１９】とＮを前景および背景の各領域について保
持しなければならない。単純領域の最適化はそれでも可
能ではあるが、領域、多項式回帰、またはその両方で一
定であることを仮定できる。

【０１２０】マスクプロセッサコンポーネント７０６
は、マスクに対して処理操作を何回でも実行する。マス
クプロセッサコンポーネントは、ノイズ除去コンポーネ
ント７０８、およびディザ検出器７１０を含む。本発明
の他の態様には他のマスク処理コンポーネントを含める
ことができることは明白である。本発明の他の態様に多
少の処理コンポーネントを含めることができることはさ
らに明白である。

【０１２１】ノイズ除去コンポーネント７０８は、マス
クからノイズを除去する。上述のように、デジタル文書
は通常標準文書内でスキャンすることにより作成され
る。ある程度のノイズはほとんどいつでも、スキャンお
よびデジタル化プロセスを介してデジタル文書に入り込
む。たとえば、スキャナのトレー上の指紋や文書の折り
返しにより、ノイズおよび／または誤ったマークが文書
イメージ内に入り込むことがある。ノイズ除去コンポー
ネント７０８はまず、マスク内のノイズを識別しようと
する。マスクを識別するのにさまざまな方式を使用でき
る。１つの方法として、接続されたコンポーネントにつ
いてマスクを分析する方法がある。接続コンポーネント
は、同じ色、たとえば黒色の接続ピクセルである。マス
クは左から右に、上から下に、ページ毎にスキャンさ
れ、接続コンポーネントの検索が行われる。接続コンポ
ーネントは、位置および形状またはビットマップ情報と
ともに格納することができる。その後、文書の各ピクセ
ルを分析して、ノイズの有無を判別する。こうして、ピ
クセル毎に、５個のピクセルの距離内のすべてのピクセ
ルなどの囲む領域を分析して、囲む領域内の、および／
または囲む領域を交差する多数の接続コンポーネントを
決定する。接続コンポーネントの個数がしきい値よりも
少ない場合、ピクセルはノイズであるとみなされ、マス
クから除去される。その後、どちらか圧縮率のよい方と
いう条件でピクセルを前景または背景イメージに割り当
てる。本発明によれば他の方法も使用できる。

【０１２２】一般に、ノイズ除去コンポーネント７０８
はランダムに見える、かつ／または文書内のテキストま
たはイメージに無関係のように見えるピクセルを識別す
ることができる。ノイズ除去コンポーネント７０８は必
ずしも文書からすべてのノイズを除去するわけではない
ことは明白である。ノイズ除去コンポーネント７０８
は、ピクセルを前景イメージまたは背景イメージに割り
当てることによりマスクから識別されたノイズを除去す
る。さらに、ノイズは、たとえばノイズとして識別され
たピクセルを囲むピクセルの値で置き換えることで除去
することもできる。

【０１２３】ディザ検出器７１０マスク内のディザリン
グを検出し、マスクからディザリングを除去する。ディ
ザリングは、モノクロ表示装置またはプリンタにさまざ
まな灰色の陰影の錯覚を作り出したり、カラー表示装置
またはプリンタに追加色を表示するためにコンピュータ
グラフィックスで採用している手法である。ディザリン
グは、異なるパターンで色分けされているドットの集ま
りとしてイメージの領域を処理することに依存してい
る。ハーフトーンと呼ばれる印刷イメージと似ている
が、ディザリングは効果の平均を取り、認知された単一
の陰影または色をマージすることにより異なる色の青色
スポットへの目の傾向を利用する。与えられた領域内の
黒色ドットと白色ドットとの比に応じて効果全体が特定
の灰色陰影となる。ディザリングは、コンピュータグラ
フィックスに現実感を加え、低解像度での曲線および対
角線のぎざぎざしたエッジを滑らかにする場合に使用さ
れる。しかし、ディザリングには文書イメージに関する
問題がある。ディザリングは適切に検出し処理しない
と、テキスト、手書き、またはグラフィックとして誤っ
て解釈されることがある。

【０１２４】ディザ検出器７１０は、マスク内のディザ
リング領域を識別し、それらの領域を分割して、各領域
または部分領域が類似したディザリングパターンを持つ
ようにすることができる。ディザ検出器７１０は、識別
されたディザリング領域を除去または処理する。たとえ
ば、ディザ検出器７１０はディザリング領域を明るい灰
色であるとして識別することがある。ディザ検出器７１
０は、ディザリング領域を単に除去したり、その領域を
明るい灰色に設定したりできる。領域を陰影に変える場
合も文書イメージを変更することになることは明白であ
る。ディザ検出器７１０はさらに、マスクを修正するこ
とにより、識別されたディザリング領域を前景または背
景に再割り当てすることもできる。

【０１２５】ディザリングを検出および／または処理す
るのにさまざまな方式を使用できる。１つの方法とし
て、接続されたコンポーネントについてマスクを分析す
る方法がある。接続コンポーネントは、同じ色、たとえ
ば黒色の接続ピクセルである。マスクは左から右に、上
から下に、ページ毎にスキャンされ、接続コンポーネン
トの検索が行われる。接続コンポーネントは、位置およ
び形状またはビットマップ情報とともに格納することが
できる。マスクのピクセル毎に、囲む領域内の、および
／または囲む領域と交差する一定量の接続コンポーネン
トを決定する。囲む領域は、７などのピクセルを囲む多
数のピクセルとすることができる。領域内の接続コンポ
ーネントの数がしきい値よりも多い場合、ディザリング
は除去される。その後、ピクセルを前景または背景イメ
ージのいずれかに割り当てて、ディザリングを除去する
ことができる。この割り当てを決定するには、領域の背
景内のピクセルの数量と領域の前景内のピクセルの数量
を計算する。次に、領域の前景内のピクセルの数量が領
域の背景内のピクセルの数量よりも多い場合にそれらの
ピクセルを前景に割り当て、そうでない場合にピクセル
を背景に割り当てることができる。本発明ではディザリ
ングやハーフトーン作成を識別および／または処理する
他の方法を採用することができる。

【０１２６】クラスタ化コンポーネント７１２はマスク
内のクラスタを識別する。クラスタ化コンポーネント７
１２はマスク内に接続コンポーネントを配置する。接続
コンポーネントは、たとえば、上述のように、複数の接
続ピクセルであり、４方向接続コンポーネントまたは８
方向接続コンポーネントのいずれかとすることができ
る。マスク内に接続コンポーネントを配置した後、クラ
スタ化コンポーネント７１２は類似の接続コンポーネン
トを識別して、それらをクラスタとしてグループ化す
る。クラスタとは類似の接続コンポーネントの１グルー
プのことである。一般に、クラスタは手書きを含む英数
字文字を表すが、他の情報も含めることができる。しか
し、単一文字を表すクラスタは多数あり得る。クラスタ
化を採用すると圧縮率が劇的に向上する。

【０１２７】圧縮率が高まり、ファイルサイズが縮小す
る理由は、それぞれの接続コンポーネントが位置、およ
び形状の辞書に属している形状へのポインタにより要約
されるということである。この形状は、接続コンポーネ
ントまたはクラスタのビットマップつまり「イメージ」
である。接続コンポーネントはマークとも呼ばれる。こ
のアルゴリズムのクラスタ化の態様では、その辞書に属
する形状および各接続コンポーネントに最も近い形状を
決定する。通常、形状の辞書は、ファイルサイズの数分
の１であり、複数ページにわたって共有さえできる。形
状へのポインタは、ページ内の位置（ＸおよびＹ）と形
状番号により特徴付けられる。ＸおよびＹ位置は、前の
位置を使って圧縮できるが、形状インデックスはコンテ
キストまたは言語モデルを使って圧縮される。

【０１２８】クラスタ化コンポーネント７１２ではさま
ざまな方法を使ってクラスタを識別することができる。
１つの方法として、マークの形状を互いに比較して、同
等の、かつ／または同一のマークを識別する方法があ
る。既存のクラスタの特性およびマークまたは接続コン
ポーネントの特性を使用する方法もある。既存のクラス
タは、少なくとも１つのマークからなるグループであ
り、すでにクラスタとして定義されているものである。
文書から抽出されたマークの特性を既存のクラスタの特
性と比較する。このような比較には、不一致を識別する
ためにタイミングのよい、ビット毎のコストのかかる比
較は不要である。マーク特性と既存のクラスタ特性とが
一致しない場合、またマークが既存のクラスタからかけ
離れすぎているとみなされる場合、そのマークは新しい
クラスタとして追加され、ビット毎の比較は回避され
る。この方式では、不一致を検出する計算効率のよいス
クリーニングとクラスタ化の肯定的一致を検出する計算
効率のよいアルゴリズムの両方によりそれ自体と他の方
式とを区別する。

【０１２９】採用できるクラスタの特定の特性は、ｘサ
イズとｙサイズである。ｘサイズおよびｙサイズは、既
存のクラスタのサイズ設定情報を規定する。マークのｘ
サイズおよびｙサイズを、既存のクラスタのｘサイズお
よびｙサイズと比較し、不一致を識別する。本発明の一
態様では、クラスタをｘサイズとｙサイズでインデック
スを作成した２Ｄバケットテーブルを構成する。新しい
マークが見つかると、同一のｘサイズおよびｙサイズの
バケットが抽出され、マークがバケット内のクラスタと
比較される。隣接するバケットも、さらに正確な一致に
関して検索することができる（他のバケットはすべて無
視されるかまたはスクリーニングされる）。後述のクラ
スタ中心に関する「ドリフトなし」の仮定はここでは役
立つが、それはクラスタがバケット内にとどまることを
保証されるからである。

【０１３０】マークと既存のクラスタとの比較に使用で
きる特性の１つにインクサイズがある。インクサイズと
は一般に、マークまたはクラスタ内の黒色ピクセルとピ
クセル全体との比を指す。同様に、マークのインクサイ
ズを、既存のクラスタのインクサイズと比較して、不一
致を識別することができる。マークの他の特性に「ホッ
トポイント」がある。ホットポイントはマーク上のある
位置であり、重心とすることができ、または他の手段に
より計算することができる（たとえば、囲む文字の直線
方程式）。比較を開始する前にマークのホットポイント
とクラスタの位置を揃えると、多くの場合並行移動（ｔ
ｒａｎｓｌａｔｉｏｎ）する。さらに他の特性として、
縮小されたマークまたはイメージがあるが、これはピク
セルサイズの縮小バージョンで、マークおよび／または
クラスタのビットマップである。本発明の一態様では、
縮小マークはホットポイントの中心に置かれ、マークは
縮小マークのサイズが固定されるように拡大縮小され
る。再び、クラスタのドリフトなし仮定が、クラスタの
縮小バージョンがクラスタ内のすべてのマークを適切に
表現することを保証する際に役立つ。縮小マークと既存
のクラスタの縮小マークまたは縮小イメージとを比較し
て不一致を識別することができる。

【０１３１】マークに対するすべての特性テストが成功
した場合、より直接的な方法でクラスタ化との比較が行
われる。マークとクラスタとの距離を計算し、第１のし
きい値と比較する。距離がしきい値の範囲内にあれば、
マークは既存のクラスタに追加される。マークを第１の
許容可能な既存クラスタに追加したり、あるいはマーク
を、そのマークとの比較から最小距離にある既存クラス
タに追加することができる。

【０１３２】さらに、クラスタ内に配置されている第１
の要素によりクラスタを特徴付けることができる。その
ような方式の利点は、新しいマークをクラスタに追加す
る場合でもクラスタの特性の再計算が不要だという点で
ある。この方式の他の利点として、新しいマークをクラ
スタに追加する毎にクラスタ中心が移動する際に発生す
る「クラスタドリフト」が避けられるという点が挙げら
れる。クラスタドリフトがないことは、「ドリフトな
し」仮定とも呼ばれるが、これにより、同じクラスタの
２つの要素の間の最大距離が保証され、この保証で効率
のよい積極的なスクリーニングが行える。このような方
式の主な欠点は、ｋ−ｍｅａｎｓなどの他のクラスタ化
アルゴリズムと比べて同じクラスタ−マーク間距離に対
してクラスタが多くなるという意味でクラスタ化が最適
でないという点である。しかし、この方式の著しい利点
は速度向上にある。テキスト圧縮が容易になり、クラス
タの個数が１０％増えることは問題ではない。というの
も、各クラスタの情報を伝達する辞書のサイズが通常、
圧縮された文書のサイズの数分の１だからである。

【０１３３】クラスタ化コンポーネント７１２がマスク
内のクラスタを識別した後、マスク上で光学式文字認識
（ＯＣＲ）を実行するＯＣＲコンポーネント７１４がマ
スクを受け取る。ＯＣＲコンポーネント７１４は、マス
ク内の文字である可能性のあるものを識別し、クラスタ
化コンポーネント７０７からのクラスタを利用して、文
字に関するクラスタの分析を支援することができる。各
クラスタを分析して、クラスタが文字かどうかを判別
し、その後、そのクラスタがどのような文字を表すかを
判別する。この方式は、言語および／またはアルファベ
ットが異なれば異なる。一般に、クラスタの形状または
ビットマップを使用しているアルファベットの形状また
はビットマップと比較する。その形状が十分似ていれ
ば、クラスタはその特定の文字であると認識される。見
つかったそれぞれの文字の位置情報をその順序とともに
保持することができる。文字は、ＡＳＣＩＩなどの標準
アルファベットの文字の列として格納できる。

【０１３４】レイアウトコンポーネント７１６はマスク
に作用し、圧縮率を高め、レイアウト情報を伝達する。
レイアウト情報を後から使用して、文書イメージをリフ
ローすることができる。レイアウトコンポーネント７１
６は、圧縮率を高め、かつ／またはレイアウト情報を伝
達するためにさまざまな方式を使用することができる。
ある方式では、最初に接続コンポーネントを色、垂直位
置、および／または水平位置により整理する。クラスタ
化コンポーネント７１２などの、システム７００の他の
コンポーネントにより接続コンポーネントを提供するこ
ともできる。レイアウトコンポーネント７１６は、その
後、少なくとも一部は色、垂直位置、水平位置、結合距
離（たとえば、接続コンポーネント間の距離）、接続コ
ンポーネントの高さ、および／または接続コンポーネン
トの幅に基づき接続コンポーネントを結合または組み合
わせる。したがって、結合された接続コンポーネントは
２つまたはそれ以上の接続コンポーネントで構成され
る。結合コンポーネントは、さらに、他の接続コンポー
ネントまたは他の結合コンポーネントと結合することも
できる。レイアウトコンポーネント７１６は、提供する
レイアウト情報を生成する。レイアウト情報には、結合
コンポーネントの位置、ラインの位置、および文書イメ
ージのその他の情報を含むことができる。

【０１３５】マスクエンコーダ７１８は、レイアウト分
析コンポーネント７１６からマスクを受け取り、そのマ
スクをエンコードしてマスクビットストリームと呼ばれ
る圧縮ビットストリームを生成する。マスクエンコーダ
７１８では適当な圧縮方式を採用できる。マスクは２値
形式であり、通常はテキスト情報を含む。したがって、
２値形式およびテキスト情報も圧縮する圧縮方式を選択
しなければならない。２レベル圧縮方式を使用してマス
クをエンコードすることもできる。さらに、マスクエン
コーダ７１８は、たとえば、ライブラリ、辞書、シンボ
ル、テーブルサイズなどのマスクビットストリームをデ
コードするために使用されるエンコーディング情報をエ
ンコードするかまたは供給する。

【０１３６】マスクをエンコードするのに使用できる圧
縮方式としてＣＣＩＴＴ（国際電信電話諮問委員会）方
式がある。ＣＣＩＴＴは、現在ＩＴＵ−Ｔ国際電気通信
連合−通信部門（１９９４年に名称変更）と呼ばれる規
格制定機関であり、ＦＡＸ／モデム通信のための可逆圧
縮技術の名称になっている。この種の圧縮は、２値イメ
ージでうまく働く。標準的な圧縮比は、旧バージョンの
Ｖ．４２ｂｉｓでは、４：１、新しいバージョンのＶ．
４４２０００では６：１で、これはＬｅｍｐｅｌ−Ｚ
ｉｖ−Ｊｅｆｆ−Ｈｅａｔｈ（ＬＺＪＨ）圧縮アルゴリ
ズムに基づいている。本発明により他の圧縮方法または
方式を使用してマスクをエンコードすることができる。

【０１３７】前景背景セグメンタ７１９は、文書イメー
ジとマスクを受け取り、その文書イメージを前景イメー
ジおよび背景イメージに分離する。本発明のこの態様に
より、前景イメージおよび背景イメージは文書イメージ
と実質的に同じサイズである（たとえば、文書イメージ
が６４０×４８０で、前景イメージが６４０×４８０
で、背景イメージが６４０×４８０ピクセル）。しか
し、本発明の他の態様では、文書イメージとサイズが実
質的に異なる前景イメージおよび背景イメージを生成す
ることができる。前景イメージおよび背景イメージは、
組合せまたは組み換えたときに、文書イメージと同一に
なるかまたは類似する。

【０１３８】前景背景セグメンタ７１９は、２値形式で
あるマスクを使用して、前景イメージと背景イメージと
を作成する。たとえば、マスク内で１により表されてい
るすべてのピクセルは前景イメージに入り、マスク内で
０により表されるすべてのピクセルは背景イメージに入
る。逆に、たとえば、マスク内で０により表されている
すべてのピクセルは前景イメージに入り、マスク内で１
により表されるすべてのピクセルは背景イメージに入る
こともできる。しかし、背景イメージおよび前景イメー
ジは通常、ピクセルに値が割り当てられていない。値が
割り当てられていないピクセルは、穴、空領域、および
／または注意しなくてよいピクセルと呼ばれる。

【０１３９】さらに、前景背景セグメンタ７１９は、膨
張処理コンポーネント７２０と画像修正コンポーネント
７２１を含む。膨張処理コンポーネント７２０は、前景
イメージおよび／または背景イメージに応じてマスクに
作用する。膨張操作は、マスクを受け取りｋを定数（た
とえば、２）としてｋ個のピクセルで「１」の領域を拡
大する距離変換に基づく形態論操作である。距離は、マ
ンハッタン距離または球面距離である。逆演算である浸
食（ｅｒｏｓｉｏｎ）は、逆マスクの膨張処理により実
行できる。通常のスキャンされた文書では、テキストは
インクのにじみやスキャン時の低ｄｐｉ設定の結果、消
えかかっている（ｗａｓｈｏｕｔ）ことが多い。した
がって、白色から黒色への遷移は連続的段階的な遷移で
あり、マスクにより前景と背景との間のハード境界が定
義される。前景と背景の両方の境界近くで連続遷移があ
ると、リンギングが入り込み、エンコードに手間がかか
ることがある。このような影響を緩和するために、境界
付近のピクセル値を無視するとよい。これは、複数のピ
クセルの距離（たとえば、２）だけ、前景および背景の
両方に対する「注意しなくてよい」値の膨張処理を実行
して行う。テキストの領域周辺で、「注意しなくてよ
い」ピクセルの膨張処理により、コントラストおよび可
読性の両方が高まるが、ファイルサイズは縮小する。し
かし、自然のイメージの領域内で膨張処理を使用する
と、コントラストが高まる結果、イメージがマンガ的に
なる。この問題を回避するために、マスクのレイアウト
分析を実行し、テキストからなる領域を検出する。膨張
操作は、テキスト領域にのみ固有のものとすることがで
きる。膨張処理コンポーネント７２０は、マスクを前景
マスクと背景マスクとに分けることができる。その結
果、前景および背景の両方に対して注意しなくてよいピ
クセルが生じる。これらのピクセルはそれでも、妥当な
値を割り当てられるが、それは、膨張距離が小さく、前
景および背景は通常、圧縮のせいでなめらかであり、し
たがって注意しなくてよいピクセルに、隣にある注意す
るピクセルからあまり隔たっていない値を割り当てられ
る。しかし、注意しなくてよいピクセルの膨張処理時に
は注意するピクセルの小さいまたは細い領域を完全に抹
消しないよう注意しなければならない。このようなこと
になると、ピクセルは強制されず、注意するピクセルか
らはるか隔たり、はるか遠い領域からの予測できない色
付けが生じることになる。このようなことを防ぐため
に、距離変換に注意し、極値が注意するから注意しなく
てよいに切り替わるのを防ぐ。

【０１４０】最終的には前景イメージおよび背景イメー
ジを組み合わせて組み換え文書を生成できることは明白
である。しかし、鋭いエッジや遷移があると、圧縮は低
下し、組み替えられたイメージはエッジやラインなどの
視覚的欠陥を生じることがある。たとえば、マスクによ
り実質的に類似している色領域に偽境界が生じ、実質的
に類似している領域の一部が前景イメージに別の一部が
背景イメージに置かれることになる場合にこのようなこ
とが発生する。これらの部分は、別々に処理され別々に
エンコードされるため、最終的に組み換えたときに偽境
界に視覚的に目立ったラインを生じる。さらに、偽境界
は本質的にそれぞれの部分でエンコードされるためこれ
らの部分の圧縮率は低下する可能性がある。

【０１４１】画像修正コンポーネント７２１はマスクに
作用し、文書イメージの「画像修正」を行うため、文書
イメージの全体的な圧縮率が改善され、視覚的に、組み
替えられた文書イメージも向上する。一般に、画像修正
コンポーネント７２１は、マスクを使って偽境界を識別
しかつ／または前景および／または背景イメージを拡大
する。一方式では、画像修正コンポーネント７２１はマ
スクを使用して、前景イメージおよび背景イメージ内の
偽境界を識別する。検出は、ピクセルの最初のしきい値
量（たとえば、５ピクセル）よりも長いマージされた領
域境界の水平および／または垂直ラインを識別すること
で行うが、その際に（１）境界の片側が前景、他方の側
が背景であり、（２）いずれかの側のそのラインに沿っ
た直線回帰が第２のしきい値よりも多い量の分だけ異な
る（たとえば、直線回帰をピクセルの前景側の境界ピク
セル上で実行し、ピクセルの背景側のピクセルに対して
直線回帰を実行する）。画像修正コンポーネント７２１
は、マスクセパレータ７０４からこの領域情報を取得す
ることができる。画像修正コンポーネント７２１は次
に、マスクから別々の前景マスクおよび背景マスクを生
成することにより前景および／または背景イメージを拡
大する。前景マスクは前景イメージを拡大し、背景マス
クは背景イメージを拡大する。一般に、前景イメージお
よび背景イメージは偽境界をまたいでピクセル数分拡大
される。前景マスクおよび背景マスクは通常、デコード
プロセスの一部としてエンコードまたは使用されないこ
とは明白である。組み替え時に、また本発明に従って、
画像修正コンポーネント７２１に対して他の方式を使用
し、文書イメージの圧縮率を高め、視覚的表示を向上さ
せることができる。

【０１４２】上述のように、前景背景セグメンタ７１９
は、マスクを使用して文書イメージを前景イメージと背
景イメージに分割する。前景マスクと背景マスクとが膨
張処理コンポーネント７２０および／または画像修正コ
ンポーネントにより生成される場合、前景マスクを使用
して文書イメージを前景イメージに分割し、背景マスク
を使用して文書イメージを背景イメージに分割する。

【０１４３】前景ピクセルフィラー（ｆｏｒｅｇｒｏｕ
ｎｄｐｉｘｅｌｆｉｌｌｅｒ）７２２は、前景背景
セパレータセグメンタ７１９から前景イメージを受け取
る。一般に、前景ピクセルフィラー７２２は、前景イメ
ージ内の注意しなくてよい領域または空領域を識別し、
これらの領域を注意しなくてよいピクセルで埋める。こ
れらの領域は、前景イメージ内に空領域または注意しな
くてよい領域を残している背景イメージに割り当てられ
た文書イメージのピクセルから形成される。この注意し
なくてよいピクセルは、通常、組み替えられた文書イメ
ージ内に存在し、前景ピクセルフィラー７２２では注意
しなくてよいピクセルの視覚的表示を考慮しない。本発
明の他の態様では、マスクウェーブレット圧縮方式など
の注意しなくてよい領域を適切に扱える圧縮方式を使用
することにより注意しなくてよいピクセルを埋める操作
を回避することができる。

【０１４４】上述のように、前景イメージおよび背景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。１
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比（ＰＳＮＲ）に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク（または注意する領域）ピクセルの色をつけ
る。標準の形態論アルゴリズムを使用すると、すべての
ピクセルにわたり２パスのみでプロセスを実行すること
ができ、マスクの下にボロノイ充填空領域が生じる。次
に、前景イメージまたは背景イメージを再構成したら、
再構成されたイメージにローパスを実行し、既知のピク
セルをその正しい値に復元する。ローパスフィルタの遮
断周波数が低すぎる場合、鋭いエッジが発生し、境界の
付近に必要なビットレートが高くなり、顕著なリンギン
グが増える。

【０１４５】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、２つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と０に設定されたある種のウェーブレット係数を持つ
イメージの集合を考察する（たとえば、特定の解像度レ
ベルを超える全ての高周波係数）。２つの集合への射影
を交互に切り替えることにより、表示ピクセルと一致
し、０のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。

【０１４６】空領域を扱う他の方法としてさらに、不規
則グリッド用に明示的に設計されたウェーブレット変換
を使用する方法がある。このようなウェーブレット分解
は、コンピュータビジョンおよびコンピュータグラフィ
ックスにおける幾何データの圧縮の問題で必要になる。
このようなウェーブレットは、マスクの不規則パターン
に適合される。

【０１４７】他の方式では、注意しなくてよい領域を注
意しなくてよいピクセルで埋めることなく前景イメージ
を効率よく圧縮できるエンコーディングを行うマスクウ
ェーブレット圧縮方式を使用する。図１に関して説明し
たようなマスクウェーブレット圧縮方式は、採用できる
圧縮方式の１つである。本発明により、注意しなくてよ
い領域を取り扱う他の適当な方式を使用することができ
る。

【０１４８】前景ダウンサンプル（ｄｏｗｎｓａｍｐｌ
ｅ）コンポーネント７２４は、前景ピクセルフィラー７
２２から前景イメージを受け取り、前景イメージのダウ
ンサンプリングを行う。前景ダウンサンプルコンポーネ
ント７２４は、前景イメージのサイズを縮小し、前景イ
メージおよび文書イメージの圧縮率を高める。たとえ
ば、６４０×４８０ピクセルの前景イメージを３２０×
２４０にダウンサンプリングできる。前景イメージをダ
ウンサンプリングするのにさまざまな方式を使用でき
る。方法の１つに、いくつかのピクセルを破棄して前景
イメージをダウンサンプリングする方法がある。したが
って、たとえば、すべての他のピクセルを破棄すること
により前景イメージを６４０×４８０ピクセルから３２
０×２４０にダウンサンプリングできる。他の方法とし
て、前景イメージからの対応するピクセルの平均に基づ
いて新しいピクセルを生成する方法がある。たとえば、
前景イメージの新しいピクセルをそれぞれ、８個の隣接
するピクセルの平均として生成することができる。さら
に他の方法では、三次補間を使ってダウンサンプリング
する。さらに本発明によればイメージをダウンサンプリ
ングする他の方法を採用できる。エンコーダで前景およ
び背景をダウンサンプリングする場合、一般に、マスク
を使って組み合わせる前にデコーダ内でアップサンプリ
ング（ｕｐｓａｍｐｌｅ）しなければならない。

【０１４９】前景エンコーダ７２６は、前景イメージを
エンコードする。前景エンコーダ７２６は、前景イメー
ジからエンコードされたビットストリームを生成する。
このビットストリームは、前景ビットストリームと呼ぶ
ことができる。前景エンコーダ７２６では、多数の適当
な圧縮方式を使って、前景イメージをエンコードするこ
とができる。たとえば、採用できるいくつかの圧縮方式
例としてプログレッシブウェーブレットエンコーディン
グまたはプログレッシブトランスフォームエンコーディ
ングがある。

【０１５０】前景エンコーダ７２６は、さらに、前景イ
メージの圧縮率を高めるため一定色接続コンポーネント
アナライザ（図に示されていない）を含むこともでき
る。一定色接続コンポーネントでは、クラスタ化コンポ
ーネント７１２について説明したのと同様の方式とアル
ゴリズムを使用できる。一定色接続コンポーネントアナ
ライザが、前景イメージをスキャンして、一定色接続ピ
クセルを識別する。一定色接続ピクセルのグループがし
きい値よりも大きい場合、そのグループは一定色接続コ
ンポーネントまたは一定色マークとみなされる。「一定
色」には、色のいくつかのバリエーションが含まれるこ
とが理解される。一定色接続コンポーネントアナライザ
は、さらに、類似の一定色接続コンポーネントを一定色
クラスタにグループ化することができる。一定色クラス
タの位置情報、一定色接続コンポーネントのビットマッ
プ、形状、位置情報などの関連情報を前景ビットストリ
ームとともに含めることができる。一定色は、テキスト
で構成される領域を検出するために、採用されているレ
イアウトアナライザーを介してテキストに制限すること
もできる。

【０１５１】背景ピクセルフィラー７３０は、前景背景
セパレータ７１９から背景イメージを受け取る。背景ピ
クセルフィラー７３０は、背景イメージ内の注意しなく
てよい領域を識別し、これらの領域を注意しなくてよい
ピクセルで埋める。これらの領域は、背景イメージ内に
空領域または注意しなくてよい領域を残している前景イ
メージに割り当てられた文書イメージのピクセルから形
成される。この注意しなくてよいピクセルは、通常、組
み替えられた文書イメージ内に存在し、背景ピクセルフ
ィラー７３０では注意しなくてよいピクセルの視覚的表
示を考慮しない。本発明の他の態様では、マスクウェー
ブレット圧縮方式などの注意しなくてよい領域を適切に
扱える圧縮方式を使用することにより注意しなくてよい
ピクセルを埋める操作を回避することができる。背景ピ
クセルフィラー７３０は、実質的に前景ピクセルフィラ
ー７２２と同じ動作をする。

【０１５２】上述のように、背景イメージおよび前景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。１
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比（ＰＳＮＲ）に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク（または注意する領域）ピクセルの色をつけ
る。標準の形態論アルゴリズムを使用すると、すべての
ピクセルにわたり２パスのみでプロセスを実行すること
ができ、マスクの下にボロノイ充填空領域が生じる。次
に、前景イメージまたは背景イメージを再構成したら、
再構成されたイメージにローパスを実行し、既知のピク
セルをその正しい値に復元する。ローパスフィルタの遮
断周波数が低すぎる場合、鋭いエッジが発生し、境界の
付近に必要なビットレートが高くなり、顕著なリンギン
グが増える。

【０１５３】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、２つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と０に設定されたある種のウェーブレット係数を持つ
イメージの集合を考察する（たとえば、特定の解像度レ
ベルを超える全ての高周波係数）。２つの集合への射影
を交互に切り替えることにより、表示ピクセルと一致
し、０のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。

【０１５４】空領域を扱う他の方法としてさらに、不規
則グリッド用に明示的に設計されたウェーブレット変換
を使用する方法がある。このようなウェーブレット分解
は、コンピュータビジョンおよびコンピュータグラフィ
ックスにおける幾何データの圧縮の問題で必要になる。
このようなウェーブレットは、マスクの不規則パターン
に適合される。

【０１５５】他の方式では、注意しなくてよい領域を注
意しなくてよいピクセルで埋めることなく背景イメージ
を効率よく圧縮できるエンコーディングを行うマスクウ
ェーブレット圧縮方式を使用する。図１に関して説明し
たようなマスクウェーブレット圧縮方式は、採用できる
圧縮方式の１つである。本発明により、注意しなくてよ
い領域を取り扱う他の適当な方式を使用することができ
る。

【０１５６】背景ダウンサンプルコンポーネント７３２
は、背景ピクセルフィラー７３０から背景イメージを受
け取り、背景イメージのダウンサンプリングを行う。背
景ダウンサンプルコンポーネント７３２は、背景イメー
ジのサイズを縮小し、背景イメージおよび文書イメージ
の圧縮率を高める。たとえば、６４０×４８０ピクセル
の背景イメージを３２０×２４０にダウンサンプリング
できる。背景イメージをダウンサンプリングするのにさ
まざまな方式を使用できる。方法の１つに、いくつかの
ピクセルを破棄して背景イメージをダウンサンプリング
する方法がある。したがって、たとえば、他のすべての
ピクセルを破棄することにより背景イメージを６４０×
４８０ピクセルから３２０×２４０にダウンサンプリン
グできる。他の方法として、背景イメージからの対応す
るピクセルの平均に基づいて新しいピクセルを生成する
方法がある。たとえば、背景イメージの新しいピクセル
をそれぞれ、８個の隣接するピクセルの平均として生成
することができる。さらに本発明によればイメージをダ
ウンサンプリングする他の方法を採用できる。一般に、
前景イメージおよび背景イメージのサイズは、前景ダウ
ンサンプルコンポーネント７２４および背景ダウンサン
プルコンポーネント７３２によって縮小された後も実質
的に同じである。

【０１５７】背景エンコーダ７３４は、背景イメージを
エンコードする。背景エンコーダ７３４は、背景イメー
ジからエンコードされたビットストリームを生成する。
このビットストリームは、背景ビットストリームと呼ぶ
ことができる。背景エンコーダ７３４では、多数の適当
な圧縮方式を使って、背景イメージをエンコードするこ
とができる。たとえば、採用できるいくつかの圧縮方式
例としてプログレッシブウェーブレットエンコーディン
グまたはプログレッシブトランスフォームエンコーディ
ングがある。

【０１５８】背景エンコーダ７３４は、さらに、背景イ
メージの圧縮率を高めるため一定色接続コンポーネント
アナライザ（図に示されていない）を含むこともでき
る。一定色接続コンポーネントでは、クラスタ化コンポ
ーネント７１２に関して説明したのと同様の方式とアル
ゴリズムを使用できる。一定色接続コンポーネントアナ
ライザが、背景イメージをスキャンして、一定色接続ピ
クセルを識別する。一定色接続ピクセルのグループがし
きい値よりも大きい場合、そのグループは一定色接続コ
ンポーネントまたは一定色マークとみなされる。「一定
色」には、色のいくつかのバリエーションが含まれるこ
とが理解される。一定色接続コンポーネントアナライザ
は、さらに、類似の一定色接続コンポーネントを一定色
クラスタにグループ化することができる。一定色クラス
タの位置情報、一定色接続コンポーネントのビットマッ
プ、形状、位置情報などの関連情報を背景ビットストリ
ームとともに含めることができる。一定色は、レイアウ
トアナライザーがテキストで構成される領域を検出する
ために使用されている場合にテキストに制限することも
できる。

【０１５９】マスクエンコーダ７１８、前景エンコーダ
７２６、および背景エンコーダ７３４とともに適当な圧
縮方式をいくつでも使用できる。これらの方式のうちい
くつかについて上で説明した。マスクエンコーダ７１
８、前景エンコーダ７２６、および背景エンコーダ７３
４とともに使用できる圧縮方式および追加圧縮方式の詳
細をここで説明する。

【０１６０】本発明で使用できるよく知られている圧縮
方式として、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐ
ｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）、ＰＷＴ（Ｐｒ
ｏｇｒｅｓｓｉｖｅＷａｖｅｌｅｔＴｒａｎｓｆｏ
ｒｍ）、ＪＰＥＧ２０００、ＰＴＣ（Ｐｒｏｇｒｅｓ
ｓｉｖｅＴｒａｎｓｆｏｒｍＣｏｄｅｃ）、ＧＩＦ
（ＧｒａｐｈｉｃＩｎｔｅｒｃｈａｎｇｅＦｏｒｍ
ａｔ）、ＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋ
Ｇｒａｐｈｉｃｓ）を使用できる。ＪＰＥＧは、標準的
圧縮比が２：１である可逆圧縮の設定があるが、一般的
には非可逆圧縮であり、離散コサイン変換（ＤＣＴ）に
基づいている。この圧縮技術は、一般的に、写真イメー
ジで使用される。ＪＰＥＧは、フルカラー圧縮に対し平
均圧縮比２０：１で１ピクセル２４ビットの色（１６０
０万色）を格納できる。しかし、一般的に、平均圧縮比
は１０：１から２０：１で、目立った損失はなく、６
０：１〜１００：１が中画質、６０：１〜１００：１が
低画質となる。この技術のわずかな欠点として、鋭いエ
ッジに対する処理の難しさと、透明性のサポートが欠如
していることが挙げられる。さらに、ＧＩＦ形式よりも
表示に時間が長くかかるが、フルカラーや階調スキャン
で取り込んだ写真などのイメージに関してはＧＩＦより
も優れている。

【０１６１】ＰＷＴは、可逆技術の一部であり、他の多
くの圧縮技術の基盤となっている。ＰＷＴは、イメージ
全体を最初に表示し、時間を追って解像度を繰り返し上
げてゆくのが一番よいという考えに基づいている。この
ため、高忠実度のイメージを効率よく転送できる。特
に、低頻度コンポーネントを最初に転送することによ
り、イメージ全体の低解像度バージョンが転送される。
その後、高い頻度のコンポーネントが到着する毎に解像
度を上げてゆく。

【０１６２】ＪＰＥＧ２０００は、ウェーブレットベ
ースの圧縮技術を使用するＤＣＴに基づいてＪＰＥＧ規
格の代替とする目的で設計された。ＪＰＥＧ２０００
では、２４ビットカラーを維持しながら、ＪＰＥＧに存
在したブロッキングの問題をなくした。さらに、ＪＰＥ
Ｇ２０００は、非可逆と可逆の両方の圧縮をサポート
し、非可逆で圧縮比は２０１：１、可逆では２：１とな
っている。

【０１６３】ＰＴＣは、ＪＰＥＧ、ＧＩＦ、ＰＮＧ、Ｍ
−ＪＰＥＧ、ＪＰＥＧ−ＬＳおよびその他の形式などの
機能のいくつかを組み合わせた圧縮方式であるが、より
優れた圧縮効率を持ち、多くの場合、エンコードおよび
デコードが著しく高速化されている。ＰＴＣは、ＪＰＥ
Ｇに比べてサイズが縮小される。

【０１６４】ＰＴＣは新しい機能も追加している。追加
された重要機能の１つに、スケーラビリティ（またはプ
ログレッシブレンダリング（ｐｒｏｇｒｅｓｓｉｖｅ
ｒｅｎｄｅｒｉｎｇ））がある。元のＰＴＣファイルか
ら、その一部を解析してデコードすることにより、より
解像度の低い、または忠実度の低い画像を得ることがで
きる。また、ＰＴＣは１色当たり最大１６ビットまでサ
ポートし、４色チャネルまたは成分（Ｒ、Ｇ、Ｂ、およ
びアルファ）をサポートするが、ここでアルファとは透
明度成分である。また、ＰＴＣは可逆および非可逆エン
コーディングを単一コーデックにまとめている。さら
に、ＰＴＣ用の効率的な参照コードも利用できる。この
コードは、使用メモリ量が少なく、整数演算のみを使用
し（浮動小数点演算を使用しない）、正確な再現性を実
現している。

【０１６５】ＰＴＣを実装するために、多解像度変換
（ｍｕｌｔｉ−ｒｅｓｏｌｕｔｉｏｎｔｒａｎｓｆｏｒ
ｍ）を使用して、プログレッシブレンダリングを実現す
る。１つの方法では、ウェーブレットを使用するが、計
算コストの低いより効率的な方法では、階層型重複変換
（ｈｉｅｒａｒｃｈｉｃａｌｌａｐｐｅｄｔｒａｎ
ｓｆｏｒｍｓ）を使用する。ＰＴＣでは、新しい階層型
重複双直交変換（ＬＢＴ：ｈｉｅｒａｒｃｈｉｃａｌ
ｌａｐｐｅｄｂｉｏｒｔｈｏｇｏｎａｌｔｒａｎｓ
ｆｏｒｍ）が、より小さな４×４ブロックサイズと整数
係数とを使用することにより、従来のＰＴＣ構成を基に
改善し、実質的に乗算なしで計算を実行できるようにし
ている（従来のＰＴＣ方式の変換では浮動小数点算術演
算を使用していた）。重複変換が一般に普及している離
散コサイン変換（ＪＰＥＧおよびＭＰＥＧで使用してい
るＤＣＴ）に勝っている主な利点は、重複変換にはＤＣ
Ｔの「ブロッキングの問題」を免れているという点であ
る。また、ＰＴＣで使用しているＬＢＴが多解像度（階
層型）形式であるため、リンギングの問題もＤＣＴベー
スのコーデックに比べてあまり目立たなくなっている。

【０１６６】ＧＩＦは、平均圧縮比３：１ほどで１ピク
セル８ビット色（２５６色）の可逆圧縮形式である。Ｇ
ＩＦはＬｅｍｐｅｌ−Ｚｉｖ−Ｗｅｌｃｈ（ＬＺＷ）符
号化方式を組み込んでいるため、写真については大きな
圧縮率を達成していないが、単純な線の描画に適してい
る。ＧＩＦ圧縮は、あらゆる種類のイメージで利用でき
るが、ごくわずかしか色を使用しないコンピュータ生成
グラフィックスで最も効率よく使用することができ、こ
れがＷｅｂベースのグラフィックス用に普及している理
由となっている。さらに、鋭いエッジを含む図表イメー
ジについてはＪＰＥＧよりも圧縮率がよい。

【０１６７】ＰＮＧは、ＧＩＦに比べて平均１０〜３０
％ほどサイズが小さくなる圧縮機能を提供する可逆形式
である。これもまた、トゥルーカラーイメージについて
はＪＰＥＧよりも優れているが、４８ビット色を使用し
ておりＪＰＥＧの２４ビット色に勝っている。さらに、
ＰＮＧは透明性に対応しており、その圧縮は非対称的、
つまり、伸張は高速であるが、圧縮にかなり時間がかか
る。ＰＮＧは、インターネットで使用することを目的に
開発されており、高速な伸張がプラスされている。さら
に、ＰＮＧは、ＬＺＷ符号化を採用しているＧＩＦ形式
の代替を目的に設計された。ＰＮＧでは、ＬＺＷ符号化
の代わりにフリーウェアのＧｚｉｐ圧縮方式を採用して
いる。

【０１６８】図８は、本発明の一態様によるセグメント
化されたレイヤ化イメージデコードシステムを示すブロ
ック図である。システムは、圧縮されたビット、ビット
ストリームまたはファイルを受け取り、組み替えたイメ
ージを生成する。このシステムには、セパレータコンポ
ーネント８０２、前景デコーダ８０４、背景デコーダ８
０６、マスクデコーダ８０８、リフローコンポーネント
８１０、およびコンバイナ８１２が含まれる。

【０１６９】セパレータコンポーネント８０２は、圧縮
されたビット列を受け取り、それらのビットを分離して
前景ビットストリーム、背景ビットストリーム、および
マスクビットストリームを形成する。セパレータコンポ
ーネント８０２は、ヘッダ情報を使用してビットストリ
ームを分離する。前景デコーダ８０４は、前景ビットス
トリームを伸張して、前景イメージを生成する。背景デ
コーダ８０６は、背景ビットストリームを伸張して、背
景イメージを生成する。

【０１７０】マスクデコーダ８０８は、マスクビットス
トリームを伸張して、マスクまたはマスクイメージを生
成する。また、マスクデコーダ８０８はレイアウトおよ
び／またはリフロー情報を受け取る。さらに、マスクデ
コーダ８０８は、テキスト情報を再構成するために使用
される辞書を取得することができる。一部の圧縮方式
（たとえば、マスクウェーブレット）では、前景デコー
ダ８０４および背景デコーダ８０６は前景イメージおよ
び背景イメージを取得するためにマスクデコーダ８０８
から伸張されたマスクを取り出す必要がある場合があ
る。

【０１７１】リフローコンポーネント８１０は、所望の
表示特性に応じて前景イメージ、背景イメージ、および
マスクに作用する。所望の表示特性には、表示ページサ
イズ、列数、フォントサイズなどの特性を含めることが
できる。所望の表示特性は、元の文書イメージの特性と
かなりかけ離れることがある。たとえば、文書イメージ
は、レターページサイズと１０ポイントのフォントサイ
ズを有することができる。文書イメージのこれらの特性
は、標準のレターペーパーで表示するのに適している。
しかし、これらの特性ではポータブルデジタルアシスタ
ント（ＰＤＡ）などの携帯型デバイスで視ることを非常
に困難にする。ＰＤＡは、一般に表示画面が狭く、解像
度が低い。リフローがないと、ＰＤＡを使用するユーザ
ーはテキストの各行を読むのにスクロールしていかなけ
ればならない。したがって、ＰＤＡの場合、所望の表示
特性は列サイズ２０、フォントサイズ１４などである。
リフローコンポーネント８１０は、所望の表示特性に従
って、必要に応じてテキストを折り返し、段落の位置を
変更し、センテンスの位置を変更し、イメージの位置を
変更し、イメージのサイズを変更し、かつ／またはその
他の適当な修正を加えることができる。リフローコンポ
ーネント８１０は、前景イメージ、背景イメージ、およ
び／またはマスクとともにエンコードされたレイアウト
情報を利用する。

【０１７２】コンバイナ８１２は、前景イメージ、背景
イメージ、およびマスクを組み合わせて組み換え文書イ
メージを生成する。組み替えられたイメージは、オリジ
ナルの文書をイメージと同一であるかまたは近似的なイ
メージである。さらに、組み替えられたイメージは所望
の表示特性に応じて形状および／またはサイズが異なる
ことがある。コンバイナ８１２は、マスクに基づいて前
景イメージおよび背景イメージから組み替えられた文書
イメージのピクセルを生成する。組み替えられた文書の
それぞれのピクセルは、マスクの対応するピクセルを参
照することにより決定され、それにより組み替えられた
文書のピクセルの出所が前景イメージなのか背景イメー
ジなのかを判別することができる。たとえば、マスクピ
クセル値１は組み替えられた文書のピクセルの出所が前
景イメージの対応するピクセルであることを示す。さら
に、コンバイナ８１２は、適当なカラースペース変換を
必要に応じて実行する。たとえば、ＹＣｏＣｇカラース
ペースを使用して、組み替えられたイメージを表現する
ことができる。そこで、この例を続けると、コンバイナ
８１２は、ＹＣｏＣｇカラースペースからＲＧＢカラー
スペースに変換する（たとえば、モニタに表示するため
に）。

【０１７３】図９は、本発明の一態様による文書イメー
ジのエンコード方法を示す流れ図である。文書イメージ
は９０２で与えられる。文書イメージはビットマップイ
メージであり、通常はＲＧＢである、カラースペース表
現を持つ。文書イメージをそのカラースペースから、Ｙ
ＵＶやＹＣｏＣｇなどの他のカラースペースに変換し、
圧縮率を高めることができる。

【０１７４】９０４で、文書イメージのマスクが生成さ
れる。このマスクは文書イメージに基づく２値イメージ
である。マスクは、文書イメージをセグメントに分割ま
たは前景イメージと背景イメージに分割し、前景イメー
ジと背景イメージが高い圧縮率を持つように生成され
る。マスクの各ピクセルにより、文書イメージの対応す
るピクセルを前景イメージに配置するか、背景イメージ
に配置するかを決定する。圧縮後、マスク、前景イメー
ジ、および背景イメージの合わせたサイズが小さくなる
ような適当な方法でマスクを生成することができる。

【０１７５】ノイズ検出、ノイズ訂正、ディザ検出、お
よび処理を限定せずに含むマスクの追加的な処理をその
マスクに対して実行できることは明白である。たとえ
ば、デジタル化プロセスで文書イメージにノイズが入り
込むことが多い。たとえば、指紋や汚れを意図せず文書
イメージにつけてしまうことがある。ノイズを識別し
て、マスクから除去することができる。ディザリング
は、変化する灰色またはカラーの陰影の錯覚を作り出す
ために使用される手法である。ディザリングでは、陰影
をシミュレートするために領域内のドットの比またはパ
ーセンテージを変える。ディザリングを使用するとイメ
ージを見栄え良くすることができるが、デジタル文書で
は問題を生じることがある。ディザリングがテキスト、
手書きなどとして誤って解釈される可能性がある。マス
ク内のディザリングを識別して、適宜処理することがで
きる。

【０１７６】さらに、マスク内のクラスタを識別するこ
とができる。マスク内で接続コンポーネントが識別され
る。接続コンポーネントは、１つまたは複数の接続ドッ
ト、通常は黒色ドットのグループである。類似の接続を
コンポーネントはクラスタにまとめられる。それぞれの
クラスタは、ビットマップとマスク内の位置へのポイン
タで表すことができる。クラスタを使用することで、膨
大な領域を節約できる。クラスタは、文字、手書きなど
を表すことができる。

【０１７７】また、光学式文字認識をマスク上で実行す
ることができる。クラスタは、手書きを表そうとテキス
トを表そうと、分析してテキストまたは文字を識別する
ことができる。文字が認識されると、文字をたとえば、
ＡＳＣＩＩコードとして保存することで、さらにいっそ
う格納領域を節約することができる。さらに、光学式文
字認識を使用することで、リフローを強化し、文書イメ
ージを最終的に組み替えたときに文書イメージの編集を
容易に行えるようにできる。

【０１７８】マスクをさらに分析して、文書イメージの
レイアウト特性を識別することもできる。文字、クラス
タ、およびイメージ位置を分析することで、レイアウト
特性の識別が可能である。センテンス、段落、フォー
ム、イメージ位置、ページ付けを限定せずに含むレイア
ウト特性も識別できる。後で使用するため、マスクとと
もにレイアウト特性を添付またはエンコードすることが
できる。

【０１７９】９０６で、マスクに従って文書イメージを
前景イメージおよび背景イメージに分割する。たとえ
ば、マスク内で１により表されているすべてのピクセル
は前景イメージに入り、０により表されるすべてのピク
セルは背景イメージに入る。本発明の他の態様で文書イ
メージを他の適当な数のレイヤに分割できること、また
本発明が図９に関して説明した２つのレイヤに制限され
ないことは明白である。

【０１８０】前景イメージおよび背景イメージは文書イ
メージとサイズが同じである。しかし、前景イメージお
よび背景イメージは、ピクセルに値が割り当てられてい
ない。これらのピクセルを穴、空隙、および／または空
領域と呼ぶ。穴は、それらのピクセルに対応する値が他
のイメージに割り当てられていた場合に発生する。背景
イメージおよび前景イメージに画像修正を行うことで、
最終的に組み替えられるイメージ内のハードエッジを減
らすことができる。画像修正では、前景イメージおよび
背景イメージを多数のピクセルで拡大し、鋭いエッジお
よび／または遷移を避けるようにする。通常、画像修正
では、マスクから前景マスクと背景マスクを生成し、そ
の前景マスクを使って文書イメージから前景イメージを
分割し、背景マスクを使って文書イメージから背景イメ
ージを分割する。前景マスクを使用すると前景イメージ
を拡大しやすくなり、背景マスクを使用すると背景イメ
ージを拡大しやすくなる。

【０１８１】９０８で、前景イメージ内の穴または空隙
を、注意しなくてよいピクセルで埋める。注意しなくて
よいピクセルは、圧縮後、前景イメージの圧縮率が高く
なり、前景イメージのサイズが小さくなるように選択す
る。注意しなくてよいピクセルは、さまざまな適当な方
法で決定することができる。採用できる方法の１つに、
注意しなくてよい領域を文書イメージの平均ピクセル値
で埋めるという方法がある。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比（ＰＳＮＲ）に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他の方法では、注意しなくてよい領域内のそれぞれ
のピクセルに、最も近い非マスク（または注意する領
域）ピクセルの色をつける。標準の形態論アルゴリズム
を使用すると、すべてのピクセルにわたり２パスのみで
プロセスを実行することができ、マスクの下にボロノイ
充填空領域が生じる。次に、前景イメージまたは背景イ
メージを再構成したら、再構成されたイメージにローパ
スを実行し、既知のピクセルをその正しい値に復元す
る。ローパスフィルタの遮断周波数が低くなりすぎる場
合、鋭いエッジが発生し、境界の付近に必要なビットレ
ートが高くなり、顕著なリンギングが増える。空領域を
扱う他の方法として、凸集合への射影を使用する方法が
ある。たとえば、２つの凸集合、つまり、表示ピクセル
上の入力と一致するイメージの集合と０に設定されたあ
る種のウェーブレット係数を持つイメージの集合を考察
する（たとえば、特定の解像度レベルを超える全ての高
周波係数）。２つの集合への射影を交互に切り替えるこ
とにより、表示ピクセルと一致し、０のウェーブレット
係数が多数あることから圧縮率の高いイメージを見つけ
ることができる。本発明により、注意しなくてよい領域
を埋める他の適当な方式を使用することができる。

【０１８２】９１０で、背景イメージ内の穴または空隙
を、注意しなくてよいピクセルで埋める。注意しなくて
よいピクセルは、圧縮後、背景イメージの圧縮率が高く
なり、背景イメージのサイズが小さくなるように選択す
る。注意しなくてよいピクセルは、前景イメージに関す
る上述のさまざまな適当な方法で決定することができ
る。

【０１８３】本発明の他の態様で空領域を埋めないまま
にしておくことができることは明白である。したがっ
て、マスクウェーブレット圧縮方式などの圧縮方式を使
用して、前景イメージおよび背景イメージをエンコード
する際に空領域または注意しなくてよい領域を埋める必
要がない。

【０１８４】９１２で、マスクをエンコードしてマスク
ビットストリームを生成する。適当な圧縮方式によりマ
スクをエンコードする。この圧縮方式では、テキスト情
報とマスクの２値表現を使用して、マスクの圧縮率を高
めることができる。さらに、クラスタ、レイアウト情報
などもマスクの圧縮率を高めるに使用できる。

【０１８５】前景イメージおよび背景イメージに追加的
な処理を実行できることは明白である。たとえば、前景
イメージおよび背景イメージに対し、ノイズ除去および
ダウンサンプリングを実行できる。ノイズ除去では、前
景イメージおよび背景イメージ内に存在するノイズを除
去したり処理したりする。通常、このようなノイズは、
スキャンプロセスや変換プロセスで入り込む。ダウンサ
ンプリングを実行すると、前景イメージと背景イメージ
のサイズが縮小する。たとえば、６４０×４８０ピクセ
ルの前景イメージと背景イメージを３２０×２４０のサ
イズのイメージにダウンサンプリングできる。

【０１８６】９１４で、前景イメージをエンコードして
前景ビットストリームを生成する。適当な圧縮方式によ
り前景イメージをエンコードする。前景イメージをエン
コードするのに使用できる圧縮方式の例として、ＰＷ
Ｃ、ＰＴＣ、ＪＰＥＧ、ＪＰＥＧ２００、ＰＮＧ、お
よびＧＩＦがある。本発明によれば他の圧縮方式も使用
できる。

【０１８７】９１６で、背景イメージをエンコードして
背景ビットストリームを生成する。適当な圧縮方式によ
り背景イメージをエンコードする。背景イメージをエン
コードするのに使用できる圧縮方式の例として、ＰＷ
Ｃ、ＰＴＣ、ＪＰＥＧ、ＪＰＥＧ２００、ＰＮＧ、お
よびＧＩＦがある。本発明によれば他の圧縮方式も使用
できる。

【０１８８】また背景イメージおよび前景イメージを分
析して一定色接続コンポーネントを識別し、前景イメー
ジおよび背景イメージの圧縮率をさらに高めることもで
きる。一定色接続コンポーネントは、実質的に色値が同
じである複数の接続ピクセルを備える。一定色接続コン
ポーネントは、色のシードピクセルを配置し、アルゴリ
ズムを使用して同じ色または実質的に同じ色を持つ接続
ピクセルのすべてまたは実質的にすべてを見つけること
により識別することができる。

【０１８９】マスクビットストリーム、前景ビットスト
リーム、および背景ビットストリームを９１８で組み合
わせて組合せビットストリームにする。組合せビットス
トリームもファイルでよい。使用したエンコーダ、辞
書、シンボル、ライブラリなどの情報を含むヘッダ情報
を、組み合わせたビットストリームに追加することもで
きる。

【０１９０】図１０は、本発明の一態様による文書イメ
ージをデコードする方法を示す流れ図である。１００２
でビットストリームを受け取る。ビットストリームは組
み合わせたビットストリームであり、マスクビットスト
リーム、前景ビットストリーム、背景ビットストリー
ム、およびヘッダ情報を含む。１００４で、ビットスト
リームは、マスクビットストリーム、前景ビットストリ
ーム、および背景ビットストリームに分割される。さら
に、ヘッダ情報を抽出できる。

【０１９１】１００６で、マスク、前景イメージ、およ
び背景イメージをマスクビットストリーム、前景ビット
ストリーム、および背景ビットストリームからそれぞれ
デコードする。マスク、前景イメージ、および背景イメ
ージを、イメージ成分と総称する。エンコードに使用し
た圧縮方式と互換性のある伸張方式を使用して、マス
ク、前景イメージ、および背景イメージをデコードす
る。ヘッダ情報には、この圧縮／伸張情報を入れること
ができる。マスクおよび／またはヘッダ情報に、レイア
ウト情報またはレイアウト特性を入れることができる。
さらに、辞書、シンボル、およびその他の情報をマスク
からデコードしたり、ヘッダ情報から取得することがで
きる。

【０１９２】１００８に表示特性を与える。表示特性
は、ユーザーによって予め定められた入力とし、かつ／
または動的に決定することができる。表示特性には、表
示サイズ、フォントサイズ、列などの情報を含めること
ができる。１０１０で、表示特性に従って、マスク、前
景イメージ、および背景イメージを修正する。イメージ
成分は、組み換えたときに、表示特性と一致するように
修正される。たとえば、マスク内のテキストをリフロー
して、パン操作なしで狭い画面上に適切に表示できる。

【０１９３】１０１２でマスク、前景イメージ、および
背景イメージを組み合わせて、組み替えられた文書イメ
ージを形成する。マスクに従って前景イメージおよび背
景イメージを組み合わせて、組み替えられた文書イメー
ジを形成する。マスクは２値で、組み替えられた文書イ
メージの各ピクセルはマスクの対応するピクセルに応じ
て前景イメージまたは背景イメージの対応するピクセル
から値を割り当てる。組み替えられた文書イメージは、
オリジナルの文書イメージと同一であるかまたは近似的
なイメージである。オリジナルの文書イメージは、受け
取ったビットストリームに最初にエンコードされた文書
イメージである。

【０１９４】本発明のシステムおよび／または方法をシ
ステム全体で使用することにより、テキスト、手書き、
図面などを識別しかつ／または圧縮することが容易にな
ることは理解されるであろう。さらに、当業者であれ
ば、本発明のシステムおよび／または方法は、写真複写
機、文書スキャナ、光学式文字認識システム、ＰＤＡ、
ＦＡＸマシン、デジタルカメラ、および／またはデジタ
ルビデオカメラを限定せずに含む、さまざまな文書イメ
ージ用途に使用できることを理解するであろう。

【０１９５】本発明のさまざまな態様に関する背景につ
いてさらに説明するために、図１１および以下の説明で
は、本発明のさまざまな態様を実装する適当なコンピュ
ーティング環境１１１０の簡潔で一般的な説明を行う。
コンピューティング環境１１１０は、１つの可能なコン
ピューティング環境にすぎず、本発明を採用できるコン
ピューティング環境を制限する意図はないことは理解さ
れるであろう。本発明は、１つまたは複数のコンピュー
タで実行可能なコンピュータ実行可能命令の一般的コン
テキストにおいて上で説明したとおりであるが、本発明
は他のプログラムモジュールと組合せ、かつ／またはハ
ードウェアとソフトウェアとの組合せとして、実装でき
ることも理解するであろう。一般に、プログラムモジュ
ールには、特定のタスクを実行する、あるいは特定の抽
象データ型を実装するルーチン、プログラム、コンポー
ネント、データ構造などが含まれる。さらに、本発明の
方法が、シングルプロセッサまたはマルチプロセッサの
コンピュータシステム、ミニコンピュータ、メインフレ
ームコンピュータ、パーソナルコンピュータ、ハンドヘ
ルドコンピューティングデバイス、マイクロプロセッサ
ベースまたはプログラム可能な民生電子機器（それぞれ
１つまたは複数の関連装置に結合できる）などの他のコ
ンピュータシステム構成でも実施できることは明白であ
ろう。本発明の図に示されている態様はさらに、通信ネ
ットワークを介してリンクされているリモート処理デバ
イスにより複数のタスクが実行される分散コンピューテ
ィング環境で実施することも可能である。分散コンピュ
ーティング環境では、プログラムモジュールをローカル
とリモートの両方のメモリ記憶装置に配置できる。

【０１９６】図１１は、本発明で説明しているシステム
および方法を利用するのに助けとなる１つの可能なハー
ドウェア構成を示している。スタンドアロンアーキテク
チャが示されているが、本発明により適当なコンピュー
ティング環境を使用できることは理解されるであろう。
たとえば、スタンドアロン、マルチプロセッサ、分散、
クライアント／サーバ、ミニコンピュータ、メインフレ
ーム、スーパーコンピュータ、デジタルおよびアナログ
を含むが、これらには限定されないコンピュータアーキ
テクチャを本発明により使用することができる。

【０１９７】図１１を参照すると、本発明のさまざまな
態様を実装する環境例１１１０は、処理装置１１１４、
システムメモリ１１１６、およびシステムメモリを含む
さまざまなシステムコンポーネントを処理装置１１１４
に結合するシステムバス１１１８を含むコンピュータ１
１１２を含む。処理装置１１１４は、さまざまな市販プ
ロセッサがあるがそのうちどれでもよい。デュアルマイ
クロプロセッサおよびその他のマルチプロセッサアーキ
テクチャも、処理装置１１１４として採用することがで
きる。

【０１９８】システムバス１１１８には、さまざまな市
販バスアーキテクチャを使用するメモリバスまたはメモ
リコントローラ、周辺バス、およびローカルバスを含む
数種類のバス構造がある。コンピュータメモリ１１１６
は、読み取り専用メモリ（ＲＯＭ）１１２０およびラン
ダムアクセスメモリ（ＲＡＭ）１１２２を含む。起動時
などにコンピュータ１１１２内の要素間の情報伝送を助
ける基本ルーチンを含む基本入出力システム（ＢＩＯ
Ｓ）は通常、ＲＯＭ１１２０に格納される。

【０１９９】コンピュータ１１１２はさらに、たとえば
取り外し可能ディスク１１２８への読み書きを行うハー
ドディスクドライブ１１２４、磁気ディスクドライブ１
１２６、および、たとえばＣＤ−ＲＯＭディスク１１３
２の読み込みを行ったり、その他の光媒体への読み書き
を行う光ディスクドライブ１１３０を含むことができ
る。ハードディスクドライブ１１２４、磁気ディスクド
ライブ１１２６、および光ディスクドライブ１１３０
は、ハードディスクドライブインタフェース１１３４、
磁気ディスクドライブインタフェース１１３６、および
光ドライブインタフェース１１３８によりそれぞれ、シ
ステムバス１１１８に接続される。コンピュータ１１１
２は、通常、少なくともある種の形態のコンピュータ読
み取り可能媒体を含む。コンピュータ読み取り可能媒体
は、コンピュータ１１１２からアクセスできる使用可能
な媒体である。たとえば、コンピュータ読み取り可能媒
体は、コンピュータ記憶媒体および通信媒体を含むこと
ができるが、これに限定されるものではない。コンピュ
ータ記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造体、プログラムモジュール、またはその他のデー
タなどの情報を格納する方法または技術で実装される揮
発性および不揮発性、取り外し可能および取り外し不可
能媒体を含む。コンピュータ記憶媒体としては、ＲＡ
Ｍ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはそ
の他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディ
スク（ＤＶＤ）もしくはその他の磁気記憶デバイス、ま
たは所望の情報を格納するために使用することができコ
ンピュータ１１１２によりアクセスできるその他の媒体
があるが、これらに限定されるものではない。通信媒体
は、通常、コンピュータ読み取り可能命令、データ構造
体、プログラムモジュール、または搬送波もしくはその
他のトランスポートメカニズムなどの変調データ信号内
のその他のデータを実現し、情報配信媒体を含む。「変
調データ信号」という用語は、信号内の情報をエンコー
ドする方法でその特性のうち１つまたは複数を設定また
は変更した信号を意味する。たとえば、通信媒体として
は、有線ネットワークまたは直接配線接続などの有線媒
体、および、音響、ＲＦ、赤外線、およびその他の無線
媒体などの無線媒体があるが、これらに限定されるもの
ではない。上記のいずれかの組合せもコンピュータ読み
取り可能媒体の範囲に収まるであろう。

【０２００】オペレーティングシステム１１４０、１つ
または複数のアプリケーションプログラム１１４２、そ
の他のプログラムモジュール１１４４、およびプログラ
ム非割り込みデータ１１４６を含む、多数のプログラム
モジュールをドライブおよびＲＡＭ１１２２に格納す
ることができる。コンピュータ１１１２内のオペレーテ
ィングシステム１１４０は、多数市販されているオペレ
ーティングシステムのどれでもよい。

【０２０１】ユーザーは、キーボード１１４８およびマ
ウス１１５０などのポインティングデバイスを介してコ
ンピュータ１１１２にコマンドおよび情報を入力でき
る。他の入力デバイス（図に示されていない）として
は、マイクロフォン、ＩＲリモートコントロール、ジョ
イスティック、ゲームパッド、衛星放送受信アンテナ、
スキャナなどがある。これらの入力デバイスやその他の
入力デバイスは、システムバス１１１８に結合されてい
るシリアルポートインタフェース１１５２を介して処理
装置１１１４に接続されることが多いが、パラレルポー
ト、ゲームポート、またはユニバーサルシリアルバス
（ＵＳＢ）、ＩＲインタフェースなどの他のインタフェ
ースにより接続することもできる。モニタ１１５４やそ
の他のタイプの表示デバイスも、ビデオアダプタ１１５
６などのインタフェースを介してシステムバス１１１８
に接続される。モニタに加えて、コンピュータは通常、
スピーカやプリンタなどの他の周辺出力デバイス（図に
示されていない）を含む。

【０２０２】コンピュータ１１１２は、リモートコンピ
ュータ１１５８などの１つまたは複数のリモートコンピ
ュータへの論理および／または物理接続を使用してネッ
トワーク環境で動作することもできる。リモートコンピ
ュータ１１５８は、ワークステーション、サーバコンピ
ュータ、ルータ、パーソナルコンピュータ、マイクロプ
ロセッサベースの娯楽機器（ｅｎｔｅｒｔａｉｎｍｅｎ
ｔａｐｐｌｉａｎｃｅ）、ピアデバイスまたはその他
の共通ネットワークノードでもよく、通常は、コンピュ
ータ１１１２に関係する上述の要素の多くまたはすべて
を含むが、簡単のためメモリ記憶装置１１６０のみが図
に示されている。図に示されている論理接続は、ローカ
ルエリアネットワーク（ＬＡＮ）１１６２とワイドエリ
アネットワーク（ＷＡＮ）１１６４を含む。このような
ネットワーキング環境は、事務所、企業規模のコンピュ
ータネットワーク、イントラネットおよびインターネッ
トではよくある。

【０２０３】ＬＡＮネットワーキング環境で使用する場
合は、コンピュータ１１１２はネットワークインタフェ
ースまたはアダプタ１１６６を介してローカルネットワ
ーク１１６２に接続される。ＷＡＮネットワーキング環
境で使用する場合は、コンピュータ１１１２は通常、モ
デム１１６８を含むか、またはＬＡＮで通信サーバに接
続されるか、またはインターネットなどのＷＡＮ１１
６４上で通信を確立するためのその他の手段を有する。
モデム１１６８は、内蔵でも外付けでもよいが、シリア
ルポートインタフェース１１５２を介してシステムバス
１１１８に接続される。ネットワーク環境では、コンピ
ュータ１１１２またはその一部に関して述べたプログラ
ムモジュールは、リモートメモリ記憶装置１１６０に格
納できる。図に示されているネットワーク接続は例であ
り、コンピュータ間に通信リンクを確立するのにその他
手段を使用できることは理解されるであろう。

【０２０４】図１２は、本発明で対話操作できるサンプ
ルコンピューティング環境例１２００の概略ブロック図
である。システム１２００は、１つまたは複数のクライ
アント１２１０を含む。クライアント１２１０は、ハー
ドウェアおよび／またはソフトウェア（たとえば、スレ
ッド、プロセス、コンピューティングデバイス）とする
ことができる。システム１２００はさらに、１つまたは
複数のサーバ１２３０を含む。サーバ１２３０も、ハー
ドウェアおよび／またはソフトウェア（たとえば、スレ
ッド、プロセス、コンピューティングデバイス）であ
る。サーバ１２３０は、たとえば、本発明を採用するこ
とにより変換を実行するスレッドを格納できる。クライ
アント１２１０とサーバ１２３０との間の１つの可能な
通信として、２つまたはそれ以上のコンピュータプロセ
スの間で伝送されるように修正されたデータパケットの
形式のものがある。システム１２００は、クライアント
１２１０とサーバ１２３０との間の通信を円滑にするた
めの通信フレームワーク１２５０を含む。クライアント
１２１０は、情報をクライアント１２１０にローカルで
格納するために使用できる１つまたは複数のクライアン
トデータ記憶装置１２６０に接続し動作させることがで
きる。同様に、サーバ１２３０は、情報をサーバ１２３
０にローカルで格納するために使用できる１つまたは複
数のサーバデータ記憶装置１２４０に接続し動作させる
ことができる。

【０２０５】上述の内容には、本発明の実施例が含まれ
る。もちろん、本発明を説明するためにコンポーネント
または方法の考えられるすべての組合せを説明すること
は不可能であるが、当業者であれば、本発明の他の多く
の組合せおよび置換が可能であることは理解できるであ
ろう。したがって、本発明は、請求項の精神と範囲に収
まるそのようなすべての改変、修正、およびバリエーシ
ョンを包含するものとする。さらに、「含む」という用
語を詳細な説明または請求項で使用している範囲におい
て、このような用語は「備える、含む」という用語と同
様の使い方において包括的であることを意図しており、
これは「備える、含む」という用語を使用した場合に請
求項中の暫定的用語と解釈されるのと同様である。

【図面の簡単な説明】

【図１】本発明の一態様による分割されたレイヤ化イメ
ージエンコードシステムを示すブロック図である。

【図２】ウェーブレットの計算ステップ例の図である。

【図３】いくつかのピクセルが欠損している場合のウェ
ーブレットの計算ステップ例を示す図である。

【図４】マスクウェーブレット（ｍａｓｋｅｄｗａｖ
ｅｌｅｔ）の計算ステップ例を示す図である。

【図５】本発明の一態様による分割されたレイヤ化イメ
ージデコードシステムを示すブロック図である。

【図６】本発明の一態様による文書イメージサンプルの
図である。

【図７】本発明の一態様による分割されたレイヤ化イメ
ージエンコードシステムを示すブロック図である。

【図８】本発明の一態様による分割されたレイヤ化イメ
ージデコードシステムを示すブロック図である。

【図９】本発明の一態様による文書のエンコード方法を
示す流れ図である。

【図１０】本発明の一態様による文書のデコード方法を
示す流れ図である。

【図１１】本発明により構成されているシステムの動作
環境例の概略ブロック図である。

【図１２】本発明による通信環境例の概略ブロック図で
ある。

【符号の説明】

１００レイヤ化イメージエンコードシステム１０２マスクセパレータ１０４前景背景セグメンタ１０６マスクエンコーダ１０８前景エンコーダ１１０背景エンコーダ１１２組合せコンポーネント５０２セパレータコンポーネント５０４前景デコーダ５０６背景デコーダ５０８マスクデコーダ５１０コンバイナ６０１文書イメージ６０２テキスト情報６０３、６０４イメージ情報６０５背景６１０マスク６１１前景イメージ６０２背景イメージ７０２カラースペースコンポーネント７０４マスクセパレータ７０６マスクプロセッサコンポーネント７０８雑音除去コンポーネント７１０ディザ検出器７１２クラスタ化コンポーネント７１４ＯＣＲコンポーネント７１６レイアウト分析コンポーネント７１８マスクエンコーダ７１９前景背景セグメンタ７２０膨張処理コンポーネント７２１画像修正コンポーネント７２２前景ピクセルフィラー７２４前景ダウンサンプルコンポーネント７２６前景エンコーダ７３０背景ピクセルフィラー７３２背景ダウンサンプルコンポーネント７３４背景エンコーダ８０２セパレータコンポーネント８０４前景デコーダ８０６背景デコーダ８０８マスクデコーダ８１０リフローコンポーネント８１２コンバイナ１１１０コンピューティング環境１１１２コンピュータ１１１４処理装置１１１６システムメモリ１１１８システムバス１１２０読み取り専用メモリ（ＲＯＭ）１１２２ランダムアクセスメモリ（ＲＡＭ）１１２４ハードディスクドライブ１１２６磁気ディスクドライブ１１２８取り外し可能ディスク１１３０光ディスクドライブ１１３２ＣＤ−ＲＯＭディスク１１３４ハードディスクドライブインタフェース１１３６磁気ディスクドライブインタフェース１１３８光ドライブインタフェース１１４０オペレーティングシステム１１４２アプリケーションプログラム１１４４プログラムモジュール１１４６プログラム非割り込みデータ１１４８キーボード１１５０マウス１１５２シリアルポートインタフェース１１５４モニタ１１５６ビデオアダプタ１１５８リモートコンピュータ１１６０メモリ記憶装置１１６２ローカルエリアネットワーク（ＬＡＮ）１１６４ワイドエリアネットワーク（ＷＡＮ）１１６６アダプタ１１６８モデム１２００コンピューティング環境例１２３０サーバ１２４０サーバデータ記憶装置１２５０通信フレームワーク１２６０クライアントデータ記憶装置

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号１０／１８０，７７１ (32)優先日平成14年６月26日(2002．6．26) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号１０／１８０，６４９ (32)優先日平成14年６月26日(2002．6．26) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号１０／１８０，１６９ (32)優先日平成14年６月26日(2002．6．26) (33)優先権主張国米国（ＵＳ） (72)発明者パトリスワイ．シマルドアメリカ合衆国 98005 ワシントン州ベルビューノースイースト 31 プレイス 13126 (72)発明者エリンエル．レンショウアメリカ合衆国 98034 ワシントン州カークランドノースイースト 135 ストリート 13327 (72)発明者ジェームズラッセルリンカーアメリカ合衆国 98034 ワシントン州カークランドノースイースト 136 プレイス 13615 (72)発明者ヘンリクエス．マルバーアメリカ合衆国 98074 ワシントン州サマミッシュ 233 アベニューノースイースト 2302 Ｆターム(参考） 5C059 KK01 KK38 LB05 MA00 MA23 MA24 PP01 PP15 PP16 PP20 SS10 SS20 SS28 UA02 UA11 5C078 AA04 BA64 CA02 CA31

Claims

【特許請求の範囲】

【請求項１】文書イメージを受け取り、前記文書イメ
ージからマスクを生成するマスクセパレータであって、
前記マスクは、少なくとも一部はピクセルエネルギーの
最小化に基づき前記文書イメージのペアにより少なくと
も一部は領域をマージすることで生成されるマスクセパ
レータと、前記マスクに従って前記文書イメージを複数のレイヤに
分割するイメージセグメンタであって、前記複数のレイ
ヤは非２値形式で表されるイメージセグメンタとを備え
ることを特徴とする文書エンコーディングシステム。
【請求項２】前記複数のレイヤは第１のイメージレイ
ヤと第２のイメージレイヤと２値形式で表されるマスク
とを含むことを特徴とする請求項１に記載の文書エンコ
ーディングシステム。
【請求項３】前記第１のイメージレイヤは前景イメー
ジであり、前記第２のイメージレイヤは背景イメージで
あることを特徴とする請求項２に記載の文書エンコーデ
ィングシステム。
【請求項４】前記マスクをマスクビットストリームに
エンコードするためのマスクエンコーダをさらに備える
ことを特徴とする請求項３に記載の文書エンコーディン
グシステム。
【請求項５】前記マスクエンコーダはＦＡＸベースの
圧縮方式を使用することを特徴とする請求項４に記載の
文書エンコーディングシステム。
【請求項６】前記マスクエンコーダは２レベル圧縮方
式を使用することを特徴とする請求項４に記載の文書エ
ンコーディングシステム。
【請求項７】前記前景イメージを前記イメージセグメ
ンタから前景ビットストリームにエンコードする前景エ
ンコーダと、前記背景イメージを前記イメージセグメンタから背景ビ
ットストリームにエンコードする背景エンコーダとをさ
らに備えることを特徴とする請求項４に記載の文書エン
コーディングシステム。
【請求項８】前記前景エンコーダおよび背景エンコー
ダはプログレッシブウェーブレット変換圧縮方式を使用
することを特徴とする請求項７に記載の文書エンコーデ
ィングシステム。
【請求項９】前記前景エンコーダおよび背景エンコー
ダはプログレッシブ変換圧縮方式を使用することを特徴
とする請求項７に記載の文書エンコーディングシステ
ム。
【請求項１０】前記前景エンコーダおよび背景エンコ
ーダはマスクウェーブレット圧縮方式を使用することを
特徴とする請求項７に記載の文書エンコーディングシス
テム。
【請求項１１】前記マスクビットストリーム、前記前
景ビットストリーム、および前記背景ビットストリーム
を組み合わせて組合せビットストリームを生成するコン
バイナコンポーネントをさらに備えることを特徴とする
請求項７に記載の文書エンコーディングシステム。
【請求項１２】文書イメージを受け取り、前記文書イ
メージからマスクを生成するマスクセパレータと、前記マスクを使用して偽境界を識別しかつ／または前記
前景および／または背景イメージを拡大する画像修正コ
ンポーネントと、前記マスクに従って前記文書イメージを複数のレイヤに
分割するイメージセグメンタであって、前記複数のレイ
ヤは非２値形式で表されるイメージセグメンタとを備え
ることを特徴とする文書エンコーディングシステム。
【請求項１３】前記画像修正コンポーネントは前記識
別された偽境界に基づいて前景マスクおよび背景マスク
を生成するように動作し、前記イメージセグメンタは前
記背景マスクを使用して前景イメージを取得し、前記背
景マスクを使用して背景イメージを取得することを特徴
とする請求項１２に記載の文書エンコーディングシステ
ム。
【請求項１４】前記マスクをマスクビットストリーム
にエンコードするマスクエンコーダと、前記前景イメージを前記イメージセグメンタから前景ビ
ットストリームにエンコードする前景エンコーダと、前記背景イメージを前記イメージセグメンタから背景ビ
ットストリームにエンコードする背景エンコーダとをさ
らに備えることを特徴とする請求項１２に記載の文書エ
ンコーディングシステム。
【請求項１５】文書イメージを受け取り、前記文書イ
メージからマスクを生成するマスクセパレータであっ
て、前記マスクは２値形式で表され、少なくとも一部は
ピクセルエネルギーの最小化に基づき前記文書イメージ
のペアにより少なくとも一部は領域をマージすることで
生成されるマスクセパレータと、前記マスクに従って前記文書イメージを前景イメージお
よび背景イメージに分割する前景背景セグメンタであっ
て、前記前景イメージおよび前記背景イメージを非２値
形式で表す前景背景セグメンタとを備えることを特徴と
する文書エンコーディングシステム。
【請求項１６】前記マスクは前記マスク、前記前景イ
メージ、および前記背景イメージの組み合わせたサイズ
を縮小するために生成されることを特徴とする請求項１
５に記載の文書エンコーディングシステム。
【請求項１７】前記マスクは前記前景イメージおよび
前記背景イメージの推定圧縮を縮小するために生成さ
れ、前記推定圧縮はエネルギー分散計算を含むことを特
徴とする請求項１５に記載の文書エンコーディングシス
テム。
【請求項１８】前記前景イメージは複数の色を備え、
前記背景イメージは複数の色を含むことを特徴とする請
求項１５に記載の文書エンコーディングシステム。
【請求項１９】前記文書イメージはテキスト情報を含
むことを特徴とする請求項１５に記載の文書エンコーデ
ィングシステム。
【請求項２０】前記文書イメージは単一ページを含む
ことを特徴とする請求項１５に記載の文書エンコーディ
ングシステム。
【請求項２１】前記文書イメージは手書きを含むこと
を特徴とする請求項１５に記載の文書エンコーディング
システム。
【請求項２２】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とする写真複写機。
【請求項２３】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とする文書スキャナ。
【請求項２４】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とする光学式文字認識
システム。
【請求項２５】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするパーソナルデジ
タルアシスタント。
【請求項２６】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするＦＡＸ機。
【請求項２７】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするデジタルカメ
ラ。
【請求項２８】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするデジタルビデオ
カメラ。
【請求項２９】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするセグメント化さ
れたレイヤ化イメージシステム。
【請求項３０】請求項１５に記載の文書エンコーディ
ングシステムを用いることを特徴とするビデオゲーム。
【請求項３１】第１のカラースペースを持つ文書イメ
ージを第２のカラースペースを持つ変換された文書イメ
ージに変換するカラースペースコンバータと、前記変換された文書イメージからマスクを生成するマス
クセパレータであって、前記マスクは２値形式で表さ
れ、少なくとも一部はピクセルエネルギーの最小化に基
づき前記文書イメージのペアにより少なくとも一部は領
域をマージして生成されるマスクセパレータと、前記マスクに従って前記変換された文書イメージを前景
イメージおよび背景イメージに分割する前景背景セグメ
ンタであって、前記前景イメージおよび前記背景イメー
ジを非２値形式で表す前景背景セグメンタとを備えるこ
とを特徴とする文書エンコーディングシステム。
【請求項３２】前記第１のカラースペースはＲＧＢで
あり、第２のカラースペースはＹＵＶであることを特徴
とする請求項３１に記載の文書エンコーディングシステ
ム。
【請求項３３】前記第１のカラースペースはＲＧＢで
あり、第２のカラースペースがＹＣｏＣｇであることを
特徴とする請求項３１に記載の文書エンコーディングシ
ステム。
【請求項３４】ビットストリームを前景ビットストリ
ーム、背景ビットストリーム、およびマスクビットスト
リームに分割するセパレータコンポーネントと、前記前景ビットストリームをデコードして前景イメージ
を生成する前景デコーダと、前記背景ビットストリームをデコードして背景イメージ
を生成する背景デコーダと、前記マスクビットストリームをデコードしてマスクを生
成するマスクデコーダと、前記マスクに従って文書イメージを前記前景イメージお
よび前記背景イメージの組合せとして生成するコンバイ
ナコンポーネントとを備えることを特徴とする文書デコ
ーディングシステム。
【請求項３５】前記文書イメージは複数のピクセルを
備え、前記複数のピクセルはそれぞれ前記前景イメージ
および前記背景イメージを備える前記グループの１つか
ら得られることを特徴とする請求項３４に記載の文書デ
コーディングシステム。
【請求項３６】前記文書イメージはオリジナルの文書
イメージと同じであることを特徴とする請求項３４に記
載の文書デコーディングシステム。
【請求項３７】前記文書イメージはオリジナルの文書
イメージと実質的に類似していることを特徴とする請求
項３４に記載の文書デコーディングシステム。
【請求項３８】前記マスク、前記前景イメージ、およ
び前記背景イメージを生成し、前記マスクを前記マスク
ビットストリームにエンコードし、前記前景イメージを
前記前景ビットストリームにエンコードし、前記背景イ
メージを前記背景ビットストリームにエンコードし、前
記マスクビットストリーム、前記前景ビットストリー
ム、前記背景ビットストリームを結合して前記ビットス
トリームにするセグメント化されたレイヤ文書エンコー
ディングシステムをさらに備えることを特徴とする請求
項３７に記載の文書デコーディングシステム。
【請求項３９】文書イメージのカラースペースを変換
するカラースペースコンバータと、前記カラースペースコンバータから前記文書イメージを
受け取り、ピクセルエネルギーの最小化に少なくとも一
部は基づき前記文書イメージのペアにより少なくとも一
部は領域をマージすることにより前記文書イメージのマ
スクを生成するマスクセパレータと、前記マスクセパレータから前記マスクを受け取り、前記
マスクを処理するマスクプロセッサコンポーネントと、前記マスクに従って前記文書イメージを前景イメージお
よび背景イメージに分割するセグメンタとを備えること
を特徴とする文書システム。
【請求項４０】前記マスクプロセッサコンポーネント
は前記マスクからディザリングを識別して除去するディ
ザ検出コンポーネントを備えることを特徴とする請求項
３９に記載の文書システム。
【請求項４１】前記マスクプロセッサコンポーネント
は、前記マスクからノイズを識別して除去するノイズ除
去コンポーネントをさらに備えることを特徴とする請求
項３９に記載の文書システム。
【請求項４２】前記マスクプロセッサコンポーネント
から前記マスクを受け取り、前記マスク内の接続コンポ
ーネントを判別し、類似の接続コンポーネントを少なく
とも１つのスクリーニング特性を使用するクラスタとし
てグループにまとめるクラスタ化コンポーネントをさら
に備えることを特徴とする請求項３９に記載の文書シス
テム。
【請求項４３】前記クラスタ化コンポーネントから前
記マスクを受け取り、前記マスクからレイアウト情報を
識別するレイアウトコンポーネントをさらに備えること
を特徴とする請求項４２に記載の文書システム。
【請求項４４】前記レイアウトコンポーネントから前
記マスクを受け取り、前記マスクをマスクビットストリ
ームにエンコードするマスクエンコーダをさらに備える
ことを特徴とする請求項４３に記載の文書システム。
【請求項４５】前記セグメンタは偽境界について前記
マスクおよび前記文書イメージを分析し、前記偽境界を
またぐいくつかのピクセル分だけ前景マスクおよび背景
マスクを拡大する画像修正コンポーネントであって、前
記前景マスクおよび前記背景マスクは前記マスクに基づ
いており、前記前景マスクは前記前景イメージを取得す
るために前記セグメンタによって使用され、前記背景マ
スクは前記背景イメージを取得するために前記セグメン
タによって使用される画像修正コンポーネントを含むこ
とを特徴とする請求項４４に記載の文書システム。
【請求項４６】前記前景イメージおよび前記背景イメ
ージ内の色接続コンポーネントを識別する色接続コンポ
ーネントをさらに備えることを特徴とする請求項４５に
記載の文書システム。
【請求項４７】前記前景イメージを受け取り、前記前
景イメージを前景ビットストリームにエンコードする前
景エンコーダと、前記背景イメージを受け取り、前記背景イメージを背景
ビットストリームにエンコードする背景エンコーダと、前記マスクビットストリーム、前記前景ビットストリー
ム、および前記背景ビットストリームを組み合わせて組
合せビットストリームを生成するコンバイナコンポーネ
ントをさらに備えることを特徴とする請求項４５に記載
の文書システム。
【請求項４８】前記クラスタ化コンポーネントから前
記マスクを受け取り、前記マスク内の文字を識別する光
学式文字認識コンポーネントをさらに備えることを特徴
とする請求項４７に記載の文書システム。
【請求項４９】前景ピクセルフィラーおよび背景ピク
セルフィラーであって、前記前景ピクセルフィラーは前
記前景イメージの注意しなくてよい領域を注意しなくて
よいピクセルで埋め、前記背景ピクセルフィラーは前記
背景イメージの注意しなくてよい領域を注意しなくてよ
いピクセルで埋める前景ピクセルフィラーおよび背景ピ
クセルフィラーをさらに備えることを特徴とする請求項
４８に記載の文書システム。
【請求項５０】文書をエンコードする方法であって、少なくとも一部はピクセルエネルギーの最小化に基づき
文書イメージのペアにより少なくとも一部は領域をマー
ジして前記文書イメージのマスクを生成するステップ
と、前記文書イメージを前景イメージおよび背景イメージに
分割するステップであって、前記前景イメージおよび前
記背景イメージは非２値形式であるステップとを備える
ことを特徴とする方法。
【請求項５１】前記マスクをエンコードしてマスクビ
ットストリームを生成するステップと、前記前景イメージをエンコードして前景ビットストリー
ムを生成するステップと、前記背景イメージをエンコードして背景ビットストリー
ムを生成するステップと、前記マスクビットストリーム、前記前景ビットストリー
ム、および前記背景ビットストリームを組み合わせて組
合せビットストリームを生成するステップとをさらに備
えることを特徴とする請求項５０に記載の方法。
【請求項５２】前記マスクは前記前景イメージ、前記
背景イメージ、および前記マスクのエネルギー分散が小
さくなるように生成され、前記エネルギー分散は圧縮率
の推定値であることを特徴とする請求項５０に記載の方
法。
【請求項５３】前記前景イメージおよび前記背景イメ
ージの注意しなくてよい領域を注意しなくてよいピクセ
ルで埋めるステップをさらに備えることを特徴とする請
求項５０に記載の方法。
【請求項５４】前記マスクからレイアウト情報を識別
するステップをさらに備えることを特徴とする請求項５
０に記載の方法。
【請求項５５】前記マスクからノイズを除去するステ
ップをさらに備えることを特徴とする請求項５０に記載
の方法。
【請求項５６】前記文書イメージを分割するステップ
は、前記前景イメージと前記背景イメージをピクセル数
分だけ拡大するステップをさらに含むことを特徴とする
請求項５０に記載の方法。
【請求項５７】文書をデコードする方法であって、ビットストリームを受け取るステップと、前記ビットストリームをマスクビットストリーム、前景
ビットストリーム、および背景ビットストリームに分割
するステップと、前記前景ビットストリームを前景イメージにデコードす
るステップと、前記背景ビットストリームを背景イメージにデコードす
るステップと、前記マスクビットストリームをマスクにデコードするス
テップと、前記マスクに従って前記前景イメージおよび前記背景イ
メージを組み合わせて再構成文書イメージにするステッ
プとを備えることを特徴とする方法。
【請求項５８】表示特性を与えるステップをさらに備
えることを特徴とする請求項５７に記載の方法。
【請求項５９】前記表示特性はユーザーによって指定
されることを特徴とする請求項５７に記載の方法。
【請求項６０】前記表示特性は動的に決定されること
を特徴とする請求項５７に記載の方法。
【請求項６１】前記表示特性は予め決定されることを
特徴とする請求項５７に記載の方法。
【請求項６２】前記表示特性に応じて前記前景イメー
ジ、前記背景イメージ、および前記マスクを修正するス
テップをさらに備えることを特徴とする請求項５７に記
載の方法。
【請求項６３】前記再構成された文書イメージのカラ
ースペースを変換するステップをさらに備えることを特
徴とする請求項５７に記載の方法。
【請求項６４】２つまたはそれ以上のコンピュータプ
ロセスの間でやり取りするように適合したデータパケッ
トであって、マスク、背景イメージ、および前景イメージと関連する
情報であって、前記背景イメージおよび前記前景イメー
ジは前記マスクに従って再構成された文書イメージを形
成する情報を備えることを特徴とするデータパケット。
【請求項６５】文書エンコーディングシステム用のコ
ンピュータ使用可能コンポーネントを有するコンピュー
タ読み取り可能媒体であって、文書イメージのカラースペースを変換するカラースペー
スコンバータコンポーネントと、前記カラースペースコンバータコンポーネントから前記
文書イメージを受け取り、少なくとも一部はピクセルエ
ネルギーの最小化に基づき前記文書イメージのペアによ
り少なくとも一部は領域をマージすることにより前記文
書イメージのマスクを生成するマスクセパレータコンポ
ーネントと、前記カラースペースコンバータから前記文書イメージを
受け取り、前記マスクに従って前記文書イメージを前景
イメージおよび背景イメージに分割するセグメンタコン
ポーネントとを備えることを特徴とするコンピュータ読
み取り可能媒体。
【請求項６６】前記マスクセパレータコンポーネント
から前記マスクを受け取り、前記マスクを処理するマス
クプロセッサコンポーネントと、前記マスクプロセッサコンポーネントから前記マスクを
受け取り、前記マスク内のクラスタを識別するクラスタ
化コンポーネントと、前記クラスタ化コンポーネントから前記マスクを受け取
り、前記マスクからレイアウト情報を識別するレイアウ
トコンポーネントとをさらに備えることを特徴とする請
求項６５に記載のコンピュータ読み取り可能媒体。
【請求項６７】前記レイアウトコンポーネントから前
記マスクを受け取り、前記マスクをマスクビットストリ
ームにエンコードするマスクエンコーダコンポーネント
と、前記前景イメージを前景ビットストリームにエンコード
する前景エンコーダコンポーネントと、前記背景イメージを受け取り、前記背景イメージを背景
ビットストリームにエンコードする背景エンコーダコン
ポーネントと、前記マスクビットストリーム、前記前景ビットストリー
ム、および前記背景ビットストリームを組み合わせて組
合せビットストリームを生成するコンバイナコンポーネ
ントを含むことをさらに備えることを特徴とする請求項
６６に記載のコンピュータ読み取り可能媒体。
【請求項６８】少なくとも一部はピクセルエネルギー
の最小化に基づき文書イメージのペアにより少なくとも
一部は領域をマージして前記文書イメージのマスクを生
成する手段と、前記文書イメージを前景イメージと背景イメージに分割
する手段と、前記マスクをマスクビットストリームにエンコードする
手段と、前記前景イメージを前景ビットストリームにエンコード
する手段と、前記背景イメージを背景ビットストリームにエンコード
する手段と、前記マスクビットストリーム、前記前景ビットストリー
ム、および前記背景ビットストリームを組み合わせて組
合せビットストリームを生成する手段とを備えることを
特徴とするエンコーディングシステム。