JP2003348360A - 文書エンコーディングシステム、文書デコーディングシステムおよびその方法 - Google Patents

文書エンコーディングシステム、文書デコーディングシステムおよびその方法

Info

Publication number
JP2003348360A
JP2003348360A JP2003083848A JP2003083848A JP2003348360A JP 2003348360 A JP2003348360 A JP 2003348360A JP 2003083848 A JP2003083848 A JP 2003083848A JP 2003083848 A JP2003083848 A JP 2003083848A JP 2003348360 A JP2003348360 A JP 2003348360A
Authority
JP
Japan
Prior art keywords
image
mask
document
foreground
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003083848A
Other languages
English (en)
Other versions
JP4773678B2 (ja
Inventor
Patrice Y Simard
ワイ.シマルド パトリス
Erin L Renshaw
エル.レンショウ エリン
James Russell Rinker
ラッセル リンカー ジェームズ
Henrique S Malvar
エス.マルバー ヘンリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/133,558 external-priority patent/US7164797B2/en
Priority claimed from US10/133,939 external-priority patent/US7392472B2/en
Priority claimed from US10/133,842 external-priority patent/US7263227B2/en
Priority claimed from US10/180,771 external-priority patent/US7110596B2/en
Priority claimed from US10/180,169 external-priority patent/US7120297B2/en
Priority claimed from US10/180,649 external-priority patent/US7024039B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003348360A publication Critical patent/JP2003348360A/ja
Application granted granted Critical
Publication of JP4773678B2 publication Critical patent/JP4773678B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【課題】 文書イメージのエンコードおよびデコードを
行うシステムおよび方法を提供すること。 【解決手段】 文書イメージはマスクに従って複数のレ
イヤに分割される。複数のレイヤは非2値である。そこ
で、それぞれのレイヤを処理して、別々に圧縮すること
により、文書イメージ全体の圧縮率を高めることができ
る。文書イメージからマスクを生成する。マスクを生成
するのは、文書イメージのマスクおよび複数のレイヤを
組み合わせた場合のサイズに対する圧縮推定値を引き下
げるためである。その後マスクを使用して文書イメージ
を複数のレイヤに分割する。このマスクにより、文書イ
メージのピクセルを決定するか、またはそれぞれのレイ
ヤに割り当てる。マスクおよび複数のレイヤを処理し
て、別々にエンコードし、文書イメージ全体の圧縮率を
高め、圧縮速度を改善する。複数のレイヤは非2値イメ
ージであり、たとえば前景イメージと背景イメージを含
むことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、文書イメ
ージ処理(document image proce
ssing)に関するものであり、特に、文書イメージ
を識別し圧縮するシステムと方法に関する。
【0002】
【従来の技術】コンピュータネットワーク、インターネ
ット、およびデジタル式記憶手段の普及に伴ない、コン
ピュータを介して入手できる情報量が飛躍的に増大して
いる。この情報量の増大に伴ない、情報を高速で伝送
し、かつ情報を効率的に格納することが必要になってき
ている。情報を効果的に伝送し、かつ格納しやすくする
技術の1つがデータ圧縮である。
【0003】データ圧縮を利用すると情報を表すために
必要な領域を減らすことができ、またデータ圧縮はさま
ざまな種類の情報に使用できる。イメージ、テキスト、
オーディオ、およびビデオを含む、デジタル情報の圧縮
技術に対する要求がますます高まってきている。通常、
データ圧縮は標準のコンピュータシステムで使用されて
いるが、デジタル衛星テレビや携帯/デジタル電話など
の他の技術でもデータ圧縮を利用している。
【0004】大量の情報を取り扱い、送信し、処理する
ことに対する要求が高まり、このようなデータの圧縮に
対する要求も高まっている。ストレージデバイスの容量
は著しく増加したとはいえ、情報に対する要求は容量増
大のペースを凌いでいる。たとえば、未圧縮のイメージ
だと5メガバイトの領域を必要とするところ、たとえ
ば、可逆圧縮で圧縮すると2.5メガバイトの領域で済
み、非可逆圧縮で圧縮すると500キロバイトの領域で
済む。したがって、データ圧縮を用いれば、より多くの
情報を転送することができる。ブロードバンド、DS
L、ケーブルモデムインターネットなど、いくら伝送速
度が向上しても、情報が未圧縮だとたちまち伝送限界に
達してしまう。たとえば、DSL回線で未圧縮のイメー
ジを送信すると10分かかる。しかし、同じ画像を圧縮
すれば1分ほどで送信することができ、データ効率の面
では10倍の利得が得られる。
【0005】一般に、圧縮には可逆と非可逆の2種類が
ある。可逆圧縮では、圧縮した後オリジナルデータを正
確に復元することができるが、非可逆圧縮では、圧縮後
復元したデータはオリジナルデータと異なることがあ
る。非可逆圧縮はある程度データ完全性の損なわれるこ
とが許容されるため可逆圧縮に比べて圧縮比が高いとい
う点でこの2つの圧縮モードにはトレードオフの関係が
ある。たとえば、データを正確に再構成できないとテキ
ストの品質および可読性がひどく影響を受ける可能性が
あるため重要なテキストを圧縮する場合には可逆圧縮が
使用される。非可逆圧縮は、ある程度のひずみやノイズ
が許容できるか、または人間の感覚では感知できないイ
メージや重要でないテキストで使用することができる。
データ圧縮は、特に、文書のデジタル表現(デジタル文
書)に適用することができる。通常、デジタル文書とし
ては、テキスト、イメージ、および/またはテキストと
イメージがある。現在のデジタルデータに対する記憶領
域が少なくて済むだけでなく、品質の著しい劣化を起こ
さずにコンパクトに格納できると、文書の現在のハード
コピーのデジタル化が促進され、ペーパーレスオフィス
の実現可能性がより高くなる。ペーパーレスオフィスを
実現すると情報に簡単にアクセスすることができる、環
境コストを低減できる、格納コストを低減できるなどの
メリットがあるため、このようなペーパーレスオフィス
への努力は多くの企業の目標となっている。さらに、圧
縮によりデジタル文書のファイルサイズを縮小すると、
インターネット帯域幅をより効率的に活用することがで
き、より多くの情報をより高速に伝送し、ネットワーク
輻輳を緩和することができる。情報に必要な記憶領域の
低減、効率的なペーパーレスオフィスへの移行、インタ
ーネット帯域幅の効率の向上は、圧縮技術と関連する多
くの著しい利点のうちの一部にすぎない。
【0006】
【発明が解決しようとする課題】デジタル文書の圧縮
は、デジタル文書の利用をより魅力的なものとするため
に、一定の目標を達成できなければならない。まず、大
量の情報を短時間のうちに圧縮、伸張ができなければな
らない。第2に、圧縮してもデジタル文書を正確に再現
できなければならない。さらに、デジタル文書のデータ
圧縮では、文書の意図した目的または最終利用を活かさ
なければならない。ハードコピーのファイリングやハー
ドコピーの提出にデジタル文書が使用される。また改訂
や編集を行う文書もある。多くの従来のデータ圧縮方法
では、表示したときのテキストおよび/またはイメージ
のリフロー (re-flow) を処理できず、また圧縮技術を
使って文字を認識し、それをワードプロセッサ、パーソ
ナルデジタルアシスタント(PDA)、携帯電話などに
リフローできる効率的かつ効果的な手段を提供できな
い。たがって、ハードコピーのオフィス文書をスキャン
してデジタル形式に変換する場合、現在の圧縮技術で
は、デジタル化された文書を更新したり、訂正したり、
あるいは一般に変更したりすることは不可能でないにし
ても困難である。
【0007】多くの場合、圧縮方式は、圧縮率を高める
ために、2値、非2値、テキスト、またはイメージなど
の文書の特定の種類に合わせて適合されている。しか
し、ある種の文書に合わせて適合された圧縮方式は通
常、他の種類の文書では効率的ではない。たとえば、テ
キストベースの文書に合わせて適合された圧縮方式は一
般に、イメージ文書に対しては効率が良くない。この問
題に対する解決策の1つに、エンコードする文書または
イメージの種類に合わせて改造した圧縮方式を選択する
ようにする方法がある。しかし、この解決方法では、単
一の文書内に複数の種類の情報が含まれるデジタル文書
ではうまくいかない。たとえば、雑誌の記事によく見ら
れるような、テキスト情報とともにハイカラーイメージ
(hi−color image)が含まれるデジタル
文書の場合である。このような不具合に対処する1つの
方法に、文書を分析して、複数の領域に分割するという
方法がある。さまざまな領域を分析し、それらの領域内
に含まれる情報の種類を判別することができる。情報の
種類に基づいてそれぞれの領域に対して圧縮方式を選択
することができる。しかし、この方式は実装するのが極
めて困難であり、さまざまなサイズおよび形状の領域が
必要で、圧縮が困難である。他の方式として、文書を背
景と一定色イメージ(constant color
image)とに分ける方法がある。これは、背景と一
定色イメージに対して異なる圧縮方式を使用できるため
都合がよい。しかし、一定色イメージだと、ピクセル値
を強制的に一定色にすることにより情報が失われること
がある。
【0008】さらに、デジタル文書のデータ圧縮では、
文書の意図した目的を活かさなければならない。ハード
コピーのファイリングやハードコピーの提出にデジタル
文書が使用される。また改訂および編集を行う文書があ
るかもしれない。現在のデータ圧縮では、表示したとき
のテキストおよび/またはイメージのリフローを処理で
きず、また圧縮技術を使って文字を認識し、それをワー
ドプロセッサ、パーソナルデジタルアシスタント(PD
A)、携帯電話などにリフローできる効率的かつ効果的
な手段を提供できない。たがって、ハードコピーのオフ
ィス文書をスキャンしてデジタル形式に変換する場合、
現在の圧縮技術では、デジタル化された文書を更新した
り、訂正したり、あるいは一般に変更したりすることは
不可能でないにしても困難である。
【0009】
【課題を解決するための手段】本発明のいくつかの態様
の基本的な内容を理解できるように、本発明の概要を簡
単に述べる。この概要は、本発明の鍵となる要素や決定
的な要素を示したり、本発明の範囲を定めることを意図
していない。後で提示する詳細な説明の前置きとして本
発明のいくつかの概念を簡単に示すことのみを目的とす
る。
【0010】本発明は、一般に、文書イメージのエンコ
ード(encoding)およびデコード(decod
ing)を行うシステムおよび方法に関する。文書イメ
ージは、複数のレイヤが非2値で表される場合にマスク
に従って複数のレイヤに分割される。次に、それぞれの
レイヤを処理して、別々に圧縮することにより、文書イ
メージ全体の圧縮率を高めることができる。
【0011】本発明の一態様によれば、マスクは文書イ
メージから生成される。マスクを生成するのは、文書イ
メージのマスクおよび複数のレイヤを組み合わせた場合
のサイズに対する圧縮推定値を引き下げるためである。
その後マスクを使用して文書イメージを複数のレイヤに
分割する。このマスクにより、文書イメージのピクセル
を決定するか、またはそれぞれのレイヤに割り当てる。
マスクおよび複数のレイヤを処理して、別々にエンコー
ドし、文書イメージ全体の圧縮率を高め、圧縮速度を改
善する。複数のレイヤは非2値イメージであり、たとえ
ば前景イメージと背景イメージとを備える。
【0012】本発明の他の態様によれば、文書イメージ
は複数のレイヤに分割され、それら複数のレイヤは前景
イメージ、背景イメージ、およびマスクを含む。マスク
は2値イメージであり、文書イメージを前景イメージと
背景イメージに分割するために使用する。一般に、マス
クを生成するのは、マスク、前景イメージ、および背景
イメージを組み合わせた場合のサイズに対する推定値を
引き下げるためである。レイヤを単色に制限するいくつ
かの従来のシステムとは異なり、前景イメージおよび背
景イメージの両方において、適当な範囲の色を使用する
ことができ、単色または一定色に制限されない。マス
ク、前景イメージ、および背景イメージの追加的な処理
を実行できる。マスク、前景イメージ、および背景イメ
ージをエンコードし、組み合わせて単一のビットストリ
ームにする。エンコードには、適当な圧縮方式をいくつ
でも使用できる。デコードの場合、圧縮されたビットス
トリームをマスクビットストリーム、前景ビットストリ
ーム、および背景ビットストリームに分割する。マスク
ビットストリーム、前景ビットストリーム、および背景
ビットストリームをマスク、前景イメージ、および背景
イメージにデコードする。マスク、前景イメージ、およ
び背景イメージに対する追加的な処理を実行できる。マ
スクに従って前景イメージおよび背景イメージを組み合
わせて再結合文書イメージにする。
【0013】本発明のさらに他の態様によれば、マスク
セパレータ(mask separator)は文書イ
メージを受け取り、その文書イメージからマスクを生成
する。マスクは2値形式で表される。前景背景セグメン
タ(foregroundbackground se
gmenter)は、マスクおよび文書イメージを受け
取り、その文書イメージを前景イメージおよび背景イメ
ージに分割する。マスクエンコーダ(mask enc
oder)は、マスクをマスクビットストリームにエン
コードする。前景エンコーダは、前景イメージを前景ビ
ットストリームにエンコードする。背景エンコーダは、
背景を背景ビットストリームにエンコードする。コンバ
イナコンポーネント(combiner compon
ent)は、マスクビットストリーム、前景ビットスト
リーム、および背景ビットストリームを組み合わせて組
合せビットストリームを生成する。
【0014】前記の目的および関連する目的を達成する
ために、以下の説明および付属の図面に関して、本発明
のいくつかの例示の態様を本明細書で説明する。これら
の態様は、本発明を実施するさまざまな方法を示してお
り、すべて本発明の対象となるものである。本発明の他
の利点および新規性のある特徴は、図面とともに本発明
の以下の詳細な説明を読むと明らかになるであろう。
【0015】
【発明の実施の形態】全体を通して同様の参照番号が同
様の要素を参照するために使用されている図面を参照し
ながら、本発明について説明する。以下の説明では、説
明のため本発明を完全に理解できるように多数の特定の
詳細を定めている。ただし、こうした具体的内容がなく
ても本発明を実践できることは明白であろう。他の例で
は、よく知られている構造およびデバイスはブロック図
の形式で示されており、本発明を説明しやすくしてい
る。
【0016】本願で使用されているように、「コンポー
ネント」という用語は、コンピュータ関連の実体(エン
ティティ)、ハードウェア、ハードウェアとソフトウェ
アとの組合せ、ソフトウェア、または実行中のソフトウ
ェアのいずれかを指すものとする。たとえば、コンポー
ネントとして、プロセッサ上で実行されているプロセ
ス、プロセッサ、オブジェクト、実行可能ファイル(e
xecutable)、実行(execution)の
スレッド、プログラム、およびコンピュータを挙げるこ
とができる。説明のために、サーバ上で実行されている
アプリケーションおよびサーバを両方ともコンポーネン
トとする。1つまたは複数のコンポーネントを1つのプ
ロセッサおよび/または実行のスレッド内に常駐させる
ことができ、またコンポーネントを1台のコンピュータ
にローカルとして配置し、かつ/または2台またはそれ
以上のコンピュータ間に分散させることができる。
【0017】さらに、「文書イメージ」は、単色または
複数の色を含む文書のデジタル表現を指すものとする
(たとえば、2値(白黒)、階調、および/またはカラ
ー文書)。さらに、文書イメージは、イメージ、テキス
トおよび/またはイメージを含むテキストで構成するこ
とができ、場合によってはテキストとイメージとを重ね
合わせることもできる。文書イメージは、2値、RG
B、YUV、および/またはその他の文書表現を含むこ
とができる。RGB文書イメージは、赤、緑、および青
の成分で表される。YUV文書イメージは、Yで示され
るルミネセンス成分とUおよびVで示されるクロミナン
ス成分を使用して表される。YUV表現は、一般に、圧
縮に適しているが、それは人間の目がUとVの歪みに余
り敏感に反応せず、したがってUおよびVは1/2でサ
ブサンプリング(subsample)することがで
き、またYでR、G、Bの相関が得られるからである。
テキストのクラスタ化のためには、Y表現は特に興味深
いが、それは、テキストが輝度の変化から生じたときに
かなり読み取りやすいからである。所与の輝度に対する
クロミナンスの変化(たとえば赤から緑)から生じるテ
キストは所定の輝度においてかなり読みにくい。したが
って、カラー文書は、YUV文書に変換し、その後、テ
キスト情報をそれほど失うことなく2値化することがで
きる。文書イメージは、一般に「ピクセル」と呼ばれる
画像要素を含む。文書イメージは、任意の形状またはサ
イズの単一文書または複数ページ文書に基づく。
【0018】図1は、本発明の一態様による分割された
レイヤ化イメージエンコードシステム100を示す高水
準ブロック図である。システム100は、テキスト、手
書き、図面などを識別して圧縮し、任意の適当な形状ま
たはサイズの単一文書または複数ページ文書を操作する
ことができる。システム100は、マスクセパレータ1
02、前景背景セグメンタ104、マスクエンコーダ1
06、前景エンコーダ108、背景エンコーダ110、
および組合せコンポーネント112を含む。マスクセパ
レータ102は、文書イメージ(たとえば、文書のデジ
タル表現)を受け取って、マスクを生成する。文書イメ
ージには、1つまたは複素のページを入れることがで
き、通常は、文書からスキャンされる。文書イメージ
は、任意の解像度を設定でき、これは一般にドット/イ
ンチ(dpi)で表される。たとえば、FAX送信文書
は通常、150〜200dpi程度の解像度を使用す
る。さらに、文書イメージは、実質的にどのようなピク
セルサイズまたは文書サイズでも設定でき、たとえば、
640×480ピクセルやA4サイズを設定できる。
【0019】マスクセパレータ102によって生成され
るマスクを使用して、文書イメージを2つのレイヤ、前
景イメージと背景イメージに分割することができる。本
発明の他の態様ではイメージを2つよりも多いレイヤに
分割できることは理解されるであろう。マスクは、マス
クイメージとも呼ばれ、2値イメージであり、ピクセル
値によってそれぞれのピクセルが前景イメージに属する
のか、それとも背景イメージに属するのかを判別する。
マスクセパレータ102によって、前景イメージと背景
イメージを組み合わせたサイズが小さくなるようにマス
クが生成される。この概念を複数のマスクと複数の前景
に拡張し、それでも本発明に従うことができることは理
解されるであろう。
【0020】マスクを生成するのにさまざまな方式を使
用できる。圧縮の場合、同等のピクセル値は異なるピク
セル値よりも圧縮率がよい。たとえば、青空の領域は色
と強度が変化する領域よりも圧縮率がよい。上述のよう
に、マスクを生成するのは、マスク、前景イメージ、お
よび背景イメージを組み合わせた場合のサイズを引き下
げるためである。
【0021】使用できる方法の1つに、考えられるマス
クのスーパーセットを生成し、そのスーパーセットの最
良のマスクを選択する方法がある。ピクセルをN個含む
文書イメージの場合、可能なマスクは2個ある。した
がって、可能なすべてのマスクを分析して、どのマスク
で組み合わせた全体が最小になるイメージを生成するか
を判別することができる。しかし、可能なすべてのマス
クを分析することは高い計算能力を必要とし、時間もか
かるため、一般的には実用的でない。
【0022】他の方法として、文書を複数の領域に細分
し、それぞれの領域を分析してピクセルを割り当て、少
なくとも一部はエネルギー(たとえば、エネルギー分散
(variance) )に基づいて領域をマージする方法があ
る。エネルギー分散(得られる圧縮率の推定)は距離の
平方和に基づく測定である。文書の小さな領域、たとえ
ば2×2ピクセルまたは4×4ピクセルをエネルギー分
散に関して分析することができる。この小さな領域を前
景領域と背景領域に分割し、その小さな領域のエネルギ
ー分散が低減または最小化されるようにできる。可能な
すべてのマスクを使用して、使用するマスクを決定でき
るが、それは、分析された領域がこのような分析を実現
可能なものにできる十分な小ささであるからである。た
とえば、4ピクセルの領域については、その領域に対し
てマスクの16の可能な順列しかない。その小さな領域
(たとえば、ペアにして)マージしてまとめ、マスクを
生成できるが、それは全体として、マスク、前景イメー
ジ、および背景イメージの組み合わせたサイズを低減す
る。
【0023】前景背景セグメンタ104は、マスクセパ
レータ102と文書イメージからマスクを受け取る。前
景背景セグメンタ104は、マスクを使用して文書イメ
ージを前景イメージと背景イメージに分割する。文書イ
メージのピクセル毎に、そのマスクの対応するピクセル
が参照される。ピクセルは、そのマスクの対応するピク
セルに基づき前景イメージまたは背景イメージに割り当
てられる。たとえば、マスクの対応するピクセルが
「1」であれば、そのピクセルは前景イメージに割り当
てられる。逆に、マスクの対応するピクセルが「0」で
あれば、そのピクセルは背景イメージに割り当てられ
る。しかし、「0」または「1」が前景を示すのか背景
を示すのかは、ユーザー側で定義できることは理解され
るであろう(たとえば、「1」は背景に割り当てられ、
「0」は前景に割り当てられる)。
【0024】さらに、前景イメージおよび背景イメージ
は互いに交わらない。しかし、マスクの追加的な処理を
実行することで、時々重なり合う場合もある異なる前景
マスクおよび背景マスクを生成し、マスク境界に沿った
結果を低減するか、またはいくつかのピクセルを完全に
無視し、圧縮率を高めることができる。次に、前景マス
クを使用して、前景イメージを文書イメージから分割
し、背景マスクを使用して文書イメージから背景イメー
ジを分割する。この場合、前景イメージと背景イメージ
は互いに素ではなく、わずかに重なり合い、このような
重なり合いのため圧縮率が低下するが、エッジ効果は下
がる。前景マスクおよび背景マスクを採用して文書イメ
ージをセグメント分割しても、前景マスクおよび背景マ
スクは文書イメージの分割後には必要ない。
【0025】背景イメージと前景イメージには、ピクセ
ルが他方のイメージに割り当てられた穴または空の領域
がある。これらの空の領域は、注意しなくてよい(do
n’t care)ピクセルということもできる。それ
と対照的に、空でない領域は、注意する(care)ピ
クセルということができる。空の領域は、前景と背景の
イメージの全体的な圧縮サイズが小さくなるように適当
な方法で処理することができる。これらの空の領域を注
意しなくてよいピクセル値で塗りつぶすという方法があ
る。注意しなくてよいピクセル値は、圧縮率を高め、そ
れによりイメージのサイズが小さくなるように選択され
る。たとえば、背景イメージの例は白色であるが、テキ
ストが配置されているところに注意しなくてよいピクセ
ルが設定されている。この例の、この注意しなくてよい
ピクセルを白で塗りつぶして、圧縮率を高めることがで
きる。別の方法では、空の領域を塗りつぶさず、たとえ
ばマスクウェーブレット圧縮(masked wave
let compression)など空の領域を利用
する圧縮方式を使用する。本発明によればそれ以外の方
法も使用できる。
【0026】前景イメージおよび背景イメージに追加的
な処理を実行することもできる。背景イメージおよび前
景イメージを低解像度に下げて、それぞれの圧縮サイズ
を小さくすることができる。たとえば、背景イメージと
前景イメージを300dpiから100dpiに引き下
げることができる。また、一定色接続コンポーネント
(constant color connected
components)を背景イメージと前景イメー
ジ内で識別することもできる。一定色接続コンポーネン
トは、実質的に色値が同じである複数の接続ピクセルで
ある。一定色接続コンポーネントは、シードピクセル
(seed pixel)を配置し、それに接続されて
いる実質的に同じ色ピクセルを決定するアルゴリズムを
利用することにより識別することができる。一定色接続
コンポーネントに最小数のピクセルが含まれるようにし
きい値または最小ピクセルを設定できる。識別された一
定色接続コンポーネントで文書イメージの圧縮率を高め
ることができる。
【0027】マスクエンコーダ106は、マスクセパレ
ータ102からマスクを受け取り、そのマスクをエンコ
ードして、圧縮されたビットまたはビットの圧縮された
マスクストリームをマスクから生成する。マスクエンコ
ーダ106には適当な圧縮方式を使用できる。マスクは
2値形式であり、通常はテキスト情報を含む。2値形式
とテキスト情報も圧縮する圧縮方式を選択しなければな
らない。2レベル圧縮方式を使用してマスクをエンコー
ドすることもできる。
【0028】マスクをエンコードするのに使用できる圧
縮方式としてCCITT(国際電信電話諮問委員会)方
式がある。CCITTは、現在ITU−T国際電気通信
連合−通信部門(1994年に名称変更)と呼ばれる規
格制定機関であり、FAX/モデム通信のための可逆圧
縮技術の名称になっている。この種の圧縮は、2値イメ
ージでうまく働く。標準的な圧縮比は、旧バージョンの
V.42bisでは、4:1、新しいバージョンのV.
44 2000では6:1で、これはLempel−Z
iv−Jeff−Heath(LZJH)圧縮アルゴリ
ズムに基づいている。本発明により他の適当な圧縮方法
または方式を使用してマスクをエンコードすることがで
きることは理解されるであろう。
【0029】前景エンコーダ108は、前景背景セグメ
ンタ104から前景イメージを受け取り、その前景イメ
ージを前景ビットストリームにエンコードする。背景エ
ンコーダ110は、前景背景セグメンタ104から背景
イメージを受け取り、その背景イメージを背景ビットス
トリームにエンコードする。前景エンコーダ108と背
景エンコーダ110には適当な圧縮方式を使用できる。
たとえば、プログレッシブ波長符号化(PWC)(pr
ogressive wavelengthencod
ing)、プログレッシブトランスフォームコーディン
グ(PTC)(progressive transf
orm coding)、JPEG、JPEG 200
0、およびマスクウェーブレット圧縮方式(maske
d wavelet compression sch
emes)を使用して前景イメージまたは背景領域をエ
ンコードすることができる。一部の圧縮方式(たとえ
ば、マスクウェーブレット)では、前景エンコーダ10
8および背景エンコーダ110は前景イメージおよび背
景イメージをエンコードするためにマスクを必要とする
ことがある。
【0030】コンバイナ(combiner)コンポー
ネント112は、マスクエンコーダ106、前景エンコ
ーダ108、および背景エンコーダ110から圧縮され
たビット列を受け取り、それらのビットを出力ストリー
ムまたは出力ファイルにまとめる。コンバイナコンポー
ネント112は、エンコーディングの種類、辞書、およ
びデコーダによって文書イメージを再構成するために使
用できるものなどの情報を識別または提供するヘッダ情
報を出力ファイルに書き込む。
【0031】説明のため、エンコーディングシステムを
上述のさまざまなコンポーネントを介してイメージ全体
を一度に処理するものとして説明した。しかし、重なり
合うスキャン領域を使用してメモリの使用量を減らせる
ことは理解されるであろう。たとえば、このシステムで
は、文書イメージの512ラインからなる第1の帯状領
域(strip)を処理することができる。次に、重な
り合う量、たとえば10ラインだけ第1の帯状領域と重
なり合う第2の帯状領域がシステムによって処理され
る。文書イメージ全体が処理されるまでそれ以降の帯状
領域を処理するため、この重なり合う量により帯状領域
の間の変動が緩和される。
【0032】上述のように、前景イメージおよび背景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。1
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比(PSNR)に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク(または注意する領域)ピクセルの色をつけ
る。標準の形態論アルゴリズム(morphology
algorithm)を使用すると、すべてのピクセ
ルにわたり2パス(pass)のみでプロセスを実行す
ることができ、マスクの下にボロノイ充填空領域(Vo
ronoi−filled vacant regio
ns)が生じる。次に、前景イメージまたは背景イメー
ジを再構成したら、再構成されたイメージにローパス
(low−passed)を実行し、既知のピクセルを
その正しい値に復元する。ローパスフィルタの遮断周波
数が低すぎる場合、鋭いエッジが発生し、境界の付近に
必要なビットレートが高くなり、顕著なリンギングが増
える。
【0033】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、2つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と0に設定されたある種のウェーブレット係数を持つ
イメージの集合とを考察する(たとえば、特定の解像度
レベルを超える全ての高周波係数)。2つの集合への射
影を交互に切り替えることにより、表示ピクセルと一致
し、0のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。
【0034】空領域を扱うさらに他の方法では、前景エ
ンコーダ108および不規則なグリッドに対して明示的
に設計された背景エンコーダ110にウェーブレット変
換を使用する。このようなウェーブレット分解は、コン
ピュータビジョンおよびたとえばコンピュータグラフィ
ックスにおける幾何データの圧縮とともに使用される。
このようなウェーブレットは、マスクの不規則パターン
に適合される。
【0035】採用できるウェーブレット変換圧縮方式
は、マスクウェーブレット変換である。マスクウェーブ
レット変換は、ウェーブレット関数がマスクの変化に応
じてケースバイケースで変化する前景エンコーダ108
および背景エンコーダ110に使用できる。図1には示
されていないが、マスクウェーブレット変換圧縮方式を
使用するためにマスクが前景エンコーダ108と背景エ
ンコーダに供給されることは理解されるであろう。たと
えば、通常の従来のウェーブレット関数では予測にk個
の値を使用することができる。しかし、マスクと空領域
の場合、通常のウェーブレット関数は値が含まれないピ
クセルを処理することはできない(たとえば、注意しな
くてよい領域または空領域内の注意しなくてよいピクセ
ル)。それと対照的に、変更可能なウェーブレット関数
では前景イメージおよび背景イメージの使用可能な値ま
たは表示領域のみを使用する。したがって、マスクウェ
ーブレット変換では空領域を注意しなくてよいピクセル
で埋める必要はない。
【0036】図2は、「リフティング(liftin
g)」を使用したウェーブレットの従来の一計算ステッ
プの図である。この図は、三次ウェーブレット(cub
icwavelet)に関して、位置3の予測ステップ
と、位置6の対応する更新ステップを示している(分か
りやすくするため図では他の位置を省略している)。そ
れぞれの矢印の隣にある係数は、各ステップを実行する
ために一次結合を計算する方法を示している。たとえ
ば、位置3の「詳細」値(ハイパスフィルタから得られ
る)は、以下の式を計算して求められる。 d=s−(−s+9s+9s−s)/16 式1
【0037】更新ステップは、以下の式で計算される。 s=d+(−d+9d+9d−d)/32 式2
【0038】図3は、いくつかのピクセル値が欠損して
いる場合に生じる問題を示している。図では、位置1、
2、5、8、9に対する値は用意されていない。明らか
に、結果が欠損値に依存するため従来の三次ウェーブレ
ットの計算はうまく実行されない。欠損値を何らかの定
数(0またはイメージ全体にわたってとった平均値)に
設定すると鋭い不連続性が入り込み、これが圧縮率の低
下や望ましくない効果の発生につながる。それとは対照
的に、マスクウェーブレット圧縮方式では、ウェーブレ
ット関数はマスクに応じてケースバイケースで変更され
る。たとえば、リフティングの予測ステップで、k個の
値を予測に使用できる場合、次数k−1の多項式を補間
に使用する。値を3つしか使用できない場合、三次多項
式ではなく二次多項式を使用する。値を1つしか使用で
きない場合は、定数多項式を使用し、ウェーブレットを
Haarウェーブレットとする。信号が次数K−1の多
項式で、k個のピクセルがマスクされていない場合、予
測は完全に正確である。
【0039】マスクウェーブレット変換の圧縮方式で
は、偶数位置にある係数から奇数位置にあるすべての係
数に対する予測の計算を利用する。奇数係数とその予測
との差がウェーブレット係数であり、これは奇数位置に
いくつかの0があるハイパスフィルタとみなすことがで
きる。信号sがある位置を中心に置かれ、それに応じて
インデックスが作成される。説明を簡単にするため、図
4に示されているような7タップフィルタに関してこの
方式を説明する。図4は、sがs−3、s−1
、sの関数として予測されるリフティングステッ
プを示しており、残渣dが計算される。
【0040】標準の行列表記に従ってフィルタaには0
からiまでのインデックスがつけられる。ウェーブレッ
ト係数dは以下の式によって与えられる。
【0041】
【数1】
【0042】ただし,kはフィルタ内のタップの個数で
ある(この場合k=7)。ハイパスフィルタのモーメン
トMは以下のように書くことができる(s=iに設
定)。
【0043】
【数2】
【0044】通常の信号はj次の低次多項式(Tayl
or展開)を使用して近似し、aを最初のj+1モーメ
ントが0に設定されるように選択する。すると、ウェー
ブレット変換は多数の0点を持ち、圧縮率が高くなる。
そこで、k=7であれば、aは自由度4で、最初の4つ
のモーメントは0に設定される。これらの結果は以下の
系で検証される。
【0045】
【数3】
【0046】これは、wa=cと行列表記で書くことが
できる。この方程式系の解は、よく知られている三次ウ
ェーブレットa=[1/16,−9/16,−9/1
6,1/16]で使用されている係数である。
【0047】この方程式系は、図1に示されているマス
クなど、マスクが存在している場合に一般化される。つ
まり、係数s2i−k/2のうちいくつかが欠損してお
り、これは行列mを導入することによりモデル化するこ
とができる。
【0048】
【数4】
【0049】ただし、wma=cとなるようなm
{0,1}である。mには、式5の方程式内の列を取り
除くという効果がある。しかし残念なことにこの方程式
系では、m=0の場合には劣決定方程式系であり、そ
うでない場合には優決定方程式系である。その理由は、
表示ピクセルに対応するaに課される消えるモーメン
トの制約が多すぎるからである。これは、m≠0とな
るようなj個の係数がある場合に最初のj個のモーメン
トを0にしなければならないという条件を課すことによ
り解決できる。これは、図5の方程式系の最初のj個の
式のみを保持することに対応する。劣決定方程式系の係
数a(aにm=0を掛けた場合)では、任意の制
約条件a=0が追加され、このようなことは単一の方
程式系で実行できる。 (pwm+m−I)a=pc 式7 ただし、Iは単位行列であり、
【0050】
【数5】
【0051】ここで p=(tr(m)>i)?1:0 式9 pに対する制約条件により、式5の方程式系内の行が
m内の0係数毎に式5の方程式系の最下段の係数から取
り除かれる。つまり、0に等しくないj個の係数m
ある場合、i=[0..j−1]に対してp=1、そ
れ以外のときp =0である。システムは常にm
{0,1}の値に対して一意的な解を持つことが容易に
検証できる。mの可能なすべての値に対するaについて
の解は、方程式系の式9によって与えられ、以下の表1
の三次ウェーブレットについてこれをまとめたが、シス
テムの次元が4の場合にmの異なる値に対する式9の解
を示している。
【0052】
【表1】
【0053】次に、信号sを上からの予測値で更新す
る。更新ステップでは、信号に(−1)を掛けた後に
ローパスフィルタの最初のモーメントが消えることが望
ましい。つまり、通常の信号(たとえば、低次多項式と
して書くことができる)に最高周波数信号(−1)
掛けた場合、ローパスフィルタは0を出力しなければな
らない。この条件は、前のセクションでのように0モー
メント制約として容易にキャストすることができるが、
ただし入力はs=iではなくs=(−1)
の形式となる。予測ステップと類似の表記を使用する
と、更新ステップは次の式に対応する。
【0054】
【数6】
【0055】ただし,kはフィルタ内のタップの個数で
ある(この場合k=7)。ローパスフィルタのモーメン
トは以下のように書くことができる。
【0056】
【数7】
【0057】しかし、各dについて、式は局所的に次
のように書き直すことができる(s=(−1)
)。
【0058】
【数8】
【0059】これはjとk/2が奇数だからである。個
々のaは0モーメントを生成するように設定されるた
め、以下の式が成立する。
【0060】
【数9】
【0061】これは、d=−2jを意味する。
【0062】
【数10】
【0063】ウェーブレットで通常の信号も圧縮するに
は、できる限り多くのモーメントをできる限り0に等し
くしなければならない。自由度は4なので、最初の4つ
のモーメントを0に設定できる。以下の方程式系でこの
結果を検証することは容易である。
【0064】
【数11】
【0065】これは、wb=c’と行列表記で書くこと
ができる。この方程式系の解は、よく知られている三次
ウェーブレットb=[−1/32,9/32,9/3
2,−1/32]で使用されている係数である。
【0066】そこで、係数sのうちいくつかが欠損し
ていると仮定する。最初に、すべての欠損値が偶数の位
置にのみあると仮定する。この方程式系は、前と同様に
して解いて以下を検証することができる。 (pwm+m−I)b=pc’ 式16 mとp行列は、s内を中心とする位置に依存すること
に留意されたい。それぞれの位置ではマスクの異なる部
分が見えるため、それに対応するmとpがある。式16
の解は、下に示す表2で与えられ、これは、方程式系の
次元が4のときの異なる値に対する式16の解を表して
いる。式16を導くために、奇数の位置がマスクされて
いないと仮定した。いくつかの奇数位置がマスクされて
いて、マスクされた値の個数がnよりも小さい場合、d
=−2jと式16が成立する。そうでない場合、予
測ステップでマスクされたピクセルが多すぎて更新ステ
ップでn番目のモーメントを無効にできない(ウェーブ
レット係数は小さいとしても、0ではない)。逆ウェー
ブレット変換は、リフティング形式主義のおかげで各ス
テップを局所的に逆に実行することにより容易に計算で
きる。
【0067】
【表2】
【0068】したがって、マスクされたウェーブレット
変換を使用して、前景イメージおよび背景イメージをエ
ンコードし、その際に空領域を埋める必要がない。しか
し、さまざまな実装において上述のように注意しなくて
よい値で空領域を充てんする他のエンコード方法または
圧縮方式を使用できることは明白である。
【0069】図5は、本発明の一態様によるセグメント
化されたレイヤ化イメージデコードシステムを示すブロ
ック図である。システムは、圧縮されたビットストリー
ムを受け取り、組み替えたイメージを圧縮ビットストリ
ームから生成する。このシステムには、セパレータコン
ポーネント502、前景デコーダ504、背景デコーダ
506、マスクデコーダ508、およびコンバイナ51
0が含まれる。
【0070】セパレータコンポーネント502は、圧縮
されたビット列を受け取り、それらのビットを分離して
前掲ビットストリーム、背景ビットストリーム、および
マスクビットストリームを形成する。セパレータコンポ
ーネント502は、ヘッダ情報を使用してビットストリ
ームを分離する。前景デコーダ504は、前景ビットス
トリームを伸張して、前景イメージを生成する。背景デ
コーダ506は、背景ビットストリームを伸張して、背
景イメージを生成する。前景デコーダ504および背景
デコーダ506はたとえば、プログレッシブ波形または
プログレッシブ変換など任意の数の伸張方式を使用でき
る。
【0071】マスクデコーダ508は、マスクビットス
トリームを伸張して、マスクまたはマスクイメージを生
成する。また、マスクデコーダ508はレイアウトおよ
び/またはリフロー情報を受け取る。さらに、マスクデ
コーダ508は、テキスト情報を再構成するために使用
される辞書を取得することができる。マスクデコーダ5
08は、通常、2レベル伸張方式を使用する。一部の圧
縮方式(たとえば、マスクウェーブレット)では、前景
デコーダ504および背景デコーダ506は前景イメー
ジおよび背景イメージを取得するためにマスクデコーダ
508から伸張されたマスクを必要とする場合がある。
【0072】コンバイナ510は、前景イメージ、背景
イメージ、およびマスクを組み合わせて組み換え文書イ
メージを生成する。組み替えられたイメージは、オリジ
ナルの文書イメージと同一であるかまたは近似的なイメ
ージである。さらに、組み替えられたイメージは所望の
表示装置に応じて形状やサイズが異なることがある。た
とえば、手紙サイズの文書のスキャンはそれよりもさら
小さい画面を持つ携帯型デバイスでは表示が異なること
がある。コンバイナ510は、マスクに基づいて前景イ
メージおよび背景イメージから組み替えられた文書イメ
ージのピクセルを生成する。組み替えられた文書のそれ
ぞれのピクセルは、マスクの対応するピクセルを参照す
ることにより決定され、それにより組み替えられた文書
のピクセルの出所が前景イメージなのか背景イメージな
のかを判別することができる。たとえば、マスクピクセ
ル値1は組み替えられた文書のピクセルの出所が前景イ
メージの対応するピクセルであることを示す。
【0073】図6は本発明の一態様による文書イメージ
サンプルの図である。図6は、例であり本発明をさらに
詳しく説明することのみを目的としている。文書イメー
ジ601は、さまざまな色および/または陰影で表され
る。文書イメージ601は、テキスト情報602および
イメージ情報604および603と、背景605を含む
通常の文書イメージである。図6に示されているパター
ンは陰影または色を示している。したがって、テキスト
情報602は、イメージ情報603および604または
背景605と異なる色であってよい。さらに、この情報
では適当な数の色を使用できる。本発明により、図1の
システムを使用するなど、文書イメージ601を3つの
コンポーネント、マスク610、前景イメージ611、
および背景イメージ612に分割する。本発明の他の態
様では、文書イメージを2つまたは3つ以上のレイヤに
分割することができる。
【0074】マスク610は、2値イメージであり、そ
こで、白黒領域のみで表示される。マスク610は、文
書イメージのピクセルが前景イメージ611に入るの
か、背景イメージ612に入るのかを決定しまたは割り
当てる。マスク610はさらに、前景イメージ611お
よび背景イメージ612のどのピクセルが再構成された
文書内に配置されるかを決定することにより再構成され
た文書イメージを生成するのに使用される。再構成され
た文書は同一であるか、または文書イメージ601を近
似したものになっている。
【0075】図6から分かるように、前景イメージ61
1はマスク610で示されているように文書イメージ6
01の一部を含む。このマスク610の黒色ピクセルに
より、文書イメージ601のピクセルが前景イメージ6
11に割り当てられる。前景イメージ603の他の部分
を注意しなくてよいピクセル615で埋めることができ
る。上述したように、注意しなくてよいピクセル615
は、圧縮率を高めるが、再構成されたイメージ内には存
在しない。同様に、背景イメージ612は、マスク61
0により示されているように文書イメージ601の一部
を含む。このマスク610の白色ピクセルにより、文書
イメージ601のピクセルが背景イメージ612に割り
当てられる。図6に示されているように、背景イメージ
604の他の部分を注意しなくてよいピクセル606で
埋めることができる。注意しなくてよいピクセル606
は、圧縮のため存在しており、再構成されたイメージ内
に含まれない。テキスト情報602のアウトラインが説
明のため背景イメージ612内に示されている。しか
し、テキスト情報602は、背景605と一致する注意
しなくてよいピクセルで埋めて、テキスト情報602が
背景イメージ612内で見えなくすることができること
は明白である。
【0076】上述のように、図6は本発明による数多く
のありうる文書イメージのうちの一例にすぎない。イメ
ージの多くのバリエーションを作成でき、また本発明に
そのまま基づく。
【0077】図7は、本発明の一態様による分割(セグ
メント化)されたレイヤ化イメージエンコードシステム
を示すブロック図である。システムでは、テキスト、手
書き、図面、文書内にあるものなどの情報を識別し、文
書を圧縮することができる。システムは、適当な形状ま
たはサイズの単一文書または複数ページ文書に作用す
る。
【0078】カラースペースコンバータ(colors
pace converter)702は、文書イメー
ジに作用し、文書イメージのカラースペースを変換す
る。カラースペースは、文書イメージ内で色を表す方法
を指す。カラースペースは一般にピクセル毎に色を表示
する多数のコンポーネントを有する。たとえば、イメー
ジは、各ピクセルがRGB成分のそれぞれについて値を
持つRGB(赤、緑、青)カラースペースで表すことが
できる。さらに、透明成分を追加して、ピクセルの透明
性を示すこともできる。ピクセルの色全体は、これらの
成分を組み合わせることにより得られる。たとえば、白
色はRGB値255、255、255(1成分につき8
ビットと仮定する)を使用して得ることができ、青色は
RGB値0、0、200で得ることができる。RGBカ
ラースペースは、イメージの表示や文書のスキャンに使
用されることが多い。しかし、RGBカラースペースは
圧縮の妨げになることがある。
【0079】文書内の色は一般に、相関および/または
相互関係がある。RGBカラースペースでは、各成分は
個別に圧縮されるため(チャネルにより)、同じ情報が
何回も符号化される。文書イメージの圧縮を改善するた
めに、文書のカラースペースをより圧縮率の高いカラー
スペースに変換する。
【0080】実現可能なカラースペース変換の1つに、
文書イメージをRGBカラースペースからYUVカラー
スペースに変換する方法がある。Y、U、V成分はそれ
ぞれ、ルミネセンス、クロミナンス赤、およびクロミナ
ンス青の成分である。YUVはもともと、テレビ視聴用
に開発されたものである。変換は、圧縮率の高さではな
く表示の好みに基づいて開発された。したがって、文書
イメージは、以下の式を使ってRGBカラースペースか
らYUVカラースペースに変換できる。 Y=0.6G+0.3R+0.1B U=R−Y 式17 V=B−Y
【0081】YUVカラースペースは、RGBカラース
ペースに比べて圧縮率が優れているが、それは、成分間
の相関を利用しており、同じ情報が何回も符号化されな
いからである。相関情報のほとんどは、Y成分に含まれ
ている。式17は、YUV成分が対応するRGB成分よ
りも小さな値で表されることを示している。しかし、上
述のように、YUVカラースペースは圧縮率を高めるた
めに設計されたわけではなく、表示性を高めるために設
計されたのである。たとえば、表示などのために式17
を修正することにより適当な何らかの目的のために文書
イメージを再びRGBカラースペースに変換することが
できることは明白である。
【0082】他のカラースペース変換に、文書イメージ
をRGBカラースペースからYCカラースペース
に変換する方法がある。YC表現では、Yで表さ
れるルミネセンス、Cで表されるクロミナンスオレン
ジ、Cで表されるクロミナンスグリーンを利用する。
RGB成分は、(たとえば、上述の従来のYUVの代わ
りに)変換を使用してYCにマッピングすること
ができる。
【0083】
【数12】
【0084】YCoCgカラースペースマッピングの利
点は、RGBからYCoCgへ、またYCoCgからR
GBへの逆変換に整数演算を利用できるという点である
ことが著しい。さらに、逆変換は乗算なしで実行でき
る。YCカラースペース表現を使用すると、普及
しているYUVに比べて圧縮効率が著しく高いが、それ
は現代的なデジタル画像データに対する主成分分析から
得られる統計的に最適な空間に対する近似が優れている
からである。アドバンストYCカラースペース
は、表示目的には設計されておらず、圧縮用に設計され
ている。さらに、式18の式または変換では整数演算を
使用するため、文書イメージを計算効率の高い方法でY
カラースペースに変換することができる。
【0085】カラースペースコンバータ702は、カラ
ースペースからカラースペースへ文書イメージを変換で
きることは明白である。たとえば、カラースペースコン
バータ702は、文書イメージをYUVカラースペース
からYCoCgカラースペースに変換することができ
る。さらに、文書イメージがすでに好ましいカラースペ
ース内にある場合、変換は実行されない。
【0086】マスクセパレータ704は、文書イメージ
をカラースペースコンポーネント702から受け取っ
て、マスクを生成する。マスクセパレータ704によっ
て生成されるマスクを使用して、文書イメージを2つの
レイヤ、前景イメージと背景イメージに分割する。本発
明の他の態様ではイメージを2つよりも多いレイヤに分
割できることは理解されるであろう。マスクは、マスク
イメージとも呼ばれ、2値イメージであり、各ピクセル
値によってピクセルが前景イメージに属するのか、それ
とも背景イメージに属するのかを判別する。マスクセパ
レータ704によって、マスク、前景イメージ、背景イ
メージの合わせたサイズが小さくなるようにマスクが生
成される。
【0087】マスクを生成するのにさまざまな方式が使
用できる。圧縮の場合、同等のピクセル値は異なるピク
セル値よりも圧縮率がよい。たとえば、青空の領域は色
と強度が変化する領域よりも圧縮率がよい。上述のよう
に、マスクを生成するのは、マスク、前景イメージ、お
よび背景イメージを組み合わせた場合のサイズに対する
推定値を引き下げるためである。
【0088】採用できる方法の1つに、可能なすべての
マスクを生成し、単に最良のものを選択するという方法
がある。ピクセルをN個含む文書イメージの場合、可能
なマスクは2個ある。したがって、可能なすべてのマ
スクを検討して、どれが最小になる組合せイメージを生
成するかを判別することができる。しかし、可能なすべ
てのマスクを検討することは高い計算能力を必要とし、
時間もかかるため、一般的には実用的でない。
【0089】他の方法として、文書を複数の領域に細分
し、それぞれの領域を分析してピクセルを割り当て、領
域をマージする方法がある。エネルギー分散は、得られ
る圧縮率の推定であり、距離の平方和に基づく測定であ
る。文書の小さな領域、たとえば2×2ピクセルまたは
4×4ピクセルをエネルギー分散に関して分析すること
ができる。この小さな領域を前景領域と背景領域に分割
し、その小さな領域のエネルギー分散が低減または最小
化されるようにできる。可能なすべてのマスクを分析し
て、使用するマスクを決定できるが、それは、領域がこ
のような分析を実現可能なものにできるほど小さいから
である。たとえば、4ピクセルの領域については、その
領域に対してマスクの16の可能な順列しかない。その
小さな領域をマージしてまとめ、マスクを生成できる
が、それは全体として、マスク、前景イメージ、および
背景イメージの組み合わせたサイズを低減する。
【0090】マスクを生成する他の方法として、前景お
よび背景がある領域上で一定であり、それらの定数値に
関して分散またはエネルギー分散を最小にするか、また
は実質的に減らすマスクが生成される。ここで分散は、
実際にマスクを生成する代わりに、文書イメージを分割
して前景と背景のイメージを取得し、それらを圧縮する
前景および背景の両方に関して得られる圧縮の推定値と
して使用される。上述のようにエネルギー分散は、エネ
ルギー測度でもあり(距離の平方の和)、圧縮後の前景
および背景のサイズの許容可能な推定値である。まず、
マスクを圧縮するコストは完全に無視できる。さらなる
ステップでは、マスクのサイズを考慮することもでき
る。
【0091】与えられた領域についてその領域がN個の
ピクセルの集合Sであり、FおよびBはパーティション
である(つまり、F∪B=Sかつ
【0092】
【数13】
【0093】)。f(x)がピクセル位置x,x∈Sの
イメージ値の場合、前景および背景の分散はそれぞれ次
のようになる。
【0094】
【数14】
【0095】ただし、
【0096】
【数15】
【0097】は、それぞれ、前景および背景の平均であ
り、NおよびNはそれぞれ、前景および背景内のピ
クセルの個数である。これらの分散は以下のように表す
こともできることに留意されたい。
【0098】
【数16】
【0099】和E=v+vを最小にするSの適当な
パーティションFおよびBを見つける。このような簡素
化を行っても、2個のマスクがあり得るため問題はそ
れでも並外れて困難である。したがって、イメージをさ
らに2×2ピクセルサブイメージに分割する。それぞれ
の2×2サブイメージ上に、マスクは2=16個しか
あり得ず、これは、このような領域のそれぞれで(16
の組合せすべてを試して、最小のエネルギーで保持する
ことにより)E=v+vを最小にする最適なFおよ
びBを求めることが可能であることを意味している。1
6の組合せすべてを試す必要がないことが分かる。問題
は、K=2の場合のK−means問題と等価であり、
f(イメージ)がスカラー関数であるので、解を求めら
れる値f(x)を並べ替え、非常に効率よく計算でき
る、つまり4ピクセル値すべてを並べ替え、3つのパー
ティションのうちの1つ(並べ替えに関して)から最低
のエネルギーが求められる。それぞれのパーティション
において部分和を再利用して、演算回数を最小にするこ
とができる。
【0100】しかし、この解法には欠点があり、すべて
の2×2部分領域はピクセルノイズがごくわずかであっ
てもピックアップする可能性のある異なる前景および背
景を持ち、不適切なマスクが生じるというものである。
次のステップで、隣接する領域同士を結合する。たとえ
ば、2つの領域1および2と、対応する前景および背景
、B、およびF、Bを仮定する。これら4つ
の集合を組み合わせると、実際に7つの異なる組合せが
得られる。
【0101】
【表3】
【0102】勝利の組合せは、最低エネルギーE=v
+vが得られる組合せである。7つの組合せすべてを
試すか、または前景および背景の平均を並べ替えてその
並べ替えに関するパーティションのみを考慮することに
注意されたい。さらに、それぞれの領域が量
【0103】
【数17】
【0104】と前景に対するNおよび
【0105】
【数18】
【0106】およびNを保持する場合、Eの組合せを
一定時間で計算できる。マージした後、通常、これらの
量を再計算する必要があるが、幸運なことに、これも一
定時間で実行できる。さらに、領域にわたる和
【0107】
【数19】
【0108】は、それぞれの領域に関して一定であり、
最適なパーティションを選択する目的で計算する必要は
ないことに注意されたい。さらに領域にわたるこの和
【0109】
【数20】
【0110】を使用して、以下に示すように、領域をマ
ージしない場合を決定することもできる。
【0111】隣接する領域同士を組み合わせる操作は、
水平方向に隣接する2×2領域を組み合わせて2×4領
域にし、その後垂直方向に隣接する2×4領域を組み合
わせて4×4領域にすることで行う。4×4領域は、8
×8領域に組み合わされ、領域が1つだけ残るまで繰り
返され、この領域が前景と背景とに分割される。
【0112】残念なことに、このような手法で複数の階
調を前景または背景に入れるマージとなり、領域内に2
色を超える色があるときはいつもテキストなどの重要な
詳細が失われる可能性がある。たとえば、領域1に白地
に灰色で書かれたテキストが置かれ領域2はほとんど黒
である場合、これら2つの領域のマージにより灰色と白
色が得られる領域の前景に入り、黒が背景に入るため、
テキスト情報が失われることになる。しかし、2色を前
景または背景のいずれかにマージするときはいつも、そ
の領域に対してエネルギーの急激な増大(または分散)
が顕著になるが、それはこのような領域に対しては一定
であるということはもはやよいモデルではなくなるから
である。そこで、エネルギーEが実験的に求められる特
定のしきい値Kを超えた場合に隣接する領域をマージし
ないようにするアルゴリズムを採用することが望まし
い。このアルゴリズムにより、1ページ内のテキストお
よびグラフィックスラインの大半を捕捉するマスクが得
られる。
【0113】しかし、このアルゴリズムは、数多くの改
良点を持ち、その1つは単純領域を採用していることで
ある。小領域(たとえば、4×4)のI領域エネルギー
を測定し、そのエネルギーが十分に低い場合(実験的に
求めた別のしきい値を使用して)、領域全体を前景また
は背景に配置することができる。したがって、エネルギ
ーがしきい値よりも低い場合に、小さな領域の分割を避
けることで、アルゴリズムの動作を高速化することがで
きる。前景および背景に対する一定という仮定を使用す
る代わりに、多項式回帰を使用して、前景と背景を表す
ことができる。たとえば、多項式が式αx+βy+μで
定められる平面の場合、エネルギーは以下の式で定義さ
れる。
【0114】
【数21】
【0115】ただし、x、yはピクセル位置のインデッ
クスであり、α、βおよびμはvを最小にする
スカラーであり、α、β、およびμはvを最小
にするスカラーである。α、β、およびμは量
【0116】
【数22】
【0117】を使用して一定時間内に解くことができ
る。これは、3つの未知数と3つの方程式からなる一次
方程式系であり、同じことがα、β、およびμ
適用される。前のように、アルゴリズムはボトムアップ
であり、マージ毎にEを最小にする。前景および背景
は、平均で並べ替えることはできず、したがって、7つ
の組合せすべてをテストしてEを最小にする組合せを求
める。一定時間内に各テストおよびマージの実行を続け
るために、量
【0118】
【数23】
【0119】とNを前景および背景の各領域について保
持しなければならない。単純領域の最適化はそれでも可
能ではあるが、領域、多項式回帰、またはその両方で一
定であることを仮定できる。
【0120】マスクプロセッサコンポーネント706
は、マスクに対して処理操作を何回でも実行する。マス
クプロセッサコンポーネントは、ノイズ除去コンポーネ
ント708、およびディザ検出器710を含む。本発明
の他の態様には他のマスク処理コンポーネントを含める
ことができることは明白である。本発明の他の態様に多
少の処理コンポーネントを含めることができることはさ
らに明白である。
【0121】ノイズ除去コンポーネント708は、マス
クからノイズを除去する。上述のように、デジタル文書
は通常標準文書内でスキャンすることにより作成され
る。ある程度のノイズはほとんどいつでも、スキャンお
よびデジタル化プロセスを介してデジタル文書に入り込
む。たとえば、スキャナのトレー上の指紋や文書の折り
返しにより、ノイズおよび/または誤ったマークが文書
イメージ内に入り込むことがある。ノイズ除去コンポー
ネント708はまず、マスク内のノイズを識別しようと
する。マスクを識別するのにさまざまな方式を使用でき
る。1つの方法として、接続されたコンポーネントにつ
いてマスクを分析する方法がある。接続コンポーネント
は、同じ色、たとえば黒色の接続ピクセルである。マス
クは左から右に、上から下に、ページ毎にスキャンさ
れ、接続コンポーネントの検索が行われる。接続コンポ
ーネントは、位置および形状またはビットマップ情報と
ともに格納することができる。その後、文書の各ピクセ
ルを分析して、ノイズの有無を判別する。こうして、ピ
クセル毎に、5個のピクセルの距離内のすべてのピクセ
ルなどの囲む領域を分析して、囲む領域内の、および/
または囲む領域を交差する多数の接続コンポーネントを
決定する。接続コンポーネントの個数がしきい値よりも
少ない場合、ピクセルはノイズであるとみなされ、マス
クから除去される。その後、どちらか圧縮率のよい方と
いう条件でピクセルを前景または背景イメージに割り当
てる。本発明によれば他の方法も使用できる。
【0122】一般に、ノイズ除去コンポーネント708
はランダムに見える、かつ/または文書内のテキストま
たはイメージに無関係のように見えるピクセルを識別す
ることができる。ノイズ除去コンポーネント708は必
ずしも文書からすべてのノイズを除去するわけではない
ことは明白である。ノイズ除去コンポーネント708
は、ピクセルを前景イメージまたは背景イメージに割り
当てることによりマスクから識別されたノイズを除去す
る。さらに、ノイズは、たとえばノイズとして識別され
たピクセルを囲むピクセルの値で置き換えることで除去
することもできる。
【0123】ディザ検出器710マスク内のディザリン
グを検出し、マスクからディザリングを除去する。ディ
ザリングは、モノクロ表示装置またはプリンタにさまざ
まな灰色の陰影の錯覚を作り出したり、カラー表示装置
またはプリンタに追加色を表示するためにコンピュータ
グラフィックスで採用している手法である。ディザリン
グは、異なるパターンで色分けされているドットの集ま
りとしてイメージの領域を処理することに依存してい
る。ハーフトーンと呼ばれる印刷イメージと似ている
が、ディザリングは効果の平均を取り、認知された単一
の陰影または色をマージすることにより異なる色の青色
スポットへの目の傾向を利用する。与えられた領域内の
黒色ドットと白色ドットとの比に応じて効果全体が特定
の灰色陰影となる。ディザリングは、コンピュータグラ
フィックスに現実感を加え、低解像度での曲線および対
角線のぎざぎざしたエッジを滑らかにする場合に使用さ
れる。しかし、ディザリングには文書イメージに関する
問題がある。ディザリングは適切に検出し処理しない
と、テキスト、手書き、またはグラフィックとして誤っ
て解釈されることがある。
【0124】ディザ検出器710は、マスク内のディザ
リング領域を識別し、それらの領域を分割して、各領域
または部分領域が類似したディザリングパターンを持つ
ようにすることができる。ディザ検出器710は、識別
されたディザリング領域を除去または処理する。たとえ
ば、ディザ検出器710はディザリング領域を明るい灰
色であるとして識別することがある。ディザ検出器71
0は、ディザリング領域を単に除去したり、その領域を
明るい灰色に設定したりできる。領域を陰影に変える場
合も文書イメージを変更することになることは明白であ
る。ディザ検出器710はさらに、マスクを修正するこ
とにより、識別されたディザリング領域を前景または背
景に再割り当てすることもできる。
【0125】ディザリングを検出および/または処理す
るのにさまざまな方式を使用できる。1つの方法とし
て、接続されたコンポーネントについてマスクを分析す
る方法がある。接続コンポーネントは、同じ色、たとえ
ば黒色の接続ピクセルである。マスクは左から右に、上
から下に、ページ毎にスキャンされ、接続コンポーネン
トの検索が行われる。接続コンポーネントは、位置およ
び形状またはビットマップ情報とともに格納することが
できる。マスクのピクセル毎に、囲む領域内の、および
/または囲む領域と交差する一定量の接続コンポーネン
トを決定する。囲む領域は、7などのピクセルを囲む多
数のピクセルとすることができる。領域内の接続コンポ
ーネントの数がしきい値よりも多い場合、ディザリング
は除去される。その後、ピクセルを前景または背景イメ
ージのいずれかに割り当てて、ディザリングを除去する
ことができる。この割り当てを決定するには、領域の背
景内のピクセルの数量と領域の前景内のピクセルの数量
を計算する。次に、領域の前景内のピクセルの数量が領
域の背景内のピクセルの数量よりも多い場合にそれらの
ピクセルを前景に割り当て、そうでない場合にピクセル
を背景に割り当てることができる。本発明ではディザリ
ングやハーフトーン作成を識別および/または処理する
他の方法を採用することができる。
【0126】クラスタ化コンポーネント712はマスク
内のクラスタを識別する。クラスタ化コンポーネント7
12はマスク内に接続コンポーネントを配置する。接続
コンポーネントは、たとえば、上述のように、複数の接
続ピクセルであり、4方向接続コンポーネントまたは8
方向接続コンポーネントのいずれかとすることができ
る。マスク内に接続コンポーネントを配置した後、クラ
スタ化コンポーネント712は類似の接続コンポーネン
トを識別して、それらをクラスタとしてグループ化す
る。クラスタとは類似の接続コンポーネントの1グルー
プのことである。一般に、クラスタは手書きを含む英数
字文字を表すが、他の情報も含めることができる。しか
し、単一文字を表すクラスタは多数あり得る。クラスタ
化を採用すると圧縮率が劇的に向上する。
【0127】圧縮率が高まり、ファイルサイズが縮小す
る理由は、それぞれの接続コンポーネントが位置、およ
び形状の辞書に属している形状へのポインタにより要約
されるということである。この形状は、接続コンポーネ
ントまたはクラスタのビットマップつまり「イメージ」
である。接続コンポーネントはマークとも呼ばれる。こ
のアルゴリズムのクラスタ化の態様では、その辞書に属
する形状および各接続コンポーネントに最も近い形状を
決定する。通常、形状の辞書は、ファイルサイズの数分
の1であり、複数ページにわたって共有さえできる。形
状へのポインタは、ページ内の位置(XおよびY)と形
状番号により特徴付けられる。XおよびY位置は、前の
位置を使って圧縮できるが、形状インデックスはコンテ
キストまたは言語モデルを使って圧縮される。
【0128】クラスタ化コンポーネント712ではさま
ざまな方法を使ってクラスタを識別することができる。
1つの方法として、マークの形状を互いに比較して、同
等の、かつ/または同一のマークを識別する方法があ
る。既存のクラスタの特性およびマークまたは接続コン
ポーネントの特性を使用する方法もある。既存のクラス
タは、少なくとも1つのマークからなるグループであ
り、すでにクラスタとして定義されているものである。
文書から抽出されたマークの特性を既存のクラスタの特
性と比較する。このような比較には、不一致を識別する
ためにタイミングのよい、ビット毎のコストのかかる比
較は不要である。マーク特性と既存のクラスタ特性とが
一致しない場合、またマークが既存のクラスタからかけ
離れすぎているとみなされる場合、そのマークは新しい
クラスタとして追加され、ビット毎の比較は回避され
る。この方式では、不一致を検出する計算効率のよいス
クリーニングとクラスタ化の肯定的一致を検出する計算
効率のよいアルゴリズムの両方によりそれ自体と他の方
式とを区別する。
【0129】採用できるクラスタの特定の特性は、xサ
イズとyサイズである。xサイズおよびyサイズは、既
存のクラスタのサイズ設定情報を規定する。マークのx
サイズおよびyサイズを、既存のクラスタのxサイズお
よびyサイズと比較し、不一致を識別する。本発明の一
態様では、クラスタをxサイズとyサイズでインデック
スを作成した2Dバケットテーブルを構成する。新しい
マークが見つかると、同一のxサイズおよびyサイズの
バケットが抽出され、マークがバケット内のクラスタと
比較される。隣接するバケットも、さらに正確な一致に
関して検索することができる(他のバケットはすべて無
視されるかまたはスクリーニングされる)。後述のクラ
スタ中心に関する「ドリフトなし」の仮定はここでは役
立つが、それはクラスタがバケット内にとどまることを
保証されるからである。
【0130】マークと既存のクラスタとの比較に使用で
きる特性の1つにインクサイズがある。インクサイズと
は一般に、マークまたはクラスタ内の黒色ピクセルとピ
クセル全体との比を指す。同様に、マークのインクサイ
ズを、既存のクラスタのインクサイズと比較して、不一
致を識別することができる。マークの他の特性に「ホッ
トポイント」がある。ホットポイントはマーク上のある
位置であり、重心とすることができ、または他の手段に
より計算することができる(たとえば、囲む文字の直線
方程式)。比較を開始する前にマークのホットポイント
とクラスタの位置を揃えると、多くの場合並行移動(t
ranslation)する。さらに他の特性として、
縮小されたマークまたはイメージがあるが、これはピク
セルサイズの縮小バージョンで、マークおよび/または
クラスタのビットマップである。本発明の一態様では、
縮小マークはホットポイントの中心に置かれ、マークは
縮小マークのサイズが固定されるように拡大縮小され
る。再び、クラスタのドリフトなし仮定が、クラスタの
縮小バージョンがクラスタ内のすべてのマークを適切に
表現することを保証する際に役立つ。縮小マークと既存
のクラスタの縮小マークまたは縮小イメージとを比較し
て不一致を識別することができる。
【0131】マークに対するすべての特性テストが成功
した場合、より直接的な方法でクラスタ化との比較が行
われる。マークとクラスタとの距離を計算し、第1のし
きい値と比較する。距離がしきい値の範囲内にあれば、
マークは既存のクラスタに追加される。マークを第1の
許容可能な既存クラスタに追加したり、あるいはマーク
を、そのマークとの比較から最小距離にある既存クラス
タに追加することができる。
【0132】さらに、クラスタ内に配置されている第1
の要素によりクラスタを特徴付けることができる。その
ような方式の利点は、新しいマークをクラスタに追加す
る場合でもクラスタの特性の再計算が不要だという点で
ある。この方式の他の利点として、新しいマークをクラ
スタに追加する毎にクラスタ中心が移動する際に発生す
る「クラスタドリフト」が避けられるという点が挙げら
れる。クラスタドリフトがないことは、「ドリフトな
し」仮定とも呼ばれるが、これにより、同じクラスタの
2つの要素の間の最大距離が保証され、この保証で効率
のよい積極的なスクリーニングが行える。このような方
式の主な欠点は、k−meansなどの他のクラスタ化
アルゴリズムと比べて同じクラスタ−マーク間距離に対
してクラスタが多くなるという意味でクラスタ化が最適
でないという点である。しかし、この方式の著しい利点
は速度向上にある。テキスト圧縮が容易になり、クラス
タの個数が10%増えることは問題ではない。というの
も、各クラスタの情報を伝達する辞書のサイズが通常、
圧縮された文書のサイズの数分の1だからである。
【0133】クラスタ化コンポーネント712がマスク
内のクラスタを識別した後、マスク上で光学式文字認識
(OCR)を実行するOCRコンポーネント714がマ
スクを受け取る。OCRコンポーネント714は、マス
ク内の文字である可能性のあるものを識別し、クラスタ
化コンポーネント707からのクラスタを利用して、文
字に関するクラスタの分析を支援することができる。各
クラスタを分析して、クラスタが文字かどうかを判別
し、その後、そのクラスタがどのような文字を表すかを
判別する。この方式は、言語および/またはアルファベ
ットが異なれば異なる。一般に、クラスタの形状または
ビットマップを使用しているアルファベットの形状また
はビットマップと比較する。その形状が十分似ていれ
ば、クラスタはその特定の文字であると認識される。見
つかったそれぞれの文字の位置情報をその順序とともに
保持することができる。文字は、ASCIIなどの標準
アルファベットの文字の列として格納できる。
【0134】レイアウトコンポーネント716はマスク
に作用し、圧縮率を高め、レイアウト情報を伝達する。
レイアウト情報を後から使用して、文書イメージをリフ
ローすることができる。レイアウトコンポーネント71
6は、圧縮率を高め、かつ/またはレイアウト情報を伝
達するためにさまざまな方式を使用することができる。
ある方式では、最初に接続コンポーネントを色、垂直位
置、および/または水平位置により整理する。クラスタ
化コンポーネント712などの、システム700の他の
コンポーネントにより接続コンポーネントを提供するこ
ともできる。レイアウトコンポーネント716は、その
後、少なくとも一部は色、垂直位置、水平位置、結合距
離(たとえば、接続コンポーネント間の距離)、接続コ
ンポーネントの高さ、および/または接続コンポーネン
トの幅に基づき接続コンポーネントを結合または組み合
わせる。したがって、結合された接続コンポーネントは
2つまたはそれ以上の接続コンポーネントで構成され
る。結合コンポーネントは、さらに、他の接続コンポー
ネントまたは他の結合コンポーネントと結合することも
できる。レイアウトコンポーネント716は、提供する
レイアウト情報を生成する。レイアウト情報には、結合
コンポーネントの位置、ラインの位置、および文書イメ
ージのその他の情報を含むことができる。
【0135】マスクエンコーダ718は、レイアウト分
析コンポーネント716からマスクを受け取り、そのマ
スクをエンコードしてマスクビットストリームと呼ばれ
る圧縮ビットストリームを生成する。マスクエンコーダ
718では適当な圧縮方式を採用できる。マスクは2値
形式であり、通常はテキスト情報を含む。したがって、
2値形式およびテキスト情報も圧縮する圧縮方式を選択
しなければならない。2レベル圧縮方式を使用してマス
クをエンコードすることもできる。さらに、マスクエン
コーダ718は、たとえば、ライブラリ、辞書、シンボ
ル、テーブルサイズなどのマスクビットストリームをデ
コードするために使用されるエンコーディング情報をエ
ンコードするかまたは供給する。
【0136】マスクをエンコードするのに使用できる圧
縮方式としてCCITT(国際電信電話諮問委員会)方
式がある。CCITTは、現在ITU−T国際電気通信
連合−通信部門(1994年に名称変更)と呼ばれる規
格制定機関であり、FAX/モデム通信のための可逆圧
縮技術の名称になっている。この種の圧縮は、2値イメ
ージでうまく働く。標準的な圧縮比は、旧バージョンの
V.42bisでは、4:1、新しいバージョンのV.
44 2000では6:1で、これはLempel−Z
iv−Jeff−Heath(LZJH)圧縮アルゴリ
ズムに基づいている。本発明により他の圧縮方法または
方式を使用してマスクをエンコードすることができる。
【0137】前景背景セグメンタ719は、文書イメー
ジとマスクを受け取り、その文書イメージを前景イメー
ジおよび背景イメージに分離する。本発明のこの態様に
より、前景イメージおよび背景イメージは文書イメージ
と実質的に同じサイズである(たとえば、文書イメージ
が640×480で、前景イメージが640×480
で、背景イメージが640×480ピクセル)。しか
し、本発明の他の態様では、文書イメージとサイズが実
質的に異なる前景イメージおよび背景イメージを生成す
ることができる。前景イメージおよび背景イメージは、
組合せまたは組み換えたときに、文書イメージと同一に
なるかまたは類似する。
【0138】前景背景セグメンタ719は、2値形式で
あるマスクを使用して、前景イメージと背景イメージと
を作成する。たとえば、マスク内で1により表されてい
るすべてのピクセルは前景イメージに入り、マスク内で
0により表されるすべてのピクセルは背景イメージに入
る。逆に、たとえば、マスク内で0により表されている
すべてのピクセルは前景イメージに入り、マスク内で1
により表されるすべてのピクセルは背景イメージに入る
こともできる。しかし、背景イメージおよび前景イメー
ジは通常、ピクセルに値が割り当てられていない。値が
割り当てられていないピクセルは、穴、空領域、および
/または注意しなくてよいピクセルと呼ばれる。
【0139】さらに、前景背景セグメンタ719は、膨
張処理コンポーネント720と画像修正コンポーネント
721を含む。膨張処理コンポーネント720は、前景
イメージおよび/または背景イメージに応じてマスクに
作用する。膨張操作は、マスクを受け取りkを定数(た
とえば、2)としてk個のピクセルで「1」の領域を拡
大する距離変換に基づく形態論操作である。距離は、マ
ンハッタン距離または球面距離である。逆演算である浸
食(erosion)は、逆マスクの膨張処理により実
行できる。通常のスキャンされた文書では、テキストは
インクのにじみやスキャン時の低dpi設定の結果、消
えかかっている(wash out)ことが多い。した
がって、白色から黒色への遷移は連続的段階的な遷移で
あり、マスクにより前景と背景との間のハード境界が定
義される。前景と背景の両方の境界近くで連続遷移があ
ると、リンギングが入り込み、エンコードに手間がかか
ることがある。このような影響を緩和するために、境界
付近のピクセル値を無視するとよい。これは、複数のピ
クセルの距離(たとえば、2)だけ、前景および背景の
両方に対する「注意しなくてよい」値の膨張処理を実行
して行う。テキストの領域周辺で、「注意しなくてよ
い」ピクセルの膨張処理により、コントラストおよび可
読性の両方が高まるが、ファイルサイズは縮小する。し
かし、自然のイメージの領域内で膨張処理を使用する
と、コントラストが高まる結果、イメージがマンガ的に
なる。この問題を回避するために、マスクのレイアウト
分析を実行し、テキストからなる領域を検出する。膨張
操作は、テキスト領域にのみ固有のものとすることがで
きる。膨張処理コンポーネント720は、マスクを前景
マスクと背景マスクとに分けることができる。その結
果、前景および背景の両方に対して注意しなくてよいピ
クセルが生じる。これらのピクセルはそれでも、妥当な
値を割り当てられるが、それは、膨張距離が小さく、前
景および背景は通常、圧縮のせいでなめらかであり、し
たがって注意しなくてよいピクセルに、隣にある注意す
るピクセルからあまり隔たっていない値を割り当てられ
る。しかし、注意しなくてよいピクセルの膨張処理時に
は注意するピクセルの小さいまたは細い領域を完全に抹
消しないよう注意しなければならない。このようなこと
になると、ピクセルは強制されず、注意するピクセルか
らはるか隔たり、はるか遠い領域からの予測できない色
付けが生じることになる。このようなことを防ぐため
に、距離変換に注意し、極値が注意するから注意しなく
てよいに切り替わるのを防ぐ。
【0140】最終的には前景イメージおよび背景イメー
ジを組み合わせて組み換え文書を生成できることは明白
である。しかし、鋭いエッジや遷移があると、圧縮は低
下し、組み替えられたイメージはエッジやラインなどの
視覚的欠陥を生じることがある。たとえば、マスクによ
り実質的に類似している色領域に偽境界が生じ、実質的
に類似している領域の一部が前景イメージに別の一部が
背景イメージに置かれることになる場合にこのようなこ
とが発生する。これらの部分は、別々に処理され別々に
エンコードされるため、最終的に組み換えたときに偽境
界に視覚的に目立ったラインを生じる。さらに、偽境界
は本質的にそれぞれの部分でエンコードされるためこれ
らの部分の圧縮率は低下する可能性がある。
【0141】画像修正コンポーネント721はマスクに
作用し、文書イメージの「画像修正」を行うため、文書
イメージの全体的な圧縮率が改善され、視覚的に、組み
替えられた文書イメージも向上する。一般に、画像修正
コンポーネント721は、マスクを使って偽境界を識別
しかつ/または前景および/または背景イメージを拡大
する。一方式では、画像修正コンポーネント721はマ
スクを使用して、前景イメージおよび背景イメージ内の
偽境界を識別する。検出は、ピクセルの最初のしきい値
量(たとえば、5ピクセル)よりも長いマージされた領
域境界の水平および/または垂直ラインを識別すること
で行うが、その際に(1)境界の片側が前景、他方の側
が背景であり、(2)いずれかの側のそのラインに沿っ
た直線回帰が第2のしきい値よりも多い量の分だけ異な
る(たとえば、直線回帰をピクセルの前景側の境界ピク
セル上で実行し、ピクセルの背景側のピクセルに対して
直線回帰を実行する)。画像修正コンポーネント721
は、マスクセパレータ704からこの領域情報を取得す
ることができる。画像修正コンポーネント721は次
に、マスクから別々の前景マスクおよび背景マスクを生
成することにより前景および/または背景イメージを拡
大する。前景マスクは前景イメージを拡大し、背景マス
クは背景イメージを拡大する。一般に、前景イメージお
よび背景イメージは偽境界をまたいでピクセル数分拡大
される。前景マスクおよび背景マスクは通常、デコード
プロセスの一部としてエンコードまたは使用されないこ
とは明白である。組み替え時に、また本発明に従って、
画像修正コンポーネント721に対して他の方式を使用
し、文書イメージの圧縮率を高め、視覚的表示を向上さ
せることができる。
【0142】上述のように、前景背景セグメンタ719
は、マスクを使用して文書イメージを前景イメージと背
景イメージに分割する。前景マスクと背景マスクとが膨
張処理コンポーネント720および/または画像修正コ
ンポーネントにより生成される場合、前景マスクを使用
して文書イメージを前景イメージに分割し、背景マスク
を使用して文書イメージを背景イメージに分割する。
【0143】前景ピクセルフィラー(foregrou
nd pixel filler)722は、前景背景
セパレータセグメンタ719から前景イメージを受け取
る。一般に、前景ピクセルフィラー722は、前景イメ
ージ内の注意しなくてよい領域または空領域を識別し、
これらの領域を注意しなくてよいピクセルで埋める。こ
れらの領域は、前景イメージ内に空領域または注意しな
くてよい領域を残している背景イメージに割り当てられ
た文書イメージのピクセルから形成される。この注意し
なくてよいピクセルは、通常、組み替えられた文書イメ
ージ内に存在し、前景ピクセルフィラー722では注意
しなくてよいピクセルの視覚的表示を考慮しない。本発
明の他の態様では、マスクウェーブレット圧縮方式など
の注意しなくてよい領域を適切に扱える圧縮方式を使用
することにより注意しなくてよいピクセルを埋める操作
を回避することができる。
【0144】上述のように、前景イメージおよび背景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。1
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比(PSNR)に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク(または注意する領域)ピクセルの色をつけ
る。標準の形態論アルゴリズムを使用すると、すべての
ピクセルにわたり2パスのみでプロセスを実行すること
ができ、マスクの下にボロノイ充填空領域が生じる。次
に、前景イメージまたは背景イメージを再構成したら、
再構成されたイメージにローパスを実行し、既知のピク
セルをその正しい値に復元する。ローパスフィルタの遮
断周波数が低すぎる場合、鋭いエッジが発生し、境界の
付近に必要なビットレートが高くなり、顕著なリンギン
グが増える。
【0145】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、2つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と0に設定されたある種のウェーブレット係数を持つ
イメージの集合を考察する(たとえば、特定の解像度レ
ベルを超える全ての高周波係数)。2つの集合への射影
を交互に切り替えることにより、表示ピクセルと一致
し、0のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。
【0146】空領域を扱う他の方法としてさらに、不規
則グリッド用に明示的に設計されたウェーブレット変換
を使用する方法がある。このようなウェーブレット分解
は、コンピュータビジョンおよびコンピュータグラフィ
ックスにおける幾何データの圧縮の問題で必要になる。
このようなウェーブレットは、マスクの不規則パターン
に適合される。
【0147】他の方式では、注意しなくてよい領域を注
意しなくてよいピクセルで埋めることなく前景イメージ
を効率よく圧縮できるエンコーディングを行うマスクウ
ェーブレット圧縮方式を使用する。図1に関して説明し
たようなマスクウェーブレット圧縮方式は、採用できる
圧縮方式の1つである。本発明により、注意しなくてよ
い領域を取り扱う他の適当な方式を使用することができ
る。
【0148】前景ダウンサンプル(downsampl
e)コンポーネント724は、前景ピクセルフィラー7
22から前景イメージを受け取り、前景イメージのダウ
ンサンプリングを行う。前景ダウンサンプルコンポーネ
ント724は、前景イメージのサイズを縮小し、前景イ
メージおよび文書イメージの圧縮率を高める。たとえ
ば、640×480ピクセルの前景イメージを320×
240にダウンサンプリングできる。前景イメージをダ
ウンサンプリングするのにさまざまな方式を使用でき
る。方法の1つに、いくつかのピクセルを破棄して前景
イメージをダウンサンプリングする方法がある。したが
って、たとえば、すべての他のピクセルを破棄すること
により前景イメージを640×480ピクセルから32
0×240にダウンサンプリングできる。他の方法とし
て、前景イメージからの対応するピクセルの平均に基づ
いて新しいピクセルを生成する方法がある。たとえば、
前景イメージの新しいピクセルをそれぞれ、8個の隣接
するピクセルの平均として生成することができる。さら
に他の方法では、三次補間を使ってダウンサンプリング
する。さらに本発明によればイメージをダウンサンプリ
ングする他の方法を採用できる。エンコーダで前景およ
び背景をダウンサンプリングする場合、一般に、マスク
を使って組み合わせる前にデコーダ内でアップサンプリ
ング(upsample)しなければならない。
【0149】前景エンコーダ726は、前景イメージを
エンコードする。前景エンコーダ726は、前景イメー
ジからエンコードされたビットストリームを生成する。
このビットストリームは、前景ビットストリームと呼ぶ
ことができる。前景エンコーダ726では、多数の適当
な圧縮方式を使って、前景イメージをエンコードするこ
とができる。たとえば、採用できるいくつかの圧縮方式
例としてプログレッシブウェーブレットエンコーディン
グまたはプログレッシブトランスフォームエンコーディ
ングがある。
【0150】前景エンコーダ726は、さらに、前景イ
メージの圧縮率を高めるため一定色接続コンポーネント
アナライザ(図に示されていない)を含むこともでき
る。一定色接続コンポーネントでは、クラスタ化コンポ
ーネント712について説明したのと同様の方式とアル
ゴリズムを使用できる。一定色接続コンポーネントアナ
ライザが、前景イメージをスキャンして、一定色接続ピ
クセルを識別する。一定色接続ピクセルのグループがし
きい値よりも大きい場合、そのグループは一定色接続コ
ンポーネントまたは一定色マークとみなされる。「一定
色」には、色のいくつかのバリエーションが含まれるこ
とが理解される。一定色接続コンポーネントアナライザ
は、さらに、類似の一定色接続コンポーネントを一定色
クラスタにグループ化することができる。一定色クラス
タの位置情報、一定色接続コンポーネントのビットマッ
プ、形状、位置情報などの関連情報を前景ビットストリ
ームとともに含めることができる。一定色は、テキスト
で構成される領域を検出するために、採用されているレ
イアウトアナライザーを介してテキストに制限すること
もできる。
【0151】背景ピクセルフィラー730は、前景背景
セパレータ719から背景イメージを受け取る。背景ピ
クセルフィラー730は、背景イメージ内の注意しなく
てよい領域を識別し、これらの領域を注意しなくてよい
ピクセルで埋める。これらの領域は、背景イメージ内に
空領域または注意しなくてよい領域を残している前景イ
メージに割り当てられた文書イメージのピクセルから形
成される。この注意しなくてよいピクセルは、通常、組
み替えられた文書イメージ内に存在し、背景ピクセルフ
ィラー730では注意しなくてよいピクセルの視覚的表
示を考慮しない。本発明の他の態様では、マスクウェー
ブレット圧縮方式などの注意しなくてよい領域を適切に
扱える圧縮方式を使用することにより注意しなくてよい
ピクセルを埋める操作を回避することができる。背景ピ
クセルフィラー730は、実質的に前景ピクセルフィラ
ー722と同じ動作をする。
【0152】上述のように、背景イメージおよび前景イ
メージは空の領域つまり注意しなくてよい領域を持つ。
空の領域はさまざまな方法で取り扱うことができる。1
つの方法では、空の領域にデータを書き込み、普通の圧
縮手法を用いる。イメージの空の領域を埋める単純なプ
ロセスでは、それらの空の領域にそのイメージに対する
平均ピクセル値を書き込む。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比(PSNR)に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他のプロセスでは、それぞれのピクセルに最も近い
非マスク(または注意する領域)ピクセルの色をつけ
る。標準の形態論アルゴリズムを使用すると、すべての
ピクセルにわたり2パスのみでプロセスを実行すること
ができ、マスクの下にボロノイ充填空領域が生じる。次
に、前景イメージまたは背景イメージを再構成したら、
再構成されたイメージにローパスを実行し、既知のピク
セルをその正しい値に復元する。ローパスフィルタの遮
断周波数が低すぎる場合、鋭いエッジが発生し、境界の
付近に必要なビットレートが高くなり、顕著なリンギン
グが増える。
【0153】空領域を扱う他の方法として、凸集合への
射影を使用する方法がある。たとえば、2つの凸集合、
つまり、表示ピクセル上の入力と一致するイメージの集
合と0に設定されたある種のウェーブレット係数を持つ
イメージの集合を考察する(たとえば、特定の解像度レ
ベルを超える全ての高周波係数)。2つの集合への射影
を交互に切り替えることにより、表示ピクセルと一致
し、0のウェーブレット係数が多数あることから圧縮率
の高いイメージを見つけることができる。
【0154】空領域を扱う他の方法としてさらに、不規
則グリッド用に明示的に設計されたウェーブレット変換
を使用する方法がある。このようなウェーブレット分解
は、コンピュータビジョンおよびコンピュータグラフィ
ックスにおける幾何データの圧縮の問題で必要になる。
このようなウェーブレットは、マスクの不規則パターン
に適合される。
【0155】他の方式では、注意しなくてよい領域を注
意しなくてよいピクセルで埋めることなく背景イメージ
を効率よく圧縮できるエンコーディングを行うマスクウ
ェーブレット圧縮方式を使用する。図1に関して説明し
たようなマスクウェーブレット圧縮方式は、採用できる
圧縮方式の1つである。本発明により、注意しなくてよ
い領域を取り扱う他の適当な方式を使用することができ
る。
【0156】背景ダウンサンプルコンポーネント732
は、背景ピクセルフィラー730から背景イメージを受
け取り、背景イメージのダウンサンプリングを行う。背
景ダウンサンプルコンポーネント732は、背景イメー
ジのサイズを縮小し、背景イメージおよび文書イメージ
の圧縮率を高める。たとえば、640×480ピクセル
の背景イメージを320×240にダウンサンプリング
できる。背景イメージをダウンサンプリングするのにさ
まざまな方式を使用できる。方法の1つに、いくつかの
ピクセルを破棄して背景イメージをダウンサンプリング
する方法がある。したがって、たとえば、他のすべての
ピクセルを破棄することにより背景イメージを640×
480ピクセルから320×240にダウンサンプリン
グできる。他の方法として、背景イメージからの対応す
るピクセルの平均に基づいて新しいピクセルを生成する
方法がある。たとえば、背景イメージの新しいピクセル
をそれぞれ、8個の隣接するピクセルの平均として生成
することができる。さらに本発明によればイメージをダ
ウンサンプリングする他の方法を採用できる。一般に、
前景イメージおよび背景イメージのサイズは、前景ダウ
ンサンプルコンポーネント724および背景ダウンサン
プルコンポーネント732によって縮小された後も実質
的に同じである。
【0157】背景エンコーダ734は、背景イメージを
エンコードする。背景エンコーダ734は、背景イメー
ジからエンコードされたビットストリームを生成する。
このビットストリームは、背景ビットストリームと呼ぶ
ことができる。背景エンコーダ734では、多数の適当
な圧縮方式を使って、背景イメージをエンコードするこ
とができる。たとえば、採用できるいくつかの圧縮方式
例としてプログレッシブウェーブレットエンコーディン
グまたはプログレッシブトランスフォームエンコーディ
ングがある。
【0158】背景エンコーダ734は、さらに、背景イ
メージの圧縮率を高めるため一定色接続コンポーネント
アナライザ(図に示されていない)を含むこともでき
る。一定色接続コンポーネントでは、クラスタ化コンポ
ーネント712に関して説明したのと同様の方式とアル
ゴリズムを使用できる。一定色接続コンポーネントアナ
ライザが、背景イメージをスキャンして、一定色接続ピ
クセルを識別する。一定色接続ピクセルのグループがし
きい値よりも大きい場合、そのグループは一定色接続コ
ンポーネントまたは一定色マークとみなされる。「一定
色」には、色のいくつかのバリエーションが含まれるこ
とが理解される。一定色接続コンポーネントアナライザ
は、さらに、類似の一定色接続コンポーネントを一定色
クラスタにグループ化することができる。一定色クラス
タの位置情報、一定色接続コンポーネントのビットマッ
プ、形状、位置情報などの関連情報を背景ビットストリ
ームとともに含めることができる。一定色は、レイアウ
トアナライザーがテキストで構成される領域を検出する
ために使用されている場合にテキストに制限することも
できる。
【0159】マスクエンコーダ718、前景エンコーダ
726、および背景エンコーダ734とともに適当な圧
縮方式をいくつでも使用できる。これらの方式のうちい
くつかについて上で説明した。マスクエンコーダ71
8、前景エンコーダ726、および背景エンコーダ73
4とともに使用できる圧縮方式および追加圧縮方式の詳
細をここで説明する。
【0160】本発明で使用できるよく知られている圧縮
方式として、JPEG(JointPhotograp
hic Experts Group)、PWT(Pr
ogressive Wavelet Transfo
rm)、JPEG 2000、PTC(Progres
sive Transform Codec)、GIF
(Graphic Interchange Form
at)、PNG(Portable Network
Graphics)を使用できる。JPEGは、標準的
圧縮比が2:1である可逆圧縮の設定があるが、一般的
には非可逆圧縮であり、離散コサイン変換(DCT)に
基づいている。この圧縮技術は、一般的に、写真イメー
ジで使用される。JPEGは、フルカラー圧縮に対し平
均圧縮比20:1で1ピクセル24ビットの色(160
0万色)を格納できる。しかし、一般的に、平均圧縮比
は10:1から20:1で、目立った損失はなく、6
0:1〜100:1が中画質、60:1〜100:1が
低画質となる。この技術のわずかな欠点として、鋭いエ
ッジに対する処理の難しさと、透明性のサポートが欠如
していることが挙げられる。さらに、GIF形式よりも
表示に時間が長くかかるが、フルカラーや階調スキャン
で取り込んだ写真などのイメージに関してはGIFより
も優れている。
【0161】PWTは、可逆技術の一部であり、他の多
くの圧縮技術の基盤となっている。PWTは、イメージ
全体を最初に表示し、時間を追って解像度を繰り返し上
げてゆくのが一番よいという考えに基づいている。この
ため、高忠実度のイメージを効率よく転送できる。特
に、低頻度コンポーネントを最初に転送することによ
り、イメージ全体の低解像度バージョンが転送される。
その後、高い頻度のコンポーネントが到着する毎に解像
度を上げてゆく。
【0162】JPEG 2000は、ウェーブレットベ
ースの圧縮技術を使用するDCTに基づいてJPEG規
格の代替とする目的で設計された。JPEG 2000
では、24ビットカラーを維持しながら、JPEGに存
在したブロッキングの問題をなくした。さらに、JPE
G 2000は、非可逆と可逆の両方の圧縮をサポート
し、非可逆で圧縮比は201:1、可逆では2:1とな
っている。
【0163】PTCは、JPEG、GIF、PNG、M
−JPEG、JPEG−LSおよびその他の形式などの
機能のいくつかを組み合わせた圧縮方式であるが、より
優れた圧縮効率を持ち、多くの場合、エンコードおよび
デコードが著しく高速化されている。PTCは、JPE
Gに比べてサイズが縮小される。
【0164】PTCは新しい機能も追加している。追加
された重要機能の1つに、スケーラビリティ(またはプ
ログレッシブレンダリング(progressive
rendering))がある。元のPTCファイルか
ら、その一部を解析してデコードすることにより、より
解像度の低い、または忠実度の低い画像を得ることがで
きる。また、PTCは1色当たり最大16ビットまでサ
ポートし、4色チャネルまたは成分(R、G、B、およ
びアルファ)をサポートするが、ここでアルファとは透
明度成分である。また、PTCは可逆および非可逆エン
コーディングを単一コーデックにまとめている。さら
に、PTC用の効率的な参照コードも利用できる。この
コードは、使用メモリ量が少なく、整数演算のみを使用
し(浮動小数点演算を使用しない)、正確な再現性を実
現している。
【0165】PTCを実装するために、多解像度変換
(multi−resolutiontransfor
m)を使用して、プログレッシブレンダリングを実現す
る。1つの方法では、ウェーブレットを使用するが、計
算コストの低いより効率的な方法では、階層型重複変換
(hierarchical lapped tran
sforms)を使用する。PTCでは、新しい階層型
重複双直交変換(LBT:hierarchical
lapped biorthogonal trans
form)が、より小さな4×4ブロックサイズと整数
係数とを使用することにより、従来のPTC構成を基に
改善し、実質的に乗算なしで計算を実行できるようにし
ている(従来のPTC方式の変換では浮動小数点算術演
算を使用していた)。重複変換が一般に普及している離
散コサイン変換(JPEGおよびMPEGで使用してい
るDCT)に勝っている主な利点は、重複変換にはDC
Tの「ブロッキングの問題」を免れているという点であ
る。また、PTCで使用しているLBTが多解像度(階
層型)形式であるため、リンギングの問題もDCTベー
スのコーデックに比べてあまり目立たなくなっている。
【0166】GIFは、平均圧縮比3:1ほどで1ピク
セル8ビット色(256色)の可逆圧縮形式である。G
IFはLempel−Ziv−Welch(LZW)符
号化方式を組み込んでいるため、写真については大きな
圧縮率を達成していないが、単純な線の描画に適してい
る。GIF圧縮は、あらゆる種類のイメージで利用でき
るが、ごくわずかしか色を使用しないコンピュータ生成
グラフィックスで最も効率よく使用することができ、こ
れがWebベースのグラフィックス用に普及している理
由となっている。さらに、鋭いエッジを含む図表イメー
ジについてはJPEGよりも圧縮率がよい。
【0167】PNGは、GIFに比べて平均10〜30
%ほどサイズが小さくなる圧縮機能を提供する可逆形式
である。これもまた、トゥルーカラーイメージについて
はJPEGよりも優れているが、48ビット色を使用し
ておりJPEGの24ビット色に勝っている。さらに、
PNGは透明性に対応しており、その圧縮は非対称的、
つまり、伸張は高速であるが、圧縮にかなり時間がかか
る。PNGは、インターネットで使用することを目的に
開発されており、高速な伸張がプラスされている。さら
に、PNGは、LZW符号化を採用しているGIF形式
の代替を目的に設計された。PNGでは、LZW符号化
の代わりにフリーウェアのGzip圧縮方式を採用して
いる。
【0168】図8は、本発明の一態様によるセグメント
化されたレイヤ化イメージデコードシステムを示すブロ
ック図である。システムは、圧縮されたビット、ビット
ストリームまたはファイルを受け取り、組み替えたイメ
ージを生成する。このシステムには、セパレータコンポ
ーネント802、前景デコーダ804、背景デコーダ8
06、マスクデコーダ808、リフローコンポーネント
810、およびコンバイナ812が含まれる。
【0169】セパレータコンポーネント802は、圧縮
されたビット列を受け取り、それらのビットを分離して
前景ビットストリーム、背景ビットストリーム、および
マスクビットストリームを形成する。セパレータコンポ
ーネント802は、ヘッダ情報を使用してビットストリ
ームを分離する。前景デコーダ804は、前景ビットス
トリームを伸張して、前景イメージを生成する。背景デ
コーダ806は、背景ビットストリームを伸張して、背
景イメージを生成する。
【0170】マスクデコーダ808は、マスクビットス
トリームを伸張して、マスクまたはマスクイメージを生
成する。また、マスクデコーダ808はレイアウトおよ
び/またはリフロー情報を受け取る。さらに、マスクデ
コーダ808は、テキスト情報を再構成するために使用
される辞書を取得することができる。一部の圧縮方式
(たとえば、マスクウェーブレット)では、前景デコー
ダ804および背景デコーダ806は前景イメージおよ
び背景イメージを取得するためにマスクデコーダ808
から伸張されたマスクを取り出す必要がある場合があ
る。
【0171】リフローコンポーネント810は、所望の
表示特性に応じて前景イメージ、背景イメージ、および
マスクに作用する。所望の表示特性には、表示ページサ
イズ、列数、フォントサイズなどの特性を含めることが
できる。所望の表示特性は、元の文書イメージの特性と
かなりかけ離れることがある。たとえば、文書イメージ
は、レターページサイズと10ポイントのフォントサイ
ズを有することができる。文書イメージのこれらの特性
は、標準のレターペーパーで表示するのに適している。
しかし、これらの特性ではポータブルデジタルアシスタ
ント(PDA)などの携帯型デバイスで視ることを非常
に困難にする。PDAは、一般に表示画面が狭く、解像
度が低い。リフローがないと、PDAを使用するユーザ
ーはテキストの各行を読むのにスクロールしていかなけ
ればならない。したがって、PDAの場合、所望の表示
特性は列サイズ20、フォントサイズ14などである。
リフローコンポーネント810は、所望の表示特性に従
って、必要に応じてテキストを折り返し、段落の位置を
変更し、センテンスの位置を変更し、イメージの位置を
変更し、イメージのサイズを変更し、かつ/またはその
他の適当な修正を加えることができる。リフローコンポ
ーネント810は、前景イメージ、背景イメージ、およ
び/またはマスクとともにエンコードされたレイアウト
情報を利用する。
【0172】コンバイナ812は、前景イメージ、背景
イメージ、およびマスクを組み合わせて組み換え文書イ
メージを生成する。組み替えられたイメージは、オリジ
ナルの文書をイメージと同一であるかまたは近似的なイ
メージである。さらに、組み替えられたイメージは所望
の表示特性に応じて形状および/またはサイズが異なる
ことがある。コンバイナ812は、マスクに基づいて前
景イメージおよび背景イメージから組み替えられた文書
イメージのピクセルを生成する。組み替えられた文書の
それぞれのピクセルは、マスクの対応するピクセルを参
照することにより決定され、それにより組み替えられた
文書のピクセルの出所が前景イメージなのか背景イメー
ジなのかを判別することができる。たとえば、マスクピ
クセル値1は組み替えられた文書のピクセルの出所が前
景イメージの対応するピクセルであることを示す。さら
に、コンバイナ812は、適当なカラースペース変換を
必要に応じて実行する。たとえば、YCoCgカラース
ペースを使用して、組み替えられたイメージを表現する
ことができる。そこで、この例を続けると、コンバイナ
812は、YCoCgカラースペースからRGBカラー
スペースに変換する(たとえば、モニタに表示するため
に)。
【0173】図9は、本発明の一態様による文書イメー
ジのエンコード方法を示す流れ図である。文書イメージ
は902で与えられる。文書イメージはビットマップイ
メージであり、通常はRGBである、カラースペース表
現を持つ。文書イメージをそのカラースペースから、Y
UVやYCoCgなどの他のカラースペースに変換し、
圧縮率を高めることができる。
【0174】904で、文書イメージのマスクが生成さ
れる。このマスクは文書イメージに基づく2値イメージ
である。マスクは、文書イメージをセグメントに分割ま
たは前景イメージと背景イメージに分割し、前景イメー
ジと背景イメージが高い圧縮率を持つように生成され
る。マスクの各ピクセルにより、文書イメージの対応す
るピクセルを前景イメージに配置するか、背景イメージ
に配置するかを決定する。圧縮後、マスク、前景イメー
ジ、および背景イメージの合わせたサイズが小さくなる
ような適当な方法でマスクを生成することができる。
【0175】ノイズ検出、ノイズ訂正、ディザ検出、お
よび処理を限定せずに含むマスクの追加的な処理をその
マスクに対して実行できることは明白である。たとえ
ば、デジタル化プロセスで文書イメージにノイズが入り
込むことが多い。たとえば、指紋や汚れを意図せず文書
イメージにつけてしまうことがある。ノイズを識別し
て、マスクから除去することができる。ディザリング
は、変化する灰色またはカラーの陰影の錯覚を作り出す
ために使用される手法である。ディザリングでは、陰影
をシミュレートするために領域内のドットの比またはパ
ーセンテージを変える。ディザリングを使用するとイメ
ージを見栄え良くすることができるが、デジタル文書で
は問題を生じることがある。ディザリングがテキスト、
手書きなどとして誤って解釈される可能性がある。マス
ク内のディザリングを識別して、適宜処理することがで
きる。
【0176】さらに、マスク内のクラスタを識別するこ
とができる。マスク内で接続コンポーネントが識別され
る。接続コンポーネントは、1つまたは複数の接続ドッ
ト、通常は黒色ドットのグループである。類似の接続を
コンポーネントはクラスタにまとめられる。それぞれの
クラスタは、ビットマップとマスク内の位置へのポイン
タで表すことができる。クラスタを使用することで、膨
大な領域を節約できる。クラスタは、文字、手書きなど
を表すことができる。
【0177】また、光学式文字認識をマスク上で実行す
ることができる。クラスタは、手書きを表そうとテキス
トを表そうと、分析してテキストまたは文字を識別する
ことができる。文字が認識されると、文字をたとえば、
ASCIIコードとして保存することで、さらにいっそ
う格納領域を節約することができる。さらに、光学式文
字認識を使用することで、リフローを強化し、文書イメ
ージを最終的に組み替えたときに文書イメージの編集を
容易に行えるようにできる。
【0178】マスクをさらに分析して、文書イメージの
レイアウト特性を識別することもできる。文字、クラス
タ、およびイメージ位置を分析することで、レイアウト
特性の識別が可能である。センテンス、段落、フォー
ム、イメージ位置、ページ付けを限定せずに含むレイア
ウト特性も識別できる。後で使用するため、マスクとと
もにレイアウト特性を添付またはエンコードすることが
できる。
【0179】906で、マスクに従って文書イメージを
前景イメージおよび背景イメージに分割する。たとえ
ば、マスク内で1により表されているすべてのピクセル
は前景イメージに入り、0により表されるすべてのピク
セルは背景イメージに入る。本発明の他の態様で文書イ
メージを他の適当な数のレイヤに分割できること、また
本発明が図9に関して説明した2つのレイヤに制限され
ないことは明白である。
【0180】前景イメージおよび背景イメージは文書イ
メージとサイズが同じである。しかし、前景イメージお
よび背景イメージは、ピクセルに値が割り当てられてい
ない。これらのピクセルを穴、空隙、および/または空
領域と呼ぶ。穴は、それらのピクセルに対応する値が他
のイメージに割り当てられていた場合に発生する。背景
イメージおよび前景イメージに画像修正を行うことで、
最終的に組み替えられるイメージ内のハードエッジを減
らすことができる。画像修正では、前景イメージおよび
背景イメージを多数のピクセルで拡大し、鋭いエッジお
よび/または遷移を避けるようにする。通常、画像修正
では、マスクから前景マスクと背景マスクを生成し、そ
の前景マスクを使って文書イメージから前景イメージを
分割し、背景マスクを使って文書イメージから背景イメ
ージを分割する。前景マスクを使用すると前景イメージ
を拡大しやすくなり、背景マスクを使用すると背景イメ
ージを拡大しやすくなる。
【0181】908で、前景イメージ内の穴または空隙
を、注意しなくてよいピクセルで埋める。注意しなくて
よいピクセルは、圧縮後、前景イメージの圧縮率が高く
なり、前景イメージのサイズが小さくなるように選択す
る。注意しなくてよいピクセルは、さまざまな適当な方
法で決定することができる。採用できる方法の1つに、
注意しなくてよい領域を文書イメージの平均ピクセル値
で埋めるという方法がある。しかし、このプロセスでは
マスク境界のところに急激な不連続が生じることがあ
り、与えられたピーク信号対雑音比(PSNR)に対す
る必要なビットレートが高まり、マスクまたは空の領域
の境界の付近に顕著なリンギングが発生する場合があ
る。他の方法では、注意しなくてよい領域内のそれぞれ
のピクセルに、最も近い非マスク(または注意する領
域)ピクセルの色をつける。標準の形態論アルゴリズム
を使用すると、すべてのピクセルにわたり2パスのみで
プロセスを実行することができ、マスクの下にボロノイ
充填空領域が生じる。次に、前景イメージまたは背景イ
メージを再構成したら、再構成されたイメージにローパ
スを実行し、既知のピクセルをその正しい値に復元す
る。ローパスフィルタの遮断周波数が低くなりすぎる場
合、鋭いエッジが発生し、境界の付近に必要なビットレ
ートが高くなり、顕著なリンギングが増える。空領域を
扱う他の方法として、凸集合への射影を使用する方法が
ある。たとえば、2つの凸集合、つまり、表示ピクセル
上の入力と一致するイメージの集合と0に設定されたあ
る種のウェーブレット係数を持つイメージの集合を考察
する(たとえば、特定の解像度レベルを超える全ての高
周波係数)。2つの集合への射影を交互に切り替えるこ
とにより、表示ピクセルと一致し、0のウェーブレット
係数が多数あることから圧縮率の高いイメージを見つけ
ることができる。本発明により、注意しなくてよい領域
を埋める他の適当な方式を使用することができる。
【0182】910で、背景イメージ内の穴または空隙
を、注意しなくてよいピクセルで埋める。注意しなくて
よいピクセルは、圧縮後、背景イメージの圧縮率が高く
なり、背景イメージのサイズが小さくなるように選択す
る。注意しなくてよいピクセルは、前景イメージに関す
る上述のさまざまな適当な方法で決定することができ
る。
【0183】本発明の他の態様で空領域を埋めないまま
にしておくことができることは明白である。したがっ
て、マスクウェーブレット圧縮方式などの圧縮方式を使
用して、前景イメージおよび背景イメージをエンコード
する際に空領域または注意しなくてよい領域を埋める必
要がない。
【0184】912で、マスクをエンコードしてマスク
ビットストリームを生成する。適当な圧縮方式によりマ
スクをエンコードする。この圧縮方式では、テキスト情
報とマスクの2値表現を使用して、マスクの圧縮率を高
めることができる。さらに、クラスタ、レイアウト情報
などもマスクの圧縮率を高めるに使用できる。
【0185】前景イメージおよび背景イメージに追加的
な処理を実行できることは明白である。たとえば、前景
イメージおよび背景イメージに対し、ノイズ除去および
ダウンサンプリングを実行できる。ノイズ除去では、前
景イメージおよび背景イメージ内に存在するノイズを除
去したり処理したりする。通常、このようなノイズは、
スキャンプロセスや変換プロセスで入り込む。ダウンサ
ンプリングを実行すると、前景イメージと背景イメージ
のサイズが縮小する。たとえば、640×480ピクセ
ルの前景イメージと背景イメージを320×240のサ
イズのイメージにダウンサンプリングできる。
【0186】914で、前景イメージをエンコードして
前景ビットストリームを生成する。適当な圧縮方式によ
り前景イメージをエンコードする。前景イメージをエン
コードするのに使用できる圧縮方式の例として、PW
C、PTC、JPEG、JPEG 200、PNG、お
よびGIFがある。本発明によれば他の圧縮方式も使用
できる。
【0187】916で、背景イメージをエンコードして
背景ビットストリームを生成する。適当な圧縮方式によ
り背景イメージをエンコードする。背景イメージをエン
コードするのに使用できる圧縮方式の例として、PW
C、PTC、JPEG、JPEG 200、PNG、お
よびGIFがある。本発明によれば他の圧縮方式も使用
できる。
【0188】また背景イメージおよび前景イメージを分
析して一定色接続コンポーネントを識別し、前景イメー
ジおよび背景イメージの圧縮率をさらに高めることもで
きる。一定色接続コンポーネントは、実質的に色値が同
じである複数の接続ピクセルを備える。一定色接続コン
ポーネントは、色のシードピクセルを配置し、アルゴリ
ズムを使用して同じ色または実質的に同じ色を持つ接続
ピクセルのすべてまたは実質的にすべてを見つけること
により識別することができる。
【0189】マスクビットストリーム、前景ビットスト
リーム、および背景ビットストリームを918で組み合
わせて組合せビットストリームにする。組合せビットス
トリームもファイルでよい。使用したエンコーダ、辞
書、シンボル、ライブラリなどの情報を含むヘッダ情報
を、組み合わせたビットストリームに追加することもで
きる。
【0190】図10は、本発明の一態様による文書イメ
ージをデコードする方法を示す流れ図である。1002
でビットストリームを受け取る。ビットストリームは組
み合わせたビットストリームであり、マスクビットスト
リーム、前景ビットストリーム、背景ビットストリー
ム、およびヘッダ情報を含む。1004で、ビットスト
リームは、マスクビットストリーム、前景ビットストリ
ーム、および背景ビットストリームに分割される。さら
に、ヘッダ情報を抽出できる。
【0191】1006で、マスク、前景イメージ、およ
び背景イメージをマスクビットストリーム、前景ビット
ストリーム、および背景ビットストリームからそれぞれ
デコードする。マスク、前景イメージ、および背景イメ
ージを、イメージ成分と総称する。エンコードに使用し
た圧縮方式と互換性のある伸張方式を使用して、マス
ク、前景イメージ、および背景イメージをデコードす
る。ヘッダ情報には、この圧縮/伸張情報を入れること
ができる。マスクおよび/またはヘッダ情報に、レイア
ウト情報またはレイアウト特性を入れることができる。
さらに、辞書、シンボル、およびその他の情報をマスク
からデコードしたり、ヘッダ情報から取得することがで
きる。
【0192】1008に表示特性を与える。表示特性
は、ユーザーによって予め定められた入力とし、かつ/
または動的に決定することができる。表示特性には、表
示サイズ、フォントサイズ、列などの情報を含めること
ができる。1010で、表示特性に従って、マスク、前
景イメージ、および背景イメージを修正する。イメージ
成分は、組み換えたときに、表示特性と一致するように
修正される。たとえば、マスク内のテキストをリフロー
して、パン操作なしで狭い画面上に適切に表示できる。
【0193】1012でマスク、前景イメージ、および
背景イメージを組み合わせて、組み替えられた文書イメ
ージを形成する。マスクに従って前景イメージおよび背
景イメージを組み合わせて、組み替えられた文書イメー
ジを形成する。マスクは2値で、組み替えられた文書イ
メージの各ピクセルはマスクの対応するピクセルに応じ
て前景イメージまたは背景イメージの対応するピクセル
から値を割り当てる。組み替えられた文書イメージは、
オリジナルの文書イメージと同一であるかまたは近似的
なイメージである。オリジナルの文書イメージは、受け
取ったビットストリームに最初にエンコードされた文書
イメージである。
【0194】本発明のシステムおよび/または方法をシ
ステム全体で使用することにより、テキスト、手書き、
図面などを識別しかつ/または圧縮することが容易にな
ることは理解されるであろう。さらに、当業者であれ
ば、本発明のシステムおよび/または方法は、写真複写
機、文書スキャナ、光学式文字認識システム、PDA、
FAXマシン、デジタルカメラ、および/またはデジタ
ルビデオカメラを限定せずに含む、さまざまな文書イメ
ージ用途に使用できることを理解するであろう。
【0195】本発明のさまざまな態様に関する背景につ
いてさらに説明するために、図11および以下の説明で
は、本発明のさまざまな態様を実装する適当なコンピュ
ーティング環境1110の簡潔で一般的な説明を行う。
コンピューティング環境1110は、1つの可能なコン
ピューティング環境にすぎず、本発明を採用できるコン
ピューティング環境を制限する意図はないことは理解さ
れるであろう。本発明は、1つまたは複数のコンピュー
タで実行可能なコンピュータ実行可能命令の一般的コン
テキストにおいて上で説明したとおりであるが、本発明
は他のプログラムモジュールと組合せ、かつ/またはハ
ードウェアとソフトウェアとの組合せとして、実装でき
ることも理解するであろう。一般に、プログラムモジュ
ールには、特定のタスクを実行する、あるいは特定の抽
象データ型を実装するルーチン、プログラム、コンポー
ネント、データ構造などが含まれる。さらに、本発明の
方法が、シングルプロセッサまたはマルチプロセッサの
コンピュータシステム、ミニコンピュータ、メインフレ
ームコンピュータ、パーソナルコンピュータ、ハンドヘ
ルドコンピューティングデバイス、マイクロプロセッサ
ベースまたはプログラム可能な民生電子機器(それぞれ
1つまたは複数の関連装置に結合できる)などの他のコ
ンピュータシステム構成でも実施できることは明白であ
ろう。本発明の図に示されている態様はさらに、通信ネ
ットワークを介してリンクされているリモート処理デバ
イスにより複数のタスクが実行される分散コンピューテ
ィング環境で実施することも可能である。分散コンピュ
ーティング環境では、プログラムモジュールをローカル
とリモートの両方のメモリ記憶装置に配置できる。
【0196】図11は、本発明で説明しているシステム
および方法を利用するのに助けとなる1つの可能なハー
ドウェア構成を示している。スタンドアロンアーキテク
チャが示されているが、本発明により適当なコンピュー
ティング環境を使用できることは理解されるであろう。
たとえば、スタンドアロン、マルチプロセッサ、分散、
クライアント/サーバ、ミニコンピュータ、メインフレ
ーム、スーパーコンピュータ、デジタルおよびアナログ
を含むが、これらには限定されないコンピュータアーキ
テクチャを本発明により使用することができる。
【0197】図11を参照すると、本発明のさまざまな
態様を実装する環境例1110は、処理装置1114、
システムメモリ1116、およびシステムメモリを含む
さまざまなシステムコンポーネントを処理装置1114
に結合するシステムバス1118を含むコンピュータ1
112を含む。処理装置1114は、さまざまな市販プ
ロセッサがあるがそのうちどれでもよい。デュアルマイ
クロプロセッサおよびその他のマルチプロセッサアーキ
テクチャも、処理装置1114として採用することがで
きる。
【0198】システムバス1118には、さまざまな市
販バスアーキテクチャを使用するメモリバスまたはメモ
リコントローラ、周辺バス、およびローカルバスを含む
数種類のバス構造がある。コンピュータメモリ1116
は、読み取り専用メモリ(ROM)1120およびラン
ダムアクセスメモリ(RAM)1122を含む。起動時
などにコンピュータ1112内の要素間の情報伝送を助
ける基本ルーチンを含む基本入出力システム(BIO
S)は通常、ROM 1120に格納される。
【0199】コンピュータ1112はさらに、たとえば
取り外し可能ディスク1128への読み書きを行うハー
ドディスクドライブ1124、磁気ディスクドライブ1
126、および、たとえばCD−ROMディスク113
2の読み込みを行ったり、その他の光媒体への読み書き
を行う光ディスクドライブ1130を含むことができ
る。ハードディスクドライブ1124、磁気ディスクド
ライブ1126、および光ディスクドライブ1130
は、ハードディスクドライブインタフェース1134、
磁気ディスクドライブインタフェース1136、および
光ドライブインタフェース1138によりそれぞれ、シ
ステムバス1118に接続される。コンピュータ111
2は、通常、少なくともある種の形態のコンピュータ読
み取り可能媒体を含む。コンピュータ読み取り可能媒体
は、コンピュータ1112からアクセスできる使用可能
な媒体である。たとえば、コンピュータ読み取り可能媒
体は、コンピュータ記憶媒体および通信媒体を含むこと
ができるが、これに限定されるものではない。コンピュ
ータ記憶媒体は、コンピュータ読み取り可能命令、デー
タ構造体、プログラムモジュール、またはその他のデー
タなどの情報を格納する方法または技術で実装される揮
発性および不揮発性、取り外し可能および取り外し不可
能媒体を含む。コンピュータ記憶媒体としては、RA
M、ROM、EEPROM、フラッシュメモリまたはそ
の他のメモリ技術、CD−ROM、デジタル多目的ディ
スク(DVD)もしくはその他の磁気記憶デバイス、ま
たは所望の情報を格納するために使用することができコ
ンピュータ1112によりアクセスできるその他の媒体
があるが、これらに限定されるものではない。通信媒体
は、通常、コンピュータ読み取り可能命令、データ構造
体、プログラムモジュール、または搬送波もしくはその
他のトランスポートメカニズムなどの変調データ信号内
のその他のデータを実現し、情報配信媒体を含む。「変
調データ信号」という用語は、信号内の情報をエンコー
ドする方法でその特性のうち1つまたは複数を設定また
は変更した信号を意味する。たとえば、通信媒体として
は、有線ネットワークまたは直接配線接続などの有線媒
体、および、音響、RF、赤外線、およびその他の無線
媒体などの無線媒体があるが、これらに限定されるもの
ではない。上記のいずれかの組合せもコンピュータ読み
取り可能媒体の範囲に収まるであろう。
【0200】オペレーティングシステム1140、1つ
または複数のアプリケーションプログラム1142、そ
の他のプログラムモジュール1144、およびプログラ
ム非割り込みデータ1146を含む、多数のプログラム
モジュールをドライブおよびRAM 1122に格納す
ることができる。コンピュータ1112内のオペレーテ
ィングシステム1140は、多数市販されているオペレ
ーティングシステムのどれでもよい。
【0201】ユーザーは、キーボード1148およびマ
ウス1150などのポインティングデバイスを介してコ
ンピュータ1112にコマンドおよび情報を入力でき
る。他の入力デバイス(図に示されていない)として
は、マイクロフォン、IRリモートコントロール、ジョ
イスティック、ゲームパッド、衛星放送受信アンテナ、
スキャナなどがある。これらの入力デバイスやその他の
入力デバイスは、システムバス1118に結合されてい
るシリアルポートインタフェース1152を介して処理
装置1114に接続されることが多いが、パラレルポー
ト、ゲームポート、またはユニバーサルシリアルバス
(USB)、IRインタフェースなどの他のインタフェ
ースにより接続することもできる。モニタ1154やそ
の他のタイプの表示デバイスも、ビデオアダプタ115
6などのインタフェースを介してシステムバス1118
に接続される。モニタに加えて、コンピュータは通常、
スピーカやプリンタなどの他の周辺出力デバイス(図に
示されていない)を含む。
【0202】コンピュータ1112は、リモートコンピ
ュータ1158などの1つまたは複数のリモートコンピ
ュータへの論理および/または物理接続を使用してネッ
トワーク環境で動作することもできる。リモートコンピ
ュータ1158は、ワークステーション、サーバコンピ
ュータ、ルータ、パーソナルコンピュータ、マイクロプ
ロセッサベースの娯楽機器(entertainmen
t appliance)、ピアデバイスまたはその他
の共通ネットワークノードでもよく、通常は、コンピュ
ータ1112に関係する上述の要素の多くまたはすべて
を含むが、簡単のためメモリ記憶装置1160のみが図
に示されている。図に示されている論理接続は、ローカ
ルエリアネットワーク(LAN)1162とワイドエリ
アネットワーク(WAN)1164を含む。このような
ネットワーキング環境は、事務所、企業規模のコンピュ
ータネットワーク、イントラネットおよびインターネッ
トではよくある。
【0203】LANネットワーキング環境で使用する場
合は、コンピュータ1112はネットワークインタフェ
ースまたはアダプタ1166を介してローカルネットワ
ーク1162に接続される。WANネットワーキング環
境で使用する場合は、コンピュータ1112は通常、モ
デム1168を含むか、またはLANで通信サーバに接
続されるか、またはインターネットなどのWAN 11
64上で通信を確立するためのその他の手段を有する。
モデム1168は、内蔵でも外付けでもよいが、シリア
ルポートインタフェース1152を介してシステムバス
1118に接続される。ネットワーク環境では、コンピ
ュータ1112またはその一部に関して述べたプログラ
ムモジュールは、リモートメモリ記憶装置1160に格
納できる。図に示されているネットワーク接続は例であ
り、コンピュータ間に通信リンクを確立するのにその他
手段を使用できることは理解されるであろう。
【0204】図12は、本発明で対話操作できるサンプ
ルコンピューティング環境例1200の概略ブロック図
である。システム1200は、1つまたは複数のクライ
アント1210を含む。クライアント1210は、ハー
ドウェアおよび/またはソフトウェア(たとえば、スレ
ッド、プロセス、コンピューティングデバイス)とする
ことができる。システム1200はさらに、1つまたは
複数のサーバ1230を含む。サーバ1230も、ハー
ドウェアおよび/またはソフトウェア(たとえば、スレ
ッド、プロセス、コンピューティングデバイス)であ
る。サーバ1230は、たとえば、本発明を採用するこ
とにより変換を実行するスレッドを格納できる。クライ
アント1210とサーバ1230との間の1つの可能な
通信として、2つまたはそれ以上のコンピュータプロセ
スの間で伝送されるように修正されたデータパケットの
形式のものがある。システム1200は、クライアント
1210とサーバ1230との間の通信を円滑にするた
めの通信フレームワーク1250を含む。クライアント
1210は、情報をクライアント1210にローカルで
格納するために使用できる1つまたは複数のクライアン
トデータ記憶装置1260に接続し動作させることがで
きる。同様に、サーバ1230は、情報をサーバ123
0にローカルで格納するために使用できる1つまたは複
数のサーバデータ記憶装置1240に接続し動作させる
ことができる。
【0205】上述の内容には、本発明の実施例が含まれ
る。もちろん、本発明を説明するためにコンポーネント
または方法の考えられるすべての組合せを説明すること
は不可能であるが、当業者であれば、本発明の他の多く
の組合せおよび置換が可能であることは理解できるであ
ろう。したがって、本発明は、請求項の精神と範囲に収
まるそのようなすべての改変、修正、およびバリエーシ
ョンを包含するものとする。さらに、「含む」という用
語を詳細な説明または請求項で使用している範囲におい
て、このような用語は「備える、含む」という用語と同
様の使い方において包括的であることを意図しており、
これは「備える、含む」という用語を使用した場合に請
求項中の暫定的用語と解釈されるのと同様である。
【図面の簡単な説明】
【図1】本発明の一態様による分割されたレイヤ化イメ
ージエンコードシステムを示すブロック図である。
【図2】ウェーブレットの計算ステップ例の図である。
【図3】いくつかのピクセルが欠損している場合のウェ
ーブレットの計算ステップ例を示す図である。
【図4】マスクウェーブレット(masked wav
elet)の計算ステップ例を示す図である。
【図5】本発明の一態様による分割されたレイヤ化イメ
ージデコードシステムを示すブロック図である。
【図6】本発明の一態様による文書イメージサンプルの
図である。
【図7】本発明の一態様による分割されたレイヤ化イメ
ージエンコードシステムを示すブロック図である。
【図8】本発明の一態様による分割されたレイヤ化イメ
ージデコードシステムを示すブロック図である。
【図9】本発明の一態様による文書のエンコード方法を
示す流れ図である。
【図10】本発明の一態様による文書のデコード方法を
示す流れ図である。
【図11】本発明により構成されているシステムの動作
環境例の概略ブロック図である。
【図12】本発明による通信環境例の概略ブロック図で
ある。
【符号の説明】
100 レイヤ化イメージエンコードシステム 102 マスクセパレータ 104 前景背景セグメンタ 106 マスクエンコーダ 108 前景エンコーダ 110 背景エンコーダ 112 組合せコンポーネント 502 セパレータコンポーネント 504 前景デコーダ 506 背景デコーダ 508 マスクデコーダ 510 コンバイナ 601 文書イメージ 602 テキスト情報 603、604 イメージ情報 605 背景 610 マスク 611 前景イメージ 602 背景イメージ 702 カラースペースコンポーネント 704 マスクセパレータ 706 マスクプロセッサコンポーネント 708 雑音除去コンポーネント 710 ディザ検出器 712 クラスタ化コンポーネント 714 OCRコンポーネント 716 レイアウト分析コンポーネント 718 マスクエンコーダ 719 前景背景セグメンタ 720 膨張処理コンポーネント 721 画像修正コンポーネント 722 前景ピクセルフィラー 724 前景ダウンサンプルコンポーネント 726 前景エンコーダ 730 背景ピクセルフィラー 732 背景ダウンサンプルコンポーネント 734 背景エンコーダ 802 セパレータコンポーネント 804 前景デコーダ 806 背景デコーダ 808 マスクデコーダ 810 リフローコンポーネント 812 コンバイナ 1110 コンピューティング環境 1112 コンピュータ 1114 処理装置 1116 システムメモリ 1118 システムバス 1120 読み取り専用メモリ(ROM) 1122 ランダムアクセスメモリ(RAM) 1124 ハードディスクドライブ 1126 磁気ディスクドライブ 1128 取り外し可能ディスク 1130 光ディスクドライブ 1132 CD−ROMディスク 1134 ハードディスクドライブインタフェース 1136 磁気ディスクドライブインタフェース 1138 光ドライブインタフェース 1140 オペレーティングシステム 1142 アプリケーションプログラム 1144 プログラムモジュール 1146 プログラム非割り込みデータ 1148 キーボード 1150 マウス 1152 シリアルポートインタフェース 1154 モニタ 1156 ビデオアダプタ 1158 リモートコンピュータ 1160 メモリ記憶装置 1162 ローカルエリアネットワーク(LAN) 1164 ワイドエリアネットワーク(WAN) 1166 アダプタ 1168 モデム 1200 コンピューティング環境例 1230 サーバ 1240 サーバデータ記憶装置 1250 通信フレームワーク 1260 クライアントデータ記憶装置
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 10/180,771 (32)優先日 平成14年6月26日(2002.6.26) (33)優先権主張国 米国(US) (31)優先権主張番号 10/180,649 (32)優先日 平成14年6月26日(2002.6.26) (33)優先権主張国 米国(US) (31)優先権主張番号 10/180,169 (32)優先日 平成14年6月26日(2002.6.26) (33)優先権主張国 米国(US) (72)発明者 パトリス ワイ.シマルド アメリカ合衆国 98005 ワシントン州 ベルビュー ノースイースト 31 プレイ ス 13126 (72)発明者 エリン エル.レンショウ アメリカ合衆国 98034 ワシントン州 カークランド ノースイースト 135 ス トリート 13327 (72)発明者 ジェームズ ラッセル リンカー アメリカ合衆国 98034 ワシントン州 カークランド ノースイースト 136 プ レイス 13615 (72)発明者 ヘンリク エス.マルバー アメリカ合衆国 98074 ワシントン州 サマミッシュ 233 アベニュー ノース イースト 2302 Fターム(参考) 5C059 KK01 KK38 LB05 MA00 MA23 MA24 PP01 PP15 PP16 PP20 SS10 SS20 SS28 UA02 UA11 5C078 AA04 BA64 CA02 CA31

Claims (68)

    【特許請求の範囲】
  1. 【請求項1】 文書イメージを受け取り、前記文書イメ
    ージからマスクを生成するマスクセパレータであって、
    前記マスクは、少なくとも一部はピクセルエネルギーの
    最小化に基づき前記文書イメージのペアにより少なくと
    も一部は領域をマージすることで生成されるマスクセパ
    レータと、 前記マスクに従って前記文書イメージを複数のレイヤに
    分割するイメージセグメンタであって、前記複数のレイ
    ヤは非2値形式で表されるイメージセグメンタとを備え
    ることを特徴とする文書エンコーディングシステム。
  2. 【請求項2】 前記複数のレイヤは第1のイメージレイ
    ヤと第2のイメージレイヤと2値形式で表されるマスク
    とを含むことを特徴とする請求項1に記載の文書エンコ
    ーディングシステム。
  3. 【請求項3】 前記第1のイメージレイヤは前景イメー
    ジであり、前記第2のイメージレイヤは背景イメージで
    あることを特徴とする請求項2に記載の文書エンコーデ
    ィングシステム。
  4. 【請求項4】 前記マスクをマスクビットストリームに
    エンコードするためのマスクエンコーダをさらに備える
    ことを特徴とする請求項3に記載の文書エンコーディン
    グシステム。
  5. 【請求項5】 前記マスクエンコーダはFAXベースの
    圧縮方式を使用することを特徴とする請求項4に記載の
    文書エンコーディングシステム。
  6. 【請求項6】 前記マスクエンコーダは2レベル圧縮方
    式を使用することを特徴とする請求項4に記載の文書エ
    ンコーディングシステム。
  7. 【請求項7】 前記前景イメージを前記イメージセグメ
    ンタから前景ビットストリームにエンコードする前景エ
    ンコーダと、 前記背景イメージを前記イメージセグメンタから背景ビ
    ットストリームにエンコードする背景エンコーダとをさ
    らに備えることを特徴とする請求項4に記載の文書エン
    コーディングシステム。
  8. 【請求項8】 前記前景エンコーダおよび背景エンコー
    ダはプログレッシブウェーブレット変換圧縮方式を使用
    することを特徴とする請求項7に記載の文書エンコーデ
    ィングシステム。
  9. 【請求項9】 前記前景エンコーダおよび背景エンコー
    ダはプログレッシブ変換圧縮方式を使用することを特徴
    とする請求項7に記載の文書エンコーディングシステ
    ム。
  10. 【請求項10】 前記前景エンコーダおよび背景エンコ
    ーダはマスクウェーブレット圧縮方式を使用することを
    特徴とする請求項7に記載の文書エンコーディングシス
    テム。
  11. 【請求項11】 前記マスクビットストリーム、前記前
    景ビットストリーム、および前記背景ビットストリーム
    を組み合わせて組合せビットストリームを生成するコン
    バイナコンポーネントをさらに備えることを特徴とする
    請求項7に記載の文書エンコーディングシステム。
  12. 【請求項12】 文書イメージを受け取り、前記文書イ
    メージからマスクを生成するマスクセパレータと、 前記マスクを使用して偽境界を識別しかつ/または前記
    前景および/または背景イメージを拡大する画像修正コ
    ンポーネントと、 前記マスクに従って前記文書イメージを複数のレイヤに
    分割するイメージセグメンタであって、前記複数のレイ
    ヤは非2値形式で表されるイメージセグメンタとを備え
    ることを特徴とする文書エンコーディングシステム。
  13. 【請求項13】 前記画像修正コンポーネントは前記識
    別された偽境界に基づいて前景マスクおよび背景マスク
    を生成するように動作し、前記イメージセグメンタは前
    記背景マスクを使用して前景イメージを取得し、前記背
    景マスクを使用して背景イメージを取得することを特徴
    とする請求項12に記載の文書エンコーディングシステ
    ム。
  14. 【請求項14】 前記マスクをマスクビットストリーム
    にエンコードするマスクエンコーダと、 前記前景イメージを前記イメージセグメンタから前景ビ
    ットストリームにエンコードする前景エンコーダと、 前記背景イメージを前記イメージセグメンタから背景ビ
    ットストリームにエンコードする背景エンコーダとをさ
    らに備えることを特徴とする請求項12に記載の文書エ
    ンコーディングシステム。
  15. 【請求項15】 文書イメージを受け取り、前記文書イ
    メージからマスクを生成するマスクセパレータであっ
    て、前記マスクは2値形式で表され、少なくとも一部は
    ピクセルエネルギーの最小化に基づき前記文書イメージ
    のペアにより少なくとも一部は領域をマージすることで
    生成されるマスクセパレータと、 前記マスクに従って前記文書イメージを前景イメージお
    よび背景イメージに分割する前景背景セグメンタであっ
    て、前記前景イメージおよび前記背景イメージを非2値
    形式で表す前景背景セグメンタとを備えることを特徴と
    する文書エンコーディングシステム。
  16. 【請求項16】 前記マスクは前記マスク、前記前景イ
    メージ、および前記背景イメージの組み合わせたサイズ
    を縮小するために生成されることを特徴とする請求項1
    5に記載の文書エンコーディングシステム。
  17. 【請求項17】 前記マスクは前記前景イメージおよび
    前記背景イメージの推定圧縮を縮小するために生成さ
    れ、前記推定圧縮はエネルギー分散計算を含むことを特
    徴とする請求項15に記載の文書エンコーディングシス
    テム。
  18. 【請求項18】 前記前景イメージは複数の色を備え、
    前記背景イメージは複数の色を含むことを特徴とする請
    求項15に記載の文書エンコーディングシステム。
  19. 【請求項19】 前記文書イメージはテキスト情報を含
    むことを特徴とする請求項15に記載の文書エンコーデ
    ィングシステム。
  20. 【請求項20】 前記文書イメージは単一ページを含む
    ことを特徴とする請求項15に記載の文書エンコーディ
    ングシステム。
  21. 【請求項21】 前記文書イメージは手書きを含むこと
    を特徴とする請求項15に記載の文書エンコーディング
    システム。
  22. 【請求項22】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とする写真複写機。
  23. 【請求項23】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とする文書スキャナ。
  24. 【請求項24】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とする光学式文字認識
    システム。
  25. 【請求項25】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするパーソナルデジ
    タルアシスタント。
  26. 【請求項26】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするFAX機。
  27. 【請求項27】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするデジタルカメ
    ラ。
  28. 【請求項28】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするデジタルビデオ
    カメラ。
  29. 【請求項29】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするセグメント化さ
    れたレイヤ化イメージシステム。
  30. 【請求項30】 請求項15に記載の文書エンコーディ
    ングシステムを用いることを特徴とするビデオゲーム。
  31. 【請求項31】 第1のカラースペースを持つ文書イメ
    ージを第2のカラースペースを持つ変換された文書イメ
    ージに変換するカラースペースコンバータと、 前記変換された文書イメージからマスクを生成するマス
    クセパレータであって、前記マスクは2値形式で表さ
    れ、少なくとも一部はピクセルエネルギーの最小化に基
    づき前記文書イメージのペアにより少なくとも一部は領
    域をマージして生成されるマスクセパレータと、 前記マスクに従って前記変換された文書イメージを前景
    イメージおよび背景イメージに分割する前景背景セグメ
    ンタであって、前記前景イメージおよび前記背景イメー
    ジを非2値形式で表す前景背景セグメンタとを備えるこ
    とを特徴とする文書エンコーディングシステム。
  32. 【請求項32】 前記第1のカラースペースはRGBで
    あり、第2のカラースペースはYUVであることを特徴
    とする請求項31に記載の文書エンコーディングシステ
    ム。
  33. 【請求項33】 前記第1のカラースペースはRGBで
    あり、第2のカラースペースがYCoCgであることを
    特徴とする請求項31に記載の文書エンコーディングシ
    ステム。
  34. 【請求項34】 ビットストリームを前景ビットストリ
    ーム、背景ビットストリーム、およびマスクビットスト
    リームに分割するセパレータコンポーネントと、 前記前景ビットストリームをデコードして前景イメージ
    を生成する前景デコーダと、 前記背景ビットストリームをデコードして背景イメージ
    を生成する背景デコーダと、 前記マスクビットストリームをデコードしてマスクを生
    成するマスクデコーダと、 前記マスクに従って文書イメージを前記前景イメージお
    よび前記背景イメージの組合せとして生成するコンバイ
    ナコンポーネントとを備えることを特徴とする文書デコ
    ーディングシステム。
  35. 【請求項35】 前記文書イメージは複数のピクセルを
    備え、前記複数のピクセルはそれぞれ前記前景イメージ
    および前記背景イメージを備える前記グループの1つか
    ら得られることを特徴とする請求項34に記載の文書デ
    コーディングシステム。
  36. 【請求項36】 前記文書イメージはオリジナルの文書
    イメージと同じであることを特徴とする請求項34に記
    載の文書デコーディングシステム。
  37. 【請求項37】 前記文書イメージはオリジナルの文書
    イメージと実質的に類似していることを特徴とする請求
    項34に記載の文書デコーディングシステム。
  38. 【請求項38】 前記マスク、前記前景イメージ、およ
    び前記背景イメージを生成し、前記マスクを前記マスク
    ビットストリームにエンコードし、前記前景イメージを
    前記前景ビットストリームにエンコードし、前記背景イ
    メージを前記背景ビットストリームにエンコードし、前
    記マスクビットストリーム、前記前景ビットストリー
    ム、前記背景ビットストリームを結合して前記ビットス
    トリームにするセグメント化されたレイヤ文書エンコー
    ディングシステムをさらに備えることを特徴とする請求
    項37に記載の文書デコーディングシステム。
  39. 【請求項39】 文書イメージのカラースペースを変換
    するカラースペースコンバータと、 前記カラースペースコンバータから前記文書イメージを
    受け取り、ピクセルエネルギーの最小化に少なくとも一
    部は基づき前記文書イメージのペアにより少なくとも一
    部は領域をマージすることにより前記文書イメージのマ
    スクを生成するマスクセパレータと、 前記マスクセパレータから前記マスクを受け取り、前記
    マスクを処理するマスクプロセッサコンポーネントと、 前記マスクに従って前記文書イメージを前景イメージお
    よび背景イメージに分割するセグメンタとを備えること
    を特徴とする文書システム。
  40. 【請求項40】 前記マスクプロセッサコンポーネント
    は前記マスクからディザリングを識別して除去するディ
    ザ検出コンポーネントを備えることを特徴とする請求項
    39に記載の文書システム。
  41. 【請求項41】 前記マスクプロセッサコンポーネント
    は、前記マスクからノイズを識別して除去するノイズ除
    去コンポーネントをさらに備えることを特徴とする請求
    項39に記載の文書システム。
  42. 【請求項42】 前記マスクプロセッサコンポーネント
    から前記マスクを受け取り、前記マスク内の接続コンポ
    ーネントを判別し、類似の接続コンポーネントを少なく
    とも1つのスクリーニング特性を使用するクラスタとし
    てグループにまとめるクラスタ化コンポーネントをさら
    に備えることを特徴とする請求項39に記載の文書シス
    テム。
  43. 【請求項43】 前記クラスタ化コンポーネントから前
    記マスクを受け取り、前記マスクからレイアウト情報を
    識別するレイアウトコンポーネントをさらに備えること
    を特徴とする請求項42に記載の文書システム。
  44. 【請求項44】 前記レイアウトコンポーネントから前
    記マスクを受け取り、前記マスクをマスクビットストリ
    ームにエンコードするマスクエンコーダをさらに備える
    ことを特徴とする請求項43に記載の文書システム。
  45. 【請求項45】 前記セグメンタは偽境界について前記
    マスクおよび前記文書イメージを分析し、前記偽境界を
    またぐいくつかのピクセル分だけ前景マスクおよび背景
    マスクを拡大する画像修正コンポーネントであって、前
    記前景マスクおよび前記背景マスクは前記マスクに基づ
    いており、前記前景マスクは前記前景イメージを取得す
    るために前記セグメンタによって使用され、前記背景マ
    スクは前記背景イメージを取得するために前記セグメン
    タによって使用される画像修正コンポーネントを含むこ
    とを特徴とする請求項44に記載の文書システム。
  46. 【請求項46】 前記前景イメージおよび前記背景イメ
    ージ内の色接続コンポーネントを識別する色接続コンポ
    ーネントをさらに備えることを特徴とする請求項45に
    記載の文書システム。
  47. 【請求項47】 前記前景イメージを受け取り、前記前
    景イメージを前景ビットストリームにエンコードする前
    景エンコーダと、 前記背景イメージを受け取り、前記背景イメージを背景
    ビットストリームにエンコードする背景エンコーダと、 前記マスクビットストリーム、前記前景ビットストリー
    ム、および前記背景ビットストリームを組み合わせて組
    合せビットストリームを生成するコンバイナコンポーネ
    ントをさらに備えることを特徴とする請求項45に記載
    の文書システム。
  48. 【請求項48】 前記クラスタ化コンポーネントから前
    記マスクを受け取り、前記マスク内の文字を識別する光
    学式文字認識コンポーネントをさらに備えることを特徴
    とする請求項47に記載の文書システム。
  49. 【請求項49】 前景ピクセルフィラーおよび背景ピク
    セルフィラーであって、前記前景ピクセルフィラーは前
    記前景イメージの注意しなくてよい領域を注意しなくて
    よいピクセルで埋め、前記背景ピクセルフィラーは前記
    背景イメージの注意しなくてよい領域を注意しなくてよ
    いピクセルで埋める前景ピクセルフィラーおよび背景ピ
    クセルフィラーをさらに備えることを特徴とする請求項
    48に記載の文書システム。
  50. 【請求項50】 文書をエンコードする方法であって、 少なくとも一部はピクセルエネルギーの最小化に基づき
    文書イメージのペアにより少なくとも一部は領域をマー
    ジして前記文書イメージのマスクを生成するステップ
    と、 前記文書イメージを前景イメージおよび背景イメージに
    分割するステップであって、前記前景イメージおよび前
    記背景イメージは非2値形式であるステップとを備える
    ことを特徴とする方法。
  51. 【請求項51】 前記マスクをエンコードしてマスクビ
    ットストリームを生成するステップと、 前記前景イメージをエンコードして前景ビットストリー
    ムを生成するステップと、 前記背景イメージをエンコードして背景ビットストリー
    ムを生成するステップと、 前記マスクビットストリーム、前記前景ビットストリー
    ム、および前記背景ビットストリームを組み合わせて組
    合せビットストリームを生成するステップとをさらに備
    えることを特徴とする請求項50に記載の方法。
  52. 【請求項52】 前記マスクは前記前景イメージ、前記
    背景イメージ、および前記マスクのエネルギー分散が小
    さくなるように生成され、前記エネルギー分散は圧縮率
    の推定値であることを特徴とする請求項50に記載の方
    法。
  53. 【請求項53】 前記前景イメージおよび前記背景イメ
    ージの注意しなくてよい領域を注意しなくてよいピクセ
    ルで埋めるステップをさらに備えることを特徴とする請
    求項50に記載の方法。
  54. 【請求項54】 前記マスクからレイアウト情報を識別
    するステップをさらに備えることを特徴とする請求項5
    0に記載の方法。
  55. 【請求項55】 前記マスクからノイズを除去するステ
    ップをさらに備えることを特徴とする請求項50に記載
    の方法。
  56. 【請求項56】 前記文書イメージを分割するステップ
    は、前記前景イメージと前記背景イメージをピクセル数
    分だけ拡大するステップをさらに含むことを特徴とする
    請求項50に記載の方法。
  57. 【請求項57】 文書をデコードする方法であって、 ビットストリームを受け取るステップと、 前記ビットストリームをマスクビットストリーム、前景
    ビットストリーム、および背景ビットストリームに分割
    するステップと、 前記前景ビットストリームを前景イメージにデコードす
    るステップと、 前記背景ビットストリームを背景イメージにデコードす
    るステップと、 前記マスクビットストリームをマスクにデコードするス
    テップと、 前記マスクに従って前記前景イメージおよび前記背景イ
    メージを組み合わせて再構成文書イメージにするステッ
    プとを備えることを特徴とする方法。
  58. 【請求項58】 表示特性を与えるステップをさらに備
    えることを特徴とする請求項57に記載の方法。
  59. 【請求項59】 前記表示特性はユーザーによって指定
    されることを特徴とする請求項57に記載の方法。
  60. 【請求項60】 前記表示特性は動的に決定されること
    を特徴とする請求項57に記載の方法。
  61. 【請求項61】 前記表示特性は予め決定されることを
    特徴とする請求項57に記載の方法。
  62. 【請求項62】 前記表示特性に応じて前記前景イメー
    ジ、前記背景イメージ、および前記マスクを修正するス
    テップをさらに備えることを特徴とする請求項57に記
    載の方法。
  63. 【請求項63】 前記再構成された文書イメージのカラ
    ースペースを変換するステップをさらに備えることを特
    徴とする請求項57に記載の方法。
  64. 【請求項64】 2つまたはそれ以上のコンピュータプ
    ロセスの間でやり取りするように適合したデータパケッ
    トであって、 マスク、背景イメージ、および前景イメージと関連する
    情報であって、前記背景イメージおよび前記前景イメー
    ジは前記マスクに従って再構成された文書イメージを形
    成する情報を備えることを特徴とするデータパケット。
  65. 【請求項65】 文書エンコーディングシステム用のコ
    ンピュータ使用可能コンポーネントを有するコンピュー
    タ読み取り可能媒体であって、 文書イメージのカラースペースを変換するカラースペー
    スコンバータコンポーネントと、 前記カラースペースコンバータコンポーネントから前記
    文書イメージを受け取り、少なくとも一部はピクセルエ
    ネルギーの最小化に基づき前記文書イメージのペアによ
    り少なくとも一部は領域をマージすることにより前記文
    書イメージのマスクを生成するマスクセパレータコンポ
    ーネントと、 前記カラースペースコンバータから前記文書イメージを
    受け取り、前記マスクに従って前記文書イメージを前景
    イメージおよび背景イメージに分割するセグメンタコン
    ポーネントとを備えることを特徴とするコンピュータ読
    み取り可能媒体。
  66. 【請求項66】 前記マスクセパレータコンポーネント
    から前記マスクを受け取り、前記マスクを処理するマス
    クプロセッサコンポーネントと、 前記マスクプロセッサコンポーネントから前記マスクを
    受け取り、前記マスク内のクラスタを識別するクラスタ
    化コンポーネントと、 前記クラスタ化コンポーネントから前記マスクを受け取
    り、前記マスクからレイアウト情報を識別するレイアウ
    トコンポーネントとをさらに備えることを特徴とする請
    求項65に記載のコンピュータ読み取り可能媒体。
  67. 【請求項67】 前記レイアウトコンポーネントから前
    記マスクを受け取り、前記マスクをマスクビットストリ
    ームにエンコードするマスクエンコーダコンポーネント
    と、 前記前景イメージを前景ビットストリームにエンコード
    する前景エンコーダコンポーネントと、 前記背景イメージを受け取り、前記背景イメージを背景
    ビットストリームにエンコードする背景エンコーダコン
    ポーネントと、 前記マスクビットストリーム、前記前景ビットストリー
    ム、および前記背景ビットストリームを組み合わせて組
    合せビットストリームを生成するコンバイナコンポーネ
    ントを含むことをさらに備えることを特徴とする請求項
    66に記載のコンピュータ読み取り可能媒体。
  68. 【請求項68】 少なくとも一部はピクセルエネルギー
    の最小化に基づき文書イメージのペアにより少なくとも
    一部は領域をマージして前記文書イメージのマスクを生
    成する手段と、 前記文書イメージを前景イメージと背景イメージに分割
    する手段と、 前記マスクをマスクビットストリームにエンコードする
    手段と、 前記前景イメージを前景ビットストリームにエンコード
    する手段と、 前記背景イメージを背景ビットストリームにエンコード
    する手段と、 前記マスクビットストリーム、前記前景ビットストリー
    ム、および前記背景ビットストリームを組み合わせて組
    合せビットストリームを生成する手段とを備えることを
    特徴とするエンコーディングシステム。
JP2003083848A 2002-04-25 2003-03-25 文書システム Expired - Fee Related JP4773678B2 (ja)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US10/133,558 US7164797B2 (en) 2002-04-25 2002-04-25 Clustering
US10/133,842 2002-04-25
US10/133,939 US7392472B2 (en) 2002-04-25 2002-04-25 Layout analysis
US10/133,939 2002-04-25
US10/133,558 2002-04-25
US10/133,842 US7263227B2 (en) 2002-04-25 2002-04-25 Activity detector
US10/180,771 US7110596B2 (en) 2002-04-25 2002-06-26 System and method facilitating document image compression utilizing a mask
US10/180,169 2002-06-26
US10/180,169 US7120297B2 (en) 2002-04-25 2002-06-26 Segmented layered image system
US10/180,649 US7024039B2 (en) 2002-04-25 2002-06-26 Block retouching
US10/180,649 2002-06-26
US10/180,771 2002-06-26

Publications (2)

Publication Number Publication Date
JP2003348360A true JP2003348360A (ja) 2003-12-05
JP4773678B2 JP4773678B2 (ja) 2011-09-14

Family

ID=29587951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003083848A Expired - Fee Related JP4773678B2 (ja) 2002-04-25 2003-03-25 文書システム

Country Status (5)

Country Link
EP (1) EP1388815A3 (ja)
JP (1) JP4773678B2 (ja)
KR (1) KR100937542B1 (ja)
CN (1) CN100563296C (ja)
TW (1) TWI230516B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2864857A1 (fr) * 2004-01-05 2005-07-08 Canon Kk Procede et dispositif d'optimisation de la taille d'un document numerique
JP2005323370A (ja) * 2004-04-30 2005-11-17 Microsoft Corp マルチレベル画像の適応圧縮
JP2006005923A (ja) * 2004-06-14 2006-01-05 Xerox Corp ディジタル画像のファイルサイズを動的に制御する画像入力システム及び方法
JP2009296584A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 画像処理装置及び画像処理方法
JP2010130622A (ja) * 2008-12-01 2010-06-10 Ricoh Co Ltd 符号化装置、符号化方法、プログラム及び記録媒体
US7907783B2 (en) 2007-01-24 2011-03-15 Samsung Electronics Co., Ltd. Apparatus and method of matching symbols in a text image coding and decoding system
JP2015029309A (ja) * 2008-12-09 2015-02-12 マイクロソフト コーポレーション 単一命令複数ティスパッチ命令を使用するリモートデスクトッププロトコル圧縮アクセラレーション
JP2015521446A (ja) * 2012-06-01 2015-07-27 アルカテル−ルーセント 透明度情報チャネルを有するビデオストリームをエンコードするための方法および装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086050B2 (en) 2004-08-25 2011-12-27 Ricoh Co., Ltd. Multi-resolution segmentation and fill
US7430321B2 (en) * 2004-09-09 2008-09-30 Siemens Medical Solutions Usa, Inc. System and method for volumetric tumor segmentation using joint space-intensity likelihood ratio test
AU2004242419A1 (en) * 2004-12-21 2006-07-06 Canon Kabushiki Kaisha Analysing digital image of a document page
KR100599141B1 (ko) * 2005-05-20 2006-07-12 삼성전자주식회사 문서 압축시스템 및 그 압축방법
TWI425372B (zh) * 2009-01-15 2014-02-01 Hon Hai Prec Ind Co Ltd 圖片搜索系統及方法
CN101957995A (zh) * 2010-10-14 2011-01-26 华中科技大学 一种图像中关联像素点的检测提取方法及其应用
TWI508530B (zh) * 2011-10-06 2015-11-11 Mstar Semiconductor Inc 影像壓縮方法、媒體資料檔案與解壓縮方法
US20140089778A1 (en) * 2012-09-24 2014-03-27 Amazon Technologies, Inc Progressive Image Rendering Utilizing Data URI Enhancements
GB2507510B (en) * 2012-10-31 2015-06-24 Sony Comp Entertainment Europe Apparatus and method for augmented reality
US9380307B2 (en) 2012-11-19 2016-06-28 Qualcomm Incorporated Method and system for intra base layer (BL) transform in video coding
US9042649B2 (en) * 2013-09-24 2015-05-26 Konica Minolta Laboratory U.S.A., Inc. Color document image segmentation and binarization using automatic inpainting
US9633451B2 (en) * 2014-02-12 2017-04-25 Mediatek Singapore Pte. Ltd. Image data processing method of multi-level shuffles for multi-format pixel and associated apparatus
CN106709876B (zh) * 2015-08-27 2020-04-14 上海沃韦信息科技有限公司 一种基于暗像元原理的光学遥感图像去雾方法
US10015504B2 (en) * 2016-07-27 2018-07-03 Qualcomm Incorporated Compressing image segmentation data using video coding
CN109993824B (zh) * 2017-12-29 2023-08-04 深圳市优必选科技有限公司 图像处理方法、智能终端及具有存储功能的装置
CN109391787A (zh) * 2018-09-30 2019-02-26 武汉中科通达高新技术股份有限公司 文件格式、图像聚合及读取方法
CN110070483B (zh) * 2019-03-26 2023-10-20 中山大学 一种基于生成式对抗网络的人像卡通化方法
CN111666933B (zh) * 2020-06-08 2023-04-07 广东小天才科技有限公司 一种文本检测的方法、装置、电子设备和存储介质
CN111953983A (zh) * 2020-07-17 2020-11-17 西安万像电子科技有限公司 视频编码方法及装置
CN112418249A (zh) * 2020-11-18 2021-02-26 北京字跳网络技术有限公司 掩膜图像生成方法、装置、电子设备和计算机可读介质
US11721119B2 (en) * 2020-12-18 2023-08-08 Konica Minolta Business Solutions U.S.A., Inc. Finding natural images in document pages
CN114581443B (zh) * 2022-05-06 2022-08-26 中科慧远视觉技术(北京)有限公司 一种图像处理方法、装置、计算机设备和可读存储介质
CN117390206A (zh) * 2023-10-26 2024-01-12 杭州食方科技有限公司 生鲜图像存储方法、装置、电子设备和计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254573A (ja) * 1990-03-05 1991-11-13 Canon Inc カラー画像の符号化装置
JPH05276396A (ja) * 1992-03-25 1993-10-22 Toshiba Corp 画像情報処理装置
JPH0946519A (ja) * 1995-08-01 1997-02-14 Canon Inc 画像処理装置および方法
JP2000184205A (ja) * 1998-12-18 2000-06-30 Fuji Xerox Co Ltd 画像形成システム及びその制御方法
JP2000196895A (ja) * 1998-12-21 2000-07-14 Xerox Corp デジタル画像デ―タ区分方法
JP2000261663A (ja) * 1999-03-08 2000-09-22 Fuji Xerox Co Ltd 画像用領域分離装置および方法
JP2001223903A (ja) * 1999-12-04 2001-08-17 Luratech Ges Fuer Luft & Raumfahrttechnologie & Multimedia Mbh 走査された色付きおよびグレースケールの文書を圧縮する方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19615493A1 (de) * 1996-04-19 1997-10-23 Philips Patentverwaltung Verfahren zur Bildsegmentierung
KR100220582B1 (ko) 1996-05-16 1999-09-15 전주범 적응적 부호화기능을 갖는 영상 부호화기
JP3304858B2 (ja) 1997-11-28 2002-07-22 富士ゼロックス株式会社 画像送信装置および画像送信方法
JP3551908B2 (ja) 1999-09-24 2004-08-11 日本電信電話株式会社 背景スプライトと前景オブジェクトの分離方法、及びその装置
EP1104916B1 (de) * 1999-12-04 2011-05-11 LuraTech Imaging GmbH Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254573A (ja) * 1990-03-05 1991-11-13 Canon Inc カラー画像の符号化装置
JPH05276396A (ja) * 1992-03-25 1993-10-22 Toshiba Corp 画像情報処理装置
JPH0946519A (ja) * 1995-08-01 1997-02-14 Canon Inc 画像処理装置および方法
JP2000184205A (ja) * 1998-12-18 2000-06-30 Fuji Xerox Co Ltd 画像形成システム及びその制御方法
JP2000196895A (ja) * 1998-12-21 2000-07-14 Xerox Corp デジタル画像デ―タ区分方法
JP2000261663A (ja) * 1999-03-08 2000-09-22 Fuji Xerox Co Ltd 画像用領域分離装置および方法
JP2001223903A (ja) * 1999-12-04 2001-08-17 Luratech Ges Fuer Luft & Raumfahrttechnologie & Multimedia Mbh 走査された色付きおよびグレースケールの文書を圧縮する方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7573602B2 (en) 2004-01-05 2009-08-11 Canon Kabushiki Kaisha Method and device for optimizing the size of a digital document
FR2864857A1 (fr) * 2004-01-05 2005-07-08 Canon Kk Procede et dispositif d'optimisation de la taille d'un document numerique
US8351694B2 (en) 2004-04-30 2013-01-08 Neiversan Networks Co. Llc Adaptive compression of multi-level images
US7991238B2 (en) 2004-04-30 2011-08-02 Neiversan Networks Co. Llc Adaptive compression of multi-level images
JP2005323370A (ja) * 2004-04-30 2005-11-17 Microsoft Corp マルチレベル画像の適応圧縮
US8620071B2 (en) 2004-04-30 2013-12-31 Neiversan Networks Co. Llc Adaptive compression of multi-level images
JP2006005923A (ja) * 2004-06-14 2006-01-05 Xerox Corp ディジタル画像のファイルサイズを動的に制御する画像入力システム及び方法
US7907783B2 (en) 2007-01-24 2011-03-15 Samsung Electronics Co., Ltd. Apparatus and method of matching symbols in a text image coding and decoding system
US8300963B2 (en) 2007-01-24 2012-10-30 Samsung Electronics Co., Ltd. Apparatus and method of matching symbols in a text image coding and decoding system
JP2009296584A (ja) * 2008-06-05 2009-12-17 Toshiba Corp 画像処理装置及び画像処理方法
JP2010130622A (ja) * 2008-12-01 2010-06-10 Ricoh Co Ltd 符号化装置、符号化方法、プログラム及び記録媒体
JP2015029309A (ja) * 2008-12-09 2015-02-12 マイクロソフト コーポレーション 単一命令複数ティスパッチ命令を使用するリモートデスクトッププロトコル圧縮アクセラレーション
JP2015521446A (ja) * 2012-06-01 2015-07-27 アルカテル−ルーセント 透明度情報チャネルを有するビデオストリームをエンコードするための方法および装置
US9667969B2 (en) 2012-06-01 2017-05-30 Alcatel Lucent Method and apparatus for encoding a video stream having a transparency information channel

Also Published As

Publication number Publication date
TWI230516B (en) 2005-04-01
EP1388815A3 (en) 2005-11-16
KR20030084591A (ko) 2003-11-01
JP4773678B2 (ja) 2011-09-14
EP1388815A2 (en) 2004-02-11
KR100937542B1 (ko) 2010-01-19
TW200306080A (en) 2003-11-01
CN1458791A (zh) 2003-11-26
CN100563296C (zh) 2009-11-25

Similar Documents

Publication Publication Date Title
JP4773678B2 (ja) 文書システム
US7376266B2 (en) Segmented layered image system
US7013050B2 (en) Image encoding apparatus and method, program code, and storage medium
RU2321063C2 (ru) Система и способ последовательного преобразования и кодирования цифровых данных
JP4152789B2 (ja) クラスタリングシステムおよびクラスタリング方法
JP4169522B2 (ja) 画像処理装置、画像処理プログラム及びこのプログラムを記憶する記憶媒体
US8660347B2 (en) Image processing apparatus and processing method therefor
US7366357B2 (en) Systems and methods for adjusting image data to form highly compressible image planes
JP4365957B2 (ja) 画像処理方法及びその装置及び記憶媒体
EP1139290A2 (en) Image processing apparatus and method
US8452112B2 (en) Image encoding apparatus and method of controlling the same
JP2005516553A (ja) 複合文書の圧縮のためのコーダに整合したレイヤ分離
JP2005020227A (ja) 画像圧縮装置
JPH08235346A (ja) 画像処理装置
JP2010103681A (ja) 画像処理装置および画像処理方法
JP2006121645A (ja) 画像圧縮装置および画像圧縮プログラム
JP4089905B2 (ja) 画像処理装置、画像処理方法、プログラム及び情報記録媒体
JP3108133B2 (ja) カラー文書画像の適応符号化方式
KR101454208B1 (ko) 하프톤 영상 인코딩 및 디코딩 방법 및 장치
JP4097146B2 (ja) 画像処理装置、画像処理方法、プログラム及び情報記録媒体
JP2003204439A (ja) 画像符号化装置及び画像符号化方法
JP4719924B2 (ja) 画像処理装置および画像処理方法
JP5078199B2 (ja) 画像符号化装置及びその方法並びにプログラムコード、記憶媒体
JP4757172B2 (ja) 画像符号化装置及びその制御方法
JP2005338902A (ja) 文書データ構造、文書変換装置、文書復元装置、文書変換方法、文書復元方法、文書変換プログラム、文書復元プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090703

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090901

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4773678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees