JP2006054817A

JP2006054817A - ドキュメント処理装置

Info

Publication number: JP2006054817A
Application number: JP2004236724A
Authority: JP
Inventors: Masayuki Hisatake; 真之久武; Yozo Kashima; 洋三鹿島; Kunihiko Kobayashi; 邦彦小林
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-08-16
Filing date: 2004-08-16
Publication date: 2006-02-23

Abstract

【課題】ドキュメントに対して、画質劣化を抑えて、効率よく圧縮処理を行うことができるドキュメント処理装置を提供する。
【解決手段】イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うドキュメント処理装置であって、処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出し、この検出された文字画像部分と、テキスト部分とには第一の圧縮処理を施し、文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施すドキュメント処理装置である。
【選択図】図３

Description

本発明は、イメージ部分とテキスト部分とを含むドキュメントを圧縮処理するドキュメント処理装置に関する。

近年、ネットワークの利用が広まるにつれ、コンピュータ上で文書作成用ソフトウェア等を用いて作成されたドキュメントは、電子メールにより配信されたり、サーバコンピュータなどに保存された後に必要に応じて配信されたりすることが多くなってきている。

一般に、このドキュメント配信に際しては、そのデータサイズを低減させ、可搬性を高めるために、配信に先立って当該ドキュメントの圧縮処理をする。具体的に、自然画写真などのイメージのみが含まれているドキュメントは、高周波成分を間引きするＪＰＥＧ（Joint Picture Experts Group）などの不可逆圧縮方式による圧縮処理をする（特許文献１参照）と効果的である。また、文字等のテキスト部分は高周波成分を多く含むので、高周波成分を間引するＪＰＥＧ式圧縮を行うと、モスキートノイズの発生等の画質劣化を生じてしまうことから、テキストのみが含まれているドキュメントに対しては、ＭＭＲ（Modified Modified Read）などの可逆圧縮方式による圧縮処理を行うことが好ましい。

さらに、例えば、いわゆるＴＩ（Text-Image）分離技術を用いて、イメージ部分とテキスト部分とが分離可能な状態で含まれているドキュメントについては、イメージ部分に対してはＪＰＥＧ方式により、またテキスト部分に対してはＭＭＲ方式により、それぞれ圧縮処理を行えばよい。
特開２００３−２４４４４７号公報

しかしながら、例えば修飾文字などがイメージとして作成されている場合もある。また、文字がラスタライズされ、イメージとして作成されている場合など、イメージ部分がもともと文字画像を含む場合がある。

このような場合、ドキュメントに含まれるイメージ部分を画一的にＪＰＥＧ方式により圧縮してしまうと、当該イメージ部分に含まれる文字画像部分もＪＰＥＧ方式による圧縮が行われることとなって、当該部分については結局、モスキートノイズ等の画質劣化が生じてしまう。

本発明は、上記課題に鑑みて為されたものであり、画質劣化を抑制しつつ、効率のよい圧縮処理を行うことができるドキュメント処理装置を提供することをその目的の一つとする。

上記従来の課題を解決するための本発明の一実施態様に係るドキュメント処理装置は、イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うドキュメント処理装置であって、処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出する文字検出手段と、前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す手段と、を含むことを特徴とする。

また、前記ドキュメント処理装置は、前記処理対象ドキュメントに含まれるイメージ部分の形状を表す形状情報を生成する形状情報生成手段と、前記生成された形状情報に基づいて、前記イメージ部分を文字検出対象とするか否かを決定する対象決定手段と、をさらに含み、前記文字検出手段は、前記対象決定手段により文字検出対象と決定されたイメージ部分から文字画像部分を検出する、こととしてもよい。

また、前記ドキュメント処理装置においては、前記対象決定手段は、前記形状情報生成手段により生成された形状情報が、予め定めた形状条件を満足すると判断した場合に、当該形状情報に係るイメージ部分を文字検出対象と決定する、こととしてもよい。

また、本発明の一実施態様に係るドキュメント処理プログラムは、イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うためのドキュメント処理プログラムであって、コンピュータに、処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出する手順と、前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す手順と、を実行させることを特徴とする。

また、本発明の一実施態様に係るドキュメント処理方法は、イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うためのドキュメント処理方法であって、コンピュータに、処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出する工程と、前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す工程と、を実行させることを特徴とする。

以下、本発明の一実施の形態に係るドキュメント処理装置について、図面を参照しながら説明する。なお、以下の説明では、本実施形態のドキュメント処理装置が図１に示すドキュメントＤを処理対象として圧縮処理を行う場合を例として説明する。

この処理対象ドキュメントＤは、コンピュータ上で文書作成用ソフトウェアを用いて作成されたものであり、図１に示すように、その１ページ内に、ビットマップデータとして形成される３つのイメージ部分ｉ１,ｉ２,ｉ３と、ベクタデータとして形成される２つのグラフィック部分ｇ１,ｇ２と、アウトラインフォントとして形成される２つのテキスト部分ｔ１,ｔ２と、を含んでいる。

ここでイメージ部分ｉ１には「TITLE」の文字画像が含まれる。イメージ部分ｉ２は風景写真（自然画像）であり、イメージ部分ｉ３は複数の星型図形を横一列に並べたものである。このイメージ部分ｉ２は、風景写真を光学スキャナで読み取って電子化することにより作成されたものである。また、グラフィック部分ｇ１は赤色の星型図形を表し、グラフィック部分ｇ２は黒色の星型図形を表している。

また、テキスト部分ｔ１は複数の「a」の文字形状を並べたものである。また、テキスト部分ｔ２は１文字のアルファベット文字「A」の形状からなる。このテキスト部分ｔ２は、グラフィック部分ｇ１上に一部重ね合わせられている。

図２は、ドキュメント処理装置１の主な構成を示すブロック図である。図２に示すように、本実施の形態のドキュメント処理装置１は、制御部１０と、記憶部２０と、指示入力部３０と、表示部４０と、インターフェース部５０とを含んで構成されている。

制御部１０は、ＣＰＵなどを用いて実現でき、記憶部２０に格納されているプログラムに従って動作している。この制御部１０が行う処理の具体的な内容については、後に詳しく述べる。

記憶部２０は、ＲＡＭ（Random Access Memory）や、ＲＯＭ（Read Only Memory）等のメモリ素子、並びにハードディスク等によって実現できる。この記憶部２０には、制御部１０によって実行されるプログラムが保持されている。また、この記憶部２０は、制御部１０の処理の過程で利用される種々のデータを保持するワークメモリとしても動作する。

指示入力部３０は、マウスやキーボード等によって実現できる。この指示入力部３０は、ドキュメント処理装置１の利用者からの指示を受け入れて、当該指示の内容を制御部１０に出力する。表示部４０は、ディスプレイ等であり、制御部１０から入力される指示に従って、制御部１０から入力されるデータを表示出力する。

インターフェース部５０は、ネットワークカード等によって実現できる。このインターフェース部５０は、ＬＡＮ（Local Area Network）やインターネット等のネットワークに接続されており、当該ネットワークを介して処理対象ドキュメントＤを受け入れ、制御部１０に出力する。また、このインターフェース部５０は、制御部１０から入力される指示に従って、制御部１０から入力されるデータをネットワークを介して送信出力する。

次に、制御部１０が行う処理の内容について説明する。本実施形態では、この制御部１０は、処理対象ドキュメントＤに含まれるデータを、互いに異なる圧縮処理の対象となるイメージ部分とテキスト部分との少なくとも２つの部分に分離し、各々の部分を含むレイヤを生成する（第１分離処理）。具体的に、この第１分離処理は、広く知られたＴＩ分離技術を利用してもよい。

そして制御部１０は、当該イメージ部分についてさらに文字画像があるか否かを調べ、文字画像が含まれれば、当該文字画像をイメージ部分のレイヤから除去してテキスト部分のレイヤに追記する（第２分離処理）。なお、除去した後の部分は穴埋処理を行ってもよい。

すなわち、この制御部１０は、第１分離処理におけるテキスト部分の分離に加え、第２分離処理において文字画像部分の分離を行い、当該文字画像部分を第２レイヤに含めてＭＭＲ等による圧縮を行うことにより、テキスト部分のみならず、イメージ部分に含まれる文字画像についても画質劣化を抑えながら圧縮処理を行うことができるようになる。

図３は、制御部１０によって行われる処理を表す機能ブロック図である。図３に示すように、制御部１０は、画像情報生成部１１と、レイヤ処理制御部１２と、第１レイヤ処理部１３と、第２レイヤ処理部１４と、文字検出部１５と、圧縮処理部１６と、データ出力部１７とを含む。

以下では、まず第１分離処理について説明し、本発明に特徴的な第２分離処理については後に詳しく説明する。第１分離処理では、画像情報生成部１１が処理対象ドキュメントＤに基づいて各レイヤへの分離に適した画像情報を生成する。レイヤ処理制御部１２と、第１レイヤ処理部１３と、第２レイヤ処理部１４とは、当該画像情報に基づいてレイヤの生成を行うことになる。

具体的にレイヤへの分離に適した画像情報は、処理対象ドキュメントＤに係る付加情報とエッジ情報とを含む。ここで付加情報は、処理対象ドキュメントＤのページサイズや解像度を表すとともに、後述するレイヤ生成処理において生成されるレイヤのページサイズや解像度を指定する情報である。

本実施の形態では、圧縮効率の向上のため、イメージ部分については元の解像度を、その半分の解像度の画像に変換してもよい。この場合、付加情報は、第１レイヤを処理対象ドキュメントＤと同じページサイズで、且つ処理対象ドキュメントＤの解像度の半分の解像度で生成するよう指示するとともに、第２レイヤを処理対象ドキュメントＤと同じページサイズで、且つ処理対象ドキュメントＤの解像度と同じ解像度で生成するよう指示する情報として生成される。

またエッジ情報は、処理対象ドキュメントＤに含まれるイメージ部分、テキスト部分等、各オブジェクトの位置を特定する位置情報と、当該各位置に配置されるデータの属性（イメージ、グラフィック、テキストの別）を表すタグ情報と、を関連付けた情報として生成される。例えば、図４に示すように、処理対象ドキュメントＤ上のオブジェクトの各位置がページ左上隅を原点ＯとしたＸＹ座標系によって特定される場合、画像情報生成部１１は、ページ上端からページ下端までのＹ座標値ごとに複数のエッジ情報要素を関連付けてエッジ情報を生成する。ここでエッジ情報要素は、図５（ａ）に示すように、始点Ｘ座標値ＳＸと、終点Ｘ座標値ＥＸと、タグ情報Ｔと、色情報Ｃとを含む構造（以下、エッジ構造体と呼ぶ）として規定される。

このエッジ構造体のエッジ情報要素により、各Ｙ座標値に対応する１ラインごとに、当該ラインに含まれる画素線分が規定される。つまり、始点Ｘ座標値ＳＸ及び終点Ｘ座標値ＥＸにより画素線分の範囲が規定される。また、当該画素線分に係るタグ情報Ｔによって当該画素線分をどのレイヤに分類するかが規定され、色情報Ｃによって当該画素線分の画素値によって表されるべき色が規定される。また、このエッジ構造体は、ランレングスデータの基礎として用いるのに適している（画素線分の長さが特定しやすい）ので、ＭＭＲ圧縮の基礎データとしても有用である。

例えば図４に示す処理対象ドキュメントＤ上の１つの座標値Ｙ１については、当該Ｙ１座標値ライン上に形成されるデータ部分の属性と表示色とを、ページ左端（Ｘ座標値＝０）からページ右端（Ｘ座標値＝１９９）まで調べ、データ属性や表示色が変わるたびに異なるエッジ構造体を生成する。図４の例ではイメージ部分ｉ２と、テキスト部分ｔ２と、グラフィック部分ｇ１とによって６つの部分に区切られるので、各部分に対応して、図５（ｂ）に示すように、６つのエッジ構造体（１）から（６）を含むエッジ情報が生成される。なお、イメージ部分、テキスト部分などの別は、領域ごとに予め指定されているものとする。例えばある矩形領域を特定する座標情報と、当該矩形領域内の画像がイメージ、テキスト等のうちどの部分であるかを特定する情報が予め知られているものとする。タグ情報は当該予め知られている情報に基づいて生成される。

なお、イメージ部分は一般に、一つのライン中に複数の色の画素を含む。そこで図５（ｂ）に示すエッジ情報に含まれるエッジ構造体（２）、つまり、始点Ｘ座標値１１（ＳＸ）から終点Ｘ座標値１４０（ＥＸ）までのＸ座標値の範囲のイメージ部分（図１の風景画像部分ｉ２の一部）に対応するエッジ情報要素であるが、ここでの表示色は、記憶部２０内のアドレスＺにより特定されることを表している。このアドレスＺは、当該イメージ部分における該当するラインの画素値（表示色）を表すデータが格納されている位置を表すポインタ情報である。

また、エッジ構造体（４）は、Ｘ座標値１５１から１６５までの範囲に、テキストデータ（図１のテキスト「A」部分ｔ２の一部）が黒色で形成されることを表している。また、エッジ構造体（５）は、Ｘ座標値１６６から１７０までの範囲に、グラフィックデータ（図１の星型図形部分ｇ１の一部）が赤色で形成されること表している。

また、その他のエッジ構造体（１），（３），（６）については、タグ情報Ｔは「背景」となり、その表示色は未定としている。ここで背景とは、当該エッジ構造体（１），（３），（６）に係るＸ座標値の範囲には、イメージ、グラフィック、テキストのいずれも形成されていないことを表している。すなわち、この背景部分は、用紙上に画像を形成する場合であれば、用紙の地色となる部分に相当する。

画像情報生成部１１は、このように生成した画像情報をレイヤ処理制御部１２に出力する。レイヤ処理制御部１２は、当該画像情報の入力を受けて、記憶部２０に予め格納された条件情報を読み出し、当該画像情報と条件情報とに基づいて、第１レイヤ処理部１３と第２レイヤ処理部１４とにレイヤ生成処理を指示する。

ここで条件情報の具体的内容について説明する。この条件情報は、後述の第１レイヤ処理部１３と第２レイヤ処理部１４とによるレイヤの生成条件を指定する情報であり、割り当て情報と、圧縮条件情報と、解像度情報とを含んでいる。

割り当て情報は、画像情報に含まれるタグ情報Ｔの種類ごとに、当該種類の分類先であるレイヤ種別（第１レイヤ又は第２レイヤの別）を関連付けた情報であり、後述するレイヤ生成処理において利用される。本実施の形態では、この割り当て情報は、イメージ部分であることを表すタグ情報に対して、第１レイヤを表すレイヤ種別を関連付けるとともに、テキスト部分又はグラフィック部分であることを表すタグ情報に対して、第２レイヤを表すレイヤ種別を関連付けている。

また圧縮条件情報は、レイヤ種別ごとに、当該種別のレイヤに含まれるデータの圧縮方式や圧縮パラメータ（例えば圧縮方式がＪＰＥＧの場合には量子化レベル等）を含む圧縮処理条件を関連付けた情報である。この圧縮処理条件は、後述するレイヤの圧縮処理において利用される。本実施の形態ではこの圧縮条件情報は、第１レイヤを表すレイヤ種別に対しては、圧縮方式としてＪＰＥＧ等の非可逆圧縮方式を特定する情報を関連付けている。また、第２レイヤを表すレイヤ種別に対しては、ＭＭＲ等の可逆式圧縮方式を特定する情報を関連付けている。

また解像度情報は、レイヤ種別ごとに、レイヤに含まれる画像の解像度を特定する情報である。この解像度情報は、後述するレイヤ生成処理において利用される。本実施の形態では、この解像度情報は、第１レイヤを表すレイヤ種別に対しては、処理対象ドキュメントＤの解像度より小さい解像度が関連付けられている。また、第２レイヤを表すレイヤ種別には、処理対象ドキュメントＤの解像度と同じ解像度を関連付けている。

レイヤ処理制御部１２は、まず条件情報に含まれる付加情報に基づいて、第１レイヤ処理部１３と第２レイヤ処理部１４とに対して、それぞれが生成すべき第１レイヤ又は第２レイヤの解像度やデータサイズを指定する。第１レイヤ処理部１３と第２レイヤ処理部１４とは、それぞれのレイヤの画像データを記憶する領域を記憶部２０内に確保して、初期化する。

また、このレイヤ処理制御部１２は、条件情報の割り当て情報に基づき、第１レイヤ処理部１３に対しては、画像情報に含まれるエッジ情報のうち、イメージ部分であることを表すタグ情報Ｔに係る情報を含むエッジ情報を選択して出力する。また、第２レイヤ処理部１４に対しては、テキスト部分又はグラフィック部分に係る情報を含むエッジ情報を選択して出力する。なお、レイヤ処理制御部１２は、各Ｙ座標値ごとに、エッジ情報を出力する。

さらに、このレイヤ処理制御部１２は、第１レイヤ処理部１３と第２レイヤ処理部１４とに対して、処理対象ドキュメントＤのページ始端からページ終端に係る（つまり１ページ分の）エッジ情報を出力し終えると、第１レイヤ処理部１３と第２レイヤ処理部１４とに対して、生成したレイヤをデータ出力部１７に出力するよう指示する。

また、このレイヤ処理制御部１２は、条件情報に含まれる圧縮条件情報に基づいて、第１レイヤ処理部１３に対しては、生成した第１レイヤを圧縮処理部１６にＪＰＥＧ方式で圧縮処理させるよう指示するとともに、第２レイヤ処理部１４に対しては、生成した第２レイヤを圧縮処理部１６にＭＭＲ方式で圧縮させるよう指示する。

第１、第２のレイヤ処理部１３，１４は、入力されるエッジ情報に基づいて各レイヤの画像データを生成する。具体的に本実施の形態では、入力されるエッジ情報に基づいて座標変換を行う。つまり、エッジ情報によって特定される画素線分の配置位置を、記憶部２０に確保された解像度における配置位置に変換する。例えば、解像度を１／２としている場合は、座標の値を１／２とする。

第１レイヤ処理部１３は、受け入れたエッジ情報に含まれるエッジ情報要素に基づいて、当該エッジ情報要素によって特定される画素線分のＸＹ座標値の位置（エッジ構造に係るＹ座標値上であって始点のＸ座標値から終点のＸ座標値までの範囲）に対応する画素の色を、色情報Ｃによって特定される色（図５参照）に設定する。これによりイメージ部分のみを形成した仮第１レイヤを生成する。

すなわち、この第１レイヤ処理部１３は、図６（ａ）に示すように、処理対象ドキュメントＤに含まれるデータのうち、３つのイメージデータ部分ｉ１，ｉ２，ｉ３のみを、処理対象ドキュメントＤにおける位置に対応する位置（解像度が異なるので座標値自体は異なる）に配置した仮第１レイヤを生成する。そして、この第１レイヤ処理部１３は、仮第１レイヤに含まれる３つのイメージデータ部分ｉ１，ｉ２，ｉ３を文字検出部１５に出力する。

また第１レイヤ処理部１３は、文字検出部１５からイメージ部分のうち、文字画像の部分を特定する情報を受け入れて、当該特定された部分のエッジ情報を分割し、文字画像部分の画素線分に係るエッジ情報にテキスト部分であることを示す情報を設定して、当該エッジ情報を第２レイヤ処理部１４に出力する。また、仮第１レイヤ上で、当該文字画像部分に対応する画素の値を所定の背景色に設定する。ここで第１レイヤ処理部１３は、当該背景色部分の色を、その周囲（例えば隣接する有意画素（背景色でない画素））の色に基づいて決定し、当該決定した色に設定する処理（いわゆる穴埋処理）を行ってもよい。

具体的に、第１レイヤ処理部１３が、イメージ部分ｉ１に含まれる「title」の画像部分（この場合イメージ部分ｉ１全体）が文字画像部分であると特定する情報を文字検出部１５から受けた場合、当該イメージ部分ｉ１全体を背景色で塗り潰すとともに、イメージ部分ｉ１に係るエッジ情報のタグ情報Ｔをテキストであることを表す情報に設定して、第２レイヤ処理部１４に出力する。このようにイメージ部分の一つが全体的に除去される（背景色に設定される）場合は、穴埋処理は必ずしも必要でない。

この第１レイヤ処理部１３が出力する第１レイヤの画像は、従って、図７(ａ)に示すように、２つのイメージデータ部分ｉ２，ｉ３のみを含むものになる。これにより、第１レイヤ処理部１３は、処理対象ドキュメントＤのうち、文字画像部分を含まないイメージ部分のみを含む第１レイヤを生成する。

さらに第１レイヤ処理部１３は、圧縮処理部１６に対して、当該生成した第１レイヤの画像（文字画像部分を含まないイメージ部分のみを含む画像）を出力する。そして圧縮処理部１６からＪＰＥＧ圧縮された第１レイヤの画像の入力を受けて、当該圧縮後の第１レイヤ（圧縮第１レイヤ）をデータ出力部１７に出力する。

一方、第２レイヤ処理部１４は、レイヤ処理制御部１２からエッジ情報の入力を受けて、記憶部２０に確保した第２レイヤの画像のうち、各エッジ情報によって特定される座標範囲の画素値を、各エッジ情報によって特定される色に設定する。これにより、第２レイヤ処理部１４は、処理対象ドキュメントＤのうち、テキスト部分とグラフィック部分とを含む仮第２レイヤを生成する（図６（ｂ））。

また第２レイヤ処理部１４は、第１レイヤ処理部１３が出力するエッジ情報の入力を受けて、仮第２レイヤの画像のうち、当該エッジ情報によって特定される座標範囲の画素値を、当該エッジ情報によって特定される色に設定し、第２レイヤの画像を生成する。ここで第１レイヤ処理部１３が出力するエッジ情報は、文字部分の画像に係るものであるので、第２レイヤ処理部１４が生成する第２レイヤの画像は、テキスト部分とグラフィック部分と、イメージ部分に含まれていた文字画像の部分とを含むものとなる。

つまり図１の例でいえば、この第２レイヤ処理部１４が出力する第２レイヤの画像は、図７（ｂ）に示すように、処理対象ドキュメントＤのうち、２つのテキスト部分ｔ１，ｔ２と、２つのグラフィック部分ｇ１，ｇ２と、文字画像を含むイメージ部分ｉ１とが、処理対象ドキュメントＤにおけるのと対応する位置及びサイズ（ここでの例では第２レイヤの画像は元のドキュメントの画像と同じ解像度であるので、同じ座標値になる）で配置した第２レイヤを生成する。

そして、この第２レイヤ処理部１４は、圧縮処理部１６に対して、ラスタライズした第２レイヤの画像を出力する。圧縮処理部１６はこの第２レイヤの画像をＭＭＲ方式により圧縮する。そしてこの第２レイヤ処理部１４は、圧縮処理部１６からＭＭＲ圧縮された第２レイヤの画像を受け入れて、当該圧縮後の第２レイヤ（圧縮第２レイヤ）をデータ出力部１７に出力する。

ここで、文字検出部１５の動作の内容について述べる。この文字検出部１５は、第２分離処理を実現するものである。本実施の形態の文字検出部１５は、第１レイヤ処理部１３から、イメージ部分の画像を受け入れ、受け入れた各イメージ部分に文字画像が含まれているか否かを判断する（文字検出処理）。また、この文字検出部１５は、イメージ部分が文字画像を含むと判断した場合には、当該文字画像の部分を特定する情報を、第２レイヤ処理部１４に出力する。

具体的に、文字検出部１５は、まず第１レイヤ処理部１３から受け入れた各イメージ部分がカラーの画像かグレイスケールの画像かを判断し、カラーの画像と判断した場合には、当該イメージ部分をグレイスケールの画像に変換する。

文字検出部１５は、次に、グレイスケールのイメージ部分の画素について、輝度値のヒストグラムを生成する。一般に風景写真等の中に文字が含まれるようなイメージ部分を構成する画素について、その輝度値のヒストグラムを生成すると、文字部分に特徴的な輝度値ピークが出現することが知られている。そこで文字検出部１５は、当該生成したヒストグラムに基づいて、文字部分と風景写真等の下地部分とを区別し得る輝度値をしきい値として決定し、当該しきい値を用いてグレイスケールのイメージ部分の画像を二値化する。なお、このしきい値はこれとは異なり、例えば、イメージデータ部分の注目画素の周辺画素値から動的に求めていく浮動二値化方式によって動的に決定されてもよい。

文字検出部１５は、二値化されたイメージ部分の画像に対して公知のレイアウト技術を適用してノイズを除去し、文字の検出を行う。例えば、この文字検出部１５は、二値化されたイメージ部分上でオンとなっている画素（黒画素）が含まれる領域の外接矩形を画定し、当該外接矩形内のオン画素数と矩形を構成する画素の総数とを比較する。

そして、この文字検出部１５は、外接矩形範囲内のオン画素数が矩形内の総画素数に対して所定割合以上である場合には、当該外接矩形内に文字が表されていると判断し、所定割合未満である場合には、ノイズであると判断してそのオン画素を除去する。また、この文字検出部１５は、イメージデータ部分上のオン画素がページ内で水平方向又は垂直方向に周期性をもって並んでいると判断した場合には、当該周期性をもって形成されているオン画素が文字を表すものであると判断することとしてもよい。

図１に示した本実施の形態の例では、こうした処理を経て文字検出部１５が、３つのイメージ部分ｉ１，ｉ２，ｉ３のうち、イメージ部分ｉ１から「TITLE」という文字列を検出し、文字画像の部分を特定する（外接矩形の領域として特定できる）。また、他の２つのイメージ部分ｉ２，ｉ３については、文字が検出できないため、文字画像を特定する情報を出力しない。

圧縮処理部１６は、第１レイヤ処理部１３や第２レイヤ処理部１４から受け入れた各レイヤの画像の圧縮処理を行う。具体的に、この圧縮処理部１６は、第１レイヤ処理部１３から図７（ａ）に示す第１レイヤの画像を受け入れ、当該第１レイヤの画像に対して、圧縮条件情報により指定される量子化レベルでＪＰＥＧ方式による圧縮処理を行い、当該圧縮処理後の第１レイヤの画像を第１レイヤ処理部１３に出力する。

また、この圧縮処理部１６は、第２レイヤ処理部１４から、図７（ｂ）に示した第２レイヤの画像を受け入れ、当該第２レイヤの画像に対して、圧縮条件情報により指定されるＭＭＲ方式による圧縮処理を行う。そして、この圧縮処理部１６は、当該圧縮処理後の第２レイヤの画像を第２レイヤ処理部１４に出力する。

データ出力部１７は、第１レイヤ処理部１３から入力される圧縮第１レイヤと、第２レイヤ処理部１４から入力される圧縮第２レイヤとを含む圧縮ドキュメントを生成する。この圧縮ドキュメントは、可搬性の高いデータ形式で生成してもよい。具体的に、このデータ出力部１７は、１ページ上に、圧縮第１レイヤに含まれるデータ部分をＪＰＥＧ解凍処理して形成するとともに、圧縮第２レイヤに含まれるデータ部分をＭＭＲ解凍処理して形成するよう記述したＰＤＦ（Portable Document Format）形式のドキュメントとする。

なお、データ出力部１７は、当該生成した圧縮ドキュメントを記憶部２０に格納し、またはインターフェース部５０を介して送信出力する。

また、この圧縮ドキュメントは、処理対象ドキュメントＤにおいてテキスト部分ｔ２をグラフィック部分ｇ１上に重ねて形成する指示や、第１レイヤの上に第２レイヤを合成するといった各オブジェクトや各レイヤの合成順序等を指示する記述を含んで生成されてもよい。

本実施の形態によれば、一般的なＴＩ分離処理によってイメージ部分と判断された領域についても、さらに文字形状を含む部分があるか否かを調べ、文字形状を含む部分が検出されると、当該部分をテキスト部分に含め、イメージ部分から除いてから圧縮処理を行っている。これにより、画質劣化が軽減され、圧縮効率も向上する。

また、ここまでの説明では文字検出部１５は、処理対象ドキュメントＤに含まれる全てのイメージ部分について、文字検出処理を行うこととしている。このため、処理対象ドキュメントＤが多くのイメージ部分を含む場合には、文字検出処理に長時間を要してしまう。

そこで、本発明の他の実施形態として、制御部１０が、図８に示すような処理を行うこととしてもよい。すなわち、制御部１０によって行われる処理は、画像情報生成部１１と、レイヤ処理制御部１２と、第１レイヤ処理部１３と、第２レイヤ処理部１４と、文字検出部１５と、圧縮処理部１６と、データ出力部１７と、に加え、さらに文字検出対象決定部１８と、を含む。ここで既に説明した実施形態と同様の処理を行うものについては同じ符号を付して詳細な説明を省略する。

文字検出対象決定部１８は、第２分離処理において、処理対象ドキュメントＤに含まれるイメージ部分のうち、少なくとも一部を文字検出処理の対象として決定する処理を行う。

なお、本実施の形態では、画像情報生成部１１が、付加情報とエッジ情報とに加え、処理対象ドキュメントＤに含まれるオブジェクトの形状を表す情報（形状情報）を生成するものとする。具体的に、この形状情報は、処理対象ドキュメントＤ上において、各イメージ部分が配置される範囲を特定する座標情報である。

例えば、図４において点線で示すように、例えば「TITLE」との文字列を表すイメージ部分ｉ１については、当該イメージ部分ｉ１に対応する外接矩形領域ｉ１ａ（図４において破線で示す）を画定する情報を生成する。なお、矩形領域を画定する情報としては対角線を画定する情報として、イメージ部分ｉ１に係る領域ｉ１ａの４つの頂点のうち、原点Ｏからの距離が最も小さい頂点（左上の頂点Ｐ１）のＸＹ座標値と、原点Ｏからの距離が最も大きい頂点（右下の頂点Ｐ２）のＸＹ座標値とのセットでよい。

この画像情報生成部１１は、形状情報を含む画像情報をレイヤ処理制御部１２に出力する。レイヤ処理制御部１２は、処理対象ドキュメントＤに含まれる３つのイメージ部分ｉ１，ｉ２，ｉ３の画像とともに、当該形状情報を文字検出対象決定部１８に出力する。

文字検出対象決定部１８は、当該形状情報に基づいて、イメージ部分の画像の各々について、文字検出処理の対象とするか否かを決定する。具体的に、この文字検出対象決定部１８は、画像情報生成部１１から受け入れた形状情報により特定される各イメージ部分の形状が、予め設定され、記憶部２０に格納されている所定の形状条件を満足するか否かを判断し、当該形状条件を満足すると判断されたイメージ部分を文字検出対象として決定する。

一般に、イメージ部分が横書きの文字列を表す文字画像を含む場合、当該イメージ部分の外接矩形の幅Ｗに対して、高さＨは小さくなる。尤も、イメージ部分が横線からなる場合、幅Ｗに対して高さＨが極端に小さくなるという特徴を備えている。例えば外接矩形の高さに対する幅の比（Ｗ／Ｈ）について、この比がＭ１＜Ｍ２なる、Ｍ１，Ｍ２について、Ｍ１以上かつＭ２未満の場合、横書の文字画像部分を含む可能性のある文字検出対象とする。このように、上側しきい値Ｍ２を用いることで横線を文字検出対象から排除するのである。

同じように、イメージ部分が縦書きの文字を表す文字画像部分である場合には、幅Ｗに対して高さＨが大きくなる。また、当該イメージ部分が縦線からなる場合に配慮して、例えば外接矩形の高さに対する幅の比（Ｗ／Ｈ）について、Ｎ１＜Ｎ２なる、Ｎ１，Ｎ２を用いて、当該比が、Ｎ１以上かつＮ２未満である場合、縦書の文字画像部分を含む可能性のある文字検出対象とする。このように、上側しきい値Ｎ２を用いることで縦線部分を文字検出対象から排除するのである。

本実施の形態の文字検出対象決定部１８は、このように各イメージ部分の幅Ｗと高さＨとの比を用い、形状条件であるこの比に対するしきい値Ｍ１，Ｍ２，Ｎ１，Ｎ２を用いて上記条件を満足するか否かによって文字検出対象とするか否かを定める。

具体的に図１に示したドキュメントＤの例であれば、３つのイメージ部分ｉ１，ｉ２，ｉ３のうち、「TITLE」の文字列を表すイメージ部分ｉ１に係る幅／高さ比、Ｗ１／Ｈ１と、横一列に並んだ複数の星型図形を表すイメージ部分ｉ３に係る幅／高さ比、Ｗ３／Ｈ３とがいずれも横書きの文字画像部分である可能性が高い（Ｍ１以上かつＭ２未満）と判断し、これら２つのイメージ部分ｉ１，ｉ３を文字検出処理対象と決定する。

文字検出対象決定部１８は、文字検出対象として決定した２つのイメージ部分ｉ１，ｉ３を特定する情報を文字検出部１５に出力する。また、この文字検出対象決定部１８は、文字検出対象と決定しなかったイメージ部分ｉ２を特定する情報を第１レイヤ処理部１３に出力してもよい。

この場合文字検出部１５は、当該決定の結果の入力を受けて、入力されるイメージ部分のうち、文字検出対象として決定されたイメージ部分について文字検出処理を行う。

また、文字検出対象と決定しなかったイメージ部分ｉ２を特定する情報が入力された第１レイヤ処理部１３は、当該イメージ部分ｉ２については、除去の処理を必要としない部分と判断して、別途所定の処理を実行してもよい。

なお、本実施形態における処理対象ドキュメントＤは、文書作成用ソフトウェアや図形形成用ソフトウェア等に特有のデータ形式で作成されたものであってもよいし、プリンタ装置等、画像形成装置による出力処理に適したページ記述言語（PDL：Page Discription Language）で記述されたものであってもよい。

また、本実施形態においては、イメージ部分のみを文字検出処理の対象としているが、処理対象ドキュメントＤに含まれるデータのうち、テキスト部分以外のデータ（すなわちイメージ部分とグラフィック部分との双方）について、その全部又は一部を、文字検出対象決定処理又は文字検出処理の対象としてもよい。この場合、制御部１０は第１レイヤ処理部１３及び第２レイヤ処理部１４に加え、グラフィック部分のみが含まれる第３レイヤの生成処理を行う第３レイヤ処理部をさらに含むこととしてもよい。この第３レイヤの画像（グラフィック部分であっても文字形状部分を除いた部分）は、第１レイヤ又は第２レイヤの少なくとも一方と同じ方式で圧縮処理されてもよいし、いずれとも異なる第三の方式で圧縮処理されてもよい。

また、グラフィック部分についても文字検出対象決定処理を行う場合には、画像情報生成部１１は、イメージ部分に加え、各グラフィック部分の形状を特定する形状情報を生成し、文字検出対象決定部１８は、当該形状情報に基づいて、各グラフィック部分を文字検出処理の対象とするか否かの決定処理を行う。

具体的に、図９（ａ）乃至（ｃ）は、画像情報生成部１１が、処理対象ドキュメントＤ内に複数の矩形範囲を設定する場合の一例について示している。この場合、画像情報生成部１１は、図９（ａ）に示すように、処理対象ドキュメントＤの１ページ分と同じページサイズの新規なレイヤＬ１を用意し、当該レイヤＬ１上に４つの分割領域（１）から（４）を設定して、当該分割領域ごとに形成されるグラフィック部分の矩形範囲を設定する。すなわち、この画像情報生成部１１は、レイヤＬ１内に最大４つの矩形範囲を設定することができる。

ただし、この場合、図９（ｂ）に示すように、レイヤＬ１上の２つの分割領域（３）と分割領域（４）とに跨って形成されるグラフィック部分ｇ１と、１つの分割領域（４）内に形成されるグラフィック部分ｇ２とがあると、２つの分割領域に跨って形成される１つのグラフィック部分ｇ１については、各分割領域内に形成される部分ごとに２つの矩形範囲ｇ１，ｇ２が設定される。

そこで、画像情報生成部１１は、図９（ｂ）に示す３つの矩形範囲のうち、いずれかが互いに隣接しているか否かを調べ、隣接していると判断した矩形範囲同士を統合する。すなわち、この画像情報生成部１１は、図９（ｂ）に示すように、部分領域（３）内に形成されたグラフィック部分ｇ１の一部に外接する矩形範囲ｇ１ａと、部分領域（４）内に形成されたグラフィック部分ｇ１の残り部分に外接する矩形範囲ｇ２ａと、が互いに隣接することを検出し、図９（ｃ）に示すように、これらを統合して、当該グラフィック部分ｇ１全体に外接する矩形範囲ｇ４ａを新たに設定する。なお、この画像情報生成部１１は、各矩形範囲間の距離（例えば矩形範囲の重心間の距離）を調べ、当該距離が所定値以下と判断した場合に、当該矩形範囲同士を統合することとしてもよい。

また、この画像情報生成部１１は、ページ全体又は分割領域内ごとにフラグ値を設定し、当該フラグ値に基づいて、当該ページ全体又は各分割領域内に形成される複数のグラフィック部分に係る矩形範囲を統合することとしてもよい。図９（ｄ）から（ｆ）は、画像情報生成部１１がページ全体について１つのフラグ値を設定し、当該フラグ値を参照して２つのグラフィック部分ｇ１,ｇ２の両方に外接する１つの矩形範囲を設定する場合の一例を示している。

すなわち、図９（ｄ）に示すように、この画像情報生成部１１は、新規に用意したレイヤＬ２のページ全体に対するフラグ値をＯＦＦに設定する。次に、この画像情報生成部１１は、図９（ｄ）に示すフラグ値がＯＦＦの状態のレイヤＬ２上に、図９（ｅ）に示すように、１つ目のグラフィック部分ｇ１を形成する。このとき、画像情報生成部１１は、グラフィック部分ｇ１の形成前のフラグ値を参照し、当該フラグ値がＯＦＦであることから、図９（ｅ）に示すように、当該グラフィック部分ｇ１に外接する１つの矩形範囲ｇ５ａを設定する。また、このとき画像情報生成部１１は、レイヤのフラグ値をＯＦＦからＯＮに変更する。

そして、この画像情報生成部１１は、図９（ｅ）に示すフラグ値がＯＮに設定された（すなわち既にグラフィック部分ｇ１が形成されている）レイヤＬ２上に、図９（ｆ）に示すように、２つ目のグラフィック部分ｇ２をさらに形成する。このとき、画像情報生成部１１は、グラフィック部分ｇ２の形成前のフラグ値を参照し、当該フラグ値がＯＮであることから、既に形成されているグラフィック部分ｇ１に外接する矩形範囲ｇ５ａを拡張して、図９（ｆ）に示すように、２つのグラフィック部分ｇ１,ｇ２の両方に外接する新たな矩形範囲ｇ６ａを設定する。

また、画像情報生成部１１が生成する形状情報は、上述のように、イメージ部分又はグラフィック部分の形状を処理対象ドキュメントＤ上の座標値を用いて矩形範囲として特定するものに限られず、矩形以外の形状として、当該任意の形状を特定するための関数や座標情報の群として生成されてもよい。

また、レイヤ処理制御部１２は、条件情報のうち少なくとも一部を指示入力部３０から受け入れることとしてもよい。この場合、例えば、ドキュメント処理装置１の利用者が、表示部４０に表示される案内画面に従って、指示入力部３０を介して条件情報を入力し、当該条件情報が制御部１０に入力されることとなる。

本発明の一実施形態に係るドキュメント処理装置による圧縮処理の対象となるドキュメントの説明図である。本発明の一実施形態に係るドキュメント処理装置の主な構成を示すブロック図である。本発明の一実施形態に係るドキュメント処理装置の制御部によって行われる主な処理を示す機能ブロック図である。本発明の一実施形態に係るドキュメント処理装置が生成する画像情報の説明図である。本発明の一実施形態に係るドキュメント処理装置が生成するエッジ情報の説明図である。本発明の一実施形態に係るドキュメント処理装置が生成する仮第１レイヤの説明図である。本発明の一実施形態に係るドキュメント処理装置が生成する第１レイヤの説明図である。本発明の他の実施形態に係るドキュメント処理装置の制御部によって行われる主な処理を示す機能ブロック図である。本発明の一実施形態に係るドキュメント処理装置が生成する形状情報についての説明図である。

符号の説明

１ドキュメント処理装置、１０制御部、１１画像情報生成部、１２レイヤ処理制御部、１３第１レイヤ処理部、１４第２レイヤ処理部、１５文字検出部、１６圧縮処理部、１７データ出力部、１８文字検出対象決定部、２０記憶部、３０指示入力部、４０表示部、５０インターフェース部。

Claims

イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うドキュメント処理装置であって、
処理対象ドキュメントに含まれる、前記イメージ部分の少なくとも一部から、文字画像の部分を検出する文字検出手段と、
前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す手段と、
を含むことを特徴とするドキュメント処理装置。
請求項１に記載のドキュメント処理装置において、
前記処理対象ドキュメントに含まれるイメージ部分の形状を表す形状情報を生成する形状情報生成手段と、
前記生成された形状情報に基づいて、前記イメージ部分を文字検出対象とするか否かを決定する対象決定手段と、
をさらに含み、
前記文字検出手段は、前記対象決定手段により文字検出対象と決定されたイメージ部分から文字画像部分を検出する、
ことを特徴とするドキュメント処理装置。
請求項２に記載のドキュメント処理装置において、
前記対象決定手段は、前記形状情報生成手段により生成された形状情報が、予め定めた形状条件を満足すると判断した場合に、当該形状情報に係るイメージ部分を文字検出対象と決定する、
ことを特徴とするドキュメント処理装置。
イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うためのドキュメント処理プログラムであって、コンピュータに、
処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出する手順と、
前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す手順と、
を実行させることを特徴とするドキュメント処理プログラム。
イメージ部分とテキスト部分とを含むドキュメントを対象として圧縮処理を行うためのドキュメント処理方法であって、コンピュータに、
処理対象ドキュメントのうち、イメージ部分の少なくとも一部から、文字画像の部分を検出する工程と、
前記検出された文字画像部分と、前記テキスト部分とに第一の圧縮処理を施し、前記文字画像部分以外のイメージ部分には前記第一の圧縮処理とは異なる第二の圧縮処理を施す工程と、
を実行させることを特徴とするドキュメント処理方法。