JP4375782B2

JP4375782B2 - 画像処理装置、画像処理プログラム及び画像処理方法

Info

Publication number: JP4375782B2
Application number: JP2003394429A
Authority: JP
Inventors: 史裕長谷川; 利夫宮澤; 秀明山形; 敏文山合; 俊博鈴木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-11-25
Filing date: 2003-11-25
Publication date: 2009-12-02
Anticipated expiration: 2023-11-25
Also published as: JP2005159663A

Description

本発明は、文書画像を登録、管理する文書管理システムなどに利用される入力画像の処理装置に関し、画像品質の低下を抑えながら圧縮保存する処理及び検索用のデータを付加する処理を行う画像処理装置、画像処理プログラム及び画像処理方法に関する。

大量の紙文書の保管に要するスペースや利用時の文書管理にかかるコストを低減させるために、紙文書を電子画像としてファイル化し、管理するシステムは既に様々な形態の文書管理システムとして実現されている。身近な例としては、文書画像を電子ファイルとしてハードディスクなどの大容量を持つ記録媒体に蓄積し、ユーザーからの呼び出しに応じて画面表示したり、印刷を行うことができるようなシステムがある。
一般に、画像はファイルサイズが大きいため、文書を大量に蓄積するとハードディスクの容量が不足し勝ちになる。また、ネットワーク上にハードディスクを置き、これをネットワーク越しに複数の端末から共通利用する場合には、ファイルサイズの大きさがレスポンスタイムの低下を招くことがある。こうした事態を回避するために、画像に圧縮をかけることによりデータ量を小さくして、ファイルを保存する記録媒体にできるだけ多くのファイルが蓄積できるようにし、またネットワークにおけるデータの転送量をできるだけ少なくするような方法を用いている。
この場合、静止画像に対して圧縮をかけることができる方式として知られているＪＰＥＧなどを用いて、画像ファイルのサイズを小さくしている。ＪＰＥＧは、一般的で優れた圧縮方法ではあるが、画像全体を一律に圧縮するので圧縮率はそれほど大きくない。

ＪＰＥＧにおけるような一律に圧縮することによる画像全体の圧縮率の低下に対し、これを改善し、対象とする文書画像の画質の低下を抑えながら画像の圧縮率を高めるために提案された従来の手法として、原画像における特定の領域（文字領域）をその他の領域から分離して、それぞれの画像に異なる圧縮方式による符号化を行う手法がある。
図５は、文書画像にこの従来手法による符号化（圧縮）を行う際の処理過程を説明し、その効果を示す概念図である。図５を参照すると、この従来手法では、原画像の特定の属性を持つ領域を文字領域（図中、破線で枠囲いをした領域）として抽出し、抽出した文字領域よりなる画像とその他の領域よりなる画像（文字領域を消去した画像）とに分離し、分離した文字領域よりなる画像に対し圧縮率の低い可逆圧縮を、その他の文字を消去したカラー画像領域に対しては圧縮率の高い不可逆圧縮を行っている。文字領域の画像は単一色である場合が多いので減色により圧縮率の低い可逆圧縮を用いても圧縮効率が上がり、その他の領域の画像は圧縮率の高い不可逆圧縮を用いて、文字領域に必要な画質の低下を抑えながら全体として圧縮効率を高めている。なお、復号時には、分離した画像を重ね合わせて表示することで原画像を復元している。
図５に示した手法を用いる従来例として下記特許文献１を挙げることができる。特許文献１では、分離した文字領域よりなる画像に対しＭＭＲ方式、その他の文字を消去したカラー画像に対しては一般的に用いられているＡＤＣＴ（離散コサイン変換）方式による圧縮を行っている。
また、図５に示した手法とは異なる手法を用いて文書画像の符号化効率を向上させる符号化装置を示す従来例として下記特許文献２を挙げることができる。特許文献２では、入力画像情報を文字や図形等の単位に領域分割し、文字コードなど、コード情報に置換できる場合はコード情報に置換し、置換できない場合は既に処理した分割領域の画像中から最も類似する画像を選択し、選択した類似画像を用いて予測符号化をするものである。

ところで、電子ファイルとして蓄積する文書画像を管理する場合に、蓄積ファイルに検索情報を付与して登録し、検索や管理に利用するという方法が一般的に採用されている。文書画像の場合には、文書画像中からＯＣＲによって認識された文字列をテキストデータとして求め、これを検索情報として文書画像ファイルに対応付けて管理するという方法によっている。
こうした方法を用いる従来例として下記特許文献３を挙げることができ、この例では、文書本文から文字パターンを切り出すことによりフルテキストサーチ機能を有するシステムを構成するものである。
また、検索情報を用いる上記方法による従来例として下記特許文献４には、文書画像中からＯＣＲによって認識された文字コードを基に文字画像の符号化における予測画像を求め、この文字コードを文書画像の検索情報としても用いること、さらに文字画像と非文字画像とを分けて符号化するようにした画像符号化装置及びファイリング装置が示されている。
特開平３−１０４３８０号公報特開平１０−１２６６２４号公報特開平８−８７５２８号公報特開２０００−６９２９９号公報

しかしながら、画像の圧縮率を高めるために提案された上記特許文献１に示す従来技術は対象とする文書画像の画質の低下を抑えながら画像の圧縮率を高めることが可能であるが、特定属性領域以外の画質はかなり低下する。特定属性以外はあまり重要な情報は含まないと割り切って高度に圧縮するためであるが、特定属性として文字領域を選んだ場合、画像内に写真領域があるとここも高度な圧縮の対象となり、画質は低下する。逆にこれを嫌って圧縮を加減すると今度はファイルサイズが大きくなってしまうという問題がある。また、圧縮により多くのファイルを蓄積することが可能になると、必要なファイルを探し出すことが困難になり、そのための検索手段を必要とするがここには検索手段が用意されていない。
また、画像の圧縮率を高めるために提案された上記特許文献２に示す従来技術は、入力画像情報から文字コードを生成するＯＣＲ処理が完全なら非常に大きな圧縮効果が得られるが、ＯＣＲには必ず誤りが生じる。誤りが少ない画像パターンのみを文字コード化して誤りを低減する方法が提案されているが、まったく誤りを起こさないパターンというのは一般的に存在せず、画像を復元した際に誤った画像が提示される恐れがある。
また、ＯＣＲによって認識された文字のテキストデータを検索情報として用いる上記特許文献３に示す従来技術は、文書画像を保存する際に圧縮を行っておらず、多くの記録領域が必要となる。
また、ＯＣＲによって認識された文字コードを符号化と検索情報の両方に用いる上記特許文献４に示す従来技術は、２値画像を対象としており、例えばカラー画像といった多値画像の圧縮について触れるところがなく、さらに符号化効率を考えて文字画像と非文字画像とを分けて符号化しているが、両画像の画像品質についての考慮がなされていない。
本発明は、上記した従来技術の問題点に鑑み、これを解決するためになされたもので、その解決課題は、文書画像にとって重要な文字情報の符号化による画像品質の低下を抑えながら全体として圧縮効果を高め、多値画像に適用可能な符号化を行うことにある。また、上記の符号化により圧縮された文書画像ファイルに検索キー等の管理情報を付与することにより再利用性を高めることにある。

請求項１の発明は、文字領域と文字領域以外の領域とを有する原文書画像を蓄積するための文書画像ファイルを作成する画像処理装置であって、前記原文書画像から文字領域を抽出する手段と、抽出された前記文字領域に含まれる画像情報に文字認識処理を行なうことでテキストコードを取得する手段と、前記原文書画像から、前記文字領域よりなる第１画像、および前記原文書画像の背景色で埋められた前記文字領域と前記文字領域以外の領域とを有する第２画像を生成する画像生成手段と、各画像を符号化する符号化手段と、取得された前記テキストコード、および符号化された各画像から前記原文書画像を蓄積するための文書画像ファイルを作成する手段と、を備え、前記符号化手段は、抽出された前記文字領域に含まれる画像情報に基づいて、前記第１画像の文字領域には減色処理を行った後に可逆圧縮を行なう一方、前記第２画像の文字領域には、前記文字領域以外の領域より少ない符号量にて不可逆圧縮を行なうことにより、各画像を符号化することを特徴とする画像処理装置である。
請求項２の発明は、画像処理装置によって、文字領域と文字領域以外の領域とを有する原文書画像を蓄積するための文書画像ファイルを作成する画像処理方法であって、前記原文書画像から文字領域を抽出する工程と、抽出された前記文字領域に含まれる画像情報に文字認識処理を行なうことでテキストコードを取得する工程と、前記原文書画像から、前記文字領域よりなる第１画像、および前記原文書画像の背景色で埋められた前記文字領域と前記文字領域以外の領域とを有する第２画像を生成する画像生成工程と、各画像を符号化する符号化工程と、取得された前記テキストコード、および符号化された各画像から前記原文書画像を蓄積するための文書画像ファイルを作成する工程と、を備え、前記符号化工程では、抽出された前記文字領域に含まれる画像情報に基づいて、前記第１画像の文字領域には減色処理を行った後に可逆圧縮を行なう一方、前記第２画像の文字領域には、前記文字領域以外の領域より少ない符号量にて不可逆圧縮を行なうことにより、各画像を符号化することを特徴とする画像処理方法である。
請求項３の発明は、原文書画像を蓄積するための文書画像ファイルを作成する画像処理装置で行う、上記請求項２の各工程における処理をコンピュータに実行させるためのプログラムである。

本発明によれば、第１画像及び第２画像における必要な画像領域の符号化による画像品質の低下を抑えながら全体として圧縮効果を高めることができる。

本発明を添付する図面とともに示す以下の実施形態に基づき説明する。なお、下記実施形態においては、実施形態１では、分離した画像レイヤー部に符号量調整方式による符号化（圧縮）を行い、符号化に合わせて文書画像へテキストデータを付加し、符号化画像とテキストデータを一つの画像ファイルフォーマットにまとめる処理について、又実施形態２においてはコンピュータを利用した実施形態について説明する。
「実施形態１」
本実施形態は、処理対象となる文書画像中の最も大切な情報は文字であるという前提で、重要度の高い文字画像と、それ以外の重要度の比較的低い画像の各画像レイヤーに分離し、分離した文字画像レイヤーには可逆圧縮をかけ、分離した他の画像レイヤーにおいて圧縮率のより高い不可逆圧縮をかける。本実施形態は多値のカラー画像を対象にするので、文字画像には減色した画像に符号化を行うことにより視認性を低下させないで圧縮効果をあげる。さらに、他方の画像レイヤー、即ち文字画像を消去したあとを背景で埋めて生成した画像に対しては、この画像レイヤーにしか存在しない画像（文字画像以外の画像）における画質の低下を抑制するために、この画像が存在する領域に対して背景で埋めた領域（文字領域）よりもより多くの符合量を割り当てる符合量の調整をして符号化を行い、全体の圧縮効率を高めるようにする。
上記の符号化は、特にファイルサイズが大きくなるカラー画像を対象にしているので、高い圧縮効果が求められる。見栄えをあまり落とさずにファイルサイズを小さくするために、この実施形態ではＪＰＥＧ２０００（カラー静止画の標準）に規定される方式による圧縮を用いる。ＪＰＥＧ２０００が規定する方式は、可逆圧縮と圧縮率を可変設定できる不可逆圧縮とを併用することが可能である。また、このＪＰＥＧ２０００方式は、ウェーブレット変換を用いて画像を符号化し、データを圧縮するものであるが、そのときに特定の画像領域に符号を多く割り当て、別の領域に割り当てる符号を減らす調整が可能である。符号が多く割り当てた部分は高品質の画像が得られるので、大切な場所に多くの符号を割り当てれば画質とファイルサイズの面で効率的な圧縮が可能となる。

図３は、文書画像に本実施形態のＪＰＥＧ２０００の符号化方式による圧縮を行う際の処理過程を説明し、符号量調整の効果を示す概念図である。
図３を参照すると、原カラー画像の特定の属性を持つ領域を文字領域（図中、破線で枠囲いをした領域）としてその領域を抽出し、抽出した文字領域よりなる画像レイヤーとその他の領域よりなる画像（文字領域を消去した画像）レイヤーとに分離し、分離した文字画像レイヤーに対し減色を施した後、その画像に対しては高画質を保証するために圧縮率の低い可逆圧縮を行う。
また、分離した他方の画像レイヤーである、文字領域以外の画像（文字領域を消去した後を背景で埋めた画像）に対しては、圧縮率の高い不可逆圧縮を行う。本実施形態では、この画像レイヤーにしか存在しない画像（文字画像以外の写真イメージ等の画像）における画質の低下を抑えるために、ここにＪＰＥＧ２０００の符号化によって可能となる領域を指定して行う符合量調整方式を適用する。即ち、符合量の割り当てを文字領域（図中、破線で枠囲いをした領域）に少なく、文字領域以外に多く割り当てるようにする。この符号量調整方式による符号化（圧縮）を行うことにより、圧縮された画像を復号化したときには、調整の結果として、図に示すように、この画像レイヤーにしか存在しない文字以外の写真イメージ等の画像がより高品質を保ち、このレイヤーに取っては重要ではない文字領域は低品質になることを示している。このように、より重要度の高い写真イメージ等の画像部分を高品質に保ったまま、ファイルサイズの増大を抑制できる点がメリットとなる。
領域を指定して符合量の割り当ての設定を可能にするこの符号量調整方式を用いる場合に、領域を指示して設定をする必要があり、本例では文字領域とその他の領域を指定するので、文書画像中の文字領域の位置情報を取得し、設定する。文字領域の位置情報を取得する方法としては、原文書画像を解析し、解析結果から文字領域を特定する方法を用いることが可能である。また、文書が定型のアンケート用紙などの場合には、アンケートの記入欄の場所が予め規定されている。そこで、画像解析によらずに規定された記入欄の情報を予め保存しておき、この情報をもとに処理時に条件設定を行う方法を用いることによって、実施することも可能である。

また、本実施形態は、処理対象となる文書画像を符号化して圧縮をかける処理を行う際に、ファイルサイズの長大化の抑制を図りながら検索キー等の管理情報を付与することを意図し、そのための手段を提供するものである。即ち、上記したＪＰＥＧ２０００による符号化方式による符号化（圧縮）を行う際にその処理過程に加えて、検索キーとして利用可能なテキストデータを符号化（圧縮）された画像データに付与する処理を行うことにより、この実現を図るものである。
本実施形態に示すＪＰＥＧ２０００に準拠する符号化方式では、約６５ＫＢの任意のデータでコメント挿入が可能なデータ構成をとっているので、ここにテキストデータを付加することによりこれを管理情報として用いることが可能となる。付加するテキストデータは、下記の実施形態に示すように、文字認識手段によって対象とする文書画像を文字認識処理して得られたデータを付加することにより、自動化が可能である。なお、付加するテキストデータの入力の方法として、ユーザーが原画像を見ながら手入力する方法によって行っても良い。テキストデータを付加することにより、キーワードによる検索も可能になり、原文書画像を圧縮することにより大量の文書を保管することができるようになった場合にも、所望のものを探し出すことが可能になり、利便性が向上する。

図１は、本実施形態に係る画像処理フローを示すチャートであり、図２は、本実施形態に係る画像処理装置の構成を示すブロック図である。
先ず、図２を参照して本実施形態に係る画像処理装置の構成を説明すると、画像取得手段１０１は、処理対象の原カラー文書画像を取得、格納しておく手段（例えば、スキャナ、撮像装置などの原稿読み取り装置或いは読み取り画像データを受信する手段により実施し得る）であり、取得した原画像データを特定属性領域抽出手段１０２と、文字認識手段１０７とに送出する。
特定属性領域抽出手段１０２は、原文書画像の属性を解析しその属性を持つ領域を抽出する手段で、本例では文字属性を持つ領域を抽出する手段である。抽出結果は、文字領域画像よりなる画像レイヤー（以下「第１画像」という）を生成するために第１画像生成手段１０５と、文字領域以外の画像（文字領域を消去した後を背景で埋めた画像）よりなる画像レイヤー（以下「第２画像」という）を生成するために第２画像生成手段１０３と、符合量の割り当てに使用するために符合量割り当て手段１０４に送出する。なお、文字領域情報は文字認識処理にも用いるので、文字認識手段１０７に送出し、領域抽出手段を共通化してもよい。また、文書が定型で、文字記入欄等の領域が規定されている場合には、特定属性領域抽出手段１０２における領域情報の抽出手段に代えて、装置に予め保持しておいた文字記入欄の領域データを取り出して、設定する操作を行う手段で置き換えることにより実施することが可能である。

第１画像生成手段１０５は、原画像から分離した第１画像（文字領域画像レイヤー）を生成する手段で、生成した画像を符号化手段１０６に送出する。
第２画像生成手段１０３は、原画像から分離した第２画像（文字領域以外の画像レイヤー）を生成する手段で、文字以外の写真イメージ等の画像を得るために文字領域を消去し、その後を背景で埋める処理を行う。第２画像に対しては、領域を指定して符合量を割り当てる方式で符号化を行うので、生成した画像を符合量割り当て手段１０４と符号化手段１０６とに送出する。
符合量割り当て手段１０４は、特定属性領域抽出手段１０２から受け取る文字領域情報と第２画像生成手段１０３から受け取る第２画像とに基づいて、文字領域とそれ以外の領域について各領域の大きさと画像データ内容に応じた符合量の割り当て行い、割り当てた符合量の設定を符号化手段１０６に送出する。
符号化手段１０６は、第１画像生成手段１０５から受け取る第１画像に可逆圧縮の符号化を行い、第２画像生成手段１０３から受け取る第２画像には符合量割り当て手段１０４が各領域に割り当てた符合量に従って高度不可逆圧縮の符号化を行って、符号化したデータをテキストデータ付加手段１０８に送出する。
文字認識手段１０７は、画像取得手段１０１から受け取る文書画像をもとに文字認識処理を行い（なお、文字領域情報を特定属性領域抽出手段１０２から受け取る方法によっても良い）、認識結果として得たテキストデータをテキストデータ付加手段１０８に送出する。
テキストデータ付加手段１０８は、文字認識手段１０７からのテキストデータと符号化手段１０６から受け取る符号化した各画像とを画像フォーマットにまとめ、文書画像ファイルを作成する。

次に、本実施形態に係る画像処理手順を図１のフローチャートを参照して説明する。なお、以下の説明は、上記した画像処理装置（図２）の動作説明を兼ねる。
図１のフローによると、まず、処理対象となる原文書画像を画像取得手段１０１によって取得する（ステップＳ１０１）。なお、ここで取得される画像は、ＲＧＢ３色の色成分を持つカラー画像である。
次に、第１画像（文字領域画像レイヤー）と第２画像（文字領域以外の画像レイヤー）を生成し、符号量の調整を行う領域情報を得るために、前段で取得した原文書画像から特定属性領域抽出手段１０２によって、文字領域等の特定の属性をもつ領域を抽出する（ステップＳ１０２）。文字領域の抽出は、文字認識処理の前処理として行われる文字領域識別技術を適用する。なお、得た結果を文書画像に付加するテキストデータを得るために行う後段の文字認識に用いるようにしてもよい。
ここで適用する文字領域識別技術は、例えば、同色とみなせる画素、或いは黒画素をランとして抽出し、それらの連結成分を求め、得た連結成分を文字候補とみなして近接する連結成分同士を統合して文字行を生成する、といった方法によって文字領域の抽出を行う（例えば、特開２００２−２８８５８９号公報、特開平６−２００９２号公報、参照）。また、抽出する文字領域がアンケートの文字記入欄などである場合は、記入場所が既知量として扱えるので、その情報を別に持っておき、使用時に取り出して、設定する操作を行う手段により文字領域情報を得るようにしても良い。

次に、第１画像生成手段１０５によって前段で抽出された文字領域から文字を構成する画素を分離することにより第１画像を生成する（ステップＳ１０３）。文字画像の部分は減色しても視認性はあまり低下しないので、減色した画像を生成することでファイルサイズの圧縮につなげるようにする。なお、文字の分離及び減色処理は既存の技術を適用することにより実施可能である。
次いで、生成された第１画像に対しＪＰＥＧ２０００に準拠する符号化手段１０４によって符号化を行う（ステップＳ１０４）。ＪＰＥＧ２０００の符号化方式では、可逆圧縮と不可逆圧縮の両方に対応可能であり、本実施形態においては高画質を保つ必要がある文字画像に対して可逆圧縮を行う。ここでは、文字画像に対しては前段で減色処理を行っているので、圧縮率の低い可逆圧縮を行ってもファイルサイズの増大につながらない。

一方、文字以外の画像については、第２画像生成手段１０３によって第２画像の生成を行う（ステップＳ１０５）。第２画像は、ステップＳ１０２で抽出された文字領域情報を用いて原画像における文字領域を消去して、消去後に残る文字以外の写真イメージ等の画像よりなる画像を生成する。このときに用いる手法は、文字を構成する画素を消去し、文字画素部分を背景となっている周囲の色などで埋めることにより、文字画像を分離したもう一つの画像として生成する。
ここで生成される第２画像は、文字を含まない画像であり、あまり重要な情報を含んでいない画像であるという扱いをするので、画質をある程度犠牲にして高度に不可逆圧縮を行う符号化方式を適用することでファイルサイズをより小さくする。しかし、あまり重要ではないといっても写真イメージ等の意味のある情報が含まれている場合も多く、できればこれらの視認性もよいに越したことはない。
そこで、ステップＳ１０２で抽出された文字領域に含まれる画像情報に基づいて、符合量割り当て手段１０４によって符号量の割り当てを行う（ステップＳ１０６）。
ＪＰＥＧ２０００に準拠する方式では、符号化の際に画像全体の符合量が設定できる上に、設定枠の中で画質を低下させたくない特定の領域に対して他の領域に対するよりも多くの符合量を割り当てる調整が可能である。特定の領域としての文字領域に含まれる画像情報を前段の抽出ステップによって得ているので、この画像情報に含まれる文字領域とそれ以外の領域について各領域の大きさと画像データ内容に応じてそれぞれの領域に対し割り当てる符合量を決める。
本実施形態では、文字領域以外の領域の画像に対して多くの符号を割り当てるので、その分、文字領域（背景を埋め込んだ部分）に割り当てる符号は減ることになる。なお、ここでは文字領域以外の領域に多くの符号を割り当てたが、逆に少ない符号量を割り当てるという方法をとるようにしても良い。例えば、特定領域としてノイズばかりの領域が抽出された場合には、ここには符号量をあまり割かず、ノイズ領域以外の他の部分に多くの符合量を割くことで、圧縮の効率を上げることも可能である。
符合量の割り当てを行った後、第２画像に対しＪＰＥＧ２０００に準拠する符号化手段１０６によって高度不可逆圧縮の符号化を行う（ステップＳ１０７）。ＪＰＥＧ２０００の符号化方式による不可逆圧縮は、ウェーブレット変換を用いて割り当てた符合量に従い各々の領域のカラー画像データを圧縮する。文字領域以外の領域の画像に対して多くの符号を割り当てるので、文字領域（背景を埋め込んだ部分）はその分だけ符合量の割り当てが少なく圧縮率が高い。
このように、指定領域への符合量の割り当てが可能なウェーブレット変換の特性を利用することにより、文字があった場所にはほとんど情報がないのでここにはあまり符号を割り当てず、その他の場所には、写真など意味のある情報がある可能性を考えて、多めに符号を割り当てた結果、写真などの意味のある領域では画質の低下が抑制されるうえ、ファイルサイズの増加も抑えられることになる。

次に、文字認識手段１０７により、ステップＳ１０１で得られた原文書画像をもとにその中の文字領域に含まれる画像情報から文字を認識する処理を行い、認識結果として得た文字・文字列をテキストデータとして表現する（ステップＳ１０８）。ここで用いる文字認識技術は、基本的には対象領域から文字とみなせる画像を切り出し、辞書と照合することにより文字を認識し、対応するテキストデータへの変換を行う既存の技術を適用することにより実現可能である。なお、文字認識の前処理により求める文字領域情報は、文字属性領域を抽出するステップＳ１０２の結果を用いても良い。
ただ、本実施形態では認識した文字はテキストデータとして文書画像ファイルに付加して、文書画像の検索、管理情報として用いるという目的があり、またＪＰＥＧ２０００に準拠する符号化方式のデータ構成におけるコメント挿入箇所を用いるという制約条件を考慮して、一定のデータ量で文書が識別できる例えばタイトルのような文字列を選ぶと良い。なお、ステップＳ１０２で得られる領域情報が予め設定された文字記入欄である場合は、この領域情報を利用して文字認識処理をおこなう原画像内の範囲を限定することができ、処理の高速化や不要なテキストが付加されるのを防止することに有効である。

符号化及び文字認識処理を行った後、テキストデータ付加手段１０８によって、ステップＳ１０４で符号化された第１画像データ、ステップＳ１０７で符号化された第２画像データの各画像データと、文字認識ステップＳ１０８で得た文字・文字列のテキストデータとを一つの画像フォーマットにまとめることにより文書画像ファイルを作成する（ステップＳ１０９）。
ＪＰＥＧ２０００の場合は、上記第１画像、第２画像のような複数の画像レイヤーを同時に保持できる。従って、第２画像の上に第１画像を重ね合わせ表現することも可能であるから、別々に符号化されていても復号化すれば重ねた画像として表現できる。
また、ＪＰＥＧ２０００により符号化された画像ファイルフォーマットにおけるコメント挿入箇所を用いてファイルへのテキストデータの付加を行う。
テキストデータを付加した後、符号化された画像にはファイルとして扱うために必要となる処理が施され、管理可能な形態で保存場所に蓄積したり、或いは通信インターフェイスを介して利用側に転送するための出力を行う（ステップＳ１１０）。

「実施形態２」
本実施形態は、汎用のコンピュータ（処理装置）を用いて上記実施形態１に示した画像処理フロー、即ち文字とその他の画像属性により分離したカラー画像に可逆圧縮と不可逆圧縮をかけ、不可逆圧縮をかけた画像に対して符号量調整方式による符号化（圧縮）を行い、さらに文字画像からテキストデータを抽出し、上記処理の結果として得られる符号化画像データとテキストデータを一つの画像ファイルフォーマットにまとめる処理フローに従った処理をプログラムで実行する実施形態を示すものである。
図４は、本実施形態の処理装置の構成を示す。図４に示すように、本実施形態は、構成要素としてＣＰＵ４０１、メモリ４０２、ハードディスクドライブ４０３、入力装置４０４、ＣＤ−ＲＯＭドライブ４０５、ディスプレイ４０６、マウスなどを用いる。また、ＣＤ−ＲＯＭドライブ４０５が用いるＣＤ−ＲＯＭなどの記録媒体４０７には、上記実施形態１に示した画像を処理する手段が有する処理機能を実現させ、或いは画像処理フローに示したステップにおける処理手順を実行させるためのプログラム（ソフトウェア）が記録されている。
処理対象の文書画像は、スキャナー等の入力装置４０４により入力され、例えばハードディスク４０３などに格納され、そこから取り出されて上記画像処理が施された後、再びハードディスク４０３に保存される。ＣＰＵ４０１は、記録媒体４０７から上記した処理機能、手順を実現するプログラムを読み出し、プログラムに従って対象文書画像に符号化（圧縮）処理、符号化画像と抽出テキストデータをまとめてファイル化する処理を実行する。また、ハードディスク４０３に保存された画像は、ディスプレイ４０６に出力することにより、処理結果を確認することが可能である。

本発明に係る画像処理フローの１形態を示すチャートである。本発明に係る画像処理装置の１実施形態の構成を示すブロック図である。文書画像にＪＰＥＧ２０００の符号化を行う際の処理過程を説明し、符号量調整の効果を示す概念図である。汎用コンピュータを利用した実施形態を示す。従来手法により符号化を行う際の処理過程を説明し、その結果を示す概念図である。

符号の説明

１０１・・・画像取得手段、１０２・・・特定属性領域抽出手段、
１０３・・・第２画像生成手段、１０４・・・符合量割り当て手段、
１０５・・・第１画像生成手段、１０６・・・符号化手段、
１０７・・・文字認識手段、１０８・・・テキスト付加手段、
４０１・・・ＣＰＵ、４０２・・・メモリ、
４０３・・・ハードディスクドライブ、４０４・・・入力装置、
４０５・・・ＣＤ−ＲＯＭドライブ、４０６・・・ディスプレイ、
４０７・・・記録媒体。

Claims

文字領域と文字領域以外の領域とを有する原文書画像を蓄積するための文書画像ファイルを作成する画像処理装置であって、
前記原文書画像から文字領域を抽出する手段と、
抽出された前記文字領域に含まれる画像情報に文字認識処理を行なうことでテキストコードを取得する手段と、
前記原文書画像から、前記文字領域よりなる第１画像、および前記原文書画像の背景色で埋められた前記文字領域と前記文字領域以外の領域とを有する第２画像を生成する画像生成手段と、
各画像を符号化する符号化手段と、
取得された前記テキストコード、および符号化された各画像から前記原文書画像を蓄積するための文書画像ファイルを作成する手段と、
を備え、
前記符号化手段は、抽出された前記文字領域に含まれる画像情報に基づいて、前記第１画像の文字領域には減色処理を行った後に可逆圧縮を行なう一方、前記第２画像の文字領域には、前記文字領域以外の領域より少ない符号量にて不可逆圧縮を行なうことにより、各画像を符号化することを特徴とする画像処理装置。
画像処理装置によって、文字領域と文字領域以外の領域とを有する原文書画像を蓄積するための文書画像ファイルを作成する画像処理方法であって、
前記原文書画像から文字領域を抽出する工程と、
抽出された前記文字領域に含まれる画像情報に文字認識処理を行なうことでテキストコードを取得する工程と、
前記原文書画像から、前記文字領域よりなる第１画像、および前記原文書画像の背景色で埋められた前記文字領域と前記文字領域以外の領域とを有する第２画像を生成する画像生成工程と、
各画像を符号化する符号化工程と、
取得された前記テキストコード、および符号化された各画像から前記原文書画像を蓄積するための文書画像ファイルを作成する工程と、
を備え、
前記符号化工程では、抽出された前記文字領域に含まれる画像情報に基づいて、前記第１画像の文字領域には減色処理を行った後に可逆圧縮を行なう一方、前記第２画像の文字領域には、前記文字領域以外の領域より少ない符号量にて不可逆圧縮を行なうことにより、各画像を符号化することを特徴とする画像処理方法。
原文書画像を蓄積するための文書画像ファイルを作成する画像処理装置で行う、
上記請求項２の各工程における処理をコンピュータに実行させるためのプログラム。