以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の実施形態1−1に係る画像処理装置(画像圧縮装置)の概略構成を示すブロック図である。図1に示すように、画像処理装置の画像処理は、制御部1019により制御される。スキャナ1001は、入力画像(原稿画像)に対応した入力画像信号1010を出力する。レイアウト解析部1002は、所定のレイアウト解析技術を用いて、入力画像信号1010に含まれたオブジェクトのレイアウトを解析し、オブジェクト配置情報1011を出力する。画像部品化部1003は、所定の画像部品化技術とオブジェクト配置情報1011を用いて、画像信号1010を部品画像1012に変換する。
文字認識部1004は、所定の文字認識技術を用いて、部品画像1012に対応した文字コード1013を出力し、文字分析部1005は、文字コード1013から文字分析情報1014を算出する。
画像辞書化部1006は、所定のビットマップ辞書化技術と文字分析情報1014を用いて、部品画像1012に対応した画像辞書1015と辞書インデックス1015を出力する。画像符号化部1007は、画像辞書1015と辞書インデックス1015に対応した符号データ1017を出力する。画像ファイル部1008は、文字コード1013と符号データ1017に対応した検索可能圧縮ファイル1018を生成する。
図2は、レイアウト解析部1002の概略構成の一例を示すブロック図である。縮小処理部1002−1は、入力画像信号1010を既定の縮小率で縮小し、縮小画像1002−4を出力する。連結画素探索部1002−2は、所定のチェインアルゴリズムで8方向探索して、画素の連結した領域の左上座標、左下座標、右上座標、右下座標である領域情報1002−5を出力する。領域情報1002−5の座標は、縮小処理部1002−1で縮小処理した座標系であるので、領域座標変換部1002−3は、領域情報1002−5を、入力画像1010と同じ座標系に変換し、オブジェクト配置情報1011として出力する。
図3は、レイアウト解析部1002の動作の一例を示す図である。図3に示すように、入力画像信号1010に対応した入力画像の文字領域が一つの塊で部品画像として生成されているのがわかる。
図4は、画像部品化部1003の概略構成の一例を示す図である。縦方向画素カウント部1003−1、横方向画素カウント部1003−2は、オブジェクト配置情報1011の座標単位で、画像信号1010を分割し、それぞれ縦軸、横軸への画素カウントの射影を算出し、縦方向の射影1003−6、横方向の射影1003−7として出力する。比較器1003−3は、射影値の分散の大きいほうを選択するよう、セレクタ1003−4を操作するよう制御信号1003−8を出力する。画素分割部1003−5は、選択された射影値を用いて、入力画像信号1010を分割して部品画像1012を出力する。
図5は、部品画像算出の一例を示す図である。画像部品化部1003は、縦方向の射影1003−6と横方向の射影1003−7を比較し、分散の大きい横方向の射影を選択し、画素分割部1003−5で、射影に対して閾値処理を行うことで、横方向の分割座標を算出し(点線)、図5に示す「A」「B」「C」「D」「E」…で示された単位で部品画像1012として出力する。
図6は、文字認識部1004の概略構成の一例を示す図である。文字マッチング部1004−1は、入力された部品画像1012を変倍・2値化・特徴量算出などを行い、その特徴量を文字コード辞書1004−2のデータと比較し、最も一致度が高い辞書の文字コードを文字コード1013として出力する。
図7は、文字分析部1005の概略構成の一例を示す図である。キーワードマッチング部1005−1は、文字コード1013を所定文字数バッファリングして、キーワードTABLE1005−2から所定文字数からなるキーワード1005−3を読み出しマッチングして、キーワードTABLE1005−2に登録されているキーワード1005−3と一致しているかどうかを文字分析情報1014として出力する。
図8は、画像辞書化部1006の概略構成の一例を示す図である。ビットマップマッチング部1006−1は、上記辞書化の過程で保持したビットマップ1006−4が登録されているビットマップ辞書1006−2と、マッチングパラメータ1006−5が格納されているパラメータTABLE1006−3とからデータを受け取る。マッチング部1006−1は、所定の位置シフトとマッチング処理を組み合せて、部品画像1012がビットマップ辞書1006−2に存在するかどうか判断し、存在すれば、その辞書インデックス(辞書のインデックスと画像上の部品画像の位置情報)1016を出力する。マッチング部1006−1は、対応するビットマップパターンが辞書に無ければ、その部品画像1012を辞書に登録してインデックスを付与する。
このマッチング動作時に、文字分析情報1014に応じてその属性に応じたマッチングパラメータ1006−5がパラメータTABLE1006−3から読み出されることで、文字の情報レベルに応じた圧縮が行なわれる。なお、キーワードマッチング部1005−1が所定文字数分バッファリングして文字列として文字情報分析する仕組みであるので、それに連動してビットマップマッチング部1006−1も部品画像1012をバッファリングして、分析結果と連動して処理する構成を取っている。
このようにして、入力原稿の頁内の全オブジェクトに対する辞書化が終了すれば、辞書情報を画像辞書1015として出力する。
そして画像符号化部1007は、画像辞書1015を所定の画像圧縮技術(例えばランレングス)で圧縮し、辞書インデックス1016と合わせて符号データ1017として出力し、画像ファイル部1008で文字コード1013と符号データ1017からなる検索可能な圧縮ファイル1018を生成する。
図9A及び図9Bは、文字分析情報とマッチング精度パラメータの関係の一例を示す図である。図9Aに示すように、キーワードTABLE1005−2には、第1のグループに属する情報が登録される。つまり、キーワードTABLE1005−2には、数字とアルファベットを間違い易い”o”、”l”、”0”、”1”と、会社名”XYZ.CoLtd”とアルファベット部を数字に間違えた”XYZ.C0Ltd”が登録されており、夫々文字分析情報1、2、登録外のデータは0となっている。
図9Bに示すように、パラメータTABLE1006−3では文字分析情報1014に応じて
0:非可逆(通常のマッチング精度のパラメータ)
1:準可逆(通常より若干精度を高めた、完全一致に近い結果が得られるパラメータ)
2:可逆(ぴったり一致したもののみを一致したとみなすパラメータ)
となっている。このため、会社名の様な重要な情報は可逆(第1の圧縮パラメータの圧縮)で、数字とアルファベットなどOCRで間違い易いがユーザが見て間違いと判る可能性があるデータは準可逆(第1の圧縮パラメータより画像劣化をする可能性のある第2の圧縮パラメータの圧縮)、それ以外は非可逆(第2の圧縮パラメータより画像劣化をする可能性のある第3の圧縮パラメータの圧縮)と、文字の情報レベルに応じてマッチング精度を変えることで、圧縮による情報の劣化をカバーすると共に高圧縮が実現できる。なお、本例では会社名等もOCRで間違える可能性を考慮して2重に登録している。なお、圧縮パラメータは、圧縮方法や劣化具合を設定できるパラメータとする。
以上により、OCRの結果から算出される情報のレベルに応じて、圧縮パラメータを制御できるので、画質・情報のバランスの取れた高圧縮ファイルが生成できる。
また、上記実施形態では、圧縮方式は辞書化方式で統一して記述したが、可逆圧縮は辞書マッチングを介さずに、直接圧縮する構成にして圧縮速度を向上する方式を取ることも可能である。
また、文字分析情報はキーワードを元に、有無という単純なルールで構成したが、分析情報の構成としては、例えば”¥”や”$”という特定のキーワードに続く数字又は数列(長さは不定)というルールを適用すれば、単なる数字でなく金額という概念の情報として制御可能になる。
またOCRでは実際の文字よりも文字数が増減する可能性があるが(例えば”XYZCoLtd”等)、それらを考慮してキーワード登録をしてより確実性を増すことも可能であるし、OCRの確からしさ情報を利用して、その様な候補に対するマッチング範囲を制御して高速化することも可能である。
更には、アルファベット等の英字、ひらがな、漢字等の言語種別に応じて、辞書化対象に入れるか、入れないか、マッチング精度変える等の構成や、言語種別において、例えばアルファベットの”m”や”n”の出現頻度多さと間違い易さのバランスで制御することで画質と情報のバランスを考慮した制御を実現できる。
また、画像部品化部で部品化したデータを文字認識、画像辞書化で共通に使用したが両者の対象文字が特定できれば、当然別々の構成を取ることも可能であり、レイアウト解析方法や、文字認識の方法、辞書化や圧縮方法等は本実施形態に限定されるものではなく、パラメータの制御方法・可逆非可逆などの適用方法も本実施形態に限定されるものではない。
図10は、本発明の実施形態1−2に係る画像処理装置(画像圧縮装置)の概略構成を示すブロック図である。図10に示す画像処理装置において、実施形態1−1と共通するブロックには、図1の画像処理装置に付与した符号と同一の符号を付与している。
文字分析部1005A、文字分析部1005Aからの出力である文字分析情報1014A、画像ファイル部1008A、検索可能な圧縮ファイル1018Aが、実施形態1−1と若干異なる点である。また、MMR圧縮部1009A、全面圧縮データ1019Aが、追加されている。
図11は、文字分析部1005Aの概略構成の一例を示す図である。キーワードTABLE1005A−2が、実施形態1−1と異なる。図12は、キーワードTABLE1005A−2のTABLEデータの一例を示す図である。図12に示すように文字分析情報1014Aは、0〜3の4レベルで示される。実施形態1−1では0〜2の3レベルであったが、実施形態1−1では0〜3の4レベルである。キーワードTABLE1005A−2には、”Confidential”及び、その単語”Confidential”のOCRで間違えるリスクの高いキーワードが登録され、これら登録キーワードに対してレベル3(文字分析情報1014A)が設定される。
MMR圧縮1009Aは、所定の2値圧縮方法で全面2値画像として、画像全体を可逆圧縮し、全面圧縮データ1019Aとして出力する。画像ファイル部1008Aは、文字分析情報1014Aが”3”を示したとき以外は、実施形態1−1と同様、符号データ1017と文字コード1013から検索可能な圧縮ファイル1018Aを生成する。文字分析情報1014Aが”3”を示したときは、全面圧縮データ1019Aと文字コード1013から検索可能な圧縮ファイル1018Aを生成する。
以上により、”Confidential等の文書全体が非常に重要である可能性がある文書を情報劣化のリスクのある圧縮方式でなく、劣化の無い圧縮方式で圧縮ファイルを生成できるので、画質と情報のバランスを考慮した圧縮ファイルを提供できる。
以下に、上記した実施形態1−1と1−2についてまとめる。
(1)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像をパラメータで可逆、非可逆等の圧縮性能を制御できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮性能を制御する。文字認識結果で圧縮率を制御するので、高画質・高圧縮を実現できる。
(2)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像を部品化し部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像辞書化部は該文字分析結果に応じて辞書化精度を制御する。文字認識結果で辞書化方式のマッチング度を制御するので、高画質・高圧縮を実現できる。
(3)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像を部品化し部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力するか辞書化せずに独立画像として出力する画像辞書化部と、該画像辞書と該辞書インデックス及び該独立画像を符号化する画像符号化部持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像辞書化部は該文字分析結果に応じて画像辞書か独立画像を選択出力する。文字認識結果でインデックス/非インデックス符号化を切り替えるので高画質・高圧縮・高速を実現できる。
(4)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像をパラメータで可逆、非可逆等の圧縮性能を制御できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮性能を制御し、該文字分析結果とはキーワードや文字種別等の特定の文字である。文字認識結果で特定のキーワードは可逆になる確率を高めるので、高画質・高圧縮を実現できる。
(5)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像をパラメータで可逆、非可逆等の圧縮性能を制御できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮性能を制御し、該文字分析結果とはキーワードや文字種別等の特定の文字及びその文字に似た文字である。文字認識結果で特定のキーワード及びそれに近似したデータとそれ以外で圧縮を制御するので、OCRの精度も考慮して、高画質・高圧縮を実現できる。
(6)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像をパラメータで可逆、非可逆等の圧縮性能を制御できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮性能を制御し、該文字分析結果とは言語種別である。文字認識結果で言語種別に応じて圧縮を制御するので、英語・ひらがな等言語を表現する文字の特性に応じた制御が出来るので、高画質・高圧縮を実現できる。
(7)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像をパラメータで可逆、非可逆等の圧縮性能を制御できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮性能を制御し、該文字分析結果とは言語種別と該言語における当該文字の出現頻度である。文字認識結果で言語種別に応じて圧縮を制御するので、英語・ひらがな等言語を表現する文字とその言語における文字の特性に応じた制御が出来るので、高画質・高圧縮・高速を実現できる。
(8)画像処理装置は、画像を入力する画像入力部と該画像を文字認識し文字情報を出力する文字認識部と、該画像を異なる圧縮方式で圧縮できる画像圧縮部を持つことを特徴とする画像処理装置であって、該文字情報を分析する文字分析部を持ち、該画像圧縮部は該文字分析結果に応じて圧縮方式を制御する。文字認識結果で辞書化方式のマッチング度を制御するので、高画質・高圧縮を実現できる。
以上により、例えば、文字認識結果の文字コード情報から、特定キーワードやOCRと辞書マッチング双方で欠落し易い“l”や“1”等の抽出された文字コードが属するビットマップは可逆圧縮する。更には、言語の種別に応じて辞書化精度を制御し、字数の多い漢字などは辞書化対象からはずし、高圧縮化する。
以上により、抽出した文字情報に応じて画像品質を制御できるので、重要な情報の欠落を避けることができる。重要な情報とは、登録キーワード、数字、間違え易い文字・数字である。また、圧縮率向上のため、画数の多い漢字・漢字そのもの、言語で辞書マッチングしない。もしくは、言語を判定して、その言語で出現頻度の多い字の精度をゆるく(高圧縮)したり、厳しく(高画質)したり、インデックス張替え(高速)したりする。辞書化方法は、マッチング精度を厳しく(可逆辞書化)したり、辞書化対象からはずしたり(非辞書化圧縮)する。更に、登録キーワードを見つけると、JBIG2だけでなく全般の圧縮率を低くしたり、全面JPEGで処理したりする。
以下、非辞書化と辞書化について例示する。
爨→画数が多い(文字コードで判断)ため非辞書化
丸→画数が少ないため辞書化
○、o、O、0→マッチングを間違うと(OCR・辞書共)意味が異なるため非辞書化で可逆圧縮
1,2,3…→マッチングを間違うと重大なミスにつながるので非辞書化し可逆圧縮
¥、$のある前後の文字→マッチングを間違うと重大なミスにつながるので非辞書化し可逆圧縮
秘・キーワード・会社名・人物名→マッチングを間違うと重大なミスにつながるので非辞書化し可逆圧縮
アルファベット・数字・ひらがな・カナ→辞書化、漢字→非辞書化
なお、上記した可逆圧縮とは第1の圧縮パラメータの圧縮であり、元の画像を100%に限りなく近い状態で再現することができる圧縮である。準可逆圧縮とは第1の圧縮パラメータより画像劣化をする可能性のある第2の圧縮パラメータの圧縮であり、元の画像をほぼ忠実に再現することができる圧縮である。非可逆圧縮とは第2の圧縮パラメータより画像劣化をする可能性のある第3の圧縮パラメータの圧縮であり、元の画像をおよそ忠実に再現することができる圧縮である。なお、圧縮パラメータは、圧縮方法や劣化具合を設定できるパラメータとする。
図13は、本発明の実施形態2−1に係る画像処理装置(画像圧縮装置)の概略構成を示すブロック図である。図13に示すように、画像処理装置の画像処理は、制御部2006により制御される。スキャナ2001は、入力画像(原稿画像)に対応した入力画像信号2010を出力する。レイアウト解析部2002は、所定のレイアウト解析技術を用いて、スキャナ2001から入力された画像信号2010に対応したオブジェクト配置情報2011とオブジェクト属性情報2012を出力する。
画像部品化部2003は、オブジェクト配置情報2011を用いて、入力画像信号2010に対応した部品画像2013を出力する。
画像辞書化部2004は、所定のビットマップ辞書化技術とオブジェクト属性情報2012を用いて、部品画像2013に対応した画像辞書2014と辞書インデックス2015を出力し、画像符号化部2005で符号データ2016を生成出力する。
図14は、レイアウト解析部2002の概略構成の一例を示すブロック図である。縮小処理部2002−1は、入力画像信号2010を既定の縮小率で縮小し、縮小画像信号2002−6を出力する。連結画素探索部2002−2は、所定のチェインアルゴリズムで8方向探索して、画素の連結した領域の左上座標、左下座標、右上座標、右下座標である領域情報2002−7を出力する。領域情報2002−7の座標は、縮小処理部2002−1で縮小処理した座標系であるので、領域座標変換部2002−3は、領域情報2002−7を、入力画像2010と同じ座標系に変換し、オブジェクト配置情報2011として出力する。
一方、オブジェクト属性判定部2002−4は、入力画像の頁内の領域情報2002−7を集計して、TABLE2002−5から読み出したオブジェクト判定データ2002−8と比較し、オブジェクト属性情報2012を出力する。
図15は、オブジェクト属性判定部2002−4の動作を除いた領域検出動作の一例を示す図である。
入力画像2010を縮小処理することで、縮小画像2002−6では、文字等が連結した画素になることがわかる。この画像に対して所定のチェインアルゴリズムを用いて、連結した領域を算出すると、図15の点線で示したような各固まり毎の複数の領域2002−7が算出される。この領域2002−7の座標を変換すれば、座標系を縮小前に戻したオブジェクト配置情報2011が算出される。
図16は、オブジェクト属性判定部2002−4の概略構成の一例を示す図である。領域情報2002−7を用いて、各領域毎の高さ2002−4−4=Hを以下のように求める。
H=MIN(|左上X座標−右下X座標|、|左上Y座標−右下Y座標|)
入力画像の頁内の各オブジェクトの高さの中央値を領域高さ中央値2002−4−5として算出する。
領域距離算出部2002−4−2は、各領域のセンター座標2002−4−6を求め、各センター座標毎に最も近いセンター座標2002−4−7と2002−4−8を求め、判断部2002−4−3に出力する。
判断部2002−4−3では、各領域毎の高さ2002−4−4と領域高さ中央値2002−4−5の差分を取り、既定値より大きいかどうか領域高さ差分として計算する。
センター符号、センター差分はそれぞれ以下の式で算出する。
差分A=2002−4−6 − 2002−4−7
差分B=2002−4−6 − 2002−4−8
センター符号=差分A×差分B の符号
センター差分=| |差分A|−|差分B| |
即ち、センター符号は、処理領域の上下もしくは左右夫々に近いオブジェクトが存在すれば負、下に二つ等と同一方向に並んだときは正となる。
センター差分は、各オブジェクトと対象オブジェクトの距離の差が2つとも大きいか差がある状態を算出する。
そこで、図17に示すオブジェクト判定データを用いて、オブジェクトの属性を判定し、オブジェクト属性情報2012として出力する。
図18は、オブジェクトの属性判定動作の一例を示す。図18中の各斜線が判定対象オブジェクトであり、obj1、obj2が選択された最も近い2つのオブジェクトとすると、図18(a)、図18(b)は、高さが他のオブジェクトより大きいか、最上位の位置に属するなどで、タイトルの可能性が高い。
図18(c)は高さは小さく、配置も他のオブジェクト内であるが、2つのオブジェクト間の距離に違いがあるため、段落の変わり目などの見出し語の可能性が高い。
図18(d)は何れでもないので、通常の本文の可能性が高い。
図19は、画像部品化部2003の概略構成の一例を示す図である。横方向画素カウント部2003−2及び横方向画素カウント部2003−2は、オブジェクト配置情報2011の座標単位で、画像信号2010を分割し、縦軸、横軸への画素カウントの射影を算出し、縦方向の射影2003−6、横方向の射影2003−7として出力する。
比較器2003−3は、射影値の分散の大きいほうを選択するよう、セレクタ2003−4を操作するよう制御信号2003−8を出力する。
画素分割部2003−5は、選択された射影値を用いて、画像2010を分割して部品画像2013を出力する。
図20は、部品画像算出の一例を示す図である。画像部品化部2003は、縦方向の射影2003−6と横方向の射影2003−7を比較し、分散の大きい横方向の射影を選択し、画素分割部2003−5で、射影に対して閾値処理を行うことで、横方向の分割座標を算出し(点線)、図20に示す「A」「B」「C」「D」「E」…で示された単位で部品画像1012として出力する。
図21は、画像辞書化部2004の概略構成の一例を示す図である。ビットマップマッチング部2004−1は、上記辞書化の過程で保持したビットマップ2004−4が登録されているビットマップ辞書2004−2と、マッチングパラメータ2004−5が格納されているパラメータTABLE2004−3とからデータを受け取る。ビットマップマッチング部2004−1は、所定の位置シフトとマッチング処理を組み合せて、部品画像2013がビットマップ辞書2004−2に存在するかどうか判断し、存在すれば、その辞書インデックス(辞書のインデックスと画像上の部品画像の位置情報)2015を出力する。ビットマップマッチング部2004−1は、対応するビットマップパターンが辞書に無ければ、その部品画像2013を辞書に登録してインデックスを付与する。
このマッチング動作時に、オブジェクト属性情報2012に応じてその属性に応じたマッチングパラメータ2004−5がTABLE2004−3から読み出されることで、オブジェクト属性に応じた圧縮が行なわれる。例えば図22に示されるように、タイトルや見出し語だった場合重要な情報である可能性が高いのでマッチング精度を厳しくするパラメータ2004−5が読み出され、それ以外は通常のマッチング精度パラメータ2004−5が出力される。
このように、入力原稿の頁内の全オブジェクトに対する辞書化が終了すれば、辞書情報を画像辞書2014として出力する。
そして画像符号化部2005は、画像辞書2014を所定の画像圧縮技術(例えばランレングス)で圧縮し、辞書インデックス2015と合わせて符号データ2016として出力する。
以上により、例えば図18(a)(b)(c)に示されるようなタイトル等の重要な情報は、可逆や低圧縮率で圧縮し、情報の重要度が若干下がるデータはより高圧縮処理を行うので、画質・情報劣化のバランスのとれた高圧縮ファイルが生成できる。
また、本実施形態では、タイトル・見出し語を例に挙げたが、属性情報は本実施形態に限定されるものではなく、例えば表を抽出した場合、その内部はより重要なデータである可能性が高いため同様に他のオブジェクトと圧縮率を変えるようにしてもよい。
なお、レイアウト解析方法や、そこから算出されるオブジェクト属性情報、辞書化や圧縮方法等は本実施形態に限定されるものではなく、パラメータの制御方法・可逆非可逆などの適用方法も本実施形態に限定されるものではない。
図23は、本発明の実施形態2−2に係る画像処理装置(画像圧縮装置)の概略構成を示すブロック図である。図23に示す画像処理装置において、実施形態2−1と共通するブロックには、図13の画像処理装置に付与した符号と同一の符号を付与している。
レイアウト解析部2002A、オブジェクト濃度属性2012A、画像辞書化部2004Aが、実施形態2−1と若干異なる点である。
図24は、レイアウト解析部2002Aの概略構成の一例を示す図である。レイアウト解析部2002Aの構成は、レイアウト解析部2002の構成と基本的に同一だが、領域濃度判定部2002−6Aを持ち、オブジェクト濃度属性2012Aを出力する点が異なる。領域濃度判定部2002−6Aは、図25に示すように領域内のヒストグラムを算出し、白地かどうか判定する。
図26は、画像辞書化部2004Aの概略構成の一例を示す図である。画像辞書化部2004Aは、オブジェクト属性情報2012とオブジェクト濃度属性2012Aを用いてマッチング精度パラメータ2004−5を算出する。
例えば、図27に示すように、非白地は準可逆、白地は非可逆にする。つまり、オブジェクトが白地かどうかで圧縮率を変える。これは図28に示すように非白地上の文字は、背景が編点表現されていたりすることが多いため、2値化してビットマップを生成すると白地に比べ形状が不安定になり易いため、非白地の圧縮率を低めに設定することで劣化を防いでいる。
逆の観点で効率よく圧縮することに重点を置けば、図28(b)の2値化のコブは情報で無いとしてマッチング精度を緩めて、非白地の情報を効率よく圧縮することができるのも明らかである。
また、ビットマップ辞書2004−2に優先的に白地上の文字のビットマップを登録するようにしてもよく、非白地上の文字を読み易くすることも可能である。
図29は、本発明の実施形態2−3に係る画像処理装置(画像圧縮装置)の概略構成を示すブロック図である。図29に示す画像処理装置において、実施形態2−1と共通するブロックには、図13の画像処理装置に付与した符号と同一の符号を付与している。
画像辞書化部2004B、画像辞書化部2004Bの出力である画像ビットマップ2017が、実施形態2−1と若干異なる点である。
図30は、画像辞書化部2004Bの概略構成の一例を示す図である。判断部2004−8Bは、オブジェクト属性情報2012を受け取り、オブジェクト属性情報2012がタイトルや見出しであれば、セレクタ2004−9Bを操作し、部品画像2013を画像ビットマップ2017として出力し、タイトルや見出し以外(その他)であればマッチング部2004−1に入力して、実施形態2−1と同様、辞書マッチング処理を行う。
画像符号化部2005Bは、画像辞書2014及び画像ビットマップ2017を実施形態2−1と同様に可逆圧縮技術で圧縮し、辞書インデックス2015と画像ビットマップ2017の位置情報を合わせて符号データ2016Bとして出力する。
以上により、可逆処理したいオブジェクト情報は辞書化せずに直接可逆圧縮することで、圧縮の速度を高速に出来る。
なお、本実施形態では画像辞書2014、画像ビットマップ2017を同一の可逆圧縮を用いた例を示したが両者の圧縮方式を変えたり、圧縮パラメータを変えるようにしてもよい。
以下に、上記した実施形態2−1、2−2、2−3についてまとめる。
(1)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を圧縮する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像符号化部は該オブジェクト属性に応じて圧縮率を制御する。レイアウト解析結果を元に圧縮率を制御できるので高画質・高圧縮な圧縮ファイルを提供できる。
(2)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像辞書化部は該オブジェクト属性に応じて辞書化精度を制御する。レイアウト解析結果を元に辞書精度を制御できるので高画質・高圧縮な圧縮ファイルを提供できる。
(3)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像辞書化部は該オブジェクト属性に応じて辞書化精度を制御し、該オブジェクト属性とは文書の見出し、表等である。見出しや表等オブジェクト属性を元に辞書精度を制御できるので高画質・高圧縮な圧縮ファイルを提供できる。
(4)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像辞書化部は該オブジェクト属性に応じて辞書化精度を制御し、該オブジェクト属性とは下地の有無である。下地上の文字かどうかなど、文字等の所属する領域属性に応じて辞書精度を制御できるので、高画質・高圧縮な圧縮ファイルを提供できる。
(5)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像辞書化部は該オブジェクト属性が白下地を含むオブジェクト属性を優先的に該画像辞書化する。下地上の文字を優先的に辞書ビットマップとして使用するので高画質・高圧縮な圧縮ファイルを提供できる。
(6)画像処理装置は、画像を入力する画像入力部と、該画像からオブジェクト配置情報を出力するレイアウト解析部と該画像と該オブジェクト配置情報から画像を部品化して部品画像を出力する画像部品化部と該部品画像を辞書化し画像辞書と該部品画像の辞書インデックスを出力する画像辞書化部と、該画像辞書と該辞書インデックスを符号化する画像符号化部を持つことを特徴とする画像処理装置であって、該レイアウト解析部はオブジェクト属性を出力し、該画像辞書化部は該オブジェクト属性に応じて該辞書圧縮を行なうかどうか制御する。レイアウト解析結果を元に辞書圧縮方式を行なうか制御するので、高画質・高圧縮な圧縮ファイルを提供できる。
以上により、JBIG2やOCRを実現するためのレイアウト解析処理結果に応じて、領域の情報や原稿タイプを判断し、辞書化圧縮のマッチング精度や非辞書化圧縮の適用などを制御するので、高速に高画質・高圧縮な辞書圧縮ファイルを提供できる。即ち、レイアウト解析結果に応じて重要な領域などを判断し、圧縮率等を制御するので高速に高画質・高圧縮な圧縮ファイルを生成できると共に、生成された圧縮画像をOCR処理しても精度を確保することが可能な圧縮ファイルを提供することが出来る。つまり、抽出した領域情報に応じて画像品質を制御できるので、重要な情報の欠落を避けることができる。例えば、重要な情報とは、文書の見出し、表、表、グラフ等の見出しである。また、全般的な精度向上のために、白地上の文字かどうかで圧縮パラメータ等を切り替えることで、2値化等で生成される文字画像の品質を補完することもできる。または辞書のベースビットマップを白地上の文字を中心に選択することもできる。例えば、タイトル・見出しらしいと判断された領域は可逆圧縮して、確実に画像ファイルとして情報を視認できると共に、辞書圧縮ファイルにOCRを掛けた時のOCR精度を確保する。表を抽出したときは、表領域を可逆圧縮したり、数字しかない可能性が高いので、マッチングパラメータを変えたり、圧縮方法を変えたりする。
なお、上記した可逆圧縮とは第1の圧縮パラメータの圧縮であり、元の画像を100%に限りなく近い状態で再現することができる圧縮である。準可逆圧縮とは第1の圧縮パラメータより画像劣化をする可能性のある第2の圧縮パラメータの圧縮であり、元の画像をほぼ忠実に再現することができる圧縮である。非可逆圧縮とは第2の圧縮パラメータよりより画像劣化をする可能性のある第3の圧縮パラメータよりの圧縮であり、元の画像をおよそ忠実に再現することができる圧縮である。
次に、本発明の実施形態3について説明する。
同一文字毎等で一つの辞書ビットマップを形成し、その辞書ビットマップと位置情報を保存することにより画像を圧縮する方法がある。しかしながら、辞書として登録される辞書ビットマップは、最初に出現した新規のビットマップを登録しているだけであり、必ずしも辞書として最適な形状のビットマップを選択しているわけではない。
データを圧縮する技術として多くの圧縮方法が考えられる。ハフマン符号化に代表されるエントロピー符号化や算術符号化等がある。その前処理としてユニバーサル符号化(辞書化・辞書に基づいた符号化(dictionary-based coding))という手法がある(以下『辞書化』と記述する)。
ジャコブ・ジヴ(Jacob Ziv)とエイブラハム・レンペル(Abraham Lempel)によって開発されたデータ圧縮アルゴリズムであるLZ77やLZ78は既出のキャラクタの発生位置とその長さを保存することにより圧縮する方法であり、基本的にキャラクタコードの圧縮方法である。
この仕組みを画像に適応したものがISO/IEC14492で国際標準となっている2値圧縮技術のJBIG2のSymbolDictionaryである。SymbolDictionaryとは、画像の領域をひとつの辞書BMPとして捉え(例えば1文字のBMP)、共通するものは同じ辞書BMPとして取り扱い、辞書BMPと位置情報を持つことにより圧縮する方法である。これらは特定のパターンを持つ画像(文字画像やハーフトーン画像等)に対しても効果を発揮する。
上記JBIG2のSymbolDictionaryの辞書圧縮の具体例を以下に示す。
例えば図31に示すような『ABCBAD』という入力画像があった場合、通常は『ABCBAD』を素直に全部画像として圧縮していた。辞書圧縮では『A』という画像は2つあるため、『A』という画像は一つだけ持ち、あとは位置情報を持つことによりデータの削減を図る。このようなデータ圧縮の場合、辞書化により以下のようなデータを作成することになる。
辞書(Symbol)4種類:『A』『B』『C』『D』(図32)
辞書(Symbol)位置情報6種類:(画像A:位置(0,0))、(画像B:位置(6,0))、(画像C:位置(12,0))、(画像B:位置(18,0))、(画像A:位置(24,0))、(画像D:位置(30,0))
これらのデータを作成する上で、辞書化対象画像抽出処理(何を辞書候補とするか)が必要となる(連結画素抽出・文字抽出)。抽出した辞書候補が既存の辞書(Symbol)と同一と判定できるか否かを判定し、同一であれば辞書(Symbol)位置情報を登録、異なると判断されれば辞書(Symbol)情報と辞書(Symbol)位置情報を登録する仕組みを持つ辞書化処理を行い、最終的に辞書(Symbol)情報と辞書(Symbol)位置情報を圧縮することにより高圧縮化を実現している。
100%ではない画素一致率で同一辞書(Symbol)とみなす辞書圧縮方式においては、初めに辞書(Symbol)として登録された画像がそのまま出力画像に反映される。この為、一旦と辞書として登録された画像に問題がある場合(例えば文字の一部が欠けているなど)、その不良な辞書(Symbol)が出力結果に反映されてしまう。
その対策としてはあらかじめフォントの辞書(Symbol)を持っておき、該当するものがあればその辞書(Symbol)を用い、なければベクトル化(準可逆)するという方法がある(特開2005−208872)。しかし文字のベクトル化は圧縮率の低下が懸念事項として挙がる。
さらに、上記した圧縮、復元処理の一例について説明する。
図33は、入力画像の一例を示す図である。例えば、画像処理装置が、左から右、上から下に辞書候補画像を探索し、辞書ビットマップを作成するケースを想定する。辞書化は非可逆であり、多少の画素の差は同一辞書とみなす。このケースでは、以下のようにして画像が圧縮され復元される。
(1)一番初めに発見された文字(左)が辞書として登録されてしまう。
(2)中央は左の文字と同一文字と判断されてしまう。
(3)右の文字は左の文字と同一文字と判断されてしまう。
(4)このようにして作成されたデータの復元画像は、図34に示すように、入力画像の左の文字が3つ並ぶ形になってしまう。
そこで、本発明の実施形態3では、辞書候補画像を一定量保持しておき、辞書候補画像の中から他の同一と判定された辞書侯補画像との一致度の高いものを辞書(Symbol)情報として蓄えておくことにより、文字欠け等の画質不具合を低減させることができる。つまり、本発明の実施形態3では、辞書として登録するかを判定するビットマップを保存しておき、より良いビットマップを辞書として登録する。これにより、辞書化の処理順に依存されること無く(初めに辞書登録されたビットマップ形状に依存されること無く)、より入力画像に近い画像を保つことができる。
具体的には、同一辞書と判定されたビットマップ群を以下のように判定し辞書BMPを決定する。
(1)白画素と黒画素の変化点が最も少ないものを採用する。
(2)ノイズ画素が最も少ないものを採用する。
(3)OCR判定をし、最も一致度が高いものを採用する。
これにより、辞書化の処理順に依存されること無く(初めに辞書登録されたビットマップ形状に依存されること無く)、より入力画像に近い画像を保つことができる。
例えば、本発明の実施形態3に係る画像処理装置(画像圧縮装置)は、以下のようにして画像を圧縮し復元することができる
(1)一番初めに発見された文字(左)を辞書として登録する。
(2)中央の文字は左の文字と同一文字と判断する。辞書候補画像(中央の文字)はバッファに保存する。
(3)右の文字は左の文字と同一文字と判断する。辞書候補画像(右の文字)はバッファに保存する。
(4)辞書収集が終了したら、同一文字と判断された文字の中でノイズの少ないものを選択し(中央の文字)、辞書ビットマップとして登録する(画素の連結性が高い:ランが最も繋がっている)。
(5)復元画像は、図35に示すように、入力画像の中央の文字が3つ並ぶ形になる。
以下、本発明の実施形態3について詳細に説明する。
図36は、本発明の実施形態3−1に係る画像処理装置(画像圧縮装置)による圧縮処理の概念を示す図であり、図38は、本発明の実施形態3−1に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図であり、図37は、本発明の実施形態3−1に係る画像処理装置(画像圧縮装置)の詳細構成の一例を示す図である。また、図39は、本発明の実施形態3−1に係る圧縮処理の一例を示す図である。図36に示す画像処理装置は、図37及び図38に示す画像処理装置に対応し、主に、図37及び図38に示す画像処理装置を参照し、実施形態3−1に係る圧縮処理を説明する。
Symbol一致判定部3001は、辞書化対象データD3002と辞書バッファ3005に存在するSymbol情報I3004が一致しているか否かを比較・判定し、一致判定結果R3003(一致していないなら一致していないという情報、一致しているのなら一致しているSymbolのID番号)を出力するSymbol比較部3001−1とSymbol比較結果出力部3001−2を持つ。
Symbol一致判定部3001は、既知の手段・方法で一致を判定し、必ず100%画素が一致していなければならないわけではなく、ある程度似ているものは同じと判定する手段・方法も含む。
Symbol・一致Symbol情報・Symbol位置情報登録部3002の動作について説明する。辞書化対象データD3002にIDを割り振り、辞書化対象データD3002とそのIDを辞書バッファ3005のSymbol情報バッファ3005−1に登録するSymbol情報・ID登録部3002と、そのIDと位置情報を辞書バッファ3005のSymbol位置情報バッファ3005−2登録するID・Symbol位置情報登録部3002−2と、もし一致判定結果R3003が他のSymbol(Symbol候補画像)と一致しているという結果であれば、一致しているSymbolのID番号を辞書バッファ3005の一致Symbol情報バッファ3005−3に登録する一致Symbol情報登録部3002−3を持つ。
Symbol決定部3003の動作について説明する。ユーザの指定するシンボル修正フラグがONの時(ユーザがSymbolの最適化を行いたい時)、辞書バッファ3005にある同一と判定されたSymbol(Symbol候補画像)の中で最も一致度が高いSymbolを最終的なSymbolとして採用する最終Symbol決定部3003−1と、それに伴いSymbol位置情報バッファ3005−2のSymbol位置情報のIDを修正するSymbol位置情報ID修正部3003−2と、Symbol情報バッファ3003−1の不要になった(Symbolとして選ばれなかった)Symbol情報を削除する不要Symbol情報削除部3003−3を持つ。
辞書情報出力部3004は、辞書情報出力フラグF3001がONの場合は、辞書バッファ3005にあるSymbol情報バッファ3005−1とSymbol位置情報バッファ3005−2の情報(Symbol情報I3004とSymbol位置情報I3005)を出力するように制御し、出力後に辞書バッファ3005(Symbol情報バッファ3005−1とSymbol位置情報バッファ3005−2を含む)を初期化する信号を、辞書バッファ初期化部3004−2に送るゲート3004−1(辞書情報出力フラグF3001がOFFの場合はゲートは上記のような出力・初期化処理はしない)と、辞書バッファ3005(Symbol情報バッファ3005−1とSymbol位置情報バッファ3005−2・一致Symbol情報バッファ3005−3を含む)を初期化する辞書バッファ初期化部3004−2を持つ。
例えば図40に示す画像が入力されたとする。ここでは、辞書登録がすべて終わったら最適と思われる辞書を選ぶ作業例で説明をする。
辞書化対象データ抽出部3000の動作について説明する。まず図40の入力画像から辞書化対象データD3001を抽出する(ST3001)。左から右、上から下に黒画素を探索すると(1,1)の黒画素が見つかる(左上を(0,0)とする)。
(1,1)の黒画素の連結成分を抽出することにより図40の左端の『T』を候補として得ることができる(辞書化対象データの抽出方法は既知の方法を適用)。
Symbol一致判定部3001の動作について説明する。辞書化対象データ抽出部3000で得られた辞書化対象データD3001と辞書バッファ3005に存在するSymbolを比較する(ST3002)。今回は比較するSymbolが辞書バッファ3005に登録されていないので、不一致という結果(一致判定結果R3002)を出力する(ST3003、NO)。なお、意図的にあらかじめ辞書バッファに特定Symbolを入れておくことも可能。
Symbol・一致Symbol情報・Symbol位置情報登録部3002の動作について説明する。もし一致判定結果R3002が『一致』なら(ST3003、YES)、以下の作業を行う(ST3006)。
・辞書化対象データD3002をSymbolとして辞書バッファ3005に登録
・それがどの既存Symbolと一致しているのかという情報を辞書バッファ3005に登録
・当該Symbolがどの位置にあるのかを示す情報を辞書バッファ3005に登録
一致判定結果R3002が『不一致』なら(ST3003、NO)、以下の作業を行う(ST3005)。
・辞書化対象データD3001をSymbolとして辞書バッファ3005に登録
・当該Symbolがどの位置にあるのかを示す情報を辞書バッファ3005に登録
本実施形態3−1では、まず『不一致』なので(ST3003、NO)、
・左端の『T』という画像をSymbolとして辞書バッファ3005に登録(ST3005)・左端の『T』の位置が(1,1)にあるという情報を辞書バッファ3005に登録(ST3005)
この状態を図41に示す。
続いて次の辞書化対象データ抽出部3000の作業を行う。つまり、入力画像から辞書化対象データD3001を抽出する(ST3001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(10,1)の黒画素が見つかる(左上を(0,0)とする:左端の『T』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当の『T』を削除しておくのもあり)。
(10,1)の黒画素の連結成分を抽出することにより、図40の左から2番目のTを候補として得ることができる(辞書化対象データの抽出方法は既知の方法を適用)。
Symbol一致判定部3001の動作について説明する。辞書化対象データ抽出部3000で得られた辞書化対象データD3001と辞書バッファ3005に存在するSymbolを比較する(ST3002)。今回は比較するSymbolが辞書バッファ3005に存在するので比較を行う。左端の『T』があらかじめ登録されているので、それと左から2番目の『T』とを比較する。ここでは一致という結果(一致判定結果R3002)を出力するとする(ST3003、YES)。判定方法は、既知の方法を適用することができる
Symbol・一致Symbol情報・Symbol位置情報登録部3002の動作について説明する。本実施形態3−1では、『一致』なので(ST3003、YES)、
・左から2番目の『T』という画像をSymbolとして辞書バッファ3005に登録(ST3004)
・左から2番目の『T』が左端の『T』と一致しているという情報を辞書バッファ3005に登録(ST3004)
・左から2番目の『T』の位置が(10,1)にあるという情報を辞書バッファ3005に登録(ST3004)
この状態を図42に示す。
続いて、次の辞書化対象データ抽出部3000の作業を行う。つまり、入力画像から辞書化対象データD3001を抽出する(ST3001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(19,1)の黒画素が見つかる(左上を(0,0)とする:左端とその右隣の『T』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当の『T』を削除しておくのもあり)。
(19,1)の黒画素の連結成分を抽出することにより図40のIを候補として得ることができる。辞書化対象データの抽出方法は、既知の方法を適用できる。
Symbol一致判定部3001の動作について説明する。辞書化対象データ抽出部3000で得られた辞書化対象データD3001と辞書バッファ3005に存在するSymbolを比較する(ST3002)。今回は比較するSymbolが辞書バッファ3005に存在するので比較を行う。左端とその右隣の『T』とを比較する。ここでは不一致という結果(一致判定結果R3002)を出力するとする(ST3003、NO)。判定方法は、既知の方法を適用することができる。
Symbol・一致Symbol情報・Symbol位置情報登録部3002の動作について説明する。本実施形態3−1では、『不一致』なので(ST3003、NO)、
・『I』という画像をSymbolとして辞書バッファ3005に登録(ST3005)
・『I』の位置が(19,1)にあるという情報を辞書バッファ3005に登録(ST3005)
この状態を図43に示す。
続いて次の辞書化対象データ抽出部3000の作業を行う。つまり、入力画像から辞書化対象データD3001を抽出する(ST3001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(22,1)の黒画素が見つかる(左上を(0,0)とする:左から『T』『T』『I』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当のデータを削除しておくのもあり)。
(22,1)の黒画素の連結成分を抽出することにより図40の右端のTを候補として得ることができる。辞書化対象データの抽出方法は、既知の方法を適用することができる。
Symbol一致判定部3001の動作について説明する。辞書化対象データ抽出部3000で得られた辞書化対象データD3001と辞書バッファ3005に存在するSymbolを比較する(ST3002)。今回は比較するSymbolが辞書バッファ3005に存在するので比較を行う。
この時は『T』と『I』が辞書バッファ3005に登録されているので、『T』は左端の『T』とその右隣の『T』は同一判定されているので、左端の『T』とのみ比較する。同一判定された比較対象が複数ある場合、全部に対して比較する方法も可とする。
ここでは一致という結果(一致判定結果R3002)を出力する(ST3003、YES)。判定方法は、既知の方法を適用することができる。
Symbol・一致Symbol情報・Symbol位置情報登録部3002の動作について説明する。本実施形態3−1では、『一致』なので(ST3003、YES)、
・右端の『T』という画像をSymbolとして辞書バッファ3005に登録(ST3004)
・右端の『T』が左端の『T』と一致しているという情報を辞書バッファ3005に登録(ST3004)
・右端の『T』の位置が(22,1)にあるという情報を辞書バッファ3005に登録(ST3004)
この状態を図44に示す。
ユーザは予定しているすべての辞書登録が終わったので(ST3006、YES)、Symbol決定フラグF3006をONにし、Symbolの最終決定を行った後(ST3007)、辞書出力フラグF3001をONにしSymbol情報I3004とSymbol位置情報I3005を出力する(ST3008)。
Symbol決定部3003は、辞書バッファにある同一SymbolとされたSymbolのうち、最も誤差の小さいSymbolを選択する(後述の判断例を参照)。その選択されたSymbolを同一Symbol候補の代表として登録し、その他の同一Symbolは削除する。それに伴い位置情報とのリンク等を修正する。
同一Symbolと判定されたものがひとつも無ければ、必然的に存在するsymbolが代表のSymbolとなる。
もし同一Symbolと判定されたものが2つの場合は、ノイズの少ないものを採用する。その他の方法として、先に登録された方を採用 / エッジが滑らかなものを採用するという方法も可能である。
続いて、判断の一例を示す。
・ID1のSymbolは、以下の通りである。
ID1とID2のSymbolは4画素異なる
ID1とID4のSymbolは7画素異なる
⇒合計11画素異なる
・ID2のSymbolは、以下の通りである。
ID2とID1のSymbolは4画素異なる
ID2とID4のSymbolは4画素異なる
⇒合計8画素異なる
・ID4のSymbol、以下の通りである。
ID4とID1のSymbolは7画素異なる
ID4とID2のSymbolは4画素異なる
⇒合計11画素異なる
最終的なSymbolが決定した後は、それに併せてSymbol位置情報のIDを修正し、選ばれず不要となったSymbol情報を削除する。この場合、上記判断例のID1とID4のSymbol情報が削除される。
最終的な辞書バッファの状態を図45に示す。
辞書情報出力部3004の動作について説明する。辞書バッファ3005に存在するSymbol情報I3003とSymbol位置情報I3004を出力する。
以上により、初めに辞書候補として挙がった画像を辞書(Symbol)として登録した場合(図46及び図47参照)に比べて、画質が良くなる確率が高いという利点がある。
また、以下1〜3に示すように、Symbol決定部の処理の開始タイミングをユーザが意図的に調整できるため、辞書バッファを節約しながら高画質なデータを作成することができる。
1.指定辞書バッファ量に達したとき
2.登録Symbol(仮登録を含む)が指定数に達したとき
3.同一Symbolが指定数に達したとき(指定のSymbolのみSymbol決定をする)
図49は、本発明の実施形態3−2に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図であり、図48は、本発明の実施形態3−2に係る画像処理装置の詳細構成の一例を示す図である。
本実施形態3−2は、ユーザが指定した時のみSymbol候補画像を辞書バッファ3005に登録することができる。実施形態3−1と異なる部分を中心に説明する。つまり、Symbol・一致Symbol情報・Symbol位置情報登録部3006の動作について説明する。Symbol候補画像登録フラグF3007がONの場合、辞書化対象データD3002にIDを割り振り、辞書化対象データD3002とそのIDを辞書バッファ3005のSymbol情報バッファ3005−1に登録し、Symbol候補画像登録フラグF3007がOFFの場合は、一致判定結果R3003が不一致だった時のみ、辞書化対象データD3002にIDを割り振り、辞書化対象データD3002とそのIDを辞書バッファ3005のSymbol情報バッファ3005−1に登録するSymbol情報・ID登録部3006−2と、登録したいSymbol(もしくはSymbol候補画像)のIDと位置情報を辞書バッファ3005のSymbol位置情報バッファ3005−2に登録するID・Symbol位置情報登録部3006−2と、もしSymbol候補画像登録フラグF3007がONの場合で一致判定結果R3003が他のSymbol(Symbol候補画像)と一致している場合、一致しているSymbolのID番号を辞書バッファ3005の一致Symbol情報バッファ3005−3に登録する一致Symbol情報登録部3006−3を持つ。
ユーザはSymbol候補画像として辞書化対象データD3002を辞書バッファ3005に登録したい時はSymbol候補画像登録フラグF3007をONにし、そうでない時はOFFに設定をする。
Symbol候補画像登録フラグF3007がONの時、Symbol・一致Symbol情報・Symbol位置情報登録部3006は、Symbol・一致Symbol情報・Symbol位置情報登録部3002と同様の動作をし、Symbol候補画像を辞書バッファ3005に貯めていく。
Symbol候補画像登録フラグF3007がOFFの時、Symbol・一致Symbol情報・Symbol位置情報登録部3006は、マッチングが不一致の場合のみSymbolを新たに辞書バッファ3005に登録する。一致の場合は、一致しているSymbolのIDと位置情報を辞書バッファ3005に登録、不一致の場合は、新規登録したSymbolのIDとその位置情報を辞書バッファ3005に登録する。Symbol候補画像の蓄積は行わない。
このような仕組みを持つことにより、使用メモリ量を抑えつつ画質を向上させることができる。
例えば、ユーザは以下のような処理を行うことにより使用メモリ量を限定させ、画質を向上させることができる。
(1)使用メモリ量が規定値に達するまでSymbol候補画像を蓄える。
(2)使用メモリ量が規定値を超えたら、Symbolを選定し、不要なSymbol候補画像を削除する。
(3)辞書化処理を行う。
以下に、上記した実施形態3−1と3−2についてまとめる。
(1)画像処理装置は、文字毎に一つの辞書ビットマップを形成し、その辞書ビットマップと位置情報を保存することにより画像を圧縮する装置であって、同一辞書と判定されたビットマップ群を、(a)白画素と黒画素の変化点が最も少ないものを採用する、(b)ノイズ画素が最も少ないものを採用する、(c)OCR判定をし、最も一致度が高いものを採用する、のように判定し、辞書BMPを決定する。
より具体的には、以下の通りである。
(2)画像処理装置は、画像情報を辞書ビットマップ(Symbol)とその位置情報に分離し保存することにより圧縮する画像を入力として辞書化対象データ(辞書候補画像)を出力する辞書化対象データ抽出部と、辞書化対象データを入力として、辞書バッファに登録されているSymbolと一致しているか否かを判定するSymbol一致判定部と、辞書化対象データと一致判定結果を入力として、Symbolが一致している場合は、辞書化対象データ(Symbol)と、一致Symbolの情報(ID等)とSymbol位置情報を辞書バッファに登録する、Symbolが一致していない場合は、辞書化対象データ(Symbol)と、Symbol位置情報を辞書バッファに登録する、Symbol・一致Symbol情報・Symbol位置情報登録部と、辞書バッファのSymbol情報とSymbol位置情報を出力する辞書情報出力部を備える画像処理装置であって、
辞書化対象データの画像をSymbolとの一致判定後も、symbol候補画像として辞書バッファに保存しておき、同一のSymbolと判定されたSymbol候補画像の中で、最も画素の一致度の高いSymbol候補画像をSymbolとして登録する。
(3)画像処理装置は、画像情報を辞書ビットマップ(Symbol)とその位置情報に分離し保存することにより圧縮する画像を入力として辞書化対象データ(辞書候補画像)を出力する辞書化対象データ抽出部と、辞書化対象データを入力として、辞書バッファに登録されているSymbolと一致しているか否かを判定するSymbol一致判定部と、辞書化対象データと一致判定結果を入力として、Symbolが一致している場合は、辞書化対象データ(Symbol)と、一致Symbolの情報(ID等)とSymbol位置情報を辞書バッファに登録する、Symbolが一致していない場合は、辞書化対象データ(Symbol)と、Symbol位置情報を辞書バッファに登録する、Symbol・一致Symbol情報・Symbol位置情報登録部と、辞書バッファのSymbol情報とSymbol位置情報を出力する辞書情報出力部とを備える画像処理装置であって、任意のタイミングで、辞書化対象データの画像をSymbolとの一致判定後も、symbol候補画像として辞書バッファに保存しておき、同一のSymbolと判定されたSymbol候補画像の中で、最も画素の一致度の高いSymbol候補画像をSymbolとして登録させたり、従来の圧縮処理装置と同じ動作をさせたりすることができる。
次に、本発明の実施形態4について説明する。
同一文字毎等で一つの辞書ビットマップを形成し、その辞書ビットマップを圧縮し、その画像圧縮データと位置情報を保存することにより画像を圧縮する方法がある。しかしながら、この方法で作成される辞書ビットマップはあくまで入力された画像の形状に依存するものであり、スキャン画像等は特に辞書ビットマップの圧縮率は良いとは限らない。
さらに詳述すると、スキャン画像等において辞書圧縮を適用しようと考えた場合、同一文字でも画素が100%一致する確率は非常に少ないので、ある程度同じと思われる対象は同一辞書(symbol)とみなす辞書圧縮がある。スキャン画像においてはノイズ等が載っている可能性が高く、辞書として登録されたSymbolにも存在すると思われる。これは最終的な出力画像の画質劣化の要因となる。
その対策としてはあらかじめきれいなフォントの辞書(symbol)を持っておき、該当するものがあればその辞書(symbol)を用い、なければベクトル化(準可逆)するという方法がある(特開2005−208872)。しかし文字のベクトル化は圧縮率の低下が懸念事項として挙がる。
そこで、本発明の実施形態4に係る画像処理装置(画像圧縮装置)は、Symbolを適時最適化(エッジ鮮鋭化・ノイズ除去)を行うことにより、Symbolの画質を向上させることができる共に高圧縮化するというものである(図50参照)。つまり、本発明の実施形態4に係る画像処理装置は、辞書ビットマップを圧縮率が高くなるように(例:ランを繋げる:形状に特徴をもたせる等)形状を変形することにより圧縮率を高くする。これにより効率的な辞書ビットマップの圧縮をすることができる。
具体的には、図51及び図52に示すように、本発明の実施形態4に係る画像処理装置は、電子データを入力とし、辞書化対象範囲を出力する辞書化対象範囲決定部と、電子データと辞書化対象範囲を入力とし、辞書ビットマップとするか否かを判定する辞書化判定結果を出力する辞書化判定部と、電子データと辞書化判定結果を入力とし、辞書化判定結果が辞書ビットマップを作成する判定の場合に辞書ビットマップ情報を作成し出力する辞書BMP作成部と、辞書化対象範囲と辞書化判定結果と辞書バッファ(辞書ビットマップ情報群)を入力とし、辞書化対象となる辞書ビットマップ情報とその位置を関連付けた文字位置情報を出力する文字位置情報作成部と、辞書バッファの辞書ビットマップ情報群のデータを圧縮がし易い形に形状変換し出力する辞書ビットマップ形状変換部を備える。辞書バッファとは、辞書BMP作成部から出力された辞書ビットマップ情報をまとめて管理するバッファである。
さらに、詳しく説明すると、形状変換部の入力に入力画像・文字位置情報を加えることにより、入力データを考慮して辞書ビットマップの形状を変更する。また、辞書情報生成手段が入力パラメータで制御される。このような構成をとることにより、より効率的な辞書ビットマップの圧縮をすることができる。
以下、本発明の実施形態4について詳細に説明する。
図51は、本発明の実施形態4−1に係る画像処理装置(画像圧縮装置)による圧縮処理の概念を示す図であり、図54は、本発明の実施形態4−1に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図であり、図53は、本発明の実施形態4−1に係る画像処理装置(画像圧縮装置)の詳細構成の一例を示す図である。また、図55は、本発明の実施形態4−1に係る圧縮処理の一例を示す図である。図51に示す画像処理装置は、図53及び図54に示す画像処理装置に対応し、主に、図53及び図54に示す画像処理装置を参照し、実施形態4−1に係る圧縮処理を説明する。
Symbol一致判定部4001は、辞書化対象データD4002と辞書バッファ4005に存在するSymbol情報I4004が一致しているか否かを比較・判定し、一致判定結果R4003(一致していないなら一致していないという情報、一致しているのなら一致しているSymbolのID番号)を出力するSymbol比較部4001−1とSymbol比較結果出力部4001−2を持つ。
Symbol一致判定部4001は、既知の手段・方法であり、必ず100%画素が一致していなければならないわけではなく、ある程度似ているものは同じと判定する手段・方法も含む。
Symbol・Symbol位置情報登録部4002は、辞書化対象データD4002を新規のSymbol情報として登録し、ID番号を割り振り、辞書バッファ4005のSymbol情報バッファ4005−1に登録するSymbol情報ID登録部4002−1と、登録する辞書化対象データD4002が画像中の何処にあるかを示した位置情報と、そのSymbolのIDを辞書バッファ4005のSymbol位置情報バッファ4005−2に登録するID・Symbol位置情報登録部4002−2を持つ。
また、一致判定結果R4003が辞書化対象データD4002とSymbol情報が一致していないと判定する結果だった場合は、Symbol情報・ID登録部4002−1の処理を行った後で、ID・Symbol位置情報登録部4002−2の処理をするように、一致判定結果R4003が辞書化対象データD4002とSymbol情報があるIDのSymbolと一致していると判定する結果だった場合は、ID・Symbol位置情報登録部4002−2の処理を振り分けるセレクタを持つ。
Symbol修正部4003は辞書バッファ4005にあるSymbolの画質を向上させるため、エッジの凸凹を滑らかにするエッジ鮮鋭化部4003−1と、ノイズ等のノイズを除去するノイズ除去部4003−2を持つ。
この修正処理は新規のSymbolが辞書バッファ4005に登録される度に、新規登録のSymbolに対して行われる。
辞書情報出力部4004は辞書情報出力フラグF4001がONの場合は、辞書バッファ4005にあるSymbol情報バッファ4005−1とSymbol位置情報バッファ4005−2の情報(Symbol情報I4004とSymbol位置情報I4005)を出力するように制御し、出力後に辞書バッファ4005(Symbol情報バッファ4005−1とSymbol位置情報バッファ4005−2を含む)を初期化する信号を、辞書バッファ初期化部4004−2に送るゲート4004−1(辞書情報出力フラグF4001がOFFの場合はゲートは上記のような出力・初期化処理はしない)と、辞書バッファ4005(Symbol情報バッファ4005−1とSymbol位置情報バッファ4005−2を含む)を初期化する辞書バッファ初期化部4003−2を持つ。
本実施形態4−1では、ユーザが以下のように入力信号を制御した場合について説明する。
・上記説明した図40の画像を入力画像とする。
・辞書情報出力フラグF4001は最終ページ以外常にOFFとし、最終ページの辞書登録がすべて終わった時点でONとする。すべての処理が終わったらSymbol情報I4004とSymbol位置情報I4005を出力する。
続いて、辞書化処理の一例を説明する。辞書化対象データ抽出部4000の動作について説明する。まず図40の1ページ目の入力画像から辞書化対象データD4002を抽出する(ST4001)。
左から右、上から下に黒画素を探索すると(1,1)の黒画素が見つかる(左上を(0,0)とする)。(1,1)の黒画素の連結成分を抽出することにより図40の1ページ目の画像の左端の『T』を候補として得ることができる。辞書化対象データの抽出方法は既知の方法を適用することができる。
Symbol一致判定部4001の動作について説明する。辞書化対象データ抽出部4000で得られた辞書化対象データD4002と辞書バッファ4005に存在するSymbolを比較する(ST4002)。今回は比較するSymbolが辞書バッファ4005に登録されていないので、不一致という結果(一致判定結果R4003)を出力する(ST4003、NO)。なお、意図的にあらかじめ辞書バッファ4005に特定Symbolを入れておくことも可能である。
Symbol・Symbol位置情報登録部4002の動作を説明する。もし一致判定結果R4003が『一致(該当するID番号)』なら(ST4003、YES)、以下の作業を行う(ST4004)。
・一致しているSymbol情報がどれかわかる情報(ID)を辞書バッファ4005に登録(ST4004
・当該Symbolがどの位置にあるのかを示す情報を辞書バッファ4005に登録(ST4004)
一致判定結果R4003が『不一致』なら(ST4003、NO)、以下の作業を行う(ST4005)。
・辞書化対象データ1003をSymbolとして辞書バッファ4005に登録(ST4005)
・当該Symbolがどの位置にあるのかを示す情報を辞書バッファ4005に登録(ST4005)
本実施例では、まず『不一致』なので(ST4003、NO)、・1ページ目の左端の『T』をSymbolとして辞書バッファ4005に登録(ST4005)・『T』が1ページ目の(1,1)の位置にあるという情報を辞書バッファ4005に登録(ST4005)
この時の辞書バッファ4005の状態を図56に示す。
Symbol修正部4003は、辞書バッファ4005に新規のSymbolが登録されたらそのSymbolに対して、エッジを滑らかにする処理(エッジ鮮鋭化処理4003−1)と、ノイズ等のノイズ除去をする(ノイズ除去部4003−2)(ST4006)。
この時の辞書バッファ4005の状態を図57に示す。
続いて次の辞書化対象データ抽出部4000の作業を行う。図40の1ページ目の入力画像から辞書化対象データD4002を抽出する(ST4001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(10,1)の黒画素が見つかる(左上を(0,0)とする:左端の『T』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当の『T』を削除しておくことも可能)。
(10,1)の黒画素の連結成分を抽出することにより図40の左から2番目の『T』を候補として得ることができる。辞書化対象データの抽出方法は、既知の方法を適用することができる。
Symbol一致判定部4001の動作について説明する。辞書化対象データ抽出部4000で得られた辞書化対象データD4002と辞書バッファ4005に存在するSymbolを比較する(ST4002)。今回は比較するSymbolが辞書バッファ4005に登録さているので比較を行う。左端の『T』と比較する。ここでは左端の『T』と一致という結果(一致判定結果R4003)を出力する(ST4003、YES)。判定方法は既知の方法を適用することができる。
Symbol・Symbol位置情報登録部4002の動作について説明する。『左端の『T』と一致』なので、
・一致しているSymbolが左端の『T』とわかる情報(ID番号)を辞書バッファ4005に登録(ST4004)
・この『T』が(10,1)にあるという位置情報を辞書バッファ4005に登録(ST4004)
この時の辞書バッファ4005の状態を図58に示す。
Symbol修正部4003は、今回は新規登録されたSymbolは無いので特に処理は行わない。
続いて次の辞書化対象データ抽出部4000の作業を行う。図40の2ページ目の入力画像から辞書化対象データD4002を抽出する(ST4001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(19,1)の黒画素が見つかる(左上を(0,0)とする:左二つの『T』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当の『T』を削除しておくことも可能)。
(19,1)の黒画素の連結成分を抽出することにより図40の『I』を候補として得ることができる。辞書化対象データの抽出方法は、既知の方法を適用することができる。
Symbol一致判定部4001の動作について説明する。辞書化対象データ抽出部4000で得られた辞書化対象データD4002と辞書バッファ4005に存在するSymbolを比較する(ST4002)。今回は比較するSymbolが辞書バッファ4005に登録さているので比較を行う。『T』と比較する。ここでは不一致という結果(一致判定結果R4003)を出力する(ST4003、NO)。判定方法は、既知の方法を適用することができる。
Symbol・Symbol位置情報登録部4002の動作について説明する。『不一致』なので(ST4003、NO)、
・『I』をSymbolとして辞書バッファ4005に登録(ST4005)
・『I』が(19,1)の位置にあるという情報を辞書バッファ4005に登録(ST4005)
この時の辞書バッファ4005の状態を図59に示す。
Symbol修正部4003は、辞書バッファ4005に新規のSymbolが登録されたらそのSymbolに対して、エッジを滑らかにする処理(エッジ鮮鋭化処理4003−1)と、ノイズ等のノイズ除去をする(ノイズ除去部4003−2)(ST4006)。
この時の辞書バッファ4005の状態を図60に示す。
続いて次の辞書化対象データ抽出部4000の作業を行う。辞書化対象データ抽出部4000は、図40の2ページ目の入力画像から辞書化対象データD4002を抽出する(ST4001)。ここでは先に登録・判定されたSymbolは除外して抽出を行う。
左から右、上から下に黒画素を探索すると(19,1)の黒画素が見つかる(左上を(0,0)とする:左二つの『T』と『I』は登録済みなので除外して探索する:本抽出部に画像を入力する時点で該当の『T』『I』を削除しておくことも可能)。
(22,1)の黒画素の連結成分を抽出することにより図40の右端の『T』を候補として得ることができる。辞書化対象データの抽出方法は、既知の方法を適用することができる。
Symbol一致判定部4001の動作について説明する。辞書化対象データ抽出部4000で得られた辞書化対象データD4002と辞書バッファ4005に存在するSymbolを比較する(ST4002)。今回は比較するSymbolが辞書バッファ4005に登録さているので比較を行う。『T』『I』と比較する。ここでは左端の『T』と一致という結果(一致判定結果R4003)を出力する(ST4003、YES)。判定方法は、既知の方法を適用することができる。
Symbol・Symbol位置情報登録部4002の動作について説明する。『左端の『T』と一致』なので(ST4003、YES)、
・一致しているSymbolが左端の『T』とわかる情報(ID番号)を辞書バッファ4005に登録(ST4004)
・この『T』が2ページ目の(10,1)にあるという位置情報を辞書バッファ4005に登録(ST4004)
この時の辞書バッファ4005の状態を図61に示す。
Symbol修正部4003は、今回は新規登録されたSymbolは無いので特に処理は行わない。
ユーザは予定しているすべての辞書登録が終わったので(ST4007、YES)、辞書情報出力フラグF4001をONにし、Symbol情報I4004とSymbol位置情報I4005を取り出す。
辞書情報出力部4003は、辞書情報出力フラグF4001がONであるので辞書バッファ4005にあるSymbol情報I4004とSymbol位置情報I4005を出力し(ST4008)、その後辞書バッファ4005を初期化する(ST4009)。
以上により、初めに辞書候補として挙がった画像をそのまま辞書(Symbol)として登録した場合に比べて、画質が良くなるという利点がある。初めに辞書候補として挙がった画像をそのまま辞書(Symbol)として登録した場合には、図46に示すような復号画像となってしまう。これに対して本実施形態4−1の復号結果は、図62に示すようになる。
図64は、本発明の実施形態4−2に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図であり、図63は、本発明の実施形態4−2に係る画像処理装置(画像圧縮装置)の詳細構成の一例を示す図である。図65は、本発明の実施形態4−2に係る圧縮処理の一例を示す図である。
Symbol修正部4006は、ユーザの指定するSymbol修正タイミングで(ST4006a、YES)、Symbolのエッジ鮮鋭化処理やノイズ除去部の処理が動作する(ST4006b)処理部である。これにより、登録されたSymbolをすぐに修正することによって生じる、『一致する辞書候補画像がsymbolを修正しない従来のものと変わる』といった現象を防ぐことができる。ユーザの修正したいタイミングでSymbolの修正を行えるという利点がある。
以下に、上記した実施形態4−1と4−2についてまとめる。
(1)画像処理装置は、電子データを入力とし、辞書化対象範囲を出力する辞書化対象範囲決定部と、電子データと辞書化対象範囲を入力とし、辞書ビットマップとするか否かを判定する辞書化判定結果を出力する辞書化判定部と、電子データと辞書化判定結果を入力とし、辞書化判定結果が辞書ビットマップを作成する判定の場合に辞書ビットマップ情報を作成し出力する辞書BMP作成部と、辞書化対象範囲と辞書化判定結果と辞書バッファ(辞書ビットマップ情報群)を入力とし、辞書化対象となる辞書ビットマップ情報とその位置を関連付けた文字位置情報を出力する文字位置情報作成部と、辞書バッファの辞書ビットマップ情報群のデータを圧縮がし易い形に形状変換し出力する辞書ビットマップ形状変換部を備える。さらに、形状変換部の入力に入力画像・文字位置情報を加えることにより、入力データを考慮して辞書ビットマップの形状を変更する。さらに、辞書情報生成手段が入力パラメータで制御される。
より具体的には、以下の通りである。
(2)画像処理装置は、画像情報を辞書ビットマップ(Symbol)とその位置情報に分離し保存することにより圧縮する画像を入力として辞書化対象データ(辞書候補画像)を出力する辞書化対象データ抽出部と、辞書化対象データを入力として、辞書バッファに登録されているSymbolと一致しているか否かを判定するSymbol一致判定部と、辞書化対象データと一致判定結果を入力として、Symbolが一致している場合は、辞書化対象データ(Symbol)と、一致Symbolの情報(ID等)とSymbol位置情報を辞書バッファに登録する、Symbolが一致していない場合は、辞書化対象データ(Symbol)と、Symbol位置情報を辞書バッファに登録する、Symbol・Symbol位置情報登録部と、辞書バッファのSymbol情報とSymbol位置情報を出力する辞書情報出力部と、を備え、辞書バッファのSymbolに対し輪郭を滑らかにする処理と、ノイズ除去処理をする。
(3)画像処理装置は、画像情報を辞書ビットマップ(Symbol)とその位置情報に分離し保存することにより圧縮する画像を入力として辞書化対象データ(辞書候補画像)を出力する辞書化対象データ抽出部と、辞書化対象データを入力として、辞書バッファに登録されているSymbolと一致しているか否かを判定するSymbol一致判定部と、辞書化対象データと一致判定結果を入力として、Symbolが一致している場合は、辞書化対象データ(Symbol)と、一致Symbolの情報(ID等)とSymbol位置情報を辞書バッファに登録する、Symbolが一致していない場合は、辞書化対象データ(Symbol)と、Symbol位置情報を辞書バッファに登録する、Symbol・Symbol位置情報登録部と、辞書バッファのSymbol情報とSymbol位置情報を出力する辞書情報出力部と、を備え、辞書バッファのSymbolに対し輪郭を滑らかにする処理と、ノイズ除去処理をユーザの指定するタイミングで行う。
次に、本発明の実施形態5について説明する。
画像同士を比較し、お互いが同一のものかを比較したり、ある第一の画像と同じ画像が第二の画像中に存在するか否か等を調べたりして、画像を圧縮する技術が提案されている。
ISO/IEC14492は、国際標準となっている2値圧縮技術のJBIG2の技術を開示している。これは画像のある領域や文字(文字列等)をひとつの辞書画像として捉え(例えば1文字の画像)、共通するものは同じ辞書画像として扱い、辞書画像と位置情報を持つことによりデータを圧縮する方法である。これらは特定のパターンを持つ画像(文字画像やハーフトーン画像等)に対して効果を発揮する。これをスキャン画像に応用し、特定のパターン(画像)を探しながら辞書画像とマッチングを行い、一致するものが無ければ辞書に登録していくことによりスキャン画像の高圧縮化を実現できる。
特開2006−23976は、画像中に任意のテンプレート画像と同じ・もしくは同じような画像が存在するかを調べる技術を開示している。特開2006−23976の基本技術はテンプレートマッチング法と呼ばれ、画像中にテンプレート画像(第一の画像)と同じ画像が無いかを調べる為に、第二の画像に対して第一の画像を少しずつずらしながらマッチング(比較)をする技術である。このテンプレートマッチングのマッチング精度を保った上で計算量を削減する方法として、特開2006−23976のような提案がされている。この技術はテンプレートマッチングにおいて、テンプレートのノイズ量とテンプレート特徴量を用いて、テンプレートをずらしながら走査するときの「ずらし量」と画像の変形を考慮した「変形量」、画像の抽出可否を決定する「閾値」の3パラメータを自動で設定するものである。これらはテンプレートの特徴に併せて3つのパラメータを自動で設定するものでありテンプレートに応じたマッチングの判断ができる。
上記2つの方法は似たように画像同士を比較する方法であるが、比較する画像を探し・作りながら比較し辞書を作成する技術と、あらかじめ比較する画像があり似たような画像が別画像にないかを比較する技術という点で大きく異なる。
ISO/IEC14492では、図82に示すような処理装置を用いることにより、入力画像から特徴画像(例えば文字)を抽出し、同じ文字画像は1つの辞書画像として保持し、それに対応する位置情報を持つことによりデータ量を削減することにより圧縮することが可能である。しかし図82のような処理装置では、特徴画像毎の特徴を捉えた一致判定(特徴画像毎にマッチングパラメータを設定)ができないので、誤判定をする可能性が高い。
特開2006−23976は、テンプレートマッチングの精度向上・高速化に関する技術を開示している。図83に示すように、特開2006−23976に開示された技術では、テンプレート画像に合わせて画像抽出可否を決定する「閾値」やテンプレート画像の「ずらし量」、画像の「変形量」を決定しているが、これはテンプレート画像に対して一意に決定しており探索対象となる画像の特徴を用いていない為、対象画像によっては全く効果が無い可能性がある。この技術はテンプレート情報を用いて上記3パラメータを決定するが、これはテンプレートマッチングにのみ適用可能であり、ISO/IEC14492のような、入力画像から同一の特徴画像(例えば文字)を抽出し、辞書画像を作成するような場合に構成からして異なるので適用できない(そもそも図82のような装置にはテンプレートマッチングのようなずらし量等の概念は無いし、比較目的や実現する為の構成が全く異なる)。
実施形態5に係る画像処理装置(画像圧縮装置)は、2値や多値の入力画像から特定のパターン(画像)を探しながら辞書画像とマッチングを行い、一致するものが無ければ辞書に登録する装置であって、画像マッチングの誤判定を減らすことに優れる。動的に辞書を作成する時に判断するSymbol(Pattern)と辞書画像の一致判定を行うパラメータを、辞書画像と比較するSymbol(Pattern)画像の情報を用いて自動で決定する。
実施形態5に係る画像処理装置は、任意の入力画像からある領域を取り出し、その領域画像が1つ以上の辞書画像と一致しているかを判断し、一致していなければ辞書に登録する。実施形態5に係る画像処理装置は、以下のような各部によって構成される。
・領域画像抽出部
・マッチングパラメータ決定部
・一致判定部
・辞書登録部
(・辞書)
実施形態5に係る画像処理装置は、上記構成により、入力領域画像毎に最適なマッチングパラメータでマッチング判定をすることができ、誤判定を減らしつつ辞書を作成することができる。
図66に示す入力画像から文字を抽出し文字と辞書の一致判定を行い、最小限の辞書画像を作成したい場合について説明する。
実施形態5に係る画像処理装置を適用しない場合、つまりlossyパラメータの場合(一致判定条件が緩いもの)、以下のように判定される。
・両端のAは一致と判定
・中央のlと1も一致と判定
最終的な画像は図67に示すようになり、『l』と『1』の区別がつかなくなる。
また、near-losslessパラメータの場合(一致判定条件が厳しいもの)、以下のように判定される。
・両端のAは不一致と判定
・中央のlと1も不一致と判定
『l』『1』を区別する為にパラメータを厳しくすると、最終的な画像は図68に示すようになり、両端の『A』も一致しなくなり、高圧縮できなくなる。
実施形態5に係る画像処理装置は、サイズの大きいSymbolの比較はlossyパラメータで、サイズの小さいSymbolの比較はnear-losslessパラメータで処理する。その結果、以下のように判定される。
・両端のAは一致と判定
・中央のlと1も不一致と判定
この場合、最終的な画像は図69に示すようになる。つまり、上記条件を加えることにより必要な画質を保ちつつ、効果的に圧縮することができる。
以下、本発明の実施形態5について詳細に説明する。
図70は、本発明の実施形態5−1に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図であり、図76は、本発明の実施形態5−1に係る画像処理装置(画像圧縮装置)のマッチングパラメータ決定部5001の詳細を示す図である。
実施形態5−1に係る画像処理装置は、2値や多値の入力画像から特徴画像(文字画像)を抽出し、同じと思われる文字は同一の辞書画像として抽出することにより入力画像に存在する文字タイプを抽出する。なお、特徴画像は、文字画像以外に、記号やテクスチャ等の繰り返し発生し得る特徴を持つ画像すべてを指す。
実施形態5−1に係る画像処理装置は、2値や多値の入力画像を入力することにより、入力画像に含まれる重複しない2値や多値の文字画像を得ることができる。これにより2値や多値の入力画像中にどのようなタイプの文字が存在するかを確認することができる。これは例えば非常用漢字(特殊文字)が使われていないかの確認等に使える。
図71は、入力画像の一例を示し、図72〜図75は、辞書バッファ5003にバッファリングされた入力画像の一例を示す図である。特徴画像抽出部5000は、例えば、図71に示す入力画像から、既存の文字切り出し処理を用いて、文字を順に抽出し、図72〜図75に示す特徴画像(特徴画像情報I5001)を出力する。
図76は、上記したマッチングパラメータを決定するマッチングパラメータ決定部5001の概略構成を示すブロック図である。マッチングパラメータ決定部5001は、特徴画像抽出部5000より抽出された特徴画像情報I5001を入力として、マッチングパラメータの決定を行う。ここでマッチングパラメータとは画像同士が一致・不一致しているか否かを判定するための閾値やマッチングアルゴリズムのサブファンクションの動作のON/OFFを制御をする為のパラメータである。
これらのパラメータを特徴画像情報I5001より決定する。このパラメータの決定方法として、特徴画像情報I5001の画像幅・高さを用いて決定する。マッチングパラメータ決定部5001は、『画像幅×2 < 画像高さ』である場合にはマッチング条件を厳しくする等といった条件が示されており、マッチングパラメータを決定する。
例えば、『画像幅×2 < 画像高さ』の場合はマッチング条件が厳しくなるようにマッチングパラメータを調整、『画像幅×2 >= 画像高さ』の場合はマッチング条件が緩くなるようにマッチングパラメータを調整する。
図72に示す入力画像の左端の『A』という特徴画像は後者の条件に当てはまるので、マッチング条件が緩いパラメータが選択される。ここで決定したマッチングパラメータP5003が出力される。
その他のマッチングパラメータの決定方法としては、以下のようなものが挙げられる。
(1)徴画像情報のメタデータ(画像幅・高さ・解像度・注釈情報等)を抽出し、その情報を用いてマッチングパラメータを決定する。
例1:画像幅を用いる
fやl等幅の狭い文字は誤判定し易い場合があるので、幅の狭い文字のみ一致条件を厳しくして誤判定を減らすことができる。
例2:注釈(文字タイプ:日・英・数字)
言語間のマッチングミスを減らすことができる。1(数字のイチ)とl(英語の小文字のエル)も明確に分離できる。
(2)特徴画像情報のノイズ量を抽出し、その情報を用いてパラメータを決定する。例えば2値画像の単純2値画像と誤差拡散文字を明確に区別できる。
(3)特徴画像情報の色数をカウントし、その情報を用いてマッチングパラメータを決定する。あらかじめ色情報を見ておくことにより、カラー用のマッチング条件に変えるといったことができ、マッチング精度向上や処理の高速化が可能となる。
(4)特徴画像情報の線幅を抽出し、その情報を用いてマッチングパラメータを決定する。細い線は少し太くなってしまっただけでも目立つので、その対処方法として有効である。すべて一律で一致判定を厳しくすると、あまり線幅の変化が分からない太い線の一致判定率が悪くなる。
(5)特徴画像情報の傾きを抽出し、その情報を用いてマッチングパラメータを決定する。文章などの場合は少し傾いただけでも目立つので、その対処方法として有効である。
一致判定部5002は、特徴画像情報I5001とマッチングパラメータ決定部5001で決定したマッチングパラメータP5002を入力として、特徴画像情報I5001が辞書バッファ5003に登録されている辞書画像と一致(類似)しているかを判定する。その結果(一致・不一致)を一致判定フラグF5004として出力する。
例えば、この時点では辞書には何も登録されていないので、一致判定フラグF5004を不一致として出力する。
辞書登録部5004は、一致判定フラグF5004が不一致だった場合、特徴画像情報I5001を辞書バッファ5003に登録する。一致判定フラグF5004が一致だった場合、特徴画像情報I5001を辞書バッファ5003へ登録しない。
図72に示すケースでは、一致判定フラグF5004は不一致なので、特徴画像情報I5001を辞書バッファ5003に登録する。同様の処理を次の「1」「l」「A」についても行い、図72〜図75は、両端のAのみ一致した例を示す。
一致判断条件(マッチング条件)を固定にしてしまっている場合、例えばマッチング条件を一律で厳しくしてしまった場合は、図71に示す入力画像の文字がすべて不一致と判定されてしまい、一致と判断して欲しいレベルの文字の違いまで不一致とされてしまう。
逆にマッチング条件を一律で緩くしてしまった場合、両端の「A」は一致と判定されるが、中央の「1(イチ)」と「l(エル)」も同じと判定されてしまい、復元時に望む情報が得られない。
本実施形態5−1の画像処理装置は、マッチングパラメータを動的に変更させることにより、あらかじめ間違え易いと思われる特徴画像のみマッチング条件を厳しくすることが可能となる為、望む結果を得やすくなる。
図77は、本発明の実施形態5−2に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図である。
実施形態5−2に係る画像処理装置は、2値や多値の入力画像から特徴画像(文字画像)を抽出し、同じと思われる文字は同一の辞書画像として保存し、さらにその位置情報を保存することにより必要なデータ量を削減することができる。特徴画像は文字画像以外に、記号やテクスチャ等の繰り返し発生し得る特徴を持つ画像すべてを指す。
実施形態5−2に係る画像処理装置は、2値や多値の入力画像を入力することにより、入力画像に含まれる重複しない2値や多値の文字画像と、各々入力画像に存在していた位置情報を得ることができる。これらの情報を得ることにより、ISO/IEC14492のSymbolDictionaryのJBIG2等を用いて画像の高圧縮化が実現できる。
図71は、入力画像の一例を示し、図78〜図81は、辞書バッファ5003にバッファリングされた入力画像と、位置情報バッファ5005にバッファリングされた位置情報の一例を示す図である。特徴画像抽出部5000は、例えば、図71に示す入力画像から、既存の文字切り出し処理を用いて、文字を順に抽出し、図78〜図81に示す特徴画像(特徴画像情報I5001)を出力する。まず、左の『A』という文字画像(特徴画像情報I5001)を抽出し、その位置情報(特徴画像位置情報I5002)も出力する。
マッチングパラメータ決定部5001は、特徴画像抽出部5000より抽出された特徴画像情報I5001を入力として、マッチングパラメータの決定を行う。ここでマッチングパラメータとは画像同士が一致・不一致しているか否かを判定するための閾値やマッチングアルゴリズムのサブファンクションの動作のON/OFFを制御をする為のパラメータである。
これらのパラメータを特徴画像情報I5001より決定する。このパラメータの決定方法として、特徴画像情報I5001の画像幅・高さを用いて決定する。マッチングパラメータ決定部5001は、『画像幅×2 < 画像高さ』である場合にはマッチング条件を厳しくする等といった条件が示されており、マッチングパラメータを決定する。
例えば、『画像幅×2 < 画像高さ』の場合はマッチング条件が厳しくなるようにマッチングパラメータを調整、『画像幅×2 >= 画像高さ』の場合はマッチング条件が緩くなるようにマッチングパラメータを調整する。
上記したマッチングパラメータを決定するマッチングパラメータ決定部5001は、図76に示す通りである。
図78に示す入力画像の左端の『A』という特徴画像は後者の条件に当てはまるので、マッチング条件が緩いパラメータが選択される。ここで決定したマッチングパラメータP5003が出力される。
その他のマッチングパラメータの決定方法としては、以下のようなものが挙げられる。
(1)徴画像情報のメタデータ(画像幅・高さ・解像度・注釈情報等)を抽出し、その情報を用いてマッチングパラメータを決定する。
例1:画像幅を用いる
fやl等幅の狭い文字は誤判定し易い場合があるので、幅の狭い文字のみ一致条件を厳しくして誤判定を減らすことができる。
例2:注釈(文字タイプ:日・英・数字)
言語間のマッチングミスを減らすことができる。1(数字のイチ)とl(英語の小文字のエル)も明確に分離できる。
(2)特徴画像情報のノイズ量を抽出し、その情報を用いてパラメータを決定する。例えば2値画像の単純2値画像と誤差拡散文字を明確に区別できる。
(3)特徴画像情報の色数をカウントし、その情報を用いてマッチングパラメータを決定する。あらかじめ色情報を見ておくことにより、カラー用のマッチング条件に変えるといったことができ、マッチング精度向上や処理の高速化が可能となる。
(4)特徴画像情報の線幅を抽出し、その情報を用いてマッチングパラメータを決定する。細い線は少し太くなってしまっただけでも目立つので、その対処方法として有効である。すべて一律で一致判定を厳しくすると、あまり線幅の変化が分からない太い線の一致判定率が悪くなる。
(5)特徴画像情報の傾きを抽出し、その情報を用いてマッチングパラメータを決定する。文章などの場合は少し傾いただけでも目立つので、その対処方法として有効である。
一致判定部5002は、特徴画像情報I5001とマッチングパラメータ決定部5001で決定したマッチングパラメータP5002を入力として、特徴画像情報I5001が辞書バッファ5003に登録されている辞書画像と一致(類似)しているかを判定する。その結果(一致・不一致)を一致判定フラグF5004として出力する。
もし、一致している場合は、一致している辞書情報(ID等:一致辞書情報I5005)も出力する。
例えば、この時点では辞書には何も登録されていないので、一致判定フラグF5004を不一致として出力する。
辞書登録部5004は、一致判定フラグF5004が不一致だった場合、特徴画像情報I5001にID番号等の管理情報を付与して辞書バッファ5003に登録する。また登録判定フラグF5006をONにし、登録したという情報を出力する。また登録した辞書情報(ID等:登録辞書情報I5007)も出力する。一致判定フラグF5004が一致だった場合、辞書バッファ5003への登録は行わないし、登録辞書情報I5006の出力も不要である。
図78に示すケースでは、一致判定フラグF5004は不一致なので、特徴画像情報I5001に『ID番号=1』という管理情報を付与して辞書バッファ5003に登録する。また登録した辞書情報(『ID=1』:登録辞書情報I5007)も出力する。位置情報登録部5005は、特徴画像の位置情報を位置情報バッファ5006に登録する。
一致判定フラグF5004が一致だった場合は、一致辞書情報I5005と特徴画像位置情報I5002の情報をリンクさせて位置情報バッファ5006に登録する。一致判定フラグF5004が不一致だった場合は、登録辞書情報I5006と特徴画像位置情報I5002の情報をリンクさせて位置情報バッファ5006に登録する。
図78に示すように、この時点(左の『A』)では不一致なので、ID1:座標(0,0)といった情報を位置情報バッファ5006に保存する。図78は、この時点での辞書バッファ5003と位置情報バッファ5006の状態を示す図である。
同様の処理を次の「1」「l」「A」についても行い、図78〜図81は、両端のAのみ一致した例を示す。
パラメータを固定にしてしまっている場合、例えばマッチング条件を一律で厳しくしてしまった場合は、図5の入力画像の文字がすべて不一致と判定されてしまう為、データ量が削減できない。
逆にマッチング条件を一律で緩くしてしまった場合、両端の「A」は一致と判定されるが、中央の「1(イチ)」と「l(エル)」も同じと判定されてしまい、復元時に望む情報が得られない。
本実施形態5−2の画像処理装置は、マッチングパラメータを動的に変更させることにより、あらかじめ間違え易いと思われる特徴画像のみマッチング条件を厳しくすることが可能となる為、望む結果を得易くなる。そのため画質(情報)を保った上でデータ量を削減することができる(両端のAは一致、中央の2文字は不一致(図71のような結果))。
以下に、上記した実施形態5−1と5−2についてまとめる。
(1)画像処理装置は、任意の入力画像からある領域を取り出し、その領域画像が1つ以上の辞書画像と一致しているかを判断し、一致していなければ辞書に登録するような画像処理装置であって、入力画像から1つ以上の領域画像を生成する領域画像作成部と、領域画像作成部で作成された領域画像を入力としてマッチングパラメータを決定し出力するマッチングパラメータ決定部と、領域画像作成部で作成された領域画像と辞書にある辞書画像が一致しているかをマッチングパラメータ決定部で決定したマッチングパラメータで判定する一致判定部と、一致判定部で判定された一致判定結果が不一致と判断された場合、領域画像を辞書に登録する辞書登録部と、を備える。
より具体的には、以下の通りである。
(2)画像処理装置は、入力画像を特徴画像を抽出する特徴画像抽出部と、特徴画像とマッチングパラメータを入力として、特徴画像と辞書に登録されている辞書画像が一致しているのかを判定し、一致判定結果を出力する一致判定部と、一致判定結果と特徴画像を入力として、一致判定結果が不一致の場合のみ特徴画像情報を辞書に登録する画像処理装置であって、特徴画像を入力としてマッチングパラメータを決定するマッチングパラメータ決定部を備える。特徴画像の特徴に併せてマッチングをすることができるので、高精度なマッチング(一致判定)が可能となる。よって高精度な辞書画像を得ることができる。
(3)画像処理装置は、画像から特徴画像を抽出し特徴画像情報と特徴画像の位置情報を出力する特徴画像抽出部と、特徴画像とマッチングパラメータを入力として、特徴画像と辞書に登録されている辞書画像が一致しているのかを判定し、一致判定結果と一致している辞書の情報を出力する一致判定部と、特徴画像と一致判定部の出力である一致判定結果を入力とし、不一致の場合のみ特徴画像を辞書に登録し登録した辞書の情報を出力する辞書登録部と、特徴画像の位置情報と、一致判定結果、一致判定部から一致判定された場合のみに出力される一致辞書情報と、不一致だった場合のみ辞書登録部から出力される登録辞書情報を入力とし、一致判定結果が一致であれば一致辞書情報と特徴画像位置情報をリンクさせて辞書の位置情報として出力、不一致であれば登録辞書情報と特徴画像位置情報をリンクさせて辞書の位置情報として出力する位置情報登録部を備える画像処理装置であって、特徴画像を入力としてマッチングパラメータを決定するマッチングパラメータ決定部を備える。特徴画像の特徴に併せてマッチングをすることができるので、高精度なマッチング(一致判定)が可能となる。また辞書画像とその位置情報を出力するので、画質不具合の少ない高精度・高圧縮な辞書圧縮ファイルが生成できる。
次に、本発明の実施形態6について説明する。
2値画像を効率よく圧縮するために、画像ビットマップを辞書化してインデックス(該当辞書番号とその配置)と辞書を圧縮データとする方式を標準化したものとしてISO/IEC14492のJBIG2圧縮がある。JBIG2は文字領域・ハーフトーン領域・それ以外の領域と分類し各々適した圧縮方式を適用した方式である。
しかしこのようなSymbolとその位置情報を保存することにより圧縮させる方式(辞書圧縮)において、ある程度の異なりは同じと判断しSymbolを置き換える場合、マッチングをミスすると最悪の場合、文字などの情報が異なってしまう(情報が変化してしまう)。
そこで、実施形態6に係る画像処理装置(画像圧縮装置)は、図85〜図87に示すように、辞書データとは別に、非可逆マッチングにより発生する画質劣化を補う補完画像を作成し、復号時に重ね合わせることにより画質劣化を低減することができる。
図84は、本発明の実施形態6に係る画像処理装置(画像圧縮装置)の全体構成の一例を示す図である。画像処理装置は、マッチング判定部6000、辞書6001、セレクタ6002、差分画素抽出部6003、差分画素登録部6004、差分画像バッファ6005を備える。
具体的には、図85に示すように、マッチング判定部6000及び辞書6001による非可逆マッチングによる辞書圧縮において、差分画素抽出部6003が黒画素が白画素に変化する画素を抽出し、差分画素登録部6004が抽出画素群をその他の画像として持ち、差分画像バッファ6005が復号時に差分画像を出力し、差分画像と辞書データと重ね合わせることにより画素変化を防ぐ。なお、黒画素:bit=1、白画素:bit=0とする。
また、図86に示すように、マッチング判定部6000及び辞書6001による非可逆マッチングによる辞書圧縮において、差分画素抽出部6003が白画素が黒画素に変化する画素を抽出し、差分画素登録部6004が抽出画素群をその他の画像として持ち、差分画像バッファ6005が復号時に差分画像を出力し、差分画像と辞書データと重ね合わせることにより画素変化を防ぐ。なお、黒画素:bit=1、白画素:bit=0とする。
また、図87に示すように、マッチング判定部6000及び辞書6001による非可逆マッチングによる辞書圧縮において、差分画素抽出部6003が情報が変化する画素を抽出し、差分画素登録部6004が抽出画素群をその他の画像として持ち、差分画像バッファ6005が復号時に差分画像を出力し、差分画像と辞書データと重ね合わせることにより画素変化を防ぐ。なお、黒画素:bit=1、白画素:bit=0とする。
以下に、上記した実施形態6についてまとめる。
(1)画像処理装置は、Symbolとその位置情報を保存し、画像を圧縮する場合に、ある程度の異なりは同じと判断しSymbolを置き換える場合に発生する、画素の差を差分画像として保存する。これにより、効果的に圧縮を行うことができ、かつ辞書化(非可逆マッチング)による情報劣化を低減させる。状況に応じて多少の画質劣化を気にしないような場合は、辞書情報の復号のみ実行し、高速表示(差分画像の復号をしない)が可能である。このように高速表示/画質優先表示を切り替えることができる。
より具体的には、以下の通りである。
(2)画像処理装置は、画像情報を辞書ビットマップとその位置情報に分離し保存することにより圧縮する画像を入力とし、辞書化対象画像(Symbol画像)を出力するSymbol抽出部と、Symbol画像を入力とし、それが辞書に登録されている辞書Symbolと一致しているかを判定し、一致判定結果を出力するSymbol一致判定部と、Symbol画像と一致判定結果を入力とし、Symbolが一致している場合は、一致辞書Symbolの情報とSymbol位置情報を辞書バッファに登録、Symbolが一致していない場合は、Symbol情報とSymbol位置情報を辞書に登録するSymbol・Symbol位置情報登録部と、を備え、2値Symbol画像情報と辞書データを入力として、Symbolと辞書データが一致しているかを判定するマッチング判定部6000と、2値Symbolを辞書に登録されているSymbolに置き換えることにより、画素情報が変化する画素を抽出する差分画素抽出部6003と、差分画素抽出部の出力である差分画像を差分画像バッファに登録する差分画素登録部6004と、差分画素抽出部の処理をするか否かを切り替えるセレクタ6002と、を備える。
なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
以下、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[1]
入力画像を分析する分析手段と、
前記分析手段の分析結果に基づき第1のグループに属する第1の画像を第1の圧縮パラメータで圧縮し、第2のグループに属する第2の画像を前記第1の圧縮パラメータより画像劣化をする可能性のある第2の圧縮パラメータで圧縮する圧縮手段と、
を備えた画像処理装置。
[2]
前記分析手段は、前記入力画像に含まれた各文字情報を認識し、
前記圧縮手段は、文字認識結果に基づき前記第1のグループに属する第1の文字画像を前記第1の圧縮パラメータで圧縮し、前記第2のグループに属する第2の文字画像を前記第2の圧縮パラメータで圧縮する[1]に記載の画像処理装置。
[3]
前記圧縮手段は、前記第2の文字情報と同一と判定された第3の文字画像を、前記第2の画像に対応した第2の符号化情報により圧縮する[2]に記載の画像処理装置。
[4]
前記圧縮手段は、前記第1の文字画像に対応した第1の符号化情報を生成し、前記第1の文字画像を前記第1の符号化情報により圧縮し、前記第2の文字画像に対応した第2の符号化情報を生成し、前記第2の文字画像を前記第2の符号化情報により圧縮し、前記第3の文字画像を前記第2の符号化情報により圧縮する[3]に記載の画像処理装置。
[5]
前記圧縮手段は、前記第1の文字画像に対応した前記第1の符号化情報と第1の位置情報を生成し、前記第2の文字情報に対応した前記第2の符号化情報と第2の位置情報を生成し、前記第1の文字画像を前記第1の符号化情報と前記第1の位置情報により圧縮し、前記第2の文字画像を前記第2の符号化情報と前記第2の位置情報により圧縮し、前記第3の文字画像を前記第2の符号化情報と前記第3の文字情報に対応した第3の位置情報により圧縮する[4]に記載の画像処理装置。
[6]
前記分析手段は、文字認識結果に基づき所定の文字列毎に被圧縮画像を作成する[2]に記載の画像処理装置。
[7]
前記分析手段は、文字認識結果に基づき数字の画像を前記第1の圧縮パラメータで圧縮する[2]に記載の画像処理装置。
[8]
前記分析手段は、文字認識結果に基づき特定のキーワードに続く数字又は数列の画像を前記第1の圧縮パラメータで圧縮する[2]に記載の画像処理装置。
[9]
前記分析手段は、前記入力画像に含まれた文字・非文字領域情報のレイアウトを分析し、
前記圧縮手段は、レイアウト分析結果に基づき前記第1のグループに属する見出し、表、又はグラフの画像を前記第1の圧縮パラメータで圧縮し、前記第2のグループに属する前記見出し、表、又はグラフに該当しない画像を前記第2の圧縮パラメータで圧縮する[1]に記載の画像処理装置。
[10]
入力画像を分析し、
分析結果に基づき第1のグループに属する第1の画像を第1の圧縮パラメータで圧縮し、第2のグループに属する第2の画像を前記第1の圧縮パラメータより画像劣化をする可能性のある第2の圧縮パラメータで圧縮する画像処理方法。