JP2009272714A

JP2009272714A - 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体

Info

Publication number: JP2009272714A
Application number: JP2008119152A
Authority: JP
Inventors: Masaru Sekiguchi; 優関口
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2008-04-30
Filing date: 2008-04-30
Publication date: 2009-11-19

Abstract

【課題】
文書画像の文字を抽出する画像処理装置において、適切な大サイズ文字領域を取得し、大サイズ文字を正しく抽出する。
【解決手段】
画像処理部７は、装置に入力された文書画像に基づいて大サイズ文字領域を抽出し、大サイズ文字領域のエッジ画像と境界線画像を作成する。画像処理部７は、エッジ画像の黒画素をｅｎ、境界線画像の黒画素をｂｎとし、両画像における黒画素の分布を１文字単位で測定し、文字領域における黒画素の一致比率ｐ（ｅｎ／ｂｎ＝ｐ）を算出する。画像処理部７は、予め設定された一致比率ｐの閾値に基づいて、誤抽出された領域を除外し大サイズ文字の領域を抽出する。
【選択図】図１

Description

本発明は、文書画像の文字を抽出する画像処理装置、同画像処理装置における文字を抽出するための画像処理方法、上記画像処理装置の各手段の機能をコンピュータで実現するためのプログラム、同プログラムを記録した記録媒体に関する。

従来、スキャナをはじめとする画像読取装置や、メモリカード等の記憶装置から文書画像を読み込み、読み込んだ文書画像から文字領域と図、写真などの画像領域を分離して、文字を抽出する画像処理が行われている。
このような文字領域の抽出処理は、背景色と文字に用いられる色のコントラストが大きい文字の特徴と、文字に比べて多様な色彩を持つ図や写真の特徴を利用して、文書画像から文字要素を抽出し、これを連結させて文字領域が抽出される。
しかし、画像のコントラストの差を画素の濃度によって判別して文字要素を抽出するとき、所定濃度の画素数が画像領域に予め設定した閾値以上検出された場合、画像領域を誤抽出することがある。

このような誤抽出を無くすため、抽出された特定領域候補からマスク画像（特定領域候補を表している矩形内の画素に対応する位置をＯＮ、その他の領域の画素に対してはＯＦＦとする画像）を作成し、マスク画像に対して文字領域の確からしさを表す確信度を算出し、この確信度に応じてマスク画像を修正し、マスク画像ＯＮの画素を元の画像データから取り出すことによって、元画像から特定領域の画像だけを抽出することにより、文字領域の抽出精度を向上させた画像処理装置が知られている（特許文献１参照）。

この画像処理装置では、上記確信度を算出するに当たり、とくに文字領域の面積が画像領域の面積よりも狭い特徴に着目して、抽出した文字領域の幅や高さの比によって確信度を算出し、予め設定した閾値よりも低い場合にはマスク画像を削除することを行っている。
つまり、一般に多用される文字である通常サイズ文字のフォントサイズは、１０ポイント前後と比較的小さめであり、文字の特徴と、図、写真の特徴は大きく異なるため上記確信度を用いて文字領域を抽出することができる。
ところが、上記確信度によって文字領域を抽出すると、例えば新聞を例に採ると、新聞では、図１０に示すようにサイズの異なる文字、写真が混在しており、枠内の大サイズ文字を抽出しようとして画像領域を誤抽出してしまうことが起こり得る。

図１１は、大サイズ文字を抽出するときに誤抽出された画像領域を示した図である。
図中の枠は、抽出領域であり、句点より右側の領域は、画像領域が誤って抽出された領域である。この画像領域の誤抽出は、とくに大サイズ文字がタイトル文字などデザイン性の強い文字であり、大サイズ文字領域の画素濃度が画像領域の画素濃度と近いときに生じる。

このような理由から、一般に文書画像において、画像内の文字、写真、図、表などの要素を領域として自動抽出する場合、抽出率を１００％にするのは困難である。とくに、大サイズ文字を抽出するときは、単純に画像処理装置に大サイズ文字抽出処理を実行させる場合、その抽出率を上げることは困難である。

ところで、抽出率を向上するための画像処理装置として、装置に入力された原画像を１／２と、１／４の大きさに縮小した複数の解像度の画像に変換し、縮小した各解像度の画像に周波数処理をするための直交変換を施し、変換した各解像度の直交変換領域から特徴量を計算して、文字の大きさに依存しない文字領域の抽出を行う画像処理装置も知られている（特許文献２参照）。

この画像処理装置は、文字に使用される色の特徴に着目し、色に応じた領域を抽出するため、文字の大きさによらず精度良く文字領域を抽出することができる。
しかし、この画像処理装置の文字領域の抽出方法は、文書画像を予め８×８に分割したブロックの中央部に着目して色相を検出するため、「Ｏ」（アルファベットのオー）など文字の中央に色が集中しない文字においては、誤抽出する可能性がある。

また、この画像処理装置では、文字色以外の文字領域の判断材料として、文書画像を分割したブロック内のエッジの強度に着目して文字の抽出を行っている。
エッジの強度に基づく文字の抽出は、ブロック内でエッジを構成している画素数が予め設定した閾値を越えるか否かを判断し、閾値を越えたブロックを文字領域と判断して行うため、文字の大きさに依存しない安定した文字領域の抽出が可能でその抽出率を向上させることができる。
しかし、前述の通り大サイズ文字は、タイトル文字などデザイン性の高い文字であるため、通常サイズ文字と比較して、大サイズ文字領域の濃度と画像領域の画素濃度との濃度差が小さいため、図や写真などと特徴が似ており、文字色以外にエッジの強度のみで文字領域を判別すると画像領域を誤抽出する可能性が残る。
特開２００６−２６２０２７号公報特開平９−１８６８５８号公報

本発明の目的は、文書画像の文字を抽出する画像処理装置によって、大サイズ文字でも正しく抽出できるようにすることである。

第１の発明は画像処理装置であって、入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定手段と、前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成手段と、前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成手段と、前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断手段と、を備えたことを特徴とした。
第２の発明は画像処理装置における画像処理方法であって、入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定工程と、前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成工程と、前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成工程と、前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断工程と、を備えたことを特徴とする。
第３の発明は、コンピュータを、第１の発明の画像処理装置における各手段として機能させるためのプログラムである。
第４の発明は、第３の発明に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体である。

（作用）
本発明の画像処理装置は、入力画像に対して２値化画像を作成し、この２値化画像から単文字候補領域を設定する。また、これと併せて入力画像からエッジ画像及び境界線画像を作成し、上記２値化画像で設定された単文字候補領域について、それぞれ上記エッジ画像と境界線画像における黒画素を計数し、その数の一致度が所定の閾値以上である場合は正しい単文字候補領域と判断し（一致度が閾値に達しなかったときは、当該単文字候補領域を文字候補から除外する処理を行う）、正しい単文字候補領域を統合して文字候補領域を適正に抽出する。

本発明によれば、文書画像の文字を抽出する画像処理装置において、文書画像内の大サイズ文字の要素抽出率を限りなく１００％に近づけることができる。

本発明の実施形態に係る画像処理装置について説明する。
図１は、本発明に係る画像処理装置の構成を示すブロック図である。
画像処理装置は、装置全体の制御を行うＣＰＵ１、原稿を読み取るスキャナ部２、ハードディスク１１および、ＣＤ／ＤＶＤ／メモリカード１０などの外部記憶部３、入力された画像データを記憶する入力画像メモリ部４、例えば入力画像をプレビュー表示する表示部５、文字抽出処理、文字か否かの判断などの所定の画像処理を行う画像処理部７、画像処理部７によって行なわれた文字抽出処理の領域情報および、文字か否かの判断を行った領域情報を格納する領域情報格納部６から成る。

また、本画像処理装置は、通信制御部８を介して、ネットワーク網９から入力画像を受信し、他方、画像処理部７によるエッジ画像の生成処理などの所定処理の処理結果情報等を送信する。尚、画像処理部７で処理をした結果情報は、外部記憶部３に記憶される。

図２は、画像処理部７の機能を示す機能ブロック図である。
画像処理部７は、入力画像メモリ部４から入力された画像データを読み出す画像データ取得手段７０、入力された画像データから文字を抽出する文字候補領域を設定する領域設定手段７１、入力された画像データから低解像度画像、２値画像、エッジ画像、境界線画像を生成する生成手段７２、文字候補領域が文字領域か否かを判断する判断手段７７、判断手段７７によって文字領域と判断された領域から文字を抽出する文字抽出手段７９、から成る。

判断手段７７の計数手段７８は、後述するように生成されたエッジ画像と境界線画像において単文字候補領域内の黒画素をカウントする手段である。
低解像度画像生成手段７３は、入力画像の解像度が例えば３００ｄｐｉ（dot per inch）のとき、１／２の大きさまで縮小する低解像度処理を行う。この低解像度化処理は、通常サイズ文字に対応する文字列の抽出を不可にして、大サイズ文字のみを抽出できるようにするために行う。
なお、入力画像に対する縮小倍率は、基本的に１／２であるが、入力画像の状況に応じて任意で倍率を指定することができる。

２値画像生成手段７４は、入力画像の画素値に対して予め閾値を設定し、閾値に基づいて当該入力画像の白と黒の２値画像を生成する。
エッジ画像生成手段７５は、例えば８種類のマスクを用いて入力画像の濃度値とマスクパターンに対応する値を計算し、対応するエッジを決定するプレウィッツ（Ｐｒｅｗｉｔｔ）の方法などを用いてエッジ画像を生成する。

境界線画像生成手段７６は、例えば、特開昭６３−２９８９０号公報や、特許２８４４７０５号に記載されているように、対象画像に対して行方向に平行な走査を行うラスタ走査を行い、予め設定した画素の検出に基づいて境界線を生成する画像認識用境界線追跡方法および、縁面距離評価方法などを用いて境界線画像を生成する。

領域設定手段７１は、例えば、特許文献１に記載されているように、黒画素成分の最小単位を検出して、検出した黒画素成分と近傍領域にある黒画素成分を連結して矩形領域を作成し、この矩形領域をさらに連結することにより文字候補領域を抽出すると共に、抽出した文字候補領域に１文字単位で文字候補領域を設定する単文字候補領域設定処理を行う。
なお、ここで行う単文字候補領域設定処理は、例えば、特許第２８９５１１５号に記載されているように、入力画像の２値画像において、一定値の画素数を越える区間を文字候補パターンとして切り出し、文字と文字の距離と、格納されている辞書などから、切り出したパターンの確からしさを評価することによって文字パターンを確定する文字切り出し方法などを用いて行う。

次に、以上で説明した本画像処理装置において、大サイズの文字認識を行うための処理について説明する。そこで、まず、入力画像から大サイズの文字領域の抽出処理から説明する。
図３は、画像処理装置の大サイズ文字領域を抽出する抽出処理の手順を示すフロー図である。
まず、外部記憶装置３からファイルの読み込み、スキャナ部２による原稿のスキャン、又は通信制御部８によるネットワーク経由で受信されたファイルの読み込み等によって、画像処理装置に画像データが入力され（Ｓ１０１）、このように入力された画像データは、入力画像メモリ部４に保存される。
入力画像メモリ部４に保存された画像データは、画像データ取得手段７０によって読み出されて低解像度画像生成手段７３に渡される。低解像度画像生成手段７３は読み出した画像データに低解像度化処理を行う（Ｓ１０２）。
低解像度化処理によって生成された低解像度画像データは、領域情報格納部６に保存される。

領域設定手段７１は、ステップＳ１０２において得た低解像度画像データに基づき、既に述べた従来の方法で文字候補領域の設定処理を行う（Ｓ１０３）。
判断手段７７は、設定された文字候補領域に対して文字領域か否かの判断を行い、誤抽出された領域を文字候補領域から削除する領域適正化処理ルーチンを実行する（Ｓ１０４）。
文字抽出手段７９は、領域適正化処理によって得た文字領域から文字を抽出し、続いて、図示しない印字装置或いは通信制御部８は抽出した文字（大文字）を出力する（Ｓ１０５）。

ここで、上記領域適正化処理のためのサブルーチンについて、図４のフロー図を参照して説明する。
上記領域適正化処理では、まず、入力画像からそれぞれ、２値画像生成手段７４は２値画像（図５Ａ）を生成し（Ｓ２０１）、エッジ画像生成手段７５はエッジ画像（図５Ｂ）を生成、（Ｓ２０２）、境界線画像生成手段７６は境界線画像（図５Ｃ）をそれぞれ生成する（Ｓ２０３）。次に、領域設定手段７１は、ステップＳ２０１にて生成した２値画像に対して単文字候補領域の設定を行う（Ｓ２０４）。

判断手段７７は、以下で説明するように、設定した単文字候補領域について文字判定処理を施して正しい文字候補領域か否かを判断し（Ｓ２０５）、正しくないと判断された単文字候補領域を文字候補領域から除外する（Ｓ２０６）。
判断手段７７は、残った単文字候補領域を統合して、文字候補領域の適正化を行う（Ｓ２０７）。

次ぎに、ステップＳ２０５における単文字候補領域の文字判定処理について説明する。
この文字判定処理は、エッジ画像と境界線画像の両画像における黒画素を照合することによって行う。
図６は、上記文字判定処理を行う場合の具体的な手法を説明するものであって、上記２値化画像に基づいて設定された単文字候補領域のそれぞれエッジ画像及び境界線画像について、水平方向にｘ軸、垂直方向にｙ軸をとって黒画素の分布を示した図である。

図中の菱形模様は、エッジ画像及び境界線画像を２値化したときの黒画素を示し、網点で示した領域は画素の測定対象領域を示している。
エッジ画像の輪郭は、画素の濃度変化により生成されるため境界線画像に比べて幅が広い。そのため、測定に当たっては、境界線画像では各座標ごとに黒画素の測定を行うのに対して、エッジ画像では、測定対象座標を含んだ近隣の画素（座標）、即ち対象座標の左右、上下の画素（座標領域）の測定を行う。

次に、測定したエッジ画像及び境界線画像における黒画素数を照合することにより、抽出した単文字候補領域が正しい文字領域か否かの判定処理を行う。図７はこの判断のための手順を示すフロー図である。
即ち、図７は、図４における単文字候補領域内の文字判定処理（Ｓ２０５）のサブルーチンを示すフロー図であり、この判定は、判断手段７７が画素のカウントを行う計数手段７８の計数値に基づいて行う。

ここで、境界線画像黒画素の測定が開始されると、計数手段７８は設定された単文字候補領域内の全ての画素の測定（計数）を行う。そのため、常に全ての測定が行われたか否かを検査し（Ｓ３０１）、未測定の領域があれば、即ち測定が終了していなければ（Ｓ３０１；Ｎｏ）、境界線画像の所定の座標、例えば、（ｘ３,ｙ３）に黒画素があるか否か判断する（Ｓ３０２）。
設定された単文字候補領域内の特定の座標（ｘ３、ｙ３）において境界線画像の黒画素（ｂｎ）が無いときは（Ｓ３０２；Ｎｏ）、次の座標に測定を移行する（Ｓ３０３）。
計数手段７８は、所定の座標に境界線画像の黒画素があるときは（Ｓ３０２；Ｙｅｓ）、境界線画像の黒画素（ｂｎ）の値として１をカウントする（Ｓ３０４）。

次に計数手段７８は、エッジ画像における上記特定の座標（ｘ３、ｙ３）とその上下左右１画素から成る測定対象領域に黒画素があるか否か判断し（Ｓ３０５）、測定対象の座標領域においてエッジ画像の黒画素（ｅｎ）が無いときは（Ｓ３０５；Ｎｏ）、次の座標に測定を移行する（Ｓ３０３）。
計数手段７８は、測定対象の座標領域（エッジ画像における網点領域）においてエッジ画像の黒画素があるときは（Ｓ３０５；Ｙｅｓ）、当該領域内で検出した黒画素の個数には関係なくエッジ画像の黒画素（ｅｎ）として１をカウントする（Ｓ３０６）。
計数手段７８は、ステップＳ３０２からステップＳ３０６までの一連の処理を単文字候補領域内の全ての画素について行い（Ｓ３０１；Ｙｅｓ）、計数処理を終了する。

判断手段７７は、上記計数処理によって上記両画像における黒画素の個数が計数されると、それぞれの黒画素数の比（一致比率ｐ＝エッジ画像の黒画素（ｅｎ）／境界線画像の黒画素（ｂｎ））を算出する。
ここで、それぞれ対応する単文字候補領域におけるエッジ画像のパターンと境界線画像のパターンの一致度を決める値として、一致比率ｐの閾値を予め設定しておく。閾値は値が大きくなるほど、エッジ画像と境界線画像の一致度が高くなることを表す。閾値の最大値は、勿論１００%（=１）である。

判断手段７７は、一致比率が閾値以上であるとき、即ち閾値≦一致比率ｐ（＝エッジ画像の黒画素（ｅｎ）／境界線画像の黒画素（ｂｎ））であるとき正しい文字領域と判断し、一致比率が閾値に達しないときは（閾値＞一致比率ｐ）、文字領域でないと判断する。
このように、一致比率ｐの閾値を設定することで、一般に写真画像領域ではエッジの強度が弱いため上記一致比率が低く、それによって画像領域を容易に除外することができ、その結果正しい文字領域の抽出を行うことができる。
なお、以上の説明では、エッジ画像の黒画素、境界線画像の黒画素に基づいて計数処理を行うものとして説明したが、逆に白画素を計数するようにしてもよい。

次に、以上で説明した本画像処理装置の処理の結果について具体的に説明する。
図８は、２値画像から領域設定手段７１によって文字候補領域を１文字単位で設定したイメージを示す図である。図の太枠は、１文字単位の文字候補領域を示しており、句点より右側の黒い領域は画像領域を誤抽出した領域である。
図９は、上記領域適正化処理によって誤抽出された画像領域を除外したイメージを示した図である。図中の実線部分は、領域適正化処理前の抽出領域を示し、破線部分は、処理後の抽出部分を示している。即ち、領域適正化処理後は、句点より右側の領域は、そのエッジ画像と境界線画像との黒画素数の一致率が閾値に達しないため、文字領域でないと判断されて画像領域から除外されている。

以上説明したように、本画像処理装置は、エッジ画像の画素数と境界線画像の画素数から文字と非文字を判定する。つまり、候補領域全体を注目して抽出する方法であるため、より精度の高い大サイズ文字領域を得ることができる。
また、光学式文字認識装置（ＯＣＲ）に本発明の画像処理装置を適用することで、文字認識処理等のアプリケーションに応用することができる。

画像処理装置における上記画像データ取得手段７０、領域設定手段７１、生成手段７２、判断手段７７、文字抽出手段７９は、本画像処理装置のコンピュータでプログラムを実行することによりその機能実現手段として実現することができる。

また、そのプログラムはコンピュータ読み取り可能な記録媒体に記録して、ユーザに提供することができる。記録媒体としては、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、あるいはハードディスクや半導体メモリなどの記録可能なタイプの媒体が含まれる。

本発明に係る画像処理装置の構成を示すブロック図である。画像処理装部の機能を示す機能ブロック図である。画像処理装置の大サイズ文字領域を抽出する画像処理の手順を示すフロー図である。領域適正化処理のサブルーチンを示すフロー図である。文字候補領域の２値画像、エッジ画像、境界線画像をそれぞれ示した図である。エッジ画像及び境界線画像について、水平方向にｘ軸、垂直方向にｙ軸をとって黒画素の分布を示す図である。単文字候補領域内の文字判定処理のサブルーチンを示すフロー図である。２値画像から領域設定手段によって文字候補領域を１文字単位で設定したイメージを示す図である。領域適正化処理によって誤抽出された画像領域を除外したイメージを示す図である。画像処理装置に入力された文書画像の一例として新聞画像を示す図である。大サイズ文字を抽出するときにおいて画像領域が誤抽出されたイメージを示す図である。

符号の説明

１・・・ＣＰＵ、２・・・スキャナ部、３・・・外部記憶装置、４・・・入力画像メモリ部、５・・・表示部、６・・・領域情報格納部、７・・・画像処理部、８・・・通信制御部、９・・・ネットワーク網、１０・・・ＣＤ−ＲＯＭ、１１・・・ハードディスク、７０・・・画像データ取得手段、７１・・・領域設定手段、７２・・・生成手段、７３・・・低解像度画像生成手段、７４・・・２値画像生成手段、７５・・・エッジ画像生成手段、７６・・・境界線画像生成手段、７７・・・判断手段、７８・・・計数手段、７９・・・文字抽出手段。

Claims

入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定手段と、
前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成手段と、
前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成手段と、
前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断手段と、
を備えたことを特徴とした画像処理装置。
請求項１に記載された画像処理装置において、
前記判断手段は、文字領域でないと判断した単文字候補領域を文字候補領域から除外し、かつ文字領域と判断した単文字候補領域を統合して文字候補領域とする画像処理装置。
請求項１又は２に記載された画像処理装置において、
前記入力画像の低解像度画像を生成する低解像度画像生成手段を備え、
前記領域設定手段は、前記低解像度画像において単文字候補領域を設定する画像処理装置。
請求項１ないし３のいずれかに記載された画像処理装置において、
前記入力画像の２値画像を生成する２値画像生成手段を備え、
前記領域設定手段は前記２値画像から単文字候補領域を設定する画像処理装置。
請求項１ないし４のいずれかに記載された画像処理装置において、
前記エッジ画像と前記境界線画像における対応する単文字候補領域の白又は黒画素数の計数を行う計数手段を備え、
前記判断手段は、前記計数手段によって計数された前記エッジ画像と前記境界線画像の白又は黒画素数の数に基づき単文字候補領域が文字領域か否かを判断する画像処理装置。
請求項５に記載された画像処理装置において、
前記判断手段は、前記計数手段によって計数された前記エッジ画像と前記境界線画像の白又は黒画素数の一致比率が所定の閾値以上であるとき、当該単文字領域候補が文字領域であると判断する画像処理装置。
画像処理装置における画像処理方法であって、
入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定工程と、
前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成工程と、
前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成工程と、
前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断工程と、
を備えたことを特徴とした画像処理方法。
請求項７に記載された画像処理方法において、
前記判断工程では、文字領域でないと判断した単文字候補領域を文字候補領域から除外し、かつ文字領域と判断した単文字候補領域を統合して文字候補領域とする画像処理方法。
コンピュータを、請求項１ないし６のいずれかに記載した画像処理装置における各手段として機能させるためのプログラム。
請求項９に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。