JP2009272714A - 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 - Google Patents
画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2009272714A JP2009272714A JP2008119152A JP2008119152A JP2009272714A JP 2009272714 A JP2009272714 A JP 2009272714A JP 2008119152 A JP2008119152 A JP 2008119152A JP 2008119152 A JP2008119152 A JP 2008119152A JP 2009272714 A JP2009272714 A JP 2009272714A
- Authority
- JP
- Japan
- Prior art keywords
- image
- character
- character candidate
- region
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】
文書画像の文字を抽出する画像処理装置において、適切な大サイズ文字領域を取得し、大サイズ文字を正しく抽出する。
【解決手段】
画像処理部7は、装置に入力された文書画像に基づいて大サイズ文字領域を抽出し、大サイズ文字領域のエッジ画像と境界線画像を作成する。画像処理部7は、エッジ画像の黒画素をen、境界線画像の黒画素をbnとし、両画像における黒画素の分布を1文字単位で測定し、文字領域における黒画素の一致比率p(en/bn=p)を算出する。画像処理部7は、予め設定された一致比率pの閾値に基づいて、誤抽出された領域を除外し大サイズ文字の領域を抽出する。
【選択図】 図1
文書画像の文字を抽出する画像処理装置において、適切な大サイズ文字領域を取得し、大サイズ文字を正しく抽出する。
【解決手段】
画像処理部7は、装置に入力された文書画像に基づいて大サイズ文字領域を抽出し、大サイズ文字領域のエッジ画像と境界線画像を作成する。画像処理部7は、エッジ画像の黒画素をen、境界線画像の黒画素をbnとし、両画像における黒画素の分布を1文字単位で測定し、文字領域における黒画素の一致比率p(en/bn=p)を算出する。画像処理部7は、予め設定された一致比率pの閾値に基づいて、誤抽出された領域を除外し大サイズ文字の領域を抽出する。
【選択図】 図1
Description
本発明は、文書画像の文字を抽出する画像処理装置、同画像処理装置における文字を抽出するための画像処理方法、上記画像処理装置の各手段の機能をコンピュータで実現するためのプログラム、同プログラムを記録した記録媒体に関する。
従来、スキャナをはじめとする画像読取装置や、メモリカード等の記憶装置から文書画像を読み込み、読み込んだ文書画像から文字領域と図、写真などの画像領域を分離して、文字を抽出する画像処理が行われている。
このような文字領域の抽出処理は、背景色と文字に用いられる色のコントラストが大きい文字の特徴と、文字に比べて多様な色彩を持つ図や写真の特徴を利用して、文書画像から文字要素を抽出し、これを連結させて文字領域が抽出される。
しかし、画像のコントラストの差を画素の濃度によって判別して文字要素を抽出するとき、所定濃度の画素数が画像領域に予め設定した閾値以上検出された場合、画像領域を誤抽出することがある。
このような文字領域の抽出処理は、背景色と文字に用いられる色のコントラストが大きい文字の特徴と、文字に比べて多様な色彩を持つ図や写真の特徴を利用して、文書画像から文字要素を抽出し、これを連結させて文字領域が抽出される。
しかし、画像のコントラストの差を画素の濃度によって判別して文字要素を抽出するとき、所定濃度の画素数が画像領域に予め設定した閾値以上検出された場合、画像領域を誤抽出することがある。
このような誤抽出を無くすため、抽出された特定領域候補からマスク画像(特定領域候補を表している矩形内の画素に対応する位置をON、その他の領域の画素に対してはOFFとする画像)を作成し、マスク画像に対して文字領域の確からしさを表す確信度を算出し、この確信度に応じてマスク画像を修正し、マスク画像ONの画素を元の画像データから取り出すことによって、元画像から特定領域の画像だけを抽出することにより、文字領域の抽出精度を向上させた画像処理装置が知られている(特許文献1参照)。
この画像処理装置では、上記確信度を算出するに当たり、とくに文字領域の面積が画像領域の面積よりも狭い特徴に着目して、抽出した文字領域の幅や高さの比によって確信度を算出し、予め設定した閾値よりも低い場合にはマスク画像を削除することを行っている。
つまり、一般に多用される文字である通常サイズ文字のフォントサイズは、10ポイント前後と比較的小さめであり、文字の特徴と、図、写真の特徴は大きく異なるため上記確信度を用いて文字領域を抽出することができる。
ところが、上記確信度によって文字領域を抽出すると、例えば新聞を例に採ると、新聞では、図10に示すようにサイズの異なる文字、写真が混在しており、枠内の大サイズ文字を抽出しようとして画像領域を誤抽出してしまうことが起こり得る。
つまり、一般に多用される文字である通常サイズ文字のフォントサイズは、10ポイント前後と比較的小さめであり、文字の特徴と、図、写真の特徴は大きく異なるため上記確信度を用いて文字領域を抽出することができる。
ところが、上記確信度によって文字領域を抽出すると、例えば新聞を例に採ると、新聞では、図10に示すようにサイズの異なる文字、写真が混在しており、枠内の大サイズ文字を抽出しようとして画像領域を誤抽出してしまうことが起こり得る。
図11は、大サイズ文字を抽出するときに誤抽出された画像領域を示した図である。
図中の枠は、抽出領域であり、句点より右側の領域は、画像領域が誤って抽出された領域である。この画像領域の誤抽出は、とくに大サイズ文字がタイトル文字などデザイン性の強い文字であり、大サイズ文字領域の画素濃度が画像領域の画素濃度と近いときに生じる。
図中の枠は、抽出領域であり、句点より右側の領域は、画像領域が誤って抽出された領域である。この画像領域の誤抽出は、とくに大サイズ文字がタイトル文字などデザイン性の強い文字であり、大サイズ文字領域の画素濃度が画像領域の画素濃度と近いときに生じる。
このような理由から、一般に文書画像において、画像内の文字、写真、図、表などの要素を領域として自動抽出する場合、抽出率を100%にするのは困難である。とくに、大サイズ文字を抽出するときは、単純に画像処理装置に大サイズ文字抽出処理を実行させる場合、その抽出率を上げることは困難である。
ところで、抽出率を向上するための画像処理装置として、装置に入力された原画像を1/2と、1/4の大きさに縮小した複数の解像度の画像に変換し、縮小した各解像度の画像に周波数処理をするための直交変換を施し、変換した各解像度の直交変換領域から特徴量を計算して、文字の大きさに依存しない文字領域の抽出を行う画像処理装置も知られている(特許文献2参照)。
この画像処理装置は、文字に使用される色の特徴に着目し、色に応じた領域を抽出するため、文字の大きさによらず精度良く文字領域を抽出することができる。
しかし、この画像処理装置の文字領域の抽出方法は、文書画像を予め8×8に分割したブロックの中央部に着目して色相を検出するため、「O」(アルファベットのオー)など文字の中央に色が集中しない文字においては、誤抽出する可能性がある。
しかし、この画像処理装置の文字領域の抽出方法は、文書画像を予め8×8に分割したブロックの中央部に着目して色相を検出するため、「O」(アルファベットのオー)など文字の中央に色が集中しない文字においては、誤抽出する可能性がある。
また、この画像処理装置では、文字色以外の文字領域の判断材料として、文書画像を分割したブロック内のエッジの強度に着目して文字の抽出を行っている。
エッジの強度に基づく文字の抽出は、ブロック内でエッジを構成している画素数が予め設定した閾値を越えるか否かを判断し、閾値を越えたブロックを文字領域と判断して行うため、文字の大きさに依存しない安定した文字領域の抽出が可能でその抽出率を向上させることができる。
しかし、前述の通り大サイズ文字は、タイトル文字などデザイン性の高い文字であるため、通常サイズ文字と比較して、大サイズ文字領域の濃度と画像領域の画素濃度との濃度差が小さいため、図や写真などと特徴が似ており、文字色以外にエッジの強度のみで文字領域を判別すると画像領域を誤抽出する可能性が残る。
特開2006−262027号公報
特開平9−186858号公報
エッジの強度に基づく文字の抽出は、ブロック内でエッジを構成している画素数が予め設定した閾値を越えるか否かを判断し、閾値を越えたブロックを文字領域と判断して行うため、文字の大きさに依存しない安定した文字領域の抽出が可能でその抽出率を向上させることができる。
しかし、前述の通り大サイズ文字は、タイトル文字などデザイン性の高い文字であるため、通常サイズ文字と比較して、大サイズ文字領域の濃度と画像領域の画素濃度との濃度差が小さいため、図や写真などと特徴が似ており、文字色以外にエッジの強度のみで文字領域を判別すると画像領域を誤抽出する可能性が残る。
本発明の目的は、文書画像の文字を抽出する画像処理装置によって、大サイズ文字でも正しく抽出できるようにすることである。
第1の発明は画像処理装置であって、入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定手段と、前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成手段と、前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成手段と、前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断手段と、を備えたことを特徴とした。
第2の発明は画像処理装置における画像処理方法であって、入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定工程と、前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成工程と、前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成工程と、前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断工程と、を備えたことを特徴とする。
第3の発明は、コンピュータを、第1の発明の画像処理装置における各手段として機能させるためのプログラムである。
第4の発明は、第3の発明に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体である。
第2の発明は画像処理装置における画像処理方法であって、入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定工程と、前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成工程と、前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成工程と、前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断工程と、を備えたことを特徴とする。
第3の発明は、コンピュータを、第1の発明の画像処理装置における各手段として機能させるためのプログラムである。
第4の発明は、第3の発明に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体である。
(作用)
本発明の画像処理装置は、入力画像に対して2値化画像を作成し、この2値化画像から単文字候補領域を設定する。また、これと併せて入力画像からエッジ画像及び境界線画像を作成し、上記2値化画像で設定された単文字候補領域について、それぞれ上記エッジ画像と境界線画像における黒画素を計数し、その数の一致度が所定の閾値以上である場合は正しい単文字候補領域と判断し(一致度が閾値に達しなかったときは、当該単文字候補領域を文字候補から除外する処理を行う)、正しい単文字候補領域を統合して文字候補領域を適正に抽出する。
本発明の画像処理装置は、入力画像に対して2値化画像を作成し、この2値化画像から単文字候補領域を設定する。また、これと併せて入力画像からエッジ画像及び境界線画像を作成し、上記2値化画像で設定された単文字候補領域について、それぞれ上記エッジ画像と境界線画像における黒画素を計数し、その数の一致度が所定の閾値以上である場合は正しい単文字候補領域と判断し(一致度が閾値に達しなかったときは、当該単文字候補領域を文字候補から除外する処理を行う)、正しい単文字候補領域を統合して文字候補領域を適正に抽出する。
本発明によれば、文書画像の文字を抽出する画像処理装置において、文書画像内の大サイズ文字の要素抽出率を限りなく100%に近づけることができる。
本発明の実施形態に係る画像処理装置について説明する。
図1は、本発明に係る画像処理装置の構成を示すブロック図である。
画像処理装置は、装置全体の制御を行うCPU1、原稿を読み取るスキャナ部2、ハードディスク11および、CD/DVD/メモリカード10などの外部記憶部3、入力された画像データを記憶する入力画像メモリ部4、例えば入力画像をプレビュー表示する表示部5、文字抽出処理、文字か否かの判断などの所定の画像処理を行う画像処理部7、画像処理部7によって行なわれた文字抽出処理の領域情報および、文字か否かの判断を行った領域情報を格納する領域情報格納部6から成る。
図1は、本発明に係る画像処理装置の構成を示すブロック図である。
画像処理装置は、装置全体の制御を行うCPU1、原稿を読み取るスキャナ部2、ハードディスク11および、CD/DVD/メモリカード10などの外部記憶部3、入力された画像データを記憶する入力画像メモリ部4、例えば入力画像をプレビュー表示する表示部5、文字抽出処理、文字か否かの判断などの所定の画像処理を行う画像処理部7、画像処理部7によって行なわれた文字抽出処理の領域情報および、文字か否かの判断を行った領域情報を格納する領域情報格納部6から成る。
また、本画像処理装置は、通信制御部8を介して、ネットワーク網9から入力画像を受信し、他方、画像処理部7によるエッジ画像の生成処理などの所定処理の処理結果情報等を送信する。尚、画像処理部7で処理をした結果情報は、外部記憶部3に記憶される。
図2は、画像処理部7の機能を示す機能ブロック図である。
画像処理部7は、入力画像メモリ部4から入力された画像データを読み出す画像データ取得手段70、入力された画像データから文字を抽出する文字候補領域を設定する領域設定手段71、入力された画像データから低解像度画像、2値画像、エッジ画像、境界線画像を生成する生成手段72、文字候補領域が文字領域か否かを判断する判断手段77、判断手段77によって文字領域と判断された領域から文字を抽出する文字抽出手段79、から成る。
画像処理部7は、入力画像メモリ部4から入力された画像データを読み出す画像データ取得手段70、入力された画像データから文字を抽出する文字候補領域を設定する領域設定手段71、入力された画像データから低解像度画像、2値画像、エッジ画像、境界線画像を生成する生成手段72、文字候補領域が文字領域か否かを判断する判断手段77、判断手段77によって文字領域と判断された領域から文字を抽出する文字抽出手段79、から成る。
判断手段77の計数手段78は、後述するように生成されたエッジ画像と境界線画像において単文字候補領域内の黒画素をカウントする手段である。
低解像度画像生成手段73は、入力画像の解像度が例えば300dpi(dot per inch)のとき、1/2の大きさまで縮小する低解像度処理を行う。この低解像度化処理は、通常サイズ文字に対応する文字列の抽出を不可にして、大サイズ文字のみを抽出できるようにするために行う。
なお、入力画像に対する縮小倍率は、基本的に1/2であるが、入力画像の状況に応じて任意で倍率を指定することができる。
低解像度画像生成手段73は、入力画像の解像度が例えば300dpi(dot per inch)のとき、1/2の大きさまで縮小する低解像度処理を行う。この低解像度化処理は、通常サイズ文字に対応する文字列の抽出を不可にして、大サイズ文字のみを抽出できるようにするために行う。
なお、入力画像に対する縮小倍率は、基本的に1/2であるが、入力画像の状況に応じて任意で倍率を指定することができる。
2値画像生成手段74は、入力画像の画素値に対して予め閾値を設定し、閾値に基づいて当該入力画像の白と黒の2値画像を生成する。
エッジ画像生成手段75は、例えば8種類のマスクを用いて入力画像の濃度値とマスクパターンに対応する値を計算し、対応するエッジを決定するプレウィッツ(Prewitt)の方法などを用いてエッジ画像を生成する。
エッジ画像生成手段75は、例えば8種類のマスクを用いて入力画像の濃度値とマスクパターンに対応する値を計算し、対応するエッジを決定するプレウィッツ(Prewitt)の方法などを用いてエッジ画像を生成する。
境界線画像生成手段76は、例えば、特開昭63−29890号公報や、特許2844705号に記載されているように、対象画像に対して行方向に平行な走査を行うラスタ走査を行い、予め設定した画素の検出に基づいて境界線を生成する画像認識用境界線追跡方法および、縁面距離評価方法などを用いて境界線画像を生成する。
領域設定手段71は、例えば、特許文献1に記載されているように、黒画素成分の最小単位を検出して、検出した黒画素成分と近傍領域にある黒画素成分を連結して矩形領域を作成し、この矩形領域をさらに連結することにより文字候補領域を抽出すると共に、抽出した文字候補領域に1文字単位で文字候補領域を設定する単文字候補領域設定処理を行う。
なお、ここで行う単文字候補領域設定処理は、例えば、特許第2895115号に記載されているように、入力画像の2値画像において、一定値の画素数を越える区間を文字候補パターンとして切り出し、文字と文字の距離と、格納されている辞書などから、切り出したパターンの確からしさを評価することによって文字パターンを確定する文字切り出し方法などを用いて行う。
なお、ここで行う単文字候補領域設定処理は、例えば、特許第2895115号に記載されているように、入力画像の2値画像において、一定値の画素数を越える区間を文字候補パターンとして切り出し、文字と文字の距離と、格納されている辞書などから、切り出したパターンの確からしさを評価することによって文字パターンを確定する文字切り出し方法などを用いて行う。
次に、以上で説明した本画像処理装置において、大サイズの文字認識を行うための処理について説明する。そこで、まず、入力画像から大サイズの文字領域の抽出処理から説明する。
図3は、画像処理装置の大サイズ文字領域を抽出する抽出処理の手順を示すフロー図である。
まず、外部記憶装置3からファイルの読み込み、スキャナ部2による原稿のスキャン、又は通信制御部8によるネットワーク経由で受信されたファイルの読み込み等によって、画像処理装置に画像データが入力され(S101)、このように入力された画像データは、入力画像メモリ部4に保存される。
入力画像メモリ部4に保存された画像データは、画像データ取得手段70によって読み出されて低解像度画像生成手段73に渡される。低解像度画像生成手段73は読み出した画像データに低解像度化処理を行う(S102)。
低解像度化処理によって生成された低解像度画像データは、領域情報格納部6に保存される。
図3は、画像処理装置の大サイズ文字領域を抽出する抽出処理の手順を示すフロー図である。
まず、外部記憶装置3からファイルの読み込み、スキャナ部2による原稿のスキャン、又は通信制御部8によるネットワーク経由で受信されたファイルの読み込み等によって、画像処理装置に画像データが入力され(S101)、このように入力された画像データは、入力画像メモリ部4に保存される。
入力画像メモリ部4に保存された画像データは、画像データ取得手段70によって読み出されて低解像度画像生成手段73に渡される。低解像度画像生成手段73は読み出した画像データに低解像度化処理を行う(S102)。
低解像度化処理によって生成された低解像度画像データは、領域情報格納部6に保存される。
領域設定手段71は、ステップS102において得た低解像度画像データに基づき、既に述べた従来の方法で文字候補領域の設定処理を行う(S103)。
判断手段77は、設定された文字候補領域に対して文字領域か否かの判断を行い、誤抽出された領域を文字候補領域から削除する領域適正化処理ルーチンを実行する(S104)。
文字抽出手段79は、領域適正化処理によって得た文字領域から文字を抽出し、続いて、図示しない印字装置或いは通信制御部8は抽出した文字(大文字)を出力する(S105)。
判断手段77は、設定された文字候補領域に対して文字領域か否かの判断を行い、誤抽出された領域を文字候補領域から削除する領域適正化処理ルーチンを実行する(S104)。
文字抽出手段79は、領域適正化処理によって得た文字領域から文字を抽出し、続いて、図示しない印字装置或いは通信制御部8は抽出した文字(大文字)を出力する(S105)。
ここで、上記領域適正化処理のためのサブルーチンについて、図4のフロー図を参照して説明する。
上記領域適正化処理では、まず、入力画像からそれぞれ、2値画像生成手段74は2値画像(図5A)を生成し(S201)、エッジ画像生成手段75はエッジ画像(図5B)を生成、(S202)、境界線画像生成手段76は境界線画像(図5C)をそれぞれ生成する(S203)。次に、領域設定手段71は、ステップS201にて生成した2値画像に対して単文字候補領域の設定を行う(S204)。
上記領域適正化処理では、まず、入力画像からそれぞれ、2値画像生成手段74は2値画像(図5A)を生成し(S201)、エッジ画像生成手段75はエッジ画像(図5B)を生成、(S202)、境界線画像生成手段76は境界線画像(図5C)をそれぞれ生成する(S203)。次に、領域設定手段71は、ステップS201にて生成した2値画像に対して単文字候補領域の設定を行う(S204)。
判断手段77は、以下で説明するように、設定した単文字候補領域について文字判定処理を施して正しい文字候補領域か否かを判断し(S205)、正しくないと判断された単文字候補領域を文字候補領域から除外する(S206)。
判断手段77は、残った単文字候補領域を統合して、文字候補領域の適正化を行う(S207)。
判断手段77は、残った単文字候補領域を統合して、文字候補領域の適正化を行う(S207)。
次ぎに、ステップS205における単文字候補領域の文字判定処理について説明する。
この文字判定処理は、エッジ画像と境界線画像の両画像における黒画素を照合することによって行う。
図6は、上記文字判定処理を行う場合の具体的な手法を説明するものであって、上記2値化画像に基づいて設定された単文字候補領域のそれぞれエッジ画像及び境界線画像について、水平方向にx軸、垂直方向にy軸をとって黒画素の分布を示した図である。
この文字判定処理は、エッジ画像と境界線画像の両画像における黒画素を照合することによって行う。
図6は、上記文字判定処理を行う場合の具体的な手法を説明するものであって、上記2値化画像に基づいて設定された単文字候補領域のそれぞれエッジ画像及び境界線画像について、水平方向にx軸、垂直方向にy軸をとって黒画素の分布を示した図である。
図中の菱形模様は、エッジ画像及び境界線画像を2値化したときの黒画素を示し、網点で示した領域は画素の測定対象領域を示している。
エッジ画像の輪郭は、画素の濃度変化により生成されるため境界線画像に比べて幅が広い。そのため、測定に当たっては、境界線画像では各座標ごとに黒画素の測定を行うのに対して、エッジ画像では、測定対象座標を含んだ近隣の画素(座標)、即ち対象座標の左右、上下の画素(座標領域)の測定を行う。
エッジ画像の輪郭は、画素の濃度変化により生成されるため境界線画像に比べて幅が広い。そのため、測定に当たっては、境界線画像では各座標ごとに黒画素の測定を行うのに対して、エッジ画像では、測定対象座標を含んだ近隣の画素(座標)、即ち対象座標の左右、上下の画素(座標領域)の測定を行う。
次に、測定したエッジ画像及び境界線画像における黒画素数を照合することにより、抽出した単文字候補領域が正しい文字領域か否かの判定処理を行う。図7はこの判断のための手順を示すフロー図である。
即ち、図7は、図4における単文字候補領域内の文字判定処理(S205)のサブルーチンを示すフロー図であり、この判定は、判断手段77が画素のカウントを行う計数手段78の計数値に基づいて行う。
即ち、図7は、図4における単文字候補領域内の文字判定処理(S205)のサブルーチンを示すフロー図であり、この判定は、判断手段77が画素のカウントを行う計数手段78の計数値に基づいて行う。
ここで、境界線画像黒画素の測定が開始されると、計数手段78は設定された単文字候補領域内の全ての画素の測定(計数)を行う。そのため、常に全ての測定が行われたか否かを検査し(S301)、未測定の領域があれば、即ち測定が終了していなければ(S301;No)、境界線画像の所定の座標、例えば、(x3,y3)に黒画素があるか否か判断する(S302)。
設定された単文字候補領域内の特定の座標(x3、y3)において境界線画像の黒画素(bn)が無いときは(S302;No)、次の座標に測定を移行する(S303)。
計数手段78は、所定の座標に境界線画像の黒画素があるときは(S302;Yes)、境界線画像の黒画素(bn)の値として1をカウントする(S304)。
設定された単文字候補領域内の特定の座標(x3、y3)において境界線画像の黒画素(bn)が無いときは(S302;No)、次の座標に測定を移行する(S303)。
計数手段78は、所定の座標に境界線画像の黒画素があるときは(S302;Yes)、境界線画像の黒画素(bn)の値として1をカウントする(S304)。
次に計数手段78は、エッジ画像における上記特定の座標(x3、y3)とその上下左右1画素から成る測定対象領域に黒画素があるか否か判断し(S305)、測定対象の座標領域においてエッジ画像の黒画素(en)が無いときは(S305;No)、次の座標に測定を移行する(S303)。
計数手段78は、測定対象の座標領域(エッジ画像における網点領域)においてエッジ画像の黒画素があるときは(S305;Yes)、当該領域内で検出した黒画素の個数には関係なくエッジ画像の黒画素(en)として1をカウントする(S306)。
計数手段78は、ステップS302からステップS306までの一連の処理を単文字候補領域内の全ての画素について行い(S301;Yes)、計数処理を終了する。
計数手段78は、測定対象の座標領域(エッジ画像における網点領域)においてエッジ画像の黒画素があるときは(S305;Yes)、当該領域内で検出した黒画素の個数には関係なくエッジ画像の黒画素(en)として1をカウントする(S306)。
計数手段78は、ステップS302からステップS306までの一連の処理を単文字候補領域内の全ての画素について行い(S301;Yes)、計数処理を終了する。
判断手段77は、上記計数処理によって上記両画像における黒画素の個数が計数されると、それぞれの黒画素数の比(一致比率p=エッジ画像の黒画素(en)/境界線画像の黒画素(bn))を算出する。
ここで、それぞれ対応する単文字候補領域におけるエッジ画像のパターンと境界線画像のパターンの一致度を決める値として、一致比率pの閾値を予め設定しておく。閾値は値が大きくなるほど、エッジ画像と境界線画像の一致度が高くなることを表す。閾値の最大値は、勿論100%(=1)である。
ここで、それぞれ対応する単文字候補領域におけるエッジ画像のパターンと境界線画像のパターンの一致度を決める値として、一致比率pの閾値を予め設定しておく。閾値は値が大きくなるほど、エッジ画像と境界線画像の一致度が高くなることを表す。閾値の最大値は、勿論100%(=1)である。
判断手段77は、一致比率が閾値以上であるとき、即ち閾値≦一致比率p(=エッジ画像の黒画素(en)/境界線画像の黒画素(bn))であるとき正しい文字領域と判断し、一致比率が閾値に達しないときは(閾値>一致比率p)、文字領域でないと判断する。
このように、一致比率pの閾値を設定することで、一般に写真画像領域ではエッジの強度が弱いため上記一致比率が低く、それによって画像領域を容易に除外することができ、その結果正しい文字領域の抽出を行うことができる。
なお、以上の説明では、エッジ画像の黒画素、境界線画像の黒画素に基づいて計数処理を行うものとして説明したが、逆に白画素を計数するようにしてもよい。
このように、一致比率pの閾値を設定することで、一般に写真画像領域ではエッジの強度が弱いため上記一致比率が低く、それによって画像領域を容易に除外することができ、その結果正しい文字領域の抽出を行うことができる。
なお、以上の説明では、エッジ画像の黒画素、境界線画像の黒画素に基づいて計数処理を行うものとして説明したが、逆に白画素を計数するようにしてもよい。
次に、以上で説明した本画像処理装置の処理の結果について具体的に説明する。
図8は、2値画像から領域設定手段71によって文字候補領域を1文字単位で設定したイメージを示す図である。図の太枠は、1文字単位の文字候補領域を示しており、句点より右側の黒い領域は画像領域を誤抽出した領域である。
図9は、上記領域適正化処理によって誤抽出された画像領域を除外したイメージを示した図である。図中の実線部分は、領域適正化処理前の抽出領域を示し、破線部分は、処理後の抽出部分を示している。即ち、領域適正化処理後は、句点より右側の領域は、そのエッジ画像と境界線画像との黒画素数の一致率が閾値に達しないため、文字領域でないと判断されて画像領域から除外されている。
図8は、2値画像から領域設定手段71によって文字候補領域を1文字単位で設定したイメージを示す図である。図の太枠は、1文字単位の文字候補領域を示しており、句点より右側の黒い領域は画像領域を誤抽出した領域である。
図9は、上記領域適正化処理によって誤抽出された画像領域を除外したイメージを示した図である。図中の実線部分は、領域適正化処理前の抽出領域を示し、破線部分は、処理後の抽出部分を示している。即ち、領域適正化処理後は、句点より右側の領域は、そのエッジ画像と境界線画像との黒画素数の一致率が閾値に達しないため、文字領域でないと判断されて画像領域から除外されている。
以上説明したように、本画像処理装置は、エッジ画像の画素数と境界線画像の画素数から文字と非文字を判定する。つまり、候補領域全体を注目して抽出する方法であるため、より精度の高い大サイズ文字領域を得ることができる。
また、光学式文字認識装置(OCR)に本発明の画像処理装置を適用することで、文字認識処理等のアプリケーションに応用することができる。
また、光学式文字認識装置(OCR)に本発明の画像処理装置を適用することで、文字認識処理等のアプリケーションに応用することができる。
画像処理装置における上記画像データ取得手段70、領域設定手段71、生成手段72、判断手段77、文字抽出手段79は、本画像処理装置のコンピュータでプログラムを実行することによりその機能実現手段として実現することができる。
また、そのプログラムはコンピュータ読み取り可能な記録媒体に記録して、ユーザに提供することができる。記録媒体としては、フレキシブルディスク、CD−ROM、DVD−ROM、あるいはハードディスクや半導体メモリなどの記録可能なタイプの媒体が含まれる。
1・・・CPU、2・・・スキャナ部、3・・・外部記憶装置、4・・・入力画像メモリ部、5・・・表示部、6・・・領域情報格納部、7・・・画像処理部、8・・・通信制御部、9・・・ネットワーク網、10・・・CD−ROM、11・・・ハードディスク、70・・・画像データ取得手段、71・・・領域設定手段、72・・・生成手段、73・・・低解像度画像生成手段、74・・・2値画像生成手段、75・・・エッジ画像生成手段、76・・・境界線画像生成手段、77・・・判断手段、78・・・計数手段、79・・・文字抽出手段。
Claims (10)
- 入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定手段と、
前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成手段と、
前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成手段と、
前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断手段と、
を備えたことを特徴とした画像処理装置。 - 請求項1に記載された画像処理装置において、
前記判断手段は、文字領域でないと判断した単文字候補領域を文字候補領域から除外し、かつ文字領域と判断した単文字候補領域を統合して文字候補領域とする画像処理装置。 - 請求項1又は2に記載された画像処理装置において、
前記入力画像の低解像度画像を生成する低解像度画像生成手段を備え、
前記領域設定手段は、前記低解像度画像において単文字候補領域を設定する画像処理装置。 - 請求項1ないし3のいずれかに記載された画像処理装置において、
前記入力画像の2値画像を生成する2値画像生成手段を備え、
前記領域設定手段は前記2値画像から単文字候補領域を設定する画像処理装置。 - 請求項1ないし4のいずれかに記載された画像処理装置において、
前記エッジ画像と前記境界線画像における対応する単文字候補領域の白又は黒画素数の計数を行う計数手段を備え、
前記判断手段は、前記計数手段によって計数された前記エッジ画像と前記境界線画像の白又は黒画素数の数に基づき単文字候補領域が文字領域か否かを判断する画像処理装置。 - 請求項5に記載された画像処理装置において、
前記判断手段は、前記計数手段によって計数された前記エッジ画像と前記境界線画像の白又は黒画素数の一致比率が所定の閾値以上であるとき、当該単文字領域候補が文字領域であると判断する画像処理装置。 - 画像処理装置における画像処理方法であって、
入力画像の文字候補領域を抽出すると共に設定された文字候補領域から単文字候補領域を設定する領域設定工程と、
前記文字候補領域の画像の輪郭を示すエッジ画像を生成するエッジ画像生成工程と、
前記文字候補領域の画像と背景との境界を示す境界線画像を生成する境界線画像生成工程と、
前記エッジ画像と境界線画像におけるそれぞれの前記単文字候補領域におけるパターンを照合することにより、前記単字候補領域が文字領域か否かを判断する判断工程と、
を備えたことを特徴とした画像処理方法。 - 請求項7に記載された画像処理方法において、
前記判断工程では、文字領域でないと判断した単文字候補領域を文字候補領域から除外し、かつ文字領域と判断した単文字候補領域を統合して文字候補領域とする画像処理方法。 - コンピュータを、請求項1ないし6のいずれかに記載した画像処理装置における各手段として機能させるためのプログラム。
- 請求項9に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008119152A JP2009272714A (ja) | 2008-04-30 | 2008-04-30 | 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008119152A JP2009272714A (ja) | 2008-04-30 | 2008-04-30 | 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009272714A true JP2009272714A (ja) | 2009-11-19 |
Family
ID=41438916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008119152A Pending JP2009272714A (ja) | 2008-04-30 | 2008-04-30 | 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009272714A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
JP2020149424A (ja) * | 2019-03-14 | 2020-09-17 | 富士通コネクテッドテクノロジーズ株式会社 | 表示装置、表示制御プログラムおよび表示制御方法 |
-
2008
- 2008-04-30 JP JP2008119152A patent/JP2009272714A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149424A (ja) * | 2019-03-14 | 2020-09-17 | 富士通コネクテッドテクノロジーズ株式会社 | 表示装置、表示制御プログラムおよび表示制御方法 |
JP7328771B2 (ja) | 2019-03-14 | 2023-08-17 | Fcnt株式会社 | 表示装置、表示制御プログラムおよび表示制御方法 |
CN110232713A (zh) * | 2019-06-13 | 2019-09-13 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
CN110232713B (zh) * | 2019-06-13 | 2022-09-20 | 腾讯数码(天津)有限公司 | 一种图像目标定位修正方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5934762B2 (ja) | 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置 | |
KR20030010530A (ko) | 이미지 처리 방법, 장치 및 시스템 | |
JP2009182662A (ja) | 画像処理装置、画像処理方法、プログラム、記憶媒体 | |
US20180089835A1 (en) | Image processing apparatus for identifying region within image, information processing method, and storage medium | |
JP2009003936A (ja) | デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体 | |
US11935314B2 (en) | Apparatus for generating a binary image into a white pixel, storage medium, and method | |
US8229214B2 (en) | Image processing apparatus and image processing method | |
KR101224936B1 (ko) | 화상 처리 장치, 화상 형성 장치, 및 컴퓨터 판독 가능한 매체 | |
US10984277B2 (en) | Image analysis apparatus, image analysis method, and non-transitory computer readable medium | |
JP4140519B2 (ja) | 画像処理装置、プログラムおよび記録媒体 | |
JP2014085841A (ja) | 文字切出装置及び文字切出方法並びに文字認識装置 | |
JP4275973B2 (ja) | 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法 | |
US11190684B2 (en) | Image processing apparatus, image processing method, and storage medium | |
CN115410191B (zh) | 文本图像识别方法、装置、设备和存储介质 | |
JP2009272714A (ja) | 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 | |
US11501515B2 (en) | Apparatus, storage medium, and control method for removing a noise from a divided line image obtained by a character image | |
US10911636B2 (en) | Image inclination angle detection apparatus that detects inclination angle of image with respect to document, image forming apparatus, and computer-readable non-transitory recording medium storing image inclination angle detection program | |
JP2005234845A (ja) | 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体 | |
US20220343666A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20200396346A1 (en) | Character line division apparatus and method, and storage medium | |
JP5825142B2 (ja) | 画像処理装置、画像処理方法およびコンピュータープログラム | |
JP4810995B2 (ja) | 画像処理装置、方法及びプログラム | |
JP2024037299A (ja) | 画像処理装置、画像処理プログラム及び画像処理方法 | |
CN112132141A (zh) | 字符合并方法、装置、电子设备及存储介质 | |
JP2009053931A (ja) | 文書画像処理装置、及び文書画像処理プログラム |