JP2004199622A - 画像処理装置、画像処理方法、記録媒体およびプログラム - Google Patents
画像処理装置、画像処理方法、記録媒体およびプログラム Download PDFInfo
- Publication number
- JP2004199622A JP2004199622A JP2002370670A JP2002370670A JP2004199622A JP 2004199622 A JP2004199622 A JP 2004199622A JP 2002370670 A JP2002370670 A JP 2002370670A JP 2002370670 A JP2002370670 A JP 2002370670A JP 2004199622 A JP2004199622 A JP 2004199622A
- Authority
- JP
- Japan
- Prior art keywords
- image
- pixel
- color
- image processing
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Facsimile Image Signal Circuits (AREA)
- Color Image Communication Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【解決手段】原画像から圧縮画像を生成し(ステップS1、S2)、同色とみなせる画素をランとして抽出し(ステップS3)、それらの連結成分を色ごとに求める(ステップS4)。この連結成分を文字候補とみなして近接する連結成分同士を統合して文字行を生成し、その後抽出された文字行から、過抽出部分を排除して文字行を出力する(ステップS5、S6、S7)。こうして得られた行領域データをもとに、文字認識に好適な2値画像を生成する(ステップS8)。
【選択図】 図2
Description
【発明の属する技術分野】
本発明は、背景色を有する多値画像から文字認識のための2値画像を生成する画像処理装置、画像処理方法、プログラムおよび記録媒体に関するものである。
【0002】
【従来の技術】
近年、オフィスなどにある書類を電子化するニーズが高まってきている。これは、紙のままでは広い保管場所が必要となり、保管に多くのコストがかかるためである。電子化すべき文書が大量にある場合は、文書を見ながら一文字ずつキーボード入力するのに大変な労力がかかるため、文字認識技術を使ってある程度自動的に入力することが必要となる。ここで、現在、実用化されている文字認識手法のほとんどは、2値画像を対象としたものである。従って、カラー文書を入力したい場合でも、文字認識の前には2値画像を生成しなければならない。さらに、画像上のどこに文字があるかを正しく同定しなければ、適切な文字認識結果にはならない。そのため、この「2値化」と「文字領域抽出」は非常に重要な技術となる。
【0003】
従来の画像処理装置は、カラー画像中の行を抽出し、文字認識が可能な2値画像を生成している(例えば、特許文献1参照)。ここでは、カラーの原画像を一旦2値化してから文字を抽出し、抽出した文字の黒画素位置から文字の平均色を求め、この平均色と原画像との差分画像を生成し、この差分画像を2値化し、得られた2値画像から文字行を抽出し、文字認識部へ渡している。
【0004】
また、画像を構成する色を予め複数与えて(登録して)おき、画像内の全ての画素を、予め登録した複数の色のいずれに近いかを求めることで分類し、その結果をもとに、登録した色の中のうちでさらに指定した色のみを黒画素とした2値画像を作成しているものもある(例えば、特許文献2参照)。
【0005】
さらに、カラーの原画像から取得された2値画像をもとに文字領域を含む行を抽出しているものもある(例えば、特許文献3参照)。
【0006】
また、2値画像の品質を向上させて文字認識の精度を高めるために、同一とみなせる色の背景を持つ領域を分割抽出し、各領域を文字領域とみなし、領域ごとに2値化しているものもある(例えば、特許文献4参照)。
【0007】
また、2値画像の品質を向上させて文字認識の精度を高めるために、同一とみなせる明度の背景を持つ領域を分割抽出し、各領域を文字領域とみなし、領域ごとに2値化しているものもある(例えば、特許文献5参照)。
【0008】
【特許文献1】
特開2000‐99627号公報(図1など)
【0009】
【特許文献2】
特開平11‐328308号公報(図1など)
【0010】
【特許文献3】
特開2000‐67158号公報(図2など)
【0011】
【特許文献4】
特開2000‐132689号公報(図6、図8など)
【0012】
【特許文献5】
特開平11‐213160公報(図など)
【0013】
【発明が解決しようとする課題】
しかしながら、このような従来の画像処理装置では、任意かつ複数の背景色を有する多値画像から文字認識の前に2値画像を生成する点については配慮がなされていないという問題があった。
【0014】
本発明は、このような問題を解決するためになされたもので、任意かつ複数の背景色を有する画像から文字認識に好適な2値画像を生成する画像処理装置、画像処理方法、画像処理プログラムおよび記録媒体を提供するものである。
【0015】
【課題を解決するための手段】
請求項1に係る本発明の画像処理装置は、処理対象となる画像から多値画像を取得する画像取得手段と、前記画像取得手段により取得された多値画像から、圧縮画像を生成する圧縮画像生成手段と、前記圧縮画像生成手段により取得された圧縮画像から、略同一色相の画素列をランとして生成するラン生成手段と、前記ラン生成手段により生成されたランを統合して連結成分を生成する連結成分生成手段と、前記連結成分生成手段により生成された連結成分から、所定の選別条件を満足するものを選別する連結成分選別手段と、前記連結成分選別手段により選別された連結成分の外接矩形を統合する外接矩形統合手段と、前記外接矩形統合手段により統合された外接矩形が一つの文字列か否かを判定する文字列判定手段と、前記文字列判定手段により一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する2値画像生成手段とを備えた構成を有している。
【0016】
この構成により、文字列判定手段が一つの文字列と判定した外接矩形の領域(行領域ともいう)ごとに2値化処理を施すので、複数の背景色を有する原画像から文字認識に好適な2値画像を生成できる。
【0017】
請求項2に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域を分割する領域分割手段と、前記領域分割手段により分割された分割領域ごとに2値化処理のための2値化閾値を求める閾値算出手段と、前記外接矩形の領域の各画素に対応する2値化閾値を、前記分割領域ごとに求めた2値化閾値を用いて補完する閾値補完手段とを備えた構成を有している。
【0018】
この構成により、領域分割手段によって分割された分割領域ごとに2値化処理のための2値化閾値を求め、この2値化閾値を用いて分割領域内の画素の2値化閾値を補完するので、背景色が連続的に変化している原画像から文字認識に好適な2値画像を生成できる。
【0019】
請求項3に係る本発明の画像処理装置は、請求項2において、前記領域分割手段が、前記一つの文字列と判定された外接矩形の領域を予め設定された大きさに分割する構成を有している。
【0020】
この構成により、分割領域の大きさを算出する処理が不要となるので、画像処理時間を短縮できる。
【0021】
請求項4に係る本発明の画像処理装置は、請求項2において、前記領域分割手段が、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、前記分割領域の大きさを変更する構成を有している。
【0022】
この構成により、分割領域の大きさを算出するための処理時間を要するものの、文字列の大きさに応じて領域分割を行うので、文字抽出精度の向上が期待される。
【0023】
請求項5に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域で、2値化対象の画素の周囲に2値化閾値算出のための領域を前記画素ごとに設定する閾値算出領域設定手段と、前記閾値算出領域設定手段により設定された領域内の画素値を用い、前記画素の2値化閾値を算出する領域内閾値算出手段とを備えた構成を有している。
【0024】
この構成により、2値化対象の画素ごとに異なる領域を設定して2値化閾値を算出するので、一つの行領域あるいは分割領域の2値化閾値を用いて各画素の2値化閾値を算出する構成に比べ、より精細に2値化閾値を設定できる。
【0025】
請求項6に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記原画像の明度を反転させた反転画像を生成する明度反転画像生成手段と、前記一つの文字列と判定された外接矩形の領域の背景色を抽出する背景色抽出手段と、前記ランに含まれる画素の色を文字色とし、前記背景色抽出手段により抽出された背景色と前記文字色とを比較する色比較手段と、前記色比較手段による比較結果に応じて、2値化処理時に前記反転画像を参照するように設定する参照画像設定手段とを備えた構成を有している。
【0026】
この構成により、2値化処理において背景色と文字色との比較結果から適宜、原画像または反転画像を参照することができるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、文字認識に好適な2値画像を生成できる。
【0027】
請求項7に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記ランに含まれる画素の色を文字色とし、2値化対象の黒画素の原画像上での色と前記文字色とを比較する画素値比較手段と、前記画素値比較手段による比較結果に応じて、前記2値化対象の黒画素を2値画像上で白画素に置き換える画素値置換手段とを備えた構成を有している。
【0028】
この構成により、2値化対象の黒画素の原画像上での色と前記文字色とを比較して黒画素を白画素に置き換えるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、例えば背景色の灰色が2値化処理で誤って黒画素として表現されることを回避できる。
【0029】
請求項8に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記ランに含まれる画素の色を文字色とし、2値化対象の白画素の原画像上での色と前記文字色とを比較する画素値比較手段と、前記画素値比較手段による比較結果に応じて、前記2値化対象の白画素を2値画像上で黒画素に置き換える画素値置換手段とを備えた構成を有している。
【0030】
この構成により、2値化対象の白画素の原画像上での色と前記文字色とを比較して白画素を黒画素に置き換えるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、例えば背景色の灰色が2値化処理で誤って白画素として表現されることを回避できる。
【0031】
請求項9に係る本発明の画像処理装置は、請求項8において、前記一つの文字列と判定された外接矩形の領域内の黒画素と白画素の比を計測する黒画素比計測手段を備え、前記画素値比較手段が、前記黒画素比計測手段による計測結果に応じて比較処理を行うか否かを決定する構成を有している。
【0032】
この構成により、黒画素比計測手段による計測結果に応じて画素値を比較するので、不要な画素値比較処理を回避して画像処理時間を短縮することができる。
【0033】
請求項10に係る本発明の画像処理装置は、請求項8において、前記一つの文字列と判定された外接矩形の領域の大きさを判定する判定手段を備え、前記黒画素比計測手段が、前記判定手段による判定結果に応じて計測処理を行うか否かを決定する構成を有している。
【0034】
この構成により、判定手段による外接矩形の領域の大きさの判定結果に応じて黒画素比を計測するので、不要な計測処理を回避して画像処理時間を短縮することができる。
【0035】
請求項11に係る本発明の画像処理装置は、請求項1において、前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域に対応している原画像の一部領域に対して画像処理を施し、前記一部領域の画像を変換する画像変換手段を備えた構成を有している。
【0036】
この構成により、2値化対象の領域に対して画像処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、適当な画像処理によって2値化による文字の潰れ、掠れ、あるいは黒画素の散乱的な出現などを回避できる。
【0037】
請求項12に係る本発明の画像処理装置は、請求項11において、前記画像変換手段が、原画像の一部領域に対してエッジ強調処理を施す構成を有している。
【0038】
この構成により、原画像の一部領域に対してエッジ強調処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、特に2値化による文字の潰れ、掠れを回避できる。
【0039】
請求項13に係る本発明の画像処理装置は、請求項11において、前記画像変換手段が、原画像の一部領域に対して平滑化処理を施す構成を有している。
【0040】
この構成により、原画像の一部領域に対して平滑化処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、特に2値化によって黒画素が散乱的に出現するのを回避できる。
【0041】
請求項14に係る本発明の画像処理装置は、請求項11において、前記画像変換手段が、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、画像処理を施すか否かを決定する構成を有している。
【0042】
この構成により、2値化対象の一つの文字列の大きさに応じて画像処理を施すか否かを判断するので、不要な画像処理を回避して画像処理時間を短縮することができる。
【0043】
請求項15に係る本発明の画像処理方法は、処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行している。
【0044】
この方法により、第8のステップでは一つの文字列と判定した外接矩形の領域(行領域ともいう)ごとに2値化処理を施すので、複数の背景色を有する原画像から文字認識に好適な2値画像を生成できる。
【0045】
請求項16に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域を分割する領域分割ステップと、前記領域分割ステップで分割された分割領域ごとに2値化処理のための2値化閾値を求める閾値算出ステップと、前記外接矩形の領域の各画素に対応する2値化閾値を、前記分割領域ごとに求めた2値化閾値を用いて補完する閾値補完ステップとを実行している。
【0046】
この方法により、領域分割ステップで分割された分割領域ごとに2値化処理のための2値化閾値を求め、この2値化閾値を用いて分割領域内の画素の2値化閾値を補完するので、背景色が連続的に変化している原画像から文字認識に好適な2値画像を生成できる。
【0047】
請求項17に係る本発明の画像処理方法は、請求項16において、前記領域分割ステップでは、前記一つの文字列と判定された外接矩形の領域を予め設定された大きさに分割している。
【0048】
この方法により、分割領域の大きさを算出する処理が不要となるので、画像処理時間を短縮できる。
【0049】
請求項18に係る本発明の画像処理方法は、請求項16において、前記領域分割ステップでは、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、前記分割領域の大きさを変更している。
【0050】
この方法により、分割領域の大きさを算出するための処理時間を要するものの、文字列の大きさに応じて領域分割を行うので、文字抽出精度の向上が期待される。
【0051】
請求項19に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域で、2値化対象の画素の周囲に2値化閾値算出のための領域を前記画素ごとに設定する閾値算出領域設定ステップと、前記閾値算出領域設定ステップで設定された領域内の画素値を用い、前記画素の2値化閾値を算出する領域内閾値算出ステップとを実行している。
【0052】
この方法により、2値化対象の画素ごとに異なる領域を設定して2値化閾値を算出するので、一つの行領域あるいは分割領域の2値化閾値を用いて各画素の2値化閾値を算出する構成に比べ、より精細に2値化閾値を設定できる。
【0053】
請求項20に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記原画像の明度を反転させた反転画像を生成する明度反転画像生成ステップと、前記一つの文字列と判定された外接矩形の領域の背景色を抽出する背景色抽出ステップと、前記ランに含まれる画素の色を文字色とし、前記背景色抽出手段により抽出された背景色と前記文字色とを比較する色比較ステップと、前記色比較ステップで取得された比較結果に応じて、2値化処理時に前記反転画像を参照するように設定する参照画像設定ステップとを実行している。
【0054】
この方法により、2値化処理において背景色と文字色との比較結果から適宜、原画像または反転画像を参照することができるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、文字認識に好適な2値画像を生成できる。
【0055】
請求項21に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記ランに含まれる画素の色を文字色とし、2値化対象の黒画素の原画像上での色と前記文字色とを比較する画素値比較ステップと、前記画素値比較ステップで取得された比較結果に応じて、前記2値化対象の黒画素を2値画像上で白画素に置き換える画素値置換ステップとを実行している。
【0056】
この方法により、2値化対象の黒画素の原画像上での色と前記文字色とを比較して黒画素を白画素に置き換えるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、例えば背景色の灰色が2値化処理で誤って黒画素として表現されることを回避できる。
【0057】
請求項22に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記ランに含まれる画素の色を文字色とし、2値化対象の白画素の原画像上での色と前記文字色とを比較する画素値比較ステップと、前記画素値比較ステップで取得された比較結果に応じて、前記2値化対象の白画素を2値画像上で黒画素に置き換える画素値置換ステップとを実行している。
【0058】
この方法により、2値化対象の白画素の原画像上での色と前記文字色とを比較して白画素を黒画素に置き換えるので、一つの文字列からなる行領域に複数の背景色が存在していても、明度情報と色情報とを併用することにより、例えば背景色の灰色が2値化処理で誤って白画素として表現されることを回避できる。
【0059】
請求項23に係る本発明の画像処理方法は、請求項22において、前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域内の黒画素と白画素の比を計測する黒画素比計測ステップを実行し、前記画素値比較ステップでは、前記黒画素比計測ステップで取得された計測結果に応じて比較処理を行うか否かを決定している。
【0060】
この方法により、黒画素比計測ステップでの計測結果に応じて画素値を比較するので、不要な画素値比較処理を回避して画像処理時間を短縮することができる。
【0061】
請求項24に係る本発明の画像処理方法は、請求項22において、前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域の大きさを判定する判定ステップを実行し、前記黒画素比計測ステップでは、前記判定ステップで取得された判定結果に応じて計測処理を行うか否かを決定している。
【0062】
この方法により、判定ステップでの外接矩形の領域の大きさの判定結果に応じて黒画素比を計測するので、不要な計測処理を回避して画像処理時間を短縮することができる。
【0063】
請求項25に係る本発明の画像処理方法は、請求項15において、前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域に対応している原画像の一部領域に対して画像処理を施し、前記一部領域の画像を変換する画像変換ステップを実行している。
【0064】
この方法により、2値化対象の領域に対して画像処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、適当な画像処理によって2値化による文字の潰れ、掠れ、あるいは黒画素の散乱的な出現などを回避できる。
【0065】
請求項26に係る本発明の画像処理方法は、請求項25において、前記画像変換ステップでは、原画像の一部領域に対してエッジ強調処理を施している。
【0066】
この方法により、原画像の一部領域に対してエッジ強調処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、特に2値化による文字の潰れ、掠れを回避できる。
【0067】
請求項27に係る本発明の画像処理方法は、請求項25において、前記画像変換ステップでは、原画像の一部領域に対して平滑化処理を施している。
【0068】
この方法により、原画像の一部領域に対して平滑化処理を施すので、2値化対象の一つの文字列を形成する文字が所定の大きさよりも小さい場合、特に2値化によって黒画素が散乱的に出現するのを回避できる。
【0069】
請求項28に係る本発明の画像処理方法は、請求項25において、前記画像変換ステップでは、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、画像処理を施すか否かを決定している。
【0070】
この方法により、2値化対象の一つの文字列の大きさに応じて画像処理を施すか否かを判断するので、不要な画像処理を回避して画像処理時間を短縮することができる。
【0071】
請求項29に係る本発明のプログラムは、コンピュータに、処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行させている。
【0072】
このプログラムにより、特に第8のステップで、一つの文字列と判定した外接矩形の領域(すなわち、行領域)ごとに2値化処理を施すので、複数の背景色を有する原画像から文字認識に好適な2値画像を生成できる。
【0073】
請求項30に係る本発明の記録媒体は、コンピュータに、処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行させるためのプログラムを記録している。
【0074】
この記録媒体により、特に第8のステップの実行で、一つの文字列と判定した外接矩形の領域(すなわち、行領域)ごとに2値化処理を施すので、複数の背景色を有する原画像から文字認識に好適な2値画像を生成できる。また、前記記録媒体を携帯して移動できるために、前記プログラムの配布や更新が容易である。
【0075】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態に係る画像処理装置を示す。
図1において、画像入力部101は、処理対象の原画像(カラー画像を含む)を取得して格納するものであり、この画像入力部101により格納された原画像のデータは、圧縮画像生成部102と、文字判定部107に送出される。圧縮画像生成部102は、原画像データから圧縮画像を生成して格納するとともに、ラン生成部103、連結成分生成部104、連結成分選別部105、外接矩形統合部106、文字判定部107にそれぞれに送出する。ラン生成部103は、前記圧縮画像からランを生成し、生成したランを連結成分生成部104に送出するものである。連結成分生成部104は、前記ランから連結成分を生成し、生成した連結成分を連結成分選別部105に送出するものである。連結成分選別部105は、連結成分生成部104で得られた連結成分を選別して外接矩形統合部106に送出するものである。外接矩形統合部106は、連結成分選別部105で得られた連結成分の外接矩形を統合して、文字判定部107に送出するものである。
文字判定部107は、画像入力部101で入力された原画像データと、外接矩形統合部106で統合された外接矩形のデータとを取得し、この外接矩形から文字行を判定して、文字行と判定された座標を2値画像生成部108に送出するものである。2値画像生成部108は、前記文字行の領域ごとに、後述する判別分析法などを用いて2値化処理を施し、2値化処理した画像データを結果出力部108に送出するものである。結果出力部108は、2値化処理された画像データにより2値画像を出力するものである。
【0076】
次に、図2を参照しながら本実施形態の画像処理方法を説明する。これは、文字列を含む行領域を1単位として2値化閾値を算出する方法である。
【0077】
ステップS1(第1のステップに含まれる)では、画像入力部101により処理対象の原稿を原画像(カラー画像を含む)として取得する。この取得された原画像のデータは、画像入力部101から圧縮画像生成部102、文字判定部107、値画像生成部108に送出される。
【0078】
ステップS2(第2のステップに含まれる)では、圧縮画像生成部102により前記原画像から圧縮画像を生成する。この圧縮画像は、ステップS3以降の画像処理を高速化するために生成される。また、この圧縮画像は、前記原画像において、ある色が細かい点の集合で表現されている場合の悪影響を防ぐために生成される。圧縮画像の生成方法には様々な方法があるが、ここでは「ブロックサイズ」として原画像の2×2画素を設定し、圧縮画像の1画素にまとめるものとする。また、圧縮画像の画素値は、原画像の2×2画素内で最も明度の低い画素値を用いることとする。すなわち、背景に対して暗い色の文字を抽出するために、ブロック内で最も明度の低い画素を抽出する。上述したように抽出された、ブロック内で最も明度の低い画素の画素値を、圧縮画像の該当画素の画素値として用いるものとし、前記圧縮画像にこの画素値を書き込む。
【0079】
上述した画像圧縮処理の手順を繰り返して実行し、全てのブロックの画素に対する処理が終了すると、ステップS3に移行する。なお、背景に対して明るい色の文字を抽出する場合には、ブロック内で最も明度の高い画素を抽出し、上述した画像圧縮処理を実行する。さらに、背景に対して明るい色の文字(以下、明文字ともいう)と、背景に対して暗い色の文字(以下、暗文字ともいう)とを共に抽出したい場合は、明文字と暗文字の設定だけを変えて該当画素を再度抽出し、上述した画像圧縮処理の結果の論理和を取ればよい。
【0080】
ステップS3(第3のステップに含まれる)では、ラン生成部103により、前記圧縮画像処理で得られた圧縮画像の各行ごとにランを求める処理(ラン生成処理)を実行する。なお、ラン(run)とは、一般にある方向に連続して並ぶ同一濃淡レベルの画素列のことであり、この画素列の長さをランレングス(run length)という。例えば、2値の文書画像において、1次元方向に連続する白画素または黒画素のかたまり(ラン)を符号化の単位とする。
【0081】
ここでは、水平方向に隣接する画素の色が互いに近い場合に、それらをまとめてランとする。また、色が近いことを判定する方法としては、例えば画素値の各成分(R、G、Bなど)の差の2乗和を計算し、これを画素間の色相違度(以下、色差という)とみなして、この値が予め定められた値よりも小さい場合に近い(略同一色相に含まれる)と判断するという方法を用いてもよい。さらに、抽出された各ランの色を定義するとき、ここではメジアン(複数のデータを昇順、または降順に整列した際の中央に位置する値)を用いる。なお、このメジアンの他に、例えば各ランの平均値、ランの長さによる加重平均値などを用いることが考えられる。
【0082】
前記ラン生成処理の手順は以下のとおりである。まず、ある行(例えば、先頭行など)を注目行とし、各画素をランデータとして登録する。次いで、ランを統合する。このとき、左端のランを参照ランとし、その隣のランを注目ランとして、参照ランと注目ランとの色差を比較する。ここで、前記色差が予め決められた閾値以下の場合には、ラン同士を統合し、一つの長いランとして登録し、この統合したランを新しい参照ランとする。なお、統合後のランの色を設定するにはメジアンを用いる。一方、上述した色差と、予め決められた閾値とを比較した結果、色差が閾値以下でない場合、すなわち色差が閾値よりも大きい場合には、注目ランを新たな参照ランとする。次いで、上述したように統合された新しい参照ランか、または新しく定義された参照ラン(注目ラン)の右隣に、ランがあるか否かを判断する。ここで、新しい参照ランの右隣にランがある場合には、このランを新しい注目ランとして上述したランの統合を繰り返す。また、ここで、新しい参照ランの右隣にランがない場合には、統合を完全なものにするために、ラン統合を再度行うか否かを判断する。具体的には、前記左端のランを参照する処理から、前記右隣にランがあるか否かの判断処理に至るまでの一連の処理を実行した際、注目行のラン統合が1度でも行われたか否かを判断する。ここで、統合したランを新しい参照ランとする処理が1度も実行されなかった場合には、これ以上ランを統合する必要がないので、全ての行のランを抽出したと判断し、この行のラン統合をこれ以上繰り返して行わない。一方、前記注目行のラン統合が1度でも行われている場合には、再度、前記左端のランを参照する処理から、前記右隣にランがあるか否かの判断処理に至るまでの一連の処理を実行する。なお、全ての行におけるランの抽出作業が終了していない場合には、前記注目行を他行に変更して再度、前記ラン生成処理の手順を実行する。以上が前記ラン生成処理の手順である。
【0083】
ステップS4(第4のステップに含まれる)では、連結成分生成部104により前記ランの連結成分を生成する。ここでは、ステップS3で取得されたランについて、上述した色差を用い、垂直方向に接するもの同士の色を比較し、色が近い場合には、両者を連結成分として統合する。
【0084】
本実施形態の連結成分生成処理の手順は以下のとおりである。まず、連結成分生成部104に対し、前記ラン生成処理により生成されたランデータを入力し、このランデータを連結成分データとしてそのまま登録する。次いで、この連結成分データの中から互いに接触する二つの連結成分データを抽出する。次いで、この二つの連結成分データの色を比較する。ここでは、前記ラン生成処理と同じ方法で色差を求め、この色差を予め決められた閾値と比較する。ここで、前記色差が前記閾値以下の場合には、連結成分同士を統合して一つの連結成分とする。統合された連結成分にも色情報が必要であるが、これも前記ラン生成処理に準じるものとする。一方、前記色差が前記閾値以上の場合には、連結成分同士の統合を行わず、全ての連結成分の組み合せについて連結成分データの色を比較する。すなわち、全ての連結成分の組み合せが終了するまで、互いに接触する二つの連結成分の抽出処理から全ての連結成分の組み合せについて色を比較し、連結成分同士を統合するまでの処理を繰り返す。こうして全ての連結成分の組み合せが完了すると、さらに予め定めておいた回数だけ、上述した処理の手順を繰り返して統合を行う。以上が前記連結成分生成処理の手順である。前記連結成分生成処理によれば、図3に示すように、文字「す」、「り」を構成する一塊の画素が一つの連結成分として抽出できることになる。
【0085】
ステップS5(第5のステップに含まれる)では、ステップS4で連結成分生成部104により生成された連結成分の中から、連結成分選別部105により、予め決められた条件(連結成分の大きさを含む)で連結成分を選別して削除する。これは、ステップS4で取得された連結成分の中には、文字でないものが含まれている可能性があるためである。例えば、所定の大きさよりも小さい連結成分はノイズである可能性が高く、これをそのまま後段の処理に渡すと精度の低下や処理速度の低下を招くおそれがある。ここでは、ある一定の大きさ以下の連結成分を選別して削除する。
【0086】
本実施形態の連結成分選別処理の手順は以下のとおりである。まず、連結成分生成部104による連結成分生成処理で得られた連結成分の一つを取り出す。次いで、取り出された一つの連結成分が、予め決められた大きさ以下であるか否かを判断する。ここで、連結成分の大きさが所定の大きさ以下である場合には、ノイズとみなして連結成分データから削除する。また、前記一つの連結成分の大きさが所定の大きさより大きい場合には、当該連結成分の明度と、当該連結成分の周囲を取り巻く画素の明度とを比較する。ここでは、背景に対して明度の低い文字を抽出しようとしているので、連結成分の周囲に対して前記連結成分の明度が高い場合は、前記連結成分の明度が周囲より低い場合に比べ、文字である可能性が少ないことになる。そこで、連結成分より明度の高い画素数をカウントし、この明度の高い画素の割合が所定の割合より少ない場合には、当該連結成分が文字ではないと判断して連結データから削除する。なお、背景に対して明度の高い文字を抽出するときは、連結成分より明度の低い画素数をカウントすればよい。以上が前記連結成分選別処理の手順である。
【0087】
ステップS6(第6のステップに含まれる)では、ステップS5で連結成分選別部105により選別された後の連結成分に対し、外接矩形統合部106によって前記連結成分における外接矩形の統合処理を施す。この処理は、文字矩形を統合して文字行領域を抽出するものである。 ここでは、隣接する矩形(外接矩形)のうち、サイズ、色とも予め決められた範囲内にあって似通っているものを統合し、グループ化する。なお、隣接する矩形のサイズが異なれば、同一行を構成する矩形同士ではないと推定できる。また、隣接する矩形の色が異なれば、同一行を構成する矩形同士ではないと推定できる。隣接する矩形の色に関しては、強調のために行の途中で文字色が変わっている場合もあるが、この場合でも強調部分は同一行として抽出され、それ以外もやはり同一行として抽出される。この場合の行は途中で途切れることになるが、文字認識のときに隣り合う行に対して順に認識処理を行えば、同一行とした場合と同じ結果が得られる。
【0088】
本実施形態の外接矩形統合処理の手順は以下のとおりである。ここでは、行方向を横として説明する。まず、各連結成分の外接矩形を求める。次いで、求められた外接矩形からいずれか二つを選び、両外接矩形の座標値のうち、Y方向(縦方向)に重なっている部分の長さを調べる。ここで、Y方向に重なっている部分が存在しないか、あるいはY方向に重なっている部分が予め決められた長さよりも小さい場合には、この二つの外接矩形が同一行を構成する要素ではないと判断し、外接矩形同士の統合は行わない。また、前記二つの外接矩形のY方向に重なっている部分の長さが、予め決められた長さよりも大きい場合には、当該外接矩形の高さにより、X方向における統合する矩形間距離の最大値(X距離限界値)を求める。なお、外接矩形の高さを用いる理由は、高さの高い文字であれば、隣接する文字との距離も長くなる傾向にあるためである。勿論、外接矩形高さをそのままX距離限界値として設定してもよい。次いで、前記二つの外接矩形のX方向の距離と、X距離限界値とを比較する。ここで、前記二つの外接矩形のX方向の距離がX距離限界値よりも大きい場合には、前記二つの外接矩形が同一行の構成要素ではないと判断して統合を行わない。次いで、前記二つの外接矩形の色差が予め決められた値以上であるか否かを判断する。前記色差は、前記ラン生成処理に準じて求めるものとする。ここで、前記二つの外接矩形の色差が予め決められた値以上である場合には、前記二つの外接矩形が異なる行の文字を示す矩形であると判断して統合を行わない。次いで、上述した矩形のY成分の重なりが所定値より多く、かつ矩形のX成分の距離がX距離限界値より短く、かつ色差が所定値より小さい外接矩形は、同一行を構成する要素であると判断し、該当する二つの外接矩形を新しい外接矩形として登録する。この登録時には、矩形情報として色情報も必要になるが、これは各外接矩形の色情報をもとにして決定する。ここでは、前記ラン生成処理に準じてメジアンを用いることにする。こうして全ての外接矩形の統合が終了するまで処理を繰り返し、統合された矩形グループ(外接矩形からなる)が文字列候補として抽出されることとなる。以上が前記外接矩形統合処理の手順である。
【0089】
ステップS7(第7のステップに含まれる)では、ステップS6で取得された文字列候補の外接矩形に対し、文字列判定部107により文字列か否かを判断する。これは、前記文字列候補に、図や写真の一部などを誤って統合するなどした、文字列でないものが含まれている場合があることによる。ここで、前記文字列候補が文字列か否かは、例えば外接矩形領域内のエッジ強度を計測し、所定の値以上の強いエッジが多数含まれている場合に文字列であると判断してもよい。
【0090】
本実施形態の文字列判定処理の手順は以下のとおりである。まず、文字列候補の外接矩形を一つ選択する。次いで、選択した外接矩形の高さが予め決められた値以上か否かを判断する。ここで、前記外接矩形の矩形の高さが予め決められた値以上である場合は、前記外接矩形が文字列でないと判断する。また、前記外接矩形の矩形の高さが予め決められた値より小さい場合には、前記外接矩形の色情報と前記外接矩形の周囲の色情報とを比較する。ここで、背景(周囲)より明度の低い文字を抽出するときは、周囲の明度が外接矩形の明度より低い場合に、前記外接矩形が文字列でないと判断する。なお、背景より明度の高い文字を抽出するときは、上述した判断条件とは逆に、周囲の明度が外接矩形の明度より高い場合に、前記外接矩形が文字列でないと判断する。次いで、前記外接矩形の色情報と前記外接矩形の周囲の色情報との比較により、前記外接矩形が文字列であると判断した場合、さらに前記外接矩形内のエッジ強度が予め決められた値より強い画素数をカウントする。ここでは、エッジ強度の測定は原画像上で行うものとし、例えば3×3画素の形状と図4(a)、(b)に示す係数を持つ空間フィルタを測定対象の画素を中心にして個別に適用する。そして、得られた結果の2乗和をもってエッジ強度とする。次いで、前記エッジ強度が予め決められた値より強い画素数の、前記外接矩形内の全画素数に対する比率が予め決められた値より小さい場合には、文字列でないと判断する。以上が前記文字列判定処理の手順であり、これによって文字行の領域が抽出できたことになる。
【0091】
ステップS8(第8のステップに含まれる)では、ステップS7で文字列判定部107により前記比率から文字列であると判断された外接矩形に対して、2値画像生成部108により、前記外接矩形の行領域(文字行)ごとに2値化処理を施す。ここで、行領域以外の画素は一律に白とする。ここでは、判別分析方法(「コンピュータビジョン」第4章、丸善出版刊、谷内田正彦編を参照)を用いる。なお、前記コンピュータビジョンには、判別分析法について、「画像の2値化問題は、画像をパターン領域(クラス1)と背景領域(クラス2)の2クラスに分けることであるとし、濃度とヒストグラムを用いて最もクラス分離の良い濃度閾値を与えるようとするものである。」と記載されている。
【0092】
本実施形態の2値画像生成処理では、上述したように既に求められている行領域ごとに判別分析法を用いて2値化処理するので、背景が2色の画像(図5に示す)に対しても、背景が単一色の画像と同様に2値化処理を実行することが可能となる。よって、背景が2色の画像から文字列を確実に抽出し、文字が黒画素で背景が白画素となるように表現できる(図6(a)に示す)。なお、背景が2色の画像(図5に示す)の全体に対し、判別分析法を用いて2値化処理を施したときは、文字が黒画素で背景が白画素となるように表現されない場合(図6(b)に示す)がある。
【0093】
ステップS9では、ステップS8で2値画像生成部108により生成された2値画像を、結果出力部109により例えばディスプレイ画面上あるいは記録紙上に出力する。
【0094】
以上のように、本発明の第1の実施形態に係る画像処理装置は、処理対象となる画像からカラー画像(多値画像に含まれる)を取得する画像入力部101(画像取得手段に含まれる)と、画像入力部101により取得された多値画像から、圧縮画像を生成する圧縮画像生成部102(圧縮画像生成手段に含まれる)と、圧縮画像生成部102により取得された圧縮画像から、略同一色相の画素列をランとして生成するラン生成部103(ラン生成手段に含まれる)と、ラン生成部103により生成されたランを統合して連結成分を生成する連結成分生成部104(連結成分生成手段に含まれる)と、連結成分生成部104により生成された連結成分から、所定の選別条件を満足するものを選別する連結成分選別部105(連結成分選別手段に含まれる)と、連結成分選別部105により選別された連結成分の外接矩形を統合する外接矩形統合部106(外接矩形統合手段に含まれる)と、外接矩形統合部106により統合された外接矩形が一つの文字列か否かを判定する文字列判定部107(文字列判定手段に含まれる)と、文字列判定部107により一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する2値画像生成部108(2値画像生成手段に含まれる)とを備えているので、カラー画像などの多値画像からカラー情報を抽出し、この情報を2値化によらず直接用いて文字抽出精度の向上を図ることができる。
【0095】
[第2の実施形態]
図7は本発明の第2の実施形態に係る画像処理装置を示す。これは第1の実施形態とは、明度反転画像生成部301、背景色抽出部302、色比較部303、参照画像設定部304を除き、概ね同様の構成を有しているために、図1を用いると共に同一構成には同一符号を付与して説明を省略する。
【0096】
図7において、明度反転画像生成部301は、画像入力部101から原画像(カラー画像を含む)を取得し、この原画像の明度を反転させて反転画像を生成して、背景色抽出部302へ送出するものである。背景色抽出部302は、文字列判定部107で取得された文字行のデータを用い、この文字行の行領域内で文字を構成するラン以外の画素値の平均値を計算することにより、前記文字の背景色を抽出するものである。色比較部303は、背景色抽出部302で取得された背景色と、前記行領域内の文字色とを比較し、比較結果を参照画像設定部304へ送出するものである。参照画像設定部304は、色比較部303による比較結果から、前記行領域内の文字色の明度が背景色の明度よりも高い場合には、2値画像生成部108で2値化を行うときに前記反転画像を参照するように設定するものである。
【0097】
次に、図8を参照しながら本実施形態の画像処理方法を説明する。これは、第1の実施形態とはステップS201〜S206を除き、概ね同様の方法であるために、図2を用いると共に同一ステップには同一符号を付与して説明を省略する。
【0098】
ステップS201では、明度反転画像生成部301により、ステップS1で取得された原画像の明度を反転させて反転画像を生成する。ここで生成された反転画像は、背景色抽出部302へ送出される。
【0099】
ステップS202(背景色抽出ステップに含まれる)では、背景色抽出部302により、ステップS7で取得された文字行の行領域内で文字を構成するラン以外の画素値の平均値を計算して、前記文字の背景色を抽出する。例えば、第1の実施形態で示した行領域(図3に示す)では、白い帯で表現されている画素の平均値を求めることが背景色を求めることになる。ここで抽出された背景色のデータは、色比較部303へ送出される。
【0100】
ステップS203(色比較ステップに含まれる)では、色比較部303により、ステップS202で取得された背景色と、前記行領域内の文字色とを比較する。なお、前記行領域内の文字色は、文字列を構成するランのある画素の平均色から求められている。この比較の結果は、参照画像設定部304へ送出される。
【0101】
ステップS204では、参照画像設定部304により、ステップS203による比較結果から、前記行領域内の文字色の明度が背景色の明度よりも高いか否かを判断する。ここで、前記行領域内の文字色の明度が背景色の明度よりも高い場合には、ステップS205へ進む。また、前記行領域内の文字色の明度が背景色の明度よりも低い場合には、ステップS206へ進む。
【0102】
ステップS205(参照画像設定ステップに含まれる)では、参照画像設定部304により、2値画像生成部108で2値化を行うときに前記反転画像を参照するように設定する。この後、ステップS8へ進む。
【0103】
ステップS206(参照画像設定ステップに含まれる)では、参照画像設定部304により、2値画像生成部108で2値化を行うときに前記原画像を参照するように設定する。この後、ステップS8へ進む。
【0104】
以上のように、本発明の第2の実施形態に係る画像処理装置は、2値画像生成部108(2値画像生成手段に含まれる)に、原画像の明度を反転させた反転画像を生成する明度反転画像生成部301(明度反転画像生成手段に含まれる)と、行領域(一つの文字列と判定された外接矩形の領域に含まれる)の背景色を抽出する背景色抽出部302(背景色抽出手段に含まれる)と、前記文字列のランに含まれる画素の色を文字色とし、背景色抽出部302により抽出された背景色と文字色とを比較する色比較部303(色比較手段に含まれる)と、色比較部303による比較結果に応じて、2値化処理時に前記反転画像を参照するように設定する参照画像設定部304(参照画像設定手段に含まれる)とを備えているので、明度が反転した文字が含まれる原画像でも、文字が黒画素で背景が白画素となった2値画像を取得できる。
【0105】
本実施形態によれば、背景色を抽出して文字色と比較し、文字色の明度が背景色より高い場合に、2値化を行うときの参照画像として明暗反転画像(図9(a)に示す)を用いるので、明度が反転した文字が含まれる原画像(図9(b)に示す)でも、背景色に関らず、文字が黒画素となった2値画像(図9(c)に示す)を得ることができる。図9(c)では、文字列「ふつう」のある部分が原画像から2値化を行い、文字列「はんてん」のある部分が前記明度反転画像から2値化されている。これに対し、参照画像として前記明暗反転画像を用いず、原画像のみを用いて2値化した場合には、文字列「はんてん」が白画素となって文字認識に不都合が生じることとなる(図9(d)に示す)。
【0106】
[第3の実施形態]
図10は本発明の第3の実施形態に係る画像処理装置を示す。これは第1の実施形態とは、2値画像生成部108に含まれる画像変換部1081、領域分割部1082、閾値算出部1083、閾値補完部1084、画素値決定部1085を除き、概ね同様の構成を有しているために、図1を用いると共に同一構成には同一符号を付与して説明を省略する。
【0107】
図10において、画像変換部1081は、文字列判定部107により取得された文字行領域に対応した、原画像の部分領域に画像処理(エッジ強調処理を含む)を施し、新たな部分領域画像を生成するものである。領域分割部1082は、画像変換部1081により取得された新たな部分領域画像を、文字行の高さを一辺とした領域に分割するものである。閾値算出部1083は、領域分割部1082により分割された領域内の画素値を用い、第1、第2の実施形態で述べた判別分析法によって各領域における2値化閾値を求めるものである。閾値補完部1084は、文字行内の各画素について、背景の連続的な色変化に追随した各画素の閾値を補完により求めるものである。画素値決定部1085は、閾値補完部1084により取得された各画素の閾値と、各画素の画素値とを比較することにより、2値画像の画素値(白黒)を決定するものである。
【0108】
次に、図11を参照しながら本実施形態の画像処理方法を説明する。これは、文字列を含む行領域を分割し、分割領内で2値化閾値を算出する方法である。本実施形態は、第1の実施形態とはステップS801〜S808(図2のS8に替わる)を除き、概ね同様の方法であるために、図2を用いると共に同一ステップには同一符号を付与して説明を省略する。
【0109】
ステップS801(画素変換ステップに含まれる)では、ステップS7で取得された文字行領域に対応した、原画像の部分領域に対し、画像変換部1081により所定の画像処理を施して新たな部分領域画像を生成する。ここでは、エッジ強調処理を行うものとし、注目画素を中心とした周囲の画素(3×3画素)に対し、図12(a)に示す係数を乗じて注目画素の画素値を置き換えることにより、原画像のエッジ強調をする。このエッジ強調処理は、行領域の文字が小さい場合に、生成される2値画像の文字が潰れ、あるいは掠れることを防止するものである。なお、上述したエッジ強調処理は、十分に大きな行領域では文字の潰れや掠れが発生し難いために、必要性が低くなる。また、エッジ強調処理の他に、例えば細かい黒画素が胡麻塩状に散乱して出現するときには、平滑化処理を用いてもよい。この平滑化処理では、上述した係数の代わりに図12(b)に示す係数を乗じて注目画素の画素値を置き換えることにより、細かい黒画素が減少する。さらに、行領域が所定の大きさ以上に大きいか否かを判断し、所定の大きさ以上に大きい場合には、エッジ強調処理を省く処理を追加してもよい。このような処理の追加することで、画像処理時間を短縮できる。
【0110】
ステップS802(領域分割ステップに含まれる)では、ステップS7で取得された行領域の内部を領域分割部1082により分割する。ここでは、分割領域に背景と文字との両方を含むので、文字行の高さが文字の大きさを代表していると考え、行の高さ(h)を一辺とした正方形の領域に分割する(図13に示す)。この他の領域分割方法としては、単純に固定画素数四方の大きさに分割する方法などが考えられる。なお、分割領域が大き過ぎると、背景色の変化に追随しずらくなり、分割領域が小さ過ぎると、分割領域内に背景しかないときは、背景のはずの画素値の範囲についても無理に閾値を決めることになるので、白画素で表現されるべき領域が胡麻塩状となった2値画像が生成されてしまう。
【0111】
ステップS803(閾値算出ステップに含まれる)では、ステップS802で分割された領域内の画素値を用い、閾値算出部1083によりそれぞれの分割領域における2値化閾値を求める。ここでは、2値化閾値を求める方法として判別分析法を用いる。
【0112】
ステップS804では、前記分割領域の全てについて2値化閾値が算出されたか否かを判断する。ここで、全ブロックの2値化閾値が算出された場合にはステップS805へ進む。
【0113】
ステップS805(閾値補完ステップに含まれる)では、前記行領域内の各画素について、閾値補完部1084により背景の色変化に追随した2値化閾値を求める。ここでは、注目画素と左右に隣接する領域の中心との距離をそれぞれd1、d2、領域ごとに求めた閾値をt1、t2としたとき、注目画素の閾値tpを次式(1)で計算する。
【数1】
なお、閾値の補完方法としては、この他に、ラグランジュ補完法、0次補完法(「コンピュータビジョン」p.51〜p.54、丸善出版刊、谷内田正彦編を参照)などを適宜選択して用いてもよい。例えば、分割領域の1辺の長さが文字行の高さより小さくなるように、格子状に分割した場合(図14(a)に示す)には、ラグランジュ補完法が有効である。この場合、図14(b)に示すように、文字周辺の四つの格子の2値化閾値をt1、t2、t3、t4として、上述した2値化閾値tpを求めた方法を用い、線分t1、t2上で、注目点Pと同じX座標をもつ座標上での2値化閾値t12を求める。同様にして2値化閾値t34を求め、最後に2値化閾値t12と2値化閾値t34に同じ方法を適用して、注目点Pの2値化閾値tpを求めればよい。
【0114】
ステップS806では、画素値決定部1085により、ステップS805で取得された各画素の2値化閾値と、各画素の画素値とを比較することにより、前記行領域内の2値画像の画素値(白黒)を決定する。
【0115】
ステップS807では、前記行領域内の全ての画素を2値化したか否かを判断する。ここで、全ての画素を2値化した場合にはステップS808へ進む。また、全ての画素を2値化していない場合にはステップS805へ戻る。
【0116】
ステップS808では、2値化対象の全ての行領域について、行領域内の全ての画素を2値化したか否かを判断する。ここで、2値化対象の全ての行領域について2値化処理が済んだ場合には、2値画像の生成が完了したので、ステップS9へ進む。また、2値化対象の全ての行領域について2値化処理が済んでいない場合には、ステップS801へ戻る。
【0117】
以上のように、本発明の第3の実施形態に係る画像処理装置は、2値画像生成部108(2値画像生成手段に含まれる)に、上述した行領域(一つの文字列と判定された外接矩形の領域に含まれる)を分割する領域分割部1082(領域分割手段に含まれる)と、領域分割部1082により分割された分割領域ごとに2値化処理のための2値化閾値を求める閾値算出部1083(閾値算出手段に含まれる)と、前記行領域の各画素に対応する2値化閾値を、前記分割領域ごとに求めた2値化閾値を用いて補完する閾値補完部1084(閾値補完手段に含まれる)とを備えているので、閾値補完部1084による精細な補完処理により、背景色が連続的に変化している原画像から文字認識に好適な2値画像を生成できる。
【0118】
また、本発明の第3の実施形態に係る画像処理装置は、2値画像生成部108に、上述した行領域に対応している原画像の一部領域に対して画像処理を施し、前記一部領域の画像を変換する画像変換部1081(画像変換手段に含まれる)を備えているので、2値化の前に原画像に画像処理を施すことにより、原画像の文字が小さいときに、2値化した画像で文字の掠れや潰れが生じ、あるいは細かい黒画素が胡麻塩状に散乱して出現することを改善できる。ここで、判別分析法を用いた場合には、2値化閾値の補完方法により処理時間が多少増加する傾向があるものの、正常な2値化画像を取得できる。
【0119】
なお、背景色が連続的に変化している原画像(図15(a)に示す)に対しては、文字行の行領域を分割し、分割領域ごとに2値化閾値を求め、この2値化閾値の補完によって分割領域内の各画素の2値化閾値を決定して2値化処理するので、正常な2値化画像(図15(b)に示す)が得られる。これに対し、第1の実施形態に準じて行領域ごとに2値化処理した場合には、文字行における背景色の暗い部分では背景が黒画素となってしまい、正常な2値化画像が得られないことがある(図15(c)に示す)。
【0120】
[第4の実施形態]
図16は本発明の第4の実施形態に係る画像処理装置を示す。これは第3の実施形態とは、2値画像生成部108に含まれる行高さ判定部1086、行内黒画素比計測部1087、画素値比較部1088、画素値置換部1089を除き、概ね同様の構成を有しているために、図1を用いると共に同一構成には同一符号を付与して説明を省略する。
【0121】
図16において、行高さ判定部1086は、画素値決定部1085により決定された2値画像の画素値(白黒)により生成される2値画像について、処理対象の文字行の高さを判断するものである。行内黒画素比計測部1087は、前記2値画像を生成したときの文字行領域内の黒画素と白画素の比を計測するものである。画素値比較部1088は、前記2値画像における注目画素(黒画素)の原画像上での色と、文字を抽出する過程で既に取得されている文字色とを比較するものである。ここでは、色の3成分(R、G、B)の差の2乗和を用いて画素値を比較する。画素値置換部1089は、前記2値画像上の注目画素を白画素に置換するものである。
【0122】
次に、図17を参照しながら本実施形態の画像処理方法を説明する。これは、第4の実施形態とは特にステップS806の後工程に、ステップS811〜S817を設けた点を除き、概ね同様の方法であるために、図2を用いると共に同一ステップには同一符号を付与して説明を省略する。
【0123】
ステップS811(判定ステップに含まれる)では、ステップS806で処理対象の行領域内の2値画像の画素値(白黒)を決定した後、すなわち明度情報から2値画像を生成した後、行高さ判定部1086により処理対象の文字行の高さが予め決められた高さよりも低いか否かを判断する。ここで、前記文字行の高さが予め決められた高さよりも高い場合にはステップS819へ進む。また、前記文字行の高さが予め決められた高さよりも低い場合にはステップS812の処理に進む。なお、文字行の高さが予め決められた高さよりも低い場合には、行領域内の文字が小さく、ストロークも細いことがある。このような文字の場合には、2値画像を微視的に見ると、背景色とストロークの色とが混合してしまい、文字色との差が大きくなり、後段の処理で前記文字のストロークが白画素に変換されることがある。そこで、ステップS811では、先に処理対象の文字行の高さを判断し、ステップS812を実行するか否かを決定する。
【0124】
ステップS812(黒画素比計測ステップに含まれる)では、行内黒画素比計測部1087により、2値画像における前記文字行内の黒画素と白画素の比(黒画素比)を計測する。なお、黒画素比が予め決められた値よりも小さい場合は、ストローク自体が細い文字から構成されているので、文字色が背景色と混合して白画素として表現されるおそれがある。一方、黒画素比が予め決められた値よりも小さい場合には、背景が誤って黒画素として表現される可能性は低いために、後段の処理で文字の黒画素を白画素化する処理を施す必要性は低い。そこで、ステップS812では先に処理対象の文字行の黒画素比を計測する。
【0125】
ステップS813(画素値比較ステップに含まれる)では、画素値比較部1088により、ステップS814で計測された黒画素比が予め決められた値よりも大きいか否かを判断する。ここで、前記黒画素比が予め決められた値よりも大きい場合はステップS819へ進む。また、前記黒画素比が予め決められた値よりも小さい場合にはステップS814へ進む。
【0126】
ステップS814では、画素値比較部1088により、2値画像における前記文字行内の注目画素が黒画素か否かを判断する。ここで、注目画素が黒画素の場合はステップS815に進む。また、注目画素が黒画素でない場合にはステップS818へ進む。
【0127】
ステップS815(画素値比較ステップに含まれる)では、画素値比較部1088により、2値画像における前記文字行内の注目画素の原画像上での色と、文字を抽出する過程で取得された文字色とを比較する。ここでは、色の3成分(R、G、B)の差の2乗和を用いて画素値を比較する。なお、ステップS815では、注目画素の色を求めているが、この他に、第3の実施形態(図11のS801)で示した原画像変換を行ってから注目画素の画素値を求めてもよい。また、第3の実施形態で述べたように、文字行領域の大きさによっては前記原画像変換を行わない処理を追加してもよい。
【0128】
ステップS816では、画素値比較部1088により、ステップS815で取得された色の3成分の差の2乗和が、予め決められた値よりも大きいか否かを判断する。ここで、前記2乗和が予め決められた値よりも大きい場合は、誤って文字色以外の色を黒画素にしていると判断してステップS817へ進む。また。前記2乗和が予め決められた値よりも小さい場合にはステップS818へ進む。
【0129】
ステップS817(画素値置換ステップに含まれる)では、画素値置換部1089により、2値画像における前記文字行内の注目画素(黒画素)を白画素に置換する。
【0130】
ステップS818では、前記行領域内の全ての画素について、ステップS811〜S817の処理を施したか否かを判断する。ここで、全ての画素についてステップS811〜S817の処理を施した場合にはステップS819へ進む。また、前記行領域内の全ての画素について、ステップS811〜S817の処理を施していない場合にはステップS814へ戻る。なお、ステップS818は、ステップS807に相当する。
【0131】
ステップS819では、2値化対象の全ての行領域について、行領域内の全ての画素に対し、ステップS811〜S817の処理を施したか否かを判断する。ここで、2値化対象の全ての行領域について前記処理が完了した場合は、ステップS9へ進む。また、2値化対象の全ての行領域について前記処理が済んでいない場合には、ステップS811へ戻る。なお、ステップS819は、ステップS808に相当する。
【0132】
以上のように、本発明の第4の実施形態に係る画像処理装置は、2値画像生成部108(2値画像生成手段に含まれる)には、上述したランに含まれる画素の色を文字色とし、2値化対象の黒画素の原画像上での色と前記文字色とを比較する画素値比較部1088(画素値比較手段に含まれる)と、画素値比較部1088による比較結果に応じて、前記2値化対象の黒画素を2値画像上で白画素に置き換える画素値置換部1089(画素値置換手段に含まれる)とを備えているので、同一文字行に複数の背景色が存在する場合でも正常な2値画像が得られる。
【0133】
例えば、図18(a)に示すように、背景色が「赤」、「青」の2色であるような文字行領域を2値化処理するとき、明度のみで2値画像を生成した場合には、図18(c)に示すように背景の一部が黒画素になってしまうことがある。これに対し、本実施形態のように明度と色情報とを併用し、2値化処理によって一旦黒画素になってしまった青い背景を白画素に置換することで、図18(b)に示すように正常な2値画像を生成できる。
【0134】
また、本発明の第4の実施形態に係る画像処理装置は、上述した行領域(一つの文字列と判定された外接矩形の領域に含まれる)内の黒画素と白画素の比を計測する行内黒画素比計測部1087(黒画素比計測手段に含まれる)を備え、画素値比較部1088が、行内黒画素比計測部1087による計測結果に応じて比較処理を行うか否かを決定するように構成しているので、不要な画素値比較処理を回避して画像処理時間を短縮することができる。
【0135】
さらに、本発明の第4の実施形態に係る画像処理装置は、上述した行領域の大きさを判定する行高さ判定部1086(判定手段に含まれる)を備え、行内黒画素比計測部1087が、行高さ判定部1086による判定結果に応じて計測処理を行うか否かを決定するように構成しているので、不要な計測処理を回避して画像処理時間を短縮することができる。
【0136】
なお、上述した実施形態では文字色と遠い色を白画素に置換した場合について説明したが、本発明はこの他に、文字色に近い白画素を黒画素に置換する処理を設けても同様の効果が得られるものである。この場合は、特に色あいが近いにも拘らず、やや明度が異なった画素が誤って背景とみなされて白画素になるのを防ぐことができる。さらに、本発明はこの他に、文字色だけでなく背景色を抽出し、各画素と文字色、背景色との色差を判断し、文字色に近ければ黒画素、背景色に近ければ白画素と置換しても同様の効果が得られるものである。
【0137】
[第5の実施形態]
図19は本発明の第5の実施形態に係る画像処理装置を示す。これは第1の実施形態とは、2値画像生成部108に含まれる閾値算出領域設定部10851、閾値算出部10852、画素値決定部10853を除き、概ね同様の構成を有しているために、図1を用いると共に同一構成には同一符号を付与して説明を省略する。
【0138】
図19において、閾値算出領域設定部10851は、文字列判定部107の文字列判定処理によって抽出された文字行の領域に対し、さらに行領域内の注目画素の2値化閾値を算出するための閾値算出領域を設定するものである。閾値算出部10852は、閾値算出領域設定部10851により設定された閾値算出領域内の画素値を用い、判別分析法によって2値化閾値を算出するものである。画素値決定部10853は、閾値算出部10852により算出された2値化閾値と、原画像における注目画素の画素値とを比較し、2値画像における注目画素の画素値を決定するものである。
【0139】
次に、図20を参照しながら本実施形態の画像処理方法を説明する。これは、画素ごとに異なる閾値算出領域を設定して2値化閾値を算出する方法である。本実施形態は、第1の実施形態とはステップS851〜S855(図2のS8に相当する)を設けた点を除き、概ね同様の方法であるために、図2を用いると共に同一ステップには同一符号を付与して説明を省略する。
【0140】
ステップS851(閾値算出領域設定ステップに含まれる)では、ステップS7の文字列判定処理によって抽出された文字行の領域に対し、さらに閾値算出領域設定部10851によって、行領域内の注目画素の2値化閾値を算出するための閾値算出領域を設定する。このとき、図21に示すように、行領域内の注目画素の周囲を閾値算出領域として設定する。ここでは、閾値算出領域の広さは予め固定されているものとするが、これに限らず、文字行の高さや文字の太さに応じて適宜設定したものでもよい。
【0141】
ステップS852(領域内閾値算出ステップに含まれる)では、ステップS851で取得された閾値算出領域について、閾値算出部10852により、設定範囲の画素値を用いて2値化閾値を算出する。ここでは、判別分析法を用いて2値化閾値を決定する。
【0142】
ステップS853では、画素値決定部10853により、原画像における注目画素の画素値と、ステップS852で取得された2値化閾値とを比較し、2値画像における画素値を決定する。
【0143】
ステップS854では、前記行領域内の全ての画素について、ステップS851〜S853の処理を施したか否かを判断する。ここで、全ての画素についてステップS851〜S853の処理を施した場合にはステップS855へ進む。また、前記行領域内の全ての画素について、ステップS851〜S853の処理を施していない場合にはステップS851へ戻る。なお、ステップS854は、ステップS807に相当する。
【0144】
ステップS855では、2値化対象の全ての行領域について、行領域内の全ての画素に対し、ステップS851〜S853の処理を施したか否かを判断する。ここで、2値化対象の全ての行領域について前記処理が完了した場合は、ステップS9へ進む。また、2値化対象の全ての行領域について前記処理が済んでいない場合には、ステップS851へ戻る。なお、ステップS855は、ステップS808に相当する。
【0145】
以上のように、本発明の第5の実施形態に係る画像処理装置は、2値画像生成部108(2値画像生成手段に含まれる)には、上述した行領域(一つの文字列と判定された外接矩形の領域に含まれる)で、2値化対象の画素の周囲に2値化閾値算出のための領域を前記画素ごとに設定する閾値算出領域設定部10851(閾値算出領域設定手段に含まれる)と、閾値算出領域設定部10851により設定された領域内の画素値を用い、前記画素の2値化閾値を算出する閾値算出部10853(領域内閾値算出手段に含まれる)とを備えているので、第1、第3の実施形態に示した画像処理方法と比べ、より精細に2値化閾値を設定することが期待できる。
【0146】
[第6の実施形態]
図22は本発明の第6の実施形態に係る画像処理装置を示す。これは第1の実施形態とは、パーソナルコンピュータなどの汎用処理装置を用いて本発明の画像処理装置を構成し、画像処理機能をソフトウェアによって実現した点が相違している。
【0147】
図22において、中央処理装置(CPU)401は、装置全体を制御し、本実施形態の画像処理機能を実現するものである。メモリ402は、ROMやRAM等で構成され、CPU401の制御プログラムを記憶するとともに、この制御プログラムがCPU401によって実行されるときにー時的に作成される情報等を保持するものである。ハードディスクドライブ403は、処理対象の原稿画像を記録したハードディスクを装着して読み込み、メモリ402あるいは他の記憶装置へ格納するのに用いられる。入力装置404は、キーボード、マウス、タッチパネル、スキャナ等で構成され、情報入力に用いられるものである。CD‐ROMドライブ405は、プログラムやデータ等を記録したCD‐ROM407を装着して読み込み、メモリ402へ格納するのに用いられる。出力装置406は、CRT、液晶ディスプレイ(LCD)、またはプリンタ等で構成され、入力装置404から入力された原画像、圧縮画像あるいは画像処理結果の2値画像などを表示、印刷するものである。CD‐ROM407(記録媒体に含まれる)には、本実施形態の画像処理機能や処理手順を実現させるためのプログラムやデータ等が記録されている。上述した装置401〜406は、バスによって接続されている。
【0148】
さらに、上述した記録媒体として、CD‐ROM407の他に、半導体媒体(例えば、ROM、ICメモリカード等)、光媒体(例えば、ディジタル・バーサタイル・ディスク(DVD)、光磁気ディスク(MO)、ミニディスク(MD)、書き込み可能なCD(CD‐R)等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク(FD)等)などを用いてもよい。
【0149】
また、上述した記録媒体からインストールされたプログラム、換言すれば、上述の記録媒体に記憶されたプログラムとしては、本実施形態の画像処理機能を実現するために用いられる画像処理プログラムがある。ここでは、画像処理プログラムを予めCD‐ROM407等の記録媒体に書き込んでおき、このCD‐ROM407等をCD‐ROMドライブ405などの媒体駆動装置に装着して読み込み、前記画像処理プログラムをメモリ402に格納し、CPU401が実行することによって、本実施形態の画像処理機能を実現するものである。さらに、画像処理プログラムが半導体の記録媒体に記録されている場合には、直接、メモリ402ヘロードされ、実行されることとなる。
【0150】
なお、メモリ402へロードされた画像処理プログラムを実行することにより、本実施形態の画像処理機能が実現されるだけでなく、画像処理プログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行ない、その処理によって本実施形態の画像処理機能が実現されるようにしてもよい。
【0151】
次に、本実施形態に係る画像処理プログラムを説明する。これは、第1の実施形態における画像処理手順を実行させるものであるために、図2を用いる。前記画像処理プログラムは、CPU401(コンピュータ装置に含まれる)に、図2に示すステップS1〜S9を実行させるものである。
【0152】
ステップS1では、入力装置404またはHDD403により、第1の実施形態に準じて処理対象の原画像(カラー画像を含む)を入力とする。この取得された原画像のデータは、メモリ402に送出される。ステップS2では、CPU401により第1の実施形態に準じて前記原画像から圧縮画像を生成する。ステップS3では、CPU401により第1の実施形態に準じて、前記圧縮画像処理で得られた圧縮画像の各行ごとにランを求める処理(ラン生成処理)を実行する。ステップS4では、CPU401により第1の実施形態に準じて、前記ランの連結成分を生成する。ステップS5では、CPU401により第1の実施形態に準じて、ステップS4で生成された連結成分の中から、予め決められた条件(連結成分の大きさを含む)で連結成分を選別して削除する。ステップS6では、CPU401により第1の実施形態に準じて、ステップS5で選別された後の連結成分に対し、前記連結成分における外接矩形の統合処理を施す。ステップS7では、CPU401により第1の実施形態に準じて、ステップS6で取得された文字列候補の外接矩形に対し、文字列か否かを判断する。ステップS8では、CPU401により第1の実施形態に準じ、ステップS7で文字列であると判断された外接矩形に対して、前記外接矩形の行領域(文字行)ごとに2値化処理を施す。ステップS9では、CPU401により第1の実施形態に準じて、ステップS8で生成された2値画像を出力装置406に出力させる。あるいは、HDD403に取り付けられたハードディスクに前記2値画像を記録させる。
【0153】
なお、上述した実施形態では画像処理プログラムによって第1の実施形態に示した画像処理機能を実現した場合について説明したが、本発明はこの他に、第2乃至第5の実施形態に示した画像処理機能(図2、図8、図11、図17、図20などに示す)のいずれかを画像処理プログラムによって実現することもできる。画像処理プログラムによっても、第1乃至第5の実施形態と同様の効果が得られるものである。さらに、前記画像処理プログラムをCPU401、メモリ402に予め設ける構成に比べ、前記画像処理プログラムを記録した記録媒体を携帯して移動できるために、前記画像処理プログラムの配布や更新が容易である。
【0154】
また、入力装置404、HDD403などは、画像取得手段に含まれる。さらに、CPU401などは、圧縮画像生成手段、ラン生成手段、連結成分生成手段、連結成分選別手段、外接矩形統合手段、文字列判定手段、2値画像生成手段、領域分割手段、閾値算出手段、閾値補完手段、閾値算出領域設定手段、領域内閾値算出手段、明度反転画像生成手段、背景色抽出手段、色比較手段、参照画像設定手段、画素値比較手段、画素値置換手段、画像変換手段に含まれる。
【0155】
[第7の実施形態]
図23は本発明の第7の実施形態に係る画像処理装置を示す。これは第6の実施形態とは、画像処理の実行を指示するクライアント側と、実際に画像処理動作を行い、処理結果を返すサーバ側とを分離し、両者をネットワークによって接続した点が相違している。
【0156】
図23のサーバ装置500において、中央処理装置(CPU)501は、装置全体を制御し、本実施形態の画像処理機能を実現するものである。メモリ502は、ROMやRAM等で構成され、CPU501の制御プログラム(画像処理プログラムを含む)を記憶するとともに、この制御プログラムがCPU501によって実行されるときにー時的に作成される情報等を保持するものである。ハードディスクドライブ503は、本実施形態の画像処理機能を実現するための画像処理プログラムを記録したハードディスクを装着して読み込み、メモリ502へ格納するのに用いられる。また、ハードディスクドライブ503は、クライアントPC506〜508から送信された処理対象の原画像データをハードディスクに格納するのに用いられる。ネットワークカード504は、サーバ装置500をインターネット509(ネットワークに含まれる)へ接続するためのインタフェースであり、ルータ505およびインターネット509を介して他の通信装置(クライアントPC506〜508を含む)と信号及びデータを遣り取りするものである。ルータ505は、インターネット509上におけるサーバ装置500の接続先を振り分けるものである。上述した装置501〜505は、バスによって接続されている。
【0157】
図23のクライアント・パーソナルコンピュータ(クライアントPC)506〜508には、詳細に図示していないが、装置全体を制御するCPU、このCPUの制御プログラムやデータを記憶するメモリ、ハードディスクやハードディスクドライブなどの記憶装置、キーボード、マウス、タッチパネル、スキャナなどの入力装置、CRT、液晶ディスプレイ(LCD)、プリンタなどの出力装置、および、クライアントPCをインターネット509(ネットワークに含まれる)へ接続するためのネットワーク接続装置を備えている。
【0158】
さらに、前記画像処理プログラムを記録した記録媒体として、ハードディスクの他に、半導体媒体(例えば、ROM、ICメモリカード等)、光媒体(例えば、シーディーロム(CD‐ROM)、ディジタル・バーサタイル・ディスク(DVD)、光磁気ディスク(MO)、ミニディスク(MD)、書き込み可能なCD(CD‐R)等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク(FD)等)などを用いてもよい。
【0159】
また、インターネット509などのネットワークは、サーバ装置500、クライアントPC506〜508などの通信装置間を結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけでなく、それらの間の通信プロトコルが一致するものであれば無線、有線及び放送波のいずれでもよく、例えば、構内網(LAN)、広域網(WAN)、アナログ電話網、ディジタル電話網(ISDN)、パーソナルハンディホンシステム(PHS)、携帯電話網、衛星通信網などを用いることができる。
【0160】
また、前記画像処理プログラムが半導体の記録媒体に記録されている場合には、前記画像処理プログラムは、ハードディスクドライブ503などの媒体駆動装置からではなく、直接、メモリ502ヘロードされ、実行されることとなる。
【0161】
なお、メモリ502へロードされた画像処理プログラムを実行することにより、本実施形態の画像処理機能が実現されるだけでなく、画像処理プログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって本実施形態の画像処理機能が実現されるようにしてもよい。
【0162】
上述した構成により、インターネット509に接続されたクライアントPC506〜508のいずれかが、画像処理を指示するメッセージと、処理対象画像および参照画像をサーバ装置500に送る。サーバ装置500側では、ルータ505、ネットワークカード504を経て、クライアントPCからの画像と画像処理の指示内容を受け取り、これをハードディスクドライブ503に装着されたハードディスクに格納する。CPU501は、前記ハードディスクから前記指示内容を読み出したのち、前記ハードディスクに格納されている画像処理プログラムをメモリ502に読み出して、第1の実施形態に示した画像処理手順(図2に示す)を実行する。さらに、CPU501は、再びインターネット509を通して画像処理結果をクライアントPC506〜508のいずれかへ送信する。
【0163】
なお、前記画像処理プログラムは、CPU501(コンピュータ装置に含まれる)に、図2に示すステップS1〜S9を実行させるものである。
【0164】
ステップS1では、HDD503によってHDD503に装着されたハードディスクから処理対象の原画像(カラー画像を含む)を読み出し、第1の実施形態に準じてメモリ502に格納する。ステップS2では、CPU501により第1の実施形態に準じて前記原画像から圧縮画像を生成する。ステップS3では、CPU501により第1の実施形態に準じて、前記圧縮画像処理で得られた圧縮画像の各行ごとにランを求める処理(ラン生成処理)を実行する。ステップS4では、CPU501により第1の実施形態に準じて、前記ランの連結成分を生成する。ステップS5では、CPU501により第1の実施形態に準じて、ステップS4で生成された連結成分の中から、予め決められた条件(連結成分の大きさを含む)で連結成分を選別して削除する。ステップS6では、CPU501により第1の実施形態に準じて、ステップS5で選別された後の連結成分に対し、前記連結成分における外接矩形の統合処理を施す。ステップS7では、CPU501により第1の実施形態に準じて、ステップS6で取得された文字列候補の外接矩形に対し、文字列か否かを判断する。ステップS8では、CPU501により第1の実施形態に準じ、ステップS7で文字列であると判断された外接矩形に対して、前記外接矩形の行領域(文字行)ごとに2値化処理を施す。ステップS9では、ステップS8で生成された2値画像をクライアントPCに返すために、CPU501により、ネットワークカード504、ルータ505を介して前記2値画像のデータをインターネット509上に送出する。あるいは、CPU501により、HDD503に取り付けられたハードディスクに前記2値画像を記録させる。
【0165】
本実施形態によれば、画像処理は全てサーバ装置500側で行うために、クライアントPC506〜508側は画像処理プログラムを導入するための時間的コストを節約できるという効果も得られる。
【0166】
なお、上述した実施形態では画像処理プログラムによって第1の実施形態に示した画像処理機能を実現した場合について説明したが、本発明はこの他に、第2乃至第5の実施形態に示した画像処理機能(図2、図8、図11、図17、図20などに示す)のいずれかを画像処理プログラムによって実現することもできる。画像処理プログラムによっても、第1乃至第5の実施形態と同様の効果が得られるものである。
【0167】
また、クライアントPC506〜508、インターネット509、HDD503などは、画像取得手段に含まれる。さらに、CPU501などは、圧縮画像生成手段、ラン生成手段、連結成分生成手段、連結成分選別手段、外接矩形統合手段、文字列判定手段、2値画像生成手段、領域分割手段、閾値算出手段、閾値補完手段、閾値算出領域設定手段、領域内閾値算出手段、明度反転画像生成手段、背景色抽出手段、色比較手段、参照画像設定手段、画素値比較手段、画素値置換手段、画像変換手段に含まれる。
【0168】
【発明の効果】
以上説明したように、本発明は2値画像生成手段(2値画像生成部を含む)が、文字列判定手段(文字列判定部を含む)により行領域ごとに2値化処理を施して2値画像を生成することにより、複数の背景色を有する原画像から文字認識に好適な2値画像を生成できるという優れた効果を有する画像処理装置を提供することができるものである。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る画像処理装置の構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る画像処理方法を示すフローチャートである。
【図3】本発明の第1の実施形態に係る連結成分生成処理を説明する図である。
【図4】本発明の第1の実施形態に係るエッジ強調処理用のフィルタを示す図である。
【図5】本発明の第1の実施形態に係る処理対象の原画像を示す図である。
【図6】本発明の第1の実施形態に係る行領域ごとの画像処理結果を示す図である。
【図7】本発明の第2の実施形態に係る画像処理装置の構成を示すブロック図である。
【図8】本発明の第2の実施形態に係る画像処理方法を示すフローチャートである。
【図9】本発明の第2の実施形態に係る画像処理結果を示す図である。
【図10】本発明の第3の実施形態に係る画像処理装置の構成を示すブロック図である。
【図11】本発明の第3の実施形態に係る画像処理方法を示すフローチャートである。
【図12】本発明の第3の実施形態に係るエッジ強調処理用のフィルタを示す図である。
【図13】本発明の第3の実施形態に係る領域分割処理を説明する図である。
【図14】本発明の第3の実施形態に係る閾値補完処理を説明する図である。
【図15】本発明の第3の実施形態に係る画像処理結果を示す図である。
【図16】本発明の第4の実施形態に係る画像処理装置の構成を示すブロック図である。
【図17】本発明の第4の実施形態に係る画像処理方法を示すフローチャートである。
【図18】本発明の第4の実施形態に係る画像処理結果を示す図である。
【図19】本発明の第5の実施形態に係る画像処理装置の構成を示すブロック図である。
【図20】本発明の第5の実施形態に係る画像処理方法を示すフローチャートである。
【図21】本発明の第5の実施形態に係る閾値算出領域を示す図である。
【図22】本発明の第6の実施形態に係る画像処理装置の構成を示すブロック図である。
【図23】本発明の第7の実施形態に係る画像処理装置の構成を示すブロック図である。
【符号の説明】
101 画像入力部
102 圧縮画像生成部
103 ラン生成部
104 連結成分生成部
105 連結成分選別部
106 外接矩形統合部
107 文字列判定部
108 2値画像生成部
109 結果出力部
Claims (30)
- 処理対象となる画像から多値画像を取得する画像取得手段と、前記画像取得手段により取得された多値画像から、圧縮画像を生成する圧縮画像生成手段と、前記圧縮画像生成手段により取得された圧縮画像から、略同一色相の画素列をランとして生成するラン生成手段と、前記ラン生成手段により生成されたランを統合して連結成分を生成する連結成分生成手段と、前記連結成分生成手段により生成された連結成分から、所定の選別条件を満足するものを選別する連結成分選別手段と、前記連結成分選別手段により選別された連結成分の外接矩形を統合する外接矩形統合手段と、前記外接矩形統合手段により統合された外接矩形が一つの文字列か否かを判定する文字列判定手段と、前記文字列判定手段により一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する2値画像生成手段とを備えたことを特徴とする画像処理装置。
- 前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域を分割する領域分割手段と、前記領域分割手段により分割された分割領域ごとに2値化処理のための2値化閾値を求める閾値算出手段と、前記外接矩形の領域の各画素に対応する2値化閾値を、前記分割領域ごとに求めた2値化閾値を用いて補完する閾値補完手段とを備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記領域分割手段が、前記一つの文字列と判定された外接矩形の領域を予め設定された大きさに分割するように構成したことを特徴とする請求項2に記載の画像処理装置。
- 前記領域分割手段が、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、前記分割領域の大きさを変更するように構成したことを特徴とする請求項2に記載の画像処理装置。
- 前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域で、2値化対象の画素の周囲に2値化閾値算出のための領域を前記画素ごとに設定する閾値算出領域設定手段と、前記閾値算出領域設定手段により設定された領域内の画素値を用い、前記画素の2値化閾値を算出する領域内閾値算出手段とを備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記2値画像生成手段には、前記原画像の明度を反転させた反転画像を生成する明度反転画像生成手段と、前記一つの文字列と判定された外接矩形の領域の背景色を抽出する背景色抽出手段と、前記ランに含まれる画素の色を文字色とし、前記背景色抽出手段により抽出された背景色と前記文字色とを比較する色比較手段と、前記色比較手段による比較結果に応じて、2値化処理時に前記反転画像を参照するように設定する参照画像設定手段とを備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記2値画像生成手段には、前記ランに含まれる画素の色を文字色とし、2値化対象の黒画素の原画像上での色と前記文字色とを比較する画素値比較手段と、前記画素値比較手段による比較結果に応じて、前記2値化対象の黒画素を2値画像上で白画素に置き換える画素値置換手段とを備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記2値画像生成手段には、前記ランに含まれる画素の色を文字色とし、2値化対象の白画素の原画像上での色と前記文字色とを比較する画素値比較手段と、前記画素値比較手段による比較結果に応じて、前記2値化対象の白画素を2値画像上で黒画素に置き換える画素値置換手段とを備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記一つの文字列と判定された外接矩形の領域内の黒画素と白画素の比を計測する黒画素比計測手段を備え、前記画素値比較手段が、前記黒画素比計測手段による計測結果に応じて比較処理を行うか否かを決定するように構成したことを特徴とする請求項8に記載の画像処理装置。
- 前記一つの文字列と判定された外接矩形の領域の大きさを判定する判定手段を備え、前記黒画素比計測手段が、前記判定手段による判定結果に応じて計測処理を行うか否かを決定するように構成したことを特徴とする請求項8に記載の画像処理装置。
- 前記2値画像生成手段には、前記一つの文字列と判定された外接矩形の領域に対応している原画像の一部領域に対して画像処理を施し、前記一部領域の画像を変換する画像変換手段を備えたことを特徴とする請求項1に記載の画像処理装置。
- 前記画像変換手段が、原画像の一部領域に対してエッジ強調処理を施すように構成したことを特徴とする請求項11に記載の画像処理装置。
- 前記画像変換手段が、原画像の一部領域に対して平滑化処理を施すように構成したことを特徴とする請求項11に記載の画像処理装置。
- 前記画像変換手段が、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、画像処理を施すか否かを決定するように構成したことを特徴とする請求項11に記載の画像処理装置。
- 処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行することを特徴とする画像処理方法。
- 前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域を分割する領域分割ステップと、前記領域分割ステップで分割された分割領域ごとに2値化処理のための2値化閾値を求める閾値算出ステップと、前記外接矩形の領域の各画素に対応する2値化閾値を、前記分割領域ごとに求めた2値化閾値を用いて補完する閾値補完ステップとを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記領域分割ステップでは、前記一つの文字列と判定された外接矩形の領域を予め設定された大きさに分割することを特徴とする請求項16に記載の画像処理方法。
- 前記領域分割ステップでは、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、前記分割領域の大きさを変更することを特徴とする請求項16に記載の画像処理方法。
- 前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域で、2値化対象の画素の周囲に2値化閾値算出のための領域を前記画素ごとに設定する閾値算出領域設定ステップと、前記閾値算出領域設定ステップで設定された領域内の画素値を用い、前記画素の2値化閾値を算出する領域内閾値算出ステップとを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記第8のステップでは、前記原画像の明度を反転させた反転画像を生成する明度反転画像生成ステップと、前記一つの文字列と判定された外接矩形の領域の背景色を抽出する背景色抽出ステップと、前記ランに含まれる画素の色を文字色とし、前記背景色抽出手段により抽出された背景色と前記文字色とを比較する色比較ステップと、前記色比較ステップで取得された比較結果に応じて、2値化処理時に前記反転画像を参照するように設定する参照画像設定ステップとを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記第8のステップでは、前記ランに含まれる画素の色を文字色とし、2値化対象の黒画素の原画像上での色と前記文字色とを比較する画素値比較ステップと、前記画素値比較ステップで取得された比較結果に応じて、前記2値化対象の黒画素を2値画像上で白画素に置き換える画素値置換ステップとを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記第8のステップでは、前記ランに含まれる画素の色を文字色とし、2値化対象の白画素の原画像上での色と前記文字色とを比較する画素値比較ステップと、前記画素値比較ステップで取得された比較結果に応じて、前記2値化対象の白画素を2値画像上で黒画素に置き換える画素値置換ステップとを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域内の黒画素と白画素の比を計測する黒画素比計測ステップを実行し、前記画素値比較ステップでは、前記黒画素比計測ステップで取得された計測結果に応じて比較処理を行うか否かを決定することを特徴とする請求項22に記載の画像処理方法。
- 前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域の大きさを判定する判定ステップを実行し、前記黒画素比計測ステップでは、前記判定ステップで取得された判定結果に応じて計測処理を行うか否かを決定することを特徴とする請求項22に記載の画像処理方法。
- 前記第8のステップでは、前記一つの文字列と判定された外接矩形の領域に対応している原画像の一部領域に対して画像処理を施し、前記一部領域の画像を変換する画像変換ステップを実行することを特徴とする請求項15に記載の画像処理方法。
- 前記画像変換ステップでは、原画像の一部領域に対してエッジ強調処理を施すことを特徴とする請求項25に記載の画像処理方法。
- 前記画像変換ステップでは、原画像の一部領域に対して平滑化処理を施すことを特徴とする請求項25に記載の画像処理方法。
- 前記画像変換ステップでは、前記一つの文字列と判定された外接矩形の領域の大きさに応じ、画像処理を施すか否かを決定することを特徴とする請求項25に記載の画像処理方法。
- コンピュータに、処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行させるためのプログラム。
- コンピュータに、処理対象となる画像から多値画像を取得する第1のステップと、第1のステップで取得された多値画像から、圧縮画像を生成する第2のステップと、第2のステップで取得された圧縮画像から、略同一色相の画素列をランとして生成する第3のステップと、第3のステップで取得されたランを統合して連結成分を生成する第4のステップと、第4のステップで統合された連結成分から、所定の選別条件を満足するものを選別する第5のステップと、第5のステップで選別された連結成分の外接矩形を統合する第6のステップと、第6のステップで統合された外接矩形が一つの文字列か否かを判定する第7のステップと、第7のステップで一つの文字列と判定された外接矩形の領域ごとに2値化処理を施して2値画像を生成する第8のステップとを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002370670A JP2004199622A (ja) | 2002-12-20 | 2002-12-20 | 画像処理装置、画像処理方法、記録媒体およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002370670A JP2004199622A (ja) | 2002-12-20 | 2002-12-20 | 画像処理装置、画像処理方法、記録媒体およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004199622A true JP2004199622A (ja) | 2004-07-15 |
Family
ID=32766526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002370670A Pending JP2004199622A (ja) | 2002-12-20 | 2002-12-20 | 画像処理装置、画像処理方法、記録媒体およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004199622A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546315B2 (en) | 2005-12-28 | 2009-06-09 | International Business Machines Corporation | Device for reporting software problem information |
US7599099B2 (en) | 2005-05-26 | 2009-10-06 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
JP2013110692A (ja) * | 2011-11-24 | 2013-06-06 | Fuji Xerox Co Ltd | 画像処理装置および画像処理プログラム |
JP2013527513A (ja) * | 2010-03-10 | 2013-06-27 | マイクロソフト コーポレーション | 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム |
JP2013211750A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 画像処理装置および画像処理プログラム |
JP2013210899A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 画像処理装置および画像処理プログラム |
JP2014107684A (ja) * | 2012-11-27 | 2014-06-09 | Kyocera Document Solutions Inc | 画像処理装置 |
WO2017141802A1 (ja) * | 2016-02-15 | 2017-08-24 | 日本電気株式会社 | 画像処理装置、文字認識装置、画像処理方法及びプログラム記録媒体 |
CN110120080A (zh) * | 2019-04-12 | 2019-08-13 | 青岛九维华盾科技研究院有限公司 | 一种快速生成标准伪装迷彩主色的方法 |
WO2020089985A1 (ja) * | 2018-10-29 | 2020-05-07 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
-
2002
- 2002-12-20 JP JP2002370670A patent/JP2004199622A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7599099B2 (en) | 2005-05-26 | 2009-10-06 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
US7546315B2 (en) | 2005-12-28 | 2009-06-09 | International Business Machines Corporation | Device for reporting software problem information |
JP2013527513A (ja) * | 2010-03-10 | 2013-06-27 | マイクロソフト コーポレーション | 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム |
JP2013110692A (ja) * | 2011-11-24 | 2013-06-06 | Fuji Xerox Co Ltd | 画像処理装置および画像処理プログラム |
US9230186B2 (en) | 2012-03-30 | 2016-01-05 | Brother Kogyo Kabushiki Kaisha | Image processing device generating binary image data by selecting specific component |
JP2013211750A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 画像処理装置および画像処理プログラム |
JP2013210899A (ja) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | 画像処理装置および画像処理プログラム |
JP2014107684A (ja) * | 2012-11-27 | 2014-06-09 | Kyocera Document Solutions Inc | 画像処理装置 |
WO2017141802A1 (ja) * | 2016-02-15 | 2017-08-24 | 日本電気株式会社 | 画像処理装置、文字認識装置、画像処理方法及びプログラム記録媒体 |
US11341739B2 (en) | 2016-02-15 | 2022-05-24 | Nec Corporation | Image processing device, image processing method, and program recording medium |
WO2020089985A1 (ja) * | 2018-10-29 | 2020-05-07 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
JPWO2020089985A1 (ja) * | 2018-10-29 | 2021-05-13 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
JP7106672B2 (ja) | 2018-10-29 | 2022-07-26 | 株式会社Pfu | 画像処理装置、制御方法及び制御プログラム |
CN110120080A (zh) * | 2019-04-12 | 2019-08-13 | 青岛九维华盾科技研究院有限公司 | 一种快速生成标准伪装迷彩主色的方法 |
CN110120080B (zh) * | 2019-04-12 | 2024-01-05 | 青岛九维华盾科技研究院有限公司 | 一种快速生成标准伪装迷彩主色的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4423298B2 (ja) | デジタル画像におけるテキスト状エッジの強調 | |
JP4667062B2 (ja) | 画像解析装置、画像解析方法、及びブロブ識別装置 | |
EP1173003B1 (en) | Image processing method and image processing apparatus | |
US7782339B1 (en) | Method and apparatus for generating masks for a multi-layer image decomposition | |
EP2645304B1 (en) | Image processing device determining binarizing threshold value | |
JPH11338976A (ja) | 文書画像認識装置、その方法、及び記録媒体 | |
JP2000196895A (ja) | デジタル画像デ―タ区分方法 | |
JP2009111978A (ja) | 背景色を推定する方法およびシステム | |
JP2009225422A (ja) | 画像符号化装置及び画像処理装置及びそれらの制御方法 | |
US8620081B2 (en) | Image processing apparatus, method, and storage medium for determining attributes | |
US7885486B2 (en) | Image processing system, method for processing image and computer readable medium | |
JP2004166007A (ja) | 画像処理装置及び画像処理方法、画像処理プログラム、記憶媒体 | |
JP2018139457A (ja) | 画像処理装置、画像処理の制御方法、及びプログラム | |
JP4235583B2 (ja) | 画像処理装置、画像処理用プログラム及び記憶媒体 | |
JP2004199622A (ja) | 画像処理装置、画像処理方法、記録媒体およびプログラム | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
JP2000181992A (ja) | カラー文書画像認識装置 | |
US6360006B1 (en) | Color block selection | |
CN115908165A (zh) | 云桌面图像的处理方法和图像处理方法、设备及存储介质 | |
JP2010286959A (ja) | 顔画像高解像度化方法、顔画像高解像度化装置、及びそのプログラム | |
JP2010074342A (ja) | 画像処理装置、画像形成装置、及びプログラム | |
JP4441300B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体 | |
US20110187721A1 (en) | Line drawing processing apparatus, storage medium storing a computer-readable program, and line drawing processing method | |
JP2004120092A (ja) | 画像処理装置、画像処理システム、画像処理方法、記憶媒体、及びプログラム | |
JP4873554B2 (ja) | 画像配信装置および画像配信方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080709 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |