JP4558232B2

JP4558232B2 - 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4558232B2
Application number: JP2001086484A
Authority: JP
Inventors: 史裕長谷川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-26
Filing date: 2001-03-26
Publication date: 2010-10-06
Anticipated expiration: 2021-03-26
Also published as: JP2002288589A

Description

【０００１】
【発明の属する技術分野】
本発明は、文字以外の画像を含む処理対象となる画像から入力されたカラー文書画像を認識する文書画像認識システムなどに利用され、カラー文書画像や、写真、図などを含む文書から文字行の位置を正しく特定する画像処理装置、画像処理方法および画像処理方法を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に係り、特に、カラー文書から正確な文字領域抽出を可能とする画像処理方法のプログラムをコンピュータで実行するようにした画像処理装置、画像処理方法および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【０００２】
【従来の技術】
文書画像を認識する際、文字の位置を正しく特定する技術は、高い認識精度を得るために不可欠である。
仮に、文書画像のどこに文字があるのか不明な状態で文字認識処理を行った場合、文字認識の必要のない写真、図などの領域に文字認識処理を行ってしまうことになるため、不要な処理に不要な時間がかかるだけでなく、文字でない部分を無理に文字とみなして認識した結果が大量に出力されることになり、認識結果を利用する際に大きな困難を伴うことになる。
このため、たとえば、特開平２０００―６７１５８号公報においては、文字領域を正しく特定するために、２値画像の黒画素の連結成分を用いて処理を行っている。
すなわち、この公報には、入力された画像を縮小して黒画素の連結成分の外接矩形を取得し、この取得した外接矩形から基本となる要素を抽出する。
この抽出した基本要素を文字、表、図、その他に分類し、文字要素を統合して行を生成し、この生成した行を統合して文字領域とする。
この文字領域から段組情報を抽出し、その抽出された段の位置を参照し、過剰に統合された文字領域を修正することが開示されている。
【０００３】
【発明が解決しようとする課題】
しかしながら、上記公報に開示された画像処理方法では、２値画像を対象とするものであり、処理対象文書がカラー印刷されている場合には、カラー情報をどこかで欠落させて２値画像に変換する必要がある。
しかしながら、２値化には決定的な方法があるわけではなく、処理対象画像によっては、文字がつぶれてしまったり、背景の色が細かいノイズ状になって２値画像に表現されてしまうなどの問題がしばしば発生する。
このような状態では、縮小画像の黒画素の連結成分抽出が思うようにできず、精度が低化してしまうという難点がある。
本発明は、上述した事情に鑑みてなされたもので、従来困難であった文字および文字以外の画像を含むカラー文書から正確に文字領域抽出を行うことができる画像処理装置、画像処理方法および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的としている。
【０００４】
本発明の請求項１の目的は、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることができる画像処理装置を提供することにある。
本発明の請求項２の目的は、特に、２値化された画像の連結成分の外接矩形中で、文字に近い形状の矩形数が少ない場合に文字でないと判断して、統合された外接矩形から文字としての判定を高精度に行うことができる画像処理装置を提供することにある。
本発明の請求項３の目的は、２値化された画像の連結部分の外接矩形から文字を精度よく判定し得る画像処理装置を提供することにある。
本発明の請求項４の目的は、特に、より正確に連結成分を生成することができる画像処理装置を提供することにある。
本発明の請求項５の目的は、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことができる画像処理装置を提供することにある。
本発明の請求項６の目的は、特に、互いに接触する２つの連結成分を正確に生成することができる画像処理装置を提供することにある。
【０００５】
本発明の請求項７の目的は、特に、連結成分の外接矩形を確実に統合することができる画像処理装置を提供することにある。
本発明の請求項８の目的は、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることができる画像処理方法を提供することにある。
本発明の請求項９の目的は、特に、統合された外接矩形から文字としての判定をより高精度に行うことができる画像処理方法を提供することにある。
本発明の請求項１０の目的は、統合された外接矩形から文字としての判定をより高精度に行うことができる画像処理方法を提供することにある。
【０００６】
本発明の請求項１１の目的は、特に、連結成分の不要な部分を除去でき、より正確に連結成分を生成することができる画像処理方法を提供することにある。
本発明の請求項１２の目的は、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことができる画像処理方法を提供することにある。
本発明の請求項１３の目的は、特に、互いに接触する２つの連結成分を正確に生成することができる画像処理方法を提供することにある。
本発明の請求項１４の目的は、特に、連結成分の外接矩形を確実に統合することができる画像処理方法を提供することにある。
【０００８】
本発明の請求項１５の目的は、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることができる画像処理方法を実現するプログラムを記録したコンピュータ読取可能な記録媒体を提供することにある。
【００１１】
【課題を解決するための手段】
請求項１に記載した発明に係る画像処理装置は、上述した目的を達成するために、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置であって、
処理対象の上記カラー画像から多値の原画像データを取得する処理対象画像入力手段と、
上記原画像データを圧縮した圧縮画像データを生成する圧縮画像生成手段と、
上記圧縮画像データからランを生成するラン生成手段と、
上記圧縮画像データから生成された上記ランを統合して連結成分を生成する連結成分生成手段と、
上記圧縮画像データから生成された上記連結成分を、所定の条件に従って削除する連結成分選別手段と、
上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する外接矩形統合手段と、
上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字を判定する文字判定手段と、
上記文字判定手段の情報から文字領域を出力する文字領域出力手段と、
を備えることを特徴としている。
請求項２に記載した発明に係る画像処理装置は、上記文字判定手段は、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字を判定することを特徴としている。
【００１２】
請求項３に記載した発明に係る画像処理装置は、上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記文字判定手段は、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを判定することを特徴としている。
請求項４に記載した発明に係る画像処理装置は、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記連結成分選別手段は、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、該連結成分を削除するか否かを選別することを特徴としている。
請求項５に記載した発明に係る画像処理装置は、上記ラン生成手段は、
各画素をランデータとして登録する手段と、
隣接するランを選択する手段と、
隣接するランの色差を求める手段と、
上記色差が小さい場合は上記ランを統合する手段と、
１ラインのラン統合を繰り返す手段と、
を備えることを特徴としている。
【００１３】
請求項６に記載した発明に係る画像処理装置は、上記連結成分生成手段は、
上記ランデータを連結成分データとして登録する手段と、
互いに接触する２つの連結成分を抽出する手段と、
色差があらかじめ定めた値より小さい場合には、連結成分を統合する手段と、
上記連結成分の統合を繰り返す手段と、
を備えることを特徴としている。
請求項７に記載した発明に係る画像処理装置は、上記外接矩形統合手段は、
各連結矩形の外接矩形を求める手段と、
上記外接矩形を２つ選択する手段と、
上記選択された外接矩形の高さ方向の座標値の差異を求める手段と、
上記外接矩形の高さから幅方向の距離限界値を求める手段と、
外接矩形間の幅方向の座標値の差異と上記距離限界値とを比較する手段と、
上記外接矩形間の色差を算出する手段と、
上記高さ方向の座標値の差異、幅方向の座標値の差異、上記距離限界値、上記色差を用いて上記外接矩形の統合の可否を決定する手段と、
上記外接矩形の統合を決定する場合には、双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直す手段と、
を備えることを特徴としている。
【００１４】
請求項８に記載した発明に係る画像処理方法は、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備えることを特徴としている。
請求項９に記載した発明に係る画像処理方法は、上記第７ステップは、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字判定手段が文字を判定することを特徴としている。
請求項１０に記載した発明に係る画像処理方法は、上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記第７ステップは、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを文字判定手段が判定することを特徴としている。
【００１５】
請求項１１に記載した発明に係る画像処理方法は、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記第５ステップは、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、上記連結成分選別手段が該連結成分を削除するか否かを選別することを特徴としている。
請求項１２に記載した発明に係る画像処理方法は、上記ラン生成手段により処理される上記第３ステップは、
各画素をランデータとして登録するステップと、
隣接するランを選択するステップと、
上記隣接するランの色差を求めるステップと、
上記色差が小さい場合には上記ランを統合するステップと、
１ラインのラン統合を繰り返すステップと、
を備えることを特徴としている。
【００１６】
請求項１３に記載した発明に係る画像処理方法は、上記連結成分生成手段によって処理される上記第４ステップは、
上記ランデータを連結成分データとして登録するステップと、
互いに接触する２つの連結成分を抽出するステップと、
上記２つの連結成分の色差を算出するステップと、
上記色差があらかじめ定めた値より小さい場合には、連結成分を統合するステップと、
連結成分の統合を繰り返すステップと、
を備えること特徴としている。
請求項１４に記載した発明に係る画像処理方法は、上記外部矩形統合手段によって処理される上記第６ステップは、
各連結矩形の外接矩形を求めるステップと、
上記外接矩形を２つ選択するステップと、
上記選択された外接矩形の高さ方向の座標値の差異を求めるステップと、
上記外接矩形の高さから幅方向の距離限界値を求めるステップと、
上記外接矩形間の幅方向の座標値の差異と上記距離限界値を比較するステップと、
上記外接矩形間の色差を算出するステップと、
上記高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて上記外接矩形の統合の可否を決定するステップと、
上記外接矩形を統合する場合には双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直すステップと、
を備えること特徴としている。
請求項１５に記載した発明に係る画像処理方法は、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備える画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能なことを特徴としている。
【００２３】
【作用】
すなわち、本発明の請求項１による画像処理装置は、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置であって、
処理対象の上記カラー画像から多値の原画像データを取得する処理対象画像入力手段と、
上記原画像データを圧縮した圧縮画像データを生成する圧縮画像生成手段と、
上記圧縮画像データからランを生成するラン生成手段と、
上記圧縮画像データから生成された上記ランを統合して連結成分を生成する連結成分生成手段と、
上記圧縮画像データから生成された上記連結成分を、所定の条件に従って削除する連結成分選別手段と、
上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する外接矩形統合手段と、
上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字を判定する文字判定手段と、
上記文字判定手段の情報から文字領域を出力する文字領域出力手段と、
を備えるので、特に、直接、カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
本発明の請求項２による画像処理装置は、上記文字判定手段は、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字を判定することができるので、統合された外接矩形から文字のみをより高精度に判定することが可能となる。
【００２４】
本発明の請求項３による画像処理装置は、上記外接矩形の性質が、
該外接矩形の高さおよび外接部分の色情報であり、
上記文字判定手段は、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを判定することができるので、特に、文字のみをより高精度に判定することが可能となる。
本発明の請求項４による画像処理装置は、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記連結成分選別手段は、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、該連結成分を削除するか否かを選別することができるので、特に、連結成分の不要な部分を除去でき、より正確に連結成分を生成することが可能となる。
本発明の請求項５による画像処理装置は、上記ラン生成手段は、
各画素をランデータとして登録する手段と、
隣接するランを選択する手段と、
隣接するランの色差を求める手段と、
上記色差が小さい場合は上記ランを統合する手段と、
１ラインのラン統合を繰り返す手段と、
を備えることで、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことが可能となる。
【００２５】
本発明の請求項６による画像処理装置は、上記連結成分生成手段は、
上記ランデータを連結成分データとして登録する手段と、
互いに接触する２つの連結成分を抽出する手段と、
色差があらかじめ定めた値より小さい場合には、連結成分を統合する手段と、
上記連結成分の統合を繰り返す手段と、
を備えることで、特に、互いに接触する２つの連結成分を正確に生成することが可能となる。
本発明の請求項７による画像処理装置は、上記外接矩形統合手段は、
各連結矩形の外接矩形を求める手段と、
上記外接矩形を２つ選択する手段と、
上記選択された外接矩形の高さ方向の座標値の差異を求める手段と、
上記外接矩形の高さから幅方向の距離限界値を求める手段と、
外接矩形間の幅方向の座標値の差異と上記距離限界値とを比較する手段と、
上記外接矩形間の色差を算出する手段と、
上記高さ方向の座標値の差異、幅方向の座標値の差異、上記距離限界値、上記色差を用いて上記外接矩形の統合の可否を決定する手段と、
上記外接矩形の統合を決定する場合には、双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直す手段と、
を備えることで、特に、連結成分の外接矩形を確実に統合することが可能となる。
本発明の請求項８による画像処理装置は、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備えるので、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
【００２６】
本発明の請求項９による画像処理方法は、上記第７ステップは、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字判定手段が文字を判定することにより、特に、２値化された画像の連結成分の外接矩形中で、文字らしい形状の矩形数が少ない場合に文字でないと判断して、統合された外接矩形から文字らしいもののみをより高精度に判定することが可能となる。
本発明の請求項１０による画像処理方法は、上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記第７ステップは、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを文字判定手段が判定することにより特に、外接矩形内のエッジ強度の強い画素数が少数しか存在しない場合に文字でないと判定して統合された外接矩形から文字のみをより高精度に判定することが可能となる。
本発明の請求項１１による画像処理方法は、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記第５ステップは、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、上記連結成分選別手段が該連結成分を削除するか否かを選別するので、
特に、連結成分の不要な部分を除去でき、より正確に連結成分を生成することが可能となる。
【００２７】
本発明の請求項１２による画像処理方法は、上記ラン生成手段により処理される上記第３ステップは、
各画素をランデータとして登録するステップと、
隣接するランを選択するステップと、
上記隣接するランの色差を求めるステップと、
上記色差が小さい場合には上記ランを統合するステップと、
１ラインのラン統合を繰り返すステップと、
を備えるので、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことが可能となる。
本発明の請求項１３による画像処理方法は、上記連結成分生成手段によって処理される上記第４ステップは、
上記ランデータを連結成分データとして登録するステップと、
互いに接触する２つの連結成分を抽出するステップと、
上記２つの連結成分の色差を算出するステップと、
上記色差があらかじめ定めた値より小さい場合には、連結成分を統合するステップと、
連結成分の統合を繰り返すステップと、
を備えるので、特に、互いに接触する２つの連結成分を正確に生成することが可能となる。
本発明の請求項１４による画像処理方法は、上記外部矩形統合手段によって処理される上記第６ステップは、
各連結矩形の外接矩形を求めるステップと、
上記外接矩形を２つ選択するステップと、
上記選択された外接矩形の高さ方向の座標値の差異を求めるステップと、
上記外接矩形の高さから幅方向の距離限界値を求めるステップと、
上記外接矩形間の幅方向の座標値の差異と上記距離限界値を比較するステップと、
上記外接矩形間の色差を算出するステップと、
上記高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて上記外接矩形の統合の可否を決定するステップと、
上記外接矩形を統合する場合には双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直すステップと、
を備えるので、特に、連結成分の外接矩形を確実に統合することが可能となる。
【００２８】
本発明の請求項１５による画像処理方法は、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備える画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能なので、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
【００３５】
【発明の実施の形態】
以下、実施の形態に基づき、図面を参照して本発明の画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を詳細に説明する。
図１は、本発明の１実施の形態の概略的処理手順を示すフローチャートであり、コンピュータ読取可能な記録媒体に記録されたプログラムにしたがって本発明の画像処理方法を実現する処理手順を示すフローチャートである。
まず、本発明により処理される処理対象の原稿は、文字および文字以外の画像を含むものである。
この原稿は図示されていないが、スキャナ、撮像装置などの原稿読み取り装置により、処理対象の原画像のデータを処理対象画像入力手段により取得して(ステップＳ１)、圧縮画像生成手段に入力し、そこで圧縮することにより、圧縮画像データを生成する(ステップＳ２)。
次に、この圧縮画像データからラン生成手段に入力することにより、同色とみなせる画素をランとして抽出する(ステップＳ３)。
【００３６】
ここで、「ラン」とは、周知のように、２値の文書画像のように、白画素あるいは黒画素がある程度連続する場合がある(たとえば、フアクシミリなどで扱う２値の文書画像)。
この連続した白画素、あるいは黒画素を１次元方向に白あるいは黒の連続する画素のかたまりを符号化の単位とするものである。
このようにして、上記ステップＳ３で同色とみなせる画素をランとして抽出すると、その抽出したランを連結成分生成手段に送り、ラン同士で接触していて、色の近いものをまとめて、連結成分として抽出する(ステップＳ４)。
次いで、この抽出された連結成分のうちの不要なものを排除するために連結成分選別手段に送り、不要な連結成分を排除する(ステップＳ５)。
次に、上記の不要な連結成分を除去されて、必要となる連結成分のみを外接矩形統合手段に入力して、この必要となる連結成分の外接矩形同士を統合して(ステップＳ６)、文字行候補を生成する。
次に、上記文字行候補を文字判定手段により文字判定を行い(ステップＳ７)、文字らしい特徴をもたないものを排除する。
この文字らしい特徴をもたないものを排除することにより、文字らしい特徴を有する文字行候補のみを文字領域出力手段に入れて、ステップＳ８で文字行の座標値を出力する。
図２は、上記図１のフローチャートにしたがって、本発明による画像処理方法の第１の実施の形態の処理手順に適用される各手段の構成を示すブロック図である。
この図２において、上記処理対象画像入力手段１０１は、原画像を取得して格納しておく手段であり、この処理対象画像入力手段１０１で格納された原画像のデータは、上記圧縮画像生成手段１０２と、上記文字判定手段１０７に送出される。
圧縮画像生成手段１０２は、圧縮画像を生成して格納するとともに、上記ラン生成手段１０３に送出する。
【００３７】
圧縮画像生成手段１０２は、上記ラン生成手段１０３、上記連結成分生成手段１０４、上記連結成分選別手段１０５、上記外接矩形統合手段１０６、上記文字判定手段１０７にそれぞれ出力する。
ラン生成手段１０３は、圧縮画像からランを生成する手段であり、生成したランを上記連結成分生成手段１０４に送出する。
上記連結成分生成手段１０４は、ランから連結成分を生成する手段であり、生成した連結成分は連結成分選別手段１０５に送出する。
連結成分選別手段１０５は、連結成分生成手段１０４で得られた連結成分を選別して外接矩形統合手段１０６に送出する。
外接矩形統合手段１０６は、連結成分選別手段１０５で得られた連結成分の外接矩形を統合して、文字判定手段１０７に送出する。
【００３８】
文字判定手段１０７は、外接矩形統合手段１０６で統合された外接矩形から文字行を判定して、上記文字領域出力手段１０８に送出する。
文字領域出力手段１０８は、文字行と判定された座標を出力する手段である(請求項１１に対応)。
次に、この図２で示す画像処理装置の動作について図３以降に示すフローチャートに沿って説明する。
まず、最初に、処理したい原稿を処理対象画像入力手段１０１で原画像(カラー)として取得する。
この取得された原画像のデータは、処理対象画像入力手段１０１から圧縮画像生成手段１０２および文字判定手段１０７に送出する。
圧縮画像生成手段１０２は、図３に示すフローチャートに沿って処理を実行する。
この図３に示すフローチャートは、上記圧縮画像生成手段１０２の処理手順を示すものである。
圧縮画像生成手段１０２は、原画像から圧縮画像を生成するが、この圧縮画像は処理の高速化のため、およびある色が細かい点の集合で表現されている場合の悪影響を防ぐために生成する。
【００３９】
この原画像を圧縮する際に、まずブロックサイズを決定する(ステップＳ１０２ａ)。ここでいう「ブロックサイズ」とは、圧縮画像を作成する際に、１画素にまとめる原画像上の画素のかたまりのサイズである。
ここでは、原画像上の２×２画素を圧縮画像の１画素にまとめるものとする。
次に、ブロック内の画素の明度を求め(ステップＳ１０２ｂ)、次いで、最も暗い画素値を抽出する(ステップＳ１０２ｃ)。
この際、ここでは、背景に対して暗い色の文字を抽出する場合を考えて、最も暗い画素を抽出した場合を例にしているが、これとは逆に、背景に対して明るい色の文字を抽出する場合には、ブロック内の最も明るい画素の値を抽出する。
もし、明るい文字も、暗い文字も抽出したい場合は、この実施の形態の一連の処理を、明文字／暗文字の仮定だけを変えて再度抽出を行い、結果の論理和を取ることで実現できる。
上記のようにして抽出した暗い画素値を、圧縮画像の該当画素の画素値として用いることとし（圧縮画像画素値セット）、圧縮画像にこの値を書き込む(ステップＳ１０２ｄ)。
【００４０】
以上のステップＳ１０２ａ〜ステップＳ１０２ｄの処理手順を繰り返し実行し、すべての画素に対して吟味を行って(ステップＳ１０２ｅ)、すべての画素の吟味が終了すると、圧縮画像生成手段１０２による処理が終了したことになり、次ぎの処理工程、すなわち、図２に示したラン生成手段１０３による処理工程に移行する。
ラン生成手段１０３による処理工程は、図４に示すフローチャートに沿って実行される。この図４は、ラン生成手段１０３の処理手順を示すフローチャートであり、まず、ある行（たとえば、先頭行など）を注目行とし、各画素をランデータとして登録する(ステップＳ１０３ａ)。
次に、ランの統合を行う。この場合、左端のランを参照ランとする（ステップＳ１０３ｂ)。
次に、その隣のランを注目ランとし(ステップＳ１０３ｃ)、参照ランと注目ランとを比較する(ステップＳ１０３ｄ)。
この場合の比較の方法には、種々考えられるが、ここでは、色のＲ(赤)、Ｇ(緑)、Ｂ(青)各成分の差の２乗和を色差として定義し、この色差が小さければ、色が近いとする。
【００４１】
色差があらかじめ決められた閾値と比較し(ステップＳ１０３ｅ)、その比較の結果、色差が閾値以下の場合には、ラン同士を統合して一つの長いランとして、登録し、この統合したランを新しい参照ランとする(ステップＳ１０３ｆ)。
なお、統合したランの色は、統合前の各ランの平均値、ランの長さによる加重平均値、メジアン(ｍｅｄｉａｎ：複数のデータを昇順、または降順に整列した際の中央に位置する値)などを用いることが考えられるが、ここでは、メジアンを用いることにする。
一方、上記ステップＳ１０３ｅでの色差があらかじめ決められた閾値と比較した結果、色差が閾値以下でない場合、すなわち色差が閾値より大きい場合、注目ランを新たな参照ランとする(ステップＳ１０３ｇ)。
上記のように、ステップＳ１０３ｆでの新定義による統合した新しい参照ランと、ステップＳ１０３ｇでの新定義による注目ランの新しい参照ランの右隣にランがあるか、否かの吟味、すなわち判定をする(ステップＳ１０３ｈ)。
【００４２】
この判定の結果、新しい参照ランの右隣にランがある場合には、このランを新しい注目ランとしてステップＳ１０３ｃの処理に戻り、ランの統合を繰り返す。
【００４３】
また、上記判定の結果、新しい参照ランの右隣にランがない場合には、この行のランの統合が一通り済んだことになる。
ここまでで注目のランの統合は一応できたことになるが、実際には、統合が不充分であることが多い。
そこで、同じ行のラン統合を繰り返して行い、ランがこれ以上統合できなくなるまで統合を繰り返し、統合を完全なものにする。
このために、ラン統合を再度行うか吟味するために、ステップＳ１０３ｂの左端のランを参照する処理からステップS１０３ｈの右端にランがあるか、否かの判定処理に至るまでの一連の処理を実行した際、注目行のラン統合が１度でも行われたか、否かを判定する(ステップＳ１０３ｉ)。
この判定の結果、ランの統合が行われていないと判定した場合、すなわち、ステップＳ１０３ｆにおける統合したランを新しい参照ランとする処理が１度も実行されなかった場合は、これ以上ランを統合する必要がないことになるので(ステップＳ１０３ｊ)、つまり、すべての行のランを抽出したことになり、この行のラン統合をこれ以上繰り返して行わない。
【００４４】
また、上記とは逆に、上記ステップＳ１０３ｉの判定処理において、ランの統合が行われていると判定した場合には、再度ステップＳ１０３ｂの左端のランを
参照する処理からステップＳ１０３ｉの処理工程を実行し、再度統合処理を実行する。
このようにして、ランの統合が完全に行われると、この行のラン抽出が完成したことになる。すべての行のランの抽出作業を行い（ステップＳ１０３ｊ）、この画像のラン抽出を終了し、次工程である連結成分生成工程に移行する。
なお、すべての行のランの抽出作業が終了していない場合には、ステップＳ１０３ｉの処理工程から注目行を他行に変更させて（ステップＳ１０３ｋ）、再度ステップＳ１０３ａの処理工程に処理手順を戻して、再び上記ステップＳ１０３ａ〜ステップＳ１０３ｊの処理を繰り返し実行する。
次に、連結成分生成工程の説明を行う。図５は、この連結成分生成工程の処理手順を示すフローチャートである。
【００４５】
まず、図４のフローチャートにしたがって実行されたラン生成処理工程により生成されたランデータを図２で示した連結成分生成手段１０４に入力して、この連結成分生成手段１０４において、ランデータを連結成分データとしてそのまま登録する(ステップＳ１０４ａ)。
次に、この登録された連結成分データの中から互いに接触する２つの連結成分データを抽出する（ステップＳ１０４ｂ)。
次に、２つの連結成分データの色を比較する。ここでは、ラン生成と同じ方法で色差を求め、この求めた色差を閾値と比較する(ステップＳ１０４ｃ)。
この比較の結果、色差が閾値以下の場合には、連結成分同士を統合して１つの連結成分とする(ステップＳ１０４ｄ)。
連結成分にも色情報が必要であるが、これもランの場合と同様とする。
一方、色差と閾値との比較の結果、色差が閾値以上の場合には、連結成分同士の統合を行わず、処理工程をステップＳ１０４ｅに移行する。
このステップＳ１０４ｅの処理では、すべての連結成分の組み合せについて吟味し、すべての連結成分の組み合せが吟味するまで繰り返し処理を実行する。
【００４６】
すなわち、すべての連結成分の組み合せが終了するまで、ステップＳ１０４ｂの互いに抽出する２つの連結成分の抽出処理工程からステップＳ１０４ｅのすべての連結成分の組み合せを吟味するまでの処理工程の実行を繰り返す。
このようにして、すべての連結成分の組み合せが完了すると、１回の連結成分統合が終了する。
ここでも、ランの場合と同様に、１度統合しただけでは不充分である場合が多いので、繰り返し統合を行う(ステップＳ１０４ｆ)。
この場合、ランの場合に習って、これ以上統合できなくなるまで処理を繰り返しても良いが、ここでは高速化のために、あらかじめ定めておいた回数だけ統合を行うこととする。以上で連結成分生成処理が終了する。
次に、図２で示した連結成分選別手段１０５による連結成分選別処理手順について図６を参照して説明する。
この図６は、連結成分選別処理手順を示すフローチャートである。上記連結成分生成手段１０４による連結成分生成処理工程で得られた連結成分を１つ選択する(ステップＳ１０５ａ)。
【００４７】
次に、この選択された１つの連結成分の大きさを所定の大きさ以下であるか、否かの判定を行う。すなわち吟味する（ステップＳ１０５ｂ）。
この判定の結果、連結成分の大きさが所定の大きさ以下である場合には、ステップＳ１０５ｃでノイズとみなして連結成分データから削除する。
また、ステップＳ１０５ｂにおける判定の結果、１つの連結成分の大きさを所定の大きさ以上であると判定した場合には、連結成分の明度と、周囲を取り巻く画素の明度を比較する(ステップＳ１０５ｄ)。
この際、背景に対して暗い文字を抽出しようとしている場合は、連結成分が周囲より明るい場合は文字である可能性が少ないことになる。
そこで、連結成分より明るい画素数を吟味し(ステップＳ１０５ｅ)、この吟味の結果、明るい画素数の割合が所定の割合より少ない場合には、文字でないとみなして連結データから削除する(ステップＳ１０５ｃ)。
なお、周囲より明るい文字を抽出しようとしている場合には、連結成分より画素数をカウントすれば良い。
【００４８】
このようにして、すべての連結成分の吟味を終了すると(ステップＳ１０５ｆ)、次の工程、すなわち図２で示した外接矩形統合手段１０６による外接矩形統合処理工程に移行する。
図７は、この外接矩形統合処理工程の処理手順を示すフローチャートであり、この図７のフローチャートに沿って以下に外接矩形統合処理手順について説明する。
この外接矩形統合処理は、文字行を抽出するための処理である。なお、ここでは、行方向を横と仮定して説明する。
まず、各連結成分の外接矩形を求める(ステップＳ１０６ａ)。次いで、この求めた外接矩形のうちの２つを選び（ステップＳ１０６ｂ）、座標値のうち、Ｙ方向(縦方向)に重なっている部分の長さを調べる(ステップＳ１０６ｃ)。
この結果、Ｙ方向に重なっている部分が全くないか、あるいはＹ方向に重なっている部分が少ない場合には、これらの外接矩形が同一行を構成する要素とは考えにくいので、外接矩形同士の統合は行わない。
【００４９】
また、ステップＳ１０６ｃでの外接矩形のＹ方向に重なっている部分の長さが大きい場合は、外接矩形の高さ等を参考にしてＸ方向の統合する矩形間距離最大値（Ｘ距離限界値）を求める(ステップＳ１０６ｄ)。
ここでの外接矩形の高さ等を参考にする理由は、高さの高い文字であれば、隣接する文字との距離も長くなる傾向であることを考慮したためである。
具体的には、外接矩形高さをそのままＸ距離限界値に設定することが考えられる。
注目している２つの外接矩形のＸ方向の距離とＸ距離限界値を比較し(ステップＳ１０６ｅ)、この比較の結果、外接矩形のＸ方向の距離がＸ距離限界値より大きい場合であると判定した場合は、同一行構成要素でないとみなして統合を行わない。
次に、２つの外接矩形の色差を所定値以上であるか、否かの吟味を行う(ステップＳ１０６ｆ)。この吟味の結果、２つの外接矩形の色差が所定値以上である場合には、異なる行の文字とみなして、統合を行わない。
【００５０】
次に、これらの条件をクリアした外接矩形は、同一行を構成する要素であるとみなして、２つの外接矩形を新しい外接矩形として登録する(ステップＳ１０６ｇ)。
矩形情報として色情報も必要になるが、これは各外接矩形の色情報を基に決定する。
この場合、ランの場合と同様に、様々な方法が考えられるが、ここでメジアンを用いることにする。
このようにして、次々に外接矩形を吟味して（ステップＳ１０６ｈ）、すべての外接矩形の吟味が終了すると、今度は図２で示した文字判定手段１０７による文字判定処理工程に移行する。
次に、この文字判定処理工程について説明する。図８は、この文字判定処理手順を示すフローチャートであり、この文字判定処理工程は、上記図７で説明した外接矩形統合処理手順により得られた文字行候補（すなわち、外接矩形）の中から、本当に文字行であるものだけを選び出す工程である。
【００５１】
次に、この図８のフローチャートに沿って説明する。まず、外接矩形を一つ選択する(ステップＳ１０７ａ)。
次に選択した外接矩形の高さを吟味する(ステップＳ１０７ｂ)。この吟味の結果、外接矩形の高さが所定以上に高すぎるものは文字でないとステップＳ１０７ｃで判定する。
次に、ステップＳ１０７ｂでの選択した外接矩形の高さが所定値以下であると判定した場合には、外接部分の色情報と周囲の色情報を比較し（ステップＳ１０７ｄ）、その比較の結果、上記連結成分選別の場合と同様に、背景より暗い文字を抽出する場合においては、周囲が外接矩形より暗い場合には(ステップＳ１０７ｅ)、文字行でないとみなす(ステップＳ１０７ｃ)。
また、背景より明るい文字を抽出する場合は、上記とは逆の条件となる。
次に、外接矩形内のエッジ強度が強い画素数を数える(ステップＳ１０７ｆ)。この実施の形態では、エッジ強度の判定は原画像上で行う。その方法は、種々考えられるが、一例として、３×３がその形状と図９、図１０に示す係数を持つ空間フィルタをエッジ強度を測りたい画素を中心にして個別に施し、それらの２乗和をもってエッジ強度とする方法などが考えられる。
【００５２】
さて、上記ステップＳ１０７ｆで得られたエッジ強度の強い画素数の矩形内の全画素数に対する比率が所定値より小さい場合は(ステップＳ１０７ｇ)、文字でないと判定する。
次に、矩形内の画像を２値化する(ステップＳ１０７ｈ)。２値化の方法には、閾値を固定で決めておく方法、判別分析方法(「コンピュータビジョン」第４章・丸善・谷内田正彦編を参照)などが考えられる。
ここでは、判別分析法｛上記著書に記載されている内容の概略を転記すると、「画像の２値化問題は、画像をパターン領域（クラス１）と背景領域(クラス２)の２クラスに分けることであるとし、濃度とヒストグラムを用いて最もクラス分離の良い濃度閾値を与えるようとするものである。」｝を用いることにする。
さて、判別分析法で２値化した画像から連結成分の抽出を行い、その外接矩形を求める(ステップＳ１０７ｉ)。
ここで求めた外接矩形のうち、文字らしくない形状の矩形があるか、否かの判定を行い(ステップＳ１０７ｊ)、その判定の結果、文字らしくない形状の矩形がある場合には、文字らしくない形状の矩形を排除する(ステップＳ１０７ｃ)。
【００５３】
ここで、文字らしくない形状の矩形とは、たとえば、縦横比が極端に横長や、縦長の形状の矩形、あるいは非常に小さい矩形等が該当する。
このような縦横比の割合が小さい場合は、注目している外接矩形は、文字行でないとみなす。
また、上記ステップＳ１０７ｊでの判定の結果、文字らしい形状の外接矩形が少なくないと判定された場合には、この外接矩形は文字であると判定され(ステップＳ１０７ｋ)れる。
このようにして、すべての外接矩形に対して上記ステップＳ１０７ａ〜ステップＳ１０７ｋの処理を繰り返し実行して、すべての外接矩形が文字であると判定すると(ステップＳ１０７ｍ)、図２で示した文字領域出力手段１０８に出力して結果を出力することになる。
次に、本発明の第２の実施の形態について説明する。図１１は、この第２の実施の形態の構成を示すブロック図である。
この実施の形態は、上記請求項１５に対応し、画像処理方法を実現するプログラムを記録媒体に記録および読み取り可能な汎用の処理装置の構成を示している。
【００５４】
この図１１において、ＣＰＵ４０１、メモリ４０２、ハードディスク４０３、入力装置４０４、ＣＤ―ＲＯＭドライブ４０５、ディスプレイ４０６、ＣＤ―ＲＯＭ等の記録媒体４０７などから構成され、これらは相互にデータバス４０８で接続されている。
ＣＤ―ＲＯＭ等の記録媒体４０７には、本発明の文字領域抽出の「処理機能や本発明の画像処理方法を実行するプログラムが記録されている。
また、処理対象の原画像は、たとえば、ハードディスク４０３などに格納されている。
ＣＰＵ４０１は、記録媒体４０７に記録されている上記処理機能や処理手順を実現するプログラムを読み出して実行し、文字領域抽出の結果をディプレイ４０６などに出力する。
なお、本発明は、上述し、かつ図面に示す実施の形態にのみ限定されることなく、その要旨を変更しない範囲内で種々変形して実施することができる。
【００５５】
【発明の効果】
以上述べたように、本発明によれば、カラー文書画像から正確に文字領域を抽出することができる画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することが可能となり、特に、請求項１に記載の発明によれば、
文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置であって、
処理対象の上記カラー画像から多値の原画像データを取得する処理対象画像入力手段と、
上記原画像データを圧縮した圧縮画像データを生成する圧縮画像生成手段と、
上記圧縮画像データからランを生成するラン生成手段と、
上記圧縮画像データから生成された上記ランを統合して連結成分を生成する連結成分生成手段と、
上記圧縮画像データから生成された上記連結成分を、所定の条件に従って削除する連結成分選別手段と、
上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する外接矩形統合手段と、
上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字を判定する文字判定手段と、
上記文字判定手段の情報から文字領域を出力する文字領域出力手段と、
を備えることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
【００５６】
本発明の請求項２の画像処理装置によれば、上記文字判定手段は、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字を判定することにより、特に、２値化された画像の連結成分の外接矩形中で、縦横比の割合が小さいような場合に文字でないと判断して、統合された外接矩形から文字のみをより高精度に判定することが可能となる。
本発明の請求項３の画像処理装置は、上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記文字判定手段は、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを判定することにより、外接矩形の高さが所定範囲外の場合には、文字でないと判断することができるので、特に、統合された外接矩形の高さが所定範囲外の場合には、統合された外接矩形から必要とする文字の判定精度を向上することが可能となる。
【００５７】
本発明の請求項４の画像処理装置によれば、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記連結成分選別手段は、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、該連結成分を削除するか否かを選別するので、連結成分の大きさがあらかじめ定めた値より小さい場合に連結成分データから不要な成分を削除して連結成分の明度が周囲の画素の明度との対比から一部の連結成分データを削除することができるので、特に、連結成分の不要な部分を除去でき、より正確に連結成分を生成することが可能となる。
本発明の請求項５の画像処理装置によれば、上記ラン生成手段は、
各画素をランデータとして登録する手段と、
隣接するランを選択する手段と、
隣接するランの色差を求める手段と、
上記色差が小さい場合は上記ランを統合する手段と、
１ラインのラン統合を繰り返す手段と、
を備えるので、各画素をランデータとして登録後、隣接するランを選択して、隣接するランの色差が小さい場合にはランを統合して、１ラインのラン統合を繰り返すことができるので、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことが可能となる。
【００５８】
本発明の請求項６の画像処理装置によれば、上記連結成分生成手段は、
上記ランデータを連結成分データとして登録する手段と、
互いに接触する２つの連結成分を抽出する手段と、
色差があらかじめ定めた値より小さい場合には、連結成分を統合する手段と、
上記連結成分の統合を繰り返す手段と、
を備えることにより、ランデータを連結成分データとして登録後、互いに接触する２つの連結成分を抽出し、その連結成分の色差があらかじめ定めた値より小さい場合には連結成分を統合して、１ラインのラン統合を繰り返すことができるので、特に、互いに接触する２つの連結成分を正確に生成することが可能となる。
【００５９】
本発明の請求項７の画像処理装置によれば、上記外接矩形統合手段は、
各連結矩形の外接矩形を求める手段と、
上記外接矩形を２つ選択する手段と、
上記選択された外接矩形の高さ方向の座標値の差異を求める手段と、
上記外接矩形の高さから幅方向の距離限界値を求める手段と、
外接矩形間の幅方向の座標値の差異と上記距離限界値とを比較する手段と、
上記外接矩形間の色差を算出する手段と、
上記高さ方向の座標値の差異、幅方向の座標値の差異、上記距離限界値、上記色差を用いて上記外接矩形の統合の可否を決定する手段と、
上記外接矩形の統合を決定する場合には、双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直す手段と、
を備えることにより、各連結矩形の外接矩形を２つ選択し、選択された外接矩形の高さ方向の座標値の差異を求めるとともに、外接矩形の高さから幅方向の距離限界値を求め、外接矩形間の幅方向の座標値の差異と距離限界値を比較して外接矩形間の色差を算出し、高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて外接矩形の統合の可否を決定し、外接矩形を統合する場合には双方の外接矩形に外接矩形を新たな外接矩形として一つに登録し直すことができるので、特に、連結成分の外接矩形を確実に統合することが可能となる。
本発明の請求項８の画像処理方法によれば、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備えるので、特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
【００６０】
本発明の請求項９の画像処理方法によれば、上記第７ステップは、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字判定手段が文字を判定するので、特に、２値化された画像の連結成分の外接矩形中で、文字らしい形状の矩形数が少ない場合に文字でないと判断して、統合された外接矩形から文字らしいもののみをより高精度に判定することが可能となる。
本発明の請求項１０の画像処理方法によれば、上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記第７ステップは、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを文字判定手段が判定するので、文字の判定精度を向上することが可能となる。
【００６１】
本発明の請求項１１の画像処理方法によれば、上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記第５ステップは、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、上記連結成分選別手段が該連結成分を削除するか否かを選別するため、連結成分の大きさがあらかじめ定めた値より小さい場合に連結成分データから不要な成分を削除して連結成分の明度が周囲の画素の明度との対比から所定の割合から外れる連結成分データを削除することができるので、特に、連結成分の不要な部分を除去でき、より正確に連結成分を生成することが可能となる。
【００６２】
本発明の請求項１２の画像処理方法によれば、上記ラン生成手段により処理される上記第３ステップは、
各画素をランデータとして登録するステップと、
隣接するランを選択するステップと、
上記隣接するランの色差を求めるステップと、
上記色差が小さい場合には上記ランを統合するステップと、
１ラインのラン統合を繰り返すステップと、
を備えるので、各画素をランデータとして登録後、隣接するランを選択して、隣接するランの色差が小さい場合にはランを統合して、１ラインのラン統合を繰り返すことができるので、特に、同色とみなせる画素をランとして抽出して、１ラインのラン統合を確実に行うことが可能となる。
本発明の請求項１３の画像処理方法によれば、上記連結成分生成手段によって処理される上記第４ステップは、
上記ランデータを連結成分データとして登録するステップと、
互いに接触する２つの連結成分を抽出するステップと、
上記２つの連結成分の色差を算出するステップと、
上記色差があらかじめ定めた値より小さい場合には、連結成分を統合するステップと、
連結成分の統合を繰り返すステップと、
を備えることにより、各画素をランデータとして登録後、隣接するランを選択して、隣接ランの色差が小さい場合にはランを統合して、１ラインのラン統合を繰り返すことができるので、特に、互いに接触する２つの連結成分を正確に生成することが可能となる。
【００６３】
本発明の請求項１４の画像処理方法によれば、上記外部矩形統合手段によって処理される上記第６ステップは、
各連結矩形の外接矩形を求めるステップと、
上記外接矩形を２つ選択するステップと、
上記選択された外接矩形の高さ方向の座標値の差異を求めるステップと、
上記外接矩形の高さから幅方向の距離限界値を求めるステップと、
上記外接矩形間の幅方向の座標値の差異と上記距離限界値を比較するステップと、
上記外接矩形間の色差を算出するステップと、
上記高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて上記外接矩形の統合の可否を決定するステップと、
上記外接矩形を統合する場合には双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直すステップと、
を備えることにより、各連結矩形の外接矩形を２つ選択し、選択された外接矩形の高さ方向の座標値の差異を求めるとともに、外接矩形の高さから幅方向の距離限界値を求め、外接矩形間の幅方向の座標値の差異と距離限界値を比較して外接矩形間の色差を算出し、高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて外接矩形の統合の可否を決定し、外接矩形を統合する場合には双方の外接矩形に外接矩形を新たな外接矩形として一つに登録し直すことができるので、特に、連結成分の外接矩形を確実に統合することが可能となる。
本発明の請求項１５の記録媒体によれば、文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備える画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能なので、
特に、直接カラー画像の画素情報を用いることにより、カラー文書から正確に文字領域の抽出を可能とし、高い認識精度を得ることが可能となる。
【図面の簡単な説明】
【図１】本発明による画像処理方法の第１実施の形態の画像処理手順を示すフローチャートである。
【図２】本発明による画像処理装置の第１実施の形態の構成を示すブロック図である。
【図３】図２の画像処理装置における圧縮画像生成手段による圧縮画像生成処理手順を説明するためのフローチャートである。
【図４】図２の画像処理装置におけるラン生成手段によるラン生成処理手順を説明するためのフローチャートである。
【図５】図２の画像処理装置における連結成分生成手段による連結成分生成処理手順を説明するためのフローチャートである。
【図６】図２の画像処理装置における連結成分選別手段による連結成分選別生成処理手順を説明するためのフローチャートである。
【図７】図２の画像処理装置における外接矩形統合手段による外接矩形統合処理手順を説明するためのフローチャートである。
【図８】図２の画像処理装置における文字判定手段による文字判定処理手順を説明するためのフローチャートである
【図９】本発明の画像処理方法による外接矩形内のエッジ強度の判定方法に適用される空間フィルタを示す説明図である。
【図１０】本発明の画像処理方法による外接矩形内のエッジ強度の判定方法に適用される空間フィルタを示す説明図である。
【図１１】本発明の画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能なことを特徴とする記録媒体に記録されているプログラムを読み出してプログラムを実行する処理装置の構成を示すブロック図である。
【符号の説明】
１０１処理対象画像入力手段
１０２圧縮画像生成手段
１０３ラン生成手段
１０４連結成分生成手段
１０５連結成分選別手段
１０６外接矩形統合手段
１０７文字判定手段
１０８文字領域出力手段
４０１ＣＰＵ
４０２メモリ
４０３ハードディスク
４０４入力装置
４０５ＣＤ−ＲＯＭドライブ
４０６ディスプレイ
４０７ＣＤ−ＲＯＭ
４０８データバス

Claims

文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置であって、
処理対象の上記カラー画像から多値の原画像データを取得する処理対象画像入力手段と、
上記原画像データを圧縮した圧縮画像データを生成する圧縮画像生成手段と、
上記圧縮画像データからランを生成するラン生成手段と、
上記圧縮画像データから生成された上記ランを統合して連結成分を生成する連結成分生成手段と、
上記圧縮画像データから生成された上記連結成分を、所定の条件に従って削除する連結成分選別手段と、
上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する外接矩形統合手段と、
上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字を判定する文字判定手段と、
上記文字判定手段の情報から文字領域を出力する文字領域出力手段と、
を備えることを特徴とする画像処理装置。
上記文字判定手段は、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字を判定することを特徴とする請求項１記載の画像処理装置。
上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記文字判定手段は、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを判定することを特徴とする請求項１または２に記載の画像処理装置。
上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記連結成分選別手段は、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、該連結成分を削除するか否かを選別することを特徴とする請求項１乃至３のいずれか１項記載の画像処理装置。
上記ラン生成手段は、
各画素をランデータとして登録する手段と、
隣接するランを選択する手段と、
隣接するランの色差を求める手段と、
上記色差が小さい場合は上記ランを統合する手段と、
１ラインのラン統合を繰り返す手段と、
を備えることを特徴とする請求項１記載の画像処理装置。
上記連結成分生成手段は、
上記ランデータを連結成分データとして登録する手段と、
互いに接触する２つの連結成分を抽出する手段と、
色差があらかじめ定めた値より小さい場合には、連結成分を統合する手段と、
上記連結成分の統合を繰り返す手段と、
を備えることを特徴とする請求項１記載の画像処理装置。
上記外接矩形統合手段は、
各連結矩形の外接矩形を求める手段と、
上記外接矩形を２つ選択する手段と、
上記選択された外接矩形の高さ方向の座標値の差異を求める手段と、
上記外接矩形の高さから幅方向の距離限界値を求める手段と、
外接矩形間の幅方向の座標値の差異と上記距離限界値とを比較する手段と、
上記外接矩形間の色差を算出する手段と、
上記高さ方向の座標値の差異、幅方向の座標値の差異、上記距離限界値、上記色差を用いて上記外接矩形の統合の可否を決定する手段と、
上記外接矩形の統合を決定する場合には、双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直す手段と、
を備えることを特徴とする請求項１記載の画像処理装置。
文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備えることを特徴とする画像処理方法。
上記第７ステップは、
上記外接矩形統合手段により求められた外接矩形について、該外接矩形内の画像を２値化し、２値化された上記画像に基づいて文字判定手段が文字を判定することを特徴とする請求項８記載の画像処理方法。
上記外接矩形の性質は、
該外接矩形の高さおよび外接部分の色情報であり、
上記第７ステップは、
該外接矩形の高さが所定の値以下である場合に、該外接部分の色情報と該外接矩形の周囲の色情報とを比較した結果に基づいて、該外接矩形が文字か否かを判定し、
上記外接矩形内の全画素に対する、該外接矩形内に対応する上記原画像データのエッジ強度が強い画素数の割合に基づいて該外接矩形が文字か否かを文字判定手段が判定することを特徴とする請求項８または９に記載の画像処理方法。
上記所定の条件は、
上記連結成分の大きさおよび明度であり、
上記第５ステップは、
上記連結成分の大きさが所定の値以下である場合に該連結成分を削除し、上記連結成分の大きさが所定の値以上であった場合に、該連結成分の明度と該連結成分の周囲の明度を比較した結果に基づいて、上記連結成分選別手段が該連結成分を削除するか否かを選別することを特徴とする請求項８記載の画像処理方法。
上記ラン生成手段により処理される上記第３ステップは、
各画素をランデータとして登録するステップと、
隣接するランを選択するステップと、
上記隣接するランの色差を求めるステップと、
上記色差が小さい場合には上記ランを統合するステップと、
１ラインのラン統合を繰り返すステップと、
を備えることを特徴とする請求項８記載の画像処理方法。
上記連結成分生成手段によって処理される上記第４ステップは、
上記ランデータを連結成分データとして登録するステップと、
互いに接触する２つの連結成分を抽出するステップと、
上記２つの連結成分の色差を算出するステップと、
上記色差があらかじめ定めた値より小さい場合には、連結成分を統合するステップと、
連結成分の統合を繰り返すステップと、
を備えることを特徴とする請求項８記載の画像処理方法。
上記外部矩形統合手段によって処理される上記第６ステップは、
各連結矩形の外接矩形を求めるステップと、
上記外接矩形を２つ選択するステップと、
上記選択された外接矩形の高さ方向の座標値の差異を求めるステップと、
上記外接矩形の高さから幅方向の距離限界値を求めるステップと、
上記外接矩形間の幅方向の座標値の差異と上記距離限界値を比較するステップと、
上記外接矩形間の色差を算出するステップと、
上記高さ方向の座標値の差異、幅方向の座標値の差異、距離限界値、色差を用いて上記外接矩形の統合の可否を決定するステップと、
上記外接矩形を統合する場合には双方の外接矩形に外接する矩形を新たな外接矩形として一つに登録し直すステップと、
を備えることを特徴とする請求項８記載の画像処理方法。
文字および文字以外の画像を含むカラー画像から文字領域を抽出する画像処理装置における画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
処理対象画像入力手段により処理対象の上記カラー画像から多値の原画像データを取得する第１ステップと、
上記原画像データから圧縮した圧縮画像データを圧縮画像生成手段により生成する第２ステップと、
ラン生成手段により、上記圧縮画像データからランデータを生成する第３ステップと、
連結成分生成手段により、上記圧縮画像データから生成された上記ランを統合して連結成分を生成する第４ステップと、
連結成分選別手段により、上記圧縮画素データから生成された連結成分を所定の条件に従って排除する第５ステップと、
外接矩形統合手段により、上記圧縮画像データから生成された複数の上記連結成分の外接矩形を１つの外接矩形として統合する第６ステップと、
文字判定手段により、上記圧縮画像データから統合された上記外接矩形の性質および該外接矩形内に対応する上記原画像データのエッジ強度に基づいて文字であると判定する第７ステップと、
上記文字判定手段からの情報を受けて文字領域出力手段が文字領域を出力する第８ステップと、
を備える画像処理方法を実現するプログラムを記録したコンピュータ読み取り可能なことを特徴とする記録媒体。