JP4471202B2 - 画像処理装置、画像処理方法及び同方法に用いるプログラム - Google Patents

画像処理装置、画像処理方法及び同方法に用いるプログラム Download PDF

Info

Publication number
JP4471202B2
JP4471202B2 JP2004116827A JP2004116827A JP4471202B2 JP 4471202 B2 JP4471202 B2 JP 4471202B2 JP 2004116827 A JP2004116827 A JP 2004116827A JP 2004116827 A JP2004116827 A JP 2004116827A JP 4471202 B2 JP4471202 B2 JP 4471202B2
Authority
JP
Japan
Prior art keywords
row
image
candidates
line
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004116827A
Other languages
English (en)
Other versions
JP2005301672A (ja
Inventor
史裕 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004116827A priority Critical patent/JP4471202B2/ja
Priority to EP20050250226 priority patent/EP1555804A3/en
Priority to CNB2005100543009A priority patent/CN100356768C/zh
Priority to US11/037,172 priority patent/US20050180645A1/en
Publication of JP2005301672A publication Critical patent/JP2005301672A/ja
Application granted granted Critical
Publication of JP4471202B2 publication Critical patent/JP4471202B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、カラー文書画像に含まれる文字・文書を認識する処理に関し、より詳細には、対象画像中に存在する文字・文書画像が占める文字領域(例えば文字行)を表す情報を取得するための画像処理装置、画像処理方法、及び該方法をコンピュータに実行させるためのプログラムに関する。
画像処理では、文字・文書画像の認識処理が従来から行われている。この認識処理を行う際に、処理対象画像中に存在する文字・文書画像が占める文字領域(文字行)を正しく把握することは、文字認識を行う場合にも高い認識精度を得るために不可欠である。仮に、文書画像のどこに文字があるのか不明な状態で認識処理を行った場合、文字認識の必要のない写真、図などの領域に文字認識処理を行ってしまうことになるため、時間を不要な処理に費やすだけでなく、文字の存在しない領域に無理に文字認識を実行した結果として、大量にエラーが出力されることになり、認識結果の利用を困難にする。
このため、文字領域の正しい情報を取得する方法として、例えば、下記特許文献1に示すような二値画像の黒連結成分を用いた方法が提案された。特許文献1記載の方法では、黒連結成分に外接した矩形を抽出し、抽出した矩形を大きさと標準文字サイズ(ヒストグラムにより決定)との大小関係に基づいて、文字とそれ以外の矩形に分類し、分類した文字矩形について矩形間距離と前記標準文字サイズとに基づいて統合するか否かを決定し、統合するとした矩形群の外接矩形を行として抽出し、文字領域情報を得るとしている。また、特許文献1には、統合条件を適応させることによって、いわゆるブック原稿から読取られた画像に生じる中折れ部や周辺部の黒領域の影響、或いは文書中の罫線等による抽出誤りを無くすことができる、としている。
ところで、近年カラープリンタなどの普及に伴い、急速にカラー原稿が文字認識の対象として処理されるケースが増加してきている。カラー原稿に適応した文字領域(文字行)の抽出方法として、例えば、下記特許文献2,3に示すような同色画素ランの連結成分を用いた方法が提案されている。
特許文献2記載の方法では、黒に限らず同色画素ランの連結成分を抽出し、文字の特徴を持つ連結成分を文字行として統合し、文字の特徴を持たない連結成分(罫線)を排除し、行に統合することを防ぎ、文字行の抽出精度を向上させるようにしている。
特許文献3には、カラー画像入力にも適用可能な方法として、同色画素が連なる連結成分を求め、連結成分の相対的位置及び太さの類似性に基づいてグループに分け、文字認識処理を行ってグループの認識度を求め、矩形領域の面積によって重み付けした(この例では、特に見だし文字列を抽出対象としているので)ものの総和をグループ評価値とし、全てのグループの組み合わせについて求めた評価値から、組み合わせの評価値が最も高いグループの組み合わせを文字列として抽出し、文字色を見誤ることや線幅が細い線分を見落とすことのない方法を実現できる、としている。
特許第3278471号公報 特開2003-208568号公報 特開平11-238098号公報
しかしながら、特許文献1記載の方法は、処理対象画像が二値画像のみである場合に適用し得る方法であり、カラー画像には適用できない。また、連結成分の統合条件で行が決められるので、統合結果として得られる中に偽の行が含まれていても、排除できない。さらに、黒連結成分を抽出する、としていることから、白抜き文字には対処できない、といった問題点を生む。
また、特許文献2,3記載の方法は、いずれも、上記した特許文献1記載の方法における問題点である統合結果(グループ)に含まれる偽の行を排除することや白抜き文字への対処が可能であるが、カラー画像に対応するために、同色とみなせる画素ランを抽出する際及び画素ランを統合して連結成分を生成する際のいずれも、原画像において画素データのレベルで色比較を行う必要があり、この処理に多くの時間を費やす、という問題点を有する。
本発明は、文字行の抽出処理における上記した従来技術の問題点に鑑み、これを解決するためになされたもので、その解決課題は、対象画像から画素ランの連結成分を抽出し、文字の特徴を持つ連結成分を文字行として統合し、文字行を抽出する処理において、処理対象が多値画像(カラー画像)であっても、より短い処理時間で誤りなく文字行の抽出を行うことを可能とする画像処理装置、画像処理方法、及び該方法をコンピュータに実行させるためのプログラムを提供することにある。
請求項1の発明は、処理対象の多値画像を二値化する手段と、二値化した画像の黒画素のランを連ねた連結成分を取得する手段と、得られた連結成分を構成する画素に対応する原処理対象多値画像の画素値を取得する手段と、連結成分間の水平・垂直方向の距離を求める手段と、取得した連結成分を構成する画素の画素値をもとに連結成分ごとに連結成分を代表する画素値を決定する手段と、決定した連結成分を代表する画素値の連結成分間の差を算出する手段と、求めた連結成分間の距離がそれぞれ所定の閾値以下であり、かつ算出した代表画素値の連結成分間の差が所定の閾値以下であることを統合条件として、連結成分同士を行候補として統合する手段と、統合された行候補の周囲の黒画素数を計数する手段と、計数された行候補の周囲の黒画素数をもとに行尤度を求める手段と、求めた行尤度が所定の閾値より低い行候補を削除する手段とを有したことを特徴とする画像処理装置である。
請求項2の発明は、請求項1に記載された画像処理装置において、統合された行候補の縦横比を算出する手段、及び該行候補を構成する連結成分数を計数する手段を有し、前記行尤度を求める手段は、算出された縦横比及び計数された連結成分数を加えて行尤度を求めることを特徴とする。
請求項3の発明は、請求項1又は2に記載された画像処理装置において、統合された行候補の画素、行候補の周囲画素それぞれに対応する原処理対象多値画像の画素値を取得する手段、取得した画素値をもとに行候補、行候補の周囲それぞれを代表する画素値を決定する手段、及び決定した行候補の周囲を代表する画素値と行候補を代表する前記画素値を比較する手段を有し、前記行尤度を求める手段は、前記画素値の比較結果を加えて行尤度を求めることを特徴とする。
請求項4の発明は、請求項1乃至3のいずれかに記載された画像処理装置において、前記二値化画像を反転させる手段と、反転及び非反転の二値化画像をもとにそれぞれ求めた行候補の間で重複する行候補を抽出する手段と、重複する行候補の小さいサイズの方を削除する手段、重複する行候補の特徴を表す値を比較して行尤度の小さい方を削除する手段の中の少なくとも一方を有したことを特徴とする。
請求項の発明は、処理対象の多値画像を二値化するステップと、二値化した画像の黒画素のランを連ねた連結成分を取得するステップと、得られた連結成分を構成する画素に対応する原処理対象多値画像の画素値を取得するステップと、連結成分間の水平・垂直方向の距離を求めるステップと、取得した連結成分を構成する画素の画素値をもとに連結成分ごとに連結成分を代表する画素値を決定するステップと、決定した連結成分を代表する画素値の連結成分間の差を算出するステップと、求めた連結成分間の距離がそれぞれ所定の閾値以下であり、かつ算出した代表画素値の連結成分間の差が所定の閾値以下であることを統合条件として、連結成分同士を行候補として統合するステップと、統合された行候補の特徴を表す値として該行候補の周囲の黒画素数を計数するステップと、計数された行候補の周囲の黒画素数をもとに行尤度を求め、求めた行尤度が所定の閾値より低い行候補を削除するステップとを行うことを特徴とする画像処理方法である
請求項の発明は、請求項5に記載された画像処理方法において、統合された行候補の縦横比を算出するステップ、及び該行候補を構成する連結成分数を計数するステップを有し、前記行尤度を求めるステップは、算出された縦横比及び計数された連結成分数を加えて行尤度を求めることを特徴とする
請求項7の発明は、請求項5又は6に記載された画像処理方法において、統合された行候補の画素、行候補の周囲画素それぞれに対応する原処理対象多値画像の画素値を取得するステップ、取得した画素値をもとに行候補、行候補の周囲それぞれを代表する画素値を決定するステップ、及び決定した行候補の周囲を代表する画素値と前記行候補を代表する画素値を比較するステップを有し、前記行尤度を求めるステップは、前記画素値の比較結果を加えて行尤度を求めることを特徴とする
請求項の発明は、請求項5乃至7のいずれかに記載された画像処理方法において、前記二値化画像を反転させるステップと、反転及び非反転の二値化画像をもとにそれぞれ求めた行候補の間で重複する行候補を抽出するステップと、重複する行候補の小さいサイズの方を削除するステップ、重複する行候補の特徴を表す値を比較して行尤度の小さい方を削除するステップの中の少なくとも一方を有したことを特徴とする。
請求項の発明は、コンピュータを請求項1乃至4のいずれかに記載された画像処理装置が有する各手段として機能させるためのプログラムである。
本発明によると、処理対象の多値画像を二値化し、二値化画像をもとに画素ラン、連結成分を得、文字行候補の統合を行うようにしたことにより、文字行候補を短い処理時間で求めることができ、その後、文字行候補を行の特徴を表す値としての、行候補の縦横比、行候補を構成する連結成分数、行候補の周囲の黒画素数、行候補と行候補周囲の代表画素値(代表色)の比較結果、を吟味し、不適当な文字行を削除するようにしたことにより、誤りの少ない文字行の切り出し処理を迅速に行うことが可能となる。
また、連結成分の統合条件として、連結成分と行候補の代表画素値(代表色)の差を算出し、算出した差が所定の閾値以下であること、を加えるようにしたので、多値画像における文字行候補の抽出精度を上げることが可能になる。
また、二値化画像を反転させ、反転画像に対しても、二値化画像と同様の文字行の切り出し処理を行い、原画像と反転画像に対する処理結果に生じる重複の排除を行うようにしたので、白抜き文字の切り出し漏れも無く、適正な文字行の切り出しが可能となる。
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
なお、本願では、本発明の「画像処理装置」を本発明の「画像処理方法」の処理ステップを実現するための装置として位置付けているので、下記の「実施形態1」「実施形態2」それぞれにおいて、本願に係わる方法発明と装置発明の実施形態を併せて説明する。
「実施形態1」
本実施形態は、画素ランの外接矩形を統合する方法を用いる公知の文字行の切り出し処理(例えば、上記で従来技術として示した特開2003-208568号公報、参照)に示される、一連の基本処理ステップ、即ち「画素ランの抽出」、「連結成分の生成」、「文字行候補への外接矩形統合」、「文字行候補の吟味」、「不適当な文字行候補の削除」に順じて、その処理を行うが、短い処理時間で対象となる多値画像(カラー画像)から誤りなく文字行の切り出しを行うために、本実施形態に特有の処理過程として、先ず多値画像を二値化し、二値化した画像に対し「画素ランの抽出」、「連結成分の生成」処理を行い、その後、求めた連結成分をもとに「文字行候補への外接矩形統合」、「文字行候補の吟味」を行う段階で、原多値画像(カラー画像)に適応する処理を行うようにする。
図1及び図2は、本実施形態に係る画像処理方法の処理フローを示す図で、図2は、図1における行抽出処理(S103)の詳細フローを示す。また、図3は、本実施形態に係る画像処理装置の構成を示すブロック図である。
図3を参照して本実施形態に係る画像処理装置を説明すると、多値画像入力手段101は、処理対象の原画像を取得し、格納しておく手段(例えば、カラー画像データを出力するスキャナや撮像装置などの原稿読み取り装置により実施し得る)であり、多値画像入力手段101で取得した原多値画像データを二値化手段103と、連結成分生成手段107と、代表色決定手段109と、文字行判定手段113に送出する。なお、多値画像は、濃淡画像でも良いが、ここでは、カラー画像として以下の説明をする。
二値化手段103は、カラー画像(R,G,B)データを二値化データに変換し、変換した二値画像データをラン生成手段105に出力する。なお、カラー画像(RGB)データを二値化する手段は、例えば、G色のデータに所定の閾値処理をかける等、種々の方式を用いることによって実施可能であり、特定の方式に限定されない。
ラン生成手段105は、二値化画像から画素ランを生成する手段であり、ここでは黒画素から生成したランを連結成分生成手段107に送出する。
連結成分生成手段107は、画素ランから連結成分を生成する手段であり、生成した連結成分は代表色決定手段109と外接矩形統合手段111に送出する。
代表色決定手段109は、連結成分生成手段105で得られた連結成分を構成する画素に対応する原処理対象多値画像の画素値(R,G,B)を取得し、取得した画素値をもとに連結成分ごとに連結成分を代表する画素値を決定する手段であり、決定した代表画素値を外接矩形統合手段111と文字行判定手段113に送出する。
外接矩形統合手段111は、連結成分生成手段107で生成した連結成分の外接矩形を統合して、文字行判定手段113に送出する。
文字行判定手段113は、外接矩形統合手段111で統合した外接矩形(文字行候補)の行尤度を求め、行尤度が低いと判定した文字行を削除して、得られた適正な文字行を文字領域出力手段115に送出する。
文字領域出力手段115は、文字行と判定された座標を出力する手段である。
次に、本実施形態に係る画像処理方法を図1及び図2のフロー図を参照して説明する。なお、以下の説明は、上記画像処理装置(図3)の動作説明を兼ねる。
図1のフローによると、まず、処理したい原稿を多値画像入力手段101により原画像(カラー画像)として取得する(ステップS101)。ここで取得するカラー画像は、イメージセンサにより主・副走査方式により検出したR,G,Bの各画素データの形式をとる。
次いで、処理対象となるカラー(多値)画像を二値化手段103により二値化画像を得る(ステップS102)。二値化の方法は、固定閾値を設定し、その閾値と画素値(例えば、G色の画素データ)を比べ、閾値よりも明るい画素は白、暗い画素は黒とするなどの方法を採用することにより実施できる。
このように、まず、処理対象となるカラー(多値)画像を二値化し、取得した黒画素データをもとに、以降の文字行の抽出処理を行うが、このような手順をとっても、白抜きの文字に対して、例外的に抽出漏れが生じる(なお、白抜き文字への対応は、後記「実施形態2」にて示す)が、ほとんどの文字については抽出漏れを起こす可能性はきわめて少ない。
文字行の抽出は、図2に示すフローに従う。先ず、二値画像データをもとに黒画素の連結成分を取得する(ステップS201)。この処理は、ラン生成手段105が、二値画像データをもとに、水平方向に隣接する黒画素の並びを黒画素のランとして生成し(なお、「ラン」は、連続画素データが同一値をとる場合に、この連続画素の並びを指す概念で、フアクシミリなどで扱う2値画像において、一次元方向に連続する白画素、あるいは黒画素のかたまりを「ラン」として符号化の単位とする例により、良く知られるところである)、次いで、連結成分生成手段107が、生成した水平方向に並ぶ黒画素のランについて、垂直方向に接するもの同士を連ねることにより生まれるグループを連結成分として生成する。このようにして、文字を構成する画素のかたまりが連結成分として抽出されることになる。
次に、代表色決定手段109は、各連結成分の代表色を決定するためのデータとして、連結成分を構成する黒画素に対応する原処理対象多値(カラー)画像の画素値(黒画素に対応した位置のR,G,B3成分の画素データ)を取得し(ステップS202)、取得した画素値をもとに連結成分の代表色の定義に従い各連結成分の代表色データを決定する(ステップS203)。このとき、連結成分の代表色は、例えば、連結成分を構成する画素全ての色画素データの平均値として定義し、この定義に従い連結成分の代表色を算出し、連結成分1つに対し、代表色を1つ決定する。こうして決定した連結成分の代表色は、後段で、連結成分同士を行候補として統合するときの統合条件として用い、さらに、文字行の尤度を求めるためにも用いる。
次に、外接矩形統合手段111により連結成分から文字行候補を求める一連の処理を行う。この処理は、前段までの処理ステップで得た連結成分には文字の構成要素を含むので、連結成分を対象にして、文字行候補として統合するための条件に従って連結成分が統合可能か否かを判断し、文字行候補の矩形領域を生成していく処理である。統合条件は、連結成分同士の関係が、距離が接近し、色がそれぞれ似ていること、とする。
処理の手順としては、図2のフローに示すように、連結成分を1つ選んで、行候補として初期登録し(ステップS204)、この初期行候補の統合対象として、もう1つの連結成分を取り出して(ステップS205)、両者が統合条件を満たすか、否かを判断していく。
ここでは、連結成分同士が近くにあるか、否かを、連結成分の外接矩形(連結成分に外接する矩形を定義し、最終的に行として切り出す領域もこの外接矩形の領域で表す)間の距離を求め、求めた距離に閾値処理を行うことにより判断し、近くにあれば、統合可能とする(ステップS206-YES)。
また、連結成分同士の色が似ているか、否かを、上記ステップS203で決定した各々の連結成分の代表色データを比較し、求めた比較値に閾値処理を行うことにより判断し、色が似ていれば、統合可能とする(ステップS207-YES)。
上記のようにして、連結成分が統合可能か否かを判断した結果を受けて、外接矩形統合手段111は、行候補に連結成分を統合する(ステップS208)。図6は、行候補に連結成分を統合する処理の様子を示す図で、同図に示すように、連結成分を統合した行候補は、連結成分の外接矩形(破線で表す)をその領域とするので、対象とする行候補に加えた連結成分の矩形領域分だけその存在範囲が広がることになる。
なお、統合条件を判断するステップS206、S207では、行候補と連結成分間で対比判断を行うが、上記のように、行候補は統合結果によって変化していくので、行候補の外接矩形及び代表色には、統合結果を反映させる必要がある。つまり、行候補は複数の連結成分から構成されるので、その位置は構成する連結成分の外接矩形となり、また、行候補の色は、構成する連結成分の色の平均値により決定する。
行候補に連結成分を統合する処理は、原稿ページの所定の処理領域毎に行うので、処理領域内に統合条件をチェックすべき連結成分が残っていないことを確認する(ステップS209-YES)。また、原稿ページにおける所定の領域毎に上記ステップS204〜209を繰り返すので、原稿ページ内に、初期登録すべき連結成分が存在する未処理の領域がないことを確認して(ステップS210-YES)、この連結成分の統合処理を抜ける。なお、処理領域内に未処理の連結成分がある場合(ステップS209-NO)、初期登録すべき連結成分が存在する未処理の領域がある場合(ステップS210-NO)は、それぞれの処理ループの先頭に戻し、連結成分の統合処理を繰り返す。
上記のようにして、グループ化(統合)した連結成分の外接矩形領域を文字行候補として求めたら、次に、文字行判定手段113によって、前段で求めた行候補の文字行らしさを吟味し、文字行らしくない行候補を判定し、その結果に従い行候補を削除する処理を行う。
文字行らしさを吟味する工程では、文字行らしさを表す文字行の特徴量を算出し、求めた特徴量を総合的に行尤度として求め、行尤度により削除すべき行候補を判断する。
本実施形態では、次に示すように特徴量を4つ算出し、その結果から行尤度を求める。
特徴量1として、行候補の縦横比を計算する(ステップS211)。これは、行候補をグループ化(統合)した連結成分の外接矩形領域として求めていることから、細長ければ、より行らしいと考えられるので、これを行尤度の判断に用いる特徴量とする。
特徴量2として、行候補を構成する連結成分の数をカウントする(ステップS212)。行内にある連結成分の数があまり少ないと、行らしいとは言いにくいので、これを行尤度の判断に用いる特徴量とする。
特徴量3として、行候補周囲の黒画素数をカウントする(ステップS213)。図7は、行候補への統合処理の様子を示す図で、同図中の(A)は文字画像における例を、また(B)は写真画像における例を示す図である。同図中の(A)、(B)はそれぞれ原画像を処理した結果、破線にて囲まれた行候補を抽出したことを示している。(A)は文字画像であり、行候補の周囲は白画素に囲まれて白画素が多く、文字行としての特徴を有している。これに対し、(B)は写真画像で、写真画像の一部を行候補として抽出した例であり、この場合、行内に入り込んだ連結成分がある可能性が高く、行候補の周囲には黒画素が比較的多く、文字行としての特徴を有していない。従って、文字行らしくない(B)の写真画像における行候補は削除の対象とすることが適当で、行候補周囲の黒画素数を行尤度の判断に用いる特徴量とする。ただし、この特徴量の取り出し方では、長い行はその分周囲の画素数が多いので、長さや周囲長で正規化することが望ましい。
特徴量4として、行候補の色と周囲の色の差を求める(ステップS214)。行候補の色(上記ステップS203で決定した連結成分の代表色データを用いることができる)を(R1,G1,B1)、周囲の画素の平均色を(R2,G2,B2)として取得し、周囲との色差Dを、
D = |R1-R2|+|G1-G2|+|B1-B2|
などと計算することができる。文字は一般に背景とは違う色であるほうが読みやすいので一般には周囲との色差Dは大きい傾向にある。従って、色差Dが小さい行候補は削除の対象とすることが適当で、色差Dを行尤度の判断に用いる特徴量とする。
以上の行らしさをあらわす特徴量1〜4を算出した後、算出値をもとに、総合的に行らしさ表す1つの行尤度値を算出する(ステップS205)。
行尤度は、特徴量iの値をFi、それぞれに乗じる係数をWi、行らしさをあらわす尤度をFとすると、
F = SUM(Fi * Wi) (ここに、 i = 1〜4、SUMは和を表す)
として算出する。各特徴量Fiの行尤度に対する重要度(寄与度)を表す重みWiは、予め実験的に正しい結果を導き得る適当な係数値を定めておく。
次いで、算出した行尤度値に対し、行候補として残すか、削除するかの限界を予め定めた閾値との比較を行うことにより、文字行判定の最終結果を導く(ステップS216)。ここでは、求めた行尤度値が閾値よりも大きい場合に文字行と判断し、それ以外は文字行と判断しない。
上記のようにして得た文字行判定の最終結果に従い、文字行と判断できなかった行データを抽出した行候補から削除する(ステップS217)。なお、ここでは、全ての特徴量を計算してから行らしさを総合的に求めたが、例えばある特徴量を計算した時点で、その値が行らしい値からかけ離れており、明らかに行でないと判断できる場合は、当該行候補はその時点で削除してしまっても良い。
行候補の文字行らしさを判定し、その結果に従い行候補を削除する処理は、行候補毎に行うので、チェックすべき全ての行候補の判定を終えたことを確認し(ステップS218)、未判定の行候補がある場合には、上記の処理ステップS211〜217を繰り返すので、未処理の行候補がないことを確認して(ステップS218-YES)、この文字行の判定処理を抜ける。
上記の様にして図1のフローにおける行抽出処理(ステップS103、即ち図2のフロー)を実行することにより、行候補に発生し得る誤抽出とみなされる行を削除し、適正な文字行データを抽出することができるので、文字領域出力手段115は、得られた文字行データから、対応する行領域の座標値を処理結果として出力し(S104)、処理フローを終了する。
「実施形態2」
本実施形態は、上記実施形態1に生じる白抜き文字の抽出漏れをなくすための改良を加えた実施形態を示す。
上記実施形態1に記したように、処理対象となるカラー(多値)画像を二値化し、取得した黒画素データをもとに文字行の抽出処理を行う場合に、ほとんどの文字については抽出漏れを起こす可能性はきわめて少ないが、例外的に白抜きの文字に対して抽出漏れが生じる。この点を改良するために、本実施形態では、二値化画像を反転させ、反転させた二値化画像を対象に行の抽出処理を行い、非反転の抽出処理と併用する。さらに、反転及び非反転の二値化画像をもとにそれぞれ求めた行候補の間で重複する行候補を抽出し、重複する行候補の一方を削除する処理を付加することにより、誤抽出を防ぐようにするものである。
上記した改良を実現するために新たに必要になる手段は、装置にあっては、画像反転手段と重複領域排除手段、方法にあっては、二値画像反転処理ステップと反転画像に対する行抽出処理ステップと重複行の排除処理ステップであるが、いずれも構成の付加によるもので、付加する構成以外の要素は、上記実施形態1の要素をそのまま用いる。
図4は、本実施形態に係る画像処理方法の処理フローを示す図で、図4中の行抽出処理(S303,S305)の詳細フローは、先の図2に示す。また、図5は、本実施形態に係る画像処理装置の構成を示すブロック図である。
図5を参照して本実施形態に係る画像処理装置を説明する。なお、本実施形態において新たに付加した画像反転手段と重複領域排除手段以外の構成については、上記実施形態の説明と重複するので、上記の説明を参照することとし、ここでは記載を省略する。
画像反転手段104は、二値化手段103により変換した二値画像データの白黒を反転する手段であり、反転した画像データをラン生成手段105に出力する。
重複領域排除手段114は、文字行判定手段113による反転及び非反転の2種類の画像に対する行候補抽出結果を受けて、行候補の間で重複する行候補の一方を排除し、その結果を文字領域出力手段115に送出する。
次に、本実施形態に係る画像処理方法を図4のフロー図を参照して説明する。なお、以下の説明は、上記画像処理装置(図5)の画像反転手段104及び重複領域排除手段114に関する動作説明を兼ねる。
図4のフローによると、まず、処理したい原稿を多値画像入力手段101により原画像(カラー画像)として取得する(ステップS301)。ここで取得するカラー画像は、イメージセンサにより主・副走査方式により検出したR,G,Bの各画素データの形式をとる。
次いで、処理対象となるカラー(多値)画像を二値化手段103により二値化画像を得る(ステップS302)。二値化の方法は、固定閾値を設定し、その閾値と画素値(例えば、G色の画素データ)を比べ、閾値よりも明るい画素は白、暗い画素は黒とするなどの方法を採用することにより実施できる。
このように、まず、処理対象となるカラー(多値)画像を二値化し、取得した黒画素データをもとに、文字行の抽出処理を行う(ステップS303)。文字行の抽出は、上記実施形態1で示した通りに、図2に示すフローに従って行う。
次に、原画像に白抜き文字が含まれている場合にも、抽出漏れを防ぐために、ステップS302の二値化処理で得た二値画像データを画像反転手段104によて白黒の反転を行う(ステップS304)。白黒の反転処理は、公知の方法を適用することに実施し得る。
白黒を反転した二値画像データをもとに、文字行の抽出処理を行う(ステップS303)。文字行の抽出は、上記実施形態1で示した通りに、図2に示すフローに従って行う(ステップS305)。
ステップS303及びS305で、それぞれ反転及び非反転の2種類の画像に対する行候補抽出を行い、反転及び非反転画像間で位置の重複する行候補を抽出した場合、重複領域排除手段114は、一つを正解とし、それ以外には誤りがあると推定して、重複のない抽出結果となるまで、一方を排除する処理を行う。
例えば、図8に示すように、「田中君」を処理対象画像(A)とした場合、通常(非反転)の処理では、文字行領域は、図中(A’)の破線で囲んだ領域となり、抽出行候補として(A”)のデータが得られる。他方、二値画像を反転すると、文字を構成する白画素の連結成分が黒画素に変換して反転画像(B)となり、行として抽出される。即ち、「田」という字であれば、原画像の4つの小さな白い四角が反転画像(B)を構成する。従って、文字行領域は、図中(B’)の破線で囲んだ領域となり、(B”)を行候補として抽出する可能性がある。図8の例に示すように、反転画像(B)から抽出した行候補(B”)は、誤りであるからこの場合には、非反転画像の行候補(A”)を残し、反転画像の行候補(B”)を削除する必要がある。この場合の削除条件としては、図8に示すように、削除が必要な反転画像の行候補(B”)の方が、非反転画像の行候補(A”)のサイズより小さいので、この性質を利用することにより条件を定めることが可能である。
従って、両者の行サイズを比較し、小さいほうを削除することにより、誤ったデータを除くことが可能になる。また、上記実施形態1に示したように、行らしさ(行尤度)の計算も行う(図2、ステップS215、参照)ので、これを比較して、行らしくない方を削除しても良いし、これらを併用してもかまわない。
図4のフローに示す重複行の排除処理ステップでは、排除処理を適用する対象行の抽出を行う(ステップS306)。即ち、ステップS303,S305で反転及び非反転の2種類の画像に対する行抽出を行って得た行候補の間において、位置の重複する行候補を抽出する。次いで、抽出した重複行候補の行サイズを比較し、小さいサイズを有する方の行候補を削除する(ステップS307)。この処理は、重複行を1組づつ抽出して行っていくので、重複する行がなくなるまで(ステップS308-YES)、ステップS306〜S308の排除処理ステップを繰り返し行う。
このようにして、反転及び非反転画像に対する行抽出を行う場合、行候補に発生し得る誤抽出とみなされる行を削除し、適正な文字行データを抽出することができるので、文字領域出力手段115は、得られた文字行データから、対応する行領域の座標値を処理結果として出力し(S309)、処理フローを終了する。
「実施形態3」
本実施形態は、上記「実施形態1」,「実施形態2」に示した文字領域抽出を行う画像処理フローの各処理ステップを実行する手段として、汎用の処理装置(コンピュータ)を利用する実施形態を示すものである。
図9は、本実施形態の処理装置の構成を示す。図9に示すように、本実施形態は、汎用の処理装置(コンピュータ)により実施する例を示すものであり、構成要素としてCPU401、メモリ402、ハードディスクドライブ403、入力装置404、CD−ROMドライブ405、ディスプレイ406、マウスなどを備える。また、CD−ROMドライブ405が用いるCD−ROMなどの記録媒体407には、本発明に係わる文字領域(文字行)抽出処理の手順をコンピュータに実行させるためのプログラム(ソフトウェア)が記録されている。
処理対象のカラー(多値)画像は、スキャナー等の入力装置604により入力され、例えばハードディスク603などに格納されているものである。CPU601は、記録媒体607から上記した文字領域抽出処理の手順を実現するプログラムを読み出し、プログラムに従ってカラー(多値)画像の文字領域の抽出処理を実行し、抽出結果として得た文字領域データを文字認識処理など、このデータを必要とする文字画像処理の手順に利用するために出力する。
このように、コンピュータに文字領域抽出処理を行うためのプログラムに従う動作を行わせることにより、該コンピュータを本発明の画像処理装置を構成する手段として機能させる。
本発明の実施形態に係る画像処理方法の処理フロー(実施形態1)を示す図である。 図1の処理フローにおける行抽出処理ステップの詳細フローを示す図である。 本発明の実施形態に係る画像処理装置の構成(実施形態1)を示すブロック図である。 本発明の実施形態に係る画像処理方法の処理フロー(実施形態2)を示す図である。 本発明の実施形態に係る画像処理装置の構成(実施形態2)を示すブロック図である。 行候補に連結成分を統合する処理の様子を示す図である。 文字画像(A)と写真画像(B)における行候補への統合処理の様子を示す図である。 反転及び非反転の画像に対する行候補抽出と重複行の削除条件を説明する図である。 本発明の画像処理装置を実施し得る汎用コンピュータの構成を示すブロック図である。
符号の説明
101…多値画像入力手段、
103…二値化手段、
104…画像反転手段、
105…ラン生成手段、
107…連結成分生成手段、
109…代表色決定手段、
111…外接矩形統合手段、
113…文字行判定手段、
114…重複領域排除手段
115…文字領域出力手段
401…CPU、 402…メモリ、
403…ハードディスクドライブ、
404…入力装置、
405…CD−ROMドライブ、
406…ディスプレイ、
407…CD−ROM。

Claims (9)

  1. 処理対象の多値画像を二値化する手段と、
    二値化した画像の黒画素のランを連ねた連結成分を取得する手段と、
    得られた連結成分を構成する画素に対応する原処理対象多値画像の画素値を取得する手段と、
    連結成分間の水平・垂直方向の距離を求める手段と、
    取得した連結成分を構成する画素の画素値をもとに連結成分ごとに連結成分を代表する画素値を決定する手段と、
    決定した連結成分を代表する画素値の連結成分間の差を算出する手段と、
    求めた連結成分間の距離がそれぞれ所定の閾値以下であり、かつ算出した代表画素値の連結成分間の差が所定の閾値以下であることを統合条件として、連結成分同士を行候補として統合する手段と、
    統合された行候補の周囲の黒画素数を計数する手段と、
    計数された行候補の周囲の黒画素数をもとに行尤度を求める手段と、
    求めた行尤度が所定の閾値より低い行候補を削除する手段と
    有したことを特徴とする画像処理装置。
  2. 請求項1に記載された画像処理装置において、
    統合された行候補の縦横比を算出する手段、及び該行候補を構成する連結成分数を計数する手段を有し、
    前記行尤度を求める手段は、算出された縦横比及び計数された連結成分数を加えて行尤度を求めること
    を特徴とする画像処理装置。
  3. 請求項1又は2に記載された画像処理装置において、
    統合された行候補の画素、行候補の周囲画素それぞれに対応する原処理対象多値画像の画素値を取得する手段、取得した画素値をもとに行候補、行候補の周囲それぞれを代表する画素値を決定する手段、及び決定した行候補の周囲を代表する画素値と行候補を代表する前記画素値を比較する手段を有し、
    前記行尤度を求める手段は、前記画素値の比較結果を加えて行尤度を求めること
    を特徴とする画像処理装置。
  4. 請求項1乃至3のいずれかに記載された画像処理装置において、
    前記二値化画像を反転させる手段と、
    反転及び非反転の二値化画像をもとにそれぞれ求めた行候補の間で重複する行候補を抽出する手段と、
    重複する行候補の小さいサイズの方を削除する手段、重複する行候補の特徴を表す値を比較して行尤度の小さい方を削除する手段の中の少なくとも一方を有したこと
    を特徴とする画像処理装置。
  5. 処理対象の多値画像を二値化するステップと、
    二値化した画像の黒画素のランを連ねた連結成分を取得するステップと、
    得られた連結成分を構成する画素に対応する原処理対象多値画像の画素値を取得するステップと、
    連結成分間の水平・垂直方向の距離を求めるステップと、
    取得した連結成分を構成する画素の画素値をもとに連結成分ごとに連結成分を代表する画素値を決定するステップと、
    決定した連結成分を代表する画素値の連結成分間の差を算出するステップと、
    求めた連結成分間の距離がそれぞれ所定の閾値以下であり、かつ算出した代表画素値の連結成分間の差が所定の閾値以下であることを統合条件として、連結成分同士を行候補として統合するステップと、
    統合された行候補の特徴を表す値として該行候補の周囲の黒画素数を計数するステップと、
    計数された行候補の周囲の黒画素数をもとに行尤度を求め、求めた行尤度が所定の閾値より低い行候補を削除するステップと
    を行うことを特徴とする画像処理方法。
  6. 請求項5に記載された画像処理方法において、
    統合された行候補の縦横比を算出するステップ、及び該行候補を構成する連結成分数を計数するステップを有し、
    前記行尤度を求めるステップは、算出された縦横比及び計数された連結成分数を加えて行尤度を求めること
    を特徴とする画像処理方法
  7. 請求項5又は6に記載された画像処理方法において、
    統合された行候補の画素、行候補の周囲画素それぞれに対応する原処理対象多値画像の画素値を取得するステップ、取得した画素値をもとに行候補、行候補の周囲それぞれを代表する画素値を決定するステップ、及び決定した行候補の周囲を代表する画素値と前記行候補を代表する画素値を比較するステップを有し、
    前記行尤度を求めるステップは、前記画素値の比較結果を加えて行尤度を求めること
    を特徴とする画像処理方法
  8. 請求項5乃至7のいずれかに記載された画像処理方法において、
    前記二値化画像を反転させるステップと、
    反転及び非反転の二値化画像をもとにそれぞれ求めた行候補の間で重複する行候補を抽出するステップと、
    重複する行候補の小さいサイズの方を削除するステップ、重複する行候補の特徴を表す値を比較して行尤度の小さい方を削除するステップの中の少なくとも一方を有したこと
    を特徴とする画像処理方法
  9. コンピュータを請求項1乃至4のいずれかに記載された画像処理装置が有する各手段として機能させるためのプログラム。
JP2004116827A 2004-01-19 2004-04-12 画像処理装置、画像処理方法及び同方法に用いるプログラム Expired - Lifetime JP4471202B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004116827A JP4471202B2 (ja) 2004-04-12 2004-04-12 画像処理装置、画像処理方法及び同方法に用いるプログラム
EP20050250226 EP1555804A3 (en) 2004-01-19 2005-01-18 Image processing apparatus, image processing program and storage medium
CNB2005100543009A CN100356768C (zh) 2004-01-19 2005-01-19 图像处理设备和图像处理方法
US11/037,172 US20050180645A1 (en) 2004-01-19 2005-01-19 Image processing apparatus, image processing program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004116827A JP4471202B2 (ja) 2004-04-12 2004-04-12 画像処理装置、画像処理方法及び同方法に用いるプログラム

Publications (2)

Publication Number Publication Date
JP2005301672A JP2005301672A (ja) 2005-10-27
JP4471202B2 true JP4471202B2 (ja) 2010-06-02

Family

ID=35333123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004116827A Expired - Lifetime JP4471202B2 (ja) 2004-01-19 2004-04-12 画像処理装置、画像処理方法及び同方法に用いるプログラム

Country Status (1)

Country Link
JP (1) JP4471202B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5299225B2 (ja) 2009-01-20 2013-09-25 株式会社リコー 情報処理装置、情報処理方法、及びプログラム
JP6939449B2 (ja) 2017-11-14 2021-09-22 株式会社リコー 画像処理装置、画像処理方法および画像処理プログラム
US11527057B2 (en) * 2020-09-30 2022-12-13 Realtek Singapore Private Limited System and method for license plate recognition

Also Published As

Publication number Publication date
JP2005301672A (ja) 2005-10-27

Similar Documents

Publication Publication Date Title
CN107784301B (zh) 用于识别图像中文字区域的方法和装置
JP4339925B2 (ja) 文書画像処理方法、文書画像処理装置、文書画像処理プログラムおよび記憶媒体
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
JP4745830B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP4232800B2 (ja) ラインノイズ除去装置、ラインノイズ除去方法、ラインノイズ除去プログラム
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP2001092919A (ja) 2次元バーコードのねじれ角決定法
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
JP2007086954A (ja) 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
US6360006B1 (en) Color block selection
CN114121179A (zh) 化学结构式的提取方法及提取装置
US20140086473A1 (en) Image processing device, an image processing method and a program to be used to implement the image processing
JPH09270917A (ja) 画像処理装置
JP4471202B2 (ja) 画像処理装置、画像処理方法及び同方法に用いるプログラム
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
JP4867903B2 (ja) 画像処理プログラム及び画像処理装置
JP2006309402A (ja) 文字列認識方法、ナンバープレート認識方法、及び装置
RU2571510C2 (ru) Метод и устройство, использующие увеличение изображения для подавления визуально заметных дефектов на изображении
JP4261922B2 (ja) 文書画像処理方法、文書画像処理装置、文書画像処理プログラムおよび記憶媒体
Mahastama et al. Improving Projection Profile for Segmenting Characters from Javanese Manuscripts
US20220406083A1 (en) Image processing apparatus, control method thereof, and storage medium
JP2008225654A (ja) 画像処理方法、画像処理装置、及び、プログラム、プログラム記憶媒体
JP2003208568A (ja) 画像処理装置、画像処理方法、及び同方法に用いるプログラム
JP7402931B2 (ja) 方法、コンピュータ可読プログラムおよびシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100225

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4471202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140312

Year of fee payment: 4