JP6468880B2

JP6468880B2 - 文字領域抽出装置及びプログラム

Info

Publication number: JP6468880B2
Application number: JP2015032481A
Authority: JP
Inventors: 伶遠藤; 吉彦河合; 住吉　英樹; 英樹住吉; 貴裕望月
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-02-23
Filing date: 2015-02-23
Publication date: 2019-02-13
Anticipated expiration: 2035-02-23
Also published as: JP2016157155A

Description

本発明は、画像から文字領域を抽出する文字領域抽出装置及びプログラムに関する。

一般に、画像から一定幅の線成分（ストローク）で構成される図形を抽出する技術は、画像中の文字を認識するために用いられる。一般的な文字認識技術では、文字を認識する前の処理として、入力した画像の文字領域を抽出する。この文字領域を抽出する手法は、例えば、以下に示す第１の手法及び第２の手法がある。

第１の手法は、入力した画像の中の文字色を特定し、特定した文字色に近似する色の画素を連結し、その画素連結成分を文字領域として抽出するものである。例えば、文字色が画像の大部分を占める色であることを前提として、入力した画像の統計分布を求め、その統計分布に基づいて文字色を計算し、文字領域を抽出する（特許文献１を参照）。

第２の手法は、水平方向に並んでいる文字等のように、特定のレイアウトに従って配置されている文字に限定し、文字領域を抽出するものである。例えば、ナンバープレートの特有の文字配置に従って、テンプレート・マッチングにより文字領域を抽出する（特許文献２を参照）。

また、文字領域の抽出精度を高める手法として、輝度値のコントラストを用いるものがある。この手法は、文字が当該文字の周囲との関係で、輝度値のコントラストが高い特徴を持つことを利用するものである。具体的には、所定の処理にて画素連結成分を抽出した後、その画素連結成分の境界部において、輝度コントラストが低い画素連結成分を除外し、文字領域を抽出する（特許文献３を参照）。これにより、文字らしくない画素連結成分が除外されるから、文字の誤検出を低減することができる。

これらの手法はいずれも、テロップのような撮影後に付与した文字、レイアウトの推測し易い書類文書をスキャンした画像中の文字等のように、特定の特徴を持つ文字を対象としている。

しかしながら、このような特定の特徴を持つ文字を対象とする手法は、画像中に占める文字成分の割合、文字色、文字の回転方向等が未知である場合には適用できない。例えば、カメラで撮影された画像の背景に看板が写っており、その看板に描かれた情景文字を対象とする場合、その文字の検出は、高精度に実現できない。

このような問題を解決するために、文字を一定幅のストロークで構成される図形とみなし、一定幅のストロークで構成される図形を検出する手法が知られている（非特許文献１を参照）。

この手法は、まず、輝度勾配方向が約１８０度異なるエッジ画素の組（勾配対称ペア）を求め、その勾配対称ペアを結ぶ線分を検出し、隣り合う線分のうち、線分長が近い線分同士を結合し、これを一定幅のストロークで構成される図形として検出する。そして、同程度のストローク幅をもち、位置が近い図形同士を結合して文字列を得て、この文字列が存在する領域を文字領域として抽出する。この手法によれば、一定幅のストロークで構成された図形に絞って文字領域が抽出されるから、色が近似した画素を連結して文字領域を抽出する手法に比べ、文字の誤検出が少ない。

特開２００５−０１８１７６号公報特開平９−３１９９９５号公報特開２００４−０９４９６７号公報

B.Epshtein, E.Ofek, Y.Wexler.："Detecting Text in Natural Scenes with Stroke Width Transform,"in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition（CVPR）,pp.2963-2970（2010）

前述の非特許文献１の手法（一定幅のストロークで構成される図形を検出する手法）は、勾配対称ペアを結ぶ線分の集合を文字候補図形として検出するものである。このため、勾配対称ペアが少ない図形については、一定幅のストロークで構成されていても、文字を正しく検出できないことがある。

図１１（１）は、勾配対称ペアが少ない文字の例を示す図であり、図１１（２）は、図１１（１）の文字に対し、非特許文献１の手法により検出された文字の例を示す図である。図１１（２）に示すように、図１１（１）に示す勾配対称ペアが少ない「Ｗ」の図形は、一定幅のストロークで構成されているが、文字らしい正しい形状の図形として検出されないことがある。

ここで、勾配対称ペアの検出条件を緩めたり（例えば、輝度勾配方向が９０度以上異なれば勾配対称ペアとする等）、勾配対称ペアを結ぶ線分を結合する条件を緩めたり（例えば、線分長が大きく異なる線分であっても隣り合っていれば結合する等）することが想定される。

しかしながら、検出条件等を緩めた場合には、非文字の文字候補図形も数多く検出してしまう。また、ストロークの向きに対し、水平方向の長さと垂直方向の長さを区別できないため、検出した文字候補図形のストローク幅の平均値及び分散が、本来得られるべき値よりも極めて大きくなる。その結果、検出した文字候補図形が文字であるか、または非文字であるかを判別することが難しくなる。このように、非特許文献１の手法にて検出条件等を緩めたとしても、文字を正しく検出することができないか、または、検出できたとしても、非文字を検出してしまうことになり、結果として、文字の誤検出が多くなる。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能な文字領域抽出装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の文字領域抽出装置は、画像から文字を含む文字領域を抽出する文字領域抽出装置において、前記画像から前記文字のエッジ画素を検出し、前記エッジ画素に基づいて、前記文字の部分領域を矩形ストローク成分として検出し、複数の前記矩形ストローク成分を結合して文字要素候補図形を設定する矩形ストローク成分検出手段と、前記矩形ストローク成分検出手段により設定された文字要素候補図形の文字らしさを判定し、文字らしくない非文字の文字要素候補図形を除外して文字らしい文字要素候補図形を判別する文字／非文字判別手段と、前記文字／非文字判別手段により判別された文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する文字列検出手段と、前記文字／非文字判別手段により判別された文字らしい文字要素候補図形に関する情報、または前記文字列検出手段により検出された文字列らしい文字要素候補図形群に関する情報を、前記文字領域として出力する文字領域出力手段と、を備え、前記矩形ストローク成分検出手段が、前記画像から前記文字のエッジ画素を検出し、輝度勾配方向が１８０度を基準にして所定範囲内の角度の異なる２つの第１及び第２のエッジ画素を勾配対称ペアとして検出し、前記勾配対称ペアである前記第１及び第２のエッジ画素を結ぶ線分の中点から、当該線分の垂直方向に存在する２つの第３及び第４のエッジ画素を検出するペア検出段と、前記ペア検出段により検出された第１、第２、第３及び第４のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記矩形ストローク成分の外接矩形内の画素から、前記矩形ストローク成分の外接矩形の中心点における画素の画素値に対し、所定範囲内の画素値を有する画素の連結部分を抽出し、前記連結部分を、前記第１のエッジ画素を基点とした前記矩形ストローク成分として検出するストローク検出段と、前記ストローク検出段により検出された複数の矩形ストローク成分のうち、共通の画素を有する矩形ストローク成分同士をグルーピングし、前記グルーピングしたグループ毎に、当該グループに属する複数の矩形ストローク成分を結合し、文字要素候補図形を設定する候補設定段と、を有することを特徴とする。

また、請求項２の文字領域抽出装置は、請求項１に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段のストローク検出段に代わる新たなストローク検出段が、前記ペア検出段により検出された第１、第２、第３及び第４のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記第１及び第２のエッジ画素の線分上及び前記第３及び第４のエッジ画素の線分上における画素値の最大値及び最小値を特定し、前記矩形ストローク成分の外接矩形内の画素から、前記最大値から前記最小値までの範囲内に画素値が含まれる画素の連結部分を抽出し、前記連結部分を、前記第１のエッジ画素を基点とした前記矩形ストローク成分として検出する、ことを特徴とする。

また、請求項３の文字領域抽出装置は、請求項１または２に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段のストローク検出段が、前記検出した矩形ストローク成分について、前記矩形ストローク成分の外接矩形に対する前記矩形ストローク成分の面積の割合が所定値よりも小さい場合、当該矩形ストローク成分を除外する、ことを特徴とする。

また、請求項４の文字領域抽出装置は、請求項１から３までのいずれか一項に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段の候補設定段が、前記グルーピングしたグループの中で、前記第１のエッジ画素と前記第２のエッジ画素との間の距離をストローク幅とした場合に、前記ストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、前記除外した後に残された複数の矩形ストローク成分を結合し、文字要素候補図形を設定する、ことを特徴とする。

また、請求項５の文字領域抽出装置は、請求項１から４までのいずれか一項に記載の文字領域抽出装置において、前記文字／非文字判別手段が、前記矩形ストローク成分検出手段により設定された文字要素候補図形における前記矩形ストローク成分の個数を、前記文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定値を超える場合、前記文字要素候補図形は文字らしいと判定し、前記除算結果の値が前記所定値以下の場合、前記文字要素候補図形は文字らしくないと判定する、ことを特徴とする。

さらに、請求項６の文字領域抽出プログラムは、コンピュータを、請求項１から５までのいずれか一項に記載の文字領域抽出装置として機能させることを特徴とする。

以上のように、本発明によれば、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能となる。

本発明の実施形態による文字領域抽出装置の構成を示すブロック図である。矩形ストローク成分検出手段の構成を示すブロック図である。所定幅のストロークで構成される図形、矩形ストローク成分、ストローク幅、及び矩形ストローク成分の外接矩形を説明する図である。矩形ストローク成分検出手段の処理を示すフローチャートである。矩形ストローク成分検出手段の処理を説明する図である。エッジ抽出処理（ステップＳ４０２）の詳細を示すフローチャートである。勾配対称ペア検出処理（ステップＳ４０３）の詳細を示すフローチャートである。外接矩形検出処理（ステップＳ４０４）の詳細を示すフローチャートである。（１）は、文字を含む画像の例を示す図である。（２）は、文字の外接矩形の例を示す図である。（３）は、文字列の外接矩形の例を示す図である。本発明の実施形態により検出された文字の例を示す図である。（１）は、勾配対称ペアが少ない文字の例を示す図である。（２）は、非特許文献１の手法により検出された文字の例を示す図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、文字のような、所定幅のストロークで構成される図形を検出するために、矩形型の面成分である矩形ストローク成分という概念を用いることを特徴とする。文字を構成する画素が、検出対象の文字の図形に含まれるには、従来技術では、当該画素が、勾配対称ペアを結ぶ線分上のいずれかに含まれていることが必要である。これに対し、本発明では、当該画素が、勾配対称ペアを結ぶ線分上だけでなく、矩形ストローク成分の面内に含まれていればよい。

したがって、本発明は、従来技術よりも、文字を構成する画素を検出対象の文字の図形に一層含めることができるから、当該図形は文字らしくなり、結果として、文字領域の抽出精度を高くすることができる。特に、勾配対称ペアが少ない文字の文字領域を抽出する場合に有効となる。

〔文字領域抽出装置の構成〕
図１は、本発明の実施形態による文字領域抽出装置の構成を示すブロック図である。この文字領域抽出装置１は、入力した画像から所定幅のストロークで構成される図形である文字の領域を抽出する装置であり、例えば、画像に含まれる標識または看板に描かれた文字（情景文字）を検出または認識するために利用される。文字領域抽出装置１は、画像入力手段１０、矩形ストローク成分検出手段１１、文字／非文字判別手段１２、文字列検出手段１３及び文字領域提示手段（文字領域出力手段）１４を備えている。

ここで、所定幅のストロークとは、文字を構成する線成分の幅（太さ）が一定または所定範囲内のストロークをいう。例えば、ゴシック体の文字の場合、線成分の幅は大方一定であり、明朝体の文字の場合、線成分の幅は一定ではなく、文字中の線成分の位置に応じて異なる。

〔画像入力手段１０〕
画像入力手段１０は、文字を含む画像を入力し、当該画像を矩形ストローク成分検出手段１１に出力する。例えば、画像入力手段１０は、カメラ等の撮影デバイスから画像を取得し、または、ハードディスク等の記憶装置から、電子データとして保存されている画像を読み出す。

〔矩形ストローク成分検出手段１１〕
矩形ストローク成分検出手段１１は、画像入力手段１０から画像を入力し、画像から矩形ストローク成分を検出し、矩形ストローク成分をグルーピングした文字要素候補図形等を文字／非文字判別手段１２に出力する。

矩形ストローク成分とは、以下の（ａ）〜（ｃ）の条件を満たす領域をいう。
（ａ）所定幅のストロークで構成される図形の部分領域である。
（ｂ）その部分領域の外接矩形の一対の辺が、その図形を構成する線成分の幅（ストローク幅）と同じ長さである。
（ｃ）その部分領域の外接矩形の各辺が、その図形の境界とそれぞれ一部重なる。

図３は、所定幅のストロークで構成される図形、矩形ストローク成分、ストローク幅、及び矩形ストローク成分の外接矩形を説明する図であり、文字「ａ」の例を示している。黒塗りの箇所が、所定幅のストロークで構成される図形である文字「ａ」であり、文字「ａ」の線成分の幅がストローク幅である。また、矩形ストローク成分の外接矩形内において、所定幅のストロークで構成される図形である文字「ａ」の部分領域が矩形ストローク成分である。

文字要素候補図形とは、文字の候補または文字を構成する要素の候補となる図形をいう。例えば、文字「Ｈ」の場合、文字要素候補図形は１つであり、文字「ル」の場合、文字要素候補図形は、「ル」の左側の文字要素及び右側の文字要素の２つである。つまり、文字要素候補図形は、一筆書きが可能な要素の図形である。

図２は、矩形ストローク成分検出手段１１の構成を示すブロック図である。この矩形ストローク成分検出手段１１は、ペア検出段２０、ストローク検出段２１及び候補設定段２２を備えている。

図４は、矩形ストローク成分検出手段１１の処理を示すフローチャートであり、図５は、矩形ストローク成分検出手段１１の処理を説明する図である。

図４を参照して、矩形ストローク成分検出手段１１のペア検出段２０は、文字を含む画像を入力し（ステップＳ４０１）、画像からエッジを抽出することで、エッジ画素を検出する（ステップＳ４０２）。そして、ペア検出段２０は、輝度勾配方向が１８０度異なる２つのエッジ画素ｐ，ｑ（勾配対称ペア）を検出する（ステップＳ４０３）。この場合、ペア検出段２０は、輝度勾配方向が１８０度を基準にして所定範囲内の角度だけ異なる２つのエッジ画素ｐ，ｑ（勾配対称ペア）を検出するようにしてもよい。そして、ペア検出段２０は、勾配対称ペアであるエッジ画素ｐ，ｑの情報（画素値、位置等）をストローク検出段２１に出力する。

（ステップＳ４０２：エッジ抽出処理：ペア検出段２０）
図６は、エッジ抽出処理（ステップＳ４０２）の詳細を示すフローチャートである。ペア検出段２０は、所定の手法（例えばＣａｎｎｙオペレータ）により、入力した画像からエッジを抽出することで、画素値が所定値以上に大きく変化する箇所のエッジ画素を検出する（ステップＳ６０１）。これにより、画像に含まれる文字とその周辺との間のエッジが抽出される。図５の１段目を参照して、文字「Ｈ」を含む画像の場合、例えば白抜きの「Ｈ」のエッジが抽出される。ここで、抽出されたエッジを構成する画素が、エッジ画素である。

図６に戻って、ペア検出段２０は、入力した画像におけるエッジ画素ｐの輝度勾配方向ｄ_ｐを算出する（ステップＳ６０２）。輝度勾配方向は、エッジ画素を中心とした周辺領域において、輝度が最も変化している方向を示す。例えば、ペア検出段２０は、エッジ画素ｐを中心として、輝度値についてSobelフィルタを適用し、エッジ画素ｐにおけるｘ方向（横）及びｙ方向（縦）それぞれの１次微分の値Ｌｘ，Ｌｙを算出し、輝度勾配方向ｄ_ｐ＝arctan（Ｌｙ／Ｌｘ）を算出する。このように、ステップＳ６０２により、ステップＳ６０１にて検出された全てのエッジ画素ｐのそれぞれについて、輝度勾配方向ｄ_ｐが算出される。

（ステップＳ４０３：勾配対称ペア検出処理：ペア検出段２０）
図７は、勾配対称ペア検出処理（ステップＳ４０３）の詳細を示すフローチャートである。ペア検出段２０は、エッジ画素ｐを中心として、輝度勾配方向ｄ_ｐ、及び当該輝度勾配方向ｄ_ｐの逆方向（ｄ_ｐ−π）の２つの方向に対し、エッジ画素ｑを探索する（ステップＳ７０１）。エッジ画素ｑは、図６のステップＳ６０１にて検出したエッジ画素ｐの中から探索される。

ペア検出段２０は、ステップＳ７０１にて探索したエッジ画素ｑの輝度勾配方向ｄ_ｑ及びエッジ画素ｐの輝度勾配方向ｄ_ｐについて、エッジ画素ｐの輝度勾配方向ｄ_ｐがエッジ画素ｑの輝度勾配方向ｄ_ｑの逆方向（ｄ_ｑ−π）とほぼ同じであるか否かを判断する（ステップＳ７０２）。すなわち、ペア検出段２０は、エッジ画素ｐの輝度勾配方向ｄ_ｐがエッジ画素ｑの輝度勾配方向ｄ_ｑの逆方向（ｄ_ｑ−π）を基準とした所定範囲内の方向にあるか否かを判定する。

ペア検出段２０は、ステップＳ７０２において、エッジ画素ｐの輝度勾配方向ｄ_ｐが逆方向（ｄ_ｑ−π）を基準とした所定範囲内の方向にあると判定した場合（ステップＳ７０２：Ｙ）、エッジ画素ｐ，ｑを勾配対称ペアとして検出する（ステップＳ７０３）。図５の１段目を参照して、文字「Ｈ」の場合、エッジ画素ｐの集合であるエッジ「Ｈ」において、検出成分ａ〜ｚのとおり、エッジ画素ｐ，ｑが勾配対称ペアとして検出される。

一方、ペア検出段２０は、ステップＳ７０２において、エッジ画素ｐの輝度勾配方向ｄ_ｐが逆方向（ｄ_ｑ−π）を基準とした所定範囲内の方向にないと判定した場合（ステップＳ７０２：Ｎ）、勾配対称ペアを検出できなかったものと判断する（ステップＳ７０４）。このように、ステップＳ７０１〜ステップＳ７０４により、全てのエッジ画素ｐのそれぞれについて処理が行われ、勾配対称ペアが検出される。

（ステップＳ４０４：外接矩形検出処理：ストローク検出段２１）
図４に戻って、ストローク検出段２１は、ペア検出段２０から勾配対称ペアであるエッジ画素ｐ，ｑの情報を入力する。そして、ストローク検出段２１は、ステップＳ４０３の後、勾配対称ペアであるエッジ画素ｐ，ｑを結ぶ線分の中点から、その線分の垂直方向に存在する２つのエッジ画素ｒ，ｓを検出し、エッジ画素ｐ，ｑ，ｒ，ｓから矩形ストローク成分の外接矩形を検出する（ステップＳ４０４）。図３を参照して、所定幅のストロークで構成される図形が文字「ａ」の場合、矩形ストローク成分の外接矩形は、エッジ画素ｐ，ｑ，ｒ，ｓを有する長方形の各辺により構成される。エッジ画素ｐ，ｑの線分ｐｑの長さがストローク幅である。

図８は、外接矩形検出処理（ステップＳ４０４）の詳細を示すフローチャートである。ストローク検出段２１は、勾配対称ペアであるエッジ画素ｐ，ｑを結ぶ線分ｐｑの中点を特定し（ステップＳ８０１）、その中点から、方向（ｄ_ｐ＋π／２）及び方向（ｄ_ｐ−π／２）の２つの方向へ、エッジ画素ｒ，ｓを探索する（ステップＳ８０２）。

ストローク検出段２１は、ステップＳ８０２の探索により、エッジ画素ｒ，ｓの両画素が存在するか否かを判定する（ステップＳ８０３）。ストローク検出段２１は、ステップＳ８０３において、エッジ画素ｒ，ｓの両画素が存在すると判定した場合（ステップＳ８０３：Ｙ）、エッジ画素ｐ，ｑを結ぶ線分ｐｑとエッジ画素ｒ，ｓを結ぶ線分ｒｓのそれぞれに平行な辺を持ち、かつ、エッジ画素ｐ，ｑ，ｒ，ｓが各辺上にそれぞれ位置する矩形を、エッジ画素ｐを基点とした矩形ストローク成分の外接矩形として検出する（ステップＳ８０４）。図５の２段目を参照して、エッジ画素ｐの集合であるエッジ「Ｈ」において、検出成分ａ〜ｚのとおり、点線で示す矩形ストローク成分の外接矩形が検出される。

一方、ストローク検出段２１は、ステップＳ８０３において、エッジ画素ｒ，ｓの両画素の両方または一方が存在しないと判定した場合（ステップＳ８０３：Ｎ）、エッジ画素ｐを基点とした矩形ストローク成分の外接矩形を検出できなかったものと判断する（ステップＳ８０５）。

（ステップＳ４０５：矩形ストローク成分検出処理：ストローク検出段２１）
図４に戻って、ストローク検出段２１は、ステップＳ４０４の後、矩形ストローク成分の外接矩形の中心点における画素の色と近似する画素の連結部分を抽出し、この連結部分を、エッジ画素ｐを基点とした矩形ストローク成分として検出する（ステップＳ４０５）。また、ストローク検出段２１は、エッジ画素ｐ，ｑの線分ｐｑの長さを、検出した矩形ストローク成分のストローク幅として設定する。

具体的には、ストローク検出段２１は、矩形ストローク成分の外接矩形の内部に存在し、かつ、エッジ画素ｒ，ｓの線分ｒｓの中点または矩形ストローク成分の外接矩形の中心点を含み、当該中点または中心点の色が近似した画素（当該中点または中心点の画素値を基準にして所定範囲内の画素値を有する画素）の連結部分を、エッジ画素ｐを基点とした矩形ストローク成分として検出する。図５の３段目を参照して、検出成分ａ〜ｚのとおり、白抜きで示す矩形ストローク成分が検出される。

例えば、色が近似した画素の連結部分を計算する手法として、ストローク検出段２１は、画素におけるＲＧＢの全てのチャンネルについて、エッジ画素ｐ，ｑの線分ｐｑ上及びエッジ画素ｒ，ｓの線分ｒｓ上における画素値の最大値及び最小値を特定し、これらの範囲内に画素値が含まれる画素を連結する。このように、色が近似した画素の連結部分を計算する手法としては、矩形ストローク成分毎の色分布特徴を考慮するものが望ましい。これにより、明るさによって画素の色が微妙に異なる場合であっても、矩形ストローク成分を精度高く検出することができる。

尚、ストローク検出段２１は、矩形ストローク成分の外接矩形の内部に存在し、かつ、エッジ画素ｐ，ｑの線分ｐｑの中点を含み、当該中点の色が近似した画素（当該中点の画素値を基準にして所定範囲内の画素値を有する画素）の連結部分を、エッジ画素ｐを基点とした矩形ストローク成分として検出するようにしてもよい。

ここで、ストローク検出段２１は、矩形ストローク成分の外接矩形に対する矩形ストローク成分の面積の割合が低いものを除外する。具体的には、ストローク検出段２１は、矩形ストローク成分の外接矩形の面積及び矩形ストローク成分の面積を算出し、矩形ストローク成分の外接矩形の面積に対する矩形ストローク成分の占める割合を算出し、その割合がパラメータｔ_１よりも小さい場合、その矩形ストローク成分は誤検出であるとみなして除外する。ここで、パラメータｔ_１は０．７５程度が好ましい。ストローク検出段２１は、前述の除外処理後の矩形ストローク成分及びそのストローク幅の情報を候補設定段２２に出力する。

これにより、矩形ストローク成分の外接矩形の面積に対する矩形ストローク成分の占める割合が小さい場合、その矩形ストローク成分が除外されるから、ストローク幅の比較的長い矩形ストローク成分が除外される。したがって、精度の高いストローク幅を有する矩形ストローク成分のみが残される。図５の３段目を参照して、検出成分ａ〜ｚのうち、ストローク幅の長い検出成分ｚが除外される。

文字領域抽出装置１は、ペア検出段２０によるステップＳ４０２及びステップＳ４０３の処理、並びにストローク検出段２１によるステップＳ４０４及びステップＳ４０５の処理を、ステップＳ４０２にて検出された全てのエッジ画素ｐについて行う。

（ステップＳ４０６：グルーピング及びフィルタリング処理：候補設定段２２）
候補設定段２２は、ストローク検出段２１から矩形ストローク成分及びそのストローク幅の情報を入力し、共通の画素を有する矩形ストローク成分同士をグルーピングし、そのグループの中でストローク幅が外れ値となる矩形ストローク成分を除外することで、矩形ストローク成分をフィルタリングする（ステップＳ４０６）。つまり、候補設定段２２は、ペア検出段２０によりステップＳ４０２にて検出された全てのエッジ画素ｐにつきステップＳ４０３〜ステップＳ４０５の処理がされた後、それぞれのエッジ画素ｐを基点とした矩形ストローク成分について、グルーピング及びフィルタリングを行う。

ここで、共通の画素を有する矩形ストローク成分同士とは、１以上の共通の画素を有して重なっている矩形ストローク成分の集合をいう。候補設定段２２は、グルーピングの際に、共通の画素を有する矩形ストローク成分の集合を求め、その集合に属する矩形ストローク成分と共通の画素を有する矩形ストローク成分の他の集合を順次求め、これらの集合を１グループとするようにグルーピングを行う。共通の画素を有する矩形ストローク成分が連鎖する場合は、連鎖した全ての矩形ストローク成分が１つのグループにグルーピングされる。例えば、矩形ストローク成分Ａ，Ｂ，Ｃにおいて、矩形ストローク成分Ａ，Ｂに含まれる画素αが共通し（矩形ストローク成分Ａ，Ｂの一部が重なっており）、矩形ストローク成分Ｂ，Ｃに含まれる画素βが共通し（矩形ストローク成分Ｂ，Ｃの一部が重なっており）、矩形ストローク成分Ａ，Ｃには共通の画素が存在しない（矩形ストローク成分Ａ，Ｃが重なっていない）場合、矩形ストローク成分Ａ，Ｂと矩形ストローク成分Ｂ，Ｃは、共通の画素α，βをそれぞれ基点として連鎖しており、矩形ストローク成分Ａ，Ｂ，Ｃは、１つのグループにグルーピングされる。この場合、矩形ストローク成分Ａ，Ｂ，Ｃは、共通の画素を有する矩形ストローク成分同士である。

共通の画素を有する矩形ストローク成分同士をグルーピングすることにより、一筆書きが可能な文字要素毎のグループが設定される。例えば、文字「Ｈ」の場合、１つのグループが設定され、文字「ル」の場合、２つのグループが設定される。そして、このグループ毎に、後述する文字要素候補図形が設定される。

例えば、候補設定段２２は、フィルタリングの際に、グループに属する矩形ストローク成分のストローク幅の値を昇順に並べたリストを作成し、ｎ番目の値とｎ＋１番目の値の差が、ｎ番目の値のｘ（例えばｘ＝０．２）倍より大きくなっている箇所を判断し、その箇所でリストを区切る。ｎは１以上の整数である。そして、候補設定段２２は、区切ったリストのうち、最も長いリストに含まれる値の最大値と最小値を特定し、元のリストの中から、最大値及び最小値の範囲外の値を外れ値として判断する。尚、候補設定段２２は、ストローク幅の分散a及び平均bを算出し、平均bからｘ×ａ（例えばｘ＝２）以上離れている値を外れ値として判断するようにしてもよいし、ＬｏｃａｌＯｕｔｌｉｅｒＦａｃｔｏｒ（ＬＯＦ）法等を用いるようにしてもよい。

これにより、ストローク幅の値が所定範囲外の外れ値となる矩形ストローク成分が除外されるから、ストローク幅の比較的長い矩形ストローク成分が除外される。したがって、精度の高いストローク幅を有する矩形ストローク成分のみが残される。図５の４段目を参照して、検出成分ａ〜ｙのうち、ストローク幅の長い検出成分ｙが除外される。

このような、ストローク幅が外れ値となる矩形ストローク成分を除外するフィルタリング処理は必ずしも必要ではないが、精度の低いストローク幅を有する矩形ストローク成分を除外できる点で有効である。

（ステップＳ４０７：文字要素候補図形出力処理：候補設定段２２）
候補設定段２２は、ステップＳ４０６の後、グループ毎に、当該グループに属する、外れ値が除外された後に残された複数の矩形ストローク成分を結合し、結合した矩形ストローク成分を文字要素候補図形として設定する。そして、候補設定段２２は、文字要素候補図形、及び文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字／非文字判別手段１２に出力する（ステップＳ４０７）。図５の４段目を参照して、文字「Ｈ」の場合、検出成分ａ〜ｚのうち、検出成分ｙ，ｚが除外された検出成分ａ〜ｘを結合した１つの文字要素候補図形が設定される。

〔文字／非文字判別手段１２〕
図１に戻って、文字／非文字判別手段１２は、矩形ストローク成分検出手段１１から、グループ毎の文字要素候補図形等を入力し、文字要素候補図形の文字らしさ（文字要素らしさ）を判定し、文字らしくない非文字の文字要素候補図形を除外し、文字らしい文字要素候補図形を判別する。そして、文字／非文字判別手段１２は、文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字列検出手段１３に出力する。

尚、以下の計算処理において、距離、面積等は、画素間のユークリッド距離に基づいて、すなわち画素数を長さとして算出されるものとする。後述する文字列検出手段１３においても同様である。

例えば、文字要素候補図形の文字らしさの判定手法として、文字要素候補図形が有する矩形ストローク成分の個数を利用する（第１−１の判定手法）。文字／非文字判別手段１２は、文字要素候補図形に属する矩形ストローク成分の個数を、文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定のパラメータｔ_２を超える場合、その文字要素候補図形は文字らしいと判定する。一方、文字／非文字判別手段１２は、除算結果の値が所定のパラメータｔ_２以下の場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータｔ_２は０．１程度が望ましい。文字要素候補図形の外接矩形の面積は、図４のステップＳ４０７の例では、文字要素候補図形「Ｈ」を含む長方形の面積をいう。

この第１−１の判定手法によれば、文字要素候補図形の外接矩形の面積を基準にして、文字要素候補図形に属する矩形ストローク成分の個数が少ない場合、または、文字要素候補図形に属する矩形ストローク成分の個数を基準にして、文字要素候補図形の外接矩形の面積が大きい場合、その文字要素候補図形は、文字らしくないと判定されて除外される。

また、文字要素候補図形の文字らしさの判定手法として、文字要素候補図形に属する矩形ストローク成分のストローク幅の値を利用する（第１−２の判定手法）。文字／非文字判別手段１２は、文字要素候補図形に属する全ての矩形ストローク成分のストローク幅の平均値を算出し、算出結果の平均ストローク幅に対し、文字要素候補図形の外接円の直径がパラメータｔ_３倍を超えない場合、その文字要素候補図形は文字らしいと判定する。一方、文字／非文字判別手段１２は、算出結果の平均ストローク幅に対し、文字要素候補図形の外接円の直径がパラメータｔ_３倍を超える場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータｔ_３は２０程度が望ましい。

また、文字要素候補図形の文字らしさの判定手法として、一般的な文字の幾何学的特徴を利用する（第１−３の判定手法）。文字／非文字判別手段１２は、文字要素候補図形のアスペクト比を算出し、そのアスペクト比がパラメータｔ_４よりも小さく、かつ、１／ｔ_４を超える場合、その文字要素候補図形は文字らしいと判定する。一方、文字／非文字判別手段１２は、そのアスペクト比がパラメータｔ_４以上である場合、または、そのアスペクト比が１／ｔ_４以下である場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータｔ_４は１０程度が望ましい。

これにより、矩形ストローク成分検出手段１１により設定された文字要素候補図形のうち、文字らしくない文字要素候補図形が除外される。したがって、文字の検出精度を高めることができる。

尚、前述の第１−１の判定手法、第１−２の判定手法及び第１−３の判定手法のうちの２以上の判定手法を組み合わせることにより、文字らしくない文字要素候補図形を精度高く除外することができる。したがって、文字の検出精度を一層高めることができる。

〔文字列検出手段１３〕
文字列検出手段１３は、文字／非文字判別手段１２から、文字らしい文字要素候補図形等を入力し、文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する。そして、文字列検出手段１３は、文字列らしい文字要素候補図形群、及び文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅等、並びに、文字／非文字判別手段１２から入力した文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字領域提示手段１４に出力する。

例えば、文字列らしさの判定手法として、文字要素候補図形が有する矩形ストローク成分のストローク幅の値を利用する（第２−１の判定手法）。文字列検出手段１３は、ある２つの文字要素候補図形の平均ストローク幅の比率を算出し、その比率がパラメータｔ_５よりも小さく、かつ、１／ｔ_５を超える場合、これらの２つの文字要素候補図形は同じ文字列に属する（文字列らしい）と判定する。一方、文字列検出手段１３は、その比率がパラメータｔ_５以上の場合、または１／ｔ_５以下の場合、これらの２つの文字要素候補図形は同じ文字列に属さない（文字列らしくない）と判定する。ここで、パラメータｔ_５は１．５程度が望ましい。

また、文字列らしさの判定手法として、文字要素候補図形の色の特徴を利用する（第２−２の判定手法）。文字列検出手段１３は、ある２つの文字要素候補図形のそれぞれについて画素値の範囲を求め、２つの文字要素候補図形における画素値の全体範囲及び共通範囲を算出する。そして、文字列検出手段１３は、２つの文字要素候補図形における画素値の全体範囲に対する共通範囲の割合を算出し、その割合がパラメータｔ_６を超える場合（共通範囲の割合が高い場合）、これらの２つの文字要素候補図形は同じ文字列に属する（文字列らしい）と判定する。一方、文字列検出手段１３は、その割合がパラメータｔ_６以下の場合（共通範囲の割合が低い場合）、これらの２つの文字要素候補図形は同じ文字列に属さない（文字列らしくない）と判定する。ここで、パラメータｔ_６は０．７程度が望ましい。

また、文字列らしさの判定手法として、一般的な文字列の幾何学的特徴を利用する（第２−３の判定手法）。文字列検出手段１３は、ある２つの文字要素候補図形の高さ及び幅、並びにそれらの高さの比率を算出し、２つの文字要素候補図形間の距離を算出する。そして、文字列検出手段１３は、その比率がパラメータｔ_７よりも小さく、かつ１／ｔ_７を超えており（高さの差が所定値以下であり）、さらに、２つの文字要素候補図形間の距離が、より広い幅を持つ方の幅のパラメータｔ_８倍よりも小さい（幅の差が所定値以下である）場合、これらの２つの文字要素候補図形は同じ文字列に属する（文字列らしい）と判定する。一方、文字列検出手段１３は、前述の条件を満たさない場合、これらの２つの文字要素候補図形は同じ文字列に属さない（文字列らしくない）と判定する。ここで、パラメータｔ_７は５程度、パラメータｔ_８は２程度が望ましい。

また、第２−３の判定手法の他の例として、文字列検出手段１３は、ある３つの文字要素候補図形Ａ，Ｂ，Ｃにおいて、文字要素候補図形Ａ，Ｂ，Ｃの重心を求め、文字要素候補図形Ａ，Ｂの重心間を結ぶ線分の方向と文字要素候補図形Ｂ，Ｃの重心間を結ぶ線分の方向との間の差を算出する。そして、文字列検出手段１３は、その差がパラメータｔ_９以下の場合、これらの２つの文字要素候補図形は同じ文字列に属する（文字列らしい）と判定する。一方、文字列検出手段１３は、その差がパラメータｔ_９を超える場合、これらの２つの文字要素候補図形は同じ文字列に属さない（文字列らしくない）と判定する。ここで、パラメータｔ_９はπ／６（ラジアン）程度が望ましい。

これにより、文字／非文字判別手段１２により判別された文字らしい文字要素候補図形のうち、文字列らしい文字要素候補図形群が検出される。したがって、文字列の検出精度を高めることができる。

尚、前述の第２−１の判定手法、第２−２の判定手法及び第２−３の判定手法のうちの２以上の判定手法を組み合わせることにより、文字列らしい文字要素候補図形群を精度高く検出することができる。したがって、文字列の検出精度を一層高めることができる。

〔文字領域提示手段１４〕
文字領域提示手段１４は、文字列検出手段１３から、文字らしい文字要素候補図形等、及び文字列らしい文字要素候補図形群等を入力する。そして、文字領域提示手段１４は、画像入力手段１０が入力した画像から、文字らしい文字要素候補図形を含む領域を切り出し、切り出した領域の画像（切り出し画像）、その位置情報、及び、文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示（出力）する。この場合、画像入力手段１０が入力した画像における切り出し画像の位置は、矩形ストローク成分検出手段１１にて認識することができる。文字領域提示手段１４は、その位置情報を、矩形ストローク成分検出手段１１から文字／非文字判別手段１２及び文字列検出手段１３を介して入力し、切り出し位置を特定する。

また、文字領域提示手段１４は、画像入力手段１０が入力した画像から、文字列らしい文字要素候補図形群を含む領域を切り出し、切り出した領域の画像（切り出し画像）、その位置情報、及び、文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示する。切り出し画像の位置については、前述と同様である。

尚、文字領域提示手段１４は、画像入力手段１０が入力した画像に対し、文字らしい文字要素候補図形を含む矩形を文字の外接矩形として描画し、文字の外接矩形を描画した画像、文字の外接矩形の位置情報、及び、文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示するようにしてもよい。また、文字領域提示手段１４は、画像入力手段１０が入力した画像に対し、文字列らしい文字要素候補図形群を含む矩形を文字列の外接矩形として描画し、文字列の外接矩形を描画した画像、文字列の外接矩形の位置情報、及び、文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示するようにしてもよい。この場合、画像入力手段１０が入力した画像における文字または文字列の外接矩形の描画位置は、矩形ストローク成分検出手段１１にて認識された文字要素候補図形の位置情報に基づいて決定される。文字領域提示手段１４は、その位置情報を、矩形ストローク成分検出手段１１から文字／非文字判別手段１２及び文字列検出手段１３を介して入力し、描画位置を決定する。

さらに、文字領域提示手段１４は、文字らしい文字要素候補図形、すなわち矩形ストローク成分を結合した線画像（背景から分離された文字部分のみの画像）及びその位置情報を、後段の装置へ提示するようにしてもよい。また、文字領域提示手段１４は、文字列らしい文字要素候補図形群、すなわち矩形ストローク成分を結合した複数の線画像及びその位置情報を、後段の装置へ提示するようにしてもよい。

ここで、文字らしい文字要素候補図形の位置情報は、画像入力手段１０が入力した画像内において、文字を構成する線の座標位置を示す情報であり、矩形ストローク成分検出手段１１により文字要素候補図形が設定された際に、当該文字らしい文字要素候補図形の位置情報が特定される。また、文字列らしい文字要素候補図形の位置情報は、画像入力手段１０が入力した画像内において、文字列を構成する線の座標位置を示す情報である。この位置情報は、矩形ストローク成分検出手段１１により文字要素候補図形が設定された際に、文字列を構成する１文字の文字要素候補図形の位置情報が特定され、そして、文字列検出手段１３により文字列らしい文字要素候補図形群が検出された際に、当該文字列らしい文字要素候補図形群の位置情報が特定される。

図９（１）は、画像入力手段１０が入力した、文字を含む画像の例を示す図であり、図９（２）は、文字の外接矩形の例を示す図であり、図９（３）は、文字列の外接矩形の例を示す図である。例えば、文字領域提示手段１４は、図９（１）に示す画像に対し、文字らしい文字要素候補図形を含む矩形を文字の外接矩形として描画し、図９（２）に示す画像を提示する。図９（２）において、「Ｗ」「Ｈ」「Ｙ」等の周りに描画された矩形が文字の外接矩形である。

また、文字領域提示手段１４は、図９（１）に示す画像に対し、文字列らしい文字要素候補図形群を含む矩形を文字列の外接矩形として描画し、図９（３）に示す画像を提示する。図９（３）において、「ＷＨＹＨＵＲＲＹ？」等の周りに描画された矩形が文字列の外接矩形である。

後段の装置は、例えば、文字認識機能を有する装置、当該文字認識機能が文字を認識しやすいように、画像から文字領域を２値化して切り出す文字切り出し機能を有する装置である。

この場合、文字領域提示手段１４は、後段の装置がこのような機能を実現するために必要な文字領域の情報として、例えば、文字らしい文字要素候補図形を含む領域の切り出し画像、文字列らしい文字要素候補図形群を含む領域の切り出し画像を、画像入力手段１０が入力した画像から抽出し、提示する。

以上のように、本発明の実施形態の文字領域抽出装置１によれば、矩形ストローク成分検出手段１１のペア検出段２０は、画像からエッジ画素ｐを抽出し、輝度勾配方向が１８０度を基準にして所定範囲内の角度の異なる２つのエッジ画素ｐ，ｑを勾配対称ペアとして検出する。そして、ストローク検出段２１は、勾配対称ペアであるエッジ画素ｐ，ｑを結ぶ線分の中点から、その線分の垂直方向に存在する２つのエッジ画素ｒ，ｓを検出し、矩形ストローク成分の外接矩形を検出し、矩形ストローク成分の外接矩形の中心点等における画素の色と近似する画素の連結部分を抽出し、この連結部分を矩形ストローク成分として検出する。そして、候補設定段２２は、共通の画素を有する矩形ストローク成分同士をグルーピングし、そのグループの中でストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、当該グループに属する矩形ストローク成分を結合し、結合した矩形ストローク成分を文字要素候補図形として設定する。

文字／非文字判別手段１２は、文字要素候補図形の文字らしさ（文字要素らしさ）を判定し、文字らしくない文字要素候補図形を除外し、文字列検出手段１３は、文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する。そして、文字領域提示手段１４は、文字らしい文字要素候補図形を含む切り出し画像及びその位置情報、文字列らしい文字要素候補図形群を含む切り出し画像及びその位置情報等を、後段の装置へ提示する。

このように、本発明の実施形態では、画像に含まれる画素が、矩形ストローク成分の面内に含まれていれば、その画素を含むように文字要素候補図形が設定される。したがって、本発明は、勾配対称ペアを結ぶ線分上の画素のみを候補図形として設定する従来技術よりも、文字を構成する画素を文字要素候補図形に一層含めることができるから、当該文字要素候補図形は文字らしくなり、結果として、文字領域の抽出精度を高くすることができる。特に、勾配対称ペアが少ない文字を検出する場合に有効となる。また、勾配対称ペアが少ない文字を検出する場合に、従来技術では、非文字を文字として検出するいわゆる誤検出が多かったが、本発明の実施形態では、これを減らすことができる。

図１０は、本発明の実施形態により検出された文字の例を示す図である。文字「Ｗ」は、勾配対称ペアが少ない文字である。図１０に示す文字「Ｗ」と図１１（２）に示した従来技術の非特許文献１の手法により検出された文字「Ｗ」とを比較すると、図１０に示す文字「Ｗ」の方が、より文字らしい形状の図形であることがわかる。結果として、本発明の実施形態は、従来技術よりも文字領域の抽出精度が高くなる。

これにより、本発明の実施形態によれば、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能となる。また、抽出した文字領域において、文字のストローク幅の値の精度を向上させることができる。

本発明の実施形態による文字領域抽出装置１は、画像の文字認識に利用可能であり、映像の管理、検索、分析等を行う際に有効である。

尚、本発明の実施形態による文字領域抽出装置１のハードウェア構成としては、通常のコンピュータを使用することができる。文字領域抽出装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文字領域抽出装置１に備えた画像入力手段１０、矩形ストローク成分検出手段１１（ペア検出段２０、ストローク検出段２１及び候補設定段２２）、文字／非文字判別手段１２、文字列検出手段１３及び文字領域提示手段１４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１文字領域抽出装置
１０画像入力手段
１１矩形ストローク成分検出手段
１２文字／非文字判別手段
１３文字列検出手段
１４文字領域提示手段
２０ペア検出段
２１ストローク検出段
２２候補設定段

Claims

画像から文字を含む文字領域を抽出する文字領域抽出装置において、
前記画像から前記文字のエッジ画素を検出し、前記エッジ画素に基づいて、前記文字の部分領域を矩形ストローク成分として検出し、複数の前記矩形ストローク成分を結合して文字要素候補図形を設定する矩形ストローク成分検出手段と、
前記矩形ストローク成分検出手段により設定された文字要素候補図形の文字らしさを判定し、文字らしくない非文字の文字要素候補図形を除外して文字らしい文字要素候補図形を判別する文字／非文字判別手段と、
前記文字／非文字判別手段により判別された文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する文字列検出手段と、
前記文字／非文字判別手段により判別された文字らしい文字要素候補図形に関する情報、または前記文字列検出手段により検出された文字列らしい文字要素候補図形群に関する情報を、前記文字領域として出力する文字領域出力手段と、を備え、
前記矩形ストローク成分検出手段は、
前記画像から前記文字のエッジ画素を検出し、輝度勾配方向が１８０度を基準にして所定範囲内の角度の異なる２つの第１及び第２のエッジ画素を勾配対称ペアとして検出し、前記勾配対称ペアである前記第１及び第２のエッジ画素を結ぶ線分の中点から、当該線分の垂直方向に存在する２つの第３及び第４のエッジ画素を検出するペア検出段と、
前記ペア検出段により検出された第１、第２、第３及び第４のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記矩形ストローク成分の外接矩形内の画素から、前記矩形ストローク成分の外接矩形の中心点における画素の画素値に対し、所定範囲内の画素値を有する画素の連結部分を抽出し、前記連結部分を、前記第１のエッジ画素を基点とした前記矩形ストローク成分として検出するストローク検出段と、
前記ストローク検出段により検出された複数の矩形ストローク成分のうち、共通の画素を有する矩形ストローク成分同士をグルーピングし、前記グルーピングしたグループ毎に、当該グループに属する複数の矩形ストローク成分を結合し、文字要素候補図形を設定する候補設定段と、を有することを特徴とする文字領域抽出装置。
請求項１に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段のストローク検出段に代わる新たなストローク検出段は、
前記ペア検出段により検出された第１、第２、第３及び第４のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記第１及び第２のエッジ画素の線分上及び前記第３及び第４のエッジ画素の線分上における画素値の最大値及び最小値を特定し、前記矩形ストローク成分の外接矩形内の画素から、前記最大値から前記最小値までの範囲内に画素値が含まれる画素の連結部分を抽出し、前記連結部分を、前記第１のエッジ画素を基点とした前記矩形ストローク成分として検出する、ことを特徴とする文字領域抽出装置。
請求項１または２に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段のストローク検出段は、
前記検出した矩形ストローク成分について、前記矩形ストローク成分の外接矩形に対する前記矩形ストローク成分の面積の割合が所定値よりも小さい場合、当該矩形ストローク成分を除外する、ことを特徴とする文字領域抽出装置。
請求項１から３までのいずれか一項に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段の候補設定段は、
前記グルーピングしたグループの中で、前記第１のエッジ画素と前記第２のエッジ画素との間の距離をストローク幅とした場合に、前記ストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、前記除外した後に残された複数の矩形ストローク成分を結合し、文字要素候補図形を設定する、ことを特徴とする文字領域抽出装置。
請求項１から４までのいずれか一項に記載の文字領域抽出装置において、
前記文字／非文字判別手段は、
前記矩形ストローク成分検出手段により設定された文字要素候補図形における前記矩形ストローク成分の個数を、前記文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定値を超える場合、前記文字要素候補図形は文字らしいと判定し、前記除算結果の値が前記所定値以下の場合、前記文字要素候補図形は文字らしくないと判定する、ことを特徴とする文字領域抽出装置。
コンピュータを、請求項１から５までのいずれか一項に記載の文字領域抽出装置として機能させるための文字領域抽出プログラム。