JP6468880B2 - 文字領域抽出装置及びプログラム - Google Patents

文字領域抽出装置及びプログラム Download PDF

Info

Publication number
JP6468880B2
JP6468880B2 JP2015032481A JP2015032481A JP6468880B2 JP 6468880 B2 JP6468880 B2 JP 6468880B2 JP 2015032481 A JP2015032481 A JP 2015032481A JP 2015032481 A JP2015032481 A JP 2015032481A JP 6468880 B2 JP6468880 B2 JP 6468880B2
Authority
JP
Japan
Prior art keywords
character
stroke
rectangular
element candidate
rectangular stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015032481A
Other languages
English (en)
Other versions
JP2016157155A (ja
Inventor
伶 遠藤
伶 遠藤
吉彦 河合
吉彦 河合
住吉 英樹
英樹 住吉
貴裕 望月
貴裕 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015032481A priority Critical patent/JP6468880B2/ja
Publication of JP2016157155A publication Critical patent/JP2016157155A/ja
Application granted granted Critical
Publication of JP6468880B2 publication Critical patent/JP6468880B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像から文字領域を抽出する文字領域抽出装置及びプログラムに関する。
一般に、画像から一定幅の線成分(ストローク)で構成される図形を抽出する技術は、画像中の文字を認識するために用いられる。一般的な文字認識技術では、文字を認識する前の処理として、入力した画像の文字領域を抽出する。この文字領域を抽出する手法は、例えば、以下に示す第1の手法及び第2の手法がある。
第1の手法は、入力した画像の中の文字色を特定し、特定した文字色に近似する色の画素を連結し、その画素連結成分を文字領域として抽出するものである。例えば、文字色が画像の大部分を占める色であることを前提として、入力した画像の統計分布を求め、その統計分布に基づいて文字色を計算し、文字領域を抽出する(特許文献1を参照)。
第2の手法は、水平方向に並んでいる文字等のように、特定のレイアウトに従って配置されている文字に限定し、文字領域を抽出するものである。例えば、ナンバープレートの特有の文字配置に従って、テンプレート・マッチングにより文字領域を抽出する(特許文献2を参照)。
また、文字領域の抽出精度を高める手法として、輝度値のコントラストを用いるものがある。この手法は、文字が当該文字の周囲との関係で、輝度値のコントラストが高い特徴を持つことを利用するものである。具体的には、所定の処理にて画素連結成分を抽出した後、その画素連結成分の境界部において、輝度コントラストが低い画素連結成分を除外し、文字領域を抽出する(特許文献3を参照)。これにより、文字らしくない画素連結成分が除外されるから、文字の誤検出を低減することができる。
これらの手法はいずれも、テロップのような撮影後に付与した文字、レイアウトの推測し易い書類文書をスキャンした画像中の文字等のように、特定の特徴を持つ文字を対象としている。
しかしながら、このような特定の特徴を持つ文字を対象とする手法は、画像中に占める文字成分の割合、文字色、文字の回転方向等が未知である場合には適用できない。例えば、カメラで撮影された画像の背景に看板が写っており、その看板に描かれた情景文字を対象とする場合、その文字の検出は、高精度に実現できない。
このような問題を解決するために、文字を一定幅のストロークで構成される図形とみなし、一定幅のストロークで構成される図形を検出する手法が知られている(非特許文献1を参照)。
この手法は、まず、輝度勾配方向が約180度異なるエッジ画素の組(勾配対称ペア)を求め、その勾配対称ペアを結ぶ線分を検出し、隣り合う線分のうち、線分長が近い線分同士を結合し、これを一定幅のストロークで構成される図形として検出する。そして、同程度のストローク幅をもち、位置が近い図形同士を結合して文字列を得て、この文字列が存在する領域を文字領域として抽出する。この手法によれば、一定幅のストロークで構成された図形に絞って文字領域が抽出されるから、色が近似した画素を連結して文字領域を抽出する手法に比べ、文字の誤検出が少ない。
特開2005−018176号公報 特開平9−319995号公報 特開2004−094967号公報
B.Epshtein, E.Ofek, Y.Wexler.:"Detecting Text in Natural Scenes with Stroke Width Transform,"in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.2963-2970(2010)
前述の非特許文献1の手法(一定幅のストロークで構成される図形を検出する手法)は、勾配対称ペアを結ぶ線分の集合を文字候補図形として検出するものである。このため、勾配対称ペアが少ない図形については、一定幅のストロークで構成されていても、文字を正しく検出できないことがある。
図11(1)は、勾配対称ペアが少ない文字の例を示す図であり、図11(2)は、図11(1)の文字に対し、非特許文献1の手法により検出された文字の例を示す図である。図11(2)に示すように、図11(1)に示す勾配対称ペアが少ない「W」の図形は、一定幅のストロークで構成されているが、文字らしい正しい形状の図形として検出されないことがある。
ここで、勾配対称ペアの検出条件を緩めたり(例えば、輝度勾配方向が90度以上異なれば勾配対称ペアとする等)、勾配対称ペアを結ぶ線分を結合する条件を緩めたり(例えば、線分長が大きく異なる線分であっても隣り合っていれば結合する等)することが想定される。
しかしながら、検出条件等を緩めた場合には、非文字の文字候補図形も数多く検出してしまう。また、ストロークの向きに対し、水平方向の長さと垂直方向の長さを区別できないため、検出した文字候補図形のストローク幅の平均値及び分散が、本来得られるべき値よりも極めて大きくなる。その結果、検出した文字候補図形が文字であるか、または非文字であるかを判別することが難しくなる。このように、非特許文献1の手法にて検出条件等を緩めたとしても、文字を正しく検出することができないか、または、検出できたとしても、非文字を検出してしまうことになり、結果として、文字の誤検出が多くなる。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能な文字領域抽出装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の文字領域抽出装置は、画像から文字を含む文字領域を抽出する文字領域抽出装置において、前記画像から前記文字のエッジ画素を検出し、前記エッジ画素に基づいて、前記文字の部分領域を矩形ストローク成分として検出し、複数の前記矩形ストローク成分を結合して文字要素候補図形を設定する矩形ストローク成分検出手段と、前記矩形ストローク成分検出手段により設定された文字要素候補図形の文字らしさを判定し、文字らしくない非文字の文字要素候補図形を除外して文字らしい文字要素候補図形を判別する文字/非文字判別手段と、前記文字/非文字判別手段により判別された文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する文字列検出手段と、前記文字/非文字判別手段により判別された文字らしい文字要素候補図形に関する情報、または前記文字列検出手段により検出された文字列らしい文字要素候補図形群に関する情報を、前記文字領域として出力する文字領域出力手段と、を備え、前記矩形ストローク成分検出手段が、前記画像から前記文字のエッジ画素を検出し、輝度勾配方向が180度を基準にして所定範囲内の角度の異なる2つの第1及び第2のエッジ画素を勾配対称ペアとして検出し、前記勾配対称ペアである前記第1及び第2のエッジ画素を結ぶ線分の中点から、当該線分の垂直方向に存在する2つの第3及び第4のエッジ画素を検出するペア検出段と、前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記矩形ストローク成分の外接矩形内の画素から、前記矩形ストローク成分の外接矩形の中心点における画素の画素値に対し、所定範囲内の画素値を有する画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出するストローク検出段と、前記ストローク検出段により検出された複数の矩形ストローク成分のうち、共通の画素を有する矩形ストローク成分同士をグルーピングし、前記グルーピングしたグループ毎に、当該グループに属する複数の矩形ストローク成分を結合し、文字要素候補図形を設定する候補設定段と、を有することを特徴とする。
また、請求項2の文字領域抽出装置は、請求項1に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段のストローク検出段に代わる新たなストローク検出段が、前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記第1及び第2のエッジ画素の線分上及び前記第3及び第4のエッジ画素の線分上における画素値の最大値及び最小値を特定し、前記矩形ストローク成分の外接矩形内の画素から、前記最大値から前記最小値までの範囲内に画素値が含まれる画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出する、ことを特徴とする。
また、請求項3の文字領域抽出装置は、請求項1または2に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段のストローク検出段が、前記検出した矩形ストローク成分について、前記矩形ストローク成分の外接矩形に対する前記矩形ストローク成分の面積の割合が所定値よりも小さい場合、当該矩形ストローク成分を除外する、ことを特徴とする。
また、請求項4の文字領域抽出装置は、請求項1から3までのいずれか一項に記載の文字領域抽出装置において、前記矩形ストローク成分検出手段の候補設定段が、前記グルーピングしたグループの中で、前記第1のエッジ画素と前記第2のエッジ画素との間の距離をストローク幅とした場合に、前記ストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、前記除外した後に残された複数の矩形ストローク成分を結合し、文字要素候補図形を設定する、ことを特徴とする。
また、請求項5の文字領域抽出装置は、請求項1から4までのいずれか一項に記載の文字領域抽出装置において、前記文字/非文字判別手段が、前記矩形ストローク成分検出手段により設定された文字要素候補図形における前記矩形ストローク成分の個数を、前記文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定値を超える場合、前記文字要素候補図形は文字らしいと判定し、前記除算結果の値が前記所定値以下の場合、前記文字要素候補図形は文字らしくないと判定する、ことを特徴とする。
さらに、請求項6の文字領域抽出プログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の文字領域抽出装置として機能させることを特徴とする。
以上のように、本発明によれば、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能となる。
本発明の実施形態による文字領域抽出装置の構成を示すブロック図である。 矩形ストローク成分検出手段の構成を示すブロック図である。 所定幅のストロークで構成される図形、矩形ストローク成分、ストローク幅、及び矩形ストローク成分の外接矩形を説明する図である。 矩形ストローク成分検出手段の処理を示すフローチャートである。 矩形ストローク成分検出手段の処理を説明する図である。 エッジ抽出処理(ステップS402)の詳細を示すフローチャートである。 勾配対称ペア検出処理(ステップS403)の詳細を示すフローチャートである。 外接矩形検出処理(ステップS404)の詳細を示すフローチャートである。 (1)は、文字を含む画像の例を示す図である。(2)は、文字の外接矩形の例を示す図である。(3)は、文字列の外接矩形の例を示す図である。 本発明の実施形態により検出された文字の例を示す図である。 (1)は、勾配対称ペアが少ない文字の例を示す図である。(2)は、非特許文献1の手法により検出された文字の例を示す図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、文字のような、所定幅のストロークで構成される図形を検出するために、矩形型の面成分である矩形ストローク成分という概念を用いることを特徴とする。文字を構成する画素が、検出対象の文字の図形に含まれるには、従来技術では、当該画素が、勾配対称ペアを結ぶ線分上のいずれかに含まれていることが必要である。これに対し、本発明では、当該画素が、勾配対称ペアを結ぶ線分上だけでなく、矩形ストローク成分の面内に含まれていればよい。
したがって、本発明は、従来技術よりも、文字を構成する画素を検出対象の文字の図形に一層含めることができるから、当該図形は文字らしくなり、結果として、文字領域の抽出精度を高くすることができる。特に、勾配対称ペアが少ない文字の文字領域を抽出する場合に有効となる。
〔文字領域抽出装置の構成〕
図1は、本発明の実施形態による文字領域抽出装置の構成を示すブロック図である。この文字領域抽出装置1は、入力した画像から所定幅のストロークで構成される図形である文字の領域を抽出する装置であり、例えば、画像に含まれる標識または看板に描かれた文字(情景文字)を検出または認識するために利用される。文字領域抽出装置1は、画像入力手段10、矩形ストローク成分検出手段11、文字/非文字判別手段12、文字列検出手段13及び文字領域提示手段(文字領域出力手段)14を備えている。
ここで、所定幅のストロークとは、文字を構成する線成分の幅(太さ)が一定または所定範囲内のストロークをいう。例えば、ゴシック体の文字の場合、線成分の幅は大方一定であり、明朝体の文字の場合、線成分の幅は一定ではなく、文字中の線成分の位置に応じて異なる。
〔画像入力手段10〕
画像入力手段10は、文字を含む画像を入力し、当該画像を矩形ストローク成分検出手段11に出力する。例えば、画像入力手段10は、カメラ等の撮影デバイスから画像を取得し、または、ハードディスク等の記憶装置から、電子データとして保存されている画像を読み出す。
〔矩形ストローク成分検出手段11〕
矩形ストローク成分検出手段11は、画像入力手段10から画像を入力し、画像から矩形ストローク成分を検出し、矩形ストローク成分をグルーピングした文字要素候補図形等を文字/非文字判別手段12に出力する。
矩形ストローク成分とは、以下の(a)〜(c)の条件を満たす領域をいう。
(a)所定幅のストロークで構成される図形の部分領域である。
(b)その部分領域の外接矩形の一対の辺が、その図形を構成する線成分の幅(ストローク幅)と同じ長さである。
(c)その部分領域の外接矩形の各辺が、その図形の境界とそれぞれ一部重なる。
図3は、所定幅のストロークで構成される図形、矩形ストローク成分、ストローク幅、及び矩形ストローク成分の外接矩形を説明する図であり、文字「a」の例を示している。黒塗りの箇所が、所定幅のストロークで構成される図形である文字「a」であり、文字「a」の線成分の幅がストローク幅である。また、矩形ストローク成分の外接矩形内において、所定幅のストロークで構成される図形である文字「a」の部分領域が矩形ストローク成分である。
文字要素候補図形とは、文字の候補または文字を構成する要素の候補となる図形をいう。例えば、文字「H」の場合、文字要素候補図形は1つであり、文字「ル」の場合、文字要素候補図形は、「ル」の左側の文字要素及び右側の文字要素の2つである。つまり、文字要素候補図形は、一筆書きが可能な要素の図形である。
図2は、矩形ストローク成分検出手段11の構成を示すブロック図である。この矩形ストローク成分検出手段11は、ペア検出段20、ストローク検出段21及び候補設定段22を備えている。
図4は、矩形ストローク成分検出手段11の処理を示すフローチャートであり、図5は、矩形ストローク成分検出手段11の処理を説明する図である。
図4を参照して、矩形ストローク成分検出手段11のペア検出段20は、文字を含む画像を入力し(ステップS401)、画像からエッジを抽出することで、エッジ画素を検出する(ステップS402)。そして、ペア検出段20は、輝度勾配方向が180度異なる2つのエッジ画素p,q(勾配対称ペア)を検出する(ステップS403)。この場合、ペア検出段20は、輝度勾配方向が180度を基準にして所定範囲内の角度だけ異なる2つのエッジ画素p,q(勾配対称ペア)を検出するようにしてもよい。そして、ペア検出段20は、勾配対称ペアであるエッジ画素p,qの情報(画素値、位置等)をストローク検出段21に出力する。
(ステップS402:エッジ抽出処理:ペア検出段20)
図6は、エッジ抽出処理(ステップS402)の詳細を示すフローチャートである。ペア検出段20は、所定の手法(例えばCannyオペレータ)により、入力した画像からエッジを抽出することで、画素値が所定値以上に大きく変化する箇所のエッジ画素を検出する(ステップS601)。これにより、画像に含まれる文字とその周辺との間のエッジが抽出される。図5の1段目を参照して、文字「H」を含む画像の場合、例えば白抜きの「H」のエッジが抽出される。ここで、抽出されたエッジを構成する画素が、エッジ画素である。
図6に戻って、ペア検出段20は、入力した画像におけるエッジ画素pの輝度勾配方向dを算出する(ステップS602)。輝度勾配方向は、エッジ画素を中心とした周辺領域において、輝度が最も変化している方向を示す。例えば、ペア検出段20は、エッジ画素pを中心として、輝度値についてSobelフィルタを適用し、エッジ画素pにおけるx方向(横)及びy方向(縦)それぞれの1次微分の値Lx,Lyを算出し、輝度勾配方向d=arctan(Ly/Lx)を算出する。このように、ステップS602により、ステップS601にて検出された全てのエッジ画素pのそれぞれについて、輝度勾配方向dが算出される。
(ステップS403:勾配対称ペア検出処理:ペア検出段20)
図7は、勾配対称ペア検出処理(ステップS403)の詳細を示すフローチャートである。ペア検出段20は、エッジ画素pを中心として、輝度勾配方向d、及び当該輝度勾配方向dの逆方向(d−π)の2つの方向に対し、エッジ画素qを探索する(ステップS701)。エッジ画素qは、図6のステップS601にて検出したエッジ画素pの中から探索される。
ペア検出段20は、ステップS701にて探索したエッジ画素qの輝度勾配方向d及びエッジ画素pの輝度勾配方向dについて、エッジ画素pの輝度勾配方向dがエッジ画素qの輝度勾配方向dの逆方向(d−π)とほぼ同じであるか否かを判断する(ステップS702)。すなわち、ペア検出段20は、エッジ画素pの輝度勾配方向dがエッジ画素qの輝度勾配方向dの逆方向(d−π)を基準とした所定範囲内の方向にあるか否かを判定する。
ペア検出段20は、ステップS702において、エッジ画素pの輝度勾配方向dが逆方向(d−π)を基準とした所定範囲内の方向にあると判定した場合(ステップS702:Y)、エッジ画素p,qを勾配対称ペアとして検出する(ステップS703)。図5の1段目を参照して、文字「H」の場合、エッジ画素pの集合であるエッジ「H」において、検出成分a〜zのとおり、エッジ画素p,qが勾配対称ペアとして検出される。
一方、ペア検出段20は、ステップS702において、エッジ画素pの輝度勾配方向dが逆方向(d−π)を基準とした所定範囲内の方向にないと判定した場合(ステップS702:N)、勾配対称ペアを検出できなかったものと判断する(ステップS704)。このように、ステップS701〜ステップS704により、全てのエッジ画素pのそれぞれについて処理が行われ、勾配対称ペアが検出される。
(ステップS404:外接矩形検出処理:ストローク検出段21)
図4に戻って、ストローク検出段21は、ペア検出段20から勾配対称ペアであるエッジ画素p,qの情報を入力する。そして、ストローク検出段21は、ステップS403の後、勾配対称ペアであるエッジ画素p,qを結ぶ線分の中点から、その線分の垂直方向に存在する2つのエッジ画素r,sを検出し、エッジ画素p,q,r,sから矩形ストローク成分の外接矩形を検出する(ステップS404)。図3を参照して、所定幅のストロークで構成される図形が文字「a」の場合、矩形ストローク成分の外接矩形は、エッジ画素p,q,r,sを有する長方形の各辺により構成される。エッジ画素p,qの線分pqの長さがストローク幅である。
図8は、外接矩形検出処理(ステップS404)の詳細を示すフローチャートである。ストローク検出段21は、勾配対称ペアであるエッジ画素p,qを結ぶ線分pqの中点を特定し(ステップS801)、その中点から、方向(d+π/2)及び方向(d−π/2)の2つの方向へ、エッジ画素r,sを探索する(ステップS802)。
ストローク検出段21は、ステップS802の探索により、エッジ画素r,sの両画素が存在するか否かを判定する(ステップS803)。ストローク検出段21は、ステップS803において、エッジ画素r,sの両画素が存在すると判定した場合(ステップS803:Y)、エッジ画素p,qを結ぶ線分pqとエッジ画素r,sを結ぶ線分rsのそれぞれに平行な辺を持ち、かつ、エッジ画素p,q,r,sが各辺上にそれぞれ位置する矩形を、エッジ画素pを基点とした矩形ストローク成分の外接矩形として検出する(ステップS804)。図5の2段目を参照して、エッジ画素pの集合であるエッジ「H」において、検出成分a〜zのとおり、点線で示す矩形ストローク成分の外接矩形が検出される。
一方、ストローク検出段21は、ステップS803において、エッジ画素r,sの両画素の両方または一方が存在しないと判定した場合(ステップS803:N)、エッジ画素pを基点とした矩形ストローク成分の外接矩形を検出できなかったものと判断する(ステップS805)。
(ステップS405:矩形ストローク成分検出処理:ストローク検出段21)
図4に戻って、ストローク検出段21は、ステップS404の後、矩形ストローク成分の外接矩形の中心点における画素の色と近似する画素の連結部分を抽出し、この連結部分を、エッジ画素pを基点とした矩形ストローク成分として検出する(ステップS405)。また、ストローク検出段21は、エッジ画素p,qの線分pqの長さを、検出した矩形ストローク成分のストローク幅として設定する。
具体的には、ストローク検出段21は、矩形ストローク成分の外接矩形の内部に存在し、かつ、エッジ画素r,sの線分rsの中点または矩形ストローク成分の外接矩形の中心点を含み、当該中点または中心点の色が近似した画素(当該中点または中心点の画素値を基準にして所定範囲内の画素値を有する画素)の連結部分を、エッジ画素pを基点とした矩形ストローク成分として検出する。図5の3段目を参照して、検出成分a〜zのとおり、白抜きで示す矩形ストローク成分が検出される。
例えば、色が近似した画素の連結部分を計算する手法として、ストローク検出段21は、画素におけるRGBの全てのチャンネルについて、エッジ画素p,qの線分pq上及びエッジ画素r,sの線分rs上における画素値の最大値及び最小値を特定し、これらの範囲内に画素値が含まれる画素を連結する。このように、色が近似した画素の連結部分を計算する手法としては、矩形ストローク成分毎の色分布特徴を考慮するものが望ましい。これにより、明るさによって画素の色が微妙に異なる場合であっても、矩形ストローク成分を精度高く検出することができる。
尚、ストローク検出段21は、矩形ストローク成分の外接矩形の内部に存在し、かつ、エッジ画素p,qの線分pqの中点を含み、当該中点の色が近似した画素(当該中点の画素値を基準にして所定範囲内の画素値を有する画素)の連結部分を、エッジ画素pを基点とした矩形ストローク成分として検出するようにしてもよい。
ここで、ストローク検出段21は、矩形ストローク成分の外接矩形に対する矩形ストローク成分の面積の割合が低いものを除外する。具体的には、ストローク検出段21は、矩形ストローク成分の外接矩形の面積及び矩形ストローク成分の面積を算出し、矩形ストローク成分の外接矩形の面積に対する矩形ストローク成分の占める割合を算出し、その割合がパラメータtよりも小さい場合、その矩形ストローク成分は誤検出であるとみなして除外する。ここで、パラメータtは0.75程度が好ましい。ストローク検出段21は、前述の除外処理後の矩形ストローク成分及びそのストローク幅の情報を候補設定段22に出力する。
これにより、矩形ストローク成分の外接矩形の面積に対する矩形ストローク成分の占める割合が小さい場合、その矩形ストローク成分が除外されるから、ストローク幅の比較的長い矩形ストローク成分が除外される。したがって、精度の高いストローク幅を有する矩形ストローク成分のみが残される。図5の3段目を参照して、検出成分a〜zのうち、ストローク幅の長い検出成分zが除外される。
文字領域抽出装置1は、ペア検出段20によるステップS402及びステップS403の処理、並びにストローク検出段21によるステップS404及びステップS405の処理を、ステップS402にて検出された全てのエッジ画素pについて行う。
(ステップS406:グルーピング及びフィルタリング処理:候補設定段22)
候補設定段22は、ストローク検出段21から矩形ストローク成分及びそのストローク幅の情報を入力し、共通の画素を有する矩形ストローク成分同士をグルーピングし、そのグループの中でストローク幅が外れ値となる矩形ストローク成分を除外することで、矩形ストローク成分をフィルタリングする(ステップS406)。つまり、候補設定段22は、ペア検出段20によりステップS402にて検出された全てのエッジ画素pにつきステップS403〜ステップS405の処理がされた後、それぞれのエッジ画素pを基点とした矩形ストローク成分について、グルーピング及びフィルタリングを行う。
ここで、共通の画素を有する矩形ストローク成分同士とは、1以上の共通の画素を有して重なっている矩形ストローク成分の集合をいう。候補設定段22は、グルーピングの際に、共通の画素を有する矩形ストローク成分の集合を求め、その集合に属する矩形ストローク成分と共通の画素を有する矩形ストローク成分の他の集合を順次求め、これらの集合を1グループとするようにグルーピングを行う。共通の画素を有する矩形ストローク成分が連鎖する場合は、連鎖した全ての矩形ストローク成分が1つのグループにグルーピングされる。例えば、矩形ストローク成分A,B,Cにおいて、矩形ストローク成分A,Bに含まれる画素αが共通し(矩形ストローク成分A,Bの一部が重なっており)、矩形ストローク成分B,Cに含まれる画素βが共通し(矩形ストローク成分B,Cの一部が重なっており)、矩形ストローク成分A,Cには共通の画素が存在しない(矩形ストローク成分A,Cが重なっていない)場合、矩形ストローク成分A,Bと矩形ストローク成分B,Cは、共通の画素α,βをそれぞれ基点として連鎖しており、矩形ストローク成分A,B,Cは、1つのグループにグルーピングされる。この場合、矩形ストローク成分A,B,Cは、共通の画素を有する矩形ストローク成分同士である。
共通の画素を有する矩形ストローク成分同士をグルーピングすることにより、一筆書きが可能な文字要素毎のグループが設定される。例えば、文字「H」の場合、1つのグループが設定され、文字「ル」の場合、2つのグループが設定される。そして、このグループ毎に、後述する文字要素候補図形が設定される。
例えば、候補設定段22は、フィルタリングの際に、グループに属する矩形ストローク成分のストローク幅の値を昇順に並べたリストを作成し、n番目の値とn+1番目の値の差が、n番目の値のx(例えばx=0.2)倍より大きくなっている箇所を判断し、その箇所でリストを区切る。nは1以上の整数である。そして、候補設定段22は、区切ったリストのうち、最も長いリストに含まれる値の最大値と最小値を特定し、元のリストの中から、最大値及び最小値の範囲外の値を外れ値として判断する。尚、候補設定段22は、ストローク幅の分散a及び平均bを算出し、平均bからx×a(例えばx=2)以上離れている値を外れ値として判断するようにしてもよいし、Local Outlier Factor(LOF)法等を用いるようにしてもよい。
これにより、ストローク幅の値が所定範囲外の外れ値となる矩形ストローク成分が除外されるから、ストローク幅の比較的長い矩形ストローク成分が除外される。したがって、精度の高いストローク幅を有する矩形ストローク成分のみが残される。図5の4段目を参照して、検出成分a〜yのうち、ストローク幅の長い検出成分yが除外される。
このような、ストローク幅が外れ値となる矩形ストローク成分を除外するフィルタリング処理は必ずしも必要ではないが、精度の低いストローク幅を有する矩形ストローク成分を除外できる点で有効である。
(ステップS407:文字要素候補図形出力処理:候補設定段22)
候補設定段22は、ステップS406の後、グループ毎に、当該グループに属する、外れ値が除外された後に残された複数の矩形ストローク成分を結合し、結合した矩形ストローク成分を文字要素候補図形として設定する。そして、候補設定段22は、文字要素候補図形、及び文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字/非文字判別手段12に出力する(ステップS407)。図5の4段目を参照して、文字「H」の場合、検出成分a〜zのうち、検出成分y,zが除外された検出成分a〜xを結合した1つの文字要素候補図形が設定される。
〔文字/非文字判別手段12〕
図1に戻って、文字/非文字判別手段12は、矩形ストローク成分検出手段11から、グループ毎の文字要素候補図形等を入力し、文字要素候補図形の文字らしさ(文字要素らしさ)を判定し、文字らしくない非文字の文字要素候補図形を除外し、文字らしい文字要素候補図形を判別する。そして、文字/非文字判別手段12は、文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字列検出手段13に出力する。
尚、以下の計算処理において、距離、面積等は、画素間のユークリッド距離に基づいて、すなわち画素数を長さとして算出されるものとする。後述する文字列検出手段13においても同様である。
例えば、文字要素候補図形の文字らしさの判定手法として、文字要素候補図形が有する矩形ストローク成分の個数を利用する(第1−1の判定手法)。文字/非文字判別手段12は、文字要素候補図形に属する矩形ストローク成分の個数を、文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定のパラメータtを超える場合、その文字要素候補図形は文字らしいと判定する。一方、文字/非文字判別手段12は、除算結果の値が所定のパラメータt以下の場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータtは0.1程度が望ましい。文字要素候補図形の外接矩形の面積は、図4のステップS407の例では、文字要素候補図形「H」を含む長方形の面積をいう。
この第1−1の判定手法によれば、文字要素候補図形の外接矩形の面積を基準にして、文字要素候補図形に属する矩形ストローク成分の個数が少ない場合、または、文字要素候補図形に属する矩形ストローク成分の個数を基準にして、文字要素候補図形の外接矩形の面積が大きい場合、その文字要素候補図形は、文字らしくないと判定されて除外される。
また、文字要素候補図形の文字らしさの判定手法として、文字要素候補図形に属する矩形ストローク成分のストローク幅の値を利用する(第1−2の判定手法)。文字/非文字判別手段12は、文字要素候補図形に属する全ての矩形ストローク成分のストローク幅の平均値を算出し、算出結果の平均ストローク幅に対し、文字要素候補図形の外接円の直径がパラメータt倍を超えない場合、その文字要素候補図形は文字らしいと判定する。一方、文字/非文字判別手段12は、算出結果の平均ストローク幅に対し、文字要素候補図形の外接円の直径がパラメータt倍を超える場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータtは20程度が望ましい。
また、文字要素候補図形の文字らしさの判定手法として、一般的な文字の幾何学的特徴を利用する(第1−3の判定手法)。文字/非文字判別手段12は、文字要素候補図形のアスペクト比を算出し、そのアスペクト比がパラメータtよりも小さく、かつ、1/tを超える場合、その文字要素候補図形は文字らしいと判定する。一方、文字/非文字判別手段12は、そのアスペクト比がパラメータt以上である場合、または、そのアスペクト比が1/t以下である場合、その文字要素候補図形は文字らしくないと判定し、その文字要素候補図形を除外する。ここで、パラメータtは10程度が望ましい。
これにより、矩形ストローク成分検出手段11により設定された文字要素候補図形のうち、文字らしくない文字要素候補図形が除外される。したがって、文字の検出精度を高めることができる。
尚、前述の第1−1の判定手法、第1−2の判定手法及び第1−3の判定手法のうちの2以上の判定手法を組み合わせることにより、文字らしくない文字要素候補図形を精度高く除外することができる。したがって、文字の検出精度を一層高めることができる。
〔文字列検出手段13〕
文字列検出手段13は、文字/非文字判別手段12から、文字らしい文字要素候補図形等を入力し、文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する。そして、文字列検出手段13は、文字列らしい文字要素候補図形群、及び文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅等、並びに、文字/非文字判別手段12から入力した文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字領域提示手段14に出力する。
例えば、文字列らしさの判定手法として、文字要素候補図形が有する矩形ストローク成分のストローク幅の値を利用する(第2−1の判定手法)。文字列検出手段13は、ある2つの文字要素候補図形の平均ストローク幅の比率を算出し、その比率がパラメータtよりも小さく、かつ、1/tを超える場合、これらの2つの文字要素候補図形は同じ文字列に属する(文字列らしい)と判定する。一方、文字列検出手段13は、その比率がパラメータt以上の場合、または1/t以下の場合、これらの2つの文字要素候補図形は同じ文字列に属さない(文字列らしくない)と判定する。ここで、パラメータtは1.5程度が望ましい。
また、文字列らしさの判定手法として、文字要素候補図形の色の特徴を利用する(第2−2の判定手法)。文字列検出手段13は、ある2つの文字要素候補図形のそれぞれについて画素値の範囲を求め、2つの文字要素候補図形における画素値の全体範囲及び共通範囲を算出する。そして、文字列検出手段13は、2つの文字要素候補図形における画素値の全体範囲に対する共通範囲の割合を算出し、その割合がパラメータtを超える場合(共通範囲の割合が高い場合)、これらの2つの文字要素候補図形は同じ文字列に属する(文字列らしい)と判定する。一方、文字列検出手段13は、その割合がパラメータt以下の場合(共通範囲の割合が低い場合)、これらの2つの文字要素候補図形は同じ文字列に属さない(文字列らしくない)と判定する。ここで、パラメータtは0.7程度が望ましい。
また、文字列らしさの判定手法として、一般的な文字列の幾何学的特徴を利用する(第2−3の判定手法)。文字列検出手段13は、ある2つの文字要素候補図形の高さ及び幅、並びにそれらの高さの比率を算出し、2つの文字要素候補図形間の距離を算出する。そして、文字列検出手段13は、その比率がパラメータtよりも小さく、かつ1/tを超えており(高さの差が所定値以下であり)、さらに、2つの文字要素候補図形間の距離が、より広い幅を持つ方の幅のパラメータt倍よりも小さい(幅の差が所定値以下である)場合、これらの2つの文字要素候補図形は同じ文字列に属する(文字列らしい)と判定する。一方、文字列検出手段13は、前述の条件を満たさない場合、これらの2つの文字要素候補図形は同じ文字列に属さない(文字列らしくない)と判定する。ここで、パラメータtは5程度、パラメータtは2程度が望ましい。
また、第2−3の判定手法の他の例として、文字列検出手段13は、ある3つの文字要素候補図形A,B,Cにおいて、文字要素候補図形A,B,Cの重心を求め、文字要素候補図形A,Bの重心間を結ぶ線分の方向と文字要素候補図形B,Cの重心間を結ぶ線分の方向との間の差を算出する。そして、文字列検出手段13は、その差がパラメータt以下の場合、これらの2つの文字要素候補図形は同じ文字列に属する(文字列らしい)と判定する。一方、文字列検出手段13は、その差がパラメータtを超える場合、これらの2つの文字要素候補図形は同じ文字列に属さない(文字列らしくない)と判定する。ここで、パラメータtはπ/6(ラジアン)程度が望ましい。
これにより、文字/非文字判別手段12により判別された文字らしい文字要素候補図形のうち、文字列らしい文字要素候補図形群が検出される。したがって、文字列の検出精度を高めることができる。
尚、前述の第2−1の判定手法、第2−2の判定手法及び第2−3の判定手法のうちの2以上の判定手法を組み合わせることにより、文字列らしい文字要素候補図形群を精度高く検出することができる。したがって、文字列の検出精度を一層高めることができる。
〔文字領域提示手段14〕
文字領域提示手段14は、文字列検出手段13から、文字らしい文字要素候補図形等、及び文字列らしい文字要素候補図形群等を入力する。そして、文字領域提示手段14は、画像入力手段10が入力した画像から、文字らしい文字要素候補図形を含む領域を切り出し、切り出した領域の画像(切り出し画像)、その位置情報、及び、文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示(出力)する。この場合、画像入力手段10が入力した画像における切り出し画像の位置は、矩形ストローク成分検出手段11にて認識することができる。文字領域提示手段14は、その位置情報を、矩形ストローク成分検出手段11から文字/非文字判別手段12及び文字列検出手段13を介して入力し、切り出し位置を特定する。
また、文字領域提示手段14は、画像入力手段10が入力した画像から、文字列らしい文字要素候補図形群を含む領域を切り出し、切り出した領域の画像(切り出し画像)、その位置情報、及び、文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示する。切り出し画像の位置については、前述と同様である。
尚、文字領域提示手段14は、画像入力手段10が入力した画像に対し、文字らしい文字要素候補図形を含む矩形を文字の外接矩形として描画し、文字の外接矩形を描画した画像、文字の外接矩形の位置情報、及び、文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示するようにしてもよい。また、文字領域提示手段14は、画像入力手段10が入力した画像に対し、文字列らしい文字要素候補図形群を含む矩形を文字列の外接矩形として描画し、文字列の外接矩形を描画した画像、文字列の外接矩形の位置情報、及び、文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示するようにしてもよい。この場合、画像入力手段10が入力した画像における文字または文字列の外接矩形の描画位置は、矩形ストローク成分検出手段11にて認識された文字要素候補図形の位置情報に基づいて決定される。文字領域提示手段14は、その位置情報を、矩形ストローク成分検出手段11から文字/非文字判別手段12及び文字列検出手段13を介して入力し、描画位置を決定する。
さらに、文字領域提示手段14は、文字らしい文字要素候補図形、すなわち矩形ストローク成分を結合した線画像(背景から分離された文字部分のみの画像)及びその位置情報を、後段の装置へ提示するようにしてもよい。また、文字領域提示手段14は、文字列らしい文字要素候補図形群、すなわち矩形ストローク成分を結合した複数の線画像及びその位置情報を、後段の装置へ提示するようにしてもよい。
ここで、文字らしい文字要素候補図形の位置情報は、画像入力手段10が入力した画像内において、文字を構成する線の座標位置を示す情報であり、矩形ストローク成分検出手段11により文字要素候補図形が設定された際に、当該文字らしい文字要素候補図形の位置情報が特定される。また、文字列らしい文字要素候補図形の位置情報は、画像入力手段10が入力した画像内において、文字列を構成する線の座標位置を示す情報である。この位置情報は、矩形ストローク成分検出手段11により文字要素候補図形が設定された際に、文字列を構成する1文字の文字要素候補図形の位置情報が特定され、そして、文字列検出手段13により文字列らしい文字要素候補図形群が検出された際に、当該文字列らしい文字要素候補図形群の位置情報が特定される。
図9(1)は、画像入力手段10が入力した、文字を含む画像の例を示す図であり、図9(2)は、文字の外接矩形の例を示す図であり、図9(3)は、文字列の外接矩形の例を示す図である。例えば、文字領域提示手段14は、図9(1)に示す画像に対し、文字らしい文字要素候補図形を含む矩形を文字の外接矩形として描画し、図9(2)に示す画像を提示する。図9(2)において、「W」「H」「Y」等の周りに描画された矩形が文字の外接矩形である。
また、文字領域提示手段14は、図9(1)に示す画像に対し、文字列らしい文字要素候補図形群を含む矩形を文字列の外接矩形として描画し、図9(3)に示す画像を提示する。図9(3)において、「WHY HURRY?」等の周りに描画された矩形が文字列の外接矩形である。
後段の装置は、例えば、文字認識機能を有する装置、当該文字認識機能が文字を認識しやすいように、画像から文字領域を2値化して切り出す文字切り出し機能を有する装置である。
この場合、文字領域提示手段14は、後段の装置がこのような機能を実現するために必要な文字領域の情報として、例えば、文字らしい文字要素候補図形を含む領域の切り出し画像、文字列らしい文字要素候補図形群を含む領域の切り出し画像を、画像入力手段10が入力した画像から抽出し、提示する。
以上のように、本発明の実施形態の文字領域抽出装置1によれば、矩形ストローク成分検出手段11のペア検出段20は、画像からエッジ画素pを抽出し、輝度勾配方向が180度を基準にして所定範囲内の角度の異なる2つのエッジ画素p,qを勾配対称ペアとして検出する。そして、ストローク検出段21は、勾配対称ペアであるエッジ画素p,qを結ぶ線分の中点から、その線分の垂直方向に存在する2つのエッジ画素r,sを検出し、矩形ストローク成分の外接矩形を検出し、矩形ストローク成分の外接矩形の中心点等における画素の色と近似する画素の連結部分を抽出し、この連結部分を矩形ストローク成分として検出する。そして、候補設定段22は、共通の画素を有する矩形ストローク成分同士をグルーピングし、そのグループの中でストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、当該グループに属する矩形ストローク成分を結合し、結合した矩形ストローク成分を文字要素候補図形として設定する。
文字/非文字判別手段12は、文字要素候補図形の文字らしさ(文字要素らしさ)を判定し、文字らしくない文字要素候補図形を除外し、文字列検出手段13は、文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する。そして、文字領域提示手段14は、文字らしい文字要素候補図形を含む切り出し画像及びその位置情報、文字列らしい文字要素候補図形群を含む切り出し画像及びその位置情報等を、後段の装置へ提示する。
このように、本発明の実施形態では、画像に含まれる画素が、矩形ストローク成分の面内に含まれていれば、その画素を含むように文字要素候補図形が設定される。したがって、本発明は、勾配対称ペアを結ぶ線分上の画素のみを候補図形として設定する従来技術よりも、文字を構成する画素を文字要素候補図形に一層含めることができるから、当該文字要素候補図形は文字らしくなり、結果として、文字領域の抽出精度を高くすることができる。特に、勾配対称ペアが少ない文字を検出する場合に有効となる。また、勾配対称ペアが少ない文字を検出する場合に、従来技術では、非文字を文字として検出するいわゆる誤検出が多かったが、本発明の実施形態では、これを減らすことができる。
図10は、本発明の実施形態により検出された文字の例を示す図である。文字「W」は、勾配対称ペアが少ない文字である。図10に示す文字「W」と図11(2)に示した従来技術の非特許文献1の手法により検出された文字「W」とを比較すると、図10に示す文字「W」の方が、より文字らしい形状の図形であることがわかる。結果として、本発明の実施形態は、従来技術よりも文字領域の抽出精度が高くなる。
これにより、本発明の実施形態によれば、画像から文字領域を抽出する際に、勾配対称ペアが少ない文字の領域の抽出精度を高めることが可能となる。また、抽出した文字領域において、文字のストローク幅の値の精度を向上させることができる。
本発明の実施形態による文字領域抽出装置1は、画像の文字認識に利用可能であり、映像の管理、検索、分析等を行う際に有効である。
尚、本発明の実施形態による文字領域抽出装置1のハードウェア構成としては、通常のコンピュータを使用することができる。文字領域抽出装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文字領域抽出装置1に備えた画像入力手段10、矩形ストローク成分検出手段11(ペア検出段20、ストローク検出段21及び候補設定段22)、文字/非文字判別手段12、文字列検出手段13及び文字領域提示手段14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 文字領域抽出装置
10 画像入力手段
11 矩形ストローク成分検出手段
12 文字/非文字判別手段
13 文字列検出手段
14 文字領域提示手段
20 ペア検出段
21 ストローク検出段
22 候補設定段

Claims (6)

  1. 画像から文字を含む文字領域を抽出する文字領域抽出装置において、
    前記画像から前記文字のエッジ画素を検出し、前記エッジ画素に基づいて、前記文字の部分領域を矩形ストローク成分として検出し、複数の前記矩形ストローク成分を結合して文字要素候補図形を設定する矩形ストローク成分検出手段と、
    前記矩形ストローク成分検出手段により設定された文字要素候補図形の文字らしさを判定し、文字らしくない非文字の文字要素候補図形を除外して文字らしい文字要素候補図形を判別する文字/非文字判別手段と、
    前記文字/非文字判別手段により判別された文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する文字列検出手段と、
    前記文字/非文字判別手段により判別された文字らしい文字要素候補図形に関する情報、または前記文字列検出手段により検出された文字列らしい文字要素候補図形群に関する情報を、前記文字領域として出力する文字領域出力手段と、を備え、
    前記矩形ストローク成分検出手段は、
    前記画像から前記文字のエッジ画素を検出し、輝度勾配方向が180度を基準にして所定範囲内の角度の異なる2つの第1及び第2のエッジ画素を勾配対称ペアとして検出し、前記勾配対称ペアである前記第1及び第2のエッジ画素を結ぶ線分の中点から、当該線分の垂直方向に存在する2つの第3及び第4のエッジ画素を検出するペア検出段と、
    前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記矩形ストローク成分の外接矩形内の画素から、前記矩形ストローク成分の外接矩形の中心点における画素の画素値に対し、所定範囲内の画素値を有する画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出するストローク検出段と、
    前記ストローク検出段により検出された複数の矩形ストローク成分のうち、共通の画素を有する矩形ストローク成分同士をグルーピングし、前記グルーピングしたグループ毎に、当該グループに属する複数の矩形ストローク成分を結合し、文字要素候補図形を設定する候補設定段と、を有することを特徴とする文字領域抽出装置。
  2. 請求項1に記載の文字領域抽出装置において、
    前記矩形ストローク成分検出手段のストローク検出段に代わる新たなストローク検出段は、
    前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記第1及び第2のエッジ画素の線分上及び前記第3及び第4のエッジ画素の線分上における画素値の最大値及び最小値を特定し、前記矩形ストローク成分の外接矩形内の画素から、前記最大値から前記最小値までの範囲内に画素値が含まれる画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出する、ことを特徴とする文字領域抽出装置。
  3. 請求項1または2に記載の文字領域抽出装置において、
    前記矩形ストローク成分検出手段のストローク検出段は、
    前記検出した矩形ストローク成分について、前記矩形ストローク成分の外接矩形に対する前記矩形ストローク成分の面積の割合が所定値よりも小さい場合、当該矩形ストローク成分を除外する、ことを特徴とする文字領域抽出装置。
  4. 請求項1から3までのいずれか一項に記載の文字領域抽出装置において、
    前記矩形ストローク成分検出手段の候補設定段は、
    前記グルーピングしたグループの中で、前記第1のエッジ画素と前記第2のエッジ画素との間の距離をストローク幅とした場合に、前記ストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、前記除外した後に残された複数の矩形ストローク成分を結合し、文字要素候補図形を設定する、ことを特徴とする文字領域抽出装置。
  5. 請求項1から4までのいずれか一項に記載の文字領域抽出装置において、
    前記文字/非文字判別手段は、
    前記矩形ストローク成分検出手段により設定された文字要素候補図形における前記矩形ストローク成分の個数を、前記文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定値を超える場合、前記文字要素候補図形は文字らしいと判定し、前記除算結果の値が前記所定値以下の場合、前記文字要素候補図形は文字らしくないと判定する、ことを特徴とする文字領域抽出装置。
  6. コンピュータを、請求項1から5までのいずれか一項に記載の文字領域抽出装置として機能させるための文字領域抽出プログラム。
JP2015032481A 2015-02-23 2015-02-23 文字領域抽出装置及びプログラム Expired - Fee Related JP6468880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015032481A JP6468880B2 (ja) 2015-02-23 2015-02-23 文字領域抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015032481A JP6468880B2 (ja) 2015-02-23 2015-02-23 文字領域抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016157155A JP2016157155A (ja) 2016-09-01
JP6468880B2 true JP6468880B2 (ja) 2019-02-13

Family

ID=56826136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015032481A Expired - Fee Related JP6468880B2 (ja) 2015-02-23 2015-02-23 文字領域抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6468880B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363668B (zh) * 2023-05-31 2023-08-29 山东一品文化传媒有限公司 一种图书智能校对方法及系统

Also Published As

Publication number Publication date
JP2016157155A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
US9430704B2 (en) Image processing system with layout analysis and method of operation thereof
JP4928310B2 (ja) ナンバープレート認識装置、その制御方法、コンピュータプログラム
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
US9076056B2 (en) Text detection in natural images
US7813553B2 (en) Image region detection method, recording medium, and device therefor
Sharma et al. A new method for arbitrarily-oriented text detection in video
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
JP6352695B2 (ja) 文字検出装置、方法およびプログラム
Huang et al. Automatic detection and localization of natural scene text in video
CN108154151B (zh) 一种快速多方向文本行检测方法
KR101742115B1 (ko) 건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법
KR20130028610A (ko) 실시간 차선 검출 장치 및 방법과 이에 관한 기록매체
JP2010134535A (ja) 画像検出装置及び画像検出方法
Giri Text information extraction and analysis from images using digital image processing techniques
JP6468880B2 (ja) 文字領域抽出装置及びプログラム
Jeong et al. Multi language text detection using fast stroke width transform
JP2011087144A (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP2017211976A (ja) 画像処理装置及び画像処理プログラム
Sharma et al. A new method for character segmentation from multi-oriented video words
KR100606404B1 (ko) 컬러코드 이미지 검출 방법 및 장치
JP5857634B2 (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
JP2005250786A (ja) 画像認識方法
Shivakumara et al. A new Laplacian method for arbitrarily-oriented word segmentation in video
Tian et al. A new algorithm for license plate localization in open environment using color pair and stroke width features of character

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190115

R150 Certificate of patent or registration of utility model

Ref document number: 6468880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees