JP6468880B2 - 文字領域抽出装置及びプログラム - Google Patents
文字領域抽出装置及びプログラム Download PDFInfo
- Publication number
- JP6468880B2 JP6468880B2 JP2015032481A JP2015032481A JP6468880B2 JP 6468880 B2 JP6468880 B2 JP 6468880B2 JP 2015032481 A JP2015032481 A JP 2015032481A JP 2015032481 A JP2015032481 A JP 2015032481A JP 6468880 B2 JP6468880 B2 JP 6468880B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- stroke
- rectangular
- element candidate
- rectangular stroke
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Analysis (AREA)
Description
図1は、本発明の実施形態による文字領域抽出装置の構成を示すブロック図である。この文字領域抽出装置1は、入力した画像から所定幅のストロークで構成される図形である文字の領域を抽出する装置であり、例えば、画像に含まれる標識または看板に描かれた文字(情景文字)を検出または認識するために利用される。文字領域抽出装置1は、画像入力手段10、矩形ストローク成分検出手段11、文字/非文字判別手段12、文字列検出手段13及び文字領域提示手段(文字領域出力手段)14を備えている。
画像入力手段10は、文字を含む画像を入力し、当該画像を矩形ストローク成分検出手段11に出力する。例えば、画像入力手段10は、カメラ等の撮影デバイスから画像を取得し、または、ハードディスク等の記憶装置から、電子データとして保存されている画像を読み出す。
矩形ストローク成分検出手段11は、画像入力手段10から画像を入力し、画像から矩形ストローク成分を検出し、矩形ストローク成分をグルーピングした文字要素候補図形等を文字/非文字判別手段12に出力する。
(a)所定幅のストロークで構成される図形の部分領域である。
(b)その部分領域の外接矩形の一対の辺が、その図形を構成する線成分の幅(ストローク幅)と同じ長さである。
(c)その部分領域の外接矩形の各辺が、その図形の境界とそれぞれ一部重なる。
図6は、エッジ抽出処理(ステップS402)の詳細を示すフローチャートである。ペア検出段20は、所定の手法(例えばCannyオペレータ)により、入力した画像からエッジを抽出することで、画素値が所定値以上に大きく変化する箇所のエッジ画素を検出する(ステップS601)。これにより、画像に含まれる文字とその周辺との間のエッジが抽出される。図5の1段目を参照して、文字「H」を含む画像の場合、例えば白抜きの「H」のエッジが抽出される。ここで、抽出されたエッジを構成する画素が、エッジ画素である。
図7は、勾配対称ペア検出処理(ステップS403)の詳細を示すフローチャートである。ペア検出段20は、エッジ画素pを中心として、輝度勾配方向dp、及び当該輝度勾配方向dpの逆方向(dp−π)の2つの方向に対し、エッジ画素qを探索する(ステップS701)。エッジ画素qは、図6のステップS601にて検出したエッジ画素pの中から探索される。
図4に戻って、ストローク検出段21は、ペア検出段20から勾配対称ペアであるエッジ画素p,qの情報を入力する。そして、ストローク検出段21は、ステップS403の後、勾配対称ペアであるエッジ画素p,qを結ぶ線分の中点から、その線分の垂直方向に存在する2つのエッジ画素r,sを検出し、エッジ画素p,q,r,sから矩形ストローク成分の外接矩形を検出する(ステップS404)。図3を参照して、所定幅のストロークで構成される図形が文字「a」の場合、矩形ストローク成分の外接矩形は、エッジ画素p,q,r,sを有する長方形の各辺により構成される。エッジ画素p,qの線分pqの長さがストローク幅である。
図4に戻って、ストローク検出段21は、ステップS404の後、矩形ストローク成分の外接矩形の中心点における画素の色と近似する画素の連結部分を抽出し、この連結部分を、エッジ画素pを基点とした矩形ストローク成分として検出する(ステップS405)。また、ストローク検出段21は、エッジ画素p,qの線分pqの長さを、検出した矩形ストローク成分のストローク幅として設定する。
候補設定段22は、ストローク検出段21から矩形ストローク成分及びそのストローク幅の情報を入力し、共通の画素を有する矩形ストローク成分同士をグルーピングし、そのグループの中でストローク幅が外れ値となる矩形ストローク成分を除外することで、矩形ストローク成分をフィルタリングする(ステップS406)。つまり、候補設定段22は、ペア検出段20によりステップS402にて検出された全てのエッジ画素pにつきステップS403〜ステップS405の処理がされた後、それぞれのエッジ画素pを基点とした矩形ストローク成分について、グルーピング及びフィルタリングを行う。
候補設定段22は、ステップS406の後、グループ毎に、当該グループに属する、外れ値が除外された後に残された複数の矩形ストローク成分を結合し、結合した矩形ストローク成分を文字要素候補図形として設定する。そして、候補設定段22は、文字要素候補図形、及び文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字/非文字判別手段12に出力する(ステップS407)。図5の4段目を参照して、文字「H」の場合、検出成分a〜zのうち、検出成分y,zが除外された検出成分a〜xを結合した1つの文字要素候補図形が設定される。
図1に戻って、文字/非文字判別手段12は、矩形ストローク成分検出手段11から、グループ毎の文字要素候補図形等を入力し、文字要素候補図形の文字らしさ(文字要素らしさ)を判定し、文字らしくない非文字の文字要素候補図形を除外し、文字らしい文字要素候補図形を判別する。そして、文字/非文字判別手段12は、文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字列検出手段13に出力する。
文字列検出手段13は、文字/非文字判別手段12から、文字らしい文字要素候補図形等を入力し、文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する。そして、文字列検出手段13は、文字列らしい文字要素候補図形群、及び文字列らしい文字要素候補図形群に属する矩形ストローク成分毎のストローク幅等、並びに、文字/非文字判別手段12から入力した文字らしい文字要素候補図形、及び文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅等を文字領域提示手段14に出力する。
文字領域提示手段14は、文字列検出手段13から、文字らしい文字要素候補図形等、及び文字列らしい文字要素候補図形群等を入力する。そして、文字領域提示手段14は、画像入力手段10が入力した画像から、文字らしい文字要素候補図形を含む領域を切り出し、切り出した領域の画像(切り出し画像)、その位置情報、及び、文字らしい文字要素候補図形に属する矩形ストローク成分毎のストローク幅を、文字領域の情報として後段の装置へ提示(出力)する。この場合、画像入力手段10が入力した画像における切り出し画像の位置は、矩形ストローク成分検出手段11にて認識することができる。文字領域提示手段14は、その位置情報を、矩形ストローク成分検出手段11から文字/非文字判別手段12及び文字列検出手段13を介して入力し、切り出し位置を特定する。
10 画像入力手段
11 矩形ストローク成分検出手段
12 文字/非文字判別手段
13 文字列検出手段
14 文字領域提示手段
20 ペア検出段
21 ストローク検出段
22 候補設定段
Claims (6)
- 画像から文字を含む文字領域を抽出する文字領域抽出装置において、
前記画像から前記文字のエッジ画素を検出し、前記エッジ画素に基づいて、前記文字の部分領域を矩形ストローク成分として検出し、複数の前記矩形ストローク成分を結合して文字要素候補図形を設定する矩形ストローク成分検出手段と、
前記矩形ストローク成分検出手段により設定された文字要素候補図形の文字らしさを判定し、文字らしくない非文字の文字要素候補図形を除外して文字らしい文字要素候補図形を判別する文字/非文字判別手段と、
前記文字/非文字判別手段により判別された文字らしい文字要素候補図形をグルーピングし、文字列らしさを判定し、文字列らしい文字要素候補図形群を検出する文字列検出手段と、
前記文字/非文字判別手段により判別された文字らしい文字要素候補図形に関する情報、または前記文字列検出手段により検出された文字列らしい文字要素候補図形群に関する情報を、前記文字領域として出力する文字領域出力手段と、を備え、
前記矩形ストローク成分検出手段は、
前記画像から前記文字のエッジ画素を検出し、輝度勾配方向が180度を基準にして所定範囲内の角度の異なる2つの第1及び第2のエッジ画素を勾配対称ペアとして検出し、前記勾配対称ペアである前記第1及び第2のエッジ画素を結ぶ線分の中点から、当該線分の垂直方向に存在する2つの第3及び第4のエッジ画素を検出するペア検出段と、
前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記矩形ストローク成分の外接矩形内の画素から、前記矩形ストローク成分の外接矩形の中心点における画素の画素値に対し、所定範囲内の画素値を有する画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出するストローク検出段と、
前記ストローク検出段により検出された複数の矩形ストローク成分のうち、共通の画素を有する矩形ストローク成分同士をグルーピングし、前記グルーピングしたグループ毎に、当該グループに属する複数の矩形ストローク成分を結合し、文字要素候補図形を設定する候補設定段と、を有することを特徴とする文字領域抽出装置。 - 請求項1に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段のストローク検出段に代わる新たなストローク検出段は、
前記ペア検出段により検出された第1、第2、第3及び第4のエッジ画素に基づいて、前記矩形ストローク成分の外接矩形を検出し、前記第1及び第2のエッジ画素の線分上及び前記第3及び第4のエッジ画素の線分上における画素値の最大値及び最小値を特定し、前記矩形ストローク成分の外接矩形内の画素から、前記最大値から前記最小値までの範囲内に画素値が含まれる画素の連結部分を抽出し、前記連結部分を、前記第1のエッジ画素を基点とした前記矩形ストローク成分として検出する、ことを特徴とする文字領域抽出装置。 - 請求項1または2に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段のストローク検出段は、
前記検出した矩形ストローク成分について、前記矩形ストローク成分の外接矩形に対する前記矩形ストローク成分の面積の割合が所定値よりも小さい場合、当該矩形ストローク成分を除外する、ことを特徴とする文字領域抽出装置。 - 請求項1から3までのいずれか一項に記載の文字領域抽出装置において、
前記矩形ストローク成分検出手段の候補設定段は、
前記グルーピングしたグループの中で、前記第1のエッジ画素と前記第2のエッジ画素との間の距離をストローク幅とした場合に、前記ストローク幅が外れ値となる矩形ストローク成分を除外し、グループ毎に、前記除外した後に残された複数の矩形ストローク成分を結合し、文字要素候補図形を設定する、ことを特徴とする文字領域抽出装置。 - 請求項1から4までのいずれか一項に記載の文字領域抽出装置において、
前記文字/非文字判別手段は、
前記矩形ストローク成分検出手段により設定された文字要素候補図形における前記矩形ストローク成分の個数を、前記文字要素候補図形の外接矩形の面積で除算し、除算結果の値が所定値を超える場合、前記文字要素候補図形は文字らしいと判定し、前記除算結果の値が前記所定値以下の場合、前記文字要素候補図形は文字らしくないと判定する、ことを特徴とする文字領域抽出装置。 - コンピュータを、請求項1から5までのいずれか一項に記載の文字領域抽出装置として機能させるための文字領域抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015032481A JP6468880B2 (ja) | 2015-02-23 | 2015-02-23 | 文字領域抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015032481A JP6468880B2 (ja) | 2015-02-23 | 2015-02-23 | 文字領域抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016157155A JP2016157155A (ja) | 2016-09-01 |
JP6468880B2 true JP6468880B2 (ja) | 2019-02-13 |
Family
ID=56826136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015032481A Expired - Fee Related JP6468880B2 (ja) | 2015-02-23 | 2015-02-23 | 文字領域抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6468880B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363668B (zh) * | 2023-05-31 | 2023-08-29 | 山东一品文化传媒有限公司 | 一种图书智能校对方法及系统 |
-
2015
- 2015-02-23 JP JP2015032481A patent/JP6468880B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016157155A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9430704B2 (en) | Image processing system with layout analysis and method of operation thereof | |
JP4928310B2 (ja) | ナンバープレート認識装置、その制御方法、コンピュータプログラム | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US9076056B2 (en) | Text detection in natural images | |
US7813553B2 (en) | Image region detection method, recording medium, and device therefor | |
Sharma et al. | A new method for arbitrarily-oriented text detection in video | |
US10748023B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
US9171224B2 (en) | Method of improving contrast for text extraction and recognition applications | |
JP6352695B2 (ja) | 文字検出装置、方法およびプログラム | |
Huang et al. | Automatic detection and localization of natural scene text in video | |
CN108154151B (zh) | 一种快速多方向文本行检测方法 | |
KR101742115B1 (ko) | 건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법 | |
KR20130028610A (ko) | 실시간 차선 검출 장치 및 방법과 이에 관한 기록매체 | |
JP2010134535A (ja) | 画像検出装置及び画像検出方法 | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
JP6468880B2 (ja) | 文字領域抽出装置及びプログラム | |
Jeong et al. | Multi language text detection using fast stroke width transform | |
JP2011087144A (ja) | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム | |
JP2017211976A (ja) | 画像処理装置及び画像処理プログラム | |
Sharma et al. | A new method for character segmentation from multi-oriented video words | |
KR100606404B1 (ko) | 컬러코드 이미지 검출 방법 및 장치 | |
JP5857634B2 (ja) | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム | |
JP2005250786A (ja) | 画像認識方法 | |
Shivakumara et al. | A new Laplacian method for arbitrarily-oriented word segmentation in video | |
Tian et al. | A new algorithm for license plate localization in open environment using color pair and stroke width features of character |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6468880 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |