JP5906788B2 - 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム - Google Patents
文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム Download PDFInfo
- Publication number
- JP5906788B2 JP5906788B2 JP2012032888A JP2012032888A JP5906788B2 JP 5906788 B2 JP5906788 B2 JP 5906788B2 JP 2012032888 A JP2012032888 A JP 2012032888A JP 2012032888 A JP2012032888 A JP 2012032888A JP 5906788 B2 JP5906788 B2 JP 5906788B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- projection
- density
- character string
- straight line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000003384 imaging method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
- G06V30/18095—Summing image-intensity values; Projection and histogram analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/22—Cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
- G06V30/127—Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Description
このように文字を切り出す処理に失敗が生じると、その後のマッチング処理でも誤認識が生じるので、文字の認識精度が低下する。
第1ステップでは、処理対象の濃淡画像中の文字列を横切る方法に沿うラインにおける最大濃度または最小濃度を文字列に沿う軸に投影する投影処理を、濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、濃淡画像中の文字が背景より高い場合には最大濃度を選択して、投影対象位置を文字列に沿って移動させながら繰り返す。
この方法によれば、ユーザ自身が、投影パターンと直線との関係を確認しながら、各極大値のグループと各極小値のグループとを切り分けるのに適した状態に直線を変更することができるので、文字の切り出しの精度を高めることができる。
さらにこの文字認識装置は、上記の文字切り出し方法を実施するために、認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段と、投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段と、投影処理手段が最大濃度を投影した場合には直線より濃度が高くなる範囲を切り出しの対象とし、投影処理手段が最小濃度を投影した場合には直線より濃度が低くなる範囲を切り出しの対象として、前記濃淡画像中の切り出し対象範囲の画像を切り出す切り出し処理手段を具備する。
この文字認識処理装置は、文字列を対象にした撮像を行い、生成された画像中の文字を読み取ってその読み取り結果を出力するもので、制御部10を含む本体部1、撮影用のカメラ2、表示部3、操作部4などにより構成される。表示部3は、たとえば液晶モニタにより構成され、操作部4にはマウスやキーボードが含まれる。
この例の画面30には、認識対象の文字列の画像の表示欄31、分析結果の表示欄32、読み取りボタン33、モデル登録ボタン34などが含まれる。なお、この例では、画像の右端部にシェーディングが生じているものとして、斜線によって影を表している。
この処理は、図2に示した画面で処理対象領域が設定され、読み取りボタン33が操作されたことに応じて開始される。最初に、制御部10は、矩形枠35の位置情報に基づき、処理対象領域内の画像を取得する(ステップS1)。
ステップS4では、先の文字列の切り分け処理の結果に基づき、y軸における処理範囲の上限値y1と下限値y2とを設定する(文字列に対応すると判別された範囲より若干外側のy座標をy1,y2とする。)。ステップS5では、これらy1からy2までの範囲内の画像を対象にして、x軸に対する投影処理を実行する。
図中のM1,M2は、図3のステップS7で求められた近似直線である。先に説明したように、このステップS7では、投影パターン中の極大値の変化に近似する直線M1と極小値の変化に近似する直線M2とを求める。次のステップS8では、たとえば、x座標を1つずつ動かして、各直線M1,M2の着目中のx座標に該当する点どおしを組み合わせて、これらの点の中点(各点の濃度の平均値による。)を求め、各中点の分布に近似する直線を設定し、この第3の近似直線を基準直線Mとする。
たとえば、欧文の小文字の文字列(”tt”,”rt”など)では、文字が連結される場合があるので、そのような構成の文字列を正しく認識できるようにする必要がある。
この処理は、先の図3に示した処理の後に、その処理結果を示す画面30内のモデル登録ボタン34が操作されたことに応じて開始される。
ステップS22の画像の取得は、自動に限らず、切り出された文字領域の中の1つを選択するユーザの操作に応じて、選択された領域内の画像を取り込むようにしてもよい。
なお、このモデル登録処理は、一般的な投影処理による文字の切り出しを行う文字認識処理装置でも、実施することができる。
2 カメラ
3 表示部
4 操作部
10 制御部
11 主記憶部
30 画面
P 投影パターン
M 基準直線
Claims (8)
- 文字列の撮像により生成された濃淡画像から前記文字列内の個々の文字を認識のために切り出す方法であって、
前記濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、前記濃淡画像中の文字が背景より高い場合には最大濃度を選択して、投影対象位置を文字列に沿って移動させながら繰り返す第1ステップと、
前記第1ステップにより生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する第2ステップと、
前記第1ステップで最大濃度を投影した場合には前記投影パターン中の直線より高い濃度が投影された範囲を切り出し対象範囲とし、第1ステップで最小濃度を投影した場合には前記投影パターン中の直線より低い濃度が投影された範囲を切り出し対象範囲として、前記濃淡画像中の切り出し対象範囲の画像を切り出す第3ステップとを、
実行することを、特徴とする文字切り出し方法。 - 前記第1ステップでは、前記文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン上の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のライン毎に、そのライン内の最大濃度および最小濃度のうちの前記選択に応じた濃度を抽出し、最大濃度が選択されている場合には各ラインで抽出された値の中の最小値を前記投影対象位置に投影し、最小濃度が選択されている場合には各ラインで抽出された値の中の最大値を前記投影対象位置に投影する、
請求項1に記載された文字切り出し方法。 - 前記第2ステップで設定された直線を前記第1ステップにより生成された投影パターンと共に表示して、投影パターンに対する直線の高さまたは傾きを変更操作に応じて変更するステップを実行する、
請求項1に記載された文字切り出し方法。 - 文字列の撮像により生成された濃淡画像を認識対象として入力して、当該画像中の文字列内の個々の文字を切り出した後に、切り出された文字をそれぞれあらかじめ登録されたモデルと照合して各文字を認識する文字認識装置において、
認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段と、
前記投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段と、
前記投影処理手段が最大濃度を投影した場合には前記直線より濃度が高くなる範囲を切り出しの対象とし、前記投影処理手段が最小濃度を投影した場合には前記直線より濃度が低くなる範囲を切り出しの対象として、前記濃淡画像中の切り出し対象範囲の画像を切り出す切り出し処理手段とを具備し、
前記投影処理手段は、認識対象の濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、前記濃淡画像中の文字が背景より高い場合には最大濃度を選択するように設定される、文字認識装置。 - 前記投影処理手段は、前記文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン内の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のラインを設定して、これらのライン毎にライン内の最大濃度または最小濃度を抽出し、各ラインで最大濃度を抽出した場合には抽出された値の中の最小値を前記投影対象位置に投影し、各ラインで最小濃度を抽出した場合には抽出された値の中の最大値を前記投影対象位置に投影する、
請求項4に記載された文字認識装置。 - 前記直線設定手段により設定された直線を前記投影処理手段により生成された投影パターンと共に表示して、表示画面中の投影パターンに対する直線の高さまたは傾きを変更する操作を受け付ける変更操作受付手段をさらに具備し、
前記直線設定手段は、変更操作受付手段が受け付けた操作に応じて前記投影パターンに対する直線の高さまたは傾きを変更する、請求項4に記載された文字認識装置。 - 前記投影処理手段に最大濃度および最小濃度のいずれを選択させるかを指定するための入力を受け付ける指定入力受付手段を、さらに具備する請求項4または5に記載された文字認識装置。
- コンピュータを、文字列の撮像により生成されて当該コンピュータに入力された濃淡画像から、当該画像中の文字列内の個々の文字を切り出した後に、切り出された文字をそれぞれあらかじめ登録されたモデルと照合して各文字を認識する文字認識装置として動かすためのプログラムであって、
認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段、
前記投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段、
前記投影処理手段が最大濃度を投影した場合には前記直線より濃度が高くなる範囲を切り出しの対象とし、前記投影処理手段が最小濃度を投影した場合には前記直線より濃度が低くなる範囲を切り出しの対象として、前記文字列における対象範囲の画像を切り出す切り出し処理手段、
の各手段の機能を前記コンピュータに設定するためのプログラムを含む文字認識処理用のプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012032888A JP5906788B2 (ja) | 2012-02-17 | 2012-02-17 | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム |
CN201280069152.6A CN104094283B (zh) | 2012-02-17 | 2012-11-28 | 字符切取方法、使用该方法的字符识别装置 |
US14/378,580 US9710945B2 (en) | 2012-02-17 | 2012-11-28 | Method for cutting out character, character recognition apparatus using this method, and program |
EP12868760.5A EP2816504A4 (en) | 2012-02-17 | 2012-11-28 | CHARACTER EXTRACTION METHOD AND CHARACTER RECOGNITION DEVICE, PROGRAM USING THE SAME |
PCT/JP2012/080701 WO2013121647A1 (ja) | 2012-02-17 | 2012-11-28 | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012032888A JP5906788B2 (ja) | 2012-02-17 | 2012-02-17 | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013171309A JP2013171309A (ja) | 2013-09-02 |
JP5906788B2 true JP5906788B2 (ja) | 2016-04-20 |
Family
ID=48983789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012032888A Active JP5906788B2 (ja) | 2012-02-17 | 2012-02-17 | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9710945B2 (ja) |
EP (1) | EP2816504A4 (ja) |
JP (1) | JP5906788B2 (ja) |
CN (1) | CN104094283B (ja) |
WO (1) | WO2013121647A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5821994B2 (ja) * | 2014-04-21 | 2015-11-24 | 富士ゼロックス株式会社 | 画像処理装置、画像形成装置およびプログラム |
CN105975542A (zh) * | 2016-04-29 | 2016-09-28 | 乐视控股(北京)有限公司 | 一种字符串的输入方法及装置 |
CN106778759A (zh) * | 2016-12-29 | 2017-05-31 | 成都数联铭品科技有限公司 | 用于图像文字识别的特征图片自动生成系统 |
CN107392093B (zh) * | 2017-06-14 | 2019-01-01 | 北京遥感设备研究所 | 一种基于机器学习和灰度投影算法相结合的铁轨识别系统 |
CN108549896B (zh) * | 2018-04-24 | 2020-08-04 | 大连民族大学 | 满文部件切分中删除多余候选切分行的方法 |
JP2021189952A (ja) * | 2020-06-03 | 2021-12-13 | 株式会社リコー | 画像処理装置、方法およびプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5856079A (ja) * | 1981-09-29 | 1983-04-02 | Ricoh Co Ltd | 光学文字読取装置における文字切出装置 |
JPH01201786A (ja) * | 1988-02-08 | 1989-08-14 | Toshiba Corp | 文字読取装置 |
TW197509B (ja) * | 1990-01-31 | 1993-01-01 | Hitachi Seisakusyo Kk | |
JPH0444187A (ja) * | 1990-06-11 | 1992-02-13 | Fuji Facom Corp | 文字認識装置 |
JPH05307640A (ja) * | 1992-04-30 | 1993-11-19 | Toshiba Corp | 文字読取装置 |
JPH06348895A (ja) * | 1993-06-02 | 1994-12-22 | Nec Corp | X線フィルム上の文字切り出し方法 |
DE69516751T2 (de) * | 1994-04-15 | 2000-10-05 | Canon Kk | Bildvorverarbeitung für Zeichenerkennungsanlage |
JPH09282417A (ja) | 1996-04-18 | 1997-10-31 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH1125222A (ja) * | 1997-07-08 | 1999-01-29 | Sharp Corp | 文字切り出し方法及び文字切り出し装置 |
JP3428494B2 (ja) * | 1999-05-19 | 2003-07-22 | 日本電気株式会社 | 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体 |
JP4658848B2 (ja) * | 2006-03-30 | 2011-03-23 | 日本電産サンキョー株式会社 | 文字列認識方法及び文字列認識装置 |
JP4712613B2 (ja) * | 2006-05-25 | 2011-06-29 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP5034398B2 (ja) * | 2006-09-14 | 2012-09-26 | 富士通株式会社 | 文字認識プログラム、文字認識方法および文字認識装置 |
JP4871793B2 (ja) * | 2007-06-15 | 2012-02-08 | キヤノン株式会社 | 情報処理装置及びその方法 |
JP5146190B2 (ja) | 2008-08-11 | 2013-02-20 | オムロン株式会社 | 文字認識装置、文字認識プログラム、および文字認識方法 |
-
2012
- 2012-02-17 JP JP2012032888A patent/JP5906788B2/ja active Active
- 2012-11-28 EP EP12868760.5A patent/EP2816504A4/en not_active Ceased
- 2012-11-28 WO PCT/JP2012/080701 patent/WO2013121647A1/ja active Application Filing
- 2012-11-28 US US14/378,580 patent/US9710945B2/en active Active
- 2012-11-28 CN CN201280069152.6A patent/CN104094283B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US9710945B2 (en) | 2017-07-18 |
US20150015603A1 (en) | 2015-01-15 |
EP2816504A1 (en) | 2014-12-24 |
EP2816504A4 (en) | 2016-12-07 |
WO2013121647A1 (ja) | 2013-08-22 |
CN104094283B (zh) | 2017-05-10 |
JP2013171309A (ja) | 2013-09-02 |
CN104094283A (zh) | 2014-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5410611A (en) | Method for identifying word bounding boxes in text | |
JP5906788B2 (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
WO2013132709A1 (ja) | 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム | |
RU2621601C1 (ru) | Устранение искривлений изображения документа | |
JP4694613B2 (ja) | 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JP6078953B2 (ja) | 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム | |
CN110991440B (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
US8989485B2 (en) | Detecting a junction in a text line of CJK characters | |
JP7039882B2 (ja) | 画像解析装置及び画像解析プログラム | |
JP4810853B2 (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JP4087191B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
JP5039659B2 (ja) | 文字認識方法及び文字認識装置 | |
JP3947173B2 (ja) | 表画像処理装置、プログラム記録媒体、表画像処理方法 | |
JP2000187705A (ja) | 文書読取装置および方法および記憶媒体 | |
JPH07230526A (ja) | 文字読取装置 | |
JP4731748B2 (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
US10878271B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
JPH0433082A (ja) | 文書認識装置 | |
CN114119349A (zh) | 一种图像信息提取方法、装置及介质 | |
JP2000207491A (ja) | 文字列読取方法及び装置 | |
JP2004341754A (ja) | 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム | |
JP2005242825A (ja) | 帳票読取装置及び帳票読取装置による帳票方向判定方法 | |
JPH1055408A (ja) | 接触パターンを分離するパターン分離装置および方法 | |
JPH0757047A (ja) | 文字切出し方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160223 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5906788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |