JP2013171309A - 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム - Google Patents

文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム Download PDF

Info

Publication number
JP2013171309A
JP2013171309A JP2012032888A JP2012032888A JP2013171309A JP 2013171309 A JP2013171309 A JP 2013171309A JP 2012032888 A JP2012032888 A JP 2012032888A JP 2012032888 A JP2012032888 A JP 2012032888A JP 2013171309 A JP2013171309 A JP 2013171309A
Authority
JP
Japan
Prior art keywords
character
projection
density
straight line
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012032888A
Other languages
English (en)
Other versions
JP5906788B2 (ja
Inventor
Shiro Fujieda
紫朗 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2012032888A priority Critical patent/JP5906788B2/ja
Priority to EP12868760.5A priority patent/EP2816504A4/en
Priority to US14/378,580 priority patent/US9710945B2/en
Priority to PCT/JP2012/080701 priority patent/WO2013121647A1/ja
Priority to CN201280069152.6A priority patent/CN104094283B/zh
Publication of JP2013171309A publication Critical patent/JP2013171309A/ja
Application granted granted Critical
Publication of JP5906788B2 publication Critical patent/JP5906788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/22Cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

【課題】安定した文字の切り出し処理を高速で行う。
【解決手段】濃淡画像中の文字列に沿う方向に対する投影処理を、投影対象位置を変更しながら繰り返し実行した後、生成された投影パターンPから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線Mを設定する。濃淡画像中の文字が背景より暗い場合の投影処理では、文字列を横切る方向に沿うラインにおける最小濃度を投影する。また、直線Mの設定後には、投影パターンP中の直線Mより低い濃度が投影された範囲を切り出し対象範囲として、濃淡画像中の切り出し対象範囲の画像を切り出す。
【選択図】図2

Description

本発明は、画像処理による文字認識処理に関するもので、特に、処理対象の画像から認識対象の文字を一文字ずつ切り出すための技術に関する。
文字認識処理では、一般に、文字列の撮像により生成された濃淡画像から個々の文字を切り出し、切り出された文字毎に、各種文字モデルを用いたマッチング処理(モデルマッチング)を実施して文字列の内容を認識する。文字の切り出し処理では、処理対象の画像の2値化データまたは濃淡データをx,yの各軸方向に対して投影し、各軸に生成された投影パターンから文字に対応する箇所を抽出しすることにより、個々の文字に対応する領域(以下「文字領域」という。)を特定する。
文字認識処理に関する先行技術として、特許文献1には、投影処理により得た濃度ヒストグラムから切り出された文字の幅を閾値と比較し、文字幅が閾値より大きい場合には、複数の文字が接触している可能性があるとして再切り出しをすることが記載されている。(段落0024〜0027等を参照。)また、切り出し後の認識処理結果の信頼度が低い場合や、照合対象の画像が文字の一部を示すモデル(漢字の偏のモデルなど)に合致した場合などにも、再度、切り出し処理を実行することが、記載されている(段落0037等を参照。)。
また、特許文献2には、文字切り出し後に仮マッチング処理を行ってマッチング信頼度を算出し、マッチング信頼度が所定の基準値以上であるなどの条件を満たした文字候補に基づき全角文字の標準文字長を決定し、マッチング信頼度が一定値より低かった領域を対象に標準文字長に基づく半角文字切出処理を実行することが、記載されている(段落0061,0078〜0085等を参照。)。
特開平9−282417号公報 特開2010−44485号公報
一般的な文字切り出し処理では、投影方向に沿う1ライン内の画像データ(2値または多値)を累計する方法をとる。しかし、認識対象の文字列が印刷されている媒体の模様やシェーディングなどにより、背景部分の濃度のむらが大きくなると、背景部分の投影値と文字部分の投影値との差が小さくなり、切り出しの精度が低下する。
また、処理対象の文字列の文字間のピッチや文字幅が不揃いであったり、隣り合う文字の間の隙間が微小であったりすると、投影パターンでも、文字に対応する箇所と背景部分に対応する箇所との違いが不明確になり、文字の切り出しに失敗する場合がある。
このように文字を切り出す処理に失敗が生じると、その後のマッチング処理でも誤認識が生じるので、文字の認識精度が低下する。
上記の問題点に関して、特許文献1,2には、文字の切り出し後に認識処理を行い、認識の精度が悪い箇所を対象に再度の切り出しを行う技術思想が示されているが、このような方法では、処理が複雑で時間もかかるため、処理の高速化が要求される用途には不向きである。
本発明は上記の問題点に着目し、簡単な処理によって、文字列中の個々の文字を精度良く切り分けることにより、安定した切り出し処理を高速で行うことを課題とする。
上記の課題を解決するために、本発明による文字切り出し方法では、以下の第1、第2、第3のステップを実行する。
第1ステップでは、処理対象の濃淡画像中の文字列を横切る方法に沿うラインにおける最大濃度または最小濃度を文字列に沿う軸に投影する投影処理を、濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、濃淡画像中の文字が背景より高い場合には最大濃度を選択して、投影対象位置を文字列に沿って移動させながら繰り返す。
第2ステップでは、第1ステップにより生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する。第3ステップでは、第1ステップで最大濃度を投影した場合には投影パターン中の直線より高い濃度が投影された範囲を切り出し対象範囲とし、第1ステップで最小濃度を投影した場合には投影パターン中の直線より低い濃度が投影された範囲を切り出し対象範囲として、濃淡画像中の切り出し対象範囲の画像を切り出す。
上記の方法によれば、たとえば、文字が背景より暗い状態の画像を処理対象とする場合には、第1ステップの投影処理では、文字列を横切る方向に沿うラインにおける最小濃度を文字列に沿う軸に投影する。この処理を、投影対象位置を文字列に沿う軸に沿って移動させながら繰り返すと、文字に対応する箇所が谷となり、文字間の隙間に対応する箇所が山となる投影パターンが生成される。この投影パターンの極小値(文字部分)の変動範囲と極大値(文字間の隙間部分)との変動範囲との間に設定された直線を切り出し範囲の特定の基準とすることによって、切り出しのための基準値を場所によって変更することができる。
したがって、模様などにより背景に濃淡むらが生じる画像であっても、その濃度のばらつき範囲に対して十分な余裕のある位置に直線を設定することができる。また、シェーディングなどの影響により文字列の一部が暗くなっている場合でも、濃度の変化に応じた傾きを持つ直線を設定することができるので、文字列に沿ういずれの場所でも、文字の切り出しの範囲を正しく判別することができる。
上記の方法にかかる第1の態様では、第1ステップにおいて、文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン上の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のライン毎に、そのライン内の最大濃度および最小濃度のうちの前記選択に応じた濃度を抽出し、最大濃度が選択されている場合には各ラインで抽出された値の中の最小値を投影対象位置に投影し、最小濃度が選択されている場合には各ラインで抽出された値の中の最大値を投影対象位置に投影する。
文字列を横切る1ラインのみを投影の対象とすると、文字間の間隔が狭い文字列では、文字間の隙間部分の隣の文字の一部が隙間内に突出し、その突出部分が投影対象のラインに載って、文字部分の濃度が投影されてしまうおそれがある。しかし、上記の態様によれば、文字間の隙間部分に対する投影処理では、設定された複数のラインの中の文字の画像が載らないラインから抽出された濃度を投影することができるので、文字の切り出しの精度を高めることができる。
第2の態様による方法では、第2ステップで設定された直線または傾きを第1ステップにより生成された投影パターンと共に表示して、投影パターンに対する直線の高さまたは傾きを変更操作に応じて変更する。
この方法によれば、ユーザ自身が、投影パターンと直線との関係を確認しながら、各極大値のグループと各極小値のグループとを切り分けるのに適した状態に直線を変更することができるので、文字の切り出しの精度を高めることができる。
本発明による文字認識装置は、文字列の撮像により生成された濃淡画像を認識対象として入力して、当該画像中の文字列内の個々の文字を切り出した後に、切り出された文字をそれぞれあらかじめ登録されたモデルと照合して各文字を認識する機能を具備する。
さらにこの文字認識装置は、上記の文字切り出し方法を実施するために、認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段と、投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段と、投影処理手段が最大濃度を投影した場合には直線より濃度が高くなる範囲を切り出しの対象とし、投影処理手段が最小濃度を投影した場合には直線より濃度が低くなる範囲を切り出しの対象として、前記濃淡画像中の切り出し対象範囲の画像を切り出す切り出し処理手段を具備する。
投影処理手段は、認識対象の濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、濃淡画像中の文字が背景より高い場合には最大濃度を選択するように設定される。
上記の文字認識装置の一実施形態の投影処理手段は、文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン内の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のラインを設定して、これらのライン毎にライン内の最大濃度または最小濃度を抽出し、各ラインで最大濃度を抽出した場合には抽出された値の中の最小値を前記投影対象位置に投影し、各ラインで最小濃度を抽出した場合には抽出された値の中の最大値を前記投影対象位置に投影する。この実施形態によれば、文字列に沿う方向において、各文字に対応する範囲を個別に切り出す処理を、精度良く実施することができる。
他の実施形態による文字認識装置は、直線設定手段により設定された直線を前記投影処理手段により生成された投影パターンと共に表示して、表示画面中の投影パターンに対する直線の高さまたは傾きを変更する操作を受け付ける変更操作受付手段をさらに具備する。また直線設定手段には、変更操作受付手段が受け付けた操作に応じて前記投影パターンに対する直線の高さまたは傾きを変更する機能が設けられる。この構成により、ユーザは、表示中の投影パターンと直線との関係を確認し、切り出しの精度が向上するように基準直線を変更することができる。
他の実施形態による文字認識装置には、投影処理手段に最大濃度および最小濃度のいずれを選択させるかを指定するための入力を受け付ける指定入力受付手段とが、さらに設ける。この手段によれば、処理対象の画像における文字と背景部分との明暗の関係に応じて投影の対象を変更することができるので、利便性が高められる。
さらに本発明では、上記の投影処理手段、直線設定手段、切り出し処理手段を具備する文字認識装置としてコンピュータを動かすためのプログラムを提供する。
本発明によれば、文字列の画像から個々の文字を切り出す処理を、簡単な手順で精度良く実施することができるので、文字認識処理を高速化することができる。また処理対象の画像に複雑な模様やシェーディングなどによるノイズが含まれる場合にも、そのノイズの影響を受けずに安定した処理を実施することができる。
文字認識装置の構成例を示すブロック図である。 文字認識処理において表示される画面の例を処理に応じた表示の変化と共に示す図である。 文字認識処理の手順を示すフローチャートである。 文字列に沿う方向に対する投影処理のために設定されるラインの概念を示す図である。 投影パターンに対する基準直線の設定方法を示す図である。 文字列に沿う方向に対する投影処理(図3のステップS5)の詳細な手順を示すフローチャートである。 文字認識処理で誤認識が生じた場合の画面、誤認識が生じた文字領域内の画像をモデルとして登録する登録用ウィンドウ、登録後に行われた再度の認識処理の結果を示す画面、の各例を示す図である。 モデル登録処理の手順を示すフローチャートである。
図1は、本発明が適用される文字認識処理装置の構成例を示す。
この文字認識処理装置は、文字列を対象にした撮像を行い、生成された画像中の文字を読み取ってその読み取り結果を出力するもので、制御部10を含む本体部1、撮影用のカメラ2、表示部3、操作部4などにより構成される。表示部3は、たとえば液晶モニタにより構成され、操作部4にはマウスやキーボードが含まれる。
本体部1は、汎用のコンピュータ装置(パーソナルコンピュータ)であって、CPUを含む制御部10のほか、主記憶部11、画像メモリ12、撮像インタフェース13、表示用インタフェース14、入力用インタフェース15、外部インタフェース16、外部ディスク用読取部17などを有する。
主記憶部11はたとえばハードディスクであり、画像メモリ12はたとえばRAMボードである。主制御部11には、外部ディスク用読取部17により外部ディスク18から読み取られた専用のプログラムや、文字認識処理に用いられるフォントデータなどが登録される。カメラ2から出力された画像は、撮像インタフェース13に取り込まれてディジタル変換された後、変換後の画像データが画像メモリ12に格納される
制御部10には、主記憶部11に格納されたプログラムによって、画像メモリ12に格納された画像から文字を1文字ずつ切り出す機能と、切り出された文字の内容を認識する機能とが設定される。また、制御部10には、これらの処理でユーザに提示されるグラフィカルユーザインタフェースとしての機能も設定される。この機能により、制御部10は、表示用インタフェース14を介して表示部3に処理対象の画像を含む画面を表示し、入力用インタフェース15を介して操作部4による操作を受け付ける。
この実施例の文字認識処理装置では、処理対象の画像を表示する画面において、文字の読み取りを指示する操作を受け付けた後、後述する図3の処理により画像中の文字を認識し、認識結果を画面に表示する。また、外部インタフェース16を介して、認識結果を外部の機器に出力することも可能である。
図2は、文字認識処理のために表示部3に表示される画面の例を示す。
この例の画面30には、認識対象の文字列の画像の表示欄31、分析結果の表示欄32、読み取りボタン33、モデル登録ボタン34などが含まれる。なお、この例では、画像の右端部にシェーディングが生じているものとして、斜線によって影を表している。
図2(1)は、読み取り処理が開始される前の画面であって、画像表示欄31内の画像には、ユーザにより設定された処理対象領域を示す矩形枠35が表示されている。ユーザは、マウスの操作などにより矩形枠35の位置および大きさを定めることにより処理対象領域を設定し、続いて読み取りボタン33を操作する。この操作により、制御部10は、矩形枠35に対応する領域を処理対象領域と認識して、その領域内の画像に対する文字認識処理(文字の切り出しおよびマッチング処理を含む。)を実施し、画面を図2(2)に示すように変化させる。
認識処理後の画面30の画像表示欄31では、各文字がそれぞれ切り出し処理により特定された文字領域を示す枠36により囲まれる。また、各枠36の左上位置には、その枠36内の画像から読み取られた文字が表示されている。また、画像表示欄31の右手の余白には、文字領域毎の認識結果から導き出された文字列が、読み取り結果として表示される。また、文字列の下方には、この文字列に最も適合したフォントの名称(F1)が表示される。
ブランク状態であった分析結果の表示欄32にも、文字の切り出しのための投影処理により生成された投影パターンPが、切り出しの基準として設定された直線M(以下、「基準直線M」という。)と共に表示される。
以下、文字が背景より暗い横並びの文字列を認識対象とすることを前提として、この例で実施される認識処理を詳細に説明する。
図3は、文字認識のために制御部10により実施される処理の概略手順を示す。
この処理は、図2に示した画面で処理対象領域が設定され、読み取りボタン33が操作されたことに応じて開始される。最初に、制御部10は、矩形枠35の位置情報に基づき、処理対象領域内の画像を取得する(ステップS1)。
図2の例では、一列分の文字列を含む範囲が指定されたとして説明したが、実際には、複数列の文字列を含む範囲が指定される場合もある。この点を考慮して、ステップS2では、まずy軸に対する投影処理を行い、生成された投影パターンにより文字列を1列ずつに切り分ける(ステップS2)。
以下、切り分けられた文字列を順に処理対象に設定して、ステップS4以下の処理を実行する。
ステップS4では、先の文字列の切り分け処理の結果に基づき、y軸における処理範囲の上限値y1と下限値y2とを設定する(文字列に対応すると判別された範囲より若干外側のy座標をy1,y2とする。)。ステップS5では、これらy1からy2までの範囲内の画像を対象にして、x軸に対する投影処理を実行する。
上記の処理によりx軸方向に沿う投影パターンが生成されると、ステップS6において、投影パターンから極大値と極小値とを抽出し、続くステップS7において、極大値の分布に近似する直線と極小値の分布に近似する直線とを導出する。さらにステップS8では、これら2本の近似直線に基づき、切り出し対象範囲を特定するための基準直線Mを設定する。
ステップS9では、投影パターン内の各値を上記の基準直線Mと照合し、切り出し対象範囲を特定する。そして、切り出し対象範囲毎に、その範囲の左右端縁のx座標とy軸の処理対象範囲を示す座標y1,y2とに基づき、文字領域を抽出し(ステップS10)、各種フォントデータに含まれる文字モデルを用いたマッチング処理を実行する(ステップS11)。
この後は、ステップS3に戻り、未処理の文字列がある場合(ステップS3が「NO」)には、未処理の一文字列に対してステップS4〜S11を実行する。全ての文字列に対する処理が終了すると(ステップS3が「YES」)、ステップS12に進んで認識結果を出力する。この出力をもって、ユーザの指示に対する処理が終了する。
上記の処理のうち、y軸に対する投影処理(ステップS2)では、処理対象領域内のx軸に沿うライン毎に、そのライン内の最小濃度を投影する。このようにすれば、1画素でも文字の画像が含まれるラインからは文字の画像の濃度が投影され、文字の画像を全く含まないラインからのみ背景部分の濃度が投影されるので、y軸方向においては、文字列全体を含む範囲を精度良く抽出することができる。
文字列に沿うx軸に対する投影処理(ステップS5)では、投影対象位置毎に傾きが異なる複数のラインを設定して、各ラインの最小濃度を抽出し、抽出された最小濃度の中の最大値を投影値として採用する。このラインの設定方法を図4に示す。図中のxiは投影対象位置のx座標であり、y1,y2はy軸における処理範囲の上限値および下限値(ステップS4で求めたもの)である。
図4を参照して、座標xiに対して設定される投影用のラインの概念を言うと、座標xiを通りy軸に並行なラインL0を、点(xi,y1)と点(xi,y2)との中点を軸に左右に所定角度αまでの範囲で回転させる間に生じる各ラインが、それぞれ座標xiに対する投影用のラインとなる。制御部10が実行するアルゴリズムでは、y軸方向の処理対象範囲y1,y2の位置における座標xiからの距離dを用いてラインの傾きを変更するため、角度αに代えて、距離dの最大値Dαが設定される。
通常の投影処理のように、y軸に沿うラインL0のみを投影の方向とした場合、図4の例のように、文字の間の隙間が狭く、その狭い隙間に隣の文字の一部が突出し、その突出部分がラインL0に載る状態になることがある。したがって、y軸に対する投影処理と同じ手法に基づき、y軸に沿うラインL0内の最小濃度をxiに投影すると、図4の例のxiには文字の濃度が投影されてしまう。
この点に鑑み、この実施例では、様々な傾きのラインを設定して、ライン毎にそのラインの最小濃度を抽出し、抽出された濃度の中の最大値を座標xiへの投影値として採用する。背景部分が文字より明るい画像では、図4中のラインL2のように、隙間部分のみを通過するラインで抽出される最小濃度が最大となるので、この最大の濃度が座標xiに投影される。よって、文字間の隙間部分の濃度が反映されて、文字に対応する箇所が谷となり、隙間部分に対応する箇所が山となる投影パターンが生成される。
図5は、上記の投影処理により生成された投影パターンPの例(x座標を横軸とし、濃度を縦軸とするもの)を、基準直線Mを設定する方法と共に示す。
図中のM1,M2は、図3のステップS7で求められた近似直線である。先に説明したように、このステップS7では、投影パターン中の極大値の変化に近似する直線M1と極小値の変化に近似する直線M2とを求める。次のステップS8では、たとえば、x座標を1つずつ動かして、各直線M1,M2の着目中のx座標に該当する点どおしを組み合わせて、これらの点の中点(各点の濃度の平均値による。)を求め、各中点の分布に近似する直線を設定し、この第3の近似直線を基準直線Mとする。
基準直線Mの設定方法は、上記に限定されるものではない。たとえば、処理対象領域の両端点の座標x1,x2のみを対象に、直線M1上の対応点と直線M2上の対応点との中点を求め、各中点を結ぶ、という簡易な方法によって、基準直線Mを設定してもよい。または直線M1,M2を設定することなく、極大値および極小値の分布のパターンに基づき、直線Mの高さや傾きを決定してもよい。
図5の投影パターンは、図2(2)の欄32内に示したものと同じであるので、再び図2(2)を参照する。この実施例で認識対象とした画像には、右側端縁部にシェーディングが発生しているので、投影パターンP内の山も、左から右に向かうにつれて低くなり、文字を表す谷部分と山部分との差も縮小している。しかし、この濃度の変化に応じて、基準曲線Mも左上から右下に向かって傾き、シェーディングの発生箇所においても、隙間部分を反映した山と文字を反映した谷とを切り分けることが可能な位置に基準直線Mが位置づけられている。よって、シェーディングによる濃度の変化の影響を受けることなく、基準直線Mに基づき個々の文字に対応する範囲を切り出すことが可能である。
図6は、x軸に対する投影処理(図3のステップS5に相当)の詳細な手順を示す。以下、この図6のほか、前出の図4,図5も合わせて参照しつつ、投影処理の手順を説明する。
図6では、図4の例に合わせて、x軸上の投影対象位置の座標をxiとする。このxiには、初期値として処理対象領域の左端縁のx座標x1が設定される(ステップS101)。以下、xiが処理対象領域の右端縁のx座標のx2になるまでで、xiが1画素ずつ動かされて(ステップST110,111)、以下の処理が実行される。
まず、ステップS102において、最小濃度の最大値MAXに初期値の0を設定すると共に、ずれ量dに初期値として−Dαを設定する。Dαが正の値であるとすると、dの初期値は負の値となる。
ステップS103では、座標(xi+d,y1)と座標(xi−d,y2)とを結ぶラインを設定する。ステップS101,S102で設定したxi,dの初期値によれば、初回に設定されるラインは図4のラインL1となる。一方、d=Dαとなったときには、図4のラインL2が設定されることになる。
よって、ずれ量dがDαになるまでdを1ずつ増やして(ステップS107,108)毎回のdにつきステップS103を実行することにより、ラインL1からL2までの範囲で、毎回、異なる傾きのラインが設定される。またステップS104において、設定されたライン内の最小濃度Iminが抽出される。さらにIminが最大値MAXを超える場合には、MAXがIminに書き換えられる(ステップS105,S106)。IminがMAX以下の場合(ST105が「NO」)には、MAXは現在値で維持される。
このように、投影対象の一点xiに対し、傾きが異なる複数のラインを設定してライン毎に最小濃度を求めると共に、それらの中の最大値MAXを抽出する。全てのラインに対する処理が終了すると(ステップS108が「YES」)、その時点での最大値MAXが座標xiの投影値P(xi)に設定される(ステップS109)。
上記の処理が毎時の座標xiに対して実行され、xiが終点であるx2に設定されて上記の投影値の設定が終了すると、ステップS111が「YES」となり、投影処理を終了する。
なお、上記の例とは反対に、背景よりも文字の方が明るい画像を処理対象とする場合には、各ラインではそれぞれそのラインにおける最大濃度を抽出し、抽出された濃度の中の最小値を投影値として選択する。これにより、文字に対応する箇所が山になり、隙間部分に対応する箇所が谷となる投影パターンが生成される。この投影パターンに対しても、図5に示したのと同様の手法で、2本の近似直線M1,M2を設定し、これらの直線M1,M2の中間位置に基準直線Mを設定するが、切り出しの対象範囲は、投影パターンの中で基準直線Mより濃度が高い範囲となる。
図1の主記憶部11に登録される認識処理用のプログラムは、背景よりも文字が暗い画像に対する処理を実行するように設定されているが、背景よりも文字が明るい画像に対する処理を実行するためのプログラムも組み込み、いずれのプログラムによる認識処理を実行するかをユーザの選択に応じて決定してもよい。
また、上記の例では、極大値の分布範囲と極小値の分布範囲との真ん中あたりに基準曲線Mが設定されるようにしたが、あらかじめ定めたオフセット値により基準直線Mの高さを調整してもよい。
さらにこの実施例では、図2に示した画面において、ユーザが欄32内の基準直線をドラッグする操作によって、基準直線Mの高さや傾きを変更することもできる。よって、自動的な文字の切り出し処理に失敗した場合には、ユーザは欄32内の投影パターンの山や谷との関係に基づき基準直線Mを変更した後に、再度読み取りボタン33を操作することによって、正しい認識結果を得ることができる。
以上に述べたように、この実施例では、文字の間に僅かでも隙間があれば、その隙間と文字とを精度良く切り分けることが可能である。しかし、各文字の間の間隔が十分であれば、y軸に沿う方向のみの投影処理でも、文字の切り出しの精度を確保することができる。この点に鑑み、主記憶部11に、y軸に沿う方向のみの投影を行う簡単投影モード用のプログラムと、図6に示した投影処理を行う詳細投影モード用のプログラムとを登録しておき、認識対象の文字列の状態に応じてユーザに実行するモードを選択させるようにしてもよい。
ただし、簡単投影モード、詳細投影モードのいずれにおいても、ライン内における文字に対応する画素の数に応じた値ではなく、文字の画像の濃度が投影されるので、隣り合う文字同士が連結していると、これらを一文字ずつに切り分けることが不可能になる。
たとえば、欧文の小文字の文字列(”tt”,”rt”など)では、文字が連結される場合があるので、そのような構成の文字列を正しく認識できるようにする必要がある。
図7は、図2と同じ構成の画面30により、”Schimitt”という語の末尾の2つの”t”を連結した形態にして表された文字列を対象にした処理が行われたケースを例にして、上記の問題に対する対応を示したものである。
図7(1)の画面は、読み取りボタン35の操作に応じて先の図3に示した処理が実施され、読み取り結果が表示された段階の表示例である。画像表示欄31では、図2(2)の例と同様に、切り出し処理により特定された文字領域を示す枠36や認識された文字が表示されているが、図中の枠36Aに示すように、文字列の末尾の”tt”を含む範囲が1つの文字領域として抽出されている。また、読み取り結果の表示では、この枠36Aに対応する文字に該当する文字がないことが、記号ERにより表されている。
このような誤認識が生じた場合、この実施例のユーザインタフェースでは、モデル登録ボタン34の操作によって、モデル登録用のウィンドウ300が呼び出される。このウィンドウ300には、誤抽出された文字領域(枠36Aに相当)から抽出された画像301と共に、登録先のフォントを指定するコンボボックス302、画像に対応する文字列の入力ボックス303、OKボタン304、キャンセルボタン305などが表示される。
ユーザが、画像301に対応する文字列を欄303内に入力して、OKボタン304を操作すると、制御部10は、画像301を入力された文字列に紐付けて登録する。なお、コンボボックス302には、マッチング処理で認識されたフォント(F2)が自動設定されるが、ユーザはこの設定を自由に変更して、登録先を変更することもできる
上記の登録処理後に、ユーザが、元の画面30の読み取りボタン35を再度操作すると、制御部10は,再度、図3の処理を実行する。図7(3)は、この再度の認識処理の結果が表示された画面を示すもので、先に登録されたモデルとの照合によって、”tt”も正しく認識されている。
図8は、上記のモデル登録処理として制御部10が実行する手順を示す。
この処理は、先の図3に示した処理の後に、その処理結果を示す画面30内のモデル登録ボタン34が操作されたことに応じて開始される。
まず、マッチング処理の結果を参照して、文字モデルに対する認識対象の文字列の倍率Qと、誤認識が生じた文字領域の画像とを取得する(ステップS21,22)。なお、マッチング処理では、文字モデルの倍率を複数とおりに設定して倍率毎に文字領域内の画像と照合し、最も高い類似度が得られたときの文字モデルを文字領域にあてはめており、この文字領域に適合した文字モデルの倍率が上記の倍率Qとして認識される。
ステップS22の画像の取得は、自動に限らず、切り出された文字領域の中の1つを選択するユーザの操作に応じて、選択された領域内の画像を取り込むようにしてもよい。
ステップS23では、上記の倍率Qや画像を示す登録処理用のウィンドウ300を立ち上げる。このウィンドウ300内の入力欄303に文字列が入力されてOKボタン304が操作されると(ステップS24が「YES」)、欄303に入力されている文字列を取得する(ステップS25)。
さらにステップS26において、取得した画像を1/Q倍することにより、この画像のサイズを登録対象のフォントデータのサイズに合わせ(ステップS26)、サイズ変更後の画像を入力された文字列に対応づけて登録する(ステップS27)。
ウィンドウ300の立ち上げ後にキャンセルボタン305が操作された場合(ステップS24が「NO」でステップS28が「YES」)には、ウィンドウ300を閉じて処理を終了する。
上記の登録処理により、図7(3)に示すように、複数の文字が連結されている箇所でも、各文字を正しく読み取ることができるようになるので、利便性がさらに向上する。
なお、このモデル登録処理は、一般的な投影処理による文字の切り出しを行う文字認識処理装置でも、実施することができる。
1 本体部
2 カメラ
3 表示部
4 操作部
10 制御部
11 主記憶部
30 画面
P 投影パターン
M 基準直線

Claims (8)

  1. 文字列の撮像により生成された濃淡画像から前記文字列内の個々の文字を認識のために切り出す方法であって、
    前記濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、前記濃淡画像中の文字が背景より高い場合には最大濃度を選択して、投影対象位置を文字列に沿って移動させながら繰り返す第1ステップと、
    前記第1ステップにより生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する第2ステップと、
    前記第1ステップで最大濃度を投影した場合には前記投影パターン中の直線より高い濃度が投影された範囲を切り出し対象範囲とし、第1ステップで最小濃度を投影した場合には前記投影パターン中の直線より低い濃度が投影された範囲を切り出し対象範囲として、前記濃淡画像中の切り出し対象範囲の画像を切り出す第3ステップとを、
    実行することを、特徴とする文字切り出し方法。
  2. 前記第1ステップでは、前記文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン上の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のライン毎に、そのライン内の最大濃度および最小濃度のうちの前記選択に応じた濃度を抽出し、最大濃度が選択されている場合には各ラインで抽出された値の中の最小値を前記投影対象位置に投影し、最小濃度が選択されている場合には各ラインで抽出された値の中の最大値を前記投影対象位置に投影する、
    請求項1に記載された文字切り出し方法。
  3. 前記第2ステップで設定された直線を前記第1ステップにより生成された投影パターンと共に表示して、投影パターンに対する直線の高さまたは傾きを変更操作に応じて変更するステップを実行する、
    請求項1に記載された文字切り出し方法。
  4. 文字列の撮像により生成された濃淡画像を認識対象として入力して、当該画像中の文字列内の個々の文字を切り出した後に、切り出された文字をそれぞれあらかじめ登録されたモデルと照合して各文字を認識する文字認識装置において、
    認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段と、
    前記投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段と、
    前記投影処理手段が最大濃度を投影した場合には前記直線より濃度が高くなる範囲を切り出しの対象とし、前記投影処理手段が最小濃度を投影した場合には前記直線より濃度が低くなる範囲を切り出しの対象として、前記濃淡画像中の切り出し対象範囲の画像を切り出す切り出し処理手段とを具備し、
    前記投影処理手段は、認識対象の濃淡画像中の文字が背景より暗い場合には最小濃度を選択し、前記濃淡画像中の文字が背景より高い場合には最大濃度を選択するように設定される、文字認識装置。
  5. 前記投影処理手段は、前記文字列に沿う軸に直交して投影対象位置を通過するラインをそのライン内の一点を中心に所定の角度まで回転させる場合の回転範囲に含まれる複数のラインを設定して、これらのライン毎にライン内の最大濃度または最小濃度を抽出し、各ラインで最大濃度を抽出した場合には抽出された値の中の最小値を前記投影対象位置に投影し、各ラインで最小濃度を抽出した場合には抽出された値の中の最大値を前記投影対象位置に投影する、
    請求項4に記載された文字認識装置。
  6. 前記直線設定手段により設定された直線を前記投影処理手段により生成された投影パターンと共に表示して、表示画面中の投影パターンに対する直線の高さまたは傾きを変更する操作を受け付ける変更操作受付手段をさらに具備し、
    前記直線設定手段は、変更操作受付手段が受け付けた操作に応じて前記投影パターンに対する直線の高さまたは傾きを変更する、請求項4に記載された文字認識装置。
  7. 前記投影処理手段に最大濃度および最小濃度のいずれを選択させるかを指定するための入力を受け付ける指定入力受付手段を、さらに具備する請求項4または5に記載された文字認識装置。
  8. コンピュータを、文字列の撮像により生成されて当該コンピュータに入力された濃淡画像から、当該画像中の文字列内の個々の文字を切り出した後に、切り出された文字をそれぞれあらかじめ登録されたモデルと照合して各文字を認識する文字認識装置として動かすためのプログラムであって、
    認識対象の濃淡画像中の文字列を横切る方向に沿うラインにおける最大濃度または最小濃度を前記文字列に沿う軸に投影する投影処理を、投影対象位置を文字列に沿って移動させながら繰り返す投影処理手段、
    前記投影処理により生成された投影パターンから極大値および極小値を抽出し、極大値の変動範囲と極小値の変動範囲との間にこれらの値の変化に応じた傾きを持つ直線を設定する直線設定手段、
    前記投影処理手段が最大濃度を投影した場合には前記直線より濃度が高くなる範囲を切り出しの対象とし、前記投影処理手段が最小濃度を投影した場合には前記直線より濃度が低くなる範囲を切り出しの対象として、前記文字列における対象範囲の画像を切り出す切り出し処理手段、
    の各手段の機能を前記コンピュータに設定するためのプログラムを含む文字認識処理用のプログラム。
JP2012032888A 2012-02-17 2012-02-17 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム Active JP5906788B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012032888A JP5906788B2 (ja) 2012-02-17 2012-02-17 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
EP12868760.5A EP2816504A4 (en) 2012-02-17 2012-11-28 CHARACTER EXTRACTION METHOD AND CHARACTER RECOGNITION DEVICE, PROGRAM USING THE SAME
US14/378,580 US9710945B2 (en) 2012-02-17 2012-11-28 Method for cutting out character, character recognition apparatus using this method, and program
PCT/JP2012/080701 WO2013121647A1 (ja) 2012-02-17 2012-11-28 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
CN201280069152.6A CN104094283B (zh) 2012-02-17 2012-11-28 字符切取方法、使用该方法的字符识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012032888A JP5906788B2 (ja) 2012-02-17 2012-02-17 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2013171309A true JP2013171309A (ja) 2013-09-02
JP5906788B2 JP5906788B2 (ja) 2016-04-20

Family

ID=48983789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012032888A Active JP5906788B2 (ja) 2012-02-17 2012-02-17 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム

Country Status (5)

Country Link
US (1) US9710945B2 (ja)
EP (1) EP2816504A4 (ja)
JP (1) JP5906788B2 (ja)
CN (1) CN104094283B (ja)
WO (1) WO2013121647A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5821994B2 (ja) * 2014-04-21 2015-11-24 富士ゼロックス株式会社 画像処理装置、画像形成装置およびプログラム
CN105975542A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 一种字符串的输入方法及装置
CN106778759A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的特征图片自动生成系统
CN107392093B (zh) * 2017-06-14 2019-01-01 北京遥感设备研究所 一种基于机器学习和灰度投影算法相结合的铁轨识别系统
CN108549896B (zh) * 2018-04-24 2020-08-04 大连民族大学 满文部件切分中删除多余候选切分行的方法
JP2021189952A (ja) * 2020-06-03 2021-12-13 株式会社リコー 画像処理装置、方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856079A (ja) * 1981-09-29 1983-04-02 Ricoh Co Ltd 光学文字読取装置における文字切出装置
JPH01201786A (ja) * 1988-02-08 1989-08-14 Toshiba Corp 文字読取装置
JPH0444187A (ja) * 1990-06-11 1992-02-13 Fuji Facom Corp 文字認識装置
JPH05307640A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 文字読取装置
JPH06348895A (ja) * 1993-06-02 1994-12-22 Nec Corp X線フィルム上の文字切り出し方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW197509B (ja) * 1990-01-31 1993-01-01 Hitachi Seisakusyo Kk
DE69516751T2 (de) * 1994-04-15 2000-10-05 Canon Kk Bildvorverarbeitung für Zeichenerkennungsanlage
JPH09282417A (ja) 1996-04-18 1997-10-31 Matsushita Electric Ind Co Ltd 文字認識装置
JPH1125222A (ja) * 1997-07-08 1999-01-29 Sharp Corp 文字切り出し方法及び文字切り出し装置
JP3428494B2 (ja) * 1999-05-19 2003-07-22 日本電気株式会社 文字認識装置及びその文字認識方法並びにその制御プログラムを記録した記録媒体
JP4658848B2 (ja) * 2006-03-30 2011-03-23 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
JP4712613B2 (ja) * 2006-05-25 2011-06-29 富士通株式会社 情報処理装置、情報処理方法およびプログラム
JP5034398B2 (ja) * 2006-09-14 2012-09-26 富士通株式会社 文字認識プログラム、文字認識方法および文字認識装置
JP4871793B2 (ja) * 2007-06-15 2012-02-08 キヤノン株式会社 情報処理装置及びその方法
JP5146190B2 (ja) * 2008-08-11 2013-02-20 オムロン株式会社 文字認識装置、文字認識プログラム、および文字認識方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5856079A (ja) * 1981-09-29 1983-04-02 Ricoh Co Ltd 光学文字読取装置における文字切出装置
JPH01201786A (ja) * 1988-02-08 1989-08-14 Toshiba Corp 文字読取装置
JPH0444187A (ja) * 1990-06-11 1992-02-13 Fuji Facom Corp 文字認識装置
JPH05307640A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 文字読取装置
JPH06348895A (ja) * 1993-06-02 1994-12-22 Nec Corp X線フィルム上の文字切り出し方法

Also Published As

Publication number Publication date
EP2816504A4 (en) 2016-12-07
WO2013121647A1 (ja) 2013-08-22
US20150015603A1 (en) 2015-01-15
CN104094283B (zh) 2017-05-10
CN104094283A (zh) 2014-10-08
US9710945B2 (en) 2017-07-18
JP5906788B2 (ja) 2016-04-20
EP2816504A1 (en) 2014-12-24

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP5884560B2 (ja) 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
EP2569930B1 (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
RU2621601C1 (ru) Устранение искривлений изображения документа
US8452133B2 (en) Underline removal apparatus
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
US9224065B2 (en) Character-recognition method and character-recognition device and program using said method
US6947596B2 (en) Character recognition method, program and recording medium
US8989485B2 (en) Detecting a junction in a text line of CJK characters
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
JP7039882B2 (ja) 画像解析装置及び画像解析プログラム
RU2458396C1 (ru) Способ редактирования статических цифровых комбинированных изображений, включающих в себя изображения нескольких объектов
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JPH07230526A (ja) 文字読取装置
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images
CN114119349A (zh) 一种图像信息提取方法、装置及介质
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JPH08137987A (ja) 光学式文字読取装置
JP2004341754A (ja) 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム
JPH0433082A (ja) 文書認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160223

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160307

R150 Certificate of patent or registration of utility model

Ref document number: 5906788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250