JP4658848B2 - 文字列認識方法及び文字列認識装置 - Google Patents

文字列認識方法及び文字列認識装置 Download PDF

Info

Publication number
JP4658848B2
JP4658848B2 JP2006094497A JP2006094497A JP4658848B2 JP 4658848 B2 JP4658848 B2 JP 4658848B2 JP 2006094497 A JP2006094497 A JP 2006094497A JP 2006094497 A JP2006094497 A JP 2006094497A JP 4658848 B2 JP4658848 B2 JP 4658848B2
Authority
JP
Japan
Prior art keywords
character string
character
projection
pixels
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006094497A
Other languages
English (en)
Other versions
JP2007272348A (ja
Inventor
宏 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nidec Sankyo Corp
Original Assignee
Nidec Sankyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nidec Sankyo Corp filed Critical Nidec Sankyo Corp
Priority to JP2006094497A priority Critical patent/JP4658848B2/ja
Priority to US11/693,139 priority patent/US7949187B2/en
Publication of JP2007272348A publication Critical patent/JP2007272348A/ja
Application granted granted Critical
Publication of JP4658848B2 publication Critical patent/JP4658848B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、紙やプラスチックなどの媒体上にある文字列を光学的に読み取る文字列認識方法及び文字列認識装置に関し、特に、認識精度低下を防ぐことが可能なものに関する。
従来から、例えば小切手などの媒体表面に印刷された文字列を認識するための装置がある。例えば特許文献1に開示された文字認識装置は、2値化された画像データから文字部分を検出して、その文字部分を外接矩形枠に沿って切り出す文字切出手段と、文字切出手段により得られた文字パターンから特徴ベクトルを抽出する特徴ベクトル抽出手段と、予め文字ごとの特徴を格納している特徴格納手段と、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求める類似度計算手段と、類似度計算手段により得られた類似度の大きさにより候補文字を選択する候補文字選択手段と、候補文字選択手段により選択された候補文字が複数であった場合に更に詳細な識別を行う類似文字識別手段と、を有している。このような各種手段を有する文字認識装置によれば、媒体表面に印刷された文字列を的確に認識することができる。
一方で、上述した2値化された画像データは、媒体上にある文字列を光学的に読み取る光学センサによって得られる。具体的には、製造コスト削減の観点から、文字列を1次元で光学的に読み取るCCDラインセンサ(1次元撮像素子)を用いることが多い(例えば特許文献2参照)。この場合、CCDラインセンサによって媒体上にある文字列の主走査を行うとともに、手動又は機械駆動に基づく媒体移動によって副走査を行う。このようにして、CCDラインセンサと媒体移動の相互動作により、文字列の2次元画像データを取得し、この2次元画像データが2値化されると、上述した2値化された画像データが得られる。
特開平05−120483号公報 特開平05−73722号公報
しかしながら、特許文献2に開示された文字認識装置では、認識精度が低下する可能性がある、という問題がある。
具体的には、手動操作(スワイプ型のカードリーダであれば、スワイプ動作)に起因して媒体搬送速度が変動し、媒体移動方向への画像の歪みが発生した場合、それに伴って、媒体移動方向と垂直な方向にも画像歪みが発生する場合がある(傾いたりうねったりする場合がある)。また、媒体下辺部が撮像装置(文字認識装置)の搬送路面から浮き上がることによっても、媒体移動方向と垂直な方向に画像歪みが発生する場合がある。このような場合、画像歪みの方向が媒体移動方向と垂直な方向であるという関係上、一般的に補正するのは困難である。例えば、特許文献2に開示された文字認識装置を用いた場合であっても、画像歪みの方向が媒体移動方向であれば適切に補正し得るが、これが媒体移動方向と垂直な方向であるとき、補正は困難である。その結果、歪んだ画像をそのまま使って文字切り出し等を行うと、認識精度の低下を招くことになる。
本発明は、このような点に鑑みてなされたものであり、その目的は、たとえ画像歪みの方向が媒体移動方向と垂直な方向であったとしても、文字列認識の精度低下を防ぐことが可能な文字列認識方法及び文字列認識装置を提供することにある。
以上のような課題を解決するために、本発明は、以下のものを提供する。
(1) 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、前記文字列の方向と直交する垂直方向にシフトさせながら、前記文字列の方向への前記画像データの射影を計算する第1ステップと、前記第1ステップにより得られた第1射影データに基づいて、前記垂直方向における前記文字列の位置を検出する第2ステップと、前記第2ステップで検出された前記文字列の位置に基づいて、前記文字列の方向にシフトさせながら、前記垂直方向への前記セグメントの射影を計算する第3ステップと、前記第3ステップにより得られた第2射影データが所定の閾値を超えた箇所を、前記文字列を構成する文字の区切り位置として検出する第4ステップと、を含み、前記第1ステップは、前記画像データを前記文字列の方向へ所定数のセグメントに分割した後、当該セグメントの射影を計算し、前記閾値は、前記第2射影データから検出された前記文字列の両端間の画素数が多くなるにつれて大きくなる一方で、該文字列の両端間の画素数が少なくなるにつれて小さくなることを特徴とする文字列認識方法。
(2) 前記閾値は、下限値と上限値の間で前記第2射影データから検出された前記文字列の両端間の画素数に応じて変動することを特徴とする(1)記載の文字列認識方法。
本発明によれば、媒体上の文字列を認識する文字列認識方法に、文字列の方向と直交する方向(これを「垂直方向」とする)に、画素数を1個ずつ(或いは複数個ずつ)シフトさせながら、文字列の方向(例えば文字列の方向に媒体が搬送されるのであれば、媒体搬送方向)への画像データの射影を計算する第1ステップと、この第1ステップにより得られた第1射影データに基づいて(例えば第1射影データのエッジ検出を行うなどして)、垂直方向における文字列の位置を検出する第2ステップと、を含ませることとし、かつ、上述した第1ステップでは、画像データが文字列の方向へ所定数のセグメントに分割された後、そのセグメントごとに射影計算が行われることとしたので、たとえ画像歪みの方向が垂直方向であったとしても、文字列認識の精度低下を防ぐことができる。
すなわち、例えば文字列が斜めに傾いている場合(或いは、文字列が傾斜をもって走査された場合)において、従来の文字認識方法では、上述した第1ステップにより得られる第1射影データは、文字列のエッジ部分で急峻な波形とならず、なだらかな波形となっていた。そのため、上述した第2ステップで垂直方向における文字列の位置を検出しようとしても、これを正確に検出することは困難であった。しかし、本発明に係る文字列認識方法によれば、上述した第1ステップで、画像データが文字列の方向へ所定数のセグメントに分割された後、セグメントごとに射影を計算するようにしているので、たとえ文字列が斜めに傾いていても、それに起因して第1射影データがなだらかになるという悪影響を抑えることができる。従って、文字列認識の精度低下を防ぐことができる。
ここで、本明細書における「文字」は、一般的なアルファベットだけなく、記号文字や絵文字、バーコード、更には数字なども含み、媒体上で視認できることを条件に如何なる形態・大きさであってもよい。
記文字列認識方法は、さらに、前記第2ステップで検出された前記文字列の位置に基づいて、前記文字列の方向にシフトさせながら、前記垂直方向への前記セグメントの射影を計算する第3ステップと、前記第3ステップにより得られた第2射影データが所定の閾値を超えた箇所を、前記文字列を構成する文字の区切り位置として検出する第4ステップと、を含み、前記閾値は、前記第2射影データから検出された前記文字列の両端間の画素数に応じて変動することを特徴とする。
本発明によれば、上述した文字列認識方法には、さらに、上述した第2ステップで検出された文字列の位置に基づいて(例えば文字列の位置を基準として、文字列がある周辺の画素だけに着目するなどして)、文字列の方向にシフトさせながら、垂直方向へのセグメントの射影を計算する第3ステップと、第3ステップにより得られた第2射影データが所定の閾値を越えた箇所を、文字列を構成する文字の区切り位置として検出する第4ステップと、が含まれ、その閾値は、第2射影データから検出された文字列の両端間の画素数に応じて変動することとしたので、短時間で最適な閾値を設定することができる。
すなわち、本発明で用いる閾値は、文字列を構成する文字の区切り位置を特定するために重要なものとなるが、その閾値の設定を、第3ステップを経て自動的に得られる第2射影データ(から検出された文字列の両端間の画素数)に委ねることで、最適な閾値設定の短縮化を図ることができる。
記閾値は、前記文字列の両端間の画素数が多くなるにつれて大きくなる一方で、前記文字列の両端間の画素数が少なくなるにつれて小さくなることを特徴とする。
本発明によれば、上述した閾値は、文字列の両端間の画素数が多くなるにつれて大きくなる一方で、文字列の両端間の画素数が少なくなるにつれて小さくなることとしたので、例えば、媒体の相対移動速度が遅いときには、文字列の両端間の画素数が多くなる(分解能が高くなる)ため、閾値は大きくなる。その結果、低速時に乗りやすいノイズの悪影響を抑えることが可能になる。一方で、例えば媒体の相対移動速度が速いときには、文字列の両端間の画素数が少なくなる(分解能が低くなる)ため、閾値は小さくなる。ここで、一般的に、媒体の相対移動速度が速いときには、第2射影データの出力が小さくなることが知られている。従って、仮に、閾値が大きいままでは、この第2射影データの出力が小さくなった箇所が、所定の閾値を超えた箇所として検出されず、認識エラーとなる。しかし、本発明では、上述のとおり閾値は小さくなるようにしているため、第2射影データの出力が小さくなった箇所も、所定の閾値を超えた箇所として検出することができ、ひいては文字列認識の精度低下を防ぐことができる。
(3) (1)又は(2)記載の文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えたことを特徴とする文字列認識装置。
本発明によれば、上述した文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えた文字列認識装置を提供することができる。
本発明に係る文字列認識方法及び文字列認識装置によれば、文字列を撮像して得られた画像データに歪みや傾きがあったとしても、文字列認識の精度低下を防ぐことができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
[文字列認識装置]
図1は、本発明の実施の形態に係る文字列認識装置1の電気的構成を示すブロック図である。
図1において、文字列認識装置1は、密着型の(1次元)撮像素子11と、画像メモリ12と、データ処理部13と、を有している。また、データ処理部13は、行切り出し部13aと、文字切り出し部13bと、特徴抽出部13cと、特徴比較部13dと、特徴辞書格納部13eと、類似文字認識部13fと、を有している。なお、これらの各部は、記録担体2上の文字列を認識する文字列認識手段の一例として機能する。
撮像素子11は、記録担体2上のOCR文字列を撮像し、そのOCR文字列の光電変換を行う。そして、それによって得られた画像データは、一旦画像メモリ12に取り込まれる。その後、データ処理部13は、画像メモリ12から画像データを読み出して、上述した各部において様々な処理を施し、最終的に、記録担体2上のOCR文字列を認識するようにしている。
一方で、記録担体2は、JISに準拠している一般的なカードであってもよく、例えば、幅86mm,高さ54mm,厚み0.76mmというサイズのプラスチックカードでもよく、IDカードやパスポートブックなどでもよい。
このような電気的構成からなる文字列認識装置1において、まずは、文字列認識方法の全体的な流れについて説明し、その後、本実施形態特有の流れについて詳細に説明する。
[文字列認識方法]
図2は、本発明の実施の形態に係る文字列認識方法の全体的な流れを示すフローチャートである。
図2に示すように、本実施形態に係る文字列認識方法では、まず、2値化が行われる(ステップS1)。より具体的には、データ処理部13は、画像メモリ12から画像データを読み出して、その画像データが多諧調の濃淡画像である場合には、白黒2値の画像に変換を行う。なお、この画像メモリ12は、RAM,SDRAM,DDRSDRAM,RDRAMなど、画像データを記憶しうるものであれば如何なるものであってもよい。また、2値化するにあたっては、適当な方法によって閾値を求めるものとする。さらに、今後の処理では、この白黒2値化画像を用いることとする。
次いで、行切り出しが行われる(ステップS2)。より具体的には、データ処理部13内の行切り出し部13aは、2値化した文字列を、水平方向に何等分かのセグメントに分割した後、その画素を水平方向に射影して、文字列の上下エッジを検出する。そして、上下エッジの中心位置を、文字列の中心ラインと識別して行切り出しを行う。なお、詳細については、後述する[行切り出し]において説明する。
次いで、文字切り出しが行われる(ステップS3)。より具体的には、データ処理部13内の文字切り出し部13bは、ステップS2で検出された文字列ごとの画像データについて、セグメントごとに垂直方向に射影計算を行う。そして、セグメントごとに求められた垂直射影プロファイルを用いて、文字と文字との間のスペースを識別し、文字の切り出しを行う。なお、詳細については、後述する[文字切り出し]において説明する。
ステップS3の処理が終了すると、認識対象となっている文字の外接矩形領域(上下左右の座標値)が求められる。
次いで、特徴抽出が行われる(ステップS4)。より具体的には、データ処理部13内の特徴抽出部13cは、上述した外接矩形領域を任意のサブ領域に分割(例えば1個の外接矩形領域を5×5の領域に分割し、そのうち1個の領域をサブ領域とする)し、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルを生成する。
次いで、特徴比較が行われる(ステップS5)。より具体的には、データ処理部13内の特徴比較部13dは、ステップS4で求めた特徴ベクトルを、あらかじめこの媒体で使用される全文字について求めておいた基準特徴ベクトルと比較して、類似度(例えば正規化相関係数)が最も高いものをその文字が該当する候補文字に設定する。
なお、基準特徴ベクトルは、予め特徴辞書格納部13eに格納されているものであって、特徴比較が行われる際に、特徴辞書格納部13eから類似度が高い文字のデータが読み出され、特徴比較が行われる。
最後に、文字認識が行われる(ステップS6)。より具体的には、ステップS5の特徴比較によって設定された候補文字を、媒体に用いられた文字として認識する。なお、類似度が一定値を超える候補文字が複数個存在する場合には、文字認識を行うことができないので、類似文字認識部13fにおいて、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別を行う。
例えば、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりしてもよい。また、左右線対称や上下線対象と同様に点対称で類似性を調べてもよい。
以下、本実施形態特有の流れについて説明する。
[行切り出し]
図3は、図2に示すフローチャートにおいて、「行切り出し」(ステップS2)の詳細な流れを示すフローチャートである。
まず、区分的水平射影計算が行われる(ステップS21)。より具体的には、2値化された画像データを文字列の方向へ所定数(ここではA〜Eの5個)のセグメントに分割した後、文字列の方向と直交する垂直方向にシフトさせながら、文字列の方向への画像データの射影を計算する(請求項記載の第1ステップの一例)。
ここで、本実施形態に係る文字列認識方法では、上述したように文字列をA〜Eの5個のセグメントに分割することが特徴的である。ここではまず、セグメントに分割した場合としない場合とを比較するために、セグメントに分割しない場合における「行切り出し」について説明する。
図4は、記録担体2のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データを示す図である。
図4に示す画像データにおいて、文字列の方向(図4では水平方向)への画像データの射影を計算すると(Y軸へ濃度投影すると)、図5に示す第1射影データが得られる。なお、濃度投影とは、いわばヒストグラム(濃度分布図)の一種であり、2値化によって「1」または「0」の濃度に変換された画素を濃度別に合計したものであり、白または黒のどちらを合計値として計算してもよい。
図5は、図4に示す画像データを、文字列の方向へ射影したときの第1射影データを示す図である。
図5に示すように、第1射影データは、文字列の上下エッジの部分で急峻な波形となる。従って、このまま文字列の上下エッジの検出を行った場合、文字列の垂直方向の位置を正確に検出することができる。
図5において、まず、2個の文字列のうち、上側の文字列に着目し、この文字列の上端を上側エッジLTとし、下端を下側エッジLB(>LT)とする。すなわち、この文字列の上下エッジを検出するに当たって、Y軸濃度投影の画素が検出され始めた地点を上側エッジLTとし、画素が検出されなくなった地点を下側エッジLBとする。
そして、ここで検出した上下エッジLT,LBを用いて、上下エッジ間の中心を、中心位置LCとして算出する(例えばLC=(LB+LT)/2により求める)。中心位置LCが求められた文字列において、その中心位置LCを含む線は、文字列の中心線として仮決めされる。この中心線は、後述する文字切り出し処理において、文字ごとの上下エッジを検索する際の基準位置となる。
このように、図5に示す第1射影データが得られている場合には、たとえセグメントに分割しなくても、文字列の垂直方向の正確な位置検出を行うことができる。
ところが、例えば、図6に示す第1射影データが得られたとする。すなわち、文字列が斜めに傾いている場合である。この場合、図6に示す第1射影データについて、文字列の方向への射影計算を行うと、図7に示すようになる。そして、図7に示す第1射影データのプロファイルは、文字列の上下エッジの部分で急峻な波形とならず、なだらかな波形となり、上下エッジLT'とLB'が図7の位置に定められ、加えて中心位置LC'も図7の位置に定められる。これらLT',LB',LC'は、上述したLT,LB,LCとずれており、特に、(LB'−LT')>(LB−LT)となっている。従って、文字列の上下エッジを検出する精度が低くなるのは勿論のこと、文字列の上下エッジ間の距離が(誤って)長く検出されることから、文字列を検索する処理時間が長くなってしまう。なお、媒体の傾斜が大きい場合や媒体搬送中の上下動が大きい場合には、水平射影における2個の凹型パターンが干渉し、文字列の分離判別が更に不正確となる。
このような問題を解決するため、本実施形態に係る文字列認識方法では、図8に示すように、文字列をA〜Eの5個のセグメントに分割している。これにより、各セグメントにおける文字列の傾斜距離を短くすることができるので、第1射影データを計算すると、図9に示すようになる。図9に示す第1射影データは、文字列の上下エッジの部分で、ある程度急峻な波形となっている。従って、たとえ文字列が斜めに傾いていても、それに起因して第1射影データがなだらかになるという悪影響を抑えることができる。具体的には、図7に示す第1射影データを使う場合と比べて、正確に上下エッジの位置(垂直方向における文字列の位置)を検出することができる(請求項記載の第2ステップの一例)。このようにして、文字列認識の精度低下を防ぐことができる。
なお、次に説明する「文字切り出し」の処理の際に、文字列の垂直方向の射影計算があるが、このとき計算する範囲を予めここで決めておく。具体的には、図5に示すように、中心位置LCから上下エッジ間距離(LB−LT)の半分プラスαだけ離れた位置をサーチ起点とする。より詳細には、中心位置LCから上下エッジ間距離の半分とαとだけを減算した位置を上側サーチ起点として、中心位置LCから上下エッジ間距離の半分とαとだけ加算した位置を下側サーチ起点とする。そして、文字列の垂直方向の射影計算のときには、上側サーチ起点から下側サーチ起点までを射影計算するものとする。また、αは、任意の数値であって、文字列に含まれる文字のすべての上下エッジが、上側サーチ起点と下側サーチ起点との間に含まれるように選ばれる。
[文字切り出し]
図10は、図2に示すフローチャートにおいて、「文字切り出し」(ステップS3)の詳細な流れを示すフローチャートである。
まず、垂直射影計算が行われる(ステップS31)。より具体的には、文字列の方向にシフトさせながら、文字列の垂直方向(X軸)へ濃度投影を行い、第2射影データを計算する(請求項記載の第3ステップの一例)。このとき、上述したように、垂直方向の画素の加算は、セグメントごとに求めた上下エッジを両端点の間([LC−(LB−LT)/2−α]〜[LC+(LB−LT)/2+α])で行うようにする。
具体的には、図11に示すように、セグメントA〜Eで、垂直方向の画素の加算範囲(四角枠)を変える。すなわち、図11では、セグメントAからEで加算範囲(四角枠)の幅は変わっていないが、セグメントAからEで加算範囲(四角枠)の位置が変わっている。
次いで、文字ライン長計算が行われる(ステップS32)。より具体的には、ステップS31において得られた第2射影データを用いて検出された文字列の両端間の画素数に応じて、文字ライン長の計算が行われる。図12は、セグメントAからEまでの第2射影データをつなげた図である。図12において、文字ライン長は、Ps地点からPe地点までの画素数が、文字列の両端間の画素数となる。
なお、このPs地点からPe地点までの画素数は、記録担体2をスワイプさせる速度と密接な関係がある。すなわち、スワイプ速度が低速の場合には、この画素数は多くなる(十分な分解能が得られる)一方で、スワイプ速度が高速の場合には、この画素数は少なくなる(十分な分解能が得られない)。
次いで、文字区切り位置検出が行われる(ステップS33)。より具体的には、
垂直射影によって得られた第2射影データには、文字列を構成する文字と文字間の空白部分が含まれているため、第2射影データが所定の閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出する(請求項記載の第4ステップの一例)。この過程を、図13及び図14を用いて詳しく説明する。
図13は、文字列を構成する文字に着目したときの画像データである。また、図14は、図13に示す画像データを垂直射影することによって得られた第2射影データである。なお、図13は、図11におけるセグメントCの「K」から「C」までの画像データを示している。
図14において、各文字間の空白部分は、SLEV(閾値)を超えている区間と一致している。従って、図14の場合には、SLEV(閾値)を超えている区間の画素を、空白部分の画素として正しく認識することができる。なお、記録担体2の相対移動速度が遅い場合には、文字間のスペースに相当する区間は十分な輝度強度と十分な長さをもっているため、また、低速の場合にはノイズが重畳しやすいため、SLEV(閾値)は高めに設定しておくのが一般的である。
ところが、記録担体2の相対移動速度が高速の場合には、相対的に画像の水平方向の分解能が減少し、文字間のスペースに相当する部分の出力が低下する。具体的には、図15に示すようになる。例えば、図15に示す矢印の部分の出力値は、SLEV(閾値)を超えていないことから、文字間のスペースではないと判定される。一方で、図14に示すように、この部分は、スペースに相当する部分である。
このようなことから、本実施形態では、SLEV(閾値)を、記録担体2の相対移動速度の関数として与えることとしている。すなわち、上述したように、記録担体2の相対移動速度と、第2射影データから検出された文字列の両端間の画素数とは相関関係があることから、この画素数に応じてSLEV(閾値)を変動させるようにしている。
以下、閾値計算の一例を示す。なお、Lとは、文字列の両端間の画素数(Ps−Pe)を意味するものとする。
まず、相対移動速度が過渡に低速の場合を考慮して、閾値の上限値をSLEV=Amax(L≧Lmax)とする。また、相対移動速度が過渡に高速の場合を考慮して、閾値の下限値をSLEV=Amin(L≦Lmin)とする。
そして、相対移動速度の長さLが、Lminより大きくLmaxより小さい場合は、SLEV=Amin+Ad(L−Lmin)/(Lmax−Lmin)とする。関数値Adは、文字列の両端間の画素数が多くなるにつれて大きくなる一方で、文字列の両端間の画素数が少なくなるにつれて小さくなるような関数であり、文字列の両端間の画素数に応じて変化する関数であるが、その他、文字間スペースの出力値の低下率やノイズの発生率によって変化する関数であってもよく、最適な閾値を求めるために設定される。また、AminやAmaxは、安定的に文字間スペースが検出可能であるように決めるものとする。
このようにして、行切り出し処理(図2のステップS2参照)によって、各文字の上下エッジが決定され、文字切り出し処理(図2のステップS3参照)によって、各文字の左右境界位置が暫定的に決定されるので、図16に示すように外周矩形領域内における文字が求められる。
図16は、文字列を構成する文字「<」の画像データを示す図である。
図16において、この「<」の文字の位置を正確に特定するために、垂直射影PX及び水平射影PYを計算する。なお、垂直射影PXの計算における画素値の加算範囲λは、文字列切り出し処理において得られている値を用いて、LC−(LB−LT)/2−α<λ<LC+(LB−LT)/2+αと定義する。
このようにして求められたPXに沿って、文字の左右境界位置の検出を行い、矩形領域の左端点を起点としてPXを右方向にスキャンして、そのレベル値(画素の検出)が連続して一定回数(例えば3回)閾値を下回ったら、その最初の地点を文字の左エッジとする。そして、同様に矩形領域の右端点を起点としてPXを左方向にスキャン行い、連続して一定回数、閾値を下回ったらその最初の地点を文字の右エッジとする。なお、この矩形文字領域が、例えば図11に示すような隣接するセグメントの境界に位置する場合は、文字列の中心位置LCが隣接する2つのセグメントの中心位置LC1とLC2の平均値を使うようにする。
次に、水平射影PYについても同様に、文字切り出し処理にて得られている左エッジ位置と右エッジ位置とで区切られた範囲を定義域として行い、矩形領域の上下両端を外側からスキャンして、各レベル値が連続して一定回数、閾値を下回ったら、その最初の地点を文字の上下エッジとする。
このようにして、文字列内の文字位置を特定することができ、特定された位置から特徴抽出を行い(図2のステップS4)、文字認識が行われることになる(図2のステップS6)。
[実施形態の効果]
以上説明したように本実施形態に係る文字列認識方法によれば、たとえ文字列が斜めに傾いていても、それに起因して第1射影データがなだらかになるという悪影響を抑えることができ、ひいては文字列認識の精度低下を防ぐことができる。また、文字列の両端間の画素数に応じて閾値を変動させることとしたので、正確な文字認識が可能になるとともに、平均速度検出が簡易にできることから処理時間の短縮化を図ることができる。すなわち、閾値は媒体の相対移動速度の関数として表現し、媒体移動が高速のときは相対的に小さく、媒体移動が低速のときには相対的に大きな値とするようにしたため、移動速度の差異によって生じるイメージ分解能の相対的な差異による濃度レベル値の変動に柔軟に対応することができ、高い信頼性をもって文字認識を行うことができる。
なお、本実施形態では、1次元撮像素子11,リニア搬送機構を用いることとしたが、本発明はこれらに限定されるものではない。例えば、2次元CCDやCMOSイメージャなどのエリアセンサと被写体支持機構との組み合わせでもよい。また、認識対象としては、活字文字だけでなく、手書き文字にも適用できる。また、文字認識に止まらず、1次元及び2次元バーコードの復号などにも適用できる。
本発明に係る文字列認識方法及び文字列認識装置は、文字列認識の精度低下を防ぐことが可能なものとして有用である。
本発明の実施の形態に係る文字列認識装置の電気的構成を示すブロック図である。 本発明の実施の形態に係る文字列認識方法の全体的な流れを示すフローチャートである。 図2に示すフローチャートにおいて、行切り出しの詳細な流れを示すフローチャートである。 記録担体のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データの一例を示す図である。 図4に示す画像データを、文字列の方向へ射影したときの第1射影データを示す図である。 記録担体のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データの一例を示す図である。 図6に示す画像データを、文字列の方向へ射影したときの第1射影データを示す図である。 文字列をA〜Eの5個のセグメントに分割した様子を示す図である。 図8に示す画像データ(各セグメント)を、文字列の方向へ射影したときの第1射影データを示す図である。 図2に示すフローチャートにおいて、文字切り出しの詳細な流れを示すフローチャートである。 記録担体のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データの一例を示す図である。 セグメントAからEまでの第2射影データをつなげた図である。 文字列を構成する文字に着目したときの画像データである。 図13に示す画像データを垂直射影することによって得られた第2射影データの一例である。 図13に示す画像データを垂直射影することによって得られた第2射影データの一例である。 文字列を構成する文字「<」の画像データを示す図である。
符号の説明
1 文字列認識装置
2 記録担体
11 撮像素子
12 画像メモリ
13 データ処理部
13a 行切り出し部
13b 文字切り出し部
13c 特徴抽出部
13d 特徴比較部
13e 特徴辞書格納部
13f 類似文字認識部

Claims (3)

  1. 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、
    前記文字列の方向と直交する垂直方向にシフトさせながら、前記文字列の方向への前記画像データの射影を計算する第1ステップと、
    前記第1ステップにより得られた第1射影データに基づいて、前記垂直方向における前記文字列の位置を検出する第2ステップと
    前記第2ステップで検出された前記文字列の位置に基づいて、前記文字列の方向にシフトさせながら、前記垂直方向への前記セグメントの射影を計算する第3ステップと、
    前記第3ステップにより得られた第2射影データが所定の閾値を超えた箇所を、前記文字列を構成する文字の区切り位置として検出する第4ステップと、を含み、
    前記第1ステップは、前記画像データを前記文字列の方向へ所定数のセグメントに分割した後、当該セグメントの射影を計算し、
    前記閾値は、前記第2射影データから検出された前記文字列の両端間の画素数が多くなるにつれて大きくなる一方で、該文字列の両端間の画素数が少なくなるにつれて小さくなることを特徴とする文字列認識方法。
  2. 前記閾値は、下限値と上限値の間で前記第2射影データから検出された前記文字列の両端間の画素数に応じて変動することを特徴とする請求項1記載の文字列認識方法。
  3. 請求項1又は2記載の文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えたことを特徴とする文字列認識装置。
JP2006094497A 2006-03-30 2006-03-30 文字列認識方法及び文字列認識装置 Expired - Fee Related JP4658848B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006094497A JP4658848B2 (ja) 2006-03-30 2006-03-30 文字列認識方法及び文字列認識装置
US11/693,139 US7949187B2 (en) 2006-03-30 2007-03-29 Character string recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006094497A JP4658848B2 (ja) 2006-03-30 2006-03-30 文字列認識方法及び文字列認識装置

Publications (2)

Publication Number Publication Date
JP2007272348A JP2007272348A (ja) 2007-10-18
JP4658848B2 true JP4658848B2 (ja) 2011-03-23

Family

ID=38558984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006094497A Expired - Fee Related JP4658848B2 (ja) 2006-03-30 2006-03-30 文字列認識方法及び文字列認識装置

Country Status (2)

Country Link
US (1) US7949187B2 (ja)
JP (1) JP4658848B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565034B2 (en) * 2004-06-17 2009-07-21 Avago Technologies Ecbu Ip (Singapore) Pte. Ltd. Determination of a navigation window in an optical navigation system
JP4495201B2 (ja) * 2007-10-10 2010-06-30 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録する記録媒体
TWI385584B (zh) * 2008-11-05 2013-02-11 Avermedia Information Inc 自動排列手寫字串之裝置及方法
KR101733539B1 (ko) * 2009-11-24 2017-05-10 삼성전자주식회사 문자인식장치 및 그 제어방법
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
JP5647919B2 (ja) * 2011-03-07 2015-01-07 株式会社Nttドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP5906788B2 (ja) * 2012-02-17 2016-04-20 オムロン株式会社 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
US9053359B2 (en) 2012-06-07 2015-06-09 Konica Minolta Laboratory U.S.A., Inc. Method and system for document authentication using Krawtchouk decomposition of image patches for image comparison
CN102982331A (zh) * 2012-12-05 2013-03-20 曙光信息产业(北京)有限公司 在图像中识别字符的方法
US9230383B2 (en) 2012-12-28 2016-01-05 Konica Minolta Laboratory U.S.A., Inc. Document image compression method and its application in document authentication
CN105809170B (zh) * 2016-03-04 2019-04-26 东软集团股份有限公司 字符识别方法和装置
CN110399875A (zh) * 2019-07-31 2019-11-01 山东浪潮人工智能研究院有限公司 一种基于深度学习与像素投影的通用表格信息提取方法
JP7137170B1 (ja) * 2021-03-22 2022-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58106665A (ja) * 1981-12-18 1983-06-25 Ricoh Co Ltd 文字行切出し方法
JPS58146973A (ja) * 1982-02-25 1983-09-01 Ricoh Co Ltd 文字行および文字の切出し方法
JPH0315995A (ja) * 1988-06-02 1991-01-24 Ricoh Co Ltd 文字切り出し方法
JPH08305795A (ja) * 1995-04-28 1996-11-22 Nippon Steel Corp 文字認識方法
JPH11272803A (ja) * 1998-01-22 1999-10-08 Fujitsu Ltd 住所認識装置及び住所認識方法
JP2001043313A (ja) * 1999-07-30 2001-02-16 Toshiba Corp 文字切出し方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827529A (en) * 1987-04-14 1989-05-02 Nippon Sheet Glass Co., Ltd. Lines and characters separation apparatus
US5062141A (en) 1988-06-02 1991-10-29 Ricoh Company, Ltd. Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition
JPH02268388A (ja) * 1989-04-10 1990-11-02 Hitachi Ltd 文字認識方法
US5253305A (en) * 1991-06-25 1993-10-12 Industrial Technology Research Institute Character boundary identification method and system
JPH0573722A (ja) 1991-09-17 1993-03-26 Oki Electric Ind Co Ltd 文字認識装置
JPH05120483A (ja) 1991-10-25 1993-05-18 Seiko Epson Corp 文字認識装置
US5613017A (en) * 1994-09-29 1997-03-18 Kabushiki Kaisha Toshiba Apparatus for processing image data among media having different image output sizes
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
JP2974061B2 (ja) * 1996-11-13 1999-11-08 日本電気株式会社 パタン抽出装置
US7302098B2 (en) * 2004-12-03 2007-11-27 Motorola, Inc. Character segmentation method and apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58106665A (ja) * 1981-12-18 1983-06-25 Ricoh Co Ltd 文字行切出し方法
JPS58146973A (ja) * 1982-02-25 1983-09-01 Ricoh Co Ltd 文字行および文字の切出し方法
JPH0315995A (ja) * 1988-06-02 1991-01-24 Ricoh Co Ltd 文字切り出し方法
JPH08305795A (ja) * 1995-04-28 1996-11-22 Nippon Steel Corp 文字認識方法
JPH11272803A (ja) * 1998-01-22 1999-10-08 Fujitsu Ltd 住所認識装置及び住所認識方法
JP2001043313A (ja) * 1999-07-30 2001-02-16 Toshiba Corp 文字切出し方法

Also Published As

Publication number Publication date
US7949187B2 (en) 2011-05-24
US20070230784A1 (en) 2007-10-04
JP2007272348A (ja) 2007-10-18

Similar Documents

Publication Publication Date Title
JP4658848B2 (ja) 文字列認識方法及び文字列認識装置
US8315462B2 (en) Apparatus and method for character string recognition
US8401299B2 (en) Character line recognition method and character line recognition device
JP4911340B2 (ja) 二次元コード検出システムおよび二次元コード検出プログラム
EP1619604B1 (en) Code type determining method and code boundary detecting method
US8254683B2 (en) Code image processing method
Fujinaga Staff detection and removal
JP6268023B2 (ja) 文字認識装置およびその文字切り出し方法
JP4945739B2 (ja) 文字列認識方法及び文字列認識装置
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
JP5140820B2 (ja) シンボル情報読取装置及びシンボル情報読取方法
US8200016B2 (en) Method and apparatus for character string recognition
US8184895B2 (en) Method and apparatus for magnetic character recognition
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP4398498B2 (ja) コード境界検出方法
JP5379626B2 (ja) スタック型バーコード情報読取方法及びスタック型バーコード情報読取装置
JP2007102386A (ja) シンボル情報読取方法及びシンボル情報読取装置
JP6144892B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP5453594B2 (ja) シンボル情報読取装置及びシンボル情報読取方法
JP4403063B2 (ja) シンボル情報読取方法及びシンボル情報読取装置
JP3334369B2 (ja) 選択項目認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4658848

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees