JP5334042B2 - 文字列認識方法及び文字列認識装置 - Google Patents

文字列認識方法及び文字列認識装置 Download PDF

Info

Publication number
JP5334042B2
JP5334042B2 JP2008298875A JP2008298875A JP5334042B2 JP 5334042 B2 JP5334042 B2 JP 5334042B2 JP 2008298875 A JP2008298875 A JP 2008298875A JP 2008298875 A JP2008298875 A JP 2008298875A JP 5334042 B2 JP5334042 B2 JP 5334042B2
Authority
JP
Japan
Prior art keywords
character
character string
processing
similarity
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008298875A
Other languages
English (en)
Other versions
JP2010123090A (ja
JP2010123090A5 (ja
Inventor
宏 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nidec Instruments Corp
Original Assignee
Nidec Sankyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nidec Sankyo Corp filed Critical Nidec Sankyo Corp
Priority to JP2008298875A priority Critical patent/JP5334042B2/ja
Priority to US12/623,826 priority patent/US8401299B2/en
Publication of JP2010123090A publication Critical patent/JP2010123090A/ja
Publication of JP2010123090A5 publication Critical patent/JP2010123090A5/ja
Application granted granted Critical
Publication of JP5334042B2 publication Critical patent/JP5334042B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、紙やプラスチックなどの媒体上にある文字列を光学的に読み取る文字列認識方法及び文字列認識装置に関する。
従来から、例えば小切手などの媒体表面に印刷された文字列を認識するための装置がある。例えば、2値化された画像データから文字部分を検出して、その文字部分を外接矩形枠に沿って切り出し、得られた文字パターンから特徴量を抽出し、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求め、その類似度の大きさにより候補文字を選択する、といった文字認識装置などが数多く知られている。
このような文字認識装置の中には、認識精度を向上させるために、認識結果に基づいて2値化をやり直すなどの様々な工夫を施したものが存在する(例えば特許文献1〜3参照)。
より具体的に説明すると、特許文献1に開示された技術では、文字認識の結果と黒点数の計数結果によって、多値画像を2値化しなおす必要があるか否かを判定し、必要があれば、当初の閾値とは異なる閾値を設定し、その新たな閾値を用いて多値画像を2値化するようにしている。特許文献2に開示された技術では、初期の2値化条件で正解が得られなかった場合に、中間階調数の集計結果に基づいてフィルタ或いは閾値を変更し、前処理から認識処理までを再実行するようにしている。特許文献3に開示された技術では、個別パターン照合結果について根拠となったスコア値が、経時的な統計処理結果に基づいて設定された警告判定枠に入った場合に、撮像系や閾値を変更し、スキャンから認識処理までを再実行するようにしている。
特開平09−016715号公報 特開平10−222602号公報 特開2004−118611号公報
しかしながら、特許文献1に開示された技術は、許容範囲を満たさないものについてのみ再度2値化を行って、全体として閾値が適正であるか否かの判断は行われないため、認識結果に対する十分な信頼性確保の点で問題がある。また、特許文献2に開示された技術も、同様に不読文字への局所的な適用のため、全体としての認識結果の信頼性を向上することに対して十分でない。なお、特許文献3に開示された技術は、撮像のやり直しを伴うものであり、処理時間の迅速化要請に反するものである。
本発明は、このような点に鑑みてなされたものであり、その目的は、文字列認識の認識結果、特に文字列全体としての認識結果に対する信頼性を高めることが可能な文字列認識方法及び文字列認識装置を提供することにある。
以上のような課題を解決するために、本発明は、以下のものを提供する。
(1) 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、前記画像データを所定の2値化基準閾値を用いて白黒の2値画像データに加工する加工ステップと、前記文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて暫定的に文字判定を行う暫定的文字判定ステップと、前記暫定的文字判定ステップで暫定的に判定された全ての文字に関する前記類似度の基本統計量を算出する基本統計量算出ステップと、前記基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更した後、処理を前記加工ステップに戻す処理戻しステップと、を含み、前記処理戻しステップは、前記基本統計量算出ステップで算出された基本統計量に応じて複数の評価カテゴリに分類され、前記評価カテゴリは、前記類似度算出ステップにおける前記基準文字特徴量との類似度に基づく評価カテゴリの他に、文字列認識中に発生したハードエラー又はソフトエラーを示す評価カテゴリをも含み、分類された評価カテゴリに基づいて、前記2値化基準閾値を変更することを特徴とする文字列認識方法。
本発明によれば、文字列認識方法において、媒体上の文字列を撮像して得られた画像データを、所定の2値化基準閾値を用いて白黒の2値画像データに加工し、文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出し、類似度に基づいて暫定的に文字判定を行い、暫定的に判定された全ての文字に関する類似度の基本統計量を算出し、その基本統計量に基づいて、2値化基準閾値を変更した後、画像データを加工するステップに処理を戻す、という一連の処理が含まれるようにしたので、文字列認識の認識結果に対する信頼性を高めることができる。
すなわち、暫定的な文字判定を行った後に、基本統計量が好ましくない数値の場合には、2値化基準閾値を変更した上で、再度一連の処理を行うことができるので、全体として2値化基準閾値が適正かどうかを把握することができ、ひいては信頼性を高めることができる。特に、本発明は、個々の文字認識の認識結果に対する信頼性を高めるというより、文字列全体としての認識結果(文字列認識の認識結果)に対する信頼性を高めることが可能な点で特有の効果を奏する。なお、本発明は、撮像のやり直しを伴うものではないため、処理時間の長期化を防ぐことができる。
ここで、本発明中の「2値化基準閾値」とは、白黒の2値画像データを得るために用いられる閾値である。また、本発明において、媒体上の文字列を撮像して画像データを得るにあたって、例えば1次元撮像素子や2次元CCDなど、如何なる手段を用いても構わない。
(2) 前記加工ステップが終了してから前記類似度算出ステップまでの間に、前記2値画像データを前記文字列の方向にシフトさせながら、前記文字列の方向と直交する垂直方向への前記2値画像データの垂直射影を計算する射影計算ステップと、前記射影計算ステップにより得られた垂直射影データが所定の境界判定閾値を超えた箇所を、前記文字列を構成する文字の区切り位置として検出する区切り位置検出ステップと、前記区切り位置検出ステップで検出された文字の区切り位置に基づいて、文字に外接する矩形を求める外接矩形算出ステップと、を含み、前記類似度算出ステップは、前記矩形内の文字特徴量を抽出して、前記基準文字特徴量との類似度を算出することを特徴とする文字列認識方法。
本発明によれば、上述した加工ステップが終了してから類似度算出ステップまでの間に、2値画像データを文字列の方向にシフトさせながら、文字列の方向と直交する垂直方向への2値画像データの垂直射影を計算し、垂直射影データが所定の境界判定閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出し、文字の区切り位置に基づいて、文字に外接する矩形を求める処理を含む。そして、この矩形内の文字特徴量を抽出することで上述した類似度算出ステップを実行することとしたので、例えば1次元撮像素子やリニア搬送機構によって画像データが得られる文字列認識装置であっても、文字列全体としての認識結果に対する信頼性を高めることができる。
ここで、「境界判定閾値」とは、文字の区切り位置を検出する際に用いられる閾値であって、上述した「2値化基準閾値」とは異なる概念である。
また、本発明の文字列認識方法における前記処理戻しステップは、前記基本統計量算出ステップで算出された基本統計量に応じて、複数の評価カテゴリに分類し、分類された評価カテゴリに基づいて、前記2値化基準閾値を変更することから、上述した処理戻しステップにおいて、基本統計量算出ステップで算出された基本統計量に応じて、複数の評価カテゴリに分類し、分類された評価カテゴリに基づいて、2値化基準閾値を変更することとしたので、予め複数の評価カテゴリテーブルを設けておけば(例えば記憶媒体に記憶しておけば)、簡易に2値化基準閾値を変更することができ、全体として認識結果に対する信頼性を簡易に高めることができる。
(3) 前記処理戻しステップは、前記基本統計量を前記類似度の最小値として、該最小値に応じて、4個の評価カテゴリに分類するものであって、前記4個の評価カテゴリは、前記基準文字特徴量との類似度に基づく2個の評価カテゴリの他に、文字列認識中に発生したハードエラー及びソフトエラーを示す2個の評価カテゴリであることを特徴とする文字列認識方法。
本発明によれば、上述した処理戻しステップにおいて、基本統計量算出ステップで算出された基本統計量を類似度の最小値として、該最小値に応じて、評価カテゴリに分類することとしたので、最小値という簡易な数値を用いて、認識結果に対する信頼性を更に簡易に高めることができる。
(4) 前記処理戻しステップは、前記2値化基準閾値を少なくとも3回以上変更する場合において、第3回目のサイクルでは、第1回目のサイクルにおいて分類されたカテゴリおよび第2回目のサイクルにおいて分類されたカテゴリに基づいて前記2値化基準閾値を変更することを特徴とする文字列認識方法。
(5) 前記処理戻しステップは、前記2値化基準閾値を変更するにあたって、前記基本統計量算出ステップで算出された基本統計量が改善するように変更することを特徴とする文字列認識方法。
本発明によれば、上述した処理戻しステップにおいて、2値化基準閾値を変更するにあたって、基本統計量算出ステップで算出された基本統計量が改善するように変更することとしたので、基本統計量を最大限に活用しつつ、2値化基準閾値を変更することができる。
(6) 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、前記画像データを所定の2値化基準閾値を用いて白黒の2値画像データに加工する加工ステップと、前記文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出する類似度算出ステップと、前記類似度に基づいて暫定的に文字判定を行う暫定的文字判定ステップと、前記暫定的文字判定ステップで暫定的に判定された全ての文字に関する前記類似度の基本統計量を算出する基本統計量算出ステップと、前記基本統計量算出ステップで算出された基本統計量に基づき、全ての文字に関する文字列全体としての認識結果を複数の評価カテゴリに分類する評価カテゴリ分類ステップと、前記分類された評価カテゴリに基づいて、前記2値化基準閾値を変更した後、処理を前記加工ステップに戻す処理戻しステップと、を含み、前記評価カテゴリは、前記複数の評価カテゴリの他に、文字列認識中に発生したハードエラー又はソフトエラーを示す評価カテゴリをも含み、前記処理戻しステップは、前記評価カテゴリ分類ステップで分類された評価カテゴリおよび前記基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更することを特徴とする文字列認識方法。
本発明によれば、文字列認識方法において、媒体上の文字列を撮像して得られた画像データを、所定の2値化基準閾値を用いて白黒の2値画像データに加工し、文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出し、類似度に基づいて暫定的に文字判定を行い、暫定的に判定された全ての文字に関する文字列全体としての認識結果を複数の評価カテゴリに分類し、分類された評価カテゴリに基づいて、2値化基準閾値を変更した後、画像データを加工するステップに処理を戻す、という一連の処理が含まれるようにしたので、文字列認識の認識結果に対する信頼性を高めることができる。
(7) 前記処理戻しステップは、先行する処理戻しステップ後の再処理において前記2値化基準閾値を変更するにあたって、前記加工ステップ、類似度算出ステップおよび暫定的文字判定ステップを繰り返した結果に基づき、文字列全体としての認識結果が改善するように変更することを特徴とする文字列認識方法。
本発明によれば、上述した処理戻しステップでは、先行する処理戻しステップ後の再処理において2値化基準閾値を変更するにあたって、加工ステップ、類似度算出ステップおよび暫定的文字判定ステップを繰り返した結果に基づき、文字列全体としての認識結果が改善するように変更することとしたので、文字列認識の認識結果に対する信頼性を高めることができる。
また、本発明の文字列認識方法は、さらに、前記暫定的文字判定ステップで暫定的に判定された全ての文字に関する前記類似度の基本統計量を算出する基本統計量算出ステップを備え、前記処理戻しステップは、前記評価カテゴリ分類ステップで分類された評価カテゴリおよび前記基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更することから、文字列認識方法は、さらに、上述の暫定的文字判定ステップで暫定的に判定された全ての文字に関する類似度の基本統計量を算出する基本統計量算出ステップを備え、処理戻しステップは、評価カテゴリ分類ステップで分類された評価カテゴリおよび基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更することとしたので、評価カテゴリと基本統計量の両者に基づき、文字列認識の認識結果に対する信頼性を更に高めることができる。
(8) 前記処理戻しステップは、前記2値化基準閾値を少なくとも3回以上変更する場合において、第3回目のサイクルでは、第1回目のサイクルにおいて分類されたカテゴリおよび第2回目のサイクルにおいて分類されたカテゴリに基づいて前記2値化基準閾値を変更することを特徴とする文字列認識方法。
(9) 前記処理戻しステップは、前記2値化基準閾値を変更するにあたって、前記基本統計量算出ステップで算出された基本統計量が改善するように変更することを特徴とする文字列認識方法。
本発明によれば、上述した処理戻しステップは、2値化基準閾値を変更するにあたって、基本統計量算出ステップで算出された基本統計量が改善するように変更することとしたので、基本統計量を最大限に活用しつつ、2値化基準閾値を変更することができる。
(10) (1)から(9)のいずれか記載の文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えたことを特徴とする文字列認識装置。
本発明によれば、上述した文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えた文字列認識装置を提供することができる。
本発明に係る文字列認識方法及び文字列認識装置によれば、基本統計量を用いて、全体として、2値化基準閾値が適正かどうかを把握することができるので、文字列認識の認識結果に対する信頼性を簡易に高めることができる。また、撮像のやり直しが必要なく、処理時間の長期化を防ぐことができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
[文字列認識装置]
図1は、本発明の実施の形態に係る文字列認識装置1の電気的構成を示すブロック図である。
図1において、文字列認識装置1は、密着型の(1次元)撮像素子11と、画像メモリ12と、データ処理部13と、文字出力部14(例えばモニタ等)と、を有している。また、データ処理部13は、2値化部13aと、行切り出し部13bと、射影生成部13cと、閾値算出部13dと、文字境界決定部13eと、文字切り出し部13fと、特徴抽出部13gと、特徴比較部13hと、特徴辞書格納部13iと、スコア集計部13jと、再実行判定部13kと、を有している。なお、これらの各部は、記録担体2上の文字列を認識する文字列認識手段の一例として機能する。また、これらの各部は、CPUまたはMPUやRAM,ROMなどの電気要素によって、ハードウェア的に実現することができる。
撮像素子11は、記録担体2上のOCR文字列を撮像し、そのOCR文字列の光電変換を行う。そして、それによって得られた画像データは、一旦画像メモリ12に取り込まれる。その後、データ処理部13は、画像メモリ12から画像データを読み出して、上述した各部において様々な処理を施し、最終的に、記録担体2上のOCR文字列を認識するようにしている。
一方で、記録担体2は、JISに準拠している一般的なカードであってもよく、例えば、幅86mm,高さ54mm,厚み0.76mmというサイズのプラスチックカードでもよく、IDカードやパスポートブック、或いは運転免許証などでもよい。
[文字列認識方法]
図2は、本発明の実施の形態に係る文字列認識方法を示すフローチャートである。なお、本実施形態では、上述した1次元撮像素子11を用いて画像データを得るため、後述する射影計算(ステップS3)や文字切り出し(ステップS6)の処理を行っているが、場合によっては一定の処理(ステップS2〜ステップS6)を省略しても構わない。
図2に示すように、本実施形態に係る文字列認識方法では、まず、2値化処理が行われる(ステップS1)。より具体的には、データ処理部13の2値化部13aは、画像メモリ12から画像データを読み出して、その画像データが多諧調の濃淡画像である場合には、白黒2値の画像(2値画像データ)に変換を行う。なお、この画像メモリ12は、RAM,SDRAM,DDRSDRAM,RDRAMなど、画像データを記憶しうるものであれば如何なるものであってもよい。また、このステップS1は、画像データを所定の2値化基準閾値を用いて白黒の2値画像データに加工する「加工ステップ」の一例に相当する。
次いで、行切り出しが行われる(ステップS2)。より具体的には、データ処理部13の行切り出し部13bは、2値化した文字列を水平方向に射影して、文字列の上下エッジを検出する。そして、上下エッジの中心位置を、文字列の中心ラインと識別して行切り出しを行う。
次いで、射影計算が行われる(ステップS3)。より具体的には、データ処理部13の射影生成部13cは、ステップS3で検出された文字列ごとの画像データ(2値画像データ)について、文字列の垂直方向に射影計算(濃度投影)を行う。これは、文字列ごとに水平方向の文字の区切り位置を検索するために必要な処理である。
なお、このステップS3は、2値画像データを文字列の方向にシフトさせながら、文字列の方向と直交する方向への2値画像データの垂直射影を計算する「射影計算ステップ」の一例に相当する。また、濃度投影とは、いわばヒストグラム(濃度分布図)の一種であり、2値化によって「1」または「0」の濃度に変換された画素を、濃度別に合計したものであり、白または黒のどちらを合計値として計算してもよい。もちろん、濃度投影は輝度投影と置き換えてもよい。また、水平軸(X軸)に対する垂直方向の画素の加算は、ステップS2の行切り出しにおいて求めた文字列(文字ライン)上下エッジ(+α)を両端点とする範囲で行うように設定する。
このステップS3に関して具体例を示す。図3は、記録担体2のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データを示す図である。また、図4は、図3に示す画像データ(上段または下段の一列)を垂直射影した結果(一例)を示す図である。
図4に示すように、文字ライン長(文字列の両端間の画素数)は、垂直射影データにおいてPs地点からPe地点までの画素数となる。このPs地点からPe地点までの画素数は、記録担体2をスワイプさせる速度と密接な関係がある。すなわち、スワイプ速度が低速の場合には、この画素数は多くなる(十分な分解能が得られる)一方で、スワイプ速度が高速の場合には、この画素数は少なくなる。
ここで、図5は、文字列を構成する文字「KO<BC」に着目したときの画像データである。また、図6は、図5に示す画像データを垂直射影することによって得られた垂直射影データ(一例)である。なお、図5は、図3中の「K」から「C」までの画像データを示している。
次に、文字境界判定のための閾値を計算する(ステップS4)。より具体的には、データ処理部13の閾値算出部13dは、垂直射影データに含まれる全ての正のピークを検出し、その正ピーク値に関するヒストグラムを作成する(メモリ上で仮想的に考える)。そして、この正ピーク値ヒストグラムにおいて、最大値から最小値の方向への累積度数を求め、その累積度数が、想定される文字の個数を超えるポイントを検出し、そのポイントにおけるピーク値を閾値に設定する。
このステップS4について、図7〜図9を用いて具体例を説明する。図7は、図3に示す画像データを垂直射影した結果(一例)を示す図である。図8は、図7に示す垂直射影データにおいて、正のピーク値のヒストグラム(所定ピーク値を示す上に凸のピークの度数)を示す図である。図9は、図8のヒストグラムについて、ピーク値の最大値から最小値の方向への累積度数(所定ピーク値以上のピークの累積度数)を求めた図である。なお、図8では、横軸を所定ピーク値、縦軸を度数としており、図9では、横軸を所定ピーク値、縦軸を累積度数としている。
図8によれば、例えばピーク値が220前後となっているものが全部で5個存在している一方で、大半のピーク値は、255付近に密集していることが分かる。そして、図9によれば(図9に示す折れ線を右端から左方へ辿っていくと)、255付近で正のピーク値の累積度数が急激に増え、その後、ピーク値が小さくなるにつれて、なだらかに増加している。
ここで、仮に認識すべき文字の個数が44個であったとすると、図9において累積度数が44を超える時点におけるピーク値、すなわち累積度数が45(認識すべき文字の個数+1)となる時点におけるピーク値225が、境界判定閾値(図7でいうSLEV)となる。このように、本実施形態では、境界判定閾値は、垂直射影データに含まれる正のピーク値を大きい方から順に並べたとき、最も大きなピーク値から数えて、文字列を構成する文字の個数に1を加えた個数番目に相当するピーク値となっている。
次に、文字境界決定(文字境界検出)処理が行われる(ステップS5)。より具体的には、データ処理部13の文字境界決定部13eは、射影プロファイルのレベル値を、ステップS4において求められた境界判定閾値と比較して、境界判定閾値を超えている区間を文字と文字との間のスペースと判定する(文字境界を決定する)。なお、例えばSLEVを超えている区間の両側端点の中点を境界位置とするようにしてもよい。また、このステップS5は、ステップS4において得られた垂直射影データが所定の境界判定閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出する「区切り位置検出ステップ」の一例に相当する。
このようにして、ステップS5の処理によって、各文字の左右境界位置が暫定的に決定されると、図10に示すように外周矩形領域内における文字が求められる。図10は、文字列を構成する文字「<」の画像データを示す図である。
図10において、この「<」の文字の位置を正確に特定するために、垂直射影PX及び水平射影PYを計算する。そして、求められたPXに沿って、文字の左右境界位置の検出を行い、矩形領域の左端点を起点としてPXを右方向にスキャンして、そのレベル値(画素の検出)が連続して一定回数(例えば3回)閾値を下回ったら、その最初の地点を文字の左エッジとする。そして、同様に矩形領域の右端点を起点としてPXを左方向にスキャンして、連続して一定回数、閾値を下回ったらその最初の地点を文字の右エッジとする。
次に、水平射影PYについても同様に、境界決定処理にて得られている左エッジ位置と右エッジ位置とで区切られた範囲を定義域として行い、矩形領域の上下両端を外側からスキャンして、各レベル値が連続して一定回数、閾値を下回ったら、その最初の地点を文字の上下エッジとする。このようにして、文字列内の文字位置を特定し、文字切り出し(ステップS6)を行うことができる。なお、このステップS6は、ステップS5で検出された文字の区切り位置に基づいて、文字に外接する矩形(図10の4本の点線で囲まれた部分)を求める「外接矩形算出ステップ」の一例に相当する。このようにして、文字に外接する矩形を求めることによって、基準文字特徴量との類似度を算出する次の処理を行う際に、(余白があることに起因した)誤差を少なくすることができ、ひいては文字認識の精度を高めることができる。
次に、特徴抽出が行われる(ステップS7)。より具体的には、データ処理部13の特徴抽出部13gは、上述した外接矩形領域を任意のサブ領域に分割(例えば1個の外接矩形領域を5×5の領域に分割し、そのうち1個の領域をサブ領域とする)し、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルを生成する。
次に、特徴比較が行われる(ステップS8)。より具体的には、データ処理部13の特徴比較部13hは、ステップS7で求めた特徴ベクトルを、予め記録担体2で使用される全文字(つまり、予め辞書登録された基準文字)について求めておいた基準特徴ベクトルと比較して、類似度(例えば正規化相関係数)を求める。そして、求めた類似度が高い文字を該当する候補文字に設定する文字判定が行われる(ステップS9)。
ここで、基準特徴ベクトルは、予め特徴辞書格納部13iに格納されているものであって、特徴比較が行われる際に、特徴辞書格納部13iから特徴比較部13hへ読み出され、比較対象の矩形内の文字のデータ(ステップS7で求めた特徴ベクトル)との特徴比較が行われる。なお、ステップS7及びステップS8は、ステップS6で切り出された矩形内の文字特徴量を抽出して、基準文字特徴量との類似度を算出する「類似度算出ステップ」の一例に相当する。
次に、文字判定(ステップS9)では、ステップS8の特徴比較によって求めた類似度に基づいて設定された候補文字を、記録担体2に用いられた文字として認識する。このステップS9は、類似度に基づき暫定的に文字判定を行う「暫定的文字判定ステップ」の一例に相当する。なお、以下では、この暫定的に判定された文字を暫定判定文字という。
ここで、類似度の一定値以上のものを候補文字とすると、候補文字として1文字が設定される場合もあれば、いくつかの文字が設定される場合もある。例えば、類似度が一定値(0.6など)を超える候補文字が複数個存在する場合には、一旦、類似度が最も高い文字を暫定判定文字と判定する。そして、この暫定判定文字の類似度、すなわち候補文字の類似度が最も高い値をスコア値と定義する。なお、類似度およびスコア値は、候補文字の特徴ベクトルと基準特徴ベクトルが完全に一致する場合に1.0であって、0以上の数値で表される。
また、複数の候補文字の類似度に有意な差が無く文字認識を行うことができない場合には、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別を行い暫定判定文字を決定してもよい。
例えば、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりしてもよい。また、左右線対称や上下線対称と同様に点対称で類似性を調べてもよい。
さらには、ひとつの文字について3種類の形状特徴量が得られたので、それらの値の相互関係から、該当する文字を対応付けてもよい。また、これでも分離できない場合もあり得る。例えば、記録担体2に用いられる文字タイプによっては、'O'と'0'の判別が難しい場合がある。この場合、例えば、文字の高さの違いや、四隅の曲率の違いを調べるなどにより、判別することができる。
ここで、本実施形態に係る文字列認識方法では、ステップS9までの一連の文字判定処理が終わった後、再実行判定部13kにおいて再実行判定処理が行われる。図2中の点線枠内の処理、すなわちステップS13およびこれに先行する処理がこれに相当する。なお、ステップS9までの処理は、主として、個々の"文字認識"の精度を向上させるための処理であるが、ステップS10以降の処理は、文字列全体に着目し、"文字列認識"の精度を向上させるための処理となる。
この再実行判定処理では、2値化基準閾値を変更すると類似度及びスコア値が改善または劣化されることに注目し、エラー要因、すなわち後述する評価カテゴリの分類を考慮して、文字認識の精度を向上させるように2値化基準閾値を一定の方式で変更している。換言すると、この再実行判定処理では、文字列認識結果をエラー要因により複数の評価カテゴリに分類し、分類された評価カテゴリに基づいて、再実行の要否を決めると同時に、再実行する次のサイクル(ステップS1〜S13)で適用される2値化基準閾値を変更する方向を決定する。
ここで、前提となる2値化基準閾値の特性について説明する。一般に、2値化基準閾値が相対的に低い場合には、2値化画像における文字線は細くなり、逆に相対的に高い場合には文字線は太くなる。この文字線の太さが基準文字画像の文字太さと著しく異なると、特徴比較処理(ステップS8)において類似度が小さくなり、したがって、スコア値が例えば0.5等と小さい値を示すことになる。2値化基準閾値が適正であれば、類似度つまりスコア値は0.9など、相対的に大きい値となる。すなわち、真の文字である確率が高くなる。そこで、本実施形態では、類似度およびスコア値を改善させ、文字認識の精度を向上させるように2値化基準閾値を変更している。
次に、文字列認識結果の評価をするためにエラー要因に基づき準備される複数の評価カテゴリについて説明する。本実施形態では、文字列認識結果は次のようにカテゴリ1からカテゴリ4に分類する。なお、ここでエラー要因とは、エラー(障害事象)の要因およびその要因の文字認識における影響度の水準を含む概念である。
まず、第1の評価カテゴリ(カテゴリ1)は、文字認識に至る前に処理を打ち切らざるを得ないような比較的重大なエラー(いわゆるハードエラー)である。具体的には、記録担体2の文字が正しく印刷されていて、適切な照明条件で画像取り込みが行われれば、認識処理は個々の文字認識まで正常に実行される。しかし、記録担体2の文字の印刷色が薄かったり、媒体(記録担体2)搬送速度が異常に速かったりするような場合は、文字切り出しを正しく行うことができない等の理由により、文字認識を遂行することができない。このようなエラーを第1の評価カテゴリとする。
第2の評価カテゴリ(カテゴリ2)は、文字認識まで完了できたものの、文字の認識結果に誤りがあった場合、文字認識を遂行することができない比較的軽微なエラー(いわゆるソフトエラー)である。このソフトエラーは、ステップS8における暫定判定文字の類似度つまりスコア値が所定の基準(例えば0.6)に満たない低い値であった場合や、実際とは異なる文字に判定されてしまった場合に起こる文字誤りである。このソフトエラーを第2の評価カテゴリとする。なお、このスコア値に関する所定の基準を以下では、スコア判定閾値という。
また、第3の評価カテゴリ(カテゴリ3)として、ソフトエラーは発生しなかったが、認識対象の文字列を形成する暫定判定文字のスコア値の中に比較的小さいものがあった場合が考えられる。これは、照明むらや速度むら等の理由で、その文字に限って文字線が部分的に太くなりすぎたり、細くなりすぎたりするような場合が該当する。さらに、第4の評価カテゴリ(カテゴリ4)は、ソフトエラーがなく、いずれの暫定判定文字のスコア値もスコア判定閾値を上回っている場合である。
次に、文字列認識結果を各カテゴリに分類する様子について図2により説明する。先ず、カテゴリ1に該当するハードエラーで文字認識を遂行することができない場合は、ステップS5の文字境界検出が不能であったと判断され(ステップS5a:NO)、2値化基準閾値を変更する処理(ステップS13)に移行する。また、文字境界検出が可能であった場合(ステップS5a:YES)は、次の文字切り出し(ステップS6)へ進む。なお、行切り出し(ステップS2)が不能であった場合も同様にハードエラーとして、ステップS13へ移行するようにしてもよい。
カテゴリ2に該当するソフトエラーの文字誤りは、暫定的文字判定ステップ(S9)で判定された文字に基づく文字列をチェックサム(checksum)により判定する(ステップS9a)。具体的には、判定された文字に基づく文字列について、各文字に所与の値の合計値と文字列にあらかじめ付与されたチェックデジット(正しい文字列の合計値)とを比較し、数値が不一致の場合(ステップS9a:NO)、2値化基準閾値を変更する処理(ステップS13)に移行する。また、ソフトエラーが検出されない場合(ステップS9a:YES)は、後述するスコア値統計処理(ステップS10)へ進む。
ハードエラーもソフトエラーも無く、カテゴリ1にも2にも該当しない場合、すなわち、カテゴリ3また4に該当する場合は、スコア値統計処理が行われる(ステップS10)。具体的には、文字列認識結果を判定する基準として、認識対象画像に含まれる識別対象文字のスコア値(すなわち、認識対象の文字列を形成する暫定判定文字の類似度)の総数、最大値、最小値、平均値、標準偏差、ばらつきなどを計算する。これらスコア値の総数、最大値、最小値、平均値、標準偏差、ばらつきは、基本統計量の一例である。なお、このスコア値統計処理(ステップS10)は、ステップS9の文字判定処理で暫定的に判定された全ての文字に関する類似度(スコア値)の基本統計量を算出する「基本統計量算出ステップ」の一例に相当する。
次に、ステップS10で求めたスコア値の基本統計量に基づき文字列認識結果の評価が行われる(ステップS11)。このステップS11では、カテゴリ3とカテゴリ4の分類が行われる。具体的には、採用する基本統計量の種類に応じあらかじめ実験や経験に基づいて設定した任意の閾値と基本統計量とを比較してカテゴリの分類を判定する。具体例は後述する。
そして、ステップS11での評価結果が妥当でない場合(ステップS11:NO)は、カテゴリ3に該当する場合として、2値化基準閾値を変更する処理を行い(ステップS13)、新しく変更した2値化基準閾値に基づいて、2値化基準処理を行うステップS1に戻る。ここで、ステップS11→ステップS13→ステップS1の一連のフィードバックは、ステップS10のスコア値統計処理で算出された基本統計量に基づいて、2値化基準閾値を変更した後、処理をステップS1に戻す「処理戻しステップ」に相当する。
一方、ステップS11での評価結果が妥当である場合(ステップS11:YES)は、すなわち、ハードエラーもソフトエラーもなく、いずれの暫定判定文字のスコア値もスコア判定閾値を上回っているカテゴリ4に該当する場合として、この段階で判定結果を確定し(ステップS12)、処理は終了する。
次に、ステップS11の文字列認識結果に基づき2値化基準閾値を変更する様子(ステップS13)を説明する。本実施形態では、スコア値の基本統計量として、スコア値の最小値を用いている。図11は、最初のサイクル(サイクル1)について、複数の評価カテゴリに基づいて2値化基準閾値を変更する様子(論理)を説明するための説明図である。図12は、第2回以降のサイクル(サイクル2および3)について、同様の説明図である。なお、カテゴリは記号Cで表わしている(例えば、カテゴリ1はC1となる)。また、Tは1回目のサイクル(図2のステップS1〜ステップS9の一連の処理サイクル)の2値化基準閾値であり、Dは2値化基準閾値の変化分(任意値)である。
最初のサイクル1の結果は、前述のステップS5a、S9aおよびS11の判定に基づいて、図11の表に示すとおり、カテゴリ1〜4(C1〜C4)に分類される。すなわち、カテゴリ1は、前述のステップS5aでNOとなった場合で、ハードエラーを示し、例えば文字数が足りない等である。カテゴリ2は、前述のステップS9aでNOとなった場合で、ソフトエラーを示し、例えば文字誤りが生じた等である。カテゴリ3は、前述のステップS11でNOとなった場合で、ハードエラー及びソフトエラーはないが、暫定判定文字のスコア値の中に比較的小さな値があり、信頼性に欠ける場合である。また、カテゴリ4は、ハードエラー及びソフトエラーはなく、スコア値の中に比較的小さな値もなく、信頼性を確保できる場合である。
ここで、カテゴリ3とカテゴリ4の分類に関して、具体例を説明する。図11では、任意の閾値としてK(例えば0.8など)を設定する。このKは、前述のとおりあらかじめ実験や経験に基づいて求めた値である。また、Scoreは、ステップS10で求めたスコア値の基本統計量を表す。従って、任意の閾値(K)と基本統計量(Score)とを比較してカテゴリ3とカテゴリ4の分類を判定している。換言すると、認識対象画像に含まれる識別対象文字のスコア値(認識対象の文字列を形成する暫定判定文字の類似度)が任意の閾値Kを超えている場合はカテゴリ4と判定し、任意の閾値Kに満たない場合はカテゴリ3と判定する。なお、本実施形態では、スコア値の基本統計量としてスコア値の最小値を用いて、任意の閾値Kと前述のスコア判定閾値を実質同一の値として処理を簡略化している。
次に、図11のカテゴリ1〜カテゴリ3において、次サイクル(サイクル2)における2値化基準閾値はT+Dと変更することが指定される。また、カテゴリ4のケースでは、上述のとおりサイクル1で終了となっている。なお、Dは負であってもよいが、ここではD>0として考える。このように、次サイクルにおける2値化基準閾値をT+Dとしたのは、この段階では、2値化基準閾値Tを新たな2値化基準閾値(T+D)に変えることによって判定結果が良くなるか悪くなるか分からないためである。このように、サイクル1が終了した後、2値化基準閾値をT+Dに変更することによって得られた新しい結果に基づいて、第2回目の2値化処理(ステップS1)から始まる一連の処理(サイクル2)が行われる。
次に、第2回以降のサイクル(サイクル2および3)について、複数の評価カテゴリに基づいて2値化基準閾値を変更する様子(論理)を図12で説明する。なお、「処理コード」とは、サイクル2までの結果で決まる現在の処理の状態を表わす記号を意味し、記号Qで表す。また、Score1はサイクル1で算出した基本統計量を表し、同様にScore2および3はサイクル2および3で算出した基本統計量を表す。
図12(a)は、サイクル2が完了した後の状態において、サイクル1の結果とサイクル2の結果の組み合わせ、すなわち、現在の処理の状態に基づき、2値化基準閾値を変更する様子を示す。例えば、1回目のサイクル1の判定結果がカテゴリ1であって、2回目のサイクル2の判定結果がカテゴリ2であった場合には、2値化基準閾値TをT+Dとしたことで判定結果が妥当な方向に変化したため(判定結果としては、カテゴリ1よりカテゴリ2の方が良い)、3回目のサイクルでは、2値化基準閾値TをT+2Dとして次サイクルを実行する。この処理に、処理コードQ21を割り当てる。なお、サイクル2におけるカテゴリ1〜カテゴリ4の分類の詳細については、サイクル1と同様である。
また、サイクル2の結果がカテゴリ4の場合には、基本統計量としてのスコア値の最小値(Score2)が任意の閾値K(スコア判定閾値)を超えていることから、結果は妥当であるとして(図2のステップS11:YES)、この段階で判定結果を確定し(図2のステップS12)、処理は終了する。これにより、ステップS9において暫定的に判定された文字の判定結果が確定することになる。なお、サイクル1の結果がカテゴリ4であった場合は、既に前のサイクルでステップS12まで完了し、図12は空欄である。
次に、図12(b)は、サイクル2までの処理の状況(処理コード)と3回目のサイクル(サイクル3)の結果によって、最終的に何サイクル目の結果が採用されるかを示している。例えば、サイクル2で処理コードQ21をもつ場合において、サイクル3の結果がカテゴリ2であったとする。そうすると、2回目も3回目もカテゴリ2であったため、この場合は2回目と3回目の結果のいずれかが選択されることになる。いずれを選択するかは、基本統計量としてのスコア値の最小値Score2及びScore3の大小関係によって決定すればよい。例えばScore3≧Score2ならサイクル3の判定結果に基づく文字および文字列が採用される。
他の例について説明すると、例えば1回目のサイクル1でカテゴリ3だった場合(図11のC3のケース)を考える。この場合、明示的にエラーは起きていなくても(ソフトエラーは生じていなくても)、基本統計量としてのスコア値の最小値が任意の閾値K(スコア判定閾値)を下回っていることから、信頼性が不十分である。したがって、2値化基準閾値TをT+Dに変更して2回目のサイクル(サイクル2)を実行する(図11のC3)。サイクル2の結果が同じくカテゴリ3であった場合、スコア値の最小値の増減を見て、増加していれば(基本統計量が改善していれば)、2値化基準閾値TをT+2Dに変更して3回目のサイクル3を実行する(この場合、処理コードはQ33である)。一方、増加していなければ(基本統計量が改善していなければ)、2値化基準閾値TをT−Dに変更して3回目のサイクル3を実行する(この場合、処理コードはQ34である)。
このように、本実施形態では、4つに分類された評価カテゴリ(カテゴリ1〜カテゴリ4)に基づいて、2値化基準閾値を変更するにあたって、ステップS10のスコア値統計処理で算出された基本統計量としてのスコア値の最小値が大きくなるように(つまり、改善するように)変更していく。
なお、本実施形態では、最大サイクル数を3としているが、処理時間に余裕がある場合には更に回数を増やしてもよい。
[実施形態の主な効果]
以上説明したように本実施形態に係る文字列認識方法は、媒体上の既知の位置に印刷された既知の文字数からなる文字列を、1次元撮像素子11で主走査を行い、手動若しくは機械駆動による媒体移動で副走査を行うようにして2次元の画像情報に変換し、この画像データを適切に処理することによって、文字列の認識を行うようにした文字列認識装置において、媒体をスキャンした多値画像を2値化するステップ(ステップS1)と、媒体移動方向に沿った文字列における文字区切り位置を検出するために、射影に基づいて文字の境界を決定するための境界判定閾値を算出するステップ(ステップS4)と、この境界判定閾値によって文字境界を決定するステップ(ステップS5)と、文字境界に基づいて文字に外接する矩形を求めるステップ(ステップS6)と、外接矩形内の文字特徴量を抽出して(ステップS7)、辞書登録された基準文字の特徴量との類似度を算出するステップ(ステップS8)と、求めた類似度が高い文字を候補文字として文字判定するステップ(ステップS9)と、を含む一連のステップにより文字列を認識し、さらに認識された全文字に関する類似度をスコア値として、そのスコア値の基本統計量を含む文字列の認識結果データに基づいて、媒体画像の2値化と文字認識を再実行するパス(ステップS10,S11,S13)を有することとしているので、文字列認識の精度を向上させることができる。その結果、文字列認識の認識結果に対する信頼性を高めることができる。すなわち、スコア値の基本統計量を用いることで、文字1個1個の精度向上ではなく、文字列全体を考えた際の精度向上に大きく貢献することができる。
さらに、本実施形態に係る文字列認識方法は、文字列の認識結果データに文字列認識中に発生した障害事象の水準(エラーによる評価カテゴリの分類)を含むようにしているので、文字列認識の精度を一層高めることができる。また、再実行するか否かの判定は、認識中に発生した障害事象の水準である評価カテゴリの分類(カテゴリ1〜カテゴリ4)とスコア値の基本統計量との組合せによって行うこととしたため、予め評価カテゴリテーブル(例えば図11および図12)を作成しておくことによって、精度良く文字列認識を行うことができる。
[別の実施の形態]
これまで説明した図11および図12の実施形態では、文字列の判定結果を得るための信頼性判定の基準となる基本統計量として、スコア値の最小値を用いているが、スコア値の分散、標準偏差、最大値、平均値およびばらつき、またはスコア値の総数(度数)などを適宜選択して用いてもよい。そして、選択した基本統計量(T)の特性に応じて、これらが改善するように2値化基準閾値を変更(Dを増減)した後、処理をステップS1に戻す「処理戻しステップ」に引き続き、2回目以降のサイクルを実行すればよい。具体的には、基本統計量として分散や標準偏差を採用した場合には、これらが小さくなるように変更すれば基本統計量が改善されることになる。
例えば、スコア値の基本統計量として標準偏差を使用した場合の評価カテゴリに基づいて2値化基準閾値を変更する様子を説明する。図13は、基本統計量として標準偏差を使用した2値化基準閾値と処理コードを示す評価カテゴリテーブルの例である。図13において、図12と同等の要素やパラメータは、図12と同じ符号を付している。図13が図12と異なるのは、基本統計量としてスコア値の標準偏差を採用したことである。従って、カテゴリ3とカテゴリ4を分類するための、基本統計量としての標準偏差(Score1、Score2、Score3)および任意の閾値Kの大小関係が図13では図12とは逆の関係になっている。また、図12の実施の形態における閾値Kとスコア判定閾値は実質同一(同種)の係数であったが、図13の閾値Kは標準偏差についてあらかじめ実験や経験に基づいて求めた閾値であり、前述のスコア判定閾値とは異なる数値である。従って、図13の実施形態におけるカテゴリ3およびカテゴリ4の分類は、ステップS8における暫定判定文字の類似度つまりスコア値がスコア判定閾値(例えば0.6)を超えている場合、すなわちソフトエラーが発生せず第2の評価カテゴリ(カテゴリ2)に該当しない場合に実行される。次にその具体例を説明する。
図13(a)では、Score1はサイクル1の基本統計量としてスコア値の標準偏差を示しているので、閾値KよりもScore1が大きい場合(Score1>K)には、ばらつきが顕著に大きく信頼性が低いと判断し、カテゴリ3に分類され、処理をステップS1に戻す「処理戻しステップ」によりサイクル2を実行する。一方で、そうでない場合(Score1≦K)には、カテゴリ4に分類され、サイクル1の結果が有効であるとしてここで処理を打ち切る。
さらに、サイクル2において、Score2はサイクル2の基本統計量としてスコア値の標準偏差を示しているので、Score2>Kでカテゴリ3に分類された場合においては、Score2≦Score1のとき(処理コードQ33)は、T+2Dとして次のサイクル3を実行する一方、Score2>Score1のとき(処理コードQ34)は、T−Dとして次のサイクル3を実行する。
図13(b)は、サイクル1およびサイクル2の結果(処理コード)に対応するサイクル3の結果の判断を表す評価カテゴリテーブルであり、図12(b)と同様である。例えば、サイクル2終了時点で処理の状態が処理コードQ11であった場合において、サイクル3の結果がカテゴリ2であれば、サイクル3の結果を採用することを意味する。このように、基本統計量の種類に応じて、最適な評価カテゴリテーブルを用いることができる。
次に、また別の実施の形態として、例えば、基本統計量として、スコア値の総数(度数)を求めるようにすれば、スコア値の総数が所定個数(すなわち文字列に含まれるべき総文字数)に満たなかった場合には、文字数が足りないハードエラーとして、文字列認識結果をカテゴリ1に分類するようにしてもよい。この場合は、基本統計量としてスコア値の最小値と併用することにより、図2のフローにおいてステップS5aを省略してもよい。
また、さらに別の実施の形態として、基本統計量のうちスコア値の最小値が、例えば0.6のスコア判定閾値に達しなかった場合に、文字誤りが生じたソフトエラーとして、文字列認識結果をカテゴリ2に分類するようにして、ステップS9aを省略してもよい。
このように、本発明の実施の形態では、スコア値の基本統計量として、スコア値の分散、標準偏差、最小値、最大値、平均値およびばらつき、またはスコア値の総数(度数)を単独または複数組み合わせて、文字列の判定結果を得るための信頼性判定の基準に含むこととしたので、2値化基準閾値を認識対象領域全体の読取信頼性を反映したパラメータに基づいて設定することが可能となり、文字列認識の精度を簡易に高めることができる。
さらに、2値化基準閾値を変化させる方向は、スコア値の基本統計量が改善する方向であることとしたので、簡易な処理で2値化基準閾値を適切に変更することができる。例えば、基本統計量として最小値を用いる場合、基本統計量が増加したら、改善しているとして2値化基準閾値を大きくする一方、基本統計量が減少したら、改善していないとして2値化基準閾値を逆方向に変化させればよい(小さくすればよい)。
なお、本実施形態では、1次元撮像素子11,リニア搬送機構を用いることとしたが、本発明はこれらに限定されるものではない。例えば、2次元CCDやCMOSイメージャなどのエリアセンサと被写体支持機構との組み合わせでもよい。また、認識対象としては、活字文字だけでなく、手書き文字にも適用できる。また、文字認識に止まらず、1次元及び2次元バーコードの復号などにも適用できる。また、2値化基準閾値の変化幅は、T+DやT+2DなどD単位としたが、+1.5Dや+2Dなど、係数を調整して実装系に合わせて柔軟な設定を行うことができる。また、再実行回数は最大3回としたが、処理時間が許す限り増加させてもよい。
本発明に係る文字列認識方法及び文字列認識装置は、文字列認識の信頼性を高めるものとして有用である。
本発明の実施の形態に係る文字列認識装置の電気的構成を示すブロック図である。 本発明の実施の形態に係る文字列認識方法を示すフローチャートである。 記録担体のOCR文字記憶領域(図1参照)に印刷された文字を撮像したときの画像データを示す図である。 図3に示す画像データを垂直射影した結果(一例)を示す図である。 文字列を構成する文字「KO<BC」に着目したときの画像データである。 図5に示す画像データを垂直射影することによって得られた垂直射影データ(一例)である。 図3に示す画像データを垂直射影した結果(一例)を示す図である。 図7に示す垂直射影データにおいて、正のピーク値のヒストグラムを示す図である。 図8のヒストグラムについて、最大値から最小値の方向への累積度数を求めた図である。 文字列を構成する文字「<」の画像データを示す図である。 最初のサイクルについて、複数の評価カテゴリに基づいて2値化基準閾値を変更する様子(論理)を説明するための説明図である。 第2回以降のサイクルについて、複数の評価カテゴリに基づいて2値化基準閾値を変更する様子(論理)を説明するための説明図である。 評価カテゴリテーブルの他の例を示す図である。
符号の説明
1 文字列認識装置
2 記録担体
11 撮像素子
12 画像メモリ
13 データ処理部
13a 2値化部
13b 行切り出し部
13c 射影生成部
13d 閾値算出部
13e 文字境界決定部
13f 文字切り出し部
13g 特徴抽出部
13h 特徴比較部
13i 特徴辞書格納部
13j スコア集計部
13k 再実行判定部
14 文字出力部

Claims (10)

  1. 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、
    前記画像データを所定の2値化基準閾値を用いて白黒の2値画像データに加工する加工ステップと、
    前記文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出する類似度算出ステップと、
    前記類似度に基づいて暫定的に文字判定を行う暫定的文字判定ステップと、
    前記暫定的文字判定ステップで暫定的に判定された全ての文字に関する前記類似度の基本統計量を算出する基本統計量算出ステップと、
    前記基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更した後、処理を前記加工ステップに戻す処理戻しステップと、を含み、
    前記処理戻しステップは、前記基本統計量算出ステップで算出された基本統計量に応じて複数の評価カテゴリに分類され、前記評価カテゴリは、前記類似度算出ステップにおける前記基準文字特徴量との類似度に基づく評価カテゴリの他に、文字列認識中に発生したハードエラー又はソフトエラーを示す評価カテゴリをも含み、分類された評価カテゴリに基づいて、前記2値化基準閾値を変更することを特徴とする文字列認識方法。
  2. 前記加工ステップが終了してから前記類似度算出ステップまでの間に、
    前記2値画像データを前記文字列の方向にシフトさせながら、前記文字列の方向と直交する垂直方向への前記2値画像データの垂直射影を計算する射影計算ステップと、
    前記射影計算ステップにより得られた垂直射影データが所定の境界判定閾値を超えた箇所を、前記文字列を構成する文字の区切り位置として検出する区切り位置検出ステップと、
    前記区切り位置検出ステップで検出された文字の区切り位置に基づいて、文字に外接する矩形を求める外接矩形算出ステップと、を含み、
    前記類似度算出ステップは、前記矩形内の文字特徴量を抽出して、前記基準文字特徴量との類似度を算出することを特徴とする請求項1記載の文字列認識方法。
  3. 前記処理戻しステップは、前記基本統計量を前記類似度の最小値として、該最小値に応じて、4個の評価カテゴリに分類するものであって、
    前記4個の評価カテゴリは、前記基準文字特徴量との類似度に基づく2個の評価カテゴリの他に、文字列認識中に発生したハードエラー及びソフトエラーを示す2個の評価カテゴリであることを特徴とする請求項2記載の文字列認識方法。
  4. 前記処理戻しステップは、前記2値化基準閾値を少なくとも3回以上変更する場合において、第3回目のサイクルでは、第1回目のサイクルにおいて分類されたカテゴリおよび第2回目のサイクルにおいて分類されたカテゴリに基づいて前記2値化基準閾値を変更することを特徴とする請求項1から3のいずれか記載の文字列認識方法。
  5. 前記処理戻しステップは、前記2値化基準閾値を変更するにあたって、前記基本統計量算出ステップで算出された基本統計量が改善するように変更することを特徴とする請求項1から4のいずれか記載の文字列認識方法。
  6. 媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列を認識する文字列認識方法において、
    前記画像データを所定の2値化基準閾値を用いて白黒の2値画像データに加工する加工ステップと、
    前記文字列を構成する各文字の文字特徴量を抽出して、基準文字特徴量との類似度を算出する類似度算出ステップと、
    前記類似度に基づいて暫定的に文字判定を行う暫定的文字判定ステップと、
    前記暫定的文字判定ステップで暫定的に判定された全ての文字に関する前記類似度の基本統計量を算出する基本統計量算出ステップと、
    前記基本統計量算出ステップで算出された基本統計量に基づき、全ての文字に関する文字列全体としての認識結果を複数の評価カテゴリに分類する評価カテゴリ分類ステップと、
    前記分類された評価カテゴリに基づいて、前記2値化基準閾値を変更した後、処理を前記加工ステップに戻す処理戻しステップと、を含み、
    前記評価カテゴリは、前記複数の評価カテゴリの他に、文字列認識中に発生したハードエラー又はソフトエラーを示す評価カテゴリをも含み、
    前記処理戻しステップは、前記評価カテゴリ分類ステップで分類された評価カテゴリおよび前記基本統計量算出ステップで算出された基本統計量に基づいて、前記2値化基準閾値を変更することを特徴とする文字列認識方法。
  7. 前記処理戻しステップは、先行する処理戻しステップ後の再処理において前記2値化基準閾値を変更するにあたって、前記加工ステップ、類似度算出ステップおよび暫定的文字判定ステップを繰り返した結果に基づき、文字列全体としての認識結果が改善するように変更することを特徴とする請求項6記載の文字列認識方法。
  8. 前記処理戻しステップは、前記2値化基準閾値を少なくとも3回以上変更する場合において、第3回目のサイクルでは、第1回目のサイクルにおいて分類されたカテゴリおよび第2回目のサイクルにおいて分類されたカテゴリに基づいて前記2値化基準閾値を変更することを特徴とする請求項6又は7記載の文字列認識方法。
  9. 前記処理戻しステップは、前記2値化基準閾値を変更するにあたって、前記基本統計量算出ステップで算出された基本統計量が改善するように変更することを特徴とする請求項8記載の文字列認識方法。
  10. 請求項1から9のいずれか記載の文字列認識方法を用いて、媒体上の文字列を認識する文字列認識手段を備えたことを特徴とする文字列認識装置。
JP2008298875A 2008-11-23 2008-11-23 文字列認識方法及び文字列認識装置 Expired - Fee Related JP5334042B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008298875A JP5334042B2 (ja) 2008-11-23 2008-11-23 文字列認識方法及び文字列認識装置
US12/623,826 US8401299B2 (en) 2008-11-23 2009-11-23 Character line recognition method and character line recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008298875A JP5334042B2 (ja) 2008-11-23 2008-11-23 文字列認識方法及び文字列認識装置

Publications (3)

Publication Number Publication Date
JP2010123090A JP2010123090A (ja) 2010-06-03
JP2010123090A5 JP2010123090A5 (ja) 2011-11-24
JP5334042B2 true JP5334042B2 (ja) 2013-11-06

Family

ID=42222861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008298875A Expired - Fee Related JP5334042B2 (ja) 2008-11-23 2008-11-23 文字列認識方法及び文字列認識装置

Country Status (2)

Country Link
US (1) US8401299B2 (ja)
JP (1) JP5334042B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5159226B2 (ja) * 2007-09-25 2013-03-06 株式会社東芝 画像データ処理システム
JP5538069B2 (ja) 2010-05-28 2014-07-02 矢崎総業株式会社 車両用表示装置
JP5630689B2 (ja) * 2010-06-08 2014-11-26 日本電産サンキョー株式会社 文字認識方法及び文字認識装置
JP5857704B2 (ja) * 2011-12-13 2016-02-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6666253B2 (ja) * 2014-01-24 2020-03-13 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 光学式文字認識(ocr)を用いて使用者が設定した用量値を記録および表示するために注射デバイスに取り付けるための補助デバイス
JP6268023B2 (ja) * 2014-03-31 2018-01-24 日本電産サンキョー株式会社 文字認識装置およびその文字切り出し方法
US9430703B2 (en) * 2014-12-19 2016-08-30 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images using vertical projections of center zones of characters
JP6487255B2 (ja) * 2015-03-31 2019-03-20 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
JP6599672B2 (ja) * 2015-07-17 2019-10-30 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
TWI560641B (en) * 2015-09-03 2016-12-01 Magic Power Co Ltd A handwriting grading system and the method thereof
CA2997190A1 (en) * 2015-09-04 2017-03-09 Straxcorp Pty Ltd Method and apparatus for identifying a gap between objects in an image
CN105528606B (zh) * 2015-10-30 2019-08-06 小米科技有限责任公司 区域识别方法及装置
US11341739B2 (en) 2016-02-15 2022-05-24 Nec Corporation Image processing device, image processing method, and program recording medium
US9710703B1 (en) * 2016-07-15 2017-07-18 StradVision, Inc. Method and apparatus for detecting texts included in a specific image
US10679101B2 (en) 2017-10-25 2020-06-09 Hand Held Products, Inc. Optical character recognition systems and methods
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
JP7452060B2 (ja) * 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7452059B2 (ja) * 2020-02-12 2024-03-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11861922B2 (en) * 2020-04-17 2024-01-02 Zebra Technologies Corporation System and method for extracting target data from labels

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825920A (en) * 1991-01-28 1998-10-20 Hitachi, Ltd. Method and unit for binary processing in image processing unit and method and unit for recognizing characters
CA2072934C (en) * 1991-07-19 2007-08-28 Karl William Aston Manganese complexes of nitrogen-containing macrocyclic ligands effective as catalysts for dismutating superoxide
JPH07129713A (ja) * 1993-11-01 1995-05-19 Matsushita Electric Ind Co Ltd 文字認識装置
JP3335009B2 (ja) * 1994-09-08 2002-10-15 キヤノン株式会社 画像処理方法及び画像処理装置
JP2812256B2 (ja) 1995-06-30 1998-10-22 日本電気株式会社 文字認識装置および方法
US5850474A (en) * 1996-07-26 1998-12-15 Xerox Corporation Apparatus and method for segmenting and classifying image data
JPH10222602A (ja) 1997-01-31 1998-08-21 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2004118611A (ja) 2002-09-27 2004-04-15 Dainippon Printing Co Ltd 文字読取システム
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
JP2007086954A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
JP4945739B2 (ja) * 2007-03-30 2012-06-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置

Also Published As

Publication number Publication date
JP2010123090A (ja) 2010-06-03
US8401299B2 (en) 2013-03-19
US20100135578A1 (en) 2010-06-03

Similar Documents

Publication Publication Date Title
JP5334042B2 (ja) 文字列認識方法及び文字列認識装置
JP5591578B2 (ja) 文字列認識装置および文字列認識方法
US7949187B2 (en) Character string recognition method and device
CN101246549B (zh) 用于识别图像信息中的边界线的方法和装置
US9158986B2 (en) Character segmentation device and character segmentation method
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
JP6268023B2 (ja) 文字認識装置およびその文字切り出し方法
JP6039413B2 (ja) 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
CN111368574A (zh) 一种条形码识别方法及装置
JP4945739B2 (ja) 文字列認識方法及び文字列認識装置
JPH0896059A (ja) バーコード読取装置
JP5011508B2 (ja) 文字列認識方法及び文字列認識装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP6144892B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2898562B2 (ja) ナンバープレート決定方法
JP5379626B2 (ja) スタック型バーコード情報読取方法及びスタック型バーコード情報読取装置
CN116469090A (zh) 喷码图案的检测方法、装置、电子设备和存储介质
Siddique et al. Development of an automatic vehicle license plate detection and recognition system for Bangladesh
JP2005250786A (ja) 画像認識方法
KR101070051B1 (ko) 도트 패턴에서 불변 영역을 인식하는 방법
CN112163581B (zh) 一种车牌字母识别方法、系统、装置及存储介质
JP2010086324A (ja) 二値化処理装置、情報処理装置、二値化処理方法および二値化処理プログラム
CN117115701A (zh) 一种用于海关辅助管理的月台货车作业行为识别方法
JPH04373090A (ja) 文字認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130723

R150 Certificate of patent or registration of utility model

Ref document number: 5334042

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees