JP2014130415A - 文字認識装置、文字認識方法、及び文字認識プログラム - Google Patents

文字認識装置、文字認識方法、及び文字認識プログラム Download PDF

Info

Publication number
JP2014130415A
JP2014130415A JP2012286645A JP2012286645A JP2014130415A JP 2014130415 A JP2014130415 A JP 2014130415A JP 2012286645 A JP2012286645 A JP 2012286645A JP 2012286645 A JP2012286645 A JP 2012286645A JP 2014130415 A JP2014130415 A JP 2014130415A
Authority
JP
Japan
Prior art keywords
character
characters
minimum luminance
image data
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012286645A
Other languages
English (en)
Other versions
JP6171167B2 (ja
Inventor
Hiroshi Nakamura
宏 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nidec Sankyo Corp
Original Assignee
Nidec Sankyo Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nidec Sankyo Corp filed Critical Nidec Sankyo Corp
Priority to JP2012286645A priority Critical patent/JP6171167B2/ja
Priority to US14/142,079 priority patent/US9251430B2/en
Publication of JP2014130415A publication Critical patent/JP2014130415A/ja
Application granted granted Critical
Publication of JP6171167B2 publication Critical patent/JP6171167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能な文字認識装置、文字認識方法、及び文字認識プログラムを提供する。
【解決手段】文字認識装置10は、撮像素子11と、画像メモリ12と、文字切り出し部133と、を有し、文字切り出し部133は、画像データにおいて文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて画像データにおける最小輝度曲線を作成する最小輝度曲線作成部1331と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出部1332と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理部1333と、を備えている。
【選択図】図1

Description

本発明は、紙やプラスチック等の情報記録媒体上の文字列を撮像して得られた画像データを処理することによって文字列を認識する文字列認識技術に係り、特に、撮像された画像内の文字列の区切り位置を検索して文字を認識する文字認識装置、文字認識方法、及び文字認識プログラムに関するものである。
従来から、例えば小切手などの媒体表面に印刷された文字列を認識するための装置がある。例えば、二値化された画像データから文字部分を検出して、その文字部分を外接矩形枠に沿って切り出し、得られた文字パターンから特徴量を抽出し、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求め、その類似度の大きさにより候補文字を選択する、といった文字認識装置などが知られている。
文字認識装置における文字の切り出しは、画像データの文字列方向への射影データに基づいて、文字列の垂直方向における位置を検出し、これに基づいて、文字列の方向にシフトさせながら、文字列と垂直な方向への画像データの射影を計算し、得られた射影データが所定の閾値を超えた箇所を、文字列に含まれる文字の区切り位置として検出している。
出願人は、画像データからの文字の切り出しにおいて、文字列の方向への画像データの水平射影データに基づいて、文字列の方向と直交する垂直方向における文字列の位置を検出し、これに基づいて、文字列の方向にシフトさせながら、垂直方向への画像データの垂直射影を計算し、これにより得られた垂直射影データが所定の閾値を超えた箇所を、文字列を構成する文字の区切り位置として検出するとともに、所定の閾値には、垂直射影データから検出された文字列の両端間の画素数に応じて決定される第1の閾値と、垂直射影データに含まれる正のピーク値の中から文字列を構成する文字の個数に応じて決定される第2の閾値とのいずれか一方の閾値に基づいて、文字列に含まれる文字の区切り位置を検出する技術を開示している(例えば、特許文献1参照)。
特開2008-250754号公報
特許文献1に記載された技術では、初期の閾値(第1の閾値)で検出した文字区切りの正のピーク数が期待するピーク数と一致しない場合に、垂直射影データに含まれる正のピーク値を降順に並べたとき最大のピーク値から数えて文字列を構成する文字数N+1番目のピーク値を第2の閾値として文字区切り位置を検索するようにしている。しかし、特許文献1に記載されている技術では、文字列における文字の区切り位置の検出に、正のピーク値と閾値との大小関係を利用するため、閾値をどのように設定するかが問題となることが多い。
情報記録媒体上の文字が鮮明な場合には、ピーク値が明確であるから特許文献1に記載された技術でも正しい文字認識ができる。一方、情報記録媒体上の文字は、文字の先端等がつぶれやノイズなどの影響を受け易いため、文字がぼやけた場合には、閾値のレベルによって文字境界の見逃しやノイズによる文字境界点の誤検出といった問題が生じやすく、従来技術では安定的な認識性能が阻害される恐れがある。このような場合は、正しい文字区切り位置の検出が困難になって、正しい文字認識ができなくなるという問題点がある。
本発明の目的は、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能な文字認識装置、文字認識方法、及び文字認識プログラムを提供することにある。
以上のような課題を解決するために、本発明は、以下のものを提供する。
(1)情報記録媒体上の文字列を撮像する撮像手段と、前記撮像手段で撮像された文字列の画像データを記憶する記憶手段と、前記画像データを処理して前記文字列を形成する文字を切り出す文字切り出し部と、を有する文字認識装置であって、前記文字切り出し部は、前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成部と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出部と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理部と、を備えたことを特徴とする文字認識装置。
本発明によれば、最小輝度曲線作成部は、撮像された文字列の画像データにおける文字画像領域について、画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の左端側の輝度列から右端側の輝度列まで繰り返すことによって最小輝度曲線を求め、この最小輝度曲線に基づいて各文字の文字列方向の境界点を求めるようにしたため、文字区間と、文字と文字との間の空白区間が明確に分離され、正確な文字区切り位置の決定が可能となる。
本発明の文字認識装置は、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能であり、ひいては文字認識性能の向上を図ることが可能となる。
(2)前記文字切り出し部が、基準の文字幅を設定した文字幅設定部を有し、前記最小輝度曲線を前記基準の文字幅と比較して前記基準の文字幅を超えた区間を文字区間として検出する文字区間検出部を備えたことを特徴とする。
本発明によれば、文字と文字との間の空白区間に汚れや、ピンポイントがある場合でも、基準の文字幅を超えた区間を文字区間として検出することにより、このような汚れやピンポイントによる文字区間の誤検出を排除して、文字の境界位置を的確に決定することが可能となる。
(3)前記最小輝度曲線作成部が、2値化された前記画像データに基づいて最小輝度値を検出して最小輝度曲線を作成することを特徴とする。
本発明によれば、2値化された前記画像データは、単純に最小輝度曲線に沿って輝度値=0(黒)の区間を文字区間とし、輝度値=255(白)の区間を空白区間として判断できるから、多値の画像データを文字切り出し処理するものに比べて文字切り出し処理を高速化することができる。
(4)情報記録媒体上の文字列を撮像して得られた画像データを処理することによって前記文字列を認識する文字認識方法において、前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成工程と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出工程と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理工程と、を有することを特徴とする文字認識方法。
本発明によれば、最小輝度曲線作成工程は、撮像された文字列の画像データにおける文字画像領域について、画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の左端側の輝度列から右端側の輝度列まで繰り返すことによって最小輝度曲線を求め、この最小輝度曲線に基づいて各文字の文字列方向の境界点を求めるようにしたため、文字区間と、文字と文字との間の空白区間が明確に分離され、正確な文字区切り位置の決定が可能となる。
本発明の文字認識方法は、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能であり、ひいては文字認識性能の向上を図ることが可能となる。
(5)情報記録媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し処理をコンピュータに実行させる文字認識プログラムであって、コンピュータに、前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成手順と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出手順と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理手順と、を実行させるための文字認識プログラム。
本発明によれば、最小輝度曲線作成手順は、撮像された文字列の画像データにおける文字画像領域について、画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の左端側の輝度列から右端側の輝度列まで繰り返すことによって最小輝度曲線を求め、この最小輝度曲線に基づいて各文字の文字列方向の境界点を求めるようにしたため、文字区間と、文字と文字との間の空白区間が明確に分離され、正確な文字区切り位置の決定が可能となる。
本発明の文字認識プログラムは、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能であり、ひいては文字認識性能の向上を図ることが可能となる。
本発明によれば、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能で、ひいては文字認識性能の向上を図ることが可能となる。
本発明の実施形態に係る文字認識装置の構成例を示すブロック図である。 情報記録媒体上に形成されたOCR文字記録領域に印刷された文字列を撮像したときの画像データの一例を示す図である。 本実施形態に係る文字切り出し部の構成例を示すブロック図である。 本実施形態に係る文字認識装置の動作を説明するためのフローチャートである。 本実施形態に係る文字切り出し部の処理フローを示すフローチャートである。 本実施形態に係る文字切り出し部における最小輝度曲線作成部の処理フローを示すフローチャートである。 本実施形態に係る文字切り出し部における文字区切り位置検出部の処理フローを示すフローチャートである。 本実施形態に係る最小輝度曲線作成部により図2に示す画像データに形成される最小輝度曲線の一例を示す図である。 文字列を構成する文字に着目したときの画像データを示す図である。 本実施形態に係る最小輝度曲線作成部により図10に示す画像データに形成される最小輝度曲線の一例を示す図である。
以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。
図1は、本発明の実施形態に係る文字認識装置の構成例を示すブロック図である。
本実施形態に係る文字認識装置10は、紙やプラスチック等の情報記録媒体20上の文字列を撮像して得られた画像データを処理することによって、画像データから切り出した文字列から各文字を切り出して認識する機能を有する。
文字認識装置10は、画像認識技術に基づいて、撮像画像内の文字列における文字間の区切り位置を検出(検索)する際に、次のような特徴的な処理を行う。
文字認識装置10は、文字切り出し処理における射影生成に際し、文字が第1方向である横方向すなわちX軸方向に並んでいるときはX軸への射影を生成し、文字が第1方向に直交する第2方向である縦方向すなわちY軸方向に並んでいるときはY軸への射影を生成する。以下では、一例として、文字が第1方向である横方向すなわちX軸方向に並んでいる状態において、X軸への射影として説明する。
文字認識装置10は、文字列位置に基づいて形成される文字画像領域について、各画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の最も左側の輝度列から最も右側の輝度列まで繰り返すことによって最小輝度曲線を求め、この最小輝度曲線に基づいて各文字の文字列方向の境界点を求める。
以下に、文字認識装置10の具体的な構成および撮像画像の文字認識処理機能について説明する。
[文字認識装置の構成および機能]
図1において、文字認識装置10は、情報記録媒体上の文字列を読み取る画像読取部としての密着型の(1次元)撮像素子11と、撮像素子11で撮像された文字列の画像データを記憶する画像メモリ12と、画像メモリ12に記憶された画像データを処理することによって文字列を認識するデータ処理部13と、を有している。
また、データ処理部13は、画像データの2値化を行う2値化部131と、画像データから文字列を切り出す文字列切り出し部132と、文字列から各文字を切り出す文字切り出し部133と、文字切り出し部133で得られた文字パターンから特徴量を抽出する特徴抽出部134と、特徴ベクトルと基準ベクトルを比較する特徴比較部135、予め文字ごとの特徴を格納している特徴辞書格納部136と、入力パターンの特徴ベクトルと特徴辞書中の文字ごとの基準ベクトルとの類似度を求める類似文字認識部137と、を有している。なお、これらの各部は、情報記録媒体20上の文字列、たとえばOCR文字列を認識する文字認識装置の一例として機能する。
図2は、情報記録媒体20のOCR文字記録領域(図1参照)21に印刷された文字列を撮像したときの画像データの一例を示す図である。
画像読取部としての撮像素子11は、情報記録媒体20上のOCR文字記録領域21にOCR文字列を撮像し、そのOCR文字列の光電変換を行う。画像メモリ12は、撮像素子11で撮像されたOCR文字列等の画像データを記憶(格納)する。なお、この画像メモリ12は、RAM,SDRAM,DDRSDRAM,RDRAMなど、画像データを記憶し得るものであれば如何なるものであってもよい。
データ入力部において、例えば図2に示すような、情報記録媒体20のOCR文字記録領域21に印刷されたOCR文字列は、媒体搬送機構の搬送ガイドに沿って情報記録媒体20が動かされると、1次元撮像素子11によってその文字パターンが撮像されて光電変換され、その画像データが画像メモリ12に取り込まれる。データ処理部13は、画像メモリ12に取り込まれた画像データを読み出して、上述した各部において様々な処理を施し、最終的に、情報記録媒体20上のOCR文字列を認識するように構成されている。
図示の実施例では、撮像素子11として密着型1次元撮像素子を採用して装置の小型化等を図っているが、撮像素子11としては、読み取り対象の情報記録媒体20の文字列を読み取り対象とする2次元のエリアセンサ等を採用することも可能である。この場合、撮像素子11は、例えばCCDやCMOSセンサにより形成される。
本実施の形態では、情報記録媒体20は、旅券(パスポート)であるが、これに限定さるものではない。情報記録媒体20は、JISに準拠している一般的なカードであってもよく、例えば、幅86mm,高さ54mm,厚み0.76mmというサイズのプラスチックカードでもよく、IDカードや運転免許証などでもよい。また、認識対象としては、活字文字だけでなく、手書き文字にも適用可能である。また、本発明は、文字認識に留まらず、1D及び2Dバーコードの復号などにも応用可能である。
[データ処理部の各部の構成および機能]
次に、データ処理部13の各部の基本的な構成および機能について説明する。
データ処理部13は、画像メモリ12から画像データを読み出して、その画像データが多階調の濃淡画像である場合には、白黒2値の画像に変換を行う。
2値化部131は、この画像メモリ12から読み出した画像データに対する2値化処理を行う。2値化部131は、適当な方法(例えば判別分析法)によって閾値を求め、元の画像を白黒2値の画像に変換する。ここで、データ処理部13における以降の処理は、この白黒2値画像を用いて行われることとする。
2値化処理は、多階調の濃淡画像を白黒画像に変換する処理である。具体的には、2値化は画像の輝度値(濃度値)をもとにヒストグラムを作成して、閾値と呼ばれる値を基準に、ヒストグラムをしきい値以下としきい値以上の二つに分け、それぞれを白(輝度値=255)と黒(輝度値=0)に振り分ける処理である。この閾値を統計学などの手法を用いて自動的に選定する方法には、従来、多くのものが発表されており、例として、判別分析法、Kittler法、モード法、Pタイル法などがあり、これらはいずれも公知である。本明細書では、前述のような統計学などの数学的手法を用いて、閾値を自動的に選定する方法を総称して、自動閾値選定法と呼ぶ。
文字列切り出し部132は、2値化部131で2値化された文字列を水平方向に射影して、文字列の上下エッジを検出する。そして、文字列切り出し部132は、上下エッジの中心位置を、文字列の中心ラインと識別して文字列切り出しを行う。ここで、水平方向とは、文字が横方向に並んでいる第1方向、すなわちX軸方向である。
本実施形態の文字切り出し部133は、文字列切り出し部132で切り出された行の文字列から文字列の文字が並んでいる方向、本例では水平方向の区切り位置を検出して、文字の切り出し処理を行う。具体的には、本実施形態の文字切り出し部133は、認識対象となる5文字を囲む暫定切り出し領域(図9参照)、例えば矩形領域を設定し、その矩形領域において文字が並んでいる方向と直交する垂直方向の垂直射影を生成(形成)する。ここでは、上述したように、文字切り出し部133は、射影生成に際し、文字が横方向すなわちX軸方向に並んでいるときは、X軸への射影を生成する。
文字切り出し部133は、文字列を形成する文字を切り出すものであり、画像データにおいて文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて画像データにおける最小輝度曲線を作成する最小輝度曲線作成部1331と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出部1332と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理部1333と、を備えている。なお、この文字切り出し部133における文字切り出し処理については、後でさらに詳述する。
データ処理部13において、文字切り出し部133の文字切り出し処理が終了すると、認識対象となっている文字の外接矩形領域(上下左右の座標値)が求められる。
特徴抽出部134は、上述した外接矩形領域を任意のサブ領域に分割、たとえば1個の外接矩形領域を5×5の領域に分割し、そのうち1個の領域をサブ領域とし、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルを生成する。
特徴比較部135は、特徴抽出部134で求められた特徴ベクトルを、予めこの媒体で使用される全文字について求めておいた基準特徴ベクトルと比較して、類似度(例えば正規化相関係数)が最も高いものをその文字が該当する候補文字に設定する。なお、基準特徴ベクトルは、予め特徴辞書格納部136に格納されているものであって、特徴比較が行われる際に、特徴辞書格納部136から類似度が高い文字のデータが読み出され、特徴比較部135において特徴比較が行われる。
類似文字認識部137は、基本的に、特徴比較部135の特徴比較によって設定された候補文字を、媒体に用いられた文字として認識する。なお、類似度が一定値を超える候補文字が複数個存在する場合には、文字認識を行うことができないので、類似文字認識部137は、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別を行う。例えば、類似文字認識部137は、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりするように構成してもよい。また、類似文字認識部137は、左右線対称や上下線対象と同様に点対称で類似性を調べるように構成してもよい。
次に、本実施形態に係る文字認識装置10において、特徴的な機能を有する文字切り出し部133の文字区切り位置検出部1332における文字の区切り位置の検出処理(文字切り出し処理)について詳細に説明する。
[文字切り出し部の構成]
図3は、本実施形態に係る文字切り出し部の構成例を示すブロック図である。
本実施形態に係る文字切り出し部133は、図3に示すように、最小輝度曲線作成部1331、文字区切り位置検出部1332と、文字切り出し処理部1333と、で構成されている。すなわち、この文字切り出し部133は、最小輝度曲線作成部1331で作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出部1332と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理部1333と、を備えている。
最小輝度曲線作成部1331は、画像データにおいて文字列の方向に直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて画像データにおける最小輝度曲線を作成する。具体的には、最小輝度曲線作成部1331は、文字列検出工程で得られる文字列位置に基づいて形成される文字画像領域について、画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の最も左側の輝度列から最も右側の輝度列まで繰り返すことによって最小輝度曲線を作成する。そして、文字列切り出し部132で切り出された1行の文字列について、認識処理対象のうち隣接する2文字を囲む矩形の暫定切り出し領域RCTを設ける。
文字区切り位置検出部1332は、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する。具体的には、文字区切り位置検出部1332は、最小輝度曲線に基づいて各文字の文字列方向の境界点を求める。本実施形態では、文字切り出し部133における処理が白黒2値画像を用いて行われることから、文字区切り位置検出は、単純に最小輝度曲線に沿って輝度値=0の区間(黒の区間)を文字区間とし、輝度値=255の区間(白の区間)を空白区間とし、空白区間の中点を区切り点としている。
文字切り出し処理部1333は、検出した文字間の区切り位置に基づいて各文字を切り出す。なお、本実施形態において、最小輝度曲線作成部1331は、設定された矩形領域RCT内において最小輝度曲線を生成するように構成されている。ただし、本発明はこの構成だけはなく、例えば文字列全体に対して最小輝度曲線(図8参照)を生成しておき、設定領域に対しその設定領域に対応する最小輝度曲線(図10参照)を用いるように構成することも可能である。なお、図8において、縦軸は図10と同じ輝度値を示し、横軸は図10と同じ画素位置を示している。
[文字認識装置の全体動作]
次に、本実施形態に係る文字認識装置10の全体的な動作について図4に関連付けて説明する。図4は、本実施形態に係る文字認識装置の動作を説明するためのフローチャートである。
情報記録媒体20のOCR文字記録領域21に印刷されたOCR文字列は、媒体搬送機構の搬送ガイドに沿って情報記録媒体が動かされると、1次元撮像素子11によってその文字パターンが読み取られて光電変換され(ステップST101)、例えば、256階調の多値画像データとして画像メモリ12に取り込まれる(ステップST102)。
次に、画像メモリ12に格納された画像に対して、必要に応じて2値化部131で2値化が行われる(ステップST103)。具体的には、データ処理部13においては、画像メモリ12から画像データを読み出して、その画像データが多階調の濃淡画像である場合に、2値化部131で濃淡画像が白黒2値の画像に変換される。より具体的には、2値化部131は、適当な方法(例えば判別分析法)によって閾値を求め、元の画像を白黒2値の画像に変換する。
次いで、文字列切り出し部132において、文字列切り出し(行切り出し)が行われる(ステップST104)。具体的には、文字列切り出し部132において、2値化部131で2値化された文字列が水平方向に射影されて、文字列の上下エッジが検出される。そして、文字列切り出し部132においては、上下エッジの中心位置が、文字列の中心ラインと識別されて行切り出しが行われる。
次いで、文字区切り位置検出部1332を含む文字切り出し部133において、文字切り出しが行われる(ステップST105)。最小輝度曲線作成部1331においては、その矩形領域において射影が生成される。例えば、上述したように、射影形成に際し、文字が横方向(X軸方向)に並んでいるときには、X軸への射影が形成される。本実施形態では、文字切り出し部133における処理が白黒2値画像を用いて行われることから、文字区切り位置検出は、単純に最小輝度曲線に沿って輝度値=0の区間を文字区間とし、輝度値=255の区間を空白区間とし、空白区間の中点を区切り点とすればよい。図9の部分に対応する最小輝度曲線は図10に示すようになる。なお、図10は、2値化された画像データに基づき作成されているので、縦軸は白(1)と黒(0)で示すところであるが、装置内での処理の中で、(0)と(1)との中間の値を用いて処理する場合があるため、輝度値=255を、白(1)と仮定している。このような仮定をすることで、中間の値を少数点で示すことなく、整数値で処理することができ、計算上、処理しやすくしている。
ステップST105の文字切り出し処理が終了すると、認識対象となっている文字の外接矩形領域(上下左右の座標値)が求められる。
次いで、特徴抽出部134において特徴抽出が行われる(ステップST106)。具体的には、特徴抽出部134においては、上述した外接矩形領域が任意のサブ領域に分割(たとえば1個の外接矩形領域を5×5の領域に分割され、そのうち1個の領域がサブ領域とされる)され、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合が求められ、それらを要素とする特徴ベクトルが生成される。
次いで、特徴比較部135において、特徴比較が行われる(ステップST107)。具体的には、特徴比較部135においては、ステップST106で求めた特徴ベクトルが、予めこの媒体で使用される全文字について求められて特徴辞書格納部136に格納されている基準特徴ベクトルと比較されて、類似度(例えば正規化相関係数)が最も高いものをその文字が該当する候補文字に設定される。
最後に、文字認識が行われる(ステップST108)。具体的には、ステップST107の特徴比較によって設定された候補文字が、媒体に用いられた文字として認識される。なお、類似度が一定値を超える候補文字が複数個存在する場合には、文字認識を行うことができないので、類似文字認識部137において、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別が行われる。
例えば、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりしてもよい。また、左右線対称や上下線対象と同様に点対称で類似性を調べてもよい。
[本実施形態の文字切り出し処理の具体例]
次に、このような特徴を有する文字切り出し部133における文字切り出し処理例について、図5から図7に関連付けてより具体的に説明する。図5は、本実施形態に係る文字切り出し部の処理フローを示すフローチャートである。図6は、本実施形態に係る文字切り出し部における最小輝度曲線作成部の処理フローを示すフローチャートである。図7は、本実施形態に係る文字切り出し部における文字区切り位置検出部の処理フローを示すフローチャートである。
図9は、文字列を構成する文字(一部)に着目したときの画像データを示す図である。文字認識装置10において、文字認識を行おうとする画像IMGが図9のように与えられているとする。図9の例では、文字「K」、「O」、「<」、「B」、「C」を含む文字列の画像が示されている。また、図10は、図9に示す画像データを垂直射影することによって得られた垂直射影データである。
なお、図9は、図2中の「K」から「C」までの画像データを示している。この文字列は、一例として、図2に例示した情報記録媒体20のOCR文字記録領域21に印刷された文字を撮像したときの画像データの2行目の文字列に相当している。また、図9の例では、文字の配列方向(並んでいる方向)において、隣接する文字間は空白が形成されており、隣接する2文字の境界が明確となっている。本実施の形態における各文字は概略、所定の幅(基準の文字幅)で形成され、さらに、隣接する2文字の間には一定の幅を持つ空白区間が形成されている。
図5に示すように、最小輝度曲線作成部1331は、画像データにおいて文字列の方向に直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて画像データにおける最小輝度曲線を作成する(ステップST1051)。
具体的には、図6に示すように、最小輝度曲線作成部1331は、文字列検出工程で得られる文字列位置に基づいて形成される文字画像領域について、画素列を文字列の方向(X軸方向)と垂直な方向(Y軸方向)にスキャンして最小輝度値を求める(ステップST10511)。この操作を文字画像領域において、X軸方向に左端側の輝度列から右端側の輝度列まで繰り返すことによって各画素列の最小輝度値を検出する(ステップST10512)。そして、検出された各画素列の最小輝度値に基づいて、図10に示すような文字画像領域における最小輝度曲線を作成する(ステップST10513)。
次いで、文字区切り位置検出部1332は、最小輝度曲線作成部1331で作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する(ステップST1052)。
具体的には、図7に示すように、文字区切り位置検出部1332は、最小輝度曲線に沿って輝度値=255の区間(白の区間)を空白区間として検出する(ステップST10521)。そして、各空白区間の幅(画素数)を図10に示すS1〜S6のように求める(ステップST10522)。
次いで、各空白区間における幅(S1〜S6)の中点を求め、空白区間の中点を文字間の区切り位置として検出する(ステップST10523)。なお、図10において、輝度値=0の区間(L1〜L5)(黒の区間)は文字区間である。
最後に、文字切り出し処理部1333は、検出した文字間の区切り位置(空白区間の中点)に基づいて各文字を切り出す(ステップST1053)。
[他の実施例]
最小輝度曲線作成部1331で作成される最小輝度曲線は、画像データにおける各画素列の最小値を求めているため、文字と文字との間の空白区間に汚れや、ピンポイントがあると、これが疑似文字区間を形成する可能性がある。このような汚れやピンポイントによる文字区間の誤検出を排除するには、基準の文字幅を設定し、これに比較して小さい場合には非文字であると判定するようにすればよい。本発明の文字認識装置10は、文字切り出し部133が、基準の文字幅を設定した文字幅設定部を有し、最小輝度曲線を基準の文字幅と比較して、最小輝度曲線の輝度値=0の区間が基準の文字幅を超えた区間を文字区間として検出する文字区間検出部を備えた構成にしてもよい。
本発明の文字認識装置10は、データ処理部13において、処理の最初に画像全体を2値化するのではなく、多階調画像のまま文字列検出、文字切り出し処理までを行って、その後その文字領域内に限定して画像を2値化する構成にすることもできる。この場合の文字切り出し工程では、多階調画像を用いて最小輝度曲線を作成するが、文字切り出しには適当な閾値を設けることで、2値画像を用いて最小輝度曲線を用いる場合と同様の処理が可能である。
なお、以上詳細に説明した方法は、上記手順に応じたプログラムとして形成し、CPU等のコンピュータで実行するように構成することも可能である。
また、このようなプログラムは、半導体メモリ、磁気ディスク、光ディスク、フロッピー(登録商標)ディスク等の記録媒体、この記録媒体をセットしたコンピュータによりアクセスし上記プログラムを実行するように構成可能である。
(本実施例の主な効果)
以上のように、本実施形態によれば、最小輝度曲線作成部は、撮像された文字列の画像データにおける文字画像領域について、画素列を文字列と垂直な方向にスキャンして最小輝度値を求める操作を文字画像領域の左端側の輝度列から右端側の輝度列まで繰り返すことによって最小輝度曲線を求め、この最小輝度曲線に基づいて各文字の文字列方向の境界点を求めるようにしたため、文字区間と空白区間が明確に分離され、正確な文字区切り位置の決定が可能となる。また、本発明は、文字認識の性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能であり、ひいては文字認識性能の向上を図ることが可能となる。
10…文字認識装置、11…撮像素子(画像読取部)、12…画像メモリ、13…データ処理部、131…2値化部、132…文字列切り出し部、133…文字切り出し部、1330…文字区切り位置検出部、1331…最小輝度曲線作成部、1332…文字区切り位置検出部、1333…文字切り出し処理部、134…特徴抽出部、135…特徴比較部、136…特徴辞書格納部、137…類似文字認識部、20…情報記録媒体、21…OCR文字記録領域

Claims (5)

  1. 情報記録媒体上の文字列を撮像する撮像手段と、
    前記撮像手段で撮像された文字列の画像データを記憶する記憶手段と、
    前記画像データを処理して前記文字列を形成する文字を切り出す文字切り出し部と、を有する文字認識装置であって、
    前記文字切り出し部は、前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成部と、作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出部と、検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理部と、を備えたことを特徴とする文字認識装置。
  2. 前記文字切り出し部が、基準の文字幅を設定した文字幅設定部を有し、前記最小輝度曲線を前記基準の文字幅と比較して前記基準の文字幅を超えた区間を文字区間として検出する文字区間検出部を備えたことを特徴とする請求項1記載の文字認識装置。
  3. 前記最小輝度曲線作成部が、2値化された前記画像データに基づいて最小輝度値を検出して最小輝度曲線を作成することを特徴とする請求項1又は2記載の文字認識装置。
  4. 情報記録媒体上の文字列を撮像して得られた画像データを処理することによって前記文字列を認識する文字認識方法において、
    前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成工程と、
    作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出工程と、
    検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理工程と、を有することを特徴とする文字認識方法。
  5. 情報記録媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し処理をコンピュータに実行させる文字認識プログラムであって、
    コンピュータに、
    前記画像データにおいて前記文字列の方向と直交する方向に配列された画素列に格納されている輝度値の中で最小輝度値を検出し、各画素列の最小輝度値に基づいて前記画像データにおける最小輝度曲線を作成する最小輝度曲線作成手順と、
    作成した最小輝度曲線上において隣接する文字間の区間を求めて文字間の区切り位置を検出する文字区切り位置検出手順と、
    検出した文字間の区切り位置に基づいて各文字を切り出す文字切り出し処理手順と、を実行させるための文字認識プログラム。
JP2012286645A 2012-12-28 2012-12-28 文字認識装置、文字認識方法、及び文字認識プログラム Active JP6171167B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012286645A JP6171167B2 (ja) 2012-12-28 2012-12-28 文字認識装置、文字認識方法、及び文字認識プログラム
US14/142,079 US9251430B2 (en) 2012-12-28 2013-12-27 Apparatus, method, and program for character recognition using minimum intensity curve of image data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012286645A JP6171167B2 (ja) 2012-12-28 2012-12-28 文字認識装置、文字認識方法、及び文字認識プログラム

Publications (2)

Publication Number Publication Date
JP2014130415A true JP2014130415A (ja) 2014-07-10
JP6171167B2 JP6171167B2 (ja) 2017-08-02

Family

ID=51016906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012286645A Active JP6171167B2 (ja) 2012-12-28 2012-12-28 文字認識装置、文字認識方法、及び文字認識プログラム

Country Status (2)

Country Link
US (1) US9251430B2 (ja)
JP (1) JP6171167B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194800A (ja) * 2015-03-31 2016-11-17 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
US9858477B2 (en) 2015-07-17 2018-01-02 Nidec Sankyo Corporation Character segmenting apparatus, character recognition apparatus, and character segmenting method
CN112418217A (zh) * 2020-11-20 2021-02-26 北京百度网讯科技有限公司 用于识别字符的方法、装置、设备和介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6080259B2 (ja) * 2013-02-06 2017-02-15 日本電産サンキョー株式会社 文字切り出し装置及び文字切り出し方法
FR3038100A1 (fr) * 2015-06-26 2016-12-30 Orange Procede de reconnaissance d'ecriture manuscrite sur une surface physique
US9946945B2 (en) * 2016-04-08 2018-04-17 Intelligent Security Systems Corporation Systems and methods for recognizing symbols in images
CN106156768B (zh) * 2016-07-01 2019-03-12 屈桢深 基于视觉的机动车行驶证检测方法
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04260181A (ja) * 1991-02-15 1992-09-16 Toshiba Corp 文字読取装置
JPH06119494A (ja) * 1992-10-02 1994-04-28 Nippon Steel Corp 文字列認識方法
JPH0765123A (ja) * 1993-08-24 1995-03-10 Matsushita Electric Ind Co Ltd 画像処理装置及び画像処理方法
JPH0793476A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 文字列検出装置
JP2008097589A (ja) * 2006-09-13 2008-04-24 Keyence Corp 文字切り出し装置、方法およびプログラム
JP2010218041A (ja) * 2009-03-13 2010-09-30 Omron Corp 携帯式文字認識装置、文字認識プログラム及び文字認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4945739B2 (ja) * 2007-03-30 2012-06-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04260181A (ja) * 1991-02-15 1992-09-16 Toshiba Corp 文字読取装置
JPH06119494A (ja) * 1992-10-02 1994-04-28 Nippon Steel Corp 文字列認識方法
JPH0765123A (ja) * 1993-08-24 1995-03-10 Matsushita Electric Ind Co Ltd 画像処理装置及び画像処理方法
JPH0793476A (ja) * 1993-09-22 1995-04-07 Toshiba Corp 文字列検出装置
JP2008097589A (ja) * 2006-09-13 2008-04-24 Keyence Corp 文字切り出し装置、方法およびプログラム
JP2010218041A (ja) * 2009-03-13 2010-09-30 Omron Corp 携帯式文字認識装置、文字認識プログラム及び文字認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016194800A (ja) * 2015-03-31 2016-11-17 日本電産サンキョー株式会社 文字切り出し装置、文字認識装置、および文字切り出し方法
US9886643B2 (en) 2015-03-31 2018-02-06 Nidec Sankyo Corporation Character segmentation device, character recognition device and character segmentation method
US9858477B2 (en) 2015-07-17 2018-01-02 Nidec Sankyo Corporation Character segmenting apparatus, character recognition apparatus, and character segmenting method
CN112418217A (zh) * 2020-11-20 2021-02-26 北京百度网讯科技有限公司 用于识别字符的方法、装置、设备和介质

Also Published As

Publication number Publication date
US9251430B2 (en) 2016-02-02
US20140185106A1 (en) 2014-07-03
JP6171167B2 (ja) 2017-08-02

Similar Documents

Publication Publication Date Title
JP6171167B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラム
JP5334042B2 (ja) 文字列認識方法及び文字列認識装置
JP6268023B2 (ja) 文字認識装置およびその文字切り出し方法
JP5591578B2 (ja) 文字列認識装置および文字列認識方法
JP4658848B2 (ja) 文字列認識方法及び文字列認識装置
JP6039413B2 (ja) 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
KR101452562B1 (ko) 비디오 이미지에서 텍스트를 검출하는 방법
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
JP6487255B2 (ja) 文字切り出し装置、文字認識装置、および文字切り出し方法
JP2010170539A5 (ja)
JP6599672B2 (ja) 文字切り出し装置、文字認識装置、および文字切り出し方法
JP6075190B2 (ja) 画像処理方法及び装置
JP4945739B2 (ja) 文字列認識方法及び文字列認識装置
JP5011508B2 (ja) 文字列認識方法及び文字列認識装置
JP5630689B2 (ja) 文字認識方法及び文字認識装置
JP2018055496A (ja) 媒体認識装置および媒体認識方法
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
JP2005250786A (ja) 画像認識方法
Chanda et al. Font identification—In context of an Indic script
KR101070051B1 (ko) 도트 패턴에서 불변 영역을 인식하는 방법
Soumya et al. Text extraction from images: a survey
JPH06501803A (ja) 抽出されたデータから特定の部分を分離して抽出することを含む文字認識方法
JP2015032213A (ja) 情報処理装置、方法、及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150609

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150622

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170605

R150 Certificate of patent or registration of utility model

Ref document number: 6171167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150