JP6341059B2 - 文字認識装置、文字認識方法、およびプログラム - Google Patents

文字認識装置、文字認識方法、およびプログラム Download PDF

Info

Publication number
JP6341059B2
JP6341059B2 JP2014222944A JP2014222944A JP6341059B2 JP 6341059 B2 JP6341059 B2 JP 6341059B2 JP 2014222944 A JP2014222944 A JP 2014222944A JP 2014222944 A JP2014222944 A JP 2014222944A JP 6341059 B2 JP6341059 B2 JP 6341059B2
Authority
JP
Japan
Prior art keywords
character
image
deterioration
dictionary
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014222944A
Other languages
English (en)
Other versions
JP2016091186A (ja
Inventor
秀人 濱走
秀人 濱走
相澤 知禎
知禎 相澤
匡史 日向
匡史 日向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2014222944A priority Critical patent/JP6341059B2/ja
Priority to CN201580039458.0A priority patent/CN106663212B/zh
Priority to US15/327,381 priority patent/US10049309B2/en
Priority to EP15855057.4A priority patent/EP3214580B1/en
Priority to PCT/JP2015/080821 priority patent/WO2016068325A1/ja
Publication of JP2016091186A publication Critical patent/JP2016091186A/ja
Application granted granted Critical
Publication of JP6341059B2 publication Critical patent/JP6341059B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、文字認識処理に関し、特に、劣化した文字画像を高速に認識可能な文字認識処理に関する。
手書きや印刷された文字を光学的に読み取って認識する光学文字認識(OCR)における課題の一つとして、劣化した文字画像を精度良く認識することがある。文字認識処理では、認識対象の文字画像のサイズが十分大きく、ピンぼけや、かすれ、つぶれ、ノイズなどがない理想的な状態であると認識の精度が高い。しかしながら、文字画像のサイズが小さかったり、ピンぼけや、かすれ、つぶれ、ノイズが存在したりすると、文字の認識精度が低下してしまう。例えば、文字画像のサイズが小さいと、正規化処理により文字サイズが拡大されぼけが発生するため、理想的な文字画像から作成された辞書を用いた文字認識の精度が低下してしまう。このように認識対象の文字画像が理想的な状態から外れた場合は、文字画像が劣化しているといえる。
例えば、OCRの応用として、道路を走行する車両に掲示されたナンバープレートをカメラで撮影して描かれている文字を認識するナンバープレート認識システムが知られている。従来は車線ごとにカメラを道路上方に設置するものが主流であったが、近年、設備条件の制約やコストの観点から、道路路側に建てられたポール上にカメラを固定設置するものが登場している。複数車線の道路で道路路側に設置する方式を用いた場合、車線によってカメラからの距離が異なるので、カメラに近い車線のナンバープレートの大きさと、カメラから遠い車線のナンバープレートの大きさは異なるものとなる。遠い車線のナンバープレート中の文字画像が小さくなり、正規化処理によって文字画像の劣化が生じ得る。
劣化した文字画像に対する認識の手法として、特許文献1が挙げられる。特許文献1では、あらかじめ様々な劣化レベルの辞書を作成しておき、認識対象の文字画像と同じ劣化レベルのテストサンプルとの類似度を元に、利用する辞書の劣化レベルを決定することを開示している。
特開2006−59351号公報
しかしながら、特許文献1の手法では次のような問題がある。この手法では、テストサンプルをもとに利用する辞書を決定するため、屋外環境における車両ナンバープレート中の文字画像の認識のように、認識対象画像のサイズやぼけ具合にばらつきがあり、画像ごとあるいは文字ごとに最適な辞書の劣化レベルが異なるケースにおいては、辞書の決定が難しく、また決定された辞書が最適な辞書ではないこともある。
この問題を解決する手法として、作成した様々な劣化レベルの辞書に対して総当たりで認識を行うことが考えられる。しかしながら、入力された文字画像に対する照合回数が増大し(一つの辞書に含まれる文字数をk、劣化辞書の数をnとすると、k×n回の照合が必要となる)、処理時間が増大してしまう。
本発明は上記実情に鑑みなされたものであって、劣化した文字画像を精度よくかつ高速
に認識可能とする技術を提供することにある。
上記目的を達成するため本発明は、以下の構成を有する。
本発明の第一の態様は、オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶する記憶手段と、画像の入力を受け付ける画像入力手段と、前記画像から文字画像を抽出する抽出手段と、抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定手段と、前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識手段であって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識手段と、を備え、前記文字画像の
劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出手段によって抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識装置である。
このような構成によれば、複数の劣化レベルの辞書データベースを保有しているため劣化した文字画像の認識を精度良く行える。さらに、全ての辞書データベースを用いた認識処理を行う必要がなく、認識結果が所定の条件を満たした時点で認識処理を終了するので、全ての劣化レベルの辞書データベースを用いて認識を行う場合よりも高速な文字認識が可能となる。
また、本発明における前記利用順序決定手段は、前記文字画像の劣化度と前記辞書データベースの対応関係をあらかじめ記憶しており、当該対応関係を用いて前記利用順序を決定する、ことが好ましい。
また、本発明における前記利用順序決定手段は、前記文字画像の劣化度に対応する劣化レベルを前記対応関係から求め、求められた劣化レベルに対応する辞書データベースを最初に利用するものとして、求められた劣化レベルに近い劣化レベルに対応する辞書データベースから順番に利用するものものとして、前記利用順序を決定する、ことも好ましい。
また、前記対応関係は、複数のテスト画像を前記複数の劣化レベルに対応する全ての辞書データベースを用いて照合を行った結果に基づいて生成される、ことが好ましい。
このような構成によれば、認識対象の文字画像の劣化度に応じて、正しく認識ができると期待される辞書データベースほど早い利用順序として決定されるので、早い段階で認識結果が所定の条件を満足することが期待でき更に処理の高速化が実現できる。
また、前記所定の条件は、前記辞書データベースを用いた文字認識における最も高い照合スコアが所定の閾値以上という条件とすることができる。
また、前記所定の条件とは、前記辞書データベースを用いた文字認識における最も高い照合スコアと2番目に高い照合スコアとの差が所定の閾値以上という条件とすることができる。
このような条件を満たせば文字認識の信頼性が高いといえるので、信頼性の低い識別結果を出力することを回避でき、処理の高速化と認識精度の向上とを両立させることができる。
字認識においては、抽出された文字画像のサイズを正規化して認識処理が行われ、抽出された文字画像のサイズが正規化後のサイズよりも小さい場合には、正規化処理(拡大処理)によって文字画像が劣化する。したがって、正規化処理前の文字画像のサイズに基づいて文字画像の劣化度を決定することができる。
また、文字画像の劣化は、抽出された文字画像の大きさが正規化サイズよりも小さい場合以外に、ぼけの発生、文字のかすれ、文字のつぶれ、ノイズの重畳によっても発生する。したがって、文字画像の劣化度として、ぼけ量の大きさ、文字のかすれ具合、文字のつぶれ具合、ノイズの重畳量などを評価した値を採用することもできる。
また、前記画像は、車両の少なくとも一部分を含み、前記抽出手段は、前記画像から前記車両に掲示されているナンバープレート上に描かれた文字を前記文字画像として抽出する、ことも好ましい。
なお、本発明は、上記手段の少なくとも一部を含む文字認識装置として捉えることができる。また、本発明は、文字認識方法として捉えることもできる。また、これらの方法の各ステップをコンピュータに実行させるためのコンピュータプログラムや、当該プログラムを非一時的に記憶したコンピュータ読取可能な記憶媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
本発明によれば、劣化した文字画像を精度よくかつ高速に認識可能となる。
実施形態にかかる文字認識装置のハードウェア構成および機能構成を示すブロック図である。 劣化辞書の作成処理を説明する図。 劣化辞書の作成処理の流れを示すフローチャート。 文字認識処理の全体の流れを示すフローチャート。 抽出された1文字に対する文字認識処理の詳細な流れを示すフローチャート。 文字画像の劣化度を説明する図。 劣化度と辞書の劣化レベルの対応表、および利用順序決定アルゴリズムを説明する図。 文字認識処理における識別結果の信頼性判定処理を説明する図。
以下に図面を参照して、この発明を実施するための好ましい形態を例示的に詳しく説明する。ただし、以下の実施形態に記載されている構成部品の寸法、材質、形状、その相対配置などは、特に記載がない限りは、この発明の範囲をそれらのみに限定する趣旨のものではない。
(第1の実施形態)
本実施形態に係る文字認識装置は、入力画像中の文字の大きさが所定の正規化サイズよりも小さい場合でも精度良くかつ高速に認識可能な装置である。文字画像(一文字分)の大きさが正規化サイズよりも小さい場合は、正規化サイズに変換する際の拡大処理によっ
て文字画像がぼけた画像となり、文字の認識精度が低下する。入力画像中の文字画像の大きさは、正規化サイズ以上であることが望ましく、正規サイズよりも小さい文字画像は劣化しているといえる。本実施形態では、このような劣化が生じている文字画像であっても、精度良くかつ高速に認識可能とする。
<構成>
図1(a)は、本実施形態に係る文字認識装置10のハードウェア構成を示す図である。文字認識装置10は、画像入力部11、演算装置12、記憶装置13、入力装置14、出力装置15、通信装置16を含む。画像入力部11は、カメラ20から画像データを受け取るインタフェースである。なお本実施形態ではカメラ20から直接画像データを受け取っているが、通信装置16を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。演算装置12は、CPUなどの汎用のプロセッサであり、記憶装置13に格納されたプログラムを実行して、後述する処理を実現する。記憶装置13は、主記憶装置および補助記憶装置を含み、演算装置12によって実行されるプログラムを格納するとともに、画像データやプログラム実行中の一時データを格納する。入力装置14は、キーボードやマウスなどからなり、ユーザが文字認識装置に指示を入力するための装置である。出力装置15は、表示装置やスピーカーなどからなり、文字認識装置がユーザに対する出力を行うための装置である。通信装置16は、文字認識装置10が外部のコンピュータと通信を行うための装置である。通信の形態は、有線であっても無線であってもよく、通信規格は任意であってよい。
演算装置12は、プログラムを実行することにより、図1(b)に示すような機能を実現する。すなわち、演算装置12は、文字抽出部110、文字認識部111、文字認識用辞書データベース116の機能部を実現する。文字認識部111は、劣化度評価部112、利用順序決定部113、特徴量取得部114、照合部115を含む。各部の処理内容については以下で説明する。
<辞書作成処理>
文字認識用辞書データベース116には、複数の劣化レベルの辞書(文字認識用データベース)が格納される。図2に示すように、各劣化レベルの辞書は、鮮明な文字画像(オリジナル文字画像)を各劣化レベルで劣化させた画像から生成されるものである。例えば、オリジナル文字画像は、65×65画素の鮮明な画像である。図では1つの文字について1つの画像のみが示されているが、実際には1つの文字について複数の画像が辞書作成に用いられる。
以下、辞書作成処理について図3のフローチャートを参照して説明する。なお、文字認識装置10自体がこの辞書作成処理を実行してもよいし、他の装置がこの辞書作成処理を実行して、作成された辞書データを文字認識用辞書データベース116に格納してもよい。
辞書作成処理においては、まず、作成する辞書の劣化レベルが指定される(S10)。ここでは、劣化レベル0,3,5,7,9,11の辞書を作成するものとする。ステップS10での劣化レベルの指定順序は任意であって構わない。次に、辞書を作成する対象の文字が指定される(S11)。文字の指定順序は任意であって構わない。
ステップS12では、指定された劣化レベルで、指定された文字のオリジナル文字画像を劣化させる変換処理(以下劣化処理という)が施される(指定された劣化レベルが0の場合はなにも行わない)。上述のように指定された文字についてオリジナル文字画像は複数存在するので、その全てについて変換処理が施される。本実施形態では、各画素値を、周辺画素の画素値の平均値(単純平均や重み付け平均)で置き換えるぼかし処理(ぼけ付
加処理)を変換処理として採用する。劣化レベルは、ぼかし処理におけるぼかし強度に対応する。なお、画像にぼけを付加できる処理であれば、他の変換処理を採用してもよく、例えば、劣化レベルに応じたサイズに縮小処理を施してから、元のサイズに戻す拡大処理を施してもよい。
ステップS13では、劣化処理が施されたそれぞれの文字画像が、所定の正規化サイズに変換される。本実施形態では、この正規化によって50×50画素の正方形に変換される。本実施形態ではオリジナル画像のサイズは正規化サイズよりも大きいが、オリジナル画像のサイズと正規化サイズは同じであっても構わない。文字サイズの変換処理は、バイリニア補間、バイキュービック補間、ニアレストネイバ補間など既知の任意のアルゴリズムによって実行することができる。文字画像が正方形でなく、縦横の長さが異なる長方形である場合には、縦横のいずれか長い方を正規化サイズになるように縦横比を維持したまま拡大または縮小の変換をして、その結果を画像の中心に配置してもよい。この際、余白部分の画素の輝度値には、変換結果の文字画像から外周画素の輝度値の平均値を算出して設定してもよい。
ステップS14では、劣化処理および正規化処理後のそれぞれの文字画像から、文字の特徴を表す文字特徴量(特徴量ベクトル)が取得される。文字の特徴を取得する方法として、画素特徴抽出法、輪郭特徴抽出法、勾配特徴抽出法などが広く用いられるがどのような文字特徴抽出方法を用いても構わない。例えば、画素ごとに輪郭線の方向をチェインコードで表し各小領域におけるチェインコードのヒストグラムを文字特徴量としてもよいし、小領域ごとの画素値の総和を文字特徴量としてもよい。
ステップS15では、ステップS14によって取得される複数の文字特徴量を用いて、指定された文字を識別するための辞書データが作成される。辞書は、入力された文字(の文字特徴量)と、辞書が対象とする文字(の文字特徴量)の類似度を算出するために用いられる。本出願では劣化処理後の文字画像から取得した文字特徴量を用いて作成された辞書を劣化辞書と呼ぶ。文字認識の手法として、部分空間法、ニューラルネットワーク、サポートベクタマシン(SVM)、判別分析など既知の任意の手法を採用可能であり、採用する方式に応じて公知の方法により辞書を作成すればよい。
ここまでの処理により、ステップS10で指定された劣化レベルにおける、ステップS11で指定された文字についての辞書作成が完了する。ステップS16では、当該劣化レベルにおいて全ての文字についての辞書作成が完了したかどうか判定し、完了していない場合は、ステップS11に戻って未処理の文字について辞書を作成する。指定された劣化レベルにおいて全ての文字についての辞書作成が完了したら、ステップS17に進んで、全ての劣化レベルについての辞書作成が完了したか判定する。完了していない場合は、ステップS10に戻って未処理の劣化レベルについて辞書を作成する。全ての劣化レベルにおいて辞書作成が完了したら、辞書作成処理は終了する。
<文字認識処理>
図4は、文字認識装置10によって行われる文字認識処理の全体的な流れを示すフローチャートである。ステップS20で、文字認識装置10は画像入力部11を介してカメラ20から文字が写った画像データを取得する。ステップS21において、文字抽出部110が、受け取った画像から文字列を抽出し、そこからさらに1文字ずつ文字画像を抽出する。文字抽出処理では、文字の傾きを補正するように線型変換を施して、傾きのない矩形状の文字領域を抽出することが好ましい。ステップS22において、文字認識部111が、切り出された文字と文字認識用辞書データベース116内の辞書内の各文字とを照合して、切り出された文字画像に含まれる文字を認識する。
ステップS22における文字認識処理の詳細を、図5のフローチャートを参照して説明する。図5に示すフローチャートの処理は、ステップS21において抽出された文字画像のそれぞれについて実行される。また、ここでの説明において文字画像とは、1つの文字として抽出された領域の画像を意味する。
ステップS220において、劣化度評価部112は、文字画像からその劣化度を算出する。文字画像の劣化度は、数値が大きいほど劣化が大きいことを表す。劣化度の算出方法の一例を、図6を参照して説明する。図6は、ステップS21において抽出された文字画像を示す図である。文字画像は矩形であり、その横方向のサイズ(画素数)をw、縦方向のサイズ(画素数)をhとする。なお、ここまでの処理において、文字の傾きを補正する処理を施されているものとする。ただし、画像のサイズを変換する処理(拡大縮小処理)は施されていないものとし、サイズwおよびhは入力画像上での大きさと同一とする。本実施形態においては、劣化度rを次のように決定する。
r = R − max(w,h)
ここで、Rは正方形の正規化画像の一辺の長さ(画素数)であり、本実施形態では50画素である。また、maxは最大値を表す関数である。
なお、max(w,h)がRよりも大きいときは、劣化度rはゼロとする。
本実施形態における劣化度は、文字画像の大きさが正規化後のサイズと比較してどの程度小さいかを評価するものといえる。なおこのような評価が可能であれば、上記以外の方法によって劣化度を決定してもよい。例えば、横サイズと縦サイズの大小関係にかかわらずいずれか一方と正規化画像サイズの一辺の長さの差を劣化度としてもよい。あるいは、正規化画像の面積から文字画像の面積を引いた値を劣化度としてもよい。ただし、縦サイズと横サイズの大きい方に基づいて劣化度を決定することで、数字の「1」やアルファベットの「l」(エル)や漢数字の「一」のように縦長あるいは横長の文字画像でも劣化度を適切に計算できる。
ステップS221において、利用順序決定部113は、文字画像の劣化度に基づいて辞書の利用順序(優先順位)を決定する。利用順序決定部113は、図7に示すような、文字画像の劣化度に応じてどの劣化レベルの辞書を用いるべきかを表す、文字画像の劣化度と辞書の劣化レベルの対応関係をあらかじめ格納している。利用順序決定部113は、ステップS220において算出した劣化度に対応する劣化レベルをこの対応関係から求め、求めた劣化レベルの辞書を最初に利用する辞書として決定する。そして、算出された劣化度に対応する劣化レベルに近い劣化レベルの辞書から順番に利用するように辞書の利用順序を決定する。劣化レベル間の距離は適当な測度によって定義すればよく、本実施形態では、劣化レベル(数値)の差を劣化レベル間の距離とする。ここで、劣化度に対応する劣化レベルと同じ近さの劣化レベルを有する辞書が複数存在する場合には、どちらを先に利用してもよいが、本実施形態では劣化レベルが低い方の辞書を先に利用する。
なお、文字認識処理において全ての劣化レベルの辞書を使う必要は必ずしもない。したがって、決定される利用順序に全ての劣化レベルが含まれていなくても良い。例えば、文字画像の劣化度から求められる劣化レベルとの差が所定値以上離れている劣化レベルの辞書は、文字認識に使わないようにしても良い。劣化レベルの差が大きいと正確な認識が行えない可能性が高いためである。
図7に示すような劣化度と劣化レベルの対応関係の作成方法について簡単に説明する。対応関係は、例えば、事前にテストサンプル(テスト画像)を用いた照合を行って作成することができる。具体的には、様々な劣化度(画像サイズ)のテストサンプルと、全ての劣化レベルの辞書と総当たりで照合を行い、照合結果の正確さに基づいて劣化度と劣化レベルの対応関係を求めることができる。すなわち、ある劣化度のテストサンプルを全体と
して最も正確に識別できる辞書の劣化レベルを、当該劣化度に対応する劣化レベルとして決定できる。また、対応関係は、理論的に決定することもできる。例えば、劣化辞書を作成する際にオリジナル文字画像をどれだけぼかしたかに応じて、劣化度と劣化レベルの対応関係を求めることもできる。
ステップS223において、特徴量取得部114は、文字画像から文字特徴量を取得する。文字特徴量の取得処理は、辞書作成処理時の処理と同じであるため、繰り返しの説明は省略する。なお、文字特徴量の抽出前に、大きさ、位置、太さ、傾きなどを正規化して、文字の変動をできるだけなくすことが好ましい。特に、文字画像の大きさの正規化処理では、辞書作成時の正規化サイズ(本実施形態では50×50画素)と同じサイズを変換する。
ステップS225〜S228の処理において、照合部115が、ステップS221において決定された利用順序で辞書と文字との照合を行って認識結果を出力する。まず、ステップS224において、変数iに1を代入する。ステップS225において、利用順序がi番目の辞書を用いて、入力文字と辞書内の各文字との照合を行う。この照合の結果として、利用順序がi番目の辞書内の各文字と入力文字との間の類似度(照合スコア)が得られる。最も高い照合スコアを与える文字が、入力文字の識別結果である。ステップS226において、照合部115は、得られた識別結果が信頼のできる結果であるか否かを判定する。具体的には、ステップS225において得られた照合スコアが所定の条件を満たすか否かを判定する。所定の条件として、例えば、最も高い照合スコアが所定の閾値以上であるという条件や、最も高い照合スコアと2番目に高い照合スコアとの差が所定の閾値以上であるという条件を採用することができる。i番目の辞書を用いた識別結果がこのような条件を満たし信頼できる結果であると判定される場合は、ステップS228に進み、照合部115は、最も高い照合スコアを与える文字を、入力文字の認識結果として出力する。一方、上記の条件を満たさない場合には、ステップS227に進み、変数iをインクリメントして、次の利用順序の辞書を用いた照合を行う。なお、全ての劣化レベルの辞書を用いて照合を行っても信頼できる結果が得られない場合には、文字認識ができない旨を示すエラーを返してもよいし、これまでの照合処理の結果に基づいて入力文字の識別結果を決定してもよい。
文字照合処理の動作例を図8を参照して説明する。ここでは、文字画像の劣化度rが33であり、したがって、劣化辞書の利用順序が、劣化レベル9,7,11,5,3の順番であると仮定する。まず、利用順序が1番目である劣化レベル9の辞書を用いて、文字の照合が行われる。図中の劣化文字画像の下に示す数字は、入力文字との照合スコア(100点満点)を表す。ここで、照合結果が信頼できると判定する条件を、最も高い照合スコアが80点以上であるという条件とする。そうすると、劣化レベル9の辞書との照合では最も高い照合スコアが78点であるため、信頼できる認識が行えなかったと判定される。そして、利用順序が2番目である劣化レベル7の辞書を用いた照合が行われる。今回は、最も高い照合スコアが81点であり上記の条件を満たす。したがって、最も高い照合スコアを与える文字「き」が認識結果として出力される。
<有利な効果>
本実施形態によれば、複数の劣化レベルの辞書を用いた文字認識処理において、全ての劣化レベルの辞書と総当たりをせずに文字の認識結果を得ることができるので、総当たりで実施する手法と比べて処理を高速化することができる。この際、最終的な文字認識結果を得るための条件として、照合結果が信頼できるものであることを担保する判定を行っているので、認識処理の精度も保つことができる。さらに、入力文字画像の劣化度に応じて利用する辞書の順序を決定しているため、信頼できる結果を得るために多数の劣化レベルの辞書を用いた照合を行う必要がなく、1個乃至数個の辞書との照合を行うだけで信頼で
きる結果を得ることができる。
なお、上記の説明では、文字画像が劣化している場合の処理を中心に説明をしているが、本実施形態の文字認識装置は劣化していない文字画像を精度良く高速に認識できる。文字画像が劣化していない場合は、劣化レベル0の辞書が最初に用いられるものとして決定され、この辞書を用いた識別結果は信頼できると期待されるので、1つの辞書との照合処理によって正確な識別結果を得ることができる。
(その他の実施形態)
上記の実施形態の説明は、本発明を例示的に説明するものに過ぎず、本発明は上記の具体的な形態には限定されない。本発明は、その技術的思想の範囲内で種々の変形が可能である。
上記の実施形態の説明では、入力文字画像が理想状態から劣化する原因として入力文字画像のサイズが小さい場合を例に挙げて説明したが、入力文字画像の劣化はその他の原因によっても生じる。例えば、ピンぼけ、文字のかすれ、文字のつぶれ、ノイズの重畳などによっても劣化は生じる。これらの劣化が生じた場合であっても、上記の実施形態と同様の方法により、精度良く高速に文字認識を行うことができる。文字のかすれを例に説明すると、オリジナル文字画像に対して複数の強度(劣化レベル)のかすれの付加処理を施してそれぞれから劣化辞書を作成し、入力文字画像のかすれ具合(劣化度)を評価し、ぼけ具合に応じた利用順序で辞書の照合順序を決定すればよい。ノイズの重畳を例に説明すると、オリジナル文字画像に対してガウシアンノイズを付加して、それぞれから劣化画像を作成し、入力文字画像のノイズ量を評価し、ノイズ量に応じた利用順序で辞書の照合順序を決定すればよい。ノイズ量は、例えば国際公開WO2012/173205に開示されているように、入力文字画像の複数の局所領域から計算される標準偏差をヒストグラムにして頻度がピークとなるときの標準偏差の値を算出することで求めることができる。
また、複数の原因による劣化が生じた場合にも精度良く正確に識別することもできる。例えば、文字サイズが小さいことと文字のかすれによる2つの劣化に対処する場合を例に説明する。まず、オリジナル文字画像に対して、ぼけ付加処理およびかすれ付加処理の2つの劣化処理を施して劣化辞書を作成する。この際、ぼけ付加の強度とかすれ付加の強度を複数組み合わせて劣化処理を施して、それぞれ劣化辞書を作成する。そして、入力文字画像の大きさおよびかすれ具合に基づいて決定された利用順序で劣化辞書を用いればよい。
上記の説明では、汎用プロセッサがソフトウェアプログラムを実行することによって機能を提供する例を説明したが、専用のハードウェア回路を用いて上記の機能を提供しても構わない。
本実施形態にかかる文字認識装置は、デスクトップ型コンピュータ、ノート型コンピュータ、スレート型コンピュータ、スマートフォン端末など任意の装置に実装することができる。また、上記で説明した文字認識装置の各機能は1つの装置によって実行される必要はなく、複数の装置がそれぞれの機能を分担して実行してもかまわない。
本発明の文字認識装置は、ナンバープレート認識システムに適用することができる。ナンバープレート認識システムは、例えば、道路路側に建てられたポール上に設置されたカメラ(撮像装置)と、上記で説明した文字認識装置とから構成され、カメラが道路上の車両の少なくとも一部分を撮影し、文字認識装置が撮影画像から車両に掲示されているナンバープレートに描かれている文字を抽出および認識する。このようなナンバープレート認識システムによれば、車両がカメラから離れた位置にあり小さな文字画像しか得られない
ような場合でも、車両に取り付けられているナンバープレートに描かれた文字を精度よくかつ高速に認識することができる。
10:文字認識装置
110:文字抽出部 111:文字認識部
112:劣化度評価部 113:利用順序決定部 114:特徴量取得部
115:照合部 116:文字認識用辞書データベース

Claims (9)

  1. オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶する記憶手段と、
    画像の入力を受け付ける画像入力手段と、
    前記画像から文字画像を抽出する抽出手段と、
    抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定手段と、
    前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識手段であって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識手段と、
    を備え
    前記文字画像の劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出手段によって抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識装置。
  2. 前記利用順序決定手段は、前記文字画像の劣化度と前記辞書データベースの対応関係をあらかじめ記憶しており、当該対応関係を用いて前記利用順序を決定する、
    請求項1に記載の文字認識装置。
  3. 前記利用順序決定手段は、前記文字画像の劣化度に対応する劣化レベルを前記対応関係から求め、求められた劣化レベルに対応する辞書データベースを最初に利用するものとして、求められた劣化レベルに近い劣化レベルに対応する辞書データベースから順番に利用するものとして、前記利用順序を決定する、
    請求項2に記載の文字認識装置。
  4. 前記対応関係は、複数のテスト画像を前記複数の劣化レベルに対応する全ての辞書データベースを用いて照合を行った結果に基づいて生成される、
    請求項2または3に記載の文字認識装置。
  5. 前記所定の条件は、前記辞書データベースを用いた文字認識における最も高い照合スコアが所定の閾値以上という条件である、
    請求項1から4のいずれか1項に記載の文字認識装置。
  6. 前記所定の条件とは、前記辞書データベースを用いた文字認識における最も高い照合スコアと2番目に高い照合スコアとの差が所定の閾値以上という条件である、
    請求項1から4のいずれか1項に記載の文字認識装置。
  7. 前記画像は、車両の少なくとも一部分を含み、
    前記抽出手段は、前記画像から前記車両に掲示されているナンバープレート上に描かれた文字を前記文字画像として抽出する、
    請求項1からのいずれか1項に記載の文字認識装置。
  8. オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶するコンピュータによって実行される文字認識方法であって、
    画像の入力を受け付ける画像入力ステップと、
    前記画像から文字画像を抽出する抽出ステップと、
    抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定ステップと、
    前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識ステップであって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識ステップと、
    を含み、
    前記文字画像の劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出ステップにおいて抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識方法。
  9. 請求項8に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2014222944A 2014-10-31 2014-10-31 文字認識装置、文字認識方法、およびプログラム Active JP6341059B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2014222944A JP6341059B2 (ja) 2014-10-31 2014-10-31 文字認識装置、文字認識方法、およびプログラム
CN201580039458.0A CN106663212B (zh) 2014-10-31 2015-10-30 文字识别装置、文字识别方法以及计算机可读存储介质
US15/327,381 US10049309B2 (en) 2014-10-31 2015-10-30 Character recognition device, character recognition method and program
EP15855057.4A EP3214580B1 (en) 2014-10-31 2015-10-30 Character recognition device, character recognition method, and program
PCT/JP2015/080821 WO2016068325A1 (ja) 2014-10-31 2015-10-30 文字認識装置、文字認識方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014222944A JP6341059B2 (ja) 2014-10-31 2014-10-31 文字認識装置、文字認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016091186A JP2016091186A (ja) 2016-05-23
JP6341059B2 true JP6341059B2 (ja) 2018-06-13

Family

ID=55857658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014222944A Active JP6341059B2 (ja) 2014-10-31 2014-10-31 文字認識装置、文字認識方法、およびプログラム

Country Status (5)

Country Link
US (1) US10049309B2 (ja)
EP (1) EP3214580B1 (ja)
JP (1) JP6341059B2 (ja)
CN (1) CN106663212B (ja)
WO (1) WO2016068325A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2019002084A (es) 2016-08-31 2019-07-18 Viavi Solutions Inc Orientacion de hojuelas magneticamente orientables.
WO2018225133A1 (ja) * 2017-06-05 2018-12-13 楽天株式会社 画像処理装置、画像処理方法、および画像処理プログラム
CN109784151A (zh) * 2018-12-10 2019-05-21 重庆邮电大学 一种基于卷积神经网络的脱机手写汉字识别方法
CN110544222B (zh) * 2019-09-05 2023-01-03 重庆瑞信展览有限公司 一种视觉传达图像清晰化处理方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108886A (ja) * 1991-10-16 1993-04-30 Nec Eng Ltd 光学文字読取装置
JPH08241378A (ja) * 1995-03-03 1996-09-17 Fuji Electric Co Ltd 低品質文字の認識方法
JP3277792B2 (ja) * 1996-01-31 2002-04-22 株式会社日立製作所 データ圧縮方法および装置
JP3466449B2 (ja) * 1997-12-12 2003-11-10 日本電信電話株式会社 パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体
JP4264332B2 (ja) * 2003-11-19 2009-05-13 三菱重工業株式会社 文字認識装置、ナンバープレート認識システム
CN100373399C (zh) * 2004-08-18 2008-03-05 富士通株式会社 建立劣化字典的方法和装置
CN100409251C (zh) * 2005-08-26 2008-08-06 富士通株式会社 用于退化文字行的字符识别装置和方法
CN101359373B (zh) * 2007-08-03 2011-01-12 富士通株式会社 退化字符的识别方法和装置
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
CN101882219B (zh) * 2009-05-08 2013-09-11 财团法人工业技术研究院 图像辨识以及输出方法及其系统
US8761540B2 (en) 2011-06-14 2014-06-24 Kabushiki Kaisha Toshiba Method and system for estimating noise level
US9002066B2 (en) * 2013-05-06 2015-04-07 Xerox Corporation Methods, systems and processor-readable media for designing a license plate overlay decal having infrared annotation marks
WO2015022771A1 (ja) * 2013-08-15 2015-02-19 日本電気株式会社 画像処理を実行する情報処理装置及び画像処理方法

Also Published As

Publication number Publication date
US10049309B2 (en) 2018-08-14
EP3214580A1 (en) 2017-09-06
EP3214580B1 (en) 2022-09-28
US20170277982A1 (en) 2017-09-28
JP2016091186A (ja) 2016-05-23
EP3214580A4 (en) 2018-06-27
CN106663212B (zh) 2019-12-24
CN106663212A (zh) 2017-05-10
WO2016068325A1 (ja) 2016-05-06

Similar Documents

Publication Publication Date Title
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
US8644561B2 (en) License plate optical character recognition method and system
US8867828B2 (en) Text region detection system and method
KR101247147B1 (ko) 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
JP5047005B2 (ja) 画像処理方法、パターン検出方法、パターン認識方法及び画像処理装置
US8483440B2 (en) Methods and systems for verifying automatic license plate recognition results
RU2634195C1 (ru) Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr)
CN107977658B (zh) 图像文字区域的识别方法、电视机和可读存储介质
JP6341059B2 (ja) 文字認識装置、文字認識方法、およびプログラム
CN110717497B (zh) 图像相似度匹配方法、装置及计算机可读存储介质
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
US9691004B2 (en) Device and method for service provision according to prepared reference images to detect target object
US9117132B2 (en) System and method facilitating designing of classifier while recognizing characters in a video
US9679218B2 (en) Method and apparatus for image matching
Nguyen et al. Background removal for improving saliency-based person re-identification
CN115063826A (zh) 一种基于深度学习的移动端驾驶证识别方法和系统
WO2013104322A1 (en) Object recognizing method and object recognizing device
Bui et al. Predicting mobile-captured document images sharpness quality
CN111160353A (zh) 车牌识别方法、装置及设备
CN117078913B (zh) 对象倾斜矫正方法、装置、电子设备和存储介质
CN111178340B (zh) 图像识别方法及图像识别模型的训练方法
Vu Building extraction from high-resolution satellite image for tsunami early damage estimation
WO2021042509A1 (zh) 文本图像角度纠偏方法、装置及计算机可读存储介质
Bouman et al. A low complexity method for detection of text area in natural images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180430

R150 Certificate of patent or registration of utility model

Ref document number: 6341059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250