JP6341059B2

JP6341059B2 - 文字認識装置、文字認識方法、およびプログラム

Info

Publication number: JP6341059B2
Application number: JP2014222944A
Authority: JP
Inventors: 秀人濱走; 相澤　知禎; 知禎相澤; 匡史日向
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2018-06-13
Anticipated expiration: 2034-10-31
Also published as: US10049309B2; EP3214580A1; EP3214580B1; US20170277982A1; JP2016091186A; EP3214580A4; CN106663212B; CN106663212A; WO2016068325A1

Description

本発明は、文字認識処理に関し、特に、劣化した文字画像を高速に認識可能な文字認識処理に関する。

手書きや印刷された文字を光学的に読み取って認識する光学文字認識（ＯＣＲ）における課題の一つとして、劣化した文字画像を精度良く認識することがある。文字認識処理では、認識対象の文字画像のサイズが十分大きく、ピンぼけや、かすれ、つぶれ、ノイズなどがない理想的な状態であると認識の精度が高い。しかしながら、文字画像のサイズが小さかったり、ピンぼけや、かすれ、つぶれ、ノイズが存在したりすると、文字の認識精度が低下してしまう。例えば、文字画像のサイズが小さいと、正規化処理により文字サイズが拡大されぼけが発生するため、理想的な文字画像から作成された辞書を用いた文字認識の精度が低下してしまう。このように認識対象の文字画像が理想的な状態から外れた場合は、文字画像が劣化しているといえる。

例えば、ＯＣＲの応用として、道路を走行する車両に掲示されたナンバープレートをカメラで撮影して描かれている文字を認識するナンバープレート認識システムが知られている。従来は車線ごとにカメラを道路上方に設置するものが主流であったが、近年、設備条件の制約やコストの観点から、道路路側に建てられたポール上にカメラを固定設置するものが登場している。複数車線の道路で道路路側に設置する方式を用いた場合、車線によってカメラからの距離が異なるので、カメラに近い車線のナンバープレートの大きさと、カメラから遠い車線のナンバープレートの大きさは異なるものとなる。遠い車線のナンバープレート中の文字画像が小さくなり、正規化処理によって文字画像の劣化が生じ得る。

劣化した文字画像に対する認識の手法として、特許文献１が挙げられる。特許文献１では、あらかじめ様々な劣化レベルの辞書を作成しておき、認識対象の文字画像と同じ劣化レベルのテストサンプルとの類似度を元に、利用する辞書の劣化レベルを決定することを開示している。

特開２００６−５９３５１号公報

しかしながら、特許文献１の手法では次のような問題がある。この手法では、テストサンプルをもとに利用する辞書を決定するため、屋外環境における車両ナンバープレート中の文字画像の認識のように、認識対象画像のサイズやぼけ具合にばらつきがあり、画像ごとあるいは文字ごとに最適な辞書の劣化レベルが異なるケースにおいては、辞書の決定が難しく、また決定された辞書が最適な辞書ではないこともある。

この問題を解決する手法として、作成した様々な劣化レベルの辞書に対して総当たりで認識を行うことが考えられる。しかしながら、入力された文字画像に対する照合回数が増大し（一つの辞書に含まれる文字数をｋ、劣化辞書の数をｎとすると、ｋ×ｎ回の照合が必要となる）、処理時間が増大してしまう。

本発明は上記実情に鑑みなされたものであって、劣化した文字画像を精度よくかつ高速
に認識可能とする技術を提供することにある。

上記目的を達成するため本発明は、以下の構成を有する。
本発明の第一の態様は、オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶する記憶手段と、画像の入力を受け付ける画像入力手段と、前記画像から文字画像を抽出する抽出手段と、抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定手段と、前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識手段であって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識手段と、を備え、前記文字画像の
劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出手段によって抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識装置である。

このような構成によれば、複数の劣化レベルの辞書データベースを保有しているため劣化した文字画像の認識を精度良く行える。さらに、全ての辞書データベースを用いた認識処理を行う必要がなく、認識結果が所定の条件を満たした時点で認識処理を終了するので、全ての劣化レベルの辞書データベースを用いて認識を行う場合よりも高速な文字認識が可能となる。

また、本発明における前記利用順序決定手段は、前記文字画像の劣化度と前記辞書データベースの対応関係をあらかじめ記憶しており、当該対応関係を用いて前記利用順序を決定する、ことが好ましい。

また、本発明における前記利用順序決定手段は、前記文字画像の劣化度に対応する劣化レベルを前記対応関係から求め、求められた劣化レベルに対応する辞書データベースを最初に利用するものとして、求められた劣化レベルに近い劣化レベルに対応する辞書データベースから順番に利用するものものとして、前記利用順序を決定する、ことも好ましい。

また、前記対応関係は、複数のテスト画像を前記複数の劣化レベルに対応する全ての辞書データベースを用いて照合を行った結果に基づいて生成される、ことが好ましい。

このような構成によれば、認識対象の文字画像の劣化度に応じて、正しく認識ができると期待される辞書データベースほど早い利用順序として決定されるので、早い段階で認識結果が所定の条件を満足することが期待でき更に処理の高速化が実現できる。

また、前記所定の条件は、前記辞書データベースを用いた文字認識における最も高い照合スコアが所定の閾値以上という条件とすることができる。

また、前記所定の条件とは、前記辞書データベースを用いた文字認識における最も高い照合スコアと２番目に高い照合スコアとの差が所定の閾値以上という条件とすることができる。

このような条件を満たせば文字認識の信頼性が高いといえるので、信頼性の低い識別結果を出力することを回避でき、処理の高速化と認識精度の向上とを両立させることができる。

文字認識においては、抽出された文字画像のサイズを正規化して認識処理が行われ、抽出された文字画像のサイズが正規化後のサイズよりも小さい場合には、正規化処理（拡大処理）によって文字画像が劣化する。したがって、正規化処理前の文字画像のサイズに基づいて文字画像の劣化度を決定することができる。

また、文字画像の劣化は、抽出された文字画像の大きさが正規化サイズよりも小さい場合以外に、ぼけの発生、文字のかすれ、文字のつぶれ、ノイズの重畳によっても発生する。したがって、文字画像の劣化度として、ぼけ量の大きさ、文字のかすれ具合、文字のつぶれ具合、ノイズの重畳量などを評価した値を採用することもできる。

また、前記画像は、車両の少なくとも一部分を含み、前記抽出手段は、前記画像から前記車両に掲示されているナンバープレート上に描かれた文字を前記文字画像として抽出する、ことも好ましい。

なお、本発明は、上記手段の少なくとも一部を含む文字認識装置として捉えることができる。また、本発明は、文字認識方法として捉えることもできる。また、これらの方法の各ステップをコンピュータに実行させるためのコンピュータプログラムや、当該プログラムを非一時的に記憶したコンピュータ読取可能な記憶媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

本発明によれば、劣化した文字画像を精度よくかつ高速に認識可能となる。

実施形態にかかる文字認識装置のハードウェア構成および機能構成を示すブロック図である。劣化辞書の作成処理を説明する図。劣化辞書の作成処理の流れを示すフローチャート。文字認識処理の全体の流れを示すフローチャート。抽出された１文字に対する文字認識処理の詳細な流れを示すフローチャート。文字画像の劣化度を説明する図。劣化度と辞書の劣化レベルの対応表、および利用順序決定アルゴリズムを説明する図。文字認識処理における識別結果の信頼性判定処理を説明する図。

以下に図面を参照して、この発明を実施するための好ましい形態を例示的に詳しく説明する。ただし、以下の実施形態に記載されている構成部品の寸法、材質、形状、その相対配置などは、特に記載がない限りは、この発明の範囲をそれらのみに限定する趣旨のものではない。

（第１の実施形態）
本実施形態に係る文字認識装置は、入力画像中の文字の大きさが所定の正規化サイズよりも小さい場合でも精度良くかつ高速に認識可能な装置である。文字画像（一文字分）の大きさが正規化サイズよりも小さい場合は、正規化サイズに変換する際の拡大処理によっ
て文字画像がぼけた画像となり、文字の認識精度が低下する。入力画像中の文字画像の大きさは、正規化サイズ以上であることが望ましく、正規サイズよりも小さい文字画像は劣化しているといえる。本実施形態では、このような劣化が生じている文字画像であっても、精度良くかつ高速に認識可能とする。

＜構成＞
図１（ａ）は、本実施形態に係る文字認識装置１０のハードウェア構成を示す図である。文字認識装置１０は、画像入力部１１、演算装置１２、記憶装置１３、入力装置１４、出力装置１５、通信装置１６を含む。画像入力部１１は、カメラ２０から画像データを受け取るインタフェースである。なお本実施形態ではカメラ２０から直接画像データを受け取っているが、通信装置１６を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。演算装置１２は、ＣＰＵなどの汎用のプロセッサであり、記憶装置１３に格納されたプログラムを実行して、後述する処理を実現する。記憶装置１３は、主記憶装置および補助記憶装置を含み、演算装置１２によって実行されるプログラムを格納するとともに、画像データやプログラム実行中の一時データを格納する。入力装置１４は、キーボードやマウスなどからなり、ユーザが文字認識装置に指示を入力するための装置である。出力装置１５は、表示装置やスピーカーなどからなり、文字認識装置がユーザに対する出力を行うための装置である。通信装置１６は、文字認識装置１０が外部のコンピュータと通信を行うための装置である。通信の形態は、有線であっても無線であってもよく、通信規格は任意であってよい。

演算装置１２は、プログラムを実行することにより、図１（ｂ）に示すような機能を実現する。すなわち、演算装置１２は、文字抽出部１１０、文字認識部１１１、文字認識用辞書データベース１１６の機能部を実現する。文字認識部１１１は、劣化度評価部１１２、利用順序決定部１１３、特徴量取得部１１４、照合部１１５を含む。各部の処理内容については以下で説明する。

＜辞書作成処理＞
文字認識用辞書データベース１１６には、複数の劣化レベルの辞書（文字認識用データベース）が格納される。図２に示すように、各劣化レベルの辞書は、鮮明な文字画像（オリジナル文字画像）を各劣化レベルで劣化させた画像から生成されるものである。例えば、オリジナル文字画像は、６５×６５画素の鮮明な画像である。図では１つの文字について１つの画像のみが示されているが、実際には１つの文字について複数の画像が辞書作成に用いられる。

以下、辞書作成処理について図３のフローチャートを参照して説明する。なお、文字認識装置１０自体がこの辞書作成処理を実行してもよいし、他の装置がこの辞書作成処理を実行して、作成された辞書データを文字認識用辞書データベース１１６に格納してもよい。

辞書作成処理においては、まず、作成する辞書の劣化レベルが指定される（Ｓ１０）。ここでは、劣化レベル０，３，５，７，９，１１の辞書を作成するものとする。ステップＳ１０での劣化レベルの指定順序は任意であって構わない。次に、辞書を作成する対象の文字が指定される（Ｓ１１）。文字の指定順序は任意であって構わない。

ステップＳ１２では、指定された劣化レベルで、指定された文字のオリジナル文字画像を劣化させる変換処理（以下劣化処理という）が施される（指定された劣化レベルが０の場合はなにも行わない）。上述のように指定された文字についてオリジナル文字画像は複数存在するので、その全てについて変換処理が施される。本実施形態では、各画素値を、周辺画素の画素値の平均値（単純平均や重み付け平均）で置き換えるぼかし処理（ぼけ付
加処理）を変換処理として採用する。劣化レベルは、ぼかし処理におけるぼかし強度に対応する。なお、画像にぼけを付加できる処理であれば、他の変換処理を採用してもよく、例えば、劣化レベルに応じたサイズに縮小処理を施してから、元のサイズに戻す拡大処理を施してもよい。

ステップＳ１３では、劣化処理が施されたそれぞれの文字画像が、所定の正規化サイズに変換される。本実施形態では、この正規化によって５０×５０画素の正方形に変換される。本実施形態ではオリジナル画像のサイズは正規化サイズよりも大きいが、オリジナル画像のサイズと正規化サイズは同じであっても構わない。文字サイズの変換処理は、バイリニア補間、バイキュービック補間、ニアレストネイバ補間など既知の任意のアルゴリズムによって実行することができる。文字画像が正方形でなく、縦横の長さが異なる長方形である場合には、縦横のいずれか長い方を正規化サイズになるように縦横比を維持したまま拡大または縮小の変換をして、その結果を画像の中心に配置してもよい。この際、余白部分の画素の輝度値には、変換結果の文字画像から外周画素の輝度値の平均値を算出して設定してもよい。

ステップＳ１４では、劣化処理および正規化処理後のそれぞれの文字画像から、文字の特徴を表す文字特徴量（特徴量ベクトル）が取得される。文字の特徴を取得する方法として、画素特徴抽出法、輪郭特徴抽出法、勾配特徴抽出法などが広く用いられるがどのような文字特徴抽出方法を用いても構わない。例えば、画素ごとに輪郭線の方向をチェインコードで表し各小領域におけるチェインコードのヒストグラムを文字特徴量としてもよいし、小領域ごとの画素値の総和を文字特徴量としてもよい。

ステップＳ１５では、ステップＳ１４によって取得される複数の文字特徴量を用いて、指定された文字を識別するための辞書データが作成される。辞書は、入力された文字（の文字特徴量）と、辞書が対象とする文字（の文字特徴量）の類似度を算出するために用いられる。本出願では劣化処理後の文字画像から取得した文字特徴量を用いて作成された辞書を劣化辞書と呼ぶ。文字認識の手法として、部分空間法、ニューラルネットワーク、サポートベクタマシン（ＳＶＭ）、判別分析など既知の任意の手法を採用可能であり、採用する方式に応じて公知の方法により辞書を作成すればよい。

ここまでの処理により、ステップＳ１０で指定された劣化レベルにおける、ステップＳ１１で指定された文字についての辞書作成が完了する。ステップＳ１６では、当該劣化レベルにおいて全ての文字についての辞書作成が完了したかどうか判定し、完了していない場合は、ステップＳ１１に戻って未処理の文字について辞書を作成する。指定された劣化レベルにおいて全ての文字についての辞書作成が完了したら、ステップＳ１７に進んで、全ての劣化レベルについての辞書作成が完了したか判定する。完了していない場合は、ステップＳ１０に戻って未処理の劣化レベルについて辞書を作成する。全ての劣化レベルにおいて辞書作成が完了したら、辞書作成処理は終了する。

＜文字認識処理＞
図４は、文字認識装置１０によって行われる文字認識処理の全体的な流れを示すフローチャートである。ステップＳ２０で、文字認識装置１０は画像入力部１１を介してカメラ２０から文字が写った画像データを取得する。ステップＳ２１において、文字抽出部１１０が、受け取った画像から文字列を抽出し、そこからさらに１文字ずつ文字画像を抽出する。文字抽出処理では、文字の傾きを補正するように線型変換を施して、傾きのない矩形状の文字領域を抽出することが好ましい。ステップＳ２２において、文字認識部１１１が、切り出された文字と文字認識用辞書データベース１１６内の辞書内の各文字とを照合して、切り出された文字画像に含まれる文字を認識する。

ステップＳ２２における文字認識処理の詳細を、図５のフローチャートを参照して説明する。図５に示すフローチャートの処理は、ステップＳ２１において抽出された文字画像のそれぞれについて実行される。また、ここでの説明において文字画像とは、１つの文字として抽出された領域の画像を意味する。

ステップＳ２２０において、劣化度評価部１１２は、文字画像からその劣化度を算出する。文字画像の劣化度は、数値が大きいほど劣化が大きいことを表す。劣化度の算出方法の一例を、図６を参照して説明する。図６は、ステップＳ２１において抽出された文字画像を示す図である。文字画像は矩形であり、その横方向のサイズ（画素数）をｗ、縦方向のサイズ（画素数）をｈとする。なお、ここまでの処理において、文字の傾きを補正する処理を施されているものとする。ただし、画像のサイズを変換する処理（拡大縮小処理）は施されていないものとし、サイズｗおよびｈは入力画像上での大きさと同一とする。本実施形態においては、劣化度ｒを次のように決定する。
ｒ＝Ｒ_０ − ｍａｘ（ｗ，ｈ）
ここで、Ｒ_０は正方形の正規化画像の一辺の長さ（画素数）であり、本実施形態では５０画素である。また、ｍａｘは最大値を表す関数である。
なお、ｍａｘ（ｗ，ｈ）がＲ_０よりも大きいときは、劣化度ｒはゼロとする。

本実施形態における劣化度は、文字画像の大きさが正規化後のサイズと比較してどの程度小さいかを評価するものといえる。なおこのような評価が可能であれば、上記以外の方法によって劣化度を決定してもよい。例えば、横サイズと縦サイズの大小関係にかかわらずいずれか一方と正規化画像サイズの一辺の長さの差を劣化度としてもよい。あるいは、正規化画像の面積から文字画像の面積を引いた値を劣化度としてもよい。ただし、縦サイズと横サイズの大きい方に基づいて劣化度を決定することで、数字の「１」やアルファベットの「ｌ」（エル）や漢数字の「一」のように縦長あるいは横長の文字画像でも劣化度を適切に計算できる。

ステップＳ２２１において、利用順序決定部１１３は、文字画像の劣化度に基づいて辞書の利用順序（優先順位）を決定する。利用順序決定部１１３は、図７に示すような、文字画像の劣化度に応じてどの劣化レベルの辞書を用いるべきかを表す、文字画像の劣化度と辞書の劣化レベルの対応関係をあらかじめ格納している。利用順序決定部１１３は、ステップＳ２２０において算出した劣化度に対応する劣化レベルをこの対応関係から求め、求めた劣化レベルの辞書を最初に利用する辞書として決定する。そして、算出された劣化度に対応する劣化レベルに近い劣化レベルの辞書から順番に利用するように辞書の利用順序を決定する。劣化レベル間の距離は適当な測度によって定義すればよく、本実施形態では、劣化レベル（数値）の差を劣化レベル間の距離とする。ここで、劣化度に対応する劣化レベルと同じ近さの劣化レベルを有する辞書が複数存在する場合には、どちらを先に利用してもよいが、本実施形態では劣化レベルが低い方の辞書を先に利用する。

なお、文字認識処理において全ての劣化レベルの辞書を使う必要は必ずしもない。したがって、決定される利用順序に全ての劣化レベルが含まれていなくても良い。例えば、文字画像の劣化度から求められる劣化レベルとの差が所定値以上離れている劣化レベルの辞書は、文字認識に使わないようにしても良い。劣化レベルの差が大きいと正確な認識が行えない可能性が高いためである。

図７に示すような劣化度と劣化レベルの対応関係の作成方法について簡単に説明する。対応関係は、例えば、事前にテストサンプル（テスト画像）を用いた照合を行って作成することができる。具体的には、様々な劣化度（画像サイズ）のテストサンプルと、全ての劣化レベルの辞書と総当たりで照合を行い、照合結果の正確さに基づいて劣化度と劣化レベルの対応関係を求めることができる。すなわち、ある劣化度のテストサンプルを全体と
して最も正確に識別できる辞書の劣化レベルを、当該劣化度に対応する劣化レベルとして決定できる。また、対応関係は、理論的に決定することもできる。例えば、劣化辞書を作成する際にオリジナル文字画像をどれだけぼかしたかに応じて、劣化度と劣化レベルの対応関係を求めることもできる。

ステップＳ２２３において、特徴量取得部１１４は、文字画像から文字特徴量を取得する。文字特徴量の取得処理は、辞書作成処理時の処理と同じであるため、繰り返しの説明は省略する。なお、文字特徴量の抽出前に、大きさ、位置、太さ、傾きなどを正規化して、文字の変動をできるだけなくすことが好ましい。特に、文字画像の大きさの正規化処理では、辞書作成時の正規化サイズ（本実施形態では５０×５０画素）と同じサイズを変換する。

ステップＳ２２５〜Ｓ２２８の処理において、照合部１１５が、ステップＳ２２１において決定された利用順序で辞書と文字との照合を行って認識結果を出力する。まず、ステップＳ２２４において、変数ｉに１を代入する。ステップＳ２２５において、利用順序がｉ番目の辞書を用いて、入力文字と辞書内の各文字との照合を行う。この照合の結果として、利用順序がｉ番目の辞書内の各文字と入力文字との間の類似度（照合スコア）が得られる。最も高い照合スコアを与える文字が、入力文字の識別結果である。ステップＳ２２６において、照合部１１５は、得られた識別結果が信頼のできる結果であるか否かを判定する。具体的には、ステップＳ２２５において得られた照合スコアが所定の条件を満たすか否かを判定する。所定の条件として、例えば、最も高い照合スコアが所定の閾値以上であるという条件や、最も高い照合スコアと２番目に高い照合スコアとの差が所定の閾値以上であるという条件を採用することができる。ｉ番目の辞書を用いた識別結果がこのような条件を満たし信頼できる結果であると判定される場合は、ステップＳ２２８に進み、照合部１１５は、最も高い照合スコアを与える文字を、入力文字の認識結果として出力する。一方、上記の条件を満たさない場合には、ステップＳ２２７に進み、変数ｉをインクリメントして、次の利用順序の辞書を用いた照合を行う。なお、全ての劣化レベルの辞書を用いて照合を行っても信頼できる結果が得られない場合には、文字認識ができない旨を示すエラーを返してもよいし、これまでの照合処理の結果に基づいて入力文字の識別結果を決定してもよい。

文字照合処理の動作例を図８を参照して説明する。ここでは、文字画像の劣化度ｒが３３であり、したがって、劣化辞書の利用順序が、劣化レベル９，７，１１，５，３の順番であると仮定する。まず、利用順序が１番目である劣化レベル９の辞書を用いて、文字の照合が行われる。図中の劣化文字画像の下に示す数字は、入力文字との照合スコア（１００点満点）を表す。ここで、照合結果が信頼できると判定する条件を、最も高い照合スコアが８０点以上であるという条件とする。そうすると、劣化レベル９の辞書との照合では最も高い照合スコアが７８点であるため、信頼できる認識が行えなかったと判定される。そして、利用順序が２番目である劣化レベル７の辞書を用いた照合が行われる。今回は、最も高い照合スコアが８１点であり上記の条件を満たす。したがって、最も高い照合スコアを与える文字「き」が認識結果として出力される。

＜有利な効果＞
本実施形態によれば、複数の劣化レベルの辞書を用いた文字認識処理において、全ての劣化レベルの辞書と総当たりをせずに文字の認識結果を得ることができるので、総当たりで実施する手法と比べて処理を高速化することができる。この際、最終的な文字認識結果を得るための条件として、照合結果が信頼できるものであることを担保する判定を行っているので、認識処理の精度も保つことができる。さらに、入力文字画像の劣化度に応じて利用する辞書の順序を決定しているため、信頼できる結果を得るために多数の劣化レベルの辞書を用いた照合を行う必要がなく、１個乃至数個の辞書との照合を行うだけで信頼で
きる結果を得ることができる。

なお、上記の説明では、文字画像が劣化している場合の処理を中心に説明をしているが、本実施形態の文字認識装置は劣化していない文字画像を精度良く高速に認識できる。文字画像が劣化していない場合は、劣化レベル０の辞書が最初に用いられるものとして決定され、この辞書を用いた識別結果は信頼できると期待されるので、１つの辞書との照合処理によって正確な識別結果を得ることができる。

（その他の実施形態）
上記の実施形態の説明は、本発明を例示的に説明するものに過ぎず、本発明は上記の具体的な形態には限定されない。本発明は、その技術的思想の範囲内で種々の変形が可能である。

上記の実施形態の説明では、入力文字画像が理想状態から劣化する原因として入力文字画像のサイズが小さい場合を例に挙げて説明したが、入力文字画像の劣化はその他の原因によっても生じる。例えば、ピンぼけ、文字のかすれ、文字のつぶれ、ノイズの重畳などによっても劣化は生じる。これらの劣化が生じた場合であっても、上記の実施形態と同様の方法により、精度良く高速に文字認識を行うことができる。文字のかすれを例に説明すると、オリジナル文字画像に対して複数の強度（劣化レベル）のかすれの付加処理を施してそれぞれから劣化辞書を作成し、入力文字画像のかすれ具合（劣化度）を評価し、ぼけ具合に応じた利用順序で辞書の照合順序を決定すればよい。ノイズの重畳を例に説明すると、オリジナル文字画像に対してガウシアンノイズを付加して、それぞれから劣化画像を作成し、入力文字画像のノイズ量を評価し、ノイズ量に応じた利用順序で辞書の照合順序を決定すればよい。ノイズ量は、例えば国際公開ＷＯ２０１２／１７３２０５に開示されているように、入力文字画像の複数の局所領域から計算される標準偏差をヒストグラムにして頻度がピークとなるときの標準偏差の値を算出することで求めることができる。

また、複数の原因による劣化が生じた場合にも精度良く正確に識別することもできる。例えば、文字サイズが小さいことと文字のかすれによる２つの劣化に対処する場合を例に説明する。まず、オリジナル文字画像に対して、ぼけ付加処理およびかすれ付加処理の２つの劣化処理を施して劣化辞書を作成する。この際、ぼけ付加の強度とかすれ付加の強度を複数組み合わせて劣化処理を施して、それぞれ劣化辞書を作成する。そして、入力文字画像の大きさおよびかすれ具合に基づいて決定された利用順序で劣化辞書を用いればよい。

上記の説明では、汎用プロセッサがソフトウェアプログラムを実行することによって機能を提供する例を説明したが、専用のハードウェア回路を用いて上記の機能を提供しても構わない。

本実施形態にかかる文字認識装置は、デスクトップ型コンピュータ、ノート型コンピュータ、スレート型コンピュータ、スマートフォン端末など任意の装置に実装することができる。また、上記で説明した文字認識装置の各機能は１つの装置によって実行される必要はなく、複数の装置がそれぞれの機能を分担して実行してもかまわない。

本発明の文字認識装置は、ナンバープレート認識システムに適用することができる。ナンバープレート認識システムは、例えば、道路路側に建てられたポール上に設置されたカメラ（撮像装置）と、上記で説明した文字認識装置とから構成され、カメラが道路上の車両の少なくとも一部分を撮影し、文字認識装置が撮影画像から車両に掲示されているナンバープレートに描かれている文字を抽出および認識する。このようなナンバープレート認識システムによれば、車両がカメラから離れた位置にあり小さな文字画像しか得られない
ような場合でも、車両に取り付けられているナンバープレートに描かれた文字を精度よくかつ高速に認識することができる。

１０：文字認識装置
１１０：文字抽出部１１１：文字認識部
１１２：劣化度評価部１１３：利用順序決定部１１４：特徴量取得部
１１５：照合部１１６：文字認識用辞書データベース

Claims

オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶する記憶手段と、
画像の入力を受け付ける画像入力手段と、
前記画像から文字画像を抽出する抽出手段と、
抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定手段と、
前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識手段であって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識手段と、
を備え、
前記文字画像の劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出手段によって抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識装置。
前記利用順序決定手段は、前記文字画像の劣化度と前記辞書データベースの対応関係をあらかじめ記憶しており、当該対応関係を用いて前記利用順序を決定する、
請求項１に記載の文字認識装置。
前記利用順序決定手段は、前記文字画像の劣化度に対応する劣化レベルを前記対応関係から求め、求められた劣化レベルに対応する辞書データベースを最初に利用するものとして、求められた劣化レベルに近い劣化レベルに対応する辞書データベースから順番に利用するものとして、前記利用順序を決定する、
請求項２に記載の文字認識装置。
前記対応関係は、複数のテスト画像を前記複数の劣化レベルに対応する全ての辞書データベースを用いて照合を行った結果に基づいて生成される、
請求項２または３に記載の文字認識装置。
前記所定の条件は、前記辞書データベースを用いた文字認識における最も高い照合スコアが所定の閾値以上という条件である、
請求項１から４のいずれか１項に記載の文字認識装置。
前記所定の条件とは、前記辞書データベースを用いた文字認識における最も高い照合スコアと２番目に高い照合スコアとの差が所定の閾値以上という条件である、
請求項１から４のいずれか１項に記載の文字認識装置。
前記画像は、車両の少なくとも一部分を含み、
前記抽出手段は、前記画像から前記車両に掲示されているナンバープレート上に描かれた文字を前記文字画像として抽出する、
請求項１から６のいずれか１項に記載の文字認識装置。
オリジナル文字画像を複数の異なる劣化レベルで劣化させた画像から生成された、複数の劣化レベルにそれぞれ対応する複数の辞書データベースを記憶するコンピュータによって実行される文字認識方法であって、
画像の入力を受け付ける画像入力ステップと、
前記画像から文字画像を抽出する抽出ステップと、
抽出された文字画像の劣化度に基づいて、前記複数の辞書データベースの利用順序を決定する利用順序決定ステップと、
前記利用順序にしたがって辞書データベースを用いて前記抽出された文字画像に含まれる文字の認識を行う文字認識ステップであって、認識結果が所定の条件を満たさない場合は次の利用順序の辞書データベースを用いた文字認識を行い、認識結果が前記所定の条件を満たす場合は次の利用順序の辞書データベースを用いた認識を行わずに当該認識結果を出力する文字認識ステップと、
を含み、
前記文字画像の劣化度は、抽出された文字画像が所定の大きさを有するように変形された正方形の一辺の長さから、前記抽出ステップにおいて抽出された文字画像の縦サイズまたは横サイズの大きい方を引いた値に基づいて決定される文字認識方法。
請求項８に記載の方法の各ステップをコンピュータに実行させるためのプログラム。