JP2018180746A

JP2018180746A - 情報処理装置

Info

Publication number: JP2018180746A
Application number: JP2017076338A
Authority: JP
Inventors: 涼岸本; Ryo Kishimoto
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-11-15

Abstract

【課題】文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにする。【解決手段】認識対象画像に対して、探索領域を設定し、当該探索領域内の複数個所に切り出し領域を設定し、党が設定された複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出する。そして、当該検出された候補文字情報の中から評価値の高い上位一定数の候補文字情報を認識結果候補として取得する。さらに、その認識結果候補に対応する切り出し領域の位置情報に用いて、各認識結果候補に対応する次の文字に関する探索領域を設定する。【選択図】図１１

Description

本発明は、情報処理装置に関し、特に文字認識処理に関する。

従来、紙文書をスキャンして得た文書画像に対する文字認識処理は、文書画像から文字のアウトライン（輪郭）を検出して、一文字ごとの文字画像の切り出しを行い、当該切り出した文字画像に対して、何の文字であるかを識別する文字認識処理を行っていた。また、文字の切り出し位置が誤っていると、正しい文字が認識されないため、認識対象の文字種が限定されている場合、限定された文字カテゴリを用いて文字の切り出し位置を修正する技術も提供されている。

例えば、識別対象の文字列が住所に関する文字列であった場合、住所文字列の連接関係を用いて文字の切り出しを修正する技術がある。特許文献１には、あらかじめ識別対象である住所文字列の連接関係を木構造で表現し、探索の際の次接点の選択に文字識別を用い、文字識別の際には住所の木構造に応じて文字カテゴリを限定する技術が開示されている。

また、近年、スマートフォンやデジタルカメラなどの普及により、文字情報を含む画像情報が手軽に取れるようになってきた。これによって、より多種多様な観測環境から、文字認識処理を行って文字情報を取り込む大きな市場が開けつつある。例えば、鉱山などの採石現場では、ダンプトラックに使用されているタイヤを管理するために、タイヤに刻印されたシリアルナンバーを用いるというユースケースがある。

そこで、タイヤに刻印されたシリアルナンバーをスマートフォンやデジタルカメラなどで撮影し、撮影した画像に対して文字認識処理を行い、その文字認識結果のシリアルナンバーを用いて管理することが考えられる。

しかしながら、タイヤに刻印されたシリアルナンバーなど、撮影画像において、文字と背景のコントラストが小さかったり、表面に汚れが多くありノイズが多かったりすると、従来技術を用いた場合に、画像によっては非常に多くのパターンが評価対象になり膨大な計算が必要となることや、逆に何ら評価対象とならないことが可能性として考えられ、正確に文字を検出することが困難である。

特開平１１-３１６８０３号公報

文字のアウトラインを正確に検出できないような画像に対して、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る頻度が高くなってしまい、ユーザが認識結果を修正する負担も大きくなる。

本発明は、文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにする情報処理装置を提供することを目的とする。

上記の目的を達成するために、本発明に係る情報処理装置は、
認識対象画像に対して、探索領域を設定する第１の設定手段と、前記探索領域内の複数カ所に、切り出し領域を設定する第２の設定手段と、前記第２の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の高い上位数件の候補文字情報を認識結果候補として取得する文字検出手段と、を有し、前記第１の設定手段が、さらに、前期文字検出手段で取得された前記認識結果候補に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第２の設定手段と前記文字検出手段とによる処理が、高い評価値が得られた前記認識結果候補に対してのみ繰り返し実行されることを特徴とする。

本発明に係る情報処理装置によれば、文字のアウトラインを正確に検出するのが困難な画像に対して、文字があると推定される探索領域内で位置をずらしながら複数の領域を切り出し、当該切り出した複数の領域に基づいて複数の高類似度を用いた文字認識処理を適用することで、文字認識処理の精度を向上できる。

モバイル端末の外観の一例の図ハードウェア構成の一例の図モバイル端末１００におけるソフトウェアの構成の一例の図文字画像情報（辞書データ）の一例の図文字認識処理の概念図認識結果の表示画面例の図認識結果の選択処理の一例の図文字認識処理による切り出し領域の検出が正しく行われる様子を示す一例の図文字画像情報（辞書データ）のデータ構造の一例の図文字認識結果のデータ構造の一例の図文字認識処理の詳細を示すフローチャート文字検出処理の詳細を示すフローチャート文字認識の処理の詳細を示すフローチャート

《第１の実施形態》
本発明の実施形態に係る情報処理装置の一例として、モバイル端末（携帯端末）を例に説明する。

モバイル端末は、無線通信機能などを用いて外部と通信可能な端末である。図１は、モバイル端末１００（モバイル端末の前面１０１と背面１０３）の外観と、被写体１０５となるタイヤを示す図である。

モバイル端末前面部１０１には、タッチパネルディスプレイ１０２が備えられ、表示とタッチ操作入力との２つの機能を有する。モバイル端末背面部１０３には、被写体を撮影して画像を取り込むためのカメラユニット１０４が備えられる。

本実施形態では、モバイル端末１００のユーザは、モバイル端末のＣＰＵにより動作するモバイルアプリ（詳細は後述）を利用して、被写体１０５を撮影し、文字認識処理を実行させることができる。

被写体１０５は、タイヤの例である。タイヤのシリアルＩＤ（シリアルナンバーもしくはセリアルナンバーともいう）が記載されている部分を、モバイル端末のカメラユニットを用いて撮影することにより、撮影画像１０６を取得することができる。シリアルＩＤ１０７はタイヤに刻印されたシリアルナンバーを示しており、タイヤを一意に識別するためのＩＤである。

なお、本実施形態では、被写体１０５としてタイヤを例にして説明するが、被写体はタイヤに限るものではない。後述のモバイルアプリは、被写体１０５の画像を取り込み、タッチパネル１０２にその画像を出力することができる。

図２は、モバイル端末１００のハードウェアの構成の一例を示す図である。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１は、各種のプログラムを実行することによって様々な機能を実現する処理ユニットである。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０２は、各種の情報の記憶や、ＣＰＵ２０１の一時的な作業記憶領域として利用されるユニットである。不揮発性メモリ（例えばＲＯＭ）２０３は、各種のプログラムやデータ等を記憶するユニットである。

ＣＰＵ２０１は、不揮発性メモリ２０３に記憶されているプログラムをＲＡＭ２０２にロードしてプログラムを実行する。すなわち、モバイル端末のＣＰＵ（コンピュータ）は、該プログラムを実行することにより、図３で説明するような各処理部として機能し、後述するシーケンスの各ステップを実行する。なお、不揮発性メモリ２０３は、フラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）などであってもよい。なお、モバイル端末１００の各機能ならびに後述するシーケンスに係る処理の全部又は一部については、専用のハードウェアを用いて実現してもよい。

Ｉｎｐｕｔ／Ｏｕｔｐｕｔインターフェース２０４は、タッチパネル１０２とデータを送受信する。ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５は、モバイル端末１００をネットワーク（不図示）に接続するためのユニットである。カメラインターフェース２０６は、カメラユニット１０４と接続し、被写体１０５の画像をモバイル端末１００に取り込む。上述したユニットは、バス２０７を介してデータの送受信を行うことができる。

次に、モバイル端末１００におけるソフトウェア構成について説明する。図３は、モバイル端末１００のソフトウェア構成の一例を示す概念図である。モバイル端末のＣＰＵは、モバイルアプリ（モバイル端末用のアプリケーションプログラム）３０２を実行することにより、各処理部（各処理モジュール）３０３〜３０８として機能する。また、モバイル端末１００のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）（不図示）は、画像管理部３０１として機能する。

画像管理部３０１は、画像やアプリケーションデータを管理する。ＯＳは、データ管理部３０１を利用するための制御ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を提供している。各アプリケーションは、その制御ＡＰＩを利用することでデータ管理部３０１に対し、画像やアプリケーションデータの取得処理や保存処理を行う。

モバイルアプリ３０２は、モバイル端末１００のＯＳのインストール機能を利用して、ダウンロードしインストールすることにより実行可能なアプリケーションである。モバイルアプリ３０２は、カメラインターフェース２０６を介して取り込んだ被写体１０５の画像に対する各種のデータ処理を行う。

メイン制御部３０３は、後述する各モジュール部（３０３〜３０８）に対する指示及び管理を行う。

情報表示部３０４は、メイン制御部３０３からの指示に従い、図６〜８に示すようなモバイルアプリ３０２のユーザインタフェース（ＵＩ）をタッチパネルに表示するように制御する。

図６は、モバイルアプリ３０２のＵＩ（携帯端末用のＵＩ）の画面（モバイル端末画面６００）の一例を示す図である。

モバイル端末画面６００は、モバイル端末１００のタッチパネル１０２に表示される。モバイル端末画面６００は、領域６０１にカメラ１０４を用いて取り込んだ画像を表示し、また、画像やＵＩ等に対するユーザによる操作（ユーザ操作）を受け付ける。シャッターボタン６０２は、カメラユニットから入力された画像を、ＲＡＭ２０２やデータ管理部３０１に保存するためのボタンであり、以下では、保存された画像を撮影画像と呼ぶこととする。

ズームボタン６０３は、表示画像の拡縮を行うためのボタンである。６０４〜６０７は、認識対象を撮影すべき位置の目安となるガイドである。ユーザは、認識対象のシリアルＩＤ１０７を４つのガイドによって囲まれる矩形の領域内に収まるように撮影位置を調整してタイヤを撮影する。６０８は、シリアルＩＤ１０７の文字認識結果を表示するための表示領域である。認識結果が誤っている場合、ユーザが、認識結果表示領域６０８の中の修正対象文字をタッチして、認識結果の修正を行えるようにしてもよい。

なお、モバイルアプリ３０２のＵＩの形態（位置、大きさ、範囲、配置、表示内容など）は、図に示す形態に限定されるものではなく、モバイル端末１００の機能を実現することができる適宜の構成を採用することができる。

再び図３に戻って、各モジュールの説明を行う。操作情報取得部３０５は、モバイルアプリのＵＩ上で為されたユーザ操作に関する情報を取得し、当該取得した情報をメイン制御部３０３に通知する。例えば、領域６０１をユーザが手で触れると、操作情報取得部３０５は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部３０３に送信する。

画像処理部３０６は、カメラユニット２０６を介して取り込んだ被写体１０５の撮影画像に対して、グレイスケール変換やエッジ抽出、特徴量抽出といった文字認識を行うために必要な画像処理を行う。

文字認識部３０７は、画像処理部３０６で処理した画像から文字が記載されていると推定される領域を複数切り出し、各領域の画像を比較対象の文字画像情報（辞書データ）と比較して、最も類似する文字を判別する。

文字画像管理部３０８は、文字認識部３０７が文字の認識を行う際に、比較対象として使用する文字画像情報（いわゆる文字認識辞書の辞書データとして使用される情報）を管理する。

図４は、文字認識部３０７が、画像から文字を認識する際に、比較対象として使用する文字画像情報の例である。文字画像情報は、認識対象のタイヤで使用されている文字の種類それぞれについて用意する。文字画像情報４０１〜４１０は、数字の画像の例であるが、本実施形態の認識対象であるタイヤのシリアルＩＤ１０７は、数字に加えて大文字のアルファベットの文字画像（不図示）を含むものとする。

なお、当該文字画像管理部で管理される文字画像情報（辞書データ）は、タイヤに刻印されている文字のフォントに基づいて作成された各文字の特徴を示す特徴情報であってもよいし、各文字の画像そのものであってもよい。どのような辞書データを用いるかは、認識対象の画像と辞書データとを照合する際に用いるアルゴリズムに応じたものとすればよい。

図５は、本実施形態における文字認識処理について説明した図である。

認識対象画像５０１は、カメラユニット１０４およびカメラインターフェース２０６を介して取り込んだ被写体１０５の画像の一部を切り出した画像である。図６で説明したように、ユーザは、モバイルアプリ３０２のＵＩに提示されたガイド（図６の６０４〜６０７）に、シリアルＩＤ１０７がちょうど納まるように撮影位置を調整してタイヤを撮影する。モバイルアプリ３０２は、撮影された画像から、ガイドで囲まれた部分の画像を切り出して、認識対象画像５０１とする。

なお、タイヤのシリアルＩＤ１０７は、メーカーごとにフォーマットが決まっており、本実施形態では、桁数は９桁で、数字と大文字のアルファベットで構成されるものとして説明する。

タイヤに刻印されているシリアルＩＤなどを撮影した画像は、文字と背景のコントラストが小さかったり、タイヤ（被写体）の表面に汚れがあったりするので、文字のアウトラインを正確に検出することが困難な画像である。したがって、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る可能性が高く、その結果文字認識処理の精度が劣化してしまう。

そのため、本実施形態では、まず、文字が存在すると考えられる領域を探索領域として設定し、当該設定された探索領域内で、位置とサイズとを変えながら複数の切り出し領域を設定して複数の領域画像の切り出しを繰り返す。そして、切り出した複数の領域画像それぞれと辞書データ（文字画像管理部で管理される比較対象の文字画像情報）とを比較して、各領域画像に対する文字認識結果とその類似度とを求める。

その後、高類似度が得られた上位一定数の文字認識結果を1桁目の文字候補とし、後述する類似度に基づいた認識結果の決定処理を行っていく。上位いくつの文字認識結果を候補とするか（評価パターン数）は予め任意に定めておく。そして、その認識結果の切り出し領域の位置をもとに、次の文字に対する探索領域を設定し、同様の処理を繰り返す。本実施形態においては、認識対象画像５０１に含まれる９桁のシリアルＩＤ１０７を、１桁目（左端の文字）から順に認識していく。

１桁目の文字の探索領域５０２は、ガイド６０４〜６０７に基づいて切り出された認識対象画像５０１の左端から所定座標離れた位置に設定される。この最初の探索領域５０２の位置は、ガイドに収まるように撮影した場合に左端の文字が存在する可能性が高い領域として予め設定しておくものとする。そして、探索領域５０２内に切り出し領域５０５を設定して、その切り出し領域５０５の画像を抽出し、１桁目に出現する可能性のある文字に関する辞書データと比較して、辞書データに含まれる各文字との間の類似度を評価する。

また、切り出し領域５０５は、探索領域５０２内で水平方向（ｘ軸方向）と垂直方向（ｙ軸方向）のそれぞれをずらした複数の位置に設定され、それぞれの位置の切り出し領域の画像について辞書データと比較して類似度を評価する。すなわち、探索領域５０２全体を網羅するように所定サイズの切り出し領域を複数カ所に設定して、それぞれの位置の切り出し領域の画像について辞書データとの比較を行う。

その後、さらに、切り出し領域５０５の幅と高さを変更して、再度、探索領域５０２全体を網羅するように複数カ所に切り出し領域を設定して画像データを抽出して辞書データとの比較を行う。例えば、切り出し領域５０５の幅を３パターン、高さを２パターン変更する場合、切り出し領域５０５のサイズは、全部で３×２＝６パターンとなる。また、切り出し領域５０５を、水平方向に４回、垂直方向に４回スライドさせた位置それぞれに設定した場合、探索領域５０２に対して、切り出し領域５０５を（４＋１）×（４＋１）＝２５カ所に設定することになる。

切り出し領域のサイズ変更が６パターンで、設定する位置が２５カ所であるので、トータルで６×２５＝１５０回、探索領域５０２から切り出し領域の画像を切り出すことになる。そして、画像を切り出すたびに、１桁目に出現する可能性のある文字の辞書データ（比較対象の文字画像情報）と比較し、それぞれの文字に対する類似度を評価する。

すべての切り出し領域の画像を評価した結果のうち、類似度が高かった文字の定海ら評価パターン数の文字を１桁目の認識結果候補とするとともに、各認識結果候補において、その最も類似度が高かったときの切り出し領域の位置を１桁目の文字の位置とする。５０４は、文字「Ｂ」が１桁目の文字の認識結果候補として確定され、そのときの切り出し位置を示すものである。

その後、次の隣接する文字（左から２番目の文字）の探索領域５０３を設定する。認識結果５０４は評価パターン数存在することになるため、探索領域５０３も評価パターン数設定され、各認識結果候補の位置５０４からの相対位置で設定される。２桁目の文字についても、１桁目の場合と同様に、探索領域５０３内で複数の切り出し領域５０６を設定してそれぞれについて評価を行い、類似度の高い上位評価パターン数の文字を決定していく。３桁目以降も、同様に、探索領域の設定と、切り出し領域の設定と、辞書データとの類似比較とを順次行って、認識結果候補の文字を確定させていく。

なお、撮影時に左右にずれて撮影されることも考慮し、１桁目の文字に対する探索領域５０２はやや広めにとるのが望ましい。一方、文字間のスペースは被写体の文字列に応じて予め決まっているので、２桁目以降の文字に対する探索領域５０３は、探索領域５０２より狭めに設定してもよい。

図7は、本実施形態における文字認識処理において、算出した類似度に基づき認識結果を決定する処理について説明した図である。ここでは、説明の簡略化のため、０から９までの数字が５桁記述されているシリアルＩＤを、評価パターン数３で文字認識処理を行う場合の例を説明する。

文字画像群７０１は、シリアルＩＤの１桁目に対する認識処理を行った際に比較を行った辞書データに含まれる各文字を表しており、点線で囲まれている各文字画像は辞書データとの比較で高い類似度が得られた上位３つの文字画像である。

同様にして、文字画像群７０２〜７０４は、シリアルＩＤの２桁目、文字画像群７０５〜７０７は３桁目、文字画像群７０８〜７１０は４桁目、文字画像群７１１〜７１３は５桁目の認識処理を行った際に比較を行った辞書データに含まれる各文字を表している。また、文字列７１４は、文字認識の結果得られたシリアルＩＤの認識結果である。

文字画像群７０１において、1桁目の文字情報の探索により高い類似度が算出された３つの認識結果に対して、それぞれ２桁目の文字情報を探索するための探索領域が決定される。前記３つの認識結果における矩形情報はそれぞれ異なるため、２桁目の探索領域もそれぞれ異なったものとなる。

１桁目の文字認識結果を「２」とした場合、文字情報群７０２で表される辞書データに対し２桁目の探索を行い、１桁目の文字認識結果を「３」とした場合、文字情報群７０３で表される辞書データに対し２桁目の探索を行い、１桁目の文字認識結果を「６」とした場合、文字情報群７０４で表される辞書データに対し２桁目の探索を行う。

２桁目の探索では、１桁目の候補を３パターンとして探索を行ったため、パターン数３×辞書データ数１０＝３０回の類似度の評価を行う。３桁目の探索では、２桁目の探索で求めた類似度のうち、同様にして高い類似度が得られた上位３つの文字画像を探索候補とする。このとき、２桁目の探索位置は１桁目で候補とした認識結果の矩形情報に基づくため、３桁目の探索位置は１桁目と２桁目の探索結果に基づいて決定される。３回目の探索においても、３０回の類似度の評価が行われる。

ここで、３桁目のある探索領域で高類似度の文字画像が得られなかった場合、該探索領域における１桁目および２桁目の文字情報は後の検索対象からは除外される。たとえば、文字情報群７０６に、三桁目の探索における高い類似度が得られた文字が検出されなかったので、１桁目および２桁目の組み合わせ「３４」は検索対象から除外される。これは、２桁目以降のすべての探索において起こりうる。

図９は、文字画像管理部３０８で管理する文字画像情報（辞書データ）のデータ構造の一例である。

文字画像情報リストは、複数の文字画像情報を含む。文字画像情報（文字認識辞書の辞書データ）は、各文字の文字情報（キャラクターコード）と、各文字の文字画像から抽出した特徴情報を含む。各文字の特徴情報は、例えば、ＨＯＧ（Histograms of Oriented Gradients）特徴量を使用すればよいが、その他の特徴量であっても構わない。

図１０は、文字認識部３０７により実行された文字認識処理の結果情報のデータ構造の一例である。

認識結果情報は、複数の認識結果文字情報を含む。認識結果文字情報は、文字単位の認識結果に対応し、１つの認識結果文字情報に対して複数の候補文字情報を含む。本実施形態のシリアルＩＤ１０７は９桁なので、認識結果情報は各桁に対応する９つの認識結果文字情報を含む。また、各候補文字情報は、矩形情報（各候補文字に対応する切り出し領域の位置とサイズ）と、文字情報（キャラクターコード）と、評価値とを含む。評価値は、図１０の文字画像情報の特徴情報と、切り出し領域で切り出した画像から抽出した特徴情報とを比較した結果の相関係数（類似度）である。

図１１は、モバイルアプリ３０２の文字認識部３０７が、タイヤを撮影した後に実行する文字認識処理の詳細を示すフローチャートである。

ステップＳ１１０１で、文字認識部３０７は、ガイドに基づいて撮影画像から切り出された認識対象画像５０１に対して、１桁目の文字の探索領域（図５の５０２）を設定する。

ステップＳ１１０２で、文字認識部３０７は、１桁目の文字の探索領域の画像を切り出す。

ステップＳ１１０３で、文字認識部３０７は、切り出した１桁目の文字の探索領域の画像に対して、切り出し領域の設定と、辞書データとの類似比較とを順次行って、切り出し領域の位置とそれぞれの位置における候補文字とを検出する（文字検出処理）。なお、ステップＳ１１０３の処理の詳細は、図１２を用いて後述する。

ステップＳ１１０４で、文字認識部３０７は、図１１で示した認識結果文字情報から、評価値（類似度）の高い候補文字情報の上位から評価パターン数分の文字情報を認識結果候補として検索し取得する。

続くステップＳ１１０５からステップＳ１１０８までのステップを、ステップ１１０４で取得した認識結果候補の数だけ繰り返し処理を行う。ステップＳ１１０５で、文字認識部３０７は、一つの認識結果候補から矩形情報（その認識結果候補の候補文字情報に対応する切り出し領域の位置情報）を取得する。

ステップＳ１１０６で、ステップＳ１１０５で取得した矩形情報に基づいて、次の桁の探索領域を設定する。

ステップＳ１１０７で、文字認識部３０７は、次の桁の文字の探索領域の画像を切り出す。

ステップＳ１１０８で、文字認識部３０７は、ステップＳ１１０７で切り出した文字の探索領域の画像に対して、ステップＳ１１０３と同様に文字検出処理を行う。

ステップＳ１１０９で、最後の桁（９桁目）の文字かどうかを判断し、最後の桁の文字と判断した場合は、ステップＳ１１１０に進む。最後の桁の文字でないと判断した場合、ステップＳ１１０４に進む。

ステップＳ１１１０で、文字認識部３０７は、最後の桁の認識結果候補の中から最も高い類似度が取得された認識結果候補を最終的な認識結果として、情報表示部３０４を介し、認識結果を画面の認識結果表示領域６０８に表示して終了する。

図１２は、図１１のステップＳ１１０３の文字検出処理の詳細を示すフローチャートである。特に、切り出し領域のサイズを変えながら、探索領域内の複数の位置に切り出し領域を設定して認識処理を行う処理の詳細を示すものである。

ステップＳＳ１２０１で、文字認識部３０７は、切り出し領域（図５の５０５、５０６）の幅を、最小値に設定し、ステップＳ１２０２に進む。

ステップＳ１２０２で、切り出し領域の幅が所定の最大値を超えたかどうかを判断する。切り出し領域の幅が最大値を超えたと判断された場合は終了する。切り出し領域の幅が最大値を超えていないと判断された場合は、ステップＳ１２０３で、切り出し領域の高さを、最小値に設定し、ステップＳ１２０４に進む。

ステップＳ１２０４で、切り出し領域の高さが所定の最大値を超えたかどうかを判断する。切り出し領域の高さが最大値を超えたと判断された場合は、ステップＳ１２１３で、切り出し領域の幅を所定量大きくして、ステップＳ１２０２に進む。

ステップＳ１２０４で、切り出し領域の高さが最大値を超えていないと判断された場合は、ステップＳＳ１２０５に進む。

ステップＳ１２０５で、文字認識部３０７は、切り出し領域の左端のｘ座標を、初期値（探索領域の左端のｘ座標）に設定し、ステップＳ１２０６に進む。

ステップＳ１２０６で、切り出し領域の右端のｘ座標が、探索領域の右端のｘ座標を超えたかどうかを判断する。切り出し領域の右端のｘ座標が、探索領域の右端のｘ座標を超えたと判断された場合は、ステップＳ１２１２で、切り出し領域の高さを所定量大きくして、ステップＳ１２０４に進む。

ステップＳ１２０６で、切り出し領域の右端のｘ座標が、探索領域の右端のｘ座標を超えていないと判断された場合は、ステップＳＳ１２０７で、切り出し領域の上端のｙ座標を、初期値（探索領域の上端のｙ座標）に設定し、ステップＳ１２０８に進む。

ステップＳ１２０８で、切り出し領域の下端のｙ座標が、探索領域の下端のｙ座標を超えたかどうかを判断する。切り出し領域の下端のｙ座標が、探索領域の下端のｙ座標を超えたと判断された場合は、ステップＳ１２１１で、切り出し領域をｘ軸方向にスライド（ｘ座標を大きく）して、ステップＳ１２０６に進む。ステップＳ１２０８で、切り出し領域の下端のｙ座標が、探索領域の下端のｙ座標を超えていないと判断された場合は、ステップＳ１２０９で当該切り出し領域の画像に対して文字画像情報（辞書データ）との比較処理（文字認識処理）を行う。

ステップＳ１２０９の処理の詳細は図１３で説明する。

ステップＳ１２１０で、切り出し領域をｙ軸方向にスライド（ｙ座標を大きく）して、ステップＳ１２０８に進む。

図１３は、図１２のステップＳ１２０９の文字認識の処理の詳細なフローチャートである。

ステップＳ１３０１で、文字認識部３０７は、切り出し領域（図５の５０５、５０６）の画像を切り出し、ステップＳ１３０２で、画像処理部３０６は、当該切り出した画像から特徴情報（HOG特徴量）を抽出する。

ステップＳ１３０３で、文字認識部３０７は、図９で示した文字画像情報リストの先頭の文字画像情報（辞書データ）を取得する。

ステップＳ１３０４で、当該取得した文字画像情報に含まれる特徴情報と、ステップＳ１３０２で抽出した特徴情報とを比較して、相関係数（類似度）を評価値として求める。

ステップＳ１３０５で、文字認識部３０７は、図１０で示した候補文字情報を作成し、ステップＳ１３０４の比較結果の相関係数を評価値として設定する。このとき、候補文字情報の文字情報（キャラクターコード）には、文字画像情報の文字情報、矩形情報には、切り出し領域の位置とサイズを設定する。

ステップＳ１３０６で、文字認識部３０７は、処理中の桁の文字に関して、（図１０で示した）認識結果文字情報の候補文字情報を検索し、ステップＳ１３０５で作成した候補文字情報と、文字情報が一致する候補文字情報がすでに存在するかどうかを判断する。ステップＳ１３０６で、文字情報が一致する候補文字情報が存在しないと判断された場合は、ステップＳ１３０９に進む。文字情報が一致する候補文字情報がすでに存在すると判断された場合は、ステップＳ１３０７に進む。

ステップＳ１３０７で、文字認識部３０７は、ステップＳ１３０５で作成した候補文字情報の評価値の方が、既に存在する候補文字情報の評価値より高いかどうかを判断する。ステップＳ１３０５で作成した候補文字情報の方が高いと判断されなかった場合は、ステップＳ１３１０に進む。ステップＳ１３０５で作成した候補文字情報の方が高いと判断された場合は、ステップＳ１３０８に進み、認識結果文字情報内に既に存在する候補文字情報を削除する。そして、ステップＳ１３０９で、ステップＳ１３０５で作成した候補文字情報を、認識結果文字情報に格納し、ステップＳ１３１０へ進む。

ステップＳ１３１０で、文字画像情報リストの最後かどうかを判断し、最後でないと判断された場合は、ステップＳ１３１１で、文字画像情報リストの次の文字画像情報を取得する。ステップＳ１３１０で、文字画像情報リストの最後と判断された場合は終了する。

図８は、本実施形態の文字認識処理を行うことで、正しい文字認識結果が得られることの礼を示した図である。

８０１は、撮影したタイヤのシリアルＩＤ１−７の画像である。この画像に対して図１２の処理を実行することにより、文字認識結果８０２および文字認識結果８０４が得られたものとする。また、文字認識結果８０２に対応する切り出し領域の位置は、８０３の位置であったとする。文字認識結果８０４に対応する切り出し領域の位置は、８０５の位置であったとする。

さらに、文字認識結果８０２の３桁目で算出された類似度が、文字認識結果８０４の３桁目で算出された類似度よりも高かったものとし、文字認識結果８０４の４桁目で算出された類似度が、文字認識結果８０２の４桁目で算出された類似度よりも高かったものとする。仮に図１１のステップＳ１１０４で最も高い類似度の候補文字のみを認識結果としていた場合、８０３に示すように４桁目以降の切り出し領域が実際の文字からはずれたものが検出されることになるが、図１１で示された本実施形態の文字認識処理を行うことで、途中桁の文字認識で正しい結果となる文字に最も高い類似度が算出できなくても、文字認識結果８０４のように正しい文字認識結果を得られることがわかる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。よって、上述した情報処理装置に対応したプログラム、情報処理方法も本発明の範囲内となる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

３０７文字認識部、５０２探索領域、５０５切り出し領域

Claims

認識対象画像に対して、探索領域を設定する第１の設定手段と、
前記探索領域内の複数カ所に、切り出し領域を設定する第２の設定手段と、
前記第２の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の高い上位数件の候補文字情報を認識結果候補として取得する文字検出手段と、
を有し、
前記第１の設定手段が、さらに、前期文字検出手段で取得された前記認識結果候補に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第２の設定手段と前記文字検出手段とによる処理が、高い評価値が得られた前記認識結果候補に対してのみ繰り返し実行されることを特徴とする情報処理装置。