JP2018180746A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2018180746A JP2018180746A JP2017076338A JP2017076338A JP2018180746A JP 2018180746 A JP2018180746 A JP 2018180746A JP 2017076338 A JP2017076338 A JP 2017076338A JP 2017076338 A JP2017076338 A JP 2017076338A JP 2018180746 A JP2018180746 A JP 2018180746A
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- image
- recognition result
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにする。【解決手段】認識対象画像に対して、探索領域を設定し、当該探索領域内の複数個所に切り出し領域を設定し、党が設定された複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出する。そして、当該検出された候補文字情報の中から評価値の高い上位一定数の候補文字情報を認識結果候補として取得する。さらに、その認識結果候補に対応する切り出し領域の位置情報に用いて、各認識結果候補に対応する次の文字に関する探索領域を設定する。【選択図】図11
Description
本発明は、情報処理装置に関し、特に文字認識処理に関する。
従来、紙文書をスキャンして得た文書画像に対する文字認識処理は、文書画像から文字のアウトライン(輪郭)を検出して、一文字ごとの文字画像の切り出しを行い、当該切り出した文字画像に対して、何の文字であるかを識別する文字認識処理を行っていた。また、文字の切り出し位置が誤っていると、正しい文字が認識されないため、認識対象の文字種が限定されている場合、限定された文字カテゴリを用いて文字の切り出し位置を修正する技術も提供されている。
例えば、識別対象の文字列が住所に関する文字列であった場合、住所文字列の連接関係を用いて文字の切り出しを修正する技術がある。特許文献1には、あらかじめ識別対象である住所文字列の連接関係を木構造で表現し、探索の際の次接点の選択に文字識別を用い、文字識別の際には住所の木構造に応じて文字カテゴリを限定する技術が開示されている。
また、近年、スマートフォンやデジタルカメラなどの普及により、文字情報を含む画像情報が手軽に取れるようになってきた。これによって、より多種多様な観測環境から、文字認識処理を行って文字情報を取り込む大きな市場が開けつつある。例えば、鉱山などの採石現場では、ダンプトラックに使用されているタイヤを管理するために、タイヤに刻印されたシリアルナンバーを用いるというユースケースがある。
そこで、タイヤに刻印されたシリアルナンバーをスマートフォンやデジタルカメラなどで撮影し、撮影した画像に対して文字認識処理を行い、その文字認識結果のシリアルナンバーを用いて管理することが考えられる。
しかしながら、タイヤに刻印されたシリアルナンバーなど、撮影画像において、文字と背景のコントラストが小さかったり、表面に汚れが多くありノイズが多かったりすると、従来技術を用いた場合に、画像によっては非常に多くのパターンが評価対象になり膨大な計算が必要となることや、逆に何ら評価対象とならないことが可能性として考えられ、正確に文字を検出することが困難である。
文字のアウトラインを正確に検出できないような画像に対して、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る頻度が高くなってしまい、ユーザが認識結果を修正する負担も大きくなる。
本発明は、文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにする情報処理装置を提供することを目的とする。
上記の目的を達成するために、本発明に係る情報処理装置は、
認識対象画像に対して、探索領域を設定する第1の設定手段と、前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定手段と、前記第2の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の高い上位数件の候補文字情報を認識結果候補として取得する文字検出手段と、を有し、前記第1の設定手段が、さらに、前期文字検出手段で取得された前記認識結果候補に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定手段と前記文字検出手段とによる処理が、高い評価値が得られた前記認識結果候補に対してのみ繰り返し実行されることを特徴とする。
認識対象画像に対して、探索領域を設定する第1の設定手段と、前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定手段と、前記第2の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の高い上位数件の候補文字情報を認識結果候補として取得する文字検出手段と、を有し、前記第1の設定手段が、さらに、前期文字検出手段で取得された前記認識結果候補に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定手段と前記文字検出手段とによる処理が、高い評価値が得られた前記認識結果候補に対してのみ繰り返し実行されることを特徴とする。
本発明に係る情報処理装置によれば、文字のアウトラインを正確に検出するのが困難な画像に対して、文字があると推定される探索領域内で位置をずらしながら複数の領域を切り出し、当該切り出した複数の領域に基づいて複数の高類似度を用いた文字認識処理を適用することで、文字認識処理の精度を向上できる。
《第1の実施形態》
本発明の実施形態に係る情報処理装置の一例として、モバイル端末(携帯端末)を例に説明する。
本発明の実施形態に係る情報処理装置の一例として、モバイル端末(携帯端末)を例に説明する。
モバイル端末は、無線通信機能などを用いて外部と通信可能な端末である。図1は、モバイル端末100(モバイル端末の前面101と背面103)の外観と、被写体105となるタイヤを示す図である。
モバイル端末前面部101には、タッチパネルディスプレイ102が備えられ、表示とタッチ操作入力との2つの機能を有する。モバイル端末背面部103には、被写体を撮影して画像を取り込むためのカメラユニット104が備えられる。
本実施形態では、モバイル端末100のユーザは、モバイル端末のCPUにより動作するモバイルアプリ(詳細は後述)を利用して、被写体105を撮影し、文字認識処理を実行させることができる。
被写体105は、タイヤの例である。タイヤのシリアルID(シリアルナンバーもしくはセリアルナンバーともいう)が記載されている部分を、モバイル端末のカメラユニットを用いて撮影することにより、撮影画像106を取得することができる。シリアルID107はタイヤに刻印されたシリアルナンバーを示しており、タイヤを一意に識別するためのIDである。
なお、本実施形態では、被写体105としてタイヤを例にして説明するが、被写体はタイヤに限るものではない。後述のモバイルアプリは、被写体105の画像を取り込み、タッチパネル102にその画像を出力することができる。
図2は、モバイル端末100のハードウェアの構成の一例を示す図である。
CPU(Central Processing Unit)201は、各種のプログラムを実行することによって様々な機能を実現する処理ユニットである。RAM(Random Access Memory)202は、各種の情報の記憶や、CPU201の一時的な作業記憶領域として利用されるユニットである。不揮発性メモリ(例えばROM)203は、各種のプログラムやデータ等を記憶するユニットである。
CPU201は、不揮発性メモリ203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。すなわち、モバイル端末のCPU(コンピュータ)は、該プログラムを実行することにより、図3で説明するような各処理部として機能し、後述するシーケンスの各ステップを実行する。なお、不揮発性メモリ203は、フラッシュメモリ、HDD(Hard Disk Drive)又はSSD(Solid State Disk)などであってもよい。なお、モバイル端末100の各機能ならびに後述するシーケンスに係る処理の全部又は一部については、専用のハードウェアを用いて実現してもよい。
Input/Outputインターフェース204は、タッチパネル102とデータを送受信する。NIC(Network Interface Card)205は、モバイル端末100をネットワーク(不図示)に接続するためのユニットである。カメラインターフェース206は、カメラユニット104と接続し、被写体105の画像をモバイル端末100に取り込む。上述したユニットは、バス207を介してデータの送受信を行うことができる。
次に、モバイル端末100におけるソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す概念図である。モバイル端末のCPUは、モバイルアプリ(モバイル端末用のアプリケーションプログラム)302を実行することにより、各処理部(各処理モジュール)303〜308として機能する。また、モバイル端末100のOS(Operating System)(不図示)は、画像管理部301として機能する。
画像管理部301は、画像やアプリケーションデータを管理する。OSは、データ管理部301を利用するための制御API(Application ProgrammingInterface)を提供している。各アプリケーションは、その制御APIを利用することでデータ管理部301に対し、画像やアプリケーションデータの取得処理や保存処理を行う。
モバイルアプリ302は、モバイル端末100のOSのインストール機能を利用して、ダウンロードしインストールすることにより実行可能なアプリケーションである。モバイルアプリ302は、カメラインターフェース206を介して取り込んだ被写体105の画像に対する各種のデータ処理を行う。
メイン制御部303は、後述する各モジュール部(303〜308)に対する指示及び管理を行う。
情報表示部304は、メイン制御部303からの指示に従い、図6〜8に示すようなモバイルアプリ302のユーザインタフェース(UI)をタッチパネルに表示するように制御する。
図6は、モバイルアプリ302のUI(携帯端末用のUI)の画面(モバイル端末画面600)の一例を示す図である。
モバイル端末画面600は、モバイル端末100のタッチパネル102に表示される。モバイル端末画面600は、領域601にカメラ104を用いて取り込んだ画像を表示し、また、画像やUI等に対するユーザによる操作(ユーザ操作)を受け付ける。シャッターボタン602は、カメラユニットから入力された画像を、RAM202やデータ管理部301に保存するためのボタンであり、以下では、保存された画像を撮影画像と呼ぶこととする。
ズームボタン603は、表示画像の拡縮を行うためのボタンである。604〜607は、認識対象を撮影すべき位置の目安となるガイドである。ユーザは、認識対象のシリアルID107を4つのガイドによって囲まれる矩形の領域内に収まるように撮影位置を調整してタイヤを撮影する。608は、シリアルID107の文字認識結果を表示するための表示領域である。認識結果が誤っている場合、ユーザが、認識結果表示領域608の中の修正対象文字をタッチして、認識結果の修正を行えるようにしてもよい。
なお、モバイルアプリ302のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図に示す形態に限定されるものではなく、モバイル端末100の機能を実現することができる適宜の構成を採用することができる。
再び図3に戻って、各モジュールの説明を行う。操作情報取得部305は、モバイルアプリのUI上で為されたユーザ操作に関する情報を取得し、当該取得した情報をメイン制御部303に通知する。例えば、領域601をユーザが手で触れると、操作情報取得部305は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部303に送信する。
画像処理部306は、カメラユニット206を介して取り込んだ被写体105の撮影画像に対して、グレイスケール変換やエッジ抽出、特徴量抽出といった文字認識を行うために必要な画像処理を行う。
文字認識部307は、画像処理部306で処理した画像から文字が記載されていると推定される領域を複数切り出し、各領域の画像を比較対象の文字画像情報(辞書データ)と比較して、最も類似する文字を判別する。
文字画像管理部308は、文字認識部307が文字の認識を行う際に、比較対象として使用する文字画像情報(いわゆる文字認識辞書の辞書データとして使用される情報)を管理する。
図4は、文字認識部307が、画像から文字を認識する際に、比較対象として使用する文字画像情報の例である。文字画像情報は、認識対象のタイヤで使用されている文字の種類それぞれについて用意する。文字画像情報401〜410は、数字の画像の例であるが、本実施形態の認識対象であるタイヤのシリアルID107は、数字に加えて大文字のアルファベットの文字画像(不図示)を含むものとする。
なお、当該文字画像管理部で管理される文字画像情報(辞書データ)は、タイヤに刻印されている文字のフォントに基づいて作成された各文字の特徴を示す特徴情報であってもよいし、各文字の画像そのものであってもよい。どのような辞書データを用いるかは、認識対象の画像と辞書データとを照合する際に用いるアルゴリズムに応じたものとすればよい。
図5は、本実施形態における文字認識処理について説明した図である。
認識対象画像501は、カメラユニット104およびカメラインターフェース206を介して取り込んだ被写体105の画像の一部を切り出した画像である。図6で説明したように、ユーザは、モバイルアプリ302のUIに提示されたガイド(図6の604〜607)に、シリアルID107がちょうど納まるように撮影位置を調整してタイヤを撮影する。モバイルアプリ302は、撮影された画像から、ガイドで囲まれた部分の画像を切り出して、認識対象画像501とする。
なお、タイヤのシリアルID107は、メーカーごとにフォーマットが決まっており、本実施形態では、桁数は9桁で、数字と大文字のアルファベットで構成されるものとして説明する。
タイヤに刻印されているシリアルIDなどを撮影した画像は、文字と背景のコントラストが小さかったり、タイヤ(被写体)の表面に汚れがあったりするので、文字のアウトラインを正確に検出することが困難な画像である。したがって、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る可能性が高く、その結果文字認識処理の精度が劣化してしまう。
そのため、本実施形態では、まず、文字が存在すると考えられる領域を探索領域として設定し、当該設定された探索領域内で、位置とサイズとを変えながら複数の切り出し領域を設定して複数の領域画像の切り出しを繰り返す。そして、切り出した複数の領域画像それぞれと辞書データ(文字画像管理部で管理される比較対象の文字画像情報)とを比較して、各領域画像に対する文字認識結果とその類似度とを求める。
その後、高類似度が得られた上位一定数の文字認識結果を1桁目の文字候補とし、後述する類似度に基づいた認識結果の決定処理を行っていく。上位いくつの文字認識結果を候補とするか(評価パターン数)は予め任意に定めておく。そして、その認識結果の切り出し領域の位置をもとに、次の文字に対する探索領域を設定し、同様の処理を繰り返す。本実施形態においては、認識対象画像501に含まれる9桁のシリアルID107を、1桁目(左端の文字)から順に認識していく。
1桁目の文字の探索領域502は、ガイド604〜607に基づいて切り出された認識対象画像501の左端から所定座標離れた位置に設定される。この最初の探索領域502の位置は、ガイドに収まるように撮影した場合に左端の文字が存在する可能性が高い領域として予め設定しておくものとする。そして、探索領域502内に切り出し領域505を設定して、その切り出し領域505の画像を抽出し、1桁目に出現する可能性のある文字に関する辞書データと比較して、辞書データに含まれる各文字との間の類似度を評価する。
また、切り出し領域505は、探索領域502内で水平方向(x軸方向)と垂直方向(y軸方向)のそれぞれをずらした複数の位置に設定され、それぞれの位置の切り出し領域の画像について辞書データと比較して類似度を評価する。すなわち、探索領域502全体を網羅するように所定サイズの切り出し領域を複数カ所に設定して、それぞれの位置の切り出し領域の画像について辞書データとの比較を行う。
その後、さらに、切り出し領域505の幅と高さを変更して、再度、探索領域502全体を網羅するように複数カ所に切り出し領域を設定して画像データを抽出して辞書データとの比較を行う。例えば、切り出し領域505の幅を3パターン、高さを2パターン変更する場合、切り出し領域505のサイズは、全部で3×2=6パターンとなる。また、切り出し領域505を、水平方向に4回、垂直方向に4回スライドさせた位置それぞれに設定した場合、探索領域502に対して、切り出し領域505を(4+1)×(4+1)=25カ所に設定することになる。
切り出し領域のサイズ変更が6パターンで、設定する位置が25カ所であるので、トータルで6×25=150回、探索領域502から切り出し領域の画像を切り出すことになる。そして、画像を切り出すたびに、1桁目に出現する可能性のある文字の辞書データ(比較対象の文字画像情報)と比較し、それぞれの文字に対する類似度を評価する。
すべての切り出し領域の画像を評価した結果のうち、類似度が高かった文字の定海ら評価パターン数の文字を1桁目の認識結果候補とするとともに、各認識結果候補において、その最も類似度が高かったときの切り出し領域の位置を1桁目の文字の位置とする。504は、文字「B」が1桁目の文字の認識結果候補として確定され、そのときの切り出し位置を示すものである。
その後、次の隣接する文字(左から2番目の文字)の探索領域503を設定する。認識結果504は評価パターン数存在することになるため、探索領域503も評価パターン数設定され、各認識結果候補の位置504からの相対位置で設定される。2桁目の文字についても、1桁目の場合と同様に、探索領域503内で複数の切り出し領域506を設定してそれぞれについて評価を行い、類似度の高い上位評価パターン数の文字を決定していく。3桁目以降も、同様に、探索領域の設定と、切り出し領域の設定と、辞書データとの類似比較とを順次行って、認識結果候補の文字を確定させていく。
なお、撮影時に左右にずれて撮影されることも考慮し、1桁目の文字に対する探索領域502はやや広めにとるのが望ましい。一方、文字間のスペースは被写体の文字列に応じて予め決まっているので、2桁目以降の文字に対する探索領域503は、探索領域502より狭めに設定してもよい。
図7は、本実施形態における文字認識処理において、算出した類似度に基づき認識結果を決定する処理について説明した図である。ここでは、説明の簡略化のため、0から9までの数字が5桁記述されているシリアルIDを、評価パターン数3で文字認識処理を行う場合の例を説明する。
文字画像群701は、シリアルIDの1桁目に対する認識処理を行った際に比較を行った辞書データに含まれる各文字を表しており、点線で囲まれている各文字画像は辞書データとの比較で高い類似度が得られた上位3つの文字画像である。
同様にして、文字画像群702〜704は、シリアルIDの2桁目、文字画像群705〜707は3桁目、文字画像群708〜710は4桁目、文字画像群711〜713は5桁目の認識処理を行った際に比較を行った辞書データに含まれる各文字を表している。また、文字列714は、文字認識の結果得られたシリアルIDの認識結果である。
文字画像群701において、1桁目の文字情報の探索により高い類似度が算出された3つの認識結果に対して、それぞれ2桁目の文字情報を探索するための探索領域が決定される。前記3つの認識結果における矩形情報はそれぞれ異なるため、2桁目の探索領域もそれぞれ異なったものとなる。
1桁目の文字認識結果を「2」とした場合、文字情報群702で表される辞書データに対し2桁目の探索を行い、1桁目の文字認識結果を「3」とした場合、文字情報群703で表される辞書データに対し2桁目の探索を行い、1桁目の文字認識結果を「6」とした場合、文字情報群704で表される辞書データに対し2桁目の探索を行う。
2桁目の探索では、1桁目の候補を3パターンとして探索を行ったため、パターン数3×辞書データ数10=30回の類似度の評価を行う。3桁目の探索では、2桁目の探索で求めた類似度のうち、同様にして高い類似度が得られた上位3つの文字画像を探索候補とする。このとき、2桁目の探索位置は1桁目で候補とした認識結果の矩形情報に基づくため、3桁目の探索位置は1桁目と2桁目の探索結果に基づいて決定される。3回目の探索においても、30回の類似度の評価が行われる。
ここで、3桁目のある探索領域で高類似度の文字画像が得られなかった場合、該探索領域における1桁目および2桁目の文字情報は後の検索対象からは除外される。たとえば、文字情報群706に、三桁目の探索における高い類似度が得られた文字が検出されなかったので、1桁目および2桁目の組み合わせ「34」は検索対象から除外される。これは、2桁目以降のすべての探索において起こりうる。
図9は、文字画像管理部308で管理する文字画像情報(辞書データ)のデータ構造の一例である。
文字画像情報リストは、複数の文字画像情報を含む。文字画像情報(文字認識辞書の辞書データ)は、各文字の文字情報(キャラクターコード)と、各文字の文字画像から抽出した特徴情報を含む。各文字の特徴情報は、例えば、HOG(Histograms of Oriented Gradients)特徴量を使用すればよいが、その他の特徴量であっても構わない。
図10は、文字認識部307により実行された文字認識処理の結果情報のデータ構造の一例である。
認識結果情報は、複数の認識結果文字情報を含む。認識結果文字情報は、文字単位の認識結果に対応し、1つの認識結果文字情報に対して複数の候補文字情報を含む。本実施形態のシリアルID107は9桁なので、認識結果情報は各桁に対応する9つの認識結果文字情報を含む。また、各候補文字情報は、矩形情報(各候補文字に対応する切り出し領域の位置とサイズ)と、文字情報(キャラクターコード)と、評価値とを含む。評価値は、図10の文字画像情報の特徴情報と、切り出し領域で切り出した画像から抽出した特徴情報とを比較した結果の相関係数(類似度)である。
図11は、モバイルアプリ302の文字認識部307が、タイヤを撮影した後に実行する文字認識処理の詳細を示すフローチャートである。
ステップS1101で、文字認識部307は、ガイドに基づいて撮影画像から切り出された認識対象画像501に対して、1桁目の文字の探索領域(図5の502)を設定する。
ステップS1102で、文字認識部307は、1桁目の文字の探索領域の画像を切り出す。
ステップS1103で、文字認識部307は、切り出した1桁目の文字の探索領域の画像に対して、切り出し領域の設定と、辞書データとの類似比較とを順次行って、切り出し領域の位置とそれぞれの位置における候補文字とを検出する(文字検出処理)。なお、ステップS1103の処理の詳細は、図12を用いて後述する。
ステップS1104で、文字認識部307は、図11で示した認識結果文字情報から、評価値(類似度)の高い候補文字情報の上位から評価パターン数分の文字情報を認識結果候補として検索し取得する。
続くステップS1105からステップS1108までのステップを、ステップ1104で取得した認識結果候補の数だけ繰り返し処理を行う。ステップS1105で、文字認識部307は、一つの認識結果候補から矩形情報(その認識結果候補の候補文字情報に対応する切り出し領域の位置情報)を取得する。
ステップS1106で、ステップS1105で取得した矩形情報に基づいて、次の桁の探索領域を設定する。
ステップS1107で、文字認識部307は、次の桁の文字の探索領域の画像を切り出す。
ステップS1108で、文字認識部307は、ステップS1107で切り出した文字の探索領域の画像に対して、ステップS1103と同様に文字検出処理を行う。
ステップS1109で、最後の桁(9桁目)の文字かどうかを判断し、最後の桁の文字と判断した場合は、ステップS1110に進む。最後の桁の文字でないと判断した場合、ステップS1104に進む。
ステップS1110で、文字認識部307は、最後の桁の認識結果候補の中から最も高い類似度が取得された認識結果候補を最終的な認識結果として、情報表示部304を介し、認識結果を画面の認識結果表示領域608に表示して終了する。
図12は、図11のステップS1103の文字検出処理の詳細を示すフローチャートである。特に、切り出し領域のサイズを変えながら、探索領域内の複数の位置に切り出し領域を設定して認識処理を行う処理の詳細を示すものである。
ステップSS1201で、文字認識部307は、切り出し領域(図5の505、506)の幅を、最小値に設定し、ステップS1202に進む。
ステップS1202で、切り出し領域の幅が所定の最大値を超えたかどうかを判断する。切り出し領域の幅が最大値を超えたと判断された場合は終了する。切り出し領域の幅が最大値を超えていないと判断された場合は、ステップS1203で、切り出し領域の高さを、最小値に設定し、ステップS1204に進む。
ステップS1204で、切り出し領域の高さが所定の最大値を超えたかどうかを判断する。切り出し領域の高さが最大値を超えたと判断された場合は、ステップS1213で、切り出し領域の幅を所定量大きくして、ステップS1202に進む。
ステップS1204で、切り出し領域の高さが最大値を超えていないと判断された場合は、ステップSS1205に進む。
ステップS1205で、文字認識部307は、切り出し領域の左端のx座標を、初期値(探索領域の左端のx座標)に設定し、ステップS1206に進む。
ステップS1206で、切り出し領域の右端のx座標が、探索領域の右端のx座標を超えたかどうかを判断する。切り出し領域の右端のx座標が、探索領域の右端のx座標を超えたと判断された場合は、ステップS1212で、切り出し領域の高さを所定量大きくして、ステップS1204に進む。
ステップS1206で、切り出し領域の右端のx座標が、探索領域の右端のx座標を超えていないと判断された場合は、ステップSS1207で、切り出し領域の上端のy座標を、初期値(探索領域の上端のy座標)に設定し、ステップS1208に進む。
ステップS1208で、切り出し領域の下端のy座標が、探索領域の下端のy座標を超えたかどうかを判断する。切り出し領域の下端のy座標が、探索領域の下端のy座標を超えたと判断された場合は、ステップS1211で、切り出し領域をx軸方向にスライド(x座標を大きく)して、ステップS1206に進む。ステップS1208で、切り出し領域の下端のy座標が、探索領域の下端のy座標を超えていないと判断された場合は、ステップS1209で当該切り出し領域の画像に対して文字画像情報(辞書データ)との比較処理(文字認識処理)を行う。
ステップS1209の処理の詳細は図13で説明する。
ステップS1210で、切り出し領域をy軸方向にスライド(y座標を大きく)して、ステップS1208に進む。
図13は、図12のステップS1209の文字認識の処理の詳細なフローチャートである。
ステップS1301で、文字認識部307は、切り出し領域(図5の505、506)の画像を切り出し、ステップS1302で、画像処理部306は、当該切り出した画像から特徴情報(HOG特徴量)を抽出する。
ステップS1303で、文字認識部307は、図9で示した文字画像情報リストの先頭の文字画像情報(辞書データ)を取得する。
ステップS1304で、当該取得した文字画像情報に含まれる特徴情報と、ステップS1302で抽出した特徴情報とを比較して、相関係数(類似度)を評価値として求める。
ステップS1305で、文字認識部307は、図10で示した候補文字情報を作成し、ステップS1304の比較結果の相関係数を評価値として設定する。このとき、候補文字情報の文字情報(キャラクターコード)には、文字画像情報の文字情報、矩形情報には、切り出し領域の位置とサイズを設定する。
ステップS1306で、文字認識部307は、処理中の桁の文字に関して、(図10で示した)認識結果文字情報の候補文字情報を検索し、ステップS1305で作成した候補文字情報と、文字情報が一致する候補文字情報がすでに存在するかどうかを判断する。ステップS1306で、文字情報が一致する候補文字情報が存在しないと判断された場合は、ステップS1309に進む。文字情報が一致する候補文字情報がすでに存在すると判断された場合は、ステップS1307に進む。
ステップS1307で、文字認識部307は、ステップS1305で作成した候補文字情報の評価値の方が、既に存在する候補文字情報の評価値より高いかどうかを判断する。ステップS1305で作成した候補文字情報の方が高いと判断されなかった場合は、ステップS1310に進む。ステップS1305で作成した候補文字情報の方が高いと判断された場合は、ステップS1308に進み、認識結果文字情報内に既に存在する候補文字情報を削除する。そして、ステップS1309で、ステップS1305で作成した候補文字情報を、認識結果文字情報に格納し、ステップS1310へ進む。
ステップS1310で、文字画像情報リストの最後かどうかを判断し、最後でないと判断された場合は、ステップS1311で、文字画像情報リストの次の文字画像情報を取得する。ステップS1310で、文字画像情報リストの最後と判断された場合は終了する。
図8は、本実施形態の文字認識処理を行うことで、正しい文字認識結果が得られることの礼を示した図である。
801は、撮影したタイヤのシリアルID1−7の画像である。この画像に対して図12の処理を実行することにより、文字認識結果802および文字認識結果804が得られたものとする。また、文字認識結果802に対応する切り出し領域の位置は、803の位置であったとする。文字認識結果804に対応する切り出し領域の位置は、805の位置であったとする。
さらに、文字認識結果802の3桁目で算出された類似度が、文字認識結果804の3桁目で算出された類似度よりも高かったものとし、文字認識結果804の4桁目で算出された類似度が、文字認識結果802の4桁目で算出された類似度よりも高かったものとする。仮に図11のステップS1104で最も高い類似度の候補文字のみを認識結果としていた場合、803に示すように4桁目以降の切り出し領域が実際の文字からはずれたものが検出されることになるが、図11で示された本実施形態の文字認識処理を行うことで、途中桁の文字認識で正しい結果となる文字に最も高い類似度が算出できなくても、文字認識結果804のように正しい文字認識結果を得られることがわかる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。よって、上述した情報処理装置に対応したプログラム、情報処理方法も本発明の範囲内となる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。よって、上述した情報処理装置に対応したプログラム、情報処理方法も本発明の範囲内となる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
307 文字認識部、502 探索領域、505 切り出し領域
Claims (1)
- 認識対象画像に対して、探索領域を設定する第1の設定手段と、
前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定手段と、
前記第2の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の高い上位数件の候補文字情報を認識結果候補として取得する文字検出手段と、
を有し、
前記第1の設定手段が、さらに、前期文字検出手段で取得された前記認識結果候補に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定手段と前記文字検出手段とによる処理が、高い評価値が得られた前記認識結果候補に対してのみ繰り返し実行されることを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017076338A JP2018180746A (ja) | 2017-04-07 | 2017-04-07 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017076338A JP2018180746A (ja) | 2017-04-07 | 2017-04-07 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018180746A true JP2018180746A (ja) | 2018-11-15 |
Family
ID=64276795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017076338A Pending JP2018180746A (ja) | 2017-04-07 | 2017-04-07 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018180746A (ja) |
-
2017
- 2017-04-07 JP JP2017076338A patent/JP2018180746A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10803367B2 (en) | Method and apparatus for recognizing characters | |
CN107609489B (zh) | 书法书写路径评价装置、方法及电子设备 | |
CN108694400B (zh) | 信息处理装置、其控制方法及存储介质 | |
JP5997545B2 (ja) | 信号処理方法及び信号処理装置 | |
US8917957B2 (en) | Apparatus for adding data to editing target data and displaying data | |
EP3518522B1 (en) | Image capturing method and device | |
US10621427B2 (en) | Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image | |
JP7387363B2 (ja) | データ入力支援装置、データ入力支援方法及びプログラム | |
JP2017162147A (ja) | 情報処理装置、プログラム及び情報処理方法 | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
EP1833022A1 (en) | Image processing device for detecting position of processing object in image | |
US10134138B2 (en) | Information processing apparatus, computer-readable storage medium, information processing method | |
JP2013171309A (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
JP6669390B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2018180746A (ja) | 情報処理装置 | |
US20130330005A1 (en) | Electronic device and character recognition method for recognizing sequential code | |
JP2021093225A (ja) | 情報処理装置、プログラム、情報処理方法 | |
JP2017062584A (ja) | 電子機器及び方法 | |
JP6833324B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP2021064236A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2017162151A (ja) | 情報処理装置、プログラム、情報処理方法 | |
JP2018180606A (ja) | 画像処理装置、画像処理方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20191125 |