JP2017162148A - 情報処理装置、プログラム、情報処理方法 - Google Patents

情報処理装置、プログラム、情報処理方法 Download PDF

Info

Publication number
JP2017162148A
JP2017162148A JP2016045469A JP2016045469A JP2017162148A JP 2017162148 A JP2017162148 A JP 2017162148A JP 2016045469 A JP2016045469 A JP 2016045469A JP 2016045469 A JP2016045469 A JP 2016045469A JP 2017162148 A JP2017162148 A JP 2017162148A
Authority
JP
Japan
Prior art keywords
character
information
setting
cutout
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016045469A
Other languages
English (en)
Other versions
JP2017162148A5 (ja
Inventor
満夫 木村
Mitsuo Kimura
満夫 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016045469A priority Critical patent/JP2017162148A/ja
Priority to US15/451,789 priority patent/US10134138B2/en
Publication of JP2017162148A publication Critical patent/JP2017162148A/ja
Publication of JP2017162148A5 publication Critical patent/JP2017162148A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにする。【解決手段】 本発明によれば、認識対象画像に対して、探索領域を設定し、当該探索領域内の複数カ所に切り出し領域を設定し、当該設定された複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出する。そして、当該検出された候補文字情報の中から評価値の最も高い候補文字情報を認識結果として出力する。さらに、その認識結果に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定する。【選択図】 図12

Description

本発明は、文字認識処理に関する。
従来、紙文書をスキャンして得た文書画像に対する文字認識処理は、文書画像から文字のアウトライン(輪郭)を検出して、一文字ごとの文字画像の切り出しを行い、当該切り出した文字画像に対して、何の文字であるかを識別する文字認識処理を行っていた。また、文字の切り出し位置が誤っていると、正しい文字が認識されないため、ユーザの指示により文字の切り出し位置を修正する技術も提供されている。例えば、1つの文字画像を、複数の文字として切り出してしまった場合(例えば、1つの漢字を、偏と旁に分割して切り出してしまった場合)、それらを1つの文字として修正する技術がある。特許文献1では、ユーザが、文字の認識結果を修正すると、未修整の箇所から同様の誤認識を行っている箇所を検索して、同様の修正を適用する技術が開示されている。
また、近年、スマートフォンやデジタルカメラなどの普及により、文字情報を含む画像情報が手軽に取れるようになってきた。これによって、より多種多様な観測環境から、文字認識処理を行って文字情報を取り込む大きな市場が開けつつある。例えば、鉱山などの採石現場では、ダンプトラックに使用されているタイヤを管理するために、タイヤに刻印されたシリアルナンバーを用いるというユースケースがある。そこで、タイヤに刻印されたシリアルナンバーをスマートフォンやデジタルカメラなどで撮影し、撮影した画像に対して文字認識処理を行い、その文字認識結果のシリアルナンバーを用いて管理することが考えられる。しかしながら、タイヤに刻印されたシリアルナンバーなど、撮影画像において、文字と背景のコントラストが小さかったり、表面に汚れが多くありノイズが多かったりすると、従来技術のように、文字のアウトラインを正確に検出すること自体が困難である。
特開平11−143983号公報
文字のアウトラインを正確に検出できないような画像に対して、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る頻度が高くなってしまい、ユーザが認識結果を修正する負担も大きくなる。
本発明は、文字のアウトラインを正確に検出するのが困難な画像に対して、文字認識処理を適用できるようにすることを目的とする。
上記課題を解決するために、本発明の情報処理装置は、認識対象画像に対して、探索領域を設定する第1の設定手段と、前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定手段と、前記第2の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の最も高い候補文字情報を認識結果として出力する文字検出手段と、を有し、前記第1の設定手段が、さらに、前記文字検出手段で出力された前記認識結果に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定手段と前記文字検出手段とによる処理が繰り返し実行されることを特徴とする。
文字のアウトラインを正確に検出するのが困難な画像に対して、文字があると推定される探索領域内で位置をずらしながら複数の領域を切り出し、当該切り出した複数の領域に基づいて文字認識処理を適用することで、文字認識処理の精度を向上できる。
モバイル端末の外観の一例 ハードウェア構成の一例 モバイル端末100におけるソフトウェアの構成の一例 文字画像情報(辞書データ)の一例 文字認識処理の概念図 認識結果の表示画面例 認識結果の修正指示時の表示画面例 認識結果の修正後の表示画面例 修正処理後の切り出し領域が再設定される様子を示す例 文字画像情報(辞書データ)のデータ構造の一例 文字認識結果のデータ構造の一例 文字認識処理の詳細を示すフローチャート 文字認識結果が修正された後に実行される処理のフローチャート 文字検出処理の詳細を示すフローチャート 文字認識の処理の詳細を示すフローチャート
(実施例1)
本実施形態に係る情報処理装置の一例として、モバイル端末(携帯端末)を例に説明する。モバイル端末は、無線通信機能などを用いて外部と通信可能な端末である。
図1は、モバイル端末100(モバイル端末の前面101と背面103)の外観と、被写体105となるタイヤを示す図である。モバイル端末前面部101には、タッチパネルディスプレイ102が備えられ、表示とタッチ操作入力との2つの機能を有する。モバイル端末背面部103には、被写体を撮影して画像を取り込むためのカメラユニット104が備えられる。本実施形態では、モバイル端末100のユーザは、モバイル端末のCPUにより動作するモバイルアプリ(詳細は後述)を利用して、被写体105を撮影し、文字認識処理を実行させることができる。被写体105は、タイヤの例である。タイヤのシリアルID(シリアルナンバーもしくはセリアルナンバーともいう)が記載されている部分を、モバイル端末のカメラユニットを用いて撮影することにより、撮影画像106を取得することができる。シリアルID107はタイヤに刻印されたシリアルナンバーを示しており、タイヤを一意に識別するためのIDである。
なお、本実施形態では、被写体105としてタイヤを例にして説明するが、被写体はタイヤに限るものではない。後述のモバイルアプリは、被写体105の画像を取り込み、タッチパネル102にその画像を出力することができる。
図2は、モバイル端末100のハードウェアの構成の一例を示す図である。CPU(Central Processing Unit)201は、各種のプログラムを実行することによって様々な機能を実現する処理ユニットである。RAM(Random Access Memory)202は、各種の情報の記憶や、CPU201の一時的な作業記憶領域として利用されるユニットである。不揮発性メモリ(例えばROM)203は、各種のプログラムやデータ等を記憶するユニットである。CPU201は、不揮発性メモリ203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。すなわち、モバイル端末のCPU(コンピュータ)は、該プログラムを実行することにより、図3で説明するような各処理部として機能し、後述するシーケンスの各ステップを実行する。なお、不揮発性メモリ203は、フラッシュメモリ、HDD(Hard Disk Drive)又はSSD(Solid State Disk)などであってもよい。なお、モバイル端末100の各機能ならびに後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。Input/Outputインターフェース204は、タッチパネル102とデータを送受信する。NIC(Network Interface Card)205は、モバイル端末100をネットワーク(不図示)に接続するためのユニットである。カメラインターフェース206は、カメラユニット104と接続し、被写体105の画像をモバイル端末100に取り込む。上述したユニットは、バス207を介してデータの送受信を行うことができる。
次に、モバイル端末100におけるソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す概念図である。モバイル端末のCPUは、モバイルアプリ(モバイル端末用のアプリケーションプログラム)302を実行することにより、各処理部(各処理モジュール)303〜308として機能する。また、モバイル端末100のOS(Operating System)(不図示)は、画像管理部301として機能する。
画像管理部301は、画像やアプリケーションデータを管理する。OSは、データ管理部301を利用するための制御API(Application ProgrammingInterface)を提供している。各アプリケーションは、その制御APIを利用することでデータ管理部301に対し、画像やアプリケーションデータの取得処理や保存処理を行う。
モバイルアプリ302は、モバイル端末100のOSのインストール機能を利用して、ダウンロードしインストールすることにより実行可能なアプリケーションである。モバイルアプリ302は、カメラインターフェース206を介して取り込んだ被写体105の画像に対する各種のデータ処理を行う。
メイン制御部303は、後述する各モジュール部(303〜308)に対する指示及び管理を行う。
情報表示部304は、メイン制御部303からの指示に従い、図6〜8に示すようなモバイルアプリ302のユーザインタフェース(UI)をタッチパネルに表示するように制御する。
図6〜8は、モバイルアプリ302のUI(携帯端末用のUI)の画面(モバイル端末画面600)の一例を示す図である。モバイル端末画面600は、モバイル端末100のタッチパネル102に表示される。モバイル端末画面600は、領域601にカメラ104を用いて取り込んだ画像を表示し、また、画像やUI等に対するユーザによる操作(ユーザ操作)を受け付ける。シャッターボタン602は、カメラユニットから入力された画像を、RAM202やデータ管理部301に保存するためのボタンであり、以下では、保存された画像を撮影画像と呼ぶこととする。ズームボタン603は、表示画像の拡縮を行うためのボタンである。604〜607は、認識対象を撮影すべき位置の目安となるガイドである。ユーザは、認識対象のシリアルID107を4つのガイドによって囲まれる矩形の領域内に収まるように撮影位置を調整してタイヤを撮影する。608は、シリアルID107の文字認識結果を表示するための表示領域である。認識結果が誤っている場合、ユーザは、認識結果表示領域608の中の修正対象文字をタッチして、認識結果の修正を行う。図6の画面において、ユーザが認識結果表示領域608の修正対象の文字の部分をタッチすると、図7の画面のように、当該タッチされた文字に対する修正候補文字が候補文字領域701〜703に表示される。図7の画面で候補文字領域701〜703のいずれかがタッチされると、認識結果表示領域608の文字が、選択された候補文字に更新される(図8の画面は候補文字領域702がタッチされ修正した後の例を示す)。
なお、モバイルアプリ302のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図に示す形態に限定されるものではなく、モバイル端末100の機能を実現することができる適宜の構成を採用することができる。
再び図3に戻って各モジュールの説明を行う。操作情報取得部305は、モバイルアプリのUI上で為されたユーザ操作に関する情報を取得し、当該取得した情報をメイン制御部303に通知する。例えば、領域601をユーザが手で触れると、操作情報取得部305は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部303に送信する。
画像処理部306は、カメラモユニット206を介して取り込んだ被写体105の撮影画像に対して、グレイスケール変換やエッジ抽出、特徴量抽出といった文字認識を行うために必要な画像処理を行う。
文字認識部307は、画像処理部306で処理した画像から文字が記載されていると推定される領域を複数切り出し、各領域の画像を比較対象の文字画像情報(辞書データ)と比較して、最も類似する文字を判別する。
文字画像管理部308は、文字認識部307が文字の認識を行う際に、比較対象として使用する文字画像情報(いわゆる文字認識辞書の辞書データとして使用される情報)を管理する。図4は、文字認識部307が、画像から文字を認識する際に、比較対象として使用する文字画像情報の例である。文字画像情報は、認識対象のタイヤで使用されている文字の種類それぞれについて用意する。文字画像情報401〜410は、数字の画像の例であるが、本実施例の認識対象であるタイヤのシリアルID107は、数字に加えて大文字のアルファベットの文字画像(不図示)を含むものとする。
なお、当該文字画像管理部で管理される文字画像情報(辞書データ)は、タイヤに刻印されている文字のフォントに基づいて作成された各文字の特徴を示す特徴情報であってもよいし、各文字の画像そのものであってもよい。どのような辞書データを用いるかは、認識対象の画像と辞書データとを照合する際に用いるアルゴリズムに応じたものとすればよい。
図5は、本実施例における文字認識処理について説明した図である。認識対象画像501は、カメラユニット104およびカメラインターフェース206を介して取り込んだ被写体105の画像の一部を切り出した画像である。図6で説明したように、ユーザは、モバイルアプリ302のUIに提示されたガイド(図6の604〜607)に、シリアルID107がちょうど納まるように撮影位置を調整してタイヤを撮影する。モバイルアプリ302は、撮影された画像から、ガイドで囲まれた部分の画像を切り出して、認識対象画像501とする。
なお、タイヤのシリアルID107は、メーカーごとにフォーマットが決まっており、本実施例では、桁数は9桁で、数字と大文字のアルファベットで構成されるものとして説明する。
タイヤに刻印されているシリアルIDなどを撮影した画像は、文字と背景のコントラストが小さかったり、タイヤ(被写体)の表面に汚れがあったりするので、文字のアウトラインを正確に検出することが困難な画像である。したがって、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る可能性が高く、その結果文字認識処理の精度が悪くなってしまう。そのため、本発明では、まず、文字が存在すると考えられる領域を探索領域として設定し、当該設定された探索領域内で、位置とサイズとを変えながら複数の切り出し領域を設定して複数の領域画像の切り出しを繰り返す。そして、切り出した複数の領域画像それぞれと辞書データ(文字画像管理部で管理される比較対象の文字画像情報)とを比較して、各領域画像に対する文字認識結果とその類似度とを求める。その後、それらの結果の中から最も類似度が高い文字認識結果とその文字認識結果を得るのに用いた切り出し領域とを、その探索領域における認識結果とする。そして、その認識結果の切り出し領域の位置をもとに、次の文字に対する探索領域を設定し、同様の処理を繰り返す。本実施例においては、認識対象画像501に含まれる9桁のシリアルID107を、1桁目(左端の文字)から順に認識していく。
1桁目の文字の探索領域502は、ガイド604〜607に基づいて切り出された認識対象画像501の左端から所定座標離れた位置に設定される。この最初の探索領域502の位置は、ガイドに収まるように撮影した場合に左端の文字が存在する可能性が高い領域として予め設定しておくものとする。そして、探索領域502内に切り出し領域505を設定して、その切り出し領域505の画像を抽出し、1桁目に出現する可能性のある文字に関する辞書データと比較して、辞書データに含まれる各文字との間の類似度を評価する。また、切り出し領域505は、探索領域502内で水平方向(x軸方向)と垂直方向(y軸方向)のそれぞれをずらした複数の位置に設定され、それぞれの位置の切り出し領域の画像について辞書データと比較して類似度を評価する。すなわち、探索領域502全体を網羅するように所定サイズの切り出し領域を複数カ所に設定して、それぞれの位置の切り出し領域の画像について辞書データとの比較を行う。その後、さらに、切り出し領域505の幅と高さを変更して、再度、探索領域502全体を網羅するように複数カ所に切り出し領域を設定して画像データを抽出して辞書データとの比較を行う。例えば、切り出し領域505の幅を3パターン、高さを2パターン変更する場合、切り出し領域505のサイズは、全部で3×2=6パターンとなる。また、切り出し領域505を、水平方向に4回、垂直方向に4回スライドさせた位置それぞれに設定した場合、探索領域502に対して、切り出し領域505を(4+1)×(4+1)=25カ所に設定することになる。切り出し領域のサイズ変更が6パターンで、設定する位置が25カ所であるので、トータルで6×25=150回、探索領域502から切り出し領域の画像を切り出すことになる。そして、画像を切り出すたびに、1桁目に出現する可能性のある文字の辞書データ(比較対象の文字画像情報)と比較し、それぞれの文字に対する類似度を評価する。
すべての切り出し領域の画像を評価した結果のうち、最も類似度が高かった文字を1桁目の認識結果として確定するとともに、その最も類似度が高かったときの切り出し領域の位置を1桁目の文字の位置とする。504は、類似度が最も高かった「B」が1桁目の文字の認識結果として確定され、そのときの切り出し位置を示すものである。
その後、次の隣接する文字(左から2番目の文字)の探索領域503を設定する。探索領域503は、1桁目の認識結果の位置504からの相対位置で設定される。2桁目の文字についても、1桁目の場合と同様に、探索領域503内で複数の切り出し領域506を設定してそれぞれについて評価を行い、最も類似度の高い文字を決定していく。3桁目以降も、同様に、探索領域の設定と、切り出し領域の設定と、辞書データとの類似比較とを順次行って、認識結果の文字を確定させていく。
なお、撮影時に左右にずれて撮影されることも考慮し、1桁目の文字に対する探索領域502はやや広めにとるのが望ましい。一方、文字間のスペースは被写体の文字列に応じて予め決まっているので、2桁目以降の文字に対する探索領域503は、探索領域502より狭めに設定してもよい。
図10は、文字画像管理部308で管理する文字画像情報(辞書データ)のデータ構造の一例である。文字画像情報リストは、複数の文字画像情報を含む。文字画像情報(文字認識辞書の辞書データ)は、各文字の文字情報(キャラクターコード)と、各文字の文字画像から抽出した特徴情報を含む。各文字の特徴情報は、例えば、HOG(Histograms of Oriented Gradients)特徴量を使用すればよいが、その他の特徴量であっても構わない。
図11は、文字認識部307により実行された文字認識処理の結果情報のデータ構造の一例である。認識結果情報は、複数の認識結果文字情報を含む。認識結果文字情報は、文字単位の認識結果に対応し、1つの認識結果文字情報に対して複数の候補文字情報を含む。本実施例のシリアルID107は9桁なので、認識結果情報は各桁に対応する9つの認識結果文字情報を含む。また、各候補文字情報は、矩形情報(各候補文字に対応する切り出し領域の位置とサイズ)と、文字情報(キャラクターコード)と、評価値とを含む。評価値は、図10の文字画像情報の特徴情報と、切り出し領域で切り出した画像から抽出した特徴情報とを比較した結果の相関係数(類似度)である。
図12は、モバイルアプリ302の文字認識部307が、タイヤを撮影した後に実行する文字認識処理の詳細を示すフローチャートである。
ステップS1201で、文字認識部307は、ガイドに基づいて撮影画像から切り出された認識対象画像501に対して、1桁目の文字の探索領域(図5の502)を設定する。
ステップS1202で、文字認識部307は、探索領域の画像を切り出す。
ステップS1203で、文字認識部307は、切り出した探索領域の画像に対して、切り出し領域の設定と、辞書データとの類似比較とを順次行って、切り出し領域の位置とそれぞれの位置における候補文字とを検出する(文字検出処理)。なお、ステップS1203の処理の詳細は、図14を用いて後述する。
ステップS1204で、最後の桁(9桁目)の文字かどうかを判断し、最後の桁の文字と判断した場合は、ステップS1207に進む。最後の桁の文字でないと判断した場合、ステップS1205に進む。
テップS1205で、文字認識部307は、図11で示した認識結果文字情報から、評価値(類似度)の最も高い候補文字情報を検索し、矩形情報(その候補文字情報に対応する切り出し領域の位置情報)を取得する。
ステップS1206で、ステップS1205で取得した矩形情報に基づいて、次の桁の探索領域を設定し、ステップS1202に進む。
ステップS1207で、文字認識部307は、情報表示部304を介して、認識結果を画面の認識結果表示領域608に表示して終了する。
図13は、図6〜8で説明したようにユーザの指示により文字認識結果を修正した後に、モバイルアプリ302で実行される処理のフローチャートである。
ステップS1301で、文字認識部307は、当該修正された文字の次の桁から最後の桁までの各文字の評価値(候補文字情報の中で最も高い評価値)の和を算出する。
ステップS1302で、文字認識部307は、修正対象の文字に対応する認識結果文字情報の中から、修正後の文字と文字情報(キャラクターコード)が一致する候補文字情報を検索する。
ステップS1303で、文字認識部307は、S1302で検索された候補文字情報に含まれる矩形情報を取得する。
ステップS1304で、文字認識部307は、S1303で取得した矩形情報(修正後の文字に対応する切り出し領域の位置情報)に基づいて、次の桁の探索領域を再設定する。
ステップS1305で、文字認識部307は、探索領域の画像を切り出す。
ステップS1306で、文字認識部307は、切り出した探索領域の画像に対して、切り出し領域の設定と、辞書データとの類似比較とを順次行って、切り出し領域の位置とそれぞれの位置における候補文字とを検出する(文字検出処理)。ステップS1306の処理の詳細は、S1203の処理と同様であり、図14を用いて後述する。
ステップS1307で、文字認識部307は、最後の桁(9桁目)の文字かどうかを判断し、最後の桁の文字と判断した場合は、ステップS1310に進み、最後の桁の文字でないと判断した場合、ステップS1308に進む。
ステップS1308で、文字認識部307は、認識結果文字情報から、評価値の最も高い候補文字情報を検索し、矩形情報を取得する。ステップS1309で、ステップS1308で取得した矩形情報から、次の桁の探索領域を設定し、ステップS1305に進む。
以上のように、S1304で再設定された探索領域に基づきS1305〜S1309の処理が再実行されるので、当該修正された文字の次の桁以降の認識結果は、図12での結果と異なる可能性がある。
ステップS1310で、文字認識部307は、S1305〜S1309の処理の結果に基づいて、修正された文字の次の桁から最後の桁までの各文字の評価値(候補文字情報の中で最も高い評価値)の和を算出する。
ステップS1311で、文字認識部307は、ステップS1310で算出した(修正後に認識処理S1305〜S1309を実行した後の)評価値の和が、ステップS1301で算出した(修正前の)評価値の和より高いか判定する。ステップS1311において、ステップS1310で算出した評価値の和の方が高いと判定した場合、ステップS1312に進む。一方、ステップS1310で算出した評価値の和の方が高くないと判定した場合はそのまま終了する。
ステップS1312で、文字認識部307は、画面の認識結果表示領域608において、当該修正された文字の次の桁から最後の桁までの認識結果を、S1305〜S1309の処理で得た候補文字を用いて更新する。
図14は、図12のステップS1203、および、図13のステップS1306の文字検出処理の詳細を示すフローチャートである。特に、切り出し領域のサイズを変えながら、探索領域内の複数の位置に切り出し領域を設定して認識処理を行う処理の詳細を示すものである。
ステップSS1401で、文字認識部307は、切り出し領域(図5の505、506)の幅を、最小値に設定し、ステップS1402に進む。
ステップS1402で、切り出し領域の幅が所定の最大値を超えたかどうかを判断する。切り出し領域の幅が最大値を超えたと判断された場合は終了する。切り出し領域の幅が最大値を超えていないと判断された場合は、ステップSS1403で、切り出し領域の高さを、最小値に設定し、ステップS1404に進む。
ステップS1404で、切り出し領域の高さが所定の最大値を超えたかどうかを判断する。切り出し領域の高さが最大値を超えたと判断された場合は、ステップS1413で、切り出し領域の幅を所定量大きくして、ステップS1402に進む。ステップS1404で、切り出し領域の高さが最大値を超えていないと判断された場合は、ステップSS1405に進む。
ステップS1405で、文字認識部307は、切り出し領域の左端のx座標を、初期値(探索領域の左端のx座標)に設定し、ステップS1406に進む。ステップS1406で、切り出し領域の右端のx座標が、探索領域の右端のx座標を超えたかどうかを判断する。切り出し領域の右端のx座標が、探索領域の右端のx座標を超えたと判断された場合は、ステップS1412で、切り出し領域の高さを所定量大きくして、ステップS1404に進む。ステップS1406で、切り出し領域の右端のx座標が、探索領域の右端のx座標を超えていないと判断された場合は、ステップSS1407で、切り出し領域の上端のy座標を、初期値(探索領域の上端のy座標)に設定し、ステップS1408に進む。
ステップS1408で、切り出し領域の下端のy座標が、探索領域の下端のy座標を超えたかどうかを判断する。切り出し領域の下端のy座標が、探索領域の下端のy座標を超えたと判断された場合は、ステップS1411で、切り出し領域をx軸方向にスライド(x座標を大きく)して、ステップS1406に進む。ステップS1408で、切り出し領域の下端のy座標が、探索領域の下端のy座標を超えていないと判断された場合は、ステップS1409で当該切り出し領域の画像に対して文字画像情報(辞書データ)との比較処理(文字認識処理)を行う。ステップS1409の処理の詳細は図15で説明する。ステップS1410で、切り出し領域をy軸方向にスライド(y座標を大きく)して、ステップS1408に進む。
図15は、図14のステップS1409の文字認識の処理の詳細なフローチャートである。
ステップS1501で、文字認識部307は、切り出し領域(図5の505、506)の画像を切り出し、ステップS1502で、画像処理部306は、当該切り出した画像から特徴情報(HOG特徴量)を抽出する。
ステップS1503で、文字認識部307は、図10で示した文字画像情報リストの先頭の文字画像情報(辞書データ)を取得する。ステップS1504で、当該取得した文字画像情報に含まれる特徴情報と、ステップS1502で抽出した特徴情報とを比較して、相関係数(類似度)を評価値として求める。
ステップS1505で、文字認識部307は、図11で示した候補文字情報を作成し、ステップS1504の比較結果の相関係数を評価値として設定する。このとき、候補文字情報の文字情報(キャラクターコード)には、文字画像情報の文字情報、矩形情報には、切り出し領域の位置とサイズを設定する。
ステップS1506で、文字認識部307は、処理中の桁の文字に関して、(図11で示した)認識結果文字情報の候補文字情報を検索し、ステップS1505で作成した候補文字情報と、文字情報が一致する候補文字情報がすでに存在するかどうかを判断する。ステップS1506で、文字情報が一致する候補文字情報が存在しないと判断された場合は、ステップS1509に進む。文字情報が一致する候補文字情報がすでに存在すると判断された場合は、ステップS1507に進む。
ステップS1507で、文字認識部307は、ステップS1505で作成した候補文字情報の評価値の方が、既に存在する候補文字情報の評価値より高いかどうかを判断する。ステップS1505で作成した候補文字情報の方が高いと判断されなかった場合は、ステップS1510に進む。ステップS1505で作成した候補文字情報の方が高いと判断された場合は、ステップS1508に進み、認識結果文字情報内に既に存在する候補文字情報を削除する。そして、ステップS1509で、ステップS1505で作成した候補文字情報を、認識結果文字情報に格納し、ステップS1510へ進む。
ステップS1510で、文字画像情報リストの最後かどうかを判断し、最後でないと判断された場合は、ステップS1511で、文字画像情報リストの次の文字画像情報を取得する。ステップS1510で、文字画像情報リストの最後と判断された場合は終了する。
図9は、本実施例の文字認識結果に対して修正処理を行った後、切り出し領域が再設定される様子の例を示した図である。
901は、撮影したタイヤのシリアルID107の画像である。この画像に対して図12の処理を実行することにより、最初の文字認識結果として図6の608に示したような結果が得られたものとする。この最初の文字認識結果902に対応する切り出し領域の位置は、903の位置であったとする。その後、図7を用いて説明したように、左から3番目の文字がユーザの指示により修正されると、当該修正後の文字に対応する矩形領域が検索され、当該修正された文字以降の桁に対して探索領域の再設定と切り出し領域の設定と認識処理とが再実行される。904、905は、それぞれ、図13で説明した処理を実行した結果の文字認識結果とその切り出し領域とを示している。最初の切り出し領域903は、3桁目の文字の切り出し領域を誤って判定した結果、4桁目以降の切り出し領域も不正になったため、文字認識結果も誤っている。そして、ユーザが3桁目の修正を行うと、図13の処理が実行され、その結果、修正後の切り出し領域905では4桁目以降も修正される。
以上述べたように、ユーザが認識結果を修正すると、当該修正された文字以降の文字について、探索領域の再設定と、当該再設定された探索領域内での切り出し領域の設定とを再度実行して、認識結果の修正を行う。したがって、1つの文字の誤認識に伴って生じていたそれ以降の文字の誤認識についても、当該1つの文字が修正されるとそれ以降の文字の誤認識についても修正されることになる。よって、ユーザが認識結果の誤りを修正する負担を軽減することができる。また、修正した文字に続くすべての文字の修正前の評価値と、修正後の評価値とを比較して、修正後の評価値が高かった場合に修正後の認識結果を画面に反映するため、修正前の認識結果より悪い認識結果で、画面を更新することを防ぐようにもしている。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (5)

  1. 認識対象画像に対して、探索領域を設定する第1の設定手段と、
    前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定手段と、
    前記第2の設定手段によって設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の最も高い候補文字情報を認識結果として出力する文字検出手段と、を有し、
    前記第1の設定手段が、さらに、前記文字検出手段で出力された前記認識結果に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定手段と前記文字検出手段とによる処理が繰り返し実行されることを特徴とする情報処理装置。
  2. 前記文字検出手段で出力された前記認識結果を表示する表示手段と、
    ユーザの指示に基づいて、前記表示手段で表示された認識結果の修正を実行する修正手段と、
    前記修正手段での修正後の文字に対応する切り出し領域の位置情報を取得する取得手段と、
    を更に有し、
    前記取得手段で取得された位置情報に基づいて、前記第1の設定手段が、当該修正後の文字の次の文字に対する探索領域を再設定することにより、当該再設定された探索領域に基づいて、前記第2の設定手段と前記文字検出手段とによる処理が実行される
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記修正後の文字の次の文字に対する探索領域を再設定することにより、当該再設定された探索領域に基づいて、前記第2の設定手段と前記文字検出手段とによる処理が実行された結果の評価値と、修正前の評価値とを比較して、前記修正後の文字の次の文字の認識結果を修正するか否か判断することを特徴とする請求項2に記載の情報処理装置。
  4. コンピュータを、請求項1乃至3のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
  5. 認識対象画像に対して、探索領域を設定する第1の設定ステップと、
    前記探索領域内の複数カ所に、切り出し領域を設定する第2の設定ステップと、
    前記第2の設定ステップで設定された前記複数の切り出し領域それぞれに対応する画像を抽出し、当該抽出した各画像と辞書データとの比較を行うことにより、候補文字情報と当該候補文字に対応する切り出し領域の位置情報とを検出し、当該検出された候補文字情報の中から評価値の最も高い候補文字情報を認識結果として出力する文字検出ステップと、を有し、
    前記第1の設定ステップで、さらに、前記文字検出手段で出力された前記認識結果に対応する切り出し領域の位置情報に基づいて、次の文字に関する探索領域を設定することにより、前記第2の設定ステップと前記文字検出ステップとにおける処理が繰り返し実行されることを特徴とする情報処理方法。
JP2016045469A 2016-03-09 2016-03-09 情報処理装置、プログラム、情報処理方法 Pending JP2017162148A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016045469A JP2017162148A (ja) 2016-03-09 2016-03-09 情報処理装置、プログラム、情報処理方法
US15/451,789 US10134138B2 (en) 2016-03-09 2017-03-07 Information processing apparatus, computer-readable storage medium, information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016045469A JP2017162148A (ja) 2016-03-09 2016-03-09 情報処理装置、プログラム、情報処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021045907A Division JP2021093225A (ja) 2021-03-19 2021-03-19 情報処理装置、プログラム、情報処理方法

Publications (2)

Publication Number Publication Date
JP2017162148A true JP2017162148A (ja) 2017-09-14
JP2017162148A5 JP2017162148A5 (ja) 2019-04-18

Family

ID=59786781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016045469A Pending JP2017162148A (ja) 2016-03-09 2016-03-09 情報処理装置、プログラム、情報処理方法

Country Status (2)

Country Link
US (1) US10134138B2 (ja)
JP (1) JP2017162148A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
CN108846846A (zh) * 2018-07-24 2018-11-20 佛山市所能网络有限公司 一种基于计算机的图像处理方法
GB2580675A (en) * 2019-01-23 2020-07-29 Wheelright Ltd Tyre sidewall imaging method

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04241690A (ja) * 1991-01-16 1992-08-28 Fuji Electric Co Ltd 誤読文字の修正方法
JPH07271921A (ja) * 1994-03-28 1995-10-20 Matsushita Electric Ind Co Ltd 文字認識装置および文字認識方法
JPH0830731A (ja) * 1994-07-15 1996-02-02 Daikin Ind Ltd 文字列確認方法およびその装置
JPH08153164A (ja) * 1994-09-29 1996-06-11 Nippon Steel Corp 手書き文字認識方法及び装置
JP2001243422A (ja) * 2000-02-28 2001-09-07 Mitsubishi Electric Corp 文字認識装置及び文字認識方法
JP2003178257A (ja) * 2001-12-07 2003-06-27 Sharp Corp 文字入力装置、文字入力方法および文字を入力するためのプログラム
JP2004118491A (ja) * 2002-09-26 2004-04-15 Fuji Photo Film Co Ltd 印刷の読取方法
JP2006134360A (ja) * 1994-06-10 2006-05-25 Ns Solutions Corp 手書き文字入力装置
JP2008097590A (ja) * 2006-09-13 2008-04-24 Keyence Corp 文字切り出し装置、方法およびプログラム
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection
US20120114241A1 (en) * 2006-06-29 2012-05-10 Google Inc. Using extracted image text

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143983A (ja) 1997-11-13 1999-05-28 Toshiba Corp 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
EP2339534A1 (en) * 2009-11-18 2011-06-29 Panasonic Corporation Specular reflection compensation
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
JP2012027723A (ja) * 2010-07-23 2012-02-09 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
US20150284786A1 (en) * 2014-04-04 2015-10-08 Affymetrix, Inc. Compositions and Methods for Molecular Inversion Probe Assays

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04241690A (ja) * 1991-01-16 1992-08-28 Fuji Electric Co Ltd 誤読文字の修正方法
JPH07271921A (ja) * 1994-03-28 1995-10-20 Matsushita Electric Ind Co Ltd 文字認識装置および文字認識方法
JP2006134360A (ja) * 1994-06-10 2006-05-25 Ns Solutions Corp 手書き文字入力装置
JPH0830731A (ja) * 1994-07-15 1996-02-02 Daikin Ind Ltd 文字列確認方法およびその装置
JPH08153164A (ja) * 1994-09-29 1996-06-11 Nippon Steel Corp 手書き文字認識方法及び装置
JP2001243422A (ja) * 2000-02-28 2001-09-07 Mitsubishi Electric Corp 文字認識装置及び文字認識方法
JP2003178257A (ja) * 2001-12-07 2003-06-27 Sharp Corp 文字入力装置、文字入力方法および文字を入力するためのプログラム
JP2004118491A (ja) * 2002-09-26 2004-04-15 Fuji Photo Film Co Ltd 印刷の読取方法
US20120114241A1 (en) * 2006-06-29 2012-05-10 Google Inc. Using extracted image text
JP2008097590A (ja) * 2006-09-13 2008-04-24 Keyence Corp 文字切り出し装置、方法およびプログラム
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
太田貴大 外1名: "局所特徴を用いた認識に基づく文字切出し", 電子情報通信学会論文誌D, vol. 95, no. 4, JPN6020010981, 1 April 2012 (2012-04-01), pages 1004 - 1013, ISSN: 0004238797 *

Also Published As

Publication number Publication date
US20170262999A1 (en) 2017-09-14
US10134138B2 (en) 2018-11-20

Similar Documents

Publication Publication Date Title
JP7102103B2 (ja) 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
US9298365B2 (en) Storage medium, information processing apparatus and character recognition method
US11113556B2 (en) Information processing apparatus, program, and method that display correction candidate character for selected character based on found character string from master data
JP2018088116A (ja) 情報処理装置、プログラム、情報処理方法
US20160078291A1 (en) Image data processing method and electronic device supporting the same
EP3518522B1 (en) Image capturing method and device
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US10643095B2 (en) Information processing apparatus, program, and information processing method
US10586099B2 (en) Information processing apparatus for tracking processing
JP2017162148A (ja) 情報処理装置、プログラム、情報処理方法
US10872263B2 (en) Information processing apparatus, information processing method and storage medium
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US9805245B2 (en) Image resolution recognition device, method for recognizing image resolution and image resolution recognition program
JP7027043B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2017199288A (ja) 画像処理装置、画像処理方法及びプログラム
JP2021093225A (ja) 情報処理装置、プログラム、情報処理方法
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
JP2021064236A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2018180746A (ja) 情報処理装置
JP6833324B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2018010528A (ja) 情報処理装置、情報処理方法
JP2018180606A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190308

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201023

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201222