JP2018173818A - 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム - Google Patents

携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム Download PDF

Info

Publication number
JP2018173818A
JP2018173818A JP2017071529A JP2017071529A JP2018173818A JP 2018173818 A JP2018173818 A JP 2018173818A JP 2017071529 A JP2017071529 A JP 2017071529A JP 2017071529 A JP2017071529 A JP 2017071529A JP 2018173818 A JP2018173818 A JP 2018173818A
Authority
JP
Japan
Prior art keywords
character
image
candidate
evaluation value
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017071529A
Other languages
English (en)
Other versions
JP2018173818A5 (ja
Inventor
雄弘 和田
Takehiro Wada
雄弘 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017071529A priority Critical patent/JP2018173818A/ja
Publication of JP2018173818A publication Critical patent/JP2018173818A/ja
Publication of JP2018173818A5 publication Critical patent/JP2018173818A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for recognising patterns
    • G06K9/62Methods or arrangements for pattern recognition using electronic means
    • G06K9/6201Matching; Proximity measures
    • G06K9/6215Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for recognising patterns
    • G06K9/62Methods or arrangements for pattern recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6262Validation, performance evaluation or active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/133Evaluation of quality of the acquired characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

【課題】カメラ機能を有するモバイル端末を用いて、被写体上の文字を読み取る場合において、OCRに適した画像を短時間で取得する。【解決手段】カメラを備えた携帯型の情報処理装置であって、被写体上の文字列を前記カメラで撮影して動画像を取得する取得手段と、前記動画像を構成するフレーム毎に、前記文字列を構成する文字のそれぞれについて、文字認識のための探索領域を設定する設定手段と、前記探索領域の中から候補文字を検出する検出手段と、検出された候補文字の確からしさを表わす評価値が安定しているか判定する第1の判定手段と、前記評価値が安定していると判定された後に取得された前記動画像のフレームを出力する出力手段と、を備えたことを特徴とする。【選択図】図8

Description

本発明は、携帯型の情報処理装置における文字認識技術に関する。
近年、スマートフォンやタブレットといったカメラを搭載した携帯型のデバイス(以下、「モバイル端末」と呼ぶ。)は一般的なものになってきた。例えば紙文書を電子化する際には、従来はスキャナなどを利用していたが、モバイル端末のカメラを利用することで簡単に紙文書を電子化することが出来るようになった。例えば特許文献1は、低解像度のカメラを利用して取り込んだ静止画像に対して文字認識処理(OCR)を実施するための技術を開示している。
また、昨今のモバイル端末のカメラには動画撮影機能が備わっている。スキャナを用いて画像を取り込む場合に比べ、モバイル端末を手持ちで動画撮影して画像を取り込む場合は、撮影環境の変化の影響を受けやすい。具体的には、手ぶれによって画像細部のピントのボケが生じたり、フレーム毎に照明の当たり具合が微妙に変化するなどして、得られた画像は文字認識に適さない場合がある。この点、特許文献2は、動画撮影の間にOCRを繰り返し行い、出現率が予め定めた基準値を超えた認識結果を採用して文字を確定することで、OCRの精度を高める技術を開示している。
特開2011−008802号公報 特開2013−161277号公報
しかしながら、撮影環境や被写体によっては、得られた動画像を構成するフレーム(静止画像)中にOCRに適さない画像が高い頻度で含まれることになる。このような場合、上記特許文献2の出現率に基づき文字を確定する技術では、基準値とする出現率に達するまでに時間がかかってしまう。例えば、辞書データの中から類似する程度の近い複数の文字候補が見つかってしまうようなケースでは、フレーム間のちょっとした差異により文字認識結果が変化しやすい。そうなると、被写体上の全ての文字についての文字認識結果が確定するまで長い時間を要することになり、その間、ユーザはモバイル端末を動かさずに撮影を続けなければならなくなる。これではユーザの負担が大きいし、精度の良い文字認識結果は期待できない。そこで本発明は、カメラ機能を有するモバイル端末を用いて、被写体上の文字を読み取る場合において、OCRに適した画像を短時間で取得することを目的とする。
本発明に係る情報処理装置は、カメラを備えた携帯型の情報処理装置であって、被写体上の文字列を前記カメラで撮影して動画像を取得する取得手段と、前記動画像を構成するフレーム毎に、前記文字列を構成する文字のそれぞれについて、文字認識のための探索領域を設定する設定手段と、前記探索領域の中から候補文字を検出する検出手段と、検出された候補文字の確からしさを表わす評価値が安定しているか判定する第1の判定手段と、前記評価値が安定していると判定された後に取得された前記動画像のフレームを出力する出力手段と、を備えたことを特徴とする。
本発明によれば、カメラ機能を有するモバイル端末を用いて被写体上の文字を読み取る場合において、OCRに適した画像を短時間で得ることができる。
モバイル端末の外観の一例を示す図 モバイル端末のハードウェア構成の一例を示す図 モバイル端末のソフトウェア構成の一例を示す図 モバイルアプリのUI画面の一例を示す図 文字画像の一例を示す図 文字画像リストのデータ構造の一例を示す図 一文字毎に文字単位領域を決定する様子を説明する図 文字読取処理の流れを示すフローチャート 候補文字検出結果のデータ構造の一例を示す図 候補文字検出処理の詳細を示すフローチャート マッチング判定処理の詳細を示すフローチャート 評価値の一例を示す図 文字認識範囲の具体例を示す図 安定状態判定処理の詳細を示すフローチャート 候補文字テーブルの一例を示す図
以下、本発明を実施するための形態について図面を用いて説明する。なお、実施形態は、本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するための手段に必須であるとは限らない。
本実施形態に係る、カメラ機能を有する携帯可能な情報処理装置としては、いわゆるタブレットPCやスマートフォンに代表される、カメラ付きのモバイル端末が想定される。カメラ付きのモバイル端末は無線通信機能を備えており、自由な場所で撮影やデータ通信などができる。
図1は、モバイル端末の外観の一例を示す図である。図1(a)は、表示手段としてのタッチパネル101があるモバイル端末100の表側(正面)を示している。タッチパネル101は、例えば静電容量式のLCD等で構成され、情報の出力(表示)と入力との2つの機能を備えている。図1(b)は、モバイル端末100の裏側(背面)を示している。モバイル端末100の背面には、画像を取り込むための撮像用レンズ(以下、「レンズ」)102を備える。本実施例では、モバイル端末100のモバイルアプリケーション(以下、「モバイルアプリ」)を使って撮影し、被写体上の文字を読み取る場合を例に説明するものとする。図1(c)は被写体の一例としてのタイヤを示している。タイヤ105には、タイヤを一意に識別するための記号であるシリアルID(シリアルナンバーもしくはセリアルナンバーともいう)が刻印されている。刻印部分の拡大図106から、シリアルID107として「S7Y004790」の文字列が刻印されていることが分かる。本実施例では、このシリアルID107の部分を、モバイル端末100のカメラ機能を用いて撮影することにより、シリアルID107を構成する各文字の情報を電子化する。後述のモバイルアプリは、被写体を動画モードで撮影しながら文字の読み取りに適したフレーム(静止画像)を取得し、当該取得した静止画像を任意の出力先に出力することができる。
<ハードウェア構成>
続いて、モバイル端末100のハードウェア構成について説明する。図2は、モバイル端末100のハードウェア構成の一例を示す図である。モバイル端末100は、CPU201、RAM202、ROM203、入出力I/F204、NIC205、カメラ部206、加速度/ジャイロセンサ207で構成され、これら各部はバス208で相互に接続されている。
CPU201は、各種のプログラムを実行して、様々な機能を実現する演算処理装置である。RAM202は、各種の情報を記憶する読み書き可能なメモリである。また、RAM202は、CPU201のワークエリアとしても利用される。ROM203は、OSや上述の撮影アプリ等の各種プログラムを記憶するメモリである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。また、CPU201は、フラッシュメモリ、HDD、SSDといった外部記憶装置(不図示)に記憶されているプログラムをRAM202に読み込んで実行することもできる。なお、モバイル端末100の機能及び後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。
入出力I/F204は、タッチパネル101に対して表示データを出力したり、タッチパネル101からの入力情報を受け付けるインタフェースである。NIC(Network Interface Card)205は、モバイル端末100をネットワーク(不図示)に接続するためのインタフェースである。カメラ部206は、レンズ102を介して撮影した被写体の動画像をモバイル端末100に取り込む。バス208は、上述した各部を繋ぐデータ通信路である。加速度/ジャイロセンサ207は、モバイル端末100の姿勢情報を検出するセンサである。
<ソフトウェア構成>
次に、モバイル端末100におけるソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。モバイル端末100のソフトウェアは、データ管理モジュール300とモバイルアプリ310で構成される。そして、モバイルアプリ310は、メイン制御、表示制御、操作情報取得、画像処理、文字認識の各機能に対応する複数のモジュール311〜315、及び文字画像DB316で構成される。これら各モジュールに相当するプログラム等は、ROM203等に記憶されている。
データ管理モジュール300は、画像データやモバイルアプリ310における処理データ(アプリデータ)などを管理する。モバイルアプリ310は、不図示のOSが提供する制御API(Application Programming Interface)を利用することで、データ管理モジュール300が管理する画像データやアプリデータの取得や保存を行う。
ユーザは、モバイル端末100のOSのインストール機能を利用することによって、モバイルアプリ310のダウンロードとインストールが可能である。モバイルアプリ310は、カメラ部206を介して取り込んだ画像データに対して各種の処理を行う。
メイン制御モジュール311は、モバイルアプリ310を統括的に制御するモジュールであり、各モジュール312〜315及び文字画像DB316に対する指示及び管理を行う。
表示制御モジュール312は、メイン制御モジュール311からの指示に従い、モバイルアプリ310のユーザインタフェース用画面(UI画面)を提供する。図4は、モバイルアプリ310のUI画面の一例を示す図である。UI画面400は、モバイル端末100のタッチパネル101に表示される。UI画面400の表示・操作領域401にはカメラ部206を介して取り込んだ画像が表示され、ユーザは当該画像に対して各種操作を行うことができる。
操作情報取得モジュール313は、上記UI画面400を介したユーザ操作に係る入力情報を取得し、取得した入力情報をメイン制御モジュール311に渡す。例えば、表示・操作領域401をユーザが手で触れると、操作情報取得モジュール313は、触れられたUI画面400上の位置を検知し、当該検知した位置の情報をメイン制御モジュール311に送信する。シャッターボタン402は、カメラ部206から入力された画像を、RAM202やデータ管理モジュール300に保存するためのボタンである。ズームボタン403は、表示画像の拡縮を行うためのボタンである。シリアルID107を囲むように表示された4つの鉤形の記号404〜407は、文字読取処理の対象領域として撮影すべき位置の目安となるガイドである。このガイドの位置は可変であり、ユーザは読取対象の文字列に応じて任意に変更することができる。ユーザは、読取対象となるシリアルID107を4つのガイド404〜407によって形成される矩形の領域内に収まるように撮影位置を調整して被写体であるタイヤ105を撮影する。図4の例では、シリアルID107の直下の領域408に、文字の読取結果が表示されている。このとき、文字の読取結果が誤っているとユーザは、領域408の中の修正対象の文字部分をタッチして、文字読取結果の修正を行うことができる。なお、モバイルアプリ310のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図示するものに限定されないことはいうまでもない。
画像処理モジュール314は、カメラ部206を介して取り込まれた撮影画像に対して、グレイスケール変換やエッジ抽出、特徴量抽出といった、文字読取処理を行うために必要な画像処理を行う。この画像処理によって、被写体のうち文字読取処理の対象となる部分の画像(以下、「読取対象画像」)が生成される。
文字認識モジュール315は、画像処理モジュール314で生成された読取対象画像に対し、文字読取処理を行う。具体的には、読取対象画像内に文字が存在すると推定される領域(探索領域)を設定し、その中から当該文字の外接矩形となり得る領域をサイズと位置を変えて切り出し、当該切り出した領域(文字単位領域)に対し文字画像リストを用いたマッチング判定を行なう。文字画像リストとは、マッチング判定において比較対象として使用する文字画像の集合であり、いわゆる辞書データに相当する。図5に、数字の文字画像を一例として示す。文字画像は、対象被写体(ここではタイヤに刻印されたシリアルID107)で使用されている全ての文字種についてそれぞれ用意される。すなわち、本実施例の場合、図5に示す「0〜9」の10個の文字画像501〜510に加え、大文字のアルファベット「A〜Z」の26個の文字画像(不図示)のデータが予め用意されることになる。図6は、文字画像リストのデータ構造の一例を示す図である。文字画像リストは、複数の文字画像についてのデータがツリー構造になっている。各文字画像のデータは、各文字を識別するキャラクターコードと、各文字の文字画像から抽出した特徴情報とで構成される。特徴情報としては、例えば、HOG特徴量が挙げられる。HOG(Histograms of Oriented Gradients)とは局所領域の輝度の勾配方向をヒストグラム化したものである。各文字画像のデータは上述の例に限定されず、例えば特徴情報は、タイヤに刻印されている文字のフォントに基づいて作成された各文字の特徴を示す情報であってもよい。さらには、各文字の画像そのものを辞書データとしてもよい。どのような辞書データを用いるかは、マッチング判定対象の文字単位領域の画像と辞書データとを照合する際に用いるアルゴリズムに応じたものとすればよい。マッチング判定によって、文字画像リストの中から最も類似すると評価された文字画像に係る文字がマッチング判定に用いた文字単位領域と紐付けられて、各文字の最有力候補文字に決定される。読取対象画像内のすべての文字について最有力候補文字が決定し、複数フレームで安定して同じ結果が得られることが確認できると、OCRに適した静止画像(フレーム)が取得・保存される。
文字画像DB316は、文字認識モジュール315がマッチング判定時に使用する上述の文字画像リストを管理するデータベースである。
<モバイルアプリの動作>
次に、本実施例のモバイルアプリ310による被写体上の文字列の読み取り動作について詳しく説明する。図7(a)〜(d)は、文字列の読み取り過程において、一文字毎に上述の文字単位領域を決定する様子を説明する図である。図7(a)において、矩形701は、カメラ部206を介して取り込まれた撮影画像から抜き出された読取対象画像の外郭を示している。前述の通り、ユーザは、モバイルアプリ310のUI画面400に提示されたガイド404〜407に、シリアルID107がちょうど納まるように撮影位置を調整して、被写体であるタイヤ105を撮影する。モバイルアプリ310は、撮影された画像から、ガイド404〜407で囲まれた部分を抜き出して、読取対象画像を生成する。なお、一般的にはタイヤのシリアルIDはメーカごとにフォーマットが決まっており、本実施例では、桁数は9桁で、数字と大文字のアルファベットの2種類の文字で構成されるものとして説明する。
本実施例のようにタイヤに刻印されているシリアルIDなどを撮影した画像の場合、文字と背景とのコントラストが小さかったり、その表面に汚れがあったりするので、文字のアウトラインを正確に検出することが困難である。したがって、文字のアウトラインに基づいて文字を切り出す従来の技術を適用すると、文字の切り出し位置を誤る可能性が高く、その結果、文字認識精度が悪くなってしまう。そのため、本実施例では、まず、文字が存在すると考えられる領域を探索領域として一文字ずつ設定し、当該設定された探索領域内で、切り出し位置とサイズとを変えながら前述の文字単位領域を設定する。そして、探索領域内から切り出した各文字単位領域の画像に対し、文字画像リスト内の各文字画像のデータを用いたマッチング判定を行って、各文字単位領域の画像と各文字画像との類似度を求める。すべての文字単位領域について類似度を得た後、その中から最も類似度が高かった文字画像に係る文字とそのマッチング判定に用いた文字単位領域とを対応付けて、その探索領域における認識結果とする。そして、マッチング判定が終了した探索領域の認識結果における文字単位領域の位置をもとに、次の文字に対する探索領域を設定し、以後、同様の処理を繰り返す。本実施例においては、タイヤの撮影画像から抜き出された読取対象画像701に含まれる9桁のシリアルID107を、1桁目(左端の文字)から順に処理していく。以下、時系列に沿って図7(a)〜(d)を参照しつつ説明する。
まず、1桁目の文字の探索領域702が、ガイド404〜407に従った読取対象画像701の左端から所定の距離だけ離れた位置に設定される。この最初の探索領域702の位置は、4つのガイドで形成される矩形内に収まるように撮影した場合において左端の文字が存在する可能性が高い領域として、当該探索領域の四隅を特定する位置座標を用いて予め設定しておくものとする。そして、探索領域702内に所定の切り出し位置に文字単位領域703を設定してその画像を抽出し、1桁目に出現する可能性のある文字に関する各文字画像と比較して、各文字画像に係る文字との間の類似度を求める。このとき、文字単位領域703は、探索領域702内で水平方向(x軸方向)と垂直方向(y軸方向)のそれぞれを少しずつずらした複数の位置に設定される。そして、それぞれの切り出し位置における文字単位領域の画像について文字画像リストを用いたマッチング判定が行われ、各文字画像との類似度が導出される。すなわち、探索領域702全体を網羅するように所定サイズの文字単位領域を異なる位置に複数設定して、位置毎に辞書データとの比較を行う。その後、さらに、文字単位領域703の幅と高さを変更し、再度、探索領域702全体を網羅するように異なる切り出し位置で文字単位領域703を設定して、文字画像とのマッチング判定を行う。例えば、文字単位領域703の幅を3パターン、高さを2パターン変更する場合、文字単位領域703のサイズは、全部で3×2=6パターンとなる。また、文字単位領域703の切り出し位置を、水平方向に4回、垂直方向に4回スライドさせて設定する場合、探索領域702に対して、文字単位領域703を(4+1)×(4+1)=25カ所に設定することになる。文字単位領域のサイズが6パターン、設定する切り出し位置が25カ所であればトータルで150回、探索領域702から文字単位領域の画像が切り出されることになる。そして、文字単位領域の画像を切り出す度に、1桁目に出現する可能性のある文字について文字画像リストを用いてマッチング判定を行い、各文字画像との類似度が求められる。
探索領域内のすべての文字単位領域についてマッチング判定を行った後、最も類似度が高かった文字画像に係る文字が、1桁目の認識結果(最有力候補文字)として確定される。そして、その最も類似度が高かった文字単位領域の切り出し位置を、1桁目の文字の位置とする。図7(c)は、類似度が最も高かった文字画像の文字としてアルファベット「S」が1桁目の認識結果として確定されたこと、及びそのときの文字単位領域の切り出し位置を矩形704で示している。
1桁目の認識結果が確定すると、その右側の隣接する文字(左から2桁目の文字)についての探索領域705が設定される。この場合の探索領域705は、その一文字前である1桁目の文字の位置704に基づく所定の相対位置に設定される。2桁目の文字についても、1桁目の文字の場合と同様に、探索領域705内で切り出し位置を変えて文字単位領域706を設定してそれぞれについてマッチング判定(類似度の導出)を行い、最も類似度が高かった文字画像に係る文字を、2桁目の文字についての認識結果として決定する。3桁目以降も同様に、探索領域の設定、文字単位領域の設定、文字画像リストを用いたマッチング判定を順次行って、一文字ずつ認識結果を確定させていく。
なお、撮影時に左右にずれることを考慮し、最初に検出する文字に対する探索領域702はやや広めにとるのが望ましい。一方、文字間のスペースは読取対象の文字列に応じて予め決まっているのが通常である。したがって、二文字目以降の文字に対する探索領域705は、最初の文字に対する探索領域702より狭めに設定してもよい。また、本実施例で示した文字単位領域の切り出し方は一例であり、複数の異なる切り出し位置から文字単位領域を切り出した上で、一文字ずつ認識結果を決定することができればよい。
<文字読取処理>
続いて、モバイル端末100を用いた手持ち撮影により、被写体上の文字を読み取る処理の詳細について説明する。図8は、本実施例に係る、文字読取処理の流れを示すフローチャートである。本フローは、例えばユーザがモバイルアプリ310を起動させることをトリガーに開始する。
ステップ801では、後述のステップ807における判定処理で使用する判定係数が設定される。ステップ807の判定処理は、読取対象画像内の文字認識に適した所定範囲(以下、文字認識範囲)の内側に、文字単位領域が収まっているかどうかを判定する処理である。この判定処理及び判定係数の詳細については後述する。
ステップ802では、前述のガイドに従って動画モードで撮影された1フレーム分の読取対象画像が取得される。なお、この動画モード撮影時のフレームレートは例えば30fps程度である。続くステップ803では、後述の安定状態判定処理(ステップ809)の判定結果に応じて処理の切り分けがなされる。安定状態判定処理の詳細については後述する。安定状態にあるとの判定結果が出ている場合は、ステップ810に進む。一方、安定状態にあるとの判定結果が出ていない場合は、ステップ804に進む。処理開始直後の段階では、安定状態判定処理そのものが未実行なので、必ずステップ804に進むことになる。
ステップ804ではステップ802で取得した読取対象画像に含まれる文字列(読取対象文字列)内の注目する文字について、前述の探索領域が設定される。ここでは、読取対象文字列の1桁目の文字を最初の注目する文字とするので、処理開始直後の段階では1桁目の文字についての探索領域が設定されることになる。
ステップ805では、設定された探索領域を対象に、文字単位領域の設定、辞書データを用いたマッチング判定を順次行って、注目する文字についての認識結果の候補となる文字を検出する処理(候補文字検出処理)が実行される。この候補文字検出処理によって、図9に示すようなデータ構造の候補文字検出結果が得られる。本実施例の場合は、探索領域毎にそれぞれ150個の文字単位領域についてマッチング判定が実施され、候補文字として見つかった文字数に応じた第N候補(N>1)までの候補文字情報が得られる。9桁のシリアルIDを読取対象文字列とする本実施例の場合、各桁に対応して「探索領域_1」〜「探索領域_9」までの情報が得られることになる。各候補文字情報は、矩形情報、コード情報及び評価値情報で構成される。矩形情報は、見つかった候補文字に対応する文字単位領域の切り出し位置を特定する座標情報、及び、当該文字単位領域のサイズ情報からなる。コード情報は見つかった候補文字のキャラクターコードの情報である。評価値情報は、見つかった候補文字の確からしさを表わす情報であって、本実施例では辞書データ内の文字画像とどれだけ類似しているかを示す度合い(類似度)を評価値とする。
≪候補文字検出処理≫
図10は、上述の候補文字検出処理の詳細を示すフローチャートである。以下、図10のフローに沿って説明する。
ステップ1001では、文字単位領域の幅が、初期値(ここでは最小値)に設定される。続くステップ1002では、文字単位領域の幅が限界値に到達したか(ここでは最大値を超えたか)が判定される。文字単位領域の幅が最大値を超えたと判定された場合は、本処理を終了する。一方、文字単位領域の幅が最大値を超えていないと判定された場合は、ステップ1003に進む。
ステップ1003では、文字単位領域の高さが、初期値(ここでは最小値)に設定される。続くステップ1004では、文字単位領域の高さが限界値に到達したか(ここでは最大値を超えたか)が判定される。文字単位領域の高さが最大値を超えたと判定された場合は、ステップ1013にて文字単位領域の幅が更新(ここでは所定量大きくする)され、ステップ1002に戻って処理が続行される。一方、文字単位領域の高さが最大値を超えていないと判定された場合は、ステップ1005に進む。
ステップ1005では、文字単位領域の基準となるx座標(ここでは左端のx座標)が、初期値(ここでは探索領域の左端のx座標)に設定される。続くステップ1006では、文字単位領域の幅が探索領域の幅を超えたかが判定される。具体的には、文字単位領域の右端のx座標が、探索領域の右端のx座標を超えたかどうかが判定される。文字単位領域の幅が、探索領域の幅を超えたと判定された場合は、ステップ1012にて文字単位領域の高さが更新(ここでは所定量大きくする)され、ステップ1004に戻って処理が続行される。一方、文字単位領域の幅が探索領域の幅を超えていないと判定された場合は、ステップ1007に進む。
ステップ1007では、文字単位領域の基準となるy座標(ここでは上端側のy座標)が、初期値(ここでは探索領域の上端側のy座標)に設定される。続くステップ1008では、文字単位領域の高さが探索領域の高さを超えたかが判定される。具体的には、文字単位領域の下端側のy座標が、探索領域の下端側のy座標を超えたかどうかが判定される。文字単位領域の高さが、探索領域の高さを超えたと判定された場合は、ステップ1011にて文字単位領域の基準となるx座標が更新(ここではx座標を大きくすることでx軸方向にスライド)され、ステップ1006に戻って処理が続行される。一方、文字単位領域の高さが探索領域の高さを超えていないと判定された場合は、ステップ1009に進む。
ステップ1009では、現在設定されている文字単位領域の画像に対して、各文字画像とのマッチング判定が実行される。このマッチング判定の詳細については別途フローを参照して説明する。マッチング判定が完了すると、ステップ1010にて文字単位領域の基準となるy座標が更新(ここではy座標を大きくすることでy軸方向にスライド)され、ステップ1008に戻って処理が続行される。
以上のようにして、文字単位領域のサイズを変えながら、探索領域内の複数の切り出し位置に文字単位領域を設定してマッチング判定を行うことで、注目する文字についての候補文字が特定されることになる。なお、上述の説明において、最小値と最大値、左端側と右端側、上端側と下端側といった対の関係にある部分については、それぞれを入れ替えてもよい。例えば、ステップ1001で初期値として最大値を設定してもよく、この場合には、ステップ1002における限界値を最小値にすればよい。これによっても同様の結果を得ることができる。
≪マッチング判定≫
続いて、上述のステップ1009におけるマッチング判定について説明する。図11は、マッチング判定処理の詳細を示すフローチャートである。
ステップ1101では、所定の文字単位領域の画像が探索領域から切り出される。続くステップ1102では、当該切り出された文字単位領域の画像から特徴情報(ここではHOG特徴量)が抽出される。そして、ステップ1103では、前述の文字画像リストの中から先頭の文字画像(図7の例では、「文字画像_1」)のデータが取得される。
ステップ1104では、ステップ1103で取得した文字画像のデータに含まれる特徴情報と、ステップ1102で文字単位領域の画像から抽出した特徴情報とが比較され、両者が類似する程度を表す相関係数が評価値として求められる。図12の(a)と(b)は、図1に示したタイヤ105上の文字列107について得られた、異なるフレームにおける評価値の一例を示す図である。照明などの撮影条件の僅かな変化や、文字単位領域の切り出し位置やサイズの違いに依って、得られる評価値はフレーム間で異なるものとなる。
そして、比較を行った文字画像のキャラクターコードと、ステップ1104で求めた評価値(類似度)の情報を含む候補文字情報が、ステップ1101で切り出された文字単位領域について作成される。
ステップ1106では、処理中の注目する文字に関して、作成された候補文字情報に係るキャラクターコードと同じキャラクターコードを有する候補文字情報が既に存在するかが判定される。すなわち、一致するキャラクターカードの候補文字情報が前述の図9における第1候補文字情報や第2候補文字情報として検出済みか否かがチェックされる。キャラクターコードが一致する候補文字情報が既に存在している場合は、ステップ1107に進む。一方、キャラクターコードが一致する候補文字情報が存在しない場合は、ステップ1109に進む。
ステップ1107では、ステップ1105で作成した候補文字情報の評価値と、既に存在する候補文字情報の評価値とを比較し、いずれが高いかが判定される。判定の結果、既に存在する候補文字情報の評価値の方が低い(ステップ1105で作成した候補文字情報の評価値の方が高い)場合は、ステップ1108に進む。一方、既に存在する候補文字情報の評価値の方が高い場合は、ステップ1110に進む。
ステップ1008では、既に存在する候補文字情報の内容が更新される。具体的には、既に存在する第N候補文字情報の矩形情報と評価位置情報の中身を、ステップ1105で作成した候補文字情報の内容で上書きする。また、ステップ1109では、ステップ1105で作成した候補文字情報が、新たな第N候補文字情報として保持(RAM202に格納)される。
そして、ステップ1110では、文字画像リストにある全ての文字画像との比較が完了したかどうか(文字画像リストの最後に到達したか)が判定される。未処理の文字画像がある場合は、ステップ1111に進む。そして、文字画像リスト内にある次の文字画像データが取得され、ステップ1104に戻って処理が続行される。一方、文字画像リストにある全ての文字画像との比較が完了していれば、本処理を終了する。以上が、マッチング判定処理の内容である。
文字読取処理(図8のフロー)の説明に戻る。
ステップ806では、候補文字検出処理の結果に基づき、ステップ804で設定された探索領域についての最有力候補文字が決定される。具体的には、第1〜第Nまでの候補文字の中から評価値(類似度)の最も高い候補文字が、最有力候補文字に決定される。そして、ステップ807では、ステップ806で決定した最有力候補文字の候補文字情報に含まれる矩形情報に基づき、当該最有力候補文字の文字単位領域が文字認識範囲の内側に収まっているかが判定される。このような判定を行う理由は以下のとおりである。
モバイル端末の手持ちによる動画モード撮影で得られる各フレームの画像には、手ぶれによるボケや照明の変化などの影響を受け、文字認識に適さないものが多く含まれ得る。そのような画像をそのまま用いてマッチング判定を行うと、誤認識が発生する可能性が高い。そこで、できるだけ文字認識に適した画像を取得するために、マッチング判定の対象となる文字列が読取対象画像内の望ましい位置にあることを担保する範囲(=文字認識範囲)を設定することとしている。図13(a)及び(b)に文字認識範囲の具体例を示す。図13(a)及び(b)において、符号1301は、図1(b)に示すタイヤ105の撮影画像から抜き出された読取対象画像を示している。そして、符号1302は文字認識範囲の上端側の上限ラインを示し、符号1303は文字認識範囲の上端側の下限ラインを示している。また、符号1304は文字認識範囲の下端側の上限ラインを示し、符号1305は文字認識範囲の下端側の上限ラインを示している。そして、1桁目〜9桁目の各文字を囲む矩形1306は、前述の図12(a)の評価値に対応する文字単位領域を示し、矩形1306’は、前述の図12(b)の評価値に対応する文字単位領域を示している。いま、読取対象画像1301の上端をy座標の原点とすると、文字認識範囲の上端側の上限ライン1302のy座標には、1桁目〜9桁目の各文字単位領域1306のy座標の中から最小値が設定される。同様に、文字認識範囲の下端側の下限ライン1305のy座標には、1桁目〜9桁目の各文字単位領域1306のy座標の中から最大値が設定される。さらに、上端側の上限ライン1302と下端側の下限ライン1305と内外判定係数とに基づいて、文字認識範囲の上端側の下限ライン1303と下端側の上限ライン1304が決定される。
内外判定係数は、上端側の上限ライン1302のy座標と下端側の下限ライン1305のy座標との差を1としたときの、文字認識を行わない領域の割合を示す係数である。具体的には、まず、上端側の上限ライン1302のy座標と、下端側の下限ライン1305のy座標から、上端側の上限ライン1302と下端側の下限ライン1305のy座標間の距離を決定する。さらに、その中心y座標、つまり、{(上端側の下限ライン1303のy座標+下端側の上限ライン1304のy座標)÷2}を決定する。このとき、上端側の下限ライン1303のy座標及び下端側の上限ライン1304のy座標は、それぞれ以下の式で求められる。
上端側の下限ラインのy座標=中心y座標−[y座標間の距離×内外判定係数÷2]
下端側の上限ラインのy座標=中心y座標+[y座標間の距離×内外判定係数÷2]
なお、内外判定係数は、タッチパネル101を介してユーザが手動で設定してもよいし、各フレームにおける矩形情報の平均値を用いた演算などによって自動で設定してもよい。そして、以下の条件1及び条件2を満たす場合に、文字単位領域が文字認識範囲の内側に収まっていると判定されることになる。
条件1:矩形情報で特定される各文字単位領域の上端(y座標の最小値)が、文字認識範囲の上端側上限ライン1302と上端側下限ライン1303との間に含まれる。
条件2:矩形情報で特定される各文字単位領域の下端(y座標の最大値)が、文字認識範囲の下端側下限ライン1305と下端側上限ライン1304との間に含まれる。
図13(a)の場合、1桁目から9桁目の各文字単位領域1306は、その上端が、上端側上限ライン1302〜上端側下限ライン1303の範囲内に含まれ、かつ、その下端が、下端側下限ライン1305〜下端側上限ライン1304の範囲内に含まれている。この場合は、文字認識範囲の内側に収まっていると判定されることになる。一方、図12(b)の場合、1桁目から9桁目の各文字単位領域1306’のうち8桁目の「9」の文字単位領域において、その下端が、下端側下限ライン1305〜下端側上限ライン1304の範囲内に含まれず範囲外となっている。この場合は、文字認識範囲の内側に収まっていないと判定されることになる。以上のように、本ステップで最有力候補文字の文字単位領域が文字認識範囲の内側に収まっていると判定された場合はステップ808に進む。一方、収まっていないと判定された場合は、ステップ802に戻ってガイドに従った1フレーム分の撮影画像(読取対象画像)が改めて取得される。
ステップ808では、ガイドに従った1フレーム分の撮影画像(読取対象画像)内の文字列のすべての文字について処理が完了したかどうかが判定される。すべての文字の処理が完了している場合はステップ809に進む。一方、未処理の文字がある場合はステップ804に戻って次の文字を注目する文字に決定して処理を続行する。
ステップ809では、所定数連続するフレームにおいて、読取対象文字列を構成する各文字についての最有力候補文字の評価値が安定しているかどうかを判定する上述の安定状態判定処理が実行される。
≪安定状態判定処理≫
図14は、安定状態判定処理の詳細を示すフローチャートである。以下、図14のフローに沿って説明する。
ステップ1401では、最有力候補文字の評価値が安定状態にあるか否かを判定するための基準として、基準フレーム数と基準ばらつき度に相当する閾値がそれぞれ設定される。基準フレーム数は、読取対象文字列の各文字の最有力候補文字を表すキャラクターコードが何フレーム連続して一致しているかを判定するための基準であり、例えば5フレームといった閾値が設定される。基準ばらつき度は、連続一致フレーム数に到達した際の各フレームにおける最有力候補文字の評価値の和(評価値合計値)のばらつき度が一定範囲に収まっているかを判定するための基準であり、例えば10%といった閾値が設定される。これら閾値は、タッチパネル101を介してユーザが手動で設定してもよいし、文字読取処理の実行履歴から平均値を求めるなどして自動で設定してもよい。
ステップ1402では、現在のフレームと直近(1つ前)のフレームにおける前述した候補文字検出結果が取得される。そして、ステップ1403では、取得した現フレームと直近フレームにおける候補文字検出結果に含まれるキャラクターコードの情報に基づき、両フレームにおいて最有力候補文字が一致するかどうかが判定される。現フレームと直近フレームとで最有力候補文字が一致する場合は、ステップ1404に進む。一方、一致しない場合は本処理を抜ける。
ステップ1404では、最有力候補文字が連続一致したフレーム数が、ステップ1401で設定された基準フレーム数に到達したか(所定の閾値以上か)が判定される。判定の結果、連続一致フレーム数が基準フレーム数に到達していない場合はステップ1405に進んで、現時点での連続一致したフレーム数がRAM202に記憶される。一方、基準フレーム数に到達していた場合は、ステップ1406に進む。
ステップ1406では、基準フレーム数分の連続一致したフレームのそれぞれにおいて、最有力候補文字についての評価値の和(評価値合計値)が算出される。本実施例の場合、連続一致した所定数のフレームのそれぞれにおいて、1桁目から9桁目までの全文字の評価値の和が評価値合計値として求められることになる。例えば、前述の図12(a)の場合の評価値合計値は、0.23+0.25+0.28+0.25+0.19+0.26+0.29+0.25+0.12=2.12となる。また、図12(b)の場合の評価値合計値は、0.65+0.54+0.68+0.64+0.39+0.73+0.55+0.87+0.60=5.65となる。
ステップ1407では、ステップ1406で算出された評価値合計値からその変動幅と当該変動幅に基づくばらつき度が求められ、求めたばらつき度がステップ1401で設定された基準ばらつき度に収まっているかが判定される。具体的には、連続一致した全フレームについて求めた評価値合計値についての最大値と最小値との差(変動幅)を求め、そのばらつき度を示す割合がステップ1401で設定した所定の閾値以内かどうかを判定する。例えば、連続一致する5フレームにおける評価値合計値が、4.8、4.9、5.0、5.1、5.2であったとする。この場合の変動幅は0.4である。そして、この場合のばらつき度は、0.4÷5.0=0.08(8%)となるので、基準ばらつき度としての閾値が10%であれば、基準ばらつき度に収まっていると判定される。このように、評価値合計値のばらつき度が基準ばらつき度内に収まっていれば、ステップ1408に進む。一方、基準ばらつき度内に収まっていなければ、本処理を抜ける。
ステップ1408では、基準フレーム数分の連続一致した各フレームにおいて評価値が安定状態にあるとの判断がなされ、そのことを示す情報(例えばフラグ)がRAM202に格納される。
以上が、ステップ809における安定状態判定処理の内容である。安定状態判定処理が終了すると、ステップ802に戻ってガイドに従った次フレームの読取対象画像が取得される。図8のフローの説明に戻る。
前述のステップ803での処理の切り分けにおいて最有力候補文字の評価値が安定状態にあるとの判定結果が出ていた場合のステップ810では、直近のステップ802で取得した1フレーム分の撮影画像(読取対象画像)が文字読取処理の結果として出力、例えばRAM202或いは外部記憶装置(不図示)に保存される。また、取得した撮影画像に対して改めて候補文字検出処理(ステップ805)を行って、その結果を簡易なOCR結果としてタッチパネル101に表示させてもよい。或いは、取得した撮影画像のデータをNIC205を介して外部のPC等に転送し、手法や精度の異なるOCRを別途行うようにしてもよい。
以上が、本実施例に係る文字読取処理の内容である。これにより、例えば動画モードで撮影を行って文字認識に最適な静止画像を特定する自動撮影機能をモバイル端末に設けることが可能となる。
(変形例)
読取対象となる文字列には、例えば、数字の「0」と「9」や、数字の「0」とアルファベットの「O」といったように形状が類似する文字が含まれる場合も少なくない。このようなケースでは、照明の当たり方などの微妙な変化によって最有力候補文字がフレーム間で頻繁に入れ替わって評価値がなかなか安定せず、文字読取処理に想定外の時間が掛かる場合も考えられる。
そこで、候補文字検出処理におけるマッチング判定の結果、評価値が近似する候補文字が複数見つかった場合には、その探索領域の文字については安定状態判定処理の対象外とするように構成してもよい。このように評価値が近い候補文字が複数見つかった探索領域の文字については除外して評価値が安定状態にあるかを判定することで、認識精度を維持しつつ文字読取処理に要する時間が必要以上に長くなる(或いは終了不能になる)のを防止することができる。
図15は、本変形例で使用する候補文字テーブルの一例である。この候補文字テーブルは、図1(c)に示すタイヤ105の読取対象文字列に対応して、9桁分の候補文字情報が入るテーブルとなっている。図示されるように、候補文字テーブルには、評価値(類似度)の高い順に第1候補文字、第2候補文字・・・といった具合に、そのキャラクターコードとその評価値の情報が対応付けて格納される。そして、この候補文字テーブルを参照し、例えば評価値が最も高い第1候補文字の評価値と評価値が2番目に高い第2候補文字の評価値との差が、所定値以内であれば、その探索領域の文字については、安定状態判定処理の対象から除外する。この場合の所定値は、被写体、対象文字列の構成、撮影環境などを考慮して設定すればよく、例えば、0.01〜0.1程度の値が設定される。図15に示す例では、8桁目の第1候補文字である文字情報“0”(ゼロ)の評価値0.87と第2候補文字“O”(オー)の評価値0.86との差分が0.01と小さい。この場合において、例えば閾値が0.05に設定されていたとすれば、8桁目は除外されることになる。
フレーム毎に撮影環境が変化しやすい場合において、特に第1候補文字と第2候補文字の評価値の差が小さいと、フレーム間で第1候補文字と第2候補文字とが入れ替わりやすい。そのままでは誤認識が発生する可能性が高いことから、ここでは第1候補文字と第2候補文字の評価値の差に着目して、差が小さい探索領域の文字は安定状態判定処理に利用しないようにしている。具体的には、図15の例の場合であれば、8桁目を除く1桁目〜7桁目と9桁目の8文字のみを使って、現フレームと直近フレームとの間で最有力候補文字が一致するかどうかといった判定処理(ステップ1403)がなされることになる。ただし、本変形例はこれに限定されるものではなく、例えば第3候補文字までを考慮に入れてもよい。
さらには、除外する文字数の上限(除外文字率)を設定してもよい。例えば、除外文字率=(除外文字数)÷(対象文字列を構成する全文字数)とし、除外する文字数が上限を超えた場合には、そのフレームに係る撮影画像を読取対象画像とはしない。例えば、対象文字列の文字数が10文字であったとして、除外文字数の上限を2個(除外文字率=0.2)と設定した場合には、除外文字が2文字以上ある場合は、そのフレームの撮影画像を破棄して次のフレームの撮影画像を取得して処理を続行する。そして、除外文字数の上限を超える撮影画像が連続するような場合は、撮影環境の変更を促すメッセージをタッチパネル101に表示するなどしてもよい。
以上のような変形例により、読取対象の文字列内に評価値の近い文字が含まれるなどして評価値が複数フレーム連続して安定しにくいような状況においても本発明を好適に適用することができる。
本実施例によれば、カメラ機能を有するモバイル端末を用いて、文字を含む読取対象を撮影して文字認識結果を得る場合において、OCRに適した画像を短時間の撮影で得ることができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (14)

  1. カメラを備えた携帯型の情報処理装置であって、
    被写体上の文字列を前記カメラで撮影して動画像を取得する取得手段と、
    前記動画像を構成するフレーム毎に、前記文字列を構成する文字のそれぞれについて、文字認識のための探索領域を設定する設定手段と、
    前記探索領域の中から候補文字を検出する検出手段と、
    検出された候補文字の確からしさを表わす評価値が安定しているか判定する第1の判定手段と、
    前記評価値が安定していると判定された後に取得された前記動画像のフレームを出力する出力手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記検出手段は、設定された前記探索領域において、より小さな単位領域をその位置を変えて設定して各単位領域に対応する画像を抽出し、当該抽出した画像それぞれと辞書データとの比較を行って前記候補文字を検出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記単位領域は、前記文字列を構成する文字の外接矩形となり得る領域であることを特徴とする請求項2に記載の情報処理装置。
  4. 前記検出手段は、設定された前記探索領域において、さらに前記単位領域のサイズを変えて設定することにより前記各単位領域に対応する画像を抽出し、当該抽出した画像それぞれと辞書データとの比較を行って前記候補文字を検出することを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記設定手段は、前記文字列を構成する文字のうち前記候補文字を最初に検出する文字についての前記探索領域を、二文字目以降の文字についての前記探索領域よりも広めに設定することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記設定手段は、前記二文字目以降の文字についての前記探索領域を、その一文字前に設定された前記探索領域の位置の所定の相対位置に設定することを特徴とする請求項5に記載の情報処理装置。
  7. 前記文字列を構成する文字のそれぞれについて、前記検出手段で検出された前記候補文字の中から前記評価値が最も高い最有力候補文字を決定し、当該最有力候補文字に対応する前記単位領域が、所定の文字認識範囲の内側に収まっているか判定する第2の判定手段をさらに備え、
    前記第1の判定手段は、前記第2の判定手段で前記最有力候補文字に対応する前記単位領域が所定の文字認識範囲の内側に収まっていると判定された場合に、前記文字列を構成する文字のそれぞれについての前記最有力候補文字の評価値が安定しているか判定する
    ことを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 前記第1の判定手段は、連続する複数のフレーム間で前記文字列を構成する文字のそれぞれについての前記最有力候補文字が一致する場合に、前記判定を行うことを特徴とする請求項7に記載の情報処理装置。
  9. 前記第1の判定手段は、前記一致する最有力候補文字の評価値の合計値を、前記連続する複数のフレームのそれぞれにおいて導出し、導出した合計値のばらつき度に基づいて前記一致する前記最有力候補文字の評価値が安定しているか判定することを特徴とする請求項8に記載の情報処理装置。
  10. 前記評価値は、前記各単位領域に対応する画像が、前記辞書データ内の文字画像とどれだけ類似しているかを示す度合いであることを特徴とする請求項1乃至9のいずれか1項に記載の情報処理装置。
  11. 前記文字列を構成する文字のうち特定の文字について検出された前記候補文字について、前記評価値が最も高い候補文字の評価値と前記評価値が2番目に高い候補文字の評価値との差が所定の閾値以内の場合、前記第1の判定手段は、前記特定の文字についての前記評価値が最も高い候補文字を、前記判定における前記最有力候補文字から除外することを特徴とする請求項6乃至10のいずれか1項に記載の情報処理装置。
  12. 前記第1の判定手段は、前記取得手段で取得した前記動画像を構成するフレームのうち、前記文字列を構成する全文字数に対する前記除外する前記特定の文字の数が占める割合が上限を超えたフレームについては、前記判定を行わないことを特徴とする請求項11に記載の情報処理装置。
  13. 被写体上の文字列を、携帯型の情報処理装置が備えるカメラを用いて撮影して動画像を取得するステップと、
    前記動画像を構成するフレーム毎に、前記文字列を構成する文字のそれぞれについて、文字認識のための探索領域を設定するステップと、
    前記探索領域の中から候補文字を検出するステップと、
    検出された候補文字の確からしさを表わす評価値が安定しているか判定するステップとと、
    前記評価値が安定していると判定された後に取得された前記動画像のフレームを出力するステップと、
    を含むことを特徴とする方法。
  14. コンピュータを、請求項1乃至12のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2017071529A 2017-03-31 2017-03-31 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム Pending JP2018173818A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017071529A JP2018173818A (ja) 2017-03-31 2017-03-31 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2017071529A JP2018173818A (ja) 2017-03-31 2017-03-31 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
US15/934,045 US10878268B2 (en) 2017-03-31 2018-03-23 Information processing apparatus, control method thereof, and storage medium
KR1020180036412A KR102236616B1 (ko) 2017-03-31 2018-03-29 정보 처리 장치, 그의 제어 방법, 및 기억 매체
CN201810269570.9A CN108694400A (zh) 2017-03-31 2018-03-29 信息处理装置、其控制方法及存储介质

Publications (2)

Publication Number Publication Date
JP2018173818A true JP2018173818A (ja) 2018-11-08
JP2018173818A5 JP2018173818A5 (ja) 2020-05-07

Family

ID=63670948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017071529A Pending JP2018173818A (ja) 2017-03-31 2017-03-31 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム

Country Status (4)

Country Link
US (1) US10878268B2 (ja)
JP (1) JP2018173818A (ja)
KR (1) KR102236616B1 (ja)
CN (1) CN108694400A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020021273A (ja) * 2018-07-31 2020-02-06 京セラドキュメントソリューションズ株式会社 画像読取装置
CN111325213B (zh) * 2020-02-20 2022-03-15 电子科技大学 一种移动靶标的数字字符检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830731A (ja) * 1994-07-15 1996-02-02 Daikin Ind Ltd 文字列確認方法およびその装置
JP2003108922A (ja) * 2001-09-20 2003-04-11 Internatl Business Mach Corp <Ibm> 文字列読み取り装置及び文字列読み取り方法
JP2009088944A (ja) * 2007-09-28 2009-04-23 Canon Inc 文字認識装置、撮像装置及び映像再生装置
JP2013161277A (ja) * 2012-02-06 2013-08-19 Omron Corp 文字読取用のプログラムおよび文字読取装置
JP2016031574A (ja) * 2014-07-28 2016-03-07 日立オムロンターミナルソリューションズ株式会社 紙葉類識別装置、紙葉類処理装置、および紙葉類識別方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
JP2008250818A (ja) * 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
JP5845764B2 (ja) * 2011-09-21 2016-01-20 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5906843B2 (ja) * 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
RU2595559C2 (ru) * 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830731A (ja) * 1994-07-15 1996-02-02 Daikin Ind Ltd 文字列確認方法およびその装置
JP2003108922A (ja) * 2001-09-20 2003-04-11 Internatl Business Mach Corp <Ibm> 文字列読み取り装置及び文字列読み取り方法
JP2009088944A (ja) * 2007-09-28 2009-04-23 Canon Inc 文字認識装置、撮像装置及び映像再生装置
JP2013161277A (ja) * 2012-02-06 2013-08-19 Omron Corp 文字読取用のプログラムおよび文字読取装置
JP2016031574A (ja) * 2014-07-28 2016-03-07 日立オムロンターミナルソリューションズ株式会社 紙葉類識別装置、紙葉類処理装置、および紙葉類識別方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柳川 昭,外1名: "文字位置検出に適した正規化相関重視型ダイナミックプログラミングの応用", 精密工学会 学術講演会 講演論文集1959−2002年, JPN6021015531, 2009, ISSN: 0004634216 *

Also Published As

Publication number Publication date
CN108694400A (zh) 2018-10-23
KR102236616B1 (ko) 2021-04-06
KR20180111639A (ko) 2018-10-11
US20180285677A1 (en) 2018-10-04
US10878268B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
EP3125135A1 (en) Picture processing method and device
US8792013B2 (en) Method for determining the extent of a foreground object in an image
EP3163509A1 (en) Method for region extraction, method for model training, and devices thereof
US10095949B2 (en) Method, apparatus, and computer-readable storage medium for area identification
KR102236616B1 (ko) 정보 처리 장치, 그의 제어 방법, 및 기억 매체
CN111539269A (zh) 文本区域的识别方法、装置、电子设备和存储介质
US10134138B2 (en) Information processing apparatus, computer-readable storage medium, information processing method
WO2016006090A1 (ja) 電子機器、方法及びプログラム
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
JP6789410B2 (ja) 画像処理装置、制御方法及び制御プログラム
US20210406532A1 (en) Method and apparatus for detecting finger occlusion image, and storage medium
JP2008250818A (ja) 携帯端末装置用のプログラムおよび携帯端末装置
JP5561331B2 (ja) 携帯端末装置用のプログラムおよび携帯端末装置
CN108781252B (zh) 一种图像拍摄方法及装置
US10621427B2 (en) Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image
US9805245B2 (en) Image resolution recognition device, method for recognizing image resolution and image resolution recognition program
US10304195B2 (en) Information processing apparatus, computer-readable storage medium, and information processing method for judging a recognition target area
JP2018180606A (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
JP7027043B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021093225A (ja) 情報処理装置、プログラム、情報処理方法
JP2021064236A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2018180746A (ja) 情報処理装置
JP2012128578A (ja) 携帯端末および画像処理方法
JP2018117191A (ja) 携帯端末、プログラム、および携帯端末の制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106