JP7091606B2

JP7091606B2 - 端末、文字認識システム、端末の制御方法及びプログラム

Info

Publication number: JP7091606B2
Application number: JP2017048476A
Authority: JP
Inventors: 雅人左貝
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2022-06-28
Anticipated expiration: 2037-03-14
Also published as: JP2018151925A

Description

本発明は、端末、文字認識システム、端末の制御方法及びプログラムに関する。

ＯＣＲ（Optical Character Recognition；光学的文字認識）と称される技術がある。ＯＣＲは、通常、専用装置にＯＣＲアプリケーションソフトが実装され、当該アプリケーションソフトにより画像を取得する際の撮像条件を制御しながら高い認識精度や高速なレスポンスを実現している。

また、スマートフォン等の端末にはカメラが内蔵されており、当該カメラを用いたＯＣＲ機能を実現する端末が存在する（特許文献１参照）。さらに、ＯＣＲ機能はスマートフォン等だけでなく、種々の装置にて利用される。例えば、特許文献２には、ＯＣＲ機能を利用したナンバープレート読取装置が開示されている。また、特許文献３には、クラウド（クラウドサーバ）にＯＣＲ機能を実装し、当該クラウドサーバ上にてＯＣＲを実行する技術が開示されている。

特開２００５－０９４７８２号公報特開２００９－０１５４７８号公報特開２０１５－２０４０１５号公報

なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。

上述のように、クラウドサーバにてＯＣＲを実行することがある。しかし、実際にクラウドサーバにてＯＣＲ機能を実現することに関しては問題が多い。具体的には、ユーザから提供される画像の領域のうち、全ての領域を文字認識の対象とするのか、一部の領域を文字認識の対象とするのかクラウドサーバでは判断できない。従って、クラウドサーバでは、画像の全領域を文字認識の対象とすることになるが、そのような対応ではクラウドサーバによる高速なレスポンスは期待できない。また、所定のスピード（レスポンス）を確保するために、文字認識に係るアルゴリズム等を簡略化することも考えられるが、そのような対応は文字認識精度の悪化を招く。

特許文献３に開示されたシステムでは、文字領域を複数の部分領域に分割した上で、各部分領域にて文字認識を行っている。しかし、このような対応でも、ユーザが必要としない文字（文字領域）も認識することに変わりなく、高速なレスポンスは期待できない。

本発明は、クラウドシステムにおける、高精度且つ高速なＯＣＲ機能を実現する、端末、文字認識システム、端末の制御方法及びプログラムを提供することを目的とする。

本発明の第１の視点によれば、被写体を撮像し画像を取得する、撮像部と、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、を備える、端末が提供される。

本発明の第２の視点によれば、文字認識装置と、前記文字認識装置に文字認識を依頼する端末と、を含み、前記端末は、被写体を撮像し画像を取得する、撮像部と、前記取得された画像の領域のなかから前記文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、を備える、文字認識システムが提供される。

本発明の第３の視点によれば、被写体を撮像し画像を取得するステップと、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定するステップと、前記決定された文字認識範囲のデータを前記文字認識装置に出力するステップと、含む、端末の制御方法が提供される。

本発明の第４の視点によれば、被写体を撮像し画像を取得する処理と、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する処理と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する処理と、をコンピュータに実行させるプログラムが提供される。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント（non-transient）なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。

本発明の各視点によれば、クラウドシステムにおける、高精度且つ高速なＯＣＲ機能を実現する、端末、文字認識システム、端末の制御方法及びプログラムが、提供される。

一実施形態の概要を説明するための図である。第１の実施形態に係る文字認識システムの構成の一例を示す図である。第１の実施形態に係る端末のハードウェア構成の一例を示す図である。第１の実施形態に係る文字認識サーバのハードウェア構成の一例を示す図である。第１の実施形態に係る端末の処理構成の一例を示す図である。カメラモジュールにより取得される基礎画像の一例を示す図である。画像合成部により生成される候補画像の一例を示す図である。画像検証部により生成されるユーザインターフェイスの一例を示す図である。認識範囲決定部により提供されるユーザインターフェイスの一例を示す図である。認識範囲決定部により提供されるユーザインターフェイスの一例を示す図である。第１の実施形態に係る文字認識サーバの処理構成の一例示す図である。第１の実施形態に係る文字認識システムの動作の一例を示すシーケンス図である。第２の実施形態に係る認識範囲決定部の動作を説明するための図である。一実施形態に係る端末の処理構成の一例を示す図である。

初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。また、各図におけるブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号（データ）の流れを模式的に示すものであり、双方向性を排除するものではない。

一実施形態に係る端末１００は、被写体を撮像し画像を取得する、撮像部１０１と、取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部１０２と、決定された文字認識範囲のデータを文字認識装置に出力する、出力部１０３と、を備える。

端末１００は、例えば、取得された画像を画面に表示し、当該画像の領域のなかからユーザが真に文字認識を行いたい範囲を決定するためのインターフェイスを提供する。その後、端末１００は、ユーザにより入力指示された所定範囲を外部の文字認識装置に送信する。文字認識装置では、文字認識の対象が制限されるため、文字認識のための処理を簡略化する等の対策をしなくとも高速に文字認識結果を出力することができる。

以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。

［第１の実施形態］
第１の実施形態について、図面を用いてより詳細に説明する。

図２は、第１の実施形態に係る文字認識システムの構成の一例を示す図である。図２を参照すると、文字認識システムは、端末１０と、文字認識サーバ２０と、を含んで構成される。

端末１０は、スマートフォンや携帯電話等の端末であり、カメラを内蔵する。

文字認識サーバ２０は、端末１０から提供される画像（カメラにより撮影される画像）に対して文字認識を実行し、その結果を端末１０に応答する文字認識装置である。

文字認識サーバ２０は、クラウドシステムにより提供されるサーバであり、端末１０と文字認識サーバ２０はネットワークを介して接続されている。なお、図２には、１台の端末１０を図示しているが、実際には多数の端末１０が文字認識サーバ２０を利用する。

［ハードウェア構成］
初めに、第１の実施形態に係る文字認識システムを構成する各種装置のハードウェア構成を説明する。

図３は、端末１０のハードウェア構成の一例を示す図である。端末１０は、例えば、内部バスにより相互に接続される、ＣＰＵ（Central Processing Unit）１１、メモリ１２、カメラモジュール１３、液晶パネル及びタッチパネル１４、無線信号送受信回路１５等を備える。

但し、図３に示す構成は、端末１０のハードウェア構成を限定する趣旨ではない。端末１０は、図示しないハードウェアを含んでもよい。また、端末１０に含まれるＣＰＵ等の数も図３の例示に限定する趣旨ではなく、例えば、複数のＣＰＵが端末１０に含まれていてもよい。

メモリ１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、補助記憶装置（ハードディスク等）等の１以上を含む。

カメラモジュール１３は、レンズやＣＣＤ（Charge Coupled Device）等の撮像センサを備えるモジュールである。

液晶パネル及びタッチパネル１４は、ユーザにＧＵＩ（Graphical User Interface）を提供するための入出力デバイスである。ユーザは、液晶パネルに表示される画面及びメッセージを確認し、タッチパネルを操作して端末１０に情報を入力する。

無線信号送受信回路１５は、アンテナ１６に接続され、無線信号を送受信するための回路である。

端末１０の機能は、後述する処理モジュールにより実現される。当該処理モジュールは、例えば、メモリ１２に格納されたプログラムをＣＰＵ１１が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能は、何らかのハードウェア及び／又はソフトウェアにより実現できればよい。

図４は、文字認識サーバ２０のハードウェア構成の一例を示す図である。文字認識サーバ２０は、情報処理装置（所謂、コンピュータ）により実現可能であり、上述したＣＰＵ、メモリ等に加え、入出力インターフェイス１７及びＮＩＣ（Network Interface Card）１８を備える。

入出力インターフェイス１７は、表示装置や入力装置といったデバイスのインターフェイスである。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置や、ＵＳＢ（Universal Serial Bus）メモリ等の外部記憶装置から情報を入力する装置である。ユーザ（例えば、クラウドシステムの管理者）は、キーボードやマウス等を用いて、必要な情報を文字認識サーバ２０に入力する。

ＮＩＣ１８は、ルータ等の通信装置に接続される通信インターフェイスである。

［処理モジュール］
続いて、第１の実施形態に係る文字認識システムを構成する各種装置の処理モジュールについて説明する。

［端末］
図５は、端末１０の処理構成の一例を示す図である。図５を参照すると、端末１０は、無線通信制御部２０１と、撮像部２０２と、画像合成部２０３と、画像検証部２０４と、認識範囲決定部２０５と、を含んで構成される。

無線通信制御部２０１は、文字認識サーバ２０との間の通信を実現するための手段である。無線通信制御部２０１は、例えば、ＬＴＥ（Long Term Evolution）等のモバイル通信や無線ＬＡＮ（Local Area Network）等の通信方式によりネットワークにアクセスし、文字認識サーバ２０と通信する。

撮像部２０２は、カメラモジュール１３を制御することで、被写体を撮像し画像（画像データ）を取得する手段である。撮像部２０２は、文字認識サーバ２０に文字認識を依頼する画像（以下、依頼画像と表記する）の基礎（ソース）となる画像を取得する。

撮像部２０２は、同一の被写体から複数の基礎画像を取得する。より具体的には、撮像部２０２は、露出条件を変更しつつ、同一の被写体から複数の基礎画像を取得する。つまり、撮像部２０２は、露出条件を変更しながら対象物を連写し、複数の基礎画像を取得する。その際、撮像部２０２は、露出時間やＩＳＯ（International Organization for Standardization）感度等の露出条件を変更しながら同じ対象物を連写する。

例えば、撮像部２０２は、図６に示すような複数の基礎画像を取得する。なお、撮像部２０２は、複数枚の基礎画像を取得するので、ユーザがシャッターボタンを一度押せば、必要な枚数の基礎画像を取得するように動作する。

画像合成部２０３は、複数の基礎画像を合成することで、１枚の画像を生成する手段である。より具体的には、画像合成部２０３は、撮像部２０２により取得された複数の基礎画像を合成し、依頼画像の候補となる画像（以下、候補画像と表記する）を生成する。例えば、画像合成部２０３は、ＨＤＲ（High Dynamic Range）合成を実行し、複数枚の基礎画像に係るデータから１枚の画像（候補画像；依頼画像の候補）を生成する。例えば、図６に示す複数の基礎画像を合成すると図７に示すような候補画像が得られる。

画像検証部２０４は、合成された画像（候補画像）の品質を検証する手段である。具体的には、画像検証部２０４は、候補画像に「手ぶれ」や「ピント外れ」が生じているか否かを検証する。なお、「手ぶれ」や「ピント外れ」の検出には種々の技術を用いることができる。例えば、画像検証部２０４は、所謂、画像復元式と称される方法を用いて、候補画像に「手ぶれ」が生じているか検証できる。また、画像検証部２０４は、特許文献１に開示されるような合焦状態判定方法を用いて候補画像にピント外れが生じているか否かを検証できる。なお、ピント外れの検出方法に関しては、参考文献１（J.L. Pech-Paceco & G. Cristobal Imaging & Vision Dept. "Diatom autofocusing in brightfield microscopy; a comparative study"）の３．３節に記載された技術を用いることもできる。

画像検証部２０４は、例えば、候補画像に「手ぶれ」も「ピント外れ」も生じていない場合に、当該候補画像の品質は高いと判定する。換言するならば、画像検証部２０４は、候補画像に「手ぶれ」及び「ピント外れ」の少なくともいずれかが生じている場合には、当該候補画像の品質は低いと判定する。

画像検証部２０４は、候補画像の品質に関する検証をユーザに依頼してもよい。例えば、画像検証部２０４は、候補画像と共にその品質確認を要求するメッセージを液晶パネル等に表示し、ユーザから当該候補画像を依頼画像に設定するか否かに関する指示を入力する。具体的には、画像検証部２０４は、液晶パネル等に図８に示すような表示を行い、ユーザからの指示を入力する。

画像検証部２０４は、候補画像の品質に問題があれば（品質が低ければ）、画像を再撮影する旨をユーザに通知し、撮像部２０２に対して対象物の再撮影を指示する。つまり、撮像部２０２は、複数の基礎画像を合成することで生成された候補画像の品質が予め定めた基準（手ぶれ又はピント外れがあり）よりも低い場合には、被写体からの画像を再取得する。候補画像の品質に問題がなければ、画像検証部２０４は、候補画像を認識範囲決定部２０５に引き渡す。

認識範囲決定部２０５は、候補画像の領域のなかから文字認識サーバ２０に文字認識を行わせる文字認識範囲を決定する手段である。具体的には、認識範囲決定部２０５は、候補画像を液晶パネル等に表示すると共に、ユーザが表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を文字認識範囲として決定する。即ち、認識範囲決定部２０５は、候補画像から文字認識を行う範囲を抽出して、文字認識範囲を決定する手段である。

例えば、認識範囲決定部２０５は、候補画像を液晶パネル等に表示しつつ、文字認識範囲を入力するような操作を受け付けるユーザインターフェイスを提供する。換言するならば、認識範囲決定部２０５は、候補画像を液晶パネル等に表示し、ユーザによる画像のトリミングを実行するユーザインターフェイスを提供する。

認識範囲決定部２０５により提供されるユーザインターフェイスには種々の形態が考えられる。

例えば、図９（ａ）に示すように、認識範囲決定部２０５は、候補画像の全体と文字認識範囲入力に係るメッセージを表示する。図９（ａ）の表示に接したユーザは、ＯＣＲにて文字認識を行わせたい領域の左上に触れ、その後、右下に触れる。例えば、ユーザは、図９（ｂ）に示すような押下点２１及び押下点２２に触れたものとする。ユーザが２点に触れると、認識範囲決定部２０５は、ユーザから入力された２点を頂点とする矩形形状に囲まれる領域を文字認識範囲とする。図９（ｂ）の例では、文字「ＡＢＣ」を含む点線で囲まれた範囲が文字認識範囲に設定される。

上記インターフェイスの他にも、ユーザによる一筆書きにより囲まれる領域を文字認識範囲とすることもできる。例えば、図１０（ａ）に示すように、認識範囲決定部２０５は、候補画像の全体と文字認識範囲入力に係るメッセージを表示する。図１０（ａ）の表示に接したユーザは、文字認識させたい範囲を指で囲うようにタッチパネルを操作する。例えば、図１０（ｂ）に示すように、文字「ＡＢＣ」を含む領域の左上から右上、右下、左下を経由して左上にユーザの指による軌跡が描かれる場合には、点線２３で囲まれた範囲が文字認識範囲に設定される。

認識範囲決定部２０５は、ユーザにより指定された範囲を文字認識範囲と定め、当該範囲を候補画像から切り出す。認識範囲決定部２０５は、切り出した文字認識範囲に係る画像を、無線通信制御部２０１（出力部）を介して文字認識サーバ２０に送信する。なお、候補画像から切り出した文字認識範囲に係る画像が、上記依頼画像となる。認識範囲決定部２０５は、自装置（端末１０）の識別子（例えば、ＭＡＣ（Media Access Control）アドレス）を付して依頼画像に係るデータを文字認識サーバ２０に送信する。

［文字認識サーバ］
図１１は、文字認識サーバ２０の処理構成の一例を示す図である。図１１を参照すると、文字認識サーバ２０は、通信制御部３０１と、画像管理部３０２と、文字認識制御部３０３と、文字認識部３０４と、を備える。

通信制御部３０１は、端末１０との間の通信を制御する手段である。通信制御部３０１は、端末１０から依頼画像に係るデータを取得すると、当該画像データを画像管理部３０２に引き渡す。

画像管理部３０２は、端末１０から受信する依頼画像を管理する手段である。具体的には、画像管理部３０２は、端末１０から画像データを受信すると、当該受信した画像データを受信端末ごとに区分して記憶媒体に格納する。

文字認識制御部３０３は、上記記憶媒体に格納された画像データによる文字認識を文字認識部３０４に行わせる手段である。具体的には、文字認識制御部３０３は、上記記憶媒体に格納された画像データを格納された順に読み出し、読み出したデータを文字認識部３０４に提供する。また、文字認識制御部３０３は、文字認識部３０４から出力される結果（認識された文字列）を、文字認識した依頼画像の送信元である端末１０に送信する。

文字認識部３０４は、ＯＣＲ機能の実行エンジンであり、文字認識に必要な画像変換やパターンマッチング等に係る処理を実行する。文字認識部３０４は、文字認識の結果を文字認識制御部３０３に出力する。

［システムの動作］
次に、図１２を参照しつつ、第１の実施形態に係る文字認識システムの動作を説明する。図１２は、第１の実施形態に係る文字認識システムの動作の一例を示すシーケンス図である。

ステップＳ０１において、端末１０は、ユーザからの操作により被写体を撮影する。その際、端末１０は、露光条件を変更しながらの連写により複数の基礎画像を取得する。

ステップＳ０２において、端末１０は、複数の基礎画像を合成し、１枚の候補画像を生成する。

ステップＳ０３において、端末１０は、候補画像の品質を検証する。具体的には、端末１０は、候補画像の品質を検証し、候補画像に「手ぶれ」や「ピント外れ」等が発生しているか否かを判定することで、候補画像の品質を検証する。

品質の低い候補画像（ステップＳ０４、Ｎ分岐）であれば、端末１０は、対象物を再撮影することをユーザに通知（ステップＳ０５）し、ステップＳ０１以降の処理を繰り返す。品質の高い候補画像（ステップＳ０４、Ｙ分岐）であれば、端末１０は、文字認証範囲に係る決定を行う（ステップＳ０６）。具体的には、端末１０は、図９や図１０に示すインターフェイス画面を表示し、ユーザからの操作により文字認識範囲を決定する。

端末１０は、候補画像からユーザにより指定された文字認識範囲を切り出し、依頼画像に係るデータを作成する。端末１０は、依頼画像に係るデータを文字認識サーバ２０に送信する（ステップＳ０７）。つまり、端末１０は、クラウドシステムに対し、送信した画像の文字認識を依頼する。

文字認識サーバ２０は、受信した画像に対して文字認識を実行する（ステップＳ０８）。

文字認識サーバ２０は、認識結果（認識された文字）を端末１０に送信する（ステップＳ０９）。

以上のように、第１の実施形態に係る端末１０では、複数の基礎画像を取得し、当該複数の画像を合成することで、品質の高い候補画像を生成している。その上で、端末１０は、当該候補画像の品質に問題がないか検証し、問題が無い候補画像をユーザに提供（表示）している。さらに、ユーザは、候補画像の領域のうち、真に文字認識を行わせたい範囲を決定する。その結果、ユーザにとって無駄な領域の文字認証が文字認識サーバ２０にて実行されることがなくなる。そのため、文字認識サーバ２０の高速なレスポンスと高い認識精度を両立することができる。

［第２の実施形態］
続いて、第２の実施形態について図面を参照して詳細に説明する。

第２の実施形態では、端末１０が候補画像の中から文字認識範囲を自動的に決定する場合について説明する。

第２の実施形態では、定型的な書類等に追加された文字列を含む範囲を端末１０が自動的に検出し、当該検出した範囲を依頼画像とする場合について説明する。なお、第２の実施形態において、システム構成や端末１０等のハードウェア構成、処理構成は、第１の実施形態にて説明した構成と同一とすることができるので、図２等に相当する説明は省略する。

第２の実施形態に係る認識範囲決定部２０５は、上記定型的な書類のテンプレート画像と、ユーザにより撮影された画像（候補画像）と、を比較し、２つの画像にて相違する領域を文字認識範囲に設定する。例えば、図１３（ａ）に示す画像がテンプレート画像であり、図１３（ｂ）に示す画像が候補画像（品質に問題がない画像）である。

認識範囲決定部２０５は、２つの画像の対応する位置（座標）における画素値の差分を算出する。その結果、候補画像の各点においてテンプレート画像から変化のない点の差分値は小さい値となり、変化のある点は差分値が大きくなる。認識範囲決定部２０５は、差分値が所定の閾値よりも大きな点を数多く含む領域を文字認識範囲に設定する。例えば、図１３の例では、１２桁の数字が書き込まれた領域３１が文字認識範囲に設定される。

なお、実際には、テンプレート画像と候補画像ではそのサイズ（ドット数）が一致するとは限らない。そこで、認識範囲決定部２０５は、精度良く文字認識範囲を算出するため、テンプレート画像のサイズに候補画像のサイズを変換する幾何変換等を実施した後、文字認識範囲の抽出に係る処理を実行するのが望ましい。

また、２つの画像の微妙な相違を許容するため、複数の画素を１つのグループにまとめ、グループごとの画素値を計算し、２枚の画像間で比較しても良い。例えば、４つの画素を１つのグループとし、４つの画素値の平均値をグループの代表値に設定する（グループの画素値に設定する）。認識範囲決定部２０５は、２つの画像から同様に算出されたグループの画素値を、文字認識範囲の決定（抽出）に用いることで、両画像の微妙な相違を吸収できる。即ち、認識範囲決定部２０５は、比較対象となる２枚の画像における解像度を低くし、大まかな範囲の比較とすることで、画像間の微妙な相違を吸収する。

以上のように、第２の実施形態では、端末１０が文字認識範囲を自動的に決定する。その結果、ユーザによる文字認識範囲の決定は不要となり利便性が向上する。

上記実施形態にて説明した文字認識システムの構成等は例示であって、システムの構成を限定する趣旨ではない。例えば、スマートフォン等の端末１０だけでなく、据え置き型のコンピュータがスキャナから取得した画像を対象としてもよい。但し、この場合、スキャナから取得した候補画像には手ぶれ等の問題は生じないと考えられるため、必要に応じて「画像合成部」や「画像検証部」に係る処理を省略してもよい。つまり、上記実施形態にて説明した、画像合成処理や画像検証処理は省略されてもよい。

あるいは、端末１０にて実行される処理のうち一部の処理は外部のサーバ等で実行されてもよい。例えば、複数の画像を合成する処理は、文字認識サーバ２０等の外部サーバで実行されてもよい。

上記実施形態では、画像検証部２０４が候補画像の品質を判定し、品質の低い候補画像が得られた場合には撮像部２０２により新たな複数枚の基礎画像が取得される。しかし、画像検証部２０４が撮像部２０２に画像の再取得を依頼する前に、候補画像の補正を試みて十分高品質な候補画像が得られる場合には、撮像部２０２に画像の再取得を依頼しなくともよい。この場合、端末１０は、画像補正部２０６を備えることになる（図１４参照）。

上記実施形態では、端末１０が候補画像の品質を確認しているが、図８に示すようにユーザに候補画像の品質確認を依頼してもよい。また、その場合には、文字認識範囲決定のユーザインターフェイス画面（図９や図１０）にて候補画像の品質確認が行われてもよい。つまり、図９等の画面に「再取得」のボタンを設け、当該ボタンが押下された場合に、被写体の画像が再取得されてもよい。

上記実施形態では、撮像部２０２は、当初から撮像条件を変更しつつ、複数枚の基礎画像を取得しているが、最初は１枚の基礎画像を取得してもよい。あるいは、撮像部２０２は、被写体の画像を再取得する際には、先の撮像条件とは異なる条件を設定し、被写体から複数の基礎画像を取得してもよい。

上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、例えば各処理を並行して実行する等、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上記実施形態で説明した事項は、相反しない範囲で組み合わせることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
［付記１］
上述の第１の視点に係る端末のとおりである。
［付記２］
前記認識範囲決定部は、
前記取得された画像を表示すると共に、ユーザが前記表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を前記文字認識範囲として決定する、付記１の端末。
［付記３］
前記認識範囲決定部は、
前記取得された画像と予め定めたテンプレート画像を比較し、前記取得された画像と前記テンプレート画像が相違する領域を前記文字認識範囲に決定する、付記１の端末。
［付記４］
前記撮像部は、同一の被写体から複数の画像を取得し、
前記複数の画像を合成することで、１枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、付記１乃至３のいずれか一に記載の端末。
［付記５］
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、付記４の端末。
［付記６］
前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、付記４又は５の端末。
［付記７］
上述の第２の視点に係る文字認識システムのとおりである。
［付記８］
前記認識範囲決定部は、
前記取得された画像を表示すると共に、ユーザが前記表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を前記文字認識範囲として決定する、付記７の文字認識システム。
［付記９］
前記認識範囲決定部は、
前記取得された画像と予め定めたテンプレート画像を比較し、前記取得された画像と前記テンプレート画像が相違する領域を前記文字認識範囲に決定する、付記７の文字認識システム。
［付記１０］
前記撮像部は、同一の被写体から複数の画像を取得し、
前記端末は、前記複数の画像を合成することで、１枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、付記７乃至９のいずれか一に記載の文字認識システム。
［付記１１］
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、付記１０の文字認識システム。
［付記１２］
前記端末は、前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、付記１０又は１１の文字認識システム。
［付記１３］
上述の第３の視点に係る端末の制御方法のとおりである。
［付記１４］
上述の第４の視点に係るプログラムのとおりである。
なお、付記１３の形態及び付記１４の形態は、付記１の形態と同様に、付記２の形態～付記６の形態に展開することが可能である。

なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

１０、１００端末
１１ＣＰＵ
１２メモリ
１３カメラモジュール
１４液晶パネル及びタッチパネル
１５無線信号送受信回路
１６アンテナ
１７入出力インターフェイス
１８ＮＩＣ
２０文字認識サーバ
２１、２２押下点
２３点線
３１領域
１０１、２０２撮像部
１０２、２０５認識範囲決定部
１０３出力部
２０１無線通信制御部
２０３画像合成部
２０４画像検証部
２０６画像補正部
３０１通信制御部
３０２画像管理部
３０３文字認識制御部
３０４文字認識部

Claims

被写体を撮像し画像を取得する、撮像部と、
前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像とを比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像と相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定する、認識範囲決定部と、
前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、
を備える、端末。
前記出力部が、前記決定された文字認識範囲のデータであって、解像度を低下させる前のデータを前記文字認識装置に出力する、請求項１の端末。
前記撮像部は、同一の被写体から複数の画像を取得し、
前記複数の画像を合成することで、１枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、請求項１又は２の端末。
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、請求項３の端末。
前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、請求項３又は４の端末。
文字認識装置と、
前記文字認識装置に文字認識を依頼する端末と、
を含み、
前記端末は、
被写体を撮像し画像を取得する、撮像部と、
前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像とを比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像と相違する領域を前記文字認識装置に文字認識を行わせる文字認識範囲に決定する、認識範囲決定部と、
前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、
を備える、文字認識システム。
前記撮像部は、同一の被写体から複数の画像を取得し、
前記端末は、前記複数の画像を合成することで、１枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、請求項６の文字認識システム。
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、請求項７の文字認識システム。
前記端末は、前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、請求項７又は８の文字認識システム。
被写体を撮像し画像を取得するステップと、
前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像とを比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像と相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定するステップと、
前記決定された文字認識範囲のデータを前記文字認識装置に出力するステップと、
含む、端末の制御方法。
被写体を撮像し画像を取得する処理と、
前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像とを比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像と相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定する処理と、
前記決定された文字認識範囲のデータを前記文字認識装置に出力する処理と、
をコンピュータに実行させるプログラム。