JP7091606B2 - 端末、文字認識システム、端末の制御方法及びプログラム - Google Patents

端末、文字認識システム、端末の制御方法及びプログラム Download PDF

Info

Publication number
JP7091606B2
JP7091606B2 JP2017048476A JP2017048476A JP7091606B2 JP 7091606 B2 JP7091606 B2 JP 7091606B2 JP 2017048476 A JP2017048476 A JP 2017048476A JP 2017048476 A JP2017048476 A JP 2017048476A JP 7091606 B2 JP7091606 B2 JP 7091606B2
Authority
JP
Japan
Prior art keywords
image
character recognition
resolution
terminal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017048476A
Other languages
English (en)
Other versions
JP2018151925A (ja
Inventor
雅人 左貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017048476A priority Critical patent/JP7091606B2/ja
Publication of JP2018151925A publication Critical patent/JP2018151925A/ja
Application granted granted Critical
Publication of JP7091606B2 publication Critical patent/JP7091606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Studio Devices (AREA)

Description

本発明は、端末、文字認識システム、端末の制御方法及びプログラムに関する。
OCR(Optical Character Recognition;光学的文字認識)と称される技術がある。OCRは、通常、専用装置にOCRアプリケーションソフトが実装され、当該アプリケーションソフトにより画像を取得する際の撮像条件を制御しながら高い認識精度や高速なレスポンスを実現している。
また、スマートフォン等の端末にはカメラが内蔵されており、当該カメラを用いたOCR機能を実現する端末が存在する(特許文献1参照)。さらに、OCR機能はスマートフォン等だけでなく、種々の装置にて利用される。例えば、特許文献2には、OCR機能を利用したナンバープレート読取装置が開示されている。また、特許文献3には、クラウド(クラウドサーバ)にOCR機能を実装し、当該クラウドサーバ上にてOCRを実行する技術が開示されている。
特開2005-094782号公報 特開2009-015478号公報 特開2015-204015号公報
なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。
上述のように、クラウドサーバにてOCRを実行することがある。しかし、実際にクラウドサーバにてOCR機能を実現することに関しては問題が多い。具体的には、ユーザから提供される画像の領域のうち、全ての領域を文字認識の対象とするのか、一部の領域を文字認識の対象とするのかクラウドサーバでは判断できない。従って、クラウドサーバでは、画像の全領域を文字認識の対象とすることになるが、そのような対応ではクラウドサーバによる高速なレスポンスは期待できない。また、所定のスピード(レスポンス)を確保するために、文字認識に係るアルゴリズム等を簡略化することも考えられるが、そのような対応は文字認識精度の悪化を招く。
特許文献3に開示されたシステムでは、文字領域を複数の部分領域に分割した上で、各部分領域にて文字認識を行っている。しかし、このような対応でも、ユーザが必要としない文字(文字領域)も認識することに変わりなく、高速なレスポンスは期待できない。
本発明は、クラウドシステムにおける、高精度且つ高速なOCR機能を実現する、端末、文字認識システム、端末の制御方法及びプログラムを提供することを目的とする。
本発明の第1の視点によれば、被写体を撮像し画像を取得する、撮像部と、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、を備える、端末が提供される。
本発明の第2の視点によれば、文字認識装置と、前記文字認識装置に文字認識を依頼する端末と、を含み、前記端末は、被写体を撮像し画像を取得する、撮像部と、前記取得された画像の領域のなかから前記文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、を備える、文字認識システムが提供される。
本発明の第3の視点によれば、被写体を撮像し画像を取得するステップと、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定するステップと、前記決定された文字認識範囲のデータを前記文字認識装置に出力するステップと、含む、端末の制御方法が提供される。
本発明の第4の視点によれば、被写体を撮像し画像を取得する処理と、前記取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する処理と、前記決定された文字認識範囲のデータを前記文字認識装置に出力する処理と、をコンピュータに実行させるプログラムが提供される。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transient)なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。
本発明の各視点によれば、クラウドシステムにおける、高精度且つ高速なOCR機能を実現する、端末、文字認識システム、端末の制御方法及びプログラムが、提供される。
一実施形態の概要を説明するための図である。 第1の実施形態に係る文字認識システムの構成の一例を示す図である。 第1の実施形態に係る端末のハードウェア構成の一例を示す図である。 第1の実施形態に係る文字認識サーバのハードウェア構成の一例を示す図である。 第1の実施形態に係る端末の処理構成の一例を示す図である。 カメラモジュールにより取得される基礎画像の一例を示す図である。 画像合成部により生成される候補画像の一例を示す図である。 画像検証部により生成されるユーザインターフェイスの一例を示す図である。 認識範囲決定部により提供されるユーザインターフェイスの一例を示す図である。 認識範囲決定部により提供されるユーザインターフェイスの一例を示す図である。 第1の実施形態に係る文字認識サーバの処理構成の一例示す図である。 第1の実施形態に係る文字認識システムの動作の一例を示すシーケンス図である。 第2の実施形態に係る認識範囲決定部の動作を説明するための図である。 一実施形態に係る端末の処理構成の一例を示す図である。
初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。また、各図におけるブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。
一実施形態に係る端末100は、被写体を撮像し画像を取得する、撮像部101と、取得された画像の領域のなかから文字認識装置に文字認識を行わせる文字認識範囲を決定する、認識範囲決定部102と、決定された文字認識範囲のデータを文字認識装置に出力する、出力部103と、を備える。
端末100は、例えば、取得された画像を画面に表示し、当該画像の領域のなかからユーザが真に文字認識を行いたい範囲を決定するためのインターフェイスを提供する。その後、端末100は、ユーザにより入力指示された所定範囲を外部の文字認識装置に送信する。文字認識装置では、文字認識の対象が制限されるため、文字認識のための処理を簡略化する等の対策をしなくとも高速に文字認識結果を出力することができる。
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。
図2は、第1の実施形態に係る文字認識システムの構成の一例を示す図である。図2を参照すると、文字認識システムは、端末10と、文字認識サーバ20と、を含んで構成される。
端末10は、スマートフォンや携帯電話等の端末であり、カメラを内蔵する。
文字認識サーバ20は、端末10から提供される画像(カメラにより撮影される画像)に対して文字認識を実行し、その結果を端末10に応答する文字認識装置である。
文字認識サーバ20は、クラウドシステムにより提供されるサーバであり、端末10と文字認識サーバ20はネットワークを介して接続されている。なお、図2には、1台の端末10を図示しているが、実際には多数の端末10が文字認識サーバ20を利用する。
[ハードウェア構成]
初めに、第1の実施形態に係る文字認識システムを構成する各種装置のハードウェア構成を説明する。
図3は、端末10のハードウェア構成の一例を示す図である。端末10は、例えば、内部バスにより相互に接続される、CPU(Central Processing Unit)11、メモリ12、カメラモジュール13、液晶パネル及びタッチパネル14、無線信号送受信回路15等を備える。
但し、図3に示す構成は、端末10のハードウェア構成を限定する趣旨ではない。端末10は、図示しないハードウェアを含んでもよい。また、端末10に含まれるCPU等の数も図3の例示に限定する趣旨ではなく、例えば、複数のCPUが端末10に含まれていてもよい。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等の1以上を含む。
カメラモジュール13は、レンズやCCD(Charge Coupled Device)等の撮像センサを備えるモジュールである。
液晶パネル及びタッチパネル14は、ユーザにGUI(Graphical User Interface)を提供するための入出力デバイスである。ユーザは、液晶パネルに表示される画面及びメッセージを確認し、タッチパネルを操作して端末10に情報を入力する。
無線信号送受信回路15は、アンテナ16に接続され、無線信号を送受信するための回路である。
端末10の機能は、後述する処理モジュールにより実現される。当該処理モジュールは、例えば、メモリ12に格納されたプログラムをCPU11が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能は、何らかのハードウェア及び/又はソフトウェアにより実現できればよい。
図4は、文字認識サーバ20のハードウェア構成の一例を示す図である。文字認識サーバ20は、情報処理装置(所謂、コンピュータ)により実現可能であり、上述したCPU、メモリ等に加え、入出力インターフェイス17及びNIC(Network Interface Card)18を備える。
入出力インターフェイス17は、表示装置や入力装置といったデバイスのインターフェイスである。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置や、USB(Universal Serial Bus)メモリ等の外部記憶装置から情報を入力する装置である。ユーザ(例えば、クラウドシステムの管理者)は、キーボードやマウス等を用いて、必要な情報を文字認識サーバ20に入力する。
NIC18は、ルータ等の通信装置に接続される通信インターフェイスである。
[処理モジュール]
続いて、第1の実施形態に係る文字認識システムを構成する各種装置の処理モジュールについて説明する。
[端末]
図5は、端末10の処理構成の一例を示す図である。図5を参照すると、端末10は、無線通信制御部201と、撮像部202と、画像合成部203と、画像検証部204と、認識範囲決定部205と、を含んで構成される。
無線通信制御部201は、文字認識サーバ20との間の通信を実現するための手段である。無線通信制御部201は、例えば、LTE(Long Term Evolution)等のモバイル通信や無線LAN(Local Area Network)等の通信方式によりネットワークにアクセスし、文字認識サーバ20と通信する。
撮像部202は、カメラモジュール13を制御することで、被写体を撮像し画像(画像データ)を取得する手段である。撮像部202は、文字認識サーバ20に文字認識を依頼する画像(以下、依頼画像と表記する)の基礎(ソース)となる画像を取得する。
撮像部202は、同一の被写体から複数の基礎画像を取得する。より具体的には、撮像部202は、露出条件を変更しつつ、同一の被写体から複数の基礎画像を取得する。つまり、撮像部202は、露出条件を変更しながら対象物を連写し、複数の基礎画像を取得する。その際、撮像部202は、露出時間やISO(International Organization for Standardization)感度等の露出条件を変更しながら同じ対象物を連写する。
例えば、撮像部202は、図6に示すような複数の基礎画像を取得する。なお、撮像部202は、複数枚の基礎画像を取得するので、ユーザがシャッターボタンを一度押せば、必要な枚数の基礎画像を取得するように動作する。
画像合成部203は、複数の基礎画像を合成することで、1枚の画像を生成する手段である。より具体的には、画像合成部203は、撮像部202により取得された複数の基礎画像を合成し、依頼画像の候補となる画像(以下、候補画像と表記する)を生成する。例えば、画像合成部203は、HDR(High Dynamic Range)合成を実行し、複数枚の基礎画像に係るデータから1枚の画像(候補画像;依頼画像の候補)を生成する。例えば、図6に示す複数の基礎画像を合成すると図7に示すような候補画像が得られる。
画像検証部204は、合成された画像(候補画像)の品質を検証する手段である。具体的には、画像検証部204は、候補画像に「手ぶれ」や「ピント外れ」が生じているか否かを検証する。なお、「手ぶれ」や「ピント外れ」の検出には種々の技術を用いることができる。例えば、画像検証部204は、所謂、画像復元式と称される方法を用いて、候補画像に「手ぶれ」が生じているか検証できる。また、画像検証部204は、特許文献1に開示されるような合焦状態判定方法を用いて候補画像にピント外れが生じているか否かを検証できる。なお、ピント外れの検出方法に関しては、参考文献1(J.L. Pech-Paceco & G. Cristobal Imaging & Vision Dept. "Diatom autofocusing in brightfield microscopy; a comparative study")の3.3節に記載された技術を用いることもできる。
画像検証部204は、例えば、候補画像に「手ぶれ」も「ピント外れ」も生じていない場合に、当該候補画像の品質は高いと判定する。換言するならば、画像検証部204は、候補画像に「手ぶれ」及び「ピント外れ」の少なくともいずれかが生じている場合には、当該候補画像の品質は低いと判定する。
画像検証部204は、候補画像の品質に関する検証をユーザに依頼してもよい。例えば、画像検証部204は、候補画像と共にその品質確認を要求するメッセージを液晶パネル等に表示し、ユーザから当該候補画像を依頼画像に設定するか否かに関する指示を入力する。具体的には、画像検証部204は、液晶パネル等に図8に示すような表示を行い、ユーザからの指示を入力する。
画像検証部204は、候補画像の品質に問題があれば(品質が低ければ)、画像を再撮影する旨をユーザに通知し、撮像部202に対して対象物の再撮影を指示する。つまり、撮像部202は、複数の基礎画像を合成することで生成された候補画像の品質が予め定めた基準(手ぶれ又はピント外れがあり)よりも低い場合には、被写体からの画像を再取得する。候補画像の品質に問題がなければ、画像検証部204は、候補画像を認識範囲決定部205に引き渡す。
認識範囲決定部205は、候補画像の領域のなかから文字認識サーバ20に文字認識を行わせる文字認識範囲を決定する手段である。具体的には、認識範囲決定部205は、候補画像を液晶パネル等に表示すると共に、ユーザが表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を文字認識範囲として決定する。即ち、認識範囲決定部205は、候補画像から文字認識を行う範囲を抽出して、文字認識範囲を決定する手段である。
例えば、認識範囲決定部205は、候補画像を液晶パネル等に表示しつつ、文字認識範囲を入力するような操作を受け付けるユーザインターフェイスを提供する。換言するならば、認識範囲決定部205は、候補画像を液晶パネル等に表示し、ユーザによる画像のトリミングを実行するユーザインターフェイスを提供する。
認識範囲決定部205により提供されるユーザインターフェイスには種々の形態が考えられる。
例えば、図9(a)に示すように、認識範囲決定部205は、候補画像の全体と文字認識範囲入力に係るメッセージを表示する。図9(a)の表示に接したユーザは、OCRにて文字認識を行わせたい領域の左上に触れ、その後、右下に触れる。例えば、ユーザは、図9(b)に示すような押下点21及び押下点22に触れたものとする。ユーザが2点に触れると、認識範囲決定部205は、ユーザから入力された2点を頂点とする矩形形状に囲まれる領域を文字認識範囲とする。図9(b)の例では、文字「ABC」を含む点線で囲まれた範囲が文字認識範囲に設定される。
上記インターフェイスの他にも、ユーザによる一筆書きにより囲まれる領域を文字認識範囲とすることもできる。例えば、図10(a)に示すように、認識範囲決定部205は、候補画像の全体と文字認識範囲入力に係るメッセージを表示する。図10(a)の表示に接したユーザは、文字認識させたい範囲を指で囲うようにタッチパネルを操作する。例えば、図10(b)に示すように、文字「ABC」を含む領域の左上から右上、右下、左下を経由して左上にユーザの指による軌跡が描かれる場合には、点線23で囲まれた範囲が文字認識範囲に設定される。
認識範囲決定部205は、ユーザにより指定された範囲を文字認識範囲と定め、当該範囲を候補画像から切り出す。認識範囲決定部205は、切り出した文字認識範囲に係る画像を、無線通信制御部201(出力部)を介して文字認識サーバ20に送信する。なお、候補画像から切り出した文字認識範囲に係る画像が、上記依頼画像となる。認識範囲決定部205は、自装置(端末10)の識別子(例えば、MAC(Media Access Control)アドレス)を付して依頼画像に係るデータを文字認識サーバ20に送信する。
[文字認識サーバ]
図11は、文字認識サーバ20の処理構成の一例を示す図である。図11を参照すると、文字認識サーバ20は、通信制御部301と、画像管理部302と、文字認識制御部303と、文字認識部304と、を備える。
通信制御部301は、端末10との間の通信を制御する手段である。通信制御部301は、端末10から依頼画像に係るデータを取得すると、当該画像データを画像管理部302に引き渡す。
画像管理部302は、端末10から受信する依頼画像を管理する手段である。具体的には、画像管理部302は、端末10から画像データを受信すると、当該受信した画像データを受信端末ごとに区分して記憶媒体に格納する。
文字認識制御部303は、上記記憶媒体に格納された画像データによる文字認識を文字認識部304に行わせる手段である。具体的には、文字認識制御部303は、上記記憶媒体に格納された画像データを格納された順に読み出し、読み出したデータを文字認識部304に提供する。また、文字認識制御部303は、文字認識部304から出力される結果(認識された文字列)を、文字認識した依頼画像の送信元である端末10に送信する。
文字認識部304は、OCR機能の実行エンジンであり、文字認識に必要な画像変換やパターンマッチング等に係る処理を実行する。文字認識部304は、文字認識の結果を文字認識制御部303に出力する。
[システムの動作]
次に、図12を参照しつつ、第1の実施形態に係る文字認識システムの動作を説明する。図12は、第1の実施形態に係る文字認識システムの動作の一例を示すシーケンス図である。
ステップS01において、端末10は、ユーザからの操作により被写体を撮影する。その際、端末10は、露光条件を変更しながらの連写により複数の基礎画像を取得する。
ステップS02において、端末10は、複数の基礎画像を合成し、1枚の候補画像を生成する。
ステップS03において、端末10は、候補画像の品質を検証する。具体的には、端末10は、候補画像の品質を検証し、候補画像に「手ぶれ」や「ピント外れ」等が発生しているか否かを判定することで、候補画像の品質を検証する。
品質の低い候補画像(ステップS04、N分岐)であれば、端末10は、対象物を再撮影することをユーザに通知(ステップS05)し、ステップS01以降の処理を繰り返す。品質の高い候補画像(ステップS04、Y分岐)であれば、端末10は、文字認証範囲に係る決定を行う(ステップS06)。具体的には、端末10は、図9や図10に示すインターフェイス画面を表示し、ユーザからの操作により文字認識範囲を決定する。
端末10は、候補画像からユーザにより指定された文字認識範囲を切り出し、依頼画像に係るデータを作成する。端末10は、依頼画像に係るデータを文字認識サーバ20に送信する(ステップS07)。つまり、端末10は、クラウドシステムに対し、送信した画像の文字認識を依頼する。
文字認識サーバ20は、受信した画像に対して文字認識を実行する(ステップS08)。
文字認識サーバ20は、認識結果(認識された文字)を端末10に送信する(ステップS09)。
以上のように、第1の実施形態に係る端末10では、複数の基礎画像を取得し、当該複数の画像を合成することで、品質の高い候補画像を生成している。その上で、端末10は、当該候補画像の品質に問題がないか検証し、問題が無い候補画像をユーザに提供(表示)している。さらに、ユーザは、候補画像の領域のうち、真に文字認識を行わせたい範囲を決定する。その結果、ユーザにとって無駄な領域の文字認証が文字認識サーバ20にて実行されることがなくなる。そのため、文字認識サーバ20の高速なレスポンスと高い認識精度を両立することができる。
[第2の実施形態]
続いて、第2の実施形態について図面を参照して詳細に説明する。
第2の実施形態では、端末10が候補画像の中から文字認識範囲を自動的に決定する場合について説明する。
第2の実施形態では、定型的な書類等に追加された文字列を含む範囲を端末10が自動的に検出し、当該検出した範囲を依頼画像とする場合について説明する。なお、第2の実施形態において、システム構成や端末10等のハードウェア構成、処理構成は、第1の実施形態にて説明した構成と同一とすることができるので、図2等に相当する説明は省略する。
第2の実施形態に係る認識範囲決定部205は、上記定型的な書類のテンプレート画像と、ユーザにより撮影された画像(候補画像)と、を比較し、2つの画像にて相違する領域を文字認識範囲に設定する。例えば、図13(a)に示す画像がテンプレート画像であり、図13(b)に示す画像が候補画像(品質に問題がない画像)である。
認識範囲決定部205は、2つの画像の対応する位置(座標)における画素値の差分を算出する。その結果、候補画像の各点においてテンプレート画像から変化のない点の差分値は小さい値となり、変化のある点は差分値が大きくなる。認識範囲決定部205は、差分値が所定の閾値よりも大きな点を数多く含む領域を文字認識範囲に設定する。例えば、図13の例では、12桁の数字が書き込まれた領域31が文字認識範囲に設定される。
なお、実際には、テンプレート画像と候補画像ではそのサイズ(ドット数)が一致するとは限らない。そこで、認識範囲決定部205は、精度良く文字認識範囲を算出するため、テンプレート画像のサイズに候補画像のサイズを変換する幾何変換等を実施した後、文字認識範囲の抽出に係る処理を実行するのが望ましい。
また、2つの画像の微妙な相違を許容するため、複数の画素を1つのグループにまとめ、グループごとの画素値を計算し、2枚の画像間で比較しても良い。例えば、4つの画素を1つのグループとし、4つの画素値の平均値をグループの代表値に設定する(グループの画素値に設定する)。認識範囲決定部205は、2つの画像から同様に算出されたグループの画素値を、文字認識範囲の決定(抽出)に用いることで、両画像の微妙な相違を吸収できる。即ち、認識範囲決定部205は、比較対象となる2枚の画像における解像度を低くし、大まかな範囲の比較とすることで、画像間の微妙な相違を吸収する。
以上のように、第2の実施形態では、端末10が文字認識範囲を自動的に決定する。その結果、ユーザによる文字認識範囲の決定は不要となり利便性が向上する。
上記実施形態にて説明した文字認識システムの構成等は例示であって、システムの構成を限定する趣旨ではない。例えば、スマートフォン等の端末10だけでなく、据え置き型のコンピュータがスキャナから取得した画像を対象としてもよい。但し、この場合、スキャナから取得した候補画像には手ぶれ等の問題は生じないと考えられるため、必要に応じて「画像合成部」や「画像検証部」に係る処理を省略してもよい。つまり、上記実施形態にて説明した、画像合成処理や画像検証処理は省略されてもよい。
あるいは、端末10にて実行される処理のうち一部の処理は外部のサーバ等で実行されてもよい。例えば、複数の画像を合成する処理は、文字認識サーバ20等の外部サーバで実行されてもよい。
上記実施形態では、画像検証部204が候補画像の品質を判定し、品質の低い候補画像が得られた場合には撮像部202により新たな複数枚の基礎画像が取得される。しかし、画像検証部204が撮像部202に画像の再取得を依頼する前に、候補画像の補正を試みて十分高品質な候補画像が得られる場合には、撮像部202に画像の再取得を依頼しなくともよい。この場合、端末10は、画像補正部206を備えることになる(図14参照)。
上記実施形態では、端末10が候補画像の品質を確認しているが、図8に示すようにユーザに候補画像の品質確認を依頼してもよい。また、その場合には、文字認識範囲決定のユーザインターフェイス画面(図9や図10)にて候補画像の品質確認が行われてもよい。つまり、図9等の画面に「再取得」のボタンを設け、当該ボタンが押下された場合に、被写体の画像が再取得されてもよい。
上記実施形態では、撮像部202は、当初から撮像条件を変更しつつ、複数枚の基礎画像を取得しているが、最初は1枚の基礎画像を取得してもよい。あるいは、撮像部202は、被写体の画像を再取得する際には、先の撮像条件とは異なる条件を設定し、被写体から複数の基礎画像を取得してもよい。
上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、例えば各処理を並行して実行する等、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上記実施形態で説明した事項は、相反しない範囲で組み合わせることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
上述の第1の視点に係る端末のとおりである。
[付記2]
前記認識範囲決定部は、
前記取得された画像を表示すると共に、ユーザが前記表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を前記文字認識範囲として決定する、付記1の端末。
[付記3]
前記認識範囲決定部は、
前記取得された画像と予め定めたテンプレート画像を比較し、前記取得された画像と前記テンプレート画像が相違する領域を前記文字認識範囲に決定する、付記1の端末。
[付記4]
前記撮像部は、同一の被写体から複数の画像を取得し、
前記複数の画像を合成することで、1枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、付記1乃至3のいずれか一に記載の端末。
[付記5]
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、付記4の端末。
[付記6]
前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、付記4又は5の端末。
[付記7]
上述の第2の視点に係る文字認識システムのとおりである。
[付記8]
前記認識範囲決定部は、
前記取得された画像を表示すると共に、ユーザが前記表示された画像上で所定の範囲を入力するための画面を表示し、入力指示された所定範囲を前記文字認識範囲として決定する、付記7の文字認識システム。
[付記9]
前記認識範囲決定部は、
前記取得された画像と予め定めたテンプレート画像を比較し、前記取得された画像と前記テンプレート画像が相違する領域を前記文字認識範囲に決定する、付記7の文字認識システム。
[付記10]
前記撮像部は、同一の被写体から複数の画像を取得し、
前記端末は、前記複数の画像を合成することで、1枚の画像を生成する画像生成部をさらに備え、
前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、付記7乃至9のいずれか一に記載の文字認識システム。
[付記11]
前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、付記10の文字認識システム。
[付記12]
前記端末は、前記合成された画像の品質を検証する、画像検証部をさらに備え、
前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、付記10又は11の文字認識システム。
[付記13]
上述の第3の視点に係る端末の制御方法のとおりである。
[付記14]
上述の第4の視点に係るプログラムのとおりである。
なお、付記13の形態及び付記14の形態は、付記1の形態と同様に、付記2の形態~付記6の形態に展開することが可能である。
なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
10、100 端末
11 CPU
12 メモリ
13 カメラモジュール
14 液晶パネル及びタッチパネル
15 無線信号送受信回路
16 アンテナ
17 入出力インターフェイス
18 NIC
20 文字認識サーバ
21、22 押下点
23 点線
31 領域
101、202 撮像部
102、205 認識範囲決定部
103 出力部
201 無線通信制御部
203 画像合成部
204 画像検証部
206 画像補正部
301 通信制御部
302 画像管理部
303 文字認識制御部
304 文字認識部

Claims (11)

  1. 被写体を撮像し画像を取得する、撮像部と、
    前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像を比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定する、認識範囲決定部と、
    前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、
    を備える、端末。
  2. 前記出力部が、前記決定された文字認識範囲のデータであって、解像度を低下させる前のデータを前記文字認識装置に出力する、請求項1の端末。
  3. 前記撮像部は、同一の被写体から複数の画像を取得し、
    前記複数の画像を合成することで、1枚の画像を生成する画像生成部をさらに備え、
    前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、請求項1又は2の端末。
  4. 前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、請求項3の端末。
  5. 前記合成された画像の品質を検証する、画像検証部をさらに備え、
    前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、請求項3又は4の端末。
  6. 文字認識装置と、
    前記文字認識装置に文字認識を依頼する端末と、
    を含み、
    前記端末は、
    被写体を撮像し画像を取得する、撮像部と、
    前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像を比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像相違する領域を前記文字認識装置に文字認識を行わせる文字認識範囲に決定する、認識範囲決定部と、
    前記決定された文字認識範囲のデータを前記文字認識装置に出力する、出力部と、
    を備える、文字認識システム。
  7. 前記撮像部は、同一の被写体から複数の画像を取得し、
    前記端末は、前記複数の画像を合成することで、1枚の画像を生成する画像生成部をさらに備え、
    前記認識範囲決定部は、前記合成された画像から前記文字認識範囲を決定する、請求項6の文字認識システム。
  8. 前記撮像部は、露出条件を変更しつつ、前記同一の被写体から複数の画像を取得する、請求項7の文字認識システム。
  9. 前記端末は、前記合成された画像の品質を検証する、画像検証部をさらに備え、
    前記撮像部は、前記合成された画像の品質が予め定めた基準よりも低い場合には、前記被写体からの画像を再取得する、請求項7又は8の文字認識システム。
  10. 被写体を撮像し画像を取得するステップと、
    前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像を比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定するステップと、
    前記決定された文字認識範囲のデータを前記文字認識装置に出力するステップと、
    含む、端末の制御方法。
  11. 被写体を撮像し画像を取得する処理と、
    前記取得された画像の解像度を低下させることによって得られる解像度を低下させた画像と、前記解像度を低下させた画像に合わせて解像度を低下させたテンプレート画像を比較し、前記解像度を低下させた画像の領域の中で、前記テンプレート画像相違する領域を文字認識装置に文字認識を行わせる文字認識範囲に決定する処理と、
    前記決定された文字認識範囲のデータを前記文字認識装置に出力する処理と、
    をコンピュータに実行させるプログラム。
JP2017048476A 2017-03-14 2017-03-14 端末、文字認識システム、端末の制御方法及びプログラム Active JP7091606B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017048476A JP7091606B2 (ja) 2017-03-14 2017-03-14 端末、文字認識システム、端末の制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017048476A JP7091606B2 (ja) 2017-03-14 2017-03-14 端末、文字認識システム、端末の制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018151925A JP2018151925A (ja) 2018-09-27
JP7091606B2 true JP7091606B2 (ja) 2022-06-28

Family

ID=63679504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017048476A Active JP7091606B2 (ja) 2017-03-14 2017-03-14 端末、文字認識システム、端末の制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7091606B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020158955A1 (ja) * 2019-02-01 2021-12-02 エックスリープ株式会社 情報処理装置
JP2022092119A (ja) 2020-12-10 2022-06-22 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207488A (ja) 1999-01-19 2000-07-28 Ricoh Co Ltd 文字認識方法、装置および記録媒体
JP2000228745A (ja) 1999-02-05 2000-08-15 Matsushita Electric Ind Co Ltd 映像信号処理装置および映像信号処理方法、画像処理装置および画像処理方法、ならびに撮像装置
JP2001202475A (ja) 2000-01-19 2001-07-27 Sharp Corp 文字認識装置及び文字認識装置の制御方法
JP2002352190A (ja) 2001-05-28 2002-12-06 Kenwood Corp 携帯端末装置
JP2005346667A (ja) 2004-06-07 2005-12-15 Sumitomo Electric Ind Ltd ナンバープレート認識処理における文字切り出し方法、文字認識方法、並びにプログラム及び装置
JP2010136221A (ja) 2008-12-05 2010-06-17 Bankutekku Japan Kk イメージ処理システム及びイメージ処理方法
JP2015090625A (ja) 2013-11-06 2015-05-11 株式会社東芝 帳票読取装置、プログラムおよび帳票読取システム
JP2016053875A (ja) 2014-09-04 2016-04-14 富士ゼロックス株式会社 帳票処理装置、帳票処理システム及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000207488A (ja) 1999-01-19 2000-07-28 Ricoh Co Ltd 文字認識方法、装置および記録媒体
JP2000228745A (ja) 1999-02-05 2000-08-15 Matsushita Electric Ind Co Ltd 映像信号処理装置および映像信号処理方法、画像処理装置および画像処理方法、ならびに撮像装置
JP2001202475A (ja) 2000-01-19 2001-07-27 Sharp Corp 文字認識装置及び文字認識装置の制御方法
JP2002352190A (ja) 2001-05-28 2002-12-06 Kenwood Corp 携帯端末装置
JP2005346667A (ja) 2004-06-07 2005-12-15 Sumitomo Electric Ind Ltd ナンバープレート認識処理における文字切り出し方法、文字認識方法、並びにプログラム及び装置
JP2010136221A (ja) 2008-12-05 2010-06-17 Bankutekku Japan Kk イメージ処理システム及びイメージ処理方法
JP2015090625A (ja) 2013-11-06 2015-05-11 株式会社東芝 帳票読取装置、プログラムおよび帳票読取システム
JP2016053875A (ja) 2014-09-04 2016-04-14 富士ゼロックス株式会社 帳票処理装置、帳票処理システム及びプログラム

Also Published As

Publication number Publication date
JP2018151925A (ja) 2018-09-27

Similar Documents

Publication Publication Date Title
KR102126300B1 (ko) 올-인-포커스 이미지를 생성하기 위한 방법 및 장치
US8224069B2 (en) Image processing apparatus, image matching method, and computer-readable recording medium
US10827140B2 (en) Photographing method for terminal and terminal
US10298841B2 (en) Device and method for generating a panoramic image
WO2017080237A1 (zh) 相机成像方法及相机装置
JP6478654B2 (ja) 撮像装置及びその制御方法
KR20110054311A (ko) 영상 처리 방법 및 장치
JP6755787B2 (ja) 画像処理装置、画像処理方法およびプログラム
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
JP7091606B2 (ja) 端末、文字認識システム、端末の制御方法及びプログラム
CN114445315A (zh) 图像质量增强方法和电子设备
WO2021245982A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US10373329B2 (en) Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing
WO2018196854A1 (zh) 一种拍照方法、拍照装置及移动终端
WO2018055659A1 (ja) 画面共有システム、画面共有方法及びプログラム
JP2018125658A (ja) カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム
US20130342735A1 (en) Image processing method and image processing apparatus for performing defocus operation according to image alignment related information
CN114390206A (zh) 拍摄方法、装置和电子设备
CN113824877A (zh) 一种全景深图像合成方法、存储介质及智能手机
US10951825B2 (en) Image photographing method applied to terminal, and terminal device
JP2019070822A (ja) 撮像装置及びその制御方法
CN114143442B (zh) 图像虚化方法、计算机设备、计算机可读存储介质
CN113723416B (zh) 一种图像处理方法、装置、设备及存储介质
JP5539561B2 (ja) 画像処理装置およびその方法
JP2017033477A (ja) 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220530

R151 Written notification of patent or utility model registration

Ref document number: 7091606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151