JP6448674B2 - 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム - Google Patents
文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム Download PDFInfo
- Publication number
- JP6448674B2 JP6448674B2 JP2017011976A JP2017011976A JP6448674B2 JP 6448674 B2 JP6448674 B2 JP 6448674B2 JP 2017011976 A JP2017011976 A JP 2017011976A JP 2017011976 A JP2017011976 A JP 2017011976A JP 6448674 B2 JP6448674 B2 JP 6448674B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- live view
- view image
- processing apparatus
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
Description
本発明は、文字認識可能な画像を撮影する際のガイド表示の制御技術に関する。
近年、帳票等の文書に含まれる文字等の情報を取得する際に、専用のスキャナ等で読み取るのではなく、スマートフォンやタブレットといった携帯型のデバイス(以下、「モバイル端末」と呼ぶ。)に付属するカメラ機能で撮影することが多くなっている。ただし、一般的にモバイル端末のカメラの解像度はスキャナに比べて低い。そのため、A3などの大きな用紙サイズの文書全体を、その後の文字認識処理(OCR処理)において一定精度以上の文字認識が可能な状態で撮影するためには、複数回に分けて撮影する必要がある。
この点、例えば特許文献1には、カメラを動かして撮影した複数の画像をつなぎ合わせて1つの文書画像を生成してOCR処理を行い、文字認識結果が誤っていた場合に誤認識した箇所をズーム撮影して再度OCR処理を行う手法が提案されている。
上記特許文献1の手法は、対象文書内のどの領域の文字情報が重要或いは必要なのかを撮影者自身が予め把握できていることが前提となっている。しかしながら、例えば、撮影者と撮影画像の利用者が異なる場合など、対象文書内のどの領域の文字情報が重要或いは必要なのかを撮影者自身が把握できていないというケースも考えられる。このようなケースでは、対象文書の種類や用途毎に撮影者に撮影してほしい部分を伝えて撮影することになるが、情報伝達ミス等によって所望の撮影画像が取得できない可能性がある。よって、対象文書の全体を網羅する複数の撮影画像を一定以上の画質で得られるようにすることが望ましいといえる。そうなると、モバイル端末を適切な焦点距離で様々な方向に何度も動かしたり、文書全体が撮影できたかどうかを撮影者が判断したりする必要があり、撮影者の負担が大きい。
そこで本発明は、ユーザがモバイル端末で対象文書の全体を複数回に分けて撮影する場合において、OCR処理に適した画質で容易に撮影できるようにすることを目的とする。
本発明に係る情報処理装置は、カメラ機能を有する情報処理装置であって、前記カメラ機能を介して取得されたライブビュー画像を、表示手段に表示させる表示制御手段と、前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定する画像解析手段と、を備え、前記表示制御手段は、前記画像解析手段での解析結果に従って、前記被写体の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、 ことを特徴とする。
本発明によれば、ユーザがモバイル端末で対象文書の全体を複数回に分けて撮影する場合において、OCR処理に適した画質で容易に撮影することができる。
以下、添付図面を参照して、本発明を好適な実施例に従って詳細に説明する。なお、以下の実施例において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。
本実施形態に係る、カメラ機能を有する携帯可能な情報処理装置の一例として、以下ではカメラ付きのモバイル端末を例に説明する。いわゆるタブレットPCやスマートフォンは、無線通信機能などの装備によって自由な場所で撮影やデータ通信などができるモバイル端末の代表例である。
図1は、モバイル端末の外観の一例を示す図である。図1(a)は、表示手段としてのタッチパネル101があるモバイル端末100の表側(正面)を示している。タッチパネル101は、例えば静電容量式のLCD等で構成され、情報の出力(表示)と入力との2つの機能を備えている。図1(b)は、モバイル端末100の裏側(背面)を示している。モバイル端末の背面には、画像を取り込むための撮像用レンズ(以下、「レンズ」)102を備える。本実施例では、モバイル端末100のユーザは、被写体となる文書(ここでは、注文書110)を後述のモバイルアプリケーション(以下、「モバイルアプリ」)を使って撮影する。なお、被写体は、注文書110のような紙文書の他、大判の写真やホワイトボードに書き込まれた文字等であっても良い。後述のモバイルアプリは、被写体の画像を取り込み、タッチパネル101に当該取り込んだ画像を表示することができる。
[ハードウェア構成]
続いて、モバイル端末100のハードウェア構成について説明する。図2は、モバイル端末100のハードウェア構成の一例を示す図である。モバイル端末100は、CPU201、RAM202、ROM203、入出力I/F204、NIC205、カメラ部206、加速度/ジャイロセンサ207で構成され、これら各部はバス208で相互に接続されている。
続いて、モバイル端末100のハードウェア構成について説明する。図2は、モバイル端末100のハードウェア構成の一例を示す図である。モバイル端末100は、CPU201、RAM202、ROM203、入出力I/F204、NIC205、カメラ部206、加速度/ジャイロセンサ207で構成され、これら各部はバス208で相互に接続されている。
CPU201は、各種のプログラムを実行して、様々な機能を実現する演算処理装置である。RAM202は、各種の情報を記憶する読み書き可能なメモリである。また、RAM202は、CPU201のワークエリアとしても利用される。ROM203は、OSや上述の撮影アプリ等の各種プログラムを記憶するメモリである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。また、CPU201は、フラッシュメモリ、HDD、SSDといった外部記憶装置(不図示)に記憶されているプログラムをRAM202に読み込んで実行することもできる。なお、モバイル端末100の機能及び後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。
入出力I/F204は、タッチパネル101に対して表示データを出力したり、タッチパネル101からの入力情報を受け付けるインタフェースである。NIC(Network Interface Card)205は、モバイル端末100をネットワーク(不図示)に接続するためのインタフェースである。カメラ部206は、レンズ102を介して被写体の画像をモバイル端末100に取り込む。バス208は、上述した各部を繋ぐデータ通信路である。加速度/ジャイロセンサ207は、モバイル端末100の姿勢情報を検出するセンサである。
[ソフトウェア構成]
次に、モバイル端末100のソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。モバイル端末100のソフトウェアは、データ管理モジュール300とモバイルアプリ310で構成される。そして、モバイルアプリ310は、メイン制御、表示制御、操作情報取得、画像取得、画像解析、画像結合の各機能に対応する複数のモジュール311〜316で構成される。前述の通り、これら各モジュールに相当するプログラムは、ROM203等に記憶されている。
次に、モバイル端末100のソフトウェア構成について説明する。図3は、モバイル端末100のソフトウェア構成の一例を示す図である。モバイル端末100のソフトウェアは、データ管理モジュール300とモバイルアプリ310で構成される。そして、モバイルアプリ310は、メイン制御、表示制御、操作情報取得、画像取得、画像解析、画像結合の各機能に対応する複数のモジュール311〜316で構成される。前述の通り、これら各モジュールに相当するプログラムは、ROM203等に記憶されている。
データ管理モジュール300は、カメラ部206で撮影された画像データやモバイルアプリ310における処理データ(アプリデータ)などを管理する。モバイルアプリ310は、不図示のOSが提供する制御API(Application Programming Interface)を利用することで、データ管理モジュール300が管理する各種データにアクセスする。
ユーザは、モバイル端末100のOSのインストール機能を利用することによって、モバイルアプリ310のダウンロードとインストールが可能である。モバイルアプリ310は、カメラ部206を用いて対象文書の撮影を行い、得られた撮影画像データに対して各種の処理を行う。
メイン制御モジュール311は、モバイルアプリ310を統括的に制御するモジュールであり、以下の各モジュール312〜316に対する指示及び管理を行う。表示制御モジュール312は、メイン制御モジュール311からの指示に従い、モバイルアプリ310のユーザインタフェース(UI)を提供する。図4は、モバイルアプリ310起動時のタッチパネル101の表示状態を示す図である。いま、タッチパネル101の表示・操作領域400にはカメラ部206の撮像センサを介して取り込まれた画像(ライブビュー画像)が表示され、ユーザは当該ライブビュー画像に対して各種操作を行うことができる。また、表示制御モジュール312は、OCRに適した画像を撮影するための操作ガイドを、表示中のライブビュー画像に重ねて表示する。なお、モバイルアプリ310のUIの形態(位置、大きさ、範囲、配置、表示内容など)は、図示するものに限定されないことはいうまでもない。
操作情報取得モジュール313は、タッチパネル101を介したユーザ操作に係る入力情報を取得し、取得した入力情報をメイン制御モジュール311に渡す。例えば、表示・操作領域400をユーザが手で触れると、操作情報取得モジュール313は、触れられた位置を検知し、当該検知した位置の情報をメイン制御モジュール311に送信する。
画像取得モジュール部314は、カメラ部206の撮像センサによって取り込まれた画像を取得する。さらに、例えば保存用の画像よりも解像度を落としてディスプレイに表示するような場合など、取得した画像を必要に応じて任意の解像度に変換する。
画像解析モジュール部315は、画像取得モジュール部314が取得した撮影画像に対して様々な画像処理を行う。例えば、撮影領域を追跡するための特徴点抽出、文字情報を取得するための文字認識(OCR)、被写体である文書の角(四隅)や端(辺)を検出するための直線認識などを行う。
画像結合モジュール316は、撮影画像を繋ぎ合わせて対象文書の全体に対応する一つの画像〈全体画像〉を生成する。このとき、撮影画像に対して、被写体以外の領域を除外する紙面検出や拡大・縮小、歪み部分を補正する歪み補正などの処理も行う。
[撮影フロー]
続いて、モバイル端末100を用いて帳票等の対象文書を複数回に分けて撮影して、当該対象文書の全体画像が生成するまでの撮影フローについて説明する。図5は、複数回の撮影のうち1回目の撮影を行う際の処理の流れ(1枚目の撮影画像を取得するまでの処理の流れ)を示すフローチャートである。本フローは、例えば、ユーザがモバイルアプリ310を起動させることをトリガーに開始する。
続いて、モバイル端末100を用いて帳票等の対象文書を複数回に分けて撮影して、当該対象文書の全体画像が生成するまでの撮影フローについて説明する。図5は、複数回の撮影のうち1回目の撮影を行う際の処理の流れ(1枚目の撮影画像を取得するまでの処理の流れ)を示すフローチャートである。本フローは、例えば、ユーザがモバイルアプリ310を起動させることをトリガーに開始する。
ステップ501では、メイン制御モジュール311が、カメラ部206の撮像センサを介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかを判定する。ライブビュー画像を取得する間隔(カメラ部206の撮像センサが画像を取り込む間隔)は例えば100msec毎といった所定の間隔である。ライブビュー画像の取得タイミングであると判定されれば、ステップ502に進む。
ステップ502では、画像取得モジュール314が、ライブビュー画像のデータを取得する。取得したライブビュー画像は必要に応じて解像度変換処理され、表示制御モジュール312によってタッチパネル101の表示・操作領域400に表示される。続くステップ503では、表示制御モジュール312が、撮り始めの位置(初期位置)を合わせるための位置決めガイドを、表示中のライブビュー画像に重ねて表示する。具体的には、対象文書の角(ここでは左上隅)が表示・操作領域400内の特定位置に入るようユーザに操作を促すガイド表示を、ライブビュー画像に重ねて表示する。図6は、位置決め用ガイドの一例を示した図であり、L字型の領域601が異なる色で強調表示されると共に、当該領域内に対象文書の左上の角が入るようにモバイル端末100の移動を促すメッセージ602が表示されている。実施例では、対象文書の左上の角を初期位置としたが、左上以外の角を初期位置として撮影を開始するようにしてもよい。左上以外の角を初期位置とする場合は、それに応じて位置決めガイドの内容(領域601の形状など)も変わることはいうまでもない。
ステップ504では、画像解析モジュール315が、位置決めガイドに従ったユーザ操作がなされたかどうかを、表示中のライブビュー画像を解析して判定する。具体的には、位置決めガイドにおける領域601を対象に、文書の角(左上隅)の検出処理を行う。この角検出には直線抽出などの公知の画像解析手法を適用すればよく、表示中のライブビュー画像のうち位置決めガイドの領域601部分に対して実行する。なお、CPU201の性能に余裕があれば、表示中のライブビュー画像の全体に対して角検出を行ってもよい。判定の結果、角が検出された場合はステップ505に進む。一方、角が検出されなかった場合はステップ501に戻ってライブビュー画像の取得からやり直す。
ステップ505では、画像解析モジュール315が、表示中のライブビュー画像がOCR処理に適した画像であるかどうかを見極めるための画像解析を行う。具体的には、公知の像域分離手法等によって文字が含まれる領域を抽出してその高さを求めて文字サイズを特定したり、文字部分の画像のエッジを抽出して当該エッジの鮮明度を求めたりする。さらには、表示中のライブビュー画像に対して実際にOCR処理を行い、抽出された文字の信頼度が一定以上かどうかを求めてもよい。これら解析処理の内容は、CPU201の性能なども考慮して決定される。
ステップ506では、画像解析モジュール315が、ステップ506での解析結果のうち文字のサイズ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字サイズがOCR処理に適した所定の文字サイズであるかどうかを判定する。所定の文字サイズであるかどうかは、例えばnポイント±2ポイントの範囲内かどうかによって判断する。表示中のライブビュー画像に含まれる文字のサイズがOCR処理に適したサイズではないと判定した場合は、ステップ507に進む。一方、文字のサイズがOCR処理に適したサイズであると判定した場合は、ステップ508に進む。
ステップ507では、表示制御モジュール312が、ガイド表示の内容を、撮像用レンズ102と対象文書との距離が適切になるような操作をユーザに促す内容(撮影距離ガイド)に変更する。具体的には、上述の領域601の表示はそのままに、メッセージ602の内容を変更する。図7は、撮影距離ガイドのメッセージの一例を示す図である。例えば、ステップ506で文字サイズが小さすぎると判定された場合は、図7(a)に示すように「端末を文書に近づけてください」といったメッセージを表示する。また、文字サイズが大きすぎると判定された場合は、図7(b)に示すように「端末を文書から遠ざけてください」といったメッセージを表示する。表示処理の完了後はステップ501に戻る。
ステップ508では、画像解析モジュール315が、ステップ506での解析結果のうち文字のエッジ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字が一定以上の文字認識率が確保できる程度の鮮明度であるかどうかを判定する。表示中のライブビュー画像に含まれる文字の鮮明度が悪くOCR処理に適した画質ではないと判定した場合は、ステップ509に進む。一方、文字の鮮明度が良くOCR処理に適した画質であると判定した場合は、ステップ510に進む。
ステップ508では、画像解析モジュール315が、ステップ506での解析結果のうち文字のエッジ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字が一定以上の文字認識率が確保できる程度の鮮明度であるかどうかを判定する。表示中のライブビュー画像に含まれる文字の鮮明度が悪くOCR処理に適した画質ではないと判定した場合は、ステップ509に進む。一方、文字の鮮明度が良くOCR処理に適した画質であると判定した場合は、ステップ510に進む。
文字の鮮明度が悪い原因としては手ブレが考えられるため、ステップ509では表示制御モジュール312が、ガイド表示の内容を、対象文書における文字の鮮明度が良くなるように(手ブレを止めるように)ユーザに促す内容(静止指示ガイド)に変更する。図8は、静止指示ガイドにおけるメッセージの一例を示す図である。図8に示すように、上述の領域601の表示はそのままに、メッセージ602に代えて、「端末を静止してください」といった内容のメッセージ801に変更する。
ステップ510では、画像結合モジュール316が、ステップ502で取得したライブビュー画像を、後述の結合処理に用いられる複数の撮影画像のうち1枚目の撮影画像として保存(RAM202に格納)する。
以上が、1枚目の撮影画像を取得するまでの処理の内容である。なお、本実施例ではOCR処理に適したと判定された段階でライブビュー画像を撮影画像として保存しているが、例えばユーザの撮影指示を受けて保存するようにしてもよい。この点は後述の図9のフローについても同じである。1枚目の撮影画像が取得されると、初期位置を起点にモバイル端末100を動かしながら対象文書の全体を撮影する処理(2枚目以降の撮影画像を取得する処理)が実行される。本実施例では、対象文書の左上の角を起点、左下の角を終点として計6回の撮影を行って全6枚の撮影画像を取得し、その後に6枚の撮影画像を結合して1枚の全体画像を生成する場合を例に説明する。なお、このような撮影位置の起点や終点、総撮影回数、撮影順序といった基本情報は予め設定されRAM202等に保持されるものとする。図9は、2枚目以降の撮影画像を取得する処理の流れを示すフローチャートである。
ステップ901では、画像解析モジュール315が、画像結合モジュール316に保持されている撮影画像に基づき、文書全体の撮影が完了したかどうかを判定する。計6回の撮影を行う本実施例では、6枚分の撮影画像が保存されていれば、文書全体の撮影が完了したと判定される。文書全体の撮影が完了している場合は、ステップ917に進む。一方、未撮影の領域がある場合は、ステップ902に進む。
ステップ902では、メイン制御モジュール311が、前述の501と同様、カメラ部206を介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかを判定する。ライブビュー画像の所得タイミングであると判定されれば、ステップ903に進む。
ステップ903では、画像取得モジュール314が、ライブビュー画像のデータを取得する。取得したライブビュー画像は情報表示モジュール312によってタッチパネル101の表示・操作領域400に表示される。続くステップ904では、表示制御モジュール312が、現在表示中のライブビュー画像のうち既に保存された撮影画像に対応する領域(撮影済み領域)を識別可能に表示する。前述のとおり、カメラ部206がライブビュー画像を取得する間隔は100ms毎といった短い間隔である。そのため、モバイル端末100をユーザが移動させても現在表示中のライブビュー画像内に保存済み撮影画像の一部が含まれている状態になる。そこで、保存済み撮影画像と現在表示中のライブビュー画像の両方に対して特徴量抽出処理を行い、抽出した特徴点同士を比較(マッピング処理)する。これにより、現在表示中のライブビュー画像のうち保存済み撮影画像が占める領域を特定し、当該特定された領域をグレイアウトするなどして識別可能に表示する。図10は、現在表示中のライブビュー画像において、保存済み撮影画像が占める領域が識別可能に表示された状態を示している。図10において、少し暗めにグレイアウト表示された矩形の領域1001が、保存済み撮影画像の領域を表している。なお、保存済みの撮影画像が占める部分をユーザが認識できればよいので、例えば保存済みの撮影画像が占める部分はそのまま表示し、これから撮影してほしい未保存の撮影領域の方を強調表示してもよい。
ステップ905では、画像解析モジュール315が、識別可能に表示された撮影済み領域が現在表示中のライブビュー画像において占める割合を求め、求めた割合が一定範囲内であるかどうかを判定する。ここで一定範囲は例えば10%といった割合であり、保存された複数の撮影画像同士を結合する際のマージンを考慮してユーザが任意に設定すればよい。撮影済み領域の占める割合が一定範囲内であればステップ909に進む。一方、撮影済み領域の占める割合が一定範囲外であればステップ906に進む。
ステップ905では、画像解析モジュール315が、識別可能に表示された撮影済み領域が現在表示中のライブビュー画像において占める割合を求め、求めた割合が一定範囲内であるかどうかを判定する。ここで一定範囲は例えば10%といった割合であり、保存された複数の撮影画像同士を結合する際のマージンを考慮してユーザが任意に設定すればよい。撮影済み領域の占める割合が一定範囲内であればステップ909に進む。一方、撮影済み領域の占める割合が一定範囲外であればステップ906に進む。
ステップ906では、画像解析モジュール315が、移動方向側の対象文書の端(ここでは右上隅の角)が現在表示中のライブビュー画像内に含まれるかどうかを判定する。具体的な判定手法は、前述のステップ504と同じである。ここで、「角」ではなく「端」としているのは、対象文書を例えば縦方向と横方向にそれぞれ3分割し計9回に分けて撮影するようなケースでは、角ではなく左右の端が検出されたことを契機として、次の移動方向を指し示すガイド表示が必要になるためである。移動方向側の対象文書の端が検出された場合は、ステップ909に進む。一方、移動方向側の対象文書の端が検出されない場合はステップ907に進む。
ステップ907では、画像解析モジュール315が、次に撮影すべき領域(未撮影領域)が現在表示中のライブビュー画像に対してどの方向にあるかを、上述の基本情報を参照して特定する。そして、続くステップ908では、表示制御モジュール312が、特定された方向にモバイル端末を移動するようユーザに促す撮影方向ガイドを表示する。図10において、右向きの矢印1002と白抜き文字のメッセージを含んだ矩形領域1003が、本ステップで表示される撮影方向ガイドの一例である。このような撮影方向ガイドが表示されることによってユーザは、モバイル端末100をどちらの方向に移動させればよいかを瞬時に理解することができる。また、上記ガイド表示に代えて、又は併せて、音声や振動などで移動させるべき方向を通知してもよい。撮影方向ガイドが表示されると、ステップ902に戻る。
ステップ909では、表示制御モジュール312が、モバイル端末100の静止をユーザに促す静止指示ガイドを表示する。図11は、静止指示ガイドの一例を示す図である。図11(a)は撮影済み領域の割合が一定範囲内であると判定された場合(ステップ905でYes)の静止指示ガイド、同(b)は移動方向側の対象文書の角が検出された場合(ステップ906でYes)の静止指示ガイドである。図11(a)の例では、対象文書の右上の角が未だ検出されていない。しかし、グレイアウト表示されている撮影済み領域1101の割合が少なくなり、表示中のライブビュー画像全体の10%となったことから、「STOP」のマーク1102と「端末を静止してください」のメッセージ1103が、静止指示ガイドとして表示されている。一方、図11(b)の例では、移動方向側の対象文書の端(すなわち右端)1104、さらには右上の角が検出されている。したがって、グレイアウト表示されている撮影済み領域1101の割合は10%より大きいものの、「STOP」のマーク1102と「端末を静止してください」のメッセージ1103が、静止指示ガイドとして表示されている。
ステップ910では、ステップ902と同様、メイン制御モジュール311が、カメラ部206を介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかが判定される。ライブビュー画像の所得タイミングであると判定されれば、ステップ911にて画像取得モジュール314が、ライブビュー画像のデータを取得する。取得したライブビュー画像は表示制御モジュール312によってタッチパネル101の表示・操作領域400に表示される。
そして、ステップ912では、画像解析モジュール315が、前述のステップ505と同様、ステップ911で取得され現在表示中のライブビュー画像がOCR処理に適した画像であるかどうかを見極めるための画像解析を行う。続くステップ913では、画像解析モジュール315が、前述のステップ506と同様、ステップ912の解析結果のうち文字のサイズ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字サイズがOCR処理に適した所定の文字サイズであるかどうかを判定する。表示中のライブビュー画像に含まれる文字のサイズがOCR処理に適したサイズではないと判定した場合は、ステップ914に進む。一方、文字のサイズがOCR処理に適したサイズであると判定した場合は、ステップ915に進む。そして、ステップ914では、表示制御モジュール312が、前述のステップ507と同様、撮像用レンズ102と対象文書との距離が適切になるようにユーザに操作を促すための撮影距離ガイドを表示する。
ステップ915では、画像解析モジュール315が、前述のステップ508と同様、ステップ912の解析結果のうち文字のエッジ情報に基づき、表示中のライブビュー画像の文字領域内の文字が一定の文字認識率が得られる程度に鮮明であるかどうかを判定する。表示中のライブビュー画像に含まれる文字の鮮明度が悪くOCR処理に適した画質ではないと判定した場合は、次のライブビュー画像を取得すべくステップ902に戻る。一方、文字の鮮明度が良くOCR処理に適した画質であると判定した場合は、ステップ916に進む。
ステップ916では、画像結合モジュール316が、前述のステップ510と同様、ステップ911で取得したライブビュー画像のデータを、結合処理で使用する撮影画像として保存(RAM202に格納)する。画像データの保存後は、ステップ901に戻る。このようにして、ステップ901からステップ916までの各処理を繰り返すことにより、対象文書の全体を網羅し、かつ、OCR処理に適した画質の撮影画像データが取得・保存される。図12は、図1(b)に示す被写体としての注文書110を6回に分けて撮影した場合に取得・保存される全6枚分の撮影画像を示している。図12において丸囲みの番号は撮影順を示し、前述の通り、左上の角から始まって左下の角で終わっている。また、図12において太線の矢印1201〜1203は、対象文書の全体の撮影が完了するまでの間にステップ908で順次表示される撮影方向ガイドが示す方向を表している。対象文書の端(角)に保存済み撮影領域が到達すると、それまでと異なる方向がガイド表示されることが分かる。ユーザは、注文書110の左上隅を最初に撮影すると、撮影方向ガイドに従ってモバイル端末100を、まず右へ移動し、右端に達したら下へ移動し、下端に達したら左へと移動して、注文書110の全体を撮影することになる。
そして、ステップ917では、画像結合モジュール316が、保存した全撮影画像を結合(合成)して、対象文書の全体に対応する全体画像を生成する。図13は、全6枚の撮影画像を結合することで、1枚の全体画像が出来上がる様子を示している。それぞれの撮影画像同士は重なり部分をもっており、例えば、撮影画像1301と1302との間では一点鎖線で示す矩形1310の部分が重複し、撮影画像1301と1306との間では一点鎖線で示す矩形1311の部分が重複している。そのため、各撮影画像の特徴量に基づき重なり部分を特定した上で、図13の下部に示すような一つの画像1320に結合する。このとき、出来上がった全体画像に対するOCR処理の文字認識精度を上げるために、文字が存在しない部分で繋ぎ合わせたり、各撮影画像の倍率を調整したりしてもよい。さらには、他の撮影画像との重なり部分がなるべく多くなるようにガイド表示を制御し、取得・保存された各撮影画像のうち他の撮影画像との重複部分については画質の良い方を結合時に採用するようにしてもよい。
<変形例>
上述の実施例における撮影方向ガイドは、モバイル端末100を動かす方向を上下や左右の矢印で指示するだけであった。これに代えて、次に撮影するべき未撮影領域の中心点に向いた矢印を表示するようにしてもよい。これにより細かな移動方向をユーザに指示することができる。さらには、モバイル端末100の動きに合わせ、中心点からの距離が近づくに応じて表示する矢印の長さを徐々に短くしてもよい。これによりモバイル端末100の移動速度を緩めることをユーザに促すことができる。図14は、本変形例に係る撮影方向ガイドの表示の一例を示す図である。図14において、黒丸1401は次に撮影するべき領域の中心点を示し、当該中心点1401に向かって、移動方向を指示する矢印1402が表示されている。ユーザが、矢印1402に従ってモバイル端末100を動かすと、中心点1401からの距離に応じて、矢印1402の長さが短くなる。
上述の実施例における撮影方向ガイドは、モバイル端末100を動かす方向を上下や左右の矢印で指示するだけであった。これに代えて、次に撮影するべき未撮影領域の中心点に向いた矢印を表示するようにしてもよい。これにより細かな移動方向をユーザに指示することができる。さらには、モバイル端末100の動きに合わせ、中心点からの距離が近づくに応じて表示する矢印の長さを徐々に短くしてもよい。これによりモバイル端末100の移動速度を緩めることをユーザに促すことができる。図14は、本変形例に係る撮影方向ガイドの表示の一例を示す図である。図14において、黒丸1401は次に撮影するべき領域の中心点を示し、当該中心点1401に向かって、移動方向を指示する矢印1402が表示されている。ユーザが、矢印1402に従ってモバイル端末100を動かすと、中心点1401からの距離に応じて、矢印1402の長さが短くなる。
なお、本変形例のガイド表示を行う場合の制御は、以下の通りである。まず、未撮影領域の方向の特定(ステップ907)において前述の基本情報を参照しつつ、撮影画像同士にどれだけの重なりをもたせるかを考慮して、次に撮影する領域の中心点を決定する。そして、撮影方向ガイドの表示(ステップ908)において、決定された中心点までの距離と方向に基づき、次に移動すべき方向と距離を示す矢印と中心点を表示する。
以上の通り本実施例によれば、対象文書の全体を複数回に分けて撮影する場合において、ユーザはガイド表示に従ってモバイル端末を動かすだけで、OCR処理に適した画質の撮影画像を容易に得ることができる。
<その他の実施例>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
Claims (15)
- カメラ機能を有する情報処理装置であって、
前記カメラ機能を介して取得されたライブビュー画像を、表示手段に表示させる表示制御手段と、
前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定する画像解析手段と、
を備え、
前記表示制御手段は、前記画像解析手段での解析結果に従って、前記被写体の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、
ことを特徴とする情報処理装置。 - 前記画像解析手段は、前記ライブビュー画像がOCR処理に適した画像であるかどうかを、当該ライブビュー画像内の前記被写体の画像に含まれる文字領域の文字サイズに基づいて判定し、
前記表示制御手段は、前記文字サイズがOCR処理に適した文字サイズではないと判定された場合、カメラと前記被写体との距離が適切になるような操作をユーザに促すガイド表示を行う
ことを特徴とする請求項1に記載の情報処理装置。 - 前記表示制御手段は、
前記文字サイズが小さすぎるためにOCR処理に適した文字サイズではないとの判定であった場合は、前記カメラと前記被写体との距離が近くなるような操作をユーザに促すガイド表示を行ない、
前記文字サイズが大きすぎるためにOCR処理に適した文字サイズではないとの判定であった場合は、前記カメラと前記被写体との距離が遠くなるような操作をユーザに促すガイド表示を行なう
ことを特徴とする請求項2に記載の情報処理装置。 - 前記画像解析手段は、OCR処理に適した画像であるかどうかを、前記ライブビュー画像内の前記被写体の画像に含まれる文字領域内の文字の鮮明度に基づいて判定し、
前記表示制御手段は、前記文字の鮮明度がOCR処理に適した鮮明度でないと判定された場合、カメラの静止をユーザに促すガイド表示を行う
することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。 - 前記表示制御手段は、前記被写体の撮影を行う場合、前記ライブビュー画像における前記被写体の初期位置を合わせるためのガイド表示を行い、
前記画像解析手段は、表示中のライブビュー画像を解析して、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされていた場合に、前記ライブビュー画像がOCR処理に適した画像であるかどうかの前記判定を行う
ことを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。 - 前記画像解析手段は、前記初期位置を合わせるためのガイド表示において示される、前記ライブビュー画像内の所定の領域を対象に前記被写体の角を検出する処理を行い、角が検出された場合に、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされたと判定する、ことを特徴とする請求項5に記載の情報処理装置。
- 前記複数回に分けて撮影された複数の撮影画像を保持し、当該保持した複数の撮影画像を結合して、前記被写体の全体に対応する画像を生成する画像結合手段をさらに備え、
前記画像結合手段は、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされていた場合であって、前記ライブビュー画像がOCR処理に適した画像であると判定された場合に、当該ライブビュー画像を、1枚目の撮影画像として保持する
ことを特徴とする請求項5又は6に記載の情報処理装置。 - 前記表示制御手段は、表示する前記ライブビュー画像のうち撮影済みの領域を識別可能に表示することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
- 前記複数回に分けて撮影する場合、2枚目以降の撮影画像を取得するための撮影において、
前記画像解析手段は、前記撮影済みの領域が前記ライブビュー画像において占める割合を求め、当該割合が一定範囲内かどうかを判定し、
前記表示制御手段は、前記割合が一定範囲内であった場合、カメラの静止をユーザに促すガイド表示を行う
ことを特徴とする請求項8に記載の情報処理装置。 - 前記画像解析手段は、前記割合が一定範囲外であった場合、前記ライブビュー画像に対し前記被写体の端を検出する処理をさらに行い、
前記表示制御手段は、前記検出において前記端が検出された場合、前記カメラの静止をユーザに促すガイド表示を行う
ことを特徴とする請求項9に記載の情報処理装置。 - 前記画像解析手段は、前記検出において前記端が検出されなかった場合、次に撮影すべき未撮影領域の方向を特定する処理をさらに行い、
前記表示制御手段は、前記特定された方向に前記カメラの移動を促すガイド表示を行う、
ことを特徴とする請求項10に記載の情報処理装置。 - 前記表示制御手段は、前記特定された方向に前記カメラの移動を促すガイド表示として、前記未撮影領域の中心点に向いた矢印を表示することを特徴とする請求項11に記載の情報処理装置。
- 前記表示制御手段は、前記矢印の長さを、前記中心点からの距離が近づくのに応じて短くすることを特徴とする請求項12に記載の情報処理装置。
- カメラ機能を有する情報処理装置における表示制御方法であって、
前記カメラ機能を介して取得されたライブビュー画像を、前記情報処理装置が備える表示手段に表示させるステップと、
前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定するステップと、
を含み、
前記表示させるステップでは、前記解析の結果に従って、前記被写体である文書の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、
ことを特徴とする表示制御方法。 - コンピュータを、請求項1乃至13のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017011976A JP6448674B2 (ja) | 2017-01-26 | 2017-01-26 | 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム |
US15/868,168 US10291843B2 (en) | 2017-01-26 | 2018-01-11 | Information processing apparatus having camera function and producing guide display to capture character recognizable image, control method thereof, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017011976A JP6448674B2 (ja) | 2017-01-26 | 2017-01-26 | 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018121233A JP2018121233A (ja) | 2018-08-02 |
JP6448674B2 true JP6448674B2 (ja) | 2019-01-09 |
Family
ID=62906712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017011976A Active JP6448674B2 (ja) | 2017-01-26 | 2017-01-26 | 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10291843B2 (ja) |
JP (1) | JP6448674B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6794284B2 (ja) * | 2017-01-31 | 2020-12-02 | キヤノン株式会社 | カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム |
US10904449B2 (en) * | 2017-07-31 | 2021-01-26 | Disney Enterprises, Inc. | Intrinsic color camera |
US10733469B2 (en) | 2017-12-29 | 2020-08-04 | Idemia Identity & Security USA LLC | Capturing digital images of documents |
KR20200100918A (ko) | 2019-02-19 | 2020-08-27 | 삼성전자주식회사 | 카메라를 이용하는 어플리케이션을 통해 다양한 기능을 제공하는 전자 장치 및 그의 동작 방법 |
JP7368280B2 (ja) | 2020-03-10 | 2023-10-24 | 未来工業株式会社 | 資材注文システム及び資材注文方法 |
CN113496246A (zh) * | 2020-08-17 | 2021-10-12 | 国为(南京)软件科技有限公司 | 一种基于显示屏显示的图像识别方法 |
CN112560728B (zh) * | 2020-12-22 | 2023-07-11 | 上海幻电信息科技有限公司 | 目标对象识别方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07220025A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 画像処理装置 |
GB9711022D0 (en) * | 1997-05-28 | 1997-07-23 | Rank Xerox Ltd | Text/image selection from document images |
JP2002024762A (ja) | 2000-06-30 | 2002-01-25 | Toshiba Corp | 文書認識装置及びその方法 |
US20020131636A1 (en) * | 2001-03-19 | 2002-09-19 | Darwin Hou | Palm office assistants |
GB2382879A (en) * | 2001-12-06 | 2003-06-11 | Hewlett Packard Co | Image capture device with capture field illumination |
US7343049B2 (en) * | 2002-03-07 | 2008-03-11 | Marvell International Technology Ltd. | Method and apparatus for performing optical character recognition (OCR) and text stitching |
CN100338619C (zh) * | 2002-08-07 | 2007-09-19 | 松下电器产业株式会社 | 字符识别处理设备、字符识别处理方法和便携式终端设备 |
JP2007266667A (ja) * | 2006-03-27 | 2007-10-11 | Nec Electronics Corp | カメラ付き携帯機器、その制御方法及びその撮影支援方法 |
US8358843B2 (en) * | 2011-01-31 | 2013-01-22 | Yahoo! Inc. | Techniques including URL recognition and applications |
JP2013070212A (ja) * | 2011-09-22 | 2013-04-18 | Fuji Xerox Co Ltd | 画像処理装置、画像処理プログラム |
US9386235B2 (en) * | 2013-11-15 | 2016-07-05 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
US10318613B2 (en) * | 2015-08-25 | 2019-06-11 | Myscript | System and method of digital note taking |
JP6614500B2 (ja) * | 2016-09-28 | 2019-12-04 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置、携帯端末、画像読取方法及び画像読取プログラム |
-
2017
- 2017-01-26 JP JP2017011976A patent/JP6448674B2/ja active Active
-
2018
- 2018-01-11 US US15/868,168 patent/US10291843B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10291843B2 (en) | 2019-05-14 |
JP2018121233A (ja) | 2018-08-02 |
US20180213147A1 (en) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6448674B2 (ja) | 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム | |
US8786754B2 (en) | Information processing apparatus, method, and computer-readable storage medium for controlling captured image display | |
CN109040474B (zh) | 照片显示方法、装置、终端及存储介质 | |
KR102059598B1 (ko) | 디지털 촬영 장치 및 그의 제어 방법 | |
KR20150005270A (ko) | 전자 장치에 의해 촬영된 이미지들을 프리뷰하는 방법 및 이를 위한 전자 장치 | |
JP2011244046A (ja) | 撮像装置、画像処理方法、及びプログラム記憶媒体 | |
CN108932701B (zh) | 信息处理装置、信息处理方法和非暂时性存储介质 | |
CN103034042A (zh) | 一种全景拍摄方法及装置 | |
US9007508B2 (en) | Portable device, photographing method, and program for setting a target region and performing an image capturing operation when a target is detected in the target region | |
JP2018046337A (ja) | 情報処理装置、プログラム及び制御方法 | |
JP2006094082A (ja) | 画像撮影装置およびプログラム | |
WO2018196854A1 (zh) | 一种拍照方法、拍照装置及移动终端 | |
EP2200275B1 (en) | Method and apparatus of displaying portrait on a display | |
US10373329B2 (en) | Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing | |
JP6483661B2 (ja) | 撮像制御装置、撮像制御方法およびプログラム | |
JP6794284B2 (ja) | カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム | |
JP2013149034A (ja) | 画像表示装置、画像表示方法及びプログラム | |
TW201714074A (zh) | 使用手勢的拍照方法、系統與電子裝置 | |
JP2012243266A (ja) | 電子機器及び表示方法 | |
JP6779798B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2015102915A (ja) | 情報処理装置、制御方法およびコンピュータプログラム | |
CN113723416B (zh) | 一种图像处理方法、装置、设备及存储介质 | |
JP6624861B2 (ja) | 画像処理装置、制御方法およびプログラム | |
JP6128929B2 (ja) | 撮像装置及びその制御方法並びにプログラム | |
JP2018056784A (ja) | 画像読取装置、画像読取方法及び画像読取プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181204 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6448674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |