JP6448674B2

JP6448674B2 - 文字認識可能な画像を撮影するためのガイド表示を行う、カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム

Info

Publication number: JP6448674B2
Application number: JP2017011976A
Authority: JP
Inventors: 大次郎宮本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-01-26
Filing date: 2017-01-26
Publication date: 2019-01-09
Anticipated expiration: 2037-01-26
Also published as: US10291843B2; JP2018121233A; US20180213147A1

Description

本発明は、文字認識可能な画像を撮影する際のガイド表示の制御技術に関する。

近年、帳票等の文書に含まれる文字等の情報を取得する際に、専用のスキャナ等で読み取るのではなく、スマートフォンやタブレットといった携帯型のデバイス（以下、「モバイル端末」と呼ぶ。）に付属するカメラ機能で撮影することが多くなっている。ただし、一般的にモバイル端末のカメラの解像度はスキャナに比べて低い。そのため、A3などの大きな用紙サイズの文書全体を、その後の文字認識処理（OCR処理）において一定精度以上の文字認識が可能な状態で撮影するためには、複数回に分けて撮影する必要がある。

この点、例えば特許文献１には、カメラを動かして撮影した複数の画像をつなぎ合わせて１つの文書画像を生成してOCR処理を行い、文字認識結果が誤っていた場合に誤認識した箇所をズーム撮影して再度OCR処理を行う手法が提案されている。

特開２００２−０２４７６２号公報

上記特許文献１の手法は、対象文書内のどの領域の文字情報が重要或いは必要なのかを撮影者自身が予め把握できていることが前提となっている。しかしながら、例えば、撮影者と撮影画像の利用者が異なる場合など、対象文書内のどの領域の文字情報が重要或いは必要なのかを撮影者自身が把握できていないというケースも考えられる。このようなケースでは、対象文書の種類や用途毎に撮影者に撮影してほしい部分を伝えて撮影することになるが、情報伝達ミス等によって所望の撮影画像が取得できない可能性がある。よって、対象文書の全体を網羅する複数の撮影画像を一定以上の画質で得られるようにすることが望ましいといえる。そうなると、モバイル端末を適切な焦点距離で様々な方向に何度も動かしたり、文書全体が撮影できたかどうかを撮影者が判断したりする必要があり、撮影者の負担が大きい。

そこで本発明は、ユーザがモバイル端末で対象文書の全体を複数回に分けて撮影する場合において、OCR処理に適した画質で容易に撮影できるようにすることを目的とする。

本発明に係る情報処理装置は、カメラ機能を有する情報処理装置であって、前記カメラ機能を介して取得されたライブビュー画像を、表示手段に表示させる表示制御手段と、前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定する画像解析手段と、を備え、前記表示制御手段は、前記画像解析手段での解析結果に従って、前記被写体の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、ことを特徴とする。

本発明によれば、ユーザがモバイル端末で対象文書の全体を複数回に分けて撮影する場合において、OCR処理に適した画質で容易に撮影することができる。

モバイル端末の外観の一例を示す図である。モバイル端末のハードウェア構成の一例を示す図である。モバイル端末のソフトウェア構成の一例を示す図である。モバイルアプリのＵＩ画面の一例を示す図である。１枚目の撮影画像を取得するまでの処理の流れを示すフローチャートである。位置決め用ガイドの一例を示した図である。撮影距離ガイドのメッセージの一例を示す図である。静止指示ガイドにおけるメッセージの一例を示す図である。２枚目以降の撮影画像を取得する処理の流れを示すフローチャートである。撮影方向ガイドの一例を示す図である。静止指示ガイドの一例を示す図である。６回に分けて撮影した全６枚分の撮影画像を示す図である。６枚の撮影画像が結合されて１枚の全体画像が出来上がる様子を示す図である。変形例に係る撮影方向ガイドの表示の一例を示す図である。

以下、添付図面を参照して、本発明を好適な実施例に従って詳細に説明する。なお、以下の実施例において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。

本実施形態に係る、カメラ機能を有する携帯可能な情報処理装置の一例として、以下ではカメラ付きのモバイル端末を例に説明する。いわゆるタブレットPCやスマートフォンは、無線通信機能などの装備によって自由な場所で撮影やデータ通信などができるモバイル端末の代表例である。

図１は、モバイル端末の外観の一例を示す図である。図１（ａ）は、表示手段としてのタッチパネル１０１があるモバイル端末１００の表側（正面）を示している。タッチパネル１０１は、例えば静電容量式のＬＣＤ等で構成され、情報の出力（表示）と入力との2つの機能を備えている。図１（ｂ）は、モバイル端末１００の裏側（背面）を示している。モバイル端末の背面には、画像を取り込むための撮像用レンズ（以下、「レンズ」）１０２を備える。本実施例では、モバイル端末１００のユーザは、被写体となる文書（ここでは、注文書１１０）を後述のモバイルアプリケーション（以下、「モバイルアプリ」）を使って撮影する。なお、被写体は、注文書１１０のような紙文書の他、大判の写真やホワイトボードに書き込まれた文字等であっても良い。後述のモバイルアプリは、被写体の画像を取り込み、タッチパネル１０１に当該取り込んだ画像を表示することができる。

［ハードウェア構成］
続いて、モバイル端末１００のハードウェア構成について説明する。図２は、モバイル端末１００のハードウェア構成の一例を示す図である。モバイル端末１００は、CPU２０１、RAM２０２、ROM２０３、入出力I/F２０４、NIC２０５、カメラ部２０６、加速度／ジャイロセンサ２０７で構成され、これら各部はバス２０８で相互に接続されている。

CPU２０１は、各種のプログラムを実行して、様々な機能を実現する演算処理装置である。RAM２０２は、各種の情報を記憶する読み書き可能なメモリである。また、RAM２０２は、CPU２０１のワークエリアとしても利用される。ROM２０３は、OSや上述の撮影アプリ等の各種プログラムを記憶するメモリである。例えば、CPU２０１は、ROM２０３に記憶されているプログラムをRAM２０２にロードしてプログラムを実行する。また、CPU２０１は、フラッシュメモリ、HDD、SSDといった外部記憶装置（不図示）に記憶されているプログラムをRAM２０２に読み込んで実行することもできる。なお、モバイル端末１００の機能及び後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。

入出力I/F２０４は、タッチパネル１０１に対して表示データを出力したり、タッチパネル１０１からの入力情報を受け付けるインタフェースである。NIC(Network Interface Card)２０５は、モバイル端末１００をネットワーク（不図示）に接続するためのインタフェースである。カメラ部２０６は、レンズ１０２を介して被写体の画像をモバイル端末１００に取り込む。バス２０８は、上述した各部を繋ぐデータ通信路である。加速度／ジャイロセンサ２０７は、モバイル端末１００の姿勢情報を検出するセンサである。

［ソフトウェア構成］
次に、モバイル端末１００のソフトウェア構成について説明する。図３は、モバイル端末１００のソフトウェア構成の一例を示す図である。モバイル端末１００のソフトウェアは、データ管理モジュール３００とモバイルアプリ３１０で構成される。そして、モバイルアプリ３１０は、メイン制御、表示制御、操作情報取得、画像取得、画像解析、画像結合の各機能に対応する複数のモジュール３１１〜３１６で構成される。前述の通り、これら各モジュールに相当するプログラムは、ROM２０３等に記憶されている。

データ管理モジュール３００は、カメラ部２０６で撮影された画像データやモバイルアプリ３１０における処理データ（アプリデータ）などを管理する。モバイルアプリ３１０は、不図示のOSが提供する制御API(Application Programming Interface)を利用することで、データ管理モジュール３００が管理する各種データにアクセスする。

ユーザは、モバイル端末１００のOSのインストール機能を利用することによって、モバイルアプリ３１０のダウンロードとインストールが可能である。モバイルアプリ３１０は、カメラ部２０６を用いて対象文書の撮影を行い、得られた撮影画像データに対して各種の処理を行う。

メイン制御モジュール３１１は、モバイルアプリ３１０を統括的に制御するモジュールであり、以下の各モジュール３１２〜３１６に対する指示及び管理を行う。表示制御モジュール３１２は、メイン制御モジュール３１１からの指示に従い、モバイルアプリ３１０のユーザインタフェース（UI）を提供する。図４は、モバイルアプリ３１０起動時のタッチパネル１０１の表示状態を示す図である。いま、タッチパネル１０１の表示・操作領域４００にはカメラ部２０６の撮像センサを介して取り込まれた画像（ライブビュー画像）が表示され、ユーザは当該ライブビュー画像に対して各種操作を行うことができる。また、表示制御モジュール３１２は、OCRに適した画像を撮影するための操作ガイドを、表示中のライブビュー画像に重ねて表示する。なお、モバイルアプリ３１０のUIの形態（位置、大きさ、範囲、配置、表示内容など）は、図示するものに限定されないことはいうまでもない。

操作情報取得モジュール３１３は、タッチパネル１０１を介したユーザ操作に係る入力情報を取得し、取得した入力情報をメイン制御モジュール３１１に渡す。例えば、表示・操作領域４００をユーザが手で触れると、操作情報取得モジュール３１３は、触れられた位置を検知し、当該検知した位置の情報をメイン制御モジュール３１１に送信する。

画像取得モジュール部３１４は、カメラ部２０６の撮像センサによって取り込まれた画像を取得する。さらに、例えば保存用の画像よりも解像度を落としてディスプレイに表示するような場合など、取得した画像を必要に応じて任意の解像度に変換する。

画像解析モジュール部３１５は、画像取得モジュール部３１４が取得した撮影画像に対して様々な画像処理を行う。例えば、撮影領域を追跡するための特徴点抽出、文字情報を取得するための文字認識（OCR）、被写体である文書の角（四隅）や端（辺）を検出するための直線認識などを行う。

画像結合モジュール３１６は、撮影画像を繋ぎ合わせて対象文書の全体に対応する一つの画像〈全体画像〉を生成する。このとき、撮影画像に対して、被写体以外の領域を除外する紙面検出や拡大・縮小、歪み部分を補正する歪み補正などの処理も行う。

［撮影フロー］
続いて、モバイル端末１００を用いて帳票等の対象文書を複数回に分けて撮影して、当該対象文書の全体画像が生成するまでの撮影フローについて説明する。図５は、複数回の撮影のうち１回目の撮影を行う際の処理の流れ（１枚目の撮影画像を取得するまでの処理の流れ）を示すフローチャートである。本フローは、例えば、ユーザがモバイルアプリ３１０を起動させることをトリガーに開始する。

ステップ５０１では、メイン制御モジュール３１１が、カメラ部２０６の撮像センサを介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかを判定する。ライブビュー画像を取得する間隔（カメラ部２０６の撮像センサが画像を取り込む間隔）は例えば100msec毎といった所定の間隔である。ライブビュー画像の取得タイミングであると判定されれば、ステップ５０２に進む。

ステップ５０２では、画像取得モジュール３１４が、ライブビュー画像のデータを取得する。取得したライブビュー画像は必要に応じて解像度変換処理され、表示制御モジュール３１２によってタッチパネル１０１の表示・操作領域４００に表示される。続くステップ５０３では、表示制御モジュール３１２が、撮り始めの位置（初期位置）を合わせるための位置決めガイドを、表示中のライブビュー画像に重ねて表示する。具体的には、対象文書の角（ここでは左上隅）が表示・操作領域４００内の特定位置に入るようユーザに操作を促すガイド表示を、ライブビュー画像に重ねて表示する。図６は、位置決め用ガイドの一例を示した図であり、L字型の領域６０１が異なる色で強調表示されると共に、当該領域内に対象文書の左上の角が入るようにモバイル端末１００の移動を促すメッセージ６０２が表示されている。実施例では、対象文書の左上の角を初期位置としたが、左上以外の角を初期位置として撮影を開始するようにしてもよい。左上以外の角を初期位置とする場合は、それに応じて位置決めガイドの内容（領域６０１の形状など）も変わることはいうまでもない。

ステップ５０４では、画像解析モジュール３１５が、位置決めガイドに従ったユーザ操作がなされたかどうかを、表示中のライブビュー画像を解析して判定する。具体的には、位置決めガイドにおける領域６０１を対象に、文書の角（左上隅）の検出処理を行う。この角検出には直線抽出などの公知の画像解析手法を適用すればよく、表示中のライブビュー画像のうち位置決めガイドの領域６０１部分に対して実行する。なお、CPU２０１の性能に余裕があれば、表示中のライブビュー画像の全体に対して角検出を行ってもよい。判定の結果、角が検出された場合はステップ５０５に進む。一方、角が検出されなかった場合はステップ５０１に戻ってライブビュー画像の取得からやり直す。

ステップ５０５では、画像解析モジュール３１５が、表示中のライブビュー画像がOCR処理に適した画像であるかどうかを見極めるための画像解析を行う。具体的には、公知の像域分離手法等によって文字が含まれる領域を抽出してその高さを求めて文字サイズを特定したり、文字部分の画像のエッジを抽出して当該エッジの鮮明度を求めたりする。さらには、表示中のライブビュー画像に対して実際にOCR処理を行い、抽出された文字の信頼度が一定以上かどうかを求めてもよい。これら解析処理の内容は、CPU２０１の性能なども考慮して決定される。

ステップ５０６では、画像解析モジュール３１５が、ステップ５０６での解析結果のうち文字のサイズ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字サイズがOCR処理に適した所定の文字サイズであるかどうかを判定する。所定の文字サイズであるかどうかは、例えばnポイント±2ポイントの範囲内かどうかによって判断する。表示中のライブビュー画像に含まれる文字のサイズがOCR処理に適したサイズではないと判定した場合は、ステップ５０７に進む。一方、文字のサイズがOCR処理に適したサイズであると判定した場合は、ステップ５０８に進む。

ステップ５０７では、表示制御モジュール３１２が、ガイド表示の内容を、撮像用レンズ１０２と対象文書との距離が適切になるような操作をユーザに促す内容（撮影距離ガイド）に変更する。具体的には、上述の領域６０１の表示はそのままに、メッセージ６０２の内容を変更する。図７は、撮影距離ガイドのメッセージの一例を示す図である。例えば、ステップ５０６で文字サイズが小さすぎると判定された場合は、図７（ａ）に示すように「端末を文書に近づけてください」といったメッセージを表示する。また、文字サイズが大きすぎると判定された場合は、図７（ｂ）に示すように「端末を文書から遠ざけてください」といったメッセージを表示する。表示処理の完了後はステップ５０１に戻る。
ステップ５０８では、画像解析モジュール３１５が、ステップ５０６での解析結果のうち文字のエッジ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字が一定以上の文字認識率が確保できる程度の鮮明度であるかどうかを判定する。表示中のライブビュー画像に含まれる文字の鮮明度が悪くOCR処理に適した画質ではないと判定した場合は、ステップ５０９に進む。一方、文字の鮮明度が良くOCR処理に適した画質であると判定した場合は、ステップ５１０に進む。

文字の鮮明度が悪い原因としては手ブレが考えられるため、ステップ５０９では表示制御モジュール３１２が、ガイド表示の内容を、対象文書における文字の鮮明度が良くなるように（手ブレを止めるように）ユーザに促す内容（静止指示ガイド）に変更する。図８は、静止指示ガイドにおけるメッセージの一例を示す図である。図８に示すように、上述の領域６０１の表示はそのままに、メッセージ６０２に代えて、「端末を静止してください」といった内容のメッセージ８０１に変更する。

ステップ５１０では、画像結合モジュール３１６が、ステップ５０２で取得したライブビュー画像を、後述の結合処理に用いられる複数の撮影画像のうち１枚目の撮影画像として保存（RAM２０２に格納）する。

以上が、１枚目の撮影画像を取得するまでの処理の内容である。なお、本実施例ではOCR処理に適したと判定された段階でライブビュー画像を撮影画像として保存しているが、例えばユーザの撮影指示を受けて保存するようにしてもよい。この点は後述の図９のフローについても同じである。１枚目の撮影画像が取得されると、初期位置を起点にモバイル端末１００を動かしながら対象文書の全体を撮影する処理（２枚目以降の撮影画像を取得する処理）が実行される。本実施例では、対象文書の左上の角を起点、左下の角を終点として計6回の撮影を行って全6枚の撮影画像を取得し、その後に6枚の撮影画像を結合して1枚の全体画像を生成する場合を例に説明する。なお、このような撮影位置の起点や終点、総撮影回数、撮影順序といった基本情報は予め設定されＲＡＭ２０２等に保持されるものとする。図９は、２枚目以降の撮影画像を取得する処理の流れを示すフローチャートである。

ステップ９０１では、画像解析モジュール３１５が、画像結合モジュール３１６に保持されている撮影画像に基づき、文書全体の撮影が完了したかどうかを判定する。計6回の撮影を行う本実施例では、6枚分の撮影画像が保存されていれば、文書全体の撮影が完了したと判定される。文書全体の撮影が完了している場合は、ステップ９１７に進む。一方、未撮影の領域がある場合は、ステップ９０２に進む。

ステップ９０２では、メイン制御モジュール３１１が、前述の５０１と同様、カメラ部２０６を介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかを判定する。ライブビュー画像の所得タイミングであると判定されれば、ステップ９０３に進む。

ステップ９０３では、画像取得モジュール３１４が、ライブビュー画像のデータを取得する。取得したライブビュー画像は情報表示モジュール３１２によってタッチパネル１０１の表示・操作領域４００に表示される。続くステップ９０４では、表示制御モジュール３１２が、現在表示中のライブビュー画像のうち既に保存された撮影画像に対応する領域（撮影済み領域）を識別可能に表示する。前述のとおり、カメラ部２０６がライブビュー画像を取得する間隔は100ms毎といった短い間隔である。そのため、モバイル端末１００をユーザが移動させても現在表示中のライブビュー画像内に保存済み撮影画像の一部が含まれている状態になる。そこで、保存済み撮影画像と現在表示中のライブビュー画像の両方に対して特徴量抽出処理を行い、抽出した特徴点同士を比較（マッピング処理）する。これにより、現在表示中のライブビュー画像のうち保存済み撮影画像が占める領域を特定し、当該特定された領域をグレイアウトするなどして識別可能に表示する。図１０は、現在表示中のライブビュー画像において、保存済み撮影画像が占める領域が識別可能に表示された状態を示している。図１０において、少し暗めにグレイアウト表示された矩形の領域１００１が、保存済み撮影画像の領域を表している。なお、保存済みの撮影画像が占める部分をユーザが認識できればよいので、例えば保存済みの撮影画像が占める部分はそのまま表示し、これから撮影してほしい未保存の撮影領域の方を強調表示してもよい。
ステップ９０５では、画像解析モジュール３１５が、識別可能に表示された撮影済み領域が現在表示中のライブビュー画像において占める割合を求め、求めた割合が一定範囲内であるかどうかを判定する。ここで一定範囲は例えば10%といった割合であり、保存された複数の撮影画像同士を結合する際のマージンを考慮してユーザが任意に設定すればよい。撮影済み領域の占める割合が一定範囲内であればステップ９０９に進む。一方、撮影済み領域の占める割合が一定範囲外であればステップ９０６に進む。

ステップ９０６では、画像解析モジュール３１５が、移動方向側の対象文書の端（ここでは右上隅の角）が現在表示中のライブビュー画像内に含まれるかどうかを判定する。具体的な判定手法は、前述のステップ５０４と同じである。ここで、「角」ではなく「端」としているのは、対象文書を例えば縦方向と横方向にそれぞれ3分割し計9回に分けて撮影するようなケースでは、角ではなく左右の端が検出されたことを契機として、次の移動方向を指し示すガイド表示が必要になるためである。移動方向側の対象文書の端が検出された場合は、ステップ９０９に進む。一方、移動方向側の対象文書の端が検出されない場合はステップ９０７に進む。

ステップ９０７では、画像解析モジュール３１５が、次に撮影すべき領域（未撮影領域）が現在表示中のライブビュー画像に対してどの方向にあるかを、上述の基本情報を参照して特定する。そして、続くステップ９０８では、表示制御モジュール３１２が、特定された方向にモバイル端末を移動するようユーザに促す撮影方向ガイドを表示する。図１０において、右向きの矢印１００２と白抜き文字のメッセージを含んだ矩形領域１００３が、本ステップで表示される撮影方向ガイドの一例である。このような撮影方向ガイドが表示されることによってユーザは、モバイル端末１００をどちらの方向に移動させればよいかを瞬時に理解することができる。また、上記ガイド表示に代えて、又は併せて、音声や振動などで移動させるべき方向を通知してもよい。撮影方向ガイドが表示されると、ステップ９０２に戻る。

ステップ９０９では、表示制御モジュール３１２が、モバイル端末１００の静止をユーザに促す静止指示ガイドを表示する。図１１は、静止指示ガイドの一例を示す図である。図１１（ａ）は撮影済み領域の割合が一定範囲内であると判定された場合（ステップ９０５でＹｅｓ）の静止指示ガイド、同（ｂ）は移動方向側の対象文書の角が検出された場合（ステップ９０６でＹｅｓ）の静止指示ガイドである。図１１（ａ）の例では、対象文書の右上の角が未だ検出されていない。しかし、グレイアウト表示されている撮影済み領域１１０１の割合が少なくなり、表示中のライブビュー画像全体の10%となったことから、「ＳＴＯＰ」のマーク１１０２と「端末を静止してください」のメッセージ１１０３が、静止指示ガイドとして表示されている。一方、図１１（ｂ）の例では、移動方向側の対象文書の端（すなわち右端）１１０４、さらには右上の角が検出されている。したがって、グレイアウト表示されている撮影済み領域１１０１の割合は10％より大きいものの、「ＳＴＯＰ」のマーク１１０２と「端末を静止してください」のメッセージ１１０３が、静止指示ガイドとして表示されている。

ステップ９１０では、ステップ９０２と同様、メイン制御モジュール３１１が、カメラ部２０６を介して取り込まれたライブビュー画像のデータを取得するタイミングであるかどうかが判定される。ライブビュー画像の所得タイミングであると判定されれば、ステップ９１１にて画像取得モジュール３１４が、ライブビュー画像のデータを取得する。取得したライブビュー画像は表示制御モジュール３１２によってタッチパネル１０１の表示・操作領域４００に表示される。

そして、ステップ９１２では、画像解析モジュール３１５が、前述のステップ５０５と同様、ステップ９１１で取得され現在表示中のライブビュー画像がOCR処理に適した画像であるかどうかを見極めるための画像解析を行う。続くステップ９１３では、画像解析モジュール３１５が、前述のステップ５０６と同様、ステップ９１２の解析結果のうち文字のサイズ情報に基づき、表示中のライブビュー画像に含まれる文字領域内の文字サイズがOCR処理に適した所定の文字サイズであるかどうかを判定する。表示中のライブビュー画像に含まれる文字のサイズがOCR処理に適したサイズではないと判定した場合は、ステップ９１４に進む。一方、文字のサイズがOCR処理に適したサイズであると判定した場合は、ステップ９１５に進む。そして、ステップ９１４では、表示制御モジュール３１２が、前述のステップ５０７と同様、撮像用レンズ１０２と対象文書との距離が適切になるようにユーザに操作を促すための撮影距離ガイドを表示する。

ステップ９１５では、画像解析モジュール３１５が、前述のステップ５０８と同様、ステップ９１２の解析結果のうち文字のエッジ情報に基づき、表示中のライブビュー画像の文字領域内の文字が一定の文字認識率が得られる程度に鮮明であるかどうかを判定する。表示中のライブビュー画像に含まれる文字の鮮明度が悪くOCR処理に適した画質ではないと判定した場合は、次のライブビュー画像を取得すべくステップ９０２に戻る。一方、文字の鮮明度が良くOCR処理に適した画質であると判定した場合は、ステップ９１６に進む。

ステップ９１６では、画像結合モジュール３１６が、前述のステップ５１０と同様、ステップ９１１で取得したライブビュー画像のデータを、結合処理で使用する撮影画像として保存（RAM２０２に格納）する。画像データの保存後は、ステップ９０１に戻る。このようにして、ステップ９０１からステップ９１６までの各処理を繰り返すことにより、対象文書の全体を網羅し、かつ、OCR処理に適した画質の撮影画像データが取得・保存される。図１２は、図１（ｂ）に示す被写体としての注文書１１０を6回に分けて撮影した場合に取得・保存される全6枚分の撮影画像を示している。図１２において丸囲みの番号は撮影順を示し、前述の通り、左上の角から始まって左下の角で終わっている。また、図１２において太線の矢印１２０１〜１２０３は、対象文書の全体の撮影が完了するまでの間にステップ９０８で順次表示される撮影方向ガイドが示す方向を表している。対象文書の端（角）に保存済み撮影領域が到達すると、それまでと異なる方向がガイド表示されることが分かる。ユーザは、注文書１１０の左上隅を最初に撮影すると、撮影方向ガイドに従ってモバイル端末１００を、まず右へ移動し、右端に達したら下へ移動し、下端に達したら左へと移動して、注文書１１０の全体を撮影することになる。

そして、ステップ９１７では、画像結合モジュール３１６が、保存した全撮影画像を結合（合成）して、対象文書の全体に対応する全体画像を生成する。図１３は、全6枚の撮影画像を結合することで、１枚の全体画像が出来上がる様子を示している。それぞれの撮影画像同士は重なり部分をもっており、例えば、撮影画像１３０１と１３０２との間では一点鎖線で示す矩形１３１０の部分が重複し、撮影画像１３０１と１３０６との間では一点鎖線で示す矩形１３１１の部分が重複している。そのため、各撮影画像の特徴量に基づき重なり部分を特定した上で、図１３の下部に示すような一つの画像１３２０に結合する。このとき、出来上がった全体画像に対するOCR処理の文字認識精度を上げるために、文字が存在しない部分で繋ぎ合わせたり、各撮影画像の倍率を調整したりしてもよい。さらには、他の撮影画像との重なり部分がなるべく多くなるようにガイド表示を制御し、取得・保存された各撮影画像のうち他の撮影画像との重複部分については画質の良い方を結合時に採用するようにしてもよい。

＜変形例＞
上述の実施例における撮影方向ガイドは、モバイル端末１００を動かす方向を上下や左右の矢印で指示するだけであった。これに代えて、次に撮影するべき未撮影領域の中心点に向いた矢印を表示するようにしてもよい。これにより細かな移動方向をユーザに指示することができる。さらには、モバイル端末１００の動きに合わせ、中心点からの距離が近づくに応じて表示する矢印の長さを徐々に短くしてもよい。これによりモバイル端末１００の移動速度を緩めることをユーザに促すことができる。図１４は、本変形例に係る撮影方向ガイドの表示の一例を示す図である。図１４において、黒丸１４０１は次に撮影するべき領域の中心点を示し、当該中心点１４０１に向かって、移動方向を指示する矢印１４０２が表示されている。ユーザが、矢印１４０２に従ってモバイル端末１００を動かすと、中心点１４０１からの距離に応じて、矢印１４０２の長さが短くなる。

なお、本変形例のガイド表示を行う場合の制御は、以下の通りである。まず、未撮影領域の方向の特定（ステップ９０７）において前述の基本情報を参照しつつ、撮影画像同士にどれだけの重なりをもたせるかを考慮して、次に撮影する領域の中心点を決定する。そして、撮影方向ガイドの表示（ステップ９０８）において、決定された中心点までの距離と方向に基づき、次に移動すべき方向と距離を示す矢印と中心点を表示する。

以上の通り本実施例によれば、対象文書の全体を複数回に分けて撮影する場合において、ユーザはガイド表示に従ってモバイル端末を動かすだけで、OCR処理に適した画質の撮影画像を容易に得ることができる。

＜その他の実施例＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

カメラ機能を有する情報処理装置であって、
前記カメラ機能を介して取得されたライブビュー画像を、表示手段に表示させる表示制御手段と、
前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定する画像解析手段と、
を備え、
前記表示制御手段は、前記画像解析手段での解析結果に従って、前記被写体の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、
ことを特徴とする情報処理装置。
前記画像解析手段は、前記ライブビュー画像がOCR処理に適した画像であるかどうかを、当該ライブビュー画像内の前記被写体の画像に含まれる文字領域の文字サイズに基づいて判定し、
前記表示制御手段は、前記文字サイズがOCR処理に適した文字サイズではないと判定された場合、カメラと前記被写体との距離が適切になるような操作をユーザに促すガイド表示を行う
ことを特徴とする請求項１に記載の情報処理装置。
前記表示制御手段は、
前記文字サイズが小さすぎるためにOCR処理に適した文字サイズではないとの判定であった場合は、前記カメラと前記被写体との距離が近くなるような操作をユーザに促すガイド表示を行ない、
前記文字サイズが大きすぎるためにOCR処理に適した文字サイズではないとの判定であった場合は、前記カメラと前記被写体との距離が遠くなるような操作をユーザに促すガイド表示を行なう
ことを特徴とする請求項２に記載の情報処理装置。
前記画像解析手段は、OCR処理に適した画像であるかどうかを、前記ライブビュー画像内の前記被写体の画像に含まれる文字領域内の文字の鮮明度に基づいて判定し、
前記表示制御手段は、前記文字の鮮明度がOCR処理に適した鮮明度でないと判定された場合、カメラの静止をユーザに促すガイド表示を行う
することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記表示制御手段は、前記被写体の撮影を行う場合、前記ライブビュー画像における前記被写体の初期位置を合わせるためのガイド表示を行い、
前記画像解析手段は、表示中のライブビュー画像を解析して、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされていた場合に、前記ライブビュー画像がOCR処理に適した画像であるかどうかの前記判定を行う
ことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記画像解析手段は、前記初期位置を合わせるためのガイド表示において示される、前記ライブビュー画像内の所定の領域を対象に前記被写体の角を検出する処理を行い、角が検出された場合に、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされたと判定する、ことを特徴とする請求項５に記載の情報処理装置。
前記複数回に分けて撮影された複数の撮影画像を保持し、当該保持した複数の撮影画像を結合して、前記被写体の全体に対応する画像を生成する画像結合手段をさらに備え、
前記画像結合手段は、前記初期位置を合わせるためのガイド表示に従ったユーザ操作がなされていた場合であって、前記ライブビュー画像がOCR処理に適した画像であると判定された場合に、当該ライブビュー画像を、１枚目の撮影画像として保持する
ことを特徴とする請求項５又は６に記載の情報処理装置。
前記表示制御手段は、表示する前記ライブビュー画像のうち撮影済みの領域を識別可能に表示することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記複数回に分けて撮影する場合、２枚目以降の撮影画像を取得するための撮影において、
前記画像解析手段は、前記撮影済みの領域が前記ライブビュー画像において占める割合を求め、当該割合が一定範囲内かどうかを判定し、
前記表示制御手段は、前記割合が一定範囲内であった場合、カメラの静止をユーザに促すガイド表示を行う
ことを特徴とする請求項８に記載の情報処理装置。
前記画像解析手段は、前記割合が一定範囲外であった場合、前記ライブビュー画像に対し前記被写体の端を検出する処理をさらに行い、
前記表示制御手段は、前記検出において前記端が検出された場合、前記カメラの静止をユーザに促すガイド表示を行う
ことを特徴とする請求項９に記載の情報処理装置。
前記画像解析手段は、前記検出において前記端が検出されなかった場合、次に撮影すべき未撮影領域の方向を特定する処理をさらに行い、
前記表示制御手段は、前記特定された方向に前記カメラの移動を促すガイド表示を行う、
ことを特徴とする請求項１０に記載の情報処理装置。
前記表示制御手段は、前記特定された方向に前記カメラの移動を促すガイド表示として、前記未撮影領域の中心点に向いた矢印を表示することを特徴とする請求項１１に記載の情報処理装置。
前記表示制御手段は、前記矢印の長さを、前記中心点からの距離が近づくのに応じて短くすることを特徴とする請求項１２に記載の情報処理装置。
カメラ機能を有する情報処理装置における表示制御方法であって、
前記カメラ機能を介して取得されたライブビュー画像を、前記情報処理装置が備える表示手段に表示させるステップと、
前記ライブビュー画像を解析して、次に撮影すべき被写体の未撮影領域の方向及び当該ライブビュー画像がOCR処理に適した画像であるかどうかを判定するステップと、
を含み、
前記表示させるステップでは、前記解析の結果に従って、前記被写体である文書の全体を複数回に分けて撮影する際のガイド表示を、前記ライブビュー画像に重ねて表示させる、
ことを特徴とする表示制御方法。
コンピュータを、請求項１乃至１３のいずれか１項に記載の情報処理装置として機能させるためのプログラム。