JP2017120503A

JP2017120503A - 情報処理装置、情報処理装置の制御方法、及びプログラム

Info

Publication number: JP2017120503A
Application number: JP2015256476A
Authority: JP
Inventors: 嘉仁七海; Yoshihito Nanaumi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2017-07-06
Anticipated expiration: 2035-12-28
Also published as: CN107085699A; EP3193279A1; US10452943B2; CN107085699B; JP6739937B2; US20170185859A1

Abstract

【課題】紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供する。【解決手段】この情報処理装置は、文書の全体画像を取得する取得手段と、取得した全体画像の特徴量を抽出する抽出手段と、抽出した全体画像の特徴量と、全体画像の座標情報を保存する保存手段と、保存手段で保存された全体画像の特徴量と、処理対象である文書の局所画像の特徴量から全体画像内における局所画像の位置を特定し、特定した局所画像の位置と、保存手段で保存された座標情報を用いて局所画像の座標を特定する特定手段と、を備える。【選択図】図１１

Description

本発明は、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。

近年、カメラを含むモバイル端末は一般的なものになってきた。従来、ユーザは、紙文書を電子的に取り込むためにスキャナなどを利用していたが、モバイル端末のカメラ等を利用することで簡単に紙文書を電子的に取り込むことが出来るようになった。特許文献１は、カメラを利用して取り込んだ画像に対してＯＣＲを実施する技術を開示している。

特開２０１１−００８８０２号公報

ＯＣＲにより識別したテキスト情報を利用するためには、ＯＣＲ精度が非常に重要でありながら、対象物に接近して取り込める名刺や免許証などのＯＣＲ精度に比べ、Ａ４またはＡ３のような比較的大きなサイズの紙文書ではＯＣＲ精度が低下する恐れがある。具体的には、対象物との距離が離れることにより識別しようとするテキストの１文字当たりの解像度が低下することに加え、画像細部のピントのボケが発生しやすくなる。そこで、Ａ４やＡ３のような比較的大きなサイズの紙文書であっても対象のテキスト領域に接近して画像を取り込むことがＯＣＲ精度向上には必須となる。ＯＣＲ精度が向上することにより、紙文書全体の画像を取り込んだ後に、利用したいテキスト領域に接近して画像を取り込むことで、紙文書全体の画像と精度の良いテキスト情報を取得することが出来る。

本発明は、上記課題を鑑みて、紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供すること目的とする。

上記課題を解決するために、本発明の情報処理装置は、文書の全体画像を取得する取得手段と、前記取得した全体画像の特徴量を抽出する抽出手段と、前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存手段と、前記保存手段で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存手段で保存された座標情報を用いて前記局所画像の座標を特定する特定手段と、を備えることを特徴とする。

本発明によれば、紙文書に対して接近して画像を取り込む際に、必要なテキスト領域を高速に見つけ出すことができる情報処理装置を提供することができる。

モバイル端末の外観の一例を示す図である。モバイル端末のハードウェア構成の一例を示す図である。モバイル端末のソフトウェア構成の一例を示す図である。モバイルアプリのＵＩの一例を示す図である。全体画像と局所画像の一例を示す図である。画像分類処理の一例を示す図である。座標処理の一例を示す図である。座標管理Ｔａｂｌｅのデータ構造、及び保持する座標情報を示す図である。事前設定処理フローを示す図である。基本フローを示す図である。図１０のステップＳ１００５の処理の詳細を示す図である。モバイルアプリのＵＩの一例を示す図である。

以下、本発明を実施するための最良の形態について図面などを参照して説明する。

［外観］
まず、本実施形態に係る情報処理装置の一例として、モバイル端末を例に説明する。モバイル端末は、携帯端末の一例であり、無線通信機能などの装備によって自由な場所で利用できる端末である。図１は、モバイル端末の外観の一例を示す図である。モバイル端末１００は、各種のユニット（モバイル端末前面部１０１〜カメラ１０４）を含んで構成される。モバイル端末１００の表側がモバイル端末前面部１０１である。タッチパネル１０２は、ディスプレイ等の表示部の一例であり、出力（表示）と入力との２つの機能を備えている。さらに、モバイル端末１００の裏側がモバイル端末背面部１０３である。モバイル端末背面部１０３は、画像を取り込むためのカメラ１０４を含む。本実施形態では、モバイル端末１００のユーザは、被写体１０５の画像を後述のモバイルアプリで撮ることによって処理を開始することができる。本実施形態において、被写体１０５は、Ａ４サイズの紙文書の注文書である。被写体１０５は、紙文書だけに限らず、例えば、名刺、写真、ホワイトボードなどを含んでよい。また、後述のモバイルアプリは、被写体１０５の画像を取り込み、タッチパネル１０２にその画像を出力（表示）することができる。

［ハードウェア構成］
図２は、モバイル端末１００のハードウェアの構成の一例を示す図である。モバイル端末１００は、各種のユニット（ＣＰＵ２０１〜バス２０７）を含んで構成される。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１は、各種のプログラムを実行し、様々な機能を実現するユニットである。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０２は、各種の情報を記憶するユニットである。また、ＲＡＭ２０２は、ＣＰＵ２０１の一時的な作業記憶領域としても利用されるユニットである。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０３は、各種のプログラム等を記憶するユニットである。例えば、ＣＰＵ２０１は、ＲＯＭ２０３に記憶されているプログラムをＲＡＭ２０２にロードしてプログラムを実行する。

加えて、ＣＰＵ２０１がフラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）といった外部記憶装置に記憶されているプログラムに基づき処理を実行する。これにより、後述の図３に示すようなモバイル端末１００を構成するソフトウェア構成及び後述するシーケンスの各ステップの処理が実現される。なお、モバイル端末１００の機能および後述するシーケンスに係る処理の全部又は一部については専用のハードウェアを用いて実現してもよい。Ｉｎｐｕｔ／Ｏｕｔｐｕｔインターフェース２０４は、タッチパネル１０２とデータを送受信する。ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５は、モバイル端末１００をネットワーク（不図示）に接続するためのユニットである。カメラユニット２０６は、カメラ１０４と接続し被写体１０５の画像をモバイル端末１００に取り込む。上述した各ユニットは、バス２０７を介してデータの送受信を行うことが可能に構成されている。

［ソフトウェア構成（モバイル端末）］
次に、モバイル端末１００におけるソフトウェアの構成について説明する。図３は、モバイル端末１００のソフトウェア構成の一例を示す図である。図３に示す各ソフトウェア（アプリケーション）における機能（モジュール部）を実現するプログラムは、各装置のＲＯＭ２０３等に記憶されている。モバイル端末１００のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）（不図示）は、データ管理部３０１を有する。データ管理部３０１は、画像やアプリケーションデータを管理する。ＯＳは、データ管理部３０１を利用するための制御ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を提供している。各アプリは、該制御ＡＰＩを利用することでデータ管理部３０１が管理する画像やアプリケーションデータの取得や保存を行う。

モバイルアプリ３０２は、モバイル端末１００のＯＳのインストール機能（例えば、ＡｐｐｌｅＳｔｏｒｅやＧｏｏｇｌｅＰｌａｙなど）を利用して、ダウンロードし、インストールすることにより実行可能なアプリケーションである。モバイルアプリ（モバイルアプリケーション）３０２は、カメラユニット２０６を介して取り込んだ被写体１０５の画像に対する各種のデータ処理を行う。

メイン制御部３０３は、モバイル端末１００用のアプリケーション（モバイルアプリ）３０２を制御し、各モジュール部（メイン制御部３０３〜画像特徴量抽出部３１２）に対する指示、及び管理を行う。情報表示部３０４は、メイン制御部３０３からの指示に従い、モバイルアプリ３０２のユーザインタフェース（ＵＩ）をユーザに提供する。操作情報取得部３０５は、情報表示部３０４により表示されたモバイルアプリ３０２のＵＩのユーザに操作された情報を取得し、取得した情報をメイン制御部３０３に通知する。例えば、後述の図４に示す表示・操作領域４０１をユーザが手で触れると、操作情報取得部３０５は、触れられた画面上の位置の情報を感知し、感知した位置の情報をメイン制御部３０３に送信する。

画像解析部３０６は、カメラユニット２０６を介して取得したカメラ入力画像を解析して、レイアウト情報を生成する。レイアウト情報には、画像から抽出された矩形領域とその種別（文字、図形、線、表など）とが含まれる。さらに、画像解析部３０６は、カメラ入力画像に対して紙面検出処理や歪み補正処理を行う。ＯＣＲ部３０７は、画像解析部３０６で抽出した矩形領域に対して、ＯＣＲ（光学文字認識）処理を行う。画像分類部３０８は、分類処理で利用する分類器を作る学習処理をする。さらに、画像分類部３０８は、分類器を用いて分類処理を行い、カメラ入力画像の分類を行う。

記憶部３０９は、操作情報取得部３０５を介して、すなわち、モバイルアプリ３０２のＵＩを介して、ユーザにより入力された設定値を保存（永続化）する。ＤＢ部３１０は、データベース機能を有し、ユーザが選択した短形領域の座標情報、画像の特徴量、分類器などを管理する。また、ＤＢ部３１０のデータは、記憶部３０９に保存される。座標処理部３１１は、データベースへ座標情報を登録する際の座標変換処理や画像の位置特定処理を行う。画像特徴量抽出部３１２は、カメラ入力画像に対して、画像の特徴量の抽出処理を行う。

図４は、モバイルアプリ３０２のＵＩ（携帯端末用のＵＩ）を提供する画面の一例（モバイル端末画面４００）を示す図である。モバイル端末画面４００は、モバイル端末１００のタッチパネル１０２に表示されるＵＩである。また、モバイル端末画面４００では、表示・操作領域４０１にカメラ１０４を介して取り込んだ画像が表示され、画像等に対するユーザによる操作（ユーザ操作）を、表示されたＵＩを介して受け付ける。なお、モバイルアプリ３０２のＵＩの形態（位置、大きさ、範囲、配置、表示内容など）は、図に示す形態に限定されるものではなく、モバイル端末１００の機能を実現することができる構成を採用することができる。

［全体画像と局所画像］
次に、全体画像と局所画像について図５を用いて説明する。本実施形態では、被写体１０５のＡ４サイズからなる注文書全体を、カメラ１０４を介して画像を取得する。その画像に対して、被写体以外の領域を除外する紙面検出処理、歪み部分を補正する歪み補正処理を施し整形する。本実施形態では、この整形した画像を全体画像５００とし、全体画像の一例とする。また、被写体１０５に対してカメラ１０４を接近して取得した被写体１０５の一部（あるいは全体）の画像を局所画像５０１とする。なお、本実施形態では、局所画像５０１は、局所画像の一例である。さらに、位置５０２は、全体画像における局所画像の領域（位置）を示している。

［画像分類処理］
次に、画像分類部３０８が行うカメラ入力画像の分類について図６を用いて説明する。画像分類部３０８は、学習処理部６０１と分類処理部６０２から構成される。学習処理部６０１は、分類したい帳票種別（種類別）毎の画像の全体画像特徴量データ６０８を用いて後述の学習処理を行い、分類器を作成する。画像分類部３０８は、作成した分類器を用いて分類処理を行い、カメラ入力画像の分類を決定する。

一般的に、画像の特徴を表す特徴量データは、多次元のデータで表され、特徴ベクトルと呼ばれる。次元数は、特徴の種類が何種類あるかを示している。学習処理部６０１で行う学習処理は、分類したい帳票種別毎の複数の学習画像（全体画像）から画像特徴量抽出部３１２で特徴抽出を行い、各学習画像に対して、１００次元の特徴ベクトルを算出する。さらに、同一帳票の複数の学習画像の特徴ベクトルを元に、１００次元の特徴ベクトルからその分類の中で際立った特徴を有する１０次元の特徴ベクトルを決定する。この次元削減処理は、フィルタと呼ばれるソフトウェアコンポーネントによって実行される。帳票毎に算出した特徴ベクトル（１０次元）及びフィルタの組みあわせの集合を分類器６０７と呼び、帳票種別毎の全体画像特徴量データ６０８とともにＤＢ部３１０で管理する。

分類処理部６０２で行う学習処理は、カメラ１０４を介して取得した局所画像に対して画像特徴量抽出部３１２で特徴抽出を行い、特徴ベクトル（１００次元）を算出する。次に、算出した特徴ベクトル（１００次元）に対して分類器６０７の各分類のフィルタを適用（主成分分析）し、各分類に対応した特徴ベクトル（１０次元）を算出する。そして、局所画像の特徴ベクトル（１０次元）と、分類器の帳票毎の特徴ベクトル（１０次元）を比較し、類似度判定により分類を決定する。類似度判定において、類似度が閾値を上回らない場合、分類失敗と決定する。

図６の学習結果６０９は、上記の学習処理部６０１の学習処理によりＤＢ部３１０に蓄えられたデータの一例を示す。ＤＢ部３１０には、帳票種別毎に全体画像から抽出した全体画像特徴量データ６０８、および分類１（６０４）、分類２（６０５）、分類３（６０６）を分類可能な分類器６０７が含まれる。また、分類結果６１０は、分類処理部６０２の分類処理により局所画像と分類器６０７の情報を元に分類が決定した例を表している。本実施形態において、分類結果６１０は、局所画像を入力し、分類１（６０４）、分類２（６０５）、分類３（６０６）の中から分類結果が分類１（６０４）に判別されたことを示す。なお、画像分類部３０８が行う画像分類は、本実施形態に限定されるものではなく、本機能を実現することができる適宜の手法を採用することができる。

［座標処理］
次に、本実施形態に係る座標系、座標処理部３１１が行う座標変換処理、ＤＢ部３１０で管理する矩形領域座標について図７を用いて説明する。まず、本実施形態に係る座標系には、被写体座標７０１、ディスプレイ座標７０２、局所画像座標７０３、全体画像座標７０４、ＤＢ登録座標がある。被写体座標７０１は、Ａ４注文書内における位置を示す座標であり、ディスプレイ座標７０２は、ディスプレイにおける位置座標であり、局所画像座標７０３は、局所画像内における位置座標であり、全体画像座標７０４は、全体画像内における位置座標である。ＤＢ登録座標は、全体画像座標を正規化したもの（全体に対する割合に１００００を掛け合わしたもの）である。正規化する理由は、元画像の縦横に依存しない、かつＤＰＩが異なる場合であっても（近くで撮影した場合であっても、遠くで撮影した場合であっても）対応可能にするためである。

ここで、座標変換処理とは、これら座標系間を変換する処理である。例えば、矩形領域座標保存処理（後述のステップＳ９０４）では、ユーザによりディスプレイで選択された矩形領域（ディスプレイ座標）７０５から全体画像座標７０６に変換し、さらにＤＢ登録座標に変換してＤＢ部３１０に保存する。ＤＢ部３１０で管理する矩形領域座標は、矩形領域の左上Ｘ座標をｍｉｎＸ、右下Ｘ座標をｍａｘＸ、左上Ｙ座標をｍｉｎＹ、右下Y座標をｍａｘＹとする。全体画像５００の横が１５００ｐｘ、縦が２０００ｐｘの場合で説明する。全体画像座標７０６の左上座標７０７が（Ｘ，Ｙ）＝（２００，７００）、右下座標７０８が（４００、７５０）の場合、ＤＢ登録座標は（１３３３、３５００）、（２６６６，３７５０）となる。

［データ構造（ＤＢ）］
次に、ＤＢ部３１０の座標管理Ｔａｂｌｅについて説明する。図８は、本実施形態における座標管理Ｔａｂｌｅのデータ構造、保持する座標情報の一例を示す図である。座標管理Ｔａｂｌｅ８０１は、ｉｄカラム、ｃｌａｓｓｉｆｉｃａｔｉｏｎカラム、ｋｉｎｄカラム、ｍｉｎＸカラム、ｍａｘＸカラム、ｍｉｎＹカラム、ｍａｘＹカラムから構成される。ｉｄカラムは、座標管理Ｔａｂｌｅ８０１にレコードが追加されるたびに１インクリメンタルされる値で、ＴａｂｌｅのＰｒｉｍａｒｙｋｅｙである。ｃｌａｓｓｉｆｉｃａｔｉｏｎカラムは、分類結果（例えば、図６の分類結果６１０）を格納する。ｋｉｎｄカラムは、矩形領域座標保存処理（後述のステップＳ９０４）により保存したデータなのか、ユーザ選択による矩形領域座標保存処理により保存したデータなのかを識別する識別子を格納する。ｍｉｎＸカラムは、選択領域の左上Ｘ座標を格納する。ｍａｘＸカラムは、選択領域右下Ｘ座標を格納する。ｍｉｎＹカラムは、選択領域の左上Ｙ座標を格納する。ｍａｘＹカラムは、選択領域右下Ｙ座標を格納する。図中において、ユーザが矩形領域座標保存処理（後述のステップＳ９０４）で選択した領域である選択領域８０７、８０８、８０９に対応した座標情報が、座標情報８０２、座標情報８０３、座標情報８０４である。また、ユーザ選択による矩形領域座標保存処理で選択した領域である選択領域８１０、８１１に対応した座標情報が、座標情報８０５、座標情報８０６である。

［事前設定処理フロー］
次に、モバイル端末１００における事前設定処理フローについて図９を用いて説明する。本フローは、ユーザによりモバイル端末１００におけるモバイルアプリ３０２でカメラ１０４を介して被写体１０５の画像を取得することをトリガーに開始する。以下ステップＳ９０１〜ステップＳ９０４の処理を帳票種別分（本実施形態では、分類１〜分類３に分類するための帳票３つ分）処理を繰り返す。

まず、ステップＳ９０１で、モバイルアプリ３０２の画像解析部３０６は、カメラ入力画像に対して紙面検出処理、歪み補正処理を行い、全体画像５００を取得する。次に、ステップＳ９０２で、画像特徴量抽出部３１２は、全体画像５００に対して全体画像特徴量データ６０８を抽出する。次に、ステップＳ９０３で、モバイルアプリ３０２のメイン制御部３０３は、全体画像特徴量データ６０８を帳票種別に対応づけてＤＢ部３１０に保存する。そして、ステップＳ９０４で、モバイルアプリ３０２のメイン制御部３０３は、ステップＳ９０１で取得した全体画像５００をモバイル端末１００の表示・操作領域４０１に表示し、ユーザに矩形領域座標を選択させる（例えば、矩形領域７０５）。さらに、メイン制御部３０３は、座標処理部３１１で座標変換処理を行い、矩形領域座標７０５から全体画像座標７０６に変換し、ＤＢ登録座標に変換する。そして、メイン制御部３０３は、座標情報８０４をＤＢ部３１０に保存する。座標情報８０２、８０３も同様の手順で保存する。

上記処理を帳票種別数分繰り返しが終了したら、ステップＳ９０５で、画像分類部３０８の学習処理部６０１は、帳票種別分の全体画像特徴量データ６０８を元に分類器６０７を作成し、ＤＢ部３１０に保存する。以上の処理により、後述の処理で利用する帳票毎の全体画像特徴量データ６０８、座標情報（８０２、８０３、８０４）、及び分類器６０７が作成される。

［基本フロー］
次に、モバイル端末１００における基本的な処理フローについて図１０を用いて説明する。本フローは、ユーザによりモバイル端末１００におけるモバイルアプリ３０２で被写体１０５に対してカメラ１０４を接近して画像を取得することをトリガーに開始する。

まず、ステップＳ１００１で、モバイルアプリ３０２は、カメラユニット２０６を介して局所画像５０１を取得する。次に、ステップＳ１００２で、画像特徴量抽出部３１２は、局所画像に対して局所画像特徴量を抽出する。次に、ステップＳ１００３で、画像分類部３０８は、抽出した局所画像特徴量と分類器６０７を用いて分類処理部６０２で分類処理を行い、局所画像の分類を決定する。次に、ステップＳ１００４で、モバイルアプリ３０２は、局所画像で分類ができたか否かを判定する。局所画像で分類できた場合（Ｙｅｓ）、ステップＳ１００５へ遷移する。一方、局所画像で分類ができなかった場合（Ｎｏ）、ステップＳ１００１に戻って、再度カメラユニット２０６を介して局所画像を取得する。

次に、ステップＳ１００５で、モバイルアプリ３０２のメイン制御部３０３は、表示・操作領域４０１に局所画像を表示する。さらに、座標処理部３１１で全体画像５００における局所画像５０１の位置５０２を決定し、テキスト領域を表示する。なお、ステップＳ１００５の詳細な処理に関しては、図１２を用いて後述する。次に、ステップＳ１００６で、モバイルアプリ３０２は、ユーザによるテキスト領域の選択があるか否かを判定する。ユーザによるテキスト領域の選択がある場合（Ｙｅｓ）、ステップＳ１００７に遷移する。一方、ユーザによるテキスト領域の選択がない場合（Ｎｏ）、ステップＳ１００５に戻って、再度、でテキスト領域表示処理を行う。

次に、ステップＳ１００７で、モバイルアプリ３０２は、ユーザに選択されたテキスト領域のテキスト情報を取得する。次に、ステップＳ１００８で、モバイルアプリ３０２は、ステップＳ１００５で確定した全体画像と局所画像の位置５０２から、座標処理部３１１でユーザに選択されたテキスト領域の矩形座標７１１を、全体画像に対する矩形座標７１２に変換する。そして、ステップＳ１００９で、モバイルアプリ３０２は、矩形座標７１２をＤＢ部３１０報の座標管理Ｔａｂｌｅ８０１に保存する（座標情報８０５，８０６）。

［テキスト領域表示処理フロー］
図１１は、図１０のフローのステップＳ１００５の処理の詳細を示すフローチャートである。まず、モバイルアプリ３０２は、ステップＳ１１０１で、カメラユニット２０６を介して処理対象である局所画像取得する。次に、ステップＳ１１０２で，画像特徴量抽出部３１２は、局所画像５０１に対して局所画像特徴量を抽出する。次に、ステップＳ１１０３で、座標処理部３１１は、ステップＳ１００３で決定した分類（分類１）の全体画像特徴量データ６０８をＤＢ部３１０から取得する。そして、全体画像特徴量データ６０８と当該局所画像特徴量を比較し、全体画像における局所画像の位置５０２を特定する。

次に、ステップＳ１１０４で、位置の特定ができたか否かを判定する。位置が特定できた場合（Ｙｅｓ）、ステップＳ１１０５に遷移し、一方、位置が特定できなかった場合（Ｎｏ）、ステップＳ１１０１に戻る。次に、ステップＳ１１０５で、ＯＣＲ部３０７は、局所画像５０１からオブジェクト領域を認識する。次に、ステップＳ１１０６で、ＯＣＲ部３０７は、ステップＳ１１０５で認識したオブジェクト領域に対してＯＣＲ処理を実行し、テキスト情報を認識する。次に、ステップＳ１１０７で、ＯＣＲ部３０７は、テキスト情報を認識できたオブジェクト領域をテキスト領域として認識する。なお、図１２のテキスト領域１２０１は、認識されたテキスト領域の一例である。そして、ステップＳ１１０８で、メイン制御部３０３は、局所画像からテキスト領域を認識できたか否かを判定する。テキスト領域を認識できた場合（Ｙｅｓ）、ステップＳ１１０９に遷移する。一方、テキスト領域を認識できなかった場合（Ｎｏ）、ステップＳ１１１３に遷移する。

次に、ステップＳ１１０９で、座標処理部３１１は、ＤＢ部３１０に保存してある座標情報(８０２〜８０６)を座標変換処理により全体画像座標から局所画像座標に変換し、変換した局所画像座標が、局所画像５０１内の座標か否かを判定する。局所画像５０１内の座標である場合（Ｙｅｓ）、ステップＳ１１１１に遷移する。一方、局所画像内の座標でない場合（Ｎｏ）、ステップＳ１１１０に遷移する。そして、ステップＳ１１１０で、情報表示部３０４は、表示・操作領域４０１にステップＳ１１０７で認識したテキスト領域を局所画像に重ね合わせて表示し、処理を終了する。

次に、ステップＳ１１１１で、情報表示部３０４は、表示・操作領域４０１にステップＳ１１０７で認識したテキスト領域を局所画像に重ね合わせて表示する。次に、ステップＳ１１１２で、座標処理部３１１は、変換した局所画像座標をテキスト領域で補正し、表示する。すなわち、変換した局所画像座標とテキスト領域が少しでも重なり合っていれば、補正して表示する。さらに、変換した局所画像座標と複数のテキスト領域が重なっている場合は、重なりの面積の多い方に補正して表示する。

ここで、図１２を参照して、表示例について補正後のテキストについて説明する。座標１２０２は、補正前の局所画像座標であり、表示例１２０３が補正後の表示例である。また、表示例１２０５、１２０３、１２０４は、図８に示す座標情報８０２、８０３、８０４に対応する。また、表示例１２０６、１２０７は、図８に示す座標情報８０５、８０６に対応する。

図１１に戻って、ステップＳ１１１３で、座標処理部３１１は、ＤＢ部３１０に保存してある座標情報(８０２〜８０６)を座標変換処理により全体画像座標から局所画像座標に変換し、変換した局所画像座標が、局所画像５０１内の座標か否かを判定する。局所画像５０１内の座標である場合（Ｙｅｓ）、ステップＳ１１１４に遷移する。一方、局所画像５０１内の座標でない場合（Ｎｏ）、ステップＳ１１０１に戻る。次に、ステップＳ１１１４で、情報表示部３０４は、座標変換処理により全体画像座標から局所画像座標に変換した座標を局所画像内に表示する。そして、処理を終了する。

以上のように、本実施形態によれば、紙文書に対して接近して画像を取り込む際に、予め保存しておいた領域がユーザの選択候補として表示されることにより、必要なテキスト領域を高速に見つけ出すことができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。

Claims

文書の全体画像を取得する取得手段と、
前記取得した全体画像の特徴量を抽出する抽出手段と、
前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存手段と、
前記保存手段で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存手段で保存された座標情報を用いて前記局所画像の座標を特定する特定手段と、
を備える
ことを特徴とする情報処理装置。
前記特定した前記局所画像の位置から、前記局所画像内の座標を前記全体画像に対する座標に変換する変換手段
をさらに備え、
前記保存手段は、前記変換手段で変換した座標を前記座標情報として保存し、前記特定手段は、前記特定した前記局所画像の位置と、前記座標情報を用いて前記局所画像の座標を特定する
ことを特徴とする請求項１に記載の情報処理装置。
前記保存手段は、前記特徴量を文書の種類別に分類して保存し、前記特定手段は、前記局所画像の特徴量から前記文書の種類を特定し、前記特定した文書の種類における前記全体画像の特徴量を用いて前記局所画像の位置を特定する
ことを特徴とする請求項１または２に記載の情報処理装置。
前記局所画像からテキスト領域を認識する認識手段と、
前記全体画像または前記局所画像を表示する表示手段と、
をさらに備え、
前記表示手段は、前記認識手段で認識したテキスト領域を前記局所画像に重ね合せて表示する
ことを特徴とする請求項１〜３のいずれか１項に記載の情報処理装置。
前記認識手段は、前記局所画像における前記テキスト領域の位置を認識し、前記表示手段は、前記特定手段で特定した前記局所画像の座標を、前記認識した前記テキスト領域の位置で補正して前記テキスト領域を表示する
ことを特徴とする請求項４に記載の情報処理装置。
前記表示手段は、前記特定手段で特定した前記局所画像の座標に複数のテキスト領域が重なっている場合、前記重なりの面積の多い方に補正して表示する
ことを特徴とする請求項５に記載の情報処理装置。
前記認識手段は、前記局所画像から、ＯＣＲ処理により前記テキスト領域を認識する
ことを特徴とする請求項４または５に記載の情報処理装置。
文書の全体画像を取得する取得工程と、
前記取得した全体画像の特徴量を抽出する抽出工程と、
前記抽出した全体画像の特徴量と、前記全体画像の座標情報を保存する保存工程と、
前記保存工程で保存された前記全体画像の特徴量と、処理対象である前記文書の局所画像の特徴量から前記全体画像内における前記局所画像の位置を特定し、前記特定した前記局所画像の位置と、前記保存工程で保存された座標情報を用いて前記局所画像の座標を特定する特定工程と、
を有する
ことを特徴とする情報処理装置の制御方法。
請求項１〜７のいずれか１項に記載の情報処理装置の各手段としてコンピュータを機能させるためのプログラム。