JP7118729B2

JP7118729B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7118729B2
Application number: JP2018092340A
Authority: JP
Inventors: 満夫木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2022-08-16
Anticipated expiration: 2038-05-11
Also published as: US10872263B2; US20190347503A1; JP2019197489A

Description

本発明は、複数フレームの画像に対してトラッキング処理を行う情報処理装置に関する。

近年、モバイル端末に搭載されているカメラを用いて紙文書を撮影することで簡単に紙文書の画像データを取得することができるようになった。また、カメラで取り込んだ紙文書の画像に対して文字認識処理（ＯＣＲ処理）する技術が提案されている。

上記のようにしてＯＣＲ処理を行う場合、例えば帳票のように、情報が記された領域（データ入力領域）の位置座標が既知である文書であれば、ＯＣＲ処理の対象領域（以下、ＯＣＲ処理対象領域と呼ぶ）を特定できる。しかし、被写体がＡ４やＡ３のように比較的大きなサイズの文書では、被写体全体を撮影した画像を用いてＯＣＲ処理しようとすると、文字認識精度が悪化する。それは、対象物とカメラとの距離が離れることで撮影画像の解像度が低下することに加え、撮影画像の細部にピントのボケが発生しやすくなるからである。したがって、比較的大きなサイズの文書に対してＯＣＲ処理する場合には、文書内のＯＣＲ対象領域を特定し、該領域にカメラを接近させて局所的に拡大撮影を行う必要がある。

そこで、文書全体を撮影して得られた画像からＯＣＲ処理対象領域を特定し、該対象領域を赤枠などで強調表示して、該対象領域を拡大撮影するようにユーザに促す方法が考えられる。そのようなガイド表示では、拡大撮影をするためにユーザがカメラをＯＣＲ処理対象領域に徐々に近づける動作を行っている間も継続されることが望ましい。しかし、撮影画像の特徴点と文書の全体画像の特徴点とを比較して現在の撮影範囲を特定する処理は負荷が高い。そのため、そのような処理を拡大撮影中（動画撮影中）に全てのフレームに対して行うことは非効率である。そこで、最初のフレームと文書の全体画像との間で特徴点比較処理を行って撮影範囲を特定し、その後は、フレーム間で特徴点の移動量を追跡する特徴点追跡処理を実行して、撮影範囲およびＯＣＲ処理対象領域をトラッキングする方法が考えられる。特許文献１には、電子書類の表示領域及び場所をインビジブルジャンクション特徴量を使用して特定した後ビデオフレーム間で特徴点を追跡し、ビデオフレーム間でのカメラの平面的な動き（投影変換）を推定する方法が開示されている。

特開２００９－０２０８９０号公報

しかし、特許文献１に記載された方法では、フレーム間の特徴点追跡処理における誤差が徐々に累積していき、ＯＣＲ処理対象領域のトラッキング誤差（位置ズレ）が大きくなる可能性がある。したがって、本来必要な情報がＯＣＲ処理対象領域からはみ出てしまい、それらの情報を取得できなくなる可能性がある。したがって、上記のようなガイド表示を行う際には、ＯＣＲ処理対象領域を精度よくトラッキングする必要がある
そこで、本発明は、複数フレームの画像に対するトラッキング処理の精度を向上させることができる情報処理装置を提案することを目的とする。

本発明による情報処理装置は、被写体を動画撮影して得られる画像をフレーム単位で入力する入力手段と、被写体の全体を予め撮影して得られる全体画像から抽出される特徴点と、被写体を撮影して得られる第１の画像から抽出される特徴点とを比較する特徴点比較を実行して、前記全体画像における座標系と前記第１の画像における座標系との間の座標変換に用いる第１の変換情報を導出する第１の導出手段と、前記第１の画像に続いて順次入力される複数の画像に対して、前記第１の画像から抽出される特徴点の位置を追跡する特徴点追跡を実行して、前記第１の画像の座標系と、前記複数の画像のうちの第２の画像の座標系との間の座標変換に用いる第２の変換情報を導出する第２の導出手段と、前記第１の変換情報と前記第２の変換情報とを合成して、前記全体画像における座標系と第２の画像における座標系との間の座標変換に用いる第３の変換情報を導出する第３の導出手段と、を備え、前記第１の導出手段は、前記第１の変換情報を導出してから、前記入力手段に所定数のフレームの画像が入力された場合に、前記全体画像から抽出される特徴点と前記入力手段に入力された新たなフレームの画像の特徴点とを比較する特徴点比較を実行して、新たな前記第１の変換情報の導出を開始することを特徴とする。

本発明によれば、複数フレームの画像に対するトラッキング処理の精度を向上させることができる。

第１実施形態にかかる情報処理装置の外観の一例を示す図である。モバイル端末のハードウェア構成の一例を示す図である。モバイル端末のソフトウェア構成の一例を示す図である。モバイルアプリのＵＩ画面の一例を示す図である。被写体の全体画像と撮影画像の一例を示す図である。第１実施形態における領域情報テーブルを説明するための図である。トラッキング処理を説明するための図である。トラッキング処理を説明するための図である。トラッキング処理の一例を示すフローチャートである。変換行列生成／更新処理の一例を示すフローチャートである。

［実施形態１］
図１は、第１実施形態にかかる情報処理装置の外観の一例を示す図である。なお、本実施形態では、情報処理装置として、カメラ機能付きのモバイル端末（携帯端末）を例にする。図１には、モバイル端末１００の前面部（左図）及び背面部（中央図）と、被写体１０３（右図）とが示されている。図１に示すように、モバイル端末１００の前面部には、タッチパネル１０１が設けられている。タッチパネル１０１は、画像（動画）等の情報を表示する表示部としての機能と、ユーザのタッチ操作に応じて指示を入力する入力部としての機能とを有する。モバイル端末１００の背面部には、紙文書等の被写体１０３を撮影して撮影画像を取り込むカメラ１０２が設けられている。モバイル端末１００のユーザが、後述するモバイルアプリケーション（以下、モバイルアプリと呼ぶ）を起動させ、カメラ１０２を使用して被写体１０３を撮影することによって、処理を開始することができる。図１に示す被写体１０３は、Ａ４サイズの注文書（紙文書）である。なお、被写体１０３は、紙文書だけに限らず、様々なサイズの名刺、写真、カードなどであってもよい。モバイルアプリは、カメラ１０２によって取り込まれた被写体１０３の画像（本実施形態では動画）を、タッチパネル１０１に出力（表示）する。

図２は、モバイル端末１００のハードウェア構成の一例を示す図である。モバイル端末１００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５、カメラユニット２０６、及び加速度センサ２０７を有する。これらのユニットは、バス２０８を介して互いにデータの送受信を行うことが可能である。ＣＰＵ２０１は、各種のプログラムを実行し、様々な機能を実現する。ＲＡＭ２０２は、各種の情報を記憶する。また、ＲＡＭ２０２は、ＣＰＵ２０１の一時的な作業記憶領域としても利用される。ＲＯＭ２０３は、各種のプログラム等を記憶する記憶媒体である。ＲＯＭ２０３は例えば、フラッシュメモリやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）である。ＣＰＵ２０１は、ＲＯＭ２０３に記憶されているプログラムをＲＡＭ２０２にロードしてプログラムを実行する。これにより、ＣＰＵ２０１は、図３に示されるようなモバイルアプリの各処理部として機能し、後述する図９及び図１０に示す処理を実行する。なお、モバイルアプリの各処理部の機能及び図９及び図１０に示す処理の全部又は一部を、専用のハードウェアで実現してもよい。Ｉ／Ｏインタフェース２０４は、タッチパネル１０１とデータを送受信する。ＮＩＣ２０５は、モバイル端末１００をネットワーク（不図示）に接続するためのユニットである。カメラユニット２０６は、カメラ１０２と接続される。カメラユニット２０６は、カメラ１０２を制御して、被写体１０３の画像をモバイル端末１００に取り込む。このとき、カメラ１０２が動画撮影をしている場合には、フレーム単位の画像がモバイル端末１００に取り込まれる。加速度センサ２０７は、モバイル端末１００の加速度（速度の変化率）を計測するためのセンサである。

図３は、モバイル端末１００のソフトウェア構成の一例を示す図である。図３に示されるモバイルアプリにおける各モジュール（機能処理部とも呼ぶ）を実現するプログラムは、上述したように、ＲＯＭ２０３等に記憶されている。モバイル端末１００のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）（不図示）は、データ管理部３０１を有する。データ管理部３０１は、画像やアプリケーションデータを管理する。ＯＳは、データ管理部３０１を利用するための制御ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を提供している。モバイルアプリは、その制御ＡＰＩを利用して、データ管理部３０１が管理する画像やアプリケーションデータの取得や保存を行う。

モバイルアプリ３０２は、モバイル端末１００のＯＳのインストール機能を利用してインストールされたアプリケーションである。モバイルアプリ３０２は、例えば、各ＯＳのアプリストア等からダウンロードすることができる。モバイルアプリ３０２は、カメラユニット２０６を介して取り込んだ被写体１０３の画像（動画）に対する各種のデータ処理を行う。モバイルアプリ３０２は、メイン制御部３０３、情報表示部３０４、操作情報取得部３０５、撮影画像取得部３０６、記憶部３０７、及びデータベース（ＤＢ）部３０８を有する。また、モバイルアプリ３０２は、特徴点抽出部３０９、特徴点比較処理部３１０、特徴点追跡処理部３１１、座標変換処理部３１２、トラッキング処理部３１３、及び領域変化量算出部３１４を有する。

メイン制御部３０３は、モバイルアプリ３０２の他のモジュール３０４～３１４を制御する。情報表示部３０４は、メイン制御部３０３からの指示に従い、モバイルアプリ３０２のユーザインタフェース（ＵＩ）画面をタッチパネル１０１に表示する。図４は、モバイルアプリ３０２のＵＩ画面の一例を示す図である。図４に示すＵＩ画面（以下、モバイル端末画面と呼ぶ）４００には、カメラ１０２及びカメラユニット２０６により取り込まれた画像（動画）が表示される。また、モバイル端末画面４００には、画像等に対するユーザ操作（タッチ操作など）を受け付ける。なお、図４にはタッチパネル１０１の全面にモバイル端末画面４００を表示する例が示されている。しかし、モバイル端末画面４００の形態（タッチパネル１０１上における位置、大きさ、範囲、配置や、表示内容など）は、図に示す形態に限定されるものではなく、後述する各処理を実現することができる適宜の構成を採用することができる。

操作情報取得部３０５は、モバイル端末画面４００を介して受け付けたユーザ操作の内容を示す情報（以下、操作情報と呼ぶ）を取得し、該操作情報をメイン制御部３０３に通知する。例えば、モバイル端末画面４００をユーザが手で触れると、操作情報取得部３０５は、ユーザが触れた画面上の位置を感知し、感知した位置を示す情報を操作情報に含ませてメイン制御部３０３に送信する。

撮影画像取得部３０６は、カメラ１０２及びカメラユニット２０６により取り込まれた撮影画像を取得し、記憶部３０７に送信する。記憶部３０７は、撮影画像取得部３０６により取得された撮影画像を記憶する。また、記憶部３０７は、メイン制御部３０３の指示により、当該記憶している撮影画像の削除を行うこともできる。

ＤＢ部３０８は、データベース機能を有し、後述する全体画像５００や、全体画像５００中においてＯＣＲ処理を適用すべき領域（ＯＣＲ処理対象領域）の位置などを示す情報（後述する、ＯＣＲ処理対象領域情報テーブル）を管理する。以下、ＯＣＲ処理対象領域を、文字認識処理対象領域と表現する場合がある。ＤＢ部３０８により管理されるデータは、メイン制御部３０３がモバイルアプリ３０２を起動する際に記憶部３０７に送信され、必要に応じてメイン制御部３０３の指示により読み出される。

特徴点抽出部３０９は、カメラ１０２及びカメラユニット２０６により取り込まれた撮影画像などに対して、特徴点抽出処理を実行する。より具体的には、特徴点抽出部３０９は、それらの画像に対して、画像上の輝度の変化が大きい箇所（エッジ）などを、特徴的なピクセル点（特徴点）として求め、さらにその特徴点の特徴を表すデータ（特徴量）を導出する。特徴点とその特徴量を求める手法としては、ＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）やＳＵＲＦ（Ｓｐｅｅｄｅｄ－ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）などがある。なお、特徴点とその特徴量を求める手法は、上記の手法に限るものではないが、画像の回転や拡大縮小、画像の移動といった変化に頑強で、後述する特徴点比較処理において、マッチングする特徴点が一意に定まるような手法が好ましい。

特徴点比較処理部３１０は、特徴点抽出部３０９により異なる２つの画像それぞれから抽出された特徴点とその特徴量を比較する特徴点比較処理を行う。特徴点比較処理では、各画像から抽出された特徴点とその特徴量が比較され、画像間で一致（マッチング）する特徴点の組み合わせが求められる。このとき、ＲＡＮＳＡＣ（Ｒａｎｄｏｍｓａｍｐｌｅｃｏｎｓｅｎｓｕｓ）のような、外れ値を排除して法則性を推定する手法を用いることで、ノイズとなる特徴点の組み合わせを排除し、より精度の高いマッチングを行うことが可能となる。ただし、精度の高いマッチング手法を用いた特徴点比較処理は、一般的に処理速度が遅い。本実施形態では、予め用意した既知のフォーマットの文書（帳票等）の全体画像と、カメラ１０２及びカメラユニット２０６により取り込まれた撮影画像との間で特徴点比較処理を行う。以下、特徴点比較処理を、単に特徴点比較と表現する場合がある。

特徴点追跡処理部３１１は、動画撮影により取り込まれた第１のフレームの撮影画像（原画像）から特徴点抽出部３０９により特徴点を抽出し、比較対象の第２のフレームの撮影画像上で該特徴点の移動位置を推定する特徴点追跡処理を行う。特徴点追跡処理では、原画像上の各特徴点が、比較対象の画像においてどの方向にどれだけ移動したかを表す移動ベクトルが推定される。このような処理により、原画像上の特徴点が比較対象の画像上のどの位置に移動したかを推定することができる。特徴点追跡処理部３１１による特徴点追跡処理は、特徴点比較処理部３１０による特徴点比較処理よりも処理速度が速い。以下、特徴点追跡処理を、単に特徴点追跡と表現する場合がある。

座標変換処理部３１２は、２つの画像の間で、ホモグラフィ変換（ｈｏｍｏｇｒａｐｈｙｔｒａｎｓｆｏｒｍ、平面射影変換）を行うためのホモグラフィ変換行列（以下、単に変換行列と呼ぶ）を導出することで、点のマッピングを行う。２つの画像とは、たとえば、全体画像と撮影画像、または、第１フレームの撮影画像と第２フレームの撮影画像である。ホモグラフィ変換は、ある平面座標系上の点を、異なる平面座標系上に変形して移し替えることができる。ホモグラフィ変換に似た手法として、画像の回転、平行移動、及び拡大縮小を行うことが可能なアフィン変換があるが、ホモグラフィ変換は、それらに加えて、座標位置に応じて拡大縮小の比率を変える台形状の変換が可能である。ホモグラフィ変換は、変換元の画像上の座標点（ｘ１，ｙ１）、変換後の画像上の座標点（ｘ２，ｙ２）、変換行列Ｈ、及び定数ｓを用いて、以下のような数式で表せられる。なお、変換行列の数式は、下記の数式に限られず、２つの画像の座標系を変換するための変換式であれば、行列式での表現に限るものではなく、その他の表現で表すようにしても構わない。このような変換式（変換行列）は、２つの画像の座標系を変換する際の変換情報として一般に使用される。

２つの画像に同じオブジェクトから抽出される特徴点が存在している場合、特徴点比較処理部３１０または特徴点追跡処理部３１１のマッチング処理によって求められた画像間の対応点座標をもとに、変換行列Ｈのパラメータを導出する。これにより、２つの画像間の変換行列を用いて、第１の画像中の座標を第２の画像中にマッピングすることや、変換行列の逆行列を求めて、その逆のマッピングを行うことが可能となる。しかし、２つの画像間に同じオブジェクトがほとんど存在しなかった場合（画像間の差異が大きかった場合）、マッチングに成功する特徴点の数が少なくなり、変換行列Ｈの導出に失敗してしまう可能性がある。したがって、特徴点追跡処理において移動ベクトルを正確に算出するためには、２つの画像（第１のフレームの撮影画像と第２のフレームの撮影画像）間において、オブジェクトの移動量が一定値より小さい（画像間の差分が小さい）必要がある。

トラッキング処理部３１３は、後述するトラッキング処理により、カメラ１０２及びカメラユニット２０６により取り込まれた最新の撮影画像が全体画像５００のどの部分（領域）を撮影しているかをトラッキングする。そして、トラッキング処理部３１３は、トラッキング結果と、後述するＯＣＲ処理対象領域情報テーブルに格納されているＯＣＲ処理対象領域の情報とに基づいて、撮影画像上にＯＣＲ処理対象領域をマッピングして描画し、モバイル端末画面４００に表示する。そのため、最新の撮影画像を取得してから、モバイル端末画面４００上にＯＣＲ処理対象領域がマッピングされた画像を表示するまでに、座標変換処理部３１２による、全体画像５００と最新の撮影画像間の変換行列を求める処理を待つ必要がある。座標変換処理部３１２による変換行列の導出には、２つの画像間の特徴点のマッチング処理が必要となる。そして、マッチング処理には特徴点比較処理部３１０と特徴点追跡処理部３１１による２通りの導出方法がある。上述したように特徴点比較処理部３１０による特徴点比較処理には時間がかかるため、特徴点比較処理が完了するまで表示を行わないでいると、撮影レートの低下を招いてしまう。また、特徴点追跡処理部３１１による特徴点追跡処理は高速ではあるが、各撮影フレーム間で求めた変換行列を順次掛け合わせていくことでトラッキングを行うので、各フレーム間で求めた変換行列の誤差が蓄積していく。したがって、特徴点追跡処理部３１１による特徴点追跡処理だけを行っていると、次第にトラッキング結果にズレが生じてしまう。そのため、後述するように、本実施形態におけるトラッキング処理では、特徴点追跡処理を行いながら定期的に特徴点比較処理を行ってズレを補正しながら、トラッキングを行うようにする。そのように特徴点比較処理と特徴点追跡処理とを組み合わせることで、トラッキングのズレを最小限にしつつ、モバイル端末画面４００への描画における撮影レートの低下を防ぐことが可能となる。

領域変化量算出部３１４は、トラッキング処理部３１３によるトラッキング結果に基づき、連続する撮影画像をそれぞれ全体画像の平面座標系上にマッピングして得られる各領域間の距離と面積の差異を導出する差異導出処理を実行する。ここでは、各領域間の距離は、領域の中心点（該領域は四角形なので４点の中心）の直線距離とする。

次に、全体画像及び撮影画像について図５を用いて説明する。全体画像５００は、予め用意された文書画像の一例である。全体画像５００は、被写体１０３の全体像に関する画像データで、予めＤＢ部３０８に保存されているものとするが、これに限るものではない。例えば、被写体１０３の全体を最初に撮影して取得した画像データに基づき、被写体１０３以外の領域を削除する紙面検出処理を行う。あるいは、歪み部分を補正する歪み補正処理などの整形加工を行うことにより全体画像５００を取得するフローを、モバイルアプリ３０２に追加しても良い。また、全体画像５００は、帳票等の表枠や固定の文字列部分のみを含む既知のフォーマットの文書画像（ＯＣＲ処理対象領域に文字列が記載される前の画像）であってもよい。撮影画像５０１～５０４は、被写体１０３の一部（あるいは全体）をカメラ１０２で動画撮影して得られた、複数フレームの画像の一部である。全体画像５００上の領域５０５～５０８は、撮影画像５０１～５０４に対応する撮影領域を示している。図５には、カメラ１０２の移動に応じて、撮影領域が領域５０５から領域５０８へと移動する様子が示されている。

次に、ＤＢ部３０８に格納されているＯＣＲ処理対象領域情報テーブル（以下、単に領域情報テーブルと呼ぶ）について説明する。図６は、第１実施形態における領域情報テーブルを説明するための図である。図６（ａ）には、領域情報テーブルのデータ構造の一例が示されている。図６（ｂ）には、ＯＣＲ処理対象領域がマッピングされた撮影画像の一例が示されている。領域情報テーブル６０１は、ｉｄ、ｋｅｙ、ｐｏｉｎｔ、ｗｉｄｔｈ、及びｈｅｉｇｈｔの５つのカラムを含む。ｉｄカラムは、領域情報テーブルにレコードが追加される度に１ずつ増加する値、すなわちテーブル（Ｔａｂｌｅ）の主キー（Ｐｒｉｍａｒｙｋｅｙ）を格納する。ｋｅｙカラムは、ＯＣＲ処理対象領域に含まれるデータがどのような情報であるかを示す。ｐｏｉｎｔカラムは、ＯＣＲ処理対象領域の左上端の、全体画像５００の座標系における座標を格納する。ｗｉｄｔｈカラムは、ＯＣＲ処理対象領域の幅（図５における左右方向の長さ）をピクセル単位で示した情報を格納する。ｈｅｉｇｈｔカラムは、ＯＣＲ処理対象領域の高さ（図５における上下方向の長さ）をピクセル単位で示した情報を格納する。また、図６（ｂ）に示す全体画像５００上に図示された破線の枠６０８～６１３はそれぞれ、領域情報テーブル６０１のレコード６０２～６０７に対応する領域を示している。つまり、枠６０８～６１３のそれぞれはＯＣＲ処理対象領域を示している。図６（ｂ）に示すように、ＯＣＲ処理対象領域を示す情報（ここでは破線の枠）をマッピングすることで、ＯＣＲ処理対象領域をガイド表示することができる。

次に、トラッキング処理部３１３によるトラッキング処理について、図７及び図８を用いて説明する。なお、以下では、２つの画像間の座標変換に用いる変換情報を変換行列として説明するが、前述した座標変換処理部３１２で用いられる変換情報と同様に、行列式の表現に限るものではなく、その他の変換式や変換情報であっても構わない。図７に示す画像７００～７０６（以下、撮影画像Ａ～Ｇ）は、被写体１０３にカメラ１０２を近づけて動画撮影して得られた連続するフレームの撮影画像である。なお、図７及び図８において、時間経過方向は右方向である。

変換行列７１０（以下、変換行列Ｏ→Ａ）は、予め用意された全体画像５００（撮影画像Ｏと記す）と撮影画像Ａとを入力画像として、特徴点比較処理部３１０で特徴点比較処理を実行して得られた結果を用いて、座標変換処理部３１２により求められる。特徴点比較処理部３１０の処理には時間がかかるため、変換行列Ｏ→Ａが導出されるまでに、動画の撮影画像Ｂ～Ｄが取得される。

変換行列７２０（以下、変換行列Ａ→Ｂ）は、撮影画像Ａと撮影画像Ｂとを入力画像として、特徴点追跡処理部３１１で特徴点を追跡する特徴点追跡処理を実行した結果を用いて、座標変換処理部３１２により求められる。同様に、変換行列７２１～７２５はそれぞれ、連続する２つの撮影画像を入力画像として、特徴点追跡処理部３１１で特徴点を追跡する特徴点追跡処理を実行した結果を用いて、座標変換処理部３１２により求められる。

変換行列７３０（以下、変換行列Ａ→Ｃ）は、変換行列Ａ→Ｂと変換行列７２１（以下、変換行列Ｂ→Ｃ）とを合成する（掛け合わせる）ことにより求められ、撮影画像Ａと撮影画像Ｃとの間の座標変換を可能にする変換行列である。

変換行列７３１（以下、変換行列Ａ→Ｄ）は、変換行列Ａ→Ｃに、変換行列Ｃ→Ｄを掛け合わせることにより求められ、撮影画像Ａと撮影画像Ｄとの間の座標変換を可能にする変換行列である。同様に、変換行列７３２（以下、変換行列Ａ→Ｅ）は、変換行列Ａ→Ｄに、変換行列７２３（以下、変換行列Ｄ→Ｅ）を掛け合わせることにより求められ、撮影画像Ａと撮影画像Ｅとの間の座標変換を可能にする変換行列である。

撮影画像Ｅが取得された時点で、座標変換処理部３１２による変換行列Ｏ→Ａの導出が終わっている場合には、その時点で、全体画像Ｏと撮影画像Ｅとの間の座標変換を可能にする変換行列Ｏ→Ｅの生成が行われる。変換行列Ｏ→Ｅは、変換行列Ｏ→Ａと変換行列Ａ→Ｅとを掛け合わせることで求めることができる。トラッキング処理部３１３は、変換行列Ｏ→Ｅと、領域情報テーブル６０１に保存されているＯＣＲ処理対象領域情報とに基づいて、撮影画像Ｅ上に各ＯＣＲ処理対象領域をマッピングして描画し、モバイル端末画面４００に表示する。

さらにその後、変換行列Ｏ→Ｅに、変換行列７２４（以下、変換行列Ｅ→Ｆ）を掛け合わせることにより、全体画像Ｏと撮影画像Ｆとの間の座標変換を可能にする変換行列７４１（以下、変換行列Ｏ→Ｆ）を求めることができる。同様に、変換行列Ｏ→Ｆに、変換行列７２５（以下、変換行列Ｆ→Ｇ）を掛け合わせることにより、全体画像Ｏと撮影画像撮影画像Ｇとの間の座標変換を可能にする変換行列７４２（以下、変換行列Ｏ→Ｇ）を求めることができる。

以降、同様の処理を繰り返すことによって、全体画像Ｏと最新の撮影画像との間の変換行列が求められ、各ＯＣＲ処理対象領域がマッピングされて描画された最新の撮影画像が、モバイル端末画面４００に表示される。

このように、本実施形態では、全体画像と撮影画像との特徴量比較処理を行っている間、該撮影画像（特徴点比較画像）と最新の撮影画像との間で特徴量追跡処理を繰り返すことでトラッキングする。このようなトラッキング処理により、全体画像Ｏと特徴点比較画像Ａとの特徴量比較処理を行っている間に、特徴点比較画像Ａと最新の撮影画像（図７に示す例では撮影画像Ｅ）との間の変換行列Ａ→Ｅを求めておくことができる。それにより、全体画像Ｏと特徴点比較画像Ａとの特徴量比較処理が終了した時点で、該特徴量比較処理により求められた変換行列Ｏ→Ａと、変換行列Ａ→Ｅとを掛け合わせることで、全体画像Ｏと最新の撮影画像Ｅとの間の変換行列Ｏ→Ｅを求めることができる。しかし、全体画像と最新の撮影画像との間の変換行列の精度は、特徴点追跡処理部３１１による特徴点追跡処理の推定誤差の影響などにより１００％ではない。そのため、変換行列を掛け合わせる回数が多くなるにしたがって誤差が蓄積する。そこで、本実施形態では後述するように、定期的に、全体画像との特徴量比較処理から始まるトラッキング処理を行って、誤差の蓄積をリセットする。

撮影画像Ａが、撮影開始時点から数えて一番初めに取得された撮影画像であった場合、変換行列Ｏ→Ａが生成されるまでの間、撮影画像Ｂ～Ｄをそのままモバイル端末画面４００に表示する。その理由は、全体画像Ｏと最新の撮影画像との間の変換行列を求めることができず、ＯＣＲ処理対象領域の位置を求めることができないためである。

一方、撮影画像Ａが取得される以前に、同様のトラッキング処理によって、全体画像Ｏと最新の撮影画像との間の変換行列が求められていた場合には、変換行列Ｏ→Ａが求められるまでの間は、以前求めた変換行列を使用するようにする。それによって、各ＯＣＲ処理対象領域がマッピングされて描画された最新の撮影画像を、モバイル端末画面４００に表示することが可能となる。そして、変換行列Ｏ→Ｅ求められた時点で、以前求めた変換行列を変換行列Ｏ→Ｅに置き換えることによって、変換行列の誤差の蓄積をリセットすることができる。ただし、変換行列Ｏ→Ｅを求めるまでに掛け合わされた変換行列の分だけ誤差が蓄積するため、誤差が完全にリセットされるわけではない。

図７に示す例において、撮影画像Ａと撮影画像Ｅと間でカメラの移動が少なく、画像間の差異が小さければ、特徴点追跡処理を実行して変換行列を求めることによって、誤差を完全にリセットすることができる。図８は、図７に示す例に対して、撮影画像Ａと最新の撮影画像の間の差異が小さかった場合のトラッキング処理を説明するための図である。図８には、図７に示す例と同様に、被写体１０３にカメラ１０２を近づけて動画撮影して得られた連続するフレームの撮影画像７０１，８０１～８０６が示されている。なお、撮影画像８０１～８０６（以下、撮影画像Ｂ´～Ｇ´）は、図７に示す撮影画像Ｂ～Ｇと異なる画像であり、撮影画像Ａとの差異が小さい画像であるとする。

図７に示す例と同様に、撮影画像Ｅ´が取得された時点で、座標変換処理部３１２による変換行列Ｏ→Ａの導出が終わっている場合には、その時点で、変換行列８１０（以下、変換行列Ａ→Ｅ´）の生成が行われる。変換行列Ａ→Ｅ´は、撮影画像Ａと撮影画像Ｅ´とを入力画像として、特徴点追跡処理部３１１で特徴点追跡処理を実行した結果を用いて、座標変換処理部３１２により求められる。変換行列Ｏ→Ａと変換行列Ａ→Ｅ´とを掛け合わせることにより、全体画像Ｏと撮影画像Ｅ´との間の変換行列８２０（以下、変換行列Ｏ→Ｅ´）が求められる。トラッキング処理部３１３は、変換行列Ｏ→Ｅ´と、領域情報テーブル６０１に保存されているＯＣＲ処理対象領域情報とに基づいて、撮影画像Ｅ´上に各ＯＣＲ処理対象領域をマッピングして描画し、モバイル端末画面４００に表示する。同様に、変換行列８１１，８１２（以下、変換行列Ｅ´→Ｆ´，Ｆ´→Ｇ´）はそれぞれ、連続する２つの撮影画像を入力画像として、特徴点追跡処理部３１１で特徴点追跡処理を実行した結果を用いて、座標変換処理部３１２により求められる。変換行列Ｏ→Ｅ´に、変換行列Ｅ´→Ｆ´を掛け合わせることにより、全体画像Ｏと撮影画像Ｆ´との間の変換行列８２１（以下、変換行列Ｏ→Ｆ´）を求めることができる。同様に、変換行列Ｏ→Ｆ´に、変換行列Ｆ´→Ｇ´を掛け合わせることにより、全体画像Ｏと撮影画像Ｇ´との間の変換行列８２２（以下、変換行列Ｏ→Ｇ´）を求めることができる。

＜トラッキング処理のフロー＞
次に、モバイル端末１００のＣＰＵ２０１がモバイルアプリ３０２を実行することにより実現される、トラッキング処理について図９を用いて説明する。例えば、ユーザがモバイル端末１００を操作してモバイルアプリ３０２を起動し、さらに被写体１０３に対してカメラ１０２を接近させて撮影を開始すると、図９に示すフローが開始される。

ステップＳ９０１（以下、単にＳ９０１と記す。他のステップについても同様である）で、メイン制御部３０３は、ＤＢ部３０８に保存されている全体画像５００を記憶部３０７に送信して使用できるようにする。Ｓ９０２で、メイン制御部３０３は、ＤＢ部３０８に保存されている領域情報テーブル６０１を記憶部３０７に送信して使用できるようにする。Ｓ９０３で、メイン制御部３０３は、撮影画像取得部３０６から、動画の最新フレームの画像を、撮影画像として１枚（１フレーム分）取得するよう命令する。

Ｓ９０４で、メイン制御部３０３は、特徴点比較処理を開始するタイミングであるかどうかの判断を行う。本実施形態では、メイン制御部３０３は、全体画像と最新の撮影画像との間のトラッキング経路が確立されたタイミングを、特徴点比較処理を開始するタイミングであると判断する。例えば、Ｓ９０３の処理で入力された画像が最初のフレームの画像（撮影画像Ａ）である場合に、全体画像と最新の撮影画像との間のトラッキング経路が確立されたと判断される。なお、トラッキング経路が確立されたのち、数フレーム撮影されてから特徴点比較処理が開始されるようにしてもよい。また本実施形態では、特徴点比較処理が定期的に開始されるように、Ｓ９０４の判定が行われるようにする。すなわち、メイン制御部３０３は、定期的（例えば、所定数のフレーム毎や、所定の期間毎）に、特徴点比較処理を開始するタイミングであると判断する。

特徴点比較処理を開始するタイミングでない場合は（Ｓ９０４のＮｏ）、処理はＳ９０６に進み、開始するタイミングである場合は（Ｓ９０４のＹｅｓ）、処理はＳ９０５に進む。Ｓ９０５で、メイン制御部３０３は、特徴点比較処理部３１０に対し、特徴点比較処理を開始するよう指示する。

Ｓ９０６で、メイン制御部３０３は、特徴点追跡処理部３１１に対し、入力された最新の撮影画像とその直前に入力された撮影画像との間で特徴点追跡処理を行うように指示する。更に、メイン制御部３０３は、座標変換処理部３１２に対し、その特徴点追跡処理の結果に基づいて変換行列を生成するように命令する。このとき、座標変換処理部３１２は、前述したように、比較対象となった最新の撮影画像とその直前の撮影画像との間で特徴点比較処理部３１０により対応付けられた複数の特徴点の座標に基づいて、変換行列を生成する。このとき生成される変換行列は、図７の変換行列Ａ→Ｂ，Ｂ→Ｃ，Ｃ→Ｄ，Ｄ→Ｅ，Ｅ→Ｆ，Ｆ→Ｇや、図８の変換行列Ｅ´→Ｆ´，Ｆ´→Ｇ´である。

Ｓ９０７で、メイン制御部３０３は、後述する変換行列の生成／更新処理を実行し、変換行列の生成及び更新を行う。Ｓ９０８で、メイン制御部３０３は、Ｓ９０７で生成した変換行列と、記憶部３０７に記憶された領域情報テーブル６０１とを用いて、ＯＣＲ処理対象領域を撮影画像上にマッピングする。そして、メイン制御部３０３は、ＯＣＲ処理対象領域をマッピングした撮影画像を表示するための情報を、情報表示部３０４を介してモバイル端末画面４００に出力する。このようにして、メイン制御部３０３は、ＯＣＲ処理対象領域を、モバイル端末画面４００にガイド表示する。なお、撮影画像入力後に、Ｓ９０７で変換行列が生成されなかった場合は、ＯＣＲ処理対象領域がマッピングされていない撮影画像がそのままモバイル端末画面４００に表示される。Ｓ９０９で、メイン制御部３０３は、撮影画像取得部３０６による撮影画像の入力が終了したかどうかの判断を行う。撮影画像の入力が続いている場合は（Ｓ９０９のＮｏ）、処理はＳ９０３に戻る。それにより、順次入力される撮影画像に対してＳ９０３～Ｓ９０８の処理が繰り返し実行される。一方、撮影画像の入力が終了していた場合（Ｓ９０９のＹｅｓ）は、処理は終了する。

＜変換行列の作成／更新処理（Ｓ９０７）の詳細フロー＞
次に、図９に示すＳ９０７の処理（変換行列の作成／更新処理）の詳細について、図１０を用いて説明する。

Ｓ１００１で、メイン制御部３０３は、特徴点比較処理部３１０による特徴点比較処理が開始されているどうかを判断する。特徴点比較処理が開始されていなければ（Ｓ１００１のＮｏ）、処理はＳ１００４に進み、開始されていれば（Ｓ１００１のＹｅｓ）、処理はＳ１００２に進む。Ｓ１００２で、メイン制御部３０３は、特徴点比較に使用した撮影画像（特徴点比較画像）と直前に入力された撮影画像との間の変換行列（図７に示す変換行列Ａ→Ｂ，Ａ→Ｃ，Ａ→Ｄ，Ａ→Ｅ）があるかどうかを判断する。以下、この行列を、特徴点比較開始時からの変換行列と呼ぶ。特徴点比較開始時からの変換行列がある場合は（Ｓ１００２のＹｅｓ）、処理はＳ１００４に進み、該変換行列がない場合は（Ｓ１００２のＮｏ）、処理はＳ１００３に進む。

Ｓ１００３で、メイン制御部３０３は、座標変換処理部３１２に対し、特徴点比較画像と最新の撮影画像との間の変換行列の生成を指示する。すると、座標変換処理部３１２は、特徴点比較画像と直前に入力された撮影画像との間の変換行列（図７の変換行列Ａ→Ｂ，Ａ→Ｃ，Ａ→Ｄ）に、Ｓ９０６で生成された変換行列（図７の変換行列Ｂ→Ｃ，Ｃ→Ｄ，Ｄ→Ｅ）を掛け合わせる。それによって、特徴点比較開始時からの変換行列（図７の変換行列Ａ→Ｃ，Ａ→Ｄ，Ａ→Ｅ）が生成される。Ｓ１００４で、メイン制御部３０３は、特徴点比較処理部３１０による特徴点比較処理が完了したかどうかを判定する。特徴点比較処理が完了している場合は（Ｓ１００４のＹｅｓ）、処理はＳ１００５に進む。一方、特徴点比較処理が完了していない場合は（Ｓ１００４のＮｏ）、処理はＳ１００８に進む。

Ｓ１００５で、メイン制御部３０３は、特徴点比較画像と最新の撮影画像とをそれぞれ全体画像の平面座標系上にマッピングした領域間での距離及び面積の差異を求めるように、領域変化量算出部３１４に指示する。そして、メイン制御部３０３は、求めた差異が一定以上であるかを判定する。求めた差異が一定以上であった場合は（Ｓ１００５のＹｅｓ）、処理はＳ１００７に進み、一定以上でない場合は（Ｓ１００５のＮｏ）、処理はＳ１００６に進む。

Ｓ１００６で、メイン制御部３０３は、座標変換処理部３１２に対し、特徴点比較開始時からの変換行列の置き換えを指示する。すると、座標変換処理部３１２は、特徴点比較画像と最新の撮影画像とを入力画像として、特徴点追跡処理部３１１で特徴点追跡処理を実行した結果を用いて、変換行列（図８の変換行列Ａ→Ｅ´）を求める。そして、座標変換処理部３１２は、求めた変換行列で、Ｓ１００３で生成した特徴点比較開始時からの変換行列（図７の変換行列Ａ→Ｅ）を置き換える。

Ｓ１００７で、メイン制御部３０３は、座標変換処理部３１２に対し、全体画像と最新の撮影画像との間の変換行列（以下、「全体画像からの変換行列」と表現する）の生成を指示する。すると、座標変換処理部３１２は、Ｓ１００３またはＳ１００６で生成された変換行列（図７の変換行列Ａ→Ｅまたは図８の変換行列Ａ→Ｅ´）に、特徴点比較処理で生成された変換行列（図７及び図８の変換行列Ｏ→Ａ）を掛け合わせる。それによって、全体画像からの変換行列（図７の変換行列Ｏ→Ｅ、図８の変換行列Ｏ→Ｅ´）が生成される。そして、処理は終了する。

Ｓ１００８で、メイン制御部３０３は、全体画像と直前に入力された撮影画像との間の変換行列（図７の変換行列Ｏ→Ｅ，Ｏ→Ｆ，Ｏ→Ｇ）が既に生成されているかどうかを判断する。生成されている場合は（Ｓ１００８のＹｅｓ）、処理はＳ１００９に進み、生成されていない場合は（Ｓ１００８のＮｏ）、処理は終了する。

Ｓ１００９で、メイン制御部３０３は、座標変換処理部３１２に対して、全体画像と最新の撮影画像との間の変換行列の更新を指示する。すると、座標変換処理部３１２は、全体画像と直前に入力された撮影画像との間の変換行列（図７の変換行列Ｏ→Ｅ，Ｏ→Ｆ）に、Ｓ９０６で生成された変換行列（図７の変換行列Ｅ→Ｆ，Ｆ→Ｇ）を掛け合わせる。それによって、全体画像からの変換行列（図７の変換行列Ｏ→Ｆ，Ｏ→Ｇ）が新たに生成される。そして、処理は終了する。

以上説明したように、本実施形態では、全体画像との特徴量比較処理を行っている間に、特徴点比較画像と最新の撮影画像との間のトラッキング処理を、特徴量追跡を繰り返すことによって行っている。そして、全体画像との特徴量比較が終了した時点で、全体画像との特徴量比較によって求められた変換行列と、特徴点比較画像と最新の撮影画像との間のトラッキング処理で求めた変換行列とを合成して、全体画像と最新の撮影画像との間の変換行列を求めている。これにより、カメラを移動している最中であっても、変換行列の精度の誤差をリセットすることができ、トラッキング処理の精度を向上させることができる。したがって、ＯＣＲ処理対象領域を拡大撮影する際の操作性を向上させることができる。

また、本実施形態では、全体画像との特徴量比較処理を定期的に行うようにしているので、カメラを移動している時間が長くなったとしても、変換行列の誤差が蓄積されることを抑制することができる。つまり、拡大撮影の撮影時間の長さによらずに、トラッキング誤差（位置ズレ）を抑制することができる。

また、本実施形態では、全体画像との特徴量比較が終了した時点で、特徴点比較画像と最新の撮影画像との画像差異が小さい場合に、特徴点比較画像と最新の撮影画像とを入力として特徴量追跡を行う。それによって、変換行列の精度の誤差を完全にリセットすることができる。したがって、ＯＣＲ処理対象領域を拡大撮影する際の操作性をさらに向上させることができる。

以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

被写体を動画撮影して得られる画像をフレーム単位で入力する入力手段と、
被写体の全体を予め撮影して得られる全体画像から抽出される特徴点と、被写体を撮影して得られる第１の画像から抽出される特徴点とを比較する特徴点比較を実行して、前記全体画像における座標系と前記第１の画像における座標系との間の座標変換に用いる第１の変換情報を導出する第１の導出手段と、
前記第１の画像に続いて順次入力される複数の画像に対して、前記第１の画像から抽出される特徴点の位置を追跡する特徴点追跡を実行して、前記第１の画像の座標系と、前記複数の画像のうちの第２の画像の座標系との間の座標変換に用いる第２の変換情報を導出する第２の導出手段と、
前記第１の変換情報と前記第２の変換情報とを合成して、前記全体画像における座標系と第２の画像における座標系との間の座標変換に用いる第３の変換情報を導出する第３の導出手段と、
を備え、
前記第１の導出手段は、前記第１の変換情報を導出してから、前記入力手段に所定数のフレームの画像が入力された場合に、前記全体画像から抽出される特徴点と前記入力手段に入力された新たなフレームの画像の特徴点とを比較する特徴点比較を実行して、新たな前記第１の変換情報の導出を開始する
ことを特徴とする情報処理装置。
前記第２の導出手段は、
前記入力手段に前記第１の画像が入力されてから前記第１の導出手段によって前記第１の変換情報が導出されるまでの間、前記入力手段に新たなフレームの画像が入力される毎に、該画像を前記第２の画像として前記第２の変換情報を導出する
ことを特徴とする請求項１に記載の情報処理装置。
前記第３の導出手段は、
前記第３の変換情報を導出した後に、前記入力手段に新たなフレームの画像が入力された場合には、前記新たなフレームの画像の座標系と、前記新たなフレームの直前のフレームの画像の座標系との間の座標変換に用いる変換情報を導出し、該変換情報と前記第３の変換情報とを用いて、新たな前記第３の変換情報を導出する
ことを特徴とする請求項２に記載の情報処理装置。
前記第１の画像と前記第２の画像との差異を導出する差異導出手段をさらに備え、
前記第２の導出手段は、
前記差異導出手段が導出した差異が一定以上でない場合には、前記第１の画像と前記第２の画像とに対して前記特徴点追跡を実行して、前記第２の変換情報を導出する
ことを特徴とする請求項２または請求項３に記載の情報処理装置。
前記第１の画像と前記第２の画像との差異を導出する差異導出手段をさらに備え、
前記第２の導出手段は、
前記差異導出手段が導出した差異が一定以上である場合には、前記第１の画像から前記第２の画像までの各フレームの画像に対して前記特徴点追跡を実行して、前記第２の変換情報を導出する
ことを特徴とする請求項２または請求項３に記載の情報処理装置。
被写体上の文字認識処理が適用される対象領域を前記全体画像における座標系で表した領域情報と、前記第３の変換情報とに基づいて、前記第２の画像上に前記対象領域をマッピングする描画手段と、
前記対象領域がマッピングされた前記第２の画像を表示するための情報を表示手段に出力する出力手段と、をさらに備える
ことを特徴とする請求項１から請求項５のうちのいずれか１項に記載の情報処理装置。
前記被写体が所定のフォーマットの紙文書である
ことを特徴とする請求項１から請求項６のうちのいずれか１項に記載の情報処理装置。
被写体を動画撮影して得られる画像をフレーム単位で入力する入力ステップと、
被写体の全体を予め撮影して得られる全体画像から抽出される特徴点と、被写体を撮影して得られる第１の画像から抽出される特徴点とを比較する特徴点比較を実行して、前記全体画像における座標系と前記第１の画像における座標系との間の座標変換に用いる第１の変換情報を導出する第１の導出ステップと、
前記第１の画像に続いて順次入力される複数の画像に対して、前記第１の画像から抽出される特徴点の位置を追跡する特徴点追跡を実行して、前記第１の画像の座標系と、前記複数の画像のうちの第２の画像の座標系との間の座標変換に用いる第２の変換情報を導出する第２の導出ステップと、
前記第１の変換情報と前記第２の変換情報とを合成して、前記全体画像における座標系と第２の画像における座標系との間の座標変換に用いる第３の変換情報を導出する第３の導出ステップと、
を含み、
前記第１の導出ステップでは、前記第１の変換情報を導出してから、前記入力ステップで所定数のフレームの画像が入力された場合に、前記全体画像から抽出される特徴点と前記入力ステップで入力された新たなフレームの画像の特徴点とを比較する特徴点比較を実行して、新たな前記第１の変換情報の導出を開始する
ことを特徴とする情報処理方法。
コンピュータを、請求項１から請求項７のうちのいずれか１項に記載の情報処理装置と
して機能させるためのプログラム。