JP2017126225A

JP2017126225A - 画像処理装置、方法およびプログラム

Info

Publication number: JP2017126225A
Application number: JP2016005599A
Authority: JP
Inventors: 剛大石; Takeshi Oishi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-20

Abstract

【課題】文書に対して文字認識を施した結果を確認するため、認識対象の文書と認識結果とを比較する場合に全ての認識結果を確認すると操作者に負担がかかってしまう。【解決手段】上記課題を解決すべく本画像処理装置は、台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第１の表示制御手段と、前記台上に載置された原稿に含まれる項目のうち第１の項目と前記台上に表示された文字認識結果のうち前記第１の項目に対する文字認識結果を示す第２の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上にて表示させる第２の表示制御手段と、を有することを特徴とする。【選択図】図８

Description

本発明は、
画像処理装置、方法およびプログラムに関する。

従来、銀行や保険といった金融業の営業窓口や、行政サービスの窓口などでは、顧客に伝票や申込書、届出書などの文書（紙媒体）への記入を促し、窓口の担当者がその記入状態をチェックして処理するといったことが一般に行われている。この処理にかかる手番を減らすためには、文書画像から文字情報を取得する文字認識という技術を活用することが好ましい。文字認識技術は、撮像した画像中の文字や文字列を認識して文字データの出力を行うが、記入状態や撮影状態によっては、正確な文字の認識をすることができない場合がある。また、文字認識対象である文書画像の中にはユーザーによる誤記が含まれる文字画像がある場合もある。このような場合に対応するためには、オペレータが文字認識結果を確認する作業を必要とする。特に金融機関などの決済を伴う場面では、入力ミスが大きな影響を与えることになるため、オペレータによる文字認識結果の確認がしやすく、認識ミスを発見しやすい状態であることが好ましい。こういった場合、文字認識結果を表示し、この認識結果と文書画像とを見比べる方法が一般的である。しかし、文字認識結果のそれぞれの項目が文書画像のどの項目に対応するか分かりづらいとオペレータの負担となる。特許文献１では、同一画面上に文書画像と文書画像に対応する文字認識結果を表にしたものを表示する。また、特許文献１では、文書画像の各項目に対して記入がなされた箇所とこの箇所に対応する文字認識結果とを共通の表示形式で表示（色付けや網がけといった強調表示）する。

特開平１０−１３４１２０

特許文献１の方法によると、文書画像の各項目に対して記入がなされた箇所とこの箇所に対応する文字認識結果とが特定できるように強調表示を行っている。よって、
単純に文書画像とこの文書画像に対応する文字認識結果とを見比べる場合に比べて効率的に確認作業を行うことが可能である。

この確認作業を行う上では、文書画像とこの文書画像の文字認識結果とを照合しやすいように表示される形態が好ましい。

上記課題を解決すべく本画像処理装置は、台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第１の表示制御手段と、前記台上に載置された原稿に含まれる項目のうち第１の項目と前記台上に表示された文字認識結果のうち前記第１の項目に対する文字認識結果を示す第２の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上にて表示させる第２の表示制御手段と、と、を有することを特徴とする。

本発明では、
書画台上に載置された原稿から得られた文書画像に対する文字認識結果を、書画台上にて原稿と並べて表示することで、ユーザーが、文書画像に対して文字認識された結果を照合して確認する際の負担を軽減することが可能になる。

カメラスキャナ１０１のネットワーク構成を示す図である。カメラスキャナ１０１の外観を示す図である。コントローラ部２０１のハードウェア構成図である。カメラスキャナ１０１の制御用プログラムの機能構成図およびシーケンス図である距離画像取得部４１８が実行する処理のフローチャートである。認識対象となる文書５０１の例を表す図である。文字認識領域のデータベース例を表す図である。実施例１のメイン制御部４０２が実行する処理のフローチャートである。文字認識部４１４および修正用ＵＩ処理部４１７が実行する処理のフローチャートである。確認支援処理部４２１の紐付け表示および修正用ＵＩ表示を表す図である。ジェスチャ認識部４０９が実行する処理のフローチャートである。ジェスチャ認識部４０９が実行する処理の説明図である。実施例２における対応付け処理部４１６の表示例を示す図である。実施例２における図１３状態でのジェスチャ状態を示す図である。文書認識部４１４が参照する特徴量データベースの例を表す図である。

以下、本発明を実施するための形態について図面を参照して説明する。

図１は、実施例１に係るカメラスキャナ１０１が含まれるネットワーク構成を示す図である。

図１に示すように、カメラスキャナ１０１はイーサネット（登録商標）等のネットワーク１０４にてホストコンピュータ１０２およびプリンタ１０３に接続されている。図１のネットワーク構成において、ホストコンピュータ１０２からの指示により、カメラスキャナ１０１から画像を読み取るスキャン機能や、スキャンデータをプリンタ１０３により出力するプリント機能の実行が可能である。また、ホストコンピュータ１０２を介さず、カメラスキャナ１０１への直接の指示により、スキャン機能、プリント機能の実行も可能である。

＜カメラスキャナの構成＞
図２は、実施例１に係るカメラスキャナ１０１の構成例を示す図である。

図２（ａ）に示すように、カメラスキャナ１０１は、コントローラ部２０１、カメラ部２０２、腕部２０３、短焦点プロジェクタ２０７、距離画像センサ部２０８を含む。カメラスキャナの本体であるコントローラ部２０１と、撮像を行うためのカメラ部２０２、短焦点プロジェクタ２０７および距離画像センサ部２０８は、腕部２０３により連結されている。腕部２０３は関節を用いて曲げ伸ばしが可能である。

図２（ａ）には、カメラスキャナ１０１が設置されている書画台（以下、台、または、ステージとも呼ぶ）２０４も示している。
カメラ部２０２および距離画像センサ部２０８のレンズは書画台２０４方向に向けられており、破線で囲まれた読み取り領域２０５内の画像を読み取り可能である。図２の例では、原稿２０６は読み取り領域２０５内に置かれているので、カメラスキャナ１０１に読み取り可能となっている。

カメラ部２０２は単一解像度で画像を撮像するものとしてもよいが、高解像度画像撮像と低解像度画像撮像が可能なものとすることが好ましい。

なお、図２に示されていないが、カメラスキャナ１０１は、ＬＣＤタッチパネル３３０およびスピーカ３４０をさらに含むこともできる。

図２（ｂ）は、カメラスキャナ１０１における座標系について表している。カメラスキャナ１０１では各ハードウェアデバイスに対して、カメラ座標系、距離画像座標系、プロジェクタ座標系という座標系が定義される。これらはカメラ部２０２および距離画像センサ部２０８のＲＧＢカメラ部５０３が撮像する画像平面、あるいはプロジェクタ２０７が投影する画像平面をＸＹ平面とし、画像平面に直交した方向をＺ方向として定義したものである。さらに、これらの独立した座標系の３次元データを統一的に扱えるようにするために、書画台２０４を含む平面をＸＹ平面とし、このＸＹ平面から上方に垂直な向きをＺ軸とする直交座標系を定義する。

座標系を変換する場合の例として、図２（ｃ）に直交座標系と、カメラ部２０２を中心としたカメラ座標系を用いて表現された空間と、カメラ部２０２が撮像する画像平面との関係を示す。直交座標系における３次元点Ｐ［Ｘ，Ｙ，Ｚ］は、（１）式によって、カメラ座標系における３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］へ変換できる。

ここで、Ｒｃおよびｔｃは、直交座標系に対するカメラの姿勢（回転）と位置（並進）によって求まる外部パラメータによって構成され、Ｒｃを３×３の回転行列、ｔｃを並進ベクトルと呼ぶ。逆に、カメラ座標系で定義された３次元点は（２）式によって、直交座標系への変換することができる

さらに、カメラ部２０２で撮影される２次元のカメラ画像平面は、カメラ部２０２によって３次元空間中の３次元情報が２次元情報に変換されたものである。すなわち、カメラ座標系上での３次元点Ｐｃ［Ｘｃ，Ｙｃ，Ｚｃ］を、（３）式によってカメラ画像平面での２次元座標ｐｃ［ｘｐ，ｙｐ］に透視投影変換することによって変換することが出来る。

ここで、Ａは、カメラの内部パラメータと呼ばれ、焦点距離と画像中心などで表現される３×３の行列である。

以上のように、（１）式と（３）式を用いることで、直交座標系で表された３次元点群を、カメラ座標系での３次元点群座標やカメラ画像平面に変換することが出来る。なお、各ハードウェアデバイスの内部パラメータおよび直交座標系に対する位置姿勢（外部パラメータ）は、公知のキャリブレーション手法によりあらかじめキャリブレーションされているものとする。以後、特に断りがなく３次元点群と表記した場合は、直交座標系における３次元データを表しているものとする。

＜カメラスキャナのコントローラのハードウェア構成＞
図３は、カメラスキャナ１０１の本体であるコントローラ部２０１のハードウェア構成例を示す図である。

図３に示すようにコントローラ部２０１は以下を含む。
すなわち、システムバス３０１に接続されたＣＰＵ３０２、ＲＡＭ３０３、ＲＯＭ３０４、ＨＤＤ３０５、ネットワークＩ／Ｆ３０６、画像処理プロセッサ３０７、カメラＩ／Ｆ３０８、ディスプレイコントローラ３０９を含む。さらに、システムバス３０１に接続されたシリアルＩ／Ｆ３１０、オーディオコントローラ３１１、ＵＳＢコントローラ３１２を含む。

ＣＰＵ３０２はコントローラ部２０１全体の動作を制御する中央演算装置である。ＲＡＭ３０３は揮発性メモリである。ＲＯＭ３０４は不揮発性メモリであり、ＣＰＵ３０２の起動用プログラムが格納されている。ＨＤＤ３０５はＲＡＭ３０３と比較して大容量なハードディスクドライブ（ＨＤＤ）である。ＨＤＤ３０５にはコントローラ部２０１の実行する、カメラスキャナ１０１の制御用プログラムが格納されている。

ＣＰＵ３０２は電源ＯＮ等の起動時、ＲＯＭ３０４に格納されている起動用プログラムを実行する。この起動用プログラムは、ＨＤＤ３０５に格納されている制御用プログラムを読み出し、ＲＡＭ３０３上に展開するためのものである。ＣＰＵ３０２は起動用プログラムを実行すると、続けてＲＡＭ３０３上に展開した制御用プログラムを実行し、制御を行う。また、ＣＰＵ３０２は制御用プログラムによる動作に用いるデータもＲＡＭ３０３上に格納して読み書きを行う。ＨＤＤ３０５上にはさらに、制御用プログラムによる動作に必要な各種設定や、また、カメラ入力によって生成した画像データを格納することができ、ＣＰＵ３０２によって読み書きされる。ＣＰＵ３０２はネットワークＩ／Ｆ３０６を介してネットワーク１０４上の他の機器との通信を行う。

画像処理プロセッサ３０７はＲＡＭ３０３に格納された画像データを読み出して処理し、またＲＡＭ３０３へ書き戻す。なお、画像処理プロセッサ３０７が実行する画像処理は、回転、変倍、色変換等である。

カメラＩ／Ｆ３０８はカメラ部２０２および距離画像センサ２０８と接続され、ＣＰＵ３０２からの指示に応じてカメラ部２０２から画像データを、距離画像センサ部２０８から距離画像データを取得してＲＡＭ３０３へ書き込む。また、ＣＰＵ３０２からの制御コマンドをカメラ部２０２および距離画像センサ２０８へ送信し、カメラ部２０２および距離画像センサ２０８の設定を行う。

また、コントローラ部２０１は、ディスプレイコントローラ３０９、シリアルＩ／Ｆ３１０、オーディオコントローラ３１１およびＵＳＢコントローラ３１２のうち少なくとも１つをさらに含むことができる。

ディスプレイコントローラ３０９はＣＰＵ３０２の指示に応じてディスプレイへの画像データの表示制御を行う。ここでは、ディスプレイコントローラ３０９は短焦点プロジェクタ２０７およびＬＣＤタッチパネル３３０に接続されている。

シリアルＩ／Ｆ３１０はシリアル信号の入出力を行う。ここでは、シリアルＩ／Ｆ３１０はターンテーブル２１０に接続され、ＣＰＵ３０２の回転開始・終了および回転角度の指示をターンテーブル２０９へ送信する。また、シリアルＩ／Ｆ３１０はＬＣＤタッチパネル３３０に接続され、ＣＰＵ３０２はＬＣＤタッチパネル３３０が押下されたときに、シリアルＩ／Ｆ３１０を介して押下された座標を取得する。

オーディオコントローラ３１１はスピーカ３４０に接続され、ＣＰＵ３０２の指示に応じて音声データをアナログ音声信号に変換し、スピーカ３４０を通じて音声を出力する。

ＵＳＢコントローラ３１２はＣＰＵ３０２の指示に応じて外付けのＵＳＢデバイスの制御を行う。ここでは、ＵＳＢコントローラ３１２はＵＳＢメモリやＳＤカードなどの外部メモリ３５０に接続され、外部メモリ３５０へのデータの読み書きを行う。

＜カメラスキャナの制御用プログラムの機能構成＞
図４（ａ）は、ＣＰＵ３０２が実行するカメラスキャナ１０１の制御用プログラムの機能構成４０１を示す図である。また、図４（ｂ）は、機能構成４０１の各モジュールの関係をシーケンス図として示したものである。図６（ａ），（ｂ）は本実施例における書画台２０４および文字認識対象となる文書６０１の例である。図７は、本実施例における文字認識情報を保持するデータベースを示す例である。

カメラスキャナ１０１の制御用プログラムは前述のようにＨＤＤ３０５に格納され、ＣＰＵ３０２が起動時にＲＡＭ３０３上に展開して実行する。

メイン制御部４０２は制御の中心であり、機能構成４０１内の他の各モジュールを図４（ｂ）に示すように制御する。

画像取得部４１８は画像入力処理を行うモジュールであり、カメラ画像取得部４０７、距離画像取得部４０８から構成される。カメラ画像取得部４０７はカメラＩ／Ｆ３０８を介してカメラ部２０２が出力する画像データを取得し、ＲＡＭ３０３へ格納する。距離画像取得部４０８はカメラＩ／Ｆ３０８を介して距離画像センサ部２０８が出力する距離画像データを取得し、ＲＡＭ３０３へ格納する。距離画像取得部４０８の処理の詳細は図５を用いて後述する。

認識処理部４１９はカメラ画像取得部４０７、距離画像取得部４０８が取得する画像データから書画台２０４上の文書やユーザーの手などの物体を検知・認識するモジュールであり、ジェスチャ認識部４０９、物体検知部４１０から構成される。

ジェスチャ認識部４０９は、画像取得部４１８から書画台２０４上の画像を継続的に取得し続け、得られた３次元点群、及び、手の肌色領域からの外形検出に基づいて、書画台２０４上の手の位置、及び、タッチなどのジェスチャを検知する。ジェスチャ認識部４０９は、手の位置、及び、タッチなどのジェスチャを検知すると、メイン制御部４０２へジェスチャ検知を通知する。ジェスチャ認識部４０９の処理の詳細は図１１を用いて説明する。

物体検知部４１０は、メイン制御部４０２から物体載置待ち処理あるいは物体除去待ち処理の通知を受けると、画像取得部４１８から書画台２０４を撮像した画像を取得する。この画像を用いて、書画台２０４上に物体が置かれて静止するタイミングあるいは物体が取り除かれるタイミングを検知する処理を行う。物体が置かれて静止するタイミング及び除去されるタイミングは、書画台２０４の背景画像と連続する所定フレーム数のカメラフレーム画像との差分値にもとづいて検知する。尚、物体が除去されるタイミングとは、物体が書画台２０４上から完全に除去され、書画台２０４上に物体が何も置かれていない状態になったタイミングのことである。静止された物体が置かれていると判定される場合は、最後のカメラフレーム画像を保存する。また、距離画像データにもとづき、物体が所定の厚み以下の文書ではなく、所定の厚み以上を有する立体物であると判定される場合は、カメラフレーム画像に加えて、距離画像を３次元点群に変換して保存する。物体が文書か立体物であるかの判定に用いる厚みの閾値は設定によって変更することができる。また、物体検知部４１０は、検知された物体が、文書であるか、文書以外の立体物であるかを識別する物体識別情報を同時に生成する。物体識別情報は、距離画像にもとづき、物体の厚みが所定の厚み以下かそうでないかの判定によって、それぞれ文書であるか立体物であるかを識別する情報を含む。ここでは、物体の識別を物体の厚みのみで判定しているが、前述のカメラフレーム画像の差分値が所定値以上ある領域が矩形であるか否かを判定条件に加えてもよい。物体検知部４１０は、前述の物体載置の静止タイミング及び除去タイミングを検知すると、それぞれ物体検知通知、物体除去検知通知、及び、物体識別情報をメイン制御部４０２へ送る。さらに、物体識別情報は、後述するデータ管理部４０５、又はネットワークを介して接続されたサーバ等に保存され、任意のタイミングで取得できる。

ユーザーインターフェース部４０３は、メイン制御部４０２からの要求を受け、メッセージやボタン等のＧＵＩ部品を生成する。そして、表示部４０６へ生成したＧＵＩ部品の表示を要求する。表示部４０６はディスプレイコントローラ３０９を介して、短焦点プロジェクタ２０７もしくはＬＣＤタッチパネル３３０へ要求されたＧＵＩ部品の表示を行う。プロジェクタ２０７は書画台２０４に向けて設置されているため、書画台２０４上にＧＵＩ部品を投射することが可能となっている。また、ユーザーインターフェース部４０３は、ジェスチャ認識部４０９が認識したタッチ等のジェスチャ操作、あるいはシリアルＩ／Ｆ３１０を介したＬＣＤタッチパネル３３０からの入力操作、そしてさらにそれらの座標を受信する。そして、ユーザーインターフェース部４０３は描画中の操作画面の内容と操作座標を対応させて操作内容（押下されたボタン等）を判定する。この操作内容をメイン制御部４０２へ通知することにより、操作者の操作を受け付ける。

ネットワーク通信部４０４は、ネットワークＩ／Ｆ３０６を介して、ネットワーク１０４上の他の機器とＴＣＰ／ＩＰによる通信を行う。

データ管理部４０５は、機能構成４０１の実行において生成した作業データなど様々なデータをＨＤＤ３０５上の所定の領域へ保存し、管理する。例えば、画像取得部４１８で撮像されたカメラフレーム画像データなどである。

文字認識処理部４２０は、書画台２０４に置かれた文書を認識し、その種類に応じて文字認識を実行するモジュールである。文字認識処理部４２０は、文書認識部４１１、認識領域取得部４１２、文書位置検出部４１３、文字認識部４１４から構成される。文字認識処理部４２０は、メイン制御部４０２を介して、カメラ画像取得部４０７や距離画像取得部４０８で取得した画像データ、ジェスチャ認識部４０９で取得したジェスチャ情報など、前記したモジュールの出力データを取得する。

文書認識部４１１は、書画台２０４上の文書を認識する。文書認識部４１１は、カメラ画像取得部４０７によって取得された画像の特徴点・特徴量を抽出し、データベース上に予め登録しておいた各文書画像の特徴点・特徴量との類似度を比較する。これにより、書画台２０４上の文書が、データベース上のどの文書と一致するか否かを判定することができる。本実施例では、特徴量を保存するデータベースを図１５のように考える。文書ＩＤ列１５０１は、予め登録を行った文書を識別するためのＩＤであり、文書の種類ごとに固有に割り振られるものである。本実施例では、図６（ａ）に示す文書６０１の種類に、文書ＩＤ：１が割り当てられているものとする。特徴量列１５０２は、登録を行った各文書から抽出された特徴量を示す。なお、使用する文書認識手法によっては、特徴量列１５０２に特徴量そのものを保存するのではなく、画像を表現するようなベクトルに置き換えたものを保存してもよい。

文書認識部４１１によるカメラ画像の特徴点・特徴量の抽出範囲は、カメラ部２０２によって撮像される読み取り領域２０５である。但し、カメラ画像と背景画像との差分を検出することで、カメラ画像中の文字領域を特定し、文書領域の特徴点・特徴量のみを抽出するようにしてもよい。特徴点検出にはＤｏＧ、各特徴点の特徴量抽出はＳＩＦＴやＳＵＲＦと呼ばれる技術が一般的に用いられる。各文書の特徴点・特徴量を関連付けているデータベースは、カメラスキャナ１０１のＨＤＤ３０５上にあってもよいし、ネットワーク上のサーバ（不図示）などにあって、ネットワーク１０４を介して参照するようにしてもよい。また、文書の認識は、前述の特徴点・特徴量による方法ではなく、予め文書に埋め込まれたバーコード（不図示）などを認識する方法でもよく、特徴点・特徴量による方法に限るものではない。

認識領域取得部４１２は、文書認識部４１１で認識された文書の情報に基づいて、文字認識をすべき領域の情報を取得する。文字認識をすべき領域（以下、認識領域と呼ぶ）とは、図６（ａ）に示す文書６０１のような申込書において、ユーザー（顧客）がボールペンなどで記入を行った文字領域および、免許証など予め印刷された文字領域を対象とする。本実施例では、図６（ａ）の文書６０１におけるグレー色の領域が文書６０１の認識領域となる。認識領域は、文字情報を抽出したい領域に対して予め設定し、図７のようなデータベース上に登録を行う。認識領域の設定は、カメラスキャナ１０１の管理者が、ＰＣの専用アプリケーションなどを用いて行うことができる。また、認識領域の設定は、カメラスキャナ１０１の専用アプリケーションなどを用いて行ってもよく、ＰＣに限るものではない。カメラスキャナ１０１の専用アプリケーションとは、例えば、ジェスチャ認識部４０９によってドラッグ操作などのジェスチャを検知し、ジェスチャの行われた領域を認識領域とする手段である。設定された各文書の認識領域は、ＨＤＤ３０５上のデータベースで管理される。本実施例では、図６（ａ）の６０２〜６１０の認識領域が、図７のデータベース上の入力欄７０１〜７０９にそれぞれ関連付けられる。尚、入力欄７１０は文書ＩＤが入力欄７０１〜７０９とは異なるため、本実施例では登場しない別の文書の認識領域を示す。また、データベースはＨＤＤ３０５ではなく、ネットワーク上のサーバなどにあって、ネットワーク１０４を介して参照するようにしてもよい。

ここで、図７について説明する。図７の文書ＩＤ７１１は、予め登録を行った文書を識別するためのＩＤであり、文書の種類ごとに固有に割り振られるものである。本実施例では、文書６０１の種類に、文書ＩＤ：１が割り当てられているものとする。項目ＩＤ７１２は、各帳票の持つ認識項目ごとに割り振られるＩＤである。認識領域座標７１３は、各文書の文書座標系（Ｘｄ、Ｙｄ、Ｚｄ）における、矩形の対角の頂点座標を示し、これによって認識領域の範囲を矩形の範囲として指定することができる。項目名７１４は、帳票の項目種類であり、名前や電話番号などである。認識結果７１５は、文字認識を行った結果である。本実施例において、認識領域取得部４１２は、文書６０１と認識領域を関連付ける図７のデータベースを参照することで、文書６０１の認識領域を取得し、文字認識を実行することができる。

文書位置検出部４１３は、カメラ画像取得部４０７によって取得されたカメラ画像中の文書画像にもとづいて、書画台２０４上の文書の位置を検出する。例えば、文書の位置は、図５（ｂ）の直交座標系における文書の左上頂点座標（Ｘｄ_０、Ｙｄ_０、０）として表すことができる。プロジェクタ座標系やカメラ座標系における文書の入力領域座標は、文書の左上頂点座標（Ｘｄ_０、Ｙｄ_０、０）から直行座標系に変換し、更に前述の変換式を用いることで得ることができる。座標の変換方法については前述した。尚、本実施例では簡単のため文書の厚みを０とし、文書座標系におけるＺｄ成分を考慮していない。しかし、距離画像取得部４０８によって距離画像データを取得することで、文書の厚みや歪みを考慮して、プロジェクタ座標系及びカメラ座標系への座標変換をすることも可能である。文字認識部４１４では、認識領域取得部４１２および文書位置検出部４１３で取得された認識領域と文書位置に基づいて、カメラ画像取得部４０７によって取得されたカメラフレーム画像に対して文字認識処理を実行する。

確認支援処理部４２１は、文字認識処理部４２０によって得られた認識結果を書画台２０４上に表示し、ユーザーからの指示を受けることで紐付け表示や修正用ＵＩによる処理を行うモジュールである。確認支援処理部４２１は、レイアウト生成部４１５、対応付け処理部４１６、修正用ＵＩ処理部４１７から構成される。

確認支援処理部４２１は、メイン制御部４０２を介してモジュールの出力データを取得する。例えば、カメラ画像取得部４０７や距離画像取得部４０８で取得した画像データ、ジェスチャ認識部４０９で取得したジェスチャ情報、文書位置検出部４１３で取得した文書の座標情報、文字認識部４１４で取得した認識結果などを取得する。

レイアウト生成部４１５は、認識領域取得部４１２、文書位置検出部４１３、及び、文字認識部４１４による認識領域情報、文書位置情報、データベースの情報に基づき、プロジェクタ２０７によって書画台２０４上に投射するレイアウト画像を生成する。レイアウト生成部４１５によって生成されるレイアウト画像は、図７に示すデータベース上の項目名７１４と認識結果７１５とを表のように整列させる。そしてこのレイアウト画像は書画台２０４において、書画台２０４上に置かれた文書６０１の領域以外の領域、すなわち、文書６０１と重ならない位置に表示されるように生成される。生成されたレイアウト画像は認識結果表１００５として、表示部４０６によってプロジェクタ２０７で書画台２０４上に投射される。ユーザーは文書６０１と、レイアウト画像を基に生成され書画台２０４上に投影された認識結果表１００５を見比べることにより、認識結果を照合することが可能となる。この時の書画台２０４は図１０（ｃ）に示すような状態となる。

対応付け処理部４１６は、ジェスチャ認識部４０９で取得したジェスチャ情報に従って、書画台２０４上に表示された認識結果表１００５中の項目と書画台２０４上に置かれた文書中の項目とを対応付けるような表示を行う。ジェスチャ認識部４０９では、指差し動作など、ユーザーが特定の項目を選択するような動作をしているか否かの検出を行う。ジェスチャで項目が選択されていると検出された場合、選択された項目とそれに対応する項目の座標を取得し、プロジェクタ２０７によって紐付け表示を行う。なお、選択される対象は、認識結果表１００５中の項目およびこの項目に対応する書画台２０４上に置かれた文書中の項目のどちらでも良い。該当する項目の表示位置の算出は、文書位置情報をもとに認識領域の座標をプロジェクタ座標系に変換することで行われる。なお、本実施例では、選択する際のジェスチャについて指差し動作と述べたが、タップや長押しなどのジェスチャを使ってもよい。また、ジェスチャを使用せず、マウスなどの入力デバイスによるカーソルの重なりやクリックなどを選択指示動作として扱ってもよい。

また、紐付け表示とは、選択された項目とこの項目に対応する項目とが関連付けられていることが明確となるように表示を行うことであり、例えば図１０（ｄ）に示すような表示形態のことである。

また、修正用ＵＩ処理部４１７では、ソフトテンキーなどの修正用ＵＩを表示することにより、項目に対して認識された内容の修正がユーザーにより行われることを可能とする。修正用ＵＩ処理部４１７は、ジェスチャ認識部４０９によって特定のジェスチャが検知された場合、プロジェクタ２０７を用いて書画台２０４上に修正用ＵＩを表示する。修正用ＵＩは、修正対象の項目座標に基づいて項目に被らない位置に表示される。この時の書画台２０４は図１０（ｅ）に示すような状態となる。この修正用ＵＩに対してユーザーのジェスチャ動作によって入力が行われる。修正用ＵＩ処理部４１７は、ユーザーによる終了動作が検知された場合に入力された内容をデータベースに反映させ、処理を終了する。これにより文字認識結果を修正することが可能となる。

ここでの終了動作は、例えば、修正ＵＩ中の特定のボタンが押された場合や修正用ＵＩの領域外が押された場合である。
尚、修正ＵＩは数字入力用のソフトテンキーに限らず、文字入力用のソフトキーボードや、複数の項目から選択するようなリストを表示しても良い。

＜距離画像センサおよび距離画像取得部の説明＞
図３に距離画像センサ２０８の構成を示している。距離画像センサ２０８は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部３６１は対象物に、人の目には不可視である赤外線によって３次元測定パターンを投射する。赤外線カメラ３６２は対象物に投射した３次元測定パターンを読みとるカメラである。ＲＧＢカメラ３６３は人の目に見える可視光をＲＧＢ信号で撮影するカメラである。

距離画像取得部４０８の処理を図５（ａ）のフローチャートを用いて説明する。また、図５（ｂ）〜（ｄ）はパターン投射方式による距離画像の計測原理を説明するための図面である。

距離画像取得部４０８が処理を開始すると、ステップＳ５０１では、図５（ｂ）に示すように赤外線パターン投射部３６１を用いて赤外線による３次元形状測定パターン５２２を対象物５２１に投射する。ステップＳ５０２では、ＲＧＢカメラ３６３を用いて対象物を撮影したＲＧＢ画像５２３および、赤外線カメラ３６２を用いてステップＳ５０１で投射した３次元形状測定パターン５２２を撮影した赤外線カメラ画像５２４を取得する。なお、赤外線カメラ３６２とＲＧＢカメラ３６３とでは設置位置が異なるため、図５（ｃ）に示すようにそれぞれで撮影される２つのＲＧＢカメラ画像５２３および赤外線カメラ画像５２４の撮影領域が異なる。そこでステップＳ５０３では、赤外線カメラ３６２の座標系からＲＧＢカメラ３６３の座標系への座標系変換を用いて赤外線カメラ画像５２４をＲＧＢカメラ画像５２３の座標系に合わせる。なお、赤外線カメラ３６２とＲＧＢカメラ３６３の相対位置や、それぞれの内部パラメータは事前のキャリブレーション処理により既知であるとする。ステップＳ５０４では、図５（ｃ）に示すように、３次元形状測定パターン５２２とステップＳ５０３で座標変換を行った赤外線カメラ画像５２４間での対応点を抽出する。例えば、赤外線カメラ画像５２４上の１点を３次元形状測定パターン５２２上から探索して、同一の点が検出された場合に対応付けを行う。あるいは、赤外線カメラ画像５２４の画素の周辺のパターンを３次元形状測定パターン５２２上から探索し、一番類似度が高い部分と対応付けてもよい。ステップＳ５０５では、赤外線パターン投射部３６１と赤外線カメラ３６２を結ぶ直線を基線５２５として三角測量の原理を用いて計算を行うことにより、赤外線カメラ３６２からの距離を算出する。ステップＳ５０４で対応付けが出来た画素については、赤外線カメラ３６２からの距離を算出して画素値として保存し、対応付けが出来なかった画素については、距離の計測が出来なかった部分として無効値を保存する。これをステップＳ５０３で座標変換を行った赤外線カメラ画像５２４の全画素に対して行うことで、各画素に距離値が入った距離画像を生成する。ステップＳ５０６では、距離画像の各画素にＲＧＢカメラ画像のＲＧＢ値を保存することにより、１画素につきＲ、Ｇ、Ｂ、距離の４つの値を持つ距離画像を生成する。ここで取得した距離画像は距離画像センサ２０８のＲＧＢカメラ３６３で定義された距離画像センサ座標系が基準となっている。そこでステップＳ５０７では、図２（ｂ）を用いて上述したように、距離画像センサ座標系として得られた距離データを直交座標系における３次元点群に変換する。（以後、特に指定がなく３次元点群と表記した場合は、直交座標系における３次元点群を示すものとする。）
なお、本実施例では上述したように、距離画像センサ２０８として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いることも可能である。例えば、２つのＲＧＢカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式を用いても構わない。
また撮像対象物が人体などの赤外線を発するような場合は、焦電型赤外線センサを用いて対象物の認識と距離の測定を行っても良い。

＜ジェスチャ認識部の説明＞
ジェスチャ認識部４０９の処理の詳細を、図１１のフローチャートを用いて説明する
図１１において、ジェスチャ認識部４０９が処理を開始すると、ステップＳ１１０１では初期化処理を行う。初期化処理で、ジェスチャ認識部４０９は距離画像取得部４０８から距離画像を１フレーム取得する。ここで、ジェスチャ認識部の開始時は書画台２０４上に対象物が置かれていない状態であるため、初期状態として書画台２０４の平面の認識を行う。つまり、取得した距離画像から最も広い平面を抽出し、その位置と法線ベクトル（以降、書画台２０４の平面パラメータと呼ぶ）を算出し、ＲＡＭ３０３に保存する。

続いてステップＳ１１０２では、ステップＳ１１２１〜１１２２に示す、書画台２０４上に存在する物体の３次元点群を取得する。その際、ステップＳ１１２１では距離画像取得部４０８から距離画像と３次元点群を１フレーム取得する。ステップＳ１１２２では書画台２０４の平面パラメータを用いて、取得した３次元点群から書画台２０４を含む平面にある点群を除去する。

ステップＳ１１０３では、ステップＳ１１３１〜Ｓ１１３４に示す、取得した３次元点群からユーザーの手の形状および指先を検出する処理を行う。ここで、図１２に示す、指先検出処理の方法を模式的に表した図を用いて説明する。ステップＳ１１３１では、ステップＳ１１０２で取得した３次元点群から、書画台２０４を含む平面から所定の高さ以上にある、肌色の３次元点群を抽出することで、手の３次元点群を得る。図１２（ａ）の１２０１は抽出した手の３次元点群を表している。ステップＳ１１３２では、抽出した手の３次元点群を、書画台２０４の平面に射影した２次元画像を生成して、その手の外形を検出する。図１２（ａ）の１２０２は、書画台２０４の平面に投影した３次元点群を表している。投影は、点群の各座標を、書画台２０４の平面パラメータを用いて投影すればよい。また、図１２（ｂ）に示すように、投影した３次元点群から、ｘｙ座標の値だけを取り出せば、ｚ軸方向から見た２次元画像１２０３として扱うことができる。この時、手の３次元点群の各点が、書画台２０４の平面に投影した２次元画像の各座標のどれに対応するかを、記憶しておくものとする。ステップＳ１１３３では検出した手の外形上の各点について、その点での外形の曲率を算出し、算出した曲率が所定値より小さい点を指先として検出する。図１２（ｃ）は、外形の曲率から指先を検出する方法を模式的に表したものである。１２０４は、書画台２０４の平面に投影された２次元画像１２０３の外形を表す点の一部を表している。ここで、１２０４のような、外形を表す点のうち、隣り合う５個の点を含むように円を描くことを考える。円１２０５、１２０７が、その例である。この円を、全ての外形の点に対して順に描き、その直径（例えば１２０６、１２０８）が所定の値より小さい（曲率が小さい）ことを以て、指先とする。この例では隣り合う５個の点としたが、その数は限定されるものではない。また、ここでは曲率を用いたが、外形に対して楕円フィッティングを行うことで、指先を検出してもよい。ステップＳ１１３４では、検出した指先の個数および各指先の座標を算出する。この時、前述したように、書画台２０４に投影した２次元画像の各点と、手の３次元点群の各点の対応関係を記憶しているため、各指先の３次元座標を得ることができる。今回は、３次元点群から２次元画像に投影した画像から指先を検出する方法を説明したが、指先検出の対象とする画像は、これに限定されるものではない。例えば、距離画像の背景差分や、ＲＧＢ画像の肌色領域から手の領域を抽出し、上に述べたのと同様の方法（外形の曲率計算等）で、手領域のうちの指先を検出してもよい。この場合、検出した指先の座標はＲＧＢ画像や距離画像といった、２次元画像上の座標であるため、その座標における距離画像の距離情報を用いて、直交座標系の３次元座標に変換する必要がある。この時、指先点となる外形上の点ではなく、指先を検出するときに用いた、曲率円の中心を指先点としてもよい。

ステップＳ１１０４では、ステップＳ１１４１〜Ｓ１１４６に示す、検出した手の形状および指先からのジェスチャ判定処理を行う。ステップＳ１１４１では、ステップＳ１１０３で検出した指先が１つかどうか判定する。指先が１つでなければステップＳ１１４６へ進み、ジェスチャ無しと判定する。ステップＳ１１４１において検出した指先が１つであればステップＳ１１４２へ進み、検出した指先と書画台２０４を含む平面との距離を算出する。ステップＳ１１５１では、書画台２０４上に立体物点群が存在するかどうかを確かめる。立体物点群は、手領域の３次元点群と同じく、直交座標系の座標情報を持った点群データである。立体物点群の意味は、書画台２０４上におかれた物体の３次元点群データのことをいうものとする。図１２（ｄ）でいえば、１２０９の点々が立体物点群を表現している。立体物点群の取得処理は、図８の物体検知部４１０の処理で説明する。ステップＳ１１５１で立体物点群が存在した場合はステップＳ１１５２へ進み、存在しなかった場合はステップＳ１１４３へ進む。ステップＳ１１５２では、検出した指先と立体物点群の距離を算出する。この方法は、図１２（ｄ）に模式的に示される。指先点１２０８から立体物点群１２０９のすべての点の座標までの距離を算出し、最も距離が短かったものを立体物点群との距離とする。ステップＳ１１５３では、ステップＳ１１５２で算出した距離が微小な所定値以下であるかどうかを判定する。ステップＳ１１５３がＹＥＳであればステップステップＳ１１５４へ進んで立体物タッチジェスチャありと判定する。ステップＳ１１５３がＮＯであればステップＳ１１４３へ進む。ステップＳ１１４３ではステップＳ１１４２で算出した距離が微小な所定値以下であるかどうかを判定し、ステップＳ１１４３がＹＥＳであればステップＳ１１４４へ進んで指先が書画台２０４へタッチした、タッチジェスチャありと判定する。ステップＳ１１４３においてステップＳ１１４２で算出した距離が所定値以下で無ければステップＳ１１４５へ進み、指先が移動したジェスチャ（タッチはしていないが指先が書画台２０４上に存在するジェスチャ）と判定する。
ステップＳ１１０５では判定したジェスチャをメイン制御部４０２へ通知し、ステップＳ１１０２へ戻ってジェスチャ認識処理を繰り返す。

＜メイン制御部の説明＞
図８はメイン制御部４０２の処理の概要を示すフローチャートである。また、この処理に対応して書画台２０４上に表示される画像を図１０に示す。図１０では、まず書画台２０４に置かれた文書６０１をカメラで撮像（スキャン）して文書画像を取得する。そしてこの取得された文書画像に対して解析（文字認識）を行い、この結果をプロジェクタ２０７によって認識結果表として書画台２０４に投影する。そして、この投影された認識結果表におけるある項目と文書画像におけるある項目とを対応づけて表示する。

まず、図１０について説明する。図１０は、図８のメイン制御部４０２および図９の確認支援処理部４２１のフローチャートに沿って、書画台２０４上に置かれた文書６０１の認識結果を表示し、実際の文書６０１とその認識結果の照合作業を行う際のイメージを示したものである。図１０（ａ）は、書画台２０４上に何も置かれていない状態を示す。このとき、メッセージ１００１を表示することで、ユーザーに文書の載置を促す。図１０（ｂ）は、ユーザーによって書画台２０４上に文書６０１が置かれたときの状態を示す。このとき、メッセージ１００３を表示することで、文字認識処理を実行していることを明示する。図１０（ｃ）は、確認支援処理部４２１によって、書画台２０４上に認識結果表１００５が表示されている状態を示す。認識結果表１００５中の項目１００６は、認識された項目の種類を表し、項目１００７は、文字認識結果を表す。図１０（ｄ）は、ユーザーの選択動作１００８によって、選択された認識結果表１００５中の項目１００９と文書６０１上においてこの項目１００９に対応する項目１０１０とを紐付けている状態を示す。ここでの選択動作１００８とは、指差し動作を例に挙げている。なお、認識結果表１００５中の項目１００９を選択するのではなく、文書６０１上の項目１０１０を選択し、認識結果表１００５中にてこれに対応する項目１００９とを紐づける形態であってもよい。それぞれの項目は、直線１０１１によって結ばれた状態で表示される。なお、項目１００９及び項目１０１０の斜線部はプロジェクタ２０７によるハイライトの投影表示を示している。図１０（ｅ）は、ユーザーの選択動作によって、修正用のＵＩを表示した状態を示す。修正用ＵＩ１０１２は、対象となっている項目に被らないように書画台２０４上に投影される。また、メッセージ１０１３を表示することで、ユーザーに修正内容を入力することを促す。図１０（ｆ）は、終了アイコンが押下された場合の図状態を示す。メッセージ１０１４が表示され、一連の処理が完了したことを明示する。
以下、図８、図９を用いてメイン制御部４０２が実行するアプリケーション処理について説明する。

メイン制御部４０２が処理を開始すると、ステップＳ８０１でカメラ１０１の初期化を行う。初期化処理では、各ハードモジュールの起動確認、カメラ画像取得部４０７及び、距離画像取得部４０８の色味調整・距離センサ値の補正、書画台２０４に何も載置されていない状態での背景画像取得などを行う。

ステップＳ８０２では、ユーザーインターフェース部４０３を介して、書画台２０４に図１０（ａ）の画面をプロジェクタ２０７で投射する。図１０（ａ）の画面では、書画台２０４上にスキャン対象物を置くことをユーザーに促すメッセージ１００１を投射する。また、終了アイコン１００２をプロジェクタ２０７で投射する。ユーザーが書画台２０４上の終了アイコン１００２にタッチすることで、ジェスチャ認識部４０９は終了アイコン１００２へのタッチ操作を認識し、メイン制御部４０２の処理を終了することができる。

ステップＳ８０３では、物体検知部４１０による物体検知通知があったか否かを判定する。
物体検知通知が有った場合は、ステップＳ８０４へ進み、そうでなければステップＳ８１１へ進む。物体検知部４１０による物体検知通知は、例えば図１０（ｂ）のように、ユーザーによって書画台２０４上に文書６０１が置かれたと検知された場合に通知される。

ステップＳ８０４では物体検知部４１０によって検知された物体の物体識別情報に基づいて、物体が文書であるか立体物であるかを判定する。物体が文書である場合はステップＳ８０６へ進み、立体物であればステップＳ８０５へ進む。

ステップＳ８０５では、物体が立体物である場合の処理を行う。立体物が書画台２０４に載置されたときは、例えば、“置かれたものは文書ではありません”などの注意喚起メッセージを書画台２０４に投射する。あるいは、別のアプリケーションに切り替えるよう示唆するメッセージを投射してもよい。

ステップＳ８０６では、ユーザーインターフェース部４０３を介して、書画台２０４に投射するメッセージを“文書を解析中です。”に更新してプロジェクタ２０７で投射する。具体的には、例えば図１０（ｂ）のように文書６０１が書画台２０４に置かれ、物体検知部４１０によって文書６０１が検知された場合に、メッセージ１００３を投射する。なお、本実施例では、文書６０１の載置検知後に自動的にステップＳ８０７へ遷移しているが、ユーザーによるスキャン開始指示を受けてからメッセージ１００３を投影し、ステップＳ８０７に遷移しても良い。スキャン開始指示とは、例えば、スキャンアイコンを書画台２０４上に表示し、ジェスチャ認識部４０９によりユーザーがスキャンアイコンを選択したと検知された状態である。

ステップＳ８０７では、載置された文書６０１をスキャンすることで得られた文書画像に対して文字認識部４１４によって文字認識処理を行う。文字認識処理の詳細については、後述する図９のフローチャートで説明する。

ステップＳ８０８では、ステップＳ８０７の文字認識処理で生成された文字認識結果を、ユーザーインターフェース部４０３を介して、プロジェクタ２０７によって書画台２０４へ投射する。また、同時にＵＩ画面のメッセージを更新表示する。文字認識処理で生成された認識結果は、レイアウト生成部４１５によって、例えば、図１０（ｃ）の認識結果表１００５のように投射表示される。また、表示されるメッセージは、ユーザーに認識結果の確認を促すため、メッセージ１００４に更新される。

ステップＳ８０９では、ジェスチャ認識部４０９によってユーザーの選択動作が行われたか否かを検知する。ユーザーによる項目の選択動作が検知された場合、選択された項目と原稿上においてこの項目に対応する項目をプロジェクタ２０７によって紐付け表示する。
なお、この項目に対する選択はなされなくてもよい。例えば、原稿上の全ての項目に対して紐付け表示してもよいし、予め指定された項目のみ紐付け表示してもよい。紐付け表示は、例えば、図１０（ｄ）の項目１００９と項目１０１０とが紐づけられたことがわかるように、対応する２つの項目を結ぶ線がプロジェクタ２０７によって表示される。
なお、紐付け表示に限らず、書画台上に載置された原稿の任意の項目（第１の項目）と書画台上に表示された文字認識結果のうち第１の項目の文字認識結果を示す項目（第２の項目）とが対応していることが認識可能であれば、どんな表示形態でも良い。例えば、対応する項目を同じ色で表示したり、同じ装飾を施して表示したり、ハイライトで表示することで、対応していることを示してもよい。また、ユーザーによる別の選択動作が行われた場合、書画台２０４上にプロジェクタ２０７によって修正用のＵＩを表示する。修正用ＵＩは、例えば、図１０（ｅ）のように対応付けられている項目１００９と項目１０１０とに被らない位置に書画台２０４上に表示される。修正用ＵＩの挙動については、図９で後述する。

ステップＳ８１０では、ユーザーインターフェースを介して、図１０（ｃ）の画面を投射する。

ステップＳ８１１では、ユーザーによって書画台２０４上の終了アイコン１００２が押下されたか否かを判定する。終了アイコン１００２が押下されたと判定された場合は、メイン制御部４０２を終了する。終了アイコン１００２が押下されたと判定されなかった場合は、ステップＳ８０９へ戻る。

＜文字認識部のフローチャートの説明＞
図９（ａ）は文字認識処理部４２０によるステップＳ８０７の文字認識処理の概要を示すフローチャートである。

ステップＳ９０１では、カメラ画像取得部４０７から文書６０１のカメラフレーム画像（文書画像）を取得する。

ステップＳ９０２では、文書認識部４１１によって、ステップＳ９０１で取得されたカメラフレーム画像に基づき、書画台２０４上の文書６０１を認識する。

ステップＳ９０３では、文書認識部４１１によって、書画台２０４上の文書６０１とデータベース上の登録文書の類似度を判定し、文書６０１が登録済みの文書であるか否かを判定する。文書６０１が登録済の文書であると判定されればステップＳ９０４へ進み、そうでないと判定されれば文字認識部処理Ｓ８０７を終了する。

ステップＳ９０４では、認識領域取得部４１２によって、文書６０１の認識領域を取得する。例えば、図６（ａ）の６０２〜６１０の領域が認識領域となる。

ステップＳ９０５では、ステップＳ９０４で取得した認識領域に対して文字認識処理を実行する。

＜確認支援処理部のフローチャートの説明＞
図９（ｂ）は確認支援処理部４２１によるステップＳ８０９の対応付け表示処理の概要を示すフローチャートである。

ステップＳ９０６では、ジェスチャ認識部４０９によって紐付けを表示するためのジェスチャ（以下、第一選択ジェスチャと呼ぶ）が行われたか否かを判定する。第一選択ジェスチャは、ユーザーが特定の項目を選択していると判定できるようなジェスチャを予め設定する。例えば、書画台２０４への指差しやタッチ、ロングタッチなどである。第一選択ジェスチャが行われたと判定された場合Ｓ９０７へ進み、そうでないと判定されれば対応付け表示部による処理Ｓ８０９を終了する。

ステップＳ９０７では、第一選択ジェスチャが認識結果表中の項目または文書中の項目を示しているか否かを判断する。ジェスチャ認識部は上述した通り、指差しやタッチなどのジェスチャがなされたか否かを判定することが可能であり、その際、指差しやタッチなどジェスチャにより指示される座標を取得することが可能である。その座標が認識結果表中の項目または文書中の項目に合致していれば、ステップＳ９０８へ進み、そうでなければ、対応付け表示部処理による処理Ｓ８０９を終了する。
ステップＳ９０８では、Ｓ９０７で選択された項目に対応する項目の座標を取得する。この説明では、第一選択ジェスチャにより認識されたのが認識結果表中の項目であるとする。この場合、まず、図７のデータベースを参照し、文書座標系における項目の座標を取得する。次に文書位置検出部４１３によって、直交座標系における文書の座標を取得する。この二つの座標から、直交座標系における項目の座標を算出する。

ステップＳ９０９では、プロジェクタ２０７によって、第一選択ジェスチャで選択された項目とステップＳ９０８で算出された対応項目とが紐付けられていることがわかるような表示を行う。

ステップＳ９１０では、ジェスチャ認識部４０９によって修正ＵＩを呼び出すジェスチャ（以下、第二選択ジェスチャと呼ぶ）が行われたか否かを判定する。第二選択ジェスチャは、第一選択ジェスチャと異なるものであればどのようなジェスチャを設定してもよい。例えば、第一選択ジェスチャを指差しとした場合、第二選択ジェスチャはタッチや長押しなどを設定することが可能である。また、第一選択ジェスチャをタッチ１回、第二選択ジェスチャをタッチ２回といったように、ジェスチャの回数や動作時間などで区別できるのであれば、同様のジェスチャを設定してもよい。第二選択ジェスチャが行われたと判定された場合Ｓ９１１へ進み、第二選択ジェスチャが行われたと判定されなかった場合、対応付け表示部による処理Ｓ８０９を終了するステップＳ９１１では、修正用ＵＩを表示する座標を取得する。修正用ＵＩは、文書画像における修正対象としている項目と被らないように表示を行うことが好ましい。そのため、表示位置の候補をいくつか予め設定し、選択された候補位置が項目の座標に被らないか否かを判定して修正用ＵＩの表示位置を決定する。

ステップＳ９１２では、ステップＳ９１３で取得した表示座標に基づいて修正用ＵＩを表示する。

ステップＳ９１３では、ジェスチャ認識部４０９によって、修正ＵＩ上の確定ボタンが押されたか否かを判定する。確定ボタンが押されたと判定された場合はステップＳ９１４へ進み、確定ボタンが押されたと判定されなかった場合は、ステップＳ９１６へ進む。

ステップＳ９１４では、修正用ＵＩによって入力された内容を図７で示されるデータベース上へ反映（文字認識結果を変更）し、ステップＳ９１５へ進む。

ステップＳ９１５では、反映されたデータベース内容に基づいて書画台２０４上の表示を更新し、対応付け表示部による処理Ｓ８０９を終了する。

ステップＳ９１６では、ジェスチャ認識部４０９によって、修正ＵＩの入力用ボタンが押されたか否かを判定する。入力ボタンが押されたと判定された場合はステップＳ９１７へ進み、入力ボタンが押されたと判定されなかった場合は、ステップＳ９１３へ進む。

ステップＳ９１７では、Ｓ９１６で押されたボタンに応じて、入力データを更新し、ステップＳ９１８へ進む。入力データとは、修正中の値を表すものであり、ステップＳ９１８によって書画台２０４上の修正ＵＩまたは、認識結果表に反映される。ここで、修正が行われた項目が認識できるようにハイライト表示してもよい。

ステップＳ９１８では、入力データの反映後、ステップＳ９１３へ進み、確定ボタンが押されるまでは、ステップＳ９１３からステップＳ９１８を繰り返す。

以上説明したように、本実施例によれば、ユーザーの指示に従って選択された項目とこの項目に対応する項目を紐付けて表示する。

文書とこの文書の文字認識結果を示す認識結果表のうち、文書中の項目に対してユーザーが指示をした場合は、認識結果表においてこの項目に対応する項目を紐づけて表示する。

また、文書とこの文書の文字認識結果を示す認識結果表のうち、認識結果中の項目に対してユーザーが指示をした場合は、文書においてこの項目に対応する項目を紐づけて表示する。

これにより、ユーザーが確認したい項目をわかりやすく表示することが可能である。よって、読み取られた文書に対する文字認識結果を容易に確認することが可能である。

また、認識内容の修正を照合画面上に表示されるＵＩを用いて行うことが可能なため、修正のために必要な手間を省くことが可能である。

実施例１では、一つの文書に対して文書中の項目とこの項目に対応する文字認識結果との紐付け表示を行う例を説明した。これによって、ユーザーは文書中の項目とこの項目に対応する文字認識結果とを一目で理解し、確認することが可能となる。

本実施例２では、書画台２０４上に文書が複数置かれ、文字認識結果（認識結果表）が点在した場合に、どの認識結果がどの文書に対応しているのかを明示的に示す方法について説明する。

以下、実施例１との差分を中心に図１３（ａ）〜（ｃ）を用いて説明する。

図１３（ａ）は、実施例２が想定する複数の文書が書画台２０４上に置かれている状況を示したものである。また、この複数の文書１３０１〜１３０３に対して文字認識を行った結果は、それぞれ認識結果表１３０４〜１３０７として表示されている。実施例１のように、一つの文書が置かれている場合はこの文書に対応する認識結果表を認識することができる。しかし、図１３（ａ）のように複数の認識結果表が表示されている場合、表示された認識結果表がどの文書に対応しているか明確ではない。例えば、文書１３０１に対応した認識結果表は隣接している認識結果表１３０４および認識結果表１３０５のどちらであるか不明確である。そこで、本実施例２では、ユーザーの行ったジェスチャに応じて紐付けのレベルを文書単位と項目単位とで切り替える。

ここでいう文書単位で紐づけるとは、図１３（ｂ）中の文書１３０３と認識結果表１３０５とを関連付けて文書と認識結果表を紐付けることである。項目単位で紐づけるとは、図１３（ｃ）の中の認識結果表における認識結果項目１３０８と文書中の項目１３１０とを関連付けて項目同士を紐付けることである。

実施例２で行う処理の流れについて、図８および図９のフローチャートを用いて説明する。

図８のステップＳ８０１〜Ｓ８０７までの処理は、実施例１で説明した処理と同様である。ステップＳ８０８の認識結果表示では、ステップＳ８０７の文字認識処理で認識された結果に対して、図７のデータベースにおける文書ＩＤごとにリストを分割して表示を行う。その後、ステップＳ８０９の対応付け表示処理に入る。この処理は図９（ｂ）を用いて説明する。

ステップＳ８０９内の処理について図１４（ａ），（ｂ）を用いて説明する。ステップＳ９０６では、ジェスチャ認識部によって第一選択ジェスチャの検知を行うが、本実施例では、二つのジェスチャを第一選択ジェスチャとして設定する。本実施例では、図１１のステップＳ１１４４で検知される平面タッチジェスチャ（以下、タッチと呼ぶ）およびステップＳ１１４５で検知される指先移動ジェスチャ（以下、ホバーと呼ぶ）を用いることとする。

ホバーが検出された場合の処理を次に示す。本実施例におけるホバーのイメージは図１４（ａ）に示すとおりである。ユーザーの指先１３０７が、書画台２０４からの所定の閾値１４０１より高い場合に、ホバーと判定され、ホバー点１４０２が検知される。ホバーが検出された場合、紐付け対象が文書となり、ステップＳ９０７では、ホバー点が認識結果表上にあるかどうかが判定される。ホバー点が認識結果表上にあると判定された場合は、ステップＳ９０８において対応する文書座標を取得し、Ｓ９０９において図１３（ａ）のように認識結果表全体と文書を紐付けるような表示を行う。

タッチが検出された場合の処理を次に示す。本実施例におけるタッチのイメージは図１４（ｂ）に示す通りである。ユーザーの指先１３０９が、書画台２０４からの所定の閾値１４０１より低い場合に、タッチと判定され、タッチ点１４０３が検知される。タッチが検出された場合、紐付け対象が項目となり、ステップＳ９０７では、タッチ点が認識結果項目上にあるかどうかが判定される。タッチ点が認識結果項目上にあると判定された場合は、ステップＳ９０８において対応する項目座標をデータベースから取得し、Ｓ９０９において図１３（ｂ）のように認識結果表中の項目とこの項目に対応する文書中の項目とを紐づけるような表示を行う。

ステップＳ９１１〜ステップＳ９１８に関しては、実施例１と同様の処理を行い、対応付け表示部の処理を終了する。

以上、説明したように、本実施例では、認識対象の文書とこの文書に対する文字認識結果表との紐づけを行うことが可能になる。よって、複数の文書が書画台上に置かれてそれぞれに対して文字認識処理がなされた場合であっても、各文書と各文書に対応する文字認識結果表との組合せが容易に理解できる。

（その他の実施例）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０１カメラスキャナ
２０１コントローラ部
２０２カメラ部
２０４書画台
２０７プロジェクタ
２０８距離画像センサ部

Claims

台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、
前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第１の表示制御手段と、
前記台上に載置された原稿に含まれる項目のうち第１の項目と前記台上に表示された文字認識結果のうち前記第１の項目に対する文字認識結果を示す第２の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上にて表示させる第２の表示制御手段と、
を有することを特徴とする画像処理装置。
前記第２の表示制御手段は、
前記台上に載置された原稿に含まれる項目のうち第１の項目を選択する指示を受けると、前記台上に表示された文字認識結果のうち第１の項目に対する文字認識結果を示す第２の項目と前記第１の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上に表示させることを特徴とする請求項１に記載の画像処理装置。
前記第２の表示制御装置は、
前記台上に表示された文字認識結果のうち第２の項目を選択する指示を受けると、前記台上に載置された原稿に含まれる項目のうち第２の項目に対応する第１の項目と前記第２の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上に表示させることを特徴とする請求項１に記載の画像処理装置。
前記第１の表示制御手段により表示された文字認識結果に対して修正を行うための指示を受けると、前記台上に前記文字認識結果を修正するための画面を表示させることを特徴とする請求項１に記載の画像処理装置。
前記第１の項目または前記第２の項目を選択する指示を受けたか否かを判定する第１の判定手段を有し、
前記第１の判定手段は、予め設定されていた第１のジェスチャがユーザーにより実施されたことが認識された場合に前記選択する指示を受けたと判定することを特徴とする請求項１に記載の画像処理装置。
前記文字認識結果に対して修正を行うための指示を受けたか否かを判定する第２の判定手段を有し、
前記第２の判定手段は、予め設定されていた第２のジェスチャがユーザーにより実施されたことが認識された場合に前記修正を行うための指示を受けたと判定することを特徴とする請求項１に記載の画像処理装置。
前記文字認識結果は、前記台上の領域のうち前記台上に原稿が載置された領域以外の領域に表示されることを特徴とする請求項１に記載の画像処理装置。
前記台上に複数の原稿が載置されると、
前記文字認識手段は、前記複数の原稿をそれぞれ撮像することで取得された各画像に対して文字認識処理を実行し、
前記第１の表示制御手段は、前記各画像に対する文字認識結果を対応する画像ごとに表示させ、
前記第２の表示制御手段は、前記台上に載置された各原稿と前記各画像に対する文字認識結果とが対応していることが示されるように、前記文字認識結果を前記台上に表示させることを特徴とする請求項１に記載の画像処理装置。
ユーザーによるジェスチャを検知する検知手段を有し、
前記検知手段により検知されるジェスチャの種類に応じて、
前記台上に載置された複数の原稿のうちの１つと前記台上に投射された複数の文字認識結果のうちの１つとが対応していることが示されるように表示させるか、
前記台上に載置された複数の画像のうちの１つの原稿に含まれる項目と前記台上に投射された複数の文字認識結果のうちの１つの文字認識結果に含まれる項目とが対応していることが示されるように表示するか、を決定することを特徴とする請求項８に記載の画像処理装置。
台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識ステップと、
前記文字認識ステップにて前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第１の表示制御ステップと、
前記台上に載置された原稿に含まれる項目のうち第１の項目と前記台上に表示された文字認識結果のうち前記第１の項目に対する文字認識結果を示す第２の項目とが対応していることが前記台上にて認識可能になるように、前記第２の項目を前記台上にて表示させる第２の表示制御ステップと、
を有することを特徴とする画像処理方法。
コンピュータに請求項１０の画像処理方法を実現させるためのプログラム。