JP2017126225A - 画像処理装置、方法およびプログラム - Google Patents
画像処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2017126225A JP2017126225A JP2016005599A JP2016005599A JP2017126225A JP 2017126225 A JP2017126225 A JP 2017126225A JP 2016005599 A JP2016005599 A JP 2016005599A JP 2016005599 A JP2016005599 A JP 2016005599A JP 2017126225 A JP2017126225 A JP 2017126225A
- Authority
- JP
- Japan
- Prior art keywords
- item
- character recognition
- document
- image
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】 文書に対して文字認識を施した結果を確認するため、認識対象の文書と認識結果とを比較する場合に全ての認識結果を確認すると操作者に負担がかかってしまう。【解決手段】 上記課題を解決すべく本画像処理装置は、台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第1の表示制御手段と、前記台上に載置された原稿に含まれる項目のうち第1の項目と前記台上に表示された文字認識結果のうち前記第1の項目に対する文字認識結果を示す第2の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上にて表示させる第2の表示制御手段と、を有することを特徴とする。【選択図】 図8
Description
本発明は、
画像処理装置、方法およびプログラムに関する。
画像処理装置、方法およびプログラムに関する。
従来、銀行や保険といった金融業の営業窓口や、行政サービスの窓口などでは、顧客に伝票や申込書、届出書などの文書(紙媒体)への記入を促し、窓口の担当者がその記入状態をチェックして処理するといったことが一般に行われている。この処理にかかる手番を減らすためには、文書画像から文字情報を取得する文字認識という技術を活用することが好ましい。文字認識技術は、撮像した画像中の文字や文字列を認識して文字データの出力を行うが、記入状態や撮影状態によっては、正確な文字の認識をすることができない場合がある。また、文字認識対象である文書画像の中にはユーザーによる誤記が含まれる文字画像がある場合もある。このような場合に対応するためには、オペレータが文字認識結果を確認する作業を必要とする。特に金融機関などの決済を伴う場面では、入力ミスが大きな影響を与えることになるため、オペレータによる文字認識結果の確認がしやすく、認識ミスを発見しやすい状態であることが好ましい。こういった場合、文字認識結果を表示し、この認識結果と文書画像とを見比べる方法が一般的である。しかし、文字認識結果のそれぞれの項目が文書画像のどの項目に対応するか分かりづらいとオペレータの負担となる。特許文献1では、同一画面上に文書画像と文書画像に対応する文字認識結果を表にしたものを表示する。また、特許文献1では、文書画像の各項目に対して記入がなされた箇所とこの箇所に対応する文字認識結果とを共通の表示形式で表示(色付けや網がけといった強調表示)する。
特許文献1の方法によると、文書画像の各項目に対して記入がなされた箇所とこの箇所に対応する文字認識結果とが特定できるように強調表示を行っている。よって、
単純に文書画像とこの文書画像に対応する文字認識結果とを見比べる場合に比べて効率的に確認作業を行うことが可能である。
単純に文書画像とこの文書画像に対応する文字認識結果とを見比べる場合に比べて効率的に確認作業を行うことが可能である。
この確認作業を行う上では、文書画像とこの文書画像の文字認識結果とを照合しやすいように表示される形態が好ましい。
上記課題を解決すべく本画像処理装置は、台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第1の表示制御手段と、前記台上に載置された原稿に含まれる項目のうち第1の項目と前記台上に表示された文字認識結果のうち前記第1の項目に対する文字認識結果を示す第2の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上にて表示させる第2の表示制御手段と、と、を有することを特徴とする。
本発明では、
書画台上に載置された原稿から得られた文書画像に対する文字認識結果を、書画台上にて原稿と並べて表示することで、ユーザーが、文書画像に対して文字認識された結果を照合して確認する際の負担を軽減することが可能になる。
書画台上に載置された原稿から得られた文書画像に対する文字認識結果を、書画台上にて原稿と並べて表示することで、ユーザーが、文書画像に対して文字認識された結果を照合して確認する際の負担を軽減することが可能になる。
以下、本発明を実施するための形態について図面を参照して説明する。
図1は、実施例1に係るカメラスキャナ101が含まれるネットワーク構成を示す図である。
図1に示すように、カメラスキャナ101はイーサネット(登録商標)等のネットワーク104にてホストコンピュータ102およびプリンタ103に接続されている。図1のネットワーク構成において、ホストコンピュータ102からの指示により、カメラスキャナ101から画像を読み取るスキャン機能や、スキャンデータをプリンタ103により出力するプリント機能の実行が可能である。また、ホストコンピュータ102を介さず、カメラスキャナ101への直接の指示により、スキャン機能、プリント機能の実行も可能である。
<カメラスキャナの構成>
図2は、実施例1に係るカメラスキャナ101の構成例を示す図である。
図2は、実施例1に係るカメラスキャナ101の構成例を示す図である。
図2(a)に示すように、カメラスキャナ101は、コントローラ部201、カメラ部202、腕部203、短焦点プロジェクタ207、距離画像センサ部208を含む。カメラスキャナの本体であるコントローラ部201と、撮像を行うためのカメラ部202、短焦点プロジェクタ207および距離画像センサ部208は、腕部203により連結されている。腕部203は関節を用いて曲げ伸ばしが可能である。
図2(a)には、カメラスキャナ101が設置されている書画台(以下、台、または、ステージとも呼ぶ)204も示している。
カメラ部202および距離画像センサ部208のレンズは書画台204方向に向けられており、破線で囲まれた読み取り領域205内の画像を読み取り可能である。図2の例では、原稿206は読み取り領域205内に置かれているので、カメラスキャナ101に読み取り可能となっている。
カメラ部202および距離画像センサ部208のレンズは書画台204方向に向けられており、破線で囲まれた読み取り領域205内の画像を読み取り可能である。図2の例では、原稿206は読み取り領域205内に置かれているので、カメラスキャナ101に読み取り可能となっている。
カメラ部202は単一解像度で画像を撮像するものとしてもよいが、高解像度画像撮像と低解像度画像撮像が可能なものとすることが好ましい。
なお、図2に示されていないが、カメラスキャナ101は、LCDタッチパネル330およびスピーカ340をさらに含むこともできる。
図2(b)は、カメラスキャナ101における座標系について表している。カメラスキャナ101では各ハードウェアデバイスに対して、カメラ座標系、距離画像座標系、プロジェクタ座標系という座標系が定義される。これらはカメラ部202および距離画像センサ部208のRGBカメラ部503が撮像する画像平面、あるいはプロジェクタ207が投影する画像平面をXY平面とし、画像平面に直交した方向をZ方向として定義したものである。さらに、これらの独立した座標系の3次元データを統一的に扱えるようにするために、書画台204を含む平面をXY平面とし、このXY平面から上方に垂直な向きをZ軸とする直交座標系を定義する。
座標系を変換する場合の例として、図2(c)に直交座標系と、カメラ部202を中心としたカメラ座標系を用いて表現された空間と、カメラ部202が撮像する画像平面との関係を示す。直交座標系における3次元点P[X,Y,Z]は、(1)式によって、カメラ座標系における3次元点Pc[Xc,Yc,Zc]へ変換できる。
ここで、Rcおよびtcは、直交座標系に対するカメラの姿勢(回転)と位置(並進)によって求まる外部パラメータによって構成され、Rcを3×3の回転行列、tcを並進ベクトルと呼ぶ。逆に、カメラ座標系で定義された3次元点は(2)式によって、直交座標系への変換することができる
さらに、カメラ部202で撮影される2次元のカメラ画像平面は、カメラ部202によって3次元空間中の3次元情報が2次元情報に変換されたものである。すなわち、カメラ座標系上での3次元点Pc[Xc,Yc,Zc]を、(3)式によってカメラ画像平面での2次元座標pc[xp,yp]に透視投影変換することによって変換することが出来る。
以上のように、(1)式と(3)式を用いることで、直交座標系で表された3次元点群を、カメラ座標系での3次元点群座標やカメラ画像平面に変換することが出来る。なお、各ハードウェアデバイスの内部パラメータおよび直交座標系に対する位置姿勢(外部パラメータ)は、公知のキャリブレーション手法によりあらかじめキャリブレーションされているものとする。以後、特に断りがなく3次元点群と表記した場合は、直交座標系における3次元データを表しているものとする。
<カメラスキャナのコントローラのハードウェア構成>
図3は、カメラスキャナ101の本体であるコントローラ部201のハードウェア構成例を示す図である。
図3は、カメラスキャナ101の本体であるコントローラ部201のハードウェア構成例を示す図である。
図3に示すようにコントローラ部201は以下を含む。
すなわち、システムバス301に接続されたCPU302、RAM303、ROM304、HDD305、ネットワークI/F306、画像処理プロセッサ307、カメラI/F308、ディスプレイコントローラ309を含む。さらに、システムバス301に接続されたシリアルI/F310、オーディオコントローラ311、USBコントローラ312を含む。
すなわち、システムバス301に接続されたCPU302、RAM303、ROM304、HDD305、ネットワークI/F306、画像処理プロセッサ307、カメラI/F308、ディスプレイコントローラ309を含む。さらに、システムバス301に接続されたシリアルI/F310、オーディオコントローラ311、USBコントローラ312を含む。
CPU302はコントローラ部201全体の動作を制御する中央演算装置である。RAM303は揮発性メモリである。ROM304は不揮発性メモリであり、CPU302の起動用プログラムが格納されている。HDD305はRAM303と比較して大容量なハードディスクドライブ(HDD)である。HDD305にはコントローラ部201の実行する、カメラスキャナ101の制御用プログラムが格納されている。
CPU302は電源ON等の起動時、ROM304に格納されている起動用プログラムを実行する。この起動用プログラムは、HDD305に格納されている制御用プログラムを読み出し、RAM303上に展開するためのものである。CPU302は起動用プログラムを実行すると、続けてRAM303上に展開した制御用プログラムを実行し、制御を行う。また、CPU302は制御用プログラムによる動作に用いるデータもRAM303上に格納して読み書きを行う。HDD305上にはさらに、制御用プログラムによる動作に必要な各種設定や、また、カメラ入力によって生成した画像データを格納することができ、CPU302によって読み書きされる。CPU302はネットワークI/F306を介してネットワーク104上の他の機器との通信を行う。
画像処理プロセッサ307はRAM303に格納された画像データを読み出して処理し、またRAM303へ書き戻す。なお、画像処理プロセッサ307が実行する画像処理は、回転、変倍、色変換等である。
カメラI/F308はカメラ部202および距離画像センサ208と接続され、CPU302からの指示に応じてカメラ部202から画像データを、距離画像センサ部208から距離画像データを取得してRAM303へ書き込む。また、CPU302からの制御コマンドをカメラ部202および距離画像センサ208へ送信し、カメラ部202および距離画像センサ208の設定を行う。
また、コントローラ部201は、ディスプレイコントローラ309、シリアルI/F310、オーディオコントローラ311およびUSBコントローラ312のうち少なくとも1つをさらに含むことができる。
ディスプレイコントローラ309はCPU302の指示に応じてディスプレイへの画像データの表示制御を行う。ここでは、ディスプレイコントローラ309は短焦点プロジェクタ207およびLCDタッチパネル330に接続されている。
シリアルI/F310はシリアル信号の入出力を行う。ここでは、シリアルI/F310はターンテーブル210に接続され、CPU302の回転開始・終了および回転角度の指示をターンテーブル209へ送信する。また、シリアルI/F310はLCDタッチパネル330に接続され、CPU302はLCDタッチパネル330が押下されたときに、シリアルI/F310を介して押下された座標を取得する。
オーディオコントローラ311はスピーカ340に接続され、CPU302の指示に応じて音声データをアナログ音声信号に変換し、スピーカ340を通じて音声を出力する。
USBコントローラ312はCPU302の指示に応じて外付けのUSBデバイスの制御を行う。ここでは、USBコントローラ312はUSBメモリやSDカードなどの外部メモリ350に接続され、外部メモリ350へのデータの読み書きを行う。
<カメラスキャナの制御用プログラムの機能構成>
図4(a)は、CPU302が実行するカメラスキャナ101の制御用プログラムの機能構成401を示す図である。また、図4(b)は、機能構成401の各モジュールの関係をシーケンス図として示したものである。図6(a),(b)は本実施例における書画台204および文字認識対象となる文書601の例である。図7は、本実施例における文字認識情報を保持するデータベースを示す例である。
図4(a)は、CPU302が実行するカメラスキャナ101の制御用プログラムの機能構成401を示す図である。また、図4(b)は、機能構成401の各モジュールの関係をシーケンス図として示したものである。図6(a),(b)は本実施例における書画台204および文字認識対象となる文書601の例である。図7は、本実施例における文字認識情報を保持するデータベースを示す例である。
カメラスキャナ101の制御用プログラムは前述のようにHDD305に格納され、CPU302が起動時にRAM303上に展開して実行する。
メイン制御部402は制御の中心であり、機能構成401内の他の各モジュールを図4(b)に示すように制御する。
画像取得部418は画像入力処理を行うモジュールであり、カメラ画像取得部407、距離画像取得部408から構成される。カメラ画像取得部407はカメラI/F308を介してカメラ部202が出力する画像データを取得し、RAM303へ格納する。距離画像取得部408はカメラI/F308を介して距離画像センサ部208が出力する距離画像データを取得し、RAM303へ格納する。距離画像取得部408の処理の詳細は図5を用いて後述する。
認識処理部419はカメラ画像取得部407、距離画像取得部408が取得する画像データから書画台204上の文書やユーザーの手などの物体を検知・認識するモジュールであり、ジェスチャ認識部409、物体検知部410から構成される。
ジェスチャ認識部409は、画像取得部418から書画台204上の画像を継続的に取得し続け、得られた3次元点群、及び、手の肌色領域からの外形検出に基づいて、書画台204上の手の位置、及び、タッチなどのジェスチャを検知する。ジェスチャ認識部409は、手の位置、及び、タッチなどのジェスチャを検知すると、メイン制御部402へジェスチャ検知を通知する。ジェスチャ認識部409の処理の詳細は図11を用いて説明する。
物体検知部410は、メイン制御部402から物体載置待ち処理あるいは物体除去待ち処理の通知を受けると、画像取得部418から書画台204を撮像した画像を取得する。この画像を用いて、書画台204上に物体が置かれて静止するタイミングあるいは物体が取り除かれるタイミングを検知する処理を行う。物体が置かれて静止するタイミング及び除去されるタイミングは、書画台204の背景画像と連続する所定フレーム数のカメラフレーム画像との差分値にもとづいて検知する。尚、物体が除去されるタイミングとは、物体が書画台204上から完全に除去され、書画台204上に物体が何も置かれていない状態になったタイミングのことである。静止された物体が置かれていると判定される場合は、最後のカメラフレーム画像を保存する。また、距離画像データにもとづき、物体が所定の厚み以下の文書ではなく、所定の厚み以上を有する立体物であると判定される場合は、カメラフレーム画像に加えて、距離画像を3次元点群に変換して保存する。物体が文書か立体物であるかの判定に用いる厚みの閾値は設定によって変更することができる。また、物体検知部410は、検知された物体が、文書であるか、文書以外の立体物であるかを識別する物体識別情報を同時に生成する。物体識別情報は、距離画像にもとづき、物体の厚みが所定の厚み以下かそうでないかの判定によって、それぞれ文書であるか立体物であるかを識別する情報を含む。ここでは、物体の識別を物体の厚みのみで判定しているが、前述のカメラフレーム画像の差分値が所定値以上ある領域が矩形であるか否かを判定条件に加えてもよい。物体検知部410は、前述の物体載置の静止タイミング及び除去タイミングを検知すると、それぞれ物体検知通知、物体除去検知通知、及び、物体識別情報をメイン制御部402へ送る。さらに、物体識別情報は、後述するデータ管理部405、又はネットワークを介して接続されたサーバ等に保存され、任意のタイミングで取得できる。
ユーザーインターフェース部403は、メイン制御部402からの要求を受け、メッセージやボタン等のGUI部品を生成する。そして、表示部406へ生成したGUI部品の表示を要求する。表示部406はディスプレイコントローラ309を介して、短焦点プロジェクタ207もしくはLCDタッチパネル330へ要求されたGUI部品の表示を行う。プロジェクタ207は書画台204に向けて設置されているため、書画台204上にGUI部品を投射することが可能となっている。また、ユーザーインターフェース部403は、ジェスチャ認識部409が認識したタッチ等のジェスチャ操作、あるいはシリアルI/F310を介したLCDタッチパネル330からの入力操作、そしてさらにそれらの座標を受信する。そして、ユーザーインターフェース部403は描画中の操作画面の内容と操作座標を対応させて操作内容(押下されたボタン等)を判定する。この操作内容をメイン制御部402へ通知することにより、操作者の操作を受け付ける。
ネットワーク通信部404は、ネットワークI/F306を介して、ネットワーク104上の他の機器とTCP/IPによる通信を行う。
データ管理部405は、機能構成401の実行において生成した作業データなど様々なデータをHDD305上の所定の領域へ保存し、管理する。例えば、画像取得部418で撮像されたカメラフレーム画像データなどである。
文字認識処理部420は、書画台204に置かれた文書を認識し、その種類に応じて文字認識を実行するモジュールである。文字認識処理部420は、文書認識部411、認識領域取得部412、文書位置検出部413、文字認識部414から構成される。文字認識処理部420は、メイン制御部402を介して、カメラ画像取得部407や距離画像取得部408で取得した画像データ、ジェスチャ認識部409で取得したジェスチャ情報など、前記したモジュールの出力データを取得する。
文書認識部411は、書画台204上の文書を認識する。文書認識部411は、カメラ画像取得部407によって取得された画像の特徴点・特徴量を抽出し、データベース上に予め登録しておいた各文書画像の特徴点・特徴量との類似度を比較する。これにより、書画台204上の文書が、データベース上のどの文書と一致するか否かを判定することができる。本実施例では、特徴量を保存するデータベースを図15のように考える。文書ID列1501は、予め登録を行った文書を識別するためのIDであり、文書の種類ごとに固有に割り振られるものである。本実施例では、図6(a)に示す文書601の種類に、文書ID:1が割り当てられているものとする。特徴量列1502は、登録を行った各文書から抽出された特徴量を示す。なお、使用する文書認識手法によっては、特徴量列1502に特徴量そのものを保存するのではなく、画像を表現するようなベクトルに置き換えたものを保存してもよい。
文書認識部411によるカメラ画像の特徴点・特徴量の抽出範囲は、カメラ部202によって撮像される読み取り領域205である。但し、カメラ画像と背景画像との差分を検出することで、カメラ画像中の文字領域を特定し、文書領域の特徴点・特徴量のみを抽出するようにしてもよい。特徴点検出にはDoG、各特徴点の特徴量抽出はSIFTやSURFと呼ばれる技術が一般的に用いられる。各文書の特徴点・特徴量を関連付けているデータベースは、カメラスキャナ101のHDD305上にあってもよいし、ネットワーク上のサーバ(不図示)などにあって、ネットワーク104を介して参照するようにしてもよい。また、文書の認識は、前述の特徴点・特徴量による方法ではなく、予め文書に埋め込まれたバーコード(不図示)などを認識する方法でもよく、特徴点・特徴量による方法に限るものではない。
認識領域取得部412は、文書認識部411で認識された文書の情報に基づいて、文字認識をすべき領域の情報を取得する。文字認識をすべき領域(以下、認識領域と呼ぶ)とは、図6(a)に示す文書601のような申込書において、ユーザー(顧客)がボールペンなどで記入を行った文字領域および、免許証など予め印刷された文字領域を対象とする。本実施例では、図6(a)の文書601におけるグレー色の領域が文書601の認識領域となる。認識領域は、文字情報を抽出したい領域に対して予め設定し、図7のようなデータベース上に登録を行う。認識領域の設定は、カメラスキャナ101の管理者が、PCの専用アプリケーションなどを用いて行うことができる。また、認識領域の設定は、カメラスキャナ101の専用アプリケーションなどを用いて行ってもよく、PCに限るものではない。カメラスキャナ101の専用アプリケーションとは、例えば、ジェスチャ認識部409によってドラッグ操作などのジェスチャを検知し、ジェスチャの行われた領域を認識領域とする手段である。設定された各文書の認識領域は、HDD305上のデータベースで管理される。本実施例では、図6(a)の602〜610の認識領域が、図7のデータベース上の入力欄701〜709にそれぞれ関連付けられる。尚、入力欄710は文書IDが入力欄701〜709とは異なるため、本実施例では登場しない別の文書の認識領域を示す。また、データベースはHDD305ではなく、ネットワーク上のサーバなどにあって、ネットワーク104を介して参照するようにしてもよい。
ここで、図7について説明する。図7の文書ID711は、予め登録を行った文書を識別するためのIDであり、文書の種類ごとに固有に割り振られるものである。本実施例では、文書601の種類に、文書ID:1が割り当てられているものとする。項目ID712は、各帳票の持つ認識項目ごとに割り振られるIDである。認識領域座標713は、各文書の文書座標系(Xd、Yd、Zd)における、矩形の対角の頂点座標を示し、これによって認識領域の範囲を矩形の範囲として指定することができる。項目名714は、帳票の項目種類であり、名前や電話番号などである。認識結果715は、文字認識を行った結果である。本実施例において、認識領域取得部412は、文書601と認識領域を関連付ける図7のデータベースを参照することで、文書601の認識領域を取得し、文字認識を実行することができる。
文書位置検出部413は、カメラ画像取得部407によって取得されたカメラ画像中の文書画像にもとづいて、書画台204上の文書の位置を検出する。例えば、文書の位置は、図5(b)の直交座標系における文書の左上頂点座標(Xd0、Yd0、0)として表すことができる。プロジェクタ座標系やカメラ座標系における文書の入力領域座標は、文書の左上頂点座標(Xd0、Yd0、0)から直行座標系に変換し、更に前述の変換式を用いることで得ることができる。座標の変換方法については前述した。尚、本実施例では簡単のため文書の厚みを0とし、文書座標系におけるZd成分を考慮していない。しかし、距離画像取得部408によって距離画像データを取得することで、文書の厚みや歪みを考慮して、プロジェクタ座標系及びカメラ座標系への座標変換をすることも可能である。文字認識部414では、認識領域取得部412および文書位置検出部413で取得された認識領域と文書位置に基づいて、カメラ画像取得部407によって取得されたカメラフレーム画像に対して文字認識処理を実行する。
確認支援処理部421は、文字認識処理部420によって得られた認識結果を書画台204上に表示し、ユーザーからの指示を受けることで紐付け表示や修正用UIによる処理を行うモジュールである。確認支援処理部421は、レイアウト生成部415、対応付け処理部416、修正用UI処理部417から構成される。
確認支援処理部421は、メイン制御部402を介してモジュールの出力データを取得する。例えば、カメラ画像取得部407や距離画像取得部408で取得した画像データ、ジェスチャ認識部409で取得したジェスチャ情報、文書位置検出部413で取得した文書の座標情報、文字認識部414で取得した認識結果などを取得する。
レイアウト生成部415は、認識領域取得部412、文書位置検出部413、及び、文字認識部414による認識領域情報、文書位置情報、データベースの情報に基づき、プロジェクタ207によって書画台204上に投射するレイアウト画像を生成する。レイアウト生成部415によって生成されるレイアウト画像は、図7に示すデータベース上の項目名714と認識結果715とを表のように整列させる。そしてこのレイアウト画像は書画台204において、書画台204上に置かれた文書601の領域以外の領域、すなわち、文書601と重ならない位置に表示されるように生成される。生成されたレイアウト画像は認識結果表1005として、表示部406によってプロジェクタ207で書画台204上に投射される。ユーザーは文書601と、レイアウト画像を基に生成され書画台204上に投影された認識結果表1005を見比べることにより、認識結果を照合することが可能となる。この時の書画台204は図10(c)に示すような状態となる。
対応付け処理部416は、ジェスチャ認識部409で取得したジェスチャ情報に従って、書画台204上に表示された認識結果表1005中の項目と書画台204上に置かれた文書中の項目とを対応付けるような表示を行う。ジェスチャ認識部409では、指差し動作など、ユーザーが特定の項目を選択するような動作をしているか否かの検出を行う。ジェスチャで項目が選択されていると検出された場合、選択された項目とそれに対応する項目の座標を取得し、プロジェクタ207によって紐付け表示を行う。なお、選択される対象は、認識結果表1005中の項目およびこの項目に対応する書画台204上に置かれた文書中の項目のどちらでも良い。該当する項目の表示位置の算出は、文書位置情報をもとに認識領域の座標をプロジェクタ座標系に変換することで行われる。なお、本実施例では、選択する際のジェスチャについて指差し動作と述べたが、タップや長押しなどのジェスチャを使ってもよい。また、ジェスチャを使用せず、マウスなどの入力デバイスによるカーソルの重なりやクリックなどを選択指示動作として扱ってもよい。
また、紐付け表示とは、選択された項目とこの項目に対応する項目とが関連付けられていることが明確となるように表示を行うことであり、例えば図10(d)に示すような表示形態のことである。
また、修正用UI処理部417では、ソフトテンキーなどの修正用UIを表示することにより、項目に対して認識された内容の修正がユーザーにより行われることを可能とする。修正用UI処理部417は、ジェスチャ認識部409によって特定のジェスチャが検知された場合、プロジェクタ207を用いて書画台204上に修正用UIを表示する。修正用UIは、修正対象の項目座標に基づいて項目に被らない位置に表示される。この時の書画台204は図10(e)に示すような状態となる。この修正用UIに対してユーザーのジェスチャ動作によって入力が行われる。修正用UI処理部417は、ユーザーによる終了動作が検知された場合に入力された内容をデータベースに反映させ、処理を終了する。これにより文字認識結果を修正することが可能となる。
ここでの終了動作は、例えば、修正UI中の特定のボタンが押された場合や修正用UIの領域外が押された場合である。
尚、修正UIは数字入力用のソフトテンキーに限らず、文字入力用のソフトキーボードや、複数の項目から選択するようなリストを表示しても良い。
尚、修正UIは数字入力用のソフトテンキーに限らず、文字入力用のソフトキーボードや、複数の項目から選択するようなリストを表示しても良い。
<距離画像センサおよび距離画像取得部の説明>
図3に距離画像センサ208の構成を示している。距離画像センサ208は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部361は対象物に、人の目には不可視である赤外線によって3次元測定パターンを投射する。赤外線カメラ362は対象物に投射した3次元測定パターンを読みとるカメラである。RGBカメラ363は人の目に見える可視光をRGB信号で撮影するカメラである。
図3に距離画像センサ208の構成を示している。距離画像センサ208は赤外線によるパターン投射方式の距離画像センサである。赤外線パターン投射部361は対象物に、人の目には不可視である赤外線によって3次元測定パターンを投射する。赤外線カメラ362は対象物に投射した3次元測定パターンを読みとるカメラである。RGBカメラ363は人の目に見える可視光をRGB信号で撮影するカメラである。
距離画像取得部408の処理を図5(a)のフローチャートを用いて説明する。また、図5(b)〜(d)はパターン投射方式による距離画像の計測原理を説明するための図面である。
距離画像取得部408が処理を開始すると、ステップS501では、図5(b)に示すように赤外線パターン投射部361を用いて赤外線による3次元形状測定パターン522を対象物521に投射する。ステップS502では、RGBカメラ363を用いて対象物を撮影したRGB画像523および、赤外線カメラ362を用いてステップS501で投射した3次元形状測定パターン522を撮影した赤外線カメラ画像524を取得する。なお、赤外線カメラ362とRGBカメラ363とでは設置位置が異なるため、図5(c)に示すようにそれぞれで撮影される2つのRGBカメラ画像523および赤外線カメラ画像524の撮影領域が異なる。そこでステップS503では、赤外線カメラ362の座標系からRGBカメラ363の座標系への座標系変換を用いて赤外線カメラ画像524をRGBカメラ画像523の座標系に合わせる。なお、赤外線カメラ362とRGBカメラ363の相対位置や、それぞれの内部パラメータは事前のキャリブレーション処理により既知であるとする。ステップS504では、図5(c)に示すように、3次元形状測定パターン522とステップS503で座標変換を行った赤外線カメラ画像524間での対応点を抽出する。例えば、赤外線カメラ画像524上の1点を3次元形状測定パターン522上から探索して、同一の点が検出された場合に対応付けを行う。あるいは、赤外線カメラ画像524の画素の周辺のパターンを3次元形状測定パターン522上から探索し、一番類似度が高い部分と対応付けてもよい。ステップS505では、赤外線パターン投射部361と赤外線カメラ362を結ぶ直線を基線525として三角測量の原理を用いて計算を行うことにより、赤外線カメラ362からの距離を算出する。ステップS504で対応付けが出来た画素については、赤外線カメラ362からの距離を算出して画素値として保存し、対応付けが出来なかった画素については、距離の計測が出来なかった部分として無効値を保存する。これをステップS503で座標変換を行った赤外線カメラ画像524の全画素に対して行うことで、各画素に距離値が入った距離画像を生成する。ステップS506では、距離画像の各画素にRGBカメラ画像のRGB値を保存することにより、1画素につきR、G、B、距離の4つの値を持つ距離画像を生成する。ここで取得した距離画像は距離画像センサ208のRGBカメラ363で定義された距離画像センサ座標系が基準となっている。そこでステップS507では、図2(b)を用いて上述したように、距離画像センサ座標系として得られた距離データを直交座標系における3次元点群に変換する。(以後、特に指定がなく3次元点群と表記した場合は、直交座標系における3次元点群を示すものとする。)
なお、本実施例では上述したように、距離画像センサ208として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いることも可能である。例えば、2つのRGBカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するTOF(Time of Flight)方式を用いても構わない。
また撮像対象物が人体などの赤外線を発するような場合は、焦電型赤外線センサを用いて対象物の認識と距離の測定を行っても良い。
なお、本実施例では上述したように、距離画像センサ208として赤外線パターン投射方式を採用しているが、他の方式の距離画像センサを用いることも可能である。例えば、2つのRGBカメラでステレオ立体視を行うステレオ方式や、レーザー光の飛行時間を検出することで距離を測定するTOF(Time of Flight)方式を用いても構わない。
また撮像対象物が人体などの赤外線を発するような場合は、焦電型赤外線センサを用いて対象物の認識と距離の測定を行っても良い。
<ジェスチャ認識部の説明>
ジェスチャ認識部409の処理の詳細を、図11のフローチャートを用いて説明する
図11において、ジェスチャ認識部409が処理を開始すると、ステップS1101では初期化処理を行う。初期化処理で、ジェスチャ認識部409は距離画像取得部408から距離画像を1フレーム取得する。ここで、ジェスチャ認識部の開始時は書画台204上に対象物が置かれていない状態であるため、初期状態として書画台204の平面の認識を行う。つまり、取得した距離画像から最も広い平面を抽出し、その位置と法線ベクトル(以降、書画台204の平面パラメータと呼ぶ)を算出し、RAM303に保存する。
ジェスチャ認識部409の処理の詳細を、図11のフローチャートを用いて説明する
図11において、ジェスチャ認識部409が処理を開始すると、ステップS1101では初期化処理を行う。初期化処理で、ジェスチャ認識部409は距離画像取得部408から距離画像を1フレーム取得する。ここで、ジェスチャ認識部の開始時は書画台204上に対象物が置かれていない状態であるため、初期状態として書画台204の平面の認識を行う。つまり、取得した距離画像から最も広い平面を抽出し、その位置と法線ベクトル(以降、書画台204の平面パラメータと呼ぶ)を算出し、RAM303に保存する。
続いてステップS1102では、ステップS1121〜1122に示す、書画台204上に存在する物体の3次元点群を取得する。その際、ステップS1121では距離画像取得部408から距離画像と3次元点群を1フレーム取得する。ステップS1122では書画台204の平面パラメータを用いて、取得した3次元点群から書画台204を含む平面にある点群を除去する。
ステップS1103では、ステップS1131〜S1134に示す、取得した3次元点群からユーザーの手の形状および指先を検出する処理を行う。ここで、図12に示す、指先検出処理の方法を模式的に表した図を用いて説明する。ステップS1131では、ステップS1102で取得した3次元点群から、書画台204を含む平面から所定の高さ以上にある、肌色の3次元点群を抽出することで、手の3次元点群を得る。図12(a)の1201は抽出した手の3次元点群を表している。ステップS1132では、抽出した手の3次元点群を、書画台204の平面に射影した2次元画像を生成して、その手の外形を検出する。図12(a)の1202は、書画台204の平面に投影した3次元点群を表している。投影は、点群の各座標を、書画台204の平面パラメータを用いて投影すればよい。また、図12(b)に示すように、投影した3次元点群から、xy座標の値だけを取り出せば、z軸方向から見た2次元画像1203として扱うことができる。この時、手の3次元点群の各点が、書画台204の平面に投影した2次元画像の各座標のどれに対応するかを、記憶しておくものとする。ステップS1133では検出した手の外形上の各点について、その点での外形の曲率を算出し、算出した曲率が所定値より小さい点を指先として検出する。図12(c)は、外形の曲率から指先を検出する方法を模式的に表したものである。1204は、書画台204の平面に投影された2次元画像1203の外形を表す点の一部を表している。ここで、1204のような、外形を表す点のうち、隣り合う5個の点を含むように円を描くことを考える。円1205、1207が、その例である。この円を、全ての外形の点に対して順に描き、その直径(例えば1206、1208)が所定の値より小さい(曲率が小さい)ことを以て、指先とする。この例では隣り合う5個の点としたが、その数は限定されるものではない。また、ここでは曲率を用いたが、外形に対して楕円フィッティングを行うことで、指先を検出してもよい。ステップS1134では、検出した指先の個数および各指先の座標を算出する。この時、前述したように、書画台204に投影した2次元画像の各点と、手の3次元点群の各点の対応関係を記憶しているため、各指先の3次元座標を得ることができる。今回は、3次元点群から2次元画像に投影した画像から指先を検出する方法を説明したが、指先検出の対象とする画像は、これに限定されるものではない。例えば、距離画像の背景差分や、RGB画像の肌色領域から手の領域を抽出し、上に述べたのと同様の方法(外形の曲率計算等)で、手領域のうちの指先を検出してもよい。この場合、検出した指先の座標はRGB画像や距離画像といった、2次元画像上の座標であるため、その座標における距離画像の距離情報を用いて、直交座標系の3次元座標に変換する必要がある。この時、指先点となる外形上の点ではなく、指先を検出するときに用いた、曲率円の中心を指先点としてもよい。
ステップS1104では、ステップS1141〜S1146に示す、検出した手の形状および指先からのジェスチャ判定処理を行う。ステップS1141では、ステップS1103で検出した指先が1つかどうか判定する。指先が1つでなければステップS1146へ進み、ジェスチャ無しと判定する。ステップS1141において検出した指先が1つであればステップS1142へ進み、検出した指先と書画台204を含む平面との距離を算出する。ステップS1151では、書画台204上に立体物点群が存在するかどうかを確かめる。立体物点群は、手領域の3次元点群と同じく、直交座標系の座標情報を持った点群データである。立体物点群の意味は、書画台204上におかれた物体の3次元点群データのことをいうものとする。図12(d)でいえば、1209の点々が立体物点群を表現している。立体物点群の取得処理は、図8の物体検知部410の処理で説明する。ステップS1151で立体物点群が存在した場合はステップS1152へ進み、存在しなかった場合はステップS1143へ進む。ステップS1152では、検出した指先と立体物点群の距離を算出する。この方法は、図12(d)に模式的に示される。指先点1208から立体物点群1209のすべての点の座標までの距離を算出し、最も距離が短かったものを立体物点群との距離とする。ステップS1153では、ステップS1152で算出した距離が微小な所定値以下であるかどうかを判定する。ステップS1153がYESであればステップステップS1154へ進んで立体物タッチジェスチャありと判定する。ステップS1153がNOであればステップS1143へ進む。ステップS1143ではステップS1142で算出した距離が微小な所定値以下であるかどうかを判定し、ステップS1143がYESであればステップS1144へ進んで指先が書画台204へタッチした、タッチジェスチャありと判定する。ステップS1143においてステップS1142で算出した距離が所定値以下で無ければステップS1145へ進み、指先が移動したジェスチャ(タッチはしていないが指先が書画台204上に存在するジェスチャ)と判定する。
ステップS1105では判定したジェスチャをメイン制御部402へ通知し、ステップS1102へ戻ってジェスチャ認識処理を繰り返す。
ステップS1105では判定したジェスチャをメイン制御部402へ通知し、ステップS1102へ戻ってジェスチャ認識処理を繰り返す。
<メイン制御部の説明>
図8はメイン制御部402の処理の概要を示すフローチャートである。また、この処理に対応して書画台204上に表示される画像を図10に示す。図10では、まず書画台204に置かれた文書601をカメラで撮像(スキャン)して文書画像を取得する。そしてこの取得された文書画像に対して解析(文字認識)を行い、この結果をプロジェクタ207によって認識結果表として書画台204に投影する。そして、この投影された認識結果表におけるある項目と文書画像におけるある項目とを対応づけて表示する。
図8はメイン制御部402の処理の概要を示すフローチャートである。また、この処理に対応して書画台204上に表示される画像を図10に示す。図10では、まず書画台204に置かれた文書601をカメラで撮像(スキャン)して文書画像を取得する。そしてこの取得された文書画像に対して解析(文字認識)を行い、この結果をプロジェクタ207によって認識結果表として書画台204に投影する。そして、この投影された認識結果表におけるある項目と文書画像におけるある項目とを対応づけて表示する。
まず、図10について説明する。図10は、図8のメイン制御部402および図9の確認支援処理部421のフローチャートに沿って、書画台204上に置かれた文書601の認識結果を表示し、実際の文書601とその認識結果の照合作業を行う際のイメージを示したものである。図10(a)は、書画台204上に何も置かれていない状態を示す。このとき、メッセージ1001を表示することで、ユーザーに文書の載置を促す。図10(b)は、ユーザーによって書画台204上に文書601が置かれたときの状態を示す。このとき、メッセージ1003を表示することで、文字認識処理を実行していることを明示する。図10(c)は、確認支援処理部421によって、書画台204上に認識結果表1005が表示されている状態を示す。認識結果表1005中の項目1006は、認識された項目の種類を表し、項目1007は、文字認識結果を表す。図10(d)は、ユーザーの選択動作1008によって、選択された認識結果表1005中の項目1009と文書601上においてこの項目1009に対応する項目1010とを紐付けている状態を示す。ここでの選択動作1008とは、指差し動作を例に挙げている。なお、認識結果表1005中の項目1009を選択するのではなく、文書601上の項目1010を選択し、認識結果表1005中にてこれに対応する項目1009とを紐づける形態であってもよい。それぞれの項目は、直線1011によって結ばれた状態で表示される。なお、項目1009及び項目1010の斜線部はプロジェクタ207によるハイライトの投影表示を示している。図10(e)は、ユーザーの選択動作によって、修正用のUIを表示した状態を示す。修正用UI1012は、対象となっている項目に被らないように書画台204上に投影される。また、メッセージ1013を表示することで、ユーザーに修正内容を入力することを促す。図10(f)は、終了アイコンが押下された場合の図状態を示す。メッセージ1014が表示され、一連の処理が完了したことを明示する。
以下、図8、図9を用いてメイン制御部402が実行するアプリケーション処理について説明する。
以下、図8、図9を用いてメイン制御部402が実行するアプリケーション処理について説明する。
メイン制御部402が処理を開始すると、ステップS801でカメラ101の初期化を行う。初期化処理では、各ハードモジュールの起動確認、カメラ画像取得部407及び、距離画像取得部408の色味調整・距離センサ値の補正、書画台204に何も載置されていない状態での背景画像取得などを行う。
ステップS802では、ユーザーインターフェース部403を介して、書画台204に図10(a)の画面をプロジェクタ207で投射する。図10(a)の画面では、書画台204上にスキャン対象物を置くことをユーザーに促すメッセージ1001を投射する。また、終了アイコン1002をプロジェクタ207で投射する。ユーザーが書画台204上の終了アイコン1002にタッチすることで、ジェスチャ認識部409は終了アイコン1002へのタッチ操作を認識し、メイン制御部402の処理を終了することができる。
ステップS803では、物体検知部410による物体検知通知があったか否かを判定する。
物体検知通知が有った場合は、ステップS804へ進み、そうでなければステップS811へ進む。物体検知部410による物体検知通知は、例えば図10(b)のように、ユーザーによって書画台204上に文書601が置かれたと検知された場合に通知される。
物体検知通知が有った場合は、ステップS804へ進み、そうでなければステップS811へ進む。物体検知部410による物体検知通知は、例えば図10(b)のように、ユーザーによって書画台204上に文書601が置かれたと検知された場合に通知される。
ステップS804では物体検知部410によって検知された物体の物体識別情報に基づいて、物体が文書であるか立体物であるかを判定する。物体が文書である場合はステップS806へ進み、立体物であればステップS805へ進む。
ステップS805では、物体が立体物である場合の処理を行う。立体物が書画台204に載置されたときは、例えば、“置かれたものは文書ではありません”などの注意喚起メッセージを書画台204に投射する。あるいは、別のアプリケーションに切り替えるよう示唆するメッセージを投射してもよい。
ステップS806では、ユーザーインターフェース部403を介して、書画台204に投射するメッセージを“文書を解析中です。”に更新してプロジェクタ207で投射する。具体的には、例えば図10(b)のように文書601が書画台204に置かれ、物体検知部410によって文書601が検知された場合に、メッセージ1003を投射する。なお、本実施例では、文書601の載置検知後に自動的にステップS807へ遷移しているが、ユーザーによるスキャン開始指示を受けてからメッセージ1003を投影し、ステップS807に遷移しても良い。スキャン開始指示とは、例えば、スキャンアイコンを書画台204上に表示し、ジェスチャ認識部409によりユーザーがスキャンアイコンを選択したと検知された状態である。
ステップS807では、載置された文書601をスキャンすることで得られた文書画像に対して文字認識部414によって文字認識処理を行う。文字認識処理の詳細については、後述する図9のフローチャートで説明する。
ステップS808では、ステップS807の文字認識処理で生成された文字認識結果を、ユーザーインターフェース部403を介して、プロジェクタ207によって書画台204へ投射する。また、同時にUI画面のメッセージを更新表示する。文字認識処理で生成された認識結果は、レイアウト生成部415によって、例えば、図10(c)の認識結果表1005のように投射表示される。また、表示されるメッセージは、ユーザーに認識結果の確認を促すため、メッセージ1004に更新される。
ステップS809では、ジェスチャ認識部409によってユーザーの選択動作が行われたか否かを検知する。ユーザーによる項目の選択動作が検知された場合、選択された項目と原稿上においてこの項目に対応する項目をプロジェクタ207によって紐付け表示する。
なお、この項目に対する選択はなされなくてもよい。例えば、原稿上の全ての項目に対して紐付け表示してもよいし、予め指定された項目のみ紐付け表示してもよい。紐付け表示は、例えば、図10(d)の項目1009と項目1010とが紐づけられたことがわかるように、対応する2つの項目を結ぶ線がプロジェクタ207によって表示される。
なお、紐付け表示に限らず、書画台上に載置された原稿の任意の項目(第1の項目)と書画台上に表示された文字認識結果のうち第1の項目の文字認識結果を示す項目(第2の項目)とが対応していることが認識可能であれば、どんな表示形態でも良い。例えば、対応する項目を同じ色で表示したり、同じ装飾を施して表示したり、ハイライトで表示することで、対応していることを示してもよい。 また、ユーザーによる別の選択動作が行われた場合、書画台204上にプロジェクタ207によって修正用のUIを表示する。修正用UIは、例えば、図10(e)のように対応付けられている項目1009と項目1010とに被らない位置に書画台204上に表示される。修正用UIの挙動については、図9で後述する。
なお、この項目に対する選択はなされなくてもよい。例えば、原稿上の全ての項目に対して紐付け表示してもよいし、予め指定された項目のみ紐付け表示してもよい。紐付け表示は、例えば、図10(d)の項目1009と項目1010とが紐づけられたことがわかるように、対応する2つの項目を結ぶ線がプロジェクタ207によって表示される。
なお、紐付け表示に限らず、書画台上に載置された原稿の任意の項目(第1の項目)と書画台上に表示された文字認識結果のうち第1の項目の文字認識結果を示す項目(第2の項目)とが対応していることが認識可能であれば、どんな表示形態でも良い。例えば、対応する項目を同じ色で表示したり、同じ装飾を施して表示したり、ハイライトで表示することで、対応していることを示してもよい。 また、ユーザーによる別の選択動作が行われた場合、書画台204上にプロジェクタ207によって修正用のUIを表示する。修正用UIは、例えば、図10(e)のように対応付けられている項目1009と項目1010とに被らない位置に書画台204上に表示される。修正用UIの挙動については、図9で後述する。
ステップS810では、ユーザーインターフェースを介して、図10(c)の画面を投射する。
ステップS811では、ユーザーによって書画台204上の終了アイコン1002が押下されたか否かを判定する。終了アイコン1002が押下されたと判定された場合は、メイン制御部402を終了する。終了アイコン1002が押下されたと判定されなかった場合は、ステップS809へ戻る。
<文字認識部のフローチャートの説明>
図9(a)は文字認識処理部420によるステップS807の文字認識処理の概要を示すフローチャートである。
図9(a)は文字認識処理部420によるステップS807の文字認識処理の概要を示すフローチャートである。
ステップS901では、カメラ画像取得部407から文書601のカメラフレーム画像(文書画像)を取得する。
ステップS902では、文書認識部411によって、ステップS901で取得されたカメラフレーム画像に基づき、書画台204上の文書601を認識する。
ステップS903では、文書認識部411によって、書画台204上の文書601とデータベース上の登録文書の類似度を判定し、文書601が登録済みの文書であるか否かを判定する。文書601が登録済の文書であると判定されればステップS904へ進み、そうでないと判定されれば文字認識部処理S807を終了する。
ステップS904では、認識領域取得部412によって、文書601の認識領域を取得する。例えば、図6(a)の602〜610の領域が認識領域となる。
ステップS905では、ステップS904で取得した認識領域に対して文字認識処理を実行する。
<確認支援処理部のフローチャートの説明>
図9(b)は確認支援処理部421によるステップS809の対応付け表示処理の概要を示すフローチャートである。
図9(b)は確認支援処理部421によるステップS809の対応付け表示処理の概要を示すフローチャートである。
ステップS906では、ジェスチャ認識部409によって紐付けを表示するためのジェスチャ(以下、第一選択ジェスチャと呼ぶ)が行われたか否かを判定する。第一選択ジェスチャは、ユーザーが特定の項目を選択していると判定できるようなジェスチャを予め設定する。例えば、書画台204への指差しやタッチ、ロングタッチなどである。第一選択ジェスチャが行われたと判定された場合S907へ進み、そうでないと判定されれば対応付け表示部による処理S809を終了する。
ステップS907では、第一選択ジェスチャが認識結果表中の項目または文書中の項目を示しているか否かを判断する。ジェスチャ認識部は上述した通り、指差しやタッチなどのジェスチャがなされたか否かを判定することが可能であり、その際、指差しやタッチなどジェスチャにより指示される座標を取得することが可能である。その座標が認識結果表中の項目または文書中の項目に合致していれば、ステップS908へ進み、そうでなければ、対応付け表示部処理による処理S809を終了する。
ステップS908では、S907で選択された項目に対応する項目の座標を取得する。この説明では、第一選択ジェスチャにより認識されたのが認識結果表中の項目であるとする。この場合、まず、図7のデータベースを参照し、文書座標系における項目の座標を取得する。次に文書位置検出部413によって、直交座標系における文書の座標を取得する。この二つの座標から、直交座標系における項目の座標を算出する。
ステップS908では、S907で選択された項目に対応する項目の座標を取得する。この説明では、第一選択ジェスチャにより認識されたのが認識結果表中の項目であるとする。この場合、まず、図7のデータベースを参照し、文書座標系における項目の座標を取得する。次に文書位置検出部413によって、直交座標系における文書の座標を取得する。この二つの座標から、直交座標系における項目の座標を算出する。
ステップS909では、プロジェクタ207によって、第一選択ジェスチャで選択された項目とステップS908で算出された対応項目とが紐付けられていることがわかるような表示を行う。
ステップS910では、ジェスチャ認識部409によって修正UIを呼び出すジェスチャ(以下、第二選択ジェスチャと呼ぶ)が行われたか否かを判定する。第二選択ジェスチャは、第一選択ジェスチャと異なるものであればどのようなジェスチャを設定してもよい。例えば、第一選択ジェスチャを指差しとした場合、第二選択ジェスチャはタッチや長押しなどを設定することが可能である。また、第一選択ジェスチャをタッチ1回、第二選択ジェスチャをタッチ2回といったように、ジェスチャの回数や動作時間などで区別できるのであれば、同様のジェスチャを設定してもよい。第二選択ジェスチャが行われたと判定された場合S911へ進み、第二選択ジェスチャが行われたと判定されなかった場合、対応付け表示部による処理S809を終了する ステップS911では、修正用UIを表示する座標を取得する。修正用UIは、文書画像における修正対象としている項目と被らないように表示を行うことが好ましい。そのため、表示位置の候補をいくつか予め設定し、選択された候補位置が項目の座標に被らないか否かを判定して修正用UIの表示位置を決定する。
ステップS912では、ステップS913で取得した表示座標に基づいて修正用UIを表示する。
ステップS913では、ジェスチャ認識部409によって、修正UI上の確定ボタンが押されたか否かを判定する。確定ボタンが押されたと判定された場合はステップS914へ進み、確定ボタンが押されたと判定されなかった場合は、ステップS916へ進む。
ステップS914では、修正用UIによって入力された内容を図7で示されるデータベース上へ反映(文字認識結果を変更)し、ステップS915へ進む。
ステップS915では、反映されたデータベース内容に基づいて書画台204上の表示を更新し、対応付け表示部による処理S809を終了する。
ステップS916では、ジェスチャ認識部409によって、修正UIの入力用ボタンが押されたか否かを判定する。入力ボタンが押されたと判定された場合はステップS917へ進み、入力ボタンが押されたと判定されなかった場合は、ステップS913へ進む。
ステップS917では、S916で押されたボタンに応じて、入力データを更新し、ステップS918へ進む。入力データとは、修正中の値を表すものであり、ステップS918によって書画台204上の修正UIまたは、認識結果表に反映される。ここで、修正が行われた項目が認識できるようにハイライト表示してもよい。
ステップS918では、入力データの反映後、ステップS913へ進み、確定ボタンが押されるまでは、ステップS913からステップS918を繰り返す。
以上説明したように、本実施例によれば、ユーザーの指示に従って選択された項目とこの項目に対応する項目を紐付けて表示する。
文書とこの文書の文字認識結果を示す認識結果表のうち、文書中の項目に対してユーザーが指示をした場合は、認識結果表においてこの項目に対応する項目を紐づけて表示する。
また、文書とこの文書の文字認識結果を示す認識結果表のうち、認識結果中の項目に対してユーザーが指示をした場合は、文書においてこの項目に対応する項目を紐づけて表示する。
これにより、ユーザーが確認したい項目をわかりやすく表示することが可能である。よって、読み取られた文書に対する文字認識結果を容易に確認することが可能である。
また、認識内容の修正を照合画面上に表示されるUIを用いて行うことが可能なため、修正のために必要な手間を省くことが可能である。
実施例1では、一つの文書に対して文書中の項目とこの項目に対応する文字認識結果との紐付け表示を行う例を説明した。これによって、ユーザーは文書中の項目とこの項目に対応する文字認識結果とを一目で理解し、確認することが可能となる。
本実施例2では、書画台204上に文書が複数置かれ、文字認識結果(認識結果表)が点在した場合に、どの認識結果がどの文書に対応しているのかを明示的に示す方法について説明する。
以下、実施例1との差分を中心に図13(a)〜(c)を用いて説明する。
図13(a)は、実施例2が想定する複数の文書が書画台204上に置かれている状況を示したものである。また、この複数の文書1301〜1303に対して文字認識を行った結果は、それぞれ認識結果表1304〜1307として表示されている。実施例1のように、一つの文書が置かれている場合はこの文書に対応する認識結果表を認識することができる。しかし、図13(a)のように複数の認識結果表が表示されている場合、表示された認識結果表がどの文書に対応しているか明確ではない。例えば、文書1301に対応した認識結果表は隣接している認識結果表1304および認識結果表1305のどちらであるか不明確である。そこで、本実施例2では、ユーザーの行ったジェスチャに応じて紐付けのレベルを文書単位と項目単位とで切り替える。
ここでいう文書単位で紐づけるとは、図13(b)中の文書1303と認識結果表1305とを関連付けて文書と認識結果表を紐付けることである。項目単位で紐づけるとは、図13(c)の中の認識結果表における認識結果項目1308と文書中の項目1310とを関連付けて項目同士を紐付けることである。
実施例2で行う処理の流れについて、図8および図9のフローチャートを用いて説明する。
図8のステップS801〜S807までの処理は、実施例1で説明した処理と同様である。ステップS808の認識結果表示では、ステップS807の文字認識処理で認識された結果に対して、図7のデータベースにおける文書IDごとにリストを分割して表示を行う。その後、ステップS809の対応付け表示処理に入る。この処理は図9(b)を用いて説明する。
ステップS809内の処理について図14(a),(b)を用いて説明する。ステップS906では、ジェスチャ認識部によって第一選択ジェスチャの検知を行うが、本実施例では、二つのジェスチャを第一選択ジェスチャとして設定する。本実施例では、図11のステップS1144で検知される平面タッチジェスチャ(以下、タッチと呼ぶ)およびステップS1145で検知される指先移動ジェスチャ(以下、ホバーと呼ぶ)を用いることとする。
ホバーが検出された場合の処理を次に示す。本実施例におけるホバーのイメージは図14(a)に示すとおりである。ユーザーの指先1307が、書画台204からの所定の閾値1401より高い場合に、ホバーと判定され、ホバー点1402が検知される。ホバーが検出された場合、紐付け対象が文書となり、ステップS907では、ホバー点が認識結果表上にあるかどうかが判定される。ホバー点が認識結果表上にあると判定された場合は、ステップS908において対応する文書座標を取得し、S909において図13(a)のように認識結果表全体と文書を紐付けるような表示を行う。
タッチが検出された場合の処理を次に示す。本実施例におけるタッチのイメージは図14(b)に示す通りである。ユーザーの指先1309が、書画台204からの所定の閾値1401より低い場合に、タッチと判定され、タッチ点1403が検知される。タッチが検出された場合、紐付け対象が項目となり、ステップS907では、タッチ点が認識結果項目上にあるかどうかが判定される。タッチ点が認識結果項目上にあると判定された場合は、ステップS908において対応する項目座標をデータベースから取得し、S909において図13(b)のように認識結果表中の項目とこの項目に対応する文書中の項目とを紐づけるような表示を行う。
ステップS911〜ステップS918に関しては、実施例1と同様の処理を行い、対応付け表示部の処理を終了する。
以上、説明したように、本実施例では、認識対象の文書とこの文書に対する文字認識結果表との紐づけを行うことが可能になる。よって、複数の文書が書画台上に置かれてそれぞれに対して文字認識処理がなされた場合であっても、各文書と各文書に対応する文字認識結果表との組合せが容易に理解できる。
(その他の実施例)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
101 カメラスキャナ
201 コントローラ部
202 カメラ部
204 書画台
207 プロジェクタ
208 距離画像センサ部
201 コントローラ部
202 カメラ部
204 書画台
207 プロジェクタ
208 距離画像センサ部
Claims (11)
- 台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識手段と、
前記文字認識手段により前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第1の表示制御手段と、
前記台上に載置された原稿に含まれる項目のうち第1の項目と前記台上に表示された文字認識結果のうち前記第1の項目に対する文字認識結果を示す第2の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上にて表示させる第2の表示制御手段と、
を有することを特徴とする画像処理装置。 - 前記第2の表示制御手段は、
前記台上に載置された原稿に含まれる項目のうち第1の項目を選択する指示を受けると、前記台上に表示された文字認識結果のうち第1の項目に対する文字認識結果を示す第2の項目と前記第1の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上に表示させることを特徴とする請求項1に記載の画像処理装置。 - 前記第2の表示制御装置は、
前記台上に表示された文字認識結果のうち第2の項目を選択する指示を受けると、前記台上に載置された原稿に含まれる項目のうち第2の項目に対応する第1の項目と前記第2の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上に表示させることを特徴とする請求項1に記載の画像処理装置。 - 前記第1の表示制御手段により表示された文字認識結果に対して修正を行うための指示を受けると、前記台上に前記文字認識結果を修正するための画面を表示させることを特徴とする請求項1に記載の画像処理装置。
- 前記第1の項目または前記第2の項目を選択する指示を受けたか否かを判定する第1の判定手段を有し、
前記第1の判定手段は、予め設定されていた第1のジェスチャがユーザーにより実施されたことが認識された場合に前記選択する指示を受けたと判定することを特徴とする請求項1に記載の画像処理装置。 - 前記文字認識結果に対して修正を行うための指示を受けたか否かを判定する第2の判定手段を有し、
前記第2の判定手段は、予め設定されていた第2のジェスチャがユーザーにより実施されたことが認識された場合に前記修正を行うための指示を受けたと判定することを特徴とする請求項1に記載の画像処理装置。 - 前記文字認識結果は、前記台上の領域のうち前記台上に原稿が載置された領域以外の領域に表示されることを特徴とする請求項1に記載の画像処理装置。
- 前記台上に複数の原稿が載置されると、
前記文字認識手段は、前記複数の原稿をそれぞれ撮像することで取得された各画像に対して文字認識処理を実行し、
前記第1の表示制御手段は、前記各画像に対する文字認識結果を対応する画像ごとに表示させ、
前記第2の表示制御手段は、前記台上に載置された各原稿と前記各画像に対する文字認識結果とが対応していることが示されるように、前記文字認識結果を前記台上に表示させることを特徴とする請求項1に記載の画像処理装置。 - ユーザーによるジェスチャを検知する検知手段を有し、
前記検知手段により検知されるジェスチャの種類に応じて、
前記台上に載置された複数の原稿のうちの1つと前記台上に投射された複数の文字認識結果のうちの1つとが対応していることが示されるように表示させるか、
前記台上に載置された複数の画像のうちの1つの原稿に含まれる項目と前記台上に投射された複数の文字認識結果のうちの1つの文字認識結果に含まれる項目とが対応していることが示されるように表示するか、を決定することを特徴とする請求項8に記載の画像処理装置。 - 台上に載置された原稿を撮像することで取得された画像に対して文字認識処理を施す文字認識ステップと、
前記文字認識ステップにて前記画像に対して施された文字認識処理の結果である文字認識結果を前記台上に表示させる第1の表示制御ステップと、
前記台上に載置された原稿に含まれる項目のうち第1の項目と前記台上に表示された文字認識結果のうち前記第1の項目に対する文字認識結果を示す第2の項目とが対応していることが前記台上にて認識可能になるように、前記第2の項目を前記台上にて表示させる第2の表示制御ステップと、
を有することを特徴とする画像処理方法。 - コンピュータに請求項10の画像処理方法を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016005599A JP2017126225A (ja) | 2016-01-14 | 2016-01-14 | 画像処理装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016005599A JP2017126225A (ja) | 2016-01-14 | 2016-01-14 | 画像処理装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017126225A true JP2017126225A (ja) | 2017-07-20 |
Family
ID=59364611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016005599A Pending JP2017126225A (ja) | 2016-01-14 | 2016-01-14 | 画像処理装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017126225A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019204295A (ja) * | 2018-05-23 | 2019-11-28 | トヨタ車体株式会社 | 車体情報管理システムおよび車体情報管理方法 |
WO2019234865A1 (ja) * | 2018-06-06 | 2019-12-12 | 株式会社Pfu | 検査装置、制御方法及び制御プログラム |
JP2023054937A (ja) * | 2021-10-05 | 2023-04-17 | ウイングアーク1st株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7483384B2 (ja) | 2020-01-21 | 2024-05-15 | キヤノン株式会社 | 文書を電子化する画像処理システム、その制御方法及びプログラム |
-
2016
- 2016-01-14 JP JP2016005599A patent/JP2017126225A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019204295A (ja) * | 2018-05-23 | 2019-11-28 | トヨタ車体株式会社 | 車体情報管理システムおよび車体情報管理方法 |
JP7024604B2 (ja) | 2018-05-23 | 2022-02-24 | トヨタ車体株式会社 | 車体情報管理システムおよび車体情報管理方法 |
WO2019234865A1 (ja) * | 2018-06-06 | 2019-12-12 | 株式会社Pfu | 検査装置、制御方法及び制御プログラム |
JPWO2019234865A1 (ja) * | 2018-06-06 | 2021-01-07 | 株式会社Pfu | 検査装置、制御方法及び制御プログラム |
JP7039693B2 (ja) | 2018-06-06 | 2022-03-22 | 株式会社Pfu | 検査装置、制御方法及び制御プログラム |
JP7483384B2 (ja) | 2020-01-21 | 2024-05-15 | キヤノン株式会社 | 文書を電子化する画像処理システム、その制御方法及びプログラム |
JP2023054937A (ja) * | 2021-10-05 | 2023-04-17 | ウイングアーク1st株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7432568B2 (ja) | 2021-10-05 | 2024-02-16 | ウイングアーク1st株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8239753B2 (en) | Information sharing support system providing corraborative annotation, information processing device, computer readable recording medium, and computer controlling method providing the same | |
US10310675B2 (en) | User interface apparatus and control method | |
CN108027656B (zh) | 输入设备、输入方法和程序 | |
JP2017126225A (ja) | 画像処理装置、方法およびプログラム | |
JP6381361B2 (ja) | データ処理装置、データ処理システム、データ処理装置の制御方法、並びにプログラム | |
JP2016103137A (ja) | ユーザインタフェース装置、画像処理装置及び制御用プログラム | |
JP2017117373A (ja) | 操作装置とその制御方法、及びプログラム | |
JP5589309B2 (ja) | 表示制御装置、画像処理装置、及びプログラム | |
JP2018112894A (ja) | システムおよび制御方法 | |
TWI424343B (zh) | 光學觸控系統及其感測方法 | |
JP6127465B2 (ja) | 情報処理装置、情報処理システム及びプログラム | |
JP2017199288A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2017162126A (ja) | 入力システム、入力方法、制御用プログラム、及び記憶媒体 | |
JP5999236B2 (ja) | 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム | |
JP6618301B2 (ja) | 情報処理装置、その制御方法、プログラム、及び記憶媒体 | |
JP6478641B2 (ja) | 画像処理装置、情報処理方法及びプログラム | |
JP2019016843A (ja) | 原稿読取装置、原稿読取装置の制御方法、及びプログラム | |
JP2016139396A (ja) | ユーザーインターフェイス装置、方法およびプログラム | |
JP6624861B2 (ja) | 画像処理装置、制御方法およびプログラム | |
JP2017167810A (ja) | 入力支援装置、入力支援方法、制御用プログラム、及び記憶媒体 | |
JP6149812B2 (ja) | 情報処理システム、その制御方方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム | |
JP2017033454A (ja) | 情報入力装置、情報入力装置の制御方法及びプログラム | |
JP6705988B2 (ja) | 情報処理システム、その制御方法、及びプログラム | |
JP6115615B2 (ja) | 情報処理装置、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム | |
JP6634820B2 (ja) | 情報処理装置、その制御方法、及びプログラム |