JP6639257B2

JP6639257B2 - 情報処理装置及びその制御方法

Info

Publication number: JP6639257B2
Application number: JP2016024152A
Authority: JP
Inventors: 妙子山▲崎▼
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-02-10
Filing date: 2016-02-10
Publication date: 2020-02-05
Anticipated expiration: 2036-02-10
Also published as: JP2017142690A

Description

本発明は、対象物に記載されている情報を、ユーザからの指定により選択する技術に関する。

名刺などの対象物を光学的に読み取る装置を用いて、対象物に記載されている電話番号や住所などの情報をユーザが指定する手法として、読み取って得られた画像において指定したい領域を、ポインティングデバイスでユーザが指定する手法がある。

特許文献１では、名刺の画像に含まれるファクシミリ番号の領域をユーザが選択すると、ファクシミリ送信する機能に切り替わる技術が開示されている。

特許第５０４１６０３号明細書

特許文献１は、ユーザがファクシミリ番号に相当する数字の文字列本体を選択することで、ファクシミリ送信する機能に切り替わる技術である。しかし、名刺における電話番号やファクシミリ番号は小さい文字で記載されていることが多く、文字間が狭いため、ユーザが読取範囲を指定する場合、所望の文字のみを読取範囲として正確に指定するのは難しい。特に、ユーザが自分の指を用いてタッチ操作で指定する場合、文字サイズに比べて指のサイズが大きいので、所望の文字間の正確な位置を指定するのは困難である。

本発明にかかる情報処理装置は、読み取った対象物から、予め定義されている項目名に対応する値および予め定義されている分類ルールに対応する値のうちの少なくとも一方の位置を検出する検出手段と、前記値をユーザが操作指示することが可能な領域である操作指示領域を、前記検出手段によって検出された前記値の位置とは異なる位置に設定する設定手段とを有することを特徴とする。

本発明によれば、名刺などの対象物に記載されている情報をユーザが指定する際に、誤った情報を装置が選択してしまうことを抑制することができる。

情報処理装置の外観と構成の一例を示す図である。読み取り台上に置かれた対象物の情報を操作する一例を示す図である。対象物を読み取る処理の流れの一例を示すフローチャートである。読み取り対象物の処理対象の情報の一例を示す図である。操作指示領域生成処理の一例を示すフローチャートである。操作指示領域の一例を示す表である。操作指示検出処理の一例を示すフローチャートである。通知オブジェクトの表示の一例を示す図である。通知オブジェクトの表示の一例を示す図である。通知オブジェクトの表示の一例を示す図である。

以下に、図面を参照して、この発明の好適な実施の形態を詳しく説明する。なお、以下の実施形態では、本発明を特定の状況に対応したアプリケーションの一機能として説明しているが、あくまで例示であり、本発明の範囲を限定する趣旨のものではない。

＜第１の実施形態＞
本実施形態では、読み取り台に上向きに配置した対象物から情報を読み取り、対象物に記載されている情報をユーザが選択することができるユーザーインターフェースを提供する情報処理装置を例に挙げて説明する。なお、情報処理装置で扱う対象物の一例としては、名刺や、紙に印刷された文書が挙げられる。

図１（ａ）は、本実施形態における情報処理装置１００のハードウェア構成図である。図１（ａ）において、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は、各種処理のための演算や論理判断などを行い、システムバス１０７に接続された各構成要素を制御する。ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）１０２は、後述するフローチャートに示す各種処理手順を含むＣＰＵによる制御のためのプログラムデータを格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３は、データメモリであり、ＣＰＵ１０１の上記プログラムのワーク領域、エラー処理時のデータの退避領域、上記制御プログラムのロード領域などを有する。記憶装置１０４はハードディスクや情報処理装置の外部に接続された記憶装置などであり、本実施形態に係る電子データなどの各種データやプログラムを記憶する。ＣＰＵ１０１は、ＲＯＭ１０２もしくは記憶装置１０４に記憶された処理ステップやプログラムを読み出して実行する。これらの処理ステップやプログラムは、ディスクデバイスを始めとする記憶媒体から読み出されたり、ネットワーク通信によって取得されたりして、ＲＯＭ１０２もしくは記憶装置１０４に記憶されることができる。その際、ＣＰＵ１０１がコントローラとして機能する。本実施形態において、ＣＰＵ１０１は、図３などのフローチャートに示された工程を実行することで、後述する情報処理装置１００の各機能部として動作する。

撮像装置１０５は、ユーザが操作を行う作業空間を撮像して撮像画像を取得する。また、撮像装置１０５は、名刺などの対象物を高解像度で撮像した画像（以下プレ撮像画像と呼ぶ）を取得する。取得した撮像画像は、入力画像として情報処理装置に入力され、情報処理装置で行なう処理で用いられる。投影装置１０６は、後述する読み取り台１２０に、プレ撮像画像、電子データ、ユーザーインターフェース部品などを含む投影画像を投影する。例えば、投影装置１０６は、名刺などの対象物を表すプレ撮像画像や、後述するようにユーザに通知を行なう通知オブジェクトを含む投影画像を投影する。投影装置１０６は、対象物を表すプレ撮像画像の上に通知オブジェクトの画像を重畳させた投影画像を投影することが可能である。なお、本実施形態では、投影装置１０６は１つの投影部を備えているものとして説明するが、複数の投影部を備え、各投影部が上記の対象物の画像や通知オブジェクトの画像を投影するような構成でもよい。

本実施形態では、基本的に撮像装置１０５の位置と撮像画角と投影装置１０６の位置と投影画角とが固定の場合を例にして説明する。具体的には撮像画角と投影画角とが同じであるものとして説明する。ただし、後述するように、最初に読み取り台上に置かれた名刺を読み取ってプレ撮像画像を得る際には撮像画角や位置は適宜変更されることになる。また、本実施形態では、撮像装置１０５及び投影装置１０６が、情報処理装置１００内に構成される例を説明しているが、撮像装置および投影装置は、有線あるいは無線のインターフェースによって接続された外部装置でも良い。

図１（ｂ）は、本実施形態における情報処理装置１００の外観の一例を示す図である。本実施形態では、読み取り台１２０に対し、撮像装置１０５は上部に設置され、読み取り台１２０に上向きに置かれた対象物１２１を俯瞰撮像する。そして、情報処理装置は、読み取り台１２０の上面の読み取り対象面を読み取り、読み取り対象面に記載されている情報を文字認識する。また、投影装置１０６も同様に、読み取り台１２０の上面あるいは対象物１２１上に、対象物の画像を含むユーザーインターフェースを構成する画像や、情報処理装置１００が生成した電子データ等を含む投影画像などを投影する。本実施形態では、撮像装置１０５と投影装置１０６は同一の筐体で構成される。ただし、撮像装置１０５の設置位置、撮像画角、投影装置１０６の設置位置、投影画角の情報を情報処理装置が予め把握していれば、それぞれ別の場所に設置されてもよい。また、本実施形態では、投影装置１０６が読み取り台の上面に投影を行うことによって、ユーザに対する通知を行うが、これに限らず、一般的なディスプレイなどの表示装置を構成しても良い。

図１（ｃ）は、本実施形態における情報処理装置１００の機能構成を表す図である。情報処理装置１００は、撮像制御部１１１、検出部１１２、認識部１１３、保持部１１４、判定部１１５、設定部１１６、通知部１１７、投影制御部１１８、生成部１１９を有する。本実施形態では、これらの各機能部は、ＣＰＵ１０１がＲＯＭ１０２に格納された各プログラムをＲＡＭ１０３に展開し実行することでその機能を実現する。ただし、これらの機能部をハードウェアで実現する情報処理装置によっても同様に実現可能である。

撮像制御部１１１は、カメラやビデオカメラ等の撮像装置１０５を制御する。撮像制御部１１１は撮像装置１０５を制御して、読み取り台全体を撮像する。その後、撮像制御部１１１は、後述する検出部１１２の検出結果に基づいて読み取り台で上向きに置かれた対象物を撮像装置１０５に撮像させ、プレ撮像画像を取得する。その後、撮像制御部１１１は、読み取り台の上面に投影画像が投影される領域が撮像範囲に含まれるような撮像画角となるように撮像装置１０５を制御し、投影画像が投影される領域を含む撮像画像を取得する。検出部１１２は、プレ撮像画像を取得するために、読み取り台上面全体を撮像した撮像画像から読み取り台上の対象物を検出する。撮像制御部１１１においては、検出部１１２によって検出された対象物が撮像範囲となるように撮像画角を制御して撮像することで、対象物を表すプレ撮像画像が取得されることになる。

また、検出部１１２は、投影画像が投影される領域を撮像した撮像画像から、対象物を表す対象物画像（すなわち、投影画像に含まれるプレ撮像画像）の読み取り台上面における位置を示す座標情報を取得する。また、その対象物画像に記載されている情報が存在する領域の読み取り台上面における位置を示す座標情報を取得する。ここで、対象物画像に記載されている情報とは、文字や画像など対象物の読み取り対象面に記載されている情報である。

また、検出部１１２は、撮像画像から、ユーザが読み取り台に置いた指を検出し、読み取り台上面における指の位置を示す座標情報を取得する。本実施形態では、撮像装置１０５で撮像した対象物のプレ撮像画像を含む投影画像を投影する。この投影画像が投影される領域を含む領域を撮像装置１０５が撮像することで、撮像画像が得られる。そして、投影画像上の所定の領域をユーザがタッチすることで所定の領域がユーザによって指定される。つまり、ユーザが読み取り台に置いた指についても撮像装置１０５で撮像した撮像画像に含まれて得られることになるのである。なお、ここでは検出部が検出する座標情報は読み取り台上面における位置を示す情報として説明したが、投影画像に含まれている位置を示す情報として取得する形態でもよい。また、検出部１１２が撮像画像から読み取り台上面における座標位置を取得する例を説明したが、これに限られるものではない。例えば、赤外線カメラを用いて、赤外線照射によって赤外線反射率の違いから対象物の位置を示す座標情報や指の位置を示す座標情報を求めてもよいし、超音波センサなどの専用のセンサを用いてもよい。

認識部１１３は、文字認識（ＯＣＲ処理）を行う対象領域を決定する。例えば認識部１１３は、撮像制御部１１１に投影画像が投影される領域を撮像させて得られた撮像画像を入力する。そして入力した撮像画像に含まれる対象物画像の領域に含まれる情報を文字認識する。あるいは、前述のように対象物を高解像度で撮像したプレ撮像画像自体を、文字認識を行なう対象として決定してもよい。認識部１１３は、決定した対象領域の画像を、文書ファイルとして入力するとともに、入力した文書内容の文字認識を行う。

保持部１１４は、情報処理装置１００が対象物から読み取った情報を保持する。保持する情報の例としては、認識部１１３が、文字認識処理を実行した画像データ（文書ファイル）と、文字認識した情報の蓄積データとが挙げられる。なお、文書ファイルを保持するか否かは、ユーザにより設定可能としてもよい。蓄積データは、対象物の種類毎に分類されて蓄積することができる。例えば、名刺Ａに含まれるデータとして、ＴＥＬ、名前などのデータが名刺Ａに対応する蓄積データとして蓄積され、名刺Ｂに含まれるデータとして、ＴＥＬ、名前などのデータが名刺Ｂに対応するデータとして蓄積されることになる。

判定部１１５は、検出部１１２によって検出された対象物画像における対象物の読み取り対象面から選択可能な情報を、認識部１１３によって文字認識した結果を用いて判定する。本実施形態では、対象物画像に記載されている情報に電話番号、ファクシミリ番号、住所、メールアドレス、ＵＲＬがあるかを、認識部１１３が文字認識した結果を用いて判定する。

設定部１１６は、判定部１１５による判定により、読み取り対象面から選択可能な情報があると判定された場合、ユーザがその情報の操作を指示できる領域を設定する。本実施形態では、ユーザは投影画像上に指を置くことで指示を行なう。また、本実施形態では、前述のように投影領域と撮像領域とは同じ領域であるものとする。従って、設定部１１６は、読み取り台上の座標において対象物の画像を投影した場合の投影画像における、ユーザが操作を指示できる領域を設定する。なお、ユーザが操作を指示できる領域の座標系は投影画像内における座標系でもよいし、読み取り台上における座標系でもよい。

通知部１１７は、情報処理装置１００を操作するユーザに通知する内容を制御する。本実施形態では、読み取り対象面から選択可能な情報が含まれていると判定部１１５によって判定された場合、通知部１１７は、設定部１１６による設定に応じて、ユーザが情報の操作を指示できる領域をユーザに通知する。本実施形態では、通知部１１７は、生成部１１９に、読み取り台上面に通知オブジェクトを表す画像を生成させ、投影制御部１１８がその生成された画像を読み取り台に投影する。本実施形態では、通知オブジェクトとは、ユーザが、読み取り対象面の情報を選択するためのユーザーインターフェースを構成する画像や文字である。具体的には、読み取り対象面から選択可能な属性項目（例えば、「住所」、「電話番号」など）を示す画像や文字である。詳細は後述する。この通知オブジェクトを表す画像は、投影画像に含まれる形で（合成されて）投影されることになる。

投影制御部１１８は、投影装置１０６を制御し、通知部１１７によって通知された、通知オブジェクトを表す画像を含む投影画像を読み取り台上面に投影する。投影装置１０６が投影する画像は、前述のように、プレ撮像画像や通知オブジェクトなどを含む画像である。

生成部１１９は、保持部１１４に保持されている蓄積データに基づいて、電子データを生成して保持部１１４に保持する。また、生成された電子データは、投影制御部１１８によって読み取り台上に投影することができる。ここで電子データとは、例えば保持部に保持されている蓄積データ（つまり、対象物から文字認識処理によって文字認識されたデータ）である。また、ユーザによって適宜修正されてもよい。

以下では、本実施形態を実現する環境の一例として、読み取り台に上向きに置かれた名刺を撮像し、撮像した名刺の内容を認識して印刷用の電子データを生成するアプリケーションを説明する。一例としては、名刺の記載事項を文字認識して、入場証を発券するような利用形態が挙げられる。もちろん、この例に限られるものではなく、様々な形態で利用することができる。

図２（ａ）は、読み取り台１２０上に名刺が置かれており、かつ、ユーザが操作するインターフェースが投影画像２０２として投影された状況の一例を示している。読み取り台１２０には、読み取り対象物である名刺２０１が載置され、読み取り対象物を撮像したプレ撮像画像に基づいて投影画像２０２が投影されている。ユーザ２００は投影画像２０２に含まれている対象物画像上に指を置くことで、読み取り対象物である名刺から選択する情報を指定する。

図２（ｂ）は投影画像２０２の一例を示す図である。オブジェクト２０３は読み取り対象物である名刺２０１を撮像したプレ撮像画像を拡大した画像、すなわち対象物画像である。オブジェクト２０４は、ユーザに情報の選択を促す通知である。オブジェクト２０５はユーザが選択した情報を表示する領域である。図２（ｂ）でのオブジェクト２０５では、ユーザはまだ情報を選択していないため、空欄になっている。なお、このオブジェクト２０５には、前述のように生成部１１９によって生成された電子データが投影画像に含まれて投影されることになる。

本実施形態では、前述のように認識部１１３によって対象物画像に記載されている記載事項を文字認識して対象物に記載されている情報が得られる形態である。ここで、認識部１１３による認識結果が必ずしも正しい認識結果とならない場合がある。そこで、図２（ｂ）に示すように、ユーザに所定の項目（ここでは電話番号を例に挙げる）を指定させることで、その指定に応じて情報処理装置１００は、認識部１１３が認識した電話番号を電子データとして投影する。図には示していないが、情報処理装置１００は、ユーザに対してこの装置が認識している電話番号が正しいかの確認を促すメッセージを併せて投影してもよい。また、ソフトウェアキーボードなどを併せて投影し、修正があればユーザからの修正操作を受け付けるような構成としてもよい。本実施形態では、このような場面において、情報処理装置が、ユーザが本来指定したかった項目ではなく、隣接して記載されている別の項目を誤って選択してしまうことを抑制する技術である。詳細は後述する。

図３は、本実施形態の情報処理装置が実行する、読み取り対象物である名刺の情報を読み取り、印刷用の電子データを生成する処理の流れの一例を示すフローチャートである。なお、以下で説明する処理は、ＣＰＵ１０１がＲＯＭ１０２などに格納されたプログラムをＲＡＭ１０３に読み出して実行することにより実現される。

なお、図３の処理の開始時点においては、図２（ａ）に示すように、読み取り台１２０上に投影画像２０２が投影されている状態であるものとする。すなわち、読み取り台１２０全体を撮像した撮像画像から名刺２０１の領域を検出部１１２が検出し、その検出した領域を高解像度で撮像したプレ撮像画像を取得する。そして、図２（ａ）および（ｂ）で示すようなプレ撮像画像を含む投影画像２０２が読み取り台１２０上に投影されている状態であるものとする。

まず、ステップＳ３０１では、撮像制御部１１１が、撮像装置１０５を制御して読み取り台上を撮像させることにより、読み取り台上を撮像した撮像画像を取得する。本実施形態では撮像装置１０５の撮像画角と投影装置１０６の投影画角とは同じであるものとするので、撮像画像は投影画像が投影されている領域を撮像した画像となる。本実施形態では、撮像制御部１１１は、ステップＳ３０１以降、一定の周期で読み取り台上の撮像させる制御を繰り返し、続く処理ステップにおいて、各機能部は、撮像制御部１１１の制御により撮像された最新の撮像画像に基づいて処理を実行する。なお、ここでは撮像制御部１１１が動画を撮像する制御を行なう例を示す。各機能部は動画の最新のフレームを取得して後述する各処理を行う。

次に、ステップＳ３０２において、検出部１１２が、ステップＳ３０１において取得された撮像画像を基に対象物を検出する。すなわち、検出部１１２は、撮像画像における対象物画像の領域を検出し、その位置情報を取得する。図２（ａ）や図２（ｂ）に示すように、投影画像２０２には読み取り対象物である対象物画像以外の画像が含まれているので、ステップＳ３０２においては撮像画像から対象物画像の領域を検出する処理を行なう。撮像画像から対象物画像の領域を検出する検出方法には、例えば、次のような方法がある。まず、ステップＳ３０２で撮像制御部１１１が取得した撮像画像に、ＳｏｂｅｌやＬａｐｌａｃｉａｎフィルタといった公知のエッジ強調手法を適用することにより、対象物の四辺に該当する画素を際立たせる。そして、検出部１１２は、ハフ変換や最小近似法などの公知の直線抽出手法を用いて、対象物の四辺を示す位置情報を求める。撮像装置１０５の画角と読み取り台１２０の相対位置が固定であれば、撮像画像中の対象物の四辺の位置情報と、読み取り台１２０における対象物の相対位置と、から対象物の読み取り台の上面における座標情報を得ることができる。なおこの方法は一例であり、赤外線カメラを用いて、赤外線照射によって読み取り台１２０と文書の赤外線反射率の違いから対象物の読み取り台上での座標情報を求めてもよいし、超音波センサなどの専用のセンサを用いてもよい。検出部１１２が読み取り台上での対象物を検出する処理であればどのような手法でもよい。

ステップＳ３０３において検出部１１２は、読み取り対象面に含まれる情報が存在する領域をステップＳ３０２で検出した対象物画像の領域の中から検出する。本実施形態では、検出部１１２は、対象物画像（名刺画像）の領域の中から文字が存在する領域を検出し、文字領域の境界を読み取り台の上面における座標情報として取得する。ただし、ステップＳ３０３では、対象物画像の領域の中から、文字コンテンツがありそうな領域を抽出できればよい。文字コンテンツがありそうな領域を抽出する技術として、特開２００９−１２３２０６号が知られている。この技術では、入力画像からエッジ画像を生成し、エッジ画像から連結画素塊（ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔ：以後ＣＣと言う。）を生成する。生成したＣＣの大きさなどの特徴量から、文字らしいと推定されるＣＣの座標情報を候補としてハフ変換した結果、直線に並ぶ候補ＣＣ群を文字領域と判定する。ただし、文字コンテンツの存在を推定する方法は、これに限らない。例えば、ステップＳ３０２で検出した対象物画像の領域を撮像画像から切り出し、切り出した画像を二値化した画像、もしくは、エッジを抽出した画像を生成し、対象物画像内部に存在する画素塊を何らかの文字コンテンツが存在する領域としてもよい。

図４（ａ）は、投影画像２０２を撮像した撮像画像の中から対象物画像の領域を切り出した画像を示している。図４（ａ）において、点線で囲まれた領域は、ステップＳ３０３の処理によって推定された文字領域を示している。

ステップＳ３０４では、対象物に含まれる情報の操作が指示できる領域を設定する処理が認識部１１３、判定部１１５、および設定部１１６などによって実行される。この処理の詳細は後述する。

ステップＳ３０５において検出部１１２は、読み取り台上のユーザの指の位置からユーザの操作指示を検出する。すなわち、検出部１１２は、撮像画像の中からユーザの指の位置を検出する。そして、その検出した指の位置に基づいてユーザの操作指示を検出する。本実施形態では、ユーザが指を置いた位置から、読み取り対象物である名刺の読み取り面に記載されている情報のうち１つを選択し、保持部１１４に保持する。この処理の詳細は後述する。

ステップＳ３０６において生成部１１９は、保持部１１４に保持されている情報に基づいて、電子データを生成する。本実施形態では、名刺から選択した情報を印刷可能なフォーマットに変換する。さらに、変換したフォーマットをプリンタに送信し、印刷する。

図５は、上述したフローチャートのステップＳ３０４において実行される、対象物に含まれる情報の操作の指示ができる領域を設定する処理の一例を示すフローチャートである。以下、図５を参照して操作指示領域設定処理を説明する。

本実施形態では、図２（ｂ）に示す、読み取り対象物の名刺を拡大投影したオブジェクト２０３の上にユーザが指を置くと、その指の位置に対応する情報が選択されることになる。名刺内には電話番号や住所などの複数の情報が含まれているため、どの情報を操作対象とするかは、ユーザの指の位置に基づいて決定される。このユーザの指の位置と取り込む情報とを対応付けるために、操作指示領域を設定する。操作指示領域とは、ユーザの操作指示を受け付ける領域のことである。操作指示領域は、例えば読み取り台の座標情報によって特定される。後述するように操作指示領域には、処理対象の値が関連付けられる。そして、操作指示領域をユーザが指で指定することで、その操作指示領域に関連付けられている処理対象の値が選択されることになるのである。以下、図５のフローチャートに基づいて詳細に説明する。

ステップＳ５０１において認識部１１３は、撮像画像に含まれる対象物画像における、ステップＳ３０３で検出された文字領域を解析して、記載されている文字情報を認識する。ステップＳ５０２において認識部１１３は、認識した文字情報を単語単位に分割する。本実施形態では、文字情報に含まれる空白を基に分割を行う。図４（ｂ）において、実線で囲まれた領域はステップＳ５０２の処理によって推定された単語位置を示している。

以降のステップＳ５０３からステップＳ５０６までは、ステップＳ５０２で分割された単語を処理対象としてフローを進める。ステップＳ５０３において判定部１１５は、処理対象の単語が読み取りたい情報の項目名であるかを判定する。項目名とは、その情報の種別の特定が可能な情報であり、たとえば”Ｔｅｌ”，”Ｐｈｏｎｅ”，”電話”などの予め定義されている文字列のことである。一方、電話番号そのものの数値の文字列は、読み取りたい情報の値になる。

本実施形態では、保持部１１４にあらかじめ項目名の一覧を定義しておく。そして、判定部１１５は、保持部１１４に保持されている一覧に処理対象の単語が含まれるかを判定する。処理対象の単語と一致する項目名が保持部１１４で保持する一覧に含まれるのであれば、ステップＳ５０４へ遷移する。

ステップＳ５０４において設定部１１６は、処理対象の単語を項目名として設定し、かつ、処理対象の単語の右に隣接した単語をその項目名の値として設定する。なお、本実施形態では左から右に文字が記載されている形態を想定した場合の例を示している。従って、例えば右から左に向けて文字が記載されるような形態においては、ステップＳ５０４の処理としては、処理対象の単語の左に隣接した単語をその項目名の値として設定することになる。具体的な例を挙げて説明する。ステップＳ５０３において処理対象の単語が図４（ｂ）の単語４０１”Ｔｅｌ”であったとする。この場合、定義されている項目名と一致する単語であるので、この処理対象の単語４０１は項目名と判定される。この結果、処理はステップＳ５０４へ遷移する。ステップＳ５０４において設定部１１６は、単語４０１の文字情報を項目名として設定する。さらに設定部１１６は、処理対象の単語４０１の右に隣接する単語４０２（“０４４−１２３−４５６７”の文字列）を、その項目名の値として設定する。

続くステップＳ５０５において設定部１１６は、ユーザが値を操作指示することができる領域である操作指示領域を項目名の位置に設定する。図４（ｂ）の例においては、値（単語４０２）をユーザが操作指示できる操作指示領域を、項目名である単語４０１の位置に設定する。これにより、電話番号の種別を意味する”Ｔｅｌ”の部分をユーザが指で指示することにより操作指示をすることで、電話番号の値（“０４４−１２３−４５６７”の文字列）への操作が可能になる。このように、本実施形態においては操作指示領域を項目名の値の位置ではなく項目名の位置に設定する。このように設定することでユーザが指定した項目とは異なる項目が情報処理装置によって選択されてしまうことを抑制することができる。なお、後述するが、本実施形態では操作指示領域を項目名の位置に設定することが一つの特徴であり、操作指示領域を項目名の値の位置に設定することを除外するわけではない。つまり、操作指示領域として項目名と項目名の値との両方を設定する形態でもよい。以下では、操作指示領域を項目名の位置に設定する形態に基づいて説明する。

ステップＳ５０６において判定部１１５は、対象物画像中に存在する全ての単語に対し、項目名の判定処理（ステップＳ５０３に該当）を実行したかを判定する。ＹＥＳならば、ステップＳ５０７へ、ＮｏならばステップＳ５０３へ遷移する。

ステップＳ５０７において判定部１１５は、対象物画像に含まれる単語のうち、項目名でも、値でもない、未定義と判定された単語をグループ化する。本実施形態では単語の配置された位置から、同一の行と判別できる単語群、及び、同一の行同士が上下で隣接している単語群をグループ化して一つの単語として設定する。図４（ｃ）において、実線で囲まれた領域はステップＳ５０７の処理によってグループ化した単語を示している。なお、図４（ｃ）においては既に項目名および値として判定された単語は実線で囲まれていない。

以降のステップＳ５０８からステップＳ５１０までは、グループ化した単語を処理対象の単語としてフローを進める。ステップＳ５０８において判定部１１５は、処理対象のグループ化した単語が、値の分類ルールに適合するかを判定する。適合する場合は、ステップＳ５０９に遷移する。ここで、分類ルールとは値の文字情報から情報の種別を判別するための条件である。たとえば、文字情報に地名が含まれていれば、その情報の種別は住所と判別できる。また、文字情報が”ｈｔｔｐ”や”ｗｗｗ”で始まれば、その情報の種別はＵＲＬと判別できる。つまり、項目名に明示がなくても項目の種別を判別することができる場合がある。本実施形態では、保持部１１４は、ステップＳ５０８で用いられる分類ルールを予め定義した一覧を保持する。そして、判定部１１５は、保持部１１４で保持する分類ルールに基づいてステップＳ５０８の判定を行なう。

ステップＳ５０９において設定部１１６は、処理対象のグループ化した単語の項目名として分類ルールで定義されている項目を設定し、処理対象のグループ化した単語を、その項目名の値として設定する。例えば、図４（ｃ）において、処理対象のグループ化した単語４０３がステップＳ５０８において入力された場合、文字情報に地名を含むので住所の分類ルールに当てはまると判定され、ステップＳ５０９へ遷移する。そして、ステップＳ５０９では、処理対象のグループ化した単語４０３の項目名として、“住所”を設定し、処理対象のグループ化した単語４０３の文字情報を“値”として設定する。そして、ステップＳ５１０に遷移する。

ステップＳ５１０において設定部１１６は、ユーザが値の操作指示できる操作指示領域を、ステップＳ５０９で設定した“値”の位置の近辺に設定する。また、設定部１１６は、その操作指示ができる位置にアイコンを投影する指示も合わせて設定する。つまり、情報の種別を意味する単語が対象物画像に存在しないので、情報の種別を意味する通知オブジェクト（例えば“Ａｄｒｅｓｓ”と標記されたアイコン）を、値の位置に近辺に投影する指示を設定する。投影制御部１１８は、この指示が設定されると、対応する位置に通知オブジェクトを含めた投影画像を投影する。これにより、ユーザが投影されたアイコンの位置を指で指定すると、このグループ化した単語の“値”が選択されることになる。ステップＳ５１０において設定する操作指示領域の位置は、対象物画像でほかの単語が存在しない範囲とする。具体的には、認識部が抽出した位置情報と重ならない位置とする。

その後、ステップＳ５１１において処理対象のグループ化した単語について全て処理が行なわれた場合は処理を終了し、そうでない場合はステップＳ５０７に戻り処理を繰り返す。

以上、ステップＳ３０４において実行される、対象物に含まれる情報の操作の指示ができる操作指示領域を設定する処理を説明した。本実施形態では、ステップＳ３０４にて、図６に示すような操作指示領域の設定情報が生成され、保持部１１４に設定される。図６に示す設定情報は、項目名と値と操作指示領域と通知オブジェクトの有無とが関連付けられたテーブル情報の一例を示している。

図７は、上述したフローチャートのステップＳ３０５において実行される、ユーザの操作指示を検出する処理の一例を示すフローチャートである。本実施形態は、図２（ｃ）のように投影画像に指を置くと、その名刺に含まれている情報を選択する。

ステップＳ６０１において検出部１１２は、ユーザが読み取り台に置いた指を検出する。そして、読み取り台上における指の位置を示す位置情報を取得する。指の位置の検出は、撮影画像から指に対応する領域を検出することで求めても良いし、赤外線などを用いて検出してもよい。

なお、ここではユーザの指の位置に基づく処理を例に挙げて説明したが、ユーザが所定の位置を指定する形態であればいずれの形態でもよい。例えば、指ではなく、指示棒などで所定の位置を指定する形態でもよいし、レーザポインタのような指示装置を用いて指示する形態でもよい。

ステップＳ６０２において判定部１１５は、ステップＳ６０１で検出したユーザの指の位置が情報の操作を指示できる操作指示領域に含まれるかを判定する。ＹｅｓならステップＳ６０３へ、ＮｏならＳ６０１へ遷移する。

ステップＳ６０３において通知部１１７は、図６に示す操作指示領域の設定情報を参照して、操作指示領域に関連付けられた“値”を投影制御部１１８に出力する。投影制御部１１８は、この“値”を例えば投影画像に含めて投影して、ユーザに正しい値であるかを確認させる。

以下、図２（ｂ）および図６の例において、対象物画像に項目名が存在する単語と、対象物画像に項目名が存在しない単語について具体例を説明する。まず、対象物画像に項目名が存在する単語を説明する。対象物画像に項目名が存在する単語は、図２（ｂ）の場合には、電話番号、ＦＡＸ番号、メールアドレスである。ここでは電話番号を例に挙げる。図２（ｂ）の対象物画像（オブジェクト２０３）においては、電話番号の項目名”Ｔｅｌ”と値”０４４−１２３−４５６７”との両方が記載されている。ここで図２（ｂ）に示すように電話番号を選択するように要求された場合、ユーザは、項目名”Ｔｅｌ”の部分を指で押さえる（図２（ｃ）の指示２０６参照）。その結果、操作対象の値は項目名”Ｔｅｌ”ではなく、図６の設定情報に示すように、その項目名”Ｔｅｌ”に関連付けられている電話番号の値となる。この結果、図２（ｃ）の領域２０７に示すように、操作対象となった値が投影画像に含まれて投影され、読み取り台上に表示されることになる。なお、値の位置もその情報の操作を指示できる操作指示領域に含めてよい。たとえば、電話番号の値”０４４−１２３−４５６７”の部分を指で押さえても、電話番号の値を操作対象としたことになる。

なお、項目名は一般的に各行の端部や単語の端部に記載されている場合が多い。つまり、値のように、（項目名を含む）文字列の中央部分に記載されている領域を選択する場合に比べて、端部に記載されている項目名を選択する場合の方が、他の選択候補が減ることになる。本実施形態の例では、例えば項目名”Ｔｅｌ”の左側は空白領域になっている。つまり、項目名を選択する形態を採用すると、他の選択候補の数が、値を選択する場合に比べて少なくなるので、誤選択がされてしまうことを抑制することができる。

次に、対象物画像に項目名が存在しない単語について具体例を説明する。対象物画像に項目名が存在しない単語は、図２（ｂ）の場合、住所とＵＲＬとが該当する。図２（ｂ）の対象物画像には、住所の値は存在するが、住所の項目名は存在しないため、情報の種別の判定は分類ルールに基づいて判定している。この場合、例えば図８（ａ）に示すように、ユーザが住所を選択操作する場合は、その項目名を示すアイコンなどの通知オブジェクトを他の文字情報と重ならない位置に生成し、投影制御部１１８が投影する（図８（ａ）通知オブジェクト７０１参照）。この場合、ユーザは通知オブジェクト７０１を指で押さえることで、図６の設定情報に示すように、操作対象の値はその通知オブジェクトに関連付けられている住所の値となる。この結果、図８（ｂ）の領域７０２に操作対象となった値が表示される。

なお、通知オブジェクトが投影されるタイミングは任意のタイミングとすることができる。例えば、図３のステップＳ３０４の処理が終了した時点で設定されている全ての通知オブジェクトを投影してもよい。あるいは、ユーザに所定の項目を選択させる場合に、その所定の項目に関連する項目の通知オブジェクトのみを、その選択を要求するタイミングで投影する処理でもよい。例えば、図８（ａ）に示すように、ユーザに住所の選択を要求するような場合に、その要求に連動して、住所に関連する通知オブジェクトが投影される形態を採用してもよい。

以上説明したように、本実施形態では、読み取り台に置かれた対象物を、撮像制御部を用いて上方から読み取る際に、対象物に予め定義された項目名が含まれているか判定する。そして、項目名が対象物に含まれている場合は、その項目名の位置を、その項目名に対応する値をユーザが操作指示できる領域と設定する。一方、項目名がない場合は、他の情報の位置と重ならない位置に通知オブジェクトを投影し、この通知オブジェクトの位置を、その通知オブジェクトに対応する値をユーザが操作指示できる領域と設定する。従ってユーザは、項目名や通知オブジェクトを押さえるだけで、処理対象の情報（値）を選択することができる。

＜実施形態１の変形例１＞
以下、実施形態１の変形例を説明する。変形例１は、対象物画像に項目名が存在しているケースであっても、通知オブジェクトを投影する形態である。対象物画像に項目名が存在しているケースであっても、その項目名に対応する値の操作を指示する操作指示領域として、他の情報の位置と重ならない位置を設定し、その位置に通知オブジェクトを投影してもよい。このような処理によれば項目名が小さく、ユーザが指で押さえるには十分でないサイズの場合においても、誤った情報を装置が選択してしまうことを抑制することができる。

図９（ａ）は項目名”ｔｅｌ”を意図する通知オブジェクト９０１を他の情報と重ならない位置に投影する例を示している。ユーザは通知オブジェクト９０１を指で押さえることで、操作対象の値は、電話番号の値となり、図９（ｂ）の領域９０２に操作対象となった値が表示される。

＜実施形態１の変形例２＞
変形例２は、第１の実施形態と変形例１において設定した、操作指示領域の位置をユーザの位置に基づいて決定する形態である。例えば図１０（ａ）のように、操作対象の値の位置より上に通知オブジェクトを配置すると、読み取りたい単語がユーザの指の下に隠れてしまう。このため、ユーザは操作対象が正しく認識されたかの判断ができない。よって、通知オブジェクトをユーザが指定する際に隠れない位置に通知オブジェクトを配置する。例えば、図１０（ａ）に示すように、投影画像に対してユーザが下側に位置しているとすると、通知オブジェクトを、読み取りたい単語の上側ではない位置、例えば、読み取りたい値より下に配置する。

図１０（ｂ）は“ＦＡＸ”を意図する通知オブジェクトに指を置いた時に、ＦＡＸの値とユーザの指が重ならないよう、“ＦＡＸ”を示す通知オブジェクトを、“ＦＡＸ”の値の位置より下に投影した例を示している。

以上説明したように変形例２では、ユーザの指の位置に重ならない位置に配置オブジェクトを配置する。これにより、ユーザは、通知オブジェクトの表示に従うだけで、ユーザによって操作対象が正しく認識された状態で操作したい情報を指定することができる。

＜その他の実施形態＞
なお、上記の処理は、撮像装置で読み取り台上の対象物をプレ撮像し、プレ撮像した画像を投影装置を用いて投影し、その投影画像を撮像装置で撮像した画像に基づく処理を例に挙げて説明したが、この形態に限られるものではない。例えば、スキャナで読み取った画像をタッチパネルディスプレイに表示し、このタッチパネルディスプレイ上に表示される画像からユーザが操作指示をするような形態でもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

読み取った対象物から、予め定義されている項目名に対応する値および予め定義されている分類ルールに対応する値のうちの少なくとも一方の位置を検出する検出手段と、
前記値をユーザが操作指示することが可能な領域である操作指示領域を、前記検出手段によって検出された前記値の位置とは異なる位置に設定する設定手段と
を有することを特徴とする情報処理装置。
前記操作指示領域を前記ユーザが操作指示した場合、前記値を選択する選択手段をさらに有することを特徴とする請求項１に記載の情報処理装置。
前記設定手段は、前記予め定義されている項目名が記載されている位置を、前記操作指示領域として設定することを特徴とする請求項１または２に記載の情報処理装置。
前記読み取った対象物から、前記対象物に記載されている単語を文字認識処理によって認識する認識手段をさらに有し、
前記検出手段は、前記認識手段で認識した単語を用いて、前記値の位置の検出を行なうことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記設定手段は、前記認識手段で認識した単語が予め定義されている項目名と一致する場合、前記予め定義されている項目名が記載されている位置に隣接する位置の単語を、該項目名に対応する値として設定することを特徴とする請求項４に記載の情報処理装置。
前記設定手段は、前記予め定義されている項目名が記載されている位置の右に隣接する位置の単語を、該項目名に対応する値として設定することを特徴とする請求項５に記載の情報処理装置。
前記認識手段で認識した単語が予め定義されている項目名と一致しない場合、前記単語が前記分類ルールに適合するかを判定する判定手段をさらに有し、
前記判定手段によって前記分類ルールに適合すると判定された場合、前記設定手段は、前記判定手段によって判定が行なわれた単語を、前記分類ルールに対応する値として設定することを特徴とする請求項４から６のいずれか一項に記載の情報処理装置。
前記判定手段は、前記認識手段で認識した単語であり、かつ、前記項目名としても前記値としても検出されていない単語をグループ化した単語が、前記分類ルールに適合するかを判定することを特徴とする請求項７に記載の情報処理装置。
前記ユーザが操作指示することが可能なオブジェクトを前記操作指示領域の位置に出力する出力手段をさらに有することを特徴とする請求項４から８のいずれか一項に記載の情報処理装置。
前記出力手段は、前記認識手段で認識した単語が記載されていない位置であり、かつ、前記操作指示領域の位置に、前記オブジェクトを出力することを特徴とする請求項９に記載の情報処理装置。
前記読み取った対象物の画像を含む投影画像を投影する投影手段をさらに有し、
前記検出手段は、前記投影画像におけるユーザからの操作指示を検出し、
前記出力手段は、前記オブジェクトを、前記値に対応する単語が投影されている領域の上側でない位置に含めた前記投影画像を前記投影手段により投影させることを特徴とする請求項９または１０に記載の情報処理装置。
前記予め定義された項目名は、電話番号、ＦＡＸ番号、住所、メールアドレス、ＵＲＬの少なくとも１つであることを特徴とする請求項１から１１のいずれか一項に記載の情報処理装置。
読み取った対象物から、予め定義されている項目名に対応する値および予め定義されている分類ルールに対応する値のうちの少なくとも一方の位置を検出する検出ステップと、
前記値をユーザが操作指示することが可能な領域である操作指示領域を、前記検出ステップによって検出された前記値の位置とは異なる位置に設定する設定ステップと
を有することを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１から１２のいずれか一項に記載の情報処理装置の各手段として機能させるためのプログラム。