図1は、一実施形態に係る情報端末装置の機能ブロック図である。情報端末装置1は、撮像部2、認識部3、加工部4及び表示部5を備える。図1の各部1〜5の機能概要は以下の通りである。
撮像部2は、各時刻tにおけるユーザの撮像操作U(t)のもとで撮像対象を撮像して、その撮像画像P1(t)を算出部へ出力する。ここで、撮像画像P1(t)には予め既知の撮像対象が含まれるよう、ユーザが撮像操作U(t)にて撮像を行うものとする。撮像対象は例えば、特徴等が既知の模様を持つマーカーや印刷物、立体物等であってよい。撮像部2のためのハードウェア構成としては、携帯端末に標準装備されるデジタルカメラを用いることができる。
なお、各時刻tにおける撮像部2に対するユーザの撮像操作U(t)とは、撮像対象に対して当該ユーザが望む形の配置(カメラ位置及び姿勢)に撮像部2を置くことにより、撮像する操作等を指す。すなわち、撮像対象に対して撮像部2(カメラ)をユーザが手に持つ、あるいはスタンドに取り付けるなどして「かざす」操作(通常の撮像操作)を指す。こうした操作は一般に時間変化するものである(ただし、一定状態を保つ場合も含む)ため、撮像操作U(t)と表記している。その他、撮像対象に対して光源が配置されておりユーザが当該光源を調整可能である場合には、当該光源の位置を調整すること等も撮像操作U(t)に含まれてよい。
認識部3は、各時刻tにおいて、撮像部2で撮像された撮像画像P1(t)から撮像対象を認識し、認識結果R(t)としてユーザ等に対して出力する。認識部3における認識処理としては、QRコード(登録商標)読み取り、文字認識、局所画像特徴量を用いた特定物体認識など既存の方法を利用できる。
一実施形態において認識部3ではさらに、現時刻t2において加工部4(後述)が撮像画像P1(t2)を加工して加工画像P2(t2)を出力する際の加工処理におけるパラメータ等を、加工指示I(t2)として加工部4へ指示することもできる。ここで、認識部3では現時刻t2の加工指示I(t2)を、過去時刻t1(t1<t2)における認識結果R(t1)に基づいて決定することができる。当該決定するための過去時刻t1は1つの時刻に限らず、複数の時刻を用いてもよいし、現時刻t2に対する過去の所定期間を用いてもよい。
なお、加工指示I(t2)を省略する実施形態も可能であり、この場合、加工部4では認識部3における実際の認識状態によらず常に、後述するような加工部4の各実施形態に応じた所定種類の加工処理を所定パラメータにおいて適用することとなる。これに対して、加工指示I(t2)を利用する実施形態では、認識部3における実際の認識状態に依存せずに加工部4の各実施形態に応じた所定種類の加工処理を加工部4において適用することは同じであるが、当該適用する際のパラメータを、認識部3における過去認識結果に基づいて、ユーザの撮像操作U(t)の過去履歴における傾向に応じたものとして設定することが可能となる。なお、加工指示I(t2)については後述する補足説明(1)において再度、説明する。
図2は、一実施形態における認識部3の機能ブロック図である。認識部3は、算出部31、記憶部32及び照合部33を備える。局所画像特徴量を用いて認識を行う一実施形態において、当該各部の処理内容は以下の通りである。
算出部31はまず、撮像部2で撮像された撮像画像P1(t)から撮像対象の特徴点を検出する。当該検出する特徴点には、認識対象におけるコーナーなどの特徴的な点を利用できる。検出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な点を検出する既存手法が利用できる。
算出部31は次に、検出された特徴点座標を中心として、撮像部2で撮像された撮像画像P1(t)から局所画像特徴量を算出する。局所画像特徴量の算出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な量を算出する既存手法が利用できる。
算出部31で以上のように算出された複数の特徴点および局所画像特徴量は、各時刻tにおける撮像画像P1(t)の特徴情報F(t)として照合部33へと出力される。
記憶部32は、参照対象としての所定の複数の認識対象につきそれぞれ、当該認識対象の画像より、算出部31が撮像画像に対して行う処理と同一処理で算出した特徴情報を記憶しておく。ここで、次に説明する照合部33での処理の高速化のため、特徴情報をベクトル量子化やハッシュ関数等で要約したうえで記憶しておいてもよい。
照合部33は、各時刻tにおいて、算出部31から入力される撮像対象の特徴情報F(t)と、記憶部32に記憶された各認識対象の特徴情報と、の類似性を評価し、予め設定された閾値より類似度が高い認識対象があれば当該1以上の認識対象を、あるいは、最も類似度の高い認識対象を、撮像画像P1(t)に撮像された撮像対象の認識結果R(t)として加工部4やユーザ等に向けて出力する。なお、各時刻tにおける認識結果R(t)は特にユーザ等に向けて出力することなく、情報端末装置1において保持しておいてもよい。この場合、ユーザ等からの出力要請を受けた後に、認識結果R(t)をユーザ等に向けて出力するようにしてもよい。
ここで、類似性の評価には、特徴情報同士の間のハミング距離やユークリッド距離、マハラノビス距離などを用いる既存の手法を利用できる。また、認識対象と撮像画像との間の個別の特徴情報同士で当該距離等に基づき、最も類似する特徴情報同士の対応関係を定めたうえで、当該定まった対応関係における類似度の総和を求めるようにしてもよいし、周知のRANSAC(Random Sample Consensus)により認識対象と撮像画像との間の特徴情報同士の全体的な対応関係及び類似度を求めるようにしてもよい。
加工部4は、各時刻tにおいて、撮像部2から撮像画像P1(t)を入力し、撮像画像P1(t)に対して拡大縮小などの画像変換処理を施した結果を加工画像P2(t)として表示部5へと出力する。
表示部5は、各時刻tにおいて、加工部4から加工画像P2(t)を入力し、加工画像P2(t)をユーザに対して表示する。表示部5としては、携帯端末に標準装備されるディスプレイを用いることができる。
上記のように、各時刻tにおいて撮像部2により撮像された撮像画像P1(t)が加工されたものとしての加工画像P2(t)が表示部5に表示されることとなる。従って、ユーザの立場において表示部5は、カメラとしての撮像部2で映像として撮像対象を撮像している際の、いわゆるカメラプレビューのインタフェースを提供するものとなる。
従って、ユーザは、カメラプレビューとしての表示部5による表示を見ることで、ユーザ自身が望んでいるような撮像が行われているかを確認しながら、各時刻tにおいて撮像部2に対して撮像操作U(t)を行うこととなる。本発明においては、カメラプレビューを提供する表示部5が撮像部2で得た撮像画像P1(t)をそのまま表示するのではなく、加工部4によって加工された加工画像P2(t)を表示するようにすることで、次のような効果を奏することができる。すなわち、以下の第一事項と第二事項とを同時に達成するという効果を奏する。
第一事項は、表示部5で表示されている加工画像P2(t)が、特に加工が行われているということを意識していないユーザの立場においては、撮像部2で撮像したそのままの画像であるものと知覚されるものであり、且つ、ユーザ自身が望む形(例えば、ユーザが注目している物品のみにフォーカスした形)で撮像されたものとなることである。第二事項は、認識部3において(加工画像P2(t)ではなく)撮像画像P1(t)を用いて認識を実施することで、撮像対象の高精度な認識を実現することである。
従って、本発明においてはユーザが望む形で撮像がなされている(とユーザが感じることができる)という第一事項と、高精度な認識を実現するという第二事項と、を同時に達成することで、前述した従来技術の課題を解決することができる。すなわち、従来技術においては加工部4を経ての表示部5のプレビュー表示という手法が採用されていないため、撮像画像P1(t)がそのままプレビュー表示され、同時に認識処理の対象ともなることで、ユーザ立場では満足なプレビュー表示が得られ、第一事項は達成されたとしても、認識処理は必ずしも高精度には実現できず、第二事項が必ずしも達成されるわけではなかった。同様に、従来技術では第二事項が達成される場合に必ずしも第一事項が達成されるわけではなかった。これに対して本発明によれば、第一事項と第二事項とを同時に達成可能となる。
上記のように、加工部4では第一事項と第二事項とが同時達成されるような形で撮像画像P1(t)に対する加工処理を行い、加工画像P2(t)を得る。従って、加工画像P2(t)がユーザが所望するようなプレビュー表示を提供するようなものとなっている場合に、撮像画像P1(t)が高精度な認識を実現可能なようなものとなっているように、加工処理を行う。
当該加工処理は模式的には、以下のようなユーザによる撮像操作U(t)をユーザに自発的に行わせるようにする形で行われる。
すなわち、ユーザが撮像を開始した当初の時刻t1において、ユーザが撮像操作U(t1)を特に意識することなく、まずは所望の撮像対象をプレビュー画像内に捉えようとした場合を考えると、従来技術の課題で説明したように、撮像画像P1(t1)は高精度認識を実現するのには好ましい状態ではない場合がある。従って、このような当初の時刻t1では、プレビュー表示の対象としての加工画像P2(t1)を、ユーザが望む状態では撮像されていないように加工処理を行うようにする。
さらに、当初の時刻t1における望ましくない状態のプレビュー表示としての加工画像P2(t1)を見たユーザは、時刻t1以降において撮像操作U(t)を意識的に調整することで、その後の時刻t2において望ましい状態のプレビュー表示としての加工画像P2(t2)を得るようにするという行動を自発的に取る。そこで、当該時刻t2の撮像画像P1(t2)は高精度認識を実現できるようなものとなっていればよい。
以上、当初の時刻t1からその後の時刻t2に至るまでのユーザ行動(撮像操作U(t))の考察より明らかなように、加工部4における加工処理は、撮像画像P1(t)と加工画像P2(t)との関係が以下の3つの(関係1)〜(関係3)を満たすようなものとなるような処理とすればよい。
(関係1)として、上記当初の時刻t1として説明したように、ユーザによる撮像操作U(t1)により撮像画像P1(t1)が高精度認識に不向きな状態である場合には、加工画像P2(t1)がユーザにとっては所望のプレビューとはなっていないような状態とする。
(関係2)として、上記その後の時刻t2として説明したように、ユーザによる撮像操作U(t2)により撮像画像P1(t2)が高精度認識に適した状態である場合には、加工画像P2(t2)も同時に、ユーザが所望するプレビューとなっているような状態とする。
(関係3)として、(関係1)及び(関係2)の中間状態を次のような状態とする。すなわち、上記当初時刻t1からその後の時刻t2に至るまでのユーザ行動として説明したように、撮像した結果として上記の(関係1)が成立してしまっている場合には、ユーザに対して自発的に撮像操作を調整させて、上記の(関係2)を成立させるような撮像操作状態に収束させるよう、ユーザを動機付けることを可能にするように、(関係1)と(関係2)との中間状態における撮像画像P1(t)と加工画像P2(t)との関係を設定するようにする。
なお、上記の(関係3)により、ユーザの撮像操作U(t)において撮像の開始当初から、あるいは撮像の途中において(関係2)が満たされた場合には、ユーザが当該撮像対象を撮像しようとしている限りにおいて(例えば撮像対象としてあるポスターを撮像し続けており、これを終えて別のポスターの撮像へと移行することがないような場合において)、ユーザは(関係2)を満たした状態(撮像操作状態)を保ったままで撮像を継続しようという動機付けを与えられることとなる。ここで、(関係3)に関して「収束」させるようユーザを動機付けると説明したが、「収束」して到達する(関係2)の撮像操作状態は必ずしも1点のみの最適な撮像操作状態として存在する必要はなく、ある程度の範囲を有する撮像操作状態として存在すればよい。
以上、加工部4による加工処理に関して、その「考え方」と共に概念的な説明を行った。以下、加工部4による加工処理の詳細を説明する。なお、上記(関係1)〜(関係3)を述べたが、以下の加工処理の例は(関係1)及び(関係2)を満たすことで自ずと(関係3)も満たすような例となっている。
加工部4では、各種の実施形態によって、撮像画像P1(t)を加工して加工画像P2(t)を得ることができる。図3は、各種の実施形態を実現するための要素構成としての、加工部4の機能ブロック図である。加工部4は、拡大部41、縮小部42、並進部43、明度変換部44を備える。拡大部41では拡大することにより、縮小部42は縮小することにより、並進部43では並進処理を行うことにより、明度変換部44では明度変換処理を行うことにより、それぞれ、撮像画像P1(t)を加工して加工画像P2(t)を得る。
ここで、当該各部41〜44は各実施形態における加工処理を担うものとして、いずれか1つの機能部のみが適用されるようにしてもよいし、2つ以上の任意の機能部の組み合わせによって加工処理を実現してもよい。また、実際に想定される撮像対象に対して、いずれの加工処理をどのようなパラメータによって適用するかについては、管理者等によるマニュアル判断等で事前に設定しておくことができる。
特に、図2で説明した認識部3を構成する記憶部32に対して複数の所定の認識対象の特徴情報を事前登録しておく際に併せて、管理者等が加工部4においていずれの種類(又はその組み合わせ)の加工処理を適用するかを事前登録しておけばよい。なお、どのような加工処理が適切であるかは、認識対象が何であってユーザの撮像操作がどのように実施されうるかに応じて個別具体的に定まるものであり、その具体例については各部41〜44の詳細説明の際に後述する。従って、記憶部32にその特徴情報を記憶させておく一連の認識対象に関しては、共通の加工処理が適切であるような一連の認識対象となるように、記憶部32における事前登録と加工部4における加工処理内容の事前設定とを行うことが好ましい。
すなわち、記憶部32に事前登録しておく情報と連動させる形で、加工部4で行う所定の加工処理は、撮像対象の候補と当該撮像対象の撮像のなされ方の候補(例えば、撮像対象の候補はカタログ紙面であって、認識処理に不適切な撮像として接近しすぎて撮像される傾向にあるか、また逆に、撮像対象の候補はポスターであって、認識処理に不適切な撮像として離れすぎて撮像される傾向にあるか、といった撮像対象及びその撮像のなされ方の候補)とに応じて、予め定まった加工処理とすればよい。
また、事前設定された加工処理をどのようなパラメータによって適用するかに関しては、前述のように認識部3において過去時刻t1の認識結果R(t1)に基づいて現時刻t2における加工部4で適用すべきパラメータを決定するようにしてもよい。
以下、各部41〜44のそれぞれの詳細説明を行う。
図4及び図5は、拡大部41による加工処理としての拡大処理の内容とその効果とを説明するための図である。
ここで、図4に示すように、撮像部2で得られる撮像画像P1(t)はサイズが2Nx×2Nyであるものとする。すなわち、撮像画像P1(t)は横方向に2Nx個、縦方向に2Ny個の画素が並ぶことで、合計2Nx×2Ny個の画素で構成されているものとする。また、図4に座標系xyを示している通り、撮像画像P1(t)の中心が当該xy座標系の原点Oであるものとして、画素位置の説明を行う。当該座標系により例えば、撮像画像P1(t)の4頂点は(±Nx,±Ny)(複号任意)である。(通常、画像の左上端を原点として説明することが多いが、ここでは便宜上、画像の中心を原点に取るものとする。)
図4に示すように、拡大部41では加工処理として拡大を施した加工画像P2(t)を、撮像画像P1(t)の中心O付近の一部分のみを捉えた画像として生成する。すなわち、どの程度を一部分として定めるかの所定割合r(0<r<1)により、サイズ(構成画素数)が2rNx×2rNyであり、4頂点が(±rNx,±rNy)(複号任意)であり、撮像画像P1(t)と同様にx軸、y軸に平行な境界線を有し原点Oを中心とするような矩形画像として、拡大された加工画像P2(t)を生成する。
なお、加工画像P2(t)は撮像画像P1(t)の一部分として構成されることから、(構成画素数は撮像画像P1(t)よりも少なくなってはいるものの、)撮像画像P1(t)の一部分のみに接近して撮影したような内容の画像となるため、「拡大」処理としての加工処理を経たものとなっている。拡大部41ではさらに、解像度を調整して表示部5で表示させる画面領域サイズに合わせたものを加工画像P2(t)として出力するようにしてもよい。例えば、表示部5の表示領域が撮像画像P1(t)と同様にサイズ2Nx×2Nyであれば、解像度をr倍に落とすことによってサイズ2Nx×2Nyにまで引き伸ばしたものを、加工画像P2(t)として出力するようにしてもよい。
従って、図4において灰色で塗った領域として示すような、「ロ」の字型の領域「P1(t)\P2(t)」に関しては、撮像画像P1(t)には捉えられているものの、加工画像P2(t)からは除外されることとなり、表示部5におけるプレビュー表示を眺めるユーザには見えない領域となる。このため、プレビュー表示を眺めるユーザには見えない当該領域「P1(t)\P2(t)」が一方では撮像画像P1(t)の一部分として認識部3においては参照可能となることによって、加工処理の一実施形態として拡大処理を適用した際に、本発明が効果を奏することが可能となる。
拡大による加工処理の効果の概略は次の通りである。ユーザは撮像部2を撮像対象にかざした際、撮像部2で撮像された撮像画像P1(t)が表示部5にプレビューされることを想定しているため、拡大された加工画像P2(t)が表示部5に表示されていると、加工されているとは想定せず、撮像対象に撮像部2を近接させすぎていると誤認する。当該誤認時点においては、(関係1)が成立している。すると、ユーザは自然に撮像対象と撮像部2との距離を離すように動かすことになるため、撮像情報に特徴量が多く含まれるようになり、認識精度が向上する。すなわち、自然と(関係2)が成立する状態へと移行し、且つ、そのような状態を保つようになる。
図5に掲げた例を参照して、上記概略説明した拡大による加工処理の効果の具体例を説明する。図5では[1]に示すように、撮像対象Ob1はショッピングカタログ等におけるページ紙面(の全体)であり、部分的な対象としてテレビ(の画像)Ob2及びソファー(の画像)Ob3を含んでいる場合を例とする。図5において[2]及び[3]として示すのが、加工部4の処理内容を概念的に説明した際の(関係1)及び(関係2)が成立した撮像画像P1(t)及び加工画像P2(t)の例となっている。
すなわち、図5の[2]においては、ユーザが当初時刻t1において撮像操作U(t1)を特に意識することなく、ユーザが興味を有しているテレビOb2のみが映るように撮像部2を掲げる操作を行った結果、撮像画像P1(t1)はほぼテレビOb2のみしか映っていない領域R511を捉えることとなる一方、矢印で示すようにプレビュー表示として現れる拡大された加工画像P2(t1)はテレビOb2が過大に大きく映りすぎ、テレビOb2の全体を捉えきっていないような領域R512で構成されることとなる。
ここで、図5の[2]において、撮像画像P1(t1)の領域R511は管理者等が設定した認識対象Ob1の全体(事前にその特徴情報を算出して記憶部32に記憶させておく対象の全体)の一部分であるテレビOb2近辺しか捉えきれていないので、認識部3における認識には不適切な領域となっている。同時に、加工画像P2(t1)の領域R512はユーザが興味を持つテレビOb2が大きく映りすぎてテレビOb2の一部分しか見えない状態にあるので、プレビュー表示としてユーザが望むような状態にはなっていない。以上より、図5の[2]は前述の(関係1)が成立した状態となっている。
従って、ユーザはテレビOb2の全体が映った所望のプレビュー表示を得るべく、図5の当初時刻t1の[2]の状態から撮像部2を撮像対象より遠ざけるような撮像操作に移り、図5の[3]に示すように以降の時刻t2において、所望のプレビュー表示が実現されるような撮像操作U(t2)の状態に到達する。ここでは、撮像部2を遠ざけたことから、プレビュー表示である加工画像P2(t2)は領域R522として構成され、興味の対象であるテレビOb2の全体を適切に捉えている。同時に、撮像画像P1(t2)は、(ユーザにはその旨が知覚されないまま、)領域R521を捉えるような状態となっており、ユーザが興味を持つテレビOb2の周辺にあり当初時刻t1では写っていなかったソファーOb3も捉えるような状態となっていることから、管理者が想定していた(すなわち、記憶部32にその特徴情報を記憶させていた)ページ紙面Ob1のほぼ全体を捉えるような状態となっている。従って、図5の[3]は前述の(関係2)が成立した状態となっている。
以上、図5に例示したカタログ紙面Ob1のように、拡大部41の適用によれば、認識処理の観点からは撮像対象として広範な領域を撮像することが好ましいにもかかわらず、ユーザの撮像操作としてはその一部分であるテレビOb2やソファーOb3のみにフォーカスして撮像がなされてしまうような場合においても、高精度な認識を実現することが可能となる。カタログ紙面に限らず、参照用に特徴情報を算出しておく認識対象の領域と、ユーザが実際に注目するであろう領域との関係が上記を満たす場合には、全く同様に拡大部41を適用することができる。
なお、カタログ紙面が認識対象である場合(すなわち、情報端末装置1の利用シーンとしてカタログ紙面を認識することが決まっている場合)には、記憶部32には1つ以上のカタログの1つ以上のページをそれぞれ認識対象として登録しておくと共に、加工部4では拡大部41の処理を適用するものとして事前設定しておくことで、複数のページのうちのいずれが撮像部2において撮像されているかを認識結果として得ることができる。
さらに、本発明における拡大による加工処理は次のような追加効果も奏することが可能なものである。
すなわち、図5の例ではユーザが興味を持つ対象をテレビOb2としたが、その画像は大部分が平坦な領域で構成され、従って、認識用の特徴情報(局所画像特徴量)を抽出しようとしても不十分にしか抽出できない(特徴点自体が少ない)例となっている。従来技術においては、このように特徴情報を不十分にしか抽出できないようなテレビOb2等の対象を個別の認識対象として設定したとしても、特徴情報そのものの不足によって認識処理の精度が得られない。しかしながら本発明においては、特徴情報が不足していることから本来的には認識困難であるようなテレビOb2等にユーザが注目している場合であっても、特徴情報を補充するその他の対象としてのソファーOb3等も含めて紙面全体Ob1を認識対象として登録可能であるため、紙面全体Ob1の認識結果を介してその一部分であるテレビOb2の認識結果も得ることが可能となる。
ここで、一実施形態においては、加工部4(拡大部41)と認識部3とが連携することで、上記のように紙面全体Ob1の認識結果を介してさらにその一部分であるテレビOb2にユーザが注目している旨の情報を、認識部3において得るようにすることができる。以下、拡大部41の場合を説明するが、後述する並進部43の場合も、撮像画像P1(t)の一部分の領域として加工画像P2(t)が存在するという所定の関係があるので、当該一実施形態を同様に実施可能である。具体的には、照合部33において前述のように認識結果R(t)として、記憶部32に記憶されているいずれの認識対象が撮像画像P1(t)に撮像されているかに関する結果を得た後、さらに次のようにすればよい。
すなわち、第一処理として、認識結果R(t)における記憶部32に記憶された認識対象の特徴情報のうち、照合部33による照合処理の際に、撮像画像P1(t)の特徴情報と対応関係が設定されたもの(撮像画像P1(t)に実際に映っている特徴情報に相当)を抜粋し、当該抜粋された特徴情報における特徴点の座標分布から、撮像画像P1(t)の占めている領域を推定する。当該領域推定は例えば、当該抜粋された特徴情報における特徴点の座標分布を覆うような矩形領域として推定することができる。すなわち、当該推定される矩形領域は、当該抜粋された特徴情報における特徴点の座標分布をその内部に含むような領域であり、領域を定義する座標は、記憶部32に予め記憶しておく認識対象の特徴情報における特徴点座標において与えられることとなる。なお、座標分布を覆う矩形領域は無数に存在するが、何らかの所定基準で1つの領域に決定すればよい。例えば、無数に存在する矩形領域のうち面積最小となるような領域を推定結果とすればよい。また、面積最小の他さらに、加工画像P2(t)と形状情報(縦・横のサイズ比)が一致するという条件を課してもよい。
さらに、第二処理として、上記のように推定された領域を撮像画像P1(t)の全体領域とみなし、加工部4(拡大部41)において加工処理を適用することでその一部分の領域として加工画像P2(t)を得た際の関係(図4のような、撮像画像P1(t)と加工画像P2(t)との位置関係の情報)をあてはめることで、推定領域全体(撮像画像P1(t)の領域)のうちのどの部分領域が、加工画像P2(t)としてユーザが注目している領域であるかの結果を得ることができる。従って、当該部分領域の特定結果も、記憶部32に予め記憶しておく認識対象の特徴情報における特徴点座標において与えられることとなる。
以上の一実施形態では、加工画像P2(t)の領域に充分な特徴情報が存在しなくとも、ユーザの注目領域として当該加工画像P2(t)の領域の情報を得ることができる。別の一実施形態では、加工画像P2(t)の領域に充分な特徴情報があるものとし、照合部33による照合処理が行われた後にさらに、撮像画像P1(t)の特徴情報のうちの当該加工画像P2(t)の領域にあるものの特徴情報に対して、記憶部32における認識結果としての認識対象の特徴情報において対応関係が設定されたものを特定し、当該対応関係が特定された認識対象の特徴情報の占める座標分布を覆うような領域を加工画像P2(t)の領域として推定してもよい。座標分布を覆う領域の決定は上記実施形態と同様に可能である。
図6及び図7は、縮小部42による加工処理としての縮小処理とその効果とを説明するための図である。
ここで、図6に示すように、撮像部2で得られる撮像画像P1(t)はサイズが2Nx×2Nyであり、その中心Oが原点となるように座標系xyを取り、4頂点は(±Nx,±Ny)(複号任意)であるものとする。すなわち、撮像画像P1(t)や加工画像P2(t)の説明のために、図4で説明したのと全く同様の座標系を用い、撮像画像P1(t)のサイズ等に関しては図4の場合と同一とする。
図6に4本の点線を描いて示すように、縮小部42では縮小処理として、撮像画像P1(t)を所定割合r(0<r<1)倍することで縮小した画像として、加工画像P2(t)を得る。すなわち、加工画像P2(t)はサイズが2rNx×2rNyであり、中心を原点Oとし、4頂点は(±rNx,±rNy)(複号任意)となる。なお、縮小の割合rは拡大処理について説明した図4と共通の文字rを用いているが、拡大の場合のrと縮小の場合のrとが同一である必要はない。また、縮小処理によって得られる加工画像P2(t)には、(拡大処理の場合とは異なり)当初の撮像画像P1(t)に映っていた範囲の全体が映っており、撮像画像P1(t)に対して画素が一律にr倍に減るように間引かれたものが縮小された加工画像P2(t)である。
縮小による加工処理の効果の概略は次の通りである。ユーザは撮像部2を認識対象にかざした際、撮像部2で撮像された撮像画像P1(t)が表示部5にプレビューされることを想定しているため、縮小された加工画像P2(t)が表示部5に表示されていると、加工されているとは想定せず、撮像対象から撮像部2を離しすぎていると誤認する。すると、ユーザは自然に撮像対象と撮像部2との距離を縮めるように動かすことになるため、撮像情報に特徴量が多く含まれるようになり、認識精度が向上する。
図7に掲げた例を参照して、上記概略説明した拡大による加工処理の効果の具体例を説明する。図7の例では[1]に示す撮像対象Ob4は例えばポスターであり、その貼られてている箇所の事情等でユーザによって撮像される場合には遠くから撮像される傾向があるものとする。従って、[2]に示すように当初時刻t1ではユーザはポスターOb4を遠くから撮影し、撮像画像P1(t1)が領域R711を占めることとなるが、この場合、プレビュー表示としての加工画像P2(t1)は縮小されて小さな領域R712として構成されることとなる。そこで、プレビュー表示として領域R712を見たユーザは小さく遠いものと感じ、時刻t1以降で撮像部2をポスターOb4により近づけるような撮像操作U(t)を行うこととなる。
こうして、図7の[3]に示すように、その後の時刻t2ではポスターOb4により近接した範囲R721を占めるものとして撮像画像P1(t2)が得られると共に、プレビュー表示の加工画像P2(t2)は範囲R721を縮小した範囲R722を占めるようになり、ポスターOb4が小さすぎることは解消しているので、ユーザにとっても遠いとは感じない状態となっている。
以上の図7の[2],[3]の例も、前述の(関係1)、(関係2)を成立させたものとなっている。すなわち、[2]では範囲R711として構成される撮像画像P1(t1)は認識対象であるポスターOb4が管理者等が事前登録した際のものと比べて小さすぎるため、管理者等が事前登録した特徴点のうち解像度不足により算出不能となってしまうものが存在し、認識処理に不向きな状態で映っており、また、範囲R712として構成される加工画像P2(t1)はポスターOb4が小さすぎ、ユーザの所望するようなプレビュー表示とはなっていない。従って、[2]は(関係1)に該当するものであり、これが解消されたものとしての[3]は(関係2)に該当するものとなっている。
図8及び図9は、並進部43による加工処理としての並進処理とその効果とを説明するための図である。
ここで、図8に示すように、撮像部2で得られる撮像画像P1(t)はサイズが2Nx×2Nyであり、その中心Oが原点となるように座標系xyを取り、4頂点は(±Nx,±Ny)(複号任意)であるものとする。すなわち、撮像画像P1(t)や加工画像P2(t)の説明のために、図4で説明したのと全く同様の座標系を用い、撮像画像P1(t)のサイズ等に関しては図4の場合と同一とする。
図8に並進処理がなされた加工画像P2(t)を示す通り、並進処理は、撮像画像P1(t)の中心(原点O)に対して、加工画像P2(t)の中心Cを移動させる処理として構成される。すなわち、撮像画像P1(t)の一部分の矩形領域として、中心Cが原点Oからずれているような領域を抽出することで、並進処理が加えられた加工画像P2(t)が得られる。
従って、並進処理は図4で説明したのと同様の拡大処理(撮像画像P1(t)のうちの一部の割合rを占める領域のみに加工画像P2(t)を限定する処理)に対してさらに、中心位置の移動を施した処理とみることもできる。拡大処理の場合と同様に、領域「P1(t)\P2(t)」に関しては、撮像画像P1(t)には捉えられていることにより認識精度の向上に寄与するが、加工画像P2(t)からは除外されることとなり、表示部5におけるプレビュー表示を眺めるユーザには見えない領域となる。
なお、図9を参照して後述する通り、加工画像P2(t)をプレビューとして表示することにより、ユーザにおける撮像操作U(t)の修正は、ユーザに対して適切なプレビュー表示を得るために図8に示すベクトルVの向きに撮像部2を移動させることを動機付けるという形で実現される。ここで、図8に示す通り、ベクトルVは加工画像P2(t)の中心Cから撮像画像P1(t)の中心Oへと向かうベクトルである。
並進(画像中心位置の移動)による加工処理の効果の概略は次の通りである。撮像部2が表示部5の中心からずれて設置されている状況で、ユーザが表示部5を撮像対象の正面にかざした際、撮像部2で撮像された撮像画像P1(t)が表示部5にプレビューされることを想定しているため、撮像対象のずれを強調する方向(図8のベクトルVの方向)へ並進された加工画像P2(t)が表示部5に表示されていると、加工されているとは想定せず、撮像対象から撮像部2が大きくずれていると誤認する。すると、ユーザは自然に撮像対象と撮像部2との位置関係を正対させるように動かす(図8のベクトルVの方向へと動かす)ことになるため、撮像画像P1(t)に特徴量が多く含まれるようになり、認識精度が向上する。例えば、スマートフォン等で撮像部2が表示部5背面の右端に設置されている場合、表示部5自体を撮像対象の正面にかざしてしまうと、撮像情報には撮像対象が左寄りに撮像されるので右へのずれを強調するよう並進させることが望ましい。
図9に掲げた例を参照して、上記概略説明した並進による加工処理の効果の具体例を説明する。図9では[1]に示すように撮像対象は図4の[1]におけるとの同様の、ポスターOb1全体であり、その部分構成としてテレビOb2及びソファーOb3が含まれているものとする。そして、図4の例と同様に、図9においてもユーザはテレビOb2が興味の対象であるため、認識精度の観点からはポスターOb1の全体が撮像されるべきであるにもかかわらず、ユーザはテレビOb2のみを撮像しようとする傾向にあるものとする。
従って、図9の[2]に示すように、当初時刻t1においてユーザは撮像画像P1(t1)がほぼテレビOb2のみしか捉えられていないような範囲R911を占めるように撮像を行う。この結果、図8で示した並進処理(ベクトルVとは逆に、OからCへの左下向きの並進処理)が適用され、プレビューとしての加工画像P2(t1)は領域R912を占めるが、これはテレビOb2が(左下向きの並進処理とは逆に)右上にずれて画像外にはみ出す形の領域となっている。
従って、時刻t1以降においてユーザは当該右上にはみ出たプレビューを修正するよう右上に撮像部2を動かすこととなり、その結果、時刻t2において図9の[3]に示すように、撮像画像P1(t2)はテレビOb2が左下に捉えられると共にソファーOb3も右上に捉えられ、ポスターOb1の全体をほぼ捉えた領域R921を占めるようになる。この際、プレビュー表示である加工画像P2(t2)は領域R922を占め、ユーザが所望する通りのテレビOb2を中央に捉えた状態となっている。
以上、図9の[2],[3]の例も(関係1)、(関係2)をそれぞれ成立させたものとなっていることは、同一の対象であるポスターOb1について説明した図4の[2],[3]に関して説明したのと同様である。また、図9の[2],[3]の例より明らかなように、並進処理の向き(図8におけるベクトルVの逆ベクトルの向き)は、ユーザが偏って撮像することが想定される向きと同一に設定することが好ましい。
明度変換部44では、明度変換により撮像画像P1(t)の階調よりも加工画像P2(t)の階調を強調するように、または、低減するように、加工処理を行う。なお、明度変換部44においては、以上の各部41〜43のように撮像画像P1(t)に対して加工画像P2(t)の占める領域を変化させたり、サイズを変化させたりする必要はない。撮像画像P1(t)がサイズ2Nx×2Nyであれば、明度変換された加工画像も同様のサイズ2Nx×2Nyでよい。
明度変換部44によって加工画像P2(t)を得るようにした場合は、次の効果が得られる。すなわち、鏡面反射や光量の過不足等によって撮像画像P1(t)の階調が損なわれ、当該領域の特徴点が失われている状況で、ユーザが撮像部2を撮像対象にかざした際、撮像部2で撮像された撮像画像P1(t)が表示部5にプレビューされることを想定しているため、階調を強調する明度変換された加工画像P2(t)が表示部5に表示されていると、加工されているとは想定せず、光量や光源が不適切であると誤認する。すると、ユーザは自然と光量や光源を修正するように動かすことで撮像操作U(t)を修正することになるため、撮像画像P1(t)に特徴量が多く含まれるようになり、認識精度が向上する。
なお、光源が強すぎる等で白とび等が発生するような状況が想定される場合、階調を強調するように(すなわち、白とび等がさらに強調されるように)、逆に、光源が弱く薄暗いためにぼやけてしまうような状況が想定される場合、階調を低減するように(すなわち、さらにぼやけてしまうように)、明度変換部44において所定パラメータにて明度変換処理を行うようにすることが好ましい。いずれの場合も、(損なわれる原因が逆ではあるが、)階調が損なわれている環境において撮像がなされる場合に、ユーザに対して階調が損なわれている旨をより強調して知覚させることにより、階調を損なうことのないように撮像をし直すことをユーザに促すことができる。
上記のように、明度変換においてもユーザの撮像操作の修正前後において(関係1)及び(関係2)が成立している。
以上、本発明によれば、撮像対象を撮像部2で撮像することで撮像対象を高精度に認識することができる。特に、撮像画像P1(t)ではなく加工画像P2(t)をユーザに対するプレビュー表示に用いることにより、ユーザに対して自発的に認識処理に適した撮像画像P1(t)が取得されるような状態で撮像部2を用いた撮像を行うように促すことが可能となるため、高精度な認識が可能となる。
以下、本発明におけるその他の実施形態等の補足事項を説明する。
(1)加工処理におけるパラメータの設定(例えば図4の拡大処理における拡大率1/r)に関しては、管理者等が予め設定しておいたものを用いればよいが、撮像がなされる実環境に適したパラメータを具体的に管理者等が予め定めるためには、例えば次のようにすればよい。
具体的には、記憶部32に登録しておく認識対象の特徴点の数、寸法、種別が利用できる。特徴点の数を利用する場合、拡大縮小の倍率を特徴点の数に反比例させることが望ましい。例えば、特徴点が少ないほど撮像対象を大きく拡大する。撮像対象の寸法を利用する場合、拡大縮小の倍率を寸法に比例させることが望ましい。例えば、小さい撮像対象は縮小することで撮像情報に撮像対象が大きく写るように誘導し、大きい撮像対象は拡大することで撮像情報に撮像対象の全体が写るように誘導する。撮像対象の種別を利用する場合、拡大縮小の倍率を想定される撮像距離に比例させることが望ましい。例えば、撮像距離が長いと想定される撮像対象(ポスター等の固定されて動かせないもの)は縮小し、撮像距離が短いと想定される撮像対象(カタログ等の手に取って撮像できるもの)は拡大することが望ましい。
また、上記のような認識対象の特徴点の数、寸法、種別に関しては、記憶部32に記憶させておく一連の認識対象のそれぞれにおいて同一あるいはほぼ同じであるものとし、典型値としての特徴点の数、寸法、種別を固定的に利用するようにすればよい。すなわち、例えば、遠くで撮影されることが想定されるポスター群と近くで撮影されることが想定されるカタログページ群とを同時に記憶部32には登録しないようにすることが好ましい。
同様に、認識部3において認識するため記憶部32に記憶しておく対象を事前に、その撮像のなされ方の共通性に基づいてグループ分けしておき、ユーザが撮像して認識を行う場合にはいずれのグループを対象として認識を行うかを事前に指定し、当該グループに応じた共通の加工処理を行うようにしてもよい。すなわち、上記の例であればポスター群とカタログページ群とのいずれのグループに対して認識が行われるかは事前知識として情報端末装置1に与えておき、当該グループに適した所定の加工処理を行うようにしてもよい。
あるいは、利用者の撮像方法の傾向に応じて画像変換処理のパラメータを変更させるよう、認識部3において前述のような加工指示I(t)を生成するようにしてもよい。具体的には、認識部3で認識されることが想定される本来の認識対象と認識後に撮像情報に含まれる撮像対象とを比較し、当該ユーザの当初時刻t1における撮像傾向に応じたパラメータを求めておき、次回以降の撮像時に相違を補正するようパラメータを設定することが望ましい。
(2)情報端末装置1がその各部(図1、図2、図3で説明した各部)を実現するためのハードウェア構成に関しては、通常のコンピュータにおけるハードウェア構成を採用することができる。
すなわち、図1〜図3の各部を実現する情報端末装置1のハードウェア構成としては、スマートフォンやタブレット端末といったような携帯端末の他、デスクトップ型、ラップトップ型その他の一般的なコンピュータの構成を採用することができる。すなわち、CPU(中央演算装置)と、CPUにワークエリアを提供する一時記憶装置と、プログラム等のデータを格納する二次記憶装置と、各種の入出力装置と、これらの間でのデータ通信を担うバスと、を備える一般的なコンピュータのハードウェア構成を採用できる。CPUが二次記憶装置に格納されたプログラムを読み込んで実行することで、図1〜図3の各部が実現される。本発明はこのようなプログラムとしても提供可能である。なお、各種の入出力装置としては、画像取得するカメラ、表示を行うディスプレイ、ユーザ入力を受け取るタッチパネルやキーボード、音声を入出力するマイク・スピーカ、外部と有線・無線にて通信を行う通信インタフェース、といったものの中から必要機能に応じたものを利用することができる。
(3)認識部3については、図2の要素構成により局所画像特徴量に基づく認識を行う場合を説明したが、文字認識、QRコード(登録商標)等のコード認識、テンプレートマッチング等のその他の周知の各種の認識を行う場合も図2の要素構成と同様にして認識を行うことができる。すなわち、算出部31で撮像画像P1(t)から求める特徴情報F(t)を当該各種の認識処理において用いられているものに置き換えるようにすればよい。また、記憶部32においても記憶させておく特徴情報を当該各種の認識処理において用いられているものに置き換えるようにすればよい。照合部33においても、照合処理を当該各種の認識処理においてなされる照合処理におけるものに置き換えるようにすればよい。
(4)図1等の各部の処理に関しては、各時刻tにおいてなされるものとして説明した。当該各時刻tは、所定レートでリアルタイム処理されるような各時刻であればよい。また、ユーザが指定した時刻tのみにおいて図1等の各部の全部あるいは一部の処理がなされるようにしてもよい。例えば、認識部3の処理は、適切なプレビュー表示が得られたとユーザ自身が判断し、情報端末装置1にその旨を指定した時点で、あるいは当該指定された時点以降で行うようにしてもよい。
(5)以上の説明においては、撮像部2の撮像サイズ(撮像素子の縦横配列の個数)と、表示部5の表示サイズ(表示素子の縦横配列の個数)とが、例えば図4,6,8等を参照してサイズNx×Ny等として説明したように、互いに共通であることを前提としていた。ここで、撮像部2の撮像サイズと表示部5の表示サイズとが異なる場合は、撮像部2で得た撮像画像P1(t)を解像度変換して、表示部5の表示サイズに合わせたものを、以上の説明における「撮像画像P1(t)」とみなして、本発明を適用するようにしてもよい。
すなわち、図1において撮像部2と加工部4との間にさらに不図示の機能部である解像度変換部を設け、当該解像度変換部によって表示部5のサイズに合わせたものを、以上説明したような加工部4における処理対象としてもよい。情報端末装置1において(本発明とは関係なく)プレビュー機能を利用するに際して、撮像サイズと表示サイズが異なっていることによりこのような解像度変換部が標準適用されるようになっている場合、さらに本発明を適用するに際しては、当該標準適用により解像度変換済みである撮像画像P1(t)を対象に以上の加工部4の処理を適用してよい。
例えば、撮像部2の撮像サイズが800×600で、表示部5の表示サイズが400×300である場合に、縮小部42において1/2倍に縮小する実施形態を適用する場合、次のようにしてもよい。すなわち、サイズ800×600で得た撮像画像P1(t)を表示部5の表示サイズに合わせるべく解像度を1/2に落として400×300としたものを縮小部42の縮小処理の対象とし、さらにサイズ200×150としたものを加工画像P2(t)として得るようにしてよい。
逆に、同じく撮像サイズが800×600で、表示サイズが400×300である場合に、拡大部41において1/2の部分領域(図4にてr=1/2とした際の部分領域P2(t))のみを表示させる実施形態を適用する場合、撮像サイズ800×600から1/2の部分領域を切り取ったものはサイズ400×300であり表示サイズに一致するので、解像度変換を経ることなく拡大部41の処理を適用することもできる。
(7)拡大部41における別の実施形態として、図4で説明したように撮像画像P1(t)の一部分のみを切り取ったものを加工画像P2(t)とするのではなく、撮像画像P1(t)の全体をそのまま所定倍率で拡大したものを加工画像P2(t)とするようにしてもよい。なお、当該別の実施形態は図6で説明した縮小部42を、r>1となるような倍率rで適用することに相当する。効果として、拡大部41の以上説明した実施形態と同様に、ユーザに対しては撮像画像P1(t)が大きすぎ、撮像対象に対して接近しすぎているように誤認させ、撮像対象をより遠くで撮像しようという行動を促すことができる。
なお、拡大部41で上記の別の一実施形態を適用する場合は、撮像サイズの方が表示サイズよりも小さく、標準のプレビュー表示では解像度変換を適用せずに、表示サイズ全体の一部分のみに撮像画像が配置される状態にあることが好ましく、当該一部分のみに配置されていた撮像画像を拡大部41の加工処理によってさらに大きく配置することで、ユーザに上記のような行動を促すことができる。
(8)縮小部42の別の一実施形態として、図6で説明したように撮像画像P1(t)を縮小して加工画像P2(t)を得るのではなく、撮像画像P1(t)には縮小処理は加えず、所定パラメータで糸巻き型の歪みを加えたものを加工画像P2(t)とするようにしてもよい。例えば、画像中心に向けて所定割合だけ収縮させるようにすることで、撮像するユーザに対して縮小処理の実施形態の場合と概ね同様に、撮像対象が遠くにあると誤認させるようにすることができる。さらに、縮小処理と糸巻き型の歪みを加える処理とを組み合わせるようにしてもよい。