JP6750046B2

JP6750046B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP6750046B2
Application number: JP2018565967A
Authority: JP
Inventors: 直之中尾; 快星長尾; 翔太浜松; 義勝金丸; 将彦櫻井
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2017-01-31
Filing date: 2017-12-05
Publication date: 2020-09-02
Anticipated expiration: 2037-12-05
Also published as: JPWO2018142756A1; WO2018142756A1; US10977510B2; CN110192386A; EP3557861A4; US20190370593A1; EP3557861A1; CN110192386B

Description

本発明は、画像を認識するための技術に関する。

特許文献１には、学習画像を用いて認識対象画像の認識を行う第１の認識部と、第１の認識部によって認識対象画像の認識に失敗した場合に、第１の認識部より精細な精度で認識対象画像の認識を行う第２の認識部とを備え、第２の認識部によって認識対象画像の認識に成功した場合に、認識に成功した認識対象画像に関する情報を学習画像として登録することが開示されている。

特開２０１５−４６０７１号公報

ところで、制約の無い実世界シーンの画像に対する画像認識の分野においては、カテゴリ分類と物体検出という認識技術がある。カテゴリ分類は、一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識するに留まり、その物体が画像中のどこにあるかまでは特定しないというものである。一方、物体検出は、特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体の画像中の位置（さらには物体の輪郭）まで特定するものである。

物体検出はカテゴリ分類よりも困難であることが知られているが、その理由として、例えば、物体群には多くのカテゴリが存在すること、物体の位置又は姿勢が不定であること、照明変動があること、スケールが不定であること、物体が変形することなどが挙げられる。

本発明は、このような事情に鑑みてなされたものであり、画像認識において物体検出が可能となる確率を向上させることを目的とする。

本発明は、撮像画像に含まれる物体の位置を認識する物体認識部と、撮像画像に含まれる物体が属するカテゴリを認識するカテゴリ認識部と、前記物体認識部による認識がされず前記カテゴリ認識部による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させる認識制御部とを備えることを特徴とする情報処理装置を提供する。

前記カテゴリ認識部は、撮像画像に含まれる物体が属するカテゴリを認識する第１カテゴリ認識部と、撮像画像に含まれる物体が属するカテゴリを認識する第２カテゴリ認識部であって、前記第１カテゴリ認識部が認識可能なカテゴリとは異なるカテゴリについて認識を行う第２カテゴリ認識部とを含み、前記認識制御部は、前記物体認識部及び前記第１カテゴリ認識部による認識がされず前記第２カテゴリ認識部による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させるようにしてもよい。

前記認識制御部は、前記ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に対して、当該撮像画像における前記物体の位置を指定する画像を当該撮像画像中に表示するよう指示することで、前記ユーザに対して撮像の方法を案内するようにしてもよい。

前記認識制御部は、前記物体を模した画像を前記撮像画像に重畳して表示するよう撮像表示装置に指示することで、前記ユーザに対して撮像の方法を案内するようにしてもよい。

前記物体認識部により物体の位置が認識された場合には、当該物体に応じた合成画像を、前記撮像画像において認識された当該物体の位置に応じて合成するよう、前記ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に指示し、前記カテゴリ認識部によりカテゴリが認識された場合には、前記撮像画像において前記カテゴリに応じた合成画像を合成するよう前記撮像表示装置に指示する画像合成指示部を備えるようにしてもよい。

また、本発明は、撮像画像に含まれる物体の位置の認識を試みるステップと、撮像画像に含まれる物体が属するカテゴリの認識を試みるステップと、前記物体の位置が認識されず、前記物体が属するカテゴリが認識された場合に、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像に含まれる物体の認識を試みるステップとを有する情報処理方法を提供する。

本発明によれば、画像認識において物体検出が可能となる確率を向上させることができる。

本発明の一実施形態に係る情報処理システムの構成を例示する図である。撮像表示装置のハードウェア構成の一例を示すブロック図である。情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置に記憶されている合成画像決定テーブルの一例を示す図である。情報処理システムの機能構成の一例を示すブロック図である。情報処理システムの動作手順の一例を示すフローチャートである。情報処理装置の画像認識手順の一例を示すフローチャートである。撮像表示装置における表示の一例を説明するための図である。撮像表示装置における表示の一例を説明するための図である。

１…情報処理システム、１０…情報処理装置、１１…画像認識部、１２…第１合成画像決定部、１３…画像合成指示部、２０…撮像表示装置、２１…撮像部、２２…第２合成画像取得部、２３…画像データ生成部、２４…表示部、９０…ネットワーク、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…補助記憶装置、１０５…通信ＩＦ、２０１…ＣＰＵ、２０２…ＲＡＭ、２０３…ＲＯＭ、２０４…補助記憶装置、２０５…通信ＩＦ、２０６…カメラ、２０７…ＵＩ装置。

以下、図面を参照して、本発明の一実施形態について説明する。
［構成］
図１は、本発明の一実施形態に係る情報処理システム１の構成を例示する図である。情報処理システム１は、画像の認識を行う情報処理装置１０と、画像の撮像及び表示を行う撮像表示装置２０と、これら情報処理装置１０及び撮像表示装置２０を通信可能に接続するネットワーク９０とを備えている。ネットワーク９０は、例えばＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいてもよい。なお、図１には、情報処理装置１０及び撮像表示装置２０を１つずつ示しているが、これらはそれぞれ複数であってもよい。

図１のような構成の情報処理システム１の概要について説明する。情報処理装置１０は、撮像表示装置２０による撮像画像を取得し、その撮像画像に対して画像認識を行う。そして、情報処理装置１０は、撮像表示装置２０に対して、画像認識結果に応じて異なる合成画像（第１合成画像という）を上記撮像画像に合成し、さらにその第１合成画像に対する所定の位置に、第１合成画像とは異なる合成画像（第２合成画像という）を合成するよう指示する。例えば、撮像表示装置２０により風景が撮像された場合（後述する図８（Ａ））、その風景に応じた第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される（図８（Ｂ））。この第１合成画像Ｇ１における所定の位置、ここでは第１合成画像Ｇ１が表す人間の頭部に相当する領域Ｇ２は、ブランクになっている。ユーザが撮像表示装置２０を用いて自身の顔を撮像すると（図８（Ｃ））、第１合成画像Ｇ１の領域Ｇ２に対して、撮像された顔の画像が第２合成画像Ｇ３として合成される（図８（Ｄ））。このようにすると、撮像表示装置２０に表示されている風景画像に対し、ユーザ自身の顔を持つ人間のキャラクタ画像が走っている様子が動画として合成されることになり、ユーザはこれらの画像の組み合わせや動きの面白さを見て楽しむことができる。

情報処理装置１０の画像認識機能には、物体認識機能というものと、カテゴリ認識機能というものがある。さらに、カテゴリ認識機能は、第１カテゴリ認識機能及び第２カテゴリ認識機能という２種類の機能を含む。物体認識機能は、制約の無い実世界シーンの画像に対する画像認識分野において、物体検出又は特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体の画像中の位置（さらにはその物体の輪郭）を特定するものである。物体認識機能は、例えば画像の局所的な特徴抽出を行い、その抽出結果に対して統計学習手法を用いることで実現される。本実施形態において物体認識は、どのような物体が画像中のどこにあるかを認識してその画像認識結果に応じた位置に、物体に応じた合成画像を表示するために用いられる。

カテゴリ認識機能は、制約の無い実世界シーンの画像に対する画像認識分野において、カテゴリ分類又は一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識する（以下では単に、カテゴリを認識する、と表現する）に留まり、その物体が画像中のどこにあるかまでは特定しないというものである。カテゴリ認識機能は、例えば画像の特徴抽出を行ってベクトル量子化ヒストグラムを算出し、その算出結果を予め用意されたカテゴリ別のヒストグラムに当てはめることで実現される。本実施形態において第１カテゴリ認識機能は、画像中の物体が属するカテゴリを認識してその画像認識結果に応じた合成画像を表示するために用いられるものであり、予め決められた第１カテゴリグループに属する物体についてカテゴリ認識を行う。第２カテゴリ認識機能は、画像中の物体が属するカテゴリを認識するための認識アルゴリズムが第１カテゴリ認識機能と共通であるが、第１カテゴリグループとは異なる、予め決められた第２カテゴリグループに属する物体についてカテゴリ認識を行う。つまり、第１カテゴリ認識機能がカバーするカテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとは異なっている。

第１カテゴリグループは、カテゴリ認識がなされることを目的とした物体の集合であり、どの物体が第１カテゴリグループに属するかについては任意に決めることができるが、本実施形態では例えば車両や人などの物体の集合である。第２カテゴリグループは、カテゴリ認識を経て最終的に物体認識がなされることを目的とした物体の集合であり、どの物体が第２カテゴリグループに属するかについては任意に決めることができるが、本実施形態では例えば企業が消費者に対して発行するポイントカードや企業のロゴなどの物体である。

情報処理装置１０は、撮像表示装置２０から取得した撮像画像が物体認識機能により認識された場合には、その画像認識結果に応じた位置にその画像認識結果に応じた合成画像を表示するよう、撮像表示装置２０に指示する。また、情報処理装置１０は、撮像表示装置２０から取得した撮像画像が物体認識機能により認識されず第１カテゴリ認識機能により認識された場合には、その画像認識結果に応じた合成画像を表示するよう撮像表示装置２０に指示する。そして、情報処理装置１０は、撮像表示装置２０から取得した撮像画像が物体認識機能及び第１カテゴリ認識機能により認識されず、第２カテゴリ認識機能により認識された場合には、ユーザに対して、物体認識が可能なような撮像方法を案内し、その案内に従って撮像された撮像画像に対して再度、物体認識機能に認識を試みさせる。この結果、撮像画像が物体認識機能により認識された場合には、情報処理装置１０は、その画像認識結果に応じた位置にその画像認識結果に応じた合成画像を表示するよう、撮像表示装置２０に指示する。

上記のように、第１カテゴリ認識機能がカバーする第１カテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとを分けている理由は、第１カテゴリグループがカテゴリ認識さえ実現すれば足りるのに対し、第２カテゴリグループは最終的に物体認識まで実現したいというように、各グループについての画像認識の目的が異なるからである。つまり、第２カテゴリグループに属する物体は、本来は物体認識を目的としたものであるが、撮像画像において物体の位置又は姿勢が不定であったり物体が変形したりするなどの理由から、物体認識機能によって正しく認識できない場合がある。このような場合において、案内された撮像方法に従ってユーザが撮像画像における物体の位置又は姿勢や形状を整えることで、物体認識を可能とする。つまり換言すれば、物体認識機能がカバーする物体群と、第２カテゴリ認識機能がカバーする物体群とは、少なくとも一部が重複していると言える。

また、第１カテゴリ認識機能がカバーする第１カテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとを統合して１つのカテゴリグループとして構成してしまうと、カテゴリ認識の精度が悪化するため、これら両グループを分けているという理由もある。

次に、情報処理システム１の構成について詳細に説明する。図２は、撮像表示装置２０のハードウェア構成を例示する図である。撮像表示装置２０は、ユーザの操作に応じて撮像を行い且つ撮像画像を表示する装置であり、例えばスマートホン又はタブレット或いはウェアラブル端末などの通信可能なコンピュータである。撮像表示装置２０は、ＣＰＵ２０１（Central Processing Unit）、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３、補助記憶装置２０４、通信ＩＦ２０５、カメラ２０６、ＵＩ装置２０７を有する。ＣＰＵ２０１は、各種の演算を行うプロセッサである。ＲＯＭ２０２は、例えば撮像表示装置２０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ２０３は、ＣＰＵ２０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリである。補助記憶装置２０４は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）などの不揮発性の記憶装置であり、撮像表示装置２０において用いられるプログラム及びデータを記憶する。ＣＰＵ２０１がこのプログラムを実行することにより撮像表示装置２０はコンピュータ装置として機能し、後述する図５に示される機能が実現される。通信ＩＦ２０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。この通信規格は、無線通信の規格であってもよいし、有線通信の規格であってもよい。無線の場合、通信ＩＦ２０５は、例えばＬＴＥ（Long Term Evolution）又はＷｉ−Ｆｉ（登録商標）等の通信規格で動作するアンテナ及び通信回路を備えている。カメラ２０６はレンズ及び光学素子を含み、撮像した画像を示す画像データを生成する。カメラ２０６は、撮像表示装置２０の表側に設けられたインカメラと、撮像表示装置２０の裏側に設けられたアウトカメラとを含む。インカメラは主にユーザ自身を撮像するときに用いられ、アウトカメラは主にユーザ自身以外の風景等を撮像するときに用いられる。ＵＩ装置２０７は、例えばキー及びタッチセンサなどの操作子が設けられた操作部と、例えば液晶パネル及び液晶駆動回路などの表示部と、例えばスピーカ又はイヤホン用端子などの音声出力部とを含む。なお、撮像表示装置２０は、図２に例示した構成以外に、例えばＧＰＳ（Global Positioning System）ユニット又はジャイロセンサ或いは加速度センサなどの他の構成を含んでいてもよい。

図３は、情報処理装置１０のハードウェア構成を例示する図である。情報処理装置１０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、補助記憶装置１０４、及び通信ＩＦ１０５を有するコンピュータ装置である。ＣＰＵ１０１は、各種の演算を行うプロセッサである。ＲＯＭ１０２は、例えば情報処理装置１０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ１０３は、ＣＰＵ１０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリある。補助記憶装置１０４は、例えばＨＤＤ又はＳＳＤなどの不揮発性の記憶装置であり、情報処理装置１０において用いられるプログラム及びデータを記憶する。ＣＰＵ１０１がこのプログラムを実行することにより、後述する図５に示される機能が実現される。通信ＩＦ１０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。情報処理装置１０は、図３に例示した構成以外に、例えばＵＩ装置などの他の構成を含んでいてもよい。

補助記憶装置１０４には、画像認識を行う画像認識アルゴリズム及び、前述した第１合成画像を撮像表示装置２０において表示するための第１合成画像データ群のほか、撮像表示装置２０においてどの第１合成画像を表示するかを決定するための合成画像決定テーブルが記憶されている。

図４は合成画像決定テーブルを例示する図である。合成画像決定テーブルには、画像認識機能の種別と、画像認識結果と、第１合成画像を識別するための第１合成画像ＩＤと、第１合成画像の表示位置とが対応付けられている。図４では、情報処理装置１０の画像認識の結果、画像中の物体について例えば「橋」というカテゴリ認識できた場合に、分類したカテゴリに応じた第１合成画像ＩＤ「Ｃ００１」の第１合成画像がその画像中の絶対座標Ｘ１，Ｙ１に表示されるように規定されている。ここでいう絶対座標とは、撮像表示装置２０の表示領域において予め規定されたＸＹ座標軸に従う座標である。つまり、この例の場合、第１合成画像は、画像中の「橋」という物体の位置に関係なく、撮像表示装置２０の表示領域において絶対座標で指定された位置（例えば表示領域の中心部分）に合成される。

また、情報処理装置１０の画像認識の結果、画像中の物体について例えば「建物」というカテゴリ及び「時計台」と固有名詞とその画像中の位置について物体認識ができた場合には、その物体（カテゴリ又は固有名詞）に応じた第１合成画像ＩＤ「Ｃ０２０」の第１合成画像が相対座標ｘ１，ｙ１に表示されるように規定されている。ここでいう相対座標とは、検出された「時計台」という物体を基準として規定されたｘｙ座標軸（例えば物体の重心を原点としてその物体のサイズに応じた単位の目盛を持つｘｙ座標軸）に従う座標である。この例の場合、第１合成画像は、画像中の「時計台」という物体の位置に対して相対座標で指定された位置に合成されるから、画像中の「時計台」という物体の位置に応じて第１合成画像の表示位置は異なることになる。例えば、図８（Ｂ）に示すように、第１合成画像Ｇ１は「時計台」という物体に対して、その屋根部分の重力方向上方の位置に常に表示される。

なお、補助記憶装置１０４に記憶されている各第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。例えば第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される場合（図８（Ｂ））、この第１合成画像Ｇ１において人間の頭部に相当する領域Ｇ２の位置を所定の位置として指定するデータが、この第１合成画像データに含まれている。

図５は、情報処理システム１の機能構成を示すブロック図である。図５に示すように、撮像表示装置２０においては、画像を撮像する撮像部２１と、第２合成画像を取得する第２合成画像取得部２２と、撮像部２１により撮像された画像に対して第１合成画像及び第２合成画像を合成した画像データを生成する画像データ生成部２３と、画像データ生成部２３により生成された画像データに応じた画像を表示する表示部２４とが実現される。

情報処理装置１０においては、撮像部２１により撮像された画像を認識する画像認識部１１と、画像認識部１１による認識結果に応じて異なる第１合成画像を決定する第１合成画像決定部１２と、第１合成画像決定部１２により決定された第１合成画像を撮像部２１により撮像された画像に合成し、当該画像に合成された第１合成画像に対する所定の位置に第２合成画像を合成するよう撮像表示装置２０に指示する画像合成指示部１３とが実現される。

画像認識部１１は、物体認識部１１１と、第１カテゴリ認識部１１２１及び第２カテゴリ認識部１１２２を含むカテゴリ認識部１１２と、認識制御部１１３とを含む。物体認識部１１１は前述した物体認識機能を実現し、第１カテゴリ認識部１１２１は前述した第１カテゴリ認識機能を実現し、第２カテゴリ認識部１１２２は前述した第２カテゴリ認識機能を実現する。

認識制御部１１３は、物体認識部１１１及び第１カテゴリ認識部１１２１による認識がされず第２カテゴリ認識部１１２２による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について物体認識部１１１に認識させる。この撮像案内を行う場合、認識制御部１１３は、撮像表示装置２０に対して、カテゴリ認識した物体の位置を指定する画像を撮像画像中に表示するよう指示することで、ユーザに対して撮像の方法を案内する。さらに具体的には、認識制御部１１３は、カテゴリ認識した物体を模した画像を撮像画像に重畳して表示するよう撮像表示装置に指示することで、ユーザに対して撮像の方法を案内する。

画像合成指示部１３は、物体認識部１１１により認識がされた場合には、当該物体に応じた合成画像を、撮像画像において認識された当該物体の位置に応じて合成するよう、撮像表示装置２０に指示する。また、画像合成指示部１３は、物体認識部１１１により認識されず第１カテゴリ認識部１１２１により認識がされた場合には、撮像画像においてカテゴリに応じた合成画像を合成するよう撮像表示装置２０に指示する。

撮像部２１及び第２合成画像取得部２２は撮像表示装置２０のカメラ２０６によって実現され、画像データ生成部２３は撮像表示装置２０のＣＰＵ２０１によって実現され、表示部２４は撮像表示装置２０のＵＩ装置２０７によって実現される。画像認識部１１は情報処理装置１０のＣＰＵ１０１によって実現され、第１合成画像決定部１２は情報処理装置１０のＣＰＵ１０１及び補助記憶装置１０４によって実現され、画像合成指示部１３は情報処理装置１０のＣＰＵ１０１及び通信ＩＦ１０５によって実現される。画像データ生成部２３と画像合成指示部１３とによって、本発明に係る情報処理システム１が備える画像合成部３０が実現される。この画像合成部３０は、画像認識部１１による認識結果に応じて異なる第１合成画像を、撮像部２１により撮像された画像に合成する。

［動作］
図６〜図９を参照して、情報処理システム１の表示制御の例について説明する。図６において、ユーザは撮像表示装置２０の撮像部２１（アウトカメラ）を起動して、自身が所望する物体の撮像を開始する（ステップＳ１１）。撮像部２１による撮像結果は、撮像表示装置２０の表示領域にリアルタイムに表示され、撮像部２１の撮像方向が変わるとこの表示領域上の画像も変更される。例えばユーザが時計台の風景が撮像されるような向きに撮像表示装置２０を構えてユーザが所定の操作を行うと、図８（Ａ）に示すように、その撮像画像が撮像表示装置２０の表示領域に表示される。この撮像画像を示す撮像画像データは、通信ＩＦ２０５から情報処理装置１０に送信される（ステップＳ１２）。この撮像画像データの送信は、例えば、ユーザの操作があったときに開始されてもよいし、ユーザの操作を待たず自動的に開始されてもよい。また、撮像画像データの送信はその開始時点から連続的に成されてもよいし、又はその開始時点から定期的になされてもよい。なお、撮像表示装置２０は撮像画像データを適宜圧縮してデータサイズを小さくすることが望ましい。

情報処理装置１０の画像認識部１１は、撮像画像データに対して画像認識を試みる（ステップＳ１３）。この画像認識処理の詳細については、後述する図７にて説明する。

画像認識に成功すると、第１合成画像決定部１２は、その認識結果に基づいて、撮像表示装置２０において撮像画像に合成する第１合成画像を決定する（ステップＳ１４）。ここで、画像認識部１１がカテゴリ認識（ここでは第１カテゴリ認識部１１２１による認識）に成功した場合には、第１合成画像決定部１２は、図４に例示したテーブルにおいてその物体のカテゴリに対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１３は、読み出された第１合成画像データを、図４に例示したテーブルにおいてそのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置２０に送信する（ステップＳ１５）。このとき、前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

また、物体認識（ここでは物体認識部１１１による認識）に成功した場合には、第１合成画像決定部１２は、図４に例示したテーブルにおいてその物体に対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１３は、読み出された第１合成画像データを、撮像表示装置２０の表示領域における物体の座標、及び図４に例示したテーブルにおいてその物体に対応する相対座標とともに、画像合成指示として撮像表示装置２０に送信する（ステップＳ１５）。このときも前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

撮像表示装置２０の画像データ生成部２３は、上記の第１合成画像データ等を取得すると（ステップＳ１６）、表示部２４の撮像画像において座標（絶対座標又は相対座標）により指定された位置に第１合成画像を表示する。例えばユーザが時計台の風景を撮像した場合には、図８（Ｂ）に示すように、時計台の屋根部分の上方に人間が走る姿を模した動画の第１合成画像Ｇ１が表示される。

そして、画像データ生成部２３は、ユーザに対して第２合成画像の撮像を案内する（ステップＳ１７）。この案内は、例えば「自分の顔を撮ってください」というメッセージを表示し、撮像表示装置２０の表示領域上で顔の撮像位置を指定する、というような方法で実現すればよい。

この案内に従い、ユーザが撮像部２１（インカメラ）で自分の顔を撮像する。この場合、例えば図８（Ｃ）に示すように、ユーザの顔を含む上半身が撮像表示装置２０の表示領域に表示される。画像データ生成部２３は、この画像からユーザの頭部に相当する部分画像を画像認識技術等により抽出し、これを第２合成画像として取得する（ステップＳ１８）。そして、画像データ生成部２３は、第１合成画像及び第２合成画像を撮像画像に合成した画像データを生成し（ステップＳ１９）、この画像データに応じた画像を表示する（ステップＳ２０）。これにより例えば図８（Ｄ）に示すように、人間が走る姿を模した第１合成画像における頭部の位置にユーザの顔を示す第２合成画像が配置され、これらが時計台の屋根部分の上方に表示されることになる。

ここで、図７を参照して情報処理装置１０の画像認識処理（図６のステップＳ１３）について説明する。図７において、画像認識部１１の物体認識部１１１は、撮像画像データに対して物体認識を試みる。この物体認識に成功すると（ステップＳ１１１；ＹＥＳ）、前述したように、第１合成画像決定部１２が、その物体に対応する第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。そして、画像合成指示部１３は、読み出された第１合成画像データを、撮像表示装置２０の表示領域における物体の座標、及びその物体に対応する相対座標とともに、画像合成指示として撮像表示装置２０に送信する（図６：ステップＳ１４〜Ｓ１５）。

一方、物体認識部１１１による物体認識に失敗すると（ステップＳ１１１；ＮＯ）、画像認識部１１の第１カテゴリ認識部１１２１は、撮像画像データに対してカテゴリ認識を試みる。このカテゴリ認識に成功すると（ステップＳ１１２；ＹＥＳ）、前述したように、第１合成画像決定部１２は、その物体のカテゴリに対応する第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。そして、画像合成指示部１３は、読み出された第１合成画像データを、そのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置２０に送信する（図６：ステップＳ１４〜Ｓ１５）。

第１カテゴリ認識部１１２１による物体認識に失敗すると（ステップＳ１１２；ＮＯ）、画像認識部１１の第２カテゴリ認識部１１２２は、撮像画像データに対してカテゴリ認識を試みる。このカテゴリ認識に成功すると（ステップＳ１１３；ＹＥＳ）、画像認識部１１の認識制御部１１３は、ユーザに対して撮像の方法を案内する（ステップＳ１１５）。

例えば、撮像表示装置２０により、Ａ社からユーザに特典を与えるためのポイントカードが物体として撮像されたとき（図９（Ａ））、そのポイントカードが物体認識し得る位置又は姿勢或いは形状で撮像されていない場合がある。このような場合であっても、このポイントカードが第２カテゴリ認識部１１２２によって認識可能な第２カテゴリグループに含まれていれば、第２カテゴリ認識部１１２２によるカテゴリ認識ができることがある。この場合、画像認識部１１の認識制御部１１３は、カテゴリ認識されたポイントカードという物体を模した画像データを撮像表示装置２０に送信して、その画像データに応じた画像を撮像画像に重畳して表示するよう指示する。このとき撮像表示装置２０に送信される画像データは、ポイントカードを物体認識し得るような位置、姿勢及び形状となるように、そのポイントカードを模した半透明の画像が撮像表示装置２０において表示されるようなデータである。これにより、ポイントカードを模した半透明の画像Ｇ４が撮像表示装置２０の撮像画像中に表示される（図９（Ｂ））。さらに、「画像に合わせて撮ってください」というようなメッセージを併せて表示される。ユーザがこの撮像案内に従って、ポイントカードを模した半透明の画像Ｇ４にポイントカードが重なるように、撮像表示装置２０の位置及び向きを調整して撮像を行うと（図９（Ｃ））、その撮像画像データが撮像表示装置２０から情報処理装置１０に送信される。

画像認識部１１の物体認識部１１１は、撮像画像データを取得すると（図７のステップＳ１１６；ＹＥＳ）、その撮像画像データに対して物体認識を試みる。ここで、撮像画像中のポイントカードは物体認識し得るような位置、姿勢及び形状で撮像されているから、物体認識に成功する可能性が高い。物体認識に成功すると（ステップＳ１１１；ＹＥＳ）、前述したように、第１合成画像決定部１２が、その物体に対応する第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出し、画像合成指示部１３は、読み出された第１合成画像データを、撮像表示装置２０の表示領域における物体の座標、及びその物体に対応する相対座標とともに、画像合成指示として撮像表示装置２０に送信する（図６：ステップＳ１４〜Ｓ１５）。

この結果、ポイントカードという物体に応じた第１合成画像Ｇ５として、人間が躍る姿を模した動画のキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２２）が合成され、さらに別の第１合成画像Ｇ７として、その人間と一緒に踊るアニメのキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２３）が合成される（図９（Ｄ））。第１合成画像Ｇ５において、人間の頭部に相当する領域Ｇ６はブランクになっている。ユーザが撮像表示装置２０を用いて自身の顔を撮像すると（図９（Ｅ））、第１合成画像Ｇ５の領域Ｇ６に対して、ユーザの顔の画像が第２合成画像Ｇ８として合成される（図９（Ｆ））。このようにすると、撮像表示装置２０に表示されているポイントカードの中で、ユーザ自身の顔を持つ人間のキャラクタ画像がアニメのキャラクタ画像とともに躍っている姿が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て楽しむことができる。

なお、図７において、画像認識部１１の第２カテゴリ認識部１１２２によるカテゴリ認識が失敗すると（図７のステップＳ１１３；ＮＯ）、画像認識部１１の認識制御部１１３は、画像認識ができない旨を撮像表示装置２０に通知するなどの、所定のエラー処理を行う（ステップＳ１１４）。

以上説明した実施形態によれば、以下のような効果を奏する。
例えば撮像画像において物体の位置又は姿勢が不定であるとか物体が変形するなどの理由から、物体認識機能によって正しく認識できない場合があるが、このような場合であっても、案内された撮像方法に従ってユーザが撮像画像における物体の位置又は姿勢或いは形状を調整することで物体認識が可能となる。この撮像方法の案内は、例えば物体を模した半透明の画像と、「画像に合わせて撮ってください」というようなメッセージとを表示するような形態で実現されるから、ユーザにとって分かりやすい。また、第１カテゴリ認識機能がカバーする第１カテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとを分けているので、それぞれのカテゴリグループに属する物体についてのカテゴリ認識の精度が低下することがない。

さらに、撮像表示装置２０に表示されている撮像画像に対し、例えばユーザ自身の顔（第２合成画像）を持つ人間のキャラクタ画像（第１合成画像）が走っている動画が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て、従来にはない面白味を感じることができる。この第１合成画像は、撮像表示装置２０に表示されている撮像画像の認識結果に応じて異なるから、ユーザは様々な物体を撮像することで、どのような第１合成画像が合成されるかという期待感を感じ、また、その期待に対する結果を楽しむことができる。また、第２合成画像としてユーザ自身の顔の画像を用いているから、ユーザ自身が撮像画像の仮想空間にあたかも存在しているかのような感覚を楽しむことが可能となる。また、ユーザは、撮像画像に対して第１合成画像が合成されている様子を見てから、第２合成画像として自身の顔を撮像するから、合成される自身の顔の向き又は表情を撮像画像及び第１合成画像の雰囲気に合うように、例えば横を向いたりコミカルな表情又は必死な表情にしたりすることが可能となる。これもまたユーザにとっての面白味の１つとなる。

［変形例］
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
［変形例１］
第１カテゴリ認識機能がカバーする第１カテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとを分けずに、第１カテゴリ認識部１１２１及び第２カテゴリ認識部１１２２を統合して単一の機能としてもよい。つまり、本発明を、撮像画像に含まれる物体の位置を認識する物体認識部と、撮像画像に含まれる物体が属するカテゴリを認識するカテゴリ認識部と、前記物体認識部による認識がされず前記カテゴリ認識部による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させる認識制御部とを備える情報処理装置として構成してもよい。このようにすれば、第１カテゴリ認識機能がカバーする第１カテゴリグループと、第２カテゴリ認識機能がカバーする第２カテゴリグループとを分けて設計するためのコストを省くことができる。

［変形例２］
実施形態において認識制御部１１３は、物体を模した半透明の画像を撮像画像に重畳して表示するよう撮像表示装置２０に指示していたが、この撮像方法の案内は実施形態の例に限定されない。要するに、認識制御部１１３は、撮像表示装置２０に対して、撮像画像における物体の位置を指定する画像を当該撮像画像中に表示するよう指示して、撮像方法を案内すればよい。

［変形例３］
画像合成部３０は、画像認識部１１による認識結果に応じて外観が異なる第１合成画像を合成することに限らず、例えば大きさ、位置、動き又は数の少なくともいずれかが異なる第１合成画像を合成するようにしてもよい。また、第１合成画像は動画に限らず静止画であってもよい。
また、画像合成部３０は、画像認識部１１による認識結果に加え、ユーザの属性又は撮像表示装置２０の位置又は姿勢に応じて異なる第１合成画像を合成するようにしてもよい。
また、画像合成部３０は、画像認識部１１による認識結果に応じて異なる第１合成画像を合成すればよく、例えば建物を撮像したときに、その建物が設置された地面の平面を認識し、その平面上に第１合成画像を合成してもよい。また、画像合成部３０は、物体の部分（例えば物体が時計台であれば、その時計台の屋根、ドア、時計などが部分に相当する）が画像認識部１１により認識される場合には、その部分に対する所定の位置に第１合成画像を合成してもよい。例えば、画像合成部３０は、時計台の屋根に対して第１合成画像であるキャラクタ画像が飛行して着地するとか、第１合成画像であるキャラクタ画像が時計台のドアを開けるとか、第１合成画像であるキャラクタ画像が時計台の時計の針を巻き戻すというような動画のＡＲ（Augmented Reality）画像を合成するようにしてもよい。
このように第１合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例４］
実施形態では、画像合成部３０は、画像認識部１１による認識結果に関わらず、ユーザによって撮像された顔の画像を常に第２合成画像としていたが、画像認識部１１による認識結果に応じて異なる第２合成画像を合成するようにしてもよい。例えば事前にユーザが、様々に異なる表情又は向きの顔を自分で撮像して撮像表示装置２０の補助記憶装置２０４に記憶させておき、さらに、その顔の表情又は向きから連想するユーザの様子（例えば楽しい、悲しい、笑い顔、泣き顔、知らんぷり、無表情など）を意味するタグを付与しておく。このタグの付与は、ユーザ自身が行ってもよいし、画像認識技術を用いて撮像表示装置２０又は情報処理装置１０が行ってもよい。画像合成部３０は、画像認識部１１による認識結果に対応するタグが付与された顔の画像を第２合成画像とする。この場合、画像認識部１１による認識結果とユーザの様子を類型化したものとが対応付けられて補助記憶装置２０４に記憶されており、画像合成部３０は、画像認識部１１による認識結果に対応するタグを特定し、そのタグが付与された顔の画像データを補助記憶装置２０４から読み出す。さらに、このような顔の表情の異同に限らず、画像合成部３０は、画像認識部１１による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる第２合成画像を合成してもよい。なお、第２合成画像は撮像画像に限らず、例えばアバター又はアニメの画像など、どのような画像であってもよい。このように第２合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例５］
画像合成部３０は、第１合成画像に応じて異なる第２合成画像を合成するようにしてもよい。例えば、撮像表示装置２０により風景が撮像された場合、その風景に応じた第１合成画像Ｇ１が合成される。画像合成部３０は、この第１合成画像Ｇ１に応じて例えば複数の第２合成画像の候補をユーザに提示し、ユーザがそのうちのいずれかを選択すると、その第２合成画像を合成する。
また、複数の第２合成画像を選択的に第１合成画像に組み合わせる例として、例えば撮像された建築物を徐々に登っていく動きと位置変化をするような、人間の体を模した動画の第１合成画像に対し、その建築物の低層においては楽しそうな表情の顔の第２合成画像を組み合わせ、高層に進むにつれて苦しそうな表情の顔の第２合成画像を組み合わせるようにしてもよい。つまり、第１合成画像の動き又は位置の変化に応じて、第２合成画像を変化させてもよい。
このように第２合成画像の様々な要素が第１合成画像に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例６］
第１合成画像データを情報処理装置１０が記憶するのではなく、撮像表示装置２０が記憶しておき、情報処理装置１０はどの第１合成画像データを用いるかを第１合成画像ＩＤで撮像表示装置２０に指示するだけでもよい。このようにすれば情報処理装置１０及び撮像表示装置２０間の通信データ量を削減することができる。

［変形例７］
第１合成画像及び第２合成画像が合成される画像は、撮像部２１によってリアルタイムに撮像された画像に限らず、例えば過去に撮像部２１によって撮像された画像が補助記憶装置２０４に記憶されており、その中から選ばれたものであってもよいし、撮像表示装置２０が他の装置から取得したものであってもよい。このようにすれば、ユーザにとって、第１合成画像及び第２合成画像が合成される対象となる画像の選択の余地が広がる。

［変形例８］
第１合成画像又は第２合成画像を広告として利用してもよい。
例えば第１合成画像として、或るキャラクタがそのメーカのペットボトル（広告宣伝対象物）を持っている画像とか、そのキャラクタの服の真ん中にそのペットボトル（広告宣伝対象物）の絵が記載されている画像というような例が考えられる。
また、撮像表示装置２０を或る飲料メーカのペットボトル（広告宣伝対象物）にかざすと、そのペットボトルの或る位置において第１合成画像として飲料メーカのキャラクタ画像が表示され、さらにそのキャラクタ画像に対して第２合成画像としてユーザの顔が配置されてもよい。
また、例えば或る街の大規模交差点に撮像表示装置２０をかざすと、その交差点に設置されたスクリーンパネルの領域に或る第１合成画像を合成し、その第１合成画像上に広告宣伝対象物の動画の第２合成画像として再生するようにしてもよい。このようにすれば、あたかも、その街で広告が再生されているように見える。
これら第１合成画像及び第２合成画像の組み合わせは、ユーザの属性又は撮像表示装置２０の位置によって変更してもよいし、広告主の支払う単価などにより変更してもよい。
このようにすれば、本発明を広告に利用することが可能となる。

［その他の変形例］
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した実施形態の処理手順は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。本明細書で説明した実施形態又は変形例は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

本明細書で利用する「システム」及び「ネットワーク」という用語は、互換的に利用される。

本明細書で利用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で利用する「に基づいて」「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。「応じて」も同様である。また、「含む（including）」、「含んでいる（comprising）」、及びそれらの変形が、本明細書或いは特許請求の範囲で利用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において利用されている用語「又は（or）」は、排他的論理和ではないことが意図される。また、本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を利用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で利用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及び／又はプリント電気接続を利用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどの電磁エネルギーを利用することにより、互いに「接続」又は「結合」されると考えることができる。

本発明に係る情報処理装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。

本発明は、情報処理装置１０が行う情報処理方法、或いは、情報処理装置１０としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。このプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

Claims

撮像画像に含まれる物体のカテゴリと位置を認識する物体認識部と、
前記撮像画像に含まれる前記物体が属するカテゴリを認識するカテゴリ認識部と、
前記物体認識部による認識がされず前記カテゴリ認識部による認識がされた場合には、ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に対して前記物体を模した画像を当該撮像画像に重畳して表示するよう指示することで、前記ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させる認識制御部と
を備えることを特徴とする情報処理装置。
前記カテゴリ認識部は、
前記撮像画像に含まれる前記物体が属するカテゴリを認識する第１カテゴリ認識部と、
前記撮像画像に含まれる前記物体が属するカテゴリを認識する第２カテゴリ認識部であって、前記第１カテゴリ認識部が認識可能なカテゴリとは異なるカテゴリについて認識を行う第２カテゴリ認識部とを含み、
前記認識制御部は、前記物体認識部及び前記第１カテゴリ認識部による認識がされず前記第２カテゴリ認識部による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させる
ことを特徴とする請求項１記載の情報処理装置。
前記物体認識部により物体の位置が認識された場合には、当該物体に応じた合成画像を、前記撮像画像において認識された当該物体の位置に応じて合成するよう、前記ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に指示し、前記カテゴリ認識部によりカテゴリが認識された場合には、前記撮像画像において前記カテゴリに応じた合成画像を合成するよう前記撮像表示装置に指示する画像合成指示部を備える
ことを特徴とする請求項１又は２に記載の情報処理装置。
撮像画像に含まれる物体のカテゴリと位置の認識を試みるステップと、
前記撮像画像に含まれる前記物体が属するカテゴリの認識を試みるステップと、
前記物体の位置が認識されず、前記物体が属するカテゴリが認識された場合に、ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に対して前記物体を模した画像を当該撮像画像に重畳して表示するよう指示することで、前記ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像に含まれる物体の認識を試みるステップと
を有する情報処理方法。