JP6730461B2

JP6730461B2 - 情報処理システム及び情報処理装置

Info

Publication number: JP6730461B2
Application number: JP2018563240A
Authority: JP
Inventors: 直之中尾; 聡之大宮; 義勝金丸
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2017-01-23
Filing date: 2017-12-25
Publication date: 2020-07-29
Anticipated expiration: 2037-12-25
Also published as: US20200126279A1; WO2018135246A1; CN110214445A; EP3557865A1; EP3557865A4; US11010947B2; JPWO2018135246A1

Description

本発明は、画像を合成して表示する技術に関する。

特許文献１には、撮像場所に応じた画像を撮像画像に合成して表示する技術が開示されている。これにより、例えば撮像場所が観光地である場合、その観光地において有名な建築物などの画像が撮像画像に合成されて表示される。

特開２００３−２７４３９６号公報

本発明は、ユーザが合成された画像を見て従来よりもさらに面白味を感じられるようにすることを目的とする。

本発明は、画像を認識する画像認識部と、前記画像認識部による認識結果に応じて異なる第１合成画像を前記画像に合成し、当該画像に合成された前記第１合成画像に対する所定の位置に第２合成画像を合成する画像合成部とを備えることを特徴とする情報処理システムを提供する。

前記画像合成部は、前記画像認識部による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる前記第１合成画像を前記画像に合成するようにしてもよい。

前記画像合成部は、前記画像認識部による認識結果に応じて異なる前記第２合成画像を前記画像に合成するようにしてもよい。

前記画像合成部は、前記画像認識部による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる前記第２合成画像を前記画像に合成するようにしてもよい。

前記画像合成部は、人間の頭部を含む撮像画像から当該頭部に相当する部分画像を抽出し、当該部分画像を前記第２合成画像として前記画像に合成するようにしてもよい。

前記画像合成部は、前記画像認識部による認識結果に応じて前記人間の顔の向き又は当該顔の表情が異なる前記第２合成画像を前記画像に合成するようにしてもよい。

前記画像合成部は、合成する前記第１合成画像に応じて異なる前記第２合成画像を前記画像に合成するようにしてもよい。

前記画像認識部によって前記画像に含まれる物体が属するカテゴリが認識された場合には、前記画像合成部は、前記画像における所定の位置に、前記カテゴリに応じた前記第１合成画像を合成するようにしてもよい。

前記画像認識部によって前記画像に含まれる物体の位置が認識された場合には、前記画像合成部は、前記物体に対する所定の位置に、前記物体に応じた前記第１合成画像を合成するようにしてもよい。

また、本発明は、画像の認識結果に応じて異なる第１合成画像を前記画像に合成するよう表示装置に指示し、当該画像に合成された当該第１合成画像に対する所定の位置に第２合成画像を合成するよう前記表示装置に指示する画像合成指示部を備えることを特徴とする情報処理装置を提供する。

本発明によれば、ユーザが合成された画像を見て従来よりもさらに面白味を感じることが可能となる。

本発明の一実施形態に係る情報処理システムの構成を例示する図である。表示装置のハードウェア構成の一例を示すブロック図である。情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置に記憶されている合成画像決定テーブルの一例を示す図である。情報処理システムの機能構成の一例を示すブロック図である。情報処理システムの動作手順の一例を示すフローチャートである。表示装置における表示の一例を説明するための図である。表示装置における表示の一例を説明するための図である。

１…情報処理システム、１０…情報処理装置、１１…画像認識部、１２…第１合成画像決定部、１３…画像合成指示部、２０…表示装置、２１…撮像部、２２…第２合成画像取得部、２３…画像データ生成部、２４…表示部、９０…ネットワーク、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…補助記憶装置、１０５…通信ＩＦ、２０１…ＣＰＵ、２０２…ＲＯＭ、２０３…ＲＡＭ、２０４…補助記憶装置、２０５…通信ＩＦ、２０６…カメラ、２０７…ＵＩ装置。

以下、図面を参照して、本発明の一実施形態について説明する。
［構成］
図１は、本発明の一実施形態に係る情報処理システム１の構成を例示する図である。情報処理システム１は、画像の認識を行う情報処理装置１０と、画像の撮像及び表示を行う表示装置２０と、これら情報処理装置１０及び表示装置２０を通信可能に接続するネットワーク９０とを備えている。ネットワーク９０は、例えばＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいてもよい。なお、図１には、情報処理装置１０及び表示装置２０を１つずつ示しているが、これらはそれぞれ複数であってもよい。

情報処理装置１０は表示装置２０による撮像画像を取得し、その撮像画像に対して画像認識を行う。情報処理装置１０は、表示装置２０に対して、画像認識結果に応じて異なる第１合成画像を上記撮像画像に合成し、さらにその第１合成画像に対する所定の位置に第２合成画像を合成するよう指示する。例えば、表示装置２０により風景が撮像された場合（後述する図７（Ａ））、その風景に応じた第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される（図７（Ｂ））。この第１合成画像Ｇ１における所定の位置、ここでは第１合成画像Ｇ１が表す人間の頭部に相当する領域Ｇ２は、ブランクになっている。ユーザが表示装置２０を用いて自身の顔を撮像すると（図７（Ｃ））、第１合成画像Ｇ１の領域Ｇ２に対して、撮像された顔の画像が第２合成画像Ｇ３として合成される（図７（Ｄ））。このようにすると、表示装置２０に表示されている風景画像に対し、ユーザ自身の顔を持つ人間のキャラクタ画像が走っている様子が動画として合成されることになり、ユーザはこれらの画像の組み合わせや動きの面白さを見て楽しむことができる。

図２は、表示装置２０のハードウェア構成を例示する図である。表示装置２０は、例えばスマートホン又はタブレット或いはパーソナルコンピュータなどの通信可能なコンピュータである。表示装置２０は、ＣＰＵ２０１（Central Processing Unit）、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３、補助記憶装置２０４、通信ＩＦ２０５、カメラ２０６、ＵＩ装置２０７を有する。ＣＰＵ２０１は、各種の演算を行うプロセッサである。ＲＯＭ２０２は、例えば表示装置２０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ２０３は、ＣＰＵ２０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリである。補助記憶装置２０４は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）などの不揮発性の記憶装置であり、表示装置２０において用いられるプログラム及びデータを記憶する。ＣＰＵ２０１がこのプログラムを実行することにより表示装置２０はコンピュータ装置として機能し、後述する図５に示される機能が実現される。通信ＩＦ２０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。この通信規格は、無線通信の規格であってもよいし、有線通信の規格であってもよい。無線の場合、通信ＩＦ２０５は、例えばＬＴＥ（Long Term Evolution）又はＷｉ−Ｆｉ（登録商標）等の通信規格で動作するアンテナ及び通信回路を備えている。カメラ２０６はレンズ及び光学素子を含み、撮像した画像を示す画像データを生成する。カメラ２０６は、表示装置２０の表側に設けられたインカメラと、表示装置２０の裏側に設けられたアウトカメラとを含む。インカメラは主にユーザ自身を撮像するときに用いられ、アウトカメラは主にユーザ自身以外の風景等を撮像するときに用いられる。ＵＩ装置２０７は、例えばキー及びタッチセンサなどの操作子が設けられた操作部と、例えば液晶パネル及び液晶駆動回路などの表示部と、例えばスピーカ又はイヤホン用端子などの音声出力部とを含む。なお、表示装置２０は、図２に例示した構成以外に、例えばＧＰＳ（Global Positioning System）ユニットなどの他の構成を含んでいてもよい。

図３は、情報処理装置１０のハードウェア構成を例示する図である。情報処理装置１０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、補助記憶装置１０４、及び通信ＩＦ１０５を有するコンピュータ装置である。ＣＰＵ１０１は、各種の演算を行うプロセッサである。ＲＯＭ１０２は、例えば情報処理装置１０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ１０３は、ＣＰＵ１０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリある。補助記憶装置１０４は、例えばＨＤＤ又はＳＳＤなどの不揮発性の記憶装置であり、情報処理装置１０において用いられるプログラム及びデータを記憶する。ＣＰＵ１０１がこのプログラムを実行することにより、後述する図５に示される機能が実現される。通信ＩＦ１０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。情報処理装置１０は、図３に例示した構成以外に、例えばＵＩ装置などの他の構成を含んでいてもよい。

補助記憶装置１０４には、画像認識を行う画像認識エンジン及び、前述した第１合成画像を表示装置２０において表示するための第１合成画像データ群のほか、表示装置２０においてどの第１合成画像を表示するかを決定するための合成画像決定テーブルが記憶されている。

図４は合成画像決定テーブルを例示する図である。合成画像決定テーブルには、画像認識の認識種別と、画像認識結果と、第１合成画像を識別するための第１合成画像ＩＤと、第１合成画像の表示位置とが対応付けられている。
認識種別には、カテゴリ分類と物体検出とがある。カテゴリ分類は、一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識するに留まり、その物体が画像中のどこにあるかまでは特定しないというものである。カテゴリ分類は、例えば画像の特徴抽出を行ってベクトル量子化ヒストグラムを算出し、その算出結果を予め用意されたカテゴリ又は固有名詞別のヒストグラムに当てはめることで実現される。

一方、物体検出は、特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体が画像中のどこにあるか（さらにはその物体の形状や他の物体との境界）まで特定するものである。物体検出は、例えば画像の局所的な特徴抽出を行い、その抽出結果に対して統計学習手法を用いることで実現される。情報処理装置１０は表示装置２０の撮像画像に対して画像認識を試み、その認識の結果、カテゴリ分類が可能な場合もあるし、カテゴリ分類のみならず物体検出も可能な場合もあるし、そのいずれもができない場合もある。

図４では、情報処理装置１０の画像認識の結果、画像中の物体について例えば「橋」というカテゴリ分類ができた場合に、分類したカテゴリ又は固有名詞に応じた第１合成画像ＩＤ「Ｃ００１」の第１合成画像がその画像中の絶対座標Ｘ１，Ｙ１に表示されるように規定されている。ここでいう絶対座標とは、表示装置２０の表示領域において予め規定されたＸＹ座標軸に従う座標である。つまり、この例の場合、第１合成画像は、画像中の「橋」という物体の位置に関係なく、表示装置２０の表示領域において絶対座標で指定された位置（例えば表示領域の中心部分）に合成される。

また、情報処理装置１０の画像認識の結果、画像中の物体について例えば「建物」というカテゴリ及び「時計台」という固有名詞とその画像中の位置について物体検出ができた場合には、その物体（カテゴリ又は固有名詞）に応じた第１合成画像ＩＤ「Ｃ０２０」の第１合成画像が相対座標ｘ１，ｙ１に表示されるように規定されている。ここでいう相対座標とは、検出された「時計台」という物体を基準として規定されたｘｙ座標軸（例えば物体の重心を原点としてその物体のサイズに応じた単位の目盛を持つｘｙ座標軸）に従う座標である。この例の場合、第１合成画像は、画像中の「時計台」という物体の位置に対して相対座標で指定された位置に合成されるから、画像中の「時計台」という物体の位置に応じて第１合成画像の表示位置は異なることになる。例えば、図７に示すように、第１合成画像Ｇ１は「時計台」という物体に対して、その屋根部分の重力方向上方の位置に常に表示される。

なお、補助記憶装置１０４に記憶されている各第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。例えば第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される場合（図７（Ｂ））、この第１合成画像Ｇ１において人間の頭部に相当する領域Ｇ２の位置を所定の位置として指定するデータが、この第１合成画像データに含まれている。

図５は、情報処理システム１の機能構成を示すブロック図である。図５に示すように、表示装置２０においては、画像を撮像する撮像部２１と、第２合成画像を取得する第２合成画像取得部２２と、撮像部２１により撮像された画像に対して第１合成画像及び第２合成画像を合成した画像データを生成する画像データ生成部２３と、画像データ生成部２３により生成された画像データに応じた画像を表示する表示部２４とが実現される。情報処理装置１０においては、撮像部２１により撮像された画像を認識する画像認識部１１と、画像認識部１１による認識結果に応じて異なる第１合成画像を決定する第１合成画像決定部１２と、第１合成画像決定部１２により決定された第１合成画像を撮像部２１により撮像された画像に合成し、当該画像に合成された第１合成画像に対する所定の位置に第２合成画像を合成するよう表示装置２０に指示する画像合成指示部１３とが実現される。

撮像部２１及び第２合成画像取得部２２は表示装置２０のカメラ２０６によって実現され、画像データ生成部２３は表示装置２０のＣＰＵ２０１によって実現され、表示部２４は表示装置２０のＵＩ装置２０７によって実現される。画像認識部１１は情報処理装置１０のＣＰＵ１０１によって実現され、第１合成画像決定部１２は情報処理装置１０のＣＰＵ１０１及び補助記憶装置１０４によって実現され、画像合成指示部１３は情報処理装置１０のＣＰＵ１０１及び通信ＩＦ１０５によって実現される。画像データ生成部２３と画像合成指示部１３とによって、本発明に係る情報処理システム１が備える画像合成部３０が実現される。この画像合成部３０は、画像認識部１１による認識結果に応じて異なる第１合成画像を、撮像部２１により撮像された画像に合成する。

［動作］
図６〜図８を参照して、情報処理システム１の表示制御の例について説明する。まず、ユーザは表示装置２０の撮像部２１（アウトカメラ）を起動して、自身が所望する物体の撮像を開始する（ステップＳ１１）。撮像部２１による撮像結果は、表示装置２０の表示領域にリアルタイムに表示され、撮像部２１の撮像方向が変わるとこの表示領域上の画像も変更される。例えばユーザが時計台の風景が撮像されるような向きに表示装置２０を構えてユーザが所定の操作を行うと、図７（Ａ）に示すように、その撮像画像が表示装置２０の表示領域に表示される。この撮像画像を示す撮像画像データは、ユーザの操作があったときに又はその操作時点から連続的に或いはその操作時点から定期的に通信ＩＦ２０５から情報処理装置１０に送信される（ステップＳ１２）。このとき、表示装置２０は撮像画像データを適宜圧縮してデータサイズを小さくすることが望ましい。

情報処理装置１０の画像認識部１１は、撮像画像データに対して画像認識エンジンを適用して画像認識を試みる（ステップＳ１３）。画像認識に成功すると、第１合成画像決定部１２は、その認識結果に基づいて、表示装置２０において撮像画像に合成する第１合成画像を決定する（ステップＳ１４）。ここで、画像認識部１１がカテゴリの分類に成功した場合には、第１合成画像決定部１２は、図４に例示したテーブルにおいてその物体のカテゴリに対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１３は、読み出された第１合成画像データを、図４に例示したテーブルにおいてそのカテゴリに対応する絶対座標とともに、画像合成指示として表示装置２０に送信する（ステップＳ１５）。このとき、前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

また、物体検出に成功した場合には、第１合成画像決定部１２は、図４に例示したテーブルにおいてその物体のカテゴリ又は固有名詞に対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１３は、読み出された第１合成画像データを、表示装置２０の表示領域における物体の座標、及び図４に例示したテーブルにおいてそのカテゴリ又は固有名詞に対応する相対座標とともに、画像合成指示として表示装置２０に送信する（ステップＳ１５）。このときも前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

表示装置２０の画像データ生成部２３は、上記の第１合成画像データ等を取得すると（ステップＳ１６）、表示部２４の撮像画像において座標（絶対座標又は相対座標）により指定された位置に第１合成画像を表示する。例えばユーザが時計台の風景を撮像した場合には、図７（Ｂ）に示すように、時計台の屋根部分の上方に人間が走る姿を模した動画の第１合成画像Ｇ１が表示される。

そして、画像データ生成部２３は、ユーザに対して第２合成画像の撮像を案内する（ステップＳ１７）。この案内は、例えば「自分の顔を撮ってください」というメッセージを表示し、表示装置２０の表示領域上で顔の撮像位置を指定する、というような方法で実現すればよい。

この案内に従い、ユーザが撮像部２１（インカメラ）で自分の顔を撮像する。この場合、例えば図７（Ｃ）に示すように、ユーザの顔を含む上半身が表示装置２０の表示領域に表示される。画像データ生成部２３は、この画像からユーザの頭部に相当する部分画像を画像認識技術等により抽出し、これを第２合成画像として取得する（ステップＳ１８）。そして、画像データ生成部２３は、第１合成画像及び第２合成画像を撮像画像に合成した画像データを生成し（ステップＳ１９）、この画像データに応じた画像を表示する（ステップＳ２０）。これにより例えば図７（Ｄ）に示すように、人間が走る姿を模した第１合成画像における頭部の位置にユーザの顔を示す第２合成画像が配置され、これらが時計台の屋根部分の上方に表示されることになる。

図８は、上記とは別の表示例を示した図である。例えば、表示装置２０により、Ａ社からユーザに特典を与えるためのポイントカードが物体として撮像された場合（図８（Ａ））、その物体に応じた第１合成画像Ｇ４として、人間が躍る姿を模した動画のキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２２）が合成され、さらに別の第１合成画像Ｇ６として、その人間と一緒に踊るアニメのキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２３）が合成される（図８（Ｂ））。第１合成画像Ｇ４において、人間の頭部に相当する領域Ｇ５はブランクになっている。ユーザが表示装置２０を用いて自身の顔を撮像すると（図８（Ｃ））、第１合成画像Ｇ４の領域Ｇ５に対して、ユーザの顔の画像が第２合成画像Ｇ７として合成される（図８（Ｄ））。このようにすると、表示装置２０に表示されているポイントカードの中で、ユーザ自身の顔を持つ人間のキャラクタ画像がアニメのキャラクタ画像とともに躍っている姿が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て楽しむことができる。

以上説明した実施形態によれば、表示装置２０に表示されている撮像画像に対し、例えばユーザ自身の顔（第２合成画像）を持つ人間のキャラクタ画像（第１合成画像）が走っている動画が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て、従来にはない面白味を感じることができる。この第１合成画像は、表示装置２０に表示されている撮像画像の認識結果に応じて異なるから、ユーザは様々な物体を撮像することで、どのような第１合成画像が合成されるかという期待感を感じ、また、その期待に対する結果を楽しむことができる。また、第２合成画像としてユーザ自身の顔の画像を用いているから、ユーザ自身が撮像画像の仮想空間にあたかも存在しているかのような感覚を楽しむことが可能となる。また、ユーザは、撮像画像に対して第１合成画像が合成されている様子を見てから、第２合成画像として自身の顔を撮像するから、合成される自身の顔の向き又は表情を撮像画像及び第１合成画像の雰囲気に合うように、例えば横を向いたりコミカルな表情又は必死な表情にしたりすることが可能となる。これもまたユーザにとっての面白味の１つとなる。

［変形例］
［変形例１］
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
画像合成部３０は、画像認識部１１による認識結果に応じて外観が異なる第１合成画像を合成することに限らず、例えば大きさ、位置、動き又は数の少なくともいずれかが異なる第１合成画像を合成するようにしてもよい。また、第１合成画像は動画に限らず静止画であってもよい。
また、画像合成部３０は、画像認識部１１による認識結果に加え、ユーザの属性又は表示装置２０の位置に応じて異なる第１合成画像を合成するようにしてもよい。
また、画像合成部３０は、画像認識部１１による認識結果に応じて異なる第１合成画像を合成すればよく、例えば建物を撮像したときに、その建物が設置された地面の平面を認識し、その平面上に第１構成画像を合成してもよい。
このように第１合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例２］
実施形態では、画像合成部３０は、画像認識部１１による認識結果に関わらず、ユーザによって撮像された顔の画像を常に第２合成画像としていたが、画像認識部１１による認識結果に応じて異なる第２合成画像を合成するようにしてもよい。例えば事前にユーザが、様々に異なる表情又は向きの顔を自分で撮像して表示装置２０の補助記憶装置２０４に記憶させておき、さらに、その顔の表情又は向きから連想するユーザの様子（例えば楽しい、悲しい、笑い顔、泣き顔、知らんぷり、無表情など）を意味するタグを付与しておく。このタグの付与は、ユーザ自身が行ってもよいし、画像認識技術を用いて表示装置２０又は情報処理装置１０が行ってもよい。画像合成部３０は、画像認識部１１による認識結果に対応するタグが付与された顔の画像を第２合成画像とする。この場合、画像認識部１１による認識結果とユーザの様子を類型化したものとが対応付けられて補助記憶装置２０４に記憶されており、画像合成部３０は、画像認識部１１による認識結果に対応するタグを特定し、そのタグが付与された顔の画像データを補助記憶装置２０４から読み出す。さらに、このような顔の表情の異同に限らず、画像合成部３０は、画像認識部１１による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる第２合成画像を合成してもよい。なお、第２合成画像は撮像画像に限らず、例えばアバター又はアニメの画像など、どのような画像であってもよい。このように第２合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例３］
画像合成部３０は、第１合成画像に応じて異なる第２合成画像を合成するようにしてもよい。例えば、表示装置２０により風景が撮像された場合、その風景に応じた第１合成画像Ｇ１が合成される。画像合成部３０は、この第１合成画像Ｇ１に応じて例えば複数の第２合成画像の候補をユーザに提示し、ユーザがそのうちのいずれかを選択すると、その第２合成画像を合成する。
また、複数の第２合成画像を選択的に第１合成画像に組み合わせる例として、例えば撮像された建築物を徐々に登っていく動きと位置変化をするような、人間の体を模した動画の第１合成画像に対し、その建築物の低層においては楽しそうな表情の顔の第２合成画像を組み合わせ、高層に進むにつれて苦しそうな表情の顔の第２合成画像を組み合わせるようにしてもよい。つまり、第１合成画像の動き又は位置の変化に応じて、第２合成画像を変化させてもよい。
このように第２合成画像の様々な要素が第１合成画像に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例４］
第１合成画像データを情報処理装置１０が記憶するのではなく、表示装置２０が記憶しておき、情報処理装置１０はどの第１合成画像データを用いるかを第１合成画像ＩＤで表示装置２０に指示するだけでもよい。このようにすれば情報処理装置１０及び表示装置２０間の通信データ量を削減することができる。

［変形例５］
第１合成画像及び第２合成画像が合成される画像は、撮像部２１によってリアルタイムに撮像された画像に限らず、例えば過去に撮像部２１によって撮像された画像が補助記憶装置２０４に記憶されており、その中から選ばれたものであってもよいし、表示装置２０が他の装置から取得したものであってもよい。このようにすれば、ユーザにとって、第１合成画像及び第２合成画像が合成される対象となる画像の選択の余地が広がる。

［変形例６］
第１合成画像又は第２合成画像を広告として利用してもよい。
例えば第１合成画像として、或るキャラクタがそのメーカのペットボトル（広告宣伝対象物）を持っている画像とか、そのキャラクタの服の真ん中にそのペットボトル（広告宣伝対象物）の絵が記載されている画像というような例が考えられる。
また、表示装置２０を或る飲料メーカのペットボトル（広告宣伝対象物）にかざすと、そのペットボトルの或る位置において第１合成画像として飲料メーカのキャラクタ画像が表示され、さらにそのキャラクタ画像に対して第２合成画像としてユーザの顔が配置されてもよい。
また、例えば或る街の大規模交差点に表示装置２０をかざすと、その交差点に設置されたスクリーンパネルの領域に或る第１合成画像を合成し、その第１合成画像上に広告宣伝対象物の動画の第２合成画像として再生するようにしてもよい。このようにすれば、あたかも、その街で広告が再生されているように見える。
これら第１合成画像及び第２合成画像の組み合わせは、ユーザの属性又は表示装置２０の位置によって変更してもよいし、広告主の支払う単価などにより変更してもよい。
このようにすれば、本発明を広告に利用することが可能となる。

［その他の変形例］
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した実施形態の処理手順は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。本明細書で説明した実施形態又は変形例は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

本明細書で利用する「システム」及び「ネットワーク」という用語は、互換的に利用される。

本明細書で利用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で利用する「に基づいて」「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。「応じて」も同様である。また、「含む（including）」、「含んでいる（comprising）」、及びそれらの変形が、本明細書或いは特許請求の範囲で利用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において利用されている用語「又は（or）」は、排他的論理和ではないことが意図される。また、本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を利用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で利用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及び／又はプリント電気接続を利用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどの電磁エネルギーを利用することにより、互いに「接続」又は「結合」されると考えることができる。

本発明に係る情報処理装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。

本発明は、表示装置１が行う情報処理方法、或いは、表示装置１としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。このプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

Claims

画像を認識する画像認識部と、
前記画像認識部による認識結果に応じて異なる第１合成画像を前記画像に合成し、当該画像に合成された前記第１合成画像に対する所定の位置に第２合成画像を合成する画像合成部とを備え、
前記画像認識部によって前記画像に含まれる物体が属するカテゴリが認識された場合には、前記画像合成部は、前記画像における所定の位置に、前記カテゴリに応じた前記第１合成画像を合成する
ことを特徴とする情報処理システム。
画像を認識する画像認識部と、
前記画像認識部による認識結果に応じて異なる第１合成画像を前記画像に合成し、当該画像に合成された前記第１合成画像に対する所定の位置に第２合成画像を合成する画像合成部とを備え、
前記画像認識部によって前記画像に含まれる物体の位置が認識された場合には、前記画像合成部は、前記物体に対する所定の位置に、前記物体に応じた前記第１合成画像を合成する
ことを特徴とする情報処理システム。
前記画像合成部は、前記画像認識部による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる前記第１合成画像を前記画像に合成する
ことを特徴とする請求項１又は２に記載の情報処理システム。
前記画像合成部は、前記画像認識部による認識結果に応じて異なる前記第２合成画像を前記画像に合成する
ことを特徴とする請求項１〜３のいずれか１項に記載の情報処理システム。
前記画像合成部は、前記画像認識部による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる前記第２合成画像を前記画像に合成する
ことを特徴とする請求項４記載の情報処理システム。
前記画像合成部は、人間の頭部を含む撮像画像から当該頭部に相当する部分画像を抽出し、当該部分画像を前記第２合成画像として前記画像に合成する
ことを特徴とする請求項５記載の情報処理システム。
前記画像合成部は、前記画像認識部による認識結果に応じて前記人間の顔の向き又は当該顔の表情が異なる前記第２合成画像を前記画像に合成する
ことを特徴とする請求項６記載の情報処理システム。
前記画像合成部は、合成する前記第１合成画像に応じて異なる前記第２合成画像を前記画像に合成する
ことを特徴とする請求項１〜３のいずれか１項に記載の情報処理システム。
前記画像認識部によって前記画像に含まれる物体の位置が認識された場合には、前記画像合成部は、前記物体に対する所定の位置に、前記物体に応じた前記第１合成画像を合成する
ことを特徴とする請求項１に記載の情報処理システム。
画像の認識結果に応じて異なる第１合成画像を前記画像に合成するよう表示装置に指示し、当該画像に合成された当該第１合成画像に対する所定の位置に第２合成画像を合成するよう前記表示装置に指示する画像合成指示部を備え、
前記画像に含まれる物体が属するカテゴリが認識された場合には、前記画像合成指示部は、前記画像における所定の位置に、前記カテゴリに応じた前記第１合成画像を合成するよう前記表示装置に指示する
ことを特徴とする情報処理装置。
画像の認識結果に応じて異なる第１合成画像を前記画像に合成するよう表示装置に指示し、当該画像に合成された当該第１合成画像に対する所定の位置に第２合成画像を合成するよう前記表示装置に指示する画像合成指示部を備え、
前記画像に含まれる物体の位置が認識された場合には、前記画像合成指示部は、前記物体に対する所定の位置に、前記物体に応じた前記第１合成画像を合成するよう前記表示装置に指示する
ことを特徴とする情報処理装置。