JP6857537B2

JP6857537B2 - 情報処理装置

Info

Publication number: JP6857537B2
Application number: JP2017078242A
Authority: JP
Inventors: 直之中尾; 快星長尾; 翔太浜松
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2017-04-11
Filing date: 2017-04-11
Publication date: 2021-04-14
Anticipated expiration: 2037-04-11
Also published as: JP2018180849A

Description

本発明は、画像を認識するための技術に関する。

画像認識の分野においては、認識対象となる画像データを予め用意しておいた学習データと比較して画像認識を行うという手法が知られている。特許文献１には、撮像部から取得した映像データと基準となるモデルとを比較して一致度が閾値より高い映像データを学習データとして用いることが記載されている。
特開２０１６−１９１９７３号公報

本発明は、学習データを効率よく収集して画像認識を行うことを目的とする。

本発明は、撮像装置から撮像画像を取得する取得部と、画像認識を行う画像認識部と、前記画像認識部が前記撮像装置から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、前記複数の撮像画像のうち、画像認識された前記撮像画像の前又は後に撮像された他の撮像画像において、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部とを備え、前記認識部は、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いることを特徴とする情報処理装置を提供する。

前記判断部は、画像認識された前記撮像画像と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度を用いて、前記判断を行うようにしてもよい。

前記判断部は、前記類似度が上限及び下限の範囲に収まる場合には、画像認識された前記撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれていると判断するようにしてもよい。

前記判断部は、前記類似度の前記上限又は前記下限を変更するようにしてもよい。

前記判断部は、前記学習データの量が閾値を超えている場合には、前記学習データの量が前記閾値を超えていない場合に比べて、前記類似度の上限を低くする又は前記類似度の下限を高くするようにしてもよい。

前記判断部は、画像認識された前記撮像画像を撮像したときの前記撮像装置の姿勢と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの前記撮像装置の姿勢とに基づいて、前記判断を行うようにしてもよい。

前記判断部は、画像認識された前記撮像画像の撮像時期の前又は後の期間を変更するようにしてもよい。

前記画像認識部は、前記学習データを補正して前記画像認識に用いるようにしてもよい。

本発明によれば、学習データを効率よく収集して画像認識を行うことが可能となる。

本発明の一実施形態に係る情報処理システムの構成を例示する図である。撮像表示装置のハードウェア構成の一例を示すブロック図である。情報処理装置のハードウェア構成の一例を示すブロック図である。情報処理装置に記憶されている合成画像決定テーブルの一例を示す図である。情報処理システムの機能構成の一例を示すブロック図である。情報処理システムの動作手順の一例を示すフローチャートである。撮像表示装置における表示の一例を説明するための図である。撮像表示装置における表示の一例を説明するための図である。撮像時期と学習データの対象となる撮像データとの関係を説明する図である。

以下、図面を参照して、本発明の一実施形態について説明する。
［構成］
図１は、本発明の一実施形態に係る情報処理システム１の構成を例示する図である。情報処理システム１は、画像認識を行う情報処理装置１０と、画像の撮像及び表示を行う撮像表示装置２０と、これら情報処理装置１０及び撮像表示装置２０を通信可能に接続するネットワーク９０とを備えている。ネットワーク９０は、例えばＬＡＮ（Local Area Network）またはＷＡＮ（Wide Area Network）、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいてもよい。なお、図１には、情報処理装置１０及び撮像表示装置２０を１つずつ示しているが、これらはそれぞれ複数であってもよい。

情報処理装置１０は撮像表示装置２０によって撮像された撮像画像を取得し、その撮像画像に対して画像認識を行う。このとき、情報処理装置１０は、取得した複数の撮像画像のうちのいずれかの画像認識に成功すると、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する。そして、情報処理装置１０は、画像認識した撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、その物体を含む撮像画像を画像認識するときの学習データとして用いる。

また、情報処理装置１０は、撮像表示装置２０に対して、画像認識結果に応じて異なる第１合成画像を上記撮像画像に合成し、さらにその第１合成画像に対する所定の位置に第２合成画像を合成するよう指示する。例えば、撮像表示装置２０により風景（上述した物体の一例に相当する）が撮像された場合（後述する図７（Ａ））、その風景に応じた第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される（図７（Ｂ））。この第１合成画像Ｇ１における所定の位置、ここでは第１合成画像Ｇ１が表す人間の頭部に相当する領域Ｇ２は、ブランクになっている。ユーザが撮像表示装置２０を用いて自身の顔を撮像すると（図７（Ｃ））、第１合成画像Ｇ１の領域Ｇ２に対して、撮像された顔の画像が第２合成画像Ｇ３として合成される（図７（Ｄ））。このようにすると、撮像表示装置２０に表示されている風景画像（物体）に対し、ユーザ自身の顔を持つ人間のキャラクタ画像が走っている様子が動画として合成されることになり、ユーザはこれらの画像の組み合わせや動きの面白さを見て楽しむことができる。

図２は、撮像表示装置２０のハードウェア構成を例示する図である。撮像表示装置２０は、例えばスマートホン又はタブレット或いはパーソナルコンピュータなどの通信可能なコンピュータであり、本発明における撮像装置として機能する。撮像表示装置２０は、ＣＰＵ２０１（Central Processing Unit）、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３、補助記憶装置２０４、通信ＩＦ２０５、カメラ２０６、ＵＩ装置２０７及びタイマ２０８を有する。

ＣＰＵ２０１は、各種の演算を行うプロセッサである。ＲＯＭ２０２は、例えば撮像表示装置２０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ２０３は、ＣＰＵ２０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリである。補助記憶装置２０４は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）などの不揮発性の記憶装置であり、撮像表示装置２０において用いられるプログラム及びデータを記憶する。ＣＰＵ２０１がこのプログラムを実行することにより撮像表示装置２０はコンピュータ装置として機能し、後述する図５に示される機能が実現される。通信ＩＦ２０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。この通信規格は、無線通信の規格であってもよいし、有線通信の規格であってもよい。無線の場合、通信ＩＦ２０５は、例えばＬＴＥ（Long Term Evolution）又はＷｉ−Ｆｉ（登録商標）等の通信規格で動作するアンテナ及び通信回路を備えている。カメラ２０６はレンズ及び光学素子を含み、撮像した画像を示す撮像画像データを生成する。カメラ２０６は、撮像表示装置２０の表側に設けられたインカメラと、撮像表示装置２０の裏側に設けられたアウトカメラとを含む。インカメラは主にユーザ自身を撮像するときに用いられ、アウトカメラは主にユーザ自身以外の風景等を撮像するときに用いられる。ＵＩ装置２０７は、例えばキー及びタッチセンサなどの操作子が設けられた操作部と、例えば液晶パネル及び液晶駆動回路などの表示部と、例えばスピーカ又はイヤホン用端子などの音声出力部とを含む。タイマ２０８は計時手段であり、例えばカメラ２０６による撮像時期を特定するために用いられる。なお、撮像表示装置２０は、図２に例示した構成以外に、例えばＧＰＳ（Global Positioning System）ユニットなどの他の構成を含んでいてもよい。

図３は、情報処理装置１０のハードウェア構成を例示する図である。情報処理装置１０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、補助記憶装置１０４、及び通信ＩＦ１０５を有するコンピュータ装置である。ＣＰＵ１０１は、各種の演算を行うプロセッサである。ＲＯＭ１０２は、例えば情報処理装置１０の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。ＲＡＭ１０３は、ＣＰＵ１０１がプログラムを実行する際のワークエリアとして機能する揮発性メモリある。補助記憶装置１０４は、例えばＨＤＤ又はＳＳＤなどの不揮発性の記憶装置であり、情報処理装置１０において用いられるプログラム及びデータを記憶する。ＣＰＵ１０１がこのプログラムを実行することにより、後述する図５に示される機能が実現される。通信ＩＦ１０５は、所定の通信規格に従ってネットワーク９０を介した通信を行うためのインターフェースである。情報処理装置１０は、図３に例示した構成以外に、例えばＵＩ装置などの他の構成を含んでいてもよい。

補助記憶装置１０４には、画像認識を行うための画像認識エンジンと、前述した第１合成画像を撮像表示装置２０において表示するための第１合成画像データ群と、撮像表示装置２０においてどの第１合成画像を表示するかを決定するための合成画像決定テーブルとが記憶されている。

画像認識エンジンには、画像認識を行うための学習データが含まれている。この学習データは、例えば、画像認識の対象として予め想定される物体を含む画像から抽出された特徴点の集合である。この学習データは、以下に説明するカテゴリ分類と物体検出という２種類の画像認識種別ごとに用意されている。

図４は合成画像決定テーブルを例示する図である。合成画像決定テーブルには、画像認識の認識種別と、画像認識結果と、第１合成画像を識別するための第１合成画像ＩＤと、第１合成画像の表示位置とが対応付けられている。認識種別には、カテゴリ分類と物体検出とがある。カテゴリ分類は、一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識するに留まり、その物体が画像中のどこにあるかまでは特定しないというものである。カテゴリ分類は、例えばカテゴリ又は固有名詞の名称とそのカテゴリ又は固有名詞に属する物体の画像とをディープラーニングやニューラルネットワーク等の深層学習により学習して分類するというものである。

一方、物体検出は、特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体が画像中のどこにあるか（さらにはその物体の形状や他の物体との境界）まで特定するものである。物体検出は、例えば画像の局所的な特徴抽出を行い、その抽出結果に対して統計学習手法を用いることで実現される。情報処理装置１０は撮像表示装置２０の撮像画像に対して画像認識を試み、その認識の結果、カテゴリ分類が可能な場合もあるし、カテゴリ分類のみならず物体検出も可能な場合もあるし、そのいずれもができない場合もある。

図４では、情報処理装置１０の画像認識の結果、画像中の物体について例えば「橋」というカテゴリ分類ができた場合に、分類したカテゴリ又は固有名詞に応じた第１合成画像ＩＤ「Ｃ００１」の第１合成画像がその画像中の絶対座標Ｘ１，Ｙ１に表示されるように規定されている。ここでいう絶対座標とは、撮像表示装置２０の表示領域において予め規定されたＸＹ座標軸に従う座標である。つまり、この例の場合、第１合成画像は、画像中の「橋」という物体の位置に関係なく、撮像表示装置２０の表示領域において絶対座標で指定された位置（例えば表示領域の中心部分）に合成される。

また、情報処理装置１０の画像認識の結果、画像中の物体について例えば「建物」というカテゴリ及び「時計台」と固有名詞とその画像中の位置について物体検出ができた場合には、その物体（カテゴリ又は固有名詞）に応じた第１合成画像ＩＤ「Ｃ０２０」の第１合成画像が相対座標ｘ１，ｙ１に表示されるように規定されている。ここでいう相対座標とは、検出された「時計台」という物体を基準として規定されたｘｙ座標軸（例えば物体の重心を原点としてその物体のサイズに応じた単位の目盛を持つｘｙ座標軸）に従う座標である。この例の場合、第１合成画像は、画像中の「時計台」という物体の位置に対して相対座標で指定された位置に合成されるから、画像中の「時計台」という物体の位置に応じて第１合成画像の表示位置は異なることになる。例えば、図７に示すように、第１合成画像Ｇ１は「時計台」という物体に対して、その屋根部分の重力方向上方の位置に常に表示される。

なお、補助記憶装置１０４に記憶されている各第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。例えば第１合成画像Ｇ１として、人間が走る姿を模した動画のキャラクタ画像が合成される場合（図７（Ｂ））、この第１合成画像Ｇ１において人間の頭部に相当する領域Ｇ２の位置を所定の位置として指定するデータが、この第１合成画像データに含まれている。

図５は、情報処理システム１の機能構成を示すブロック図である。図５に示すように、撮像表示装置２０においては、画像を撮像する撮像部２１と、第２合成画像を取得する第２合成画像取得部２２と、撮像部２１により撮像された画像に対して第１合成画像及び第２合成画像を合成した画像データを生成する画像データ生成部２３と、画像データ生成部２３により生成された画像データに応じた画像を表示する表示部２４とが実現される。情報処理装置１０においては、撮像表示装置２０から撮像画像を取得する取得部１１と、取得された撮像画像を認識する画像認識部１２と、画像認識部１２が撮像表示装置２０から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部１３と、画像認識部１２による認識結果に応じて異なる第１合成画像を決定する第１合成画像決定部１４と、第１合成画像決定部１４により決定された第１合成画像を撮像部２１により撮像された画像に合成し、当該画像に合成された第１合成画像に対する所定の位置に第２合成画像を合成するよう撮像表示装置２０に指示する画像合成指示部１５とが実現される。さらに、画像認識部１２は、画像認識された撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いる。

撮像部２１及び第２合成画像取得部２２は撮像表示装置２０のカメラ２０６によって実現され、画像データ生成部２３は撮像表示装置２０のＣＰＵ２０１によって実現され、表示部２４は撮像表示装置２０のＵＩ装置２０７によって実現される。取得部１１は情報処理装置１０の通信ＩＦ１０５によって実現され、画像認識部１２は情報処理装置１０のＣＰＵ１０１によって実現され、判断部１３は情報処理装置１０のＣＰＵ１０１及び補助記憶装置１０４によって実現され、第１合成画像決定部１４は情報処理装置１０のＣＰＵ１０１及び補助記憶装置１０４によって実現されと、画像合成指示部１５は情報処理装置１０のＣＰＵ１０１及び通信ＩＦ１０５によって実現される。画像データ生成部２３と画像合成指示部１５とによって、本発明に係る情報処理システムが備える画像合成部３０が実現される。この画像合成部３０は、画像認識部１２による認識結果に応じて異なる第１合成画像を、撮像部２１により撮像された画像に合成する。

［動作］
図６〜図９を参照して、情報処理システム１の表示制御の例について説明する。まず、ユーザは撮像表示装置２０の撮像部２１（アウトカメラ）を起動して、自身が所望する物体の撮像を開始する（ステップＳ１１）。撮像部２１による撮像結果は、撮像表示装置２０の表示領域にリアルタイムに表示され、撮像部２１の撮像方向が変わるとこの表示領域上の画像も変更される。例えばユーザが時計台の風景が撮像されるような向きに撮像表示装置２０を構えてユーザが所定の操作を行うと、図７（Ａ）に示すように、その撮像画像が撮像表示装置２０の表示領域に表示される。この撮像画像を示す撮像画像データは、ユーザの撮像操作があるたびに、又は、その撮像操作時点から定期的に通信ＩＦ２０５から情報処理装置１０に、タイマ１０８で計時された撮像時期とともに送信される（ステップＳ１２）。これにより、１又は複数の撮像画像データが情報処理装置１０に送信される。このとき、撮像表示装置２０は撮像画像データを適宜圧縮してデータサイズを小さくすることが望ましい。

情報処理装置１０の取得部１１が１又は複数の撮像画像データ及び撮像時期を取得すると、情報処理装置１０の画像認識部１２は、撮像画像データを画像認識エンジンに含まれる学習データと比較して画像認識を試みる（ステップＳ１３）。撮像画像データと画像認識エンジン中の学習データのいずれかとの類似度が閾値以上となり、画像認識に成功すると、第１合成画像決定部１４は、その認識結果に基づいて、撮像表示装置２０において撮像画像に合成する第１合成画像を決定する（ステップＳ１４）。ここで、画像認識部１２がカテゴリの分類に成功した場合には、第１合成画像決定部１４は、図４に例示したテーブルにおいてその物体のカテゴリに対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１５は、読み出された第１合成画像データを、図４に例示したテーブルにおいてそのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置２０に送信する（ステップＳ１５）。このとき、前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

また、物体検出に成功した場合には、第１合成画像決定部１４は、図４に例示したテーブルにおいてその物体のカテゴリ又は固有名詞に対応する第１合成画像ＩＤを特定し、その第１合成画像ＩＤの第１合成画像データを補助記憶装置１０４から読み出す。画像合成指示部１５は、読み出された第１合成画像データを、撮像表示装置２０の表示領域における物体の座標、及び図４に例示したテーブルにおいてそのカテゴリ又は固有名詞に対応する相対座標とともに、画像合成指示として撮像表示装置２０に送信する（ステップＳ１５）。このときも前述したように、第１合成画像データにおいては、第１合成画像に対する第２合成画像の表示位置を指定するデータが含まれている。

撮像表示装置２０の画像データ生成部２３は、上記の第１合成画像データ等を取得すると（ステップＳ１６）、表示部２４の撮像画像において座標（絶対座標又は相対座標）により指定された位置に第１合成画像を表示する。例えばユーザが時計台の風景を撮像した場合には、図７（Ｂ）に示すように、時計台の屋根部分の上方に人間が走る姿を模した動画の第１合成画像Ｇ１が表示される。

そして、画像データ生成部２３は、ユーザに対して第２合成画像の撮像を案内する（ステップＳ１７）。この案内は、例えば「自分の顔を撮ってください」というメッセージを表示し、撮像表示装置２０の表示領域上で顔の撮像位置を指定する、というような方法で実現すればよい。

この案内に従い、ユーザが撮像部２１（インカメラ）で自分の顔を撮像する。この場合、例えば図７（Ｃ）に示すように、ユーザの顔を含む上半身が撮像表示装置２０の表示領域に表示される。画像データ生成部２３は、この画像からユーザの頭部に相当する部分画像を画像認識技術等により抽出し、これを第２合成画像として取得する（ステップＳ１８）。そして、画像データ生成部２３は、第１合成画像及び第２合成画像を撮像画像に合成した画像データを生成し（ステップＳ１９）、この画像データに応じた画像を表示する（ステップＳ２０）。これにより例えば図７（Ｄ）に示すように、人間が走る姿を模した第１合成画像における頭部の位置にユーザの顔を示す第２合成画像が配置され、これらが時計台の屋根部分の上方に表示されることになる。

図８は、上記とは別の表示例を示した図である。例えば、撮像表示装置２０により、Ａ社からユーザに特典を与えるためのポイントカードが物体として撮像された場合（図８（Ａ））、その物体に応じた第１合成画像Ｇ４として、人間が躍る姿を模した動画のキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２２）が合成され、さらに別の第１合成画像Ｇ６として、その人間と一緒に踊るアニメのキャラクタ画像（図４における第１合成画像ＩＤ：Ｃ０２３）が合成される（図８（Ｂ））。第１合成画像Ｇ４において、人間の頭部に相当する領域Ｇ５はブランクになっている。ユーザが撮像表示装置２０を用いて自身の顔を撮像すると（図８（Ｃ））、第１合成画像Ｇ４の領域Ｇ５に対して、ユーザの顔の画像が第２合成画像Ｇ７として合成される（図８（Ｄ））。このようにすると、撮像表示装置２０に表示されているポイントカードの中で、ユーザ自身の顔を持つ人間のキャラクタ画像がアニメのキャラクタ画像とともに躍っている姿が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て楽しむことができる。

再び図６の説明に戻る。情報処理装置１０において撮像表示装置２０から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、上記のステップＳ１６〜Ｓ２０の処理と並行して、情報処理装置１０の判断部１３は、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する。例えば図９に示すように、情報処理装置１０が或る撮像表示装置２０から撮像データ１〜撮像データ８を順次取得し、これら撮像データ１〜８のうちの撮像データ５について画像認識が成功して、その撮像データ５に含まれる物体（例えば時計台）を特定できたとする。判断部１３は、撮像データの撮像時期を基準として前後に所定の期間（例えば３０秒など）を設定し、その期間内に撮像時期が含まれる撮像データ（図９の例では撮像データ３，４，６，７）を特定する。

そして、判断部１３は、画像認識が成功した撮像画像データ５と、その撮像画像データの撮像時期の前又は後に撮像された他の撮像画像データ３，４，６，７とを比較し、互いの類似度を算出する。この類似度算出は、ステップＳ１３における類似度算出と同じように行われる。判断部１３は、算出した類似度が予め決められた上限及び下限の範囲に収まる場合には、画像認識が成功した撮像画像データ５に含まれる物体と同一の物体が他の撮像画像（例えば撮像データ３，４）に含まれていると判断する（ステップＳ２１）。ここで用いる下限は、前述したステップＳ１３の画像認識で用いた閾値よりも小さい。撮像画像データ５と撮像画像データ３，４，６，７とは、撮像時期が近接しているから、上記下限が小さくても（つまり両者がそれほど類似していなくても）同一の物体が撮像された可能性が高い。また、ここで用いる上限は、ほとんど差異が無いくらいに類似した撮像データを学習データとして格納することで、補助記憶装置１０４の空き容量を無駄に使用しないようにするためである。

そして、画像認識部１２は、判断部１３によって類似度が上限及び下限の範囲に収まる他の撮像画像（例えば撮像データ３，４）の特徴点を抽出し、これらの特徴点を上述した物体（時計台）の学習データとして補助記憶装置１０４に格納して画像認識エンジンを更新する（ステップＳ２２）。これ以降、画像認識部１２は更新された画像認識エンジンを用いて画像認識を行う。なお、以上は物体検出における学習データの収集・格納の例であったが、既述のとおり、カテゴリ分類における学習データの収集・格納を上記と同じようにして行ってもよい。

以上説明した実施形態によれば、画像認識された撮像画像の前又は後に撮像された他の撮像画像のうち、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている撮像画像が、画像認識における学習データとして用いられる。画像認識が成功した撮像画像の前又は後に撮像された他の撮像画像には、画像認識が成功した撮像画像と同じ物体が含まれている可能性が高いから、このような撮像画像群から学習データを特定するようにすれば、その特定に要する時間を短くすることができ、効率がよいと言える。また、画像認識が成功した撮像画像の前又は後に撮像された他の撮像画像には、画像認識が成功した撮像画像と同じ物体が含まれている可能性が高い。よって、この判断で用いる下限としてステップＳ１３の画像認識で用いた閾値よりも小さい値を用いたとしても、画像認識が成功した撮像画像と同じ物体を含む撮像画像を特定することが可能となる。これにより、例えば同じ物体を異なる視点から撮像された撮像画像データを学習データとして収集することが可能となる。また、この判断では上限を用いるから、極めて類似する学習データが除外されることになり、補助記憶装置１０４の空き容量が無駄にならずに効率がよい。

さらに、撮像表示装置２０に表示されている撮像画像に対し、例えばユーザ自身の顔（第２合成画像）を持つ人間のキャラクタ画像（第１合成画像）が走っている動画が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て、従来にはない面白味を感じることができる。この第１合成画像は、撮像表示装置２０に表示されている撮像画像の認識結果に応じて異なるから、ユーザは様々な物体を撮像することで、どのような第１合成画像が合成されるかという期待感を感じ、また機体に対する結果を楽しむことができる。また、第２合成画像としてユーザ自身の顔の画像を用いているから、ユーザ自身が撮像画像の仮想空間にあたかも存在しているかのような感覚を楽しむことが可能となる。また、ユーザは、撮像画像に対して第１合成画像が合成されている様子を見てから、第２合成画像として自身の顔を撮像するから、合成される自身の顔の向き又は表情を撮像画像及び第１合成画像の雰囲気に合うように、例えば横を向いたりコミカルな表情又は必死な表情にしたりすることが可能となる。これもまたユーザにとっての面白味の１つとなる。

［変形例］
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
［変形例１］
実施形態において、判断部１３は、画像認識された撮像画像とその撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度が所定の上限及び下限の範囲に収まる場合には、画像認識された撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれると判断していた。ここで、画像認識エンジンに含まれる学習データの量（データサイズ）が閾値を超えていて補助記憶装置１０４の空き容量が少ないという場合には、判断部１３は、学習データのデータサイズが閾値を超えていない場合に比べて、上記の類似度の上限を低くする又は類似度の下限を高くするようにしてもよい。類似度の上限を低くすると、学習データと判断される確率が小さくなり、その結果、補助記憶装置１０４に蓄積される学習データの量が少なくなるから、補助記憶装置１０４の空き容量が節約することができる。同様に、類似度の下限を高くすると、その結果、補助記憶装置１０４に蓄積される学習データの量が少なくなるから、補助記憶装置１０４の空き容量が節約することができる。上記のいずれの場合においても、閾値と比較する学習データの量は、画像認識された撮像画像に含まれる物体についての学習データの量であってもよいし、画像認識された撮像画像に含まれる物体に関係なく、画像認識エンジンに含まれる学習データの総量であってもよい。

［変形例２］
判断部１３は、画像認識された撮像画像を撮像したときの撮像表示装置２０の姿勢（撮像姿勢という）と、その撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの撮像表示装置２０の(前後撮像姿勢という)とに基づいて、学習データの可否判断を行ってもよい。例えば、情報処理装置１０において、取得部１１は、撮像データとともに、撮像表示装置２０のジャイロセンサ等で検出された姿勢データを取得する。姿勢データから特定される撮像姿勢と前後撮像姿勢との差分が閾値以下の場合には、撮像表示装置２０の姿勢があまり変わっていないのだから撮像姿勢と前後撮像姿勢とにおいて同一の物体が撮像されている可能性が高いということになる。よって、判断部１３は、このような前後撮像姿勢で撮像された撮像データを学習データとして用いる。このようにすれば画像の類比判断を行わなくても、学習データを収集可能となる。
また、例えば、画像認識された撮像画像とその撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度が上限及び下限の範囲に収まる場合において、撮像姿勢と前後撮像姿勢との差分が閾値以上のときには、撮像姿勢と前後撮像姿勢とにおいて同一の物体が異なる視点から撮像されている可能性が高いということになる。この場合、判断部１３は、このような前後撮像姿勢で撮像された撮像データを学習データとして用いる。これにより、１つの物体を異なる視点から撮像したときの学習データを用意できることになるから、画像認識の精度が向上する。

［変形例３］
判断部１３は、上述した撮像時期の前又は後の期間を変更する手段を有してもよい。例えば撮像表示装置２０においてユーザが上記期間を変更する操作を行うと、この操作に応じて、判断部１３は、期間を変更する。また、画像認識エンジンに含まれる学習データの量（データサイズ）が閾値を超えており補助記憶装置１０４の空き容量が少ないという場合に、判断部１３は、画像認識エンジンに含まれる学習データの量（データサイズ）が閾値以下の場合に比べて、上述した撮像時期の前又は後の期間を短くしてもよい。撮像時期の前又は後の期間を短くすると、学習データと判断される撮像データの数が少なくなり、その結果、補助記憶装置１０４に蓄積される学習データの量が少なくなるから、補助記憶装置１０４の空き容量を節約することができる。

［変形例４］
画像認識部１２は、学習データを補正して画像認識に用いてもよい。ここでいう補正とは、例えば学習データにおける明度補正や彩度補正であってもよいし、撮像表示装置２０の機種に応じた補正であってもよい。撮像表示装置２０機種に応じた補正とは、撮像表示装置２０の機種ごとに撮像した画像の特性（例えば明度や彩度など）が異なるから、この機種ごとの特性の違いを小さくするような明度補正や彩度補正などである。このようにすれば画像認識の精度が向上する。

［変形例５］
図６のステップＳ２１及びＳ２２の処理を実行する時期はいつでもよい。例えばステップＳ１３〜ステップＳ１５の処理と平行して実行されてもよいし、また、所定のタイミングで過去の所定期間の分（例えば１日分）がバッチ処理として実行されてもよい。

［変形例６］
実施形態では、画像認識部１２による認識結果に応じた処理として、第１合成画像を合成していたが、画像認識部１２による認識結果に応じた処理の内容はどのようなものであってもよい。例えば情報処理装置１０が画像検索サイトを管理しており、画像認識部１２による認識結果を撮像表示装置２０に返すだけの処理を行うものであってもよい。
また、画像合成部３０は、画像認識部１２による認識結果に応じて外観が異なる第１合成画像を合成することに限らず、例えば大きさ、位置、動き又は数の少なくともいずれかが異なる第１合成画像を合成すればよい。また、第１合成画像は動画に限らず静止画であってもよい。また、画像合成部３０は、画像認識部１２による認識結果に加え、ユーザの属性又は撮像表示装置２０の位置に応じて異なる第１合成画像を合成するようにしてもよい。また、画像合成部３０は、画像認識部１２による認識結果に応じて異なる第１合成画像を合成すればよく、例えば建物を撮像したときに、その建物が設置された地面の平面を認識し、その平面上に第１構成画像を合成してもよい。このように第１合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例７］
実施形態では、画像合成部３０は、画像認識部１２による認識結果に関わらず、ユーザによって撮像された顔の画像を常に第２合成画像としていたが、画像認識部１２による認識結果に応じて異なる第２合成画像を合成するようにしてもよい。例えば事前にユーザが、様々に異なる表情又は向きの顔を自分で撮像して撮像表示装置２０の補助記憶装置２０４に記憶させておき、さらに、その顔の表情又は向きから連想するユーザの様子（例えば楽しい、悲しい、笑い顔、泣き顔、知らんぷり、無表情など）を意味するタグを付与しておく。このタグの付与は、ユーザ自身が行ってもよいし、画像認識技術を用いて撮像表示装置２０又は情報処理装置１０が行ってもよい。画像合成部３０は、画像認識部１２による認識結果に対応するタグが付与された顔の画像を第２合成画像とする。この場合、画像認識部１２による認識結果とユーザの様子を類型化したものとが対応付けられて補助記憶装置２０４に記憶されており、画像合成部３０は、画像認識部１２による認識結果に対応するタグを特定し、そのタグが付与された顔の画像データを補助記憶装置２０４から読み出す。
さらに、このような顔の表情の異同に限らず、画像合成部３０は、画像認識部１２による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる第２合成画像を合成してもよい。なお、第２合成画像は撮像画像に限らず、例えばアバター又はアニメの画像など、どのような画像であってもよい。このように第２合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例８］
画像合成部３０は、第１合成画像に応じて異なる第２合成画像を合成するようにしてもよい。例えば、撮像表示装置２０により風景が撮像された場合、その風景に応じた第１合成画像Ｇ１が合成される。画像合成部３０は、この第１合成画像Ｇ１に応じて例えば複数の第２合成画像の候補をユーザに提示し、ユーザがそのうちのいずれかを選択すると、その第２合成画像を合成する。また、複数の第２合成画像を選択的に第１合成画像に組み合わせる例として、例えば撮像された建築物を徐々に登っていく動きと位置変化をするような、人間の体を模した動画の第１合成画像に対し、その建築物の低層においては楽しそうな表情の顔の第２合成画像を組み合わせ、高層に進むにつれて苦しそうな表情の顔の第２合成画像を組み合わせるようにしてもよい。つまり、第１合成画像の動き又は位置の変化に応じて、第２合成画像を変化させてもよい。このように第２合成画像の様々な要素が第１合成画像に応じて異なるほうが、ユーザにとっての面白味が増す。

［変形例９］
第１合成画像データを情報処理装置１０が記憶するのではなく、撮像表示装置２０が記憶しておき、情報処理装置１０はどの第１合成画像データを用いるかを第１合成画像ＩＤで撮像表示装置２０に指示するだけでもよい。このようにすれば情報処理装置１０及び撮像表示装置２０間の通信データ量を削減することができる。

［変形例１０］
第１合成画像及び第２合成画像が合成される画像は、撮像部２１によってリアルタイムに撮像された画像に限らず、例えば過去に撮像部２１によって撮像された画像が補助記憶装置２０４に記憶されており、その中から選ばれたものであってもよいし、撮像表示装置２０が他の装置から取得したものであってもよい。このようにすれば、ユーザにとって、第１合成画像及び第２合成画像が合成される対象となる画像の選択の余地が広がる。

［変形例１１］
第１合成画像又は第２合成画像を広告として利用してもよい。例えば第１合成画像として、或るキャラクタがそのメーカのペットボトル（広告宣伝対象物）を持っている画像とか、そのキャラクタの服の真ん中にそのペットボトル（広告宣伝対象物）の絵が記載されている画像というような例が考えられる。また、撮像表示装置２０を或る飲料メーカのペットボトル（広告宣伝対象物）にかざすと、そのペットボトルの或る位置において第１合成画像として飲料メーカのキャラクタ画像が表示され、さらにそのキャラクタ画像に対して第２合成画像としてユーザの顔が配置されてもよい。また、例えば或る街の大規模交差点に撮像表示装置２０をかざすと、その交差点に設置されたスクリーンパネルの領域に或る第１合成画像を合成し、その第１合成画像上に広告宣伝対象物の動画の第２合成画像として再生するようにしてもよい。このようにすれば、あたかも、その街で広告が再生されているように見える。これら第１合成画像及び第２合成画像の組み合わせは、ユーザの属性又は撮像表示装置２０の位置によって変更してもよいし、広告主の支払う単価などにより変更してもよい。このようにすれば、本発明を広告に利用することが可能となる。

［その他の変形例］
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した実施形態の処理手順は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。本明細書で説明した実施形態又は変形例は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

本明細書で利用する「システム」及び「ネットワーク」という用語は、互換的に利用される。

本明細書で利用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で利用する「に基づいて」「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。「応じて」も同様である。また、「含む（including）」、「含んでいる（comprising）」、及びそれらの変形が、本明細書或いは特許請求の範囲で利用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において利用されている用語「又は（or）」は、排他的論理和ではないことが意図される。また、本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を利用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で利用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及び／又はプリント電気接続を利用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどの電磁エネルギーを利用することにより、互いに「接続」又は「結合」されると考えることができる。

本発明に係る情報処理装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。

本発明は、情報処理装置１０が行う情報処理方法、或いは、情報処理装置１０としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。このプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

１…情報処理システム、１０…情報処理装置、１１…取得部、１２…画像認識部、１３…判断部、１４…第１合成画像決定部、１５…画像合成指示部、２０…撮像表示装置、２１…撮像部、２２…第２合成画像取得部、２３…画像データ生成部、２４…表示部、９０…ネットワーク、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…補助記憶装置、１０５…通信ＩＦ、２０１…ＣＰＵ、２０２…ＲＡＭ、２０３…ＲＯＭ、２０４…補助記憶装置、２０５…通信ＩＦ、２０６…カメラ、２０７…ＵＩ装置、２０８…タイマ。

Claims

撮像装置から撮像画像を取得する取得部と、
画像認識を行う画像認識部と、
前記画像認識部が前記撮像装置から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、前記複数の撮像画像のうち、画像認識された前記撮像画像の前又は後に撮像された他の撮像画像において、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部とを備え、
前記認識部は、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いる
ことを特徴とする情報処理装置。
前記判断部は、画像認識された前記撮像画像と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度を用いて、前記判断を行う
ことを特徴とする請求項１記載の情報処理装置。
前記判断部は、前記類似度が上限及び下限の範囲に収まる場合に、画像認識された前記撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれていると判断する
ことを特徴とする請求項２記載の情報処理装置。
前記判断部は、前記類似度の前記上限又は前記下限を変更する
ことを特徴とする請求項３記載の情報処理装置。
前記判断部は、前記学習データの量が閾値を超えている場合には、前記学習データの量が前記閾値を超えていない場合に比べて、前記類似度の上限を低くする又は前記類似度の下限を高くする
ことを特徴とする請求項４記載の情報処理装置。
前記判断部は、画像認識された前記撮像画像を撮像したときの前記撮像装置の姿勢と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの前記撮像装置の姿勢とに基づいて、前記判断を行う
ことを特徴とする請求項１〜５のいずれか１項に記載の情報処理装置。
前記判断部は、画像認識された前記撮像画像の撮像時期の前又は後の期間を変更する
ことを特徴とする請求項１〜６のいずれか１項に記載の情報処理装置。
前記画像認識部は、前記学習データを補正して前記画像認識に用いる
ことを特徴とする請求項１〜７のいずれか１項に記載の情報処理装置。