JP6857537B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6857537B2
JP6857537B2 JP2017078242A JP2017078242A JP6857537B2 JP 6857537 B2 JP6857537 B2 JP 6857537B2 JP 2017078242 A JP2017078242 A JP 2017078242A JP 2017078242 A JP2017078242 A JP 2017078242A JP 6857537 B2 JP6857537 B2 JP 6857537B2
Authority
JP
Japan
Prior art keywords
image
captured
information processing
captured image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017078242A
Other languages
English (en)
Other versions
JP2018180849A (ja
Inventor
直之 中尾
直之 中尾
快星 長尾
快星 長尾
翔太 浜松
翔太 浜松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2017078242A priority Critical patent/JP6857537B2/ja
Publication of JP2018180849A publication Critical patent/JP2018180849A/ja
Application granted granted Critical
Publication of JP6857537B2 publication Critical patent/JP6857537B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像を認識するための技術に関する。
画像認識の分野においては、認識対象となる画像データを予め用意しておいた学習データと比較して画像認識を行うという手法が知られている。特許文献1には、撮像部から取得した映像データと基準となるモデルとを比較して一致度が閾値より高い映像データを学習データとして用いることが記載されている。
特開2016−191973号公報
本発明は、学習データを効率よく収集して画像認識を行うことを目的とする。
本発明は、撮像装置から撮像画像を取得する取得部と、画像認識を行う画像認識部と、前記画像認識部が前記撮像装置から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、前記複数の撮像画像のうち、画像認識された前記撮像画像の前又は後に撮像された他の撮像画像において、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部とを備え、前記認識部は、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いることを特徴とする情報処理装置を提供する。
前記判断部は、画像認識された前記撮像画像と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度を用いて、前記判断を行うようにしてもよい。
前記判断部は、前記類似度が上限及び下限の範囲に収まる場合には、画像認識された前記撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれていると判断するようにしてもよい。
前記判断部は、前記類似度の前記上限又は前記下限を変更するようにしてもよい。
前記判断部は、前記学習データの量が閾値を超えている場合には、前記学習データの量が前記閾値を超えていない場合に比べて、前記類似度の上限を低くする又は前記類似度の下限を高くするようにしてもよい。
前記判断部は、画像認識された前記撮像画像を撮像したときの前記撮像装置の姿勢と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの前記撮像装置の姿勢とに基づいて、前記判断を行うようにしてもよい。
前記判断部は、画像認識された前記撮像画像の撮像時期の前又は後の期間を変更するようにしてもよい。
前記画像認識部は、前記学習データを補正して前記画像認識に用いるようにしてもよい。
本発明によれば、学習データを効率よく収集して画像認識を行うことが可能となる。
本発明の一実施形態に係る情報処理システムの構成を例示する図である。 撮像表示装置のハードウェア構成の一例を示すブロック図である。 情報処理装置のハードウェア構成の一例を示すブロック図である。 情報処理装置に記憶されている合成画像決定テーブルの一例を示す図である。 情報処理システムの機能構成の一例を示すブロック図である。 情報処理システムの動作手順の一例を示すフローチャートである。 撮像表示装置における表示の一例を説明するための図である。 撮像表示装置における表示の一例を説明するための図である。 撮像時期と学習データの対象となる撮像データとの関係を説明する図である。
以下、図面を参照して、本発明の一実施形態について説明する。
[構成]
図1は、本発明の一実施形態に係る情報処理システム1の構成を例示する図である。情報処理システム1は、画像認識を行う情報処理装置10と、画像の撮像及び表示を行う撮像表示装置20と、これら情報処理装置10及び撮像表示装置20を通信可能に接続するネットワーク90とを備えている。ネットワーク90は、例えばLAN(Local Area Network)またはWAN(Wide Area Network)、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいてもよい。なお、図1には、情報処理装置10及び撮像表示装置20を1つずつ示しているが、これらはそれぞれ複数であってもよい。
情報処理装置10は撮像表示装置20によって撮像された撮像画像を取得し、その撮像画像に対して画像認識を行う。このとき、情報処理装置10は、取得した複数の撮像画像のうちのいずれかの画像認識に成功すると、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する。そして、情報処理装置10は、画像認識した撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、その物体を含む撮像画像を画像認識するときの学習データとして用いる。
また、情報処理装置10は、撮像表示装置20に対して、画像認識結果に応じて異なる第1合成画像を上記撮像画像に合成し、さらにその第1合成画像に対する所定の位置に第2合成画像を合成するよう指示する。例えば、撮像表示装置20により風景(上述した物体の一例に相当する)が撮像された場合(後述する図7(A))、その風景に応じた第1合成画像G1として、人間が走る姿を模した動画のキャラクタ画像が合成される(図7(B))。この第1合成画像G1における所定の位置、ここでは第1合成画像G1が表す人間の頭部に相当する領域G2は、ブランクになっている。ユーザが撮像表示装置20を用いて自身の顔を撮像すると(図7(C))、第1合成画像G1の領域G2に対して、撮像された顔の画像が第2合成画像G3として合成される(図7(D))。このようにすると、撮像表示装置20に表示されている風景画像(物体)に対し、ユーザ自身の顔を持つ人間のキャラクタ画像が走っている様子が動画として合成されることになり、ユーザはこれらの画像の組み合わせや動きの面白さを見て楽しむことができる。
図2は、撮像表示装置20のハードウェア構成を例示する図である。撮像表示装置20は、例えばスマートホン又はタブレット或いはパーソナルコンピュータなどの通信可能なコンピュータであり、本発明における撮像装置として機能する。撮像表示装置20は、CPU201(Central Processing Unit)、ROM(Read Only Memory)202、RAM(Random Access Memory)203、補助記憶装置204、通信IF205、カメラ206、UI装置207及びタイマ208を有する。
CPU201は、各種の演算を行うプロセッサである。ROM202は、例えば撮像表示装置20の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。RAM203は、CPU201がプログラムを実行する際のワークエリアとして機能する揮発性メモリである。補助記憶装置204は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶装置であり、撮像表示装置20において用いられるプログラム及びデータを記憶する。CPU201がこのプログラムを実行することにより撮像表示装置20はコンピュータ装置として機能し、後述する図5に示される機能が実現される。通信IF205は、所定の通信規格に従ってネットワーク90を介した通信を行うためのインターフェースである。この通信規格は、無線通信の規格であってもよいし、有線通信の規格であってもよい。無線の場合、通信IF205は、例えばLTE(Long Term Evolution)又はWi−Fi(登録商標)等の通信規格で動作するアンテナ及び通信回路を備えている。カメラ206はレンズ及び光学素子を含み、撮像した画像を示す撮像画像データを生成する。カメラ206は、撮像表示装置20の表側に設けられたインカメラと、撮像表示装置20の裏側に設けられたアウトカメラとを含む。インカメラは主にユーザ自身を撮像するときに用いられ、アウトカメラは主にユーザ自身以外の風景等を撮像するときに用いられる。UI装置207は、例えばキー及びタッチセンサなどの操作子が設けられた操作部と、例えば液晶パネル及び液晶駆動回路などの表示部と、例えばスピーカ又はイヤホン用端子などの音声出力部とを含む。タイマ208は計時手段であり、例えばカメラ206による撮像時期を特定するために用いられる。なお、撮像表示装置20は、図2に例示した構成以外に、例えばGPS(Global Positioning System)ユニットなどの他の構成を含んでいてもよい。
図3は、情報処理装置10のハードウェア構成を例示する図である。情報処理装置10は、CPU101、ROM102、RAM103、補助記憶装置104、及び通信IF105を有するコンピュータ装置である。CPU101は、各種の演算を行うプロセッサである。ROM102は、例えば情報処理装置10の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。RAM103は、CPU101がプログラムを実行する際のワークエリアとして機能する揮発性メモリある。補助記憶装置104は、例えばHDD又はSSDなどの不揮発性の記憶装置であり、情報処理装置10において用いられるプログラム及びデータを記憶する。CPU101がこのプログラムを実行することにより、後述する図5に示される機能が実現される。通信IF105は、所定の通信規格に従ってネットワーク90を介した通信を行うためのインターフェースである。情報処理装置10は、図3に例示した構成以外に、例えばUI装置などの他の構成を含んでいてもよい。
補助記憶装置104には、画像認識を行うための画像認識エンジンと、前述した第1合成画像を撮像表示装置20において表示するための第1合成画像データ群と、撮像表示装置20においてどの第1合成画像を表示するかを決定するための合成画像決定テーブルとが記憶されている。
画像認識エンジンには、画像認識を行うための学習データが含まれている。この学習データは、例えば、画像認識の対象として予め想定される物体を含む画像から抽出された特徴点の集合である。この学習データは、以下に説明するカテゴリ分類と物体検出という2種類の画像認識種別ごとに用意されている。
図4は合成画像決定テーブルを例示する図である。合成画像決定テーブルには、画像認識の認識種別と、画像認識結果と、第1合成画像を識別するための第1合成画像IDと、第1合成画像の表示位置とが対応付けられている。認識種別には、カテゴリ分類と物体検出とがある。カテゴリ分類は、一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識するに留まり、その物体が画像中のどこにあるかまでは特定しないというものである。カテゴリ分類は、例えばカテゴリ又は固有名詞の名称とそのカテゴリ又は固有名詞に属する物体の画像とをディープラーニングやニューラルネットワーク等の深層学習により学習して分類するというものである。
一方、物体検出は、特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体が画像中のどこにあるか(さらにはその物体の形状や他の物体との境界)まで特定するものである。物体検出は、例えば画像の局所的な特徴抽出を行い、その抽出結果に対して統計学習手法を用いることで実現される。情報処理装置10は撮像表示装置20の撮像画像に対して画像認識を試み、その認識の結果、カテゴリ分類が可能な場合もあるし、カテゴリ分類のみならず物体検出も可能な場合もあるし、そのいずれもができない場合もある。
図4では、情報処理装置10の画像認識の結果、画像中の物体について例えば「橋」というカテゴリ分類ができた場合に、分類したカテゴリ又は固有名詞に応じた第1合成画像ID「C001」の第1合成画像がその画像中の絶対座標X1,Y1に表示されるように規定されている。ここでいう絶対座標とは、撮像表示装置20の表示領域において予め規定されたXY座標軸に従う座標である。つまり、この例の場合、第1合成画像は、画像中の「橋」という物体の位置に関係なく、撮像表示装置20の表示領域において絶対座標で指定された位置(例えば表示領域の中心部分)に合成される。
また、情報処理装置10の画像認識の結果、画像中の物体について例えば「建物」というカテゴリ及び「時計台」と固有名詞とその画像中の位置について物体検出ができた場合には、その物体(カテゴリ又は固有名詞)に応じた第1合成画像ID「C020」の第1合成画像が相対座標x1,y1に表示されるように規定されている。ここでいう相対座標とは、検出された「時計台」という物体を基準として規定されたxy座標軸(例えば物体の重心を原点としてその物体のサイズに応じた単位の目盛を持つxy座標軸)に従う座標である。この例の場合、第1合成画像は、画像中の「時計台」という物体の位置に対して相対座標で指定された位置に合成されるから、画像中の「時計台」という物体の位置に応じて第1合成画像の表示位置は異なることになる。例えば、図7に示すように、第1合成画像G1は「時計台」という物体に対して、その屋根部分の重力方向上方の位置に常に表示される。
なお、補助記憶装置104に記憶されている各第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。例えば第1合成画像G1として、人間が走る姿を模した動画のキャラクタ画像が合成される場合(図7(B))、この第1合成画像G1において人間の頭部に相当する領域G2の位置を所定の位置として指定するデータが、この第1合成画像データに含まれている。
図5は、情報処理システム1の機能構成を示すブロック図である。図5に示すように、撮像表示装置20においては、画像を撮像する撮像部21と、第2合成画像を取得する第2合成画像取得部22と、撮像部21により撮像された画像に対して第1合成画像及び第2合成画像を合成した画像データを生成する画像データ生成部23と、画像データ生成部23により生成された画像データに応じた画像を表示する表示部24とが実現される。情報処理装置10においては、撮像表示装置20から撮像画像を取得する取得部11と、取得された撮像画像を認識する画像認識部12と、画像認識部12が撮像表示装置20から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部13と、画像認識部12による認識結果に応じて異なる第1合成画像を決定する第1合成画像決定部14と、第1合成画像決定部14により決定された第1合成画像を撮像部21により撮像された画像に合成し、当該画像に合成された第1合成画像に対する所定の位置に第2合成画像を合成するよう撮像表示装置20に指示する画像合成指示部15とが実現される。さらに、画像認識部12は、画像認識された撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いる。
撮像部21及び第2合成画像取得部22は撮像表示装置20のカメラ206によって実現され、画像データ生成部23は撮像表示装置20のCPU201によって実現され、表示部24は撮像表示装置20のUI装置207によって実現される。取得部11は情報処理装置10の通信IF105によって実現され、画像認識部12は情報処理装置10のCPU101によって実現され、判断部13は情報処理装置10のCPU101及び補助記憶装置104によって実現され、第1合成画像決定部14は情報処理装置10のCPU101及び補助記憶装置104によって実現されと、画像合成指示部15は情報処理装置10のCPU101及び通信IF105によって実現される。画像データ生成部23と画像合成指示部15とによって、本発明に係る情報処理システムが備える画像合成部30が実現される。この画像合成部30は、画像認識部12による認識結果に応じて異なる第1合成画像を、撮像部21により撮像された画像に合成する。
[動作]
図6〜図9を参照して、情報処理システム1の表示制御の例について説明する。まず、ユーザは撮像表示装置20の撮像部21(アウトカメラ)を起動して、自身が所望する物体の撮像を開始する(ステップS11)。撮像部21による撮像結果は、撮像表示装置20の表示領域にリアルタイムに表示され、撮像部21の撮像方向が変わるとこの表示領域上の画像も変更される。例えばユーザが時計台の風景が撮像されるような向きに撮像表示装置20を構えてユーザが所定の操作を行うと、図7(A)に示すように、その撮像画像が撮像表示装置20の表示領域に表示される。この撮像画像を示す撮像画像データは、ユーザの撮像操作があるたびに、又は、その撮像操作時点から定期的に通信IF205から情報処理装置10に、タイマ108で計時された撮像時期とともに送信される(ステップS12)。これにより、1又は複数の撮像画像データが情報処理装置10に送信される。このとき、撮像表示装置20は撮像画像データを適宜圧縮してデータサイズを小さくすることが望ましい。
情報処理装置10の取得部11が1又は複数の撮像画像データ及び撮像時期を取得すると、情報処理装置10の画像認識部12は、撮像画像データを画像認識エンジンに含まれる学習データと比較して画像認識を試みる(ステップS13)。撮像画像データと画像認識エンジン中の学習データのいずれかとの類似度が閾値以上となり、画像認識に成功すると、第1合成画像決定部14は、その認識結果に基づいて、撮像表示装置20において撮像画像に合成する第1合成画像を決定する(ステップS14)。ここで、画像認識部12がカテゴリの分類に成功した場合には、第1合成画像決定部14は、図4に例示したテーブルにおいてその物体のカテゴリに対応する第1合成画像IDを特定し、その第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。画像合成指示部15は、読み出された第1合成画像データを、図4に例示したテーブルにおいてそのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置20に送信する(ステップS15)。このとき、前述したように、第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。
また、物体検出に成功した場合には、第1合成画像決定部14は、図4に例示したテーブルにおいてその物体のカテゴリ又は固有名詞に対応する第1合成画像IDを特定し、その第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。画像合成指示部15は、読み出された第1合成画像データを、撮像表示装置20の表示領域における物体の座標、及び図4に例示したテーブルにおいてそのカテゴリ又は固有名詞に対応する相対座標とともに、画像合成指示として撮像表示装置20に送信する(ステップS15)。このときも前述したように、第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。
撮像表示装置20の画像データ生成部23は、上記の第1合成画像データ等を取得すると(ステップS16)、表示部24の撮像画像において座標(絶対座標又は相対座標)により指定された位置に第1合成画像を表示する。例えばユーザが時計台の風景を撮像した場合には、図7(B)に示すように、時計台の屋根部分の上方に人間が走る姿を模した動画の第1合成画像G1が表示される。
そして、画像データ生成部23は、ユーザに対して第2合成画像の撮像を案内する(ステップS17)。この案内は、例えば「自分の顔を撮ってください」というメッセージを表示し、撮像表示装置20の表示領域上で顔の撮像位置を指定する、というような方法で実現すればよい。
この案内に従い、ユーザが撮像部21(インカメラ)で自分の顔を撮像する。この場合、例えば図7(C)に示すように、ユーザの顔を含む上半身が撮像表示装置20の表示領域に表示される。画像データ生成部23は、この画像からユーザの頭部に相当する部分画像を画像認識技術等により抽出し、これを第2合成画像として取得する(ステップS18)。そして、画像データ生成部23は、第1合成画像及び第2合成画像を撮像画像に合成した画像データを生成し(ステップS19)、この画像データに応じた画像を表示する(ステップS20)。これにより例えば図7(D)に示すように、人間が走る姿を模した第1合成画像における頭部の位置にユーザの顔を示す第2合成画像が配置され、これらが時計台の屋根部分の上方に表示されることになる。
図8は、上記とは別の表示例を示した図である。例えば、撮像表示装置20により、A社からユーザに特典を与えるためのポイントカードが物体として撮像された場合(図8(A))、その物体に応じた第1合成画像G4として、人間が躍る姿を模した動画のキャラクタ画像(図4における第1合成画像ID:C022)が合成され、さらに別の第1合成画像G6として、その人間と一緒に踊るアニメのキャラクタ画像(図4における第1合成画像ID:C023)が合成される(図8(B))。第1合成画像G4において、人間の頭部に相当する領域G5はブランクになっている。ユーザが撮像表示装置20を用いて自身の顔を撮像すると(図8(C))、第1合成画像G4の領域G5に対して、ユーザの顔の画像が第2合成画像G7として合成される(図8(D))。このようにすると、撮像表示装置20に表示されているポイントカードの中で、ユーザ自身の顔を持つ人間のキャラクタ画像がアニメのキャラクタ画像とともに躍っている姿が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て楽しむことができる。
再び図6の説明に戻る。情報処理装置10において撮像表示装置20から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、上記のステップS16〜S20の処理と並行して、情報処理装置10の判断部13は、これら複数の撮像画像のうち、画像認識された撮像画像の前又は後に撮像された他の撮像画像において、画像認識された撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する。例えば図9に示すように、情報処理装置10が或る撮像表示装置20から撮像データ1〜撮像データ8を順次取得し、これら撮像データ1〜8のうちの撮像データ5について画像認識が成功して、その撮像データ5に含まれる物体(例えば時計台)を特定できたとする。判断部13は、撮像データの撮像時期を基準として前後に所定の期間(例えば30秒など)を設定し、その期間内に撮像時期が含まれる撮像データ(図9の例では撮像データ3,4,6,7)を特定する。
そして、判断部13は、画像認識が成功した撮像画像データ5と、その撮像画像データの撮像時期の前又は後に撮像された他の撮像画像データ3,4,6,7とを比較し、互いの類似度を算出する。この類似度算出は、ステップS13における類似度算出と同じように行われる。判断部13は、算出した類似度が予め決められた上限及び下限の範囲に収まる場合には、画像認識が成功した撮像画像データ5に含まれる物体と同一の物体が他の撮像画像(例えば撮像データ3,4)に含まれていると判断する(ステップS21)。ここで用いる下限は、前述したステップS13の画像認識で用いた閾値よりも小さい。撮像画像データ5と撮像画像データ3,4,6,7とは、撮像時期が近接しているから、上記下限が小さくても(つまり両者がそれほど類似していなくても)同一の物体が撮像された可能性が高い。また、ここで用いる上限は、ほとんど差異が無いくらいに類似した撮像データを学習データとして格納することで、補助記憶装置104の空き容量を無駄に使用しないようにするためである。
そして、画像認識部12は、判断部13によって類似度が上限及び下限の範囲に収まる他の撮像画像(例えば撮像データ3,4)の特徴点を抽出し、これらの特徴点を上述した物体(時計台)の学習データとして補助記憶装置104に格納して画像認識エンジンを更新する(ステップS22)。これ以降、画像認識部12は更新された画像認識エンジンを用いて画像認識を行う。なお、以上は物体検出における学習データの収集・格納の例であったが、既述のとおり、カテゴリ分類における学習データの収集・格納を上記と同じようにして行ってもよい。
以上説明した実施形態によれば、画像認識された撮像画像の前又は後に撮像された他の撮像画像のうち、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている撮像画像が、画像認識における学習データとして用いられる。画像認識が成功した撮像画像の前又は後に撮像された他の撮像画像には、画像認識が成功した撮像画像と同じ物体が含まれている可能性が高いから、このような撮像画像群から学習データを特定するようにすれば、その特定に要する時間を短くすることができ、効率がよいと言える。また、画像認識が成功した撮像画像の前又は後に撮像された他の撮像画像には、画像認識が成功した撮像画像と同じ物体が含まれている可能性が高い。よって、この判断で用いる下限としてステップS13の画像認識で用いた閾値よりも小さい値を用いたとしても、画像認識が成功した撮像画像と同じ物体を含む撮像画像を特定することが可能となる。これにより、例えば同じ物体を異なる視点から撮像された撮像画像データを学習データとして収集することが可能となる。また、この判断では上限を用いるから、極めて類似する学習データが除外されることになり、補助記憶装置104の空き容量が無駄にならずに効率がよい。
さらに、撮像表示装置20に表示されている撮像画像に対し、例えばユーザ自身の顔(第2合成画像)を持つ人間のキャラクタ画像(第1合成画像)が走っている動画が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て、従来にはない面白味を感じることができる。この第1合成画像は、撮像表示装置20に表示されている撮像画像の認識結果に応じて異なるから、ユーザは様々な物体を撮像することで、どのような第1合成画像が合成されるかという期待感を感じ、また機体に対する結果を楽しむことができる。また、第2合成画像としてユーザ自身の顔の画像を用いているから、ユーザ自身が撮像画像の仮想空間にあたかも存在しているかのような感覚を楽しむことが可能となる。また、ユーザは、撮像画像に対して第1合成画像が合成されている様子を見てから、第2合成画像として自身の顔を撮像するから、合成される自身の顔の向き又は表情を撮像画像及び第1合成画像の雰囲気に合うように、例えば横を向いたりコミカルな表情又は必死な表情にしたりすることが可能となる。これもまたユーザにとっての面白味の1つとなる。
[変形例]
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
[変形例1]
実施形態において、判断部13は、画像認識された撮像画像とその撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度が所定の上限及び下限の範囲に収まる場合には、画像認識された撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれると判断していた。ここで、画像認識エンジンに含まれる学習データの量(データサイズ)が閾値を超えていて補助記憶装置104の空き容量が少ないという場合には、判断部13は、学習データのデータサイズが閾値を超えていない場合に比べて、上記の類似度の上限を低くする又は類似度の下限を高くするようにしてもよい。類似度の上限を低くすると、学習データと判断される確率が小さくなり、その結果、補助記憶装置104に蓄積される学習データの量が少なくなるから、補助記憶装置104の空き容量が節約することができる。同様に、類似度の下限を高くすると、その結果、補助記憶装置104に蓄積される学習データの量が少なくなるから、補助記憶装置104の空き容量が節約することができる。上記のいずれの場合においても、閾値と比較する学習データの量は、画像認識された撮像画像に含まれる物体についての学習データの量であってもよいし、画像認識された撮像画像に含まれる物体に関係なく、画像認識エンジンに含まれる学習データの総量であってもよい。
[変形例2]
判断部13は、画像認識された撮像画像を撮像したときの撮像表示装置20の姿勢(撮像姿勢という)と、その撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの撮像表示装置20の(前後撮像姿勢という)とに基づいて、学習データの可否判断を行ってもよい。例えば、情報処理装置10において、取得部11は、撮像データとともに、撮像表示装置20のジャイロセンサ等で検出された姿勢データを取得する。姿勢データから特定される撮像姿勢と前後撮像姿勢との差分が閾値以下の場合には、撮像表示装置20の姿勢があまり変わっていないのだから撮像姿勢と前後撮像姿勢とにおいて同一の物体が撮像されている可能性が高いということになる。よって、判断部13は、このような前後撮像姿勢で撮像された撮像データを学習データとして用いる。このようにすれば画像の類比判断を行わなくても、学習データを収集可能となる。
また、例えば、画像認識された撮像画像とその撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度が上限及び下限の範囲に収まる場合において、撮像姿勢と前後撮像姿勢との差分が閾値以上のときには、撮像姿勢と前後撮像姿勢とにおいて同一の物体が異なる視点から撮像されている可能性が高いということになる。この場合、判断部13は、このような前後撮像姿勢で撮像された撮像データを学習データとして用いる。これにより、1つの物体を異なる視点から撮像したときの学習データを用意できることになるから、画像認識の精度が向上する。
[変形例3]
判断部13は、上述した撮像時期の前又は後の期間を変更する手段を有してもよい。例えば撮像表示装置20においてユーザが上記期間を変更する操作を行うと、この操作に応じて、判断部13は、期間を変更する。また、画像認識エンジンに含まれる学習データの量(データサイズ)が閾値を超えており補助記憶装置104の空き容量が少ないという場合に、判断部13は、画像認識エンジンに含まれる学習データの量(データサイズ)が閾値以下の場合に比べて、上述した撮像時期の前又は後の期間を短くしてもよい。撮像時期の前又は後の期間を短くすると、学習データと判断される撮像データの数が少なくなり、その結果、補助記憶装置104に蓄積される学習データの量が少なくなるから、補助記憶装置104の空き容量を節約することができる。
[変形例4]
画像認識部12は、学習データを補正して画像認識に用いてもよい。ここでいう補正とは、例えば学習データにおける明度補正や彩度補正であってもよいし、撮像表示装置20の機種に応じた補正であってもよい。撮像表示装置20機種に応じた補正とは、撮像表示装置20の機種ごとに撮像した画像の特性(例えば明度や彩度など)が異なるから、この機種ごとの特性の違いを小さくするような明度補正や彩度補正などである。このようにすれば画像認識の精度が向上する。
[変形例5]
図6のステップS21及びS22の処理を実行する時期はいつでもよい。例えばステップS13〜ステップS15の処理と平行して実行されてもよいし、また、所定のタイミングで過去の所定期間の分(例えば1日分)がバッチ処理として実行されてもよい。
[変形例6]
実施形態では、画像認識部12による認識結果に応じた処理として、第1合成画像を合成していたが、画像認識部12による認識結果に応じた処理の内容はどのようなものであってもよい。例えば情報処理装置10が画像検索サイトを管理しており、画像認識部12による認識結果を撮像表示装置20に返すだけの処理を行うものであってもよい。
また、画像合成部30は、画像認識部12による認識結果に応じて外観が異なる第1合成画像を合成することに限らず、例えば大きさ、位置、動き又は数の少なくともいずれかが異なる第1合成画像を合成すればよい。また、第1合成画像は動画に限らず静止画であってもよい。また、画像合成部30は、画像認識部12による認識結果に加え、ユーザの属性又は撮像表示装置20の位置に応じて異なる第1合成画像を合成するようにしてもよい。また、画像合成部30は、画像認識部12による認識結果に応じて異なる第1合成画像を合成すればよく、例えば建物を撮像したときに、その建物が設置された地面の平面を認識し、その平面上に第1構成画像を合成してもよい。このように第1合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。
[変形例7]
実施形態では、画像合成部30は、画像認識部12による認識結果に関わらず、ユーザによって撮像された顔の画像を常に第2合成画像としていたが、画像認識部12による認識結果に応じて異なる第2合成画像を合成するようにしてもよい。例えば事前にユーザが、様々に異なる表情又は向きの顔を自分で撮像して撮像表示装置20の補助記憶装置204に記憶させておき、さらに、その顔の表情又は向きから連想するユーザの様子(例えば楽しい、悲しい、笑い顔、泣き顔、知らんぷり、無表情など)を意味するタグを付与しておく。このタグの付与は、ユーザ自身が行ってもよいし、画像認識技術を用いて撮像表示装置20又は情報処理装置10が行ってもよい。画像合成部30は、画像認識部12による認識結果に対応するタグが付与された顔の画像を第2合成画像とする。この場合、画像認識部12による認識結果とユーザの様子を類型化したものとが対応付けられて補助記憶装置204に記憶されており、画像合成部30は、画像認識部12による認識結果に対応するタグを特定し、そのタグが付与された顔の画像データを補助記憶装置204から読み出す。
さらに、このような顔の表情の異同に限らず、画像合成部30は、画像認識部12による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる第2合成画像を合成してもよい。なお、第2合成画像は撮像画像に限らず、例えばアバター又はアニメの画像など、どのような画像であってもよい。このように第2合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。
[変形例8]
画像合成部30は、第1合成画像に応じて異なる第2合成画像を合成するようにしてもよい。例えば、撮像表示装置20により風景が撮像された場合、その風景に応じた第1合成画像G1が合成される。画像合成部30は、この第1合成画像G1に応じて例えば複数の第2合成画像の候補をユーザに提示し、ユーザがそのうちのいずれかを選択すると、その第2合成画像を合成する。また、複数の第2合成画像を選択的に第1合成画像に組み合わせる例として、例えば撮像された建築物を徐々に登っていく動きと位置変化をするような、人間の体を模した動画の第1合成画像に対し、その建築物の低層においては楽しそうな表情の顔の第2合成画像を組み合わせ、高層に進むにつれて苦しそうな表情の顔の第2合成画像を組み合わせるようにしてもよい。つまり、第1合成画像の動き又は位置の変化に応じて、第2合成画像を変化させてもよい。このように第2合成画像の様々な要素が第1合成画像に応じて異なるほうが、ユーザにとっての面白味が増す。
[変形例9]
第1合成画像データを情報処理装置10が記憶するのではなく、撮像表示装置20が記憶しておき、情報処理装置10はどの第1合成画像データを用いるかを第1合成画像IDで撮像表示装置20に指示するだけでもよい。このようにすれば情報処理装置10及び撮像表示装置20間の通信データ量を削減することができる。
[変形例10]
第1合成画像及び第2合成画像が合成される画像は、撮像部21によってリアルタイムに撮像された画像に限らず、例えば過去に撮像部21によって撮像された画像が補助記憶装置204に記憶されており、その中から選ばれたものであってもよいし、撮像表示装置20が他の装置から取得したものであってもよい。このようにすれば、ユーザにとって、第1合成画像及び第2合成画像が合成される対象となる画像の選択の余地が広がる。
[変形例11]
第1合成画像又は第2合成画像を広告として利用してもよい。例えば第1合成画像として、或るキャラクタがそのメーカのペットボトル(広告宣伝対象物)を持っている画像とか、そのキャラクタの服の真ん中にそのペットボトル(広告宣伝対象物)の絵が記載されている画像というような例が考えられる。また、撮像表示装置20を或る飲料メーカのペットボトル(広告宣伝対象物)にかざすと、そのペットボトルの或る位置において第1合成画像として飲料メーカのキャラクタ画像が表示され、さらにそのキャラクタ画像に対して第2合成画像としてユーザの顔が配置されてもよい。また、例えば或る街の大規模交差点に撮像表示装置20をかざすと、その交差点に設置されたスクリーンパネルの領域に或る第1合成画像を合成し、その第1合成画像上に広告宣伝対象物の動画の第2合成画像として再生するようにしてもよい。このようにすれば、あたかも、その街で広告が再生されているように見える。これら第1合成画像及び第2合成画像の組み合わせは、ユーザの属性又は撮像表示装置20の位置によって変更してもよいし、広告主の支払う単価などにより変更してもよい。このようにすれば、本発明を広告に利用することが可能となる。
[その他の変形例]
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
本明細書で説明した実施形態の処理手順は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。本明細書で説明した実施形態又は変形例は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
本明細書で利用する「システム」及び「ネットワーク」という用語は、互換的に利用される。
本明細書で利用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で利用する「に基づいて」「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。「応じて」も同様である。また、「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書或いは特許請求の範囲で利用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において利用されている用語「又は(or)」は、排他的論理和ではないことが意図される。また、本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を利用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で利用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及び/又はプリント電気接続を利用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどの電磁エネルギーを利用することにより、互いに「接続」又は「結合」されると考えることができる。
本発明に係る情報処理装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。
本発明は、情報処理装置10が行う情報処理方法、或いは、情報処理装置10としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。このプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
1…情報処理システム、10…情報処理装置、11…取得部、12…画像認識部、13…判断部、14…第1合成画像決定部、15…画像合成指示部、20…撮像表示装置、21…撮像部、22…第2合成画像取得部、23…画像データ生成部、24…表示部、90…ネットワーク、101…CPU、102…RAM、103…ROM、104…補助記憶装置、105…通信IF、201…CPU、202…RAM、203…ROM、204…補助記憶装置、205…通信IF、206…カメラ、207…UI装置、208…タイマ。

Claims (8)

  1. 撮像装置から撮像画像を取得する取得部と、
    画像認識を行う画像認識部と、
    前記画像認識部が前記撮像装置から取得された複数の撮像画像のうちのいずれかの画像認識に成功すると、前記複数の撮像画像のうち、画像認識された前記撮像画像の前又は後に撮像された他の撮像画像において、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれているか否かを判断する判断部とを備え、
    前記認識部は、画像認識された前記撮像画像に含まれる物体と同一の物体が含まれている他の撮像画像を、当該物体を含む撮像画像を画像認識するときの学習データとして用いる
    ことを特徴とする情報処理装置。
  2. 前記判断部は、画像認識された前記撮像画像と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像との類似度を用いて、前記判断を行う
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記判断部は、前記類似度が上限及び下限の範囲に収まる場合に、画像認識された前記撮像画像に含まれる物体と同一の物体が他の撮像画像に含まれていると判断する
    ことを特徴とする請求項2記載の情報処理装置。
  4. 前記判断部は、前記類似度の前記上限又は前記下限を変更する
    ことを特徴とする請求項3記載の情報処理装置。
  5. 前記判断部は、前記学習データの量が閾値を超えている場合には、前記学習データの量が前記閾値を超えていない場合に比べて、前記類似度の上限を低くする又は前記類似度の下限を高くする
    ことを特徴とする請求項4記載の情報処理装置。
  6. 前記判断部は、画像認識された前記撮像画像を撮像したときの前記撮像装置の姿勢と、当該撮像画像の撮像時期の前又は後に撮像された他の撮像画像を撮像したときの前記撮像装置の姿勢とに基づいて、前記判断を行う
    ことを特徴とする請求項1〜5のいずれか1項に記載の情報処理装置。
  7. 前記判断部は、画像認識された前記撮像画像の撮像時期の前又は後の期間を変更する
    ことを特徴とする請求項1〜6のいずれか1項に記載の情報処理装置。
  8. 前記画像認識部は、前記学習データを補正して前記画像認識に用いる
    ことを特徴とする請求項1〜7のいずれか1項に記載の情報処理装置。
JP2017078242A 2017-04-11 2017-04-11 情報処理装置 Active JP6857537B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017078242A JP6857537B2 (ja) 2017-04-11 2017-04-11 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017078242A JP6857537B2 (ja) 2017-04-11 2017-04-11 情報処理装置

Publications (2)

Publication Number Publication Date
JP2018180849A JP2018180849A (ja) 2018-11-15
JP6857537B2 true JP6857537B2 (ja) 2021-04-14

Family

ID=64276694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078242A Active JP6857537B2 (ja) 2017-04-11 2017-04-11 情報処理装置

Country Status (1)

Country Link
JP (1) JP6857537B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4995770B2 (ja) * 2008-05-21 2012-08-08 日本電信電話株式会社 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
JP5385752B2 (ja) * 2009-10-20 2014-01-08 キヤノン株式会社 画像認識装置、その処理方法及びプログラム

Also Published As

Publication number Publication date
JP2018180849A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
JP6750046B2 (ja) 情報処理装置及び情報処理方法
CN109635621B (zh) 用于第一人称视角中基于深度学习识别手势的系统和方法
CN108525305B (zh) 图像处理方法、装置、存储介质及电子设备
JP6151323B2 (ja) 動的テンプレート追跡
JP6730461B2 (ja) 情報処理システム及び情報処理装置
CN109688451B (zh) 摄像机效应的提供方法及系统
US20170046568A1 (en) Systems and methods of identifying a gesture using gesture data compressed by principal joint variable analysis
KR102106135B1 (ko) 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
CN110716645A (zh) 一种增强现实数据呈现方法、装置、电子设备及存储介质
US11836764B2 (en) Media collection navigation with opt-out interstitial
CN111640202B (zh) 一种ar场景特效生成的方法及装置
CN112560605B (zh) 交互方法、装置、终端、服务器和存储介质
CN108491804B (zh) 一种棋局展示的方法、相关装置及系统
JP7068745B2 (ja) 学習済モデル提案システム、学習済モデル提案方法、およびプログラム
CN113487709A (zh) 一种特效展示方法、装置、计算机设备以及存储介质
CN112308977B (zh) 视频处理方法、视频处理装置和存储介质
KR102476619B1 (ko) 전자 장치 및 이의 제어 방법
JP6857537B2 (ja) 情報処理装置
CN115393962A (zh) 动作识别方法、头戴显示设备和存储介质
CN111625101B (zh) 一种展示控制方法及装置
CN111510582A (zh) 用于提供具有虚拟角色的图像的设备
CN111627097B (zh) 一种虚拟景物的展示方法及装置
CN111625099B (zh) 一种动画展示控制方法及装置
JPWO2017149778A1 (ja) 鏡、画像表示方法及びプログラム
CN112560556A (zh) 动作行为图像生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210322

R150 Certificate of patent or registration of utility model

Ref document number: 6857537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250