JP6930547B2

JP6930547B2 - 情報処理装置、情報処理方法およびそのプログラム

Info

Publication number: JP6930547B2
Application number: JP2018564169A
Authority: JP
Inventors: 石川　毅; 毅石川
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-01-27
Filing date: 2017-12-20
Publication date: 2021-09-01
Anticipated expiration: 2037-12-20
Also published as: WO2018139117A1; CN110214343A; JPWO2018139117A1; KR102410840B1; US11037370B2; CN110214343B; KR20190109410A; US20200134921A1

Description

本技術は、主にＡＲ（Augmented Reality）を用いた情報処理装置、その方法およびプログラムに関する。

特許文献１に記載された画像処理装置は、実世界を映した入力画像を取得し、この入力画像に所定の処理を実行する。例えば画像処理装置は、実世界（入力画像内）に存在する３次元モデルに含まれるオブジェクトのうち、ユーザにより検索等によって指定されたオブジェクトに対応する入力画像内の部分画像を加工し、強調画像を生成する（明細書段落［００４４］、［００５８］）。

特許文献２には、パーソナルコンピュータなどに取り込んだ音楽を再生する際、それに合わせて、再生する音楽に合う画像をモニタに表示させるようなアプリケーションが存在することが開示されている（明細書段落［０００２］参照。）。また、特許文献２に記載された再生制御装置は、再生が指示された音声データに付加されているタイムコードと同タイムコードが付加されている画像データを取得し、音声データをスピーカに出力させる。そして、再生制御装置は、取得した画像データを、音声データのサウンドパターンに合わせたエフェクトを施してディスプレイに表示させる（明細書段落［００２３］参照。）。

特開2012-79129号公報特開2007-35121号公報

近年、ＡＲ技術を利用した様々なデバイスやシステムが開発されているが、ユーザがさらに楽しめるような工夫や改善が求められる。

本開示の目的は、ユーザの興趣の向上を図ることができる情報処理装置、情報処理方法およびそのプログラムを提供することにある。

上記目的を達成するため、一形態に係る情報処理装置は、認識部と、処理部とを具備する。
前記認識部は、実空間の物体を認識するように構成される。
前記処理部は、音楽の特徴量に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成される。

これにより、ユーザは、実空間の物体が音楽に連動するように表示される画像を観て楽しむことができ、ユーザの興趣の向上を図ることができる。

前記処理部は、前記物体の種類に関連付けられた視覚エフェクト処理を実行するように構成されていてもよい。

前記処理部は、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成されていてもよい。これにより、ユーザは、周波数帯域ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。

前記処理部は、前記特徴量として前記音楽の音源の位置情報を取得し、前記音源の位置ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成されていてもよい。これにより、ユーザは、音源の位置ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。

前記処理部は、前記複数の対象物体画像に異なる複数の視覚エフェクト処理をそれぞれ実行するように構成されていてもよい。これにより、ユーザは、周波数帯域ごと、または、音源の位置ごとに異なる視覚エフェクトを体感することができる。

前記処理部は、前記特徴量として前記音楽のテンポの情報を取得し、前記テンポに応じて前記視覚エフェクト処理を実行するように構成されていてもよい。

前記処理部は、前記特徴量として前記音楽の調の情報を取得し、前記調に応じて前記視覚エフェクト処理を実行するように構成されていてもよい。

前記処理部は、前記音楽のデータに付随するメタ情報を取得し、前記メタ情報に基づき、前記視覚エフェクト処理を実行するように構成されていてもよい。

前記メタ情報は、前記視覚エフェクト処理に関する設定の情報である視覚エフェクト設定情報を含んでいてもよい。

前記情報処理装置は、前記音楽のデータから前記特徴量を抽出する特徴量抽出部をさらに具備してもよい。すなわち、この情報処理装置は、音楽のデータから特徴量を動的に抽出して視覚エフェクト処理を実行することができる。

前記情報処理装置は、前記特徴量、前記物体、および前記視覚エフェクト処理の内容のうち少なくとも１つを、ユーザに設定させる処理を実行するように構成された設定部をさらに具備してもよい。

前記情報処理装置は、前記情報処理装置の周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備してもよい。前記処理部は、前記周辺環境の情報に基づき、前記視覚エフェクト処理をさらに実行するように構成されていてもよい。これにより、情報処理装置は、情報処理装置の周辺の環境に応じた視覚エフェクト表示が可能となる。

前記周辺環境取得部は、前記情報処理装置の位置情報、前記情報処理装置が置かれる自然環境情報、または、ユーザの生体情報を、前記周辺環境の情報として取得するように構成されていてもよい。

他の形態に係る情報処理装置は、上記認識部と、処理部とを具備する。
前記処理部は、音楽のデータに付随するメタ情報に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成される。

一形態に係る情報処理方法は、実空間の物体を認識することを含む。
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理が実行される。

他の形態に係る情報処理方法は、実空間の物体を認識することを含む。
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理が実行される。

一形態に係るプログラムは、上記情報処理方法を、情報処理装置（コンピュータ）に実行させるものである。

以上、本技術によれば、ユーザの興趣の向上を図ることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

図１は、本技術の実施形態１に係る情報処理装置の構成を示すブロック図である。図２は、図１に示す情報処理装置の動作を示すフローチャートである。図３は、実施形態１における視覚エフェクト処理による合成画像の例１を示す。図４は、実施形態１における視覚エフェクト処理による合成画像の例２を示す。図５は、実施形態１における視覚エフェクト処理による合成画像の例３を示す。図６は、実施形態１における視覚エフェクト処理による合成画像の例４を示す。図７は、本技術の実施形態２に係る情報処理装置の構成を示すブロック図である。図８は、図７に示す情報処理装置の動作を示すフローチャートである。図９は、本技術の実施形態３に係る情報処理装置の構成を示すブロック図である。図１０は、図９に示す情報処理装置の動作を示すフローチャートである。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

１．実施形態１

１．１）情報処理装置の構成
図１は、本技術の実施形態１に係る情報処理装置の構成を示すブロック図である。情報処理装置１００は、例えば、スマートフォン、タブレット型コンピュータ、ヘッドマウントディスプレイデバイス、また、その他の携帯型、ウェアラブル型、または非携帯型のコンピュータである。あるいは、情報処理装置１００は、本技術に最適化された専用のデバイスであってもよい。

情報処理装置１００は、例えば、カメラ１０、画像認識部１１、音楽データ記憶部１５、再生処理部１６、特徴量抽出部１７、処理部１３、表示部１４、スピーカー１８、操作部１９を備える。

画像認識部（認識部）１１は、カメラ１０でリアルタイムで撮影されている画像、または、過去に撮影された画像、すなわち実空間を映した画像（以下、実空間画像と言う。）を解析し、実空間内にある物体を認識する機能を有する。カメラ１０で撮影される実空間画像は、静止画または動画のどちらでもよい。

画像認識部１１は、実空間画像を公知のアルゴリズムで処理および解析することで、実空間画像内の物体を特定し、認識する。公知のアルゴリズムとしては、例えばブロック処理、フィルタ処理、コントラスト処理、セグメンテーション、フーリエ変換、離散コサイン変換、オブジェクト解析、テクスチャ解析等が挙げられる。

また、画像認識部１１は、解析された物体を、物体の種類に分類して特定する機能を有する。物体の種類とは、例えば建築物、橋、街灯、光源、車両、人間、山、川、海、花、机、椅子、本、ペン、カップ、皿などであり、物体の種類ごとに予め識別子（ＩＤ）が対応する。以下、これを物体ＩＤと言う。この物体ＩＤは、情報処理装置１００が持つ図示しないメモリに予め記憶されていてもよいし、情報処理装置１００がアクセス可能なクラウド上のサーバに記憶されていてもよい。

音楽データ記憶部１５は、音楽（曲）のデータを記憶する機能を有する。

再生処理部１６は、音楽データ記憶部１５に記憶された音楽データを再生してスピーカー１８に出力する機能を有する。

例えば再生処理部１６は、デコード部１６１や図示しないＤＡＣ（ＤＡ変換部）１６３を有する。デコード部１６１で所定のコーデックでコード化された音楽データをデコードし、ＤＡＣ１６３を介してスピーカー１８にアナログ信号を出力する。

情報処理装置１００は、スピーカー１８の代わりに、またはこれに加えて、音声出力端子を備えていてもよい。音声出力端子には、ヘッドフォンやイヤフォンが接続可能とされる。

特徴量抽出部１７は、デコードされた音楽データから音楽の特徴量を抽出する機能を有する。特徴量とは、周波数帯域（または周波数帯域ごとの信号レベル）、音源の位置、テンポ、または調（長調、短調などのキー）が挙げられる。

処理部１３は、上記特徴量抽出部１７で抽出された音楽の特徴量に応じて、画像認識部１１で認識された物体の画像である対象物体画像に視覚エフェクト処理を実行する機能を有する。処理部１３は、例えばエフェクト画像生成部１３１および重畳部１３３を有する。

エフェクト画像生成部１３１は、画像認識部１１により認識された対象物体画像（に対応する物体ＩＤ）に基づき、視覚エフェクト処理のためのエフェクト画像を生成する。エフェクト画像は、静止画でも動画でもどちらでもよい。

重畳部１３３は、エフェクト画像生成部１３１で生成されたエフェクト画像を実空間画像に重畳し、それにより得られる合成画像を生成する。例えば、認識された物体ＩＤとエフェクト画像の種類は、予め関連付けられていればよい。

あるいは、情報処理装置１００が、上記物体ＩＤとエフェクト画像の種類の関連付けを示すテーブルをクラウド上のサーバからダウンロードしてもよい。

物体ＩＤの使用は必須の要素ではない。この場合、エフェクト画像生成部１３１は、対象物体画像（物体）の形態（形状、大きさ、または色等）に基づき公知のＡＲのアルゴリズムでエフェクト画像を生成することができる。

表示部１４は、処理部１３で生成された合成画像を表示する。操作部１９は、ユーザによる操作情報を受け付ける機能を有する。操作部１９は、タッチパネルのように表示部１４と一体型であってもよいし、あるいは、表示部１４とは別体であってもよい。

情報処理装置１００は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等の図示しないハードウェアを備えている。情報処理装置１００は、ＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、ＤＳＰ（Digital Signal Processor）、ＧＰＵ（Graphics Processing Unit）等の他のハードウェアを備えていてもよい。これらハードウェアと、メモリに記憶されたソフトウェアとの協働により、情報処理装置１００の各機能が実現される。

１．２）情報処理装置の動作

図２は、情報処理装置１００の動作を示すフローチャートである。例えばユーザの操作により、音楽データ記憶部１５から音楽データが選択され、再生処理部１６により再生される（ステップ１０１）。特徴量抽出部１７により音楽の特徴量が抽出される（ステップ１０２）。カメラ１０による撮像（または撮影開始）により実空間画像が取得される（または取得が開始される）（ステップ１０３）と、画像認識部１１により実空間画像内の物体が認識される（ステップ１０４）。この物体の画像が、視覚エフェクト処理の対象となる対象物体画像とされる。

ステップ１０１−１０２と、ステップ１０３−１０４の順序は逆でも同時でもよい。すなわち、ステップ１０３が先でステップ１０１が後でもよく、あるいは同時でもよい。

処理部１３は、抽出された特徴量に応じて、エフェクト画像を生成し、生成されたエフェクト画像を、上記対象物体画像を含む実空間画像に重畳して合成画像を生成し、これを表示する（ステップ１０５）。

例えば、後述するように対象物体画像が複数ある場合、処理部１３は、特徴量の値ごとに複数の対象物体画像を割り当て、それら複数の対象物体画像に視覚エフェクト処理を実行する。

なお、本実施形態１では、特徴量抽出部１７は、典型的には、音楽データの再生中にリアルタイムでその特徴量を抽出する。情報処理装置１００は、その音楽データについて、一度抽出した特徴量をストレージに保存しておく機能を有していてもよい。これにより、２度目以降にその音楽データの再生する場合に、特徴量の抽出処理を省略することができる。

１．３）視覚エフェクト処理による合成画像の例

１．３．１）例１
図３は、視覚エフェクト処理による合成画像の例１を示す。例１に係る実空間画像は夜の道路の風景である。音楽の特徴量は、例えば周波数帯域ごとの信号レベルである。画像認識部１１は、街灯や照明（あるいは、所定の面積以上の光源７０）の画像を対象物体画像として認識する。処理部１３は、再生されている音楽の周波数帯域に応じて、光源７０の周囲にエフェクト画像としてリング７２を重畳する。すなわち、処理部１３は、周波数帯域ごとに複数の異なる光源（対象物体画像）７０ａ、７０ｂ、７０ｃを割り当て、それら複数の対象物体画像に視覚エフェクト処理を実行する。

例１では、例えば光源の面積が小さい場合（第１の閾値以下の場合）、高音域（第１の周波数帯域）に応じたエフェクト画像として１つのリング７２の画像が生成される（光源７０ａ参照）。光源の面積が中ぐらいの場合（第１の閾値を超え、それより大きい第２の閾値以下の場合）、中音域（第２の周波数帯域）に応じたエフェクト画像として２つのリング７２の画像が生成される（光源７０ｂ参照）。光源の面積が大きい場合（第２の閾値を超える場合）、低音域（第３の周波数帯域）に応じたエフェクト画像として３つのリング７２の画像が生成される（光源７０ｃ参照）。

これらのリング７２によるエフェクト画像は、例えば、高音域の光源周囲の１つリング７２が点滅したり、低音域および中音域の複数の同心のリング７２が内側から順に点灯したりするなどのアニメーション画像により構成される。

あるいは、リング７２の数、大きさ、色濃度等が、周波数帯域ごとの信号レベルに応じて変わるようなエフェクト画像が生成されてもよい。対象物体画像が街灯や光源の場合に、エフェクト画像はリングに限られず、塗りつぶしの円や、その他の形態であってもよい。

画像認識部１１は、対象物体画像の光源としての認識基準として、光源の面積に代えて、あるいはこれに加えて、光源の輝度または明度を用いてもよい。

以上のように、この情報処理装置１００は、ユーザが現在聴いている音楽に連動したリズミカルなエフェクト画像を含む合成画像をユーザに提示することができる。ユーザはその合成画像を観て楽しむことができ、ユーザの興趣の向上を図ることができる。

また、情報処理装置１００は特徴量抽出部１７を備えるので、再生される音楽のデータから特徴量を動的に抽出して視覚エフェクト処理を実行することができる。

また、ユーザは、特徴量として周波数帯域ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。

１．３．２）例２
図４は、視覚エフェクト処理による合成画像の例２を示す。例２に係る実空間画像は、ビルディング群の風景である。音楽の特徴量は、例えば周波数帯域ごとの信号レベルである。画像認識部１１は、建物７５を認識する。処理部１３は、再生されている音楽の周波数帯域に応じて、エフェクト画像として、当該建物７５の外形またはそれに似た外形を持つ画像７７を建物に重畳する。エフェクト画像は、例えば上下に伸縮するようなアニメーション画像で構成される。

例２では、例えば高音域には小さいフットプリントの建物７５ａの画像（対象物体画像）、低音域には大きいフットプリントの建物７５ｂの画像が割り当てられ、これらの建物の画像にそれぞれエフェクト画像が重畳される。

処理部１３は、エフェクト画像７７に加えて、建物７５の対象物体画像の視認性を下げるような視覚エフェクト処理も実行してもよい。これにより、エフェクト画像７７の視認性が相対的に高まる。

１．３．３）例３
図５は、視覚エフェクト処理による合成画像の例３を示す。例３に係る実空間画像は、主に夜空の風景である。画像認識部１１は、実空間画像の輝度（または明度）、色、およびその他の条件に基づき夜空を認識する。処理部１３は、再生されている音楽の周波数帯域に応じて、エフェクト画像として、異なる大きさの花火８０のアニメーションを夜空の画像（対象物体画像）に重畳する。例えば、低音なら大きい花火、高音なら小さい花火のエフェクト画像が生成される。花火８０を観る観客の対象物体画像にも、音楽に連動する動く視覚エフェクト処理が実行されてもよい。

画像認識部１１による認識の結果、空の輝度（または明度）が閾値を超える場合（例えば明るい昼空などの場合）、処理部１３は、その空の明度を下げる、つまり昼空を夜空に変えるエフェクト画像を生成してもよい。そして処理部はその夜空に花火８０のエフェクト画像を重畳してもよい。これにより、ユーザは昼空であっても花火の視覚エフェクトを楽しむことができる。

１．３．４）例４
図６は、視覚エフェクト処理による合成画像の例４を示す。例４に係る実空間画像は、図３と同様に、対象物体画像として光源７０の画像を含む。特徴量抽出部１７は、音楽の特徴量として、音源の位置を抽出する。処理部１３は、それら音源の位置ごとに光源７０の画像（対象物体画像）を割り当て、視覚エフェクト処理を実行する。

例えば、音楽データがステレオのデータである場合において、図６に示すように、実空間画像内で、左および右側にそれぞれ配置された光源７０ａ、７０ｂにエフェクト画像がそれぞれ重畳される。例えば再生されている音楽が左側のみのデータである場合、左側の光源７０ａにのみエフェクト画像（リング７２）が重畳され、再生されている音楽が右側のみのデータである場合、右側の光源７０ｂにのみエフェクト画像が重畳される。

また、特徴量抽出部１７は、音源の位置ごとの信号レベルも抽出し、処理部１３は、それらの信号レベルに応じて、対象物体画像に視覚エフェクト処理を実行してもよい。例えば処理部１３は、それらの信号レベルに応じて、それぞれのリング７２の数を変化させることができる。この場合、処理部１３は、信号レベルが大きいほど、リング７２の数を多くするようなエフェクト画像を生成すればよい。

また、音楽データが5.1chサラウンドシステムを採用する場合、処理部１３は、さらに多くの音源の位置を、実空間画像を奥行きも含めた３次元空間内で割り当てる。これにより、奥行きを含めた３次元空間内の各位置に配置された対象物体画像に、音楽に連動した視覚エフェクト処理が可能となる。

１．３．５）例５
特徴量抽出部１７は、音楽の特徴量として、テンポ（スピード）を抽出してもよい。図３のような光源７０を含む実空間画像を例に挙げると、処理部１３は、スローテンポな曲の場合には、大きな面積（または高い輝度）の光源７０ｃにもにリング７２を重畳する。一方、処理部１３は、アップテンポな曲の場合には、光源７０の面積（または輝度）の大小を問わず、それらの光源７０にリング７２を重畳する。

あるいは、スローテンポな曲の場合には、遅い動きのアニメーション、アップテンポな曲の場合には、速い動きのアニメーションのエフェクト画像が生成されてもよい。

２．実施形態２

２．１）情報処理装置の構成

図７は、本技術の実施形態２に係る情報処理装置の構成を示すブロック図である。これ以降の説明では、図１等に示した実施形態に係る情報処理装置１００が含む機能について実質的に同様の要素については同一の符号を付し、その説明を簡略化または省略し、異なる点を中心に説明する。

実施形態２に係る情報処理装置２００は、メタ情報を記憶するメタ情報記憶部２０を備える。メタ情報記憶部２０は、例えば音楽のデータに付随するメタ情報を記憶する。音楽データに付随するメタ情報として、例えば曲のタイトル、歌詞、歌手などの書誌情報が挙げられる。あるいは、メタ情報として、その音楽データに予め関連付けられた物体ＩＤが挙げられる。

また、メタ情報記憶部２０は、視覚エフェクト処理を設定するための視覚エフェクト設定情報を、メタ情報として記憶することもできる。

処理部１３は、メタ情報記憶部２０に記憶されたメタ情報を取得し、取得したメタ情報に基づき、視覚エフェクト処理を実行するように構成される。

２．２）情報処理装置の動作

図８は、実施形態２に係る情報処理装置２００の動作を示すフローチャートである。ステップ２０１〜２０４は、図２に示したステップ１０１〜１０４と同じである。

処理部１３はメタ情報を取得する（ステップ２０５）。処理部１３は、メタ情報に基づき、再生される音楽の特徴量に応じて、このエフェクト画像を、対象物体画像を含む実空間画像に重畳して合成画像を生成し、これを表示する（ステップ２０６）。以下、このステップ２０６の処理について、いくつかの例を挙げて説明する。

２．２．１）動作例１
処理部１３は、メタ情報として歌詞またはタイトルを取得したとする。処理部１３は、歌詞またはタイトル内のワードに、予め決められたキーワードがあるか否かを判定する。キーワードがあれば、処理部１３は、そのキーワードに対応するエフェクト画像を生成する。例えば、キーワードとして「花」がある場合、予め決められた花のエフェクト画像を生成する。処理部１３は、その花のエフェクト画像を、任意の実空間画像内に重畳して表示する。

２．２．２）動作例２
処理部１３は、上記処理例１と同様に、メタ情報として歌詞またはタイトルを取得し、かつ、物体ＩＤを取得したとする。処理部１３は、この歌詞またはタイトル内のワードに、予め決められたキーワードがあるか否かを判定する。また処理部１３は、画像認識部１１により認識される対象物体画像の物体の種類が、取得した物体ＩＤと一致するか否かを判定する。歌詞またはタイトル内にキーワードがあり、かつ、対象物体画像の物体の種類が物体ＩＤと一致する場合、処理部１３は、キーワードに対応するエフェクト画像を生成する。そして処理部１３は、そのエフェクト画像を、その対象物体画像を含む実空間画像に重畳して表示する。

例えばキーワードが「花」である場合であって、物体ＩＤに対応する物体として、画像認識部１１により花が認識された場合、処理部１３は、その花に関する視覚エフェクト処理を、花として認識された対象物体画像に実行する。

２．２．３）動作例３
処理部１３は、歌詞やタイトル等の音楽データに関する情報の他、視覚エフェクト処理に関する設定情報（視覚エフェクト設定情報）を含むメタ情報を取得する。視覚エフェクト設定情報は、例えば、視覚エフェクトの強度（表示の大きさや面積）、表示スピード、表示頻度、表示色など、視覚エフェクト処理を設定するめの情報である。

例えば処理部１３は、動作例２と同様に、歌詞またはタイトル内にキーワードがあり、かつ、対象物体画像の物体の種類が物体ＩＤと一致する場合、その視覚エフェクト設定情報にしたがって、視覚エフェクト処理を実行する。

処理部１３は、視覚エフェクト設定情報として、例えば曲の時系列のパートごとに使用されるエフェクト画像（そのエフェクト画像がどのようなものであるか）を示す情報を取得するようにしてもよい。例えばこの場合、視覚エフェクト設定情報は、１曲中の、イントロ部分、第１パート部分、第２パート部分、およびサビにそれぞれ使用されるエフェクト画像を示す情報である。あるいは、視覚エフェクト設定情報は、パートによっては視覚エフェクト処理を停止する、といった情報でもよい。

なお、動作例２、３においても、実施形態１で説明したように物体ＩＤの使用は必須の要素ではない。

２．２．４）他の動作例
例えば、メタ情報に「灯り」のキーワードが含まれている場合、画像認識部１１は、そのキーワードに応じて実空間画像内の光源領域を認識してもよい。

以上のように、情報処理装置２００はメタ情報を利用することで、音楽に連動して、メタ情報に基づく多彩な視覚エフェクト処理を実行することができる。

３．実施形態３

図９は、本技術の実施形態３に係る情報処理装置の構成を示すブロック図である。この情報処理装置３００は、特徴量抽出部１７（図１、７参照）を有していない。また、情報処理装置３００は、図７に示す情報処理装置２００と同様に、メタ情報記憶部２０を備える。

図１０は、この情報処理装置３００の動作を示すフローチャートである。ステップ３０１〜３０４は、図２に示したステップ２０１、２０３〜２０５と同じである。処理部１３は、メタ情報に基づき、対象物体画像を含む実空間画像にエフェクト画像を重畳して合成画像を生成し、これを表示する（ステップ３０５）。この場合、処理部１３は特徴量に関係なく、例えば音楽が再生されている間、あるいは、音楽の再生音量に連動して、視覚エフェクト処理を実行すればよい。

４．実施形態４

本技術の実施形態４に係る情報処理装置は、図示しないが、例えばユーザが操作部１９（図１等参照）を介して操作入力を行うための設定機能（設定部）を備えている。設定内容としては、例えば音楽の特徴量の種類、物体（物体ＩＤ）、および／または、視覚エフェクト処理の内容である。

例えば当該設定部は、図示しない設定画面を表示部１４に表示させる。ユーザの操作部１９を介した入力操作により、音楽の特徴量の種類、物体、および／または、視覚エフェクト処理の内容が選択され、設定される。すなわち、ユーザが望む特徴量、物体、および／または、視覚エフェクト処理内容が設定される。視覚エフェクト処理内容とは、例えばどのようなエフェクト画像を使用するか、および／または、上述した視覚エフェクト設定情報である。

例えば、物体の選択方法として、タッチパネル式の表示部１４に表示された物体の画像にユーザがタップすることにより、物体を選択することができる。

視覚エフェクト処理内容の選択方法として、ユーザは、例えば１つの物体に対応する複数種類のエフェクト画像から１以上のエフェクト画像を選択する。例えば上述した視覚エフェクト設定情報についても同様である。

本実施形態４によれば、ユーザは、自身が好む視覚エフェクトを楽しむことができる。例えば、ユーザは、自身の性格や好みに応じて、動きが少ない控えめなエフェクト画像を設定したり、動きが激しく大きいエフェクト画像を設定することができる。

５．実施形態５

実施形態５に係る情報処理装置は、図示しないが、周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備する。実施形態４に関連するこの実施形態５として、情報処理装置は、例えば上記周辺環境の情報に基づき設定された１以上の視覚エフェクト処理内容を優先的にユーザに提示するように構成される。ユーザは、操作部１９を介してその１以上の視覚エフェクト処理内容を選択することができる。

周辺環境の情報とは、例えば情報処理装置の位置情報、情報処理装置が置かれる自然環境情報、または、ユーザの生体情報である。位置情報には、マップ上の２次元位置に限られず、高度を含む３次元位置や、方位の情報が含まれていてもよい。自然環境情報としては、例えば天候、気圧、花粉量、方位が挙げられる。ユーザの生体情報としては、例えば体温、血圧、心拍数、ランニングスピードなどが挙げられる。

本実施形態５に係る情報処理装置は、自然環境情報またはユーザの生体情報を検出するセンサを備えていればよい。例えば天候や花粉量などの情報は、サーバから取得されるようにすればよい。

本実施形態５によれば、ユーザは、周辺環境または自身の生体情報に適した、効果的な視覚エフェクトを楽しむことができる。

６．他の種々の実施形態

本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。なお、以下に示す各種の例では、実施形態３で説明したように、音楽の特徴量の使用は必須ではない。特徴量を使用しない場合、音楽が再生されている間、または、音楽の再生音量に連動して、視覚エフェクト処理が実行され得る。

６．１）例１
情報処理装置は、上述した周辺環境として、ユーザの動きの情報を取得し、その動きの情報、および／または、特徴量に応じて、視覚エフェクトを処理を実行してもよい。ユーザの動きの情報として、例えば心拍数、腕振り、ランニングスピードなどが挙げられる。

例えば、心拍数が大きい場合、暖色（例えば赤色）系のエフェクト画像が生成される。逆に、心拍数が小さい場合、寒色（例えば青色）系のエフェクト画像が生成れる。

６．２）例２
情報処理装置が適用されるデバイスは、上述したスマートフォン等だけでなく、プロジェクタであってもよい。プロジェクタにより、窓やドアにプロジェクションマッピングするような視覚エフェクト処理が実行され得る。

６．３）例３
ユーザは、情報処理装置を利用して音楽を聴きく傾向が高い場所では、予め設定された視覚エフェクト処理が実行されてもよい。当該場所も予め設定されていてもよい。すなわち、所定の場所でユーザがこの情報処理装置で音楽を聴くと、所定の視覚エフェクト処理が実行される。

ユーザは、その場所で効果的な視覚エフェクト処理内容の情報を登録し、または他のユーザとシェアできるシステムが構築されてもよい。このシステムの具体例として、ユーザは、視覚エフェクト処理内容の情報を、マップ上の店舗の位置に関連付けて、情報処理装置またはサーバに登録（記憶）できるシステムが挙げられる。あるいは、マップ上の店舗位置に限られず、その店内の対象物体画像に視覚エフェクト処理内容の情報が関連付けられてもよい。

６．４）例４
例えば、本技術は広告等に利用されるデジタルサイネージにも適用され得る。この場合、情報処理装置の表示部１４は、デジタルサイネージに利用される表示部１４である。処理部１３は、その表示部１４に映っている実空間画像に対して、音楽に基づく視覚エフェクト処理が実行される。音楽データは、例えばその広告主や店舗が提供する音楽、あるいは、そのデジタルサイネージのディスプレイの周囲からマイクロフォンで検出される音楽であってもよい。

６．５）例５
例えば、音楽はユーザの歌声であってもよい。この場合、情報処理装置は、ユーザの歌声を検出するマイクロフォンと、音楽データとして記憶する記憶部とを備える。記憶部は、クラウド上のサーバにあってもよい。

６．６）例６
情報処理装置は、音楽の歌詞内容やタイトル内容を解析する解析部を備えていてもよい。解析部は、その解析に基づき、ストーリーの要約や、キーワードを生成するように構成される。例えば生成された要約やキーワードに「灯り」が含まれる場合であって、かつ、対象物体画像として光源の画像が実空間画像に含まれる場合、処理部１３は、その光源の画像に視覚エフェクト処理を実行できる。

６．７）他の各種の例
上記各実施形態に係る情報処理装置において、例えば画像認識部１１、音楽データ記憶部１５、デコード部１６１、特徴量抽出部１７、処理部１３、メタ情報記憶部２０、および上記６．６）例６で説明した解析部のうち少なくとも１つは、情報処理装置がアクセス可能なクラウド上のサーバが有する機能であってもよい。

例えば、上記サーバが特徴量抽出部１７の機能を有する場合、処理部１３は、サーバから音楽の特徴量データをダウンロードするように構成される。この場合、情報処理装置１００は、ユーザにより選択された個々の音楽データを識別する識別情報をサーバに送信し、サーバはその識別情報に対応する音楽の特徴量を抽出し、これを情報処理装置に送信する。この場合、サーバが、音楽データ記憶部１５の機能を有し、音楽データおよびその識別情報を関連付けて記憶しておいてもよい。

あるいは、上記サーバがメタ情報記憶部２０の機能を有する場合、処理部１３は、サーバからメタ情報をダウンロードするように構成される。この場合、情報処理装置は、ユーザにより選択された音楽データを識別する識別情報をサーバに送信し、サーバはその識別情報に対応するメタ情報を、情報処理装置に送信する。この場合、サーバが、音楽データ記憶部１５の機能を有し、音楽データ、その識別情報、およびメタ情報を関連付けて記憶しておいてもよい。

上記各実施形態では、処理部１３は、１つの種類の特徴量に応じて、視覚エフェクト処理を実行したが、複数種類の特徴量に応じて処理を実行してもよい。すなわち、処理部１３は、周波数帯域、音源の位置、テンポ、および調のうち少なくとも２つの組み合わせに応じて処理を実行してもよい。

上記各実施形態における認識部（画像認識部）は、実空間を映した画像内の物体を認識するように構成された。しかし、認識部は、実空間を計測して物体を認識するように構成されていてもよい。例えばこの場合、認識部は、レーザ、電波、および／または超音波を利用して物体の認識を行うことができる。あるいは、認識部は、実空間の計測による物体認識と、画像認識による物体認識の両方を行うようにしてもよい。

以上説明した各形態の特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。

なお、本技術は以下のような構成もとることができる。
（１）
実空間の物体を認識するように構成された認識部と、
音楽の特徴量に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成された処理部と
を具備する情報処理装置。
（２）
前記（１）に記載の情報処理装置であって、
前記処理部は、前記物体の種類に関連付けられた視覚エフェクト処理を実行するように構成される
情報処理装置。
（３）
前記（１）または（２）に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成される
情報処理装置。
（４）
前記（１）または（２）に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の音源の位置情報を取得し、前記音源の位置ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成される
情報処理装置。
（５）
前記（３）または（４）に記載の情報処理装置であって、
前記処理部は、前記複数の対象物体画像に異なる複数の視覚エフェクト処理をそれぞれ実行するように構成される
情報処理装置。
（６）
前記（１）または（２）に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽のテンポの情報を取得し、前記テンポに応じて前記視覚エフェクト処理を実行するように構成される
情報処理装置。
（７）
前記（１）または（２）に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の調の情報を取得し、前記調に応じて前記視覚エフェクト処理を実行するように構成される
情報処理装置。
（８）
前記（１）から（７）のうちいずれか１項に記載の情報処理装置であって、
前記処理部は、前記音楽のデータに付随するメタ情報を取得し、前記メタ情報に基づき、前記視覚エフェクト処理を実行するように構成される
情報処理装置。
（９）
前記（８）に記載の情報処理装置であって、
前記メタ情報は、前記視覚エフェクト処理に関する設定の情報である視覚エフェクト設定情報を含む
情報処理装置。
（１０）
前記（１）から（９）のうちいずれか１項に記載の情報処理装置であって、
前記音楽のデータから前記特徴量を抽出する特徴量抽出部をさらに具備する情報処理装置。
（１１）
前記（１）から（１０）のうちいずれか１項に記載の情報処理装置であって、
前記特徴量、前記物体、および前記視覚エフェクト処理の内容のうち少なくとも１つを、ユーザーに設定させる処理を実行するように構成された設定部をさらに具備する情報処理装置。
（１２）
前記（１）から（１０）のうちいずれか１項に記載の情報処理装置であって、
前記情報処理装置の周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備し、
前記処理部は、前記周辺環境の情報に基づき、前記視覚エフェクト処理をさらに実行するように構成される
情報処理装置。
（１３）
前記（１２）に記載の情報処理装置であって、
前記周辺環境取得部は、前記情報処理装置の位置情報、前記情報処理装置が置かれる自然環境情報、または、ユーザーの生体情報を、前記周辺環境の情報として取得するように構成される
情報処理装置。
（１４）
実空間の物体を認識するように構成された認識部と、
音楽のデータに付随するメタ情報に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成された処理部と
を具備する情報処理装置。
（１５）
実空間の物体を認識し、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
を具備する情報処理方法。
（１６）
実空間の物体を認識し、
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
を具備する情報処理方法。
（１７）
実空間の物体を認識し、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
ことを情報処理装置に実行させるプログラム。
（１８）
実空間の物体を認識し、
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
ことを情報処理装置に実行させるプログラム。

１０…カメラ
１１…画像認識部
１３…処理部
１４…表示部
１５…音楽データ記憶部
１６…再生処理部
１７…特徴量抽出部
１８…スピーカー
１９…操作部
２０…メタ情報記憶部
１００、２００、３００…情報処理装置

Claims

実空間の物体を認識するように構成された認識部と、
音楽の特徴量に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成された処理部と
を具備し、
前記処理部は、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成される
情報処理装置。
請求項１に記載の情報処理装置であって、
前記処理部は、前記物体の種類に関連付けられた視覚エフェクト処理を実行するように構成される
情報処理装置。
請求項１又は２に記載の情報処理装置であって、
前記処理部は、前記複数の対象物体画像に異なる複数の視覚エフェクト処理をそれぞれ実行するように構成される
情報処理装置。
請求項１から３のうちいずれか１項に記載の情報処理装置であって、
前記処理部は、前記音楽のデータに付随するメタ情報を取得し、前記メタ情報に基づき、前記視覚エフェクト処理を実行するように構成される
情報処理装置。
請求項４に記載の情報処理装置であって、
前記メタ情報は、前記視覚エフェクト処理に関する設定の情報である視覚エフェクト設定情報を含む
情報処理装置。
請求項１から５のうちいずれか１項に記載の情報処理装置であって、
前記音楽のデータから前記特徴量を抽出する特徴量抽出部をさらに具備する情報処理装置。
請求項１から６のうちいずれか１項に記載の情報処理装置であって、
前記特徴量、前記物体、および前記視覚エフェクト処理の内容のうち少なくとも１つを、ユーザーに設定させる処理を実行するように構成された設定部をさらに具備する情報処理装置。
請求項１から６のうちいずれか１項に記載の情報処理装置であって、
前記情報処理装置の周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備し、
前記処理部は、前記周辺環境の情報に基づき、前記視覚エフェクト処理をさらに実行するように構成される
情報処理装置。
請求項８に記載の情報処理装置であって、
前記周辺環境情報取得部は、前記情報処理装置の位置情報、前記情報処理装置が置かれる自然環境情報、または、ユーザーの生体情報を、前記周辺環境の情報として取得するように構成される
情報処理装置。
コンピュータにより実行される情報処理方法であって、
実空間の物体を認識する認識ステップと、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する処理ステップと
を具備し、
前記処理ステップは、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行する
情報処理方法。
コンピュータに情報処理方法を実行させるプログラムであって、
前記情報処理方法は、
実空間の物体を認識する認識ステップと、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する処理ステップと
を具備し、
前記処理ステップは、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行する
プログラム。