JP7234555B2

JP7234555B2 - 情報処理装置、および情報処理方法、プログラム、情報処理システム

Info

Publication number: JP7234555B2
Application number: JP2018179845A
Authority: JP
Inventors: 英三郎板倉; 健山口
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2023-03-08
Anticipated expiration: 2038-09-26
Also published as: CN112771891A; US20210345058A1; WO2020066644A1; CN112771891B; JP2020053791A; US11546713B2

Description

本開示は、情報処理装置、および情報処理方法、プログラム、情報処理システムに関し、特に、複数の受聴者の動きに追従して、複数の受聴者に対して同時に適切な音声を受聴できるようにした情報処理装置、および情報処理方法、プログラム、情報処理システムに関する。

受聴者の動きに追従して、受聴者の存在する位置に対して適切な音声を受聴できるようにする技術が提案されている（特許文献１乃至３参照）。

特開２００５－２９５１８１号公報特開２０１２－１７５１６２号公報特開２０１２－２５３７０７号公報

しかしながら、特許文献１乃至３のいずれにおいても、特定の受聴者の動きに追従して適切に音声を受聴させることはできるが、複数の受聴者の動きに追従して、複数の受聴者に対して同時に適切な音声を受聴させることができなかった。

本開示は、このような状況に鑑みてなされたものであり、特に、複数の受聴者の動きに追従して、複数の受聴者に同時に適切な音声を受聴させる。

本開示の一側面の情報処理装置、およびプログラム、並びに情報処理システムは、人の位置の変化を検出する検出部と、前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部と、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え、前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する情報処理装置、およびプログラム、並びに情報処理システムである。

本開示の一側面の情報処理方法は、情報処理装置に対応する。

本開示の一側面においては、人の位置の変化が検出され、検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場が伝送されるように波面合成により音声が出力され、検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールが生成され、前記スケジュールに応じて、検出された人の位置の変化に追従して、前記波面合成により音声が出力される。

本開示の広告提示システムの概要を説明する図である。波面合成により実現される音声例を説明する図である。図１の広告提示システムにおける情報処理装置のハードウェア構成を説明するハードウェアブロック図である。図３の情報処理装置により実現される機能を説明する機能ブロック図である。動き推定を説明する図である。第１の実施の形態における出力処理を説明するフローチャートである。領域毎に音声を出力し画像を表示する例を説明する図である。領域毎に音声を出力し画像を表示する例を説明する図である。領域毎に音声を出力し画像を表示する例を説明する図である。領域毎に音声を出力し画像を表示する例を説明する図である。領域毎に音声を出力し画像を表示する例を説明する図である。第２の実施の形態における領域毎に音声を出力し画像を表示する場合の出力処理を説明するフローチャートである。距離に応じた音量の減衰を説明する図である。第３の実施の形態における距離に応じて音量を減衰する場合の出力処理を説明するフローチャートである。同時に複数の受聴者に個別の指示を出す例を説明する図である。同時に複数の受聴者に個別の指示を出す例を説明する図である。第４の実施の形態における同時に複数の受聴者に個別の指示を出す場合の出力処理を説明するフローチャートである。受聴者に対して受聴可能なコンテンツを視覚的に提示する例を説明する図である。受聴者に対して受聴可能なコンテンツを視覚的に提示する例を説明する図である。第５の実施の形態における受聴者の属性に応じた出力処理を説明するフローチャートである。ライブ会場の音声および画像を再現会場で再現する例を説明する図である。図２１の情報処理装置のハードウェア構成を説明するハードウェアブロック図である。図２２の情報処理装置により実現される機能を説明する機能ブロック図である。ライブ会場におけるアーティストの動き推定結果を再現会場における動き推定結果に変換する例を説明する図である。第６の実施の形態におけるライブ会場の音声および画像を再現会場で再現する場合の出力処理を説明するフローチャートである。汎用のパーソナルコンピュータの構成例を説明する図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．第３の実施の形態
４．第４の実施の形態
５．変形例
６．第５の実施の形態
７．第６の実施の形態
８．ソフトウェアにより実行させる例

＜＜１．第１の実施の形態＞＞
＜本開示の概要＞
図１を参照して、本開示の広告提示システムの概要について説明する。

図１の広告提示システム１は、デジタルサイネージとも言われる、画像と音声による広告を、通路等を通行する通行人に提示するシステムである。

広告提示システム１は、図１で示されるように、情報処理装置１１、センサ１２、表示部１３－１乃至１３－３、およびマルチスピーカシステム１４から構成され、表示部１３－１乃至１３－３、およびマルチスピーカシステム１４は、通路１５に沿って設けられている。尚、表示部１３－１乃至１３－３のそれぞれを特定する必要がない場合、単に、表示部１３と称するものとし、他の構成も同様に称する。

センサ１２は、通路を通行する、広告を受聴（視聴）する受聴者としての通行人の位置を検出し、情報処理装置１１に出力する。センサ１２は、例えば、通路を撮像するカメラであり、通路上における通行人の位置を画像として撮像し、撮像した画像を検出結果として情報処理装置１１に出力する。尚、センサ１２は、通路に存在する通行人の位置を検出するためのセンサであればよいので、カメラ以外であってもよく、例えば、通行人の通過に伴う重さにより位置を検出するセンサや通路上にレーザ光を投光する投光部と受光部とからなるセンサにより、通行人の通行に伴って遮光される領域を通行人の位置として検出するようにしてもよい。ただし、以降においては、センサ１２は、通路１５の画像を撮像して、情報処理装置１１に出力するものとして説明を進める。

情報処理装置１１は、センサ１２により撮像された画像に基づいて、通路における通行人の位置、移動速度、および移動方向を検出して、通行人の所定の時間だけ未来の動きを推定して、所定の時間だけ未来の所定のタイミングにおいて推定される推定位置において、通行人が適切な音声として受聴可能な広告の音声をマルチスピーカシステム１４より広告の音声を出力させると共に、推定位置に最も近い表示部１３において広告の画像を表示させる。

表示部１３－１乃至１３－３は、LCD（Liquid Crystal Display）や有機EL（Electro Luminescence）からなるディスプレイであり、通行人が通行する通路１５に沿って設けられている。尚、図１においては、表示部１３は、表示部１３－１乃至１３－３の３個である例が示されているが、３個以外の個数であってもよい。また、表示部１３は１個であってもよく、所定のタイミングにおける推定位置に最も近い表示部１３上の領域に広告の画像を表示させるようにしてもよい。

マルチスピーカシステム１４は、複数のスピーカから構成されており、それぞれのスピーカを用いた波面合成により、スピーカの設けられた面の前後を含む様々な位置に音源があるかのような音声を出力させる。ここでいう波面合成とは、複数のスピーカからの音声出力を調整することで、音声の仮想音源の位置を様々に変化させて空間的な音場を形成し、伝送する処理である。

マルチスピーカシステム１４は、波面合成により、図２の左部で示されるように、受聴者Ｈ１がマルチスピーカシステム１４から出力される音声を受聴する場合、例えば、マルチスピーカシステム１４のスピーカ面より前方の位置に音源ＳＳ１が、あたかも存在するかのように受聴される音声を波面合成により出力することができる。

また、マルチスピーカシステム１４は、波面合成により、図２の中央部で示されるように、受聴者Ｈ１がマルチスピーカシステム１４から出力される音声を受聴する場合、例えば、マルチスピーカシステム１４のスピーカ面の前面あるいは後面において、あたかも音源ＳＳ２がＳ字状の経路ＳＬを描くように移動しているかのように受聴される音声を波面合成により出力することができる。

さらに、マルチスピーカシステム１４は、波面合成により、図２の右部で示されるように、受聴者Ｈ１がマルチスピーカシステム１４から出力される音声を受聴する場合、例えば、マルチスピーカシステム１４のスピーカ面より前面において、受聴者Ｈ１１乃至Ｈ１３のそれぞれがスピーカ面に対向するように並んでいるとき、受聴者Ｈ１１乃至Ｈ１３のそれぞれに対して、個別の音声Ｓｄ１乃至Ｓｄ３が相互に入り混じることなくそれぞれに受聴される音声を波面合成により出力することができる。

尚、図示していないが、マルチスピーカシステム１４は、マルチスピーカシステム１４のスピーカ面より背面の位置に音源が存在するかのような音声を出力することもできる。

すなわち、マルチスピーカシステム１４は、受聴者である通行人の空間内の位置が特定できていれば、波面合成により、図２を参照して説明したような、３種類の効果のいずれか、または、その組み合わせとなる効果を加えた広告の音声を受聴させることができる。尚、音声は、音楽、効果音等人の声以外の音声も含む。

次に、図１を参照して、広告提示システム１の動作の概要について説明する。

情報処理装置１１は、図１の上段で示されるように、センサ１２により撮像された画像に基づいて、通行人Ｈ１の時刻ｔ１における位置、移動速度、および移動方向を検出する。そして、情報処理装置１１は、検出結果に基づいて、図１の下段で示されるように、通行人Ｈ１の所定の時間だけ未来の時刻ｔ２における位置、移動速度、および移動方向を動きとして推定する。尚、ここで推定される通行人Ｈ１の動きとは、通行人Ｈ１の時系列に想定される位置の変化を表現するものであり、手を握る、開く、股を開閉させるといった動作を示すものではない。

情報処理装置１１は、時刻ｔ１の通行人Ｈ１の検出結果と、時刻ｔ２における通行人Ｈ１の動き推定結果に基づいて、時刻ｔ１乃至ｔ２間の各時刻における、マルチスピーカシステム１４より出力する広告用の音声としてのコンテンツのうち、どのコンテンツをどのような演出で出力させるのかを示す音声の再生スケジュールを計画する。また、このとき、情報処理装置１１は、表示部１３－１乃至１３－３において表示する広告用の画像としてのコンテンツのうち、どのコンテンツをどのような位置に表示するのかを示す画像の再生スケジュールを計画する。

情報処理装置１１は、計画した音声の再生スケジュールに基づいて、マルチスピーカシステム１４を制御して、各時刻において移動する受聴者である通行人Ｈ１の動きに追従して、それぞれの位置において、適切に広告用の音声を受聴できるように広告用の音声を出力させる。

すなわち、時刻ｔ１１において、通過することが推定される位置に存在する通行人Ｈ１（ｔ１１）が適切な音声として受聴することができる音声を波面合成により出力できるように、情報処理装置１１がマルチスピーカシステム１４を制御する。

同時に、情報処理装置１１は、計画した画像の再生スケジュールに基づいて、表示部１３－１乃至１３－３を制御して、各時刻において移動する受聴者である通行人Ｈ１の動きに追従して、それぞれの位置において、適切に広告用の画像を視聴できるように広告用の画像を表示させる。

すなわち、時刻ｔ１１において、通過することが推定される位置に存在する通行人Ｈ１（ｔ１１）が適切な画像として視聴することができる画像を、例えば、表示部１３－２で表示するように、情報処理装置１１が表示部１３－２を制御する。

これにより、通行人Ｈ１は、通路１５に沿って、移動していても、通行人Ｈ１の動きに追従して、適切に広告用の音声を受聴し、さらに、適切に広告用の画像を視聴することが可能となる。

結果として、音声と画像からなる広告を、移動している通行人Ｈ１の動きに追従して適切に認識させることが可能となる。

＜情報処理装置のハードウェア構成例＞
次に、図３のハードウェアブロック図を参照して、情報処理装置１１のハードウェア構成例について説明する。

情報処理装置１１は、例えば、表示部１３やマルチスピーカシステム１４のコントローラとして構成され、制御部３１、入力部３２、出力部３３、記憶部３４、通信部３５、ドライブ３６、およびリムーバブル記憶媒体３７より構成され、それらが相互にバス３８介して電気的に接続された構成とされている。

制御部３１は、プロセッサやメモリより構成されており、情報処理装置１１の動作の全体を制御する。また、制御部３１は、音声処理部５１および画像処理部５２を備えており、それぞれ広告用の音声の出力、および、画像の表示を制御する。

入力部３２は、キーボードや操作ボタンなどから構成され、ユーザの操作入力を受け付けて、バス３８を介して制御部３１に出力する。

出力部３３は、LCD（Liquid Crystal Display）や有機EL（Electro Luminescence）等のディスプレイなどから構成される表示部１３に画像を出力して表示させると共に、マルチスピーカシステム１４に音声信号を出力して音声を出力する。

記憶部３４は、HDD（Hard Disk Drive）、SSD（Solid State Drive）、または、半導体メモリなどからなり、制御部３１により制御され、各種のデータおよびプログラムを書き込む、または、読み出す。

通信部３５は、制御部３１により制御され、有線または無線により、LAN（Local Area Network）などに代表されるネットワークを介して図示せぬ外部のサーバ等との間で各種のデータやプログラムを送受信する。

ドライブ３６は、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、Blu-ray（登録商標） Disc、およびArchival Discを含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体３７に対してデータを読み書きする。

＜情報処理装置により実現される機能構成例＞
次に、図４の機能ブロック図を参照して、情報処理装置１１により実現される機能について説明する。

情報処理装置１１により実現される機能は、制御部３１における音声処理部５１および画像処理部５２により実現される。また、記憶部３４には、広告用の音声データ１１１、広告用の画像データ１１２、および字幕データ１１３が格納されている。

音声処理部５１は、記憶部３４に格納されている広告用の音声データ１１１を用いて、マルチスピーカシステム１４を制御して、広告用の音声の出力を制御する。

画像処理部５２は、記憶部３４に格納されている広告用の画像データ１１２、および字幕データ１１３を用いて、表示部１３を制御して、広告用の画像の表示を制御する。

音声処理部５１は、動き推定部７１、再生スケジュール生成部７２、属性推定部７３、音声データ取得部７４、音場合成パラメータ生成部７５、音場合成部７６、およびＮチャネル増幅部７７より構成される。

動き推定部７１は、センサ１２により撮像された通路の画像に基づいて、受聴者となる通路上の通行人の位置、移動速度および移動方向を検出する。そして、動き推定部７１は、検出した通路上の通行人の位置、移動速度および移動方向に基づいて、所定の時間だけ未来における時系列の通行人の位置を動きとして推定して、動き推定結果を再生スケジュール生成部７２に出力する。

再生スケジュール生成部７２は、動き推定結果における、所定の時間だけ未来の時系列の通行人の位置の情報に基づいて、広告用の音声の再生スケジュールを生成して、音声データ取得部７４、および音場合成パラメータ生成部７５、並びに、画像処理部５２の画像再生部９１、および字幕再生部９２に出力する。

例えば、図５で示されるように、センサ１２により時刻ｔ１において、撮像された画像より、通行人の中心位置が位置Ｐ１で検出されるような場合、時刻ｔ１における移動速度と移動方向とから、所定の時間だけ未来の時刻ｔ２における位置は、位置Ｐ１から所定の方向に、例えば、位置Ｐ２にとして推定される。

このような場合、通行人の中心位置は、図５の直線Ｌで示されるように、位置Ｐ１，Ｐ２間を直線で結んだ軌跡を描いて移動することが推定される。ここで、図５の直線Ｌにおける傾きは、移動速度に応じた傾きとなる。

そこで、時刻ｔ１乃至ｔ２においては、この直線Ｌ上を時系列に移動する位置が動きとして推定される。再生スケジュール生成部７２は、このような動き推定結果が、図５の直線Ｌで表現されるとき、直線Ｌ上のそれぞれの時刻に応じた位置において、図２を参照して説明したような効果のいずれか、または、それらの組み合わせとなる効果が加えられた広告用の音声を、適切に通行人が受聴できるように出力する再生スケジュールを生成する。このようなことから、再生スケジュールは、音声や画像の再生シナリオと捉えることもできる。尚、ここでいう再生スケジュールは、それぞれの時刻に応じた通行人の位置において、適切に通行人が視聴可能な広告用の画像を表示させる再生スケジュールでもある。

したがって、直線Ｌ上を移動する場合、時刻ｔ１乃至ｔ２のうちの時刻ｔ１１においては、対応する位置Ｐ１１において、受聴者である通行人が、図２を参照して説明したような効果のいずれか、または、それらの組み合わせとなる効果が加えられた広告用の音声として、適切に受聴できるように出力され、対応する位置で適切な画像を視聴できる広告用の画像が表示される再生スケジュールが生成されることになる。

属性推定部７３は、認識器などから構成され、センサ１２により撮像された画像や音声に基づいて、広告を受聴する（視聴する）通行人（受聴者）の状況が、どのような属性に分類されるのかを推定し、属性推定結果を音声データ取得部７４、画像再生部９１、および字幕再生部９２に出力する。

尚、属性推定部７３において分類される通行人の状況を表す属性の種別は、例えば、画像や音声の少なくともいずれかにより認識できる情報であり、例えば、通行人の有無を示す情報である。

また、通行人が存在する場合には、通行人の状況を表す属性の種別は、画像や音声の少なくともいずれかを用いた解析または分析により認識される、例えば、通行人の個別の識別情報、男性、女性、年齢、国籍、使用言語、１人の男性、１人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ等の解析結果や分析結果の情報が含まれる。

さらに、通行人の状況を表す属性の種類には、画像や音声の少なくともいずれかを用いた解析または分析により分類される、例えば、通行人の顔の表情、通行人の表情などから推定される感情、および通行人の行動の状態（立ち止まっている、歩行中、走っている、またはジェスチャを含む）等を示す解析結果や分析結果の情報が含まれる。

また、通行人の状況を表す属性の種類には、例えば、顔の表情、顔色、視線、身振り、手振り、体の姿勢、相手との物理的な距離の置き方、服装、髪型、呼吸、声のトーンや声質などの非言語コミュニケーション（Non-Verbal Cues）などで使用される情報を含む。さらに、ここでいう、通行人の状況を表す属性の分類の種別は、一例であり、その他の属性の種別を設定するようにしてもよい。さらに、属性推定部７３は、学習機能を備えた認識器やAI（Artificial Intelligence）などにより実現されてもよい。

音声データ取得部７４は、再生スケジュール生成部７２より供給される再生スケジュール、および、属性推定部７３より供給される属性推定結果に基づいて、記憶部３４にアクセスして、対応する広告用の音声データ１１１を取得して音場合成パラメータ生成部７５に出力する。

広告用の音声データ１１１は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる音声データである。このため、音声データ取得部７４は、再生スケジュールにおいて特定されているものであって、推定された属性に対応する広告用の音声データ（コンテンツ）を取得して、音場合成パラメータ生成部７５に出力する。

音場合成パラメータ生成部７５は、再生スケジュールと、音声データ取得部７４より供給される音声データ１１１とに基づいて、音場を合成するために必要な音場合成パラメータを生成して音場合成部７６に出力する。

音場合成部７６は、音場合成パラメータ生成部７５より供給される音場合成パラメータに基づいて、Ｎチャネル増幅部７７を制御して、マルチスピーカシステム１４に出力させて、音声として出力させる。

Ｎチャネル増幅部７７は、音場合成部７６より供給される制御信号に応じて、マルチスピーカシステム１４を構成するＮチャネルのスピーカのそれぞれを制御して音声を出力させる。この一連の処理により、再生スケジュールにより特定された効果を実現させるための波面合成が実現され、図２を参照して説明した効果が加えられた広告用の音声が出力される。

画像処理部５２は、画像再生部９１、字幕再生部９２、および字幕インポーズ部９３より構成される。

画像再生部９１は、再生スケジュール生成部７２より供給される再生スケジュール、および、属性推定部７３より供給される属性推定結果に基づいて、記憶部３４にアクセスして、対応する広告用の画像データ１１２を読み出して再生し、字幕インポーズ部９３に出力する。

広告用の画像データ１１２は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる画像データ１１２である。このため、画像再生部９１は、再生スケジュールにおける所定のタイミングに応じたものであって、属性推定結果となる属性に対応する広告用のコンテンツの画像データ１１２を読み出して再生し、字幕インポーズ部９３に出力する。

字幕再生部９２は、再生スケジュール生成部７２より供給される再生スケジュール、および、属性推定部７３より供給される属性推定結果に基づいて、記憶部３４にアクセスして、対応する広告用の字幕データ１１３を読み出して再生し、字幕インポーズ部９３に出力する。

広告用の字幕データ１１３は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる字幕データ１１３である。このため、字幕再生部９２は、再生スケジュールにおける所定のタイミングに応じた字幕データ１１３であって、属性推定結果となる属性に対応する広告用のコンテンツの字幕データ１１３を読み出して再生し、字幕インポーズ部９３に出力する。

字幕インポーズ部９３は、画像再生部９１より再生されて出力される画像に、字幕再生部９２より再生されて出力される字幕の画像をインポーズして、対象となる表示部１３に出力して画像として表示させる。

＜出力処理＞
次に、図６のフローチャートを参照して、第１の実施の形態における広告用の音声および画像の出力処理について説明する。

ステップＳ１１において、センサ１２は、通路の画像を撮像し、音声処理部５１に出力する。

ステップＳ１２において、音声処理部５１の属性推定部７３は、撮像された画像に基づいて、通行人の属性を推定し、属性推定結果を音声データ取得部７４、並びに、画像処理部５２の画像再生部９１、および字幕再生部９２に出力する。

ステップＳ１３において、動き推定部７１は、センサ１２により撮像された画像に基づいて、通行人の位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来の通行人の位置を動きとして推定し、動き推定結果を再生スケジュール生成部７２に出力する。

ステップＳ１４において、再生スケジュール生成部７２は、供給されてくる動き推定結果が直前の動き推定結果と異なるか否かを判定する。すなわち、直前の動き推定結果と大きな変化がない場合、直前の動き推定結果に基づいて生成される再生スケジュールをそのまま使用すればよく、再生スケジュールを生成し直す必要がない。このため、再生スケジュール生成部７２は、直前の動き推定結果との差分を求めて、所定の閾値と比較して、閾値よりも大きいか否かにより異なるか否かを判定する。尚、最初の処理においては、直前の動き推定結果は存在しないので、直前の動き推定結果とは異なるものとして処理を進める。

ステップＳ１４において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップＳ１５に進む。

ステップＳ１５において、再生スケジュール生成部７２は、受聴者となる通行人の動き推定結果に基づいた推定される移動経路上におけるそれぞれの時刻における位置において、音声に施すべき効果と、効果が施された状態の音声として適切に受聴可能な状態で音声を出力させるスケジュールを生成する。そして、再生スケジュール生成部７２は、生成した再生スケジュールの情報を音声データ取得部７４、および音場合成パラメータ生成部７５、並びに、画像処理部５２の画像再生部９１および字幕再生部９２に出力する。

ステップＳ１６において、制御部３１は、再生スケジュールにおいて、次の再生開始時刻になったか否かを判定する。ここでは、再生スケジュールは、例えば、所定の広告用の音声および画像のコンテンツの再生を開始させるタイミングが時刻により設定されるので、次のコンテンツの再生開始時刻になったか否かが判定される。

ステップＳ１６において、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったとみなされた場合、処理は、ステップＳ１７に進む。

ステップＳ１７において、音声データ取得部７４は、記憶部３４にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの音声データ１１１を取得して、音場合成パラメータ生成部７５に出力する。

ステップＳ１８において、音場合成パラメータ生成部７５は、再生スケジュールに基づいて、波面合成により、受聴者である通行人が適切に受聴可能な音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、音声データ１１１と共に音場合成部７６に出力する。

ステップＳ１９において、音場合成部７６は、音場合成パラメータと音声データ１１１に基づいて、畳み込み演算によりチャネル毎に音声データ１１１を合成することで音場を合成し、Ｎチャネル増幅部７７に出力する。

ステップＳ２０において、Ｎチャネル増幅部７７は、チャネル毎に合成された音声データ１１１を増幅し、マルチスピーカシステム１４の各スピーカに対して音声信号として出力する。

ステップＳ２１において、マルチスピーカシステム１４は、Ｎチャネル増幅部７７より供給される音声信号に基づいて、音声を出力する。

すなわち、ステップＳ１９乃至Ｓ２１の一連の処理により、音場が合成（波面合成）された音声がマルチスピーカシステム１４より出力されることになる。

ステップＳ２２において、画像再生部９１は、記憶部３４にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの画像データ１１２を読み出す。

ステップＳ２３において、画像再生部９１は、読み出した画像データ１１２に基づいて、画像を再生して、字幕インポーズ部９３に出力する。

ステップＳ２４において、字幕再生部９２は、記憶部３４にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの字幕データ１１３を読み出す。

ステップＳ２５において、字幕再生部９２は、読み出した字幕データ１１３に基づいて、字幕を再生して、字幕インポーズ部９３に出力する。

ステップＳ２６において、字幕インポーズ部９３は、再生した画像上に、字幕をインポーズする。

ステップＳ２７において、字幕インポーズ部９３は、字幕をインポーズした画像を表示部１３に出力して表示させる。

ステップＳ２８において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップＳ１１に戻り、それ以降の処理が繰り返される。そして、ステップＳ２８において、終了が指示された場合、処理は、終了する。

尚、ステップＳ１６において、再生スケジュールにおいて、コンテンツの再生開始時刻になっていないとみなされた場合、ステップＳ１７乃至Ｓ２７の処理がスキップされる。

以上の処理により、受聴者である通行人は、通路１５上を移動し続けても、動きに追従して、それぞれの位置において、波面合成により、音声データ１１１に付加された効果を適切に認識できる状態で、広告用の音声を受聴し続けることが可能となる。

また、視聴者である通行人は、移動し続けても、動きに追従して、それぞれの位置において、適切なタイミングで通過する付近の表示部１３に表示された広告用の画像を視聴し続けることが可能となる。

さらに、受聴者である通行人に提示される音声や画像（字幕を含む）は、通行人の属性に対応した音声と画像（字幕を含む）のコンテンツであるので、受聴者である通行人に対して、受け容れ易い広告を提示させることが可能となる。

結果として、受聴者である通行人に対して、最適な種類のコンテンツからなる音声と画像からなる広告を、通行人の動きに追従して、提示することが可能となるので、広告効果を向上させることが可能となる。

また、デジタルサイネージなどで、広告のターゲットとなる受聴者に対して効果的な音声コンテンツによる広告を提供することができる。

さらに、属性で国籍等が認識できれば、言語を切替えて広告を提供することができるので、広告の効果や、案内の利便性を向上させることが可能となる。

また、センサ１２として、カメラ等のセンサーデバイスを用いることで、ユーザを介在させることなく、自動的に広告を提示させることが可能となり、省力化と共に、ターゲットとなる受聴者に応じた効果的な広告や案内を実現することが可能となる。

以上においては、通路１５における通行人を対象者として広告を提示する例について説明してきたが、通行人や広告の対象者が存在する場所であれば、その他の場所であってもよい。

尚、以上においては、通行人が一人である場合について説明してきたが、通行人は、複数の通行人のグループであってもよい。複数の通行人のグループの場合、男性だけのグループ、女性だけのグループ、男女混合のグループ、または、家族連れなどを属性に含めるようにしてもよく、それぞれに対応する音声データ１１１、画像データ１１２、および字幕データ１１３を用意して、それぞれのグループに対応する広告用の音声を出力し、字幕を含む画像を表示するようにしてもよい。

また、通行人や通行人のグループが複数であってもよく、それぞれについて同様の処理をすることで、通行人や通行人のグループのそれぞれに対して、適切な属性のコンテンツからなる音声と画像が、適切なタイミングで動きに追従して提示されるようにしてもよい。特に、音声については、波面合成により、複数の通行人や複数のグループのそれぞれに対して、それぞれの属性に応じたコンテンツを、図２を参照して説明した効果を個別に付加して出力することができるので、複数の通行人や複数のグループに受け入れやすい広告の音声を提示することが可能となる。

さらに、音声については、オーサリングツールを用いて音源の変移をユーザが設定できるようにして、波面合成により音源の変移を認識できるような効果を付加した音声として出力するようにしてもよい。

以上においては、波面合成に係る音場合成パラメータが、受聴領域における受聴者である通行人の位置に応じて、毎回、生成され、音場合成パラメータと音声データとが畳み込み演算にチャネル毎に合成され、合成されたチャネル毎の音声データを用いて波面合成がなされる例について説明してきた。

しかしながら、予め受聴領域を複数のエリアに分割し、分割されたエリア毎に予め波面合成フィルタを演算して、ルックアップテーブル等に格納しておき、受聴領域における通行人の位置が検出されるとき、ルックアップテーブルを参照して、検出された位置に対応するエリアの波面合成フィルタを読み出して、フィルタ処理することで波面合成するようにしてもよい。

このように予め波面合成フィルタを用意しておくことにより、演算量を低減させると共に高速で波面合成に係る処理を高速化することが可能となる。特に、異なる言語の音声データを複数の通行人に対して個別に受聴できるようにする場合、毎回演算すると、ある程度の人数を超えると処理に遅延が発生する可能性があり、波面合成フィルタを用意することで遅延の発生を抑制することが可能となる。

さらに、以上の処理においては、表示部１３には、広告用の画像と共にインポーズされた通行人の属性で判断される通行人の字幕を表示することで、音声のコンテンツだけでは適切に広告を提供できない場合でも、確実に広告を提示することが可能となる。

＜＜２．第２の実施の形態＞＞
＜領域毎に音声を出力し画像を表示する例＞
以上においては、通路における通行人の位置に応じて広告用の音声を出力し、画像を表示するようにする例について説明してきたが、複数の通行人や複数の通行人のグループが通行している場合、個別に処理する人数やグループ数には限界がある。そこで、通路を複数の領域に分割して、各領域に存在する通行人や通行人のグループの属性に応じて、領域毎に広告用の音声の出力と、表示する画像を切り替えられるようにしてもよい。また、同じ領域に複数のグループまたは通行人が存在する場合には、優先するコンテンツを予め決めておき、そのコンテンツを提示するようにする。例えば、優先度の高い方から英語、中国語、日本語の順に提示するものとする。

例えば、時刻ｔ１００乃至ｔ１０１、時刻ｔ１０１乃至ｔ１０２、および時刻ｔ１０２乃至ｔ１０３のそれぞれにおいて、通行人のグループＧ１，Ｇ２および通行人Ｈ１が、図７乃至図９のそれぞれの上段で示されるような位置に存在する場合について考える。尚、通路は、領域Ｚ１乃至Ｚ５の５つの領域に分割されているものとし、表示部１３の図示は省略するものとするが、表示部１３も領域Ｚ１乃至Ｚ５のそれぞれに対応する位置に存在するものとする。また、属性推定部７３により、通行人のグループＧ１，Ｇ２および通行人Ｈ１は、それぞれ使用言語が英語の通行人のグループ、使用言語が中国語の通行人のグループ、および使用言語が日本語の通行人であることを示す属性に分類されるものとする。

すなわち、時刻ｔ１００乃至ｔ１０１においては、センサ１２により撮像される画像に基づいて、図７の上段で示されるように、グループＧ１が領域Ｚ１，Ｚ２に跨るように存在し、グループＧ２が領域Ｚ４，Ｚ５に跨るように存在し、通行人Ｈ１が領域Ｚ３に存在することが認識される。また、センサ１２により撮像される画像により、グループＧ１，Ｇ２および通行人Ｈ１のそれぞれの移動速度と移動方向から動きが推定されて、時刻ｔ１０２，ｔ１０３における位置が推定される。

また、時刻ｔ１００乃至ｔ１０１の場合、図７の上段で示されるようなグループＧ１，Ｇ２および通行人Ｈ１の配置に基づいて、図７の下段で示されるように、マルチスピーカシステム１４により、グループＧ１に対する広告の音声として英語のコンテンツの音声が領域Ｚ１，Ｚ２に出力され、グループＧ２に対する広告の音声として中国語のコンテンツの音声が領域Ｚ４，Ｚ５に出力され、通行人Ｈ１に対する広告の音声として日本語の音声が領域Ｚ３に出力されるようにする。

さらに、時刻ｔ１０１乃至ｔ１０２においては、推定結果に基づいて、例えば、図８の上段で示されるように、グループＧ１が領域Ｚ２，Ｚ３に跨るように存在し、グループＧ２が領域Ｚ４，Ｚ５に跨るように存在し、通行人Ｈ１が領域Ｚ３に存在することが推定されるものとする。

そこで、時刻ｔ１０１乃至ｔ１０２の場合、図８の上段で示されるようなグループＧ１，Ｇ２および通行人Ｈ１の配置に基づいて、図８の下段で示されるように、マルチスピーカシステム１４により、設定された優先度に基づいて、グループＧ１に対する広告の音声として英語のコンテンツの音声が領域Ｚ２に出力され、グループＧ２に対する広告の音声として中国語のコンテンツの音声が領域Ｚ４，Ｚ５に出力され、通行人Ｈ１に対する広告の音声として日本語の音声が領域Ｚ３に出力されるようにする。

尚、図８の領域Ｚ３においては、使用言語が英語のグループＧ１と使用言語が日本語の通行人Ｈ１とがいずれも存在する状態となっているが、ここでは、領域Ｚ２，Ｚ３に対して日本語よりも優先度の高い英語のコンテンツの音声が出力される。このように音声が出力されることにより、領域Ｚ２，Ｚ３に存在する通行人において、圧倒的多数となる使用言語が英語の通行人のグループＧ１に対して広告を提示することが可能となり、広告効果を高めることが可能となる。

また、時刻ｔ１０２乃至ｔ１０３においては、推定結果に基づいて、例えば、図９の上段で示されるように、グループＧ１が領域Ｚ４に存在し、グループＧ２が領域Ｚ５に存在し、通行人Ｈ１が領域Ｚ２に存在することが推定されるものとする。

そこで、時刻ｔ１０２乃至ｔ１０３の場合、図９の上段で示されるようなグループＧ１，Ｇ２および通行人Ｈ１の配置に基づいて、図９の下段で示されるように、マルチスピーカシステム１４により、グループＧ１に対する広告の音声として英語のコンテンツの音声が領域Ｚ４に出力され、グループＧ２に対する広告の音声として中国語のコンテンツの音声が領域Ｚ５に出力され、通行人Ｈ１に対する広告の音声として日本語のコンテンツの音声が領域Ｚ２に出力されるようにする。

図７乃至図９を参照して説明した時刻ｔ１０１乃至ｔ１０３の結果から、例えば、図１０で示されるような再生スケジュールが計画される。

図１０で示されるように、時刻ｔ１００乃至ｔ１０１においては、図７を参照して説明したように、領域Ｚ１，Ｚ２においては英語のコンテンツの音声が出力され、領域Ｚ３においては日本語のコンテンツの音声が出力され、領域Ｚ４，Ｚ５においては中国語のコンテンツの音声が出力される。

また、時刻ｔ１０１乃至ｔ１０２においては、図８を参照して説明したように、領域Ｚ２，Ｚ３においては英語のコンテンツの音声が出力され、領域Ｚ４，Ｚ５においては中国語のコンテンツの音声が出力される。

さらに、時刻１０２乃至ｔ１０３においては、図９を参照して説明したように、領域Ｚ２においては日本語のコンテンツの音声が出力され、領域Ｚ４においては英語のコンテンツの音声が出力され、領域Ｚ５においては中国語のコンテンツの音声が出力される。

尚、図１０においては、時刻ｔ１０３乃至ｔ１０５において、領域Ｚ１，Ｚ２において日本語のコンテンツの音声が出力され、領域Ｚ３乃至Ｚ５において英語のコンテンツの音声が出力される例が示されている。

また、図示しないが、音声と同様に対応する画像を対応する領域の表示部１３に表示する。さらに、図１０においては、英語、中国語、および日本語のコンテンツのいずれも再生スケジュールが設定されていない領域については、例えば、ＢＧＭのみを流すようにしてもよい。

このように、通行人や通行人のグループの位置、移動速度、および移動方向に基づいた動きの推定結果に基づいて、複数の領域Ｚ１乃至Ｚ５に分類された各領域に存在する通行人や通行人のグループのカテゴリに応じた音声を出力させるようにしてもよい。

＜コンテンツの長さに応じた切り替え＞
また、以上においては、推定される通行人や通行人のグループが存在する領域において、対応する属性の音声のコンテンツを領域毎に出力し、画像を表示する例について説明してきたが、音声を出力する領域（受聴領域）内に存在することが推定される時間の長さに応じて、長さの異なる広告用の音声のコンテンツを切り替えて出力し、画像を表示するようにしてもよい。

すなわち、例えば、図１１の上段で示されるように、領域Ｚ１にグループＧ１が存在し、領域Ｚ５に通行人Ｈ１が存在し、矢印で示される移動方向に同一の移動速度で移動している場合について考える。

例えば、時刻ｔ１１０乃至ｔ１１１において、グループＧ１は、領域Ｚ１，Ｚ２に跨がるように存在し、通行人Ｈ１が領域Ｚ１乃至Ｚ５のいずれにも存在せず、時刻ｔ１１１乃至ｔ１１２において、グループＧ１が領域Ｚ２，Ｚ３に跨がるように存在し、通行人Ｈ１が領域Ｚ５に存在し、時刻ｔ１１２乃至ｔ１１３において、グループＧ１が領域Ｚ３，Ｚ４に存在し、通行人Ｈ１が領域Ｚ４に存在し、時刻ｔ１１３乃至ｔ１１５において、グループＧ１および通行人Ｈ１がいずれも領域Ｚ３，Ｚ４の境界付近に存在することが推定されるものとする。

この場合、図１１の下段で示されるような再生スケジュールが計画される。すなわち、領域Ｚ１乃至Ｚ３においては、時刻ｔ１１０乃至ｔ１１３において、再生時間の長さが時刻ｔ１１０乃至ｔ１１３（または、グループＧ１が領域Ｚ１乃至Ｚ３を移動するのに掛かる時間の長さ）となる英語のコンテンツＥ－Ｍからなる音声が出力され、対応する画像が表示されるようにする。

また、領域Ｚ４乃至Ｚ５においては、時刻ｔ１１１乃至ｔ１１３において、再生時間の長さが時刻ｔ１１２乃至ｔ１１３（または、通行人Ｈ１が領域Ｚ５，Ｚ４を移動するのに掛かる時間の長さ）となる日本語のコンテンツＪ－Ｓからなる音声が出力され、対応する画像が表示されるようにする。

さらに、時刻ｔ１１３乃至ｔ１１５においては、グループＧ１と通行人Ｈ１とが領域Ｚ３，Ｚ４の境界付近にいずれも存在する状態となる。このような状態では、いずれかの言語からなるコンテンツの音声が出力されると、通行人Ｈ１かグループＧ１の通行人のいずれか一方が認識できない可能性がある。そこで、時刻ｔ１１３乃至ｔ１１５においては、長さが時刻ｔ１１３乃至ｔ１１５の、共通の言語として設定される英語のコンテンツＥｃ－Ｌからなる音声が出力され、対応する画像が表示されるようにする。

このようにすることで、グループＧ１と通行人Ｈ１とは、それぞれが付近に接近する状態になるまでの適切な長さの、対応する属性のコンテンツを、完全に受聴（視聴）し終えることが可能となり、さらに、双方が付近に存在する状態となった以降については、共通の言語として設定されるコンテンツが再生される。

尚、通路１５における通行人やグループが所定数より多くなるような場合や分類される属性が多くなるような場合には、個別にコンテンツを再生させる処理負荷が大きくなる。そこで、そのような場合については、通行人の人数や属性の数と無関係に、共通の言語として設定されるコンテンツのみを再生するようにしてもよい。このようにすることで、多数の通行人やグループ、分類される属性が多い場合でも再生に係る処理負荷を低減することができる。

＜領域毎に再生スケジュールを設定する場合の出力処理＞
次に、図１２のフローチャートを参照して、領域毎に再生スケジュールを設定する場合の出力処理について説明する。

ステップＳ３１において、センサ１２は、通路の画像を撮像し、音声処理部５１に出力する。

ステップＳ３２において、音声処理部５１の属性推定部７３は、撮像された画像に基づいて、通行人や通行人のグループの属性を推定し、属性推定結果を音声データ取得部７４、並びに、画像処理部５２の画像再生部９１、および字幕再生部９２に出力する。

ステップＳ３３において、動き推定部７１は、センサ１２により撮像された画像に基づいて、通行人や通行人のグループのそれぞれの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来の通行人や通行人のグループのそれぞれの位置を動きとして推定し、動き推定結果を再生スケジュール生成部７２に出力する。

ステップＳ３４において、再生スケジュール生成部７２は、供給されてくる各通行人や通行人のグループの動き推定結果が直前の動き推定結果と異なるか否かを判定する。

ステップＳ３４において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップＳ３５に進む。

ステップＳ３５において、再生スケジュール生成部７２は、動き推定結果に基づいて、受聴者となる通行人や通行人のグループの推定される移動経路上におけるそれぞれの時刻における位置に基づいて、図７乃至図１１を参照して説明したような、領域毎に適切に受聴可能な音声を再生させるスケジュールを生成する。そして、再生スケジュール生成部７２は、生成した再生スケジュールの情報を音声データ取得部７４、および音場合成パラメータ生成部７５、並びに、画像処理部５２の画像再生部９１および字幕再生部９２に出力する。

ステップＳ３６において、制御部３１は、再生スケジュールにおいて、次の再生開始時刻になったか否かを判定する。

再生スケジュールが、例えば、図１０で示されるような場合、時刻ｔ１０１においては、領域Ｚ３乃至Ｚ５においては、日本語と中国語のコンテンツの再生が継続されるので、次の再生が開始されるタイミングではないが、領域Ｚ２において、新たに英語のコンテンツの再生が開始されることになるので、時刻ｔ１０１のような場合、次の再生開始時刻になったものとみなされる。

一方、図１０においては、時刻ｔ１０４においては、領域Ｚ１乃至Ｚ５の全領域において、日本語と英語のコンテンツの再生が継続されており、いずれの領域にも次のコンテンツの再生が開始される時刻ではない。従って、時刻ｔ１０４においては、次の再生開始時刻になったものとはみなされない。

すなわち、ステップＳ３６においては、全ての領域のうちのいずれか１カ所で次のコンテンツの再生が開始される場合には、次の再生開始時刻になったものとはみなされる。

ステップＳ３６において、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったとみなされた場合、処理は、ステップＳ３７に進む。

ステップＳ３７において、制御部３１は、未処理の領域のいずれかを処理対象領域に設定する。すなわち、例えば、図７乃至図１１の場合、領域Ｚ１乃至Ｚ５のうち未処理の領域のいずれかが処理対象領域に設定される。

ステップＳ３８において、音声データ取得部７４は、記憶部３４にアクセスし、処理対象領域において再生が開始される、属性に対応するコンテンツの音声データ１１１を取得して、音場合成パラメータ生成部７５に出力する。

ここで取得される音声データ１１１は、属性のみに対応するものであってもよいし、図１１を参照して説明したように、異なる属性の通行人や通行人のグループが通路に存在しているような場合、異なる通行人や通行人のグループが接近するまでの時間に応じた長さも考慮したコンテンツの音声データ１１１が取得されるようにしてもよい。

尚、新たなコンテンツの再生が開始されない領域が処理対象領域である場合については、ステップＳ３８乃至Ｓ４８の処理はスキップされる。

ステップＳ３９において、音場合成パラメータ生成部７５は、処理対象領域における、再生スケジュール、および音声データ１１１に基づいて、処理対象領域の受聴者である通行人が適切に受聴可能な音声を波面合成により出力できるような音場を合成するためのパラメータを生成し、音声データ１１１と共に音場合成部７６に出力する。

ステップＳ４０において、音場合成部７６は、音場合成パラメータと音声データ１１１に基づいて、畳み込み演算によりチャネル毎に音声データ１１１を合成することで音場を合成し、Ｎチャネル増幅部７７に出力する。

ステップＳ４１において、Ｎチャネル増幅部７７は、チャネル毎に合成された音声データ１１１を増幅し、マルチスピーカシステム１４の各スピーカに対して音声信号として出力する。

ステップＳ４２において、マルチスピーカシステム１４は、Ｎチャネル増幅部７７より供給される音声信号に基づいて、処理対象領域に対して音声を出力する。

すなわち、ステップＳ３８乃至Ｓ４２の一連の処理により、音場が合成（波面合成）された音声がマルチスピーカシステム１４より出力されることになる。

ステップＳ４３において、画像再生部９１は、記憶部３４にアクセスし、処理対象領域において、再生が開始される、属性推定結果となる属性に対応するコンテンツの画像データ１１２を読み出す。

ステップＳ４４において、画像再生部９１は、読み出した画像データ１１２に基づいて、画像を再生して、字幕インポーズ部９３に出力する。

ステップＳ４５において、字幕再生部９２は、記憶部３４にアクセスし、処理対象領域において、再生が開始される、属性推定結果となる属性に対応するコンテンツの字幕データ１１３を読み出す。

ステップＳ４６において、字幕再生部９２は、読み出した字幕データ１１３に基づいて、字幕を再生して、字幕インポーズ部９３に出力する。

ステップＳ４７において、字幕インポーズ部９３は、再生した画像上に、字幕をインポーズする。

ステップＳ４８において、字幕インポーズ部９３は、字幕をインポーズした画像を表示部１３に出力して表示させる。

ステップＳ４９において、制御部３１は、未処理の領域が存在するか否かを判定し、未処理の領域が存在する場合、処理は、ステップＳ３７に戻り、未処理の領域がなくなるまで、ステップＳ３７乃至Ｓ４９の処理が繰り返される。そして、ステップＳ４９において、未処理の領域が存在しないとみなされた場合、処理は、ステップＳ５０に進む。

ステップＳ５０において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップＳ３１に戻り、それ以降の処理が繰り返される。そして、ステップＳ５０において、終了が指示された場合、処理は、終了する。

以上の処理により、受聴者である通行人や通行人のグループは、移動し続けても、動きに追従して、それぞれの存在する領域において、波面合成により、音声データ１１１に付加された効果を適切に認識できる状態で、広告用の音声を受聴し続けることが可能となる。

また、視聴者である通行人や通行人のグループは、移動し続けても、動きに追従して、それぞれの存在する領域において、適切なタイミングで通過する領域の表示部１３に表示された広告用の画像を視聴し続けることが可能となる。

さらに、受聴者である通行人に提示される声や画像（字幕を含む）は、通行人の属性に対応した音声と画像（字幕を含む）のコンテンツであるので、受聴者である通行人や通行人のグループに対して受け容れ易い広告を提示させることが可能となる。

また、異なる属性の通行人や通行人のグループが通路に存在していても、異なる通行人や通行人のグループが接近するまでの時間に応じた長さとカテゴリに対応したコンテンツの音声を切り替えて出力し、画像を切り替えて表示することができるので、通行人や通行人のグループは、移動していても、広告用のコンテンツが途中までしか受聴（視聴）できないといったことが防止される。

いずれにおいても、結果として、通行人の属性や、周辺の属性が異なる通行人との位置関係に応じて、領域毎に、適切な種類のコンテンツからなる音声と画像による広告を通行人の動きに追従して、提示することが可能となるので、広告効果を向上させることが可能となる。

＜＜３．第３の実施の形態＞＞
＜マルチスピーカシステムとの距離に応じた音量の調整＞
以上においては、センサ１２により撮像された画像に基づいて検出された通行人や通行人のグループの位置、移動速度、および移動方向に基づいて推定される動きに追従するように、波面合成によりマルチスピーカシステム１４により広告用の音声を出力する例について説明してきたが、波面合成により生成される音源からの距離に応じた音量カーブを設定し、移動距離に応じた音量の調整が音量カーブに基づいて成されるようにしてもよい。

すなわち、図１３で示されるように、音源からの位置Ａ，Ｂ，Ｃのそれぞれの受聴者が存在する場合、音源からの距離に応じて音量のレベルは、それぞれ曲線ＬＡ，ＬＢ，ＬＣで示されるように変化する。

図１３においては、図中の左側である０の位置からの距離が約１０ｍの位置Ａに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線ＬＡで表現されている。また、図１３においては、０の位置からの距離が約２０ｍの位置Ｂに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線ＬＢで表現されている。さらに、さらに、図１３において、０の位置からの距離が約３０ｍの位置Ｃに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線ＬＣで表現されている。

すなわち、音源が位置Ｘで示される位置Ａから距離約５ｍの位置に存在していた状態から、位置Ａから見て距離約１０ｍの位置Ｏまで離れた場合、位置Ａに存在する受聴者で受聴される音量は、曲線ＬＡに従って、約－１４ｄＢから約－２０ｄＢに変化し－６ｄＢだけ低下する。

しかしながら、音源が位置Ｘで示される位置Ｂから約１５ｍの位置に存在していた状態から、位置Ｂから見て距離約２０ｍの位置Ｏまで離れた場合、位置Ｂに存在する受聴者で受聴される音量は、曲線ＬＢに従って、約－２３ｄＢから約－２６ｄＢに変化し－３ｄＢだけ低下する。

さらに、音源が位置Ｘで示される位置Ｃから約２５ｍの位置に存在していた状態から、位置Ｃから見て距離約３０ｍの位置Ｏまで離れた場合、位置Ｃに存在する受聴者で受聴される音量は、曲線ＬＣに従って、約－２８ｄＢから約－３０ｄＢに変化し－２ｄＢだけ低下する。

尚、一般に距離が倍離れると、音量は－６ｄＢ低下するが、音声の反射などがない理想的な条件が整った場合に限られるものであり、また、距離に応じてどの程度音量が低下するのかについては、パラメータの設定により変更できるものである。このため、図１３のグラフは一例に過ぎないものである。また、以上においては、音源と受聴者との距離が離れる場合の例について説明したが、接近する場合は、音量が増大するように変化する。

このように、音源と受聴者との距離に応じて、変化する距離と減衰する音量は異なるので、図１３で示されるような音量カーブに基づいて、音量を減衰させるようにすることで、より適切な奥行きを感じさせることが可能となる。

＜距離に応じた音量の減衰を表現する場合の出力処理＞
次に、図１４のフローチャートを参照して、距離に応じた音量の減衰を表現する場合の出力処理について説明する。尚、図１４のフローチャートにおけるステップＳ７１乃至Ｓ７９、およびステップＳ８１乃至Ｓ９１の処理については、図１２のフローチャートを参照して説明した処理と同様であるので、その説明は省略する。

すなわち、ステップＳ８０において、音場合成パラメータ生成部７５は、処理対象領域における、再生スケジュール、および音声データ１１１に基づいて、図１３を参照して説明したようなマルチスピーカシステム１４との距離に応じて、処理対象領域の受聴者である通行人が受聴する音声の音量を、音源からの距離に応じて調整するパラメータを生成し、音場合成部７６に出力する。

この処理により、ステップＳ８１において、音場合成部７６は、音場合成パラメータと音声データ１１１に基づいて、畳み込み演算によりチャネル毎に音声データ１１１を合成することで音場を合成し、Ｎチャネル増幅部７７に出力する。この際、音場合成部７６は、音量のパラメータについても考慮して、畳み込み演算によりチャネル毎に音声データ１１１を合成することで、音量が調整された音場を合成する。

ステップＳ８２において、Ｎチャネル増幅部７７は、距離に応じた音量の調整がなされた、チャネル毎に合成された音声データ１１１を増幅し、マルチスピーカシステム１４の各スピーカに対して音声信号として出力する。

これにより、受聴者である通行人や通行人のグループは、移動し続けても、それぞれの存在する領域において、通行人と波面合成により実現される音源との距離に応じて適切に音量が調整された状態で、適切に波面合成された音声を受聴することが可能となる。

結果として、奥行きのある広告用の音声を受聴し続けることが可能となる。

尚、以上においては、通行人と音源との距離に応じて適切に音量が調整される例について説明してきたが、同様のカーブを設定することで、通行人と音源との距離に応じて残響を調整するようにしてもよい。このような残響の調整により、さらに、奥行きのある広告用の音声を受聴することが可能となる。

＜＜４．第４の実施の形態＞＞
＜同時に複数の受聴者に個別の指示を出す例＞
以上においては、通路を通行する通行人に対して、広告用の音声を出力して、広告用の画像を表示する例について説明してきたが、例えば、通路に代えて、ダンススタジオなどにマルチスピーカシステム１４を構成して、スタジオ内でダンスする複数の受聴者としてのダンサに対して個別の指示を出すようにしてもよい。

すなわち、例えば、図１５で示されるように、マルチスピーカシステム１４をダンススタジオなどに配置して、マルチスピーカシステム１４の前方の領域を領域Ｚ１１乃至Ｚ１３のように分割し、それぞれの領域内で受聴者であるダンサＨ１１乃至Ｈ１３がダンスするような構成を考える。

このような構成において、領域Ｚ１１乃至Ｚ１３のそれぞれで踊るダンサＨ１１乃至Ｈ１３に対して、波面合成によりそれぞれ異なる個別の指示内容の音声を送ることで、全体としての協調動作を実現させるようにしてもよい。

すなわち、例えば、図１５で示されるように、領域Ｚ１１においてダンスするダンサＨ１１に対しては、「スワンのように踊れ」という指示の音声が聞き取れるように波面合成され、領域Ｚ１２においてダンスするダンサＨ１２に対しては、「右足を踏み出せ」という指示の音声が聞き取れるように波面合成され、領域Ｚ１３においてダンスするダンサＨ１３に対しては、「左手を上げて」という指示の音声が聞き取れるように波面合成されるようにしてもよい。

図１５の例の場合、それぞれの指示は、センサ１２により撮像される画像に基づいた、ダンサＨ１１乃至Ｈ１３毎の指示であるので、例えば、図１６の上段で示されるように、領域Ｚ１１においてダンサＨ１１が踊り、領域Ｚ１２においてダンサＨ１２が踊っている状態から、図１６の下段で示されるように、領域Ｚ１１においてダンサＨ１２が踊り、領域Ｚ１２においてダンサＨ１１が踊っている状態に変化した場合でも、それぞれのダンサＨ１１，Ｈ１２に対して適切な指示の音声が出力される。

すなわち、センサ１２により撮像される画像に基づいて、ダンサＨ１１，Ｈ１２の移動速度と移動方向の情報から再生スケジュールを生成することで、ダンサＨ１１，Ｈ１２の存在する領域がＺ１１，Ｚ１２とで入れ替わるタイミングにおいて、それぞれに指示する音声が入れ替わって出力させることができる。

尚、図１５，図１６においては、表示部１３が図示されていないが、スタジオにおける領域Ｚ１１乃至Ｚ１３のそれぞれの領域において、それぞれの領域で踊るダンサＨ１１乃至Ｈ１３のそれぞれが視聴可能な表示部１３を設けるようにして、波面合成により出力される個別の音声の指示内容に対応する画像を表示するようにしてもよい。

＜同時に複数の受聴者に個別の指示を出す場合の出力処理＞
次に、図１７のフローチャートを参照して、同時に複数の受聴者に個別の指示を出す場合の出力処理について説明する。尚、図１７のフローチャートにおいては、各領域Ｚ１１乃至Ｚ１３のそれぞれで踊るダンサにより個別に視聴可能な画像を表示する表示部１３が設けられており、それぞれの指示内容に対応する画像も表示する場合の処理について説明する。

ステップＳ１１１において、センサ１２は、ダンサが踊るダンススタジオの画像を撮像し、音声処理部５１に出力する。

ステップＳ１１２において、音声処理部５１の属性推定部７３は、撮像された画像に基づいて、画像内のそれぞれのダンサがダンサＨ１１乃至Ｈ１３のいずれであるかを属性として推定し、属性推定結果を音声データ取得部７４、並びに、画像処理部５２の画像再生部９１、および字幕再生部９２に出力する。

ステップＳ１１３において、動き推定部７１は、センサ１２により撮像された画像に基づいて、各ダンサのそれぞれの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来のダンサのそれぞれの位置を動きとして推定し、動き推定結果を再生スケジュール生成部７２に出力する。

ステップＳ１１４において、再生スケジュール生成部７２は、供給されてくる各ダンサの動き推定結果が直前の動き推定結果と異なるか否かを判定する。

ステップＳ１１４において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップＳ１１５に進む。

ステップＳ１１５において、再生スケジュール生成部７２は、動き推定結果に基づいて、受聴者となるダンサの推定される移動経路上におけるそれぞれの時刻における位置に基づいて、ダンサ毎に適切に受聴可能な音声および適切に視聴可能な画像を再生させるスケジュールを生成する。そして、再生スケジュール生成部７２は、生成した再生スケジュールの情報を音声データ取得部７４、および音場合成パラメータ生成部７５、並びに、画像処理部５２の画像再生部９１および字幕再生部９２に出力する。

ステップＳ１１６において、制御部３１は、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったか否かを判定する。

ステップＳ１１６において、再生スケジュールにおいて、次のコンテンツの再生が開始される時刻になったとみなされた場合、処理は、ステップＳ１１７に進む。

ステップＳ１１７において、制御部３１は、未処理のダンサのいずれかを処理対象者に設定する。以下、ダンサを対象者とも称する。

ステップＳ１１８において、音声データ取得部７４は、記憶部３４にアクセスし、処理対象者の属性、すなわち、ダンサＨ１１乃至Ｈ１３のいずれであるかを示す情報に対応付けられた指示内容の音声データ１１１を取得して、音場合成パラメータ生成部７５に出力する。属性には、処理対象者であるダンサを識別する情報が含まれているので、識別された各ダンサに対して指示される内容の音声データ１１１が読み出される。

ステップＳ１１９において、音場合成パラメータ生成部７５は、処理対象者であるダンサの再生スケジュールに基づいて、波面合成により、受聴者である処理対象者が適切に受聴可能な音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、音声データ１１１と共に音場合成部７６に出力する。

ステップＳ１２０において、音場合成部７６は、音場合成パラメータと音声データ１１１に基づいて、畳み込み演算によりチャネル毎に音声データ１１１を合成することで音場を合成し、Ｎチャネル増幅部７７に出力する。

ステップＳ１２１において、Ｎチャネル増幅部７７は、チャネル毎に合成された音声データ１１１を増幅し、マルチスピーカシステム１４の各スピーカに対して音声信号として出力する。

ステップＳ１２２において、マルチスピーカシステム１４は、Ｎチャネル増幅部７７より供給される音声信号に基づいて、処理対象者であるダンサが存在する位置に対して音声を出力する。

すなわち、ステップＳ１１８乃至Ｓ１２２の一連の処理により、処理対象者であるダンサＨ１１乃至Ｈ１３のいずれかに対する指示内容の、音場が合成（波面合成）された音声がマルチスピーカシステム１４より出力されることになる。

ステップＳ１２３において、画像再生部９１は、記憶部３４にアクセスし、処理対象者の属性、すなわち、ダンサＨ１１乃至Ｈ１３のいずれであるかを示す情報に対応付けられた指示内容の画像データ１１２を読み出す。処理対象者として識別されたダンサに対して指示される内容の画像データ１１２が読み出される。

ステップＳ１２４において、画像再生部９１は、読み出した画像データ１１２を再生して、字幕インポーズ部９３に出力する。

ステップＳ１２５において、字幕再生部９２は、記憶部３４にアクセスし、処理対象者の属性、すなわち、ダンサＨ１１乃至Ｈ１３のいずれであるかを示す情報に対応付けられた指示内容の字幕データ１１３を読み出す。処理対象者として識別されたダンサに対して指示される内容の字幕データ１１３が読み出される。

ステップＳ１２６において、字幕再生部９２は、読み出した字幕データ１１３を再生して、字幕インポーズ部９３に出力する。

ステップＳ１２７において、字幕インポーズ部９３は、再生した画像上に、字幕をインポーズする。

ステップＳ１２８において、字幕インポーズ部９３は、字幕をインポーズした画像を表示部１３に出力して表示させる。

ステップＳ１２９において、制御部３１は、未処理の対象者（ダンサ）が存在するか否かを判定し、未処理の対象者が存在する場合、処理は、ステップＳ１１７に戻り、未処理の対象者がいなくなるまで、ステップＳ１１７乃至Ｓ１２９の処理が繰り返される。そして、ステップＳ１２９において、未処理の対象者が存在しないとみなされた場合、処理は、ステップＳ１３０に進む。

ステップＳ１３０において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップＳ１１１に戻り、それ以降の処理が繰り返される。そして、ステップＳ１３０において、終了が指示された場合、処理は、終了する。

尚、ステップＳ１１６において、再生スケジュールにおいて、コンテンツの再生開始時刻になっていないとみなされた場合、ステップＳ１１７乃至Ｓ１２９の処理がスキップされる。

以上の処理により、同時に複数のダンサに対して個別の指示を音声により出力すると共に、画像により表示することが可能となる。

結果として、複数のダンサは個別の指示を受けて踊ることで、集団による協調行動をとることが可能となり、集団によるまとまりのあるダンスを実現させることが可能となる。

尚、集団行動を規定するものであればよいので、ダンス以外の指示に用いるようにしてもよく、例えば、複数のメンバーが異なる動作を連携させるようなチームを形成するときにそれぞれのメンバーに対して適切な指示を音声と画像により提示するようにしてもよい。

＜＜５．変形例＞＞
＜受聴者に対して受聴可能なコンテンツを視覚的に提示する例＞
以上においては、センサ１２により撮像された画像に基づいて、受聴者の位置、移動速度、および移動方向を認識して、受聴者の動きを推定し、動き推定結果に基づいて、予め設定された領域毎または対象者毎の再生スケジュールを設定して、波面合成により領域毎または対象者毎の受聴者に視聴可能な音声を出力させる例について説明してきたが、領域毎に受聴可能なコンテンツを視覚的に認識できるように提示するようにしてもよい。

例えば、再生スケジュールにより、図１８で示されるように、マルチスピーカシステム１４から、音声再生エリアＡＲ１に対して、例えば、日本語の音声が、音声再生エリアＡＲ２に対して、例えば、英語の音声が、音声再生エリアＡＲ３に対して、例えば、中国語の音声がそれぞれ出力される状態を想定する。

ここで、マルチスピーカシステム１４の上部にプロジェクタ状の領域提示装置１２１を設けるようにして、例えば、音声再生エリアＡＲ１乃至ＡＲ３のそれぞれの対応する領域の床面に対して、それぞれの領域において日本語、英語、および中国語の音声案内が聞こえるエリアであることが認識できる模様等をそれぞれの領域に投影するようにしてもよい。

このようにすることで、受聴者は、今現在どの領域において、どのような言語の音声を受聴することができるのかを認識することができる。

また、領域提示装置１２１は、受聴者がどの位置でどの言語が出力されているのかを認識することができれば他の構成であってもよく、例えば、図１９で示されるように、マルチスピーカシステム１４の上部にスピーカごとの配置に合わせてLED照明を配設し、マルチスピーカシステム１４より出力される言語が出力される種別と対応する音声再生エリアＡＲ１乃至ＡＲ３ごとに異なる色の光を発色させるようにしてもよい。

例えば、図１９で示されるように、音声再生エリアＡＲ１乃至ＡＲ３に対応する、領域提示装置１２１を構成するLEDが配置された領域１２１ａ乃至１２１ｃのそれぞれについて、異なる色の光を発色させることで、異なる言語の音声が出力されている領域を視覚的に認識させるようにしてもよい。

すなわち、この場合においても、受聴者は、領域提示装置１２１を構成するLEDの領域１２１ａ乃至１２１ｃのそれぞれの発色により、対応する音声再生エリアＡＲ１乃至ＡＲ３において、いずれの言語の音声が出力されているのかを認識することができる。

尚、各領域に対応付けて表示部１３が設けられる場合については、対応する表示部１３において、対応する領域において、いずれの言語による音声が出力されているのかを示す情報を提示するようにしてもよい。

また、領域提示装置１２１の動作と制御については、マルチスピーカシステム１４を構成する各スピーカに供給される音声データの種別に応じて投影位置を制御したり、発色を制御することで実現することができる。従って、実質的に、領域提示装置１２１の制御は、マルチスピーカシステム１４の制御と同一であるので、その説明は省略する。

＜＜６．第５の実施の形態＞＞
＜受聴者の属性に応じた出力処理＞
以上においては、通路を移動する受聴者である通行人に対して、動きに追従して、音声と画像からなる広告を提示したり、複数の受聴者に対して個別に同時に指示を出力する例について説明してきたが、受聴者である通行人の動きや位置の変化とは無関係に属性に応じて出力するようにしてもよい。

ここで、図２０のフローチャートを参照して、受聴者の属性に応じた出力処理について説明する。尚、図２０のフローチャートにおけるステップＳ１５１乃至Ｓ１６４の処理は、図６のフローチャートにおけるステップＳ１１，Ｓ１２，Ｓ１７乃至Ｓ２８の処理と同一であるので、処理の説明は省略する。

すなわち、図２０のフローチャートを参照して説明する出力処理においては、繰り返し撮像される画像に基づいて、ステップＳ１５２において、通行人の有無、通行人の個別の識別情報、男性、女性、年齢、国籍、使用言語、１人の男性、１人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ等、通行人の顔の表情、通行人の感情、および行動の状態（立ち止まっている、歩行中、走っている、またはジェスチャを含む）等が属性として推定される。

そして、ステップＳ１５３，Ｓ１５８，Ｓ１６０のそれぞれにおいて属性推定結果に基づいた音声データ１１１、画像データ１１２、および字幕データ１１３が読み出されて、マルチスピーカシステム１４より音声として出力され、表示部１３より画像として出力される。

ただし、図２０の処理においては、通行人の動き、すなわち、位置の変化に係る推定結果は求められないので、音源が特定の位置である場合の音声が出力されることになり、通行人の動きや位置の変化には追従しない。

しかしながら、通行人の属性に応じた音声と画像のコンテンツを出力することが可能となるので、受聴者である通行人に提示される音声や画像（字幕を含む）は、通行人の属性に対応した音声と画像（字幕を含む）のコンテンツであるので、受聴者である通行人に対して、受け容れ易い広告を提示させることが可能となる。

＜＜７．第６の実施の形態＞＞
＜ライブ会場の音声と画像を再現会場で再現する例＞
以上においては、通路を移動する受聴者である通行人に対して、動きに追従して、音声と画像からなる広告を提示したり、複数の受聴者に対して個別に同時に指示を出力する例について説明してきたが、ライブ会場の音声と画像を他の再現会場において出力するようにしてもよい。

例えば、図２１で示されるように、ライブ会場ＬＨのステージＳｔ１１において、アーティストＨＲが行うライブをセンサ１２’が、撮像（音声の収録を含む）し、撮像されたライブ画像、および収録されたライブ音声の情報を情報処理装置１１に送信する。尚、アーティストＨＲは、音声を受聴する受聴者に対して、音声を発生する発音者と考えることができる。

情報処理装置１１は、センサ１２’より供給されるライブ画像およびライブ音声を取得する。また、情報処理装置１１は、ライブ会場ＬＨにおける固有データとして、例えば、建屋の空間サイズ（ｗ×ｄ×ｈ）や集客数等の情報を取得すると共に、再現会場ＲＨの固有データとして、例えば、建屋の空間サイズ（ｗ１×ｄ１×ｈ１）や集客数等の情報を取得する。

そして、情報処理装置１１は、再現会場ＲＨのセンシング結果、ライブ会場ＬＨのセンシング結果であるライブ画像およびライブ音声、ライブ会場ＬＨの固有データ、および再現会場ＲＨの固有データに基づいて、ライブ画像およびライブ音声の再現会場ＲＨにおける再生スケジュールを生成し、再生スケジュールに応じて、再現会場ＲＨに対応する音場合成パラメータを生成する。

より詳細には、情報処理装置１１は、ライブ会場ＬＨの撮像画像に基づいてアーティストＨＲのライブ会場ＬＨ内における動きを推定し、ライブ会場ＬＨの固有データ、および再現会場ＲＨの固有データに基づいて、ライブ会場ＬＨ内におけるアーティストＨＲの動き推定結果を、再現会場ＲＨ内における動き推定結果に変換する。情報処理装置１１は、このアーティストＨＲの再現会場ＲＨ内における動き推定結果に基づいて、ライブ画像およびライブ音声の再現会場ＲＨにおける再生スケジュールを生成し、再生スケジュールに応じて、再現会場ＲＨに対応する音場合成パラメータを生成する。

情報処理装置１１は、生成した再現会場ＲＨに対応する音場合成パラメータに基づいて、ライブ会場ＬＨで収録された音声を波面合成することで、ライブ会場ＬＨの音声を再現会場ＲＨに適した音声として出力する。

この時、情報処理装置１１は、ライブ会場ＬＨにより撮像された画像データを、再現会場ＲＨのステージＳｔ１２上に設けられた表示部１３に適したサイズに変換し、アーティストＨＶとして表示させる。

これにより、再現会場ＲＨにおいても、ライブ会場ＬＨで受聴（視聴）するような音声と画像により、ライブ会場ＬＨにおけるアーティストＨＲが、あたかも再現会場ＲＨに存在しているようにアーティストＨＶを表示してライブ会場ＬＨのライブを再現する。

尚、情報処理装置１１は、再現会場ＲＨにおける観客の状況をセンサ１２により撮像（音声の収録を含む）し、観客の動き、盛り上がり（再現会場の音声等）を再現会場ＲＨのセンシング結果として取得するようにしてもよい。

このとき、情報処理装置１１は、再現会場ＲＨ内における観客の動き推定結果も考慮して、再現会場ＲＨにおける再生スケジュールを生成するようにしてもよい。

＜再現会場においてライブ会場の音声と画像を出力する情報処理装置のハードウェア構成例＞
次に、図２１を参照して、再現会場においてライブ会場の音声と画像を出力する情報処理装置１１のハードウェア構成例について説明する。尚、図２１の情報処理装置１１において、図３の情報処理装置１１と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

すなわち、図２１の情報処理装置１１のハードウェア構成例において、図３の情報処理装置１１のハードウェア構成例と異なる点は、ライブ会場ＬＨに設けられるセンサ１２’が新たに追加された点である。センサ１２’は、ライブ会場ＬＨに設けられ、ライブ会場ＬＨにおける画像を撮像し、音声を収録して、画像および音声を情報処理装置１１に送信する。

図２１の情報処理装置１１においては、制御部３１が、通信部３５を制御して、センサ１２’より供給される画像および音声を取得し、音声データ１５１（図２２）および画像データ１５２（図２２）として記憶部３４に格納する。

尚、センサ１２’は、画像および音声以外にも、例えば、字幕データなどが存在する場合については、字幕データも取得し、情報処理装置１１に送信する。この場合、情報処理装置１１は、供給された字幕データを取得して字幕データ１５３（図２２）として記憶部３４に格納する。また、それ以外の情報であっても、センシング可能な情報であれば取得するようにしてもよく、例えば、ライブ会場ＬＨの湿度や温度などライブ会場ＬＨの状況を認識できる情報であれば、その他の情報をセンシングするようにしてもよい。

＜図２１の情報処理装置により実現される機能構成例＞
次に、図２２の機能ブロック図を参照して、図２１の情報処理装置１１により実現される機能について説明する。尚、図２２の機能ブロック図において、図４の機能ブロック図と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。

すなわち、図２２の機能ブロック図において、図４の機能ブロック図と異なる点は、記憶部３４に記憶される音声データ１１１、画像データ１１２、および字幕データ１１３に代えて、ライブ会場ＬＨより供給されるライブ音声の音声データ１５１、ライブ画像の画像データ１５２、およびライブにおいて提示される字幕データ１５３がセンサ１２’からの情報として格納されている点である。また、事前に取得されるライブ会場ＬＨのサイズや集客数などのライブ会場固有データ１６１、および再現会場ＲＨのサイズや集客数などの再現会場固有データ１６２等の空間情報が新たに記憶されている点である。

さらに、動き推定部７１、再生スケジュール生成部７２、および画像再生部９１に代えて、動き推定部１７１、再生スケジュール生成部１７２、および画像再生部１９１が設けられた点である。

動き推定部１７１は、センサ１２’により撮像されたライブ会場ＬＨの画像である画像データ１５２に基づいて、アーティストＨＲの位置、移動速度、および移動方向の情報を検出すると共に、所定時間だけ未来のアーティストＨＲのライブ会場ＬＨ内における位置をアーティストＨＲの動きとして推定する。

さらに、動き推定部１７１は、ライブ会場ＬＨの撮像画像である画像データ１５２に基づいてアーティストＨＲのライブ会場ＬＨ内における動きを推定し、動き推定結果をライブ会場ＬＨの固有データ、および再現会場ＲＨの固有データに基づいて、ライブ会場ＬＨ内における動きを再現会場ＲＨ内の動き推定結果に変換し、再生スケジュール生成部１７２に出力する。

より詳細には、動き推定部１７１は、図２３の上段で示されるように、アーティストＨＲのライブ会場ＬＨのステージＳｔ１１上における位置（ｘ，ｙ，ｚ）、および動き情報（移動速度、および移動方向）（ｓ，ｔ，ｕ）を、ライブ会場ＬＨ内における動きとして推定する。

動き推定部１７１は、ライブ会場固有データ１６１より得られるライブ会場ＬＨの空間サイズ（ｗ，ｄ，ｈ）と、再現会場固有データ１６２より得られる再現会場ＲＨの空間サイズ（ｗ１，ｄ１，ｈ１）とに基づいて、ライブ会場ＬＨ内における動きをマッピングすることで、再現会場ＲＨ内のステージＳｔ１２上の位置（ｘ１，ｙ１，ｚ１）、および動き情報（移動速度、および移動方向）（ｓ１，ｔ１，ｕ１）からなる、再現会場ＲＨ内における動きとして推定する。すなわち、動き推定部１７１は、ライブ会場ＬＨの画像に基づいて、ライブ会場ＬＨ内におけるアーティストＨＲの動きを推定し、再現会場ＲＨにおいて、あたかもアーティストＨＲが存在した場合に推定される動きに変換する。

再生スケジュール生成部１７２は、図２３を参照して求められた再現会場ＲＨ内における動き推定結果に基づいて、センサ１２’により撮像された音声データ１５１を再生する再生スケジュールを生成し、音場合成パラメータ生成部７５に出力する。

この際、再生スケジュール生成部１７２は、ライブ会場固有データ１６１より得られるライブ会場ＬＨの空間サイズ（ｗ，ｄ，ｈ）と、再現会場固有データ１６２より得られる再現会場ＲＨの空間サイズ（ｗ１，ｄ１，ｈ１）とに基づいて、音声に影響する様々な効果についても決定し、これらの効果も考慮の上、再生スケジュールを生成し、音場合成パラメータ生成部７５に出力する。

さらに、再現会場ＲＨにおける観客の画像もセンサ１２により画像として撮像され、また、音声も収録されているので、動き推定部１７１は、再現会場内における観客の動きと、アーティストＨＲが再現会場ＲＨに存在した場合の動きとを推定し、再生スケジュール生成部１７２に出力するようにしてもよい。

この場合、再生スケジュール生成部１７２は、再現会場内における観客の動きと、アーティストＨＲが再現会場ＲＨに存在した場合の動きとを考慮して再生スケジュールを生成するようにしてもよい。

そして、音場合成パラメータ生成部７５は、このようにして生成された再現会場ＲＨ用に生成された再生スケジュールに基づいて、波面合成により音声を出力するための音場を合成するための音場合成パラメータを生成する。

この一連の処理により、生成される音場合成パラメータにより再現会場ＲＨのマルチスピーカシステム１４において実現される波面合成により、ライブ会場ＬＨにおいて受聴した場合と同様の臨場感のある音声を再現会場ＲＨにおいて再現させることが可能となる。

また、画像再生部１９１は、基本的な機能は、画像再生部９１と同様であるが、さらに、ライブ会場固有データ１６１、および再現会場固有データ１６２に基づいた空間情報に基づいて、ライブ画像からなる画像データ１５２を再現会場ＲＨにおける表示部１３のサイズに適合するように画像を変換して再生し、字幕インポーズ部９３に出力する。

＜ライブ会場の音声および画像を再現会場で出力する場合の出力処理＞
次に、図２４のフローチャートを参照して、ライブ会場の音声および画像を再現会場で出力する場合の出力処理について説明する。

ステップＳ２３１において、制御部３１は、通信部３５を制御して、ライブ会場固有データ１６１、および再現会場固有データ１６２を取得して、記憶部３４に格納する。尚、ライブ会場固有データ１６１、および再現会場固有データ１６２は、例えば、入力部３２を操作してユーザが予め入力しておいてもよい。

ステップＳ２３２において、制御部３１は、通信部３５を制御して、ライブ会場ＬＨに設けられているセンサ１２’により撮像（音声の収録を含む）されて送信されてくるライブ音声およびライブ画像からなる音声データ１５１、および画像データ１５２を取得させて、記憶部３４に格納する。尚、この際、制御部３１は、通信部３５を制御して、字幕データ１５３を取得させるようにして、記憶部３４に格納するようにしてもよい。

ステップＳ２３３において、センサ１２は、再現会場ＲＨ内を撮像（音声の収録を含む）して、観客の様子を撮像し、画像として音声処理部５１に出力する。

ステップＳ２３４において、音声処理部５１の属性推定部７３は、センサ１２により撮像された再現会場ＲＨ内の観客の画像に基づいて、観客の属性を推定し、属性推定結果を音声データ取得部７４、並びに、画像処理部５２の画像再生部１９１、および字幕再生部９２に出力する。尚、ここでは、観客の属性の情報は、例えば、字幕を表示する際の言語を特定するための情報として取得するようにしてもよい。また、観客の属性は、観客の個別の属性ではなく、観客の属性のうち、最も多い属性を観客の属性とするようにしてもよい。

ステップＳ２３５において、動き推定部１７１は、記憶部３４に格納されている画像データ１５２に基づいて、アーティストＨＲの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来のアーティストＨＲのライブ会場ＬＨ内における位置を動きとして推定する。

ステップＳ２３６において、動き推定部１７１は、ライブ会場固有データ１６１、および再現会場固有データ１６２に基づいて、図２３を参照して説明したように、アーティストＨＲのライブ会場ＬＨ内における動き推定結果を、再現会場ＲＨ内における動き推定結果に変換し、再生スケジュール生成部７２に出力する。尚、動き推定部１７１は、必要に応じてセンサ１２により撮像された再現会場ＲＨ内における観客の動き推定結果も求めて再生スケジュール生成部１７２に出力するようにしてもよい。

ステップＳ２３７において、再生スケジュール生成部１７２は、供給されてくる再現会場ＲＨ内におけるアーティストＨＲの動き推定結果が直前の動き推定結果と異なるか否かを判定する。

ステップＳ２３７において、最初の処理、または、直前の再現会場ＲＨ内におけるアーティストＨＲの動き推定結果との差分が所定の閾値よりも大きく、直前の再現会場ＲＨ内におけるアーティストＨＲの動き推定結果と異なると判定された場合、処理は、ステップＳ２３８に進む。

ステップＳ２３８において、再生スケジュール生成部１７２は、再現会場ＲＨ内におけるアーティストＨＲの動き推定結果に基づいて、アーティストＨＲの移動経路上におけるそれぞれの時刻における位置に応じた音源位置の音声を再生させるスケジュールを生成する。尚、音声データ１５１は、例えば、同一音源位置で再現される複数のフレームからなる音声モジュールとされており、これらの音声モジュールが再生されるタイミングや負荷する効果を示す情報が再生スケジュールとして生成される。

そして、再生スケジュール生成部７２は、生成した再生スケジュールの情報を音声データ取得部７４、および音場合成パラメータ生成部７５、並びに、画像処理部５２の画像再生部１９１および字幕再生部９２に出力する。

ステップＳ２３９において、制御部３１は、再生スケジュールにおける次の音声モジュールの再生が開始される時刻になったか否かを判定する。

ステップＳ２３９において、再生スケジュールにおいて、次の音声モジュールの再生が開始される時刻になった場合、処理は、ステップＳ２４０に進む。

ステップＳ２４０において、音声データ取得部７４は、記憶部３４にアクセスし、再生が開始される、音声モジュールのライブ音声からなる音声データ１５１を取得して、音場合成パラメータ生成部７５に出力する。

ステップＳ２４１において、音場合成パラメータ生成部７５は、再生スケジュールに基づいて、波面合成により、再現会場ＲＨにおいて、ライブ会場ＬＨに対応する再現会場ＲＨ内の位置でアーティストＨＲが発する音声を再現するための音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、ライブ音声からなる音声データ１５１と共に音場合成部７６に出力する。

ステップＳ２４２において、音場合成部７６は、音場合成パラメータと、ライブ音声からなる音声データ１５１に基づいて、畳み込み演算によりチャネル毎に音声データ１５１を合成することで音場を合成し、Ｎチャネル増幅部７７に出力する。

ステップＳ２４３において、Ｎチャネル増幅部７７は、チャネル毎に合成された音声データ１５１を増幅し、マルチスピーカシステム１４の各スピーカに対して音声信号として出力する。

ステップＳ２４４において、マルチスピーカシステム１４は、Ｎチャネル増幅部７７より供給される音声信号に基づいて、音声を出力する。

すなわち、ステップＳ２３９乃至Ｓ２４４の一連の処理により、ライブ会場ＬＨにおいて撮像（収録）された音声が、再現会場ＲＨの空間に適切に対応可能な状態に変換された、音場が合成（波面合成）された音声としてマルチスピーカシステム１４より出力されることになる。

ステップＳ２４５において、画像再生部１９１は、記憶部３４にアクセスし、再生が開始される画像データ１５２を読み出す。

ステップＳ２４６において、画像再生部１９１は、ライブ会場固有データ１６１および再現会場固有データ１６２に基づいて、読み出した画像データ１５２を再現会場ＲＨにおける表示部１３に適切なサイズに変換して再生して、字幕インポーズ部９３に出力する。

ステップＳ２４７において、字幕再生部９２は、記憶部３４にアクセスし、再生が開始される、属性推定結果に対応する字幕データ１５３を読み出す。尚、ここでも字幕データ１５３は、複数の言語に対応するものが存在し、観客の属性として分類される国籍や使用言語の情報に基づいた字幕データ１５３が読み出される。

ステップＳ２４８において、字幕再生部９２は、読み出した字幕データ１５３を再生して、字幕インポーズ部９３に出力する。

ステップＳ２４９において、字幕インポーズ部９３は、再生した画像上に、字幕をインポーズする。

ステップＳ２５０において、字幕インポーズ部９３は、字幕をインポーズした画像を表示部１３に出力して表示させる。

ステップＳ２５１において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップＳ２３２に戻り、それ以降の処理が繰り返される。そして、ステップＳ２５１において、終了が指示された場合、処理は、終了する。尚、図２４のフローチャートにおいては、ライブ会場ＬＨにおいて取得される音声データ１５１、画像データ１５２、および字幕データ１５３は、パケットを構成するために一時的に記憶部３４に蓄積し、リアルタイムで再生スケジュールを生成して再生させる例について説明してきたが、音声データ１５１、画像データ１５２、および字幕データ１５３については、事前に記憶部３４に記憶させておき、ライブ会場ＬＨにおけるライブ音声や画像の再生はライブコンサート等が開催されているタイミングとは異なるタイミングで再生するようにしてもよい。

以上の処理により、受聴者である観客は、ライブ会場ＬＨとはサイズが異なるような再現会場ＲＨ内であっても、再現会場ＲＨに対応して変換されたアーティストの動き推定結果に基づいて、再生スケジュールが生成されて、音場合成パラメータが生成される。この音場合成パラメータにより、ライブ音声からなる音声データ１５１が波面合成されることにより、再現会場ＲＨにおいて、あたかもライブ会場ＬＨでライブ音声を受聴しているような臨場感のあるライブ音声を出力することが可能となる。

結果として、再現会場ＲＨの観客は、あたかもライブ会場ＬＨにおいて、直接ライブ音声を受聴しているような臨場感のある音声を楽しむことが可能となる。

＜＜８．ソフトウェアにより実行させる例＞＞
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。

図２５は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタフェース１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

入出力インタフェース１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブル記憶媒体１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記憶媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

尚、図２５におけるCPU１００１が、図３，図２１の制御部３１の機能を実現させる。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

尚、本開示は、以下のような構成も取ることができる。

＜１＞人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部とを備える
情報処理装置。
＜２＞前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部と、
前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
＜１＞に記載の情報処理装置。
＜３＞前記スケジュールに応じて、音場を合成するための音場合成パラメータを生成する音場合成パラメータ生成部と、
前記音場合成パラメータと複数のチャネルの音声データとを畳み込み演算によりチャネル毎に合成することで音場を合成する音場合成部とをさらに備え、
前記音声出力部は、前記音場合成部により前記チャネル毎に前記音場が合成された音声を出力することで前記波面合成により音声を出力する
＜２＞に記載の情報処理装置。
＜４＞前記人は、受聴者であり、
前記検出部は、前記受聴者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
＜２＞に記載の情報処理装置。
＜５＞前記受聴者により音声が受聴される受聴領域が複数に分割された分割領域として設定され、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する領域について、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
＜４＞に記載の情報処理装置。
＜６＞前記スケジュール生成部は、再生時間の長さが異なる複数のコンテンツのうち、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域を前記受聴者が通過する時間と対応する再生時間の長さのコンテンツを選択して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
＜５＞に記載の情報処理装置。
＜７＞前記分割領域内のそれぞれの位置に前記受聴者が存在する場合の波面合成フィルタを格納するテーブルをさらに含み、
前記音声出力部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記テーブルより、前記分割領域内の位置に応じた波面合成フィルタを読み出して、前記波面合成することにより音声を出力する
＜５＞に記載の情報処理装置。
＜８＞前記受聴者の属性を推定する属性推定部をさらに含み、
前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性に対応するコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する分割領域に対して、前記音声出力部より前記波面合成により音声を出力するスケジュールを生成する
＜５＞に記載の情報処理装置。
＜９＞前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じた視覚的情報を提示する領域提示部をさらに備える
＜５＞に記載の情報処理装置。
＜１０＞前記領域提示部は、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に異なる模様を投影する投影部、または、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に発色を変えて発光する発光部である
＜９＞に記載の情報処理装置。
＜１１＞前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性の種類が多い場合、複数の属性に対して共通のコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成する
＜８＞に記載の情報処理装置。
＜１２＞前記音声に対応する画像を再生して表示する表示部と、
前記音声に対応する字幕を再生する字幕再生部とをさらに含み、
前記字幕再生部は、前記属性推定部により推定された前記受聴者の属性に対応する字幕を選択して再生する
＜８＞に記載の情報処理装置。
＜１３＞前記属性は、前記受聴者の個別の識別情報、男性、女性、年齢、国籍、使用言語、１人の男性、１人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ、および行動の状態を含む
＜８＞に記載の情報処理装置。
＜１４＞前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性により前記受聴者を識別し、識別結果に応じたコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者が存在する前記分割領域毎に、前記波面合成により音声を出力するスケジュールを生成する
＜８＞に記載の情報処理装置。
＜１５＞前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者と音源との距離に応じた音量カーブを用いて音量を制御して、前記波面合成により音声を出力するスケジュールを生成する
＜４＞に記載の情報処理装置。
＜１６＞前記人は、発音者であり、
前記検出部は、前記発音者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記発音者の動きに追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
＜２＞または＜３＞に記載の情報処理装置。
＜１７＞前記発音者は、ライブ会場におけるアーティストであり、
前記検出部は、前記ライブ会場におけるアーティストの画像に基づいて、前記ライブ会場におけるアーティストの位置の変化を検出し、前記ライブ会場の空間情報と再現会場の空間情報に基づいて、前記再現会場における位置の変化に変換することで、前記再現会場におけるアーティストの位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記再現会場における前記アーティストの位置の変化に追従して、前記再現会場で前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
＜１６＞に記載の情報処理装置。
＜１８＞人の位置の変化を検出する検出処理と、
前記検出処理により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力処理を含む
情報処理方法。
＜１９＞人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部
としてコンピュータを機能させるプログラム。
＜２０＞人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部を備える
情報処理システム。

１広告提示システム，１１情報処理装置，１２，１２’ センサ，１３，１３－１乃至１３－３表示部，１４マルチスピーカシステム，３１制御部，３２入力部，３３出力部，３４記憶部，３５通信部，３６ドライブ，３７リムーバブル記憶媒体，３８バス，５１音声処理部，５２画像処理部，７１動き推定部，７２再生スケジュール生成部，７３カテゴリ推定部，７４音声データ取得部，７５音場合成パラメータ生成部，７６音場合成部，７７Ｎチャネル増幅部，９１画像再生部，９２字幕再生部，９３字幕インポーズ部，１１１音声データ，１１２画像データ，１１３字幕データ，１２１領域提示装置，１５１音声データ，１５２画像データ，１５３字幕データ，１６１ライブ会場固有データ，１６２再現会場固有データ，１７１動き推定部，１７２再生スケジュール生成部

Claims

人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部と、
前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え、
前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
情報処理装置。
前記スケジュールに応じて、音場を合成するための音場合成パラメータを生成する音場合成パラメータ生成部と、
前記音場合成パラメータと複数のチャネルの音声データとを畳み込み演算によりチャネル毎に合成することで音場を合成する音場合成部とをさらに備え、
前記音声出力部は、前記音場合成部により前記チャネル毎に前記音場が合成された音声を出力することで前記波面合成により音声を出力する
請求項１に記載の情報処理装置。
前記人は、受聴者であり、
前記検出部は、前記受聴者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
請求項１に記載の情報処理装置。
前記受聴者により音声が受聴される受聴領域が複数に分割された分割領域として設定され、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する領域について、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
請求項３に記載の情報処理装置。
前記スケジュール生成部は、再生時間の長さが異なる複数のコンテンツのうち、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域を前記受聴者が通過する時間と対応する再生時間の長さのコンテンツを選択して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
請求項４に記載の情報処理装置。
前記分割領域内のそれぞれの位置に前記受聴者が存在する場合の波面合成フィルタを格納するテーブルをさらに含み、
前記音声出力部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記テーブルより、前記分割領域内の位置に応じた波面合成フィルタを読み出して、前記波面合成することにより音声を出力する
請求項４に記載の情報処理装置。
前記受聴者の属性を推定する属性推定部をさらに含み、
前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性に対応するコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する分割領域に対して、前記音声出力部より前記波面合成により音声を出力するスケジュールを生成する
請求項４に記載の情報処理装置。
前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じた視覚的情報を提示する領域提示部をさらに備える
請求項４に記載の情報処理装置。
前記領域提示部は、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に異なる模様を投影する投影部、または、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に発色を変えて発光する発光部である
請求項８に記載の情報処理装置。
前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性の種類が多い場合、複数の属性に対して共通のコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成する
請求項７に記載の情報処理装置。
前記音声に対応する画像を再生して表示する表示部と、
前記音声に対応する字幕を再生する字幕再生部とをさらに含み、
前記字幕再生部は、前記属性推定部により推定された前記受聴者の属性に対応する字幕を選択して再生する
請求項７に記載の情報処理装置。
前記属性は、前記受聴者の個別の識別情報、男性、女性、年齢、国籍、使用言語、１人の男性、１人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ、および行動の状態を含む
請求項７に記載の情報処理装置。
前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性により前記受聴者を識別し、識別結果に応じたコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者が存在する前記分割領域毎に、前記波面合成により音声を出力するスケジュールを生成する
請求項７に記載の情報処理装置。
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者と音源との距離に応じた音量カーブを用いて音量を制御して、前記波面合成により音声を出力するスケジュールを生成する
請求項３に記載の情報処理装置。
前記人は、発音者であり、
前記検出部は、前記発音者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記発音者の動きに追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
請求項１に記載の情報処理装置。
前記発音者は、ライブ会場におけるアーティストであり、
前記検出部は、前記ライブ会場におけるアーティストの画像に基づいて、前記ライブ会場におけるアーティストの位置の変化を検出し、前記ライブ会場の空間情報と再現会場の空間情報に基づいて、前記再現会場における位置の変化に変換することで、前記再現会場におけるアーティストの位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記再現会場における前記アーティストの位置の変化に追従して、前記再現会場で前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
請求項１５に記載の情報処理装置。
人の位置の変化を検出する検出処理と、
前記検出処理により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力処理と、
前記検出処理により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成処理とを含み、
前記音声出力処理は、前記スケジュールに応じて、前記検出処理により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
情報処理方法。
人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部と、
前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部としてコンピュータを機能させ、
前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
プログラム。
人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部と、
前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え、
前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
情報処理システム。