JP7234555B2 - 情報処理装置、および情報処理方法、プログラム、情報処理システム - Google Patents

情報処理装置、および情報処理方法、プログラム、情報処理システム Download PDF

Info

Publication number
JP7234555B2
JP7234555B2 JP2018179845A JP2018179845A JP7234555B2 JP 7234555 B2 JP7234555 B2 JP 7234555B2 JP 2018179845 A JP2018179845 A JP 2018179845A JP 2018179845 A JP2018179845 A JP 2018179845A JP 7234555 B2 JP7234555 B2 JP 7234555B2
Authority
JP
Japan
Prior art keywords
unit
sound
schedule
audio
field synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018179845A
Other languages
English (en)
Other versions
JP2020053791A (ja
Inventor
英三郎 板倉
健 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Priority to JP2018179845A priority Critical patent/JP7234555B2/ja
Priority to PCT/JP2019/035821 priority patent/WO2020066644A1/en
Priority to US17/274,693 priority patent/US11546713B2/en
Priority to CN201980062226.5A priority patent/CN112771891B/zh
Publication of JP2020053791A publication Critical patent/JP2020053791A/ja
Application granted granted Critical
Publication of JP7234555B2 publication Critical patent/JP7234555B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0261Targeted advertisements based on user location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)

Description

本開示は、情報処理装置、および情報処理方法、プログラム、情報処理システムに関し、特に、複数の受聴者の動きに追従して、複数の受聴者に対して同時に適切な音声を受聴できるようにした情報処理装置、および情報処理方法、プログラム、情報処理システムに関する。
受聴者の動きに追従して、受聴者の存在する位置に対して適切な音声を受聴できるようにする技術が提案されている(特許文献1乃至3参照)。
特開2005-295181号公報 特開2012-175162号公報 特開2012-253707号公報
しかしながら、特許文献1乃至3のいずれにおいても、特定の受聴者の動きに追従して適切に音声を受聴させることはできるが、複数の受聴者の動きに追従して、複数の受聴者に対して同時に適切な音声を受聴させることができなかった。
本開示は、このような状況に鑑みてなされたものであり、特に、複数の受聴者の動きに追従して、複数の受聴者に同時に適切な音声を受聴させる。
本開示の一側面の情報処理装置、およびプログラム、並びに情報処理システムは、人の位置の変化を検出する検出部と、前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部と、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え、前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する情報処理装置、およびプログラム、並びに情報処理システムである。
本開示の一側面の情報処理方法は、情報処理装置に対応する。
本開示の一側面においては、人の位置の変化が検出され、検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場が伝送されるように波面合成により音声が出力され、検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールが生成され、前記スケジュールに応じて、検出された人の位置の変化に追従して、前記波面合成により音声が出力される。
本開示の広告提示システムの概要を説明する図である。 波面合成により実現される音声例を説明する図である。 図1の広告提示システムにおける情報処理装置のハードウェア構成を説明するハードウェアブロック図である。 図3の情報処理装置により実現される機能を説明する機能ブロック図である。 動き推定を説明する図である。 第1の実施の形態における出力処理を説明するフローチャートである。 領域毎に音声を出力し画像を表示する例を説明する図である。 領域毎に音声を出力し画像を表示する例を説明する図である。 領域毎に音声を出力し画像を表示する例を説明する図である。 領域毎に音声を出力し画像を表示する例を説明する図である。 領域毎に音声を出力し画像を表示する例を説明する図である。 第2の実施の形態における領域毎に音声を出力し画像を表示する場合の出力処理を説明するフローチャートである。 距離に応じた音量の減衰を説明する図である。 第3の実施の形態における距離に応じて音量を減衰する場合の出力処理を説明するフローチャートである。 同時に複数の受聴者に個別の指示を出す例を説明する図である。 同時に複数の受聴者に個別の指示を出す例を説明する図である。 第4の実施の形態における同時に複数の受聴者に個別の指示を出す場合の出力処理を説明するフローチャートである。 受聴者に対して受聴可能なコンテンツを視覚的に提示する例を説明する図である。 受聴者に対して受聴可能なコンテンツを視覚的に提示する例を説明する図である。 第5の実施の形態における受聴者の属性に応じた出力処理を説明するフローチャートである。 ライブ会場の音声および画像を再現会場で再現する例を説明する図である。 図21の情報処理装置のハードウェア構成を説明するハードウェアブロック図である。 図22の情報処理装置により実現される機能を説明する機能ブロック図である。 ライブ会場におけるアーティストの動き推定結果を再現会場における動き推定結果に変換する例を説明する図である。 第6の実施の形態におけるライブ会場の音声および画像を再現会場で再現する場合の出力処理を説明するフローチャートである。 汎用のパーソナルコンピュータの構成例を説明する図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.第4の実施の形態
5.変形例
6.第5の実施の形態
7.第6の実施の形態
8.ソフトウェアにより実行させる例
<<1.第1の実施の形態>>
<本開示の概要>
図1を参照して、本開示の広告提示システムの概要について説明する。
図1の広告提示システム1は、デジタルサイネージとも言われる、画像と音声による広告を、通路等を通行する通行人に提示するシステムである。
広告提示システム1は、図1で示されるように、情報処理装置11、センサ12、表示部13-1乃至13-3、およびマルチスピーカシステム14から構成され、表示部13-1乃至13-3、およびマルチスピーカシステム14は、通路15に沿って設けられている。尚、表示部13-1乃至13-3のそれぞれを特定する必要がない場合、単に、表示部13と称するものとし、他の構成も同様に称する。
センサ12は、通路を通行する、広告を受聴(視聴)する受聴者としての通行人の位置を検出し、情報処理装置11に出力する。センサ12は、例えば、通路を撮像するカメラであり、通路上における通行人の位置を画像として撮像し、撮像した画像を検出結果として情報処理装置11に出力する。尚、センサ12は、通路に存在する通行人の位置を検出するためのセンサであればよいので、カメラ以外であってもよく、例えば、通行人の通過に伴う重さにより位置を検出するセンサや通路上にレーザ光を投光する投光部と受光部とからなるセンサにより、通行人の通行に伴って遮光される領域を通行人の位置として検出するようにしてもよい。ただし、以降においては、センサ12は、通路15の画像を撮像して、情報処理装置11に出力するものとして説明を進める。
情報処理装置11は、センサ12により撮像された画像に基づいて、通路における通行人の位置、移動速度、および移動方向を検出して、通行人の所定の時間だけ未来の動きを推定して、所定の時間だけ未来の所定のタイミングにおいて推定される推定位置において、通行人が適切な音声として受聴可能な広告の音声をマルチスピーカシステム14より広告の音声を出力させると共に、推定位置に最も近い表示部13において広告の画像を表示させる。
表示部13-1乃至13-3は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)からなるディスプレイであり、通行人が通行する通路15に沿って設けられている。尚、図1においては、表示部13は、表示部13-1乃至13-3の3個である例が示されているが、3個以外の個数であってもよい。また、表示部13は1個であってもよく、所定のタイミングにおける推定位置に最も近い表示部13上の領域に広告の画像を表示させるようにしてもよい。
マルチスピーカシステム14は、複数のスピーカから構成されており、それぞれのスピーカを用いた波面合成により、スピーカの設けられた面の前後を含む様々な位置に音源があるかのような音声を出力させる。ここでいう波面合成とは、複数のスピーカからの音声出力を調整することで、音声の仮想音源の位置を様々に変化させて空間的な音場を形成し、伝送する処理である。
マルチスピーカシステム14は、波面合成により、図2の左部で示されるように、受聴者H1がマルチスピーカシステム14から出力される音声を受聴する場合、例えば、マルチスピーカシステム14のスピーカ面より前方の位置に音源SS1が、あたかも存在するかのように受聴される音声を波面合成により出力することができる。
また、マルチスピーカシステム14は、波面合成により、図2の中央部で示されるように、受聴者H1がマルチスピーカシステム14から出力される音声を受聴する場合、例えば、マルチスピーカシステム14のスピーカ面の前面あるいは後面において、あたかも音源SS2がS字状の経路SLを描くように移動しているかのように受聴される音声を波面合成により出力することができる。
さらに、マルチスピーカシステム14は、波面合成により、図2の右部で示されるように、受聴者H1がマルチスピーカシステム14から出力される音声を受聴する場合、例えば、マルチスピーカシステム14のスピーカ面より前面において、受聴者H11乃至H13のそれぞれがスピーカ面に対向するように並んでいるとき、受聴者H11乃至H13のそれぞれに対して、個別の音声Sd1乃至Sd3が相互に入り混じることなくそれぞれに受聴される音声を波面合成により出力することができる。
尚、図示していないが、マルチスピーカシステム14は、マルチスピーカシステム14のスピーカ面より背面の位置に音源が存在するかのような音声を出力することもできる。
すなわち、マルチスピーカシステム14は、受聴者である通行人の空間内の位置が特定できていれば、波面合成により、図2を参照して説明したような、3種類の効果のいずれか、または、その組み合わせとなる効果を加えた広告の音声を受聴させることができる。尚、音声は、音楽、効果音等人の声以外の音声も含む。
次に、図1を参照して、広告提示システム1の動作の概要について説明する。
情報処理装置11は、図1の上段で示されるように、センサ12により撮像された画像に基づいて、通行人H1の時刻t1における位置、移動速度、および移動方向を検出する。そして、情報処理装置11は、検出結果に基づいて、図1の下段で示されるように、通行人H1の所定の時間だけ未来の時刻t2における位置、移動速度、および移動方向を動きとして推定する。尚、ここで推定される通行人H1の動きとは、通行人H1の時系列に想定される位置の変化を表現するものであり、手を握る、開く、股を開閉させるといった動作を示すものではない。
情報処理装置11は、時刻t1の通行人H1の検出結果と、時刻t2における通行人H1の動き推定結果に基づいて、時刻t1乃至t2間の各時刻における、マルチスピーカシステム14より出力する広告用の音声としてのコンテンツのうち、どのコンテンツをどのような演出で出力させるのかを示す音声の再生スケジュールを計画する。また、このとき、情報処理装置11は、表示部13-1乃至13-3において表示する広告用の画像としてのコンテンツのうち、どのコンテンツをどのような位置に表示するのかを示す画像の再生スケジュールを計画する。
情報処理装置11は、計画した音声の再生スケジュールに基づいて、マルチスピーカシステム14を制御して、各時刻において移動する受聴者である通行人H1の動きに追従して、それぞれの位置において、適切に広告用の音声を受聴できるように広告用の音声を出力させる。
すなわち、時刻t11において、通過することが推定される位置に存在する通行人H1(t11)が適切な音声として受聴することができる音声を波面合成により出力できるように、情報処理装置11がマルチスピーカシステム14を制御する。
同時に、情報処理装置11は、計画した画像の再生スケジュールに基づいて、表示部13-1乃至13-3を制御して、各時刻において移動する受聴者である通行人H1の動きに追従して、それぞれの位置において、適切に広告用の画像を視聴できるように広告用の画像を表示させる。
すなわち、時刻t11において、通過することが推定される位置に存在する通行人H1(t11)が適切な画像として視聴することができる画像を、例えば、表示部13-2で表示するように、情報処理装置11が表示部13-2を制御する。
これにより、通行人H1は、通路15に沿って、移動していても、通行人H1の動きに追従して、適切に広告用の音声を受聴し、さらに、適切に広告用の画像を視聴することが可能となる。
結果として、音声と画像からなる広告を、移動している通行人H1の動きに追従して適切に認識させることが可能となる。
<情報処理装置のハードウェア構成例>
次に、図3のハードウェアブロック図を参照して、情報処理装置11のハードウェア構成例について説明する。
情報処理装置11は、例えば、表示部13やマルチスピーカシステム14のコントローラとして構成され、制御部31、入力部32、出力部33、記憶部34、通信部35、ドライブ36、およびリムーバブル記憶媒体37より構成され、それらが相互にバス38介して電気的に接続された構成とされている。
制御部31は、プロセッサやメモリより構成されており、情報処理装置11の動作の全体を制御する。また、制御部31は、音声処理部51および画像処理部52を備えており、それぞれ広告用の音声の出力、および、画像の表示を制御する。
入力部32は、キーボードや操作ボタンなどから構成され、ユーザの操作入力を受け付けて、バス38を介して制御部31に出力する。
出力部33は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)等のディスプレイなどから構成される表示部13に画像を出力して表示させると共に、マルチスピーカシステム14に音声信号を出力して音声を出力する。
記憶部34は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、または、半導体メモリなどからなり、制御部31により制御され、各種のデータおよびプログラムを書き込む、または、読み出す。
通信部35は、制御部31により制御され、有線または無線により、LAN(Local Area Network)などに代表されるネットワークを介して図示せぬ外部のサーバ等との間で各種のデータやプログラムを送受信する。
ドライブ36は、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、Blu-ray(登録商標) Disc、およびArchival Discを含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体37に対してデータを読み書きする。
<情報処理装置により実現される機能構成例>
次に、図4の機能ブロック図を参照して、情報処理装置11により実現される機能について説明する。
情報処理装置11により実現される機能は、制御部31における音声処理部51および画像処理部52により実現される。また、記憶部34には、広告用の音声データ111、広告用の画像データ112、および字幕データ113が格納されている。
音声処理部51は、記憶部34に格納されている広告用の音声データ111を用いて、マルチスピーカシステム14を制御して、広告用の音声の出力を制御する。
画像処理部52は、記憶部34に格納されている広告用の画像データ112、および字幕データ113を用いて、表示部13を制御して、広告用の画像の表示を制御する。
音声処理部51は、動き推定部71、再生スケジュール生成部72、属性推定部73、音声データ取得部74、音場合成パラメータ生成部75、音場合成部76、およびNチャネル増幅部77より構成される。
動き推定部71は、センサ12により撮像された通路の画像に基づいて、受聴者となる通路上の通行人の位置、移動速度および移動方向を検出する。そして、動き推定部71は、検出した通路上の通行人の位置、移動速度および移動方向に基づいて、所定の時間だけ未来における時系列の通行人の位置を動きとして推定して、動き推定結果を再生スケジュール生成部72に出力する。
再生スケジュール生成部72は、動き推定結果における、所定の時間だけ未来の時系列の通行人の位置の情報に基づいて、広告用の音声の再生スケジュールを生成して、音声データ取得部74、および音場合成パラメータ生成部75、並びに、画像処理部52の画像再生部91、および字幕再生部92に出力する。
例えば、図5で示されるように、センサ12により時刻t1において、撮像された画像より、通行人の中心位置が位置P1で検出されるような場合、時刻t1における移動速度と移動方向とから、所定の時間だけ未来の時刻t2における位置は、位置P1から所定の方向に、例えば、位置P2にとして推定される。
このような場合、通行人の中心位置は、図5の直線Lで示されるように、位置P1,P2間を直線で結んだ軌跡を描いて移動することが推定される。ここで、図5の直線Lにおける傾きは、移動速度に応じた傾きとなる。
そこで、時刻t1乃至t2においては、この直線L上を時系列に移動する位置が動きとして推定される。再生スケジュール生成部72は、このような動き推定結果が、図5の直線Lで表現されるとき、直線L上のそれぞれの時刻に応じた位置において、図2を参照して説明したような効果のいずれか、または、それらの組み合わせとなる効果が加えられた広告用の音声を、適切に通行人が受聴できるように出力する再生スケジュールを生成する。このようなことから、再生スケジュールは、音声や画像の再生シナリオと捉えることもできる。尚、ここでいう再生スケジュールは、それぞれの時刻に応じた通行人の位置において、適切に通行人が視聴可能な広告用の画像を表示させる再生スケジュールでもある。
したがって、直線L上を移動する場合、時刻t1乃至t2のうちの時刻t11においては、対応する位置P11において、受聴者である通行人が、図2を参照して説明したような効果のいずれか、または、それらの組み合わせとなる効果が加えられた広告用の音声として、適切に受聴できるように出力され、対応する位置で適切な画像を視聴できる広告用の画像が表示される再生スケジュールが生成されることになる。
属性推定部73は、認識器などから構成され、センサ12により撮像された画像や音声に基づいて、広告を受聴する(視聴する)通行人(受聴者)の状況が、どのような属性に分類されるのかを推定し、属性推定結果を音声データ取得部74、画像再生部91、および字幕再生部92に出力する。
尚、属性推定部73において分類される通行人の状況を表す属性の種別は、例えば、画像や音声の少なくともいずれかにより認識できる情報であり、例えば、通行人の有無を示す情報である。
また、通行人が存在する場合には、通行人の状況を表す属性の種別は、画像や音声の少なくともいずれかを用いた解析または分析により認識される、例えば、通行人の個別の識別情報、男性、女性、年齢、国籍、使用言語、1人の男性、1人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ等の解析結果や分析結果の情報が含まれる。
さらに、通行人の状況を表す属性の種類には、画像や音声の少なくともいずれかを用いた解析または分析により分類される、例えば、通行人の顔の表情、通行人の表情などから推定される感情、および通行人の行動の状態(立ち止まっている、歩行中、走っている、またはジェスチャを含む)等を示す解析結果や分析結果の情報が含まれる。
また、通行人の状況を表す属性の種類には、例えば、顔の表情、顔色、視線、身振り、手振り、体の姿勢、相手との物理的な距離の置き方、服装、髪型、呼吸、声のトーンや声質などの非言語コミュニケーション(Non-Verbal Cues)などで使用される情報を含む。さらに、ここでいう、通行人の状況を表す属性の分類の種別は、一例であり、その他の属性の種別を設定するようにしてもよい。さらに、属性推定部73は、学習機能を備えた認識器やAI(Artificial Intelligence)などにより実現されてもよい。
音声データ取得部74は、再生スケジュール生成部72より供給される再生スケジュール、および、属性推定部73より供給される属性推定結果に基づいて、記憶部34にアクセスして、対応する広告用の音声データ111を取得して音場合成パラメータ生成部75に出力する。
広告用の音声データ111は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる音声データである。このため、音声データ取得部74は、再生スケジュールにおいて特定されているものであって、推定された属性に対応する広告用の音声データ(コンテンツ)を取得して、音場合成パラメータ生成部75に出力する。
音場合成パラメータ生成部75は、再生スケジュールと、音声データ取得部74より供給される音声データ111とに基づいて、音場を合成するために必要な音場合成パラメータを生成して音場合成部76に出力する。
音場合成部76は、音場合成パラメータ生成部75より供給される音場合成パラメータに基づいて、Nチャネル増幅部77を制御して、マルチスピーカシステム14に出力させて、音声として出力させる。
Nチャネル増幅部77は、音場合成部76より供給される制御信号に応じて、マルチスピーカシステム14を構成するNチャネルのスピーカのそれぞれを制御して音声を出力させる。この一連の処理により、再生スケジュールにより特定された効果を実現させるための波面合成が実現され、図2を参照して説明した効果が加えられた広告用の音声が出力される。
画像処理部52は、画像再生部91、字幕再生部92、および字幕インポーズ部93より構成される。
画像再生部91は、再生スケジュール生成部72より供給される再生スケジュール、および、属性推定部73より供給される属性推定結果に基づいて、記憶部34にアクセスして、対応する広告用の画像データ112を読み出して再生し、字幕インポーズ部93に出力する。
広告用の画像データ112は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる画像データ112である。このため、画像再生部91は、再生スケジュールにおける所定のタイミングに応じたものであって、属性推定結果となる属性に対応する広告用のコンテンツの画像データ112を読み出して再生し、字幕インポーズ部93に出力する。
字幕再生部92は、再生スケジュール生成部72より供給される再生スケジュール、および、属性推定部73より供給される属性推定結果に基づいて、記憶部34にアクセスして、対応する広告用の字幕データ113を読み出して再生し、字幕インポーズ部93に出力する。
広告用の字幕データ113は、男性、女性、年齢層、国籍、男性のグループ、女性のグループ、男女混合のグループ、および家族連れ等の属性に応じた複数の種類のコンテンツからなる字幕データ113である。このため、字幕再生部92は、再生スケジュールにおける所定のタイミングに応じた字幕データ113であって、属性推定結果となる属性に対応する広告用のコンテンツの字幕データ113を読み出して再生し、字幕インポーズ部93に出力する。
字幕インポーズ部93は、画像再生部91より再生されて出力される画像に、字幕再生部92より再生されて出力される字幕の画像をインポーズして、対象となる表示部13に出力して画像として表示させる。
<出力処理>
次に、図6のフローチャートを参照して、第1の実施の形態における広告用の音声および画像の出力処理について説明する。
ステップS11において、センサ12は、通路の画像を撮像し、音声処理部51に出力する。
ステップS12において、音声処理部51の属性推定部73は、撮像された画像に基づいて、通行人の属性を推定し、属性推定結果を音声データ取得部74、並びに、画像処理部52の画像再生部91、および字幕再生部92に出力する。
ステップS13において、動き推定部71は、センサ12により撮像された画像に基づいて、通行人の位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来の通行人の位置を動きとして推定し、動き推定結果を再生スケジュール生成部72に出力する。
ステップS14において、再生スケジュール生成部72は、供給されてくる動き推定結果が直前の動き推定結果と異なるか否かを判定する。すなわち、直前の動き推定結果と大きな変化がない場合、直前の動き推定結果に基づいて生成される再生スケジュールをそのまま使用すればよく、再生スケジュールを生成し直す必要がない。このため、再生スケジュール生成部72は、直前の動き推定結果との差分を求めて、所定の閾値と比較して、閾値よりも大きいか否かにより異なるか否かを判定する。尚、最初の処理においては、直前の動き推定結果は存在しないので、直前の動き推定結果とは異なるものとして処理を進める。
ステップS14において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップS15に進む。
ステップS15において、再生スケジュール生成部72は、受聴者となる通行人の動き推定結果に基づいた推定される移動経路上におけるそれぞれの時刻における位置において、音声に施すべき効果と、効果が施された状態の音声として適切に受聴可能な状態で音声を出力させるスケジュールを生成する。そして、再生スケジュール生成部72は、生成した再生スケジュールの情報を音声データ取得部74、および音場合成パラメータ生成部75、並びに、画像処理部52の画像再生部91および字幕再生部92に出力する。
ステップS16において、制御部31は、再生スケジュールにおいて、次の再生開始時刻になったか否かを判定する。ここでは、再生スケジュールは、例えば、所定の広告用の音声および画像のコンテンツの再生を開始させるタイミングが時刻により設定されるので、次のコンテンツの再生開始時刻になったか否かが判定される。
ステップS16において、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったとみなされた場合、処理は、ステップS17に進む。
ステップS17において、音声データ取得部74は、記憶部34にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの音声データ111を取得して、音場合成パラメータ生成部75に出力する。
ステップS18において、音場合成パラメータ生成部75は、再生スケジュールに基づいて、波面合成により、受聴者である通行人が適切に受聴可能な音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、音声データ111と共に音場合成部76に出力する。
ステップS19において、音場合成部76は、音場合成パラメータと音声データ111に基づいて、畳み込み演算によりチャネル毎に音声データ111を合成することで音場を合成し、Nチャネル増幅部77に出力する。
ステップS20において、Nチャネル増幅部77は、チャネル毎に合成された音声データ111を増幅し、マルチスピーカシステム14の各スピーカに対して音声信号として出力する。
ステップS21において、マルチスピーカシステム14は、Nチャネル増幅部77より供給される音声信号に基づいて、音声を出力する。
すなわち、ステップS19乃至S21の一連の処理により、音場が合成(波面合成)された音声がマルチスピーカシステム14より出力されることになる。
ステップS22において、画像再生部91は、記憶部34にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの画像データ112を読み出す。
ステップS23において、画像再生部91は、読み出した画像データ112に基づいて、画像を再生して、字幕インポーズ部93に出力する。
ステップS24において、字幕再生部92は、記憶部34にアクセスし、再生が開始される、属性推定結果となる属性に対応するコンテンツの字幕データ113を読み出す。
ステップS25において、字幕再生部92は、読み出した字幕データ113に基づいて、字幕を再生して、字幕インポーズ部93に出力する。
ステップS26において、字幕インポーズ部93は、再生した画像上に、字幕をインポーズする。
ステップS27において、字幕インポーズ部93は、字幕をインポーズした画像を表示部13に出力して表示させる。
ステップS28において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップS11に戻り、それ以降の処理が繰り返される。そして、ステップS28において、終了が指示された場合、処理は、終了する。
尚、ステップS16において、再生スケジュールにおいて、コンテンツの再生開始時刻になっていないとみなされた場合、ステップS17乃至S27の処理がスキップされる。
以上の処理により、受聴者である通行人は、通路15上を移動し続けても、動きに追従して、それぞれの位置において、波面合成により、音声データ111に付加された効果を適切に認識できる状態で、広告用の音声を受聴し続けることが可能となる。
また、視聴者である通行人は、移動し続けても、動きに追従して、それぞれの位置において、適切なタイミングで通過する付近の表示部13に表示された広告用の画像を視聴し続けることが可能となる。
さらに、受聴者である通行人に提示される音声や画像(字幕を含む)は、通行人の属性に対応した音声と画像(字幕を含む)のコンテンツであるので、受聴者である通行人に対して、受け容れ易い広告を提示させることが可能となる。
結果として、受聴者である通行人に対して、最適な種類のコンテンツからなる音声と画像からなる広告を、通行人の動きに追従して、提示することが可能となるので、広告効果を向上させることが可能となる。
また、デジタルサイネージなどで、広告のターゲットとなる受聴者に対して効果的な音声コンテンツによる広告を提供することができる。
さらに、属性で国籍等が認識できれば、言語を切替えて広告を提供することができるので、広告の効果や、案内の利便性を向上させることが可能となる。
また、センサ12として、カメラ等のセンサーデバイスを用いることで、ユーザを介在させることなく、自動的に広告を提示させることが可能となり、省力化と共に、ターゲットとなる受聴者に応じた効果的な広告や案内を実現することが可能となる。
以上においては、通路15における通行人を対象者として広告を提示する例について説明してきたが、通行人や広告の対象者が存在する場所であれば、その他の場所であってもよい。
尚、以上においては、通行人が一人である場合について説明してきたが、通行人は、複数の通行人のグループであってもよい。複数の通行人のグループの場合、男性だけのグループ、女性だけのグループ、男女混合のグループ、または、家族連れなどを属性に含めるようにしてもよく、それぞれに対応する音声データ111、画像データ112、および字幕データ113を用意して、それぞれのグループに対応する広告用の音声を出力し、字幕を含む画像を表示するようにしてもよい。
また、通行人や通行人のグループが複数であってもよく、それぞれについて同様の処理をすることで、通行人や通行人のグループのそれぞれに対して、適切な属性のコンテンツからなる音声と画像が、適切なタイミングで動きに追従して提示されるようにしてもよい。特に、音声については、波面合成により、複数の通行人や複数のグループのそれぞれに対して、それぞれの属性に応じたコンテンツを、図2を参照して説明した効果を個別に付加して出力することができるので、複数の通行人や複数のグループに受け入れやすい広告の音声を提示することが可能となる。
さらに、音声については、オーサリングツールを用いて音源の変移をユーザが設定できるようにして、波面合成により音源の変移を認識できるような効果を付加した音声として出力するようにしてもよい。
以上においては、波面合成に係る音場合成パラメータが、受聴領域における受聴者である通行人の位置に応じて、毎回、生成され、音場合成パラメータと音声データとが畳み込み演算にチャネル毎に合成され、合成されたチャネル毎の音声データを用いて波面合成がなされる例について説明してきた。
しかしながら、予め受聴領域を複数のエリアに分割し、分割されたエリア毎に予め波面合成フィルタを演算して、ルックアップテーブル等に格納しておき、受聴領域における通行人の位置が検出されるとき、ルックアップテーブルを参照して、検出された位置に対応するエリアの波面合成フィルタを読み出して、フィルタ処理することで波面合成するようにしてもよい。
このように予め波面合成フィルタを用意しておくことにより、演算量を低減させると共に高速で波面合成に係る処理を高速化することが可能となる。特に、異なる言語の音声データを複数の通行人に対して個別に受聴できるようにする場合、毎回演算すると、ある程度の人数を超えると処理に遅延が発生する可能性があり、波面合成フィルタを用意することで遅延の発生を抑制することが可能となる。
さらに、以上の処理においては、表示部13には、広告用の画像と共にインポーズされた通行人の属性で判断される通行人の字幕を表示することで、音声のコンテンツだけでは適切に広告を提供できない場合でも、確実に広告を提示することが可能となる。
<<2.第2の実施の形態>>
<領域毎に音声を出力し画像を表示する例>
以上においては、通路における通行人の位置に応じて広告用の音声を出力し、画像を表示するようにする例について説明してきたが、複数の通行人や複数の通行人のグループが通行している場合、個別に処理する人数やグループ数には限界がある。そこで、通路を複数の領域に分割して、各領域に存在する通行人や通行人のグループの属性に応じて、領域毎に広告用の音声の出力と、表示する画像を切り替えられるようにしてもよい。また、同じ領域に複数のグループまたは通行人が存在する場合には、優先するコンテンツを予め決めておき、そのコンテンツを提示するようにする。例えば、優先度の高い方から英語、中国語、日本語の順に提示するものとする。
例えば、時刻t100乃至t101、時刻t101乃至t102、および時刻t102乃至t103のそれぞれにおいて、通行人のグループG1,G2および通行人H1が、図7乃至図9のそれぞれの上段で示されるような位置に存在する場合について考える。尚、通路は、領域Z1乃至Z5の5つの領域に分割されているものとし、表示部13の図示は省略するものとするが、表示部13も領域Z1乃至Z5のそれぞれに対応する位置に存在するものとする。また、属性推定部73により、通行人のグループG1,G2および通行人H1は、それぞれ使用言語が英語の通行人のグループ、使用言語が中国語の通行人のグループ、および使用言語が日本語の通行人であることを示す属性に分類されるものとする。
すなわち、時刻t100乃至t101においては、センサ12により撮像される画像に基づいて、図7の上段で示されるように、グループG1が領域Z1,Z2に跨るように存在し、グループG2が領域Z4,Z5に跨るように存在し、通行人H1が領域Z3に存在することが認識される。また、センサ12により撮像される画像により、グループG1,G2および通行人H1のそれぞれの移動速度と移動方向から動きが推定されて、時刻t102,t103における位置が推定される。
また、時刻t100乃至t101の場合、図7の上段で示されるようなグループG1,G2および通行人H1の配置に基づいて、図7の下段で示されるように、マルチスピーカシステム14により、グループG1に対する広告の音声として英語のコンテンツの音声が領域Z1,Z2に出力され、グループG2に対する広告の音声として中国語のコンテンツの音声が領域Z4,Z5に出力され、通行人H1に対する広告の音声として日本語の音声が領域Z3に出力されるようにする。
さらに、時刻t101乃至t102においては、推定結果に基づいて、例えば、図8の上段で示されるように、グループG1が領域Z2,Z3に跨るように存在し、グループG2が領域Z4,Z5に跨るように存在し、通行人H1が領域Z3に存在することが推定されるものとする。
そこで、時刻t101乃至t102の場合、図8の上段で示されるようなグループG1,G2および通行人H1の配置に基づいて、図8の下段で示されるように、マルチスピーカシステム14により、設定された優先度に基づいて、グループG1に対する広告の音声として英語のコンテンツの音声が領域Z2に出力され、グループG2に対する広告の音声として中国語のコンテンツの音声が領域Z4,Z5に出力され、通行人H1に対する広告の音声として日本語の音声が領域Z3に出力されるようにする。
尚、図8の領域Z3においては、使用言語が英語のグループG1と使用言語が日本語の通行人H1とがいずれも存在する状態となっているが、ここでは、領域Z2,Z3に対して日本語よりも優先度の高い英語のコンテンツの音声が出力される。このように音声が出力されることにより、領域Z2,Z3に存在する通行人において、圧倒的多数となる使用言語が英語の通行人のグループG1に対して広告を提示することが可能となり、広告効果を高めることが可能となる。
また、時刻t102乃至t103においては、推定結果に基づいて、例えば、図9の上段で示されるように、グループG1が領域Z4に存在し、グループG2が領域Z5に存在し、通行人H1が領域Z2に存在することが推定されるものとする。
そこで、時刻t102乃至t103の場合、図9の上段で示されるようなグループG1,G2および通行人H1の配置に基づいて、図9の下段で示されるように、マルチスピーカシステム14により、グループG1に対する広告の音声として英語のコンテンツの音声が領域Z4に出力され、グループG2に対する広告の音声として中国語のコンテンツの音声が領域Z5に出力され、通行人H1に対する広告の音声として日本語のコンテンツの音声が領域Z2に出力されるようにする。
図7乃至図9を参照して説明した時刻t101乃至t103の結果から、例えば、図10で示されるような再生スケジュールが計画される。
図10で示されるように、時刻t100乃至t101においては、図7を参照して説明したように、領域Z1,Z2においては英語のコンテンツの音声が出力され、領域Z3においては日本語のコンテンツの音声が出力され、領域Z4,Z5においては中国語のコンテンツの音声が出力される。
また、時刻t101乃至t102においては、図8を参照して説明したように、領域Z2,Z3においては英語のコンテンツの音声が出力され、領域Z4,Z5においては中国語のコンテンツの音声が出力される。
さらに、時刻102乃至t103においては、図9を参照して説明したように、領域Z2においては日本語のコンテンツの音声が出力され、領域Z4においては英語のコンテンツの音声が出力され、領域Z5においては中国語のコンテンツの音声が出力される。
尚、図10においては、時刻t103乃至t105において、領域Z1,Z2において日本語のコンテンツの音声が出力され、領域Z3乃至Z5において英語のコンテンツの音声が出力される例が示されている。
また、図示しないが、音声と同様に対応する画像を対応する領域の表示部13に表示する。さらに、図10においては、英語、中国語、および日本語のコンテンツのいずれも再生スケジュールが設定されていない領域については、例えば、BGMのみを流すようにしてもよい。
このように、通行人や通行人のグループの位置、移動速度、および移動方向に基づいた動きの推定結果に基づいて、複数の領域Z1乃至Z5に分類された各領域に存在する通行人や通行人のグループのカテゴリに応じた音声を出力させるようにしてもよい。
<コンテンツの長さに応じた切り替え>
また、以上においては、推定される通行人や通行人のグループが存在する領域において、対応する属性の音声のコンテンツを領域毎に出力し、画像を表示する例について説明してきたが、音声を出力する領域(受聴領域)内に存在することが推定される時間の長さに応じて、長さの異なる広告用の音声のコンテンツを切り替えて出力し、画像を表示するようにしてもよい。
すなわち、例えば、図11の上段で示されるように、領域Z1にグループG1が存在し、領域Z5に通行人H1が存在し、矢印で示される移動方向に同一の移動速度で移動している場合について考える。
例えば、時刻t110乃至t111において、グループG1は、領域Z1,Z2に跨がるように存在し、通行人H1が領域Z1乃至Z5のいずれにも存在せず、時刻t111乃至t112において、グループG1が領域Z2,Z3に跨がるように存在し、通行人H1が領域Z5に存在し、時刻t112乃至t113において、グループG1が領域Z3,Z4に存在し、通行人H1が領域Z4に存在し、時刻t113乃至t115において、グループG1および通行人H1がいずれも領域Z3,Z4の境界付近に存在することが推定されるものとする。
この場合、図11の下段で示されるような再生スケジュールが計画される。すなわち、領域Z1乃至Z3においては、時刻t110乃至t113において、再生時間の長さが時刻t110乃至t113(または、グループG1が領域Z1乃至Z3を移動するのに掛かる時間の長さ)となる英語のコンテンツE-Mからなる音声が出力され、対応する画像が表示されるようにする。
また、領域Z4乃至Z5においては、時刻t111乃至t113において、再生時間の長さが時刻t112乃至t113(または、通行人H1が領域Z5,Z4を移動するのに掛かる時間の長さ)となる日本語のコンテンツJ-Sからなる音声が出力され、対応する画像が表示されるようにする。
さらに、時刻t113乃至t115においては、グループG1と通行人H1とが領域Z3,Z4の境界付近にいずれも存在する状態となる。このような状態では、いずれかの言語からなるコンテンツの音声が出力されると、通行人H1かグループG1の通行人のいずれか一方が認識できない可能性がある。そこで、時刻t113乃至t115においては、長さが時刻t113乃至t115の、共通の言語として設定される英語のコンテンツEc-Lからなる音声が出力され、対応する画像が表示されるようにする。
このようにすることで、グループG1と通行人H1とは、それぞれが付近に接近する状態になるまでの適切な長さの、対応する属性のコンテンツを、完全に受聴(視聴)し終えることが可能となり、さらに、双方が付近に存在する状態となった以降については、共通の言語として設定されるコンテンツが再生される。
尚、通路15における通行人やグループが所定数より多くなるような場合や分類される属性が多くなるような場合には、個別にコンテンツを再生させる処理負荷が大きくなる。そこで、そのような場合については、通行人の人数や属性の数と無関係に、共通の言語として設定されるコンテンツのみを再生するようにしてもよい。このようにすることで、多数の通行人やグループ、分類される属性が多い場合でも再生に係る処理負荷を低減することができる。
<領域毎に再生スケジュールを設定する場合の出力処理>
次に、図12のフローチャートを参照して、領域毎に再生スケジュールを設定する場合の出力処理について説明する。
ステップS31において、センサ12は、通路の画像を撮像し、音声処理部51に出力する。
ステップS32において、音声処理部51の属性推定部73は、撮像された画像に基づいて、通行人や通行人のグループの属性を推定し、属性推定結果を音声データ取得部74、並びに、画像処理部52の画像再生部91、および字幕再生部92に出力する。
ステップS33において、動き推定部71は、センサ12により撮像された画像に基づいて、通行人や通行人のグループのそれぞれの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来の通行人や通行人のグループのそれぞれの位置を動きとして推定し、動き推定結果を再生スケジュール生成部72に出力する。
ステップS34において、再生スケジュール生成部72は、供給されてくる各通行人や通行人のグループの動き推定結果が直前の動き推定結果と異なるか否かを判定する。
ステップS34において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップS35に進む。
ステップS35において、再生スケジュール生成部72は、動き推定結果に基づいて、受聴者となる通行人や通行人のグループの推定される移動経路上におけるそれぞれの時刻における位置に基づいて、図7乃至図11を参照して説明したような、領域毎に適切に受聴可能な音声を再生させるスケジュールを生成する。そして、再生スケジュール生成部72は、生成した再生スケジュールの情報を音声データ取得部74、および音場合成パラメータ生成部75、並びに、画像処理部52の画像再生部91および字幕再生部92に出力する。
ステップS36において、制御部31は、再生スケジュールにおいて、次の再生開始時刻になったか否かを判定する。
再生スケジュールが、例えば、図10で示されるような場合、時刻t101においては、領域Z3乃至Z5においては、日本語と中国語のコンテンツの再生が継続されるので、次の再生が開始されるタイミングではないが、領域Z2において、新たに英語のコンテンツの再生が開始されることになるので、時刻t101のような場合、次の再生開始時刻になったものとみなされる。
一方、図10においては、時刻t104においては、領域Z1乃至Z5の全領域において、日本語と英語のコンテンツの再生が継続されており、いずれの領域にも次のコンテンツの再生が開始される時刻ではない。従って、時刻t104においては、次の再生開始時刻になったものとはみなされない。
すなわち、ステップS36においては、全ての領域のうちのいずれか1カ所で次のコンテンツの再生が開始される場合には、次の再生開始時刻になったものとはみなされる。
ステップS36において、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったとみなされた場合、処理は、ステップS37に進む。
ステップS37において、制御部31は、未処理の領域のいずれかを処理対象領域に設定する。すなわち、例えば、図7乃至図11の場合、領域Z1乃至Z5のうち未処理の領域のいずれかが処理対象領域に設定される。
ステップS38において、音声データ取得部74は、記憶部34にアクセスし、処理対象領域において再生が開始される、属性に対応するコンテンツの音声データ111を取得して、音場合成パラメータ生成部75に出力する。
ここで取得される音声データ111は、属性のみに対応するものであってもよいし、図11を参照して説明したように、異なる属性の通行人や通行人のグループが通路に存在しているような場合、異なる通行人や通行人のグループが接近するまでの時間に応じた長さも考慮したコンテンツの音声データ111が取得されるようにしてもよい。
尚、新たなコンテンツの再生が開始されない領域が処理対象領域である場合については、ステップS38乃至S48の処理はスキップされる。
ステップS39において、音場合成パラメータ生成部75は、処理対象領域における、再生スケジュール、および音声データ111に基づいて、処理対象領域の受聴者である通行人が適切に受聴可能な音声を波面合成により出力できるような音場を合成するためのパラメータを生成し、音声データ111と共に音場合成部76に出力する。
ステップS40において、音場合成部76は、音場合成パラメータと音声データ111に基づいて、畳み込み演算によりチャネル毎に音声データ111を合成することで音場を合成し、Nチャネル増幅部77に出力する。
ステップS41において、Nチャネル増幅部77は、チャネル毎に合成された音声データ111を増幅し、マルチスピーカシステム14の各スピーカに対して音声信号として出力する。
ステップS42において、マルチスピーカシステム14は、Nチャネル増幅部77より供給される音声信号に基づいて、処理対象領域に対して音声を出力する。
すなわち、ステップS38乃至S42の一連の処理により、音場が合成(波面合成)された音声がマルチスピーカシステム14より出力されることになる。
ステップS43において、画像再生部91は、記憶部34にアクセスし、処理対象領域において、再生が開始される、属性推定結果となる属性に対応するコンテンツの画像データ112を読み出す。
ステップS44において、画像再生部91は、読み出した画像データ112に基づいて、画像を再生して、字幕インポーズ部93に出力する。
ステップS45において、字幕再生部92は、記憶部34にアクセスし、処理対象領域において、再生が開始される、属性推定結果となる属性に対応するコンテンツの字幕データ113を読み出す。
ステップS46において、字幕再生部92は、読み出した字幕データ113に基づいて、字幕を再生して、字幕インポーズ部93に出力する。
ステップS47において、字幕インポーズ部93は、再生した画像上に、字幕をインポーズする。
ステップS48において、字幕インポーズ部93は、字幕をインポーズした画像を表示部13に出力して表示させる。
ステップS49において、制御部31は、未処理の領域が存在するか否かを判定し、未処理の領域が存在する場合、処理は、ステップS37に戻り、未処理の領域がなくなるまで、ステップS37乃至S49の処理が繰り返される。そして、ステップS49において、未処理の領域が存在しないとみなされた場合、処理は、ステップS50に進む。
ステップS50において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップS31に戻り、それ以降の処理が繰り返される。そして、ステップS50において、終了が指示された場合、処理は、終了する。
以上の処理により、受聴者である通行人や通行人のグループは、移動し続けても、動きに追従して、それぞれの存在する領域において、波面合成により、音声データ111に付加された効果を適切に認識できる状態で、広告用の音声を受聴し続けることが可能となる。
また、視聴者である通行人や通行人のグループは、移動し続けても、動きに追従して、それぞれの存在する領域において、適切なタイミングで通過する領域の表示部13に表示された広告用の画像を視聴し続けることが可能となる。
さらに、受聴者である通行人に提示される声や画像(字幕を含む)は、通行人の属性に対応した音声と画像(字幕を含む)のコンテンツであるので、受聴者である通行人や通行人のグループに対して受け容れ易い広告を提示させることが可能となる。
また、異なる属性の通行人や通行人のグループが通路に存在していても、異なる通行人や通行人のグループが接近するまでの時間に応じた長さとカテゴリに対応したコンテンツの音声を切り替えて出力し、画像を切り替えて表示することができるので、通行人や通行人のグループは、移動していても、広告用のコンテンツが途中までしか受聴(視聴)できないといったことが防止される。
いずれにおいても、結果として、通行人の属性や、周辺の属性が異なる通行人との位置関係に応じて、領域毎に、適切な種類のコンテンツからなる音声と画像による広告を通行人の動きに追従して、提示することが可能となるので、広告効果を向上させることが可能となる。
<<3.第3の実施の形態>>
<マルチスピーカシステムとの距離に応じた音量の調整>
以上においては、センサ12により撮像された画像に基づいて検出された通行人や通行人のグループの位置、移動速度、および移動方向に基づいて推定される動きに追従するように、波面合成によりマルチスピーカシステム14により広告用の音声を出力する例について説明してきたが、波面合成により生成される音源からの距離に応じた音量カーブを設定し、移動距離に応じた音量の調整が音量カーブに基づいて成されるようにしてもよい。
すなわち、図13で示されるように、音源からの位置A,B,Cのそれぞれの受聴者が存在する場合、音源からの距離に応じて音量のレベルは、それぞれ曲線LA,LB,LCで示されるように変化する。
図13においては、図中の左側である0の位置からの距離が約10mの位置Aに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線LAで表現されている。また、図13においては、0の位置からの距離が約20mの位置Bに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線LBで表現されている。さらに、さらに、図13において、0の位置からの距離が約30mの位置Cに受聴者が存在する場合の音源が離れていくときの距離に応じた音量の下がり方を示すカーブが曲線LCで表現されている。
すなわち、音源が位置Xで示される位置Aから距離約5mの位置に存在していた状態から、位置Aから見て距離約10mの位置Oまで離れた場合、位置Aに存在する受聴者で受聴される音量は、曲線LAに従って、約-14dBから約-20dBに変化し-6dBだけ低下する。
しかしながら、音源が位置Xで示される位置Bから約15mの位置に存在していた状態から、位置Bから見て距離約20mの位置Oまで離れた場合、位置Bに存在する受聴者で受聴される音量は、曲線LBに従って、約-23dBから約-26dBに変化し-3dBだけ低下する。
さらに、音源が位置Xで示される位置Cから約25mの位置に存在していた状態から、位置Cから見て距離約30mの位置Oまで離れた場合、位置Cに存在する受聴者で受聴される音量は、曲線LCに従って、約-28dBから約-30dBに変化し-2dBだけ低下する。
尚、一般に距離が倍離れると、音量は-6dB低下するが、音声の反射などがない理想的な条件が整った場合に限られるものであり、また、距離に応じてどの程度音量が低下するのかについては、パラメータの設定により変更できるものである。このため、図13のグラフは一例に過ぎないものである。また、以上においては、音源と受聴者との距離が離れる場合の例について説明したが、接近する場合は、音量が増大するように変化する。
このように、音源と受聴者との距離に応じて、変化する距離と減衰する音量は異なるので、図13で示されるような音量カーブに基づいて、音量を減衰させるようにすることで、より適切な奥行きを感じさせることが可能となる。
<距離に応じた音量の減衰を表現する場合の出力処理>
次に、図14のフローチャートを参照して、距離に応じた音量の減衰を表現する場合の出力処理について説明する。尚、図14のフローチャートにおけるステップS71乃至S79、およびステップS81乃至S91の処理については、図12のフローチャートを参照して説明した処理と同様であるので、その説明は省略する。
すなわち、ステップS80において、音場合成パラメータ生成部75は、処理対象領域における、再生スケジュール、および音声データ111に基づいて、図13を参照して説明したようなマルチスピーカシステム14との距離に応じて、処理対象領域の受聴者である通行人が受聴する音声の音量を、音源からの距離に応じて調整するパラメータを生成し、音場合成部76に出力する。
この処理により、ステップS81において、音場合成部76は、音場合成パラメータと音声データ111に基づいて、畳み込み演算によりチャネル毎に音声データ111を合成することで音場を合成し、Nチャネル増幅部77に出力する。この際、音場合成部76は、音量のパラメータについても考慮して、畳み込み演算によりチャネル毎に音声データ111を合成することで、音量が調整された音場を合成する。
ステップS82において、Nチャネル増幅部77は、距離に応じた音量の調整がなされた、チャネル毎に合成された音声データ111を増幅し、マルチスピーカシステム14の各スピーカに対して音声信号として出力する。
これにより、受聴者である通行人や通行人のグループは、移動し続けても、それぞれの存在する領域において、通行人と波面合成により実現される音源との距離に応じて適切に音量が調整された状態で、適切に波面合成された音声を受聴することが可能となる。
結果として、奥行きのある広告用の音声を受聴し続けることが可能となる。
尚、以上においては、通行人と音源との距離に応じて適切に音量が調整される例について説明してきたが、同様のカーブを設定することで、通行人と音源との距離に応じて残響を調整するようにしてもよい。このような残響の調整により、さらに、奥行きのある広告用の音声を受聴することが可能となる。
<<4.第4の実施の形態>>
<同時に複数の受聴者に個別の指示を出す例>
以上においては、通路を通行する通行人に対して、広告用の音声を出力して、広告用の画像を表示する例について説明してきたが、例えば、通路に代えて、ダンススタジオなどにマルチスピーカシステム14を構成して、スタジオ内でダンスする複数の受聴者としてのダンサに対して個別の指示を出すようにしてもよい。
すなわち、例えば、図15で示されるように、マルチスピーカシステム14をダンススタジオなどに配置して、マルチスピーカシステム14の前方の領域を領域Z11乃至Z13のように分割し、それぞれの領域内で受聴者であるダンサH11乃至H13がダンスするような構成を考える。
このような構成において、領域Z11乃至Z13のそれぞれで踊るダンサH11乃至H13に対して、波面合成によりそれぞれ異なる個別の指示内容の音声を送ることで、全体としての協調動作を実現させるようにしてもよい。
すなわち、例えば、図15で示されるように、領域Z11においてダンスするダンサH11に対しては、「スワンのように踊れ」という指示の音声が聞き取れるように波面合成され、領域Z12においてダンスするダンサH12に対しては、「右足を踏み出せ」という指示の音声が聞き取れるように波面合成され、領域Z13においてダンスするダンサH13に対しては、「左手を上げて」という指示の音声が聞き取れるように波面合成されるようにしてもよい。
図15の例の場合、それぞれの指示は、センサ12により撮像される画像に基づいた、ダンサH11乃至H13毎の指示であるので、例えば、図16の上段で示されるように、領域Z11においてダンサH11が踊り、領域Z12においてダンサH12が踊っている状態から、図16の下段で示されるように、領域Z11においてダンサH12が踊り、領域Z12においてダンサH11が踊っている状態に変化した場合でも、それぞれのダンサH11,H12に対して適切な指示の音声が出力される。
すなわち、センサ12により撮像される画像に基づいて、ダンサH11,H12の移動速度と移動方向の情報から再生スケジュールを生成することで、ダンサH11,H12の存在する領域がZ11,Z12とで入れ替わるタイミングにおいて、それぞれに指示する音声が入れ替わって出力させることができる。
尚、図15,図16においては、表示部13が図示されていないが、スタジオにおける領域Z11乃至Z13のそれぞれの領域において、それぞれの領域で踊るダンサH11乃至H13のそれぞれが視聴可能な表示部13を設けるようにして、波面合成により出力される個別の音声の指示内容に対応する画像を表示するようにしてもよい。
<同時に複数の受聴者に個別の指示を出す場合の出力処理>
次に、図17のフローチャートを参照して、同時に複数の受聴者に個別の指示を出す場合の出力処理について説明する。尚、図17のフローチャートにおいては、各領域Z11乃至Z13のそれぞれで踊るダンサにより個別に視聴可能な画像を表示する表示部13が設けられており、それぞれの指示内容に対応する画像も表示する場合の処理について説明する。
ステップS111において、センサ12は、ダンサが踊るダンススタジオの画像を撮像し、音声処理部51に出力する。
ステップS112において、音声処理部51の属性推定部73は、撮像された画像に基づいて、画像内のそれぞれのダンサがダンサH11乃至H13のいずれであるかを属性として推定し、属性推定結果を音声データ取得部74、並びに、画像処理部52の画像再生部91、および字幕再生部92に出力する。
ステップS113において、動き推定部71は、センサ12により撮像された画像に基づいて、各ダンサのそれぞれの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来のダンサのそれぞれの位置を動きとして推定し、動き推定結果を再生スケジュール生成部72に出力する。
ステップS114において、再生スケジュール生成部72は、供給されてくる各ダンサの動き推定結果が直前の動き推定結果と異なるか否かを判定する。
ステップS114において、最初の処理、または、直前の動き推定結果との差分が所定の閾値よりも大きく、直前の動き推定結果と異なると判定された場合、処理は、ステップS115に進む。
ステップS115において、再生スケジュール生成部72は、動き推定結果に基づいて、受聴者となるダンサの推定される移動経路上におけるそれぞれの時刻における位置に基づいて、ダンサ毎に適切に受聴可能な音声および適切に視聴可能な画像を再生させるスケジュールを生成する。そして、再生スケジュール生成部72は、生成した再生スケジュールの情報を音声データ取得部74、および音場合成パラメータ生成部75、並びに、画像処理部52の画像再生部91および字幕再生部92に出力する。
ステップS116において、制御部31は、再生スケジュールにおいて、次のコンテンツの再生開始時刻になったか否かを判定する。
ステップS116において、再生スケジュールにおいて、次のコンテンツの再生が開始される時刻になったとみなされた場合、処理は、ステップS117に進む。
ステップS117において、制御部31は、未処理のダンサのいずれかを処理対象者に設定する。以下、ダンサを対象者とも称する。
ステップS118において、音声データ取得部74は、記憶部34にアクセスし、処理対象者の属性、すなわち、ダンサH11乃至H13のいずれであるかを示す情報に対応付けられた指示内容の音声データ111を取得して、音場合成パラメータ生成部75に出力する。属性には、処理対象者であるダンサを識別する情報が含まれているので、識別された各ダンサに対して指示される内容の音声データ111が読み出される。
ステップS119において、音場合成パラメータ生成部75は、処理対象者であるダンサの再生スケジュールに基づいて、波面合成により、受聴者である処理対象者が適切に受聴可能な音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、音声データ111と共に音場合成部76に出力する。
ステップS120において、音場合成部76は、音場合成パラメータと音声データ111に基づいて、畳み込み演算によりチャネル毎に音声データ111を合成することで音場を合成し、Nチャネル増幅部77に出力する。
ステップS121において、Nチャネル増幅部77は、チャネル毎に合成された音声データ111を増幅し、マルチスピーカシステム14の各スピーカに対して音声信号として出力する。
ステップS122において、マルチスピーカシステム14は、Nチャネル増幅部77より供給される音声信号に基づいて、処理対象者であるダンサが存在する位置に対して音声を出力する。
すなわち、ステップS118乃至S122の一連の処理により、処理対象者であるダンサH11乃至H13のいずれかに対する指示内容の、音場が合成(波面合成)された音声がマルチスピーカシステム14より出力されることになる。
ステップS123において、画像再生部91は、記憶部34にアクセスし、処理対象者の属性、すなわち、ダンサH11乃至H13のいずれであるかを示す情報に対応付けられた指示内容の画像データ112を読み出す。処理対象者として識別されたダンサに対して指示される内容の画像データ112が読み出される。
ステップS124において、画像再生部91は、読み出した画像データ112を再生して、字幕インポーズ部93に出力する。
ステップS125において、字幕再生部92は、記憶部34にアクセスし、処理対象者の属性、すなわち、ダンサH11乃至H13のいずれであるかを示す情報に対応付けられた指示内容の字幕データ113を読み出す。処理対象者として識別されたダンサに対して指示される内容の字幕データ113が読み出される。
ステップS126において、字幕再生部92は、読み出した字幕データ113を再生して、字幕インポーズ部93に出力する。
ステップS127において、字幕インポーズ部93は、再生した画像上に、字幕をインポーズする。
ステップS128において、字幕インポーズ部93は、字幕をインポーズした画像を表示部13に出力して表示させる。
ステップS129において、制御部31は、未処理の対象者(ダンサ)が存在するか否かを判定し、未処理の対象者が存在する場合、処理は、ステップS117に戻り、未処理の対象者がいなくなるまで、ステップS117乃至S129の処理が繰り返される。そして、ステップS129において、未処理の対象者が存在しないとみなされた場合、処理は、ステップS130に進む。
ステップS130において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップS111に戻り、それ以降の処理が繰り返される。そして、ステップS130において、終了が指示された場合、処理は、終了する。
尚、ステップS116において、再生スケジュールにおいて、コンテンツの再生開始時刻になっていないとみなされた場合、ステップS117乃至S129の処理がスキップされる。
以上の処理により、同時に複数のダンサに対して個別の指示を音声により出力すると共に、画像により表示することが可能となる。
結果として、複数のダンサは個別の指示を受けて踊ることで、集団による協調行動をとることが可能となり、集団によるまとまりのあるダンスを実現させることが可能となる。
尚、集団行動を規定するものであればよいので、ダンス以外の指示に用いるようにしてもよく、例えば、複数のメンバーが異なる動作を連携させるようなチームを形成するときにそれぞれのメンバーに対して適切な指示を音声と画像により提示するようにしてもよい。
<<5.変形例>>
<受聴者に対して受聴可能なコンテンツを視覚的に提示する例>
以上においては、センサ12により撮像された画像に基づいて、受聴者の位置、移動速度、および移動方向を認識して、受聴者の動きを推定し、動き推定結果に基づいて、予め設定された領域毎または対象者毎の再生スケジュールを設定して、波面合成により領域毎または対象者毎の受聴者に視聴可能な音声を出力させる例について説明してきたが、領域毎に受聴可能なコンテンツを視覚的に認識できるように提示するようにしてもよい。
例えば、再生スケジュールにより、図18で示されるように、マルチスピーカシステム14から、音声再生エリアAR1に対して、例えば、日本語の音声が、音声再生エリアAR2に対して、例えば、英語の音声が、音声再生エリアAR3に対して、例えば、中国語の音声がそれぞれ出力される状態を想定する。
ここで、マルチスピーカシステム14の上部にプロジェクタ状の領域提示装置121を設けるようにして、例えば、音声再生エリアAR1乃至AR3のそれぞれの対応する領域の床面に対して、それぞれの領域において日本語、英語、および中国語の音声案内が聞こえるエリアであることが認識できる模様等をそれぞれの領域に投影するようにしてもよい。
このようにすることで、受聴者は、今現在どの領域において、どのような言語の音声を受聴することができるのかを認識することができる。
また、領域提示装置121は、受聴者がどの位置でどの言語が出力されているのかを認識することができれば他の構成であってもよく、例えば、図19で示されるように、マルチスピーカシステム14の上部にスピーカごとの配置に合わせてLED照明を配設し、マルチスピーカシステム14より出力される言語が出力される種別と対応する音声再生エリアAR1乃至AR3ごとに異なる色の光を発色させるようにしてもよい。
例えば、図19で示されるように、音声再生エリアAR1乃至AR3に対応する、領域提示装置121を構成するLEDが配置された領域121a乃至121cのそれぞれについて、異なる色の光を発色させることで、異なる言語の音声が出力されている領域を視覚的に認識させるようにしてもよい。
すなわち、この場合においても、受聴者は、領域提示装置121を構成するLEDの領域121a乃至121cのそれぞれの発色により、対応する音声再生エリアAR1乃至AR3において、いずれの言語の音声が出力されているのかを認識することができる。
尚、各領域に対応付けて表示部13が設けられる場合については、対応する表示部13において、対応する領域において、いずれの言語による音声が出力されているのかを示す情報を提示するようにしてもよい。
また、領域提示装置121の動作と制御については、マルチスピーカシステム14を構成する各スピーカに供給される音声データの種別に応じて投影位置を制御したり、発色を制御することで実現することができる。従って、実質的に、領域提示装置121の制御は、マルチスピーカシステム14の制御と同一であるので、その説明は省略する。
<<6.第5の実施の形態>>
<受聴者の属性に応じた出力処理>
以上においては、通路を移動する受聴者である通行人に対して、動きに追従して、音声と画像からなる広告を提示したり、複数の受聴者に対して個別に同時に指示を出力する例について説明してきたが、受聴者である通行人の動きや位置の変化とは無関係に属性に応じて出力するようにしてもよい。
ここで、図20のフローチャートを参照して、受聴者の属性に応じた出力処理について説明する。尚、図20のフローチャートにおけるステップS151乃至S164の処理は、図6のフローチャートにおけるステップS11,S12,S17乃至S28の処理と同一であるので、処理の説明は省略する。
すなわち、図20のフローチャートを参照して説明する出力処理においては、繰り返し撮像される画像に基づいて、ステップS152において、通行人の有無、通行人の個別の識別情報、男性、女性、年齢、国籍、使用言語、1人の男性、1人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ等、通行人の顔の表情、通行人の感情、および行動の状態(立ち止まっている、歩行中、走っている、またはジェスチャを含む)等が属性として推定される。
そして、ステップS153,S158,S160のそれぞれにおいて属性推定結果に基づいた音声データ111、画像データ112、および字幕データ113が読み出されて、マルチスピーカシステム14より音声として出力され、表示部13より画像として出力される。
ただし、図20の処理においては、通行人の動き、すなわち、位置の変化に係る推定結果は求められないので、音源が特定の位置である場合の音声が出力されることになり、通行人の動きや位置の変化には追従しない。
しかしながら、通行人の属性に応じた音声と画像のコンテンツを出力することが可能となるので、受聴者である通行人に提示される音声や画像(字幕を含む)は、通行人の属性に対応した音声と画像(字幕を含む)のコンテンツであるので、受聴者である通行人に対して、受け容れ易い広告を提示させることが可能となる。
結果として、受聴者である通行人に対して、最適な種類のコンテンツからなる音声と画像からなる広告を、通行人の動きに追従して、提示することが可能となるので、広告効果を向上させることが可能となる。
<<7.第6の実施の形態>>
<ライブ会場の音声と画像を再現会場で再現する例>
以上においては、通路を移動する受聴者である通行人に対して、動きに追従して、音声と画像からなる広告を提示したり、複数の受聴者に対して個別に同時に指示を出力する例について説明してきたが、ライブ会場の音声と画像を他の再現会場において出力するようにしてもよい。
例えば、図21で示されるように、ライブ会場LHのステージSt11において、アーティストHRが行うライブをセンサ12’が、撮像(音声の収録を含む)し、撮像されたライブ画像、および収録されたライブ音声の情報を情報処理装置11に送信する。尚、アーティストHRは、音声を受聴する受聴者に対して、音声を発生する発音者と考えることができる。
情報処理装置11は、センサ12’より供給されるライブ画像およびライブ音声を取得する。また、情報処理装置11は、ライブ会場LHにおける固有データとして、例えば、建屋の空間サイズ(w×d×h)や集客数等の情報を取得すると共に、再現会場RHの固有データとして、例えば、建屋の空間サイズ(w1×d1×h1)や集客数等の情報を取得する。
そして、情報処理装置11は、再現会場RHのセンシング結果、ライブ会場LHのセンシング結果であるライブ画像およびライブ音声、ライブ会場LHの固有データ、および再現会場RHの固有データに基づいて、ライブ画像およびライブ音声の再現会場RHにおける再生スケジュールを生成し、再生スケジュールに応じて、再現会場RHに対応する音場合成パラメータを生成する。
より詳細には、情報処理装置11は、ライブ会場LHの撮像画像に基づいてアーティストHRのライブ会場LH内における動きを推定し、ライブ会場LHの固有データ、および再現会場RHの固有データに基づいて、ライブ会場LH内におけるアーティストHRの動き推定結果を、再現会場RH内における動き推定結果に変換する。情報処理装置11は、このアーティストHRの再現会場RH内における動き推定結果に基づいて、ライブ画像およびライブ音声の再現会場RHにおける再生スケジュールを生成し、再生スケジュールに応じて、再現会場RHに対応する音場合成パラメータを生成する。
情報処理装置11は、生成した再現会場RHに対応する音場合成パラメータに基づいて、ライブ会場LHで収録された音声を波面合成することで、ライブ会場LHの音声を再現会場RHに適した音声として出力する。
この時、情報処理装置11は、ライブ会場LHにより撮像された画像データを、再現会場RHのステージSt12上に設けられた表示部13に適したサイズに変換し、アーティストHVとして表示させる。
これにより、再現会場RHにおいても、ライブ会場LHで受聴(視聴)するような音声と画像により、ライブ会場LHにおけるアーティストHRが、あたかも再現会場RHに存在しているようにアーティストHVを表示してライブ会場LHのライブを再現する。
尚、情報処理装置11は、再現会場RHにおける観客の状況をセンサ12により撮像(音声の収録を含む)し、観客の動き、盛り上がり(再現会場の音声等)を再現会場RHのセンシング結果として取得するようにしてもよい。
このとき、情報処理装置11は、再現会場RH内における観客の動き推定結果も考慮して、再現会場RHにおける再生スケジュールを生成するようにしてもよい。
<再現会場においてライブ会場の音声と画像を出力する情報処理装置のハードウェア構成例>
次に、図21を参照して、再現会場においてライブ会場の音声と画像を出力する情報処理装置11のハードウェア構成例について説明する。尚、図21の情報処理装置11において、図3の情報処理装置11と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
すなわち、図21の情報処理装置11のハードウェア構成例において、図3の情報処理装置11のハードウェア構成例と異なる点は、ライブ会場LHに設けられるセンサ12’が新たに追加された点である。センサ12’は、ライブ会場LHに設けられ、ライブ会場LHにおける画像を撮像し、音声を収録して、画像および音声を情報処理装置11に送信する。
図21の情報処理装置11においては、制御部31が、通信部35を制御して、センサ12’より供給される画像および音声を取得し、音声データ151(図22)および画像データ152(図22)として記憶部34に格納する。
尚、センサ12’は、画像および音声以外にも、例えば、字幕データなどが存在する場合については、字幕データも取得し、情報処理装置11に送信する。この場合、情報処理装置11は、供給された字幕データを取得して字幕データ153(図22)として記憶部34に格納する。また、それ以外の情報であっても、センシング可能な情報であれば取得するようにしてもよく、例えば、ライブ会場LHの湿度や温度などライブ会場LHの状況を認識できる情報であれば、その他の情報をセンシングするようにしてもよい。
<図21の情報処理装置により実現される機能構成例>
次に、図22の機能ブロック図を参照して、図21の情報処理装置11により実現される機能について説明する。尚、図22の機能ブロック図において、図4の機能ブロック図と同一の機能を備えた構成については、同一の符号を付しており、その説明は適宜省略する。
すなわち、図22の機能ブロック図において、図4の機能ブロック図と異なる点は、記憶部34に記憶される音声データ111、画像データ112、および字幕データ113に代えて、ライブ会場LHより供給されるライブ音声の音声データ151、ライブ画像の画像データ152、およびライブにおいて提示される字幕データ153がセンサ12’からの情報として格納されている点である。また、事前に取得されるライブ会場LHのサイズや集客数などのライブ会場固有データ161、および再現会場RHのサイズや集客数などの再現会場固有データ162等の空間情報が新たに記憶されている点である。
さらに、動き推定部71、再生スケジュール生成部72、および画像再生部91に代えて、動き推定部171、再生スケジュール生成部172、および画像再生部191が設けられた点である。
動き推定部171は、センサ12’により撮像されたライブ会場LHの画像である画像データ152に基づいて、アーティストHRの位置、移動速度、および移動方向の情報を検出すると共に、所定時間だけ未来のアーティストHRのライブ会場LH内における位置をアーティストHRの動きとして推定する。
さらに、動き推定部171は、ライブ会場LHの撮像画像である画像データ152に基づいてアーティストHRのライブ会場LH内における動きを推定し、動き推定結果をライブ会場LHの固有データ、および再現会場RHの固有データに基づいて、ライブ会場LH内における動きを再現会場RH内の動き推定結果に変換し、再生スケジュール生成部172に出力する。
より詳細には、動き推定部171は、図23の上段で示されるように、アーティストHRのライブ会場LHのステージSt11上における位置(x,y,z)、および動き情報(移動速度、および移動方向)(s,t,u)を、ライブ会場LH内における動きとして推定する。
動き推定部171は、ライブ会場固有データ161より得られるライブ会場LHの空間サイズ(w,d,h)と、再現会場固有データ162より得られる再現会場RHの空間サイズ(w1,d1,h1)とに基づいて、ライブ会場LH内における動きをマッピングすることで、再現会場RH内のステージSt12上の位置(x1,y1,z1)、および動き情報(移動速度、および移動方向)(s1,t1,u1)からなる、再現会場RH内における動きとして推定する。すなわち、動き推定部171は、ライブ会場LHの画像に基づいて、ライブ会場LH内におけるアーティストHRの動きを推定し、再現会場RHにおいて、あたかもアーティストHRが存在した場合に推定される動きに変換する。
再生スケジュール生成部172は、図23を参照して求められた再現会場RH内における動き推定結果に基づいて、センサ12’により撮像された音声データ151を再生する再生スケジュールを生成し、音場合成パラメータ生成部75に出力する。
この際、再生スケジュール生成部172は、ライブ会場固有データ161より得られるライブ会場LHの空間サイズ(w,d,h)と、再現会場固有データ162より得られる再現会場RHの空間サイズ(w1,d1,h1)とに基づいて、音声に影響する様々な効果についても決定し、これらの効果も考慮の上、再生スケジュールを生成し、音場合成パラメータ生成部75に出力する。
さらに、再現会場RHにおける観客の画像もセンサ12により画像として撮像され、また、音声も収録されているので、動き推定部171は、再現会場内における観客の動きと、アーティストHRが再現会場RHに存在した場合の動きとを推定し、再生スケジュール生成部172に出力するようにしてもよい。
この場合、再生スケジュール生成部172は、再現会場内における観客の動きと、アーティストHRが再現会場RHに存在した場合の動きとを考慮して再生スケジュールを生成するようにしてもよい。
そして、音場合成パラメータ生成部75は、このようにして生成された再現会場RH用に生成された再生スケジュールに基づいて、波面合成により音声を出力するための音場を合成するための音場合成パラメータを生成する。
この一連の処理により、生成される音場合成パラメータにより再現会場RHのマルチスピーカシステム14において実現される波面合成により、ライブ会場LHにおいて受聴した場合と同様の臨場感のある音声を再現会場RHにおいて再現させることが可能となる。
また、画像再生部191は、基本的な機能は、画像再生部91と同様であるが、さらに、ライブ会場固有データ161、および再現会場固有データ162に基づいた空間情報に基づいて、ライブ画像からなる画像データ152を再現会場RHにおける表示部13のサイズに適合するように画像を変換して再生し、字幕インポーズ部93に出力する。
<ライブ会場の音声および画像を再現会場で出力する場合の出力処理>
次に、図24のフローチャートを参照して、ライブ会場の音声および画像を再現会場で出力する場合の出力処理について説明する。
ステップS231において、制御部31は、通信部35を制御して、ライブ会場固有データ161、および再現会場固有データ162を取得して、記憶部34に格納する。尚、ライブ会場固有データ161、および再現会場固有データ162は、例えば、入力部32を操作してユーザが予め入力しておいてもよい。
ステップS232において、制御部31は、通信部35を制御して、ライブ会場LHに設けられているセンサ12’により撮像(音声の収録を含む)されて送信されてくるライブ音声およびライブ画像からなる音声データ151、および画像データ152を取得させて、記憶部34に格納する。尚、この際、制御部31は、通信部35を制御して、字幕データ153を取得させるようにして、記憶部34に格納するようにしてもよい。
ステップS233において、センサ12は、再現会場RH内を撮像(音声の収録を含む)して、観客の様子を撮像し、画像として音声処理部51に出力する。
ステップS234において、音声処理部51の属性推定部73は、センサ12により撮像された再現会場RH内の観客の画像に基づいて、観客の属性を推定し、属性推定結果を音声データ取得部74、並びに、画像処理部52の画像再生部191、および字幕再生部92に出力する。尚、ここでは、観客の属性の情報は、例えば、字幕を表示する際の言語を特定するための情報として取得するようにしてもよい。また、観客の属性は、観客の個別の属性ではなく、観客の属性のうち、最も多い属性を観客の属性とするようにしてもよい。
ステップS235において、動き推定部171は、記憶部34に格納されている画像データ152に基づいて、アーティストHRの位置、移動速度、および移動方向を検出するとともに、所定時間だけ未来のアーティストHRのライブ会場LH内における位置を動きとして推定する。
ステップS236において、動き推定部171は、ライブ会場固有データ161、および再現会場固有データ162に基づいて、図23を参照して説明したように、アーティストHRのライブ会場LH内における動き推定結果を、再現会場RH内における動き推定結果に変換し、再生スケジュール生成部72に出力する。尚、動き推定部171は、必要に応じてセンサ12により撮像された再現会場RH内における観客の動き推定結果も求めて再生スケジュール生成部172に出力するようにしてもよい。
ステップS237において、再生スケジュール生成部172は、供給されてくる再現会場RH内におけるアーティストHRの動き推定結果が直前の動き推定結果と異なるか否かを判定する。
ステップS237において、最初の処理、または、直前の再現会場RH内におけるアーティストHRの動き推定結果との差分が所定の閾値よりも大きく、直前の再現会場RH内におけるアーティストHRの動き推定結果と異なると判定された場合、処理は、ステップS238に進む。
ステップS238において、再生スケジュール生成部172は、再現会場RH内におけるアーティストHRの動き推定結果に基づいて、アーティストHRの移動経路上におけるそれぞれの時刻における位置に応じた音源位置の音声を再生させるスケジュールを生成する。尚、音声データ151は、例えば、同一音源位置で再現される複数のフレームからなる音声モジュールとされており、これらの音声モジュールが再生されるタイミングや負荷する効果を示す情報が再生スケジュールとして生成される。
そして、再生スケジュール生成部72は、生成した再生スケジュールの情報を音声データ取得部74、および音場合成パラメータ生成部75、並びに、画像処理部52の画像再生部191および字幕再生部92に出力する。
ステップS239において、制御部31は、再生スケジュールにおける次の音声モジュールの再生が開始される時刻になったか否かを判定する。
ステップS239において、再生スケジュールにおいて、次の音声モジュールの再生が開始される時刻になった場合、処理は、ステップS240に進む。
ステップS240において、音声データ取得部74は、記憶部34にアクセスし、再生が開始される、音声モジュールのライブ音声からなる音声データ151を取得して、音場合成パラメータ生成部75に出力する。
ステップS241において、音場合成パラメータ生成部75は、再生スケジュールに基づいて、波面合成により、再現会場RHにおいて、ライブ会場LHに対応する再現会場RH内の位置でアーティストHRが発する音声を再現するための音声を波面合成により出力できるような音場を合成するための音場合成パラメータを生成し、ライブ音声からなる音声データ151と共に音場合成部76に出力する。
ステップS242において、音場合成部76は、音場合成パラメータと、ライブ音声からなる音声データ151に基づいて、畳み込み演算によりチャネル毎に音声データ151を合成することで音場を合成し、Nチャネル増幅部77に出力する。
ステップS243において、Nチャネル増幅部77は、チャネル毎に合成された音声データ151を増幅し、マルチスピーカシステム14の各スピーカに対して音声信号として出力する。
ステップS244において、マルチスピーカシステム14は、Nチャネル増幅部77より供給される音声信号に基づいて、音声を出力する。
すなわち、ステップS239乃至S244の一連の処理により、ライブ会場LHにおいて撮像(収録)された音声が、再現会場RHの空間に適切に対応可能な状態に変換された、音場が合成(波面合成)された音声としてマルチスピーカシステム14より出力されることになる。
ステップS245において、画像再生部191は、記憶部34にアクセスし、再生が開始される画像データ152を読み出す。
ステップS246において、画像再生部191は、ライブ会場固有データ161および再現会場固有データ162に基づいて、読み出した画像データ152を再現会場RHにおける表示部13に適切なサイズに変換して再生して、字幕インポーズ部93に出力する。
ステップS247において、字幕再生部92は、記憶部34にアクセスし、再生が開始される、属性推定結果に対応する字幕データ153を読み出す。尚、ここでも字幕データ153は、複数の言語に対応するものが存在し、観客の属性として分類される国籍や使用言語の情報に基づいた字幕データ153が読み出される。
ステップS248において、字幕再生部92は、読み出した字幕データ153を再生して、字幕インポーズ部93に出力する。
ステップS249において、字幕インポーズ部93は、再生した画像上に、字幕をインポーズする。
ステップS250において、字幕インポーズ部93は、字幕をインポーズした画像を表示部13に出力して表示させる。
ステップS251において、終了が指示されているか否かが判定されて、終了が指示されていない場合、処理は、ステップS232に戻り、それ以降の処理が繰り返される。そして、ステップS251において、終了が指示された場合、処理は、終了する。尚、図24のフローチャートにおいては、ライブ会場LHにおいて取得される音声データ151、画像データ152、および字幕データ153は、パケットを構成するために一時的に記憶部34に蓄積し、リアルタイムで再生スケジュールを生成して再生させる例について説明してきたが、音声データ151、画像データ152、および字幕データ153については、事前に記憶部34に記憶させておき、ライブ会場LHにおけるライブ音声や画像の再生はライブコンサート等が開催されているタイミングとは異なるタイミングで再生するようにしてもよい。
以上の処理により、受聴者である観客は、ライブ会場LHとはサイズが異なるような再現会場RH内であっても、再現会場RHに対応して変換されたアーティストの動き推定結果に基づいて、再生スケジュールが生成されて、音場合成パラメータが生成される。この音場合成パラメータにより、ライブ音声からなる音声データ151が波面合成されることにより、再現会場RHにおいて、あたかもライブ会場LHでライブ音声を受聴しているような臨場感のあるライブ音声を出力することが可能となる。
結果として、再現会場RHの観客は、あたかもライブ会場LHにおいて、直接ライブ音声を受聴しているような臨場感のある音声を楽しむことが可能となる。
<<8.ソフトウェアにより実行させる例>>
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
図25は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
尚、図25におけるCPU1001が、図3,図21の制御部31の機能を実現させる。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
尚、本開示は、以下のような構成も取ることができる。
<1> 人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部とを備える
情報処理装置。
<2> 前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部と、
前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
<1>に記載の情報処理装置。
<3> 前記スケジュールに応じて、音場を合成するための音場合成パラメータを生成する音場合成パラメータ生成部と、
前記音場合成パラメータと複数のチャネルの音声データとを畳み込み演算によりチャネル毎に合成することで音場を合成する音場合成部とをさらに備え、
前記音声出力部は、前記音場合成部により前記チャネル毎に前記音場が合成された音声を出力することで前記波面合成により音声を出力する
<2>に記載の情報処理装置。
<4> 前記人は、受聴者であり、
前記検出部は、前記受聴者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
<2>に記載の情報処理装置。
<5> 前記受聴者により音声が受聴される受聴領域が複数に分割された分割領域として設定され、
前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する領域について、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
<4>に記載の情報処理装置。
<6> 前記スケジュール生成部は、再生時間の長さが異なる複数のコンテンツのうち、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域を前記受聴者が通過する時間と対応する再生時間の長さのコンテンツを選択して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
<5>に記載の情報処理装置。
<7> 前記分割領域内のそれぞれの位置に前記受聴者が存在する場合の波面合成フィルタを格納するテーブルをさらに含み、
前記音声出力部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記テーブルより、前記分割領域内の位置に応じた波面合成フィルタを読み出して、前記波面合成することにより音声を出力する
<5>に記載の情報処理装置。
<8> 前記受聴者の属性を推定する属性推定部をさらに含み、
前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性に対応するコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する分割領域に対して、前記音声出力部より前記波面合成により音声を出力するスケジュールを生成する
<5>に記載の情報処理装置。
<9> 前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じた視覚的情報を提示する領域提示部をさらに備える
<5>に記載の情報処理装置。
<10> 前記領域提示部は、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に異なる模様を投影する投影部、または、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に発色を変えて発光する発光部である
<9>に記載の情報処理装置。
<11> 前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性の種類が多い場合、複数の属性に対して共通のコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成する
<8>に記載の情報処理装置。
<12> 前記音声に対応する画像を再生して表示する表示部と、
前記音声に対応する字幕を再生する字幕再生部とをさらに含み、
前記字幕再生部は、前記属性推定部により推定された前記受聴者の属性に対応する字幕を選択して再生する
<8>に記載の情報処理装置。
<13> 前記属性は、前記受聴者の個別の識別情報、男性、女性、年齢、国籍、使用言語、1人の男性、1人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ、および行動の状態を含む
<8>に記載の情報処理装置。
<14> 前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性により前記受聴者を識別し、識別結果に応じたコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者が存在する前記分割領域毎に、前記波面合成により音声を出力するスケジュールを生成する
<8>に記載の情報処理装置。
<15> 前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者と音源との距離に応じた音量カーブを用いて音量を制御して、前記波面合成により音声を出力するスケジュールを生成する
<4>に記載の情報処理装置。
<16> 前記人は、発音者であり、
前記検出部は、前記発音者の位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記発音者の動きに追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
<2>または<3>に記載の情報処理装置。
<17> 前記発音者は、ライブ会場におけるアーティストであり、
前記検出部は、前記ライブ会場におけるアーティストの画像に基づいて、前記ライブ会場におけるアーティストの位置の変化を検出し、前記ライブ会場の空間情報と再現会場の空間情報に基づいて、前記再現会場における位置の変化に変換することで、前記再現会場におけるアーティストの位置の変化を検出し、
前記スケジュール生成部は、前記検出部により検出された前記再現会場における前記アーティストの位置の変化に追従して、前記再現会場で前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
<16>に記載の情報処理装置。
<18> 人の位置の変化を検出する検出処理と、
前記検出処理により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力処理を含む
情報処理方法。
<19> 人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部
としてコンピュータを機能させるプログラム。
<20> 人の位置の変化を検出する検出部と、
前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部を備える
情報処理システム。
1 広告提示システム, 11 情報処理装置, 12,12’ センサ, 13,13-1乃至13-3 表示部, 14 マルチスピーカシステム, 31 制御部, 32 入力部, 33 出力部, 34 記憶部, 35 通信部, 36 ドライブ, 37 リムーバブル記憶媒体, 38 バス, 51 音声処理部, 52 画像処理部, 71 動き推定部, 72 再生スケジュール生成部, 73 カテゴリ推定部, 74 音声データ取得部, 75 音場合成パラメータ生成部, 76 音場合成部, 77 Nチャネル増幅部, 91 画像再生部, 92 字幕再生部, 93 字幕インポーズ部, 111 音声データ, 112 画像データ, 113 字幕データ, 121 領域提示装置, 151 音声データ, 152 画像データ, 153 字幕データ, 161 ライブ会場固有データ, 162 再現会場固有データ, 171 動き推定部, 172 再生スケジュール生成部

Claims (19)

  1. 人の位置の変化を検出する検出部と、
    前記検出部により検出された人の位置の変化に追従して仮想音源の位置を変更して空間的な音場を伝送するように波面合成により音声を出力する音声出力部と
    前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え
    前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
    情報処理装置。
  2. 前記スケジュールに応じて、音場を合成するための音場合成パラメータを生成する音場合成パラメータ生成部と、
    前記音場合成パラメータと複数のチャネルの音声データとを畳み込み演算によりチャネル毎に合成することで音場を合成する音場合成部とをさらに備え、
    前記音声出力部は、前記音場合成部により前記チャネル毎に前記音場が合成された音声を出力することで前記波面合成により音声を出力する
    請求項に記載の情報処理装置。
  3. 前記人は、受聴者であり、
    前記検出部は、前記受聴者の位置の変化を検出し、
    前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  4. 前記受聴者により音声が受聴される受聴領域が複数に分割された分割領域として設定され、
    前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する領域について、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  5. 前記スケジュール生成部は、再生時間の長さが異なる複数のコンテンツのうち、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域を前記受聴者が通過する時間と対応する再生時間の長さのコンテンツを選択して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  6. 前記分割領域内のそれぞれの位置に前記受聴者が存在する場合の波面合成フィルタを格納するテーブルをさらに含み、
    前記音声出力部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記テーブルより、前記分割領域内の位置に応じた波面合成フィルタを読み出して、前記波面合成することにより音声を出力する
    請求項に記載の情報処理装置。
  7. 前記受聴者の属性を推定する属性推定部をさらに含み、
    前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性に対応するコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記分割領域のうち、前記受聴者が存在する分割領域に対して、前記音声出力部より前記波面合成により音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  8. 前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じた視覚的情報を提示する領域提示部をさらに備える
    請求項に記載の情報処理装置。
  9. 前記領域提示部は、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に異なる模様を投影する投影部、または、前記音声出力部より前記分割領域に対して出力されるコンテンツの種類に応じて、前記分割領域毎に発色を変えて発光する発光部である
    請求項に記載の情報処理装置。
  10. 前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性の種類が多い場合、複数の属性に対して共通のコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  11. 前記音声に対応する画像を再生して表示する表示部と、
    前記音声に対応する字幕を再生する字幕再生部とをさらに含み、
    前記字幕再生部は、前記属性推定部により推定された前記受聴者の属性に対応する字幕を選択して再生する
    請求項に記載の情報処理装置。
  12. 前記属性は、前記受聴者の個別の識別情報、男性、女性、年齢、国籍、使用言語、1人の男性、1人の女性、複数の男性のグループ、複数の女性のグループ、男女混合のグループ、家族連れ、および行動の状態を含む
    請求項に記載の情報処理装置。
  13. 前記スケジュール生成部は、前記属性推定部により推定された前記受聴者の属性により前記受聴者を識別し、識別結果に応じたコンテンツを選択して、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者が存在する前記分割領域毎に、前記波面合成により音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  14. 前記スケジュール生成部は、前記検出部により検出された前記受聴者の位置の変化に追従して、前記受聴者と音源との距離に応じた音量カーブを用いて音量を制御して、前記波面合成により音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  15. 前記人は、発音者であり、
    前記検出部は、前記発音者の位置の変化を検出し、
    前記スケジュール生成部は、前記検出部により検出された前記発音者の動きに追従して、前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
    請求項に記載の情報処理装置。
  16. 前記発音者は、ライブ会場におけるアーティストであり、
    前記検出部は、前記ライブ会場におけるアーティストの画像に基づいて、前記ライブ会場におけるアーティストの位置の変化を検出し、前記ライブ会場の空間情報と再現会場の空間情報に基づいて、前記再現会場における位置の変化に変換することで、前記再現会場におけるアーティストの位置の変化を検出し、
    前記スケジュール生成部は、前記検出部により検出された前記再現会場における前記アーティストの位置の変化に追従して、前記再現会場で前記波面合成により前記音声出力部より音声を出力するスケジュールを生成する
    請求項15に記載の情報処理装置。
  17. 人の位置の変化を検出する検出処理と、
    前記検出処理により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力処理と、
    前記検出処理により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成処理とを含み、
    前記音声出力処理は、前記スケジュールに応じて、前記検出処理により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
    情報処理方法。
  18. 人の位置の変化を検出する検出部と、
    前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部と、
    前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部としてコンピュータを機能させ
    前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
    プログラム。
  19. 人の位置の変化を検出する検出部と、
    前記検出部により検出された人の位置の変化に追従して波面合成により音声を出力する音声出力部と、
    前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力するスケジュールを生成するスケジュール生成部とを備え
    前記音声出力部は、前記スケジュールに応じて、前記検出部により検出された人の位置の変化に追従して、前記波面合成により音声を出力する
    情報処理システム。
JP2018179845A 2018-09-26 2018-09-26 情報処理装置、および情報処理方法、プログラム、情報処理システム Active JP7234555B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018179845A JP7234555B2 (ja) 2018-09-26 2018-09-26 情報処理装置、および情報処理方法、プログラム、情報処理システム
PCT/JP2019/035821 WO2020066644A1 (en) 2018-09-26 2019-09-12 Information processing device, information processing method, program, and information processing system
US17/274,693 US11546713B2 (en) 2018-09-26 2019-09-12 Information processing device, information processing method, program, and information processing system
CN201980062226.5A CN112771891B (zh) 2018-09-26 2019-09-12 信息处理设备、信息处理方法、程序和信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018179845A JP7234555B2 (ja) 2018-09-26 2018-09-26 情報処理装置、および情報処理方法、プログラム、情報処理システム

Publications (2)

Publication Number Publication Date
JP2020053791A JP2020053791A (ja) 2020-04-02
JP7234555B2 true JP7234555B2 (ja) 2023-03-08

Family

ID=68073110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018179845A Active JP7234555B2 (ja) 2018-09-26 2018-09-26 情報処理装置、および情報処理方法、プログラム、情報処理システム

Country Status (4)

Country Link
US (1) US11546713B2 (ja)
JP (1) JP7234555B2 (ja)
CN (1) CN112771891B (ja)
WO (1) WO2020066644A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022113288A1 (ja) * 2020-11-27 2022-06-02 ヤマハ株式会社 ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
US20240022686A1 (en) * 2022-07-15 2024-01-18 Stereyo Bv Focused sound and infotainment system and method
US12112695B2 (en) 2022-12-19 2024-10-08 Stereyo Bv Display systems and methods with multiple and/or adaptive primary colors
US12080224B2 (en) 2022-12-19 2024-09-03 Stereyo Bv Configurations, methods, and devices for improved visual performance of a light-emitting element display and/or a camera recording an image from the display
US12100363B2 (en) 2022-12-19 2024-09-24 Stereyo Bv Configurations, methods, and devices for improved visual performance of a light-emitting element display and/or a camera recording an image from the display

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008147840A (ja) 2006-12-07 2008-06-26 Sony Corp 音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラム
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
WO2017098949A1 (ja) 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2017158338A1 (en) 2016-03-14 2017-09-21 University Of Southampton Sound reproduction system
WO2018008395A1 (ja) 2016-07-05 2018-01-11 ソニー株式会社 音場形成装置および方法、並びにプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005295181A (ja) 2004-03-31 2005-10-20 Victor Co Of Japan Ltd 音声情報生成装置
JP5658867B2 (ja) * 2009-05-15 2015-01-28 グローバルマイクロニクス株式会社 音場制御装置
US20120001828A1 (en) * 2010-06-30 2012-01-05 Gallagher Andrew C Selecting displays for displaying content
JP2012175162A (ja) * 2011-02-17 2012-09-10 Waseda Univ 音響システム
JP2012253707A (ja) * 2011-06-07 2012-12-20 Mitsubishi Electric Corp 立体映像表示装置及び音声再生装置
US10225680B2 (en) * 2013-07-30 2019-03-05 Thomas Alan Donaldson Motion detection of audio sources to facilitate reproduction of spatial audio spaces
US10048835B2 (en) * 2014-10-31 2018-08-14 Microsoft Technology Licensing, Llc User interface functionality for facilitating interaction between users and their environments
WO2016180493A1 (en) * 2015-05-13 2016-11-17 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
US9584935B2 (en) 2015-05-29 2017-02-28 Sound United, Llc. Multi-zone media system and method for providing multi-zone media
CN108141665A (zh) * 2015-10-26 2018-06-08 索尼公司 信号处理装置、信号处理方法和程序
US11082792B2 (en) 2017-06-21 2021-08-03 Sony Corporation Apparatus, system, method and computer program for distributing announcement messages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008147840A (ja) 2006-12-07 2008-06-26 Sony Corp 音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラム
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
WO2017098949A1 (ja) 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2017158338A1 (en) 2016-03-14 2017-09-21 University Of Southampton Sound reproduction system
WO2018008395A1 (ja) 2016-07-05 2018-01-11 ソニー株式会社 音場形成装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CN112771891A (zh) 2021-05-07
US20210345058A1 (en) 2021-11-04
WO2020066644A1 (en) 2020-04-02
CN112771891B (zh) 2023-05-02
JP2020053791A (ja) 2020-04-02
US11546713B2 (en) 2023-01-03

Similar Documents

Publication Publication Date Title
JP7234555B2 (ja) 情報処理装置、および情報処理方法、プログラム、情報処理システム
US11617050B2 (en) Systems and methods for sound source virtualization
JP2022009049A (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
KR101644421B1 (ko) 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법
JP2020053792A (ja) 情報処理装置、および情報処理方法、プログラム、情報処理システム
US11321892B2 (en) Interactive virtual reality broadcast systems and methods
JP2007050461A (ja) ロボット制御システム、ロボット装置、およびロボット制御方法
US20220246135A1 (en) Information processing system, information processing method, and recording medium
KR20210135520A (ko) 라이브 배신 시스템 및 라이브 배신 방법
WO2019069743A1 (ja) オーディオコントローラ、超音波スピーカ、及び、オーディオシステム
JP7037654B2 (ja) キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法
JP2021508193A5 (ja)
WO2018079850A1 (ja) 信号処理装置、信号処理方法およびプログラム
KR101809617B1 (ko) 마이콘서트시스템
KR102712658B1 (ko) 정보 처리 장치, 정보 처리 방법, 프로그램, 및 정보 처리 시스템
US20220337886A1 (en) Virtual Spectator Experience for Live Events
CN112567454A (zh) 信息处理装置、信息处理方法及程序
US20230077102A1 (en) Virtual Scene
EP4318454A1 (en) Information processing device, information processing method, and recording medium
WO2023238637A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
Grigoriou et al. Binaural mixing using gestural control interaction
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
WO2020241299A1 (ja) 制御装置、制御方法、制御プログラム及び制御システム
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6400551B2 (ja) 空間像演出装置、空間像演出装置の制御方法および映像システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R151 Written notification of patent or utility model registration

Ref document number: 7234555

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151