JP6917107B2

JP6917107B2 - 移動体およびプログラム

Info

Publication number: JP6917107B2
Application number: JP2017224541A
Authority: JP
Inventors: 隆晃柳沢
Original assignee: Korg Inc
Current assignee: Korg Inc
Priority date: 2017-01-17
Filing date: 2017-11-22
Publication date: 2021-08-11
Anticipated expiration: 2037-11-22
Also published as: JP2018117341A

Description

本発明は、立体的音像の聴取可能エリア（「スイートスポット」とも言う）の存在位置を調整制御可能な移動体等に係わり、特に、回動動作、移動動作等により、対象者に合わせて音像聴取可能エリア（スイートスポット）の存在位置を調整制御可能な移動体等に関する。

トランスオーラル処理は、２つのスピーカ（ステレオスピーカ）からの音響信号に基づいて、立体的な音像の定位を行うための処理である。トランスオーラル処理は、入力信号を頭部伝達関数（「HRTF」：Head Related Transfer Function）で畳み込む演算を行う「畳み込み演算処理」、この畳み込み演算による処理結果に対して、クロストークを除去する「クロストークキャンセル処理」を含む。ここで、「クロストーク」とは、ステレオ再生において、右スピーカ（または左スピーカ）からの出力音が聴取者の左耳（または右耳）に入るパスを称し、これを打ち消す処理が「クロストークキャンセル処理」である。

トランスオーラル処理が実行されることによって、立体音像の定位が可能となるが、聴取者が音像を把握可能な領域である「スイートスポット」が外れた場合には、聴取者は、立体音像を聴取することができなくなり、音量が大きく耳障りにさえなるため、この問題を克服する音響再生装置が提案されていた。

提案された音響再生装置は、バイノーラル音響信号を遅延し、聴取者の両耳がスイートスポット内に位置していれば、クロストークキャンセル処理済みのバイノーラル音響信号を出力する一方、両耳の内の少なくとも一方の耳がスイートスポット外に位置していれば、クロストークキャンセル処理に要する時間だけ遅延した遅延バイノーラル信号を出力していた（例えば、特許文献１参照。）。

また、特許文献１に記載されているように、トランスオーラル再生技術によれば、一般的にスイートスポットは狭く、聴取者が少し移動しただけで、立体音像を把握することができなくなってしまう。

特開２０１５−１７０９２６号公報（第５−１９頁、第１図）

確かに、特許文献１に記載の装置によれば、スイートスポットを外れた際の耳障りな音の抑制効果はあるかもしれないが、いわば受け身（パッシブ）な装置である。つまり、固定カメラの撮像エリア内に侵入した聴取者を対象とする受動的な装置である。このため、音像を放音するための左・右１対のスピーカの存在位置を結ぶ直線の中点を通り、当該直線と直交する方向（以下「センター方向」とも記す）に、聴取者を位置させることは必ずしもできなかったため、音像を効果的に聴取させることが難しかった。

また、再生音像を聴取できるのは、限られたエリア内（スイートスポット内）に位置する聴取者のみであり、当該エリアに位置しない人は聴取者となり得ないので、再生音像を有効利用することもできなかった。

本発明は、上述したような従来の課題を解決するためになされたもので、音像の聴取可能エリアの存在位置を対象者に合わせて調整制御可能な移動体、および、プログラムを提供することを目的とする。

上記目的を達成するため、本発明は、仮想的音源を生成する仮想音源生成部と、
前記仮想音源生成部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記仮想音源生成部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備え、
前記制御部は、
前記頭部の回動動作を制御する回動駆動制御部と、
前記移動部の車輪を駆動制御する移動駆動制御部と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御部と、を備えている。

この構成によれば、制御部は、左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を対象者に合わせて調整制御するので、例えば、既に聴取者となった人には、音像を効果的に聴取させることができる。また、未だ聴取者になっていない対象者を聴取者として取り込むことにより、音像を有効活用することもできる。

より具体的には、制御部は、左右一対のスピーカを固定して回動可能な回動部と、回動部の回動動作を駆動制御する回動駆動制御部と、を含んで成る。この構成によれば、回動駆動制御部は、スピーカを固定して回動可能な回動部を回動制御するので、例えば、センター方向に聴取者を位置させることにより、音像を効果的に聴取させることが可能となる。

また、制御部が、回動部と回動駆動制御部とを搭載した移動部と、移動部の移動動作を駆動制御する移動駆動制御部と、を含む構成も提案される。この構成によれば、移動駆動制御部は、回動部を搭載した移動部を移動制御するので、例えば、聴取可能エリアに位置しない人を聴取者として取り込み、音像を有効利用することが可能になる。

移動態様としては、前後左右の直線移動等が挙げられ、回動態様としては、移動体の鉛直方向に延びる中心軸を回動中心とする右回り・左回りの回転が挙げられる。移動体側が能動的（アクティブ）に移動して、聴取可能エリア外に位置する人を当該エリア内に位置させることができるので、テーマパークなどでデモンストレーンを行えばアトラクション効果を得ることができる。

また、聴取可能エリア内に聴取者が位置するか否かを判定する判定部を更に備え、制御部は、判定部の判定結果に基づいて、聴取可能エリアの存在位置を調整制御する構成も提案できる。この構成によれば、判定部は、聴取可能エリア内に聴取者が位置するか否かを判定し、制御部は、当該判定の結果に応じて聴取可能エリアの存在位置を対象者に合わせて調整制御する。

判定部が聴取可能エリア内に聴取者が位置しないと判定した場合には、例えば、特定部によって、移動体に最も近い人を特定し、移動駆動制御部が、特定部によって特定された人を聴取可能エリア内に位置させるように、移動部を駆動制御する。人間の特定は、画像処理、測距処理、赤外線信号処理等によって行えばよい。

また、制御部が、特定部によって一度特定された聴取者の動きに追従させるように、聴取可能エリアの存在位置を調整する構成とすることも可能であり、この構成によれば、聴取可能エリアは聴取者に追従されるように調整制御されるので、当該聴取者が常時音像を効果的に聞くことができる。この結果、アトラクション性が高まる。

また、左右一対のスピーカの前段側に遅延部をさらに備え、制御部は更に、回動部の回動量に応じた遅延量を与えるように、遅延部を制御する構成の移動体も提案される。この構成によれば、たとえ、聴取者からスイートスポットが外れたとしても、回動部の回動による左右のスピーカに生じる距離差に応じた遅延を付与することで、当該距離差を補正して音響効果を維持することができる。

また、遅延部からの信号に対してゲインを与えるゲイン部をさらに備え、制御部はさらに、回動部の回動量に応じたゲインを与えるように、ゲイン部を制御する構成とすれば、回動部の回動による左右のスピーカに生じる距離差に見合った音波の減衰量を補正できることになる。

他の態様の移動体は、仮想的な音源処理を実行済みの音声データを再生する再生部と、
前記再生部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記再生部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備え、
前記制御部は、
前記頭部の回動動作を制御する回動駆動制御部と、
前記移動部の車輪を駆動制御する移動駆動制御部と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御部と、を有する。

再生部は、仮想的な音源処理を実行済みの音声データを再生し、これを左右一対のスピーカから放音するが、制御部は、左右一対のスピーカから放音される再生音の聴取可能エリアの存在位置を、対象者に合わせて調整制御するので、例えば、既に聴取者となった人には、音像を効果的に聴取させることができるし、また、未だ聴取者になっていない対象者を聴取者として取り込むことにより、音像を有効活用することもできる。

また、プログラムを実行させて判定部、特定部、仮想音源生成部、制御部等を実現することができる。プログラムは、例えばＲＯＭ等の記録媒体に記録されている。ＣＰＵ、ＤＳＰ等のプロセッサが、ＲＡＭ等に形成されたワークエリアを使用しながらプログラムを実行する。これにより、各部（各手段）が実現されるので、音像を生成する仮想音源生成部が「回動」または／および「移動」制御されることにより、音像聴取可能エリアの存在位を調整制御できる。

本発明によれば、音像の聴取可能エリアの存在位置を対象者に合わせて調整制御可能になるという効果が得られる。

移動体１の正面図、外観図である。電子回路１００の構成図である。測距部１３０の構成図である。測距部１３０による測距動作の説明図である。仮想音源生成部２００の構成図である。画像処理部１２０の構成図である。赤外線装置４００の構成図である。赤外線装置４００の出力動作の説明図である。仮想音源生成部２００の構成図である。移動部３の模式的な平面図である。移動部３の移動動作の説明図である。動作を説明するための流れ図である。動作の説明図である。動作の説明図である。仮想音源生成部２０１の構成例である。仮想音源生成部の動作の説明図である。他の実施形態の原理の模式的説明図である。他の実施形態の原理の模式的説明図である。他の実施形態の原理の模式的説明図である。回転角度θと到達時間差（距離差）との関係を示す図である。他の実施形態の仮想音源生成部２０２の構成図である。仮想音源生成部２０４の構成図である。補正部の具体的な構成例である。

以下、本発明の実施の形態について図面を参照しつつ説明する。以下に示す実施形態は、本発明の一実施形態に過ぎない。本発明は、種々の構成変形例を含む。また、音像を聴取可能な「聴取可能エリア」のことを適宜「スイートスポット」とも記す。

（構成）
（移動体１）
図１（ａ）は、移動体１の正面図、図１（ｂ）は、移動体１の斜視外観図である。移動体１は、移動部３と、胴体部４と、回動機構５と、頭部２とを有する。移動部３は、平面視が正方形の板状部材であり、この板状部材の前後左右にオムニホイール１１１ａ、１１１１ｂ、１１１ｄを回動自在に備えている。胴体部４は、円柱状の外観を呈しており、回動機構５（回動部）を介して頭部２と接続されていて、移動部３に載置固定されている。回動機構５は、公知の回動手段で実現可能である。頭部２は、胴体部４よりも小さな径の円柱状外観を呈している。頭部２は、移動部３に固定された胴体部４の上面に設けた回動機構５によって、回動自在に固定されている（図１（ｂ）符号Ｒ参照）。

胴体部４の前面には、所要の情報を表示出力するためのディスプレイ５００（ディスプレイモニタ）が、その表示面を前方に向けて固定されている。頭部２の左右部には、１対のスピーカ２０１ａ、２０１ｂが固定されていて、前方空間に向けて、生成された音像に対応する音声信号を放音可能になっている。ディスプレイ５００には、制御部１５０の動作制御に応じて、コンテンツ動画、静止文字、音声合成部３００により合成されたメッセージ等が表示される。様々なコンテンツ動画を再生してディスプレイ５００に表示させることで、移動体１の周囲に位置する対象者を移動体１の近くまで引き付ける誘因となる。

頭部２の前側には、１対の丸い部材を介して、後に説明する測距部１３０のＴＲ部１３２と、赤外線装置４００の一部とが埋め込まれている。また、頭部２の前面中央下部には、ＣＣＤカメラ１２５が埋め込まれ、ＣＣＤカメラ１２５により、移動体１の前方の画像を取り込む撮像機能を有している。

かくして、移動体１は、移動部３によって移動可能であり、頭部２は、胴体部４に対して回動可能に構成されている。また、移動体１は、前方の人・物の画像情報を取得すること、前方に位置する人・物までの距離を計測すること等ができる。回動機構５による頭部２の回動（水平面内の首振り）により、画像取得、距離測定のエリアが、移動体１の鉛直方向中心軸（以下「中心軸」とも記す）を中心に回転する。この「中心軸」は、平面視円形状の頭部２、胴体部４における当該円の中心を通る鉛直線である。

また、一対のスピーカ２０１ａ、２０１ｂから放音される音像は、移動体１の前方にその聴取可能エリアが位置するように設定されている。聴取可能エリアは、頭部２の回動動作に応じて、「中心軸」を中心に回転する。また、聴取可能エリアの存在位置は、移動体１の移動部３の移動に応じて移動する。かくして、聴取可能エリアの存在位置は、水平方向に移動したり、中心軸を中心に回転したりするので、その存在位置を状況に合わせて調整制御可能に構成されている。

また、赤外線装置４００は、人の存在を検出する。赤外線装置４００による人の検出エリアも移動体１の移動や頭部２の回動に応じて、移動・回転する。なお、赤外線装置４００による人の検出エリア、測距部１３０による距離測定可能エリア、ＣＣＤカメラ１２５による画像取得可能エリア等は、スイートスポットを含み、平面的にも立体的にもこれよりも大きな領域となっている。

（移動部３）
図１０は移動部３の模式的平面図である。基台５０は、平面視正方形の板状部材であり、その下部の前後左右の４方向には、モータ１１２ａ、モータ１１２ｂ、モータ１１２ｃ、モータ１１２ｄが固定されている。モータ１１２ａ、モータ１１２ｂ、モータ１１２ｃ、および、モータ１１２ｄのそれぞれの回転軸には、オムニホイール１１１ａ、オムニホイール１１１ｂ、オムニホイール１１１ｃ、オムニホイール１１１ｄが回動自在に設けられている。

また、モータ１１２ａ、１１２ｂ、１１２ｃ、１１２ｄの回転軸は、不図示の軸受で受けられ、その軸受が不図示の支持部材等により、基台５０の下部に支持されている。基台５０の上面には、電子回路１００と、電子回路１００に電力供給を行う電源１０１とが載置固定されている。電源１０１には、不図示のレギュレータが接続されており、レギュレータの端子には複数種類の電圧が出力可能であり、電子回路１００の所要の箇所に対して、レギュレータの端子から取り出した適切な電圧が供給される。

４個のオムニホイール１１１ａ、１１１ｂ、１１１ｃ、１１１ｄの回動駆動によって、基台５０等で成る移動部３を移動制御する構成等は、公知であり、例えば「特開２００８−１５５６５２号公報」を参考にして構成すれば良い。オムニホイール１１１ａ、１１１ｂ、１１１ｃ、１１１ｄは、周囲にローラ軸が適宜の数だけ配置されており、各ローラ軸にはフリーローラが回動可能に設けられている。これにより、オムニホイール１１１ａ、１１１ｂ、１１１ｃ、１１１ｄは、車輪周方向とこれに直交する方向とに回動可能となる。モータ１１２ａ、１１２ｂ、１１２ｃ、１１２ｄを駆動制御することによって、移動部３を全方向に移動させる駆動制御については後述する。

（電子回路１００）
図２は電子回路１００の構成図である。図２に示すように、電子回路１００は、画像処理部１２０と、測距部１３０と、仮想音源生成部２００と、赤外線装置４００と、駆動制御部１４０と、音声合成部３００と、制御部１５０とを有している。

（画像処理部１２０）
図６は画像処理部１２０の構成図である。画像処理部１２０には、移動体１の前方の所定エリアを撮像するＣＣＤカメラ１２５が接続され、ＣＣＤカメラ１２５から出力される撮像信号を用いた画像処理を実行する。

画像処理部１２０は、Ａ／Ｄ変換部１２２と、フレームバッファ１２４と、画像処理用エンジン１２６とを有している。Ａ／Ｄ変換部１２２は、ＣＣＤカメラ１２５による前方の所定エリアの撮像情報をアナログデジタル変換する。なお、ＣＣＤカメラ１２５がデジタル出力端子を備えていれば、Ａ／Ｄ変換部１２２は特に設けなくても良い。

フレームバッファ１２４は、１フレームの撮像情報を記憶可能なバッファ１２４を複数面（１２４ａ〜１２４ｎ）有している。Ａ／Ｄ変換部１２２による変換結果は、フレーム単位でフレームバッファ１２４に順次記憶される。フレームバッファ１２４は、先読み先出しのFIFO方式（First In First Out）で、Ａ／Ｄ変換部１２２による変換結果を記憶する。

画像処理用エンジン１２６は、フレームバッファ１２４に記憶された複数面のデータを参照しながら、前方の所定エリアに位置する人を特定する処理等を行う。「人」には、スイートスポット内に位置する「聴取者」、スイートスポット内に位置しない「非聴取者」などが含まれる。なお、画像処理用エンジン１２６が実行する処理例については後述する。画像処理部１２０での処理結果や処理に使用したデータは、制御部１５０が備える判定部１６０に送られる。

スイートスポット内に位置する聴取者であると特定するためには、後に説明する画像処理部１２０による人検出、測距部１３０による距離測定、赤外線装置４００による人検出等を組み合わせて行う。例えば、画像処理によって「人」を検出し、その「人」までの距離を測定し、この測定距離が所定値以内であれば、スイートスポット内に位置する「人」であると特定する。

一方、画像によって「人」を検出しても、その「人」までの距離が所定値を超えれば、スイートスポット内には位置しない「人」であると判定し、そのことを赤外線装置４００で確認する。なお、このアルゴリズムは一例であり、「人特定や特定した「人」がスイートスポット内に位置する」ことを検出可能なアルゴリズムであれば、いずれのものも採用可能である。

（測距部１３０）
測距部１３０は、電磁波・超音波等の波動を前方に出力したり、エコー信号を受信したりするためのＴＲ部１３２と、ＴＲ部１３２が受信したエコー信号をアナログデジタル変換するＡ／Ｄ変換部１３２とを備え、前方の聴取者、非聴取者、固定物等との距離を測定する。測距部１３０は、前方へ超音波、ミリ波等の波動を出力する。その際、ＴＲ部１０２（Transmit and Receive）から、移動体１の前方に対して波動を出力する。

前方に波動を出力すると、「聴取者、非聴取者、固定物」等の前方に存在する物・人からの反射波（エコー信号）が戻ってくるので、反射波をＴＲ部１３２で受信する。測距部１３０は、エコー信号に基づいて、既にスイートスポット内に位置する聴取者までの距離や、未だ聴取者になっていない、換言すれば、未だスイートスポット内に位置していない非聴取者までの距離を計測する。

図３は測距部１３０の構成図である。測距部１３０は、発振部１３３と、送信処理部１３４と、タイマ１３６と、受信処理部１３８と、演算部１３９と、Ａ／Ｄ変換部１３１とを有している。発振部１３３は、波動を出力する波動源である。送信処理部１３４は、発振部１３３が連続発振する波動を、所定時間で繰り返してゲートを開き、波動をパルス状にして出力する。

受信処理部１３８は、送信処理部１３４と同期して、測距方向からの反射波であるエコー信号を受信する（受信エコー）。演算部１３９は、タイマ１３６のカウント値（Ｔ）に波動速度（Ｃ）を乗じ、更に、「１／２」倍して距離（Ｒ）を求める（「２Ｒ＝Ｃ・Ｔ」）。また、エコー信号のキャリアの周波数をＦＦＴ演算して求め、測距方向に位置する物・人のドップラーシフトを演算する構成とすれば、測距方向に人間が位置するか否かを判断し易くなる。凡そ、人間のドップラーシフトは予測されるので、実験等によって予め用意しておき、この用意した実験値と、ＦＦＴ演算により得られたドップラーシフトを比較することによって、測距方向に人間が位置しているか否かを判定できる。

次に、図４を参照して測距部１３０の動作について説明する。送信処理部１３４によるゲート開閉制御によって、パルス状の送信信号（送信パルス）を送信するとともに、同期信号を受信処理部１３８に送り、タイマ１３６にリセット信号を与える。リセット信号が与えられたタイマ１３６は、自身のカウントエリアをリセットする。タイマ１３６は、カウントエリアの設定数値をインクリメントするカウント動作により時間を計測する。

同期信号を受け取った受信処理部１３８は、エコー信号を受信する（受信エコー）と共に、タイマ１３６にストップ信号を与える。これにより、タイマ１３６は時間計測を停止する。この際、測距方向からは通常、多数のエコー信号を受信する。この例では３種類のエコー信号である「ｅｃｈ１」、「ｅｃｈ２」、「ｅｃｈ３」が反射されてくる場合を示す。

そこで、受信処理部１３８は、同期信号を受けてから最初のエコー信号を受信した時点でタイマ１３６のカウントを停止させる。これによって、目標方向において一番近い人・物までの距離を測定することが可能になる。つまり、メインとなるエコー信号のみを採用し、その他のサブとなるエコー信号をカットする。これにより、移動体１から最も近い人・物までの距離を計測可能になる。これが人か否かは画像処理、赤外線信号処理等と組み合わせて判定する。また、聴取可能エリアの距離分布（平面的・立体的距離分布，聴取可能エリアの存在位置等を意味する）は予め分かっているので、聴取可能エリア内に人・物が位置するか否かを判定することは可能である。

また、測距部１３０によって測距可能なエリアを、スイートスポットを含むように設定しておけば、スイートスポット内に位置する人・物までの距離を測定できるとともに、スイートスポットから外れた地点に位置する人・物までの距離も測定できる。

また、先に説明したように、演算部１３９がエコー信号の周波数をＦＦＴ演算等で求めて人か否かを判定することも可能である。通常、人間には、静止しているようで若干揺らぐ体動があるので、静止している人に対しこの体動がドップラーシフトとして反映される。この例では、エコー信号ｅｃｈ１の周波数「ｆ１」は、送信パルス周波数「ｆ０」とは異なり、「Δｆ＝｜ｆ１−ｆ０｜：但し移動体１は静止」がドップラーシフトである。これを人か物かの判定基準として用いることも可能である。固定物は基本的に完全静止しているし、可動部を備えた固定物等は、一般的には静止した人間より、ドップラーシフトは大きいことを利用すれば良い。

波動として「超音波」を使用する場合には、発振部１３３をセラミック等の圧電素子、ＴＲ部１３２をスピーカとマイクロフォンとで構成すれば良い。また、波動として「ミリ波」を使用する場合には、発振部１３３をＧＵＮＮ発振器（ガン発振器）、ＴＲ部１３２を小型パラボラアンテナ、スロット型マルチアンテナ等で構成すれば良い。波動として「近赤外光」を使用する場合には、発振部１３３を半導体レーザー、ＴＲ部１３２をレンズ等の光学素子で構成することができる。

また、距離を計測する場合に時間を直接計測せずに、照射光と反射光の位相差を検出し、この検出した位相差に基づいて公知の方法により距離を求める構成とすることもできる。測距部１３０による測距結果は、制御部１５０が備える判定部１６０に送られる。

（「距離画像」について）
上述した送信処理部１３４はパルス状波動を出力するが、例えば、ＴＯＦ方式（Time Of Flight）により、画素毎の距離情報を求める構成とすることもできる。発光素子からの光（照射光）を前方空間に出力し、対象物（人を含む）からの反射光を光学系によって、ＣＣＤ等の撮像素子上に結像させると、画素毎の位相差、換言すれば、画素毎の距離情報が分かるので、対象物を三次元的に把握することが可能である。この構成によれば、ＬＥＤからの光をパルス状に照射して対象のドップラーシフト量を検出し、対象の動きを推定することもできる（例えばＴＤＫ Techno Magazine第１５９回等の公知文献参照）。

よって、距離画像を検出することによって、対象物までの最短距離が分かるほか、対象物の３次元テンプレートを用意しておけば、対象物が人であるか否かも検出できる。このためには、図３の測距部１３０の構成において、「送信処理部１３４がＣＷ（Continuous Wave:連続波）状に波動を出力すること、タイマ１３６を不要とすること、受信処理部１３８を固体撮像素子と各画素に対する位相を求める位相検出部とを含む構成とすること、演算部１３９を位相に基づいて各画素の距離を求める構成に変更すること」等で、距離画像測定部を実現することができる。

（赤外線装置４００）
図７は、赤外線装置４００の構成図である。ＩＲ（Infrared Ray）は「赤外線」を意味する。赤外線装置４００は、赤外線光学系４１０と、ＩＲフィルタ４２０と、ＩＲセンサ４３０とを有する。赤外線光学系４１０は、赤外線透過可能な凹レンズ、赤外線透過可能な凸レンズ等の赤外線光学デバイスを組み合わせて構成され、移動体１の前方の所定エリアから到来する赤外線をＩＲセンサ４３０上に結像させるための光学系である。

ＩＲフィルタ４２０は、所謂「干渉フィルタ」と称されるデバイスで、本実施形態では９〜１０（μｍ）の赤外線を透過させ、これ以外の波長の赤外線の透過を阻止するシャープカット型のフィルタである。ＩＲセンサ４３０は、その受光面に結像された赤外線の強さに応じた電圧を出力する。出力電圧は、制御部１５０（判定部１６０）に送られる。

絶対温度零度以上の物（生物含む）からは、赤外線が放射される。ウイーンの変位則によれば、放射赤外線のピーク波長をλｐ、温度をＴ（Ｋ）とすれば、「λｐ×Ｔ＝ｂ（「ｂ」は定数：約2.9×10^-3）」となるため、人が発する赤外線のピーク波長は「９．０〜１０．０(μｍ)」である。これを利用して「９．０〜１０．０（μｍ）」の波長の赤外線のみをＩＲフィルタ４２０で透過させて、ＩＲセンサ４３０上に結像させることにより、前方の所定エリア内に人が位置するか否かを判定することができる。

赤外線光学系４１０は、移動体１の前方の所定エリアから到来する赤外線をＩＲセンサ４３０の受光面上に結像させるが、この際、レンズ組合せ等を工夫することによって、この所定エリアをスイートスポットと同じか略同じ領域に設定している。したがって、ＩＲセンサ４３０からの出力信号に応じて、スイートスポット内に人が位置するか否かを判定することができる。

図８は、ＩＲセンサ４３０の出力の説明図である。縦軸は、ＩＲセンサ４３０の出力電圧レベルを示す。出力電圧に対して２つの閾値（第１閾値、第２閾値）が設定されている。第１閾値は、第２閾値よりも低いレベルに設定されている。「信号Ｄ１」は、第１閾値未満のレベルであり、人を検出したことを示していない「人非検出信号」である。

一方、「信号Ｄ２」は、第１閾値を超えるレベルにあり、人を検出したことを示す「人検出信号」である。また、「信号Ｄ３」は、第１閾値、第２閾値の両閾値を超えるレベルにあり、人を検出したことを示すと共に、人が極めて近くに位置することを示す「人近接信号」となる。ＩＲセンサ４３０の出力電圧レベルは、それが飽和するまでは、人が近ければ近い程大きくなる。例えば、スイートスポットの最長距離をＬｓとして、両閾値を超える「信号Ｄ３」は、Ｌｓの半分以下（Ｌｓ／２以下）の距離内に人が位置することを意味する信号である。

したがって、制御部１５０に含まれる判定部１６０は、ＩＲセンサ４３０の出力レベルが第１閾値を超える場合には、スイートスポット内に人が位置すると判定し、また、ＩＲセンサ４３０の出力レベルが両閾値を超える場合には、スイートスポット内に人が位置し、その位置が極めて移動体１に近い（例えば２〜３（ｍ）以内に位置する）と判定する。よって、赤外線装置４００のみによっても、人がスイートスポット内に位置するか否かを判定することは可能であるが、画像処理部１２０、測距部１３０からの情報等も組み合わせて使用することにより検出確度を高めている。

また、移動部３の位置を固定して、赤外線装置４００の出力を調べながら、頭部２を左右回転させれば、人の存在方向を検出することができる。例えば、頭部２を左右回転させて、赤外線装置４００の出力が「最大（Ｍａｘ）」となる方向が「人」の存在方向であり、また、１対のスピーカ２０１ａ、２０１ｂを結ぶ直線の中点を通り、当該直線に垂直な方向であるセンター方向となる。かくして、赤外線装置４００の出力が最大となるように、頭部２を左右回転させることによって、「人」をセンター方向に位置させることができる。

（仮想音源生成部２００）
仮想音源生成部２００は、立体的な音像を生成定位する。その出力段には、Ｄ／Ａ変換部２０２と、左右１対のスピーカ２０１ａ、２０１ｂとが接続されている。図２に示すように、仮想音源生成部２００で生成定位された音像情報は、Ｄ／Ａ変換部２０２によってデジタルアナログ変換され、変換後のアナログ音声信号が左右のスピーカ２０１ａ、２０１ｂから出力される。

図５は仮想音源生成部２００の構成図である。仮想音源生成部２００は、メモリ２０５と、再生部２１５と、音像定位部２２０と、クロストークキャンセル処理部２３０とを有する。メモリ２０５には、予め１以上の再生データ（音声データ）が記録されている。再生部２１５は、メモリ２０５に記録されている再生データを読み出し再生して、音像定位部２２０に送る。音像定位部２２０は、送られてきた再生データを用いて、音像を定位させる音像定位処理を行う。クロストークキャンセル処理部２３０は、音像定位情報に基づいて、クロストークを除去するクロストークキャンセル処理を行う。

図５に示す例によれば、メモリ２０５に再生データａ〜再生データｎが予め記録されているが、これは例示に過ぎない。また、不図示のマイクロフォンを２個用意し、ステレオ音声を収音し、収音したステレオ音声に対して音像定位処理とクロストークキャンセル処理を実行する構成とすれば、リアルタイムな音像生成を行うことが可能になり、一層アトラクション性が向上する。

図９は、音像定位部２２０とクロストークキャンセル処理部２３０の構成図である。仮想音源生成部２００は、入力音響信号に基づいて所望の方向に音源を定位して２チャンネルの右スピーカ用信号（Ｘ１）と左スピーカ用信号（Ｘ２）とを生成する音像定位部２２０と、クロストークをキャンセルするクロストークキャンセル処理部２３０と、右スピーカ２０１ａ、左スピーカ２０１ｂとを有して構成される。

音像定位部２２０は、フィルタ０１（２１０）とフィルタ０２（２１１）とを有して構成され、両フィルタの出力が右スピーカ用信号、左スピーカ用信号となる。フィルタ０１（２１０）とフィルタ０２（２１１）の伝達関数は、所望の方向および距離での音像定位を行うための「頭部伝達関数」が予め測定や生成されてそれらが組み込まれている。そして、フィルタ０１（２１０）、フィルタ０２（２１１）がＦＩＲフィルタで構成されている場合には、入力された入力音響信号に対してフィルタ係数との畳み込み演算を行って、右スピーカ用信号、左スピーカ用信号を生成する。かくして、頭部伝達関数を用いて所望の方向および距離での音像定位を行える。

また、フィルタ１１（２２０）とフィルタ１２（２２５）とが右スピーカ用信号の供給を受けるように構成され、フィルタ１２（２２５）の出力は、乗算器２６０でその係数値（α）が乗じられ、この乗算結果は加算器２４５に入力される。同様に、フィルタ１３（２２６）とフィルタ１４（２３５）とが左スピーカ用信号の供給を受けるように構成され、フィルタ１３（２２６）の出力は、乗算器２７０でその係数値（α）が乗じられ、この乗算結果は加算器２４０に入力される。

加算器２４０は、乗算器２７０の乗算結果とフィルタ１１（２２０）の出力とを加算して右チャンネル出力信号を生成し、これを右スピーカ２０１ａに供給する一方、加算器２４５は、乗算器２６０の乗算結果とフィルタ１４（２３５）の出力とを加算して左チャンネル出力信号を生成し、これを左スピーカ２０１ｂに供給する。かくして、両スピーカからは対応する音が放音される。なお、乗算器２６０、乗算器２７０は、係数値が共にαであり、このαが「０」の場合、クロストークキャンセルが行われず、「１．０」の場合には完全なクロストークキャンセルが行われるので、乗算器２６０、２７０はクロストークキャンセル量を調整する機能を有する。

次に、クロストークキャンセル処理部２３０の動作について説明する。フィルタ１１（２２０）、フィルタ１２（２２５）、フィルタ１３（２２６）、フィルタ１４（２３５）の伝達関数を夫々「Ｈ１１」、「Ｈ１２」、「Ｈ２１」、「Ｈ２２」とする。また、信号ｘ１、ｘ２がクロストークキャンセル処理部２３０へ入力されると、信号ｘ１が、フィルタ１１（２２０）およびフィルタ１２（２２５）に供給されてフィルタリング処理が行われ、同様に、信号ｘ２は、フィルタ１３（２２６）およびフィルタ１４（２３５）に供給されてフィルタリング処理が行われる。さらに、フィルタ１１（２２０）とフィルタ１３（２２６）との出力が加算器２４０で加算され信号ｙ１となり、この信号ｙ１が右スピーカ２０１ａに供給されて対応する音が放音される。同様に、フィルタ１２（２２５）とフィルタ１４（２３５）との出力が加算器２４５で加算されて信号ｙ２となり、この信号ｙ２が左スピーカ２０１ｂに供給されて対応する音が放音される。

右スピーカ２０１ａから出力された音（信号）は聴取者の左右の耳に到達する。右スピーカ２０１ａから聴取者の右耳までの伝達関数と左耳までの伝達関数を夫々、Ｇ１１、Ｇ１２とし、同様に、左スピーカ２０１ｂから聴取者の右耳までの伝達関数と左耳までの伝達関数を夫々Ｇ２１、Ｇ２２とする。この場合、ｘ１、ｘ２とｚ１、ｚ２との関係は、図１４上段の式（１）で示すように、マトリクスで表現される。即ち、４個のフィルタ２２０、フィルタ２２５、フィルタ２２６、フィルタ２３５の伝達関数でなる２行２列の行列と、スピーカ２０１ａ、２０１ｂから聴取者の耳までの伝達関数でなる２行２列の行列との乗算で表現されることになる。

そして、クロストークキャンセルとは「ｚ１＝ｘ１（式２）」、「ｚ２＝ｘ２（式３）」となることである。従って、クロストークキャンセル処理部２３０のフィルタ２２０、フィルタ２２５、フィルタ２２６、フィルタ２３５の伝達関数は、図１４の下段の（式４）の示すようになる。

ここで、図９を参照して信号ｘ１のみが入力する場合を想定する。乗算器２６０の係数値をαとする。ｘ１＝１、ｘ２＝０として、（式１）に代入し、また（式４）のＨ１１、Ｈ１２、Ｈ２１、Ｈ２２を（式１）に代入して展開すると、聴取者の両耳に到達する信号は（式５）、（式６）のようになる。「ｚ１＝（Ｇ１１・Ｇ２２−αＧ２１・Ｇ２２）／（Ｇ１１・Ｇ２２−Ｇ１２・Ｇ２１）（式５）」、「ｚ２＝（Ｇ１１・Ｇ２２−αＧ２２・Ｇ１２）／（Ｇ１１・Ｇ２２−Ｇ１２・Ｇ２１）（式６）」。

係数値αが「１．０」の場合、ｚ１は１、ｚ２は０に近似され、右耳にのみ入力信号ｘ１が到達し、（式８）、（式９）が得られることになる。「ｚ１＝ｘ１（式７）」、「ｚ２≒０（式９）」。同様にして、フィルタ１３（２２６）、フィルタ１４（２３５）においても、乗算器２７０の係数値αが「１．０」の場合、ｚ２は「１」、ｚ１は「０」に近似され、左耳にのみ入力信号ｘ２が到達し、「ｚ２＝ｘ２」、「ｚ１≒０」となる。そして、係数値αの値が「１．０」から離れる程、クロストークのキャンセル量が少なくなりクロストークキャンセル効果が効かなくなってくる。かくして、両乗算器２６０、２７０の係数値を調整することによってクロストークキャンセルの量を調整することが可能になる。

このようにして、仮想音像生成部２００を実現することができるが、構成例はこれに限られず、音像を定位してそのクロストークを除去する音響装置であれば本発明に適用可能である。また、音像定位部２２０とクロストークキャンセル処理部２３０とを実装せずに、既に、音像定位処理とクロストークキャンセル処理とを済ませている音声データを再生する構成とすることも可能である。

（音声合成部３００）
音声合成部３００は、制御部１５０からの制御情報を受けて、指示される音声を出力する。図２に示すように、音声合成部３００からの出力は、Ｄ／Ａ変換部３１０によってデジタルアナログ変換されて、スピーカ２０１ａ、２０１ｂから出力される。音声合成されるのは、例えば、所要のメッセージ、頭部２の回動、移動部３の移動等に応じて流れるＢＧＭ等である。

（駆動制御部１４０）
駆動制御部１４０は、５つのステッピング型のモータ１１２ａ、１１２ｂ、１１２ｃ、１１２ｄ、１１４を駆動制御する。この内、モータ１１４は、頭部２の回動動作を行うためのものである。図１１を参照して、移動部３の前進後退、左右方向進行、旋回動作について説明する。図１１は、移動部３の模式的説明図であり、図１１に示すように「前後左右」を設定する。

図１１（ａ）に示すように、オムニホイール１１１ｂ、オムニホイール１１１ｄが矢印Ａ方向に回転するように、モータ１１２ｂ、１１２ｄを駆動すると、基台５０等で成る移動部３は「前側」に移動する。この時、オムニホイール１１１ａ、１１１ｃを回転駆動させるためのモータ１１２ａ、１１２ｃを駆動しない。オムニホイール１１１ａ、１１１ｃは、車輪外周方向に直交する方向においてもフリーローラが回転されるため、前側に回転する。

一方、図１１（ａ）に示すように、オムニホイール１１１ｂ、オムニホイール１１１ｄを点線矢印Ｂ方向に回転するように、ステッピングモータ１１２ｂ、１１２ｄを駆動すると、基台５０等で成る移動部３は「後側」に移動する。つまり、矢印Ａの場合のモータ１１２ｂ、１１２ｃの回転駆動方向を反転駆動させる。この時も、オムニホイール１１１ａ、１１１ｃに対応するモータ１１２ａ、１１２ｃを駆動しない。オムニホイール１１１ａ、１１１ｃは、車輪外周方向に直交する方向においても、フリーローラが回転されるため後側に回転する。かくして、オムニホイール１１１ｂ、オムニホイール１１１ｄの駆動によって、移動部３は前後方向に移動可能になる。

同様に、図１１（ｂ）に示すように、オムニホイール１１１ａ、オムニホイール１１１ｃを矢印Ｃ方向に回転するように、モータ１１２ａ、１１２ｃを駆動すると、基台５０等で成る移動部３は「右側」に移動する。この時、オムニホイール１１１ｂ、１１１ｄに対応するモータ１１２ｂ、１１２ｄを駆動しない。オムニホイール１１１ｂ、１１１ｄは、車輪外周方向に直交する方向においてもフリーローラが回転されるため右方向に回転する。

一方、図１１（ｂ）に示すように、オムニホイール１１１ａ、オムニホイール１１１ｃを点線矢印Ｄ方向に回転するように、ステッピングモータ１１２ａ、１１２ｃを駆動すると、基台５０等で成る移動部３は「左側」に移動する。つまり、矢印Ｃの場合のモータ１１２ａ、１１２ｃの回転駆動方向を反転駆動させる。この時も、オムニホイール１１１ｂ、１１１ｄに対応するモータを駆動しない。オムニホイール１１１ｂ、１１１ｄは、車輪外周方向に直交する方向においてもフリーローラが回転されるため左方向に回転する。かくして、オムニホイール１１１ａ、オムニホイール１１１ｃの駆動によって、移動部３は左右方向に移動可能になる。

ここで、「計測自動制御学会東北支部第２６８回研究集会（２０１１．１１．２６）；全方向移動可能な小型加工ロボットの開発、大山他、日大」によれば、ステッピングモータの回転角をφ（ｄｅｇ）、車輪半径ｒ（ｍｍ）、移動距離ｄ（ｍｍ）、ＸＹ方向の直線移動距離ｄｘ（ｍｍ）、ｄｙ（ｍｍ）とすれば、「ｄｘ＝２πｒ・φ、ｄｙ＝２πｒ・φ、ｄ＝（ｄｘ²＋ｄｙ²）^1/2」より、Ｘ方向の移動とＹ方向の移動とを組みわせて、移動部３を任意の方向に移動可能できる。

前後左右の移動の組合せで旋回移動も可能となるが、特に旋回に注目した駆動制御の一例を説明すると、以下のようになる。図１１（ｃ）に示すように、オムニホイール１１１ａ、オムニホイール１１１ｂ、オムニホイール１１１ｃ、オムニホイール１１１ｄを矢印Ｅ方向に回転するように、ステッピングモータ１１２ａ、１１２ｂ、１１１ｃ、１１１ｄを駆動すると、基台５０等で成る移動部３は「右旋回」する。

一方、図１１（ｃ）に示すように、オムニホイール１１１ａ、オムニホイール１１１ｂ、オムニホイール１１１ｃ、オムニホイール１１１ｄを、矢印Ｅの場合に対して総て反転駆動させ、点線矢印Ｆ方向に回転するようにステッピングモータ１１２ａ、１１２ｂ、１１１ｃ、１１１ｄを駆動すると、基台５０等で成る移動部３は「左旋回」する。いずれも旋回中心はオムニホイール１１１ａ〜１１１ｄの平面視中心位置となる。かくして、オムニホイール１１１ａ、オムニホイール１１１ｂ、オムニホイール１１１ｄ、オムニホイール１１１ｄの駆動によって、移動部３は左右の旋回が可能となる。

以上のように、駆動制御部１４０によるモータ１１２ａ〜１１２ｄの駆動制御によって、移動部３の全方向移動および全方向回動（「中心軸」が回動中心となる）が可能になる。また、旋回動作においては、駆動パルス数と旋回量との関係を予め求めておきテーブル化して所要量の旋回をさせる駆動パルスを設定する等しておけば駆動系の制御アルゴリズムが簡素化される。

（頭部２の回動動作）
駆動制御部１４０は、モータ１１４を駆動することにより、頭部２を移動体１の「中心軸」を中心として回動させる（図２、図１参照）。駆動制御部１４０が、モータ１１４を正転制御すると、頭部２は中心軸を中心とし、上部から見て「時計回り」に回転する。一方、駆動制御部１４０が、モータ１１４を反転制御すると、頭部２は中心軸を中心とし、上部から見て「反時計回り」に回転可能に構成されている。かくして、駆動制御部１４０がモータ１１４に送る制御指令によって、頭部２の回転方向と回転量とを制御することが可能になる。

また、上述したように、移動体３の旋回動作により胴部４が「中心軸」を中心に回動され、その結果、頭部２が「中心軸」を中心に回動動作されるので、スピーカ２０１ａ、２０１ｂの位置を「中心軸」を中心として回動させることができる。したがって、回動機構５により頭部２を回動させて、スイートスポットを対象者に合わせて調整することに代えて、移動体３の左右旋回動作により、音像聴取可能エリアの存在位置を対象者に合わせて調整することも可能である。

但し、移動体１が自走のためのホイールを備えていない場合等には、頭部２の回動機構５を利用することにより、頭部２の回動動作（水平面内での首振り動作）を行うことにより、対象者に合わせた音像聴取可能エリアの存在位置の調整制御を行うことができる。

（制御部１５０）
図２に示す制御部１５０は、画像処理部１２０、測距部１３０、駆動制御部１４０、仮想音源生成部２００、赤外線装置４００、および、音声合成部３００の動作を総合的に制御する。また、制御部１５０は、判定部１６０を備えており、判定部１６０は、測距部１３０、画像処理部１２０および赤外線装置４００からのデータに基づいて、スイートスポット内に聴取者が位置するか否か等を判定する機能を有する。

以上説明してきた、画像処理部１２０、測距部１３０、駆動制御部１４０、仮想音源生成部２００、音声合成部３００、および、制御部１５０の動作は、ＣＰＵ、ＤＳＰ等のプロセッサと、プログラムを記録したＲＯＭ（記録媒体）と、ワークエリアが形成されたＲＡＭとで実現可能である。プロセッサは、記録媒体に記録されたプログラムを読み取って、ワークエリア等を使用しながら実行していくことにより各部を実現可能である。

（動作例）
（顔検出処理）
画像処理部１２０は、例えば以下のような「顔検出処理」を実行する。画像処理用エンジン１２６は、「（１）ＣＣＤカメラ１２５での画像を取り込み」、「（２）取り込み画像の中から顔らしい領域を切り出し」、「（３）切り出した領域に対してテンプレート照合を行い」、「（４）テンプレート照合の結果を判定して人検出を行う」。顔のみでなく耳、目等の顔部品用のテンプレートを照合対象として用意しておけば、顔検出の精度が向上する。かくして、人等を特定することができる。

（測距処理）
また、上述した測距部１３０による距離測定の他に、画素毎に距離を測定することも可能である。例えば、「（１）送信処理部１３４から赤外線を放射する」、「（２）物体（人を含む）で反射した赤外線を受信処理部１３８で受信する」、「（３）受信データの位相遅れから到達時間を求める」、「（４）到達時間から距離を求め距離画像イメージを取得する」、「（５）距離画像イメージの中で、顔検出処理で検出された顔に対応する画素の距離を取得する」、「（６）顔検出処理で検出された顔の画素からカメラに対応する顔の方向を求める」、等が挙げられる。

なお、取得画像から顔を検出する装置や距離画像を得るための装置の構成は公知であるため、詳細な装置構成については説明しない。距離画像を求めなくても、距離測定可能エリアと画像処理エリアと赤外線検出エリアとの平面的・立体的大きさを略同様に設定すれば、顔画像検出処理で人を「仮特定」し、赤外線装置４００の出力により「仮特定」を「本特定」に変え、測距部１３０で得られる最初のエコー信号やドップラーシフトによってスイートスポット内に人が位置した場合、当該人までの距離が分かる。赤外線装置４００の出力からその方向も分かる。このように、一の手法での測定を他の手法での測定により再確認することで、人検出、距離検出等の精度が向上する。

以上のようにして、「顔検出」、「検出された顔までの距離計測」、および「水平面内において、検出された顔までの頭部回転角）を求めることが可能となる。また、以上のような検出や特定は例えば判定部１６０が行うように構成されている。

（基本処理流れ図）
（動作例１）
図１２は基本動作の説明図である。まず、図１２（ａ）を参照して「動作例１」について説明する。ステップＳ１２００で、制御部１５０は、画像処理部１２０を起動する。画像処理部１２０は、先に説明したような顔検出処理によって人（対象者）の検出をトライする。対象者が検出された場合、次に、ステップＳ１２０５において、制御部１５０は、音声合成部３００を駆動して、対象者に対して移動体１に近づくことを促すメッセージを出力させる。この際、ディスプレイ５００に当該メッセージを表示させる。

次に、ステップＳ１２１０において、制御部１５０は、測距部１３０を起動する。測距部１３０は、対象者までの距離を測定する。次に、ステップＳ１２１５において、制御部１５０は、駆動制御部１４０を制御する。これに応答して、駆動制御部１４０は、モータ１１４を回転駆動する。

モータ１１４の回転駆動により、頭部２が胴部４に対して回転する。例えば赤外線装置４００の出力が最大となる方向に頭部２を向ける。かくして、対象者が、左右のスピーカ２０１ａ、２０１ｂを結ぶ直線の中点を通り、当該直線と直交する方向である「センター方向」に位置するようにする。そして、ステップ１２２０において、制御部１５０が仮想音源生成部２００を起動する。仮想音源生成部２００からの音声信号が左右１対のスピーカ２０１ａ、２０１ｂから放音されるので、対象者に対して音像を聴取させることが可能となる。

かくして、対象者をスイートスポット内に位置させることができる。しかも、対象者をセンター方向に位置させることができるので、音像を効果的に聴取させることができる。

図１３（ａ）は、この動作を平面視で説明する説明図である。「Ｍ」は対象者、「Ｒ」は移動体１、「Ｃ」はセンター線、「斜線」でスイートスポットを示す。最初、対象者はスイートスポット内に位置していないが、頭部２の回転動作（符号「Ｐ」参照）によって、対象者をスイートスポット内に位置させ「聴取者」とさせることができる。しかも、対象者は「センター線」上に位置する。「センター線」とは、左右のスピーカ２０１ａ、２０１ｂを結ぶ直線の中点を通り、当該直線と直交する方向に位置する直線である。

また、対象者をセンター線上に位置させるためには、例えばＣＣＤカメラ１２５による取得画像中における左右方向中心線上に、検出された顔の中心部が写るように、頭部２を左右回転すること等によっても実現できる。この例では、赤外線装置４００の検出エリア、測距部１３０の測距エリア、画像処理部１２０の画像検出エリア等を、水平方向においても鉛直方向においても、スイートスポットよりも広めに設定している。

（動作例２）
次に、図１２（ｂ）の動作について「動作例２」について説明する。ステップＳ１２５０で、制御部１５０は、画像処理部１２０を起動する。画像処理部１２０は、人（対象者）の検出をトライする。対象者が検出された場合、次に、ステップＳ１２５５において、制御部１５０は、測距部１３０を起動する。測距部１３０は、対象者までの距離を測定する。

次に、ステップＳ１２６０において、制御部１５０は、駆動制御部１４０を制御してモータ１１２ａ〜１１２ｂを制御する。具体的には、制御部１５０は、駆動制御部１４０を制御し、対象者までの距離をＲ（ｍ）とすると「Ｒ−１（ｍ）」まで直進させる。つまり、対象者の手前まで移動体１を走行移動させる。

次に、ステップＳ１２６５において、制御部１５０は、駆動制御部１４０を制御して、センター線上に対象者が位置するように、頭部２を回転させる。そして、ステップ１２７０において、制御部１５０が仮想音源生成部２００を起動する。仮想音源生成部２００からの音声信号が左右１対のスピーカ２０１ａ、２０１ｂから放音されるので、対象者に対して音像を聴取させることが可能となる。かくして、対象者をスイートスポット内に位置させることができる。

図１３（ｂ）、図１３（ｃ）、図１３（ｄ）は、この動作を平面視で説明するための説明図である。最初、対象者は、スイートスポット内に位置していないが（図１３（ｂ）参照）、移動部３の移動（符号「Ｑ」参照）によって、移動体１は対象者の手前まで近づく（図１３（ｃ）参照）。

そして、頭部２の回転動作（符号「Ｓ」参照）によって、対象者をスイートスポット内に位置させて「聴取者」とすることができる（図１３（ｄ）参照）。しかも、対象者は、「センター線」上に位置する。この場合にも、赤外線装置４００の検出エリア、測距部１３０の測距エリア、画像処理部１２０の画像検出エリア等を、水平方向においても鉛直方向においても、スイートスポットよりも広めに設定している。

（動作例３）
次に、図１２（ｃ）の「動作例３」について説明する。動作例３は、仮想音源生成部２００を常時起動する。そして、音像再生中において、その再生された音像のスイートスポット内に聴取者が位置する場合、当該聴取者が若干移動することを想定した動作例である。まず、ステップ１２８０において、制御部１５０は、画像処理部１２０を駆動する。画像処理部１２０は、人（対象者）の検出をトライする。顔検出に成功した場合、ステップ１２８５において、対象者に対して追従する追従制御を行う。

追従制御の具体例としては、制御部１５０は、画像処理部１２０による対象者の検出輪郭の中央位置が、取得画像の左右方向中心線上になるように、駆動制御部１４０を制御して、頭部２を左右方向に回動させる。また、制御部１５０は、赤外線装置４００からの出力が常に最大になるように、駆動制御部１４０を制御して、頭部２を左右方向に回転させること等が挙げられる。このような追従制御を行うことによって、音像再生中に聴取者が若干移動しても、例えば頭部２の回動動作のみによって、当該聴取者を常にスイートスポット内に位置させることができる。なお、所定時間追従した後に他の動作を行うようにしておくのが、多数の人に対して音像を聴取させる上で好ましい。

以上説明したように、「動作例１」、「動作例２」、「動作例３」を組み合わせることによって、制御部１５０は、スピーカ２０１ａ、２０１ｂから放音される音像の聴取可能エリアの存在位置を対象者に合わせて調整制御するので、例えば、既に聴取者となった人には効果的に音像を聴取させることができるし、また、未だ聴取者になっていない人を聴取者とすることもできるので音像を有効活用することもできる。

つまり、駆動制御部１４０（回転駆動制御部）は、スピーカ２０１ａ、２０１ｂを固定した頭部２（回動部）の回動動作を駆動制御するので、左・右１対スピーカ２０１ａ、２０１ｂのセンター線上に聴取者を位置させて、音像を効果的に聴取させることが可能となる。

また、駆動制御部１４０（移動駆動制御部）は、頭部２、胴体部４を搭載した移動部３の移動動作を駆動制御するので、聴取可能エリアに位置しない人を聴取者として取り込んで、音像を有効利用することが可能になる。また、聴取可能エリア内に聴取者が位置するか否かを判定する判定部１６０を更に備え、制御部１５０は、判定部１６０の判定結果に基づいて、聴取可能エリアの存在位置を調整制御する。つまり、移動体１側が能動的（アクティブ）に移動して、聴取可能エリア外に位置する人を当該エリア内に位置させるようにするので、再生音像の有効利用が可能となり、例えば、テーマパークなどでデモンストレーンを行えばアトラクション効果を得ることができる。

また、動作例１、動作例２、動作例３を組み合わせる場合、各動作に移行する際に所定時間ウエイト状態にすることもできるし、各動作に移行する際に最初の移動体１の存在位置に戻らせると共に、頭部２の回転も反回転させて戻すようにしても良い。

（仮想音源生成部２０３）
図１５は仮想音源生成部２０３の構成例である。仮想音源生成部２０３は、仮想音源生成部２００をより具体的に構成したものである。仮想音源生成部２０３のクロストークキャンセル処理部２３０は、図９に示したものと同一構成である。仮想音源生成部２０３は、主として「（１）ドップラー信号処理部２８０が、再生部が再生した音声信号に対してドップラー効果を付加し、減衰処理部２９０が、距離に応じた減衰処理を施し」、「（２）畳み込み演算部２９５が、位置座標に応じた頭部伝達関数を畳み込み」、「（３）クロストークキャンセル処理部２３０が、「スピーカ位置−聴取者」間の伝達関数に基づいてクロストークを除去する」という処理を実行する。

また、図１６は、仮想音源生成装置２０３の動作等の説明図であり、図中「Ｒ」は移動体１、「Ｈ」は聴取者を示す。また、聴取者Ｈの平面中央部を座標原点として、図１６に示すような極座標系（ｒ、θ、φ）、直交座標系（ｘ，ｙ，ｚ）を設定している。なお、図１６において、仰角または伏角となる「φ」を図示していないが、仮想音像を極座標（ｒ、θ、φ）における任意の位置に定位することが可能である。符号Ｐは、極座標（ｒ、θ、φ）における音像定位位置を示している（但し「φ」は図示していない）。

（ドップラー信号処理部２８０）
ドップラー効果は、仮想音源と聴取者との距離が変化する場合（換言すれば、両者間に相対速度変化がある場合）に生じる。ドップラー周波数「ｆ」は、相対速度を「Ｖｒ」とすると、「ｆ＝ｆ０・Ｖ／（Ｖ＋Ｖｒ）」と表現できる。但し、「Ｖ」は音速度、「ｆ０」は音声データの音の周波数である。「Ｖｒ」は両者が近づく場合には、「負」の値となる一方、両者が遠ざかる場合には、「正」の値になる。ドップラー信号処理部２８０は、仮想音源と対象者との相対速度に応じて、再生部２１５による再生音の周波数に対して、ドップラー周波数に対応するピッチシフトを施す。これにより、仮想音源が聴取者に対して速度を有して移動するように聞こえてリアル感が向上する。

また、ピッチシフトを施すことに代えて、仮想音源と対象者との間の距離に応じた「空間伝搬遅延」を与えることで、ドップラー効果を元音声に施すことを実現することもできる。つまり、仮想音源と対象者との間で相対速度が生じている場合、仮想音源と聴取者の距離が変化するので、「空間伝搬遅延」も変化することを利用する。例えば、仮想音源と聴取者との間の「遅延」に応じた遅延時間を音声データに付与する処理を行うことにより、あたかも仮想音源が速度を有して移動するようにリアルに聞こえる。

（減衰処理部２９０）
減衰処理部２９０は、仮想音源と聴取者との距離に基づいて「距離減衰係数」を算出する。例えば、点音源の場合には、「Ａ」を減衰量として、「Ａ＝２０×ｌｏｇ１０・（ｒ／ｒ０）」で距離減衰係数が求められる。図１６に示すように、「ｒ」は、音像定位位置から聴取者Ｈまでの距離であり、また、「ｒ０」は、減衰量を０（ｄｂ）とする基準距離である。減衰処理部２９０は、求めた距離減衰係数を、ドップラー信号処理部２８０からの出力信号に対して乗じる。

（畳み込み演算部２９５）
畳み込み演算部２９５は、減衰処理部２９０の出力信号に対して、予め設定されている「頭部伝達関数」を読み出して畳み込み演算を行う。「頭部伝達関数（HRTF）」は、仮想音源と聴取者の両耳間の伝達関数である。左耳用頭部伝達関数２９６は、左チャンネル信号に対する畳み込み演算用であり、また、右耳用頭部伝達関数２９７は、右チャンネル信号に対する畳み込み演算用である。両頭部伝達関数２９６、２９７は、音像定位位置が変化すると変わる。図１６に示すように「θ」を設定すれば、例えば「０度」から「３５９度」まで「１度」おきに、両頭部伝達関数２９６、２９７を予め設定しておき、所要のものを読み出し畳み込み演算を行うように構成すればよい。

また、本実施形態においては、頭部２から一定距離でのＨＲＴＦで距離も表現するため、別途、ドップラー信号処理と減衰処理と、を行っている。つまり、本実施形態では、頭部伝達関数２９６、２９７は、同じ「θ」である場合、「ｒ」の値を無限大にしても、頭部伝達関数は同じであることを着目してこれを利用する。

そして、クロストークキャンセル処理部２３０は、図１６に「点線」で示すように、移動体１のスピーカ２０１ａから聴取者Ｈの右耳へのパスと、スピーカ２０１ｂから聴取者の左耳へのパスとを除去する（図１６の点線参照）。先にも述べたように、図１６において、仰角または伏角となる「φ」を図示していないが、仮想音像位置を極座標（ｒ、θ、φ）における任意の位置に定位することが可能である。つまり、点Ｐを任意の位置にすることが可能となる。

以上のように、図１５に示す音像生成装置２０３によれば、ドップラー信号処理部２８０が音像移動を表現し、減衰処理部２９０が距離に応じた音信号の減衰を表現するので、あたかも実世界の環境下に音源が存在するかのように、聴取者に音像を一層リアルに聴取させることが可能となる。

また、例えば、仮想音源生成部２００に音像定位部２２０、クロストークキャンセル処理部２３０を内蔵せずに、音像定位処理やクロストークキャンセル処理済みの音声データを再生することによって、仮想的な音像を生成する構成とすることも可能である。

（他の実施形態）
頭部２の正面視または平面視の左右にスピーカ２０１ａ、２０１ｂを設けた移動体１の正面方向に聴取者Ｈが存在する場合、演出等で頭部２を回動させると、スイートスポット（音像聴取可能エリア）が聴取者Ｈから外れるため、音響効果が低下する。頭部２が回動した場合、本来であれば、スピーカ２０１ａ、２０１ｂの位置と、聴取者Ｈの位置とに基づいて、スピーカ−聴取者Ｈ間の空間的な伝達関数に応じたクロストークキャンセル処理部２３０の構成を採用しなければならないが、新たな構成を採用するのは面倒である。

そこで、本実施形態では、クロストークキャンセル処理部２３０の構成をそのままとして、頭部２の回動程度に応じて、クロストークキャンセル処理部２３０の出力信号に対して、「遅延量」、「ゲイン量」を制御することにより、音響効果を維持する点に特徴がある。これは、回動角度が左右２５（度）程度までの回動動作に対して特に有効であることを聴取確認している。

また、「呼吸」を模して、常時、移動体１の頭部２を回動させたり、胴体部４を回動させたり、腕を設けて動かしたりする際には、特に有効である。

（模式的説明図）
図１７は、本実施形態の原理の模式的説明図である。図１７の下側には、聴取者Ｈが移動体１の正面方向を見て存在する。また、図１７の上側には、移動体１の頭部２のみを平面視した様子を示しており、頭部２の左右には、スピーカ２０１ａ、２０１ｂが設けられている。移動体１の正面方向は、聴取者Ｈの正面方向を向いて、聴取者Ｈと対峙している。なお、図１７において、便宜上、スピーカ２０１ａ、２０１ｂを黒丸で図示している。

また、頭部２の回動中心Ｏを通り、図中の左右方向をｘ軸とし、図中の前後方向をｙ軸として２次元座標系を設定している。さらに、頭部２が、聴取者Ｈの真正面を見る方向を「基準方向」として、「基準方向」から時計回りの回転角度を「θ」としている。基準方向から時計回り方向を「正」、基準方向から反時計回り方向を「負」とする。

頭部２の基準方向においては、スイートスポットＳＳが、聴取者Ｈの正面方向を向いており、聴取者Ｈは、スイートスポットＳＳ内に位置するので、上述してきた音響効果を得ることができる。なお、スイートスポットＳＳは、模式的に図示しており、実際には近すぎても音響効果を得ることはできない。

図１７では、頭部２が回動中心Ｏを中心として時計回りする場合を想定している。頭部２の平面視の対称性から、時計回りで考える議論は、反時計回りでも同様に適用できる。今、頭部２が回動中心Ｏを中心として、「θ（度）」時計回りすると想定する。

この時、図１７に示す「２・Δｘ」は、両スピーカ２０１ａ、２０１ｂの「ｘ」方向の距離差であり、「２・Δｙ」は、両スピーカ２０１ａ、２０１ｂの「ｙ」方向の距離差である。

また、図１８（ａ）は、頭部２とこれに設けられた一対の左右のスピーカ（図１７におけるスピーカ２０１ａ、２０１ｂ：黒丸で図示）の部分を拡大した模式的説明図である。頭部２がθ度時計回りに回転すると、左側のスピーカ（図１７では２０１ｂ）は、点ａｌ１から点ａｌ２に移動する。この際、左右方向（「横方向」とも記す）には、点ａｌ１から点ｂｌ（Δｘ）まで移動し、前後方向（「縦方向」とも記す）には、点ｂｌから点ａｌ２（Δｙ）まで移動する。

同様に、右側のスピーカ（図１７では２０１ａ）は、点ａｒ１から点ａｒ２に移動し、この際、左右方向（横方向）には点ａｒ１から点ｂｒ（Δｘ）まで移動し、前後方向（縦方向）には、点ｂｒから点ａｒ２（Δｙ）まで移動する。

ここで、左右のスピーカの間隔の半分を「ｒ」とすると、「Δｘ＝ｒ・（１−cos（θ（deg）・π/180)）」、「Δｙ＝ｒ×sin(θ(deg) ・π/180)」となる。横方向、縦方向では両スピーカ間の距離差は２倍（２・Δｘ、２・Δｙ）となる。

今、両スピーカの間隔をＳＰＩ（Speaker Interval）とすると、「２・Δｘ」、「２・Δｙ」は、「２・Δｘ＝(ＳＰＩ/２)×(1−cos(θ(rad)))×２＝ＳＰＩ×(1−cos(θ（deg）・π/180))」、「２・Δy＝(ＳＰＩ／２)×sin(θ(rad))×２=ＳＰＩ×sin(θ(deg) ・π/180)」となる。

ここで、図１８（ｂ）は、ＳＰＩを「２０（cm）」とした場合における、頭部２の回転角度θに対する両スピーカの左右方向（横方向）と前後方向（縦方向）の距離差の変化（変化距離）を示す。「実線」は、横方向の距離変化、「点線」は縦方向の距離変化を示している。

回転角度θを−３０（度）から＋３０（度）まで変化させた場合、縦方向の距離変化は、−５（ｃｍ）から＋５（ｃｍ）まで略リニアに変化する。これに対して、横方向の距離変化は最高でも＋１．２（ｃｍ）である。このように、縦方向における両スピーカの距離変化に対して、横方向における両スピーカの距離変化が極めて小さい。

図１９（ａ）は、聴取者Ｈから見た「スピーカ角度」の定義の模式的説明図である。図１９（ａ）に示すように、聴取者Ｈの中心と、θの変化に伴うスピーカ位置とを結ぶ直線が、聴取者Ｈの中心とθ＝０（度）のスピーカ位置とを結ぶ直線とのなす角度を、「聴取者Ｈから見たスピーカ角度」として求めることを示している。

また、図１９（ｂ）は、スピーカ−聴取者Ｈ間の距離を８０（ｃｍ）とした場合における、スピーカ角度とθとの関係図である。図１９（ｂ）を参照すれば分かるように、θが２５（度）以下であると、「スピーカ角度」は１（度）未満となり極めて小さいため、両スピーカ−聴取者Ｈ間の空間的な伝達関数の変化は、音像の到達時間の変化を除き無視し得る程小さい。

一方、頭部２の回動によって生じる縦方向における、左右スピーカ２０１ａ、２０１ｂ間の距離差から発生する、聴取者Ｈへの音像の到達時間の変化は無視できない。以上の事から、Δｘは、Δｙに対して極めて小さいため、Δｘは、誤差と捉え、Δｙの影響のみを考慮する。

図２０は、頭部２の回転角度θに対する、両スピーカから聴取者Ｈまでの音像の到達時間差の変化を示している。θの増加に応じて、到達時間差がリニアに増加している。例えば、θ＝２５（度）の場合、縦方向左右スピーカ距離差Δｙは「４．２２（ｃｍ）であるので、到達時間差は、「０．２４８（ｍｓ）」である。

θの変化に応じて変化する到達時間差は、遅延部によって補正する。例えば、サンプリング周波数「４８（ｋＨｚ）」であると、「０．０００２４８（sec）１／４８０００）＝１１．９０４≒１２」となる。図１７、図１８等を参照すると、この場合には、頭部２が時計回りに回転するので、左スピーカ２０１ｂが聴取差Ｈから遠ざかり、右スピーカ２０１ａが聴取者Ｈから近づくので、左側信号に対して１２サンプル分の遅延を施せば良い。

したがって、左スピーカ２０１ｂからの音響信号を、右スピーカ２０１ａからの音響信号に対して、１２サンプル分遅延させることにより、スイートスポットＳＳから聴取者Ｈが外れても、立体感のある音響効果を得ることができる。たとえ、聴取者ＨからスイートスポットＳＳが外れても、θ＝０（度）に近似することができるので、あたかもスイートスポットＳＳが外れていないような音響効果を得ることができる。

このようにして、図１７に示すように、スイートスポットＳＳが、基準方向から符号Ｌ方向に回転して、聴取者Ｈから外れても、聴取者Ｈは、立体感のある音響効果を得ることができる。

以上は、頭部２が、基準方向から時計回りに回転する場合について説明してきたが、頭部２が、基準方向から反時計回りに回転する場合（「θ」が負の場合）についても、同様に、両スピーカの距離差（到達時間差）を補正することが提案される。「θ」が負の場合、例えば、スイートスポットＳＳが、図１７の符号Ｒで示すように反時計回りに回転して、聴取者ＨがスイートスポットＳＳから外れるが、「θ」が正の場合と同様に、両スピーカ間の距離差（到達時間差）を考慮すれば良い。

以上を纏めると、左右一対のスピーカを搭載する頭部２が回動すると、聴取者Ｈと両スピーカの距離、角度が変化するので、本来であるならば、変化後の空間的な伝達関数（両スピーカ−聴取者Ｈ間）に応じたクロストークキャンセル処理部２３０の構成を求めなければならない。また、頭部２の基準方向（聴取者Ｈの正面方向）からの回動角度が特に「±２５（度）」程度であれば、聴取者Ｈから見た、両スピーカの距離差（到達時間差）は大きくなる。

そこで、クロストークキャンセル処理部２３０が、基準方向（頭部２が聴取者Ｈの正面を向く方向）に対応したものを採用し、採用したクロストークキャンセル処理部２３０からの出力信号に対して、頭部２の回動角度に応じて、遅延による距離補正、ゲインによる音量補正を行うことによって、頭部２の回動によって聴取者ＨからスイートスポットＳＳが外れたとしても、頭部２の回転が無いθ＝０（度）の状態に近似することができるので、聴取者Ｈに対して音響効果を維持することができる。

ここで、ゲイン制御を行うのは、距離差に応じた音波の減衰を考慮するものである。一例として、前述した減衰処理部２９０と同様に、両スピーカ２０１ａ、２０１ｂの距離差に応じた「距離減衰係数」を算出して、これを乗じれば良い。一例として、点音源の場合には、「Ａ」を減衰量として、「Ａ＝２０・ｌｏｇ１０・（ｒ／ｒ０）」で距離減衰係数が求められる。「ｒ」は、両スピーカ２０１ａ、２０１ｂの距離差であり、「ｒ０」は、減衰量を０（ｄｂ）とする「基準距離」であるので、θに対して求まった縦方向の距離差「２・Δｘ」をＡに代入して音波の距離減衰係数を求めることができる。実際には、ゲインＡは、クロストークキャンセルの効果を知覚し易い１〜４（ｋＨｚ）程度の左右音量差が少なくなる様に実測して求める。

一例として、θが正の場合、左スピーカは遠ざかるので、ゲインとして「２０・ｌｏｇ１０・（（ｒ０＋Δｙ）／ｒ０）（ｄＢ）」、右スピーカは近づくので、「２０・ｌｏｇ１０・（（ｒ０−Δｙ）／ｒ０）（ｄＢ）」を乗算する。

（基本構成：仮想音源生成部２０４）
仮想音源生成部２０４は、立体的な音像を生成定位する機能を有する。その出力段には、Ｄ／Ａ変換部２０２と、左右１対のスピーカ２０１ａ、２０１ｂとが接続される。

図２１は、本実施形態の仮想音源生成部２０４の構成図である。仮想音源生成部２０４は、メモリ２０５と、再生部２１５と、音像定位部２２０と、クロストークキャンセル処理部２３０と、補正部２５０とを有する。メモリ２０５には、予め１以上の再生データが記録されている。

再生部２１５は、メモリ２０５に記録されている再生データを読み出し再生して、音像定位部２２０に送る。音像定位部２２０は、送られてきた再生データを用いて、音像を定位させる音像定位処理を行う。クロストークキャンセル処理部２３０は、音像定位情報に基づいて、クロストークを除去するクロストークキャンセル処理を行う。

補正部２５０は、遅延部２５２、２５４と、ゲイン部２５６、２５８とを有する。遅延部２５２は、クロストークキャンセル処理部２３０から出力された右スピーカ用信号に対して、頭部２の回転に応じた遅延を与える。一方、遅延部２５２は、クロストークキャンセル処理部２３０から出力された左耳用信号に対して、頭部２の回転に応じた遅延を与える。ゲイン部２５６は、遅延部２５２の出力信号に対してゲイン調整を行う。一方、ゲイン部２５８は、遅延部２５４の出力信号に対してゲイン調整を行う。

遅延部２５２、遅延部２５４、ゲイン部２５６、および、ゲイン部１５８の動作は、制御部１５０からの制御指令に応じて決定される。制御部１５０は、図２０に示す関係を参照して、回転角度θに対する到達時間差を算出する。θが正の場合には、右スピーカ２０１ａの方が聴取者Ｈに近づくため、右信号用の遅延部２５２に対して、到達時間差だけ遅延するように指示を与える。これにより、遅延部２５２が、自身への入力信号を、制御部１００により指示された到達時間差だけ遅延させる。この結果、左右の音像の到達時間が揃う。

一方、θが負の場合には、左スピーカ２０１ｂが聴取者Ｈに近づくため、左信号用の遅延部２５４に対して、到達時間差だけ遅延するように指示を与える。これにより、遅延部２５４が、自身への入力信号を、制御部１００により指示された到達時間差だけ遅延させる。この結果、左右の音像の到達時間が揃う。

また、θが正の場合には、制御部１５０は、遅延部２５２からの出力信号を入力するゲイン部２５６に対して、回転角度に対応する距離差に応じたゲイン係数Ａ（Ａは先に説明した減衰量）を乗じるように指示を与える。具体的には、θが正の場合、ゲイン部２５６は、右スピーカは近づくので、「２０・ｌｏｇ１０・（（ｒ０−Δｙ）／ｒ０）（ｄＢ）」をゲインとして乗じる。一方、ゲイン部２５８は、θが正の場合、左スピーカは遠ざかるので、ゲインとして「２０・ｌｏｇ１０・（（ｒ０＋Δｙ）／ｒ０）（ｄＢ）」を乗じる。これにより、音量補正が実行される。回転角度に対応する距離差に応じたゲイン係数は、頭部２の回転角度θの回転により生じた距離差で定まる係数であり、例えば、距離差の対数関数として定義しておけばよい。

同様にして、θが負の場合には、遅延部２５４からの出力信号を入力するゲイン部２５８に対して、到達時間差に対応する距離差に応じたゲイン係数を乗じるように指示を与える。これにより、ゲイン部２５８が、自身への入力信号に対して、制御部１００により指示されたゲイン係数を乗じて、音量補正を行う。

以上のように補正部２５０によって音像の信号が補正されて、両スピーカ２０１ａ、２０１ｂから放音される音像は、聴取者Ｈで音響効果を奏する。これは、たとえ、頭部２が回転角度θ（θ≠０）の回転をしても、頭部２の回転角度が「θ＝０（度）」の状態に近似することができるので、スイートスポットＳＳが聴取者Ｈから外れても、近似的に外れていない状態を維持できるからである。

なお、仮想音源生成部２０４内部に、仮想音源生成部独自の制御部を設けた構成としても良く、この際には、制御部１５０および／または駆動制御部１４０等から、頭部２の基準方向からの回動角度に関する情報等を得るように構成すれば良い。

（具体的構成）
図２２は、仮想音源生成部２０４の構成図である。仮想音源生成部２０４は、入力音響信号に基づいて、所望の方向に音源を定位して２チャンネルの右スピーカ用信号（Ｘ２）と左スピーカ用信号（Ｘ１）とを生成する音像定位部２２０と、クロストークをキャンセルするクロストークキャンセル処理部２３０と、補正部２５０と、左右のスピーカ２０１ａ、２０１ｂとを有して構成される。

音像定位部２２０は、フィルタ０１（２１０）とフィルタ０２（２１１）とを有して構成され、両フィルタの出力が、右スピーカ用信号、左スピーカ用信号となる。フィルタ０１（２１０）とフィルタ０２（２１１）の伝達関数は、所望の方向および距離での音像定位を行うための「頭部伝達関数」が予め測定や生成され、それらが組み込まれている。

フィルタ０１（２１０）、フィルタ０２（２１１）がＦＩＲフィルタで構成されている場合には、入力された入力音響信号に対してフィルタ係数との畳み込み演算を行って、右スピーカ用信号、左スピーカ用信号を生成する。

また、クロストークキャンセル処理部２３０においては、フィルタ１１（２２０）とフィルタ１２（２２５）とが右スピーカ用信号の供給を受けるように構成される。フィルタ１２（２２５）の出力は、乗算器２６０により係数値（α）が乗じられ、この乗算結果は、加算器２４５に入力される。同様に、フィルタ１３（２２６）とフィルタ１４（２３５）とが、左スピーカ用信号の供給を受けるように構成される。フィルタ１３（２２６）の出力は、乗算器２７０により係数値（α）が乗じられ、この乗算結果は加算器２４０に入力される。

加算器２４０は、乗算器２７０の乗算結果と、フィルタ１１（２２０）の出力とを加算して右チャンネル出力信号を生成し、これを補正部２５０に供給する。遅延部２５２は、この生成された右チャンネル出力信号に対して遅延を与え、ゲイン部２５６は、遅延部２５２により遅延された信号に係数を乗じる。ゲイン部２５６は、その出力を右スピーカ２０１ａに供給する。

一方、加算器２４５は、乗算器２６０の乗算結果とフィルタ１４（２３５）の出力とを加算して左チャンネル出力信号を生成し、これを補正部２５０に供給する。遅延部２５４は、この生成された左チャンネル出力信号に対して遅延を与え、ゲイン部２５８は、遅延部２５４により遅延された信号に係数を乗じる。ゲイン部２５８は、その出力を左スピーカ２０１ｂに供給する。かくして、両スピーカ２０１ａ、２０１ｂからは所望の音が放音される。

前述したように、乗算器２６０、乗算器２７０は、係数値が共にαであり、αが「０」の場合、クロストークキャンセルが行われず、αが「１．０」の場合には完全なクロストークキャンセルが行われるので、乗算器２６０、２７０は、クロストークキャンセル量を調整する機能を有する。

このようにして、仮想音像生成部２０４を実現することができるが、構成例は、これに限られず、音像を定位してそのクロストークを除去する音響装置であれば本発明に適用可能である。また、音像定位部２２０とクロストークキャンセル処理部２３０とを実装せずに、既に、音像定位処理とクロストークキャンセル処理とを済ませてある音声データを再生する構成とすることも可能である。

（補正部の具体例）
図２３は、補正部２５０の具体的な構成図である。図２３は、クロストークキャンセル処理部２３０から出力される右スピーカ用信号または左スピーカ用信号に対する補正部２５０の構成例である。頭部２が音を発しながら回転する場合、その回転角度θに応じて、遅延時間も連続的変化させなければ、遅延サンプルが変化する時点で不連続ノイズが発生する。遅延処理をデジタル処理で実行する場合、遅延時間は離散して不連続になるので、遅延部に補間処理を加える必要がある。

遅延時間（到達時間差）をサンプリング周波数に応じて遅延サンプルに変換すると、小数点以下の数が生じる。小数点以下の数に応じて補間処理を行うことにより、遅延結果に不連続が発生しなくなる。補間方法は、様々であるが、単純な線形補間は次式で表される。

図２３において、「Ｄ: 遅延時間から算出された遅延サンプル」、「Ｄｉ: 遅延サンプル整数部」、「Ｄｄ: 遅延サンプル小数部」、「ａ（）: 遅延部出力」、「ｂ（）：補間された遅延サンプル」とすると、次式が成立する。「ｂ＝（ａ（Ｄｉ）・（１−Ｄｄ）＋ａ（Ｄｉ＋１）・Ｄｄ）／２」となる。

これによれば、遅延部２５２０、遅延部２５４０はそれぞれ、自身への入力信号を「Ｄｉ」、「Ｄｉ＋１」遅延させる。つまり、一方の遅延部の遅延量を他方の遅延部の遅延量より１サンプル分多い量とする。また、ゲイン部２５６、ゲイン部２５８はそれぞれ、自身への入力に対して係数「１−Ｄｄ」、「Ｄｄ」を乗じる。両係数「Ｄｄ」、「１−Ｄｄ」の和は、「１」であり、遅延部２５２０、遅延部２５４０の出力に対する重み付けとなっている。つまり、ゲイン部２５６０、２５８０は、係数を調整して補間処理を行っている。そして、加算部２５７０により、ゲイン部２５６０、２５８０の出力を加算し、乗算部２５８０により「１／２」を乗じることにより、補間処理がされる。

例えば、回転角度θが１５度の場合、スピーカ２０１ａ、２０１ｂは、縦方向に「２．５９（ｃｍ）」移動し、左右スピーカ２０１ａ、２０１ｂの距離差は、２倍の「５．１８（ｃｍ）」であるので到達時間差は、「０．１５（ｍｓ）」、遅延サンプル（Ｄ）は、「７．３サンプル」となる。

遅延サンプルの整数部（Ｄｉ）では、「７」、小数部（Ｄｄ）は「０．３」であるので、遅延部２５２０において「７サンプル」分の遅延を与え、ゲイン部２５６０によって、係数「１−Ｄｄ＝１−０．３」を乗じる。また、他方の遅延部２５４０では、「Ｄｉ＋１＝７＋１＝８」より８サンプル分の遅延を与え、ゲイン部２５６０によって、係数「Ｄｄ＝０．３」を乗じる。

そして、ゲイン部２５６０、２５８０の出力信号を加算し、乗算部１５８０は、加算結果に「１／２」を乗じるので、上述した補間処理された「ｂ」が補正部２５０より出力される。

例えば、制御部１５０は、図２０等を参照して回転角度θに対応する到達時間差を求め、求めた到達時間差に応じた遅延サンプル数Ｄｉを計算し、この情報を遅延部２５２０、２５４０に送ることによって、遅延部２５２０、２５４０が、それぞれ、遅延を与えることができる。また、例えば、制御部１５０は、図２０等を参照して回転角度θに対応する到達時間差を求め、求めた到達時間差に応じた遅延サンプル数Ｄｉを計算し、Ｄｉの小数部であるＤｄの情報を、ゲイン部２５６０、２５８０に送ることによって、それぞれに係数を与えることができる。

以上によれば、不連続ノイズの発生を防止した状態で、聴取者ＨからＳＳが外れても音響効果を維持することが可能になる。また、図２３は、補間処理を実行可能な補正部２５０の一例を示したに過ぎない。

本発明によれば、再生音像を利用可能な聴取者が多数存在する屋外でのアトラクションや、移動体（ロボット）と聴取者が一対一で対面し移動体がパフォーマンスを提供する等に利用可能である。

１移動体
２頭部
３移動体
４頭部
５回動機構
１００電子回路
１１１ａ、１１１ｂ、１１１ｃ、１１１ｄオムニホイール
１１２ａ、１１２ｂ、１１２ｃ、１１２ｄモータ
１１４モータ
１２０画像処理部
１２６画像処理用エンジン
１２５ＣＣＤカメラ
１３０測距部
１３２Ａ／Ｄ変換部
１４０駆動制御部
１５０制御部
１６０判定部
２００仮想音源生成部
２０１ａ、２０１ｂスピーカ
２０２Ｄ／Ａ変換部
２０３仮想音源生成部
２０４仮想音源生成部
２５０補正部
２５２遅延部
２５４遅延部
２５６ゲイン部
２５８ゲイン部
２８０ドップラー信号処理部
２９０減衰処理部
３００音声合成部

Claims

仮想的音源を生成する仮想音源生成部と、
前記仮想音源生成部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記仮想音源生成部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備え、
前記制御部は、
前記頭部の回動動作を制御する回動駆動制御部と、
前記移動部の車輪を駆動制御する移動駆動制御部と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御部と、を有する移動体。
請求項１に記載の移動体であって、
前記制御部は、前記聴取可能エリア内に聴取者が位置するか否かを判定する判定部を更に備え、
前記制御部は更に、
前記判定部の判定結果に基づいて、前記聴取可能エリアの存在位置を調整制御することを特徴とする移動体。
請求項２に記載の移動体であって、
前記判定部によって前記聴取可能エリア内に人が位置しないと判定された場合、当該移動体に最も近距離の人を特定する特定部を更に備えたことを特徴とする移動体。
請求項３に記載の移動体であって、
前記制御部は更に、
前記特定部が特定した人が前記聴取可能エリア内に位置するように、前記聴取可能エリアの存在位置を調整制御することを特徴とする移動体。
請求項３および４の内のいずれか一項に記載の移動体であって、
前記制御部は更に、
前記特定部によって一度特定された聴取者の動きに追従させるように、前記聴取可能エリアの存在位置を調整制御することを特徴とする移動体。
請求項１、２、３、４および５の内のいずれか一項に記載の移動体であって、
前記制御部は、
左右のスピーカの固定位置を結ぶ直線の中点を通り、当該直線と直交する方向に人が位置するように、前記聴取可能エリアの存在位置を調整制御することを特徴とする移動体。
請求項２、３、５および６の内のいずれか一項に記載の移動体であって、
前記仮想音源生成部は、
メモリに格納されている音声データを読み出し再生する再生部と、
前記再生部により再生された仮想音像と聴取者との相対速度に応じた周波数変化を施すドップラー信号処理部と、
前記ドップラー信号処理部による信号処理結果と予め設定されている頭部伝達関数を読み出して畳み込み演算を行う畳み込み演算部と、を含んで成ることを特徴とする移動体。
仮想的な音源処理を実行済みの音声データを再生する再生部と、
前記再生部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記再生部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備え、
前記制御部は、
前記頭部の回動動作を制御する回動駆動制御部と、
前記移動部の車輪を駆動制御する移動駆動制御部と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御部と、を有する移動体。
請求項１、２、３、４、５、６、７および８の内のいずれか一項に記載の移動体であって、
前記遅延部からの信号に対してゲインを与えるゲイン部をさらに備え、
前記制御部は更に、
前記頭部の回動量に応じたゲインを与えるように、前記ゲイン部を制御することを特徴とする移動体。
仮想的音源を生成する仮想音源生成部と、
前記仮想音源生成部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記仮想音源生成部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備えた移動体に、
前記頭部の回動動作を制御する回動駆動制御機能と、
前記移動部の車輪を駆動制御する移動駆動制御機能と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御機能と、
を実現させるためのコンピュータ実行可能なプログラム。
仮想的な音源処理を実行済みの音声データを再生する再生部と、
前記再生部が生成した音像を放音するための左右一対のスピーカを、その左側と右側とに固定した頭部と、
前記頭部を回動させるための回動機構を介して連結される胴体部と、
前記左右一対のスピーカから放音される音像の聴取可能エリアの存在位置を、少なくとも前記頭部の回動動作により、対象者に合わせて調整制御する制御部と、
前記左右一対のスピーカの前段側に設けた遅延部と、
前記再生部、前記頭部、前記胴体部、前記制御部および前記遅延部を搭載した基台と前記基台の前後左右に設けられ、自身の外周方向とこれに直交する方向とに回動自在な車輪とを含む移動部と、を備えた移動体に、
前記頭部の回動動作を制御する回動駆動制御機能と、
前記移動部の車輪を駆動制御する移動駆動制御機能と、
前記頭部の回動量に応じた遅延量を与えるように、前記遅延部を制御する遅延制御機能と、
を実現させるためのコンピュータ実行可能なプログラム。