JP2013223098A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP2013223098A
JP2013223098A JP2012093421A JP2012093421A JP2013223098A JP 2013223098 A JP2013223098 A JP 2013223098A JP 2012093421 A JP2012093421 A JP 2012093421A JP 2012093421 A JP2012093421 A JP 2012093421A JP 2013223098 A JP2013223098 A JP 2013223098A
Authority
JP
Japan
Prior art keywords
listening range
listener
sound source
audio
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012093421A
Other languages
English (en)
Other versions
JP5929455B2 (ja
Inventor
Takuro Otani
拓郎 大谷
Yohei Seki
洋平 関
Keiju Okabayashi
桂樹 岡林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012093421A priority Critical patent/JP5929455B2/ja
Publication of JP2013223098A publication Critical patent/JP2013223098A/ja
Application granted granted Critical
Publication of JP5929455B2 publication Critical patent/JP5929455B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】聴取者が自然な動作で所望の音源に対応する音声を聞き分けることを可能にする。
【解決手段】音声処理装置1は、聴取者10の周囲に仮想的に配置された仮想音源21〜25にそれぞれ対応する音声信号の出力を制御する。状態判定部3は、聴取者10の向きを示す聴取者方向Dの動きが静止状態になったかを判定する。出力制御部4は、聴取者10から見て聴取者方向Dが中心になるように設定された聴取範囲30に含まれる仮想音源に対応する音声信号の音量を、聴取範囲30に含まれない仮想音源に対応する音声信号の音量より相対的に大きくするように制御する。そして、出力制御部4は、静止状態になったと判定されたとき、聴取範囲30を縮小する。
【選択図】図1

Description

本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。
聴取者の周囲に多数の音源が存在する状況では、聴取者は、それらの音源のうち所望の音源からの音声を聞き分けることは難しい。そこで、聴取者にヘッドフォンを装着させ、複数の音源のうち選択された音源に対応する音声を、ヘッドフォンを通じて聴取者に提供することが考えられている。
例えば、聴取者の周囲に複数の仮想音源を配置し、聴取者の頭部の前面を特定の音源に向け、聴取者がうなずくなどの所定の動作を行うことにより、特定の音源からの音声を選択する技術がある。また、聴取者が向いている方向に配置された仮想音源の音量を大きくするように制御する技術もある。さらに、聴取者の向きに応じて音像の定位を変化させる技術もある。
特開平9−90963号公報 特開2008−92193号公報 特開2003−111197号公報
しかしながら、複数の仮想音源の中から所望の音源を選択するために、聴取者がうなずくなどの特定の動作を行う方法では、操作が煩雑であり、聴取者が自然な動作で所望の音源からの音声を聞くことができないという問題があった。
1つの側面では、本発明は、聴取者が自然な動作で所望の音源に対応する音声を聞き分けることが可能な音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
1つの案では、聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置が提供される。この音声処理装置は、状態判定部と出力制御部とを有する。状態判定部は、聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する。出力制御部は、聴取者から見て聴取者方向が中心になるように設定された聴取範囲に含まれる仮想音源に対応する音声信号の音量を、聴取範囲に含まれない仮想音源に対応する音声信号の音量より相対的に大きくするように制御する。また、出力制御部は、静止状態になったと判定されたとき、聴取範囲を縮小する。
また、1つの案では、上記の音声処理装置と同様の処理が実行される音声処理方法が提供される。
さらに、1つの案では、上記の音声処理装置と同様の処理をコンピュータに実行させる音声処理プログラムが提供される。
1態様によれば、聴取者が自然な動作で所望の音源に対応する音声を聞き分けることができる。
第1の実施の形態に係る音声処理装置の構成例およびその動作例を示す図である。 第2の実施の形態に係る音声提供システムのシステム構成例を示す図である。 展示会場における各機器の配置例を示す図である。 音声処理装置のハードウェア構成例を示す図である。 ユーザ端末のハードウェア構成例を示す図である。 ユーザ端末および音声処理装置が備える処理機能の構成例を示すブロック図である。 仮想空間における音源の配置例を示す図である。 音源管理テーブルに登録される情報の例を示す図である。 注視状態の判定方法の例について説明するための図である。 聴取範囲について説明するための図である。 二次元の仮想空間における聴取範囲の変化について説明するための図である。 三次元の仮想空間における聴取範囲の変化について説明するための図である。 聴取範囲を変化させる方法の第1の例を示す図である。 聴取範囲を変化させる方法の第2の例を示す図である。 聴取範囲の角度が最小値になる前に注視状態が解消された場合の制御例を示す図である。 聴取範囲の角度が最大値になる前に再度注視状態になった場合の制御例を示す図である。 聴取範囲に含まれる各音源の音量制御の例を示す図である。 ユーザ管理テーブルに登録される情報の例を示す図である。 注視判定部の処理手順の例を示すフローチャートである。 聴取範囲制御部および音声出力処理部の処理手順の例を示すフローチャートである。 聴取範囲制御部および音声出力処理部の処理手順の例を示すフローチャートである。 注視状態にあるユーザが展示物に近づいたときの様子を示す図である。 展示物管理テーブルに登録される情報の例を示す図である。 聴取範囲制御部および音声出力処理部の処理手順の変形例を示すフローチャートである。 第3の実施の形態に係る音声提供システムの構成例を示す図である。 第3の実施の形態におけるユーザ端末および音声処理装置の処理機能の例を示すブロック図である。 第4の実施の形態に係る音声提供システムの構成例を示す図である。
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る音声処理装置の構成例およびその動作例を示す図である。
図1に示す音声処理装置1は、聴取者10の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御するものである。各仮想音源の位置は、例えば、音源位置情報2に任意に登録されて、音声処理装置1の記憶装置に保持される。また、仮想音源に対応する音声信号は、例えば、あらかじめ記憶装置に用意されたものか、あるいは、マイクロフォンによって収音されて音声処理装置1に入力されるものである。後者の例としては、聴取者10の周囲に実際に存在する人間が発する音声を、マイクロフォンによって収音することで得られた音声信号などがある。
この音声処理装置1は、状態判定部3および出力制御部4を備える。
状態判定部3は、聴取者10の向きを示す聴取者方向Dの動きを監視し、聴取者方向Dの動きが静止状態になったかを判定する。例えば、聴取者10の身体に方向センサを装着しておき、状態判定部3は、方向センサによる検出結果を基に聴取者方向Dの動きを監視する。なお、聴取者方向Dは、聴取者10の顔が向いている方向、あるいは聴取者10の視線の方向であることが望ましい。
また、上記の静止状態とは、聴取者10の向きが変化しなくなったと判断される状態である。状態判定部3は、例えば、聴取者方向Dの変動量が所定時間だけ所定の変動幅に収まっている場合に、静止状態になったと判定する。
出力制御部4は、複数の仮想音源に対応する音声信号の出力音量を制御する。ここでは例として、出力制御部4は、各仮想音源に対応する音声信号を合成して所定チャネル数の合成音声信号を生成するものとする。合成音声信号は、例えば、聴取者10が装着しているヘッドフォンやイヤフォンに出力されて、合成音声信号に基づく合成音声が聴取者10に聴取される。あるいは、合成音声信号に基づく合成音声は、聴取者10の周囲に配置された3つ以上のスピーカから出力される。
なお、他の例として、各仮想音源に対応する音声信号に基づく音声が、聴取者10の周囲に仮想音源ごとに配置されたスピーカから出力されるようにしてもよい。
出力制御部4は、聴取者10から見て聴取者方向Dが中心になるような聴取範囲30を設定する。そして、出力制御部4は、設定した聴取範囲30に含まれる仮想音源に対応する音声信号の音量を、聴取範囲30に含まれない仮想音源に対応する音声信号の音量より相対的に大きくするように制御する。このような制御により、聴取者10には、複数の音源のうち、聴取範囲30に含まれる音源に対応する音声が強調して聞こえるようになる。
出力制御部4は、状態判定部3によって聴取者方向Dの動きが静止状態になったと判定されたとき、聴取範囲30を縮小する。以下、図1の下側を参照して、静止状態になったと判定される前後の動作の例について説明する。
図1の下側では、聴取者10の周囲には5つの仮想音源21〜25が配置されている。なお、出力制御部4によって設定される聴取範囲30を、斜線のハッチングによって示す。
状態判定部3が静止状態になったと判定する前の状態では、出力制御部4は、図1の左下に示すように聴取範囲30を設定する。この状態では、聴取範囲30には仮想音源21〜25が含まれており、聴取者10には、仮想音源21〜25のそれぞれに対応する音声が均等に聞こえる。このため、聴取者10は、仮想音源21〜25のそれぞれに対応する音声を聞き分けることが難しい。図1の左下の状態は、聴取者10の向きが一定方向に定まっていない状態であり、聴取者10は仮想音源21〜25のうちのどの音源に対応する音声を聞くかを特定していない状態と考えることができる。
一方、状態判定部3が静止状態になったと判定すると、出力制御部4は、図1の右下に示すように、聴取範囲30を縮小する。この状態では、聴取者方向Dに最も近い仮想音源23が聴取範囲30に含まれているが、仮想音源21,22,24,25は聴取範囲30に含まれていない。このため、出力制御部4は、仮想音源23に対応する音声信号の音量を、他の仮想音源21,22,24,25に対応する音声信号の音量よりも相対的に大きくする。これにより、聴取者10は、仮想音源23に対応する音声を聞き取りやすくなる。
上記のような制御により、聴取者10は、所望の仮想音源の方向に向いて静止するだけで、特別な入力操作を意識的に行うことなく、その仮想音源に対応する音声を容易に聞き分けることができる。所望の仮想音源の方向に向いて静止するという動作は、複数の音源が存在する状況下で所望の音源に対応する音声を聞き取ろうとする際に、聴取者10が無意識に行う動作である。このため、上記の制御により、聴取者10は、自然な動作で所望の仮想音源に対応する音声を聞き取ることができるようになる。
〔第2の実施の形態〕
次に、第2の実施の形態として、展示会場において入場者に音声情報を提供するための音声提供システムについて説明する。まず、図2は、第2の実施の形態に係る音声提供システムのシステム構成例を示す図である。
音声提供システム100は、展示会場に入場したユーザに音声情報を提供するための制御処理を行う音声処理装置200を備える。音声処理装置200には、複数のマイクロフォンによって収音された音声信号が入力される。マイクロフォンの数は任意であり、図2では例として、音声処理装置200には4つのマイクロフォン301a〜301dのそれぞれから音声信号が入力される。各マイクロフォンは、展示物について説明する説明者が発する音声を収音するものである。
なお、各マイクロフォンから音声処理装置200への音声信号の送信方法としては、種々の方法を用いることができる。例えば、各マイクロフォンによって収音された音声信号は、デジタル音声信号に変換された後、有線または無線によって音声処理装置200に送信される。あるいは、各マイクロフォンによって収音された音声信号は、アナログ信号のまま音声処理装置200に入力されて、音声処理装置200内でデジタル化されてもよい。
また、音声処理装置200には、無線信号を送受信するための複数のアクセスポイント110a〜110dが、ネットワーク120を介して接続されている。ネットワーク120は、例えばLAN(Local Area Network)である。この場合、アクセスポイント110a〜110dは、無線LANアクセスポイントである。
一方、展示会場に入場したユーザは、ユーザ端末400およびヘッドフォン500を携帯する。ユーザ端末400は、アクセスポイント110a〜110dとの間で無線通信することが可能になっている。また、ヘッドフォン500は、ユーザ端末400から出力されたアナログ音声信号を再生出力するドライバユニット(図示せず)を備える。
音声処理装置200は、各マイクロフォンによって収音された音声信号を合成し、合成された音声信号を、アクセスポイント110a〜110dの少なくとも1つを通じて、ユーザ端末400に送信する。ユーザ端末400は、音声処理装置200から受信した音声信号をアナログ変換し、変換したアナログ音声信号をヘッドフォン500のドライバユニットに出力する。
また、音声処理装置200は、展示会場におけるユーザ端末400の位置を検出する機能を備える。本実施の形態では例として、音声処理装置200は、ユーザ端末400から送信された信号を、アクセスポイント110a〜110dから受信し、これらの受信信号に基づいてユーザ端末400の位置を検出する。例えば、音声処理装置200は、ユーザ端末400から送信された信号をアクセスポイント110a〜110dを通じて受信し、それぞれのアクセスポイントにおける信号の受信時刻の差、あるいは受信電波強度の差に基づいて、三角法を用いてユーザ端末400の位置を検出する。この方法が用いられる場合、位置検出に使用されるアクセスポイントは、少なくとも3つ設置される。
さらに、ヘッドフォン500には、ユーザが向いている方向を検出するための方向センサ510が搭載されている。以下、方向センサ510によって検出される方向を「視線方向」と呼ぶ。
方向センサ510は、例えば、加速度センサ、ジャイロセンサおよび地磁気センサを備える。ユーザ端末400は、方向センサ510による検出結果を基にユーザの視線方向を演算し、算出された視線方向を、アクセスポイント110a〜110dの少なくとも1つを通じて音声処理装置200に送信する。
なお、方向センサ510は、ヘッドフォン500とは別の位置に設けられてもよく、また、頭部以外の位置に設けられてもよい。ただし、方向センサ510の目的は、ユーザがどこを見ているかを検出することである。このため、方向センサ510は、ユーザの頭部に設けられることが望ましい。また、方向センサ510によって検出される方向は、水平面に沿った2次元方向であっても、あるいは鉛直方向を含めた3次元方向であってもよい。
図3は、展示会場における各機器の配置例を示す図である。
展示会場においては、例えば、展示物310a〜310cが展示されている。展示物310aの前には説明者302aが立ち、説明者302aは展示物310aの説明を行う。同様に、展示物310bの前には説明者302bが立ち、展示物310cの前には説明者302cが立っている。説明者302a〜302cは、それぞれマイクロフォン301a〜301cを持っている。そして、説明者302a〜302cがそれぞれ発する音声は、マイクロフォン301a〜301cによって収音され、収音された音声信号は音声処理装置200に送信される。
音声処理装置200は、受信した音声信号を合成し、合成した音声信号を、アクセスポイント110a〜110dを通じて、ユーザ401が携帯するユーザ端末400に送信する。ユーザ401は、説明者302a〜302cに近づくことで説明者302a〜302cの声を直接聞くこともできるが、基本的には、説明者302a〜302cの声を、ヘッドフォン500を介して聞く。
なお、展示会場に複数のユーザ401が入場した場合には、ユーザ401のそれぞれがユーザ端末400およびヘッドフォン500を携帯する。
ところで、展示会場に多くの展示物が展示され、展示物ごとに説明者が存在する場合、展示会場内には多くの音声が飛び交うことになる。展示会場に入場したユーザ401は、これら多くの音声から所望の展示物に対応する音声を聞き分ける必要があるが、例えば、所望の展示物の方向に視線を向けるだけでは、その展示物に対応する音声を聞くことは難しい。
そこで、音声処理装置200は、ユーザ端末400からユーザ401の視線方向を随時取得し、ユーザ401の視線方向の動きが静止したかを判断する。以下、ユーザ401の視線方向の動きが静止したと判断される状態を「注視状態」と呼ぶ。音声処理装置200は、ユーザ401が注視状態になったと判断すると、ユーザ401の視線方向に存在する展示物に対応する音声が強調されて聞き取りやすくなるように、各マイクロフォンからの音声の合成バランスを調整して、調整後の合成音声信号をユーザ端末400に送信する。
また、音声処理装置200は、ユーザ401が注視状態になったと判断したとき、ユーザ401の視線方向に存在する展示物に対応する音声を急激に強調するのではなく、緩やかに強調するように制御する。これにより、ユーザ401が自然な感覚で所望の音声を聞き取ることができるようにする。
図4は、音声処理装置のハードウェア構成例を示す図である。
音声処理装置200は、図4に示すようなコンピュータとして実現することができる。音声処理装置200は、CPU(Central Processing Unit)201によって装置全体が制御されている。CPU201には、バス209を介して、RAM(Random Access Memory)202と複数の周辺機器が接続されている。
RAM202は、音声処理装置200の主記憶装置として使用される。RAM202には、CPU201に実行させるOS(Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM202には、CPU201による処理に必要な各種データが格納される。
バス209に接続されている周辺機器としては、HDD(Hard Disk Drive)203、グラフィックインタフェース204、入力インタフェース205、光学ドライブ装置206、ネットワークインタフェース207および通信インタフェース208がある。
HDD203は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD203は、音声処理装置200の二次記憶装置として使用される。HDD203には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの他の種類の不揮発性記憶装置を使用することもできる。
グラフィックインタフェース204には、モニタ204aが接続されている。グラフィックインタフェース204は、CPU201からの命令に従って、画像をモニタ204aに表示させる。なお、モニタ204aは、例えば、液晶ディスプレイである。
入力インタフェース205には、キーボード205a、マウス205bなどの入力装置接続されている。入力インタフェース205は、入力装置からの出力信号をCPU201に送信する。
光学ドライブ装置206は、レーザ光などを利用して、光ディスク206aに記録されたデータの読み取りを行う。光ディスク206aは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク206aには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)などがある。
ネットワークインタフェース207は、ネットワーク120を通じて他の装置との間でデータを送受信する。通信インタフェース208は、各マイクロフォンによって収音されたデジタル音声信号を受信する。
図5は、ユーザ端末のハードウェア構成例を示す図である。
ユーザ端末400は、図5に示すような情報端末装置として実現することができる。ユーザ端末400は、CPU411によって装置全体が制御されている。CPU411には、バス419を介して、RAM412と複数の周辺機器が接続されている。
RAM412は、ユーザ端末400の主記憶装置として使用される。RAM412には、CPU411に実行させるOSプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM412には、CPU411による処理に必要な各種データが格納される。
バス419に接続されている周辺機器としては、フラッシュメモリ413、表示装置414、入力装置415、無線インタフェース416、通信インタフェース417およびオーディオインタフェース418がある。
フラッシュメモリ413は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。フラッシュメモリ413は、ユーザ端末400の二次記憶装置として使用される。フラッシュメモリ413には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、HDDなどの他の種類の不揮発性記憶装置を使用することもできる。
表示装置414は、例えば液晶ディスプレイなどを含み、CPU411からの命令に従って画像を表示する。入力装置415は、例えば、表示装置414の表示面に設置されたタッチパネルや、所定の操作キーなどを含む。入力装置415に対する操作に応じた信号がCPU411に送信される。
無線インタフェース416は、アクセスポイント110a〜110dとの間で無線通信する。通信インタフェース417は、方向センサ510による検出結果を受信する。オーディオインタフェース418は、CPU411から送信されたデジタル音声信号をアナログ音声信号に変換し、アナログ音声信号を増幅してヘッドフォン500に出力する。
図6は、ユーザ端末および音声処理装置が備える処理機能の構成例を示すブロック図である。
ユーザ端末400は、視線方向検出部421および再生処理部422を有する。これらの各処理ブロックは、例えば、ユーザ端末400のCPU411(図5参照)が所定のプログラムを実行することで実現される。
視線方向検出部421は、方向センサ510による検出結果を基に、ユーザ401の視線方向ρtを演算する。視線方向検出部421は、算出した視線方向ρtを音声処理装置200に送信する。なお、視線方向ρtは、例えば、x軸、y軸、z軸のそれぞれの回りの回転角度(Rt,Pt,Yt)で表される。あるいは、視線方向ρtは、例えば、ベクトルとして表されてもよい。
再生処理部422は、例えば、音声処理装置200から受信した音声信号を所定の符号化方式に従って復号化し、オーディオインタフェース418(図5参照)に供給する。また、再生処理部422は、例えば、受信した音声信号に対して、擬似的な3D効果を与える処理などを施してもよい。
一方、音声処理装置200は、ユーザ位置検出部211、音声入力部212、計時部213、注視判定部214、聴取範囲制御部215および音声出力処理部216を有する。これらの各処理ブロックの処理は、例えば、音声処理装置200のCPU201(図4参照)が所定のプログラムを実行することで実現される。
また、音声処理装置200の記憶装置には、音源管理テーブル220およびユーザ管理テーブル230が格納される。音源管理テーブル220には、各展示物に対応する音声に関する情報が登録される。また、ユーザ管理テーブル230には、各ユーザ401に関する情報が登録される。音源管理テーブル220およびユーザ管理テーブル230は、例えば、音声処理装置200のRAM202(図4参照)に展開されて、音声処理装置の処理ブロックから読み書きされる。
ユーザ位置検出部211は、ユーザ端末400から送信された信号をアクセスポイント110a〜110dを通じて受信し、これらの受信信号を基にユーザ端末400の位置を検出する。ユーザ位置検出部211は、検出したユーザ端末400の位置を、ユーザ位置Qtとして、検出対象のユーザに対応するユーザ管理テーブル230に随時登録する。
音声入力部212は、複数の説明者がそれぞれ備えるマイクロフォンによって収音された音声信号を、音源として受信し、受信した音声信号を音声出力処理部216に供給する。
音源管理テーブル220には、音声入力部212が受信する各音源についての情報が登録される。後述するように、各音源は、展示会場に対応する仮想空間上の任意の位置に配置され、音源管理テーブル220には、仮想空間における各音源の位置情報などが登録される。
計時部213は、現在の時刻を注視判定部214および聴取範囲制御部215に供給する。計時部213からの時刻は、各種の経過時間を求める際に利用される。
注視判定部214は、ユーザ端末400から受信した視線方向ρtに基づいて、ユーザ401が注視状態にあるか否かを判定する。前述のように、注視状態とは、視線方向ρtの動きが静止したと判断される状態である。注視判定部214は、注視状態にあるかの判定結果を聴取範囲制御部215に通知する。また、注視判定部214は、ユーザ端末400から受信した視線方向ρtを、検出対象のユーザ401に対応するユーザ管理テーブル230に随時登録する。
聴取範囲制御部215は、上記の仮想空間においてユーザ401ごとに設定される聴取範囲の大きさを制御する。聴取範囲とは、ユーザ401から見て視線方向ρtを中心とした範囲であり、後述するように、視線方向ρtとのなす角度によって聴取範囲が決定される。そして、仮想空間上に配置された音源のうち、聴取範囲に含まれる音源に対応する音声信号の音量が、聴取範囲に含まれない音源に対応する音声信号の音量より大きくなるように制御される。本実施の形態では例として、仮想空間上に配置された音源のうち、聴取範囲に含まれる音源からの音声のみがユーザ401に提供され、聴取範囲に含まれない音源からの音声はユーザ401に聞こえないように制御される。
聴取範囲制御部215は、注視判定部214によってユーザ401が注視状態にあると判定されると、聴取範囲を所定の最小の大きさになるまで徐々に狭めていく。このような制御により、聴取範囲制御部215は、ユーザ端末400に送信される音声において、ユーザ401が向いている方向に配置された音源からの音声が徐々に聞き取りやすくなるようにする。
音声出力処理部216は、音声入力部212から入力される音声信号のうち、聴取範囲制御部215によって設定された聴取範囲に含まれる音源についての音声信号を選択して合成し、左右1チャネルずつの合成音声信号を生成する。音声出力処理部216は、生成した合成音声信号を、ユーザ端末400に対して送信する。
次に、図7は、仮想空間における音源の配置例を示す図である。
仮想空間320は、ユーザ401や展示物310a〜310jが存在する展示会場を二次元または三次元の座標系によって表した空間である。図7では、仮想空間320をx軸、y軸、z軸による三次元座標系によって表した例を示している。ユーザ位置Qtは、座標(Xt,Yt,Zt)によって表される。また、ユーザ401の視線方向ρtは、例えば、各軸の回りの回転角度を用いて(Rt,Pt,Yt)と表される。
音源P1〜P10は、展示物310a〜310jのそれぞれを説明する説明者の音声を収音した音声信号に対応する。そして、音源P1〜P10は、仮想空間320における展示物310a〜310jのそれぞれの位置に配置される。例えば、音源P1は、展示物310aを説明する説明者の音声信号に対応し、音源P2は、展示物310bを説明する説明者の音声信号に対応する。そして、音源P1は、展示物310aの位置に仮想的に配置され、音源P2は、展示物310bの位置に仮想的に配置される。なお、音源の位置は、例えば、対応する展示物の中心など、対応する展示物を代表する位置に配置される。
仮想空間320における音源P1〜P10のそれぞれの位置は、音源管理テーブル220に設定される。音声処理装置200の管理者は、音声処理装置200への入力操作により、各音源の位置を任意に設定することができる。
なお、図7では、仮想空間320における音源Pn(nは1以上の整数)の位置を示す座標を(Xn,Yn,Zn)と表記している。
また、本実施の形態では、展示物の説明者が発する音声を音源とするが、音源は、例えば、あらかじめ記憶装置に格納された音声信号に基づく再生音声であってもよい。この場合、例えば、音声処理装置200のHDD203に、音源として使用する音声信号が格納され、音声入力部212は、HDD203から読み出した音声信号を音声出力処理部216に供給する。
図8は、音源管理テーブルに登録される情報の例を示す図である。
音源管理テーブル220には、仮想空間に配置された音源ごとに、各音源を一意に識別するための音源IDと、仮想空間において音源が配置された位置を示す音源座標とが、対応付けて登録されている。音声処理装置200の管理者は、音源管理テーブル220に対して新たな音源の情報を追加する、音源座標を変更する、音源管理テーブル220から音源の情報を削除する、といった操作を行うことができる。
なお、図8では例として、音源IDが示す音源に対応付けられた展示物を一意に識別するための展示物IDが登録されている。音声処理装置200の管理者は、例えば、1つの展示物に対して複数の音源を対応付ける、あるいは、複数の展示物に対して1つの音源を対応付けることも可能である。
次に、図9は、注視状態の判定方法の例について説明するための図である。
前述のように、注視状態とは、ユーザ401の視線方向ρtの動きが静止したと判断される状態である。ただし、ユーザ401が特定の位置を注視している状態であっても、実際にはユーザ401の動きが完全に静止することは少ない。この点を鑑みて、音声処理装置200の注視判定部214は、視線方向ρtの値の変動量がある一定の閾値幅Wthに所定時間だけ収まっている場合に、ユーザ401が注視状態になったと判定する。
図9の例では、視線方向ρtの値(図9では角度Rt)の変動量が、時刻t1から、あらかじめ決められた判定時間Taが経過した時刻t2までの期間において、閾値幅Wthに収まっている。この場合、注視判定部214は、時刻t2においてユーザ401が注視状態になったと判定する。また、その後の時刻t3において視線方向ρtの変動量が閾値幅Wthから逸脱すると、注視判定部214は、注視状態が解消されたと判定する。
なお、ユーザ401が注視状態にあるか否かの判定は、実際には、視線方向ρtを示す各軸方向の値(すなわち、Rt,Pt,Yt)の変動量が、すべて閾値幅Wthに収まっているかによって行われる。
次に、図10は、聴取範囲について説明するための図である。この図10では例として、二次元の仮想空間における聴取範囲の例を示す。
聴取範囲は、ユーザ位置Qtを中心として設定される。図10のように仮想空間が二次元座標によって定義される場合、聴取範囲は、聴取範囲の境界が、水平面(x−y平面)においてユーザ401の視線方向ρtとなす角度θtによって定義される。ここで言う境界とは、2次元空間の場合、ユーザ位置Qtから放射状に延びる2本の直線である。そして、一方の境界線と視線方向ρtとの間の範囲と、他方の境界線と視線方向ρtとの間の範囲とが、聴取範囲となる。
図10(A)の例では、聴取範囲は、ユーザ位置Qtを中心として、視線方向ρtから右回り方向および左回り方向に対してそれぞれθ1度の範囲を指す。聴取範囲の角度θtの最大値は180度であり、本実施の形態では、聴取範囲の角度θtの初期値は、最大値である180度であるものとする。また、聴取範囲の角度θtの最小値は、0度より大きい所定の角度に設定される。
ここで、図10に示すように、仮想空間において、ユーザ401の周囲の所定位置に音源P1〜P4,P9が配置されているものとする。音声処理装置200は、ユーザ位置Qtから見て聴取範囲に含まれる音源の音声信号を合成して、合成音声信号をユーザ端末400に送信する。
図10(A)の例では、音源P1〜P4,P9が聴取範囲に含まれているので、音声処理装置200は、音源P1〜P4,P9のそれぞれの音声信号を合成して、合成音声信号をユーザ端末400に送信する。一方、図10(B)の例では、聴取範囲の角度θtは、θ1より小さいθ2に設定されており、図10(A)の場合より聴取範囲が狭められている。このとき、音源P1〜P3は聴取範囲に含まれているものの、音源P4,P9は聴取範囲に含まれていない。この状態では、音声処理装置200は、音源P1〜P3のそれぞれの音声信号を合成して、合成音声信号をユーザ端末400に送信する。従って、ユーザ401には音源P4,P9の各音声は聞こえない。
聴取範囲の角度θtが狭められることで、ユーザ401には視線方向ρtの近くに配置された音源の音声のみが聞こえるようになる。これによりユーザ401は、自分が向いている方向から発せられる音声を容易に聞き取ることができるようになる。
なお、音声処理装置200は、聴取範囲に含まれる各音源の音像を、ユーザ位置Qtと各音源の位置との相対関係に基づいて、視線方向ρtを基準とした左右方向の対応する位置に定位させる。図10の例では、音声処理装置200は、音源P1の音声信号について、右チャネルの音量より左チャネルの音量を大きくし、音源P3の音声信号について、左チャネルの音量より右チャネルの音量を大きくする。
なお、本実施の形態では、音声処理装置200は、聴取範囲に含まれない音源に対応する音声信号を、合成音声信号に合成しない。しかしながら、音声処理装置200は、聴取範囲に含まれない音源に対応する音声信号についても、聴取範囲に含まれている音源に対応する音声信号より音量を低くして、合成音声信号に合成してもよい。
次に、図11および図12を用いて、視線方向ρtの動きと聴取範囲の角度との関係について説明する。まず、図11は、二次元の仮想空間における聴取範囲の変化について説明するための図である。
音声処理装置200は、ユーザ401の視線方向ρtの動きが静止していない状態(非注視状態)では、聴取範囲の角度θtを、最大値θmax(=180度)に設定する。この状態では、ユーザ401には、周囲に配置されたすべての音源の音声が聞こえる。そして、音声処理装置200は、視線方向ρtの動きが静止した「注視状態」になったと判定すると、聴取範囲の角度θtを狭くする。このとき、音声処理装置200は、聴取範囲の角度θtをすぐに最小値θminに変更するのではなく、時間経過に従って徐々に狭くしていく。図11の例では、注視状態に遷移した後、聴取範囲の角度θtはθmaxからθ1,θ2,θminのように徐々に狭められている。
このように、ユーザ401が注視状態になると、聴取範囲の角度θtが狭められていき、ユーザ401の周囲に配置された音源のうち、ユーザ401に聞こえる音源の音声の数が減っていく。そして、最終的には、ユーザ401が向いている方向の周囲のみの狭い範囲、すなわち角度θminが設定された聴取範囲に含まれる音源の音声のみが、ユーザ401に聞こえるようになる。また、聴取範囲が徐々に狭められることで、ユーザ401は、自分が向いている方向から発せられる音声を自然な感覚で聞き取ることができる。
図12は、三次元の仮想空間における聴取範囲の変化について説明するための図である。
仮想空間が三次元座標系によって定義される場合には、聴取範囲は、聴取範囲の境界が、水平方向において視線方向ρtとなす角度θtと、鉛直方向において視線方向ρtとなす角度φtとによって定義される。音声処理装置200は、視線方向ρtの動きが静止していない状態(非注視状態)では、聴取範囲の水平方向の角度θtを最大値θmax(=180度)に設定するとともに、聴取範囲の鉛直方向の角度φtを最大値φmax(=180度)に設定する。この状態では、ユーザ401には、周囲に配置されたすべての音源の音声が聞こえる。
そして、音声処理装置200は、視線方向ρtの動きが静止した「注視状態」になったと判定すると、聴取範囲の角度θt,φtをともに徐々に狭くしていく。図12の例では、注視状態に遷移した後、聴取範囲の水平方向の角度θtはθmaxからθ1,θ2,θminのように徐々に狭められていき、聴取範囲の鉛直方向の角度φtはφmaxからφ1,φ2,φminのように徐々に狭められていく。
次に、図13および図14を用いて、聴取範囲を変化させる方法の例について説明する。図13は、聴取範囲を変化させる方法の第1の例を示す図である。
図13の例では、時刻tdから、判定時間Taが経過した時刻t0までの期間において、ユーザ401の視線方向ρtの変動量が所定の閾値幅Wthに収まっている。この場合、注視判定部214は、時刻t0において、ユーザ401が注視状態になったと判定する。聴取範囲制御部215は、時刻t0を起点として、次の式(1)に従って聴取範囲の角度θtを減少させる。
θt=(θmax−θmin)/{1+EXP[((ts−t0)−(Tf/2))×a]}+θmin ・・・(1)
なお、式(1)において、tsは現在時刻を示す。また、Tfは、図13に示すように、聴取範囲の角度θtが最大値θmaxから最小値θminになるまでの時間を示し、例えば、音声処理装置200の管理者によって任意に設定可能である。また、aは、任意に設定可能な定数であり、例えばa=12/Tfに設定される。
また、図13の例では、注視判定部214は、ユーザ401が注視状態になった後、時刻t0’において注視状態が解消したと判定する。聴取範囲制御部215は、時刻t0’を起点として、次の式(2)に従って聴取範囲の角度θtを増加させる。
θt=(θmax−θmin)/{1+EXP[−((ts−t0’)−(Tf’/2))×a]}+θmin ・・・(2)
なお、式(2)において、Tf’は、図13に示すように、聴取範囲の角度θtが最小値θminから最大値θmaxになるまでの時間を示す。Tf’は、音声処理装置200の管理者によって任意に設定可能であり、例えばTfと同じ値に設定される。
図14は、聴取範囲を変化させる方法の第2の例を示す図である。
図14の例でも、図13の例と同様に、時刻tdから、判定時間Taが経過した時刻t0までの期間において、ユーザ401の視線方向ρtの変動量が所定の閾値幅Wthに収まっている。注視判定部214は、時刻t0において、ユーザ401が注視状態になったと判定する。聴取範囲制御部215は、時刻t0を起点として、次の式(3)に従って聴取範囲の角度θtを減少させる。
θt={b[(ts-t0)-Tf/2]}+θmin ・・・(3)
なお、式(3)において、bは任意に設定可能な定数である。
また、時刻t0’において、注視判定部214が、注視状態が解消したと判定すると、聴取範囲制御部215は、時刻t0’を起点として、次の式(4)に従って聴取範囲の角度θtを増加させる。
θt={c×log[(ts−t0’)+d]+θmin ・・・(4)
なお、式(4)において、c,dは任意に設定可能な定数である。
また、以上の図13および図14では聴取範囲の角度θtについて説明したが、聴取範囲の角度φtについても、上記の式(1)および式(2)、または、式(3)および式(4)に従って制御することができる。
図15は、聴取範囲の角度が最小値になる前に注視状態が解消された場合の制御例を示す図である。
時刻t0において、注視判定部214が、注視状態になったと判定すると、聴取範囲制御部215は、聴取範囲の角度θtを徐々に減少させる。ところが、時刻t0から時間Tfが経過していない、すなわち聴取範囲の角度θtが最小値θminまで減少していない時刻t11において、注視判定部214が、注視状態が解消されたと判定したとする。この場合、聴取範囲制御部215は、例えば、聴取範囲の角度θtを、最大値θmaxに達するまで徐々に増加させる。
図16は、聴取範囲の角度が最大値になる前に再度注視状態になった場合の制御例を示す図である。
時刻t0’において、注視判定部214が、注視状態が解消されたと判定すると、聴取範囲制御部215は、例えば、聴取範囲の角度θtを徐々に増加させる。ところが、時刻t0’から時間Tf’が経過していない、すなわち聴取範囲の角度θtが最小値θmaxに達していない時刻t12において、注視判定部214が、再度注視状態になったと判定したとする。この場合、聴取範囲制御部215は、聴取範囲の角度θtを、最小値θminになるまで徐々に減少させる。
なお、以上の図13〜図16の例では、聴取範囲制御部215は、注視状態が解消された場合に、聴取範囲を時間経過に従って徐々に広げていくようにした。しかしながら、聴取範囲制御部215は、例えば、注視状態が解消された場合には、聴取範囲を即座に最大値θmaxに設定してもよい。あるいは、聴取範囲制御部215は、注視状態が解消された場合に、視線方向ρtの変動の度合いに応じて、聴取範囲の角度θtを増加させる速度を調整してもよい。
図17は、聴取範囲に含まれる各音源の音量制御の例を示す図である。
音声処理装置200の音声出力処理部216は、聴取範囲に含まれる複数の音源に対応する音声信号を合成する際に、例えば、ユーザ401から見て聴取範囲の中心に近い位置に配置された音源ほど、対応する音声信号の音量を大きくしてもよい。これにより、ユーザ401には、自分が向いている方向に近くにある音源ほど、大きな音で音声が聞こえるようになり、聞こえ方が自然になる。
音量の制御方法としては、例えば、次のような方法を用いることができる。
聴取範囲の角度θtの範囲は、あらかじめ複数の範囲に区分される。そして、区分された範囲ごとに、範囲内に存在する音源に対応する音声信号に対して乗算するゲインの値が設定される。ゲインの値は、聴取範囲の中心に近いほど大きく設定される。
図17の例では、聴取範囲の中心(角度が0度)から角度θmax(=180度)までの範囲が、5つの範囲に区分されている。そして、聴取範囲の中心から角度θminまでの範囲には、ゲイン「1」が設定される。聴取範囲の角度θminから次の角度θ1分の範囲にはゲイン「0.8」が設定され、次の角度θ2分の範囲にはゲイン「0.6」が設定され、次のθ3分の範囲にはゲイン「0.4」が設定され、次の角度θ4分の範囲、すなわち角度θmaxまでの範囲にはゲイン「0.2」が設定される。
音声出力処理部216は、合成音声信号を生成する際に、各音源が上記の区分範囲のうちのどの範囲に存在するかを判定し、判定した範囲に対応するゲインを音源の音声信号のレベルに乗算し、ゲイン調整後の音声信号を合成する。
なお、図17の例では、聴取範囲の角度に対して固定的にゲインを設定したが、例えば、聴取範囲の大きさの変化に応じて設定されるゲインが変化してもよい。この場合の例として、次のような制御方法を用いることができる。
聴取範囲の中心(角度が0度)から、聴取範囲制御部215によって現在設定されている角度θtまでの範囲が、割合に応じて区分され、区分された範囲ごとにゲインが設定される。ただし、ユーザ401が所望する音源の位置はユーザ401の視線方向ρtと完全に重なるとは限らないため、ゲイン「1」を設定する範囲は一定の大きさに維持されることが望ましい。
そこで、例えば、聴取範囲における0度から角度θminまでの固定的な範囲に、ゲイン「1」が設定される。そして、聴取範囲における0度から角度θtまでの範囲のうち、角度θminから次のθ1/θtの範囲にはゲイン「0.8」が設定され、次のθ2/θtの範囲にはゲイン「0.6」が設定され、次のθ3/θtの範囲にはゲイン「0.4」が設定され、次のθ4/θtの範囲にはゲイン「0.2」が設定される。このようにゲインを割り当てると、ユーザ401から見て同じ方向に配置された音源(ただし、中心からθminの範囲に配置された音源を除く)の音量は、聴取範囲が狭くなるのに連れて徐々に小さくなる。従って、ユーザ401にとって自然な感覚で、所望の音源の音声が強調されるようになる。
なお、上記のような音源に対するゲイン制御方法は、例えば、注視判定部214によって注視状態であると判定されている期間にのみ使用されてもよい。具体的には、注視状態でないと判定されている期間では、音声出力処理部216は、聴取範囲に含まれるすべての音源に対応する音声信号を、同じ音量比で(すなわち、すべてにゲイン「1」を乗算して)合成する。この状態では、ユーザ401には聴取範囲に含まれるすべての音源に対応する音声が均等に聞こえるが、ユーザ401は聞き取りたい音源をまだ特定していないと考えられるので、特に不自然にはならない。
そして、注視状態になったと判定されると、音声出力処理部216は、上記のように、聴取範囲に含まれる音源に対応する音声信号の音量を、聴取範囲の中心に近い音源ほど大きくするように制御する。ユーザ401は、注視状態になった時点で、視線方向ρtに近接する音源に対応する音声を少し聞き取りやすくなる。そして、さらに聴取範囲が徐々に縮小されることで、ユーザ401には、視線方向ρtに近接する音源に対応する音声がより明瞭に聞こえるようになる。
次に、図18は、ユーザ管理テーブルに登録される情報の例を示す図である。
ユーザ管理テーブル230には、ユーザ401ごとにレコードが登録される。各レコードには、ユーザ401を識別するユーザIDに対応付けて、ユーザ座標、視線方向、静止時間、注視フラグ、有効音源ID、聴取範囲角度および非注視時間が登録される。
ユーザ座標は、前述のユーザ位置Qtを示す、仮想空間上の座標であり、ユーザ位置検出部211によって随時更新される。
視線方向は、前述の視線方向ρtに対応し、ここでは例として、各軸のまわりの回転角度(Rt,Pt,Yt)で表される。視線方向は、注視判定部214によって随時更新される。
静止時間は、注視判定部214が、視線方向ρtが閾値幅Wth(図9参照)に収まっていると判断している時間である。例えば、静止時間は、図9における時刻t1からの経過時間であり、図12〜図14における時刻tdからの経過時間である。静止時間は、注視判定部214によって設定される。また、本実施の形態では、静止時間は1秒単位で登録されるものとする。
なお、静止時間は、聴取範囲の角度θt,φtを減少させる際に聴取範囲制御部215によって参照される。ここで、注視判定部214が注視状態になったと判定してからの経過時間(式(1)および式(3)における(ts−t0))は、静止時間から判定時間Ta(図9、図12〜図14参照)を減算した値となる。
注視フラグは、注視状態であるか否かを示すフラグ情報であり、注視状態であるとき「1」に設定され、注視状態でないとき「0」に設定される。注視フラグは、注視判定部214によって設定される。
有効音源IDは、聴取範囲に含まれている音源を示す音源IDであり、聴取範囲制御部215によって設定される。なお、聴取範囲にいずれの音源も含まれていない場合、有効音源IDには「0」が設定される。
聴取範囲角度は、前述の聴取範囲の角度θt,φtであり、聴取範囲制御部215によって設定される。
非注視時間は、注視状態が解消されてからの経過時間を示す。例えば、非注視時間は、図13,図14における時刻t’0からの経過時間である。非注視時間は、注視判定部214によって設定され、聴取範囲の角度θt,φtを増加させる際に聴取範囲制御部215によって参照される。
次に、図19は、注視判定部の処理手順の例を示すフローチャートである。図19の処理は、ユーザ401ごとに実行される。また、注視判定部214は、図19の処理の開始時に、ユーザ管理テーブル230に対して、初期値として静止時間「0」、非注視時間「0」、注視フラグ「0」を設定する。
[ステップS11]注視判定部214は、ユーザ端末400から受信した視線方向ρtの検出結果を1秒分取り込む。なお、視線方向ρtの検出結果は、1秒間に複数回、ユーザ端末400から送信されるものとする。また、注視判定部214は、視線方向ρtの検出結果を受信するたびに、受信した値をユーザ管理テーブル230の視線方向の欄に登録する。
[ステップS12]注視判定部214は、取り込んだ1秒分の視線方向ρtの各軸についての変動量が、すべて閾値幅Wthに収まっているかを判定する。注視判定部214は、変動量が閾値幅Wthに収まっている場合には、ステップS13の処理を実行する。一方、注視判定部214は、各軸について変動量のうち少なくとも1つが閾値幅Wthに収まっていない場合には、ステップS21の処理を実行する。
[ステップS13]注視判定部214は、ユーザ管理テーブル230における静止時間の値を「1」だけインクリメントする。
[ステップS14]注視判定部214は、ユーザ端末400から受信した視線方向ρtの検出結果を1秒分取り込む。なお、ステップS11と同様に、注視判定部214は、視線方向ρtの検出結果を受信するたびに、受信した値をユーザ管理テーブル230の視線方向の欄に登録する。
[ステップS15]注視判定部214は、ステップS12で「Yes」と判定してから現在までの期間における視線方向ρtの各軸についての変動量が、すべて閾値幅Wthに収まっているかを判定する。注視判定部214は、変動量が閾値幅Wthに収まっている場合には、ステップS16の処理を実行する。一方、注視判定部214は、各軸について変動量のうち少なくとも1つが閾値幅Wthに収まっていない場合には、ステップS20の処理を実行する。
[ステップS16]注視判定部214は、ユーザ管理テーブル230における静止時間の値を「1」だけインクリメントする。
[ステップS17]注視判定部214は、ステップS12で「Yes」と判定してからの経過時間が、判定時間Taに達したかを判定する。ここで言う経過時間は、ユーザ管理テーブル230の静止時間の欄に登録された秒数である。注視判定部214は、経過時間が判定時間Taに達した場合には、ステップS19の処理を実行する。一方、注視判定部214は、経過時間が判定時間Taに達していない場合、ステップS18の処理を実行する。
[ステップS18]ステップS17で「No」と判定された状態とは、ユーザ401が注視状態になっていない状態(非注視状態)である。この場合、注視判定部214は、ユーザ管理テーブル230における非注視時間の値を「1」だけインクリメントする。この後、ステップS14の処理が実行される。
[ステップS19]ステップS17で「Yes」と判定された状態とは、ユーザ401が注視状態になったと判断される状態である。この場合、注視判定部214は、ユーザ管理テーブル230における注視フラグの値を「1」に更新するとともに、非注視時間の値を「0」にリセットする。この後、ステップS14の処理が実行される。
[ステップS20]ステップS15で「No」と判定された状態とは、ユーザ401の向きの動きが大きくなった状態である。この場合、注視判定部214は、ユーザ管理テーブル230における静止時間の値を「0」にリセットする。また、注視判定部214は、ユーザ管理テーブル230における注視フラグの値が「1」である場合には、この値を「0」に更新する。この後、ステップS21の処理が実行される。
[ステップS21]注視判定部214は、ユーザ管理テーブル230における非注視時間の値を「1」だけインクリメントする。この後、ステップS11の処理が実行される。
図20,図21は、聴取範囲制御部および音声出力処理部の処理手順の例を示すフローチャートである。図20,図21の処理は、ユーザ401ごとに実行される。また、例えば、図20のステップS31の処理が1音声フレーム分の周期で実行されるように制御される。
[ステップS31]聴取範囲制御部215は、ユーザ管理テーブル230における注視フラグの値をチェックする。聴取範囲制御部215は、注視フラグの値が「1」の場合には、ステップS32の処理を実行する。一方、聴取範囲制御部215は、注視フラグの値が「0」の場合には、図21のステップS51の処理を実行する。
[ステップS32]聴取範囲制御部215は、ユーザ管理テーブル230における静止時間の欄に登録された値に基づき、注視判定部214によって注視状態になったと判定されてからの経過時間を計算する。そして、聴取範囲制御部215は、経過時間が時間Tf未満かを判定する。聴取範囲制御部215は、経過時間が時間Tf未満である場合には、ステップS33の処理を実行する。一方、聴取範囲制御部215は、経過時間が時間Tf以上である場合には、ステップS34の処理を実行する。
[ステップS33]ステップS32で「Yes」と判定される状態とは、聴取範囲の角度θt,φtを徐々に減少させている途中の状態である。この場合、聴取範囲制御部215は、ステップS32で算出した経過時間に応じて、前述の式(1)または式(3)に従って、聴取範囲の角度θt,φtを計算する。聴取範囲制御部215は、算出した角度θt,φtを、ユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[ステップS34]聴取範囲制御部215は、聴取範囲の角度θt,φtを所定の最小値に決定し、決定した値をユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[ステップS35]聴取範囲制御部215は、ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、聴取範囲角度の値によって設定される聴取範囲に含まれる音源をチェックする。
[ステップS36]聴取範囲制御部215は、聴取範囲に音源が1つ以上含まれているかを判定する。聴取範囲制御部215は、聴取範囲に音源が1つ以上含まれている場合には、ステップS38の処理を実行する。一方、聴取範囲制御部215は、聴取範囲に音源が1つも含まれていない場合には、ステップS37の処理を実行する。
[ステップS37]聴取範囲制御部215は、ユーザ管理テーブル230における聴取範囲角度の欄に登録された角度θt,φtを、それぞれ1段階大きくして補正する。この後、ステップS35の処理が実行される。
[ステップS38]聴取範囲制御部215は、聴取範囲に含まれている音源の音源IDを、ユーザ管理テーブル230における有効音源IDの欄に登録する。
[ステップS39]音声出力処理部216は、ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、ユーザ管理テーブル230における有効音源IDの欄に登録された各音源について、合成音声信号に合成する際のゲインを決定する。
例えば、音声出力処理部216は、図17で説明した処理手順に従って、聴取範囲の中心に近い音源ほど、対応する音声信号のゲインを大きく設定する。また、音声出力処理部216は、ユーザ位置Qtと音源の位置とを結ぶ直線と、視線方向ρtとのなす角度、および、聴取範囲の中心に対して音源が左右どちらに配置されているかに応じて、左チャネルおよび右チャネルのそれぞれにおける音量バランスを調整して、音源の音像を左右方向のいずれかの位置に定位させる。
[ステップS40]音声出力処理部216は、ステップS39で決定したゲインを適用して、合成音声信号を生成し、ユーザ端末400に送信する。この後、ステップS31に戻る。
[ステップS51]聴取範囲制御部215は、ユーザ管理テーブル230における非注視時間の欄に登録された値に基づき、注視判定部214によって注視状態が解消されたと判定されてからの経過時間を計算する。そして、聴取範囲制御部215は、経過時間が時間Tf’未満かを判定する。聴取範囲制御部215は、経過時間が時間Tf’未満である場合には、ステップS52の処理を実行する。一方、聴取範囲制御部215は、経過時間が時間Tf’以上である場合には、ステップS53の処理を実行する。
[ステップS52]ステップS51で「Yes」と判定される状態とは、聴取範囲の角度θt,φtを徐々に増加させている途中の状態である。この場合、聴取範囲制御部215は、ステップS51で算出した経過時間に応じて、前述の式(2)または式(4)に従って、聴取範囲の角度θt,φtを計算する。聴取範囲制御部215は、算出した角度θt,φtを、ユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[ステップS53]聴取範囲制御部215は、聴取範囲の角度θt,φtを所定の最大値に決定し、決定した値をユーザ管理テーブル230における聴取範囲角度の欄に登録する。
なお、聴取範囲制御部215は、上記のステップS51の判定を行わずに、無条件でステップS53の処理を実行してもよい。
[ステップS54]ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、聴取範囲角度の値によって設定される聴取範囲に含まれる音源をチェックする。聴取範囲制御部215は、聴取範囲に含まれている音源の音源IDを、ユーザ管理テーブル230における有効音源IDの欄に登録する。この後、ステップS39の処理が実行される。
以上の図20,図21によれば、注視判定部214によって注視状態になったと判定されると、聴取範囲が徐々に縮小されていき、聴取範囲の中心付近の音源に対応する音声が徐々に強調されてユーザ401に聞こえるようになる。従って、ユーザ401は、自分が向いている方向に配置された音源に対応する音声を容易に聞き分けることができる。
また、上記の図20のステップS36,S37では、聴取範囲制御部215は、注視状態になっているとき、聴取範囲内に必ず音源が存在するように聴取範囲の角度を調整する。ここで、図22は、注視状態にあるユーザが展示物に近づいたときの様子を示す図である。
図22における状態1では、ユーザ401は展示物310aに向いた状態で注視状態になっている。ユーザ位置Qtと展示物310aとの距離はd1であり、聴取範囲の角度θtは角度θ1である。そして、聴取範囲には、展示物310aに対応する音源P1が含まれる。このためユーザ401は、音源P1に対応する音声を、ヘッドフォン500を通じて聞くことができる。
ここで、状態2に示すように、注視状態が維持されたままユーザ401が展示物310aに近づいたものとする。このとき、ユーザ位置Qtと展示物310aとの距離はd2になったとする。聴取範囲の角度θtが角度θ1のままであった場合、状態2のように、展示物310aに対応する音源P1が、聴取範囲に含まれなくなってしまう可能性がある。この場合、ユーザ401は、音源P1に対応する音声を聞くことができない。
上記の図20のステップS36,S37によれば、聴取範囲を縮小したときに、聴取範囲に音源が1つも含まれなくなる場合には、音源が少なくとも1つ含まれるようになるまで聴取範囲が拡大される。このような処理により、図22の状態2のように、ユーザ401が展示物310aに近づくことで対応する音声を聞けなくなってしまうという事態を回避できる。
また、他の方法として、聴取範囲制御部215は、ユーザ位置Qtと展示物との距離を検出し、距離が近くなるほど聴取範囲の角度を大きくするように補正してもよい。この方法により、例えば図20の状態3に示すように、ユーザ位置Qtと展示物310aとの距離がd2まで近づいたときでも、聴取範囲に音源P1が含まれる可能性が高くなる。
ユーザ位置Qtと展示物との距離に応じて聴取範囲の角度を補正する方法は、次のような制御によって実現可能である。音声処理装置200の記憶装置には、次の図23に示すような展示物管理テーブルが格納される。
図23は、展示物管理テーブルに登録される情報の例を示す図である。
展示物管理テーブル240には、展示物ごとにレコードが登録され、各レコードには、展示物を識別するための展示物IDに対して、展示物が配置された領域を示す情報が登録される。図23の例では、展示物の配置領域を示す情報として、頂点数および頂点座標が登録されている。頂点数は、展示物の周縁部に存在する頂点の数を示す。頂点座標は、仮想空間における各頂点の座標を示す。
図24は、聴取範囲制御部および音声出力処理部の処理手順の変形例を示すフローチャートである。この図24では、図20と同じ処理が実行される処理ステップには同じ符号を付して示しており、これらの処理ステップについての説明を省略する。
図24に示す処理では、図20におけるステップS35〜S37の代わりに、ステップS61,S62が実行される。
[ステップS61]聴取範囲制御部215は、聴取範囲に含まれる音源に対応付けられた展示物との距離を計算する。具体的には、聴取範囲制御部215は、音源管理テーブル220を参照して、聴取範囲に含まれる音源に対応する展示物を特定する。聴取範囲制御部215は、特定した各展示物について、展示物管理テーブル240から頂点数および頂点座標を読み込み、各頂点とユーザ位置Qtとの距離を計算する。聴取範囲制御部215は、特定したすべての展示物についてのすべての頂点と、ユーザ位置Qtとの距離の算出結果のうち、最も小さい算出結果を、展示物との距離とする。
[ステップS62]聴取範囲制御部215は、算出された展示物との距離に応じて、ユーザ管理テーブル230の聴取範囲角度に登録された角度θt,φtを補正する。例えば、聴取範囲制御部215は、登録された角度θt,φtに、展示物との距離に応じた補正係数を乗じることで補正を行う。聴取範囲制御部215は、例えば、展示物との距離が所定の下限値以上である場合には、補正係数を「1」とする。そして、聴取範囲制御部215は、展示物との距離が下限値未満である場合には、距離が短くなるほど補正係数を「1」より小さく設定する。
以上のステップS61,S62の処理により、ユーザ401が展示物に近づくほど聴取範囲が拡大されるため、ユーザ401が向かった先にある展示物に対応する音声をユーザ401が聞けなくなる、という事態が発生しにくくなる。
なお、以上の図24の処理では、ユーザ位置Qtと展示物との距離に応じて聴取範囲の角度を補正したが、他の例として、ユーザ位置Qtと音源の位置との距離に応じて聴取範囲の角度を補正してもよい。
〔第3の実施の形態〕
図25は、第3の実施の形態に係る音声提供システムの構成例を示す図である。なお、図25では、図3に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。以下、第3の実施の形態と第2の実施の形態との相違点について説明する。
第3の実施の形態に係る音声提供システムでは、ユーザ401は、ヘッドフォン500から音声を聞く代わりに、展示会場内に設置された複数のスピーカから出力される音声を聞く。従って、ユーザ401はヘッドフォン500を装着する必要はなく、方向センサ510とユーザ端末400aのみを装着する。ユーザ端末400aは、方向センサ510による検出結果を、音声処理装置200aに対して無線送信する。
なお、図25では例として4つのスピーカ330a〜330dが設けられている。ユーザ401の左右方向および前後方向に音像を定位させるためには、スピーカは少なくとも3つ以上設けられる。
図26は、第3の実施の形態におけるユーザ端末および音声処理装置の処理機能の例を示すブロック図である。なお、図26では、図6に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。
ユーザ端末400aは、視線方向検出部421を備えるが、図6の再生処理部422を備えていない。
音声処理装置200aは、次の点で図6の音声処理装置200と異なる。
音声入力部212には、記憶装置250にあらかじめ格納された複数の音声信号251が入力される。複数の音声信号251は、それぞれ展示物に対応付けられた音源であり、音声入力部212は、音声信号251を記憶装置250から読み出して音声出力処理部216に供給する。記憶装置250は、音声処理装置200aの外部に設置された装置であってもよいし、あるいは記憶装置250の内部の装置(例えばHDD203)であってもよい。
また、音声出力処理部216は、合成音声信号を、ユーザ端末でなく、スピーカ330a〜330dに出力する。音声出力処理部216は、仮想空間における各音源の位置とユーザ位置Qtとから、各音源に対応する音声信号251の出力チャネルごとの音量バランスを決定して、各音源の音像を空間上に定位させる。その上で、音声出力処理部216は、第2の実施の形態と同様の手順で、聴取範囲に含まれる音源に対応する音声信号251の音量を制御する。
以上の第3の実施の形態によれば、ユーザ401は、第2の実施の形態と同様に、自然な動作で所望の展示物に対応する音声を容易に聞き分けることができる。
〔第4の実施の形態〕
図27は、第4の実施の形態に係る音声提供システムの構成例を示す図である。なお、図27では、図25に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。以下、第4の実施の形態と第3の実施の形態との相違点について説明する。
第4の実施の形態に係る音声提供システムでは、ユーザ401は、展示会場内に設置された複数のスピーカから出力される音声を聞く。ただし、第4の実施の形態では、第3の実施の形態とは異なり、各スピーカは展示物に対応付けられ、対応する展示物に近接した位置に設置される。図27の例では、スピーカ340a〜340cは、それぞれ展示物310a〜310cに近接する位置に設定されている。
音声処理装置200bは、基本的には第3の実施の形態の音声処理装置200aと同様の処理機能を備えるが、次の点で第3の実施の形態の音声処理装置200aと異なる。音声処理装置200bの音声出力処理部216は、それぞれ展示物に対応付けられたスピーカに音声信号を出力する。ここで、各展示物に音源が1つずつ対応付けられている場合、音声処理装置200bの音声出力処理部216は、1つのスピーカへの出力チャネルに1つの音源に対応する音声信号を出力すればよく、出力チャネルごとの音量調整によって音像を定位させる必要がない。従って、音声出力処理部216は単に、第2の実施の形態と同様の手順で、聴取範囲に含まれる音源に対応する音声信号251の音量を制御すればよい。
以上の第4の実施の形態によれば、ユーザ401は、第2,第3の実施の形態と同様に、自然な動作で所望の展示物に対応する音声を容易に聞き分けることができる。
なお、上記の各実施の形態に示した音声処理装置の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM、CD−R/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上の各実施の形態に関し、さらに以下の付記を開示する。
(付記1) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置において、
前記聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する状態判定部と、
前記聴取者から見て前記聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御する出力制御部であって、前記静止状態になったと判定されたとき、前記聴取範囲を縮小する出力制御部と、
を有することを特徴とする音声処理装置。
(付記2) 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記1記載の音声処理装置。
(付記3) 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記1または2記載の音声処理装置。
(付記4) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する距離検出部をさらに有し、
前記出力制御部は、前記聴取範囲を縮小する際に、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記1または2記載の音声処理装置。
(付記5) 前記出力制御部は、前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記1〜4のいずれか1項に記載の音声処理装置。
(付記6) 前記状態判定部は、前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記1〜5のいずれか1項に記載の音声処理装置。
(付記7) 前記出力制御部は、前記複数の仮想音源のそれぞれに対応する音声信号を合成して所定チャネル数の合成音声信号を生成し、前記合成音声信号を所定の音声出力機器に送信することを特徴とする付記1〜6のいずれか1項に記載の音声処理装置。
(付記8) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置における音声処理方法であって、
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
ことを特徴とする音声処理方法。
(付記9) 前記静止状態になったと判定したとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記8記載の音声処理方法。
(付記10) 前記静止状態になったと判定したとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記8または9記載の音声処理方法。
(付記11) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する処理をさらに含み、
前記聴取範囲を縮小する処理では、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記8または9記載の音声処理方法。
(付記12) 前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記8〜11のいずれか1項に記載の音声処理方法。
(付記13) 前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記8〜12のいずれか1項に記載の音声処理方法。
(付記14) 前記複数の仮想音源のそれぞれに対応する音声信号を合成して所定チャネル数の合成音声信号を生成し、前記合成音声信号を所定の音声出力機器に送信する処理をさらに含むことを特徴とする付記8〜13のいずれか1項に記載の音声処理方法。
(付記15) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御するための音声処理プログラムにおいて、
コンピュータに、
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
処理を実行させることを特徴とする音声処理プログラム。
(付記16) 前記静止状態になったと判定したとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記15記載の音声処理プログラム。
(付記17) 前記静止状態になったと判定したとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記15または16記載の音声処理プログラム。
(付記18) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する処理を、前記コンピュータにさらに実行させ、
前記聴取範囲を縮小する処理では、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記15または16記載の音声処理プログラム。
(付記19) 前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記15〜18のいずれか1項に記載の音声処理プログラム。
(付記20) 前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記15〜19のいずれか1項に記載の音声処理プログラム。
1 音声処理装置
2 音源位置情報
3 状態判定部
4 出力制御部
10 聴取者
21〜25 仮想音源
30 聴取範囲

Claims (9)

  1. 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置において、
    前記聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する状態判定部と、
    前記聴取者から見て前記聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御する出力制御部であって、前記静止状態になったと判定されたとき、前記聴取範囲を縮小する出力制御部と、
    を有することを特徴とする音声処理装置。
  2. 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする請求項1記載の音声処理装置。
  3. 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする請求項1または2記載の音声処理装置。
  4. 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する距離検出部をさらに有し、
    前記出力制御部は、前記聴取範囲を縮小する際に、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
    ことを特徴とする請求項1または2記載の音声処理装置。
  5. 前記出力制御部は、前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする請求項1〜4のいずれか1項に記載の音声処理装置。
  6. 前記状態判定部は、前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする請求項1〜5のいずれか1項に記載の音声処理装置。
  7. 前記出力制御部は、前記複数の仮想音源のそれぞれに対応する音声信号を合成して所定チャネル数の合成音声信号を生成し、前記合成音声信号を所定の音声出力機器に送信することを特徴とする請求項1〜6のいずれか1項に記載の音声処理装置。
  8. 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置における音声処理方法であって、
    前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
    前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
    ことを特徴とする音声処理方法。
  9. 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御するための音声処理プログラムにおいて、
    コンピュータに、
    前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
    前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
    処理を実行させることを特徴とする音声処理プログラム。
JP2012093421A 2012-04-16 2012-04-16 音声処理装置、音声処理方法および音声処理プログラム Expired - Fee Related JP5929455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012093421A JP5929455B2 (ja) 2012-04-16 2012-04-16 音声処理装置、音声処理方法および音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012093421A JP5929455B2 (ja) 2012-04-16 2012-04-16 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2013223098A true JP2013223098A (ja) 2013-10-28
JP5929455B2 JP5929455B2 (ja) 2016-06-08

Family

ID=49593780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012093421A Expired - Fee Related JP5929455B2 (ja) 2012-04-16 2012-04-16 音声処理装置、音声処理方法および音声処理プログラム

Country Status (1)

Country Link
JP (1) JP5929455B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022536255A (ja) * 2019-05-31 2022-08-15 ディーティーエス・インコーポレイテッド フォービエイテッドオーディオレンダリング

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069600A (ja) * 1998-05-27 2000-03-03 Sony France Sa 音楽的臨場感形成装置の制御装置及び制御方法
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置
JP2003302979A (ja) * 2002-04-09 2003-10-24 Yamaha Corp 音場再生装置及びその制御方法、プログラム及び記録媒体
JP2004259198A (ja) * 2003-02-27 2004-09-16 Japan Research Institute Ltd 情報管理装置、情報管理システム、及びプログラム
JP2006048644A (ja) * 2004-07-06 2006-02-16 Matsushita Electric Ind Co Ltd 映像表示装置及び視聴意志判定装置
JP2006230578A (ja) * 2005-02-23 2006-09-07 Namco Bandai Games Inc プログラム、情報記憶媒体及びゲーム装置
WO2006137400A1 (ja) * 2005-06-21 2006-12-28 Japan Science And Technology Agency ミキシング装置及び方法並びにプログラム
JP2007024605A (ja) * 2005-07-13 2007-02-01 Fujitsu Ten Ltd ナビゲーション装置
JP2007215228A (ja) * 2002-08-27 2007-08-23 Yamaha Corp サウンドデータ配信システム
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
JP2009188971A (ja) * 2008-01-07 2009-08-20 Korg Inc 音楽装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000069600A (ja) * 1998-05-27 2000-03-03 Sony France Sa 音楽的臨場感形成装置の制御装置及び制御方法
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置
JP2003302979A (ja) * 2002-04-09 2003-10-24 Yamaha Corp 音場再生装置及びその制御方法、プログラム及び記録媒体
JP2007215228A (ja) * 2002-08-27 2007-08-23 Yamaha Corp サウンドデータ配信システム
JP2004259198A (ja) * 2003-02-27 2004-09-16 Japan Research Institute Ltd 情報管理装置、情報管理システム、及びプログラム
JP2006048644A (ja) * 2004-07-06 2006-02-16 Matsushita Electric Ind Co Ltd 映像表示装置及び視聴意志判定装置
JP2006230578A (ja) * 2005-02-23 2006-09-07 Namco Bandai Games Inc プログラム、情報記憶媒体及びゲーム装置
WO2006137400A1 (ja) * 2005-06-21 2006-12-28 Japan Science And Technology Agency ミキシング装置及び方法並びにプログラム
JP2007024605A (ja) * 2005-07-13 2007-02-01 Fujitsu Ten Ltd ナビゲーション装置
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
JP2009188971A (ja) * 2008-01-07 2009-08-20 Korg Inc 音楽装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022536255A (ja) * 2019-05-31 2022-08-15 ディーティーエス・インコーポレイテッド フォービエイテッドオーディオレンダリング
JP7285967B2 (ja) 2019-05-31 2023-06-02 ディーティーエス・インコーポレイテッド フォービエイテッドオーディオレンダリング

Also Published As

Publication number Publication date
JP5929455B2 (ja) 2016-06-08

Similar Documents

Publication Publication Date Title
US11531518B2 (en) System and method for differentially locating and modifying audio sources
US11617050B2 (en) Systems and methods for sound source virtualization
JP6961007B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
CN109804559B (zh) 空间音频系统中的增益控制
US10979845B1 (en) Audio augmentation using environmental data
EP2737727B1 (en) Method and apparatus for processing audio signals
JP5942170B2 (ja) 音声制御装置および音声制御方法
WO2015163031A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20190313201A1 (en) Systems and methods for sound externalization over headphones
CN109644317A (zh) 用于双耳音频渲染的协调跟踪
WO2019173573A1 (en) User-interfaces for audio-augmented-reality
WO2014179633A1 (en) Sound field adaptation based upon user tracking
US20210373847A1 (en) Spatialized augmented reality (ar) audio menu
US7327848B2 (en) Visualization of spatialized audio
US20020156633A1 (en) Facilitation of speech recognition in user interface
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
JP5929455B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10667073B1 (en) Audio navigation to a point of interest
US20020154179A1 (en) Distinguishing real-world sounds from audio user interface sounds
JP6651231B2 (ja) 携帯情報端末、情報処理装置、及びプログラム
JP6194740B2 (ja) 音声処理装置、音声処理方法、及びプログラム
CN115244953A (zh) 声音处理装置、声音处理方法和声音处理程序
US20230224664A1 (en) Supplementing Content
JP2015219855A (ja) 音量操作装置、及び、デジタル放送受信機

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160418

R150 Certificate of patent or registration of utility model

Ref document number: 5929455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees