JP5929455B2 - Audio processing apparatus, audio processing method, and audio processing program - Google Patents
Audio processing apparatus, audio processing method, and audio processing program Download PDFInfo
- Publication number
- JP5929455B2 JP5929455B2 JP2012093421A JP2012093421A JP5929455B2 JP 5929455 B2 JP5929455 B2 JP 5929455B2 JP 2012093421 A JP2012093421 A JP 2012093421A JP 2012093421 A JP2012093421 A JP 2012093421A JP 5929455 B2 JP5929455 B2 JP 5929455B2
- Authority
- JP
- Japan
- Prior art keywords
- listening range
- listener
- sound source
- audio
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic System (AREA)
Description
本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。 The present invention relates to a voice processing device, a voice processing method, and a voice processing program.
聴取者の周囲に多数の音源が存在する状況では、聴取者は、それらの音源のうち所望の音源からの音声を聞き分けることは難しい。そこで、聴取者にヘッドフォンを装着させ、複数の音源のうち選択された音源に対応する音声を、ヘッドフォンを通じて聴取者に提供することが考えられている。 In a situation where there are many sound sources around the listener, it is difficult for the listener to distinguish the sound from the desired sound source among those sound sources. In view of this, it is conceived that the listener is put on headphones and the sound corresponding to the sound source selected from the plurality of sound sources is provided to the listener through the headphones.
例えば、聴取者の周囲に複数の仮想音源を配置し、聴取者の頭部の前面を特定の音源に向け、聴取者がうなずくなどの所定の動作を行うことにより、特定の音源からの音声を選択する技術がある。また、聴取者が向いている方向に配置された仮想音源の音量を大きくするように制御する技術もある。さらに、聴取者の向きに応じて音像の定位を変化させる技術もある。 For example, a plurality of virtual sound sources are arranged around the listener, the front of the listener's head is directed to a specific sound source, and the listener performs a predetermined operation such as nodding, so that the sound from the specific sound source is There is a technology to choose. There is also a technique for controlling the volume of a virtual sound source arranged in the direction in which the listener is facing to be increased. Further, there is a technique for changing the localization of the sound image according to the orientation of the listener.
しかしながら、複数の仮想音源の中から所望の音源を選択するために、聴取者がうなずくなどの特定の動作を行う方法では、操作が煩雑であり、聴取者が自然な動作で所望の音源からの音声を聞くことができないという問題があった。 However, in a method in which the listener performs a specific operation such as nodding in order to select a desired sound source from a plurality of virtual sound sources, the operation is complicated, and the listener can perform a natural operation from the desired sound source. There was a problem of not being able to hear the sound.
1つの側面では、本発明は、聴取者が自然な動作で所望の音源に対応する音声を聞き分けることが可能な音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。 In one aspect, an object of the present invention is to provide a voice processing device, a voice processing method, and a voice processing program that enable a listener to recognize a voice corresponding to a desired sound source with natural motion.
1つの案では、聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置が提供される。この音声処理装置は、状態判定部と出力制御部とを有する。状態判定部は、聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する。出力制御部は、聴取者から見て聴取者方向が中心になるように設定された聴取範囲に含まれる仮想音源に対応する音声信号の音量を、聴取範囲に含まれない仮想音源に対応する音声信号の音量より相対的に大きくするように制御する。また、出力制御部は、静止状態になったと判定されたとき、聴取範囲を縮小する。 In one proposal, there is provided an audio processing device that controls output of audio signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener. This voice processing device includes a state determination unit and an output control unit. The state determination unit determines whether the movement in the listener direction indicating the direction of the listener is in a stationary state. The output control unit determines the volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener direction is the center when viewed from the listener, and the sound corresponding to the virtual sound source not included in the listening range. Control to make it relatively larger than the volume of the signal. The output control unit reduces the listening range when it is determined that the stationary state is reached.
また、1つの案では、上記の音声処理装置と同様の処理が実行される音声処理方法が提供される。
さらに、1つの案では、上記の音声処理装置と同様の処理をコンピュータに実行させる音声処理プログラムが提供される。
Further, in one proposal, a voice processing method is provided in which processing similar to that performed by the voice processing device described above is executed.
Furthermore, in one proposal, a voice processing program that causes a computer to execute the same processing as that of the voice processing device described above is provided.
1態様によれば、聴取者が自然な動作で所望の音源に対応する音声を聞き分けることができる。 According to the first aspect, the listener can distinguish the sound corresponding to the desired sound source with a natural motion.
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る音声処理装置の構成例およびその動作例を示す図である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration example and an operation example of the speech processing apparatus according to the first embodiment.
図1に示す音声処理装置1は、聴取者10の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御するものである。各仮想音源の位置は、例えば、音源位置情報2に任意に登録されて、音声処理装置1の記憶装置に保持される。また、仮想音源に対応する音声信号は、例えば、あらかじめ記憶装置に用意されたものか、あるいは、マイクロフォンによって収音されて音声処理装置1に入力されるものである。後者の例としては、聴取者10の周囲に実際に存在する人間が発する音声を、マイクロフォンによって収音することで得られた音声信号などがある。
The
この音声処理装置1は、状態判定部3および出力制御部4を備える。
状態判定部3は、聴取者10の向きを示す聴取者方向Dの動きを監視し、聴取者方向Dの動きが静止状態になったかを判定する。例えば、聴取者10の身体に方向センサを装着しておき、状態判定部3は、方向センサによる検出結果を基に聴取者方向Dの動きを監視する。なお、聴取者方向Dは、聴取者10の顔が向いている方向、あるいは聴取者10の視線の方向であることが望ましい。
The
The
また、上記の静止状態とは、聴取者10の向きが変化しなくなったと判断される状態である。状態判定部3は、例えば、聴取者方向Dの変動量が所定時間だけ所定の変動幅に収まっている場合に、静止状態になったと判定する。
In addition, the stationary state is a state in which it is determined that the orientation of the
出力制御部4は、複数の仮想音源に対応する音声信号の出力音量を制御する。ここでは例として、出力制御部4は、各仮想音源に対応する音声信号を合成して所定チャネル数の合成音声信号を生成するものとする。合成音声信号は、例えば、聴取者10が装着しているヘッドフォンやイヤフォンに出力されて、合成音声信号に基づく合成音声が聴取者10に聴取される。あるいは、合成音声信号に基づく合成音声は、聴取者10の周囲に配置された3つ以上のスピーカから出力される。
The
なお、他の例として、各仮想音源に対応する音声信号に基づく音声が、聴取者10の周囲に仮想音源ごとに配置されたスピーカから出力されるようにしてもよい。
出力制御部4は、聴取者10から見て聴取者方向Dが中心になるような聴取範囲30を設定する。そして、出力制御部4は、設定した聴取範囲30に含まれる仮想音源に対応する音声信号の音量を、聴取範囲30に含まれない仮想音源に対応する音声信号の音量より相対的に大きくするように制御する。このような制御により、聴取者10には、複数の音源のうち、聴取範囲30に含まれる音源に対応する音声が強調して聞こえるようになる。
As another example, sound based on a sound signal corresponding to each virtual sound source may be output from a speaker arranged around the
The
出力制御部4は、状態判定部3によって聴取者方向Dの動きが静止状態になったと判定されたとき、聴取範囲30を縮小する。以下、図1の下側を参照して、静止状態になったと判定される前後の動作の例について説明する。
The
図1の下側では、聴取者10の周囲には5つの仮想音源21〜25が配置されている。なお、出力制御部4によって設定される聴取範囲30を、斜線のハッチングによって示す。
On the lower side of FIG. 1, five
状態判定部3が静止状態になったと判定する前の状態では、出力制御部4は、図1の左下に示すように聴取範囲30を設定する。この状態では、聴取範囲30には仮想音源21〜25が含まれており、聴取者10には、仮想音源21〜25のそれぞれに対応する音声が均等に聞こえる。このため、聴取者10は、仮想音源21〜25のそれぞれに対応する音声を聞き分けることが難しい。図1の左下の状態は、聴取者10の向きが一定方向に定まっていない状態であり、聴取者10は仮想音源21〜25のうちのどの音源に対応する音声を聞くかを特定していない状態と考えることができる。
In a state before it is determined that the
一方、状態判定部3が静止状態になったと判定すると、出力制御部4は、図1の右下に示すように、聴取範囲30を縮小する。この状態では、聴取者方向Dに最も近い仮想音源23が聴取範囲30に含まれているが、仮想音源21,22,24,25は聴取範囲30に含まれていない。このため、出力制御部4は、仮想音源23に対応する音声信号の音量を、他の仮想音源21,22,24,25に対応する音声信号の音量よりも相対的に大きくする。これにより、聴取者10は、仮想音源23に対応する音声を聞き取りやすくなる。
On the other hand, when it is determined that the
上記のような制御により、聴取者10は、所望の仮想音源の方向に向いて静止するだけで、特別な入力操作を意識的に行うことなく、その仮想音源に対応する音声を容易に聞き分けることができる。所望の仮想音源の方向に向いて静止するという動作は、複数の音源が存在する状況下で所望の音源に対応する音声を聞き取ろうとする際に、聴取者10が無意識に行う動作である。このため、上記の制御により、聴取者10は、自然な動作で所望の仮想音源に対応する音声を聞き取ることができるようになる。
With the control as described above, the
〔第2の実施の形態〕
次に、第2の実施の形態として、展示会場において入場者に音声情報を提供するための音声提供システムについて説明する。まず、図2は、第2の実施の形態に係る音声提供システムのシステム構成例を示す図である。
[Second Embodiment]
Next, as a second embodiment, an audio providing system for providing audio information to visitors at an exhibition hall will be described. First, FIG. 2 is a diagram illustrating a system configuration example of a voice providing system according to the second embodiment.
音声提供システム100は、展示会場に入場したユーザに音声情報を提供するための制御処理を行う音声処理装置200を備える。音声処理装置200には、複数のマイクロフォンによって収音された音声信号が入力される。マイクロフォンの数は任意であり、図2では例として、音声処理装置200には4つのマイクロフォン301a〜301dのそれぞれから音声信号が入力される。各マイクロフォンは、展示物について説明する説明者が発する音声を収音するものである。
The audio providing system 100 includes an
なお、各マイクロフォンから音声処理装置200への音声信号の送信方法としては、種々の方法を用いることができる。例えば、各マイクロフォンによって収音された音声信号は、デジタル音声信号に変換された後、有線または無線によって音声処理装置200に送信される。あるいは、各マイクロフォンによって収音された音声信号は、アナログ信号のまま音声処理装置200に入力されて、音声処理装置200内でデジタル化されてもよい。
Note that various methods can be used as a method of transmitting an audio signal from each microphone to the
また、音声処理装置200には、無線信号を送受信するための複数のアクセスポイント110a〜110dが、ネットワーク120を介して接続されている。ネットワーク120は、例えばLAN(Local Area Network)である。この場合、アクセスポイント110a〜110dは、無線LANアクセスポイントである。
In addition, a plurality of
一方、展示会場に入場したユーザは、ユーザ端末400およびヘッドフォン500を携帯する。ユーザ端末400は、アクセスポイント110a〜110dとの間で無線通信することが可能になっている。また、ヘッドフォン500は、ユーザ端末400から出力されたアナログ音声信号を再生出力するドライバユニット(図示せず)を備える。
On the other hand, the user who entered the exhibition hall carries the
音声処理装置200は、各マイクロフォンによって収音された音声信号を合成し、合成された音声信号を、アクセスポイント110a〜110dの少なくとも1つを通じて、ユーザ端末400に送信する。ユーザ端末400は、音声処理装置200から受信した音声信号をアナログ変換し、変換したアナログ音声信号をヘッドフォン500のドライバユニットに出力する。
The
また、音声処理装置200は、展示会場におけるユーザ端末400の位置を検出する機能を備える。本実施の形態では例として、音声処理装置200は、ユーザ端末400から送信された信号を、アクセスポイント110a〜110dから受信し、これらの受信信号に基づいてユーザ端末400の位置を検出する。例えば、音声処理装置200は、ユーザ端末400から送信された信号をアクセスポイント110a〜110dを通じて受信し、それぞれのアクセスポイントにおける信号の受信時刻の差、あるいは受信電波強度の差に基づいて、三角法を用いてユーザ端末400の位置を検出する。この方法が用いられる場合、位置検出に使用されるアクセスポイントは、少なくとも3つ設置される。
The
さらに、ヘッドフォン500には、ユーザが向いている方向を検出するための方向センサ510が搭載されている。以下、方向センサ510によって検出される方向を「視線方向」と呼ぶ。
Furthermore, the
方向センサ510は、例えば、加速度センサ、ジャイロセンサおよび地磁気センサを備える。ユーザ端末400は、方向センサ510による検出結果を基にユーザの視線方向を演算し、算出された視線方向を、アクセスポイント110a〜110dの少なくとも1つを通じて音声処理装置200に送信する。
The
なお、方向センサ510は、ヘッドフォン500とは別の位置に設けられてもよく、また、頭部以外の位置に設けられてもよい。ただし、方向センサ510の目的は、ユーザがどこを見ているかを検出することである。このため、方向センサ510は、ユーザの頭部に設けられることが望ましい。また、方向センサ510によって検出される方向は、水平面に沿った2次元方向であっても、あるいは鉛直方向を含めた3次元方向であってもよい。
The
図3は、展示会場における各機器の配置例を示す図である。
展示会場においては、例えば、展示物310a〜310cが展示されている。展示物310aの前には説明者302aが立ち、説明者302aは展示物310aの説明を行う。同様に、展示物310bの前には説明者302bが立ち、展示物310cの前には説明者302cが立っている。説明者302a〜302cは、それぞれマイクロフォン301a〜301cを持っている。そして、説明者302a〜302cがそれぞれ発する音声は、マイクロフォン301a〜301cによって収音され、収音された音声信号は音声処理装置200に送信される。
FIG. 3 is a diagram illustrating an arrangement example of each device in the exhibition hall.
In the exhibition hall, for example,
音声処理装置200は、受信した音声信号を合成し、合成した音声信号を、アクセスポイント110a〜110dを通じて、ユーザ401が携帯するユーザ端末400に送信する。ユーザ401は、説明者302a〜302cに近づくことで説明者302a〜302cの声を直接聞くこともできるが、基本的には、説明者302a〜302cの声を、ヘッドフォン500を介して聞く。
The
なお、展示会場に複数のユーザ401が入場した場合には、ユーザ401のそれぞれがユーザ端末400およびヘッドフォン500を携帯する。
ところで、展示会場に多くの展示物が展示され、展示物ごとに説明者が存在する場合、展示会場内には多くの音声が飛び交うことになる。展示会場に入場したユーザ401は、これら多くの音声から所望の展示物に対応する音声を聞き分ける必要があるが、例えば、所望の展示物の方向に視線を向けるだけでは、その展示物に対応する音声を聞くことは難しい。
Note that when a plurality of
By the way, when many exhibits are exhibited in the exhibition hall and there is an explainer for each exhibition, many voices fly in the exhibition hall. The
そこで、音声処理装置200は、ユーザ端末400からユーザ401の視線方向を随時取得し、ユーザ401の視線方向の動きが静止したかを判断する。以下、ユーザ401の視線方向の動きが静止したと判断される状態を「注視状態」と呼ぶ。音声処理装置200は、ユーザ401が注視状態になったと判断すると、ユーザ401の視線方向に存在する展示物に対応する音声が強調されて聞き取りやすくなるように、各マイクロフォンからの音声の合成バランスを調整して、調整後の合成音声信号をユーザ端末400に送信する。
Therefore, the
また、音声処理装置200は、ユーザ401が注視状態になったと判断したとき、ユーザ401の視線方向に存在する展示物に対応する音声を急激に強調するのではなく、緩やかに強調するように制御する。これにより、ユーザ401が自然な感覚で所望の音声を聞き取ることができるようにする。
In addition, when it is determined that the
図4は、音声処理装置のハードウェア構成例を示す図である。
音声処理装置200は、図4に示すようなコンピュータとして実現することができる。音声処理装置200は、CPU(Central Processing Unit)201によって装置全体が制御されている。CPU201には、バス209を介して、RAM(Random Access Memory)202と複数の周辺機器が接続されている。
FIG. 4 is a diagram illustrating a hardware configuration example of the audio processing device.
The
RAM202は、音声処理装置200の主記憶装置として使用される。RAM202には、CPU201に実行させるOS(Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM202には、CPU201による処理に必要な各種データが格納される。
The
バス209に接続されている周辺機器としては、HDD(Hard Disk Drive)203、グラフィックインタフェース204、入力インタフェース205、光学ドライブ装置206、ネットワークインタフェース207および通信インタフェース208がある。
Peripheral devices connected to the
HDD203は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD203は、音声処理装置200の二次記憶装置として使用される。HDD203には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの他の種類の不揮発性記憶装置を使用することもできる。
The
グラフィックインタフェース204には、モニタ204aが接続されている。グラフィックインタフェース204は、CPU201からの命令に従って、画像をモニタ204aに表示させる。なお、モニタ204aは、例えば、液晶ディスプレイである。
A monitor 204 a is connected to the
入力インタフェース205には、キーボード205a、マウス205bなどの入力装置接続されている。入力インタフェース205は、入力装置からの出力信号をCPU201に送信する。
Input devices such as a keyboard 205a and a mouse 205b are connected to the
光学ドライブ装置206は、レーザ光などを利用して、光ディスク206aに記録されたデータの読み取りを行う。光ディスク206aは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク206aには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)などがある。
The
ネットワークインタフェース207は、ネットワーク120を通じて他の装置との間でデータを送受信する。通信インタフェース208は、各マイクロフォンによって収音されたデジタル音声信号を受信する。
The
図5は、ユーザ端末のハードウェア構成例を示す図である。
ユーザ端末400は、図5に示すような情報端末装置として実現することができる。ユーザ端末400は、CPU411によって装置全体が制御されている。CPU411には、バス419を介して、RAM412と複数の周辺機器が接続されている。
FIG. 5 is a diagram illustrating a hardware configuration example of the user terminal.
The
RAM412は、ユーザ端末400の主記憶装置として使用される。RAM412には、CPU411に実行させるOSプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM412には、CPU411による処理に必要な各種データが格納される。
The
バス419に接続されている周辺機器としては、フラッシュメモリ413、表示装置414、入力装置415、無線インタフェース416、通信インタフェース417およびオーディオインタフェース418がある。
Peripheral devices connected to the
フラッシュメモリ413は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。フラッシュメモリ413は、ユーザ端末400の二次記憶装置として使用される。フラッシュメモリ413には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、HDDなどの他の種類の不揮発性記憶装置を使用することもできる。
The
表示装置414は、例えば液晶ディスプレイなどを含み、CPU411からの命令に従って画像を表示する。入力装置415は、例えば、表示装置414の表示面に設置されたタッチパネルや、所定の操作キーなどを含む。入力装置415に対する操作に応じた信号がCPU411に送信される。
The
無線インタフェース416は、アクセスポイント110a〜110dとの間で無線通信する。通信インタフェース417は、方向センサ510による検出結果を受信する。オーディオインタフェース418は、CPU411から送信されたデジタル音声信号をアナログ音声信号に変換し、アナログ音声信号を増幅してヘッドフォン500に出力する。
The
図6は、ユーザ端末および音声処理装置が備える処理機能の構成例を示すブロック図である。
ユーザ端末400は、視線方向検出部421および再生処理部422を有する。これらの各処理ブロックは、例えば、ユーザ端末400のCPU411(図5参照)が所定のプログラムを実行することで実現される。
FIG. 6 is a block diagram illustrating a configuration example of processing functions included in the user terminal and the voice processing device.
The
視線方向検出部421は、方向センサ510による検出結果を基に、ユーザ401の視線方向ρtを演算する。視線方向検出部421は、算出した視線方向ρtを音声処理装置200に送信する。なお、視線方向ρtは、例えば、x軸、y軸、z軸のそれぞれの回りの回転角度(Rt,Pt,Yt)で表される。あるいは、視線方向ρtは、例えば、ベクトルとして表されてもよい。
The gaze
再生処理部422は、例えば、音声処理装置200から受信した音声信号を所定の符号化方式に従って復号化し、オーディオインタフェース418(図5参照)に供給する。また、再生処理部422は、例えば、受信した音声信号に対して、擬似的な3D効果を与える処理などを施してもよい。
For example, the
一方、音声処理装置200は、ユーザ位置検出部211、音声入力部212、計時部213、注視判定部214、聴取範囲制御部215および音声出力処理部216を有する。これらの各処理ブロックの処理は、例えば、音声処理装置200のCPU201(図4参照)が所定のプログラムを実行することで実現される。
On the other hand, the
また、音声処理装置200の記憶装置には、音源管理テーブル220およびユーザ管理テーブル230が格納される。音源管理テーブル220には、各展示物に対応する音声に関する情報が登録される。また、ユーザ管理テーブル230には、各ユーザ401に関する情報が登録される。音源管理テーブル220およびユーザ管理テーブル230は、例えば、音声処理装置200のRAM202(図4参照)に展開されて、音声処理装置の処理ブロックから読み書きされる。
In addition, a sound source management table 220 and a user management table 230 are stored in the storage device of the
ユーザ位置検出部211は、ユーザ端末400から送信された信号をアクセスポイント110a〜110dを通じて受信し、これらの受信信号を基にユーザ端末400の位置を検出する。ユーザ位置検出部211は、検出したユーザ端末400の位置を、ユーザ位置Qtとして、検出対象のユーザに対応するユーザ管理テーブル230に随時登録する。
The user
音声入力部212は、複数の説明者がそれぞれ備えるマイクロフォンによって収音された音声信号を、音源として受信し、受信した音声信号を音声出力処理部216に供給する。
The
音源管理テーブル220には、音声入力部212が受信する各音源についての情報が登録される。後述するように、各音源は、展示会場に対応する仮想空間上の任意の位置に配置され、音源管理テーブル220には、仮想空間における各音源の位置情報などが登録される。
In the sound source management table 220, information on each sound source received by the
計時部213は、現在の時刻を注視判定部214および聴取範囲制御部215に供給する。計時部213からの時刻は、各種の経過時間を求める際に利用される。
注視判定部214は、ユーザ端末400から受信した視線方向ρtに基づいて、ユーザ401が注視状態にあるか否かを判定する。前述のように、注視状態とは、視線方向ρtの動きが静止したと判断される状態である。注視判定部214は、注視状態にあるかの判定結果を聴取範囲制御部215に通知する。また、注視判定部214は、ユーザ端末400から受信した視線方向ρtを、検出対象のユーザ401に対応するユーザ管理テーブル230に随時登録する。
The
The
聴取範囲制御部215は、上記の仮想空間においてユーザ401ごとに設定される聴取範囲の大きさを制御する。聴取範囲とは、ユーザ401から見て視線方向ρtを中心とした範囲であり、後述するように、視線方向ρtとのなす角度によって聴取範囲が決定される。そして、仮想空間上に配置された音源のうち、聴取範囲に含まれる音源に対応する音声信号の音量が、聴取範囲に含まれない音源に対応する音声信号の音量より大きくなるように制御される。本実施の形態では例として、仮想空間上に配置された音源のうち、聴取範囲に含まれる音源からの音声のみがユーザ401に提供され、聴取範囲に含まれない音源からの音声はユーザ401に聞こえないように制御される。
The listening
聴取範囲制御部215は、注視判定部214によってユーザ401が注視状態にあると判定されると、聴取範囲を所定の最小の大きさになるまで徐々に狭めていく。このような制御により、聴取範囲制御部215は、ユーザ端末400に送信される音声において、ユーザ401が向いている方向に配置された音源からの音声が徐々に聞き取りやすくなるようにする。
When the
音声出力処理部216は、音声入力部212から入力される音声信号のうち、聴取範囲制御部215によって設定された聴取範囲に含まれる音源についての音声信号を選択して合成し、左右1チャネルずつの合成音声信号を生成する。音声出力処理部216は、生成した合成音声信号を、ユーザ端末400に対して送信する。
The audio
次に、図7は、仮想空間における音源の配置例を示す図である。
仮想空間320は、ユーザ401や展示物310a〜310jが存在する展示会場を二次元または三次元の座標系によって表した空間である。図7では、仮想空間320をx軸、y軸、z軸による三次元座標系によって表した例を示している。ユーザ位置Qtは、座標(Xt,Yt,Zt)によって表される。また、ユーザ401の視線方向ρtは、例えば、各軸の回りの回転角度を用いて(Rt,Pt,Yt)と表される。
Next, FIG. 7 is a diagram illustrating an arrangement example of sound sources in the virtual space.
The
音源P1〜P10は、展示物310a〜310jのそれぞれを説明する説明者の音声を収音した音声信号に対応する。そして、音源P1〜P10は、仮想空間320における展示物310a〜310jのそれぞれの位置に配置される。例えば、音源P1は、展示物310aを説明する説明者の音声信号に対応し、音源P2は、展示物310bを説明する説明者の音声信号に対応する。そして、音源P1は、展示物310aの位置に仮想的に配置され、音源P2は、展示物310bの位置に仮想的に配置される。なお、音源の位置は、例えば、対応する展示物の中心など、対応する展示物を代表する位置に配置される。
The sound sources P1 to P10 correspond to audio signals obtained by collecting the voices of the explainers explaining the
仮想空間320における音源P1〜P10のそれぞれの位置は、音源管理テーブル220に設定される。音声処理装置200の管理者は、音声処理装置200への入力操作により、各音源の位置を任意に設定することができる。
The positions of the sound sources P1 to P10 in the
なお、図7では、仮想空間320における音源Pn(nは1以上の整数)の位置を示す座標を(Xn,Yn,Zn)と表記している。
また、本実施の形態では、展示物の説明者が発する音声を音源とするが、音源は、例えば、あらかじめ記憶装置に格納された音声信号に基づく再生音声であってもよい。この場合、例えば、音声処理装置200のHDD203に、音源として使用する音声信号が格納され、音声入力部212は、HDD203から読み出した音声信号を音声出力処理部216に供給する。
In FIG. 7, coordinates indicating the position of the sound source Pn (n is an integer of 1 or more) in the
In this embodiment, the sound emitted by the exhibitor of the exhibit is used as the sound source. However, the sound source may be, for example, reproduced sound based on an audio signal stored in the storage device in advance. In this case, for example, an audio signal used as a sound source is stored in the
図8は、音源管理テーブルに登録される情報の例を示す図である。
音源管理テーブル220には、仮想空間に配置された音源ごとに、各音源を一意に識別するための音源IDと、仮想空間において音源が配置された位置を示す音源座標とが、対応付けて登録されている。音声処理装置200の管理者は、音源管理テーブル220に対して新たな音源の情報を追加する、音源座標を変更する、音源管理テーブル220から音源の情報を削除する、といった操作を行うことができる。
FIG. 8 is a diagram illustrating an example of information registered in the sound source management table.
In the sound source management table 220, for each sound source arranged in the virtual space, a sound source ID for uniquely identifying each sound source and a sound source coordinate indicating a position where the sound source is arranged in the virtual space are registered in association with each other. Has been. The administrator of the
なお、図8では例として、音源IDが示す音源に対応付けられた展示物を一意に識別するための展示物IDが登録されている。音声処理装置200の管理者は、例えば、1つの展示物に対して複数の音源を対応付ける、あるいは、複数の展示物に対して1つの音源を対応付けることも可能である。
In FIG. 8, for example, an exhibit ID for uniquely identifying an exhibit associated with the sound source indicated by the sound source ID is registered. For example, the administrator of the
次に、図9は、注視状態の判定方法の例について説明するための図である。
前述のように、注視状態とは、ユーザ401の視線方向ρtの動きが静止したと判断される状態である。ただし、ユーザ401が特定の位置を注視している状態であっても、実際にはユーザ401の動きが完全に静止することは少ない。この点を鑑みて、音声処理装置200の注視判定部214は、視線方向ρtの値の変動量がある一定の閾値幅Wthに所定時間だけ収まっている場合に、ユーザ401が注視状態になったと判定する。
Next, FIG. 9 is a diagram for explaining an example of a gaze state determination method.
As described above, the gaze state is a state in which the movement of the
図9の例では、視線方向ρtの値(図9では角度Rt)の変動量が、時刻t1から、あらかじめ決められた判定時間Taが経過した時刻t2までの期間において、閾値幅Wthに収まっている。この場合、注視判定部214は、時刻t2においてユーザ401が注視状態になったと判定する。また、その後の時刻t3において視線方向ρtの変動量が閾値幅Wthから逸脱すると、注視判定部214は、注視状態が解消されたと判定する。
In the example of FIG. 9, the amount of change in the value of the line-of-sight direction ρt (angle Rt in FIG. 9) falls within the threshold width Wth during the period from time t1 to time t2 when a predetermined determination time Ta has elapsed. Yes. In this case, the
なお、ユーザ401が注視状態にあるか否かの判定は、実際には、視線方向ρtを示す各軸方向の値(すなわち、Rt,Pt,Yt)の変動量が、すべて閾値幅Wthに収まっているかによって行われる。
It should be noted that the determination as to whether or not the
次に、図10は、聴取範囲について説明するための図である。この図10では例として、二次元の仮想空間における聴取範囲の例を示す。
聴取範囲は、ユーザ位置Qtを中心として設定される。図10のように仮想空間が二次元座標によって定義される場合、聴取範囲は、聴取範囲の境界が、水平面(x−y平面)においてユーザ401の視線方向ρtとなす角度θtによって定義される。ここで言う境界とは、2次元空間の場合、ユーザ位置Qtから放射状に延びる2本の直線である。そして、一方の境界線と視線方向ρtとの間の範囲と、他方の境界線と視線方向ρtとの間の範囲とが、聴取範囲となる。
Next, FIG. 10 is a diagram for explaining the listening range. FIG. 10 shows an example of a listening range in a two-dimensional virtual space as an example.
The listening range is set around the user position Qt. When the virtual space is defined by two-dimensional coordinates as shown in FIG. 10, the listening range is defined by an angle θt that the boundary of the listening range makes with the visual line direction ρt of the
図10(A)の例では、聴取範囲は、ユーザ位置Qtを中心として、視線方向ρtから右回り方向および左回り方向に対してそれぞれθ1度の範囲を指す。聴取範囲の角度θtの最大値は180度であり、本実施の形態では、聴取範囲の角度θtの初期値は、最大値である180度であるものとする。また、聴取範囲の角度θtの最小値は、0度より大きい所定の角度に設定される。 In the example of FIG. 10A, the listening range refers to a range of θ1 degrees with respect to the clockwise direction and the counterclockwise direction from the line-of-sight direction ρt with the user position Qt as the center. The maximum value of the listening range angle θt is 180 degrees, and in this embodiment, the initial value of the listening range angle θt is 180 degrees, which is the maximum value. In addition, the minimum value of the angle θt of the listening range is set to a predetermined angle greater than 0 degrees.
ここで、図10に示すように、仮想空間において、ユーザ401の周囲の所定位置に音源P1〜P4,P9が配置されているものとする。音声処理装置200は、ユーザ位置Qtから見て聴取範囲に含まれる音源の音声信号を合成して、合成音声信号をユーザ端末400に送信する。
Here, as shown in FIG. 10, it is assumed that sound sources P <b> 1 to P <b> 4 and P <b> 9 are arranged at predetermined positions around the
図10(A)の例では、音源P1〜P4,P9が聴取範囲に含まれているので、音声処理装置200は、音源P1〜P4,P9のそれぞれの音声信号を合成して、合成音声信号をユーザ端末400に送信する。一方、図10(B)の例では、聴取範囲の角度θtは、θ1より小さいθ2に設定されており、図10(A)の場合より聴取範囲が狭められている。このとき、音源P1〜P3は聴取範囲に含まれているものの、音源P4,P9は聴取範囲に含まれていない。この状態では、音声処理装置200は、音源P1〜P3のそれぞれの音声信号を合成して、合成音声信号をユーザ端末400に送信する。従って、ユーザ401には音源P4,P9の各音声は聞こえない。
In the example of FIG. 10A, since the sound sources P1 to P4 and P9 are included in the listening range, the
聴取範囲の角度θtが狭められることで、ユーザ401には視線方向ρtの近くに配置された音源の音声のみが聞こえるようになる。これによりユーザ401は、自分が向いている方向から発せられる音声を容易に聞き取ることができるようになる。
By narrowing the angle θt of the listening range, the
なお、音声処理装置200は、聴取範囲に含まれる各音源の音像を、ユーザ位置Qtと各音源の位置との相対関係に基づいて、視線方向ρtを基準とした左右方向の対応する位置に定位させる。図10の例では、音声処理装置200は、音源P1の音声信号について、右チャネルの音量より左チャネルの音量を大きくし、音源P3の音声信号について、左チャネルの音量より右チャネルの音量を大きくする。
Note that the
なお、本実施の形態では、音声処理装置200は、聴取範囲に含まれない音源に対応する音声信号を、合成音声信号に合成しない。しかしながら、音声処理装置200は、聴取範囲に含まれない音源に対応する音声信号についても、聴取範囲に含まれている音源に対応する音声信号より音量を低くして、合成音声信号に合成してもよい。
In the present embodiment,
次に、図11および図12を用いて、視線方向ρtの動きと聴取範囲の角度との関係について説明する。まず、図11は、二次元の仮想空間における聴取範囲の変化について説明するための図である。 Next, the relationship between the movement in the line-of-sight direction ρt and the angle of the listening range will be described with reference to FIGS. 11 and 12. First, FIG. 11 is a diagram for explaining a change in the listening range in a two-dimensional virtual space.
音声処理装置200は、ユーザ401の視線方向ρtの動きが静止していない状態(非注視状態)では、聴取範囲の角度θtを、最大値θmax(=180度)に設定する。この状態では、ユーザ401には、周囲に配置されたすべての音源の音声が聞こえる。そして、音声処理装置200は、視線方向ρtの動きが静止した「注視状態」になったと判定すると、聴取範囲の角度θtを狭くする。このとき、音声処理装置200は、聴取範囲の角度θtをすぐに最小値θminに変更するのではなく、時間経過に従って徐々に狭くしていく。図11の例では、注視状態に遷移した後、聴取範囲の角度θtはθmaxからθ1,θ2,θminのように徐々に狭められている。
The
このように、ユーザ401が注視状態になると、聴取範囲の角度θtが狭められていき、ユーザ401の周囲に配置された音源のうち、ユーザ401に聞こえる音源の音声の数が減っていく。そして、最終的には、ユーザ401が向いている方向の周囲のみの狭い範囲、すなわち角度θminが設定された聴取範囲に含まれる音源の音声のみが、ユーザ401に聞こえるようになる。また、聴取範囲が徐々に狭められることで、ユーザ401は、自分が向いている方向から発せられる音声を自然な感覚で聞き取ることができる。
As described above, when the
図12は、三次元の仮想空間における聴取範囲の変化について説明するための図である。
仮想空間が三次元座標系によって定義される場合には、聴取範囲は、聴取範囲の境界が、水平方向において視線方向ρtとなす角度θtと、鉛直方向において視線方向ρtとなす角度φtとによって定義される。音声処理装置200は、視線方向ρtの動きが静止していない状態(非注視状態)では、聴取範囲の水平方向の角度θtを最大値θmax(=180度)に設定するとともに、聴取範囲の鉛直方向の角度φtを最大値φmax(=180度)に設定する。この状態では、ユーザ401には、周囲に配置されたすべての音源の音声が聞こえる。
FIG. 12 is a diagram for explaining a change in the listening range in the three-dimensional virtual space.
When the virtual space is defined by a three-dimensional coordinate system, the listening range is defined by an angle θt that makes the boundary of the listening range the visual line direction ρt in the horizontal direction and an angle φt that makes the visual line direction ρt in the vertical direction. Is done. When the movement in the line-of-sight direction ρt is not stationary (non-gaze state), the
そして、音声処理装置200は、視線方向ρtの動きが静止した「注視状態」になったと判定すると、聴取範囲の角度θt,φtをともに徐々に狭くしていく。図12の例では、注視状態に遷移した後、聴取範囲の水平方向の角度θtはθmaxからθ1,θ2,θminのように徐々に狭められていき、聴取範囲の鉛直方向の角度φtはφmaxからφ1,φ2,φminのように徐々に狭められていく。
When the
次に、図13および図14を用いて、聴取範囲を変化させる方法の例について説明する。図13は、聴取範囲を変化させる方法の第1の例を示す図である。
図13の例では、時刻tdから、判定時間Taが経過した時刻t0までの期間において、ユーザ401の視線方向ρtの変動量が所定の閾値幅Wthに収まっている。この場合、注視判定部214は、時刻t0において、ユーザ401が注視状態になったと判定する。聴取範囲制御部215は、時刻t0を起点として、次の式(1)に従って聴取範囲の角度θtを減少させる。
θt=(θmax−θmin)/{1+EXP[((ts−t0)−(Tf/2))×a]}+θmin ・・・(1)
なお、式(1)において、tsは現在時刻を示す。また、Tfは、図13に示すように、聴取範囲の角度θtが最大値θmaxから最小値θminになるまでの時間を示し、例えば、音声処理装置200の管理者によって任意に設定可能である。また、aは、任意に設定可能な定数であり、例えばa=12/Tfに設定される。
Next, an example of a method for changing the listening range will be described with reference to FIGS. 13 and 14. FIG. 13 is a diagram illustrating a first example of a method for changing the listening range.
In the example of FIG. 13, during the period from time td to time t <b> 0 when the determination time Ta has elapsed, the fluctuation amount of the
θt = (θmax−θmin) / {1 + EXP [((ts−t0) − (Tf / 2)) × a]} + θmin (1)
In Equation (1), ts indicates the current time. Further, as shown in FIG. 13, Tf indicates a time until the angle θt of the listening range reaches the minimum value θmin from the maximum value θmax, and can be arbitrarily set by, for example, the administrator of the
また、図13の例では、注視判定部214は、ユーザ401が注視状態になった後、時刻t0’において注視状態が解消したと判定する。聴取範囲制御部215は、時刻t0’を起点として、次の式(2)に従って聴取範囲の角度θtを増加させる。
θt=(θmax−θmin)/{1+EXP[−((ts−t0’)−(Tf’/2))×a]}+θmin ・・・(2)
なお、式(2)において、Tf’は、図13に示すように、聴取範囲の角度θtが最小値θminから最大値θmaxになるまでの時間を示す。Tf’は、音声処理装置200の管理者によって任意に設定可能であり、例えばTfと同じ値に設定される。
In the example of FIG. 13, the
θt = (θmax−θmin) / {1 + EXP [− ((ts−t0 ′) − (Tf ′ / 2)) × a]} + θmin (2)
In Expression (2), Tf ′ indicates the time until the angle θt of the listening range reaches the maximum value θmax from the minimum value θmin, as shown in FIG. Tf ′ can be arbitrarily set by the administrator of the
図14は、聴取範囲を変化させる方法の第2の例を示す図である。
図14の例でも、図13の例と同様に、時刻tdから、判定時間Taが経過した時刻t0までの期間において、ユーザ401の視線方向ρtの変動量が所定の閾値幅Wthに収まっている。注視判定部214は、時刻t0において、ユーザ401が注視状態になったと判定する。聴取範囲制御部215は、時刻t0を起点として、次の式(3)に従って聴取範囲の角度θtを減少させる。
θt={b[(ts-t0)-Tf/2]}+θmin ・・・(3)
なお、式(3)において、bは任意に設定可能な定数である。
FIG. 14 is a diagram illustrating a second example of a method for changing the listening range.
In the example of FIG. 14 as well, in the period from the time td to the time t0 when the determination time Ta has elapsed, the variation amount of the
θt = {b [(ts−t0) −Tf / 2] } + θmin (3)
In equation (3), b is a constant that can be set arbitrarily.
また、時刻t0’において、注視判定部214が、注視状態が解消したと判定すると、聴取範囲制御部215は、時刻t0’を起点として、次の式(4)に従って聴取範囲の角度θtを増加させる。
θt={c×log[(ts−t0’)+d]+θmin ・・・(4)
なお、式(4)において、c,dは任意に設定可能な定数である。
When the
θt = {c × log [(ts−t0 ′) + d] + θmin (4)
In Equation (4), c and d are constants that can be arbitrarily set.
また、以上の図13および図14では聴取範囲の角度θtについて説明したが、聴取範囲の角度φtについても、上記の式(1)および式(2)、または、式(3)および式(4)に従って制御することができる。 13 and 14 described the listening range angle θt, but the listening range angle φt may also be expressed by the above formulas (1) and (2) or the formulas (3) and (4). ) Can be controlled according to.
図15は、聴取範囲の角度が最小値になる前に注視状態が解消された場合の制御例を示す図である。
時刻t0において、注視判定部214が、注視状態になったと判定すると、聴取範囲制御部215は、聴取範囲の角度θtを徐々に減少させる。ところが、時刻t0から時間Tfが経過していない、すなわち聴取範囲の角度θtが最小値θminまで減少していない時刻t11において、注視判定部214が、注視状態が解消されたと判定したとする。この場合、聴取範囲制御部215は、例えば、聴取範囲の角度θtを、最大値θmaxに達するまで徐々に増加させる。
FIG. 15 is a diagram illustrating a control example when the gaze state is canceled before the angle of the listening range reaches the minimum value.
When the
図16は、聴取範囲の角度が最大値になる前に再度注視状態になった場合の制御例を示す図である。
時刻t0’において、注視判定部214が、注視状態が解消されたと判定すると、聴取範囲制御部215は、例えば、聴取範囲の角度θtを徐々に増加させる。ところが、時刻t0’から時間Tf’が経過していない、すなわち聴取範囲の角度θtが最小値θmaxに達していない時刻t12において、注視判定部214が、再度注視状態になったと判定したとする。この場合、聴取範囲制御部215は、聴取範囲の角度θtを、最小値θminになるまで徐々に減少させる。
FIG. 16 is a diagram illustrating a control example in a case where the user is in a gaze state again before the angle of the listening range reaches the maximum value.
When the
なお、以上の図13〜図16の例では、聴取範囲制御部215は、注視状態が解消された場合に、聴取範囲を時間経過に従って徐々に広げていくようにした。しかしながら、聴取範囲制御部215は、例えば、注視状態が解消された場合には、聴取範囲を即座に最大値θmaxに設定してもよい。あるいは、聴取範囲制御部215は、注視状態が解消された場合に、視線方向ρtの変動の度合いに応じて、聴取範囲の角度θtを増加させる速度を調整してもよい。
In the example of FIGS. 13 to 16 described above, the listening
図17は、聴取範囲に含まれる各音源の音量制御の例を示す図である。
音声処理装置200の音声出力処理部216は、聴取範囲に含まれる複数の音源に対応する音声信号を合成する際に、例えば、ユーザ401から見て聴取範囲の中心に近い位置に配置された音源ほど、対応する音声信号の音量を大きくしてもよい。これにより、ユーザ401には、自分が向いている方向に近くにある音源ほど、大きな音で音声が聞こえるようになり、聞こえ方が自然になる。
FIG. 17 is a diagram illustrating an example of volume control of each sound source included in the listening range.
When the audio
音量の制御方法としては、例えば、次のような方法を用いることができる。
聴取範囲の角度θtの範囲は、あらかじめ複数の範囲に区分される。そして、区分された範囲ごとに、範囲内に存在する音源に対応する音声信号に対して乗算するゲインの値が設定される。ゲインの値は、聴取範囲の中心に近いほど大きく設定される。
As a volume control method, for example, the following method can be used.
The range of the angle θt of the listening range is divided into a plurality of ranges in advance. Then, for each divided range, a gain value for multiplying the audio signal corresponding to the sound source existing in the range is set. The gain value is set larger as it is closer to the center of the listening range.
図17の例では、聴取範囲の中心(角度が0度)から角度θmax(=180度)までの範囲が、5つの範囲に区分されている。そして、聴取範囲の中心から角度θminまでの範囲には、ゲイン「1」が設定される。聴取範囲の角度θminから次の角度θ1分の範囲にはゲイン「0.8」が設定され、次の角度θ2分の範囲にはゲイン「0.6」が設定され、次のθ3分の範囲にはゲイン「0.4」が設定され、次の角度θ4分の範囲、すなわち角度θmaxまでの範囲にはゲイン「0.2」が設定される。 In the example of FIG. 17, the range from the center of the listening range (angle is 0 degrees) to the angle θmax (= 180 degrees) is divided into five ranges. A gain “1” is set in the range from the center of the listening range to the angle θmin. The gain “0.8” is set in the range of the next angle θ1 from the angle θmin of the listening range, the gain “0.6” is set in the range of the next angle θ2, and the next range of θ3. A gain “0.4” is set, and a gain “0.2” is set in the range up to the next angle θ4, that is, the range up to the angle θmax.
音声出力処理部216は、合成音声信号を生成する際に、各音源が上記の区分範囲のうちのどの範囲に存在するかを判定し、判定した範囲に対応するゲインを音源の音声信号のレベルに乗算し、ゲイン調整後の音声信号を合成する。
When generating the synthesized speech signal, the sound
なお、図17の例では、聴取範囲の角度に対して固定的にゲインを設定したが、例えば、聴取範囲の大きさの変化に応じて設定されるゲインが変化してもよい。この場合の例として、次のような制御方法を用いることができる。 In the example of FIG. 17, the gain is fixedly set with respect to the angle of the listening range. However, for example, the gain that is set according to the change in the size of the listening range may change. As an example of this case, the following control method can be used.
聴取範囲の中心(角度が0度)から、聴取範囲制御部215によって現在設定されている角度θtまでの範囲が、割合に応じて区分され、区分された範囲ごとにゲインが設定される。ただし、ユーザ401が所望する音源の位置はユーザ401の視線方向ρtと完全に重なるとは限らないため、ゲイン「1」を設定する範囲は一定の大きさに維持されることが望ましい。
The range from the center of the listening range (the angle is 0 degree) to the angle θt currently set by the listening
そこで、例えば、聴取範囲における0度から角度θminまでの固定的な範囲に、ゲイン「1」が設定される。そして、聴取範囲における0度から角度θtまでの範囲のうち、角度θminから次のθ1/θtの範囲にはゲイン「0.8」が設定され、次のθ2/θtの範囲にはゲイン「0.6」が設定され、次のθ3/θtの範囲にはゲイン「0.4」が設定され、次のθ4/θtの範囲にはゲイン「0.2」が設定される。このようにゲインを割り当てると、ユーザ401から見て同じ方向に配置された音源(ただし、中心からθminの範囲に配置された音源を除く)の音量は、聴取範囲が狭くなるのに連れて徐々に小さくなる。従って、ユーザ401にとって自然な感覚で、所望の音源の音声が強調されるようになる。
Therefore, for example, the gain “1” is set in a fixed range from 0 degree to the angle θmin in the listening range. In the range from 0 degree to the angle θt in the listening range, the gain “0.8” is set in the range from the angle θmin to the next θ1 / θt, and the gain “0” is set in the next θ2 / θt range. .6 ”, a gain“ 0.4 ”is set in the next range of θ3 / θt, and a gain“ 0.2 ”is set in the next range of θ4 / θt. When the gain is assigned in this way, the volume of the sound source arranged in the same direction as viewed from the user 401 (except for the sound source arranged in the range of θmin from the center) gradually increases as the listening range becomes narrower. Becomes smaller. Therefore, the sound of a desired sound source is emphasized with a natural feeling for the
なお、上記のような音源に対するゲイン制御方法は、例えば、注視判定部214によって注視状態であると判定されている期間にのみ使用されてもよい。具体的には、注視状態でないと判定されている期間では、音声出力処理部216は、聴取範囲に含まれるすべての音源に対応する音声信号を、同じ音量比で(すなわち、すべてにゲイン「1」を乗算して)合成する。この状態では、ユーザ401には聴取範囲に含まれるすべての音源に対応する音声が均等に聞こえるが、ユーザ401は聞き取りたい音源をまだ特定していないと考えられるので、特に不自然にはならない。
Note that the gain control method for the sound source as described above may be used only during a period in which the
そして、注視状態になったと判定されると、音声出力処理部216は、上記のように、聴取範囲に含まれる音源に対応する音声信号の音量を、聴取範囲の中心に近い音源ほど大きくするように制御する。ユーザ401は、注視状態になった時点で、視線方向ρtに近接する音源に対応する音声を少し聞き取りやすくなる。そして、さらに聴取範囲が徐々に縮小されることで、ユーザ401には、視線方向ρtに近接する音源に対応する音声がより明瞭に聞こえるようになる。
Then, when it is determined that the state of gaze is reached, the audio
次に、図18は、ユーザ管理テーブルに登録される情報の例を示す図である。
ユーザ管理テーブル230には、ユーザ401ごとにレコードが登録される。各レコードには、ユーザ401を識別するユーザIDに対応付けて、ユーザ座標、視線方向、静止時間、注視フラグ、有効音源ID、聴取範囲角度および非注視時間が登録される。
Next, FIG. 18 is a diagram illustrating an example of information registered in the user management table.
Records are registered in the user management table 230 for each
ユーザ座標は、前述のユーザ位置Qtを示す、仮想空間上の座標であり、ユーザ位置検出部211によって随時更新される。
視線方向は、前述の視線方向ρtに対応し、ここでは例として、各軸のまわりの回転角度(Rt,Pt,Yt)で表される。視線方向は、注視判定部214によって随時更新される。
The user coordinates are coordinates on the virtual space indicating the above-described user position Qt, and are updated by the user
The line-of-sight direction corresponds to the above-described line-of-sight direction ρt, and here is represented by a rotation angle (Rt, Pt, Yt) around each axis as an example. The gaze direction is updated by the
静止時間は、注視判定部214が、視線方向ρtが閾値幅Wth(図9参照)に収まっていると判断している時間である。例えば、静止時間は、図9における時刻t1からの経過時間であり、図12〜図14における時刻tdからの経過時間である。静止時間は、注視判定部214によって設定される。また、本実施の形態では、静止時間は1秒単位で登録されるものとする。
The stationary time is a time during which the
なお、静止時間は、聴取範囲の角度θt,φtを減少させる際に聴取範囲制御部215によって参照される。ここで、注視判定部214が注視状態になったと判定してからの経過時間(式(1)および式(3)における(ts−t0))は、静止時間から判定時間Ta(図9、図12〜図14参照)を減算した値となる。
Note that the stationary time is referred to by the listening
注視フラグは、注視状態であるか否かを示すフラグ情報であり、注視状態であるとき「1」に設定され、注視状態でないとき「0」に設定される。注視フラグは、注視判定部214によって設定される。
The gaze flag is flag information indicating whether or not the user is in the gaze state, and is set to “1” when the gaze state is set, and is set to “0” when the gaze state is not set. The gaze flag is set by the
有効音源IDは、聴取範囲に含まれている音源を示す音源IDであり、聴取範囲制御部215によって設定される。なお、聴取範囲にいずれの音源も含まれていない場合、有効音源IDには「0」が設定される。
The effective sound source ID is a sound source ID indicating a sound source included in the listening range, and is set by the listening
聴取範囲角度は、前述の聴取範囲の角度θt,φtであり、聴取範囲制御部215によって設定される。
非注視時間は、注視状態が解消されてからの経過時間を示す。例えば、非注視時間は、図13,図14における時刻t’0からの経過時間である。非注視時間は、注視判定部214によって設定され、聴取範囲の角度θt,φtを増加させる際に聴取範囲制御部215によって参照される。
The listening range angles are the above-described listening range angles θt and φt, and are set by the listening
The non-gaze time indicates an elapsed time after the gaze state is resolved. For example, the non-gaze time is an elapsed time from time t′0 in FIGS. The non-gaze time is set by the
次に、図19は、注視判定部の処理手順の例を示すフローチャートである。図19の処理は、ユーザ401ごとに実行される。また、注視判定部214は、図19の処理の開始時に、ユーザ管理テーブル230に対して、初期値として静止時間「0」、非注視時間「0」、注視フラグ「0」を設定する。
Next, FIG. 19 is a flowchart illustrating an example of a processing procedure of the gaze determination unit. The process in FIG. 19 is executed for each
[ステップS11]注視判定部214は、ユーザ端末400から受信した視線方向ρtの検出結果を1秒分取り込む。なお、視線方向ρtの検出結果は、1秒間に複数回、ユーザ端末400から送信されるものとする。また、注視判定部214は、視線方向ρtの検出結果を受信するたびに、受信した値をユーザ管理テーブル230の視線方向の欄に登録する。
[Step S11] The
[ステップS12]注視判定部214は、取り込んだ1秒分の視線方向ρtの各軸についての変動量が、すべて閾値幅Wthに収まっているかを判定する。注視判定部214は、変動量が閾値幅Wthに収まっている場合には、ステップS13の処理を実行する。一方、注視判定部214は、各軸について変動量のうち少なくとも1つが閾値幅Wthに収まっていない場合には、ステップS21の処理を実行する。
[Step S12] The
[ステップS13]注視判定部214は、ユーザ管理テーブル230における静止時間の値を「1」だけインクリメントする。
[ステップS14]注視判定部214は、ユーザ端末400から受信した視線方向ρtの検出結果を1秒分取り込む。なお、ステップS11と同様に、注視判定部214は、視線方向ρtの検出結果を受信するたびに、受信した値をユーザ管理テーブル230の視線方向の欄に登録する。
[Step S13] The
[Step S14] The
[ステップS15]注視判定部214は、ステップS12で「Yes」と判定してから現在までの期間における視線方向ρtの各軸についての変動量が、すべて閾値幅Wthに収まっているかを判定する。注視判定部214は、変動量が閾値幅Wthに収まっている場合には、ステップS16の処理を実行する。一方、注視判定部214は、各軸について変動量のうち少なくとも1つが閾値幅Wthに収まっていない場合には、ステップS20の処理を実行する。
[Step S15] The
[ステップS16]注視判定部214は、ユーザ管理テーブル230における静止時間の値を「1」だけインクリメントする。
[ステップS17]注視判定部214は、ステップS12で「Yes」と判定してからの経過時間が、判定時間Taに達したかを判定する。ここで言う経過時間は、ユーザ管理テーブル230の静止時間の欄に登録された秒数である。注視判定部214は、経過時間が判定時間Taに達した場合には、ステップS19の処理を実行する。一方、注視判定部214は、経過時間が判定時間Taに達していない場合、ステップS18の処理を実行する。
[Step S16] The
[Step S17] The
[ステップS18]ステップS17で「No」と判定された状態とは、ユーザ401が注視状態になっていない状態(非注視状態)である。この場合、注視判定部214は、ユーザ管理テーブル230における非注視時間の値を「1」だけインクリメントする。この後、ステップS14の処理が実行される。
[Step S18] The state determined as “No” in Step S17 is a state where the
[ステップS19]ステップS17で「Yes」と判定された状態とは、ユーザ401が注視状態になったと判断される状態である。この場合、注視判定部214は、ユーザ管理テーブル230における注視フラグの値を「1」に更新するとともに、非注視時間の値を「0」にリセットする。この後、ステップS14の処理が実行される。
[Step S19] The state determined as “Yes” in Step S17 is a state where it is determined that the
[ステップS20]ステップS15で「No」と判定された状態とは、ユーザ401の向きの動きが大きくなった状態である。この場合、注視判定部214は、ユーザ管理テーブル230における静止時間の値を「0」にリセットする。また、注視判定部214は、ユーザ管理テーブル230における注視フラグの値が「1」である場合には、この値を「0」に更新する。この後、ステップS21の処理が実行される。
[Step S20] The state determined as “No” in Step S15 is a state in which the movement of the direction of the
[ステップS21]注視判定部214は、ユーザ管理テーブル230における非注視時間の値を「1」だけインクリメントする。この後、ステップS11の処理が実行される。
図20,図21は、聴取範囲制御部および音声出力処理部の処理手順の例を示すフローチャートである。図20,図21の処理は、ユーザ401ごとに実行される。また、例えば、図20のステップS31の処理が1音声フレーム分の周期で実行されるように制御される。
[Step S21] The
20 and 21 are flowcharts illustrating examples of processing procedures of the listening range control unit and the audio output processing unit. The processing in FIGS. 20 and 21 is executed for each
[ステップS31]聴取範囲制御部215は、ユーザ管理テーブル230における注視フラグの値をチェックする。聴取範囲制御部215は、注視フラグの値が「1」の場合には、ステップS32の処理を実行する。一方、聴取範囲制御部215は、注視フラグの値が「0」の場合には、図21のステップS51の処理を実行する。
[Step S31] The listening
[ステップS32]聴取範囲制御部215は、ユーザ管理テーブル230における静止時間の欄に登録された値に基づき、注視判定部214によって注視状態になったと判定されてからの経過時間を計算する。そして、聴取範囲制御部215は、経過時間が時間Tf未満かを判定する。聴取範囲制御部215は、経過時間が時間Tf未満である場合には、ステップS33の処理を実行する。一方、聴取範囲制御部215は、経過時間が時間Tf以上である場合には、ステップS34の処理を実行する。
[Step S <b> 32] The listening
[ステップS33]ステップS32で「Yes」と判定される状態とは、聴取範囲の角度θt,φtを徐々に減少させている途中の状態である。この場合、聴取範囲制御部215は、ステップS32で算出した経過時間に応じて、前述の式(1)または式(3)に従って、聴取範囲の角度θt,φtを計算する。聴取範囲制御部215は、算出した角度θt,φtを、ユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[Step S33] The state determined as “Yes” in Step S32 is a state in which the angles θt and φt of the listening range are being gradually decreased. In this case, the listening
[ステップS34]聴取範囲制御部215は、聴取範囲の角度θt,φtを所定の最小値に決定し、決定した値をユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[Step S34] The listening
[ステップS35]聴取範囲制御部215は、ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、聴取範囲角度の値によって設定される聴取範囲に含まれる音源をチェックする。
[Step S35] The listening
[ステップS36]聴取範囲制御部215は、聴取範囲に音源が1つ以上含まれているかを判定する。聴取範囲制御部215は、聴取範囲に音源が1つ以上含まれている場合には、ステップS38の処理を実行する。一方、聴取範囲制御部215は、聴取範囲に音源が1つも含まれていない場合には、ステップS37の処理を実行する。
[Step S36] The listening
[ステップS37]聴取範囲制御部215は、ユーザ管理テーブル230における聴取範囲角度の欄に登録された角度θt,φtを、それぞれ1段階大きくして補正する。この後、ステップS35の処理が実行される。
[Step S37] The listening
[ステップS38]聴取範囲制御部215は、聴取範囲に含まれている音源の音源IDを、ユーザ管理テーブル230における有効音源IDの欄に登録する。
[ステップS39]音声出力処理部216は、ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、ユーザ管理テーブル230における有効音源IDの欄に登録された各音源について、合成音声信号に合成する際のゲインを決定する。
[Step S38] The listening
[Step S39] The audio
例えば、音声出力処理部216は、図17で説明した処理手順に従って、聴取範囲の中心に近い音源ほど、対応する音声信号のゲインを大きく設定する。また、音声出力処理部216は、ユーザ位置Qtと音源の位置とを結ぶ直線と、視線方向ρtとのなす角度、および、聴取範囲の中心に対して音源が左右どちらに配置されているかに応じて、左チャネルおよび右チャネルのそれぞれにおける音量バランスを調整して、音源の音像を左右方向のいずれかの位置に定位させる。
For example, the audio
[ステップS40]音声出力処理部216は、ステップS39で決定したゲインを適用して、合成音声信号を生成し、ユーザ端末400に送信する。この後、ステップS31に戻る。
[Step S <b> 40] The audio
[ステップS51]聴取範囲制御部215は、ユーザ管理テーブル230における非注視時間の欄に登録された値に基づき、注視判定部214によって注視状態が解消されたと判定されてからの経過時間を計算する。そして、聴取範囲制御部215は、経過時間が時間Tf’未満かを判定する。聴取範囲制御部215は、経過時間が時間Tf’未満である場合には、ステップS52の処理を実行する。一方、聴取範囲制御部215は、経過時間が時間Tf’以上である場合には、ステップS53の処理を実行する。
[Step S51] The listening
[ステップS52]ステップS51で「Yes」と判定される状態とは、聴取範囲の角度θt,φtを徐々に増加させている途中の状態である。この場合、聴取範囲制御部215は、ステップS51で算出した経過時間に応じて、前述の式(2)または式(4)に従って、聴取範囲の角度θt,φtを計算する。聴取範囲制御部215は、算出した角度θt,φtを、ユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[Step S52] The state determined as “Yes” in Step S51 is a state in which the angles θt and φt of the listening range are being gradually increased. In this case, the listening
[ステップS53]聴取範囲制御部215は、聴取範囲の角度θt,φtを所定の最大値に決定し、決定した値をユーザ管理テーブル230における聴取範囲角度の欄に登録する。
[Step S <b> 53] The listening
なお、聴取範囲制御部215は、上記のステップS51の判定を行わずに、無条件でステップS53の処理を実行してもよい。
[ステップS54]ユーザ管理テーブル230におけるユーザ座標、視線方向および聴取範囲角度の各欄の値と、音源管理テーブル220に登録された各音源の位置情報とに基づき、聴取範囲角度の値によって設定される聴取範囲に含まれる音源をチェックする。聴取範囲制御部215は、聴取範囲に含まれている音源の音源IDを、ユーザ管理テーブル230における有効音源IDの欄に登録する。この後、ステップS39の処理が実行される。
Note that the listening
[Step S54] Based on the values in the fields of the user coordinates, line-of-sight direction, and listening range angle in the user management table 230, and the position information of each sound source registered in the sound source management table 220, the listening range angle value is set. Check the sound sources included in the listening range. The listening
以上の図20,図21によれば、注視判定部214によって注視状態になったと判定されると、聴取範囲が徐々に縮小されていき、聴取範囲の中心付近の音源に対応する音声が徐々に強調されてユーザ401に聞こえるようになる。従って、ユーザ401は、自分が向いている方向に配置された音源に対応する音声を容易に聞き分けることができる。
According to FIGS. 20 and 21 described above, when the
また、上記の図20のステップS36,S37では、聴取範囲制御部215は、注視状態になっているとき、聴取範囲内に必ず音源が存在するように聴取範囲の角度を調整する。ここで、図22は、注視状態にあるユーザが展示物に近づいたときの様子を示す図である。
Further, in steps S36 and S37 of FIG. 20, the listening
図22における状態1では、ユーザ401は展示物310aに向いた状態で注視状態になっている。ユーザ位置Qtと展示物310aとの距離はd1であり、聴取範囲の角度θtは角度θ1である。そして、聴取範囲には、展示物310aに対応する音源P1が含まれる。このためユーザ401は、音源P1に対応する音声を、ヘッドフォン500を通じて聞くことができる。
In
ここで、状態2に示すように、注視状態が維持されたままユーザ401が展示物310aに近づいたものとする。このとき、ユーザ位置Qtと展示物310aとの距離はd2になったとする。聴取範囲の角度θtが角度θ1のままであった場合、状態2のように、展示物310aに対応する音源P1が、聴取範囲に含まれなくなってしまう可能性がある。この場合、ユーザ401は、音源P1に対応する音声を聞くことができない。
Here, as shown in state 2, it is assumed that the
上記の図20のステップS36,S37によれば、聴取範囲を縮小したときに、聴取範囲に音源が1つも含まれなくなる場合には、音源が少なくとも1つ含まれるようになるまで聴取範囲が拡大される。このような処理により、図22の状態2のように、ユーザ401が展示物310aに近づくことで対応する音声を聞けなくなってしまうという事態を回避できる。
According to steps S36 and S37 in FIG. 20 described above, when the listening range is reduced, if no sound source is included in the listening range, the listening range is expanded until at least one sound source is included. Is done. Such a process can avoid a situation in which the
また、他の方法として、聴取範囲制御部215は、ユーザ位置Qtと展示物との距離を検出し、距離が近くなるほど聴取範囲の角度を大きくするように補正してもよい。この方法により、例えば図20の状態3に示すように、ユーザ位置Qtと展示物310aとの距離がd2まで近づいたときでも、聴取範囲に音源P1が含まれる可能性が高くなる。
As another method, the listening
ユーザ位置Qtと展示物との距離に応じて聴取範囲の角度を補正する方法は、次のような制御によって実現可能である。音声処理装置200の記憶装置には、次の図23に示すような展示物管理テーブルが格納される。
A method of correcting the angle of the listening range according to the distance between the user position Qt and the exhibit can be realized by the following control. The storage device of the
図23は、展示物管理テーブルに登録される情報の例を示す図である。
展示物管理テーブル240には、展示物ごとにレコードが登録され、各レコードには、展示物を識別するための展示物IDに対して、展示物が配置された領域を示す情報が登録される。図23の例では、展示物の配置領域を示す情報として、頂点数および頂点座標が登録されている。頂点数は、展示物の周縁部に存在する頂点の数を示す。頂点座標は、仮想空間における各頂点の座標を示す。
FIG. 23 is a diagram illustrating an example of information registered in the exhibit management table.
In the exhibit management table 240, a record is registered for each exhibit. In each record, information indicating an area where the exhibit is arranged is registered with respect to the exhibit ID for identifying the exhibit. . In the example of FIG. 23, the number of vertices and vertex coordinates are registered as information indicating the arrangement area of the exhibit. The number of vertices indicates the number of vertices existing at the peripheral edge of the exhibit. The vertex coordinates indicate the coordinates of each vertex in the virtual space.
図24は、聴取範囲制御部および音声出力処理部の処理手順の変形例を示すフローチャートである。この図24では、図20と同じ処理が実行される処理ステップには同じ符号を付して示しており、これらの処理ステップについての説明を省略する。 FIG. 24 is a flowchart illustrating a modification of the processing procedure of the listening range control unit and the audio output processing unit. In FIG. 24, processing steps in which the same processing as that in FIG. 20 is executed are denoted by the same reference numerals, and description of these processing steps is omitted.
図24に示す処理では、図20におけるステップS35〜S37の代わりに、ステップS61,S62が実行される。
[ステップS61]聴取範囲制御部215は、聴取範囲に含まれる音源に対応付けられた展示物との距離を計算する。具体的には、聴取範囲制御部215は、音源管理テーブル220を参照して、聴取範囲に含まれる音源に対応する展示物を特定する。聴取範囲制御部215は、特定した各展示物について、展示物管理テーブル240から頂点数および頂点座標を読み込み、各頂点とユーザ位置Qtとの距離を計算する。聴取範囲制御部215は、特定したすべての展示物についてのすべての頂点と、ユーザ位置Qtとの距離の算出結果のうち、最も小さい算出結果を、展示物との距離とする。
In the process shown in FIG. 24, steps S61 and S62 are executed instead of steps S35 to S37 in FIG.
[Step S61] The listening
[ステップS62]聴取範囲制御部215は、算出された展示物との距離に応じて、ユーザ管理テーブル230の聴取範囲角度に登録された角度θt,φtを補正する。例えば、聴取範囲制御部215は、登録された角度θt,φtに、展示物との距離に応じた補正係数を乗じることで補正を行う。聴取範囲制御部215は、例えば、展示物との距離が所定の下限値以上である場合には、補正係数を「1」とする。そして、聴取範囲制御部215は、展示物との距離が下限値未満である場合には、距離が短くなるほど補正係数を「1」より小さく設定する。
[Step S62] The listening
以上のステップS61,S62の処理により、ユーザ401が展示物に近づくほど聴取範囲が拡大されるため、ユーザ401が向かった先にある展示物に対応する音声をユーザ401が聞けなくなる、という事態が発生しにくくなる。
As a result of the processes in steps S61 and S62 described above, the listening range is expanded as the
なお、以上の図24の処理では、ユーザ位置Qtと展示物との距離に応じて聴取範囲の角度を補正したが、他の例として、ユーザ位置Qtと音源の位置との距離に応じて聴取範囲の角度を補正してもよい。 In the above-described processing of FIG. 24, the angle of the listening range is corrected according to the distance between the user position Qt and the exhibit, but as another example, the listening according to the distance between the user position Qt and the sound source position. The angle of the range may be corrected.
〔第3の実施の形態〕
図25は、第3の実施の形態に係る音声提供システムの構成例を示す図である。なお、図25では、図3に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。以下、第3の実施の形態と第2の実施の形態との相違点について説明する。
[Third Embodiment]
FIG. 25 is a diagram illustrating a configuration example of a voice providing system according to the third embodiment. 25, components corresponding to those in FIG. 3 are denoted by the same reference numerals, and description thereof is omitted. Hereinafter, differences between the third embodiment and the second embodiment will be described.
第3の実施の形態に係る音声提供システムでは、ユーザ401は、ヘッドフォン500から音声を聞く代わりに、展示会場内に設置された複数のスピーカから出力される音声を聞く。従って、ユーザ401はヘッドフォン500を装着する必要はなく、方向センサ510とユーザ端末400aのみを装着する。ユーザ端末400aは、方向センサ510による検出結果を、音声処理装置200aに対して無線送信する。
In the audio providing system according to the third embodiment, the
なお、図25では例として4つのスピーカ330a〜330dが設けられている。ユーザ401の左右方向および前後方向に音像を定位させるためには、スピーカは少なくとも3つ以上設けられる。
In FIG. 25, four
図26は、第3の実施の形態におけるユーザ端末および音声処理装置の処理機能の例を示すブロック図である。なお、図26では、図6に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。 FIG. 26 is a block diagram illustrating an example of processing functions of the user terminal and the voice processing device according to the third embodiment. In FIG. 26, components corresponding to those in FIG. 6 are denoted by the same reference numerals, and description thereof is omitted.
ユーザ端末400aは、視線方向検出部421を備えるが、図6の再生処理部422を備えていない。
音声処理装置200aは、次の点で図6の音声処理装置200と異なる。
The
The
音声入力部212には、記憶装置250にあらかじめ格納された複数の音声信号251が入力される。複数の音声信号251は、それぞれ展示物に対応付けられた音源であり、音声入力部212は、音声信号251を記憶装置250から読み出して音声出力処理部216に供給する。記憶装置250は、音声処理装置200aの外部に設置された装置であってもよいし、あるいは記憶装置250の内部の装置(例えばHDD203)であってもよい。
A plurality of
また、音声出力処理部216は、合成音声信号を、ユーザ端末でなく、スピーカ330a〜330dに出力する。音声出力処理部216は、仮想空間における各音源の位置とユーザ位置Qtとから、各音源に対応する音声信号251の出力チャネルごとの音量バランスを決定して、各音源の音像を空間上に定位させる。その上で、音声出力処理部216は、第2の実施の形態と同様の手順で、聴取範囲に含まれる音源に対応する音声信号251の音量を制御する。
The audio
以上の第3の実施の形態によれば、ユーザ401は、第2の実施の形態と同様に、自然な動作で所望の展示物に対応する音声を容易に聞き分けることができる。
〔第4の実施の形態〕
図27は、第4の実施の形態に係る音声提供システムの構成例を示す図である。なお、図27では、図25に対応する構成要素には同じ符号を付して示し、それらの説明を省略する。以下、第4の実施の形態と第3の実施の形態との相違点について説明する。
According to the third embodiment described above, the
[Fourth Embodiment]
FIG. 27 is a diagram illustrating a configuration example of a voice providing system according to the fourth embodiment. In FIG. 27, components corresponding to those in FIG. 25 are denoted by the same reference numerals, and description thereof is omitted. Hereinafter, differences between the fourth embodiment and the third embodiment will be described.
第4の実施の形態に係る音声提供システムでは、ユーザ401は、展示会場内に設置された複数のスピーカから出力される音声を聞く。ただし、第4の実施の形態では、第3の実施の形態とは異なり、各スピーカは展示物に対応付けられ、対応する展示物に近接した位置に設置される。図27の例では、スピーカ340a〜340cは、それぞれ展示物310a〜310cに近接する位置に設定されている。
In the audio providing system according to the fourth embodiment, the
音声処理装置200bは、基本的には第3の実施の形態の音声処理装置200aと同様の処理機能を備えるが、次の点で第3の実施の形態の音声処理装置200aと異なる。音声処理装置200bの音声出力処理部216は、それぞれ展示物に対応付けられたスピーカに音声信号を出力する。ここで、各展示物に音源が1つずつ対応付けられている場合、音声処理装置200bの音声出力処理部216は、1つのスピーカへの出力チャネルに1つの音源に対応する音声信号を出力すればよく、出力チャネルごとの音量調整によって音像を定位させる必要がない。従って、音声出力処理部216は単に、第2の実施の形態と同様の手順で、聴取範囲に含まれる音源に対応する音声信号251の音量を制御すればよい。
The
以上の第4の実施の形態によれば、ユーザ401は、第2,第3の実施の形態と同様に、自然な動作で所望の展示物に対応する音声を容易に聞き分けることができる。
なお、上記の各実施の形態に示した音声処理装置の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM、CD−R/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
According to the fourth embodiment described above, as in the second and third embodiments, the
Note that the processing functions of the speech processing apparatus described in each of the above embodiments can be realized by a computer. In that case, a program describing the processing contents of the functions that each device should have is provided, and the processing functions are realized on the computer by executing the program on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. Examples of the computer-readable recording medium include a magnetic storage device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Examples of the magnetic storage device include a hard disk device (HDD), a flexible disk (FD), and a magnetic tape. Examples of the optical disc include a DVD, a DVD-RAM, a CD-ROM, and a CD-R / RW. Magneto-optical recording media include MO (Magneto-Optical disk).
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。 When distributing the program, for example, a portable recording medium such as a DVD or a CD-ROM in which the program is recorded is sold. It is also possible to store the program in a storage device of a server computer and transfer the program from the server computer to another computer via a network.
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。 The computer that executes the program stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, the computer reads the program from its own storage device and executes processing according to the program. The computer can also read the program directly from the portable recording medium and execute processing according to the program. In addition, each time a program is transferred from a server computer connected via a network, the computer can sequentially execute processing according to the received program.
以上の各実施の形態に関し、さらに以下の付記を開示する。
(付記1) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置において、
前記聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する状態判定部と、
前記聴取者から見て前記聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御する出力制御部であって、前記静止状態になったと判定されたとき、前記聴取範囲を縮小する出力制御部と、
を有することを特徴とする音声処理装置。
Regarding the above embodiments, the following supplementary notes are further disclosed.
(Supplementary Note 1) In a sound processing device that controls output of sound signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener,
A state determination unit for determining whether the movement of the listener direction indicating the direction of the listener is in a stationary state;
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener direction is the center when viewed from the listener, and the sound corresponding to the virtual sound source not included in the listening range An output control unit that controls to be relatively larger than the volume of the signal, and when it is determined that the stationary state is reached, an output control unit that reduces the listening range;
A speech processing apparatus comprising:
(付記2) 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記1記載の音声処理装置。
(Supplementary note 2) The speech processing apparatus according to
(付記3) 前記出力制御部は、前記静止状態になったと判定されたとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記1または2記載の音声処理装置。
(Additional remark 3) When it determines with the said output control part having become the said stationary state, the said listening range is reduced so that the said listening range may include at least 1 said virtual sound source, It is characterized by the above-mentioned. The speech processing apparatus according to
(付記4) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する距離検出部をさらに有し、
前記出力制御部は、前記聴取範囲を縮小する際に、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記1または2記載の音声処理装置。
(Additional remark 4) It further has a distance detection part which detects the distance of the position of each virtual sound source or the position of the object matched with each virtual sound source, and the position of the listener,
When the output control unit reduces the listening range, the distance between the position of the virtual sound source included in the listening range or the position of the object associated with the virtual sound source and the position of the listener is shorter. Correcting the size of the listening range so that the listening range becomes larger;
The speech processing apparatus according to
(付記5) 前記出力制御部は、前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記1〜4のいずれか1項に記載の音声処理装置。
(Additional remark 5) The said output control part, as for the said virtual sound source arrange | positioned in the position nearer to the center of the said listening range seeing from the said listener among the said virtual sound sources contained in the said listening range, The sound processing apparatus according to any one of
(付記6) 前記状態判定部は、前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記1〜5のいずれか1項に記載の音声処理装置。 (Additional remark 6) The said state determination part determines with having become the said stationary state, when the fluctuation amount of the said listener direction is settled in the predetermined fluctuation range for predetermined time, The additional notes 1-5 characterized by the above-mentioned The speech processing apparatus according to any one of the above.
(付記7) 前記出力制御部は、前記複数の仮想音源のそれぞれに対応する音声信号を合成して所定チャネル数の合成音声信号を生成し、前記合成音声信号を所定の音声出力機器に送信することを特徴とする付記1〜6のいずれか1項に記載の音声処理装置。
(Additional remark 7) The said output control part synthesize | combines the audio | voice signal corresponding to each of these virtual sound sources, produces | generates the synthetic | combination audio | voice signal of a predetermined number of channels, and transmits the said synthetic | combination audio | voice signal to a predetermined | prescribed audio | voice output apparatus. The speech processing apparatus according to any one of
(付記8) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御する音声処理装置における音声処理方法であって、
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
ことを特徴とする音声処理方法。
(Additional remark 8) It is the audio | voice processing method in the audio | voice processing apparatus which controls the output of the audio | voice signal respectively corresponding to the some virtual sound source virtually arrange | positioned around a listener,
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener's direction indicating the direction of the listener is the center when viewed from the listener is not included in the listening range. Control to be relatively larger than the volume of the audio signal corresponding to the virtual sound source,
When it is determined that the movement in the listener direction has become stationary, the listening range is reduced.
And a voice processing method.
(付記9) 前記静止状態になったと判定したとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記8記載の音声処理方法。
(付記10) 前記静止状態になったと判定したとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記8または9記載の音声処理方法。
(Supplementary note 9) The speech processing method according to supplementary note 8, wherein when it is determined that the stationary state is reached, the listening range is reduced continuously or stepwise over time.
(Supplementary note 10) The supplementary note 8 or 9, wherein when it is determined that the stationary state is reached, the listening range is reduced so that at least one virtual sound source is included in the listening range. Voice processing method.
(付記11) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する処理をさらに含み、
前記聴取範囲を縮小する処理では、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記8または9記載の音声処理方法。
(Additional remark 11) The process which further detects the distance of the position of each said virtual sound source or the position of the object matched with each said virtual sound source, and the position of the said listener,
In the process of reducing the listening range, the listening range becomes larger as the distance between the position of the virtual sound source included in the listening range or the position of the object associated with the virtual sound source and the position of the listener is shorter. So as to correct the size of the listening range,
The speech processing method according to appendix 8 or 9, characterized in that.
(付記12) 前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記8〜11のいずれか1項に記載の音声処理方法。 (Supplementary note 12) Of the virtual sound sources included in the listening range, the volume of the corresponding audio signal is increased as the virtual sound source is located closer to the center of the listening range as viewed from the listener. The speech processing method according to any one of appendices 8 to 11, which is characterized by the following.
(付記13) 前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記8〜12のいずれか1項に記載の音声処理方法。 (Additional remark 13) It determines with having become the said stationary state, when the variation | change_quantity of the said listener direction is settled in the predetermined fluctuation range only for predetermined time, It is determined in any one of Additional remark 8-12 characterized by the above-mentioned. Voice processing method.
(付記14) 前記複数の仮想音源のそれぞれに対応する音声信号を合成して所定チャネル数の合成音声信号を生成し、前記合成音声信号を所定の音声出力機器に送信する処理をさらに含むことを特徴とする付記8〜13のいずれか1項に記載の音声処理方法。 (Additional remark 14) It further includes the process which synthesize | combines the audio | voice signal corresponding to each of these virtual sound sources, produces | generates the synthetic | combination audio | voice signal of a predetermined number of channels, and transmits the said synthetic | combination audio | voice signal to a predetermined | prescribed audio | voice output apparatus. 14. The voice processing method according to any one of appendices 8 to 13, which is a feature.
(付記15) 聴取者の周囲に仮想的に配置された複数の仮想音源にそれぞれ対応する音声信号の出力を制御するための音声処理プログラムにおいて、
コンピュータに、
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
処理を実行させることを特徴とする音声処理プログラム。
(Supplementary Note 15) In an audio processing program for controlling output of audio signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener,
On the computer,
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener's direction indicating the direction of the listener is the center when viewed from the listener is not included in the listening range. Control to be relatively larger than the volume of the audio signal corresponding to the virtual sound source,
When it is determined that the movement in the listener direction has become stationary, the listening range is reduced.
A voice processing program for executing a process.
(付記16) 前記静止状態になったと判定したとき、前記聴取範囲を時間をかけて連続的または段階的に縮小することを特徴とする付記15記載の音声処理プログラム。
(付記17) 前記静止状態になったと判定したとき、前記聴取範囲に少なくとも1つの前記仮想音源が含まれるように前記聴取範囲を縮小することを特徴とすることを特徴とする付記15または16記載の音声処理プログラム。
(Supplementary note 16) The audio processing program according to supplementary note 15, wherein when it is determined that the stationary state is reached, the listening range is reduced continuously or stepwise over time.
(Supplementary note 17) The supplementary note 15 or 16, wherein when it is determined that the listening state has been reached, the listening range is reduced so that the listening range includes at least one virtual sound source. Voice processing program.
(付記18) 前記各仮想音源の位置または前記各仮想音源に対応付けられた物体の位置と、前記聴取者の位置との距離を検出する処理を、前記コンピュータにさらに実行させ、
前記聴取範囲を縮小する処理では、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする付記15または16記載の音声処理プログラム。
(Additional remark 18) Let the said computer further perform the process which detects the distance of the position of each said virtual sound source or the position of the object matched with each said virtual sound source, and the position of the said listener,
In the process of reducing the listening range, the listening range becomes larger as the distance between the position of the virtual sound source included in the listening range or the position of the object associated with the virtual sound source and the position of the listener is shorter. So as to correct the size of the listening range,
The voice processing program according to supplementary note 15 or 16, characterized in that.
(付記19) 前記聴取範囲に含まれる前記仮想音源のうち、前記聴取者から見て前記聴取範囲の中心に近い位置に配置された前記仮想音源ほど、対応する音声信号の音量を大きくすることを特徴とする付記15〜18のいずれか1項に記載の音声処理プログラム。 (Supplementary Note 19) Of the virtual sound sources included in the listening range, the volume of the corresponding audio signal is increased as the virtual sound source is located closer to the center of the listening range as viewed from the listener. 19. The voice processing program according to any one of supplementary notes 15 to 18, which is a feature.
(付記20) 前記聴取者方向の変動量が所定時間だけ所定の変動幅に収まっている場合に、前記静止状態になったと判定することを特徴とする付記15〜19のいずれか1項に記載の音声処理プログラム。 (Supplementary note 20) According to any one of supplementary notes 15 to 19, wherein the stationary state is determined when the fluctuation amount in the listener direction is within a predetermined fluctuation range for a predetermined time. Voice processing program.
1 音声処理装置
2 音源位置情報
3 状態判定部
4 出力制御部
10 聴取者
21〜25 仮想音源
30 聴取範囲
DESCRIPTION OF
Claims (9)
前記聴取者の向きを示す聴取者方向の動きが静止状態になったかを判定する状態判定部と、
前記聴取者から見て前記聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御する出力制御部であって、前記静止状態になったと判定されたとき、前記聴取範囲を縮小する出力制御部と、
を有することを特徴とする音声処理装置。 In an audio processing device that controls output of audio signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener,
A state determination unit for determining whether the movement of the listener direction indicating the direction of the listener is in a stationary state;
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener direction is the center when viewed from the listener, and the sound corresponding to the virtual sound source not included in the listening range An output control unit that controls to be relatively larger than the volume of the signal, and when it is determined that the stationary state is reached, an output control unit that reduces the listening range;
A speech processing apparatus comprising:
前記出力制御部は、前記聴取範囲を縮小する際に、前記聴取範囲に含まれる前記仮想音源の位置または当該仮想音源に対応付けられた物体の位置と、前記聴取者の位置の距離が近いほど前記聴取範囲が大きくなるように、前記聴取範囲の大きさを補正する、
ことを特徴とする請求項1または2記載の音声処理装置。 A distance detection unit for detecting a distance between the position of each virtual sound source or the position of an object associated with each virtual sound source and the position of the listener;
When the output control unit reduces the listening range, the distance between the position of the virtual sound source included in the listening range or the position of the object associated with the virtual sound source and the position of the listener is shorter. Correcting the size of the listening range so that the listening range becomes larger;
The speech processing apparatus according to claim 1 or 2,
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
ことを特徴とする音声処理方法。 An audio processing method in an audio processing device that controls output of audio signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener,
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener's direction indicating the direction of the listener is the center when viewed from the listener is not included in the listening range. Control to be relatively larger than the volume of the audio signal corresponding to the virtual sound source,
When it is determined that the movement in the listener direction has become stationary, the listening range is reduced.
And a voice processing method.
コンピュータに、
前記聴取者から見て、前記聴取者の向きを示す聴取者方向が中心になるように設定された聴取範囲に含まれる前記仮想音源に対応する音声信号の音量を、前記聴取範囲に含まれない前記仮想音源に対応する音声信号の音量より相対的に大きくするように制御し、
前記聴取者方向の動きが静止状態になったと判定したとき、前記聴取範囲を縮小する、
処理を実行させることを特徴とする音声処理プログラム。 In an audio processing program for controlling output of audio signals respectively corresponding to a plurality of virtual sound sources virtually arranged around a listener,
On the computer,
The volume of the audio signal corresponding to the virtual sound source included in the listening range set so that the listener's direction indicating the direction of the listener is the center when viewed from the listener is not included in the listening range. Control to be relatively larger than the volume of the audio signal corresponding to the virtual sound source,
When it is determined that the movement in the listener direction has become stationary, the listening range is reduced.
A voice processing program for executing a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012093421A JP5929455B2 (en) | 2012-04-16 | 2012-04-16 | Audio processing apparatus, audio processing method, and audio processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012093421A JP5929455B2 (en) | 2012-04-16 | 2012-04-16 | Audio processing apparatus, audio processing method, and audio processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013223098A JP2013223098A (en) | 2013-10-28 |
JP5929455B2 true JP5929455B2 (en) | 2016-06-08 |
Family
ID=49593780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012093421A Expired - Fee Related JP5929455B2 (en) | 2012-04-16 | 2012-04-16 | Audio processing apparatus, audio processing method, and audio processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5929455B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10869152B1 (en) * | 2019-05-31 | 2020-12-15 | Dts, Inc. | Foveated audio rendering |
EP4009126B1 (en) * | 2020-12-04 | 2024-05-08 | United Grinding Group Management AG | Method of operating a machine for a production facility |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69841857D1 (en) * | 1998-05-27 | 2010-10-07 | Sony France Sa | Music Room Sound Effect System and Procedure |
JP4672823B2 (en) * | 1998-12-18 | 2011-04-20 | ソニー株式会社 | Audio data selection method, audio output device |
JP3988508B2 (en) * | 2002-04-09 | 2007-10-10 | ヤマハ株式会社 | SOUND FIELD REPRODUCTION DEVICE, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM |
JP4438816B2 (en) * | 2002-08-27 | 2010-03-24 | ヤマハ株式会社 | Sound data distribution system |
JP4282343B2 (en) * | 2003-02-27 | 2009-06-17 | 株式会社日本総合研究所 | Information management apparatus, information management system, and program |
JP2006048644A (en) * | 2004-07-06 | 2006-02-16 | Matsushita Electric Ind Co Ltd | Image display device and viewing intention judging device |
JP2006230578A (en) * | 2005-02-23 | 2006-09-07 | Namco Bandai Games Inc | Program, information storage medium and game apparatus |
US8023659B2 (en) * | 2005-06-21 | 2011-09-20 | Japan Science And Technology Agency | Mixing system, method and program |
JP4708889B2 (en) * | 2005-07-13 | 2011-06-22 | 富士通テン株式会社 | Navigation device |
JP4837512B2 (en) * | 2006-09-29 | 2011-12-14 | 独立行政法人科学技術振興機構 | Sound source selection device |
JP5298649B2 (en) * | 2008-01-07 | 2013-09-25 | 株式会社コルグ | Music equipment |
-
2012
- 2012-04-16 JP JP2012093421A patent/JP5929455B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013223098A (en) | 2013-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11531518B2 (en) | System and method for differentially locating and modifying audio sources | |
US11617050B2 (en) | Systems and methods for sound source virtualization | |
JP6961007B2 (en) | Recording virtual and real objects in mixed reality devices | |
US10979845B1 (en) | Audio augmentation using environmental data | |
EP2737727B1 (en) | Method and apparatus for processing audio signals | |
US20140328505A1 (en) | Sound field adaptation based upon user tracking | |
JP5942170B2 (en) | Voice control device and voice control method | |
US20190313201A1 (en) | Systems and methods for sound externalization over headphones | |
WO2015163031A1 (en) | Information processing device, information processing method, and program | |
US20190306651A1 (en) | Audio Content Modification for Playback Audio | |
US7327848B2 (en) | Visualization of spatialized audio | |
EP3661233B1 (en) | Wearable beamforming speaker array | |
US10667073B1 (en) | Audio navigation to a point of interest | |
JP2008299135A (en) | Speech synthesis device, speech synthesis method and program for speech synthesis | |
JP5929455B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP6651231B2 (en) | Portable information terminal, information processing device, and program | |
JP6194740B2 (en) | Audio processing apparatus, audio processing method, and program | |
CN115244953A (en) | Sound processing device, sound processing method, and sound processing program | |
WO2023173285A1 (en) | Audio processing method and apparatus, electronic device, and computer-readable storage medium | |
US20230224664A1 (en) | Supplementing Content | |
US20230421984A1 (en) | Systems and methods for dynamic spatial separation of sound objects | |
JP2024056580A (en) | Information processing apparatus, control method of the same, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5929455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |