JP5660362B2 - Sound source localization apparatus and computer program - Google Patents
Sound source localization apparatus and computer program Download PDFInfo
- Publication number
- JP5660362B2 JP5660362B2 JP2010086705A JP2010086705A JP5660362B2 JP 5660362 B2 JP5660362 B2 JP 5660362B2 JP 2010086705 A JP2010086705 A JP 2010086705A JP 2010086705 A JP2010086705 A JP 2010086705A JP 5660362 B2 JP5660362 B2 JP 5660362B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- music
- power
- tracking
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004807 localization Effects 0.000 title claims description 56
- 238000004590 computer program Methods 0.000 title claims description 10
- 238000012545 processing Methods 0.000 claims description 57
- 230000004044 response Effects 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 41
- 238000009499 grossing Methods 0.000 claims description 17
- 230000008034 disappearance Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 25
- 238000001228 spectrum Methods 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 20
- 239000013598 vector Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000000354 decomposition reaction Methods 0.000 description 10
- 238000003780 insertion Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000009432 framing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 108700025474 F 372 Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000010376 orofacial cleft 2 Diseases 0.000 description 1
- 208000010486 orofacial cleft 3 Diseases 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
この発明は実環境における音源定位技術に関し、特に、実環境におけるMUSIC(MUltiPle SIgnal Classification)法を用いた音源定位、及び、音声の方向性による、移動する音源による音声の発生区間の検出技術に関する。 The present invention relates to a sound source localization technique in a real environment, and more particularly, to a sound source localization using a MUSIC (Multiple Signal Classification) method in a real environment, and a technique for detecting a sound generation section by a moving sound source based on the sound directionality.
人とロボットとの音声コミュニケーションにおいて、ロボットに取付けたマイクロホンは通常離れた位置(1m以上)にある。したがって例えば電話音声のようにマイクと口との距離が数センチの場合と比べて、信号と雑音の比(SNR)は低くなる。このため、傍にいる他人の声や環境の雑音が妨害音となり、ロボットによる目的音声の認識が難しくなる。従って、ロボットへの応用として、音源定位や音源分離は重要である。 In voice communication between a person and a robot, the microphone attached to the robot is usually located at a distance (1 m or more). Therefore, for example, the signal-to-noise ratio (SNR) is lower than when the distance between the microphone and the mouth is several centimeters as in telephone speech. For this reason, the voices of others nearby and the noise of the environment become interference sounds, making it difficult for the robot to recognize the target speech. Therefore, sound source localization and sound source separation are important for robot applications.
音源定位に関しては過去にさまざまな研究がされている。しかし、その大半ではシミュレーション・データ又はラボ・データのみが使用され、ロボットが動作する実環境のデータを評価するものは少ない。3次元の音源定位を評価する研究も少ない。発話相手の顔を見ながら話したり聞いたりすることも人間とロボットとの対話インタラクションを改善するための重要なビヘービアであり、そのためには3次元の音源定位も重要となる。 Various studies have been conducted on sound source localization in the past. However, most of them use only simulation data or lab data, and few evaluate real-world data in which the robot operates. There are few studies to evaluate 3D sound source localization. Talking and listening while looking at the face of the utterance partner is also an important behavior for improving dialogue interaction between humans and robots. For that purpose, three-dimensional sound source localization is also important.
実環境を想定した従来技術として特許文献1に記載のものがある。特許文献1に記載の技術は、分解能が高いMUSIC法と呼ばれる公知の音源定位の手法を用いている。
There exists a thing of
特許文献1に記載の発明では、マイクロホンアレイを用い、マイクロホンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルである雑音空間とを求める。さらに、マイクロホンアレイのうち、1つのマイクロホンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、MUSIC法により音源の方向を推定する。
In the invention described in
MUSIC法は分解能が高いという特長があるが、MUSIC法を使用する場合には音源の数を与えなければならないという問題がある。特許文献1に記載の技術では、音源は一つであることが想定されているため、こうした問題は生じない。しかし、実際にロボットが稼動する環境としてはそのような環境であることはまれで、常に複数の音源が存在しており、しかもその数は一定していない。MUSIC法を用いる場合、音源の数の予測を誤ると音源定位も誤ってしまい、ロボットが人間と正しくインタラクションをすることが困難となってしまう。特に、音源の数を多く予測しすぎると、好ましいインタラクションが難しくなるだけでなく、計算コストも高くなるという問題がある。
The MUSIC method has a feature of high resolution, but there is a problem that the number of sound sources must be given when the MUSIC method is used. In the technique described in
さらに特許文献1に記載の技術では、音源定位は2次元的に行なわれている。しかし、実際のロボットの稼働環境は2次元ではなく、3次元的である。例えば、商店街などでは比較的高い位置にスピーカが置かれており、そのスピーカから常に音声が流されていることが多い。また、スピーカの位置は一定であるが、音量が変化することもある。そうした環境では音源を3次元的に定位することが好ましいが、特許文献1に記載の技術では2次元的にしか行なえないという問題がある。
Furthermore, in the technique described in
特に人間を相手にするロボットの場合、人間の身長はさまざまで、大人の場合にはロボットより高い位置で話し、子供の場合には逆にロボットより低い位置で話すことが多い。そうした点からも、3次元的な音源定位をすることが望まれる。ロボットと人とが対話するときには、ロボットの顔を相手の顔の方向に向ける必要があるが、3次元的な音源定位が行なえないと、そのような対話を行なうことは困難である。 In particular, in the case of a robot against a human being, the height of the human being varies, and in the case of an adult, the person speaks at a higher position than the robot, and the child often speaks at a lower position than the robot. From such a point, it is desirable to perform three-dimensional sound source localization. When a robot and a person interact with each other, it is necessary to point the robot's face in the direction of the opponent's face, but it is difficult to perform such a conversation unless three-dimensional sound source localization is performed.
さらに、人間は頻繁に移動するため、音源を実時間で安定してトラッキングすることも必要である。 Furthermore, since humans move frequently, it is also necessary to track the sound source stably in real time.
それゆえに本発明の目的は、MUSIC法を使用して安定的に音源定位を行なうことができる音源定位装置を提供することである。ここでの音源定位とは、音源の方位を継続的に特定することをいう。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a sound source localization apparatus that can stably perform sound source localization using the MUSIC method. Here, sound source localization refers to continuously specifying the direction of the sound source.
本発明の他の目的は、MUSIC法を使用して安定的に音源をトラッキング可能な音源定位装置を提供することである。 Another object of the present invention is to provide a sound source localization apparatus that can stably track a sound source using the MUSIC method.
本発明のさらに他の目的は、MUSIC法を使用して安定的に音源のトラッキングを行ない、音源の発生及び消滅を精度高く実時間で予測できる音源定位装置を提供することである。 Still another object of the present invention is to provide a sound source localization apparatus that can stably track a sound source using the MUSIC method and accurately predict the generation and disappearance of the sound source in real time.
本発明の第1の局面によれば、音源定位装置は、マイクロホンアレイの出力から得られる複数チャンネルの音源信号の各々と、マイクロホンアレイに含まれる各マイクロホンの間の位置関係とに基づいて、マイクロホンアレイの位置に関連して定められる点を中心とする3次元空間内で定義された複数の方位の各々について、MUSICアルゴリズムにより、所定時間ごとにMUSICパワーを算出するためのMUSIC応答算出手段と、複数の方位の各々について、MUSIC応答算出手段により時系列として得られたMUSICパワーの値の強度及びその変化量に基づいて、音源の発生から消滅までの音源の方位の変化を検出するための音源推定手段とを含む。 According to the first aspect of the present invention, the sound source localization apparatus is based on each of a plurality of sound source signals obtained from the output of the microphone array and a positional relationship between the microphones included in the microphone array. MUSIC response calculating means for calculating MUSIC power for each predetermined time by a MUSIC algorithm for each of a plurality of orientations defined in a three-dimensional space centered on a point defined in relation to the position of the array; For each of a plurality of directions, a sound source for detecting a change in the direction of the sound source from the generation to the disappearance of the sound source based on the intensity of the MUSIC power value obtained as a time series by the MUSIC response calculation means and the amount of change Estimation means.
好ましくは、音源推定手段は、複数の方位の各々に対して、複数の方位の内で、処理対象となっている方位に隣接する方位の各々に関して直前にMUSIC応答算出手段により算出されたMUSICパワーの値と、当該処理対象となっている方位に関して得られた最新のMUSICパワーの値との差を算出し、その差のうちで所定の条件を充足する値を当該方位についてのMUSICΔパワーとして出力するためのMUSICΔパワー算出手段と、複数の方位の各々に対して、当該方位についてMUSIC応答算出手段により算出されたMUSICパワーの値と、当該方位についてMUSICΔパワー算出手段により出力されたMUSICΔパワーとに基づいて、音源の発生があったか否かを検出し、音源の発生の検出に応答して、音源発生を示す情報とその方位を示す情報とを出力するためのオンセット検出手段と、オンセット検出手段により音源の発生が検出されたことに応答して、オンセット検出手段により発生が検出された音源の方位を、MUSIC応答算出手段により当該音源の方位に隣接する方位の各々について算出されたMUSICパワーの値と、当該音源の方位に隣接する方位の各々についてMUSICΔパワー算出手段により出力されたMUSICΔパワーとに基づいて、当該音源の消滅までトラッキングするためのトラッキング手段とを含む。 Preferably, the sound source estimation means, for each of the plurality of azimuths, includes the MUSIC power calculated by the MUSIC response calculation means immediately before each of the azimuths adjacent to the processing target azimuth among the plurality of azimuths. And the latest MUSIC power value obtained for the azimuth to be processed is calculated, and a value satisfying a predetermined condition is output as the MUSIC Δ power for the azimuth. MUSICΔ power calculation means for performing, for each of a plurality of azimuths, the value of MUSIC power calculated by the MUSIC response calculation means for the azimuth and the MUSICΔ power output by the MUSICΔ power calculation means for the azimuth On the basis of whether or not a sound source has been generated, and in response to the detection of the sound source, Onset detection means for outputting information indicating the direction and the direction of the sound source, and in response to the detection of the generation of the sound source by the onset detection means, the sound source detected by the onset detection means MUSIC power value calculated by the MUSIC response calculating means for each of the azimuths adjacent to the direction of the sound source, and MUSIC Δ power output by the MUSIC Δ power calculating means for each of the directions adjacent to the direction of the sound source And tracking means for tracking until the sound source disappears.
より好ましくは、音源定位装置はさらに、MUSIC応答算出手段により出力されたMUSICパワーの移動平均を複数の方位の各々に対して算出して平滑化するための平滑化手段を含む。MUSICΔパワー算出手段と、トラッキング手段はいずれも平滑化手段により平滑化されたMUSICパワーを入力として受ける。 More preferably, the sound source localization apparatus further includes a smoothing unit for calculating and smoothing the moving average of the MUSIC power output by the MUSIC response calculating unit for each of a plurality of directions. Both the MUSIC Δ power calculation means and the tracking means receive the MUSIC power smoothed by the smoothing means as an input.
さらに好ましくは、オンセット検出手段は、複数の方位の各々に対して、MUSICΔパワー算出手段により算出されたMUSICΔパワーの値が第1のオンセット用しきい値より大きく、かつMUSIC応答算出手段により算出されたMUSICパワーの値が第2のオンセット用しきい値より大きいか否かを判定するための第1の判定手段と、第1の判定手段による判定結果に基づいて、音源の発生を検出するための第2の判定手段とを含む。 More preferably, the onset detection means has a value of the MUSICΔ power calculated by the MUSICΔ power calculation means larger than the first onset threshold for each of the plurality of directions, and the MUSIC response calculation means. Based on the first determination means for determining whether or not the calculated MUSIC power value is greater than the second onset threshold, and the determination result by the first determination means, the generation of the sound source is performed. Second determining means for detecting.
第2の判定手段は、第1の判定手段による判定結果が肯定であった方位のうち、当該方位について算出されているMUSICパワーの上位から限定された一定個数のみを、検出された音源として特定するための音源限定手段を含んでもよい。 The second determination means identifies only a certain number of the azimuths determined by the first determination means as a detected sound source from the top of the MUSIC power calculated for the azimuth. The sound source limiting means for performing may be included.
好ましくは、トラッキング手段は、オンセット検出手段により音源の発生が検出されたことに応答して、当該検出以後、所定時間ごとにMUSIC応答算出手段により出力されるMUSIC応答のうちで、音源の方位に隣接する方位について算出されるMUSICパワーの値の最大値を辿ることにより、発生が検出された音源の移動をトラッキングするための手段と、トラッキングするための手段によりトラッキングされた音源の方位について算出されたMUSICパワー及びMUSICΔパワーが所定の条件を充足したときに、当該音源の消滅を検出し、トラッキングするための手段によるトラッキングを中止させるための音源消滅検出手段とを含む。 Preferably, the tracking unit responds to the detection of the generation of the sound source by the onset detection unit, and the direction of the sound source among the MUSIC responses output by the MUSIC response calculation unit every predetermined time after the detection. By tracing the maximum value of the MUSIC power value calculated for the azimuth adjacent to the signal, the means for tracking the movement of the sound source in which the occurrence is detected and the direction of the sound source tracked by the means for tracking are calculated. Sound source disappearance detecting means for detecting the disappearance of the sound source and stopping the tracking by the means for tracking when the MUSIC power and the MUSICΔ power satisfy the predetermined condition.
より好ましくは、音源消滅検出手段は、トラッキングするための手段によりトラッキングされた音源の方位について算出されたMUSICΔパワーが第1のオフセット用しきい値より小か否かを判定するための第1のオフセット判定手段と、当該方位について算出されたMUSICパワーが当該音源の発生時のMUSICパワーよりある正の定数だけ大きな第2のオフセット用定数より大きいか否かを判定するための第2のオフセット判定手段と、第1及び第2のオフセット判定手段の判定結果のいずれかが肯定であるという結果が、MUSIC応答算出手段により所定時間ごとに算出されたMUSIC応答について所定回数(好ましくは複数回)だけ連続して得られたときに、トラッキングするための手段によりトラッキングされている音源が消滅したと判定し、トラッキングを中止させるための手段とを含む。 More preferably, the sound source disappearance detecting unit is a first unit for determining whether or not the MUSICΔ power calculated for the direction of the sound source tracked by the unit for tracking is smaller than a first offset threshold value. Offset determination means and a second offset determination for determining whether or not the MUSIC power calculated for the direction is larger than a second offset constant that is larger than the MUSIC power at the time of generation of the sound source by a certain positive constant The result that either one of the determination results of the means and the first and second offset determination means is affirmative is the predetermined number of times (preferably a plurality of times) for the MUSIC response calculated every predetermined time by the MUSIC response calculation means. Sounds tracked by means of tracking when obtained continuously There were determined to have disappeared, and means for stopping the tracking.
本願発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの音源定位装置の各手段として機能させる。 When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to function as each means of any of the sound source localization apparatuses described above.
以下の本発明の実施の形態の説明において、同一の部品には同一の参照番号を付してある。それらの機能も同一である。したがってそれらについての詳細な説明は繰返さない。 In the following description of the embodiments of the present invention, the same reference numerals are assigned to the same components. Their functions are also the same. Therefore, detailed description thereof will not be repeated.
[概要]
本実施の形態では、ロボットの頭部付近にマイクロホンアレイを配置し、これらマイクロホンアレイから得られた信号からリアルタイムで複数個の音源を定位し、それらのトラッキングを行なう。そのために、以下に説明する実施の形態の音源定位装置は、音源数を固定したMUSICアルゴリズムによりMUSIC空間スペクトルを算出し、得られたMUSIC空間スペクトルを直接に用いて音源数とその位置とを動的に推定する仕組みを採用する。
[Overview]
In the present embodiment, a microphone array is arranged near the head of the robot, a plurality of sound sources are localized in real time from signals obtained from these microphone arrays, and tracking thereof is performed. For this purpose, the sound source localization apparatus of the embodiment described below calculates the MUSIC spatial spectrum by the MUSIC algorithm with a fixed number of sound sources, and directly uses the obtained MUSIC spatial spectrum to move the number of sound sources and their positions. Adopt a mechanism that estimates automatically.
[構成]
図1に、マイクロホンアレイをロボット30の胸部にフィットさせた状態を示す。具体的には、ロボット30の首の周囲にマイクロホンをフィットさせるためのマイクロホン台32を作成し、複数のマイクロホンMC1等をこのマイクロホン台32に固定した後にマイクロホン台32をロボット30の首の周りに固定してある。
[Constitution]
FIG. 1 shows a state in which the microphone array is fitted to the chest of the
図2に、マイクロホン台32の正面図、平面図、及び右側面図を示す。図2を参照して、マイクロホンMC1等は全部で14個だけ使用される。それらのうち9個はマイクロホン台32の前部に取付けられ、残りの5個はロボット30の首を囲む形でマイクロホン台32の上面に取付けられている。なお、14個のマイクロホンのうち、中央にあるマイクロホンMC1の出力については、後の処理で他と区別して使用する。本実施の形態では、各マイクロホンは無指向性のものを用いている。
FIG. 2 shows a front view, a plan view, and a right side view of the
図3は、図1に示すロボットのうち、音源定位に関係する音源定位処理部50のみを取り出してブロック図形式で示した図である。図3を参照して、音源定位処理部50は、マイクロホンMC1等を含むマイクロホンアレイ52から14個のアナログ音源信号を受け、アナログ/デジタル変換を行なって14個のデジタル音源信号を出力するA/D変換器54と、A/D変換器54から出力される14個のデジタル音源信号を受け、MUSIC法で必要とされる相関行列とその固有値及び固有ベクトルを100ミリ秒について1ブロックとしてブロックごとに出力するための固有ベクトル算出部60と、固有ベクトル算出部60からブロックごとに出力される固有ベクトルを使用し、MUSIC法によりMUSIC空間スペクトルを出力するMUSIC処理部62と、MUSIC処理部62が出力するMUSIC空間スペクトルに基づいて、音源数とその位置とを動的に推定してその位置(方向)を表す値(本実施の形態では、3次元極座標の内の2つの偏角φ及びθとする。付録の「MUSIC応答」を参照。)を時系列で出力する音源推定部64と、音源推定部64の出力の時系列を蓄積するためのバッファ66とを含む。なお、本明細書では、「MUSIC応答」とは、MUSICアルゴリズムにより得られるMUSIC空間スペクトルを所定の式で平均化したものである。詳細については付録の「MUSIC応答」を参照されたい。
FIG. 3 is a block diagram showing only the sound source
本実施の形態では、A/D変換器54は、一般的な16kHz/16ビットで各マイクロホンの出力をA/D変換する。
In the present embodiment, the A /
固有ベクトル算出部60は、A/D変換器54の出力する14個のデジタル音源信号を4ミリ秒のフレーム長でフレーム化するためのフレーム化処理部80と、フレーム化処理部80の出力する14チャンネルのフレーム化された音源信号に対してそれぞれFFT(Fast Fourier Transformation)を施し、所定個数の周波数領域(以下、各周波数領域を「ビン」と呼び、周波数領域の数を「ビン数」と呼ぶ。)に変換して出力するFFT処理部82と、FFT処理部82から4ミリ秒ごとに出力される各チャネルの各ビンの値を100ミリ秒ごとにブロック化するためのブロック化処理部84と、ブロック化処理部84から出力される各ビンの値の間の相関を要素とする相関行列を所定時間ごと(100ミリ秒ごと)に算出し出力する相関行列算出部86と、相関行列算出部86から出力される相関行列を固有値分解し、固有ベクトル92をMUSIC処理部62に出力する固有値分解部88とを含む。なお本実施の形態では、音源信号の周波数成分のうち、空間的分解能が低い1kHz以下の帯域と、空間的エイリアシングが起こり得る6kHz以上の帯域を除外する。
The
通常、FFTでは512〜1024点を使用する(16kHzのサンプリングレートで32〜64ミリ秒に相当)が、ここでは1フレームを4ミリ秒(FFTでは64〜128点に相当)とした。このようにフレーム長を短くすることにより、FFTの計算量が少なくてすむだけでなく、後の相関行列の算出、固有値分解、及びMUSIC応答の算出における計算量も少なくて済む。その結果、性能を落とすことなく、比較的非力なコンピュータを用いても十分にリアルタイムで音源定位を行なうことができる。 Normally, 512 to 1024 points are used in FFT (corresponding to 32 to 64 milliseconds at a sampling rate of 16 kHz), but here one frame is set to 4 milliseconds (corresponding to 64 to 128 points in FFT). By reducing the frame length in this way, not only the amount of calculation of FFT is reduced, but also the amount of calculation in later calculation of correlation matrix, eigenvalue decomposition, and calculation of MUSIC response is reduced. As a result, sound source localization can be performed sufficiently in real time even if a relatively weak computer is used without degrading performance.
MUSIC処理部62は、マイクロホンアレイ52に含まれる各マイクロホンの位置を所定の座標系を用いて表す位置ベクトルを記憶するための位置ベクトル記憶部100と、位置ベクトル記憶部100に記憶されているマイクロホンの位置ベクトル、及び固有値分解部88から出力される固有ベクトルを用いて、音源数が固定されているものとしてMUSIC法によりMUSIC空間スペクトルを算出し出力するMUSIC空間スペクトル算出部104とを含む。ブロックごとに得られる相関行列の固有値が音源数に関連することは、例えばF.アサノら、「リアルタイム音源定位及び生成システムと自動音声認識におけるその応用」、Eurospeech,2001、アールボルグ、デンマーク、2001、1013−1016頁(F. Asano, M. Goto, K. Itou, and H. Asoh, “Real-time sound source localization and separation system and its application on automatic speech recognition,” in Eurospeech 2001, Aalborg, Denmark, 2001, pp. 1013-1016)にも記載されており、既に知られている事項である。
The
なお、本実施の形態では、各音源の2次元的な方位角だけでなく、仰角も推定する。そのために、MUSICアルゴリズムの3次元版(付録を参照)を実装した。方位角と仰角とのセットを、これ以降、音源方位(DOA)と呼ぶ。このアルゴリズムでは、音源までの距離は推定しない。音源方位のみを推定するようにすることで、処理時間を大幅に減少させることができる。 In the present embodiment, not only the two-dimensional azimuth angle of each sound source but also the elevation angle is estimated. To that end, a three-dimensional version of the MUSIC algorithm (see appendix) was implemented. The set of azimuth and elevation is hereinafter referred to as sound source azimuth (DOA). This algorithm does not estimate the distance to the sound source. By estimating only the sound source azimuth, the processing time can be significantly reduced.
MUSIC処理部62はさらに、MUSIC空間スペクトル算出部104により算出されたMUSIC空間スペクトルに基づいて、MUSIC法にしたがいMUSIC応答と呼ばれる値を各方位(後述する。)について算出し出力するためのMUSIC応答算出部106を含む。
The
ここでいう「方位」とは、音源位置を探索するために3次元空間に定義されたメッシュの各枠のことをいう。このメッシュは、以下の実施の形態では、仰角5度の範囲で空間を輪状に区切り、仰角の大きさにより異なる数の探索点を設けた。ここでいう「探索点」とは、上記したメッシュの中央の点のことをいう。 The “azimuth” here refers to each frame of the mesh defined in the three-dimensional space in order to search for the sound source position. In this embodiment, the mesh is divided into a ring shape in a range of an elevation angle of 5 degrees, and different numbers of search points are provided depending on the size of the elevation angle. The “search point” here refers to the center point of the mesh described above.
探索点の数は、仰角が0度の輪においては隣接する探索点への方向角が5度となるように選ばれている。探索点の数は仰角が0度の輪で最大であり、仰角が大きくなるにつれて少なくなる。この際、一つの輪内の探索点の間の距離(角度と考えてもよい。)は互いに等しく、その距離(角度)は仰角が0度の輪における隣接する探索点同士の距離(角度)とできるだけ近くなるように選ばれている。 The number of search points is selected so that the direction angle to an adjacent search point is 5 degrees in a ring with an elevation angle of 0 degrees. The number of search points is the maximum for a wheel with an elevation angle of 0 degrees, and decreases as the elevation angle increases. At this time, the distances (which may be considered as angles) between search points in one ring are equal to each other, and the distances (angles) are the distances (angles) between adjacent search points in a ring having an elevation angle of 0 degrees. And is chosen to be as close as possible.
音源推定部64は、MUSIC応答算出部106により算出されたMUSIC応答のピークを、一時的に時系列に所定数だけFIFO形式で蓄積するためのバッファ108と、バッファ108に蓄積された各ブロックの各探索点のMUSIC応答について、移動平均を算出し平滑化することでノイズを除去するための平滑化フィルタ部110と、平滑化フィルタ部110の出力する各ブロックの各探索点のMUSIC応答の値に基づき、各探索点におけるMUSIC応答の、前ブロックのMUSIC応答との差(MUSICΔパワー)を算出するためのMUSICΔスペクトログラム算出部112とを含む。MUSICΔスペクトログラム算出部112は、具体的には以下のようにしてMUSICΔパワーを算出する。すなわち、探索点の各々につき、現ブロックのMUSICパワーの値と、その探索点に隣接する全ての点における、前ブロックのMUSICパワーとの間の差を取る。その差の最小値をその探索点におけるMUSICΔパワーとする。なお、ここでは、時系列として、各方位について算出されるMUSICパワーをMUSICスペクトログラムと呼び、各方位について上のように算出された値の時系列をMUSICΔスペクトログラムと呼んでいる。
The sound
音源推定部64はさらに、平滑化フィルタ部110から出力される、平滑化された各ブロックのMUSIC応答を使用して、音源が音の発生を開始した方位(音源が音声の発生活動を開始したことをオンセットと呼ぶ。)を検出する処理と、音源からの音の発生が停止した方位及び時刻(音源による音の発生の停止をオフセットと呼ぶ。)を検出する処理とを行ない、オンセット及びオフセットの発生方位を出力するためのオンセット・オフセット検出部114と、MUSICΔスペクトログラム算出部112の出力するMUSICΔパワーと、オンセット・オフセット検出部114からのオンセット検出出力及びオフセット検出出力に応答して、音源のオンセットからオフセットまでをトラッキングするためのトラッキング部118と、MUSICΔスペクトログラム算出部112、オンセット・オフセット検出部114及びトラッキング部118がそれぞれの処理に使用する、各探索点の位置、及び、各探索点に隣接する、探索対象となる探索点に関する情報を記憶するための探索点記憶部116とを含む。
The sound
なお、各音源からの音声信号のパワーを算出するに先立って、音声信号に対してチャンネル間スペクトルバイナリマスキング処理を行なう。これは、2つのチャンネル間において、パワーの大きな方の信号を残し、他方のチャンネルの信号はゼロにする、という処理である。こうすることにより、チャンネル間の干渉リークを削減することができる。また、マイクロホンアレイ52のうち、中央に位置するマイクロホンMC1からの音声信号を用い、全ての音声信号から周囲の音楽による雑音を除去する処理を行なう。
Prior to calculating the power of the audio signal from each sound source, inter-channel spectral binary masking processing is performed on the audio signal. This is a process of leaving the signal with the larger power between the two channels and setting the signal of the other channel to zero. By doing so, interference leakage between channels can be reduced. Further, using the audio signal from the microphone MC1 located in the center of the
[コンピュータによる実現]
上記した音源定位処理部50は、実際にはコンピュータハードウェアと、当該コンピュータハードウェアにより実行されるコンピュータプログラムとにより、ハードウェアとソフトウェアとの協働により実現される。以下、音源定位処理部50の中でも、本実施の形態の特徴となる音源推定部64の機能を実現するためのコンピュータプログラムの制御構造について説明する。
[Realization by computer]
The above-described sound source
図4を参照して、音源推定部64の機能を実現するためのプログラムは、ロボットの電源投入後、初期化を行なうステップ130と、MUSIC応答算出部106からバッファ108を介して処理対象となるブロックのMUSIC応答を受信するステップ132と、処理対象のブロックのMUSIC応答に対する移動平均をとることにより、MUSIC応答からノイズを除去するための平滑化処理を行なうステップ134と、全ての探索点について、MUSICΔパワー(MUSICΔスペクトログラム)を算出するステップ136と、ステップ136で各方位について算出されたMUSICΔパワー、及びMUSICパワーに基づいて、音源の発生(オンセット)を検出するステップ138と、ステップ138で検出された音源をトラッキングし、処理をステップ132に戻すステップ140とを含む。なお、全ての探索点の識別子とその方位、並びにその探索点に隣接する探索点の識別子は、図3に示す探索点記憶部116に記憶されている。
Referring to FIG. 4, the program for realizing the function of sound
既に述べたとおり、ステップ136におけるMUSICΔスペクトルの算出にあたっては、各探索点について、現ブロックのMUSICパワーと、その探索点に隣接する探索点の各々の前ブロックのMUSICパワーとの差を算出し、その中の最小値を採用することで、各探索点について、ブロックごとにMUSICΔパワーが算出される。
As already described, in calculating the MUSIC Δ spectrum in
図5を参照して、図4のステップ138で実行されるオンセット検出処理は、トラッキングの対象となっている探索点以外の各探索点について、以下に述べるステップ162,164,166及び168を実行するステップ160を含む。
Referring to FIG. 5, the onset detection process executed in
ステップ160の処理は、その探索点について図4のステップ134で算出されたMUSICΔパワーの値が1.0dBより大きいか否かを判定し、MUSICΔパワーの値が1.0dB以下の場合にはその探索点に関する処理を終了するステップ162と、ステップ162でその探索点のMUSICΔパワーの値が1.0dBより大きいと判定されたときに実行され、その探索点のMUSICパワーの値が1.8dBより大きいか否かを判定し、MUSICパワーの値が1.8dB以下の場合にはこの探索点に関する処理を終了するステップ164と、ステップ164でMUSICパワーの値が1.8dBより大きいと判定されたときに実行され、この探索点をオンセット候補として一旦その探索点の識別子を記憶するステップ166と、ステップ166に続き、この探索点のMUSICパワーをこの音源のトラッキングのオンセットMUSICパワーとして記憶してこの探索点に対する処理を終了するステップ168とを含む。なお、ステップ166では、予め準備したオンセット候補数を示す変数に1が加算される。
The process of
オンセット検出処理はさらに、ステップ160において全ての探索点についてオンセット候補か否かが判定された後に実行され、オンセット候補数が0か否かを判定し、オンセット候補数が0のときには現ブロックに対するオンセット検出処理を終了するステップ170と、ステップ170でオンセット候補数が0ではないと判定されたことに応答して実行され、オンセット候補のうち、MUSICパワーの値が最大のものからMUSICパワーの値の順番で2個までをこのブロックにおけるオンセットとして選択するステップ172と、ステップ172において選択された最大2個のオンセットの各々に対し、新たにトラッキング用のリストを準備し、各々の先頭要素にオンセットMUSICパワーなど、オンセットとなった探索点に関する情報を格納してオンセット検出処理を終了するステップ174とを含む。ここで新たに作成されたトラッキングリストの全てが、以後のトラッキングの対象となる。各トラッキングリストの先頭要素には、トラッキングの終了フラグを格納する領域が設けられ、その値が0に設定される。トラッキングの終了フラグとは、そのトラッキングリストに対応する音源のトラッキングが終了したか否かを示すフラグである。トラッキングの終了フラグは、その値が0であればそのリストに対するトラッキングが実行中であることを示し、その値が9であればそのリストに対するトラッキングが終了した(音源からの音の発生が終了した)ことを示す。
The onset detection process is further executed after it is determined in
図6を参照して、図4のステップ140で実行されるトラッキング処理は、トラッキングリストの各々について、以下に説明するステップ202─214を実行するステップ200を含む。
Referring to FIG. 6, the tracking process performed in
ステップ200において、各トラッキングリストについて実行される処理は、対象となるトラッキングリストについてのトラッキングの終了フラグが0か否かを判定し、終了フラグが0でないときにはこのトラッキングリストに対する処理を終了するステップ202と、ステップ202でこのトラッキングの終了フラグが0と判定されたときに実行され、トラッキングリストの末尾の探索点(前ブロックで検出された音源の方位を示す。)の周囲の探索点の全てについて、算出済のMUSICパワーを記憶装置から読出すステップ204と、読出されたMUSICパワーのうち最大のものに対応する探索点を、このトラッキングリストの末尾に追加するステップ206とを含む。
In
ステップ200の処理はさらに、ステップ206に続き、対象となっているトラッキングリストについてオフセット検出処理を実行するステップ208と、ステップ208に続き、オフセット検出処理によりオフセットフラグに設定された値が0か否かを判定して判定結果により制御の流れを分岐させるステップ210とを含む。オフセットフラグは、0のときこのトラッキングリストに対応する音源について、音の発生が停止したと判定されたときには9となり、それ以外のとき、すなわち引続き音源があると判定されたときには0に設定される。
The processing in
ステップ200で実行される処理はさらに、ステップ210においてオフセットフラグの値が0でないと判定されたときに実行され、ステップ208のオフセット検出処理の結果、5ブロック続いてオフセットフラグが0以外の値に設定されたか否かを判定し、5ブロックに達していないときには何もせず処理対象のトラッキングリストに対する処理を終了するステップ212と、ステップ212において、5ブロック連続してこのトラッキングリストについてオフセットフラグが0でなかったと判定されたことに応答して実行され、このトラッキングリストの終了フラグをセット(終了フラグの値を9に設定)してこのトラッキングリストに対する処理を終了するステップ214とを含む。
The processing executed in
図7を参照して、図6のステップ208で実行されるオフセット検出処理は、対象となるトラッキングリストに最後に追加された探索点(図6のステップ206)について、そのMUSICΔパワーが−1.2dBより小か否かを判定し、判定結果により制御の流れを分岐させるステップ230と、ステップ230でMUSICΔパワーが−1.2dBより小であると判定されたときに実行され、このトラッキングリストのオフセットフラグを9に設定してオフセット検出処理を終了させるステップ236とを含む。
Referring to FIG. 7, in the offset detection process executed in
オフセット検出処理はさらに、ステップ230においてMUSICΔパワーの値が−1.2dB以上であると判定されたときに、オフセット検出のためのしきい値θH=オンセットMUSICパワー+α(α>0)という式にしたがってオフセット検出のためのしきい値θHを算出するステップ232と、トラキングリストに最後に追加された探索点(図6のステップ206)の現ブロックのMUSICパワーが上記したしきい値θHより小さいか否かを判定し、もしも判定結果が肯定であれば制御をステップ236に進めるステップ234と、ステップ234での判定が否定であるときに、このトラッキングリストのオフセットフラグを0に設定してオフセット検出処理を終了するステップ238とを含む。
In the offset detection process, when it is determined in
後述するように、オフセット検出において、トラッキング中の音源のMUSICパワーがオンセット時のパワーよりも小さくなったときではなく、オンセット時のパワー+αよりも小さくなったときに強制的にオフセットとすることにより、音源のトラッキングの精度が高くなるという効果が得られる。 As will be described later, in the offset detection, the offset is forcibly set when the MUSIC power of the sound source being tracked is smaller than the power at the time of onset, and when it is smaller than the power at the time of onset + α. As a result, the effect of increasing the accuracy of tracking of the sound source can be obtained.
[動作]
上記実施の形態に係る音源定位処理部50は以下のように動作する。マイクロホンアレイが図1及び図2に示すようにマイクロホン台32を用いてロボット30に装着されるものとする。
[Operation]
The sound source
マイクロホンアレイ52は音源からの音声を14個のアナログ電気信号に変換し、A/D変換器54に与える。A/D変換器54は16kHzでこれら信号を16ビットのデジタル信号化し、14個のデジタル信号をフレーム化処理部80に与える。
The
フレーム化処理部80は、4ミリ秒のフレーム長でこれら各チャンネルのデジタル音源信号をフレーム化し、FFT処理部82に与える。FFT処理部82は、各チャンネルの各フレームのデジタル音源信号に対してFFTを施し、各周波数成分の出力に変換してブロック化処理部84に与える。この間、音声信号に対して前述のチャンネル間スペクトルバイナリマスキング処理、及び中央に位置するマイクロホンMC1からの音声信号を用い、全ての音声信号から周囲の音楽による雑音を除去する処理を行なう。
The framing
ブロック化処理部84は、FFT処理部82から4ミリ秒ごとに出力される信号を100ミリ秒ごとにブロック化し、相関行列算出部86に与える。相関行列算出部86はこれら各ブロックについて、チャンネル毎の相関行列を算出し、固有値分解部88に与える。固有値分解部88は、相関行列算出部86により算出された相関行列に固有値分解を施し、MUSIC空間スペクトル算出部104に与える。
The blocking
MUSIC空間スペクトル算出部104以下の処理は通常のMUSIC法の処理を3次元化したものである。まずMUSIC空間スペクトル算出部104は、位置ベクトル記憶部100に記憶された位置ベクトルと、固有値分解部88から出力される固有ベクトル92とに基づき、音源数が固定したものとしてMUSIC空間スペクトルを100ミリ秒ごとに算出しMUSIC応答算出部106に与える。MUSIC応答算出部106はMUSIC空間スペクトルに基づき、100ミリ秒ごとにMUSIC応答を算出しバッファ108に記憶させる。
The processing after the MUSIC spatial
バッファ108は、MUSIC応答算出部106から出力されるMUSIC応答を時系列で、FIFO形式で所定数だけ蓄積する。
The
平滑化フィルタ部110は、バッファ108に記憶された各ブロックのMUSIC応答を読出し(図4のステップ132)、そのブロックのMUSIC応答について、所定ブロックにわたる移動平均をとり、平滑化されたMUSICパワーをMUSICΔスペクトログラム算出部112及びオンセット・オフセット検出部114に与える。
The smoothing
MUSICΔスペクトログラム算出部112は、ブロックデータを受信すると(図4のステップ132)、各探索点について、現ブロックのMUSICパワーと、その探索点に隣接する探索点の各々の前ブロックのMUSICパワーとの差を算出し、その中の最小値を採用することで、各探索点について、ブロックごとにMUSICΔパワーを算出し(図4のステップ134)トラッキング部118に与える。オンセット・オフセット検出部114は、既に述べた構造のプログラム(図5及び図7)により実現され、平滑化フィルタ部110から出力される平滑化後のMUSICパワー及びMUSICΔパワーに基づいて、各ブロックにおいて音源のオンセット又はオフセットがあればそれらを検出し、トラッキング部118に与える。オンセット検出時にはその方位(探索点)も検出され、トラッキング部118に与えられる。
When the MUSIC Δ spectrogram calculation unit 112 receives the block data (
具体的には、オンセットの検出においては、図5のステップ162及び164により示されるように、各ブロックについて、MUSICΔパワーが1.0dBより大きく、かつMUSICパワーが1.8dBより大きい探索点がオンセット候補となる。図5のステップ170−174により示されるように、各ブロックについてオンセット候補があるときには、上位から2個までがオンセットとして検出される。
Specifically, in onset detection, as indicated by
オフセットの検出では、図7のステップ230─234により示されるように、トラッキングされた最後の探索点について、そのMUSICΔパワーが−1.2dBより小さいときにはオフセットと判定されるが、それ以外にもMUSICパワーがその音源のオンセットMUSICパワー+αよりも小さくなったときにも強制的にオフセットと判定する。 In the detection of the offset, as indicated by steps 230-234 in FIG. 7, the last tracked search point is determined to be an offset when its MUSICΔ power is smaller than −1.2 dB. Even when the power becomes smaller than the onset MUSIC power + α of the sound source, the offset is forcibly determined.
トラッキング部118は、オンセット・オフセット検出部114からオンセット検出信号が与えられると、音源のトラッキングを開始する。具体的には、トラッキング部118は、オンセット検出後、その音源位置の探索点に隣接する探索点のうち、MUSICパワーが最大の探索点をトラッキングし(図6のステップ204─ステップ206)、オフセットが検出された時点でトラッキングを終了する。ただし、本実施の形態では、オフセットが発生した後、4ブロックまではトラッキングを継続し、5ブロック経過後もオンセット条件を満たす探索点がトラッキング方向に生じないときに初めてトラッキングを終了する(図6のステップ210,212及び214)。
When the onset detection signal is given from the onset / offset
トラッキング部118によってトラッキングされた音源方位はバッファ66にブロックごとに蓄積される。
The sound source direction tracked by the
以上のような動作によって、音源定位処理部50は継続的に複数個の音源の定位とトラッキングとを行なうことができる。
With the above operation, the sound source
図8−図10に、上記実施の形態に係る音源定位処理部50について、その性能を測るために行なった実験の結果を示す。この実験では、音源(Directions Of Arrival)定位の性能を測るために、以下の値を用いる。第1はDOA精度、第2はDOA挿入率である。DOA精度とは、上記した装置により、正しいDOAが検出された率のことである。DOA精度は高い方が好ましい。DOA挿入率とは、正しいDOAの数と比較して、ブロック当たりで余分に検出された音源数の平均値のことをいう。DOA挿入率は低い方が好ましい。
FIG. 8 to FIG. 10 show the results of experiments performed to measure the performance of the sound source
正しいDOAとしては、音源信号から得られた音源の活動を示す情報から、正しい音源数を使用して得られたDOAを用いた。各音源が活動している間の、DOAの予測位置から得られる軌跡を区分線形近似で近似した。音源が移動しているか否かをチェックするため、ビデオ映像も利用した。 As the correct DOA, DOA obtained by using the correct number of sound sources from information indicating the activity of the sound source obtained from the sound source signal was used. While each sound source was active, the trajectory obtained from the predicted DOA position was approximated by piecewise linear approximation. Video was also used to check whether the sound source was moving.
実験では、2つの異なった環境(OFC、UCW。これらについては後述する。)において、ヒューマノイド型ロボットに実装された音源定位処理部50によるDOA予測を行ない、そのDOA精度とDOA挿入率とを求めた。図8−図10はその結果を示している。これら環境は実験のための音声を収録した環境であり、具体的には以下のとおりである。
In the experiment, DOA prediction is performed by the sound source
すなわち、マイクロホンアレイによるデータ収録を2つの異なった環境で行なった。1つ目はオフィス環境(Office Environment:OFC)で、室内のエアコンとロボットの内部雑音が主な雑音源となる。2つ目の環境は、実験を行なった野外のショッピングモールの通路(Universal City Walk Osaka:UCW)である。UCWでの主な雑音源は、天井に設置されているスピーカから流れてくるポップ・ロックミュージックである。通路内のさまざまな位置およびさまざまな向きにロボットを配置して実験用データ及び画像の収録を行なった。なお、図8−図10において「OFC3」など、「OFC」又は「UCW」の後に付加されている数字は、録音の順番を示す。 That is, data recording by a microphone array was performed in two different environments. The first one is an office environment (OFC), and the internal noise of indoor air conditioners and robots are the main noise sources. The second environment is an outdoor shopping mall passage (UCW) where the experiment was conducted. The main noise source in UCW is pop-rock music flowing from speakers installed on the ceiling. The experimental data and images were recorded by placing the robot in various positions and various directions in the passage. 8 to 10, numbers added after “OFC” or “UCW” such as “OFC3” indicate the order of recording.
OFCでは、4つの参加者(4人の男性)を音源として用いた。最初に各参加者が1人ずつロボットに対して約10秒間話しかけた。この間、他の参加者は静かにしていた。収録の最後の15秒間では、4人の参加者が同時に発話した。録音時、各参加者はそれぞれ別々の音声キャプチャ装置に接続されたマイクロホンを着用していた。録音開始時の一時的な音を用いて、これら参加者の発話を録音したものとマイクロホンアレイ52からの音声信号の録音とを人手により同期させた。
In the OFC, four participants (four men) were used as sound sources. First, each participant spoke to the robot for about 10 seconds. During this time, the other participants were quiet. During the last 15 seconds of recording, four participants spoke at the same time. During recording, each participant wore a microphone connected to a separate audio capture device. Using the temporary sound at the start of recording, the recording of the speech of these participants and the recording of the audio signal from the
UCWでは、全ての録音には2人の参加者(いずれも男性)を音源として用いた。実験では、いずれの場合も、最初に各参加者が10秒程度順番に別々に話し、最後に同時に発話を行なった。UCW7及びUCW8では1人の参加者が移動、別の参加者が静止しながら、ほぼ全ての時間にわたり2人が共に発話していた。UCW1−4及びUCW9では、ロボットは天井のスピーカから遠く離れた位置に配置された。UCW5−8では、ロボットをスピーカの近く(数メートル)に配置した。UCW10−13では、ロボットをスピーカの直下に配置した。 In UCW, two participants (both men) were used as sound sources for all recordings. In each experiment, in each case, each participant first spoke separately for about 10 seconds, and finally spoke at the same time. In UCW7 and UCW8, one participant moved, while another participant was stationary, and the two were speaking together for almost all the time. In UCW1-4 and UCW9, the robot was placed far away from the speaker on the ceiling. In UCW5-8, the robot was placed near the speaker (several meters). In UCW10-13, the robot was placed directly under the speaker.
全ての試行において、ロボットを様々な方向に向け、音源を様々な位置に配置してデータの取得を行なった。 In all trials, the robot was pointed in various directions and the sound sources were placed in various positions to acquire data.
図8は、OFC及びUWC環境において、音源定位に関するパラメータのいくつかを変えて行なった試行でのDOA予測の性能(精度及び挿入率)を示す。変更されたパラメータは、平滑化フィルタ部110の有無、オフセット検出時のしきい値θTHに加算される値αの有無、ブロック当たりのオンセット数の制限の有無、及びトラッキングの前後、である。
FIG. 8 shows DOA prediction performance (accuracy and insertion rate) in trials performed by changing some of the parameters related to sound source localization in the OFC and UWC environments. The changed parameters are the presence / absence of the smoothing
MUSICスペクトログラムの算出で使用したパラメータの値は以下のとおりである。すなわち、NFFT(FFT長)=64、周波数範囲=1−6kHz、MUSIC空間スペクトル算出部104における固定音源数=2、である。NFFTの値を大きくすると性能は多少高くなるが、NFFT=64とすると動作クロック周波数2GHz程度の市販のCPUを使用してもリアルタイムで動作できるため、この値を使用した。
The parameter values used in the calculation of the MUSIC spectrogram are as follows. That is, NFFT (FFT length) = 64, frequency range = 1-6 kHz, and the number of fixed sound sources in the MUSIC spatial
図8の左側に、各実験条件とOFC及びUCWの各々とにおける、音源に関する平均のDOA精度を示し、図9の中央にDOA挿入率を示した。 The left side of FIG. 8 shows the average DOA accuracy for the sound source under each experimental condition and each of OFC and UCW, and the DOA insertion rate is shown in the center of FIG.
これらのグラフから、「αなし」とした場合のDOA精度が最も高いことが分かる。しかしこの場合にはまた、DOA挿入率が最も悪い。「平滑化なし」、「オンセット数制限なし」、及び「トラッキング前」について得られたDOA精度は互いによく似ている。しかし、「トラッキング前」ではDOA挿入率が低下していることが明確に見て取れる。これは、平滑化及び1ブロック当たりのオンセット数の制限が有効であることを示している。「トラッキング前」及び「トラッキング後」を比較すると、UCW3−6及びUCW10−11においてDOA精度にやや改善が見られるのに対し、UCW8−9ではDOA挿入率に非常に小さな改善しか見られないことが分かる。 From these graphs, it is understood that the DOA accuracy is highest when “no α” is set. However, in this case, the DOA insertion rate is also the worst. The DOA accuracy obtained for “no smoothing”, “no limit on number of sets”, and “before tracking” are very similar to each other. However, it can be clearly seen that the DOA insertion rate is decreasing “before tracking”. This indicates that smoothing and the limitation of the number of onsets per block are effective. Comparing “before tracking” and “after tracking”, UCW3-6 and UCW10-11 show a slight improvement in DOA accuracy, while UCW8-9 shows a very small improvement in DOA insertion rate. I understand.
環境音楽についてのDOA精度の結果を、図8の右側に示す。この結果によれば、UCW1−4及びUCW7−9においてDOA精度が低いことが分かる。これはロボットがスピーカから比較的遠くに配置されていたためであろう。UCW10−13ではDOA精度は100%に近い。これらの実験条件では、ロボットがスピーカの直下に配置されていて、背景音楽が明確に指向性を持った音源として検知されたためである。これに対し、ロボットがスピーカにほど近い位置に置かれたUCW5−6では、DOA精度は中間の値となっている。 The results of DOA accuracy for environmental music are shown on the right side of FIG. According to this result, it is understood that the DOA accuracy is low in UCW1-4 and UCW7-9. This is probably because the robot was placed relatively far from the speaker. In UCW10-13, the DOA accuracy is close to 100%. This is because, under these experimental conditions, the robot was placed directly under the speaker, and the background music was detected as a sound source with a clear directivity. On the other hand, in the UCW5-6 where the robot is placed close to the speaker, the DOA accuracy is an intermediate value.
各音源についての性能を検討すると、図9から、OFC2の第2及び第4の音源、UCW9の1番目の音源、及びUCW12の2番目の音源のDOA精度が低くなっている。これらの環境では、音源からの音声がロボットの背後にあったため、ロボットの前方からの音声では、パワー及び指向性の双方ともが低かったためと思われる。 Examining the performance of each sound source, as shown in FIG. 9, the DOA accuracy of the second and fourth sound sources of OFC2, the first sound source of UCW9, and the second sound source of UCW12 is low. In these environments, since the sound from the sound source was behind the robot, it seems that both the power and directivity were low in the sound from the front of the robot.
上記実施の形態に係る音源定位処理部50によれば、MUSIC応答の生データを用いて音源定位を行なっている。実験結果からも明らかなように、このような処理により、高い精度で音源数を予測し、トラッキングすることができる。また、オフセット検出のためのしきい値として、オンセット時のMUSICパワーの値にαを加算することで、オンセット時のMUSICパワーよりMUSICパワーが多少高くても、オフセットを検出したものと見なすことができ、その結果、DOAの後挿入の頻度を下げることができる。その結果、MUSIC法による音源定位を安定して精度高く行なうことができる。背景雑音の発生源が音源定位処理部50のすぐ近くにあるような場合には、精度は低下するが、実際のロボットの実装では、音声だけではなく画像を使用して音源が対話相手か否かを予測することもでき、精度の低下を防止することが期待できる。
According to the sound source
さらに、本実施の形態では3次元MUSIC法を用いているため、方位角だけではなく、ある範囲で仰角を含めて音源方位を推定することができる。そのため、実環境でさまざまな方向から音声を受ける環境でもロボットなどが正しく音源を定位して適切な動作を行なうことが可能になる。ロボットが人間とのインタラクションを行なう場合でも、相手の顔を見つめながら適切な動作を行なうことが期待でき、ロボットと人間とのインタラクションをよりスムーズなものとすることができる。
[コンピュータによる実現]
この実施の形態に係る音源定位処理部50は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現することができる。図11はこのコンピュータシステム330の内部構成を示す。
Furthermore, since the three-dimensional MUSIC method is used in the present embodiment, it is possible to estimate the sound source azimuth including not only the azimuth angle but also the elevation angle within a certain range. Therefore, even in an environment where voice is received from various directions in a real environment, a robot or the like can correctly locate a sound source and perform an appropriate operation. Even when the robot interacts with a human, it can be expected to perform an appropriate operation while looking at the face of the other party, and the interaction between the robot and the human can be made smoother.
[Realization by computer]
The sound source
図11を参照して、このコンピュータシステム330は、リムーバブルメモリの着脱部であるメモリポート370およびDVD(Digital Versatile Disc)ドライブ364を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
Referring to FIG. 11, this
コンピュータ340は、メモリポート370およびDVDドライブ364に加えて、CPU(中央処理装置)356と、CPU356、メモリポート370およびDVDドライブ364が接続されたバス366と、バス366に接続され、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を一時的に記憶するランダムアクセスメモリ(RAM)360と、バス366に接続され、大量のデータを記憶する不揮発性記憶装置であるハードディスク362と、バス366に接続され、A/D変換器54からの出力を受ける入出力インタフェース(I/F)368と、無線によりローカルエリアネットワーク(LAN)への接続を提供する無線ネットワークI/F372とを含む。
In addition to the
コンピュータシステム330に音源定位処理部50として機能させるためのコンピュータプログラムは、DVDドライブ364またはメモリポート370に挿入されるDVD390またはリムーバブルメモリ392に記憶され、さらにハードディスク362に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク362に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD390から、リムーバブルメモリ392から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態の音源定位処理部50として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上でオペレーティングシステム(OS)が動作しているときにはOSにより提供されることもある。それら機能はサードパーティのプログラム、またはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供されることもある。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音源定位処理部50としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions for causing the
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
[付録:MUSIC法]
M個のマイク入力のフーリエ変換Xm(k、t)は、式(1)のようにモデル化される。
[Appendix: MUSIC method]
The Fourier transform Xm (k, t) of M microphone inputs is modeled as shown in Equation (1).
まず、式(2)で定義される空間相関行列Rkを求め、式(3)に示すRkの固有値分解により、固有値の対角行列Λk及び固有ベクトルから成るEkが求められる。 First, a spatial correlation matrix R k defined by Equation (2) is obtained, and E k composed of an eigenvalue diagonal matrix Λ k and an eigenvector is obtained by eigenvalue decomposition of R k shown in Equation (3).
MUSIC空間スペクトルは式(4)と(5)とで求める。rは距離、θとφとはそれぞれ方位角と仰角とを示す。式(5)は、スキャンされる点(r、θ、φ)における正規化した位置ベクトルである。 The MUSIC spatial spectrum is obtained by equations (4) and (5). r is a distance, and θ and φ are an azimuth angle and an elevation angle, respectively. Equation (5) is a normalized position vector at the scanned point (r, θ, φ).
30 ロボット
32 マイクロホン台
50 音源定位処理部
52 マイクロホンアレイ
60 固有ベクトル算出部
62 MUSIC処理部
64 音源推定部
86 相関行列算出部
88 固有値分解部
104 MUSIC空間スペクトル算出部
106 MUSIC応答算出部
110 平滑化フィルタ部
112 MUSICΔスペクトログラム算出部
114 オンセット・オフセット検出部
118 トラッキング部
30
Claims (5)
前記複数の方位の各々について、前記MUSIC応答算出手段により時系列として得られたMUSICパワーの値の強度及びその変化量に基づいて、音源の発生から消滅までの音源の方位の変化を検出するための音源推定手段とを含む音源定位装置であって、
前記音源推定手段は、
前記複数の方位の各々に対して、前記複数の方位の内で、処理対象となっている方位に対応する枠に隣接する枠に対応する方位の各々に関して直前に前記MUSIC応答算出手段により算出されたMUSICパワーの値と、当該処理対象となっている方位に関して得られた最新のMUSICパワーの値との差を算出し、その差のうちで最小の値を当該方位についてのMUSICΔパワーとして出力するためのMUSICΔパワー算出手段と、
前記複数の方位のうち、音源の方位ではないものの各々に対して、前記MUSICΔパワー算出手段により算出されたMUSICΔパワーの値が第1のオンセット用しきい値より大きく、かつ前記MUSIC応答算出手段により算出されたMUSICパワーの値が第2のオンセット用しきい値より大きいか否かを判定するための第1の判定手段と、
前記第1の判定手段による判定結果がいずれも肯定であることに応答して、処理中の方位に音源が発生したと判定し、音源発生を示す情報とその方位を示す情報とを出力するための第2の判定手段と、
前記第2の判定手段により音源の発生が検出されたことに応答して、前記第2の判定手段により発生が検出された音源の方位を、前記MUSIC応答算出手段により当該音源の方位に対応する枠に隣接する枠に対応する方位の各々について算出されたMUSICパワーの値と、当該音源の方位に対応する枠に隣接する枠に対応する方位の各々について前記MUSICΔパワー算出手段により出力されたMUSICΔパワーとに基づいて、当該音源の消滅までトラッキングするためのトラッキング手段とを含み、
前記トラッキング手段は、
前記第2の判定手段により音源の発生が検出されたことに応答して、当該検出以後、前記所定時間ごとに前記MUSIC応答算出手段により出力されるMUSIC応答のうちで、音源の方位に対応する枠に隣接する枠の各々に対応する方位について算出されるMUSICパワーの値の最大値を辿ることにより、発生が検出された音源の移動をトラッキングするための手段と、
前記トラッキングするための手段によりトラッキングされた音源の方位について算出されたMUSICΔパワーが第1のオフセット用しきい値より小か否かを判定するための第1のオフセット判定手段と、
当該方位について算出されたMUSICパワーが当該音源の発生時のMUSICパワーよりある正の定数だけ大きな第2のオフセット用定数より小か否かを判定するための第2のオフセット判定手段と、
前記第1及び第2のオフセット判定手段の判定結果のいずれかが肯定であるという結果が、前記MUSIC応答算出手段により所定時間ごとに算出されたMUSIC応答について所定回数だけ連続して得られたときに、前記トラッキングするための手段によりトラッキングされている音源が消滅したと判定し、トラッキングを中止させるための手段とを含む、音源定位装置。 Based on each of the sound source signals of a plurality of channels obtained from the output of the microphone array and the positional relationship between the microphones included in the microphone array, the point determined in relation to the position of the microphone array is the center. MUSIC response calculation means for calculating MUSIC power for each predetermined time by a MUSIC algorithm for each of a plurality of orientations respectively corresponding to a plurality of mesh frames defined in a three-dimensional space;
For detecting a change in the direction of the sound source from the generation to the disappearance of the sound source based on the intensity of the MUSIC power value obtained as a time series by the MUSIC response calculation means and the amount of change for each of the plurality of directions. and the sound source estimation means a including sound source localization apparatus,
The sound source estimation means includes
For each of the plurality of azimuths, the MUSIC response calculation means immediately before each of the azimuths corresponding to the frame adjacent to the frame corresponding to the processing target azimuth among the plurality of azimuths. The difference between the MUSIC power value and the latest MUSIC power value obtained for the azimuth to be processed is calculated, and the smallest value among the differences is output as the MUSIC Δ power for the azimuth. MUSICΔ power calculation means for
The MUSICΔ power value calculated by the MUSICΔ power calculation means is larger than the first onset threshold value for each of the plurality of directions that are not the direction of the sound source, and the MUSIC response calculation means. First determination means for determining whether or not the value of the MUSIC power calculated by the above is larger than a second onset threshold value ;
In response to the determination results by the first determination means being all positive, it is determined that a sound source has occurred in the processing direction, and information indicating the generation of the sound source and information indicating the direction are output. Second determination means,
In response to the occurrence of the sound source is detected by the second judging means, the orientation of the sound source generating is detected by the second judging means, corresponding to the azimuth of the sound source by the MUSIC response calculator means The MUSIC power value calculated for each azimuth corresponding to the frame adjacent to the frame and the MUSICΔ power output by the MUSICΔ power calculation means for each azimuth corresponding to the frame adjacent to the frame corresponding to the direction of the sound source. based on the power, look including a tracking means for tracking up to disappearance of the sound source,
The tracking means includes
Responding to the direction of the sound source among the MUSIC responses output by the MUSIC response calculating means every predetermined time after the detection in response to the occurrence of the sound source detected by the second determination means. Means for tracking the movement of the sound source in which the occurrence has been detected by following the maximum value of the MUSIC power value calculated for the orientation corresponding to each of the frames adjacent to the frame ;
First offset determination means for determining whether or not the MUSICΔ power calculated for the orientation of the sound source tracked by the tracking means is smaller than a first offset threshold;
Second offset determination means for determining whether or not the MUSIC power calculated for the azimuth is smaller than a second offset constant that is larger than the MUSIC power at the time of generation of the sound source by a certain positive constant;
When the result that either one of the determination results of the first and second offset determination means is affirmative is continuously obtained a predetermined number of times for the MUSIC response calculated every predetermined time by the MUSIC response calculation means to, determine a sound source being tracked by said means for tracking is extinguished, including a means for stopping the tracking, sound source localization device.
前記MUSICΔパワー算出手段と、前記トラッキング手段はいずれも前記平滑化手段により平滑化されたMUSICパワーを入力として受ける、請求項1に記載の音源定位装置。 And a smoothing means for calculating and smoothing the moving average of the MUSIC power output by the MUSIC response calculating means for each of the plurality of directions.
2. The sound source localization apparatus according to claim 1, wherein both of the MUSICΔ power calculating unit and the tracking unit receive the MUSIC power smoothed by the smoothing unit as an input.
前記第1の判定手段による判定結果が肯定であった方位のうち、当該方位について算出されているMUSICパワーの上位から限定された一定個数のみを、検出された音源として特定するための音源限定手段を含む、請求項1又は請求項2に記載の音源定位装置。 The second determination means includes
Of the azimuths for which the determination result by the first determination unit is affirmative, only a certain number limited from the top of the MUSIC power calculated for the azimuth is identified as a detected sound source limiting unit. The sound source localization apparatus according to claim 1 , comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010086705A JP5660362B2 (en) | 2010-04-05 | 2010-04-05 | Sound source localization apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010086705A JP5660362B2 (en) | 2010-04-05 | 2010-04-05 | Sound source localization apparatus and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011220701A JP2011220701A (en) | 2011-11-04 |
JP5660362B2 true JP5660362B2 (en) | 2015-01-28 |
Family
ID=45037893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010086705A Active JP5660362B2 (en) | 2010-04-05 | 2010-04-05 | Sound source localization apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5660362B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5724125B2 (en) * | 2011-03-30 | 2015-05-27 | 株式会社国際電気通信基礎技術研究所 | Sound source localization device |
JP5889752B2 (en) * | 2012-08-30 | 2016-03-22 | 本田技研工業株式会社 | Artificial movable ear device and method for specifying sound source direction |
JP2014098568A (en) * | 2012-11-13 | 2014-05-29 | Advanced Telecommunication Research Institute International | Sound source position estimation device, sound source position estimation method, and sound source position estimation program |
JP6665379B2 (en) * | 2015-11-11 | 2020-03-13 | 株式会社国際電気通信基礎技術研究所 | Hearing support system and hearing support device |
JP6982966B2 (en) * | 2017-03-14 | 2021-12-17 | 大成建設株式会社 | Sound source exploration device |
CN107864105A (en) * | 2017-12-01 | 2018-03-30 | 天津大学 | Improved MUSIC algorithms scatter clustering model channel parameter estimation method |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3788166B2 (en) * | 2000-02-23 | 2006-06-21 | トヨタ自動車株式会社 | Mobile object approach situation determination device, mobile phone terminal, mobile object operation control device, radio wave transmission device, and mobile object approach condition determination method |
JP3995890B2 (en) * | 2001-03-05 | 2007-10-24 | 株式会社村田製作所 | Radar |
JP3800173B2 (en) * | 2002-12-25 | 2006-07-26 | 三菱電機株式会社 | Passive radar equipment |
JP2005043194A (en) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | Apparatus and method for angle measuring |
JP4549929B2 (en) * | 2005-05-25 | 2010-09-22 | 三菱電機株式会社 | Sensor signal processing system |
JP4984705B2 (en) * | 2006-07-18 | 2012-07-25 | 株式会社村田製作所 | Radar |
JP2008117209A (en) * | 2006-11-06 | 2008-05-22 | Toshiba Corp | Toll collection processing system |
JP2008175733A (en) * | 2007-01-19 | 2008-07-31 | Fujitsu Ltd | Beam-forming system for estimating voice arrival direction, moving device, and beam forming method for estimating voice arrival direction |
-
2010
- 2010-04-05 JP JP2010086705A patent/JP5660362B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011220701A (en) | 2011-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ishi et al. | Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments | |
US9984702B2 (en) | Extraction of reverberant sound using microphone arrays | |
US9633651B2 (en) | Apparatus and method for providing an informed multichannel speech presence probability estimation | |
JP6636633B2 (en) | Acoustic signal processing apparatus and method for improving acoustic signal | |
US8897455B2 (en) | Microphone array subset selection for robust noise reduction | |
Asano et al. | Real-time sound source localization and separation system and its application to automatic speech recognition | |
JP5660362B2 (en) | Sound source localization apparatus and computer program | |
EP2847764B1 (en) | Audio user interaction recognition and context refinement | |
Brutti et al. | Multiple source localization based on acoustic map de-emphasis | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP4910568B2 (en) | Paper rubbing sound removal device | |
EP3566462B1 (en) | Audio capture using beamforming | |
EP3566461B1 (en) | Method and apparatus for audio capture using beamforming | |
JP2015502716A (en) | Microphone positioning apparatus and method based on spatial power density | |
JP2013535915A (en) | System, method, apparatus, and computer-readable medium for multi-microphone position selectivity processing | |
US9241223B2 (en) | Directional filtering of audible signals | |
JP2010121975A (en) | Sound-source localizing device | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
JP2016050872A (en) | Sound source position estimation device, sound source position estimation method, and sound source position estimation program | |
US11310593B2 (en) | Voice input device and method for estimation of utterance direction | |
Novoa et al. | Weighted delay-and-sum beamforming guided by visual tracking for human-robot interaction | |
Abutalebi et al. | Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions | |
Nguyen et al. | Selection of the closest sound source for robot auditory attention in multi-source scenarios | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
JP6854967B1 (en) | Noise suppression device, noise suppression method, and noise suppression program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5660362 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |