JP5235605B2 - Utterance direction estimation apparatus, method and program - Google Patents

Utterance direction estimation apparatus, method and program Download PDF

Info

Publication number
JP5235605B2
JP5235605B2 JP2008270922A JP2008270922A JP5235605B2 JP 5235605 B2 JP5235605 B2 JP 5235605B2 JP 2008270922 A JP2008270922 A JP 2008270922A JP 2008270922 A JP2008270922 A JP 2008270922A JP 5235605 B2 JP5235605 B2 JP 5235605B2
Authority
JP
Japan
Prior art keywords
eigenvalue
correlation matrix
microphone array
utterance
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008270922A
Other languages
Japanese (ja)
Other versions
JP2010103617A (en
Inventor
健太 丹羽
澄宇 阪内
学 岡本
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008270922A priority Critical patent/JP5235605B2/en
Publication of JP2010103617A publication Critical patent/JP2010103617A/en
Application granted granted Critical
Publication of JP5235605B2 publication Critical patent/JP5235605B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。   The present invention relates to a technique for estimating the utterance direction of a speaker from an audio signal input to a microphone.

電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。   A system for exchanging voice information such as a telephone or a voice conference terminal is generally called a voice communication system. In the video conference system, the video is added to the audio information and presented, so that the situation of the place is easily transmitted, but in the audio communication system, it is difficult to grasp the situation of the other party. One of the information on the other party's situation is utterance direction information. By receiving this information from the other party, it is possible to grasp the direction in which the speaker is speaking and to facilitate communication.

このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図15に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。   Conventional techniques for estimating such speech direction information are disclosed in Non-Patent Documents 1 and 2 and the like, and a configuration example is shown in FIG. The speech direction estimation apparatus 10 in this configuration example estimates speech direction information as follows.

(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vx(t)=[x1(t),・・・, xM(t)]Tへ変換する。ここで、tは離散時間のインデックスを表す。 (i) The voice from the speaker 1 is picked up using M (M is an integer of 2 or more) microphones 11-1,. The collected analog signal is converted into a digital signal vx (t) = [x 1 (t),..., X M (t)] T by the AD converter 12. Here, t represents an index of discrete time.

(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号VX(ω,n)=[X1(ω,n),・・・, XM(ω,n)]Tへ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。 (ii) The frequency domain transform unit 13 receives a set (frame) of the digital signals composed of a plurality of samples as an input, and performs frequency domain signal VX (ω, n) = [X 1 (ω, n) by fast Fourier transform or the like. , ···, X M (ω, n)] to convert to T. Here, ω represents a frequency index, and the total number of frequency indexes is Ω. N represents the index of the frame.

(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマVG(ω,r,θ)=[G1(ω,r,θ),・・・,GM(ω,r,θ)]Tを設計する。G(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分xi(ω,n)に掛ける係数である。
設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性VH(ω,r,θ)=[H1(ω,r,θ),・・・,HM(ω,r,θ)]Tをシミュレーション値や実測値を用いて求めておく。ここでHi(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。
固定ビームフォーマVG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。
VH(ω,rTT)H・VG(ω,rTT)=1 (1)
VH(ω,rUU)H・VG(ω,rTT)=0 (2)
式(1)、(2)は、発話者位置rT、発話向きθTの出力パワーを強調し、それ以外の発話者位置rU、発話向きθUの出力パワーを抑えるように固定ビームフォーマVG(ω,r,θ)を設計することを示している。
(iii) The fixed beamformer design unit 14 sets the fixed beamformer VG (ω, r, θ) = [G 1 (ω, r, θ),..., G M (for each speaker position and direction. ω, r, θ)] T is designed. G i (ω, r, θ) is a coefficient to be multiplied by the frequency component x i (ω, n) of the i-th microphone in order to emphasize / suppress the sound source at the speaker position r and the speech direction θ.
In designing, acoustic propagation characteristics between a sound source and a microphone VH (ω, r, θ) = [H 1 (ω, r, θ),..., H M for each predetermined speaker position and direction. (ω, r, θ)] T is obtained using simulation values or actual measurement values. Here, H i (ω, r, θ) represents an acoustic propagation characteristic between the sound source at the speaker position r and the speech direction θ and the i-th microphone.
The fixed beamformer VG (ω, r, θ) is designed as a value that satisfies the expressions (1) and (2) representing the relationship with the acoustic propagation characteristics.
VH (ω, r T , θ T ) H · VG (ω, r T , θ T ) = 1 (1)
VH (ω, r U , θ U ) H · VG (ω, r T , θ T ) = 0 (2)
Expressions (1) and (2) emphasize the output power of the speaker position r T and the speech direction θ T and suppress the output power of the other speaker positions r U and the speech direction θ U. It shows that VG (ω, r, θ) is designed.

(iv) 積和計算部15では、周波数領域の信号VX(ω,n)=[X1(ω,n),・・・, XM(ω,n)]Tと固定ビームフォーマVG(ω,r,θ)=[G1(ω,r,θ),・・・,GM(ω,r,θ)]Tを入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分Xi(ω,n)と固定ビームフォーマの係数Gi(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=VG(ω,r,θ)H・VX(ω,n)を計算することと同義である。 (iv) In the product-sum calculation unit 15, the frequency domain signal VX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T and the fixed beamformer VG (ω , r, θ) = [G 1 (ω, r, θ),..., G M (ω, r, θ)] T as an input, for each frequency ω, speaker position r, and speech direction θ. Multiplying the frequency component X i (ω, n) corresponding to each microphone by the coefficient G i (ω, r, θ) of the fixed beamformer, and adding the obtained M components, the output Y (ω, n, r, θ) is calculated. This calculation is synonymous with calculating Y (ω, n, r, θ) = VG (ω, r, θ) H · VX (ω, n).

(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|2を計算して出力する。 (v) The power calculator 16 calculates and outputs power | Y (ω, n, r, θ) | 2 from the output Y (ω, n, r, θ) from the product-sum calculator 15.

(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|2を周波数で平均化処理し、AY(n,r,θ)を得る。この計算は、Fを平均化処理で用いる周波数のインデックス、|F|を周波数のインデックスの総数と定義すると、
を計算することと同義である。なお、FはΩ≧|F|を満たす。
(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーAY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーAY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。
中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620 中島弘史、外8名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622
(vi) The frequency averaging processing unit 17 averages the power | Y (ω, n, r, θ) | 2 output from the power calculation unit 16 by frequency, and calculates AY (n, r, θ). obtain. In this calculation, if F 0 is defined as the frequency index used in the averaging process, and | F 0 | is defined as the total number of frequency indexes,
Is equivalent to calculating Note that F 0 satisfies Ω ≧ | F 0 |.
(vii) The sound source direction selection unit 18 searches for the speaker position r and the speech direction θ where the power AY (n, r, θ) averaged by frequency for each frame is maximum, and the power AY (n , r, θ) is determined as the estimated speech direction θ out (n).
Hiroshi Nakajima, “Extended Beamforming for Estimating Sound Source Direction”, Proceedings of the Acoustical Society of Japan, September 2005, p.619-620 Hiroshi Nakajima and 8 others, “Sound source directivity estimation using extended beamforming”, Acoustical Society of Japan Proceedings, September 2005, p.621-622

従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要
従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|2に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図16に示すように多数のマイクロホンで発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。
The following two points can be cited as problems of the prior art.
(i) To deal with utterances at any position and to estimate the direction of utterance with high accuracy, a large number of microphones are required and the position of the microphones must be devised. As the output power | Y (ω, n, r, θ) | 2 of the fixed beamformer designed for each position and speech direction is different, the speech direction can be estimated with higher accuracy. However, assuming a sound source with a strong directivity in front of the mouth, such as a sound wave radiated from the mouth of the speaker, as shown in FIG. 16, it is necessary to collect sound so as to surround the speaker with a large number of microphones. Depending on the speaker position / speech direction, there is no difference in the output power of the fixed beamformer, and the speech direction estimation error increases (for example, in the experiment of Non-Patent Document 2, 64 microphones are used). Therefore, in order to reduce the error, a large number of microphones are required, the apparatus becomes large, and it is difficult to use it by attaching it to a portable apparatus such as a telephone or an audio conference terminal.

(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない
残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性VH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。
(ii) High reverberation direction estimation performance cannot be obtained in a reverberant environment where the reverberation time (the time from the direct wave arrival time to the 60 dB attenuation from the direct wave pickup power) is 250 msec or more. Below, since many strong reflected waves are mixed, it is difficult to design the acoustic propagation characteristics VH (ω, r, θ) with high accuracy. Therefore, ambiguity occurs in the output of the fixed beamformer, and the estimation accuracy deteriorates. For example, in an actual environment room that is not subjected to low reverberation processing, reverberation time is generally about 250 to 500 msec, so that accurate estimation is difficult.

本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。   An object of the present invention is to estimate a speech direction, which does not require a large number of microphones so as to surround a speaker and can appropriately estimate a speech direction even in a reverberant environment with a reverberation time of 250 msec or more. To provide an apparatus, a method, and a program.

上記の課題を解決するために、本発明の第一の態様によれば、発話向き推定装置は、マイクロホンアレイを構成する複数のマイクロホンそれぞれで収音した音声信号の間の相関を表す相関行列を生成して、この相関行列の固有ベクトルと、この相関行列の少なくとも最大の固有値とから、発話者がマイクロホンアレイに対し正面向き発話したか左右向きに発話したかを推定する。  In order to solve the above-described problem, according to the first aspect of the present invention, the speech direction estimating apparatus generates a correlation matrix representing a correlation between audio signals collected by each of a plurality of microphones constituting a microphone array. Then, from the eigenvector of this correlation matrix and at least the maximum eigenvalue of this correlation matrix, it is estimated whether the speaker speaks in front or left direction with respect to the microphone array.
上記の課題を解決するために、本発明の第二の態様によれば、発話向き推定装置は、マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換部と、各周波数毎に、周波数領域に変換されたそれぞれのディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算部と、相関行列の固有ベクトルに基づく評価値を所定のしきい値と比較した結果と、相関行列の少なくとも最大の固有値に基づく評価値を所定のしきい値と比較した結果とを用いて発話者がマイクロホンアレイに対し正面向きに発話したか左右向きに発話したかを判定して結果を出力する正面・横向き判定部と、を備える。  In order to solve the above-mentioned problem, according to the second aspect of the present invention, the speech direction estimating apparatus is a digital audio signal picked up by M (M is an integer of 2 or more) microphones constituting a microphone array. And a M × M correlation matrix representing a correlation between each frequency converted from the time domain to the frequency domain, and each digital audio signal converted to the frequency domain for each frequency. A correlation matrix calculation unit that obtains the result of comparing the evaluation value based on the eigenvector of the correlation matrix with a predetermined threshold, and the result of comparing the evaluation value based on at least the maximum eigenvalue of the correlation matrix with the predetermined threshold; And a front / side orientation determination unit that determines whether the speaker has spoken frontward or leftward / rightward with respect to the microphone array and outputs the result.
上記の課題を解決するために、本発明の第三の態様によれば、発話向き推定装置は、マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換部と、各周波数毎に、周波数領域に変換されたそれぞれのディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算部と、相関行列の最大の固有値(以下、「第1固有値」という)に対応する固有ベクトル(以下、「第1固有ベクトル」という)を得、第1固有値を正規化して得られる第1正規化固有値を得る固有値分解部と、第1固有ベクトルを構成するM個の要素についてそれぞれパワーを計算して、M個のパワー要素を出力する第1固有ベクトルパワー計算部と、M個のパワー要素のうちの、任意の2本のマイクロホンに対応する2個のパワー要素の比のうちの何れか1つ、または、M個のパワー要素の周波数平均であるM個の平均化パワー要素のうちの、任意の2本のマイクロホンに対応する2個の平均化パワー要素の比と、所定のしきい値とを比較することにより、発話者がマイクロホンアレイに対し左向きに発話したか右向きに発話したかを判定する左右向き判定部と、第1正規化固有値、または、第1正規化固有値の周波数平均である第1平均化固有値と所定のしきい値とを比較することにより、発話者がマイクロホンアレイに対し正面向きに発話したか横向きに発話したかを判定し、正面向きと判定した場合には正面向きに発話したとの判定結果を出力し、横向きと判定した場合は左右向き判定部での判定結果をそのまま出力する正面・横向き判定部と、を備える。  In order to solve the above-described problem, according to a third aspect of the present invention, a speech direction estimating apparatus is a digital audio signal picked up by M (M is an integer of 2 or more) microphones constituting a microphone array. And a M × M correlation matrix representing a correlation between each frequency converted from the time domain to the frequency domain, and each digital audio signal converted to the frequency domain for each frequency. Obtained by normalizing the first eigenvalue and obtaining an eigenvector (hereinafter referred to as “first eigenvector”) corresponding to the maximum eigenvalue of the correlation matrix (hereinafter referred to as “first eigenvalue”). An eigenvalue decomposition unit that obtains a first normalized eigenvalue and a first eigenvalue that outputs M power elements by calculating power for each of the M elements constituting the first eigenvector One of the ratios of the two power elements corresponding to any two microphones among the M power elements, or the frequency average of the M power elements By comparing the ratio of two averaged power elements corresponding to two arbitrary microphones out of M averaged power elements with a predetermined threshold value, the speaker is placed in the microphone array. A left-right direction determination unit that determines whether the speech is directed to the left or the right, a first normalized eigenvalue, or a first averaged eigenvalue that is a frequency average of the first normalized eigenvalue and a predetermined threshold value; To determine whether the speaker speaks in front or side to the microphone array, and if it is determined to be front-facing, the determination result that the speaker has spoken in front is output. And And a front / horizontal direction determination unit that outputs the determination result of the left / right direction determination unit as it is.
上記の課題を解決するために、本発明の第四の態様によれば、発話向き推定方法は、マイクロホンアレイを構成する複数のマイクロホンそれぞれで収音した音声信号の間の相関を表す相関行列を生成して、この相関行列の固有ベクトルと、この相関行列の少なくとも最大の固有値とから、発話者がマイクロホンアレイに対し正面向き発話したか左右向きに発話したかを推定する。  In order to solve the above problem, according to a fourth aspect of the present invention, an utterance direction estimation method uses a correlation matrix representing a correlation between audio signals collected by each of a plurality of microphones constituting a microphone array. Then, from the eigenvector of this correlation matrix and at least the maximum eigenvalue of this correlation matrix, it is estimated whether the speaker speaks in front or left direction with respect to the microphone array.
上記の課題を解決するために、本発明の第五の態様によれば、発話向き推定方法は、マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換ステップと、各周波数毎に、周波数領域に変換されたそれぞれのディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算ステップと、相関行列の固有ベクトルに基づく評価値を所定のしきい値と比較した結果と、相関行列の少なくとも最大の固有値に基づく評価値を所定のしきい値と比較した結果とを用いて発話者がマイクロホンアレイに対し正面向きに発話したか左右向きに発話したかを判定して結果を出力する正面・横向き判定ステップと、を備える。  In order to solve the above problems, according to a fifth aspect of the present invention, a speech direction estimation method includes a digital audio signal collected by M (M is an integer of 2 or more) microphones constituting a microphone array. And a M × M correlation matrix representing the correlation between each digital audio signal converted into the frequency domain for each frequency A correlation matrix calculation step for obtaining an evaluation value, a result obtained by comparing an evaluation value based on an eigenvector of the correlation matrix with a predetermined threshold value, and a result obtained by comparing an evaluation value based on at least the largest eigenvalue of the correlation matrix with a predetermined threshold value. Step to determine whether the speaker speaks in front of the microphone array or in the left-right direction and outputs the result. , Comprising a.
上記の課題を解決するために、本発明の第六の態様によれば、マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換ステップと、各周波数毎に、周波数領域に変換されたそれぞれのディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算ステップと、相関行列の最大の固有値(以下、「第1固有値」という)に対応する固有ベクトル(以下、「第1固有ベクトル」という)を得、第1固有値を正規化して得られる第1正規化固有値を得る固有値分解ステップと、第1固有ベクトルを構成するM個の要素についてそれぞれパワーを計算して、M個のパワー要素を出力する第1固有ベクトルパワー計算ステップと、M個のパワー要素のうちの、任意の2本のマイクロホンに対応する2個のパワー要素の比のうちの何れか1つ、または、M個のパワー要素の周波数平均であるM個の平均化パワー要素のうちの、任意の2本のマイクロホンに対応する2個の平均化パワー要素の比と、所定のしきい値とを比較することにより、発話者がマイクロホンアレイに対し左向きに発話したか右向きに発話したかを判定する左右向き判定ステップと、第1正規化固有値、または、第1正規化固有値の周波数平均である第1平均化固有値と所定のしきい値とを比較することにより、発話者がマイクロホンアレイに対し正面向きに発話したか横向きに発話したかを判定し、正面向きと判定した場合には正面向きに発話したとの判定結果を出力し、横向きと判定した場合は左右向き判定ステップでの判定結果をそのまま出力する正面・横向き判定ステップと、を備える。  In order to solve the above problems, according to a sixth aspect of the present invention, a digital audio signal picked up by M (M is an integer of 2 or more) microphones constituting a microphone array is composed of a plurality of samples. A frequency domain conversion step for converting from the time domain to the frequency domain in units of frames, and a correlation matrix calculation step for obtaining an M × M correlation matrix representing the correlation between the respective digital audio signals converted into the frequency domain for each frequency And an eigenvector (hereinafter referred to as “first eigenvector”) corresponding to the maximum eigenvalue of the correlation matrix (hereinafter referred to as “first eigenvalue”), and a first normalized eigenvalue obtained by normalizing the first eigenvalue as The obtained eigenvalue decomposition step and the first eigenvector that outputs the M power elements by calculating the power for each of the M elements constituting the first eigenvector. Toll power calculation step and any one of ratios of two power elements corresponding to arbitrary two microphones among M power elements, or frequency average of M power elements By comparing the ratio of the two averaged power elements corresponding to any two microphones out of the M averaged power elements with a predetermined threshold, the speaker can A left-right direction determination step for determining whether the utterance is directed to the left or the right, and a first normalized eigenvalue or a first averaged eigenvalue that is a frequency average of the first normalized eigenvalue and a predetermined threshold value. By comparing, it is determined whether the speaker has spoken frontward or sideways with respect to the microphone array, and if it is determined to be frontal, the determination result that the speaker has spoken frontward is output, A front / horizontal determination step that outputs the determination result in the left / right direction determination step as it is when it is determined to be in the horizontal direction.

本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。   According to the speech direction estimating apparatus of the present invention, it is not necessary to arrange a large number of microphones so as to surround a speaker, and it is possible to appropriately estimate the speech direction even in a reverberant environment where the reverberation time is 250 msec or more. It becomes.

〔第1実施形態〕
図1に本発明の発話向き推定装置100の機能構成例を、図2にその処理フロー例を示す。発話向き推定装置100は、発話向きがマイクロホンアレイに対し左向きであるか右向きであるかを推定するものである。
[First Embodiment]
FIG. 1 shows a functional configuration example of the speech direction estimating apparatus 100 of the present invention, and FIG. 2 shows a processing flow example thereof. The utterance direction estimation apparatus 100 estimates whether the utterance direction is leftward or rightward with respect to the microphone array.

発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、第1固有ベクトルパワー計算部104と、第1周波数平均化処理部105と、左右向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。   The utterance direction estimation apparatus 100 includes a microphone array 101 including M microphones (M is an integer of 2 or more) 101-1 to 101-M, an AD conversion unit 12, a frequency domain conversion unit 13, and a correlation matrix calculation unit. 102, an eigenvalue decomposition unit 103, a first eigenvector power calculation unit 104, a first frequency averaging processing unit 105, and a left / right direction determination unit 106. Among them, the AD conversion unit 12 and the frequency conversion unit 13 are the same as those used in the speech direction estimation apparatus 10 described in the background art.

従来技術においては、図16に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲で発話する。図3は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図3(a)は発話者が各位置で正面向きに発話している様子を、図3(b)は横向きに発話している様子を表している。   In the prior art, as shown in FIG. 16, it was necessary to arrange a large number of microphones so as to surround the speaker. However, in the present invention, M microphones 101-1 to 101-M can be provided. It is sufficient to arrange them closely. Although the number of microphones constituting such a microphone array 101 is not too large, according to the configuration of the present invention described below, it is possible to estimate the utterance direction with two or more microphones. The arrangement may be two-dimensional or three-dimensional. By adopting a configuration in which a small number of microphones are arranged densely in this way, it can be attached to a portable device such as a telephone or an audio conference terminal, and the direction of speech by surrounding speakers can be estimated It becomes. The speaker speaks around the microphone array 101. FIG. 3 shows an image of a speaker talking around a microphone array 101 composed of seven microphones as viewed from above, and the direction of the arrow is the direction of speech. FIG. 3 (a) shows a state where a speaker is speaking in a front direction at each position, and FIG. 3 (b) shows a state where a speaker is speaking in a horizontal direction.

AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が発話したアナログ音声信号を、それぞれディジタル音声信号x1(t) 、・・・、xM(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。 The AD conversion unit 12 converts the analog voice signals uttered by the speaker 1 collected by the M microphones 101-1 to 101 -M into digital voice signals x 1 (t),..., X M (t (S1). Here, t represents an index of discrete time.

周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X1(ω,n)、・・・、XM(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数はΩとする。 The frequency domain transform unit 13 receives as input a set (frame) of the above digital speech signals composed of a plurality of discrete time samples, and performs frequency domain digital speech signals X 1 (ω, n),. It is converted into X M (ω, n) and output (S2). Here, n represents a frame index, and ω represents a frequency index. The total number of frequency indexes is Ω.

相関行列計算部102は、周波数領域のディジタル音声信号X1(ω,n) 、・・・、XM(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。
R(ω,k)=E[VX(ω,n)・VXH(ω,n)] (3)
ここで、VX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]T
なお、Hは共役転置を表し、Eは、VX(ω,n)・VX(ω,n)Hを各フレームについて計算した上で、平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。また、LはM以上の整数とすることが望ましい。
The correlation matrix calculation unit 102 receives the digital audio signals X 1 (ω, n),..., X M (ω, n) in the frequency domain as inputs, and an M × M correlation matrix R representing the correlation between the signals. (ω, k) is sequentially generated and output for each frequency ω by equation (3) (S3).
R (ω, k) = E [VX (ω, n) ・ VX H (ω, n)] (3)
Here, VX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T
Note that H represents conjugate transposition, and E calculates VX (ω, n) · VX (ω, n) H for each frame, and then calculates an expected value for each L frame by averaging processing or the like. It is an operator. That is, the correlation matrix is sequentially output at a rate of once per L frame, and k represents an output index of the correlation matrix. L is preferably an integer greater than or equal to M.

固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ1(ω,n)、・・・、λM(ω,n)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvv1(ω,n)、・・・、vvM(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。
R(ω,k)=V(ω,k)・Λ(ω,k)・VH(ω,k) (4)
ここで、Λ(ω,k)=diag[λ1 2(ω,k)、・・・、λM 2(ω,k)]
λ1(ω,k)≧λ2(ω,k)≧・・・≧λM(ω,k)
V(ω,k)=[vv1(ω,k)、・・・、vvM(ω,k)]T
vvi(ω,k)=[vi,1(ω,k)、・・・、vi,M(ω,k)]
なお、diag[・]は[・]内の成分を対角行列の要素とする演算子である。
そして、最大の固有値である第1固有値λ1(ω,k)に対応する第1固有ベクトルvv1(ω,k)を出力する(S4)。
The eigenvalue decomposition unit 103 receives the correlation matrix R (ω, k) as input, and first, M eigenvalues λ 1 (ω, n),..., Λ M (ω, n) so as to satisfy Equation (4). ) Eigenvalue matrix Λ (ω, k), which is a diagonal matrix with each square as a diagonal element, and M eigenvectors vv 1 (ω, n),..., Vv M (ω, k) Is decomposed into eigenvector matrix V (ω, k) by the eigenvalue decomposition method.
R (ω, k) = V (ω, k) ・ Λ (ω, k) ・ V H (ω, k) (4)
Where Λ (ω, k) = diag [λ 1 2 (ω, k),..., Λ M 2 (ω, k)]
λ 1 (ω, k) ≧ λ 2 (ω, k) ≧ ・ ・ ・ ≧ λ M (ω, k)
V (ω, k) = [vv 1 (ω, k),..., Vv M (ω, k)] T
vv i (ω, k) = [v i, 1 (ω, k),..., v i, M (ω, k)]
Note that diag [•] is an operator having the components in [•] as elements of a diagonal matrix.
Then, the first eigenvector vv 1 (ω, k) corresponding to the first eigenvalue λ 1 (ω, k) which is the maximum eigenvalue is output (S4).

第1固有ベクトルパワー計算部104は、第1固有ベクトルvv1(ω,k)を入力とし、第1固有ベクトルvv1(ω,k)を構成するv1,1(ω,k)、・・・、v1,M(ω,k)のM個の要素について、それぞれ式(5)によりパワーを計算してM個のパワー要素pv1,1(ω,k)、・・・、pv1,M(ω,k)を出力する(S5)。
pv1,i(ω,k)=|v1,i(ω,k)| (5)
The first eigenvector power calculation unit 104 receives the first eigenvector vv 1 (ω, k) as an input, and v 1,1 (ω, k),... Constituting the first eigenvector vv 1 (ω, k). For M elements of v 1, M (ω, k), the power is calculated by the equation (5), respectively, and M power elements pv 1,1 (ω, k),..., pv 1, M (ω, k) is output (S5).
pv 1, i (ω, k) = | v 1, i (ω, k) | (5)

第1周波数平均化処理部105は、各周波数ω毎に生成されたM個のパワー要素pv1,1(ω,k)、・・・、pv1,M(ω,k)について、それぞれ式(6)により平均値を計算してM個の平均化パワー要素apv1,1(k)、・・・、apv1,M(k)を出力する(S6)。
なお、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。
The first frequency averaging processing unit 105 formulas M power elements pv 1,1 (ω, k),..., Pv 1, M (ω, k) generated for each frequency ω, respectively. The average value is calculated according to (6) and M averaged power elements apv 1,1 (k),..., Apv 1, M (k) are output (S6).
F 1 is an index of frequencies used for averaging, | F 1 | is a total number of frequency indexes, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |.

左右向き判定部106は、M個の平均化パワー要素apv1,1(k)、・・・、apv1,M(k)とを入力とし、左向きに発話したか右向きに発話したかを判定して結果を出力する(S7)。左右向きの判定は、マイクロホンアレイ101を構成するM本のマイクロホンのうち、ある2本のマイクロホン101−α、101−βに対応する2個の平均化パワー要素apv1,α(k)、apv1,β(k)の比をとり、それを所定のしきい値thr1と比較することにより行う。左右向きの判定イメージを図4に例示する。この例では、図4(a)に示すマイクロホンαとマイクロホンβとの中間点に向いて発話された場合をapv1,α(k)/apv1,β(k)=thr1とし、この向きを基準とした左右方向の発話向きをapv1,α(k)/apv1,β(k)とthr1との大小関係により判定する。具体的には、左向きになればなるほどapv1,β(k)がapv1,α(k)に比べて減衰する割合が大きくなるため、apv1,α(k)/apv1,β(k)>thr1の時には左向きであると判定することができ(図4(b))、右向きになればなるほどapv1,α(k)がapv1,β(k)に比べて減衰する割合が大きくなるため、apv1,α(k)/apv1,β(k)<thr1の時には右向きであると判定することができる(図4(c))。なお、2本のマイクロホンは、平均化パワー要素apv1,α(k)、apv1,β(k)の値に差が生じやすいよう、発話者の位置に対して最も左右間隔の広い2本を選ぶのが望ましい。 The left / right direction determination unit 106 receives M averaged power elements apv 1,1 (k),..., Apv 1, M (k) as input, and determines whether the left direction is spoken or the right direction is spoken. The result is output (S7). The left-right orientation determination is performed by using two averaged power elements apv 1, α (k), apv corresponding to two microphones 101-α and 101-β among the M microphones constituting the microphone array 101. This is done by taking a ratio of 1, β (k) and comparing it to a predetermined threshold value thr1. FIG. 4 illustrates an example of the determination image in the horizontal direction. In this example, the case where the speech is directed toward the midpoint between the microphone α and the microphone β shown in FIG. 4A is apv 1, α (k) / apv 1, β (k) = thr1, and this direction is set as follows. The reference speech direction in the left-right direction is determined based on the magnitude relationship between apv 1, α (k) / apv 1, β (k) and thr1. Specifically, since the rate of attenuation of apv 1, β (k) is larger than apv 1, α (k) as it goes to the left, apv 1, α (k) / apv 1, β (k )> Thr1 can be determined to be leftward (FIG. 4 (b)), and the more rightward is, the greater the rate at which apv 1, α (k) attenuates than apv 1, β (k). Therefore, when apv 1, α (k) / apv 1, β (k) <thr1, it can be determined to be rightward (FIG. 4 (c)). Note that the two microphones have the widest left-right spacing with respect to the speaker's position so that the average power elements apv 1, α (k) and apv 1, β (k) tend to differ. It is desirable to choose.

このような構成で左右方向の発話向きを判定することができる理論的背景を説明する。図5は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期残響、後部残響の3つに大きく分けられるが、直接波、初期残響が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。本発明はこのような性質を利用して発話向きを推定する。   A theoretical background capable of determining the left-right direction of speech with such a configuration will be described. FIG. 5 shows the propagation characteristics of the audio signal in the time domain. Propagation characteristics can be broadly divided into three types: direct wave, initial reverberation, and rear reverberation. In the time zone in which direct wave and initial reverberation are observed, the directivity with respect to the microphone array composed of a plurality of microphones. It is known that waves with In particular, in the initial reverberation time zone (after the arrival of the direct wave, the time from the direct wave pickup power to the attenuation of 10 dB), a strong reflected wave with directionality is mixed, but the power of this reflected wave depends on the direction of speech. Change. Specifically, since the direct wave power increases as the utterance direction is the front direction, the reflected wave power decreases, and the direct wave power decreases as it is in the horizontal direction. The power of will increase. The present invention uses such a property to estimate the speech direction.

これについて以下、本発明の構成に則して説明する。図6は、正面向き、横向きの発話状態がどのように相関行列R(ω,k)の各固有値λi(ω,k)に影響するかを示したものである。ここでは3本のマイクロホンでマイクロホンアレイを構成した場合を例示する。正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、図6(a)に示すように、直接波を表現する基底ベクトルが、反射波を表現する基底ベクトル群に比べて大きなパワーを持つ。この時、第1固有値λ1(ω,k)は第2固有値λ2(ω,k)、第3固有値λ3(ω,k)と比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少するため、その分反射波が多く到達する。そのため、図6(b)に示すように、直接波を表現する基底ベクトルのパワーが減少し、反射波を表現する基底ベクトル群のパワーが増加する。そして、この時には第1固有値λ1(ω,k)は正面向きの場合より小さくなり、逆に第2固有値λ2(ω,k)、第3固有値λ3(ω,k)は正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図7に示す。 This will be described below in accordance with the configuration of the present invention. FIG. 6 shows how the utterance state in front and side affects each eigenvalue λ i (ω, k) of the correlation matrix R (ω, k). Here, a case where a microphone array is configured by three microphones is illustrated. When facing the front, many direct waves reach the microphone array, and the arrival rate of the reflected waves is relatively low. Therefore, as shown in FIG. Compared to the basis vector group to be expressed, it has a large power. At this time, the first eigenvalue λ 1 (ω, k) is significantly larger than the second eigenvalue λ 2 (ω, k) and the third eigenvalue λ 3 (ω, k). On the other hand, in the case of the horizontal orientation, the direct waves that reach the microphone array are reduced, so that more reflected waves arrive accordingly. For this reason, as shown in FIG. 6B, the power of the basis vectors expressing the direct wave decreases, and the power of the basis vector group expressing the reflected wave increases. At this time, the first eigenvalue λ 1 (ω, k) is smaller than that in the front direction, and conversely, the second eigenvalue λ 2 (ω, k) and the third eigenvalue λ 3 (ω, k) are in the front direction. Larger than the case. FIG. 7 shows an image of the difference that occurs in each eigenvalue between the case of facing forward and the case of facing sideways.

以上のことから、直接波を表現する基底ベクトルのパワーは第1固有値に顕著に反映されることがわかる。そしてそうであれば、第1固有値に対応する第1固有ベクトルの、M本のマイクロホンに対応する各パワー要素の値は、直接波がM本のマイクロホンのそれぞれにどの程度の強さで届いているかの尺度となると考えることができる。そして、直接波が各マイクロホンに届くパワーは発話向きによって変化する。そこで上記のように、基準とする発話向きにおける任意の2本のマイクロホンのパワー要素の比をしきい値(thr1)とし、そのしきい値とある発話向きの時の2本のマイクロホンのパワー要素の値の比とを比較することで、その大小関係から、基準とする発話向きに対して左向きに発話したか右向きに発話したかを判定することができる。   From the above, it can be seen that the power of the basis vector expressing the direct wave is significantly reflected in the first eigenvalue. If so, the strength of each power element corresponding to the M microphones of the first eigenvector corresponding to the first eigenvalue is how strong the direct wave reaches each of the M microphones. It can be considered as a measure of The power at which direct waves reach each microphone varies depending on the direction of speech. Therefore, as described above, the ratio of the power elements of any two microphones in the reference utterance direction is set as a threshold (thr1), and the threshold and the power elements of the two microphones in a certain utterance direction It is possible to determine whether the utterance is uttered in the left direction or the utterance in the right direction with respect to the reference utterance direction from the magnitude relationship.

以上のように、第1実施形態の発話向き推定装置によれば、少数のマイクロホンを密集して配置すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。   As described above, according to the utterance direction estimation apparatus of the first embodiment, since a small number of microphones need only be densely arranged, a compact configuration can be achieved without enclosing a speaker with a large number of microphones. Become. In addition, since the reverberation is actively used, it is possible to appropriately estimate the utterance direction even in a reverberation environment where the reverberation time is 250 msec or more. In addition, since the eigenvalue decomposition process, which is the core of the process in the present invention, has a small amount of calculation, it is advantageous when it is incorporated in a device having a low CPU specification such as a portable terminal.

〔第2実施形態〕
第1実施形態は、発話向きが左向きであるか右向きであるかを判定するものであったが、第2実施形態は更に正面向きという区分を設け、発話向きが正面向き、左向き、右向きのいずれであるかを判定することを可能とするものである。
[Second Embodiment]
In the first embodiment, it is determined whether the utterance direction is leftward or rightward. However, the second embodiment further includes a front direction, and the utterance direction is frontal, leftward, or rightward. It is possible to determine whether or not.

図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、第1固有ベクトルパワー計算部104と、第1周波数平均化処理部105と、左右向き判定部106と、第2周波数平均化処理部202と、正面・横向き判定部203とを備える。このうち、固有値分解部201と、第2周波数平均化処理部202と、正面・横向き判定部203以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。
FIG. 8 shows a functional configuration example of the speech direction estimating apparatus 200 of the present invention, and FIG. 9 shows a processing flow example thereof.
The utterance direction estimation apparatus 200 includes a microphone array 101 including M (M is an integer of 2 or more) microphones 101-1 to 101-M, an AD converter 12, a frequency domain converter 13, and a correlation matrix calculator. 102, an eigenvalue decomposition unit 201, a first eigenvector power calculation unit 104, a first frequency averaging processing unit 105, a left / right orientation determination unit 106, a second frequency averaging processing unit 202, and a front / side orientation determination unit 203. Among these, the components other than the eigenvalue decomposition unit 201, the second frequency averaging processing unit 202, and the front / side orientation determination unit 203 are the same as the components having the same names and symbols described in the first embodiment. Therefore, description of functions and processes is omitted.

固有値分解部201は、第1実施形態の固有値分解部103と同様な処理を行い、更に第1固有値λ1(ω,k)を式(7)により正規化して、第1正規化固有値nλ1(ω,k)を出力する(S8)。
The eigenvalue decomposition unit 201 performs the same processing as the eigenvalue decomposition unit 103 of the first embodiment, further normalizes the first eigenvalue λ 1 (ω, k) by the equation (7), and obtains the first normalized eigenvalue nλ 1. (ω, k) is output (S8).

第2周波数平均化処理部202は、各周波数ω毎に得られた第1正規化固有値nλ1(ω,k)について式(8)により平均値を計算して、第1平均化固有値aλ1(k)を出力する(S9)。
The second frequency averaging processing unit 202 calculates the average value of the first normalized eigenvalue nλ 1 (ω, k) obtained for each frequency ω by the equation (8), and the first averaged eigenvalue aλ 1 (k) is output (S9).

なお、F2は平均化に用いる周波数のインデックス、|F2|は周波数のインデックスの総数であり、F2はΩ≧|F2|を満たすように適宜設定する。 F 2 is an index of frequencies used for averaging, | F 2 | is the total number of frequency indexes, and F 2 is appropriately set so as to satisfy Ω ≧ | F 2 |.

正面・横向き判定部203は、左右向き判定部106での判定結果と第1平均化固有値aλ1(k)とを入力とし、第1平均化固有値aλ1(k)を所定のしきい値thr2と比較することにより、aλ1(k)<thr2であれば発話者が上記マイクロホンアレイに対し横向きと判定し、そうでなければ正面向きと判定する。そして、横向きと判定した場合には左右向き判定部106での判定結果をそのまま出力し、そうでなければ正面向きであるとの判定結果を出力する(S10)。正面・横向き判定イメージを図10に例示する。ここで、thr2は環境や話者の位置によって任意に設定してよい。なお、第1平均化固有値aλ1(k)はフレームグループk毎に得られることから、判定結果もフレームグループk毎に出力される。 The front / horizontal direction determination unit 203 receives the determination result from the left / right direction determination unit 106 and the first averaged eigenvalue aλ 1 (k), and uses the first averaged eigenvalue aλ 1 (k) as a predetermined threshold value thr2. If aλ 1 (k) <thr2, the speaker determines that the speaker is facing sideways with respect to the microphone array, and otherwise determines that the speaker is facing frontward. If it is determined to be in the horizontal direction, the determination result in the left-right direction determination unit 106 is output as it is, and if not, the determination result that it is in the front direction is output (S10). FIG. 10 shows an example of the front / side orientation determination image. Here, thr2 may be arbitrarily set according to the environment and the position of the speaker. Since the first averaged eigenvalue aλ 1 (k) is obtained for each frame group k, the determination result is also output for each frame group k.

このような構成で発話向きが正面向きであるか横向きであるかを判定することができる理論的背景を説明する。第1実施形態で説明したように、直接波を表現する基底ベクトルのパワーは第1固有値に顕著に反映される。具体的には正面向きの場合には直接波を表現する基底ベクトルのパワーが大きい値を示すとともに第1固有値も大きな値を示す一方、横向きの場合には直接波を表現する基底ベクトルのパワーは正面向きの場合より小さくなり、第1固有値も小さくなる。そこで、第1固有値を正面・横向きの判定パラメータとして用いることで、第1固有値があるしきい値より大きければ正面向き、小さければ横向きであると適切に判定することができる。   A theoretical background that can determine whether the speech direction is the front direction or the horizontal direction with such a configuration will be described. As described in the first embodiment, the power of the basis vector representing the direct wave is significantly reflected in the first eigenvalue. Specifically, in the case of the front direction, the power of the base vector expressing the direct wave shows a large value and the first eigenvalue also shows a large value. The first eigenvalue is also smaller than when facing the front. Therefore, by using the first eigenvalue as a front / side determination parameter, it is possible to appropriately determine that the first eigenvalue is front-facing if it is larger than a certain threshold value and that it is lateral if it is smaller.

このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、更に正面向きという区分を設け、発話向きについて正面向き、左向き、右向きのいずれであるかを判定することが可能となるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。   Thus, according to the utterance direction estimation device of the second embodiment, in addition to the effects of the configuration of the first embodiment, a section called front direction is further provided, and the utterance direction is front direction, left direction, or right direction. Therefore, communication with the other party via the network can be performed more smoothly.

上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   When the configuration of the utterance direction estimation device of each of the above embodiments is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer. In this case, at least a part of the processing content may be realized by hardware.

また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

〔効果の検証〕
図11(a)に示す収音環境において、図11(b)に示す条件の下で、本発明の効果の検証を行った。なお、発話向きの定義は図11(c)に示すとおりである。
[Verification of effects]
In the sound collection environment shown in FIG. 11 (a), the effect of the present invention was verified under the conditions shown in FIG. 11 (b). The definition of the utterance direction is as shown in FIG.

図12に各発話向きと第1〜第7平均化固有値aλi(k)との関係を示す。ここで、第2〜第7平均化固有値は第1平均化固有値と同様な方法で求めたものである。また、図12(a)は残響時間が250msecの場合、図12(b)は残響時間が400msecの場合である。いずれの残響時間の場合も、第1平均化固有値は発話向きによって大きく異なるが、第2〜第7平均化固有値は発話向きによる差が小さい。また、第1固有値は0°(正面向き)の時が最も大きく、±90°(横向き)の時が最も小さい。この検証結果より、第2実施形態に示した第1平均化固有値により正面・横向きを判定する本発明の構成が妥当かつ有効であることがわかる。 FIG. 12 shows the relationship between each utterance direction and the first to seventh averaged eigenvalues aλ i (k). Here, the second to seventh averaged eigenvalues are obtained by the same method as the first averaged eigenvalue. FIG. 12A shows the case where the reverberation time is 250 msec, and FIG. 12B shows the case where the reverberation time is 400 msec. In any reverberation time, the first averaged eigenvalue varies greatly depending on the speech direction, but the second to seventh averaged eigenvalues have a small difference depending on the speech direction. The first eigenvalue is the largest when it is 0 ° (frontward) and the smallest when it is ± 90 ° (laterally). From this verification result, it can be seen that the configuration of the present invention for determining the front / sideways orientation based on the first averaged eigenvalue shown in the second embodiment is valid and effective.

また、図13に第1実施形態の構成により推定した左右方向の発話向きと実際の発話向きとの比較を示す。図13(a)は残響時間が250msecの場合、図13(b)は残響時間が400msecの場合である。いずれの残響時間の場合も、75%以上の正解率が得られた。この検証結果より、第1実施形態に示した第1固有ベクトルの2つのパワー要素から左右向きを判定する本発明の構成が妥当かつ有効であることがわかる。   FIG. 13 shows a comparison between the left and right utterance direction estimated by the configuration of the first embodiment and the actual utterance direction. FIG. 13A shows a case where the reverberation time is 250 msec, and FIG. 13B shows a case where the reverberation time is 400 msec. In any reverberation time, a correct answer rate of 75% or more was obtained. From this verification result, it can be seen that the configuration of the present invention for determining the left-right direction from the two power elements of the first eigenvector shown in the first embodiment is valid and effective.

〔サービス適用例〕
図14は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
[Service application example]
FIG. 14 is a structural example of a service in which the present invention is incorporated in an audio conference terminal. Assume that the conference hall A and the conference hall B are connected by a voice terminal through a network. Speech direction information is extracted from a voice signal picked up by a microphone attached to the voice conference terminal, and transmitted to the other party along with the voice information. By presenting the utterance direction information as visual information on the other party side, it is possible to convey the situation of the place that is difficult to convey only with the voice information.

第1実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 1st Embodiment. 第1実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the speech direction estimation apparatus of 1st Embodiment. マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。The image figure which shows the positional relationship of a microphone, a speaker, and a speech direction. 左右向きを判定する方法についてのイメージ図。The image figure about the method of determining left-right orientation. 音声信号の伝搬特性を時間領域で示す図。The figure which shows the propagation characteristic of an audio | voice signal in a time domain. 発話向きと基底ベクトルと固有値・固有ベクトルとの相関関係を示すイメージ図。The image figure which shows the correlation with an utterance direction, a base vector, and an eigenvalue / eigenvector. 発話向きと固有値との関係を示すイメージ図。The image figure which shows the relationship between an utterance direction and an eigenvalue. 第2実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 2nd Embodiment. 第2実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the utterance direction estimation apparatus of 2nd Embodiment. 正面向き・横向きを判定する方法についてのイメージ図。The image figure about the method of judging front direction and sideways. 効果の検証環境及び条件を示す図。The figure which shows the verification environment and conditions of an effect. 発話向きと固有値との関係についての検証結果を示す図。The figure which shows the verification result about the relationship between an utterance direction and an eigenvalue. 左右向き推定の検証結果を示す図。The figure which shows the verification result of left-right direction estimation. 音声会議端末に本発明を組み込んだサービス構成例を示す図。The figure which shows the service structural example which incorporated this invention in the audio conference terminal. 従来技術による発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus by a prior art. 従来技術によるマイクロホンと発話者との関係を示すイメージ図。The image figure which shows the relationship between the microphone and speaker by a prior art.

Claims (7)

マイクロホンアレイを構成する複数のマイクロホンそれぞれで収音した音声信号の間の相関を表す相関行列を生成して、この相関行列の固有ベクトルと、この相関行列の少なくとも最大の固有値とから、発話者が上記マイクロホンアレイに対し正面向き発話したか左右向きに発話したかを推定する発話向き推定装置。 A correlation matrix representing a correlation between audio signals picked up by each of a plurality of microphones constituting the microphone array is generated, and an utterer can perform the above processing from the eigenvector of the correlation matrix and at least the maximum eigenvalue of the correlation matrix. An utterance direction estimation device that estimates whether the utterance is directed to the microphone array from the front or the left and right . マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換部と、  A frequency domain conversion unit for converting a digital audio signal collected by M microphones (M is an integer of 2 or more) constituting a microphone array from a time domain to a frequency domain in units of frames composed of a plurality of samples;
各周波数毎に、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算部と、  A correlation matrix calculator that obtains an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain for each frequency;
上記相関行列の固有ベクトルに基づく評価値を所定のしきい値と比較した結果と、上記相関行列の少なくとも最大の固有値に基づく評価値を所定のしきい値と比較した結果とを用いて発話者が上記マイクロホンアレイに対し正面向きに発話したか左右向きに発話したかを判定して結果を出力する正面・横向き判定部と、  The speaker uses the result of comparing the evaluation value based on the eigenvector of the correlation matrix with a predetermined threshold and the result of comparing the evaluation value based on at least the maximum eigenvalue of the correlation matrix with the predetermined threshold. A front / side determination unit that determines whether the microphone array is uttered in the front direction or the left / right direction and outputs the result;
を備えることを特徴とする発話向き推定装置。An utterance direction estimation device comprising:
マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換部と、
各周波数毎に、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算部と、
上記相関行列の最大の固有値(以下、「第1固有値」という)に対応する固有ベクトル(以下、「第1固有ベクトル」という)を得、上記第1固有値を正規化して得られる第1正規化固有値を得る固有値分解部と、
上記第1固有ベクトルを構成するM個の要素についてそれぞれパワーを計算して、M個のパワー要素を出力する第1固有ベクトルパワー計算部と、
上記M個のパワー要素のうちの、任意の2本のマイクロホンに対応する2個のパワー要素の比のうちの何れか1つ、または、上記M個のパワー要素の周波数平均であるM個の平均化パワー要素のうちの、任意の2本のマイクロホンに対応する2個の平均化パワー要素の比と、所定のしきい値とを比較することにより、発話者が上記マイクロホンアレイに対し左向きに発話したか右向きに発話したかを判定する左右向き判定部と、
上記第1正規化固有値、または、上記第1正規化固有値の周波数平均である第1平均化固有値所定のしきい値と比較することにより、発話者が上記マイクロホンアレイに対し正面向きに発話したか横向きに発話したかを判定し、正面向きと判定した場合には正面向きに発話したとの判定結果を出力し、横向きと判定した場合は上記左右向き判定部での判定結果をそのまま出力する正面・横向き判定部と、
を備えることを特徴とする発話向き推定装置。
A frequency domain conversion unit for converting a digital audio signal collected by M microphones (M is an integer of 2 or more) constituting a microphone array from a time domain to a frequency domain in units of frames composed of a plurality of samples;
A correlation matrix calculator that obtains an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain for each frequency;
Obtain an eigenvector (hereinafter referred to as “first eigenvector”) corresponding to the largest eigenvalue (hereinafter referred to as “first eigenvalue”) of the correlation matrix, and obtain a first normalized eigenvalue obtained by normalizing the first eigenvalue. An eigenvalue decomposition unit to obtain,
A first eigenvector power calculator that calculates power for each of M elements constituting the first eigenvector and outputs M power elements;
Of the M power elements, one of the ratios of two power elements corresponding to any two microphones, or M frequency averages of the M power elements. By comparing the ratio of two averaged power elements corresponding to any two microphones among the averaged power elements and a predetermined threshold value, the speaker can turn left with respect to the microphone array. A left-right direction determination unit that determines whether the utterance is spoken or rightward,
The first normalization eigenvalues, or by comparing the first averaging eigenvalues with a predetermined threshold value is a frequency average of the first normalized eigenvalue, speaker utterance frontally with respect to the microphone array If it is determined to be front-facing, the determination result that the utterance was directed to the front is output. If it is determined to be horizontal, the determination result from the left-right direction determination unit is output as it is. A front / side orientation determination unit,
An utterance direction estimation device comprising:
マイクロホンアレイを構成する複数のマイクロホンそれぞれで収音した音声信号の間の相関を表す相関行列を生成して、この相関行列の固有ベクトルと、この相関行列の少なくとも最大の固有値とから、発話者が上記マイクロホンアレイに対し正面向き発話したか左右向きに発話したかを推定する発話向き推定方法。 A correlation matrix representing a correlation between audio signals picked up by each of a plurality of microphones constituting the microphone array is generated, and an utterer can perform the above processing from the eigenvector of the correlation matrix and at least the maximum eigenvalue of the correlation matrix. A speech direction estimation method for estimating whether the speech is directed to the microphone array from the front or the left and right . マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換ステップと、  A frequency domain conversion step of converting a digital audio signal collected by M microphones (M is an integer of 2 or more) constituting a microphone array from a time domain to a frequency domain in units of frames composed of a plurality of samples;
各周波数毎に、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算ステップと、  A correlation matrix calculating step for obtaining an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain for each frequency;
上記相関行列の固有ベクトルに基づく評価値を所定のしきい値と比較した結果と、上記相関行列の少なくとも最大の固有値に基づく評価値を所定のしきい値と比較した結果とを用いて発話者が上記マイクロホンアレイに対し正面向きに発話したか左右向きに発話したかを判定して結果を出力する正面・横向き判定ステップと、  The speaker uses the result of comparing the evaluation value based on the eigenvector of the correlation matrix with a predetermined threshold and the result of comparing the evaluation value based on at least the maximum eigenvalue of the correlation matrix with the predetermined threshold. A front / side determination step for determining whether the microphone array is uttered in the front direction or the left / right direction and outputting the result;
を備えることを特徴とする発話向き推定方法。An utterance direction estimation method comprising:
マイクロホンアレイを構成するM本(Mは2以上の整数)のマイクロホンで収音したディジタル音声信号を、複数サンプルからなるフレーム単位で時間領域から周波数領域に変換する周波数領域変換ステップと、
各周波数毎に、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を得る相関行列計算ステップと、
上記相関行列の最大の固有値(以下、「第1固有値」という)に対応する固有ベクトル(以下、「第1固有ベクトル」という)を得、上記第1固有値を正規化して得られる第1正規化固有値を得る固有値分解ステップと、
上記第1固有ベクトルを構成するM個の要素についてそれぞれパワーを計算して、M個のパワー要素を出力する第1固有ベクトルパワー計算ステップと、
上記M個のパワー要素のうちの、任意の2本のマイクロホンに対応する2個のパワー要素の比のうちの何れか1つ、または、上記M個のパワー要素の周波数平均であるM個の平均化パワー要素のうちの、任意の2本のマイクロホンに対応する2個の平均化パワー要素の比と、所定のしきい値とを比較することにより、発話者が上記マイクロホンアレイに対し左向きに発話したか右向きに発話したかを判定する左右向き判定ステップと、
上記第1正規化固有値、または、上記第1正規化固有値の周波数平均である第1平均化固有値所定のしきい値と比較することにより、発話者が上記マイクロホンアレイに対し正面向きに発話したか横向きに発話したかを判定し、正面向きと判定した場合には正面向きに発話したとの判定結果を出力し、横向きと判定した場合は上記左右向き判定ステップでの判定結果をそのまま出力する正面・横向き判定ステップと、
を備えることを特徴とする発話向き推定方法。
A frequency domain conversion step of converting a digital audio signal collected by M microphones (M is an integer of 2 or more) constituting a microphone array from a time domain to a frequency domain in units of frames composed of a plurality of samples;
A correlation matrix calculating step for obtaining an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain for each frequency;
Obtain an eigenvector (hereinafter referred to as “first eigenvector”) corresponding to the largest eigenvalue (hereinafter referred to as “first eigenvalue”) of the correlation matrix, and obtain a first normalized eigenvalue obtained by normalizing the first eigenvalue. An eigenvalue decomposition step to obtain;
A first eigenvector power calculating step of calculating power for each of M elements constituting the first eigenvector and outputting M power elements;
Of the M power elements, one of the ratios of two power elements corresponding to any two microphones, or M frequency averages of the M power elements. By comparing the ratio of two averaged power elements corresponding to any two microphones among the averaged power elements and a predetermined threshold value, the speaker can turn left with respect to the microphone array. A left-right direction determination step for determining whether the utterance is spoken or the right direction,
The first normalization eigenvalues, or by comparing the first averaging eigenvalues with a predetermined threshold value is a frequency average of the first normalized eigenvalue, speaker utterance frontally with respect to the microphone array If it is determined to be front-facing, the determination result that the utterance was directed to the front is output, and if it is determined to be horizontal, the determination result in the left-right determination step is output as it is. Front / side orientation determination step,
An utterance direction estimation method comprising:
請求項1乃至のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。 Program for causing a computer to function as a device as claimed in any one of claims 1 to 3.
JP2008270922A 2008-10-21 2008-10-21 Utterance direction estimation apparatus, method and program Expired - Fee Related JP5235605B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008270922A JP5235605B2 (en) 2008-10-21 2008-10-21 Utterance direction estimation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008270922A JP5235605B2 (en) 2008-10-21 2008-10-21 Utterance direction estimation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010103617A JP2010103617A (en) 2010-05-06
JP5235605B2 true JP5235605B2 (en) 2013-07-10

Family

ID=42293880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008270922A Expired - Fee Related JP5235605B2 (en) 2008-10-21 2008-10-21 Utterance direction estimation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5235605B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5683140B2 (en) * 2010-06-11 2015-03-11 日本電信電話株式会社 Noise-to-noise direct ratio estimation device, interference noise elimination device, perspective determination device, sound source distance measurement device, method of each device, and device program
JP5826465B2 (en) * 2010-06-11 2015-12-02 日本電信電話株式会社 Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program
CN109831731B (en) * 2019-02-15 2020-08-04 杭州嘉楠耘智信息科技有限公司 Sound source orientation method and device and computer readable storage medium
CN114885273A (en) * 2022-03-15 2022-08-09 科大讯飞股份有限公司 Sound zone adjusting method and related device, equipment, system and medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (en) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing direction of face
JP2001236093A (en) * 2000-02-24 2001-08-31 Omron Corp Electronic equipment controller and electronic equipment
JP4752153B2 (en) * 2001-08-14 2011-08-17 ソニー株式会社 Information processing apparatus and method, information generation apparatus and method, recording medium, and program
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
JP2007006253A (en) * 2005-06-24 2007-01-11 Sony Corp Signal processor, microphone system, and method and program for detecting speaker direction
DE102005057406A1 (en) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Method for recording a sound source with time-variable directional characteristics and for playback and system for carrying out the method

Also Published As

Publication number Publication date
JP2010103617A (en) 2010-05-06

Similar Documents

Publication Publication Date Title
JP5305743B2 (en) Sound processing apparatus and method
US7995767B2 (en) Sound signal processing method and apparatus
EP2063419B1 (en) Speaker localization
US9210504B2 (en) Processing audio signals
US9414159B2 (en) Beamforming pre-processing for speaker localization
JP4247037B2 (en) Audio signal processing method, apparatus and program
CN103632675B (en) Noise reduction and noise estimation when Echo cancellation in personal communication
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP2749016B1 (en) Processing audio signals
US9042573B2 (en) Processing signals
US20130083832A1 (en) Processing Signals
JP2002062348A (en) Apparatus and method for processing signal
JP5123595B2 (en) Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method
JP2008236077A (en) Target sound extracting apparatus, target sound extracting program
EP3113508B1 (en) Signal-processing device, method, and program
JP5235605B2 (en) Utterance direction estimation apparatus, method and program
JP2007006253A (en) Signal processor, microphone system, and method and program for detecting speaker direction
JP5235725B2 (en) Utterance direction estimation apparatus, method and program
JP5235722B2 (en) Utterance direction estimation apparatus, method and program
JP5235723B2 (en) Utterance direction estimation apparatus, method and program
JP5635024B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
JPH09261792A (en) Sound receiving method and its device
JP5235724B2 (en) Utterance front / side direction estimation apparatus, method and program
JP3862685B2 (en) Sound source direction estimating device, signal time delay estimating device, and computer program
JP5143802B2 (en) Noise removal device, perspective determination device, method of each device, and device program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110118

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees