JP2010206392A - Speech direction estimation device and method, and program - Google Patents

Speech direction estimation device and method, and program Download PDF

Info

Publication number
JP2010206392A
JP2010206392A JP2009048223A JP2009048223A JP2010206392A JP 2010206392 A JP2010206392 A JP 2010206392A JP 2009048223 A JP2009048223 A JP 2009048223A JP 2009048223 A JP2009048223 A JP 2009048223A JP 2010206392 A JP2010206392 A JP 2010206392A
Authority
JP
Japan
Prior art keywords
eigenvector
frequency
eigenvalue
matrix
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009048223A
Other languages
Japanese (ja)
Other versions
JP5235722B2 (en
Inventor
Kenta Niwa
健太 丹羽
Sumitaka Sakauchi
澄宇 阪内
Kenichi Furuya
賢一 古家
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009048223A priority Critical patent/JP5235722B2/en
Publication of JP2010206392A publication Critical patent/JP2010206392A/en
Application granted granted Critical
Publication of JP5235722B2 publication Critical patent/JP5235722B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech direction estimation device which does not request to arrange many microphones so as to enclose a speaker, and can appropriately estimate the speech direction even under environment in which a reverberation time is long. <P>SOLUTION: The plurality of microphones pick up a sound signal originated by the speaker around a microphone array which is composed of the plurality of microphones. A correlation matrix which represents correlation between voice signals each picked up by each microphone, is created, and it is estimated that the speaker has spoken from what direction to the microphone array from an eigenvector obtained by decomposing the correlation matrix into an eigenvalue matrix and an eigenvector matrix. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。   The present invention relates to a technique for estimating the utterance direction of a speaker from an audio signal input to a microphone.

電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。   A system for exchanging voice information such as a telephone or a voice conference terminal is generally called a voice communication system. In the video conference system, the video is added to the audio information and presented, so that the situation of the place is easily transmitted, but in the audio communication system, it is difficult to grasp the situation of the other party. One of the information on the other party's situation is utterance direction information. By receiving this information from the other party, it is possible to grasp the direction in which the speaker is speaking and to facilitate communication.

このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図12に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。   Conventional techniques for estimating such speech direction information are disclosed in Non-Patent Documents 1 and 2 and the like, and a configuration example is shown in FIG. The speech direction estimation apparatus 10 in this configuration example estimates speech direction information as follows.

(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vX(t)=[X(t)、・・・、X(t)]へ変換する。ここで、tは離散時間のインデックスを表す。 (i) The voice from the speaker 1 is picked up using M (M is an integer of 2 or more) microphones 11-1,. The collected analog signal is converted by the AD converter 12 into a digital signal vX (t) = [X 1 (t),..., X M (t)] T. Here, t represents an index of discrete time.

(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号vX(ω,n)=[X(ω,n)、・・・、X(ω,n)]へ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。 (ii) The frequency domain transform unit 13 receives a set (frame) of the digital signals composed of a plurality of samples as an input, and performs frequency domain signal vX (ω, n) = [X 1 (ω, n) by fast Fourier transform or the like. , ···, X M (ω, n)] to convert to T. Here, ω represents a frequency index, and the total number of frequency indexes is Ω. N represents the index of the frame.

(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマvG(ω,r,θ)=[G(ω,r,θ)、・・・、G(ω,r,θ)]を設計する。G(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分X(ω,n)に掛ける係数である。 (iii) In the fixed beamformer design unit 14, the fixed beamformer vG (ω, r, θ) = [G 1 (ω, r, θ),..., G M ( ω, r, θ)] T is designed. G i (ω, r, θ) is a coefficient that is multiplied by the frequency component X i (ω, n) of the i-th microphone in order to emphasize / suppress the sound source at the speaker position r and the speech direction θ.

設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vH(ω,r,θ)=[H(ω,r,θ),・・・,H(ω,r,θ)]をシミュレーション値や実測値を用いて求めておく。ここでH(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。 In designing, acoustic propagation characteristics between the sound source and the microphone vH (ω, r, θ) = [H 1 (ω, r, θ),..., H M for each predetermined speaker position and direction. (ω, r, θ)] T is obtained using a simulation value or an actual measurement value. Here, H i (ω, r, θ) represents acoustic propagation characteristics between the sound source at the speaker position r and the speech direction θ and the i-th microphone.

固定ビームフォーマvG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。   The fixed beamformer vG (ω, r, θ) is designed as a value satisfying the expressions (1) and (2) representing the relationship with the acoustic propagation characteristics.

vH(ω,r)・vG(ω,r)=1 (1)
vH(ω,r)・vG(ω,r)=0 (2)
式(1)、(2)は、発話者位置r、発話向きθの出力パワーを強調し、それ以外の発話者位置r、発話向きθの出力パワーを抑えるように固定ビームフォーマvG(ω,r,θ)を設計することを示している。
vH (ω, r T , θ T ) H · vG (ω, r T , θ T ) = 1 (1)
vH (ω, r U , θ U ) H · vG (ω, r T , θ T ) = 0 (2)
Expressions (1) and (2) emphasize the output power of the speaker position r T and the speech direction θ T , and the fixed beamformer so as to suppress the output power of the other speaker positions r U and the speech direction θ U. It shows that vG (ω, r, θ) is designed.

(iv) 積和計算部15では、周波数領域の信号vX(ω,n)=[X(ω,n),・・・, X(ω,n)]と固定ビームフォーマvG(ω,r,θ)=[G(ω,r,θ),・・・,G(ω,r,θ)]を入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分X(ω,n)と固定ビームフォーマの係数G(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=vG(ω,r,θ)・vX(ω,n)を計算することと同義である。 (iv) In the product-sum calculation unit 15, the frequency domain signal vX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T and the fixed beamformer vG (ω , r, θ) = [G 1 (ω, r, θ), ···, G M (ω, r, θ)] as input T, each frequency ω, speaker position r, every utterance direction θ Multiplying the frequency component X i (ω, n) corresponding to each microphone by the coefficient G i (ω, r, θ) of the fixed beamformer, and adding the obtained M components, the output Y (ω, n, r, θ) is calculated. This calculation is synonymous with calculating Y (ω, n, r, θ) = vG (ω, r, θ) H · vX (ω, n).

(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|を計算して出力する。 (v) The power calculator 16 calculates and outputs power | Y (ω, n, r, θ) | 2 from the output Y (ω, n, r, θ) from the product-sum calculator 15.

(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|を周波数で平均化処理し、aY(n,r,θ)を得る。この計算は、Fを平均化処理で用いる周波数のインデックス、|F|を周波数のインデックスの総数と定義すると、 (vi) The frequency averaging processing unit 17 averages the power | Y (ω, n, r, θ) | 2 output from the power calculation unit 16 by frequency, and aY (n, r, θ) is obtained. obtain. In this calculation, if F 0 is defined as the frequency index used in the averaging process, and | F 0 | is defined as the total number of frequency indexes,

Figure 2010206392
を計算することと同義である。なお、FはΩ≧|F|を満たす。
Figure 2010206392
Is equivalent to calculating Note that F 0 satisfies Ω ≧ | F 0 |.

(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーaY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーaY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。 (vii) The sound source direction selection unit 18 searches for the speaker position r and the utterance direction θ at which the power aY (n, r, θ) averaged by frequency for each frame is maximum, and the power aY (n , r, θ) is determined as the estimated speech direction θ out (n).

中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620Hiroshi Nakajima, “Expanded Beamforming for Estimating Sound Source Direction”, Proceedings of the Acoustical Society of Japan, September 2005, p.619-620 中島弘史、外8名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622Hiroshi Nakajima, 8 others, "Sound source directivity estimation using extended beamforming", Proceedings of the Acoustical Society of Japan, September 2005, p.621-622

従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
The following two points can be cited as problems of the prior art.
(i) In order to respond to utterances at an arbitrary position and to estimate the direction of utterance with high accuracy, a large number of microphones are required, and it is necessary to devise the microphone installation positions.

従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図13に示すように多数のマイクロホン11で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。 In the prior art, the more accurate the utterance direction is estimated as the output power | Y (ω, n, r, θ) | 2 of the fixed beamformer designed for each utterer position and utterance direction is different. can do. However, assuming a sound source with strong directivity in front of the mouth, such as a sound wave radiated from the mouth of the speaker, it is necessary to collect sound so as to surround the speaker with a large number of microphones 11 as shown in FIG. Depending on the speaker position and direction, the output power of the fixed beamformer does not differ, and the estimation error of the speech direction increases (for example, in the experiment of Non-Patent Document 2, 64 microphones are used). Therefore, in order to reduce the error, a large number of microphones are required, the apparatus becomes large, and it is difficult to use it by attaching it to a portable apparatus such as a telephone or an audio conference terminal.

(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない
残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。
(ii) High reverberation direction estimation performance cannot be obtained in a reverberant environment where the reverberation time (the time from the direct wave arrival time to the 60 dB attenuation from the direct wave pickup power) is 250 msec or more. Below, since many strong reflected waves are mixed, it is difficult to design the acoustic propagation characteristic vH (ω, r, θ) with high accuracy. Therefore, ambiguity occurs in the output of the fixed beamformer, and the estimation accuracy deteriorates. For example, in an actual environment room that is not subjected to low reverberation processing, reverberation time is generally about 250 to 500 msec, so that accurate estimation is difficult.

本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。   An object of the present invention is to estimate the speech direction, which does not require a large number of microphones to be placed so as to surround the speaker, and can appropriately estimate the speech direction even in a reverberant environment with a reverberation time of 250 msec or more. To provide an apparatus, a method, and a program.

本発明の発話向き推定装置は、AD変換部と周波数領域変換部と相関行列計算部と固有値分解部と第1固有ベクトル平均化処理部と左右向きコスト計算部と発話向き判定部とから構成される。   The speech direction estimation apparatus of the present invention includes an AD conversion unit, a frequency domain conversion unit, a correlation matrix calculation unit, an eigenvalue decomposition unit, a first eigenvector averaging processing unit, a left-right cost calculation unit, and a speech direction determination unit. .

AD変換部は、発話者が位置rにおいて発話し、M本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。   The AD conversion unit converts an analog voice signal collected by a microphone array including M microphones (M is an integer of 2 or more) and a digital voice signal.

周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。   The frequency domain transform unit transforms each digital audio signal from the time domain to the frequency domain.

相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する。   The correlation matrix calculation unit generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain.

固有値分解部は、上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する。   The eigenvalue decomposition unit decomposes the correlation matrix into an eigenvalue matrix that is a diagonal matrix with the squares of M eigenvalues as diagonal elements and an eigenvector matrix that includes M eigenvectors corresponding to the eigenvalues, An eigenvector corresponding to the largest eigenvalue (hereinafter referred to as “first eigenvector”) is output.

第1固有ベクトル平均化処理部は、各周波数毎に得られた上記第1固有ベクトルについて周波数平均をとることにより平均化第1固有ベクトルを出力する。   The first eigenvector averaging processing unit outputs the averaged first eigenvector by taking the frequency average of the first eigenvector obtained for each frequency.

左右向きコスト計算部は、上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθ毎に計算して出力する。 The left-right direction cost calculation unit calculates the model-averaged first prepared for each of the averaged first eigenvectors and a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r. From one eigenvector, the right / left direction determination cost is calculated for each utterance direction θ j and output.

発話向き判定部は、上記左右向き判定コストが最も小さいθが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する。 The utterance direction determination unit determines whether θ j having the smallest left-right direction determination cost corresponds to the left direction or the right direction with respect to the microphone array, and outputs a determination result.

本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。   According to the speech direction estimating apparatus of the present invention, it is not necessary to arrange a large number of microphones so as to surround a speaker, and it is possible to appropriately estimate the speech direction even in a reverberant environment where the reverberation time is 250 msec or more. It becomes.

音声信号の伝搬特性を時間領域で示す図。The figure which shows the propagation characteristic of an audio | voice signal in a time domain. 正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間を模式的に表現したイメージ図。The image figure which represented typically the acoustic propagation vector group and eigenspace which comprise the correlation matrix showing the correlation between the signals picked up by each microphone for every three speech directions of front, left, and right. 第1実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 1st Embodiment. 第1実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the speech direction estimation apparatus of 1st Embodiment. マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。The image figure which shows the positional relationship of a microphone, a speaker, and a speech direction. モデル平均化第1固有ベクトルを求める構成例を示す図。The figure which shows the structural example which calculates | requires a model average 1st eigenvector. 発話向きと固有値との関係を示すイメージ図。The image figure which shows the relationship between an utterance direction and an eigenvalue. 第2実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 2nd Embodiment. 第2実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the utterance direction estimation apparatus of 2nd Embodiment. モデル平均化固有値を求める構成例を示す図。The figure which shows the structural example which calculates | requires a model average eigenvalue. 音声会議端末に本発明を組み込んだサービス構成例を示す図。The figure which shows the service structural example which incorporated this invention in the audio conference terminal. 従来技術による発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus by a prior art. 従来技術によるマイクロホンと発話者との位置関係を示すイメージ図。The image figure which shows the positional relationship of the microphone and speaker by a prior art.

〔第1実施形態〕
<原理>
第1実施形態では発話向きがマイクロホンアレイに対し左向きであるか右向きであるかを推定可能とする構成を明らかにする。そこで、まず左右方向の発話向きを推定する原理を説明する。
[First Embodiment]
<Principle>
In the first embodiment, a configuration that makes it possible to estimate whether the utterance direction is leftward or rightward with respect to the microphone array will be clarified. First, the principle of estimating the left-right direction of speech will be described.

図1は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の3つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。   FIG. 1 shows the propagation characteristics of an audio signal in the time domain. Propagation characteristics can be broadly divided into three types: direct wave, initial reflected wave, and rear reverberation. In the time zone in which direct wave and initial reflected wave are observed, a microphone array composed of multiple microphones is used. It is known that waves with directionality are mixed. In particular, in the initial reverberation time zone (after the arrival of the direct wave, the time from the direct wave pickup power to the attenuation of 10 dB), a strong reflected wave with directionality is mixed, but the power of this reflected wave depends on the direction of speech. Change.

図2は、正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間(固有ベクトルvVと固有値λとにより形成されるi次元の空間)を模式的に表現したものである。図2はマイクロホン3本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は3次元で表現されている。図2において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvV、特に相関行列の固有値が最大のものに対応する第1固有ベクトルvVに顕著に表れるため、第1固有ベクトルvVがとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。 FIG. 2 shows acoustic propagation vector groups and eigenspaces (eigenvectors vV i and eigenvalues λ i) constituting a correlation matrix representing the correlation between signals picked up by each microphone for each of the three front, left, and right speech directions. (I-dimensional space formed by the above) is schematically represented. FIG. 2 shows a case where a microphone array is constituted by three microphones. Therefore, the acoustic propagation vector group and the eigenspace are expressed in three dimensions. When comparing the left direction and the right direction in FIG. 2, there is almost no difference in the acoustic propagation vectors constituting the direct wave and the rear reverberation, but the acoustic propagation vectors constituting the initial reflected wave are different. This is because the directionality of the strong reflected wave from the wall mixed in the observation signal differs depending on the direction of speech. That is, the direction and power of acoustic propagation constituting the initial reflected wave change depending on whether the utterance direction is left or right, and how the eigenspace is stretched also changes. Since the influence of this change is prominent in the eigenvector vV i of the correlation matrix, particularly the first eigenvector vV 1 corresponding to the largest eigenvalue of the correlation matrix, the value taken by the first eigenvector vV 1 is evaluated. , It is possible to distinguish whether the utterance direction is leftward or rightward.

<構成>
図3に本発明の発話向き推定装置100の機能構成例を、図4にその処理フロー例を示す。発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、発話向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。
<Configuration>
FIG. 3 shows a functional configuration example of the speech direction estimating apparatus 100 of the present invention, and FIG. 4 shows a processing flow example thereof. The utterance direction estimation apparatus 100 includes a microphone array 101 including M microphones (M is an integer of 2 or more) 101-1 to 101-M, an AD conversion unit 12, a frequency domain conversion unit 13, and a correlation matrix calculation unit. 102, an eigenvalue decomposition unit 103, a first eigenvector averaging processing unit 104, a left-right direction cost calculation unit 105, and an utterance direction determination unit 106. Among them, the AD conversion unit 12 and the frequency conversion unit 13 are the same as those used in the speech direction estimation apparatus 10 described in the background art.

従来技術においては、図13に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲のある位置rで発話する。図5は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図5(a)は発話者が各位置で左向きに発話している様子を、図5(b)は右向きに発話している様子を表している。   In the prior art, as shown in FIG. 13, it has been necessary to arrange a large number of microphones so as to surround the speaker, but in the present invention, M microphones 101-1 to 101 -M are possible to the extent possible. It is sufficient to arrange them closely. Although the number of microphones constituting such a microphone array 101 is not too large, according to the configuration of the present invention described below, it is possible to estimate the utterance direction with two or more microphones. The arrangement may be two-dimensional or three-dimensional. By adopting a configuration in which a small number of microphones are arranged densely in this way, it can be attached to a portable device such as a telephone or an audio conference terminal, and the direction of speech by surrounding speakers can be estimated It becomes. The speaker speaks at a certain position r around the microphone array 101. FIG. 5 shows an image of a speaker talking around a microphone array 101 composed of seven microphones as viewed from above, and the direction of the arrow is the direction of speech. FIG. 5A shows a state where the speaker is speaking leftward at each position, and FIG. 5B shows a state where the speaker is speaking rightward.

AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が位置rで発話したアナログ音声信号を、それぞれディジタル音声信号X(t) 、・・・、X(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。 The AD converter 12 converts the analog voice signals uttered at the position r by the speaker 1 picked up by the M microphones 101-1 to 101 -M into digital voice signals X 1 (t),. Convert to M (t) (S1). Here, t represents an index of discrete time.

周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X(ω,n)、・・・、X(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。 The frequency domain transform unit 13 receives as input a set (frame) of the above digital speech signals composed of a plurality of discrete time samples, and performs frequency domain digital speech signals X 1 (ω, n),. It is converted to X M (ω, n) and output (S2). Here, n represents a frame index, and ω represents a frequency index. The total number of frequency indexes is Ω.

相関行列計算部102は、周波数領域のディジタル音声信号X(ω,n) 、・・・、X(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。 The correlation matrix calculation unit 102 receives the digital audio signals X 1 (ω, n),..., X M (ω, n) in the frequency domain as inputs, and an M × M correlation matrix R representing the correlation between the signals. (ω, k) is sequentially generated and output for each frequency ω by equation (3) (S3).

R(ω,k)=E[vX(ω,n)・vX(ω,n)] (3)
ここで、vX(ω,n)=[X(ω,n)、・・・、X(ω,n)]
式(3)において、Hは共役転置を表し、EはvX(ω,n)・vX(ω,n)を各フレームについて計算した上で平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。なお、LはM以上の整数とすることが望ましい。
R (ω, k) = E [vX (ω, n) · vX H (ω, n)] (3)
Here, vX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T
In Equation (3), H represents a conjugate transpose, and E calculated vX (ω, n) · vX (ω, n) H for each frame, and then calculated an expected value for each L frame by averaging processing or the like. Is an operator. That is, the correlation matrix is sequentially output at a rate of once per L frame, and k represents an output index of the correlation matrix. Note that L is preferably an integer greater than or equal to M.

固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ(ω,k)、・・・、λ(ω,k)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvV(ω,k)、・・・、vV(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。 The eigenvalue decomposition unit 103 receives the correlation matrix R (ω, k), and first, M eigenvalues λ 1 (ω, k),..., Λ M (ω, k) so as to satisfy Equation (4). ) Eigenvalue matrix Λ (ω, k), which is a diagonal matrix with each square as a diagonal element, and M eigenvectors vV 1 (ω, k),..., VV M (ω, k) Is decomposed into eigenvector matrix V (ω, k) by the eigenvalue decomposition method.

R(ω,k)=V(ω,k)・Λ(ω,k)・V(ω,k) (4)
ここで、Λ(ω,k)=diag[λ (ω,k)、・・・、λ (ω,k)]
λ(ω,k)≧λ(ω,k)≧・・・≧λ(ω,k)
V(ω,k)=[vV(ω,k)、・・・、vV(ω,k)]
vV(ω,k)=[Vi,1(ω,k)、・・・、Vi,M(ω,k)]
なお、diag[・]は[・]内の成分を対角行列の要素とする演算子である。そして、最大の固有値である第1固有値λ(ω,k)に対応する第1固有ベクトルvV(ω,k)を出力する(S4)。
R (ω, k) = V (ω, k) ・ Λ (ω, k) ・ V H (ω, k) (4)
Here, Λ (ω, k) = diag [λ 1 2 (ω, k),..., Λ M 2 (ω, k)]
λ 1 (ω, k) ≧ λ 2 (ω, k) ≧ ・ ・ ・ ≧ λ M (ω, k)
V (ω, k) = [vV 1 (ω, k),..., VV M (ω, k)] T
vV i (ω, k) = [V i, 1 (ω, k),..., V i, M (ω, k)]
Note that diag [•] is an operator having the components in [•] as elements of a diagonal matrix. Then, the first eigenvector vV 1 (ω, k) corresponding to the first eigenvalue λ 1 (ω, k) which is the maximum eigenvalue is output (S4).

第1固有ベクトル平均化処理部104は、各周波数ω毎に得られた第1固有ベクトルvV(ω,k)について周波数平均をとることにより平均化第1固有ベクトルvaV(k)を求めて出力する(S5)。ここで、第1固有ベクトルvV(ω,k)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第1固有ベクトルvV(ω,k)を特開2007−226036(段落〔0078〕〔0079〕等)にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。 The first eigenvector averaging processing unit 104 obtains and outputs an averaged first eigenvector vaV 1 (k) by taking a frequency average for the first eigenvector vV 1 (ω, k) obtained for each frequency ω. (S5). The first eigenvector vV 1 (ω, k) is a vector of complex domain, it is not possible to perform frequency averaging process simple product sum operation for frequency dependent omega. Therefore, the first eigenvector vV 1 (ω, k) is converted into a frequency-independent feature amount with reference to the frequency normalization method disclosed in Japanese Patent Application Laid-Open No. 2007-226036 (paragraphs [0078] [0079] etc.). The frequency averaging process is performed above.

具体的には、まず第1固有ベクトルvV(ω,k)=[V1,1(ω,k)、・・・、V1,M(ω,k)]を、式(5)(6)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvP(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]に変換する。 Specifically, first, the first eigenvector vV 1 (ω, k) = [V 1,1 (ω, k),..., V 1, M (ω, k)] is expressed by equations (5) (6 ) by the feature vector vP 1 to measure the similarity of acoustic propagation characteristics not dependent on the frequency (ω, k) = [P 1,1 (ω, k), ···, P 1, M (ω, k)] Convert to

Figure 2010206392
Figure 2010206392
Figure 2010206392
Figure 2010206392

ここで、i=1、2、・・・、Mであり、ξ(ω,k)は複素回転子、arg[・]は位相角を算出する演算子、fωは周波数インデックスωに対応する周波数(Hz)、dはマイクロホンアレイの最大間隔(m)、cは音速(m/s)である。 Here, i = 1, 2,..., M, ξ i (ω, k) is a complex rotator, arg [•] is an operator for calculating a phase angle, and f ω corresponds to a frequency index ω. Frequency (Hz), d is the maximum distance (m) of the microphone array, and c is the speed of sound (m / s).

そして、得られた特徴量ベクトルvP(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]を式(7)により周波数平均化処理を行い、平均化第1固有ベクトルvaV(k)= [aV1,1(k)、・・・、aV1,M(k)]を出力する。 Then, the obtained feature vector vP 1 (ω, k) = [P 1,1 (ω, k),..., P 1, M (ω, k)] is frequency-averaged using equation (7). Processing is performed, and the averaged first eigenvector vaV 1 (k) = [aV 1,1 (k),..., AV 1, M (k)] is output.

Figure 2010206392
Figure 2010206392

ここで、Fは周波数平均化で用いる周波数インデックス、|F|は周波数平均化処理で用いる周波数インデックスの総数であり、FはΩ≧|F|を満たすように適宜設定する。 Here, F 1 is a frequency index used in frequency averaging, | F 1 | is the total number of frequency indexes used in frequency averaging processing, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |.

左右向きコスト計算部105は、第1固有ベクトル平均化処理部104で得られた平均化第1固有ベクトルvaV(k)= [aV1,1(k)、・・・、aV1,M(k)]と、予め発話位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルvaS(k,r,θ)=[aS1,1(k,r,θ)、・・・、aS1,M(k,r,θ) ]とから、発話向きθ毎に左右向き判定コストC(k,r,θ)を計算して出力する(S6)。ここで、発話向きθ毎のモデル平均化第1固有ベクトルvaS(k,r,θ)は、例えば図6に示すように図3と同じ構成のもとで発話位置rにおいて向きθ毎に発話された音声信号に対し、それぞれ第1固有ベクトル平均化処理部104までの処理を行うことにより得ることができる。なお、モデル平均化第1固有ベクトルvaS(k,r,θ)の左右向きコスト計算部105への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストC(k,r,θ)は式(8)により求める。
The left-right cost calculator 105 calculates the averaged first eigenvector vaV 1 (k) = [aV 1,1 (k),..., AV 1, M (k) obtained by the first eigenvector averaging processor 104. )] And a model-averaged first eigenvector vaS 1 (k, r, θ) prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the speech position r. j ) = [aS 1,1 (k, r, θ j ),..., aS 1, M (k, r, θ j )]], the left-right determination cost C 1 (for each utterance direction θ j k, r, θ j ) is calculated and output (S6). Here, the utterance orientation theta model averaging first eigenvector for each j vaS 1 (k, r, θ j) , the orientation theta j in speech position r under the same configuration as FIG. 3, for example, as shown in FIG. 6 It can be obtained by performing the processing up to the first eigenvector averaging processing unit 104 for each voice signal uttered. Note that the input of the model averaged first eigenvector vaS 1 (k, r, θ j ) to the left-right cost calculation unit 105 may be performed by an arbitrary method such as recording in the database in advance and reading from the database.
The left / right direction determination cost C 1 (k, r, θ j ) is obtained by Expression (8).

Figure 2010206392
Figure 2010206392

左右向き判定コストC(k,r,θ)は、判定対象である発話の向きと、予め用意された各発話向きθとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθに近いことを意味する。つまり、予め用意された各θのうちコストが最小のθを抽出することにより、判定対象である発話向きを推定することができる。 The left-right direction determination cost C 1 (k, r, θ j ) is an index representing the proximity between the utterance direction that is the determination target and each utterance direction θ j prepared in advance. This means that the direction of the utterance is close to θ j . That is, it is possible to estimate the utterance direction as a determination target by extracting θ j having the lowest cost from each θ j prepared in advance.

発話向き判定部106は、左右向き判定コストC(k,r,θ)が最小のθが、マイクロホンアレイ101に対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する(S7)。例えば、発話位置rからマイクロホンアレイ101に対して正面向きを0°、左向きを負の角度、右向きを正の角度として、θ=−90°、θ=+90°の2つの向きについてモデル平均化第1固有ベクトルを用意した場合、左右向き判定コストがC(k,r,θ)<C(k,r,θ)である時には左向き(コストが小さいθが負の角度であるため)、C(k,r,θ)>C(k,r,θ)である時は右向き(コストが小さいθが正の角度であるため)と判定する。 The speech direction determination unit 106 determines whether θ j having the minimum left-right direction determination cost C 1 (k, r, θ j ) corresponds to the left direction or the right direction with respect to the microphone array 101 and determines the result. Is output (S7). For example, the model average for two orientations θ 1 = −90 ° and θ 2 = + 90 °, where the front direction is 0 °, the left direction is a negative angle, and the right direction is a positive angle with respect to the microphone array 101 from the speech position r. If prepared first eigenvector of the left and right orientation determination cost C 1 (k, r, θ 1) <C 1 (k, r, θ 2) at an angle leftward (cost is small theta 1 is negative when it is Therefore, when C 1 (k, r, θ 1 )> C 1 (k, r, θ 2 ), it is determined that the direction is right (because θ 2 having a low cost is a positive angle).

以上のように、第1実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、左向きに発話したか右向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。   As described above, the utterance direction estimation apparatus according to the first embodiment can estimate whether a speaker utters leftward or rightward with respect to the microphone array. In addition, since the microphone array may be configured in a form in which a small number of microphones are densely packed, it is possible to configure the microphone array compactly without enclosing the speaker. In addition, since the reverberation is actively used, it is possible to appropriately estimate the utterance direction even in a reverberation environment where the reverberation time is 250 msec or more. In addition, since the eigenvalue decomposition process, which is the core of the process in the present invention, has a small amount of calculation, it is advantageous when it is incorporated in equipment with low CPU specifications such as a portable terminal.

〔第2実施形態〕
第1実施形態は、発話向きが左向きであるか右向きであるかを判定するものであったが、第2実施形態は更に正面向きという区分を設け、発話向きが正面向き、左向き、右向きのいずれであるかを判定することを可能とするものである。
[Second Embodiment]
In the first embodiment, it is determined whether the utterance direction is leftward or rightward. However, the second embodiment further includes a front direction, and the utterance direction is frontal, leftward, or rightward. It is possible to determine whether or not.

<原理>
第1実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。
<Principle>
As mentioned in the explanation of the principle of the first embodiment, strong reflected waves having directivity with respect to the microphone array are mixed in the initial reverberation time zone, and the power of the reflected waves changes depending on the direction of speech. Specifically, since the direct wave power increases as the utterance direction is the front direction, the reflected wave power decreases, and the direct wave power decreases as it is in the horizontal direction. The power of will increase.

図2において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第1固有値λは第2固有値λ、第3固有値λと比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第1固有値λは正面向きの場合より小さくなり、逆に第2固有値λ、第3固有値λは正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図7に示す。このように、直接波の到達度合が相関行列の固有値λ(特に第1固有値λ)に顕著に表れるため、固有値λがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。 In the case of facing front in FIG. 2, since many direct waves reach the microphone array and the arrival rate of the reflected waves is relatively low, the acoustic propagation vectors representing the direct waves are in the acoustic propagation vector group representing the reflected waves. Compared with greater power. At this time, the first eigenvalue λ 1 of the correlation matrix is significantly larger than the second eigenvalue λ 2 and the third eigenvalue λ 3 . On the other hand, in the case of the horizontal orientation, the direct waves that reach the microphone array are reduced, and more reflected waves reach accordingly. Therefore, the power of the acoustic propagation vector that expresses the direct wave decreases, and the power of the acoustic propagation vector group that expresses the reflected wave increases. The first eigenvalue lambda 1 when this is smaller than the front direction, the second eigenvalue lambda 2 Conversely, the third eigenvalue lambda 3 is larger than that of the front facing. FIG. 7 shows an image of the difference that occurs in each eigenvalue between the case of facing forward and the case of facing sideways. As described above, since the degree of arrival of the direct wave appears prominently in the eigenvalue λ i (especially the first eigenvalue λ 1 ) of the correlation matrix, by evaluating the value taken by the eigenvalue λ i, Can be carved.

<構成>
図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
<Configuration>
FIG. 8 shows a functional configuration example of the speech direction estimating apparatus 200 of the present invention, and FIG. 9 shows a processing flow example thereof.

発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、固有値平均化処理部202と、正面・横向きコスト計算部203と、発話向き判定部204とを備える。このうち、固有値分解部201と、固有値平均化処理部202と、正面・横向き判定部203と、発話者向き判定部204以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。   The utterance direction estimation apparatus 200 includes a microphone array 101 including M (M is an integer of 2 or more) microphones 101-1 to 101-M, an AD converter 12, a frequency domain converter 13, and a correlation matrix calculator. 102, eigenvalue decomposition unit 201, first eigenvector averaging processing unit 104, left-right direction cost calculation unit 105, eigenvalue averaging processing unit 202, front / sideways cost calculation unit 203, speech direction determination unit 204, Is provided. Among these, except for the eigenvalue decomposition unit 201, the eigenvalue averaging processing unit 202, the front / side orientation determination unit 203, and the speaker orientation determination unit 204, the same name / symbol described in the first embodiment is attached. Since it is the same as the element, description of the function / process is omitted.

固有値分解部201は、第1実施形態の固有値分解部103と同様な分解処理を行った上で、第1固有ベクトルvV(ω,k)を出力するとともに、各固有値λ(ω,k)(i=1、2、・・・、M)を、式(9)により正規化して、正規化固有値nλ(ω,k)を出力する(S11)。 The eigenvalue decomposition unit 201 performs the same decomposition process as the eigenvalue decomposition unit 103 of the first embodiment, and then outputs a first eigenvector vV 1 (ω, k) and each eigenvalue λ i (ω, k). (I = 1, 2,..., M) is normalized by equation (9), and a normalized eigenvalue nλ i (ω, k) is output (S11).

Figure 2010206392
Figure 2010206392

なお、正面・横向き判定コストを最大の固有値である第1固有値λ(ω,k)のみに基づき計算する場合は、正規化第1固有値nλ(ω,k)のみを計算して出力することとしてもよい。 When calculating the front / side determination cost based only on the first eigenvalue λ 1 (ω, k) that is the maximum eigenvalue, only the normalized first eigenvalue nλ 1 (ω, k) is calculated and output. It is good as well.

固有値平均化処理部202は、各周波数ω毎に得られた正規化固有値nλ(ω,k)について式(10)により周波数平均をとり、平均化固有値aλ(k)を出力する(S12)。 The eigenvalue averaging processing unit 202 averages the frequencies of the normalized eigenvalues nλ i (ω, k) obtained for each frequency ω according to the equation (10), and outputs the averaged eigenvalues aλ i (k) (S12). ).

Figure 2010206392
Figure 2010206392

ここで、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第1固有値λ(ω,k)のみに基づき計算する場合は、平均化第1固有値aλ(k)のみを出力することとしてもよい。 Here, F 1 is the frequency index used for averaging, | F 1 | is the total number of frequency indexes, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |. When the front / side orientation determination cost is calculated based only on the first eigenvalue λ 1 (ω, k), which is the maximum eigenvalue, only the averaged first eigenvalue aλ 1 (k) may be output.

正面・横向きコスト計算部203は、固有値平均化処理部202で得られた平均化固有値列vaλ(k)=[aλ(k)、aλ(k)、・・・、aλ(k)]と、予め発話位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値列vaQ(k,r,θ)=[aQ(k,r,θ)、aQ(k,r,θ)、・・・、aQ(k,r,θ) ]とから、発話向きθ毎に正面・横向き判定コストC(k,r,θ)を計算して出力する(S13)。ここで、モデル平均化固有値aQ(k,r,θ)は例えば図10に示すように、図8と同じ構成のもとで発話位置rにおいて向きθ毎に発話された音声信号に対し、それぞれ固有値平均化処理部202までの処理を行うことにより得ることができる。なお、モデル平均化固有値aQ(k,r,θ)の正面・横向きコスト計算部203への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストC(k,r,θ)は式(11)により求める。
The front / lateral cost calculation unit 203 averages the eigenvalue sequence vaλ (k) = [aλ 1 (k), aλ 2 (k),..., Aλ M (k) obtained by the eigenvalue averaging processing unit 202. ] And a model-averaged eigenvalue sequence vaQ (k, r, θ j ) = prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the speech position r = From [aQ 1 (k, r, θ j ), aQ 2 (k, r, θ j ),..., AQ M (k, r, θ j )], the front and side directions for each utterance direction θ j The determination cost C 2 (k, r, θ j ) is calculated and output (S13). Here, the model average eigenvalue aQ i (k, r, θ j) as is shown in FIG. 10 for example, the voice signal uttered for each orientation theta j in speech position r under the same configuration as FIG. 8 On the other hand, it can be obtained by performing the processing up to the eigenvalue averaging processing unit 202. Note that the model averaged eigenvalue aQ i (k, r, θ j ) may be input to the front / sideways cost calculation unit 203 by an arbitrary method such as recording in a database in advance and reading from the database.
The front / side orientation determination cost C 2 (k, r, θ j ) is obtained by the equation (11).

Figure 2010206392
Figure 2010206392

なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第1固有値に特に顕著に反映されることから、正面・横向き判定コストC(k,r,θ)を第1固有値のみから式(12)により求めても構わない。 Note that the eigenvalue difference between the case of speaking in front and the case of speaking in side is reflected particularly prominently in the first eigenvalue, so the front / side determination cost C 2 (k, r, θ j ) is You may obtain | require by Formula (12) only from a 1st eigenvalue.

Figure 2010206392
Figure 2010206392

発話向き判定部204は、各θ毎の左右向き判定コストC(k,r,θ)と正面・横向き判定コストC(k,r,θ)との和であるC(k,r,θ)のうち、各左右向き判定コストC(k,r,θ)と各正面・横向き判定コストC(k,r,θ)との和の全ての組み合わせの最小値に最も近いC(k,r,θ)の発話向きであるθが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する(S14)。 Utterance orientation determining unit 204, the left and right orientation determining cost C 1 for each θ j (k, r, θ j) and a front-transverse determined cost C 2 (k, r, θ j) is the sum of the C (k , r, θ j ), the minimum of all combinations of the sums of the left-right determination costs C 1 (k, r, θ j ) and the front / side determination costs C 2 (k, r, θ j ) It is determined whether θ j that is the utterance direction of C (k, r, θ j ) closest to the value corresponds to the front, left, or right direction with respect to the microphone array, and a determination result is output. (S14).

例えば、モデル第1固有ベクトル及びモデル固有値を、発話位置rからマイクロホンアレイ101に対してθ=0°(正面向き)、θ=−90°(左向き)、θ=+90°(右向き)の3つの向きについてそれぞれ用意した場合を考える。この場合、左右向きコスト計算部105からはC(k,r,θ)、C(k,r,θ)、C(k,r,θ)の3つのコストが出力され、正面・横向きコスト計算部203からもC(k,r,θ)、C(k,r,θ)、C(k,r,θ)の3つのコストが出力される。発話向き判定部204ではこれらを入力として、C(k,r,θ)=C(k,r,θ)+C(k,r,θ)により、C(k,r,θ)、C(k,r,θ)、C(k,r,θ)をそれぞれ求める。そして求めた3つのコストC(k,r,θ)のうち、最小のコストmin{C(k,r,θ)}のθを判定対象の発話の向きと推定する。この例では、C(k,r,θ)が最小のコストであれば正面向き、C(k,r,θ)が最小のコストであれば左向き、C(k,r,θ)が最小のコストであれば右向きと推定することができる。 For example, the model first eigenvector and the model eigenvalue are set to θ 1 = 0 ° (front direction), θ 2 = −90 ° (left direction), and θ 3 = + 90 ° (right direction) from the speech position r to the microphone array 101. Consider the case where three orientations are prepared. In this case, three costs of C 1 (k, r, θ 1 ), C 1 (k, r, θ 2 ), and C 1 (k, r, θ 3 ) are output from the left-right cost calculation unit 105. Also, three costs of C 2 (k, r, θ 1 ), C 2 (k, r, θ 2 ), and C 2 (k, r, θ 3 ) are also output from the front / lateral cost calculation unit 203. . The speech direction determination unit 204 receives these as inputs, and C (k, r, θ j ) = C 1 (k, r, θ j ) + C 2 (k, r, θ j ) 1 ), C (k, r, θ 2 ), and C (k, r, θ 3 ), respectively. The three cost C obtained (k, r, θ j) of the minimum cost min {C (k, r, θ j)} a theta j of estimating the orientation of the utterance to be determined. In this example, if C (k, r, θ 1 ) is the minimum cost, it faces forward, if C (k, r, θ 2 ) has the minimum cost, it faces left, C (k, r, θ 3 ) Can be estimated to be right-facing.

このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、更に正面向きという区分を設け、発話向きについて正面向き、左向き、右向きのいずれであるかを判定することが可能となるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。   Thus, according to the utterance direction estimation device of the second embodiment, in addition to the effects of the configuration of the first embodiment, a section called front direction is further provided, and the utterance direction is front direction, left direction, or right direction. Therefore, communication with the other party via the network can be performed more smoothly.

上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   When the configuration of the utterance direction estimation device of each of the above embodiments is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer. In this case, at least a part of the processing content may be realized by hardware.

また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

〔サービス適用例〕
図11は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
[Service application example]
FIG. 11 shows a configuration example of a service in which the present invention is incorporated into an audio conference terminal. Assume that the conference hall A and the conference hall B are connected by a voice terminal through a network. Speech direction information is extracted from a voice signal picked up by a microphone attached to the voice conference terminal, and transmitted to the other party along with the voice information. By presenting the utterance direction information as visual information on the other party side, it is possible to convey the situation of the place that is difficult to convey only with the voice information.

また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。   In addition, the utterance direction estimation technology can be applied to a minutes system that records the state of communication in a meeting using video and audio. In other words, the utterance direction estimation technique makes it possible to tag the recorded voice and video as to who spoke to whom, which is useful for organizing the minutes.

更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。   In addition, images for services that detect faces from images, for example, surveillance used for surveillance cameras and intercoms, security purposes, and services that determine whether you are paying attention to advertising with digital signage, etc. It is possible to replace the detection of the direction by the detection with an audio signal.

Claims (5)

発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解部と、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理部と、
上記平均化第1固有ベクトルと、予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθ毎に計算して出力する左右向きコスト計算部と、
上記左右向き判定コストが最も小さいθが、上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。
An analog-to-digital conversion unit that converts analog audio signals collected by a microphone array composed of M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain converter for converting each of the digital audio signals from the time domain to the frequency domain;
A correlation matrix calculator that generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix that is a diagonal matrix having the squares of M eigenvalues as diagonal elements and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. An eigenvalue decomposition unit that outputs an eigenvector corresponding to the largest eigenvalue among eigenvalues (hereinafter referred to as “first eigenvector”);
A first eigenvector averaging processing unit that outputs an averaged first eigenvector by taking a frequency average for the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, A left / right cost calculator that calculates and outputs a direction determination cost for each utterance direction θ j , and
An utterance direction determination unit that determines whether θ j having the smallest left-right direction determination cost corresponds to the left direction or the right direction with respect to the microphone array and outputs a determination result;
An utterance direction estimation device comprising:
請求項1に記載の発話向き推定装置において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。
In the utterance direction estimation device according to claim 1,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation device obtained by
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換ステップと、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解ステップと、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理ステップと、
上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθ毎に計算して出力する左右向きコスト計算ステップと、
上記左右向き判定コストが最も小さいθが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
An AD conversion step for converting analog audio signals collected by a microphone array comprising M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain transforming step for transforming each digital audio signal from the time domain to the frequency domain;
A correlation matrix calculation step of generating and outputting an M × M correlation matrix representing a correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. An eigenvalue decomposition step for outputting an eigenvector corresponding to the largest eigenvalue (hereinafter referred to as “first eigenvector”);
A first eigenvector averaging process step of outputting an averaged first eigenvector by taking a frequency average for the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the left-right direction A left-right cost calculation step for calculating and outputting a determination cost for each utterance direction θ j ;
An utterance direction determination step of determining whether θ j having the smallest left-right direction determination cost corresponds to the left direction or the right direction with respect to the microphone array, and outputs a determination result;
Utterance direction estimation method.
請求項3に記載の発話向き推定方法において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。
In the speech direction estimation method according to claim 3,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation method obtained by
請求項1又は2のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the apparatus according to claim 1.
JP2009048223A 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program Expired - Fee Related JP5235722B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009048223A JP5235722B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009048223A JP5235722B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010206392A true JP2010206392A (en) 2010-09-16
JP5235722B2 JP5235722B2 (en) 2013-07-10

Family

ID=42967453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009048223A Expired - Fee Related JP5235722B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5235722B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015070321A (en) * 2013-09-26 2015-04-13 本田技研工業株式会社 Sound processing device, sound processing method, and sound processing program
CN111535470A (en) * 2020-05-09 2020-08-14 广州大学 Method and system for improving indoor language definition
WO2020240730A1 (en) * 2019-05-29 2020-12-03 三菱電機株式会社 Device for estimating person being spoken to, method for estimating person being spoken to, and program for estimating person being spoken to

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (en) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing direction of face
JP2001236093A (en) * 2000-02-24 2001-08-31 Omron Corp Electronic equipment controller and electronic equipment
JP2003061184A (en) * 2001-08-14 2003-02-28 Sony Corp Information processing apparatus and method, information generating device and method, recording medium and program
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
JP2007006253A (en) * 2005-06-24 2007-01-11 Sony Corp Signal processor, microphone system, and method and program for detecting speaker direction
JP2009517936A (en) * 2005-11-30 2009-04-30 ノエミ バレンズエラ ミリアム Method for recording and playing back sound sources with time-varying directional characteristics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (en) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing direction of face
JP2001236093A (en) * 2000-02-24 2001-08-31 Omron Corp Electronic equipment controller and electronic equipment
JP2003061184A (en) * 2001-08-14 2003-02-28 Sony Corp Information processing apparatus and method, information generating device and method, recording medium and program
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
JP2007006253A (en) * 2005-06-24 2007-01-11 Sony Corp Signal processor, microphone system, and method and program for detecting speaker direction
JP2009517936A (en) * 2005-11-30 2009-04-30 ノエミ バレンズエラ ミリアム Method for recording and playing back sound sources with time-varying directional characteristics

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015070321A (en) * 2013-09-26 2015-04-13 本田技研工業株式会社 Sound processing device, sound processing method, and sound processing program
US9478230B2 (en) 2013-09-26 2016-10-25 Honda Motor Co., Ltd. Speech processing apparatus, method, and program of reducing reverberation of speech signals
WO2020240730A1 (en) * 2019-05-29 2020-12-03 三菱電機株式会社 Device for estimating person being spoken to, method for estimating person being spoken to, and program for estimating person being spoken to
JPWO2020240730A1 (en) * 2019-05-29 2021-09-30 三菱電機株式会社 Speaker estimation device, receiver estimation method, and receiver estimation program
CN111535470A (en) * 2020-05-09 2020-08-14 广州大学 Method and system for improving indoor language definition
CN111535470B (en) * 2020-05-09 2021-11-19 广州大学 Method and system for improving indoor language definition

Also Published As

Publication number Publication date
JP5235722B2 (en) 2013-07-10

Similar Documents

Publication Publication Date Title
JP4815661B2 (en) Signal processing apparatus and signal processing method
US20070005350A1 (en) Sound signal processing method and apparatus
KR20090057692A (en) Method and apparatus for filtering the sound source signal based on sound source distance
JP2017090853A (en) Information processing device, information processing method, and program
JP5123595B2 (en) Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method
JP2008236077A (en) Target sound extracting apparatus, target sound extracting program
JP2008054071A (en) Device for eliminating paper rustling noise
WO2015129760A1 (en) Signal-processing device, method, and program
JP2013201525A (en) Beam forming processing unit
Padois et al. On the use of modified phase transform weighting functions for acoustic imaging with the generalized cross correlation
JP2007006253A (en) Signal processor, microphone system, and method and program for detecting speaker direction
JP5235725B2 (en) Utterance direction estimation apparatus, method and program
JP5235722B2 (en) Utterance direction estimation apparatus, method and program
JP5235723B2 (en) Utterance direction estimation apparatus, method and program
JP5235605B2 (en) Utterance direction estimation apparatus, method and program
Hu et al. Decoupled direction-of-arrival estimations using relative harmonic coefficients
Padois et al. On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps
WO2020250797A1 (en) Information processing device, information processing method, and program
JP5635024B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
JP3862685B2 (en) Sound source direction estimating device, signal time delay estimating device, and computer program
JP5235724B2 (en) Utterance front / side direction estimation apparatus, method and program
CN109417666B (en) Noise removing device, echo eliminating device and abnormal sound detecting device
Ihara et al. Multichannel speech separation and localization by frequency assignment
JP2002062900A (en) Sound collecting device and signal receiving device
JP5826465B2 (en) Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110118

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees