JP2010206393A - Speech direction estimation device and method, and program - Google Patents
Speech direction estimation device and method, and program Download PDFInfo
- Publication number
- JP2010206393A JP2010206393A JP2009048224A JP2009048224A JP2010206393A JP 2010206393 A JP2010206393 A JP 2010206393A JP 2009048224 A JP2009048224 A JP 2009048224A JP 2009048224 A JP2009048224 A JP 2009048224A JP 2010206393 A JP2010206393 A JP 2010206393A
- Authority
- JP
- Japan
- Prior art keywords
- eigenvalue
- eigenvector
- frequency
- utterance
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。 The present invention relates to a technique for estimating the utterance direction of a speaker from an audio signal input to a microphone.
電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。 A system for exchanging voice information such as a telephone or a voice conference terminal is generally called a voice communication system. In the video conference system, the video is added to the audio information and presented, so that the situation of the place is easily transmitted, but in the audio communication system, it is difficult to grasp the situation of the other party. One of the information on the other party's situation is utterance direction information. By receiving this information from the other party, it is possible to grasp the direction in which the speaker is speaking and to facilitate communication.
このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図12に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。
Conventional techniques for estimating such speech direction information are disclosed in
(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vX(t)=[X1(t)、・・・、XM(t)]Tへ変換する。ここで、tは離散時間のインデックスを表す。
(i) The voice from the
(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]Tへ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。
(ii) The frequency
(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ)、・・・、GM(ω,r,θ)]Tを設計する。Gi(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分Xi(ω,n)に掛ける係数である。
(iii) In the fixed
設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vH(ω,r,θ)=[H1(ω,r,θ),・・・,HM(ω,r,θ)]Tをシミュレーション値や実測値を用いて求めておく。ここでHi(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。 In designing, acoustic propagation characteristics between the sound source and the microphone vH (ω, r, θ) = [H 1 (ω, r, θ),..., H M for each predetermined speaker position and direction. (ω, r, θ)] T is obtained using a simulation value or an actual measurement value. Here, H i (ω, r, θ) represents acoustic propagation characteristics between the sound source at the speaker position r and the speech direction θ and the i-th microphone.
固定ビームフォーマvG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。 The fixed beamformer vG (ω, r, θ) is designed as a value satisfying the expressions (1) and (2) representing the relationship with the acoustic propagation characteristics.
vH(ω,rT,θT)H・vG(ω,rT,θT)=1 (1)
vH(ω,rU,θU)H・vG(ω,rT,θT)=0 (2)
式(1)、(2)は、発話者位置rT、発話向きθTの出力パワーを強調し、それ以外の発話者位置rU、発話向きθUの出力パワーを抑えるように固定ビームフォーマvG(ω,r,θ)を設計することを示している。
vH (ω, r T , θ T ) H · vG (ω, r T , θ T ) = 1 (1)
vH (ω, r U , θ U ) H · vG (ω, r T , θ T ) = 0 (2)
Expressions (1) and (2) emphasize the output power of the speaker position r T and the speech direction θ T , and the fixed beamformer so as to suppress the output power of the other speaker positions r U and the speech direction θ U. It shows that vG (ω, r, θ) is designed.
(iv) 積和計算部15では、周波数領域の信号vX(ω,n)=[X1(ω,n),・・・, XM(ω,n)]Tと固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ),・・・,GM(ω,r,θ)]Tを入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分Xi(ω,n)と固定ビームフォーマの係数Gi(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=vG(ω,r,θ)H・vX(ω,n)を計算することと同義である。
(iv) In the product-
(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|2を計算して出力する。
(v) The
(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|2を周波数で平均化処理し、aY(n,r,θ)を得る。この計算は、F0を平均化処理で用いる周波数のインデックス、|F0|を周波数のインデックスの総数と定義すると、
(vi) The frequency averaging processing unit 17 averages the power | Y (ω, n, r, θ) | 2 output from the
(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーaY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーaY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。
(vii) The sound source
従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
The following two points can be cited as problems of the prior art.
(i) In order to respond to utterances at an arbitrary position and to estimate the direction of utterance with high accuracy, a large number of microphones are required, and it is necessary to devise the microphone installation positions.
従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|2に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図13に示すように多数のマイクロホン11で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。
In the prior art, the more accurate the utterance direction is estimated as the output power | Y (ω, n, r, θ) | 2 of the fixed beamformer designed for each utterer position and utterance direction is different. can do. However, assuming a sound source with strong directivity in front of the mouth, such as a sound wave radiated from the mouth of the speaker, it is necessary to collect sound so as to surround the speaker with a large number of
(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない。 (ii) High reverberation direction estimation performance cannot be obtained in a reverberant environment in which the reverberation time (the time from the arrival of the direct wave to the attenuation of 60 dB from the collected sound of the direct wave) is 250 msec or more.
残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。 In a reverberant environment with a reverberation time of 250 msec or longer, it is difficult to design the acoustic propagation characteristics vH (ω, r, θ) with high accuracy because many strong reflected waves are mixed. Therefore, ambiguity occurs in the output of the fixed beamformer, and the estimation accuracy deteriorates. For example, in an actual environment room that is not subjected to low reverberation processing, reverberation time is generally about 250 to 500 msec, so that accurate estimation is difficult.
本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。 An object of the present invention is to estimate the speech direction, which does not require a large number of microphones to be placed so as to surround the speaker, and can appropriately estimate the speech direction even in a reverberant environment with a reverberation time of 250 msec or more. To provide an apparatus, a method, and a program.
本発明の発話向き推定装置は、AD変換部と周波数領域変換部と相関行列計算部と固有値分解部と固有値平均化処理部と正面・横向きコスト計算部と発話向き判定部とから構成される。 The utterance direction estimation apparatus of the present invention includes an AD conversion unit, a frequency domain conversion unit, a correlation matrix calculation unit, an eigenvalue decomposition unit, an eigenvalue averaging processing unit, a front / horizontal cost calculation unit, and an utterance direction determination unit.
AD変換部は、発話者が位置rにおいて発話し、M本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。 The AD conversion unit converts an analog voice signal collected by a microphone array including M microphones (M is an integer of 2 or more) and a digital voice signal.
周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。 The frequency domain transform unit transforms each digital audio signal from the time domain to the frequency domain.
相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する。 The correlation matrix calculation unit generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain.
固有値分解部は、上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する。 The eigenvalue decomposition unit decomposes the correlation matrix into an eigenvalue matrix that is a diagonal matrix with the squares of M eigenvalues as diagonal elements and an eigenvector matrix that includes M eigenvectors corresponding to the eigenvalues, Each of the eigenvalues is normalized and M normalized eigenvalues are output.
固有値平均化処理部は、各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する。 The eigenvalue averaging processing unit outputs an averaged eigenvalue by taking a frequency average of the normalized eigenvalue obtained for each frequency.
正面・横向きコスト計算部は、上記平均化固有値と予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストを上記発話向きθj毎に計算して出力する。 The front / lateral cost calculation unit includes the average eigenvalue and a model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r. From this, the front / side orientation determination cost is calculated and output for each utterance direction θ j .
発話向き判定部は、上記正面・横向き判定コストが最も小さいθjが上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する。 The utterance direction determination unit determines whether θ j having the lowest front / horizontal direction determination cost corresponds to the front direction or the horizontal direction with respect to the microphone array, and outputs a determination result.
本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。 According to the speech direction estimating apparatus of the present invention, it is not necessary to arrange a large number of microphones so as to surround a speaker, and it is possible to appropriately estimate the speech direction even in a reverberant environment where the reverberation time is 250 msec or more. It becomes.
〔第1実施形態〕
<原理>
第1実施形態では発話向きがマイクロホンアレイに対し正面向きであるか横向きであるかを推定可能とする構成を明らかにする。そこで、まず正面・横方向の発話向きを推定する原理を説明する。
[First Embodiment]
<Principle>
In the first embodiment, a configuration that makes it possible to estimate whether the utterance direction is the front direction or the horizontal direction with respect to the microphone array will be clarified. First, the principle of estimating the utterance direction in the front and side directions will be described.
図1は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の3つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。本発明はこのような性質を利用して発話向きを推定する。 FIG. 1 shows the propagation characteristics of an audio signal in the time domain. Propagation characteristics can be broadly divided into three types: direct wave, initial reflected wave, and rear reverberation. In the time zone in which direct wave and initial reflected wave are observed, a microphone array composed of multiple microphones is used. It is known that waves with directionality are mixed. In particular, in the initial reverberation time zone (after the arrival of the direct wave, the time from the direct wave pickup power to the attenuation of 10 dB), a strong reflected wave with directionality is mixed, but the power of this reflected wave depends on the direction of speech. Change. Specifically, since the direct wave power increases as the utterance direction is the front direction, the reflected wave power decreases, and the direct wave power decreases as it is in the horizontal direction. The power of will increase. The present invention uses such a property to estimate the speech direction.
図2は、正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間(固有ベクトルvViと固有値λiとにより形成されるi次元の空間)を模式的に表現したものである。図2はマイクロホン3本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は3次元で表現されている。図2において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第1固有値λ1は第2固有値λ2、第3固有値λ3と比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第1固有値λ1は正面向きの場合より小さくなり、逆に第2固有値λ2、第3固有値λ3は正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図3に示す。このように、直接波の到達度合が相関行列の固有値λi(特に第1固有値λ1)に顕著に表れるため、固有値λiがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。 FIG. 2 shows acoustic propagation vector groups and eigenspaces (eigenvectors vV i and eigenvalues λ i) constituting a correlation matrix representing the correlation between signals picked up by each microphone for each of the three front, left, and right speech directions. (I-dimensional space formed by the above) is schematically represented. FIG. 2 shows a case where a microphone array is constituted by three microphones. Therefore, the acoustic propagation vector group and the eigenspace are expressed in three dimensions. In the case of facing front in FIG. 2, since many direct waves reach the microphone array and the arrival rate of the reflected waves is relatively low, the acoustic propagation vectors representing the direct waves are in the acoustic propagation vector group representing the reflected waves. Compared with greater power. At this time, the first eigenvalue λ 1 of the correlation matrix is significantly larger than the second eigenvalue λ 2 and the third eigenvalue λ 3 . On the other hand, in the case of the horizontal orientation, the direct waves that reach the microphone array are reduced, and more reflected waves reach accordingly. Therefore, the power of the acoustic propagation vector that expresses the direct wave decreases, and the power of the acoustic propagation vector group that expresses the reflected wave increases. The first eigenvalue lambda 1 when this is smaller than the front direction, the second eigenvalue lambda 2 Conversely, the third eigenvalue lambda 3 is larger than that of the front facing. FIG. 3 shows an image of the difference that occurs in each eigenvalue between the case of facing front and the case of facing sideways. As described above, since the degree of arrival of the direct wave appears prominently in the eigenvalue λ i (especially the first eigenvalue λ 1 ) of the correlation matrix, by evaluating the value taken by the eigenvalue λ i, Can be carved.
<構成>
図4に本発明の発話向き推定装置100の機能構成例を、図5にその処理フロー例を示す。発話向き推定装置100は、発話向きがマイクロホンアレイに対し正面向きであるか横向きであるかを推定するものである。
<Configuration>
FIG. 4 shows a functional configuration example of the speech
発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、固有値平均化処理部104と、正面・横向きコスト計算部105と、発話向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。
The utterance
従来技術においては、図13に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲のある位置rで発話する。図6は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図6(a)は発話者が各位置で正面向きに発話している様子を、図6(b)は横向きに発話している様子を表している。
In the prior art, as shown in FIG. 13, it has been necessary to arrange a large number of microphones so as to surround the speaker, but in the present invention, M microphones 101-1 to 101 -M are possible to the extent possible. It is sufficient to arrange them closely. Although the number of microphones constituting such a
AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が位置rで発話したアナログ音声信号を、それぞれディジタル音声信号X1(t) 、・・・、XM(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。
The
周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X1(ω,n)、・・・、XM(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。
The frequency
相関行列計算部102は、周波数領域のディジタル音声信号X1(ω,n) 、・・・、XM(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。
The correlation
R(ω,k)=E[vX(ω,n)・vXH(ω,n)] (3)
ここで、vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]T
式(3)において、Hは共役転置を表し、EはvX(ω,n)・vX(ω,n)Hを各フレームについて計算した上で平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。なお、LはM以上の整数とすることが望ましい。
R (ω, k) = E [vX (ω, n) · vX H (ω, n)] (3)
Here, vX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T
In Equation (3), H represents a conjugate transpose, and E calculated vX (ω, n) · vX (ω, n) H for each frame, and then calculated an expected value for each L frame by averaging processing or the like. Is an operator. That is, the correlation matrix is sequentially output at a rate of once per L frame, and k represents an output index of the correlation matrix. Note that L is preferably an integer greater than or equal to M.
固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ1(ω,k)、・・・、λM(ω,k)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvV1(ω,k)、・・・、vVM(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。
The
R(ω,k)=V(ω,k)・Λ(ω,k)・VH(ω,k) (4)
ここで、Λ(ω,k)=diag[λ1 2(ω,k)、・・・、λM 2(ω,k)]
λ1(ω,k)≧λ2(ω,k)≧・・・≧λM(ω,k)
V(ω,k)=[vV1(ω,k)、・・・、vVM(ω,k)]T
vVi(ω,k)=[Vi,1(ω,k)、・・・、Vi,M(ω,k)]
そして、各固有値λi(ω,k)(i=1、2、・・・、M)を、式(5)により正規化して、正規化固有値nλi(ω,k)を出力する(S4)。
R (ω, k) = V (ω, k) ・ Λ (ω, k) ・ V H (ω, k) (4)
Here, Λ (ω, k) = diag [λ 1 2 (ω, k),..., Λ M 2 (ω, k)]
λ 1 (ω, k) ≧ λ 2 (ω, k) ≧ ・ ・ ・ ≧ λ M (ω, k)
V (ω, k) = [vV 1 (ω, k),..., VV M (ω, k)] T
vV i (ω, k) = [V i, 1 (ω, k),..., V i, M (ω, k)]
Then, each eigenvalue λ i (ω, k) (i = 1, 2,..., M) is normalized by Expression (5), and a normalized eigenvalue nλ i (ω, k) is output (S4). ).
なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、正規化第1固有値nλ1(ω,k)のみを計算して出力することとしてもよい。 When calculating the front / side determination cost based only on the first eigenvalue λ 1 (ω, k) that is the maximum eigenvalue, only the normalized first eigenvalue nλ 1 (ω, k) is calculated and output. It is good as well.
固有値平均化処理部104は、各周波数ω毎に得られた正規化固有値nλi(ω,k)について式(6)により周波数平均をとり、平均化固有値aλi(k)を出力する(S5)。
The eigenvalue
ここで、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、平均化第1固有値aλ1(k)のみを出力することとしてもよい。 Here, F 1 is the frequency index used for averaging, | F 1 | is the total number of frequency indexes, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |. When the front / side orientation determination cost is calculated based only on the first eigenvalue λ 1 (ω, k), which is the maximum eigenvalue, only the averaged first eigenvalue aλ 1 (k) may be output.
正面・横向きコスト計算部105は、固有値平均化処理部104で得られた平均化固有値列vaλ(k)=[aλ1(k)、aλ2(k)、・・・、aλM(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値列vaQ(k,r,θj)=[aQ1(k,r,θj)、aQ2(k,r,θj)、・・・、aQM(k,r,θj) ]とから、発話向きθj毎に正面・横向き判定コストC1(k,r,θj)を計算して出力する(S6)。ここで、モデル平均化固有値aQi(k,r,θj)は例えば図7に示すように、図4と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ固有値平均化処理部104までの処理を行うことにより得ることができる。なお、モデル平均化固有値aQi(k,r,θj)の正面・横向きコスト計算部105への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストC1(k,r,θj)は式(7)により求める。
The front / horizontal
The front / side orientation determination cost C 1 (k, r, θ j ) is obtained by equation (7).
なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第1固有値に特に顕著に反映されることから、正面・横向き判定コストC1(k,r,θj)を第1固有値のみから式(8)により求めても構わない。 Note that the difference in eigenvalue between the case of speaking in front and the case of speaking in side is reflected particularly prominently in the first eigenvalue, so the front / side determination cost C 1 (k, r, θ j ) is expressed as follows. You may obtain | require by Formula (8) only from a 1st eigenvalue.
正面・横向き判定コストC1(k,r,θj)は、判定対象である発話の向きと、予め用意された各発話向きθjとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθjに近いことを意味する。つまり、予め用意された各θjのうちコストが最小のθjを抽出することにより、判定対象である発話向きを推定することができる。 The front / side determination cost C 1 (k, r, θ j ) is an index representing the proximity between the utterance direction to be determined and each utterance direction θ j prepared in advance. This means that the direction of the target utterance is close to θ j . That is, it is possible to estimate the utterance direction as a determination target by extracting θ j having the lowest cost from each θ j prepared in advance.
発話向き判定部106は、正面・横向き判定コストC1(k,r,θj)が最も小さい値となるθjが、マイクロホンアレイ101に対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する(S7)。例えば、発話位置rからマイクロホンアレイ101に対して正面向きを0°とし、横向きをその他の角度として、θ1=0°、θ2=−90°、θ3=+90°の3つの向きについてモデル平均化固有値列を用意した場合、正面・横向き判定コストがC1(k,r,θ1)<C1(k,r,θ2)<C1(k,r,θ3)である時又はC1(k,r,θ1)<C1(k,r,θ3)<C1(k,r,θ2)である時には正面向き、それ以外の時は横向きと判定する。
Utterance
以上のように、第1実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、正面向きに発話したか横向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。 As described above, the utterance direction estimation apparatus according to the first embodiment can estimate whether the utterer speaks in the front direction or the side direction with respect to the microphone array. In addition, since the microphone array may be configured in a form in which a small number of microphones are densely packed, it is possible to configure the microphone array compactly without enclosing the speaker. In addition, since the reverberation is actively used, it is possible to appropriately estimate the utterance direction even in a reverberation environment where the reverberation time is 250 msec or more. In addition, since the eigenvalue decomposition process, which is the core of the process in the present invention, has a small amount of calculation, it is advantageous when it is incorporated in equipment with low CPU specifications such as a portable terminal.
〔第2実施形態〕
第1実施形態において、モデル平均化固有値列を例えばθ1=0°、θ2=負の角度、θ3=正の角度の3つの向きについて用意した場合、負の角度が左向き、正の角度が右向きであると考えれば、正面・横向きだけでなく左右向きの判定も可能であるように思える。しかし、実際には正面近辺以外の角度ではC1(k,r,θ2)≒C1(k,r,θ3)となってしまい、左右方向を正しく判定することが難しい。そこで第2実施形態は、横向きについて更に左向きか右向きかの判定を可能とするものである。
[Second Embodiment]
In the first embodiment, when model averaged eigenvalue sequences are prepared for three orientations, for example, θ 1 = 0 °, θ 2 = negative angle, and θ 3 = positive angle, the negative angle is leftward and the positive angle If it is considered to be rightward, it seems that it is possible to determine not only front and sideways but also left and right. However, in reality, C 1 (k, r, θ 2 ) ≈C 1 (k, r, θ 3 ) is obtained at angles other than the vicinity of the front, and it is difficult to correctly determine the left-right direction. Therefore, in the second embodiment, it is possible to further determine whether the horizontal orientation is leftward or rightward.
<原理>
第1実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。
<Principle>
As mentioned in the explanation of the principle of the first embodiment, strong reflected waves having directivity with respect to the microphone array are mixed in the initial reverberation time zone, and the power of the reflected waves changes depending on the direction of speech.
図2において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvVi、特に相関行列の固有値が最大のものに対応する第1固有ベクトルvV1に顕著に表れるため、第1固有ベクトルvV1がとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。 When comparing the left direction and the right direction in FIG. 2, there is almost no difference in the acoustic propagation vectors constituting the direct wave and the rear reverberation, but the acoustic propagation vectors constituting the initial reflected wave are different. This is because the directionality of the strong reflected wave from the wall mixed in the observation signal differs depending on the direction of speech. That is, the direction and power of acoustic propagation constituting the initial reflected wave change depending on whether the utterance direction is left or right, and how the eigenspace is stretched also changes. Since the influence of this change is prominent in the eigenvector vV i of the correlation matrix, particularly the first eigenvector vV 1 corresponding to the largest eigenvalue of the correlation matrix, the value taken by the first eigenvector vV 1 is evaluated. , It is possible to distinguish whether the utterance direction is leftward or rightward.
<構成>
図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
<Configuration>
FIG. 8 shows a functional configuration example of the speech
発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、固有値平均化処理部104と、正面・横向きコスト計算部105と、第1固有ベクトル平均化処理部202と、左右向きコスト計算部203と、発話向き判定部204とを備える。このうち、固有値分解部201と、第1固有ベクトル平均化処理部202と、左右向きコスト計算部203と、発話向き判定部204以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。
The utterance
固有値分解部201は、第1実施形態の固有値分解部103と同様な分解処理を行った上で、正規化固有値nλi(ω,k)を出力するとともに、最大の固有値である第1固有値λ1(ω,k)に対応する第1固有ベクトルvV1(ω,k)を出力する(S11)。
The
第1固有ベクトル平均化処理部202は、各周波数ω毎に得られた第1固有ベクトルvV1(ω,k)について周波数平均をとることにより平均化第1固有ベクトルvaV1(k)を求めて出力する(S12)。ここで、第1固有ベクトルvV1(ω,k)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第1固有ベクトルvV1(ω,k)を特開2007−226036(段落〔0078〕〔0079〕等)にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。
The first eigenvector averaging
具体的には、まず第1固有ベクトルvV1(ω,k)=[V1,1(ω,k)、・・・、V1,M(ω,k)]を、式(9)(10)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]に変換する。 Specifically, first, the first eigenvector vV 1 (ω, k) = [V 1,1 (ω, k),..., V 1, M (ω, k)] is expressed by equations (9) (10 ), The feature vector vP 1 (ω, k) = [P 1,1 (ω, k),..., P 1, M (ω, k)] that measures the similarity of the frequency-independent acoustic propagation characteristics. Convert to
ここで、i=1、2、・・・、Mであり、ξi(ω、k)は複素回転子、arg[・]は位相角を算出する演算子、fωは周波数インデックスωに対応する周波数(Hz)、dはマイクロホンアレイの最大間隔(m)、cは音速(m/s)である。 Here, i = 1, 2,..., M, ξ i (ω, k) is a complex rotator, arg [•] is an operator for calculating a phase angle, and f ω corresponds to a frequency index ω. Frequency (Hz), d is the maximum distance (m) of the microphone array, and c is the speed of sound (m / s).
そして、得られた特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]を式(11)により周波数平均化処理を行い、平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、av1,M(k)]を出力する。 Then, the obtained feature vector vP 1 (ω, k) = [P 1,1 (ω, k),..., P 1, M (ω, k)] is frequency-averaged by the equation (11). Processing is performed to output an averaged first eigenvector vaV 1 (k) = [aV 1,1 (k),..., Av 1, M (k)].
ここで、F1は周波数平均化で用いる周波数インデックス、|F1|は周波数平均化処理で用いる周波数インデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。 Here, F 1 is a frequency index used in frequency averaging, | F 1 | is the total number of frequency indexes used in frequency averaging processing, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |.
左右向きコスト計算部203は、第1固有ベクトル平均化処理部202で得られた平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、aV1,M(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルvaS1(k,r,θj)=[aS1,1(k,r,θj)、・・・、aS1,M(k,r,θj) ]とから、発話向きθj毎に左右向き判定コストC2(k,r,θj)を計算して出力する(S13)。ここで、発話向きθj毎のモデル平均化第1固有ベクトルvaS1(k,r,θj)は、例えば図10に示すように図8と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ第1固有ベクトル平均化処理部202までの処理を行うことにより得ることができる。なお、モデル平均化第1固有ベクトルvaS1(k,r,θj)の左右向きコスト計算部203への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストC2(k,r,θj)は式(12)により求める。
The left-right
The left / right direction determination cost C 2 (k, r, θ j ) is obtained by Expression (12).
発話向き判定部204は、各θj毎の正面・横向き判定コストC1(k,r,θj)と左右向き判定コストC2(k,r,θj)との和であるC(k,r,θj)のうち、各正面・横向き判定コストC1(k,r,θj)と各左右向き判定コストC2(k,r,θj)との和の全ての組み合わせの最小値に最も近いC(k,r,θj)の発話向きであるθjが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する(S14)。
Utterance
例えば、モデル固有値及びモデル第1固有ベクトルを、発話位置rからマイクロホンアレイ101に対してθ1=0°(正面向き)、θ2=−90°(左向き)、θ3=+90°(右向き)の3つの向きについてそれぞれ用意した場合を考える。この場合、正面・横向きコスト計算部105からはC1(k,r,θ1)、C1(k,r,θ2)、C1(k,r,θ3)の3つのコストが出力され、左右向きコスト計算部203からもC2(k,r,θ1)、C2(k,r,θ2)、C2(k,r,θ3)の3つのコストが出力される。発話向き判定部204ではこれらを入力として、C(k,r,θj)=C1(k,r,θj)+C2(k,r,θj)により、C(k,r,θ1)、C(k,r,θ2)、C(k,r,θ3)をそれぞれ求める。そして求めた3つのコストC(k,r,θj)のうち、最小のコストmin{C(k,r,θj)}のθjを判定対象の発話の向きと推定する。この例では、C(k,r,θ1)が最小のコストであれば正面向き、C(k,r,θ2)が最小のコストであれば左向き、C(k,r,θ3)が最小のコストであれば右向きと推定することができる。
For example, the model eigenvalue and the model first eigenvector are expressed as follows: θ 1 = 0 ° (front direction), θ 2 = −90 ° (left direction), θ 3 = + 90 ° (right direction) with respect to the
このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、横向きについて更に左右のいずれの向きであるかも判定できるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。 As described above, according to the speech direction estimation apparatus of the second embodiment, in addition to the effect of the configuration of the first embodiment, it is possible to determine whether the horizontal orientation is further left or right. Communication can be performed more smoothly.
上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 When the configuration of the utterance direction estimation device of each of the above embodiments is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer. In this case, at least a part of the processing content may be realized by hardware.
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
〔サービス適用例〕
図11は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
[Service application example]
FIG. 11 shows a configuration example of a service in which the present invention is incorporated into an audio conference terminal. Assume that the conference hall A and the conference hall B are connected by a voice terminal through a network. Speech direction information is extracted from a voice signal picked up by a microphone attached to the voice conference terminal, and transmitted to the other party along with the voice information. By presenting the utterance direction information as visual information on the other party side, it is possible to convey the situation of the place that is difficult to convey only with the voice information.
また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。 In addition, the utterance direction estimation technology can be applied to a minutes system that records the state of communication in a meeting using video and audio. In other words, the utterance direction estimation technique makes it possible to tag the recorded voice and video as to who spoke to whom, which is useful for organizing the minutes.
更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。 In addition, images for services that detect faces from images, for example, surveillance used for surveillance cameras and intercoms, security purposes, and services that determine whether you are paying attention to advertising with digital signage, etc. It is possible to replace the detection of the direction by the detection with an audio signal.
Claims (9)
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する固有値分解部と、
各周波数毎に得られた上記正規化固有値について、周波数平均をとることにより平均化固有値を出力する固有値平均化処理部と、
上記平均化固有値と、予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC1(θj)を上記発話向きθj毎に計算して出力する正面・横向きコスト計算部と、
上記正面・横向き判定コストC1(θj)が最も小さいθjが、上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。 An analog-to-digital conversion unit that converts analog audio signals collected by a microphone array composed of M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain converter for converting each of the digital audio signals from the time domain to the frequency domain;
A correlation matrix calculator that generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. An eigenvalue decomposition unit that normalizes and outputs M normalized eigenvalues;
About the normalized eigenvalue obtained for each frequency, an eigenvalue averaging processing unit that outputs an averaged eigenvalue by taking a frequency average;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side determination cost and the front-lateral cost calculator C 1 a (theta j) and outputs the calculated for each of the speech direction theta j,
An utterance direction determination unit that determines whether θ j having the smallest front / horizontal determination cost C 1 (θ j ) corresponds to the front direction or the horizontal direction with respect to the microphone array and outputs a determination result; ,
An utterance direction estimation device comprising:
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力するとともに、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解部と、
各周波数毎に得られた上記正規化固有値について、周波数平均をとることにより平均化固有値を出力する固有値平均化処理部と、
上記平均化固有値と、予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC1(θj)を上記発話向きθj毎に計算して出力する正面・横向きコスト計算部と、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理部と、
上記平均化第1固有ベクトルと、予め上記位置rにおける複数の発話向きθj毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストC2(θj)を上記発話向きθj毎に計算して出力する左右向きコスト計算部と、
各θj毎に上記正面・横向き判定コストC1(θj)と上記左右向き判定コストC2(θj)との和C(θj)=C1(θj)+C2(θj)を計算し、最小のC(θj)の発話向きであるθjが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備える発話向き推定装置。 An analog-to-digital conversion unit that converts analog audio signals collected by a microphone array composed of M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain converter for converting each of the digital audio signals from the time domain to the frequency domain;
A correlation matrix calculator that generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. And an eigenvalue decomposition unit for outputting an eigenvector corresponding to the largest eigenvalue among the M eigenvalues (hereinafter referred to as “first eigenvector”);
About the normalized eigenvalue obtained for each frequency, an eigenvalue averaging processing unit that outputs an averaged eigenvalue by taking a frequency average;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side determination cost A front and side cost calculator that calculates and outputs C 1 (θ j ) for each utterance direction θ j ;
A first eigenvector averaging processing unit that outputs an averaged first eigenvector by taking a frequency average for the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of the plurality of utterance directions θ j at the position r, the left-right direction determination cost C 2 (θ j ) is calculated for each utterance direction θ j. A left-right cost calculator that calculates and outputs
Sum of each theta j the front-lateral determining cost C 1 (θ j) and the left-right orientation determining cost C 2 (θ j) C ( θ j) = C 1 (θ j) + C 2 (θ j) Utterance direction in which θ j , which is the smallest C (θ j ) utterance direction, corresponds to the front, left, or right direction with respect to the microphone array and outputs a determination result A determination unit;
An utterance direction estimation device comprising:
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。 In the utterance direction estimation device according to claim 2,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation device obtained by
上記正面・横向き判定コストC1(θj)は、上記M個の固有値のうち最大のものに対応する平均化第1固有値とモデル平均化第1固有値とから計算する発話向き推定装置。 In the utterance direction estimation apparatus according to any one of claims 1 to 3,
The utterance direction estimation device that calculates the front / side orientation determination cost C 1 (θ j ) from the averaged first eigenvalue and the model averaged first eigenvalue corresponding to the maximum of the M eigenvalues.
それぞれの上記ディジタル音声信号を時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する固有値分解ステップと、
各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する固有値平均化処理ステップと、
上記平均化固有値と予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC1(θj)を上記発話向きθj毎に計算して出力する正面・横向きコスト計算ステップと、
上記正面・横向き判定コストC1(θj)が最も小さいθjが上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。 An AD conversion step for converting analog audio signals collected by a microphone array comprising M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain transforming step for transforming each digital audio signal from the time domain to the frequency domain;
A correlation matrix calculation step of generating and outputting an M × M correlation matrix representing a correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues, and the eigenvalues are normalized. An eigenvalue decomposition step that outputs M normalized eigenvalues,
An eigenvalue averaging process step of outputting an averaged eigenvalue by taking a frequency average for the normalized eigenvalue obtained for each frequency;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side orientation determination cost C A front and side cost calculation step of calculating and outputting 1 (θ j ) for each utterance direction θ j ,
An utterance direction determination step of determining whether θ j having the smallest front / horizontal determination cost C 1 (θ j ) corresponds to the front direction or the horizontal direction with respect to the microphone array, and outputting a determination result;
Utterance direction estimation method.
それぞれの上記ディジタル音声信号を時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力するとともに、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解ステップと、
各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する固有値平均化処理ステップと、
上記平均化固有値と予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC1(θj)を上記発話向きθj毎に計算して出力する正面・横向きコスト計算ステップと、
各周波数毎に得られた上記第1固有ベクトルについて周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理ステップと、
上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθj毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストC2(θj)を上記発話向きθj毎に計算して出力する左右向きコスト計算ステップと、
各θj毎に上記正面・横向き判定コストC1(θj)と上記左右向き判定コストC2(θj)との和C(θj)=C1(θj)+C2(θj)を計算し、最小のC(θj)の発話向きであるθjが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。 An AD conversion step for converting analog audio signals collected by a microphone array comprising M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain transforming step for transforming each digital audio signal from the time domain to the frequency domain;
A correlation matrix calculation step of generating and outputting an M × M correlation matrix representing a correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues, and the eigenvalues are normalized. An eigenvalue decomposition step of outputting M normalized eigenvalues and outputting an eigenvector corresponding to the largest eigenvalue among the M eigenvalues (hereinafter referred to as “first eigenvector”);
An eigenvalue averaging process step of outputting an averaged eigenvalue by taking a frequency average for the normalized eigenvalue obtained for each frequency;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side orientation determination cost C A front and side cost calculation step of calculating and outputting 1 (θ j ) for each utterance direction θ j ,
A first eigenvector averaging processing step of outputting an averaged first eigenvector by taking a frequency average of the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of the plurality of utterance directions θ j at the position r, the left / right direction determination cost C 2 (θ j ) is determined for each utterance direction θ j . Left and right cost calculation step to calculate and output,
Sum of each theta j the front-lateral determining cost C 1 (θ j) and the left-right orientation determining cost C 2 (θ j) C ( θ j) = C 1 (θ j) + C 2 (θ j) Utterance direction in which θ j , which is the smallest C (θ j ) utterance direction, corresponds to the front, left, or right direction with respect to the microphone array and outputs a determination result A determination step;
Utterance direction estimation method.
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。 In the speech direction estimation method according to claim 6,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation method obtained by
上記正面・横向き判定コストC1(θj)は、上記M個の固有値のうち最大のものに対応する平均化第1固有値とモデル平均化第1固有値とから計算する発話向き推定方法。 In the speech direction estimation method according to any one of claims 5 to 7,
The speech direction estimation method in which the front / side orientation determination cost C 1 (θ j ) is calculated from the averaged first eigenvalue and the model averaged first eigenvalue corresponding to the maximum of the M eigenvalues.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048224A JP5235723B2 (en) | 2009-03-02 | 2009-03-02 | Utterance direction estimation apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048224A JP5235723B2 (en) | 2009-03-02 | 2009-03-02 | Utterance direction estimation apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010206393A true JP2010206393A (en) | 2010-09-16 |
JP5235723B2 JP5235723B2 (en) | 2013-07-10 |
Family
ID=42967454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009048224A Expired - Fee Related JP5235723B2 (en) | 2009-03-02 | 2009-03-02 | Utterance direction estimation apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5235723B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241671A (en) * | 2017-07-01 | 2017-10-10 | 邓永林 | A kind of sound system audio processing method and intelligent sound processing system |
CN110082724A (en) * | 2019-05-31 | 2019-08-02 | 浙江大华技术股份有限公司 | A kind of sound localization method, device and storage medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110068797B (en) * | 2019-04-23 | 2021-02-02 | 浙江大华技术股份有限公司 | Method for calibrating microphone array, sound source positioning method and related equipment |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10243494A (en) * | 1997-03-03 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for recognizing direction of face |
JP2001236093A (en) * | 2000-02-24 | 2001-08-31 | Omron Corp | Electronic equipment controller and electronic equipment |
JP2003061184A (en) * | 2001-08-14 | 2003-02-28 | Sony Corp | Information processing apparatus and method, information generating device and method, recording medium and program |
JP2004109712A (en) * | 2002-09-20 | 2004-04-08 | Nec Engineering Ltd | Speaker's direction detecting device |
JP2007006253A (en) * | 2005-06-24 | 2007-01-11 | Sony Corp | Signal processor, microphone system, and method and program for detecting speaker direction |
JP2009517936A (en) * | 2005-11-30 | 2009-04-30 | ノエミ バレンズエラ ミリアム | Method for recording and playing back sound sources with time-varying directional characteristics |
-
2009
- 2009-03-02 JP JP2009048224A patent/JP5235723B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10243494A (en) * | 1997-03-03 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for recognizing direction of face |
JP2001236093A (en) * | 2000-02-24 | 2001-08-31 | Omron Corp | Electronic equipment controller and electronic equipment |
JP2003061184A (en) * | 2001-08-14 | 2003-02-28 | Sony Corp | Information processing apparatus and method, information generating device and method, recording medium and program |
JP2004109712A (en) * | 2002-09-20 | 2004-04-08 | Nec Engineering Ltd | Speaker's direction detecting device |
JP2007006253A (en) * | 2005-06-24 | 2007-01-11 | Sony Corp | Signal processor, microphone system, and method and program for detecting speaker direction |
JP2009517936A (en) * | 2005-11-30 | 2009-04-30 | ノエミ バレンズエラ ミリアム | Method for recording and playing back sound sources with time-varying directional characteristics |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241671A (en) * | 2017-07-01 | 2017-10-10 | 邓永林 | A kind of sound system audio processing method and intelligent sound processing system |
CN110082724A (en) * | 2019-05-31 | 2019-08-02 | 浙江大华技术股份有限公司 | A kind of sound localization method, device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5235723B2 (en) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4815661B2 (en) | Signal processing apparatus and signal processing method | |
CN110770827B (en) | Near field detector based on correlation | |
JP2008079256A (en) | Acoustic signal processing apparatus, acoustic signal processing method, and program | |
KR20090057692A (en) | Method and apparatus for filtering the sound source signal based on sound source distance | |
JP5123595B2 (en) | Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
JP2008054071A (en) | Device for eliminating paper rustling noise | |
WO2015129760A1 (en) | Signal-processing device, method, and program | |
JP2013201525A (en) | Beam forming processing unit | |
JP5235725B2 (en) | Utterance direction estimation apparatus, method and program | |
JP5235723B2 (en) | Utterance direction estimation apparatus, method and program | |
JP5235722B2 (en) | Utterance direction estimation apparatus, method and program | |
Padois et al. | On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps | |
JP5235605B2 (en) | Utterance direction estimation apparatus, method and program | |
KR20090128221A (en) | Method for sound source localization and system thereof | |
Takashima et al. | HMM-based separation of acoustic transfer function for single-channel sound source localization | |
JP5235724B2 (en) | Utterance front / side direction estimation apparatus, method and program | |
JP3862685B2 (en) | Sound source direction estimating device, signal time delay estimating device, and computer program | |
Nakano et al. | Automatic estimation of position and orientation of an acoustic source by a microphone array network | |
Hioka et al. | Estimating direct-to-reverberant energy ratio based on spatial correlation model segregating direct sound and reverberation | |
JP5635024B2 (en) | Acoustic signal emphasizing device, perspective determination device, method and program thereof | |
CN109417666B (en) | Noise removing device, echo eliminating device and abnormal sound detecting device | |
Ihara et al. | Multichannel speech separation and localization by frequency assignment | |
JP2002062900A (en) | Sound collecting device and signal receiving device | |
JP5713933B2 (en) | Sound source distance measuring device, acoustic direct ratio estimating device, noise removing device, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110118 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |