JP2010206393A - Speech direction estimation device and method, and program - Google Patents

Speech direction estimation device and method, and program Download PDF

Info

Publication number
JP2010206393A
JP2010206393A JP2009048224A JP2009048224A JP2010206393A JP 2010206393 A JP2010206393 A JP 2010206393A JP 2009048224 A JP2009048224 A JP 2009048224A JP 2009048224 A JP2009048224 A JP 2009048224A JP 2010206393 A JP2010206393 A JP 2010206393A
Authority
JP
Japan
Prior art keywords
eigenvalue
eigenvector
frequency
utterance
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009048224A
Other languages
Japanese (ja)
Other versions
JP5235723B2 (en
Inventor
Kenta Niwa
健太 丹羽
Sumitaka Sakauchi
澄宇 阪内
Kenichi Furuya
賢一 古家
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009048224A priority Critical patent/JP5235723B2/en
Publication of JP2010206393A publication Critical patent/JP2010206393A/en
Application granted granted Critical
Publication of JP5235723B2 publication Critical patent/JP5235723B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech direction estimation device which does not request to arrange many microphones so as to enclose a speaker, and can appropriately estimate the speech direction even under environment in which a reverberation time is long. <P>SOLUTION: The plurality of microphones pick up a sound signal originated by the speaker around a microphone array which is composed of the plurality of microphones. A correlation matrix which represents correlation between voice signals each picked up by each microphone, is created, and it is estimated that the speaker has spoken from what direction to the microphone array from an eigenvector obtained by decomposing the correlation matrix into an eigenvalue matrix and an eigenvector matrix. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。   The present invention relates to a technique for estimating the utterance direction of a speaker from an audio signal input to a microphone.

電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。   A system for exchanging voice information such as a telephone or a voice conference terminal is generally called a voice communication system. In the video conference system, the video is added to the audio information and presented, so that the situation of the place is easily transmitted, but in the audio communication system, it is difficult to grasp the situation of the other party. One of the information on the other party's situation is utterance direction information. By receiving this information from the other party, it is possible to grasp the direction in which the speaker is speaking and to facilitate communication.

このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図12に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。   Conventional techniques for estimating such speech direction information are disclosed in Non-Patent Documents 1 and 2 and the like, and a configuration example is shown in FIG. The speech direction estimation apparatus 10 in this configuration example estimates speech direction information as follows.

(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vX(t)=[X(t)、・・・、X(t)]へ変換する。ここで、tは離散時間のインデックスを表す。 (i) The voice from the speaker 1 is picked up using M (M is an integer of 2 or more) microphones 11-1,. The collected analog signal is converted by the AD converter 12 into a digital signal vX (t) = [X 1 (t),..., X M (t)] T. Here, t represents an index of discrete time.

(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号vX(ω,n)=[X(ω,n)、・・・、X(ω,n)]へ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。 (ii) The frequency domain transform unit 13 receives a set (frame) of the digital signals composed of a plurality of samples as an input, and performs frequency domain signal vX (ω, n) = [X 1 (ω, n) by fast Fourier transform or the like. , ···, X M (ω, n)] to convert to T. Here, ω represents a frequency index, and the total number of frequency indexes is Ω. N represents the index of the frame.

(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマvG(ω,r,θ)=[G(ω,r,θ)、・・・、G(ω,r,θ)]を設計する。G(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分X(ω,n)に掛ける係数である。 (iii) In the fixed beamformer design unit 14, the fixed beamformer vG (ω, r, θ) = [G 1 (ω, r, θ),..., G M ( ω, r, θ)] T is designed. G i (ω, r, θ) is a coefficient that is multiplied by the frequency component X i (ω, n) of the i-th microphone in order to emphasize / suppress the sound source at the speaker position r and the speech direction θ.

設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vH(ω,r,θ)=[H(ω,r,θ),・・・,H(ω,r,θ)]をシミュレーション値や実測値を用いて求めておく。ここでH(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。 In designing, acoustic propagation characteristics between the sound source and the microphone vH (ω, r, θ) = [H 1 (ω, r, θ),..., H M for each predetermined speaker position and direction. (ω, r, θ)] T is obtained using a simulation value or an actual measurement value. Here, H i (ω, r, θ) represents acoustic propagation characteristics between the sound source at the speaker position r and the speech direction θ and the i-th microphone.

固定ビームフォーマvG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。   The fixed beamformer vG (ω, r, θ) is designed as a value satisfying the expressions (1) and (2) representing the relationship with the acoustic propagation characteristics.

vH(ω,r)・vG(ω,r)=1 (1)
vH(ω,r)・vG(ω,r)=0 (2)
式(1)、(2)は、発話者位置r、発話向きθの出力パワーを強調し、それ以外の発話者位置r、発話向きθの出力パワーを抑えるように固定ビームフォーマvG(ω,r,θ)を設計することを示している。
vH (ω, r T , θ T ) H · vG (ω, r T , θ T ) = 1 (1)
vH (ω, r U , θ U ) H · vG (ω, r T , θ T ) = 0 (2)
Expressions (1) and (2) emphasize the output power of the speaker position r T and the speech direction θ T , and the fixed beamformer so as to suppress the output power of the other speaker positions r U and the speech direction θ U. It shows that vG (ω, r, θ) is designed.

(iv) 積和計算部15では、周波数領域の信号vX(ω,n)=[X(ω,n),・・・, X(ω,n)]と固定ビームフォーマvG(ω,r,θ)=[G(ω,r,θ),・・・,G(ω,r,θ)]を入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分X(ω,n)と固定ビームフォーマの係数G(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=vG(ω,r,θ)・vX(ω,n)を計算することと同義である。 (iv) In the product-sum calculation unit 15, the frequency domain signal vX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T and the fixed beamformer vG (ω , r, θ) = [G 1 (ω, r, θ), ···, G M (ω, r, θ)] as input T, each frequency ω, speaker position r, every utterance direction θ Multiplying the frequency component X i (ω, n) corresponding to each microphone by the coefficient G i (ω, r, θ) of the fixed beamformer, and adding the obtained M components, the output Y (ω, n, r, θ) is calculated. This calculation is synonymous with calculating Y (ω, n, r, θ) = vG (ω, r, θ) H · vX (ω, n).

(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|を計算して出力する。 (v) The power calculator 16 calculates and outputs power | Y (ω, n, r, θ) | 2 from the output Y (ω, n, r, θ) from the product-sum calculator 15.

(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|を周波数で平均化処理し、aY(n,r,θ)を得る。この計算は、Fを平均化処理で用いる周波数のインデックス、|F|を周波数のインデックスの総数と定義すると、 (vi) The frequency averaging processing unit 17 averages the power | Y (ω, n, r, θ) | 2 output from the power calculation unit 16 by frequency, and aY (n, r, θ) is obtained. obtain. In this calculation, if F 0 is defined as the frequency index used in the averaging process, and | F 0 | is defined as the total number of frequency indexes,

Figure 2010206393
を計算することと同義である。なお、FはΩ≧|F|を満たす。
Figure 2010206393
Is equivalent to calculating Note that F 0 satisfies Ω ≧ | F 0 |.

(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーaY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーaY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。 (vii) The sound source direction selection unit 18 searches for the speaker position r and the utterance direction θ at which the power aY (n, r, θ) averaged by frequency for each frame is maximum, and the power aY (n , r, θ) is determined as the estimated speech direction θ out (n).

中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620Hiroshi Nakajima, “Expanded Beamforming for Estimating Sound Source Direction”, Proceedings of the Acoustical Society of Japan, September 2005, p.619-620 中島弘史、外8名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622Hiroshi Nakajima, 8 others, "Sound source directivity estimation using extended beamforming", Proceedings of the Acoustical Society of Japan, September 2005, p.621-622

従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
The following two points can be cited as problems of the prior art.
(i) In order to respond to utterances at an arbitrary position and to estimate the direction of utterance with high accuracy, a large number of microphones are required, and it is necessary to devise the microphone installation positions.

従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図13に示すように多数のマイクロホン11で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。 In the prior art, the more accurate the utterance direction is estimated as the output power | Y (ω, n, r, θ) | 2 of the fixed beamformer designed for each utterer position and utterance direction is different. can do. However, assuming a sound source with strong directivity in front of the mouth, such as a sound wave radiated from the mouth of the speaker, it is necessary to collect sound so as to surround the speaker with a large number of microphones 11 as shown in FIG. Depending on the speaker position and direction, the output power of the fixed beamformer does not differ, and the estimation error of the speech direction increases (for example, in the experiment of Non-Patent Document 2, 64 microphones are used). Therefore, in order to reduce the error, a large number of microphones are required, the apparatus becomes large, and it is difficult to use it by attaching it to a portable apparatus such as a telephone or an audio conference terminal.

(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない。 (ii) High reverberation direction estimation performance cannot be obtained in a reverberant environment in which the reverberation time (the time from the arrival of the direct wave to the attenuation of 60 dB from the collected sound of the direct wave) is 250 msec or more.

残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。   In a reverberant environment with a reverberation time of 250 msec or longer, it is difficult to design the acoustic propagation characteristics vH (ω, r, θ) with high accuracy because many strong reflected waves are mixed. Therefore, ambiguity occurs in the output of the fixed beamformer, and the estimation accuracy deteriorates. For example, in an actual environment room that is not subjected to low reverberation processing, reverberation time is generally about 250 to 500 msec, so that accurate estimation is difficult.

本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。   An object of the present invention is to estimate the speech direction, which does not require a large number of microphones to be placed so as to surround the speaker, and can appropriately estimate the speech direction even in a reverberant environment with a reverberation time of 250 msec or more. To provide an apparatus, a method, and a program.

本発明の発話向き推定装置は、AD変換部と周波数領域変換部と相関行列計算部と固有値分解部と固有値平均化処理部と正面・横向きコスト計算部と発話向き判定部とから構成される。   The utterance direction estimation apparatus of the present invention includes an AD conversion unit, a frequency domain conversion unit, a correlation matrix calculation unit, an eigenvalue decomposition unit, an eigenvalue averaging processing unit, a front / horizontal cost calculation unit, and an utterance direction determination unit.

AD変換部は、発話者が位置rにおいて発話し、M本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。   The AD conversion unit converts an analog voice signal collected by a microphone array including M microphones (M is an integer of 2 or more) and a digital voice signal.

周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。   The frequency domain transform unit transforms each digital audio signal from the time domain to the frequency domain.

相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する。   The correlation matrix calculation unit generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain.

固有値分解部は、上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する。   The eigenvalue decomposition unit decomposes the correlation matrix into an eigenvalue matrix that is a diagonal matrix with the squares of M eigenvalues as diagonal elements and an eigenvector matrix that includes M eigenvectors corresponding to the eigenvalues, Each of the eigenvalues is normalized and M normalized eigenvalues are output.

固有値平均化処理部は、各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する。   The eigenvalue averaging processing unit outputs an averaged eigenvalue by taking a frequency average of the normalized eigenvalue obtained for each frequency.

正面・横向きコスト計算部は、上記平均化固有値と予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストを上記発話向きθ毎に計算して出力する。 The front / lateral cost calculation unit includes the average eigenvalue and a model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r. From this, the front / side orientation determination cost is calculated and output for each utterance direction θ j .

発話向き判定部は、上記正面・横向き判定コストが最も小さいθが上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する。 The utterance direction determination unit determines whether θ j having the lowest front / horizontal direction determination cost corresponds to the front direction or the horizontal direction with respect to the microphone array, and outputs a determination result.

本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。   According to the speech direction estimating apparatus of the present invention, it is not necessary to arrange a large number of microphones so as to surround a speaker, and it is possible to appropriately estimate the speech direction even in a reverberant environment where the reverberation time is 250 msec or more. It becomes.

音声信号の伝搬特性を時間領域で示す図。The figure which shows the propagation characteristic of an audio | voice signal in a time domain. 正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間を模式的に表現したイメージ図。The image figure which represented typically the acoustic propagation vector group and eigenspace which comprise the correlation matrix showing the correlation between the signals picked up by each microphone for every three speech directions of front, left, and right. 発話向きと固有値との関係を示すイメージ図。The image figure which shows the relationship between an utterance direction and an eigenvalue. 第1実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 1st Embodiment. 第1実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the speech direction estimation apparatus of 1st Embodiment. マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。The image figure which shows the positional relationship of a microphone, a speaker, and a speech direction. モデル平均化固有値を求める構成例を示す図。The figure which shows the structural example which calculates | requires a model average eigenvalue. 第2実施形態の発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus of 2nd Embodiment. 第2実施形態の発話向き推定装置の処理フロー例を示す図。The figure which shows the example of a processing flow of the utterance direction estimation apparatus of 2nd Embodiment. モデル平均化第1固有ベクトルを求める構成例を示す図。The figure which shows the structural example which calculates | requires a model average 1st eigenvector. 音声会議端末に本発明を組み込んだサービス構成例を示す図。The figure which shows the service structural example which incorporated this invention in the audio conference terminal. 従来技術による発話向き推定装置の機能構成例を示す図。The figure which shows the function structural example of the speech direction estimation apparatus by a prior art. 従来技術によるマイクロホンと発話者との位置関係を示すイメージ図。The image figure which shows the positional relationship of the microphone and speaker by a prior art.

〔第1実施形態〕
<原理>
第1実施形態では発話向きがマイクロホンアレイに対し正面向きであるか横向きであるかを推定可能とする構成を明らかにする。そこで、まず正面・横方向の発話向きを推定する原理を説明する。
[First Embodiment]
<Principle>
In the first embodiment, a configuration that makes it possible to estimate whether the utterance direction is the front direction or the horizontal direction with respect to the microphone array will be clarified. First, the principle of estimating the utterance direction in the front and side directions will be described.

図1は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の3つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。本発明はこのような性質を利用して発話向きを推定する。   FIG. 1 shows the propagation characteristics of an audio signal in the time domain. Propagation characteristics can be broadly divided into three types: direct wave, initial reflected wave, and rear reverberation. In the time zone in which direct wave and initial reflected wave are observed, a microphone array composed of multiple microphones is used. It is known that waves with directionality are mixed. In particular, in the initial reverberation time zone (after the arrival of the direct wave, the time from the direct wave pickup power to the attenuation of 10 dB), a strong reflected wave with directionality is mixed, but the power of this reflected wave depends on the direction of speech. Change. Specifically, since the direct wave power increases as the utterance direction is the front direction, the reflected wave power decreases, and the direct wave power decreases as it is in the horizontal direction. The power of will increase. The present invention uses such a property to estimate the speech direction.

図2は、正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間(固有ベクトルvVと固有値λとにより形成されるi次元の空間)を模式的に表現したものである。図2はマイクロホン3本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は3次元で表現されている。図2において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第1固有値λは第2固有値λ、第3固有値λと比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第1固有値λは正面向きの場合より小さくなり、逆に第2固有値λ、第3固有値λは正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図3に示す。このように、直接波の到達度合が相関行列の固有値λ(特に第1固有値λ)に顕著に表れるため、固有値λがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。 FIG. 2 shows acoustic propagation vector groups and eigenspaces (eigenvectors vV i and eigenvalues λ i) constituting a correlation matrix representing the correlation between signals picked up by each microphone for each of the three front, left, and right speech directions. (I-dimensional space formed by the above) is schematically represented. FIG. 2 shows a case where a microphone array is constituted by three microphones. Therefore, the acoustic propagation vector group and the eigenspace are expressed in three dimensions. In the case of facing front in FIG. 2, since many direct waves reach the microphone array and the arrival rate of the reflected waves is relatively low, the acoustic propagation vectors representing the direct waves are in the acoustic propagation vector group representing the reflected waves. Compared with greater power. At this time, the first eigenvalue λ 1 of the correlation matrix is significantly larger than the second eigenvalue λ 2 and the third eigenvalue λ 3 . On the other hand, in the case of the horizontal orientation, the direct waves that reach the microphone array are reduced, and more reflected waves reach accordingly. Therefore, the power of the acoustic propagation vector that expresses the direct wave decreases, and the power of the acoustic propagation vector group that expresses the reflected wave increases. The first eigenvalue lambda 1 when this is smaller than the front direction, the second eigenvalue lambda 2 Conversely, the third eigenvalue lambda 3 is larger than that of the front facing. FIG. 3 shows an image of the difference that occurs in each eigenvalue between the case of facing front and the case of facing sideways. As described above, since the degree of arrival of the direct wave appears prominently in the eigenvalue λ i (especially the first eigenvalue λ 1 ) of the correlation matrix, by evaluating the value taken by the eigenvalue λ i, Can be carved.

<構成>
図4に本発明の発話向き推定装置100の機能構成例を、図5にその処理フロー例を示す。発話向き推定装置100は、発話向きがマイクロホンアレイに対し正面向きであるか横向きであるかを推定するものである。
<Configuration>
FIG. 4 shows a functional configuration example of the speech direction estimating apparatus 100 of the present invention, and FIG. The utterance direction estimation device 100 estimates whether the utterance direction is a front direction or a horizontal direction with respect to the microphone array.

発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、固有値平均化処理部104と、正面・横向きコスト計算部105と、発話向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。   The utterance direction estimation apparatus 100 includes a microphone array 101 including M microphones (M is an integer of 2 or more) 101-1 to 101-M, an AD conversion unit 12, a frequency domain conversion unit 13, and a correlation matrix calculation unit. 102, an eigenvalue decomposition unit 103, an eigenvalue averaging processing unit 104, a front / sideways cost calculation unit 105, and an utterance direction determination unit 106. Among them, the AD conversion unit 12 and the frequency conversion unit 13 are the same as those used in the speech direction estimation apparatus 10 described in the background art.

従来技術においては、図13に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲のある位置rで発話する。図6は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図6(a)は発話者が各位置で正面向きに発話している様子を、図6(b)は横向きに発話している様子を表している。   In the prior art, as shown in FIG. 13, it has been necessary to arrange a large number of microphones so as to surround the speaker, but in the present invention, M microphones 101-1 to 101 -M are possible to the extent possible. It is sufficient to arrange them closely. Although the number of microphones constituting such a microphone array 101 is not too large, according to the configuration of the present invention described below, it is possible to estimate the utterance direction with two or more microphones. The arrangement may be two-dimensional or three-dimensional. By adopting a configuration in which a small number of microphones are arranged densely in this way, it can be attached to a portable device such as a telephone or an audio conference terminal, and the direction of speech by surrounding speakers can be estimated It becomes. The speaker speaks at a certain position r around the microphone array 101. FIG. 6 shows an image of a speaker talking around the microphone array 101 composed of seven microphones as viewed from above, and the direction of the arrow is the direction of speech. FIG. 6A shows a state where a speaker speaks in a front direction at each position, and FIG. 6B shows a state where a speaker speaks in a horizontal direction.

AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が位置rで発話したアナログ音声信号を、それぞれディジタル音声信号X(t) 、・・・、X(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。 The AD converter 12 converts the analog voice signals uttered at the position r by the speaker 1 picked up by the M microphones 101-1 to 101 -M into digital voice signals X 1 (t),. Convert to M (t) (S1). Here, t represents an index of discrete time.

周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X(ω,n)、・・・、X(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。 The frequency domain transform unit 13 receives as input a set (frame) of the above digital speech signals composed of a plurality of discrete time samples, and performs frequency domain digital speech signals X 1 (ω, n),. It is converted to X M (ω, n) and output (S2). Here, n represents a frame index, and ω represents a frequency index. The total number of frequency indexes is Ω.

相関行列計算部102は、周波数領域のディジタル音声信号X(ω,n) 、・・・、X(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。 The correlation matrix calculation unit 102 receives the digital audio signals X 1 (ω, n),..., X M (ω, n) in the frequency domain as inputs, and an M × M correlation matrix R representing the correlation between the signals. (ω, k) is sequentially generated and output for each frequency ω by equation (3) (S3).

R(ω,k)=E[vX(ω,n)・vX(ω,n)] (3)
ここで、vX(ω,n)=[X(ω,n)、・・・、X(ω,n)]
式(3)において、Hは共役転置を表し、EはvX(ω,n)・vX(ω,n)を各フレームについて計算した上で平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。なお、LはM以上の整数とすることが望ましい。
R (ω, k) = E [vX (ω, n) · vX H (ω, n)] (3)
Here, vX (ω, n) = [X 1 (ω, n),..., X M (ω, n)] T
In Equation (3), H represents a conjugate transpose, and E calculated vX (ω, n) · vX (ω, n) H for each frame, and then calculated an expected value for each L frame by averaging processing or the like. Is an operator. That is, the correlation matrix is sequentially output at a rate of once per L frame, and k represents an output index of the correlation matrix. Note that L is preferably an integer greater than or equal to M.

固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ(ω,k)、・・・、λ(ω,k)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvV(ω,k)、・・・、vV(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。 The eigenvalue decomposition unit 103 receives the correlation matrix R (ω, k), and first, M eigenvalues λ 1 (ω, k),..., Λ M (ω, k) so as to satisfy Equation (4). ) Eigenvalue matrix Λ (ω, k), which is a diagonal matrix with each square as a diagonal element, and M eigenvectors vV 1 (ω, k),..., VV M (ω, k) Is decomposed into eigenvector matrix V (ω, k) by the eigenvalue decomposition method.

R(ω,k)=V(ω,k)・Λ(ω,k)・V(ω,k) (4)
ここで、Λ(ω,k)=diag[λ (ω,k)、・・・、λ (ω,k)]
λ(ω,k)≧λ(ω,k)≧・・・≧λ(ω,k)
V(ω,k)=[vV(ω,k)、・・・、vV(ω,k)]
vV(ω,k)=[Vi,1(ω,k)、・・・、Vi,M(ω,k)]
そして、各固有値λ(ω,k)(i=1、2、・・・、M)を、式(5)により正規化して、正規化固有値nλ(ω,k)を出力する(S4)。
R (ω, k) = V (ω, k) ・ Λ (ω, k) ・ V H (ω, k) (4)
Here, Λ (ω, k) = diag [λ 1 2 (ω, k),..., Λ M 2 (ω, k)]
λ 1 (ω, k) ≧ λ 2 (ω, k) ≧ ・ ・ ・ ≧ λ M (ω, k)
V (ω, k) = [vV 1 (ω, k),..., VV M (ω, k)] T
vV i (ω, k) = [V i, 1 (ω, k),..., V i, M (ω, k)]
Then, each eigenvalue λ i (ω, k) (i = 1, 2,..., M) is normalized by Expression (5), and a normalized eigenvalue nλ i (ω, k) is output (S4). ).

Figure 2010206393
Figure 2010206393

なお、正面・横向き判定コストを最大の固有値である第1固有値λ(ω,k)のみに基づき計算する場合は、正規化第1固有値nλ(ω,k)のみを計算して出力することとしてもよい。 When calculating the front / side determination cost based only on the first eigenvalue λ 1 (ω, k) that is the maximum eigenvalue, only the normalized first eigenvalue nλ 1 (ω, k) is calculated and output. It is good as well.

固有値平均化処理部104は、各周波数ω毎に得られた正規化固有値nλ(ω,k)について式(6)により周波数平均をとり、平均化固有値aλ(k)を出力する(S5)。 The eigenvalue averaging processing unit 104 averages the frequencies of the normalized eigenvalues nλ i (ω, k) obtained for each frequency ω by the equation (6), and outputs the averaged eigenvalues aλ i (k) (S5). ).

Figure 2010206393
Figure 2010206393

ここで、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第1固有値λ(ω,k)のみに基づき計算する場合は、平均化第1固有値aλ(k)のみを出力することとしてもよい。 Here, F 1 is the frequency index used for averaging, | F 1 | is the total number of frequency indexes, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |. When the front / side orientation determination cost is calculated based only on the first eigenvalue λ 1 (ω, k), which is the maximum eigenvalue, only the averaged first eigenvalue aλ 1 (k) may be output.

正面・横向きコスト計算部105は、固有値平均化処理部104で得られた平均化固有値列vaλ(k)=[aλ(k)、aλ(k)、・・・、aλ(k)]と、予め発話位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値列vaQ(k,r,θ)=[aQ(k,r,θ)、aQ(k,r,θ)、・・・、aQ(k,r,θ) ]とから、発話向きθ毎に正面・横向き判定コストC(k,r,θ)を計算して出力する(S6)。ここで、モデル平均化固有値aQ(k,r,θ)は例えば図7に示すように、図4と同じ構成のもとで発話位置rにおいて向きθ毎に発話された音声信号に対し、それぞれ固有値平均化処理部104までの処理を行うことにより得ることができる。なお、モデル平均化固有値aQ(k,r,θ)の正面・横向きコスト計算部105への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストC(k,r,θ)は式(7)により求める。
The front / horizontal cost calculation unit 105 averaged eigenvalue sequence vaλ (k) = [aλ 1 (k), aλ 2 (k),..., Aλ M (k) obtained by the eigenvalue averaging processing unit 104. ] And a model-averaged eigenvalue sequence vaQ (k, r, θ j ) = prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the utterance position r = From [aQ 1 (k, r, θ j ), aQ 2 (k, r, θ j ),..., AQ M (k, r, θ j )], the front and side directions for each utterance direction θ j The judgment cost C 1 (k, r, θ j ) is calculated and output (S6). Here, the model averaged eigenvalue aQ i (k, r, θ j ) is converted into a speech signal uttered for each direction θ j at the utterance position r under the same configuration as in FIG. On the other hand, it can be obtained by performing processing up to the eigenvalue averaging processing unit 104. The model averaged eigenvalue aQ i (k, r, θ j ) may be input to the front / sideways cost calculation unit 105 by an arbitrary method such as recording in a database in advance and reading from the database.
The front / side orientation determination cost C 1 (k, r, θ j ) is obtained by equation (7).

Figure 2010206393
Figure 2010206393

なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第1固有値に特に顕著に反映されることから、正面・横向き判定コストC(k,r,θ)を第1固有値のみから式(8)により求めても構わない。 Note that the difference in eigenvalue between the case of speaking in front and the case of speaking in side is reflected particularly prominently in the first eigenvalue, so the front / side determination cost C 1 (k, r, θ j ) is expressed as follows. You may obtain | require by Formula (8) only from a 1st eigenvalue.

Figure 2010206393
Figure 2010206393

正面・横向き判定コストC(k,r,θ)は、判定対象である発話の向きと、予め用意された各発話向きθとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθに近いことを意味する。つまり、予め用意された各θのうちコストが最小のθを抽出することにより、判定対象である発話向きを推定することができる。 The front / side determination cost C 1 (k, r, θ j ) is an index representing the proximity between the utterance direction to be determined and each utterance direction θ j prepared in advance. This means that the direction of the target utterance is close to θ j . That is, it is possible to estimate the utterance direction as a determination target by extracting θ j having the lowest cost from each θ j prepared in advance.

発話向き判定部106は、正面・横向き判定コストC(k,r,θ)が最も小さい値となるθが、マイクロホンアレイ101に対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する(S7)。例えば、発話位置rからマイクロホンアレイ101に対して正面向きを0°とし、横向きをその他の角度として、θ=0°、θ=−90°、θ=+90°の3つの向きについてモデル平均化固有値列を用意した場合、正面・横向き判定コストがC(k,r,θ)<C(k,r,θ)<C(k,r,θ)である時又はC(k,r,θ)<C(k,r,θ)<C(k,r,θ)である時には正面向き、それ以外の時は横向きと判定する。 Utterance orientation determining unit 106 is a front-lateral determining cost C 1 (k, r, θ j) is the smallest value becomes theta j is whether the corresponding sideways or corresponds to the front direction to the microphone array 101 The determination is made and the determination result is output (S7). For example, with respect to the microphone array 101 from the speech position r, the front direction is set to 0 °, and the horizontal direction is set to other angles, and three models of θ 1 = 0 °, θ 2 = −90 °, and θ 3 = + 90 ° are modeled. When the average eigenvalue sequence is prepared, when the front / side determination cost is C 1 (k, r, θ 1 ) <C 1 (k, r, θ 2 ) <C 1 (k, r, θ 3 ) Alternatively, when C 1 (k, r, θ 1 ) <C 1 (k, r, θ 3 ) <C 1 (k, r, θ 2 ), it is determined to face front, and otherwise, it is determined to be sideways.

以上のように、第1実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、正面向きに発話したか横向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。   As described above, the utterance direction estimation apparatus according to the first embodiment can estimate whether the utterer speaks in the front direction or the side direction with respect to the microphone array. In addition, since the microphone array may be configured in a form in which a small number of microphones are densely packed, it is possible to configure the microphone array compactly without enclosing the speaker. In addition, since the reverberation is actively used, it is possible to appropriately estimate the utterance direction even in a reverberation environment where the reverberation time is 250 msec or more. In addition, since the eigenvalue decomposition process, which is the core of the process in the present invention, has a small amount of calculation, it is advantageous when it is incorporated in equipment with low CPU specifications such as a portable terminal.

〔第2実施形態〕
第1実施形態において、モデル平均化固有値列を例えばθ=0°、θ=負の角度、θ=正の角度の3つの向きについて用意した場合、負の角度が左向き、正の角度が右向きであると考えれば、正面・横向きだけでなく左右向きの判定も可能であるように思える。しかし、実際には正面近辺以外の角度ではC(k,r,θ)≒C(k,r,θ)となってしまい、左右方向を正しく判定することが難しい。そこで第2実施形態は、横向きについて更に左向きか右向きかの判定を可能とするものである。
[Second Embodiment]
In the first embodiment, when model averaged eigenvalue sequences are prepared for three orientations, for example, θ 1 = 0 °, θ 2 = negative angle, and θ 3 = positive angle, the negative angle is leftward and the positive angle If it is considered to be rightward, it seems that it is possible to determine not only front and sideways but also left and right. However, in reality, C 1 (k, r, θ 2 ) ≈C 1 (k, r, θ 3 ) is obtained at angles other than the vicinity of the front, and it is difficult to correctly determine the left-right direction. Therefore, in the second embodiment, it is possible to further determine whether the horizontal orientation is leftward or rightward.

<原理>
第1実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。
<Principle>
As mentioned in the explanation of the principle of the first embodiment, strong reflected waves having directivity with respect to the microphone array are mixed in the initial reverberation time zone, and the power of the reflected waves changes depending on the direction of speech.

図2において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvV、特に相関行列の固有値が最大のものに対応する第1固有ベクトルvVに顕著に表れるため、第1固有ベクトルvVがとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。 When comparing the left direction and the right direction in FIG. 2, there is almost no difference in the acoustic propagation vectors constituting the direct wave and the rear reverberation, but the acoustic propagation vectors constituting the initial reflected wave are different. This is because the directionality of the strong reflected wave from the wall mixed in the observation signal differs depending on the direction of speech. That is, the direction and power of acoustic propagation constituting the initial reflected wave change depending on whether the utterance direction is left or right, and how the eigenspace is stretched also changes. Since the influence of this change is prominent in the eigenvector vV i of the correlation matrix, particularly the first eigenvector vV 1 corresponding to the largest eigenvalue of the correlation matrix, the value taken by the first eigenvector vV 1 is evaluated. , It is possible to distinguish whether the utterance direction is leftward or rightward.

<構成>
図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
<Configuration>
FIG. 8 shows a functional configuration example of the speech direction estimating apparatus 200 of the present invention, and FIG. 9 shows a processing flow example thereof.

発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、固有値平均化処理部104と、正面・横向きコスト計算部105と、第1固有ベクトル平均化処理部202と、左右向きコスト計算部203と、発話向き判定部204とを備える。このうち、固有値分解部201と、第1固有ベクトル平均化処理部202と、左右向きコスト計算部203と、発話向き判定部204以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。   The utterance direction estimation apparatus 200 includes a microphone array 101 including M (M is an integer of 2 or more) microphones 101-1 to 101-M, an AD converter 12, a frequency domain converter 13, and a correlation matrix calculator. 102, an eigenvalue decomposition unit 201, an eigenvalue averaging processing unit 104, a front / horizontal cost calculation unit 105, a first eigenvector averaging processing unit 202, a left / right direction cost calculation unit 203, and an utterance direction determination unit 204 Is provided. Among them, the same names and symbols as described in the first embodiment are attached except for the eigenvalue decomposition unit 201, the first eigenvector averaging processing unit 202, the left-right direction cost calculation unit 203, and the speech direction determination unit 204. Since it is the same as a component, description of a function / process is abbreviate | omitted.

固有値分解部201は、第1実施形態の固有値分解部103と同様な分解処理を行った上で、正規化固有値nλ(ω,k)を出力するとともに、最大の固有値である第1固有値λ1(ω,k)に対応する第1固有ベクトルvV1(ω,k)を出力する(S11)。 The eigenvalue decomposition unit 201 performs the same decomposition process as the eigenvalue decomposition unit 103 of the first embodiment, outputs a normalized eigenvalue nλ i (ω, k), and the first eigenvalue λ that is the maximum eigenvalue. 1 (ω, k) first eigenvector vV 1 (ω, k) corresponding to output (S11).

第1固有ベクトル平均化処理部202は、各周波数ω毎に得られた第1固有ベクトルvV(ω,k)について周波数平均をとることにより平均化第1固有ベクトルvaV(k)を求めて出力する(S12)。ここで、第1固有ベクトルvV(ω,k)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第1固有ベクトルvV(ω,k)を特開2007−226036(段落〔0078〕〔0079〕等)にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。 The first eigenvector averaging processing unit 202 obtains and outputs an averaged first eigenvector vaV 1 (k) by taking a frequency average for the first eigenvector vV 1 (ω, k) obtained for each frequency ω. (S12). The first eigenvector vV 1 (ω, k) is a vector of complex domain, it is not possible to perform frequency averaging process simple product sum operation for frequency dependent omega. Therefore, the first eigenvector vV 1 (ω, k) is converted into a frequency-independent feature amount with reference to the frequency normalization method disclosed in Japanese Patent Application Laid-Open No. 2007-226036 (paragraphs [0078] [0079] etc.). The frequency averaging process is performed above.

具体的には、まず第1固有ベクトルvV(ω,k)=[V1,1(ω,k)、・・・、V1,M(ω,k)]を、式(9)(10)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvP(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]に変換する。 Specifically, first, the first eigenvector vV 1 (ω, k) = [V 1,1 (ω, k),..., V 1, M (ω, k)] is expressed by equations (9) (10 ), The feature vector vP 1 (ω, k) = [P 1,1 (ω, k),..., P 1, M (ω, k)] that measures the similarity of the frequency-independent acoustic propagation characteristics. Convert to

Figure 2010206393
Figure 2010206393
Figure 2010206393
Figure 2010206393

ここで、i=1、2、・・・、Mであり、ξ(ω、k)は複素回転子、arg[・]は位相角を算出する演算子、fωは周波数インデックスωに対応する周波数(Hz)、dはマイクロホンアレイの最大間隔(m)、cは音速(m/s)である。 Here, i = 1, 2,..., M, ξ i (ω, k) is a complex rotator, arg [•] is an operator for calculating a phase angle, and f ω corresponds to a frequency index ω. Frequency (Hz), d is the maximum distance (m) of the microphone array, and c is the speed of sound (m / s).

そして、得られた特徴量ベクトルvP(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]を式(11)により周波数平均化処理を行い、平均化第1固有ベクトルvaV(k)= [aV1,1(k)、・・・、av1,M(k)]を出力する。 Then, the obtained feature vector vP 1 (ω, k) = [P 1,1 (ω, k),..., P 1, M (ω, k)] is frequency-averaged by the equation (11). Processing is performed to output an averaged first eigenvector vaV 1 (k) = [aV 1,1 (k),..., Av 1, M (k)].

Figure 2010206393
Figure 2010206393

ここで、Fは周波数平均化で用いる周波数インデックス、|F|は周波数平均化処理で用いる周波数インデックスの総数であり、FはΩ≧|F|を満たすように適宜設定する。 Here, F 1 is a frequency index used in frequency averaging, | F 1 | is the total number of frequency indexes used in frequency averaging processing, and F 1 is appropriately set so as to satisfy Ω ≧ | F 1 |.

左右向きコスト計算部203は、第1固有ベクトル平均化処理部202で得られた平均化第1固有ベクトルvaV(k)= [aV1,1(k)、・・・、aV1,M(k)]と、予め発話位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルvaS(k,r,θ)=[aS1,1(k,r,θ)、・・・、aS1,M(k,r,θ) ]とから、発話向きθ毎に左右向き判定コストC(k,r,θ)を計算して出力する(S13)。ここで、発話向きθ毎のモデル平均化第1固有ベクトルvaS(k,r,θ)は、例えば図10に示すように図8と同じ構成のもとで発話位置rにおいて向きθ毎に発話された音声信号に対し、それぞれ第1固有ベクトル平均化処理部202までの処理を行うことにより得ることができる。なお、モデル平均化第1固有ベクトルvaS(k,r,θ)の左右向きコスト計算部203への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストC(k,r,θ)は式(12)により求める。
The left-right cost calculation unit 203 calculates the averaged first eigenvector vaV 1 (k) = [aV 1,1 (k),..., AV 1, M (k) obtained by the first eigenvector averaging processing unit 202. )] And a model-averaged first eigenvector vaS 1 (k, r, θ) prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the speech position r. j ) = [aS 1,1 (k, r, θ j ),..., aS 1, M (k, r, θ j )]], the left-right determination cost C 2 (for each utterance direction θ j k, r, θ j ) is calculated and output (S13). Here, the utterance orientation theta model averaging first eigenvector for each j vaS 1 (k, r, θ j) , the orientation theta j in speech position r under the same configuration as FIG. 8 as shown in FIG. 10 for example It can be obtained by performing the processing up to the first eigenvector averaging processing unit 202 for each voice signal uttered. The model averaged first eigenvector vaS 1 (k, r, θ j ) may be input to the left-right cost calculation unit 203 by an arbitrary method such as recording in a database in advance and reading from the database.
The left / right direction determination cost C 2 (k, r, θ j ) is obtained by Expression (12).

Figure 2010206393
Figure 2010206393

発話向き判定部204は、各θ毎の正面・横向き判定コストC(k,r,θ)と左右向き判定コストC(k,r,θ)との和であるC(k,r,θ)のうち、各正面・横向き判定コストC(k,r,θ)と各左右向き判定コストC(k,r,θ)との和の全ての組み合わせの最小値に最も近いC(k,r,θ)の発話向きであるθが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する(S14)。 Utterance orientation determining unit 204, a front-transverse determined cost C 1 for each θ j (k, r, θ j) is the sum of the left and right orientation determining cost C 2 (k, r, θ j) C (k , r, θ j ), the minimum of all combinations of the sums of the front / side direction determination costs C 1 (k, r, θ j ) and the left / right direction determination costs C 2 (k, r, θ j ) It is determined whether θ j that is the utterance direction of C (k, r, θ j ) closest to the value corresponds to the front, left, or right direction with respect to the microphone array, and a determination result is output. (S14).

例えば、モデル固有値及びモデル第1固有ベクトルを、発話位置rからマイクロホンアレイ101に対してθ=0°(正面向き)、θ=−90°(左向き)、θ=+90°(右向き)の3つの向きについてそれぞれ用意した場合を考える。この場合、正面・横向きコスト計算部105からはC(k,r,θ)、C(k,r,θ)、C(k,r,θ)の3つのコストが出力され、左右向きコスト計算部203からもC(k,r,θ)、C(k,r,θ)、C(k,r,θ)の3つのコストが出力される。発話向き判定部204ではこれらを入力として、C(k,r,θ)=C(k,r,θ)+C(k,r,θ)により、C(k,r,θ)、C(k,r,θ)、C(k,r,θ)をそれぞれ求める。そして求めた3つのコストC(k,r,θ)のうち、最小のコストmin{C(k,r,θ)}のθを判定対象の発話の向きと推定する。この例では、C(k,r,θ)が最小のコストであれば正面向き、C(k,r,θ)が最小のコストであれば左向き、C(k,r,θ)が最小のコストであれば右向きと推定することができる。 For example, the model eigenvalue and the model first eigenvector are expressed as follows: θ 1 = 0 ° (front direction), θ 2 = −90 ° (left direction), θ 3 = + 90 ° (right direction) with respect to the microphone array 101 from the speech position r. Consider the case where three orientations are prepared. In this case, three costs of C 1 (k, r, θ 1 ), C 1 (k, r, θ 2 ), and C 1 (k, r, θ 3 ) are output from the front / lateral cost calculation unit 105. Then, the three costs of C 2 (k, r, θ 1 ), C 2 (k, r, θ 2 ), and C 2 (k, r, θ 3 ) are also output from the left-right cost calculation unit 203. . The speech direction determination unit 204 receives these as inputs, and C (k, r, θ j ) = C 1 (k, r, θ j ) + C 2 (k, r, θ j ) 1 ), C (k, r, θ 2 ), and C (k, r, θ 3 ), respectively. The three cost C obtained (k, r, θ j) of the minimum cost min {C (k, r, θ j)} a theta j of estimating the orientation of the utterance to be determined. In this example, if C (k, r, θ 1 ) is the minimum cost, it faces forward, if C (k, r, θ 2 ) has the minimum cost, it faces left, C (k, r, θ 3 ) Can be estimated to be right-facing.

このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、横向きについて更に左右のいずれの向きであるかも判定できるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。   As described above, according to the speech direction estimation apparatus of the second embodiment, in addition to the effect of the configuration of the first embodiment, it is possible to determine whether the horizontal orientation is further left or right. Communication can be performed more smoothly.

上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   When the configuration of the utterance direction estimation device of each of the above embodiments is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer. In this case, at least a part of the processing content may be realized by hardware.

また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   Further, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

〔サービス適用例〕
図11は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
[Service application example]
FIG. 11 shows a configuration example of a service in which the present invention is incorporated into an audio conference terminal. Assume that the conference hall A and the conference hall B are connected by a voice terminal through a network. Speech direction information is extracted from a voice signal picked up by a microphone attached to the voice conference terminal, and transmitted to the other party along with the voice information. By presenting the utterance direction information as visual information on the other party side, it is possible to convey the situation of the place that is difficult to convey only with the voice information.

また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。   In addition, the utterance direction estimation technology can be applied to a minutes system that records the state of communication in a meeting using video and audio. In other words, the utterance direction estimation technique makes it possible to tag the recorded voice and video as to who spoke to whom, which is useful for organizing the minutes.

更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。   In addition, images for services that detect faces from images, for example, surveillance used for surveillance cameras and intercoms, security purposes, and services that determine whether you are paying attention to advertising with digital signage, etc. It is possible to replace the detection of the direction by the detection with an audio signal.

Claims (9)

発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する固有値分解部と、
各周波数毎に得られた上記正規化固有値について、周波数平均をとることにより平均化固有値を出力する固有値平均化処理部と、
上記平均化固有値と、予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC)を上記発話向きθ毎に計算して出力する正面・横向きコスト計算部と、
上記正面・横向き判定コストC)が最も小さいθが、上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。
An analog-to-digital conversion unit that converts analog audio signals collected by a microphone array composed of M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain converter for converting each of the digital audio signals from the time domain to the frequency domain;
A correlation matrix calculator that generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. An eigenvalue decomposition unit that normalizes and outputs M normalized eigenvalues;
About the normalized eigenvalue obtained for each frequency, an eigenvalue averaging processing unit that outputs an averaged eigenvalue by taking a frequency average;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side determination cost and the front-lateral cost calculator C 1 a (theta j) and outputs the calculated for each of the speech direction theta j,
An utterance direction determination unit that determines whether θ j having the smallest front / horizontal determination cost C 1j ) corresponds to the front direction or the horizontal direction with respect to the microphone array and outputs a determination result; ,
An utterance direction estimation device comprising:
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力するとともに、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解部と、
各周波数毎に得られた上記正規化固有値について、周波数平均をとることにより平均化固有値を出力する固有値平均化処理部と、
上記平均化固有値と、予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC)を上記発話向きθ毎に計算して出力する正面・横向きコスト計算部と、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理部と、
上記平均化第1固有ベクトルと、予め上記位置rにおける複数の発話向きθ毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストC)を上記発話向きθ毎に計算して出力する左右向きコスト計算部と、
各θ毎に上記正面・横向き判定コストC)と上記左右向き判定コストC)との和C(θ)=C)+C)を計算し、最小のC(θ)の発話向きであるθが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備える発話向き推定装置。
An analog-to-digital conversion unit that converts analog audio signals collected by a microphone array composed of M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain converter for converting each of the digital audio signals from the time domain to the frequency domain;
A correlation matrix calculator that generates and outputs an M × M correlation matrix representing the correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues. And an eigenvalue decomposition unit for outputting an eigenvector corresponding to the largest eigenvalue among the M eigenvalues (hereinafter referred to as “first eigenvector”);
About the normalized eigenvalue obtained for each frequency, an eigenvalue averaging processing unit that outputs an averaged eigenvalue by taking a frequency average;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of utterance directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side determination cost A front and side cost calculator that calculates and outputs C 1j ) for each utterance direction θ j ;
A first eigenvector averaging processing unit that outputs an averaged first eigenvector by taking a frequency average for the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of the plurality of utterance directions θ j at the position r, the left-right direction determination cost C 2j ) is calculated for each utterance direction θ j. A left-right cost calculator that calculates and outputs
Sum of each theta j the front-lateral determining cost C 1j) and the left-right orientation determining cost C 2 (θ j) C ( θ j) = C 1 (θ j) + C 2 (θ j) Utterance direction in which θ j , which is the smallest C (θ j ) utterance direction, corresponds to the front, left, or right direction with respect to the microphone array and outputs a determination result A determination unit;
An utterance direction estimation device comprising:
請求項2に記載の発話向き推定装置において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。
In the utterance direction estimation device according to claim 2,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation device obtained by
請求項1乃至3のいずれかに記載の発話向き推定装置において、
上記正面・横向き判定コストC)は、上記M個の固有値のうち最大のものに対応する平均化第1固有値とモデル平均化第1固有値とから計算する発話向き推定装置。
In the utterance direction estimation apparatus according to any one of claims 1 to 3,
The utterance direction estimation device that calculates the front / side orientation determination cost C 1j ) from the averaged first eigenvalue and the model averaged first eigenvalue corresponding to the maximum of the M eigenvalues.
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換ステップと、
それぞれの上記ディジタル音声信号を時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力する固有値分解ステップと、
各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する固有値平均化処理ステップと、
上記平均化固有値と予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC)を上記発話向きθ毎に計算して出力する正面・横向きコスト計算ステップと、
上記正面・横向き判定コストC)が最も小さいθが上記マイクロホンアレイに対して正面向きに該当するか横向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
An AD conversion step for converting analog audio signals collected by a microphone array comprising M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain transforming step for transforming each digital audio signal from the time domain to the frequency domain;
A correlation matrix calculation step of generating and outputting an M × M correlation matrix representing a correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues, and the eigenvalues are normalized. An eigenvalue decomposition step that outputs M normalized eigenvalues,
An eigenvalue averaging process step of outputting an averaged eigenvalue by taking a frequency average for the normalized eigenvalue obtained for each frequency;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side orientation determination cost C A front and side cost calculation step of calculating and outputting 1j ) for each utterance direction θ j ,
An utterance direction determination step of determining whether θ j having the smallest front / horizontal determination cost C 1j ) corresponds to the front direction or the horizontal direction with respect to the microphone array, and outputting a determination result;
Utterance direction estimation method.
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換ステップと、
それぞれの上記ディジタル音声信号を時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、上記各固有値を正規化してM個の正規化固有値を出力するとともに、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解ステップと、
各周波数毎に得られた上記正規化固有値について周波数平均をとることにより平均化固有値を出力する固有値平均化処理ステップと、
上記平均化固有値と予め上記位置rにおける複数の発話向きθ(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値とから、正面・横向き判定コストC)を上記発話向きθ毎に計算して出力する正面・横向きコスト計算ステップと、
各周波数毎に得られた上記第1固有ベクトルについて周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理ステップと、
上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθ毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストC)を上記発話向きθ毎に計算して出力する左右向きコスト計算ステップと、
各θ毎に上記正面・横向き判定コストC)と上記左右向き判定コストC)との和C(θ)=C)+C)を計算し、最小のC(θ)の発話向きであるθが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
An AD conversion step for converting analog audio signals collected by a microphone array comprising M microphones (M is an integer of 2 or more) at a position r into a digital audio signal;
A frequency domain transforming step for transforming each digital audio signal from the time domain to the frequency domain;
A correlation matrix calculation step of generating and outputting an M × M correlation matrix representing a correlation between the digital audio signals converted into the frequency domain;
The correlation matrix is decomposed into an eigenvalue matrix, which is a diagonal matrix having the squares of M eigenvalues as diagonal elements, and an eigenvector matrix composed of M eigenvectors corresponding to the eigenvalues, and the eigenvalues are normalized. An eigenvalue decomposition step of outputting M normalized eigenvalues and outputting an eigenvector corresponding to the largest eigenvalue among the M eigenvalues (hereinafter referred to as “first eigenvector”);
An eigenvalue averaging process step of outputting an averaged eigenvalue by taking a frequency average for the normalized eigenvalue obtained for each frequency;
From the average eigenvalue and the model average eigenvalue prepared in advance for each of a plurality of speech directions θ j (j = 1, 2,..., N, N ≧ 2) at the position r, the front / side orientation determination cost C A front and side cost calculation step of calculating and outputting 1j ) for each utterance direction θ j ,
A first eigenvector averaging processing step of outputting an averaged first eigenvector by taking a frequency average of the first eigenvector obtained for each frequency;
From the averaged first eigenvector and the model averaged first eigenvector prepared in advance for each of the plurality of utterance directions θ j at the position r, the left / right direction determination cost C 2j ) is determined for each utterance direction θ j . Left and right cost calculation step to calculate and output,
Sum of each theta j the front-lateral determining cost C 1j) and the left-right orientation determining cost C 2 (θ j) C ( θ j) = C 1 (θ j) + C 2 (θ j) Utterance direction in which θ j , which is the smallest C (θ j ) utterance direction, corresponds to the front, left, or right direction with respect to the microphone array and outputs a determination result A determination step;
Utterance direction estimation method.
請求項6に記載の発話向き推定方法において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。
In the speech direction estimation method according to claim 6,
The averaged first eigenvector is obtained by calculating a feature value representing similarity of acoustic propagation characteristics independent of frequency for each of the M elements constituting the first eigenvector, and then taking a frequency average for the feature value. The utterance direction estimation method obtained by
請求項5乃至7のいずれかに記載の発話向き推定方法において、
上記正面・横向き判定コストC)は、上記M個の固有値のうち最大のものに対応する平均化第1固有値とモデル平均化第1固有値とから計算する発話向き推定方法。
In the speech direction estimation method according to any one of claims 5 to 7,
The speech direction estimation method in which the front / side orientation determination cost C 1j ) is calculated from the averaged first eigenvalue and the model averaged first eigenvalue corresponding to the maximum of the M eigenvalues.
請求項1乃至4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the apparatus according to claim 1.
JP2009048224A 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program Expired - Fee Related JP5235723B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009048224A JP5235723B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009048224A JP5235723B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010206393A true JP2010206393A (en) 2010-09-16
JP5235723B2 JP5235723B2 (en) 2013-07-10

Family

ID=42967454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009048224A Expired - Fee Related JP5235723B2 (en) 2009-03-02 2009-03-02 Utterance direction estimation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5235723B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241671A (en) * 2017-07-01 2017-10-10 邓永林 A kind of sound system audio processing method and intelligent sound processing system
CN110082724A (en) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 A kind of sound localization method, device and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110068797B (en) * 2019-04-23 2021-02-02 浙江大华技术股份有限公司 Method for calibrating microphone array, sound source positioning method and related equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (en) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing direction of face
JP2001236093A (en) * 2000-02-24 2001-08-31 Omron Corp Electronic equipment controller and electronic equipment
JP2003061184A (en) * 2001-08-14 2003-02-28 Sony Corp Information processing apparatus and method, information generating device and method, recording medium and program
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
JP2007006253A (en) * 2005-06-24 2007-01-11 Sony Corp Signal processor, microphone system, and method and program for detecting speaker direction
JP2009517936A (en) * 2005-11-30 2009-04-30 ノエミ バレンズエラ ミリアム Method for recording and playing back sound sources with time-varying directional characteristics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243494A (en) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> Method and device for recognizing direction of face
JP2001236093A (en) * 2000-02-24 2001-08-31 Omron Corp Electronic equipment controller and electronic equipment
JP2003061184A (en) * 2001-08-14 2003-02-28 Sony Corp Information processing apparatus and method, information generating device and method, recording medium and program
JP2004109712A (en) * 2002-09-20 2004-04-08 Nec Engineering Ltd Speaker's direction detecting device
JP2007006253A (en) * 2005-06-24 2007-01-11 Sony Corp Signal processor, microphone system, and method and program for detecting speaker direction
JP2009517936A (en) * 2005-11-30 2009-04-30 ノエミ バレンズエラ ミリアム Method for recording and playing back sound sources with time-varying directional characteristics

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241671A (en) * 2017-07-01 2017-10-10 邓永林 A kind of sound system audio processing method and intelligent sound processing system
CN110082724A (en) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 A kind of sound localization method, device and storage medium

Also Published As

Publication number Publication date
JP5235723B2 (en) 2013-07-10

Similar Documents

Publication Publication Date Title
JP4815661B2 (en) Signal processing apparatus and signal processing method
CN110770827B (en) Near field detector based on correlation
JP2008079256A (en) Acoustic signal processing apparatus, acoustic signal processing method, and program
KR20090057692A (en) Method and apparatus for filtering the sound source signal based on sound source distance
JP5123595B2 (en) Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method
JP2008236077A (en) Target sound extracting apparatus, target sound extracting program
JP2008054071A (en) Device for eliminating paper rustling noise
WO2015129760A1 (en) Signal-processing device, method, and program
JP2013201525A (en) Beam forming processing unit
JP5235725B2 (en) Utterance direction estimation apparatus, method and program
JP5235723B2 (en) Utterance direction estimation apparatus, method and program
JP5235722B2 (en) Utterance direction estimation apparatus, method and program
Padois et al. On the use of geometric and harmonic means with the generalized cross-correlation in the time domain to improve noise source maps
JP5235605B2 (en) Utterance direction estimation apparatus, method and program
KR20090128221A (en) Method for sound source localization and system thereof
Takashima et al. HMM-based separation of acoustic transfer function for single-channel sound source localization
JP5235724B2 (en) Utterance front / side direction estimation apparatus, method and program
JP3862685B2 (en) Sound source direction estimating device, signal time delay estimating device, and computer program
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
Hioka et al. Estimating direct-to-reverberant energy ratio based on spatial correlation model segregating direct sound and reverberation
JP5635024B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
CN109417666B (en) Noise removing device, echo eliminating device and abnormal sound detecting device
Ihara et al. Multichannel speech separation and localization by frequency assignment
JP2002062900A (en) Sound collecting device and signal receiving device
JP5713933B2 (en) Sound source distance measuring device, acoustic direct ratio estimating device, noise removing device, method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110118

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees