JP5216056B2 - Reflected sound information estimation apparatus, reflected sound information estimation method, program - Google Patents
Reflected sound information estimation apparatus, reflected sound information estimation method, program Download PDFInfo
- Publication number
- JP5216056B2 JP5216056B2 JP2010176017A JP2010176017A JP5216056B2 JP 5216056 B2 JP5216056 B2 JP 5216056B2 JP 2010176017 A JP2010176017 A JP 2010176017A JP 2010176017 A JP2010176017 A JP 2010176017A JP 5216056 B2 JP5216056 B2 JP 5216056B2
- Authority
- JP
- Japan
- Prior art keywords
- amplitude
- signal
- initial
- virtual
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
本発明は、音声信号をマイクロホンで収音して得られる収音信号から反射音に関する情報(到来振幅、到来方向)を推定する技術に関する。 The present invention relates to a technique for estimating information (arrival amplitude, arrival direction) relating to reflected sound from a collected sound signal obtained by collecting a sound signal with a microphone.
電話や音声会議といった音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。音声通信システムにおいて、反射音に関する情報(到来振幅、到来方向など)を得ることは非常に重要なことである。会議室のような残響環境下において、マイクロホンを通して収音される収音信号の中には発話者のような音源から直接到来する直接音だけではなく、床、壁や天井に反射して到来する反射音が混在する。したがって、このような残響環境下で或る話者の発言を収録すると、直接音から遅延して反射音が混入するため、聞き取りづらくなってしまう。収音信号から各反射音の到来情報を推定して、反射音を除去することができれば、聞き取りやすい音声に回復することができる。ここで、反射音情報を推定する従来研究として、非特許文献1が挙げられる。 A system for exchanging voice information such as telephone calls and voice conferences is generally called a voice communication system. In a voice communication system, it is very important to obtain information about the reflected sound (arrival amplitude, arrival direction, etc.). In a reverberant environment such as a conference room, the collected sound signal collected through the microphone is reflected not only from the direct sound coming from the sound source such as the speaker but also from the floor, wall or ceiling. Reflected sound is mixed. Therefore, when a speaker's utterance is recorded in such a reverberant environment, the reflected sound is mixed with a delay from the direct sound, making it difficult to hear. If arrival information of each reflected sound can be estimated from the collected sound signal and the reflected sound can be removed, it is possible to recover a sound that is easy to hear. Here, Non-Patent Document 1 is given as a conventional study for estimating reflected sound information.
非特許文献1に開示される技術を実現する機能構成を図1に示す。この技術における処理手順は次のとおりである。 A functional configuration for realizing the technology disclosed in Non-Patent Document 1 is shown in FIG. The processing procedure in this technique is as follows.
1.インパルス音源100から放射された音源信号を4chのマイクロホン110−1,110−2,110−3,110−4を用いて収音する。AD変換部120は、収音されたアナログ信号をデジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tへ変換する。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。4本のマイクロホンは正四面体の頂点に配置されていることとする。 1. The sound source signal radiated from the impulse sound source 100 is picked up using 4ch microphones 110-1, 110-2, 110-3, 110-4. The AD converter 120 converts the collected analog signal into a digital signal x → (t) = [x 1 (t), x 2 (t), x 3 (t), x 4 (t)] T . Here, [•] T represents transposition. t represents a discrete time index. Assume that four microphones are arranged at the apexes of a regular tetrahedron.
2.インパルス応答算出部130は、デジタル信号x→(t)=[x1(t),x2(t),x3(t),x4(t)]Tを入力とし、各マイクロホンのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを算出する。インパルス応答の算出方法には、TSP法やM系列法等があり、いかなる方法を用いてインパルス応答を算出してもよい。 2. The impulse response calculation unit 130 receives the digital signal x → (t) = [x 1 (t), x 2 (t), x 3 (t), x 4 (t)] T as an input, and the impulse response of each microphone. h → (t) = [h 1 (t), h 2 (t), h 3 (t), h 4 (t)] T is calculated. The impulse response calculation method includes a TSP method, an M-sequence method, and the like, and any method may be used to calculate the impulse response.
3.仮想音源算出部140は、4chのインパルス応答h→(t)=[h1(t),h2(t),h3(t),h4(t)]Tを入力とし、仮想音源情報v→=[v→ 1,…,v→ D]Tを出力する。Dは仮想音源の数を表す。仮想音源とは、各反射音の到来振幅、到来方向、到来時間を表現するために仮想的に存在するとされる音源である。図2を参照して、仮想音源について説明する。図2には、右側の壁で反射した音源信号をマイクロホンで受音する経路が書かれている。右側の壁で反射して到来する音源信号(反射音)は、「仮想音源」と書かれた位置から直接到来する信号と等価である(ただし、壁での反射による減衰や距離減衰の影響は受ける)。 3. The virtual sound source calculation unit 140 receives 4ch impulse response h → (t) = [h 1 (t), h 2 (t), h 3 (t), h 4 (t)] T as input, and generates virtual sound source information. v → = [v → 1 ,…, v → D ] T is output. D represents the number of virtual sound sources. A virtual sound source is a sound source that is virtually present to represent the arrival amplitude, arrival direction, and arrival time of each reflected sound. The virtual sound source will be described with reference to FIG. FIG. 2 shows a path for receiving a sound source signal reflected by the right wall with a microphone. The sound source signal reflected from the right wall (reflected sound) is equivalent to the signal coming directly from the position written as “virtual sound source” (however, the effects of attenuation and distance attenuation due to reflection on the wall are not receive).
この従来技術の詳細について説明する。インパルス応答を近接した4つの受音点(マイクロホンの位置)で測定すると反射音の到来時刻にわずかな差が生じる。インパルス応答の短い区間の相互相関を利用して、各マイクロホンにおける反射音の対応付けを行うことで、図3のように、n番目の反射波に関するそれぞれの受音点での到来時刻t1n,t2n,t3n,t4n(1≦n≦D)が求まる。正四面体マイクロホンアレーの辺の長さをd、音速をcとすると、各仮想音源情報vn →=[Xn,Yn,Zn,Sn]Tが求まる。ここで、Xn,Yn,Znはn番目の仮想音源の位置を表し(式(1)−(3)参照)、これは各反射音の到来方向と到来時間に対応する情報を持つ。また、Snはn番目の仮想音源の強さを表し、4chのインパルスで対応付けされたn番目の反射音の振幅の平均で求まる。
従来技術によると、仮想音源情報と呼んでいた反射音の「到来振幅」、「到来方向」、「到来時刻」を推定するためには、インパルス応答をあらかじめ用意することが必要であった。しかし、インパルス応答を用意するためには特殊な信号を用いて観測する必要があるため、あらゆる位置でのインパルス応答が事前に用意されているという条件は現実的ではない。 According to the prior art, in order to estimate the “arrival amplitude”, “arrival direction”, and “arrival time” of the reflected sound called virtual sound source information, it is necessary to prepare an impulse response in advance. However, since it is necessary to observe using a special signal in order to prepare an impulse response, the condition that impulse responses at all positions are prepared in advance is not realistic.
そこで本発明は、特殊な信号を用いることなく、収音信号から反射音情報(反射音の「到来方向」や「到来振幅」)を推定する技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for estimating reflected sound information ("arrival direction" or "arrival amplitude" of reflected sound) from a collected sound signal without using a special signal.
M個(ただし、Mは4以上の整数とする)のマイクロホンで構成されるマイクロホンアレーから見たP個(ただし、Pを2以上の予め定められた整数とする)の方向それぞれの、M個の各マイクロホンに対する、周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)がそれぞれテンプレートとして予め用意されていて、一つの音源から発せられマイクロホンアレーへ複数の方向(以下、音声到来方向という)から到来する音声信号をM個のマイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用い、Qを2以上の予め定められた整数として、1個の直接音と直接音とは相異なるQ−1個の反射音(以下、1個の直接音と直接音とは相異なるQ−1個の反射音を合わせてQ個の音声信号という)はそれぞれ、マイクロホンアレーから見たQ個の音声信号の音声到来方向の、M個の各マイクロホンに対する、周波数ごとの伝達特性関数に複素振幅を乗じて表されるものとして、テンプレートの中から選択されたQ個のテンプレートにより特定されるQ個の音声到来方向をQ個の音声信号それぞれの初期方向とし、各初期方向に対応する複素振幅を初期振幅として決定し、Q個の当該初期方向とQ個の当該初期振幅を起点として、相異なるQ個の音声到来方向に対応するQ個の音声信号を観測信号から減じて得られる残差信号のパワーが小さくなるようにQ個の音声到来方向の補正とQ個の複素振幅の補正とを行うことにより、Q個の音声信号に対応するQ個の音声到来方向およびQ個の複素振幅を一括して推定する。M in each of P directions (where P is a predetermined integer of 2 or more) viewed from a microphone array composed of M microphones (where M is an integer of 4 or more). For each of the microphones, a function that simulates the transfer characteristics for each frequency (hereinafter referred to as transfer characteristics function) is prepared in advance as a template, and is emitted from a single sound source in a plurality of directions (hereinafter referred to as voice arrival directions). Q) using a signal (hereinafter referred to as an observation signal) obtained by collecting M sound signals obtained by collecting sound signals arriving from M microphones by using M microphones, and converting Q into two or more in advance. As a defined integer, Q-1 reflected sounds that are different from one direct sound and direct sound (hereinafter, Q-1 reflected sounds that are different from one direct sound and direct sound are combined. Q speech signals) are each expressed by multiplying the transfer characteristic function for each frequency for the M microphones in the direction of speech arrival of the Q speech signals viewed from the microphone array by the complex amplitude. The Q voice arrival directions specified by the Q templates selected from the templates are set as the initial directions of the Q voice signals, and the complex amplitude corresponding to each initial direction is determined as the initial amplitude. Starting from the Q initial directions and the Q initial amplitudes, the power of the residual signal obtained by subtracting the Q speech signals corresponding to the different Q speech arrival directions from the observed signal becomes small. Thus, Q speech arrival directions and Q complex amplitudes corresponding to Q speech signals are collectively obtained by correcting Q speech arrival directions and Q complex amplitudes as described above. A constant.
本発明に拠ると、相異なるQ個の位置に対応するQ個の反射音を観測信号から減じて得られる残差信号のパワーが最小になるようにQ個の伝達特性関数に対応する空間中の各位置により決定される方向およびQ個の複素振幅を一括して推定することから、インパルス応答を求めるために音源信号に特殊な信号を用いることなく、収音信号から反射音情報を推定することが可能である。反射音情報が得られると、従来の音声情報処理技術では実現できなかった音源向きの推定や、音声強調(遠方音の収音や距離別の収音)といった用途に応用できる。 According to the present invention, in the space corresponding to the Q transfer characteristic functions, the power of the residual signal obtained by subtracting the Q reflected sounds corresponding to the different Q positions from the observation signal is minimized. Since the direction determined by each position and the Q complex amplitudes are collectively estimated, the reflected sound information is estimated from the collected sound signal without using a special signal for the sound source signal to obtain the impulse response. It is possible. When the reflected sound information is obtained, it can be applied to applications such as estimation of the sound source direction and voice enhancement (collection of far-field sounds and sound collection by distance) that could not be realized by conventional voice information processing technology.
《第1実施形態》
本発明は、発話信号のような音源から放射された音声信号(音源信号)を複数のマイクロホンで構成されるマイクロホンアレーで収音した信号(収音信号)から反射音の「到来方向」ないし、「到来振幅」と「到来方向」を推定する。第1実施形態の機能構成および処理フローを図4と図5に示す。
<< First Embodiment >>
In the present invention, a voice signal (sound source signal) radiated from a sound source such as an utterance signal is collected by a microphone array composed of a plurality of microphones (sound collection signal), or “arrival direction” of reflected sound, Estimate the “arrival amplitude” and “arrival direction”. The functional configuration and processing flow of the first embodiment are shown in FIGS.
音源200から放射された音源信号をMchのマイクロホン210−1,…,210−Mを用いて収音する(ステップS1)。Mは、4より大きい値が望ましい。AD変換部220が、収音されたアナログ信号をデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tへ変換する(ステップS2)。ここで、[・]Tは転置を表す。tは離散時間のインデックスを表す。 The sound source signal radiated from the sound source 200 is collected using the Mch microphones 210-1,..., 210-M (step S1). A value greater than 4 is desirable for M. The AD converter 220 converts the collected analog signal into a digital signal xx → (t) = [xx 1 (t),..., Xx M (t)] T (step S2). Here, [•] T represents transposition. t represents a discrete time index.
M本のマイクロホンの並べ方は、2次元または3次元的に等間隔で配置することが望ましい。これは、反射音の到来方向とテンプレート(後で説明するが、反射音の伝達特性を模擬したものである)の対応を一意に定めるためである。なお、原理的に、1次元的にマイクロホンを配置しても、あるいは等間隔に配置しなくても、本発明を実施できるが、反射音の伝達特性と反射音の到来方向が一対一の関係とならないため、2次元または3次元的に等間隔で配置することが望ましい。2次元平面上に等間隔にマイクロホンを並べた場合の一例を図6に示す。マイクロホン間隔dは、空間サンプリング定理を満たすように設定されていることが望ましい。空間サンプリング定理を満たす場合、マイクロホン間隔dは、式(4)を満たす数値となる。cは音速であり、fは解析対象とする周波数である。例えば、4kHzの周波数を解析する場合、マイクロホン間隔を4cm程度に設定するのがよい。
フレーム分割部230は、AD変換部200が出力したデジタル信号xx→(t)=[xx1(t),…,xxM(t)]Tを入力とし、チャネルごとに複数サンプルから成るデジタル信号の組(フレーム)に分割された信号x→(k)=[x1(k),…,xM(k)]Tを出力する(ステップS3)。kはフレーム番号を表すインデックスである。フレーム分割は、各チャネルのデジタル信号xxi(t)(1≦i≦M)ごとにW点分をバッファリングして出力する処理である。Wはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。 Frame division unit 230, a digital signal xx → AD conversion unit 200 is output (t) = [xx 1 ( t), ..., xx M (t)] as input T, a digital signal consisting of a plurality of samples for each channel The signal x → (k) = [x 1 (k),..., X M (k)] T divided into groups (frames) is output (step S3). k is an index representing a frame number. The frame division is a process of buffering and outputting W points for each digital signal xx i (t) (1 ≦ i ≦ M) of each channel. W depends on the sampling frequency, but in the case of 16 kHz sampling, around 512 points are appropriate.
周波数領域変換部240は、各フレームのデジタル信号x→(k)を入力として、周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]Tに変換して出力する(ステップS4)。この信号X→(ω,k)を観測信号と呼ぶことにする。ここで、ωは離散周波数のインデックスを指し(周波数fと角周波数ωとの間にはω=2πfの関係があるから、周波数のインデックスωをこの角周波数ωと同一視してもかまわない。以下、ωに関して「周波数のインデックス」を単に「周波数」ともいう)、kはフレームのインデックスを指す。周波数領域に変換する方法の一つに、離散フーリエ変換があるが、周波数領域に変換するのであれば、他の方法を用いてもよい。周波数領域の観測信号X→(ω,k)は、各周波数ω、フレームkごとに出力される。 The frequency domain converter 240 receives the digital signal x → (k) of each frame as an input, and the frequency domain signal X → (ω, k) = [X 1 (ω, k),..., X M (ω, k )] Converted to T and output (step S4). This signal X → (ω, k) is called an observation signal. Here, ω indicates a discrete frequency index (there is a relationship of ω = 2πf between the frequency f and the angular frequency ω, and therefore the frequency index ω may be identified with the angular frequency ω. Hereinafter, with respect to ω, “frequency index” is also simply referred to as “frequency”), and k indicates a frame index. One method for transforming into the frequency domain is discrete Fourier transform, but other methods may be used as long as the transform is performed into the frequency domain. The observation signal X → (ω, k) in the frequency domain is output for each frequency ω and frame k.
テンプレート生成部250は、P個のテンプレートSp →(ω)の集合(ただし、計算の都合、ベクトル表記している)であるテンプレート情報S→(ω)=[S1 →(ω),…,SP →(ω)](∀ω∈Ω;Ωは周波数のインデックスωの集合)を周波数ωごとに生成する(ステップSp)。この処理は通常、ステップS1−S4の各処理に先立ち実施される。Pはテンプレートの総数を表し、予め2以上の整数値に設定されている。テンプレート総数Pは多ければ多いほど高精度な反射音情報の推定に繋がるが、計算量が多くなるので、例えばP=1000くらいに設定するのが良い。この処理は、マイクロホンで信号を観測する以前にあらかじめ行う処理である。また、マイクロホンの位置(例えばマイクロホンの間隔d)を変更したり、テンプレート総数Pを変更したりしない限り、通常、テンプレートを毎回作り直す必要はない。ここで言う“テンプレート”とは、反射音の到来方向に対応する伝達特性(音響伝播特性)を模擬したものである。p番目(1≦p≦P)のテンプレートSp →(ω)=[Sp1(ω),…,SpM(ω)]T(ω∈Ω)は、予め定められたp番目の点[xp,yp,zp]とM個の受音点(ここで受音点はマイクロホンが配置される位置であり、m番目(1≦m≦M)の受音点を[um,vm,wm]とする)の間の周波数ごとの伝達特性を表す(図7を参照)。p番目のテンプレートSp →(ω)の各要素Spm(ω)の算出式の一例を式(5)に示す。記号iは虚数単位を表す。
p番目のテンプレートSp →(ω)には方向情報θp →(ω)が対応付けられている。方向情報θp →(ω)は、p番目の点[xp,yp,zp]および受音点[um,vm,wm]の位置座標の基準となる3次元直交座標系の原点からp番目の点[xp,yp,zp]を見た方向であり、例えば(当該3次元直交座標系の原点と共通の原点を持つ)球座標系における二つの偏角(極角θp,polと方位角θp,azi)として表される。つまり、θp →(ω)=[θp,pol(ω),θp,azi(ω)]である。なお、p番目のテンプレートSp →(ω)にp番目の点[xp,yp,zp]が関連付けられていれば方向情報θp →(ω)は位置[xp,yp,zp]から計算可能であるから、p番目のテンプレートSp →(ω)に方向情報θp →(ω)が対応付けられていることは必須要件ではない。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(5)の右辺は位置[x,y,z]でなく方向情報θp →(ω)=[θp,pol(ω),θp,azi(ω)]を用いて、例えば式(5a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
また、第1実施形態のようにテンプレートが方向に対応している場合、P個の点[xp,yp,zp](1≦p≦P)の位置は互いに方向の異なる位置であることが好ましく、例えば各点[xp,yp,zp]が原点から十分に離れた等距離にあるとして、上記原点を中心とする球面上の異なるP個の点とすればよい。各点[xp,yp,zp]を原点から十分に離れた位置とする理由は、音源ないし仮想音源から放射された信号は球面的に伝達するが音源ないし仮想音源から十分に離れた位置(原点)での局所領域では直接音ないし反射音を平面波として模擬できるからである。ただし、テンプレート情報が同じ方向の位置に対応するテンプレートを含むことを排除する趣旨ではない。なお、マイクロホンアレーは上記座標系の原点の近傍(局所領域)に配置されているとする。 Further, when the template corresponds to the direction as in the first embodiment, the positions of the P points [x p , y p , z p ] (1 ≦ p ≦ P) are positions having different directions from each other. For example, assuming that each point [x p , y p , z p ] is at an equal distance sufficiently away from the origin, different P points on the sphere centered on the origin may be used. The reason why each point [x p , y p , z p ] is located sufficiently away from the origin is that the signal radiated from the sound source or virtual sound source is transmitted spherically but sufficiently separated from the sound source or virtual sound source This is because a direct sound or reflected sound can be simulated as a plane wave in a local region at the position (origin). However, this does not mean that the template information includes a template corresponding to a position in the same direction. It is assumed that the microphone array is disposed in the vicinity (local region) of the origin of the coordinate system.
テンプレート記憶部260は、テンプレート生成部250が出力したテンプレート情報S→(ω)を記憶し、解析時に反射音情報推定部270にテンプレート情報S→(ω)を提供する役割を果たす。 The template storage unit 260 stores the template information S → (ω) output from the template generation unit 250 and plays a role of providing the template information S → (ω) to the reflected sound information estimation unit 270 at the time of analysis.
反射音情報推定部270は、周波数領域の観測信号X→(ω,k)とテンプレート情報S→(ω)を入力として、Q個の反射音情報成分rsq →(ω,k)の集合(ただし、計算の都合、ベクトル表記している)である反射音情報rs→(ω,k)=[rs1 →(ω,k),…,rsQ →(ω,k)]Tを各フレームkについて周波数ωごとに出力する(ステップS5)。ここで、Qは推定される反射音の総数を表し、予め1以上の整数値に設定されている。q番目(1≦q≦Q)の反射音情報成分rsq →(ω,k)は、rsq →(ω,k)=[rsAq(ω,k),rsBq(ω,k)]の2要素から成り、rsAq(ω,k)はq番目の反射音の到来振幅であり、rsBq(ω,k)はq番目の反射音の到来方向である。 The reflected sound information estimation unit 270 receives a frequency domain observation signal X → (ω, k) and template information S → (ω) as an input, and a set of Q reflected sound information components rs q → (ω, k) ( However, the reflected sound information rs → (ω, k) = [rs 1 → (ω, k),..., Rs Q → (ω, k)] T is calculated for each frame. k is output for each frequency ω (step S5). Here, Q represents the total number of reflected sounds to be estimated, and is set in advance to an integer value of 1 or more. The q-th (1 ≦ q ≦ Q) reflected sound information component rs q → (ω, k) is expressed as rs q → (ω, k) = [rsA q (ω, k), rsB q (ω, k)] RsA q (ω, k) is the arrival amplitude of the qth reflected sound, and rsB q (ω, k) is the arrival direction of the qth reflected sound.
反射音情報を推定する原理について説明する。図6に示すような2次元マイクロホンアレーを用いて観測した或る平面での音圧分布の一例を図8の左端の濃淡図として示す。濃淡図として示された音圧分布の見方について、黒い部分は音圧が小さく、白い部分は音圧が大きいことを示す。観測した音圧分布には直接音の音圧分布だけではなく、反射音の音圧分布も混入している。直接音や反射音が十分に遠方より到来する場合において、2次元平面上でのそれぞれの音圧分布は、図8の右側の3つの濃淡図のように縞模様となる。縞模様の「濃淡」が直接音ないし反射音の到来振幅、「回転・周期」が直接音ないし反射音の到来方向にそれぞれ対応する。図8の例では、到来振幅や到来方向が異なる直接音、反射音1、反射音2の各音圧分布の重畳で観測信号の音圧分布が構成されることを示している。周波数領域で考えると、直接音や各反射音は到来方向に応じて周波数の変化する複素正弦波で表され、観測信号は直接音と各反射音に対応する複数の複素正弦波が重畳したものとして表される。ところで、本発明で解決する問題は、観測信号のみを用いて、反射音の到来振幅および/または到来方向を推定することである。この課題解決は、図8の左端に描かれた音圧分布から図8の右側の3つの濃淡図の直接音や各反射音に対応する縞模様の「濃淡」や「回転・周期」を推定することに対応する。 The principle of estimating the reflected sound information will be described. An example of the sound pressure distribution in a certain plane observed using a two-dimensional microphone array as shown in FIG. 6 is shown as a shading diagram at the left end of FIG. Regarding the view of the sound pressure distribution shown as a shading diagram, the black portion indicates that the sound pressure is low and the white portion indicates that the sound pressure is high. The observed sound pressure distribution includes not only the sound pressure distribution of the direct sound but also the sound pressure distribution of the reflected sound. When the direct sound and the reflected sound come sufficiently far away, each sound pressure distribution on the two-dimensional plane has a striped pattern as shown in the three shades on the right side of FIG. Striped “shading” corresponds to the arrival amplitude of direct sound or reflected sound, and “rotation / period” corresponds to the direction of arrival of direct sound or reflected sound. In the example of FIG. 8, it is shown that the sound pressure distribution of the observation signal is configured by superimposing the sound pressure distributions of the direct sound, the reflected sound 1 and the reflected sound 2 having different arrival amplitudes and directions. When considered in the frequency domain, the direct sound and each reflected sound are represented by a complex sine wave whose frequency changes according to the direction of arrival, and the observation signal is a superposition of the direct sound and multiple complex sine waves corresponding to each reflected sound. Represented as: Incidentally, the problem to be solved by the present invention is to estimate the arrival amplitude and / or the arrival direction of the reflected sound using only the observation signal. The solution to this problem is to estimate the “tone” and “rotation / cycle” of the striped pattern corresponding to the direct sound and the reflected sounds of the three shades on the right side of FIG. 8 from the sound pressure distribution drawn at the left end of FIG. Corresponding to.
反射音情報rs→(ω,k)を推定する手法の概略について説明する。この実施形態では、Q個の反射音情報成分rsq →(ω,k)(1≦q≦Q)を順番に推定するのではなく、一括して推定する。順番に反射音情報成分を推定すると、推定誤差が順次蓄積され、爾後の推定による到来方向や到来振幅の精度に悪影響を及ぼす可能性があるが、一括推定であれば、このような可能性を排除できる。図8の例であれば、Q=3であり、観測信号から図8の右側の3つの濃淡図で表される直接音と二つの反射音が一括して推定されることになる。この推定は、観測信号からQ個の反射音を除去して得られる残差信号のパワーが最小になるように行われる。この意味で、直接音と反射音との区別はパワーの差に依存するだけであるから、観測信号に含まれる最も強いパワーを持つ反射音を“直接音”と理解することで、以下の説明では直接音と反射音を区別することなく扱うこととする。なお、Qは、計算パワーや反射音情報を用いるアプリケーションにも依存するが、30くらいに設定するのが良い。 An outline of a method for estimating the reflected sound information rs → (ω, k) will be described. In this embodiment, Q reflected sound information components rs q → (ω, k) (1 ≦ q ≦ Q) are estimated in a lump rather than sequentially. When the reflected sound information components are estimated in order, estimation errors are accumulated sequentially, which may adversely affect the accuracy of the arrival direction and arrival amplitude due to the subsequent estimation. Can be eliminated. In the example of FIG. 8, Q = 3, and the direct sound and the two reflected sounds represented by the three shades on the right side of FIG. 8 are collectively estimated from the observation signal. This estimation is performed so that the power of the residual signal obtained by removing Q reflected sounds from the observed signal is minimized. In this sense, since the distinction between direct sound and reflected sound only depends on the difference in power, understanding the reflected sound with the strongest power included in the observed signal as “direct sound”, the following explanation Then, it is assumed that direct sound and reflected sound are handled without distinction. Note that Q is preferably set to about 30 although it depends on the calculation power and the application using the reflected sound information.
なお、図8の音圧分布はそれぞれ高解像度の濃淡図として示されているが、このような高解像度の濃淡図として音圧分布を示すためには極めて多くのマイクロホンを必要とし、実用的ではない。他方、実用レベルの2次元マトリクスマイクロホンアレーとして例えば100個のマイクロホンを10×10の2次元マトリクスマイクロホンアレーとして用いた場合でさえ、粗い(低解像度)濃淡図(図11参照)として示される音圧分布しか得られない。そこで、実用の観点から、低解像度の音圧分布しか得られないような状況の下で、精度良く反射音の到来振幅や到来方向を推定することが求められる。本発明では、空間分解能の向上のために任意の位置から到来する平面波を具体的に表現することとし(定式化)、パワーが大きな反射音の影響を受けてパワーの小さいな反射音を推定できなくなることを防止するために、既に推定された反射音を観測信号から除去して次の反射音を推定する(分解)。定式化についてはテンプレート情報として説明したとおりであり、分解については反射音情報rs→(ω,k)の推定手法の概略で説明したとおりである。 Note that the sound pressure distribution in FIG. 8 is shown as a high-resolution shading map, but in order to show the sound pressure distribution as such a high-resolution shading chart, an extremely large number of microphones are required, which is not practical. Absent. On the other hand, even when, for example, 100 microphones are used as a 10 × 10 two-dimensional matrix microphone array as a practical two-dimensional matrix microphone array, the sound pressure shown as a rough (low resolution) gray scale diagram (see FIG. 11). Only a distribution can be obtained. Thus, from a practical point of view, it is required to accurately estimate the arrival amplitude and direction of the reflected sound in a situation where only a low-resolution sound pressure distribution can be obtained. In the present invention, a plane wave arriving from an arbitrary position is specifically expressed in order to improve spatial resolution (formulation), and reflected sound with low power can be estimated under the influence of reflected sound with high power. In order to prevent disappearance, the already estimated reflected sound is removed from the observation signal to estimate the next reflected sound (decomposition). The formulation is as described in the template information, and the decomposition is as described in the outline of the estimation method of the reflected sound information rs → (ω, k).
上で述べた反射音情報rs→(ω,k)を推定する手法について詳細を述べる。説明に先立ち、記号の定義を行う。観測信号からQ個の反射音を除去して得られる残差信号をE→(ω,k)=[E1(ω,k),…,EM(ω,k)]T、q番目の反射音(q=1の場合は直接音を表す)をAq(ω,k)Rq →(ω,θq →(ω,k))とする。反射音を構成するRq →(ω,θq →(ω,k))=[R1(ω,θq →(ω,k)),…,RM(ω,θq →(ω,k))]Tは、空間中の任意の位置[x,y,z]と各マイクロホンとの間の周波数ごとの伝達特性を模擬した関数(以下、伝達特性関数という)であり、各マイクロホンに対する伝達特性を模擬した関数であれば何でもよい。このような伝達特性関数を反射音の構成要素とする理由は、Q個の反射音の推定されるべきQ個の到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定して、そのQ個のテンプレートに対応する方向Dそれぞれの近傍でQ個の当該方向Dを補正することにより、反射音の到来方向の推定精度を向上させるためである(この詳細は反射音Aq(ω,k)Rq →(ω,θq →(ω,k))の最適化として後述する)。通常、伝達特性関数を構成する各伝達特性Rm(ω,θq →(ω,k))とテンプレートの各要素Spm(ω)の算出式とは同じである。この場合、方向情報θq →(ω,k)で表される方向に在る位置[x,y,z]とm番目の受音点[um,vm,wm]との間の周波数ごとの伝達特性Rm(ω,θq →(ω,k))は式(6)で表される。なお、方向情報θq →(ω,k)で表される方向に在る位置[x,y,z]は、例えば、上記座標系原点から十分に離れた球面上の位置とすればよい。位置[x,y,z]を原点から十分に離れた位置とする理由は既述のとおりであり、詳しくは位置[x,y,z]はマイクロホンアレーが配置されている局所領域にて音源ないし仮想音源からの直接音ないし反射音を平面波として模擬できる距離にある空間中の任意の位置であることが好ましい。なお、3次元直交座標系と球座標系とは相互に転換可能であるから(座標変換)、式(6)の右辺は位置[x,y,z]でなく方向情報θq →(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]を用いて、例えば式(6a)のように表すこともできる。ここで、dはマイクロホン間隔であり、マイクロホンアレーをΦ行Ξ列(Φ×Ξ=M)の2次元マイクロホンアレーとし、m番目のマイクロホンの位置をφ行ξ列(1≦φ≦Φ,1≦ξ≦Ξ)にあるとする。
反射音を構成するAq(ω,k)は、音源200自身が持つ位相や壁での反射、距離による減衰といったテンプレートRq →(ω,θq →(ω,k))と反射音との相違を表し、到来振幅に相当する。Q個の反射音情報成分を一括して推定する上述の方法を式で表すと式(7)のようになる。ただし、1≦q≦Qである。
次に、Q個の反射音Aq(ω,k)Rq →(ω,θq →(ω,k))を一括して最適化する方法について説明する。
Q個の最適化された反射音Aq(ω,k)Rq →(ω,θq →(ω,k))は、観測信号からQ個の反射音を除去して得られる残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小とする基準に従って決定される。具体的には、伝達特性関数Rq →(ω,θq →(ω,k))が方向情報θq →(ω,k)で決定されることに注意すると、Q個の反射音Aq(ω,k)Rq →(ω,θq →(ω,k))(1≦q≦Q)を表現する各パラメータAq(ω,k),θq →(ω,k)(1≦q≦Q)の最適値Aq,opt(ω,k),θq,opt →(ω,k)(1≦q≦Q)は式(8)によって得られる。なお、記号Hは共役転置を表す。式(8)にて、{(Aq,opt(ω,k),θq,opt →(ω,k))}q∈{1,…,Q}は、{(A1,opt(ω,k),θ1,opt →(ω,k)),…,(Aq,opt(ω,k),θq,opt →(ω,k)),…,(AQ,opt(ω,k),θQ,opt →(ω,k))}を表し、{(Aq(ω,k),θq →(ω,k))}q∈{1,…,Q}は、{(A1(ω,k),θ1 →(ω,k)),…,(Aq(ω,k),θq →(ω,k)),…,(AQ(ω,k),θQ →(ω,k))}を表す。
Q optimized reflected sounds A q (ω, k) R q → (ω, θ q → (ω, k)) are residual signals obtained by removing Q reflected sounds from the observed signal. E → (ω, k) power of (E → (ω, k) ) H E → (ω, k) is determined according to the criteria to minimize. Specifically, if it is noted that the transfer characteristic function R q → (ω, θ q → (ω, k)) is determined by the direction information θ q → (ω, k), Q reflected sounds A q (ω, k) R q → (ω, θ q → (ω, k)) (1 ≦ q ≦ Q) Each parameter A q (ω, k), θ q → (ω, k) (1 The optimum values A q, opt (ω, k), θ q, opt → (ω, k) (1 ≦ q ≦ Q) of ≦ q ≦ Q are obtained by the equation (8). Note that the symbol H represents conjugate transposition. In equation (8), {(A q, opt (ω, k), θ q, opt → (ω, k))} q∈ {1,..., Q} is {(A 1, opt (ω , k), θ 1, opt → (ω, k)),…, (A q, opt (ω, k), θ q, opt → (ω, k)),…, (A Q, opt (ω , k), θ Q, opt → (ω, k))}, {(A q (ω, k), θ q → (ω, k))} q∈ {1,. {(A 1 (ω, k), θ 1 → (ω, k)), ..., (A q (ω, k), θ q → (ω, k)), ..., (A Q (ω, k ), Θ Q → (ω, k))}.
このとき、q番目の反射音情報成分rsq →(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(9)、式(10)で与えられる。
式(8)の具体的な計算方法は種々考えられるが、ここではその一例を示す。 Various specific calculation methods of the formula (8) are conceivable, but an example is shown here.
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q →(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定するビーム探索的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
§1.1 Initial value setting of direction information First, initial values θ ini, q → (ω, k) (1 ≦ q ≦ Q) of Q pieces of direction information θ q → (ω, k) are set. As a method for determining Q initial values θ ini, q → (ω, k) (1 ≦ q ≦ Q), in this embodiment, initial values θ ini of Q direction information θ q → (ω, k). , q → (ω, k) (1 ≦ q ≦ Q) will be described with reference to the observation signal X → (ω, k) and the template information S → (ω). According to this method, Q templates corresponding to Q directions considered to be closest to each of Q estimated directions of arrival are determined, and direction information corresponding to the determined Q templates is determined. The initial value θ ini, q → (ω, k) of Q pieces of direction information θ q → (ω, k) may be set to 1 ≦ q ≦ Q. In this case, there is a relationship of Q <P between P and Q.
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q) →(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q) →(ω)と反射音との相違を表す。この場合、観測信号X→(ω,k)からq番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q) →(ω)を除去して得られる残差信号Eq →(ω,k)は式(11)のように表される。
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q) →(ω)は、式(11)に基づく残差信号Eq →(ω,k)のパワー(Eq →(ω,k))HEq →(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。 The q-th reflected sound A q (ω, k, g (ω, q)) S g (ω, q) → (ω) is obtained from the residual signal E q → (ω, k) based on the equation (11). Power (E q → (ω, k)) Estimated according to a standard that minimizes H E q → (ω, k). There are various estimation methods, but one of them will be described.
反射音は、Aq(ω,k,g(ω,q))とSg(ω,q) →(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。まず、p番目のテンプレートSp →(ω)が残差信号Eq →(ω,k)のパワー(Eq →(ω,k))HEq →(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(12)により求められる。なお、この段階では、式(12)左辺のqは意味を持たないことに留意されたい。
次に、式(12)に基づき得られたP個の係数Aq(ω,k,p)(1≦p≦P)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(13)参照)。記号Λは、インデックスpの全体の集合{1,…,p,…,P}から式(13)により決定されたインデックスの集合を除いた集合であり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}である。
従って、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)は、式(13)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q) →(ω)(1≦q≦Q)に対応する方向情報θg(ω,q) →(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q →(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q →(ω,k)はフレームインデックスkに依存しないことに留意されたい。 Accordingly, the initial value θ ini, q → (ω, k) (1 ≦ q ≦ Q) of the Q pieces of direction information θ q → (ω, k) is expressed by Q pieces of g (ω , q) (S ≦ G ≦ ω ≦ q ≦ Q) (1 ≦ q ≦ Q) → (ω) (1 ≦ q ≦ Q) direction information θ g (ω, q) → (ω) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). That is, θ ini, q → (ω, k) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). Note that the initial value θ ini, q → (ω, k) does not depend on the frame index k.
§1.2 係数Aq(ω,k)の初期値設定
次に、Q個の係数Aq(ω,k)の初期値Aini,q(ω,k)を設定する。Q個の初期値Aini,q(ω,k)(1≦q≦Q)の決定方法として種々のものが考えられるが、ここでは一例として、パワー最小化基準でQ個の初期値Aini,q(ω,k)(1≦q≦Q)を決定する方法を説明する。まず、Aq(ω,k,p)=0(1≦p≦P)とする。そして、初期値Aini,q(ω,k)(1≦q≦Q)は、残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小化するように、最小二乗法に基づき、式(14)により求められる。式(14)にてFq →(ω,k)は式(15)で与えられる。式(15)にてΥ={1,…,q-1,q+1,…,Q}であり、Fq →(ω,k)は観測信号からq番目の反射音を除去した残差信号である。なお、Q個の方向情報θq →(ω,k)として§1.1で決定されたQ個の初期値θini,q →(ω,k)を用いる。式(14)で用いるRq →(ω,θq →(ω,k))は方向情報の初期値θini,q →(ω,k)と式(6)から得られる。
§2 反射音の最適化
次に、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)を起点として、式(7)で表される残差信号E→(ω,k)のパワー(E→(ω,k))HE→(ω,k)を最小とするように、Q個の反射音Aq(ω,k)Rq →(ω,θq →(ω,k))(1≦q≦Q)を一括して最適化する。各反射音は、係数Aq(ω,k)とRq →(ω,θq →(ω,k))の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。この最適化方法は様々あるが、そのうちの一つの方法(勾配法)について述べる。例示する方法では、方向情報θq →(ω,k)の補正と係数Aq(ω,k)の補正が交互に所定回数(δ回)反復して行われることによりQ個の反射音Aq(ω,k)Rq →(ω,θq →(ω,k))(1≦q≦Q)が最適化される。δは例えば100程度の値とされるが1でもよい。
§2 Optimization of reflected sound Next, using the initial value θ ini, q → (ω, k) (1 ≦ q ≦ Q) of Q pieces of direction information θ q → (ω, k) as a starting point, the equation (7 ) Q reflected sounds A q (ω to minimize the power (E → (ω, k)) H E → (ω, k) of the residual signal E → (ω, k) , k) R q → (ω, θ q → (ω, k)) (1 ≦ q ≦ Q) is optimized collectively. Each reflected sound is composed of two elements: coefficient A q (ω, k) and R q → (ω, θ q → (ω, k)). Necessary. There are various optimization methods, but one of them (gradient method) will be described. In the illustrated method, the correction of the direction information θ q → (ω, k) and the correction of the coefficient A q (ω, k) are alternately repeated a predetermined number of times (δ times), thereby Q reflected sounds A q (ω, k) R q → (ω, θ q → (ω, k)) (1 ≦ q ≦ Q) is optimized. For example, δ is set to a value of about 100, but may be 1.
§2.1 方向情報の補正
Q個の方向情報θq →(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)](1≦q≦Q)の補正は、式(16)による更新によって行われる。各q(1≦q≦Q)について、初めて§2.1の処理を行う場合、式(16)右辺の方向情報θq →(ω,k)は§1.1の処理で得られた初期値θini,q →(ω,k)であり、§2.1の処理が初めてではない場合、式(16)右辺の方向情報θq →(ω,k)は直前の§2.1の処理で得られた方向情報とする。また、初めて§2.1の処理を行う場合、パワー(Fq →(ω,k))HFq →(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として式(14)で得られたAini,q(ω,k)(1≦q≦Q)を用い、§2.1の処理が初めてではない場合、パワー(Fq →(ω,k))HFq →(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として直前の§2.2の処理(後述する)で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。ステップ幅α1およびα2は小さい正の定数であり、収束速度などを考慮して決定されるが、例えばそれぞれ0.1程度の値とされる。
§2.2 係数の補正
Q個の係数Aq(ω,k)(1≦q≦Q)の補正は、最小二乗法に基づき、式(17)に従って新たな係数Aq(ω,k)(1≦q≦Q)を求めることにより行われる。式(17)で用いるRq →(ω,θq →(ω,k))は§2.1の処理で得られた方向情報θq →(ω,k)と式(6)から得られる。式(17)にてFq →(ω,k)の計算に用いられる係数Aq(ω,k)(q∈Υ)として、初めて§2.2の処理を行う場合、§1.1の処理で得られた初期値Aini,q(ω,k)を用い、§2.2の処理が初めてではない場合、直前の§2.2の処理で得られた係数Aq(ω,k)(1≦q≦Q)を用いる。
δ回の反復処理が終了した時点で得られている係数Aq(ω,k)と方向情報θq →(ω,k)のQ個の組み合わせ(Aq(ω,k),θq →(ω,k))(1≦q≦Q)が{(Aq,opt(ω,k),θq,opt →(ω,k))}q∈{1,…,Q}であり、Q個の反射音情報成分rsq →(ω,k)(1≦q≦Q)となる。すなわち、q番目の反射音情報成分rsq →(ω,k)=[rsAq(ω,k),rsBq(ω,k)]は式(18)、式(19)で与えられる。
以上の過程により、Q個の反射音情報成分rsq →(ω,k)=[rsAq(ω,k),rsBq(ω,k)](q=1,…,Q)が求められる。なお、δ=1に設定されている場合、係数の補正を行わないことにより、反射音情報として到来方向のみを求めることができる。 Through the above process, Q reflected sound information components rs q → (ω, k) = [rsA q (ω, k), rsB q (ω, k)] (q = 1,..., Q) are obtained. . When δ = 1 is set, only the direction of arrival can be obtained as reflected sound information by not correcting the coefficient.
《第2実施形態》
第2実施形態におけるステップS5の処理を説明する。第2実施形態におけるステップS5の処理では、「§1.1 方向情報の初期値設定」が第1実施形態と異なる。そこで、第1実施形態と同じ事項については重複説明を省略し、第1実施形態と異なる事項について説明する。
<< Second Embodiment >>
The process of step S5 in 2nd Embodiment is demonstrated. In the process of step S5 in the second embodiment, “§1.1 Initial value setting of direction information” is different from the first embodiment. Therefore, the duplicated description of the same items as those in the first embodiment will be omitted, and items different from those in the first embodiment will be described.
§1.1 方向情報の初期値設定
最初に、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)を設定する。Q個の初期値θini,q →(ω,k)(1≦q≦Q)の決定方法として、この実施形態では、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)を、観測信号X→(ω,k)とテンプレート情報S→(ω)を用いて決定する一般化調和解析的決定方法を説明する。この方法によると、Q個の推定されるべき到来方向それぞれに最も近いと考えられるQ個の方向に対応するQ個のテンプレートを決定し、この決定されたQ個のテンプレートに対応する方向情報をQ個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)とすればよい。なお、この場合、PとQとの間にQ<Pなる関係がある。
§1.1 Initial value setting of direction information First, initial values θ ini, q → (ω, k) (1 ≦ q ≦ Q) of Q pieces of direction information θ q → (ω, k) are set. As a method for determining Q initial values θ ini, q → (ω, k) (1 ≦ q ≦ Q), in this embodiment, initial values θ ini of Q direction information θ q → (ω, k). , q → (ω, k) (1 ≦ q ≦ Q) will be described using the observation signal X → (ω, k) and the template information S → (ω). According to this method, Q templates corresponding to Q directions considered to be closest to each of Q estimated directions of arrival are determined, and direction information corresponding to the determined Q templates is determined. The initial value θ ini, q → (ω, k) of Q pieces of direction information θ q → (ω, k) may be set to 1 ≦ q ≦ Q. In this case, there is a relationship of Q <P between P and Q.
そこで、テンプレート情報の中から上述のようなテンプレートを決定するために、便宜上、q番目の反射音をAq(ω,k,g(ω,q))Sg(ω,q) →(ω)と表すことにする。ここで、g(ω,q)は、テンプレート情報の中でq番目の反射音を最も精度良く表現できるテンプレートのインデックスを表す。反射音を構成する係数Aq(ω,k,g(ω,q))は、音源200自身が持つ位相や壁での反射、距離による減衰などによるテンプレートSg(ω,q) →(ω)と反射音との相違を表す。この場合、観測信号から1番目からq番目までのq個の反射音を除去して得られる残差信号Eq+1 →(ω,k)は式(20)のように表される。ただし、1≦q≦Qであり、E1 →(ω,k)=X→(ω,k)である。
q番目の反射音Aq(ω,k,g(ω,q))Sg(ω,q) →(ω)は、式(20)に基づく残差信号Eq+1 →(ω,k)のパワー(Eq+1 →(ω,k))HEq+1 →(ω,k)を最小とする基準に従って推定される。推定方法は様々あるが、そのうちの一つの方法について述べる。反射音は、Aq(ω,k,g(ω,q))とSg(ω,q) →(ω)の2つの要素で構成されるので、2つの要素に対して最適化することが必要となる。後述の<処理1>と<処理2>はqの昇順に各qについて行われる。 The qth reflected sound A q (ω, k, g (ω, q)) S g (ω, q) → (ω) is the residual signal E q + 1 → (ω, k) based on equation (20). ) Power (E q + 1 → (ω, k)) H E q + 1 → (ω, k) is estimated according to a standard that minimizes. There are various estimation methods, but one of them will be described. The reflected sound consists of two elements, A q (ω, k, g (ω, q)) and S g (ω, q) → (ω). Is required. <Process 1> and <Process 2> to be described later are performed for each q in ascending order of q.
<処理1>
記号Λはインデックスpの全体の集合{1,…,p,…,P}から後述する式(22)により決定されたインデックスの集合を除いた集合である。つまり、Λ={1,…,p,…,P}-{g(ω,1),…,g(ω,q-1)}とする。ただし、初めて<処理1>を行うときはΛ={1,…,p,…,P}である。
p番目(p∈Λ)のテンプレートSp →(ω)が式(20)に基づく残差信号Eq+1 →(ω,k)のパワー(Eq+1 →(ω,k))HEq+1 →(ω,k)を最小化するための最適なテンプレートであると仮定した場合の係数Aq(ω,k,p)は、最小二乗法に基づき、式(21)により求められる。なお、この段階では、式(21)左辺のqは意味を持たないことに留意されたい。
The symbol Λ is a set obtained by excluding the set of indexes determined by Equation (22) described later from the entire set {1,..., P,. That is, Λ = {1, ..., p, ..., P}-{g (ω, 1), ..., g (ω, q-1)}. However, when <Process 1> is performed for the first time, Λ = {1,..., P,.
The p-th (p∈Λ) template S p → (ω) is the power (E q + 1 → (ω, k)) H of the residual signal E q + 1 → (ω, k) based on the equation (20). The coefficient A q (ω, k, p) when assuming that E q + 1 → (ω, k) is an optimal template is obtained from the equation (21) based on the least square method. It is done. Note that at this stage, q on the left side of Equation (21) has no meaning.
<処理2>
集合Λの要素の個数(濃度)を|Λ|とすると、式(21)に基づき得られた|Λ|個の係数Aq(ω,k,p)(p∈Λ)の中から、その絶対値が最大の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(22)参照)。
When the number (concentration) of elements of the set Λ is | Λ |, among the | Λ | coefficients A q (ω, k, p) (p∈Λ) obtained based on the equation (21), The index q (1 ≦ q ≦ Q) of the coefficient A q (ω, k, p) having the maximum absolute value is determined (see Expression (22)).
従って、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)は、式(22)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q) →(ω)(1≦q≦Q)に対応する方向情報θg(ω,q) →(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q →(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q →(ω,k)はフレームインデックスkに依存しないことに留意されたい。 Accordingly, the initial value θ ini, q → (ω, k) (1 ≦ q ≦ Q) of the Q pieces of direction information θ q → (ω, k) is expressed by Q pieces of g (ω , q) (S ≦ G ≦ ω ≦ q ≦ Q) (1 ≦ q ≦ Q) → (ω) (1 ≦ q ≦ Q) direction information θ g (ω, q) → (ω) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). That is, θ ini, q → (ω, k) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). Note that the initial value θ ini, q → (ω, k) does not depend on the frame index k.
第2実施形態では、第1実施形態で用いたビーム探索的決定方法ではなく、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)の決定に一般化調和解析的決定方法を用いた。ビーム探索的決定方法によると、強いパワーを持つ反射音の影響で初期値に偏りが生じる可能性があり、初期値に偏りが生じると推定精度が劣化してしまうことがある。一方、一般化調和解析的決定方法によると、初期値計算量がビーム探索的決定方法に比べて増大するが、推定されるべき反射音(正解)に近い初期値を設定できる可能性が高く、この場合、推定精度の向上を望めるだけでなく、反復処理の回数を減らすことができる。 In the second embodiment, the initial value θ ini, q → (ω, k) (1 ≦ 1) of Q pieces of direction information θ q → (ω, k) is used instead of the beam search determination method used in the first embodiment. A generalized harmonic analytical determination method was used to determine q ≦ Q). According to the beam search determination method, there is a possibility that the initial value is biased due to the influence of the reflected sound having strong power, and if the initial value is biased, the estimation accuracy may be deteriorated. On the other hand, according to the generalized harmonic analysis determination method, the initial value calculation amount increases as compared with the beam search determination method, but it is highly possible to set an initial value close to the reflected sound (correct answer) to be estimated, In this case, not only can the estimation accuracy be improved, but the number of iterations can be reduced.
《第3実施形態》
第3実施形態におけるステップS5の処理を説明する。第3実施形態におけるステップS5の処理では、「§1.1 方向情報の初期値設定」が第1実施形態と異なる。そこで、第1実施形態と同じ事項については重複説明を省略し、第1実施形態と異なる事項について説明する。第3実施形態のコンセプトは、第2実施形態よりも簡便でありながら、上述の初期値の偏りを防止することにある。特に、第3実施形態は、第1実施形態で用いるテンプレート情報に含まれる各テンプレートに対応する方向情報に偏りがある場合に有効である。また、第1実施形態で用いるテンプレート情報に含まれる各テンプレートに対応する方向情報に偏りが無い場合であっても、テンプレート数が極めて多いと近接するテンプレートに対応する方向情報が初期値として設定されて偏りが生じる可能性があるから、初期値設定に用いるテンプレートに対応する方向情報を後述するように偏りが無いように且つ疎らになるように制限することによって、初期値の偏りを防止することができる。
<< Third Embodiment >>
The process of step S5 in the third embodiment will be described. In the process of step S5 in the third embodiment, “§1.1 Initial value setting of direction information” is different from the first embodiment. Therefore, the duplicated description of the same items as those in the first embodiment will be omitted, and items different from those in the first embodiment will be described. The concept of the third embodiment is to prevent the bias of the initial values described above while being simpler than the second embodiment. In particular, the third embodiment is effective when there is a bias in the direction information corresponding to each template included in the template information used in the first embodiment. Even if the direction information corresponding to each template included in the template information used in the first embodiment is not biased, the direction information corresponding to the adjacent template is set as an initial value when the number of templates is extremely large. As described later, the direction information corresponding to the template used for setting the initial value is restricted so as not to be biased and sparse so as to prevent the bias of the initial value. Can do.
§1.1 方向情報の初期値設定
まず、方向情報を構成するθpol(ω)とθazi(ω)のいずれか一方について、偏りが無いように複数の方向を決定する。この例では、極角θpol(ω)について偏りが無いようにβ個(β≧2)の方向{θ1,pol(ω),…,θβ,pol(ω)}を決定する。通常、極角は0°≦θpol(ω)≦180°を満たすから、例えば等間隔10°ごとに方向を定めることにより{θ1,pol(ω),…,θβ,pol(ω)}={0,10,20,…,180}となる(β=19)。テンプレート情報に含まれるテンプレートのうち集合{θ1,pol(ω),…,θβ,pol(ω)}の要素のいずれかを極角θpol(ω)として持つ方向情報(位置)に対応するテンプレートのインデックスの集合をΨとする。この際、集合Ψの要素の個数(濃度)|Ψ|が、Q≦|Ψ|<Pを満たすようになることが好ましい。集合Ψは、テンプレート情報に含まれるテンプレートに対応する方向情報(位置)の集合の真部分集合である。
§1.1 Initial value setting of direction information First, a plurality of directions are determined so that there is no bias for either one of θ pol (ω) and θ azi (ω) constituting the direction information. In this example, β (β ≧ 2) directions {θ 1, pol (ω),..., Θ β, pol (ω)} are determined so that there is no deviation with respect to the polar angle θ pol (ω). Usually, the polar angle satisfies 0 ° ≦ θ pol (ω) ≦ 180 °. For example, by setting the direction at equal intervals of 10 °, {θ 1, pol (ω),…, θ β, pol (ω) } = {0,10,20, ..., 180} (β = 19). Corresponds to the direction information (position) having one of the elements of the set {θ 1, pol (ω),…, θ β, pol (ω)} as the polar angle θ pol (ω) among the templates included in the template information Let Ψ be the set of template indexes to be performed. At this time, it is preferable that the number (concentration) | Ψ | of the elements of the set Ψ satisfies Q ≦ | Ψ | <P. The set Ψ is a true subset of the set of direction information (position) corresponding to the template included in the template information.
そして、式(12)に基づき係数Aq(ω,k,p)を求める。ただし、式(12)の右辺で用いるテンプレートのインデックスpはp∈Ψである。 Then, the coefficient A q (ω, k, p) is obtained based on the equation (12). However, the index p of the template used on the right side of Expression (12) is pεΨ.
次に、p∈Ψなる条件の下で式(12)に基づき得られた|Ψ|個の係数Aq(ω,k,p)(1≦p≦|Ψ|)の中から、その絶対値の大きい方から順にQ個の係数Aq(ω,k,p)のインデックスq(1≦q≦Q)を決定する(式(23)参照)。記号Γは、集合Ψから式(23)により決定されたインデックスの集合を除いた集合であり、Γ=Ψ-{g(ω,1),…,g(ω,q-1)}である。
従って、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)は、式(23)により得られるQ個のg(ω,q)(1≦q≦Q)をインデックスに持つテンプレートSg(ω,q) →(ω)(1≦q≦Q)に対応する方向情報θg(ω,q) →(ω)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)として与えられる。すなわち、θini,q →(ω,k)=[θg(ω,q),pol(ω),θg(ω,q),azi(ω)](1≦q≦Q)である。初期値θini,q →(ω,k)はフレームインデックスkに依存しないことに留意されたい。 Accordingly, the initial value θ ini, q → (ω, k) (1 ≦ q ≦ Q) of the Q pieces of direction information θ q → (ω, k) is expressed by Q pieces of g (ω , q) (S ≦ G ≦ ω ≦ q ≦ Q) (1 ≦ q ≦ Q) → (ω) (1 ≦ q ≦ Q) direction information θ g (ω, q) → (ω) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). That is, θ ini, q → (ω, k) = [θ g (ω, q), pol (ω), θ g (ω, q), azi (ω)] (1 ≦ q ≦ Q). Note that the initial value θ ini, q → (ω, k) does not depend on the frame index k.
これらの実施形態のほか、Q個の方向情報θq →(ω,k)の初期値θini,q →(ω,k)(1≦q≦Q)をランダムに設定する実施形態も許容される。 In addition to these embodiments, an embodiment in which the initial value θ ini, q → (ω, k) (1 ≦ q ≦ Q) of Q pieces of direction information θ q → (ω, k) is set at random is allowed. The
<変形例>
上述の第1実施形態では周波数ごとに観測信号X→(ω,k)を用いて反射音情報rs→(ω,k)を推定したが、周波数ごとに反射音情報を推定すると、一意に推定されるべき仮想音源の方向(推定到来方向)以外の方向に関する情報も含んでしまうことがあり、この結果、反射音情報に誤差が生じることがありうる。例えば、図9(a)に示すように推定到来方向に関する情報だけを抽出できることが望ましいが、実際には図9(b)に示すように推定到来方向以外の方向に関する情報が混在してしまうことがありえる。
<Modification>
In the first embodiment described above, the reflected sound information rs → (ω, k) is estimated using the observation signal X → (ω, k) for each frequency. However, when the reflected sound information is estimated for each frequency, the reflected sound information is estimated uniquely. Information on directions other than the direction of the virtual sound source to be performed (estimated arrival direction) may be included, and as a result, errors may occur in the reflected sound information. For example, it is desirable that only information related to the estimated arrival direction can be extracted as shown in FIG. 9A, but in reality, information related to directions other than the estimated arrival direction is mixed as shown in FIG. 9B. There can be.
そこで変形例では、全周波数に亘り一括してパワーを算出することで、反射音情報の推定誤差を小さくする。つまり、図10に示すように、残差信号のパワーを全周波数に亘り統括することによって、推定到来方向以外の方向の影響を極力減らすことができる。一般的に推定到来方向以外の方向では各周波数でのパワーにバラつきが生じるので、残差信号のパワーを全周波数に亘り統括することにより、推定到来方向のパワーに比してそれ以外の方向のパワーの相対的な影響を低減することができる。なお、図10では、縦軸のパワーは相対値を示しているので各グラフのスケールが同じであるわけではないことに留意されたい。 Therefore, in the modification, the estimation error of the reflected sound information is reduced by calculating the power collectively over all frequencies. That is, as shown in FIG. 10, the influence of directions other than the estimated arrival direction can be reduced as much as possible by integrating the power of the residual signal over all frequencies. In general, the power at each frequency varies in directions other than the estimated direction of arrival. Therefore, by integrating the power of the residual signal over all frequencies, the power in the other direction compared to the power in the estimated direction of arrival. The relative influence of power can be reduced. In FIG. 10, it should be noted that the scale of each graph is not the same because the power on the vertical axis indicates a relative value.
この変形例での処理は次のとおりである。解析する周波数帯域に含まれる周波数のインデックスωの集合をΩとする。例えば、音声信号を扱うのであれば、1.0〜3.0kHz帯域に対応するインデックスの集合をΩとすればよい。そして、テンプレートSg(ω,q) →(ω)のインデックスg(ω,q)を式(13)や式(22)の替わりに式(24)によって求める。同様に、式(23)の替わりに式(25)によって求める。また、方向情報θq →(ω,k)=[θq,pol(ω,k),θq,azi(ω,k)]の補正は、式(16)の替わりに式(26)による更新によって行われる。
<応用例>
反射音情報は人間が生活する上で、非常に重要な音声情報である。例えば、視覚障害者は、タッピングによって発した音源信号が壁や天井等で反射して耳で観測することにより、環境を把握している。また、日常会話でも、適度な反射が生じる部屋で会話することと、反射音が比較的少ない環境で会話することでは会話のしやすさに相違が生じる。以下、本発明により推定された反射音情報を用いたサービス例について述べる。
1つ目は、会議システムに本発明を組み込んだ例である。指向性音源の向きに応じて反射音の振幅は変化するので、反射音情報が分かると、どの方向に音源が向いているのかを推定することができる。会議システムに音源向きの推定装置を組み込めば、誰に向かって発言したのかを提示することに応用できる。
2つ目は、自由な位置で映像や音声を鑑賞できるシステムである。遠方にある音は直接到来する音源のパワーが小さいので収音することが困難である。反射音情報が分かると、直接音だけでなく、反射音も強調収音できるので、遠方の音を強調することが可能となる。また、音声処理の分野では、方向別に音源の強調収音は可能であるが、距離別に音声を強調収音することは非常に難しいとされている。反射音情報が分かると、距離に対応する物理的な特徴量が得られるので、距離別に収音することが可能となる。遠方の音を収音したり、方向別、距離別に収音することができれば、視聴者の選択した位置に対応した音場を擬似的に生成することが可能となる。
<Application example>
The reflected sound information is very important voice information for human life. For example, a visually impaired person grasps the environment by reflecting a sound source signal generated by tapping on a wall or ceiling and observing with an ear. Further, even in everyday conversation, there is a difference in the ease of conversation between talking in a room where moderate reflection occurs and talking in an environment with relatively few reflected sounds. Hereinafter, service examples using reflected sound information estimated according to the present invention will be described.
The first is an example in which the present invention is incorporated in a conference system. Since the amplitude of the reflected sound changes according to the direction of the directional sound source, if the reflected sound information is known, it is possible to estimate in which direction the sound source is directed. If a sound source direction estimation device is incorporated in the conference system, it can be applied to presenting who spoke.
The second is a system that allows users to view video and audio at any position. Sound far away is difficult to pick up because the power of the sound source coming directly is small. If the reflected sound information is known, not only the direct sound but also the reflected sound can be picked up and collected, so that it is possible to enhance the sound in the distance. In the field of audio processing, it is possible to emphasize and collect sound sources by direction, but it is very difficult to emphasize and collect sounds by distance. If the reflected sound information is known, a physical feature amount corresponding to the distance can be obtained, so that sound can be collected for each distance. If far-field sounds can be picked up or picked up by direction and distance, a sound field corresponding to the position selected by the viewer can be generated in a pseudo manner.
音声通信システムにおいて、反射音情報を推定することは、直接音だけでは得られなかった音場の情報を得ることにつながる。反射音情報が分かれば、これまでの音声強調技術ではできなかったような遠方音の収音や距離別の収音に結びついたり、従来の収音技術では推定できなかった音場の情報(例えば音源の向き)を推定できる。こういった音場の情報の推定は、これまでの技術では実現できなかった音声処理装置の開発に繋がる。反射音情報の推定に関する従来技術は、インパルス応答を求めるために特殊な信号を観測する必要があったが、本発明は音声信号のような一般的な観測信号で反射音情報を得られるという利点を持つ。 In a voice communication system, estimating reflected sound information leads to obtaining information on a sound field that could not be obtained only by direct sound. If the reflected sound information is known, it will lead to far-field sound collection and sound collection by distance, which could not be done with conventional speech enhancement technology, or information on the sound field that could not be estimated with conventional sound collection technology (for example, The direction of the sound source can be estimated. Such estimation of sound field information leads to the development of a speech processing apparatus that could not be realized by the conventional technology. The prior art related to the estimation of reflected sound information required observation of a special signal in order to obtain an impulse response, but the present invention has an advantage that reflected sound information can be obtained with a general observation signal such as an audio signal. have.
<反射音情報推定装置のハードウェア構成例>
上述の実施形態に関わる反射音情報推定装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、反射音情報推定装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Example of hardware configuration of reflected sound information estimation device>
The reflected sound information estimation apparatus according to the above-described embodiments may include an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a CPU (Central Processing Unit) [cache memory, or the like. ] RAM (Random Access Memory) or ROM (Read Only Memory) and external storage device as a hard disk, and data exchange between these input unit, output unit, CPU, RAM, ROM, and external storage device It has a bus that can be connected. Further, if necessary, the reflected sound information estimation device may be provided with a device (drive) that can read and write a storage medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
反射音情報推定装置の外部記憶装置には、反射音情報を推定するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。 The external storage device of the reflected sound information estimation device stores a program for estimating reflected sound information and data necessary for processing of the program [not limited to the external storage device, for example, a program is read-only. You may memorize | store in ROM which is a memory | storage device. ]. Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device. Hereinafter, a storage device that stores data, addresses of storage areas, and the like is simply referred to as a “storage unit”.
反射音情報推定装置の記憶部には、アナログ信号に対してAD変換を行うためのプログラム、フレーム分割処理を行うためのプログラム、フレームごとのデジタル信号を周波数領域の観測信号に変換するためのプログラム、テンプレート情報を生成するためのプログラム、周波数領域の観測信号とテンプレート情報を用いて反射音情報を推定するためのプログラムが記憶されている。 The storage unit of the reflected sound information estimation device has a program for performing AD conversion on an analog signal, a program for performing frame division processing, and a program for converting a digital signal for each frame into an observation signal in the frequency domain A program for generating template information and a program for estimating reflected sound information using frequency domain observation signals and template information are stored.
反射音情報推定装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(AD変換部、フレーム分割部、周波数領域変換部、テンプレート生成部、反射音情報推定部)を実現することで反射音情報の推定が実現される。 In the reflected sound information estimation apparatus, each program stored in the storage unit and data necessary for processing each program are read into the RAM as necessary, and are interpreted and processed by the CPU. As a result, the CPU realizes the predetermined functions (AD conversion unit, frame division unit, frequency domain conversion unit, template generation unit, reflection sound information estimation unit), thereby realizing the reflection sound information estimation.
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
<Supplementary note>
The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
また、上記実施形態において説明したハードウェアエンティティ(反射音情報推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 When the processing functions in the hardware entity (reflected sound information estimation apparatus) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (15)
一つの音源から発せられ上記マイクロホンアレーへ複数の方向(以下、音声到来方向という)から到来する音声信号をM個の上記マイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を入力とし、Qを2以上の予め定められた整数として、1個の直接音と上記直接音とは相異なるQ−1個の反射音(以下、上記1個の直接音と上記直接音とは相異なるQ−1個の反射音を合わせてQ個の音声信号という)はそれぞれ、上記マイクロホンアレーから見たQ個の音声信号の音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に複素振幅を乗じて表されるものとして、上記テンプレートの中から選択されたQ個のテンプレートにより特定されるQ個の音声到来方向をQ個の音声信号それぞれの初期方向とし、各初期方向に対応する複素振幅を初期振幅として決定し、Q個の当該初期方向とQ個の当該初期振幅を起点として、相異なるQ個の上記音声到来方向に対応するQ個の音声信号を上記観測信号から減じて得られる残差信号(以下、一括除去後残差信号という)のパワーが小さくなるようにQ個の上記音声到来方向の補正とQ個の上記複素振幅の補正とを行うことにより、Q個の音声信号に対応するQ個の上記音声到来方向およびQ個の上記複素振幅を一括して推定する反射音情報推定部と
を含む反射音情報推定装置。 M in each of P directions (where P is a predetermined integer of 2 or more) viewed from a microphone array composed of M microphones (where M is an integer of 4 or more). A storage unit for storing a function simulating a transfer characteristic for each frequency (hereinafter referred to as a transfer characteristic function) as a template for each of the above microphones;
One of the emitted plurality of directions into the microphone array from the sound source (hereinafter, referred to as voice arrival direction) the audio signal coming from the M sound pickup signals respectively into the frequency domain obtained by sound pickup by M the microphone A converted signal (hereinafter referred to as an observation signal) is input, and Q is a predetermined integer of 2 or more, and one direct sound and Q-1 reflected sound (hereinafter referred to as the direct sound) are different from the direct sound. Each of the one direct sound and the Q-1 reflected sound, which is different from the direct sound, is referred to as Q sound signals) in the direction of voice arrival of the Q sound signals viewed from the microphone array. , for the M each said microphone, as represented by multiplying the complex amplitude to the transfer characteristic function for each frequency, the Q-number specified by the Q template selected from among the templates The voice arrival direction is set as the initial direction of each of the Q audio signals, the complex amplitude corresponding to each initial direction is determined as the initial amplitude, and the Q different initial directions and the Q initial amplitudes are used as starting points. residual signal obtained by subtracting the Q-number of audio signals corresponding to the number of the voice incoming direction from the observed signal (hereinafter, referred to as the residual signal after bulk removal) Q pieces of the audio arrives as the power of the smaller by performing the correction of the direction of correction and the Q of the complex amplitude, the Q of Q the sound arrival direction and the Q of the reflected sound Ru estimation Teisu collectively the complex amplitudes corresponding to the audio signal reflection sound information estimating apparatus including <br/> information estimation unit.
上記反射音情報推定部は、
Q個の上記音声到来方向の補正を行う音声到来方向補正処理とQ個の上記複素振幅の補正を行う複素振幅補正処理を交互に所定回数反復して行うことにより、Q個の音声信号それぞれに対応するQ個の上記音声到来方向およびQ個の上記複素振幅を一括して推定するものであり、
qを1以上Q以下の各整数とし、
上記音声到来方向補正処理では、
各qについて、上記一括除去後残差信号にq番目の音声信号(ただし、初めての上記音声到来方向補正処理では、当該q番目の音声信号は、当該q番目の音声信号の上記初期方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に当該q番目の音声信号の上記初期振幅を乗じて表され、2回目以降の上記音声到来方向補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に、直前の上記複素振幅補正処理で得られた当該q番目の音声信号の上記複素振幅を乗じて表される)を加えて得られる信号、のパワーが小さくなるようにq番目の上記音声到来方向の補正を行い、
上記複素振幅補正処理では、
各qについて、上記一括除去後残差信号にq番目の音声信号(ただし、初めての上記複素振幅補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に当該q番目の音声信号の上記初期振幅を乗じて表され、2回目以降の上記複素振幅補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に、直前の上記複素振幅補正処理で得られた当該q番目の音声信号の上記複素振幅を乗じて表される)を加えて得られる信号、のパワーが小さくなるようにq番目の上記複素振幅の補正を行う
ことを特徴とする反射音情報推定装置。 The reflected sound information estimation apparatus according to claim 1 ,
The reflected sound information estimation unit
A voice arrival direction correction process for correcting the Q voice arrival directions and a complex amplitude correction process for correcting the Q complex amplitudes are alternately and repeatedly performed a predetermined number of times. The corresponding Q speech arrival directions and Q complex amplitudes are estimated collectively,
q is an integer between 1 and Q,
In the voice arrival direction correction process,
For each q , the q-th speech signal is added to the residual signal after batch removal (however, in the first speech arrival direction correction processing, the q-th speech signal is the initial direction of the q-th speech signal, For each of the M microphones, the transfer characteristic function for each frequency is multiplied by the initial amplitude of the q-th audio signal. In the second and subsequent voice arrival direction correction processes, the q-th audio signal Is the immediately preceding complex amplitude correction in the transfer characteristic function for each of the M microphones in the speech arrival direction of the q-th speech signal obtained in the immediately preceding speech arrival direction correction process. The q-th speech arrival direction is corrected so that the power of the signal obtained by adding the complex amplitude of the q-th speech signal obtained by the processing) is reduced ,
In the complex amplitude correction process,
For each q, the q-th speech signal is added to the residual signal after collective removal (however, in the first complex amplitude correction process, the q-th speech signal is obtained by the previous speech arrival direction correction process). Expressed by multiplying the transfer characteristic function for each of the M microphones in the voice arrival direction of the q-th audio signal by the initial amplitude of the q-th audio signal by the transfer characteristic function for each frequency. In the amplitude correction process, the q-th audio signal is the frequency-specific value for each of the M microphones in the audio arrival direction of the q-th audio signal obtained in the immediately preceding audio arrival direction correction process. the transfer characteristic function, as shortly before the complex amplitude correction process the q-th audio signal of the represented by multiplying the complex amplitude) was added to obtain a signal obtained by, the power is reduced q Eye reflection sound information estimating apparatus characterized by performing the correction of the complex amplitude.
上記反射音情報推定部は、pを1以上P以下の各整数として、
(1)各pについて、p番目のテンプレートにp番目の複素振幅(以下、仮想振幅という)を乗じたものを上記観測信号から減じて得られるp番目の残差信号のパワーが最小になるように当該p番目の仮想振幅を決定し、この結果得られたP個の仮想振幅のうちその大きさに関して上位Q個の仮想振幅それぞれが乗ぜられたQ個のテンプレートに対応するQ個の音声到来方向をQ個の上記初期方向とし、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定装置。 In the reflected sound information estimation device according to claim 2,
The reflected sound information estimation unit sets p as an integer between 1 and P,
(1) For each p, the power of the p-th residual signal obtained by subtracting the p-th template multiplied by the p-th complex amplitude (hereinafter referred to as virtual amplitude) from the observed signal is minimized. P-th virtual amplitude is determined, and among the P virtual amplitudes obtained as a result, Q speech arrivals corresponding to Q templates each multiplied by the top Q virtual amplitudes with respect to the magnitude are obtained. Let the direction be the Q initial directions,
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記反射音情報推定部は、
(1)qの昇順に各qについて、複素振幅を求める第1処理とテンプレートのインデックスを求める第2処理を行うことにより、Q個の上記初期方向を決定する処理であって、当該第1処理では、pは、全てのテンプレートのインデックスの集合から上記第2処理で決定されたテンプレートのインデックスを除いた集合に含まれる各インデックスを表すとして、各pについて、p番目のテンプレートにp番目の複素振幅(以下、仮想振幅という)を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるようにp番目の仮想振幅を決定し、上記第2処理では、上記第1処理で得られた仮想振幅のうち最大の仮想振幅が乗ぜられたテンプレートのインデックスを特定し、当該テンプレートに対応する音声到来方向をq番目の上記初期方向とすることにより、Q個の上記初期方向を決定し、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定装置。 In the reflected sound information estimation device according to claim 2,
The reflected sound information estimation unit
(1) A process for determining Q initial directions by performing a first process for obtaining a complex amplitude and a second process for obtaining a template index for each q in ascending order of q. Then, p represents each index included in the set obtained by excluding the template index determined in the second process from the set of all template indexes, and for each p, the pth complex is added to the pth template. The q + 1th residual signal obtained by subtracting the product of the amplitude (hereinafter referred to as virtual amplitude) from the qth minimum residual signal (where the first minimum residual signal is the observed signal). The p-th virtual amplitude is determined such that the power of the first virtual amplitude is minimized, and in the second process, the template obtained by multiplying the virtual amplitude obtained by the first process is multiplied Identify the index of the over bets, a voice arrival direction corresponding to the template by the q-th of the initial direction, to determine the Q-number of the initial direction,
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記反射音情報推定部は、
各上記テンプレートに対応する上記音声到来方向の集合から偏りが無いように且つ疎らになるように選択された音声到来方向からなる真部分集合Ψを決定し、真部分集合Ψの濃度を|Ψ|、Q≦|Ψ|、xは真部分集合Ψに含まれる音声到来方向に対応するテンプレートの各インデックスを表すとして、
(1)各xについて、x番目のテンプレートにx番目の複素振幅(以下、仮想振幅という)を乗じたものを上記観測信号から減じて得られるx番目の残差信号のパワーが最小になるように当該x番目の仮想振幅を決定し、この結果得られた仮想振幅のうちその大きさに関して上位Q個の仮想振幅それぞれが乗ぜられたQ個のテンプレートに対応するQ個の音声到来方向をQ個の上記初期方向とし、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定装置。 In the reflected sound information estimation device according to claim 2,
The reflected sound information estimation unit
Determine the true subset Ψ of the voice arrival directions selected so as to be unbiased and sparse from the set of voice arrival directions corresponding to each of the templates, and set the concentration of the true subset Ψ to | Ψ | , Q ≦ | Ψ |, x represents each index of the template corresponding to the voice arrival direction included in the true subset Ψ,
(1) For each x, the power of the xth residual signal obtained by subtracting the xth template multiplied by the xth complex amplitude (hereinafter referred to as virtual amplitude) from the observed signal is minimized. The x-th virtual amplitude is determined for Q, and Q voice arrival directions corresponding to Q templates each of which is multiplied by the top Q virtual amplitudes with respect to the magnitude of the obtained virtual amplitude are defined as Q. And the above initial direction
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記パワーはそれぞれ、全ての上記周波数に亘って加算して得られたパワーである
ことを特徴とする反射音情報推定装置。 In the reflected sound information estimation device according to any one of claims 1 to 5 ,
Each of the powers is a power obtained by adding over all the frequencies, and the reflected sound information estimation device.
周波数をω、周波数ωの集合をΩ、iを虚数単位、cを音速、p番目の位置[xp,yp,zp]とm番目(1≦m≦M)のマイクロホンが配置される位置[um,vm,wm]との間の伝達特性をSpm(ω)、ただし
として、各上記テンプレートSp(ω)={Sp1(ω),…,SpM(ω)}(ω∈Ω)を生成するテンプレート生成部を
さらに含むことを特徴とする反射音情報推定装置。 In the reflected sound information estimation device according to any one of claims 1 to 6 ,
Ω is the frequency, Ω is the set of frequencies ω, i is the imaginary unit, c is the speed of sound, the p th position [x p , y p , z p ] and the m th (1 ≦ m ≦ M) microphone are arranged. S pm (ω), the transfer characteristic between positions [u m , v m , w m ], where
As described above, the reflected sound information estimation device further includes a template generation unit that generates each of the templates S p (ω) = {S p1 (ω),..., S pM (ω)} (ω∈Ω ). .
反射音情報推定部が、一つの音源から発せられ上記マイクロホンアレーへ複数の方向(以下、音声到来方向という)から到来する音声信号をM個の上記マイクロホンで収音して得られるM個の収音信号がそれぞれ周波数領域に変換された信号(以下、観測信号という)を用い、Qを2以上の予め定められた整数として、1個の直接音と上記直接音とは相異なるQ−1個の反射音(以下、上記1個の直接音と上記直接音とは相異なるQ−1個の反射音を合わせてQ個の音声信号という)はそれぞれ、上記マイクロホンアレーから見たQ個の音声信号の音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に複素振幅を乗じて表されるものとして、上記テンプレートの中から選択されたQ個のテンプレートにより特定されるQ個の音声到来方向をQ個の音声信号それぞれの初期方向とし、各初期方向に対応する複素振幅を初期振幅として決定し、Q個の当該初期方向とQ個の当該初期振幅を起点として、相異なるQ個の上記音声到来方向に対応するQ個の音声信号を上記観測信号から減じて得られる残差信号(以下、一括除去後残差信号という)のパワーが小さくになるようにQ個の上記音声到来方向の補正とQ個の上記複素振幅の補正とを行うことにより、Q個の音声信号に対応するQ個の上記音声到来方向およびQ個の上記複素振幅を一括して推定する反射音情報推定過程
を有する反射音情報推定方法。 In the storage unit, there are P directions (where P is an integer greater than or equal to 2) as viewed from a microphone array including M (where M is an integer greater than or equal to 4) microphones. For each of the M microphones, a function that simulates a transfer characteristic for each frequency (hereinafter referred to as a transfer characteristic function) is stored as a template.
Reflection sound information estimation unit, one of the emitted plurality of directions into the microphone array from the sound source (hereinafter, referred to as voice arrival direction) of the M obtained audio signal coming from the sound pickup by M the microphone yield Each sound signal is converted into a frequency domain (hereinafter referred to as an observation signal), and Q is a predetermined integer of 2 or more. One direct sound is different from the above direct sound by Q−1. Each of the reflected sounds of Q (hereinafter referred to as Q sound signals by combining Q-1 reflected sounds that are different from the one direct sound and the direct sound) is Q sounds as viewed from the microphone array. voice arrival direction of the signal, for the M each said microphone, as represented by multiplying the complex amplitude to the transfer characteristic function for each frequency, the Q-number of template selected from among the templates The Q voice arrival directions specified are set as the initial directions of the Q voice signals, the complex amplitude corresponding to each initial direction is determined as the initial amplitude, and the Q initial directions and the Q initial amplitudes are determined. as a starting point, the different Q-number of the voice incoming corresponds to the direction the Q audio signal a residual signal obtained by subtracting from the observed signal (hereinafter, referred to as the residual signal after bulk removal) so that the power of the will decrease Q correction of the voice arrival direction and Q correction of the complex amplitude are performed at the same time, so that the Q voice arrival directions and the Q complex amplitudes corresponding to the Q voice signals are collectively obtained. reflection sound information estimation method having the estimated Teisu Ru reflection sound information estimation process Te.
上記反射音情報推定過程では、
Q個の上記音声到来方向の補正を行う音声到来方向補正処理とQ個の上記複素振幅の補正を行う複素振幅補正処理が交互に所定回数反復して行われることにより、Q個の音声信号それぞれに対応するQ個の上記音声到来方向およびQ個の上記複素振幅が一括して推定され、
qを1以上Q以下の各整数とし、
上記音声到来方向補正処理では、
各qについて、上記一括除去後残差信号にq番目の音声信号(ただし、初めての上記音声到来方向補正処理では、当該q番目の音声信号は、当該q番目の音声信号の上記初期方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に当該q番目の音声信号の上記初期振幅を乗じて表され、2回目以降の上記音声到来方向補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に、直前の上記複素振幅補正処理で得られた当該q番目の音声信号の上記複素振幅を乗じて表される)を加えて得られる信号、のパワーが小さくなるようにq番目の上記音声到来方向の補正が行われ、
上記複素振幅補正処理では、
各qについて、上記一括除去後残差信号にq番目の音声信号(ただし、初めての上記複素振幅補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に当該q番目の音声信号の上記初期振幅を乗じて表され、2回目以降の上記複素振幅補正処理では、当該q番目の音声信号は、直前の上記音声到来方向補正処理で得られた当該q番目の音声信号の上記音声到来方向の、M個の各上記マイクロホンに対する、周波数ごとの上記伝達特性関数に、直前の上記複素振幅補正処理で得られた当該q番目の音声信号の上記複素振幅を乗じて表される)を加えて得られる信号、のパワーが小さくなるようにq番目の上記複素振幅の補正が行われる
ことを特徴とする反射音情報推定方法。 The reflected sound information estimation method according to claim 8 ,
In the reflected sound information estimation process,
A voice arrival direction correction process for correcting the Q voice arrival directions and a complex amplitude correction process for correcting the Q complex amplitudes are alternately and repeatedly performed a predetermined number of times, thereby each of the Q voice signals. Q speech arrival directions and Q complex amplitudes corresponding to are collectively estimated,
q is an integer between 1 and Q,
In the voice arrival direction correction process,
For each q , the q-th speech signal is added to the residual signal after batch removal (however, in the first speech arrival direction correction processing, the q-th speech signal is the initial direction of the q-th speech signal, For each of the M microphones, the transfer characteristic function for each frequency is multiplied by the initial amplitude of the q-th audio signal. In the second and subsequent voice arrival direction correction processes, the q-th audio signal Is the immediately preceding complex amplitude correction in the transfer characteristic function for each of the M microphones in the speech arrival direction of the q-th speech signal obtained in the immediately preceding speech arrival direction correction process. the q-th audio signal of the represented by multiplying the complex amplitude) was added resulting signals obtained in the process, the power of the q-th said sound arrival direction so as to reduce the correction performed
In the complex amplitude correction process,
For each q, the q-th speech signal is added to the residual signal after collective removal (however, in the first complex amplitude correction process, the q-th speech signal is obtained by the previous speech arrival direction correction process). Expressed by multiplying the transfer characteristic function for each of the M microphones in the voice arrival direction of the q-th audio signal by the initial amplitude of the q-th audio signal by the transfer characteristic function for each frequency. In the amplitude correction process, the q-th audio signal is the frequency-specific value for each of the M microphones in the audio arrival direction of the q-th audio signal obtained in the immediately preceding audio arrival direction correction process. the transfer characteristic function, as shortly before the complex amplitude correction process the q-th audio signal of the represented by multiplying the complex amplitude) was added to obtain a signal obtained by, the power is reduced q Reflection sound information estimating method comprising <br/> that eye correction of the complex amplitude is performed.
上記反射音情報推定過程では、pを1以上P以下の各整数として、
(1)各pについて、p番目のテンプレートにp番目の複素振幅(以下、仮想振幅という)を乗じたものを上記観測信号から減じて得られるp番目の残差信号のパワーが最小になるように当該p番目の仮想振幅を決定し、この結果得られたP個の仮想振幅のうちその大きさに関して上位Q個の仮想振幅それぞれが乗ぜられたQ個のテンプレートに対応するQ個の音声到来方向をQ個の上記初期方向とし、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定方法。 In the reflected sound information estimation method according to claim 9,
In the reflected sound information estimation process, p is an integer between 1 and P,
(1) For each p, the power of the p-th residual signal obtained by subtracting the p-th template multiplied by the p-th complex amplitude (hereinafter referred to as virtual amplitude) from the observed signal is minimized. P-th virtual amplitude is determined, and among the P virtual amplitudes obtained as a result, Q speech arrivals corresponding to Q templates each multiplied by the top Q virtual amplitudes with respect to the magnitude are obtained. Let the direction be the Q initial directions,
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記反射音情報推定過程では、
(1)qの昇順に各qについて、複素振幅を求める第1処理とテンプレートのインデックスを求める第2処理を行うことにより、Q個の上記初期方向を決定する処理であって、当該第1処理では、pは、全てのテンプレートのインデックスの集合から上記第2処理で決定されたテンプレートのインデックスを除いた集合に含まれる各インデックスを表すとして、各pについて、p番目のテンプレートにp番目の複素振幅(以下、仮想振幅という)を乗じたものをq番目の最小の残差信号(ただし、1番目の最小の残差信号は上記観測信号とする)から減じて得られるq+1番目の残差信号のパワーが最小になるようにp番目の仮想振幅を決定し、上記第2処理では、上記第1処理で得られた仮想振幅のうち最大の仮想振幅が乗ぜられたテンプレートのインデックスを特定し、当該テンプレートに対応する音声到来方向をq番目の上記初期方向とすることにより、Q個の上記初期方向を決定し、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定方法。 In the reflected sound information estimation method according to claim 9,
In the reflected sound information estimation process,
(1) A process for determining Q initial directions by performing a first process for obtaining a complex amplitude and a second process for obtaining a template index for each q in ascending order of q. Then, p represents each index included in the set obtained by excluding the template index determined in the second process from the set of all template indexes, and for each p, the pth complex is added to the pth template. The q + 1th residual signal obtained by subtracting the product of the amplitude (hereinafter referred to as virtual amplitude) from the qth minimum residual signal (where the first minimum residual signal is the observed signal). The p-th virtual amplitude is determined such that the power of the first virtual amplitude is minimized, and in the second process, the template obtained by multiplying the virtual amplitude obtained by the first process is multiplied Identify the index of the over bets, a voice arrival direction corresponding to the template by the q-th of the initial direction, to determine the Q-number of the initial direction,
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記反射音情報推定過程では、
各上記テンプレートに対応する上記音声到来方向の集合から偏りが無いように且つ疎らになるように選択された音声到来方向からなる真部分集合Ψを決定し、真部分集合Ψの濃度を|Ψ|、Q≦|Ψ|、xは真部分集合Ψに含まれる音声到来方向に対応するテンプレートの各インデックスを表すとして、
(1)各xについて、x番目のテンプレートにx番目の複素振幅(以下、仮想振幅という)を乗じたものを上記観測信号から減じて得られるx番目の残差信号のパワーが最小になるように当該x番目の仮想振幅を決定し、この結果得られた仮想振幅のうちその大きさに関して上位Q個の仮想振幅それぞれが乗ぜられたQ個のテンプレートに対応するQ個の音声到来方向をQ個の上記初期方向とし、
(2)qを1以上Q以下の各整数として、q番目の上記初期方向に対応して定まる上記一括除去後残差信号のパワーが最小になるように当該q番目の仮想振幅を決定し、これらQ個の仮想振幅をQ個の上記初期振幅とする
ことを特徴とする反射音情報推定方法。 In the reflected sound information estimation method according to claim 9,
In the reflected sound information estimation process,
Determine the true subset Ψ of the voice arrival directions selected so as to be unbiased and sparse from the set of voice arrival directions corresponding to each of the templates, and set the concentration of the true subset Ψ to | Ψ | , Q ≦ | Ψ |, x represents each index of the template corresponding to the voice arrival direction included in the true subset Ψ,
(1) For each x, the power of the xth residual signal obtained by subtracting the xth template multiplied by the xth complex amplitude (hereinafter referred to as virtual amplitude) from the observed signal is minimized. The x-th virtual amplitude is determined for Q, and Q voice arrival directions corresponding to Q templates each of which is multiplied by the top Q virtual amplitudes with respect to the magnitude of the obtained virtual amplitude are defined as Q. And the above initial direction
(2) q as each integer of 1 or more Q or less, q-th of the initial direction to the q-th virtual amplitude so that the power becomes a minimum above Symbol removed together after remaining No. Sashin that Sadama corresponding And the Q virtual amplitudes are set as the Q initial amplitudes.
上記パワーはそれぞれ、全ての上記周波数に亘って加算して得られたパワーである
ことを特徴とする反射音情報推定方法。 In the reflected sound information estimation method according to any one of claims 8 to 12 ,
The reflected sound information estimation method, wherein each of the powers is a power obtained by adding over all the frequencies.
テンプレート生成部が、周波数をω、周波数ωの集合をΩ、iを虚数単位、cを音速、p番目の位置[xp,yp,zp]とm番目(1≦m≦M)のマイクロホンが配置される位置[um,vm,wm]との間の伝達特性をSpm(ω)、ただし
として、各上記テンプレートSp(ω)={Sp1(ω),…,SpM(ω)}(ω∈Ω)を生成するテンプレート生成過程を
さらに有することを特徴とする反射音情報推定方法。 In the reflected sound information estimation method according to any one of claims 8 to 13 ,
The template generation unit sets ω as the frequency, Ω as the set of frequencies ω, i as the imaginary unit, c as the speed of sound, p-th position [x p , y p , z p ] and m-th (1 ≦ m ≦ M) S pm (ω) is the transfer characteristic between the microphone location [u m , v m , w m ], where
The method for estimating reflected sound information further includes a template generation process for generating each of the templates S p (ω) = {S p1 (ω),..., S pM (ω)} (ω∈Ω ). .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010176017A JP5216056B2 (en) | 2010-08-05 | 2010-08-05 | Reflected sound information estimation apparatus, reflected sound information estimation method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010176017A JP5216056B2 (en) | 2010-08-05 | 2010-08-05 | Reflected sound information estimation apparatus, reflected sound information estimation method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012037639A JP2012037639A (en) | 2012-02-23 |
JP5216056B2 true JP5216056B2 (en) | 2013-06-19 |
Family
ID=45849716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010176017A Active JP5216056B2 (en) | 2010-08-05 | 2010-08-05 | Reflected sound information estimation apparatus, reflected sound information estimation method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5216056B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3572594B2 (en) * | 1995-07-05 | 2004-10-06 | 晴夫 浜田 | Signal source search method and apparatus |
-
2010
- 2010-08-05 JP JP2010176017A patent/JP5216056B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012037639A (en) | 2012-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6458738B2 (en) | Sound field reproduction apparatus and method, and program | |
JP5693201B2 (en) | Method and apparatus for reproducing propagation sound from specified area | |
CN106165444B (en) | Sound field reproduction apparatus, methods and procedures | |
CN103583054A (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
Landschoot et al. | Model-based Bayesian direction of arrival analysis for sound sources using a spherical microphone array | |
US20190052957A1 (en) | Microphone probe, method, system and computer program product for audio signals processing | |
CN111489753A (en) | Anti-noise sound source positioning method and device and computer equipment | |
Saksela et al. | Optimization of absorption placement using geometrical acoustic models and least squares | |
JP5172909B2 (en) | Reflected sound information estimation apparatus, reflected sound information estimation method, program | |
Svensson | Modelling acoustic spaces for audio virtual reality | |
JP5285665B2 (en) | Reflected sound information estimation apparatus, reflected sound information estimation method, program | |
Georgiou et al. | Incorporating directivity in the Fourier pseudospectral time-domain method using spherical harmonics | |
JP5660665B2 (en) | Reflected sound information estimation apparatus, reflected sound information estimation method, program | |
JP5216056B2 (en) | Reflected sound information estimation apparatus, reflected sound information estimation method, program | |
JP2018077139A (en) | Sound field estimation device, sound field estimation method and program | |
Maestre et al. | State-space modeling of sound source directivity: An experimental study of the violin and the clarinet | |
JP6294805B2 (en) | Sound collector | |
JP5337189B2 (en) | Reflector arrangement determination method, apparatus, and program for filter design | |
Sanalatii et al. | Estimation of loudspeaker frequency response and directivity using the radiation-mode method | |
Xydis et al. | GIR dataset: A geometry and real impulse response dataset for machine learning research in acoustics | |
Bilbao et al. | Directional reverberation time and the image source method for rectangular parallelepipedal rooms | |
Maestre et al. | Creating virtual acoustic replicas of real violins | |
JP6917823B2 (en) | Acoustic simulation methods, equipment, and programs | |
Wang et al. | Hearing Anything Anywhere | |
Fan et al. | Practical implementation and analysis of spatial soundfield capture by higher order microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5216056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |