JP6139429B2 - Signal processing apparatus, method and program - Google Patents
Signal processing apparatus, method and program Download PDFInfo
- Publication number
- JP6139429B2 JP6139429B2 JP2014025196A JP2014025196A JP6139429B2 JP 6139429 B2 JP6139429 B2 JP 6139429B2 JP 2014025196 A JP2014025196 A JP 2014025196A JP 2014025196 A JP2014025196 A JP 2014025196A JP 6139429 B2 JP6139429 B2 JP 6139429B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- signal
- likelihood
- input signal
- case model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
この発明は、音声信号、音響信号等の信号を処理するための技術に関する。 The present invention relates to a technique for processing a signal such as an audio signal or an acoustic signal.
雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み(雑音や残響)が重畳された信号が観測される。音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫が必要である。 When an acoustic signal is collected in an environment with noise or reverberation, a signal in which acoustic distortion (noise or reverberation) is superimposed on the original signal is observed. When the acoustic signal is speech, the clarity of speech is greatly reduced due to the effect of superimposed acoustic distortion. As a result, it becomes difficult to extract the nature of the original speech signal, and for example, the recognition rate of the speech recognition system decreases. In order to prevent this decrease in the recognition rate, it is necessary to devise a method for removing the superimposed acoustic distortion.
そこで、以下に述べる従来の信号処理装置が提案されている。なお、この信号処理装置は、音声認識の他にも、例えば、補聴器、TV会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。 Therefore, a conventional signal processing apparatus described below has been proposed. In addition to voice recognition, this signal processing device can be used for, for example, a hearing aid, a TV conference system, a machine control interface, a music information processing system for searching for music, and recording music.
[信号処理装置]
図1に従来の信号処理装置の機能構成例を示して、その動作を簡単に説明する。信号処理装置は、フーリエ変換部101と、特徴量生成部102と、マッチング部103と、音声強調フィルタリング部104と、事例モデル記憶部105とを備えている。
[Signal processing equipment]
FIG. 1 shows a functional configuration example of a conventional signal processing apparatus, and its operation will be briefly described. The signal processing apparatus includes a Fourier
フーリエ変換部101には、雑音/残響を含む音声が入力信号として入力される。入力信号は例えば30ms程度の短時間ハミング窓で窓かけされ、窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される(ステップS1,図2)。振幅スペクトルとは、周波数スペクトルの振幅データのことである。振幅スペクトルは、特徴量生成部102及び音声強調フィルタリング部104に提供される。
Voice including noise / reverberation is input to the Fourier
特徴量生成部102は、フーリエ変換部101が出力する振幅スペクトルの全てを、例えばメルケプストラム特徴量に変換する(ステップS2,図2)。一般的に広く使われているメルケプストラムは高々10〜20次程度であるが、事例データを正確に表すために、高い次数(例えば、30〜100次程度)のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。生成された特徴量は、マッチング部103に提供される。
The feature
事例モデル記憶部105には、事例に対応したクリーン音声のデータと、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)である事例モデルMとが記憶されている。事例に対応したクリーン音声のデータとは、例えば事例に対応したクリーン音声の振幅スペクトルのことである。事例モデルMに含まれるセグメントの例を図3に示す。各セルはi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合分布g中のガウス分布のインデックスmiを表す。事例モデルは、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ(雑音信号の波形や、室内インパルス応答)とを用い、さまざま
な環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル生成装置によって生成され、予め事例モデル記憶部105に記憶される。この事例モデル生成装置の詳細については、後述する。
The case
マッチング部103は、入力信号の特徴量と事例モデル記憶部105内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例モデル中のセグメントを探索する(ステップS3,図2)。探索により見つかった入力信号に一番近い事例モデル中のセグメントについての情報は、音声強調フィルタリング部104に提供される。マッチング部103の詳細については、後述する。
The matching
音声強調フィルタリング部104は、マッチング部103で探索した入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、作成されたフィルタを用いて入力信号をフィルタリングする(ステップS4,図2)。入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルは、事例モデル記憶部105から読み込んだものを用いる。音声強調フィルタリング部104の詳細については、例えば非特許文献1及び特許文献1を参照のこと。
The speech
この信号処理装置によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。 According to this signal processing apparatus, it has been reported that it is possible to remove noise that has been difficult in the past and has a very large time variation. The noise having a very large time change is a noise such as an alarm sound of an alarm clock with respect to the background noise.
[事例モデル生成装置]
ここで、事例モデル記憶部105に記憶される事例モデルを生成する事例モデル生成装置について説明する。図4に、事例モデル生成装置の機能構成例を示す。事例モデル生成装置は、フーリエ変換部201と、特徴量生成部202と、ガウス混合モデル学習部203と、最尤ガウス分布計算部204とを備えている。
[Case model generator]
Here, a case model generation apparatus that generates a case model stored in the case
事例モデル生成装置の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。 The function of each part of the case model generation apparatus is realized by, for example, a predetermined program being read into a computer including a ROM, a RAM, a CPU, and the like, and the CPU executing the program.
事例モデル生成装置への入力は、様々な雑音/残響環境の音声データである。なお、この様々な雑音/残響環境の音声データの中には、クリーン環境の音声データが含まれているとする。この様々な雑音/残響環境の音声データのそれぞれについて以下の処理が行われる
フーリエ変換部201及び特徴量生成部202は、それぞれ図1のフーリエ変換部101及び特徴量生成部102と同様であるため、重複説明を省略する。
The input to the case model generator is speech data of various noise / reverberation environments. It is assumed that the sound data of various noise / reverberation environments includes the sound data of clean environments. The following processing is performed for each of the audio data of various noise / reverberation environments, because the Fourier
ガウス混合モデル学習部203は、特徴量生成部202で得られた各短時間フレームtでの特徴量xiを学習データとして、通常の最尤推定法によりガウス混合モデルgを得る。ガウス混合モデルgは、以下の式により示される。
Gaussian mixture model learning unit 203, a feature amount x i the learning data in each short time frame t obtained by the feature
g(xi|m)は、平均μm、分散Σmを持つm番目のガウス分布を表す。g(xi|m)は、多くの場合多次元ガウス分布であり、その次元数は特徴量xiの次元数と同じである。g(xi|m)が多次元ガウス分布である場合、平均μm及び分散Σmのそれぞれはベクトルとなる。ここでは、g(xi|m)が多次元ガウス分布であったとしても、記載の簡略化のためg(xi|m)のことを単にガウス分布と表現する。w(m)は、m番目のガウス分布に対する混合重みを表す。Qは混合数を表す。Qには、例えば、4096や8192など、かなり大きな値を設定する。 g (x i | m) represents the m-th Gaussian distribution having mean μ m and variance Σ m . In many cases, g (x i | m) is a multidimensional Gaussian distribution, and the number of dimensions is the same as the number of dimensions of the feature quantity x i . When g (x i | m) is a multidimensional Gaussian distribution, each of the mean μ m and the variance Σ m is a vector. Here, even if g (x i | m) is a multidimensional Gaussian distribution, g (x i | m) is simply expressed as a Gaussian distribution for simplification of the description. w (m) represents the mixing weight for the mth Gaussian distribution. Q represents the number of mixtures. For Q, for example, a fairly large value such as 4096 or 8192 is set.
最尤ガウス分布計算部204は、各時間フレームiに対して最大の尤度を与えるガウス混合分布gの中のガウス分布のインデックスmiを求め、そのインデックスmiの時間系列を事例モデルMとして求める。事例モデルMは、ガウス分布のインデックスmiの集合とガウス混合モデルgを用いて以下の式に示すように表される。
Maximum likelihood Gaussian
ここで、miは、i番目のフレームの特徴量xiに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布mの中のガウス分布g(xi|m)を表している。Iは学習データの総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×105となる。生成された事例モデルMは、事例モデル記憶部105(図1)に記憶される。この事例モデルの生成は、様々な雑音/残響環境の学習データのそれぞれに対して行われる。 Here, m i is the index of the Gaussian distribution that gives the maximum likelihood for the feature amount x i of i-th frame, Gaussian g in Gaussian mixture m | represents the (x i m) ing. I represents the total number of frames of learning data. For example, assuming 1 hour of learning data, I = 3.5 × 10 5 . The generated case model M is stored in the case model storage unit 105 (FIG. 1). This case model is generated for each learning data of various noise / reverberation environments.
なお、環境がクリーンの場合は、フーリエ変換部201から出力された振幅スペクトルデータも事例モデル記憶部105(図1)に記憶される。
If the environment is clean, the amplitude spectrum data output from the Fourier
[マッチング部103の具体処理]
ここで、マッチング部103における処理を詳述する。簡単のためあるひとつの雑音/残響環境の事例モデルMのみを考える。また、簡単のため入力信号の特徴量系列と学習データセグメントのマッチングの際の時間伸縮は考えないものとする。マッチング部103は、入力信号の特徴量ytと事例モデルMとを用いて、入力信号の特徴量系列に最も近い学習データのセグメントを探索し、入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与えると思われる学習データセグメントMt u:u+τmaxを出力する。
[Specific Processing of Matching Unit 103]
Here, the processing in the matching
入力信号は、T個の時間フレームから成るとし、その入力信号の特徴量系列をy={yt:t=1,2,…,T}とする。また、yt:t+τを入力信号の特徴量の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,mi:i=u,u+1,…,u+τ}を、学習データの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。 Assume that the input signal is composed of T time frames, and the feature quantity sequence of the input signal is y = {y t : t = 1, 2,..., T}. Also, let yt: t + τ be a sequence from the time frame t to t + τ of the feature quantity of the input signal. Then, M u: u + τ = {g, m i : i = u, u + 1,..., U + τ} is a Gaussian distribution sequence corresponding to continuous time frames from u-th to u + τ-th in the learning data.
入力信号の特徴量系列yt:t+τと学習データの中のあるセグメントとの距離の定義や、入力信号の特徴量系列yt:t+τと一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号の特徴量系列に対する一番近い学習データセグメントは、入力信号の特徴量系列に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い学習データセグメントMt u:u+τは、次式に示す事後確率を最大化することで求めることが出来る。 Feature amount sequence y t of the input signal: definition and of the distance between a segment in the t + tau training data, feature amount sequence y t of the input signal: a method of searching for t + tau and closest training data, Euclidean distance, etc. You can think of several other ways. Here, it is assumed that the learning data segment closest to the feature quantity sequence of the input signal has the longest length among learning data segments that closely match the feature quantity series of the input signal. In other words, the closest training data segments M t u the feature amount sequence of the input signal: u + tau can be determined by maximizing a posterior probability shown in the following equation.
ここで、p(Mu:u+τ|yt:t+τ)は事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。この特徴の証明は、非特許文献1に詳述されている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。
Here, p (M u: u + τ | y t: t + τ ) represents the posterior probability, and when y t: t + τ and M u: u + τ are relatively well matched, τ is The longer it is, the higher the posterior probability is. The proof of this feature is described in detail in
式(2)の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する学習データセグメントに対するyt:t+τの尤度である。その尤度は次式で計算される。 The numerator term p (y t: t + τ | M u: u + τ ) in equation (2) is the likelihood of y t: t + τ for the training data segment corresponding to M u: u + τ. . The likelihood is calculated by the following equation.
簡単のため、隣り合うフレームは独立であることを仮定している。式(2)の分母の第1項は、学習データ中のあらゆる時間フレームu’を開始点として,p(yt:t+τ|Mu’:u’+τ)の和を取ったものである。式(2)の分母の第2項は、ガウス混合モデルgに対するyt:t+τの尤度であり、次式で計算される。 For simplicity, it is assumed that adjacent frames are independent. The first term of the denominator of Equation (2) is the sum of p (y t: t + τ | M u ′: u ′ + τ ) starting from any time frame u ′ in the learning data. It is. The second term of the denominator of Equation (2) is the likelihood of yt : t + τ for the Gaussian mixture model g, and is calculated by the following equation.
ここでマッチング部103におけるセグメント探索処理の手順を更に具体的に記述する。まず、セグメントの最大長を(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29である。この制限の下で、まず、τ=0、すなわち、セグメント長=1として、式(2)に従い、最大事後確率を与えるセグメント長=1のセグメントを見つける。次にτ=1、すなわち、セグメント長=2として、式(2)に従い、最大事後確率を与えるセグメント長=2のセグメントを見つける。この処理をτ=τlimまで繰り返し、最後に、見つかった異なる長さのセグメント候補の中から,最大事後確率を与えるセグメントを見つける。その最大事後確率を与えるセグメントの長さがτmaxである。
Here, the procedure of the segment search process in the
このマッチング部103におけるセグメント探索処理は、図3に示すような、Iフレーム分のリニアなメモリで表現できる事例モデルM上で行うことができる。
The segment search process in the
従来の信号処理装置では、マッチング部103において、入力信号に一番近いセグメントを探索する際の計算コストが高くなる可能性がある。これはセグメント候補の数を考慮すれば明らかである。例えば、セグメント長=1のセグメント候補は、学習データの総フレーム数のI個あり、上記の通り、高々1時間の学習データであっても、I=3.5×105という膨大な数になる。
In the conventional signal processing apparatus, the
この発明は、従来よりもマッチング部の計算コストを削減した信号処理装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a signal processing apparatus, method, and program in which the calculation cost of the matching unit is reduced as compared with the conventional one.
この発明の一態様による信号処理装置は、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが、各フレームの先頭から少なくとも所定の個数のフレームの部分だけ木構造で表現されて記憶されている事例モデル記憶部と、事例モデル記憶部に記憶されている木構造のルートノードを開始点とする任意の長さのセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を備え、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチングステップにおける事後確率は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、後半部分信号についてガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される。 In the signal processing device according to one aspect of the present invention, a segment that is a series of Gaussian distribution indexes in the Gaussian mixture distribution that gives the maximum likelihood to the feature amount of each frame of a predetermined signal is included in each frame. Case model storage unit expressed and stored in a tree structure for at least a predetermined number of frames from the beginning, and an arbitrary length starting from the root node of the tree structure stored in the case model storage unit And a matching unit that searches for a segment that gives the maximum posterior probability with respect to the feature quantity sequence of the input signal as a candidate, and the first half part when the input signal is divided into two is used as the first half part signal. With the part as the second half signal, the posterior probability in the matching step is based on the segment of the length corresponding to the first half signal for the first half signal. It is expressed using the likelihood that evaluation, the likelihood of the evaluation on the basis of the model by the Gaussian mixture distribution for second half signal Te.
従来よりもマッチング部の計算コストを削減することができる。 The calculation cost of the matching unit can be reduced as compared with the conventional case.
以下、図面を参照して、信号処理装置及び方法の実施形態を説明する。 Hereinafter, embodiments of a signal processing apparatus and method will be described with reference to the drawings.
[第一実施形態]
第一実施形態による信号処理装置は、従来の信号処理装置と同様に、図1に例示するように、フーリエ変換部101と、特徴量生成部102と、マッチング部103と、音声強調フィルタリング部104と、事例モデル記憶部105とを備えている。
[First embodiment]
As illustrated in FIG. 1, the signal processing device according to the first embodiment, like the conventional signal processing device, includes a
以下、従来とは異なる部分である、マッチング部103を中心に説明する。第一実施形態による信号処理装置のフーリエ変換部101と、特徴量生成部102と、音声強調フィルタリング部104とは、それぞれ従来の信号処理装置のフーリエ変換部101と、特徴量生成部102と、音声強調フィルタリング部104と同様であるため、重複説明を省略する。
Hereinafter, the
従来手法にあったマッチング部103におけるセグメント探索の計算コストが高いという問題点を解決するために、この発明では事例モデルに含まれるセグメントの構造化表現を行う。すなわち、セグメントを構造化表現した事例モデルを事例モデル記憶部105に記憶しておく。
In order to solve the problem that the calculation cost of the segment search in the
まず、図3の事例モデルMを、図5に示すように、セグメントの最大長である(τlim+1)フレームで区切って表現する。jを1以上の整数として、図5のセグメントjは、j番目のフレームのセルから(j+τlim+1)番目のフレームのセルにより構成されるセグメントを意味する。 First, as shown in FIG. 5, the case model M in FIG. 3 is expressed by being divided by (τ lim +1) frames, which is the maximum length of the segment. When j is an integer of 1 or more, the segment j in FIG. 5 means a segment constituted by cells of the (j + τ lim +1) th frame from the cell of the jth frame.
図5から分かることは、例えば、セグメント長=1のセグメント候補はI個あるが、実質的な種類はQ個しかないということである。ここで、Qはガウス分布の混合数である。一般に、Q<<Iであり、QはIよりも十分に小さい。よって、計算コストを削減するために、図5の構造を図6のような、セグメント候補の先頭から共有できるノードは共有し、木構造で表現することを考える。 As can be seen from FIG. 5, for example, there are I segment candidates with a segment length = 1, but there are only Q substantial types. Here, Q is the number of mixtures of Gaussian distribution. In general, Q << I, and Q is sufficiently smaller than I. Therefore, in order to reduce the calculation cost, it is considered that the node of FIG. 5 that can be shared from the top of the segment candidates as shown in FIG.
図5では、セグメント長=1の場合は、セグメント2,3,4が同じガウス分布インデックス=7で表現されるため、図6に示すように、これらをひとつのノードで表現する。セグメント2,3は、セグメント長=2でも同じガウス分布インデックス列={7,7}で表現されるため、これらを同じノード列で表現する。このような処理を、全てのセグメント候補に対して、セグメント長=1からセグメント長=τlim+1まで繰り返すことで,セグメントの木構造表現が完成する。このように、事例モデルにおけるセグメントを木構造表現として事例モデル記憶部105に格納しておく。
In FIG. 5, when the segment length = 1, the
言い換えれば、事例モデル記憶部105には、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが、各フレームの先頭から所定の個数τlim+1のフレームの部分だけ木構造で表現されて記憶されているとする。
In other words, in the case
マッチング部103は、木構造表現された事例モデルを参照して、セグメントの探索を行う。この図6のセグメントの木構造表現によれば、セグメント長が短い間は式(3)による尤度計算を共有できるため、図6の構造化をしない場合と比較して、大幅な計算コスト削減が可能となる。
The
例として、セグメント長=1の場合を考える。従来法で図5に例示される事例モデルの探索を行った場合には、セグメント2,3,4の評価において、同じガウス分布インデックス=7の計算を3回行うことになる。実装上は、セグメント2で、最初にガウス分布インデックス=7の計算を行った際に、その値をメモリ上に記憶しておき、セグメント3,4の評価を行う際は記憶した値を参照してもよいが、この参照自体も回数が多ければコストが高くなる。
As an example, consider the case where segment length = 1. When the case model illustrated in FIG. 5 is searched by the conventional method, the same Gaussian distribution index = 7 is calculated three times in the evaluation of the
これに対し、上記のように図6の木構造で表現された事例モデルを用いて探索を行う場合は、ガウス分布インデックス=7の計算を1回行うだけで、セグメント2,3,4の評価が一度に行われることになる。特に、セグメント長=1の場合は、計算回数がIからQに減るので、大幅な計算コスト削減が可能になる。また、ガウス混合モデルg中のガウス分布数のQの数が増えるほど、学習データの量が増えるほど(言い換えれば、フレーム数Iが大きくなるほど)、図6の木構造表現の優位性が高くなる。
On the other hand, when the search is performed using the case model expressed in the tree structure of FIG. 6 as described above, the evaluation of the
言い換えると、従来のマッチング部103では、事例モデルに含まれる任意の長さの部分セグメントを候補として、個別に探索を行っていた。これに対し、この実施形態によるマッチング部103では、木構造表現のルートノードを開始点とする任意の長さのセグメントを候補として探索を行うことにより、探索対象となるセグメントの候補数を削減するものである。そして、各候補について式(2)の事後確率を計算し、事後確率が最大となるセグメントを求める。
In other words, the
このようにして、マッチング部103は、事例モデル記憶部105に記憶されている木構造のルートノードを開始点とする任意の長さのセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索する(ステップS3,図2)。探索された最大事後確率を与えるセグメントについての情報は、音声強調フィルタリング部104に出力される。
In this way, the
これにより、従来よりもマッチング部103の計算コストを削減することができる。よって、従来の方法よりも高速な事例探索が可能になり、結果的に、従来の方法よりも高速に音声強調を行うことが可能になる。
Thereby, the calculation cost of the
(第一実施形態の変形例)
図6のようにセグメント候補を木構造表現することで、マッチング部103におけるセグメント探索の計算コストは大幅に削減できるが、ひとつ問題が生じ得る。それは、木構造表現を行うためには、膨大な量のノードが必要になり、大量のメモリを消費するという問題である。
(Modification of the first embodiment)
By expressing the segment candidates as a tree structure as shown in FIG. 6, the calculation cost of the segment search in the
ここで、セグメント長とセグメントの種類の関係を考えてみる。セグメント長=1の場合は、上記の通りセグメントの種類はQ(Q<<I)である。セグメント長=2の場合は、理論的にはQ2種類のセグメントが存在し得ることになる。実際のセグメント種類はQ2種類より小さくなるが、セグメント長が大きくなるに従い、セグメントの種類が急激に増えていくことは容易に想像できる。例えば、Q=4096の場合、セグメント長が10にもなれば、セグメントの種類はその上限のIとほぼ等しくなる。したがって、木構造表現を導入することによって、計算コストが大幅に削減できるのは、最初の数フレームに限られるということが分かる。 Now consider the relationship between segment length and segment type. When the segment length = 1, the segment type is Q (Q << I) as described above. When the segment length = 2, there are theoretically Q 2 types of segments. The actual segment type is smaller than Q 2 kinds, but according to the segment length increases, the type of segment will rapidly increase can be easily imagined. For example, in the case of Q = 4096, if the segment length becomes 10, the type of segment becomes almost equal to the upper limit I. Therefore, it can be seen that the introduction of the tree structure representation can greatly reduce the calculation cost only in the first few frames.
そこで、第一実施形態の信号処理装置の変形例では、事例モデル記憶部105に記憶する事例モデルのセグメントのうち、最初の数フレームのみ木構造で表現し、それ以降は構造化表現を行なわないこととする。
Therefore, in the modified example of the signal processing apparatus of the first embodiment, only the first few frames of the segment of the case model stored in the case
これにより、最初の数フレーム以降は、従来の尤度計算方法である図3に示すようなIフレーム分のリニアなメモリで表現できる事例モデルM上で行うことになる。これにより、計算コストの削減とメモリ消費量の増加を防ぐという両方を達成することができる。 As a result, the first few frames and thereafter are performed on the case model M that can be expressed by a linear memory for I frames as shown in FIG. 3, which is a conventional likelihood calculation method. As a result, both reduction in calculation cost and prevention of increase in memory consumption can be achieved.
このように、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが、各フレームの先頭から少なくとも所定の個数のフレームの部分だけ木構造で表現されて事例モデル記憶部105に記憶されていてもよい。
In this way, at least a predetermined number of segments from the head of each frame are segments that are sequences of Gaussian distribution indexes in the Gaussian mixture distribution that give the maximum likelihood to the feature amount of each frame of the predetermined signal. Only the frame portion may be expressed in a tree structure and stored in the case
第一実施形態の信号処理装置の変形例の他の部分については、第一実施形態の信号処理装置と同様であるため、重複説明を省略する。 The other parts of the modification of the signal processing device of the first embodiment are the same as those of the signal processing device of the first embodiment, and thus redundant description is omitted.
[第二実施形態]
第二実施形態の信号処理装置は、マッチング部103において、異なるセグメント長のセグメントを、フレームという共通の長さの下で公平に評価することにより、入力信号に一番近いセグメントを探索する。
[Second Embodiment]
In the signal processing apparatus of the second embodiment, the
以下、第一実施形態と異なる部分を中心に説明する。第一実施形態と同様の部分については重複説明を省略する。 Hereinafter, a description will be given centering on differences from the first embodiment. A duplicate description of the same parts as in the first embodiment is omitted.
第二実施形態のマッチング部103では、式(3)の代わりに、所定の長さのフレームの入力信号の特徴量系列yt:t+τの尤度を、事例モデルMとガウス混合モデルgの両方を用いて計算する。すなわち、yt:t+τをyt:t+νとyt+ν+1:t+τに分割して(0≦ν≦τ)、前者をMで、後者をgで、評価する形にする。具体的には入力信号の特徴量系列yt:t+τの尤度は、次式のように計算される。
In the
ここで、p(yt:t+ν|Mu:u+ν)は、事例モデルMu:u+νが与えられたときの入力信号の特徴量系列のyt:t+νの尤度を表す。p(yt+ν+1:t+τ|φu+ν+1:u+τ)は、混合モデルφu+ν+1:u+τが与えられたときの入力信号の特徴量系列yt:t+νの尤度を表す。φu+ν+1:u+τは、フレームu+ν+1からフレームu+τに対応するガウス混合分布である。p(yt:t+ν|Mu:u+ν, φu+ν+1:u+τ)は、事例モデルMu:u+ν及び混合モデルφu+ν+1:u+τが与えられたときの入力信号の特徴量系列yt:t+νの尤度を表す。 Here, p (y t: t + ν | M u: u + ν ) is the likelihood of y t: t + ν of the feature quantity sequence of the input signal when the case model M u: u + ν is given. Represents degrees. p (y t + ν + 1: t + τ | φ u + ν + 1: u + τ ) represents the likelihood of the feature quantity sequence y t: t + ν of the input signal when the mixed model φ u + ν + 1: u + τ is given. φ u + ν + 1: u + τ is a Gaussian mixture distribution corresponding to the frame u + ν + 1 to the frame u + τ. p (y t: t + ν | M u: u + ν , φ u + ν + 1: u + τ ) is a feature quantity sequence of the input signal when the case model M u: u + ν and the mixed model φ u + ν + 1: u + τ are given. y t: represents the likelihood of t + ν .
yt:t+νは、入力信号の特徴量系列yt:t+τのうち事例モデルのセグメントMu:u+νに対応する長さの入力信号の特徴量系列である。言い換えれば、yt:t+νは、フレームtからフレームt+νに対応する入力信号の特徴量系列である。yt+ν+1:t+τは、入力信号の特徴量系列yt:t+τのうち事例モデルのセグメントMu:u+νの長さを超える部分の入力信号の特徴量系列である。言い換えれば、yt+ν+1:t+τは、フレームt+ν+1からフレームt+τに対応する入力信号の特徴量系列である。 y t: t + ν is a feature amount sequence of the input signal having a length corresponding to the segment M u: u + ν of the case model in the feature amount sequence y t: t + τ of the input signal. In other words, yt : t + ν is a feature quantity sequence of the input signal corresponding to the frame t to the frame t + ν. y t + ν + 1: t + τ is the feature amount sequence of the input signal in the portion of the feature amount sequence y t: t + τ of the input signal that exceeds the length of the segment M u: u + ν of the case model. In other words, yt + ν + 1: t + τ is a feature quantity sequence of the input signal corresponding to the frame t + ν + 1 to the frame t + τ.
すなわち、式(5)は、評価対象の入力信号を所定長(ここではτ+1)の入力信号として、評価対象の入力信号の特徴量系列のうち事例モデルに基づいて評価できる部分は事例モデルで尤度p(yt:t+ν|Mu:u+ν)を評価し、事例モデルのセグメントMu:u+νで評価できない(事例モデルのセグメントの長さを超える部分の)評価対象の入力信号の特徴量系列yt+ν+1:t+τについては混合モデルgに基づいて尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)を評価することを意味する。 In other words, Equation (5) is obtained by using the input signal to be evaluated as an input signal having a predetermined length (in this case, τ + 1), and the portion that can be evaluated based on the case model in the feature quantity series of the input signal to be evaluated is the case model. Degree p (y t: t + ν | M u: u + ν ) and cannot be evaluated by the segment M u: u + ν of the case model (the portion exceeding the segment length of the case model) For the feature quantity sequence y t + ν + 1: t + τ of the input signal, this means that the likelihood p (y t + ν + 1: t + τ | φ u + ν + 1: u + τ ) is evaluated based on the mixed model g.
言い換えれば、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチング部103が式(4)に基づいて計算する尤度は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度p(yt:t+ν|Mu:u+ν)と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)とが統合された尤度であると言える。
In other words, the likelihood that the
混合モデルgに基づく尤度は、モデル全体で平滑化した尤度のようなものに相当する。事例モデルで評価できない部分については平均的な尤度で代用することで、等しいフレーム長で入力信号を公平に評価しようとするものである。 The likelihood based on the mixed model g corresponds to a likelihood smoothed over the entire model. For the part that cannot be evaluated by the case model, the average likelihood is substituted to try to evaluate the input signal fairly with the same frame length.
このyt:t+τの尤度を用いて,マッチング部103ではyt:t+τに最も適合するセグメントMt u:u+νmaxを次式(6)(7)に従い求める。t,τ,u,ν,u’,ν’は整数である。 The y t: using the likelihood of the t + tau, the matching unit 103 y t: t + best fits segment τ M t u: finding according the following equation (6) (7) u + .nu.max. t, τ, u, ν, u ′, ν ′ are integers.
ここで、式(7)の分母は、学習データのあらゆる開始点u’と、yt:t+τのあらゆる分割点ν’について、p(yt:t+τ|Mu′:u′+ν′,φu′+ν′+1:u′+τ)の和を取ったものである。 Here, the denominator of equation (7), 'and, y t: any division point of t + τ ν' u any starting point of the learning data for, p (y t: t + τ | M u ': u' + ν ′ , φu ′ + ν ′ + 1: u ′ + τ ).
式(7)により定義される事後確率p(Mu:u+ν,φu+ν+1:u+τ|yt:t+τ)は、上記式(4)及び上記式(5)に示したように、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度p(yt:t+ν|Mu:u+ν)と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)とを用いて表現される。 The posterior probability p (M u: u + ν , φ u + ν + 1: u + τ | y t: t + τ ) defined by the equation (7) is as shown in the above equation (4) and the above equation (5): Likelihood p (y t) evaluated based on a segment having a length corresponding to the first half signal, with the first half of the input signal divided into two as the first half signal and the second half as the second half signal. : t + ν | M u: u + ν ) and likelihood p (y t + ν + 1: t + τ | φ u + ν + 1: u + τ ) evaluated based on the model of the Gaussian mixture distribution for the latter half signal. Is done.
セグメントの最大長を、従来の方法と同様に、(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29となる。この制限の下での式(7)によるセグメント評価を図示すると、図7のようになる。この図から明らかなように、この実施形態によれば、あらゆるセグメント長のセグメントが、(τlim+1)フレームという共通の長さの下で、公平に評価されていることがわかる。別の見方をすれば、この実施形態によれば、最適なセグメント長(νmax)と,セグメント開始点(u)の探索を同時に行っていることになる。 The maximum length of the segment is limited to (τ lim +1) frames as in the conventional method. For example, if the maximum length of the segment is limited to 30 frames, τ lim = 29. FIG. 7 shows the segment evaluation according to the equation (7) under this restriction. As is apparent from this figure, according to this embodiment, it can be seen that the segments of any segment length are evaluated fairly under a common length of (τ lim +1) frames. From another viewpoint, according to this embodiment, the optimum segment length (ν max ) and the segment start point (u) are searched simultaneously.
以下、本発明による式(7)の事後確率が、従来手法による式(2)の事後確率と同様に、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っていることを証明する。このため,yt:t+τをyt:t+νとyt+ν+1:t+τに分割して前者をMで後者をgで評価する場合(式(4))と、yt:t+τをyt:t+ν-1とyt+ν:t+τに分割して前者をMで後者をgで評価する場合とで、事後確率の大小を比較する。 Hereinafter, in the case where the posterior probability of Equation (7) according to the present invention is relatively good in agreement with yt : t + τ and Mu: u + τ , similarly to the posterior probability of Equation (2) by the conventional method It proves that the longer τ is, the higher posterior probability is given. Therefore, when y t: t + τ is divided into y t: t + ν and y t + ν + 1: t + τ and the former is evaluated by M and the latter is evaluated by g (equation (4)), y t: t + a τ y t: t + ν- 1 and y t + [nu: the former is divided into t + tau in the case of evaluating the latter in g in M, compares the magnitude of the posterior probability.
式(7)から明らかなように、両場合において分母は等しくなるので、両場合の比は、式(4)から、以下の尤度比に等しくなる。 As is clear from equation (7), the denominator is equal in both cases, so the ratio in both cases is equal to the following likelihood ratio from equation (4).
ここで、yt+νがmu+νによく一致していると仮定する。この場合、式(8)の分母は、w(mu+ν)g(yt+ν|mu+ν)と近似できる。よって、式(8)は、1/w(mu+ν)に等しい。w(mu+ν)は1以下であるので、式(8)は1以上になる。これにより、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど式(7)で計算される事後確率が高くなるという特徴を持っていることが分かる。 Here, it is assumed that y t + [nu is good agreement in m u + ν. In this case, the denominator of Equation (8) can be approximated as w (m u + ν ) g (y t + ν | mu + ν ). Thus, equation (8) is equal to 1 / w (m u + ν ). Since w (m u + ν ) is 1 or less, Expression (8) becomes 1 or more. Thus, it can be seen that when yt : t + τ and Mu: u + τ match relatively well, the longer τ is, the higher the posterior probability calculated by equation (7) is. .
式(6)及び式(7)により尤度計算を行う場合には、図6のセグメントの木構造の2層目からτlim層目のあらゆるノードからガウス混合モデルノードに遷移可能であるとする。ルートノードを開始点とする任意の長さのセグメントを候補として探索することで、式(6)の尤度計算を高速に行うことができる。 When likelihood calculation is performed according to Equation (6) and Equation (7), it is assumed that transition from any node in the tree structure of the segment in FIG. 6 to any Gaussian mixture model node from the τ lim layer is possible. . By searching for a segment of an arbitrary length starting from the root node as a candidate, the likelihood calculation of Expression (6) can be performed at high speed.
[変形例等]
なお、この発明は、複数の雑音/残響環境の事例モデルを考慮する場合、及び、マッチング時に時間伸縮を考える場合についても、非特許文献1に記載されているように、拡張可能である。
[Modifications, etc.]
Note that the present invention can be extended as described in
上記信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 The processes described in the above signal processing apparatus and method are not only executed in chronological order according to the order of description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. .
また、信号処理装置における各部をコンピュータによって実現する場合、信号処理装置の各部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部がコンピュータ上で実現される。 Further, when each unit in the signal processing device is realized by a computer, the processing contents of the functions that each unit of the signal processing device should have are described by a program. And each part is implement | achieved on a computer by running this program with a computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each processing means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of the present invention.
101 フーリエ変換部
102 特徴量生成部
103 マッチング部
104 音声強調フィルタリング部
105 事例モデル記憶部
101
Claims (3)
上記事例モデル記憶部に記憶されている上記木構造のルートノードを開始点とする任意の長さのセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を含み、
上記入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
上記マッチング部における事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
信号処理装置。 A segment that is a sequence of Gaussian distribution indices in the Gaussian mixture distribution that gives the maximum likelihood for the feature value of each frame of a given signal is at least a predetermined number of frames from the beginning of each frame. A case model storage unit expressed and stored in a tree structure;
Search for a segment that gives the maximum posterior probability with respect to the feature quantity sequence of the input signal by using a segment of any length starting from the root node of the tree structure stored in the case model storage unit as a candidate. and a matching unit, only including,
When the input signal is divided into two, the first half is the first half signal and the second half is the second half signal.
The posterior probabilities in the matching unit are the likelihood evaluated based on the segment of the length corresponding to the first half signal for the first half signal and the likelihood evaluated based on the model based on the Gaussian mixture distribution for the second half signal. Expressed in degrees,
Signal processing device.
マッチング部が、上記事例モデル記憶部に記憶されている上記木構造のルートノードを開始点とする任意の長さのセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチングステップを含み、
上記入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
上記マッチングステップにおける事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
信号処理方法。 In the case model storage unit, a segment that is a series of Gaussian distribution indexes in the Gaussian mixture distribution that gives the maximum likelihood to the feature amount of each frame of a predetermined signal is at least predetermined from the beginning of each frame. It is assumed that only the number of frames are represented and stored in a tree structure,
The matching unit gives a maximum posterior probability to the feature quantity sequence of the input signal by using a segment of an arbitrary length starting from the tree structure root node stored in the case model storage unit as a candidate. a matching step of searching for a segment only including,
When the input signal is divided into two, the first half is the first half signal and the second half is the second half signal.
The posterior probability in the matching step is the likelihood evaluated based on the segment of the length corresponding to the first half signal for the first half signal and the likelihood evaluated based on the model based on the Gaussian mixture distribution for the second half signal. Expressed in degrees,
Signal processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025196A JP6139429B2 (en) | 2014-02-13 | 2014-02-13 | Signal processing apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014025196A JP6139429B2 (en) | 2014-02-13 | 2014-02-13 | Signal processing apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015152704A JP2015152704A (en) | 2015-08-24 |
JP6139429B2 true JP6139429B2 (en) | 2017-05-31 |
Family
ID=53895040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014025196A Active JP6139429B2 (en) | 2014-02-13 | 2014-02-13 | Signal processing apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6139429B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0968996A (en) * | 1995-09-01 | 1997-03-11 | Oki Electric Ind Co Ltd | Voice recognition method |
JP4298672B2 (en) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | Method and apparatus for calculating output probability of state of mixed distribution HMM |
JP5309343B2 (en) * | 2011-08-01 | 2013-10-09 | Kddi株式会社 | Pattern recognition method and apparatus, pattern recognition program and recording medium therefor |
JP5634959B2 (en) * | 2011-08-08 | 2014-12-03 | 日本電信電話株式会社 | Noise / dereverberation apparatus, method and program thereof |
JP5819147B2 (en) * | 2011-09-15 | 2015-11-18 | 株式会社日立製作所 | Speech synthesis apparatus, speech synthesis method and program |
-
2014
- 2014-02-13 JP JP2014025196A patent/JP6139429B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015152704A (en) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP6622505B2 (en) | Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program | |
JP5768093B2 (en) | Speech processing system | |
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
CN112927707A (en) | Training method and device of voice enhancement model and voice enhancement method and device | |
JP2019159654A (en) | Time-series information learning system, method, and neural network model | |
CN111599339B (en) | Speech splicing synthesis method, system, equipment and medium with high naturalness | |
JP6729515B2 (en) | Music analysis method, music analysis device and program | |
JP5974901B2 (en) | Sound segment classification device, sound segment classification method, and sound segment classification program | |
JP6244297B2 (en) | Acoustic score calculation apparatus, method and program thereof | |
CN111488486B (en) | Electronic music classification method and system based on multi-sound-source separation | |
JP5818759B2 (en) | Situation generation model creation device, situation estimation device, and program | |
CN106910494B (en) | Audio identification method and device | |
JP6784255B2 (en) | Speech processor, audio processor, audio processing method, and program | |
JP6139430B2 (en) | Signal processing apparatus, method and program | |
JP6499095B2 (en) | Signal processing method, signal processing apparatus, and signal processing program | |
Tanweer et al. | Analysis of combined use of nn and mfcc for speech recognition | |
JP6139429B2 (en) | Signal processing apparatus, method and program | |
JP6612277B2 (en) | Turn-taking timing identification device, turn-taking timing identification method, program, and recording medium | |
Chung et al. | Unsupervised discovery of structured acoustic tokens with applications to spoken term detection | |
Gubka et al. | A comparison of audio features for elementary sound based audio classification | |
Zhuang et al. | Multi-task joint-learning for robust voice activity detection | |
JP6142401B2 (en) | Speech synthesis model learning apparatus, method, and program | |
JP2007249050A (en) | Language model generating device, language model generating method, program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170307 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6139429 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |