JP6499095B2 - Signal processing method, signal processing apparatus, and signal processing program - Google Patents
Signal processing method, signal processing apparatus, and signal processing program Download PDFInfo
- Publication number
- JP6499095B2 JP6499095B2 JP2016015464A JP2016015464A JP6499095B2 JP 6499095 B2 JP6499095 B2 JP 6499095B2 JP 2016015464 A JP2016015464 A JP 2016015464A JP 2016015464 A JP2016015464 A JP 2016015464A JP 6499095 B2 JP6499095 B2 JP 6499095B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- signal processing
- feature amount
- unit
- feature value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、信号処理方法、信号処理装置及び信号処理プログラムに関する。 The present invention relates to a signal processing method, a signal processing device, and a signal processing program.
従来、音声認識システム、補聴器、TV会議システム、機械制御インターフェース、楽曲の検索及び採譜のための音楽情報処理システム等において、マイクロホンを用いて音響信号を収音し、目的の音声信号の成分を抽出する技術が利用されている。 Conventionally, in a speech recognition system, a hearing aid, a video conference system, a machine control interface, a music information processing system for searching and recording music, etc., an acoustic signal is collected using a microphone and a component of the target audio signal is extracted. Technology is used.
一般的に、雑音や残響のある実環境でマイクロホンを用いて音響信号を収音すると、収音目的の音声信号だけでなく、雑音や残響(音響歪み)が重畳された信号が観測される。しかしながら、これらの雑音や残響が信号に重畳されると、収音目的の音声信号の成分の抽出が困難となり、音声信号の明朗度や聞き取りやすさを大きく低下させてしまう要因となる。この結果、例えば、音声認識システムの認識率が低下してしまうという問題があった。 In general, when a sound signal is collected using a microphone in a real environment with noise and reverberation, not only a sound signal for sound collection but also a signal on which noise and reverberation (acoustic distortion) are superimposed is observed. However, when these noises and reverberations are superimposed on the signal, it becomes difficult to extract the components of the sound signal for sound collection, which causes a significant reduction in the clarity and ease of hearing of the sound signal. As a result, for example, there is a problem that the recognition rate of the voice recognition system is lowered.
そこで、音声信号に重畳した雑音や残響を取り除く技術が提案されている(例えば、非特許文献1参照)。例えば、図10を参照して、従来の音声信号の信号処理装置について説明する。図10は、従来の信号処理装置の構成の一例を示すブロック図である。なお、図10に示す信号処理装置1Pは、ガウス混合分布モデル(GMM:Gaussian Mixture Model)によって表現された事例モデルを用いて、入力音声を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルを収音目的の音声信号候補としていく。 Therefore, a technique for removing noise and reverberation superimposed on an audio signal has been proposed (see, for example, Non-Patent Document 1). For example, a conventional audio signal processing apparatus will be described with reference to FIG. FIG. 10 is a block diagram showing an example of the configuration of a conventional signal processing apparatus. Note that the signal processing device 1P shown in FIG. 10 uses the case model expressed by a Gaussian Mixture Model (GMM) to check the similarity with the feature value obtained by converting the input speech, and the high similarity The example model that indicates is used as a sound signal candidate for sound collection.
この従来の信号処理装置1Pには、事例モデル記憶部11Pに、事前に学習された混合分布モデルによって表現された事例モデルが記憶されている。具体的には、事例モデル記憶部11Pには、各事例に対応したクリーン音声の振幅スペクトルと、フレームごとの特徴量(例えば、メル周波数ケプストラム係数)に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を含む事例モデルとが記憶されている。 In this conventional signal processing apparatus 1P, a case model expressed by a mixture distribution model learned in advance is stored in the case model storage unit 11P. Specifically, in the case model storage unit 11P, the Gaussian mixture distribution that gives the maximum likelihood to the amplitude spectrum of clean speech corresponding to each case and the feature amount (for example, Mel frequency cepstrum coefficient) for each frame. A case model including a series (segment) of indexes is stored.
まず、フーリエ変換部12Pが、音響歪みを含む入力信号を離散フーリエ変換して振幅スペクトルを取得し、特徴量生成部13Pが、振幅スペクトルから、特徴量のセグメントを生成する。 First, the Fourier transform unit 12P obtains an amplitude spectrum by performing discrete Fourier transform on the input signal including the acoustic distortion, and the feature amount generation unit 13P generates a segment of the feature amount from the amplitude spectrum.
続いて、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと事例モデル記憶部11Pの事例モデルに含まれるセグメントとのマッチングを行い、事例モデルの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最も高い類似度を示すセグメントを探索する。具体的には、マッチング部15Pが、事例モデルのセグメントの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最大の事後確率を与えるセグメントを探索する。
Subsequently, the matching
そして、音声強調フィルタリング部16Pが、マッチング部15Pが探索した事例モデルのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11Pから、このクリーン音声の振幅スペクトルを読み出して音声強調のためのフィルタを作成する。このフィルタで入力信号をフィルタリングすることによって、入力信号から音響歪みが除去された強調音声信号が得られる。
Then, the speech enhancement filtering unit 16P regards the clean speech amplitude spectrum corresponding to the feature quantity of the segment of the case model searched by the matching
このように、従来の信号処理装置1Pは、入力音声に最も類似するクリーン音声の振幅スペクトルを求めるために、特徴量生成部13Pが生成した特徴量のセグメントを用いて、事例モデル記憶部11Pの事例モデルの中から、最大の事後確率を与えるセグメントを探索する。 As described above, the conventional signal processing device 1P uses the feature amount segment generated by the feature amount generation unit 13P in order to obtain the amplitude spectrum of the clean sound most similar to the input sound. A segment that gives the maximum posterior probability is searched from the case model.
しかしながら、セグメント探索に用いるメル周波数ケプストラム係数は、振幅スペクトルから得られる単純な特徴量である。このため、入力信号に雑音や残響が含まれる場合には、メル周波数ケプストラム係数も雑音や残響の影響を含むものとなり、マッチング部15Pによるセグメント探索は、必ずしも高精度であるとは言えなかった。
However, the mel frequency cepstrum coefficient used for the segment search is a simple feature amount obtained from the amplitude spectrum. For this reason, when noise and reverberation are included in the input signal, the mel frequency cepstrum coefficient also includes the influence of noise and reverberation, and the segment search by the matching
また、事例モデルは、種々の音響歪み環境を想定して準備するものの、現実的に、全ての音響歪み環境に対応する事例モデルを準備することは困難であるため、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと高い類似度を有するセグメントを事例モデルの中から探索できない場合があった。 In addition, although the case model is prepared assuming various acoustic distortion environments, it is actually difficult to prepare case models corresponding to all the acoustic distortion environments. In some cases, a segment having a high degree of similarity with the feature amount segment generated by the generation unit 13P cannot be searched from the case model.
したがって、従来の信号処理装置では、探索に用いる特徴量が雑音や残響の影響を受けるため、入力信号に類似するクリーン音声の特徴量を探索する精度にも限界があった。 Therefore, in the conventional signal processing apparatus, since the feature amount used for the search is affected by noise and reverberation, there is a limit to the accuracy of searching for the clean speech feature amount similar to the input signal.
本発明は、上記に鑑みてなされたものであって、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減した信号処理方法、信号処理装置及び信号処理プログラムを提供することを目的とする。 The present invention has been made in view of the above, and it is an object of the present invention to provide a signal processing method, a signal processing apparatus, and a signal processing program that reduce the influence of noise and reverberation on a search for clean speech similar to an input signal. And
上述した課題を解決し、目的を達成するために、本発明に係る信号処理方法は、信号処理装置で実行される信号処理方法であって、前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、を含んだことを特徴とする。 In order to solve the above-described problems and achieve the object, a signal processing method according to the present invention is a signal processing method executed by a signal processing device, and the signal processing device is a voice including noise or acoustic distortion. Or it has a storage part which memorizes the mixture distribution model which learned clean speech, the signal processing device generates the 1st feature amount from an input signal, and the signal processing device has the 1st above-mentioned A feature amount conversion step of converting the feature amount of the second feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing, and the signal processing device based on the parameters of the mixed distribution model stored in the storage unit. In addition, a posterior probability indicating the probability that the second feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature amount having the highest posterior probability is defined as a clean speech feature amount corresponding to the input signal. A matching step, and the signal processing device includes an output step of outputting an enhanced speech signal obtained by multiplying the input signal by a filter composed of the clean speech feature obtained in the matching step. Features.
本発明によれば、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減することができる。 According to the present invention, it is possible to reduce the influence of noise and reverberation on a search for clean speech similar to an input signal.
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by this embodiment. Moreover, in description of drawing, the same code | symbol is attached | subjected and shown to the same part.
[実施の形態1]
まず、実施の形態1に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響(音響歪み)を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。
[Embodiment 1]
First, the signal processing apparatus according to the first embodiment will be described. This signal processing device is a device that performs processing for removing acoustic distortion from an input signal including noise and reverberation (acoustic distortion) and outputting a clear enhanced speech signal.
[信号処理装置の構成]
図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。実施の形態1に係る信号処理装置1は、例えば、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
[Configuration of signal processing apparatus]
FIG. 1 is a diagram schematically illustrating an example of the configuration of the signal processing device according to the first embodiment. For example, the
図1に示すように、信号処理装置1は、事例モデル記憶部11、フーリエ変換部12、特徴量生成部13、特徴量変換部14、マッチング部15(照合部)及び音声強調フィルタリング部16(出力部)を有する。信号処理装置1は、GMMによって表現された事例モデルMを用いて、入力信号を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルMを収音目的の音声信号候補として利用する。
As shown in FIG. 1, the
事例モデル記憶部11は、音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する。具体的には、事例モデル記憶部11は、事例に対応したクリーン音声のデータと、事例モデルMとが記憶される。クリーン音声のデータは、例えば、事例に対応したクリーン音声の振幅スペクトルのことである。また、事例モデルMは、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を、混合分布モデルのパラメータとして含む。
The case
ここで、事例モデルMは、事前に事例モデル生成装置2(後述)によって生成され、事例モデル記憶部11に格納される。事例モデル生成装置2は、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、様々な環境での観測信号を学習用の音声信号として模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事例モデルMを生成する。
Here, the case model M is generated in advance by the case model generation device 2 (described later) and stored in the case
具体的には、事例モデル生成装置2(後述)によって、学習用の音声信号の特徴量を基に、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmiが求められ、該求められたインデックスmiの時間系列(セグメント)が、事例モデルMの一つとなる。この事例モデルMは、ガウス混合モデルgの中のガウス分布のインデックスmiの集合とガウス混合モデルgとを用いて以下の(1)式に示すように表される。 Specifically, the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i based on the feature amount of the speech signal for learning by the case model generation device 2 (described later). index m i is determined, the sought time sequence index m i (segment), and one case model M. This case model M is expressed as shown in the following (1) equation by using the set and Gaussian mixture model g of the index m i of the Gaussian distribution in the Gaussian mixture model g.
なお、miは、i番目のフレームの特徴量kiに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布mの中のガウス分布g(ki|m)を表している。Iは学習用の音声信号の総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×105となる。 Incidentally, m i is the index of the Gaussian distribution that gives the maximum likelihood for the feature amount k i of i-th frame, Gaussian g in Gaussian mixture m | represents (k i m) Yes. I represents the total number of frames of the speech signal for learning. For example, assuming 1 hour of learning data, I = 3.5 × 10 5 .
そして、事例モデルMに含まれるセグメントの例を説明する。図2は、セグメントの一例を説明するための図である。例えば、図2に示すセグメントの各セルは、Iフレームのうちi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合モデルg中のガウス分布のインデックスmiを表す。 An example of segments included in the case model M will be described. FIG. 2 is a diagram for explaining an example of a segment. For example, each cell of the segment shown in FIG. 2 corresponds to the i-th time frame of the I frame. The numbers in each cell represents the index m i of the Gaussian distribution of the Gaussian mixed model g that gives the maximum likelihood.
フーリエ変換部12は、入力信号をフレームごとに振幅スペクトルに変換する。この入力信号として、雑音及び残響を含む音声信号がフーリエ変換部12に入力される。まず、フーリエ変換部12は、入力信号の波形データを短い時間幅で切り出す。例えば、フーリエ変換部12は、30(msec)程度の短時間ハミング窓等の窓関数を掛け合わせて入力信号を短い時間幅で切り出す。続いて、フーリエ変換部12は、切り出した入力信号に離散フーリエ変換処理を実行し、振幅スペクトルに変換する。なお、振幅スペクトルとは、周波数スペクトルの振幅データのことである。フーリエ変換部12は、変換後の振幅スペクトルを、特徴量生成部13及び音声強調フィルタリング部16に入力する。
The
特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから特徴量(第1の特徴量)xtを生成する。言い換えると、特徴量生成部13は、フーリエ変換部12から入力された振幅スペクトルから特徴量xtのセグメントを生成する。なお、tは、処理対象のフレームとする。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、メル周波数ケプストラム係数に変換する。これによって、入力信号は、フレームごとに、特徴量ベクトルのセグメントとして表される。
The feature
ここで、一般的に使用されているメル周波数ケプストラム係数は、10〜20次程度である。信号処理装置1では、事例モデルMを正確に表すために、一般的に使用されている次数よりも高い次数(例えば、30〜100次程度)のメル周波数ケプストラム係数を用いる。このため、特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、30〜100次程度のメル周波数ケプストラム係数に変換する。なお、特徴量生成部13は、メル周波数ケプストラム係数以外の特徴量(例えば、ケプストラム係数等)を用いてもよい。特徴量生成部13は、生成した特徴量xtを、特徴量変換部14に入力する。
Here, the mel frequency cepstrum coefficient generally used is about 10 to 20th order. In the
特徴量変換部14は、特徴量生成部13が生成した特徴量xtを、雑音又は残響(音響歪み)の低減処理を施した特徴量(第2の特徴量)に変換する。すなわち、特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高い特徴量に変換する。
The feature
具体的には、特徴量変換部14は、特徴量生成部13が生成した特徴量xtを、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルにおける非線形な特徴量変換を多段に適用して変換した、音響歪み耐性の高いボトルネック特徴量btを生成する。この場合、特徴量変換部14は、処理対象フレームの特徴量のセグメントのみでなく、その前後の所定数のフレームの特徴量のセグメントも用いて、ボトルネック特徴量btを生成する。ボトルネック特徴量btは、ニューラルネットワークの中間層のユニットを少なく抑えたボトルネック構造のネットワークから抽出される。ボトルネック構造の中間層で抽出している特徴量は、入力特徴量を次元圧縮された音響歪み耐性がある特徴量である。特徴量変換部14は、生成したボトルネック特徴量btを、マッチング部15に入力する。
Specifically, the feature
なお、「音響歪み耐性がある特徴量」とは、同じ入力音声に対して、例えば、異なる二つの音響歪みが付加されていると仮定した場合に、これら二つの異なる音響歪みが付加された入力音声に対して生成した二つの特徴量が「似通っている」ことをいう。言い換えれば、「音響歪み耐性がある特徴量」は、音響歪みの影響が軽減された特徴量である。 Note that the “characteristic amount having acoustic distortion resistance” is an input in which two different acoustic distortions are added, for example, assuming that two different acoustic distortions are added to the same input voice. Two feature values generated for speech are "similar". In other words, the “characteristic amount having acoustic distortion resistance” is a characteristic quantity in which the influence of the acoustic distortion is reduced.
マッチング部15は、事例モデルMを用いて、入力された入力音声の特徴量との類似度を調べ、高い類似度を示した事例モデルMに対応するクリーン音声を収音目的の音声信号候補としていく。具体的には、マッチング部15は、事例モデル記憶部11に記憶された混合分布モデルのパラメータを基に、入力された特徴量(特徴量変換部14が変換したボトルネック特徴量bt)が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声の特徴量として求める。
The matching unit 15 uses the case model M to check the similarity with the feature amount of the input speech that has been input, and uses the clean speech corresponding to the case model M showing a high similarity as a speech signal candidate for sound collection. Go. Specifically, the matching unit 15 uses the input feature value (the bottleneck feature value b t converted by the feature value conversion unit 14) based on the parameters of the mixed distribution model stored in the case
言い換えると、マッチング部15は、特徴量変換部14から入力された特徴量(ボトルネック特徴量bt)のセグメントと事例モデル記憶部11の事例モデルMに含まれるセグメントとのマッチングを行い、事例モデル記憶部11の事例モデルMの中から、入力された特徴量のセグメントに対して最も高い事後確率をとるセグメントを探索する。マッチング部15は、探索により見つかった事例モデルM中のセグメントについての情報を、音声強調フィルタリング部16に入力する。なお、マッチング部15の処理の詳細については、後述する。
In other words, the matching unit 15 performs matching between the segment of the feature amount (bottleneck feature amount b t ) input from the feature
音声強調フィルタリング部16は、マッチング部15によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声信号を出力する。具体的には、音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11から、このクリーン音声の振幅スペクトルを読み出す。続いて、音声強調フィルタリング部16は、読み出したクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを用いて入力信号をフィルタリングする。この結果、音声強調フィルタリング部16から、入力信号から音響歪みが除去された強調音声信号が出力される。
The speech
[特徴量変換部の処理]
次に、特徴量変換部14の処理について詳細に説明する。特徴量変換部14は,特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高いボトルネック特徴量btに変換する。この特徴量変換部14には、前述したように、DNN−HMM音響モデルが適用される。そこで、図3を参照して、特徴量変換部14の処理を説明する。
[Processing of feature quantity conversion unit]
Next, the process of the feature
図3は、DNN−HMM音響モデルを用いて構成した特徴量変換部14の処理を説明するための概念図である。特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量xtを入力データとして受け取る。このとき、特徴量変換部14は、処理対象のフレームtの特徴量xtだけでなく、その前後数フレーム分の特徴量も受け取る。
FIG. 3 is a conceptual diagram for explaining the processing of the feature
例えば、特徴量変換部14は、当該フレームtの40次元の特徴量xt(行ベクトル)に加えて、前後5フレーム分の特徴量xt−5,xt−4,xt−3,xt−2,xt−1,xt+1,xt+2,xt+3,xt+4,xt+5を受け取る。この場合、特徴量変換部14は、合計11フレーム分で440次元の特徴量[xt−5^T,・・・,xt^T,・・・,xt+5^T]^T(Tはベクトルの転置を表す)を受け取ることになる。
For example, in addition to the 40-dimensional feature amount x t (row vector) of the frame t, the feature
なお、処理対象のフレームtの特徴量xtは、静的な特徴量だけでなく、例えば、その1次,2次回帰係数で構成される場合もある。この場合、特徴量変換部14が受け取る特徴量の次元数も増える。例えば、xtが静的な40次元の特徴量と、その1次,2次回帰係数とで構成されるとすると、次元数は合計で120次元となる。これの前後5フレーム分を考慮すると、特徴量変換部14が受け取る特徴量の次元数は、1320次元となる。
The feature amount x t of frame t to be treated, not only the static characteristic quantities, for example, the primary, there is a case composed of two regression coefficients. In this case, the number of dimensions of the feature quantity received by the feature
続いて、440次元の特徴量を受け取った特徴量変換部14は、これをDNN-HMM音響モデルによる、例えば2048ノードの中間層を何層か(典型的には5〜10層程度)通し、最終的に、例えば80ノードのボトルネック層により80次元程度に次元圧縮されたボトルネック特徴量btを取得する。特徴量変換部14は、このボトルネック特徴量btをマッチング部15に入力する。
Subsequently, the feature
特徴量変換部14は、DNN−HMM音響モデルにおいて非線形な特徴量変換を多段に適用することにより,音響歪み耐性が高いボトルネック特徴量btを得ることができる。そして、マッチング部15は、特徴量変換部14から入力されたボトルネック特徴量btを用いてセグメントの探索を行うことで、精度の高いセグメント探索を行うことができる。そこで、このボトルネック特徴量btを用いたマッチング部15の処理について説明する。
[マッチング部の処理]
ここでは、説明の簡易化のため、あるひとつの雑音/残響環境の事例モデルMのみを考える。また、説明の簡易化のため、入力信号の特徴量のセグメントytと学習データセグメントのマッチングの際の時間伸縮は考えないものとする。実施の形態1では、入力信号の特徴量のセグメントytとして、前段の特徴量変換部14から、特徴量変換部14が変換したボトルネック特徴量btが入力される。
[Processing of matching part]
Here, for simplification of explanation, only an example model M of a certain noise / reverberation environment is considered. Further, for simplification of explanation, and is not considered time warping during the feature amount of the segment y t and matching training data segment of the input signal. In the first embodiment, the bottleneck feature value b t converted by the feature
まず、マッチング部15は、入力された特徴量のセグメントytと事例モデル記憶部11に記憶された事例モデルMのセグメントとのマッチングを行う。続いて、マッチング部15は、事例モデルMのセグメントの中から、入力信号の特徴量の系列yt:t+τに最も近いセグメントを探索し、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われるセグメントMt u:u+τmaxを求めて、出力する。これは、(2)式のように定式化することができる。
First, the matching section 15 performs matching between a segment of the stored cases model M on the segment y t and case
ここで、入力される特徴量ytは、L個の時間フレームから成るとし、その入力信号の特徴量系列をy={yt:t=1,2,・・・,L}とする。また、yt:t+τを入力信号の特徴量の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,mi:i=u,u+1,・・・,u+τ}を、事例モデルMの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。 Here, it is assumed that the input feature quantity y t is composed of L time frames, and the feature quantity series of the input signal is y = {y t : t = 1, 2,..., L}. Also, let yt: t + τ be a sequence from the time frame t to t + τ of the feature quantity of the input signal. Then, M u: u + τ = {g, m i : i = u, u + 1,..., U + τ} is a Gaussian distribution sequence corresponding to continuous time frames from u-th to u + τ-th in the case model M. And
入力信号の特徴量の系列yt:t+τと事例モデルMの中のあるセグメントとの距離の定義や、入力信号の特徴量系列yt:t+τと一番近い事例モデルMの探索方法として、ユークリッド距離など、他のいくつかの方法を考えることができる。ここでは、入力信号の特徴量系列に対する一番近い事例モデルMのセグメントは、入力信号の特徴量系列によく一致する事例モデルMのセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い事例モデルMのセグメントMt u:u+τは、(3)式に示す事後確率を最大化することで求めることができる。 Series y t of the feature amount of the input signal: definition and of the distance between a segment in the t + tau and case model M, feature amount sequence y t of the input signal: a method of searching for t + tau and closest case model M, Euclid Several other methods can be considered, such as distance. Here, it is assumed that the segment of the case model M closest to the feature quantity series of the input signal has the longest length among the segments of the case model M that closely match the feature quantity series of the input signal. That is, the segment M t u closest case model M to the feature amount sequence of the input signal: u + tau can be determined by maximizing a posterior probability shown in (3) below.
この場合、p(Mu:u+τ|yt:t+τ)は、事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方法を取ることで、ある時間に局所的に存在する雑音などの影響を受けにくくなり、雑音などに対して比較的ロバストなマッチングが行われると思われる。 In this case, p (M u: u + τ | y t: t + τ ) represents the posterior probability, and if y t: t + τ and M u: u + τ are relatively well matched, τ The longer the is, the higher the posterior probability. By taking a method of searching for a longer segment, it is unlikely to be affected by noise that exists locally at a certain time, and it seems that relatively robust matching is performed against noise.
なお、(3)式の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する事例モデルMのセグメントに対するyt:t+τの尤度である。この尤度は、(4)式で計算される。 Note that the numerator term p (y t: t + τ | M u: u + τ ) in the equation (3) is the y t: t + τ for the segment of the case model M corresponding to M u: u + τ . Likelihood. This likelihood is calculated by equation (4).
ここでは、簡単のため、隣り合うフレームは独立であることを仮定している。(3)式の分母の第1項は、事例モデルMの中のあらゆる時間フレームu’を開始点として,p(yt:t+τ|Mu’:u’+τ)の和を取ったものである。そして、(3)式の分母の第2項は、ガウス混合モデルgに対するyt:t+τの尤度であり、(5)式で計算される。 Here, for simplicity, it is assumed that adjacent frames are independent. The first term of the denominator of equation (3) takes the sum of p (y t: t + τ | M u ′: u ′ + τ ) starting from any time frame u ′ in the case model M. It is a thing. The second term of the denominator of the equation (3) is the likelihood of yt : t + τ with respect to the Gaussian mixture model g and is calculated by the equation (5).
続いて、マッチング部15におけるセグメント探索処理の手順をさらに具体的に記述する。まず、セグメントの最大長を(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29である。 Subsequently, the procedure of the segment search process in the matching unit 15 will be described more specifically. First, the maximum segment length is limited to (τ lim +1) frames. For example, if the maximum segment length is limited to 30 frames, τ lim = 29.
まず、マッチング部15は、この制限の下で、τ=0、すなわち、セグメント長=1として、(3)式に従い、最大事後確率を与えるセグメント長=1のセグメントを探索する。次に、マッチング部15は、τ=1、すなわち、セグメント長=2として、(3)式に従い、最大事後確率を与えるセグメント長=2のセグメントを探索する。 First, the matching unit 15 searches for a segment having a segment length = 1 that gives the maximum posterior probability according to the equation (3), with τ = 0, that is, the segment length = 1, under this restriction. Next, the matching unit 15 searches for a segment with segment length = 2 that gives the maximum posterior probability according to the equation (3), with τ = 1, that is, segment length = 2.
マッチング部15は、この処理をτ=τlimまで繰り返す。そして、マッチング部15は、探索した長さの異なるセグメント候補の中から、最大事後確率を与えるセグメントを見つける。τmaxは、この最大事後確率を与えるセグメントの長さである。このようなマッチング部15におけるセグメント探索処理は、図2に示すような、Iフレーム分のリニアなメモリで表現できる事例モデルM上で行うことができる。 The matching unit 15 repeats this process until τ = τ lim . Then, the matching unit 15 finds a segment that gives the maximum posterior probability from the searched segment candidates having different lengths. τ max is the length of the segment giving this maximum posterior probability. Such segment search processing in the matching unit 15 can be performed on a case model M that can be expressed by a linear memory for I frames as shown in FIG.
そして、マッチング部15は、探索した最大事後確率を与えるセグメント、すなわち、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われる事例モデルMのセグメントMt u:u+τmaxについての情報を、音声強調フィルタリング部16に入力する。これによって、音声強調フィルタリング部16は、セグメントMt u:u+τmaxに対応する事例モデル記憶部11内のクリーン音声の振幅スペクトルを用いて、音声強調のためのフィルタを作成し、該フィルタで入力信号をフィルタリングすることによって、強調音声信号を出力する。
Then, the matching section 15, the segment which gives the maximum a posteriori probability searched, i.e., segment M t u case model M seems to provide a clean speech sequence most similar to the clean speech included in the input signal: information about u + .tau.max Is input to the speech
[信号処理装置における信号処理方法]
次に、信号処理装置1における信号処理方法について説明する。図4は、図1に示す信号処理装置1が実行する処理手順を示すフローチャートである。
[Signal processing method in signal processing apparatus]
Next, a signal processing method in the
まず、フーリエ変換部12は、入力信号を振幅スペクトルに変換するフーリエ変換処理(ステップS1)を行う。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから、メル周波数ケプストラム係数等の特徴量を生成する特徴量生成処理(ステップS2)を行う。
First, the
特徴量変換部14は、特徴量生成部13が生成した特徴量を、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量に変換する特徴量変換処理(ステップS3)を行う。
The feature
マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントと、入力されたボトルネック特徴量のセグメントとのマッチングを行い、事例モデルMのセグメントの中から、入力されたボトルネック特徴量のセグメントに対して最も高い事後確率をとるセグメントをとるセグメントを探索するマッチング処理(ステップS4)を行う。
The matching unit 15 performs matching between the segment of the case model M in the case
音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング処理(ステップS5)を行う。
The speech
[本実施の形態1の効果]
このように、本実施の形態1に係る信号処理装置1は、マッチング部15がセグメント探索に用いる特徴量ytとして、メル周波数ケプストラム係数等の振幅スペクトルから単純に得られる特徴量xtではなく、この特徴量xtに対して、さらに雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量btを用いている。言い換えれば,マッチング部15は、音響歪み耐性が高いボトルネック特徴量btを用いてセグメント探索を行うため、セグメント探索に対する雑音又は残響の影響を低減でき、セグメント探索の精度を高めることができる。したがって、信号処理装置1によれば、入力信号に類似するクリーン音声の特徴量を高精度で探索でき、入力信号を明瞭な強調音声信号に変換することができる。
[Effect of the first embodiment]
Thus, the
[事例モデル生成装置]
また、信号処理装置1の事例モデル記憶部11に記憶される事例モデルMを生成する事例モデル生成装置2について説明する。この事例モデル生成装置2においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量xtに対して、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量btを用いて、事例モデルMの生成を行っている。
[Case model generator]
The case
図5は、事例モデル生成装置2の機能構成例を示すブロック図である。図5に示す事例モデル生成装置2は、例えば、例えばROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。事例モデル生成装置2は、フーリエ変換部12、特徴量生成部13、特徴量変換部14、ガウス混合モデル学習部25及び最尤ガウス分布計算部26を有する。
FIG. 5 is a block diagram illustrating a functional configuration example of the case
まず、事例モデル生成装置2に入力される学習用の音声信号について説明する。事例モデル生成装置2に入力される信号は、様々な雑音/残響環境の音声信号である。この様々な雑音/残響環境の音声信号の中には、クリーン環境の音声信号が含まれている。具体的には、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、さまざまな環境での観測信号を模擬生成した模擬観測信号が、学習用の音声信号として事例モデル生成装置2に入力される。これらの学習用の音声信号のそれぞれについて以下の処理が行われる。
First, a learning speech signal input to the case
フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、図1に示す信号処理装置1におけるフーリエ変換部12、特徴量生成部13及び特徴量変換部14とそれぞれ同様の処理を、学習用の音声信号に対して実行する。特徴量変換部14は、学習用の音声信号に対応する特徴量xtをボトルネック特徴量btに変換し、ガウス混合モデル学習部25に入力する。
The
ガウス混合モデル学習部25は、各短時間フレームtでの特徴量biを学習データとして、通常の最尤推定法によりガウス混合モデルgを得る。ここで、ガウス混合モデル学習部25では、前段の特徴量変換部14から入力されたボトルネック特徴量btを学習データとして用いてガウス混合モデルgを得る。このガウス混合モデルgは、(6)式により示される。また、ガウス混合モデルgの中のガウス分布を表すg(bi|m)は、(7)式により示される。なお、biは、i番目のフレームのボトルネック特徴量である。
Gaussian mixture
g(bi|m)は、平均μm、分散Σmを持つm番目のガウス分布を表す。g(bi|m)は、多くの場合多次元ガウス分布であり、その次元数は特徴量biの次元数と同じである。g(bi|m)が多次元ガウス分布である場合、平均μm及び分散Σmのそれぞれはベクトルとなる。ここでは、g(bi|m)が多次元ガウス分布であっても、記載の簡略化のため、g(bi|m)のことを単にガウス分布と表現する。w(m)は、m番目のガウス分布に対する混合重みを表す。Qは、混合数を表す。Qには、例えば、4096や8192など、かなり大きな値を設定する。 g (b i | m) represents the m-th Gaussian distribution with mean μ m and variance Σ m . g (b i | m) is often a multidimensional Gaussian distribution, and the number of dimensions is the same as the number of dimensions of the feature quantity b i . When g (b i | m) is a multidimensional Gaussian distribution, each of the mean μ m and the variance Σ m is a vector. Here, even if g (b i | m) is a multidimensional Gaussian distribution, g (b i | m) is simply expressed as a Gaussian distribution in order to simplify the description. w (m) represents the mixing weight for the mth Gaussian distribution. Q represents the number of mixtures. For Q, for example, a fairly large value such as 4096 or 8192 is set.
最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmiを求め、そのインデックスmiの時間系列を、事例モデルMの一つのセグメントとして取得する。なお、事例モデルMは、ガウス分布のインデックスmiの集合とガウス混合モデルgを用いて、前述した(1)式のように表される。 Maximum likelihood Gaussian distribution calculation unit 26 calculates an index m i of the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i, the time sequence of the index m i, case model M As a single segment. Incidentally, case model M, using the set and Gaussian mixture model g of the index m i of the Gaussian distribution is expressed as previously described (1).
事例モデルMのセグメントの生成は、学習用の音声信号のそれぞれに対して行われ、生成された各セグメントを含む事例モデルMは、事例モデル記憶部11(図1)に記憶される。また、環境がクリーンの場合は、フーリエ変換部12から出力された振幅スペクトルデータもクリーン音声の振幅スペクトルとして事例モデル記憶部11(図1)に記憶される。
The generation of the segment of the case model M is performed for each of the learning speech signals, and the generated case model M including each segment is stored in the case model storage unit 11 (FIG. 1). When the environment is clean, the amplitude spectrum data output from the
[事例モデル生成処理]
次に、事例モデル生成処理について説明する。図6は、事例モデル生成装置2による事例モデル生成処理の処理手順を示すフローチャートである。
[Case model generation process]
Next, case model generation processing will be described. FIG. 6 is a flowchart showing a processing procedure of case model generation processing by the case
事例モデル生成装置2において、フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、入力された学習用の音声信号に対し、図4に示すステップS1〜S3と同様の手順でステップS11〜ステップS13の処理を行う。
In the example
ガウス混合モデル学習部25は、前段の特徴量変換部14から入力されたボトルネック特徴量btを学習データとして用い、通常の最尤推定法によりガウス混合モデルgを得るガウス混合モデル学習処理を行う(ステップS14)。
The Gaussian mixture
続いて、最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmiを求め、求めたインデックスmiの時間系列を、事例モデルMの一つのセグメントとして取得する最尤ガウス分布計算処理を行う(ステップS15)。そして、事例モデル生成装置2は、このインデックスmiの時間系列を、事例モデルMの一つのセグメントとして信号処理装置1の事例モデル記憶部11に格納する格納処理を行う(ステップS16)。
Subsequently, the maximum likelihood Gaussian distribution calculation unit 26 calculates an index m i of the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i, the time sequence of the index m i obtained Then, the maximum likelihood Gaussian distribution calculation process acquired as one segment of the case model M is performed (step S15). The case
このように、事例モデル生成装置2では、信号処理装置1に対応させて、ボトルネック特徴量btを用いて事例モデルMの生成を行っている。
As described above, the case
[実施の形態2]
次に、実施の形態2について説明する。実施の形態2では、音響歪みの影響を軽減させるとともに、話者性を考慮したセグメント探索を行う信号処理装置について説明する。
[Embodiment 2]
Next, a second embodiment will be described. In the second embodiment, a signal processing device that performs a segment search in consideration of speaker characteristics while reducing the influence of acoustic distortion will be described.
[信号処理装置の構成]
図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。図7に示すように、実施の形態2に係る信号処理装置201は、図1に示す信号処理装置1と比して、特徴量変換部14と並列に設けられた話者特徴量生成部217と、特徴量変換部14及び話者特徴量生成部217の後段に設けられた連結部218と、をさらに有する。
[Configuration of signal processing apparatus]
FIG. 7 is a block diagram showing the configuration of the signal processing apparatus according to the second embodiment. As shown in FIG. 7, the
話者特徴量生成部217は、話者の特徴を表現した話者特徴量を生成する。話者特徴量生成部217は、特徴量生成部13から出力されるメルケプストラム等の特徴量xtを受け取り、この特徴量xtを用いて、話者性を表現する例えばi-vector等の数十〜数百次元程度の話者特徴量wtを生成する。
The speaker feature value generation unit 217 generates a speaker feature value expressing the features of the speaker. The speaker feature quantity generation unit 217 receives a feature quantity x t such as a mel cepstrum output from the feature
連結部218は、特徴量変換部14が変換したボトルネック特徴量btと、話者特徴量生成部217が生成した話者特徴量wtとを連結した連結特徴量[bt^T,wt^T]^T(Tはベクトルの転置を表す)を生成し、後段のマッチング部15に入力する。
The concatenating
そして、マッチング部15は、連結特徴量[bt^T,wt^T]^Tが混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求める。 Then, the matching unit 15 calculates a posteriori probability indicating the probability that the connected feature value [b t ^ T, w t ^ T] ^ T corresponds to each distribution of the mixed distribution model, and clean speech that takes the highest a posteriori probability. The feature amount is obtained as a clean speech feature amount corresponding to the input signal.
[話者特徴量生成部の処理]
ここで、話者特徴量生成部217による話者特徴量wtの生成処理について説明する。ここでは、話者特徴量生成部217が、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトル(ベクトルwe)を生成する場合について説明する。また、ここでは、GMM−UBM(Universal Background Model)アプローチで、話者認識におけるi-vectorを抽出する方法について説明する。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得るという手法である。UBMは、図示しない記憶部に記憶されている。
[Processing of speaker feature generator]
Here, the generation process of the speaker feature quantity w t by the speaker feature quantity generation unit 217 will be described. Here, the speaker feature amount generating unit 217, will be described for generating a feature vector called i-vector expressed in a vector of several tens to several hundreds dimensional characteristics of the speaker (vector w e). Here, a method for extracting an i-vector in speaker recognition using a GMM-UBM (Universal Background Model) approach will be described. In the GMM-UBM approach, a “voice-like” model (UBM) is learned using a large amount of speech data for UBM learning of a large number of unspecified speakers, and a new speaker model (GMM) This is a technique of adaptively obtaining UBM using a small amount of voice data of a speaker. The UBM is stored in a storage unit (not shown).
以下、i-vectorであるベクトルweの具体的な一連の抽出手順について述べる。i-vectorweを求めるため、まず、実施の形態1に示した(3)式を用いて、信号処理装置201に入力された入力信号eから得られるLフレームの特徴量ベクトル系列Xeの各フレームの特徴量xt(t=1,2,・・・,L)がUBMのm番目のガウス分布から生成される事後確率γt(m)を計算する。続いて、(3)式で計算した事後確率γt(m)を用いて、下記の(8)式〜(12)式に従い、i-vectorweを計算する。 Hereinafter, we describe a specific series of extraction steps in an i-vector vector w e. To determine the i-vectorw e, first, by using the equation (3) shown in the first embodiment, each of the feature vector series X e of L frames obtained from the input signal e that is input to the signal processing unit 201 A posteriori probability γ t (m) in which the feature value x t (t = 1, 2,..., L) of the frame is generated from the mth Gaussian distribution of the UBM is calculated. Subsequently, (3) using the posterior probability gamma t (m) is calculated by the formula, according to (8) to (12) below to calculate the i-vectorw e.
事後確率γt(m)を用いると、UBMを用いた入力信号eに対する0次、1次のBaum-Welch統計量Ne,m、ベクトルFe,mは、下記の(8)式及び(9)式のようにそれぞれ書くことができる。ただし、ベクトルFe,mは、D次元のベクトルである。 Using the posterior probability γ t (m), the 0th-order and 1st-order Baum-Welch statistics N e, m and the vector F e, m for the input signal e using UBM are expressed by the following equation (8) and ( 9) Each can be written as However, the vector F e, m is a D-dimensional vector.
さらに、(8)式及び(9)式を用いて、(10)式及び(11)式のように、0次、1次のBaum-Welch統計量である行列Ne、ベクトルFeを定義する。ただし、行列NeはCD次元×CD次元の行列であり、ベクトルFeはD次元のベクトルである。 Further, using equation (8) and equation (9), a matrix N e and a vector F e that are 0th-order and first-order Baum-Welch statistics are defined as in equations (10) and (11). To do. However, the matrix N e is a CD dimension × CD dimension matrix, and the vector F e is a D dimension vector.
ここで、上記の(10)式の対角成分に現れる行列IDは、D次元×D次元の単位行列である。また、行列Tは、全変動行列と呼ばれるCD次元×M次元の矩形行列(M<<CD)である。行列Σを全変動行列Tで表現できない残留変動成分をモデル化するD次元×D次元の対角共分散行列とする。以上を用いてi-vectorweは、(12)式のように計算できる。 Here, the matrix ID that appears in the diagonal component of the above equation (10) is a D-dimensional × D-dimensional unit matrix. The matrix T is a CD dimension × M dimension rectangular matrix (M << CD) called a total variation matrix. The matrix Σ is a D-dimensional D-dimensional diagonal covariance matrix that models residual fluctuation components that cannot be expressed by the total fluctuation matrix T. I-vectorw e using the above can be calculated as (12).
なお、(12)式における行列IMは、M次元×M次元の単位行列である。(12)式に示すベクトルweが入力音声データeに対するM次元のi-vectorである。話者特徴量生成部217は、このベクトルweを、話者特徴量wtとして、連結部218に出力する。
Note that (12) matrix I M in formula is a unit matrix of the M-dimensional × M dimension. (12) a i-vector of M dimension for vector w e is input voice data e in the expression. Speaker feature amount generating unit 217, the vector w e, as the speaker characteristic quantity w t, and outputs the
[信号処理装置の処理]
そこで、信号処理装置201が強調音声信号を出力するまでの処理について説明する。
図8は、信号処理装置201が実行する処理手順を示すフローチャートである。
[Processing of signal processor]
Therefore, a process until the
FIG. 8 is a flowchart showing a processing procedure executed by the
ステップS21〜ステップS23は、図1に示すステップS1〜S3である。そして、話者特徴量生成部217は、入力された特徴量xtを用いて、話者特徴量wtを生成する話者特徴量生成処理を行う(ステップS24)。なお、ステップS23及びステップS24は、例えば、並列に実行される。 Steps S21 to S23 are steps S1 to S3 shown in FIG. The speaker feature amount generating unit 217, by using the input feature amount x t, performs speaker feature quantity generation process for generating a speaker characteristic quantity w t (step S24). Note that step S23 and step S24 are executed in parallel, for example.
連結部218は、特徴量変換部14が変換したボトルネック特徴量btと、話者特徴量生成部217が生成した話者特徴量wtとを連結した連結特徴量[bt^T,wt^T]^T(Tはベクトルの転置を表す)を生成する連結処理を行う(ステップS25)。
The concatenating
マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントに対するマッチング対象として、連結部218が生成した連結特徴量[bt^T,wt^T]^Tを用い、図4のステップS4と同様の処理手順を行って、マッチング処理を行う(ステップS26)。図8に示すステップS27は、図4に示すステップS5である。
The matching unit 15 uses the connected feature [b t ^ T, w t ^ T] ^ T generated by the connecting
[実施の形態2の効果]
音声認識においては、話者性は不要な情報であるので、DNN−HMM音響モデルを通す特徴量変換処理では、話者性を軽減するような特徴量変換を行う。したがって、特徴量変換部14においては、DNN−HMM音響モデルを通してボトルネック特徴量を抽出する際に、話者性も軽減している。そこで、実施の形態2では、話者性が軽減されたボトルネック特徴量btに話者特徴量wtを連結した連結特徴量を用いて、マッチング部15によるセグメント探索を行ことによって、最終的に信号処理装置201から出力される強調音声信号を、話者性を含ませたものとすることができる。
[Effect of Embodiment 2]
In speech recognition, speaker characteristics are unnecessary information. Therefore, in the feature value conversion processing through the DNN-HMM acoustic model, feature value conversion that reduces speaker characteristics is performed. Therefore, when the feature
このように、実施の形態2では、音響歪みの影響を軽減したボトルネック特徴量と話者性を表現する話者特徴量とを連結して用いることで、マッチング部15において、音響歪みの影響が軽減し、かつ、話者性を考慮したセグメント探索を行うことが可能になる。 As described above, in the second embodiment, the matching unit 15 uses the influence of the acoustic distortion by connecting the bottleneck feature quantity that reduces the influence of the acoustic distortion and the speaker feature quantity that expresses the speaker characteristics. This makes it possible to perform segment search in consideration of speaker characteristics.
[信号処理装置及び事例モデル生成装置の構成について]
なお、この発明は、複数の音響歪み(雑音/残響環境)の事例モデルを考慮する際の時間、及び、マッチング時に時間伸縮について考慮する際の時間は、非特許文献1に記載されているように、拡張可能である。また、事例モデル記憶部11は、例えば、出願人による特開2015−152704号公報に記載された木構造化構成を適用したセグメントを含む事例モデルMを記憶していてもよい。この場合、マッチング部15は、この木構造化構成のセグメントを含む事例モデルMから、入力信号に対応するセグメントに最も類似したセグメントを探索してもよい。また、マッチング部15は、例えば、出願人による特開2015−152705号公報に記載されたセグメント評価関数を用いてセグメント探索を行ってもよい。
[Configuration of Signal Processing Device and Case Model Generation Device]
In the present invention, the time when considering a case model of a plurality of acoustic distortions (noise / reverberation environment) and the time when considering time expansion and contraction at the time of matching are described in
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置1,201及び事例モデル生成装置2は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or a part of the distribution / integration is functionally or physically distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 In addition, among the processes described in this embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, each process described in the present embodiment is not only executed in time series according to the order of description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. . In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
[プログラム]
図9は、プログラムが実行されることにより、信号処理装置或いは学習モデル生成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 9 is a diagram illustrating an example of a computer in which a signal processing device or a learning model generation device is realized by executing a program. The
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
The
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置、学習モデル生成装置の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、信号処理装置、学習モデル生成装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
The hard disk drive 1031 stores, for example, an
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
Note that the
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。 As mentioned above, although embodiment which applied the invention made | formed by this inventor was described, this invention is not limited with the description and drawing which make a part of indication of this invention by this embodiment. That is, other embodiments, examples, operation techniques, and the like made by those skilled in the art based on this embodiment are all included in the scope of the present invention.
1,1P,201 信号処理装置
2 事例モデル生成装置
11,11P 事例モデル記憶部
12,12P フーリエ変換部
13,13P 特徴量生成部
14 特徴量変換部
15,15P マッチング部
16,16P 音声強調フィルタリング部
25 ガウス混合モデル学習部
26 最尤ガウス分布計算部
217 話者特徴量生成部
218 連結部
1, 1P, 201
Claims (5)
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、
前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、
前記信号処理装置が、話者の特徴を表現した話者特徴量を生成する話者特徴量生成工程と、
前記信号処理装置が、前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結工程と、
前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、
前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、
を含んだことを特徴とする信号処理方法。 A signal processing method executed by a signal processing device,
The signal processing apparatus includes a storage unit that stores a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned,
A feature amount generating step in which the signal processing device generates a first feature amount from an input signal;
A feature amount conversion step in which the signal processing device converts the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature generating step in which the signal processing device generates a speaker feature that expresses the feature of the speaker;
A connecting step in which the signal processing device generates a connected feature value obtained by connecting the second feature value and the speaker feature value;
The signal processing device calculates a posterior probability indicating the probability that the connected feature value corresponds to each distribution of the mixed distribution model based on the parameters of the mixed distribution model stored in the storage unit, and has the highest posterior A collation step for obtaining a clean speech feature value taking a probability as a clean speech feature value corresponding to the input signal;
An output step in which the signal processing device outputs an enhanced speech signal obtained by multiplying the input signal by a filter configured from the clean speech feature value obtained in the matching step;
A signal processing method comprising:
前記信号処理装置が、前記第3の特徴量に対して前記雑音又は音響歪みの低減処理を施した第4の特徴量を生成する学習用特徴量変換工程と、
前記信号処理装置が、前記第4の特徴量を学習データとして、最尤推定法によりガウス混合分布モデルを取得するガウス混合モデル学習工程と、
前記信号処理装置が、各時間に対して最大の尤度を与える前記ガウス混合分布モデルの中のガウス分布のインデックスを求め、該インデックスの時間系列を取得する最尤ガウス分布計算工程と、
前記信号処理装置が、前記インデックスの時間系列を、前記混合分布モデルのパラメータとして前記記憶部に格納する格納工程と、
を含んだことを特徴とする請求項1または2に記載の信号処理方法。 A learning feature value generation step in which the signal processing device generates a third feature value from an input signal for learning;
A learning feature value conversion step in which the signal processing device generates a fourth feature value obtained by performing the noise or acoustic distortion reduction process on the third feature value;
A Gaussian mixture model learning step in which the signal processing device acquires a Gaussian mixture distribution model by a maximum likelihood estimation method using the fourth feature amount as learning data;
A maximum likelihood Gaussian distribution calculating step in which the signal processing device obtains an index of a Gaussian distribution in the Gaussian mixture distribution model giving the maximum likelihood for each time, and obtains a time series of the index;
A storing step in which the signal processing apparatus stores the time series of the index in the storage unit as a parameter of the mixed distribution model;
The signal processing method according to claim 1 or 2, characterized in that it contained.
入力信号から第1の特徴量を生成する特徴量生成部と、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換部と、
話者の特徴を表現した話者特徴量を生成する話者特徴量生成部と、
前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結部と、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合部と、
前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
を有することを特徴とする信号処理装置。 A storage unit for storing a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned;
A feature quantity generator for generating a first feature quantity from an input signal;
A feature amount conversion unit that converts the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature value generating unit for generating speaker feature values expressing speaker characteristics;
A connecting unit that generates a connected feature value obtained by connecting the second feature value and the speaker feature value;
Based on the parameters of the mixed distribution model stored in the storage unit, a posterior probability indicating the probability that the connected feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature having the highest posterior probability A matching unit for obtaining a quantity as a clean speech feature corresponding to the input signal;
An output unit that outputs an emphasized speech obtained by multiplying the input signal by a filter composed of clean speech feature values obtained by the matching unit;
A signal processing apparatus comprising:
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
入力信号から第1の特徴量を生成する特徴量生成ステップと、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換ステップと、
話者の特徴を表現した話者特徴量を生成する話者特徴量生成ステップと、
前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結ステップと、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合ステップと、
前記照合ステップにおいて求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力ステップと、
を前記信号処理装置に実行させるための信号処理プログラム。 A signal processing program for causing a signal processing device to execute,
The signal processing apparatus includes a storage unit that stores a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned,
A feature value generation step for generating a first feature value from an input signal;
A feature amount conversion step of converting the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature generating step for generating a speaker feature expressing a speaker feature;
A connecting step of generating a connected feature value obtained by connecting the second feature value and the speaker feature value;
Based on the parameters of the mixed distribution model stored in the storage unit, a posterior probability indicating the probability that the connected feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature having the highest posterior probability A collation step for obtaining a quantity as a clean speech feature corresponding to the input signal;
An output step of outputting an enhanced speech signal obtained by multiplying the input signal by a filter composed of clean speech feature values obtained in the collating step;
A signal processing program for causing the signal processing device to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016015464A JP6499095B2 (en) | 2016-01-29 | 2016-01-29 | Signal processing method, signal processing apparatus, and signal processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016015464A JP6499095B2 (en) | 2016-01-29 | 2016-01-29 | Signal processing method, signal processing apparatus, and signal processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017134321A JP2017134321A (en) | 2017-08-03 |
JP6499095B2 true JP6499095B2 (en) | 2019-04-10 |
Family
ID=59502775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016015464A Active JP6499095B2 (en) | 2016-01-29 | 2016-01-29 | Signal processing method, signal processing apparatus, and signal processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6499095B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6673861B2 (en) * | 2017-03-02 | 2020-03-25 | 日本電信電話株式会社 | Signal processing device, signal processing method and signal processing program |
JP6734233B2 (en) * | 2017-08-03 | 2020-08-05 | 日本電信電話株式会社 | Signal processing device, case model generation device, collation device, signal processing method, and signal processing program |
CN110379412B (en) * | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | Voice processing method and device, electronic equipment and computer readable storage medium |
JP2021105684A (en) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | Speech-in-noise recognition device and speech-in-noise recognition system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015040931A (en) * | 2013-08-21 | 2015-03-02 | 日本電気株式会社 | Signal processing device, voice processing device, signal processing method, and voice processing method |
JP6139430B2 (en) * | 2014-02-13 | 2017-05-31 | 日本電信電話株式会社 | Signal processing apparatus, method and program |
-
2016
- 2016-01-29 JP JP2016015464A patent/JP6499095B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017134321A (en) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423670B2 (en) | Acoustic model learning device and speech recognition device | |
US8762142B2 (en) | Multi-stage speech recognition apparatus and method | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
JP6499095B2 (en) | Signal processing method, signal processing apparatus, and signal processing program | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
KR102406512B1 (en) | Method and apparatus for voice recognition | |
JP5974901B2 (en) | Sound segment classification device, sound segment classification method, and sound segment classification program | |
JP5881454B2 (en) | Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal | |
Chang et al. | On the importance of modeling and robustness for deep neural network feature | |
JP6784255B2 (en) | Speech processor, audio processor, audio processing method, and program | |
JP4964194B2 (en) | Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof | |
JP6142401B2 (en) | Speech synthesis model learning apparatus, method, and program | |
JP6367773B2 (en) | Speech enhancement device, speech enhancement method, and speech enhancement program | |
JP2011033879A (en) | Identifying method capable of identifying all languages without using samples | |
Harvianto et al. | Analysis and voice recognition In Indonesian language using MFCC and SVM method | |
JP2008064849A (en) | Sound model creation device, speech recognition device using the same, method, program and recording medium therefore | |
JP6167063B2 (en) | Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof | |
JP6734233B2 (en) | Signal processing device, case model generation device, collation device, signal processing method, and signal processing program | |
JP6139430B2 (en) | Signal processing apparatus, method and program | |
JP6728083B2 (en) | Intermediate feature amount calculation device, acoustic model learning device, speech recognition device, intermediate feature amount calculation method, acoustic model learning method, speech recognition method, program | |
JP2019028406A (en) | Voice signal separation unit, voice signal separation method, and voice signal separation program | |
JP4004368B2 (en) | Speech recognition system | |
Pawar et al. | Realization of Hidden Markov Model for English Digit Recognition | |
JP7333878B2 (en) | SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM | |
Ibrahim et al. | AUTOMATIC SPEECH RECOGNITION USING MFCC IN FEATURE EXTRACTION BASED HMM FOR HUMAN COMPUTER INTERACTION IN HAUSA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6499095 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |