JP6499095B2 - Signal processing method, signal processing apparatus, and signal processing program - Google Patents

Signal processing method, signal processing apparatus, and signal processing program Download PDF

Info

Publication number
JP6499095B2
JP6499095B2 JP2016015464A JP2016015464A JP6499095B2 JP 6499095 B2 JP6499095 B2 JP 6499095B2 JP 2016015464 A JP2016015464 A JP 2016015464A JP 2016015464 A JP2016015464 A JP 2016015464A JP 6499095 B2 JP6499095 B2 JP 6499095B2
Authority
JP
Japan
Prior art keywords
feature
signal processing
feature amount
unit
feature value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016015464A
Other languages
Japanese (ja)
Other versions
JP2017134321A (en
Inventor
小川 厚徳
厚徳 小川
慶介 木下
慶介 木下
マーク デルクロア
マーク デルクロア
拓也 吉岡
拓也 吉岡
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016015464A priority Critical patent/JP6499095B2/en
Publication of JP2017134321A publication Critical patent/JP2017134321A/en
Application granted granted Critical
Publication of JP6499095B2 publication Critical patent/JP6499095B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理方法、信号処理装置及び信号処理プログラムに関する。   The present invention relates to a signal processing method, a signal processing device, and a signal processing program.

従来、音声認識システム、補聴器、TV会議システム、機械制御インターフェース、楽曲の検索及び採譜のための音楽情報処理システム等において、マイクロホンを用いて音響信号を収音し、目的の音声信号の成分を抽出する技術が利用されている。   Conventionally, in a speech recognition system, a hearing aid, a video conference system, a machine control interface, a music information processing system for searching and recording music, etc., an acoustic signal is collected using a microphone and a component of the target audio signal is extracted. Technology is used.

一般的に、雑音や残響のある実環境でマイクロホンを用いて音響信号を収音すると、収音目的の音声信号だけでなく、雑音や残響(音響歪み)が重畳された信号が観測される。しかしながら、これらの雑音や残響が信号に重畳されると、収音目的の音声信号の成分の抽出が困難となり、音声信号の明朗度や聞き取りやすさを大きく低下させてしまう要因となる。この結果、例えば、音声認識システムの認識率が低下してしまうという問題があった。   In general, when a sound signal is collected using a microphone in a real environment with noise and reverberation, not only a sound signal for sound collection but also a signal on which noise and reverberation (acoustic distortion) are superimposed is observed. However, when these noises and reverberations are superimposed on the signal, it becomes difficult to extract the components of the sound signal for sound collection, which causes a significant reduction in the clarity and ease of hearing of the sound signal. As a result, for example, there is a problem that the recognition rate of the voice recognition system is lowered.

そこで、音声信号に重畳した雑音や残響を取り除く技術が提案されている(例えば、非特許文献1参照)。例えば、図10を参照して、従来の音声信号の信号処理装置について説明する。図10は、従来の信号処理装置の構成の一例を示すブロック図である。なお、図10に示す信号処理装置1Pは、ガウス混合分布モデル(GMM:Gaussian Mixture Model)によって表現された事例モデルを用いて、入力音声を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルを収音目的の音声信号候補としていく。   Therefore, a technique for removing noise and reverberation superimposed on an audio signal has been proposed (see, for example, Non-Patent Document 1). For example, a conventional audio signal processing apparatus will be described with reference to FIG. FIG. 10 is a block diagram showing an example of the configuration of a conventional signal processing apparatus. Note that the signal processing device 1P shown in FIG. 10 uses the case model expressed by a Gaussian Mixture Model (GMM) to check the similarity with the feature value obtained by converting the input speech, and the high similarity The example model that indicates is used as a sound signal candidate for sound collection.

この従来の信号処理装置1Pには、事例モデル記憶部11Pに、事前に学習された混合分布モデルによって表現された事例モデルが記憶されている。具体的には、事例モデル記憶部11Pには、各事例に対応したクリーン音声の振幅スペクトルと、フレームごとの特徴量(例えば、メル周波数ケプストラム係数)に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を含む事例モデルとが記憶されている。   In this conventional signal processing apparatus 1P, a case model expressed by a mixture distribution model learned in advance is stored in the case model storage unit 11P. Specifically, in the case model storage unit 11P, the Gaussian mixture distribution that gives the maximum likelihood to the amplitude spectrum of clean speech corresponding to each case and the feature amount (for example, Mel frequency cepstrum coefficient) for each frame. A case model including a series (segment) of indexes is stored.

まず、フーリエ変換部12Pが、音響歪みを含む入力信号を離散フーリエ変換して振幅スペクトルを取得し、特徴量生成部13Pが、振幅スペクトルから、特徴量のセグメントを生成する。   First, the Fourier transform unit 12P obtains an amplitude spectrum by performing discrete Fourier transform on the input signal including the acoustic distortion, and the feature amount generation unit 13P generates a segment of the feature amount from the amplitude spectrum.

続いて、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと事例モデル記憶部11Pの事例モデルに含まれるセグメントとのマッチングを行い、事例モデルの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最も高い類似度を示すセグメントを探索する。具体的には、マッチング部15Pが、事例モデルのセグメントの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最大の事後確率を与えるセグメントを探索する。   Subsequently, the matching unit 15P performs matching between the segment of the feature amount generated by the feature amount generation unit 13P and the segment included in the case model of the case model storage unit 11P, and from the case model, the feature amount generation unit 13P The segment having the highest similarity to the segment of the feature amount generated by is searched. Specifically, the matching unit 15P searches the segment of the case model for a segment that gives the maximum posterior probability with respect to the feature amount segment generated by the feature amount generation unit 13P.

そして、音声強調フィルタリング部16Pが、マッチング部15Pが探索した事例モデルのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11Pから、このクリーン音声の振幅スペクトルを読み出して音声強調のためのフィルタを作成する。このフィルタで入力信号をフィルタリングすることによって、入力信号から音響歪みが除去された強調音声信号が得られる。   Then, the speech enhancement filtering unit 16P regards the clean speech amplitude spectrum corresponding to the feature quantity of the segment of the case model searched by the matching unit 15P as the clean speech amplitude spectrum most similar to the input signal, and the case model storage unit. From 11P, the amplitude spectrum of the clean speech is read out to create a filter for speech enhancement. By filtering the input signal with this filter, an enhanced speech signal from which acoustic distortion has been removed from the input signal is obtained.

J. Ming and R. Srinivasan, and D. Crookes, “A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise,” IEEE Transactions on Audio, Speech, and Language Processing, Vol.19, No.4, pp.822-836, 2011J. Ming and R. Srinivasan, and D. Crookes, “A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise,” IEEE Transactions on Audio, Speech, and Language Processing, Vol.19, No.4, pp.822- 836, 2011

このように、従来の信号処理装置1Pは、入力音声に最も類似するクリーン音声の振幅スペクトルを求めるために、特徴量生成部13Pが生成した特徴量のセグメントを用いて、事例モデル記憶部11Pの事例モデルの中から、最大の事後確率を与えるセグメントを探索する。   As described above, the conventional signal processing device 1P uses the feature amount segment generated by the feature amount generation unit 13P in order to obtain the amplitude spectrum of the clean sound most similar to the input sound. A segment that gives the maximum posterior probability is searched from the case model.

しかしながら、セグメント探索に用いるメル周波数ケプストラム係数は、振幅スペクトルから得られる単純な特徴量である。このため、入力信号に雑音や残響が含まれる場合には、メル周波数ケプストラム係数も雑音や残響の影響を含むものとなり、マッチング部15Pによるセグメント探索は、必ずしも高精度であるとは言えなかった。   However, the mel frequency cepstrum coefficient used for the segment search is a simple feature amount obtained from the amplitude spectrum. For this reason, when noise and reverberation are included in the input signal, the mel frequency cepstrum coefficient also includes the influence of noise and reverberation, and the segment search by the matching unit 15P is not necessarily highly accurate.

また、事例モデルは、種々の音響歪み環境を想定して準備するものの、現実的に、全ての音響歪み環境に対応する事例モデルを準備することは困難であるため、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと高い類似度を有するセグメントを事例モデルの中から探索できない場合があった。   In addition, although the case model is prepared assuming various acoustic distortion environments, it is actually difficult to prepare case models corresponding to all the acoustic distortion environments. In some cases, a segment having a high degree of similarity with the feature amount segment generated by the generation unit 13P cannot be searched from the case model.

したがって、従来の信号処理装置では、探索に用いる特徴量が雑音や残響の影響を受けるため、入力信号に類似するクリーン音声の特徴量を探索する精度にも限界があった。   Therefore, in the conventional signal processing apparatus, since the feature amount used for the search is affected by noise and reverberation, there is a limit to the accuracy of searching for the clean speech feature amount similar to the input signal.

本発明は、上記に鑑みてなされたものであって、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減した信号処理方法、信号処理装置及び信号処理プログラムを提供することを目的とする。   The present invention has been made in view of the above, and it is an object of the present invention to provide a signal processing method, a signal processing apparatus, and a signal processing program that reduce the influence of noise and reverberation on a search for clean speech similar to an input signal. And

上述した課題を解決し、目的を達成するために、本発明に係る信号処理方法は、信号処理装置で実行される信号処理方法であって、前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、を含んだことを特徴とする。   In order to solve the above-described problems and achieve the object, a signal processing method according to the present invention is a signal processing method executed by a signal processing device, and the signal processing device is a voice including noise or acoustic distortion. Or it has a storage part which memorizes the mixture distribution model which learned clean speech, the signal processing device generates the 1st feature amount from an input signal, and the signal processing device has the 1st above-mentioned A feature amount conversion step of converting the feature amount of the second feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing, and the signal processing device based on the parameters of the mixed distribution model stored in the storage unit. In addition, a posterior probability indicating the probability that the second feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature amount having the highest posterior probability is defined as a clean speech feature amount corresponding to the input signal. A matching step, and the signal processing device includes an output step of outputting an enhanced speech signal obtained by multiplying the input signal by a filter composed of the clean speech feature obtained in the matching step. Features.

本発明によれば、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減することができる。   According to the present invention, it is possible to reduce the influence of noise and reverberation on a search for clean speech similar to an input signal.

図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。FIG. 1 is a diagram schematically illustrating an example of the configuration of the signal processing device according to the first embodiment. 図2は、セグメントの一例を説明するための図である。FIG. 2 is a diagram for explaining an example of a segment. 図3は、図1に示す特徴量変換部の処理を説明するための概念図である。FIG. 3 is a conceptual diagram for explaining processing of the feature amount conversion unit shown in FIG. 図4は、図1に示す信号処理装置が実行する処理手順を示すフローチャートである。FIG. 4 is a flowchart showing a processing procedure executed by the signal processing apparatus shown in FIG. 図5は、実施の形態1に係る事例モデル生成装置の機能構成例を示すブロック図である。FIG. 5 is a block diagram illustrating a functional configuration example of the case model generation apparatus according to the first embodiment. 図6は、図5に示す事例モデル生成装置による事例モデル生成処理の処理手順を示すフローチャートである。FIG. 6 is a flowchart showing a processing procedure of case model generation processing by the case model generation apparatus shown in FIG. 図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。FIG. 7 is a block diagram showing the configuration of the signal processing apparatus according to the second embodiment. 図8は、図7に示す信号処理装置が実行する処理手順を示すフローチャートである。FIG. 8 is a flowchart showing a processing procedure executed by the signal processing apparatus shown in FIG. 図9は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。FIG. 9 is a diagram illustrating an example of a computer in which a signal processing apparatus is realized by executing a program. 図10は、従来の信号処理装置の構成の一例を示すブロック図である。FIG. 10 is a block diagram showing an example of the configuration of a conventional signal processing apparatus.

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited by this embodiment. Moreover, in description of drawing, the same code | symbol is attached | subjected and shown to the same part.

[実施の形態1]
まず、実施の形態1に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響(音響歪み)を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。
[Embodiment 1]
First, the signal processing apparatus according to the first embodiment will be described. This signal processing device is a device that performs processing for removing acoustic distortion from an input signal including noise and reverberation (acoustic distortion) and outputting a clear enhanced speech signal.

[信号処理装置の構成]
図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。実施の形態1に係る信号処理装置1は、例えば、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
[Configuration of signal processing apparatus]
FIG. 1 is a diagram schematically illustrating an example of the configuration of the signal processing device according to the first embodiment. For example, the signal processing apparatus 1 according to the first embodiment reads a predetermined program into a computer or the like including, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), and the like. Is realized by executing a predetermined program.

図1に示すように、信号処理装置1は、事例モデル記憶部11、フーリエ変換部12、特徴量生成部13、特徴量変換部14、マッチング部15(照合部)及び音声強調フィルタリング部16(出力部)を有する。信号処理装置1は、GMMによって表現された事例モデルMを用いて、入力信号を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルMを収音目的の音声信号候補として利用する。   As shown in FIG. 1, the signal processing apparatus 1 includes a case model storage unit 11, a Fourier transform unit 12, a feature amount generation unit 13, a feature amount conversion unit 14, a matching unit 15 (collation unit), and a speech enhancement filtering unit 16 ( Output section). The signal processing apparatus 1 uses the case model M expressed by the GMM to check the similarity with the feature amount obtained by converting the input signal, and uses the case model M showing a high similarity as a speech signal candidate for sound collection purposes. Use.

事例モデル記憶部11は、音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する。具体的には、事例モデル記憶部11は、事例に対応したクリーン音声のデータと、事例モデルMとが記憶される。クリーン音声のデータは、例えば、事例に対応したクリーン音声の振幅スペクトルのことである。また、事例モデルMは、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を、混合分布モデルのパラメータとして含む。   The case model storage unit 11 stores a mixed distribution model obtained by learning speech including acoustic distortion or clean speech. Specifically, the case model storage unit 11 stores clean voice data corresponding to a case and a case model M. The clean voice data is, for example, the amplitude spectrum of clean voice corresponding to the case. In addition, the case model M includes, as a parameter of the mixed distribution model, a sequence (segment) of a Gaussian mixed distribution index that gives the maximum likelihood to the feature amount for each frame.

ここで、事例モデルMは、事前に事例モデル生成装置2(後述)によって生成され、事例モデル記憶部11に格納される。事例モデル生成装置2は、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、様々な環境での観測信号を学習用の音声信号として模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事例モデルMを生成する。   Here, the case model M is generated in advance by the case model generation device 2 (described later) and stored in the case model storage unit 11. The example model generation device 2 uses a large amount of clean speech obtained from a speech corpus and noise and reverberation data (noise signal waveform, indoor impulse response, etc.) obtained in various environments, and in various environments. A case model M is generated by using the observation signal that is simulated and generated as a speech signal for learning, and the simulated observation signal is converted into a feature amount region.

具体的には、事例モデル生成装置2(後述)によって、学習用の音声信号の特徴量を基に、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmが求められ、該求められたインデックスmの時間系列(セグメント)が、事例モデルMの一つとなる。この事例モデルMは、ガウス混合モデルgの中のガウス分布のインデックスmの集合とガウス混合モデルgとを用いて以下の(1)式に示すように表される。 Specifically, the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i based on the feature amount of the speech signal for learning by the case model generation device 2 (described later). index m i is determined, the sought time sequence index m i (segment), and one case model M. This case model M is expressed as shown in the following (1) equation by using the set and Gaussian mixture model g of the index m i of the Gaussian distribution in the Gaussian mixture model g.

Figure 0006499095
Figure 0006499095

なお、mは、i番目のフレームの特徴量kに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布mの中のガウス分布g(k|m)を表している。Iは学習用の音声信号の総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×10となる。 Incidentally, m i is the index of the Gaussian distribution that gives the maximum likelihood for the feature amount k i of i-th frame, Gaussian g in Gaussian mixture m | represents (k i m) Yes. I represents the total number of frames of the speech signal for learning. For example, assuming 1 hour of learning data, I = 3.5 × 10 5 .

そして、事例モデルMに含まれるセグメントの例を説明する。図2は、セグメントの一例を説明するための図である。例えば、図2に示すセグメントの各セルは、Iフレームのうちi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合モデルg中のガウス分布のインデックスmを表す。 An example of segments included in the case model M will be described. FIG. 2 is a diagram for explaining an example of a segment. For example, each cell of the segment shown in FIG. 2 corresponds to the i-th time frame of the I frame. The numbers in each cell represents the index m i of the Gaussian distribution of the Gaussian mixed model g that gives the maximum likelihood.

フーリエ変換部12は、入力信号をフレームごとに振幅スペクトルに変換する。この入力信号として、雑音及び残響を含む音声信号がフーリエ変換部12に入力される。まず、フーリエ変換部12は、入力信号の波形データを短い時間幅で切り出す。例えば、フーリエ変換部12は、30(msec)程度の短時間ハミング窓等の窓関数を掛け合わせて入力信号を短い時間幅で切り出す。続いて、フーリエ変換部12は、切り出した入力信号に離散フーリエ変換処理を実行し、振幅スペクトルに変換する。なお、振幅スペクトルとは、周波数スペクトルの振幅データのことである。フーリエ変換部12は、変換後の振幅スペクトルを、特徴量生成部13及び音声強調フィルタリング部16に入力する。   The Fourier transform unit 12 converts the input signal into an amplitude spectrum for each frame. An audio signal including noise and reverberation is input to the Fourier transform unit 12 as this input signal. First, the Fourier transform unit 12 cuts out waveform data of an input signal with a short time width. For example, the Fourier transform unit 12 cuts out an input signal with a short time width by multiplying a window function such as a short-time Hamming window of about 30 (msec). Subsequently, the Fourier transform unit 12 performs a discrete Fourier transform process on the extracted input signal to convert it into an amplitude spectrum. The amplitude spectrum is amplitude data of the frequency spectrum. The Fourier transform unit 12 inputs the converted amplitude spectrum to the feature value generation unit 13 and the speech enhancement filtering unit 16.

特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから特徴量(第1の特徴量)xを生成する。言い換えると、特徴量生成部13は、フーリエ変換部12から入力された振幅スペクトルから特徴量xのセグメントを生成する。なお、tは、処理対象のフレームとする。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、メル周波数ケプストラム係数に変換する。これによって、入力信号は、フレームごとに、特徴量ベクトルのセグメントとして表される。 The feature quantity generation unit 13 generates a feature quantity (first feature quantity) x t from the amplitude spectrum output from the Fourier transform unit 12. In other words, the feature quantity generation unit 13 generates a segment of the feature quantity x t from the amplitude spectrum input from the Fourier transform unit 12. Note that t is a frame to be processed. The feature value generation unit 13 converts all of the amplitude spectrum output from the Fourier transform unit 12 into, for example, a mel frequency cepstrum coefficient. As a result, the input signal is represented as a segment of a feature vector for each frame.

ここで、一般的に使用されているメル周波数ケプストラム係数は、10〜20次程度である。信号処理装置1では、事例モデルMを正確に表すために、一般的に使用されている次数よりも高い次数(例えば、30〜100次程度)のメル周波数ケプストラム係数を用いる。このため、特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、30〜100次程度のメル周波数ケプストラム係数に変換する。なお、特徴量生成部13は、メル周波数ケプストラム係数以外の特徴量(例えば、ケプストラム係数等)を用いてもよい。特徴量生成部13は、生成した特徴量xを、特徴量変換部14に入力する。 Here, the mel frequency cepstrum coefficient generally used is about 10 to 20th order. In the signal processing device 1, in order to accurately represent the case model M, a mel frequency cepstrum coefficient having a higher order (for example, about 30 to 100th order) than a generally used order is used. For this reason, the feature quantity generation unit 13 converts all of the amplitude spectrum output from the Fourier transform unit 12 into, for example, a mel frequency cepstrum coefficient of about 30 to 100th order. Note that the feature quantity generation unit 13 may use a feature quantity (for example, a cepstrum coefficient) other than the mel frequency cepstrum coefficient. The feature quantity generation unit 13 inputs the generated feature quantity xt to the feature quantity conversion unit 14.

特徴量変換部14は、特徴量生成部13が生成した特徴量xを、雑音又は残響(音響歪み)の低減処理を施した特徴量(第2の特徴量)に変換する。すなわち、特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高い特徴量に変換する。 The feature amount conversion unit 14 converts the feature amount x t generated by the feature amount generation unit 13 into a feature amount (second feature amount) subjected to noise or reverberation (acoustic distortion) reduction processing. That is, the feature amount conversion unit 14 converts the feature amount generated by the feature amount generation unit 13 such as a mel frequency cepstrum coefficient into a feature amount having high acoustic distortion resistance.

具体的には、特徴量変換部14は、特徴量生成部13が生成した特徴量xを、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルにおける非線形な特徴量変換を多段に適用して変換した、音響歪み耐性の高いボトルネック特徴量bを生成する。この場合、特徴量変換部14は、処理対象フレームの特徴量のセグメントのみでなく、その前後の所定数のフレームの特徴量のセグメントも用いて、ボトルネック特徴量bを生成する。ボトルネック特徴量bは、ニューラルネットワークの中間層のユニットを少なく抑えたボトルネック構造のネットワークから抽出される。ボトルネック構造の中間層で抽出している特徴量は、入力特徴量を次元圧縮された音響歪み耐性がある特徴量である。特徴量変換部14は、生成したボトルネック特徴量bを、マッチング部15に入力する。 Specifically, the feature amount conversion unit 14 uses the feature amount x t generated by the feature amount generation unit 13 in a DNN (Deep Neural Network) -HMM (Hidden Markov Model) acoustic model. A bottleneck feature quantity b t having high acoustic distortion resistance is generated by applying nonlinear feature quantity transformation in multiple stages. In this case, the feature amount conversion unit 14 generates the bottleneck feature amount b t by using not only the feature amount segment of the processing target frame but also the feature amount segments of a predetermined number of frames before and after the feature amount segment. The bottleneck feature amount b t is extracted from a network having a bottleneck structure in which the number of intermediate layer units of the neural network is reduced. The feature quantity extracted in the intermediate layer of the bottleneck structure is a feature quantity having acoustic distortion resistance obtained by dimension-compressing the input feature quantity. The feature amount conversion unit 14 inputs the generated bottleneck feature amount b t to the matching unit 15.

なお、「音響歪み耐性がある特徴量」とは、同じ入力音声に対して、例えば、異なる二つの音響歪みが付加されていると仮定した場合に、これら二つの異なる音響歪みが付加された入力音声に対して生成した二つの特徴量が「似通っている」ことをいう。言い換えれば、「音響歪み耐性がある特徴量」は、音響歪みの影響が軽減された特徴量である。   Note that the “characteristic amount having acoustic distortion resistance” is an input in which two different acoustic distortions are added, for example, assuming that two different acoustic distortions are added to the same input voice. Two feature values generated for speech are "similar". In other words, the “characteristic amount having acoustic distortion resistance” is a characteristic quantity in which the influence of the acoustic distortion is reduced.

マッチング部15は、事例モデルMを用いて、入力された入力音声の特徴量との類似度を調べ、高い類似度を示した事例モデルMに対応するクリーン音声を収音目的の音声信号候補としていく。具体的には、マッチング部15は、事例モデル記憶部11に記憶された混合分布モデルのパラメータを基に、入力された特徴量(特徴量変換部14が変換したボトルネック特徴量b)が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声の特徴量として求める。 The matching unit 15 uses the case model M to check the similarity with the feature amount of the input speech that has been input, and uses the clean speech corresponding to the case model M showing a high similarity as a speech signal candidate for sound collection. Go. Specifically, the matching unit 15 uses the input feature value (the bottleneck feature value b t converted by the feature value conversion unit 14) based on the parameters of the mixed distribution model stored in the case model storage unit 11. A posteriori probability indicating the probability corresponding to each distribution of the mixed distribution model is calculated, and a clean speech feature value having the highest posterior probability is obtained as a clean speech feature value corresponding to the input signal.

言い換えると、マッチング部15は、特徴量変換部14から入力された特徴量(ボトルネック特徴量b)のセグメントと事例モデル記憶部11の事例モデルMに含まれるセグメントとのマッチングを行い、事例モデル記憶部11の事例モデルMの中から、入力された特徴量のセグメントに対して最も高い事後確率をとるセグメントを探索する。マッチング部15は、探索により見つかった事例モデルM中のセグメントについての情報を、音声強調フィルタリング部16に入力する。なお、マッチング部15の処理の詳細については、後述する。 In other words, the matching unit 15 performs matching between the segment of the feature amount (bottleneck feature amount b t ) input from the feature amount conversion unit 14 and the segment included in the case model M of the case model storage unit 11, and The segment having the highest posterior probability with respect to the input feature amount segment is searched from the case model M in the model storage unit 11. The matching unit 15 inputs information about the segments in the case model M found by the search to the speech enhancement filtering unit 16. Details of the processing of the matching unit 15 will be described later.

音声強調フィルタリング部16は、マッチング部15によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声信号を出力する。具体的には、音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11から、このクリーン音声の振幅スペクトルを読み出す。続いて、音声強調フィルタリング部16は、読み出したクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを用いて入力信号をフィルタリングする。この結果、音声強調フィルタリング部16から、入力信号から音響歪みが除去された強調音声信号が出力される。   The speech enhancement filtering unit 16 outputs an enhanced speech signal obtained by multiplying the input signal by a filter composed of clean speech feature values obtained by the matching unit 15. Specifically, the speech enhancement filtering unit 16 regards the clean speech amplitude spectrum corresponding to the feature amount of the segment of the case model M searched by the matching unit 15 as the clean speech amplitude spectrum most similar to the input signal, The amplitude spectrum of this clean speech is read from the case model storage unit 11. Subsequently, the speech enhancement filtering unit 16 creates a filter for speech enhancement using the read amplitude spectrum of the clean speech, and filters the input signal using the filter. As a result, the enhanced speech signal from which the acoustic distortion has been removed from the input signal is output from the speech enhancement filtering unit 16.

[特徴量変換部の処理]
次に、特徴量変換部14の処理について詳細に説明する。特徴量変換部14は,特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高いボトルネック特徴量bに変換する。この特徴量変換部14には、前述したように、DNN−HMM音響モデルが適用される。そこで、図3を参照して、特徴量変換部14の処理を説明する。
[Processing of feature quantity conversion unit]
Next, the process of the feature amount conversion unit 14 will be described in detail. Feature transformation unit 14, generated by the feature amount generating unit 13, for example, the feature amounts such as mel-frequency cepstrum coefficient, sound distortion resistance is converted into a high bottleneck feature quantity b t. As described above, the DNN-HMM acoustic model is applied to the feature amount conversion unit 14. Therefore, with reference to FIG. 3, the process of the feature amount conversion unit 14 will be described.

図3は、DNN−HMM音響モデルを用いて構成した特徴量変換部14の処理を説明するための概念図である。特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量xを入力データとして受け取る。このとき、特徴量変換部14は、処理対象のフレームtの特徴量xだけでなく、その前後数フレーム分の特徴量も受け取る。 FIG. 3 is a conceptual diagram for explaining the processing of the feature quantity conversion unit 14 configured using the DNN-HMM acoustic model. The feature quantity conversion unit 14 receives the feature quantity x t generated by the feature quantity generation unit 13 such as a mel frequency cepstrum coefficient as input data. At this time, the feature amount conversion unit 14 receives not only the feature amount x t of the processing target frame t but also the feature amounts of several frames before and after the feature amount x t .

例えば、特徴量変換部14は、当該フレームtの40次元の特徴量x(行ベクトル)に加えて、前後5フレーム分の特徴量xt−5,xt−4,xt−3,xt−2,xt−1,xt+1,xt+2,xt+3,xt+4,xt+5を受け取る。この場合、特徴量変換部14は、合計11フレーム分で440次元の特徴量[xt−5^T,・・・,x^T,・・・,xt+5^T]^T(Tはベクトルの転置を表す)を受け取ることになる。 For example, in addition to the 40-dimensional feature amount x t (row vector) of the frame t, the feature amount conversion unit 14 includes feature amounts x t−5 , x t−4 , x t−3 , x t−3 , xt-2 , xt-1 , xt + 1 , xt + 2 , xt + 3 , xt + 4 , and xt + 5 are received. In this case, feature transformation unit 14, feature amount 440 D total 11 frames [x t-5 ^ T, ···, x t ^ T, ···, x t + 5 ^ T] ^ T (T Represents a transpose of a vector).

なお、処理対象のフレームtの特徴量xは、静的な特徴量だけでなく、例えば、その1次,2次回帰係数で構成される場合もある。この場合、特徴量変換部14が受け取る特徴量の次元数も増える。例えば、xが静的な40次元の特徴量と、その1次,2次回帰係数とで構成されるとすると、次元数は合計で120次元となる。これの前後5フレーム分を考慮すると、特徴量変換部14が受け取る特徴量の次元数は、1320次元となる。 The feature amount x t of frame t to be treated, not only the static characteristic quantities, for example, the primary, there is a case composed of two regression coefficients. In this case, the number of dimensions of the feature quantity received by the feature quantity conversion unit 14 also increases. For example, if xt is composed of a static 40-dimensional feature quantity and its primary and secondary regression coefficients, the total number of dimensions is 120. Considering 5 frames before and after this, the number of dimensions of the feature quantity received by the feature quantity conversion unit 14 is 1320 dimensions.

続いて、440次元の特徴量を受け取った特徴量変換部14は、これをDNN-HMM音響モデルによる、例えば2048ノードの中間層を何層か(典型的には5〜10層程度)通し、最終的に、例えば80ノードのボトルネック層により80次元程度に次元圧縮されたボトルネック特徴量bを取得する。特徴量変換部14は、このボトルネック特徴量bをマッチング部15に入力する。 Subsequently, the feature amount conversion unit 14 that has received the 440-dimensional feature amount passes this through several intermediate layers (typically about 5 to 10 layers) of, for example, 2048 nodes according to the DNN-HMM acoustic model, Finally, for example, a bottleneck feature quantity b t dimensionally compressed to about 80 dimensions by a bottleneck layer of 80 nodes is acquired. The feature amount conversion unit 14 inputs the bottleneck feature amount b t to the matching unit 15.

特徴量変換部14は、DNN−HMM音響モデルにおいて非線形な特徴量変換を多段に適用することにより,音響歪み耐性が高いボトルネック特徴量bを得ることができる。そして、マッチング部15は、特徴量変換部14から入力されたボトルネック特徴量bを用いてセグメントの探索を行うことで、精度の高いセグメント探索を行うことができる。そこで、このボトルネック特徴量bを用いたマッチング部15の処理について説明する。 Feature transformation unit 14, by applying a nonlinear feature transformation in multiple stages in DNN-HMM acoustic model may sound distortion resistance obtain high bottleneck feature quantity b t. The matching unit 15 can perform a segment search with high accuracy by performing a segment search using the bottleneck feature amount b t input from the feature amount conversion unit 14. Therefore, the processing of the matching unit 15 using this bottleneck feature quantity b t will be described.

[マッチング部の処理]
ここでは、説明の簡易化のため、あるひとつの雑音/残響環境の事例モデルMのみを考える。また、説明の簡易化のため、入力信号の特徴量のセグメントyと学習データセグメントのマッチングの際の時間伸縮は考えないものとする。実施の形態1では、入力信号の特徴量のセグメントyとして、前段の特徴量変換部14から、特徴量変換部14が変換したボトルネック特徴量bが入力される。
[Processing of matching part]
Here, for simplification of explanation, only an example model M of a certain noise / reverberation environment is considered. Further, for simplification of explanation, and is not considered time warping during the feature amount of the segment y t and matching training data segment of the input signal. In the first embodiment, the bottleneck feature value b t converted by the feature value conversion unit 14 is input from the previous feature value conversion unit 14 as the segment y t of the feature value of the input signal.

まず、マッチング部15は、入力された特徴量のセグメントyと事例モデル記憶部11に記憶された事例モデルMのセグメントとのマッチングを行う。続いて、マッチング部15は、事例モデルMのセグメントの中から、入力信号の特徴量の系列yt:t+τに最も近いセグメントを探索し、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われるセグメントM u:u+τmaxを求めて、出力する。これは、(2)式のように定式化することができる。 First, the matching section 15 performs matching between a segment of the stored cases model M on the segment y t and case model storage unit 11 of the input feature quantity. Next, the matching unit 15 searches the segment of the case model M for the segment closest to the sequence y t: t + τ of the feature quantity of the input signal, and the clean speech sequence most similar to the clean speech included in the input signal segment seems to give M t u: seeking u + .tau.max, outputs. This can be formulated as equation (2).

Figure 0006499095
Figure 0006499095

ここで、入力される特徴量yは、L個の時間フレームから成るとし、その入力信号の特徴量系列をy={y:t=1,2,・・・,L}とする。また、yt:t+τを入力信号の特徴量の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,m:i=u,u+1,・・・,u+τ}を、事例モデルMの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。 Here, it is assumed that the input feature quantity y t is composed of L time frames, and the feature quantity series of the input signal is y = {y t : t = 1, 2,..., L}. Also, let yt: t + τ be a sequence from the time frame t to t + τ of the feature quantity of the input signal. Then, M u: u + τ = {g, m i : i = u, u + 1,..., U + τ} is a Gaussian distribution sequence corresponding to continuous time frames from u-th to u + τ-th in the case model M. And

入力信号の特徴量の系列yt:t+τと事例モデルMの中のあるセグメントとの距離の定義や、入力信号の特徴量系列yt:t+τと一番近い事例モデルMの探索方法として、ユークリッド距離など、他のいくつかの方法を考えることができる。ここでは、入力信号の特徴量系列に対する一番近い事例モデルMのセグメントは、入力信号の特徴量系列によく一致する事例モデルMのセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い事例モデルMのセグメントM u:u+τは、(3)式に示す事後確率を最大化することで求めることができる。 Series y t of the feature amount of the input signal: definition and of the distance between a segment in the t + tau and case model M, feature amount sequence y t of the input signal: a method of searching for t + tau and closest case model M, Euclid Several other methods can be considered, such as distance. Here, it is assumed that the segment of the case model M closest to the feature quantity series of the input signal has the longest length among the segments of the case model M that closely match the feature quantity series of the input signal. That is, the segment M t u closest case model M to the feature amount sequence of the input signal: u + tau can be determined by maximizing a posterior probability shown in (3) below.

Figure 0006499095
Figure 0006499095

この場合、p(Mu:u+τ|yt:t+τ)は、事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方法を取ることで、ある時間に局所的に存在する雑音などの影響を受けにくくなり、雑音などに対して比較的ロバストなマッチングが行われると思われる。 In this case, p (M u: u + τ | y t: t + τ ) represents the posterior probability, and if y t: t + τ and M u: u + τ are relatively well matched, τ The longer the is, the higher the posterior probability. By taking a method of searching for a longer segment, it is unlikely to be affected by noise that exists locally at a certain time, and it seems that relatively robust matching is performed against noise.

なお、(3)式の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する事例モデルMのセグメントに対するyt:t+τの尤度である。この尤度は、(4)式で計算される。 Note that the numerator term p (y t: t + τ | M u: u + τ ) in the equation (3) is the y t: t + τ for the segment of the case model M corresponding to M u: u + τ . Likelihood. This likelihood is calculated by equation (4).

Figure 0006499095
Figure 0006499095

ここでは、簡単のため、隣り合うフレームは独立であることを仮定している。(3)式の分母の第1項は、事例モデルMの中のあらゆる時間フレームu’を開始点として,p(yt:t+τ|Mu’:u’+τ)の和を取ったものである。そして、(3)式の分母の第2項は、ガウス混合モデルgに対するyt:t+τの尤度であり、(5)式で計算される。 Here, for simplicity, it is assumed that adjacent frames are independent. The first term of the denominator of equation (3) takes the sum of p (y t: t + τ | M u ′: u ′ + τ ) starting from any time frame u ′ in the case model M. It is a thing. The second term of the denominator of the equation (3) is the likelihood of yt : t + τ with respect to the Gaussian mixture model g and is calculated by the equation (5).

Figure 0006499095
Figure 0006499095

続いて、マッチング部15におけるセグメント探索処理の手順をさらに具体的に記述する。まず、セグメントの最大長を(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29である。 Subsequently, the procedure of the segment search process in the matching unit 15 will be described more specifically. First, the maximum segment length is limited to (τ lim +1) frames. For example, if the maximum segment length is limited to 30 frames, τ lim = 29.

まず、マッチング部15は、この制限の下で、τ=0、すなわち、セグメント長=1として、(3)式に従い、最大事後確率を与えるセグメント長=1のセグメントを探索する。次に、マッチング部15は、τ=1、すなわち、セグメント長=2として、(3)式に従い、最大事後確率を与えるセグメント長=2のセグメントを探索する。   First, the matching unit 15 searches for a segment having a segment length = 1 that gives the maximum posterior probability according to the equation (3), with τ = 0, that is, the segment length = 1, under this restriction. Next, the matching unit 15 searches for a segment with segment length = 2 that gives the maximum posterior probability according to the equation (3), with τ = 1, that is, segment length = 2.

マッチング部15は、この処理をτ=τlimまで繰り返す。そして、マッチング部15は、探索した長さの異なるセグメント候補の中から、最大事後確率を与えるセグメントを見つける。τmaxは、この最大事後確率を与えるセグメントの長さである。このようなマッチング部15におけるセグメント探索処理は、図2に示すような、Iフレーム分のリニアなメモリで表現できる事例モデルM上で行うことができる。 The matching unit 15 repeats this process until τ = τ lim . Then, the matching unit 15 finds a segment that gives the maximum posterior probability from the searched segment candidates having different lengths. τ max is the length of the segment giving this maximum posterior probability. Such segment search processing in the matching unit 15 can be performed on a case model M that can be expressed by a linear memory for I frames as shown in FIG.

そして、マッチング部15は、探索した最大事後確率を与えるセグメント、すなわち、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われる事例モデルMのセグメントM u:u+τmaxについての情報を、音声強調フィルタリング部16に入力する。これによって、音声強調フィルタリング部16は、セグメントM u:u+τmaxに対応する事例モデル記憶部11内のクリーン音声の振幅スペクトルを用いて、音声強調のためのフィルタを作成し、該フィルタで入力信号をフィルタリングすることによって、強調音声信号を出力する。 Then, the matching section 15, the segment which gives the maximum a posteriori probability searched, i.e., segment M t u case model M seems to provide a clean speech sequence most similar to the clean speech included in the input signal: information about u + .tau.max Is input to the speech enhancement filtering unit 16. Thereby, the speech enhancement filtering unit 16, segment M t u: by using the amplitude spectrum of the clean speech in the case the model storage unit 11 corresponding to the u + .tau.max, to create a filter for the speech enhancement, the input signal at the filter Is output as an enhanced speech signal.

[信号処理装置における信号処理方法]
次に、信号処理装置1における信号処理方法について説明する。図4は、図1に示す信号処理装置1が実行する処理手順を示すフローチャートである。
[Signal processing method in signal processing apparatus]
Next, a signal processing method in the signal processing apparatus 1 will be described. FIG. 4 is a flowchart showing a processing procedure executed by the signal processing device 1 shown in FIG.

まず、フーリエ変換部12は、入力信号を振幅スペクトルに変換するフーリエ変換処理(ステップS1)を行う。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから、メル周波数ケプストラム係数等の特徴量を生成する特徴量生成処理(ステップS2)を行う。   First, the Fourier transform unit 12 performs a Fourier transform process (step S1) for converting an input signal into an amplitude spectrum. The feature amount generation unit 13 performs a feature amount generation process (step S2) for generating a feature amount such as a mel frequency cepstrum coefficient from the amplitude spectrum output from the Fourier transform unit 12.

特徴量変換部14は、特徴量生成部13が生成した特徴量を、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量に変換する特徴量変換処理(ステップS3)を行う。   The feature amount conversion unit 14 performs a feature amount conversion process (step S3) for converting the feature amount generated by the feature amount generation unit 13 into a bottleneck feature amount subjected to noise or reverberation (acoustic distortion) reduction processing.

マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントと、入力されたボトルネック特徴量のセグメントとのマッチングを行い、事例モデルMのセグメントの中から、入力されたボトルネック特徴量のセグメントに対して最も高い事後確率をとるセグメントをとるセグメントを探索するマッチング処理(ステップS4)を行う。   The matching unit 15 performs matching between the segment of the case model M in the case model storage unit 11 and the segment of the input bottleneck feature amount, and from the segment of the case model M, the input bottleneck feature amount A matching process (step S4) for searching for a segment that takes a segment having the highest posterior probability is performed.

音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング処理(ステップS5)を行う。   The speech enhancement filtering unit 16 creates a filter for speech enhancement using the amplitude spectrum of clean speech corresponding to the feature amount of the segment of the case model M searched by the matching unit 15, and multiplies the input signal by the filter. A voice enhancement filtering process (step S5) for outputting the emphasized voice is performed.

[本実施の形態1の効果]
このように、本実施の形態1に係る信号処理装置1は、マッチング部15がセグメント探索に用いる特徴量yとして、メル周波数ケプストラム係数等の振幅スペクトルから単純に得られる特徴量xではなく、この特徴量xに対して、さらに雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量bを用いている。言い換えれば,マッチング部15は、音響歪み耐性が高いボトルネック特徴量bを用いてセグメント探索を行うため、セグメント探索に対する雑音又は残響の影響を低減でき、セグメント探索の精度を高めることができる。したがって、信号処理装置1によれば、入力信号に類似するクリーン音声の特徴量を高精度で探索でき、入力信号を明瞭な強調音声信号に変換することができる。
[Effect of the first embodiment]
Thus, the signal processing apparatus 1 according to the first embodiment, as the characteristic amount y t the matching section 15 is used to segment the search, rather than simply feature amount x t is obtained from the amplitude spectrum, such as Mel Frequency Cepstral Coefficients for the feature amount x t, it is used further noise or reverberation bottleneck characteristic quantity b t subjected to reduction processing (acoustic distortion). In other words, the matching unit 15, for performing segment search using acoustic distortion resistance is high bottleneck characteristic quantity b t, can reduce the influence of noise or reverberation for the segment search, it is possible to improve the accuracy of the segment search. Therefore, according to the signal processing device 1, it is possible to search for a feature amount of clean speech similar to the input signal with high accuracy, and to convert the input signal into a clear enhanced speech signal.

[事例モデル生成装置]
また、信号処理装置1の事例モデル記憶部11に記憶される事例モデルMを生成する事例モデル生成装置2について説明する。この事例モデル生成装置2においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量xに対して、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量bを用いて、事例モデルMの生成を行っている。
[Case model generator]
The case model generation device 2 that generates the case model M stored in the case model storage unit 11 of the signal processing device 1 will be described. In this case the model generating apparatus 2, for example, a bottleneck features against the feature amount x t such mel-frequency cepstrum coefficients generated from the speech signals for learning, subjected to reduction processing of noise or reverberation (acoustic distortion) A case model M is generated using the quantity b t .

図5は、事例モデル生成装置2の機能構成例を示すブロック図である。図5に示す事例モデル生成装置2は、例えば、例えばROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。事例モデル生成装置2は、フーリエ変換部12、特徴量生成部13、特徴量変換部14、ガウス混合モデル学習部25及び最尤ガウス分布計算部26を有する。   FIG. 5 is a block diagram illustrating a functional configuration example of the case model generation device 2. The case model generation device 2 illustrated in FIG. 5 is realized by, for example, a predetermined program being read into a computer including a ROM, a RAM, a CPU, and the like, and the CPU executing the predetermined program. The case model generation apparatus 2 includes a Fourier transform unit 12, a feature amount generation unit 13, a feature amount conversion unit 14, a Gaussian mixture model learning unit 25, and a maximum likelihood Gaussian distribution calculation unit 26.

まず、事例モデル生成装置2に入力される学習用の音声信号について説明する。事例モデル生成装置2に入力される信号は、様々な雑音/残響環境の音声信号である。この様々な雑音/残響環境の音声信号の中には、クリーン環境の音声信号が含まれている。具体的には、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、さまざまな環境での観測信号を模擬生成した模擬観測信号が、学習用の音声信号として事例モデル生成装置2に入力される。これらの学習用の音声信号のそれぞれについて以下の処理が行われる。   First, a learning speech signal input to the case model generation device 2 will be described. The signal input to the case model generation apparatus 2 is an audio signal having various noise / reverberation environments. Among the various noise / reverberation environment audio signals, clean environment audio signals are included. Specifically, using a large amount of clean speech obtained from a speech corpus and noise and reverberation data (noise signal waveforms, room impulse responses, etc.) obtained in various environments, observation signals in various environments The simulated observation signal generated by simulating the signal is input to the case model generation device 2 as a speech signal for learning. The following processing is performed for each of these learning speech signals.

フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、図1に示す信号処理装置1におけるフーリエ変換部12、特徴量生成部13及び特徴量変換部14とそれぞれ同様の処理を、学習用の音声信号に対して実行する。特徴量変換部14は、学習用の音声信号に対応する特徴量xをボトルネック特徴量bに変換し、ガウス混合モデル学習部25に入力する。 The Fourier transform unit 12, the feature amount generation unit 13, and the feature amount conversion unit 14 perform the same processes as the Fourier transform unit 12, the feature amount generation unit 13, and the feature amount conversion unit 14 in the signal processing apparatus 1 illustrated in FIG. This is performed on the audio signal for learning. The feature amount conversion unit 14 converts the feature amount x t corresponding to the learning speech signal into a bottleneck feature amount b t and inputs it to the Gaussian mixture model learning unit 25.

ガウス混合モデル学習部25は、各短時間フレームtでの特徴量bを学習データとして、通常の最尤推定法によりガウス混合モデルgを得る。ここで、ガウス混合モデル学習部25では、前段の特徴量変換部14から入力されたボトルネック特徴量bを学習データとして用いてガウス混合モデルgを得る。このガウス混合モデルgは、(6)式により示される。また、ガウス混合モデルgの中のガウス分布を表すg(b|m)は、(7)式により示される。なお、bは、i番目のフレームのボトルネック特徴量である。 Gaussian mixture model learning unit 25, as learning data characteristic quantity b i for each short time frame t, obtaining a Gaussian mixture model g by a conventional maximum likelihood estimation. Here, the Gaussian mixture model learning unit 25 obtains a Gaussian mixture model g by using the bottleneck feature amount b t input from the preceding feature amount conversion unit 14 as learning data. This Gaussian mixture model g is expressed by equation (6). Further, g (b i | m) representing the Gaussian distribution in the Gaussian mixture model g is expressed by the equation (7). Note that b i is the bottleneck feature amount of the i-th frame.

Figure 0006499095
Figure 0006499095

Figure 0006499095
Figure 0006499095

g(b|m)は、平均μ、分散Σを持つm番目のガウス分布を表す。g(b|m)は、多くの場合多次元ガウス分布であり、その次元数は特徴量bの次元数と同じである。g(b|m)が多次元ガウス分布である場合、平均μ及び分散Σのそれぞれはベクトルとなる。ここでは、g(b|m)が多次元ガウス分布であっても、記載の簡略化のため、g(b|m)のことを単にガウス分布と表現する。w(m)は、m番目のガウス分布に対する混合重みを表す。Qは、混合数を表す。Qには、例えば、4096や8192など、かなり大きな値を設定する。 g (b i | m) represents the m-th Gaussian distribution with mean μ m and variance Σ m . g (b i | m) is often a multidimensional Gaussian distribution, and the number of dimensions is the same as the number of dimensions of the feature quantity b i . When g (b i | m) is a multidimensional Gaussian distribution, each of the mean μ m and the variance Σ m is a vector. Here, even if g (b i | m) is a multidimensional Gaussian distribution, g (b i | m) is simply expressed as a Gaussian distribution in order to simplify the description. w (m) represents the mixing weight for the mth Gaussian distribution. Q represents the number of mixtures. For Q, for example, a fairly large value such as 4096 or 8192 is set.

最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmを求め、そのインデックスmの時間系列を、事例モデルMの一つのセグメントとして取得する。なお、事例モデルMは、ガウス分布のインデックスmの集合とガウス混合モデルgを用いて、前述した(1)式のように表される。 Maximum likelihood Gaussian distribution calculation unit 26 calculates an index m i of the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i, the time sequence of the index m i, case model M As a single segment. Incidentally, case model M, using the set and Gaussian mixture model g of the index m i of the Gaussian distribution is expressed as previously described (1).

事例モデルMのセグメントの生成は、学習用の音声信号のそれぞれに対して行われ、生成された各セグメントを含む事例モデルMは、事例モデル記憶部11(図1)に記憶される。また、環境がクリーンの場合は、フーリエ変換部12から出力された振幅スペクトルデータもクリーン音声の振幅スペクトルとして事例モデル記憶部11(図1)に記憶される。   The generation of the segment of the case model M is performed for each of the learning speech signals, and the generated case model M including each segment is stored in the case model storage unit 11 (FIG. 1). When the environment is clean, the amplitude spectrum data output from the Fourier transform unit 12 is also stored in the case model storage unit 11 (FIG. 1) as the amplitude spectrum of clean speech.

[事例モデル生成処理]
次に、事例モデル生成処理について説明する。図6は、事例モデル生成装置2による事例モデル生成処理の処理手順を示すフローチャートである。
[Case model generation process]
Next, case model generation processing will be described. FIG. 6 is a flowchart showing a processing procedure of case model generation processing by the case model generation device 2.

事例モデル生成装置2において、フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、入力された学習用の音声信号に対し、図4に示すステップS1〜S3と同様の手順でステップS11〜ステップS13の処理を行う。   In the example model generation device 2, the Fourier transform unit 12, the feature amount generation unit 13, and the feature amount conversion unit 14 perform steps in the same procedure as steps S1 to S3 shown in FIG. 4 for the input learning speech signal. The process of S11-step S13 is performed.

ガウス混合モデル学習部25は、前段の特徴量変換部14から入力されたボトルネック特徴量bを学習データとして用い、通常の最尤推定法によりガウス混合モデルgを得るガウス混合モデル学習処理を行う(ステップS14)。 The Gaussian mixture model learning unit 25 performs a Gaussian mixture model learning process for obtaining a Gaussian mixture model g by a normal maximum likelihood estimation method using the bottleneck feature amount b t input from the preceding feature amount conversion unit 14 as learning data. Perform (step S14).

続いて、最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmを求め、求めたインデックスmの時間系列を、事例モデルMの一つのセグメントとして取得する最尤ガウス分布計算処理を行う(ステップS15)。そして、事例モデル生成装置2は、このインデックスmの時間系列を、事例モデルMの一つのセグメントとして信号処理装置1の事例モデル記憶部11に格納する格納処理を行う(ステップS16)。 Subsequently, the maximum likelihood Gaussian distribution calculation unit 26 calculates an index m i of the Gaussian distribution in the Gaussian mixture model g that gives the maximum likelihood for each time frame i, the time sequence of the index m i obtained Then, the maximum likelihood Gaussian distribution calculation process acquired as one segment of the case model M is performed (step S15). The case model generating device 2, the time sequence of the index m i, performs a storage process for storing as one segment case model M in case the model storage unit 11 of the signal processing apparatus 1 (step S16).

このように、事例モデル生成装置2では、信号処理装置1に対応させて、ボトルネック特徴量bを用いて事例モデルMの生成を行っている。 As described above, the case model generation device 2 generates the case model M using the bottleneck feature quantity b t in correspondence with the signal processing device 1.

[実施の形態2]
次に、実施の形態2について説明する。実施の形態2では、音響歪みの影響を軽減させるとともに、話者性を考慮したセグメント探索を行う信号処理装置について説明する。
[Embodiment 2]
Next, a second embodiment will be described. In the second embodiment, a signal processing device that performs a segment search in consideration of speaker characteristics while reducing the influence of acoustic distortion will be described.

[信号処理装置の構成]
図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。図7に示すように、実施の形態2に係る信号処理装置201は、図1に示す信号処理装置1と比して、特徴量変換部14と並列に設けられた話者特徴量生成部217と、特徴量変換部14及び話者特徴量生成部217の後段に設けられた連結部218と、をさらに有する。
[Configuration of signal processing apparatus]
FIG. 7 is a block diagram showing the configuration of the signal processing apparatus according to the second embodiment. As shown in FIG. 7, the signal processing device 201 according to the second embodiment is a speaker feature value generation unit 217 provided in parallel with the feature value conversion unit 14 as compared with the signal processing device 1 shown in FIG. 1. And a connection unit 218 provided at the subsequent stage of the feature amount conversion unit 14 and the speaker feature amount generation unit 217.

話者特徴量生成部217は、話者の特徴を表現した話者特徴量を生成する。話者特徴量生成部217は、特徴量生成部13から出力されるメルケプストラム等の特徴量xを受け取り、この特徴量xを用いて、話者性を表現する例えばi-vector等の数十〜数百次元程度の話者特徴量wを生成する。 The speaker feature value generation unit 217 generates a speaker feature value expressing the features of the speaker. The speaker feature quantity generation unit 217 receives a feature quantity x t such as a mel cepstrum output from the feature quantity generation unit 13, and uses the feature quantity x t to express speaker characteristics such as an i-vector. A speaker feature w t of about several tens to several hundreds of dimensions is generated.

連結部218は、特徴量変換部14が変換したボトルネック特徴量bと、話者特徴量生成部217が生成した話者特徴量wとを連結した連結特徴量[b^T,w^T]^T(Tはベクトルの転置を表す)を生成し、後段のマッチング部15に入力する。 The concatenating unit 218 connects the bottleneck feature value b t converted by the feature value converting unit 14 and the speaker feature value w t generated by the speaker feature value generating unit 217 [b t ^ T, w t ^ T] ^ T (T represents transposition of the vector) is generated and input to the matching unit 15 at the subsequent stage.

そして、マッチング部15は、連結特徴量[b^T,w^T]^Tが混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求める。 Then, the matching unit 15 calculates a posteriori probability indicating the probability that the connected feature value [b t ^ T, w t ^ T] ^ T corresponds to each distribution of the mixed distribution model, and clean speech that takes the highest a posteriori probability. The feature amount is obtained as a clean speech feature amount corresponding to the input signal.

[話者特徴量生成部の処理]
ここで、話者特徴量生成部217による話者特徴量wの生成処理について説明する。ここでは、話者特徴量生成部217が、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトル(ベクトルw)を生成する場合について説明する。また、ここでは、GMM−UBM(Universal Background Model)アプローチで、話者認識におけるi-vectorを抽出する方法について説明する。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得るという手法である。UBMは、図示しない記憶部に記憶されている。
[Processing of speaker feature generator]
Here, the generation process of the speaker feature quantity w t by the speaker feature quantity generation unit 217 will be described. Here, the speaker feature amount generating unit 217, will be described for generating a feature vector called i-vector expressed in a vector of several tens to several hundreds dimensional characteristics of the speaker (vector w e). Here, a method for extracting an i-vector in speaker recognition using a GMM-UBM (Universal Background Model) approach will be described. In the GMM-UBM approach, a “voice-like” model (UBM) is learned using a large amount of speech data for UBM learning of a large number of unspecified speakers, and a new speaker model (GMM) This is a technique of adaptively obtaining UBM using a small amount of voice data of a speaker. The UBM is stored in a storage unit (not shown).

以下、i-vectorであるベクトルwの具体的な一連の抽出手順について述べる。i-vectorwを求めるため、まず、実施の形態1に示した(3)式を用いて、信号処理装置201に入力された入力信号eから得られるLフレームの特徴量ベクトル系列Xの各フレームの特徴量x(t=1,2,・・・,L)がUBMのm番目のガウス分布から生成される事後確率γ(m)を計算する。続いて、(3)式で計算した事後確率γt(m)を用いて、下記の(8)式〜(12)式に従い、i-vectorwを計算する。 Hereinafter, we describe a specific series of extraction steps in an i-vector vector w e. To determine the i-vectorw e, first, by using the equation (3) shown in the first embodiment, each of the feature vector series X e of L frames obtained from the input signal e that is input to the signal processing unit 201 A posteriori probability γ t (m) in which the feature value x t (t = 1, 2,..., L) of the frame is generated from the mth Gaussian distribution of the UBM is calculated. Subsequently, (3) using the posterior probability gamma t (m) is calculated by the formula, according to (8) to (12) below to calculate the i-vectorw e.

事後確率γt(m)を用いると、UBMを用いた入力信号eに対する0次、1次のBaum-Welch統計量Ne,m、ベクトルFe,mは、下記の(8)式及び(9)式のようにそれぞれ書くことができる。ただし、ベクトルFe,mは、D次元のベクトルである。 Using the posterior probability γ t (m), the 0th-order and 1st-order Baum-Welch statistics N e, m and the vector F e, m for the input signal e using UBM are expressed by the following equation (8) and ( 9) Each can be written as However, the vector F e, m is a D-dimensional vector.

Figure 0006499095
Figure 0006499095

Figure 0006499095
Figure 0006499095

さらに、(8)式及び(9)式を用いて、(10)式及び(11)式のように、0次、1次のBaum-Welch統計量である行列N、ベクトルFを定義する。ただし、行列NはCD次元×CD次元の行列であり、ベクトルFはD次元のベクトルである。 Further, using equation (8) and equation (9), a matrix N e and a vector F e that are 0th-order and first-order Baum-Welch statistics are defined as in equations (10) and (11). To do. However, the matrix N e is a CD dimension × CD dimension matrix, and the vector F e is a D dimension vector.

Figure 0006499095
Figure 0006499095

Figure 0006499095
Figure 0006499095

ここで、上記の(10)式の対角成分に現れる行列Iは、D次元×D次元の単位行列である。また、行列Tは、全変動行列と呼ばれるCD次元×M次元の矩形行列(M<<CD)である。行列Σを全変動行列Tで表現できない残留変動成分をモデル化するD次元×D次元の対角共分散行列とする。以上を用いてi-vectorwは、(12)式のように計算できる。 Here, the matrix ID that appears in the diagonal component of the above equation (10) is a D-dimensional × D-dimensional unit matrix. The matrix T is a CD dimension × M dimension rectangular matrix (M << CD) called a total variation matrix. The matrix Σ is a D-dimensional D-dimensional diagonal covariance matrix that models residual fluctuation components that cannot be expressed by the total fluctuation matrix T. I-vectorw e using the above can be calculated as (12).

Figure 0006499095
Figure 0006499095

なお、(12)式における行列Iは、M次元×M次元の単位行列である。(12)式に示すベクトルwが入力音声データeに対するM次元のi-vectorである。話者特徴量生成部217は、このベクトルwを、話者特徴量wとして、連結部218に出力する。 Note that (12) matrix I M in formula is a unit matrix of the M-dimensional × M dimension. (12) a i-vector of M dimension for vector w e is input voice data e in the expression. Speaker feature amount generating unit 217, the vector w e, as the speaker characteristic quantity w t, and outputs the coupling portion 218.

[信号処理装置の処理]
そこで、信号処理装置201が強調音声信号を出力するまでの処理について説明する。
図8は、信号処理装置201が実行する処理手順を示すフローチャートである。
[Processing of signal processor]
Therefore, a process until the signal processing apparatus 201 outputs an enhanced audio signal will be described.
FIG. 8 is a flowchart showing a processing procedure executed by the signal processing device 201.

ステップS21〜ステップS23は、図1に示すステップS1〜S3である。そして、話者特徴量生成部217は、入力された特徴量xを用いて、話者特徴量wを生成する話者特徴量生成処理を行う(ステップS24)。なお、ステップS23及びステップS24は、例えば、並列に実行される。 Steps S21 to S23 are steps S1 to S3 shown in FIG. The speaker feature amount generating unit 217, by using the input feature amount x t, performs speaker feature quantity generation process for generating a speaker characteristic quantity w t (step S24). Note that step S23 and step S24 are executed in parallel, for example.

連結部218は、特徴量変換部14が変換したボトルネック特徴量bと、話者特徴量生成部217が生成した話者特徴量wとを連結した連結特徴量[b^T,w^T]^T(Tはベクトルの転置を表す)を生成する連結処理を行う(ステップS25)。 The concatenating unit 218 connects the bottleneck feature value b t converted by the feature value converting unit 14 and the speaker feature value w t generated by the speaker feature value generating unit 217 [b t ^ T, A concatenation process for generating w t ^ T] ^ T (T represents transposition of the vector) is performed (step S25).

マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントに対するマッチング対象として、連結部218が生成した連結特徴量[b^T,w^T]^Tを用い、図4のステップS4と同様の処理手順を行って、マッチング処理を行う(ステップS26)。図8に示すステップS27は、図4に示すステップS5である。 The matching unit 15 uses the connected feature [b t ^ T, w t ^ T] ^ T generated by the connecting unit 218 as a matching target for the segment of the case model M in the case model storage unit 11, and performs the steps of FIG. The same processing procedure as S4 is performed to perform matching processing (step S26). Step S27 shown in FIG. 8 is step S5 shown in FIG.

[実施の形態2の効果]
音声認識においては、話者性は不要な情報であるので、DNN−HMM音響モデルを通す特徴量変換処理では、話者性を軽減するような特徴量変換を行う。したがって、特徴量変換部14においては、DNN−HMM音響モデルを通してボトルネック特徴量を抽出する際に、話者性も軽減している。そこで、実施の形態2では、話者性が軽減されたボトルネック特徴量bに話者特徴量wを連結した連結特徴量を用いて、マッチング部15によるセグメント探索を行ことによって、最終的に信号処理装置201から出力される強調音声信号を、話者性を含ませたものとすることができる。
[Effect of Embodiment 2]
In speech recognition, speaker characteristics are unnecessary information. Therefore, in the feature value conversion processing through the DNN-HMM acoustic model, feature value conversion that reduces speaker characteristics is performed. Therefore, when the feature amount conversion unit 14 extracts the bottleneck feature amount through the DNN-HMM acoustic model, the speaker characteristic is also reduced. Therefore, in the second embodiment, a segment search is performed by the matching unit 15 using a connected feature value obtained by connecting the speaker feature value w t to the bottleneck feature value b t with reduced speaker characteristics, thereby obtaining a final result. In particular, the emphasized speech signal output from the signal processing device 201 may include speaker characteristics.

このように、実施の形態2では、音響歪みの影響を軽減したボトルネック特徴量と話者性を表現する話者特徴量とを連結して用いることで、マッチング部15において、音響歪みの影響が軽減し、かつ、話者性を考慮したセグメント探索を行うことが可能になる。   As described above, in the second embodiment, the matching unit 15 uses the influence of the acoustic distortion by connecting the bottleneck feature quantity that reduces the influence of the acoustic distortion and the speaker feature quantity that expresses the speaker characteristics. This makes it possible to perform segment search in consideration of speaker characteristics.

[信号処理装置及び事例モデル生成装置の構成について]
なお、この発明は、複数の音響歪み(雑音/残響環境)の事例モデルを考慮する際の時間、及び、マッチング時に時間伸縮について考慮する際の時間は、非特許文献1に記載されているように、拡張可能である。また、事例モデル記憶部11は、例えば、出願人による特開2015−152704号公報に記載された木構造化構成を適用したセグメントを含む事例モデルMを記憶していてもよい。この場合、マッチング部15は、この木構造化構成のセグメントを含む事例モデルMから、入力信号に対応するセグメントに最も類似したセグメントを探索してもよい。また、マッチング部15は、例えば、出願人による特開2015−152705号公報に記載されたセグメント評価関数を用いてセグメント探索を行ってもよい。
[Configuration of Signal Processing Device and Case Model Generation Device]
In the present invention, the time when considering a case model of a plurality of acoustic distortions (noise / reverberation environment) and the time when considering time expansion and contraction at the time of matching are described in Non-Patent Document 1. It is extensible. Further, the case model storage unit 11 may store, for example, a case model M including a segment to which a tree structured configuration described in Japanese Patent Application Laid-Open No. 2015-152704 by the applicant is applied. In this case, the matching unit 15 may search for a segment most similar to the segment corresponding to the input signal from the case model M including the segment having the tree structure. Moreover, the matching part 15 may perform a segment search, for example using the segment evaluation function described in Unexamined-Japanese-Patent No. 2015-152705 by the applicant.

[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置1,201及び事例モデル生成装置2は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or a part of the distribution / integration is functionally or physically distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the signal processing devices 1 and 201 and the case model generation device 2 may be an integrated device. Further, all or a part of each processing function performed in each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware by wired logic.

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   In addition, among the processes described in this embodiment, all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, each process described in the present embodiment is not only executed in time series according to the order of description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. . In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
図9は、プログラムが実行されることにより、信号処理装置或いは学習モデル生成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
[program]
FIG. 9 is a diagram illustrating an example of a computer in which a signal processing device or a learning model generation device is realized by executing a program. The computer 1000 includes a memory 1010 and a CPU 1020, for example. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. The serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example. The video adapter 1060 is connected to the display 1130, for example.

ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置、学習モデル生成装置の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、信号処理装置、学習モデル生成装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。   The hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the signal processing device and the learning model generation device is implemented as a program module 1093 in which a code executable by the computer 1000 is described. The program module 1093 is stored in the hard disk drive 1031, for example. For example, a program module 1093 for executing processing similar to the functional configuration in the signal processing device and the learning model generation device is stored in the hard disk drive 1031. The hard disk drive 1031 may be replaced by an SSD (Solid State Drive).

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   The setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   Note that the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN, WAN, etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。   As mentioned above, although embodiment which applied the invention made | formed by this inventor was described, this invention is not limited with the description and drawing which make a part of indication of this invention by this embodiment. That is, other embodiments, examples, operation techniques, and the like made by those skilled in the art based on this embodiment are all included in the scope of the present invention.

1,1P,201 信号処理装置
2 事例モデル生成装置
11,11P 事例モデル記憶部
12,12P フーリエ変換部
13,13P 特徴量生成部
14 特徴量変換部
15,15P マッチング部
16,16P 音声強調フィルタリング部
25 ガウス混合モデル学習部
26 最尤ガウス分布計算部
217 話者特徴量生成部
218 連結部
1, 1P, 201 Signal processing device 2 Case model generation device 11, 11P Case model storage unit 12, 12P Fourier transform unit 13, 13P Feature amount generation unit 14 Feature amount conversion unit 15, 15P Matching unit 16, 16P Speech enhancement filtering unit 25 Gaussian mixture model learning unit 26 Maximum likelihood Gaussian distribution calculation unit 217 Speaker feature generation unit 218 Connection unit

Claims (5)

信号処理装置で実行される信号処理方法であって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、
前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、
前記信号処理装置が、話者の特徴を表現した話者特徴量を生成する話者特徴量生成工程と、
前記信号処理装置が、前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結工程と、
前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、
前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、
を含んだことを特徴とする信号処理方法。
A signal processing method executed by a signal processing device,
The signal processing apparatus includes a storage unit that stores a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned,
A feature amount generating step in which the signal processing device generates a first feature amount from an input signal;
A feature amount conversion step in which the signal processing device converts the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature generating step in which the signal processing device generates a speaker feature that expresses the feature of the speaker;
A connecting step in which the signal processing device generates a connected feature value obtained by connecting the second feature value and the speaker feature value;
The signal processing device calculates a posterior probability indicating the probability that the connected feature value corresponds to each distribution of the mixed distribution model based on the parameters of the mixed distribution model stored in the storage unit, and has the highest posterior A collation step for obtaining a clean speech feature value taking a probability as a clean speech feature value corresponding to the input signal;
An output step in which the signal processing device outputs an enhanced speech signal obtained by multiplying the input signal by a filter configured from the clean speech feature value obtained in the matching step;
A signal processing method comprising:
前記低減処理は、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルからボトルネック特徴量を得る処理であることを特徴とする請求項1に記載の信号処理方法。   2. The signal according to claim 1, wherein the reduction process is a process of obtaining a bottleneck feature amount from a DNN (Deep Neural Network) -HMM (Hidden Markov Model) acoustic model. Processing method. 前記信号処理装置が、学習用の入力信号から第3の特徴量を生成する学習用特徴量生成工程と、
前記信号処理装置が、前記第3の特徴量に対して前記雑音又は音響歪みの低減処理を施した第4の特徴量を生成する学習用特徴量変換工程と、
前記信号処理装置が、前記第4の特徴量を学習データとして、最尤推定法によりガウス混合分布モデルを取得するガウス混合モデル学習工程と、
前記信号処理装置が、各時間に対して最大の尤度を与える前記ガウス混合分布モデルの中のガウス分布のインデックスを求め、該インデックスの時間系列を取得する最尤ガウス分布計算工程と、
前記信号処理装置が、前記インデックスの時間系列を、前記混合分布モデルのパラメータとして前記記憶部に格納する格納工程と、
を含んだことを特徴とする請求項1または2に記載の信号処理方法。
A learning feature value generation step in which the signal processing device generates a third feature value from an input signal for learning;
A learning feature value conversion step in which the signal processing device generates a fourth feature value obtained by performing the noise or acoustic distortion reduction process on the third feature value;
A Gaussian mixture model learning step in which the signal processing device acquires a Gaussian mixture distribution model by a maximum likelihood estimation method using the fourth feature amount as learning data;
A maximum likelihood Gaussian distribution calculating step in which the signal processing device obtains an index of a Gaussian distribution in the Gaussian mixture distribution model giving the maximum likelihood for each time, and obtains a time series of the index;
A storing step in which the signal processing apparatus stores the time series of the index in the storage unit as a parameter of the mixed distribution model;
The signal processing method according to claim 1 or 2, characterized in that it contained.
雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部と、
入力信号から第1の特徴量を生成する特徴量生成部と、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換部と、
話者の特徴を表現した話者特徴量を生成する話者特徴量生成部と、
前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結部と、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合部と、
前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
を有することを特徴とする信号処理装置。
A storage unit for storing a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned;
A feature quantity generator for generating a first feature quantity from an input signal;
A feature amount conversion unit that converts the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature value generating unit for generating speaker feature values expressing speaker characteristics;
A connecting unit that generates a connected feature value obtained by connecting the second feature value and the speaker feature value;
Based on the parameters of the mixed distribution model stored in the storage unit, a posterior probability indicating the probability that the connected feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature having the highest posterior probability A matching unit for obtaining a quantity as a clean speech feature corresponding to the input signal;
An output unit that outputs an emphasized speech obtained by multiplying the input signal by a filter composed of clean speech feature values obtained by the matching unit;
A signal processing apparatus comprising:
信号処理装置に実行させるための信号処理プログラムであって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
入力信号から第1の特徴量を生成する特徴量生成ステップと、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換ステップと、
話者の特徴を表現した話者特徴量を生成する話者特徴量生成ステップと、
前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結ステップと、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記連結特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合ステップと、
前記照合ステップにおいて求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力ステップと、
を前記信号処理装置に実行させるための信号処理プログラム。
A signal processing program for causing a signal processing device to execute,
The signal processing apparatus includes a storage unit that stores a mixed distribution model in which a voice including noise or acoustic distortion or a clean voice is learned,
A feature value generation step for generating a first feature value from an input signal;
A feature amount conversion step of converting the first feature amount into a second feature amount subjected to noise or acoustic distortion reduction processing;
A speaker feature generating step for generating a speaker feature expressing a speaker feature;
A connecting step of generating a connected feature value obtained by connecting the second feature value and the speaker feature value;
Based on the parameters of the mixed distribution model stored in the storage unit, a posterior probability indicating the probability that the connected feature amount corresponds to each distribution of the mixed distribution model is calculated, and a clean speech feature having the highest posterior probability A collation step for obtaining a quantity as a clean speech feature corresponding to the input signal;
An output step of outputting an enhanced speech signal obtained by multiplying the input signal by a filter composed of clean speech feature values obtained in the collating step;
A signal processing program for causing the signal processing device to execute.
JP2016015464A 2016-01-29 2016-01-29 Signal processing method, signal processing apparatus, and signal processing program Active JP6499095B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016015464A JP6499095B2 (en) 2016-01-29 2016-01-29 Signal processing method, signal processing apparatus, and signal processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016015464A JP6499095B2 (en) 2016-01-29 2016-01-29 Signal processing method, signal processing apparatus, and signal processing program

Publications (2)

Publication Number Publication Date
JP2017134321A JP2017134321A (en) 2017-08-03
JP6499095B2 true JP6499095B2 (en) 2019-04-10

Family

ID=59502775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016015464A Active JP6499095B2 (en) 2016-01-29 2016-01-29 Signal processing method, signal processing apparatus, and signal processing program

Country Status (1)

Country Link
JP (1) JP6499095B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6673861B2 (en) * 2017-03-02 2020-03-25 日本電信電話株式会社 Signal processing device, signal processing method and signal processing program
CN110379412B (en) * 2019-09-05 2022-06-17 腾讯科技(深圳)有限公司 Voice processing method and device, electronic equipment and computer readable storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015040931A (en) * 2013-08-21 2015-03-02 日本電気株式会社 Signal processing device, voice processing device, signal processing method, and voice processing method
JP6139430B2 (en) * 2014-02-13 2017-05-31 日本電信電話株式会社 Signal processing apparatus, method and program

Also Published As

Publication number Publication date
JP2017134321A (en) 2017-08-03

Similar Documents

Publication Publication Date Title
JP5423670B2 (en) Acoustic model learning device and speech recognition device
US8762142B2 (en) Multi-stage speech recognition apparatus and method
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
JP5634959B2 (en) Noise / dereverberation apparatus, method and program thereof
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR102406512B1 (en) Method and apparatus for voice recognition
JP6499095B2 (en) Signal processing method, signal processing apparatus, and signal processing program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP5881454B2 (en) Apparatus and method for estimating spectral shape feature quantity of signal for each sound source, apparatus, method and program for estimating spectral feature quantity of target signal
Chang et al. On the importance of modeling and robustness for deep neural network feature
JP6784255B2 (en) Speech processor, audio processor, audio processing method, and program
JP4964194B2 (en) Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof
JP6367773B2 (en) Speech enhancement device, speech enhancement method, and speech enhancement program
JP2011033879A (en) Identifying method capable of identifying all languages without using samples
JP2008064849A (en) Sound model creation device, speech recognition device using the same, method, program and recording medium therefore
JP6167063B2 (en) Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method
JP6142401B2 (en) Speech synthesis model learning apparatus, method, and program
JP6734233B2 (en) Signal processing device, case model generation device, collation device, signal processing method, and signal processing program
JP6139430B2 (en) Signal processing apparatus, method and program
JP6728083B2 (en) Intermediate feature amount calculation device, acoustic model learning device, speech recognition device, intermediate feature amount calculation method, acoustic model learning method, speech recognition method, program
JP2019028406A (en) Voice signal separation unit, voice signal separation method, and voice signal separation program
JP4004368B2 (en) Speech recognition system
Pawar et al. Realization of Hidden Markov Model for English Digit Recognition
JP7333878B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190314

R150 Certificate of patent or registration of utility model

Ref document number: 6499095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150