JP6553561B2 - Signal analysis apparatus, method, and program - Google Patents

Signal analysis apparatus, method, and program Download PDF

Info

Publication number
JP6553561B2
JP6553561B2 JP2016168332A JP2016168332A JP6553561B2 JP 6553561 B2 JP6553561 B2 JP 6553561B2 JP 2016168332 A JP2016168332 A JP 2016168332A JP 2016168332 A JP2016168332 A JP 2016168332A JP 6553561 B2 JP6553561 B2 JP 6553561B2
Authority
JP
Japan
Prior art keywords
spectrum
signal
time
frequency
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016168332A
Other languages
Japanese (ja)
Other versions
JP2018036410A (en
Inventor
弘和 亀岡
弘和 亀岡
岸田 拓也
拓也 岸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016168332A priority Critical patent/JP6553561B2/en
Publication of JP2018036410A publication Critical patent/JP2018036410A/en
Application granted granted Critical
Publication of JP6553561B2 publication Critical patent/JP6553561B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。   The present invention relates to a signal analysis apparatus, method, and program, and more particularly, to a signal analysis apparatus, method, and program for estimating parameters.

本発明は音声信号から雑音を抑圧する問題を扱う。音声信号に混入する雑音を抑制する技術は音声強調技術と呼ばれている。音声強調技術は、高品質な音声通信や音声認識の前処理などで用いられる。   The present invention addresses the problem of suppressing noise from speech signals. A technique for suppressing noise mixed in a voice signal is called a voice enhancement technique. Speech enhancement techniques are used in high-quality speech communication and preprocessing of speech recognition.

音声強調手法は主に3つのアプローチがある。教師なしアプローチは、対象とする音声および雑音ともに、その音響的特性について事前に情報が得られない状況を、半教師ありアプローチでは、対象音声について、同じ話者の別の音声が事前に得ることができる状況を、教師ありアプローチは、音声に加えて、対象雑音と同じ特性の雑音が事前に得ることができる状況をそれぞれ想定した音声強調手法である。本発明が解決しようとする課題は半教師ありアプローチに類される。半教師ありアプローチの一つとして、非負値行列因子分解(Semi-supervised Non-negative Matrix Factorization: SSNMF)に基づく手法が提案されている(非特許文献1)。この手法では、各時刻の観測スペクトルを事前学習した音声の基底スペクトルと雑音の基底スペクトルの非負結合でフィッティングすることで音声と雑音のパワースペクトルを推定することが可能となる。   There are three main approaches to speech enhancement. The unsupervised approach is the situation where both the target speech and the noise can not be informed in advance about its acoustic characteristics, while the semi-supervised approach is that the other speech of the same speaker is obtained in advance for the target speech. The supervised approach is a speech enhancement method that assumes a situation in which noise having the same characteristics as the target noise can be obtained in advance in addition to speech. The problem to be solved by the present invention is like a semi-supervised approach. As one of semi-supervised approaches, a method based on Semi-supervised Non-negative Matrix Factorization (SSNMF) has been proposed (Non-patent Document 1). In this method, the power spectrum of speech and noise can be estimated by fitting the observed spectrum at each time with a non-negative combination of the speech base spectrum and the noise base spectrum that have been learned in advance.

P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi-supervised separation of sounds from single-channel mixtures,” in Proc. Independent Component Analysis and Signal Separation, pp. 414-421, 2007.P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and semi-supervised separation of sounds from single-channel mixtures,” in Proc. Independent Component Analysis and Signal Separation, pp. 414-421, 2007.

上記非特許文献1の手法は未知雑音環境下においても高い信号対雑音比の強調音声を得られる一方で、残留雑音成分からなるミュージカルノイズ(時間周波数平面に点在する雑音成分)が原因で必ずしも聴感的に品質の良い音声とならない場合が多い。また、この手法では音声のスペクトルの時間変化の自然さを保証しないため、強調音声のスペクトルが不連続になりがちであり、これもまた強調音声の聴感上の品質を下げる原因となっている。   While the technique of Non-Patent Document 1 can obtain enhanced speech with a high signal-to-noise ratio even in an unknown noise environment, it is not always necessary due to musical noise (noise components scattered in the time-frequency plane) consisting of residual noise components. There are many cases where the sound is not audibly good quality. In addition, since this method does not guarantee the natural temporal change of the speech spectrum, the spectrum of the enhanced speech tends to be discontinuous, which also causes a reduction in the auditory quality of the enhanced speech.

本発明では、上記事情を鑑みて成されたものであり、雑音を抑制し、高品質な音声信号を強調することができる信号解析装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a signal analysis apparatus, method, and program capable of suppressing noise and emphasizing a high-quality audio signal.

上記目的を達成するために、本発明に係る信号解析装置は、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の混合ガウス分布モデルのパラメータに基づいて、各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、及び前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定するパラメータ推定部と、を含んで構成されている。   In order to achieve the above object, a signal analysis device according to the present invention receives observation time series data of an observation signal in which a speech signal and a noise signal are mixed and inputs an observation spectrogram representing an observation spectrum at each time and each frequency. Based on the parameters of the time-frequency expansion unit to output, the observation spectrogram output by the time-frequency expansion unit, and the mixed Gaussian distribution model of the speech signal learned in advance, the observation spectrum of each time and each frequency, From the spectrum of each time and each frequency obtained from the vocal tract spectrum sequence and the sound source spectrum sequence of the audio signal, the base spectrum representing the power spectrum at each base and each frequency of the noise signal, and the activation parameter representing the power at each time Spectrum of each required time and each frequency A distance from the sum of the vocal tract spectrum of the speech signal and a distance between the vocal tract spectrum series of the speech signal and a maximum likelihood spectrum series in the mixed Gaussian distribution model corresponding to the vocal tract spectrum series; a sound source spectrum series of the speech signal; It is obtained from the distance from the maximum likelihood spectrum sequence in the mixed Gaussian distribution model corresponding to the spectrum sequence, the observed spectrum at each time and each frequency of the noise signal, the base spectrum of the noise signal, and the activation parameter. The base spectrum and the activation parameter of the noise signal, the vocal tract spectrum sequence of the speech signal, and the speech so as to reduce the criterion expressed using the distance from the spectrum of each time and each frequency Source spectral sequence of the signal, and observation of each time and each frequency of the noise signal A parameter estimation unit that estimates the spectrum, is configured to include a.

本発明に係る信号解析方法は、時間周波数展開部と、パラメータ推定部とを含む信号解析装置における信号解析方法であって、前記時間周波数展開部が、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力し、前記パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の混合ガウス分布モデルのパラメータに基づいて、各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、及び前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定する。   A signal analysis method according to the present invention is a signal analysis method in a signal analysis apparatus including a time-frequency expansion unit and a parameter estimation unit, wherein the time-frequency expansion unit is an observation in which an audio signal and a noise signal are mixed. The observation spectrogram representing the observation spectrum of each time and each frequency is output with the time series data of the signal as input, and the parameter estimation unit outputs the observation spectrogram output by the time frequency expansion unit, and the speech learned in advance. Based on the parameters of the mixed Gaussian distribution model of the signal, the spectrum of each time and each frequency obtained from the observed spectrum of each time and each frequency, the vocal tract spectrum sequence and the sound source spectrum sequence of the speech signal, and the noise signal Base spectrum representing the power spectrum at each base and each frequency and at each time Distance from the sum of the spectrum of each time and each frequency obtained from the activation parameter representing the power of the power, the vocal tract spectrum sequence of the speech signal, and the maximum likelihood in the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence Distance with a spectral sequence, distance between a source spectral sequence of the audio signal and a maximum likelihood spectral sequence in the mixed Gaussian distribution model corresponding to the source spectral sequence, and observation spectrum of each time and each frequency of the noise signal And the basis spectrum of the noise signal and the distance from the spectrum of each time and each frequency obtained from the activation parameter, the basis spectrum of the noise signal and the Activation parameters and vocal tracts of the speech signal Estimating and Le series, the sound source spectral trajectories of the audio signal, and observed spectrum at each time and each frequency of the noise signal.

また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said signal analysis apparatus.

以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、観測スペクトルと、声道スペクトル系列及び音源スペクトル系列から求められるスペクトル、並びに雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められるスペクトルの和との距離、声道スペクトル系列と、声道スペクトル系列に対応した混合ガウス分布モデルでの最尤スペクトル系列との距離、音源スペクトル系列と、音源スペクトル系列に対応した混合ガウス分布モデルでの最尤スペクトル系列との距離、及び雑音信号の各時刻及び各周波数の観測スペクトルと、雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離を用いて表される規準を小さくするように、雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、声道スペクトル系列と、音源スペクトル系列と、前記雑音信号の観測スペクトルとを推定することにより、雑音を抑制し、高品質な音声信号を強調することができる。   As described above, according to the signal analysis device, method, and program of the present invention, the observed spectrum, the spectrum obtained from the vocal tract spectrum sequence and the sound source spectrum sequence, the base spectrum of the noise signal, and the activation parameter Distance with the sum of the spectrum determined from the distance, distance between the vocal tract spectrum sequence and the maximum likelihood spectrum sequence in the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence, the sound source spectrum sequence and the mixed Gaussian corresponding to the sound source spectrum sequence The distance from the maximum likelihood spectrum sequence in the distribution model, and the distance between the observed spectrum of each time and each frequency of the noise signal, and the spectrum of each time and each frequency determined from the base spectrum of the noise signal and the activation parameter Reduce the criteria expressed using Thus, the noise is suppressed by estimating the base spectrum and the activation parameters of the noise signal, the vocal tract spectrum sequence, the sound source spectrum sequence, and the observed spectrum of the noise signal, thereby suppressing noise and providing a high quality voice signal. Can be emphasized.

本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。It is a block diagram showing functional composition of a signal analysis device concerning an embodiment of the invention. 本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the learning process routine in the signal analyzer which concerns on embodiment of this invention. 本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the parameter estimation processing routine in the signal analyzer which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<発明の概要>
まず、本実施の形態における概要について説明する。音声合成では聴感的に高品質な音声を合成することが目的であり、特にスペクトルだけでなく知覚に大きな影響を与えるスペクトルの時間微分量の統計分布を用いて最適な音声スペクトル系列を生成する方式がとられる。音声通信のための音声強調においても、いかに聴感的に高品質な音声にできるかが重要となるため、音声合成のモデルや手法が有用となる可能性がある。本発明では、未知雑音環境下における半教師あり音声強調の問題に対し、SSNMF法の音声強調方式にパラメトリック音声合成モデルとして提案されたトラジェクトリ隠れマルコフモデルを利用した手法を提案する。
<Summary of invention>
First, an outline of the present embodiment will be described. In speech synthesis, the purpose is to synthesize aurally high quality speech, and in particular, a method of generating an optimum speech spectrum sequence using the statistical distribution of time derivative of the spectrum which greatly affects not only the spectrum but also the perception. Is taken. Also in speech enhancement for speech communication, since it is important how high-quality speech can be audibly produced, speech synthesis models and methods may be useful. The present invention proposes a method using the trajectory hidden Markov model proposed as a parametric speech synthesis model for the speech enhancement method of the SSNMF method for the problem of semi-supervised speech enhancement in an unknown noise environment.

<本実施の形態の原理>
次に、本実施の形態の原理について説明する。
<Principle of this embodiment>
Next, the principle of the present embodiment will be described.

<問題の定式化>
観測信号の振幅スペクトログラムまたはパワースペクトログラム(以後、観測スペクトログラム)をYω,tとする。ただし、ωとtは周波数、時刻のインデックスである。スペクトルの加法性を仮定し、各時刻の音声スペクトルX(s) ω,tおよび雑音スペクトルX(n) ω,tをそれぞれLS個の基底スペクトル

とLN個の基底スペクトル

の非負結合
<Formulation of problem>
The amplitude spectrogram or power spectrogram of the observation signal (hereinafter, observation spectrogram) is represented by Yω, t . Where ω and t are indexes of frequency and time. Assuming that the spectrum is additive, the speech spectrum X (s) ω, t and the noise spectrum X (n) ω, t at each time are represented as L S basis spectra, respectively.

And L N basis spectra

Non-negative coupling of

で表せるものとする。 It can be expressed by

SSNMF法は、クリーン音声の学習サンプルから事前学習した

を用いて、観測スペクトルYω,t

をフィッティングすることで観測スペクトログラムに含まれる音声の成分と雑音の成分を推定する方法である(非特許文献1)。このようにして求まる音声スペクトルと雑音スペクトルの推定値からWienerフィルタなどにより観測信号から音声信号を得ることができる。このアプローチでは事前学習した音声の基底スペクトルが音声と雑音の分離の手がかりとなるが、音声の基底スペクトルで雑音スペクトルを説明できてしまう場合やその逆の場合がありえるため、Yω,tとXω,tの誤差を小さくできたとしてもX(S) ω,tとX(N) ω,tが実際の音声スペクトルと雑音スペクトルに対応するとは限らない。また、この方式では、音声スペクトルの推定において音声スペクトルの時間変化量の統計を活用できる仕組みになっておらず、このことがミュージカルノイズの発生や不連続なスペクトル変化を許す一因になっていたと考えられる。そこでより高品質な音声強調を実現するためには音声スペクトルの時間変化の傾向を考慮し、同じXω,tを与えるX(S) ω,tとX(N) ω,tの不定性を解消するより強い制約が必要である。
SSNMF method pre-learned from clean speech learning samples

To the observed spectrum Y ω, t

Is a method of estimating speech components and noise components included in an observation spectrogram by fitting (Non-patent Document 1). A speech signal can be obtained from the observation signal by a Wiener filter or the like from the speech spectrum and noise spectrum estimated values thus obtained. In this approach, the pre-learned speech base spectrum is a clue to separation of speech and noise, but the noise spectrum can be explained by the speech base spectrum and vice versa, so Y ω, t and X Even if the error of ω, t can be reduced, X (S) ω, t and X (N) ω, t do not always correspond to the actual speech spectrum and noise spectrum. In addition, this system does not have a mechanism that can utilize statistics of time variation of speech spectrum in estimation of speech spectrum, and this is one factor that allows musical noise and discontinuous spectrum change. Conceivable. Therefore, in order to realize higher-quality speech enhancement, consider the tendency of temporal change of speech spectrum, give the same X ω, t, and give the uncertainty of X (S) ω, t and X (N) ω, t We need stronger constraints to eliminate.

音声の知覚において、音声の対数スペクトルおよびその時間微分量が大きな影響を与えることが知られており、音声合成では聴感的に高品質な音声を合成することが目的として対数スペクトルだけでなく対数スペクトルの時間微分量の統計分布を用いて最適な音声スペクトル系列を生成する方式がとられる(非特許文献2、3参照)。   In speech perception, it is known that the logarithmic spectrum of speech and its time derivative have a significant effect, and in speech synthesis, it is not only the logarithmic spectrum but also the logarithmic spectrum for the purpose of synthesizing aurally high quality speech. Is used to generate an optimal speech spectrum sequence using the statistical distribution of the time derivative (see Non-Patent Documents 2 and 3).

[非特許文献2]:T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura,"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. European Conference on Speech Communication and Technology (EUSIPCO 1999), vol. 5. pp. 2347-2350, 1999. [Non-patent document 2]: T. Yoshimura, K. Tokuda, T. Kosashi, T. Kitamura, "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. European Conference on Speech Communication and Technology (EUSIPCO 1999), vol. 5. pp. 2347-2350, 1999.

[非特許文献3]:H. Zen, K. Tokuda, T. Kitamura, "Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences," Computer Speech and Language, vol. 21, pp. 153-173, 2007. [Non-patent document 3]: H. Zen, K. Tokuda, T. Kitamura, "Reforming the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences," Computer Speech and Language, vol. 21, pp. 153-173, 2007.

この方式を隠れマルコフモデル(Hidden Markov Model; HMM)音声合成という。音声通信のための音声強調においても、いかに聴感的に高品質な音声にできるかが重要となるため、音声合成のモデルや手法が有用となる可能性がある。そこで本発明では、音声の対数スペクトルを声道スペクトルと声帯振動スペクトルの成分に分解し、各成分および各成分の時間微分量の確率分布に基づいて X(S) ω,tに対する正則化項を設計し、雑音の対数スペクトルに対しては、従来型のNMFによる正則化項を与え、これらの正則化項とY(S) ω,tとX(S) ω,tの誤差規準の和を最適化規準とするパラメータ最適化アルゴリズムを提案する。 This method is called Hidden Markov Model (HMM) speech synthesis. Even in speech enhancement for speech communication, it is important how a high quality speech can be audibly sensed, so models and methods of speech synthesis may be useful. Therefore, in the present invention, the logarithmic spectrum of speech is decomposed into vocal tract spectrum and vocal cord vibration spectrum components, and the regularization term for X (S) ω, t is calculated based on the probability distribution of each component and the time derivative of each component. Design and give the regularization term by the conventional NMF for the logarithm spectrum of noise, and the sum of these regularization terms and the error criterion of Y (S) ω, t and X (S) ω, t We propose a parameter optimization algorithm as an optimization criterion.

Yω,tとXω,tの誤差はSSNMF法においては二乗誤差、Iダイバージェンス、板倉齋藤擬距離などで測ることが多いが、本発明では対数スペクトル距離 The errors of Y ω, t and X ω, t are often measured by the square error, I divergence, Itakura-Saito-together pseudo-distance in SSNMF method, but in the present invention, the logarithmic spectral distance

を用いる。ただし、ω、tは周波数と時刻のインデックスを表す。次に、音声信号のスペクトルX(S) ω,tを、音声のソースフィルタ理論に基づき、 Use Here, ω and t represent indexes of frequency and time. Next, based on the source filter theory of speech , the spectrum X (S) ω, t of the speech signal is

のように声道スペクトルFω,tと音源スペクトルEω,tの積として表す。そして、これらに対してそれぞれ It is expressed as a product of the vocal tract spectrum F ω, t and the source spectrum E ω, t as in And for each of these

のような規準を考える。ここで、

および

はそれぞれ声道スペクトル系列と音源スペクトル系列に対応した異なるHMMの状態系列を表し、

および

は状態系列が与えられた下での最尤スペクトル系列
Consider the following criteria. here,

and

Represents the state sequences of different HMMs corresponding to the vocal tract spectrum sequence and the sound source spectrum sequence, respectively

and

Is the maximum likelihood spectrum sequence given the state sequence

に対応する。これはHMM音声合成におけるパラメータ生成方式(上記非特許文献2、3参照)と同形で、 Corresponds to This is the same form as the parameter generation method in HMM speech synthesis (see Non-Patent Documents 2 and 3 above).

で与えられる。ただし、

は状態系列

が与えられた下での各々のHMMの状態出力分布の平均系列、

は状態系列

が与えられた下での各々のHMMの状態出力分布の分散を対角成分に並べた対角行列である。また、

は、パラメータの時系列が格納されたベクトルをそれ自身とその時間数値微分系列を結合したベクトルに変換する行列である。また、

は平均がμ、分散共分散行列がΣの正規分布を表す。従って式(7)、(8)は所与の状態系列と状態出力分布によって決まるスペクトル系列とその時間微分系列の両確率分布を規準とした最尤スペクトル系列を意味していることが分かる。ここで、それぞれのHMMの各状態の出力分布の平均と分散はクリーンな音声の声道スペクトル系列と音源スペクトル系列から事前学習した定数とする。
Given in. However,

Is the state series

The average sequence of the state output distribution of each HMM, given

Is the state series

Is a diagonal matrix in which the variances of the state output distribution of each HMM given. Also,

Is a matrix that converts a vector in which a time series of parameters is stored into a vector obtained by combining itself and its time-value differential series. Also,

Represents a normal distribution with mean μ and variance covariance matrix Σ. Therefore, it can be seen that equations (7) and (8) mean the maximum likelihood spectrum series based on both probability distributions of a spectrum series determined by a given state series and state output distribution and its time derivative series. Here, the average and variance of the output distribution of each state of each HMM are constants previously learned from the vocal tract spectrum sequence and the sound source spectrum sequence of clean speech.

本発明の実施の形態では、HMMの特殊なケースとして混合ガウス分布モデルを用いるため、状態系列

は、声道スペクトル系列と音源スペクトル系列に対応した異なる混合ガウス分布モデルの一つの状態を並べた系列を表し、

は、各々の混合ガウス分布モデルの出力分布の平均系列、

は、各々の混合ガウス分布モデルの出力分布の分散を対角成分に並べた対角行列である。
In the embodiment of the present invention, since a mixed Gaussian distribution model is used as a special case of HMM, the state sequence is

Represents a sequence of one state of different mixed Gaussian distribution models corresponding to the vocal tract spectrum sequence and the sound source spectrum sequence,

Is the mean sequence of the output distribution of each mixed Gaussian distribution model,

Is a diagonal matrix in which the variance of the output distribution of each mixed Gaussian distribution model is arranged in a diagonal component.

さらに、X(N) ω,t に対し、 Furthermore, for X (N) ω, t

のような規準を考える。提案法では、式(3)、(5)、(6)、(11)の4つの規準の重みつき和 Consider a criterion like In the proposed method, the weighted sum of the four criteria (3), (5), (6), and (11) is used.

を最小化することが目的である。ただし、α1、α2、α3は重みづけ係数である。 The goal is to minimize However, α 1 , α 2 and α 3 are weighting coefficients.

以上のようにこの最適化問題は、観測スペクトル系列の中に埋もれた音声スペクトル系列を、HMM音声合成の生成モデルと同形のモデル(式(9)、(10))でどれだけ良く説明できるかを手がかりにしながら推定する問題となっている。   As described above, how well this optimization problem can explain the speech spectrum sequence embedded in the observation spectrum sequence by the model (HQs (9) and (10)) that is isomorphic to the HMM speech synthesis generation model It is a problem to estimate while making a clue.

<パラメータ推定アルゴリズム>

を最小化するF、E、H(N)、U(N)を解析的に得ることはできないが、当該最適化問題の局所最適解を探索する反復アルゴリズムを補助関数法に基づき導くことができる。
<Parameter estimation algorithm>

Although it is impossible to analytically obtain F, E, H (N) and U (N) which minimize N , it is possible to derive an iterative algorithm to search for the local optimal solution of the optimization problem based on the auxiliary function method .

補助関数法による、目的関数F(θ)の最小化問題の最適化アルゴリズムでは、まず補助変数ξを導入し、

を満たす補助関数

を設計する。このような補助関数が設計できれば、

を交互に繰り返すことで、目的関数F(θ)を局所最小化するθを得ることができる。以下で、

の補助関数とそれに基づく更新式を導く。
In the optimization algorithm of the objective function F (θ) minimization problem by the auxiliary function method, first introduce the auxiliary variable 、,

Auxiliary functions satisfying

To design. If such an auxiliary function can be designed,

By alternately repeating the above, it is possible to obtain θ which locally minimizes the objective function F (θ). Below,

Derive the auxiliary function of and the update expression based on it.


については、

about,



のように展開し、式(14)右辺の各項に対し、補助関数を設計する。まず第一項に関して、以下の不等式が成り立つことを利用する。 The auxiliary function is designed for each term on the right side of Equation (14). First, with regard to the first term, it is used that the following inequality holds.

x>0、ξ>0において   At x> 0, ξ> 0

が成り立ち、等号はx=ξのときのみ成立する。 And the equal sign holds only when x = ξ.

以上の不等式から、任意のξω,t>0について From the above inequality, for any ω ω, t > 0

が言え、さらに逆関数が凸関数であることを利用して、Jensenの不等式により However, using the fact that the inverse function is a convex function, Jensen's inequality is

が成り立つ。ただし、λ(S) ω,t、λ(N) ω,tHolds. Where λ (S) ω, t and λ (N) ω, t are

を満たす補助変数である。これらをまとめると、 Is an auxiliary variable that satisfies Summarizing these,

を得る。なお、式(21)の等号成立条件は Get In addition, the condition for the equality of expression (21) is

である。 It is.

次に、式(14)の第二項の補助関数を設計する。LogYω,tは正と負の符号をとりうるので、logYω,tの符号に応じてlogXω,tに対し別の不等式を立てる。負の対数関数は凸関数なのでJensenの不等式により Next, the auxiliary function of the second term of equation (14) is designed. Logy omega, t so can take positive and negative sign, logY ω, logX ω, make another inequality to t depending on the sign of the t. The negative logarithmic function is a convex function so Jensen's inequality

を得る。ただし、θ(S) ω,t、θ(N) ω,tGet Where θ (S) ω, t and θ (N) ω, t are

を満たす非負の変数である。また、正の対数関数は凹関数なので Is a non-negative variable that satisfies Also, since the positive logarithmic function is a concave function

が成り立つ。ただし、φω,tは任意の実数である。これらの不等式は、 Holds. However, φ ω, t is an arbitrary real number. These inequalities are

のときに等号成立する。以上をまとめると、 The equal sign is established when To summarize the above,

が言える。ただし、δxは条件xを満たす場合に1、満たさない場合に0となる指示関数である。 I can say. However, δ x is an instruction function that is 1 when the condition x is satisfied, and 0 when the condition x is not satisfied.

次に、

の補助関数を設計する。まず、
next,

Design auxiliary functions for. First,

と展開し、式(31)の右辺第一項については、式(15)、(16)、(17)を用いると任意のηω,t>0について For the first term on the right side of Equation (31), using Equations (15), (16), and (17), for any η ω, t > 0

が成り立ち、等号は And the equal sign is

のとき成り立つ。以上から、 It holds true for From the above,

が成り立つ。同様にして、

の補助関数は任意のζω,t>0を用いて
Holds. Similarly,

Auxiliary function of with any ω ω, t > 0



により設計できる。なお、等号は Can be designed by The equal sign is

のとき成り立つ。 It holds true for

最後に、

については
Finally,

about

と書くことができ、式(37)の右辺第一項を式(15)、(16)、(17)を用いると任意のνω,t>0について The first term on the right side of equation (37) can be written using equations (15), (16), and (17) for any ν ω, t > 0

が成り立ち、等号は And the equal sign is

のとき成り立つ。次に、第二項の補助関数を設計する。logX(N) ω,tは正と負の符号をとりうるので、logX(N) ω,tの符号に応じてlogΣlH(N) ω,tU(N) ω,tに対し別の不等式を立てる。負の対数関数は凸関数なのでJensenの不等式により This holds true. Next, the second term auxiliary function is designed. logX (N) ω, because t can take positive and negative sign, logX (N) ω, logΣ l H (N) ω in accordance with the sign of the t, t U (N) ω , different to t Build an inequality. The negative logarithmic function is a convex function so Jensen's inequality

を得る。ただし、ψω,l,tGet Where ψ ω, l, t is

を満たす非負の変数である。また、正の対数関数は凹関数なので Is a non-negative variable that satisfies Also, since the positive logarithmic function is a concave function

が成り立つ。ただし、πω,tは任意の実数である。これらの不等式は、 Holds. However, π ω, t is an arbitrary real number. These inequalities are

のときに等号成立する。 The equal sign is established when

第三項については、式(15)、(16)、(17)を用いると任意のεω,t> 0について For the third term, using equations (15), (16), and (17), for any ε ω, t > 0

が成り立ち、さらに、Jensenの不等式により In addition, by Jensen's inequality

となる。ただし、σω,tは任意の実変数、τω,l,tIt becomes. Where σ ω, t is any real variable, and τ ω, l, t is

を満たす任意の非負変数である。これらをまとめると、 Is any non-negative variable that satisfies Summarizing these,

を得る。なお、式(51)の等号は Get In addition, the equal sign of Formula (51) is

のとき成り立つ。 It holds true for

以上をまとめると、   To summarize the above,



が成り立ち、右辺を

の補助関数とすることができる。以上の補助関数を足し合わせることで

の補助関数が得られる。この補助関数を最小にする各パラメータの更新式は
And the right side

It can be an auxiliary function of By adding the above auxiliary functions

The auxiliary function is obtained. The update formula for each parameter that minimizes this auxiliary function is

のように閉形式で得られる。ただし、 It is obtained in closed form like. However,


である。 It is.

<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
<Configuration of Signal Analysis Device According to Embodiment of the Present Invention>
Next, the configuration of the signal analysis device according to the embodiment of the present invention will be described. As shown in FIG. 1, a signal analysis apparatus 100 according to an embodiment of the present invention is a ROM storing a CPU, a RAM, a program for executing a learning process routine and a parameter estimation process routine described later, and various data. And can be configured on a computer. Functionally, the signal analyzing apparatus 100 includes an input unit 10, an arithmetic unit 20, and an output unit 90 as shown in FIG.

入力部10は、雑音が混じっていないクリーンな音声信号(以後、クリーン音声信号)の時系列データを受け付ける。また、入力部10は、音声信号と雑音信号とが混じっている音響信号(以後、観測信号)の時系列データを受け付ける。   The input unit 10 receives time-series data of a clean sound signal (hereinafter referred to as a clean sound signal) that is not mixed with noise. The input unit 10 also receives time-series data of an acoustic signal (hereinafter referred to as an observation signal) in which an audio signal and a noise signal are mixed.

演算部20は、時間周波数展開部24と、GMMパラメータ学習部32と、GMMパラメータ記憶部34と、パラメータ推定部36と、音声信号生成部38と、を含んで構成されている。   The calculation unit 20 includes a time frequency expansion unit 24, a GMM parameter learning unit 32, a GMM parameter storage unit 34, a parameter estimation unit 36, and an audio signal generation unit 38.

時間周波数展開部24は、クリーン音声信号の時系列データに基づいて、各時刻における各周波数のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。なお、第1の実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。   The time frequency expansion unit 24 calculates an amplitude spectrogram or a power spectrogram representing a spectrum of each frequency at each time based on the time series data of the clean speech signal. In the first embodiment, time-frequency expansion such as short-time Fourier transform and wavelet transform is performed.

また、時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻tにおける各周波数ωの観測スペクトルYω,tを表す振幅スペクトログラム又はパワースペクトログラムである観測スペクトログラムYを計算する。 In addition, the time-frequency expansion unit 24 calculates an observation spectrogram Y that is an amplitude spectrogram or a power spectrogram representing the observation spectrum Y ω, t of each frequency ω at each time t based on the time-series data of the observation signal.

GMMパラメータ学習部32は、時間周波数展開部24によって計算された、クリーン音声信号の各時刻における各周波数のスペクトルに基づいて、音声の声道スペクトルと声帯振動スペクトルに対して、その対数および対数の一次差分量の混合ガウス分布モデルのパラメータを学習する。具体的には、混合ガウス分布モデルの出力分布の平均系列

、混合ガウス分布モデルの出力分布の分散を対角成分に並べた対角行列

を学習する。
The GMM parameter learning unit 32 calculates the logarithm of the vocal tract spectrum and the vocal cord vibration spectrum of the speech based on the spectrum of each frequency at each time of the clean speech signal calculated by the time frequency expansion unit 24. Learn the parameters of the mixture Gaussian distribution model of the first-order difference amount. Specifically, the mean sequence of the output distribution of the mixed Gaussian distribution model

, A diagonal matrix in which the variances of the output distribution of the mixed Gaussian distribution model are arranged in diagonal components

To learn

GMMパラメータ記憶部34は、GMMパラメータ学習部32によって学習された、混合ガウス分布の出力分布の平均系列

、混合ガウス分布モデルの出力分布の分散を対角成分に並べた対角行列

を記憶している。
The GMM parameter storage unit 34 is an average sequence of the output distribution of the mixed Gaussian distribution learned by the GMM parameter learning unit 32.

, A diagonal matrix in which the variances of the output distribution of the mixed Gaussian distribution model are arranged in diagonal components

Is remembered.

パラメータ推定部36は、時間周波数展開部24により出力された観測スペクトログラムY、及びGMMパラメータ記憶部34に記憶されている混合ガウス分布モデルのパラメータに基づいて、各時刻及び各周波数の観測スペクトルYと、音声信号の声道スペクトル系列F及び音源スペクトル系列Eから求められる各時刻及び各周波数のスペクトルX(S)、並びに前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルX(N)の和Xとの距離

、音声信号の声道スペクトル系列Fと、声道スペクトル系列に対応した混合ガウス分布モデルの一つの状態を並べた系列が与えられた下での最尤スペクトル系列との距離

、音声信号の音源スペクトル系列Eと、音源スペクトル系列Eに対応した混合ガウス分布モデルの一つの状態を並べた系列が与えられた下での最尤スペクトル系列との距離

、及び雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離

、を用いて表される上記(12)式に示す規準を小さくするように、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とを推定する。
The parameter estimation unit 36 generates an observation spectrum Y of each time and each frequency based on the observation spectrogram Y output from the time frequency expansion unit 24 and the parameters of the mixed Gaussian distribution model stored in the GMM parameter storage unit 34. , Spectrum X (S) of each time and each frequency determined from vocal tract spectrum series F and sound source spectrum series E of speech signal, and each time and each frequency determined from the base spectrum of the noise signal and the activation parameter Distance with the sum X of the spectrum X (N) of

, The distance between the vocal tract spectral sequence F of the speech signal and the maximum likelihood spectral sequence given a sequence obtained by arranging one state of the mixed Gaussian distribution model corresponding to the vocal tract spectral sequence

, The distance between the source spectrum sequence E of the speech signal and the maximum likelihood spectrum sequence given a sequence obtained by arranging one state of the mixed Gaussian distribution model corresponding to the source spectrum sequence E

, And the distance between each spectrum of each time and each frequency obtained from the observed spectrum X (N) of each time and each frequency of the noise signal, and the base spectrum H (N) of the noise signal and the activation parameter U (N)

, The basis spectrum H (N) of the noise signal and the activation parameter U (N), and the vocal tract spectrum series F of the speech signal so as to reduce the criteria shown in the above equation (12) expressed using The source spectrum sequence E of the speech signal and the observed spectrum X (N) of each time and each frequency of the noise signal are estimated.

具体的には、パラメータ推定部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。   Specifically, the parameter estimation unit 36 includes an initial value setting unit 40, an auxiliary variable update unit 42, a parameter update unit 44, and a convergence determination unit 46.

初期値設定部40は、音声信号のアクティベーションパラメータU(S)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに初期値を設定する。また、状態系列

に一つの状態を並べた系列を設定すると共に、GMMパラメータ記憶部34に記憶されている混合ガウス分布モデルのパラメータに基づいて、最尤スペクトル系列

を設定する。
The initial value setting unit 40 includes an activation parameter U (S) of the audio signal, a base spectrum H (N) and an activation parameter U (N) of the noise signal, a vocal tract spectrum series F of the audio signal, and an audio signal. The initial value is set to the sound source spectrum sequence E and the observation spectrum X (N) of each time of each noise signal and each frequency. In addition, the state series

And sets a sequence in which one state is arranged, and based on the parameters of the mixed Gaussian distribution model stored in the GMM parameter storage unit 34, the maximum likelihood spectrum sequence

Set.

補助変数更新部42は、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに基づいて、上記(22)式、(23)式、(27)式、(28)式、(33)式、(36)式、(39)式、(43)式、(44)式、(49)式、(50)式に従って、各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,t、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,tを更新する。 Auxiliary variable updating unit 42 is the initial value, or the last updated, and the vocal tract spectral sequence F of the audio signal, the sound source spectrum sequence E of the audio signal at each time and each frequency of the noise signal observed spectrum X (N ) and on the basis, the (22) equation (23), (27), (28), (33), (36) where (39) equation (43) below, (44) (49) and (50) ,ω, t , λ (S) ω, t , λ (N) ω, t , θ (S) ω, t for each frequency ω and each time t θ (N) ω, t , φ ω, t , η ω, t , ζ ω, t , ν ω, t , π ω, t , σ ω, t , each base l, each frequency ω, and each time t Ψ l, ω, t , τ ω, l, t , each base l of noise signal and base spectrum H (N) ω, l of each frequency ω, activation parameter U (N ) Update l and t .

パラメータ更新部44は、時間周波数展開部24により出力された観測スペクトログラムYと、補助変数更新部42によって更新された各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,tと、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、状態系列

、最尤スペクトル系列

とに基づいて、上記(52)式〜(56)式に従って、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,t、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tとを推定する。
The parameter updating unit 44 selects the observed spectrogram Y output from the time-frequency expanding unit 24, the respective frequencies ω updated by the auxiliary variable updating unit 42, and ω ω, t , λ (S) ω, t with respect to each time t . λ (N) ω, t , θ (S) ω, t , θ (N) ω, t , φ ω, t , η ω, t , ζ ω, t , ν ω, t , π ω, t , σ ω, t , each base l, each frequency ω, and ψ l, ω, t , τ ω, l, t with respect to each time t, vocal tract spectral series F of the speech signal which is an initial value or is previously updated Source spectrum sequence E of speech signal, observed spectrum X (N) of each time and frequency of noise signal, base spectrum H (N) of noise signal and activation parameter U (N) , state sequence

, Maximum likelihood spectral series

And the basis spectrum H (N) ω, l of each base l and each frequency ω of the noise signal and the activation parameter U of each time t according to the equations (52) to (56) above. (N) Estimate l, t , vocal tract spectral sequence F of speech signal, source spectrum sequence E of speech signal, and observed spectrum X (N) ω, t of each time t of each noise signal and each frequency ω .

収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させる。   The convergence determination unit 46 determines whether or not the convergence condition is satisfied, and repeats the update process in the auxiliary variable update unit 42 and the update process in the parameter update unit 44 until the convergence condition is satisfied.

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(12)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。   As the convergence condition, for example, the fact that the number of repetitions has reached the upper limit number can be used. Alternatively, as the convergence condition, it can be used that the difference between the value of the criterion of the above formula (12) and the value of the previous criterion is equal to or less than a predetermined threshold value.

音声信号生成部38は、パラメータ推定部36において取得した音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとに基づいて、Wienerフィルタに従って、音声信号を生成し、出力部90から出力する。例えば、パラメータ推定部36において取得した音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eとから求められる、音声信号の各時刻t及び各周波数ωの観測スペクトルX(S) ω,tと、パラメータ推定部36において取得した雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとから、Wienerフィルタにより、音声信号を生成する。 The speech signal generation unit 38 generates a vocal tract spectrum sequence F of the speech signal acquired by the parameter estimation unit 36, a sound source spectrum sequence E of the speech signal, an observation spectrum X (N) of each time t of the noise signal and each frequency ω. Based on ω, t and the observation spectrogram Y, an audio signal is generated according to the Wiener filter, and output from the output unit 90. For example, the observation spectrum X (S) ω, of each time t of the audio signal and each frequency ω obtained from the vocal tract spectral sequence F of the audio signal acquired in the parameter estimation unit 36 and the sound source spectral sequence E of the audio signal . From t , each time t of the noise signal acquired in the parameter estimation unit 36, the observed spectrum X (N) ω, t of each frequency ω, and the observed spectrogram Y, a voice signal is generated by the Wiener filter.

<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10においてクリーン音声信号の時系列データを受け付けると、信号解析装置100は、図2に示す学習処理ルーチンを実行する。
<Operation of Signal Analysis Device According to Embodiment of the Present Invention>
Next, the operation of the signal analysis device 100 according to the embodiment of the present invention will be described. First, when the time series data of the clean speech signal is received at the input unit 10, the signal analyzing apparatus 100 executes a learning processing routine shown in FIG.

まず、ステップS100では、入力部10において受け付けたクリーン音声信号の時系列データに基づいて、クリーン音声信号の各時刻における各周波数のスペクトルを計算する。   First, in step S100, the spectrum of each frequency at each time of the clean sound signal is calculated based on the time series data of the clean sound signal received by the input unit 10.

ステップS106では、上記ステップS100において取得したクリーン音声信号の各時刻における各周波数のスペクトルに基づいて、音声の声道スペクトルと声帯振動スペクトルに対して、その対数および対数の一次差分量の混合ガウス分布モデルのパラメータを学習する。具体的には、混合ガウス分布モデルの出力分布の平均系列

、混合ガウス分布モデルの出力分布の分散を対角成分に並べた対角行列

を学習し、GMMパラメータ記憶部34に格納して、学習処理ルーチンを終了する。
In step S106, based on the spectrum of each frequency at each time of the clean speech signal acquired in step S100, a mixed Gaussian distribution of the logarithm and logarithm of the primary difference amount is obtained for the vocal tract spectrum and vocal cord vibration spectrum of the speech. Learn model parameters. Specifically, the average series of the output distribution of the mixed Gaussian distribution model

, A diagonal matrix in which the variances of the output distribution of the mixed Gaussian distribution model are arranged in diagonal components

Is stored in the GMM parameter storage unit 34, and the learning process routine is terminated.

次に、入力部10において、音声信号と雑音信号とが混在した観測信号の時系列データを受け付けると、信号解析装置100は、図3に示すパラメータ推定処理ルーチンを実行する。   Next, when the input unit 10 receives time-series data of an observation signal in which an audio signal and a noise signal are mixed, the signal analysis apparatus 100 executes a parameter estimation processing routine shown in FIG.

まず、ステップS120では、入力部10において受け付けた観測信号の時系列データに基づいて、観測スペクトログラムYを計算する。   First, in step S120, the observation spectrogram Y is calculated based on the time-series data of the observation signal received by the input unit 10.

ステップS122では、音声信号のアクティベーションパラメータU(S)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに初期値を設定する。 In step S122, the activation parameter U (S) of the speech signal, the base spectrum H (N) and the activation parameter U (N) of the noise signal, the vocal tract spectrum sequence F of the speech signal, and the sound source spectrum of the speech signal Initial values are set to the sequence E and the observation spectrum X (N) of each time and each frequency of the noise signal.

ステップS124では、初期値である、又は後述するステップS125で前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)とに基づいて、上記(22)式、(23)式、(27)式、(28)式、(33)式、(36)式、(39)式、(43)式、(44)式、(49)式、(50)式に従って、各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,t、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,tを更新する。 In step S124, the vocal tract spectrum series F of the speech signal, the sound source spectrum series E of the speech signal, and the observation spectrum X of each time and each frequency of the noise signal, which are initial values or updated in step S125 described later. Based on (N) , (22), (23), (27), (28), (33), (36), (39), (43), (43), 44), (49), and (50), ζ ω, t , λ (S) ω, t , λ (N) ω, t , θ (S) ω, for each frequency ω and each time t t , θ (N) ω, t , φ ω, t , ω ω, t , ω ω, t , ω ω, t , π ω, t , σ ω, t , each base l, each frequency ω, and each Ψ l, ω, t , τ ω, l, t with respect to time t, the base spectrum H (N) ω, l of each basis l of the noise signal and each frequency ω and the activation parameter U of each basis l and each time t (N) Update l, t .

次に、ステップS125では、上記ステップS120で得られた観測スペクトログラムYと、上記ステップS124で更新された各周波数ω及び各時刻tに対するζω,t、λ(S) ω,t、λ(N) ω,t、θ(S) ω,t、θ(N) ω,t、φω,t、ηω,t、ζω,t、νω,t、πω,t、σω,t、各基底l、各周波数ω、及び各時刻tに対するψl,ω,t、τω,l,tと、初期値である、又は前回更新した、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、雑音信号の基底スペクトルH(N)及びアクティベーションパラメータU(N)と、状態系列

、最尤スペクトル系列

とに基づいて、上記(52)式〜(56)式に従って、雑音信号の各基底l及び各周波数ωの基底スペクトルH(N) ω,l及び各基底l及び各時刻tのアクティベーションパラメータU(N) l,t、音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tとを推定する。
Next, in step S125, the observation spectrogram Y obtained in step S120 and ζ ω, t , λ (S) ω, t , λ (N (N ) for each frequency ω and each time t updated in step S124. ) ω, t , θ (S) ω, t , θ (N) ω, t , φ ω, t , η ω, t , ζ ω, t , ν ω, t , π ω, t , σ ω, t , Each base l, each frequency ω, and ψ l, ω, t , τ ω, l, t with respect to each time t, the vocal tract spectrum series F of the speech signal which is an initial value or has been previously updated, and the speech Source spectrum sequence E of signal, observed spectrum X (N) of each time and frequency of noise signal, base spectrum H (N) of noise signal and activation parameter U (N) , state sequence

, Maximum likelihood spectral series

And the basis spectrum H (N) ω, l of each base l and each frequency ω of the noise signal and the activation parameter U of each time t according to the equations (52) to (56) above. (N) Estimate l, t , vocal tract spectral sequence F of speech signal, source spectrum sequence E of speech signal, and observed spectrum X (N) ω, t of each time t of each noise signal and each frequency ω .

次に、ステップS128では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS130へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124〜ステップS125の処理を繰り返す。   Next, in step S128, it is determined whether the convergence condition is satisfied. If the convergence condition is satisfied, the process proceeds to step S130. If the convergence condition is not satisfied, the process proceeds to step S124, and the processes in steps S124 to S125 are repeated.

ステップS130では、上記ステップS125で最終的に更新された音声信号の声道スペクトル系列Fと、音声信号の音源スペクトル系列Eと、雑音信号の各時刻t及び各周波数ωの観測スペクトルX(N) ω,tと、観測スペクトログラムYとに基づいて、Wienerフィルタに従って、音声信号を生成し、出力部90から出力して、パラメータ推定処理ルーチンを終了する。 In step S130, the vocal tract spectrum series F of the speech signal finally updated in step S125, the sound source spectrum series E of the speech signal, and the observed spectrum X (N) of each time t of each noise signal and each frequency ω. Based on ω, t and the observation spectrogram Y, an audio signal is generated according to the Wiener filter, output from the output unit 90, and the parameter estimation processing routine is ended.

<実験例>
NTT-AT多言語音声データベース2002の音声データとRWCPの雑音データ(white noise, museum noise, babble noise, background music noiseの 4種類)を用いて上述の手法による雑音抑圧効果を検証する評価実験を行った。比較対象は従来のSSNMF法とし、処理前と処理後の信号対雑音比(SNR) およびメル周波数ケプストラム係数距離の改善値を評価した。テストデータはクリーン音声に各雑音をさまざまなSNRで重畳させて作成した。テストデータはすべてサンプリング周波数16kHzのモノラル信号で、フレーム長32ms、フレームシフト16msで短時間Fourier変換を行い、観測スペクトログラムYω,tを算出した。学習においては10名(うち女性5名、男性5名)の話者の計500文の音声を用いてH(S) ω,lを学習し、音声の声道スペクトルと声帯振動スペクトルに対して、その対数および対数の一次差分量のGMMパラメータの学習を行った。GMMの混合数は32とした。テストにおいては、学習で得られたH(S) ω,lとGMMパラメータを固定し、α1=1、α2=10、α3=1としてFω,t、Eω,t、H(N) ω,l、U(N) l,tの推定を行った。推定後、X(S) ω,tとX(N) ω,tを用いてWienerフィルタにより音声信号の推定値を算出した。提案法アルゴリズムの初期値は従来のSSNMFにより得た。
<Experimental example>
Conducted an evaluation experiment to verify the noise suppression effect by the above-mentioned method using the voice data of NTT-AT multilingual voice database 2002 and RWCP noise data (four types of white noise, museum noise, babble noise, background music noise) It was. The comparison target was the conventional SSNMF method, and the improvement values of the signal-to-noise ratio (SNR) and mel frequency cepstrum coefficient distance before and after processing were evaluated. Test data was created by superimposing various noises on clean speech with various SNRs. All test data were monaural signals with a sampling frequency of 16 kHz, Fourier transform was performed for a short time with a frame length of 32 ms and a frame shift of 16 ms, and an observation spectrogram Y ω, t was calculated. In learning, H (S) ω, l was learned using a total of 500 sentences of 10 speakers (including 5 women and 5 men), and the vocal tract spectrum and vocal cord vibration spectrum The GMM parameters of the logarithm and the logarithmic primary difference amount were learned. The mixing number of GMM was 32. In the test, H (S) ω, l and GMM parameters obtained by learning are fixed, and α 1 = 1, α 2 = 10, α 3 = 1 and F ω, t , E ω, t , H ( N) Estimated ω, l , U (N) l, t . After estimation, the estimated value of the speech signal was calculated by the Wiener filter using X (S) ω, t and X (N) ω, t . The initial values of the proposed algorithm are obtained by the conventional SSNMF.

以上の条件下での提案法と従来法によって得られたケプストラム歪みおよびSNRの改善値を比較したところ、いずれの評価尺度においてもほとんどの場合において提案法の方が高い改善値を得られていることが確認できた。   When the improved values of cepstrum distortion and SNR obtained by the proposed method and the conventional method under the above conditions were compared, the improved value of the proposed method was higher in most cases on any evaluation scale. That was confirmed.

以上説明したように、本発明の実施の形態に係る信号解析装置によれば、観測スペクトルと、声道スペクトル系列及び音源スペクトル系列から求められるスペクトル、並びに雑音信号の基底スペクトル及びアクティベーションパラメータから求められるスペクトルの和との距離、声道スペクトル系列と、声道スペクトル系列に対応したGMMでの最尤スペクトル系列との距離、音源スペクトル系列と、音源スペクトル系列に対応したGMMでの最尤スペクトル系列との距離、及び雑音信号の各時刻及び各周波数の観測スペクトルと、雑音信号の基底スペクトル及びアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離を用いて表される規準を小さくするように、雑音信号の基底スペクトル及びアクティベーションパラメータと、声道スペクトル系列と、音源スペクトル系列と、雑音信号の観測スペクトルとを推定することにより、雑音を抑制し、高品質な音声信号を強調することができる。   As described above, according to the signal analysis apparatus according to the embodiment of the present invention, the spectrum is obtained from the observed spectrum, the spectrum obtained from the vocal tract spectrum sequence and the sound source spectrum sequence, and the basis spectrum and activation parameters of the noise signal. Distance with the sum of the spectrums, the distance between the vocal tract spectrum sequence and the maximum likelihood spectrum sequence in the GMM corresponding to the vocal tract spectrum sequence, the sound source spectrum sequence, and the maximum likelihood spectrum sequence in the GMM corresponding to the sound source spectrum sequence And the criteria expressed using the distance between the observed spectrum of each time and frequency of the noise signal and the spectrum of each time and frequency obtained from the base spectrum and activation parameters of the noise signal So that the base spectrum and activation of the noise signal And ® emission parameters, and the vocal tract spectral series, and the sound source spectral series, by estimating the observed spectrum of the noise signal, it is possible to suppress the noise, to emphasize the high-quality voice signal.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the scope of the present invention.

例えば、GMMパラメータを学習する処理と、観測信号から音声信号を推定するパラメータ推定とを別々の装置で行うように構成してもよい。   For example, the processing for learning the GMM parameter and the parameter estimation for estimating the speech signal from the observation signal may be performed by different devices.

また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。   In addition, since the order of the parameters to be updated is arbitrary, the order of the above embodiments is not limited.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible.

10 入力部
20 演算部
24 時間周波数展開部
32 GMMパラメータ学習部
34 GMMパラメータ記憶部
36 パラメータ推定部
38 音声信号生成部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 信号解析装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 24 Time frequency expansion part 32 GMM parameter learning part 34 GMM parameter memory | storage part 36 Parameter estimation part 38 Speech signal generation part 40 Initial value setting part 42 Auxiliary variable update part 44 Parameter update part 46 Convergence determination part 90 Output Unit 100 Signal analyzer

Claims (7)

音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の混合ガウス分布モデルのパラメータに基づいて、
各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、
前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、
前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、及び
前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、
を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定するパラメータ推定部と、
を含む信号解析装置。
A time-frequency expansion unit for outputting an observation spectrogram representing an observation spectrum at each time and each frequency, using time-series data of the observation signal mixed with a speech signal and a noise signal as input,
Based on the observation spectrogram output by the time-frequency expansion unit and the parameters of the mixed Gaussian distribution model of the speech signal learned in advance,
Observation spectrum at each time and frequency, spectrum at each time and frequency obtained from the vocal tract spectrum sequence and sound source spectrum sequence of the audio signal, and base spectrum representing the power spectrum at each base and each frequency of the noise signal And the distance from the sum of the spectrum of each time and each frequency obtained from the activation parameter representing the power at each time,
A distance between a vocal tract spectrum sequence of the speech signal and a maximum likelihood spectrum sequence in the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence;
The distance between the sound source spectrum series of the voice signal and the maximum likelihood spectrum series in the mixed Gaussian distribution model corresponding to the sound source spectrum series, the observation spectrum of each time and each frequency of the noise signal, and the noise signal The distance from the spectrum of each time and each frequency obtained from the base spectrum and the activation parameter,
The basis spectrum and the activation parameter of the noise signal, the vocal tract spectrum sequence of the speech signal, the sound source spectrum sequence of the speech signal, and the noise signal A parameter estimator for estimating the observed spectrum at each time and each frequency;
Signal analyzer including:
前記規準は、以下の式で表わされる請求項1記載の信号解析装置。

ただし、α1、α2、α3は予め定められた重み係数を表し、

は、前記観測スペクトログラムYと前記和Xとの距離を表し、

は、前記音声信号の声道スペクトル系列Fと、前記声道スペクトル系列に対応した前記混合ガウス分布モデルの一つの状態からなる系列sが与えられた下での前記最尤スペクトル系列との距離を表し、

は、前記音声信号の音源スペクトル系列Eと、前記音源スペクトル系列に対応した前記混合ガウス分布モデルの一つの状態からなる系列qが与えられた下での前記最尤スペクトル系列との距離を表し、

は、前記雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、前記雑音信号の前記基底スペクトルH(N)及び前記アクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離を表す。
The signal analysis apparatus according to claim 1, wherein the criterion is expressed by the following equation.

Here, α 1 , α 2 and α 3 represent predetermined weighting factors,

Represents the distance between the observed spectrogram Y and the sum X,

Is the distance between the vocal tract spectrum sequence F of the speech signal and the maximum likelihood spectrum sequence given the sequence s consisting of one state of the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence. Represent,

Is the distance between the sound source spectrum series E of the audio signal and the maximum likelihood spectrum series given a series q consisting of one state of the mixed Gaussian distribution model corresponding to the sound source spectrum series,

Is the spectrum of each time and frequency obtained from the observed spectrum X (N) of each time and frequency of the noise signal, the base spectrum H (N) of the noise signal and the activation parameter U (N). Represents the distance between
前記パラメータ推定部は、
前記規準の上界関数である補助関数を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む請求項1又は2記載の信号解析装置。
The parameter estimation unit
The base spectrum and the activation parameter of the noise signal, the vocal tract spectrum sequence of the speech signal, the sound source spectrum sequence of the speech signal, and the auxiliary function that is an upper bound function of the criterion, A parameter updating unit that updates each time of the noise signal and the observed spectrum of each frequency;
A convergence determination unit that repeats the update by the parameter update unit until a predetermined convergence condition is satisfied;
The signal analysis device according to claim 1 or 2, comprising
時間周波数展開部と、パラメータ推定部とを含む信号解析装置における信号解析方法であって、
前記時間周波数展開部が、音声信号と雑音信号とが混合された観測信号の時系列データを入力として、各時刻及び各周波数の観測スペクトルを表す観測スペクトログラムを出力し、
前記パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラム、及び予め学習された音声信号の混合ガウス分布モデルのパラメータに基づいて、
各時刻及び各周波数の観測スペクトルと、前記音声信号の声道スペクトル系列及び音源スペクトル系列から求められる各時刻及び各周波数のスペクトル、並びに前記雑音信号の各基底及び各周波数におけるパワースペクトルを表す基底スペクトル及び各時刻におけるパワーを表すアクティベーションパラメータから求められる各時刻及び各周波数のスペクトルの和との距離、
前記音声信号の声道スペクトル系列と、前記声道スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、
前記音声信号の音源スペクトル系列と、前記音源スペクトル系列に対応した前記混合ガウス分布モデルでの最尤スペクトル系列との距離、及び
前記雑音信号の各時刻及び各周波数の観測スペクトルと、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータから求められる各時刻及び各周波数のスペクトルとの距離、
を用いて表される規準を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを推定する
信号解析方法。
A signal analysis method in a signal analysis device including a time frequency expansion unit and a parameter estimation unit,
The time-frequency expansion unit inputs time-series data of an observation signal in which a speech signal and a noise signal are mixed, and outputs an observation spectrogram representing an observation spectrum at each time and each frequency,
The parameter estimation unit is based on the observation spectrogram output by the time-frequency expansion unit and a parameter of a mixed Gaussian distribution model of a speech signal learned in advance.
Observation spectrum at each time and frequency, spectrum at each time and frequency obtained from the vocal tract spectrum sequence and sound source spectrum sequence of the audio signal, and base spectrum representing the power spectrum at each base and each frequency of the noise signal And the distance from the sum of the spectrum of each time and each frequency obtained from the activation parameter representing the power at each time,
A distance between a vocal tract spectrum sequence of the speech signal and a maximum likelihood spectrum sequence in the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence;
The distance between the sound source spectrum series of the voice signal and the maximum likelihood spectrum series in the mixed Gaussian distribution model corresponding to the sound source spectrum series, the observation spectrum of each time and each frequency of the noise signal, and the noise signal The distance from the spectrum of each time and each frequency obtained from the base spectrum and the activation parameter,
The basis spectrum and the activation parameter of the noise signal, the vocal tract spectrum sequence of the speech signal, the sound source spectrum sequence of the speech signal, and the noise signal A signal analysis method that estimates the observed spectrum of each time and each frequency.
前記規準は、以下の式で表わされる請求項4記載の信号解析方法。

ただし、α1、α2、α3は予め定められた重み係数を表し、

は、前記観測スペクトログラムYと前記和Xとの距離を表し、

は、前記音声信号の声道スペクトル系列Fと、前記声道スペクトル系列に対応した前記混合ガウス分布モデルの一つの状態からなる系列sが与えられた下での前記最尤スペクトル系列との距離を表し、

は、前記音声信号の音源スペクトル系列Eと、前記音源スペクトル系列に対応した前記混合ガウス分布モデルの一つの状態からなる系列qが与えられた下での前記最尤スペクトル系列との距離を表し、

は、前記雑音信号の各時刻及び各周波数の観測スペクトルX(N)と、前記雑音信号の前記基底スペクトルH(N)及び前記アクティベーションパラメータU(N)から求められる各時刻及び各周波数のスペクトルとの距離を表す。
The signal analysis method according to claim 4, wherein the criterion is expressed by the following equation.

Here, α 1 , α 2 and α 3 represent predetermined weighting factors,

Represents the distance between the observed spectrogram Y and the sum X,

Is the distance between the vocal tract spectrum sequence F of the speech signal and the maximum likelihood spectrum sequence given the sequence s consisting of one state of the mixed Gaussian distribution model corresponding to the vocal tract spectrum sequence. Represent,

Is the distance between the sound source spectrum series E of the audio signal and the maximum likelihood spectrum series given a series q consisting of one state of the mixed Gaussian distribution model corresponding to the sound source spectrum series,

Is the spectrum of each time and frequency obtained from the observed spectrum X (N) of each time and frequency of the noise signal, the base spectrum H (N) of the noise signal and the activation parameter U (N). Represents the distance between
前記パラメータ推定部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、前記雑音信号の前記基底スペクトル及び前記アクティベーションパラメータと、前記音声信号の声道スペクトル系列と、前記音声信号の音源スペクトル系列と、前記雑音信号の各時刻及び各周波数の観測スペクトルとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む請求項4又は5記載の信号解析方法。
In the estimation by the parameter estimation unit,
The parameter update unit reduces the base function of the noise signal and the activation parameter, the vocal tract spectrum sequence of the speech signal, and the sound source of the speech signal so that the auxiliary function that is an upper bound function of the criterion is reduced. Update the spectrum series and the observed spectrum at each time and each frequency of the noise signal,
The signal analysis method according to claim 4, wherein the convergence determination unit includes repeating the update by the parameter update unit until a predetermined convergence condition is satisfied.
請求項1〜請求項3の何れか1項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as each part of the signal-analysis apparatus in any one of Claims 1-3.
JP2016168332A 2016-08-30 2016-08-30 Signal analysis apparatus, method, and program Active JP6553561B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016168332A JP6553561B2 (en) 2016-08-30 2016-08-30 Signal analysis apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016168332A JP6553561B2 (en) 2016-08-30 2016-08-30 Signal analysis apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2018036410A JP2018036410A (en) 2018-03-08
JP6553561B2 true JP6553561B2 (en) 2019-07-31

Family

ID=61565813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016168332A Active JP6553561B2 (en) 2016-08-30 2016-08-30 Signal analysis apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6553561B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
JP6142402B2 (en) * 2013-09-02 2017-06-07 日本電信電話株式会社 Acoustic signal analyzing apparatus, method, and program

Also Published As

Publication number Publication date
JP2018036410A (en) 2018-03-08

Similar Documents

Publication Publication Date Title
Zhao et al. Perceptually guided speech enhancement using deep neural networks
CN107924686B (en) Voice processing device, voice processing method, and storage medium
US7664643B2 (en) System and method for speech separation and multi-talker speech recognition
JP4586577B2 (en) Disturbance component suppression device, computer program, and speech recognition system
WO2013132926A1 (en) Noise estimation device, noise estimation method, noise estimation program, and recording medium
JP6195548B2 (en) Signal analysis apparatus, method, and program
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
JP6748304B2 (en) Signal processing device using neural network, signal processing method using neural network, and signal processing program
JP6348427B2 (en) Noise removal apparatus and noise removal program
JP2006521576A (en) Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method
JP2006349723A (en) Acoustic model creating device, method, and program, speech recognition device, method, and program, and recording medium
WO2012105385A1 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
EP3242295B1 (en) A signal processor
Nower et al. Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement
JP6564744B2 (en) Signal analysis apparatus, method, and program
JP6142402B2 (en) Acoustic signal analyzing apparatus, method, and program
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Auvinen et al. Automatic glottal inverse filtering with the Markov chain Monte Carlo method
Nisa et al. The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense
JP6553561B2 (en) Signal analysis apparatus, method, and program
JP4464797B2 (en) Speech recognition method, apparatus for implementing the method, program, and recording medium therefor
JP2006215228A (en) Speech signal analysis method and device for implementing this analysis method, speech recognition device using this device for analyzing speech signal, program for implementing this analysis method, and recording medium thereof
Li et al. Adaptive extraction of repeating non-negative temporal patterns for single-channel speech enhancement
JP6618493B2 (en) Signal analysis apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190704

R150 Certificate of patent or registration of utility model

Ref document number: 6553561

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150