JP2006084659A - Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof - Google Patents
Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof Download PDFInfo
- Publication number
- JP2006084659A JP2006084659A JP2004268120A JP2004268120A JP2006084659A JP 2006084659 A JP2006084659 A JP 2006084659A JP 2004268120 A JP2004268120 A JP 2004268120A JP 2004268120 A JP2004268120 A JP 2004268120A JP 2006084659 A JP2006084659 A JP 2006084659A
- Authority
- JP
- Japan
- Prior art keywords
- periodic component
- audio signal
- vector
- parameter
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体に関する。 The present invention relates to an audio signal analysis method for extracting a feature expression of an audio signal such as a voice signal or a music signal, a voice recognition method using the method, an apparatus thereof, a program, and a recording medium thereof.
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この音声信号分析方法のこの従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この音声信号分析装置10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ手段14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段18P及び18Aと、ベクトル連結手段18とを備える。
In the automatic speech recognition apparatus, a speech signal analysis for speech feature expression extraction is performed. As a speech feature extraction method that is highly robust, that is, hardly affected by noise, there is a speech signal analysis method that separates periodic components and aperiodic components of a speech signal and outputs them by connecting them (non-patented). Reference 1). FIG. 1 shows an example of the functional configuration of an apparatus for executing this conventional audio signal analysis method of this audio signal analysis method, and FIG. 2 shows the processing procedure thereof. This speech
入力端子100より音声信号分析装置10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ111,…,11Bを用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report #35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11b(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ111,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ111,…,11Bでフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11bとして図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11bの各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
The audio signal input to the
The band-
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ111,…,11Bの出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部121,…,12Bでそれぞれ切り出す(ステップS2)の結果、例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部121,…,12Bから出力される。つまり各帯域通過フィルタ111,…,11Bよりの各帯域信号が分析区間(フレーム)ごとに分割される。
The voice waveform cutting means 12 cuts out each signal having a time length of 30 ms while moving from the output signals of the
周期推定手段13は音声波形切出手段12の各切出部121,…,12Bよりの出力信号を入力とし、その各分析区間ごとの各出力信号の周期性の周期を周期推定部131,…,13Bでそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsjとすると、入力信号の自己相関関数係数aciは以下の式に従って求まる。
Each cutting unit of period estimation means 13 the speech waveform clipping means 12 12 1, ..., 12 an output signal as input from B, the
aci=(1/N)Σj=1 N-1-isjsi+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてaciが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部131,…,13Bから各推定周期nが出力される。
ac i = (1 / N) Σj = 1 N-1-i s j s i + j , i = 1,..., N
FIG. 5A shows an example of the input signal waveform, and FIG. 5B shows the autocorrelation function coefficient. Next, ac i becomes maximum within a certain search range of i in the autocorrelation function coefficient, for example, within a range of 80 ≦ i ≦ 200 (corresponding to a period of 80 Hz to 200 Hz when the sampling frequency is 16,000 Hz). i is detected. The resulting i is n. This n represents the period length of the most dominant periodic component in the search range of the input signal. When the input signal is a single complete period signal (for example, a sine wave), the value corresponds to the period length. . Each estimation period n is output from each
櫛型フィルタ手段14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13b(b=1,…,B)で推定された周期nは櫛型フィルタ手段14の対応するフィルタ部14bに設定され、各切出部12bよりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14bに入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
The comb filter means 14 sets a discrete comb filter based on the period obtained by the period estimation means 13, and filters the output signal of the speech waveform cutout means 12 (step S4). The frequency characteristic of the discrete comb filter used here is, for example, the following expression in terms of z region with respect to the output period n of the period estimating means 13.
H (z) = 1−z −n
The output signal obtained by filtering the output signal of the speech waveform cutting means 12 with this discrete comb filter is a portion corresponding to the zero point in the frequency characteristics of the comb filter (the fundamental frequency component and its integral multiple frequency). It becomes a discrete signal in which the power of the component) is suppressed. The period n estimated by each period estimation unit 13 b (b = 1,..., B) is set in the corresponding filter unit 14 b of the comb filter means 14, and the band for each analysis section from each
パワー算出手段15Fの各計算部15Fbは音声波形切出手段12の各切出部12bにより出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Abは櫛型フィルタ手段14の各フィルタ部14bの出力信号のパワーを計算する(ステップS5)。各計算部15Fb及び15Abでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sjは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1 Nsj 2
減算手段16の各減算部16bでは、パワー算出手段15Fの各計算部15Fbの出力パワー値、つまり音声波形切出手段12の切出部12bの出力信号のパワー値WPbから、対応するパワー算出手段15Aの計算部15Abの出力パワー値、つまり切出部12bの出力に対応する櫛型フィルタ手段14のフィルタ部14bの出力信号から算出されたパワー値WAbを減算する(ステップS6)。この結果、各減算部16bから櫛型フィルタ手段14の各フィルタ部14bによって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPbを求めることができる。この減算操作を次式に示す。
Each
W = Σ j = 1 N s j 2
Each
WPb=WFb−WAb
周期成分パワーベクトル化手段20Pは各周期成分パワーWPbが入力され、これらをその対応帯域通過フィルタ11b(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段20Aは同様に各非周期成分パワーWAbをベクトルとする(ステップS7)。離散コサイン変換手段17Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば非特許文献3、14頁参照)。同様に離散コサイン変換手段17Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11bを用いた場合、WPbおよびWAbはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
WP b = WF b −WA b
The periodic component power vectorization means 20P receives the respective periodic component powers WP b and sets them as vectors arranged in the order of the center frequencies of the corresponding bandpass filters 11 b (b = 1,..., B), and the aperiodic component power vector means 20A similarly to the respective aperiodic component power WA b vector (step S7). The discrete
ベクトル連結手段18は、離散コサイン変換手段17Pおよび17Aの出力であるWPbおよびWAbに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c1,c2,…,ck)として出力する(ステップS9)。例えばWPbおよびWAbそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での自動音声認識において所定の頑健性が得られる。
The
音声信号の周期的な成分と非周期的な成分を分離することなく、音声特徴表現を抽出する音声分析方法において次のようなことが知られている。
(1)音声特徴パラメータであるMFCC(メル周波数ケプストラム係数)などの特徴パラメータの分散値によりパラメータを正規化して加法性歪の影響を補正するケプストラム分散正規化法(非特許文献2参照)。
(2)音声認識用モデル作成に用いた音声信号と認識対象音声信号とでマイクロホンや伝送路の違いなどに起因する乗法性歪に対処するため、MFCCなどの特徴パラメータを時間平均し、元のパラメータより減算して乗法性歪の影響を補正するケプストラム平均除去法(非特許文献3、14〜15頁参照)。
The following is known in a speech analysis method for extracting speech feature expression without separating a periodic component and an aperiodic component of a speech signal.
(1) A cepstrum dispersion normalization method (see Non-Patent Document 2) that normalizes a parameter by a dispersion value of a feature parameter such as an MFCC (Mel Frequency Cepstrum Coefficient) that is a voice feature parameter to correct the influence of additive distortion.
(2) In order to cope with multiplicative distortion caused by differences in microphones and transmission paths between the speech signal used for creating the speech recognition model and the speech signal to be recognized, characteristic parameters such as MFCC are averaged over time, A cepstrum average elimination method that subtracts from the parameters to correct the effect of multiplicative distortion (see
(3)加法性歪に対処するため、MFCCなどの特徴パラメータのゲイン(大きさ)を正規化して加法性歪の影響を補正するケプストラムゲイン正規化法(非特許文献4参照)。
前記(2)の平均除去法を図7を参照して簡単に説明する。音声信号は音声波形切出部1で分析フレームごとに切出され、各分析フレームごとに離散フーリエ変換部2で離散的フーリエ変換される。そのフーリエ変換結果のスペクトルは、三角窓フィルタ31,…,3Lによりメル周波数軸上で、等間隔かつ両隣接帯域の中心に達する三角窓が掛けられたL個の帯域に分割される。これらL個の帯域スペクトルはパワー算出部41,…,4Lでそれぞれパワーが計算され、これらL個のパワーが対応フィルタの中心周波数の低い順に並べられたパワーベクトルとして離散コサイン変換部5で離散コサイン変換され、MFCCが得られる。
(3) A cepstrum gain normalization method for correcting the influence of additive distortion by normalizing the gain (magnitude) of a characteristic parameter such as MFCC in order to deal with additive distortion (see Non-Patent Document 4).
The average removal method (2) will be briefly described with reference to FIG. The speech signal is cut out for each analysis frame by the speech
このMFCCを時間平均部6で十分な分析フレーム数分の平均をとり、ほぼ一定値となる平均ベクトルが求められ、これがMFCCから減算部7で減算され、音声特徴パラメータとして出力される。なお前記時間平均、減算はそれぞれ対数計算により行われる。
非特許文献1に示す、音声信号を周期性と非周期性との2つの成分に分離して特徴パラメータを抽出する方法は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因に対し、十分な頑健性が得られない問題がある。非特許文献2〜4に示す技術は、いずれもパワースペクトルの長時間平均がほぼ一定形状になることを前提としているため、その前提に無理があり、同様に前記変動要因に対する十分な頑健性が得られない。
音声信号のみならず、音楽信号などの周期性成分と非周期性成分とが混在する音響信号の特徴を表現するパラメータの分析においても、非特許文献1〜4の各方法を個別に適用しても、同様の問題が生じる。音声信号および音楽信号などの周期性成分と非周期性成分とが混在する信号をオーディオ信号と総称する。
The method of extracting a feature parameter by separating a speech signal into two components of periodicity and aperiodicity shown in
In the analysis of parameters expressing the characteristics of not only audio signals but also acoustic signals in which periodic components and non-periodic components such as music signals are mixed, each method of
この発明の目的は少くともいずれかの歪に基づく変動要因の影響が補正されたオーディオ特徴パラメータを得ることができるオーディオ信号分析方法、その方法を用いた音声認識方法、その装置、プログラムおよびその記録媒体を提供することにある。 An object of the present invention is an audio signal analysis method capable of obtaining an audio feature parameter in which the influence of a variation factor based on at least one distortion is corrected, a speech recognition method using the method, an apparatus, a program, and a recording thereof To provide a medium.
この発明によればオーディオ信号を周期性成分と非周期性成分とに分離してその特徴パラメータを抽出し、その抽出した特徴パラメータの少なくとも一部について統計パラメータを計算し、その統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果の特徴パラメータとする。 According to the present invention, the audio signal is separated into the periodic component and the non-periodic component, the feature parameter is extracted, the statistical parameter is calculated for at least a part of the extracted feature parameter, and the feature is calculated based on the statistical parameter. The corresponding parameter is normalized and used as a characteristic parameter of the analysis result.
この構成によれば周期性成分と非周期性成分とを分離して特徴パラメータを抽出し、その特徴パラメータを、その統計パラメータにより正規化して歪補正をしているため、外部変動要因および内部変動要因の少くとも一方に影響され難い特徴パラメータを得ることができる。 According to this configuration, the periodic component and the non-periodic component are separated and feature parameters are extracted, and the feature parameters are normalized by the statistical parameters to correct distortion. It is possible to obtain a feature parameter that is hardly affected by at least one of the factors.
以下この発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また以下の説明ではオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明ではオーディオ信号を周期性成分と非周期性成分とに分離して、特徴パラメータを抽出し、その特徴パラメータの少なくとも一部について統計パラメータを求め、その統計パラメータにより特徴パラメータ中の対応するものを正規化して歪補正を行うが、第1実施形態では統計パラメータとして分散あるいは標準偏差を求めて、外部変動要因ならびに音声に内在する変動要因(内部変動要因)の影響を減ずる歪補正にこの発明を適用した形態である。図8にその機能構成例を図9に処理手順の例をそれぞれ示す。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below with reference to the accompanying drawings. Corresponding portions in FIG. 1 and the drawings to be described below are denoted by the same reference numerals, and redundant description will be omitted. In the following description, the present invention is applied to an audio signal as an audio signal.
[First Embodiment]
In this invention, an audio signal is separated into a periodic component and an aperiodic component, a feature parameter is extracted, a statistical parameter is obtained for at least a part of the feature parameter, and a corresponding parameter in the feature parameter is determined by the statistical parameter. In the first embodiment, the present invention is used for distortion correction in which the variance or standard deviation is obtained as a statistical parameter to reduce the influence of external fluctuation factors and fluctuation factors (internal fluctuation factors) inherent in speech. It is the form which applied. FIG. 8 shows an example of the functional configuration and FIG. 9 shows an example of the processing procedure.
入力端子100よりの入力音声信号は音声区間検出部21で音声区間と検出された部分が信号分析手段10内の帯域通過フィルタバンク11に入力される(ステップS11)。音声区間検出部21は入力信号中の認識すべき音声信号の始めから終わりまでの全区間を音声区間信号として検出する。
この検出された音声信号は信号分析手段10で音声信号が複数の帯域信号に分割され、各帯域信号ごとに周期性成分と非周期性成分とに分離され、音声特徴を表現する特徴パラメータが抽出されて信号分析される(ステップS12)。この信号分析手段10はこの例では図1に示した音声分析装置10と同一構成であり、信号分析処理(ステップS12)は図2に示した処理手順と同一である。なお図8中の離散コサイン変換手段17P及び17Aとベクトル連結手段18は特徴ベクトル生成手段を構成している。
The input speech signal from the
The detected voice signal is divided into a plurality of band signals by the signal analysis means 10 and separated into a periodic component and a non-periodic component for each band signal, and feature parameters expressing the voice features are extracted. Then, signal analysis is performed (step S12). In this example, the signal analysis means 10 has the same configuration as the
この実施形態においては信号分析手段10で分析抽出された特徴パラメータに対し、歪補正手段22で歪補正がなされる(ステップS13)。歪補正手段22においては入力された特徴パラメータ、つまり信号分析手段10内のベクトル連結手段18よりの連結ベクトルの分散値が分散値演算手段22aにより演算される(ステップS13a)。その分散値により信号分析手段10よりの特徴パラメータが除算手段22bで除算されて、歪補正される(ステップS13b)。
これらの処理を更に具体的に説明する。ベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12を実施する回数、つまり音声区間検出部21で検出された1つの音声区間におけるフレーム(分析区間)の数だけ出力される。音声波形切出手段12における、ある時点(フレーム)τのベクトル連結手段18の出力する離散コサイン係数ベクトルCのk番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間を表す。例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、分散値演算手段22aにおいて、k番目の離散コサイン係数の分散値σk 2を、次式のようにck(τ)のτについての分散値σk 2として求める。
In this embodiment, the
These processes will be described more specifically. The discrete cosine coefficient vector C output from the
除算手段22bでは、ベクトル連結手段18で得られたk番目の離散コサイン係数ck(τ)を、その分散値σk 2により除算して特徴パラメータを正規化補正する。補正済み離散コサイン係数Nck(τ)を次式により求める。
The dividing
Nck(τ)=φk(τ)・ck(τ)/σk 2
ここでφk(τ)は除算した結果得られる、正規化された特徴パラメータのスケールを調整する実数パラメータで、例えば1を用いる。
この正規化補正を全てまたは一部のτ、および全てまたは一部のkについて求める。このようにして外部変動要因および音声に内在される変動要因の影響が補正された離散コサイン係数ベクトルCを得ることができる。
図8および図9中に破線で示すように、分散値演算手段22aよりの出力分散値σk 2の平方根を開平演算部22cで取り、標準偏差値σk=√(σk 2)を求め(ステップS13c)、これを除算手段22bに入力してもよい。
Nc k (τ) = φ k (τ) · c k (τ) / σ k 2
Here, φ k (τ) is a real number parameter that is obtained as a result of the division and adjusts the scale of the normalized feature parameter. For example, 1 is used.
This normalization correction is obtained for all or part of τ and all or part of k. In this way, it is possible to obtain a discrete cosine coefficient vector C in which the influences of external fluctuation factors and fluctuation factors inherent in speech are corrected.
As shown by broken lines in FIGS. 8 and 9, the square root of the output variance value σ k 2 from the variance value computing means 22a is taken by the square
この場合、出力される正規化補正特徴パラメータNck(τ)は以下のようになる。
Nck(τ)=φk(τ)・ck(τ)/σk
[第2実施形態]
第2実施形態は統計パラメータとして信号分析により得られた特徴パラメータの時間平均を用いて歪補正を行う。図10にその機能構成例を、図11にその処理手順の例を示す。
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段31により乗法性歪の影響を減ずるための処理が行われる(ステップS21)。このため歪補正手段31に入力された特徴パラメータはまず時間平均手段31aにより時間平均される(ステップS21a)。
In this case, the output normalized correction feature parameter Nc k (τ) is as follows.
Nc k (τ) = φ k (τ) · c k (τ) / σ k
[Second Embodiment]
In the second embodiment, distortion correction is performed using a time average of feature parameters obtained by signal analysis as a statistical parameter. FIG. 10 shows an example of the functional configuration, and FIG. 11 shows an example of the processing procedure.
The audio signal from the
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数、つまり1音声区間における分析区間数だけ出力される。第1実施形態の場合と同様に、ある時点τのベクトル連結手段18の出力する離散コサイン係数ベクトルのk番目の係数をck(τ)のτを波形切出手段12によって離散化された時間を表し、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97(=(1,000(ms)−30(ms))/10(ms))の値をとる。このとき、時間平均手段31aにおいて、時間平均離散コサイン係数mkを次の式(1)の計算により求める。
Specifically, for example, the discrete cosine coefficient vector C output from the
次に、減算手段31bにおいて、時間平均手段31aで得られた時間平均離散コサイン係数mkを、ベクトル連結手段18で得られた離散コサイン係数ck(τ)から減算して補正済み離散コサイン係数Nck(τ)を求める(ステップS31b)。この減算式(2)により行う。
Next, the subtracting means 31b subtracts the time average discrete cosine coefficient m k obtained by the time averaging means 31a from the discrete cosine coefficient c k (τ) obtained by the vector concatenation means 18, and corrected discrete cosine coefficient. Nc k (τ) is obtained (step S31b). This subtraction formula (2) is used.
Nck(τ)=ck(τ)−φk(τ)・mk …(2)
ここでφk(τ)は減算する際に時間平均離散コサイン係数に乗ずる重みで、例えば1を用いる。
これを全てまたは一部のτ、および全てまたは一部のkについて求めることで、乗法性歪が補正された離散コサイン係数ベクトルを得る。
[第3実施形態]
第3実施形態は信号分析により得られた特徴パラメータの変動範囲を統計パラメータとして歪補正を行う。図12にその例の機能構成例を、図13に処理手順の例をそれぞれ示す。
Nc k (τ) = c k (τ) −φ k (τ) · m k (2)
Here, φ k (τ) is a weight to be multiplied by the time-average discrete cosine coefficient when subtracting, and for example, 1 is used.
By obtaining this for all or part of τ and all or part of k, a discrete cosine coefficient vector in which multiplicative distortion is corrected is obtained.
[Third Embodiment]
In the third embodiment, distortion correction is performed using a variation range of a characteristic parameter obtained by signal analysis as a statistical parameter. FIG. 12 shows an example of the functional configuration of the example, and FIG. 13 shows an example of the processing procedure.
入力端子100よりの音声信号は音声区間検出部21を通じて信号分析手段10に入力される。この例では信号分析手段10は図1に示した音声分析装置10と同一構成とした場合である。この信号分析手段10より出力される特徴パラメータに対し、歪補正手段33により加法性歪の影響を減ずるための補正を行う(ステップS23)。歪補正手段33は特徴パラメータの変動範囲を変動範囲検出手段33aにより検出し(ステップS23a)、その検出した変動範囲で特徴パラメータを除算手段33bにおいて割算する(ステップS23b)。
The audio signal from the
具体的には例えばベクトル連結手段18の出力する離散コサイン係数ベクトルCは、時間方向について音声波形切出手段12による切出し回数だけ出力される。これは第1ベクトルのi番目の係数をck(τ)と表す。τは、波形切出手段12によって離散化された時間実施形態及び第2実施形態と同様であって、例えば、音声波形切出手段12が1秒間の音声区間に対し10msづつ移動しながら30msの長さで音声波形を切出す場合、τは1から97の値をとる。変動範囲検出手段33aにおいて最大値選出手段33a1により、次式で与えられる最大離散コサイン係数Maxkを、ck(τ)のτについての最大値として選出する。
Specifically, for example, the discrete cosine coefficient vector C output from the
除算手段33bでは、ベクトル連結手段18で得られた離散コサイン係数ck(τ)を、検出した範囲Gainkにより除算してパラメータを正規化し、補正済み離散コサイン係数Nck(τ)=φk(τ)・ck(τ)/Gainkを求める。ここでφk(τ)は除算した結果得られる、正規化されたパラメータのスケールを調整する実数パラメータで、例えば1を用いる。このようなNck(τ)を全てまたは一部のτ、および全てまたは一部のkについて求めることで、加法性歪が補正された離散コサイン係数ベクトルを得る。
[変形実施形態]
この発明のオーディオ信号分析における変形実施形態を説明する。その1つとして第1〜第3実施形態において、離散コサイン変換手段17Pおよび17Aを省略する。その場合の機能構成例を図14に、処理手順の例を図15にそれぞれ示す。
In the dividing means 33b, the discrete cosine coefficient c k (τ) obtained by the
[Modified Embodiment]
A modified embodiment of the audio signal analysis of the present invention will be described. As one of them, the discrete cosine transform means 17P and 17A are omitted in the first to third embodiments. FIG. 14 shows an example of the functional configuration in this case, and FIG. 15 shows an example of the processing procedure.
入力端子100よりの音声信号は必要に応じて音声区間検出部21を通じて信号分析手段35に入力され、信号分析が行われる(ステップS25)。この信号分析手段35は図1中の音声分析装置10中から離散コサイン変換手段17Pおよび17Aが省略され、減算手段16よりの各周期成分と、パワー算出手段15Aよりの各非周期成分との各パワー値がベクトル連結手段18により連結され、この連結されたベクトルの対数値が対数計算手段37で計算される。従って処理手順においては図15中のステップS25に示すように、図2中のステップS1〜S6を実行し、その後、ステップS7の離散コサイン変換を行うことなく、前記パワー値のベクトル連結を行い(ステップS27)、この連結ベクトルの各パワー値の対数値を計算する(ステップS29)。図14中のベクトル連結手段18と対数計算手段37は特徴ベクトル生成手段を構成している。
The audio signal from the
この信号分析手段35よりの特徴パラメータ、この例では対数パワー値ベクトルが歪補正手段39に入力され、歪補正手段39は対数パワー値ベクトルに対し、歪補正を行う(ステップS31)。歪補正手段37は図8中の歪補正手段22、図10中の歪補正手段31、図12中の歪補正手段33などである。ステップS1の歪補正処理は、図9中のステップS13、図11中のステップS21、図13中のステップS23などである。
第1実施形態及び第3実施形態においては、信号分析結果の特徴パラメータに対し、乗法性歪の影響を補正した後に歪補正を行ってもよい。例えば図16に示すように、信号分析手段10からの離散コサイン係数ベクトルを歪補正手段31に入力して、乗法性歪の影響を補正する。この歪補正は例えば、第2実施形態において図10中に示した歪補正手段31と同様の構成により行う。この歪補正された特徴パラメータを、歪補正手段41により更に歪補正を行う。この歪補正手段41は第1実施形態における図8中の歪補正手段22又は第3実施形態における図12中の歪補正手段33である。
The characteristic parameter from the signal analyzing unit 35, in this example, the logarithmic power value vector is input to the
In the first embodiment and the third embodiment, distortion correction may be performed after correcting the influence of multiplicative distortion on the characteristic parameter of the signal analysis result. For example, as shown in FIG. 16, the discrete cosine coefficient vector from the
この処理手順は例えば図17に示すように、図9中のステップ12の信号分析処理の後、その離散コサインベクトルに対し、乗法性歪の影響を補正するための歪補正を行い(ステップS21)、その歪補正された離散コサインベクトルに対し更に、歪補正を行う(ステップS33)。このステップS33における歪補正は図9中のステップS13の歪補正又は図13中のステップS23の歪補正である。
このように特徴パラメータを乗法性歪の影響を補正した後に、更に歪補正することは信号分析手段35から得られる対数パワー値ベクトルに対しても適用することができる。このことを明らかにするために図10中に括弧書きで信号分析手段35及び対数値計算手段37を示し、また図17中に括弧書きで信号分析ステップS25及び対数計算ステップS29をそれぞれ示した。
For example, as shown in FIG. 17, this processing procedure performs distortion correction for correcting the influence of multiplicative distortion on the discrete cosine vector after the signal analysis processing in
In this way, further correcting the distortion after correcting the influence of the multiplicative distortion on the characteristic parameter can also be applied to the logarithmic power value vector obtained from the signal analyzing means 35. In order to clarify this, the signal analysis means 35 and the logarithmic value calculation means 37 are shown in parentheses in FIG. 10, and the signal analysis step S25 and the logarithmic calculation step S29 are shown in parentheses in FIG.
なお帯域通過フィルタバンク11中の帯域通過フィルタの数Bは例えば、入力音声信号のサンプリング周波数が8kHzの場合、24個とされ、サンプリング周波数が高くなるに従って帯域通過フィルタの数Bを大きくするのが好ましい。このようにして乗法性歪の影響を補正した後、加法性歪の影響を補正することができる。
上述において、櫛型フィルタ手段14として、周期推定手段13で推定した周期成分と、その整数倍を阻止する阻止型櫛型フィルタを用いたが、推定した周期成分と、その整数倍を通過させる通過型櫛型フィルタを用いてもよい。その場合の処理手順を図18に示す。いままでの説明と同様に入力音声信号は音声区間検出(ステップS11)、帯域分割(ステップS1)、各帯域ごとの基本周期推定(ステップS2)の各処理が行われる。その後、各帯域信号ごとに、櫛型フィルタ手段14(図8中の括弧書、以下同様)の各フィルタ部141′,…,14B′で対応帯域の推定周期成分とその整数倍成分とのみが通過選出される(ステップS41)。これら選出された各帯域ごとの基本周期成分と、その整数倍成分とのパワー、つまり周期成分パワーWPb(b=1,…,B)が、パワー計算手段15Pの計算部15Pbでそれぞれ計算され、また各帯域信号のパワーWFbがパワー計算手段15Fの各計算部15Fbで計算される(ステップS43)。減算手段16の各減算部16bにおいて計算部15Fbの出力パワーWFbから、計算部15Pb′からの出力パワーWPbが減算されて帯域ごとの非周期成分パワーWAbが求められる(ステップS43)。減算手段16よりの非周期成分パワー値が非周期成分パワーベクトル化手段20Aでベクトル化された後(ステップS7)、離散コサイン変換手段17Aで離散コサイン変換され(ステップS8)、またパワー計算手段15Pよりの周期成分パワー値が周期成分パワーベクトル化手段20Pでベクトル化された後(ステップS7)離散コサイン変換手段17Pで離散コサイン変換される(ステップS8)、その他の処理は先に述べた各実施形態と同様である。この場合も、図8及び図18中に一点鎖線で示すように、離散コサイン変換をすることなく得られた周期成分パワーベクトルと非周期成分パワーベクトルとをベクトル連結手段18でベクトル連結し、その連結されたベクトルの対数値を対数計算部37で求めてもよい。また図18中に括弧書で示すように、図17中に示したように信号分析により得られた特徴パラメータに対し、ステップS21により乗法性歪による影響を除去した後に歪補正処理(ステップS33)を行ってもよい。
The number B of band-pass filters in the band-
In the above description, the comb-
上述において、分散値σk 2、標準偏差σk、時間平均mk、変動範囲Gainkに基づく歪補正は、一部のk、一部のτについて求めればよいと述べたが、この一部とは任意の組み合わせについて求めればよい、例えばkについては低次のものあるいは高次のもの、あるいは適当に選んだ複数でもよい。τについても同様である。つまり特徴パラメータを抽出したい信号に対し、その抽出に影響を与える要因、例えば混入される雑音も比較的定常的なもの突発的なものなど時間的あるいは周波数的に異なる態様に応じ、同様に乗法性歪についてもどのようなものに基づくものかにより、それぞれ適切なkやτが選定される。これは例えば各種要因についてあらかじめ実験により求めておけばよい。このようにして、途中で得られる一部の離散コサイン係数の長時間平均が一定値に近づくkとτとが用いられることになる。 In the above description, it has been described that the distortion correction based on the variance value σ k 2 , the standard deviation σ k , the time average m k , and the fluctuation range Gain k may be obtained for a part of k and a part of τ. May be obtained for an arbitrary combination. For example, k may be a low-order or high-order one, or a plurality selected appropriately. The same applies to τ. In other words, multiplicativeness is similarly applied to the signal whose feature parameters are to be extracted, depending on the factors that affect the extraction, for example, the noise that is mixed is relatively steady or sudden, and the time or frequency is different. Appropriate k and τ are selected depending on what the distortion is based on. For example, various factors may be obtained by experiments in advance. In this way, k and τ are used in which the long-term average of some of the discrete cosine coefficients obtained along the way approaches a constant value.
第2実施形態で求めた時間平均mkは、統計分布曲線における平均と対応し、またこの時間平均mkを連結ベクトルの対応する要素(係数又はパワー値)から減算することはその要素を正規化することと対応している。従って、第1〜第3実施形態において求める分散、標準偏差、平均、変動範囲を統計パラメータと総称し、かつ係数又はパワー値に対する分散、標準偏差、変動範囲のそれぞれによる除算および時間平均の減算を正規化と総称する。
上述した実施形態では音声信号を分析したが、音楽信号などの周期性成分と非周期性成分とが混在している信号にこの発明の信号分析は適用できる。
[第4実施形態]
第4実施形態は第1〜第3実施形態、変形実施形態のいずれかにより音声信号を信号分析して音声認識をする装置および方法の実施形態である。第4実施形態の機能構成例を図19に、処理手順を図20にそれぞれ示す。この例ではこの音声認識装置60の入力端子200に学習音声データが入力され(ステップS51)、学習処理がされる。つまりこの学習音声データは信号分析部62で分析され、特徴パラメータが抽出される(ステップS52)。入力端子200に入力される学習音声データや認識されるべき音声信号は所定のサンプリング周波数でサンプリングされ、ディジタル値とされた信号系列である。信号分析部62は第1〜第3実施形態、変形実施形態のいずれかと同様な信号分析手段及び歪補正手段を備え、信号分析手段で抽出された特徴パラメータに対し、歪補正された特徴パラメータが信号分析部62から出力される。
The time average m k obtained in the second embodiment corresponds to the average in the statistical distribution curve, and subtracting this time average m k from the corresponding element (coefficient or power value) of the connected vector normalizes the element. It corresponds to becoming. Accordingly, the variance, standard deviation, average, and variation range obtained in the first to third embodiments are collectively referred to as statistical parameters, and division and time average subtraction for each of the variance, standard deviation, and variation range for the coefficient or power value are performed. This is collectively called normalization.
In the embodiment described above, the audio signal is analyzed. However, the signal analysis of the present invention can be applied to a signal in which a periodic component and a non-periodic component such as a music signal are mixed.
[Fourth Embodiment]
The fourth embodiment is an embodiment of an apparatus and method for performing speech recognition by analyzing a speech signal according to any one of the first to third embodiments and modified embodiments. FIG. 19 shows a functional configuration example of the fourth embodiment, and FIG. 20 shows a processing procedure. In this example, learning voice data is input to the
この学習音声特徴パラメータはパターン(学習)識別部64に入力され、パターン(学習)識別部64は学習音声特徴パラメータから標準パターンを生成して標準パターン記憶部66に格納する(ステップS53)。標準パターンは例えばHMM(隠れマルコフモデル)であり、状態数及び分布数とその各音素ごとの遷移確率、出現確率などのパラメータである。
次に入力端子200に認識されるべき音声信号が入力され(ステップS54)、その入力音声信号は信号分析部62で特徴パラメータが抽出される(ステップS55)。
The learned speech feature parameter is input to the pattern (learning) identifying
Next, an audio signal to be recognized is input to the input terminal 200 (step S54), and a feature parameter is extracted from the input audio signal by the signal analysis unit 62 (step S55).
この特徴パラメータはパターン(学習)識別部64で、標準パターン記憶部66に予め格納されている標準パターンと比較され、最も類似度が高い標準パターンと対応する、音素、単語などを表わすデータが出力される(ステップS56)。なおこの学習及び認識の具体的処理は例えば北研二他2名著「音声言語処理」森北出版株式会社、1996年発行37〜43頁を参照されたい。
この例ではまず学習音声データによる標準パターンの学習を行ったが、信号分析部62で抽出される特徴パラメータと同一種類の特徴パラメータによりあらかじめ生成された標準パターンが格納された標準パターン記憶部66を用い、つまり図20において、ステップS51〜ステップS53を省略し、入力された音声信号の認識のみを行うものでもよい。その場合はパターン識別部64は認識処理のみを行う。
The feature parameter is compared with a standard pattern stored in advance in the standard
In this example, the standard pattern is first learned using the learned speech data. However, the standard
また標準パターンを生成する学習音声データは、被認識音声が収音される環境雑音と同様な環境雑音が重畳されたものが好ましく、学習音声データから特徴パラメータを抽出する信号分析部としては、被認識入力音声信号より特徴パラメータを抽出する信号分析部と同一または同様のものがよい。
第1〜第2実施形態および変形実施形態の各オーディオ信号分析装置、第4実施形態の音声認識装置はいずれも、コンピュータにより機能させることができる。コンピュータに、例えば図8に示したオーディオ信号分析装置としてコンピュータを機能させるためのプログラムを磁気ディスク、CD−ROM、半導体記憶装置などの記録媒体からインストールし、または通信回線を介してダウンロードし、そのプログラムをそのコンピュータに実行させればよい。なおコンピュータを分析装置あるいは認識装置として機能させる場合はその対象信号を一旦コンピュータ内の記憶装置に取り込んだ後、処理することになる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[従来の技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較のために行った実験を説明する。
実験1
この実験1は第1実施形態の効果を明らかにするためであり、この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この第1実施形態の装置および従来装置とも24チャネルのガンマトーンフィルタバンクをフィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPbおよび非周期成分パワーWAbに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(非特許文献3、13頁参照)と同様にして求め、その結果75次元のベクトルを特徴パラメータとして用いた。
The learning speech data for generating the standard pattern is preferably superimposed with the environmental noise similar to the environmental noise from which the recognized speech is picked up. As a signal analysis unit for extracting feature parameters from the learning speech data, The same or similar signal analysis unit that extracts feature parameters from the recognized input speech signal is preferable.
Each of the audio signal analysis apparatuses of the first to second embodiments and the modified embodiment and the speech recognition apparatus of the fourth embodiment can be functioned by a computer. For example, a program for causing the computer to function as the audio signal analysis apparatus shown in FIG. 8 is installed from a recording medium such as a magnetic disk, a CD-ROM, or a semiconductor storage device or downloaded via a communication line. The program can be executed on the computer. When the computer functions as an analysis device or a recognition device, the target signal is once taken into a storage device in the computer and then processed.
[Experimental example]
In order to show the effects of the present invention below, a speech recognition apparatus using speech feature parameters obtained by the speech signal analysis method according to the present invention, and speech recognition shown in
This
この第1実施形態の装置では、前記離散コサイン係数ベクトルに対し図16に示したように歪補正手段31により乗法性歪の補正を行った後、図8中の歪補正手段22において、発話データごとの音声全区間に渡って全ての離散コサイン係数の外部変動要因ならびに音声に内在する変動要因に基づく影響を抑圧するように前記パラメータを、その標準偏差値を用いて補正した。
パターン(学習)識別部64での学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
In the apparatus of the first embodiment, after correcting the multiplicative distortion by the
The learning process in the pattern (learning) discriminating
各認識精度の結果を図21に示す。図21に示されたとおり、第1実施形態による加法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第1実施形態の手法が効果的に頑健性を向上することが明らかにされた。
実験2
この実験2は第2実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記75次元のベクトルを特徴パラメータに対し、図10中の歪補正手段31により乗法性歪の補正を行い、識別部64で処理する数字HMMのガウス分布の数を20とし、評価データとしてAURORA−2Jに付属する評価データ中の、乗法性歪を伴う雑音下での数字読み上げ音声の14,014発話データを用いた。
The result of each recognition accuracy is shown in FIG. As shown in FIG. 21, the recognition accuracy of the speech recognition apparatus when using the speech signal analysis method for correcting additive distortion according to the first embodiment is about 10% or more higher than the recognition accuracy of the conventional apparatus. It has been clarified that the method of the embodiment effectively improves the robustness.
This
平均での認識精度結果を図22に示す。図22に示されたとおり、第2実施形態装置による乗法性歪を補正する音声信号分析方法を用いた場合の音声認識装置の認識精度が従来装置の認識精度法よりも10%程度高く、第2実施形態の手法が乗法性歪に効果的であることが明らかにされた。
実験3
この実験3は第3実施形態の効果を明らかにするためであり、実験1と異なる点のみを記載する。前記乗法性歪の補正を行った75次元ベクトルの特徴パラメータを、図12中の歪補正手段33において変動範囲gainkにより正規化して、加法性歪の補正を行った。
The average recognition accuracy result is shown in FIG. As shown in FIG. 22, the recognition accuracy of the speech recognition apparatus when using the speech signal analysis method for correcting multiplicative distortion by the second embodiment apparatus is about 10% higher than the recognition accuracy method of the conventional apparatus. It has been clarified that the method of the second embodiment is effective for multiplicative distortion.
This
認識精度の結果を図23に示す。図23に示されたとおり、第3実施形態による加法性歪を補正する音声信号分析方法を用いた場合の装置の認識精度が従来装置の認識精度よりも10%程度以上高く、第3実施形態の手法が加法性歪に効果的であることが明らかにされた。
従来との差の理由
図7に示した従来方法および非特許文献2及び4にそれぞれ示す従来方法のいずれにおいても、離散フーリエ変換の結果得られるパワースペクトルに基づいた離散コサイン係数であることが前提となる。具体的には、雑音や乗法性歪が時間方向に急激な変化なくパワースペクトルに一定の変動を与えており、かつ音声のパワースペクトルの長時間平均が一定の形状に近づく性質を前提とする。つまり音声信号のパワースペクトルの形状を利用するものである。
The result of recognition accuracy is shown in FIG. As shown in FIG. 23, the recognition accuracy of the apparatus when the speech signal analysis method for correcting additive distortion according to the third embodiment is used is about 10% or more higher than the recognition accuracy of the conventional apparatus. This method is effective for additive distortion.
The reason for the difference from the conventional method In both the conventional method shown in FIG. 7 and the conventional methods shown in
それに対し、図1に示した従来方法で抽出される特徴パラメータとしての離散コサイン係数は、パワースペクトル形状に基づくものではなく、しかも、音声信号を周期成分と非周期成分に分割しているため、それぞれの成分の長時間平均が一定に近づく保証はない。従って図1に示した従来方法で得られた離散コサイン係数(連結ベクトル)をその平均・変動範囲・分散・標準偏差で正規化することは通常は考えられない。
しかしこの発明においては正規化を効果的に適用する特徴パラメータとして、分析中途で得られる離散コサイン係数あるいはパワー値が長時間平均で一定の値に近づく性質のものとしている。つまり特徴パラメータの一部についてその統計パラメータを求め、その統計パラメータで前記一部の特徴パラメータを正規化しているため前記のような優れた効果が得られる。
On the other hand, the discrete cosine coefficient as the characteristic parameter extracted by the conventional method shown in FIG. 1 is not based on the shape of the power spectrum, and further, since the audio signal is divided into a periodic component and an aperiodic component, There is no guarantee that the long-term average of each component will approach constant. Therefore, it is not usually considered to normalize the discrete cosine coefficient (concatenated vector) obtained by the conventional method shown in FIG. 1 by its average, fluctuation range, variance, and standard deviation.
However, in the present invention, as a characteristic parameter to which normalization is effectively applied, the discrete cosine coefficient or power value obtained in the middle of analysis has a property of approaching a constant value on an average over a long period of time. That is, since the statistical parameter is obtained for a part of the characteristic parameter and the partial characteristic parameter is normalized by the statistical parameter, the excellent effect as described above can be obtained.
しかし、図1に示した従来方法より得られた連結ベクトル(特徴パラメータ、離散コサイン係数ベクトル)の一部、つまりそのベクトルの要素中のいずれかの複数個及び/又は音声区間におけるいずれかの複数のフレーム(分析区間)については、時間平均がほぼ一定値になることに着目し、その平均値で特徴パラメータ中の対応するものを正規化することを考えた。
先に示した各実験では、特徴パラメータの一部ではなく、全てに対して歪補正をしているが、この発明方法が優れている結果となっている。これは前記特徴パラメータの一部に対する歪補正が大きく影響しているためと思われ、時間平均がほぼ一定値になる部分のみに対して歪補正をすればより大きな効果が得られると思われる。
However, a part of the concatenated vector (feature parameter, discrete cosine coefficient vector) obtained by the conventional method shown in FIG. 1, that is, any plural of elements of the vector and / or any plural in the speech section. With regard to the frame (analysis section), attention was paid to the fact that the time average becomes a substantially constant value, and it was considered to normalize the corresponding one of the feature parameters with the average value.
In each of the above-described experiments, distortion correction is performed for all but not a part of the characteristic parameter, and the method of the present invention is excellent. This seems to be because distortion correction for a part of the characteristic parameter has a great influence, and it is considered that a greater effect can be obtained if distortion correction is performed only on a portion where the time average becomes a substantially constant value.
Claims (20)
上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分及び非周期成分の対応する一方を出力する櫛型フィルタと、
各帯域の周期成分及び非周期成分の上記一方のパワーを計算する第1パワー計算手段と、
上記各帯域信号のパワーを計算する第2パワー計算手段と、
上記第2パワー計算部の出力パワー値から上記第1パワー計算部の出力パワー値を減算して上記各帯域の周期成分及び非周期成分の他方を出力する減算手段と、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化する第1及び第2ベクトル化手段と、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成する特徴パラメータ生成手段と、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算する統計パラメータ生成手段と、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとして出力する正規化手段と
を具備するオーディオ信号分析装置。 A bandpass filter bank that filters the input audio signal into multiple band signals; and
A fundamental period estimator for estimating a fundamental period included in each band signal;
Each of the basic periods is set, and a comb filter that outputs one of a periodic component and a non-periodic component included in the band signal by filtering one of the band signals and blocking and passing each band signal;
First power calculating means for calculating the one power of the periodic component and the non-periodic component of each band;
Second power calculating means for calculating the power of each band signal;
Subtracting means for subtracting the output power value of the first power calculation unit from the output power value of the second power calculation unit and outputting the other of the periodic component and the non-periodic component of each band;
First and second vectorizing means for vectorizing the periodic component power value of each band and the non-periodic component power value of each band;
Feature parameter generating means for generating a feature parameter from the periodic component power value vector and the non-periodic component power value;
Statistical parameter generating means for calculating statistical parameters for at least some of the characteristic parameters in the signal section of the audio signal;
An audio signal analyzing apparatus comprising: normalizing means for normalizing a corresponding one of the characteristic parameters with the statistical parameter and outputting the result as an analysis result characteristic parameter.
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを得る第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとするベクトル連結手段とを備えることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The feature parameter generation means performs first and second discrete cosines for obtaining a periodic component discrete cosine coefficient vector and a non-periodic component discrete cosine coefficient vector by performing discrete cosine transform on the periodic component power value vector and the non-periodic component power value vector, respectively. Conversion means;
An audio signal analyzing apparatus comprising: a vector concatenation unit that concatenates the periodic component discrete cosine coefficient vector and the non-periodic component discrete cosine coefficient vector into the characteristic parameter.
上記特徴パラメータ生成手段は上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結するベクトル連結手段と、
上記連結ベクトルの対数値を計算して上記特徴パラメータとする対数計算手段とを備えることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The feature parameter generating means is a vector connecting means for connecting the periodic component power value vector and the non-periodic component power value vector;
An audio signal analyzing apparatus comprising: logarithm calculating means for calculating a logarithmic value of the concatenated vector and using the logarithmic value as the characteristic parameter.
上記統計パラメータは上記少くとも一部の特徴パラメータの分散値であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The statistical parameter is a variance value of at least some of the characteristic parameters,
The audio signal analyzing apparatus according to claim 1, wherein the normalizing means is a dividing means.
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The statistical parameter is the standard deviation of at least some of the characteristic parameters,
The audio signal analyzing apparatus according to claim 1, wherein the normalizing means is a dividing means.
上記統計パラメータは変動範囲であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの最大値を選出する手段と、上記少くとも一部の特徴パラメータの最小値を選出する手段と、最大値から上記最小値を減算して上記変動範囲を求める減算手段を備える変動範囲検出手段であり、
上記正規化手段は除算手段であることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The statistical parameter is a variation range, the statistical parameter calculation means selects means for selecting the maximum value of at least some feature parameters, means for selecting the minimum value of at least some feature parameters, and maximum A fluctuation range detecting means comprising subtracting means for subtracting the minimum value from a value to obtain the fluctuation range;
The audio signal analyzing apparatus according to claim 1, wherein the normalizing means is a dividing means.
上記特徴パラメータ生成手段よりの特徴パラメータの少くとも一部の時間平均を求める時間平均手段と、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータ計算手段及び上記正規化手段へ供給する上記少くとも一部の特徴パラメータを求める減算手段とを備えることを特徴とするオーディオ信号分析装置。 The device according to claim 5 or 6,
Time averaging means for obtaining a time average of at least a part of the characteristic parameters from the characteristic parameter generating means;
Subtracting means for subtracting the time average from at least some corresponding ones of the characteristic parameters to obtain the at least some characteristic parameters to be supplied to the statistical parameter calculating means and the normalizing means. An audio signal analyzer characterized by the above.
上記統計パラメータは平均であり、上記統計パラメータ計算手段は上記少くとも一部の特徴パラメータの時間平均を求める時間平均手段であり、
上記正規化手段は減算手段であることを特徴とするオーディオ信号分析装置。 The apparatus of claim 1.
The statistical parameter is an average, and the statistical parameter calculation means is a time average means for obtaining a time average of the at least some characteristic parameters,
The audio signal analyzing apparatus according to claim 1, wherein the normalizing means is a subtracting means.
上記各帯域信号に含まれる基本周期を推定し、
上記各帯域信号をその上記推定した基本周期に基づき櫛型フィルタ処理してその帯域信号に含まれる周期成分及び非周期成分の一方を得、
各帯域の周期成分及び非周期成分の上記一方のパワー値を計算し、
上記各帯域信号のパワー値を計算し、
上記各帯域信号のパワー値から上記一方のパワー値を減算して上記各帯域の周期成分及び非周期成分の他方のパワー値を求め、
上記各帯域の周期成分パワー値及び上記各帯域の非周期成分パワー値をそれぞれベクトル化し、
上記周期成分パワー値ベクトルと上記非周期成分パワー値とから特徴パラメータを生成し、
上記オーディオ信号の信号区間における上記特徴パラメータの少くとも一部について統計パラメータを計算し、
上記統計パラメータにより上記特徴パラメータの対応するものを正規化して分析結果特徴パラメータとすることを特徴とするオーディオ信号分析方法。 Filter the input audio signal into multiple band signals,
Estimating the fundamental period included in each band signal above,
Comb filter processing each band signal based on the estimated basic period to obtain one of a periodic component and an aperiodic component included in the band signal,
Calculate the above one power value of the periodic component and non-periodic component of each band,
Calculate the power value of each band signal above,
Subtracting the one power value from the power value of each band signal to obtain the other power value of the periodic component and non-periodic component of each band,
Vectorize the periodic component power value of each band and the aperiodic component power value of each band,
A feature parameter is generated from the periodic component power value vector and the non-periodic component power value,
Calculating statistical parameters for at least some of the characteristic parameters in the signal section of the audio signal;
An audio signal analysis method characterized by normalizing a corresponding one of the feature parameters with the statistical parameter to obtain an analysis result feature parameter.
上記周期成分パワー値ベクトル及び上記非周期成分パワー値ベクトルをそれぞれ離散コサイン変換して周期成分離散コサイン係数ベクトル及び非周期成分離散コサイン係数ベクトルを求め、第1及び第2離散コサイン変換手段と、
上記周期成分離散コサイン係数ベクトルと上記非周期成分離散コサイン係数ベクトルとを連結して上記特徴パラメータとすることを特徴とするオーデイオ信号分析方法。 The method of claim 9, wherein
First and second discrete cosine transforming means for obtaining a periodic component discrete cosine coefficient vector and an aperiodic component discrete cosine coefficient vector by discrete cosine transforming the periodic component power value vector and the non-periodic component power value vector, respectively;
A method for analyzing an audio signal, wherein the periodic component discrete cosine coefficient vector and the non-periodic component discrete cosine coefficient vector are connected to form the characteristic parameter.
上記周期成分パワー値ベクトルと上記非周期成分パワー値ベクトルとを連結し、
上記連結ベクトルの対数値を計算して上記特徴パラメータとすることを特徴とするオーディオ信号分析方法。 The method of claim 9, wherein
Connecting the periodic component power value vector and the non-periodic component power value vector;
An audio signal analysis method characterized in that a logarithmic value of the concatenated vector is calculated and used as the feature parameter.
上記統計パラメータは上記特徴パラメータの分散値であり、
上記分散値により上記少くとも一部の特徴パラメータの対応するものを除算して上記正規化を行うことを特徴とするオーディオ信号分析方法。 The method of claim 9, wherein
The statistical parameter is a variance value of the characteristic parameter,
An audio signal analysis method, wherein the normalization is performed by dividing a corresponding one of the at least some feature parameters by the variance value.
上記統計パラメータは上記少くとも一部の特徴パラメータの標準偏差であり、
上記標準偏差により上記少くとも一部の特徴パラメータの対応するものを除して上記正規化を得ることを特徴とするオーディオ信号分析方法。 The method of claim 9, wherein
The statistical parameter is the standard deviation of at least some of the characteristic parameters,
An audio signal analysis method characterized in that the normalization is obtained by removing the corresponding one of the at least some feature parameters by the standard deviation.
上記統計パラメータは変動範囲であり、上記少くとも一部の特徴パラメータの最大値及び最小値をそれぞれ選出し、
上記最大値から上記最小値を減算して上記変動範囲を求め、
上記少くとも一部の特徴パラメータの対応するものを上記変動範囲により除して上記正規化を行うことを特徴とするオーディオ信号分析方法。 The method of claim 9, wherein
The statistical parameter is a variation range, and the maximum value and the minimum value of at least some of the characteristic parameters are selected,
Subtract the minimum value from the maximum value to obtain the fluctuation range,
An audio signal analysis method, wherein the normalization is performed by dividing the corresponding one of the at least some characteristic parameters by the fluctuation range.
上記特徴パラメータの少くとも一部の時間平均を求め、
上記時間平均を上記特徴パラメータの少くとも一部の対応するものから減算して、上記統計パラメータの計算及び上記正規化に用いることを特徴とするオーディオ信号分析方法。 15. A method according to claim 13 or 14,
Find the time average of at least some of the above characteristic parameters,
An audio signal analysis method characterized in that the time average is subtracted from at least a part of the corresponding characteristic parameter and used for the calculation of the statistical parameter and the normalization.
上記統計パラメータは平均であり、上記少くとも一部の特徴パラメータの時間平均を求め、
その時間平均を上記少くとも一部の特徴パラメータから減算して、上記正規化を行うことを特徴とするオーディオ信号分析方法。 The method of claim 9, wherein
The statistical parameter is an average, and a time average of at least some of the characteristic parameters is obtained,
An audio signal analysis method, wherein the normalization is performed by subtracting the time average from at least some of the feature parameters.
入力された音声信号から、請求項7乃至8のいずれかに記載のオーディオ信号分析装置により音声特徴パラメータを抽出する信号分析部と、
上記音声特徴パラメータが入力され、上記標準パターンを用いて上記音声信号に対する音声認識を行うパターン識別部と、
を具備する音声認識装置。 A standard pattern storage unit in which standard feature parameters are stored;
A signal analysis unit that extracts a voice feature parameter from the input voice signal by the audio signal analysis device according to any one of claims 7 to 8,
A pattern identifying unit that receives the speech feature parameter and performs speech recognition on the speech signal using the standard pattern;
A speech recognition apparatus comprising:
上記特徴パラメータを学習・認識用に用いる音声認識を行うことを特徴とする音声認識方法。 The input audio signal is analyzed by the audio signal analysis method according to any one of claims 9 to 16 to obtain a characteristic parameter,
A speech recognition method characterized by performing speech recognition using the feature parameters for learning and recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268120A JP2006084659A (en) | 2004-09-15 | 2004-09-15 | Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004268120A JP2006084659A (en) | 2004-09-15 | 2004-09-15 | Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084659A true JP2006084659A (en) | 2006-03-30 |
Family
ID=36163243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004268120A Pending JP2006084659A (en) | 2004-09-15 | 2004-09-15 | Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084659A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233782A (en) * | 2007-03-23 | 2008-10-02 | Kddi Corp | Pattern matching device, program, and method |
CN116863977A (en) * | 2023-07-13 | 2023-10-10 | 广东亿阳音视频科技有限公司 | Multimedia fusion playing control method and system |
-
2004
- 2004-09-15 JP JP2004268120A patent/JP2006084659A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008233782A (en) * | 2007-03-23 | 2008-10-02 | Kddi Corp | Pattern matching device, program, and method |
CN116863977A (en) * | 2023-07-13 | 2023-10-10 | 广东亿阳音视频科技有限公司 | Multimedia fusion playing control method and system |
CN116863977B (en) * | 2023-07-13 | 2024-01-19 | 广东亿阳音视频科技有限公司 | Multimedia fusion playing control method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (en) | Voice endpoint detection method and device, computer equipment and storage medium | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
CN109147796B (en) | Speech recognition method, device, computer equipment and computer readable storage medium | |
Kurzekar et al. | A comparative study of feature extraction techniques for speech recognition system | |
JP5230103B2 (en) | Method and system for generating training data for an automatic speech recognizer | |
CN109256138B (en) | Identity verification method, terminal device and computer readable storage medium | |
US20100094622A1 (en) | Feature normalization for speech and audio processing | |
Wanli et al. | The research of feature extraction based on MFCC for speaker recognition | |
CN110942766A (en) | Audio event detection method, system, mobile terminal and storage medium | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
JP4571871B2 (en) | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof | |
KR100571427B1 (en) | Feature Vector Extraction Unit and Inverse Correlation Filtering Method for Speech Recognition in Noisy Environments | |
JP2010102129A (en) | Fundamental frequency extracting method, fundamental frequency extracting device, and program | |
CN116312561A (en) | Method, system and device for voice print recognition, authentication, noise reduction and voice enhancement of personnel in power dispatching system | |
Higa et al. | Robust ASR based on ETSI Advanced Front-End using complex speech analysis | |
JP2006084659A (en) | Audio signal analysis method, voice recognition methods using same, their devices, program, and recording medium thereof | |
JP3916834B2 (en) | Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise | |
JP4537821B2 (en) | Audio signal analysis method, audio signal recognition method using the method, audio signal section detection method, apparatus, program and recording medium thereof | |
KR20130125014A (en) | Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
VH et al. | A study on speech recognition technology | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
JP4362072B2 (en) | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof | |
Techini et al. | Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK) | |
Aadit et al. | Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060719 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |