JP4760179B2 - Voice feature amount calculation apparatus and program - Google Patents
Voice feature amount calculation apparatus and program Download PDFInfo
- Publication number
- JP4760179B2 JP4760179B2 JP2005207775A JP2005207775A JP4760179B2 JP 4760179 B2 JP4760179 B2 JP 4760179B2 JP 2005207775 A JP2005207775 A JP 2005207775A JP 2005207775 A JP2005207775 A JP 2005207775A JP 4760179 B2 JP4760179 B2 JP 4760179B2
- Authority
- JP
- Japan
- Prior art keywords
- calculating
- value
- frequency bands
- constant
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声認識装置の利用に供される信号の生成技術に関する。 The present invention relates to a signal generation technique for use in a speech recognition apparatus.
音声認識を自動的に行う音声認識装置が種々提案されている。一般的に、音声認識装置は予め記憶されている様々な言葉に対応する音声の特徴量と、発声者により発声された音声の特徴量との間の類似度に基づき、発声者の発声した言葉を認識する。 Various speech recognition apparatuses that automatically perform speech recognition have been proposed. In general, the speech recognition apparatus is based on the similarity between the speech feature amount corresponding to various words stored in advance and the speech feature amount uttered by the speaker. Recognize
音声認識装置に用いられる音声の特徴量の算出方法は様々なものが提案されている。それらの算出方法の一つに、音声のスペクトルを複数の周波数帯域ごとに設けられたフィルタにより濾波して得られるフィルタバンク出力値を離散コサイン変換または離散逆フーリエ変換を用いて変換し、音声の特徴量を示す係数列を算出する方法がある。MFCC(Mel−Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)は、そのような方法により算出される係数列の一例であり、広く用いられている。以下に、離散コサイン変換により得られるMFCCを用いる場合を例として、従来技術にかかる音声認識の仕組みを説明する。 Various methods for calculating the feature amount of speech used in speech recognition devices have been proposed. As one of those calculation methods, the filter bank output value obtained by filtering the speech spectrum with a filter provided for each of a plurality of frequency bands is transformed using discrete cosine transform or discrete inverse Fourier transform, and the speech There is a method for calculating a coefficient sequence indicating a feature amount. MFCC (Mel-Frequency Cepstrum Coefficient, Mel Frequency Cepstrum Coefficient) is an example of a coefficient sequence calculated by such a method and is widely used. The mechanism of speech recognition according to the prior art will be described below by taking as an example the case of using MFCC obtained by discrete cosine transform.
図7は、従来技術による音声認識システム9の構成を示すブロック図である。音声認識システム9は、発声者の音声を音声信号に変換する音声信号生成装置90、音声信号生成装置90により生成された音声信号を用いてMFCCを算出する音声特徴量算出装置91、音声特徴量算出装置91により算出されたMFCCを用いて音声認識を行う音声認識装置92を備えている。
FIG. 7 is a block diagram showing the configuration of a speech recognition system 9 according to the prior art. The voice recognition system 9 includes a voice
音声信号生成装置90は、音声を収音し音声信号に変換する音声信号生成部901、音声信号生成部901により生成された音声信号のうち例えば所定の閾値以上の振幅値をとる区間を発声区間として切り出す発声区間切出部902を備えている。発声区間切出部902により切り出された発声区間の音声信号は例えば40ミリ秒長のフレームに分割された後、音声信号生成装置90から音声特徴量算出装置91に出力される。
The audio
音声特徴量算出装置91は、音声信号生成装置90から受け取ったフレーム単位の音声信号に例えばハミング窓等の時間窓関数を時間軸方向にスライドさせながら乗ずることによりフレーム分割による高周波数ノイズの低減された音声信号を生成する窓かけ処理部911、窓かけ処理部911による窓かけ処理が施されたフレーム単位の音声信号にFFT(Fast Fourier Transform、高速フーリエ変換)処理を施し音声信号のスペクトルを算出するFFT処理部912、メルスケール帯域フィルタと呼ばれるフィルタ群(後述)によりFFT処理部912により算出されたスペクトルを濾波することにより複数の周波数帯域の各々に関する周波数成分のパワーを示す指標値を算出するメルスケール帯域フィルタ処理部913、メルスケール帯域フィルタ処理部913により算出された指標値の各々の対数値を算出する対数値算出部914、対数値算出部914により算出された対数値の集まりを離散コサイン変換(後述)することによりMFCCを算出する離散コサイン変換処理部915を備えている。
The audio feature
メルスケール帯域フィルタとは、線形の周波数軸を次式(1)により変換して得られるメル周波数軸上に等間隔に配置された複数の中心周波数の各々に関し、中心周波数における乗数が1、隣接するフィルタの中心周波数における乗数が0(ゼロ)となるように、線形で乗数が変化するフィルタの集まりである。
図8は、メルスケール帯域フィルタを示すグラフである。図8に示されるように、例えば中心周波数fk(Hz)のフィルタ95は中心周波数fk(Hz)において乗数1をとり、低周波数側の隣接するフィルタの中心周波数fk-1(Hz)および高周波数側の隣接するフィルタの中心周波数fk+1(Hz)において乗数0をとる三角形状をしている。この場合、図8における三角形状の各々がフィルタバンクと呼ばれる。
FIG. 8 is a graph showing a melscale bandpass filter. As shown in FIG. 8, for example, the center frequency f k filter 95 (Hz) takes the
ところで、線形の周波数軸をメル周波数軸に変換する目的は、低周波数帯域における音高の変化に比較し高周波数帯域における音高の変化に鈍感な人間の聴覚の特性を考慮して、人間の聴覚に沿った周波数間の距離を示すことを可能とするためである。 By the way, the purpose of converting the linear frequency axis to the Mel frequency axis is to consider human auditory characteristics that are less sensitive to pitch changes in the high frequency band than in the low frequency band. This is because it is possible to indicate the distance between frequencies along the auditory sense.
メルスケール帯域フィルタ処理部913は、FFT処理部912により算出されたスペクトルにメルスケール帯域フィルタの各フィルタバンクを乗じて加算することにより、各フィルタバンクによりカバーされる周波数帯域に含まれるスペクトルのパワーの指標値として、フィルタバンク出力値rk(ただし、kはフィルタバンク番号)を算出する。なお、以下、フィルタバンクの数をLとする。
The melscale band
対数値算出部914はメルスケール帯域フィルタ処理部913により算出されたフィルタバンク出力値rkの各々の対数値Rkを算出する。離散コサイン変換処理部915は、対数値算出部914により算出されたフィルタバンク出力値の対数値Rkを次式(2)に従い離散コサイン変換することで、係数列であるMFCCを算出する。ただし、式(2)におけるCiはMFCCにおける第i次の係数を示す。
ここで、iはLの約1/2程度を上限として有効な数値が得られる。例えば、フィルタバンク数が12であれば、C1、C2、・・・、C6が有効なMFCCとして得られる。音声特徴量算出装置91は、上記のように算出したCi群を音声認識装置92に出力する。
Here, an effective numerical value is obtained with i as an upper limit of about 1/2 of L. For example, if the number of filter banks is 12, C 1 , C 2 ,..., C 6 can be obtained as effective MFCCs. Audio feature
音声認識装置92は、学習モードと認識モードの2つの動作モードを持っている。学習モードにおいては、音声認識装置92は音声特徴量算出装置91から発声者の音声を示す音声信号のフレームごとにCi群を受け取り、一連の発音を示す音声信号に関するフレームごとのCi群を、発声者により発音された言葉に対応付けてデータベース921に順次格納する。従って、データベース921には例えば「おはよう」という言葉に対応する特徴量を示す係数列群として、「おはよう」の音声信号のフレーム数に応じたCi群が時系列的に格納されることになる。以下、Ci群の時系列的な集まりを「Ci群列」と呼ぶ。発声者は様々な言葉を順次発音するとともに、発音した言葉を例えば音声認識装置92に接続されたキーボード(図示略)等の操作手段により音声認識装置92に入力することにより、データベース921に特定の言葉に対応するCi群列を順次格納させることができる。
The
一方、音声認識装置92は認識モードにおける処理を行うDPマッチング部922および判定部923を備えている。DPマッチング部922は、音声特徴量算出装置91から受け取るCi群列とデータベース921に格納されているCi群列の各々との類似度を示す距離をDP(Dynamic Programming)マッチング法により算出する。また、判定部923はデータベース921に格納されているCi群列のいずれに関し算出された距離が最短であるかを判定する。さらに、判定部923は、距離が最短であると判定したCi群列に対応付けてデータベース921に格納されている言葉を、発声者により発音された言葉であると特定し、特定した言葉を示すデータを他の装置に送信したり、ユーザにメッセージとして通知したりする。
以上が、従来技術にかかる音声認識システム9により音声認識が行われる仕組みである。
On the other hand, the
The above is the mechanism in which speech recognition is performed by the speech recognition system 9 according to the conventional technology.
ところで、音声認識システム9において、音声認識装置92が学習モードおよび認識モードのいずれの場合であっても発声者が置かれた音空間が低ノイズであれば期待される精度で音声認識が行われるが、一般的には、発声者が発音を行う音空間には無視できない程度の環境雑音が存在する。従って、音声認識システム9により生成されるMFCCは、発声者の音声に環境雑音が混ざった音の特徴量を示すものとなる。その結果、音声認識システム9においては、必ずしも常に期待される精度で音声認識が行われるとは限らない。
By the way, in the speech recognition system 9, speech recognition is performed with the expected accuracy if the sound space where the speaker is placed is low noise regardless of whether the
上記の問題を解決するために、音声信号に対し、例えばスペクトルサブストラクションと呼ばれる雑音低減処理を施すことが考えられる。スペクトルサブストラクションとは、環境雑音を示す音信号のスペクトルを音声と環境雑音の混ざった音を示す音信号のスペクトルから減ずることにより音声を示す音声信号のスペクトルを取り出す技術である。例えば特許文献1には、スペクトルサブストラクションを用いて音信号から音声区間を検出する技術が開示されている。
スペクトルサブストラクション等の雑音低減処理の多くは、優れた効果をもたらすと同時に多くの計算量を要し、例えば携帯端末装置等のリソース制約が厳しい装置において実現することが困難な場合がある。 Many noise reduction processes such as spectral subtraction have excellent effects and require a large amount of calculation, and may be difficult to implement in a device with severe resource constraints such as a portable terminal device.
上記の状況に鑑み、本発明は、音声の特徴量を示す係数列を算出するシステムにおいて、当該係数列に含まれる環境雑音による影響を、簡便かつ低負荷な処理により低減することを可能とする手段を提供することを目的とする。 In view of the above situation, the present invention makes it possible to reduce the influence of environmental noise included in a coefficient sequence by a simple and low-load process in a system that calculates a coefficient sequence indicating a feature amount of speech. It aims to provide a means.
上記課題を達成するために、本発明は、音声信号から前記音声信号のスペクトルを算出するスペクトル算出手段と、前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)および定数n(ただし、n>1)に関し、入力値xに対する出力値yが(a)x=mのときy≧mであり、(b)x=Mのときy≦Mであり、(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正であるとの条件を満たす次式(3)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段とを備えることを特徴とする音声特徴量算出装置を提供する。
かかる音声特徴量算出装置によれば、音声と比べ相対的に環境雑音の特徴量の成分を多く含むフィルタバンクに関する小さい値の対数値はより小さく変換され、環境雑音の特徴量の成分をあまり含まないフィルタバンクに関する大きい値の対数値はより大きく変換されると同時に、変換後の対数値が変換前の対数値の最小値と最大値の範囲を超えることがなく、小さい値の対数値に含まれる音声の特徴量の成分が過小評価されることがないため、例えば音声認識に用いられる際に望ましい認識結果をもたらす数値列が算出される。 According to such an audio feature amount calculation device, a logarithm value of a small value related to a filter bank including a relatively large amount of environmental noise feature amount components is converted to be smaller than that of speech, and the environmental noise feature amount component is not much included. The logarithm of a large value for a filter bank that is not converted is converted to a larger value, and the converted logarithm does not exceed the range of the minimum and maximum values of the logarithm before conversion, and is included in the logarithm of the small value Since the component of the voice feature value is not underestimated, for example, a numerical sequence that provides a desired recognition result when used for voice recognition is calculated.
また、本発明は、音声信号から前記音声信号のスペクトルを算出するスペクトル算出手段と、前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)、定数a(ただし、a>0)および定数c(ただし、c>0)に関し、入力値xに対する出力値yが(a)x=mのときy≧mであり、(b)x=Mのときy≦Mであり、(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正であるとの条件を満たす次式(2)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段とを備えることを特徴とする音声特徴量算出装置を提供する。Further, the present invention provides a spectrum calculation unit that calculates a spectrum of the audio signal from an audio signal, and a filter process corresponding to each of a plurality of predetermined frequency bands on the spectrum calculated by the spectrum calculation unit. Filter means for calculating an index value indicating the power of the frequency component in the frequency band included in the audio signal for each of the plurality of frequency bands; and the filter means for each of the plurality of frequency bands. Logarithmic value calculation means for calculating the logarithmic value of each of the plurality of index values; m for the minimum value of the plurality of logarithmic values calculated by the logarithmic value calculation means for each of the plurality of frequency bands; , Constant p, constant q (where m ≦ p <q ≦ M), constant a (where a> 0) and constant c (where c> 0) When the output value y with respect to the input value x is (a) x = m, y ≧ m, (b) when x = M, y ≦ M, and (c) in the range of m ≦ x ≦ M, In accordance with the following equation (2) that satisfies the condition that the rate of change of y is always positive in the range of (d) p ≦ x ≦ q, the rate of change of y is always 0 or more. There is provided a speech feature quantity calculation device comprising: a conversion means for computing a numerical value sequence indicating a feature quantity of speech indicated by the speech signal by converting each of a plurality of index values.
また、前記フィルタ手段が用いるフィルタの好適な一例としては、メルスケール帯域フィルタがある。その場合、前記音声特徴量算出装置は、前記変換手段により算出された数値列を離散コサイン変換することにより、メル周波数ケプストラム係数列を算出する係数列算出手段を備えるように構成されてもよい。 A preferred example of the filter used by the filter means is a mel scale band filter. In this case, the speech feature quantity calculation device may be configured to include coefficient sequence calculation means for calculating a mel frequency cepstrum coefficient sequence by performing discrete cosine transform on the numerical value sequence calculated by the conversion means.
また、本発明は、上記の音声特徴量算出装置により行われる処理をコンピュータに実行させるプログラムを提供する。 In addition, the present invention provides a program that causes a computer to execute processing performed by the above-described audio feature amount calculation apparatus.
[実施形態]
図1は本発明の実施形態にかかる音声認識システム1の構成を示すブロック図である。音声認識システム1は上述した従来技術にかかる音声認識システム9と多くの点で共通しており、以下、異なる点のみ説明する。なお、図1においては、音声認識システム1と音声認識システム9で共通する構成部については図7におけるものと同じ符号が付されている。
[Embodiment]
FIG. 1 is a block diagram showing a configuration of a
音声認識システム1は音声認識システム9の音声特徴量算出装置91の代わりに、音声特徴量算出装置11を備えている。また、音声認識システム1は音声特徴量算出装置11に対しユーザが指示を与えるために用いるキーボード12を備えている。キーボード12は複数のキーを備え、ユーザにより押下されたキーに応じた信号を音声特徴量算出装置11に出力する。なお、キーボード12の代わりに、例えばマウスポインタ等が用いられてもよい。
The
音声特徴量算出装置11は、音声特徴量算出装置91が備える構成部に加え、対数値算出部914と離散コサイン変換処理部915との間に介挿された変換部101を備えている。変換部101は、対数値算出部914により算出されるフィルタバンク出力値rk(ただし、kはフィルタバンク番号)の対数値Rkを受け取り、受け取った対数値Rkを入力値xとして上述した式(3)に代入することにより、対数値Rkに応じた出力値yを算出する。以下、対数値Rkに応じた出力値yを変形対数値γkと呼ぶ。
The speech feature
また、音声特徴量算出装置11はユーザの操作に応じてキーボード12から出力される信号に従い、変換部101に対しパラメータの指定を行う指定部102を備えている。この場合、指定部102が指定するパラメータは式(3)における定数nである。
In addition, the audio feature
音声特徴量算出装置11における離散コサイン変換処理部915は、対数値算出部914により生成される対数値群R1、R2、・・・、RL(ただし、Lはフィルタバンクの総数)の代わりに、変換部101により算出された変形対数値群γ1、γ2、・・・、γLを受け取り、受け取った変形対数値群を上述した式(2)に従い離散コサイン変換することにより、Ci群、すなわちMFCCを算出する。ただし、音声認識システム1におけるMFCCは従来技術におけるMFCCとは異なる特性を有する対数値群を用いて生成されたものであるので、従来技術におけるMFCCとは異なる特性を備える。
The discrete cosine
図2は、式(3)で表される関数を横軸を入力値x、縦軸を出力値yとする座標に描いたグラフである。ただし、図2においてグラフ15、グラフ16およびグラフ17は、それぞれn=1.5、n=3.0およびn=4.5の場合のグラフを示しており、例としてn=3.0の場合における対数値Rkに対する変形対数値γkが図示されている。
FIG. 2 is a graph in which the function represented by Expression (3) is drawn at coordinates with the horizontal axis representing the input value x and the vertical axis representing the output value y. However, in FIG. 2,
図2に示されるように、変換部101は入力値xとして対数値Rkを式(3)に代入することにより、出力値yとして変形対数値γkを算出するが、そのように算出される変形対数値γkは以下の特徴を備えている。
(イ)入力値の大小関係は出力値の大小関係において常に維持される。
(ロ)入力値が大きい領域(x=Mの左側近傍の領域)における出力値においては、入力値の大きさがほぼ維持される。
(ハ)入力値が小さい領域(x=mの右側近傍の領域)もしくは入力値が中程度の領域においては、入力値が大きい領域(x=Mの左側近傍の領域)における入力値に対する出力値の減少幅と比較して、減少幅がより大きい範囲が広く存在する。
(ニ)出力値は必ず入力値の最小値および最大値の範囲内に収まる。
As shown in FIG. 2, the
(A) The magnitude relationship between the input values is always maintained in the magnitude relationship between the output values.
(B) In the output value in the region where the input value is large (region near the left side of x = M), the size of the input value is substantially maintained.
(C) In the region where the input value is small (region near the right side of x = m) or the region where the input value is medium, the output value for the input value in the region where the input value is large (region near the left side of x = M) There is a wide range in which the reduction range is larger than the reduction range.
(D) The output value is always within the range of the minimum value and the maximum value of the input value.
環境雑音の特徴量の成分は、対数値群R1、R2、・・・、RLのうち、その値が小さいものにより多く含まれている。環境雑音のスペクトルのパワーは、全周波数帯域に関して、一般的に音声のスペクトルのパワーと比較して小さいためである。従って、上記の(ロ)および(ハ)のような特徴を有する変形対数値群γ1、γ2、・・・、γLにおいては、対数値群R1、R2、・・・、RLにおける場合と比較して、環境雑音の特徴量の成分が小さく評価され、音声の特徴量の成分はあまり小さく評価されないことになる。その結果、変形対数値群γ1、γ2、・・・、γLを用いて算出されるCi群、すなわちMFCCもまた、対数値群R1、R2、・・・、RLを用いて算出されるCi群、すなわちMFCCと比較して、環境雑音の特徴量の成分をより少なく含む指標となる。 Component of the feature quantities of the environmental noise, the logarithmic value group R 1, R 2, · · ·, of R L, contains many by what that value is small. This is because the power of the ambient noise spectrum is generally smaller than the power of the voice spectrum for the entire frequency band. Therefore, in the modified logarithmic value groups γ 1 , γ 2 ,..., Γ L having the characteristics as described in (b) and (c) above, the logarithmic value groups R 1 , R 2 ,. Compared to the case of L, the component of the feature amount of the environmental noise is evaluated to be small, and the component of the speech feature amount is not evaluated to be very small. As a result, variations logarithm group γ 1, γ 2, ···, C i group to be calculated using the gamma L, i.e. MFCC also logarithm groups R 1, R 2, · · ·, a R L using C i group that is calculated, that is, compared to MFCC, the indicators including fewer components of the feature amount of environmental noise.
ところで、上記の(ロ)および(ハ)のような特徴を有する変形対数値群γ1、γ2、・・・、γLを生成するためには、例えば次式(5)に従った変換を行うことも考えられる。
しかしながら、式(5)によれば、対数値群R1、R2、・・・、RLのうち最小値をとる対数値は0に変換され、最小値に近い対数値は0ではないものの、かなり小さい値に変換される。その結果、環境雑音の特徴量だけでなく、音声の特徴量のうち、スペクトルのパワーが小さい周波数帯域に関するものが過小評価されてしまう。その結果、式(5)に従うような変換により得られる変形対数値群を用いて算出されるMFCCによっては、望ましい音声認識の結果が得られない場合がある。 However, according to Equation (5), logarithmic value group R 1, R 2, · · ·, logarithm of the minimum value of R L is converted to 0, although logarithm value not zero close to the minimum value , Converted to a fairly small value. As a result, not only the environmental noise feature quantity but also the voice feature quantity related to the frequency band in which the spectrum power is small is underestimated. As a result, a desired speech recognition result may not be obtained depending on the MFCC calculated using the modified logarithmic value group obtained by the conversion according to the equation (5).
これに対し、変換部101により算出される変形対数値群γ1、γ2、・・・、γLは上記(ニ)の特徴を有するため、上記のような弊害を生ずることがない。
On the other hand, the modified logarithmic value groups γ 1 , γ 2 ,..., Γ L calculated by the
また、音声認識システム1においては、ユーザがキーボード12を用いて音声特徴量算出装置11に対し指示を与えることにより、パラメータnを変更することができる。その結果、ユーザは図2に例示されるような異なる特性の関数の中から望ましいと思われる関数を容易に選択し、音声特徴量算出装置11に対し異なる特定のMFCCの生成を行わせることができる。従って、環境雑音の状況に応じたより適するMFCCの生成が可能である。なお、学習モードにおいて用いられたパラメータは例えば変換部101において記憶され、認識モード時においては学習モードにおいて用いられたものと同じパラメータが用いられる。
In the
以上のように、本発明の実施形態にかかる音声認識システム1によれば、環境雑音に関する特徴量をあまり含まないが音声に関する特徴量が過小評価されていない、という好ましい特性を備えたMFCCが算出される。その結果、従来技術にかかる音声認識システム9における場合と比較して、より精度の高い音声認識の結果が得られることになる。その際、音声特徴量算出装置11は従来技術にかかる音声特徴量算出装置91と比較し、式(3)に示される関数に対数値Rkをそれぞれ代入して変形対数値γkを算出する処理が追加されただけである。従って、リソースに制限のある装置によっても音声特徴量算出装置11の実現が可能である。
As described above, according to the
[変形例]
ところで、上述した実施形態における変換部101は式(3)により対数値Rkを変形対数値γkに変換するものとして説明したが、それに限られず、以下の条件を満たす様々な関数が変換部101の変換において利用可能である。
対数値群R1、R2、・・・、RLの最小値をm、最大値をMとしたとき、定数pおよび定数q(ただし、m≦p<q≦M)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mである。
(b)x=Mのときy≦Mである。
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上である。
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である。
[Modification]
By the way, the
When the minimum value of the logarithmic value groups R 1 , R 2 ,..., L is m and the maximum value is M, the input value x is related to the constant p and the constant q (where m ≦ p <q ≦ M). When the output value y for (a) is x = m, y ≧ m.
(B) When x = M, y ≦ M.
(C) In the range of m ≦ x ≦ M, the rate of change of y with respect to x is always 0 or more.
(D) In the range of p ≦ x ≦ q, the rate of change of y with respect to x is always positive.
上記の条件を満たす関数による変換において算出される変形対数値群γ1、γ2、・・・、γLは、上述した(イ)乃至(ニ)の特徴を備えることになる。上記の条件を満たす関数の一例として、例えば上記の式(4)がある。式(4)はロジスティック曲線を最小値mおよび最大値Mを用いて変形したものである。図3および図4は式(4)で表される関数を横軸を入力値x、縦軸を出力値yとする座標に描いたグラフである。ただし、図3においてグラフ21、グラフ22およびグラフ23は、定数aをa=10で固定し、定数cをそれぞれc=20、c=100およびc=400と変化させた場合の形状の変化を示しており、図4においてグラフ24、グラフ25およびグラフ26は、定数cをc=100で固定し、定数aをそれぞれa=20、a=10およびa=7と変化させた場合の形状の変化を示している。このように、変換部101が式(4)に従った変換を行う場合、ユーザはキーボード12を用いてパラメータaおよびパラメータcを音声特徴量算出装置11に対し指定することにより、より望ましい変換結果をもたらす関数を選択することができる。
The modified logarithmic value groups γ 1 , γ 2 ,..., Γ L calculated in the conversion by the function satisfying the above conditions have the above-described features (a) to (d). An example of a function that satisfies the above condition is, for example, the above expression (4). Equation (4) is obtained by deforming a logistic curve using the minimum value m and the maximum value M. 3 and 4 are graphs in which the function represented by Expression (4) is drawn at coordinates with the horizontal axis representing the input value x and the vertical axis representing the output value y. However, in FIG. 3,
さらに、変換部101は式(3)や式(4)で示されるような関数を用いて入力値から出力値への変換を行う代わりに、図5に示すような変換表を予め記憶しておき、変換表に従って同様の変換を行うようにしてもよい。変換部101が用いる変換表に含まれる入力値xと入力値yは、上記の(a)乃至(d)の条件を満たすような数値の組である。また、変換表に含まれる数値の組は、例えば入力値の最小値m=0、入力値の最大値M=1の場合を想定して作成されたものである。以下、m=0、M=1として作成された変換表を「基準変換表」という。図6は、図5に示される変換表の入力値xおよび入力値yをプロットしたグラフである。
Furthermore, the
上記のように、基準変換表はm=0、M=1の場合のものであるため、変換部101は基準変換表をそのまま用いるのではなく、受け取った対数値群R1、R2、・・・、RLの最小値mおよびMに応じて基準変換表を変換して用いる。具体的には、変換部101は基準変換変の入力値xおよびyをそれぞれ(M−m)倍したのち、入力値xおよびyにそれぞれmを加算したものを作成し、そのように作成した変換表を用いて、対数値群Rkを変形対数値γ1に変換する。また、変換表に含まれる入力値xおよび出力値yは離散値であるので、変換部101は入力値xに対する出力値yを算出する際、必要に応じて線形補間等により数値を補間する。
As described above, since the reference conversion table is for m = 0 and M = 1, the
なお、上述した実施形態においては、音声信号のスペクトルを算出するにあたり、FFT処理を行うものとしたが、その代わりに離散フーリエ変換処理等の他の方法を用いてもよい。また、上述した実施形態においては、メルスケールを用いたが、その代わりにバークスケール等の他の周波数軸を用いてもよい。さらに、メルスケール帯域フィルタの代わりに、フィルタバンク出力を行う他の種類のフィルタ群を用いるようにしてもよい。 In the above-described embodiment, the FFT processing is performed when calculating the spectrum of the audio signal, but other methods such as discrete Fourier transform processing may be used instead. In the above-described embodiment, the mel scale is used, but another frequency axis such as a bark scale may be used instead. Furthermore, instead of the mel scale band filter, another type of filter group that performs filter bank output may be used.
また、上述した実施形態においては、MFCCの算出を、離散コサイン変換を用いて行うものとしたが、離散コサイン変換の代わりに、離散逆フーリエ変換等の他の方式の直交変換を用いて音声の特徴量を示す係数列を算出するようにしてもよい。 In the above-described embodiment, the MFCC is calculated using the discrete cosine transform. However, instead of the discrete cosine transform, the speech may be converted using another type of orthogonal transform such as a discrete inverse Fourier transform. A coefficient sequence indicating the feature amount may be calculated.
また、音声特徴量算出装置11は、専用のハードウェアにより実現されてもよいし、音信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。音声特徴量算出装置11が汎用コンピュータにより実現される場合、音声特徴量算出装置11の各構成部は、汎用コンピュータが備えるCPU(Central Processing Unit)およびCPUの制御下で動作するDSP(Digital Signal Processor)が、アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行うことにより、汎用コンピュータの機能として実現される。
The audio feature
1・9…音声認識システム、11・91…音声特徴量算出装置、12…キーボード、90…音声信号生成装置、92…音声認識装置、101…変換部、102…指定部、901…音声信号生成部、902…発声区間切出部、911…窓かけ処理部、912…FFT処理部、913…メルスケール帯域フィルタ処理部、914…対数値算出部、915…離散コサイン変換処理部、921…データベース、922…DPマッチング部、923…判定部。
DESCRIPTION OF
Claims (6)
前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、
前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、
前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)および定数n(ただし、n>1)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす次式(1)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段と
を備えることを特徴とする音声特徴量算出装置。
A frequency within the frequency band included in the audio signal is included for each of the plurality of frequency bands by performing a filtering process corresponding to each of the plurality of predetermined frequency bands on the spectrum calculated by the spectrum calculating unit. Filter means for calculating an index value indicating the power of the component;
Logarithmic value calculation means for calculating the logarithmic value of each of the plurality of index values calculated by the filter means for each of the plurality of frequency bands;
When the minimum value of the plurality of logarithmic values calculated by the logarithmic value calculation means for each of the plurality of frequency bands is m and the maximum value is M, a constant p , a constant q (where m ≦ p <q ≦ M ) And constant n (where n> 1) , y ≧ m when the output value y with respect to the input value x is (a) x = m,
(B) y ≦ M when x = M,
(C) In the range of m ≦ x ≦ M, the rate of change of y with respect to x is always 0 or more,
(D) In the range of p ≦ x ≦ q, by converting each of the plurality of index values according to the following equation (1) that satisfies the condition that the rate of change of y with respect to x is always positive : And a conversion means for calculating a numerical string indicating the feature amount of the voice indicated by the voice signal.
前記スペクトル算出手段により算出されたスペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出するフィルタ手段と、
前記複数の周波数帯域の各々に関し前記フィルタ手段により算出された複数の指標値の各々の対数値を算出する対数値算出手段と、
前記複数の周波数帯域の各々に関し前記対数値算出手段により算出された複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)、定数a(ただし、a>0)および定数c(ただし、c>0)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす次式(2)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する変換手段と
を備えることを特徴とする音声特徴量算出装置。
A frequency within the frequency band included in the audio signal is included for each of the plurality of frequency bands by performing a filtering process corresponding to each of the plurality of predetermined frequency bands on the spectrum calculated by the spectrum calculating unit. Filter means for calculating an index value indicating the power of the component;
Logarithmic value calculation means for calculating the logarithmic value of each of the plurality of index values calculated by the filter means for each of the plurality of frequency bands;
When the minimum value of the plurality of logarithmic values calculated by the logarithmic value calculation means for each of the plurality of frequency bands is m and the maximum value is M, a constant p , a constant q (where m ≦ p <q ≦ M ) , With respect to the constant a (where a> 0) and the constant c (where c> 0) , y ≧ m when the output value y with respect to the input value x is (a) x = m,
(B) y ≦ M when x = M,
(C) In the range of m ≦ x ≦ M, the rate of change of y with respect to x is always 0 or more,
(D) In the range of p ≦ x ≦ q, by converting each of the plurality of index values according to the following equation (2) that satisfies the condition that the rate of change of y with respect to x is always positive : And a conversion means for calculating a numerical string indicating the feature amount of the voice indicated by the voice signal.
ことを特徴とする請求項1または2に記載の音声特徴量算出装置。 Before SL filter means, audio feature amount calculating apparatus according to claim 1 or 2, characterized in that for calculating the index value by mel scale band filter.
ことを特徴とする請求項3に記載の音声特徴量算出装置。 By discrete cosine transform calculated numerical sequence by prior Symbol conversion unit, the audio feature amount calculating apparatus according to claim 3, characterized in that it comprises a coefficient string calculation means for calculating a Mel-frequency cepstral coefficient string.
前記スペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の指標値の各々の対数値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)および定数n(ただし、n>1)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす次式(1)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する処理と
をコンピュータに実行させることを特徴とするプログラム。
An index value indicating the power of the frequency component in the frequency band included in the audio signal for each of the plurality of frequency bands by performing filtering processing on the spectrum according to each of the predetermined frequency bands. A process of calculating
Processing for calculating logarithmic values of each of the plurality of index values for each of the plurality of frequency bands;
When the minimum value of the plurality of logarithmic values for each of the plurality of frequency bands is m and the maximum value is M, a constant p, a constant q (where m ≦ p <q ≦ M) and a constant n (where n > 1) , y ≧ m when the output value y with respect to the input value x is (a) x = m,
(B) y ≦ M when x = M,
(C) In the range of m ≦ x ≦ M, the rate of change of y with respect to x is always 0 or more,
(D) In the range of p ≦ x ≦ q, by converting each of the plurality of index values according to the following equation (1) that satisfies the condition that the rate of change of y with respect to x is always positive : And a program for causing a computer to execute a process of calculating a numerical string indicating a feature amount of a voice indicated by the voice signal.
前記スペクトルに、所定の複数の周波数帯域の各々に応じたフィルタ処理を施すことにより、前記複数の周波数帯域の各々に関し、前記音声信号に含まれる当該周波数帯域内の周波数成分のパワーを示す指標値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の指標値の各々の対数値を算出する処理と、
前記複数の周波数帯域の各々に関する前記複数の対数値の最小値をm、最大値をMとしたとき、定数p、定数q(ただし、m≦p<q≦M)、定数a(ただし、a>0)および定数c(ただし、c>0)に関し、入力値xに対する出力値yが
(a)x=mのときy≧mであり、
(b)x=Mのときy≦Mであり、
(c)m≦x≦Mの範囲において、xに対するyの変化率が常に0以上であり、
(d)p≦x≦qの範囲において、xに対するyの変化率の変化率が常に正である
との条件を満たす次式(2)に従い、前記複数の指標値の各々を変換することにより、前記音声信号により示される音声の特徴量を示す数値列を算出する処理と
をコンピュータに実行させることを特徴とするプログラム。
An index value indicating the power of the frequency component in the frequency band included in the audio signal for each of the plurality of frequency bands by performing filtering processing on the spectrum according to each of the predetermined frequency bands. A process of calculating
Processing for calculating logarithmic values of each of the plurality of index values for each of the plurality of frequency bands;
When the minimum value of the plurality of logarithmic values for each of the plurality of frequency bands is m and the maximum value is M, a constant p, a constant q (where m ≦ p <q ≦ M) , a constant a (where a > 0) and constant c (where c> 0) , y ≧ m when the output value y with respect to the input value x is (a) x = m,
(B) y ≦ M when x = M,
(C) In the range of m ≦ x ≦ M, the rate of change of y with respect to x is always 0 or more,
(D) In the range of p ≦ x ≦ q, by converting each of the plurality of index values according to the following equation (2) that satisfies the condition that the rate of change of y with respect to x is always positive : And a program for causing a computer to execute a process of calculating a numerical string indicating a feature amount of a voice indicated by the voice signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005207775A JP4760179B2 (en) | 2005-07-15 | 2005-07-15 | Voice feature amount calculation apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005207775A JP4760179B2 (en) | 2005-07-15 | 2005-07-15 | Voice feature amount calculation apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007025296A JP2007025296A (en) | 2007-02-01 |
JP4760179B2 true JP4760179B2 (en) | 2011-08-31 |
Family
ID=37786148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005207775A Expired - Fee Related JP4760179B2 (en) | 2005-07-15 | 2005-07-15 | Voice feature amount calculation apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4760179B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5089295B2 (en) | 2007-08-31 | 2012-12-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Speech processing system, method and program |
JP6404780B2 (en) * | 2015-07-14 | 2018-10-17 | 日本電信電話株式会社 | Wiener filter design apparatus, sound enhancement apparatus, acoustic feature quantity selection apparatus, method and program thereof |
CN114464185B (en) * | 2022-01-25 | 2024-08-27 | 清华大学深圳国际研究生院 | Voice keyword recognition method and recognition circuit |
CN115223576B (en) * | 2022-06-23 | 2024-07-12 | 国网江苏省电力有限公司南京供电分公司 | Transformer voiceprint feature controllable precision extraction and identification method and system based on MFCC |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3298658B2 (en) * | 1992-04-17 | 2002-07-02 | 富士通株式会社 | Voice recognition method |
JP3357752B2 (en) * | 1994-10-07 | 2002-12-16 | 株式会社リコー | Pattern matching device |
US6513004B1 (en) * | 1999-11-24 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Optimized local feature extraction for automatic speech recognition |
JP2002091486A (en) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | Device and method for voice recognition and recording medium in which voice recognition program is recorded |
-
2005
- 2005-07-15 JP JP2005207775A patent/JP4760179B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007025296A (en) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475907B2 (en) | Method and device of denoising voice signal | |
CN109147796B (en) | Speech recognition method, device, computer equipment and computer readable storage medium | |
KR101110141B1 (en) | Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method | |
JP5875414B2 (en) | Noise suppression method, program and apparatus | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
KR100930060B1 (en) | Recording medium on which a signal detecting method, apparatus and program for executing the method are recorded | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN108847253B (en) | Vehicle model identification method, device, computer equipment and storage medium | |
US8566084B2 (en) | Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames | |
CN113077806B (en) | Audio processing method and device, model training method and device, medium and equipment | |
US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
CN110738980A (en) | Singing voice synthesis model training method and system and singing voice synthesis method | |
Silverman et al. | A comparison of several speech-spectra classification methods | |
JP4760179B2 (en) | Voice feature amount calculation apparatus and program | |
JP5282523B2 (en) | Basic frequency extraction method, basic frequency extraction device, and program | |
CN109300484B (en) | Audio alignment method and device, computer equipment and readable storage medium | |
CN113593604A (en) | Method, device and storage medium for detecting audio quality | |
Kumar et al. | A new pitch detection scheme based on ACF and AMDF | |
JP4571871B2 (en) | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof | |
JP2019132948A (en) | Voice conversion model learning device, voice conversion device, method, and program | |
CN104282300A (en) | Non-periodic component syllable model building and speech synthesizing method and device | |
JP7152112B2 (en) | Signal processing device, signal processing method and signal processing program | |
CN116982111A (en) | Audio characteristic compensation method, audio identification method and related products | |
CN111862931A (en) | Voice generation method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080521 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110523 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |