JP2005070377A - Device and method for speech recognition, and speech recognition processing program - Google Patents

Device and method for speech recognition, and speech recognition processing program Download PDF

Info

Publication number
JP2005070377A
JP2005070377A JP2003299498A JP2003299498A JP2005070377A JP 2005070377 A JP2005070377 A JP 2005070377A JP 2003299498 A JP2003299498 A JP 2003299498A JP 2003299498 A JP2003299498 A JP 2003299498A JP 2005070377 A JP2005070377 A JP 2005070377A
Authority
JP
Japan
Prior art keywords
feature
time window
voice
speech recognition
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003299498A
Other languages
Japanese (ja)
Other versions
JP4479191B2 (en
Inventor
Koichi Nakagome
浩一 中込
Shigeru Kafuku
滋 加福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2003299498A priority Critical patent/JP4479191B2/en
Publication of JP2005070377A publication Critical patent/JP2005070377A/en
Application granted granted Critical
Publication of JP4479191B2 publication Critical patent/JP4479191B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve a speech recognition rate more by performing recognition while seizing redundant variation of a frequency-base system feature parameter and momentary variation of a power-system feature parameter although feature vectors are in the same cycle by making the window length of the power-system feature parameter representing a feature of an abrupt variation part of a consonant most shorter than the window length of the frequency-base-system feature parameter representing a feature of a redundant part of a vowel most. <P>SOLUTION: The upper part shows a speech section of fixed length to be analyzed in an inputted speech waveform; and the lateral axis is a time base and the longitudinal axis represents the amplitude (energy) of the speech waveform. The intermediate stage shows four time windows F(i) (i=1 to 4) for the frequency-base-system feature parameter obtained by shifting at equal intervals of a shift length FS within a range of an analytic frame, and a time window P(i) for the power-system feature parameter. Those time windows have window lengths fL and pL of fixed lengths respectively, the window length pL of the time window P(i) for the power-system feature parameter being shorter than the window length fL of the time window F(i) for the frequency-axis-system feature parameter. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、音声認識装置、音声認識方法及び音声認識処理プログラムに関するものである。   The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition processing program.

近年、人間の音声を機械にて認識させるための音声認識の研究が盛んに行われ、部分的には実用化の域に達している。音声認識の方法としては、入力音声と、予め与えられた標準パターンとを比較して、最も類似度の大きいものを選択し、出力する方法が採用されている。   In recent years, research on speech recognition for recognizing human speech by a machine has been actively conducted, and it has partially reached the practical range. As a speech recognition method, a method is adopted in which an input speech and a standard pattern given in advance are compared, and the one with the highest similarity is selected and output.

この標準パターンは、採用する音声認識方法によって異なるものが採用され、例えばDP(Dynamical Programing;動的計画法)を用いたDTW(Dynamic Time Warpimg;時間軸非線形マッチング)と呼ばれる音声認識方法においては、典型的な音声特徴量の時系列を標準パターンとして用いている。   This standard pattern is different depending on the speech recognition method employed. For example, in a speech recognition method called DTW (Dynamic Time Warpimg) using DP (Dynamical Programming), A time series of typical speech feature values is used as a standard pattern.

また、HMM(Hidden Markov Model;隠れマルコフモデル)を用いた音声認識方法は、統計的手法が駆使されたものであり、音声データに含まれている各単語を音素程度の比較的少ない複数の状態で表し、単語毎に状態の遷移確率と、各状態から入力された特徴量を出力する確率と、をパラメータとして与えられたものを標準パターンとして用いている。現時、このHMMが、中心的な音声認識方法として広く利用されている。   In addition, the speech recognition method using HMM (Hidden Markov Model) uses a statistical method, and each word included in speech data is in a plurality of states with relatively few phonemes. In this case, a standard pattern is used in which a state transition probability for each word and a probability of outputting a feature amount input from each state are given as parameters. At present, this HMM is widely used as a central speech recognition method.

このような音声認識方式においては、人間が発声した音声信号の中から、音声認識に必要な情報、すなわち音声特徴量を抽出し、標準パターンとの比較を行うが、この音声特徴量の抽出精度の善し悪しが、音声認識全体に関わる性能(処理速度、及び認識率)の善し悪しを左右する。   In such a speech recognition method, information necessary for speech recognition, that is, a speech feature amount is extracted from a speech signal uttered by a human and compared with a standard pattern. The quality of performance affects the performance (processing speed and recognition rate) related to overall speech recognition.

従来の音声入力の音声特徴量を抽出する方法は、分析フレームの範囲内でハミング窓のような一定値の窓長を有する時間窓を時系列に一定時間ずつシフトさせて設定し、設定された各時間窓によって順次切り出された分析フレーム内の音声波形からの音声サンプルをそれぞれ取り出し、時間窓の音声サンプルの音声特徴量を抽出する方法を用いる。   A conventional method for extracting speech feature values of speech input is set by shifting a time window having a constant window length, such as a hamming window, within a range of an analysis frame by shifting the time series by a certain time. A method is used in which speech samples are extracted from speech waveforms in analysis frames sequentially extracted by each time window, and speech feature values of the speech samples in the time window are extracted.

このような音声特徴量は、時間窓毎に順次切り出された所定数の音声サンプルを周波数軸上に変換することによって得られる音声特徴量(以後、これを周波数軸系特徴パラメータと呼ぶ)と、線形PCM(Pulse Code Modulation;パルス符号化)により量子化された音声振幅の2乗和またはその対数をとることによって得られる音声特徴量(以後、これをパワー系特徴パラメータと呼ぶ)とを組み合わせることによって得られるものである。   Such a voice feature amount is a voice feature amount obtained by converting a predetermined number of voice samples sequentially cut out for each time window onto the frequency axis (hereinafter referred to as a frequency axis system feature parameter), Combining with the voice feature quantity (hereinafter referred to as power system feature parameter) obtained by taking the sum of squares of the voice amplitude quantized by linear PCM (Pulse Code Modulation; pulse coding) or its logarithm. Is obtained.

例えば、周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)、及び直前の時間窓の各成分との差分を取ったもの、すなわち周波数軸系特徴パラメータ12成分(12次元)とパワー系特徴パラメータ1成分(1次元)の、合計26成分を26次元ベクトル量として特徴量を構成する等が考えられる。   For example, the difference between the frequency axis system characteristic parameter 12 component (12 dimensions), the power system characteristic parameter 1 component (1 dimension), and each component of the immediately preceding time window, that is, the frequency axis system characteristic parameter 12 component ( It is conceivable that the feature amount is composed of a total of 26 components, ie, 12 dimensions) and one power system feature parameter component (one dimension) as a 26-dimensional vector quantity.

入力音声の音声特徴量は、上述のように分析フレームの範囲内で時間窓を等間隔にずらして一部重なり合うよう設定して、各時間窓で切り出された音声サンプルを基に抽出される。この時間窓の重なり合う時間を短く設定した場合は、時間窓の数が減少するので入力音声から切り出す音声サンプル数が少なくなり、音声特徴量の抽出処理回数、及び、その後段に続く音声認識処理回数が共に低く抑えられ、処理速度を上げることが可能となる一方で、サンプリングが粗くなるので統計性が悪くなり、音声認識率は低下してしまう。   As described above, the voice feature amount of the input voice is extracted based on the voice samples cut out in each time window by setting the time windows so as to partially overlap within the range of the analysis frame. If the time window overlap is set to be short, the number of time windows decreases, so the number of audio samples cut out from the input speech decreases, the number of voice feature extraction processes, and the number of subsequent voice recognition processes. Are both kept low, and the processing speed can be increased. On the other hand, since the sampling becomes rough, the statistical property is deteriorated and the speech recognition rate is lowered.

他方、時間窓の重なり合う時間を長く設定した場合、時間窓の数が増大するのでサンプリングが細かくなり入力音声から切り出す音声サンプル数が多くなるので、統計性が向上し、精度の良い音声認識が可能となるが、その反面、音声特徴量の抽出処理回数、及び、その後段に続く音声認識処理回数が共に増大し、処理速度の低下を招いてしまう。
すなわち、処理速度を上げると認識率が下がり、認識率を高めようとすると処理速度が低下してしまい、処理速度と認識率を同時に向上させることが困難であった。
On the other hand, if the time window overlaps is set longer, the number of time windows increases, so the sampling becomes finer and the number of audio samples cut out from the input speech increases, thus improving statistics and enabling accurate speech recognition. However, on the other hand, the number of voice feature extraction processes and the number of subsequent voice recognition processes increase, resulting in a decrease in processing speed.
That is, when the processing speed is increased, the recognition rate decreases, and when the recognition rate is increased, the processing speed decreases, and it is difficult to improve the processing speed and the recognition rate at the same time.

この問題を解決するために、周波数軸系特徴パラメータを抽出する周期と、パワー系特徴パラメータを抽出する周期とを異ならせることによって、最も効率良く音声認識ができるように認識処理速度と認識率を最適化する提案がなされている(例えば、特許文献1参照)。
特開2000−356790号公報
In order to solve this problem, the recognition processing speed and the recognition rate are set so that speech recognition can be performed most efficiently by differentiating the period for extracting the frequency axis system characteristic parameter and the period for extracting the power system characteristic parameter. Proposals for optimization have been made (see, for example, Patent Document 1).
JP 2000-356790 A

人間の音の認識は、定常的な音に比べて、突発的な音に敏感であることが知られている。定常的な音に対して、瞬間的な音はわずかな違いにも明確に判別できる。つまり人間は、突発的な音声にはより敏感に細かく判別してその発音内容を認識している。これに対処するには、単純に窓長あるいは時間窓のシフト幅を細かくすればよいが、処理量の増大につながる。また時間窓を短くすれば、音声の子音部分の突発的な変動部分の特徴を最も表現しているパワー系特徴パラメータは抽出できるものの、母音部分の冗長な部分の特徴を最もよく表現している周波数軸系の特徴パラメータが抽出できなくなる怖れがでてくる。   Human sound recognition is known to be more sensitive to sudden sounds than to stationary sounds. In contrast to the stationary sound, the instantaneous sound can be clearly distinguished even with a slight difference. In other words, human beings recognize the content of pronunciation by sensitively and finely discriminating sudden sounds. To deal with this, the window length or the time window shift width can be simply made fine, but this leads to an increase in the amount of processing. In addition, if the time window is shortened, the power system characteristic parameter that best represents the characteristics of the sudden fluctuation part of the consonant part of the speech can be extracted, but the characteristic of the redundant part of the vowel part is best expressed. There is a fear that the characteristic parameter of the frequency axis system cannot be extracted.

そこで本発明の目的は、処理量を増加させることなく、突発的な音に対しても人間と同じように判別かつ認識できるようにすることにある。   Accordingly, an object of the present invention is to make it possible to discriminate and recognize sudden sounds as well as humans without increasing the processing amount.

上記目的を達成するために、本発明は、分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、音声の周波数に関する周波数軸系特徴パラメータと、音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出し、この抽出された特徴量に基づいて、分析対象音声を認識するものにおいて、パワー系特徴パラメータのみを抽出する時間窓の長さを周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして特徴量を抽出することを特徴とする。   In order to achieve the above object, the present invention sets a time window of a predetermined length with respect to an analysis target voice at a predetermined cycle, and uses the time window as a processing unit, a frequency axis system characteristic parameter related to the frequency of the voice, and a voice Extracting a feature quantity consisting of power system feature parameters related to the amplitude of the signal, and recognizing the analysis target speech based on the extracted feature quantity, the frequency of the length of the time window for extracting only the power system feature parameters It is characterized in that the feature quantity is extracted by making it shorter than the length of the time window for extracting only the axis system feature parameters.

また、前記周波数軸系特徴パラメータのみを抽出する時間窓の長さは、入力音声の母音部分における基本ピッチ成分の周期以上であることが望ましい。
また、所定周期で順次発生する特徴パラメータのうち、時間的に隣り合う特徴パラメータの差分を表す差分特徴パラメータを演算して音声認識を行うことが望ましい。
The length of the time window for extracting only the frequency axis system characteristic parameter is preferably equal to or longer than the period of the basic pitch component in the vowel part of the input speech.
Moreover, it is desirable to perform speech recognition by calculating a difference feature parameter representing a difference between temporally adjacent feature parameters among feature parameters that are sequentially generated in a predetermined cycle.

そして、分析対象音声に対して3kHz〜8kHzの帯域だけを通過させるバンドパスフィルタ手段をさらに有し、このバンドパスフィルタ手段を介した入力音声のパワー系特徴パラメータを前記所定周期で順次抽出し、この抽出された時間的に隣り合うパワー系特徴パラメータの差分を音声認識手段に用いるようにしてもよい。   And it further has a band pass filter means for passing only the band of 3 kHz to 8 kHz with respect to the analysis target voice, and sequentially extracts the power system characteristic parameters of the input voice through the band pass filter means at the predetermined period, The extracted difference between the power system characteristic parameters adjacent in time may be used for the voice recognition means.

本発明は上記構成を有することにより、母音の冗長的な部分の特徴を最もよく表現している周波数軸系特徴パラメータの窓長に対して、子音の突発的な変動部分の特徴を最もよく表現しているパワー系特徴パラメータの窓長を短くすることにより、同じ周期での特徴ベクトルでありながら、周波数軸系特徴パラメータは冗長的な、パワー系特徴パラメータは瞬時的な変化を捉えながら認識を行うことができ、より音声認識率が向上する。   With the above configuration, the present invention best represents the characteristics of the sudden fluctuation part of the consonant with respect to the window length of the frequency axis system characteristic parameter that best represents the characteristic of the redundant part of the vowel. By shortening the window length of the power system feature parameter, the frequency axis feature parameter is redundant while the power axis feature parameter is recognized while capturing the instantaneous change. This can be done and the speech recognition rate is further improved.

図1は、本発明の一実施形態におけるHMMモデルを用いた音声認識装置1の内部構成を示すブロック図である。
この図1に示すように、音声認識装置1は、時間窓位置設定部11、音声特徴量抽出部12、比較部13、および記憶装置(図示せず)内に予め格納されている標準パターン(HMMモデル141〜14n)とから構成されている。
FIG. 1 is a block diagram showing an internal configuration of a speech recognition apparatus 1 using an HMM model according to an embodiment of the present invention.
As shown in FIG. 1, the speech recognition apparatus 1 includes a standard pattern (preliminarily stored in a time window position setting unit 11, a speech feature amount extraction unit 12, a comparison unit 13, and a storage device (not shown)). HMM models 141 to 14n).

図2は、時間窓位置設定部11における、入力音声波形に対する時間窓の設定の様子を示す図であり、一例として、分析対象とする音声区間(分析フレーム)から4個の時間窓を切り出す例を示している。
図2の上部は、入力された音声波形の分析対象とする一定長の音声区間を示しており、横軸は時間軸、縦軸は音声波形の振幅(エネルギー)を表している。図2の中段は、分析フレームの範囲内においてシフト長FSずつ等間隔でシフトしてなる4つの周波数軸系特徴パラメータ用時間窓F(i)(i=1〜4)とパワー系特徴パラメータ用時間窓P(i)を示している。これらの時間窓はそれぞれ一定長の窓長fLとpLを有しており、この図2から明白なとおり、パワー系特徴パラメータ用時間窓P(i)の窓長pLは、周波数軸系特徴パラメータ用時間窓F(i)の窓長fLより短い。
FIG. 2 is a diagram illustrating how the time window position setting unit 11 sets a time window for an input speech waveform. As an example, four time windows are cut out from a speech section (analysis frame) to be analyzed. Is shown.
The upper part of FIG. 2 shows a fixed-length speech section that is an analysis target of the input speech waveform, the horizontal axis represents the time axis, and the vertical axis represents the amplitude (energy) of the speech waveform. The middle part of FIG. 2 shows four frequency axis system feature parameter time windows F (i) (i = 1 to 4) and power system feature parameters that are shifted at equal intervals by the shift length FS within the range of the analysis frame. A time window P (i) is shown. Each of these time windows has window lengths fL and pL having a certain length, and as is apparent from FIG. 2, the window length pL of the power system characteristic parameter time window P (i) is the frequency axis system characteristic parameter. It is shorter than the window length fL of the working time window F (i).

また、周波数軸系特徴パラメータ用時間窓F(i)は隣り合う時間窓が一部重複するようになっており、パワー系特徴パラメータ用時間窓P(i)は本実施例では周期FSと同じサイズとなっており、しかもその開始位置は、周波数軸系特徴パラメータ用時間窓Fよりoffset量だけ遅延している。なお、このoffset量は、周波数軸系特徴パラメータ用時間窓F(i)の開始位置に対して、パワー系特徴パラメータ用時間窓P(i)の開始位置が常に同一の相対時間位置にあるようにするためのものであり、「0」であってもよい。   Also, the frequency axis feature parameter time window F (i) is such that adjacent time windows partially overlap, and the power feature parameter time window P (i) is the same as the period FS in this embodiment. Further, the start position is delayed by an offset amount from the time axis F for the frequency axis system characteristic parameter. The offset amount is such that the start position of the power system characteristic parameter time window P (i) is always at the same relative time position with respect to the start position of the frequency axis system characteristic parameter time window F (i). It may be “0”.

図1に示す時間窓位置設定部11には、図2に示す時間窓の窓長fL、pL、offset量、及び時間窓設定周期FSが設定されている。
時間窓位置設定部11は、分析フレームの範囲内において設定されている窓長fL、pL、offset量、及び時間窓設定周期FSに従って、順次時間窓F(i)およびP(i)を設定し、周波数軸系パラメータ用の音声特徴量の抽出を開始させるための開始制御信号を音声特徴量抽出部12に出力する。
In the time window position setting unit 11 shown in FIG. 1, the window lengths fL, pL, the offset amount, and the time window setting period FS shown in FIG. 2 are set.
The time window position setting unit 11 sequentially sets the time windows F (i) and P (i) according to the window lengths fL, pL, the amount of offset, and the time window setting period FS set within the range of the analysis frame. Then, a start control signal for starting the extraction of the voice feature quantity for the frequency axis system parameter is output to the voice feature quantity extraction unit 12.

これよりoffset量に対応する時間経過後に、パワー系パラメータ用の音声特徴量の抽出を開始させるための開始制御信号を音声特徴量抽出部12に出力する。これから窓長pLの後、パワー系パラメータ用の音声特徴量の抽出を終了させるための終了制御信号を音声特徴量抽出部12に出力する。
そして周波数軸系パラメータ用の音声特徴量の抽出を開始させてから窓長fLの後、音声特徴量の抽出を終了させるための終了制御信号を音声特徴量抽出部12に出力する。この一連の動作を、周期FS毎に分析フレームが終了するまで繰り返す。
Thus, after a time corresponding to the offset amount has elapsed, a start control signal for starting extraction of the speech feature amount for the power system parameter is output to the speech feature amount extraction unit 12. After this, after the window length pL, an end control signal for ending the extraction of the speech feature amount for the power system parameter is output to the speech feature amount extraction unit 12.
Then, after the extraction of the voice feature quantity for the frequency axis system parameter is started, after the window length fL, an end control signal for terminating the voice feature quantity extraction is output to the voice feature quantity extraction unit 12. This series of operations is repeated for every cycle FS until the analysis frame ends.

音声特徴量抽出部12は、前記時間窓位置設定部11から入力される時間窓F(i)の開始制御信号及び終了制御信号に基づいて、入力音声を分析フレーム内の時間窓F(i)で切り出し、この時間窓F(i)内の音声データd(n)から周波数軸系特徴パラメータf(i)(例えば、D次元ベクトル量)を抽出し、時間窓P(i)内の音声データd(n)からパワー系特徴パラメータp(i)(1次元ベクトル量)を計算する。   Based on the start control signal and the end control signal of the time window F (i) input from the time window position setting unit 11, the voice feature amount extraction unit 12 converts the input voice into the time window F (i) in the analysis frame. The frequency axis system characteristic parameter f (i) (for example, a D-dimensional vector amount) is extracted from the audio data d (n) in the time window F (i), and the audio data in the time window P (i) is extracted. The power system characteristic parameter p (i) (one-dimensional vector quantity) is calculated from d (n).

パワー系特徴パラメータp(i)とは音声の振幅に関する特徴量であり、例えば音声データd(n)のニ乗和やその対数を計算するといった比較的少ない計算量で求められる1次元ベクトル量である。周波数軸系特徴パラメータf(i)とは、例えば、ケプストラム、メルケプストラムと呼ばれる音声の周波数に関する特徴量であり、音声データd(n)に対してのFT(Fourier Transform;フーリエ変換)、対数変換、メル軸変換等の複数(例えば、D個)の計算結果から構成されるD次元ベクトル量である。   The power system characteristic parameter p (i) is a feature quantity related to the amplitude of the voice, and is a one-dimensional vector quantity obtained with a relatively small calculation quantity, for example, calculating the sum of squares of the voice data d (n) and its logarithm. is there. The frequency axis system characteristic parameter f (i) is, for example, a feature quantity related to the frequency of speech called cepstrum or mel cepstrum, and FT (Fourier Transform) or logarithmic transformation for speech data d (n). , A D-dimensional vector quantity composed of a plurality of (for example, D) calculation results such as mel-axis transformation.

また、図3に示すように音声特徴量抽出部12は、時間的に隣り合う周波数軸系特徴パラメータの差分Δf(i)(f(i)と同じ次元を持つベクトル量で、例えばD次元)や隣り合うパワー系特徴パラメータの差分Δp(i)(1次元ベクトル量)を演算し、これらの差分Δf(i)、Δp(i)を単位音声特徴量に付加する。そして本実施の形態では、パワー系特徴パラメータの差分Δp(i)のさらに差分であるΔΔp(i)も演算して単位音声特徴量に付加している。   Further, as shown in FIG. 3, the audio feature quantity extraction unit 12 is a difference Δf (i) between frequency axis system feature parameters adjacent in time (vector quantity having the same dimension as f (i), for example, D dimension). Or the difference Δp (i) (one-dimensional vector quantity) between adjacent power system feature parameters is calculated, and these differences Δf (i) and Δp (i) are added to the unit voice feature quantity. In this embodiment, ΔΔp (i), which is a further difference of the power system feature parameter difference Δp (i), is calculated and added to the unit voice feature amount.

ここで、Δp(i)はパワー系特徴パラメータの動特性的特徴を示し、母音の特徴である基本ピッチ成分を包括しなければならない周波数軸系特徴パラメータ用時間窓F(i)に対して、窓幅の短い独自の専用窓長pLを持つことにより、短い時間で急峻に変化する子音部の特徴をよく表し、良好な認識結果が得られるようになる。   Here, Δp (i) indicates a dynamic characteristic of the power system characteristic parameter, and with respect to a frequency axis system characteristic parameter time window F (i) that must include a basic pitch component that is a characteristic of a vowel, By having a unique dedicated window length pL with a short window width, the characteristics of the consonant part that changes sharply in a short time are well expressed, and a good recognition result can be obtained.

比較部13は、前記フレーム内で抽出された各種パラメータからなる前記単位音声特徴量と、記憶装置(図示せず)内に予め格納してある標準パターンとを比較照合して入力音声の認識を行い、認識結果を出力する。本実施例では、HMMに基づく統計的手法により音声認識を行う。     The comparison unit 13 recognizes the input voice by comparing and comparing the unit voice feature amount composed of various parameters extracted in the frame and a standard pattern stored in advance in a storage device (not shown). And output the recognition result. In this embodiment, speech recognition is performed by a statistical method based on HMM.

ここで、上記HMMを利用した統計的手法に基づく音声認識の手法を説明する。音声特徴量抽出部12にて抽出された入力音声の特徴量を用いて、予め与えられているHMMモデル141〜14nと呼ばれる標準パターンに基づいて音声認識を行う。HMMモデル141〜14nとは、音声データに含まれている各単語を音素程度の比較的少ない複数の状態で表し、単語ごとに状態の遷移確率と、各状態から入力された特徴量を出力する確率と、をパラメータとして与えたものである。比較部13では、HMMモデル141〜14nの中で、どのHMMモデルが、与えられた音声特徴量を最も高い確率で出力するか、を尤度(確率)計算し、その確率を最大とするHMMモデルに対応する単語を音声認識結果として出力する。   Here, a speech recognition method based on a statistical method using the HMM will be described. Voice recognition is performed based on a standard pattern called HMM models 141 to 14n given in advance using the feature quantity of the input voice extracted by the voice feature quantity extraction unit 12. The HMM models 141 to 14n represent each word included in the speech data in a plurality of states having relatively few phonemes, and output a state transition probability and a feature amount input from each state for each word. Probability is given as a parameter. The comparison unit 13 calculates the likelihood (probability) of which HMM model outputs the given speech feature amount with the highest probability among the HMM models 141 to 14n, and the HMM that maximizes the probability. The word corresponding to the model is output as a speech recognition result.

次に動作を説明する。図4は、音声認識装置1の音声認識処理を説明するためのフローチャートである。
まず、音声認識装置1に対して音声が入力されると、入力された音声は、入力段に設けられたA/D変換機(図示せず)により、所定のサンプリング間隔でサンプリングして標本化を行う線形PCM方法に基づいてPCM符号化され音声データd(n)に変換され、時間窓位置設定部11及び音声特徴量抽出部12に出力される。
Next, the operation will be described. FIG. 4 is a flowchart for explaining the speech recognition processing of the speech recognition apparatus 1.
First, when speech is input to the speech recognition apparatus 1, the input speech is sampled by sampling at a predetermined sampling interval by an A / D converter (not shown) provided in the input stage. PCM-encoded based on the linear PCM method for performing conversion to speech data d (n), which is output to the time window position setting unit 11 and the speech feature amount extraction unit 12.

音声データd(n)が時間窓位置設定部11に入力されると、窓長fL、pL及びoffset量に基づいて、ハミング窓のような時間窓F(i)及びP(i)を特定する開始制御信号・終了制御信号とが、時間窓位置設定部11から音声特徴量抽出部12へ出力される(ステップS40)。次いで、音声特徴量抽出部12では、ステップS40で出力された前記制御信号に基づいて、時間窓F(i)における音声データd(n)が切り出され、この時間窓F(i)の開始位置からoffset量に対応した時間経過した位置からP(i)が切り出される(ステップS41)。   When the audio data d (n) is input to the time window position setting unit 11, the time windows F (i) and P (i) such as a Hamming window are specified based on the window lengths fL, pL, and the amount of offset. The start control signal / end control signal is output from the time window position setting unit 11 to the audio feature amount extraction unit 12 (step S40). Next, the audio feature quantity extraction unit 12 extracts audio data d (n) in the time window F (i) based on the control signal output in step S40, and the start position of the time window F (i). P (i) is cut out from the position where the time corresponding to the offset amount has elapsed (step S41).

音声特徴量抽出部12は、ステップS41で切り出された時間窓P(i)における音声データd(n)の2乗和又はその対数をとることによってパワー系特徴パラメータp(i)を計算する。さらにF(i)における音声データd(n)を、FT等により周波数軸上に変換することによって得られる周波数軸系特徴パラメータf(i)を抽出する。(ステップS42)。抽出されたパワー系特徴パラメータp(i)と共に、時間窓F(i)の音声特徴量も記憶する(ステップS43)。   The speech feature amount extraction unit 12 calculates the power system feature parameter p (i) by taking the square sum of the speech data d (n) or the logarithm thereof in the time window P (i) cut out in step S41. Further, a frequency axis system characteristic parameter f (i) obtained by converting the audio data d (n) in F (i) onto the frequency axis by FT or the like is extracted. (Step S42). Along with the extracted power system feature parameter p (i), the audio feature quantity of the time window F (i) is also stored (step S43).

次にこの時間窓F(i)で切り出された音声区間が音声区間が終了したかを判断する(ステップS44)。終了していない場合は、ステップS45に移行し、時間窓F(i)及びP(i)から時間窓F(i+1)及びP(i+1)へシフトして、ステップS41に戻る。   Next, it is determined whether or not the voice segment cut out in this time window F (i) has ended (step S44). If not completed, the process proceeds to step S45, the time windows F (i) and P (i) are shifted to the time windows F (i + 1) and P (i + 1), and the process returns to step S41.

ステップS44において当該時間窓F(i)で音声区間が終了したと判断すると、ステップS46において時間窓F(i)毎に記憶された音声特徴量を時系列に配置する。   If it is determined in step S44 that the voice section has ended in the time window F (i), the voice feature values stored for each time window F (i) are arranged in time series in step S46.

次いで、ステップS46において時系列に配列された音声特徴量は、音声特徴抽出部12において下記の式により差分(Δ及びΔΔ)を計算し特徴ベクトル列が生成される(θは考慮する前後のフレーム数)。   Next, the speech feature extraction unit 12 calculates a difference (Δ and ΔΔ) by the following formula to generate a feature vector sequence for the speech feature amounts arranged in time series in step S46 (θ is a frame before and after considering). number).

Figure 2005070377
Figure 2005070377

Figure 2005070377
Figure 2005070377

Figure 2005070377
Figure 2005070377

このようにして得られた特徴ベクトル列(f(i)、Δp(i)、Δf(i)、ΔΔp(i))を用いて、比較部13にて予め記憶されている標準パターン(HMMモデル1〜HMMモデルn)と比較照合される(ステップS47)。ステップS47で得られた結果は音声認識装置1の図示しない出力段に出力され(ステップS48)、一連の音声認識処理を終了する。   Using the feature vector sequence (f (i), Δp (i), Δf (i), ΔΔp (i)) thus obtained, a standard pattern (HMM model) stored in advance in the comparison unit 13 is used. 1 to HMM model n) are compared (step S47). The result obtained in step S47 is output to an output stage (not shown) of the speech recognition apparatus 1 (step S48), and the series of speech recognition processing is terminated.

このように、本実施の形態における音声認識装置によれば、音声分析の対象となる分析フレームから時間窓を設定して音声特徴量を抽出する場合に、同じ周期でありながら、パワー系特徴パラメータを抽出する時間窓p(i)の窓長が周波数軸系特徴パラメータを抽出する時間窓に比べて短く設定されている。
このため、母音部分における基本ピッチ成分の周期以上の窓長で周波数軸系特徴パラメータを抽出しながら同時刻のパワー系特徴パラメータの動的特徴(Δp(i))をより細かい応答性で得られるので、音声認識率が向上する。
As described above, according to the speech recognition apparatus in the present embodiment, when extracting a speech feature amount by setting a time window from an analysis frame to be subjected to speech analysis, the power system feature parameter has the same period. The window length of the time window p (i) for extracting is set shorter than the time window for extracting the frequency axis system characteristic parameter.
Therefore, the dynamic feature (Δp (i)) of the power system feature parameter at the same time can be obtained with finer responsiveness while extracting the frequency axis feature parameter with a window length equal to or longer than the period of the basic pitch component in the vowel part. Therefore, the voice recognition rate is improved.

また、この実施形態においては、特徴ベクトル列として(f(i)、Δp(i)、Δf(i)、ΔΔp(i))を使用したが、これとは別に人間の発声音の子音情報が多く含まれる3kHz〜8kHzの帯域だけ通過するバンドパスフィルタを設け、このバンドパスフィルタを通過させた音声データから短い窓長pLで短時間パワー専用特徴ベクトルΔtp(i)を抽出し、特徴ベクトル列として(f(i)、Δp(i)、Δf(i)、ΔΔp(i)、Δtp(i))を用いるようにしてもよい。   In this embodiment, (f (i), Δp (i), Δf (i), ΔΔp (i)) is used as the feature vector sequence. However, consonant information of a human utterance is not included. A band-pass filter that passes only a band of 3 kHz to 8 kHz that is included in a large amount is provided, a short-time power-only feature vector Δtp (i) is extracted from audio data that has passed through the band-pass filter with a short window length pL, and a feature vector sequence (F (i), Δp (i), Δf (i), ΔΔp (i), Δtp (i)) may be used.

本発明の実施形態に係る音声認識装置のブロック図。1 is a block diagram of a speech recognition apparatus according to an embodiment of the present invention. 時間窓位置設定部における、入力音声波形に対する時間窓の設定の様子を示す図。The figure which shows the mode of the setting of the time window with respect to the input audio | voice waveform in a time window position setting part. 本発明の実施形態に係る音声認識装置に用いられる特徴パラメータを示す図。The figure which shows the characteristic parameter used for the speech recognition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る音声認識装置の動作を示すフローチャート。The flowchart which shows operation | movement of the speech recognition apparatus which concerns on embodiment of this invention.

符号の説明Explanation of symbols

1 音声認識装置
11 時間窓位置設定部
12 音声特徴量抽出部
13 比較部
141〜14n HMMモデル
DESCRIPTION OF SYMBOLS 1 Speech recognition apparatus 11 Time window position setting part 12 Voice feature-value extraction part 13 Comparison part 141-14n HMM model

Claims (6)

分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、前記音声の周波数に関する周波数軸系特徴パラメータと、前記音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出する特徴量抽出手段と、この特徴量抽出手段により抽出された特徴量に基づいて、前記分析対象音声を認識する音声認識手段と、を備えた音声認識装置であって、
前記特徴量抽出手段は、前記パワー系特徴パラメータのみを抽出する時間窓の長さを前記周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして前記特徴量を抽出することを特徴とする音声認識装置。
A time window of a predetermined length is set with a predetermined period for the analysis target voice, and this time window is used as a processing unit and includes a frequency axis characteristic parameter related to the frequency of the voice and a power system characteristic parameter related to the amplitude of the voice. A speech recognition apparatus comprising: a feature amount extraction unit that extracts a feature amount; and a speech recognition unit that recognizes the analysis target speech based on the feature amount extracted by the feature amount extraction unit,
The feature quantity extraction unit extracts the feature quantity by shortening a length of a time window for extracting only the power system feature parameter as compared with a length of a time window for extracting only the frequency axis system feature parameter. A voice recognition device characterized by the above.
前記周波数軸系特徴パラメータのみを抽出する時間窓の長さは、入力音声の母音部分における基本ピッチ成分の周期以上であることを特徴とする請求項1記載の音声認識装置。   The speech recognition apparatus according to claim 1, wherein the length of the time window for extracting only the frequency axis system characteristic parameter is equal to or longer than the period of the basic pitch component in the vowel part of the input speech. 前記特徴量抽出手段は、前記所定周期で順次発生する前記特徴パラメータのうち、時間的に隣り合う特徴パラメータの差分を表す差分特徴パラメータを演算して前記音声認識手段に供給することを特徴とする請求項1記載の音声認識装置。   The feature amount extraction unit calculates a difference feature parameter indicating a difference between temporally adjacent feature parameters among the feature parameters sequentially generated at the predetermined period, and supplies the difference feature parameter to the voice recognition unit. The speech recognition apparatus according to claim 1. 前記特徴量抽出手段は、前記分析対象音声に対して3kHz〜8kHzの帯域だけを通過させるバンドパスフィルタ手段をさらに有し、このバンドパスフィルタ手段を介した入力音声のパワー系特徴パラメータを前記所定周期で順次抽出し、この抽出された時間的に隣り合うパワー系特徴パラメータの差分を前記音声認識手段に供給することを特徴とする請求項1記載の音声認識装置。   The feature amount extraction unit further includes a band pass filter unit that passes only a band of 3 kHz to 8 kHz with respect to the analysis target voice, and sets a power system characteristic parameter of the input voice via the band pass filter unit as the predetermined parameter. 2. The speech recognition apparatus according to claim 1, wherein the speech recognition apparatus sequentially extracts in a cycle and supplies the extracted difference between power system characteristic parameters adjacent in time to the speech recognition means. 分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、前記音声の周波数に関する周波数軸系特徴パラメータと、前記音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出し、この抽出された特徴量に基づいて、前記分析対象音声を認識する音声認識方法であって、
前記パワー系特徴パラメータのみを抽出する時間窓の長さを前記周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして前記特徴量を抽出することを特徴とする音声認識方法。
A time window of a predetermined length is set with a predetermined period for the analysis target voice, and this time window is used as a processing unit, and includes a frequency axis characteristic parameter related to the frequency of the voice and a power system characteristic parameter related to the amplitude of the voice. A speech recognition method for extracting a feature amount and recognizing the analysis target speech based on the extracted feature amount,
A speech recognition method for extracting the feature quantity by shortening a length of a time window for extracting only the power system feature parameter as compared with a length of a time window for extracting only the frequency axis system feature parameter .
分析対象音声に対して所定長の時間窓を所定周期で設定し、この時間窓を処理単位として、前記音声の周波数に関する周波数軸系特徴パラメータと、前記音声の振幅に関するパワー系特徴パラメータとからなる特徴量を抽出する特徴量抽出ステップと、抽出された特徴量に基づいて、前記分析対象音声を認識する音声認識ステップ、を備えた音声認識処理プログラムであって、
前記パワー系特徴パラメータのみを抽出する時間窓の長さを前記周波数軸系特徴パラメータのみを抽出する時間窓の長さに比べて短くして前記特徴量を抽出することを特徴とする音声認識処理プログラム。
A time window of a predetermined length is set with a predetermined period for the analysis target voice, and this time window is used as a processing unit, and includes a frequency axis characteristic parameter related to the frequency of the voice and a power system characteristic parameter related to the amplitude of the voice. A speech recognition processing program comprising: a feature amount extracting step for extracting a feature amount; and a speech recognition step for recognizing the analysis target speech based on the extracted feature amount,
A speech recognition process for extracting the feature quantity by shortening a length of a time window for extracting only the power system feature parameter as compared with a length of a time window for extracting only the frequency axis system feature parameter program.
JP2003299498A 2003-08-25 2003-08-25 Speech recognition apparatus, speech recognition method, and speech recognition processing program Expired - Lifetime JP4479191B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003299498A JP4479191B2 (en) 2003-08-25 2003-08-25 Speech recognition apparatus, speech recognition method, and speech recognition processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003299498A JP4479191B2 (en) 2003-08-25 2003-08-25 Speech recognition apparatus, speech recognition method, and speech recognition processing program

Publications (2)

Publication Number Publication Date
JP2005070377A true JP2005070377A (en) 2005-03-17
JP4479191B2 JP4479191B2 (en) 2010-06-09

Family

ID=34404690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003299498A Expired - Lifetime JP4479191B2 (en) 2003-08-25 2003-08-25 Speech recognition apparatus, speech recognition method, and speech recognition processing program

Country Status (1)

Country Link
JP (1) JP4479191B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060836A (en) * 2008-09-03 2010-03-18 Sony Corp Music processing method, music processing apparatus and program
CN102629470A (en) * 2011-02-02 2012-08-08 Jvc建伍株式会社 Consonant-segment detection apparatus and consonant-segment detection method
JP2016517047A (en) * 2013-05-01 2016-06-09 アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ Speech recognition system and method of using dynamic Bayesian network model
US9390709B2 (en) 2012-09-25 2016-07-12 Seiko Epson Corporation Voice recognition device and method, and semiconductor integrated circuit device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010060836A (en) * 2008-09-03 2010-03-18 Sony Corp Music processing method, music processing apparatus and program
CN102629470A (en) * 2011-02-02 2012-08-08 Jvc建伍株式会社 Consonant-segment detection apparatus and consonant-segment detection method
US9390709B2 (en) 2012-09-25 2016-07-12 Seiko Epson Corporation Voice recognition device and method, and semiconductor integrated circuit device
JP2016517047A (en) * 2013-05-01 2016-06-09 アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ Speech recognition system and method of using dynamic Bayesian network model

Also Published As

Publication number Publication date
JP4479191B2 (en) 2010-06-09

Similar Documents

Publication Publication Date Title
JP4911034B2 (en) Voice discrimination system, voice discrimination method, and voice discrimination program
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4322785B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US8326610B2 (en) Producing phonitos based on feature vectors
JPH07146699A (en) Voice recognizing method
JPH0968994A (en) Word voice recognition method by pattern matching and device executing its method
JP2005043666A (en) Voice recognition device
JP4340685B2 (en) Speech recognition apparatus and speech recognition method
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JPH09325798A (en) Voice recognizing device
JP4479191B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition processing program
JP4839970B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
JP4666129B2 (en) Speech recognition system using speech normalization analysis
JP5300000B2 (en) Articulation feature extraction device, articulation feature extraction method, and articulation feature extraction program
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JP7159655B2 (en) Emotion estimation system and program
JP4524866B2 (en) Speech recognition apparatus and speech recognition method
Geetha et al. Automatic phoneme segmentation of Tamil utterances
JP3061292B2 (en) Accent phrase boundary detection device
JP2001005483A (en) Word voice recognizing method and word voice recognition device
KR100488121B1 (en) Speaker verification apparatus and method applied personal weighting function for better inter-speaker variation
JP4400169B2 (en) Speech recognition apparatus, speech recognition method and program
JP2007079072A (en) Method and device for speech recognition
Tyagi et al. On Multi-Scale Piecewise Stationary Spectral Analysis of Speech Signals for Robust ASR

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4479191

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 4