JP4801108B2 - Voice recognition apparatus, method, program, and recording medium thereof - Google Patents

Voice recognition apparatus, method, program, and recording medium thereof Download PDF

Info

Publication number
JP4801108B2
JP4801108B2 JP2008055978A JP2008055978A JP4801108B2 JP 4801108 B2 JP4801108 B2 JP 4801108B2 JP 2008055978 A JP2008055978 A JP 2008055978A JP 2008055978 A JP2008055978 A JP 2008055978A JP 4801108 B2 JP4801108 B2 JP 4801108B2
Authority
JP
Japan
Prior art keywords
state
likelihood
max
storage unit
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008055978A
Other languages
Japanese (ja)
Other versions
JP2009210976A (en
Inventor
厚徳 小川
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008055978A priority Critical patent/JP4801108B2/en
Publication of JP2009210976A publication Critical patent/JP2009210976A/en
Application granted granted Critical
Publication of JP4801108B2 publication Critical patent/JP4801108B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識技術に関する。特に、音声認識処理の速度を向上させる技術に関する。   The present invention relates to speech recognition technology. In particular, the present invention relates to a technique for improving the speed of voice recognition processing.

図7を参照して、従来技術の音声認識装置100’について説明する。
入力音声が、音響分析部10に入力される。音響分析部10は、入力音声から、一定時間長のフレームごとに特徴量ベクトルを計算し、特徴量ベクトルの時系列を生成する。生成された特徴量ベクトルの時系列は、探索部30’に送られる。
探索部30’は、音響モデル記憶部40から読み込んだ音響モデルを用いて、文法記憶部50から読み出した文法で表現される単語又は単語列と特徴量ベクトルの時系列との照合を行い、すなわち探索処理を行い、最も尤度が高い単語又は単語列を認識結果として出力する。
With reference to FIG. 7, a conventional speech recognition apparatus 100 ′ will be described.
The input voice is input to the acoustic analysis unit 10. The acoustic analysis unit 10 calculates a feature vector for each frame having a fixed time length from the input speech, and generates a time series of the feature vector. The time series of the generated feature vector is sent to the search unit 30 ′.
The search unit 30 ′ uses the acoustic model read from the acoustic model storage unit 40 to collate the word or word string expressed in the grammar read from the grammar storage unit 50 with the time series of the feature vector, that is, A search process is performed, and the word or word string having the highest likelihood is output as a recognition result.

音響分析部10における音声分析方法としてよく用いられるのは、ケプストラム分析である。例えば、特徴量として、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらの特徴量が10から100次元程度の特徴量ベクトルを構成する。また、例えば、フレーム幅は30ms程度、フレームシフト幅は10ms程度で音声分析が行われる。   Cepstrum analysis is often used as a voice analysis method in the acoustic analysis unit 10. For example, there are MFCC (Mel Frequency Cessential Coefficient), ΔMFCC, ΔΔMFCC, logarithmic power, Δlogarithmic power, etc. as feature quantities, and these feature quantities constitute a feature quantity vector of about 10 to 100 dimensions. For example, the voice analysis is performed with a frame width of about 30 ms and a frame shift width of about 10 ms.

音響モデル記憶部40に記憶された音響モデルは、MFCC等の音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトルに対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するのかを推定するために用いられる。   The acoustic model stored in the acoustic model storage unit 40 is obtained by holding a feature amount of speech such as MFCC as a standard pattern in an appropriate category. Is used as a likelihood to estimate which category it belongs to.

現在、音響モデルとしては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model,以下HMMと略する。)が汎用される。通常、HMMは音素カテゴリ単位で作成される。音素カテゴリ単位で作成された各HMMを音素HMMという。複数の音素HMMからなる音素HMMの集合が、1つの音響モデルを構築する。   Currently, hidden Markov models (hereinafter abbreviated as HMMs) modeled on the basis of probability / statistical theory are widely used as acoustic models. Usually, the HMM is created for each phoneme category. Each HMM created for each phoneme category is called a phoneme HMM. A set of phoneme HMMs composed of a plurality of phoneme HMMs constructs one acoustic model.

音素HMMとしては、monophone−HMM,biphone−HMM及びtriphone−HMMがよく用いられる。
monophone−HMMは、中心音素に先行する音素と後続する音素の両方を音素環境として考慮しない音素環境非依存型の音素HMMである。例えば、音素aのmonophone−HMMは、*を任意の音素として、*−a−*と表すことができる。
As phoneme HMMs, monophone-HMM, biphone-HMM, and triphone-HMM are often used.
The monophone-HMM is a phoneme environment-independent phoneme HMM that does not consider both phonemes preceding and following the central phoneme as phoneme environments. For example, the monophone-HMM of phoneme a can be represented as * -a- *, where * is an arbitrary phoneme.

biphone−HMMには、中心音素に先行する音素のみを音素環境として考慮する先行音素環境依存型の音素HMM、中心音素に後続する音素のみを音素環境として考慮する後続音素環境依存型の音素HMMがある。例えば、先行音素がpである音素aの先行音素環境依存型biphone−HMMは、p−a−*と表すことができる。また、後続音素がtである音素aの後続音素環境依存型biphone−HMMは、*−a−tと表すことができる。   The biphone-HMM includes a preceding phoneme environment-dependent phoneme HMM that considers only the phoneme preceding the central phoneme as the phoneme environment, and a subsequent phoneme environment-dependent phoneme HMM that considers only the phoneme following the center phoneme as the phoneme environment. is there. For example, the preceding phoneme environment-dependent biphone-HMM of the phoneme a whose preceding phoneme is p can be expressed as p-a- *. The subsequent phoneme environment-dependent biphone-HMM of the phoneme a whose subsequent phoneme is t can be expressed as * -at.

triphone−HMMは、中心音素に先行する音素及び後続する音素の両方を音素環境として考慮する音素HMMである。例えば、先行音素がp、後続音素がtである音素aのtriphone−HMMは、p−a−tと表すことができる。
monophone−HMMよりもbiphone−HMMの方が、また、biphone−HMMよりもtriphone−HMMの方が音素環境を詳細に表現したモデルである。
音素HMMで表現される音素カテゴリの種類の数は、音響モデルの学習データに依存するが、t−t−t等の日本語の音素連鎖としてあり得ないものは除かれるため、一般的には数千から数万程度になる。
A triphone-HMM is a phoneme HMM that considers both phonemes preceding and following the central phoneme as phoneme environments. For example, a triphone-HMM of a phoneme a whose leading phoneme is p and whose subsequent phoneme is t can be expressed as p-at.
The biphone-HMM is a model that represents the phoneme environment in more detail than the monophone-HMM, and the triphone-HMM is more detailed than the biphone-HMM.
The number of types of phoneme categories expressed by the phoneme HMM depends on the learning data of the acoustic model, but it excludes those that are not possible as a Japanese phoneme chain such as ttt. Thousands to tens of thousands.

図8,図9を参照して、音響モデルに含まれる音素HMMの構造を説明する。音素HMMは、後述するように複数の状態Sから構成される。
状態Sは、図8に例示するように、混合確率分布として表現される。混合確率分布の各要素分布には、離散確率分布と連続確率分布があるが、現在最もよく用いられているのは、連続確率分布の1つである多次元正規分布(多次元ガウス分布ともいう。)である。その内でも次元間の相関がない、すなわち共分散行列の対角成分が0である多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、特徴量ベクトルの各次元に対応する。
The structure of the phoneme HMM included in the acoustic model will be described with reference to FIGS. The phoneme HMM is composed of a plurality of states S as will be described later.
The state S is expressed as a mixed probability distribution as illustrated in FIG. Each element distribution of the mixed probability distribution includes a discrete probability distribution and a continuous probability distribution. Currently, the most commonly used one is a multidimensional normal distribution (also called a multidimensional Gaussian distribution). .) Among them, a multidimensional uncorrelated normal distribution in which there is no correlation between dimensions, that is, the diagonal component of the covariance matrix is 0 is most often used. Each dimension of the multidimensional normal distribution corresponds to each dimension of the feature vector.

図8では、状態Sは、4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。なお、図8では、多次元正規分布のある次元iについて示されているが、多次元正規分布の他の次元についても同様に表現される。
図8に例示するような状態Sの数個から十数個程度の確率連鎖によって、音素HMMが構成される。音素HMMが、いくつの状態のどのような確率連鎖によって構成されるかには、様々なバリエーションがある。また、音素HMMごとに異なる構造を取ることもある。
In FIG. 8, the state S is expressed as a multidimensional mixed normal distribution M having four multidimensional normal distributions as element distributions. Although FIG. 8 shows a dimension i having a multidimensional normal distribution, the other dimensions of the multidimensional normal distribution are also expressed in the same manner.
A phoneme HMM is configured by a probability chain of several to about a dozen states S as exemplified in FIG. There are various variations in what probability chain of phoneme HMMs is composed of in what state. Also, different phoneme HMMs may have different structures.

現在最も一般的に用いられている構造は、図9に例示するような3状態のleft−to−right型HMMと呼ばれるものである。これは、第一状態S、第二状態S及び第三状態Sからなる3つの状態を左から右に並べたものである。状態の確率連鎖、すなわち状態遷移は、自分自身への遷移(自己遷移)S→S、S→S、S→Sと、次状態への遷移S→S、S→Sとからなる。音響モデル中の全ての音素HMMがこの3状態のleft−to−right型HMMの構造を取ることが多い。 The structure most commonly used at present is what is called a three-state left-to-right HMM as illustrated in FIG. This is an arrangement of three states consisting of a first state S 1 , a second state S 2 and a third state S 3 from left to right. Probability chain of states, that is, state transitions are transitions to themselves (self-transitions) S 1 → S 1 , S 2 → S 2 , S 3 → S 3 and transitions S 1 → S 2 , S 3 to the next state. consisting of 2S 3 Metropolitan. All phoneme HMMs in an acoustic model often take the structure of this three-state left-to-right HMM.

音素HMMの音響尤度計算について説明する。具体的には、図9の音素HMMに、ある特徴量ベクトルの時系列が入力されたときの音響尤度計算について説明する。例えば、6フレーム分の特徴量ベクトルの時系列X=X,X,X,X,X,Xが、音素HMMのある1つの状態遷移系列S=S→S→S→S→S→Sから出力される確率である音響尤度P(X|S,HMM)は、以下のように計算される。

Figure 0004801108
The acoustic likelihood calculation of the phoneme HMM will be described. Specifically, acoustic likelihood calculation when a time series of a certain feature vector is input to the phoneme HMM in FIG. 9 will be described. For example, the time series X = X 1 , X 2 , X 3 , X 4 , X 5 , X 6 of feature quantity vectors for 6 frames is one state transition sequence S e = S 1 → S 1 with a phoneme HMM. The acoustic likelihood P (X | S e , HMM), which is the probability output from S 2 → S 2 → S 3 → S 3 , is calculated as follows.
Figure 0004801108

ここで、ajkは状態Sから状態Sへの遷移確率である。また、状態尤度b(X)は、時刻t、すなわちフレームtにおける特徴量ベクトルXが状態Sを表現する多次元混合正規分布Mから出力される確率である。状態尤度b(X)は、多次元混合正規分布Mを構成するm番目の多次元正規分布の出力確率Pjm(X)を用いて、以下のように計算される。

Figure 0004801108
Here, a jk is a transition probability from the state S j to the state S k . Further, the state likelihood b j (X t ) is a probability that the feature quantity vector X t at the time t, that is, the frame t is output from the multidimensional mixed normal distribution M j representing the state S j . The state likelihood b j (X t ) is calculated as follows using the output probability P jm (X t ) of the m-th multidimensional normal distribution constituting the multidimensional mixed normal distribution M j .
Figure 0004801108

ここで、混合数mは、多次元混合正規分布Mを構成する正規分布の数であり、Wjmは、多次元混合正規分布Mを構成するm番目の正規分布の分布重みである。Wjmについては、以下の式が満たされる。

Figure 0004801108
Here, the mixture number m j is the number of normal distributions constituting the multidimensional mixed normal distribution M j , and W jm is the distribution weight of the mth normal distribution constituting the multidimensional mixed normal distribution M j. . For W jm , the following equation is satisfied:
Figure 0004801108

多次元混合正規分布Mを構成する正規分布が多次元無相関正規分布の場合、Pjm(X)は以下のように計算される。

Figure 0004801108
When the normal distribution constituting the multidimensional mixed normal distribution M j is a multidimensional uncorrelated normal distribution, P jm (X t ) is calculated as follows.
Figure 0004801108

ここで、μjmi,σjmi は、多次元混合正規分布Mを構成するm番目の多次元無相関正規分布の次元iにおける平均値、分散。Xtiは、特徴量ベクトルのXの次元iの値である。Iは、特徴量ベクトル及び多次元無相関正規分布の次元数である。 Here, μ jmi and σ jmi 2 are the average value and variance in the dimension i of the m-th multidimensional uncorrelated normal distribution constituting the multidimensional mixed normal distribution M j . X ti is the value of dimension i of X t of the feature vector. I is the number of dimensions of the feature vector and the multidimensional uncorrelated normal distribution.

上記した音響尤度計算は、ある1つの状態遷移系列Sに対するものである。このような状態遷移系列は他にもあげることができる。このような状態遷移系列の全てに対して特徴量ベクトルの時系列を出力する確率を計算し、これらの計算された確率を加算したものを音素HMMに特徴量ベクトルの時系列Xが入力されたときの音響尤度とする方法は、トレリス(trellis)アルゴリズムと呼ばれる。 Acoustic likelihood calculations described above are those for a one state transition sequence S e. Such a state transition sequence can also be given elsewhere. The probability of outputting a time series of feature vector for all such state transition series is calculated, and the time series X of the feature vector is input to the phoneme HMM by adding these calculated probabilities. The method of obtaining the acoustic likelihood is sometimes called a trellis algorithm.

一方、全ての状態遷移系列の中で最も高い音響尤度を与える状態遷移系列を特徴量ベクトルの時系列によりフレーム単位で逐次的に求め、最終フレームに到達したときの尤度を音素HMMに特徴量ベクトルの時系列Xが入力されたときの音響尤度とする方法は、ビタービ(Viterbi)アルゴリズムと呼ばれる。一般的には、トレリスアルゴリズムと比較して計算量を大幅に削減できるビタービアルゴリズムが用いられることが多い。   On the other hand, the state transition sequence that gives the highest acoustic likelihood among all the state transition sequences is sequentially obtained in units of frames by the time series of feature vectors, and the likelihood when the final frame is reached is characterized by the phoneme HMM. The method of obtaining the acoustic likelihood when the time series X of the quantity vector is input is called a Viterbi algorithm. In general, a Viterbi algorithm that can significantly reduce the amount of calculation compared to the trellis algorithm is often used.

また、上記した音響尤度計算は、ある1つの音素HMMに対するものであるが、実際には、探索部30’において探索処理を行う前に、音素HMMを連結して文法記憶部50に記憶された文法で表現される単語又は単語列のHMMの探索ネットワークを作成し、入力音声の特徴量ベクトルの時系列と探索ネットワークで表現される単語又は単語列との照合、すなわち探索処理が行われる。そして、最も音響尤度が高い単語又は単語列が認識結果として出力される。   Further, the above-described acoustic likelihood calculation is for one phoneme HMM, but actually, the phoneme HMM is concatenated and stored in the grammar storage unit 50 before performing the search process in the search unit 30 ′. A search network for HMMs of words or word strings expressed in a grammar is created, and a time series of feature vectors of input speech is matched with words or word strings expressed in the search network, that is, search processing is performed. Then, the word or word string having the highest acoustic likelihood is output as the recognition result.

なお、連続音声認識の場合には、上記の音響尤度に加えて、単語のつながりやすさを統計的に表現する言語モデルによる言語尤度が考慮され、これらの統合尤度が最も高い単語又は単語列として出力される。また、上記した音響尤度計算では、確率値をそのまま扱ったが、実際にはアンダーフローを防ぐために、確率値の対数をとって計算を行う(以上の内容については、例えば、非特許文献1,2参照。)。   In the case of continuous speech recognition, in addition to the acoustic likelihood described above, the language likelihood based on a language model that statistically expresses the ease of connection of words is taken into consideration, and the word having the highest integrated likelihood or Output as a word string. In the above-described acoustic likelihood calculation, the probability value is handled as it is. However, in order to prevent underflow, the logarithm of the probability value is actually used for calculation (for the above contents, for example, Non-Patent Document 1). , 2).

ところで、音声認識処理時間に占める状態尤度b(X)を計算する時間の割合は45%から65%に上るため、音声認識処理を高速化するためには、状態尤度b(X)を求める処理を高速化するとよい。状態尤度b(X)を求める処理を高速化する数多くの手法が従来から提案されている(例えば、非特許文献3,4参照。)
以下、非特許文献4に記載された状態尤度b(X)を求める処理の高速化の手法について説明する。非特許文献4の手法は、以下の2つの実験的事実に基づいて状態尤度b(X)を求める処理の高速化を実現している。
By the way, since the ratio of the time for calculating the state likelihood b j (X t ) in the speech recognition processing time is increased from 45% to 65%, the state likelihood b j ( The processing for obtaining X t ) may be accelerated. A number of techniques for speeding up the process of obtaining the state likelihood b j (X t ) have been proposed (see, for example, Non-Patent Documents 3 and 4).
Hereinafter, a method for speeding up the process for obtaining the state likelihood b j (X t ) described in Non-Patent Document 4 will be described. The method of Non-Patent Document 4 realizes speeding up of processing for obtaining the state likelihood b j (X t ) based on the following two experimental facts.

1.状態尤度b(X)の計算におけるCPUの動きを調べた結果、最も消費時間が長いのは、上記式(2)で定義される状態尤度b(X)の計算そのものではなく、状態尤度b(X)を計算するために必要な、計算対象となっている状態jの状態パラメータを、メインメモリからCPUのキャッシュにフェッチする処理である。 1. As a result of investigating the movement of the CPU in the calculation of the state likelihood b j (X t ), the time consumption is the longest in the calculation of the state likelihood b j (X t ) defined by the above equation (2). Rather, it is a process of fetching the state parameter of the state j to be calculated necessary for calculating the state likelihood b j (X t ) from the main memory to the CPU cache.

2.ある状態jのあるフレームtについての状態尤度b(X)の計算が行われた場合、その状態jの次のフレームt+1についての状態尤度b(Xt+1)の計算が行われる可能性が高い。非特許文献4では、75%以上の確率で、次のフレームt+1についての状態尤度b(Xt+1)の計算が行われると記載されている。 2. When the state likelihood b j (X t ) is calculated for a frame t in a certain state j, the state likelihood b j (X t + 1 ) is calculated for the next frame t + 1 of the state j. Probability is high. Non-Patent Document 4 describes that the state likelihood b j (X t + 1 ) for the next frame t + 1 is calculated with a probability of 75% or more.

図10に例示した状態尤度テーブルを参照して、非特許文献4の手法を説明する。状態尤度テーブルとは、各状態ごとに、状態尤度b(X)の計算を行うフレームを時系列で表したものである。 The method of Non-Patent Document 4 will be described with reference to the state likelihood table illustrated in FIG. The state likelihood table is a time series of frames for calculating the state likelihood b j (X t ) for each state.

例えば、状態jのフレームtについての状態尤度b(X)を計算する必要が生じたとする。このとき、状態尤度b(X)のみならず、ついでにKフレーム先までの状態尤度b(Xt+1),…,b(Xt+K)を合わせて計算して、それらの計算結果をテーブルに記憶しておく。このKフレーム先までの状態尤度を計算する処理を「バッチ状態尤度計算処理」という。Kは、7程度の整数である。 For example, assume that it is necessary to calculate the state likelihood b j (X t ) for the frame t in the state j. At this time, not only the state likelihood b j (X t ) but also the state likelihoods b j (X t + 1 ),..., B j (X t + K ) up to K frames ahead are calculated together, and these calculations are performed. Store the results in a table. The process of calculating the state likelihood up to K frames ahead is called “batch state likelihood calculation process”. K is an integer of about 7.

その後、状態尤度b(Xt+1),…,b(Xt+K)を計算する必要が出てきた場合には、そのテーブルを参照して、これらを実際に計算することなく求める。これにより、状態尤度b(X)を求める処理を高速化することができる。 Thereafter, when it becomes necessary to calculate the state likelihoods b j (X t + 1 ),..., B j (X t + K ), they are obtained by referring to the table without actually calculating them. Thus, it is possible to speed up the process of obtaining the status likelihood b j (X t).

この非特許文献4の手法によれば、上記「1.」で述べた、消費時間が長い状態パラメータをCPUのキャッシュにフェッチする回数を削減することができるため、音響尤度の計算を高速化することができ、音声認識処理を高速化することができる。
鹿野清宏,外4名,「IT Text 音声認識システム」,オーム社,2001年5月,p.1−51 安藤彰男,「リアルタイム音声認識」,(社)電子情報通信学会,2003年9月,p.1−58,p.125−170 嵯峨山茂樹,外4名,「音声認識における新しい高速化」,日本音響学会講演論文集,1−5−12,平成8年3月,p.25−28 M.Saraclar,外3名,「Towards automatic closed captioning: low latency real time broadcast news transcription」,Proc.ICSLP’02,2002年9月,p.1741−1744
According to the method of Non-Patent Document 4, it is possible to reduce the number of times of fetching the state parameter having a long consumption time into the CPU cache as described in “1.”, so that the calculation of acoustic likelihood is accelerated. The speech recognition process can be speeded up.
Kiyohiro Shikano and 4 others, “IT Text Speech Recognition System”, Ohmsha, May 2001, p. 1-51 Akio Ando, “Real-time Speech Recognition”, The Institute of Electronics, Information and Communication Engineers, September 2003, p. 1-58, p. 125-170 Shigeki Hiyama, 4 others, “New acceleration in speech recognition”, Proceedings of the Acoustical Society of Japan, 1-5-12, March 1996, p. 25-28 M. Saraclar, three others, “Towards automatic closed captioning: low latency real time broadcast news transcription”, Proc. ICSLP'02, September 2002, p. 1741-1744

ところで、ついでに計算したKフレーム分の状態尤度b(Xt+1),…,b(Xt+K)は実際に使用されるかどうかが不明であり、これらが使用されなければ状態尤度の無駄な計算を行ったことになる。
非特許文献4の手法においては、Kの値は諸事情を考慮せずに固定されていたため、状態尤度の無駄な計算が行われていた可能性がある。このため、音声認識処理を十分に高速化できていない可能性があった。
Incidentally, it is unclear whether the state likelihood b j (X t + 1 ),..., B j (X t + K ) for the K frames calculated next is actually used. This is a wasteful calculation.
In the method of Non-Patent Document 4, since the value of K is fixed without considering various circumstances, there is a possibility that useless calculation of state likelihood has been performed. For this reason, there is a possibility that the voice recognition processing has not been sufficiently accelerated.

この発明は、上記問題に鑑み、音声認識処理の速度をより向上させた音声認識装置、方法、プログラム及びその記録媒体を提供することを目的とする。   In view of the above problems, an object of the present invention is to provide a speech recognition apparatus, method, program, and recording medium thereof that further improve the speed of speech recognition processing.

この発明の1つの観点によれば、音響モデル記憶部を、状態パラメータ、自己遷移確率を含む音響モデルを記憶する記憶部とし、状態パラメータ記憶部を、音響モデル記憶部よりも高速な記憶部とする。音響分析部が、入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を特徴量ベクトル記憶部に格納する。フェッチ部が、j,tをそれぞれ任意の整数、ある状態jがフレームtの特徴量ベクトルXを出力する確率を状態尤度b(X)として、状態尤度b(X)が計算される前に、状態jの状態パラメータを音響モデル記憶部から状態パラメータ記憶部に読み込む。尤度計算率計算部が、処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合(以下、尤度計算率qとする。)を状態ごとに求める。尤度計算率フレーム数決定部が、求まった尤度計算率qが高い状態ほど、大きい整数K(j)をフレーム数Kとして決定する。状態尤度計算部が、状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXとを用いて状態尤度b(X)を計算すると共に、状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態尤度b(Xt+1),…,b(Xt+K)を更に計算して、それらの更に計算された状態尤度b(Xt+1),…,b(Xt+K)を状態尤度記憶部に格納する。状態尤度参照部が、状態尤度b(Xt+1),…,b(Xt+K)の何れかが必要になったときに、状態尤度記憶部を参照して、その状態尤度を求める。 According to one aspect of the present invention, the acoustic model storage unit is a storage unit that stores an acoustic model including state parameters and self-transition probabilities, and the state parameter storage unit is a storage unit that is faster than the acoustic model storage unit. To do. The acoustic analysis unit obtains a feature vector for each frame having a predetermined time length from the input speech, and stores a time series of the feature vector in the feature vector storage unit. The state likelihood b j (X t ) is a state likelihood b j (X t ), where the fetch unit uses j and t as arbitrary integers, and a certain state j outputs the feature quantity vector X t of the frame t. Is calculated from the acoustic model storage unit to the state parameter storage unit. In the speech recognition processing performed by the likelihood calculation rate calculation unit on the speech having an acoustic property close to the target speech to be processed, the ratio of frames in which the state likelihood is calculated in all frames ( Hereinafter, the likelihood calculation rate q j is obtained for each state. The likelihood calculation rate frame number determination unit determines the larger integer K B (j) as the frame number K as the obtained likelihood calculation rate q j is higher. The state likelihood calculation unit calculates the state likelihood b j (X t ) using the state parameter of the state j read from the state parameter storage unit and the feature quantity vector X t read from the feature quantity vector storage unit. In addition, state likelihood b j (X t + 1 ),..., Using the state parameter of state j read from the state parameter storage unit and feature quantity vectors X t + 1 ,..., X t + K read from the feature quantity storage unit. , B j (X t + K ) are further calculated, and the further calculated state likelihoods b j (X t + 1 ),..., B j (X t + K ) are stored in the state likelihood storage unit. When the state likelihood reference unit needs any of the state likelihoods b j (X t + 1 ),..., B j (X t + K ), the state likelihood storage unit refers to the state likelihoods. Ask for.

フレーム数Kの値を状態に応じて適宜変えることにより、状態尤度の無駄な計算処理の量を少なくすることができる。これにより、従来よりも音声認識処理を高速化することができる。   By appropriately changing the value of the number K of frames according to the state, it is possible to reduce the amount of wasteful calculation processing of the state likelihood. As a result, the voice recognition processing can be speeded up as compared with the conventional art.

この発明は、図6に記載した状態尤度テーブルに例示するように、ついでに状態尤度が計算されるフレーム数Kを状態ごとに適宜異ならせることを特徴とする。
以下、図面を参照してこの発明の実施形態の例を説明する。背景技術と同様な部分については、同じ符号をつけて重複説明を略する。
As exemplified in the state likelihood table described in FIG. 6, the present invention is characterized in that the number of frames K for which the state likelihood is calculated is appropriately changed for each state.
Hereinafter, embodiments of the present invention will be described with reference to the drawings. The same parts as those in the background art are denoted by the same reference numerals, and redundant description is omitted.

[第一実施形態]
第一実施形態は、音声認識処理の対象となる目的音声と音響的に近い性質を有する音声(以下、適応先データ、開発用データともいう。)が得られる場合の実施形態である。
開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、例えば状態尤度テーブルを得ることにより、全フレームにおける状態尤度の計算が行われたフレームの割合(以下、尤度計算率qという。)を状態jごとに求める。この尤度計算率qが高い状態jほど、あるフレームtについての状態尤度b(X)が計算された場合に、次のフレームt+1についての状態尤度b(Xt+1)が計算される可能性が高いと考えることができる。
[First embodiment]
The first embodiment is an embodiment in the case where a voice (hereinafter referred to as “adaptation destination data” or “development data”) having a property that is acoustically close to the target voice that is the target of the voice recognition process is obtained.
For the development data, speech recognition processing was performed by normal state likelihood calculation without performing batch state likelihood calculation, for example, state likelihood calculation was performed for all frames by obtaining a state likelihood table. The ratio of frames (hereinafter referred to as likelihood calculation rate q j ) is obtained for each state j. The state likelihood b j (X t + 1 ) for the next frame t + 1 when the state likelihood b j (X t ) for a certain frame t is calculated as the state j has a higher likelihood calculation rate q j. It can be considered that the possibility of being calculated is high.

この性質を利用して、尤度計算率qが高い状態jに対しては大きなフレーム数Kを与え、逆に尤度計算率qが低い状態jに対しては小さいフレーム数Kを与える。すなわち、尤度計算率qが高い状態jほど、大きいフレーム数Kを与える。
このように、ついでに状態尤度が計算されるフレーム数Kを状態ごとに適宜異ならせることにより、状態尤度の無駄な計算処理の量を少なくすることができる。したがって、従来よりも音響尤度の計算を高速化することができ、音声認識処理を高速化することができる。
Using this property, a large frame number K is given to a state j with a high likelihood calculation rate q j , and conversely a small frame number K is given to a state j with a low likelihood calculation rate q j. . That is, the higher the likelihood calculation rate q j , the larger the number of frames K is given.
In this way, by appropriately changing the number of frames K for which the state likelihood is calculated for each state, the amount of wasteful state likelihood calculation processing can be reduced. Therefore, it is possible to speed up the calculation of the acoustic likelihood as compared with the prior art, and to speed up the speech recognition process.

図1,図2を参照してこの発明の第一実施形態の例を説明する。図1は、音声認識装置の例の機能ブロック図である。図2は、音声認識方法の処理の流れを例示するフローチャートである。
第一実施形態の音声認識装置100は、図1において実線で示す、音響分析部10、特徴量ベクトル記憶部20、探索部30、音響モデル記憶部40、文法記憶部50、フェッチ部60、状態パラメータ記憶部70、状態尤度記憶部80及びフレーム数決定部90を例えば含む。探索部30は、状態尤度計算部31及び状態尤度参照部32を例えば含む。フレーム数決定部90は、尤度計算率計算部92、尤度計算率フレーム数決定部93を例えば含む。
An example of the first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a functional block diagram of an example of a speech recognition apparatus. FIG. 2 is a flowchart illustrating the processing flow of the speech recognition method.
The speech recognition apparatus 100 according to the first embodiment includes an acoustic analysis unit 10, a feature vector storage unit 20, a search unit 30, an acoustic model storage unit 40, a grammar storage unit 50, a fetch unit 60, and a state indicated by a solid line in FIG. For example, a parameter storage unit 70, a state likelihood storage unit 80, and a frame number determination unit 90 are included. The search unit 30 includes a state likelihood calculation unit 31 and a state likelihood reference unit 32, for example. The frame number determination unit 90 includes, for example, a likelihood calculation rate calculation unit 92 and a likelihood calculation rate frame number determination unit 93.

<ステップS1>
入力音声が、音響分析部10に入力される。音響分析部10は、入力音声から、一定時間長のフレームごとに特徴量ベクトルXを計算し、特徴量ベクトルXの時系列を生成する。生成された特徴量ベクトルXの時系列は、特徴量ベクトル記憶部20に送られる。
特徴量ベクトル記憶部20は、例えば一時的に特徴量ベクトルXを記憶するバッファである。
<Step S1>
The input voice is input to the acoustic analysis unit 10. Acoustic analysis section 10, from the input speech, the feature vector X t is calculated for each frame of a fixed time length, to generate a time series of feature vectors X t. Time series of the generated feature vector X t is sent to the feature quantity vector storage unit 20.
Feature quantity vector storage unit 20 is, for example, a buffer for temporarily storing the feature vectors X t.

<ステップS2>
フェッチ部60は、状態尤度計算部31が状態jのフレームtについての状態尤度b(X)を計算する前に、状態jの状態パラメータを、音響モデルが記憶された音響モデル記憶部40から読み込み、状態パラメータ記憶部70に格納する。
状態パラメータとは、状態尤度B(X)を計算するために必要な数値のことであり、例えば、背景技術の欄の式(2)で登場する分布重みWjm(m=1,…,m)、式(4)で登場する平均μjmi(m=1,…,m,i=1,…,I),分散σjmi (m=1,…,m,i=1,…,I)である。
<Step S2>
Before the state likelihood calculation unit 31 calculates the state likelihood b j (X t ) for the frame t of the state j, the fetch unit 60 stores the state parameter of the state j as an acoustic model storage in which the acoustic model is stored. The data is read from the unit 40 and stored in the state parameter storage unit 70.
The state parameter is a numerical value necessary for calculating the state likelihood B j (X t ). For example, the distribution weight W jm (m = 1, m) appearing in Equation (2) in the background art column. , M j ), mean μ jmi (m = 1,..., M j , i = 1,..., I), variance σ jmi 2 (m = 1,..., M j , i = 1, ..., I).

状態パラメータ記憶部70は、音響モデル記憶部40よりも読み書きが高速な記憶媒体であり、例えばCPU1のキャッシュ1a(図5参照)である。   The state parameter storage unit 70 is a storage medium that is faster in reading and writing than the acoustic model storage unit 40, and is, for example, the cache 1a of the CPU 1 (see FIG. 5).

<ステップS31>
尤度計算率計算部92は、開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、尤度計算率qを状態jごとに求める。尤度計算率qは、尤度計算率フレーム数決定部93に送られる。
<Step S31>
The likelihood calculation rate calculation unit 92 performs speech recognition processing on the development data by normal state likelihood calculation without performing batch state likelihood calculation, and obtains a likelihood calculation rate q j for each state j. The likelihood calculation rate q j is sent to the likelihood calculation rate frame number determination unit 93.

<ステップS32>
尤度計算率フレーム数決定部93は、尤度計算率qが高い状態jほど大きい整数K(j)を決定する。K(j)は、状態尤度計算部31に送られる。
例えば、qを0以上1以下の数、qをq以上1以下の数、Kminを0以上の整数、KmaxをKmin+1以上の整数、f(・)を・の小数点以下を切り捨てして整数を出力する関数として、K(j)を以下の式により求めることができる。q,q,Kmin及びKmaxは、目的音声、ハードウェアの性能及び目標とする音声認識処理速度等に応じて適宜に予め定められた数である。例えば、qは0.2から0.3、qは0.7から0.8、Kminは3から4、Kmaxは10から12に設定される。
<Step S32>
The likelihood calculation rate frame number determination unit 93 determines an integer K B (j) that is larger for a state j having a higher likelihood calculation rate q j . K B (j) is sent to the state likelihood calculation unit 31.
For example, q l is a number between 0 and 1, q h is a number between q l and 1; K min is an integer greater than or equal to 0; K max is an integer greater than or equal to K min +1; K B (j) can be obtained by the following equation as a function that outputs an integer by rounding down. q l , q h , K min, and K max are numbers that are appropriately determined according to the target speech, hardware performance, target speech recognition processing speed, and the like. For example, q l is set to 0.2 to 0.3, q h is set to 0.7 to 0.8, K min is set to 3 to 4, and K max is set to 10 to 12.

Figure 0004801108
すなわち、図3に例示するように、尤度計算率qがqより下であればK(j)=Kminとし、尤度計算率qがq以上qより下であればK(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))とし、尤度計算率qがq以上であればK=Kmaxとする。
Figure 0004801108
That is, as illustrated in FIG. 3, if the likelihood calculation rate q j is lower than q l, K B (j) = K min is set, and the likelihood calculation rate q j is higher than q l and lower than q h. K B (j) = f ((K max −K min ) q j / (q h −q l )) + ((K min q h −K max q l ) / (q h −q l ))) and then, likelihood calculation factor q j is a K B = K max equal to or greater than q h.

このようにして、尤度計算率qが高いほど、大きな整数を出力する関数K(j)を定めて、この関数に従い、状態ごとに個別のフレーム数Kを決定する。 In this way, a function K B (j) that outputs a larger integer as the likelihood calculation rate q j is higher is determined, and an individual frame number K is determined for each state according to this function.

<ステップS4>
状態尤度計算部31は、状態パラメータ記憶部70から読み込んだ状態jのパラメータと、特徴量ベクトル記憶部20から読み込んだフレームtの特徴量ベクトルXとを用いて、状態jのフレームtについての状態尤度b(X)を計算する。また、これと共に、状態パラメータ記憶部70から読み込んだ状態jのパラメータと、特徴量ベクトル記憶部20から読み込んだフレームt+1,…,t+Kの特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態jのフレームt+1,…,t+Kについての状態尤度b(Xt+1),…,b(Xt+K)を更に計算する。
<Step S4>
The state likelihood calculating unit 31 uses the parameter of the state j read from the state parameter storage unit 70 and the feature quantity vector X t of the frame t read from the feature quantity vector storage unit 20 for the frame t of the state j. The state likelihood b j (X t ) is calculated. At the same time, using the parameters of the state j read from the state parameter storage unit 70 and the feature quantity vectors X t + 1 ,..., X t + K of the frames t + 1,. The state likelihoods b j (X t + 1 ),..., B j (X t + K ) for the frame t + 1,.

計算された状態尤度b(X)は、探索部30による音響尤度の計算に用いられる。一方、計算された状態尤度b(Xt+1),…,b(Xt+K)は、状態尤度記憶部80に格納される。 The calculated state likelihood b j (X t ) is used for calculation of acoustic likelihood by the search unit 30. On the other hand, the calculated state likelihoods b j (X t + 1 ),..., B j (X t + K ) are stored in the state likelihood storage unit 80.

<ステップS5>
探索部30が音響尤度を計算するために状態尤度b(Xt+1),…,b(Xt+K)の何れかが必要になったときに、状態尤度参照部32は状態尤度記憶部80を参照してその状態尤度を求める。
探索部30は、状態尤度参照部32が求めた状態尤度を用いて、背景技術と同様に、音響尤度を計算して、音声認識結果を出力する。
<Step S5>
When the search unit 30 needs any of the state likelihoods b j (X t + 1 ),..., B j (X t + K ) in order to calculate the acoustic likelihood, the state likelihood reference unit 32 determines the state likelihood. The state likelihood is obtained by referring to the degree storage unit 80.
The search unit 30 calculates the acoustic likelihood using the state likelihood obtained by the state likelihood reference unit 32, and outputs a speech recognition result.

[第二実施形態]
第一実施形態は、尤度計算率qと共に音素HMMの各状態の自己遷移確率ajjを用いる。/a/等の母音の継続長は、/p/等の子音の継続長よりも通常長い。このため、中心音素が母音である音素HMMの各状態の自己遷移確率は、中心音素が子音である音素HMMの各状態の自己遷移確率よりも大きくなる。自己遷移確率が高い状態jほど、あるフレームtについての状態尤度b(X)の計算が行われた場合に、次のフレームt+1についての状態尤度b(X)の計算が行われる可能性が高いと考えることができる。
[Second Embodiment]
The first embodiment uses the self-transition probabilities a jj of each state of the phoneme HMM together with the likelihood calculation rate q j . The duration of a vowel such as / a / is usually longer than the duration of a consonant such as / p /. For this reason, the self-transition probability of each state of the phoneme HMM whose central phoneme is a vowel is larger than the self-transition probability of each state of the phoneme HMM whose central phoneme is a consonant. Self-transition probability higher state j, when the calculation of the state likelihood b j for a certain frame t (X t) is performed, the calculation of the state likelihood b j for the next frame t + 1 (X t) It can be considered that there is a high possibility of being performed.

この性質を利用して、自己遷移確率が高い状態に対しては大きなフレーム数Kを与え、逆に自己遷移確率が低い状態に対しては小さいフレーム数Kを与える。すなわち、自己遷移確率が高い状態ほど、大きいフレーム数Kを与える。
すなわち、第二実施形態においては、自己遷移確率ajjと尤度計算率qの両方を考慮して、フレーム数Kを決定する。
Using this property, a large frame number K is given to a state with a high self-transition probability, and conversely a small frame number K is given to a state with a low self-transition probability. That is, the higher the number of frames K, the higher the self-transition probability.
That is, in the second embodiment, the number K of frames is determined in consideration of both the self-transition probability a jj and the likelihood calculation rate q j .

このように、自己遷移確率ajjと尤度計算率qの両方を考慮して、ついでに状態尤度が計算されるフレーム数Kを状態ごとに適宜異ならせることにより、状態尤度の無駄な計算処理の量を更に少なくすることができる。したがって、音響尤度の計算を更に高速化することができ、音声認識処理を更に高速化することができる。 As described above, by considering both the self-transition probability a jj and the likelihood calculation rate q j , the state likelihood is calculated by appropriately changing the number of frames K for which the state likelihood is calculated for each state. The amount of calculation processing can be further reduced. Therefore, the calculation of the acoustic likelihood can be further speeded up, and the speech recognition process can be further speeded up.

以下、図1,図4を参照して第二実施形態の例を説明するが、第一実施形態と異なる部分についてのみ説明し、第一実施形態と同様な部分については重複説明を省略する。図4は、第二実施形態の音声認識装置の処理の流れを例示するフローチャートである。
第二実施形態の音声認識装置のフレーム数決定部90は、尤度計算率計算部92、尤度計算率フレーム数決定部93に加えて、図1において破線で示す、自己遷移確率フレーム数決定部91及び統合フレーム数決定部94を例えば含む。
Hereinafter, although the example of 2nd embodiment is demonstrated with reference to FIG. 1, FIG. 4, only a different part from 1st embodiment is demonstrated, and duplication description is abbreviate | omitted about the part similar to 1st embodiment. FIG. 4 is a flowchart illustrating the process flow of the speech recognition apparatus according to the second embodiment.
In addition to the likelihood calculation rate calculation unit 92 and the likelihood calculation rate frame number determination unit 93, the frame number determination unit 90 of the speech recognition apparatus according to the second embodiment determines the number of self-transition probability frames indicated by a broken line in FIG. A unit 91 and an integrated frame number determination unit 94 are included, for example.

<ステップS32’>
尤度計算率フレーム数決定部93は、第一実施形態と同様に尤度計算率qが高いほど大きい整数K(j)を決定する。K(j)は、統合フレーム数決定部94に送られる。第一実施形態とは異なり、K(j)がKとしてそのまま状態尤度計算部31には送られない。すなわち、第二実施形態においては、一律にK=K(j)とはならず、後述するステップS7の処理によりKは定められる。
<Step S32 '>
Likelihood calculation rate frame number determination unit 93 determines an integer K B (j) that is larger as likelihood calculation rate q j is higher as in the first embodiment. K B (j) is sent to the integrated frame number determination unit 94. Unlike the first embodiment, K B (j) is not sent as it is to the state likelihood calculation unit 31 as K. That is, in the second embodiment, K = K B (j) is not uniformly set, and K is determined by the process of step S7 described later.

<ステップS6>
フレーム数決定部90の自己遷移確率フレーム数決定部91は、音響モデル記憶部40から読み込まれた状態jの自己遷移確率ajjを用いて、その自己遷移確率ajjが高いほど、大きい整数K(j)を決定する。K(j)についての情報は、統合フレーム数決定部94に送られる。
<Step S6>
The self-transition probability frame number determination unit 91 of the frame number determination unit 90 uses the self-transition probability a jj of the state j read from the acoustic model storage unit 40, and the higher the self-transition probability a jj is, the larger the integer K A (j) is determined. Information about K A (j) is sent to the integrated frame number determination unit 94.

例えば、aを0以上1以下の数、aをa以上1以下の数、Kminを0以上の整数、KmaxをKmin+1以上の整数、f(・)を・の小数点以下を切り捨てして整数を出力する関数として、K(j)を以下の式により求めることができる。a,a,Kmin及びKmaxは、目的音声、ハードウェアの性能及び目標とする音声認識処理速度等に応じて適宜に予め定められた数である。例えば、aは0.2から0.3、aは0.7から0.8、Kminは3から4、Kmaxは10から12に設定される。

Figure 0004801108
For example, a l a 0 to 1 inclusive of a few, a h a a l 1 inclusive number, the K min 0 or an integer, K max and K min +1 or more integer, f (·) below the decimal point K A (j) can be obtained by the following equation as a function that outputs an integer by rounding down. a l , a h , K min, and K max are numbers that are appropriately determined in accordance with the target speech, hardware performance, target speech recognition processing speed, and the like. For example, a 1 is set to 0.2 to 0.3, a h to 0.7 to 0.8, K min to 3 to 4, and K max to 10 to 12.
Figure 0004801108

すなわち、自己遷移確率ajjがaより下であればK(j)=Kminとし、自己遷移確率ajjがa以上aより下であればK(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))とし、自己遷移確率ajjがa以上であればK=Kmaxとする。 That is, if the self-transition probability a jj is lower than a 1, K A (j) = K min , and if the self-transition probability a jj is greater than or equal to a 1 and lower than a h, K A (j) = f (( K max -K min) a jj / (a h -a l)) + ((K min a h -K max a l) / (a h -a l))) and then, self-transition probability a jj is a h If it is above, K A = K max .

<ステップS7>
統合フレーム数決定部94は、K(j)とK(j)との両方を考慮して、フレーム数Kを決定する。決定されたフレーム数Kは、状態尤度計算部31に送られる。例えば、f(・)を・の小数点以下を切り捨てして整数を出力する関数、重み係数λを0以上1以下の予め定められた数として、下記の、K(j)とK(j)の線形補間式に基づいて、Kを求めてもよい。
K=f((1−λ)K(j)−λK(j))
λは、K(j)にどの程度信頼をおくかを調整する重み係数である。手に入る開発データの量が多い等の理由によりK(j)に信頼がおけると考えられる場合には、重み係数λに1に近い値を与え、逆の場合には、重み係数λには0に近い値を与える。
<Step S7>
The integrated frame number determination unit 94 determines the number of frames K in consideration of both K A (j) and K B (j). The determined number K of frames is sent to the state likelihood calculating unit 31. For example, let f (•) be a function that outputs an integer by rounding down the decimal point of •, and the weighting coefficient λ is a predetermined number between 0 and 1, and the following K A (j) and K B (j ) K may be obtained based on the linear interpolation formula.
K = f ((1-λ) K A (j) −λK B (j))
λ is a weighting coefficient that adjusts how much confidence is placed on K B (j). When K B (j) is considered to be reliable due to the large amount of development data available, a value close to 1 is given to the weighting factor λ, and in the opposite case, the weighting factor λ Gives a value close to zero.

[変形例等]
上記の例では、f(・)を・の小数点以下を切り捨てして整数を出力する関数としたが、f(・)を、・の小数点以下を切り上げして整数を出力する関数、又は、・の小数点以下を四捨五入して整数を出力する関数としてもよい。
[Modifications, etc.]
In the above example, f (•) is a function that outputs an integer by rounding down the decimal point of •, but f (•) is a function that outputs an integer by rounding down the decimal point of •, or It is good also as a function which rounds off the decimal point of and outputs an integer.

上記式(5)において、ajj=aのときに、K(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))としたが、ajj=aのときに、K(j)=Kminとしてもよい。また、ajj=aのときに、K=Kmaxとしたが、ajj=aのときに、K(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))としてもよい。 In the above formula (5), when a jj = a 1 , K A (j) = f ((K max −K min ) a jj / (a h −a 1 )) + ((K min a h − K max a l ) / (a h −a l ))), but when a jj = a l , K A (j) = K min may be used. Further, a jj = when a h, K A = is set to K max, when a jj = a h, K A (j) = f ((K max -K min) a jj / (a h -a l)) + ((K min a h -K max a l) / (a h -a l))) may be.

同様に、上記式(6)において、q=qのときに、K(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))としたが、q=qのときに、K(j)=Kminとしてもよい。また、q=qのときに、K=Kmaxとしたが、q=qのときに、K(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))としてもよい。 Similarly, in the above formula (6), when q j = q l , K B (j) = f ((K max −K min ) q j / (q h −q l )) + ((K min q h −K max q l ) / (q h −q l ))), but when q j = q l , K B (j) = K min may be used. Further, when q j = q h , K B = K max , but when q j = q h , K B (j) = f ((K max −K min ) q j / (q h -q l)) + ((K min q h -K max q l) / (q h -q l))) may be.

自己遷移確率フレーム数決定部91におけるKmin,Kmaxと、尤度計算率フレーム数決定部93におけるKmin,Kmaxとは同じでも、異なっていてもよい。
上述の構成をコンピュータによって実現する場合、音声認識装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムを図5に例示するコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
K min in self-transition probabilities frame number determining portion 91, and K max, K min at likelihood calculating rate frame number determination unit 93, also the same as the K max, may be different.
When the above configuration is realized by a computer, the processing contents of the functions of each unit of the speech recognition apparatus are described by a program. Then, by executing this program on the computer illustrated in FIG. 5, the functions of the above-described units are realized on the computer.

すなわち、CPU1がプログラムを逐次読み込んで実行することにより、音響分析部10、特徴量ベクトル記憶部20、探索部30、状態尤度計算部31、状態尤度参照部32、フェッチ部60、フレーム数決定部90、自己遷移確率フレーム数決定部91、尤度計算率計算部92、尤度計算率フレーム数決定部93及び統合フレーム数決定部94の機能がそれぞれ実現される。この場合、音声認識装置の各部として機能するCPU1は、メモリ2、ハードディスク等の補助記憶装置3から読み込み込んだデータに対して処理を行い、処理を行った後のデータを、メモリ2、補助記憶装置3に格納する。   That is, when the CPU 1 sequentially reads and executes the program, the acoustic analysis unit 10, the feature vector storage unit 20, the search unit 30, the state likelihood calculation unit 31, the state likelihood reference unit 32, the fetch unit 60, the number of frames The functions of the determination unit 90, the self-transition probability frame number determination unit 91, the likelihood calculation rate calculation unit 92, the likelihood calculation rate frame number determination unit 93, and the integrated frame number determination unit 94 are realized. In this case, the CPU 1 functioning as each unit of the speech recognition apparatus performs processing on the data read from the memory 2 and the auxiliary storage device 3 such as a hard disk, and the data after the processing is stored in the memory 2 and the auxiliary storage. Store in device 3.

図5に示した例だと、補助記憶装置3が、音響モデル記憶部40、文法記憶部50及び状態尤度記憶部80に対応する。また、キャッシュ1aが、状態パラメータ記憶部70に対応する。   In the example illustrated in FIG. 5, the auxiliary storage device 3 corresponds to the acoustic model storage unit 40, the grammar storage unit 50, and the state likelihood storage unit 80. The cache 1 a corresponds to the state parameter storage unit 70.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical discs, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD
-R (Recordable) / RW (ReWritable), etc., MO (Magneto-Optical disc), etc. as a magneto-optical recording medium, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. as a semiconductor memory it can.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。   As an execution form different from the above-described embodiment, the computer may read the program directly from the portable recording medium and execute processing according to the program. Each time is transferred, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to a computer but has a property that is based on computer processing).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。例えば、図2において、ステップS2の処理とステップS31,32の処理とを並列に行ってもよい。また、図4において、ステップS2の処理とステップS31,32’の処理とを並列に行ってもよい。さらに、図4において、ステップS31,32’の処理とステップS6の処理とを並列に行ってもよい。   In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. For example, in FIG. 2, the process of step S2 and the processes of steps S31 and 32 may be performed in parallel. In FIG. 4, the process of step S2 and the processes of steps S31 and 32 'may be performed in parallel. Further, in FIG. 4, the processes in steps S31 and 32 'and the process in step S6 may be performed in parallel.

その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。   Needless to say, other modifications are possible without departing from the spirit of the present invention.

この発明の音声認識装置の例の機能ブロック図。The functional block diagram of the example of the speech recognition apparatus of this invention. この発明の第一実施形態の音声認識装置の処理の流れを例示するフローチャート。The flowchart which illustrates the flow of a process of the speech recognition apparatus of 1st embodiment of this invention. フレーム数Kの決定の仕方の例を説明するための図。The figure for demonstrating the example of the method of determining the number K of frames. この発明の第二実施形態の音声認識装置の処理の流れを例示するフローチャート。The flowchart which illustrates the flow of a process of the speech recognition apparatus of 2nd embodiment of this invention. この発明の音声認識装置をコンピュータで実現させる場合の機能ブロック図の例。The example of a functional block diagram in the case of implement | achieving the speech recognition apparatus of this invention with a computer. この発明の状態尤度テーブルの例。The example of the state likelihood table of this invention. 従来技術の音声認識装置の例の機能ブロック図。The functional block diagram of the example of the speech recognition apparatus of a prior art. 状態Sの例を説明するための図。The figure for demonstrating the example of the state S. 音素HMMの例を説明するための図。The figure for demonstrating the example of phoneme HMM. 従来技術の状態尤度テーブルの例。The example of a state likelihood table of a prior art.

符号の説明Explanation of symbols

10 音響分析部
20 特徴量ベクトル記憶部
30 探索部
31 状態尤度計算部
32 状態尤度参照部
40 音響モデル記憶部
50 文法記憶部
60 フェッチ部
70 状態パラメータ記憶部
80 状態尤度記憶部
90 フレーム数決定部
91 自己遷移確率フレーム数決定部
92 尤度計算率計算部
93 尤度計算率フレーム数決定部
94 統合フレーム数決定部
10 acoustic analysis unit 20 feature vector storage unit 30 search unit 31 state likelihood calculation unit 32 state likelihood reference unit 40 acoustic model storage unit 50 grammar storage unit 60 fetch unit 70 state parameter storage unit 80 state likelihood storage unit 90 frame Number determination unit 91 Self transition probability frame number determination unit 92 Likelihood calculation rate calculation unit 93 Likelihood calculation rate frame number determination unit 94 Integrated frame number determination unit

Claims (10)

状態パラメータ、自己遷移確率を含む音響モデルを記憶する音響モデル記憶部と、
上記音響モデル記憶部よりも高速な状態パラメータ記憶部と、
入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を求める音響分析部と、
上記求まった特徴量ベクトルの時系列を記憶する特徴量ベクトル記憶部と、
j,tをそれぞれ任意の整数、ある状態jがフレームtの特徴量ベクトルXを出力する確率を状態尤度b(X)として、状態尤度b(X)が計算される前に、状態jの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチ部と、
処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合(以下、尤度計算率qとする。)を状態ごとに求める尤度計算率計算部と、
上記求まった尤度計算率qが高い状態ほど、大きい整数K(j)をフレーム数Kとして決定する尤度計算率フレーム数決定部と、
上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXとを用いて状態尤度b(X)を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態尤度b(Xt+1),…,b(Xt+K)を更に計算する状態尤度計算部と、
上記更に計算された状態尤度b(Xt+1),…,b(Xt+K)を格納する状態尤度記憶部と、
状態尤度b(Xt+1),…,b(Xt+K)の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照部と、
を有する音声認識装置。
An acoustic model storage unit for storing an acoustic model including a state parameter and a self-transition probability;
A state parameter storage unit faster than the acoustic model storage unit;
An acoustic analysis unit that obtains a feature vector for each frame of a certain time length from input speech and obtains a time series of the feature vector;
A feature vector storage unit for storing a time series of the obtained feature vectors;
State likelihood b j (X t ) is calculated by using j and t as arbitrary integers, and the state likelihood b j (X t ) as the probability that a certain state j outputs the feature vector X t of frame t. Before, a fetch unit that reads the state parameter of state j from the acoustic model storage unit into the state parameter storage unit,
In speech recognition processing performed on speech having acoustic properties close to the target speech to be processed, the ratio of frames in which state likelihood calculations have been performed in all frames (hereinafter, likelihood calculation rate q j And a likelihood calculation rate calculation unit for obtaining for each state;
A likelihood calculation rate frame number determination unit that determines a larger integer K B (j) as the frame number K in a state where the obtained likelihood calculation rate q j is higher;
The state likelihood b j (X t ) is calculated using the state parameter of the state j read from the state parameter storage unit and the feature amount vector X t read from the feature amount vector storage unit, and the state parameter State likelihood b j (X t + 1 ),..., B j using the state parameter of state j read from the storage unit and the feature amount vectors X t + 1 ,..., X t + K read from the feature vector storage unit. A state likelihood calculator for further calculating (X t + K );
A state likelihood storage unit for storing the further calculated state likelihood b j (X t + 1 ),..., B j (X t + K );
When any of the state likelihoods b j (X t + 1 ),..., B j (X t + K ) becomes necessary, the state likelihood reference is obtained by referring to the state likelihood storage unit. And
A speech recognition apparatus.
請求項1に記載の音声認識装置において、
を予め定められた0以上1以下の数、qを予め定められたq以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数として、
上記尤度計算率フレーム数決定部は、
尤度計算率qがqより下であればK(j)=Kminとし、
尤度計算率qがqより上qより下であればK(j)=f((Kmax−Kmin)qjj/(q−q))+((Kmin−Kmax)/(q−q)))とし、
尤度計算率qがqより上であればK=Kmaxとし、
尤度計算率q=qであればK(j)=Kmin又はK(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))とし、
自己遷移確率q=qであればK(j)=Kmax又はK(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))
とする部である、
ことを特徴とする音声認識装置。
The speech recognition apparatus according to claim 1,
q l is a predetermined number between 0 and 1; q h is a predetermined number between q l and 1; K min is a predetermined integer greater than 0; and K max is a predetermined number greater than K min +1. As a fixed integer,
The likelihood calculation rate frame number determination unit,
If the likelihood calculation rate q j is lower than q l, set K B (j) = K min ,
If the likelihood calculation rate q j is higher than q l and lower than q h, K B (j) = f ((K max −K min ) q jj / (q h −q l )) + ((K min a h− K max q l ) / (q h −q l )))
If the likelihood calculation rate q j is above q h, set K B = K max ,
If the likelihood calculation rate q j = q 1 , then K B (j) = K min or K B (j) = f ((K max −K min ) q j / (q h −q l )) + (( K min q h -K max q l ) / (q h -q l))) and then,
If self-transition probability q j = q h , then K B (j) = K max or K B (j) = f ((K max −K min ) q j / (q h −q l )) + ((K min q h -K max q l) / (q h -q l)))
Is the part,
A speech recognition apparatus characterized by that.
請求項1又は2に記載の音声認識装置において、
上記音響モデル記憶部から読み込んだ上記状態jの自己遷移確率ajjが高いほど、大きい整数K(j)を決定する自己遷移確率フレーム数決定部と、
f(・)を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数、重み係数λを0以上1以下の予め定められた数として、K=f((1−λ)K(j)−λK(j))とする統合フレーム数決定部と、
を更に備える音声認識装置。
The speech recognition apparatus according to claim 1 or 2,
A self-transition probability frame number determination unit that determines a larger integer K A (j) as the self-transition probability a jj of the state j read from the acoustic model storage unit is higher;
A function that outputs an integer by rounding down, rounding up, or rounding off f (·) is rounded off, and weighting factor λ is a predetermined number between 0 and 1, and K = f ((1− (λ) K A (j) −λK B (j))
A speech recognition apparatus further comprising:
請求項3に記載の音声認識装置において、
を予め定められた0以上1以下の数、aを予め定められたa以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数、f(・)を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定部は、
自己遷移確率ajjがaより下であれば、K(j)=Kminとし、
自己遷移確率ajjがaより上aより下であれば、K(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))とし、
自己遷移確率ajjがaより上であれば、K=Kmaxとし、
自己遷移確率ajj=aであれば、K(j)=Kmin又はK(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))とし、
自己遷移確率ajj=aであれば、K(j)=Kmax又はK(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))
とする部である、
ことを特徴とする音声認識装置。
The speech recognition apparatus according to claim 3,
a l predetermined 0 to 1. number and a h predetermined a l 1 inclusive number, 0 or an integer which is predetermined the K min, K max and K min +1 more pre As a function to output an integer by rounding off, rounding up, or rounding off the specified integer, f (•)
The self-transition probability frame number determination unit
If the self-transition probability a jj is below a 1 , set K A (j) = K min ,
If the self-transition probability a jj is higher than a 1 and lower than a h , K A (j) = f ((K max −K min ) a jj / (a h −a 1 )) + ((K min a h− K max a l ) / (a h −a l )))
If the self-transition probability a jj is above a h , then K A = K max
If self-transition probability a jj = a l, K A (j) = K min or K A (j) = f ( (K max -K min) a jj / (a h -a l)) + (( K min a h -K max a l ) / (a h -a l))) and then,
If self-transition probability a jj = a h , then K A (j) = K max or K A (j) = f ((K max −K min ) a jj / (a h −a l )) + (( K min a h -K max a l ) / (a h -a l)))
Is the part,
A speech recognition apparatus characterized by that.
音響モデル記憶部を、状態パラメータ、自己遷移確率を含む音響モデルを記憶する記憶部とし、
状態パラメータ記憶部を、上記音響モデル記憶部よりも高速な記憶部とし、
音響分析部が、入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を特徴量ベクトル記憶部に格納する音響分析ステップと、
フェッチ部が、j,tをそれぞれ任意の整数、ある状態jがフレームtの特徴量ベクトルXを出力する確率を状態尤度b(X)として、状態尤度b(X)が計算される前に、状態jの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチステップと、
尤度計算率計算部が、処理の対象となる目的音声と近い音響的な性質を有する音声に対して行った音声認識処理において、全フレームにおける状態尤度の計算が行われたフレームの割合(以下、尤度計算率qとする。)を状態ごとに求める尤度計算率計算ステップと、
尤度計算率フレーム数決定部が、上記求まった尤度計算率qが高い状態ほど、大きい整数K(j)をフレーム数Kとして決定する尤度計算率フレーム数決定ステップと、
状態尤度計算部が、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXとを用いて状態尤度b(X)を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態尤度b(Xt+1),…,b(Xt+K)を更に計算して、それらの更に計算された状態尤度b(Xt+1),…,b(Xt+K)を状態尤度記憶部に格納する状態尤度計算ステップと、
状態尤度参照部が、状態尤度b(Xt+1),…,b(Xt+K)の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照ステップと、
を有する音声認識方法。
The acoustic model storage unit is a storage unit that stores an acoustic model including state parameters and self-transition probabilities,
The state parameter storage unit is a storage unit faster than the acoustic model storage unit,
An acoustic analysis step in which an acoustic analysis unit obtains a feature vector for each frame of a fixed time length from the input speech, and stores a time series of the feature vector in the feature vector storage unit;
The state likelihood b j (X t ) is a state likelihood b j (X t ), where the fetch unit uses j and t as arbitrary integers, and a certain state j outputs the feature quantity vector X t of the frame t. Fetching the state parameter of state j from the acoustic model storage unit into the state parameter storage unit before calculating
In the speech recognition processing performed by the likelihood calculation rate calculation unit on the speech having an acoustic property close to the target speech to be processed, the ratio of frames in which the state likelihood is calculated in all frames ( Hereinafter, the likelihood calculation rate q j ) is calculated for each state.
A likelihood calculation rate frame number determination unit in which the likelihood calculation rate frame number determination unit determines a larger integer K B (j) as the frame number K as the obtained likelihood calculation rate q j is higher.
The state likelihood calculation unit calculates the state likelihood b j (X t ) using the state parameter of the state j read from the state parameter storage unit and the feature quantity vector X t read from the feature quantity vector storage unit. The state likelihood b j (X) is calculated using the state parameter of the state j read from the state parameter storage unit and the feature amount vectors X t + 1 ,..., X t + K read from the feature amount vector storage unit. t + 1 ),..., b j (X t + K ) are further calculated, and the further calculated state likelihoods b j (X t + 1 ),..., b j (X t + K ) are stored in the state likelihood storage unit. A state likelihood calculation step;
When the state likelihood reference unit needs any of the state likelihoods b j (X t + 1 ),..., B j (X t + K ), the state likelihood storage unit refers to the state likelihood storage unit and determines the state likelihood. A state likelihood reference step for obtaining a degree;
A speech recognition method comprising:
請求項5に記載の音声認識方法において、
を予め定められた0以上1以下の数、qを予め定められたq以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数として、
上記尤度計算率フレーム数決定ステップは、
尤度計算率qがqより下であればK(j)=Kminとし、
尤度計算率qがqより上qより下であればK(j)=f((Kmax−Kmin)qjj/(q−q))+((Kmin−Kmax)/(q−q)))とし、
尤度計算率qがqより上であればK=Kmaxとし、
尤度計算率q=qであればK(j)=Kmin又はK(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))とし、
自己遷移確率q=qであればK(j)=Kmax又はK(j)=f((Kmax−Kmin)q/(q−q))+((Kmin−Kmax)/(q−q)))
とするステップである、
ことを特徴とする音声認識方法。
The speech recognition method according to claim 5,
q l is a predetermined number between 0 and 1; q h is a predetermined number between q l and 1; K min is a predetermined integer greater than 0; and K max is a predetermined number greater than K min +1. As a fixed integer,
The likelihood calculation rate frame number determining step includes:
If the likelihood calculation rate q j is lower than q l, set K B (j) = K min ,
If the likelihood calculation rate q j is higher than q l and lower than q h, K B (j) = f ((K max −K min ) q jj / (q h −q l )) + ((K min a h− K max q l ) / (q h −q l )))
If the likelihood calculation rate q j is above q h, set K B = K max ,
If the likelihood calculation rate q j = q 1 , then K B (j) = K min or K B (j) = f ((K max −K min ) q j / (q h −q l )) + (( K min q h -K max q l ) / (q h -q l))) and then,
If self-transition probability q j = q h , then K B (j) = K max or K B (j) = f ((K max −K min ) q j / (q h −q l )) + ((K min q h -K max q l) / (q h -q l)))
Is the step
A speech recognition method characterized by the above.
請求項5又は6に記載の音声認識方法において、
自己遷移確率フレーム数決定部が、上記音響モデル記憶部から読み込んだ上記状態jの自己遷移確率ajjが高いほど、大きい整数K(j)を決定する自己遷移確率フレーム数決定ステップ、
を更に有することを特徴とする音声認識方法
The speech recognition method according to claim 5 or 6,
A self-transition probability frame number determination unit that determines a larger integer K A (j) as the self-transition probability a jj of the state j read from the acoustic model storage unit is higher;
A speech recognition method, further comprising:
請求項7に記載の音声認識方法において、
を予め定められた0以上1以下の数、aを予め定められたa以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数、f(・)を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定ステップは、
自己遷移確率ajjがaより下であれば、K(j)=Kminとし、
自己遷移確率ajjがaより上aより下であれば、K(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))とし、
自己遷移確率ajjがaより上であれば、K=Kmaxとし、
自己遷移確率ajj=aであれば、K(j)=Kmin又はK(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))とし、
自己遷移確率ajj=aであれば、K(j)=Kmax又はK(j)=f((Kmax−Kmin)ajj/(a−a))+((Kmin−Kmax)/(a−a)))
とするステップである、
ことを特徴とする音声認識方法。
The speech recognition method according to claim 7,
a l predetermined 0 to 1. number and a h predetermined a l 1 inclusive number, 0 or an integer which is predetermined the K min, K max and K min +1 more pre As a function to output an integer by rounding off, rounding up, or rounding off the specified integer, f (•)
The self-transition probability frame number determination step includes:
If the self-transition probability a jj is below a 1 , set K A (j) = K min ,
If the self-transition probability a jj is higher than a 1 and lower than a h , K A (j) = f ((K max −K min ) a jj / (a h −a 1 )) + ((K min a h− K max a l ) / (a h −a l )))
If the self-transition probability a jj is above a h , then K A = K max
If self-transition probability a jj = a l, K A (j) = K min or K A (j) = f ( (K max -K min) a jj / (a h -a l)) + (( K min a h -K max a l ) / (a h -a l))) and then,
If self-transition probability a jj = a h , then K A (j) = K max or K A (j) = f ((K max −K min ) a jj / (a h −a l )) + (( K min a h -K max a l ) / (a h -a l)))
Is the step
A speech recognition method characterized by the above.
請求項1から4の何れかに記載の音声認識装置の各部としてコンピュータを機能させるための音声認識プログラム。   A speech recognition program for causing a computer to function as each part of the speech recognition apparatus according to claim 1. 請求項9に記載の音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the voice recognition program according to claim 9 is recorded.
JP2008055978A 2008-03-06 2008-03-06 Voice recognition apparatus, method, program, and recording medium thereof Expired - Fee Related JP4801108B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008055978A JP4801108B2 (en) 2008-03-06 2008-03-06 Voice recognition apparatus, method, program, and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008055978A JP4801108B2 (en) 2008-03-06 2008-03-06 Voice recognition apparatus, method, program, and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2009210976A JP2009210976A (en) 2009-09-17
JP4801108B2 true JP4801108B2 (en) 2011-10-26

Family

ID=41184168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008055978A Expired - Fee Related JP4801108B2 (en) 2008-03-06 2008-03-06 Voice recognition apparatus, method, program, and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4801108B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436815B (en) * 2011-09-13 2012-12-19 东南大学 Voice identifying device applied to on-line test system of spoken English

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242295A (en) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp Voice recognition device and voice interactive device
US7529671B2 (en) * 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding

Also Published As

Publication number Publication date
JP2009210976A (en) 2009-09-17

Similar Documents

Publication Publication Date Title
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
JP2006510933A (en) Sensor-based speech recognition device selection, adaptation, and combination
JP5752060B2 (en) Information processing apparatus, large vocabulary continuous speech recognition method and program
JP2010152751A (en) Statistic model learning device, statistic model learning method and program
JP2005208648A (en) Method of speech recognition using multimodal variational inference with switching state space model
JP6552999B2 (en) Text correction device, text correction method, and program
JP2010139745A (en) Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program
JP4298672B2 (en) Method and apparatus for calculating output probability of state of mixed distribution HMM
JP4705557B2 (en) Acoustic model generation apparatus, method, program, and recording medium thereof
JP2009128490A (en) Learning data selecting device, learning data selecting method, program and recording medium, and acoustic model generating device, acoustic model generating method, program, and recording medium
JP4881357B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP5288378B2 (en) Acoustic model speaker adaptation apparatus and computer program therefor
JP2007078943A (en) Acoustic score calculating program
JP4801108B2 (en) Voice recognition apparatus, method, program, and recording medium thereof
JP4801107B2 (en) Voice recognition apparatus, method, program, and recording medium thereof
JP2007249051A (en) Language model generating device, language model generating method, program thereof, and recording medium thereof
JP4729078B2 (en) Voice recognition apparatus and method, program, and recording medium
JP5427140B2 (en) Speech recognition method, speech recognition apparatus, and speech recognition program
JP4537970B2 (en) Language model creation device, language model creation method, program thereof, and recording medium thereof
US11915688B2 (en) Prediction device, prediction method, and program
JP2005156593A (en) Method for creating acoustic model, device for creating the acoustic model, program for creating acoustic model, and voice-recognition device
JP5369079B2 (en) Acoustic model creation method and apparatus and program thereof
JP5166195B2 (en) Acoustic analysis parameter generation method and apparatus, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees