JP2010145784A - Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program - Google Patents
Voice recognizing device, acoustic model learning apparatus, voice recognizing method, and program Download PDFInfo
- Publication number
- JP2010145784A JP2010145784A JP2008323495A JP2008323495A JP2010145784A JP 2010145784 A JP2010145784 A JP 2010145784A JP 2008323495 A JP2008323495 A JP 2008323495A JP 2008323495 A JP2008323495 A JP 2008323495A JP 2010145784 A JP2010145784 A JP 2010145784A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- recognition
- acoustic model
- group
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声認識装置、音響モデル学習装置、音声認識方法、および、プログラムに関し、特に、隠れマルコフモデルを用いた音声認識を高精度に行うことができる音声認識装置、音響モデル学習装置、音声認識方法、および、プログラムに関する。 The present invention relates to a speech recognition device, an acoustic model learning device, a speech recognition method, and a program, and in particular, a speech recognition device, an acoustic model learning device, and a speech that can perform speech recognition using a hidden Markov model with high accuracy. The present invention relates to a recognition method and a program.
機械的な音声認識は、一つの音、例えば、「あ」だけを認識するのであれば、以下の手法で行うこともできる。
まず、音声信号波形に対して所定長のフレーム(時間窓)を設定し、各フレームから数値的な特徴量を抽出する。
そして、各フレームで抽出された特徴量と、標準パターンである音響モデルとを比較する。
その比較の結果、その特徴量と一致する音響モデルの音を認識結果とする。
Mechanical speech recognition can also be performed by the following method if only one sound, for example, “A” is recognized.
First, a frame (time window) having a predetermined length is set for the audio signal waveform, and a numerical feature amount is extracted from each frame.
And the feature-value extracted in each flame | frame is compared with the acoustic model which is a standard pattern.
As a result of the comparison, the sound of the acoustic model that matches the feature amount is set as the recognition result.
例えば、日本語の母音には、「あ」、「い」、「う」、「え」、「お」の5音があり、マイクロフォンで捉えて電気信号に変換された波形から抽出された特徴量が「あ」の音響モデルと一致すれば、「あ」を認識結果とする。 For example, there are five Japanese vowels, “A”, “I”, “U”, “E”, and “O”, which are extracted from a waveform that is captured by a microphone and converted into an electrical signal. If the amount matches the acoustic model “A”, “A” is taken as the recognition result.
ここで、音響モデルとは、「あ」は、この特徴量、「い」は、この特徴量、という具合に予め用意されている特徴量である。また、このような用意をしておくことは音響モデルの学習に相当する。 Here, the acoustic model is a feature amount prepared in advance such that “A” is the feature amount, and “I” is the feature amount. Such preparation is equivalent to learning of an acoustic model.
しかしながら、このような音響モデルは、個人用の認識装置であれば、その個人が装置に学習させておけばよいが、音声認識は、例えば、公共の機関での電話応対とか、不特定人が使用するディクテーション装置のように、未知の人物の声を認識することが必要な場合もある。 However, if such an acoustic model is a personal recognition device, it is sufficient that the individual learns the device. However, for example, voice recognition can be performed by a telephone in a public institution or by an unspecified person. It may be necessary to recognize the voice of an unknown person, such as the dictation device used.
そのため、なるべく多数の人の声から学習した音響モデルを用意する。その場合、「あ」は、この数値範囲、「い」は、この数値範囲、という具合に、音響モデルは数値範囲で用意され、音声認識は、マイクロフォンを通じて得られた特徴量が、この数値範囲に入れば、「あ」、この数値範囲に入れば、「い」という具合に決められる。 Therefore, an acoustic model learned from the voices of as many people as possible is prepared. In that case, “A” is this numerical range, “I” is this numerical range, and so on, and the acoustic model is prepared in the numerical range. For voice recognition, the feature value obtained through the microphone is the numerical range. If it enters, it will be decided as "A", if it enters this numerical range, it will be decided as "I".
ところが、人の話す音声を認識する場合では、音素の連続を認識することとなり、同じ「あ」という音素でも、その前後の音素とのつながりによって上述した特徴量は異なった数値を取る。このため、音声認識において、上述した手法は使うことができない。 However, when recognizing a voice spoken by a person, the continuation of phonemes is recognized, and the above-described feature amount takes different numerical values depending on the connection with the phonemes before and after the same phoneme “A”. For this reason, the above-described method cannot be used in speech recognition.
一般に、音声認識では、音素の連続を、ある定常状態から他の定常状態への遷移として捉え、この遷移がいわゆるマルコフ過程であるとし、音響モデルとして「隠れマルコフモデル」(Hidden Malkov Model:以下「HMM」とする)を用いる統計的な手法により音声信号からその信号が出力される元となった言葉を確率的に推定する。 In general, in speech recognition, a phoneme sequence is regarded as a transition from one steady state to another steady state, and this transition is a so-called Markov process. As an acoustic model, a “Hidden Malkov Model” (hereinafter “Hidden Malkov Model”) The word from which the signal is output is stochastically estimated from the speech signal by a statistical method using “HMM”.
この手法では、いずれのHMMに対応する特徴量が最も高い確率で出力されるかを示す尤度が計算され、その確率を最大とするHMMに対応する単語を音声認識結果として出力する。このような音声認識の手法は、例えば、特許文献1などに開示されている。
In this method, a likelihood indicating which feature quantity corresponding to which HMM is output with the highest probability is calculated, and a word corresponding to the HMM having the maximum probability is output as a speech recognition result. Such a speech recognition method is disclosed in, for example,
この尤度計算は、例えば、以下のガウス分布の数式(1)を演算することで求められる。 This likelihood calculation is calculated | required by calculating the following numerical formula (1) of Gaussian distribution, for example.
Pm(Y;μm,Σm)
={1/√((2π)n|Σj|)}exp(−1/2(yt−μt)TΣ−1(yt−μt))
J:状態数 t:time
(1)
P m (Y; μ m , Σ m )
= {1 / √ ((2π ) n | Σ j |)} exp (-1/2 (y t -μ t) T Σ -1 (y t -μ t))
J: Number of states t: time
(1)
そして、算出された各HMM毎の尤度を、前フレームで計算された累積尤度値の最大値に対して累積するというビタビアルゴリズムにより、累積尤度値を更新する。 Then, the cumulative likelihood value is updated by a Viterbi algorithm in which the calculated likelihood for each HMM is accumulated with respect to the maximum value of the cumulative likelihood value calculated in the previous frame.
上記のような演算を行う音声認識において、HMMは大量の発声データからの学習により作成される。特に、不特定話者を対象とする音声認識では、発声データは年齢層や性別などについて幅広く収集される。この結果、あらゆる人の音声が認識できる。 In speech recognition that performs the above-described calculation, the HMM is created by learning from a large amount of utterance data. In particular, in speech recognition for unspecified speakers, utterance data is collected widely for age groups, genders, and the like. As a result, the speech of any person can be recognized.
ところが、あらゆる人の音声が認識できる反面、各音素についてHMMの数値の取り得る範囲(実際は、多数次元のベクトルの範囲)が広がり、その結果、認識の精度が下がる可能性があった。 However, while the speech of any person can be recognized, the range that can be taken by the HMM values for each phoneme (actually, the range of a multidimensional vector) is expanded, and as a result, the recognition accuracy may be reduced.
本発明は上記実状に鑑みてなされたもので、隠れマルコフモデル(HMM)を用いる音声認識を高精度に行うことを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to perform speech recognition using a hidden Markov model (HMM) with high accuracy.
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、複数の母音認識用の音響モデルと、を記憶した記憶部と、
入力された音声について複数の所定長フレーム毎に抽出した特徴量と、前記記憶部に記憶された各音響モデルとに基づいて、前記入力された音声についての各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の認識を行う音声認識手段と、
を備えたことを特徴とする。
In order to achieve the above object, a speech recognition apparatus according to the first aspect of the present invention provides:
A storage unit that stores an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Probability of calculating the state transition probability of each phoneme for the input speech based on the feature quantity extracted for each of the plurality of predetermined long frames for the input speech and each acoustic model stored in the storage unit A calculation means;
A likelihood calculating means for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating means for sequentially calculating a cumulative value of likelihood calculated in a frame before the frame;
Speech recognition means for recognizing the input speech based on the cumulative likelihood calculated by the cumulative likelihood calculation means;
It is provided with.
このように、音響モデルを分けたのは、次の理由による。まず、子音認識用と、母音認識用とに分けたのは、子音が話者による個人差が少ない反面、母音は声帯の影響による個人差が大きいからである。また、母音認識用の音響モデルを複数に分けたのは、母音の個人差に対応するためである。 The reason why the acoustic models are divided in this way is as follows. First, the consonant recognition and the vowel recognition are divided because the consonant has a small individual difference among speakers, whereas the vowel has a large individual difference due to the influence of the vocal cords. The reason why the acoustic model for vowel recognition is divided into a plurality is to deal with individual differences in vowels.
上記音声認識装置において、
各フレームの音声が母音であるか子音であるかを判別するフレーム識別手段と、
入力される音声が母音である場合に、前記母音認識用の音響モデルを学習したグループを決定するグループ決定手段と、
を備えることが望ましい。
In the above speech recognition apparatus,
Frame identification means for determining whether the voice of each frame is a vowel or a consonant;
Group determination means for determining a group that has learned the acoustic model for vowel recognition when the input speech is a vowel;
It is desirable to provide.
これは、所定数以上の母音が認識された後は、グループを決定して効率的な認識処理をすることが望ましいためである。 This is because after a predetermined number of vowels have been recognized, it is desirable to determine a group and perform efficient recognition processing.
上記目的を達成するため、本発明の第2の観点に係る音響モデル学習装置は、
全音声データから学習する、子音認識用の音響モデルと、各グループ別の音声データから学習する、各グループ毎の母音認識用の音響モデルと、を記憶する記憶部と、
母音認識用の音響モデルのグループ数を指定するグループ数指定手段と、
前記母音認識用の音響モデルのグループ間の距離を算出する距離算出手段と、
最短距離の2つのグループを1つのグループとするグループ化手段と、
全グループ数が指定された数以下になったかを判定するグループ数判定手段と、
を備えたことを特徴とする。
In order to achieve the above object, an acoustic model learning device according to the second aspect of the present invention provides:
A storage unit that stores an acoustic model for consonant recognition that learns from all speech data, and an acoustic model for vowel recognition for each group that learns from speech data for each group,
A group number specifying means for specifying the number of groups of an acoustic model for vowel recognition;
Distance calculating means for calculating a distance between groups of the acoustic model for vowel recognition;
Grouping means for making two groups of the shortest distance into one group;
A group number determination means for determining whether the total number of groups is equal to or less than a specified number;
It is provided with.
上記目的を達成するため、本発明の第3の観点に係る音声認識方法は、
所定の装置による音響モデルを用いた音声認識を高精度化する音声認識方法であって、
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、前記対象音声についての各音素の状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出ステップと、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
を備えたことを特徴とする。
In order to achieve the above object, a speech recognition method according to a third aspect of the present invention includes:
A speech recognition method for improving accuracy of speech recognition using an acoustic model by a predetermined device,
A model acquisition step of acquiring an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
A feature amount extraction step for setting a plurality of predetermined length frames at a predetermined cycle for the target speech and extracting a feature amount for each frame;
A probability calculating step of calculating a state transition probability of each phoneme for the target speech based on the feature amount extracted in each frame;
A likelihood calculating step for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating step for sequentially calculating the cumulative likelihood based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame;
A speech recognition step for performing speech recognition based on the calculated cumulative likelihood;
It is provided with.
上記目的を達成するため、本発明の第4の観点に係るプログラムは、
コンピュータを
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を記憶し、
対象音声を取り込み、該取り込んだ音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、状態遷移確率を算出し、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出し、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う、
ことを特徴とする音声認識装置として機能させる。
In order to achieve the above object, a program according to the fourth aspect of the present invention provides:
Storing an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Capture the target voice, set a plurality of predetermined length frames for the captured voice in a predetermined cycle, extract the feature amount for each frame,
Based on the feature amount extracted in each frame, the state transition probability is calculated,
Accumulate the calculated state transition probabilities, calculate the likelihood for each acoustic model,
Based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame, the cumulative likelihood is sequentially calculated,
Performing speech recognition based on the calculated cumulative likelihood,
It is made to function as a voice recognition device characterized by this.
本発明によれば、隠れマルコフモデル(HMM)を用いた音声認識を高精度に行うことができる。 According to the present invention, speech recognition using a hidden Markov model (HMM) can be performed with high accuracy.
本発明に係る実施の形態を、以下図面を参照して説明する。 Embodiments according to the present invention will be described below with reference to the drawings.
(実施形態1)
(音声認識装置)
図1は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。図示するように、音声認識装置100は、制御部110と、入力制御部1 20と、出力制御部130と、プログラム格納部140と、記憶部150と、から構成される。
(Embodiment 1)
(Voice recognition device)
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention. As shown in the figure, the
制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)やワークエリアとなる所定の記憶装置(RAM(Random Access Memory)など)から構成され、音声認識装置100の各部を制御するとともに、プログラム格納部140に格納されている所定の動作プログラムに基づいて後述する各処理を実行する。
The
入力制御部120は、例えば、PCM(Pulse Code Modulation)などのサンプリングを行うADC(Analog Digital Converter:アナログ−デジタル変換器)などから構成され、マイクロフォンなどの所定の入力装置12から入力されたアナログ音声信号をデジタル信号に変換する。
The
出力制御部130は、例えば、スピーカやディスプレイ装置などの所定の出力装置13を接続し、制御部110による音声認識結果などを出力装置13から出力する。
The
プログラム格納部140は、例えば、ROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置などの所定の記憶装置から構成され、制御部110が実行する種々の動作プログラムが格納されている。プログラム格納部140には、以下のような動作プログラムが格納されている。後述する音声認識装置100の各処理は、制御部110がこれらの動作プログラムを実行することで実現される。
The
(1)「特徴量抽出プログラム」:入力制御部120で変換された音声信号の特徴量(特徴パラメータ)を抽出するプログラム
(2)「尤度算出プログラム」: 各フレーム毎の尤度を算出するとともに、累積尤度を算出するプログラム
(3)「音声認識プログラム」: 算出された累積尤度と音響モデルとに基づいて音声認識するプログラム
(1) “feature amount extraction program”: a program for extracting feature amounts (feature parameters) of the audio signal converted by the input control unit 120 (2) “likelihood calculation program”: calculating the likelihood for each frame And a program (3) “voice recognition program” for calculating cumulative likelihood: a program for voice recognition based on the calculated cumulative likelihood and an acoustic model
制御部110は、プログラム格納部140に格納されている上記各プログラムを実行することにより、図2に示すように、特徴量抽出手段111、尤度算出手段112、累積尤度算出手段113、ノード作成手段114、音声認識手段115、として機能する。図2は、制御部110の機能を模式的に示す機能ブロック図である。
As shown in FIG. 2, the
特徴量抽出手段111は、入力制御部120で変換された音声信号に対し、複数の所定長のフレームを所定周期で設定し、各フレーム毎のパワー成分(特徴量)を抽出する。
The feature
尤度算出手段112は、各フレーム毎に抽出された特徴量と、後述する音響モデル格納部153に格納されている隠れマルコフモデル(HMM)とを比較することで、各フレーム毎の連続音素認識を行い、各HMM毎の状態遷移確率(尤度)を算出する。ここでは、各音素毎に所定の状態数が予め定められており、各音素のある状態からどの状態に遷移するかの確率を、取得された特徴量とHMMとを比較することで求める。例えば、「はちのへ」という単語の音素は「h・a・c h・i・n・o・h・e」となるが、状態数を「3 」とした場合、各音素を「h1,h2,h3」「a1,a2,a3」「ch1,ch2,ch3」…、と表すことができる。本実施の形態では、各音素毎の状態数が「3」であるものとして以下の各処理を行うものとする。
The
累積尤度算出手段113は、尤度算出手段112がこれまで算出した尤度に基づいて、各フレームにおける各状態毎に尤度の累積値を求める。
The cumulative
ノード作成手段114は、後述する文法格納部154に格納されている文法情報に基づき、後述する辞書格納部155から取得する候補単語と累積尤度とを対応付けて展開する。
Based on grammatical information stored in a
音声認識手段115は、ノード作成手段114が展開した累積尤度に基づいて、候補単語を音声認識結果として取得して出力する。
The
記憶部150は、例えば、RAM(Random Access Memory)やフラッシュメモリ、ハードディスク装置などの記憶装置などから構成され、音声認識装置100の音声認識処理に必要となる各種情報を記憶する。記憶部150は図3に示すように、音声格納部151、特徴格納部152、音響モデル格納部153、文法格納部154、辞書格納部155、および、累積尤度格納部156から構成される。
The
音声格納部151は、入力制御部120が変換したデジタル信号を随時バッファリングする。
The
特徴格納部152は、特徴量抽出手段111が抽出した各フレーム毎の特徴量を示す情報(以下、「特徴量データ」とする)を随時格納(展開)する。
The
音響モデル格納部153は、音声認識装置100が対応する言語について、認識対象となる音声を構成する全ての音素をモデル化した音響モデル(音素モデル)を予め蓄積する。本実施の形態では、音響モデルとして「隠れマルコフモデル」(HMM)を用いるものとする。また、本実施の形態における音響モデル格納部153では、HMMを子音と母音とに分け、全音声データから学習した、子音認識用のHMMと、母音認識用のHMMと、を記憶する。さらに、母音認識用のHMMは、各グループ別の音声データから学習した、複数のHMMから成る。
以下、このグループ分けについて説明する。
The acoustic
Hereinafter, this grouping will be described.
人が発する音声には、子音よりも母音の方に、個人差が多く含まれる。そこで、母音のみを対象に、HMMを人のグループに分ける。具体的には、メル周波数ケプストラム係数(MFCC)の距離を求め、この距離が近い者同士をグループとしてグループ分けを行い、各グループごとに音声認識できるようにする。 Voices uttered by people contain more individual differences in vowels than consonants. Therefore, HMMs are divided into groups of people for only vowels. Specifically, the distance of the mel frequency cepstrum coefficient (MFCC) is obtained, and persons having a short distance are grouped into groups so that voice recognition can be performed for each group.
ここで、MFCCの次元数をNとする。そして、認識対象言語にV個の母音があるとし、それらに0〜V−1の番号を振る。また、発声者の数をMとし、m番目の人が発声した母音vの音素片の数をKmvとする。
Here, the number of dimensions of the MFCC is N. Then, assuming that there are V vowels in the recognition target language,
そして、m番目の人が発声したk番目の母音vのMFCCをCm,k,v={cn,m,k,v|n=0,…,N−1}とし、その平均値Gm,v={gn,m,v|n=0,…,N−1}を次式のように定義する。
gn,m,v=(1/Km,v)Σk=0 Km,v−1cn,m,k,v
(2)
Then, the MFCC of the kth vowel v uttered by the mth person is C m, k, v = {cn , m, k, v | n = 0,..., N−1}, and the average value G m, v = {gn , m, v | n = 0,..., N−1} is defined as follows.
g n, m, v = (1 / K m, v ) Σk = 0 Km, v−1 c n, m, k, v
(2)
また、m1番目の人とm2番目の人とがそれぞれ発声した母音相互の距離D(m1,m2)を次式のように定義する。
D(m1,m2)=Σv=0 V-1Σn=0 N-1sn(gn,m1,v−gn,m2,v)2
(3)
ここで、snは、MFCCのn次元目の重み係数である。
Further, a distance D (m1, m2) between vowels uttered by the m1st person and the m2nd person is defined as follows.
D (m1, m2) = Σ v = 0 V-1 Σ n = 0 N-1 s n (g n, m1, v -g n, m2, v) 2
(3)
Here, s n is an n-dimensional weighting coefficient of MFCC.
さらに、これらの距離が近い者同士を集めてMA人のグループAと、MB人のグループBとができたとする。その場合、グループAと、グループBとの相互間の距離DG(A,B)を次式のように定義する。
DG(A,B)=MAX(D(mai,mbj)) (4)
In addition, the group A M A person collects these distances closer's together, and could and group B of human M B. In that case, the distance DG (A, B) between the group A and the group B is defined as follows.
DG (A, B) = MAX (D (ma i , mb j )) (4)
ここで、maiの範囲は、{mai|i=0,…,MA−1}であり、MAはグループAに属する人数である。また、mbjの範囲は、{mbj|j=0,…,MB−1}であり、MBはグループBに属する人数である。
以上の計算によって、母音のHMMを所定数のグループに分ける。
Here, the range of ma i is, {ma i | i = 0 , ..., M A -1} is, M A is a number of people belonging to the group A. The range of mb j is {mb j | j = 0,..., M B −1}, where M B is the number of people belonging to group B.
By the above calculation, the vowel HMMs are divided into a predetermined number of groups.
また、距離の代わりに、n次元ベクトルの角度の大きさDAを用いる方法もある。これは、次式により求められる。
DA(m1,m2)
=Σv=0 V-1[{Σn=0 N-1(gn,m1,v×gn,m2,v)}/{√(Σn=0 N-1gn,m1,v 2)√(Σn=0 N-1gn,m2,v 2)}
(5)
これも、広い意味で、m1番目の人とm2番目の人との間の距離(広義の距離)とみなせる。
ここで、音響モデル格納部153の説明を終わり、記憶部150の次の部分の説明に移る。
There is also a method of using the angle magnitude DA of the n-dimensional vector instead of the distance. This is obtained by the following equation.
DA (m1, m2)
= Σv = 0 V-1 [{Σn = 0 N-1 (g n, m1, v × g n, m2, v )} / {√ (Σ n = 0 N-1 g n, m1, v 2 ) √ (Σ n = 0 N-1 gn , m2, v 2 )}
(5)
In a broad sense, this can also be regarded as a distance (broadly defined distance) between the m1st person and the m2nd person.
Here, the description of the acoustic
文法格納部154は、音声認識装置100が対応する言語の文法規則を定義したファイルを格納する。
The
辞書格納部155は、音声認識装置100が対応する言語の単語毎の音素パターン系列情報を登録した単語辞書を格納する。
The
累積尤度格納部156は、累積尤度算出手段113が算出した累積尤度を示す累積尤度情報を格納する。すなわち、累積尤度算出手段113が累積尤度を算出すると、ノード作成手段114により、図4に示すような累積尤度マップが累積尤度格納部156に展開される。図4に示す例では、単語「けせんぬま」について、各フレームの状態番号毎に累積尤度値が展開されている。なお、本実施の形態では、算出された累積尤度の逆数が累積尤度格納部156に展開されるものとする。したがって、図4に示す累積尤度のうち、数値が小さいほど尤度が大きいことを示す。
The cumulative
上記のように構成された音声認識装置100の動作を以下図面を参照して説明する。以下に示す各動作は、制御部110がプログラム格納部140に格納されている各プログラムのいずれかまたはすべてを適時実行することで実現されるものである。
The operation of the
最初に、本発明の実施の形態に係る音声認識装置100による音声認識動作の概略(「音声認識処理」)を図5に示すフローチャートを参照して説明する。この「音声認識処理」は、音声認識装置100の入力装置12から音声が入力され、入力制御部120によりデジタル変換された音声信号が音声格納部151にバッファされたことを契機に開始されるものとする。
First, an outline of a speech recognition operation (“speech recognition processing”) by the
まず、特徴量抽出手段111は、音声格納部151にバッファされた音声信号に対し、所定長のフレームを所定周期毎に割り当てるとともに、各フレームにおける特徴量を抽出して、特徴量データを特徴格納部152に格納する(ステップS501)。なお、各フレームを示す「フレーム番号」は、「0」から割り当てられるものとする。
First, the feature
そして、尤度算出手段112は、フレーム番号を指定するフレームポインタ(f)に、初期値「0」を設定する(ステップS502)。 Then, the likelihood calculating means 112 sets an initial value “0” to the frame pointer (f) that designates the frame number (step S502).
次に、尤度算出手段112は、当該フレームの直前のフレームにおいて尤度演算を行ったか否かを判別する(ステップS503)。ステップS502で0番フレームが指定されているので、直前フレームでの尤度演算は行われていない。したがって、図6に示すステップS601に進む。
Next, the
そして、尤度算出手段112は、当該フレームにおける状態番号を示す状態番号ポインタ(s)に、初期値「0」を設定する(ステップS601)。
Then, the
また、尤度算出手段112は、当該状態数における尤度に初期値「0」を設定する(ステップS602)。 Further, the likelihood calculating means 112 sets an initial value “0” as the likelihood in the number of states (step S602).
次に、尤度算出手段112は、音響モデル格納部153に格納されているガウス分布を用いて、確率演算を行う(ステップS603)。この演算は、前記数式(1)を用いて行うが、実際は混合ガウス分布であり、数式(1)の正規分布の重み付け和を求める。そして、ステップS603で算出された確率で尤度を更新する(ステップS604)。なお、算出された確率および尤度を示す情報は、例えば、ワークエリアなどの所定の記憶領域に保持されるものとする。
Next, the
そして、尤度算出手段112は、当該フレームにおいてさらなる状態数があるか否かを判別する(ステップS605)。
Then, the
当該フレームにさらなる状態数がある場合には(ステップS605:No)、状態番号ポインタ(s)を1インクリメントし(ステップS606)、次の状態数に対応するガウス分布を用いて確率演算および尤度更新を行う(ステップS603、S604)。 If there is a further number of states in the frame (step S605: No), the state number pointer (s) is incremented by 1 (step S606), and probability calculation and likelihood are performed using a Gaussian distribution corresponding to the next number of states. Update is performed (steps S603 and S604).
すべての状態数における確率演算および尤度更新が終了すると(ステップS605:Yes)、累積尤度算出手段113は、当該フレームの各状態で算出された尤度を用いて、例えば、ビタビアルゴリズムにより各状態毎の累積尤度を算出して更新し(ステップS607)、ノード作成手段114が候補単語と累積尤度とを対応付けて展開する。
When the probability calculation and the likelihood update in all the number of states are completed (step S605: Yes), the cumulative
当該フレームについての累積尤度が更新されると、尤度算出手段112は、さらなるフレームがあるか否かを判別する(ステップS507)。さらなるフレームがある場合(ステップS507:No)、尤度算出手段112は、フレームポインタ(f)を1インクリメントし(ステップS508)、次のフレームについて、ステップS503以下で同様の処理を行う。
When the cumulative likelihood for the frame is updated, the
上述のように、先頭フレーム(0番)では尤度演算が行われたので、ステップS503では「直前フレームで確率演算あり」と判別される(ステップS503:Yes)。この場合、尤度算出手段112は、累積尤度格納部156に展開されている累積尤度を参照して、累積尤度値が最大となっている状態番号を特定する(ステップS504)。これは、各フレーム中で累積尤度が最大となっている部分のモデルと状態番号とを調べることで当該部分の音声が子音であるか母音であるかを判別するためである。
As described above, since the likelihood calculation is performed in the first frame (number 0), it is determined in step S503 that “there is a probability calculation in the immediately preceding frame” (step S503: Yes). In this case, the
図4の例では、例えば、第19フレームにおける最大累積尤度値は「4939」(上述のように、累積尤度値の逆数を取っているため、絶対値が最も小さいものが最大尤度を示す)であり、対応する状態数は「k3」である。「k3」は、「けせんぬま(k・e・s・e・N・n・u・m・a)」の「k」の第3状態部分であるから「子音」であることがわかる。 In the example of FIG. 4, for example, the maximum cumulative likelihood value in the 19th frame is “4939” (as described above, since the reciprocal of the cumulative likelihood value is taken, the one with the smallest absolute value has the maximum likelihood. The corresponding state number is “k3”. Since “k3” is the third state part of “k” in “Kenuma (k, e, s, e, N, n, u, m, a)”, it is understood that it is a “consonant”.
このようにして、尤度算出手段112は、当該フレームの音声が「子音」であるか母音であるかを判別する(ステップS505)。 In this way, the likelihood calculating means 112 determines whether the sound of the frame is a “consonant” or a vowel (step S505).
当該音声が「母音」でない場合(ステップS505:No)、上述した図6に示すステップS601に進む。
一方、当該音声が「母音」である場合(ステップS505:Yes)、ステップS506で母音比較処理を行う。以下、この処理を図7及び図8を参照して説明する。
If the voice is not a “vowel” (step S505: No), the process proceeds to step S601 shown in FIG.
On the other hand, when the voice is a “vowel” (step S505: Yes), a vowel comparison process is performed in step S506. Hereinafter, this process will be described with reference to FIGS.
図7において、尤度算出手段112は、まず、特徴量データと比較する対象であるグループが決定済みか否かを判別する(ステップS701)。この処理は、例えば、グループが決定済みの旨を表示するフラグを参照することで行い得る。
In FIG. 7, the
グループが決定済みであるときは(ステップS701:Yes)、すべての母音HMMのうち、決定済みのグループの母音HMMのみに着目する(ステップS702)。この処理は、例えば、ポインタgに決定済みのグループの番号を設定することにより行い得る(ステップS702)。 When the group has been determined (step S701: Yes), only the vowel HMMs of the determined group among all the vowel HMMs are focused (step S702). This process can be performed, for example, by setting the determined group number in the pointer g (step S702).
そして、該当するグループの状態番号ポインタsgに初期値「0」を設定し(ステップS711)、この後は、ステップS712〜S717で上述したステップS602〜S607と同様の処理をその該当するグループの母音HMMを比較対象として行う。 Then, an initial value “0” is set to the state number pointer sg of the corresponding group (step S711), and thereafter, the same processing as that of steps S602 to S607 described above in steps S712 to S717 is performed. HMM is used as a comparison target.
以上の処理を終了した後は、上述したステップS507に戻って既に説明したステップS507〜S509の処理を行う。 After the above process is completed, the process returns to step S507 described above and the processes of steps S507 to S509 already described are performed.
一方、ステップS701でグループが決定済みでないときは(ステップS701:No)、図8に示す処理を行う。 On the other hand, when the group has not been determined in step S701 (step S701: No), the processing shown in FIG. 8 is performed.
図8においては、まず、各グループの参照回数をそれぞれ計数する各グループごとのカウンタに初期値「0」を設定する(ステップS801)。そして、すべてのグループを比較の対象として処理すべく、ポインタgに最初のグループの番号「1」を設定する(ステップS802)。 In FIG. 8, first, an initial value “0” is set in a counter for each group that counts the number of times each group is referenced (step S801). Then, the first group number “1” is set in the pointer g to process all the groups as comparison targets (step S802).
そして、該当するグループの状態番号ポインタsgに初期値「0」を設定し(ステップS811)、この後は、ステップS812〜S817で、上述したステップS712〜S717、ステップS602〜S607と同様の処理をその最初のグループの母音HMMを比較対象として行う。 Then, an initial value “0” is set to the state number pointer sg of the corresponding group (step S811), and thereafter, in steps S812 to S817, the same processes as in steps S712 to S717 and steps S602 to S607 described above are performed. The vowel HMM of the first group is used as a comparison target.
最初のグループの処理が終了すると、尤度算出手段112は、さらなるグループがあるか否かを判別する(ステップS818)。さらなるグループがある場合(ステップS818:No)、尤度算出手段112は、グループポインタ(g)を1インクリメントし(ステップS819)、次のグループについて、ステップS811以下で同様の処理を行う。
When the processing of the first group is completed, the
一方、さらなるグループがない場合(ステップS818:Yes)、以上の処理を終了し、最も確率の高いHMMを輩出したグループのカウンタを1インクリメントする(ステップS820)。そして、現在がグループを決定する時期か否かを判定する(ステップS821)。この判定は、例えば、所定の回数以上、母音の比較処理が行われたか否かを判定することにより行い得る。 On the other hand, when there is no further group (step S818: Yes), the above process is complete | finished and the counter of the group which produced HMM with the highest probability is incremented by 1 (step S820). Then, it is determined whether or not it is time to determine a group (step S821). This determination can be made, for example, by determining whether or not a vowel comparison process has been performed a predetermined number of times or more.
この判定の結果、グループを決定する時期であるときは(ステップS821:Yes)、グループカウンタcnt(g)に最も大きい値が示されているグループの番号を、決定済みグループに設定する(ステップS822)。この設定により、次のフレームの処理では、上述したステップS702でグループポインタ(g)に上記決定済みグループの設定番号が移され、決定されたグループだけについて母音比較処理が行われる。 As a result of this determination, when it is time to determine a group (step S821: Yes), the group number for which the largest value is indicated in the group counter cnt (g) is set to the determined group (step S822). ). With this setting, in the processing of the next frame, the set number of the determined group is moved to the group pointer (g) in step S702 described above, and vowel comparison processing is performed only for the determined group.
以上の処理を終了した後は、上述したステップS507に戻って既に説明したステップS507、S508の処理を行う。ここで、さらなるフレームがある場合(ステップS507:No)、尤度算出手段112は、フレームポインタ(f)を1インクリメントし(ステップS508)、次のフレームについて、ステップS503以下で同様の処理を行う。
After the above process is completed, the process returns to the above-described step S507 and the processes of steps S507 and S508 already described are performed. Here, when there is a further frame (step S507: No), the
一方、当該フレームが最終フレームである場合(ステップS507:Yes)は、所定の出力処理(ステップS509)を行って、音声認識結果の出力を行う。ここでは、音声認識手段115が、累積尤度格納部156に展開されている候補単語と累積尤度を参照し、最終フレームの最終状態からノードを遡ってトレースして出力すべき認識結果(単語)を取得し、出力制御部130により音声あるいは文字情報として出力する。
On the other hand, when the frame is the final frame (step S507: Yes), a predetermined output process (step S509) is performed to output the voice recognition result. Here, the speech recognition means 115 refers to the candidate words and the cumulative likelihood expanded in the cumulative
以上のように、音声を子音と母音とに分けて認識し、母音についてはグループに分け、決定されたグループからHMMを決めるようにしたので、認識処理の高速化を図りつつ、より認識精度を高めることができる。 As described above, the speech is recognized by separating it into consonants and vowels, and the vowels are divided into groups, and the HMM is determined from the determined group, so that the recognition process can be speeded up and the recognition accuracy can be improved. Can be increased.
ところで、母音のグループを決定する方法には、上述した、指定回数以上母音が比較された時点で決定する方法のほかに、以下の方法がある。これは、上述したステップS820〜S822の代わりに図9に示すステップS830〜S832の処理を実行することにより行われる。 By the way, as a method for determining a group of vowels, there are the following methods in addition to the above-described method for determining when a vowel is compared more than a specified number of times. This is performed by executing the processes of steps S830 to S832 shown in FIG. 9 instead of steps S820 to S822 described above.
この方法では、ステップS818でさらなるグループがない場合(ステップS818:Yes)、各グループの平均尤度を算出する(ステップS830)。これは、各グループごとの尤度を合計し、それぞれのグループ内のHMM総数で除算して求められる。 In this method, when there is no further group at step S818 (step S818: Yes), the average likelihood of each group is calculated (step S830). This is obtained by summing the likelihood for each group and dividing by the total number of HMMs in each group.
そして、最大の平均尤度のグループと、第2位の平均尤度のグループとの平均尤度の比が、予め指定された比以上か否かを判定する(ステップS831)。 Then, it is determined whether or not the ratio of the average likelihood between the maximum average likelihood group and the second average likelihood group is equal to or higher than a ratio specified in advance (step S831).
この比が、予め指定された比以上である場合(ステップS831:Yes)、最大の平均尤度のグループに決定する(ステップS832)。 When this ratio is equal to or higher than a ratio specified in advance (step S831: Yes), the group is determined as the maximum average likelihood group (step S832).
以上の処理によれば、決定の時期を別の要因で定める必要がなく、グループの採用回数をカウントする必要もなく、音声認識に伴い算出されている尤度について、平均値とその最大値などを算出することで自ずと採用すべきグループを決定できるという利点がある。 According to the above processing, there is no need to determine the timing of determination by another factor, no need to count the number of times the group has been adopted, and the average value and the maximum value of the likelihood calculated with speech recognition, etc. By calculating, there is an advantage that the group to be adopted can be determined by itself.
(実施形態2)
(音響モデル学習装置)
次に、上述したグループ別のHMMを学習する装置について説明する。
(Embodiment 2)
(Acoustic model learning device)
Next, an apparatus for learning the above-described group-specific HMM will be described.
この装置は、上述した図1の装置を使って実現される。
図1において、記憶部150の音響モデル格納部153(図3参照)には、まず、子音と母音とに分けない通常のHMMが格納される。そして、制御部110は、プログラム格納部140に格納された図示しないHMM学習プログラムを実行することで音響モデル学習装置として機能する。
This apparatus is realized by using the apparatus of FIG. 1 described above.
In FIG. 1, the acoustic model storage unit 153 (see FIG. 3) of the
この装置は、機能的には、図10に示すように、グループ数指定手段116と、距離算出手段117と、グループ化手段118と、グループ数判定手段119と、母音子音選別手段1110と、を備える。
As shown in FIG. 10, this apparatus functionally includes a group
グループ数指定手段116は、記憶部150の音響モデル格納部153(図3参照)に設けられた、所定のエリアにおいて、母音認識用のHMMのグループ数を指定する。これは、入力装置12によってユーザが例えばキーボードにより指定することで、制御部110がこの指定値を記憶部150に記憶させることにより行い得る。
The group number designation means 116 designates the number of vowel recognition HMM groups in a predetermined area provided in the acoustic model storage unit 153 (see FIG. 3) of the
距離算出手段117は、前述した数式(3)及び数式(4)、又は、数式(5)及び数式(4)に従って、母音認識用のHMMのグループ間の距離を算出する。 The distance calculation means 117 calculates the distance between groups of HMMs for vowel recognition in accordance with the above-described mathematical expressions (3) and (4), or mathematical expressions (5) and (4).
グループ化手段118は、すべてのグループのうち、最短距離にある2つのグループを1つのグループとする。これは、最短距離にあると判定された2つのグループのそれぞれ異なるグループ番号をいずれか1つの番号に統一し、全グループ数から数値「1」を減ずることで行い得る。 The grouping means 118 sets two groups at the shortest distance among all the groups as one group. This can be done by unifying the different group numbers of the two groups determined to be at the shortest distance into any one number and subtracting the numerical value “1” from the total number of groups.
グループ数判定手段119は、グループの統一により全グループ数が減少していき、その全グループ数が指定された数以下になったかを判定する。
母音子音選別手段1110は、記憶部150の所定領域に記憶されたHMMが母音か子音かを選別してそれぞれ別々の領域に格納する。
The group number determination means 119 determines whether the total number of groups has decreased as a result of group unification, and the total number of groups has become equal to or less than the specified number.
The vowel consonant sorting means 1110 sorts whether the HMM stored in a predetermined area of the
次に、上述した装置の動作を図11を参照して説明する。
動作開始前に、人についての母音HMMの全グループ数を規定するために指定されたグループ数Gが、ユーザにより入力装置12を介して記憶部150のワークエリアなどに設定されているものとする。
Next, the operation of the above-described apparatus will be described with reference to FIG.
It is assumed that the number of groups G specified for defining the total number of vowel HMMs for a person is set in the work area of the
まず、制御部110は、発声者の音声が録音された媒体からHMMの音声データを収集し、記憶部150の所定領域に記憶させる(ステップS901)。初期状態においては、すべての発声者の音素HMMをそれぞれ一人から成る1つずつのグループとみなす。
First, the
そして、制御部110の母音子音選別手段1110は、人のポインタm、各人の音声データのポインタn、子音HMMのポインタs、母音HMMのポインタgに、それぞれ「0」を初期設定する(ステップS902)。
Then, the vowel
次に、母音子音選別手段1110は、m番目の人のn番目のデータが母音か子音かを判定する(ステップS903)。この判定は、例えば、母音か子音かの判定のみを専用に行うためのHMMを用意しておき、前述した音声認識の場合と同様に、尤度算出により母音である確率と子音である確率とを求めた上で、両者を比較することで行い得る。
Next, the vowel
そして、母音であるときは(ステップS903:Yes)、母音HMMの記憶領域にHMMを格納し(ステップS904)、母音HMMのポインタgを1インクリメントする(ステップS905)。 If it is a vowel (step S903: Yes), the HMM is stored in the storage area of the vowel HMM (step S904), and the pointer g of the vowel HMM is incremented by 1 (step S905).
また、子音であるときは(ステップS903:No)、子音HMMの記憶領域にHMMを格納し(ステップS906)、子音HMMのポインタsを1インクリメントする(ステップS907)。 If it is a consonant (step S903: No), the HMM is stored in the consonant HMM storage area (step S906), and the consonant HMM pointer s is incremented by 1 (step S907).
このようにして、最初の音声データの処理が終了すると、母音子音選別手段1110は、さらなる音声データがあるか否かを判別する(ステップS921)。さらなる音声データがある場合(ステップS921:No)、母音子音選別手段1110は、音声データのポインタnを1インクリメントし(ステップS922)、次の音声データについて、ステップS903以下で同様の処理を行う。
一方、さらなる音声データがない場合(ステップS921:Yes)、次の人の処理(ステップS903〜S907)に進む。
最初の人の処理が終了すると、母音子音選別手段1110は、さらなる人がいるか否かを判別する(ステップS908)。さらなる人がいる場合(ステップS908:No)、母音子音選別手段1110は、人のポインタmを1インクリメントし(ステップS909)、次の人について、ステップS903以下で同様の処理を行う。
In this way, when the processing of the first voice data is completed, the vowel
On the other hand, if there is no further audio data (step S921: Yes), the process proceeds to the next person's processing (steps S903 to S907).
When the processing of the first person is completed, the vowel
一方、さらなる人がいない場合(ステップS908:Yes)、次の処理(ステップS910)に進む。
続いて、グループ数判定手段119は、人の全グループ数mが指定されたグループ数G以下であるかを判定する。
On the other hand, when there is no further person (step S908: Yes), it progresses to the next process (step S910).
Subsequently, the group number determination means 119 determines whether or not the total group number m of the person is equal to or less than the specified group number G.
人の全グループ数mが指定されたグループ数G以下でない場合(ステップS910:No)、距離算出手段117は、前述した数式(3)、又は、数式(5)に従って、母音認識用のHMM間の距離を算出する(ステップS911)。
If the total group number m of the person is not less than the specified group number G (step S910: No), the
続いて、グループ化手段118は、最短距離にあると判定された2つの母音認識用のHMMを、1つのグループとする(ステップS912)。これは、例えば、各HMMに割り当てられているグループ番号のうち、若い方の番号に統一することで行い得る。
Subsequently, the
そして、グループ化手段118は、人の全グループ数mから数値「1」を減ずる(ステップS913)。その後、上述したステップS910に戻る。 Then, the grouping means 118 subtracts the numerical value “1” from the total number m of people (step S913). Thereafter, the process returns to step S910 described above.
ステップS910でさらに人の全グループ数mが指定されたグループ数G以下ではない場合(ステップS910:No)、距離算出手段117は、前述した数式(3)及び数式(4)、又は、数式(5)及び数式(4)に従って、母音認識用のHMM間の距離を算出する(ステップS911)。ここでは、上記の1グループ化により、2者以上の音声データを含むグループも存在する。 If the total group number m of the person is not less than or equal to the designated group number G in step S910 (step S910: No), the distance calculation means 117 may calculate the formula (3) and formula (4) or formula ( 5) and the distance between the HMMs for vowel recognition are calculated according to equation (4) (step S911). Here, there is also a group including two or more voice data due to the above-mentioned one grouping.
続いて、グループ化手段118は、最短距離にあると判定された2つの母音認識用のHMM又はそのグループを、1つのグループとする(ステップS912)。これは、例えば、各HMMに割り当てられているグループ番号のうち、若い方の番号に統一することで行い得る。
Subsequently, the
そして、グループ化手段118は、人の全グループ数mから数値「1」を減ずる(ステップS913)。その後、上述したステップS910に戻る。 Then, the grouping means 118 subtracts the numerical value “1” from the total number m of people (step S913). Thereafter, the process returns to step S910 described above.
以上の処理を繰り返し実行し、人の全グループ数mが指定されたグループ数G以下となった場合(ステップS910:Yes)、グループ数判定手段119は、すべての処理を終了する。
When the above process is repeatedly executed and the total number of groups m of the person is equal to or less than the specified number of groups G (step S910: Yes), the group
以上により、記憶部150には、全音声データから学習された、子音認識用のHMMと、人の各グループ別の音声データから学習された、人の各グループ毎の母音認識用のHMMと、が記憶される。
As described above, the
なお、上記実施の形態における音声認識装置100及び音響モデル学習装置(100)は、専用装置で構成可能であることはもとより、例えば、パーソナルコンピュータなどの汎用コンピュータ装置などで構成することができる。この場合、上記実施の形態に示した処理をコンピュータ装置上で実現するためのプログラムをコンピュータ装置にインストールすることにより、本発明に係る音声認識装置100などを構成することができる。この場合のプログラムの配布方法は任意であり、例えば、CD−ROMなどの記録媒体に格納して配布可能であることはもとより、搬送波に重畳させることで、インターネットなどの通信媒体を介して配布することができる。
Note that the
すなわち、本発明に係る音声認識装置などは、例えば、携帯型の翻訳装置などとして実現できる他、パーソナルコンピュータやゲーム装置などで動作するアプリケーションとして実現することができ、高精度の音声認識を実現するものである。 That is, the speech recognition device according to the present invention can be realized as an application that operates on a personal computer, a game device, or the like in addition to being realized as a portable translation device, for example, and realizes highly accurate speech recognition. Is.
また、既存の音声認識装置や音声認識アプリケーションなどに、本発明に係る各処理を実現するためのプログラムを追加すること(例えば、バージョンアップなど)により、音声認識処理を高精度化することができる。 Further, by adding a program for realizing each process according to the present invention to an existing voice recognition device or voice recognition application (for example, version upgrade), the voice recognition process can be made highly accurate. .
以上説明したように、本発明によれば、音声認識における高い認識精度を実現することができる。 As described above, according to the present invention, high recognition accuracy in voice recognition can be realized.
100…音声認識装置(音響モデル学習装置)、111…特徴量抽出手段、112…尤度算出手段、113…累積尤度算出手段、114…ノード作成手段、115…音声認識手段、116…グループ数指定手段、117…距離算出手段、118…グループ化手段、119…グループ数判定手段、1110…母音子音選別手段、151…音声格納部、152…特徴格納部、153…音響モデル格納部、154…文法格納部、155…辞書格納部、156…累積尤度格納部
DESCRIPTION OF
Claims (5)
入力された音声について複数の所定長フレーム毎に抽出した特徴量と、前記記憶部に記憶された各音響モデルとに基づいて、前記入力された音声についての各音素の状態遷移確率を算出する確率算出手段と、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出手段と、
当該フレームより前のフレームで算出された尤度の累積値を順次算出する累積尤度算出手段と、
前記累積尤度算出手段が算出した累積尤度に基づいて、前記入力された音声の認識を行う音声認識手段と、
を備えたことを特徴とする音声認識装置。 A storage unit that stores an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Probability of calculating the state transition probability of each phoneme for the input speech based on the feature quantity extracted for each of the plurality of predetermined long frames for the input speech and each acoustic model stored in the storage unit A calculation means;
A likelihood calculating means for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating means for sequentially calculating a cumulative value of likelihood calculated in a frame before the frame;
Speech recognition means for recognizing the input speech based on the cumulative likelihood calculated by the cumulative likelihood calculation means;
A speech recognition apparatus comprising:
入力される音声が母音である場合に、前記母音認識用の音響モデルを学習したグループを決定するグループ決定手段と、
を備えたことを特徴とする請求項1に記載の音声認識装置。 Frame identification means for determining whether the voice of each frame is a vowel or a consonant;
Group determination means for determining a group that has learned the acoustic model for vowel recognition when the input speech is a vowel;
The speech recognition apparatus according to claim 1, further comprising:
母音認識用の音響モデルのグループ数を指定するグループ数指定手段と、
前記母音認識用の音響モデルのグループ間の距離を算出する距離算出手段と、
最短距離の2つのグループを1つのグループとするグループ化手段と、
全グループ数が指定された数以下になったかを判定するグループ数判定手段と、
を備えたことを特徴とする音響モデル学習装置。 A storage unit that stores an acoustic model for consonant recognition that learns from all speech data, and an acoustic model for vowel recognition for each group that learns from speech data for each group,
A group number specifying means for specifying the number of groups of an acoustic model for vowel recognition;
Distance calculating means for calculating a distance between groups of the acoustic model for vowel recognition;
Grouping means for making two groups of the shortest distance into one group;
A group number determination means for determining whether the total number of groups is equal to or less than a specified number;
An acoustic model learning device comprising:
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を取得するモデル取得ステップと、
対象音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出する特徴量抽出ステップと、
各フレームにおいて抽出された特徴量に基づいて、前記対象音声についての各音素の状態遷移確率を算出する確率算出ステップと、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出する尤度算出ステップと、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出する累積尤度算出ステップと、
前記算出された累積尤度に基づいて音声認識を行う音声認識ステップと、
を備えたことを特徴とする音声認識方法。 A speech recognition method for improving accuracy of speech recognition using an acoustic model by a predetermined device,
A model acquisition step of acquiring an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
A feature amount extraction step for setting a plurality of predetermined length frames at a predetermined cycle for the target speech and extracting a feature amount for each frame;
A probability calculating step of calculating a state transition probability of each phoneme for the target speech based on the feature amount extracted in each frame;
A likelihood calculating step for accumulating the calculated state transition probabilities and calculating a likelihood for each acoustic model;
A cumulative likelihood calculating step for sequentially calculating the cumulative likelihood based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame;
A speech recognition step for performing speech recognition based on the calculated cumulative likelihood;
A speech recognition method comprising:
全音声データから学習した、子音認識用の音響モデルと、各グループ別の音声データから学習した、母音認識用の複数の音響モデルと、を記憶し、
対象音声を取り込み、該取り込んだ音声に対し、複数の所定長フレームを所定周期で設定し、各フレーム毎に特徴量を抽出し、
各フレームにおいて抽出された特徴量に基づいて、状態遷移確率を算出し、
算出された状態遷移確率を累積し、各音響モデル毎の尤度を算出し、
算出された各音響モデル毎の尤度と、当該フレームより前のフレームで算出された尤度の最大値とに基づいて、累積尤度を順次算出し、
前記算出された累積尤度に基づいて音声認識を行う、
ことを特徴とする音声認識装置として機能させるプログラム。 Storing an acoustic model for consonant recognition learned from all speech data and a plurality of acoustic models for vowel recognition learned from speech data for each group;
Capture the target voice, set a plurality of predetermined length frames for the captured voice in a predetermined cycle, extract the feature amount for each frame,
Based on the feature amount extracted in each frame, the state transition probability is calculated,
Accumulate the calculated state transition probabilities, calculate the likelihood for each acoustic model,
Based on the calculated likelihood for each acoustic model and the maximum likelihood calculated in a frame before the frame, the cumulative likelihood is sequentially calculated,
Performing speech recognition based on the calculated cumulative likelihood,
A program for functioning as a voice recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008323495A JP5315976B2 (en) | 2008-12-19 | 2008-12-19 | Speech recognition apparatus, speech recognition method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008323495A JP5315976B2 (en) | 2008-12-19 | 2008-12-19 | Speech recognition apparatus, speech recognition method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010145784A true JP2010145784A (en) | 2010-07-01 |
JP5315976B2 JP5315976B2 (en) | 2013-10-16 |
Family
ID=42566279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008323495A Active JP5315976B2 (en) | 2008-12-19 | 2008-12-19 | Speech recognition apparatus, speech recognition method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5315976B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012032538A (en) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method, voice recognition device and voice recognition program |
CN110782898A (en) * | 2018-07-12 | 2020-02-11 | 北京搜狗科技发展有限公司 | End-to-end voice awakening method and device and computer equipment |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02226200A (en) * | 1989-02-27 | 1990-09-07 | Nec Corp | Voice recognition device |
JPH04324499A (en) * | 1991-04-24 | 1992-11-13 | Sharp Corp | Speech recognition device |
JPH0667686A (en) * | 1992-08-18 | 1994-03-11 | Brother Ind Ltd | Speech recognizing device |
JP2003022093A (en) * | 2001-07-09 | 2003-01-24 | Nippon Hoso Kyokai <Nhk> | Method, device, and program for voice recognition |
JP2005077682A (en) * | 2003-08-29 | 2005-03-24 | Casio Comput Co Ltd | Speech recognition device, speech recognition speed-up device, and program |
JP2005221727A (en) * | 2004-02-05 | 2005-08-18 | Nec Corp | Speech recognition system, speech recognition method, and program for speech recognition |
JP2006139185A (en) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method, device for implementing the method, program, and recording medium therefor |
WO2008087934A1 (en) * | 2007-01-16 | 2008-07-24 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
-
2008
- 2008-12-19 JP JP2008323495A patent/JP5315976B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02226200A (en) * | 1989-02-27 | 1990-09-07 | Nec Corp | Voice recognition device |
JPH04324499A (en) * | 1991-04-24 | 1992-11-13 | Sharp Corp | Speech recognition device |
JPH0667686A (en) * | 1992-08-18 | 1994-03-11 | Brother Ind Ltd | Speech recognizing device |
JP2003022093A (en) * | 2001-07-09 | 2003-01-24 | Nippon Hoso Kyokai <Nhk> | Method, device, and program for voice recognition |
JP2005077682A (en) * | 2003-08-29 | 2005-03-24 | Casio Comput Co Ltd | Speech recognition device, speech recognition speed-up device, and program |
JP2005221727A (en) * | 2004-02-05 | 2005-08-18 | Nec Corp | Speech recognition system, speech recognition method, and program for speech recognition |
JP2006139185A (en) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method, device for implementing the method, program, and recording medium therefor |
WO2008087934A1 (en) * | 2007-01-16 | 2008-07-24 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
Non-Patent Citations (2)
Title |
---|
CSNC201100849016; 松尾広他: '"自動性別判定を用いた母音・子音定常部の認識に関する検討"' 日本音響学会昭和62年度秋季研究発表会議講演論文集 , 198710, pp.27-28 * |
JPN6012052636; 松尾広他: '"自動性別判定を用いた母音・子音定常部の認識に関する検討"' 日本音響学会昭和62年度秋季研究発表会議講演論文集 , 198710, pp.27-28 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012032538A (en) * | 2010-07-29 | 2012-02-16 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method, voice recognition device and voice recognition program |
CN110782898A (en) * | 2018-07-12 | 2020-02-11 | 北京搜狗科技发展有限公司 | End-to-end voice awakening method and device and computer equipment |
CN110782898B (en) * | 2018-07-12 | 2024-01-09 | 北京搜狗科技发展有限公司 | End-to-end voice awakening method and device and computer equipment |
Also Published As
Publication number | Publication date |
---|---|
JP5315976B2 (en) | 2013-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107195296B (en) | Voice recognition method, device, terminal and system | |
CN106875942B (en) | Acoustic model self-adaption method based on accent bottleneck characteristics | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
JP6284462B2 (en) | Speech recognition method and speech recognition apparatus | |
JP7342915B2 (en) | Audio processing device, audio processing method, and program | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
CA3162378A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
Nanavare et al. | Recognition of human emotions from speech processing | |
KR101068122B1 (en) | Apparatus and method for rejection based garbage and anti-word model in a speech recognition | |
Mandal et al. | Shruti-II: A vernacular speech recognition system in Bengali and an application for visually impaired community | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
WO2021118793A1 (en) | Speech processing | |
Thalengala et al. | Study of sub-word acoustical models for Kannada isolated word recognition system | |
KR102113879B1 (en) | The method and apparatus for recognizing speaker's voice by using reference database | |
JP5315976B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP2012053218A (en) | Sound processing apparatus and sound processing program | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
KR101066472B1 (en) | Apparatus and method speech recognition based initial sound | |
Lingam | Speaker based language independent isolated speech recognition system | |
JP2001005483A (en) | Word voice recognizing method and word voice recognition device | |
JP2003271185A (en) | Device and method for preparing information for voice recognition, device and method for recognizing voice, information preparation program for voice recognition, recording medium recorded with the program, voice recognition program and recording medium recorded with the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5315976 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |