JP2003036092A - Hmmの出力確率演算方法および音声認識装置 - Google Patents
Hmmの出力確率演算方法および音声認識装置Info
- Publication number
- JP2003036092A JP2003036092A JP2001223610A JP2001223610A JP2003036092A JP 2003036092 A JP2003036092 A JP 2003036092A JP 2001223610 A JP2001223610 A JP 2001223610A JP 2001223610 A JP2001223610 A JP 2001223610A JP 2003036092 A JP2003036092 A JP 2003036092A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- subword
- vector quantization
- hmm
- output probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 28
- 239000013598 vector Substances 0.000 claims abstract description 259
- 238000013139 quantization Methods 0.000 claims abstract description 171
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 230000007704 transition Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 5
- 101100512186 Pisum sativum HMM1 gene Proteins 0.000 description 2
- 229910017435 S2 In Inorganic materials 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007562 laser obscuration time method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
率を得て、音声認識を行うHMMによる音声認識におい
て、計算量や使用するメモリ領域を極力少なくして、か
つ、高い認識性能を得る。 【解決手段】ベクトル量子化を行う際に用いるコードブ
ックは、たとえば、サブワードを音素とした場合、コー
ドブックCB1は音素/a/のコードブック、コードブッ
クCB2は音素/i/のコードブックというように、音素
ごとのコードブックとし、これらは、それぞれの音素H
MM11,12に対応している。そして、音声分析され
た特徴ベクトルが、たとえば、コードブックCB1を用
いてベクトル量子化され、あるコード(ラベル)が出力
されたとすると、当該コードブックCB1に対応した音
素HMM11の状態ごとのテーブルT1,T2,T3を
それぞれ参照し、そのラベルに対する状態出力確率を得
て、その状態出力確率をパラメータの1つとして用いて
音声認識処理を行う。
Description
en Markov Model)における出力確率を求めるHMMの
出力確率演算方法およびそのHMMの出力確率演算方法
を用いた音声認識装置に関する。
HMMが広く使われている。このHMMを用いた音声認
識手法は高い認識率を得ることができる反面、計算量が
多いのが難点である。特にHMMの出力確率を求めるに
は多くの演算量を必要とし、それに伴って、演算を行う
ために多くのメモリ領域を必要とするなどの問題があ
る。
えば、日本音響学会誌42巻12号(1986)「 Hid
den Markov Modelに基づいた音声認識」に記述されてい
るように、入力音声を音声分析して得られた特徴ベクト
ル系列を、予め作成された1つのコードブックを用いて
ベクトル量子化し、得られたコード(ラベル)を各単語
を構成するHMM(たとえば音素のHMM)に入力して
状態出力確率をテーブル参照で得て、それぞれのHMM
により得られる尤度を比較して音声認識を行う方法が知
られている。
において、それぞれの状態ごとの出力確率をテーブル参
照で得る処理は次のようにして行われる。
声分析し、たとえば10数次元のLPCケプストラム係
数などでなる特徴ベクトル列Vt( tは入力音声を所
定時間ごとに区切ったときのそれぞれのフレーム番号で
あり、フレーム数をTで表せば、t=1,2,・・・,
T)を得て、その特徴ベクトル列Vtに対し、コードブ
ックを用いてベクトル量子化部で量子化し、それぞれの
フレーム番号(t=1,2,・・・)ごとのコード列C
tを出力する。
る音素の入っている音声データから作成されたコードブ
ックであり、ここでは、そのコードブックサイズをKで
表せば、あるフレーム番号に対するコードCtの値は、
コードブックのラベル番号k(k=1,2,・・・,
K)で表すことができる。
て、今、ある状態iからある状態jに遷移する際に、コ
ードCtが入力されてきたときにそのコードCtを出力
する確率をbij(Ct)で表せば、この場合、コードブッ
クサイズがKで、あるフレーム番号に対するコードCt
の値は、コードブックのラベル番号k(k=1,2,・
・・,K)で表すことができるので、1〜Kのラベル番
号を出力する出力確率bij(k)を求めればよいことに
なる。
態遷移において、ラベル番号1を出力する確率、ラベル
番号2を出力する確率、・・・、ラベル番号Kを出力す
る確率をテーブルとして持たせておけば、そのラベル番
号を基にテーブル参照するだけで、それぞれの状態遷移
ごとの出力確率を得ることができる。
量子化を用いる音声認識方法は、連続分布型HMMのよ
うなベクトル量子化を用いない方法と比較すると、演算
量を大幅に少なくすることができ、演算時間の短縮や演
算時に必要とするメモリ領域を大幅に少なくできるなど
の利点があるが、その一方で、ベクトル量子化誤差のた
めに認識性能に劣るという問題がある。特に、不特定話
者の音声認識を行う場合の認識性能に問題がある。
は、コードブックサイズをきわめて大きなサイズとすれ
ばよいが、コードブックサイズをあまり大きくすると、
量子化を行う際の演算量が増大するとともに、多くのメ
モリ領域も必要となるなど、ベクトル量子化する利点が
失われることになる。
が含まれるような学習用の音声データから作成されたも
のであるので、幅広い音声に対応できる平均化されたコ
ードブックとなる。このため、認識性能を高めるにはコ
ードブックサイズは必然的に大きくならざるを得ない。
声データに対してもコードデータとして持つことになる
ので、不必要にコードブックサイズが大きくなるのが現
状である。
い演算量で高速に求めることを可能とするHMMの出力
確率演算方法を提供するとともに、そのHMMの出力確
率演算方法を用いることで、ハードウエア能力に制約の
あるシステムであっても高い認識性能を得ることができ
る音声認識装置を提供することを目的とする。
ために、本発明におけるHMMの出力確率演算方法は、
入力音声を音声分析して得られる特徴ベクトルをベクト
ル量子化手段を用いてベクトル量子化し、その量子化結
果に対応した状態出力確率をテーブル参照で得るHMM
の出力確率算出方法であって、前記ベクトル量子化を行
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード対応のベクトル量子化手段とし、前記テーブルはこ
れらサブワード対応のベクトル量子化手段に対応して設
けられ、前記入力音声を音声分析して得られる特徴ベク
トルを、前記サブワード対応のベクトル量子化手段のう
ちのあるベクトル量子化手段を用いてベクトル量子化
し、その量子化結果を出力し、当該量子化結果を出力し
たベクトル量子化手段に対応するテーブルを参照してそ
の量子化結果に対する状態出力確率を得るようにしてい
る。
前記サブワードは音素であって、音素対応のベクトル量
子化手段を作成し、この作成された音素対応のベクトル
量子化手段はそれぞれの音素HMMに対応させるように
する。
いて、前記サブワードは音節であって、音節対応のベク
トル量子化手段を作成し、この作成された音節対応のベ
クトル量子化手段はそれぞれの音節HMMに対応させる
ようにする。
いて、前記サブワードは母音と子音であって、前記サブ
ワード対応のベクトル量子化手段は母音によって作成さ
れたベクトル量子化手段と子音によって作成されたベク
トル量子化手段であってもよい。
いて、前記それぞれのサブワードHMMの幾つかのサブ
ワードHMMごとに、前記サブワード対応のベクトル量
子化手段のうち共有できるベクトル量子化手段があれば
そのベクトル量子化手段を共有することもできる。
いて、前記それぞれのサブワードHMMのある状態ごと
に、前記サブワード対応のベクトル量子化手段のうち共
有できるベクトル量子化手段があればそのベクトル量子
化手段を共有することもできる。
いて、前記サブワード対応のベクトル量子化手段は、そ
れぞれのベクトル量子化手段ごとにコードサイズをその
サブワードに応じた最適なコードサイズとすることもで
きる。
いて、前記ベクトル量子化を行う際、入力されたサブワ
ードがベクトル量子化すべきサブワードであるか否かを
調べ、ベクトル量子化すべきサブワードでない場合には
ベクトル量子化を行わないようにすることもできる。
いて用いるベクトル量子化手段はコードブックを用いる
ことができる。
を音声分析して得られる特徴ベクトルをベクトル量子化
手段を用いてベクトル量子化し、その量子化結果に対応
した状態出力確率をテーブル参照で得て、その状態出力
確率をパラメータの1つとして用いて音声認識を行うH
MMを用いた音声認識装置であって、入力音声に対し音
声の特徴分析を行って特徴ベクトル列を出力する音声分
析部と、それぞれのサブワード対応のベクトル量子化手
段が記憶されたベクトル量子化手段記憶部と、前記音声
分析部から出力される特徴ベクトル列に対し、前記ベク
トル量子化手段記憶部に記憶されたサブワード対応のベ
クトル量子化手段を用いてベクトル量子化を行い、その
量子化結果を出力するベクトル量子化処理部と、サブワ
ードHMM演算に必要な様々なパラメータや前記サブワ
ード対応のベクトル量子化手段に対応して設けられた状
態出力確率参照用のテーブルを有するサブワードHMM
記憶部と、前記ベクトル量子化処理部からの量子化結果
を受けると、そのベクトル量子化に用いたベクトル量子
化手段に対応した前記テーブルを参照し、その量子化結
果に対する状態出力確率を取得し、その状態出力確率を
パラメータの1つとして用いて音声認識処理を行い認識
結果を出力する音声認識処理部とを有した構成となって
いる。
ドは音素であって、音素対応のベクトル量子化手段を作
成し、この作成された音素対応のベクトル量子化手段は
それぞれの音素HMMに対応するようにしている。
ブワードは音節であって、音節対応のベクトル量子化手
段を作成し、この作成された音節対応のベクトル量子化
手段はそれぞれの音節HMMに対応するようにしてい
る。
ブワードは母音と子音であって、前記サブワード対応の
ベクトル量子化手段は母音によって作成されたベクトル
量子化手段と子音によって作成されたベクトル量子化手
段であってもよい。
れぞれのサブワードHMMの幾つかのサブワードHMM
ごとに、前記サブワード対応のベクトル量子化手段のう
ち共有できるベクトル量子化手段があればそのベクトル
量子化手段を共有することもできる。
れぞれのサブワードHMMのある状態ごとに、前記サブ
ワード対応のベクトル量子化手段のうち共有できるベク
トル量子化手段があればそのベクトル量子化手段を共有
することもできる。
ブワード対応のベクトル量子化手段は、それぞれのベク
トル量子化手段ごとにコードサイズをそのサブワードに
応じた最適なコードサイズとすることもできる。
言語テーブルを有し、前記ベクトル量子化部がベクトル
量子化を行う際、入力されたサブワードがベクトル量子
化すべきサブワードであるか否かをこの単語・言語テー
ブルを参照して調べ、ベクトル量子化すべきサブワード
でない場合にはベクトル量子化を行わないようにするこ
ともできる。
クトル量子化手段はコードブックを用いることができ
る。
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード(単語や言語を構成する音素や音節をここではサブ
ワードいう)対応のベクトル量子化手段としている。
は、それぞれのサブワードに対応する音声データを主と
して作成されたものであるため、入力音声の特徴ベクト
ルの分布を適切に表現したベクトル量子化手段とするこ
とができ、このようなサブワード対応のベクトル量子化
手段を用いてベクトル量子化を行うことによって、ベク
トル量子化誤差を最小限に抑えることができる。
ル量子化手段は、上述したように、入力音声の特徴ベク
トルの分布を適切に表現したベクトル量子化手段となっ
ているため、少ないコードサイズで高い認識性能を得る
ことができ、コードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。
音素対応にベクトル量子化手段を作成することによっ
て、それぞれの音素の特徴ベクトルの分布に適合したベ
クトル量子化手段とすることができ、それを用いてベク
トル量子化を行えば、ベクトル量子化誤差は極力小さく
抑えられたものとなる。
音節対応にベクトル量子化手段を作成することによっ
て、それぞれの音節の特徴ベクトルの分布に適合しベク
トル量子化手段とすることができ、それを用いてベクト
ル量子化を行えば、ベクトル量子化誤差は極力小さく抑
えられたものとなる。
段は、母音によって作成されたベクトル量子化手段と子
音によって作成されたベクトル量子化手段としてもよ
く、これによっても、従来のようにあらゆる音素が含ま
れる音声データから作成されたベクトル量子化手段に比
べれば、ベクトル量子化誤差を小さくすることができ
る。
幾つかのサブワードHMMで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、ベ
クトル量子化手段全体のデータサイズを小さくすること
ができるので、演算量の削減や使用するメモリ領域を少
なくすることができる。
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節HMMの状態ごとに、ベクトル量子化手
段を共有することができるので、ベクトル量子化手段全
体のデータサイズを大幅に小さくすることができる、そ
れによって、演算量の削減や使用するメモリ領域を少な
くすることができる。
段は、それぞれのベクトル量子化手段ごとにコードサイ
ズをそのサブワードに応じた最適なコードサイズとする
ことも可能であり、これによれば、それぞれのサブワー
ドに応じた最適なベクトル量子化手段とすることがで
き、それぞれのサブワードに適したベクトル量子化が行
え、より一層、高い認識性能が得られるとともに、認識
性能に大きく影響を与えないようなサブワードに対して
はコードサイズを極力小さくするということもできるの
で、ベクトル量子化手段のサイズの無駄を省くこともで
きる。
を行う際、入力されたサブワードがベクトル量子化すべ
きサブワードであるか否かをこの単語・言語テーブルを
参照して調べ、ベクトル量子化すべきサブワードでない
場合にはベクトル量子化を行わないようにすることもで
きるので、無駄な処理を省くことができ処理の高速化を
図ることができる。
ックを用いるようにすれば、ベクトル量子化を行うため
の演算量を少なくすることができ。
ば、ベクトル量子化誤差の少ない出力確率を少ない演算
量で得ることができ、このHMMの出力確率演算方法を
音声認識装置に適用することで、ハードウエア能力に制
約のあるシステムであっても高い認識性能を持った音声
認識装置とすることができる。
て説明する。なお、この実施の形態で説明する内容は、
本発明のHMMの出力確率演算方法およびそのHMMの
出力確率演算方法を用いた音声認識装置についての説明
である。
ル量子化手段(この実施の形態ではベクトル量子化手段
としてコードブックを用いることにする)を作成し、そ
のサブワード対応のコードブックを用いてベクトル量子
化を行って、音声認識に必要なパラメータの1つである
出力確率をテーブル参照によって得る処理を説明する図
であり、図1はサブワードを音素とし、それぞれの音素
対応のコードブックによってベクトル量子化し、その量
子化結果として得られるコードを用いたテーブル参照を
行って出力確率を得る処理を説明するものである。
素を用い、これらの音素対応にコードブックを作成し、
ここでは、それぞれのコードブックのサイズ(コード数
K)はK=64とする。
クは、図1において、たとえば、コードブックCB1
は、/a/の音素HMM11対応し、コードブックCB2
は、/i/の音素HMM12に対応するというように、そ
れぞれの音素HMMに対応している。この図1では、説
明を簡単にするために/a/と/i/の音素のみが図示され
ている。
素HMMが4状態3ループで表されるとすれば、それぞ
れの状態遷移ごとにそれぞれ状態出力確率テーブル(以
下、単にテーブルという)T1,T2,T3を持ってい
る。
態S2の状態遷移に対応したテーブルであり、テーブル
T2は状態S2から状態S3の状態遷移に対応したテー
ブルであり、テーブルT3は状態S3から状態S4の状
態遷移に対応したテーブルである。
ち、状態S1,S2,S3はそれぞれその状態を自己ル
ープする遷移(状態S1から状態S1、状態S2から状
態S2、状態S3から状態S3)を有するが、状態S1
から状態S1への状態遷移については上述のテーブルT
1を用い、状態S2から状態S2への状態遷移について
も上述のテーブルT2、状態S3から状態S3への状態
遷移についても上述のテーブルT3を用いる。
=64としているから、コードブックCB1から出力さ
れるコードCtを表すラベルk(kはラベル番号)は、
k=1,2,・・・,64のいずれかをとり、それぞれ
のテーブルT1,T2,T3には、ラベルk=1,2,
・・・,64に対応した出力確率値が格納されている。
様に、それぞれの状態遷移ごとにそれぞれテーブルT1
1,T12,T13を持ち、テーブルT11は状態S1
1から状態S12の状態遷移に対応したテーブル、テー
ブルT12は状態S12から状態S13の状態遷移に対
応したテーブル、テーブルT13は状態S13から状態
S14の状態遷移に対応したテーブルである。この場合
も、それぞれの状態S11,S12,S13をそれぞれ
自己ループする遷移についても、上述のテーブルT1
1,T12,T13を用いる。
をK=64としているから、コードブックCB2から出
力されるコードCtを表すラベルk(kはラベル番号)
は、k=1,2,・・・,64のいずれかをとり、それ
ぞれのテーブルT11,T12,T13には、ラベルk
=1,2,・・・,64に対応した出力確率値が格納さ
れている。
析し、たとえば10数次元のLPCケプストラム係数で
なる特徴ベクトル列Vt( tは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をTで表せば、t=1,2,・・
・,T)を得て、その特徴ベクトル列Vtをそれぞれの
音素ごとに作成されたコードブックCB1,CB2,・
・・によりベクトル量子化を行ったところ、音素/a/に
対応するコードブックCB1からコードCtを表すラベ
ルkとしてk=24が出力されたとする。
11に入力されると、たとえば、状態S1から状態S2
への状態遷移の際のコードCtを出力する確率(出力確
率は)は、テーブルT1を参照することで得ることがで
きる。
トルVt(t=1,2,・・・)が音素/a/のコードブ
ックCB1によってベクトル量子化されて得られたコー
ドCtを出力する出力確率は、音素/a/の音素HMM1
1のそれぞれの状態に対応したテーブルT1,T2,T
3を参照することで得ることができる。
れたあるフレームの特徴ベクトルVtをそれぞれの音素
ごとに作成されたコードブックCB1,CB2,・・・
により、ベクトル量子化を行ったところ、音素/i/のコ
ードブックCB2からコードCtを表すラベルkとして
k=13が出力されたとする。
12に入力されると、たとえば、状態S11から状態S
12への状態遷移の際のコードCtを出力する確率(出
力確率は)は、テーブルT11を参照することで得るこ
とができる。
トルVt(t=1,2,・・・)が音素/i/のコードブ
ックCB2によってベクトル量子化されて得られたコー
ドCtを出力する出力確率は、音素/i/の音素HMM1
2のそれぞれの状態に対応したテーブルT11,T1
2,T13を参照することで得ることができる。
の音素ごとの音素HMMに対応したそれぞれの音素対応
のコードブックCB1,CB2,・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Vtを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音素HMMに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音素HM
Mのそれぞれの状態における出力確率を得ることができ
る。
B1,CB2,・・・は、音素ごとの特徴ベクトルの分
布に適応したコードブックとなっているので、その音素
を表現するにふさわしい内容となっている。したがっ
て、そのコードブックのコードサイズKはK=64程度
でも、実用的には十分な性能を得ることができる。した
がって、ここでの説明のように、音素を26音素とした
場合、26個のコードブックを必要とするが、この26
個のコードブック全体のコードブックサイズは、26×
64=1664のコード数で済む。
ックのコードサイズKを64とし、それをそれぞれの音
素対応に作成したものと、従来の全ての音素の含まれる
音声データから作成された1つのコードブックを用いる
場合と比較すると、本発明による個々の音素対応のコー
ドブックを用いた場合は、従来のコードブックサイズを
2048としたものよりも高い認識性能が得られ、従来
のコードブックサイズを4096としたもの同等の認識
性能が得られることがわかった。
・のコードサイズを上述したコードサイズ64の半分と
した32でも、従来のコードブックサイズを1024と
したものよりも高い認識性能が得られ、従来のコードブ
ックサイズを2048としたもの同等の認識性能が得ら
れることがわかった。このように、コードブックCB
1,CB2,・・・のコードサイズを32とすれば、全
体のコードブックサイズはさらに小さくて済み、この場
合、26×32=832のコード数で済む。
のコードサイズは、全ての音素において同じとしてもよ
いが、音素ごとにコードブックサイズを任意に設定する
ことも可能であり、これによって、音素ごとに最適化が
図れる。
ることによって、少ないコードサイズで高い認識性能を
得ることができ、コードサイズを少なくできることから
ベクトル量子化の演算量を少なくすることができ、ま
た、出力確率を記憶するためのテーブルサイズも小さく
できるので使用するメモリ領域も小さくて済む。
て説明したが、音節の場合も同様に考えることができ
る。サブワードを音節とした場合について図2を参照し
ながら説明する。
音節対応のコードブックによってベクトル量子化し、そ
の量子化結果として得られるコードを用いたテーブル参
照を行って出力確率を得る処理を説明するものである。
合上、この場合も図1と同様、それぞれのコードブック
サイズ(コード数K)はK=64としている。
クは、図2において、たとえば、コードブックCB11
は、/ka/の音節HMM21に対応し、コードブックC
B12は/sa/の音節HMM22に対応するというよう
に、それぞれの音節HMMに対応している。この図2で
は、説明を簡単にするために/ka/と/sa/の音節のみ
が図示されている。
音節HMM21が6状態5ループで表されるとすれば、
図1の場合と同様に、それぞれの状態遷移ごとにそれぞ
れテーブル(この場合、T21〜T25)を持ってい
る。
クサイズ(コード数K)をK=64としているから、コ
ードブック11から出力されるコードCtを表すラベル
k(kはラベル番号)は、k=1,2,・・・,64の
いずれかをとり、それぞれのテーブルT21〜T25に
は、ラベルk=1,2,・・・,64に対応した出力確
率値が格納されている。
22が6状態5ループで表されるとすれば、 /ka/の
音節と同様に、それぞれの状態遷移ごとにそれぞれテー
ブルT31〜T35を持っている。そして、この場合
も、コードブックサイズを64としているから、コード
ブックCB12から出力されるコードCtを表すラベル
k(kはラベル番号)は、k=1,2,・・・,64の
いずれかをとり、それぞれのテーブルT31〜T35に
は、ラベルk=1,2,・・・,64に対応した出力確
率値が格納されている。
析し、たとえば10数次元のLPCケプストラム係数で
なる特徴ベクトル列Vt( tは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をTで表せば、t=1,2,・・
・,T)を得て、その特徴ベクトル列Vtをそれぞれの
音節ごとに作成されたコードブックCB11,CB1
2,・・・によりベクトル量子化を行ったところ、音節
/ka/に対応するコードブックCB11からコードCt
を表すラベルkとしてk=42が出力されたとする。
M21に入力されると、たとえば、状態S21から状態
S22の状態遷移の際のコードCtを出力する確率(出
力確率は)は、テーブルT21を参照することで得るこ
とができる。
トルVt(t=1,2,・・・)が音節/ka/のコード
ブックCB11によってベクトル量子化されることによ
って得られたコードCtを出力する出力確率は、音節/
ka/の音節HMM21のそれぞれの状態に対応したテ
ーブルT21,T22,T23,T24,T25を参照
することで得ることができる。
れたあるフレームの特徴ベクトルVtをそれぞれの音節
対応に作成されたコードブックCB11,CB12,・
・・により、ベクトル量子化を行ったところ、音節/s
a/のコードブック12からコードCtを表すラベルk
としてk=31が出力されたとする。
M22に入力されると、たとえば、状態S31から状態
S32への状態遷移の際のコードCtを出力する確率
(出力確率は)は、テーブルT31を参照することで得
ることができる。
トルVt(t=1,2,・・・)が音節/sa/のコード
ブックCB12によってベクトル量子化されることによ
って得られたコードCtを出力する出力確率は、音節/
sa/の音節HMM22のそれぞれの状態に対応したテ
ーブルT31,T32,T33、T34,T35を参照
することで得ることができる。
節ごとの音節HMMに対応したそれぞれの音節ごとのコ
ードブックCB11,CB12,・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Vtを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音節HMMに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音節HM
Mのそれぞれの状態における出力確率を得ることができ
る。
ードブックのコードサイズは、全ての音節において同じ
としてもよいが、音節ごとにコードブックサイズを任意
に設定することも可能であり、これによって、それぞれ
の音節ごとに最適化が図れる。
た場合の、音素ごとのコードブック、音節ごとのコード
ブックを作成し、それによって、特徴ベクトルをベクト
ル量子化し、テーブル参照によって出力確率を求める処
理について説明したが、本発明は、それぞれのサブワー
ドHMMのある状態ごとに、それぞれのサブワード対応
のコードブックのうちのあるコードブックを共有するこ
とを可能としている。これについて幾つかの音節HMM
のある状態ごとにコードブックを共有する場合を例にと
って説明する。
a/、/sa/、/ki/、/ku/の音節HMMモデルをそ
れぞれ示すもので、図3(a)は/ka/の音節HMMモ
デル、図3(b)は/sa/の音節HMMモデル、図3
(c)は/ki/の音節HMMモデル、図3(d)は/k
u/の音節HMMモデルを示している。
ば、/ka/の音節HMM は、この図3(a)で示すよ
うに、仮に、状態S21,S22が/k/を表現する部
分、状態S23〜S26が/a/を表現する部分というよ
うに区分され、また、/sa/の音節HMM は、この図
3(b)で示すように、仮に、状態S31,S32が/
s/を表現する部分、状態S33〜S36が/a/を表現
する部分であるというように区分されたとする。
(c)に示すようように、仮に、状態S41,S42が
/k/を表現する部分、状態S43〜S46が/i/を表現
する部分であるというように区分され、/ku/の音節H
MMは、この図3(d)に示すように、仮に、状態S5
1,S52が/k/を表現する部分、状態S53〜S56
が/u/を表現する部分であるというように区分されたと
する。
て、それぞれの状態をそれぞれの音素対応にわけること
ができるので、それぞれの音節HMMの状態ごとに、そ
の状態に対応する音素のコードブックを共有することが
できる。
て、図3(a)の/ka/の音節HMMにおける /a/を
表現する部分の状態S23〜S26と、図3(b)の/
sa/の音節HMMにおける/a/を表現する部分の状態
S33〜S36に対しては、/a/のコードブックを共有
する。
3(a)の/ka/の音節HMMにおける /k/を表現す
る部分の状態S21,S22と、図3(c)の/ki/の
音節HMMにおける/k/を表現する部分の状態S41,
S42と、図3(d)の/ku/の音節HMMにおける/
k/を表現する部分の状態S51,S52に対しては、
それぞれ/k/のコードブックを共有する。
Mにおける出力確率を求める際には、最初の状態S2
1,S22においては、共有する/k/のコードブックを
用い、その/k/のコードブックによりベクトル量子化さ
れて得られたコード(ラベル)によってテーブル参照を
行い、あとの方の状態S23〜S26においては、共有
する/a/のコードブックを用い、その/a/のコードブッ
クによりベクトル量子化されて得られたコード(ラベ
ル)によってテーブル参照を行うことにより出力確率を
得る。
れぞれの音節HMMの状態ごとに、コードブックを共有
することができ、それによって、たとえば、110程度
の音節に対し音素と同等の20数個のコードブックで対
応することができる。
コードブックを共有する際、たとえば、/ka/の音節H
MMと/sa/の音節HMMにおいては、それぞれ/a/を
表現する状態が存在するが、同じ/a/であっても、この
場合、/ka/の音節HMMにおいては、/a/の直前には
/k/が存在し、/sa/の音節HMM においては、/a/
の直前には/s/が存在するので、本来は、前後の関係を
考慮した/a/のコードブックを用いるのが理想である
が、それを考慮しないで作成された/a/のコードブック
であっても十分な結果を得ることができる。
の状態がどのような音素を表現するかを判断して、どこ
で区切るかの区切りを設定したり、それによってどのコ
ードブックを共有させるかを決める処理は、人間の経験
的な知識によって行うこともできるが、コンピュータな
どによって計算を行い、ある音節HMMにおいて、どの
状態がどのような音素を表現するかを自動的に判断する
ことで、どの音節HMMのどの状態部分とどの音節のど
の状態部分に対してはどのようなコードブックを共有さ
せるかを決めることもできる。
純に最初の2つの状態とあとの4つの状態で区切った例
であるが、たとえば、/ka/の音節HMMにおいては、
状態S21,S22,S23が/k/を表現し、状態S2
4以降が/a/を表現し、また、/sa/の音節HMMにお
いては、上述したように、状態S31,S32が/s/を
表現し、状態S34以降が/a/を表現するというよう
に、それぞれの音節HMMによって区切られる場所は異
なる場合も多い。
(上述の例は音節HMM)のある状態ごとに、サブワー
ドごとのコードブックのうち共有可能なコードブックが
あればそれを共有することによって、全体のコードブッ
クサイズを大幅に少なくすることができる。これによっ
て、演算量の削減が図れ、しかも、高い認識性能を維持
することができる。
成図を示すもので、音声を入力する音声入力手段として
のマイクロホン1、入力された音声信号を増幅したりA
/D変換する音声信号処理部2、この音声信号入力処理
部2で処理された音声信号を所定時間ごとに音声分析
し、たとえば10数次元のLPCケプストラム係数など
でなる特徴ベクトル列Vt( tは入力音声を所定時間
ごとに区切ったときのそれぞれのフレーム番号であり、
フレーム数をTで表せば、t=1,2,・・・,T)を
出力する音声分析部3、この音声分析部3で分析された
それぞれのフレームごとの特徴ベクトルVtをベクトル
量子化処理するベクトル量子化処理部4、このベクトル
量子化処理部4がベクトル量子化処理を行う際に用いる
サブワード対応のベクトル量子化手段(この実施の形態
ではコードブック)を記憶したコードブック記憶部5、
サブワードHMM演算に必要な様々なパラメータや前述
した状態出力確率テーブルを記憶しているサブワードH
MM記憶部6、このサブワードHMM記憶部6に記憶さ
れているデータと上述のベクトル量子化部4から出力さ
れたコード(ラベル)を用いて音声認識処理を行い認識
結果を出力する音声認識処理部7、この音声認識処理部
7や上述のベクトル量子化処理部4がそれぞれの処理を
行う際に参照する単語・言語テーブル8を有した構成と
なっている。
7が音声認識処理を行う過程で、認識結果に不自然さが
あるか否かを判断したり、ベクトル量子化処理部4がベ
クトル量子化処理を行う過程で、不必要なサブワードに
対してはベクトル量子化処理しないようにしたりするた
めに用いられる。
語や言語数がごく限られた単語のみの認識を行えばよい
ような場合、その認識すべき単語や言語を単語・言語テ
ーブル8として持っておくことで、音声認識している過
程で、この単語・言語テーブル8を参照し、音声認識を
行う必要のないサブワードであれば、そのサブワードに
対してはベクトル量子化しないようにするということが
できる。
続音声の認識を行う必要のある場合、入力音声を逐次的
に処理することが行われるが、そのような場合、今現在
の処理段階において認識すべき単語はどれかを単語・言
語テーブル8を参照することで知ることができ、音声認
識している過程で、その時点で不必要なサブワードであ
ると判断されれば、そのサブワードに対してはベクトル
量子化しないようにするということもできる。
サブワード対応のコードブックは、たとえば、前述した
ように、サブワードが音素であれば、それぞれの音素ご
とに作成されたコードブックであり、これらのコードブ
ックはサブワードHMM記憶部6に記憶されているそれ
ぞれのサブワード音素HMMに対応している(図1参
照)。
ブック記憶部5に記憶されるコードブックは、それぞれ
の音節ごとに作成されたコードブックであり、これらの
コードブックはそれぞれの音節HMMに対応している
(図2参照)。
ードHMMのある状態ごとに、前記サブワード対応のコ
ードブックのうちの共有可能なコードブックを共有する
こともできる。
2で増幅やA/D変換された入力音声信号を音声分析部
3で分析し、それによって得られたある時刻に対応する
フレームの特徴ベクトルVtを、それぞれのサブワード
ごとに作成されたコードブックによりベクトル量子化を
行い、あるサブワードに対応するコードブックからコー
ドCtを表すラベル値kが出力されたとする。
MMに入力されることで、ある状態iからある状態jへ
の状態遷移の際のコードCtを出力する確率(出力確率
は)を、その状態遷移ijに対応するテーブルを参照する
ことで得ることができる。
態におけるコードCtを出力する出力確率をそれぞれの
状態に対応したテーブルを参照することで得ることがで
き、それを入力音声の各時刻対応のフレームごとの特徴
ベクトルについて行うことで、最終的な出力確率を得
て、それに基づいて音声認識処理部7が音声認識を行
う。
理部4がベクトル量子化処理を行う過程で、単語・言語
テーブル8を参照することで、不必要なサブワードに対
してはベクトル量子化しないようにしたり、音声認識処
理部7が音声認識処理を行う過程で、認識結果に不自然
さがあるか否かを判断したりすることも行う。
サブワードとしての音素や音節ごとにコードブックを有
しているので、それぞれのコードブックは、音素あるい
は音節の特徴ベクトルの分布に適合したコードブックと
することができる。それによって、それぞれのコードブ
ックサイズは小さくても、ベクトル量子化を行う際の量
子化誤差を極力低くすることができる。また、そのベク
トル量子化によって得られたコードを出力する確率(出
力確率)はテーブル参照で得るが、そのテーブルのサイ
ズもコードブックサイズに伴って小さくすることができ
る。
ルサイズを小さくできることから、演算量を大幅に少な
くできるとともに、使用するメモリ領域も小さくするこ
とができる。しかも、コードブックサイズやテーブルサ
イズを小さくしながら、高い音声認識性を得ることがで
きる。
サブワードHMMのある状態ごとにコードブックを共有
することもできる。特に、サブワードとして音節を用い
た場合には、それぞれの音節HMMの状態ごとに共有で
きるコードブックがあれば、それを共有するといったこ
とも可能であり、それによって、全ての音節に対し音素
と同等の20数個のコードブックで対応することができ
る。
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、サブワードごとのコードブックと
して、音素ごとのコードブックあるいは音節ごとのコー
ドブックを持つようにしたが、これに限られることな
く、たとえば、母音で1つのコードブックを作成し、子
音で1つのコードブックを作成するようにしてもよい。
これは、音素ごとのコードブックあるいは音節ごとのコ
ードブックを持つ場合に比べ、多少大雑把なコードブッ
クとなるが、従来の全ての音声から作成されたコードブ
ックに比べれば、コードブックサイズをそれ程大きくす
ることなく高い認識性能を得ることができる。
クを共有する場合、サブワードHMM(たとえば、音節
HMM)の状態ごとに、あるコードブックを共有する例
について説明したが、サブワードHMMの状態ごとだけ
でなく、たとえば、/a/の音素HMMと/i/の音素HM
Mというように、幾つかのサブワードHMMでコードブ
ックを共有することも可能である。
子化手段としてコードブックを用いた例について説明し
たが、他のベクトル量子化手段を用いることもできる。
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。
クトル量子化を行う際に用いるベクトル量子化手段は、
それぞれのサブワード対応のベクトル量子化手段として
いる。このサブワード対応のベクトル量子化手段は、そ
れぞれのサブワードに対する音声データから作成された
ものであるため、入力音声の特徴ベクトルの分布を適切
に表現したベクトル量子化手段とすることができ、この
ようなサブワード対応のベクトル量子化手段を用いてベ
クトル量子化を行うことによって、ベクトル量子化誤差
を最小限に抑えることができる。これによって、この出
力確率演算方法を音声認識装置に組み込むことによって
高い認識性能を得ることができ、また、個々のベクトル
量子化手段のコードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。
幾つかのサブワードHMMで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、全
体のベクトル量子化手段のデータサイズを小さくするこ
とができるので、演算量の削減や使用するメモリ領域を
少なくすることができる。
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節HMMの状態ごとに、ベクトル量子化手
段を共有することができるので、全体のベクトル量子化
手段のデータサイズを大幅に小さくすることができる、
それによって、演算量の削減や使用するメモリ領域を少
なくすることができる。
算方法によれば、ベクトル量子化誤差の少ない出力確率
を少ない演算量で得ることができ、このHMMの出力確
率演算方法を音声認識装置に適用することで、ハードウ
エア能力に制約のあるシステムであっても高い認識性能
を持った音声認識装置とすることができる。
ル量子化を行って音声認識に必要なパラメータの1つで
ある出力確率をテーブル参照によって得る本発明の基本
的な処理を説明する図であり、サブワードを音素とした
場合について説明する図である。
いて説明する図である。
MMの状態ごとにコードブックを共有する例について説
明する図である。
る。
ーブル T11,T12,T13 /i/の音素HMMの状態出力
確率テーブル T21〜T25 /ka/の音節HMMの状態確率テーブ
ル T31〜T35 /sa/の音節HMMの状態確率テーブ
ル
Claims (18)
- 【請求項1】 入力音声を音声分析して得られる特徴ベ
クトルをベクトル量子化手段を用いてベクトル量子化
し、その量子化結果に対応した状態出力確率をテーブル
参照で得るHMMの出力確率演算方法であって、 前記ベクトル量子化を行う際に用いるベクトル量子化手
段は、それぞれのサブワード対応のベクトル量子化手段
とし、前記テーブルはこれらサブワード対応のベクトル
量子化手段に対応して設けられ、 前記入力音声を音声分析して得られる特徴ベクトルを、
前記サブワード対応のベクトル量子化手段のうちのある
ベクトル量子化手段を用いてベクトル量子化し、その量
子化結果を出力し、当該量子化結果を出力したベクトル
量子化手段に対応するテーブルを参照してその量子化結
果に対する状態出力確率を得ることを特徴とするHMM
の出力確率演算方法。 - 【請求項2】 前記サブワードは音素であって、音素対
応のベクトル量子化手段を作成し、この作成された音素
対応のベクトル量子化手段はそれぞれの音素HMMに対
応することを特徴とする請求項1記載のHMMの出力確
率演算方法。 - 【請求項3】 前記サブワードは音節であって、音節対
応のベクトル量子化手段を作成し、この作成された音節
対応のベクトル量子化手段はそれぞれの音節HMMに対
応することを特徴とする請求項1記載のHMMの出力確
率演算方法。 - 【請求項4】 前記サブワードは母音と子音であって、
前記サブワード対応のベクトル量子化手段は母音によっ
て作成されたベクトル量子化手段と子音によって作成さ
れたベクトル量子化手段であることを特徴とする請求項
1記載のHMMの出力確率演算方法。 - 【請求項5】 前記それぞれのサブワードHMMの幾つ
かのサブワードHMMごとに、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があればそのベクトル量子化手段を共有することを特徴
とする請求項1から3のいずれかに記載のHMMの出力
確率演算方法。 - 【請求項6】 前記それぞれのサブワードHMMのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があればそのベク
トル量子化手段を共有することを特徴とする請求項1か
ら3のいずれかに記載のHMMの出力確率演算方法。 - 【請求項7】 前記サブワード対応のベクトル量子化手
段は、それぞれのベクトル量子化手段ごとにコードサイ
ズをそのサブワードに応じた最適なコードサイズとする
ことを特徴とする請求項1から6のいずれかに記載のH
MMの出力確率演算方法。 - 【請求項8】 前記ベクトル量子化を行う際、入力され
たサブワードがベクトル量子化すべきサブワードである
か否かを調べ、ベクトル量子化すべきサブワードでない
場合にはベクトル量子化を行わないようにすることを特
徴とする請求項1から7のいずれかに記載のHMMの出
力確率演算方法。 - 【請求項9】 前記ベクトル量子化手段はコードブック
であることを特徴とする請求項1から8のいずれかに記
載のHMMの出力確率演算方法。 - 【請求項10】 入力音声を音声分析して得られる特徴
ベクトルをベクトル量子化手段を用いてベクトル量子化
し、その量子化結果に対応した状態出力確率をテーブル
参照で得て、その状態出力確率をパラメータの1つとし
て用いて音声認識を行う音声認識装置であって、 入力音声に対し音声の特徴分析を行って特徴ベクトル列
を出力する音声分析部と、 それぞれのサブワード対応のベクトル量子化手段が記憶
されたベクトル量子化手段記憶部と、 前記音声分析部から出力される特徴ベクトル列に対し、
前記ベクトル量子化手段記憶部に記憶されたサブワード
対応のベクトル量子化手段を用いてベクトル量子化を行
い、その量子化結果を出力するベクトル量子化処理部
と、 サブワードHMM演算に必要な様々なパラメータや前記
サブワード対応のベクトル量子化手段に対応して設けら
れた状態出力確率参照用のテーブルを有するサブワード
HMM記憶部と、 前記ベクトル量子化処理部からの量子化結果を受ける
と、そのベクトル量子化に用いたベクトル量子化手段に
対応した前記テーブルを参照し、その量子化結果に対す
る状態出力確率を取得し、その状態出力確率をパラメー
タの1つとして用いて音声認識処理を行い認識結果を出
力する音声認識処理部と、 を有したことを特徴とする音声認識装置。 - 【請求項11】 前記サブワードは音素であって、音素
対応のベクトル量子化手段を作成し、この作成された音
素対応のベクトル量子化手段はそれぞれの音素HMMに
対応することを特徴とする請求項10記載の音声認識装
置。 - 【請求項12】 前記サブワードは音節であって、音節
対応のベクトル量子化手段を作成し、この作成された音
節対応のベクトル量子化手段はそれぞれの音節HMMに
対応することを特徴とする請求項10記載の音声認識装
置。 - 【請求項13】 前記サブワードは母音と子音であっ
て、前記サブワード対応のベクトル量子化手段は母音に
よって作成されたベクトル量子化手段と子音によって作
成されたベクトル量子化手段であることを特徴とする請
求項10記載の音声認識装置。 - 【請求項14】 前記それぞれのサブワードHMMの幾
つかのサブワードHMMごとに、前記サブワード対応の
ベクトル量子化手段のうち共有できるベクトル量子化手
段があればそのベクトル量子化手段を共有することを特
徴とする請求項10から12のいずれかに記載の音声認
識装置。 - 【請求項15】 前記それぞれのサブワードHMMのあ
る状態ごとに、前記サブワード対応のベクトル量子化手
段のうち共有できるベクトル量子化手段があればそのベ
クトル量子化手段を共有することを特徴とする請求項1
0から12のいずれかに記載の音声認識装置。 - 【請求項16】 前記サブワード対応のベクトル量子化
手段は、それぞれのベクトル量子化手段ごとにコードサ
イズをそのサブワードに応じた最適なコードサイズとす
ることを特徴とする請求項10から15のいずれかに記
載の音声認識装置。 - 【請求項17】 単語・言語テーブルを有し、前記ベク
トル量子化部がベクトル量子化を行う際、入力されたサ
ブワードがベクトル量子化すべきサブワードであるか否
かをこの単語・言語テーブルを参照して調べ、ベクトル
量子化すべきサブワードでない場合にはベクトル量子化
を行わないようにすることを特徴とする請求項10から
16のいずれかに記載の音声認識装置。 - 【請求項18】 前記ベクトル量子化手段はコードブッ
クであることを特徴とする請求項10から17のいずれ
かに記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001223610A JP4048741B2 (ja) | 2001-07-24 | 2001-07-24 | Hmmの出力確率演算方法および音声認識装置 |
US10/197,461 US7058576B2 (en) | 2001-07-24 | 2002-07-18 | Method of calculating HMM output probability and speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001223610A JP4048741B2 (ja) | 2001-07-24 | 2001-07-24 | Hmmの出力確率演算方法および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003036092A true JP2003036092A (ja) | 2003-02-07 |
JP4048741B2 JP4048741B2 (ja) | 2008-02-20 |
Family
ID=19056913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001223610A Expired - Fee Related JP4048741B2 (ja) | 2001-07-24 | 2001-07-24 | Hmmの出力確率演算方法および音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7058576B2 (ja) |
JP (1) | JP4048741B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484514B2 (en) | 2009-05-15 | 2013-07-09 | Nec Corporation | Fault cause estimating system, fault cause estimating method, and fault cause estimating program |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2409750B (en) * | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
DE112008002905T5 (de) * | 2007-11-01 | 2010-12-30 | Modine Manufacturing Co., Racine | Wärmetauscher |
US9328966B2 (en) * | 2007-11-01 | 2016-05-03 | Modine Manufacturing Company | Heat exchanger with a baffle reinforcement member |
KR100932538B1 (ko) * | 2007-12-12 | 2009-12-17 | 한국전자통신연구원 | 음성 합성 방법 및 장치 |
US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
DE102009049483A1 (de) * | 2009-10-15 | 2011-04-21 | Modine Manufacturing Co., Racine | Wärmetauscher und Dichtungsanordnung dafür |
WO2014020588A1 (en) * | 2012-07-31 | 2014-02-06 | Novospeech Ltd. | Method and apparatus for speech recognition |
US9792910B2 (en) * | 2015-04-29 | 2017-10-17 | Nuance Communications, Inc. | Method and apparatus for improving speech recognition processing performance |
CN107516176B (zh) | 2016-06-17 | 2021-03-19 | 菜鸟智能物流控股有限公司 | 物流信息处理方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE33597E (en) * | 1982-10-15 | 1991-05-28 | Hidden Markov model speech recognition arrangement | |
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
JPH0743598B2 (ja) | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
JPH07160288A (ja) | 1993-12-06 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
-
2001
- 2001-07-24 JP JP2001223610A patent/JP4048741B2/ja not_active Expired - Fee Related
-
2002
- 2002-07-18 US US10/197,461 patent/US7058576B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484514B2 (en) | 2009-05-15 | 2013-07-09 | Nec Corporation | Fault cause estimating system, fault cause estimating method, and fault cause estimating program |
Also Published As
Publication number | Publication date |
---|---|
JP4048741B2 (ja) | 2008-02-20 |
US7058576B2 (en) | 2006-06-06 |
US20030061044A1 (en) | 2003-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | DurIAN: Duration Informed Attention Network for Speech Synthesis. | |
EP0590925B1 (en) | Method of speech modelling and a speech recognizer | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP2007047818A (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JPH09212188A (ja) | 制約付き状態尤度を有する復号化された状態系列を用いた音声認識方法 | |
KR20090061920A (ko) | 음성 합성 방법 및 장치 | |
JP4048741B2 (ja) | Hmmの出力確率演算方法および音声認識装置 | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
Collobert et al. | Word-level speech recognition with a letter to word encoder | |
Franco et al. | Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems | |
JP2004109590A (ja) | 音響モデル作成方法および音声認識装置 | |
JP2002207499A (ja) | 非常に低いビット・レートで作動する音声符号器のための韻律を符号化する方法 | |
JP4442211B2 (ja) | 音響モデル作成方法 | |
GB2465383A (en) | A speech recognition system using a plurality of acoustic models which share probability distributions | |
JP4283133B2 (ja) | 音声認識装置 | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
US11670292B2 (en) | Electronic device, method and computer program | |
Anoop et al. | Investigation of different G2P schemes for speech recognition in Sanskrit | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
Ferreiros et al. | Improving continuous speech recognition in Spanish by phone-class semicontinuous HMMs with pausing and multiple pronunciations | |
Debyeche et al. | A new vector quantization approach for discrete HMM speech recognition system | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP6995967B2 (ja) | 生成装置、認識システム、および、有限状態トランスデューサの生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050426 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131207 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |