JP4048741B2 - Hmmの出力確率演算方法および音声認識装置 - Google Patents

Hmmの出力確率演算方法および音声認識装置 Download PDF

Info

Publication number
JP4048741B2
JP4048741B2 JP2001223610A JP2001223610A JP4048741B2 JP 4048741 B2 JP4048741 B2 JP 4048741B2 JP 2001223610 A JP2001223610 A JP 2001223610A JP 2001223610 A JP2001223610 A JP 2001223610A JP 4048741 B2 JP4048741 B2 JP 4048741B2
Authority
JP
Japan
Prior art keywords
vector quantization
subword
vector
hmm
quantization means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001223610A
Other languages
English (en)
Other versions
JP2003036092A (ja
Inventor
康永 宮澤
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001223610A priority Critical patent/JP4048741B2/ja
Priority to US10/197,461 priority patent/US7058576B2/en
Publication of JP2003036092A publication Critical patent/JP2003036092A/ja
Application granted granted Critical
Publication of JP4048741B2 publication Critical patent/JP4048741B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は離散型HMM(Hidden Markov Model)における出力確率を求めるHMMの出力確率演算方法およびそのHMMの出力確率演算方法を用いた音声認識装置に関する。
【0002】
【従来の技術】
音声認識を行うための音素モデルとしてHMMが広く使われている。このHMMを用いた音声認識手法は高い認識率を得ることができる反面、計算量が多いのが難点である。特にHMMの出力確率を求めるには多くの演算量を必要とし、それに伴って、演算を行うために多くのメモリ領域を必要とするなどの問題がある。
【0003】
これらの問題を解決する手法として、たとえば、日本音響学会誌42巻12号(1986)「 Hidden Markov Modelに基づいた音声認識」に記述されているように、入力音声を音声分析して得られた特徴ベクトル系列を、予め作成された1つのコードブックを用いてベクトル量子化し、得られたコード(ラベル)を各単語を構成するHMM(たとえば音素のHMM)に入力して状態出力確率をテーブル参照で得て、それぞれのHMMにより得られる尤度を比較して音声認識を行う方法が知られている。
【0004】
このベクトル量子化を用いる音声認識方法において、それぞれの状態ごとの出力確率をテーブル参照で得る処理は次のようにして行われる。
【0005】
入力音声を音声分析部で所定時間ごとに音声分析し、たとえば10数次元のLPCケプストラム係数などでなる特徴ベクトル列Vt( tは入力音声を所定時間ごとに区切ったときのそれぞれのフレーム番号であり、フレーム数をTで表せば、t=1,2,・・・,T)を得て、その特徴ベクトル列Vtに対し、コードブックを用いてベクトル量子化部で量子化し、それぞれのフレーム番号(t=1,2,・・・)ごとのコード列Ctを出力する。
【0006】
ここで用いられるコードブックは、あらゆる音素の入っている音声データから作成されたコードブックであり、ここでは、そのコードブックサイズをKで表せば、あるフレーム番号に対するコードCtの値は、コードブックのラベル番号k(k=1,2,・・・,K)で表すことができる。
【0007】
ここで、ある音素におけるHMMにおいて、今、ある状態iからある状態jに遷移する際に、コードCtが入力されてきたときにそのコードCtを出力する確率をbij(Ct)で表せば、この場合、コードブックサイズがKで、あるフレーム番号に対するコードCtの値は、コードブックのラベル番号k(k=1,2,・・・,K)で表すことができるので、1〜Kのラベル番号を出力する出力確率bij(k)を求めればよいことになる。
【0008】
したがって、各音素HMMのそれぞれの状態遷移において、ラベル番号1を出力する確率、ラベル番号2を出力する確率、・・・、ラベル番号Kを出力する確率をテーブルとして持たせておけば、そのラベル番号を基にテーブル参照するだけで、それぞれの状態遷移ごとの出力確率を得ることができる。
【0009】
【発明が解決しようとする課題】
このように、ベクトル量子化を用いる音声認識方法は、連続分布型HMMのようなベクトル量子化を用いない方法と比較すると、演算量を大幅に少なくすることができ、演算時間の短縮や演算時に必要とするメモリ領域を大幅に少なくできるなどの利点があるが、その一方で、ベクトル量子化誤差のために認識性能に劣るという問題がある。特に、不特定話者の音声認識を行う場合の認識性能に問題がある。
【0010】
このベクトル量子化誤差を少なくするには、コードブックサイズをきわめて大きなサイズとすればよいが、コードブックサイズをあまり大きくすると、量子化を行う際の演算量が増大するとともに、多くのメモリ領域も必要となるなど、ベクトル量子化する利点が失われることになる。
【0011】
また、従来のコードブックは、全ての音素が含まれるような学習用の音声データから作成されたものであるので、幅広い音声に対応できる平均化されたコードブックとなる。このため、認識性能を高めるにはコードブックサイズは必然的に大きくならざるを得ない。
【0012】
また、認識性能に大きな影響を与えない音声データに対してもコードデータとして持つことになるので、不必要にコードブックサイズが大きくなるのが現状である。
【0013】
そこで本発明は、HMMの出力確率を少ない演算量で高速に求めることを可能とするHMMの出力確率演算方法を提供するとともに、そのHMMの出力確率演算方法を用いることで、ハードウエア能力に制約のあるシステムであっても高い認識性能を得ることができる音声認識装置を提供することを目的とする。
【0014】
【課題を解決するための手段】
上述した目的を達成するために、本発明におけるHMMの出力確率演算方法は、入力音声を音声分析して得られる特徴ベクトルをベクトル量子化手段を用いてベクトル量子化し、その量子化結果に対応した状態出力確率をテーブル参照で得るHMMの出力確率算出方法であって、前記ベクトル量子化を行う際に用いるベクトル量子化手段は、それぞれのサブワード対応のベクトル量子化手段とし、前記テーブルはこれらサブワード対応のベクトル量子化手段に対応して設けられ、前記入力音声を音声分析して得られる特徴ベクトルを、前記サブワード対応のベクトル量子化手段のうちのあるベクトル量子化手段を用いてベクトル量子化し、その量子化結果を出力し、当該量子化結果を出力したベクトル量子化手段に対応するテーブルを参照してその量子化結果に対する状態出力確率を得るようにしている。
【0015】
このHMMの出力確率演算方法において、前記サブワードは音素であって、音素対応のベクトル量子化手段を作成し、この作成された音素対応のベクトル量子化手段はそれぞれの音素HMMに対応させるようにする。
【0016】
また、このHMMの出力確率演算方法において、前記サブワードは音節であって、音節対応のベクトル量子化手段を作成し、この作成された音節対応のベクトル量子化手段はそれぞれの音節HMMに対応させるようにする。
【0017】
また、このHMMの出力確率演算方法において、前記サブワードは母音と子音であって、前記サブワード対応のベクトル量子化手段は母音によって作成されたベクトル量子化手段と子音によって作成されたベクトル量子化手段であってもよい。
【0018】
また、このHMMの出力確率演算方法において、前記それぞれのサブワードHMMの幾つかのサブワードHMMごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することもできる。
【0019】
また、このHMMの出力確率演算方法において、前記それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することもできる。
【0020】
また、このHMMの出力確率演算方法において、前記サブワード対応のベクトル量子化手段は、それぞれのベクトル量子化手段ごとにコードサイズをそのサブワードに応じた最適なコードサイズとすることもできる。
【0021】
また、このHMMの出力確率演算方法において、前記ベクトル量子化を行う際、入力されたサブワードがベクトル量子化すべきサブワードであるか否かを調べ、ベクトル量子化すべきサブワードでない場合にはベクトル量子化を行わないようにすることもできる。
【0022】
また、このHMMの出力確率演算方法において用いるベクトル量子化手段はコードブックを用いることができる。
【0023】
また、本発明の音声認識装置は、入力音声を音声分析して得られる特徴ベクトルをベクトル量子化手段を用いてベクトル量子化し、その量子化結果に対応した状態出力確率をテーブル参照で得て、その状態出力確率をパラメータの1つとして用いて音声認識を行うHMMを用いた音声認識装置であって、入力音声に対し音声の特徴分析を行って特徴ベクトル列を出力する音声分析部と、それぞれのサブワード対応のベクトル量子化手段が記憶されたベクトル量子化手段記憶部と、前記音声分析部から出力される特徴ベクトル列に対し、前記ベクトル量子化手段記憶部に記憶されたサブワード対応のベクトル量子化手段を用いてベクトル量子化を行い、その量子化結果を出力するベクトル量子化処理部と、サブワードHMM演算に必要な様々なパラメータや前記サブワード対応のベクトル量子化手段に対応して設けられた状態出力確率参照用のテーブルを有するサブワードHMM記憶部と、前記ベクトル量子化処理部からの量子化結果を受けると、そのベクトル量子化に用いたベクトル量子化手段に対応した前記テーブルを参照し、その量子化結果に対する状態出力確率を取得し、その状態出力確率をパラメータの1つとして用いて音声認識処理を行い認識結果を出力する音声認識処理部とを有した構成となっている。
【0024】
この音声認識装置において、前記サブワードは音素であって、音素対応のベクトル量子化手段を作成し、この作成された音素対応のベクトル量子化手段はそれぞれの音素HMMに対応するようにしている。
【0025】
また、この音声認識装置において、前記サブワードは音節であって、音節対応のベクトル量子化手段を作成し、この作成された音節対応のベクトル量子化手段はそれぞれの音節HMMに対応するようにしている。
【0026】
また、この音声認識装置において、前記サブワードは母音と子音であって、前記サブワード対応のベクトル量子化手段は母音によって作成されたベクトル量子化手段と子音によって作成されたベクトル量子化手段であってもよい。
【0027】
また、この音声認識装置において、前記それぞれのサブワードHMMの幾つかのサブワードHMMごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することもできる。
【0028】
また、この音声認識装置において、前記それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することもできる。
【0029】
また、この音声認識装置において、前記サブワード対応のベクトル量子化手段は、それぞれのベクトル量子化手段ごとにコードサイズをそのサブワードに応じた最適なコードサイズとすることもできる。
【0030】
また、この音声認識装置において、単語・言語テーブルを有し、前記ベクトル量子化部がベクトル量子化を行う際、入力されたサブワードがベクトル量子化すべきサブワードであるか否かをこの単語・言語テーブルを参照して調べ、ベクトル量子化すべきサブワードでない場合にはベクトル量子化を行わないようにすることもできる。
【0031】
また、この音声認識装置において用いるベクトル量子化手段はコードブックを用いることができる。
【0032】
このように本発明は、ベクトル量子化を行う際に用いるベクトル量子化手段は、それぞれのサブワード(単語や言語を構成する音素や音節をここではサブワードいう)対応のベクトル量子化手段としている。
【0033】
このサブワード対応のベクトル量子化手段は、それぞれのサブワードに対応する音声データを主として作成されたものであるため、入力音声の特徴ベクトルの分布を適切に表現したベクトル量子化手段とすることができ、このようなサブワード対応のベクトル量子化手段を用いてベクトル量子化を行うことによって、ベクトル量子化誤差を最小限に抑えることができる。
【0034】
また、このようなサブワード対応のベクトル量子化手段は、上述したように、入力音声の特徴ベクトルの分布を適切に表現したベクトル量子化手段となっているため、少ないコードサイズで高い認識性能を得ることができ、コードサイズを少なくできることからベクトル量子化の演算量を少なくすることができ、出力確率を記憶するためのテーブルサイズも小さくできるので使用するメモリ領域も小さくて済む。
【0035】
また、サブワードを音素とした場合には、音素対応にベクトル量子化手段を作成することによって、それぞれの音素の特徴ベクトルの分布に適合したベクトル量子化手段とすることができ、それを用いてベクトル量子化を行えば、ベクトル量子化誤差は極力小さく抑えられたものとなる。
【0036】
また、サブワードを音節とした場合には、音節対応にベクトル量子化手段を作成することによって、それぞれの音節の特徴ベクトルの分布に適合しベクトル量子化手段とすることができ、それを用いてベクトル量子化を行えば、ベクトル量子化誤差は極力小さく抑えられたものとなる。
【0037】
また、サブワード対応のベクトル量子化手段は、母音によって作成されたベクトル量子化手段と子音によって作成されたベクトル量子化手段としてもよく、これによっても、従来のようにあらゆる音素が含まれる音声データから作成されたベクトル量子化手段に比べれば、ベクトル量子化誤差を小さくすることができる。
【0038】
また、前記それぞれのサブワードHMMの幾つかのサブワードHMMで、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があれば、それを共有することも可能であり、これによれば、ベクトル量子化手段の数を減らすことができ、ベクトル量子化手段全体のデータサイズを小さくすることができるので、演算量の削減や使用するメモリ領域を少なくすることができる。
【0039】
また、それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があれば、それを共有することも可能であり、これによれば、たとえば、音節ごとにベクトル量子化手段を作成するような場合、それぞれの音節HMMの状態ごとに、ベクトル量子化手段を共有することができるので、ベクトル量子化手段全体のデータサイズを大幅に小さくすることができる、それによって、演算量の削減や使用するメモリ領域を少なくすることができる。
【0040】
また、サブワード対応のベクトル量子化手段は、それぞれのベクトル量子化手段ごとにコードサイズをそのサブワードに応じた最適なコードサイズとすることも可能であり、これによれば、それぞれのサブワードに応じた最適なベクトル量子化手段とすることができ、それぞれのサブワードに適したベクトル量子化が行え、より一層、高い認識性能が得られるとともに、認識性能に大きく影響を与えないようなサブワードに対してはコードサイズを極力小さくするということもできるので、ベクトル量子化手段のサイズの無駄を省くこともできる。
【0041】
また、ベクトル量子化部がベクトル量子化を行う際、入力されたサブワードがベクトル量子化すべきサブワードであるか否かをこの単語・言語テーブルを参照して調べ、ベクトル量子化すべきサブワードでない場合にはベクトル量子化を行わないようにすることもできるので、無駄な処理を省くことができ処理の高速化を図ることができる。
【0042】
また、ベクトル量子化手段としてコードブックを用いるようにすれば、ベクトル量子化を行うための演算量を少なくすることができ。
【0043】
本発明のHMMの出力確率演算方法によれば、ベクトル量子化誤差の少ない出力確率を少ない演算量で得ることができ、このHMMの出力確率演算方法を音声認識装置に適用することで、ハードウエア能力に制約のあるシステムであっても高い認識性能を持った音声認識装置とすることができる。
【0044】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明のHMMの出力確率演算方法およびそのHMMの出力確率演算方法を用いた音声認識装置についての説明である。
【0045】
図1および図2はサブワード対応のベクトル量子化手段(この実施の形態ではベクトル量子化手段としてコードブックを用いることにする)を作成し、そのサブワード対応のコードブックを用いてベクトル量子化を行って、音声認識に必要なパラメータの1つである出力確率をテーブル参照によって得る処理を説明する図であり、図1はサブワードを音素とし、それぞれの音素対応のコードブックによってベクトル量子化し、その量子化結果として得られるコードを用いたテーブル参照を行って出力確率を得る処理を説明するものである。
【0046】
ここでは音素として母音や子音など26音素を用い、これらの音素対応にコードブックを作成し、ここでは、それぞれのコードブックのサイズ(コード数K)はK=64とする。
【0047】
そして、それぞれの音素対応のコードブックは、図1において、たとえば、コードブックCB1は、/a/の音素HMM11対応し、コードブックCB2は、/i/の音素HMM12に対応するというように、それぞれの音素HMMに対応している。この図1では、説明を簡単にするために/a/と/i/の音素のみが図示されている。
【0048】
そして、/a/の音素HMM11は、その音素HMMが4状態3ループで表されるとすれば、それぞれの状態遷移ごとにそれぞれ状態出力確率テーブル(以下、単にテーブルという)T1,T2,T3を持っている。
【0049】
すなわち、テーブルT1は状態S1から状態S2の状態遷移に対応したテーブルであり、テーブルT2は状態S2から状態S3の状態遷移に対応したテーブルであり、テーブルT3は状態S3から状態S4の状態遷移に対応したテーブルである。
【0050】
なお、状態S1,S2,S3,S4のうち、状態S1,S2,S3はそれぞれその状態を自己ループする遷移(状態S1から状態S1、状態S2から状態S2、状態S3から状態S3)を有するが、状態S1から状態S1への状態遷移については上述のテーブルT1を用い、状態S2から状態S2への状態遷移についても上述のテーブルT2、状態S3から状態S3への状態遷移についても上述のテーブルT3を用いる。
【0051】
なお、この場合、コードブックサイズをK=64としているから、コードブックCB1から出力されるコードCtを表すラベルk(kはラベル番号)は、k=1,2,・・・,64のいずれかをとり、それぞれのテーブルT1,T2,T3には、ラベルk=1,2,・・・,64に対応した出力確率値が格納されている。
【0052】
/i/の音素HMM12も /a/の音素と同様に、それぞれの状態遷移ごとにそれぞれテーブルT11,T12,T13を持ち、テーブルT11は状態S11から状態S12の状態遷移に対応したテーブル、テーブルT12は状態S12から状態S13の状態遷移に対応したテーブル、テーブルT13は状態S13から状態S14の状態遷移に対応したテーブルである。この場合も、それぞれの状態S11,S12,S13をそれぞれ自己ループする遷移についても、上述のテーブルT11,T12,T13を用いる。
【0053】
そして、この場合も、コードブックサイズをK=64としているから、コードブックCB2から出力されるコードCtを表すラベルk(kはラベル番号)は、k=1,2,・・・,64のいずれかをとり、それぞれのテーブルT11,T12,T13には、ラベルk=1,2,・・・,64に対応した出力確率値が格納されている。
【0054】
そして、入力音声を所定時間ごとに音声分析し、たとえば10数次元のLPCケプストラム係数でなる特徴ベクトル列Vt( tは入力音声を所定時間ごとに区切ったときのそれぞれのフレーム番号であり、入力音声のフレーム数をTで表せば、t=1,2,・・・,T)を得て、その特徴ベクトル列Vtをそれぞれの音素ごとに作成されたコードブックCB1,CB2,・・・によりベクトル量子化を行ったところ、音素/a/に対応するコードブックCB1からコードCtを表すラベルkとしてk=24が出力されたとする。
【0055】
このラベルk=24が /a/の音素HMM11に入力されると、たとえば、状態S1から状態S2への状態遷移の際のコードCtを出力する確率(出力確率は)は、テーブルT1を参照することで得ることができる。
【0056】
このようにして、あるフレームの特徴ベクトルVt(t=1,2,・・・)が音素/a/のコードブックCB1によってベクトル量子化されて得られたコードCtを出力する出力確率は、音素/a/の音素HMM11のそれぞれの状態に対応したテーブルT1,T2,T3を参照することで得ることができる。
【0057】
同様に、ある入力音声を特徴分析して得られたあるフレームの特徴ベクトルVtをそれぞれの音素ごとに作成されたコードブックCB1,CB2,・・・により、ベクトル量子化を行ったところ、音素/i/のコードブックCB2からコードCtを表すラベルkとしてk=13が出力されたとする。
【0058】
このラベルk=13が /i/の音素HMM12に入力されると、たとえば、状態S11から状態S12への状態遷移の際のコードCtを出力する確率(出力確率は)は、テーブルT11を参照することで得ることができる。
【0059】
このようにして、あるフレームの特徴ベクトルVt(t=1,2,・・・)が音素/i/のコードブックCB2によってベクトル量子化されて得られたコードCtを出力する出力確率は、音素/i/の音素HMM12のそれぞれの状態に対応したテーブルT11,T12,T13を参照することで得ることができる。
【0060】
このように、この図1の例では、それぞれの音素ごとの音素HMMに対応したそれぞれの音素対応のコードブックCB1,CB2,・・・を持ち、入力音声を特徴分析して得られたあるフレームの特徴ベクトルVtを、対応するコードブックでコード化してラベルとして出力し、そのラベルを当該コードブックに対応した音素HMMに与えることで、それぞれの状態対応に設けられたテーブル参照を行うことによって、その音素HMMのそれぞれの状態における出力確率を得ることができる。
【0061】
このそれぞれの音素対応のコードブックCB1,CB2,・・・は、音素ごとの特徴ベクトルの分布に適応したコードブックとなっているので、その音素を表現するにふさわしい内容となっている。したがって、そのコードブックのコードサイズKはK=64程度でも、実用的には十分な性能を得ることができる。したがって、ここでの説明のように、音素を26音素とした場合、26個のコードブックを必要とするが、この26個のコードブック全体のコードブックサイズは、26×64=1664のコード数で済む。
【0062】
このように、1つの音素に対するコードブックのコードサイズKを64とし、それをそれぞれの音素対応に作成したものと、従来の全ての音素の含まれる音声データから作成された1つのコードブックを用いる場合と比較すると、本発明による個々の音素対応のコードブックを用いた場合は、従来のコードブックサイズを2048としたものよりも高い認識性能が得られ、従来のコードブックサイズを4096としたもの同等の認識性能が得られることがわかった。
【0063】
また、コードブックCB1,CB2,・・・のコードサイズを上述したコードサイズ64の半分とした32でも、従来のコードブックサイズを1024としたものよりも高い認識性能が得られ、従来のコードブックサイズを2048としたもの同等の認識性能が得られることがわかった。このように、コードブックCB1,CB2,・・・のコードサイズを32とすれば、全体のコードブックサイズはさらに小さくて済み、この場合、26×32=832のコード数で済む。
【0064】
また、それぞれの音素対応のコードブックのコードサイズは、全ての音素において同じとしてもよいが、音素ごとにコードブックサイズを任意に設定することも可能であり、これによって、音素ごとに最適化が図れる。
【0065】
以上のように音素対応のコードブックとすることによって、少ないコードサイズで高い認識性能を得ることができ、コードサイズを少なくできることからベクトル量子化の演算量を少なくすることができ、また、出力確率を記憶するためのテーブルサイズも小さくできるので使用するメモリ領域も小さくて済む。
【0066】
以上はサブワードを音素とした場合について説明したが、音節の場合も同様に考えることができる。サブワードを音節とした場合について図2を参照しながら説明する。
【0067】
図2はサブワードを音節とし、それぞれの音節対応のコードブックによってベクトル量子化し、その量子化結果として得られるコードを用いたテーブル参照を行って出力確率を得る処理を説明するものである。
【0068】
この音節対応のコードブックは、説明の都合上、この場合も図1と同様、それぞれのコードブックサイズ(コード数K)はK=64としている。
【0069】
そして、それぞれの音節対応のコードブックは、図2において、たとえば、コードブックCB11は、/ka/の音節HMM21に対応し、コードブックCB12は/sa/の音節HMM22に対応するというように、それぞれの音節HMMに対応している。この図2では、説明を簡単にするために/ka/と/sa/の音節のみが図示されている。
【0070】
そして、/ka/の音節HMM21は、その音節HMM21が6状態5ループで表されるとすれば、図1の場合と同様に、それぞれの状態遷移ごとにそれぞれテーブル(この場合、T21〜T25)を持っている。
【0071】
なお、この場合も図1と同様、コードブックサイズ(コード数K)をK=64としているから、コードブック11から出力されるコードCtを表すラベルk(kはラベル番号)は、k=1,2,・・・,64のいずれかをとり、それぞれのテーブルT21〜T25には、ラベルk=1,2,・・・,64に対応した出力確率値が格納されている。
【0072】
/sa/の音節HMM22もその音節HMM22が6状態5ループで表されるとすれば、 /ka/の音節と同様に、それぞれの状態遷移ごとにそれぞれテーブルT31〜T35を持っている。そして、この場合も、コードブックサイズを64としているから、コードブックCB12から出力されるコードCtを表すラベルk(kはラベル番号)は、k=1,2,・・・,64のいずれかをとり、それぞれのテーブルT31〜T35には、ラベルk=1,2,・・・,64に対応した出力確率値が格納されている。
【0073】
そして、入力音声を所定時間ごとに音声分析し、たとえば10数次元のLPCケプストラム係数でなる特徴ベクトル列Vt( tは入力音声を所定時間ごとに区切ったときのそれぞれのフレーム番号であり、入力音声のフレーム数をTで表せば、t=1,2,・・・,T)を得て、その特徴ベクトル列Vtをそれぞれの音節ごとに作成されたコードブックCB11,CB12,・・・によりベクトル量子化を行ったところ、音節/ka/に対応するコードブックCB11からコードCtを表すラベルkとしてk=42が出力されたとする。
【0074】
このラベルk=42が /ka/の音節HMM21に入力されると、たとえば、状態S21から状態S22の状態遷移の際のコードCtを出力する確率(出力確率は)は、テーブルT21を参照することで得ることができる。
【0075】
このようにして、あるフレームの特徴ベクトルVt(t=1,2,・・・)が音節/ka/のコードブックCB11によってベクトル量子化されることによって得られたコードCtを出力する出力確率は、音節/ka/の音節HMM21のそれぞれの状態に対応したテーブルT21,T22,T23,T24,T25を参照することで得ることができる。
【0076】
同様に、ある入力音声を特徴分析して得られたあるフレームの特徴ベクトルVtをそれぞれの音節対応に作成されたコードブックCB11,CB12,・・・により、ベクトル量子化を行ったところ、音節/sa/のコードブック12からコードCtを表すラベルkとしてk=31が出力されたとする。
【0077】
このラベルk=31が /sa/の音節HMM22に入力されると、たとえば、状態S31から状態S32への状態遷移の際のコードCtを出力する確率(出力確率は)は、テーブルT31を参照することで得ることができる。
【0078】
このようにして、あるフレームの特徴ベクトルVt(t=1,2,・・・)が音節/sa/のコードブックCB12によってベクトル量子化されることによって得られたコードCtを出力する出力確率は、音節/sa/の音節HMM22のそれぞれの状態に対応したテーブルT31,T32,T33、T34,T35を参照することで得ることができる。
【0079】
このように、図2の例では、それぞれの音節ごとの音節HMMに対応したそれぞれの音節ごとのコードブックCB11,CB12,・・・を持ち、入力音声を特徴分析して得られたあるフレームの特徴ベクトルVtを、対応するコードブックでコード化してラベルとして出力し、そのラベルを当該コードブックに対応した音節HMMに与えることで、それぞれの状態対応に設けられたテーブル参照を行うことによって、その音節HMMのそれぞれの状態における出力確率を得ることができる。
【0080】
なお、この場合もそれぞれの音節ごとのコードブックのコードサイズは、全ての音節において同じとしてもよいが、音節ごとにコードブックサイズを任意に設定することも可能であり、これによって、それぞれの音節ごとに最適化が図れる。
【0081】
以上、サブワードを音素あるいは音節とした場合の、音素ごとのコードブック、音節ごとのコードブックを作成し、それによって、特徴ベクトルをベクトル量子化し、テーブル参照によって出力確率を求める処理について説明したが、本発明は、それぞれのサブワードHMMのある状態ごとに、それぞれのサブワード対応のコードブックのうちのあるコードブックを共有することを可能としている。これについて幾つかの音節HMMのある状態ごとにコードブックを共有する場合を例にとって説明する。
【0082】
図3は多数の音節のうち、たとえば、/ka/、/sa/、/ki/、/ku/の音節HMMモデルをそれぞれ示すもので、図3(a)は/ka/の音節HMMモデル、図3(b)は/sa/の音節HMMモデル、図3(c)は/ki/の音節HMMモデル、図3(d)は/ku/の音節HMMモデルを示している。
【0083】
これらの各音節HMMにおいて、たとえば、/ka/の音節HMM は、この図3(a)で示すように、仮に、状態S21,S22が/k/を表現する部分、状態S23〜S26が/a/を表現する部分というように区分され、また、/sa/の音節HMM は、この図3(b)で示すように、仮に、状態S31,S32が/s/を表現する部分、状態S33〜S36が/a/を表現する部分であるというように区分されたとする。
【0084】
また、/ki/の音節HMMは、この図3(c)に示すようように、仮に、状態S41,S42が/k/を表現する部分、状態S43〜S46が/i/を表現する部分であるというように区分され、/ku/の音節HMMは、この図3(d)に示すように、仮に、状態S51,S52が/k/を表現する部分、状態S53〜S56が/u/を表現する部分であるというように区分されたとする。
【0085】
このように、それぞれの音節HMMにおいて、それぞれの状態をそれぞれの音素対応にわけることができるので、それぞれの音節HMMの状態ごとに、その状態に対応する音素のコードブックを共有することができる。
【0086】
たとえば、これらの各音節HMMにおいて、図3(a)の/ka/の音節HMMにおける /a/を表現する部分の状態S23〜S26と、図3(b)の/sa/の音節HMMにおける/a/を表現する部分の状態S33〜S36に対しては、/a/のコードブックを共有する。
【0087】
また、これらの各音節HMMにおいて、図3(a)の/ka/の音節HMMにおける /k/を表現する部分の状態S21,S22と、図3(c)の/ki/の音節HMMにおける/k/を表現する部分の状態S41,S42と、図3(d)の/ku/の音節HMMにおける/k/を表現する部分の状態S51,S52に対しては、それぞれ/k/のコードブックを共有する。
【0088】
したがって、たとえば、/ka/の音節HMMにおける出力確率を求める際には、最初の状態S21,S22においては、共有する/k/のコードブックを用い、その/k/のコードブックによりベクトル量子化されて得られたコード(ラベル)によってテーブル参照を行い、あとの方の状態S23〜S26においては、共有する/a/のコードブックを用い、その/a/のコードブックによりベクトル量子化されて得られたコード(ラベル)によってテーブル参照を行うことにより出力確率を得る。
【0089】
このように、それぞれの音節において、それぞれの音節HMMの状態ごとに、コードブックを共有することができ、それによって、たとえば、110程度の音節に対し音素と同等の20数個のコードブックで対応することができる。
【0090】
なお、それぞれの音節HMMの状態ごとにコードブックを共有する際、たとえば、/ka/の音節HMMと/sa/の音節HMMにおいては、それぞれ/a/を表現する状態が存在するが、同じ/a/であっても、この場合、/ka/の音節HMM においては、/a/の直前には/k/が存在し、/sa/の音節HMM においては、/a/の直前には/s/が存在するので、本来は、前後の関係を考慮した/a/のコードブックを用いるのが理想であるが、それを考慮しないで作成された/a/のコードブックであっても十分な結果を得ることができる。
【0091】
また、それぞれの音節HMMにおいて、どの状態がどのような音素を表現するかを判断して、どこで区切るかの区切りを設定したり、それによってどのコードブックを共有させるかを決める処理は、人間の経験的な知識によって行うこともできるが、コンピュータなどによって計算を行い、ある音節HMMにおいて、どの状態がどのような音素を表現するかを自動的に判断することで、どの音節HMMのどの状態部分とどの音節のどの状態部分に対してはどのようなコードブックを共有させるかを決めることもできる。
【0092】
なお、図3に示す例は、説明の都合上、単純に最初の2つの状態とあとの4つの状態で区切った例であるが、たとえば、/ka/の音節HMMにおいては、状態S21,S22,S23が/k/を表現し、状態S24以降が/a/を表現し、また、/sa/の音節HMMにおいては、上述したように、状態S31,S32が/s/を表現し、状態S34以降が/a/を表現するというように、それぞれの音節HMMによって区切られる場所は異なる場合も多い。
【0093】
このように、それぞれのサブワードHMM(上述の例は音節HMM)のある状態ごとに、サブワードごとのコードブックのうち共有可能なコードブックがあればそれを共有することによって、全体のコードブックサイズを大幅に少なくすることができる。これによって、演算量の削減が図れ、しかも、高い認識性能を維持することができる。
【0094】
図4は本発明の音声認識装置の概略的な構成図を示すもので、音声を入力する音声入力手段としてのマイクロホン1、入力された音声信号を増幅したりA/D変換する音声信号処理部2、この音声信号入力処理部2で処理された音声信号を所定時間ごとに音声分析し、たとえば10数次元のLPCケプストラム係数などでなる特徴ベクトル列Vt( tは入力音声を所定時間ごとに区切ったときのそれぞれのフレーム番号であり、フレーム数をTで表せば、t=1,2,・・・,T)を出力する音声分析部3、この音声分析部3で分析されたそれぞれのフレームごとの特徴ベクトルVtをベクトル量子化処理するベクトル量子化処理部4、このベクトル量子化処理部4がベクトル量子化処理を行う際に用いるサブワード対応のベクトル量子化手段(この実施の形態ではコードブック)を記憶したコードブック記憶部5、サブワードHMM演算に必要な様々なパラメータや前述した状態出力確率テーブルを記憶しているサブワードHMM記憶部6、このサブワードHMM記憶部6に記憶されているデータと上述のベクトル量子化部4から出力されたコード(ラベル)を用いて音声認識処理を行い認識結果を出力する音声認識処理部7、この音声認識処理部7や上述のベクトル量子化処理部4がそれぞれの処理を行う際に参照する単語・言語テーブル8を有した構成となっている。
【0095】
なお、単語・言語テーブル8は音声認識部7が音声認識処理を行う過程で、認識結果に不自然さがあるか否かを判断したり、ベクトル量子化処理部4がベクトル量子化処理を行う過程で、不必要なサブワードに対してはベクトル量子化処理しないようにしたりするために用いられる。
【0096】
たとえば、音声認識装置が、認識すべき単語や言語数がごく限られた単語のみの認識を行えばよいような場合、その認識すべき単語や言語を単語・言語テーブル8として持っておくことで、音声認識している過程で、この単語・言語テーブル8を参照し、音声認識を行う必要のないサブワードであれば、そのサブワードに対してはベクトル量子化しないようにするということができる。
【0097】
また、逆に数多くの単語や言語さらには連続音声の認識を行う必要のある場合、入力音声を逐次的に処理することが行われるが、そのような場合、今現在の処理段階において認識すべき単語はどれかを単語・言語テーブル8を参照することで知ることができ、音声認識している過程で、その時点で不必要なサブワードであると判断されれば、そのサブワードに対してはベクトル量子化しないようにするということもできる。
【0098】
なお、コードブック記憶部5に記憶されるサブワード対応のコードブックは、たとえば、前述したように、サブワードが音素であれば、それぞれの音素ごとに作成されたコードブックであり、これらのコードブックはサブワードHMM記憶部6に記憶されているそれぞれのサブワード音素HMMに対応している(図1参照)。
【0099】
また、サブワードが音節であれば、コードブック記憶部5に記憶されるコードブックは、それぞれの音節ごとに作成されたコードブックであり、これらのコードブックはそれぞれの音節HMMに対応している(図2参照)。
【0100】
なお、このとき、前述したように、サブワードHMMのある状態ごとに、前記サブワード対応のコードブックのうちの共有可能なコードブックを共有することもできる。
【0101】
このような構成において、音声信号処理部2で増幅やA/D変換された入力音声信号を音声分析部3で分析し、それによって得られたある時刻に対応するフレームの特徴ベクトルVtを、それぞれのサブワードごとに作成されたコードブックによりベクトル量子化を行い、あるサブワードに対応するコードブックからコードCtを表すラベル値kが出力されたとする。
【0102】
このラベル値kが、対応するサブワードHMMに入力されることで、ある状態iからある状態jへの状態遷移の際のコードCtを出力する確率(出力確率は)を、その状態遷移ijに対応するテーブルを参照することで得ることができる。
【0103】
このようにして、それぞれのそれぞれの状態におけるコードCtを出力する出力確率をそれぞれの状態に対応したテーブルを参照することで得ることができ、それを入力音声の各時刻対応のフレームごとの特徴ベクトルについて行うことで、最終的な出力確率を得て、それに基づいて音声認識処理部7が音声認識を行う。
【0104】
なお、前述したように、ベクトル量子化処理部4がベクトル量子化処理を行う過程で、単語・言語テーブル8を参照することで、不必要なサブワードに対してはベクトル量子化しないようにしたり、音声認識処理部7が音声認識処理を行う過程で、認識結果に不自然さがあるか否かを判断したりすることも行う。
【0105】
以上説明したようにこの実施の形態では、サブワードとしての音素や音節ごとにコードブックを有しているので、それぞれのコードブックは、音素あるいは音節の特徴ベクトルの分布に適合したコードブックとすることができる。それによって、それぞれのコードブックサイズは小さくても、ベクトル量子化を行う際の量子化誤差を極力低くすることができる。また、そのベクトル量子化によって得られたコードを出力する確率(出力確率)はテーブル参照で得るが、そのテーブルのサイズもコードブックサイズに伴って小さくすることができる。
【0106】
このように、コードブックサイズやテーブルサイズを小さくできることから、演算量を大幅に少なくできるとともに、使用するメモリ領域も小さくすることができる。しかも、コードブックサイズやテーブルサイズを小さくしながら、高い音声認識性を得ることができる。
【0107】
さらに、それぞれのサブワードに対応するサブワードHMMのある状態ごとにコードブックを共有することもできる。特に、サブワードとして音節を用いた場合には、それぞれの音節HMMの状態ごとに共有できるコードブックがあれば、それを共有するといったことも可能であり、それによって、全ての音節に対し音素と同等の20数個のコードブックで対応することができる。
【0108】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、サブワードごとのコードブックとして、音素ごとのコードブックあるいは音節ごとのコードブックを持つようにしたが、これに限られることなく、たとえば、母音で1つのコードブックを作成し、子音で1つのコードブックを作成するようにしてもよい。これは、音素ごとのコードブックあるいは音節ごとのコードブックを持つ場合に比べ、多少大雑把なコードブックとなるが、従来の全ての音声から作成されたコードブックに比べれば、コードブックサイズをそれ程大きくすることなく高い認識性能を得ることができる。
【0109】
また、前述の実施の形態では、コードブックを共有する場合、サブワードHMM(たとえば、音節HMM)の状態ごとに、あるコードブックを共有する例について説明したが、サブワードHMMの状態ごとだけでなく、たとえば、/a/の音素HMMと/i/の音素HMMというように、幾つかのサブワードHMMでコードブックを共有することも可能である。
【0110】
また、前述の実施の形態では、ベクトル量子化手段としてコードブックを用いた例について説明したが、他のベクトル量子化手段を用いることもできる。
【0111】
また、本発明は、以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその処理プログラムが記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【0112】
【発明の効果】
以上説明したように本発明によれば、ベクトル量子化を行う際に用いるベクトル量子化手段は、それぞれのサブワード対応のベクトル量子化手段としている。このサブワード対応のベクトル量子化手段は、それぞれのサブワードに対する音声データから作成されたものであるため、入力音声の特徴ベクトルの分布を適切に表現したベクトル量子化手段とすることができ、このようなサブワード対応のベクトル量子化手段を用いてベクトル量子化を行うことによって、ベクトル量子化誤差を最小限に抑えることができる。これによって、この出力確率演算方法を音声認識装置に組み込むことによって高い認識性能を得ることができ、また、個々のベクトル量子化手段のコードサイズを少なくできることからベクトル量子化の演算量を少なくすることができ、出力確率を記憶するためのテーブルサイズも小さくできるので使用するメモリ領域も小さくて済む。
【0113】
また、前記それぞれのサブワードHMMの幾つかのサブワードHMMで、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があれば、それを共有することも可能であり、これによれば、ベクトル量子化手段の数を減らすことができ、全体のベクトル量子化手段のデータサイズを小さくすることができるので、演算量の削減や使用するメモリ領域を少なくすることができる。
【0114】
また、それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があれば、それを共有することも可能であり、これによれば、たとえば、音節ごとにベクトル量子化手段を作成するような場合、それぞれの音節HMMの状態ごとに、ベクトル量子化手段を共有することができるので、全体のベクトル量子化手段のデータサイズを大幅に小さくすることができる、それによって、演算量の削減や使用するメモリ領域を少なくすることができる。
【0115】
このように、本発明のHMMの出力確率演算方法によれば、ベクトル量子化誤差の少ない出力確率を少ない演算量で得ることができ、このHMMの出力確率演算方法を音声認識装置に適用することで、ハードウエア能力に制約のあるシステムであっても高い認識性能を持った音声認識装置とすることができる。
【図面の簡単な説明】
【図1】サブワード対応のコードブックを用いてベクトル量子化を行って音声認識に必要なパラメータの1つである出力確率をテーブル参照によって得る本発明の基本的な処理を説明する図であり、サブワードを音素とした場合について説明する図である。
【図2】図1においてサブワードを音節とした場合について説明する図である。
【図3】サブワードを音節とした場合の幾つかの音節HMMの状態ごとにコードブックを共有する例について説明する図である。
【図4】本発明の音声認識装置の概略的な構成図である。
【符号の説明】
1 マイクロホン
2 音声信号処理部
3 音声分析部
4 ベクトル量子化処理部
5 コードブック記憶部
6 サブワードHMM記憶部
7 音声認識処理部
8 単語・言語テーブル
11 /a/の音素HMM
12 /i/の音素HMM
21 /ka/の音節HMM
22 /sa/の音節HMM
CB1 音素/a/のコードブック
CB2 音素/i/のコードブック
CB11 音節/ka/のコードブック
CB12 音節/sa/のコードブック
T1,T2,T3 /a/の音素HMMの状態出力確率テーブル
T11,T12,T13 /i/の音素HMMの状態出力確率テーブル
T21〜T25 /ka/の音節HMMの状態確率テーブル
T31〜T35 /sa/の音節HMMの状態確率テーブル

Claims (18)

  1. 入力音声を音声分析して得られる特徴ベクトルをベクトル量子化手段を用いてベクトル量子化し、その量子化結果に対応した状態出力確率をテーブル参照で得るHMMの出力確率演算方法であって、
    前記ベクトル量子化を行う際に用いるベクトル量子化手段は、それぞれのサブワード対応のベクトル量子化手段とし、前記テーブルはこれらサブワード対応のベクトル量子化手段に対応して設けられ、
    前記入力音声を音声分析して得られる特徴ベクトルを、前記サブワード対応のベクトル量子化手段のうちのあるベクトル量子化手段を用いてベクトル量子化し、その量子化結果を出力し、当該量子化結果を出力したベクトル量子化手段に対応するテーブルを参照してその量子化結果に対する状態出力確率を得ることを特徴とするHMMの出力確率演算方法。
  2. 前記サブワードは音素であって、音素対応のベクトル量子化手段を作成し、この作成された音素対応のベクトル量子化手段はそれぞれの音素HMMに対応することを特徴とする請求項1記載のHMMの出力確率演算方法。
  3. 前記サブワードは音節であって、音節対応のベクトル量子化手段を作成し、この作成された音節対応のベクトル量子化手段はそれぞれの音節HMMに対応することを特徴とする請求項1記載のHMMの出力確率演算方法。
  4. 前記サブワードは母音と子音であって、前記サブワード対応のベクトル量子化手段は母音によって作成されたベクトル量子化手段と子音によって作成されたベクトル量子化手段であることを特徴とする請求項1記載のHMMの出力確率演算方法。
  5. 前記それぞれのサブワードHMMの幾つかのサブワードHMMごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することを特徴とする請求項1から3のいずれかに記載のHMMの出力確率演算方法。
  6. 前記それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することを特徴とする請求項1から3のいずれかに記載のHMMの出力確率演算方法。
  7. 前記サブワード対応のベクトル量子化手段は、それぞれのベクトル量子化手段ごとにコードサイズをそのサブワードに応じた最適なコードサイズとすることを特徴とする請求項1から6のいずれかに記載のHMMの出力確率演算方法。
  8. 前記ベクトル量子化を行う際、入力されたサブワードがベクトル量子化すべきサブワードであるか否かを調べ、ベクトル量子化すべきサブワードでない場合にはベクトル量子化を行わないようにすることを特徴とする請求項1から7のいずれかに記載のHMMの出力確率演算方法。
  9. 前記ベクトル量子化手段はコードブックであることを特徴とする請求項1から8のいずれかに記載のHMMの出力確率演算方法。
  10. 入力音声を音声分析して得られる特徴ベクトルをベクトル量子化手段を用いてベクトル量子化し、その量子化結果に対応した状態出力確率をテーブル参照で得て、その状態出力確率をパラメータの1つとして用いて音声認識を行う音声認識装置であって、
    入力音声に対し音声の特徴分析を行って特徴ベクトル列を出力する音声分析部と、
    それぞれのサブワード対応のベクトル量子化手段が記憶されたベクトル量子化手段記憶部と、
    前記音声分析部から出力される特徴ベクトル列に対し、前記ベクトル量子化手段記憶部に記憶されたサブワード対応のベクトル量子化手段を用いてベクトル量子化を行い、その量子化結果を出力するベクトル量子化処理部と、
    サブワードHMM演算に必要な様々なパラメータや前記サブワード対応のベクトル量子化手段に対応して設けられた状態出力確率参照用のテーブルを有するサブワードHMM記憶部と、
    前記ベクトル量子化処理部からの量子化結果を受けると、そのベクトル量子化に用いたベクトル量子化手段に対応した前記テーブルを参照し、その量子化結果に対する状態出力確率を取得し、その状態出力確率をパラメータの1つとして用いて音声認識処理を行い認識結果を出力する音声認識処理部と、
    を有したことを特徴とする音声認識装置。
  11. 前記サブワードは音素であって、音素対応のベクトル量子化手段を作成し、この作成された音素対応のベクトル量子化手段はそれぞれの音素HMMに対応することを特徴とする請求項10記載の音声認識装置。
  12. 前記サブワードは音節であって、音節対応のベクトル量子化手段を作成し、この作成された音節対応のベクトル量子化手段はそれぞれの音節HMMに対応することを特徴とする請求項10記載の音声認識装置。
  13. 前記サブワードは母音と子音であって、前記サブワード対応のベクトル量子化手段は母音によって作成されたベクトル量子化手段と子音によって作成されたベクトル量子化手段であることを特徴とする請求項10記載の音声認識装置。
  14. 前記それぞれのサブワードHMMの幾つかのサブワードHMMごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することを特徴とする請求項10から12のいずれかに記載の音声認識装置。
  15. 前記それぞれのサブワードHMMのある状態ごとに、前記サブワード対応のベクトル量子化手段のうち共有できるベクトル量子化手段があればそのベクトル量子化手段を共有することを特徴とする請求項10から12のいずれかに記載の音声認識装置。
  16. 前記サブワード対応のベクトル量子化手段は、それぞれのベクトル量子化手段ごとにコードサイズをそのサブワードに応じた最適なコードサイズとすることを特徴とする請求項10から15のいずれかに記載の音声認識装置。
  17. 単語・言語テーブルを有し、前記ベクトル量子化部がベクトル量子化を行う際、入力されたサブワードがベクトル量子化すべきサブワードであるか否かをこの単語・言語テーブルを参照して調べ、ベクトル量子化すべきサブワードでない場合にはベクトル量子化を行わないようにすることを特徴とする請求項10から16のいずれかに記載の音声認識装置。
  18. 前記ベクトル量子化手段はコードブックであることを特徴とする請求項10から17のいずれかに記載の音声認識装置。
JP2001223610A 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置 Expired - Fee Related JP4048741B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001223610A JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置
US10/197,461 US7058576B2 (en) 2001-07-24 2002-07-18 Method of calculating HMM output probability and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001223610A JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2003036092A JP2003036092A (ja) 2003-02-07
JP4048741B2 true JP4048741B2 (ja) 2008-02-20

Family

ID=19056913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001223610A Expired - Fee Related JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置

Country Status (2)

Country Link
US (1) US7058576B2 (ja)
JP (1) JP4048741B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
DE112008002905T5 (de) * 2007-11-01 2010-12-30 Modine Manufacturing Co., Racine Wärmetauscher
US9328966B2 (en) * 2007-11-01 2016-05-03 Modine Manufacturing Company Heat exchanger with a baffle reinforcement member
KR100932538B1 (ko) * 2007-12-12 2009-12-17 한국전자통신연구원 음성 합성 방법 및 장치
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
JP5489085B2 (ja) 2009-05-15 2014-05-14 日本電気株式会社 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム
DE102009049483A1 (de) * 2009-10-15 2011-04-21 Modine Manufacturing Co., Racine Wärmetauscher und Dichtungsanordnung dafür
WO2014020588A1 (en) * 2012-07-31 2014-02-06 Novospeech Ltd. Method and apparatus for speech recognition
US9792910B2 (en) * 2015-04-29 2017-10-17 Nuance Communications, Inc. Method and apparatus for improving speech recognition processing performance
CN107516176B (zh) 2016-06-17 2021-03-19 菜鸟智能物流控股有限公司 物流信息处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0743598B2 (ja) 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
JPH07160288A (ja) 1993-12-06 1995-06-23 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JP2003036092A (ja) 2003-02-07
US7058576B2 (en) 2006-06-06
US20030061044A1 (en) 2003-03-27

Similar Documents

Publication Publication Date Title
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
Guglani et al. Continuous Punjabi speech recognition model based on Kaldi ASR toolkit
Blaauw et al. A neural parametric singing synthesizer
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
JP4048741B2 (ja) Hmmの出力確率演算方法および音声認識装置
EP4352724A1 (en) Two-level text-to-speech systems using synthetic training data
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
Franco et al. Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
JP4442211B2 (ja) 音響モデル作成方法
WO2024072481A1 (en) Text to speech synthesis without using parallel text-audio data
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
Savitha Deep recurrent neural network based audio speech recognition system
Anoop et al. Investigation of different G2P schemes for speech recognition in Sanskrit
Qiao et al. HMM-based sequence-to-frame mapping for voice conversion
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Chowdhary et al. Automatic speech recognition
Debyeche et al. A new vector quantization approach for discrete HMM speech recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050426

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees