JP2003036092A - Hmmの出力確率演算方法および音声認識装置 - Google Patents

Hmmの出力確率演算方法および音声認識装置

Info

Publication number
JP2003036092A
JP2003036092A JP2001223610A JP2001223610A JP2003036092A JP 2003036092 A JP2003036092 A JP 2003036092A JP 2001223610 A JP2001223610 A JP 2001223610A JP 2001223610 A JP2001223610 A JP 2001223610A JP 2003036092 A JP2003036092 A JP 2003036092A
Authority
JP
Japan
Prior art keywords
vector
subword
vector quantization
hmm
output probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001223610A
Other languages
English (en)
Other versions
JP4048741B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮澤
Hiroshi Hasegawa
浩 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2001223610A priority Critical patent/JP4048741B2/ja
Priority to US10/197,461 priority patent/US7058576B2/en
Publication of JP2003036092A publication Critical patent/JP2003036092A/ja
Application granted granted Critical
Publication of JP4048741B2 publication Critical patent/JP4048741B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】ベクトル量子化を行ってテーブル参照で出力確
率を得て、音声認識を行うHMMによる音声認識におい
て、計算量や使用するメモリ領域を極力少なくして、か
つ、高い認識性能を得る。 【解決手段】ベクトル量子化を行う際に用いるコードブ
ックは、たとえば、サブワードを音素とした場合、コー
ドブックCB1は音素/a/のコードブック、コードブッ
クCB2は音素/i/のコードブックというように、音素
ごとのコードブックとし、これらは、それぞれの音素H
MM11,12に対応している。そして、音声分析され
た特徴ベクトルが、たとえば、コードブックCB1を用
いてベクトル量子化され、あるコード(ラベル)が出力
されたとすると、当該コードブックCB1に対応した音
素HMM11の状態ごとのテーブルT1,T2,T3を
それぞれ参照し、そのラベルに対する状態出力確率を得
て、その状態出力確率をパラメータの1つとして用いて
音声認識処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は離散型HMM(Hidd
en Markov Model)における出力確率を求めるHMMの
出力確率演算方法およびそのHMMの出力確率演算方法
を用いた音声認識装置に関する。
【0002】
【従来の技術】音声認識を行うための音素モデルとして
HMMが広く使われている。このHMMを用いた音声認
識手法は高い認識率を得ることができる反面、計算量が
多いのが難点である。特にHMMの出力確率を求めるに
は多くの演算量を必要とし、それに伴って、演算を行う
ために多くのメモリ領域を必要とするなどの問題があ
る。
【0003】これらの問題を解決する手法として、たと
えば、日本音響学会誌42巻12号(1986)「 Hid
den Markov Modelに基づいた音声認識」に記述されてい
るように、入力音声を音声分析して得られた特徴ベクト
ル系列を、予め作成された1つのコードブックを用いて
ベクトル量子化し、得られたコード(ラベル)を各単語
を構成するHMM(たとえば音素のHMM)に入力して
状態出力確率をテーブル参照で得て、それぞれのHMM
により得られる尤度を比較して音声認識を行う方法が知
られている。
【0004】このベクトル量子化を用いる音声認識方法
において、それぞれの状態ごとの出力確率をテーブル参
照で得る処理は次のようにして行われる。
【0005】入力音声を音声分析部で所定時間ごとに音
声分析し、たとえば10数次元のLPCケプストラム係
数などでなる特徴ベクトル列Vt( tは入力音声を所
定時間ごとに区切ったときのそれぞれのフレーム番号で
あり、フレーム数をTで表せば、t=1,2,・・・,
T)を得て、その特徴ベクトル列Vtに対し、コードブ
ックを用いてベクトル量子化部で量子化し、それぞれの
フレーム番号(t=1,2,・・・)ごとのコード列C
tを出力する。
【0006】ここで用いられるコードブックは、あらゆ
る音素の入っている音声データから作成されたコードブ
ックであり、ここでは、そのコードブックサイズをKで
表せば、あるフレーム番号に対するコードCtの値は、
コードブックのラベル番号k(k=1,2,・・・,
K)で表すことができる。
【0007】ここで、ある音素におけるHMMにおい
て、今、ある状態iからある状態jに遷移する際に、コ
ードCtが入力されてきたときにそのコードCtを出力
する確率をbij(Ct)で表せば、この場合、コードブッ
クサイズがKで、あるフレーム番号に対するコードCt
の値は、コードブックのラベル番号k(k=1,2,・
・・,K)で表すことができるので、1〜Kのラベル番
号を出力する出力確率bij(k)を求めればよいことに
なる。
【0008】したがって、各音素HMMのそれぞれの状
態遷移において、ラベル番号1を出力する確率、ラベル
番号2を出力する確率、・・・、ラベル番号Kを出力す
る確率をテーブルとして持たせておけば、そのラベル番
号を基にテーブル参照するだけで、それぞれの状態遷移
ごとの出力確率を得ることができる。
【0009】
【発明が解決しようとする課題】このように、ベクトル
量子化を用いる音声認識方法は、連続分布型HMMのよ
うなベクトル量子化を用いない方法と比較すると、演算
量を大幅に少なくすることができ、演算時間の短縮や演
算時に必要とするメモリ領域を大幅に少なくできるなど
の利点があるが、その一方で、ベクトル量子化誤差のた
めに認識性能に劣るという問題がある。特に、不特定話
者の音声認識を行う場合の認識性能に問題がある。
【0010】このベクトル量子化誤差を少なくするに
は、コードブックサイズをきわめて大きなサイズとすれ
ばよいが、コードブックサイズをあまり大きくすると、
量子化を行う際の演算量が増大するとともに、多くのメ
モリ領域も必要となるなど、ベクトル量子化する利点が
失われることになる。
【0011】また、従来のコードブックは、全ての音素
が含まれるような学習用の音声データから作成されたも
のであるので、幅広い音声に対応できる平均化されたコ
ードブックとなる。このため、認識性能を高めるにはコ
ードブックサイズは必然的に大きくならざるを得ない。
【0012】また、認識性能に大きな影響を与えない音
声データに対してもコードデータとして持つことになる
ので、不必要にコードブックサイズが大きくなるのが現
状である。
【0013】そこで本発明は、HMMの出力確率を少な
い演算量で高速に求めることを可能とするHMMの出力
確率演算方法を提供するとともに、そのHMMの出力確
率演算方法を用いることで、ハードウエア能力に制約の
あるシステムであっても高い認識性能を得ることができ
る音声認識装置を提供することを目的とする。
【0014】
【課題を解決するための手段】上述した目的を達成する
ために、本発明におけるHMMの出力確率演算方法は、
入力音声を音声分析して得られる特徴ベクトルをベクト
ル量子化手段を用いてベクトル量子化し、その量子化結
果に対応した状態出力確率をテーブル参照で得るHMM
の出力確率算出方法であって、前記ベクトル量子化を行
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード対応のベクトル量子化手段とし、前記テーブルはこ
れらサブワード対応のベクトル量子化手段に対応して設
けられ、前記入力音声を音声分析して得られる特徴ベク
トルを、前記サブワード対応のベクトル量子化手段のう
ちのあるベクトル量子化手段を用いてベクトル量子化
し、その量子化結果を出力し、当該量子化結果を出力し
たベクトル量子化手段に対応するテーブルを参照してそ
の量子化結果に対する状態出力確率を得るようにしてい
る。
【0015】このHMMの出力確率演算方法において、
前記サブワードは音素であって、音素対応のベクトル量
子化手段を作成し、この作成された音素対応のベクトル
量子化手段はそれぞれの音素HMMに対応させるように
する。
【0016】また、このHMMの出力確率演算方法にお
いて、前記サブワードは音節であって、音節対応のベク
トル量子化手段を作成し、この作成された音節対応のベ
クトル量子化手段はそれぞれの音節HMMに対応させる
ようにする。
【0017】また、このHMMの出力確率演算方法にお
いて、前記サブワードは母音と子音であって、前記サブ
ワード対応のベクトル量子化手段は母音によって作成さ
れたベクトル量子化手段と子音によって作成されたベク
トル量子化手段であってもよい。
【0018】また、このHMMの出力確率演算方法にお
いて、前記それぞれのサブワードHMMの幾つかのサブ
ワードHMMごとに、前記サブワード対応のベクトル量
子化手段のうち共有できるベクトル量子化手段があれば
そのベクトル量子化手段を共有することもできる。
【0019】また、このHMMの出力確率演算方法にお
いて、前記それぞれのサブワードHMMのある状態ごと
に、前記サブワード対応のベクトル量子化手段のうち共
有できるベクトル量子化手段があればそのベクトル量子
化手段を共有することもできる。
【0020】また、このHMMの出力確率演算方法にお
いて、前記サブワード対応のベクトル量子化手段は、そ
れぞれのベクトル量子化手段ごとにコードサイズをその
サブワードに応じた最適なコードサイズとすることもで
きる。
【0021】また、このHMMの出力確率演算方法にお
いて、前記ベクトル量子化を行う際、入力されたサブワ
ードがベクトル量子化すべきサブワードであるか否かを
調べ、ベクトル量子化すべきサブワードでない場合には
ベクトル量子化を行わないようにすることもできる。
【0022】また、このHMMの出力確率演算方法にお
いて用いるベクトル量子化手段はコードブックを用いる
ことができる。
【0023】また、本発明の音声認識装置は、入力音声
を音声分析して得られる特徴ベクトルをベクトル量子化
手段を用いてベクトル量子化し、その量子化結果に対応
した状態出力確率をテーブル参照で得て、その状態出力
確率をパラメータの1つとして用いて音声認識を行うH
MMを用いた音声認識装置であって、入力音声に対し音
声の特徴分析を行って特徴ベクトル列を出力する音声分
析部と、それぞれのサブワード対応のベクトル量子化手
段が記憶されたベクトル量子化手段記憶部と、前記音声
分析部から出力される特徴ベクトル列に対し、前記ベク
トル量子化手段記憶部に記憶されたサブワード対応のベ
クトル量子化手段を用いてベクトル量子化を行い、その
量子化結果を出力するベクトル量子化処理部と、サブワ
ードHMM演算に必要な様々なパラメータや前記サブワ
ード対応のベクトル量子化手段に対応して設けられた状
態出力確率参照用のテーブルを有するサブワードHMM
記憶部と、前記ベクトル量子化処理部からの量子化結果
を受けると、そのベクトル量子化に用いたベクトル量子
化手段に対応した前記テーブルを参照し、その量子化結
果に対する状態出力確率を取得し、その状態出力確率を
パラメータの1つとして用いて音声認識処理を行い認識
結果を出力する音声認識処理部とを有した構成となって
いる。
【0024】この音声認識装置において、前記サブワー
ドは音素であって、音素対応のベクトル量子化手段を作
成し、この作成された音素対応のベクトル量子化手段は
それぞれの音素HMMに対応するようにしている。
【0025】また、この音声認識装置において、前記サ
ブワードは音節であって、音節対応のベクトル量子化手
段を作成し、この作成された音節対応のベクトル量子化
手段はそれぞれの音節HMMに対応するようにしてい
る。
【0026】また、この音声認識装置において、前記サ
ブワードは母音と子音であって、前記サブワード対応の
ベクトル量子化手段は母音によって作成されたベクトル
量子化手段と子音によって作成されたベクトル量子化手
段であってもよい。
【0027】また、この音声認識装置において、前記そ
れぞれのサブワードHMMの幾つかのサブワードHMM
ごとに、前記サブワード対応のベクトル量子化手段のう
ち共有できるベクトル量子化手段があればそのベクトル
量子化手段を共有することもできる。
【0028】また、この音声認識装置において、前記そ
れぞれのサブワードHMMのある状態ごとに、前記サブ
ワード対応のベクトル量子化手段のうち共有できるベク
トル量子化手段があればそのベクトル量子化手段を共有
することもできる。
【0029】また、この音声認識装置において、前記サ
ブワード対応のベクトル量子化手段は、それぞれのベク
トル量子化手段ごとにコードサイズをそのサブワードに
応じた最適なコードサイズとすることもできる。
【0030】また、この音声認識装置において、単語・
言語テーブルを有し、前記ベクトル量子化部がベクトル
量子化を行う際、入力されたサブワードがベクトル量子
化すべきサブワードであるか否かをこの単語・言語テー
ブルを参照して調べ、ベクトル量子化すべきサブワード
でない場合にはベクトル量子化を行わないようにするこ
ともできる。
【0031】また、この音声認識装置において用いるベ
クトル量子化手段はコードブックを用いることができ
る。
【0032】このように本発明は、ベクトル量子化を行
う際に用いるベクトル量子化手段は、それぞれのサブワ
ード(単語や言語を構成する音素や音節をここではサブ
ワードいう)対応のベクトル量子化手段としている。
【0033】このサブワード対応のベクトル量子化手段
は、それぞれのサブワードに対応する音声データを主と
して作成されたものであるため、入力音声の特徴ベクト
ルの分布を適切に表現したベクトル量子化手段とするこ
とができ、このようなサブワード対応のベクトル量子化
手段を用いてベクトル量子化を行うことによって、ベク
トル量子化誤差を最小限に抑えることができる。
【0034】また、このようなサブワード対応のベクト
ル量子化手段は、上述したように、入力音声の特徴ベク
トルの分布を適切に表現したベクトル量子化手段となっ
ているため、少ないコードサイズで高い認識性能を得る
ことができ、コードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。
【0035】また、サブワードを音素とした場合には、
音素対応にベクトル量子化手段を作成することによっ
て、それぞれの音素の特徴ベクトルの分布に適合したベ
クトル量子化手段とすることができ、それを用いてベク
トル量子化を行えば、ベクトル量子化誤差は極力小さく
抑えられたものとなる。
【0036】また、サブワードを音節とした場合には、
音節対応にベクトル量子化手段を作成することによっ
て、それぞれの音節の特徴ベクトルの分布に適合しベク
トル量子化手段とすることができ、それを用いてベクト
ル量子化を行えば、ベクトル量子化誤差は極力小さく抑
えられたものとなる。
【0037】また、サブワード対応のベクトル量子化手
段は、母音によって作成されたベクトル量子化手段と子
音によって作成されたベクトル量子化手段としてもよ
く、これによっても、従来のようにあらゆる音素が含ま
れる音声データから作成されたベクトル量子化手段に比
べれば、ベクトル量子化誤差を小さくすることができ
る。
【0038】また、前記それぞれのサブワードHMMの
幾つかのサブワードHMMで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、ベ
クトル量子化手段全体のデータサイズを小さくすること
ができるので、演算量の削減や使用するメモリ領域を少
なくすることができる。
【0039】また、それぞれのサブワードHMMのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節HMMの状態ごとに、ベクトル量子化手
段を共有することができるので、ベクトル量子化手段全
体のデータサイズを大幅に小さくすることができる、そ
れによって、演算量の削減や使用するメモリ領域を少な
くすることができる。
【0040】また、サブワード対応のベクトル量子化手
段は、それぞれのベクトル量子化手段ごとにコードサイ
ズをそのサブワードに応じた最適なコードサイズとする
ことも可能であり、これによれば、それぞれのサブワー
ドに応じた最適なベクトル量子化手段とすることがで
き、それぞれのサブワードに適したベクトル量子化が行
え、より一層、高い認識性能が得られるとともに、認識
性能に大きく影響を与えないようなサブワードに対して
はコードサイズを極力小さくするということもできるの
で、ベクトル量子化手段のサイズの無駄を省くこともで
きる。
【0041】また、ベクトル量子化部がベクトル量子化
を行う際、入力されたサブワードがベクトル量子化すべ
きサブワードであるか否かをこの単語・言語テーブルを
参照して調べ、ベクトル量子化すべきサブワードでない
場合にはベクトル量子化を行わないようにすることもで
きるので、無駄な処理を省くことができ処理の高速化を
図ることができる。
【0042】また、ベクトル量子化手段としてコードブ
ックを用いるようにすれば、ベクトル量子化を行うため
の演算量を少なくすることができ。
【0043】本発明のHMMの出力確率演算方法によれ
ば、ベクトル量子化誤差の少ない出力確率を少ない演算
量で得ることができ、このHMMの出力確率演算方法を
音声認識装置に適用することで、ハードウエア能力に制
約のあるシステムであっても高い認識性能を持った音声
認識装置とすることができる。
【0044】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明のHMMの出力確率演算方法およびそのHMMの
出力確率演算方法を用いた音声認識装置についての説明
である。
【0045】図1および図2はサブワード対応のベクト
ル量子化手段(この実施の形態ではベクトル量子化手段
としてコードブックを用いることにする)を作成し、そ
のサブワード対応のコードブックを用いてベクトル量子
化を行って、音声認識に必要なパラメータの1つである
出力確率をテーブル参照によって得る処理を説明する図
であり、図1はサブワードを音素とし、それぞれの音素
対応のコードブックによってベクトル量子化し、その量
子化結果として得られるコードを用いたテーブル参照を
行って出力確率を得る処理を説明するものである。
【0046】ここでは音素として母音や子音など26音
素を用い、これらの音素対応にコードブックを作成し、
ここでは、それぞれのコードブックのサイズ(コード数
K)はK=64とする。
【0047】そして、それぞれの音素対応のコードブッ
クは、図1において、たとえば、コードブックCB1
は、/a/の音素HMM11対応し、コードブックCB2
は、/i/の音素HMM12に対応するというように、そ
れぞれの音素HMMに対応している。この図1では、説
明を簡単にするために/a/と/i/の音素のみが図示され
ている。
【0048】そして、/a/の音素HMM11は、その音
素HMMが4状態3ループで表されるとすれば、それぞ
れの状態遷移ごとにそれぞれ状態出力確率テーブル(以
下、単にテーブルという)T1,T2,T3を持ってい
る。
【0049】すなわち、テーブルT1は状態S1から状
態S2の状態遷移に対応したテーブルであり、テーブル
T2は状態S2から状態S3の状態遷移に対応したテー
ブルであり、テーブルT3は状態S3から状態S4の状
態遷移に対応したテーブルである。
【0050】なお、状態S1,S2,S3,S4のう
ち、状態S1,S2,S3はそれぞれその状態を自己ル
ープする遷移(状態S1から状態S1、状態S2から状
態S2、状態S3から状態S3)を有するが、状態S1
から状態S1への状態遷移については上述のテーブルT
1を用い、状態S2から状態S2への状態遷移について
も上述のテーブルT2、状態S3から状態S3への状態
遷移についても上述のテーブルT3を用いる。
【0051】なお、この場合、コードブックサイズをK
=64としているから、コードブックCB1から出力さ
れるコードCtを表すラベルk(kはラベル番号)は、
k=1,2,・・・,64のいずれかをとり、それぞれ
のテーブルT1,T2,T3には、ラベルk=1,2,
・・・,64に対応した出力確率値が格納されている。
【0052】/i/の音素HMM12も /a/の音素と同
様に、それぞれの状態遷移ごとにそれぞれテーブルT1
1,T12,T13を持ち、テーブルT11は状態S1
1から状態S12の状態遷移に対応したテーブル、テー
ブルT12は状態S12から状態S13の状態遷移に対
応したテーブル、テーブルT13は状態S13から状態
S14の状態遷移に対応したテーブルである。この場合
も、それぞれの状態S11,S12,S13をそれぞれ
自己ループする遷移についても、上述のテーブルT1
1,T12,T13を用いる。
【0053】そして、この場合も、コードブックサイズ
をK=64としているから、コードブックCB2から出
力されるコードCtを表すラベルk(kはラベル番号)
は、k=1,2,・・・,64のいずれかをとり、それ
ぞれのテーブルT11,T12,T13には、ラベルk
=1,2,・・・,64に対応した出力確率値が格納さ
れている。
【0054】そして、入力音声を所定時間ごとに音声分
析し、たとえば10数次元のLPCケプストラム係数で
なる特徴ベクトル列Vt( tは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をTで表せば、t=1,2,・・
・,T)を得て、その特徴ベクトル列Vtをそれぞれの
音素ごとに作成されたコードブックCB1,CB2,・
・・によりベクトル量子化を行ったところ、音素/a/に
対応するコードブックCB1からコードCtを表すラベ
ルkとしてk=24が出力されたとする。
【0055】このラベルk=24が /a/の音素HMM
11に入力されると、たとえば、状態S1から状態S2
への状態遷移の際のコードCtを出力する確率(出力確
率は)は、テーブルT1を参照することで得ることがで
きる。
【0056】このようにして、あるフレームの特徴ベク
トルVt(t=1,2,・・・)が音素/a/のコードブ
ックCB1によってベクトル量子化されて得られたコー
ドCtを出力する出力確率は、音素/a/の音素HMM1
1のそれぞれの状態に対応したテーブルT1,T2,T
3を参照することで得ることができる。
【0057】同様に、ある入力音声を特徴分析して得ら
れたあるフレームの特徴ベクトルVtをそれぞれの音素
ごとに作成されたコードブックCB1,CB2,・・・
により、ベクトル量子化を行ったところ、音素/i/のコ
ードブックCB2からコードCtを表すラベルkとして
k=13が出力されたとする。
【0058】このラベルk=13が /i/の音素HMM
12に入力されると、たとえば、状態S11から状態S
12への状態遷移の際のコードCtを出力する確率(出
力確率は)は、テーブルT11を参照することで得るこ
とができる。
【0059】このようにして、あるフレームの特徴ベク
トルVt(t=1,2,・・・)が音素/i/のコードブ
ックCB2によってベクトル量子化されて得られたコー
ドCtを出力する出力確率は、音素/i/の音素HMM1
2のそれぞれの状態に対応したテーブルT11,T1
2,T13を参照することで得ることができる。
【0060】このように、この図1の例では、それぞれ
の音素ごとの音素HMMに対応したそれぞれの音素対応
のコードブックCB1,CB2,・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Vtを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音素HMMに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音素HM
Mのそれぞれの状態における出力確率を得ることができ
る。
【0061】このそれぞれの音素対応のコードブックC
B1,CB2,・・・は、音素ごとの特徴ベクトルの分
布に適応したコードブックとなっているので、その音素
を表現するにふさわしい内容となっている。したがっ
て、そのコードブックのコードサイズKはK=64程度
でも、実用的には十分な性能を得ることができる。した
がって、ここでの説明のように、音素を26音素とした
場合、26個のコードブックを必要とするが、この26
個のコードブック全体のコードブックサイズは、26×
64=1664のコード数で済む。
【0062】このように、1つの音素に対するコードブ
ックのコードサイズKを64とし、それをそれぞれの音
素対応に作成したものと、従来の全ての音素の含まれる
音声データから作成された1つのコードブックを用いる
場合と比較すると、本発明による個々の音素対応のコー
ドブックを用いた場合は、従来のコードブックサイズを
2048としたものよりも高い認識性能が得られ、従来
のコードブックサイズを4096としたもの同等の認識
性能が得られることがわかった。
【0063】また、コードブックCB1,CB2,・・
・のコードサイズを上述したコードサイズ64の半分と
した32でも、従来のコードブックサイズを1024と
したものよりも高い認識性能が得られ、従来のコードブ
ックサイズを2048としたもの同等の認識性能が得ら
れることがわかった。このように、コードブックCB
1,CB2,・・・のコードサイズを32とすれば、全
体のコードブックサイズはさらに小さくて済み、この場
合、26×32=832のコード数で済む。
【0064】また、それぞれの音素対応のコードブック
のコードサイズは、全ての音素において同じとしてもよ
いが、音素ごとにコードブックサイズを任意に設定する
ことも可能であり、これによって、音素ごとに最適化が
図れる。
【0065】以上のように音素対応のコードブックとす
ることによって、少ないコードサイズで高い認識性能を
得ることができ、コードサイズを少なくできることから
ベクトル量子化の演算量を少なくすることができ、ま
た、出力確率を記憶するためのテーブルサイズも小さく
できるので使用するメモリ領域も小さくて済む。
【0066】以上はサブワードを音素とした場合につい
て説明したが、音節の場合も同様に考えることができ
る。サブワードを音節とした場合について図2を参照し
ながら説明する。
【0067】図2はサブワードを音節とし、それぞれの
音節対応のコードブックによってベクトル量子化し、そ
の量子化結果として得られるコードを用いたテーブル参
照を行って出力確率を得る処理を説明するものである。
【0068】この音節対応のコードブックは、説明の都
合上、この場合も図1と同様、それぞれのコードブック
サイズ(コード数K)はK=64としている。
【0069】そして、それぞれの音節対応のコードブッ
クは、図2において、たとえば、コードブックCB11
は、/ka/の音節HMM21に対応し、コードブックC
B12は/sa/の音節HMM22に対応するというよう
に、それぞれの音節HMMに対応している。この図2で
は、説明を簡単にするために/ka/と/sa/の音節のみ
が図示されている。
【0070】そして、/ka/の音節HMM21は、その
音節HMM21が6状態5ループで表されるとすれば、
図1の場合と同様に、それぞれの状態遷移ごとにそれぞ
れテーブル(この場合、T21〜T25)を持ってい
る。
【0071】なお、この場合も図1と同様、コードブッ
クサイズ(コード数K)をK=64としているから、コ
ードブック11から出力されるコードCtを表すラベル
k(kはラベル番号)は、k=1,2,・・・,64の
いずれかをとり、それぞれのテーブルT21〜T25に
は、ラベルk=1,2,・・・,64に対応した出力確
率値が格納されている。
【0072】/sa/の音節HMM22もその音節HMM
22が6状態5ループで表されるとすれば、 /ka/の
音節と同様に、それぞれの状態遷移ごとにそれぞれテー
ブルT31〜T35を持っている。そして、この場合
も、コードブックサイズを64としているから、コード
ブックCB12から出力されるコードCtを表すラベル
k(kはラベル番号)は、k=1,2,・・・,64の
いずれかをとり、それぞれのテーブルT31〜T35に
は、ラベルk=1,2,・・・,64に対応した出力確
率値が格納されている。
【0073】そして、入力音声を所定時間ごとに音声分
析し、たとえば10数次元のLPCケプストラム係数で
なる特徴ベクトル列Vt( tは入力音声を所定時間ご
とに区切ったときのそれぞれのフレーム番号であり、入
力音声のフレーム数をTで表せば、t=1,2,・・
・,T)を得て、その特徴ベクトル列Vtをそれぞれの
音節ごとに作成されたコードブックCB11,CB1
2,・・・によりベクトル量子化を行ったところ、音節
/ka/に対応するコードブックCB11からコードCt
を表すラベルkとしてk=42が出力されたとする。
【0074】このラベルk=42が /ka/の音節HM
M21に入力されると、たとえば、状態S21から状態
S22の状態遷移の際のコードCtを出力する確率(出
力確率は)は、テーブルT21を参照することで得るこ
とができる。
【0075】このようにして、あるフレームの特徴ベク
トルVt(t=1,2,・・・)が音節/ka/のコード
ブックCB11によってベクトル量子化されることによ
って得られたコードCtを出力する出力確率は、音節/
ka/の音節HMM21のそれぞれの状態に対応したテ
ーブルT21,T22,T23,T24,T25を参照
することで得ることができる。
【0076】同様に、ある入力音声を特徴分析して得ら
れたあるフレームの特徴ベクトルVtをそれぞれの音節
対応に作成されたコードブックCB11,CB12,・
・・により、ベクトル量子化を行ったところ、音節/s
a/のコードブック12からコードCtを表すラベルk
としてk=31が出力されたとする。
【0077】このラベルk=31が /sa/の音節HM
M22に入力されると、たとえば、状態S31から状態
S32への状態遷移の際のコードCtを出力する確率
(出力確率は)は、テーブルT31を参照することで得
ることができる。
【0078】このようにして、あるフレームの特徴ベク
トルVt(t=1,2,・・・)が音節/sa/のコード
ブックCB12によってベクトル量子化されることによ
って得られたコードCtを出力する出力確率は、音節/
sa/の音節HMM22のそれぞれの状態に対応したテ
ーブルT31,T32,T33、T34,T35を参照
することで得ることができる。
【0079】このように、図2の例では、それぞれの音
節ごとの音節HMMに対応したそれぞれの音節ごとのコ
ードブックCB11,CB12,・・・を持ち、入力音
声を特徴分析して得られたあるフレームの特徴ベクトル
Vtを、対応するコードブックでコード化してラベルと
して出力し、そのラベルを当該コードブックに対応した
音節HMMに与えることで、それぞれの状態対応に設け
られたテーブル参照を行うことによって、その音節HM
Mのそれぞれの状態における出力確率を得ることができ
る。
【0080】なお、この場合もそれぞれの音節ごとのコ
ードブックのコードサイズは、全ての音節において同じ
としてもよいが、音節ごとにコードブックサイズを任意
に設定することも可能であり、これによって、それぞれ
の音節ごとに最適化が図れる。
【0081】以上、サブワードを音素あるいは音節とし
た場合の、音素ごとのコードブック、音節ごとのコード
ブックを作成し、それによって、特徴ベクトルをベクト
ル量子化し、テーブル参照によって出力確率を求める処
理について説明したが、本発明は、それぞれのサブワー
ドHMMのある状態ごとに、それぞれのサブワード対応
のコードブックのうちのあるコードブックを共有するこ
とを可能としている。これについて幾つかの音節HMM
のある状態ごとにコードブックを共有する場合を例にと
って説明する。
【0082】図3は多数の音節のうち、たとえば、/k
a/、/sa/、/ki/、/ku/の音節HMMモデルをそ
れぞれ示すもので、図3(a)は/ka/の音節HMMモ
デル、図3(b)は/sa/の音節HMMモデル、図3
(c)は/ki/の音節HMMモデル、図3(d)は/k
u/の音節HMMモデルを示している。
【0083】これらの各音節HMMにおいて、たとえ
ば、/ka/の音節HMM は、この図3(a)で示すよ
うに、仮に、状態S21,S22が/k/を表現する部
分、状態S23〜S26が/a/を表現する部分というよ
うに区分され、また、/sa/の音節HMM は、この図
3(b)で示すように、仮に、状態S31,S32が/
s/を表現する部分、状態S33〜S36が/a/を表現
する部分であるというように区分されたとする。
【0084】また、/ki/の音節HMMは、この図3
(c)に示すようように、仮に、状態S41,S42が
/k/を表現する部分、状態S43〜S46が/i/を表現
する部分であるというように区分され、/ku/の音節H
MMは、この図3(d)に示すように、仮に、状態S5
1,S52が/k/を表現する部分、状態S53〜S56
が/u/を表現する部分であるというように区分されたと
する。
【0085】このように、それぞれの音節HMMにおい
て、それぞれの状態をそれぞれの音素対応にわけること
ができるので、それぞれの音節HMMの状態ごとに、そ
の状態に対応する音素のコードブックを共有することが
できる。
【0086】たとえば、これらの各音節HMMにおい
て、図3(a)の/ka/の音節HMMにおける /a/を
表現する部分の状態S23〜S26と、図3(b)の/
sa/の音節HMMにおける/a/を表現する部分の状態
S33〜S36に対しては、/a/のコードブックを共有
する。
【0087】また、これらの各音節HMMにおいて、図
3(a)の/ka/の音節HMMにおける /k/を表現す
る部分の状態S21,S22と、図3(c)の/ki/の
音節HMMにおける/k/を表現する部分の状態S41,
S42と、図3(d)の/ku/の音節HMMにおける/
k/を表現する部分の状態S51,S52に対しては、
それぞれ/k/のコードブックを共有する。
【0088】したがって、たとえば、/ka/の音節HM
Mにおける出力確率を求める際には、最初の状態S2
1,S22においては、共有する/k/のコードブックを
用い、その/k/のコードブックによりベクトル量子化さ
れて得られたコード(ラベル)によってテーブル参照を
行い、あとの方の状態S23〜S26においては、共有
する/a/のコードブックを用い、その/a/のコードブッ
クによりベクトル量子化されて得られたコード(ラベ
ル)によってテーブル参照を行うことにより出力確率を
得る。
【0089】このように、それぞれの音節において、そ
れぞれの音節HMMの状態ごとに、コードブックを共有
することができ、それによって、たとえば、110程度
の音節に対し音素と同等の20数個のコードブックで対
応することができる。
【0090】なお、それぞれの音節HMMの状態ごとに
コードブックを共有する際、たとえば、/ka/の音節H
MMと/sa/の音節HMMにおいては、それぞれ/a/を
表現する状態が存在するが、同じ/a/であっても、この
場合、/ka/の音節HMMにおいては、/a/の直前には
/k/が存在し、/sa/の音節HMM においては、/a/
の直前には/s/が存在するので、本来は、前後の関係を
考慮した/a/のコードブックを用いるのが理想である
が、それを考慮しないで作成された/a/のコードブック
であっても十分な結果を得ることができる。
【0091】また、それぞれの音節HMMにおいて、ど
の状態がどのような音素を表現するかを判断して、どこ
で区切るかの区切りを設定したり、それによってどのコ
ードブックを共有させるかを決める処理は、人間の経験
的な知識によって行うこともできるが、コンピュータな
どによって計算を行い、ある音節HMMにおいて、どの
状態がどのような音素を表現するかを自動的に判断する
ことで、どの音節HMMのどの状態部分とどの音節のど
の状態部分に対してはどのようなコードブックを共有さ
せるかを決めることもできる。
【0092】なお、図3に示す例は、説明の都合上、単
純に最初の2つの状態とあとの4つの状態で区切った例
であるが、たとえば、/ka/の音節HMMにおいては、
状態S21,S22,S23が/k/を表現し、状態S2
4以降が/a/を表現し、また、/sa/の音節HMMにお
いては、上述したように、状態S31,S32が/s/を
表現し、状態S34以降が/a/を表現するというよう
に、それぞれの音節HMMによって区切られる場所は異
なる場合も多い。
【0093】このように、それぞれのサブワードHMM
(上述の例は音節HMM)のある状態ごとに、サブワー
ドごとのコードブックのうち共有可能なコードブックが
あればそれを共有することによって、全体のコードブッ
クサイズを大幅に少なくすることができる。これによっ
て、演算量の削減が図れ、しかも、高い認識性能を維持
することができる。
【0094】図4は本発明の音声認識装置の概略的な構
成図を示すもので、音声を入力する音声入力手段として
のマイクロホン1、入力された音声信号を増幅したりA
/D変換する音声信号処理部2、この音声信号入力処理
部2で処理された音声信号を所定時間ごとに音声分析
し、たとえば10数次元のLPCケプストラム係数など
でなる特徴ベクトル列Vt( tは入力音声を所定時間
ごとに区切ったときのそれぞれのフレーム番号であり、
フレーム数をTで表せば、t=1,2,・・・,T)を
出力する音声分析部3、この音声分析部3で分析された
それぞれのフレームごとの特徴ベクトルVtをベクトル
量子化処理するベクトル量子化処理部4、このベクトル
量子化処理部4がベクトル量子化処理を行う際に用いる
サブワード対応のベクトル量子化手段(この実施の形態
ではコードブック)を記憶したコードブック記憶部5、
サブワードHMM演算に必要な様々なパラメータや前述
した状態出力確率テーブルを記憶しているサブワードH
MM記憶部6、このサブワードHMM記憶部6に記憶さ
れているデータと上述のベクトル量子化部4から出力さ
れたコード(ラベル)を用いて音声認識処理を行い認識
結果を出力する音声認識処理部7、この音声認識処理部
7や上述のベクトル量子化処理部4がそれぞれの処理を
行う際に参照する単語・言語テーブル8を有した構成と
なっている。
【0095】なお、単語・言語テーブル8は音声認識部
7が音声認識処理を行う過程で、認識結果に不自然さが
あるか否かを判断したり、ベクトル量子化処理部4がベ
クトル量子化処理を行う過程で、不必要なサブワードに
対してはベクトル量子化処理しないようにしたりするた
めに用いられる。
【0096】たとえば、音声認識装置が、認識すべき単
語や言語数がごく限られた単語のみの認識を行えばよい
ような場合、その認識すべき単語や言語を単語・言語テ
ーブル8として持っておくことで、音声認識している過
程で、この単語・言語テーブル8を参照し、音声認識を
行う必要のないサブワードであれば、そのサブワードに
対してはベクトル量子化しないようにするということが
できる。
【0097】また、逆に数多くの単語や言語さらには連
続音声の認識を行う必要のある場合、入力音声を逐次的
に処理することが行われるが、そのような場合、今現在
の処理段階において認識すべき単語はどれかを単語・言
語テーブル8を参照することで知ることができ、音声認
識している過程で、その時点で不必要なサブワードであ
ると判断されれば、そのサブワードに対してはベクトル
量子化しないようにするということもできる。
【0098】なお、コードブック記憶部5に記憶される
サブワード対応のコードブックは、たとえば、前述した
ように、サブワードが音素であれば、それぞれの音素ご
とに作成されたコードブックであり、これらのコードブ
ックはサブワードHMM記憶部6に記憶されているそれ
ぞれのサブワード音素HMMに対応している(図1参
照)。
【0099】また、サブワードが音節であれば、コード
ブック記憶部5に記憶されるコードブックは、それぞれ
の音節ごとに作成されたコードブックであり、これらの
コードブックはそれぞれの音節HMMに対応している
(図2参照)。
【0100】なお、このとき、前述したように、サブワ
ードHMMのある状態ごとに、前記サブワード対応のコ
ードブックのうちの共有可能なコードブックを共有する
こともできる。
【0101】このような構成において、音声信号処理部
2で増幅やA/D変換された入力音声信号を音声分析部
3で分析し、それによって得られたある時刻に対応する
フレームの特徴ベクトルVtを、それぞれのサブワード
ごとに作成されたコードブックによりベクトル量子化を
行い、あるサブワードに対応するコードブックからコー
ドCtを表すラベル値kが出力されたとする。
【0102】このラベル値kが、対応するサブワードH
MMに入力されることで、ある状態iからある状態jへ
の状態遷移の際のコードCtを出力する確率(出力確率
は)を、その状態遷移ijに対応するテーブルを参照する
ことで得ることができる。
【0103】このようにして、それぞれのそれぞれの状
態におけるコードCtを出力する出力確率をそれぞれの
状態に対応したテーブルを参照することで得ることがで
き、それを入力音声の各時刻対応のフレームごとの特徴
ベクトルについて行うことで、最終的な出力確率を得
て、それに基づいて音声認識処理部7が音声認識を行
う。
【0104】なお、前述したように、ベクトル量子化処
理部4がベクトル量子化処理を行う過程で、単語・言語
テーブル8を参照することで、不必要なサブワードに対
してはベクトル量子化しないようにしたり、音声認識処
理部7が音声認識処理を行う過程で、認識結果に不自然
さがあるか否かを判断したりすることも行う。
【0105】以上説明したようにこの実施の形態では、
サブワードとしての音素や音節ごとにコードブックを有
しているので、それぞれのコードブックは、音素あるい
は音節の特徴ベクトルの分布に適合したコードブックと
することができる。それによって、それぞれのコードブ
ックサイズは小さくても、ベクトル量子化を行う際の量
子化誤差を極力低くすることができる。また、そのベク
トル量子化によって得られたコードを出力する確率(出
力確率)はテーブル参照で得るが、そのテーブルのサイ
ズもコードブックサイズに伴って小さくすることができ
る。
【0106】このように、コードブックサイズやテーブ
ルサイズを小さくできることから、演算量を大幅に少な
くできるとともに、使用するメモリ領域も小さくするこ
とができる。しかも、コードブックサイズやテーブルサ
イズを小さくしながら、高い音声認識性を得ることがで
きる。
【0107】さらに、それぞれのサブワードに対応する
サブワードHMMのある状態ごとにコードブックを共有
することもできる。特に、サブワードとして音節を用い
た場合には、それぞれの音節HMMの状態ごとに共有で
きるコードブックがあれば、それを共有するといったこ
とも可能であり、それによって、全ての音節に対し音素
と同等の20数個のコードブックで対応することができ
る。
【0108】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、前
述の実施の形態では、サブワードごとのコードブックと
して、音素ごとのコードブックあるいは音節ごとのコー
ドブックを持つようにしたが、これに限られることな
く、たとえば、母音で1つのコードブックを作成し、子
音で1つのコードブックを作成するようにしてもよい。
これは、音素ごとのコードブックあるいは音節ごとのコ
ードブックを持つ場合に比べ、多少大雑把なコードブッ
クとなるが、従来の全ての音声から作成されたコードブ
ックに比べれば、コードブックサイズをそれ程大きくす
ることなく高い認識性能を得ることができる。
【0109】また、前述の実施の形態では、コードブッ
クを共有する場合、サブワードHMM(たとえば、音節
HMM)の状態ごとに、あるコードブックを共有する例
について説明したが、サブワードHMMの状態ごとだけ
でなく、たとえば、/a/の音素HMMと/i/の音素HM
Mというように、幾つかのサブワードHMMでコードブ
ックを共有することも可能である。
【0110】また、前述の実施の形態では、ベクトル量
子化手段としてコードブックを用いた例について説明し
たが、他のベクトル量子化手段を用いることもできる。
【0111】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。
【0112】
【発明の効果】以上説明したように本発明によれば、ベ
クトル量子化を行う際に用いるベクトル量子化手段は、
それぞれのサブワード対応のベクトル量子化手段として
いる。このサブワード対応のベクトル量子化手段は、そ
れぞれのサブワードに対する音声データから作成された
ものであるため、入力音声の特徴ベクトルの分布を適切
に表現したベクトル量子化手段とすることができ、この
ようなサブワード対応のベクトル量子化手段を用いてベ
クトル量子化を行うことによって、ベクトル量子化誤差
を最小限に抑えることができる。これによって、この出
力確率演算方法を音声認識装置に組み込むことによって
高い認識性能を得ることができ、また、個々のベクトル
量子化手段のコードサイズを少なくできることからベク
トル量子化の演算量を少なくすることができ、出力確率
を記憶するためのテーブルサイズも小さくできるので使
用するメモリ領域も小さくて済む。
【0113】また、前記それぞれのサブワードHMMの
幾つかのサブワードHMMで、前記サブワード対応のベ
クトル量子化手段のうち共有できるベクトル量子化手段
があれば、それを共有することも可能であり、これによ
れば、ベクトル量子化手段の数を減らすことができ、全
体のベクトル量子化手段のデータサイズを小さくするこ
とができるので、演算量の削減や使用するメモリ領域を
少なくすることができる。
【0114】また、それぞれのサブワードHMMのある
状態ごとに、前記サブワード対応のベクトル量子化手段
のうち共有できるベクトル量子化手段があれば、それを
共有することも可能であり、これによれば、たとえば、
音節ごとにベクトル量子化手段を作成するような場合、
それぞれの音節HMMの状態ごとに、ベクトル量子化手
段を共有することができるので、全体のベクトル量子化
手段のデータサイズを大幅に小さくすることができる、
それによって、演算量の削減や使用するメモリ領域を少
なくすることができる。
【0115】このように、本発明のHMMの出力確率演
算方法によれば、ベクトル量子化誤差の少ない出力確率
を少ない演算量で得ることができ、このHMMの出力確
率演算方法を音声認識装置に適用することで、ハードウ
エア能力に制約のあるシステムであっても高い認識性能
を持った音声認識装置とすることができる。
【図面の簡単な説明】
【図1】サブワード対応のコードブックを用いてベクト
ル量子化を行って音声認識に必要なパラメータの1つで
ある出力確率をテーブル参照によって得る本発明の基本
的な処理を説明する図であり、サブワードを音素とした
場合について説明する図である。
【図2】図1においてサブワードを音節とした場合につ
いて説明する図である。
【図3】サブワードを音節とした場合の幾つかの音節H
MMの状態ごとにコードブックを共有する例について説
明する図である。
【図4】本発明の音声認識装置の概略的な構成図であ
る。
【符号の説明】
1 マイクロホン 2 音声信号処理部 3 音声分析部 4 ベクトル量子化処理部 5 コードブック記憶部 6 サブワードHMM記憶部 7 音声認識処理部 8 単語・言語テーブル 11 /a/の音素HMM 12 /i/の音素HMM 21 /ka/の音節HMM 22 /sa/の音節HMM CB1 音素/a/のコードブック CB2 音素/i/のコードブック CB11 音節/ka/のコードブック CB12 音節/sa/のコードブック T1,T2,T3 /a/の音素HMMの状態出力確率テ
ーブル T11,T12,T13 /i/の音素HMMの状態出力
確率テーブル T21〜T25 /ka/の音節HMMの状態確率テーブ
ル T31〜T35 /sa/の音節HMMの状態確率テーブ

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を音声分析して得られる特徴ベ
    クトルをベクトル量子化手段を用いてベクトル量子化
    し、その量子化結果に対応した状態出力確率をテーブル
    参照で得るHMMの出力確率演算方法であって、 前記ベクトル量子化を行う際に用いるベクトル量子化手
    段は、それぞれのサブワード対応のベクトル量子化手段
    とし、前記テーブルはこれらサブワード対応のベクトル
    量子化手段に対応して設けられ、 前記入力音声を音声分析して得られる特徴ベクトルを、
    前記サブワード対応のベクトル量子化手段のうちのある
    ベクトル量子化手段を用いてベクトル量子化し、その量
    子化結果を出力し、当該量子化結果を出力したベクトル
    量子化手段に対応するテーブルを参照してその量子化結
    果に対する状態出力確率を得ることを特徴とするHMM
    の出力確率演算方法。
  2. 【請求項2】 前記サブワードは音素であって、音素対
    応のベクトル量子化手段を作成し、この作成された音素
    対応のベクトル量子化手段はそれぞれの音素HMMに対
    応することを特徴とする請求項1記載のHMMの出力確
    率演算方法。
  3. 【請求項3】 前記サブワードは音節であって、音節対
    応のベクトル量子化手段を作成し、この作成された音節
    対応のベクトル量子化手段はそれぞれの音節HMMに対
    応することを特徴とする請求項1記載のHMMの出力確
    率演算方法。
  4. 【請求項4】 前記サブワードは母音と子音であって、
    前記サブワード対応のベクトル量子化手段は母音によっ
    て作成されたベクトル量子化手段と子音によって作成さ
    れたベクトル量子化手段であることを特徴とする請求項
    1記載のHMMの出力確率演算方法。
  5. 【請求項5】 前記それぞれのサブワードHMMの幾つ
    かのサブワードHMMごとに、前記サブワード対応のベ
    クトル量子化手段のうち共有できるベクトル量子化手段
    があればそのベクトル量子化手段を共有することを特徴
    とする請求項1から3のいずれかに記載のHMMの出力
    確率演算方法。
  6. 【請求項6】 前記それぞれのサブワードHMMのある
    状態ごとに、前記サブワード対応のベクトル量子化手段
    のうち共有できるベクトル量子化手段があればそのベク
    トル量子化手段を共有することを特徴とする請求項1か
    ら3のいずれかに記載のHMMの出力確率演算方法。
  7. 【請求項7】 前記サブワード対応のベクトル量子化手
    段は、それぞれのベクトル量子化手段ごとにコードサイ
    ズをそのサブワードに応じた最適なコードサイズとする
    ことを特徴とする請求項1から6のいずれかに記載のH
    MMの出力確率演算方法。
  8. 【請求項8】 前記ベクトル量子化を行う際、入力され
    たサブワードがベクトル量子化すべきサブワードである
    か否かを調べ、ベクトル量子化すべきサブワードでない
    場合にはベクトル量子化を行わないようにすることを特
    徴とする請求項1から7のいずれかに記載のHMMの出
    力確率演算方法。
  9. 【請求項9】 前記ベクトル量子化手段はコードブック
    であることを特徴とする請求項1から8のいずれかに記
    載のHMMの出力確率演算方法。
  10. 【請求項10】 入力音声を音声分析して得られる特徴
    ベクトルをベクトル量子化手段を用いてベクトル量子化
    し、その量子化結果に対応した状態出力確率をテーブル
    参照で得て、その状態出力確率をパラメータの1つとし
    て用いて音声認識を行う音声認識装置であって、 入力音声に対し音声の特徴分析を行って特徴ベクトル列
    を出力する音声分析部と、 それぞれのサブワード対応のベクトル量子化手段が記憶
    されたベクトル量子化手段記憶部と、 前記音声分析部から出力される特徴ベクトル列に対し、
    前記ベクトル量子化手段記憶部に記憶されたサブワード
    対応のベクトル量子化手段を用いてベクトル量子化を行
    い、その量子化結果を出力するベクトル量子化処理部
    と、 サブワードHMM演算に必要な様々なパラメータや前記
    サブワード対応のベクトル量子化手段に対応して設けら
    れた状態出力確率参照用のテーブルを有するサブワード
    HMM記憶部と、 前記ベクトル量子化処理部からの量子化結果を受ける
    と、そのベクトル量子化に用いたベクトル量子化手段に
    対応した前記テーブルを参照し、その量子化結果に対す
    る状態出力確率を取得し、その状態出力確率をパラメー
    タの1つとして用いて音声認識処理を行い認識結果を出
    力する音声認識処理部と、 を有したことを特徴とする音声認識装置。
  11. 【請求項11】 前記サブワードは音素であって、音素
    対応のベクトル量子化手段を作成し、この作成された音
    素対応のベクトル量子化手段はそれぞれの音素HMMに
    対応することを特徴とする請求項10記載の音声認識装
    置。
  12. 【請求項12】 前記サブワードは音節であって、音節
    対応のベクトル量子化手段を作成し、この作成された音
    節対応のベクトル量子化手段はそれぞれの音節HMMに
    対応することを特徴とする請求項10記載の音声認識装
    置。
  13. 【請求項13】 前記サブワードは母音と子音であっ
    て、前記サブワード対応のベクトル量子化手段は母音に
    よって作成されたベクトル量子化手段と子音によって作
    成されたベクトル量子化手段であることを特徴とする請
    求項10記載の音声認識装置。
  14. 【請求項14】 前記それぞれのサブワードHMMの幾
    つかのサブワードHMMごとに、前記サブワード対応の
    ベクトル量子化手段のうち共有できるベクトル量子化手
    段があればそのベクトル量子化手段を共有することを特
    徴とする請求項10から12のいずれかに記載の音声認
    識装置。
  15. 【請求項15】 前記それぞれのサブワードHMMのあ
    る状態ごとに、前記サブワード対応のベクトル量子化手
    段のうち共有できるベクトル量子化手段があればそのベ
    クトル量子化手段を共有することを特徴とする請求項1
    0から12のいずれかに記載の音声認識装置。
  16. 【請求項16】 前記サブワード対応のベクトル量子化
    手段は、それぞれのベクトル量子化手段ごとにコードサ
    イズをそのサブワードに応じた最適なコードサイズとす
    ることを特徴とする請求項10から15のいずれかに記
    載の音声認識装置。
  17. 【請求項17】 単語・言語テーブルを有し、前記ベク
    トル量子化部がベクトル量子化を行う際、入力されたサ
    ブワードがベクトル量子化すべきサブワードであるか否
    かをこの単語・言語テーブルを参照して調べ、ベクトル
    量子化すべきサブワードでない場合にはベクトル量子化
    を行わないようにすることを特徴とする請求項10から
    16のいずれかに記載の音声認識装置。
  18. 【請求項18】 前記ベクトル量子化手段はコードブッ
    クであることを特徴とする請求項10から17のいずれ
    かに記載の音声認識装置。
JP2001223610A 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置 Expired - Fee Related JP4048741B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001223610A JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置
US10/197,461 US7058576B2 (en) 2001-07-24 2002-07-18 Method of calculating HMM output probability and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001223610A JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置

Publications (2)

Publication Number Publication Date
JP2003036092A true JP2003036092A (ja) 2003-02-07
JP4048741B2 JP4048741B2 (ja) 2008-02-20

Family

ID=19056913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001223610A Expired - Fee Related JP4048741B2 (ja) 2001-07-24 2001-07-24 Hmmの出力確率演算方法および音声認識装置

Country Status (2)

Country Link
US (1) US7058576B2 (ja)
JP (1) JP4048741B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique
DE112008002905T5 (de) * 2007-11-01 2010-12-30 Modine Manufacturing Co., Racine Wärmetauscher
US9328966B2 (en) * 2007-11-01 2016-05-03 Modine Manufacturing Company Heat exchanger with a baffle reinforcement member
KR100932538B1 (ko) * 2007-12-12 2009-12-17 한국전자통신연구원 음성 합성 방법 및 장치
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
DE102009049483A1 (de) * 2009-10-15 2011-04-21 Modine Manufacturing Co., Racine Wärmetauscher und Dichtungsanordnung dafür
WO2014020588A1 (en) * 2012-07-31 2014-02-06 Novospeech Ltd. Method and apparatus for speech recognition
US9792910B2 (en) * 2015-04-29 2017-10-17 Nuance Communications, Inc. Method and apparatus for improving speech recognition processing performance
CN107516176B (zh) 2016-06-17 2021-03-19 菜鸟智能物流控股有限公司 物流信息处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0743598B2 (ja) 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
JPH07160288A (ja) 1993-12-06 1995-06-23 Matsushita Electric Ind Co Ltd 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484514B2 (en) 2009-05-15 2013-07-09 Nec Corporation Fault cause estimating system, fault cause estimating method, and fault cause estimating program

Also Published As

Publication number Publication date
JP4048741B2 (ja) 2008-02-20
US7058576B2 (en) 2006-06-06
US20030061044A1 (en) 2003-03-27

Similar Documents

Publication Publication Date Title
Yu et al. DurIAN: Duration Informed Attention Network for Speech Synthesis.
EP0590925B1 (en) Method of speech modelling and a speech recognizer
US11763797B2 (en) Text-to-speech (TTS) processing
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPH09212188A (ja) 制約付き状態尤度を有する復号化された状態系列を用いた音声認識方法
KR20090061920A (ko) 음성 합성 방법 및 장치
JP4048741B2 (ja) Hmmの出力確率演算方法および音声認識装置
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
Collobert et al. Word-level speech recognition with a letter to word encoder
Franco et al. Dynaspeak: SRI’s scalable speech recognizer for embedded and mobile systems
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
JP2002207499A (ja) 非常に低いビット・レートで作動する音声符号器のための韻律を符号化する方法
JP4442211B2 (ja) 音響モデル作成方法
GB2465383A (en) A speech recognition system using a plurality of acoustic models which share probability distributions
JP4283133B2 (ja) 音声認識装置
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
US11670292B2 (en) Electronic device, method and computer program
Anoop et al. Investigation of different G2P schemes for speech recognition in Sanskrit
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
Ferreiros et al. Improving continuous speech recognition in Spanish by phone-class semicontinuous HMMs with pausing and multiple pronunciations
Debyeche et al. A new vector quantization approach for discrete HMM speech recognition system
JP2976795B2 (ja) 話者適応化方式
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050426

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees