JPH0981183A - 音声モデルの作成方法およびこれを用いた音声認識装置 - Google Patents
音声モデルの作成方法およびこれを用いた音声認識装置Info
- Publication number
- JPH0981183A JPH0981183A JP7237142A JP23714295A JPH0981183A JP H0981183 A JPH0981183 A JP H0981183A JP 7237142 A JP7237142 A JP 7237142A JP 23714295 A JP23714295 A JP 23714295A JP H0981183 A JPH0981183 A JP H0981183A
- Authority
- JP
- Japan
- Prior art keywords
- hmm
- voice
- average
- average vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 91
- 230000007704 transition Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【課題】 入力音声のための新たなHMM(隠れマルコ
フモデル)を1〜2回という極めて少ない発声回数で簡
単に作成することのできる音声モデルの作成方法とこれ
を用いた音声認識装置を提供すること。 【解決手段】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
を音声モデルとして用いた音声認識装置において、入力
された学習用音声からその平均ベクトルを算出する平均
ベクトル算出手段7と、入力された学習用音声に近似す
るHMMを初期モデルとして登録辞書3中から選択する
HMM選択手段4,5と、少なくとも前記HMM選択手
段4,5で選択されたHMM中の平均ベクトルを前記平
均ベクトル算出手段7で算出した学習用音声の平均ベク
トルで置き換え、該得られたHMMを入力された学習用
音声のHMMとして辞書3に追加登録するHMM作成手
段6とを備える。
フモデル)を1〜2回という極めて少ない発声回数で簡
単に作成することのできる音声モデルの作成方法とこれ
を用いた音声認識装置を提供すること。 【解決手段】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
を音声モデルとして用いた音声認識装置において、入力
された学習用音声からその平均ベクトルを算出する平均
ベクトル算出手段7と、入力された学習用音声に近似す
るHMMを初期モデルとして登録辞書3中から選択する
HMM選択手段4,5と、少なくとも前記HMM選択手
段4,5で選択されたHMM中の平均ベクトルを前記平
均ベクトル算出手段7で算出した学習用音声の平均ベク
トルで置き換え、該得られたHMMを入力された学習用
音声のHMMとして辞書3に追加登録するHMM作成手
段6とを備える。
Description
【0001】
【発明の属する技術分野】本発明は、連続分布型のHM
M(Hidden Marcov Modle :隠れマルコフモデル)を用
いた音声モデルの作成方法とこれを用いた音声認識装置
に係り、より詳しくは、新たな入力音声のためのHMM
を1〜2回という極めて少ない発声回数で作成すること
のできる音声モデルの作成方法とこれを用いた声認識装
置に関する。
M(Hidden Marcov Modle :隠れマルコフモデル)を用
いた音声モデルの作成方法とこれを用いた音声認識装置
に係り、より詳しくは、新たな入力音声のためのHMM
を1〜2回という極めて少ない発声回数で作成すること
のできる音声モデルの作成方法とこれを用いた声認識装
置に関する。
【0002】
【従来の技術】確率モデルによる音声認識装置として、
HMM(隠れマルコフモデル)を用いたものが知られて
いる。このHMMは、状態遷移確率で結びつけられた複
数個の状態を持ち、或る状態から或る状態へ遷移する際
にシンボル出力確率に従って所定のシンボルを出力する
ように特徴付けられたマルコフモデルである。なお、一
般に音声認識においては、時間が逆行することのないle
ft-to-right モデルが用いられる。
HMM(隠れマルコフモデル)を用いたものが知られて
いる。このHMMは、状態遷移確率で結びつけられた複
数個の状態を持ち、或る状態から或る状態へ遷移する際
にシンボル出力確率に従って所定のシンボルを出力する
ように特徴付けられたマルコフモデルである。なお、一
般に音声認識においては、時間が逆行することのないle
ft-to-right モデルが用いられる。
【0003】このHMMを用いた音声認識装置は、予
め、認識対象とするすべての単語についてHMMを作成
し、辞書に登録しておく。そして、音声認識に際して
は、辞書中からHMMを順次読み出し、それぞれのHM
Mについて入力音声と同じ観測シンボル系列を出力する
確率(尤度)を計算し、最も大きな確率を与えるHMM
に対応する単語を認識結果として出力するものである。
め、認識対象とするすべての単語についてHMMを作成
し、辞書に登録しておく。そして、音声認識に際して
は、辞書中からHMMを順次読み出し、それぞれのHM
Mについて入力音声と同じ観測シンボル系列を出力する
確率(尤度)を計算し、最も大きな確率を与えるHMM
に対応する単語を認識結果として出力するものである。
【0004】図6に、HMMの例を示す。このHMM
は、2つのシンボルa,bを出力可能なモデルの例であ
って、内部状態としてS1 〜S3 の3つの状態を有して
いる。状態はS1 からスタートし、S3 で終了するよう
になっている。各状態S1 〜S 3 を結ぶ矢印線が状態遷
移を表し、各矢印線の側に書かれたaijが状態遷移確
率、cijがそのときのシンボル出力確率を表している。
なお、シンボル出力確率c ijの[ ]の中の上側要素が
シンボルaの出力確率、下側要素がシンボルbの出力確
率である。
は、2つのシンボルa,bを出力可能なモデルの例であ
って、内部状態としてS1 〜S3 の3つの状態を有して
いる。状態はS1 からスタートし、S3 で終了するよう
になっている。各状態S1 〜S 3 を結ぶ矢印線が状態遷
移を表し、各矢印線の側に書かれたaijが状態遷移確
率、cijがそのときのシンボル出力確率を表している。
なお、シンボル出力確率c ijの[ ]の中の上側要素が
シンボルaの出力確率、下側要素がシンボルbの出力確
率である。
【0005】いま、一例として、入力音声の観測シンボ
ル系列が(aab)であるとき、図6のHMMがこの観
測シンボル系列(aab)を出力する確率(尤度)を計
算すると、次のようになる(例えば、大河内正明「マル
コフモデルによる音声認識」電子情報通信学会誌1987年
4月号参照)。
ル系列が(aab)であるとき、図6のHMMがこの観
測シンボル系列(aab)を出力する確率(尤度)を計
算すると、次のようになる(例えば、大河内正明「マル
コフモデルによる音声認識」電子情報通信学会誌1987年
4月号参照)。
【0006】まず、観測シンボル系列(aab)の音節
の長さは/a/a/b/の3であり、この時点で図6の
HMMにおいて観測シンボル系列(aab)を出力可能
な遷移経路(パス)は、S1 →S1 →S2 →S3 、S1
→S2 →S2 →S3 、S1 →S1 →S1 →S3 の3つの
ルートに限定される。
の長さは/a/a/b/の3であり、この時点で図6の
HMMにおいて観測シンボル系列(aab)を出力可能
な遷移経路(パス)は、S1 →S1 →S2 →S3 、S1
→S2 →S2 →S3 、S1 →S1 →S1 →S3 の3つの
ルートに限定される。
【0007】各遷移経路について観測シンボル系列(a
ab)が出力される確率は、その遷移経路に沿った状態
遷移確率aijとシンボル出力確率cijの全積で表される
ので、それぞれ次のような値となる。 S1→S1→S2→S3の場合、0.3 ×0.8 ×0.5 ×1.0 ×0.6
×0.5 =0.036 S1→S2→S2→S3の場合、0.5 ×1.0 ×0.4 ×0.3 ×0.6
×0.5 =0.018 S1→S1→S1→S3の場合、0.3 ×0.8 ×0.3 ×0.8 ×0.2
×1.0 =0.01152
ab)が出力される確率は、その遷移経路に沿った状態
遷移確率aijとシンボル出力確率cijの全積で表される
ので、それぞれ次のような値となる。 S1→S1→S2→S3の場合、0.3 ×0.8 ×0.5 ×1.0 ×0.6
×0.5 =0.036 S1→S2→S2→S3の場合、0.5 ×1.0 ×0.4 ×0.3 ×0.6
×0.5 =0.018 S1→S1→S1→S3の場合、0.3 ×0.8 ×0.3 ×0.8 ×0.2
×1.0 =0.01152
【0008】観測シンボル系列(aab)を出力する可
能性は、前記3つの遷移経路のいずれにもあるので、こ
れら3つの確率の和、すなわち、0.036 +0.018 +0.01
152=0.06552 が、図6のHMMにおける観測シンボル
系列(aab)を出力する確率(尤度)となる。なお、
簡易的には、前記計算した3つの確率の中の最も大きな
値 0.036をそのHMMの確率として代表させてもよい。
能性は、前記3つの遷移経路のいずれにもあるので、こ
れら3つの確率の和、すなわち、0.036 +0.018 +0.01
152=0.06552 が、図6のHMMにおける観測シンボル
系列(aab)を出力する確率(尤度)となる。なお、
簡易的には、前記計算した3つの確率の中の最も大きな
値 0.036をそのHMMの確率として代表させてもよい。
【0009】このような確率計算を辞書中に登録されて
いるすべてのHMMについて行ない、得られた確率の中
で最も大きな値を与えるHMMに対応する単語を認識結
果として出力すれば、入力音声を認識することができ
る。
いるすべてのHMMについて行ない、得られた確率の中
で最も大きな値を与えるHMMに対応する単語を認識結
果として出力すれば、入力音声を認識することができ
る。
【0010】ところで、図7(A)(B)に示すように、
HMMには、シンボル出力確率cijが不連続的に変化す
る離散分布型のHMMと、シンボル出力確率cijが連続
的に変化する連続分布型のHMMとがある。離散分布型
のHMMは量子化誤差が発生するため、音声認識では連
続分布型のHMMが用いられることが多い。
HMMには、シンボル出力確率cijが不連続的に変化す
る離散分布型のHMMと、シンボル出力確率cijが連続
的に変化する連続分布型のHMMとがある。離散分布型
のHMMは量子化誤差が発生するため、音声認識では連
続分布型のHMMが用いられることが多い。
【0011】図7(B)に明らかなように、連続分布型
のシンボル出力確率cijは、シンボルの平均ベクトルμ
と分散Σによって規定される。したがって、連続分布型
のHMMは、状態遷移確率aij(図6参照)、前記シン
ボルの平均ベクトルμおよび分散Σの3つのパラメータ
によってモデル全体が記述されることになる。
のシンボル出力確率cijは、シンボルの平均ベクトルμ
と分散Σによって規定される。したがって、連続分布型
のHMMは、状態遷移確率aij(図6参照)、前記シン
ボルの平均ベクトルμおよび分散Σの3つのパラメータ
によってモデル全体が記述されることになる。
【0012】各登録単語について前記HMMを作成する
には、音声モデルを表す母集団中の多数のサンプルを用
いて学習し、前記3つのパラメータを推定すればよい。
この推定方法としては、例えば前向き後向きアルゴリズ
ムなど、いくつかのアルゴリズムが知られている。
には、音声モデルを表す母集団中の多数のサンプルを用
いて学習し、前記3つのパラメータを推定すればよい。
この推定方法としては、例えば前向き後向きアルゴリズ
ムなど、いくつかのアルゴリズムが知られている。
【0013】また、図6に例示したようなHMMが所定
の観測シンボル系列(aab)を出力する確率(尤度)
の計算方法についても、前向きアルゴリズム、ビタビ
(Viterbi)アルゴリズムなど、いくつかのアルゴリズム
が知られている。
の観測シンボル系列(aab)を出力する確率(尤度)
の計算方法についても、前向きアルゴリズム、ビタビ
(Viterbi)アルゴリズムなど、いくつかのアルゴリズム
が知られている。
【0014】
【発明が解決しようとする課題】前述したように、HM
Mを用いた音声認識装置は、確率的手法を用いて音声認
識を行なっているため、不特定話者用の音声認識装置と
して優れており、例えば車載用ナビゲーション装置の音
声指令システムなど、種々の分野で利用されようとして
いる。
Mを用いた音声認識装置は、確率的手法を用いて音声認
識を行なっているため、不特定話者用の音声認識装置と
して優れており、例えば車載用ナビゲーション装置の音
声指令システムなど、種々の分野で利用されようとして
いる。
【0015】しかしながら、このHMMを用いた音声認
識装置も現在のところ完全ではなく、辞書中に登録され
ていない単語が入力された場合や、登録されている単語
であっても発声音があまりに標準パターンからずれてい
るような場合には、誤認識を起こしたり、認識不能とな
る。
識装置も現在のところ完全ではなく、辞書中に登録され
ていない単語が入力された場合や、登録されている単語
であっても発声音があまりに標準パターンからずれてい
るような場合には、誤認識を起こしたり、認識不能とな
る。
【0016】誤認識や認識不能が発生した場合、その入
力音声について次回から認識可能とするために、その入
力音声に対する新たなHMMを作成し、辞書に追加登録
してやる必要がある。しかしながら、従来の学習方法に
よって前記状態遷移確率,平均ベクトル,分散の3つの
パラメータを推定し、入力音声のための新たなHMMを
作成しようとすると、1つの単語について10〜20回
程度の発声が必要となり、追加登録作業に多大の手間と
時間がかかるという問題があった。
力音声について次回から認識可能とするために、その入
力音声に対する新たなHMMを作成し、辞書に追加登録
してやる必要がある。しかしながら、従来の学習方法に
よって前記状態遷移確率,平均ベクトル,分散の3つの
パラメータを推定し、入力音声のための新たなHMMを
作成しようとすると、1つの単語について10〜20回
程度の発声が必要となり、追加登録作業に多大の手間と
時間がかかるという問題があった。
【0017】このように、追加登録に多大の手間と時間
がかかる場合、自動車などでは走行しながら学習させる
ことが難しく、追加登録を行なうにはその都度車を停め
ねばならないという問題があった。また、先を急いでい
るような場合には、相当の時間が経過してから追加登録
作業が行なわれるため、追加登録すべき入力音声(単
語)が分からなくなったり、さらには、追加登録を行な
うこと自体を忘れてしまうというようなことも起こり得
る。
がかかる場合、自動車などでは走行しながら学習させる
ことが難しく、追加登録を行なうにはその都度車を停め
ねばならないという問題があった。また、先を急いでい
るような場合には、相当の時間が経過してから追加登録
作業が行なわれるため、追加登録すべき入力音声(単
語)が分からなくなったり、さらには、追加登録を行な
うこと自体を忘れてしまうというようなことも起こり得
る。
【0018】本発明は、上記のような問題を解決するた
めになされたもので、その目的とするところは、入力音
声のための新たなHMMを1〜2回という極めて少ない
発声回数で簡単に作成することのできる音声モデルの作
成方法とこれを用いた音声認識装置を提供することであ
る。
めになされたもので、その目的とするところは、入力音
声のための新たなHMMを1〜2回という極めて少ない
発声回数で簡単に作成することのできる音声モデルの作
成方法とこれを用いた音声認識装置を提供することであ
る。
【0019】
【課題を解決するための手段】前記目的を達成するため
に、本発明では次のような手段を採用した。すなわち、
請求項1記載の音声モデルの作成方法は、状態遷移確
率,平均ベクトル,分散の3つのパラメータによって規
定される連続分布型のHMM(隠れマルコフモデル)か
らなる音声モデルの作成方法であって、入力された学習
用音声からその平均ベクトルを算出するとともに、該入
力された学習用音声に近似するHMMを初期モデルとし
て登録辞書中から選択し、少なくとも該選択したHMM
中の平均ベクトルを前記算出した学習用音声の平均ベク
トルで置き換えることにより前記入力された学習用音声
のHMMとすることを特徴とするものである。
に、本発明では次のような手段を採用した。すなわち、
請求項1記載の音声モデルの作成方法は、状態遷移確
率,平均ベクトル,分散の3つのパラメータによって規
定される連続分布型のHMM(隠れマルコフモデル)か
らなる音声モデルの作成方法であって、入力された学習
用音声からその平均ベクトルを算出するとともに、該入
力された学習用音声に近似するHMMを初期モデルとし
て登録辞書中から選択し、少なくとも該選択したHMM
中の平均ベクトルを前記算出した学習用音声の平均ベク
トルで置き換えることにより前記入力された学習用音声
のHMMとすることを特徴とするものである。
【0020】また、請求項2記載の音声モデルの作成方
法は、状態遷移確率,平均ベクトル,分散の3つのパラ
メータによって規定される連続分布型のHMM(隠れマ
ルコフモデル)からなる音声モデルの作成方法であっ
て、辞書中に登録されている複数のHMMを用いて作成
した平均HMMを初期モデルとして用意しておき、入力
された学習用音声からその平均ベクトルを算出し、少な
くとも前記平均HMM中の平均ベクトルを前記算出した
学習用音声の平均ベクトルで置き換えることにより前記
入力された学習用音声のHMMとすることを特徴とする
ものである。
法は、状態遷移確率,平均ベクトル,分散の3つのパラ
メータによって規定される連続分布型のHMM(隠れマ
ルコフモデル)からなる音声モデルの作成方法であっ
て、辞書中に登録されている複数のHMMを用いて作成
した平均HMMを初期モデルとして用意しておき、入力
された学習用音声からその平均ベクトルを算出し、少な
くとも前記平均HMM中の平均ベクトルを前記算出した
学習用音声の平均ベクトルで置き換えることにより前記
入力された学習用音声のHMMとすることを特徴とする
ものである。
【0021】また、請求項3記載の音声認識装置は、状
態遷移確率,平均ベクトル,分散の3つのパラメータに
よって規定される連続分布型のHMM(隠れマルコフモ
デル)を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、入力された学習用音声に
近似するHMMを初期モデルとして登録辞書中から選択
するHMM選択手段と、少なくとも前記HMM選択手段
で選択されたHMM中の平均ベクトルを前記平均ベクト
ル算出手段で算出した学習用音声の平均ベクトルで置き
換え、該得られたHMMを入力された学習用音声のHM
Mとして辞書に追加登録するHMM作成手段と、を備え
たことを特徴とするものである。
態遷移確率,平均ベクトル,分散の3つのパラメータに
よって規定される連続分布型のHMM(隠れマルコフモ
デル)を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、入力された学習用音声に
近似するHMMを初期モデルとして登録辞書中から選択
するHMM選択手段と、少なくとも前記HMM選択手段
で選択されたHMM中の平均ベクトルを前記平均ベクト
ル算出手段で算出した学習用音声の平均ベクトルで置き
換え、該得られたHMMを入力された学習用音声のHM
Mとして辞書に追加登録するHMM作成手段と、を備え
たことを特徴とするものである。
【0022】さらに、請求項4記載の音声認識装置は、
状態遷移確率,平均ベクトル,分散の3つのパラメータ
によって規定される連続分布型のHMM(隠れマルコフ
モデル)を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、辞書中に登録されている
複数のHMMを用いて作成された平均HMMを初期モデ
ルとして用い、少なくとも該平均HMM中の平均ベクト
ルを前記平均ベクトル算出手段で算出した学習用音声の
平均ベクトルで置き換え、該得られたHMMを入力され
た学習用音声のHMMとして辞書に追加登録するHMM
作成手段とを備えたことを特徴とするものである。
状態遷移確率,平均ベクトル,分散の3つのパラメータ
によって規定される連続分布型のHMM(隠れマルコフ
モデル)を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、辞書中に登録されている
複数のHMMを用いて作成された平均HMMを初期モデ
ルとして用い、少なくとも該平均HMM中の平均ベクト
ルを前記平均ベクトル算出手段で算出した学習用音声の
平均ベクトルで置き換え、該得られたHMMを入力され
た学習用音声のHMMとして辞書に追加登録するHMM
作成手段とを備えたことを特徴とするものである。
【0023】前述したように、連続分布型のHMMは、
状態遷移確率aij、平均ベクトルμ,分散Σの3つのパ
ラメータによってモデルが記述される。この3つのパラ
メータのうち、平均ベクトルμは入力音声によって大き
く変わるが、シンボル出力確率の分布形状を与える分散
Σは、入力音声によってそれほど大きく変化することは
ない。一方、辞書中には既にたくさんの入力音声のため
のHMMが登録されているが、これらのHMMの中には
新しく追加登録しようとする入力音声と良く似たモデル
形状のHMMが存在する。
状態遷移確率aij、平均ベクトルμ,分散Σの3つのパ
ラメータによってモデルが記述される。この3つのパラ
メータのうち、平均ベクトルμは入力音声によって大き
く変わるが、シンボル出力確率の分布形状を与える分散
Σは、入力音声によってそれほど大きく変化することは
ない。一方、辞書中には既にたくさんの入力音声のため
のHMMが登録されているが、これらのHMMの中には
新しく追加登録しようとする入力音声と良く似たモデル
形状のHMMが存在する。
【0024】そこで、本発明は、誤認識や認識不能とな
った入力音声のための新たなHMMを追加登録する場合
に、従来のようにまったくの白紙状態からHMMを作る
のではなく、既に辞書中に登録されているHMM中から
入力された学習用音声の音声モデルに良く似た形状のH
MMを選択し、この選択したHMM中の平均ベクトルの
みを新たに追加登録しようとする学習用音声の平均ベク
トルで置き換えることにより、入力音声のための新たな
HMMを作成するようにしたものである。
った入力音声のための新たなHMMを追加登録する場合
に、従来のようにまったくの白紙状態からHMMを作る
のではなく、既に辞書中に登録されているHMM中から
入力された学習用音声の音声モデルに良く似た形状のH
MMを選択し、この選択したHMM中の平均ベクトルの
みを新たに追加登録しようとする学習用音声の平均ベク
トルで置き換えることにより、入力音声のための新たな
HMMを作成するようにしたものである。
【0025】さらに、本発明者等の研究の結果、既に辞
書中に登録されている多数のHMMを用いて平均的なH
MMを作成し、この平均HMM中の平均ベクトルのみを
新たに追加登録しようとする学習用音声の平均ベクトル
で置き換えても、高い認識率を得られることが分かっ
た。
書中に登録されている多数のHMMを用いて平均的なH
MMを作成し、この平均HMM中の平均ベクトルのみを
新たに追加登録しようとする学習用音声の平均ベクトル
で置き換えても、高い認識率を得られることが分かっ
た。
【0026】そこで、本発明者等はこの知見に基づき、
辞書中に登録されている複数のHMM(例えば、すべて
のHMM)を用いて平均的なHMMを作成し、これを初
期モデルとして辞書内に用意しておき、この平均的HM
M中の平均ベクトルのみを新たに追加登録しようとする
学習用音声の平均ベクトルで置き換えることにより、入
力音声のための新たなHMMを作成するようにしたもの
である。
辞書中に登録されている複数のHMM(例えば、すべて
のHMM)を用いて平均的なHMMを作成し、これを初
期モデルとして辞書内に用意しておき、この平均的HM
M中の平均ベクトルのみを新たに追加登録しようとする
学習用音声の平均ベクトルで置き換えることにより、入
力音声のための新たなHMMを作成するようにしたもの
である。
【0027】本発明は、上記のような各手法を採用して
構成したので、誤認識あるいは認識不能となった入力音
声のための新しいHMMを1〜2回という極めて少ない
発声回数で作成することができる。このため、従来に比
べて入力音声のための新しいHMMの追加登録作業が極
めて簡単となり、たとえ自動車などに搭載されているよ
うな場合でも、走行しながら簡単に追加登録することが
できる。
構成したので、誤認識あるいは認識不能となった入力音
声のための新しいHMMを1〜2回という極めて少ない
発声回数で作成することができる。このため、従来に比
べて入力音声のための新しいHMMの追加登録作業が極
めて簡単となり、たとえ自動車などに搭載されているよ
うな場合でも、走行しながら簡単に追加登録することが
できる。
【0028】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。図1に、本発明に係る音
声認識装置の第1の例を示す。この第1の例は、入力さ
れた学習用音声の音声認識を行ない、登録辞書中から学
習用音声の音声モデルに最も近似するHMMを選択し、
この選択したHMM中の平均ベクトルを学習用音声の平
均ベクトルで置き換えることにより、新しいHMMを作
成するようにした場合の例を示すものである。
て、図面を参照して説明する。図1に、本発明に係る音
声認識装置の第1の例を示す。この第1の例は、入力さ
れた学習用音声の音声認識を行ない、登録辞書中から学
習用音声の音声モデルに最も近似するHMMを選択し、
この選択したHMM中の平均ベクトルを学習用音声の平
均ベクトルで置き換えることにより、新しいHMMを作
成するようにした場合の例を示すものである。
【0029】図1において、1は音声入力用のマイク、
2は入力音声を分析して所定の観測シンボル系列に変換
する特徴抽出部、3は各単語についてのHMMを格納し
た辞書、4は各HMMについて観測シンボル系列を生成
する確率(尤度)を計算する確率計算部、5は確率計算
したHMMの中から最大の確率を与えるHMMを選択
し、そのHMMに対応する単語を認識結果として出力す
る判定部である。これらマイク1、特徴抽出部2、辞書
3、確率計算部4、判定部5は、公知の学習機能のない
音声認識装置を構成している。
2は入力音声を分析して所定の観測シンボル系列に変換
する特徴抽出部、3は各単語についてのHMMを格納し
た辞書、4は各HMMについて観測シンボル系列を生成
する確率(尤度)を計算する確率計算部、5は確率計算
したHMMの中から最大の確率を与えるHMMを選択
し、そのHMMに対応する単語を認識結果として出力す
る判定部である。これらマイク1、特徴抽出部2、辞書
3、確率計算部4、判定部5は、公知の学習機能のない
音声認識装置を構成している。
【0030】本発明の場合、前記構成に加え、新しい単
語のためのHMMを作成するHMM作成部6と、入力さ
れた学習用音声からその平均ベクトルを算出する平均ベ
クトル算出部7とを備えている。
語のためのHMMを作成するHMM作成部6と、入力さ
れた学習用音声からその平均ベクトルを算出する平均ベ
クトル算出部7とを備えている。
【0031】なお、前記図1は本発明の音声認識装置を
機能レベルでブロック化して示したものである。実際の
装置では、マイク1、辞書3を除いた他の回路部分はマ
イクロコンピュータやDSPなどで構成されており、そ
れぞれの回路機能はプログラムによってソフトウェア的
に実現されている。
機能レベルでブロック化して示したものである。実際の
装置では、マイク1、辞書3を除いた他の回路部分はマ
イクロコンピュータやDSPなどで構成されており、そ
れぞれの回路機能はプログラムによってソフトウェア的
に実現されている。
【0032】まず最初に、前記音声認識装置における通
常の音声認識動作について、簡単に説明する。いま、辞
書中に登録されている所定の単語をマイク1に向かって
発声すると、その入力音声信号は特徴抽出部2において
適当な窓長(フレーム)で切り出され、各フレーム毎に
所定の観測シンボル(例えば、10次元のメルケプスト
ラムなど)に変換され、確率計算部4に送られる。
常の音声認識動作について、簡単に説明する。いま、辞
書中に登録されている所定の単語をマイク1に向かって
発声すると、その入力音声信号は特徴抽出部2において
適当な窓長(フレーム)で切り出され、各フレーム毎に
所定の観測シンボル(例えば、10次元のメルケプスト
ラムなど)に変換され、確率計算部4に送られる。
【0033】確率計算部4は、辞書3に登録されている
すべてのHMMを順次読み出し、それぞれのHMMにつ
いて前記観測シンボル系列を生成する確率(尤度)を順
次計算する。
すべてのHMMを順次読み出し、それぞれのHMMにつ
いて前記観測シンボル系列を生成する確率(尤度)を順
次計算する。
【0034】辞書3に登録されているすべてのHMMに
ついて前記確率計算が終了したら、判定部5はこれら得
られた確率中から最も大きな値のHMMを選択し、この
選択したHMMに対応する単語を認識結果として出力す
る。これによって、マイク1から入力された音声の認識
が完了する。
ついて前記確率計算が終了したら、判定部5はこれら得
られた確率中から最も大きな値のHMMを選択し、この
選択したHMMに対応する単語を認識結果として出力す
る。これによって、マイク1から入力された音声の認識
が完了する。
【0035】ところで、前記のようにして音声認識装置
を使用していると、何回言い直しても認識できなかった
り、誤認識してしまう単語が発生することがある。ま
た、辞書にない新しい単語を追加登録する必要が生じる
場合もある。本発明の音声認識装置は、このような場合
に以下のようにして、その入力音声のための新しいHM
Mを作成し、辞書に追加登録できるようにしたものであ
る。
を使用していると、何回言い直しても認識できなかった
り、誤認識してしまう単語が発生することがある。ま
た、辞書にない新しい単語を追加登録する必要が生じる
場合もある。本発明の音声認識装置は、このような場合
に以下のようにして、その入力音声のための新しいHM
Mを作成し、辞書に追加登録できるようにしたものであ
る。
【0036】以下、前記音声認識装置における新しい単
語のためのHMMの作成処理について、図2を参照して
説明する。なお、図2は、入力された学習用音声に最も
近似するHMMを音声認識によって辞書中から選択し、
この選択されたHMMを初期モデルとして、新しい入力
音声(単語)のためのHMMを作成する場合の例であ
る。この入力される学習用音声の認識には、連続音節単
位(例えば、/も/く/て/き/ち/)で行なう場合
(以下、連続音節認識法と呼ぶ)と、単語単位(例え
ば、/もくてきち/)で行なう場合(以下、単語認識法
と呼ぶ)とがある。また、前者は、音節ばかりでなく、
半音節や音素、さらにはこれら3つを組み合わせたモデ
ルなどにも用いることができる。図2は、連続音節認識
法を用いた場合の例である。
語のためのHMMの作成処理について、図2を参照して
説明する。なお、図2は、入力された学習用音声に最も
近似するHMMを音声認識によって辞書中から選択し、
この選択されたHMMを初期モデルとして、新しい入力
音声(単語)のためのHMMを作成する場合の例であ
る。この入力される学習用音声の認識には、連続音節単
位(例えば、/も/く/て/き/ち/)で行なう場合
(以下、連続音節認識法と呼ぶ)と、単語単位(例え
ば、/もくてきち/)で行なう場合(以下、単語認識法
と呼ぶ)とがある。また、前者は、音節ばかりでなく、
半音節や音素、さらにはこれら3つを組み合わせたモデ
ルなどにも用いることができる。図2は、連続音節認識
法を用いた場合の例である。
【0037】切換スイッチ9,10は、学習側に切り換
えられている。いま、追加登録すべき新しい単語が「目
的地」(/もくてきち/)であるものとする。話者がマ
イク1に向かって/もくてきち/と発声すると(図2
(A))、この入力音声信号(図2(B))は特徴抽出
部2に送られ、適当な窓長(フレーム)で切り出され、
各フレーム毎に所定の観測シンボル(例えば、10次元
のメルケプストラムなど)に変換され、確率計算部4に
送られる。
えられている。いま、追加登録すべき新しい単語が「目
的地」(/もくてきち/)であるものとする。話者がマ
イク1に向かって/もくてきち/と発声すると(図2
(A))、この入力音声信号(図2(B))は特徴抽出
部2に送られ、適当な窓長(フレーム)で切り出され、
各フレーム毎に所定の観測シンボル(例えば、10次元
のメルケプストラムなど)に変換され、確率計算部4に
送られる。
【0038】確率計算部4は、辞書3に登録されている
各音節用のHMMを順次読み出し、各HMMが前記学習
用音声の観測シンボル系列の各シンボルを出力する確率
をそれぞれ計算する。すなわち、辞書3には、図2
(D)に示すように、/あ/…/ん/など、必要とする
すべての音節(日本語の場合、約110個)についての
HMMが登録されており、確率計算部4は、この各音節
のHMMが前記観測シンボル系列の各シンボルを出力す
る確率をそれぞれ計算する。なお、辞書3は認識単位に
応じて音節、半音節、音素、あるいはこれらの組合せに
ついてのHMMを記憶する。
各音節用のHMMを順次読み出し、各HMMが前記学習
用音声の観測シンボル系列の各シンボルを出力する確率
をそれぞれ計算する。すなわち、辞書3には、図2
(D)に示すように、/あ/…/ん/など、必要とする
すべての音節(日本語の場合、約110個)についての
HMMが登録されており、確率計算部4は、この各音節
のHMMが前記観測シンボル系列の各シンボルを出力す
る確率をそれぞれ計算する。なお、辞書3は認識単位に
応じて音節、半音節、音素、あるいはこれらの組合せに
ついてのHMMを記憶する。
【0039】判定部5は、それぞれのシンボル毎に最大
の確率を与えるHMMを選択する。このような判定処理
の結果、いま、入力された学習用音声/もくてきち/
が、図2(C)に示すように、/ま/く/た/き/い/
と認識されたものとする。判定部5はこの判定結果をH
MM作成部に送る。なお、これら確率計算部4と判定部
5は、HMM選択手段を構成している。
の確率を与えるHMMを選択する。このような判定処理
の結果、いま、入力された学習用音声/もくてきち/
が、図2(C)に示すように、/ま/く/た/き/い/
と認識されたものとする。判定部5はこの判定結果をH
MM作成部に送る。なお、これら確率計算部4と判定部
5は、HMM選択手段を構成している。
【0040】HMM作成部6は、前記選択された各音節
についてのHMM、すなわち、音節/ま/のHMM、音
節/く/のHMM、音節/た/のHMM、音節/き/の
HMM、音節/い/のHMMをそれぞれ辞書3から読み
出す。そして、この読み出した5つの音節のHMMを時
系列順に並べて結合し、図2(E)に示すような学習用
入力音声についてのHMM結合モデルを作成する。
についてのHMM、すなわち、音節/ま/のHMM、音
節/く/のHMM、音節/た/のHMM、音節/き/の
HMM、音節/い/のHMMをそれぞれ辞書3から読み
出す。そして、この読み出した5つの音節のHMMを時
系列順に並べて結合し、図2(E)に示すような学習用
入力音声についてのHMM結合モデルを作成する。
【0041】一方、平均ベクトル算出部7は、入力され
た学習用音声についてその平均ベクトルを算出し、HM
M作成部6に送る。
た学習用音声についてその平均ベクトルを算出し、HM
M作成部6に送る。
【0042】HMM作成部6は、この送られてきた平均
ベクトルを図2(E)のHMM結合モデルの平均ベクト
ルと置き換える。そして、この新たに作成されたHMM
を学習用入力音声/もくてきち/についての新たなHM
Mとして辞書3に追加登録する。
ベクトルを図2(E)のHMM結合モデルの平均ベクト
ルと置き換える。そして、この新たに作成されたHMM
を学習用入力音声/もくてきち/についての新たなHM
Mとして辞書3に追加登録する。
【0043】図3に、単語認識法を用いてHMMを作成
する場合の例を示す。図3の例では、確率計算部4と判
定部5において入力された学習用音声/もくてきち/を
単語単位で音声認識した結果、最も近似したHMMとし
て惑星の名前である木星(/もくせい/)が選択された
場合を示している(図3(A))。
する場合の例を示す。図3の例では、確率計算部4と判
定部5において入力された学習用音声/もくてきち/を
単語単位で音声認識した結果、最も近似したHMMとし
て惑星の名前である木星(/もくせい/)が選択された
場合を示している(図3(A))。
【0044】そこで、HMM作成部6は、辞書3(図3
(B))中からこの/もくせい/の単語HMMを読み出
し(図3(C))、この単語モデルの平均ベクトルのみ
を平均ベクトル算出部7で算出された学習用音声の平均
ベクトルで置き換えることにより、学習用入力音声/も
くてきち/についての新たなHMMを作成するようにし
たものである。
(B))中からこの/もくせい/の単語HMMを読み出
し(図3(C))、この単語モデルの平均ベクトルのみ
を平均ベクトル算出部7で算出された学習用音声の平均
ベクトルで置き換えることにより、学習用入力音声/も
くてきち/についての新たなHMMを作成するようにし
たものである。
【0045】この単語認識法を用いた場合、確率計算部
4と判定部5における音声認識が単語単位で行なわれる
ため、図2の連続音節認識法を用いた場合に比べて認識
時間がその分だけ短くて済み、より短い時間で新しい単
語のためのHMMを作成することができる。
4と判定部5における音声認識が単語単位で行なわれる
ため、図2の連続音節認識法を用いた場合に比べて認識
時間がその分だけ短くて済み、より短い時間で新しい単
語のためのHMMを作成することができる。
【0046】図4に、本発明の音声認識装置の第2の例
を示す。この第2の例は、辞書中に登録されているすべ
ての音節のHMMから、そのパラメータを平均化した1
個の平均HMMを初期モデルとして用意しておき、この
平均HMM中の平均ベクトルのみを新たに追加登録しよ
うとする学習用音声の平均ベクトルで置き換えることに
より、新たな単語のためのHMMを作成するようにした
場合の一例を示すものである。以下、この方法を平均H
MM法と呼ぶ。
を示す。この第2の例は、辞書中に登録されているすべ
ての音節のHMMから、そのパラメータを平均化した1
個の平均HMMを初期モデルとして用意しておき、この
平均HMM中の平均ベクトルのみを新たに追加登録しよ
うとする学習用音声の平均ベクトルで置き換えることに
より、新たな単語のためのHMMを作成するようにした
場合の一例を示すものである。以下、この方法を平均H
MM法と呼ぶ。
【0047】なお、この図4も、図1の場合と同様に、
本発明の音声認識装置を機能レベルでブロック化して示
したものである。実際の装置では、マイク1、辞書3以
外の回路部分はマイクロコンピュータやDSPなどで構
成されており、それぞれの機能はプログラムによってソ
フトウェア的に実現されている。
本発明の音声認識装置を機能レベルでブロック化して示
したものである。実際の装置では、マイク1、辞書3以
外の回路部分はマイクロコンピュータやDSPなどで構
成されており、それぞれの機能はプログラムによってソ
フトウェア的に実現されている。
【0048】図4の音声認識装置が、図1の音声認識装
置と異なるところは、切換スイッチ10の学習側端子を
開放とし、確率計算部4と判定部5による音声認識結果
をフィードバックして利用する代わりに、予め辞書3内
に初期モデルとして平均HMMを用意している点であ
る。
置と異なるところは、切換スイッチ10の学習側端子を
開放とし、確率計算部4と判定部5による音声認識結果
をフィードバックして利用する代わりに、予め辞書3内
に初期モデルとして平均HMMを用意している点であ
る。
【0049】すなわち、図4の音声認識装置の場合、辞
書3に登録されている図5(A)に示すような/あ/…
/ん/などのすべての音節(日本語の場合、約110
個)についてのHMMを用い、状態遷移確率、平均ベク
トル、分散のそれぞれについてその全平均を求め、この
平均値からなる3つのパラメータによって規定される図
5(B)に示すような1個の平均HMMを予め辞書3内
に初期モデルとして用意しておく。なお、ここでは音節
を用いたが、半音節、音素などでも適用可能である。
書3に登録されている図5(A)に示すような/あ/…
/ん/などのすべての音節(日本語の場合、約110
個)についてのHMMを用い、状態遷移確率、平均ベク
トル、分散のそれぞれについてその全平均を求め、この
平均値からなる3つのパラメータによって規定される図
5(B)に示すような1個の平均HMMを予め辞書3内
に初期モデルとして用意しておく。なお、ここでは音節
を用いたが、半音節、音素などでも適用可能である。
【0050】前記のような構成になる図4の音声認識装
置における新しい単語のためのHMMの作成処理につい
て、図5を参照して説明する。
置における新しい単語のためのHMMの作成処理につい
て、図5を参照して説明する。
【0051】追加登録されるべき新しい単語が前述した
と同様に「目的地」(/もくてきち/)であるものとす
る。いま、話者がマイク1に向かって/もくてきち/と
発声すると、平均ベクトル算出部7はその入力音声の平
均ベクトルを算出し、HMM作成部6に送る。
と同様に「目的地」(/もくてきち/)であるものとす
る。いま、話者がマイク1に向かって/もくてきち/と
発声すると、平均ベクトル算出部7はその入力音声の平
均ベクトルを算出し、HMM作成部6に送る。
【0052】一方、HMM作成部6は、辞書3中から初
期モデルとして図5(B)の平均HMMを読み出し、図
5(C)のように所定個を連結して結合し、得られた平
均HMMの結合モデルの平均ベクトルを前記平均ベクト
ル算出部7から送られてきた平均ベクトルで置き換える
ことにより、学習用入力音声/もくてきち/のHMMを
作成し、辞書3に追加登録する。
期モデルとして図5(B)の平均HMMを読み出し、図
5(C)のように所定個を連結して結合し、得られた平
均HMMの結合モデルの平均ベクトルを前記平均ベクト
ル算出部7から送られてきた平均ベクトルで置き換える
ことにより、学習用入力音声/もくてきち/のHMMを
作成し、辞書3に追加登録する。
【0053】前記平均HMM法を用いた場合、入力音声
の認識を行なわない分、前記連続音節認識法や単語認識
法を用いた場合に比べてより短い時間で新しい単語のた
めのHMMを作成することができる。
の認識を行なわない分、前記連続音節認識法や単語認識
法を用いた場合に比べてより短い時間で新しい単語のた
めのHMMを作成することができる。
【0054】表1に、本発明の音声認識装置における新
しいHMMの推定(学習)時間の実測例を示す。
しいHMMの推定(学習)時間の実測例を示す。
【0055】
【表1】
【0056】表1から明らかなように、平均HMM法の
場合は、入力単語の音声認識を行なう必要がないため、
連続音節認識法と単語認識法に比べて学習時間が短くて
済む。また、単語認識法は、音節を認識する必要のない
分、連続音節認識法に比べて学習時間が短くて済む。
場合は、入力単語の音声認識を行なう必要がないため、
連続音節認識法と単語認識法に比べて学習時間が短くて
済む。また、単語認識法は、音節を認識する必要のない
分、連続音節認識法に比べて学習時間が短くて済む。
【0057】表2に、表1の学習の結果得られたHMM
を用いて新単語の音声認識を行なった場合の認識率を示
す。参考のため、従来の学習法による場合も示した。
を用いて新単語の音声認識を行なった場合の認識率を示
す。参考のため、従来の学習法による場合も示した。
【0058】
【表2】
【0059】表2から明らかなように、従来学習法によ
るときは、1〜2回の発声回数ではパラメータの推定が
うまく行かず、最適なモデルが推定されないため、認識
率が極端に悪いことが分かる。一方、本発明の連続音節
認識法によるときは1回の学習で認識率95.6%とな
り、1回の学習でほぼ飽和している。また、単語認識法
と平均HMM法によるときは1回の学習では飽和せず、
2回以上の学習が必要である。
るときは、1〜2回の発声回数ではパラメータの推定が
うまく行かず、最適なモデルが推定されないため、認識
率が極端に悪いことが分かる。一方、本発明の連続音節
認識法によるときは1回の学習で認識率95.6%とな
り、1回の学習でほぼ飽和している。また、単語認識法
と平均HMM法によるときは1回の学習では飽和せず、
2回以上の学習が必要である。
【0060】前記表1と表2の結果を総合すれば、発声
回数を1回に限定した場合には、連続音節認識法が優
れ、発声回数を2回に限定した場合には、学習時間が短
くて済むという点(表1参照)から、平均HMM法が優
れていることが分かる。したがって、本発明の音声認識
装置を設計する場合、その使用環境や使用条件などを考
慮の上、前記3つの方法のうちから目的に最も適したも
のを採用すればよい。
回数を1回に限定した場合には、連続音節認識法が優
れ、発声回数を2回に限定した場合には、学習時間が短
くて済むという点(表1参照)から、平均HMM法が優
れていることが分かる。したがって、本発明の音声認識
装置を設計する場合、その使用環境や使用条件などを考
慮の上、前記3つの方法のうちから目的に最も適したも
のを採用すればよい。
【0061】なお、連続音節認識法を用いる場合、入力
される単語が何音節になるのか迄も認識するのはなかな
か難しいので、入力単語に応じて予め音節数を決め、オ
ートマトンを利用すればよい。また、平均HMM法を用
いる場合、平均HMMの結合個数(図5(C))を固定
(例えば状態数S=12個など)としてもよい。
される単語が何音節になるのか迄も認識するのはなかな
か難しいので、入力単語に応じて予め音節数を決め、オ
ートマトンを利用すればよい。また、平均HMM法を用
いる場合、平均HMMの結合個数(図5(C))を固定
(例えば状態数S=12個など)としてもよい。
【0062】さらに、前記実施例は、いずれもHMM中
の平均ベクトルのみを置き換える場合について例示した
が、3つのパラメータのうち、平均ベクトルの次に変動
の大きい状態遷移確率についても計算し直し、状態遷移
確率も同時に置き換えるようにしてもよい。この場合に
おいても、残る分散については計算を行なわないので、
その分だけ短い時間で新しいHMMを作成することがで
きる。
の平均ベクトルのみを置き換える場合について例示した
が、3つのパラメータのうち、平均ベクトルの次に変動
の大きい状態遷移確率についても計算し直し、状態遷移
確率も同時に置き換えるようにしてもよい。この場合に
おいても、残る分散については計算を行なわないので、
その分だけ短い時間で新しいHMMを作成することがで
きる。
【0063】以上、本発明の実施の形態について種々説
明したが、本発明はこれらに限定されるものではなく、
その発明の主旨に沿った各種の変形が可能である。
明したが、本発明はこれらに限定されるものではなく、
その発明の主旨に沿った各種の変形が可能である。
【0064】
【発明の効果】以上説明したように、本発明の請求項1
記載の方法によるときは、入力された学習用音声に近似
したHMMを登録辞書中から選択し、少なくともこの選
択したHMM中の平均ベクトルを学習用音声の平均ベク
トルで置き換えることにより新たなHMMを得るように
したので、入力音声のための新たなHMMを1〜2回と
いう極めて少ない発声回数で簡単に作成することができ
る。
記載の方法によるときは、入力された学習用音声に近似
したHMMを登録辞書中から選択し、少なくともこの選
択したHMM中の平均ベクトルを学習用音声の平均ベク
トルで置き換えることにより新たなHMMを得るように
したので、入力音声のための新たなHMMを1〜2回と
いう極めて少ない発声回数で簡単に作成することができ
る。
【0065】また、請求項2記載の方法によるときは、
辞書中に登録されている複数のHMMから作成した平均
HMMを初期モデルとして用意し、少なくともこの平均
HMM中の平均ベクトルを入力された学習用音声の平均
ベクトルで置き換えることにより新たなHMMを得るよ
うにしたので、より短い時間で新たなHMMを作成する
ことができる。
辞書中に登録されている複数のHMMから作成した平均
HMMを初期モデルとして用意し、少なくともこの平均
HMM中の平均ベクトルを入力された学習用音声の平均
ベクトルで置き換えることにより新たなHMMを得るよ
うにしたので、より短い時間で新たなHMMを作成する
ことができる。
【0066】また、請求項3記載の装置によるときは、
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、入力された学習用音声に近似
するHMMを初期モデルとして登録辞書中から選択する
HMM選択手段と、少なくとも前記HMM選択手段で選
択されたHMM中の平均ベクトルを前記平均ベクトル算
出手段で算出した学習用音声の平均ベクトルで置き換
え、該得られたHMMを入力された学習用音声のHMM
として辞書に追加登録するHMM作成手段とを備えたの
で、入力音声のための新たなHMMを1〜2回という極
めて少ない発声回数で簡単に作成して追加登録すること
ができる。このため、たとえ音声認識装置が自動車など
に搭載されているような場合でも、走行しながら簡単に
新しいHMMを追加登録することができる。
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、入力された学習用音声に近似
するHMMを初期モデルとして登録辞書中から選択する
HMM選択手段と、少なくとも前記HMM選択手段で選
択されたHMM中の平均ベクトルを前記平均ベクトル算
出手段で算出した学習用音声の平均ベクトルで置き換
え、該得られたHMMを入力された学習用音声のHMM
として辞書に追加登録するHMM作成手段とを備えたの
で、入力音声のための新たなHMMを1〜2回という極
めて少ない発声回数で簡単に作成して追加登録すること
ができる。このため、たとえ音声認識装置が自動車など
に搭載されているような場合でも、走行しながら簡単に
新しいHMMを追加登録することができる。
【0067】また、請求項4記載の装置によるときは、
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、辞書中に登録されている複数
のHMMから作られた平均HMMを初期モデルとして用
い、少なくとも該平均HMM中の平均ベクトルを前記平
均ベクトル算出手段で算出した学習用音声の平均ベクト
ルで置き換え、該得られたHMMを入力された学習用音
声のHMMとして辞書に追加登録するHMM作成手段と
を備えたので、より短い時間で新たなHMMを作成する
ことができる。
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、辞書中に登録されている複数
のHMMから作られた平均HMMを初期モデルとして用
い、少なくとも該平均HMM中の平均ベクトルを前記平
均ベクトル算出手段で算出した学習用音声の平均ベクト
ルで置き換え、該得られたHMMを入力された学習用音
声のHMMとして辞書に追加登録するHMM作成手段と
を備えたので、より短い時間で新たなHMMを作成する
ことができる。
【図1】本発明に係る音声認識装置の第1の例を示すブ
ロック図である。
ロック図である。
【図2】連続音節認識法を用いた音声モデルの作成方法
の説明図である。
の説明図である。
【図3】単語認識法を用いた音声モデルの作成方法の説
明図である。
明図である。
【図4】本発明に係る音声認識装置の第2の例を示すブ
ロック図である。
ロック図である。
【図5】平均HMM法を用いた音声モデルの作成方法の
説明図である。
説明図である。
【図6】HMMによる音声認識の原理説明図である。
【図7】離散分布型のHMMと連続分布型のHMMを示
す図である。
す図である。
1 マイク 2 特徴抽出部 3 辞書 4 確率計算部 5 判定部 6 HMM作成部 7 平均ベクトル算出部
Claims (4)
- 【請求項1】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
(隠れマルコフモデル)からなる音声モデルの作成方法
であって、 入力された学習用音声からその平均ベクトルを算出する
とともに、該入力された学習用音声に近似するHMMを
初期モデルとして登録辞書中から選択し、 少なくとも該選択したHMM中の平均ベクトルを前記算
出した学習用音声の平均ベクトルで置き換えることによ
り前記入力された学習用音声のHMMとすること、 を特徴とする音声モデルの作成方法。 - 【請求項2】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
(隠れマルコフモデル)からなる音声モデルの作成方法
であって、 辞書中に登録されている複数のHMMを用いて作成した
平均HMMを初期モデルとして用意しておき、 入力された学習用音声からその平均ベクトルを算出し、 少なくとも前記平均HMM中の平均ベクトルを前記算出
した学習用音声の平均ベクトルで置き換えることにより
前記入力された学習用音声のHMMとすること、 を特徴とする音声モデルの作成方法。 - 【請求項3】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
(隠れマルコフモデル)を音声モデルとして用いた音声
認識装置において、 入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、 入力された学習用音声に近似するHMMを初期モデルと
して登録辞書中から選択するHMM選択手段と、 少なくとも前記HMM選択手段で選択されたHMM中の
平均ベクトルを前記平均ベクトル算出手段で算出した学
習用音声の平均ベクトルで置き換え、該得られたHMM
を入力された学習用音声のHMMとして辞書に追加登録
するHMM作成手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項4】 状態遷移確率,平均ベクトル,分散の3
つのパラメータによって規定される連続分布型のHMM
(隠れマルコフモデル)を音声モデルとして用いた音声
認識装置において、 入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、 辞書中に登録されている複数のHMMを用いて作成した
平均HMMを初期モデルとして用意し、少なくとも該平
均HMM中の平均ベクトルを前記平均ベクトル算出手段
で算出した学習用音声の平均ベクトルで置き換え、該得
られたHMMを入力された学習用音声のHMMとして辞
書に追加登録するHMM作成手段と、 を備えたことを特徴とする音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7237142A JPH0981183A (ja) | 1995-09-14 | 1995-09-14 | 音声モデルの作成方法およびこれを用いた音声認識装置 |
DE69613644T DE69613644T2 (de) | 1995-09-14 | 1996-08-20 | Verfahren zur Erzeugung eines Sprachmodels und Spracherkennungsvorrichtung |
EP96306067A EP0763815B1 (en) | 1995-09-14 | 1996-08-20 | Method of preparing speech model and speech recognition apparatus using this method |
US08/705,502 US5903865A (en) | 1995-09-14 | 1996-08-29 | Method of preparing speech model and speech recognition apparatus using this method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7237142A JPH0981183A (ja) | 1995-09-14 | 1995-09-14 | 音声モデルの作成方法およびこれを用いた音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0981183A true JPH0981183A (ja) | 1997-03-28 |
Family
ID=17011035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7237142A Pending JPH0981183A (ja) | 1995-09-14 | 1995-09-14 | 音声モデルの作成方法およびこれを用いた音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5903865A (ja) |
EP (1) | EP0763815B1 (ja) |
JP (1) | JPH0981183A (ja) |
DE (1) | DE69613644T2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6349281B1 (en) * | 1997-01-30 | 2002-02-19 | Seiko Epson Corporation | Voice model learning data creation method and its apparatus |
US6202047B1 (en) * | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
DE69943018D1 (de) * | 1998-10-09 | 2011-01-20 | Sony Corp | Lernvorrichtung und -verfahren, erkennungsvorrichtung und verfahren, und aufnahme-medium |
JP3814459B2 (ja) * | 2000-03-31 | 2006-08-30 | キヤノン株式会社 | 音声認識方法及び装置と記憶媒体 |
JP2002123283A (ja) * | 2000-10-12 | 2002-04-26 | Nissan Motor Co Ltd | 音声認識操作装置 |
CN1271595C (zh) * | 2001-12-17 | 2006-08-23 | 旭化成株式会社 | 语音识别方法 |
KR100554442B1 (ko) * | 2003-10-06 | 2006-02-22 | 주식회사 팬택앤큐리텔 | 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법 |
US20050216266A1 (en) * | 2004-03-29 | 2005-09-29 | Yifan Gong | Incremental adjustment of state-dependent bias parameters for adaptive speech recognition |
FR2871978B1 (fr) * | 2004-06-16 | 2006-09-22 | Alcatel Sa | Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8515758B2 (en) | 2010-04-14 | 2013-08-20 | Microsoft Corporation | Speech recognition including removal of irrelevant information |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
JP2964507B2 (ja) * | 1989-12-12 | 1999-10-18 | 松下電器産業株式会社 | Hmm装置 |
JP3050934B2 (ja) * | 1991-03-22 | 2000-06-12 | 株式会社東芝 | 音声認識方式 |
JP3003276B2 (ja) * | 1991-06-19 | 2000-01-24 | 松下電器産業株式会社 | 信号解析装置 |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
DE69322894T2 (de) * | 1992-03-02 | 1999-07-29 | At & T Corp., New York, N.Y. | Lernverfahren und Gerät zur Spracherkennung |
JPH05257492A (ja) * | 1992-03-13 | 1993-10-08 | Toshiba Corp | 音声認識方式 |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JP2976795B2 (ja) * | 1994-02-18 | 1999-11-10 | 日本電気株式会社 | 話者適応化方式 |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
-
1995
- 1995-09-14 JP JP7237142A patent/JPH0981183A/ja active Pending
-
1996
- 1996-08-20 EP EP96306067A patent/EP0763815B1/en not_active Expired - Lifetime
- 1996-08-20 DE DE69613644T patent/DE69613644T2/de not_active Expired - Fee Related
- 1996-08-29 US US08/705,502 patent/US5903865A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0763815A2 (en) | 1997-03-19 |
DE69613644T2 (de) | 2002-05-08 |
DE69613644D1 (de) | 2001-08-09 |
EP0763815B1 (en) | 2001-07-04 |
EP0763815A3 (en) | 1998-05-06 |
US5903865A (en) | 1999-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0981183A (ja) | 音声モデルの作成方法およびこれを用いた音声認識装置 | |
Shinoda et al. | MDL-based context-dependent subword modeling for speech recognition | |
JP6080978B2 (ja) | 音声認識装置および音声認識方法 | |
JPH0372998B2 (ja) | ||
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
EP1024476A1 (en) | Speech recognizing device and method, navigation device, portable telephone, and information processor | |
JP2002539482A (ja) | 見本音声を決定するための方法及び装置 | |
JP2002358097A (ja) | 音声認識装置 | |
JP3541224B2 (ja) | 音源の分離方法および分離装置 | |
Minami et al. | Recognition method with parametric trajectory generated from mixture distribution HMMs | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
Ramasubramanian et al. | Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition | |
JP2005091504A (ja) | 音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP3892173B2 (ja) | 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法 | |
KR100560916B1 (ko) | 인식 후 거리를 이용한 음성인식 방법 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4565768B2 (ja) | 音声認識装置 | |
JPH06167995A (ja) | 音声認識装置 | |
JPH10268893A (ja) | 音声認識装置 | |
JP3534196B2 (ja) | 音声認識装置 | |
JP3105708B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031014 |