JPH0981183A

JPH0981183A - 音声モデルの作成方法およびこれを用いた音声認識装置

Info

Publication number: JPH0981183A
Application number: JP7237142A
Authority: JP
Inventors: Shunsuke Ishimitsu; 俊介石光; Ikuo Fujita; 育雄藤田
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 1995-09-14
Filing date: 1995-09-14
Publication date: 1997-03-28
Also published as: EP0763815A2; DE69613644T2; DE69613644D1; EP0763815B1; EP0763815A3; US5903865A

Abstract

(57)【要約】【課題】入力音声のための新たなＨＭＭ（隠れマルコ
フモデル）を１〜２回という極めて少ない発声回数で簡
単に作成することのできる音声モデルの作成方法とこれ
を用いた音声認識装置を提供すること。【解決手段】状態遷移確率，平均ベクトル，分散の３
つのパラメータによって規定される連続分布型のＨＭＭ
を音声モデルとして用いた音声認識装置において、入力
された学習用音声からその平均ベクトルを算出する平均
ベクトル算出手段７と、入力された学習用音声に近似す
るＨＭＭを初期モデルとして登録辞書３中から選択する
ＨＭＭ選択手段４，５と、少なくとも前記ＨＭＭ選択手
段４，５で選択されたＨＭＭ中の平均ベクトルを前記平
均ベクトル算出手段７で算出した学習用音声の平均ベク
トルで置き換え、該得られたＨＭＭを入力された学習用
音声のＨＭＭとして辞書３に追加登録するＨＭＭ作成手
段６とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、連続分布型のＨＭ
Ｍ（Hidden Marcov Modle ：隠れマルコフモデル）を用
いた音声モデルの作成方法とこれを用いた音声認識装置
に係り、より詳しくは、新たな入力音声のためのＨＭＭ
を１〜２回という極めて少ない発声回数で作成すること
のできる音声モデルの作成方法とこれを用いた声認識装
置に関する。

【０００２】

【従来の技術】確率モデルによる音声認識装置として、
ＨＭＭ（隠れマルコフモデル）を用いたものが知られて
いる。このＨＭＭは、状態遷移確率で結びつけられた複
数個の状態を持ち、或る状態から或る状態へ遷移する際
にシンボル出力確率に従って所定のシンボルを出力する
ように特徴付けられたマルコフモデルである。なお、一
般に音声認識においては、時間が逆行することのないle
ft-to-right モデルが用いられる。

【０００３】このＨＭＭを用いた音声認識装置は、予
め、認識対象とするすべての単語についてＨＭＭを作成
し、辞書に登録しておく。そして、音声認識に際して
は、辞書中からＨＭＭを順次読み出し、それぞれのＨＭ
Ｍについて入力音声と同じ観測シンボル系列を出力する
確率（尤度）を計算し、最も大きな確率を与えるＨＭＭ
に対応する単語を認識結果として出力するものである。

【０００４】図６に、ＨＭＭの例を示す。このＨＭＭ
は、２つのシンボルａ，ｂを出力可能なモデルの例であ
って、内部状態としてＳ₁〜Ｓ₃の３つの状態を有して
いる。状態はＳ₁からスタートし、Ｓ₃で終了するよう
になっている。各状態Ｓ₁〜Ｓ ₃を結ぶ矢印線が状態遷
移を表し、各矢印線の側に書かれたａ_ijが状態遷移確
率、ｃ_ijがそのときのシンボル出力確率を表している。
なお、シンボル出力確率ｃ _ijの［］の中の上側要素が
シンボルａの出力確率、下側要素がシンボルｂの出力確
率である。

【０００５】いま、一例として、入力音声の観測シンボ
ル系列が（ａａｂ）であるとき、図６のＨＭＭがこの観
測シンボル系列（ａａｂ）を出力する確率（尤度）を計
算すると、次のようになる（例えば、大河内正明「マル
コフモデルによる音声認識」電子情報通信学会誌1987年
４月号参照）。

【０００６】まず、観測シンボル系列（ａａｂ）の音節
の長さは／ａ／ａ／ｂ／の３であり、この時点で図６の
ＨＭＭにおいて観測シンボル系列（ａａｂ）を出力可能
な遷移経路（パス）は、Ｓ₁→Ｓ₁→Ｓ₂→Ｓ₃、Ｓ₁
→Ｓ₂→Ｓ₂→Ｓ₃、Ｓ₁→Ｓ₁→Ｓ₁→Ｓ₃の３つの
ルートに限定される。

【０００７】各遷移経路について観測シンボル系列（ａ
ａｂ）が出力される確率は、その遷移経路に沿った状態
遷移確率ａ_ijとシンボル出力確率ｃ_ijの全積で表される
ので、それぞれ次のような値となる。 S₁→S₁→S₂→S₃の場合、0.3 ×0.8 ×0.5 ×1.0 ×0.6
×0.5 ＝0.036 S₁→S₂→S₂→S₃の場合、0.5 ×1.0 ×0.4 ×0.3 ×0.6
×0.5 ＝0.018 S₁→S₁→S₁→S₃の場合、0.3 ×0.8 ×0.3 ×0.8 ×0.2
×1.0 ＝0.01152

【０００８】観測シンボル系列（ａａｂ）を出力する可
能性は、前記３つの遷移経路のいずれにもあるので、こ
れら３つの確率の和、すなわち、0.036 ＋0.018 ＋0.01
152＝0.06552 が、図６のＨＭＭにおける観測シンボル
系列（ａａｂ）を出力する確率（尤度）となる。なお、
簡易的には、前記計算した３つの確率の中の最も大きな
値 0.036をそのＨＭＭの確率として代表させてもよい。

【０００９】このような確率計算を辞書中に登録されて
いるすべてのＨＭＭについて行ない、得られた確率の中
で最も大きな値を与えるＨＭＭに対応する単語を認識結
果として出力すれば、入力音声を認識することができ
る。

【００１０】ところで、図７（Ａ)(Ｂ）に示すように、
ＨＭＭには、シンボル出力確率ｃ_ijが不連続的に変化す
る離散分布型のＨＭＭと、シンボル出力確率ｃ_ijが連続
的に変化する連続分布型のＨＭＭとがある。離散分布型
のＨＭＭは量子化誤差が発生するため、音声認識では連
続分布型のＨＭＭが用いられることが多い。

【００１１】図７（Ｂ）に明らかなように、連続分布型
のシンボル出力確率ｃ_ijは、シンボルの平均ベクトルμ
と分散Σによって規定される。したがって、連続分布型
のＨＭＭは、状態遷移確率ａ_ij（図６参照）、前記シン
ボルの平均ベクトルμおよび分散Σの３つのパラメータ
によってモデル全体が記述されることになる。

【００１２】各登録単語について前記ＨＭＭを作成する
には、音声モデルを表す母集団中の多数のサンプルを用
いて学習し、前記３つのパラメータを推定すればよい。
この推定方法としては、例えば前向き後向きアルゴリズ
ムなど、いくつかのアルゴリズムが知られている。

【００１３】また、図６に例示したようなＨＭＭが所定
の観測シンボル系列（ａａｂ）を出力する確率（尤度）
の計算方法についても、前向きアルゴリズム、ビタビ
（Viterbi)アルゴリズムなど、いくつかのアルゴリズム
が知られている。

【００１４】

【発明が解決しようとする課題】前述したように、ＨＭ
Ｍを用いた音声認識装置は、確率的手法を用いて音声認
識を行なっているため、不特定話者用の音声認識装置と
して優れており、例えば車載用ナビゲーション装置の音
声指令システムなど、種々の分野で利用されようとして
いる。

【００１５】しかしながら、このＨＭＭを用いた音声認
識装置も現在のところ完全ではなく、辞書中に登録され
ていない単語が入力された場合や、登録されている単語
であっても発声音があまりに標準パターンからずれてい
るような場合には、誤認識を起こしたり、認識不能とな
る。

【００１６】誤認識や認識不能が発生した場合、その入
力音声について次回から認識可能とするために、その入
力音声に対する新たなＨＭＭを作成し、辞書に追加登録
してやる必要がある。しかしながら、従来の学習方法に
よって前記状態遷移確率，平均ベクトル，分散の３つの
パラメータを推定し、入力音声のための新たなＨＭＭを
作成しようとすると、１つの単語について１０〜２０回
程度の発声が必要となり、追加登録作業に多大の手間と
時間がかかるという問題があった。

【００１７】このように、追加登録に多大の手間と時間
がかかる場合、自動車などでは走行しながら学習させる
ことが難しく、追加登録を行なうにはその都度車を停め
ねばならないという問題があった。また、先を急いでい
るような場合には、相当の時間が経過してから追加登録
作業が行なわれるため、追加登録すべき入力音声（単
語）が分からなくなったり、さらには、追加登録を行な
うこと自体を忘れてしまうというようなことも起こり得
る。

【００１８】本発明は、上記のような問題を解決するた
めになされたもので、その目的とするところは、入力音
声のための新たなＨＭＭを１〜２回という極めて少ない
発声回数で簡単に作成することのできる音声モデルの作
成方法とこれを用いた音声認識装置を提供することであ
る。

【００１９】

【課題を解決するための手段】前記目的を達成するため
に、本発明では次のような手段を採用した。すなわち、
請求項１記載の音声モデルの作成方法は、状態遷移確
率，平均ベクトル，分散の３つのパラメータによって規
定される連続分布型のＨＭＭ（隠れマルコフモデル）か
らなる音声モデルの作成方法であって、入力された学習
用音声からその平均ベクトルを算出するとともに、該入
力された学習用音声に近似するＨＭＭを初期モデルとし
て登録辞書中から選択し、少なくとも該選択したＨＭＭ
中の平均ベクトルを前記算出した学習用音声の平均ベク
トルで置き換えることにより前記入力された学習用音声
のＨＭＭとすることを特徴とするものである。

【００２０】また、請求項２記載の音声モデルの作成方
法は、状態遷移確率，平均ベクトル，分散の３つのパラ
メータによって規定される連続分布型のＨＭＭ（隠れマ
ルコフモデル）からなる音声モデルの作成方法であっ
て、辞書中に登録されている複数のＨＭＭを用いて作成
した平均ＨＭＭを初期モデルとして用意しておき、入力
された学習用音声からその平均ベクトルを算出し、少な
くとも前記平均ＨＭＭ中の平均ベクトルを前記算出した
学習用音声の平均ベクトルで置き換えることにより前記
入力された学習用音声のＨＭＭとすることを特徴とする
ものである。

【００２１】また、請求項３記載の音声認識装置は、状
態遷移確率，平均ベクトル，分散の３つのパラメータに
よって規定される連続分布型のＨＭＭ（隠れマルコフモ
デル）を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、入力された学習用音声に
近似するＨＭＭを初期モデルとして登録辞書中から選択
するＨＭＭ選択手段と、少なくとも前記ＨＭＭ選択手段
で選択されたＨＭＭ中の平均ベクトルを前記平均ベクト
ル算出手段で算出した学習用音声の平均ベクトルで置き
換え、該得られたＨＭＭを入力された学習用音声のＨＭ
Ｍとして辞書に追加登録するＨＭＭ作成手段と、を備え
たことを特徴とするものである。

【００２２】さらに、請求項４記載の音声認識装置は、
状態遷移確率，平均ベクトル，分散の３つのパラメータ
によって規定される連続分布型のＨＭＭ（隠れマルコフ
モデル）を音声モデルとして用いた音声認識装置におい
て、入力された学習用音声からその平均ベクトルを算出
する平均ベクトル算出手段と、辞書中に登録されている
複数のＨＭＭを用いて作成された平均ＨＭＭを初期モデ
ルとして用い、少なくとも該平均ＨＭＭ中の平均ベクト
ルを前記平均ベクトル算出手段で算出した学習用音声の
平均ベクトルで置き換え、該得られたＨＭＭを入力され
た学習用音声のＨＭＭとして辞書に追加登録するＨＭＭ
作成手段とを備えたことを特徴とするものである。

【００２３】前述したように、連続分布型のＨＭＭは、
状態遷移確率ａ_ij、平均ベクトルμ，分散Σの３つのパ
ラメータによってモデルが記述される。この３つのパラ
メータのうち、平均ベクトルμは入力音声によって大き
く変わるが、シンボル出力確率の分布形状を与える分散
Σは、入力音声によってそれほど大きく変化することは
ない。一方、辞書中には既にたくさんの入力音声のため
のＨＭＭが登録されているが、これらのＨＭＭの中には
新しく追加登録しようとする入力音声と良く似たモデル
形状のＨＭＭが存在する。

【００２４】そこで、本発明は、誤認識や認識不能とな
った入力音声のための新たなＨＭＭを追加登録する場合
に、従来のようにまったくの白紙状態からＨＭＭを作る
のではなく、既に辞書中に登録されているＨＭＭ中から
入力された学習用音声の音声モデルに良く似た形状のＨ
ＭＭを選択し、この選択したＨＭＭ中の平均ベクトルの
みを新たに追加登録しようとする学習用音声の平均ベク
トルで置き換えることにより、入力音声のための新たな
ＨＭＭを作成するようにしたものである。

【００２５】さらに、本発明者等の研究の結果、既に辞
書中に登録されている多数のＨＭＭを用いて平均的なＨ
ＭＭを作成し、この平均ＨＭＭ中の平均ベクトルのみを
新たに追加登録しようとする学習用音声の平均ベクトル
で置き換えても、高い認識率を得られることが分かっ
た。

【００２６】そこで、本発明者等はこの知見に基づき、
辞書中に登録されている複数のＨＭＭ（例えば、すべて
のＨＭＭ）を用いて平均的なＨＭＭを作成し、これを初
期モデルとして辞書内に用意しておき、この平均的ＨＭ
Ｍ中の平均ベクトルのみを新たに追加登録しようとする
学習用音声の平均ベクトルで置き換えることにより、入
力音声のための新たなＨＭＭを作成するようにしたもの
である。

【００２７】本発明は、上記のような各手法を採用して
構成したので、誤認識あるいは認識不能となった入力音
声のための新しいＨＭＭを１〜２回という極めて少ない
発声回数で作成することができる。このため、従来に比
べて入力音声のための新しいＨＭＭの追加登録作業が極
めて簡単となり、たとえ自動車などに搭載されているよ
うな場合でも、走行しながら簡単に追加登録することが
できる。

【００２８】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。図１に、本発明に係る音
声認識装置の第１の例を示す。この第１の例は、入力さ
れた学習用音声の音声認識を行ない、登録辞書中から学
習用音声の音声モデルに最も近似するＨＭＭを選択し、
この選択したＨＭＭ中の平均ベクトルを学習用音声の平
均ベクトルで置き換えることにより、新しいＨＭＭを作
成するようにした場合の例を示すものである。

【００２９】図１において、１は音声入力用のマイク、
２は入力音声を分析して所定の観測シンボル系列に変換
する特徴抽出部、３は各単語についてのＨＭＭを格納し
た辞書、４は各ＨＭＭについて観測シンボル系列を生成
する確率（尤度）を計算する確率計算部、５は確率計算
したＨＭＭの中から最大の確率を与えるＨＭＭを選択
し、そのＨＭＭに対応する単語を認識結果として出力す
る判定部である。これらマイク１、特徴抽出部２、辞書
３、確率計算部４、判定部５は、公知の学習機能のない
音声認識装置を構成している。

【００３０】本発明の場合、前記構成に加え、新しい単
語のためのＨＭＭを作成するＨＭＭ作成部６と、入力さ
れた学習用音声からその平均ベクトルを算出する平均ベ
クトル算出部７とを備えている。

【００３１】なお、前記図１は本発明の音声認識装置を
機能レベルでブロック化して示したものである。実際の
装置では、マイク１、辞書３を除いた他の回路部分はマ
イクロコンピュータやＤＳＰなどで構成されており、そ
れぞれの回路機能はプログラムによってソフトウェア的
に実現されている。

【００３２】まず最初に、前記音声認識装置における通
常の音声認識動作について、簡単に説明する。いま、辞
書中に登録されている所定の単語をマイク１に向かって
発声すると、その入力音声信号は特徴抽出部２において
適当な窓長（フレーム）で切り出され、各フレーム毎に
所定の観測シンボル（例えば、１０次元のメルケプスト
ラムなど）に変換され、確率計算部４に送られる。

【００３３】確率計算部４は、辞書３に登録されている
すべてのＨＭＭを順次読み出し、それぞれのＨＭＭにつ
いて前記観測シンボル系列を生成する確率（尤度）を順
次計算する。

【００３４】辞書３に登録されているすべてのＨＭＭに
ついて前記確率計算が終了したら、判定部５はこれら得
られた確率中から最も大きな値のＨＭＭを選択し、この
選択したＨＭＭに対応する単語を認識結果として出力す
る。これによって、マイク１から入力された音声の認識
が完了する。

【００３５】ところで、前記のようにして音声認識装置
を使用していると、何回言い直しても認識できなかった
り、誤認識してしまう単語が発生することがある。ま
た、辞書にない新しい単語を追加登録する必要が生じる
場合もある。本発明の音声認識装置は、このような場合
に以下のようにして、その入力音声のための新しいＨＭ
Ｍを作成し、辞書に追加登録できるようにしたものであ
る。

【００３６】以下、前記音声認識装置における新しい単
語のためのＨＭＭの作成処理について、図２を参照して
説明する。なお、図２は、入力された学習用音声に最も
近似するＨＭＭを音声認識によって辞書中から選択し、
この選択されたＨＭＭを初期モデルとして、新しい入力
音声（単語）のためのＨＭＭを作成する場合の例であ
る。この入力される学習用音声の認識には、連続音節単
位（例えば、／も／く／て／き／ち／）で行なう場合
（以下、連続音節認識法と呼ぶ）と、単語単位（例え
ば、／もくてきち／）で行なう場合（以下、単語認識法
と呼ぶ）とがある。また、前者は、音節ばかりでなく、
半音節や音素、さらにはこれら３つを組み合わせたモデ
ルなどにも用いることができる。図２は、連続音節認識
法を用いた場合の例である。

【００３７】切換スイッチ９，１０は、学習側に切り換
えられている。いま、追加登録すべき新しい単語が「目
的地」（／もくてきち／）であるものとする。話者がマ
イク１に向かって／もくてきち／と発声すると（図２
（Ａ））、この入力音声信号（図２（Ｂ））は特徴抽出
部２に送られ、適当な窓長（フレーム）で切り出され、
各フレーム毎に所定の観測シンボル（例えば、１０次元
のメルケプストラムなど）に変換され、確率計算部４に
送られる。

【００３８】確率計算部４は、辞書３に登録されている
各音節用のＨＭＭを順次読み出し、各ＨＭＭが前記学習
用音声の観測シンボル系列の各シンボルを出力する確率
をそれぞれ計算する。すなわち、辞書３には、図２
（Ｄ）に示すように、／あ／…／ん／など、必要とする
すべての音節（日本語の場合、約１１０個）についての
ＨＭＭが登録されており、確率計算部４は、この各音節
のＨＭＭが前記観測シンボル系列の各シンボルを出力す
る確率をそれぞれ計算する。なお、辞書３は認識単位に
応じて音節、半音節、音素、あるいはこれらの組合せに
ついてのＨＭＭを記憶する。

【００３９】判定部５は、それぞれのシンボル毎に最大
の確率を与えるＨＭＭを選択する。このような判定処理
の結果、いま、入力された学習用音声／もくてきち／
が、図２（Ｃ）に示すように、／ま／く／た／き／い／
と認識されたものとする。判定部５はこの判定結果をＨ
ＭＭ作成部に送る。なお、これら確率計算部４と判定部
５は、ＨＭＭ選択手段を構成している。

【００４０】ＨＭＭ作成部６は、前記選択された各音節
についてのＨＭＭ、すなわち、音節／ま／のＨＭＭ、音
節／く／のＨＭＭ、音節／た／のＨＭＭ、音節／き／の
ＨＭＭ、音節／い／のＨＭＭをそれぞれ辞書３から読み
出す。そして、この読み出した５つの音節のＨＭＭを時
系列順に並べて結合し、図２（Ｅ）に示すような学習用
入力音声についてのＨＭＭ結合モデルを作成する。

【００４１】一方、平均ベクトル算出部７は、入力され
た学習用音声についてその平均ベクトルを算出し、ＨＭ
Ｍ作成部６に送る。

【００４２】ＨＭＭ作成部６は、この送られてきた平均
ベクトルを図２（Ｅ）のＨＭＭ結合モデルの平均ベクト
ルと置き換える。そして、この新たに作成されたＨＭＭ
を学習用入力音声／もくてきち／についての新たなＨＭ
Ｍとして辞書３に追加登録する。

【００４３】図３に、単語認識法を用いてＨＭＭを作成
する場合の例を示す。図３の例では、確率計算部４と判
定部５において入力された学習用音声／もくてきち／を
単語単位で音声認識した結果、最も近似したＨＭＭとし
て惑星の名前である木星（／もくせい／）が選択された
場合を示している（図３（Ａ））。

【００４４】そこで、ＨＭＭ作成部６は、辞書３（図３
（Ｂ））中からこの／もくせい／の単語ＨＭＭを読み出
し（図３（Ｃ））、この単語モデルの平均ベクトルのみ
を平均ベクトル算出部７で算出された学習用音声の平均
ベクトルで置き換えることにより、学習用入力音声／も
くてきち／についての新たなＨＭＭを作成するようにし
たものである。

【００４５】この単語認識法を用いた場合、確率計算部
４と判定部５における音声認識が単語単位で行なわれる
ため、図２の連続音節認識法を用いた場合に比べて認識
時間がその分だけ短くて済み、より短い時間で新しい単
語のためのＨＭＭを作成することができる。

【００４６】図４に、本発明の音声認識装置の第２の例
を示す。この第２の例は、辞書中に登録されているすべ
ての音節のＨＭＭから、そのパラメータを平均化した１
個の平均ＨＭＭを初期モデルとして用意しておき、この
平均ＨＭＭ中の平均ベクトルのみを新たに追加登録しよ
うとする学習用音声の平均ベクトルで置き換えることに
より、新たな単語のためのＨＭＭを作成するようにした
場合の一例を示すものである。以下、この方法を平均Ｈ
ＭＭ法と呼ぶ。

【００４７】なお、この図４も、図１の場合と同様に、
本発明の音声認識装置を機能レベルでブロック化して示
したものである。実際の装置では、マイク１、辞書３以
外の回路部分はマイクロコンピュータやＤＳＰなどで構
成されており、それぞれの機能はプログラムによってソ
フトウェア的に実現されている。

【００４８】図４の音声認識装置が、図１の音声認識装
置と異なるところは、切換スイッチ１０の学習側端子を
開放とし、確率計算部４と判定部５による音声認識結果
をフィードバックして利用する代わりに、予め辞書３内
に初期モデルとして平均ＨＭＭを用意している点であ
る。

【００４９】すなわち、図４の音声認識装置の場合、辞
書３に登録されている図５（Ａ）に示すような／あ／…
／ん／などのすべての音節（日本語の場合、約１１０
個）についてのＨＭＭを用い、状態遷移確率、平均ベク
トル、分散のそれぞれについてその全平均を求め、この
平均値からなる３つのパラメータによって規定される図
５（Ｂ）に示すような１個の平均ＨＭＭを予め辞書３内
に初期モデルとして用意しておく。なお、ここでは音節
を用いたが、半音節、音素などでも適用可能である。

【００５０】前記のような構成になる図４の音声認識装
置における新しい単語のためのＨＭＭの作成処理につい
て、図５を参照して説明する。

【００５１】追加登録されるべき新しい単語が前述した
と同様に「目的地」（／もくてきち／）であるものとす
る。いま、話者がマイク１に向かって／もくてきち／と
発声すると、平均ベクトル算出部７はその入力音声の平
均ベクトルを算出し、ＨＭＭ作成部６に送る。

【００５２】一方、ＨＭＭ作成部６は、辞書３中から初
期モデルとして図５（Ｂ）の平均ＨＭＭを読み出し、図
５（Ｃ）のように所定個を連結して結合し、得られた平
均ＨＭＭの結合モデルの平均ベクトルを前記平均ベクト
ル算出部７から送られてきた平均ベクトルで置き換える
ことにより、学習用入力音声／もくてきち／のＨＭＭを
作成し、辞書３に追加登録する。

【００５３】前記平均ＨＭＭ法を用いた場合、入力音声
の認識を行なわない分、前記連続音節認識法や単語認識
法を用いた場合に比べてより短い時間で新しい単語のた
めのＨＭＭを作成することができる。

【００５４】表１に、本発明の音声認識装置における新
しいＨＭＭの推定（学習）時間の実測例を示す。

【００５５】

【表１】

【００５６】表１から明らかなように、平均ＨＭＭ法の
場合は、入力単語の音声認識を行なう必要がないため、
連続音節認識法と単語認識法に比べて学習時間が短くて
済む。また、単語認識法は、音節を認識する必要のない
分、連続音節認識法に比べて学習時間が短くて済む。

【００５７】表２に、表１の学習の結果得られたＨＭＭ
を用いて新単語の音声認識を行なった場合の認識率を示
す。参考のため、従来の学習法による場合も示した。

【００５８】

【表２】

【００５９】表２から明らかなように、従来学習法によ
るときは、１〜２回の発声回数ではパラメータの推定が
うまく行かず、最適なモデルが推定されないため、認識
率が極端に悪いことが分かる。一方、本発明の連続音節
認識法によるときは１回の学習で認識率９５．６％とな
り、１回の学習でほぼ飽和している。また、単語認識法
と平均ＨＭＭ法によるときは１回の学習では飽和せず、
２回以上の学習が必要である。

【００６０】前記表１と表２の結果を総合すれば、発声
回数を１回に限定した場合には、連続音節認識法が優
れ、発声回数を２回に限定した場合には、学習時間が短
くて済むという点（表１参照）から、平均ＨＭＭ法が優
れていることが分かる。したがって、本発明の音声認識
装置を設計する場合、その使用環境や使用条件などを考
慮の上、前記３つの方法のうちから目的に最も適したも
のを採用すればよい。

【００６１】なお、連続音節認識法を用いる場合、入力
される単語が何音節になるのか迄も認識するのはなかな
か難しいので、入力単語に応じて予め音節数を決め、オ
ートマトンを利用すればよい。また、平均ＨＭＭ法を用
いる場合、平均ＨＭＭの結合個数（図５（Ｃ））を固定
（例えば状態数Ｓ＝１２個など）としてもよい。

【００６２】さらに、前記実施例は、いずれもＨＭＭ中
の平均ベクトルのみを置き換える場合について例示した
が、３つのパラメータのうち、平均ベクトルの次に変動
の大きい状態遷移確率についても計算し直し、状態遷移
確率も同時に置き換えるようにしてもよい。この場合に
おいても、残る分散については計算を行なわないので、
その分だけ短い時間で新しいＨＭＭを作成することがで
きる。

【００６３】以上、本発明の実施の形態について種々説
明したが、本発明はこれらに限定されるものではなく、
その発明の主旨に沿った各種の変形が可能である。

【００６４】

【発明の効果】以上説明したように、本発明の請求項１
記載の方法によるときは、入力された学習用音声に近似
したＨＭＭを登録辞書中から選択し、少なくともこの選
択したＨＭＭ中の平均ベクトルを学習用音声の平均ベク
トルで置き換えることにより新たなＨＭＭを得るように
したので、入力音声のための新たなＨＭＭを１〜２回と
いう極めて少ない発声回数で簡単に作成することができ
る。

【００６５】また、請求項２記載の方法によるときは、
辞書中に登録されている複数のＨＭＭから作成した平均
ＨＭＭを初期モデルとして用意し、少なくともこの平均
ＨＭＭ中の平均ベクトルを入力された学習用音声の平均
ベクトルで置き換えることにより新たなＨＭＭを得るよ
うにしたので、より短い時間で新たなＨＭＭを作成する
ことができる。

【００６６】また、請求項３記載の装置によるときは、
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、入力された学習用音声に近似
するＨＭＭを初期モデルとして登録辞書中から選択する
ＨＭＭ選択手段と、少なくとも前記ＨＭＭ選択手段で選
択されたＨＭＭ中の平均ベクトルを前記平均ベクトル算
出手段で算出した学習用音声の平均ベクトルで置き換
え、該得られたＨＭＭを入力された学習用音声のＨＭＭ
として辞書に追加登録するＨＭＭ作成手段とを備えたの
で、入力音声のための新たなＨＭＭを１〜２回という極
めて少ない発声回数で簡単に作成して追加登録すること
ができる。このため、たとえ音声認識装置が自動車など
に搭載されているような場合でも、走行しながら簡単に
新しいＨＭＭを追加登録することができる。

【００６７】また、請求項４記載の装置によるときは、
入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、辞書中に登録されている複数
のＨＭＭから作られた平均ＨＭＭを初期モデルとして用
い、少なくとも該平均ＨＭＭ中の平均ベクトルを前記平
均ベクトル算出手段で算出した学習用音声の平均ベクト
ルで置き換え、該得られたＨＭＭを入力された学習用音
声のＨＭＭとして辞書に追加登録するＨＭＭ作成手段と
を備えたので、より短い時間で新たなＨＭＭを作成する
ことができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の第１の例を示すブ
ロック図である。

【図２】連続音節認識法を用いた音声モデルの作成方法
の説明図である。

【図３】単語認識法を用いた音声モデルの作成方法の説
明図である。

【図４】本発明に係る音声認識装置の第２の例を示すブ
ロック図である。

【図５】平均ＨＭＭ法を用いた音声モデルの作成方法の
説明図である。

【図６】ＨＭＭによる音声認識の原理説明図である。

【図７】離散分布型のＨＭＭと連続分布型のＨＭＭを示
す図である。

【符号の説明】

１マイク２特徴抽出部３辞書４確率計算部５判定部６ＨＭＭ作成部７平均ベクトル算出部

Claims

【特許請求の範囲】

【請求項１】状態遷移確率，平均ベクトル，分散の３
つのパラメータによって規定される連続分布型のＨＭＭ
（隠れマルコフモデル）からなる音声モデルの作成方法
であって、入力された学習用音声からその平均ベクトルを算出する
とともに、該入力された学習用音声に近似するＨＭＭを
初期モデルとして登録辞書中から選択し、少なくとも該選択したＨＭＭ中の平均ベクトルを前記算
出した学習用音声の平均ベクトルで置き換えることによ
り前記入力された学習用音声のＨＭＭとすること、を特徴とする音声モデルの作成方法。
【請求項２】状態遷移確率，平均ベクトル，分散の３
つのパラメータによって規定される連続分布型のＨＭＭ
（隠れマルコフモデル）からなる音声モデルの作成方法
であって、辞書中に登録されている複数のＨＭＭを用いて作成した
平均ＨＭＭを初期モデルとして用意しておき、入力された学習用音声からその平均ベクトルを算出し、少なくとも前記平均ＨＭＭ中の平均ベクトルを前記算出
した学習用音声の平均ベクトルで置き換えることにより
前記入力された学習用音声のＨＭＭとすること、を特徴とする音声モデルの作成方法。
【請求項３】状態遷移確率，平均ベクトル，分散の３
つのパラメータによって規定される連続分布型のＨＭＭ
（隠れマルコフモデル）を音声モデルとして用いた音声
認識装置において、入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、入力された学習用音声に近似するＨＭＭを初期モデルと
して登録辞書中から選択するＨＭＭ選択手段と、少なくとも前記ＨＭＭ選択手段で選択されたＨＭＭ中の
平均ベクトルを前記平均ベクトル算出手段で算出した学
習用音声の平均ベクトルで置き換え、該得られたＨＭＭ
を入力された学習用音声のＨＭＭとして辞書に追加登録
するＨＭＭ作成手段と、を備えたことを特徴とする音声認識装置。
【請求項４】状態遷移確率，平均ベクトル，分散の３
つのパラメータによって規定される連続分布型のＨＭＭ
（隠れマルコフモデル）を音声モデルとして用いた音声
認識装置において、入力された学習用音声からその平均ベクトルを算出する
平均ベクトル算出手段と、辞書中に登録されている複数のＨＭＭを用いて作成した
平均ＨＭＭを初期モデルとして用意し、少なくとも該平
均ＨＭＭ中の平均ベクトルを前記平均ベクトル算出手段
で算出した学習用音声の平均ベクトルで置き換え、該得
られたＨＭＭを入力された学習用音声のＨＭＭとして辞
書に追加登録するＨＭＭ作成手段と、を備えたことを特徴とする音声認識装置。