JPH1115492A

JPH1115492A - 音声認識装置

Info

Publication number: JPH1115492A
Application number: JP9167767A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-06-24
Filing date: 1997-06-24
Publication date: 1999-01-22

Abstract

(57)【要約】【課題】音声の登録時と認識時で音声区間検出のずれ
により誤認識を生じた。【解決手段】音声の登録時に、ＨＭＭ学習手段７は、
学習用サンプル格納手段６に格納された学習用サンプル
から単語のＨＭＭパラメータを決定し、ＨＭＭ記憶手段
８に保持する。ガベジＨＭＭ学習手段１１は学習用サン
プル格納手段６に格納された学習用サンプルから、開始
端および終了端のガベジＨＭＭのパラメータを決定し、
ガベジＨＭＭ記憶手段に保持する。ＨＭＭ変更手段１３
は、単語のＨＭＭの始終端の状態遷移のパラメータをガ
ベジＨＭＭ記憶手段１２に記憶されたガベジＨＭＭのパ
ラメータで置き換える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＨＭＭを単語モデ
ルとし、音声区間検出における音声区間の位置ずれに強
い登録型の音声認識装置に関するものである。

【０００２】

【従来の技術】認識対象となる未知の音声に対応する既
知の音声を登録しておき、未知の入力音声に対し単語の
モデルを学習し認識するモードにおいて、登録された単
語モデルの中で最大の尤度を示す単語を入力音声の単語
として認識する登録型の音声認識方式は、演算量が少な
く簡易型の音声認識の実現手法として有効な方法であ
る。また登録型の音声認識は、原理的に登録可能な単語
の内容が任意であり、さらに言語に依存しない音声認識
が可能である。

【０００３】単語モデルとしては、古典的なパターン・
マッチング手法と統計的な手法とがあり、近年では後者
が主流になりつつある。後者の統計的な手法では、確率
的な有限状態を持つマルコフ・モデルが提案されてお
り、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌ）と呼ばれている。これに関しては、文献１；中川聖
一著「確率モデルによる音声認識」に詳述されている。

【０００４】図１９は例えば特開平７−９８５９８号公
報に記載された従来の単語のＨＭＭを用いる登録型の音
声認識装置を示すブロック図である。図において、１は
入力音声１００１から音声区間２を切り出す音声区間切
出手段、３は音声区間２の音声を分析し特徴パラメータ
の時系列４を出力する音声分析手段、５は登録モードか
認識モードかを選択するモード選択手段、６は特徴パラ
メータの時系列４を学習用サンプルとして格納する学習
用サンプル格納手段、７は学習用サンプルから各単語の
ＨＭＭのパラメータを決定するＨＭＭ学習手段、８は各
単語のＨＭＭのパラメータを保持するＨＭＭ記憶手段で
ある。

【０００５】また９は尤度計算手段であり、認識モード
において音声分析手段３から出力された未知の音声の特
徴パラメータの時系列４に対し、ＨＭＭ記憶手段８に保
持されている各単語のＨＭＭのパラメータに基づき尤度
計算を行う。１０は単語決定手段であり、尤度計算手段
９の計算の結果、最大の尤度を示したＨＭＭの単語名を
認識結果１００２として出力する。

【０００６】次に動作について説明する。登録モードの
場合、モード選択手段５のスイッチは「登録」を選択し
ている。そして登録すべき各単語音声が入力音声１００
１として入力され、音声区間切出手段１は、入力音声１
００１から、単語のモデルと照合される音声区間２を切
り出す。音声分析手段３は、音声区間２により切り出さ
れた音声区間の音声を分析し、各単語音声に対応する特
徴パラメータの時系列４を出力する。特徴パラメータの
時系列４は、モード選択手段５を経由し学習用サンプル
格納手段６に格納される。

【０００７】ＨＭＭ学習手段７は、学習用サンプル格納
手段６から、各単語の学習用サンプルを選択し、選択さ
れた学習用サンプルから各単語のＨＭＭのパラメータを
決定する。このパラメータには、各単語についての平
均、分散、遷移確率の情報が含まれている。ＨＭＭ記憶
手段８は、ＨＭＭ学習手段７が決定した各単語のＨＭＭ
のパラメータを保持する。

【０００８】一方、認識モードの場合は、モード選択手
段５のスイッチは「認識」を選択している。そして入力
音声１００１として入力された未知の単語音声に対し
て、音声区間切出手段１は単語モデルと照合される音声
区間２を出力し、音声分析手段３は音声区間２の音声を
分析し、特徴パラメータの時系列４を出力する。特徴パ
ラメータの時系列４は、モード選択手段５を経由し尤度
計算手段９に入力される。

【０００９】尤度計算手段９は、入力音声１００１とし
て入力された未知の単語音声に対して、音声分析手段３
より出力された全区間の特徴パラメータ時系列４につい
て、ＨＭＭ記憶手段８に保持されている各単語のＨＭＭ
のパラメータに基づき尤度計算を行う。この計算にあた
っては、各単語のＨＭＭからの尤度を例えばトレリス法
に基づいて計算する。単語決定手段１０は、尤度計算手
段９の求めた入力の単語音声に対する各単語尤度を比較
して、最大の尤度を示したＨＭＭの単語名を認識結果１
００２として出力する。

【００１０】しかし図１９のように構成された従来の音
声認識装置は、登録するときの音声と認識するときの音
声とで、背景雑音の変動や入力音声への背景雑音の混入
の程度の相違により、又は発声ごとの音声パワーなどの
揺らぎにより、音声区間切出手段１において、音声の切
出区間のずれが起こり、認識モードにおいて誤認識が生
じ易いという課題があった。

【００１１】このような音声区間検出のずれに起因する
誤認識を回避するために、特別の音声切出を行わず、入
力音声中に、認識対象単語を検出するワードスポッティ
ングに基づく音声認識方式が知られている。しかし、任
意の始終端時刻の組み合わせの区間について、入力音声
と単語モデルを照合するワードスポッティングの方法で
は、演算量の増大は避けられない。またスコアの正規化
が難しく、沸き出し誤りを防止しながら、検出率を高め
るためにはスポッティングのための閾値の設定が難しい
という課題があり、認識性能は一般に高くない。このよ
うなワードスポッティングのスコアの正規化の技術とし
て、認識対象単語のモデルのスコアと、未知語や非音声
を包括的に表すガベジモデル（ガーベジモデルまたはバ
ックグラウンドモデルとも呼ばれる）のスコアを用い
て、正規化スコアを求める方法が知られている。

【００１２】さらに、このガベジモデルに基づくワード
スポッティング型の音声認識の性能改善に関して、例え
ば特開平６−２６６３８６号公報では、認識対象単語の
ＨＭＭと未知語や非音声をあらわすガベジＨＭＭの接続
関係を表すオートマトンにより単語系列のワードスポッ
ティングを行う方法が開示されている。ここでは、単語
系列の発声終了である事後確率が、単語系列の発声途中
である事後確率より大きい時刻をもって、単語系列のス
ポッティングを行う方法が提案されている。しかし、こ
れらの方法は、入力音声の任意の区間との照合を行うこ
とによる演算量の多さの課題は解決していない。

【００１３】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、例えば特開平７−９
８５９８号公報に記載された音声認識装置では、登録す
るときの音声と認識するときの音声とで、音声の切出区
間のずれが起こり、誤認識が生じやすいという課題があ
った。また特別の音声切出を行わずに認識するワードス
ポッティングの方法や、特開平６−２６６３８６号公報
に記載された音声認識装置では、演算量が増大するとい
う課題があった。

【００１４】この発明は上記のような課題を解決するた
めになされたもので、入力音声から切り出された音声区
間全体と、予め登録された単語モデル全体の尤度計算に
より、少ない演算量で入力音声を認識し、かつ音声区間
の切り出しのずれに強い登録型の音声認識装置を得るこ
とを目的とする。

【００１５】

【課題を解決するための手段】請求項１記載の発明に係
る音声認識装置は、認識対象となる未知の音声に対応す
る既知の音声から抽出された特徴パラメータの時系列を
学習用サンプルとして格納する学習用サンプル格納手段
と、上記学習用サンプルから各単語のＨＭＭのパラメー
タを決定するＨＭＭ学習手段と、上記各単語のＨＭＭの
パラメータを保持するＨＭＭ記憶手段と、認識対象とな
る未知の音声から抽出された特徴パラメータの時系列を
入力し、上記ＨＭＭ記憶手段に保持されている各単語の
ＨＭＭのパラメータとの尤度を計算する尤度計算手段と
を備えたものにおいて、上記学習用サンプル格納手段に
格納されている学習用サンプルから各単語のガベジＨＭ
Ｍのパラメータを決定するガベジＨＭＭ学習手段と、上
記ＨＭＭ記憶手段に保持されている各単語のＨＭＭのパ
ラメータの一部を、上記ガベジＨＭＭ学習手段により決
定されたガベジＨＭＭのパラメータと置き換えるＨＭＭ
変更手段とを備えたものである。

【００１６】請求項２記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のＨＭＭのパラメータを決定するＨ
ＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保
持するＨＭＭ記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記Ｈ
ＭＭ記憶手段に保持されている各単語のＨＭＭのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、上記ＨＭＭ記憶手段に保持されている各単語の
ＨＭＭのパラメータの一部を、共有化するように状態遷
移の構造記述を変更するＨＭＭ変更手段を備えたもので
ある。

【００１７】請求項３記載の発明に係る音声認識装置
は、ＨＭＭ変更手段が、ＨＭＭ記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのＨＭＭのパラメータを、共有化するように状態遷
移の構造記述を変更するものである。

【００１８】請求項４記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のＨＭＭのパラメータを決定し、各
単語のＨＭＭのパラメータの一部を共有化するように、
状態遷移の構造記述を変更するＨＭＭ学習手段と、上記
ＨＭＭ学習手段が変更したＨＭＭのパラメータを保持す
るＨＭＭ記憶手段と、認識対象となる未知の音声から抽
出された特徴パラメータの時系列を入力し、上記ＨＭＭ
記憶手段に保持されている各単語のＨＭＭのパラメータ
との尤度を計算する尤度計算手段とを備えたものにおい
て、上記学習用サンプル格納手段に格納されている学習
用サンプルから各単語のガベジＨＭＭのパラメータを決
定するガベジＨＭＭ学習手段と、上記ＨＭＭ記憶手段に
保持されているＨＭＭのパラメータの一部を、上記ガベ
ジＨＭＭ学習手段により決定されたガベジＨＭＭのパラ
メータと置き換えるＨＭＭ変更手段とを備えたものであ
る。

【００１９】請求項５記載の発明に係る音声認識装置
は、ＨＭＭ学習手段が、各単語のＨＭＭのパラメータの
開始端を共有化するように、状態遷移の構造記述を変更
したとき、ＨＭＭ変更手段が、ＨＭＭ記憶手段に保持さ
れているＨＭＭのパラメータの終了端を、ガベジＨＭＭ
学習手段により決定されたガベジＨＭＭのパラメータと
置き換え、ＨＭＭ学習手段が、各単語のＨＭＭのパラメ
ータの終了端を共有化するように、状態遷移の構造記述
を変更したとき、ＨＭＭ変更手段が、ＨＭＭ記憶手段に
保持されているＨＭＭのパラメータの開始端を、ガベジ
ＨＭＭ学習手段により決定されたガベジＨＭＭのパラメ
ータと置き換えるものである。

【００２０】請求項６記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のＨＭＭのパラメータを決定するＨ
ＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保
持するＨＭＭ記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記Ｈ
ＭＭ記憶手段に保持されている各単語のＨＭＭのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、典型的な雑音データからガベジＨＭＭのパラメ
ータを決定するガベジＨＭＭ学習手段と、上記ＨＭＭ記
憶手段に保持されている各単語のＨＭＭのパラメータの
一部を、上記ガベジＨＭＭ学習手段により決定されたガ
ベジＨＭＭのパラメータと置き換えるＨＭＭ変更手段と
を備えたものである。

【００２１】請求項７記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のＨＭＭのパラメータを決定するＨ
ＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保
持するＨＭＭ記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記Ｈ
ＭＭ記憶手段に保持されている各単語のＨＭＭのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、上記学習用サンプル格納手段に格納されている
学習用サンプルから第１のガベジＨＭＭのパラメータを
決定するガベジＨＭＭ学習手段と、上記ガベジＨＭＭ学
習手段により決定された第１のガベジＨＭＭのパラメー
タと、典型的な雑音データから決定された第２のガベジ
ＨＭＭのパラメータを合成するガベジＨＭＭ合成手段
と、上記ＨＭＭ記憶手段に保持されている各単語のＨＭ
Ｍのパラメータの一部を、上記ガベジＨＭＭ合成手段に
より合成されたガベジＨＭＭのパラメータと置き換える
ＨＭＭ変更手段とを備えたものである。

【００２２】請求項８記載の発明に係る音声認識装置
は、ＨＭＭ変更手段が、ＨＭＭ記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのＨＭＭのパラメータを、各単語に対応するガベジ
ＨＭＭのパラメータと置き換えるものである。

【００２３】請求項９記載の発明に係る音声認識装置
は、ガベジＨＭＭ学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のＨＭＭの状態１から２または状態Ｎ−１からＮに
かけて構造が共有された部分の状態遷移のパラメータを
それぞれ開始端用または終了端用のガベジＨＭＭのパラ
メータとして決定するものである。

【００２４】請求項１０記載の発明に係る音声認識装置
は、ガベジＨＭＭ学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のＨＭＭの状態１から２にかけて構造が共有された
部分の状態遷移のパラメータを開始端用のガベジＨＭＭ
のパラメータとして決定し、各単語のＨＭＭの状態Ｎ−
１からＮにかけて構造が共有された部分の状態遷移のパ
ラメータを終了端用のガベジＨＭＭのパラメータとして
決定するものである。

【００２５】請求項１１記載の発明に係る音声認識装置
は、ガベジＨＭＭ学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のＨＭＭの状態１から２にかけて構造が共有された
部分の状態遷移のパラメータ、または各単語のＨＭＭの
状態Ｎ−１からＮにかけて構造が共有された部分の状態
遷移のパラメータを開始端用及び終了端用のガベジＨＭ
Ｍのパラメータとして決定するものである。

【００２６】請求項１２記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のＨＭＭのパラメータを決定するＨ
ＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保
持するＨＭＭ記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記Ｈ
ＭＭ記憶手段に保持されている各単語のＨＭＭのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、典型的な雑音データからガベジＨＭＭのパラメ
ータを決定するガベジＨＭＭ学習手段と、上記ＨＭＭ記
憶手段に保持されている各単語のＨＭＭのパラメータの
状態遷移の一部を、結びの関係とすると共に、上記ガベ
ジＨＭＭ学習手段により決定されたガベジＨＭＭのパラ
メータと置き換えるＨＭＭ変更手段とを備えたものであ
る。

【００２７】請求項１３記載の発明に係る音声認識装置
は、ＨＭＭ変更手段が、ＨＭＭ記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのＨＭＭのパラメータを、結びの関係とすると共
に、各単語に対応するガベジＨＭＭのパラメータと置き
換えるものである。

【００２８】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置の構成を示すブロック図である。図におい
て、１１はガベジＨＭＭのパラメータを決定するガベジ
ＨＭＭ学習手段、１２は決定されたガベジＨＭＭのパラ
メータを保持するガベジＨＭＭ記憶手段、１３はＨＭＭ
変更手段であり、ＨＭＭ記憶手段８に保持されている単
語のＨＭＭのパラメータの一部をガベジＨＭＭ記憶手段
１２に保持されているガベジＨＭＭのパラメータと置き
換える。その他について図１９と同一符号のものは、図
１９と同等の機能を有する。

【００２９】図２は単語のＨＭＭの構成を示す。単語の
ＨＭＭは認識対象となる単語の種類がＷ個あれば、それ
に対応して単語のＨＭＭも全部でＷ個ある。また図３は
各単語のＨＭＭの構成を示す。図において、番号１，
２，・・・Ｎ等は状態番号である。また、ｂ１，ｂ２，
・・・ｂＮ−１等は出力確率分布を示す。各単語のＨＭ
Ｍは、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型のもので、Ｎ個の
状態と２（Ｎ−１）個の状態遷移からなる。２（Ｎ−
１）個の状態遷移のうちＮ−１個は自己ループを形成し
ており、ある状態から出ている２個の状態遷移（自己ル
ープと次状態への遷移）は、それぞれ、同一のパラメー
タを備えた出力確率密度関数を共有している。ここで出
力確率密度関数は、混合数Ｍの混合連続正規分布として
いる。

【００３０】次に動作について説明する。まず登録モー
ドにおける処理を説明する。登録モードでは、図１にお
けるモード選択手段５のスイッチが「登録」を選択して
いる。図４は、登録モードにおいて、ＨＭＭ記憶手段８
に保持する単語のＨＭＭのパラメータを決定するフロー
チャートである。登録モードでは、登録すべき各単語音
声が入力音声１００１として入力される。音声区間切出
手段１は、各入力音声１００１から、音声区間２を切り
出す。音声分析手段３は、切り出された各音声区間２の
音声を分析し、特徴パラメータの時系列４を出力する。
特徴パラメータの時系列４は、モード選択手段５を経由
し、学習用サンプル格納手段６に入力される。

【００３１】図４のステップＳＴ１０１において、学習
用サンプル格納手段６は、各単語音声に対応する特徴パ
ラメータ時系列４を、学習用サンプルとして学習用サン
プル格納手段６に格納する。各単語１からＷについて、
この処理を所定数、例えば３回の発声について行い、各
単語について学習用サンプルを３個ずつ収集する。

【００３２】ステップＳＴ１０２において、ガベジＨＭ
Ｍ学習手段１１は、全ての学習用サンプルの開始端及び
終了端の無音区間について、それぞれ所定数、例えば２
５フレームの区間を切り出すことにより、開始端及び終
了端のガベジＨＭＭの学習用データとして、合計Ｗ単語
×２５フレーム×３サンプル分の特徴パラメータ時系列
を得てガベジＨＭＭ記憶手段１２に保持する。ガベジＨ
ＭＭは、音声以外の無音区間（雑音区間）を用いて作成
した確率音響モデルで、開始端用と終了端用の２個があ
り、それぞれ図５の構成を有している。各ガベジＨＭＭ
のパラメータは、これらの学習用サンプルを用いて、例
えば上記文献１のＢａｕｍ−Ｗｅｌｃｈ（Ｆｏｒｗａｒ
ｄ−Ｂａｃｋｗａｒｄ）アルゴリズムによって決定され
る。

【００３３】次のステップＳＴ１０３〜ＳＴ１０７にお
いて、Ｗ個の単語のうち、第ｗ番（ｗ＝１，２，３，・
・・Ｗ）の単語について、各単語のＨＭＭのパラメータ
が決定される。まずステップＳＴ１０３においてｗを１
に設定する。ステップＳＴ１０４において、ＨＭＭ学習
手段７は、学習用サンプル格納手段６から、第１番の単
語の学習用サンプル３個を選択し、選択された学習用サ
ンプルから、Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴ
リズムによって、第１番の単語のＨＭＭのパラメータを
決定し、ＨＭＭ記憶手段８に保持する。

【００３４】ステップＳＴ１０５において、ＨＭＭ変更
手段１３は、第１番の単語について、第１番の単語のＨ
ＭＭの状態１と状態１から出発する２個の状態遷移のパ
ラメータを、ガベジＨＭＭ記憶手段１２に保持されてい
る開始端用のガベジＨＭＭのパラメータで置き換える。
また、第１番の単語のＨＭＭの状態Ｎ−１と状態Ｎ−１
から出発する２個の状態遷移のパラメータを、ガベジＨ
ＭＭ記憶手段１２に保持されている終了端用のガベジＨ
ＭＭのパラメータで置き換える。ＨＭＭ記憶手段８は、
このように置き換えられた第１番の単語のＨＭＭのパラ
メータを認識モードで尤度計算に用いるため保持する。

【００３５】ステップＳＴ１０６において、Ｗ個の全て
の単語について上記処理が完了したかをチェックする。
完了していなければ、ステップＳＴ１０７でｗを次の
値、ここでは２にセットし、第２番の単語について、上
記ステップＳＴ１０４，ＳＴ１０５の処理を実施する。
そして上記処理をＷ個の全ての単語について行い終了す
る。開始端及び終了端のＨＭＭのパラメータをガベジＨ
ＭＭのパラメータで置き換えた結果を図６に示す。

【００３６】次に認識モードにおける処理を説明する。
認識モードでは、図１におけるモード選択手段５のスイ
ッチが「認識」を選択している。認識モードでは、未知
の単語音声を、入力音声１００１として入力される。音
声区間切出手段１は、未知の入力音声１００１から、音
声区間２を切り出す。音声分析手段３は、音声区間２の
音声を分析し、特徴パラメータの時系列４を出力する。
尤度計算手段９は、特徴パラメータ時系列４の全区間
と、ＨＭＭ記憶手段８に記憶されている各単語のＨＭＭ
のパラメータに基づいて尤度計算を行い、各単語のＨＭ
Ｍからの尤度を例えば上記文献１の前向きパス（Ｆｏｒ
ｗａｒｄ）アルゴリズムに基づいて計算する。単語決定
手段１０は、尤度計算手段９の求めた入力音声１００１
に対する各単語尤度を比較して、最大の尤度を示した単
語のＨＭＭの番号を認識結果１００２として出力する。

【００３７】以上のように、この実施の形態１によれ
ば、認識モードで、音声区間切出手段１が切り出した音
声区間が、登録モードで切り出した音声区間とずれてい
たとしても、ＨＭＭ記憶手段８に保持されている単語の
開始端及び終了端のＨＭＭのパラメータを、複数回の学
習により決定されたガベジＨＭＭのパラメータで置き換
えているので、尤度計算手段９で誤認識されることが少
なくなり、音声区間検出のずれに強い音声認識装置を実
現できるという効果が得られる。

【００３８】上記実施の形態では、ＨＭＭ記憶手段８に
保持されている単語の開始端及び終了端のＨＭＭのパラ
メータを、ガベジＨＭＭのパラメータで置き換えている
が、ＨＭＭ記憶手段８に保持されている単語の開始端ま
たは終了端のＨＭＭのパラメータを、対応するガベジＨ
ＭＭのパラメータで置き換えても同様の効果が得られ
る。

【００３９】実施の形態２．図７はこの発明の実施の形
態２による音声認識装置の構成を示すブロック図であ
る。図において、１３ａはＨＭＭ記憶手段８に保持され
ているＨＭＭのパラメータを書き換えるＨＭＭ変更手段
である。その他について図１と同一符号のものは、実施
の形態１と同等の機能を有する。

【００４０】次に動作について説明する。図８は登録モ
ードにおけるＨＭＭ記憶手段８に保持するＨＭＭのパラ
メータを決定するフローチャートである。このフローチ
ャート中で、ステップＳＴ１０１からステップＳＴ１０
７までの動作は、実施の形態１における図４のステップ
ＳＴ１０１からステップＳＴ１０７までの各ステップか
ら、ステップＳＴ１０２とＳＴ１０５を除いたものとな
る。すなわち図８において、ステップＳＴ１０７までの
処理により、ＨＭＭ記憶手段８には、図２に示すような
構成のＷ個の単語のＨＭＭのパラメータが保持されてい
る。

【００４１】次に図８のステップＳＴ１０８において、
ＨＭＭ変更手段１３ａは、ＨＭＭ記憶手段８に保持され
ているＷ個の独立した単語のＨＭＭのパラメータを用い
て、各単語のＨＭＭの状態１から２にかけての共通部分
が共有されるように、状態遷移の構造記述を変更する。
変更した結果を図９に示す。図９において破線は出力確
率密度を持たないナル遷移を表す。この変更は、各単語
の状態１から２にかけての状態遷移を１つのもので代表
させ、さらに、Ｗ個のナル遷移を単語数分だけ付け加え
ることで実現できる。ここで、ナル遷移の遷移確率は１
／Ｗとする。

【００４２】なお、認識モードの動作は実施の形態１と
同様に動作するが、ＨＭＭ記憶手段８に保持されている
ＨＭＭのパラメータの状態１から２にかけての部分が共
有されているので、尤度計算における状態１から２にか
けての演算が共通化され、演算回数を減らすことができ
る。

【００４３】以上のように、この実施の形態２によれ
ば、尤度計算における演算量を減らすことができるとい
う効果が得られる。

【００４４】上記実施の形態では、開始端のＨＭＭのパ
ラメータの構造記述を変更しているが、終了端のＨＭＭ
のパラメータの構造記述の変更をしても良く、さらに開
始端及び終了端のＨＭＭのパラメータの構造記述を変更
しても良く、同様の効果が得られる。

【００４５】実施の形態３．この発明の実施の形態３に
よる音声認識装置の構成は、図１に示された実施の形態
１と同じである。また実施の形態２では、ＨＭＭ変更手
段１３が、単語のＨＭＭの構成を図２から図９に変更し
ているが、この実施の形態では、ＨＭＭ学習手段７で学
習されたＨＭＭの構成がすでに図９の構成を有してい
る。

【００４６】次に動作について説明する。図１０は登録
モードにおけるＨＭＭ記憶手段８に保持するＨＭＭのパ
ラメータを決定するフローチャートである。登録モード
では、登録すべき各単語音声が入力音声１００１として
入力される。音声区間切出手段１は、各入力音声１００
１から、音声区間２を切り出す。音声分析手段３は、各
音声区間２の音声を分析し、特徴パラメータの時系列４
を出力する。

【００４７】図１０のステップＳＴ１０１において、図
１の学習用サンプル格納手段６は、各単語音声に対応す
る特徴パラメータ時系列４を、学習用サンプルとして学
習用サンプル格納手段６に格納する。各単語１からＷに
ついて、この処理を所定数、例えば３回の発声について
行い、各単語について学習用サンプルを３個ずつ収集す
る。

【００４８】ステップＳＴ１０２において、ガベジＨＭ
Ｍ学習手段１１は、全ての学習用サンプルの終了端の無
音区間について、所定数、例えば２５フレームの区間を
切り出すことにより、終了端のガベジＨＭＭの学習用デ
ータとして、合計Ｗ単語×２５フレーム×３サンプル分
の特徴パラメータ時系列を得てガベジＨＭＭ記憶手段１
２に保持する。この実施の形態では、学習するガベジＨ
ＭＭは、終了端用のものだけであり図５の構成を有す
る。終了端用のガベジＨＭＭのパラメータは、これらの
学習用サンプルを用いて、例えば、Ｂａｕｍ−Ｗｅｌｃ
ｈ（Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄ）アルゴリズム
によって決定される。

【００４９】ステップＳＴ２０４において、ＨＭＭ学習
手段７は、学習用サンプル格納手段６から、Ｗ個の単語
全ての学習用サンプルを選択し、選択された学習用サン
プルを１つの集合とし、その集合についてＦｏｒｗａｒ
ｄ−Ｂａｃｋｗａｒｄアルゴリズムによって、図９のよ
うに各単語の開始部分を共有化したＨＭＭのパラメータ
を一括して決定する。Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒ
ｄアルゴリズムの適用に当たって、その過程でなされる
前向き確率及び後ろ向き確率は、学習用サンプルの単語
の種類に応じたＨＭＭの状態遷移を用いて計算する。

【００５０】次にステップＳＴ２０５において、ステッ
プＳＴ１０２で決定されガベジＨＭＭ記憶手段１２に保
持された終了端用のガベジＨＭＭのパラメータを用い
て、ＨＭＭのパラメータの一部を置換する。すなわち、
ＨＭＭの枝分かれ後の各単語に対応する状態Ｎ−１から
状態Ｎにかけての状態遷移のパラメータを、終了端用の
ガベジＨＭＭのパラメータで置き換える。置き換えた結
果を図１１に示す。ＨＭＭ記憶手段８は、このように決
定されたＨＭＭのパラメータを認識モードで尤度計算に
用いるため保持する。なお認識モードの動作は実施の形
態１と同様に動作する。

【００５１】以上のように、この実施の形態３によれ
ば、尤度計算手段９が行う演算処理が、終了端用のガベ
ジＨＭＭのパラメータで置き換えていることにより音声
区間の切り出しずれに強くなり、各単語のＨＭＭのパラ
メータの開始部分を共有化したことにより少ない演算回
数で済むという効果が得られる。また、ＨＭＭのパラメ
ータを推定するときに、開始端の状態遷移のパラメータ
を、学習用サンプルの全てを用いて決定しているため安
定した推定を行うことができるという効果が得られる。

【００５２】上記実施の形態では、開始端のＨＭＭのパ
ラメータを一括学習し、終了端のＨＭＭのパラメータを
ガベジＨＭＭで置き換えているが、逆に終了端のＨＭＭ
のパラメータを一括学習し、開始端のＨＭＭのパラメー
タをガベジＨＭＭで置き換えても良く、同様の効果が得
られる。

【００５３】実施の形態４．図１２はこの発明の実施の
形態４による音声認識装置の構成を示すブロック図であ
る。上記の実施の形態１及び実施の形態３では、ガベジ
ＨＭＭの学習に用いる学習用サンプルは、収集された学
習用サンプルの開始端または終了端の部分から切り出し
たが、この実施の形態では、ガベジＨＭＭ学習手段１１
が、別途収集した典型的な雑音サンプル６ａから切り出
したものを用いている。その他の構成については図１と
同様である。

【００５４】次に動作について説明する。動作を示すフ
ローチャートは、実施の形態１の図４又は実施の形態３
の図１０と同じである。図４または図１０のステップＳ
Ｔ１０２において、ガベジＨＭＭ学習手段１１は、別途
収集した典型的な雑音サンプル６ａから切り出し、開始
端及び終了端のガベジＨＭＭのパラメータをガベジＨＭ
Ｍ記憶手段１２に保持する。ＨＭＭ記憶手段８に保持さ
れている図２または図９のＨＭＭのパラメータは、開始
端や終了端につき、図６または図１１のように、ガベジ
ＨＭＭ記憶手段１２に保持されているガベジＨＭＭのパ
ラメータに置き換えられる。その他の動作については、
実施の形態１または実施の形態３と同様である。

【００５５】以上のように、この実施の形態４によれ
ば、実施の形態１または実施の形態３で得られる効果の
他に、音声の登録時には得られなかった雑音環境等、予
見される雑音データの種類を多く具備することで、多様
な雑音の重畳した音声に対処が可能となり、音声認識時
に起こる雑音環境の変化があっても、さらに音声区間検
出のずれに強い音声認識装置を実現できるという効果が
得られる。

【００５６】実施の形態５．図１３はこの発明の実施の
形態５による音声認識装置を示すブロック図である。図
において、１２ａはガベジＨＭＭ学習手段１１により決
定された第１のガベジＨＭＭのパラメータを記憶する第
１のガベジＨＭＭ記憶手段、１２ｂは予め想定される典
型的な雑音データから決定した第２のガベジＨＭＭのパ
ラメータを記憶する第２のガベジＨＭＭ記憶手段、１４
は第１のガベジＨＭＭのパラメータと第２のガベジＨＭ
Ｍのパラメータとを合成するガベジＨＭＭ合成手段であ
る。その他の構成については、図１と同様である。

【００５７】次に動作について説明する。図１４は登録
モードにおいて、ＨＭＭ記憶手段８に保持する単語のＨ
ＭＭのパラメータを決定するフローチャートである。ま
ずステップＳＴ１０１の処理は、実施の形態１における
図４のステップＳＴ１０１の処理と同じである。ステッ
プＳＴ１０２において、ガベジＨＭＭ学習手段１１は、
各学習用サンプルの開始端および終了端部分から得た学
習データから、ガベジＨＭＭのパラメータを決定し、決
定されたパラメータを第１のガベジＨＭＭのパラメータ
として、第１のガベジＨＭＭ記憶手段１２ａに保持す
る。

【００５８】そして、ステップＳＴ１０２ａにおいて、
ガベジＨＭＭのパラメータ合成手段１４は、第１のガベ
ジＨＭＭ記憶手段１２ａに保持されている登録された音
声の開始端及び終了端の部分から得られる特徴パラメー
タから決定した第１のガベジＨＭＭのパラメータと、第
２のガベジＨＭＭ記憶手段１２ｂに保持されている予め
想定される典型的な雑音データから決定した第２のガベ
ジＨＭＭのパラメータを用いて、ガベジＨＭＭのパラメ
ータを合成する。

【００５９】パラメータの合成は、例えば第１のガベジ
ＨＭＭのパラメータと第２のＨＭＭのパラメータの混合
分布とすることで行うことができる。ここで、それぞれ
のＨＭＭのパラメータの混合分布の各分岐係数の値を、
例えばαを１／２として、α倍と、１−α倍した値に変
更する。

【００６０】ステップＳＴ１０３以降の処理は、実施の
形態１における図４のステップＳＴ１０３以降の処理と
同様である。ステップＳＴ１０５において、ＨＭＭ変更
手段１３は、ＨＭＭ記憶手段８に保持された単語のＨＭ
Ｍの開始端あるいは終了端の状態遷移のパラメータを、
ガベジＨＭＭ合成手段１４が合成したＨＭＭのパラメー
タで置き換え、図２で示した単語のＨＭＭの構成を図６
で示した単語の構成に変更する。ＨＭＭ記憶手段８は、
このように変更された単語のＨＭＭのパラメータを認識
モードで尤度計算に用いるため保持する。認識モードに
おける動作については、実施の形態１と同様である。

【００６１】以上のように、この実施の形態５によれ
ば、実施の形態１で得られる効果のほかに、登録環境の
雑音データと、典型的な雑音データの両者を考慮したガ
ベジＨＭＭのパラメータを用いるため、登録環境と類似
の環境でも、また、音声認識時に起こる雑音環境の変化
があっても、なお、音声区間検出のずれに強い音声認識
を実現できるという効果が得られる。

【００６２】実施の形態６．この発明の実施の形態６に
よる音声認識装置の構成は、実施の形態１の図１と同じ
である。

【００６３】次に動作について説明する。図１５は登録
モードにおいて、ガベジＨＭＭ記憶手段１２に保持する
ガベジＨＭＭのパラメータを決定するフローチャートで
ある。まずステップＳＴ１０１の処理は、実施の形態１
の図４のステップＳＴ１０１と同様であり、ステップ学
習用サンプル格納手段６に、各単語音声に対応する特徴
パラメータ時系列が学習用サンプルとして格納される。

【００６４】次にステップＳＴ１０１ａにおいて、ガベ
ジＨＭＭ学習手段１１は、学習用サンプル格納手段６に
格納されている学習用サンプルから開始端のガベジＨＭ
Ｍのパラメータを決定するため、Ｗ個の単語全ての学習
用サンプルを一括して学習用データとして選択し、選択
された学習用サンプルから、Ｆｏｒｗａｒｄ−Ｂａｃｋ
ｗａｒｄアルゴリズムによって、図９の構成のＨＭＭの
パラメータを決定する。Ｆｏｒｗａｒｄ−Ｂａｃｋｗａ
ｒｄアルゴリズムの適用に当たって、その過程でなされ
る前向き確率及び後ろ向き確率は、学習用サンプルの単
語の種類に応じた単語のＨＭＭの状態遷移を用いて計算
する。

【００６５】一括学習によりＨＭＭのパラメータが決定
された後、ステップＳＴ１０２において、ＨＭＭの状態
１から２にかけて構造が共有された部分の状態遷移のパ
ラメータをガベジＨＭＭのパラメータとして決定し、こ
れを開始端用のガベジＨＭＭのパラメータとして、ガベ
ジＨＭＭ記憶手段１２に保持する。次に図４のステップ
ＳＴ１０３に移り、ステップＳＴ１０７までの処理を行
う。

【００６６】以上のように、この実施の形態６によれ
ば、実施の形態１で得られる効果のほかに、全ての学習
用サンプルの開始端付近のデータに基づいて、ガベジＨ
ＭＭのパラメータを推定するため、個別のサンプルのゆ
らぎが平均化され、安定したガベジＨＭＭのパラメータ
の推定を行うことができるという効果が得られる。

【００６７】上記実施の形態では、開始端用のガベジＨ
ＭＭを一括学習しているが、終了端のガベジＨＭＭを一
括学習しても良く、同様の効果が得られる。

【００６８】実施の形態７．この発明の実施の形態７に
よる音声認識装置の構成及びフローチャートは、実施の
形態６と同様に図１及び図１５に示される。ただし、図
１５のステップＳＴ１０１ａの内容が下記のように異な
る。すなわち実施の形態６では、ガベジＨＭＭ学習手段
１１は図９の構成のＨＭＭのパラメータを決定している
が、実施の形態７では、図１６の構成のＨＭＭのパラメ
ータを決定する。

【００６９】次に動作について説明する。図１５のステ
ップＳＴ１０１ａにおいて、ガベジＨＭＭ学習手段１１
は、学習用サンプル格納手段６に格納されている学習用
サンプルから開始端及び終了端のガベジＨＭＭのパラメ
ータを決定するため、Ｗ個の単語全ての学習用サンプル
を一括して学習用データとして選択し、選択された学習
用サンプルから、Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄア
ルゴリズムによって、図１６の構成のＨＭＭのパラメー
タを決定する。Ｆｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアル
ゴリズムの適用に当たって、その過程でなされる前向き
確率及び後ろ向き確率は、学習用サンプルの単語の種類
に応じた単語ＨＭＭの状態遷移を用いて計算する。

【００７０】一括学習によりＨＭＭのパラメータが決定
された後、ステップＳＴ１０２において、ＨＭＭのパラ
メータの状態１から２にかけて構造が共有された部分の
状態遷移のパラメータを決定し、これを開始端用のガベ
ジＨＭＭのパラメータとして、ガベジＨＭＭ格納手段１
２に保持する。同様に、ＨＭＭのパラメータの状態Ｎ−
１からＮにかけて構造が共有された部分の状態遷移のパ
ラメータを決定し、これを終了端用のガベジＨＭＭのパ
ラメータとして、ガベジＨＭＭ格納手段１２に保持す
る。次に図４のステップＳＴ１０３に移り、ステップＳ
Ｔ１０７までの処理を行う。

【００７１】以上のように、この実施の形態７によれ
ば、実施の形態１で得られる効果のほかに、全ての学習
用サンプルの開始端及び終了端付近のデータに基づい
て、ガベジＨＭＭのパラメータを推定するため、個別の
サンプルのゆらぎが平均化され、安定したガベジＨＭＭ
のパラメータの推定を行うことができるという効果が得
られる。

【００７２】実施の形態８．この発明の実施の形態８に
よる音声認識装置の構成及びフローチャートは、実施の
形態６と同様に図１及び図１５に示される。ただし、図
１５のステップＳＴ１０１ａの内容が下記のように異な
る。すなわち実施の形態６では、ガベジＨＭＭ学習手段
１１は図９の構成のＨＭＭのパラメータを決定している
が、実施の形態８では、図１７の構成のＨＭＭのパラメ
ータを決定する。

【００７３】次に動作について説明する。図１５のステ
ップＳＴ１０１ａにおいて、ガベジＨＭＭ学習手段１１
は、学習用サンプル格納手段６に格納されている学習用
サンプルから、開始端あるいは終了端のガベジＨＭＭの
パラメータを決定するため、Ｗ個の単語全ての学習用サ
ンプルを一括して学習用データとして選択し、選択され
た学習用サンプルから、Ｆｏｒｗａｒｄ−Ｂａｃｋｗａ
ｒｄアルゴリズムによって、例えば図１７の構成のＨＭ
Ｍのパラメータを決定する。ここで、このＨＭＭの構成
では、状態１から出発する状態遷移の出力確率密度関数
と状態Ｎ−１から出発する状態遷移の出力確率密度関数
は、結びの関係にあり同じパラメータを共有する。図１
７では、状態１及び状態Ｎ−１の状態遷移のパラメータ
を開始端のパラメータで共有しているが、終了端のパラ
メータで共有しても良い。Ｆｏｒｗａｒｄ−Ｂａｃｋｗ
ａｒｄアルゴリズムの適用に当たって、その過程でなさ
れる前向き確率及び後ろ向き確率は、学習用サンプルの
単語の種類に応じた単語ＨＭＭの状態遷移を用いて計算
する。

【００７４】一括学習によりＨＭＭのパラメータが決定
された後、ステップＳＴ１０２において、ＨＭＭの状態
１から２あるいは状態Ｎ−１からＮにかけて共有された
部分の状態遷移のパラメータを、開始端あるいは終了端
のガベジモデルのパラメータとして決定し、ガベジＨＭ
Ｍ記憶手段１２に保持する。次に図４のステップＳＴ１
０３に移り、ステップＳＴ１０７までの処理を行う。

【００７５】以上のように、この実施の形態８によれ
ば、実施の形態１で得られる効果のほかに、全ての学習
用サンプルの開始端及び終了端付近のデータに基づい
て、ガベジＨＭＭのパラメータを推定するため、個別の
サンプルのゆらぎが平均化され、安定したガベジＨＭＭ
のパラメータの推定を行うことができるという効果が得
られる。また開始端と終了端のＨＭＭのパラメータを結
びの関係となっているため、さらに安定した推定を行う
ことができる。

【００７６】実施の形態９．この発明の実施の形態９に
よる音声認識装置の構成は、実施の形態４における図１
２と同じである。

【００７７】次に動作について説明する。図１８は登録
モードにおいて、ＨＭＭ記憶手段８に保持するＨＭＭの
パラメータを決定するフローチャートである。まずステ
ップＳＴ１０１，ＳＴ１０３，ＳＴ１０４，ＳＴ１０
６，ＳＴ１０７の各ステップの処理は、実施の形態２に
おける図８と同一であり、ＨＭＭ記憶手段には、図２又
は図９の構成の単語のＨＭＭのパラメータが保持されて
いる。

【００７８】ステップＳＴ１０２において、ガベジＨＭ
Ｍ学習手段１１は、別途収集した典型的な雑音サンプル
６ａから切り出した開始端及び終了端のガベジＨＭＭの
パラメータをガベジＨＭＭ記憶手段１２に保持する。そ
してステップＳＴ１０８において、ＨＭＭ変更手段１３
は、ＨＭＭ記憶手段８に保持されている図２または図９
のＨＭＭのパラメータについて、開始端の状態１から状
態２にかけての状態遷移における出力確率密度関数のパ
ラメータと、終了端の状態Ｎ−１から状態Ｎにかけての
状態遷移における出力確率密度関数のパラメータを結び
の関係とすると共に、その開始端や終了端を、ガベジＨ
ＭＭ記憶手段１２に保持されているガベジＨＭＭのパラ
メータと置き換える。

【００７９】以上のように、この実施の形態９によれ
ば、実施の形態４で得られる効果のほかに、開始端及び
終了端のＨＭＭのパラメータを結びの関係としているた
め、音声区間の切り出しずれにさらに強い音声認識装置
を実現できるという効果が得られる。

【００８０】上記実施の形態では、開始端と終了端のＨ
ＭＭのパラメータを結びの関係としているが、開始端ま
たは終了端のＨＭＭのパラメータを結びの関係としても
良く、同様の効果が得られる。

【００８１】以上の説明では、音声区間切出後に音声分
析を行う構成としたが、音声分析後に得られる特徴パラ
メータに基づいて、音声区間切出を行うような構成とし
ても、本発明は適用可能である。

【００８２】

【発明の効果】以上のように、請求項１記載の発明によ
れば、認識モードで切り出した音声区間が、登録モード
で切り出した音声区間とずれていたとしても、単語のＨ
ＭＭのパラメータの一部を、学習により決定されたガベ
ジＨＭＭのパラメータで置き換えて構成したので、誤認
識されることが少なくなり、音声区間検出のずれに強い
音声認識装置を実現できる効果がある。

【００８３】請求項２記載の発明によれば、各単語のＨ
ＭＭのパラメータの一部を、共有化するように状態遷移
の構造記述を変更して構成したので、尤度計算における
演算量を減らすことができる効果がある。

【００８４】請求項３記載の発明によれば、各単語のＨ
ＭＭのパラメータの開始端、終了端または開始端と終了
端のいずれかを、共有化するように状態遷移の構造記述
を変更して構成したので、尤度計算における演算量を減
らすことができる効果がある。

【００８５】請求項４記載の発明によれば、ＨＭＭのパ
ラメータの一部を、学習により決定されたガベジＨＭＭ
のパラメータで置き換えて構成したので、誤認識される
ことが少なくなり、音声区間検出のずれに強い音声認識
装置を実現できると共に、ＨＭＭのパラメータの一部を
共有化したことにより少ない演算回数で済む効果があ
る。

【００８６】請求項５記載の発明によれば、ＨＭＭのパ
ラメータの開始端を共有化するように、状態遷移の構造
記述を変更したとき、ＨＭＭのパラメータの終了端をガ
ベジＨＭＭのパラメータと置き換え、ＨＭＭのパラメー
タの終了端を共有化するように、状態遷移の構造記述を
変更したとき、ＨＭＭのパラメータの開始端を、ガベジ
ＨＭＭのパラメータと置き換えて構成したので、音声区
間検出のずれに強い音声認識装置を実現できると共に、
少ない演算回数で済む効果がある。

【００８７】請求項６記載の発明によれば、典型的な雑
音データからガベジＨＭＭのパラメータを決定している
ので、音声の登録時には得られなかった雑音環境等、予
見される雑音データの種類を多く具備するように構成し
たので、多様な雑音の重畳した音声に対処が可能とな
り、音声認識時に起こる雑音環境の変化があっても、音
声区間検出のずれに強い音声認識装置を実現できる効果
がある。

【００８８】請求項７記載の発明によれば、登録環境の
雑音データと、典型的な雑音データの両者を考慮したガ
ベジＨＭＭのパラメータを用いる構成としたので、登録
環境と類似の環境でも、また、音声認識時に起こる雑音
環境の変化があっても、なお、音声区間検出のずれに強
い音声認識を実現できる効果がある。

【００８９】請求項８記載の発明によれば、各単語の開
始端、終了端または開始端と終了端のいずれかのＨＭＭ
のパラメータを、各単語に対応するガベジＨＭＭのパラ
メータと置き換えて構成したので、誤認識されることが
少なくなり、音声区間検出のずれに強い音声認識装置を
実現できる効果がある。

【００９０】請求項９記載の発明によれば、学習用サン
プルを一括して学習し、各単語のＨＭＭの状態１から２
または状態Ｎ−１からＮにかけて構造が共有された部分
の状態遷移のパラメータを開始端用または終了端用のガ
ベジＨＭＭのパラメータとして決定するように構成した
ので、個別のサンプルのゆらぎが平均化され、安定した
ガベジＨＭＭのパラメータの推定を行うことができる効
果がある。

【００９１】請求項１０記載の発明によれば、各単語の
学習用サンプルを一括して学習し、各単語のＨＭＭの状
態１から２にかけて構造が共有された部分の状態遷移の
パラメータを開始端用のガベジＨＭＭのパラメータとし
て決定し、各単語のＨＭＭの状態Ｎ−１からＮにかけて
構造が共有された部分の状態遷移のパラメータを終了端
用のガベジＨＭＭのパラメータとして決定するように構
成したので、個別のサンプルのゆらぎが平均化され、安
定したガベジＨＭＭのパラメータの推定を行うことがで
きる効果がある。

【００９２】請求項１１記載の発明によれば、学習用サ
ンプルを一括して学習し、各単語のＨＭＭの状態１から
２にかけて構造が共有された部分の状態遷移のパラメー
タ、または各単語のＨＭＭの状態Ｎ−１からＮにかけて
構造が共有された部分の状態遷移のパラメータを開始端
用及び終了端用のガベジＨＭＭのパラメータとして決定
するように構成したので、個別のサンプルのゆらぎが平
均化され、安定したガベジＨＭＭのパラメータの推定を
行うことができる効果がある。

【００９３】請求項１２記載の発明によれば、典型的な
雑音データからガベジＨＭＭのパラメータを決定してい
るので、音声の登録時には得られなかった雑音環境等、
予見される雑音データの種類を多く具備することで、多
様な雑音の重畳した音声に対処が可能となり、またＨＭ
Ｍのパラメータの一部を、結びの関係とすると共に、ガ
ベジＨＭＭのパラメータと置き換えて構成したので、音
声区間の切り出しずれに強い音声認識装置を実現できる
効果がある。

【００９４】請求項１３記載の発明によれば、各単語の
開始端、終了端または開始端と終了端のいずれかのＨＭ
Ｍのパラメータを、結びの関係とすると共に、ガベジＨ
ＭＭのパラメータと置き換えて構成したので、音声区間
の切り出しずれに強い音声認識装置を実現できる効果が
ある。

【図面の簡単な説明】

【図１】この発明の実施の形態１、実施の形態３、実
施の形態６、実施の形態７及び実施の形態８による音声
認識装置の構成を示すブロック図である。

【図２】ＨＭＭの構成を示す図である。

【図３】単語のＨＭＭの構成を示す図である。

【図４】この発明の実施の形態１及び実施の形態４に
よる音声認識装置の動作を示すフローチャートである。

【図５】ガベジＨＭＭの構成を示す図である。

【図６】この発明の実施の形態１によるＨＭＭの構成
を示す図である。

【図７】この発明の実施の形態２による音声認識装置
の構成を示すブロック図である。

【図８】この発明の実施の形態２による音声認識装置
の動作を示すフローチャートである。

【図９】この発明の実施の形態２によるＨＭＭの構成
を示すブロック図である。

【図１０】この発明の実施の形態３及び実施の形態４
による音声認識装置の動作を示すフローチャートであ
る。

【図１１】この発明の実施の形態３によるＨＭＭの構
成を示す図である。

【図１２】この発明の実施の形態４及び実施の形態９
による音声認識装置の構成を示すブロック図である。

【図１３】この発明の実施の形態５による音声認識装
置の構成を示すブロック図である。

【図１４】この発明の実施の形態５による音声認識装
置の動作を示すフローチャートである。

【図１５】この発明の実施の形態６、実施の形態７及
び実施の形態８による音声認識装置の動作を示すフロー
チャートである。

【図１６】この発明の実施の形態７によるＨＭＭの構
成を示す図である。

【図１７】この発明の実施の形態８によるＨＭＭの構
成を示す図である。

【図１８】この発明の実施の形態９による音声認識装
置の動作を示すフローチャートである。

【図１９】従来の音声認識装置の構成を示すブロック
図である。

【符号の説明】

６学習用サンプル格納手段、７ＨＭＭ学習手段、８
ＨＭＭ記憶手段、９尤度計算手段、１１ガベジＨＭ
Ｍ学習手段、１３，１３ａＨＭＭ変更手段、１４ガ
ベジＨＭＭ合成手段。

Claims

【特許請求の範囲】

【請求項１】認識対象となる未知の音声に対応する既
知の音声から抽出された特徴パラメータの時系列を学習
用サンプルとして格納する学習用サンプル格納手段と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定するＨＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保持するＨＭＭ記憶
手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、上記学習用サンプル格納手段に格納されている学習用サ
ンプルから各単語のガベジＨＭＭのパラメータを決定す
るガベジＨＭＭ学習手段と、上記ＨＭＭ記憶手段に保持されている各単語のＨＭＭの
パラメータの一部を、上記ガベジＨＭＭ学習手段により
決定されたガベジＨＭＭのパラメータと置き換えるＨＭ
Ｍ変更手段とを備えたことを特徴とする音声認識装置。
【請求項２】認識対象となる未知の音声に対応する既
知の音声から抽出された特徴パラメータの時系列を学習
用サンプルとして格納する学習用サンプル格納手段と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定するＨＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保持するＨＭＭ記憶
手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、上記ＨＭＭ記憶手段に保持されている各単語のＨＭＭの
パラメータの一部を、共有化するように状態遷移の構造
記述を変更するＨＭＭ変更手段を備えたことを特徴とす
る音声認識装置。
【請求項３】ＨＭＭ変更手段は、ＨＭＭ記憶手段に保
持されている各単語の開始端、終了端または開始端と終
了端のいずれかのＨＭＭのパラメータを、共有化するよ
うに状態遷移の構造記述を変更することを特徴とする請
求項２記載の音声認識装置。
【請求項４】認識対象となる未知の音声に対応する既
知の音声から抽出された特徴パラメータの時系列を学習
用サンプルとして格納する学習用サンプル格納手段と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定し、各単語のＨＭＭのパラメータの一部を共有化す
るように、状態遷移の構造記述を変更するＨＭＭ学習手
段と、上記ＨＭＭ学習手段が変更したＨＭＭのパラメータを保
持するＨＭＭ記憶手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、上記学習用サンプル格納手段に格納されている学習用サ
ンプルから各単語のガベジＨＭＭのパラメータを決定す
るガベジＨＭＭ学習手段と、上記ＨＭＭ記憶手段に保持されているＨＭＭのパラメー
タの一部を、上記ガベジＨＭＭ学習手段により決定され
たガベジＨＭＭのパラメータと置き換えるＨＭＭ変更手
段とを備えたことを特徴とする音声認識装置。
【請求項５】ＨＭＭ学習手段が、各単語のＨＭＭのパ
ラメータの開始端を共有化するように、状態遷移の構造
記述を変更したとき、ＨＭＭ変更手段が、ＨＭＭ記憶手
段に保持されているＨＭＭのパラメータの終了端を、ガ
ベジＨＭＭ学習手段により決定されたガベジＨＭＭのパ
ラメータと置き換え、ＨＭＭ学習手段が、各単語のＨＭＭのパラメータの終了
端を共有化するように、状態遷移の構造記述を変更した
とき、ＨＭＭ変更手段が、ＨＭＭ記憶手段に保持されて
いるＨＭＭのパラメータの開始端を、ガベジＨＭＭ学習
手段により決定されたガベジＨＭＭのパラメータと置き
換えることを特徴とする請求項４記載の音声認識装置。
【請求項６】認識対象となる未知の音声に対応する既
知の音声から抽出された特徴パラメータの時系列を学習
用サンプルとして格納する学習用サンプル格納手段と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定するＨＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保持するＨＭＭ記憶
手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、典型的な雑音データからガベジＨＭＭのパラメータを決
定するガベジＨＭＭ学習手段と、上記ＨＭＭ記憶手段に保持されている各単語のＨＭＭの
パラメータの一部を、上記ガベジＨＭＭ学習手段により
決定されたガベジＨＭＭのパラメータと置き換えるＨＭ
Ｍ変更手段とを備えたことを特徴とする音声認識装置。
【請求項７】認識対象となる未知の音声に対応する既
知の音声から抽出された特徴パラメータの時系列を学習
用サンプルとして格納する学習用サンプル格納手段と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定するＨＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保持するＨＭＭ記憶
手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、上記学習用サンプル格納手段に格納されている学習用サ
ンプルから第１のガベジＨＭＭのパラメータを決定する
ガベジＨＭＭ学習手段と、上記ガベジＨＭＭ学習手段により決定された第１のガベ
ジＨＭＭのパラメータと、典型的な雑音データから決定
された第２のガベジＨＭＭのパラメータを合成するガベ
ジＨＭＭ合成手段と、上記ＨＭＭ記憶手段に保持されている各単語のＨＭＭの
パラメータの一部を、上記ガベジＨＭＭ合成手段により
合成されたガベジＨＭＭのパラメータと置き換えるＨＭ
Ｍ変更手段とを備えたことを特徴とする音声認識装置。
【請求項８】ＨＭＭ変更手段は、ＨＭＭ記憶手段に保
持されている各単語の開始端、終了端または開始端と終
了端のいずれかのＨＭＭのパラメータを、各単語に対応
するガベジＨＭＭのパラメータと置き換えることを特徴
とする請求項１、請求項６または請求項７のうちのいず
れか１項記載の音声認識装置。
【請求項９】ガベジＨＭＭ学習手段は、学習用サンプ
ル格納手段に格納されている学習用サンプルを一括して
学習し、各単語のＨＭＭの状態１から２にまたは状態Ｎ
−１からＮにかけて構造が共有された部分の状態遷移の
パラメータをそれぞれ開始端用または終了端用のガベジ
ＨＭＭのパラメータとして決定することを特徴とする請
求項１または請求項４記載の音声認識装置。
【請求項１０】ガベジＨＭＭ学習手段は、学習用サン
プル格納手段に格納されている学習用サンプルを一括し
て学習し、各単語のＨＭＭの状態１から２にかけて構造
が共有された部分の状態遷移のパラメータを開始端用の
ガベジＨＭＭのパラメータとして決定し、各単語のＨＭ
Ｍの状態Ｎ−１からＮにかけて構造が共有された部分の
状態遷移のパラメータを終了端用のガベジＨＭＭのパラ
メータとして決定することを特徴とする請求項１または
請求項４記載の音声認識装置。
【請求項１１】ガベジＨＭＭ学習手段は、学習用サン
プル格納手段に格納されている学習用サンプルを一括し
て学習し、各単語のＨＭＭの状態１から２にかけて構造
が共有された部分の状態遷移のパラメータ、または各単
語のＨＭＭの状態Ｎ−１からＮにかけて構造が共有され
た部分の状態遷移のパラメータを開始端用及び終了端用
のガベジＨＭＭのパラメータとして決定することを特徴
とする請求項１または請求項４記載の音声認識装置。
【請求項１２】認識対象となる未知の音声に対応する
既知の音声から抽出された特徴パラメータの時系列を学
習用サンプルとして格納する学習用サンプル格納手段
と、上記学習用サンプルから各単語のＨＭＭのパラメータを
決定するＨＭＭ学習手段と、上記各単語のＨＭＭのパラメータを保持するＨＭＭ記憶
手段と、認識対象となる未知の音声から抽出された特徴パラメー
タの時系列を入力し、上記ＨＭＭ記憶手段に保持されて
いる各単語のＨＭＭのパラメータとの尤度を計算する尤
度計算手段とを備えた音声認識装置において、典型的な雑音データからガベジＨＭＭのパラメータを決
定するガベジＨＭＭ学習手段と、上記ＨＭＭ記憶手段に保持されている各単語のＨＭＭの
パラメータの状態遷移の一部を、結びの関係とすると共
に、上記ガベジＨＭＭ学習手段により決定されたガベジ
ＨＭＭのパラメータと置き換えるＨＭＭ変更手段とを備
えたことを特徴とする音声認識装置。
【請求項１３】ＨＭＭ変更手段は、ＨＭＭ記憶手段に
保持されている各単語の開始端、終了端または開始端と
終了端のいずれかのＨＭＭのパラメータを、結びの関係
とすると共に、各単語に対応するガベジＨＭＭのパラメ
ータと置き換えることを特徴とする請求項１２記載の音
声認識装置。