JPH1115492A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH1115492A
JPH1115492A JP9167767A JP16776797A JPH1115492A JP H1115492 A JPH1115492 A JP H1115492A JP 9167767 A JP9167767 A JP 9167767A JP 16776797 A JP16776797 A JP 16776797A JP H1115492 A JPH1115492 A JP H1115492A
Authority
JP
Japan
Prior art keywords
hmm
parameters
learning
word
garbage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9167767A
Other languages
English (en)
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9167767A priority Critical patent/JPH1115492A/ja
Publication of JPH1115492A publication Critical patent/JPH1115492A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声の登録時と認識時で音声区間検出のずれ
により誤認識を生じた。 【解決手段】 音声の登録時に、HMM学習手段7は、
学習用サンプル格納手段6に格納された学習用サンプル
から単語のHMMパラメータを決定し、HMM記憶手段
8に保持する。ガベジHMM学習手段11は学習用サン
プル格納手段6に格納された学習用サンプルから、開始
端および終了端のガベジHMMのパラメータを決定し、
ガベジHMM記憶手段に保持する。HMM変更手段13
は、単語のHMMの始終端の状態遷移のパラメータをガ
ベジHMM記憶手段12に記憶されたガベジHMMのパ
ラメータで置き換える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、HMMを単語モデ
ルとし、音声区間検出における音声区間の位置ずれに強
い登録型の音声認識装置に関するものである。
【0002】
【従来の技術】認識対象となる未知の音声に対応する既
知の音声を登録しておき、未知の入力音声に対し単語の
モデルを学習し認識するモードにおいて、登録された単
語モデルの中で最大の尤度を示す単語を入力音声の単語
として認識する登録型の音声認識方式は、演算量が少な
く簡易型の音声認識の実現手法として有効な方法であ
る。また登録型の音声認識は、原理的に登録可能な単語
の内容が任意であり、さらに言語に依存しない音声認識
が可能である。
【0003】単語モデルとしては、古典的なパターン・
マッチング手法と統計的な手法とがあり、近年では後者
が主流になりつつある。後者の統計的な手法では、確率
的な有限状態を持つマルコフ・モデルが提案されてお
り、HMM(Hidden Markov Mode
l)と呼ばれている。これに関しては、文献1;中川聖
一著「確率モデルによる音声認識」に詳述されている。
【0004】図19は例えば特開平7−98598号公
報に記載された従来の単語のHMMを用いる登録型の音
声認識装置を示すブロック図である。図において、1は
入力音声1001から音声区間2を切り出す音声区間切
出手段、3は音声区間2の音声を分析し特徴パラメータ
の時系列4を出力する音声分析手段、5は登録モードか
認識モードかを選択するモード選択手段、6は特徴パラ
メータの時系列4を学習用サンプルとして格納する学習
用サンプル格納手段、7は学習用サンプルから各単語の
HMMのパラメータを決定するHMM学習手段、8は各
単語のHMMのパラメータを保持するHMM記憶手段で
ある。
【0005】また9は尤度計算手段であり、認識モード
において音声分析手段3から出力された未知の音声の特
徴パラメータの時系列4に対し、HMM記憶手段8に保
持されている各単語のHMMのパラメータに基づき尤度
計算を行う。10は単語決定手段であり、尤度計算手段
9の計算の結果、最大の尤度を示したHMMの単語名を
認識結果1002として出力する。
【0006】次に動作について説明する。登録モードの
場合、モード選択手段5のスイッチは「登録」を選択し
ている。そして登録すべき各単語音声が入力音声100
1として入力され、音声区間切出手段1は、入力音声1
001から、単語のモデルと照合される音声区間2を切
り出す。音声分析手段3は、音声区間2により切り出さ
れた音声区間の音声を分析し、各単語音声に対応する特
徴パラメータの時系列4を出力する。特徴パラメータの
時系列4は、モード選択手段5を経由し学習用サンプル
格納手段6に格納される。
【0007】HMM学習手段7は、学習用サンプル格納
手段6から、各単語の学習用サンプルを選択し、選択さ
れた学習用サンプルから各単語のHMMのパラメータを
決定する。このパラメータには、各単語についての平
均、分散、遷移確率の情報が含まれている。HMM記憶
手段8は、HMM学習手段7が決定した各単語のHMM
のパラメータを保持する。
【0008】一方、認識モードの場合は、モード選択手
段5のスイッチは「認識」を選択している。そして入力
音声1001として入力された未知の単語音声に対し
て、音声区間切出手段1は単語モデルと照合される音声
区間2を出力し、音声分析手段3は音声区間2の音声を
分析し、特徴パラメータの時系列4を出力する。特徴パ
ラメータの時系列4は、モード選択手段5を経由し尤度
計算手段9に入力される。
【0009】尤度計算手段9は、入力音声1001とし
て入力された未知の単語音声に対して、音声分析手段3
より出力された全区間の特徴パラメータ時系列4につい
て、HMM記憶手段8に保持されている各単語のHMM
のパラメータに基づき尤度計算を行う。この計算にあた
っては、各単語のHMMからの尤度を例えばトレリス法
に基づいて計算する。単語決定手段10は、尤度計算手
段9の求めた入力の単語音声に対する各単語尤度を比較
して、最大の尤度を示したHMMの単語名を認識結果1
002として出力する。
【0010】しかし図19のように構成された従来の音
声認識装置は、登録するときの音声と認識するときの音
声とで、背景雑音の変動や入力音声への背景雑音の混入
の程度の相違により、又は発声ごとの音声パワーなどの
揺らぎにより、音声区間切出手段1において、音声の切
出区間のずれが起こり、認識モードにおいて誤認識が生
じ易いという課題があった。
【0011】このような音声区間検出のずれに起因する
誤認識を回避するために、特別の音声切出を行わず、入
力音声中に、認識対象単語を検出するワードスポッティ
ングに基づく音声認識方式が知られている。しかし、任
意の始終端時刻の組み合わせの区間について、入力音声
と単語モデルを照合するワードスポッティングの方法で
は、演算量の増大は避けられない。またスコアの正規化
が難しく、沸き出し誤りを防止しながら、検出率を高め
るためにはスポッティングのための閾値の設定が難しい
という課題があり、認識性能は一般に高くない。このよ
うなワードスポッティングのスコアの正規化の技術とし
て、認識対象単語のモデルのスコアと、未知語や非音声
を包括的に表すガベジモデル(ガーベジモデルまたはバ
ックグラウンドモデルとも呼ばれる)のスコアを用い
て、正規化スコアを求める方法が知られている。
【0012】さらに、このガベジモデルに基づくワード
スポッティング型の音声認識の性能改善に関して、例え
ば特開平6−266386号公報では、認識対象単語の
HMMと未知語や非音声をあらわすガベジHMMの接続
関係を表すオートマトンにより単語系列のワードスポッ
ティングを行う方法が開示されている。ここでは、単語
系列の発声終了である事後確率が、単語系列の発声途中
である事後確率より大きい時刻をもって、単語系列のス
ポッティングを行う方法が提案されている。しかし、こ
れらの方法は、入力音声の任意の区間との照合を行うこ
とによる演算量の多さの課題は解決していない。
【0013】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、例えば特開平7−9
8598号公報に記載された音声認識装置では、登録す
るときの音声と認識するときの音声とで、音声の切出区
間のずれが起こり、誤認識が生じやすいという課題があ
った。また特別の音声切出を行わずに認識するワードス
ポッティングの方法や、特開平6−266386号公報
に記載された音声認識装置では、演算量が増大するとい
う課題があった。
【0014】この発明は上記のような課題を解決するた
めになされたもので、入力音声から切り出された音声区
間全体と、予め登録された単語モデル全体の尤度計算に
より、少ない演算量で入力音声を認識し、かつ音声区間
の切り出しのずれに強い登録型の音声認識装置を得るこ
とを目的とする。
【0015】
【課題を解決するための手段】請求項1記載の発明に係
る音声認識装置は、認識対象となる未知の音声に対応す
る既知の音声から抽出された特徴パラメータの時系列を
学習用サンプルとして格納する学習用サンプル格納手段
と、上記学習用サンプルから各単語のHMMのパラメー
タを決定するHMM学習手段と、上記各単語のHMMの
パラメータを保持するHMM記憶手段と、認識対象とな
る未知の音声から抽出された特徴パラメータの時系列を
入力し、上記HMM記憶手段に保持されている各単語の
HMMのパラメータとの尤度を計算する尤度計算手段と
を備えたものにおいて、上記学習用サンプル格納手段に
格納されている学習用サンプルから各単語のガベジHM
Mのパラメータを決定するガベジHMM学習手段と、上
記HMM記憶手段に保持されている各単語のHMMのパ
ラメータの一部を、上記ガベジHMM学習手段により決
定されたガベジHMMのパラメータと置き換えるHMM
変更手段とを備えたものである。
【0016】請求項2記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のHMMのパラメータを決定するH
MM学習手段と、上記各単語のHMMのパラメータを保
持するHMM記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記H
MM記憶手段に保持されている各単語のHMMのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、上記HMM記憶手段に保持されている各単語の
HMMのパラメータの一部を、共有化するように状態遷
移の構造記述を変更するHMM変更手段を備えたもので
ある。
【0017】請求項3記載の発明に係る音声認識装置
は、HMM変更手段が、HMM記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのHMMのパラメータを、共有化するように状態遷
移の構造記述を変更するものである。
【0018】請求項4記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のHMMのパラメータを決定し、各
単語のHMMのパラメータの一部を共有化するように、
状態遷移の構造記述を変更するHMM学習手段と、上記
HMM学習手段が変更したHMMのパラメータを保持す
るHMM記憶手段と、認識対象となる未知の音声から抽
出された特徴パラメータの時系列を入力し、上記HMM
記憶手段に保持されている各単語のHMMのパラメータ
との尤度を計算する尤度計算手段とを備えたものにおい
て、上記学習用サンプル格納手段に格納されている学習
用サンプルから各単語のガベジHMMのパラメータを決
定するガベジHMM学習手段と、上記HMM記憶手段に
保持されているHMMのパラメータの一部を、上記ガベ
ジHMM学習手段により決定されたガベジHMMのパラ
メータと置き換えるHMM変更手段とを備えたものであ
る。
【0019】請求項5記載の発明に係る音声認識装置
は、HMM学習手段が、各単語のHMMのパラメータの
開始端を共有化するように、状態遷移の構造記述を変更
したとき、HMM変更手段が、HMM記憶手段に保持さ
れているHMMのパラメータの終了端を、ガベジHMM
学習手段により決定されたガベジHMMのパラメータと
置き換え、HMM学習手段が、各単語のHMMのパラメ
ータの終了端を共有化するように、状態遷移の構造記述
を変更したとき、HMM変更手段が、HMM記憶手段に
保持されているHMMのパラメータの開始端を、ガベジ
HMM学習手段により決定されたガベジHMMのパラメ
ータと置き換えるものである。
【0020】請求項6記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のHMMのパラメータを決定するH
MM学習手段と、上記各単語のHMMのパラメータを保
持するHMM記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記H
MM記憶手段に保持されている各単語のHMMのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、典型的な雑音データからガベジHMMのパラメ
ータを決定するガベジHMM学習手段と、上記HMM記
憶手段に保持されている各単語のHMMのパラメータの
一部を、上記ガベジHMM学習手段により決定されたガ
ベジHMMのパラメータと置き換えるHMM変更手段と
を備えたものである。
【0021】請求項7記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のHMMのパラメータを決定するH
MM学習手段と、上記各単語のHMMのパラメータを保
持するHMM記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記H
MM記憶手段に保持されている各単語のHMMのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、上記学習用サンプル格納手段に格納されている
学習用サンプルから第1のガベジHMMのパラメータを
決定するガベジHMM学習手段と、上記ガベジHMM学
習手段により決定された第1のガベジHMMのパラメー
タと、典型的な雑音データから決定された第2のガベジ
HMMのパラメータを合成するガベジHMM合成手段
と、上記HMM記憶手段に保持されている各単語のHM
Mのパラメータの一部を、上記ガベジHMM合成手段に
より合成されたガベジHMMのパラメータと置き換える
HMM変更手段とを備えたものである。
【0022】請求項8記載の発明に係る音声認識装置
は、HMM変更手段が、HMM記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのHMMのパラメータを、各単語に対応するガベジ
HMMのパラメータと置き換えるものである。
【0023】請求項9記載の発明に係る音声認識装置
は、ガベジHMM学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のHMMの状態1から2または状態N−1からNに
かけて構造が共有された部分の状態遷移のパラメータを
それぞれ開始端用または終了端用のガベジHMMのパラ
メータとして決定するものである。
【0024】請求項10記載の発明に係る音声認識装置
は、ガベジHMM学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のHMMの状態1から2にかけて構造が共有された
部分の状態遷移のパラメータを開始端用のガベジHMM
のパラメータとして決定し、各単語のHMMの状態N−
1からNにかけて構造が共有された部分の状態遷移のパ
ラメータを終了端用のガベジHMMのパラメータとして
決定するものである。
【0025】請求項11記載の発明に係る音声認識装置
は、ガベジHMM学習手段が、学習用サンプル格納手段
に格納されている学習用サンプルを一括して学習し、各
単語のHMMの状態1から2にかけて構造が共有された
部分の状態遷移のパラメータ、または各単語のHMMの
状態N−1からNにかけて構造が共有された部分の状態
遷移のパラメータを開始端用及び終了端用のガベジHM
Mのパラメータとして決定するものである。
【0026】請求項12記載の発明に係る音声認識装置
は、認識対象となる未知の音声に対応する既知の音声か
ら抽出された特徴パラメータの時系列を学習用サンプル
として格納する学習用サンプル格納手段と、上記学習用
サンプルから各単語のHMMのパラメータを決定するH
MM学習手段と、上記各単語のHMMのパラメータを保
持するHMM記憶手段と、認識対象となる未知の音声か
ら抽出された特徴パラメータの時系列を入力し、上記H
MM記憶手段に保持されている各単語のHMMのパラメ
ータとの尤度を計算する尤度計算手段とを備えたものに
おいて、典型的な雑音データからガベジHMMのパラメ
ータを決定するガベジHMM学習手段と、上記HMM記
憶手段に保持されている各単語のHMMのパラメータの
状態遷移の一部を、結びの関係とすると共に、上記ガベ
ジHMM学習手段により決定されたガベジHMMのパラ
メータと置き換えるHMM変更手段とを備えたものであ
る。
【0027】請求項13記載の発明に係る音声認識装置
は、HMM変更手段が、HMM記憶手段に保持されてい
る各単語の開始端、終了端または開始端と終了端のいず
れかのHMMのパラメータを、結びの関係とすると共
に、各単語に対応するガベジHMMのパラメータと置き
換えるものである。
【0028】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の構成を示すブロック図である。図におい
て、11はガベジHMMのパラメータを決定するガベジ
HMM学習手段、12は決定されたガベジHMMのパラ
メータを保持するガベジHMM記憶手段、13はHMM
変更手段であり、HMM記憶手段8に保持されている単
語のHMMのパラメータの一部をガベジHMM記憶手段
12に保持されているガベジHMMのパラメータと置き
換える。その他について図19と同一符号のものは、図
19と同等の機能を有する。
【0029】図2は単語のHMMの構成を示す。単語の
HMMは認識対象となる単語の種類がW個あれば、それ
に対応して単語のHMMも全部でW個ある。また図3は
各単語のHMMの構成を示す。図において、番号1,
2,・・・N等は状態番号である。また、b1,b2,
・・・bN−1等は出力確率分布を示す。各単語のHM
Mは、left−to−right型のもので、N個の
状態と2(N−1)個の状態遷移からなる。2(N−
1)個の状態遷移のうちN−1個は自己ループを形成し
ており、ある状態から出ている2個の状態遷移(自己ル
ープと次状態への遷移)は、それぞれ、同一のパラメー
タを備えた出力確率密度関数を共有している。ここで出
力確率密度関数は、混合数Mの混合連続正規分布として
いる。
【0030】次に動作について説明する。まず登録モー
ドにおける処理を説明する。登録モードでは、図1にお
けるモード選択手段5のスイッチが「登録」を選択して
いる。図4は、登録モードにおいて、HMM記憶手段8
に保持する単語のHMMのパラメータを決定するフロー
チャートである。登録モードでは、登録すべき各単語音
声が入力音声1001として入力される。音声区間切出
手段1は、各入力音声1001から、音声区間2を切り
出す。音声分析手段3は、切り出された各音声区間2の
音声を分析し、特徴パラメータの時系列4を出力する。
特徴パラメータの時系列4は、モード選択手段5を経由
し、学習用サンプル格納手段6に入力される。
【0031】図4のステップST101において、学習
用サンプル格納手段6は、各単語音声に対応する特徴パ
ラメータ時系列4を、学習用サンプルとして学習用サン
プル格納手段6に格納する。各単語1からWについて、
この処理を所定数、例えば3回の発声について行い、各
単語について学習用サンプルを3個ずつ収集する。
【0032】ステップST102において、ガベジHM
M学習手段11は、全ての学習用サンプルの開始端及び
終了端の無音区間について、それぞれ所定数、例えば2
5フレームの区間を切り出すことにより、開始端及び終
了端のガベジHMMの学習用データとして、合計W単語
×25フレーム×3サンプル分の特徴パラメータ時系列
を得てガベジHMM記憶手段12に保持する。ガベジH
MMは、音声以外の無音区間(雑音区間)を用いて作成
した確率音響モデルで、開始端用と終了端用の2個があ
り、それぞれ図5の構成を有している。各ガベジHMM
のパラメータは、これらの学習用サンプルを用いて、例
えば上記文献1のBaum−Welch(Forwar
d−Backward)アルゴリズムによって決定され
る。
【0033】次のステップST103〜ST107にお
いて、W個の単語のうち、第w番(w=1,2,3,・
・・W)の単語について、各単語のHMMのパラメータ
が決定される。まずステップST103においてwを1
に設定する。ステップST104において、HMM学習
手段7は、学習用サンプル格納手段6から、第1番の単
語の学習用サンプル3個を選択し、選択された学習用サ
ンプルから、Forward−Backwardアルゴ
リズムによって、第1番の単語のHMMのパラメータを
決定し、HMM記憶手段8に保持する。
【0034】ステップST105において、HMM変更
手段13は、第1番の単語について、第1番の単語のH
MMの状態1と状態1から出発する2個の状態遷移のパ
ラメータを、ガベジHMM記憶手段12に保持されてい
る開始端用のガベジHMMのパラメータで置き換える。
また、第1番の単語のHMMの状態N−1と状態N−1
から出発する2個の状態遷移のパラメータを、ガベジH
MM記憶手段12に保持されている終了端用のガベジH
MMのパラメータで置き換える。HMM記憶手段8は、
このように置き換えられた第1番の単語のHMMのパラ
メータを認識モードで尤度計算に用いるため保持する。
【0035】ステップST106において、W個の全て
の単語について上記処理が完了したかをチェックする。
完了していなければ、ステップST107でwを次の
値、ここでは2にセットし、第2番の単語について、上
記ステップST104,ST105の処理を実施する。
そして上記処理をW個の全ての単語について行い終了す
る。開始端及び終了端のHMMのパラメータをガベジH
MMのパラメータで置き換えた結果を図6に示す。
【0036】次に認識モードにおける処理を説明する。
認識モードでは、図1におけるモード選択手段5のスイ
ッチが「認識」を選択している。認識モードでは、未知
の単語音声を、入力音声1001として入力される。音
声区間切出手段1は、未知の入力音声1001から、音
声区間2を切り出す。音声分析手段3は、音声区間2の
音声を分析し、特徴パラメータの時系列4を出力する。
尤度計算手段9は、特徴パラメータ時系列4の全区間
と、HMM記憶手段8に記憶されている各単語のHMM
のパラメータに基づいて尤度計算を行い、各単語のHM
Mからの尤度を例えば上記文献1の前向きパス(For
ward)アルゴリズムに基づいて計算する。単語決定
手段10は、尤度計算手段9の求めた入力音声1001
に対する各単語尤度を比較して、最大の尤度を示した単
語のHMMの番号を認識結果1002として出力する。
【0037】以上のように、この実施の形態1によれ
ば、認識モードで、音声区間切出手段1が切り出した音
声区間が、登録モードで切り出した音声区間とずれてい
たとしても、HMM記憶手段8に保持されている単語の
開始端及び終了端のHMMのパラメータを、複数回の学
習により決定されたガベジHMMのパラメータで置き換
えているので、尤度計算手段9で誤認識されることが少
なくなり、音声区間検出のずれに強い音声認識装置を実
現できるという効果が得られる。
【0038】上記実施の形態では、HMM記憶手段8に
保持されている単語の開始端及び終了端のHMMのパラ
メータを、ガベジHMMのパラメータで置き換えている
が、HMM記憶手段8に保持されている単語の開始端ま
たは終了端のHMMのパラメータを、対応するガベジH
MMのパラメータで置き換えても同様の効果が得られ
る。
【0039】実施の形態2.図7はこの発明の実施の形
態2による音声認識装置の構成を示すブロック図であ
る。図において、13aはHMM記憶手段8に保持され
ているHMMのパラメータを書き換えるHMM変更手段
である。その他について図1と同一符号のものは、実施
の形態1と同等の機能を有する。
【0040】次に動作について説明する。図8は登録モ
ードにおけるHMM記憶手段8に保持するHMMのパラ
メータを決定するフローチャートである。このフローチ
ャート中で、ステップST101からステップST10
7までの動作は、実施の形態1における図4のステップ
ST101からステップST107までの各ステップか
ら、ステップST102とST105を除いたものとな
る。すなわち図8において、ステップST107までの
処理により、HMM記憶手段8には、図2に示すような
構成のW個の単語のHMMのパラメータが保持されてい
る。
【0041】次に図8のステップST108において、
HMM変更手段13aは、HMM記憶手段8に保持され
ているW個の独立した単語のHMMのパラメータを用い
て、各単語のHMMの状態1から2にかけての共通部分
が共有されるように、状態遷移の構造記述を変更する。
変更した結果を図9に示す。図9において破線は出力確
率密度を持たないナル遷移を表す。この変更は、各単語
の状態1から2にかけての状態遷移を1つのもので代表
させ、さらに、W個のナル遷移を単語数分だけ付け加え
ることで実現できる。ここで、ナル遷移の遷移確率は1
/Wとする。
【0042】なお、認識モードの動作は実施の形態1と
同様に動作するが、HMM記憶手段8に保持されている
HMMのパラメータの状態1から2にかけての部分が共
有されているので、尤度計算における状態1から2にか
けての演算が共通化され、演算回数を減らすことができ
る。
【0043】以上のように、この実施の形態2によれ
ば、尤度計算における演算量を減らすことができるとい
う効果が得られる。
【0044】上記実施の形態では、開始端のHMMのパ
ラメータの構造記述を変更しているが、終了端のHMM
のパラメータの構造記述の変更をしても良く、さらに開
始端及び終了端のHMMのパラメータの構造記述を変更
しても良く、同様の効果が得られる。
【0045】実施の形態3.この発明の実施の形態3に
よる音声認識装置の構成は、図1に示された実施の形態
1と同じである。また実施の形態2では、HMM変更手
段13が、単語のHMMの構成を図2から図9に変更し
ているが、この実施の形態では、HMM学習手段7で学
習されたHMMの構成がすでに図9の構成を有してい
る。
【0046】次に動作について説明する。図10は登録
モードにおけるHMM記憶手段8に保持するHMMのパ
ラメータを決定するフローチャートである。登録モード
では、登録すべき各単語音声が入力音声1001として
入力される。音声区間切出手段1は、各入力音声100
1から、音声区間2を切り出す。音声分析手段3は、各
音声区間2の音声を分析し、特徴パラメータの時系列4
を出力する。
【0047】図10のステップST101において、図
1の学習用サンプル格納手段6は、各単語音声に対応す
る特徴パラメータ時系列4を、学習用サンプルとして学
習用サンプル格納手段6に格納する。各単語1からWに
ついて、この処理を所定数、例えば3回の発声について
行い、各単語について学習用サンプルを3個ずつ収集す
る。
【0048】ステップST102において、ガベジHM
M学習手段11は、全ての学習用サンプルの終了端の無
音区間について、所定数、例えば25フレームの区間を
切り出すことにより、終了端のガベジHMMの学習用デ
ータとして、合計W単語×25フレーム×3サンプル分
の特徴パラメータ時系列を得てガベジHMM記憶手段1
2に保持する。この実施の形態では、学習するガベジH
MMは、終了端用のものだけであり図5の構成を有す
る。終了端用のガベジHMMのパラメータは、これらの
学習用サンプルを用いて、例えば、Baum−Welc
h(Forward−Backward)アルゴリズム
によって決定される。
【0049】ステップST204において、HMM学習
手段7は、学習用サンプル格納手段6から、W個の単語
全ての学習用サンプルを選択し、選択された学習用サン
プルを1つの集合とし、その集合についてForwar
d−Backwardアルゴリズムによって、図9のよ
うに各単語の開始部分を共有化したHMMのパラメータ
を一括して決定する。Forward−Backwar
dアルゴリズムの適用に当たって、その過程でなされる
前向き確率及び後ろ向き確率は、学習用サンプルの単語
の種類に応じたHMMの状態遷移を用いて計算する。
【0050】次にステップST205において、ステッ
プST102で決定されガベジHMM記憶手段12に保
持された終了端用のガベジHMMのパラメータを用い
て、HMMのパラメータの一部を置換する。すなわち、
HMMの枝分かれ後の各単語に対応する状態N−1から
状態Nにかけての状態遷移のパラメータを、終了端用の
ガベジHMMのパラメータで置き換える。置き換えた結
果を図11に示す。HMM記憶手段8は、このように決
定されたHMMのパラメータを認識モードで尤度計算に
用いるため保持する。なお認識モードの動作は実施の形
態1と同様に動作する。
【0051】以上のように、この実施の形態3によれ
ば、尤度計算手段9が行う演算処理が、終了端用のガベ
ジHMMのパラメータで置き換えていることにより音声
区間の切り出しずれに強くなり、各単語のHMMのパラ
メータの開始部分を共有化したことにより少ない演算回
数で済むという効果が得られる。また、HMMのパラメ
ータを推定するときに、開始端の状態遷移のパラメータ
を、学習用サンプルの全てを用いて決定しているため安
定した推定を行うことができるという効果が得られる。
【0052】上記実施の形態では、開始端のHMMのパ
ラメータを一括学習し、終了端のHMMのパラメータを
ガベジHMMで置き換えているが、逆に終了端のHMM
のパラメータを一括学習し、開始端のHMMのパラメー
タをガベジHMMで置き換えても良く、同様の効果が得
られる。
【0053】実施の形態4.図12はこの発明の実施の
形態4による音声認識装置の構成を示すブロック図であ
る。上記の実施の形態1及び実施の形態3では、ガベジ
HMMの学習に用いる学習用サンプルは、収集された学
習用サンプルの開始端または終了端の部分から切り出し
たが、この実施の形態では、ガベジHMM学習手段11
が、別途収集した典型的な雑音サンプル6aから切り出
したものを用いている。その他の構成については図1と
同様である。
【0054】次に動作について説明する。動作を示すフ
ローチャートは、実施の形態1の図4又は実施の形態3
の図10と同じである。図4または図10のステップS
T102において、ガベジHMM学習手段11は、別途
収集した典型的な雑音サンプル6aから切り出し、開始
端及び終了端のガベジHMMのパラメータをガベジHM
M記憶手段12に保持する。HMM記憶手段8に保持さ
れている図2または図9のHMMのパラメータは、開始
端や終了端につき、図6または図11のように、ガベジ
HMM記憶手段12に保持されているガベジHMMのパ
ラメータに置き換えられる。その他の動作については、
実施の形態1または実施の形態3と同様である。
【0055】以上のように、この実施の形態4によれ
ば、実施の形態1または実施の形態3で得られる効果の
他に、音声の登録時には得られなかった雑音環境等、予
見される雑音データの種類を多く具備することで、多様
な雑音の重畳した音声に対処が可能となり、音声認識時
に起こる雑音環境の変化があっても、さらに音声区間検
出のずれに強い音声認識装置を実現できるという効果が
得られる。
【0056】実施の形態5.図13はこの発明の実施の
形態5による音声認識装置を示すブロック図である。図
において、12aはガベジHMM学習手段11により決
定された第1のガベジHMMのパラメータを記憶する第
1のガベジHMM記憶手段、12bは予め想定される典
型的な雑音データから決定した第2のガベジHMMのパ
ラメータを記憶する第2のガベジHMM記憶手段、14
は第1のガベジHMMのパラメータと第2のガベジHM
Mのパラメータとを合成するガベジHMM合成手段であ
る。その他の構成については、図1と同様である。
【0057】次に動作について説明する。図14は登録
モードにおいて、HMM記憶手段8に保持する単語のH
MMのパラメータを決定するフローチャートである。ま
ずステップST101の処理は、実施の形態1における
図4のステップST101の処理と同じである。ステッ
プST102において、ガベジHMM学習手段11は、
各学習用サンプルの開始端および終了端部分から得た学
習データから、ガベジHMMのパラメータを決定し、決
定されたパラメータを第1のガベジHMMのパラメータ
として、第1のガベジHMM記憶手段12aに保持す
る。
【0058】そして、ステップST102aにおいて、
ガベジHMMのパラメータ合成手段14は、第1のガベ
ジHMM記憶手段12aに保持されている登録された音
声の開始端及び終了端の部分から得られる特徴パラメー
タから決定した第1のガベジHMMのパラメータと、第
2のガベジHMM記憶手段12bに保持されている予め
想定される典型的な雑音データから決定した第2のガベ
ジHMMのパラメータを用いて、ガベジHMMのパラメ
ータを合成する。
【0059】パラメータの合成は、例えば第1のガベジ
HMMのパラメータと第2のHMMのパラメータの混合
分布とすることで行うことができる。ここで、それぞれ
のHMMのパラメータの混合分布の各分岐係数の値を、
例えばαを1/2として、α倍と、1−α倍した値に変
更する。
【0060】ステップST103以降の処理は、実施の
形態1における図4のステップST103以降の処理と
同様である。ステップST105において、HMM変更
手段13は、HMM記憶手段8に保持された単語のHM
Mの開始端あるいは終了端の状態遷移のパラメータを、
ガベジHMM合成手段14が合成したHMMのパラメー
タで置き換え、図2で示した単語のHMMの構成を図6
で示した単語の構成に変更する。HMM記憶手段8は、
このように変更された単語のHMMのパラメータを認識
モードで尤度計算に用いるため保持する。認識モードに
おける動作については、実施の形態1と同様である。
【0061】以上のように、この実施の形態5によれ
ば、実施の形態1で得られる効果のほかに、登録環境の
雑音データと、典型的な雑音データの両者を考慮したガ
ベジHMMのパラメータを用いるため、登録環境と類似
の環境でも、また、音声認識時に起こる雑音環境の変化
があっても、なお、音声区間検出のずれに強い音声認識
を実現できるという効果が得られる。
【0062】実施の形態6.この発明の実施の形態6に
よる音声認識装置の構成は、実施の形態1の図1と同じ
である。
【0063】次に動作について説明する。図15は登録
モードにおいて、ガベジHMM記憶手段12に保持する
ガベジHMMのパラメータを決定するフローチャートで
ある。まずステップST101の処理は、実施の形態1
の図4のステップST101と同様であり、ステップ学
習用サンプル格納手段6に、各単語音声に対応する特徴
パラメータ時系列が学習用サンプルとして格納される。
【0064】次にステップST101aにおいて、ガベ
ジHMM学習手段11は、学習用サンプル格納手段6に
格納されている学習用サンプルから開始端のガベジHM
Mのパラメータを決定するため、W個の単語全ての学習
用サンプルを一括して学習用データとして選択し、選択
された学習用サンプルから、Forward−Back
wardアルゴリズムによって、図9の構成のHMMの
パラメータを決定する。Forward−Backwa
rdアルゴリズムの適用に当たって、その過程でなされ
る前向き確率及び後ろ向き確率は、学習用サンプルの単
語の種類に応じた単語のHMMの状態遷移を用いて計算
する。
【0065】一括学習によりHMMのパラメータが決定
された後、ステップST102において、HMMの状態
1から2にかけて構造が共有された部分の状態遷移のパ
ラメータをガベジHMMのパラメータとして決定し、こ
れを開始端用のガベジHMMのパラメータとして、ガベ
ジHMM記憶手段12に保持する。次に図4のステップ
ST103に移り、ステップST107までの処理を行
う。
【0066】以上のように、この実施の形態6によれ
ば、実施の形態1で得られる効果のほかに、全ての学習
用サンプルの開始端付近のデータに基づいて、ガベジH
MMのパラメータを推定するため、個別のサンプルのゆ
らぎが平均化され、安定したガベジHMMのパラメータ
の推定を行うことができるという効果が得られる。
【0067】上記実施の形態では、開始端用のガベジH
MMを一括学習しているが、終了端のガベジHMMを一
括学習しても良く、同様の効果が得られる。
【0068】実施の形態7.この発明の実施の形態7に
よる音声認識装置の構成及びフローチャートは、実施の
形態6と同様に図1及び図15に示される。ただし、図
15のステップST101aの内容が下記のように異な
る。すなわち実施の形態6では、ガベジHMM学習手段
11は図9の構成のHMMのパラメータを決定している
が、実施の形態7では、図16の構成のHMMのパラメ
ータを決定する。
【0069】次に動作について説明する。図15のステ
ップST101aにおいて、ガベジHMM学習手段11
は、学習用サンプル格納手段6に格納されている学習用
サンプルから開始端及び終了端のガベジHMMのパラメ
ータを決定するため、W個の単語全ての学習用サンプル
を一括して学習用データとして選択し、選択された学習
用サンプルから、Forward−Backwardア
ルゴリズムによって、図16の構成のHMMのパラメー
タを決定する。Forward−Backwardアル
ゴリズムの適用に当たって、その過程でなされる前向き
確率及び後ろ向き確率は、学習用サンプルの単語の種類
に応じた単語HMMの状態遷移を用いて計算する。
【0070】一括学習によりHMMのパラメータが決定
された後、ステップST102において、HMMのパラ
メータの状態1から2にかけて構造が共有された部分の
状態遷移のパラメータを決定し、これを開始端用のガベ
ジHMMのパラメータとして、ガベジHMM格納手段1
2に保持する。同様に、HMMのパラメータの状態N−
1からNにかけて構造が共有された部分の状態遷移のパ
ラメータを決定し、これを終了端用のガベジHMMのパ
ラメータとして、ガベジHMM格納手段12に保持す
る。次に図4のステップST103に移り、ステップS
T107までの処理を行う。
【0071】以上のように、この実施の形態7によれ
ば、実施の形態1で得られる効果のほかに、全ての学習
用サンプルの開始端及び終了端付近のデータに基づい
て、ガベジHMMのパラメータを推定するため、個別の
サンプルのゆらぎが平均化され、安定したガベジHMM
のパラメータの推定を行うことができるという効果が得
られる。
【0072】実施の形態8.この発明の実施の形態8に
よる音声認識装置の構成及びフローチャートは、実施の
形態6と同様に図1及び図15に示される。ただし、図
15のステップST101aの内容が下記のように異な
る。すなわち実施の形態6では、ガベジHMM学習手段
11は図9の構成のHMMのパラメータを決定している
が、実施の形態8では、図17の構成のHMMのパラメ
ータを決定する。
【0073】次に動作について説明する。図15のステ
ップST101aにおいて、ガベジHMM学習手段11
は、学習用サンプル格納手段6に格納されている学習用
サンプルから、開始端あるいは終了端のガベジHMMの
パラメータを決定するため、W個の単語全ての学習用サ
ンプルを一括して学習用データとして選択し、選択され
た学習用サンプルから、Forward−Backwa
rdアルゴリズムによって、例えば図17の構成のHM
Mのパラメータを決定する。ここで、このHMMの構成
では、状態1から出発する状態遷移の出力確率密度関数
と状態N−1から出発する状態遷移の出力確率密度関数
は、結びの関係にあり同じパラメータを共有する。図1
7では、状態1及び状態N−1の状態遷移のパラメータ
を開始端のパラメータで共有しているが、終了端のパラ
メータで共有しても良い。Forward−Backw
ardアルゴリズムの適用に当たって、その過程でなさ
れる前向き確率及び後ろ向き確率は、学習用サンプルの
単語の種類に応じた単語HMMの状態遷移を用いて計算
する。
【0074】一括学習によりHMMのパラメータが決定
された後、ステップST102において、HMMの状態
1から2あるいは状態N−1からNにかけて共有された
部分の状態遷移のパラメータを、開始端あるいは終了端
のガベジモデルのパラメータとして決定し、ガベジHM
M記憶手段12に保持する。次に図4のステップST1
03に移り、ステップST107までの処理を行う。
【0075】以上のように、この実施の形態8によれ
ば、実施の形態1で得られる効果のほかに、全ての学習
用サンプルの開始端及び終了端付近のデータに基づい
て、ガベジHMMのパラメータを推定するため、個別の
サンプルのゆらぎが平均化され、安定したガベジHMM
のパラメータの推定を行うことができるという効果が得
られる。また開始端と終了端のHMMのパラメータを結
びの関係となっているため、さらに安定した推定を行う
ことができる。
【0076】実施の形態9.この発明の実施の形態9に
よる音声認識装置の構成は、実施の形態4における図1
2と同じである。
【0077】次に動作について説明する。図18は登録
モードにおいて、HMM記憶手段8に保持するHMMの
パラメータを決定するフローチャートである。まずステ
ップST101,ST103,ST104,ST10
6,ST107の各ステップの処理は、実施の形態2に
おける図8と同一であり、HMM記憶手段には、図2又
は図9の構成の単語のHMMのパラメータが保持されて
いる。
【0078】ステップST102において、ガベジHM
M学習手段11は、別途収集した典型的な雑音サンプル
6aから切り出した開始端及び終了端のガベジHMMの
パラメータをガベジHMM記憶手段12に保持する。そ
してステップST108において、HMM変更手段13
は、HMM記憶手段8に保持されている図2または図9
のHMMのパラメータについて、開始端の状態1から状
態2にかけての状態遷移における出力確率密度関数のパ
ラメータと、終了端の状態N−1から状態Nにかけての
状態遷移における出力確率密度関数のパラメータを結び
の関係とすると共に、その開始端や終了端を、ガベジH
MM記憶手段12に保持されているガベジHMMのパラ
メータと置き換える。
【0079】以上のように、この実施の形態9によれ
ば、実施の形態4で得られる効果のほかに、開始端及び
終了端のHMMのパラメータを結びの関係としているた
め、音声区間の切り出しずれにさらに強い音声認識装置
を実現できるという効果が得られる。
【0080】上記実施の形態では、開始端と終了端のH
MMのパラメータを結びの関係としているが、開始端ま
たは終了端のHMMのパラメータを結びの関係としても
良く、同様の効果が得られる。
【0081】以上の説明では、音声区間切出後に音声分
析を行う構成としたが、音声分析後に得られる特徴パラ
メータに基づいて、音声区間切出を行うような構成とし
ても、本発明は適用可能である。
【0082】
【発明の効果】以上のように、請求項1記載の発明によ
れば、認識モードで切り出した音声区間が、登録モード
で切り出した音声区間とずれていたとしても、単語のH
MMのパラメータの一部を、学習により決定されたガベ
ジHMMのパラメータで置き換えて構成したので、誤認
識されることが少なくなり、音声区間検出のずれに強い
音声認識装置を実現できる効果がある。
【0083】請求項2記載の発明によれば、各単語のH
MMのパラメータの一部を、共有化するように状態遷移
の構造記述を変更して構成したので、尤度計算における
演算量を減らすことができる効果がある。
【0084】請求項3記載の発明によれば、各単語のH
MMのパラメータの開始端、終了端または開始端と終了
端のいずれかを、共有化するように状態遷移の構造記述
を変更して構成したので、尤度計算における演算量を減
らすことができる効果がある。
【0085】請求項4記載の発明によれば、HMMのパ
ラメータの一部を、学習により決定されたガベジHMM
のパラメータで置き換えて構成したので、誤認識される
ことが少なくなり、音声区間検出のずれに強い音声認識
装置を実現できると共に、HMMのパラメータの一部を
共有化したことにより少ない演算回数で済む効果があ
る。
【0086】請求項5記載の発明によれば、HMMのパ
ラメータの開始端を共有化するように、状態遷移の構造
記述を変更したとき、HMMのパラメータの終了端をガ
ベジHMMのパラメータと置き換え、HMMのパラメー
タの終了端を共有化するように、状態遷移の構造記述を
変更したとき、HMMのパラメータの開始端を、ガベジ
HMMのパラメータと置き換えて構成したので、音声区
間検出のずれに強い音声認識装置を実現できると共に、
少ない演算回数で済む効果がある。
【0087】請求項6記載の発明によれば、典型的な雑
音データからガベジHMMのパラメータを決定している
ので、音声の登録時には得られなかった雑音環境等、予
見される雑音データの種類を多く具備するように構成し
たので、多様な雑音の重畳した音声に対処が可能とな
り、音声認識時に起こる雑音環境の変化があっても、音
声区間検出のずれに強い音声認識装置を実現できる効果
がある。
【0088】請求項7記載の発明によれば、登録環境の
雑音データと、典型的な雑音データの両者を考慮したガ
ベジHMMのパラメータを用いる構成としたので、登録
環境と類似の環境でも、また、音声認識時に起こる雑音
環境の変化があっても、なお、音声区間検出のずれに強
い音声認識を実現できる効果がある。
【0089】請求項8記載の発明によれば、各単語の開
始端、終了端または開始端と終了端のいずれかのHMM
のパラメータを、各単語に対応するガベジHMMのパラ
メータと置き換えて構成したので、誤認識されることが
少なくなり、音声区間検出のずれに強い音声認識装置を
実現できる効果がある。
【0090】請求項9記載の発明によれば、学習用サン
プルを一括して学習し、各単語のHMMの状態1から2
または状態N−1からNにかけて構造が共有された部分
の状態遷移のパラメータを開始端用または終了端用のガ
ベジHMMのパラメータとして決定するように構成した
ので、個別のサンプルのゆらぎが平均化され、安定した
ガベジHMMのパラメータの推定を行うことができる効
果がある。
【0091】請求項10記載の発明によれば、各単語の
学習用サンプルを一括して学習し、各単語のHMMの状
態1から2にかけて構造が共有された部分の状態遷移の
パラメータを開始端用のガベジHMMのパラメータとし
て決定し、各単語のHMMの状態N−1からNにかけて
構造が共有された部分の状態遷移のパラメータを終了端
用のガベジHMMのパラメータとして決定するように構
成したので、個別のサンプルのゆらぎが平均化され、安
定したガベジHMMのパラメータの推定を行うことがで
きる効果がある。
【0092】請求項11記載の発明によれば、学習用サ
ンプルを一括して学習し、各単語のHMMの状態1から
2にかけて構造が共有された部分の状態遷移のパラメー
タ、または各単語のHMMの状態N−1からNにかけて
構造が共有された部分の状態遷移のパラメータを開始端
用及び終了端用のガベジHMMのパラメータとして決定
するように構成したので、個別のサンプルのゆらぎが平
均化され、安定したガベジHMMのパラメータの推定を
行うことができる効果がある。
【0093】請求項12記載の発明によれば、典型的な
雑音データからガベジHMMのパラメータを決定してい
るので、音声の登録時には得られなかった雑音環境等、
予見される雑音データの種類を多く具備することで、多
様な雑音の重畳した音声に対処が可能となり、またHM
Mのパラメータの一部を、結びの関係とすると共に、ガ
ベジHMMのパラメータと置き換えて構成したので、音
声区間の切り出しずれに強い音声認識装置を実現できる
効果がある。
【0094】請求項13記載の発明によれば、各単語の
開始端、終了端または開始端と終了端のいずれかのHM
Mのパラメータを、結びの関係とすると共に、ガベジH
MMのパラメータと置き換えて構成したので、音声区間
の切り出しずれに強い音声認識装置を実現できる効果が
ある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1、実施の形態3、実
施の形態6、実施の形態7及び実施の形態8による音声
認識装置の構成を示すブロック図である。
【図2】 HMMの構成を示す図である。
【図3】 単語のHMMの構成を示す図である。
【図4】 この発明の実施の形態1及び実施の形態4に
よる音声認識装置の動作を示すフローチャートである。
【図5】 ガベジHMMの構成を示す図である。
【図6】 この発明の実施の形態1によるHMMの構成
を示す図である。
【図7】 この発明の実施の形態2による音声認識装置
の構成を示すブロック図である。
【図8】 この発明の実施の形態2による音声認識装置
の動作を示すフローチャートである。
【図9】 この発明の実施の形態2によるHMMの構成
を示すブロック図である。
【図10】 この発明の実施の形態3及び実施の形態4
による音声認識装置の動作を示すフローチャートであ
る。
【図11】 この発明の実施の形態3によるHMMの構
成を示す図である。
【図12】 この発明の実施の形態4及び実施の形態9
による音声認識装置の構成を示すブロック図である。
【図13】 この発明の実施の形態5による音声認識装
置の構成を示すブロック図である。
【図14】 この発明の実施の形態5による音声認識装
置の動作を示すフローチャートである。
【図15】 この発明の実施の形態6、実施の形態7及
び実施の形態8による音声認識装置の動作を示すフロー
チャートである。
【図16】 この発明の実施の形態7によるHMMの構
成を示す図である。
【図17】 この発明の実施の形態8によるHMMの構
成を示す図である。
【図18】 この発明の実施の形態9による音声認識装
置の動作を示すフローチャートである。
【図19】 従来の音声認識装置の構成を示すブロック
図である。
【符号の説明】
6 学習用サンプル格納手段、7 HMM学習手段、8
HMM記憶手段、9尤度計算手段、11 ガベジHM
M学習手段、13,13a HMM変更手段、14 ガ
ベジHMM合成手段。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 認識対象となる未知の音声に対応する既
    知の音声から抽出された特徴パラメータの時系列を学習
    用サンプルとして格納する学習用サンプル格納手段と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定するHMM学習手段と、 上記各単語のHMMのパラメータを保持するHMM記憶
    手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 上記学習用サンプル格納手段に格納されている学習用サ
    ンプルから各単語のガベジHMMのパラメータを決定す
    るガベジHMM学習手段と、 上記HMM記憶手段に保持されている各単語のHMMの
    パラメータの一部を、上記ガベジHMM学習手段により
    決定されたガベジHMMのパラメータと置き換えるHM
    M変更手段とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】 認識対象となる未知の音声に対応する既
    知の音声から抽出された特徴パラメータの時系列を学習
    用サンプルとして格納する学習用サンプル格納手段と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定するHMM学習手段と、 上記各単語のHMMのパラメータを保持するHMM記憶
    手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 上記HMM記憶手段に保持されている各単語のHMMの
    パラメータの一部を、共有化するように状態遷移の構造
    記述を変更するHMM変更手段を備えたことを特徴とす
    る音声認識装置。
  3. 【請求項3】 HMM変更手段は、HMM記憶手段に保
    持されている各単語の開始端、終了端または開始端と終
    了端のいずれかのHMMのパラメータを、共有化するよ
    うに状態遷移の構造記述を変更することを特徴とする請
    求項2記載の音声認識装置。
  4. 【請求項4】 認識対象となる未知の音声に対応する既
    知の音声から抽出された特徴パラメータの時系列を学習
    用サンプルとして格納する学習用サンプル格納手段と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定し、各単語のHMMのパラメータの一部を共有化す
    るように、状態遷移の構造記述を変更するHMM学習手
    段と、 上記HMM学習手段が変更したHMMのパラメータを保
    持するHMM記憶手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 上記学習用サンプル格納手段に格納されている学習用サ
    ンプルから各単語のガベジHMMのパラメータを決定す
    るガベジHMM学習手段と、 上記HMM記憶手段に保持されているHMMのパラメー
    タの一部を、上記ガベジHMM学習手段により決定され
    たガベジHMMのパラメータと置き換えるHMM変更手
    段とを備えたことを特徴とする音声認識装置。
  5. 【請求項5】 HMM学習手段が、各単語のHMMのパ
    ラメータの開始端を共有化するように、状態遷移の構造
    記述を変更したとき、HMM変更手段が、HMM記憶手
    段に保持されているHMMのパラメータの終了端を、ガ
    ベジHMM学習手段により決定されたガベジHMMのパ
    ラメータと置き換え、 HMM学習手段が、各単語のHMMのパラメータの終了
    端を共有化するように、状態遷移の構造記述を変更した
    とき、HMM変更手段が、HMM記憶手段に保持されて
    いるHMMのパラメータの開始端を、ガベジHMM学習
    手段により決定されたガベジHMMのパラメータと置き
    換えることを特徴とする請求項4記載の音声認識装置。
  6. 【請求項6】 認識対象となる未知の音声に対応する既
    知の音声から抽出された特徴パラメータの時系列を学習
    用サンプルとして格納する学習用サンプル格納手段と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定するHMM学習手段と、 上記各単語のHMMのパラメータを保持するHMM記憶
    手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 典型的な雑音データからガベジHMMのパラメータを決
    定するガベジHMM学習手段と、 上記HMM記憶手段に保持されている各単語のHMMの
    パラメータの一部を、上記ガベジHMM学習手段により
    決定されたガベジHMMのパラメータと置き換えるHM
    M変更手段とを備えたことを特徴とする音声認識装置。
  7. 【請求項7】 認識対象となる未知の音声に対応する既
    知の音声から抽出された特徴パラメータの時系列を学習
    用サンプルとして格納する学習用サンプル格納手段と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定するHMM学習手段と、 上記各単語のHMMのパラメータを保持するHMM記憶
    手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 上記学習用サンプル格納手段に格納されている学習用サ
    ンプルから第1のガベジHMMのパラメータを決定する
    ガベジHMM学習手段と、 上記ガベジHMM学習手段により決定された第1のガベ
    ジHMMのパラメータと、典型的な雑音データから決定
    された第2のガベジHMMのパラメータを合成するガベ
    ジHMM合成手段と、 上記HMM記憶手段に保持されている各単語のHMMの
    パラメータの一部を、上記ガベジHMM合成手段により
    合成されたガベジHMMのパラメータと置き換えるHM
    M変更手段とを備えたことを特徴とする音声認識装置。
  8. 【請求項8】 HMM変更手段は、HMM記憶手段に保
    持されている各単語の開始端、終了端または開始端と終
    了端のいずれかのHMMのパラメータを、各単語に対応
    するガベジHMMのパラメータと置き換えることを特徴
    とする請求項1、請求項6または請求項7のうちのいず
    れか1項記載の音声認識装置。
  9. 【請求項9】 ガベジHMM学習手段は、学習用サンプ
    ル格納手段に格納されている学習用サンプルを一括して
    学習し、各単語のHMMの状態1から2にまたは状態N
    −1からNにかけて構造が共有された部分の状態遷移の
    パラメータをそれぞれ開始端用または終了端用のガベジ
    HMMのパラメータとして決定することを特徴とする請
    求項1または請求項4記載の音声認識装置。
  10. 【請求項10】 ガベジHMM学習手段は、学習用サン
    プル格納手段に格納されている学習用サンプルを一括し
    て学習し、各単語のHMMの状態1から2にかけて構造
    が共有された部分の状態遷移のパラメータを開始端用の
    ガベジHMMのパラメータとして決定し、各単語のHM
    Mの状態N−1からNにかけて構造が共有された部分の
    状態遷移のパラメータを終了端用のガベジHMMのパラ
    メータとして決定することを特徴とする請求項1または
    請求項4記載の音声認識装置。
  11. 【請求項11】 ガベジHMM学習手段は、学習用サン
    プル格納手段に格納されている学習用サンプルを一括し
    て学習し、各単語のHMMの状態1から2にかけて構造
    が共有された部分の状態遷移のパラメータ、または各単
    語のHMMの状態N−1からNにかけて構造が共有され
    た部分の状態遷移のパラメータを開始端用及び終了端用
    のガベジHMMのパラメータとして決定することを特徴
    とする請求項1または請求項4記載の音声認識装置。
  12. 【請求項12】 認識対象となる未知の音声に対応する
    既知の音声から抽出された特徴パラメータの時系列を学
    習用サンプルとして格納する学習用サンプル格納手段
    と、 上記学習用サンプルから各単語のHMMのパラメータを
    決定するHMM学習手段と、 上記各単語のHMMのパラメータを保持するHMM記憶
    手段と、 認識対象となる未知の音声から抽出された特徴パラメー
    タの時系列を入力し、上記HMM記憶手段に保持されて
    いる各単語のHMMのパラメータとの尤度を計算する尤
    度計算手段とを備えた音声認識装置において、 典型的な雑音データからガベジHMMのパラメータを決
    定するガベジHMM学習手段と、 上記HMM記憶手段に保持されている各単語のHMMの
    パラメータの状態遷移の一部を、結びの関係とすると共
    に、上記ガベジHMM学習手段により決定されたガベジ
    HMMのパラメータと置き換えるHMM変更手段とを備
    えたことを特徴とする音声認識装置。
  13. 【請求項13】 HMM変更手段は、HMM記憶手段に
    保持されている各単語の開始端、終了端または開始端と
    終了端のいずれかのHMMのパラメータを、結びの関係
    とすると共に、各単語に対応するガベジHMMのパラメ
    ータと置き換えることを特徴とする請求項12記載の音
    声認識装置。
JP9167767A 1997-06-24 1997-06-24 音声認識装置 Pending JPH1115492A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9167767A JPH1115492A (ja) 1997-06-24 1997-06-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9167767A JPH1115492A (ja) 1997-06-24 1997-06-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH1115492A true JPH1115492A (ja) 1999-01-22

Family

ID=15855732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9167767A Pending JPH1115492A (ja) 1997-06-24 1997-06-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH1115492A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156992A (ja) * 2000-11-21 2002-05-31 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156992A (ja) * 2000-11-21 2002-05-31 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
EP1505573A1 (en) * 2002-05-10 2005-02-09 Asahi Kasei Kabushiki Kaisha Speech recognition device
EP1505573A4 (en) * 2002-05-10 2005-07-13 Asahi Chemical Ind VOICE RECOGNITION DEVICE
CN1320520C (zh) * 2002-05-10 2007-06-06 旭化成株式会社 语音识别设备和语音识别方法
US7487091B2 (en) 2002-05-10 2009-02-03 Asahi Kasei Kabushiki Kaisha Speech recognition device for recognizing a word sequence using a switching speech model network
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
DE112010006037T5 (de) 2010-11-30 2013-09-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung und Navigationssystem
JP5409931B2 (ja) * 2010-11-30 2014-02-05 三菱電機株式会社 音声認識装置及びナビゲーション装置

Similar Documents

Publication Publication Date Title
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JP3803029B2 (ja) 音声認識装置
US8234112B2 (en) Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method
JP2001092496A (ja) 連続音声認識装置および記録媒体
JP2002215187A (ja) 音声認識方法及びその装置
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JPH1115492A (ja) 音声認識装置
JP3914709B2 (ja) 音声認識方法およびシステム
JP2004046106A (ja) 音声認識装置及び音声認識プログラム
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
EP0987681B1 (en) Speech recognition method and apparatus
JPH11288297A (ja) 音声認識装置
JP2005091504A (ja) 音声認識装置
JPH08328580A (ja) 単語列認識方法及び装置
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JPH0997095A (ja) 音声認識装置
JP4883717B2 (ja) 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP4060015B2 (ja) 音声認識装置,音声認識方法及び音声認識プログラムが記録された記録媒体
JP3575904B2 (ja) 連続音声認識方式及び標準パタン訓練方式
JP3144341B2 (ja) 音声認識装置
KR19990061558A (ko) 화자 종속/독립 음성 인식 장치
JP4297349B2 (ja) 音声認識システム
JPH1185189A (ja) 音声認識装置