JPH08248985A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JPH08248985A
JPH08248985A JP7052165A JP5216595A JPH08248985A JP H08248985 A JPH08248985 A JP H08248985A JP 7052165 A JP7052165 A JP 7052165A JP 5216595 A JP5216595 A JP 5216595A JP H08248985 A JPH08248985 A JP H08248985A
Authority
JP
Japan
Prior art keywords
probability
vector
output
sample
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7052165A
Other languages
English (en)
Inventor
Seiichi Nakagawa
聖一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7052165A priority Critical patent/JPH08248985A/ja
Publication of JPH08248985A publication Critical patent/JPH08248985A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声認識の計算量を削減する。 【構成】 標本音声を時分割して生成した標本ベクトル
と、標本ベクトルの隠れマルコフモデルの状態遷移毎の
出力確率とを、予め用意しておく。入力音声から入力ベ
クトルを生成し、この入力ベクトルに近い標本ベクトル
を選出し、この標本ベクトルに対応する出力確率を読み
出す。この出力確率に従って隠れマルコフモデルの出力
確率を計算することで、入力ベクトルから状態遷移毎の
出力確率を計算することを省略する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、隠れマルコフモデルに
よる音声認識装置及び方法に関する。
【0002】
【従来の技術】音声認識装置は、話者の発声が音声入力
されると、この入力音声を単語や音節などとして認識す
る。このような音声認識装置には各種方式が提案されて
いるが、その一つとして隠れマルコフモデルであるHM
M(Hidden Marcov Model)を利用した装置が提案されて
いる。
【0003】この場合、状態遷移毎に出力確率が設定さ
れた隠れマルコフモデルを、多数の標準音声の各々に予
め設定しておく。入力音声に従って多数のHMMの出力
確率を各々計算する。
【0004】より具体的には、入力音声のHMMの出力
確率を計算する場合、HMMには複数の状態が予め設定
されているので、これらの状態の遷移毎に出力確率を順
次計算する。例えば、入力音声を時分割して入力ベクト
ル“x”が順次生成されるならば、この入力ベクトル
“x”によりHMMの状態が“i”から“j”に遷移す
る場合、その出力確率“bij(x)”は、以下の数式に
より計算される。
【0005】
【数1】
【0006】上記数式において、“λij”は分岐確率で
あり、“λijm ”はm番目の分布の出現確率である。
“bij”は出力確率密度であり、“bijm ”はm番目の
確率密度分布を示し、通常はガウス分布として仮定され
る。“μ”は平均ベクトルであり、標本音声を所定のフ
レームで時分割してからベクトル化した標本ベクトルに
相当する。
【0007】
【発明が解決しようとする課題】上述のようにHMMの
出力確率を計算することにより、入力音声を多数の標本
音声の一つとして認識することができる。
【0008】しかし、このような音声認識では、HMM
の出力確率の計算量は、HMMの個数とHMMの状態数
と状態内の混合分布数とに比例するが、この計算量が多
大であるため、処理速度の向上が困難である。特に、混
合連続出力型HMMや、共分散行列に全共分散行列を利
用する場合は、出力確率の計算量が膨大である。そこ
で、HMMの出力確率の計算量を削減するため、各種の
方法が提案されている。
【0009】例えば、Bocchieri などが提案した方法で
は、連続HMMで利用される混合ガウス分布の平均ベク
トルを予めベクトル量子化しておき、入力音声から生成
した入力ベクトルと量子化ベクトルとの距離情報を求め
る。この距離情報により混合ガウス分布のクラスタを予
備選択し、このクラスタの選択に基づいて出力確率を計
算している(Vector quantazation for the efficient c
omputation of continuous Density likehoods,ICASSP
−93,II,P692〜P695,1993,Bocchieri)。
【0010】また、渡辺などが提案した方法では、ガウ
ス分布のクラスタの予備選択と、混合ガウス分布の出力
確率の計算とに、木構造を導入している(木構造確率分
布を用いた音声認識,日本音響学会講演論文集, 1-8-
7, 1993.10,渡辺,篠田,高木,山田,服部,磯)。
【0011】さらに、小森などが提案した方法では、認
識に貢献度の高そうなHMMの状態を少数分布のHMM
を利用して予備選択し、多数分布の出力確率を再計算す
る(少数分布HMMによる出力確率推定に基づいた効率
的な混合連続分布HMM音声認識,電子情報通信学会,
SP94-52, 1994.10,小森,山田,山本,大洞)。
【0012】上述のような各種方法では、何れも実際に
計算する総分布数を削減しているが、未だ充分ではな
く、さらに計算量を削減する方法が要望されている。
【0013】
【課題を解決するための手段】請求項1記載の発明は、
状態遷移毎に出力確率が設定されたHMMを多数の標準
音声の各々に対応させて形成し、入力音声に従って状態
遷移毎の出力確率を順次計算してHMMの出力確率を計
算する音声認識装置において、予め標本音声を時分割し
て生成した標本ベクトルが格納されたベクトル記憶手段
を設け、予め状態遷移毎の出力確率が標本ベクトルに対
応して格納された確率記憶手段を設け、入力音声を時分
割して入力ベクトルを順次生成するベクトル生成手段を
設け、生成される入力ベクトルに近い標本ベクトルを前
記ベクトル記憶手段から選出するベクトル選出手段を設
け、選出された標本ベクトルに対応する複数の出力確率
を前記確率記憶手段から読み出す確率読出手段を設け、
読み出された出力確率によりHMMの出力確率を計算す
る確率計算手段を設けた。
【0014】請求項2記載の発明は、状態遷移毎に出力
確率が設定されたHMMを多数の標準音声の各々に対応
させて形成し、入力音声に従って状態遷移毎の出力確率
を順次計算してHMMの出力確率を計算する音声認識装
置において、予め標本音声を時分割して生成した標本ベ
クトルが格納されたベクトル記憶手段を設け、予め状態
遷移毎の出力確率が標本ベクトルに対応して格納された
確率記憶手段を設け、入力音声を時分割して入力ベクト
ルを順次生成するベクトル生成手段を設け、生成される
入力ベクトルに近い標本ベクトルを前記ベクトル記憶手
段から選出するベクトル選出手段を設け、選出された標
本ベクトルに対応する複数の出力確率を前記確率記憶手
段から読み出す確率読出手段を設け、読み出される複数
の出力確率から上位候補を選出する確率選出手段を設
け、上位候補として選出された出力確率に対して入力ベ
クトルから出力確率を再計算する確率再計算手段を設
け、再計算された出力確率と読み出された他の出力確率
とによりHMMの出力確率を計算する確率計算手段を設
けた。
【0015】請求項3記載の発明は、請求項1又は2記
載の発明において、ベクトル選出手段が標本ベクトルを
選出する個数を複数に設定し、確率読出手段が読み出す
複数の出力確率を対応する複数の標本ベクトルの重み付
き内挿により統合する確率補正手段を設けた。
【0016】請求項4記載の発明は、状態遷移毎に出力
確率が設定されたHMMを多数の標準音声の各々に対応
させて形成し、入力音声に従って状態遷移毎の出力確率
を順次計算してHMMの出力確率を計算する音声認識方
法において、標本音声を時分割して生成した標本ベクト
ルが格納されたベクトル記憶手段と、状態遷移毎の出力
確率が標本ベクトルに対応して格納された確率記憶手段
とを、予め形成しておき、入力音声をベクトル生成手段
により時分割して入力ベクトルを順次生成し、生成され
る入力ベクトルに近い標本ベクトルをベクトル選出手段
により前記ベクトル記憶手段から選出し、選出された標
本ベクトルに対応する複数の出力確率を確率読出手段に
より前記確率記憶手段から読み出し、読み出された出力
確率により確率計算手段でHMMの出力確率を計算する
ようにした。
【0017】請求項5記載の発明は、状態遷移毎に出力
確率が設定されたHMMを多数の標準音声の各々に対応
させて形成し、入力音声に従って状態遷移毎の出力確率
を順次計算してHMMの出力確率を計算するにおいて、
標本音声を時分割して生成した標本ベクトルが格納され
たベクトル記憶手段と、状態遷移毎の出力確率が標本ベ
クトルに対応して格納された確率記憶手段とを、予め形
成しておき、入力音声をベクトル生成手段により時分割
して入力ベクトルを順次生成し、生成される入力ベクト
ルに近い標本ベクトルをベクトル選出手段により前記ベ
クトル記憶手段から選出し、選出された標本ベクトルに
対応する複数の出力確率を確率読出手段により前記確率
記憶手段から読み出し、読み出される複数の出力確率か
ら確率選出手段により上位候補を選出し、上位候補とし
て選出された出力確率に対して確率再計算手段により入
力ベクトルから出力確率を再計算し、再計算された出力
確率と読み出された他の出力確率とにより確率計算手段
でHMMの出力確率を計算するようにした。
【0018】請求項6記載の発明は、請求項4又は5記
載の発明において、ベクトル選出手段が複数の標本ベク
トルを選出し、確率読出手段が読み出す複数の出力確率
を確率補正手段が対応する複数の標本ベクトルの重み付
き内挿により統合するようにした。
【0019】
【作用】請求項1及び4記載の発明では、標本音声を時
分割して生成した標本ベクトルが格納されたベクトル記
憶手段と、状態遷移毎の出力確率が標本ベクトルに対応
して格納された確率記憶手段とを、予め形成しておく。
入力音声をベクトル生成手段により時分割して入力ベク
トルを順次生成し、生成される入力ベクトルに近い標本
ベクトルをベクトル選出手段によりベクトル記憶手段か
ら選出する。選出された標本ベクトルに対応する複数の
出力確率を確率読出手段により確率記憶手段から読み出
し、読み出された出力確率により確率計算手段でHMM
の出力確率を計算する。従って、HMMの出力確率を計
算する際、入力ベクトルから出力確率を計算しないの
で、全体の計算量が少ない。
【0020】請求項2及び5記載の発明では、標本音声
を時分割して生成した標本ベクトルが格納されたベクト
ル記憶手段と、状態遷移毎の出力確率が標本ベクトルに
対応して格納された確率記憶手段とを、予め形成してお
く。入力音声をベクトル生成手段により時分割して入力
ベクトルを順次生成し、生成される入力ベクトルに近い
標本ベクトルをベクトル選出手段によりベクトル記憶手
段から選出する。選出された標本ベクトルに対応する複
数の出力確率を確率読出手段により確率記憶手段から読
み出し、読み出される複数の出力確率から確率選出手段
により上位候補を選出する。上位候補として選出された
出力確率に対し、確率再計算手段により入力ベクトルか
ら出力確率を再計算し、再計算された出力確率と読み出
された他の出力確率とにより確率計算手段でHMMの出
力確率を計算する。従って、HMMの出力確率を計算す
る際、一部の入力ベクトルのみから出力確率を計算する
ので、全体の計算量が少ない。
【0021】請求項3及び6記載の発明では、ベクトル
選出手段が複数の標本ベクトルを選出し、確率読出手段
が読み出す複数の出力確率を確率補正手段が対応する複
数の標本ベクトルの重み付き内挿により統合する。従っ
て、入力ベクトルに一致する標本ベクトルを擬似的に出
力することができ、この標本ベクトルの出力確率も重み
付き内挿により擬似的に出力することができる。
【0022】
【実施例】本発明の一実施例を図面に基づいて以下に説
明する。まず、本実施例の音声認識装置1は、図2に示
すように、マイクロフォンなどからなる音声入力部2を
有しており、この音声入力部2には、CPU(Central P
rocessing Unit)などからなるデータ処理部3が接続さ
れている。このデータ処理部3は、ベクトル生成手段で
あるベクトル計算部4と、ベクトル選出手段であるコー
ド選択部5と、確率読出手段であり確率計算手段でもあ
る確率計算部6とからなる。前記音声入力部2は前記ベ
クトル計算部4に接続されており、このベクトル計算部
4と前記コード選択部5と前記確率計算部6とは順次接
続されている。
【0023】前記データ処理部3には、RAM(Random
Access Memory)などからなるデータ記憶部7が接続され
ており、このデータ記憶部7は、ベクトル記憶手段であ
るコードブック8と確率記憶手段である確率記憶部9と
を有している。前記コードブック8は、前記コード選択
部5に接続されており、前記確率記憶部9は、前記確率
計算部6に接続されている。前記データ処理部3の確率
計算部6には、ディスプレイなどからなる結果出力部1
0が接続されている。
【0024】本実施例の音声認識装置1は、詳細には後
述するように、前記確率計算部6においてHMMの出力
確率を計算するが、日本語の音節を標準音声として認識
するため、“Left to Right ”の連続HMMが、 113音
節毎に5状態により形成されている。
【0025】そして、前記コードブック8には、標本音
声を所定フレームに時分割して生成した標本ベクトルと
して、日本音響学界連続音声データベースの音声データ
からLBGアルゴリズムにより生成した 256個のコード
ベクトル“y1 〜y256 ”が、識別子であるラベル“0
〜255 ”と共に予め格納されている。
【0026】前記確率記憶部9には、HMMの状態遷移
毎の出力確率“bij”が、ラベル毎に格納されているの
で、これらの出力確率“bij”はラベルを介してコード
ベクトル“y”に対応している。コードベクトル“y”
は 256個、HMMは 113個、分布(状態遷移)は4個で
あるので、図1に示すように、出力確率“bij”の総数
は、115712個(= 256× 113×4)であり、1個のコー
ドベクトル“y”に 452個(= 113×4)の出力確率
“bij”が対応している。
【0027】このような構成において、本実施例の音声
認識装置1では、話者が音声入力部2に対して日本語を
発声すると、この入力音声がHMM法により日本語の音
節として認識され、この認識結果が結果出力部10に出
力される。このような音声認識装置1の音声認識方法
を、図1及び図3に基づいて以下に順次詳述する。
【0028】まず、音声入力部2に音声が入力される
と、ベクトル計算部4は、入力音声を所定フレームに時
分割して入力ベクトル“xn ”を順次生成する。なお、
この入力ベクトル“xn ”の“n”はフレームの番号で
ある。
【0029】つぎに、コード選択部5は、コードブック
8に格納された 256個のコードベクトル“y1 〜y
256 ”の全部と入力ベクトル“xn ”とのユークリッド
距離“d1 〜d256 ”を計算し、このユークリッド距離
“d”が最小の一つのコードベクトル“yf ”を選出す
る。このコードベクトル“yf ”は、入力ベクトル“x
n”に最も近い1個であるので、そのラベル“f”を確
率計算部6に出力する。
【0030】そこで、確率計算部6は、ラベル“f”に
対応する 452個の出力確率“bij”を確率記憶部9から
読み出し、この読み出された出力確率“bij”により 1
13個のHMMの出力確率を計算することにより、このH
MMの音節として入力音声が認識される。このような音
節の認識が連続的に実行されることにより、連続HMM
により入力音声が認識され、これが認識結果として結果
出力部10に出力される。
【0031】つまり、本実施例の音声認識装置1の音声
認識方法では、HMMの状態遷移毎の出力確率を予め計
算してコードベクトル毎に確率記憶部9に格納してお
き、入力音声に最も近いコードベクトルに対応して確率
記憶部9から出力確率を読み出し、この読み出した出力
確率によりHMMの出力確率を計算する。このため、H
MMの出力確率を計算する際、状態遷移毎の出力確率を
入力ベクトルから計算する必要がないので、全体の計算
量が極めて少なく処理速度が高速である。
【0032】なお、本実施例の音声認識装置1の音声認
識方法では、上述のように確率記憶部9から読み出した
出力確率によりHMMの出力確率を計算することを例示
したが、本発明は上記実施例に限定されるものではな
い。
【0033】例えば、確率計算部6に、確率選出手段と
確率再計算手段と確率計算手段とを実現し、図4に示す
ように、確率記憶部9から読み出される 452個の出力確
率から上位 160個を確率選出手段により上位候補として
選出する。この上位候補として選出された出力確率に対
しては、確率再計算手段により従来と同様に入力ベクト
ルから出力確率を再計算し、この再計算された出力確率
と読み出された他の出力確率とにより、確率計算手段で
HMMの出力確率を計算する。なお、上位候補として選
出されない 292個の出力確率は、そのままHMMの出力
確率を計算する。
【0034】この場合は、入力音声と一致する確率が高
いHMMのみ、入力ベクトルから出力確率を計算するの
で、全体の計算量が少なく、認識精度が良好である。な
お、ここでは入力音声と一致する確率が低いHMMに対
しては、確率記憶部9から読み出した出力確率によりH
MMの出力確率を計算することにより、計算量を低く維
持しながらも、認識精度を向上させているが、例えば、
このようなHMMに対する計算は中止することにより、
より計算量を削減することも可能である。
【0035】さらに、本実施例の音声認識装置1の音声
認識方法では、コードブック8に格納された256個のコ
ードベクトル“y1 〜y256 ”から入力ベクトル“x
n ”に最も近い1個を選出し、この1個のコードベクト
ル“yf ”に対応した 452個の出力確率“bij”を確率
記憶部9から読み出すことを例示したが、本発明は上記
実施例に限定されるものでもない。
【0036】例えば、コード選択部5がコードベクトル
“yf ,yg ”を選出する個数を2個に設定しておき、
確率計算部6が読み出す“2×452 ”個の出力確率“b
ij(yf),bij(yg)”を、2個のコードベクトル“y
f ,yg ”の重み付き内挿により、確率補正手段で“b
ij(y)”として統合することも可能である。つまり、
入力ベクトル“xn ”とコードベクトル“yf ”とのユ
ークリッド距離が“df ”、入力ベクトル“xn ”とコ
ードベクトル“yg ”とのユークリッド距離が“dg
ならば、これらのユークリッド距離の比率を重みとして
“2×452 ”個の出力確率“bij(yf),bij(yg)”
を内挿することにより、下記の数式のように、“452 ”
個の出力確率“bij(y)を算出することができる。
【0037】
【数2】
【0038】この場合、入力ベクトル“x”に一致する
コードベクトル“y”がコードブック8に存在しなくと
も、入力ベクトル“x”に一致するコードベクトル
“y”を擬似的に出力することになる。そして、このコ
ードベクトル“y”の出力確率“bij(y)も重み付き
内挿により擬似的に出力できるので、コードベクトル
“y”が少数でも良好な音声認識を実現することができ
る。
【0039】また、本実施例の音声認識装置1では、ベ
クトル記憶手段をコードブック8とし、ここに格納する
標本ベクトルをコードベクトルとすることを例示した
が、本発明は上記実施例に限定されるものでもなく、H
MMの出力確率分布の平均ベクトルを標本ベクトルとす
ることも可能である。この場合、詳細には後述するよう
に、認識精度が低下する場合があるが、標本ベクトルを
新規に作成する必要がないので、音声認識装置1の実現
が容易となる。
【0040】ここで、本実施例の音声認識装置1の試作
品による実験結果を以下に説明する。まず、日本語の 1
13音節に対し、HMMを“Left to Right ”の連続出力
分布型として5状態4分布に設定した。このHMMは、
全共分散行列を用いた10次元の正規分布(混合分布数は
1)で出力確率分布を表す。
【0041】また、コードブック8としては、三種類を
用意した。まず、第一のコードブックには、日本音響学
界連続音声データベースの30名の男性話者の音声データ
から、LBGアルゴリズムにより生成した 256個のコー
ドベクトルを格納した。この時、合計で約 100万フレー
ムを使用した。第二のコードブックには、同様にして51
2個のコードベクトルを格納し、第三のコードブックに
は、HMMの出力確率分布の 452個の平均ベクトルを格
納した。なお、このようなものは一般的にはコードブッ
クと呼称しないが、ここでは簡単のためにコードブック
と呼称する。
【0042】さらに、この音声認識装置1の分析条件
を、 サンプリング周波数 12(kHz) フレームシフト 8.7(ms) ハミング窓長 23.22(ms) プリエンファシス 1-z~1 分析 14次LPC分析 特徴パラメータ 10次LPCメルケプストラム係数 として設定した。
【0043】そして、このような音声認識装置1で認識
する入力音声を、東北大−松下技研の単語音声データベ
ースの男性話者15名の各 205単語とした。まず、入力音
声に対応してHMMの状態遷移毎の出力確率を全部計算
する従来方式では、認識率が92.6(%)となった。
【0044】一方、入力音声に対応してコードブックか
ら読み出したベクトルによりHMMを計算する音声認識
方法において、 256個のコードベクトルを格納した第一
のコードブックを使用したところ、その認識率は 85.7
(%)となった。同様に、 512個のコードベクトルを格
納した第二のコードブックを使用した場合の認識率は 8
7.0(%)、 452個の平均ベクトルを格納した第三のコー
ドブックを使用した場合の認識率は 53.9(%)となっ
た。
【0045】つぎに、コードブックから読み出したベク
トルから 160個の上位候補を選出し、この上位候補のみ
出力確率を入力ベクトルから再計算する音声認識方法を
実行した。すると、第一のコードブックを使用した場合
の認識率は 91.8(%)、第二のコードブックを使用した
場合の認識率は 92.3(%)、第三のコードブックを使用
した場合の認識率は 90.8(%)となった。この場合、処
理時間は従来方式が1秒強であるのに対し、本案方式で
は 0.5秒強となった。
【0046】つまり、本案の音声認識装置1の音声認識
方法では、従来方式と同等の認識率を実現しながらも、
従来方式より極めて短時間に処理を完了できることが、
実証された。なお、図5及び図6に示すように、再計算
個数を増加させると、本案方式の認識率は従来方式に漸
近的に近接するが、処理時間は再計算個数に略線形に比
例するので、再計算個数は必要最小限とすることが好ま
しい。
【0047】また、このように再計算個数を“0”から
順次増加させると、認識率は一度低下してから上昇する
ことが判明した。この原因としては、コードベクトルを
生ベクトルの全体の平均で計算したために特徴を損失し
たことと、ベクトル量子化による誤差が大きいこととが
考えられる。このようなことを解消するため、生ベクト
ルから 512個の代表ベクトルを選出し、これをコードブ
ックに設定して音声認識を実験したところ、図5に示す
ように、認識率の向上が認められた。
【0048】さらに、代表ベクトルを 256個とし、入力
ベクトルに近い2個の代表ベクトルを選出し、これら2
個の代表ベクトルの重み付き内挿により出力確率を統合
することも実験した。すると、認識率は再計算が70個の
場合で 90.8(%)、再計算が120個の場合で 92.3(%)
となり、重み付き内挿により標本ベクトルが少数でも良
好な音声認識が実現できることが実証された。
【0049】
【発明の効果】請求項1及び4記載の発明は、標本音声
を時分割して生成した標本ベクトルが格納されたベクト
ル記憶手段と、状態遷移毎の出力確率が標本ベクトルに
対応して格納された確率記憶手段とを、予め形成してお
き、入力音声をベクトル生成手段により時分割して入力
ベクトルを順次生成し、生成される入力ベクトルに近い
標本ベクトルをベクトル選出手段によりベクトル記憶手
段から選出し、選出された標本ベクトルに対応する複数
の出力確率を確率読出手段により確率記憶手段から読み
出し、読み出された出力確率により確率計算手段により
HMMの出力確率を計算することにより、HMMの出力
確率を計算する際、入力ベクトルから出力確率を計算し
ないので、全体の計算量を削減することができ、音声認
識の処理速度を向上させることができる。
【0050】請求項2及び5記載の発明は、標本音声を
時分割して生成した標本ベクトルが格納されたベクトル
記憶手段と、状態遷移毎の出力確率が標本ベクトルに対
応して格納された確率記憶手段とを、予め形成してお
き、入力音声をベクトル生成手段により時分割して入力
ベクトルを順次生成し、生成される入力ベクトルに近い
標本ベクトルをベクトル選出手段によりベクトル記憶手
段から選出し、選出された標本ベクトルに対応する複数
の出力確率を確率読出手段により確率記憶手段から読み
出し、読み出される複数の出力確率から確率選出手段に
より上位候補を選出し、上位候補として選出された出力
確率に対して確率再計算手段により入力ベクトルから出
力確率を再計算し、再計算された出力確率と読み出され
た他の出力確率とにより確率計算手段によりHMMの出
力確率を計算することにより、このようにHMMの出力
確率を計算する際、一部の入力ベクトルのみから出力確
率を計算するので、全体の計算量を削減することがで
き、音声認識の処理速度を向上させることができる。
【0051】請求項3及び6記載の発明は、ベクトル選
出手段が複数の標本ベクトルを選出し、確率読出手段が
読み出す複数の出力確率を確率補正手段が対応する複数
の標本ベクトルの重み付き内挿により統合することによ
り、入力ベクトルに一致する標本ベクトルを擬似的に出
力することができ、この標本ベクトルの出力確率も重み
付き内挿により擬似的に出力することができるので、標
本ベクトルが少数でも入力音声の認識精度が良好であ
る。
【図面の簡単な説明】
【図1】本発明の一実施例の音声認識装置の音声認識方
法を示す模式図である。
【図2】音声認識装置を示すブロック図である。
【図3】第一の音声認識方法を示すフローチャートであ
る。
【図4】第二の音声認識方法を示すフローチャートであ
る。
【図5】音声認識装置の試作品における再計算個数と認
識率との関係を示す特性図である。
【図6】音声認識装置の試作品における再計算個数と処
理時間との関係を示す特性図である。
【符号の説明】
1 音声認識装置 4 ベクトル生成手段 5 ベクトル選出手段 8 ベクトル記憶手段 9 確率記憶手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 状態遷移毎に出力確率が設定された隠れ
    マルコフモデルを多数の標準音声の各々に対応させて形
    成し、入力音声に従って状態遷移毎の出力確率を順次計
    算して隠れマルコフモデルの出力確率を計算する音声認
    識装置において、 予め標本音声を時分割して生成した標本ベクトルが格納
    されたベクトル記憶手段を設け、予め状態遷移毎の出力
    確率が標本ベクトルに対応して格納された確率記憶手段
    を設け、入力音声を時分割して入力ベクトルを順次生成
    するベクトル生成手段を設け、生成される入力ベクトル
    に近い標本ベクトルを前記ベクトル記憶手段から選出す
    るベクトル選出手段を設け、選出された標本ベクトルに
    対応する複数の出力確率を前記確率記憶手段から読み出
    す確率読出手段を設け、読み出された出力確率により隠
    れマルコフモデルの出力確率を計算する確率計算手段を
    設けたことを特徴とする音声認識装置。
  2. 【請求項2】 状態遷移毎に出力確率が設定された隠れ
    マルコフモデルを多数の標準音声の各々に対応させて形
    成し、入力音声に従って状態遷移毎の出力確率を順次計
    算して隠れマルコフモデルの出力確率を計算する音声認
    識装置において、 予め標本音声を時分割して生成した標本ベクトルが格納
    されたベクトル記憶手段を設け、予め状態遷移毎の出力
    確率が標本ベクトルに対応して格納された確率記憶手段
    を設け、入力音声を時分割して入力ベクトルを順次生成
    するベクトル生成手段を設け、生成される入力ベクトル
    に近い標本ベクトルを前記ベクトル記憶手段から選出す
    るベクトル選出手段を設け、選出された標本ベクトルに
    対応する複数の出力確率を前記確率記憶手段から読み出
    す確率読出手段を設け、読み出される複数の出力確率か
    ら上位候補を選出する確率選出手段を設け、上位候補と
    して選出された出力確率に対して入力ベクトルから出力
    確率を再計算する確率再計算手段を設け、再計算された
    出力確率と読み出された他の出力確率とにより隠れマル
    コフモデルの出力確率を計算する確率計算手段を設けた
    ことを特徴とする音声認識装置。
  3. 【請求項3】 ベクトル選出手段が標本ベクトルを選出
    する個数を複数に設定し、確率読出手段が読み出す複数
    の出力確率を対応する複数の標本ベクトルの重み付き内
    挿により統合する確率補正手段を設けたことを特徴とす
    る請求項1又は2記載の音声認識装置。
  4. 【請求項4】 状態遷移毎に出力確率が設定された隠れ
    マルコフモデルを多数の標準音声の各々に対応させて形
    成し、入力音声に従って状態遷移毎の出力確率を順次計
    算して隠れマルコフモデルの出力確率を計算する音声認
    識方法において、 標本音声を時分割して生成した標本ベクトルが格納され
    たベクトル記憶手段と、状態遷移毎の出力確率が標本ベ
    クトルに対応して格納された確率記憶手段とを、予め形
    成しておき、入力音声をベクトル生成手段により時分割
    して入力ベクトルを順次生成し、生成される入力ベクト
    ルに近い標本ベクトルをベクトル選出手段により前記ベ
    クトル記憶手段から選出し、選出された標本ベクトルに
    対応する複数の出力確率を確率読出手段により前記確率
    記憶手段から読み出し、読み出された出力確率により確
    率計算手段で隠れマルコフモデルの出力確率を計算する
    ようにしたことを特徴とする音声認識方法。
  5. 【請求項5】 状態遷移毎に出力確率が設定された隠れ
    マルコフモデルを多数の標準音声の各々に対応させて形
    成し、入力音声に従って状態遷移毎の出力確率を順次計
    算して隠れマルコフモデルの出力確率を計算する音声認
    識方法において、 標本音声を時分割して生成した標本ベクトルが格納され
    たベクトル記憶手段と、状態遷移毎の出力確率が標本ベ
    クトルに対応して格納された確率記憶手段とを、予め形
    成しておき、入力音声をベクトル生成手段により時分割
    して入力ベクトルを順次生成し、生成される入力ベクト
    ルに近い標本ベクトルをベクトル選出手段により前記ベ
    クトル記憶手段から選出し、選出された標本ベクトルに
    対応する複数の出力確率を確率読出手段により前記確率
    記憶手段から読み出し、読み出される複数の出力確率か
    ら確率選出手段により上位候補を選出し、上位候補とし
    て選出された出力確率に対して確率再計算手段により入
    力ベクトルから出力確率を再計算し、再計算された出力
    確率と読み出された他の出力確率とにより確率計算手段
    で隠れマルコフモデルの出力確率を計算するようにした
    ことを特徴とする音声認識方法。
  6. 【請求項6】 ベクトル選出手段が複数の標本ベクトル
    を選出し、確率読出手段が読み出す複数の出力確率を確
    率補正手段が対応する複数の標本ベクトルの重み付き内
    挿により統合するようにしたことを特徴とする請求項4
    又は5記載の音声認識方法。
JP7052165A 1995-03-13 1995-03-13 音声認識装置及び方法 Pending JPH08248985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7052165A JPH08248985A (ja) 1995-03-13 1995-03-13 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7052165A JPH08248985A (ja) 1995-03-13 1995-03-13 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JPH08248985A true JPH08248985A (ja) 1996-09-27

Family

ID=12907227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7052165A Pending JPH08248985A (ja) 1995-03-13 1995-03-13 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JPH08248985A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046788A1 (fr) * 1999-02-05 2000-08-10 Hitachi, Ltd. Systeme de traitement de donnees

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046788A1 (fr) * 1999-02-05 2000-08-10 Hitachi, Ltd. Systeme de traitement de donnees

Similar Documents

Publication Publication Date Title
Nishimura et al. Singing Voice Synthesis Based on Deep Neural Networks.
Pitz et al. Vocal tract normalization equals linear transformation in cepstral space
US7035791B2 (en) Feature-domain concatenative speech synthesis
CA2163017C (en) Speech recognition method using a two-pass search
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
US10692484B1 (en) Text-to-speech (TTS) processing
US20140114663A1 (en) Guided speaker adaptive speech synthesis system and method and computer program product
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP0453649B1 (en) Method and apparatus for modeling words with composite Markov models
JPS62231995A (ja) 音声認識方法
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Lee MLP-based phone boundary refining for a TTS database
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
JP2898568B2 (ja) 声質変換音声合成装置
US5764851A (en) Fast speech recognition method for mandarin words
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
JP2531227B2 (ja) 音声認識装置
Ko et al. Eigentriphones for context-dependent acoustic modeling
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH08248985A (ja) 音声認識装置及び方法
CN112767914A (zh) 歌唱语音合成方法及合成设备、计算机存储介质
Schnell et al. Neural VTLN for speaker adaptation in TTS
Quillen Kalman filter based speech synthesis
Takaki et al. Unsupervised speaker adaptation for DNN-based speech synthesis using input codes