JPH06324699A

JPH06324699A - 連続音声認識装置

Info

Publication number: JPH06324699A
Application number: JP5132861A
Authority: JP
Inventors: Toshihiro Isobe; 俊洋磯部; Noriya Murakami; 憲也村上
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Corp
Priority date: 1993-05-11
Filing date: 1993-05-11
Publication date: 1994-11-25

Abstract

(57)【要約】【目的】連続音声認識装置において、認識のための処
理量を出来るだけ減らして実時間サービスが可能な程度
に処理時間を短縮すると共に、実用に耐えられる十分に
高い認識精度を確保する。【構成】入力された連続音声の全音声区間から、抽出
装置３３がまず、ケプストラムを抽出し、このケプスト
ラムに基づいて照合装置３６が入力音声の認識を行う。
この認識結果は尤度差算出装置３１６に送られ、ここ
で、第１候補と第２以下の候補との間の尤度差が算出さ
れる。次に、この尤度差が所定しきい値以下の音声区間
についてのみ、抽出装置３３によりΔケプストラム及び
ΔΔケプストラムが抽出される。そして、照合装置３６
ががその音声区間についてケプストラム、Δケプストラ
ム及びΔΔケプストラムに基づいて認識処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続音声認識装置に関
するものであり、特に、実時間サービスを行うシステム
に好適に適用される連続音声認識装置に関するものであ
る。

【０００２】

【従来の技術】図１は、従来の混合連続分布型HMMを用
いた連続音声認識装置の構成を示す。図２は第１図に示
した連続音声認識装置の処理過程を表わすフローチャー
トである。

【０００３】図１において、音声入力装置１１はマイク
ロホン等であり、入力された音声を電気信号に変換す
る。アナログ／ディジタル変換装置１２は、音声入力装
置１１からの音声波形信号をアナログ形式からディジタ
ル形式へ変換して、正規化などの信号処理を行う。

【０００４】ケプストラム、Δケプストラム、ΔΔケプ
ストラム抽出装置１３は、ディジタル信号に変換された
入力音声の線形予測分析を行い、ケプストラム、Δケプ
ストラム、ΔΔケプストラムを抽出する。

【０００５】ＣＰＵ１４は本装置全体の制御を行うもの
である。メモリ１５にはＣＰＵ１４が必要とするプログ
ラム、データ等が格納されている。

【０００６】標準認識辞書照合装置１６は、出力確率算
出部１７とビタビ演算部１８とから構成されている。ま
た、標準認識辞書格納部１９は、ケプストラム平均値、
分散値格納部１１０、Δケプストラム平均値、分散値格
納部１１１、ΔΔケプストラム平均値、分散値格納部１
１２及び状態遷移確率格納部１１３とから構成されてい
る。

【０００７】照合装置１６の出力確率算出部１７は、標
準認識辞書格納部１９中のケプストラム平均値、分散値
格納部１１０、Δケプストラム平均値、分散値格納部１
１１、及びΔΔケプストラム平均値、分散値格納部１１
２に保存されているパラメータと、入力音声から抽出さ
れたケプストラム、Δケプストラム、ΔΔケプストラム
とを用いてケプストラム出力確率、Δケプストラム出力
確率、ΔΔケプストラム出力確率、及びその合計の出力
確率を算出する。

【０００８】照合装置１６のビタビ演算部１８は、出力
確率算出部１７で算出した合計出力確率と、標準認識辞
書格納部１９中の状態遷移確率格納部１１３に保存され
ているパラメータとを用いて、ビタビ演算を行い、算出
される確率の大小に基づいて認識結果を出力する。ここ
で、状態遷移確率には、認識辞書の学習時に、学習デー
タのケプストラム、Δケプストラム、ΔΔケプストラム
の合計出力確率をもとに推定された値を用いる。

【０００９】

【発明が解決しようとする課題】上述のように従来の連
続音声認識装置では、認識精度を上げるために、ケプス
トラム、Δケプストラム及びΔΔケプストラムといった
複数種類の特徴量を用いて、これらの特徴量を入力音声
から抽出した後、それぞれの特徴量ごとに出力確率を算
出し、そして、その合計出力確率を用いてビタビ演算を
行なう。

【００１０】このような複数の特徴量を用いた出力確率
の算出処理は処理量が多く、装置全体の処理量の約９０
％を占める。このため、認識結果を出力するまでに長い
時間を要し、実時間サービスを行うシステムには適用し
難いという問題がある。

【００１１】また、処理量を削減するために、部分的に
使用する特徴量の種類を減少させることも考えられる
が、単純に特徴量の種類を削減すると認識精度の低下を
招くという問題がある。

【００１２】本発明は上記事情に鑑みてなされたもの
で、その目的とするところは、連続音声認識において、
認識のための処理量を出来るだけ減らして実時間サービ
スが可能な程度に処理時間を短縮すると共に、実用に耐
えられる十分に高い認識精度を確保することにある。

【００１３】

【課題を解決するための手段】本発明の連続音声認識装
置は、入力された連続音声の全音声区間から、第１の種
類の特徴量を抽出する第１の特徴量抽出手段と、抽出さ
れた第１種類の特徴量に基づいて、入力連続音声を認識
する第１の認識手段と、この第１の認識手段による認識
結果を評価することにより、入力連続音声から一部の音
声区間を検出する音声区間検出手段と、この検出された
音声区間から、第２の種類の特徴量を抽出する第２の特
徴量抽出手段と、抽出された第１の特徴量と第２の種類
の特徴量とに基づいて、入力連続音声を認識する第２の
認識手段とを備える。

【００１４】

【作用】上記構成によれば、入力音声の全音声区間につ
いて、まず、第１種類の特徴量を用いて認識が行われ、
続いて、識別性の比較的低い一部の音声区間についての
み、更に第２種類の特徴量も加味して認識が行われる。

【００１５】従って、全種類の特徴量を全音声区間につ
いて使用する従来技術に比較し、処理量が減少して処理
速度が上がると共に、第２種類の特徴量を用いる音声区
間の選択を適切に行えば、従来技術と同等の高い認識率
が維持できる。

【００１６】

【実施例】以下、本発明の実施例を図面に基づいて詳細
に説明する。

【００１７】図３に本発明に従う混合連続分布型HMM連
続音声認識装置の一実施例の構成を示す。図４は、この
実施例の動作を示すフローチャートである。

【００１８】図３において、音声入力装置３１は例えば
マイクロホンであり、入力された音声を電気信号に変換
する（図４、ステップＳ４１）。アナログ／ディジタル
変換装置３２は、入力装置３１からの音声波形信号をア
ナログ形式からディジタル形式へと変換し、正規化など
の必要な前処理を行う（図４、ステップＳ４２）。

【００１９】ＣＰＵ３４は本音声認識装置全体の制御を
行い、メモリ３５にはＣＰＵ３４の必要とするプログラ
ム、データ等が格納されている。

【００２０】ケプストラム、Δケプストラム、ΔΔケプ
ストラム抽出装置３３は、ＣＰＵ３４の制御下で、Ａ／
Ｄ変換装置３２からのディジタル化された音声波形信号
の線形予測分析を行い、この信号の各音声区間につい
て、まず、ケプストラムを抽出する（図４、ステップＳ
４３）。

【００２１】以下に詳しく述べるように、この音声認識
装置では、まず、このケプストラムのみを用いて音声認
識が行われる（図４、ステップＳ４４、Ｓ４５）。この
ケプストラムに基づく認識結果において、第１候補と第
２候補以下との尤度差が全ての音声区間に関して所定の
しきい値以上であれば、この認識結果が最終的な認識結
果として出力される（図４、ステップＳ５３）。

【００２２】しかし、上記尤度差が所定しきい値以下で
ある音声区間が存在する場合には、その音声区間につい
て、抽出装置３３は更に、入力音声波形信号からΔケプ
ストラムとΔΔケプストラムとを抽出する（図４、ステ
ップＳ４７，４８）。そして、ケプストラムとΔケプス
トラムとΔΔケプストラムとに基づいて、再度音声認識
が行われ（図４、ステップＳ４９）、その結果が最終的
な認識結果として出力される（図４、ステップＳ５
３）。

【００２３】標準認識辞書平均値、分散値格納部３９
は、ケプストラム平均値、分散値格納部３１０と、Δケ
プストラム平均値、分散値格納部３１１と、ΔΔケプス
トラム平均値、分散値格納部３１２とを備える。これら
格納部３１０、３１１、３１２にはそれぞれ、予め用意
された種々の単語のケプストラム、Δケプストラム、Δ
Δケプストラムの平均値と分散値とが格納されている。

【００２４】標準認識辞書状態遷移確率格納部３１３
は、ケプストラム単独用状態遷移確率格納部３１４と、
３特徴量使用状態遷移確率格納部３１５とを備える。３
特徴量使用状態遷移確率格納部３１５は、認識辞書の学
習時に、学習データのケプストラム、Δケプストラ
ム、ΔΔケプストラムの３特徴量の合計出力確率をもと
に推定された状態遷移確率を格納したもので、図１の従
来装置の状態遷移確率格納部１１３と同様のものであ
る。また、ケプストラム単独用状態遷移確率格納部３１
３は、認識辞書の学習時に、学習データのケプストラム
のみの出力確率をもとに推定された遷移確率を格納した
ものであり、その推定計算の方法は３特徴量使用用状態
遷移確率のそれと同様である。

【００２５】標準認識辞書照合装置３６は、出力確率算
出部３７とビタビ演算部３８とを備える。

【００２６】出力確率算出部３７は、ＣＰＵ３４の制御
下で、まず、標準認識辞書平均値、分散値格納部３９中
のケプストラム平均値、分散値格納部３１０に保存され
ているパラメータと、抽出装置１３によって入力音声波
形信号から抽出されたケプストラムとを用いて、ケプス
トラム出力確率を算出する（図４、ステップＳ４４）。

【００２７】ビタビ演算部３８は、ＣＰＵ３４の制御下
で、出力確率算出部３７によって算出されたケプストラ
ム出力確率と、標準認識辞書状態遷移確率格納部３１３
中のケプストラム単独用状態遷移確率格納部３１４に保
存されているパラメータとを用いて、ビタビ演算を行
い、算出された確率の大小から認識結果（つまり、第１
候補、第２候補、第３候補、…というような候補の列
挙）を出力する（ステップＳ４５）。

【００２８】この、ケプストラムのみを用いた認識結果
はＣＰＵ３４に送られる。ＣＰＵ３４は、この認識結果
を候補尤度差算出装置３１６に送る。

【００２９】候補尤度差算出装置３１６は入力音声の全
区間に対して上記のケプストラムのみを用いた認識結果
の第１候補と第２候補以下との間の尤度の差の算出処理
を行い、算出された尤度差が所定のしきい値以上である
か未満であるかを判定し、判定結果をＣＰＵ３４返す
（図４、ステップＳ４６）。

【００３０】この判定結果を受けたＣＰＵ３４は、第１
候補と第２候補以下との間の尤度差が全ての音声区間に
ついて所定しきい値以上であれば、ケプストラムのみを
用いた認識結果を最終的な認識結果として出力する。一
方、上記尤度差が所定しきい値未満である音声区間が存
在すれば、ＣＰＵ３４は、その音声区間に関して、抽出
装置３３に指令してΔケプストラムとΔΔケプストラム
とを更に算出させ（図４、ステップＳ４７，４８）、そ
して、この算出されたΔケプストラムとΔΔケプストラ
ムを標準認識辞書照合装置３６に送って、ケプストラ
ム、Δケプストラム、及びΔΔケプストラムの３特徴量
を用いて更なる認識処理を行わせる（図４、ステップＳ
４９からＳ５２）。

【００３１】この更なる認識処理では、出力確率算出部
３７は、Δケプストラム平均値、分散値格納部３１１、
及びΔΔケプストラム平均値、分散値格納部３１２に保
存されているパラメータと、ケプストラム抽出装置３３
で算出されたΔケプストラムとΔΔケプストラムとを用
いて、Δケプストラム出力確率とΔΔケプストラム出力
確率とを算出し（図４ステップＳ４９，５０）、そし
て、それら２つの算出値と先に算出したケプストラム出
力確率とを含めた合計出力確率を算出する（図４、ステ
ップＳ５１）。このケプストラム、Δケプストラム、Δ
Δケプストラムの合計出力確率はビタビ演算部３８に送
られる。ビタビ演算部３８は、この合計出力確率と、３
特徴量使用用状態遷移確率格納部３１５に保存されてい
るパラメータとを用いて、ビタビ演算を再度行い（ステ
ップＳ５２）、算出された確率の大小から認識結果を決
定する。

【００３２】この認識結果はＣＰＵ３４に送られ、最終
的な認識結果として出力される（図４、ステップＳ５
３）。

【００３３】以下に、標準辞書照合認識装置３６及び候
補尤度差算出装置３１６の動作を更に詳しく説明する。

【００３４】標準認識辞書照合装置３６は、ケプストラ
ム、Δケプストラム、ΔΔケプストラム抽出装置３３か
ら得られる時間Tの入力音声波形信号のケプストラムの
時系列 Y(1,T) = {y1,y2,…,yT}と、標準認識辞書平均
値、分散値格納部３９の単語辞書群のケプストラムの時
系列 W(1,N) = {w(1),w(2),…,w(N)}との照合を行い、
次の（１）式の右辺が最大値をとるような単語w(n)を選
択して認識結果R(1,M)= {w(m1),w(m2),…,w(mM)}とす
る。

【００３６】候補尤度差算出装置３１６はこの結果を受
けて、次の（２）式に表わすようにそれぞれの単語の条
件付確率を該当する音声区間長で正規化した値に基づい
て、次の（３）式に従って第１候補と第２候補以下との
間の尤度差を算出する。

【００３７】 L(n,i) = P(w(mni)|Y(tn-1,tn)) / (tn-tn-1) （２） D(n,i,i+1) = L(n,i) - L(n,i+1) （３）ここに、L(n,i)は入力音声の時刻tn-1から時刻tnにおけ
る認識結果の第ｉ候補の尤度であり、D(n,i,i+1)は入力
音声の時刻tn-1から時刻tnにおける認識結果の第ｉ候補
と第i+1候補との間の尤度差である。

【００３８】このようにして、候補尤度差算出装置３１
６は、連続音声認識結果に含まれる単語の、該当する区
間における、第１候補と第２候補以下との尤度差を算出
する。その結果、この尤度差が所定のしきい値以下であ
る時間区間については、Δケプストラム及びΔΔケプス
トラムについても（１）式と同様な計算が行われ、それ
ぞれの条件付確率が求められる。そして、それらΔケプ
ストラム及びΔΔケプストラムの確率とケプストラムの
確率との合計確率に基づいて、（２）式と同様な計算が
行われて、最終的な認識結果が決定される。

【００３９】図５は、この実施例を用いて行った連続数
字認識実験によって得られた認識率と第１候補と第２候
補との尤度差についてのしきい値との関係を表わしてい
る。図６は、同実験における処理時間比率と第１候補と
第２候補の尤度差のしきい値との関係を表わしている。

【００４０】図５、６において、尤度差しきい値が０の
場合は、全ての音声区間にケプストラムのみを用いて音
声認識を行なったことを意味し、また、尤度差しきい値
が無限大の場合は、全ての音声区間にケプストラム、Δ
ケプストラム、ΔΔケプストラムを用いたことを意味し
ている。また、図６において、処理時間比率は全ての音
声区間についてケプストラム、Δケプストラム、ΔΔケ
プストラムを用いて音声認識を行なった場合を１００パ
ーセントとしている。

【００４１】上記の実験結果から、尤度差しきい値を約
0.02から約0.06の間の適当な値に設定すれば、実用に耐
えられる十分高い認識率と、かなりの処理時間短縮効果
とが得られる。例えば、尤度差しきい値を0.04に設定し
た場合、全ての音声区間にケプストラム、Δケプストラ
ム、ΔΔケプストラムを用いて音声認識を行なった場合
に比較して、実質的に同等の認識率が得られると共に、
７０パーセント程度まで処理時間を短縮できる。

【００４２】このように、上記実施例によれば、入力音
声における識別性の高い区間においてはケプストトラム
のみで認識を行い、識別性の低い区間においてはケプス
トラム、Δケプストラム、及びΔΔケプストラムを組み
合わせて認識を行うことによって、高い認識率を保ちな
がら、認識処理時間を低減することが可能となる。

【００４３】以上、本発明の一実施例を説明したが、本
発明の範囲はこの実施例のみに限定されるわけではな
く、その要旨を逸脱しない範囲で種々の変形態様で実施
することができる。

【００４４】例えば、特徴量として、入力音声のケプス
トラム、Δケプストラム、ΔΔケプストラムに代えて、
或いは併用して入力音声のパワー、Δパワー、ΔΔパワ
ーを用いることもできる。また、識別性の高い音声区間
について２種以上の幾つかの特徴量を使用し、識別性の
低い音声区間については、より多い種類の特徴量を使用
するようにしてもよい。

【００４５】

【発明の効果】以上説明したように、本発明によれば、
連続音声認識装置において、入力音声の全区間に対して
所定種類の特徴量を使用して認識処理を行うと共に、そ
れでは十分な認識率を得ることの難しい識別性の比較的
低い音声区間についてのみ、より多い種類数の特徴量を
使用して認識処理を行うようにしているので、高い認識
率を維持しながら、処理時間を短縮できるという効果が
得られる。

【図面の簡単な説明】

【図１】従来の混合連続分布型HMM連続音声認識装置
の構成を示す図である。

【図２】従来の混合連続分布型HMM連続音声認識装置
における処理過程を示すフローチャートである。

【図３】本発明に係る混合連続分布型HMM連続音声認
識装置の一実施例の構成を示す図である。

【図４】同実施例における処理過程を示すフローチャ
ートである。

【図５】同実施例を用いて行なった連続数字認識実験
における認識率と第１候補と第２候補以下の尤度差のし
きい値との関係を表わす図である。

【図６】同実験における認識処理時間比率と第１候補
と第２候補以下の尤度差のしきい値との関係を表わすグ
ラフである。

【符号の説明】

３１音声入力装置３２アナログ／ディジタル変換装置３３ケプストラム、Δケプストラム、ΔΔケプストラ
ム抽出装置３４ＣＰＵ３５メモリ３６標準認識辞書照合装置３７出力確率算出部３８ビタビ演算部３９標準認識辞書平均値、分散値格納部３１０ケプストラム平均値、分散値格納部３１１ Δケプストラム平均値、分散値格納部３１２ ΔΔケプストラム平均値、分散値格納部３１３標準認識辞書状態遷移確率格納部３１４ケプストラム単独用状態遷移確率格納部３１５３特徴量使用用状態遷移確率格納部３１６候補尤度差算出装置

Claims

【特許請求の範囲】

【請求項１】入力された連続音声の全音声区間から、
第１の種類の特徴量を抽出する第１の特徴量抽出手段
と、前記抽出された前記第１種類の特徴量に基づいて、前記
入力された連続音声を認識する第１の認識手段と、前記第１の認識手段による認識結果を評価することによ
り、前記入力された連続音声について一部の音声区間を
検出する音声区間検出手段と、前記検出された音声区間から、前記第１の種類とは異な
る第２の種類の特徴量を抽出する第２の特徴量抽出手段
と、前記抽出された第１の特徴量と前記第２の種類の特徴量
とに基づいて、前記入力された連続音声を認識する第２
の認識手段とを備えることを特徴とする連続音声認識装
置。
【請求項２】請求項１に記載の装置において、前記第１種類の特徴量及び第２種類の特徴量は、それぞ
れ、ケプストラム、Δケプストラム、ΔΔケプストラ
ム、パワー、Δパワー、ΔΔパワーの種類群中から選ば
れた１種類以上の特徴量であることを特徴とする連続音
声認識装置。
【請求項３】請求項１に記載の装置において、前記音声区間検出手段が、前記第１認識手段からの認識結果に含まれる第１候補と
第２以下の候補との間の尤度差を算出する手段と、前記尤度差と所定のしきい値との比較により、前記識別
性の低い音声区間を検出する手段とを有することを特徴
とする連続音声認識装置。
【請求項４】請求項３に記載の装置において、前記しきい値が0.02から0.06の範囲から選ばれることを
特徴とする連続音声認識装置。