JP3293191B2

JP3293191B2 - 音声認識装置

Info

Publication number: JP3293191B2
Application number: JP26451792A
Authority: JP
Inventors: 由実滝沢
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1992-10-02
Filing date: 1992-10-02
Publication date: 2002-06-17
Anticipated expiration: 2017-06-17
Also published as: JPH06118986A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】近年、音声認識技術の発達と共に、音
節、単語等の短い発声単位の音声認識装置だけでなく、
文節、文章単位等、長い発声単位の認識（連続音声認識
という）装置が開発されている。短い発声区間単位の認
識装置では、音声のスペクトル情報のみを用いて認識す
ることで高性能な装置を実現していた。しかし、連続音
声認識では、発声区間が長くなるほどスペクトルの変形
が著しいため、スペクトル情報のみで高い認識性能を保
つことは困難である。そこで、今までの認識では注目さ
れなかったスペクトル情報以外の音声の特徴を加えてよ
り性能を向上させる試みがなされている。

【０００３】その１つに、音声の継続時間情報を利用し
て認識する方法が提案されている。連続音声認識では、
全発声区間を一度に認識することは、発声区間が長いだ
けに効率が悪く、全発声区間を認識に都合がよい小区間
（以後認識区間という）に区切って認識する方法を一般
的に採用しているが、この方法において、各小区間の継
続時間を制御しながら認識することで、継続時間の不自
然な認識結果を出力することなく高性能な認識が可能と
なる。

【０００４】以下，図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。

【０００５】図６は、従来の単語音声認識装置のブロッ
ク図である。１は音声入力端子，２は分析部、３は音声
区間検出部、４は次音節候補予測、４１は照合部、７は
認識結果出力端子、８は標準音声スヘ゜クトル算出部、４２は
標準音声継続時間算出部、１３は標準音声保管バッフ
ァ、４４は標準音声継続時間保管バッファ、１１は文法
規則バッファ、４３は入力音声保管バッファ、１５はス
イッチである。

【０００６】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
れば所定の単位時間（以後フレームという）に所定の個
数を１組としたＬＰＣケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に標準音声スペ
クトル算出部８で、音節毎に分析されたデータをクラス
タリングし、各クラスタの中心データを標準音声保管バ
ッファ１２に保管する。また標準音声継続時間算出部４
２で、学習音声の継続時間をフレーム単位で音節毎に集
計し、標準音声継続時間保管バッファ４４に保管する。

【０００７】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部３で分析部にてＬＰＣケプストラム０係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【０００８】次に次音節候補予測部４で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファには、認識される全単語の辞書と、認識さ
れるべき全文章についての単語間の連結構造を階層的に
記載してある。この記載内容は、たとえば一例をあげる
と図７の通りである。時間軸に沿って認識処理を行う場
合、上記文法規則により、前に認識されたフレームの音
節候補と隣接する可能性のある音節を次音節候補とす
る。次に照合部１０１で、左記にて選択された音節候補
の標準音声と入力音声との照合を行う。照合は、学習時
に集計した音節毎の継続時間の最大値と最小値との間を
音節の照合範囲と限定して、（数３）の左辺Ｄを最小と
するフレームｍと音節ｎを求める。（数３）の左辺の距
離値Ｄを小さくする上位ｍ個の音節候補を認識結果とし
て、距離値Ｄと共に入力音声保管バッファ５３に保管す
る。この保管結果は、次の音節候補を予測する際に用い
る。

【０００９】

【数３】

【００１０】次音節候補予測と照合処理を音声区間の始
端から終端まで行い、スコアーの値が最大となる音節候
補列を最終認識結果として、認識結果出力端子７より出
力する。なおスイッチ１５は、学習時には標準音声スペ
クトル算出部８に、認識時には音声区間検出部３に特徴
パラメータを出力するように動作する。

【００１１】

【発明が解決しようとする課題】しかしながら上記のよ
うな構成では、各音節の継続時間を継続時間の絶対値で
制御しているため、入力音声と標準音声との発声速度が
異なる場合、誤った継続時間を設定してしまう。また、
あらゆる発声速度に対応するためには、あらゆる発声速
度を含む制御が必要となり、処理効率が悪く、また学習
音声も膨大となる。

【００１２】また、上記のような構成では、継続時間制
御を音節毎に閉じて行っているため、隣接する音節の継
続時間の差が非現実的に大きい場合でも、スコアーさえ
大きければ、認識候補として成立してしまうという課題
を有していた。

【００１３】

【課題を解決するための手段】本発明は、上記課題に鑑
み、入力音声継続時間情報を、継続時間を左右する単数
または複数の要因毎に分類された標標準音声継続時間情
報にて正規化した値を予測値とする数１にて継続時間を
予測し、この予測値を用いて継続時間を制御しているた
め、入力音声と標準音声との発声速度が異なっても、継
続時間の制御が可能であり、また同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。

【００１４】

【作用】この構成によって、同入力音声内の認識単位毎
の継続時間の差が現実的な場合のみ、認識候補として成
立させることが可能となり、より高性能な装置の実現が
可能となる。

【００１５】

【実施例】請求項１に記載の発明の一実施例について図
を参照しながら説明する。図１は請求項１の一実施例に
おける音声認識装置のブロック図である。１は音声入力
端子，２は分析部、３は音声区間検出部、４は次音節候
補予測部、５は継続時間予測部、６は照合部、７は認識
結果出力端子、８は標準音声スペクトル算出部、９は標
準音声分類部、１０は標準音声平均継続時間算出部、１
１は文法規則バッファ、１２は入力音声継続時間保管バ
ッファ、１３は標準音声保管ハ゛ッファ、１４は標準音声
継続時間保管バッファ、１５はスイッチである。前記従
来例と同じものは，同一の番号を付与している。

【００１６】また、図２は上記継続時間予測部の詳細図
である。１０１は正規化重み算出部、１０２は継続時間
正規化部、１０３はバッファメモリ、１０４は継続時間
予測値算出部である。

【００１７】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎にに所定の個数を１組としたＬＰＣケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ１３に保管する。

【００１８】次に標準音声分類部９で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の３つとする。（１）目標となる音節継続時
間を示す音節の種類、（２）目標となる音節継続時間を
示す音節の１つ前の音節の種類、（３）目標となる音節
継続時間を示す音節の２つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。

【００１９】次に標準音声平均継続時間算出部１０で、
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の３つとし要因番号をそれぞれ
Ｊ１，Ｊ２，Ｊ３，とし、各々の要因のグループ数（こ
の例では音節数に相当する。）をＫ１，Ｋ２，Ｋ３とす
ると、要因Ｊ１にはＫ１個、要因Ｊ２にはＫ２個、要因
Ｊ３にはＫ３個の平均継続時間が計算される。

【００２０】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００２１】次に次音節候補予測部４で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ１０には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。

【００２２】次に継続時間予測部５で、次音節候補の継
続時間を、（数４）を用いて算出する。（数４）は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。

【００２３】

【数４】

【００２４】継続時間予測部５をより詳細に述べると、
まず、重み算出部１０１で、要因毎に、予測したいｎ番
目に相当する音節の平均継続時間を既に認識されている
ｉ番目の音節の平均継続時間で除し、この値の全要因の
平均値を重みとする。これらの平均継続時間は、予め学
習時に標準音声平均継続時間保管バッファに保管されて
いるものである。次に継続時間正規化部１０２でｉ番目
の音節のマッチング区間を上記で求められた重みで正規
化し、バッファメモリ１０３に保管する。この値をn-1
個のマッチング区間について求める。次に、予測値算出
部１０４で上記正規化部で正規化されたマッチング区間
の平均値を継続時間の予測値とする。

【００２５】次に照合部６で、n番目の音節の継続時間
は数５に示した範囲に存在するとして、照合範囲をこの
範囲に限定して、従来例の式に基づいて照合する。照合
結果と音節の終端フレーム及び音節の継続時間入力音声
照合結果保管バッファに保管する。

【００２６】

【数５】

【００２７】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーＳの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ１５は、学習時には標準音
声スペクトル算出部８に、認識時には音声区間検出部３
に特徴パラメータを出力するように動作する。

【００２８】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節の継続時間と上記平均
継続時間とを用いて、数１を用いて入力音声の認識単位
毎の継続時間を予測し、照合部で予測した継続時間を中
心とする一定範囲で照合することにより、同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることが可能となり、より高性能な
装置の実現が可能となる。

【００２９】請求項２、請求項３の一実施例について図
を参照しながら説明する。図３は請求項２の一実施例に
おける音声認識装置のブロック図である。１は音声入力
端子，２は分析部、３は音声区間検出部、４は次音節候
補予測部、２１は継続時間予測部、６は照合部、７は認
識結果出力端子、８は標準音声スペクトル算出部、９は
標準音声分類部、１０は標準音声平均継続時間算出部、
２２は要因別重み算出部、１１は文法規則バッファ、１
２は入力音声継続時間保管バッファ、１３は標準音声保
管ハ゛ッファ、１４は標準音声平均継続時間保管バッフ
ァ、１５はスイッチである。前記従来例と同じものは，
同一の番号を付与している。

【００３０】また、図４は上記継続時間予測部の詳細図
である。２０１は正規化重み算出部、１０２は継続時間
正規化部、１０３はバッファメモリ、１０４は継続時間
予測値算出部である。

【００３１】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎にに所定の個数を１組としたＬＰＣケプ
ストラム係数が特徴パラメータとして算出される。上記
分析処理を、所定の個数の学習音声データが終わるまで
繰り返す。次に標準音声スペクトル算出部で、音節毎に
分析されたデータをクラスタリングし、各クラスタの中
心データを標準音声保管バッファ１３に保管する。

【００３２】次に標準音声分類部９で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の３つとする。（１）目標となる音節継続時
間を示す音節の種類、（２）目標となる音節継続時間を
示す音節の１つ前の音節の種類、（３）目標となる音節
継続時間を示す音節の２つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。

【００３３】次に標準音声平均継続時間算出部１０で、
各々のグループ毎に音節データの平均継続時間を算出す
る。例えば、要因を上記の３つとし要因番号をそれぞれ
Ｊ１，Ｊ２，Ｊ３，とし、各々の要因のグループ数（こ
の例では音節数に相当する。）をＫ１，Ｋ２，Ｋ３とす
ると、要因Ｊ１にはＫ１個、要因Ｊ２にはＫ２個、要因
Ｊ３にはＫ３個の平均継続時間が計算される。

【００３４】次に各要因が継続時間に及ぼす影響度に対
応した重み（請求項８に記載の数６内のβm）を要因別
重み算出部２２で算出する。これは請求項２に記載の数
２で求められる継続時間の予測値と実際の継続時間値の
差が最小になるようにβmを求めればよく、下記数５で
示されるＬ値が最小になればよい。ここではこの最小２
乗法に基づいた（数６）より、結果的に（数７）を用い
てβmを求め、標準音声平均継続時間保管バッファ１４
に保管する。

【００３５】

【数６】

【００３６】

【数７】

【００３７】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００３８】次に次音節候補予測部４で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ１０には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。

【００３９】次に継続時間予測部５で、次音節候補の継
続時間を、（数８）を用いて算出する。（数７）は、時
間軸に沿ってn-1個の音節が既に認識されていたとし
て、n番目の音節候補の継続時間をn-1個の認識した際の
マッチング区間を用いて予測するものである。

【００４０】

【数８】

【００４１】継続時間予測部５をより詳細に述べると、
まず、正規化重み算出部２０１で、要因毎に、予測した
いｎ番目に相当する音節の平均継続時間を既に認識され
ているｉ番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部１０
２でｉ番目の音節のマッチング区間を上記で求められた
正規化重みで正規化すし、バッファメモリ１０３に保管
する。この値をn-1個のマッチング区間について求め
る。次に、予測値算出部１０４で上記正規化部で正規化
されたマッチング区間の平均値を継続時間の予測値とす
る。

【００４２】次に照合部６で、n番目の音節の継続時間
は請求項１の実施例の（数５）に示した範囲に存在する
として、照合範囲をこの範囲に限定して、従来例の式に
基づいて照合する。照合結果と音節の終端フレーム及び
音節の継続時間入力音声照合結果保管バッファに保管す
る。

【００４３】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーＳの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ１５は、学習時には標準音
声スペクトル算出部８に、認識時には音声区間検出部３
に特徴パラメータを出力するように動作する。

【００４４】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを最小２乗法に基づいて
算出し、同入力音声の既に認識された入力音声部分の継
続時間を入力音声継続時間保管バッファに保管し、継続
時間予測部で既に認識された音節のマッチング区間と、
上記平均継続時間と、要因別重みとを用いて、（数２）
を用いて入力音声の認識単位毎の継続時間を予測し、照
合部で予測した継続時間を中心とする一定範囲で照合す
ることにより、同入力音声内の認識単位毎の継続時間の
差が現実的な場合のみ、認識候補として成立させること
が可能となり、より高性能な装置の実現が可能となる。

【００４５】次に請求項２、請求項４の一実施例につい
て図を参照しながら説明する。図５は請求項２、請求項
４の一実施例における音声認識装置のブロック図であ
る。１は音声入力端子，２は分析部、３は音声区間検出
部、４は次音節候補予測部、３１は継続時間予測部、６
は照合部、７は認識結果出力端子、８は標準音声スペク
トル算出部、９は標準音声分類部、１０は標準音声継続
時間算出部、３２は偏相関係数算出部、３３は要因別重
み算出部、１１は文法規則バッファ、１２は入力音声継
続時間保管バッファ、１３は標準音声保管バッファ、３
４は標準音声平均継続時間保管バッファ、１５はスイッ
チである。前記従来例と同じものは，同一の番号を付与
している。

【００４６】また、図４は上記継続時間予測部の詳細図
である。２０１は重み算出部、１０２は継続時間正規化
部、１０３はバッファメモリ、１０４は継続時間予測値
算出部である。

【００４７】まず標準音声学習時には、予め文章単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子１より入力する。次に分析部２
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばＬＰＣケプストラム法を用い
ればフレーム毎に所定の個数を１組としたＬＰＣケプス
トラム係数が特徴パラメータとして算出される。上記分
析処理を、所定の個数の学習音声データが終わるまで繰
り返す。次に標準音声スペクトル算出部で、音節毎に分
析されたデータをクラスタリングし、各クラスタの中心
データを標準音声保管バッファ１３に保管する。

【００４８】次に標準音声分類部９で、単数または複数
の要因に基づいて標準音声を分類する。この要因は音節
継続時間を左右する要因であり、たとえば、ここではそ
の要因を次の３つとする。（１）目標となる音節継続時
間を示す音節の種類、（２）目標となる音節継続時間を
示す音節の１つ前の音節の種類、（３）目標となる音節
継続時間を示す音節の２つ前の音節の種類。各々の要因
において同種類である音節データを同グループとなるよ
うに分類する。

【００４９】次に標準音声継続時間算出部１０で、各々
のグループ毎に音節データの平均継続時間を算出する。
例えば、要因を上記の３つとし要因番号をそれぞれＪ
１，Ｊ２，Ｊ３，とし、各々の要因のグループ数（この
例では音節数に相当する。）をＫ１，Ｋ２，Ｋ３とする
と、要因Ｊ１にはＫ１個、要因Ｊ２にはＫ２個、要因Ｊ
３にはＫ３個の平均継続時間が計算される。

【００５０】次に各要因が継続時間に及ぼす影響度に対
応した重み（請求項２に記載の数２内のβm）を算出す
るため、まず、下記要因の音節継続時間に対する偏相関
係数を偏相関係数算出部３２で算出する。ここでは、数
量化１類を用いて、上記３つの各々の要因と音節継続時
間との偏相関係数ζm（但しｍは要因番号）を（数９）
に基づいて求める。

【００５１】

【数９】

【００５２】次に、次に、要因別重み付け算出部３３
で、この偏相関係数の比を（数１０）を用いて求め、こ
れを要因別重みβmとし、上記要因別平均継続時間と共
に標準音声平均継続時間保管バッファ１４に保管する。

【００５３】

【数１０】

【００５４】認識時には、入力音声が音声入力端子１か
ら入力され、分析部２でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部で分析部にてＬＰＣケプストラム０次係数
（０次係数は、音声パワー情報である）を用いて音声区
間を検出する。音声区間条件は下記２条件である。（１）音声パワー（０次係数値）が一定以上である。（２）条件（１）を満たすフレームが一定個数以上継続
している。

【００５５】次に次音節候補予測部４で、文法規則を用
いて次に認識する音節をフレーム毎に選択する。たとえ
ば文法規則として文脈自由文法を用いる場合には、文法
規則バッファ１１には、認識される全単語の辞書と、認
識されるべき全文章についての単語間の連結構造を階層
的に記載してある。この記載内容は、従来例の通りであ
る。時間軸に沿って認識処理を行う場合、上記文法規則
により、前に認識されたフレームの音節候補と隣接する
可能性のある音節を次音節候補とする。

【００５６】次に継続時間予測部５で、次音節候補の継
続時間を、先の実施例（数８）を用いて算出する。数８
は、時間軸に沿ってn-1個の音節が既に認識されていた
として、n番目の音節候補の継続時間をn-1個の認識した
際のマッチング区間を用いて予測するものである。

【００５７】継続時間予測部５をより詳細に述べると、
まず、正規化重み算出部２０１で、要因毎に、予測した
いｎ番目に相当する音節の平均継続時間を既に認識され
ているｉ番目の音節の平均継続時間で除し、さらにこの
値に学習時に求めたβmで重み付けを行い、この値の全
要因の和を正規化重みとする。これらの平均継続時間
は、予め学習時に標準音声平均継続時間保管バッファに
保管されているものである。次に継続時間正規化部１０
２でｉ番目の音節のマッチング区間を上記で求められた
正規化重みで正規化し、メモリバッファ１０３に保管す
る。この値をn-1個のマッチング区間について求める。
次に、予測値算出部１０４で上記正規化部で正規化され
たマッチング区間の平均値を継続時間の予測値とする。

【００５８】次に照合部６で、ｎ番目の音節の継続時間
は請求項１の実施例の数４に示した範囲に存在するとし
て、照合範囲をこの範囲に限定して、従来例の式に基づ
いて照合する。照合結果と音節の終端フレーム及び音節
の継続時間入力音声照合結果保管バッファに保管する。

【００５９】次音節候補選択から照合までの処理を音声
区間の始端から終端まで行い、スコアーＳの値が最大と
なる音節候補列を最終認識結果として、認識結果出力部
より出力する。なおスイッチ１５は、学習時には標準音
声スペクトル算出部８に、認識時には音声区間検出部３
に特徴パラメータを出力するように動作する。

【００６０】以上のように、本実施例によれば、標準音
声継続時間保管バッファに音節継続時間情報を、継続時
間を左右する単数または複数の要因毎に分類して保管し
ておき、要因別重み算出部で、継続時間に影響を及ぼす
要因毎の影響度に対応した重みを数量化１類に基づく偏
相関係数に基づいて算出し、同入力音声の既に認識され
た入力音声部分の継続時間を入力音声継続時間保管バッ
ファに保管し、継続時間予測部で既に認識された音節の
マッチング区間と、上記平均継続時間と、要因別重みと
を用いて、数２を用いて入力音声の認識単位毎の継続時
間を予測し、照合部で予測した継続時間を中心とする一
定範囲で照合することにより、同入力音声内の認識単位
毎の継続時間の差が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。

【００６１】

【発明の効果】請求項１記載の音声認識装置は、認識単
位毎の標準音声の情報を保管している標準音声保管バッ
ファと、同入力音声内の既に認識された入力音声部分の
継続時間情報を認識単位毎に保管しておく入力音声継続
時間保管バッファと、認識単位の継続時間情報を、継続
時間を左右する単数または複数の要因毎に分類して保管
しておく標準音声継続時間保管バッファと、上記入力音
声継続時間保管バッファに保管されている入力音声継続
時間情報（数１内d(i)）を、上記標準音声継続時間情報
（数１内dr(n,m)）にて正規化した値を予測値とする数
１にて、入力音声の認識単位毎の継続時間の予測を行う
継続時間予測部と、予測した継続時間を利用して照合を
行う照合部とからなることにより、同入力音声内の認識
単位毎の継続時間の差が現実的な場合のみ、認識候補と
して成立させることが可能となり、より高性能な装置の
実現が可能となる。

【００６２】請求項２記載の音声認識装置は、認識単位
毎の標準音声の情報を保管している標準音声保管バッフ
ァと、同入力音声内の既に認識された入力音声部分の継
続時間情報を認識単位毎に保管しておく入力音声継続時
間保管バッファと、継続時間に影響を及ぼす要因毎の影
響度に対応した重みを算出する要因別重み決定部と、こ
の要因毎の重みと要因毎に分類された認識単位の継続時
間情報とを保管しておく標準音声継続時間保管バッファ
と、上記入力音声継続時間保管バッファに保管されてい
る入力音声継続時間情報（数２内d(i)）を、上記要因毎
の重み（数２内βmと標準音声の継続時間情報（数２内d
r(n,m)）にて正規化した値の平均値を予測値とする数２
にて、入力音声の認識単位毎の継続時間の予測を行う継
続時間予測部と、予測した継続時間を利用して照合を行
う照合部とからなることにより、同入力音声内の認識単
位毎の継続時間の差が現実的な場合のみ、認識候補とし
て成立させることが可能となり、より高性能な装置の実
現が可能となる。

【００６３】請求項３に記載の音声認識装置は、請求項
２に記載の重み決定部において、数２にて予測される継
続時間と実際の継続時間との差が最小になるように重み
を推定することにより、同入力音声内の認識単位毎の継
続時間の差が現実的な場合のみ、認識候補として成立さ
せることが可能となり、より高性能な装置の実現が可能
となる。

【００６４】請求項４に記載の音声認識装置は、請求項
４に記載の重み決定部において、各要因の、認識単位毎
の継続時間に対する偏相関係数を用いて重みを決定する
ことにより、同入力音声内の認識単位毎の継続時間の差
が現実的な場合のみ、認識候補として成立させることが
可能となり、より高性能な装置の実現が可能となる。を
特徴とする音声認識装置。

【図面の簡単な説明】

【図１】本発明の実施例における音声認識装置のブロッ
ク図

【図２】本発明の図１の実施例における継続時間予測部
のブロック図

【図３】本発明の実施例における音声認識装置のブロッ
ク図

【図４】本発明の図３、図５の実施例における継続時間
予測部のブロック図

【図５】本発明の実施例における音声認識装置のブロッ
ク図

【図６】従来例における音声認識装置のブロック図

【図７】文脈自由文法規則の例図

【符号の説明】

１信号入力端子２分析部３音声区間検出部４次音節候補予測部５、２１、３１次音節継続時間予測部６照合部７認識結果出力端子８標準音声スヘ゜クトル算出部９標準音声分類部１０標準音声継続時間算出部１１文法規則バッファ１２入力音声継続時間保管バッファ１３標準音声保管バッファ１４、２３、３４標準音声継続時間保管バッファ１５スイッチ２２、３３要因別重み算出部３２偏相関係数算出部１０１、２０１正規化重み算出部１０２継続時間正規化部１０３メモリバッファ１０４予測値算出部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/10

Claims

(57)【特許請求の範囲】

【請求項１】認識単位毎の標準音声の情報を保管してい
る標準音声保管バッファと、同入力音声内の既に認識さ
れた入力音声部分の継続時間情報を認識単位毎に保管し
ておく入力音声継続時間保管バッファと、認識単位の継
続時間情報を、継続時間を左右する単数または複数の要
因毎に分類して保管しておく標準音声継続時間保管バッ
ファと、上記入力音声継続時間保管バッファに保管され
ている入力音声継続時間情報（数１内d(i)）を、上記標
準音声継続時間情報（数１内dr(n,m)）にて正規化した
値を予測値とする数１にて、入力音声の認識単位毎の継
続時間の予測を行う継続時間予測部と、予測した継続時
間を利用して照合を行う照合部とを備えたことを特徴と
する音声認識装置。【数１】
【請求項２】認識単位毎の標準音声の情報を保管してい
る標準音声保管バッファと、同入力音声内の既に認識さ
れた入力音声部分の継続時間情報を認識単位毎に保管し
ておく入力音声継続時間保管バッファと、継続時間に影
響を及ぼす要因毎の影響度に対応した重みを算出する要
因別重み決定部と、この要因毎の重みと要因毎に分類さ
れた認識単位の継続時間情報とを保管しておく標準音声
継続時間保管バッファと、上記入力音声継続時間保管バ
ッファに保管されている入力音声継続時間情報（（数
２）内d(i)）を、上記要因毎の重み（（数２）内βmと
標準音声の継続時間情報（（数２）内dr(n,m)）にて正
規化した値の平均値を予測値とする数２にて、入力音声
の認識単位毎の継続時間の予測を行う継続時間予測部
と、予測した継続時間を利用して照合を行う照合部とを
備えたことを特徴とする音声認識装置。【数２】
【請求項３】重み決定部で、数２にて予測される継続時
間と実際の継続時間との差が最小になるように重みを推
定することを特徴とする請求項２に記載の音声認識装
置。
【請求項４】重み決定部で、各要因の、認識単位毎の継
続時間に対する偏相関係数を用いて重みを決定すること
を特徴とする請求項２に記載の音声認識装置。