JPH0632006B2

JPH0632006B2 - 音声認識装置

Info

Publication number: JPH0632006B2
Application number: JP60251279A
Authority: JP
Inventors: 武志則松; 正宏浜田; 明寿山田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-11-08
Filing date: 1985-11-08
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS62111295A

Description

【発明の詳細な説明】産業上の利用分野本発明は、標準パターンと入力音声パターンとのパター
ンマッチングにより認識結果を導き出す音声認識装置に
関するものである。

従来の技術一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法（ダイナミックプログラミング法）
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマッチング（以下、ＤＰマッチングと記す。）
が使用されている。特に、単語音声認識装置では、この
ＤＰマッチング法により高い認識率を得ている。（例え
ば、「ダイナミックプログラミングオプティミゼイシ
ョンフォスポークンワードレコグニション」
（H.Sakoe and S.Chiba,“Dynamic programming optimi
zation for sporken word recognition”，IEEE trans.
Acoustic Speech,Signal Processing,Vol.ASSP−２７
pp.３３６−３４９，１９７９））発明が解決しようとする問題点しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマッチングを行うため、異なった
音声パターン間のＤＰマッチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、認識論を生じる原因となっていた。例えば、「大
阪」と「大分」とはエネルギー系列で見ると、前者は三
つ、後者は二つのエネルギーの山があり明らかに異なっ
た二つのパターンであるが、音韻的には似通っているた
めＤＰマッチングにより距離が小さくなってしまう。

また、類似した音声パターン間のＤＰマッチングでは、
音声パターン全体に渡ってＤＰマッチングを行なうた
め、両者間の違いが埋もれてしまい、その結果、パター
ン間の距離が小さくなり誤認識を生じやすいという問題
点を有していた。

また、認識対象外単語が入力された時にも標準パターン
の一つにマッチングしてしまい、対象外単語のリジェク
ト性能には限界があった。

本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なＤＰマッチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のリジェクト
性能を高め、標準パターンの増加を防止することのでき
る音声認識装置を提供するものである。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は入
力音声からエネルギー系列を含む特徴ベクトルの時系列
を出力する音声分析手段と、前記音声分析手段から出力
されるエネルギー系列から、音声パターン中の音声部分
と無音声部分を判別し、無音声区間の個数およびそのフ
レーム位置を検出する無音声区間検出手段と、発声の仕
方，個人差により欠落の生じるパターンを欠落のない標
準パターンの一部として管理するパターン管理手段と、
標準パターン各々の無音声区間の最も確かな順位を統計
的手段や、同一人の複数回発声により決定し記憶する無
音声情報報記憶手段と、無音声区間点の優先順位に従っ
て無音声区間のフレーム位置の交点をマッチングパスが
必ず通過するように制限を加えたパターンマッチングを
行ない、両者間の距離を算出し、距離の最小となる標準
パターンを認識結果とするパターンマッチング手段を備
えたものである。

作用本発明は上記に述べた構成によって、あらかじめ語頭，
語尾の欠落する可能性のあるパターンを標準パターンの
一部として管理し、各標準パターン中の無音声区間を検
出しておき最も確実な無音声区間点から順位ずけをした
テーブルを一つ或は複数個ずつ持ち、入力音声パターン
と標準パターンとの間で無音声区間のフレーム位置を合
わせて必ずその交点をマッチングパスが通過するように
制限をしたパターンマッチングを行ない認識結果を導き
出す事により、類似パターン間の誤認識および極端なマ
ッチングによる誤認識を極力抑えることができ、さらに
認識対象外単語が入力された時には極力リジェクトする
ことができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声入力部で、話
者の音声がマイクロホン等を通して入力される。２は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列を抽出する。３は無音声区間検出手段で、音声の
エネルギー系列から無音声区間部分を検出する。４は無
音声情報記憶手段で、各標準パターンの無音声区間を多
数の音声データより統計的手段等で一つ或は複数個の順
位ずけを行ない無音声区間の優先順位テーブルとして記
憶する。５は標準パターンの特徴ベクトルの時系列を記
憶するパターン記憶手段、６はパターン記憶手段５で記
憶された各標準パターンを管理するパターン管理手段、
７は入力パターンと各標準パターンとの間でパターンマ
ッチングを行うパターンマッチング手段、８はパターン
マッチング手段７の結果から導き出した認識候補音声を
ＬＥＤ等に表示する。

第２図は本実施例の構成を示す回路図で、上記の無音声
区間検出手段３、無音声情報記憶手段４、パターン記憶
手段５、パターン管理手段６、パターンマッチング手段
７をマイクロコンピュータ１７で実現したものである。
１０は音声の入力を行なうマイクロホン、１１はマイク
ロホン１０から入力された音声信号をアナログ−ディジ
タル変換するアナログ／ディジタル変換器（以下Ａ／Ｄ
変換器という。）である。１３は入力音声の特徴ベクト
ルの時系列を記憶する入力パターンメモリ、１５は標準
パターン音声の特徴ベクトルの時系列を記憶する標準パ
ターンメモリ、１４は各標準パターンを管理する標準パ
ターン管理テーブル、１６は各標準パターンの無音声区
間の個数、フレーム位置及び優先順位を記憶する無音声
区間テーブル、１８は認識候補音声を出力する認識結果
出力器である。

第３図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートであり、第４図は第３図
のフローチャートを説明するための図である。以上の構
成による本実施例の動作を、第３図のフローチャートに
沿って詳細に説明する。

まず、マイクロホン１０から音声を入力し、Ａ／Ｄ変換
器１１で音声信号をアナログ−ディジタル変換したあ
と、音声分析部１２で音声パターンの特徴ベクトル（例
えば、１０次元の線形予測係数）の時系列とエネルギー
系列を求め、入力パターンメモリ１３に記憶する。次
に、ステップ２０で入力パターンメモリ１３に記憶され
たエネルギー系列からエネルギー値が閾値を下回る区間
が一定時間Ｔ_０を超える区間を無音声区間として検出
し、無音声区間の個数と各無音声区間の最終フレーム位
置を記憶部１７ｂに記憶する。なお、あらかじめ各標準
パターンの特徴ベクトルの時系列が標準パターンメモリ
１５に、各標準パターンのメモリ配置、フレームの長さ
が標準パターン管理テーブル１４に、各標準パターンに
対応した無音声区間の個数とフレーム位置及び、その優
先順位が無音声区間テーブル１６に蓄えられているもの
とする。また、標準パターン管理テーブル１４の中で
は、発音により語頭，語尾の不安定な標準パターンにつ
いては欠落のない標準パターンを代表パターンとし、そ
の部分パターンを欠落の生じた標準パターンとして別に
管理している。そのため、標準パターンメモリ１５には
代表パターンだけが登録されている。

ステップ２１では、標準パターン管理テーブル１４に従
って標準パターンを記憶部１７ｂにセットする。次にス
テップ２２で入力パターンの無音声区間数Ｉ_Ｍと標準パ
ターンの無音声区間数Ｊ_Ｍとを比較する。Ｉ_Ｍ≦Ｊ_Ｍの
時は、ステップ２３に進み入力音声の無音声区間のフレ
ーム位置を無音声区間テーブル１６の優先順位に従って
標準パターンの無音声区間のフレーム位置と一致させ
る。ここでは入力パターンに一つ、標準パターンに三つ
最も確からしい無音声区間が存在する場合について説明
する。

入力パターンのフレーム長をＩ、その無音声区間の最終
フレーム位置をＩ_１、標準パターンのフレーム長をＪ、
その各無音声区間の最終フレーム位置をＪ_１，Ｊ_２，Ｊ
_３とする。ここで優先順位の最も高いフレームをＪ_１と
すると、入力パターンのＩ_１と標準パターンのＪ_１フレ
ームとを対応ずければよい。

そこで、ステップ２４では、０〈ｉ〈Ｉ_１かつＪ_１〈ｊ≦ＪまたはＩ_１〈ｉ≦Ｉかつ０〈ｊ〈Ｊ_１の条件を満たす入力パターンの第ｉフレームと標準パタ
ーンの第ｊフレームとの特徴ベクトル間の距離を無限大
にセットする。この設定は第４図において、斜線の部分
に対応する各ベクトル間距離を無限大に設定することで
あり、すなわちマッチングパスが斜線の部分を絶対に通
過しないように制限を加えたことと等価である。

ステップ２４の設定が終ると、ステップ２５により入力
パターンと標準パターン間でＤＰマッチングを行ない、
両者間の距離を算出し記憶部17bに記憶する。ここで得
られる距離は、入力パターンの第Ｉ_１フレームと標準パ
ターンの第Ｊ_１フレームの交点をマッチングパスが必ず
通過するように制限を加えたＤＰマッチングを行なった
時に得られる結果である。ここで、入力パターンの第Ｉ
_１フレームと標準パターンの第Ｊ_１フレームの交点が整
合窓の範囲を超える場合は両者のＤＰマッチングは不可
能であるためこの標準パターンは認識候補からはずす。
この後、ステップ２６で無音声区間テーブル１６より他
の優先順位が存在するかを調べ、存在するときはその優
先順位に従ってステップ２３からの処理を続ける。存在
しないときは別の標準パターンとのマッチングを行なう
ため、ステップ２７で標準パターンが最終かどうかを判
定し、最終でなければステップ２１に戻り、他の標準パ
ターンについて同様の処理を続ける。ステップ２７の条
件が満足すると、ステップ２８では、ステップ２５で得
られた距離値のうち最小値を与える標準パターンを認識
候補音声と判定し、認識結果出力器１８に認識候補音声
を出力する。なお、本実施例では、入力パターンの無音
声区間の個数が１個の場合について説明したが、無音声
区間が２個以上存在する場合にもＩ_Ｍ≦Ｊ_Ｍであれば無
音声区間テーブルに従って同様の処理を行なうことがで
きる。

例えば、標準パターン，入力音声パターンの無音声区間
の個数が各々３，２の場合、無音声区間テーブルの順位
に従った上位２個に一致させる。また、入力音声につい
て無音声区間の順位ずけが多段に設定された閾値等に依
って順位ずけられる場合、前後後の順位には関係なく無
音声区間テーブル、及び入力音声から得られる入力音声
の無音声区間の順位ずけをされた無音声区間候補の上位
からＤＰパス上の交点を決め、あるいは第１番目の候補
からの交点を決め、次に時間的順序に従って他の交点を
決める事も可能である。

以上のように本実施例によれば、音声パターン中の無音
声区間を検出する無音声区間検出手段と標準パターン管
理手段を持ち、各標準パターンに一つ或は複数個の優先
順位を決定した無音声区間テーブルの順位に従って入力
パターンと標準パターンの無音声区間のフレーム位置の
交点を通過するように制限を加えたＤＰマッチングを行
なうことにより、入力パターンの語頭，語尾が欠落した
場合や無音声区間の検出の一部を誤った場合でも最適な
マッチングを行うことができ、極端なマッチングによる
誤認識，およ音韻的に類似したパターン間の誤認識を減
少させることができる。

また語頭，語尾の不安定な標準パターンについては欠落
のない代表パターン一つで管理できるのでテンプレート
を増やす必要がない。

また整合窓の幅を最適に選べば、認識対象外単語入力時
のリジェクトに大きな効果がる。

発明の効果以上のように本発明は、音声パターン中の無音声区間の
個数とそのフレーム位置を検出する無音声区間検出手段
と，語頭，語尾が欠落する可能性のある標準パターンを
代表パターン一つで管理するパターン管理手段と、各標
準パターンに無音声区間の優先順位を一つ或は複数個定
め管理する無音声情報記憶手段とを持ち、入力音声を分
析して得られる無音声区間について、無音声区間の優先
順位に従って入力パターンと標準パターンで無音声区間
のフレーム位置を合わせ、その交点をマッチングパスが
必ず通過するように制限したＤＰマッチングを行ない、
距離の最小となる標準パターンを認識結果として導き出
すことにより、同単語間では二つのパターンを最適にマ
ッチングさせ、異単語間では極端なマッチングを生じさ
せることになり、音韻の類似したパターン間での誤認
識，および極端なマッチングによる誤認識を極力抑える
ことのでき、また認識対象外単語が入力された時には極
力リジェクトすることのできる音声認識装置を提供する
ことができる。また無音声区間の優先順位を一義的に決
定できないパターンや発音の仕方によって無音声区間数
の異なるパターンについてもテンプレート数をを増やさ
ずに精度良く認識する事ができる音声認識装置を提供で
きる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第２図は同装置の構成を示すブロッ
ク図、第３図は同装置の動作説明のための要部フローチ
ャート、第４図は第３図のフローチャート説明のための
特性図である。２……音声分析手段、３……無音声区間検出手段、４…
…無音声情報記憶手段、５……パターン記憶手段、６…
…パターン管理手段、７……パターンマッチング手段、
１０……マイクロホン、１３……入力パターンメモリ、
１４……標準パターン管理テーーブル、１５……標準パ
ターンメモリ、１６……無音声区間テーブル、１７……
マイクロコンピュータ。

フロントページの続き (56)参考文献特開昭61−138298（ＪＰ，Ａ) 特開昭60−202498（ＪＰ，Ａ) 特開昭59−62899（ＪＰ，Ａ) 日本音響学会講演論文集昭和59年10月１−９−20 Ｐ．39−40

Claims

【特許請求の範囲】

【請求項１】入力音声からエネルギー系列を含む特徴ベ
クトルの時系列を出力する音声分析手段と、前記音声分
析手段から出力されるエネルギー系列から、音声パター
ン中の音声部分と無音声部分を判別し、無音声区間の個
数およびそのフレーム位置を検出する無音声区間検出手
段と、前記音声分析手段から得られる特徴ベクトルの時
系列をあらかじめ標準パターンとして記憶しておくパタ
ーン記憶手段と、発声の仕方，個人差によって音声パタ
ーンの語頭部あるいは語尾部が欠落する標準パターンに
関して、欠落のないパターンを代表パターンとして、欠
落のあるパターンの標準パターンは代表パターンの一部
分として管理するパターン管理手段と、前記パターン記
憶手段と前記パターン管理手段により記憶，管理された
各標準パターンについて前記無音声区間検出手段より得
られる無音声区間のフレーム位置を、音声認識対象単語
各々の多数の音声データの統計的性質から得られる最も
確実な無音声区間点から順位付けを行ない、また一義的
に順位付けを決定できない標準パターンに対しては可能
な複数種類の順位付けを行い、あらかじめ無音声区間の
優先順位テーブルとして記憶する無音声情報記憶手段
と、前記パターン記憶手段により蓄えられた各標準パタ
ーンと入力パターンとの間で、前記無音声情報記憶手段
に記憶された各標準パターンの最も確実な無音声区間点
から順に入力パターンの最も確実な無音声区間点とその
フレーム位置を一致させパターンマッチングを行い両者
間の距離を算出し、得られた各々の累積距離のうち最小
となる標準パターンを認識結果とするパターンマッチン
グ手段とを備えたことを特徴とする音声認識装置。