JPH0235500A

JPH0235500A - 音声認識方式

Info

Publication number: JPH0235500A
Application number: JP63186352A
Authority: JP
Inventors: Koichi Yamaguchi; 耕市山口; Kenji Sakamoto; 憲治坂本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1988-07-26
Filing date: 1988-07-26
Publication date: 1990-02-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〈産業上の利用分野〉この発明は、音声認識におけるマツチングの際の計算量
の低減・効率化や高認識率化を目脂した音声認識方式に
関する。

〈従来の技術〉一般に単語音声認識装置には、単語単位の標準パターン
を用いてマツチングによって音声を認識する方式（単語
音声認識方式）と、単語より小さい音素や音節を単位と
する標準パターンを用いてマツチングによって音声を認
識する方式（音素音声認識方式あるいは音節音声認識方
式）がある。

上記単語音声認識方式は、調音結合の問題はなく高い認
識率が得られる反面、語曇数が増すと標準パターンの記
憶容１が大きくなり、マツチングにおける計算量も膨大
なものとなると言う問題がある。これに対して音素音声
認識方式は、標準パターンの数がある程度限られるため
、語常数の増加に伴う記憶容量の増大やマツチングにお
ける計算量の増大という問題はあまりない。しかしなが
ら、調音結合の規則がまだ不明確であるため、つの音素
の前後に結合し得る音素を結合した多数の標準パターン
を必要とするという問題がある。

さらに、スペクトル包絡の時間パターン等から音素単位
にセグメンテーションする際に誤って音素の境界を決定
してしまうと、認識率が低下するという問題もある。

以下、単語音声認識方式について詳細に述べる。

単語音声認識方式の人語曇化においては、類似した単語
同志のマツチングが問題となる。特に、単語中のある一
部分（例えば、一つの子音）だけが異なり、他は同一で
あるような場合、通常のＤＰマッヂングにおいてはマツ
チングパスの自由度が大きすぎるため類似度が高くなり
、誤認識につながるという問題がある。また、上述のよ
うにマツチングにおける計算ｍも増加するという問題も
ある。

そこで従来より、このような問題の対策として、ＤＰマ
ツチングの際のマツチングパスの設定を適当な方法で制
限することが提案されている。

すなわち、例えば、単語中の無音区間に着目して、入力
音声パターンと標準パターンとの無音部の終端をマツチ
ングパスが通過するように制限を加える方法（ｒＬＰＣ
ケプストラムによる小型単語音声認識装置」　則松他（
日本音響学会講演論文集１−４−１５１９８５．３））
がある。また、短時間平均パワーが比較的高くて安定し
ている区間の両端をマツチングパスの経路限定点の候補
としてマツチングパスの経路を制限する方法（「短時間
平均パワーを利用した経路限定ＤＰ照合法」　藤崎他（
日本音響学会講演論文集２−１−１７１９８６　、３　
））がある。

さらに、類似性の少ない単語の識別には、ＤＰマツチン
グのような計算量の多い精密な照合処理は必要でないと
いう観点から、精密な照合に先立って、入カバターンと
類似しているパターンを有する単語のクラスと、そうで
ない単語のクラスとを簡単な照合操作によって区別する
（すなわち単語の予備選択をする）ことによって計算量
を制限する方法がある。その際の上記簡単な照合操作と
しては、例えば標準パターンとのＤＰマツチングの中間
結果や入力音声の音素数、入力音声の音韻の大分類（例
えば、有声音、摩擦音および無音等）を用いる。

〈発明が解決しようとする課題〉このように、上記従来の単語音声認識装置においては、
単語中の無音区間、単語中の短時間平均パワーあるいは
単語中の音韻の大分類等の特徴量に基づいてマツチング
パスの制限あるいは単語の予備選択をするようにしてい
る。しかしながら、単語中の無音区間、単語中の短時間
平均パワーあるいは単語中の音韻の大分類の出現頻度は
、話者や発声方法の違い、あるいは周囲の騒音レベルに
よってかなり変動する値である。したがって、上記各特
徴量は真に安定した特徴量であるとは言えないという問
題がある。

上述のような話者や発声方法による変動の問題を解決す
る手段としてマルチテンプレート方式がある。しかしな
がら、このマルチテンプレート方式を用いた場合には標
準パターン数が多くなり、結局類似単語数が多いという
問題や計算量が多いという問題は解決されない。

そこで、この発明の目的は、単語音声認識を行う際にお
いて、効果的にマツチングパスの制限や標準パターンの
予備選択を行うことができる音声認識方式を提供するこ
とにある。

く課題を解決するための手段〉上記目的を達成するため、この発明は、入力された音声
信号からこの音声信号の特徴を表す特徴パターンを音響
分析部で求め、標準パターン格納部に格納された標準パ
ターンと上記特徴パターンとのマツチングを識別部で行
って入力音声を認識する音声認識方式において、入力さ
れた音声信号に基づいて、声道の狭めの度合いを表すパ
ラメータの時系列と上記パラメータの継続時間情報の時
系列からなる入力補助パターンを求める入力補助パター
ン作成手段と、上記標準パターンにおける声道の狭めの
度合いを表すパラメータの時系列と上記パラメータの継
続時間情報の時系列と上記パラメータの継続時間情報に
対する制限窓からなる標準補助パターンを格納している
標準補助パターン格納部を備えて、上記入力補助パター
ンと上記標準補助パターンとを比較することにより、上
記識別部においてマツチングを実行する際のマツチング
パスの制限や標準パターンの予備選択を行うことを特徴
としている。

く作用〉音声信号が入力されると、この音声信号からこの音声の
特徴を表す特徴パターンが音響分析部によって求められ
る。一方、上記入力された音声信号に基づいて、声道の
狭めの度合いを表すパラメータの時系列と上記パラメー
タの継続時間情報の時系列からなる入力補助パターンが
入力補助パターン作成手段によって求められる。また、
予め標準パターン格納部に格納された標準パターンにお
ける声道の狭めの度合を表すパラメータの時系列と上記
パラメータの継続時間情報の時系列と上記パラメータの
継続時間情報に対する制限窓からなる標準補助パターン
が標準補助パターン格納部に格納されている。したがっ
て、上記入力補助パターンと標準補助パターン格納部に
格納された標準補助パターンとを比較することによって
、マツチングパスの制限や標準パターンの予備選択が行
われる。

〈実施例〉以下、この発明を図示の実施例により詳細に説明する。

第１図はこの発明に係る音声認識装置のブロック図であ
る。マイクロホン１から入力された音声信号は音響分析
部２によって分析処理され、単位時間（フレーム）毎に
特徴ベクトルの時系列として出力される。この音響分析
部２としては、バンドパスフィルタ（ＢＰＦ’）群によ
る周波数分析、線形予測分析およびケプストラム分析等
がある。

次に、上述のようにして得られた特徴ベクトル時系列は
パターン変換部３に入力され、セグメンテーション等の
手法により、後に詳述するようにして音韻もしくはそれ
に相当するラベル系列で入カバターンが表現される。こ
の場合′、上記ラベルを付加する際には標準パターン格
納部４に格納されたラベル別の標準パターンを参照する
。また、鼻子音やバズバーを検出しやすくするために有
音・無音判定部５からの判定結果をも参考にする。

予備選択部６では、単語標梨パターン格納部８に格納さ
れた各単語標準パターンと人カバターンを比較して単語
標準パターンの予備選択が行われる。そして、予備選択
された単語標準パターンの情報が識別部７に入力される
。そうすると、識別部７では予備選択部６からの予備選
択された単語標準パターンの情報に基づいて、単語標準
パターン格納部８に格納された単語標準パターンを参照
する。そして、上記予備選択された単語標準パターンと
入カバターンとのマツ・チングが実行される。

そして、マツチングによって認識された単語が表示部９
に表示される。

この発明においては、マツチングパスの制限や単語標準
パターンの予備選択に使用する特徴量として、声道の狭
めの度合いを表すパラメータＣを導入する。上記パラメ
ータＣはＣ−０で声道が閉鎖されている状態を表し、Ｃ
＝１で声道に狭めが形成されている状態を表し、Ｃ＝２
で声道が開放されている状態を表す。

実際の音声においては、同じ単語であっても話者による
生理的な差や発声法の違いや騒音等の周囲環境によって
、そのスペクトル・パワーパターンは様々に変動する。

特にその影響はパワーの小さい区間に現れやすく、その
区間におけるスペクトル・パワーパターンは乱れる。と
ころが、上記パラメータＣによって表した３つの声道の
状態においては、夫々特徴のあるスペクトル形状を有し
ており、話者や発声方法の違いに影響されない。

すなわち、Ｃ＝２の場合にはピッチによる調波構造を有
し、さらに低周波帯〜高周波帯にホルマントと呼ばれる
大きなピークが存在する。また、Ｃ＝１の場合には摩擦
音では高周波数領域にエネルギーが集中する。また、Ｃ
＝０の場合にはいくつかの状態が存在する。すなわち、
鼻子音およびバズバーのときはピッチによる調波構造を
有し、さらに低周波数領域にエネルギーが集中する。無
音のときは環境騒音と同じになる。

このように、パラメータＣは話者や発声環境によらずに
安定した特徴型であり、上記音響分析部２からの音響パ
ラメータあるいはパターン変換部３からのラベルから抽
出することができる。

次に、上記パターン変換部３におけるラベル系列付加お
よび補助パターン付加、上記予備選択部６における単語
標準パターンの予備選択、上記識別部７における予備選
択された単語標準パターンと入カバターンとのマツチン
グについて詳細に述べる。

まず、上記パターン変換部３によるラベル系列付加およ
び補助パターン付加について述べる。

第２図（ａ）は「ジダイ」と発声された入力音声の波形
を示し、第２図（ｂ）は上記入力音声波形に基づいて得
られたラベル系列Ｑ（ｊ　、　Ｉ）を示し、第２図（ｃ
）は上記ラベル系列＆（ｊ　、　Ｉ）から得られる補助
パターンを示す。ここで、上記１２（ｊ、Ｉ）のｊはフ
レーム番号を表し、■は入カバターンであることを表す
。上記ラベル系列ｆ２（ｊ　、　Ｉ）はｂｂ（バズバー
）、ｄｚ（有声摩擦音）、ｉ（母音イ）、Ｓ（無音）、
ｄ（有声破裂音）、ａ（母音ア）およびｅ（母音工）等
のラベルがフレーム毎に付加されたものである。

上記ラベルは、いわゆる音素に相当するものではなく、
音素よりも細かい単位であり一つの調音状態に対応する
。例えば、音素／ｄ／（有声破裂音）は、有声の持続音
部（ｂｂ）と破裂音部（ｄ）の二つのラベルに分割でき
るのである。ラベルの算出は、予め統計処理によって求
められて標準パターン格納部４に格納されているラベル
別の標準パターンと入力フレームの特徴ベクトルとの距
離を計算し、最も近い標準パターンのラベルをその入力
フレームのラベルとして採用するのである。

このようにして得られたラベル系列Ｃ（ｊ　、　ｌ）か
ら、パラメータＣの系列（以下、Ｃ系列Ｃ（ｉ、Ｉ）と
言う）がほぼ一意的に決められる。ここで、上記Ｃ（ｉ
、　ｌ）のｉは同一のパラメータＣが連続する区間（以
下、セグメントと言う）の番号を表す。すなわち、ラベ
ルがｓ、ｍｍ（ＩＪ子音）およびｂｂ（バズバー）のう
ちいずれかであれば声道は閉鎖されているとしてＣ＝０
とする。また、ラベルが気音（ｈ）、破裂音（ｐ、ｔ、
ｋ。

ｂ、ｄ、ｇ）および摩擦音（ｒ、ｚ、ｄｚ、ｓｈ、ｔｓ
等）のうちいずれかであれば声道に狭めが形成されてい
るとしてｃ＝ｉとする。さらに、ラベルが母音（ａ、ｉ
、ｕ、ｅ、ｏ）および鼻音化母音（Ｎ）のうちいずれか
であれば声道は開放されているとしてＣ＝２とするので
ある。

ここで、Ｃ＝０における鼻子音やバズバーは話者や発声
の仕方あるいは周囲環境によって出たり出なかったりし
て、その継続時間が大きく変化する。

したがって、これら声道の閉鎖による持続音と無音とを
同一視して同じパラメータの値（Ｃ＝Ｏ）としている。

また、Ｃ＝＝１における摩擦音および破裂音では有声摩
擦音と無声摩擦音の区別をしていない。これは、有声／
無声すなわち声帯振動の有無は摩擦音部あるいは破裂音
部は同一であっても、その前に付加される持続音部は話
者や発声の仕方による差が非常に大きいため、単に声道
の狭めによる摩擦あるいは破裂の有無のみを抽出する方
がより安定するためである。

このようにしてｌフレームのラベルから１つのパラメー
タＣの値が一意的に決まる。ところが、実際に入力され
る音声の中には、例えば子音と母音との境界等に摩擦音
と母音との両方の性質を帯びた区間が現れる場合がある
。このような場合には、上述のような区間においては摩
擦音のラベルと母音のラベルとが混在することがあり、
得られたＣ系列をスムージング処理をする必要がある。

そして、このようにしてラベル１２（ｊ、ｌ）から得ら
れたＣ系列Ｃ（ｉ　、　ｌ）によって、入力音声の特徴
パターンを補助的に表すのである（以下、補助パターン
と言う）。すなわち、この補助パターンは入力音声の大
局的な特徴を表すものである。また、補助パターンは上
記Ｃ系列Ｃ（ｉ、ｌ）の他に、夫々のパラメータＣに対
応してフレーム数によって表されるパラメータＣの継続
時間情報ｄ（ｉ、Ｉ）をも含む。

第２図（ｃ）に示す例の場合の補助パターンは下記のよ
うになる。

次に、上記予備選択部６における単語標孕パターンの予
備選択について述べる。ここでは、上記単語標準パター
ン格納部８に格納されている単語標準パターンと人カバ
ターンとの簡単なマツチングが行われる。ここで、上記
人カバターンが上述のようにして補助パターンを備える
のと同様にして、単語標準パターンも補助パターンを備
えている。ただし、単語標準パターンの補助パターンに
はＣ系列Ｃ（ｉ、Ｒ）のフレーム数ｄ（ｉ、Ｒ）に制限
窓Ｗ（ｉ）が設けである。ここで、Ｃ（ｉ、Ｒ）および
ｄ（ｉ、Ｒ）のＲは単語標準パターンであることを表す
。

予備選択部６では、まず、人カバターンのＣ系列Ｃ（ｉ
　、　Ｉ）と単語標準パターンのＣ系列Ｃ（ｉ、Ｒ）と
が比較される。その結果、両者が完全に一致するか、あ
るいは、パラメータＣがＣ＝１（すなわち声道に狭めが
形成されている）であるセグメントの継続時間長が２０
〜３０ｍ５以下の場合にはそのセグメントを除外した他
の総てのセグメントの両Ｃ系列が同一である場合には次
のステップに進む。

そして、次のステップで上記制限窓Ｗ（ｉ）に基づいて
継続時間が調べられる。その結果、総てのセグメントｉ
に対して入カバターンのフレーム数ｄ（ｉ　、　Ｉ）が
単語標準パターンのフレーム数ｄ（ｉ、Ｒ）に対するの
制限窓Ｗ（ｉ）内に収まっていれば、上記識別部７でマ
ツチングを実行して単語認識を行う際の単語標準パター
ンの候補として選出される。すなわち、すべてのｉに対してｄ（ｉ、Ｒ）−１１（ｉ）＜ｄ（ｉ、　Ｉ）＜ｄ（ｉ、
Ｒ）＋Ｗ（ｉ）ならば、マツチングの際における単語標
準パターンの候補として残る。したがって、このように
して残った単語標準パターンのＣ系列は、Ｃ＝１である
セグメントの一部を除いて（Ｕ続時間長が２０〜３０ｍ
５以下の場合のみ）入カバターンのＣ系列とほぼ一致し
ている。

次に、上記識別部７における予備選択された単語標準パ
ターンと人カバターンとのマツチングについて述べる。

ここでは、予備選択部６で選出された単語認識の際の単
語標準パターンの候補と入カバターンとのマツチングが
行われる。本実施例におけるマツチングはＤＰマッヂン
グによる音韻ラベル系列間の非線形伸縮を行う。

その際に、上述の予備選択によって選出された単語標準
パターンの大局的な特徴を表す補助パターンと入カバタ
ーンの補助パターンとはほぼ一致しているので、全区間
に渡ってＤＰマツチングを実施するのは得策ではない。

そこで、入カバターンと単語標準パターンとの補助パタ
ーンのＣ系列中のパラメータＣの値が一致している区間
同志、すなわち、同種類のセグメント間同志でのＤＰマ
ツチングを行うのである。こうすることによって、マツ
チングパスは各セグメントの境界で制限されるのである
。また、Ｃ＝１であるセグメントであって継続時間長が
２０〜３０ｍ５以下と短い場合には、人カバターンであ
れ単語標準パターンであれ、そのセグメントの境界はマ
ツチングパス限定点の対象にはしない。

第３図は、セグメント数が６であり、第２図（ｃ）と同
じＣ系列であるサンプルにおけるＤＰマツチングバスと
各セグメント毎に設けられた整合窓を例示したものであ
る。

第ｉセグメント間同志のＤＰマツチングによる距離をｄ
ｉとおくと、入カバターンと単語標準パターンとの間の
距離ｄは各セグメント間距離ｄｉの和として表される。

その際に、パラメータＣの値に応じてセグメント間距離
ｄｉに次のような重みｇ（ｋ）（ｋ＝ｏ、１．２）を付
けてパターン間距離ｄを算出する。すなわち、第ｉセグ
メントにおけるパラメータＣの値をＣｉ、総セグメント
数をＮとすると、パターン間距離ｄの値はｄ＝（１／Ｎ）・Σ　ｇ（Ｃｉ）・ｄｉ　　　（ｇ（Ｃ
ｉ）≧０）ｉ＝１となる。

ここで、上述のようにＣ＝０のセグメントは話者や発声
環境による差が大きく、Ｃ＝１およびＣ−２の場合に比
較して安定した特徴量とは言えないので、Ｃ＝０のセグ
メントにおけ゛る重みｇ（０）は小さい値にする。すな
わち、鼻子音やバズバーは時間方向の変動が大きいのみ
ならず、発声機構上個人差の大きい鼻腔を通過している
ためスペクトルの変動も大きい。しかも、鼻腔は口腔と
は違って調音運動によってその形を変えることができな
いため、スペクトル形状の個人差として直接税れるので
ある。また、無音区間は周囲騒音そのものであり、発声
環境に大きく影響される。つまり、Ｃ−０のセグメント
は種々の要件によって継続時間、スペクトルの両面にお
いてばらつきが大きい。

したがって、ＤＰマッヂング時におけるＣ−０のセグメ
ントの重みｇ（０）をＣ＝１のセグメントにおける重み
ｇ（１）およびＣ＝２のセグメントにおける重みｇ（２
）の値に比較して小さく設定することによって、上記継
続時間およびスペクトルのばらつきによる単語認識への
影響をより小さくすることができるのである。すなわち
、重みｇ（Ｃｉ）の具体的な値は、ｇ（０）＜　１　、
ｇ（１）＞　１およびｇ（２）−１となるように設定す
る。

さらに、全区間での重みｇ（ｋ）によるバランスをなリ
ジェクト判定閾値を制御する。すなわち、上記予備選択
部６によって選出された単語標準パターンの総ての中か
ら、上述のようにして入カバターンとの距離がもっとも
小さい単語標準パターンが識別部７によって選出された
後、予め設定されたりジエクト閾値θと上記（１／Ｎ）
・２ｇ（Ｃｉ）の値ｉ＝１との積で表されるリジェクト判定閾値と、上記識別部７
によって最終的に選出された単語標準パターンと人カバ
ターンとの距離とが比較される。そして、パターン間距
離がリジェクト判定閾値以内であれば、その入カバター
ンの単語がその単語標準パターンの単語として認識され
る。

また、多人数の発声サンプルから単語標準パターンを作
成した場合には、各セグメントの継続時間の平均値や標
準偏差が導出できる。したがって、それらの値を利用し
て各セグメントを伸縮する際の上限下限を設定する。

すなわち、この発明においては、人カバターンおよび単
語標準パターンを声道の狭めの度合いを表すパラメータ
Ｃの時系列とこのパラメータＣの継続時間情報の時系列
とからなる補助パターンによって表し、入カバターンの
補助パターンと単語標準パターンの補助パターンとを比
較して、両補助パターンのパラメータＣの時系列とこの
パラメータＣの継続時間情報の時系列に基づいて、予め
単語標準パターンの予備選択を行い、この予備選択され
た単語標準パターンと入カバターンとをＤＰマツチング
を行うようにしている。このように、話者や発声環境に
影響されない声道の狭めの度合いに基づいて単語標準パ
ターンの予備選択を行うので、安定した特徴量に基づい
て単語標準パターンの予備選択を行うことができる。し
たがって、ＤＰマツチングの際の計算量を少なくし、誤
認識率を低下することができる。

また、この発明においては、上記ＤＰマツチングを行う
際のマツチングパスを、同一のパラメータＣが続く区間
（セグメント）の境界に対応させて制限するので、話者
や発声環境に左右されずに安定した位置でマツチングパ
スを制限することができる。したがって、ＤＰマツチン
グの際の計算量を少なくし、さらに誤認識率を低下する
ことができる。

また、この発明においては、パラメータｃ　ｈ＜　ｃ＝
０となるセグメントにおけるマツチング距離の重みｇ（
０）を、Ｃ＝１となるセグメントにおける重みｇ（１）
およびＣ＝２となるセグメントにおける重みｇ（２）よ
りも小さくしているので、さらに話者や発声環境の変動
に対して影響されることなく音声認識を行うことができ
る。したがって、話者や発声環境の変動等に備えたテン
プレートの数を減少することができる。

本実施例においてはＤＰマッヂングによって音声認識を
行っているが、この発明はこれに限定されることがなく
、他のマツチング方法によってもよいことは言うまでも
ない。

〈発明の効果〉以上より明らかなように、この発明の音声認識方式は、
入力された音声信号に基づいて、声道の狭めの度合いを
表すパラメータの時系列と上記パラメータの継続時間情
報の時系列からなる入力補助パターンを入力補助パター
ン作成手段によって求め、上記入力補助パターンと標準
補助パターン格納部に格納された標準補助パターンとを
比較することにより、マツチングパスの制限や標準パタ
ーンの予備選択を行うようにしたので、マツチングの際
の計算量を少なくでき、誤認識率を低下することができ
る。

【図面の簡単な説明】

第１図はこの発明に係る音声認識装置の一実施例を示す
ブロック図、第２図（ａ）は入力音声波形の一例を示す
図、第２図（ｂ）は第２図（ａ）の音声波形に基づいて
得られたラベルの時系列を示す図、第２図（Ｃ）は第２
図（ｂ）のラベルの時系列から得られた補助パターンを
示す図、第３図は第１図の識別部において実行されるＤ
Ｐマツチングのマツチングパスおよび整合窓の一例を示
す図である。 ■・・・マイクロホン、２・・・音響分析部、３・・・
パターン変換部、４・・・標県パターン格納部、５・・
・有音・無音判定部、６・・・予備選択部、　　　７・・・識別部、訃・・単
語標準パターン格納部、　　９・・・表示部。

Claims

【特許請求の範囲】

（１）入力された音声信号からこの音声信号の特徴を表
す特徴パターンを音響分析部で求め、標準パターン格納
部に格納された標準パターンと上記特徴パターンとのマ
ッチングを識別部で行って入力音声を認識する音声認識
方式において、入力された音声信号に基づいて、声道の狭めの度合いを
表すパラメータの時系列と、上記パラメータの継続時間
情報の時系列からなる入力補助パターンを求める入力補
助パターン作成手段と、上記標準パターンにおける声道
の狭めの度合いを表すパラメータの時系列と、上記パラ
メータの継続時間情報の時系列と、上記パラメータの継
続時間情報に対する制限窓からなる標準補助パターンを
格納している標準補助パターン格納部を備えて、上記入力補助パターンと上記標準補助パターンとを比較
することにより、上記識別部においてマッチングを実行
する際のマッチングパスの制限や標準パターンの予備選
択を行うことを特徴とする音声認識方式。