JP2969862B2

JP2969862B2 - 音声認識装置

Info

Publication number: JP2969862B2
Application number: JP2212831A
Authority: JP
Inventors: 由実滝沢; 正宏浜田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-10-04
Filing date: 1990-08-10
Publication date: 1999-11-02
Anticipated expiration: 2014-11-02
Also published as: US5361324A; JPH03206499A

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声認識装置に関するものである。

従来の技術近年、音声認識技術の発達と共に、音声認識装置が様
々の分野で実用化されようとしており、実用化するため
には、認識装置を実用する上での様々の問題点を解決す
る必要がある。

実用下では、装置の使用状況が様々に変化し、この変
化によって発声が変動する（例えば、周囲騒音が大きく
なると大声で発声するために発声が変動する。長時間装
置を使用していると発声者が疲労してくるために発声が
変動する。発声者が代わると発声が変動する。など）。
そのために、装置が標準音声を学習した時と使用する時
との状況が異なると、標準音声が上記変動を吸収でき
ず、誤認識してしまうという点が大きな問題点の１つで
ある。

上記問題点を解決するために、あらかじめ予測できる
全ての変動パターンを装置に学習させておく方法がとら
れているが、全ての発声変動を学習させるためには、学
習時間、装置の容量、使用者の手間が膨大となり実用的
ではない。

そこで、発声変動を使用する度に計算し、音声の特徴
パラメータを分析する際に、変動に対応して分析条件を
変化させる方法が近年提案されている。この方法によ
り、学習時間、装置の容量、使用者の手間が少なく、し
かも発声の変動を吸収することができるようになる。

以下，図面を参照しながら、上述したような従来の音
声認識装置について説明を行う。ここでは、標準音声を
登録することで上記学習を行う登録型音声認識装置にお
いて、発声が標準音声登録時と認識時で変化する１つの
例として、環境騒音の変化により発声状態が変動する場
合を説明する。

第５図は、従来の単語音声認識装置のブロック図であ
る。１は信号入力端子、20はパワー測定部、21は分析
（２）部、22は母音判定部、23は分析（３）部、８は照
合部、９は認識結果出力端子、10は標準音声保管用バッ
ファ、24、25、26はスイッチである。以上のように構成
された音声認識装置について以下その動作について説明
する。

まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子１より入力され、入力パワー測定部20で環
境騒音のパワーが算出され、パワーが一定閾値P1以上の
場合は、周囲状況が登録時にふさわしくないとみなし、
登録を中断する。

環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子１より入力された標準音声用信号は分析
（２）部21に入力され、特徴パラメータが算出される。
この際に分析（２）部では、まず入力信号を F1（ｚ）＝１−0.9375×Ｚ−１ …式（２）で表されるフィルタF1に通し、周波数の高域成分を強調
した後分析を行う。分析方法としてたとえばLPCケプス
トラム法を用いれば所定の個数のLPCケプストラム係数
が特徴パラメータとして算出される。そしてパワーが所
定の音声区間検出閾値以上の場合、相当する特徴パラメ
ータを標準音声とみなしバッファ10に保管する。

標準音声用信号が入力されてからの上記の処理を認識
すべき全単語について行い、登録を終了する。

次に認識時には、まず登録時と同様に環境騒音のパワ
ーが測定された後、信号入力端子１より音声信号が入力
される。

環境騒音パワーが一定閾値P1以下の場合には、登録時
と同様に分析（２）部21で特徴パラメータが算出され、
パラメータは照合部８に入力される。照合部８で標準音
声と入力音声との照合を行い、最短距離を示す単語を認
識結果として認識結果出力端子９より出力する。

環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部２でフレームごとの信号のパワーが算出され、騒
音パワーと信号パワーは母音判定部22に入力される。母
音判定部22では、次の２つの条件で母音判定を行う。

［１］信号レベルは雑音レベルに一定値Ｃを加えたレベ
ル以上である。

［２］上記条件［１］を満たすフレームが５フレーム以
上継続している。

上記［１］［２］の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号を分析（３）部23
に、母音部以外の場合には分析（２）部21に入力する。

母音部以外のフレームに対しては、登録時と同様、上
記〔１〕式で表されるフィルタで高域強調を行い特徴パ
ラメータを算出する。母音部と判定されたフレームに対
しては、分析（３）部23で、下記式（３）で表されるフ
ィルタを用いて高域強調を行う。

F2（ｚ）＝１−0.6375×Ｚ−１ …式（３）上記フィルタF2はフィルタF1に比べて高域強調の度合
が少なく、傾きの緩やかなものである。環境騒音が大き
くなると話者の発声状態が変化し、音声の高域周波数成
分が強くなる。そのため上記高域強調フィルタの傾き
は、雑音の小さい場合に比べて緩やかにする必要があ
る。フィルタ通過後、登録時同様特徴パラメータを算出
する。

上記特徴パラメータは照合部８に入力され、環境騒音
パワーが一定閾値P1以上の場合と同様に認識結果が出力
端子９より出力される。

なおスイッチ24は、環境騒音パワーが一定閾値P1以上
の場合には母音判定部22に、一定閾値P1以下の場合には
分析（２）部21に信号を入力するように動作し、音声入
力時以外の時は切断されている。スイッチ26は母音の場
合により分析（３）部23に、母音以外の場合には分析
（２）部21に信号を入力するように動作する。また、ス
イッチ25は登録時には標準音声保管バッファ10に、認識
時には照合部８にパラメータを入力するように動作す
る。

発明が解決しようとする課題しかしながら、上記のような構成では、まず発声変動
によるスペクトルの傾きの変動を補正した後に、認識に
使用されるパラメータを分析しているために、分析処理
を行うことで補正内容がパラメータに忠実に反映され
ず、補正効率が悪くなり、場合によっては上記補正が認
識率に全く寄与しないことがあるという課題を有してい
た。

また、上記のような構成では、スペクトルの傾きの変
動は吸収できるが、発声変動による音韻特有の共振周波
数（以後ホルマント周波数と呼ぶ）の変動の補正はでき
ず、認識率の改善率が悪いという課題を有していた。

本発明は、雑音下で発声した場合の発声変動を認識パ
ラメータ上で補正することにより、補正効率を高くし、
補正結果が忠実に認識率の向上につながる音声認識装置
を提供することを目的とする。

また、従来補正されていなかった発声変動によるホル
マント周波数の変動を、直接認識パラメータ上で効率よ
く補正し、従来にない認識率向上を得ることを目的とす
る。

課題を解決するための手段第１の発明は、入力信号の単位時間毎の特徴パラメー
タを分析する分析部と、特徴パラメータを補正するパラ
メータ補正部と、標準信号と入力信号とを照合し認識結
果を出力する照合部を具備し、前記分析部で特徴パラメ
ータを分析し、その分析されたスペクトルを直交展開し
たものを認識パラメータとして算出し、前記パラメータ
補正部で装置使用時の環境騒音レベルの違いによる発声
変動に対応して前記認識パラメータを補正し、前記照合
部で前記補正されたパラメータを認識パラメータとして
標準音声と入力音声との照合を行うよう音声認識装置を
構成するものである。

第２の発明は、入力信号の単位時間毎の特徴パラメー
タを分析する分析部と、共振周波数（以後ホルマント周
波数と呼ぶ）を検出するホルマント周波数検出部と、パ
ラメータ補正値を検出する補正値算出部と、前記特徴パ
ラメータを補正するパラメータ補正部と、標準信号と入
力信号とを照合し認識結果を出力する照合部を具備し、
前記分析部でスペクトル分析を行い、その分析されたス
ペクトルを直交展開したものを認識パラメータとして算
出し、前記ホルマント周波数検出部で入力信号のホルマ
ント周波数を検出し、前記補正値算出部で前記ホルマン
ト周波数を利用してパラメータ補正値を算出し、前記パ
ラメータ補正部で入力音声の変動に対応して前記パラメ
ータ補正値にてパラメータを補正し、その補正されたパ
ラメータを認識パラメータとして前記照合部で標準音声
と入力音声との照合を行うよう音声認識装置を構成する
ものである。

作用上記の構成によれば、補正内容が認識パラメータに忠
実に反映され、補正効率が向上する。

また発声変動によるホルマント周波数の変動の補正が
可能となり、認識率を向上させることができる。

実施例以下，本発明の実施例について図を参照しながら説明
する。

第１図は、請求項１〜７に記載の発明の実施例を含む
単語音声認識装置のブロック図である。

１は信号入力端子,2はパワー測定部、３は分析（１）
部、４は母音判定部、５はホルマント周波数検出部、６
は補正値算出部、７はパラメータ補正部、８は照合部、
９は認識結果出力端子、10は標準音声保管バッファ、1
1、12、13、14はスイッチであり、前記従来例と同じも
のは，同一の番号を付与している。

以上のように構成された音声認識装置について以下そ
の動作について説明する。

まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子１より入力され、パワー測定部２で環境騒
音のパワーが算出され、パワーが一定閾値P1以上の場合
は、周囲状況が登録時にふさわしくないとみなし、登録
を中断する。

環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子１より入力された標準音声用信号はパワー測
定部２に入力されフレーム毎の信号のパワーが算出され
る。一方、入力音声は分析（１）部３にも入力され、特
徴パラメータが算出される。分析方法は従来例と同様で
あり、認識パラメータとして所定の次数のLPCケプスト
ラム係数が算出される。そしてパワーが所定の音声区間
検出閾値以上のフレームにおける特徴パラメータが標準
音声保管バッファ10に保管される。

次に認識時には、まず登録時と同様に環境騒音のパワ
ーが測定された後、信号入力端子１より認識されるべき
信号が入力され、登録時同様、分析（１）部３にてLPC
ケプストラム係数が算出される。

環境騒音パワーが一定閾値P1以下の場合には、パラメ
ータは照合部８に入力される。照合部８で照合を行い、
最短距離を示す単語を認識結果として認識結果出力端子
９より出力する。

環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部２でフレームごとの信号のパワーが算出され、雑
音パワーと信号パワーは母音判定部４に入力される。母
音判定部４では、次の２つの条件で母音判定を行う。

上記［１］［２］の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号をホルマント周波数
検出部５に、母音部以外の場合には照合部８に入力す
る。

母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部５で信号のホルマント周波数
を検出する。ホルマント周波数が次のように求める。本
実施例の認識パラメータであるLPCケプストラムを算出
する過程で、LPCパラメータａ（ｉ）が求められてお
り、このパラメータを用いて音声のスペクトルは但し S:音声スペクトル N:分析次数で表される。このＡ（ｚ）の複素根の実数部Re（ｚ）と
虚数部Im（ｚ）から、ホルマント周波数はｆ＝（fs/2π）tan^-1［Im（ｚ）/Re（ｚ）］但し f :ホルマント周波数 fs:サンプリング周波数となり、LPCパラメータから、ホルマント周波数を求め
ることができる。

次に、補正値算出部６で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲第６項の式（１）の通りである。た
とえば、式（１）において Δf_i（第ｉホルマント周波数の変動量）＝120Hz b_i（第ｉホルマントのバンド幅）＝150Hz fs（サンプリング周波数）＝10Hz とし、発声変動により変動が大きかった周波数範囲（30
0Hz〜1500Hz）に含まれるホルマントに対してのみ補正
を行うと式（１）は式（４）となる。

但し（300Hz＜f_i＜1500Hz）式（４）にて算出された補正値はパラメータ補正部７
に入力され、下記式（５）のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部８で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子９より認識結果が出力される。

Cn＝Cn＋Ｈ（f_i,n） …式（５）以上のように、本実施例によれば、分析部で認識パラ
メータとしてケプストラム係数を算出し、ホルマント周
波数検出部で入力信号のホルマント周波数を検出し、補
正値算出部で式（１）に従って補正値を算出し、パラメ
ータ補正部で入力音声のホルマント周波数変動に対応し
て、上記補正値を認識パラメータに加算してパラメータ
を補正することで、補正内容が認識パラメータに忠実に
反映され、補正効率が向上する。また発声変動によるホ
ルマント周波数の変動の補正が可能となり、認識率を向
上させることができる。

なお、スイッチ11は音声入力直前の環境騒音パワーを
測定する場合にはパワー測定部２に、おんせいを入力す
る場合には分析（１）部３に信号を入力するように動作
する。スイッチ12は登録時には標準音声保管バッファ10
に、認識時には照合部８もしくは母音判定部４に認識パ
ラメータを入力するように動作する。また、スイッチ13
は入力音声のパワーが閾値P1以下の場合には照合部８
に、閾値P1以上の場合は母音判定部４にパラメータを入
力するように動作する。スイッチ14は母音の場合にはホ
ルマント周波数検出部５に、母音以外の場合には照合部
８に信号を入力するように動作する。

なお本実施例では、騒音環境にて発声した場合の発声
変動について説明したが、それ以外の発声変動において
も、ホルマント周波数が変動するような発声変動の補正
には、本方法は有効である。但し、式（１）を用いた補
正は限られたホルマント周波数のみがある規則をもって
変動する場合に最も補正効果が大きいが、騒音環境にて
発声した場合は、約300Hz〜約1500Hzにあるホルマント
周波数のみ上昇する事実があり、上記の補正効果が最も
大きい条件に当てはまる。そのため、本補正は特に騒音
環境においての発声変動に有効である。

なお、請求項３に記載の発明のように、分析（１）部
３で認識パラメータとしてケプストラム係数を算出し、
パラメータ補正部で入力音声の変動に対応してパラメー
タ補正値にてケプストラム係数を補正し、その補正され
たケプストラム係数にて照合部で標準音声と入力音声と
の照合を行うことにより、特に高い補正効果を得ること
ができる。

また、請求項４に記載の発明のように、ホルマント周
波数の変動を、ホルマント周波数の変動量と認識パラメ
ータの変換核もしくは変換核と同周期かつ同位相にて同
符号の周期関数とを用いて補正することで、従来補正で
きなかったホルマント周波数の変動を補正し、認識率を
向上させることができる。

更に請求項５に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
のホルマント周波数に対する傾きとを用いて補正するこ
とで、従来補正されなかったホルマント周波数の変動を
補正し、認識率を向上させることができる。

更に請求項６に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
をホルマント周波数で微分した値とを用いて補正するこ
とで、従来補正されなかったホルマント周波数の変動を
補正し、認識率を向上させることができる。

更に請求項７に記載の発明のように、ホルマント周波
数変動を、ホルマント周波数の変動量と認識パラメータ
であるケプストラム係数をホルマント周波数で微分した
値との積を補正量とし、左記補正量をケプストラム係数
に加算または減算することで、従来補正されなかったホ
ルマント周波数の変動を補正し認識率を向上させること
ができる。

なお、本実施例では騒音環境にて発声した場合の発声
変動について説明したが、それ以外の発声変動において
も有効である。

次に，本発明の他の実施例について図を参照しながら
説明する。

第２図は請求項８に記載の発明の一実施例における単
語音声認識装置のブロック図である。１は信号入力端
子,15はパワー測定部、16は変動量推定部、３は分析
（１）部、４は母音判定部、５はホルマント周波数検出
部、17は補正値算出部、７はパラメータ補正部、８は照
合部、９は認識結果出力端子、10は標準音声保管バッフ
ァ、11、12、13、14はスイッチであり、前記従来例と同
じものは，同一の番号を付与している。

まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子１より入力され、パワー測定部15で環境騒
音のパワーが算出され、パワーが一定閾値P1以上の場合
は、周囲状況が登録時にふさわしくないとみなし、登録
を中断する。

環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子１より入力された標準音声用音声信号は分析
（１）部３に入力され、特徴パラメータが算出される。
分析方法は従来例と同様であり、認識パラメータとして
所定の次数のLPCケプストラム係数が算出される。そし
てパワーが所定の音声区間検出閾値以上のフレームにお
ける特徴パラメータが標準音声保管バッファ10に保管さ
れる。

次に認識時には、まず登録時と同様に環境騒音のパワ
ーがパワー測定部２にて測定された後、信号入力端子１
より認識されるべき信号が入力され、分析（１）部３で
登録時と同様に認識パラメータが算出される。

環境騒音パワーが一定閾値P1以下の場合には、認識パ
ラメータは照合部８に入力され、照合を行った後、最短
距離を示す単語を認識結果として認識結果出力端子９よ
り出力する。

環境騒音パワーが一定閾値P1以上の場合には、騒音パ
ワー値は変動量推定部16に入力される。変動量推定部16
では、環境騒音のパワー値Pnより次式を用いて騒音下で
の発声変形によるホルマント変動量Δｆを推定する。こ
の場合、パワーPn、P1の単位はdB、Δｆの単位はHzであ
る。

Δｆ＝10×（Pn−P1） …式（６）式（６）は、環境騒音が小さい場合は、発声変動が少
ないためホルマント周波数の変動量が小さく、環境騒音
が大きい場合は、発声変動が大きいためホルマント周波
数の変動量も大きいという事実を反映しているものであ
る。次に、音声が入力され、上記の環境騒音パワーと分
析（１）部でパラメータと共に算出された音声信号パワ
ーとは母音判定部４に入力される。母音判定部４では、
次の２つの条件で母音判定を行う。

母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部５で音声信号のホルマント周
波数を検出する。ホルマント周波数は次のように求め
る。本実施例の認識パラメータであるLPCケプストラム
を算出する過程で、LPCパラメータａ（ｉ）が求められ
ており、このパラメータを用いて音声のスペクトルは但し S:音声のスペクトル N:分析次数で表される。このＡ（ｚ）の複素根の実数部Re（ｚ）と
虚数部Im（ｚ）から、ホルマント周波数はｆ＝（fs/2π）tan^-1［Im（ｚ）/Re（ｚ）］但し f :ホルマント周波数 fs:サンプリング周波数となり、LPCパラメータから、ホルマント周波数を求め
ることができる。

次に、補正値算出部６で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲第６項の式（１）の通りである。こ
の際に、式（１）のホルマント周波数の変動量は上記式
（６）で求めた値を用いる。他の変数は式（１）におい
て b_i（第ｉホルマントのバンド幅）＝150Hz fs（サンプリング周波数）＝10Hz とし、発声変動により変動が大きかった周波数範囲（30
0Hz〜1500Hz）に含まれるホルマントに対してのみ補正
を行うと式（１）は式（４）となる。

但し（300Hz＜fi＜1500Hz）式（４）にて算出された補正値はパラメータ補正部７
に入力され、下記式（５）のようにLPCケプストラムCn
が補正される。補正されたパラメータは照合部８で環境
騒音パワーが一定閾値P1以下の場合と同様に照合され、
認識結果出力端子９より認識結果が出力される。

Cn＝Cn＋Ｈ（f_i,n） …式（５）以上のように、本実施例によれば、パワー測定部で環
境騒音パワーを測定し、変動量推定部で発声変動による
ホルマント周波数の変動量を環境騒音パワーを用いて式
（６）のように推定し、分析部で認識パラメータとして
ケプストラム係数を算出し、ホルマント周波数検出部で
入力信号のホルマント周波数を検出し、補正値算出部で
上記で推定されたホルマント周波数の変動量を用いて式
（４）にて補正値を算出し、パラメータ補正部で入力音
声の変動に対応して上記補正値を認識パラメータに加算
してパラメータを補正することで、騒音下で発声したこ
とによるホルマント周波数の変動の補正が可能となり、
認識率を向上させることができる。また、認識パラメー
タ自身を補正することで、補正内容が認識パラメータに
忠実に反映され、補正効率が向上する。また、ホルマン
ト周波数の変動量を騒音パワーより推定し、環境騒音の
大きさに適した補正値を用いることで、より補正効果を
向上させることができる。

なお、スイッチ11は音声入力直前の環境騒音パワーを
測定する場合はパワー測定部２に、音声入力の際には分
析（１）部に信号を入力するように動作する。またスイ
ッチ12は、登録時には標準音声保管バッファ10に、認識
時には照合部８または母音判定部４にパラメータを入力
するように動作する。スイッチ13は環境騒音パワーが一
定閾値P1以上の場合には母音判定部４に、一定閾値P1以
下の場合には照合部８にパラメータを入力するように動
作する。スイッチ14は母音の場合にはホルマント周波数
検出部５に、母音以外の場合には照合部８に信号を入力
するように動作する。

次に、請求項９に記載の発明の実施例について図を参
照しながら説明する。

第３図は同実施例における単語音声認識装置のブロッ
ク図である。

１は信号入力端子,2はパワー測定部、18はLPF部,3は
分析（１）部、４は母音判定部、５はホルマント周波数
検出部、６は補正値算出部、７はパラメータ補正部、８
は照合部、９は認識結果出力端子、10は標準音声保管バ
ッファ、19、12、13、14はスイッチであり、前記従来例
と同じものは、同一の番号を付与している。

まず標準音声登録時には、音声入力直前の環境騒音が
信号入力端子１より入力され、入力信号レベル測定部２
で環境騒音のパワーが算出され、パワーが一定閾値P1以
上の場合は、周囲状況が登録時にふさわしくないとみな
し、登録を中断する。

環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子１より入力された標準音声用音声信号はLPF
部18に入力され、カットオフ周波数が2.5KHzLPFを通過
した後分析（１）部３に入力され、分析（１）部３にて
認識パラメータとして所定の個数のLPCケプストラム係
数が算出される。分析方法は上記実施例と同様である。
そしてパワーが所定の音声区間検出閾値以上の特徴パラ
メータが標準音声保管バッファ10に保管される。

次に認識時には、まず音声入力直前に登録時と同様に
環境騒音のパワーがパワー測定部２で測定された後、信
号入力端子１より認識されるべき信号が入力される。入
力信号は登録時と同様にLPF部18を通過した後、分析部
３に入力され、分析部にてLPCケプストラム係数がパラ
メータとして算出される。

環境騒音パワーが一定閾値P1以下の場合には、上記パ
ラメータは照合部８に入力され、照合部８で照合を行
い、最短距離を示す単語を認識結果として認識結果出力
端子９より出力する。

環境騒音パワーが一定閾値P1以上の場合には、騒音パ
ワーと分析の際にパラメータと共に算出された音声信号
パワーは母音判定部４に入力される。母音判定部４で
は、次の２つの条件で母音判定を行う。

上記［１］［２］の条件を満足するフレームを母音部
と判断し、母音部の場合は入力信号のパラメータをホル
マント周波数検出部５に、母音部以外の場合には照合部
８に入力する。

母音部の場合には、パラメータを補正するために、ま
ずホルマント周波数検出部５で信号のホルマント周波数
を検出する。ホルマント周波数は次のように求める。本
実施例の認識パラメータであるLPCケプストラムを算出
する過程で、LPCパラメータａ（ｉ）が求められてお
り、このパラメータを用いて音声のスペクトルは但し S:音声のスペクトル M:分析次数で表される。このＡ（ｚ）の複素根の実数部Re（ｚ）と
虚数部Im（ｚ）から、ホルマント周波数はＦ＝（N/2π）tan^-1［Im（ｚ）/Re（ｚ）］但し F:ホルマント周波数 N:サンプリング周波数となり、LPCパラメータから、ホルマント周波数を求め
ることができる。

次に、補正値算出部６で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は特許請求の範囲の式（１）の通りである。他の変数
は式（１）において Δf₃（第ｉホルマントのホルマント周波数の変動量）＝120Hz b_i（第ｉホルマントのバンド幅）＝150Hz fs（サンプリング周波数）＝10KHz とし、発声変動により変動が大きかった周波数範囲（30
0Hz〜1500Hz）に含まれるホルマントに対してのみ補正
を行うと式（１）は式（４）となる。

Cn＝Cn＋Ｈ（f_i,n） …式（５）以上のように、本実施例によれば、発声変形によって
スペクトル変形が著しくしかもホルマントパワーが上昇
している高域スペクトルをLPF部で除去し、分析部で線
形予測係数及びケプストラム係数を算出し、ホルマント
周波数検出部で低次ホルマント周波数を検出し、補正値
算出部で式（１）にて補正値を算出し、パラメータ補正
部で入力信号のパターン変動に対応して上記補正値にて
パラメータを補正し、照合部で補正されたパラメータを
認識パラメータして照合を行うことにより、低次ホルマ
ント周波数を確実に検出し、検出されたホルマント周波
数を用いて、発声変形の大きな要因であるホルマント周
波数の変動を入力音声毎に確実に補正することが可能と
なる。

また上記LPFの使用により、発声変形の著しい高域ス
ペクトルを除去するため、発声の違いによる認識パラメ
ータのずれをも吸収できる。すなわち、上記発声変動が
環境騒音によるものである場合、発声変動が高域周波数
のスペクトルに大きく影響を及ぼす事実があり、高域周
波数のパワーを減衰させることは、上記の高域スペクト
ルの変形をも除去することになる。従って、騒音環境に
おける認識率を向上させることができる。

なお、スイッチ19は音声入力直前の環境騒音測定時に
はパワー測定部２に音声入力の際にはLPF部18に信号を
入力するように動作する。スイッチ12は登録時には標準
音声保管バッファ10に、認識時には照合部８または母音
判定部４にパラメータを入力するように動作する。スイ
ッチ13は環境騒音パワーが一定閾値P1以上の場合には母
音判定部４に、一定閾値P1以下の場合には照合部８にパ
ラメータを入力するように動作する。スイッチ13は、ス
イッチ14は母音の場合にはホルマント周波数検出部５
に、母音以外の場合には照合部８に信号を入力するよう
に動作する。

次に、請求項10に記載の発明の一実施例について図を
参照しながら説明する。

第４図は同実施例における単語音声認識装置のブロッ
ク図である。１は信号入力端子,20はパワー測定部、21
は分析（２）部、22は母音判定部、23は分析（３）部、
５はホルマント周波数検出部、６は補正値算出部、７は
パラメータ補正部、８は照合部、９は認識結果出力端
子、10は標準音声保管バッファ、24、25、26はスイッチ
であり、前記従来例と同じものは、同一の番号を付与し
ている。

環境騒音のパワーが一定閾値P1以下の場合には、信号
声入力端子１より入力された標準音声用信号は分析
（２）部21に入力され、認識パラメータとしてLPCケプ
ストラム係数が算出される。この際に分析（２）部で
は、通常、まず入力信号を下記式（２）で示されるフィ
ルタに通し、高域スペクトルを強調した後分析を行う。
これは従来例に示したフィルタF1と同様のフィルタであ
る。

F1（ｚ）＝１−0.9375×Ｚ−１ …式（２）そしてパワーが所定の音声区間検出閾値以上の場合、
相当する特徴パラメータを標準音声とみなしバッファ10
に保管する。

次に認識時には、まず登録時と同様にパワー測定部２
で環境騒音のパワーが測定された後、信号入力端子１よ
り認識されるべき信号が入力される。

環境騒音パワーが一定閾値P1以下の場合には、登録時
と同様に式（２）のF1で表されるフィルタを通過後、分
析（２）部21で特徴パラメータが算出され、パラメータ
は照合部８に入力される。照合部８で標準音声と入力音
声との照合を行い、最短距離を示す単語を認識結果とし
て認識結果出力端子９より出力する。

環境騒音パワーが一定閾値P1以上の場合には、パワー
測定部20で音声信号のパワーがフレームごとに算出さ
れ、先に測定された騒音パワーと音声信号パワーは母音
判定部21に入力される。母音判定部22では、次の２つの
条件で母音判定を行う。

母音部以外のフレームに対しては、標準音声入力時と
同様、上記式（２）で表されるフィルタで高域強調を行
い特徴パラメータを算出する。

母音部と判定されたフレームに対しては、分析（３）
部23で、下記式（３）で示されるフィルタF2を用いて高
域強調を行う。このフィルタは従来例のフィルタF2と同
様のものである。

F2（ｚ）＝１−0.6375×Ｚ−１ …式（３）上記式（３）のフィルタは式（２）のフィルタに比べ
て、高域強調の度合が少なく、傾きの緩やかなものであ
る。環境騒音が大きくなると話者の発声状態が変化し、
音声の高域スペクトル成分が強くなる。そのため上記高
域強調フィルタの傾きは、雑音の小さい場合に比べて緩
やかにする必要がある。フィルタ通過後、登録時同様特
徴パラメータを算出する。

次に、ホルマント周波数検出部５で信号のホルマント
周波数を検出する。ホルマント周波数は次のように求め
る。本実施例の認識パラメータであるLPCケプストラム
を算出する過程で、LPCパラメータａ（ｉ）が求められ
ており、このパラメータを用いて音声のスペクトルは但し S:音声のスペクトル M:分析次数で表される。このＡ（ｚ）の複素根の実数部Re（ｚ）と
虚数部Im（ｚ）から、ホルマント周波数はＦ＝（N/2π）tan^-1［Im（ｚ）/Re（ｚ）］但し F:ホルマント周波数 N:サンプリング周波数となり、LPCパラメータから、ホルマント周波数を求め
ることができる。

次に、補正値算出部６で、上記ホルマント周波数とLP
Cケプストラムをホルマント周波数で微分した値との積
値を用いてLPCケプストラムの補正値を算出する。算出
式は（１）の通りである。他の変数は式（１）において Δf₃（第ｉホルマントのホルマント周波数の変動量）＝120Hz b_i（第ｉホルマントのバンド幅）＝150Hz fs（サンプリング周波数）＝10KHz とし、発声変動により変動が大きかった周波数範囲（30
0Hz〜1500Hz）に含まれるホルマントに対してのみ補正
を行うと式（１）は式（４）となる。

Cn＝Cn＋Ｈ（f_i,n） …式（５）以上のように、本実施例によれば、S/Nの低い騒音下
で発声された発声変動の大きい音声に対してのみ、分析
（３）部23で高域強調フィルタの１次係数を変化させ高
域強調度合を小さくした後、線形予測係数及びケプスト
ラムパラメータを算出し、ホルマント周波数検出部で低
次ホルマント周波数を検出し、補正値算出部で各パラメ
ータのホルマント周波数と変換核とを用いて補正値を算
出し、パラメータ補正部で入力信号のホルマント変動に
対応して上記補値にてパラメータを補正し、照合部で補
正されたパラメータを認識パラメータして照合を行うこ
とにより、高次ホルマントピークレベルが抑えられ、結
果として低次ホルマント周波数を確実に検出でき、検出
されたホルマント周波数を用いて、発声変形の大きな要
因であるホルマント周波数の変動を入力音声毎に確実に
補正することが可能となる。また高域強調度合を小さく
することで、発声変形により上昇した高域スペクトルパ
ワーを抑えるため、発声の違いによる認識パラメータの
ずれを吸収できる。以上の理由により騒音環境における
認識率を向上させることができる。

なお、スイッチ24は環境騒音パワーが一定閾値P1以上
の場合には母音判定部４に、一定閾値P1以下の場合には
分析（２）部21に信号を入力するように動作する。スイ
ッチ25は、登録時には標準音声保管バッファ10に、認識
時には照合部８にパラメータを入力するように動作す
る。スイッチ26は母音の場合には分析（３）部23に、母
音以外の場合には分析（２）部21に信号を入力するよう
に動作する。

発明の効果本発明によれば、補正内容が認識パラメータに忠実に
反映され、補正効率が向上する。

また、従来補正できなかった音声の変動によるホルマ
ント周波数の変動の補正が認識パラメータ上で可能とな
り、補正内容が認識パラメータに忠実に反映され、補正
効率を向上させることができる。

【図面の簡単な説明】

第１図〜第４図は、本発明の実施例における音声認識装
置のブロック図、第５図は従来例における音声認識装置
のブロック図である。１……音声入力端子、２……パワー測定部、３……分析
（１）部、４……母音判定部、５……ホルマント周波数
算出部、６……補正値算出部、７……パラメータ補正
部、８……照合部、９……認識結果出力端子、10……標
準音声保管バッファ、11、12、13、14……スイッチ。

フロントページの続き (56)参考文献特開昭60−144800（ＪＰ，Ａ) 特開昭61−259298（ＪＰ，Ａ) 特開平３−208099（ＪＰ，Ａ) 特開平２−42495（ＪＰ，Ａ) 特開昭64−82000（ＪＰ，Ａ) 特開昭62−138900（ＪＰ，Ａ) 特開昭61−296397（ＪＰ，Ａ) 実開平２−24900（ＪＰ，Ｕ) 特公平６−34190（ＪＰ，Ｂ２) 特公平２−15897（ＪＰ，Ｂ２) 特公平２−1319（ＪＰ，Ｂ２) 実公平７−27519（ＪＰ，Ｙ２) 米国特許5361324（ＵＳ，Ａ) 欧州特許421341（ＥＰ，Ｂ１) 電子情報通信学会技術研究報告Ｖｏｌ．89，Ｎｏ．387，ＳＰ89−105，「耐騒音音声認識システム」ｐ．55−62 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/02 301 ＪＩＣＳＴ科学技術文献ファイルＷＰＩ

Claims

(57)【特許請求の範囲】

【請求項１】入力信号の単位時間毎の特徴パラメータを
分析する分析部と、特徴パラメータを補正するパラメー
タ補正部と、標準信号と入力信号とを照合し認識結果を
出力する照合部を具備し、前記分析部で特徴パラメータ
を分析し、その分析されたスペクトルを直交展開したも
のを認識パラメータとして算出し、前記パラメータ補正
部で装置使用時の環境騒音レベルの違いによる発声変動
に対応して前記認識パラメータを補正し、前記照合部で
前記補正されたパラメータを認識パラメータとして標準
音声と入力音声との照合を行うことを特徴とする音声認
識装置。
【請求項２】入力信号の単位時間毎の特徴パラメータを
分析する分析部と、共振周波数（以後ホルマント周波数
と呼ぶ）を検出するホルマント周波数検出部と、パラメ
ータ補正値を検出する補正値算出部と、前記特徴パラメ
ータを補正するパラメータ補正部と、標準信号と入力信
号とを照合し認識結果を出力する照合部を具備し、前記
分析部でスペクトル分析を行い、その分析されたスペク
トルを直交展開したものを認識パラメータとして算出
し、前記ホルマント周波数検出部で入力信号のホルマン
ト周波数を検出し、前記補正値算出部で前記ホルマント
周波数を利用してパラメータ補正値を算出し、前記パラ
メータ補正部で入力音声の変動に対応して前記パラメー
タ補正値にてパラメータを補正し、その補正されたパラ
メータを認識パラメータとして前記照合部で標準音声と
入力音声との照合を行うことを特徴とする音声認識装
置。
【請求項３】分析部で認識パラメータとしてケプストラ
ム係数を算出し、パラメータ補正部で入力音声の変動に
対応してパラメータ補正値にてケプストラム係数を補正
し、その補正されたケプストラム係数により照合部で標
準音声と入力音声との照合を行うことを特徴とする請求
項２に記載の音声認識装置。
【請求項４】補正値算出部で音声の変動によるホルマン
ト周波数の変動量と認識パラメータの変換核もしくは変
換核と同周期かつ同位相にて同符号の周期関数を用いて
補正値を算出することを特徴とする請求項２に記載の音
声認識装置。
【請求項５】補正値算出部で音声の変動によるホルマン
ト周波数の変動量と認識パラメータのホルマント周波数
に対する傾きとを用いて補正値を算出することを特徴と
する請求項２に記載の音声認識装置。
【請求項６】補正値算出部で音声の変動によるホルマン
ト周波数の変動量と認識パラメータをホルマント周波数
で微分した値とを用いて補正値を算出することを特徴と
する請求項２に記載の音声認識装置。
【請求項７】補正値算出部で下記式（１）に従って補正
値を算出することを特徴とする請求項２に記載の音声認
識装置。Ｈ（f_i,n）：ホルマント周波数がf_iHzの時の第ｎ次ケプ
ストラム係数の補正量 Δf_i ：発声変形の有無によるホルマント周波数の
差 ∂Cn/∂fi＝（−４π/fs）exp（−ｎπb_i/fs）×sin（２πf_in/fs） Cn :第ｎ次ケプストラム係数 b_i :第ｉホルマントのバンド幅 f_i :第ｉホルマント周波数 fs :サンプリング周波数 M/2:ホルマントの個数
【請求項８】環境騒音のパワーを測定するパワー測定部
と、パワーの大きさからホルマント周波数の変動量を推
定する変動量推定部と、入力信号の単位時間毎の特徴パ
ラメータを分析する分析部と、ホルマント周波数を検出
するホルマント周波数検出部と、パラメータ補正値を検
出する補正値算出部と、特徴パラメータを補正するパラ
メータ補正部と、標準信号と入力信号とを照合し認識結
果を出力する照合部を具備し、前記パワー測定部で環境
騒音パワーを測定し、前記変動量推定部で上記で測定さ
れた騒音パワーを用いて発声変形によるホルマント周波
数変動量を推定し、前記分析部でスペクトル分析を行
い、その分析されたスペクトルを直交展開したものを認
識パラメータとして算出し、前記ホルマント周波数検出
部で入力信号のホルマント周波数を検出し、前記補正値
算出部で前記変動量推定部にて推定されたホルマント周
波数の変動量と上記認識パラメータの変換核もしくは変
換核と同周期かつ同位相にて同符号の周期関数とを用い
て補正値を算出し、前記パラメータ補正部で騒音下で発
声した場合の入力音声の発声変動に対応して上記補正値
にてパラメータを補正し、その補正されたパラメータを
認識パラメータして前記照合部で標準音声と入力音声と
の照合を行うことを特徴とする音声認識装置。
【請求項９】高域周波数のパワーを減衰させる特定帯域
パワー減衰部を具備し、その特定帯域パワー減衰部で音
声の高域周波数パワーを減衰させた後、分析部でスペク
トル分析を行うことを特徴とする請求項２に記載の音声
認識装置。
【請求項１０】スペクトルの概形を補正する概形補正部
を具備し、その概形補正部で標準音声と入力音声とのス
ペクトルの概形が等しくなるようにスペクトル概形を補
正し、分析部でスペクトル分析を行うことを特徴とする
請求項２に記載の音声認識装置。