JP2817429B2

JP2817429B2 - 音声認識装置

Info

Publication number: JP2817429B2
Application number: JP3062865A
Authority: JP
Inventors: 由実滝沢; 正宏浜田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1991-03-27
Filing date: 1991-03-27
Publication date: 1998-10-30
Anticipated expiration: 2013-10-30
Also published as: JPH04296799A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】近年、音声認識技術の発達と共に、音声
認識装置が様々の分野で実用化されようとしており、実
用化するためには、認識装置を実用する上での様々の問
題点を解決する必要がある。この問題点の１つに、騒音
の大きい環境下で認識装置を使用した場合、音声に騒音
が重畳することで音声スペクトルが変動し、予め学習し
ておいた標準音声スペクトルでは変動を吸収できずに誤
認識してしまうという点がある。

【０００３】上記問題点を解決するために、予め予測で
きる全ての騒音パターンを装置に学習させておく方法が
とられているが、全ての騒音パターンを学習させるため
には、学習時間、装置の容量、使用者の手間が膨大とな
り実用的ではない。

【０００４】そこで、環境騒音により大きく変動する音
声スペクトルの概形情報を軽減し、変動の少ないスペク
トルの詳細情報を重視するように、特徴パラメータに重
みを付ける方法が近年提案されている。この方法によ
り、学習時間、装置の容量、使用者の手間が少なく、し
かも騒音によるスペクトル変動を吸収することができる
ようになる。

【０００５】以下，図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
標準音声を登録することで上記学習を行う登録型音声認
識装置において説明する。

【０００６】第２図は、従来の単語音声認識装置のブロ
ック図である。１は信号入力端子，３は分析部、１５は
重み付け部、８は照合部、９は認識結果出力端子、１０
は標準音声保管バッファ、１６はスイッチである。以上
のように構成された音声認識装置について以下その動作
について説明する。

【０００７】まず標準音声登録時には、信号入力端子１
より入力された標準音声用信号を用いて、分析部３でフ
レーム毎の信号のパワーと特徴パラメータが算出され
る。分析方法として、たとえば次数１４次のＬＰＣケプ
ストラム法を用いれば１フレーム毎に１４個のＬＰＣケ
プストラム係数が特徴パラメータとして算出される。そ
してパワーが所定の音声区間検出閾値以上の場合、相当
する特徴パラメータは重み付け部１５に入力される。重
み付け部１５では下記（数１）のように係数に重みを付
ける。

【０００８】

【数１】

【０００９】但しｎ＝1,2,…ＮＮ : 次数Ｃn: 第ｎ次ＬＰＣケフ゜ストラム係数ＬＰＣケプストラム係数は低次でスペクトルの概形情報
を、高次でスペクトルの詳細情報を表しており、（数
１）のように高次になるほど重みを大きくすること
で、スペクトルの詳細情報を強調していることと等価に
なる。次に上記で重み付けされた特徴パラメータを標準
音声とみなしバッファ１０に保管する。

【００１０】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、登録を終了す
る。

【００１１】次に認識時には、まず登録時と同様に１フ
レーム毎に１４個のＬＰＣケプストラム係数がパラメー
タとして算出され、重み付け部１５に入力される。重み
付け部１５でも登録時と同様に（数１）のように重み
が付けられ、照合部８で、上記により重み付けされたパ
ラメータを用いて標準音声と入力音声との照合を行い、
最短距離を示す単語を認識結果として認識結果出力端子
９より出力する。

【００１２】なお上記重み付けは、騒音環境下で装置を
用いた際のスペクトル変動の影響を軽減するために用い
ているが、たとえ上記のようなスペクトル変動をしてい
ない場合でも、重み付けすることで認識率は低下しな
い。そこで実施例では、登録時と認識時の区別なく、ま
た騒音の有無にかかわらず重み付けを行うように構成さ
れている。

【００１３】なおスイッチ１６は、登録時には標準音声
保管バッファ１０に、認識時には重み付け部１５にパラ
メータを入力するように動作する。

【００１４】

【発明が解決しようとする課題】しかしながら、上記の
ような構成では、騒音自身がスペクトルに及ぼす影響は
除去できるが、発声者が騒音を聞きながら発声するため
に発声自身が変動すること（以後ロンバード効果とい
う）から起きるスペクトル変形の影響を除去できない。
しかもロンバード効果によるスペクトル変形はスペクト
ルの詳細な構造の情報に影響するため、従来のように詳
細情報を強調するように重み付けすることで、逆に認識
率が低下する場合もあるという課題を有していた。

【００１５】本発明は上記課題に鑑み、騒音の影響を除
去し、さらに従来補正できなかったロンバード効果によ
るスペクトルピーク周波数をも補正することで、認識率
向上を可能とする音声認識装置を提供するものである。

【００１６】

【課題を解決するための手段】この目的を達成するため
に本発明は、入力信号のフレーム毎の特徴パラメータを
分析する分析部と、スペクトルのピーク周波数を補正す
るスペクトルピーク補正部と、特徴パラメータに重みを
付ける重み付け部と、標準信号パラメータと入力信号パ
ラメータとを照合し認識結果を出力する照合部を具備
し、分析部でスペクトル分析を行い、フレーム毎に一組
の特徴パラメータを算出し、スペクトルピーク補正部で
入力信号の変動に伴って生じるスペクトルのピーク周波
数の変動を補正し、重み付け部で入力信号スペクトルの
詳細構造に対する情報を強調するように、特徴パラメー
タに重み付けを行い、照合部で前記補正されたパラメー
タを認識パラメータとして標準音声と入力音声との照合
を行うよう音声認識装置を構成するものである。

【００１７】

【作用】この構成によって、本発明の音声認識装置は、
騒音の影響を除去し、さらに従来補正できなかったロン
バード効果によるスペクトルのピーク周波数の変動をも
補正し、認識率を向上させることが可能となる。さらに
本発明は、スペクトルの詳細な構造を補正した後に、ス
ペクトルの詳細情報を強調するため、従来の、補正せず
にスペクトルの詳細情報を強調することで逆に認識率が
低下する場合があるという問題点を解決している。

【００１８】

【実施例】以下，本発明の実施例について図を参照しな
がら説明する。

【００１９】第１図は本発明請求項１〜３に記載の発明
の一実施例における単語音声認識装置のブロック図であ
る。１は信号入力端子，２は信号レベル測定部、３は分
析部、４はスペクトルピーク周波数検出部、５は補正値
算出部、６はパラメータ補正部、７は重み付け部、８は
照合部、９は認識結果出力端子、１０は標準音声保管バ
ッファ、１１、１２、１３、１４はスイッチであり、前
記従来例と同じものは，同一の番号を付与している。

【００２０】以上のように構成された音声認識装置につ
いて以下その動作について説明する。

【００２１】まず標準音声登録時には、音声入力直前の
背景雑音が信号入力端子１より入力され、入力信号レベ
ル測定部２で背景雑音のパワーが算出され、パワーが一
定閾値Ｐ１以上の場合は、周囲状況が登録時にふさわし
くないとみなし、登録を中断する。

【００２２】背景雑音のパワーが一定閾値Ｐ１以下の場
合には、信号声入力端子１より入力された学習用信号は
分析部３に入力され、フレーム毎の入力信号パワーと特
徴パラメータが算出される。分析方法は従来例と同様で
ある。そしてパワーが所定の音声区間検出閾値以上の特
徴パラメータは重み付け部７に入力され、従来例同様に
（数１）のように重みを付ける。

【００２３】そして、重みを付けられたパラメータは標
準音声保管バッファ１０に保管される。

【００２４】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、登録を終了す
る。

【００２５】次に認識時には、まず登録時と同様に背景
雑音のパワーが測定された後、信号入力端子１より認識
されるべき信号が入力される。

【００２６】背景雑音パワーが一定閾値Ｐ１以下の場合
には、登録時と同様に、分析部３で特徴パラメータが算
出され、重み付け部７で重みを付けられる。そしてパラ
メータは照合部８に入力される。照合部８で照合を行
い、最短距離を示す単語を認識結果として認識結果出力
端子９より出力する。

【００２７】背景雑音パワーが一定閾値Ｐ１以上の場合
には、登録時と同時に、分析部３でフレーム毎の入力信
号パワーと特徴パラメータが算出され、パラメータはス
ペクトルピーク周波数検出部４に入力され、信号のスペ
クトルピーク周波数が検出される。ここでは、音声の声
道の共振周波数であるホルマント周波数を推定し、推定
されたホルマント周波数をスペクトルピーク周波数とす
る。本実施例の認識パラメータであるＬＰＣケプスラム
を算出する過程で、ＬＰＣパラメータａ(i)が求められ
ており、このパラメータを用いて音声のスペクトルは

【００２８】

【数２】

【００２９】但しＳ：音声のスペクトルＮ：分析次数で表される。このＡ(z)の複素根の実数部Ｒｅ(z)と虚数
部Ｉｍ(z)から、ホルマント周波数の推定値は

【００３０】

【数３】

【００３１】但しｆ：ホルマント周波数の推定値ｆs ：サンプリング周波数となり、ＬＰＣパラメータから、ホルマント周波数を推
定することができる。

【００３２】次に、補正値算出部５で、上記ホルマント
周波数の推定値とＬＰＣケプストラムをホルマント周波
数推定値で微分した値との積値を用いてＬＰＣケプスト
ラムの補正値を算出する。算出式は（数４）の通りであ
る。

【００３３】

【数４】

【００３４】Ｈ（ｆ_i,n）：ホルマント周波数推定値がｆ_iHzの時の第n次ケフ
゜ストラム係数の補正量 △ｆ_i ：発声変形の有無によるホルマント周波数推定値
の差Ｃn ：第n次ケフ゜ストラム係数 bi ：第iホルマントのハ゛ント゛幅 fi ：第iホルマント周波数推定値 fs ：サンプリング周波数 M/2 ：ホルマントの個数たとえば、（数４）において △ｆ_i（第iホルマント周波数推定値の変動量）＝１２０Hz bi（第iホルマントのハ゛ント゛幅）＝１５０Hz fs（サンプリング周波数）＝１０KHz とし、ロンバート効果により変動が大きかった周波数範
囲（300Hz〜1500Hz）に含まれるホルマントに対しての
み補正を行うと（数４）は（数５）となる。

【００３５】

【数５】

【００３６】但し（ 300Hz < fi < 1500Hz ）補正されたパラメータはパラメータ補正部７に入力さ
れ、上記（数５）を用いて下記（数６）のようにＬＰＣ
ケプストラムＣn を補正する。

【００３７】

【数６】

【００３８】補正されたパラメータは重み付け部７に入
力される。重み付け部７で登録時と同様に（数１）のよ
うに係数に重みを付け、スペクトルの詳細な情報を強調
する。

【００３９】次に照合部８で、上記により重み付けされ
たパラメータを用いて標準音声と入力音声との照合を行
い、最短距離を示す単語を新式結果出力端子９より出力
する。

【００４０】以上のように、本実施例によれば、分析部
でスペクトル分析を行い、さらにスペクトルをケプスト
ラム変換したものを認識パラメータとして算出し、スペ
クトルピーク検出部で入力信号のホルマント周波数を推
定し、補正値算出部で（数４）にて補正値を算出し、
パラメータ補正部で入力音声のホルマント周波数の変動
に対応して、上記補正値を認識パラメータに加算または
減算し、補正されたケプストラムパラメータを（数１）
を用いて高次重み付けすることで、騒音の影響を除去
し、さらに従来補正できなかったロンバード効果による
スペクトルピーク周波数の変動をも補正し、認識率を向
上させることが可能となる。さらに本方法は、スペクト
ルピークのようなスペクトルの詳細な構造を補正した後
に、スペクトルの詳細情報を強調するため、従来の、補
正せずにスペクトルの詳細情報を強調することで逆に認
識率が低下する場合があるという問題点を解決してい
る。

【００４１】なお、スイッチ１１は、背景雑音を入力す
る場合にはパワー測定部２に、音声を入力する場合には
分析部３に信号を入力するように動作する。またスイッ
チ１２は登録時には重み付け部７に、認識時には下記ス
イッチ１３に特徴パラメータを入力するように動作す
る。またスイッチ１３は、背景雑音パワーが一定閾値Ｐ
１以上の場合にはホルマント周波数検出部４に、一定閾
値Ｐ１以下の場合には重み付け部７にパラメータを入力
するように動作する。スイッチ１４は登録時には標準音
声保管バッファ１０に、認識時には照合部８に信号を入
力するように動作する。

【００４２】なお本実施例では、騒音環境にて発声した
場合の発声変動について説明したが、それ以外の発声変
動においても本発明は有効である。

【００４３】なお本実施例は、請求項第３項に記載した
ように、スペクトルピーク周波数をホルマント周波数の
推定値として記載したが、ホルマント周波数以外のスペ
クトルピークにおいても効果は同様である。

【００４４】また本実施例は、請求項第２項に記載した
ように、特徴パラメータをスペクトルを直交展開したパ
ラメータ（実施例ではその代表としてケプストラムパラ
メータを用いた）として記載したが、スペクトルを直交
展開したパラメータ以外でも効果は同様である。但し、
スペクトルを直交展開したパラメータを用いると、スペ
クトルの概形情報と詳細情報との分離が容易なため、容
易にしかも効率よく効果が得られる。

【００４５】

【発明の効果】本発明により、騒音の影響を除去し、さ
らに従来補正できなかったロンバード効果によるスペク
トルのピーク周波数の変動をも補正し、認識率を向上さ
せることが可能となる。さらに本発明は、スペクトルの
詳細な構造を補正した後に、スペクトルの詳細情報を強
調するため、従来の、補正せずにスペクトルの詳細情報
を強調することで逆に認識率が低下する場合があるとい
う問題点を解決している。

【００４６】また、請求の範囲第２項記載のように、変
動の補正、及びスペクトルの詳細構造の強調を、共にス
ペクトルを直交展開したパラメータを用いて行うこと
で、さらに処理が容易になり、補正効率も向上する。

【図面の簡単な説明】

【図１】本発明の実施例における音声認識装置のブロッ
ク図

【図２】従来例における音声認識装置のブロック図

【符号の説明】

１音声入力端子２信号レベル測定部３分析部４スペクトルピーク検出部５補正値算出部６パラメータ補正部７重み付け部８照合部９認識結果出力端子１０標準音声保管バッファ１１、１２、１３、１４スイッチ

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/02 301 G10L 3/00 531 G10L 9/16 301 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】信号の単位時間（以後フレームと呼ぶ）
毎の特徴パラメータを分析する分析部と、スペクトルの
ピーク周波数を補正するスペクトルピーク補正部と、特
徴パラメータに重みを付ける重み付け部と、標準信号パ
ラメータと入力信号パラメータとを照合し、認識結果を
出力する照合部を具備し、前記分析部でスペクトル分析
を行い、フレーム毎に一組の特徴パラメータを算出し、
前記スペクトルピーク補正部で入力信号と標準信号との
変化（以後変動と呼ぶ）に伴って生じるスペクトルのピ
ーク周波数の変動を、複数のピーク周波数の各々につい
ての変動差を用いて標準信号または入力信号に対して補
正し、重み付け部で信号のスペクトルの詳細構造に対す
る情報を強調するように、特徴パラメータに重み付けを
行い、照合部で前記補正されたパラメータを認識パラメ
ータとして標準音声と入力音声との照合を行うことを特
徴とする音声認識装置。
【請求項２】分析部は、スペクトル分析を行いさらに
スペクトルを直交展開したパラメータを特徴パラメータ
とし、さらにスペクトルピーク補正部は、スペクトルピ
ーク周波数を補正するための補正値を算出する補正値算
出部と、特徴パラメータを補正するパラメータ補正部と
から構成され、補正値算出部で信号の変動に伴って生じ
るスペクトルピーク周波数の変動を推定し、この推定値
より補正値を算出し、パラメータ補正部で前記補正値に
て前記特徴パラメータ自身を補正する事を特徴とする請
求項１に記載の音声認識装置。
【請求項３】スペクトルピーク補正部は、信号の共振
周波数（以後ホルマント周波数と呼ぶ）の推定値を補正
することを特徴とする請求項１に記載の音声認識装置
【請求項４】スペクトルピーク補正部は、（数４）に
記載の式にて補正することを特徴とする請求項１に記載
の音声認識装置。