JPH0814759B2

JPH0814759B2 - スペクトル正規化装置

Info

Publication number: JPH0814759B2
Application number: JP63029676A
Authority: JP
Inventors: 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-02-09
Filing date: 1988-02-09
Publication date: 1996-02-14
Anticipated expiration: 2011-02-14
Also published as: JPH01202799A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声認識装置などの前処理に用いられる音声
スペクトルの正規化に関する。

（従来の技術）雑音下で発声された音声の認識は非常に困難である。
これは音声が雑音によりマスクされるだけでなく、1911
年にロンバード（Lombard）によって示されたロンバー
ド効果として知られる発声自身の変形があるためであ
る。ロンバード効果は雑音により発声が発声者自身に取
って聞き取り辛くなるために、発声者がより大きく、よ
り明瞭に発声しようとするために生じる。同一話者が静
かな環境と高雑音下において発声した母音/a/のスペク
トルを第２図に示す。第２図において実線は静かな環境
において発声された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
２図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなくそのスペクトルの概形
も変化している。

スペクトル概形の補正方法としては不特定話者の音声
認識を目的とした三輪らの“音声認識のための話者正規
化の検討”、日本音響学会講演論文集３−２−１、pp.5
77−578、1979年６月（以下、文献１と呼ぶ）がある。

第３図を用いて文献１によるスペクトル正規化法を説
明する。入力端子200に音声が入力されたとする。スペ
クトル分析部201は信号線210より音声を受け取り、帯域
フイルタ群（29チャンネル、中心周波数250kHz〜6300H
z、1/6オクターブ間隔、Ｑ＝６、広域強調無し）により
分析を行い振幅、周波数とも対数で表現された音声スペ
クトル｛Ｓ（ｎ）、ｎ＝１、29｝を10ms毎に信号線211
および信号線212へ出力する。近似直線計算部202は信号
線212より音声スペクトルを受け取り最小２乗誤差を与
える近似直線Ｎ（ｎ）＝ａ×ｎ＋ｂを計算し、係数ａ、
ｂを信号線213へ出力する。スペクトル正規化部203は信
号線211より音声スペクトルを信号線213より近似直線の
係数を受け取り正規化スペクトル｛SN（ｎ）、ｎ＝１、
29｝をSN（ｎ）＝Ｓ（ｎ）−ａ×ｎ−ｂとして計算し信
号線214を介して出力端子204へ出力する。

（発明が解決しようとする問題点）しかしながら、従来のスペクトル正規化法は声道長の
個人差に起因する影響を補正しようとするものであり、
対数周波数軸に対して線形な影響を正規化することを目
的とした方法である。しかし、第２図に示したようにロ
ンバード効果は2.5kHz〜4kHzにおけるエネルギーの顕著
な上昇として現れており、その影響は対数周波数軸に対
して非線形であると考えられる。したがって、従来の１
次近似式では十分に近似できない。

（発明の構成）本発明は入力された音声を分析しスペクトルを計算す
るスペクトル分析部と、あらかじめ定められる周波数を
記憶する周波数記憶部と前記スペクトルを前記周波数に
より分割し、分割されたスペクトル内においてそれぞれ
近似直線を求めるに際して前記分割周波数において前記
近似直線が連続となるように近似直線を計算する近似直
線計算部と、前記スペクトルを前記近似直線により正規
化するスペクトル正規化部とから構成されることを特徴
とする。

（作用）ロンバード効果は周波数領域におけるエネルギーの上
昇が対数周波数軸に対して線形ではなく、2.5〜4kHzで
のエネルギーの顕著な上昇として現れる。したがって、
ロンバード効果は従来のようにスペクトルの１次近似直
線で正規化することはできない。

そこで、本発明はある定められた周波数においてスペ
クトルを分割し、分割されたスペクトル毎に１次近似直
線を求める際に、分割点においてそれら１次近似直線が
連続となるように１次近似直線を求め、スペクトルの正
規化を行うものである。

いま、音声から得られたスペクトルをＳ（ω）とす
る。このスペクトルＳ（ω）を定められた周波数ωｃに
おいて｛S1（ω）、ω＜ωｃ｝と｛S2（ω）、ω≧ω
ｃ｝に分割する。分割したS1（ω）、S2（ω）ごとに近
似直線N1（ω）＝a1×ω＋b1、N2（ω）＝a2×ω＋b2を
求める。但し、分割点において不連続とならないよう条
件 a1×ωｃ＋b1＝a2×ωｃ＋b2 （１）を加える。係数a1、a2、b1、b2はこの条件式および２乗
誤差 ε＝∫｛S1（ω）−N1（ω）｝²ｄω＋∫｛S2（ω）−N
2（ω）｝_U2ｄω （２）を最小化する条件により求められる。

正規化スペクトルSN（ω）は次式により与えられる。

このようにすることにより従来の最小２乗直線による
正規化では補正できなかったスペクトルの変形、すなわ
ち、ロンバード効果に見られる特定のある周波数を中心
にエネルギーが上昇するようなスペクトルの変形を正規
化することができる。

（実施例）第１図に示すのは本発明の一実施例である。

入力端子100には音声が入力されたとする。

スペクトル分析部101は信号線110より音声を受け取
り、音声スペクトルＳ（ω）を計算する。スペクトル分
析部の例は文献１に示されている。

近似直線計算部102は信号線111により音声スペクトル
Ｓ（ω）を受け取り、信号線117より分割周波数記憶部1
05内にあらかじめ保持されている分割周波数ωｃを読出
しこの分割周波数ωｃによりＳ（ω）をS1（ω）、S2
（ω）に分割し、S1（ω）、S2（ω）毎に１次近似直線
N1（ω）＝a1×ω＋b1、N2（ω）＝a2×ω＋b2を（１）
式の条件のもとで（２）式を最小にするよう係数a1、a
2、b1、b2、をもとめ、信号線112へ係数a1、a2、b1、b
2、およびωｃを出力する。ωｃとしては例えばロンバ
ード効果の正規化ならば2.5〜4kHzにスペクトルの上昇
の中心が存在するので2.5〜4kHz内の周波数を選べばよ
い。

スペクトル正規化部103は信号線112より係数a1、a2、
b1、b2および分割周波数ωｃを、信号線113より音声ス
ペクトルＳ（ω）を受け取り正規化スペクトルSN（ω）
をとして求め、信号線115を介して端子104へ出力する。

（発明の効果）以上のように本発明によるスペクトル正規化装置によ
れば周波数軸に対して非線形な影響を受けた音声スペク
トルであっても適切に正規化を行える。

【図面の簡単な説明】

第１図は本発明の一実施例、第２図、第３図は従来技術
の説明図である。図において、100は入力端子、101はスペクトル分析部、
102は近似直線計算部、103はスペクトル正規化部、104
は出力端子、105は分割周波数記憶部、200は入力端子、
201はスペクトル分析部、202は近似直線計算部、203は
スペクトル正規化部、204は出力端子である。

Claims

【特許請求の範囲】

【請求項１】入力された音声を分析しスペクトルを計算
するスペクトル分析部と、あらかじめ定められる周波数
を記憶する周波数記憶部と、前記スペクトルを前記周波
数により分割し、分割されたスペクトル内においてそれ
ぞれ近似直線を求めるに際して前記分割周波数において
前記近似直線が連続となるように近似直線を計算する近
似直線計算部と、前記スペクトルを前記近似直線により
正規化するスペクトル正規化部とから構成されることを
特徴とするスペクトル正規化装置。