JPH0814759B2 - スペクトル正規化装置 - Google Patents
スペクトル正規化装置Info
- Publication number
- JPH0814759B2 JPH0814759B2 JP63029676A JP2967688A JPH0814759B2 JP H0814759 B2 JPH0814759 B2 JP H0814759B2 JP 63029676 A JP63029676 A JP 63029676A JP 2967688 A JP2967688 A JP 2967688A JP H0814759 B2 JPH0814759 B2 JP H0814759B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- straight line
- frequency
- approximate straight
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置などの前処理に用いられる音声
スペクトルの正規化に関する。
スペクトルの正規化に関する。
(従来の技術) 雑音下で発声された音声の認識は非常に困難である。
これは音声が雑音によりマスクされるだけでなく、1911
年にロンバード(Lombard)によって示されたロンバー
ド効果として知られる発声自身の変形があるためであ
る。ロンバード効果は雑音により発声が発声者自身に取
って聞き取り辛くなるために、発声者がより大きく、よ
り明瞭に発声しようとするために生じる。同一話者が静
かな環境と高雑音下において発声した母音/a/のスペク
トルを第2図に示す。第2図において実線は静かな環境
において発声された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
2図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなくそのスペクトルの概形
も変化している。
これは音声が雑音によりマスクされるだけでなく、1911
年にロンバード(Lombard)によって示されたロンバー
ド効果として知られる発声自身の変形があるためであ
る。ロンバード効果は雑音により発声が発声者自身に取
って聞き取り辛くなるために、発声者がより大きく、よ
り明瞭に発声しようとするために生じる。同一話者が静
かな環境と高雑音下において発声した母音/a/のスペク
トルを第2図に示す。第2図において実線は静かな環境
において発声された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
2図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなくそのスペクトルの概形
も変化している。
スペクトル概形の補正方法としては不特定話者の音声
認識を目的とした三輪らの“音声認識のための話者正規
化の検討”、日本音響学会講演論文集3−2−1、pp.5
77−578、1979年6月(以下、文献1と呼ぶ)がある。
認識を目的とした三輪らの“音声認識のための話者正規
化の検討”、日本音響学会講演論文集3−2−1、pp.5
77−578、1979年6月(以下、文献1と呼ぶ)がある。
第3図を用いて文献1によるスペクトル正規化法を説
明する。入力端子200に音声が入力されたとする。スペ
クトル分析部201は信号線210より音声を受け取り、帯域
フイルタ群(29チャンネル、中心周波数250kHz〜6300H
z、1/6オクターブ間隔、Q=6、広域強調無し)により
分析を行い振幅、周波数とも対数で表現された音声スペ
クトル{S(n)、n=1、29}を10ms毎に信号線211
および信号線212へ出力する。近似直線計算部202は信号
線212より音声スペクトルを受け取り最小2乗誤差を与
える近似直線N(n)=a×n+bを計算し、係数a、
bを信号線213へ出力する。スペクトル正規化部203は信
号線211より音声スペクトルを信号線213より近似直線の
係数を受け取り正規化スペクトル{SN(n)、n=1、
29}をSN(n)=S(n)−a×n−bとして計算し信
号線214を介して出力端子204へ出力する。
明する。入力端子200に音声が入力されたとする。スペ
クトル分析部201は信号線210より音声を受け取り、帯域
フイルタ群(29チャンネル、中心周波数250kHz〜6300H
z、1/6オクターブ間隔、Q=6、広域強調無し)により
分析を行い振幅、周波数とも対数で表現された音声スペ
クトル{S(n)、n=1、29}を10ms毎に信号線211
および信号線212へ出力する。近似直線計算部202は信号
線212より音声スペクトルを受け取り最小2乗誤差を与
える近似直線N(n)=a×n+bを計算し、係数a、
bを信号線213へ出力する。スペクトル正規化部203は信
号線211より音声スペクトルを信号線213より近似直線の
係数を受け取り正規化スペクトル{SN(n)、n=1、
29}をSN(n)=S(n)−a×n−bとして計算し信
号線214を介して出力端子204へ出力する。
(発明が解決しようとする問題点) しかしながら、従来のスペクトル正規化法は声道長の
個人差に起因する影響を補正しようとするものであり、
対数周波数軸に対して線形な影響を正規化することを目
的とした方法である。しかし、第2図に示したようにロ
ンバード効果は2.5kHz〜4kHzにおけるエネルギーの顕著
な上昇として現れており、その影響は対数周波数軸に対
して非線形であると考えられる。したがって、従来の1
次近似式では十分に近似できない。
個人差に起因する影響を補正しようとするものであり、
対数周波数軸に対して線形な影響を正規化することを目
的とした方法である。しかし、第2図に示したようにロ
ンバード効果は2.5kHz〜4kHzにおけるエネルギーの顕著
な上昇として現れており、その影響は対数周波数軸に対
して非線形であると考えられる。したがって、従来の1
次近似式では十分に近似できない。
(発明の構成) 本発明は入力された音声を分析しスペクトルを計算す
るスペクトル分析部と、あらかじめ定められる周波数を
記憶する周波数記憶部と前記スペクトルを前記周波数に
より分割し、分割されたスペクトル内においてそれぞれ
近似直線を求めるに際して前記分割周波数において前記
近似直線が連続となるように近似直線を計算する近似直
線計算部と、前記スペクトルを前記近似直線により正規
化するスペクトル正規化部とから構成されることを特徴
とする。
るスペクトル分析部と、あらかじめ定められる周波数を
記憶する周波数記憶部と前記スペクトルを前記周波数に
より分割し、分割されたスペクトル内においてそれぞれ
近似直線を求めるに際して前記分割周波数において前記
近似直線が連続となるように近似直線を計算する近似直
線計算部と、前記スペクトルを前記近似直線により正規
化するスペクトル正規化部とから構成されることを特徴
とする。
(作用) ロンバード効果は周波数領域におけるエネルギーの上
昇が対数周波数軸に対して線形ではなく、2.5〜4kHzで
のエネルギーの顕著な上昇として現れる。したがって、
ロンバード効果は従来のようにスペクトルの1次近似直
線で正規化することはできない。
昇が対数周波数軸に対して線形ではなく、2.5〜4kHzで
のエネルギーの顕著な上昇として現れる。したがって、
ロンバード効果は従来のようにスペクトルの1次近似直
線で正規化することはできない。
そこで、本発明はある定められた周波数においてスペ
クトルを分割し、分割されたスペクトル毎に1次近似直
線を求める際に、分割点においてそれら1次近似直線が
連続となるように1次近似直線を求め、スペクトルの正
規化を行うものである。
クトルを分割し、分割されたスペクトル毎に1次近似直
線を求める際に、分割点においてそれら1次近似直線が
連続となるように1次近似直線を求め、スペクトルの正
規化を行うものである。
いま、音声から得られたスペクトルをS(ω)とす
る。このスペクトルS(ω)を定められた周波数ωcに
おいて{S1(ω)、ω<ωc}と{S2(ω)、ω≧ω
c}に分割する。分割したS1(ω)、S2(ω)ごとに近
似直線N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を
求める。但し、分割点において不連続とならないよう条
件 a1×ωc+b1=a2×ωc+b2 (1) を加える。係数a1、a2、b1、b2はこの条件式および2乗
誤差 ε=∫{S1(ω)−N1(ω)}2dω+∫{S2(ω)−N
2(ω)}U2dω (2) を最小化する条件により求められる。
る。このスペクトルS(ω)を定められた周波数ωcに
おいて{S1(ω)、ω<ωc}と{S2(ω)、ω≧ω
c}に分割する。分割したS1(ω)、S2(ω)ごとに近
似直線N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を
求める。但し、分割点において不連続とならないよう条
件 a1×ωc+b1=a2×ωc+b2 (1) を加える。係数a1、a2、b1、b2はこの条件式および2乗
誤差 ε=∫{S1(ω)−N1(ω)}2dω+∫{S2(ω)−N
2(ω)}U2dω (2) を最小化する条件により求められる。
正規化スペクトルSN(ω)は次式により与えられる。
このようにすることにより従来の最小2乗直線による
正規化では補正できなかったスペクトルの変形、すなわ
ち、ロンバード効果に見られる特定のある周波数を中心
にエネルギーが上昇するようなスペクトルの変形を正規
化することができる。
正規化では補正できなかったスペクトルの変形、すなわ
ち、ロンバード効果に見られる特定のある周波数を中心
にエネルギーが上昇するようなスペクトルの変形を正規
化することができる。
(実施例) 第1図に示すのは本発明の一実施例である。
入力端子100には音声が入力されたとする。
スペクトル分析部101は信号線110より音声を受け取
り、音声スペクトルS(ω)を計算する。スペクトル分
析部の例は文献1に示されている。
り、音声スペクトルS(ω)を計算する。スペクトル分
析部の例は文献1に示されている。
近似直線計算部102は信号線111により音声スペクトル
S(ω)を受け取り、信号線117より分割周波数記憶部1
05内にあらかじめ保持されている分割周波数ωcを読出
しこの分割周波数ωcによりS(ω)をS1(ω)、S2
(ω)に分割し、S1(ω)、S2(ω)毎に1次近似直線
N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を(1)
式の条件のもとで(2)式を最小にするよう係数a1、a
2、b1、b2、をもとめ、信号線112へ係数a1、a2、b1、b
2、およびωcを出力する。ωcとしては例えばロンバ
ード効果の正規化ならば2.5〜4kHzにスペクトルの上昇
の中心が存在するので2.5〜4kHz内の周波数を選べばよ
い。
S(ω)を受け取り、信号線117より分割周波数記憶部1
05内にあらかじめ保持されている分割周波数ωcを読出
しこの分割周波数ωcによりS(ω)をS1(ω)、S2
(ω)に分割し、S1(ω)、S2(ω)毎に1次近似直線
N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を(1)
式の条件のもとで(2)式を最小にするよう係数a1、a
2、b1、b2、をもとめ、信号線112へ係数a1、a2、b1、b
2、およびωcを出力する。ωcとしては例えばロンバ
ード効果の正規化ならば2.5〜4kHzにスペクトルの上昇
の中心が存在するので2.5〜4kHz内の周波数を選べばよ
い。
スペクトル正規化部103は信号線112より係数a1、a2、
b1、b2および分割周波数ωcを、信号線113より音声ス
ペクトルS(ω)を受け取り正規化スペクトルSN(ω)
を として求め、信号線115を介して端子104へ出力する。
b1、b2および分割周波数ωcを、信号線113より音声ス
ペクトルS(ω)を受け取り正規化スペクトルSN(ω)
を として求め、信号線115を介して端子104へ出力する。
(発明の効果) 以上のように本発明によるスペクトル正規化装置によ
れば周波数軸に対して非線形な影響を受けた音声スペク
トルであっても適切に正規化を行える。
れば周波数軸に対して非線形な影響を受けた音声スペク
トルであっても適切に正規化を行える。
第1図は本発明の一実施例、第2図、第3図は従来技術
の説明図である。 図において、100は入力端子、101はスペクトル分析部、
102は近似直線計算部、103はスペクトル正規化部、104
は出力端子、105は分割周波数記憶部、200は入力端子、
201はスペクトル分析部、202は近似直線計算部、203は
スペクトル正規化部、204は出力端子である。
の説明図である。 図において、100は入力端子、101はスペクトル分析部、
102は近似直線計算部、103はスペクトル正規化部、104
は出力端子、105は分割周波数記憶部、200は入力端子、
201はスペクトル分析部、202は近似直線計算部、203は
スペクトル正規化部、204は出力端子である。
Claims (1)
- 【請求項1】入力された音声を分析しスペクトルを計算
するスペクトル分析部と、あらかじめ定められる周波数
を記憶する周波数記憶部と、前記スペクトルを前記周波
数により分割し、分割されたスペクトル内においてそれ
ぞれ近似直線を求めるに際して前記分割周波数において
前記近似直線が連続となるように近似直線を計算する近
似直線計算部と、前記スペクトルを前記近似直線により
正規化するスペクトル正規化部とから構成されることを
特徴とするスペクトル正規化装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63029676A JPH0814759B2 (ja) | 1988-02-09 | 1988-02-09 | スペクトル正規化装置 |
US07/308,905 US5001761A (en) | 1988-02-09 | 1989-02-08 | Device for normalizing a speech spectrum |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63029676A JPH0814759B2 (ja) | 1988-02-09 | 1988-02-09 | スペクトル正規化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01202799A JPH01202799A (ja) | 1989-08-15 |
JPH0814759B2 true JPH0814759B2 (ja) | 1996-02-14 |
Family
ID=12282715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63029676A Expired - Lifetime JPH0814759B2 (ja) | 1988-02-09 | 1988-02-09 | スペクトル正規化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0814759B2 (ja) |
-
1988
- 1988-02-09 JP JP63029676A patent/JPH0814759B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH01202799A (ja) | 1989-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0950239B1 (en) | Method and recognizer for recognizing a sampled sound signal in noise | |
US5054085A (en) | Preprocessing system for speech recognition | |
Kubala et al. | The hub and spoke paradigm for CSR evaluation | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
WO2000077772A2 (en) | Speech and voice signal preprocessing | |
EP0248593A1 (en) | Preprocessing system for speech recognition | |
JPH0797279B2 (ja) | 音声認識装置 | |
Strand et al. | On the feasibility of ASR in extreme noise using the PARAT earplug communication terminal | |
JPH0814759B2 (ja) | スペクトル正規化装置 | |
JPH0814760B2 (ja) | スペクトル正規化装置 | |
Dai et al. | An improved model of masking effects for robust speech recognition system | |
Marković et al. | Recognition of the Multimodal Speech Based on the GFCC features | |
Marković et al. | Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm | |
Barlaskar et al. | Study on the varying degree of speaker identity information reflected across the different MFCCs | |
JP2968976B2 (ja) | 音声認識装置 | |
Sigmund | Comparison of Different Kinds of Long-Time Spectra of Voice Estimated by Modified Linear Prediction to Distinguish Speakers | |
Paliwal et al. | Dynamic frequency warping for speaker adaptation in automatic speech recognition | |
JPH0441357B2 (ja) | ||
JP2975808B2 (ja) | 音声認識装置 | |
Niyozmatova et al. | Development Software for Preprocessing Voice Signals | |
JPS6029796A (ja) | 音声認識装置 | |
Levin et al. | Research of Window Function Influence on the Result of Arabic Speech Automatic Recognition | |
JPH0675596A (ja) | スピーチおよび音響学的現象分析装置 | |
JPH0316038B2 (ja) | ||
Psutka et al. | The influence of a filter shape in telephone-based recognition module using PLP parameterization |