JPH0814759B2 - スペクトル正規化装置 - Google Patents

スペクトル正規化装置

Info

Publication number
JPH0814759B2
JPH0814759B2 JP63029676A JP2967688A JPH0814759B2 JP H0814759 B2 JPH0814759 B2 JP H0814759B2 JP 63029676 A JP63029676 A JP 63029676A JP 2967688 A JP2967688 A JP 2967688A JP H0814759 B2 JPH0814759 B2 JP H0814759B2
Authority
JP
Japan
Prior art keywords
spectrum
straight line
frequency
approximate straight
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63029676A
Other languages
English (en)
Other versions
JPH01202799A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63029676A priority Critical patent/JPH0814759B2/ja
Priority to US07/308,905 priority patent/US5001761A/en
Publication of JPH01202799A publication Critical patent/JPH01202799A/ja
Publication of JPH0814759B2 publication Critical patent/JPH0814759B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置などの前処理に用いられる音声
スペクトルの正規化に関する。
(従来の技術) 雑音下で発声された音声の認識は非常に困難である。
これは音声が雑音によりマスクされるだけでなく、1911
年にロンバード(Lombard)によって示されたロンバー
ド効果として知られる発声自身の変形があるためであ
る。ロンバード効果は雑音により発声が発声者自身に取
って聞き取り辛くなるために、発声者がより大きく、よ
り明瞭に発声しようとするために生じる。同一話者が静
かな環境と高雑音下において発声した母音/a/のスペク
トルを第2図に示す。第2図において実線は静かな環境
において発声された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
2図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなくそのスペクトルの概形
も変化している。
スペクトル概形の補正方法としては不特定話者の音声
認識を目的とした三輪らの“音声認識のための話者正規
化の検討”、日本音響学会講演論文集3−2−1、pp.5
77−578、1979年6月(以下、文献1と呼ぶ)がある。
第3図を用いて文献1によるスペクトル正規化法を説
明する。入力端子200に音声が入力されたとする。スペ
クトル分析部201は信号線210より音声を受け取り、帯域
フイルタ群(29チャンネル、中心周波数250kHz〜6300H
z、1/6オクターブ間隔、Q=6、広域強調無し)により
分析を行い振幅、周波数とも対数で表現された音声スペ
クトル{S(n)、n=1、29}を10ms毎に信号線211
および信号線212へ出力する。近似直線計算部202は信号
線212より音声スペクトルを受け取り最小2乗誤差を与
える近似直線N(n)=a×n+bを計算し、係数a、
bを信号線213へ出力する。スペクトル正規化部203は信
号線211より音声スペクトルを信号線213より近似直線の
係数を受け取り正規化スペクトル{SN(n)、n=1、
29}をSN(n)=S(n)−a×n−bとして計算し信
号線214を介して出力端子204へ出力する。
(発明が解決しようとする問題点) しかしながら、従来のスペクトル正規化法は声道長の
個人差に起因する影響を補正しようとするものであり、
対数周波数軸に対して線形な影響を正規化することを目
的とした方法である。しかし、第2図に示したようにロ
ンバード効果は2.5kHz〜4kHzにおけるエネルギーの顕著
な上昇として現れており、その影響は対数周波数軸に対
して非線形であると考えられる。したがって、従来の1
次近似式では十分に近似できない。
(発明の構成) 本発明は入力された音声を分析しスペクトルを計算す
るスペクトル分析部と、あらかじめ定められる周波数を
記憶する周波数記憶部と前記スペクトルを前記周波数に
より分割し、分割されたスペクトル内においてそれぞれ
近似直線を求めるに際して前記分割周波数において前記
近似直線が連続となるように近似直線を計算する近似直
線計算部と、前記スペクトルを前記近似直線により正規
化するスペクトル正規化部とから構成されることを特徴
とする。
(作用) ロンバード効果は周波数領域におけるエネルギーの上
昇が対数周波数軸に対して線形ではなく、2.5〜4kHzで
のエネルギーの顕著な上昇として現れる。したがって、
ロンバード効果は従来のようにスペクトルの1次近似直
線で正規化することはできない。
そこで、本発明はある定められた周波数においてスペ
クトルを分割し、分割されたスペクトル毎に1次近似直
線を求める際に、分割点においてそれら1次近似直線が
連続となるように1次近似直線を求め、スペクトルの正
規化を行うものである。
いま、音声から得られたスペクトルをS(ω)とす
る。このスペクトルS(ω)を定められた周波数ωcに
おいて{S1(ω)、ω<ωc}と{S2(ω)、ω≧ω
c}に分割する。分割したS1(ω)、S2(ω)ごとに近
似直線N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を
求める。但し、分割点において不連続とならないよう条
件 a1×ωc+b1=a2×ωc+b2 (1) を加える。係数a1、a2、b1、b2はこの条件式および2乗
誤差 ε=∫{S1(ω)−N1(ω)}2dω+∫{S2(ω)−N
2(ω)}U2dω (2) を最小化する条件により求められる。
正規化スペクトルSN(ω)は次式により与えられる。
このようにすることにより従来の最小2乗直線による
正規化では補正できなかったスペクトルの変形、すなわ
ち、ロンバード効果に見られる特定のある周波数を中心
にエネルギーが上昇するようなスペクトルの変形を正規
化することができる。
(実施例) 第1図に示すのは本発明の一実施例である。
入力端子100には音声が入力されたとする。
スペクトル分析部101は信号線110より音声を受け取
り、音声スペクトルS(ω)を計算する。スペクトル分
析部の例は文献1に示されている。
近似直線計算部102は信号線111により音声スペクトル
S(ω)を受け取り、信号線117より分割周波数記憶部1
05内にあらかじめ保持されている分割周波数ωcを読出
しこの分割周波数ωcによりS(ω)をS1(ω)、S2
(ω)に分割し、S1(ω)、S2(ω)毎に1次近似直線
N1(ω)=a1×ω+b1、N2(ω)=a2×ω+b2を(1)
式の条件のもとで(2)式を最小にするよう係数a1、a
2、b1、b2、をもとめ、信号線112へ係数a1、a2、b1、b
2、およびωcを出力する。ωcとしては例えばロンバ
ード効果の正規化ならば2.5〜4kHzにスペクトルの上昇
の中心が存在するので2.5〜4kHz内の周波数を選べばよ
い。
スペクトル正規化部103は信号線112より係数a1、a2、
b1、b2および分割周波数ωcを、信号線113より音声ス
ペクトルS(ω)を受け取り正規化スペクトルSN(ω)
として求め、信号線115を介して端子104へ出力する。
(発明の効果) 以上のように本発明によるスペクトル正規化装置によ
れば周波数軸に対して非線形な影響を受けた音声スペク
トルであっても適切に正規化を行える。
【図面の簡単な説明】
第1図は本発明の一実施例、第2図、第3図は従来技術
の説明図である。 図において、100は入力端子、101はスペクトル分析部、
102は近似直線計算部、103はスペクトル正規化部、104
は出力端子、105は分割周波数記憶部、200は入力端子、
201はスペクトル分析部、202は近似直線計算部、203は
スペクトル正規化部、204は出力端子である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された音声を分析しスペクトルを計算
    するスペクトル分析部と、あらかじめ定められる周波数
    を記憶する周波数記憶部と、前記スペクトルを前記周波
    数により分割し、分割されたスペクトル内においてそれ
    ぞれ近似直線を求めるに際して前記分割周波数において
    前記近似直線が連続となるように近似直線を計算する近
    似直線計算部と、前記スペクトルを前記近似直線により
    正規化するスペクトル正規化部とから構成されることを
    特徴とするスペクトル正規化装置。
JP63029676A 1988-02-09 1988-02-09 スペクトル正規化装置 Expired - Lifetime JPH0814759B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63029676A JPH0814759B2 (ja) 1988-02-09 1988-02-09 スペクトル正規化装置
US07/308,905 US5001761A (en) 1988-02-09 1989-02-08 Device for normalizing a speech spectrum

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63029676A JPH0814759B2 (ja) 1988-02-09 1988-02-09 スペクトル正規化装置

Publications (2)

Publication Number Publication Date
JPH01202799A JPH01202799A (ja) 1989-08-15
JPH0814759B2 true JPH0814759B2 (ja) 1996-02-14

Family

ID=12282715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63029676A Expired - Lifetime JPH0814759B2 (ja) 1988-02-09 1988-02-09 スペクトル正規化装置

Country Status (1)

Country Link
JP (1) JPH0814759B2 (ja)

Also Published As

Publication number Publication date
JPH01202799A (ja) 1989-08-15

Similar Documents

Publication Publication Date Title
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
US5054085A (en) Preprocessing system for speech recognition
Kubala et al. The hub and spoke paradigm for CSR evaluation
US6701291B2 (en) Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
WO2000077772A2 (en) Speech and voice signal preprocessing
EP0248593A1 (en) Preprocessing system for speech recognition
JPH0797279B2 (ja) 音声認識装置
Strand et al. On the feasibility of ASR in extreme noise using the PARAT earplug communication terminal
JPH0814759B2 (ja) スペクトル正規化装置
JPH0814760B2 (ja) スペクトル正規化装置
Dai et al. An improved model of masking effects for robust speech recognition system
Marković et al. Recognition of the Multimodal Speech Based on the GFCC features
Marković et al. Recognition of normal and whispered speech based on RASTA filtering and DTW algorithm
Barlaskar et al. Study on the varying degree of speaker identity information reflected across the different MFCCs
JP2968976B2 (ja) 音声認識装置
Sigmund Comparison of Different Kinds of Long-Time Spectra of Voice Estimated by Modified Linear Prediction to Distinguish Speakers
Paliwal et al. Dynamic frequency warping for speaker adaptation in automatic speech recognition
JPH0441357B2 (ja)
JP2975808B2 (ja) 音声認識装置
Niyozmatova et al. Development Software for Preprocessing Voice Signals
JPS6029796A (ja) 音声認識装置
Levin et al. Research of Window Function Influence on the Result of Arabic Speech Automatic Recognition
JPH0675596A (ja) スピーチおよび音響学的現象分析装置
JPH0316038B2 (ja)
Psutka et al. The influence of a filter shape in telephone-based recognition module using PLP parameterization