JP4014374B2 - 音声分析方法 - Google Patents

音声分析方法 Download PDF

Info

Publication number
JP4014374B2
JP4014374B2 JP2001227597A JP2001227597A JP4014374B2 JP 4014374 B2 JP4014374 B2 JP 4014374B2 JP 2001227597 A JP2001227597 A JP 2001227597A JP 2001227597 A JP2001227597 A JP 2001227597A JP 4014374 B2 JP4014374 B2 JP 4014374B2
Authority
JP
Japan
Prior art keywords
spectrum
band
obtaining
analysis method
logarithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001227597A
Other languages
English (en)
Other versions
JP2003044068A (ja
Inventor
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2001227597A priority Critical patent/JP4014374B2/ja
Publication of JP2003044068A publication Critical patent/JP2003044068A/ja
Application granted granted Critical
Publication of JP4014374B2 publication Critical patent/JP4014374B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【0001】
【発明の属する技術分野】
この発明は、特徴パラメータを抽出するための音声分析方法に関する。
【0002】
【従来の技術】
音声分析方法として、音声信号からメル周波数ケプストラム係数(MFCC)を得る音声分析方法が知られている。MFCCとは、メルスケール上で等間隔に配置された帯域フィルタバンクの出力からスペクトルの推定値を求め、得られたスペクトルからケプストラム係数に変換したパラメータをいう。
【0003】
図1は、音声信号からMFCCを得るための従来の音声分析部の構成を示している。
【0004】
FFT/DCT/LPC分析部1は、FFT、DCT、LPC分析等によって、音声信号からスペクトルを求める。BPF2は、FFT/DCT/LPC分析部1によって求められたスペクトルに、メルスケール上でほぼ等間隔に配置した帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める。
【0005】
対数化処理部3は、各帯域でのスペクトルの推定値の対数を算出する。DCT処理部4は、次式(6)の演算を行なうことにより、MFCCを求める。
【0006】
【数6】
【0007】
上記式(6)において、MFCCi は第i次のMFCC係数、Nは帯域フィルタバンクのチャンネル数、Xk はk番目の帯域フィルタのスペクトル推定値の対数値、Mは計算打切り次数を、それぞれ表している。
【0008】
【発明が解決しようとする課題】
ところで、対数化処理部3は、パワーの小さい部分を強調するが、これは雑音が重畳した場合に起こるエンベロープの谷の変形も強調してしまうことになる。
【0009】
この発明は、対数化処理によって雑音成分が強調されるのを低減することができる音声分析方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
この発明による第1の音声分析方法は、音声信号からスペクトルを求める第1ステップ、第1ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、第2ステップと第3ステップとの間に、第2ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられていることを特徴とする。
【0011】
k をk番目の帯域フィルタのスペクトル推定値とし、Nを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、フロアリング処理を行なうステップでは、次式(7)、(8)または(9)に基づいて、Vk ’が求められる。
【0012】
【数7】
【0013】
この発明による第2の音声分析方法は、音声信号からスペクトルを求める第1ステップ、第1ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、第1ステップと第2ステップとの間に、第1ステップで求められたスペクトルに対してフロアリング処理を行なうステップが設けられていることを特徴とする。
【0014】
i をi番目のスペクトルとし、Lをスペクトルのポイント数とし、γを予め定めた定数とすると、フロアリング処理を行なうステップでは、次式(10)に基づいて、Si ’が求められる。
【0015】
【数8】
【0016】
上記第1または第2の音声分析方法において、第3ステップと第4ステップとの間に、第3ステップで求められた対数に対して、ピーク強調処理を行なうステップを設けることが好ましい。
【0017】
第3ステップで求められた対数値をXk とし、αを重み係数とすると、ピーク強調処理を行なうステップでは、次式(11)に基づいて、Yk が求められる。
【0018】
【数9】
【0019】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態について説明する。
【0020】
〔1〕第1の実施の形態の説明
【0021】
図2は、音声分析部の構成を示している。
【0022】
この実施の形態における音声分析部では、図1の従来例と比べると、フロアリング処理部11およびピーク強調処理部12が追加されている。
【0023】
フロアリング処理部11はBPF2の後段(対数化処理部3の前段)に設けられている。ピーク強調処理部12は、対数化処理部3の後段(DCT処理部4の前段)に設けられている。
【0024】
〔1−1〕フロアリング処理部11の説明
【0025】
対数化処理部3は、パワーの小さい部分を強調するが、これは雑音が重畳した場合に起こるエンベロープの谷の変形も強調してしまうことになる。そこで、対数化処理部3の前段に、フロアリング処理部11を設けて、BPF2の出力値(帯域フィルタのスペクトル推定値)に対してフロアリング処理を行なうことにより、対数化処理部3によって雑音成分が強調されるのを低減している。
【0026】
k をk番目の帯域フィルタのスペクトル推定値とすると、フロアリング処理部11は次式(12)によって、Vk ’を求める。
【0027】
【数10】
【0028】
上記数式(12)において、Nは帯域フィルタバンクのチャンネル数であり、γは予め設定された定数である。
【0029】
なお、次式(13)または次式(14)に基づいて、フロアリング処理を行なうようにしてもよい。
【0030】
【数11】
【0031】
フロアリング処理部11の出力は Vk ’となるので、後段の対数化処理部3の出力Xk はlog Vk ’となる。
【0032】
〔1−2〕ピーク強調処理部12の説明
【0033】
ピーク強調処理部12は、雑音に埋もれてしまった音声の特徴を回復させるために設けられている。
【0034】
ピーク強調処理部12は、対数化処理部3の出力Xk に対して高域強調を行なうことによりYk を求める。Yk は、次式(15)によって表される。
【0035】
k =α・ hpfk + lpfk …(15)
【0036】
上記式(15)において、 hpfk および lpfk は、対数化処理部3の出力Xk を時系列とみなしたベクトルXに対してハイパスおよびローパスのフィルタリング処理を行なった結果である。ピーク強調は、 hpfk に重みαを付けることにより、実現している。
【0037】
この実施の形態では、 hpfk および lpfk は、次式(16)で表される。
【0038】
【数12】
【0039】
αは、例えば、次式(17)に示すように、決定される。
【0040】
【数13】
【0041】
上記式(17)において、βは予め定められた定数である。 hpfk >0の条件は、スペクトルの山の部分および谷の部分のうち、スペクトルの山の部分のみを強調するための条件である。SNRは当該フレームのSNRであり、SNR>βは雑音区間における雑音スペクトルのピークを強調しないための条件である。つまり、スペクトルの山の部分でありかつ雑音が小さい場合に、α=1.5となる。
【0042】
なお、Yk を、次式(18)に基づいて算出してもよい。
【0043】
【数14】
【0044】
上記式(18)におけるωを、 hpfk ,SNRに依存せずに固定値としてもよい。
【0045】
なお、DCT処理部4は、次式(19)の演算を行なうことにより、MFCCを求める。
【0046】
【数15】
【0047】
上記式(19)において、MFCCi は第i次のMFCC係数、Nは帯域フィルタバンクのチャンネル数、Mは計算打切り次数を、それぞれ表している。
【0048】
〔1−3〕実験の説明
音声認識装置の音声認識部として、次の4種類の音声分析部を用いて、認識率
の実験を行なった。
【0049】
(1)図1の従来の音声分析部(以下、従来例という)
(2)従来例に上記実施の形態におけるピーク強調処理部12を追加した音声分析部(3)従来例に上記実施の形態におけるフロアリング処理部11を追加した音声分析部
(4)上記実施の形態の音声分析部
【0050】
不特定話者モデルは、日本音響学会連続音声データベースの男性話者30名および独自に収録した50名の音声資料から作成した。評価には、電子協日本語共通音声データ(JS−WRD−89−0031)に含まれる男女140名の発声した地名100単語を用いた。雑音データには、電子協雑音データベースから自動車内雑音と駅通路雑音とを用いた。
【0051】
分析条件等を表1に示す。特徴量としては、MFCCおよびMFCCと対数パワーの回帰係数とを用いた。辞書数は100語として評価した。本実験では、目視切り出しを行い、上記式(12)のγを300とし、上記式(15)のαを1.5とした。
【0052】
【表1】
【0053】
雑音データとして自動車内雑音を用いた場合の実験結果を表2に、雑音データとして駅通路雑音雑音を用いた場合の実験結果を表3に、それぞれ示す。
【0054】
【表2】
【0055】
【表3】
【0056】
実験結果から、ピーク強調処理部12およびフロアリング処理部11の一方または両方を追加した場合には、従来例に比べて認識性能が向上していることがわかる。
【0057】
〔2〕第2の実施の形態の説明
【0058】
図3は、音声分析部の構成を示している。図3において、図2と同じものには、同じ符号を付してある。
【0059】
第1の実施の形態と比べると、第2の実施の形態では、フロアリング処理部11の位置が異なっている。つまり、フロアリング処理部11は、FFT/DCT/LPC分析部1の後段(BPF2の前段)に設けられている。
【0060】
i をi番目のFFTスペクトルとすると、フロアリング処理部11は次式(20)によって、Si ’を求める。
【0061】
【数16】
【0062】
上記数式(20)において、LはFFTスペクトルのポイント数であり、γは予め定められた定数である。
【0063】
上記第1および第2の実施の形態におけるBPF2では、複数のバンドパスフィルタをメルスケール上でほぼ等間隔となるように配置したが、複数のバンドパスフィルタを対数周波数軸上でほぼ等間隔になるように配置してもよいし、臨界帯域スケールに沿った間隔で配置してもよい。また、その他の提案されている不均等フィルタバンク設計の基準に沿ってBPF2を設計してもよい。
【0064】
【発明の効果】
この発明によれば、対数化処理によって雑音成分が強調されるのを低減することができるようになる。
【図面の簡単な説明】
【図1】従来例を示すブロック図である。
【図2】この発明の第1の実施の形態である音声分析部の構成を示すブロック図である。
【図3】この発明の第2の実施の形態である音声分析部の構成を示すブロック図である。
【符号の説明】
1 FFT/DCT/LPC分析部
2 BPF
3 対数化処理部
4 DCT処理部
11 フロアリング処理部
12 ピーク強調処理部

Claims (6)

  1. 音声信号からスペクトルを求める第1ステップ、第1ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、
    第2ステップと第3ステップとの間に、第2ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
    フロアリング処理を行なうステップでは、V k をk番目の帯域フィルタのスペクトル推定値とし、Nを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式(1)に基づいて、V k ’を求めることを特徴とする音声分析方法。
  2. 音声信号からスペクトルを求める第1ステップ、第1ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、
    第2ステップと第3ステップとの間に、第2ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
    フロアリング処理を行なうステップでは、V k をk番目の帯域フィルタのスペクトル推定値とし、Nを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式(2)に基づいて、V k ’を求めることを特徴とする音声分析方法。
  3. 音声信号からスペクトルを求める第1ステップ、第1ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、
    第2ステップと第3ステップとの間に、第2ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
    フロアリング処理を行なうステップでは、V k をk番目の帯域フィルタのスペクトル推定値とし、Nを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式(3)に基づいて、V k ’を求めることを特徴とする音声分析方法。
  4. 音声信号からスペクトルを求める第1ステップ、第1ステップで求め られたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第2ステップ、各帯域でのスペクトルの推定値の対数を算出する第3ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第4ステップを備えている音声分析方法において、
    第1ステップと第2ステップとの間に、第1ステップで求められたスペクトルに対してフロアリング処理を行なうステップが設けられてなり、
    フロアリング処理を行なうステップでは、S i をi番目のスペクトルとし、Lをスペクトルのポイント数とし、γを予め定めた定数とすると、次式(4)に基づいて、S i ’を求めることを特徴とする音声分析方法。
  5. 第3ステップと第4ステップとの間に、第3ステップで求められた対数に対して、ピーク強調処理を行なうステップが設けられていることを特徴とする請求項1、2、3、および4のいずれかに記載の音声分析方法。
  6. 第3ステップで求められた対数値をXk とし、Nを帯域フィルタバンクのチャンネル数とし、αを重み係数とすると、ピーク強調処理を行なうステップでは、次式(5)に基づいて、Yk を求めるものである請求項5に記載の音声分析方法。
JP2001227597A 2001-07-27 2001-07-27 音声分析方法 Expired - Fee Related JP4014374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001227597A JP4014374B2 (ja) 2001-07-27 2001-07-27 音声分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001227597A JP4014374B2 (ja) 2001-07-27 2001-07-27 音声分析方法

Publications (2)

Publication Number Publication Date
JP2003044068A JP2003044068A (ja) 2003-02-14
JP4014374B2 true JP4014374B2 (ja) 2007-11-28

Family

ID=19060234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001227597A Expired - Fee Related JP4014374B2 (ja) 2001-07-27 2001-07-27 音声分析方法

Country Status (1)

Country Link
JP (1) JP4014374B2 (ja)

Also Published As

Publication number Publication date
JP2003044068A (ja) 2003-02-14

Similar Documents

Publication Publication Date Title
JP4177755B2 (ja) 発話特徴抽出システム
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
JP2004531767A5 (ja)
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其系统
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
US20080167866A1 (en) Spectro-temporal varying approach for speech enhancement
JP2003517624A (ja) 低ビットレート・スピーチ・コーダのためのノイズ抑圧
CN101976566A (zh) 语音增强方法及应用该方法的装置
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
CN103827967B (zh) 语音信号复原装置以及语音信号复原方法
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
JP4434813B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
JP2836271B2 (ja) 雑音除去装置
KR19990028308A (ko) 전력 스펙트럼밀도 추정방법 및 장치
JPH11265199A (ja) 送話器
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
JP4014374B2 (ja) 音声分析方法
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Hammam et al. Blind signal separation with noise reduction for efficient speaker identification
Lockwood et al. Noise reduction for speech enhancement in cars: Non-linear spectral subtraction/kalman filtering
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Yamashita et al. Spectral subtraction iterated with weighting factors
JP3279254B2 (ja) スペクトル雑音除去装置
JP3586205B2 (ja) 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070911

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100921

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees