JP4014374B2

JP4014374B2 - 音声分析方法

Info

Publication number: JP4014374B2
Application number: JP2001227597A
Authority: JP
Inventors: 計美大倉
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2001-07-27
Filing date: 2001-07-27
Publication date: 2007-11-28
Anticipated expiration: 2021-07-27
Also published as: JP2003044068A

Description

【０００１】
【発明の属する技術分野】
この発明は、特徴パラメータを抽出するための音声分析方法に関する。
【０００２】
【従来の技術】
音声分析方法として、音声信号からメル周波数ケプストラム係数（ＭＦＣＣ）を得る音声分析方法が知られている。ＭＦＣＣとは、メルスケール上で等間隔に配置された帯域フィルタバンクの出力からスペクトルの推定値を求め、得られたスペクトルからケプストラム係数に変換したパラメータをいう。
【０００３】
図１は、音声信号からＭＦＣＣを得るための従来の音声分析部の構成を示している。
【０００４】
ＦＦＴ／ＤＣＴ／ＬＰＣ分析部１は、ＦＦＴ、ＤＣＴ、ＬＰＣ分析等によって、音声信号からスペクトルを求める。ＢＰＦ２は、ＦＦＴ／ＤＣＴ／ＬＰＣ分析部１によって求められたスペクトルに、メルスケール上でほぼ等間隔に配置した帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める。
【０００５】
対数化処理部３は、各帯域でのスペクトルの推定値の対数を算出する。ＤＣＴ処理部４は、次式（６）の演算を行なうことにより、ＭＦＣＣを求める。
【０００６】
【数６】
【０００７】
上記式（６）において、ＭＦＣＣ_iは第ｉ次のＭＦＣＣ係数、Ｎは帯域フィルタバンクのチャンネル数、Ｘ_kはｋ番目の帯域フィルタのスペクトル推定値の対数値、Ｍは計算打切り次数を、それぞれ表している。
【０００８】
【発明が解決しようとする課題】
ところで、対数化処理部３は、パワーの小さい部分を強調するが、これは雑音が重畳した場合に起こるエンベロープの谷の変形も強調してしまうことになる。
【０００９】
この発明は、対数化処理によって雑音成分が強調されるのを低減することができる音声分析方法を提供することを目的とする。
【００１０】
【課題を解決するための手段】
この発明による第１の音声分析方法は、音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、第２ステップと第３ステップとの間に、第２ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられていることを特徴とする。
【００１１】
Ｖ_kをｋ番目の帯域フィルタのスペクトル推定値とし、Ｎを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、フロアリング処理を行なうステップでは、次式（７）、（８）または（９）に基づいて、Ｖ_k’が求められる。
【００１２】
【数７】
【００１３】
この発明による第２の音声分析方法は、音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、第１ステップと第２ステップとの間に、第１ステップで求められたスペクトルに対してフロアリング処理を行なうステップが設けられていることを特徴とする。
【００１４】
Ｓ_iをｉ番目のスペクトルとし、Ｌをスペクトルのポイント数とし、γを予め定めた定数とすると、フロアリング処理を行なうステップでは、次式（１０）に基づいて、Ｓ_i’が求められる。
【００１５】
【数８】
【００１６】
上記第１または第２の音声分析方法において、第３ステップと第４ステップとの間に、第３ステップで求められた対数に対して、ピーク強調処理を行なうステップを設けることが好ましい。
【００１７】
第３ステップで求められた対数値をＸ_kとし、αを重み係数とすると、ピーク強調処理を行なうステップでは、次式（１１）に基づいて、Ｙ_kが求められる。
【００１８】
【数９】
【００１９】
【発明の実施の形態】
以下、図面を参照して、この発明の実施の形態について説明する。
【００２０】
〔１〕第１の実施の形態の説明
【００２１】
図２は、音声分析部の構成を示している。
【００２２】
この実施の形態における音声分析部では、図１の従来例と比べると、フロアリング処理部１１およびピーク強調処理部１２が追加されている。
【００２３】
フロアリング処理部１１はＢＰＦ２の後段（対数化処理部３の前段）に設けられている。ピーク強調処理部１２は、対数化処理部３の後段（ＤＣＴ処理部４の前段）に設けられている。
【００２４】
〔１−１〕フロアリング処理部１１の説明
【００２５】
対数化処理部３は、パワーの小さい部分を強調するが、これは雑音が重畳した場合に起こるエンベロープの谷の変形も強調してしまうことになる。そこで、対数化処理部３の前段に、フロアリング処理部１１を設けて、ＢＰＦ２の出力値（帯域フィルタのスペクトル推定値）に対してフロアリング処理を行なうことにより、対数化処理部３によって雑音成分が強調されるのを低減している。
【００２６】
Ｖ_kをｋ番目の帯域フィルタのスペクトル推定値とすると、フロアリング処理部１１は次式（１２）によって、Ｖ_k’を求める。
【００２７】
【数１０】
【００２８】
上記数式（１２）において、Ｎは帯域フィルタバンクのチャンネル数であり、γは予め設定された定数である。
【００２９】
なお、次式（１３）または次式（１４）に基づいて、フロアリング処理を行なうようにしてもよい。
【００３０】
【数１１】
【００３１】
フロアリング処理部１１の出力はＶ_k’となるので、後段の対数化処理部３の出力Ｘ_kはlog Ｖ_k’となる。
【００３２】
〔１−２〕ピーク強調処理部１２の説明
【００３３】
ピーク強調処理部１２は、雑音に埋もれてしまった音声の特徴を回復させるために設けられている。
【００３４】
ピーク強調処理部１２は、対数化処理部３の出力Ｘ_kに対して高域強調を行なうことによりＹ_kを求める。Ｙ_kは、次式（１５）によって表される。
【００３５】
Ｙ_k＝α・ hpf_k＋ lpf_k …（１５）
【００３６】
上記式（１５）において、 hpf_kおよび lpf_kは、対数化処理部３の出力Ｘ_kを時系列とみなしたベクトルＸに対してハイパスおよびローパスのフィルタリング処理を行なった結果である。ピーク強調は、 hpf_kに重みαを付けることにより、実現している。
【００３７】
この実施の形態では、 hpf_kおよび lpf_kは、次式（１６）で表される。
【００３８】
【数１２】
【００３９】
αは、例えば、次式（１７）に示すように、決定される。
【００４０】
【数１３】
【００４１】
上記式（１７）において、βは予め定められた定数である。 hpf_k＞０の条件は、スペクトルの山の部分および谷の部分のうち、スペクトルの山の部分のみを強調するための条件である。ＳＮＲは当該フレームのＳＮＲであり、ＳＮＲ＞βは雑音区間における雑音スペクトルのピークを強調しないための条件である。つまり、スペクトルの山の部分でありかつ雑音が小さい場合に、α＝１．５となる。
【００４２】
なお、Ｙ_kを、次式（１８）に基づいて算出してもよい。
【００４３】
【数１４】
【００４４】
上記式（１８）におけるωを、 hpf_k，ＳＮＲに依存せずに固定値としてもよい。
【００４５】
なお、ＤＣＴ処理部４は、次式（１９）の演算を行なうことにより、ＭＦＣＣを求める。
【００４６】
【数１５】
【００４７】
上記式（１９）において、ＭＦＣＣ_iは第ｉ次のＭＦＣＣ係数、Ｎは帯域フィルタバンクのチャンネル数、Ｍは計算打切り次数を、それぞれ表している。
【００４８】
〔１−３〕実験の説明
音声認識装置の音声認識部として、次の４種類の音声分析部を用いて、認識率
の実験を行なった。
【００４９】
（１）図１の従来の音声分析部（以下、従来例という）
（２）従来例に上記実施の形態におけるピーク強調処理部１２を追加した音声分析部（３）従来例に上記実施の形態におけるフロアリング処理部１１を追加した音声分析部
（４）上記実施の形態の音声分析部
【００５０】
不特定話者モデルは、日本音響学会連続音声データベースの男性話者３０名および独自に収録した５０名の音声資料から作成した。評価には、電子協日本語共通音声データ（ＪＳ−ＷＲＤ−８９−００３１）に含まれる男女１４０名の発声した地名１００単語を用いた。雑音データには、電子協雑音データベースから自動車内雑音と駅通路雑音とを用いた。
【００５１】
分析条件等を表１に示す。特徴量としては、ＭＦＣＣおよびＭＦＣＣと対数パワーの回帰係数とを用いた。辞書数は１００語として評価した。本実験では、目視切り出しを行い、上記式（１２）のγを３００とし、上記式（１５）のαを１．５とした。
【００５２】
【表１】
【００５３】
雑音データとして自動車内雑音を用いた場合の実験結果を表２に、雑音データとして駅通路雑音雑音を用いた場合の実験結果を表３に、それぞれ示す。
【００５４】
【表２】
【００５５】
【表３】
【００５６】
実験結果から、ピーク強調処理部１２およびフロアリング処理部１１の一方または両方を追加した場合には、従来例に比べて認識性能が向上していることがわかる。
【００５７】
〔２〕第２の実施の形態の説明
【００５８】
図３は、音声分析部の構成を示している。図３において、図２と同じものには、同じ符号を付してある。
【００５９】
第１の実施の形態と比べると、第２の実施の形態では、フロアリング処理部１１の位置が異なっている。つまり、フロアリング処理部１１は、ＦＦＴ／ＤＣＴ／ＬＰＣ分析部１の後段（ＢＰＦ２の前段）に設けられている。
【００６０】
Ｓ_iをｉ番目のＦＦＴスペクトルとすると、フロアリング処理部１１は次式（２０）によって、Ｓ_i’を求める。
【００６１】
【数１６】
【００６２】
上記数式（２０）において、ＬはＦＦＴスペクトルのポイント数であり、γは予め定められた定数である。
【００６３】
上記第１および第２の実施の形態におけるＢＰＦ２では、複数のバンドパスフィルタをメルスケール上でほぼ等間隔となるように配置したが、複数のバンドパスフィルタを対数周波数軸上でほぼ等間隔になるように配置してもよいし、臨界帯域スケールに沿った間隔で配置してもよい。また、その他の提案されている不均等フィルタバンク設計の基準に沿ってＢＰＦ２を設計してもよい。
【００６４】
【発明の効果】
この発明によれば、対数化処理によって雑音成分が強調されるのを低減することができるようになる。
【図面の簡単な説明】
【図１】従来例を示すブロック図である。
【図２】この発明の第１の実施の形態である音声分析部の構成を示すブロック図である。
【図３】この発明の第２の実施の形態である音声分析部の構成を示すブロック図である。
【符号の説明】
１ＦＦＴ／ＤＣＴ／ＬＰＣ分析部
２ＢＰＦ
３対数化処理部
４ＤＣＴ処理部
１１フロアリング処理部
１２ピーク強調処理部

Claims

音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、
第２ステップと第３ステップとの間に、第２ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
フロアリング処理を行なうステップでは、Ｖ _k をｋ番目の帯域フィルタのスペクトル推定値とし、Ｎを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式（１）に基づいて、Ｖ _k ’を求めることを特徴とする音声分析方法。
音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、
第２ステップと第３ステップとの間に、第２ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
フロアリング処理を行なうステップでは、Ｖ _k をｋ番目の帯域フィルタのスペクトル推定値とし、Ｎを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式（２）に基づいて、Ｖ _k ’を求めることを特徴とする音声分析方法。
音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、
第２ステップと第３ステップとの間に、第２ステップで求められた各帯域でのスペクトルの推定値に対してフロアリング処理を行なうステップが設けられてなり、
フロアリング処理を行なうステップでは、Ｖ _k をｋ番目の帯域フィルタのスペクトル推定値とし、Ｎを帯域フィルタバンクのチャンネル数とし、γを予め定めた定数とすると、次式（３）に基づいて、Ｖ _k ’を求めることを特徴とする音声分析方法。
音声信号からスペクトルを求める第１ステップ、第１ステップで求められたスペクトルに、帯域フィルタバンクの特性の重みをかけて和をとることにより、各帯域でのスペクトルの推定値を求める第２ステップ、各帯域でのスペクトルの推定値の対数を算出する第３ステップ、および各帯域でのスペクトルの推定値の対数に基づいてケプストラム係数を求める第４ステップを備えている音声分析方法において、
第１ステップと第２ステップとの間に、第１ステップで求められたスペクトルに対してフロアリング処理を行なうステップが設けられてなり、
フロアリング処理を行なうステップでは、Ｓ _i をｉ番目のスペクトルとし、Ｌをスペクトルのポイント数とし、γを予め定めた定数とすると、次式（４）に基づいて、Ｓ _i ’を求めることを特徴とする音声分析方法。
第３ステップと第４ステップとの間に、第３ステップで求められた対数に対して、ピーク強調処理を行なうステップが設けられていることを特徴とする請求項１、２、３、および４のいずれかに記載の音声分析方法。
第３ステップで求められた対数値をＸ_kとし、Ｎを帯域フィルタバンクのチャンネル数とし、αを重み係数とすると、ピーク強調処理を行なうステップでは、次式（５）に基づいて、Ｙ_kを求めるものである請求項５に記載の音声分析方法。