JP2006235243A

JP2006235243A - 音響信号分析装置及び音響信号分析プログラム

Info

Publication number: JP2006235243A
Application number: JP2005049782A
Authority: JP
Inventors: Kazuyoshi Fukushi; 和義福士
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2005-02-24
Filing date: 2005-02-24
Publication date: 2006-09-07

Abstract

【課題】任意の周波数に対応してフィルタバンクを設定し、非線形周波数軸に対応した音響信号分析を行うと、音声フレームの微小なずれや微小ノイズにより、スペクトル包絡情報が変動する。
【解決手段】任意に設定し得る分析周波数において、当該分析周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行い、パワースペクトルを生成する（Ｓ２２０）。線形予測分析等、パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成する（Ｓ２３０〜Ｓ２５０）。
【選択図】図３

Description

本発明は、音響信号を高精度に分析する技術に関するものであり、特に分析対象である音響信号の周波数特性に応じて周波数軸を変換することにより、音響信号を高精度に分析する装置及びプログラムに関するものである。

音響信号の周波数特性を分析してパラメータ化する試みは古くから行われており、得られたパラメータを利用して音声認識、音声認証、音響信号圧縮など様々な応用技術が研究、開発されている。中でも、線形予測分析（Linear Predictive Coding：ＬＰＣ）や線形予測モデルに基づいてケプストラムを求めるＬＰＣケプストラム分析などは、少ないパラメータのみで、分析対象となる音響信号の周波数スペクトルに対してスペクトル包絡線と呼ばれる良い近似曲線を得ることができるため、広く用いられている。

また、人間の聴覚は低域を重視していることが知られており、このような聴覚特性を反映させて分析したパラメータを用いると品質の良い音響信号圧縮が可能となり、また、音声認識や音声認証においても精度向上が可能となることが知られている。そのために、分析の過程に、通常の等間隔な周波数軸（リニア周波数軸）から聴覚特性に合わせた不等間隔な周波数軸（非線形周波数軸）に周波数帯域を圧縮または伸張する周波数軸変換を採り入れた分析方法が研究、開発されてきた。聴覚特性としてはメルスケールやバークスケールなどが知られている。

ところで、電話音声や特定の楽器による楽音など、限られた範囲以外の周波数成分が大きく減衰している音響信号を扱う場合、分析次数パラメータの自由度が減衰特性を近似することに使われてしまい、本来精密に分析しなければならない帯域での分析精度が劣化するという問題がある。分析パラメータの分解能をこれらの限られた帯域に集中させることができれば、分析精度向上につながる。例えば、電話音声の特性は図１１に示すように３００Ｈｚ以下および３４００Ｈｚ以上の帯域が大きく減衰する周波数特性を有しているので、３００〜３４００Ｈｚの帯域のみで分析することが望ましい。

従来技術としてＭＦＣＣ（Mel Frequency Cepstral Coefficients）と呼ばれるパラメータの分析方法が非特許文献１によって開示されている。ＭＦＣＣは、窓掛けにより切り出された音響信号をＦＦＴ分析して、そのパワースペクトルに対してメルスケールのフィルタバンクを施して周波数軸変換を行い、周波数軸変換されたパワースペクトルに対して離散コサイン変換（Discrete Cosine Transform：ＤＣＴ）を実行することで、スペクトル包絡を表すパラメータを抽出する。

もうひとつの従来技術としてＰＬＰ（Perceptual Linear Prediction）と呼ばれるパラメータ分析方法が非特許文献２によって開示されている。この手法もＭＦＣＣと同様に、窓掛けした音響信号のＦＦＴスペクトルにメルスケールのフィルタバンクを施して周波数軸変換を行う。その後、周波数軸変換されたパワースペクトルをフーリエ変換して自己相関関数を求め、自己相関関数からＬＰＣ係数を計算する。
S. Davis and P. Mermelstein, "Comparison of parametric representationsfor monosyllabic word recognition", In Proc. 1980 ICASSP, pages 357-366,1980. H. Hermansky, "Perceptuallinear predictive (PLP) analysis of speech", J. Acoust. Soc. Amer., vol.87, pp. 1738-1752, 1990.

上述の従来手法はそれぞれ、以下のような問題を有している。

非特許文献１のＭＦＣＣや非特許文献２のＰＬＰでは、窓掛けした音響信号のＦＦＴスペクトルに対するフィルタバンク処理を行うため、音声信号から切り出される分析フレームの微小なずれや、微小な雑音の影響を受け、推定パラメータが変動するといった問題がある。以下、ＭＦＣＣの場合を例にとり、この点について詳細に説明する。

図１２はＭＦＣＣやＰＬＰでＦＦＴスペクトルに施すフィルタバンクの特性を示す模式図である。横軸は周波数、縦軸は強度を表している。この例ではフィルタバンクは１０個のフィルタから構成され、各フィルタの分析周波数（各フィルタの中心の周波数）はメルスケール上で等間隔に配置されており、分析周波数の間隔と各フィルタのバンド幅は低域ほど狭く、高域ほど広く設計されている。すなわち、このフィルタバンクの出力は低域ほど分解能が高くなる。ＦＦＴスペクトルの値にこのフィルタバンクの係数を乗じて、対応するバンドでのエネルギーを計算する。すなわち、ＭＦＣＣで参照するパワースペクトルは「メルスケール上で等間隔に配置された分析周波数を中心とする平均的パワー」であるといえる。この「平均的パワー」を使用するところから、以下に示すような「分析フレームのずれ」や「微小ノイズ」により推定スペクトルが影響を受けるという問題が生ずる。

図１３は、定常状態にある音声波形を例示したものであり、横軸は時間、縦軸は振幅である。図示するように、音声信号の一部を３０ｍｓの窓長で切り出した音声フレームデータをdata1、また、data1に対して微小に４ｍｓだけずらした音声フレームデータをdata2とする。

図１４は、音声フレームデータをＦＦＴ分析したパワースペクトルの例であり、横軸は周波数、縦軸は強度を表す。図１４の実線、点線は、それぞれ、data1、data2のパワースペクトルである。両者の間には誤差が見られ、特に微細構造（パワースペクトルの細かな変化）の谷部分では顕著である。このような誤差は、窓関数や分析フレームとピッチ位置との相対関係によって現れるもので、ＦＦＴ分析においては頻繁に観察されることである。

図１５は、音声フレームデータを分析して得たＭＦＣＣから求めたスペクトル包絡の例であり、横軸は周波数、縦軸は強度を表す。図１５の実線、点線は、それぞれ、data1、data2のスペクトル包絡である。つまり、図１４のパワースペクトルにフィルタバンクを施して周波数軸変換を行い、周波数軸変換されたパワースペクトルに対してＤＣＴを実行した結果が図１５である。分析周波数帯は３００〜３４００Ｈｚに制限してある。data1とdata2は定常的な音声データから切り出されたものであり、特性はほぼ同一であるので、図１５の実線と点線はほぼ同一となることが理想的な結果であるが、実際には両者の間には誤差が観察される。この誤差はフィルタバンク処理の平均的パワーを計算する性質により、分析周波数周辺のＦＦＴ分析の誤差、特に微細構造の谷部分の誤差の影響を受けて生じているものと考えられる。

このように音響信号の定常的な部分でも安定した分析結果を得られない現象は、高精度な音声認識や音声認証を実現する際に問題となる。すなわち、音声認識や音声認証の分野では高精度化のためにスペクトル包絡を表すパラメータの時間差分（Δ係数）や加速度（Δ^２係数）を利用することが多く、これらの係数では前記誤差がより強調されてしまう。

また、分析誤差は微小な雑音によっても生じることがある。図１６は前述の音声フレームデータdata1に微小な雑音を重畳した音声フレームデータdata3をＦＦＴ分析して得たパワースペクトルの例、図１７はdata1、data3を分析して得たＭＦＣＣによるスペクトル包絡の例である。図１６の実線、点線は、それぞれ、data1、data3のパワースペクトルであり、図１７の実線、点線は、それぞれ、data1、data3のスペクトル包絡である。両者は一致することが理想的であるが、図１７の２つのスペクトル包絡の間には、１０００〜２０００Ｈｚの帯域で大きな誤差が生じていることが観察でき、これは図１６の対応する帯域に大きな誤差が観察されることからフィルタバンク処理の影響であると分かる。このように微小な雑音の影響で安定した分析結果を得られない現象は、耐雑音性という観点から高精度な音声認識や音声認証を実現する際に問題となる。

以上はＭＦＣＣによる処理結果であるが、ＰＬＰにおいても同様な現象が観測される。ＰＬＰはフィルタバンクを通した周波数変換したスペクトルからスペクトル包絡を得る際に、ＤＣＴではなくＬＰＣ分析を行う。ＬＰＣ分析は、スペクトルの山を重視する性質があり谷部分の誤差の影響を受けにくいのだが、ＬＰＣ分析の対象となるスペクトルがフィルタバンク処理の平均的パワーを計算する性質により、ＦＦＴスペクトルの微細構造の谷の影響を既に受けてしまっていると考えられる。その結果として、ＬＰＣ分析を採用しているにもかかわらず、ＭＦＣＣと同様に、微小な分析フレームのずれ、もしくは、微小な雑音の影響によって分析結果が不安定となる。

以上で述べたように、ＭＦＣＣやＰＬＰでは、微小な分析フレームのずれや微小な雑音の影響によって分析結果が不安定となる課題がある。

本発明は、上記問題点をすべて解決するものであり、対象である音響信号の周波数特性に応じた任意の周波数加重で高精度、かつ、安定した周波数分析を行うことを可能とする音響信号分析方法及びこの手法の各種応用技術を提供するものである。

本発明に係る音響信号分析装置は、予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響信号のパワースペクトルを生成するパワースペクトル生成部と、前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成部と、を有するものである。

本発明の好適な態様は、前記注目周波数が、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定される音響信号分析装置である。

本発明の他の好適な態様は、前記注目周波数が、０Ｈｚ以上で前記音響信号のサンプリング周波数の２分の１より低い下限値と、前記下限値より高く前記音響信号のサンプリング周波数の２分の１以下の上限値との間で設定される音響信号分析装置である。

他の本発明に係る音響信号分析装置においては、前記スペクトル包絡情報生成部が、前記パワースペクトルをフーリエ変換して自己相関関数を求める自己相関関数演算部と、前記自己相関関数に基づいて線形予測分析を行い、前記スペクトル包絡情報を求める線形予測演算部と、を有する。

本発明の別の好適な態様は、パワースペクトル生成部が、前記畳み込み演算にて前記音響信号の各サンプリング値に乗じられる、前記各複素正弦波の値に応じた係数を予め格納した係数格納部を有する音響信号分析装置である。

本発明に係る音響信号分析プログラムは、音響信号をサンプリングした音響データからスペクトル包絡情報を算出する手段としてコンピュータを機能させるプログラムであって、予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と前記音響データとの畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響データのパワースペクトルを生成するパワースペクトル生成手段と、前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成手段と、を実現し、前記注目周波数が、分析目的に応じて任意に設定可能であるプログラムである。

本発明によれば、注目周波数は分析目的に応じて任意に設定可能であり、例えば、周波数範囲を限定して設定したり、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定することができる。この任意に設定可能な注目周波数それぞれに対して音響信号のパワーが算出される。本発明では、基本的に周波数に対する平均化がなされていないパワーが求められる。そして、このパワーに基づき生成されるパワースペクトルに対して、例えば、線形予測分析等、微細構造の山部に重みを置いたスペクトル包絡演算を行う。このように、本発明では、各注目周波数でのパワーが、その近傍の微細構造の影響を基本的に受けないことと、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡演算を行うこととによって、微小な分析フレームのずれや微小な雑音の影響によって比較的大きく変化し得る微細構造の谷部がスペクトル包絡情報に与える影響が軽減され、安定した周波数分析が実現され得る。

以下、本発明の実施の形態（以下実施形態という）について、図面に基づいて説明する。

〔実施形態１：音響信号分析装置〕
第１の実施形態は、音響信号分析装置である。ここでは、電話回線を通して入力された音響信号に対する分析を例にとって説明する。周知のように電話回線は伝送周波数帯域が約３００〜３４００Ｈｚに限られているなどの伝送周波数特性を持っている。本実施形態では、このような知見に基づき、電話回線経由の音響信号に適合した分析周波数帯制限をかけつつ聴覚特性を反映した周波数軸変換を施した分析を行う。

図１は、本実施形態に係る音響信号分析装置の概略のブロック構成図である。入力部１００は、電話回線を経由してきた音響信号をデジタル信号として本装置に取り込むための手段である。最近では、回線ボードと呼ばれるコンピュータの拡張ボードの形態を成した電話回線制御装置が市販されており、電話回線制御装置にＩＳＤＮなどのデジタル電話回線のケーブルを接続することにより、電話音声をファイルの形式でコンピュータに保存することが可能である。音響信号分析装置をコンピュータで実現する場合は入力部１００をこのような電話回線制御装置により構成することができる。また、マイクから入力された音声を直接、音響信号分析装置に取り込む場合、入力部１００はマイク、増幅器及びＡ／Ｄ変換器などにより構成される。

音響データ格納部１１０は、入力部でデジタル化された音響信号のデータを記憶する記憶装置である。

フレーム切り出し部１２０は、音響データ格納部１１０に記憶された音響データから所定フレーム周期で所定フレーム長のフレームデータを切り出し、フレームデータをパワースペクトル演算部１４０に供給する。以下、音響データのサンプリング周波数をＦ_Ｓ［Ｈｚ］、１フレームのサンプル数をＬ、フレームデータをｘ_ｉ（ｉ＝０，１，…，Ｌ−１）と表す。

複素正弦波格納部１３０は、式（１）で表されるような、分析周波数（注目周波数）ｆ_ｍを周波数とする（２πｆ_ｍ／Ｆ_Ｓを角周波数とする）複素正弦波Ｓ_ｉ ^（ｍ）を記憶する記憶装置である。この複素正弦波Ｓ_ｉ ^（ｍ）は、後述する畳み込み演算にて、各フレームデータｘ_ｉに乗じられる係数となる。

ここで、Ｍ＝Ｌ／２であり、ｊは虚数単位である。ｗ_ｉは窓関数でありハミング窓やハニング窓が利用できる。

式（１）を見ると分かるように、Ｓ_ｉ ^（ｍ）は事前に得られる要素のみで構成されているので、予め計算することが可能である。そこで、本装置では、予め算出したＳ_ｉ ^（ｍ）を、例えばＬ×Ｍ個の複素係数行列のデータとして複素正弦波格納部１３０に格納し、音響信号分析の計算時間の短縮を図っている。なお、記憶装置上では、通常、複素数は実部及び虚部それぞれを別個のデータとして記憶する。

ちなみに、式（１）は窓関数を含んでいるため、フレーム切り出しの際に、窓関数を乗じる必要が無いという利点を有する。さらに、音声信号処理でしばしば行われる１次差分処理も式（１）に含める形にすることが可能である。

一方、Ｓ_ｉ ^（ｍ）を予め格納する複素正弦波格納部１３０を設ける代わりに、畳み込み演算の実行時にＳ_ｉ ^（ｍ）を逐一、演算装置で算出する構成とすることも可能である。

パワースペクトル演算部１４０は、フレーム切り出し部１２０からのフレームデータｘ_ｉと複素正弦波格納部１３０から読み出した複素正弦波に応じた係数とを用いて畳み込み演算を行って、パワースペクトル、すなわち、各分析周波数ｆ_ｍにおけるフレームデータのパワーを計算し、自己相関関数演算部１５０へ出力する。

自己相関関数演算部１５０では、パワースペクトル演算部１４０で計算したパワースペクトルにフーリエ変換を行って自己相関関数を計算し、線形予測分析部１６０へ出力する。

線形予測分析部１６０では、線形予測モデルに基づく分析を行って、スペクトル包絡に関する情報を算出する。例えば、線形予測分析部１６０は、スペクトル包絡情報としてＬＰＣケプストラム係数を算出する。

スペクトル包絡情報格納部１７０は、線形予測分析部１６０で算出されたＬＰＣケプストラム係数等のスペクトル包絡情報を記憶する記憶装置である。

音響データ格納部１１０、複素正弦波格納部１３０、スペクトル包絡情報格納部１７０は磁気ディスク装置や半導体メモリなどの記憶装置により構成することができる。フレーム切り出し部１２０、パワースペクトル演算部１４０、自己相関関数演算部１５０、線形予測分析部１６０はＣＰＵ、ＤＳＰ、ＭＣＵ等のプロセッサ上で動作するプログラム、あるいは、ＬＳＩ等の論理回路により構成することができる。

上述したように、分析処理に先立って、複素正弦波格納部１３０には、各分析周波数ｆ_ｍに対応する複素正弦波の値が予め計算されて格納されている。この分析周波数ｆ_ｍは音響信号のパワーが算出される周波数であり、その決定方法について以下、説明する。

その決定方法には、（ｉ）リニア周波数から非線形周波数への周波数軸変換関数Ｔ(ｆ)から決定する方法と、（ii）リニア周波数に対する加重関数Ｑ(ｆ)から決定する方法とがある。

はじめに、周波数軸変換関数Ｔ(ｆ)が与えられた場合の決定手順について記す。まず、下限値ｆ_０と上限値ｆ_Ｍとで分析周波数帯を制限したとき、分析周波数間隔ΔＴを式（２）により設定する。但し、０＜ｆ_０＜ｆ_Ｍ≦Ｆ_Ｓ／２である。

次に、周波数軸変換関数の逆関数 (すなわち、非線形周波数軸からリニア周波数軸への変換関数)
Ｔ^−１(ｆ)を使って式（３）によりｆ_ｍを決定する。

以上のようにして、下限値ｆ_０と上限値ｆ_Ｍとで制限した帯域内に、変換後の非線形周波数領域で等間隔になるように、分析周波数ｆ_ｍが決定される。分析周波数ｆ_ｍの周波数軸変換関数Ｔ(ｆ)による射影は、変換後の非線形周波数軸上で下限値ｆ_０と上限値ｆ_Ｍとの間で等間隔に並ぶ。一方、分析周波数ｆ_ｍは、変換前のリニア周波数軸上では下限値ｆ_０と上限値ｆ_Ｍとの間で不等間隔に並ぶ。

次に、周波数加重関数Ｑ(ｆ)が与えられた場合の決定手順について記す。周波数加重関数Ｑ(ｆ)と周波数軸変換関数Ｔ(ｆ)とは式（４）の関係にある。

よって、Ｑ(ｆ)を積分してＴ(ｆ)を求めた後に式（２）及び式（３）を適用すれば、任意の周波数加重Ｑ(ｆ)で分析するための分析周波数を求めることが可能である。

具体的には本装置では、既に述べたように、電話回線経由の音響信号に適合した分析周波数帯制限をかけつつ聴覚特性を反映した周波数軸変換を施した分析を行う。そこで、複素正弦波によって実現される周波数軸変換を音声認識や音声認証に好適とされているメルスケールへの変換とし、分析する周波数の下限ｆ_０、上限ｆ_Ｍをそれぞれ電話音声の分析に好適な３００Ｈｚ、３４００Ｈｚとした場合の分析周波数ｆ_ｍの設計を説明する。

メルスケールＭＥＬ(ｆ)とリニア周波数ｆとの関係を近似する式として式（５）がある。

この式を周波数軸変換関数Ｔ(ｆ)として利用することができる。この式を式（３）に適用すると式（６）が得られる。

これに、
ＭＥＬ(ｆ_０)＝ＭＥＬ(300)＝401.97
ＭＥＬ(ｆ_Ｍ)＝ＭＥＬ(3400)＝1992.1
及び、８ｋＨｚサンプリング、３０ｍＳフレーム長の場合に対応した、
Ｍ＝120
を代入することにより、分析周波数ｆ_ｍを計算することができる。

図２は、式（６）の分析周波数をプロットした図である。横軸はｍであり、周波数変換後の周波数に対応する。縦軸は分析周波数ｆ_ｍである。低域側から高域側に向かって曲線の傾きが大きくなっていくことから、分析周波数が低域ほど密、高域ほど疎に並んでいることがわかる。例えば、５００〜１０００Ｈｚの低域ではｍ＝１１〜３８と２８個の分析周波数が設定されているのに対して、高域の２５００〜３０００Ｈｚで設定されているのはｍ＝９７〜１１０の１３個となっている。

上述のように分析周波数ｆ_ｍは任意に設定することができ、この分析周波数ｆ_ｍに対する複素正弦波Ｓ_ｉ ^（ｍ）を用いてパワーを求めることにより、任意の周波数範囲で任意の周波数軸変換がなされたパワースペクトルが得られる。

以上、本音響信号分析装置の構成について述べた。次に本音響信号分析装置の処理の流れについて説明する。図３は、本音響信号分析装置の処理の概略の流れを示す処理フロー図である。

入力部１００から音響データが入力されると（Ｓ２００）、フレーム切り出し部１２０は、音響データからフレームデータを切り出してパワースペクトル演算部１４０に順次出力する（Ｓ２１０）。今、サンプリング周波数を８０００Ｈｚ、フレーム長を３０ｍｓ、フレーム周期を１０ｍｓとすると、１フレームのサンプル数は２４０であり、フレーム周期は８０サンプルに相当する。この場合、第１フレームは音響データの先頭から２４０サンプル、第２フレームは音響データの８１サンプル目から２４０サンプル、というように１６０サンプルずつオーバーラップしたフレームデータが出力される。

フレームデータｘ_ｉを受け取ったパワースペクトル演算部１４０は、複素正弦波格納部１３０から複素正弦波Ｓ_ｉ ^（ｍ）を読み出し、次の式（７）の畳み込み演算を実行してパワースペクトル、すなわち、各分析周波数ｆ_ｍにおけるフレームデータのパワーＰ^（ｍ）を算出し、自己相関関数演算部１５０へ出力する（Ｓ２２０）。

このように各分析周波数ｆ_ｍについてフレームデータから直接計算されたパワーＰ^（ｍ）は、ＭＦＣＣやＰＬＰのような平均パワーとならないので、後段の線形予測分析において重視されるスペクトルの山は、それに隣接するスペクトルの谷の影響を受けない。このことにより、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度なスペクトル包絡情報の算出が可能となる。

パワースペクトルＰ^（ｍ）を受け取った自己相関関数演算部１５０は式（８）で表されるフーリエ変換を実行して、低次数側のＮ＋１個の自己相関関数Ｒ_ｎを計算し、線形予測分析部１６０へ出力する（Ｓ２３０）。

ここでＮは予め設定されたＬＰＣ分析の次数である。また、cos(πｎｍ/Ｍ)（ここでｎ＝０，…，Ｎ、またｍ＝１，…，Ｍ−１）は事前に計算して、テーブル化しておけば計算時間が短縮される。

線形予測分析部１６０は、自己相関関数演算部１５０にて算出されたＲ_ｎに対して、Durbin-Levinson-Itakura法等の公知のアルゴリズムを用いることで、式（９）の関係を満足するＬＰＣ係数ａ_ｎ（ｎ＝１，…，Ｎ）を算出する（Ｓ２４０）。

さらに、線形予測分析部１６０は、ＬＰＣ係数を式（１０）で表される変換式によってＬＰＣケプストラム係数ｃ_ｉ（ｉ＝１，…，Ｉ）に変換する。ここで、ＩはＬＰＣケプストラムの次数であり、またＮ＜ｎに対してａ_ｎ＝０である。

得られたＬＰＣケプストラム係数は、スペクトル包絡情報としてスペクトル包絡情報格納部１７０へ出力される（Ｓ２５０）。

上記の分析処理は音響データの終わりまで、すなわち、フレームデータが無くなるまで繰り返される（Ｓ２６０）。スペクトル包絡情報格納部１７０は、線形予測分析部１６０が出力する１フレーム当たり（Ｉ＋１）個のデータからなるＬＰＣケプストラム係数を分析処理したフレームの数だけ蓄積し、外部からの指示によってこれらの係数列を出力する。

ここで、本音響信号分析装置による処理結果の例を示す。図４は、本音響信号分析装置によって前述のdata1（１フレーム分）から算出したＬＰＣケプストラム係数によるスペクトル包絡を示す。フレーム長は３０ｍｓ、ＬＰＣ次数は１０次、ＬＰＣケプストラム次数は１０とした。図４において、点線がスペクトル包絡を表す。また、同図には参考のためにdata1をＦＦＴ分析して得たパワースペクトルを実線で示してある。また、比較のために、図５に、data1を一般的なＬＰＣケプストラム分析して得たスペクトル包絡を示す。分析条件は図４の例と同じである。図５は、図４と同様、data1をＦＦＴ分析して得たパワースペクトルを実線で、またスペクトル包絡を点線で示している。

図４のスペクトル包絡が示す範囲は３００〜３４００Ｈｚとなっており、０〜３００Ｈｚおよび３４００〜４０００Ｈｚの帯域が本装置による分析では対象外となっていることが確認できる。図４と図５のスペクトル包絡を比較すると、図４の本装置によるスペクトル包絡の方がＦＦＴスペクトルのより良い近似になっていることが観察できる。例えば、図５では、７００Ｈｚ付近のスペクトルの谷と山を近似できていないが、図４ではこの変化を表現することができている。このような効果は、本装置の分析方法では、低域の分解能が高くなっていることに加え、分析帯域を３００〜３４００Ｈｚに制限していることによる。０〜３００Ｈｚや３４００〜４０００Ｈｚの帯域では、図１１のような電話回線の特性により減衰が大きく、分析時に３００Ｈｚと３４００Ｈｚにスペクトルの山が現れてしまう。従来の方法では、これらの山を無駄に近似してしまうために７００Ｈｚ付近の変化を近似できなかった。しかし、本発明ではそのような無駄な近似が生じにくい。このことは、本発明の音響信号分析装置が音響信号の性質を考慮した高精度な分析結果を得ることが可能なことを示している。

図６は、ＭＦＣＣやＰＬＰの問題として挙げた微小な分析フレームの違いによる分析誤差が本発明で改善されることを示す処理結果である。図６の実線はdata1を本音響信号分析装置で処理して得たＬＰＣケプストラム係数によるスペクトル包絡、点線はdata2を同様に処理して得たスペクトル包絡である。両者はほぼ一致し、図１５で見られたような分析誤差が殆ど生じていないことが分かる。このことは本音響信号分析装置が微小な分析フレームの違いの影響を受けにくく、安定した分析結果を得ることが可能なことを示している。

図７は、ＭＦＣＣやＰＬＰの問題として挙げた微小ノイズの影響による分析誤差が本発明で改善されることを示す処理結果である。図７の実線、点線はそれぞれ、data1、data3を本音響信号分析装置で処理して得たＬＰＣケプストラム係数によるスペクトル包絡である。両者はほぼ一致し、図１７で見られたような分析誤差が殆ど生じていないことが分かる。このことは本音響信号分析装置が耐雑音性に優れており、安定した分析結果を得ることが可能なことを示している。

以上に示したごとく、本発明の音響信号分析装置は、各分析周波数でのパワーが、その近傍の微細構造の影響を基本的に受けないことと、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡演算を行うこととによって、微小な分析フレームの違いや微小ノイズの影響を受けにくく安定したスペクトル包絡情報を算出することが可能である。よって、本発明の音響信号分析装置が算出するスペクトル包絡情報を音声認識、音声認証、音響信号圧縮等に用いれば、認識精度や認証精度の向上、圧縮信号品質の向上を図ることが可能となる。

また、分析周波数は、下限値あるいは／および上限値を指定して分析帯域を任意に制限することが可能であり、このことにより、本発明の音響信号分析装置は、分析パラメータの自由度を有効に活かした高精度なスペクトル包絡情報を得ることを可能とする。

また、音響圧縮への応用例としてＭＤＣＴ（Modified Discrete Cosine Transform）やＤＦＴ（Discrete Fourier Transform）を使った圧縮方法に適用した場合、本手法で得られたＬＰＣ係数によるスペクトル包絡で、ＭＤＣＴ係数を平坦化すると、聴覚特性として重要な帯域の係数をより平坦化することが可能なため、量子化テーブルのバリエーションを減らすことができる。その結果、低ビットレートで高品質な再生信号を合成することができる。

なお、以上の説明では、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡情報としてＬＰＣケプストラム係数を算出する例を示したが、本発明は、この他にも、ＬＰＣ係数、ＰＡＲＣＯＲ（偏自己相関）係数、ＬＳＰ（線スペクトル対）等の線形予測モデルに基づいた各種パラメータの算出に広く用いることができる。

また、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡を抽出する分析手法として、線形予測分析以外のものを用いてもよい。例えば、線形予測モデルに基づかずに山を重視したスペクトル包絡を抽出する技術として、「改良ケプストラム法によるスペクトル包絡の抽出」今井聖、阿部芳春，電子情報通信学会論文誌A-36 pp.217-223 1979年に示される方法が知られており、このような方法を、パワースペクトル演算部１４０にて得られるパワースペクトルの分析に採用することができる。

上述の装置は、聴覚特性を反映した音声信号分析を行うように構成したが、分析目的に応じて音響信号の他の周波数特性を考慮するように構成することもできる。例えば、聴覚特性の他に、伝送路周波数特性やマイクロホン周波数特性を総合的に考慮することが可能である。その場合には、例えば、伝送路やマイクロホンの特性の影響で劣化する周波数帯で分析周波数帯を疎に配置するための周波数加重関数Ｑ(ｆ)を設計し、式（４）の関係から周波数軸変換関数Ｔ(ｆ)を求め、式（２）、（３）から分析周波数ｆ_ｍを決定すれば良い。また、聴覚特性と伝送路周波数特性、あるいは、聴覚特性とマイクロホン周波数特性を合わせた特性を基に周波数加重関数Ｑ(ｆ)を設計した場合も同様にして分析周波数を設定することが可能である。

さらに、以上の説明では、本発明を音響信号の分析処理に適用した実施形態を示したが、本発明は、音響信号に限らず様々な信号の周波数分析に対して適用することができる。例えば、指紋画像信号のような多次元信号を分析対象とすることも可能である。この場合、指紋画像の分析フレームのずれや微小なノイズの影響を受けにくい、すなわち、指紋センサへの指置きのずれや荒れや乾燥などの指紋の状態の影響を受けにくい安定したスペクトルを算出することが可能となり、このようにして算出した指紋のスペクトルを基に照合を行えば、高精度な指紋認証装置を構成することが可能となる。

〔実施形態２：音声認証装置〕
第２の実施形態は、音声認証装置への応用例である。本音声認証装置は、利用者の音声を予め登録しておき、装置に入力された音声と登録音声とを照合して入力音声を発声した話者（入力話者）が登録音声を発声した話者（登録話者）とみなせるか否かを判定し、入力話者と登録話者とが同一話者とみなしたときに認証を与える装置である。

まず、利用者は利用者ごとに定められたキーワードの音声（登録音声）を登録する。本実施形態では、利用者にはキーワードとして４桁数字が予め指定されているものとして説明を行う。利用者によって音声が入力されると、その音声信号からスペクトル包絡情報を表すパラメータを算出し、これを認証時の参照用データとして記憶する。パラメータとしては、第１の実施形態の音響信号分析装置と同様、ＬＰＣ係数、ＬＰＣケプストラム係数、ＰＡＲＣＯＲ係数、ＬＳＰ等様々なものが利用可能であるが、ここではＬＰＣケプストラム係数を採用した例を示す。

認証時には、利用者により入力された音声信号から登録時と同様にしてＬＰＣケプストラム係数を算出し、記憶してあるＬＰＣケプストラム係数とのマッチングを行う。音声パラメータのマッチングの手法としては、ＤＰ（Dynamic Programming：動的計画）やＨＭＭ（Hidden Markov Model）等の公知の手法が利用可能であるが、ここではＨＭＭを採用した例を示す。マッチングの結果として算出される類似度合いを表す値を予め定めたしきい値と比較して、当該入力音声が登録音声と一致するか否かを判定し、入力話者に認証を与えるか否かを決定する。この認証結果は、例えば、出退勤管理の本人確認、電子商取引の本人確認、扉に設けた電気錠の解錠制御、コンピュータへのログイン制御などといった用途に利用できる。

図８は、本実施形態に係る音声認証装置の概略の構成を示すブロック構成図である。本装置における入力部３００、音響データ格納部３０５、フレーム切り出し部３１０、複素正弦波格納部３１５、パワースペクトル演算部３２０、自己相関関数演算部３２５、線形予測分析部３３０、スペクトル包絡情報格納部３４０の機能はそれぞれ、図１に示した音響信号分析装置の入力部１００、音響データ格納部１１０、フレーム切り出し部１２０、複素正弦波格納部１３０、パワースペクトル演算部１４０、自己相関関数演算部１５０、線形予測分析部１６０、スペクトル包絡情報格納部１７０と同様であるのでここでの説明は省略する。

不特定話者モデル格納部３４５は、キーワードを構成する音素あるいは単語に関して多人数の音声データにより学習した音声モデルを記憶する記憶装置である。４桁数字音声をキーワードとし、ＨＭＭを採用した本実施形態においては、事前に、多数の人が発声した０から９の単語の音声データを収集し、音声データから前述の音響信号分析装置によってスペクトル包絡情報を算出し、ＥＭ（Expectation Maximization）アルゴリズム等の公知の学習アルゴリズムを用いて各単語のＨＭＭを学習し、不特定話者モデル格納部３４５に記憶しておく。

登録部３５０は、前述の登録者のキーワード音声から計算したＬＰＣケプストラム係数列と不特定話者モデルとを用いて、登録者のキーワード音声モデルを学習し、登録者のキーワード音声モデルを認証時に参照するための登録データとして記憶装置である登録データ格納部３５５に保存する。

照合部３６５は、認証を受けようとする利用者により発声された音声（入力音声）が登録音声と一致するかを判定する。入力音声から抽出されたＬＰＣケプストラム係数列と登録データとの類似度合いをＨＭＭ法などのアルゴリズムによって算出し、これを照合しきい値と比較して両者が一致したものとみなせるかどうかを判定する。すなわち、類似度合いが照合しきい値より高ければ入力音声は登録音声に一致したものとみなして受け入れ、そうでなければ不一致とみなして拒絶する。

照合しきい値は、事前に多数の照合実験を行って決定し、照合しきい値格納部３６０に記憶しておく。実験は、多数の人が発声したキーワード音声データを収集し、これらを総当り的に照合して本人同士を照合した場合と他人同士を照合した場合の類似度合いの分布を基にして決定する。決定の基準は、用途や目的に応じて異なり、セキュリティを重視する用途や目的では他人を誤って受け入れてしてしまう確率（ＦＡＲ）が低くなるように基準を設定し、利便性を重視する用途や目的では本人を誤って拒絶してしまう確率（ＦＲＲ）が低くなるように基準を設定する。

出力部３７０は、認証結果を外部の制御機器やアプリケーションプログラムに通知するための信号を生成し出力する回路あるいはプログラムである。例えば、音声認証装置が電気錠の解錠装置などの制御機器に接続されている場合、出力部３７０は回路として構成され、照合部で照合一致とみなしたときに認証を付与するとして解錠信号を生成し出力する。また、音声認証装置が出退勤管理プログラム等のアプリケーションプログラムと協働する場合、出力部３７０はプログラムとして構成され、照合一致とみなしたときは所定のアドレス番地に認証を付与する値を書き込む命令を生成し出力する。

音響データ格納部３０５、複素正弦波格納部３１５、スペクトル包絡情報格納部３４０、不特定話者モデル格納部３４５、登録データ格納部３５５、照合しきい値格納部３６０は、磁気ディスク装置や半導体メモリなどの記憶装置として構成される。フレーム切り出し部３１０、パワースペクトル演算部３２０、自己相関関数演算部３２５、線形予測分析部３３０、登録部３５０、照合部３６５はＣＰＵ、ＤＳＰ、ＭＣＵ等のプロセッサ上で動作するプログラム、あるいは、ＬＳＩ等の論理回路として構成される。

次に、本音声認証装置の処理の流れを説明する。まず、本装置に利用者を登録する際の処理を説明する。図９は、この登録時の処理の概略の流れを示す処理フロー図である。利用者Ａが「１２３４」という４桁数字音声を登録する場合の例で説明を行う。利用者Ａが登録音声「１２３４」を発声すると、入力部３００はこれをデジタル音声データとして音声認証装置に取り込み、音声データは音響データ格納部３０５に格納される（Ｓ４００）。格納された音声データは、フレーム切り出し部３１０によってフレームデータとして順次切り出され、パワースペクトル演算部３２０に出力される（Ｓ４０５）。パワースペクトル演算部３２０は複素正弦波格納部３１５から複素正弦波Ｓ_ｉ ^（ｍ）を読み出し、フレームデータに対して式（７）の畳み込み演算を実行してパワースペクトルＰ^（ｍ）を算出し、自己相関関数演算部３２５に出力する（Ｓ４１０）。パワースペクトルを受け取った自己相関関数演算部３２５は式（８）のフーリエ変換を実行して自己相関関数Ｒ_ｎを算出し、線形予測分析部３３０に出力する（Ｓ４１５）。自己相関関数を受け取った線形予測分析部３３０はDurbin-Levinson-Itakura法によって式（９）を満たすＬＰＣ係数ａ_ｎ（ｎ＝１，…，Ｎ）を求め（Ｓ４２０）、式（１０）によってＬＰＣ係数をＬＰＣケプストラム係数に変換し、ＬＰＣケプストラム係数をスペクトル包絡情報格納部３４０に格納する（Ｓ４２５）。ここで算出されるスペクトル包絡情報（ＬＰＣケプストラム係数）は、前述の音響信号分析装置の場合と同様、周波数軸変換によってメルスケールなどの聴覚特性を反映した認証に好適な周波数分解能で分析され、かつ、電話回線やマイクの特性など入力部３００の特性に応じた認証に好適な分析帯域制限によりパラメータの自由度が有効に利用されたもので、更に、前述のごとく、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度な分析結果となっている。

上記の分析処理はフレームデータが無くなるまで繰り返され（Ｓ４３０）、スペクトル包絡情報格納部３４０には１フレーム当たり（Ｉ＋１）個のデータからなるＬＰＣケプストラム係数がフレームの数だけ蓄積される。最終フレームの分析処理が終わると、蓄積されたＬＰＣケプストラム係数列は登録部３５０に入力される。

登録音声の発声は所定回数だけ繰り返され（Ｓ４３５）、これに伴い、各発声に対するＬＰＣケプストラム分析が実行され、登録部３５０には所定回数分のＬＰＣケプストラム係数列が入力される。一般に、同一人物が同一内容の音声を発声しても、発声の変動の影響により毎回同じ音声データが得られることは無い。そこで、認証精度向上のため、このように、複数の音声データを収集し、発声の変動に強い登録データを学習するために用いる。

登録部３５０は、所定回数分のＬＰＣケプストラム係数列が入力されると、不特定話者モデル格納部３４５から「１」「２」「３」「４」の４つの不特定話者モデルを読み出し、これらを連結して４桁数字列「１２３４」の不特定話者モデルを生成する（Ｓ４４０）。次に、登録部３５０は、登録音声を分析したＬＰＣケプストラム係数列を用いて話者適応処理を行い、不特定話者モデルを利用者の音声の特徴を反映した特定話者モデルに変換する（Ｓ４４５）。最後に、登録部３５０は、変換した特定話者モデルを利用者の登録データとして登録データ格納部３５５に格納すると、登録の処理は終了する（Ｓ４５０）。

次に、本装置による認証時の動作について説明する。図１０は、この認証時の処理の概略の流れを示す処理フロー図である。利用者が発声した音声は登録のときと同様、入力部３００から取り込まれ（Ｓ５００）、分析処理により抽出されたＬＰＣケプストラム係数列がスペクトル包絡情報格納部３４０に蓄積される（Ｓ５０５〜Ｓ５３０）。ここで算出されるスペクトル包絡情報（ＬＰＣケプストラム係数）は、前述の音響信号分析装置の場合と同様、周波数軸変換によってメルスケールなどの聴覚特性を反映した認証に好適な周波数分解能で分析され、かつ、電話回線やマイクの特性など入力部３００の特性に応じた認証に好適な分析帯域制限によりパラメータの自由度が有効に利用されたもので、更に、前述のごとく、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度な分析結果となっている。

照合部３６５は、スペクトル包絡情報格納部３４０から入力音声のＬＰＣケプストラム係数列を、登録データ格納部３５５から登録音声データを読み出し、ＨＭＭ法により登録音声データとＬＰＣケプストラム係数列とのマッチングを行う（Ｓ５３５）。ＨＭＭ法ではマッチングの結果として尤度と呼ばれる類似度合いを表す値が算出される。音声を入力した者が利用者Ａ本人であり、発声内容が「１２３４」であれば尤度は高くなり、他人である利用者Ｂが入力した場合、あるいは、発声内容が異なる場合、尤度は低くなる。照合部３６５は、照合しきい値格納部３６０からしきい値を読み出して前記尤度としきい値とを比較し（Ｓ５４０）、尤度がしきい値以上であれば照合一致の通知を、そうでなければ照合不一致の通知を出力部３７０に対して行う（Ｓ５４５）。

出力部３７０は、照合部３６５から照合一致の通知を受けると、入力話者に認証を付与する場合の出力信号を生成し出力する（Ｓ５５０）。例えば、音声認証装置が電気錠の解錠制御装置と接続されている場合、出力部３７０は、解錠信号を解錠制御装置に伝達し、解錠信号を受け取った解錠制御信号は電気錠を解錠する。また、例えば、出退勤管理アプリケーションプログラムと協働している場合、出力部３７０は、認証を付与することを意味する値を出退勤管理アプリケーションプログラムに通知し、通知を受けた出退勤管理アプリケーションプログラムはその時の時刻と共に出退勤記録を生成する。

以上で説明した本音声認証装置は、登録音声および認証を受けようとする利用者の入力音声から、入力部の特性に応じた認証に好適な任意の周波数軸変換と分析周波数帯制限を反映したスペクトル包絡情報（ＬＰＣケプストラム係数）を算出し、これらを基に登録および照合を行うので、高精度な認証結果を得ることができる。

なお、上記説明は簡単のため、登録できる人数が１名の場合について説明したが、複数人が登録できる装置に対しても本手法は適用可能である。この場合、電話器のプッシュボタン等で利用者のＩＤを自己申告してもらってから登録を行い、登録データにＩＤ情報を含め、検索可能に記憶しておく。認証時には同様にＩＤを自己申告してもらい、ＩＤで登録データを検索することで上記と同様の認証処理を行うようにすれば良い。また、認証時のＩＤ自己申告をせずとも複数の登録データに対して上記認証処理を行い、照合一致となる登録者として認証を与えるようにすることも可能である。更に、電話番号を通知するサービスを利用して、登録時に通知された電話番号を登録データに含めて記憶し、認証時に通知された電話番号によって登録データを検索することも可能である。

また、一般に音声照合方式は、照合時の発声内容（発声音韻系列）に応じて、入力音声の発声内容を登録音声と同一のものに限定する発声内容依存型と、発声内容を限定しない発声内容独立型の２つに分類することができる。上記説明は、発声内容依存型の音声照合方式を採用した音声認証装置についてのものであったが、発声内容独立型の音声照合方式に応用することも可能である。

発声内容独立型の場合、ＨＭＭの一形態であるＧＭＭ（Gaussian Mixture Model）という公知の手法があり、以下これを例に説明する。予め多人数の任意の発声を本手法により分析し、その分析パラメータ列から不特定話者ＧＭＭを生成しておく。ＧＭＭは１状態のＨＭＭとみなすことができ、音韻に依存しない音声パラメータの分布を規定するものである。登録時には、登録話者のある程度の長さをもった発声文章を本発明の分析手法によって分析し、不特定話者ＧＭＭの適応処理により特定話者ＧＭＭを生成する。認証時にはこの特定話者ＧＭＭと認証したい話者の発声とのマッチングを行い、同一人物かどうかの判断を下す。

以上述べたように本発明の音声認証装置は、第１の実施形態の音響信号分析装置に関して説明したところと同様に、微小な分析フレームのずれに対して安定で、かつ、耐雑音性に優れたスペクトル包絡情報を基に登録および照合を行うことができるので、高精度な音声認証が可能である。また、本発明の音声認証装置においては、下限値あるいは／および上限値を指定して分析帯域を任意に制限することが可能である。すなわち、本発明の音声認証装置は、分析パラメータの自由度を有効に活かした高精度なスペクトル包絡情報を登録し、また認証時にも同様に高精度なスペクトル包絡情報を抽出しマッチングを行うことができ、これによっても音声認証の精度の向上が図られる。

第１の実施形態に係る音響信号分析装置の概略のブロック構成図である。非線形周波数軸上で等間隔の点に相当するインデックスｍと分析周波数との対応関係を示すグラフである。第１の実施形態の音響信号分析装置における処理の概略のフロー図である。音声フレームデータの一例に対し、第１の実施形態の音響信号分析装置により算出したスペクトル包絡を示すグラフである。図４と同じ音声フレームデータ例に対し、従来手法により生成されるＬＰＣケプストラム係数によるスペクトル包絡を示すグラフである。互いに微小時間ずれた２つの音声フレームデータに対し第１の実施形態の音響信号分析装置が生成するスペクトル包絡を示すグラフである。微小ノイズの有無において相違する２つの音声フレームデータに対し第１の実施形態の音響信号分析装置が生成するスペクトル包絡を示すグラフである。第２の実施形態に係る音声認証装置の概略のブロック構成図である。第２の実施形態の音声認証装置における登録時の処理の概略のフロー図である。第２の実施形態の音声認証装置における認証時の処理の概略のフロー図である。電話音声の周波数特性を示すグラフである。ＭＦＣＣやＰＬＰでＦＦＴスペクトルに施すフィルタバンクの特性を示す模式図である。定常状態にある音声波形の一例を示す模式図である。互いに微小時間ずれた２つの音声フレームデータをＦＦＴ分析したパワースペクトル図である。図１４に対応する２つの音声フレームデータに対しＭＦＣＣにより生成したスペクトル包絡を示すグラフである。微小ノイズの有無において相違する２つの音声フレームデータをＦＦＴ分析したパワースペクトル図である。図１６に対応する２つの音声フレームデータに対しＭＦＣＣにより生成したスペクトル包絡を示すグラフである。

符号の説明

１００，３００入力部、１１０，３０５音響データ格納部、１２０，３１０フレーム切り出し部、１３０，３１５複素正弦波格納部、１４０，３２０パワースペクトル演算部、１５０，３２５自己相関関数演算部、１６０，３３０線形予測分析部、１７０，３４０スペクトル包絡情報格納部、３４５不特定話者モデル格納部、３５０登録部、３５５登録データ格納部、３６０照合しきい値格納部、３６５照合部、３７０出力部。

Claims

予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響信号のパワースペクトルを生成するパワースペクトル生成部と、
前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成部と、
を有することを特徴とする音響信号分析装置。
請求項１に記載の音響信号分析装置において、
前記注目周波数は、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定されること、
を特徴とする音響信号分析装置。
請求項１又は請求項２に記載の音響信号分析装置において、
前記注目周波数は、０Ｈｚ以上で前記音響信号のサンプリング周波数の２分の１より低い下限値と、前記下限値より高く前記音響信号のサンプリング周波数の２分の１以下の上限値との間で設定されること、
を特徴とする音響信号分析装置。
請求項１から請求項３のいずれか１つに記載の音響信号分析装置において、
前記スペクトル包絡情報生成部は、
前記パワースペクトルをフーリエ変換して自己相関関数を求める自己相関関数演算部と、
前記自己相関関数に基づいて線形予測分析を行い、前記スペクトル包絡情報を求める線形予測演算部と、
を有することを特徴とする音響信号分析装置。
請求項１から請求項４のいずれか１つに記載の音響信号分析装置において、
パワースペクトル生成部は、前記畳み込み演算にて前記音響信号の各サンプリング値に乗じられる、前記各複素正弦波の値に応じた係数を予め格納した係数格納部を有すること、
を特徴とする音響信号分析装置。
音響信号をサンプリングした音響データからスペクトル包絡情報を算出する手段としてコンピュータを機能させるプログラムであって、
予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と前記音響データとの畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響データのパワースペクトルを生成するパワースペクトル生成手段と、
前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成手段と、
を実現し、
前記注目周波数は、分析目的に応じて任意に設定可能であること、
を特徴とする音響信号分析プログラム。