JP4571871B2

JP4571871B2 - 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Info

Publication number: JP4571871B2
Application number: JP2005027310A
Authority: JP
Inventors: 健太郎石塚; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-02-03
Filing date: 2005-02-03
Publication date: 2010-10-27
Anticipated expiration: 2025-02-03
Also published as: JP2006215228A

Description

この発明は、音声信号を周波数領域において帯域分割し、その周期性特徴と非周期性特徴を分離する音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関する。

自動音声認識装置においては音声特徴表現抽出のための音声信号分析が行われる。従来の音声信号分析法で抽出される音声特徴表現は、音声信号に対してフーリエ変換などの処理を行うことによって得られる音声の周波数スペクトル表現に基づいたものが多い。従来、音声の周波数スペクトルのピーク値を結ぶ包絡線（スペクトル包絡）の形状が音声の特徴を良く表現していると考えられることから、そのスペクトル包絡を求めるための抽出技術として、線形予測分析法、ＰＡＲＣＯＲ分析法などの分析技術が用いられてきた（非特許文献１参照）。これらの分析技術を用いた場合、静かな環境下においては所望の音声特徴表現(スペクトル包絡)を得ることができる一方で、雑音や伝送歪みがある様な状況下においてはスペクトル包絡の形状が変形し、充分な音声特徴表現を得ることが難しい。また、自動音声認識技術で広く用いられている音声特徴表現であるメル周波数ケプストラム係数（非特許文献２参照）は、人間の聴覚特性を反映した帯域通過フィルタバンクを利用して抽出される音声特徴表現であり、スペクトル包絡よりも雑音に頑健ではあるものの、その耐雑音性は充分ではない。

雑音環境下においても充分な音声特徴表現を得るために、音声信号を帯域分割し、その信号の周期性成分と非周期性成分とを分離し、それらを併用して特徴量として用いる耐雑音音声認識法（非特許文献３参照）が開発されており、この方法により雑音環境下でも比較的良い音声認識性能を得ることができる。しかし、この方法における信号の帯域分割処理および周期性成分・非周期性成分の分離処理は時間領域で行われているため、この方法と周波数領域で処理を行う既存の雑音抑圧技術、例えばスペクトル減算法（非特許文献４参照）などを併用することが困難であるという問題点がある。また、時間領域で帯域分割処理や成分分離処理などのフィルタリング処理を行なう場合は、信号の振幅変動の影響を受け、理想的なフィルタリング処理を実現することができないこと、フィルタリング処理後の遅延に対処する必要があること、処理に時間を要すること、その他の問題を生起する。
古井貞煕著,"音声情報処理"，森北出版株式会杜,pp.16-38,1998. S.B.Davis and P.Mermelstein,"Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,"IEEE Transactions on Acoustics, Speech and Signal Processing, Vo1.ASSP-28, No.4, 1980. Kentaro Ishizuka, Noboru Miyazaki, "Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition,"Proceedings of the 29th International Conference on Acoustics，Speech，and Signal Processing，Vol.1,pp.141-144,2004. Jean-Claude Junqua and Jean-Paul Haton, "Robustness in Automatic Speech Recognition，"Kluwer Academic Publishers,pp.281-286,1996.

この発明は、周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離する構成を採用することにより、時問領域でディジタルフィルタを用いて音声信号を帯域分割処理および信号の周期性特徴・非周期性特徴の分離処理を行う場合に生じる、音声信号の振幅変動によりフィルタが理想的な処理を行うことができないという問題点、フィルタリング後の信号に遅延が生ずるという問題点、処理に時間を要するという問題点、および周波数領域で実行される音声信号処理技術との組み合わせが困難であるという問題点を解決する、音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体を提供するものである。

請求項１：音声波形切出部により音声信号から音声信号波形を切り出し、
切り出された前記音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
帯域通過フィルタバンクを用いて前記周波数スペクトルを帯域分割し、
帯域分割された前記周波数スペクトルを前記帯域通過フィルタバンクの出力信号とし、
前記帯域通過フィルタバンクの出力信号を逆離散フーリエ変換することにより、前記帯域通過フィルタバンクの出力信号の時間領域における信号波形の周期を推定し、
推定された前記周期に基づいて、周波数領域において櫛型フィルタを設計し、
前記帯域通過フィルタバンクの出力信号を前記櫛型フィルタによりフィルタリングし、
前記帯域通過フィルタバンクの出力信号のパワー値を計算し、
前記櫛型フィルタによりフィルタリングされた信号のパワー値を計算し、
前記帯域通過フィルタバンクの出力信号のパワー値から前記櫛型フィルタによりフィルタリングされた信号のパワー値を減算し、
前記減算結果パワー値をベクトル化し、
前記櫛型フィルタによりフィルタリングされた信号のパワー値をベクトル化し、
ベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値の双方を連結して音声特徴パラメータとして出力する音声信号分析方法を構成した。

請求項２：請求項１に記載される音声信号分析方法において、
ベクトル化された前記減算結果パワー値に離散コサイン変換を施し、
ベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値に離散コサイン変換を施す音声信号分析方法を構成した。
請求項３：音声信号から音声信号波形を切り出す音声波形切出部と、
切り出された前記音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部と、
前記周波数スペクトルを帯域分割する帯域通過フィルタバンクと、
前記帯域通過フィルタバンクの出力信号である帯域分割された前記周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部と、
前記自己相関関数を入力し前記帯域通過フィルタバンクの出力信号の時間領域における信号波形の周期を推定する周期推定部と、
前記周期推定部で推定された前記周期に基づいて周波数領域で設計され、前記帯域通過フィルタバンクの出力信号をフィルタリングする櫛型フィルタと、
前記帯域通過フィルタバンクの出力信号のパワー値を計算する第１パワー算出部および前記櫛型フィルタの出力信号のパワー値を計算する第２パワー算出部より成るパワー算出部と、
前記帯域通過フィルタバンクの出力信号のパワー値から前記櫛型フィルタの出力信号のパワー値を減算する減算部と、
前記減算部による前記減算結果パワー値をベクトル化する周期性成分パワーベクトル化部および前記櫛型フィルタの出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部と、
を具備してベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力する音声信号分析装置を構成した。

請求項４：請求項３に記載される音声信号分析装置において、
ベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備して連結された前記パワー値を音声特徴パラメータとして出力する音声信号分析装置を構成した。
請求項５：請求項３および請求項４の何れかに記載される音声信号分析装置において、
ベクトル化された前記減算結果パワー値に離散コサイン変換を施す第１離散コサイン変換部と、ベクトル化された前記櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２離散コサイン変換部とを具備する音声信号分析装置を構成した。

請求項６：請求項３乃至５の何れかに記載の音声信号分析装置として、コンピュータを機能させるための音声信号分析プログラムを構成した。
請求項７：請求項６に記載される音声信号分析プログラムを記憶した記憶媒体を構成した。

周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離するこの発明の音声信号分析方法は、周波数領域で帯域分割や分離処理などのフィルタリング処理を行うので、理想的な周波数特性を持つディジタルフィルタを設計しそれを適用することができる。このことにより、音声信号の振幅変動、時間領域フィルタリングによって生じる信号遅延の影響を受けることがなくなるところから、音声信号の理想的な帯域分割およびその周期性特徴・非周期性特徴の分離が可能となる。また、周波数領域で全ての信号処理を行うことで、処理が高速になり、周波数領域で実行される既存の音声処理技術との併用が可能になる。

音声信号のパワーは周波数帯域によって強弱に偏りがある。一方、周囲環境の雑音のパワーも、通常、周波数スペクトル上で一様には分布しておらず、周波数帯域毎にパワーの偏りがある。従って、雑音環境下において音声信号分析を行うに際して、信号の特定の周波数帯域だけを取り出す帯域通過フィルタを様々な周波数帯域について複数備えた帯域通過フィルタバンクを用いることで、雑音の影響の少ない、即ち、音声のパワーが強く雑音のパワーの弱い周波数帯域を選択的に音声信号分析に利用することができる。仮に、雑音が白色雑音の様な周波数スペクトル上で一様にパワーを持つ雑音であっても、雑音よりも音声のパワーが強い周波数帯域を選択すれば、同様の効果を期待することができる。

また、音声の有声音部分（母音ならびに有声子音）の周波数スペクトルはその基本周波数の整数倍にあたる周波数成分にパワーが集中しており、これらの周波数成分をここでは調波成分と呼ぶ。調波成分を持つ音は波形の上では基本周波数に応じた周期的な波形となる。基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタはこの調波成分（周期性の成分）を抑圧または強調する効果があり、この性質を利用することで、調波成分にあたる音声の周期性の成分である周期性成分と、周期性成分以外の成分である非周期性成分とを分離することができる。

この発明による音声信号分析方法は、音声信号に対して、複数の帯域通過フイルタから構成される帯域通過フィルタバンクおよび音声の周期に対して適応する櫛型フィルタを直列に併用することで、頑健な音声特徴表現を抽出することができる。
この発明による音声信号分析装置の実施例を図１および図２を参照して具体的に説明する。図１において、１０はこの発明による音声信号分析装置の全体を示す。図２は処理の手順を示す。
音声信号分析装置１０は音声波形切出部１１と、離散フーリエ変換部１２と、帯域通過フィルタバンク１３と、逆離散フーリエ変換部１４と、周期推定部１５と、櫛型フィルタ１６と、第１パワー算出部１７と第２パワー算出部１７’より成るパワー算出部と、減算部１８と、周期性成分パワーベクトル化部２１、非周期性成分パワーベクトル化部２１’と、離散コサイン変換部１９、１９’と、ベクトル連結部２０によって構成される。

音声信号分析装置１０へ入力される音声は、例えば８,０００Hzのサンプリングレートでサンプリングされ、離散信号に変換された音声信号である。
音声波形切出部１１は、入力される音声信号から時間軸方向に例えば１０ｍｓずつ移動（シフト）しながら、２５ｍｓの時間長の音声信号波形を、窓関数を乗じることにより切り出す（図２のＳ２１１）。サンプリング周波数が８,０００Ｈｚの場合、２００サンプル点（８,０００Ｈｚ×２５ｍｓ）の離散信号を８０サンプル点（８,０００Ｈｚ×１０ｍｓ）ずつ移動しながら、例えば以下のハニング窓ｗ（ｎ）を乗じて切り出す。ここで、ｎはｎ番目のサンプル点を表し、Ｌは切り出し波形のサンプル点数（上述の例は２００点）を表す。

このハニング窓ｗ（ｎ）を元の波形に乗じながら音声波形を切り出す過程を図３に示す。この結果得られた信号を音声波形切出部１１の出力とする。
離散フーリエ変換部１２は、音声波形切出部１１の出力である切り出された音声信号に対して、離散フーリエ変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する（図２のＳ２１２）。音声波形切出部１１の時間シフトｉ番目の出力信号をｘ_i(ｎ)とすると、そのスペクトルＸ_i(ｋ)は以下の様になる。ここで、ｋはサンプリング周波数をＭ等分した離散点を表し、Ｍは例えば２０４８を用いる。ここで、ｊは複素数を表す。

この様にして離散フーリエ変換を行う過程を図４に示す。こうして得られた周波数スペクトルＸⁱ(ｋ)を離散フーリエ変換部１２の出力とする。
帯域通過フィルタバンク１３は、複数の帯域通過フィルタを用いて、離散フーリエ変換部１２の出力である周波数スペクトルをフィルタリングする（図２のＳ２１３）。周波数領域におけるフィルタリングは、入力である周波数スペクトルと設計したフィルタの周波数特性を乗じることで実現される。ここで用いる帯域通過フィルタバンク１３としては、例えば聴覚の特性に基づいた等価矩形帯域幅のスケールに対応した中心周波数を持つガンマトーンフィルタバンクを用いる（M.Slaney，“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report＃35,1993)。このガンマトーンフィルタバンクは、帯域通過フィルタであるガンマトーンフィルタを、通過帯域が重なり合う様に、且つそれぞれのフィルタの中心周波数が等価矩形帯域幅のスケール(おおよそ対数スケール)に従う様に、例えば２４帯域分用意する。このフィルタバンクの各フィルタの周波数特性の例を図５に示す。図５には複数の帯域通過フィルタ(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散周波数スペクトルをフィルタバンク中のそれぞれの帯域通過フィルタの周波数特性と乗算を行った結果得られる、帯域通過フィルタ数分の周波数スペクトルが帯域通過フィルタバンク１３の出力になる。帯域通過フィルタとして３つのガンマトーンフィルタを用いた場合の帯域通過フィルタバンク１３の入出力の例を図６に示す。

逆離散フーリエ変換部１４は、帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルを入力とし、その時間領域における信号波形の自己相関関数を出力する(図２のS２１４前半)。周波数スペクトルＹ_i（ｋ）があるとき、その自己相関関数ａ_i（ｎ）は、以下の様に周波数スペクトルＹ_i（ｋ）のパワーの逆離散フーリエ変換を行うことで求めることができる。ここで、ｊは複素数を表す。

こうして求められた自己相関関数ａ_i（ｎ）が逆離散フーリエ変換部１４の出力となる。図７にこの自己相関関数の例を示す。
周期推定部１５は、離散逆フーリエ変換部１４の出力である自己相関関数を入力とし、それに基づいて帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する(図２のS２１４後半)。そのために,入力である自己相関関数におけるｎの一定の探索範囲内、例えば４０≦ｎ≦１００(サンプリング周波数８,０００Hzの場合の８０Hzから２００Hzの周期に該当)の範囲内においてａ_i（ｎ）が最大となるｎを検出する。その結果得られたｎをｎ_pとする。このｎ_pは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。このｎ_pを周期推定部１５の出力とする。

櫛型フィルタ１６は周期推定部１５で得られた周期に基づいて周波数領域で離散櫛型フィルタを設計し、その周波数特性と、帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルを乗じることによりフィルタリングを行う(図２のS２１５)。ここで用いる離散櫛型フィルタは、周期推定部１５の出力周期を例えばｎ_pとすると、ｚ領域表現において、

で表される周波数特性を持つ様に設計する。帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルを、この離散櫛型フィルタによってフィルタリングすることで得られる出力は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された周波数スペクトルとなる。これを非周期性成分のスペクトルとする。図６に示した帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルを入力とし、その周期に応じて設計された離散櫛型フィルタでフィルタリングして得られた周波数スペクトルと、設計された櫛型フィルタの周波数特性を図８に例示する。この様にして求められた周波数スペクトルを櫛型フィルタ１６の出力信号とする。

パワー算出部の内の第１パワー算出部１７は帯域通過フィルタバンク１３の出力である帯域分割された周波数スペクトルを入力とすると共に、パワー算出部の内の第２パワー算出部１７’は櫛型フィルタ１６の出力である櫛型フィルタ適用後の周波数スペクトルを入力とし、それぞれの入力に対して、例えば以下の式を用いることで各周波数スペクトルのパワーを算出する(図２のＳ２１６)。ここで、Ｚ（ｋ）は何れかの入力の周波数スペクトルを表し、Ｍは周波数スペクトルの離散点数を表し、ｐは算出されるパワー値を表す。

このパワー値を帯域通過フィルタバンク１３、および櫛型フィルタ１６から出力される全ての周波数スペクトルについて求める。この様にして求められたパワー値を第１パワー算出部１７および第２パワー算出部１７’の出力とする。
減算部１８は、パワー算出部１７の出力内の、帯域通過フィルタバンク１３の或る一つの帯域通過フィルタの出力から算出されたパワー値（ｐ_bpf）から、その帯域通過フィルタの出力に対応する櫛型フィルタ１６の出力(非周期性成分の周波数スペクトル)から算出されたパワー値（ｐ_cf）を減算する(図２のＳ２１７)。この操作を、帯域通過フィルタバンク１３の出力とそれに対応する櫛型フィルタ１６のすべての組み合わせについて行う。この結果、櫛型フィルタ１６によって抑圧された周波数スペクトルのパワー値（ｐ_sp）、即ち周期性成分のパワー値を求めることができる。この減算操作を以下の式に示す。

ｐ_sp＝ｐ_bpf−ｐ_cf
なお、ｐ_cfは以後、非周期性成分のパワー値とみなす。
離散コサイン変換部１９は、すべての帯域通過フィルタに対応して得られる上述のｐ_spとｐ_cfを入力とし、それらを対応する帯域通過フィルタの中心周波数順に整列したものをベクトルとみなした上で離散コサイン変換(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄 "音声認識システム"、オーム社２００１：第１４頁)する(図２のＳ２１９)。例えば、２４帯域分の帯域通過フィルタを用いた場合は、ｐ_spおよびｐ_cfはそれぞれ２４通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ２４次元のベクトルとして扱う。そのベクトルに対して、離散コサイン変換を例えば下記の式に従って行う。

ここで、ｐ_jは対応する帯域通過フィルタの中心周波数順に整列されたｐ_spまたはｐ_cfによって構成されるＮ次元ベクトルのｊ番目の要素(パワー値)を表し、Ｃ_iは離散コサイン変換後に得られるＮ次元ベクトルのｉ番目の離散コサイン係数を表す。Ｃ_iは
ｉ＝１、・・・・、Ｎのすべてについて求める。離散コサイン変換部１９では、ｐ_spおよびｐ_cfそれぞれから得られる離散コサイン係数を出力とする。

ベクトル連結部２０は、離散コサイン変換部１９の出力であるｐ_spおよびｐ_cfに対応するそれぞれＮ次元の離散コサイン係数を入力とし、それぞれの一部または全体を連結して一連のベクトルとして出力する(図２のＳ２２０)。例えば、ｐ_spおよびｐ_cfそれぞれの２４次元の離散コサイン係数が入力とされた場合、それぞれ次数の低い方から１２次元の係数を連結して一連の２４次元ベクトルとして出力する。ベクトル連結部２０の出力は音声信号分析装置１０全体の出力となる。
上述したこの発明による音声分析装置においては、櫛型フイルタ１６において、周期性成分のパワーを抑圧するタイプの櫛型フィルタを用いているが、逆に周期性成分のパワーを強調する、例えば下記の様な櫛型フィルタを用いてもよい。

この様な櫛型フィルタを用いた場合、パワー算出部１７、１７’で計算されるｐ_cfは周期性成分のパワー、減算部１８によって計算されるｐ_spは非周期性成分のパワーとなる。
この発明の音声信号分析装置を用いた音声認識装置は、この音声信号分析装置１０の出力を音声特徴パラメータとして、例えば隠れマルコフモデル(北研二、中村哲、永田昌明、
“音声言語処理”、森北出版株式会社、１９９６：第５７〜９０頁)などのパターン識別器を用いて、音声パターンの学習並びに自動音声認識を行うことで実現することができる。

この音声認識装置の一実施例を図９に示す。音声認識装置９０に入力された音声信号は音声信号分析装置１０に入力され、分析の結果、音声特徴パラメータを得る。得られた音声特徴パラメータを音声パターン識別器９１に入力し、ここで学習データ記憶部９２から供給される、入力された音声特徴パラメータに対応する学習データと比較し、適切な自動音声認識結果を出力する。学習データ記憶部９２に格納されている学習データは、事前に音声信号分析装置１０から得られる音声特徴パラメータを用いて学習しておいたものである。

上述したこの発明による音声分析装置および自動音声認識装置においては、離散コサイン変換部１９を省略し、減算部１８によって得られた周期性成分と非周期性成分のそれぞれのパワー値をベクトル連結部２０によって連結し、それらを特徴パラメータとしてパターン認識器による音声パターンの学習ならびに自動音声認識を行ってもよい(図２点線参照)。また、周期性成分または非周期性成分の何れか一方のパワー値もしくはそれを離散コサイン変換１９によって離散コサイン変換したものを特徴パラメータとして、パターン認識器による音声パターンの学習並びに自動音声認識を行っても良い(図２点線参照)。

この発明による音声信号分析装置においては、離散フーリエ変換部１２以降の処理が全て周波数領域で行われる点が、非特許文献３に記載される従来技術と異なる。このことにより、帯域通過フィルタバンク１３および櫛型フィルタ１６におけるフィルタリング処理において、周波数領域で理想的な周波数特性を持つフィルタを設計することができ、信号の振幅変動の影響や、フィルタリングにおける遅延の影響を無視できるようになる.。また、離散フーリエ変換部１２と帯域通過フィルタバンク１３との間で、周波数スペクトル上で処理を行う既存の雑音抑圧／音声強調技術、例えば、非特許文献４の第２８１〜２８６頁に記載されるスペクトル減算法、非特許文献４の第２７６〜２８０頁に記載されるウィーナフィルタおよびカルマンフィルタその他の従来の技術を適用することができる。加えて、時間領域におけるフィルタリング処理が畳み込み演算であるのに対して、これを乗算で実現できることで計算量が削減され、処理の高速化が実現されている。

上述されたこの発明による音声信号分析法およびこれを用いた自動音声認識方法は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは、例えば、磁気ディスク或いはCD-ROMの様なコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
以下、この発明の具体例の効果を説明する。

この発明による音声信号分析方法によって得られた音声特徴ベクトルを用いた自動音声認識装置と、非特許文献３に記載される従来の技術による、時間領域における処理によって得られた音声特徴ベクトルを用いた自動音声認識装置の、雑音下での数字認識における音声認識精度を比較した結果を示す。この実験には、(社)情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境(AURORA-2J)を利用した。両方法共に、２４チャネルのガンマトーンフィルタバンクを用い、音声波形の切出しは２５ｍｓ長で１０ｍｓ毎に行い、ｐ_spおよびｐ_cfに対応する離散コサイン変換後の特徴ベクトルはそれぞれ１２次元、他に入力信号のパワーを表すパワー値、あわせて２５次元のベクトルを特徴ベクトルとして用い、その動的特徴である△パラメータと△△パラメータを、△MFCC、△△MFCC、△パワー、△△パワーを求める方法(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、"音声認識システム"、オーム杜、２００１：第１３頁)と同様にして求め、結果７５次元のベクトルを特徴パラメータとして用いた。パターン識別器には１６状態２４混合の数字隠れマルコフモデル(HMM)を用い、AURORA-２Jに付属する８４４０発話の無雑音の数字読み上げ音声を用いてHMM学習を行った。また、同様に、AURORA-２Jに付属する,雑音下での数字読み上げ音声である評価用データ３セット(それぞれ２８０２８発話、２８０２８発話、１４０１４発話)を用いて雑音下での数字認識精度の評価を行った。全平均での認識精度結果を図１０に示す。図１０に示されたとおり、この発明による周波数領域での音声信号分析方法の実施例を用いた場合の自動音声認識精度は従来例よりも高く、この実施例が効果的であることが示された。

以上の通りであって、この発明に依れば、周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離する音声信号分析を行うことを最も主要な構成とするものであり、これにより理想的なディジタルフィルタの周波数特性を設計しフィルタリング処理を行える点、処理が高速になる点、および周波数領域で実行される音声信号処理技術（たとえば雑音抑圧技術）との組み合わせが可能になる点が、従来の技術とは異なる。

音声信号分析装置の実施例を説明する図。音声信号分析方法の実施例の処理の流れ図。音声波形切出部の処理を説明する図。離散フーリエ変換処理を説明する図。ガンマトーンフィルタバンクの周波数特性を示す図。帯域通過フィルタバンク処理を説明する図。逆離散フーリエ変換により自己相関関数を求める処理を説明する図。櫛型フィルタ処理を説明する図。音声認識装置の実施例を説明する図。効果を比較する図。

符号の説明

１０音声信号分析装置１１音声波形切出部
１２離散フーリエ変換部１３帯域通過フィルタバンク
１４逆離散フーリエ変換部１５周期推定部
１６櫛型フィルタ１７第１パワー算出部
１７’第２パワー算出部１８減算部
１９、１９’離散コサイン変換部２０ベクトル連結部
２１周期性成分パワーベクトル化部２１’非周期性成分パワーベクトル化部

Claims

音声波形切出部により音声信号から音声信号波形を切り出し、
切り出された前記音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
帯域通過フィルタバンクを用いて前記周波数スペクトルを帯域分割し、
帯域分割された前記周波数スペクトルを前記帯域通過フィルタバンクの出力信号とし、
前記帯域通過フィルタバンクの出力信号を逆離散フーリエ変換することにより、前記帯域通過フィルタバンクの出力信号の時間領域における信号波形の周期を推定し、
推定された前記周期に基づいて、周波数領域において櫛型フィルタを設計し、
前記帯域通過フィルタバンクの出力信号を前記櫛型フィルタによりフィルタリングし、
前記帯域通過フィルタバンクの出力信号のパワー値を計算し、
前記櫛型フィルタによりフィルタリングされた信号のパワー値を計算し、
前記帯域通過フィルタバンクの出力信号のパワー値から前記櫛型フィルタによりフィルタリングされた信号のパワー値を減算し、
前記減算結果パワー値をベクトル化し、
前記櫛型フィルタによりフィルタリングされた信号のパワー値をベクトル化し、
ベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値の双方を連結して音声特徴パラメータとして出力することを特徴とする音声信号分析方法。
請求項１に記載される音声信号分析方法において、
ベクトル化された前記減算結果パワー値に離散コサイン変換を施し、
ベクトル化された前記櫛型フィルタによりフィルタリングされた信号のパワー値に離散コサイン変換を施すことを特徴とする音声信号分析方法。
音声信号から音声信号波形を切り出す音声波形切出部と、
切り出された前記音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部と、
前記周波数スペクトルを帯域分割する帯域通過フィルタバンクと、
前記帯域通過フィルタバンクの出力信号である帯域分割された前記周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部と、
前記自己相関関数を入力し前記帯域通過フィルタバンクの出力信号の時間領域における信号波形の周期を推定する周期推定部と、
前記周期推定部で推定された前記周期に基づいて周波数領域で設計され、前記帯域通過フィルタバンクの出力信号をフィルタリングする櫛型フィルタと、
前記帯域通過フィルタバンクの出力信号のパワー値を計算する第１パワー算出部および前記櫛型フィルタの出力信号のパワー値を計算する第２パワー算出部より成るパワー算出部と、
前記帯域通過フィルタバンクの出力信号のパワー値から前記櫛型フィルタの出力信号のパワー値を減算する減算部と、
前記減算部による前記減算結果パワー値をベクトル化する周期性成分パワーベクトル化部および前記櫛型フィルタの出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部と、
を具備してベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力することを特徴とする音声信号分析装置。
請求項３に記載される音声信号分析装置において、
ベクトル化された前記減算結果パワー値とベクトル化された前記櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備して連結された前記パワー値を音声特徴パラメータとして出力することを特徴とする音声信号分析装置。
請求項３および請求項４の何れかに記載される音声信号分析装置において、
ベクトル化された前記減算結果パワー値に離散コサイン変換を施す第１離散コサイン変換部と、ベクトル化された前記櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２離散コサイン変換部とを具備することを特徴とする音声信号分析装置。
請求項３乃至５の何れかに記載の音声信号分析装置として、コンピュータを機能させるための音声信号分析プログラム。
請求項６に記載される音声信号分析プログラムを記憶した記憶媒体。