JP2005195975A

JP2005195975A - 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Info

Publication number: JP2005195975A
Application number: JP2004003239A
Authority: JP
Inventors: Kentaro Ishizuka; 健太郎石塚; Noboru Miyazaki; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-01-08
Filing date: 2004-01-08
Publication date: 2005-07-21
Anticipated expiration: 2024-01-08
Also published as: JP4362072B2

Abstract

【課題】厳密な音声の基本周波数推定をする必要がない音声信号分析方法を提供する。
【解決手段】音声信号の帯域通過フィルタバンク１１、各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部１３、各帯域通過フィルタの出力信号を基本周期推定部１３において推定された基本周期に基づいてフィルタリングする櫛型フィルタ１４、各帯域通過フィルタの出力信号のパワー値を計算する第１のパワー算出部１５および櫛型フィルタ１４の出力信号のパワー値を計算する第２のパワー算出部１５’、各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部１６、減算の結果得られるパワー値をベクトル化する第１のベクトル化部１９および櫛型フィルタの出力信号のパワー値をベクトル化する第２のベクトル化部１９’、両ベクトル化パワー値を連結するベクトル連結部１８とを具備する音声信号分析装置。
【選択図】図１

Description

この発明は、音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関し、特に、厳密な音声の基本周波数推定をする必要がなく、雑音環境下でも頑健に音声特徴表現を抽出することができる音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関する。

自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。従来の音声信号分析法で抽出される音声特徴表現は、音声波形信号に対しフーリエ変換などを行うことによって得られる、音声の周波数スペクトル表現に基づいたものが多い。従来、音声の周波数スペクトルのピーク値を結ぶ包絡線、スペクトル包絡の形状が音声の特徴を良く表現していると考えられていることから、そのスペクトル包絡を求めるための抽出技術として、従来、線形予測分析法、PARCOR分析法その他の分析手法が開発されて用いられてきた（非特許文献１参照）。これらの分析技術を用いた場合、静かな環境では所望の音声特徴表現（スペクトル包絡）を得ることができる一方で、雑音や伝送歪みが存在する状況においては充分な音声特徴表現を得ることが難しかった。また、自動音声認識技術で広く用いられている音声特徴表現であるメル周波数ケプストラム係数（非特許文献２参照）は、人間の聴覚特性を反映した帯域通過フィルタバンクを利用して抽出される音声特徴表現であり、スペクトル包絡よりも雑音に頑健ではあるものの、その耐雑音性は充分ではない。

雑音環境下でも充分な音声特徴表現を得るために、音声の周期成分と非周期成分を分離し、それぞれに対してメル周波数スペクトル係数を求め、それを特徴量として用いる耐雑音音声認識手法（非特許文献３参照）があるが、音声の周期性成分と非周期性成分の分離を行うために音声の基本周波数を厳密に推定する必要があり、無雑音環境下で収録した音声とそれに雑音を重畳した音声とを同時に得られる様な模擬実験上では有効性を示すことができるが、雑音環境下の音声からその基本周波数を厳密に推定する手法が開発されていないところから実用上利用することができる段階に立ち到っていない。
古井貞煕"音声情報処理"、森北出版株式会社、1998 S.B.Davis and P Mermelstein、"Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,"IEEE Transactions on Acoustics, Speech and Signal Processmg, Vol.ASSP-28, No.４,1980 P.J.B.Jackson,D.M.Moreno,M.J.Russell and J.Hernando,"Covariation and weighting of harmonically decomposed streams for ASR,"Proceedings of Eurospeech, pp.2321-2324，2003

この発明は、厳密な音声の基本周波数推定をする必要がなく、雑音環境下でも頑健に音声特徴表現を抽出することができる上述の問題を解消した音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体を提供するものである。

請求項１：音声信号を帯域通過フィルタバンクによりフィルタリングし、その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、櫛型フィルタの出力信号のパワー値を計算し、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、減算結果パワー値をベクトル化し、櫛型フィルタの出力信号のパワー値をベクトル化し、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結する音声信号分析方法を構成した。

そして、請求項２：請求項１に記載される音声信号分析方法において、ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、離散コサイン変換を施された両パワー値を連結する音声信号分析方法を構成した。
ここで、請求項３：音声信号をフィルタリングする帯域通過フィルタバンク１１と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部１３と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号を基本周期推定部１３において推定された基本周期に基づいてフィルタリングする櫛型フィルタ１４と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号のパワー値を計算する第１のパワー算出部１５および櫛型フィルタ１４の出力信号のパワー値を計算する第２のパワー算出部１５’と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部１６と、減算の結果得られるパワー値をベクトル化する第１のベクトル化部１９および櫛型フィルタの出力信号のパワー値をベクトル化する第２のベクトル化部１９’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部１８とを具備する音声信号分析装置を構成した。

そして、請求項４：請求項３に記載される音声信号分析装置において、ベクトル化された減算結果パワー値に離散コサイン変換を施す第１の離散コサイン変換部１７と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２の離散コサイン変換部１７’とを具備する音声信号分析装置を構成した。
また、請求項５：音声信号をフィルタリングする帯域通過フィルタバンク１１と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部１３と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号を基本周期推定部１３において推定された基本周期に基づいてフィルタリングする櫛型フィルタ１４と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号のパワー値を計算する第１のパワー算出部１５および櫛型フィルタ１４の出力信号のパワー値を計算する第２のパワー算出部１５’と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部１６と、減算の結果得られるパワー値をベクトル化する第１のベクトル化部１９および櫛型フィルタの出力信号のパワー値をベクトル化する第２のベクトル化部１９’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部１８とより成る音声信号分析装置１０を具備し、音声信号分析装置１０の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器２１を具備し、音声信号分析装置１０の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部２２を具備する音声認識装置を構成した。

更に、請求項６：請求項５に記載される音声認識装置において、音声信号分析装置１０は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第１の離散コサイン変換部１７と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２の離散コサイン変換部１７’とを有するものである音声認識装置を構成した。
ここで、請求項７：コンピュータに対して、音声信号を帯域通過フィルタバンクによりフィルタリングし、その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、櫛型フィルタの出力信号のパワー値を計算し、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、減算結果パワー値をベクトル化し、櫛型フィルタの出力信号のパワー値をベクトル化し、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結すべき指令をする音声信号分析プログラムを構成した。

そして、請求項８：請求項７に記載される音声信号分析プログラムにおいて、ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、離散コサイン変換を施された両パワー値を連結すべき指令をする音声信号分析プログラムを構成した。
また、請求項９：請求項７に記載される音声信号分析プログラムを記録した記憶媒体を構成した。
更に、請求項１０：請求項８に記載される音声信号分析プログラムを記録した記憶媒体を構成した。

この発明による音声信号分析によって得られた特徴ベクトルと、従来広く用いられているメル周波数スペクトル係数（ＭＦＣＣ）を特徴ベクトルとして用いた場合の、パターン認識器に隠れマルコフモデル（ＨＭＭ：北研二、中村哲、永田昌明、“音声言語処理”、森北出版株式会社、1996 参照）を用いた雑音下での数字認識実験の結果を示す。この実験には、（社）情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境（ＡＵＲＯＲＡ−２Ｊ）を利用した。この発明による方法は２４チャネルのガンマトーンフィルタバンクを用い、音声波形の切り出しは３０ｍｓ長で１０ｍｓ毎に行い、power_spおよびpower_cfに対応する離散コサイン変換後の特徴ベクトルはそれぞれ１２次元、併わせて２４次元のベクトルを特徴ベクトルとして用い、その動的特徴である△パラメータを、△ＭＦＣＣを求める方法と同様にして求め、結果４８次元のベクトルを特徴パラメータとして用いた。比較対象となるＭＦＣＣでは、２４チャネルのメルスケールフィルタバンクによる分析結果から得られた１２次元のメル周波数スペクトル係数と、その動的特徴を示す△ＭＦＣＣ１２次元と△△ＭＦＣＣ、並びに対数パワー値powerと△powerおよび△△powerの合わせて３9次元のベクトルを特徴パラメータとして用いた。パターン識別器には１6状態２０混合の数字ＨＭＭを用い、ＡＵＲＯＲＡ−２Ｊに付属する８４４０文の数字読み上げ音声とＨＭＭ学習用スクリプトを用いてＨＭＭ学習を行った。また、同様に、ＡＵＲＯＲＡ−２Ｊに付属する雑音下での数字読み上げ音声である評価用データ３セット（２８０２８文×２セット+１４０１４文×１セット）を用い、雑音下における数字認識精度の評価を行った。各セット、ならびに全セット平均の認識精度結果を図6に示す。図6に示された通り、この発明による方法の認識精度は従来法よりも高く、この発明による方法が雑音に頑健な音声認識方法であることが示された。

音声信号のパワーは周波数帯域によって強弱に偏りがある。一方、周囲環境の雑音のパワーも、音声と同様に、一般に周波数スペクトル上で一様には分布しておらず、周波数帯域毎にパワーの偏りがある。従って、雑音環境下における音声信号分析を行う際に、信号の特定の周波数帯域だけを取り出す帯域通過フィルタを様々な周波数帯域について複数備えた帯域通過フィルタバンクを用いることで、雑音の影響の少ない、即ち、音声のパワーが強く雑音のパワーの弱い周波数帯域を選択的に音声信号分析に利用することができると考えられる。仮に、雑音が白色雑音の様な周波数スペクトル上で一様にパワーを持つ雑音であっても、雑音よりも音声のパワーが強い周波数帯域を選択すれば、同様の効果を期待することができる。

また、音声の有声音部分である母音ならびに有声子音の周波数スペクトルはその基本周波数の整数倍にあたる周波数成分にパワーが集中しており、これらの周波数成分をここでは調波成分と呼ぶ。調波成分を持つ音は波形の上では基本周波数に応じた周期的な波形となる。基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタはこの周期性の成分である調波成分を抑圧或いは強調する効果があり、この性質を利用することで、調波成分にあたる音声の周期性の成分、即ち、周期成分以外の成分である非周期成分を分離することができることとなる。

この発明による音声信号分析法は、音声信号に対して、複数の帯域通過フィルタから構成される帯域通過フィルタバンクおよび音声の周期に対して適応する櫛型フィルタを直列に併用することで、雑音環境下において頑健な音声特徴表現を抽出することができる。以上の発明を実施するための最良の形態を図を参照して具体的に説明する。
図１はこの発明による音声信号分析装置の一実施例を示す図である。図１において、１０はこの発明による音声信号分析装置の全体を示す。音声信号分析装置１０は、帯域通過フィルタバンク１１と、音声波形切出部１２と、周期推定部１３と、櫛型フィルタ１４と、パワー算出部１５、１５’と、減算部１6と、離散コサイン変換部１7と、ベクトル連結部１８によって構成される。

音声信号分析装置１０へ入力される音声信号は、例えば、１６０００Hzのサンプリングレートでサンプリングされて離散信号に変換された音声信号である。
帯域通過フィルタバンク１１は、複数の帯域通過デジタルフィルタを用いて、入力された離散音声信号をフィルタリングする。この帯域通過フィルタバンク１１としては、例えば、聴覚の特性に基づく等価矩形帯域幅のスケールに対応した中心周波数を持つガンマトーンフィルタバンクが用いられる（M.Slaney, "An Efficient lmplementation of the Patterson-Holdsworth Auditory Filter Bank, "Apple Computer Technical Report ＃35, 1993）。

このガンマトーンフィルタバンクは、帯域通過フィルタであるガンマトーンフィルタを、通過帯域が重なり合う様に、かつ、それぞれのフィルタの中心周波数がおおよそ対数スケールである等価矩形帯域幅のスケールに従う様に、例えば２４帯域分だけ用意される。このフィルタバンクの各フィルタの周波数特性の例を図３に示す。図３には、ガンマトーンフィルタより成る複数の帯域通過フィルタの周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク中のそれぞれの帯域通過フィルタでフィルタリングした結果得られる、フィルタ数分の離散信号が帯域通過フィルタバンク１１の出力になる。帯域通過フィルタバンク１１の入力信号と出力信号の例として、帯域通過フィルタとして図３に示したガンマトーンフィルタの内の３つのガンマトーンフィルタを用いた場合の入力信号と出力信号例を図４に示す。

音声波形切出部１２は、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号から、例えば時間軸方向に１０ｍｓづつ移動しながら、３０ｍｓの時間長の信号を切り出す。この結果得られる例えば４８０サンプル点（１６０００Hz×３０ｍｓ）の離散信号を、１６０サンプル点（１６０００Hz×１０ｍｓ）づつ移動しながら切り出した信号を音声波形切出部１２の出力とする。
周期推定部１３は、音声波形切出部１２の出力信号を入力としてこの入力信号に含まれる周期を推定する。周期推定には、例えば、基本周波数抽出法の一つである自己相関法（W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York, 1983）を用いる。自己相関法は、先ず、入力信号の自己相関関数を求める。入力信号の全サンプル点数をN、ｊ番目のサンプル点の信号の振幅をｓ_jとしたときに、自己相関関数の係数ｃ_iは以下の式に従って求まる。

これをｉ＝１、・・・、Ｎについて求める。図５は切り出された音声波形から求められた自己相関関数を示す図である。次に、この自己相関関数の係数におけるｊの一定の探索範囲内、例えば８０≦ｊ≦２００（サンプリング周波数１６０００Hzの場合の８０Hzから２００Hzの周期に該当）の範囲内において、ｃ_iが最大となるｉを検出する。その結果得られたｊをｎとする。このｎは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号である例えば正弦波の場合にはその周期長に相当する値になる。このｎを周期推定部１３の出力とする。

櫛型フィルタ１４は周期推定部１３で得られた周期に基づいて離散櫛型フィルタを設計し、音声波形切出部１２の出力信号をフィルタリングする。ここで用いる離散櫛型フィルタは、例えば周期推定部１３の出力周期をｎとすると、ｚ領域の表現において、
Ｈ（ｚ）＝１−ｚ^-n
で表される周波数特性を持つ様に設計する。音声波形切出部１２の出力信号をこの離散櫛型フィルタによってフィルタリングすることで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分、基本周波数成分とその整数倍の周波数成分、のパワーが抑圧された離散信号となる。図４に示した帯域通過フィルタの出力信号を音声波形切出部１２により切り出した信号を入力とし、周期に応じて設計された離散櫛型フィルタでフィルタリングして得られた出力信号と櫛型フィルタの周波数特性を図６に例示する。この様にして求められる信号を櫛型フィルタ１４の出力信号とする。

第１のパワー算出部１５は、音声波形切出部１２の出力信号を入力とし、入力信号に対して、例えば以下の式に示す２乗和を用いることで各信号のパワーを算出し、第２のパワー算出部１５’は、櫛型フィルタ１４の出力信号を入力とし、入力信号に対して、例えば以下の式に示す２乗和を用いることで各信号のパワーを算出する。
power＝Σ^N _j=1ｓ_j ²
ここで、ｓ_jは入力となる離散信号のサンプル点ｊにおける振幅を表し、Ｎは入力信号の全サンプル点数を表し、powerは算出されるパワー値を表す。

このパワー値を音声波形切出部１２、および櫛型フィルタ１４の全ての出力信号について求める。この様にして求められたパワー値を第１のパワー算出部１５、第２のパワー算出部１５’の出力とする。
減算部１6は、第１のパワー算出部１５の出力および第２のパワー算出部１５’の出力の内の音声波形切出部１２の出力から算出されたパワー値power_bpfから、その音声波形切出部１２の出力に対応する櫛型フィルタ１４の出力から算出されたパワ値power_cfを減算する。この操作を、波形切出部１２の出力信号とそれに対応する櫛型フィルタ１４のすべての組み合わせについて行う。この結果、櫛型フィルタ１４によって抑圧された周波数成分のパワー値power_sp、即ち、周期成分のパワー値を求めることができる。この減算操作を以下の式に示す。

power_sp＝power_bpf−power_cf
周期成分のパワー値を入力する第１の離散コサイン変換部１7および非周期成分のパワー値を入力する第２の離散コサイン変換部１7’は、すべての帯域通過フィルタに対応して得られる上述のpower_spとpower_cfを入力とし、それらを対応する帯域通過フィルタの中心周波数順に整列したものをベクトルとみなした上で、離散コサイン変換（鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、"音声認識システム"、オーム社、２００１参照）を行う。例えば、２４帯域分の帯域通過フィルタを用いた場合、power_spおよびpower_cfはそれぞれ２４通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ２４次元のベクトルとして扱う。そのベクトルに対して、離散コサイン変換を例えば下記の式に従って行う。

ここで、ｐ_jは対応する帯域通過フィルタの中心周波数順に整列されたpower_sp或いはpower_cfによって構成されるＮ次元ベクトルのｊ番目の要素であるパワー値を表し、Ｃ_iは離散コサイン変換後に得られるＮ次元ベクトルのｊ番目の離散コサイン係数を表す。Ｃ_iはｉ＝１、・・・、Ｎのすべてについて求める。第１の離散コサイン変換部１7および第２の離散コサイン変換部１7’は、power_spおよびpower_cfそれぞれから得られる離散コサイン係数を出力とする。

ベクトル連結部１８は第１の離散コサイン変換部１7および第２の離散コサイン変換部１7’の出力であるpower_spおよびpower_cfに対応するそれぞれＮ次元の離散コサイン係数を入力とし、それぞれの一部或いは全体を連結して一連のベクトルとして出力する。例えば、power_spおよびpower_cfそれぞれの２４次元の離散コサイン係数が入力とされた場合、それぞれ次数の低い方から１２次元の係数を連結して一連の２４次元ベクトルとして出力する。以上の離散コサイン変換を実施すると、音声信号分析装置１０を使用して音声認識装置を構成した場合、音声認識時の計算速度が高速となり、音声認識に必要とされるメモリ容量および記憶容量を少なくすることができる。

図１におけるベクトル連結部１８の出力は、音声信号分析装置１０全体の出力となる。この音声信号分析装置１０を使用して音声認識装置を構成することができる。これを図２を参照して具体的に説明する。
図２において、２０は音声認識装置の全体を示す。この音声認識装置２０は、図１を参照して図示説明された音声信号分析装置１０の出力を特徴パラメータとして、例えば、隠れマルコフモデル（ＨＭＭ）の音声パターン識別器２１を用いて音声パターンの学習並びに自動音声認識を行う。２２は音声信号分析装置１０の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部である。

音声認識装置２０に入力された音声信号は、音声信号分析装置１０に供給され、信号分析されて特徴パラメータが得られる。得られた特徴パラメータを音声パターン識別器２１に入力し、ここにおいて学習データ格納部２２から供給される対応する学習データと比較し、適正な音声認識結果を出力する。
上述した音声認識装置２０においては、離散コサイン変換部１7を省略し、減算部１6によって得られた周期成分のパワー値と第２のパワー算出部１５’から得られる非周期成分のパワー値とをベクトル連結部１８によって連結し、それらを特徴パラメータとして音声パターン認識器２１による音声パターンの学習ならびに音声認識を実施することができる。

上述したこの発明による音声信号分析およびこれを用いた音声認識は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスク或いはCD−ROMの様なコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。

音声信号分析装置の一実施例を説明する図。音声認識装置の一実施例を説明する図。ガンマトーンフィルタバンクの周波数特性の例を示す図。３つのガンマトーンフィルタの入力信号と出力信号の例を示す図。切り出された音声波形から求めた自己相関関数の例を示す図。３つの櫛型フィルタの周波数特性ならびに入力信号と出力信号の例を示す図。 AURORA-２Jを用いて評価したこの発明の実施例の効果を示す図。

符号の説明

１０音声信号分析装置１１帯域通過フィルタバンク
１２音声波形切出部１３周期推定部
１４櫛型フィルタ１５第１のパワー算出部
１５’第２のパワー算出部１６減算部
１７第１の離散コサイン変換部１7’第２の離散コサイン変換部
１８ベクトル連結部１９第１のベクトル化部
１９’第２のベクトル化部２０音声認識装置
２１音声パターン識別器２２学習データ格納部

Claims

音声信号を帯域通過フィルタバンクによりフィルタリングし、
その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、
各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
櫛型フィルタの出力信号のパワー値を計算し、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
減算結果パワー値をベクトル化し、
櫛型フィルタの出力信号のパワー値をベクトル化し、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結することを特徴とする音声信号分析方法。
請求項１に記載される音声信号分析方法において、
ベクトル化された減算結果パワー値に離散コサイン変換を施し、
ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、
離散コサイン変換を施された両パワー値を連結することを特徴とする音声信号分析方法。
音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号を基本周期推定部において推定された基本周期に基づいてフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第１のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第２のパワー算出部と、帯域通過フィルタバンク１１の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値をベクトル化する第１のベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する第２のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備することを特徴とする音声信号分析装置。
請求項３に記載される音声信号分析装置において、
ベクトル化された減算結果パワー値に離散コサイン変換を施す第１の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２の離散コサイン変換部とを具備することを特徴とする音声信号分析装置。
音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号を基本周期推定部において推定された基本周期に基づいてフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第１のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第２のパワー算出部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値をベクトル化する第１のベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する第２のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とより成る音声信号分析装置を具備し、
音声信号分析装置の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器を具備し、
音声信号分析装置の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部を具備することを特徴とする音声認識装置。
請求項５に記載される音声認識装置において、
音声信号分析装置は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第１の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第２の離散コサイン変換部とを有するものであることを特徴とする音声認識装置。
コンピュータに対して、
音声信号を帯域通過フィルタバンクによりフィルタリングし、
その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、
各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
櫛型フィルタの出力信号のパワー値を計算し、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
減算結果パワー値をベクトル化し、
櫛型フィルタの出力信号のパワー値をベクトル化し、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結すべき指令をする音声信号分析プログラム。
請求項７に記載される音声信号分析プログラムにおいて、
ベクトル化された減算結果パワー値に離散コサイン変換を施し、
ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、
離散コサイン変換を施された両パワー値を連結すべき指令をする音声信号分析プログラム。
請求項７に記載される音声信号分析プログラムを記録した記憶媒体。
請求項８に記載される音声信号分析プログラムを記録した記憶媒体。