JP2007156337A

JP2007156337A - 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム

Info

Publication number: JP2007156337A
Application number: JP2005355018A
Authority: JP
Inventors: Kentaro Ishizuka; 健太郎石塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-12-08
Filing date: 2005-12-08
Publication date: 2007-06-21
Anticipated expiration: 2025-12-08
Also published as: JP4630183B2

Abstract

【課題】雑音環境下の音声信号分析において十分な耐雑音性能を得る。
【解決手段】櫛型フィルタ適用部１２７において、分析対象の音声信号に櫛型フィルタを適用し、分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する。次に、当該分離抽出された信号成分を用い、振幅演算部１２８において、周期性成分のパワー値を算出する。そして、特徴パラメータ生成部１３０において、周期性成分のパワー値のみを特徴量として用い、特徴パラメータを生成する。
【選択図】図２

Description

本発明は、入力された音響信号から特徴パラメータを抽出する技術に関し、特に、雑音や伝送歪み等が存在する環境（雑音環境下）において音声信号の特徴パラメータを抽出する技術に関する。

自動音声認識処理においては、音声特徴表現抽出のための音声信号分析が行われる。そして、従来の音声信号分析法で抽出される音声特徴表現の一つとして、ある一定時間、例えば２５ｍｓの音声分析区間内における信号の短時間対数パワー値がある（例えば、非特許文献１／Ｐ８２〜８５参照）。この短時間対数パワー値は、音声の振幅変動を表現し、音声の韻律に関わる情報を表現するものと考えることができる。なお、この短時間対数パワー値Ｅは、音声の離散信号をｓ（ｎ）、Ｌを対数パワー値計算のための区間を示す時間長（フレーム長）とすると、以下の式で求めることができる。

しかし、この短時間対数パワー値を音声特徴表現である特徴パラメータの一つとして用いる場合、静かな環境では音声の振幅変動を表現できる一方で、雑音や伝送歪みがあるような状況では、短時間対数パワー値そのものが雑音や伝送歪みの影響を受けて変化するため、十分な音声特徴表現を得ることは難しい。
このような点を考慮し、雑音環境下でも十分な音声特徴表現を得るために、音声信号を帯域分割し、その信号の周期性成分と非周期性成分とを分離し、それらを併用して特徴量として用いる耐雑音音声認識手法がある（例えば、特許文献１、非特許文献２，３参照）。音声の有声音部分（母音並びに有声子音）の周波数スペクトルは、その基本周波数の整数倍にあたる周波数成分（調波成分）にパワーが集中している。すなわち、基本周波数の整数倍にあたる周波数成分の信号の振幅値が他の周波数成分のものと比べて突出して大きい。このような周波数スペクトルの波形は、その基本周波数に応じた周期的なものとなる。そのため、基本周波数の整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを用いることで、この周期性成分を抑圧或いは強調することができる。この性質を利用することで、周期性成分にあたる音声成分と、周期性成分以外の非周期性成分にあたる雑音等の成分とを分離することができる。非特許文献２や３の手法では、このように分離した周期性成分と非周期性成分とを併用したものを特徴量としている。
特開２００５−１９５９７５古井貞煕"音声情報処理"，森北出版株式会社，1998 Kentaro Ishizuka，Noboru Miyazaki, "Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition," Proceedings of the 29th International Conference on Acoustics, Speech, and Signal Processing, Vol.1, pp. 141-144, 2004. 石塚健太郎, 中谷智広, "音声特徴抽出法SPADEを用いた耐雑音フロントエンド,"日本音響学会研究発表会講演論文集, 2-7-3, pp.63-64, 秋季， 2005

しかし、非特許文献２や３の手法を用いた場合であっても、雑音や伝送歪み等が強い雑音環境下では十分な耐雑音性能を得ることはできない場合がある。また、非特許文献２や３の手法で求めた特徴パラメータと、上述のように求めた短時間対数パワー値Ｅとを併用した場合であっても、十分な耐雑音性能を得ることはできない場合がある。
本発明は、このような点に鑑みてなされたものであり、あらゆる雑音環境下で十分な耐雑音性能を得ることが可能な音声信号分析技術及びそれを用いた自動音声認識技術を提供することを目的とする。

本発明では上記課題を解決するために、信号分離部が、分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第１振幅演算部が、信号分離部で分離抽出された信号成分を用いて周期性成分の振幅値を変数とした単調増加関数値を算出する。そして、特徴パラメータ生成部が、当該周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも十分な耐雑音性能を得ることができる。

また、本発明において好ましくは、帯域分割部が、分析対象の音声信号を複数の帯域の信号に分割し、信号分離部が、音声信号の周期性成分及び非周期性成分の少なくとも一方を帯域毎に分離抽出する。そして、第１振幅演算部が、周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、帯域毎に算出された周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、特徴パラメータを生成する。
このような構成により、特徴パラメータ生成部は、雑音や伝送歪み等の影響が少ない帯域の周期性成分を変数とした単調増加関数値を選択的に用いて特徴パラメータを生成することが可能となる。その結果、より一層、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調された特徴パラメータを生成することができる。

また、本発明において好ましくは、第２振幅演算部が、信号分離部で分離抽出された信号成分を用いて非周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、非周期性成分の振幅値を変数とした単調増加関数値を用い、特徴パラメータの生成に用いる周期性成分の振幅値を選択する。
これにより、非周期性成分の振幅値に応じ、非周期性成分の影響の小さな帯域を選択し、その帯域の周期性成分の振幅値を変数とした単調増加関数値を特徴パラメータの生成に用いることが可能となる。その結果、動的に変化する雑音環境に対しても十分な耐雑音性能を得ることができる。

また、本発明において好ましくは、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値に対する非周期性成分の振幅値を変数とした単調増加関数値の比率が閾値以下或いは未満となる帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
これにより、周期性成分に対する非周期性成分の影響が小さな帯域を選択し、その帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として特徴パラメータを生成することができる。その結果、帯域毎に雑音等の成分が異なる雑音環境のみならず、白色雑音のような各帯域で振幅値が一様な雑音等を有する雑音環境においても、高い耐雑音性能を得ることができる。たとえ雑音等の成分の振幅値が一様であっても、それに対する音声成分の振幅値が大きい帯域を選択できるからである。

また、本発明において好ましくは、特徴パラメータ生成部は、各帯域間で、周期性成分の振幅値を変数とした単調増加関数値に対する非周期性成分の振幅値を変数とした単調増加関数値の比率を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
これにより、音声成分や雑音環境の時間変動が大きく、例えば、全ての帯域において音声成分に対する雑音成分の比率が大きくなってしまう時間区間が存在し、適切な閾値の設定が困難な場合においても、耐雑音性能の高い特徴パラメータを生成することができる。

また、本発明において好ましくは、信号分離部は、分析対象の音声信号に対して通過帯域が異なる複数の帯域通過フィルタを適用し、当該分析対象の音声信号を複数の帯域の信号に分割する帯域分割部と、帯域分割部で分割された信号の周期の推定値を帯域毎に算出する周期推定部と、周期の推定値の逆数の整数倍の成分を強調或いは抑圧する櫛型フィルタを帯域毎に生成する櫛型フィルタ生成部と、帯域分割部で分割された各信号に対し、それらに対応する櫛型フィルタを乗じ、当該信号の周期性成分或いは非周期性成分を抽出する櫛型フィルタ適用部とを有する。

また、本発明では上記課題を解決するために、信号分離部が、認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第１振幅演算部が、信号分離部で分離抽出された信号成分を用い、周期性成分の振幅値を変数とした単調増加関数値を算出し、特徴パラメータ生成部が、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、音声認識処理部が、当該特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行う。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも精度の高い音声認識結果を得ることができる。

また、本発明では上記課題を解決するために、信号分離部が、認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第１振幅演算部が、信号分離部で分離抽出された信号成分を用い、周期性成分の振幅値を変数とした単調増加関数値を算出し、第２振幅演算部が、信号分離部で分離抽出された信号成分を用い、非周期性成分の振幅値を変数とした単調増加関数値を算出する。そして、離散コサイン変換部が、周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルにそれぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力し、第１特徴パラメータ生成部が、離散コサイン変換部の出力値から第１特徴パラメータを生成する。さらに、第２特徴パラメータ生成部が、第１振幅演算部が算出した周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて第２特徴パラメータを生成し、音声認識処理部が第１特徴パラメータ及び第２特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行う。

ここで、第２特徴パラメータ生成部が第２特徴パラメータの生成に用いる周期性成分の振幅値を変数とした単調増加関数値は、第１特徴パラメータを生成する際に生成されたものである。このようにデータを再利用することにより、新たな演算処理をほとんど行うことなく、第１特徴パラメータに加え、耐雑音性能が高い第２特徴パラメータを生成することができる。
また、本発明において好ましくは、帯域分割部が、分析対象の音声信号を複数の帯域の信号に分割し、信号分離部が、音声信号の周期性成分及び非周期性成分の少なくとも一方を帯域毎に分離抽出し、第１振幅演算部が、周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、第２特徴パラメータ生成部が、帯域毎に算出された周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用いて第２特徴パラメータを生成する。

このような構成により、特徴パラメータ生成部は、雑音や伝送歪み等の影響が弱い帯域の周期性成分の振幅値を変数とした単調増加関数値を選択的に用いて特徴パラメータを生成することも可能となる。その結果、より一層、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調された第２特徴パラメータを生成することができる。
また、本発明において好ましくは、第２振幅演算部が、信号分離部で分離抽出された信号成分を用い、非周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、第２振幅演算部が算出した非周期性成分の振幅値を変数とした単調増加関数値を用い、第２特徴パラメータの生成に用いる周期性成分の振幅値を変数とした単調増加関数値を選択する。

ここで、特徴パラメータ生成部が、第２特徴パラメータの生成に用いる周期性成分の単調増加関数値の選択を行うために用いる非周期性成分の単調増加関数値は、第１特徴パラメータを生成する際に第２振幅演算部が生成したものを再利用したものである。これにより、新たな演算処理を殆ど行うことなく、第２特徴パラメータの生成に用いる周期性成分の単調増加関数値の選択を行うことができる。

以上説明したとおり、本発明では、あらゆる雑音環境下で十分な耐雑音性能を持つ音声信号分析処理が可能となる。また、本発明の音声信号分析結果を用いることにより、あらゆる雑音環境下で十分な耐雑音性能を持つ自動音声認識処理が可能となる。

以下、本発明の実施の形態を図面を参照して説明する。
〔第１の実施の形態〕
まず、本発明における第１の実施の形態について説明する。
本形態は、雑音環境下で観測された音声信号から、音声信号の特徴パラメータを抽出する音声信号分析装置に係る形態である。本形態では、複数の帯域通過フィルタから構成される帯域通過フィルタバンクを用い、分析対象の音声信号を複数の周波数帯域に分割し、それぞれの帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成する。そして、これらの櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分の振幅値を変数とした単調増加関数値を全て用いて特徴パラメータを生成する。以下、この第１の実施の形態を詳細に説明する。なお、以下では、振幅値を変数とした単調増加関数値のことを「パワー値」と呼ぶ。また、この「パワー値」は、振幅値そのものをも含む概念である。

＜ハードウェア構成＞
図１は、本形態における音声信号分析装置１のハードウェア構成を例示したブロック図である。
図１に例示するように、この例の音声信号分析装置１は、ＣＰＵ（Central Processing Unit）１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ（Read Only Memory）１５、ＲＡＭ（Random Access Memory）１６及びバス１７を有している。
この例のＣＰＵ１１は、制御部１１ａ、演算部１１ｂ及びレジスタ１１ｃを有し、レジスタ１１ｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部１２は、データが入力される入力ポート、キーボード、マウス等であり、出力部１３は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置１４は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、本形態の音声信号分析処理を実行するためのプログラムを格納したプログラム領域１４ａ及びタグ出力情報等の各種データが格納されるデータ領域１４ｂを有している。また、ＲＡＭ１６は、例えば、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域１６ａ及び各種データが書き込まれるデータ領域１６ｂを有している。また、この例のバス１７は、ＣＰＵ１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ１５及びＲＡＭ１６を、データのやり取りが可能なように接続する。

＜プログラム構成＞
補助記憶装置１４のプログラム領域１４ａには、音声信号分析装置１としてコンピュータを機能させるための音声信号分析プログラムが格納される。
本形態の音声信号分析プログラムは、音声波形から離散信号を切り出すための音声波形切出プログラム、離散フーリエ変換を行うための離散フーリエ変換プログラム、複数の帯域通過フィルタからなる帯域通過フィルタバンクを用いて帯域分割を行うための帯域分割プログラム、逆離散フーリエ変換を行うための逆離散フーリエ変換プログラム、周期推定を行うための周期推定プログラム、櫛型フィルタを生成するための櫛型フィルタ生成プログラム、櫛型フィルタを信号に適用するための櫛型フィルタ適用プログラム、パワー値を算出するための振幅演算プログラム、減算を行うための減算プログラム、特徴パラメータを生成するための特徴パラメータ生成プログラム、及び制御処理を行うための制御プログラムを呼び出し可能に構成される。また、特徴パラメータ生成プログラムは、加算プログラム及び対数変換プログラムを呼び出し可能に構成される。
なお、上述した各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムがさらに他のライブラリ（記載していない）を読み出して各機能を実現するものでもよい。

＜ハードウェアとソフトウェアとの協働＞
この例のＣＰＵ１１は、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１４のプログラム領域１４ａに格納されている上述の音声信号分析プログラムを、ＲＡＭ１６のプログラム領域１６ａに書き込む。同様にＣＰＵ１１は、補助記憶装置１４のデータ領域１４ｂに格納されている各種データをＲＡＭ１６のデータ領域１６ｂに書き込む。さらに、ＣＰＵ１１は、当該音声信号分析プログラムや各種データが書き込まれたＲＡＭ１６上のアドレスをレジスタ１１ｃに格納する。そして、ＣＰＵ１１の制御部１１ａは、レジスタ１１ｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１６上の領域から音声信号分析プログラムやデータを読み出し、その音声信号分析プログラムが示す演算を演算部１１ｂに順次実行させ、その演算結果をレジスタ１１ｃに格納していく。

図２は、このようにＣＰＵ１１に音声信号分析プログラムが読み込まれることにより構成される音声信号分析装置１の機能構成を例示したブロック図である。なお、図２における矢印はデータの流れを示すが、制御部１０ｈに入出力されるデータの流れの記載は省略してある。
図２に示すように、本形態の音声信号分析装置１は、メモリ１００、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部１２８（「第１振幅演算部」を構成）、減算部１２９（「第１振幅演算部」を構成）、特徴パラメータ生成部１３０、制御部１４１及び一時メモリ１４２を有している。また、メモリ１００は、データを記憶するための領域１０１〜１１１を有しており、特徴パラメータ生成部１３０は、加算部１３１及び対数変換部１３２を有している。なお、メモリ１００及び一時メモリ１４２は、補助記憶装置１４のデータ領域１４ｂ、ＲＡＭ１６のデータ領域１６ｂ、ＣＰＵ１１のレジスタ１１ｃ、その他のバッファメモリやキャッシュメモリ等の何れか、或いはこれらを併用した記憶領域に相当する。また、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７、振幅演算部１２８、減算部１２９、特徴パラメータ生成部１３０及び制御部１４１は、それぞれ、音声波形切出プログラム、離散フーリエ変換プログラム、帯域分割プログラム、逆離散フーリエ変換プログラム、周期推定プログラム、櫛型フィルタ生成プログラム、櫛型フィルタ適用プログラム、振幅演算プログラム、減算プログラム、特徴パラメータ生成プログラム及び制御プログラムがＣＰＵ１１に読み込まれることにより構成されるものである。
また、音声信号分析装置１は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図３は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図４は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図２から図４を用いて、本形態の音声信号分析方法を説明する。

まず、前処理として、メモリ１００の領域１０３に、複数の帯域通過フィルタＢＰＦ_ｑ（ｋ）〔ｑ＝１，...，Ｑであり、Ｑは自然数〕からなる帯域通過フィルタバンクを格納する。本形態の帯域通過フィルタＢＰＦ_ｑ（ｋ）は、周波数に対応するｋ（ｋについては後述）を変数とする関数であり、各通過帯域に対応する信号を強調し、それ以外の帯域に対応する信号を抑制するものである。具体的には、例えば、ガンマトーンフィルタの関数を帯域通過フィルタＢＰＦ_ｑ（ｋ）として用いることができる。また、帯域通過フィルタバンクの具体例としては、通過帯域が重なり合うように、かつ、それぞれのフィルタの中心周波数が等価矩形帯域幅のスケール（おおよそ対数スケール）に従うように設定された複数（例えば２４帯域分）のガンマトーンフィルタからなるガンマトーンフィルタバンクを例示できる（例えば「M.Slaney, "An Efficient lmplementation of the Patterson-Holdsworth Auditory Filter Bank, "Apple Computer Technical Report ＃35, 1993」参照）。

このような前処理を前提に、本形態の音声信号分析装置１は、雑音環境下で観測された音声信号が入力され、その特徴量を示す特徴パラメータを出力する。本形態の場合、音声信号分析装置１ヘ入力される音声信号は、例えば、８，０００Ｈｚのサンプリング周波数でサンプリングされ、離散信号に変換された音声信号ｘ（ｎ）である。なお、ｎはｎ（ｎ＝０，...，Ｎ−１）番目のサンプル点であり、Ｎは十分大きな自然数である。
入力された音声信号ｘ（ｎ）は、まず、音声波形切出部１２１に入力され、音声波形切出部１２１は、入力された音声信号ｘ（ｎ）から、ある時間長の波形を時間軸方向に移動（シフト）しながら切り出していく。本形態の例では、まず、制御部１４１がパラメータｉに０を代入し、これを一時メモリ１４２に格納する（ステップＳ１）。

次に、音声波形切出部１２１が、一時メモリ１４２からパラメータｉを読み込み、音声信号ｘ（ｎ）に窓関数ｗ（ｎ＋ｉ・ｓ）を乗じることによって、あるサンプル点長の離散信号ｘ_ｉ（ｎ）を抽出する〔ｘ_ｉ（ｎ）＝ｘ（ｎ）・ｗ（ｎ＋ｉ・ｓ）／ステップＳ２〕。なお、ｓは離散信号ｘ_ｉ（ｎ）を切り出す際の時間軸方向のシフト幅（シフトサンプル点数）を示す。また、窓関数としては、例えば、以下のハニング窓等を用いることができる。

なお、Ｌは切り出される波形の幅（サンプル点数）を示す。図５は、サンプリング周波数８，０００Ｈｚでサンプリングされた音声信号ｘ（ｎ）から、式（１）の窓関数を用い、切り出し位置を時間軸方向に１０ｍｓづつシフトしながら２５ｍｓの時間長の離散信号ｘ_ｉ（ｎ）を切り出した様子を示した図である。すなわち、図５では、式（１）に示す窓関数ｗ（ｎ）を、ｓ＝８０サンプル点（８，０００Ｈｚ×１０ｍｓ）ずつ移動させながら音声信号ｘ（ｎ）に乗じ、Ｌ＝２００サンプル点（８，０００Ｈｚ×２５ｍｓ）の離散信号ｘ_ｉ（ｎ）を抽出している。

音声波形切出部１２１は、以上のように抽出した離散信号ｘ_ｉ（ｎ）を出力し、出力された離散信号ｘ_ｉ（ｎ）はメモリ１００の領域１０１に格納される。
次に、離散フーリエ変換部１２２が、メモリ１００の領域１０１から離散信号ｘ_ｉ（ｎ）を読み込み、読み込んだ離散信号ｘ_ｉ（ｎ）に対して離散フーリエ変換を行い、時間領域の離散信号ｘ_ｉ（ｎ）から周波数領域の周波数スペクトルＸ_ｉ（ｋ）への変換を行う（ステップＳ３）。本形態の場合、離散フーリエ変換部１２２は、以下の演算によってこの変換を行う。

なお、ｊは虚数単位を示し、ｋはサンプリング周波数をＭ等分した離散点〔ｋ＝０，ｆ_ｓ／Ｍ，...，ｆ_ｓ（Ｍ−１）／Ｍ、ｆ_ｓはサンプリング周波数〕を示し、Ｍは所定の自然数（例えば、Ｍ＝２０４８）を示す。
離散フーリエ変換部１２２は、以上のように生成した周波数スペクトルＸ_ｉ（ｋ）を出力し、出力された周波数スペクトルＸ_ｉ（ｋ）は、対応するｋの値が特定できるように、メモリ１００の領域１０２に格納される。なお、ｋの値が特定できるように周波数スペクトルＸ_ｉ（ｋ）を格納する手法としては、例えば、ｋに対応するアドレスにＸ_ｉ（ｋ）を格納する手法が例示できる。

次に、帯域分割部１２３が、メモリ１００の領域１０２から周波数スペクトルＸ_ｉ（ｋ）を読み込み、領域１０３から各帯域に対応する帯域通過フィルタＢＰＦ_ｑ（ｋ）〔ｑ＝１，...，Ｑ〕を読み込む。そして、帯域分割部１２３は、読み込んだ周波数スペクトルＸ_ｉ（ｋ）に各帯域通過フィルタＢＰＦ_ｑ（ｋ）を乗じ、それぞれの演算結果を、各帯域通過フィルタＢＰＦ_ｑ（ｋ）に対応する周波数帯域に分割された周波数スペクトルＸ_ｉ，ｑ（ｋ）として出力する〔Ｘ_ｉ，ｑ（ｋ）＝Ｘ_ｉ（ｋ）・ＢＰＦ_ｑ（ｋ）／ステップＳ４〕。出力された各周波数スペクトルＸ_ｉ，ｑ（ｋ）は、メモリ１００の領域１０４に格納される。

次に、逆離散フーリエ変換部１２４が、メモリ１００の領域１０４から各周波数スペクトルＸ_ｉ，ｑ（ｋ）を読み込み、その逆離散フーリエ変換を行い、自己相関関数ａ_ｉ，ｑ（ｎ）を生成する。具体的には、本形態の例の逆離散フーリエ変換部１２４は、当該Ｘ_ｉ，ｑ（ｋ）と対応するｋとを用い、

の演算を行って自己相関関数ａ_ｉ，ｑ（ｎ）を算出し、これらをメモリ１００の領域１０５に格納する。次に、周期推定部１２５が、メモリ１００の領域１０５から各自己相関関数ａ_ｉ，ｑ（ｎ）を読み込み、それらを用いて各周波数スペクトルＸ_ｉ，ｑ（ｋ）の周期ｎ_ｐ ^ｉ，ｑを推定する（ステップＳ５）。この周期推定には、例えば、基本周波数抽出法の一つである自己相関法（W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York,1983）を用いる。具体的には、周期推定部１２５は、例えば、各帯域に対し（すなわち、各ｑに対し）、一定の探索範囲内、例えば４０≦ｎ≦１００（サンプリング周波数８，０００Ｈｚの場合の８０Ｈｚから２００Ｈｚの周期に該当）の範囲内において自己相関関数ａ_ｉ，ｑ（ｎ）が最大となるｎを検出し、それを各周波数スペクトルＸ_ｉ，ｑ（ｋ）の周期ｎ_ｐ ^ｉ，ｑと推定する。このｎ_ｐ ^ｉ，ｑは、上述したｎの探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号（例えば正弦波）の場合にはその周期長に相当する値になる。周期推定部１２５は、この周期ｎ_ｐ ^ｉ，ｑを出力し、出力された各周期ｎ_ｐ ^ｉ，ｑは、メモリ１００の領域１０６に格納される。

次に、櫛型フィルタ生成部１２６が、メモリ１００の領域１０６から各周期ｎ_ｐ ^ｉ，ｑを読み込み、各帯域（すなわち、各ｑ）に対し、周波数スペクトルＸ_ｉ、ｑ（ｋ）の基本周波数とその整数倍の各成分とを抑圧する櫛型フィルタＨ_ｉ，ｑ（ｚ）を生成する（ステップＳ６）。本形態の櫛型フィルタＨ_ｉ，ｑ（ｚ）は、例えば、ｚ領域表現で
H_i,q(z)=1−z^(−n_p ^i,q) …(4)
と表される関数である。なお、α^βは、αのβ乗（α^β）を意味する。櫛型フィルタ生成部１２６は、以上のように生成した各帯域の櫛型フィルタＨ_ｉ，ｑ（ｚ）を出力し、出力された各帯域の櫛型フィルタＨ_ｉ，ｑ（ｚ）は、メモリ１００の領域１０７に格納される。

次に、櫛型フィルタ適用部１２７（「信号分離部」に相当）が、メモリ１００の領域１０４から周波数スペクトルＸ_ｉ、ｑ（ｋ）を読み込み、領域１０７から櫛型フィルタＨ_ｉ，ｑ（ｚ）を読み込む。そして、櫛型フィルタ適用部１２７は、各櫛型フィルタＨ_ｉ，ｑ（ｚ）を、それらに対応する帯域の周波数スペクトルＸ_ｉ、ｑ（ｋ）に適用し、各櫛型フィルタＨ_ｉ，ｑ（ｚ）の零点（基本周波数成分とその整数倍の周波数成分）のパワー値が抑制された周波数スペクトルＸ_ｉ、ｑ（ｋ）の非周期性成分Ｚ_ｉ、ｑ（ｋ）を生成する〔Ｚ_ｉ、ｑ（ｋ）＝Ｘ_ｉ、ｑ（ｋ）・Ｈ_ｉ，ｑ（ｚ）／ステップＳ７〕。これらの非周期性成分Ｚ_ｉ、ｑ（ｋ）は、周波数スペクトルＸ_ｉ、ｑ（ｋ）の基本周波数とその整数倍の各成分を抑圧した信号であり、分析対象である音声信号の非周期性成分にあたる。このような操作は各ｑについて行われ、櫛型フィルタ適用部１２７は、このように生成した各非周期性成分Ｚ_ｉ、ｑ（ｋ）を出力し、出力された各非周期性成分Ｚ_ｉ、ｑ（ｋ）は、メモリ１００の領域１０８に格納される。

次に、振幅演算部１２８（「第１振幅演算部」を構成）が、メモリ１００の領域１０８から、各ｑに対応する各非周期性成分Ｚ_ｉ、ｑ（ｋ）を読み込み、

の演算によって各非周期性成分Ｚ_ｉ、ｑ（ｋ）の（平均）パワー値ｐ_ｃｆ ^ｉ，ｑを計算する（ステップＳ８）。振幅演算部１２８は、このように算出した各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを出力し、出力された各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑは、メモリ１００の領域１０９に格納される。
次に、振幅演算部１２８は、メモリ１００の領域１０４から、各ｑに対応する櫛型フィルタＨ_ｉ，ｑ（ｚ）適用前の各周波数スペクトルＸ_ｉ、ｑ（ｋ）を読み込み、

の演算によって、各周波数スペクトルＸ_ｉ、ｑ（ｋ）の（平均）パワー値ｐ_ｂｐｆ ^ｉ，ｑを計算する（ステップＳ９）。振幅演算部１２８は、このように算出した各周波数スペクトルＸ_ｉ、ｑ（ｋ）のパワー値ｐ_ｂｐｆ ^ｉ，ｑを出力し、出力された各周波数スペクトルＸ_ｉ、ｑ（ｋ）のパワー値ｐ_ｂｐｆ ^ｉ，ｑは、メモリ１００の領域１０９に格納される。

次に、減算部１２９（「第１振幅演算部」を構成）が、メモリ１００の領域１０９から、各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑと各周波数スペクトルＸ_ｉ、ｑ（ｋ）のパワー値ｐ_ｂｐｆ ^ｉ，ｑとを各ｑについて読み込む。そして、減算部１２９は、帯域毎（すなわちｑ毎）に、パワー値ｐ_ｂｐｆ ^ｉ，ｑからパワー値ｐ_ｃｆ ^ｉ，ｑを減算し、周期性成分の（平均）パワー値ｐ_ｓｐ ^ｉ，ｑを算出する（ｐ_ｓｐ ^ｉ，ｑ＝ｐ_ｂｐｆ ^ｉ，ｑ−ｐ_ｃｆ ^ｉ，ｑ／ステップＳ１０）。減算部１２９は、このように算出した周期性成分の各パワー値ｐ_ｓｐ ^ｉ，ｑを出力し、出力された周期性成分の各パワー値ｐ_ｓｐ ^ｉ，ｑは、メモリ１００の領域１１０に格納される。

次に、特徴パラメータ生成部１３０が、以上のように生成された周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑのみを特徴量として用い、特徴パラメータを生成する。すなわちまず、特徴パラメータ生成部１３０の加算部１３１が、メモリ１００の領域１１０から全てのｑについてパワー値ｐ_ｓｐ ^ｉ，ｑを読み込む。そして、加算部１３１は、読み込んだ各帯域（全てのｑ）の周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑを以下の式により合算した加算値Ｅ_ｐ ^ｉを生成する（ステップＳ１１）。

加算部１３１は、このように生成した加算値Ｅ_ｐ ^ｉを出力し、出力された加算値Ｅ_ｐ ^ｉはメモリ１００の領域１１１に格納される。
次に、特徴パラメータ生成部１３０の対数変換部１３２が、メモリ１００の領域１１１から加算値Ｅ_ｐ ^ｉを読み込み、それを対数変換した特徴パラメータＥ_ｉ（Ｅ_ｉ＝ｌｏｇＥ_ｐ ^ｉ）を生成する（ステップＳ１２）。対数変換部１３２は、このように生成した特徴パラメータＥ_ｉを出力する。
次に、制御部１４１は、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ２に戻す（ステップＳ１３）。

〔第２の実施の形態〕
次に、本発明における第２の実施の形態について説明する。
本形態は、第１の実施の形態の変形例である。第１の実施の形態では、帯域通過フィルタバンクによって分割された各帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成していた。これに対し、第２の実施の形態では、各帯域に対し、基本周波数とその整数倍の周波数に対応する値を強調する櫛型フィルタを生成する。そして、このような櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成する。以下、第１の実施の形態との相違点を中心に第２の実施の形態の説明を行っていく。

＜構成＞
図６は、第２の実施の形態における音声信号分析装置２００の機能構成を例示したブロック図である。第２の実施の形態の音声信号分析装置３００も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、減算プログラムを有しない点、及び、櫛型フィルタ生成プログラムと振幅演算プログラムとの構成の点で第１の実施の形態のものと相違する。なお、図６において第１の実施の形態と共通する部分については、図２と同じ符号を付している。

図６に例示するように、本形態の音声信号分析装置２００は、メモリ１００、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部２２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部２２８（「第１振幅演算部」に相当）、特徴パラメータ生成部１３０、制御部１４１及び一時メモリ１４２を有している。なお、音声信号分析装置２００は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図７は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図８は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図６から図８を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップＳ２０からステップＳ２４までの処理は、第１の実施の形態におけるステップＳ１からＳ５（図３）の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップＳ２４の処理の後、櫛型フィルタ生成部２２６が、メモリ１００の領域１０６から各周期ｎ_ｐ ^ｉ，ｑを読み込み、各帯域（すなわち、各ｑ）に対し、周波数スペクトルＸ_ｉ、ｑ（ｋ）の基本周波数とその整数倍の各成分とを強調する櫛型フィルタＨ_ｉ，ｑ（ｚ）を生成する（ステップＳ２５）。本形態の櫛型フィルタＨ_ｉ，ｑ（ｚ）は、例えば、ｚ領域表現で
H_i,q(z)=1 / {1‐z^(‐ｎ_ｐ ^ｉ，ｑ）｝ …(8)
と表される関数である。櫛型フィルタ生成部２２６は、以上のように生成した各帯域の櫛型フィルタＨ_ｉ，ｑ（ｚ）を出力し、出力された各帯域の櫛型フィルタＨ_ｉ，ｑ（ｚ）は、メモリ１００の領域１０７に格納される。

次に、櫛型フィルタ適用部１２７（「信号分離部」に相当）が、メモリ１００の領域１０４から周波数スペクトルＸ_ｉ、ｑ（ｋ）を読み込み、領域１０７から櫛型フィルタＨ_ｉ，ｑ（ｚ）を読み込む。そして、櫛型フィルタ適用部１２７は、各櫛型フィルタＨ_ｉ，ｑ（ｚ）を、それらに対応する帯域の周波数スペクトルＸ_ｉ、ｑ（ｋ）に適用し、各櫛型フィルタＨ_ｉ，ｑ（ｚ）の零点（基本周波数成分とその整数倍の周波数成分）のパワー値が強調された周波数スペクトルＸ_ｉ、ｑ（ｋ）の周期性成分Ｚ_ｉ、ｑ（ｋ）を生成する〔Ｚ_ｉ、ｑ（ｋ）＝Ｘ_ｉ、ｑ（ｋ）・Ｈ_ｉ，ｑ（ｚ）／ステップＳ２６〕。これらの周期性成分Ｚ_ｉ、ｑ（ｋ）は、周波数スペクトルＸ_ｉ、ｑ（ｋ）の基本周波数とその整数倍の各成分とを強調した信号であり、分析対象である音声信号の周期性成分に相当する。このような操作は各ｑについて行われ、櫛型フィルタ適用部１２７は、このように生成した各周期性成分Ｚ_ｉ、ｑ（ｋ）を出力し、出力された各周期性成分Ｚ_ｉ、ｑ（ｋ）は、メモリ１００の領域１０８に格納される。
次に、振幅演算部２２８（「第１振幅演算部」に相当）が、メモリ１００の領域１０８から、各ｑに対応する各周期性成分Ｚ_ｉ、ｑ（ｋ）を読み込み、

の演算によって各周期性成分Ｚ_ｉ、ｑ（ｋ）の（平均）パワー値ｐ_ｓｐ ^ｉ，ｑを計算する（ステップＳ２７）。振幅演算部２２８は、このように算出した各周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑを出力し、出力された各周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑは、メモリ１００の領域１０９に格納される。

その後、第１の実施の形態と同じ手順により（図３ステップＳ１１，Ｓ１２参照）、特徴パラメータ生成部１３０が、以上のように生成された周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑのみを特徴量として用い、特徴パラメータを生成して出力する（ステップＳ２８，Ｓ２９）。その後、制御部１４１が、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ２１に戻す（ステップＳ３０）。

〔第３の実施の形態〕
次に、本発明における第３の実施の形態について説明する。
本形態も第１の実施の形態の変形例である。第１の実施の形態では、櫛型フィルタを用いて抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成していた。これに対し、第３の実施の形態では、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
音声信号のパワー値の強弱は周波数帯域によって偏りがある。また、周囲環境の雑音のパワー値も、通常、周波数スペクトル上で一様には分布しておらず、各周波数帯域によって偏りがある。従って、雑音の影響の少ない（音声のパワー値が大きく、雑音のパワー値の小さい）周波数帯域を選択し、その周波数帯域の信号を特徴パラメータの生成に利用することによって、雑音環境下での音声信号分析をより精度よく行うことができる。また、仮に、白色雑音のように、雑音のパワー値の分布が周波数スペクトル上で一様であったとしても、雑音よりも音声のパワー値が大きい周波数帯域を選択すれば、同様の効果が期待できる。第３の実施の形態では、このような効果を得るため、周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
以下、第１の実施の形態との相違点を中心に第３の実施の形態の説明を行っていく。

＜構成＞
図９は、第３の実施の形態における音声信号分析装置３００の機能構成を例示したブロック図である。なお、第３の実施の形態の音声信号分析装置３００もコンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、特徴パラメータ生成プログラムの構成の点で第１の実施の形態のものと相違する。なお、図９において第１の実施の形態と共通する部分については、図２と同じ符号を付している。

図９に示すように、本形態の音声信号分析装置３００は、メモリ１００、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部１２８（「第１振幅演算部」を構成／「第２振幅演算部」に相当）、減算部１２９（「第１振幅演算部」を構成）、特徴パラメータ生成部３３０、制御部１４１及び一時メモリ１４２を有している。また、特徴パラメータ生成部３３０は、選択部３３３、加算部３３１及び対数変換部１３２を有している。なお、音声信号分析装置３００は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図１０は、本形態の音声信号分析方法を説明するためのフローチャートである。以下、図９及び図１０を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップＳ４０からステップＳ４９までの処理は、第１の実施の形態におけるステップＳ１からＳ１０（図３）の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップＳ４９の処理の後、特徴パラメータ生成部３３０が、帯域毎に算出された周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑの一部のみを特徴量として用い、特徴パラメータを生成する。
まず、特徴パラメータ生成部３３０の選択部３３３が、メモリ１００の領域１１０から、周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑから一部のパワー値ｐ_ｓｐ ^ｉ，ｑ’を選択する（ステップＳ５０）。

［パワー値ｐ_ｓｐ ^ｉ，ｑの選択手法の例示］
以下に、選択部３３３が行うパワー値ｐ_ｓｐ ^ｉ，ｑの選択手法を例示する。
＜手法１＞
手法１の例の場合、選択部３３３は、予め設定された帯域に対応する（予め設定されたｑ’に対応する）パワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択する。例えば、雑音成分が多いことが予め知られている帯域以外の帯域に対応するパワー値のみを選択する。

＜手法２＞
手法２の例の場合、選択部３３３は、非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを用い、特徴パラメータの生成に用いる周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’を選択する。
例えば、選択部３３３が、メモリ１００の領域１０９から各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを読み込み、当該パワー値ｐ_ｃｆ ^ｉ，ｑが閾値以下或いは未満となる帯域に対応する周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択する。

また、例えば、選択部３３３が、メモリ１００の領域１０９から各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを読み込み、領域１１０から各周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑを読み込み、周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑに対する非周期性成分のパワー値ｐ_ｃｆ ^ｉ，ｑの比率が閾値以下或いは未満となる帯域に対応する周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択することとしてもよい。
さらに、例えば、例えば、選択部３３３が、メモリ１００の領域１０９から各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを読み込み、これらの大きさを各帯域間で比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択することとしてもよい。

また、例えば、選択部３３３が、メモリ１００の領域１０９から各非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを読み込み、領域１１０から各周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑを読み込み、各帯域間で、周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑに対する非周期性成分のパワー値ｐ_ｃｆ ^ｉ，ｑの比率（例えば、ｐ_ｃｆ ^ｉ，ｑ／ｐ_ｓｐ ^ｉ，ｑ）を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択することとしてもよい（［パワー値ｐ_ｓｐ ^ｉ，ｑの選択手法の例示］の説明終わり）。

次に、特徴パラメータ生成部３３０の加算部３３１が、選択部３３３によって選択されたパワー値ｐ_ｓｐ ^ｉ，ｑ’のみを、メモリ１００の領域１１０から読み込み、これらのパワー値ｐ_ｓｐ ^ｉ，ｑ’を合算した加算値Ｅ_ｐ ^ｉを生成する（ステップＳ５１）。加算部３３１は、この加算値Ｅ_ｐ ^ｉを出力し、出力された加算値Ｅ_ｐ ^ｉはメモリ１００の領域１１１に格納される。
次に、特徴パラメータ生成部３３０の対数変換部１３２が、メモリ１００の領域１１１から加算値Ｅ_ｐ ^ｉを読み込み、それを対数変換した特徴パラメータＥ_ｉ（Ｅ_ｉ＝ｌｏｇＥ_ｐ ^ｉ）を生成する（ステップＳ５２）。対数変換部１３２は、このように生成した特徴パラメータＥ_ｉを出力する。
次に、制御部１４１は、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ４１に戻す（ステップＳ５３）。

〔第４の実施の形態〕
次に、本発明における第４の実施の形態について説明する。
本形態は、第３の実施の形態の変形例である。第３の実施の形態では、周波数領域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を実行していたのに対し、第４の実施の形態では、時間帯域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を行う。以下、第１，３の実施の形態との相違点を中心に第４の実施の形態の説明を行っていく。

＜構成＞
図１１は、第４の実施の形態における音声信号分析装置４００の機能構成を例示したブロック図である。第４の実施の形態の音声信号分析装置４００も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、帯域分割プログラム、音声波形切出プログラム及び周期推定プログラムの構成が相違する点、離散フーリエ変換プログラムの代わりに自己相関関数生成プログラムを有する点で第３の実施の形態のものと相違する。なお、図１１において第１，３の実施の形態と共通する部分については、図２及び図９と同じ符号を付している。

図１１に例示するように、本形態の音声信号分析装置４００は、メモリ４１０、帯域分割部４２３、音声波形切出部４２１、自己相関関数生成部４２４、周期推定部４２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部１２８（「第１振幅演算部」を構成／「第２振幅演算部」に相当）、減算部１２９（「第１振幅演算部」を構成）、特徴パラメータ生成部３３０、制御部１４１及び一時メモリ１４２を有している。ここで、メモリ４１０は、データを格納するための領域１０３，１０６〜１１０，４１１，４１４，４１５を有している。なお、音声信号分析装置４００は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図１２は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図１３は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図１１から図１３を用いて、本形態の音声信号分析方法を説明する。
第１の実施の形態と同様な前処理を前提に、まず、制御部１４１がパラメータｉに０を代入し、これを一時メモリ１４２に格納する（ステップＳ６０）。次に、分析対象の音声信号ｘ（ｎ）が帯域分割部４２３に入力され、帯域分割部４２３は、これをトリガに、メモリ４１０の領域１０３から各帯域に対応する帯域通過フィルタＢＰＦ_ｑ（ｎ）〔ｑ＝１，...，Ｑ〕を読み込む。そして、帯域分割部４２３は、入力された音声信号ｘ（ｎ）に、読み込んだ各帯域通過フィルタＢＰＦ_ｑ（ｎ）を乗じ、それぞれの演算結果を、各帯域通過フィルタＢＰＦ_ｑ（ｎ）に対応する周波数帯域に分割された分離信号ｘ_ｑ（ｎ）として出力する〔ｘ_ｑ（ｎ）＝Ｘ_ｉ（ｋ）・ＢＰＦ_ｑ（ｎ）／ステップＳ６１〕。そして、このように出力された分離信号ｘ_ｑ（ｎ）は、メモリ４１０の領域４１１に格納される。

次に、音声波形切出部４２１が、メモリ４１０の領域４１１に格納された各帯域（各ｑに対応する）の分離信号ｘ_ｑ（ｎ）から、ある時間長の離散信号ｘ_ｉ，ｑ（ｎ）を、時間軸方向に移動（シフト）しながら切り出していく（ステップＳ６２）。具体的には、音声波形切出部４２１が、メモリ４１０の領域４１１から各帯域（各ｑに対応する）の分離信号ｘ_ｑ（ｎ）を読み込み、それらに窓関数ｗ（ｎ＋ｉ・ｓ）を乗じることによって、あるサンプル点長の離散信号ｘ_ｉ，ｑ（ｎ）を抽出する〔ｘ_ｉ，ｑ（ｎ）＝ｘ_ｉ，ｑ（ｎ）・ｗ（ｎ＋ｉ・ｓ）〕。音声波形切出部４２１は、こののように抽出した離散信号ｘ_ｉ，ｑ（ｎ）を出力し、出力された離散信号ｘ_ｉ，ｑ（ｎ）はメモリ４１０の領域４１４に格納される。

次に、メモリ４１０の領域４１４に格納された各離散信号ｘ_ｉ，ｑ（ｎ）に含まれる周期推定を行う。本形態の周期推定には、基本周波数抽出法の一つである自己相関法を用いる。そのために、まず、自己相関関数生成部４２４が、メモリ４１０の領域４１４から各離散信号ｘ_ｉ，ｑ（ｎ）を読み込み、以下の式によっての自己相関関数の係数ｃ_ｉ，ｑ（ｒ）を算出し、これをメモリ４１０の領域４１５に格納する。なお、自己相関関数の係数ｃ_ｉ，ｑ（ｒ）の算出・格納は各ｑについて行われる。

次に、周期推定部４２５が、メモリ４１０の領域４１５から自己相関関数の係数ｃ_ｉ，ｑ（ｒ）を読み込み、各帯域に対し（すなわち、各ｑに対し）、一定の探索範囲内、例えば４０≦ｒ≦１００（サンプリング周波数８，０００Ｈｚの場合の８０Ｈｚから２００Ｈｚの周期に該当）の範囲内において自己相関関数の係数ｃ_ｉ，ｑ（ｒ）が最大となるｒを検出し、それを各離散信号ｘ_ｉ，ｑ（ｎ）の周期ｎ_ｐ ^ｉ，ｑと推定する（ステップＳ６３）。周期推定部４２５は、この周期ｎ_ｐ ^ｉ，ｑを出力し、出力された各周期ｎ_ｐ ^ｉ，ｑは、メモリ４１０の領域１０６に格納される。

その後、第３の実施の形態のステップＳ４５〜Ｓ５２と同じ処理が実行される（ステップＳ６４〜Ｓ７１）。そして、制御部１４１が、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ６１に戻す（ステップＳ７２）。
〔第５の実施の形態〕
次に、本発明における第５の実施の形態について説明する。
本形態は、第１の実施の形態の音声信号分析装置１の実用例である。本形態では、第１の実施の形態の方法によって生成された特徴パラメータと、非特許文献３に記載の方法によって生成された特徴パラメータとを用い、自動音声認識処理を行う。以下、第１の実施の形態との相違点を中心に、第５の実施の形態を説明していく。

図１４は、本形態の自動音声認識処理を行う自動音声認識装置１０００の構成を例示したブロック図である。
図１４に例示するように、本形態の自動音声認識装置１０００は、第１の実施の形態の音声信号分析装置１と、前述の非特許文献３に記載の技術によって音声信号から特徴パラメータを出力する音声信号分析装置５００と、隠れマルコフモデル（ＨＭＭ）等に基づいて音声パターンの学習及び自動音声認識を行う音声パターン識別器１００１（「音声認識処理部」に相当）と、音声パターンの学習によって得られた学習データを記憶する学習データ記憶部１００２とを有している。なお、音声信号分析装置５００及び音声パターン識別器１００１は、公知のコンピュータに所定のプログラムが読み込まれることにより構成されるものである。また、学習データ記憶部１００２は、ＲＡＭ、ハードディスク装置等の記憶装置である。

本形態の自動音声認識装置１０００を用いて自動音声認識を行う場合、まず、前処理として、音声信号分析装置１，５００によって学習用の音声信号から特徴パラメータを抽出する。そして、抽出した特徴パラメータは、学習用に設定された音声認識の正解値とともに音声パターン識別器１００１に入力され、音声パターン識別器１００１は、これらを用いて音声認識処理用の学習データを生成し、学習データ記憶部１００２に格納する。
音声信号の自動音声認識を行う場合、まず、音声信号分析装置１，５００に認識対象の音声信号が入力される。当該音声信号分析装置１，５００は、入力された認識対象の音声信号から各特徴パラメータを抽出する（第１の実施の形態及び非特許文献３参照）。抽出された特徴パラメータは音声パターン識別器１００１に入力される。音声パターン識別器１００１は、これらの特徴パラメータを用いて学習データ記憶部１００２に格納された学習データを検索し、当該検索結果を用いて音声認識処理を行い、その音声認識結果を出力する。

〔第６の実施の形態〕
次に、本発明における第６の実施の形態について説明する。
本形態は、第５の実施の形態の変形例であり、非特許文献３に記載の方法の過程で生成されたデータを第１の実施の形態の処理に再利用し、処理の効率化を図った形態である。以下、第１，５の実施の形態との相違点を中心に、第６の実施の形態を説明していく。
＜構成＞
図１５は、本形態の自動音声認識装置２０００の機能構成を例示したブロック図である。また、図１６は、図１５に記載された音声信号分析装置６００の機能構成を例示したブロック図である。なお、音声信号分析装置６００も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点で、第１の実施の形態のものと相違する。また、図１５において第５の実施の形態と共通する部分については図１５と同じ符号を付している。また、図１６において第１実施の形態と共通する部分については、図２と同じ符号を付している。

図１５に例示するように、本形態の自動音声認識装置２０００は、音声信号分析装置６００、音声パターン識別器１００１及び学習データ記憶部１００２を有している。また、図１６に示すように、本形態の音声信号分析装置６００は、メモリ６１０、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部１２８（「第１振幅演算部」を構成／「第２振幅演算部」に相当）、減算部１２９（「第１振幅演算部」を構成）、特徴パラメータ生成部１３０（「第２特徴パラメータ生成部」に相当）、制御部１４１、一時メモリ１４２、離散コサイン変換部６２１及びベクトル結合部６２２（「第１特徴パラメータ生成部」に相当）を有している。また、メモリ６１０は、データを記憶するための領域１０１〜１１１，６１２を有している。なお、音声信号分析装置６００は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図１７及び図１８は、本形態の音声信号分析方法を説明するためのフローチャートである。
本形態の処理と第５の実施の形態の処理との相違点は、音声信号から特徴パラメータを抽出する処理のみである。以下では、音声信号分析装置６００が音声信号から特徴パラメータを抽出する処理を中心に説明する。
前処理、ステップＳ８０からステップＳ８９までの処理は、第１の実施の形態におけるステップＳ１からＳ１０（図３）の処理と同じであるため、ここでは説明を省略する。ステップＳ８９の処理の後、離散コサイン変換部６２１が、メモリ６１０の領域１１０から、周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｖを読み込み（ｖ＝１，...，Ｑ）、各パワー値ｐ_ｓｐ ^ｉ，ｖを要素とするＱ次元のベクトル（ｐ_ｓｐ ^ｉ，1，...，ｐ_ｓｐ ^ｉ，Ｑ）に対し、例えば、以下の式（１１）によって離散コサイン変換を施し、Ｑ次元の離散コサイン係数Ｃ_ｓｐ ^ｉ，ｕ（ｕ＝１，...，Ｑ）を算出する（ステップＳ９０）。なお、離散コサイン変換を施す各パワー値ｐ_ｓｐ ^ｉ，ｖを要素とするＱ次元のベクトル（ｐ_ｓｐ ^ｉ，1，...，ｐ_ｓｐ ^ｉ，Ｑ）は、例えば、各パワー値ｐ_ｓｐ ^ｉ，ｖを、対応する帯域通過フィルタＢＰＦ_ｖ（ｋ）の中心周波数の順序で配置したベクトルである。また、２４帯域分の帯域通過フィルタを用いていた場合、この（ｐ_ｓｐ ^ｉ，1，...，ｐ_ｓｐ ^ｉ，Ｑ）は２４次元のベクトルとなる。

離散コサイン変換部６２１は、算出したＱ次元の離散コサイン係数Ｃ_ｓｐ ^ｉ，ｕからなるベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，Ｑ）（「変換結果を示す情報」に相当）を出力し、出力されたベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，Ｑ）は、メモリ６１０の領域６１２に格納される。
また、離散コサイン変換部６２１は、メモリ６１０の領域１０９から、非周期性成分のパワー値ｐ_ｃｆ ^ｉ，ｖを読み込み（ｖ＝１，...，Ｑ）、各パワー値ｐ_ｃｆ ^ｉ，ｖを要素とするＱ次元のベクトル（ｐ_ｃｆ ^ｉ，1，...，ｐ_ｃｆ ^ｉ，Ｑ）に対し、例えば、以下の式（１２）によって離散コサイン変換を施し、Ｑ次元の離散コサイン係数Ｃ_ｃｆ ^ｉ，ｕ（ｕ＝１，...，Ｑ）を算出する（ステップＳ９１）。なお、離散コサイン変換を施す各パワー値ｐ_ｃｆ ^ｉ，ｖを要素とするＱ次元のベクトルは、例えば、各パワー値ｐ_ｃｆ ^ｉ，ｖを、対応する帯域通過フィルタＢＰＦ_ｖ（ｋ）の中心周波数の順序で配置したベクトルである。

離散コサイン変換部６２１は、算出したＱ次元の離散コサイン係数Ｃ_ｃｆ ^ｉ，ｕからなるベクトル（Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ）（「変換結果を示す情報」に相当）を出力し、出力されたＱ次元の離散コサイン係数Ｃ_ｃｆ ^ｉ，ｕからなるベクトルは、メモリ６１０の領域６１２に格納される。

次に、ベクトル結合部６２２が、メモリ６１０の領域６１２から、ベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，Ｑ）及び（Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ）（「離散コサイン変換部６２１の出力値」に相当）を読み込み、それらの一部又は全部を連結したベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ’）を第１特徴パラメータとして生成する（ステップＳ９２）。例えば、ベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，Ｑ）及び（Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ）がそれぞれ２４次元のベクトルである場合（Ｑ＝２４である場合）、ベクトル結合部６２２は、例えば、ベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，２４）及び（Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，２４）から、それぞれ１２次元の要素（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，１２）及び（Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，１２）を抽出し、それらを連結した２４次元のベクトル（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｓｐ ^ｉ，１２，Ｃ_ｃｆ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，１２）を第１特徴パラメータとする。そして、ベクトル結合部６２２は、このように生成した第１特徴パラメータ（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ）を出力する。

その後、第１の実施の形態と同じ手順により（図３ステップＳ１１，Ｓ１２参照）、特徴パラメータ生成部１３０が、以上のように生成された周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑのみを特徴量として用い、第２特徴パラメータＥ_ｉを生成して出力する（ステップＳ９３，Ｓ９４）。その後、制御部１４１が、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ８０に戻す（ステップＳ３０）。
以上のように音声信号分析装置６００から順次出力される第１特徴パラメータ及び第２特徴パラメータは、音声パターン識別器１００１に入力され、音声パターン識別器１００１は、これらのパラメータを用い、学習データの生成や自動音声認識を行う。

〔第７の実施の形態〕
次に、本発明における第７の実施の形態について説明する。
本形態は、第６の実施の形態と第３の実施の形態とを融合した例であり、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する点が第６の実施の形態との相違点である。以下、第１，３，６の実施の形態との相違点を中心に、第７の実施の形態を説明する。
＜構成＞
本形態の自動音声認識装置は、第６の実施の形態の自動音声認識装置２０００が具備する音声信号分析装置６００（図１５）を、音声信号分析装置７００に置換した構成となる。

図１９は、この音声信号分析装置７００
の機能構成を例示したブロック図である。なお、音声信号分析装置７００も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点と、特徴パラメータ生成プログラムの構成との点で、第１の実施の形態のものと相違する。また、図１９において、第１，５の実施の形態と共通する部分については図２，図１６と同じ符号を付している。

図１９に示すように、本形態の音声信号分析装置７００は、メモリ６１０、音声波形切出部１２１、離散フーリエ変換部１２２、帯域分割部１２３、逆離散フーリエ変換部１２４、周期推定部１２５、櫛型フィルタ生成部１２６、櫛型フィルタ適用部１２７（「信号分離部」に相当）、振幅演算部１２８（「第１振幅演算部」を構成／「第２振幅演算部」に相当）、減算部１２９（「第１振幅演算部」を構成）、特徴パラメータ生成部３３０（「第２特徴パラメータ生成部」に相当）、制御部１４１、一時メモリ１４２、離散コサイン変換部６２１及びベクトル結合部６２２（「第１特徴パラメータ生成部」に相当）を有している。また、メモリ６１０は、データを記憶するための領域１０１〜１１１，６１２を有し、特徴パラメータ生成部３３０は、選択部３３３、加算部３３１及び対数変換部１３２を有している。なお、音声信号分析装置７００は、制御部１４１の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ１４２に格納され、次の演算処理において利用される。

＜処理＞
図２０は、本形態の音声信号分析方法を説明するためのフローチャートである。なお、図２０は、本形態の音声信号分析方法の一部を示しており、本形態では、第６の実施の形態で説明したステップＳ９０からＳ９５（図１８）の処理の代わりに、図２０に示したステップＳ１００からＳ１０６の処理を実行する。以下では、第６の実施の形態との相違点を中心に説明を行い、第１，３，６の実施の形態と共通する事項については説明を省略する。

本形態では、ステップＳ９５（図１８）の処理の後、第６の実施の形態のステップＳ９０からＳ９２と同じ手順によって第１特徴パラメータ（Ｃ_ｓｐ ^ｉ，1，...，Ｃ_ｃｆ ^ｉ，Ｑ）を生成し、これを出力する。
次に、特徴パラメータ生成部３３０が、帯域毎に算出された周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑの一部のみを特徴量として用い、第２特徴パラメータを生成する。そのために、まず、特徴パラメータ生成部３３０の選択部３３３が、メモリ６１０の領域１１０から、周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｓｐ ^ｉ，ｑから一部のパワー値ｐ_ｓｐ ^ｉ，ｑ’を選択する（ステップＳ１０４）。パワー値ｐ_ｓｐ ^ｉ，ｑの選択手法としては、第３の実施の形態で説明したように、予め設定された帯域に対応する（予め設定されたｑ’に対応する）パワー値ｐ_ｓｐ ^ｉ，ｑ’のみを選択する構成としてもよいし（＜手法１＞）、メモリ６１０の領域１０９に格納されている非周期性成分Ｚ_ｉ、ｑ（ｋ）のパワー値ｐ_ｃｆ ^ｉ，ｑを用い、特徴パラメータの生成に用いる周期性成分のパワー値ｐ_ｓｐ ^ｉ，ｑ’を選択することとしてもよい（＜手法２＞）。なお、これらの手法の詳細については、第３の実施の形態に例示した通りである。

その後、第３の実施の形態のステップＳ５１，Ｓ５２（図１０）と同じ手順によって、特徴パラメータＥ_ｉを生成して出力し（ステップＳ１０５，Ｓ１０６）、制御部１４１が、一時メモリ１４２からパラメータｉを読み込み、このｉの値に１を加算したｉ＋１を新たなパラメータｉとして一時メモリ１４２に格納し、処理をステップＳ８１に戻す（ステップＳ１０６）。

〔実験〕
次に、本発明の一実施例の効果を示すための実験結果について説明する。
この実験では、雑音下での数字認識における自動音声認識の音声認識精度を、第１の実施の形態の音声信号分析装置１で得られた特徴パラメータと、前述の非特許文献３に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合（［提案法］）と、前述の非特許文献１に記載の対数パワー値と、前述の非特許文献３に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合（［従来法］）とで比較した。
また、本実験には、（社）情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境（ＡＵＲＯＲＡ−２Ｊ）のデータベースを利用した。また、非特許文献３の技術において、２４チャネルのガンマトーンフィルタバンクを用い、音声波形の切出しを２５ｍｓ長で１０ｍｓごとに行い、周期性成分及び非周期性成分に対応する離散コサイン変換後のベクトル（第１特徴パラメータ）を、それぞれ１２次元、併せて２４次元とした。

そして、［提案法］では、この２４次元のベクトルに音声信号分析装置１で得られた特徴パラメータ（第２特徴パラメータ）を加えて２５次元のベクトル（「提案法初期ベクトル」と呼ぶ）を生成し、［提案法］では、この２４次元のベクトルに前述の非特許文献１に記載の対数パワー値を加えて２５次元のベクトル（「従来法初期ベクトル」と呼ぶ）を生成した。さらに、提案法初期ベクトル及び従来法初期ベクトルのそれぞれに対し、以下の式（１３）の演算結果を各要素とするΔパラメータ（当該２５次元ベクトルの各要素の時間微分値からなる２５次元ベクトル）を生成し、また、以下の式（１４）の演算結果を各要素とするΔΔパラメータ（当該２５次元ベクトルの各要素の２階時間微分値からなる２５次元ベクトル）を生成した。これにより、［従来法］［提案法］それぞれについて合計７５次元の特徴パラメータを生成した。

なお、式（１３）における、ｂ_α，βは、時刻αにおける提案法初期ベクトル及び従来法初期ベクトルのβ番目の要素を示す。また、τは時間を示し、γはベクトル中の要素の位置を示す。また、Θは定数であり、本実験では式（１３）のΘの値を３とし、式（１４）のΘの値を２とした。また、ΔパラメータやΔΔパラメータのような動的特徴を求める方法については、「”ΔＭＦＣＣ，ΔΔＭＦＣＣ，Δパワー，ΔΔパワーを求める方法”，鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄，”音声認識システム”，オーム社，２００１：１３頁」等参照。

また、本実験では、１６状態２４混合の数字隠れマルコフモデル（ＨＭＭ）に基づいて音声パターン学習や識別を行う音声パターン識別器を用いた。そして、ＡＵＲＯＲＡ−２Ｊデータベースに付属する８，４４０発話の雑音が加算された数字読み上げ音声を学習データとして用いＨＭＭ学習を行った。また、テストデータとしてＡＵＲＯＲＡ−２Ｊデータベースに付属する雑音下での数字読み上げ音声を用い、雑音下での数字認識精度の評価を行った。雑音の種類は自動車，展示会場，レストラン，空港，駅，地下鉄，街頭の７種類である。
以上の条件で行った各雑音下での認識精度結果を図２１に示す。なお、図２１における縦軸は、平均音声認識精度を示し、この値が大きいほど認識精度が高いことを意味している。また、図２１における横軸は、雑音の種類を示している。図２１に示す通り、いずれの雑音下においても、提案法による自動音声認識精度が従来手法による自動音声認識精度よりも高い。これにより、本発明の手法が効果的であることが示された。

〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各実施の形態では、音声信号を抽出した周期性成分のパワー値の加算値の対数を特徴パラメータとしていたが、音声信号を抽出した周期性成分のパワー値のみを特徴量とし、その他の演算によって求めた値を特徴パラメータとしてもよい。例えば、音声信号を抽出した周期性成分のパワー値の加算値をそのまま特徴パラメータとしてもよいし、音声信号を抽出した周期性成分のパワー値の積など、加算以外の演算結果を特徴パラメータとしてもよい。さらには、式（１３）（１４）等によって、本発明の特徴パラメータの動的特徴を求め、それを特徴パラメータの一部としてもよい。

また、上述した各実施の形態を適宜組み合わせた構成としてもよく、さらには、他の特徴パラメータを算出する手法と、上述した各実施の形態とを組み合わせた構成としてもよい。さらに、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の産業上の分野としては、雑音環境下で観測された音声信号の自動音声認識処理を例示できる。

図１は、第１の実施の形態における音声信号分析装置のハードウェア構成を例示したブロック図である。図２は、第１の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。図３は、第１の実施の形態の音声信号分析方法を説明するためのフローチャートである。図４は、第１の実施の形態の音声信号分析方法における情報の流れを示した概念図である。図５は、サンプリング周波数８，０００Ｈｚでサンプリングされた音声信号ｘ（ｎ）から、式（１）の窓関数を用い、切り出し位置を時間軸方向に１０ｍｓづつシフトしながら２５ｍｓの時間長の離散信号ｘ_ｉ（ｎ）を切り出した様子を示した図である。図６は、第２の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。図７は、第２の実施の形態の音声信号分析方法を説明するためのフローチャートである。図８は、第２の実施の形態の音声信号分析方法における情報の流れを示した概念図である。図９は、第３の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。図１０は、第３の実施の形態の音声信号分析方法を説明するためのフローチャートである。図１１は、第４の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。図１２は、第４の実施の形態の音声信号分析方法を説明するためのフローチャートである。図１３は、第４の実施の形態の音声信号分析方法における情報の流れを示した概念図である。図１４は、第５の実施の形態の自動音声認識処理を行う自動音声認識装置の構成を例示したブロック図である。図１５は、第５の実施の形態の自動音声認識装置の機能構成を例示したブロック図である。図１６は、図１５に記載された音声信号分析装置の機能構成を例示したブロック図である。図１７は、第６の実施の形態の音声信号分析方法を説明するためのフローチャートである。図１８は、第６の実施の形態の音声信号分析方法を説明するためのフローチャートである。図１９は、第７の実施の形態の音声信号分析装置の機能構成を例示したブロック図である。図２０は、第７の実施の形態の音声信号分析方法を説明するためのフローチャートである。図２１は、各雑音下で行われた自動音声認識実験の認識精度結果を示したグラフである。

符号の説明

１，２００〜７００音声信号分析装置
１０００,２０００自動音声認識装置

Claims

音声信号の特徴量を抽出する音声信号分析装置であって、
分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第１振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
を有することを特徴とする音声信号分析装置。
請求項１に記載の信号分析装置であって、
分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
上記信号分離部は、
上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
上記第１振幅演算部は、
上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記特徴パラメータ生成部は、
上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。
請求項２に記載の音声信号分析装置であって、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出する第２振幅演算部を有し、
上記特徴パラメータ生成部は、
上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
ことを特徴とする音声信号分析装置。
請求項３に記載の音声信号分析装置であって、
上記特徴パラメータ生成部は、
上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率が閾値以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。
請求項３に記載の音声信号分析装置であって、
上記特徴パラメータ生成部は、
上記の各帯域間で、上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。
請求項１に記載の音声信号分析装置であって、
上記信号分離部は、
分析対象の音声信号に対して通過帯域が異なる複数の帯域通過フィルタを適用し、当該分析対象の音声信号を複数の帯域の信号に分割する帯域分割部と、
上記帯域分割部で分割された信号の周期の推定値を上記帯域毎に算出する周期推定部と、
上記周期の推定値の逆数の整数倍の成分を強調或いは抑圧する櫛型フィルタを上記帯域毎に生成する櫛型フィルタ生成部と、
上記帯域分割部で分割された各信号に対し、それらに対応する上記櫛型フィルタを乗じ、当該信号の周期性成分或いは非周期性成分を抽出する櫛型フィルタ適用部と、
を有することを特徴とする音声信号分析装置。
音声信号の特徴量を抽出する音声信号分析方法であって、
信号分離部が、入力された分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第１振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
を有することを特徴とする音声信号分析方法。
請求項１から６の何れかに記載の音声信号分析装置としてコンピュータを機能させるための音声信号分析プログラム。
音声認識を行う自動音声認識装置であって、
認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第１振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
上記特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
上記特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
を有することを特徴とする自動音声認識装置。
音声認識を行う自動音声認識装置であって、
認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第１振幅演算部と、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出する第２振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力する離散コサイン変換部と、
上記離散コサイン変換部の出力値から第１特徴パラメータを生成する第１特徴パラメータ生成部と、
上記第１振幅演算部が算出した上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第２特徴パラメータを生成する第２特徴パラメータ生成部と、
上記第１特徴パラメータ及び上記第２特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
上記第１特徴パラメータ及び上記第２特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
を有することを特徴とする自動音声認識装置。
請求項１０に記載の自動音声認識装置であって、
分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
上記信号分離部は、
上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
上記第１振幅演算部は、
上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記第２特徴パラメータ生成部は、
上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記第２特徴パラメータを生成する、
ことを特徴とする自動音声認識装置。
請求項１１に記載の自動音声認識装置であって、
上記第２振幅演算部は、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記特徴パラメータ生成部は、
上記第２振幅演算部が算出した上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記第２特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
ことを特徴とする自動音声認識装置。
音声認識を行う自動音声認識方法であって、
信号分離部が、入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第１振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
音声認識処理部が、上記特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
を有することを特徴とする自動音声認識方法。
音声認識を行う自動音声認識方法であって、
信号分離部が、
入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第１振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
第２振幅演算部が、上記信号分離部から出力された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
離散コサイン変換部が、上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力するステップと、
第１特徴パラメータ生成部が、上記離散コサイン変換部の出力値から第１特徴パラメータを生成し、当該第１特徴パラメータを出力するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第２特徴パラメータを生成し、当該第２特徴パラメータを出力するステップと、
音声認識処理部が、上記第１特徴パラメータ及び上記第２特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
を有することを特徴とする自動音声認識方法。
請求項９から１２に記載の自動音声認識装置としてコンピュータを機能させるための自動音声認識プログラム。