JP2007156337A - 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム - Google Patents

音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム Download PDF

Info

Publication number
JP2007156337A
JP2007156337A JP2005355018A JP2005355018A JP2007156337A JP 2007156337 A JP2007156337 A JP 2007156337A JP 2005355018 A JP2005355018 A JP 2005355018A JP 2005355018 A JP2005355018 A JP 2005355018A JP 2007156337 A JP2007156337 A JP 2007156337A
Authority
JP
Japan
Prior art keywords
periodic component
value
feature parameter
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005355018A
Other languages
English (en)
Other versions
JP4630183B2 (ja
Inventor
Kentaro Ishizuka
健太郎 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005355018A priority Critical patent/JP4630183B2/ja
Publication of JP2007156337A publication Critical patent/JP2007156337A/ja
Application granted granted Critical
Publication of JP4630183B2 publication Critical patent/JP4630183B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】雑音環境下の音声信号分析において十分な耐雑音性能を得る。
【解決手段】櫛型フィルタ適用部127において、分析対象の音声信号に櫛型フィルタを適用し、分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する。次に、当該分離抽出された信号成分を用い、振幅演算部128において、周期性成分のパワー値を算出する。そして、特徴パラメータ生成部130において、周期性成分のパワー値のみを特徴量として用い、特徴パラメータを生成する。
【選択図】図2

Description

本発明は、入力された音響信号から特徴パラメータを抽出する技術に関し、特に、雑音や伝送歪み等が存在する環境(雑音環境下)において音声信号の特徴パラメータを抽出する技術に関する。
自動音声認識処理においては、音声特徴表現抽出のための音声信号分析が行われる。そして、従来の音声信号分析法で抽出される音声特徴表現の一つとして、ある一定時間、例えば25msの音声分析区間内における信号の短時間対数パワー値がある(例えば、非特許文献1/P82〜85参照)。この短時間対数パワー値は、音声の振幅変動を表現し、音声の韻律に関わる情報を表現するものと考えることができる。なお、この短時間対数パワー値Eは、音声の離散信号をs(n)、Lを対数パワー値計算のための区間を示す時間長(フレーム長)とすると、以下の式で求めることができる。
Figure 2007156337

しかし、この短時間対数パワー値を音声特徴表現である特徴パラメータの一つとして用いる場合、静かな環境では音声の振幅変動を表現できる一方で、雑音や伝送歪みがあるような状況では、短時間対数パワー値そのものが雑音や伝送歪みの影響を受けて変化するため、十分な音声特徴表現を得ることは難しい。
このような点を考慮し、雑音環境下でも十分な音声特徴表現を得るために、音声信号を帯域分割し、その信号の周期性成分と非周期性成分とを分離し、それらを併用して特徴量として用いる耐雑音音声認識手法がある(例えば、特許文献1、非特許文献2,3参照)。音声の有声音部分(母音並びに有声子音)の周波数スペクトルは、その基本周波数の整数倍にあたる周波数成分(調波成分)にパワーが集中している。すなわち、基本周波数の整数倍にあたる周波数成分の信号の振幅値が他の周波数成分のものと比べて突出して大きい。このような周波数スペクトルの波形は、その基本周波数に応じた周期的なものとなる。そのため、基本周波数の整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを用いることで、この周期性成分を抑圧或いは強調することができる。この性質を利用することで、周期性成分にあたる音声成分と、周期性成分以外の非周期性成分にあたる雑音等の成分とを分離することができる。非特許文献2や3の手法では、このように分離した周期性成分と非周期性成分とを併用したものを特徴量としている。
特開2005−195975 古井貞煕"音声情報処理",森北出版株式会社,1998 Kentaro Ishizuka,Noboru Miyazaki, "Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition," Proceedings of the 29th International Conference on Acoustics, Speech, and Signal Processing, Vol.1, pp. 141-144, 2004. 石塚健太郎, 中谷智広, "音声特徴抽出法SPADEを用いた耐雑音フロントエンド,"日本音響学会研究発表会講演論文集, 2-7-3, pp.63-64, 秋季, 2005
しかし、非特許文献2や3の手法を用いた場合であっても、雑音や伝送歪み等が強い雑音環境下では十分な耐雑音性能を得ることはできない場合がある。また、非特許文献2や3の手法で求めた特徴パラメータと、上述のように求めた短時間対数パワー値Eとを併用した場合であっても、十分な耐雑音性能を得ることはできない場合がある。
本発明は、このような点に鑑みてなされたものであり、あらゆる雑音環境下で十分な耐雑音性能を得ることが可能な音声信号分析技術及びそれを用いた自動音声認識技術を提供することを目的とする。
本発明では上記課題を解決するために、信号分離部が、分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第1振幅演算部が、信号分離部で分離抽出された信号成分を用いて周期性成分の振幅値を変数とした単調増加関数値を算出する。そして、特徴パラメータ生成部が、当該周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも十分な耐雑音性能を得ることができる。
また、本発明において好ましくは、帯域分割部が、分析対象の音声信号を複数の帯域の信号に分割し、信号分離部が、音声信号の周期性成分及び非周期性成分の少なくとも一方を帯域毎に分離抽出する。そして、第1振幅演算部が、周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、帯域毎に算出された周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、特徴パラメータを生成する。
このような構成により、特徴パラメータ生成部は、雑音や伝送歪み等の影響が少ない帯域の周期性成分を変数とした単調増加関数値を選択的に用いて特徴パラメータを生成することが可能となる。その結果、より一層、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調された特徴パラメータを生成することができる。
また、本発明において好ましくは、第2振幅演算部が、信号分離部で分離抽出された信号成分を用いて非周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、非周期性成分の振幅値を変数とした単調増加関数値を用い、特徴パラメータの生成に用いる周期性成分の振幅値を選択する。
これにより、非周期性成分の振幅値に応じ、非周期性成分の影響の小さな帯域を選択し、その帯域の周期性成分の振幅値を変数とした単調増加関数値を特徴パラメータの生成に用いることが可能となる。その結果、動的に変化する雑音環境に対しても十分な耐雑音性能を得ることができる。
また、本発明において好ましくは、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値に対する非周期性成分の振幅値を変数とした単調増加関数値の比率が閾値以下或いは未満となる帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
これにより、周期性成分に対する非周期性成分の影響が小さな帯域を選択し、その帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として特徴パラメータを生成することができる。その結果、帯域毎に雑音等の成分が異なる雑音環境のみならず、白色雑音のような各帯域で振幅値が一様な雑音等を有する雑音環境においても、高い耐雑音性能を得ることができる。たとえ雑音等の成分の振幅値が一様であっても、それに対する音声成分の振幅値が大きい帯域を選択できるからである。
また、本発明において好ましくは、特徴パラメータ生成部は、各帯域間で、周期性成分の振幅値を変数とした単調増加関数値に対する非周期性成分の振幅値を変数とした単調増加関数値の比率を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する。
これにより、音声成分や雑音環境の時間変動が大きく、例えば、全ての帯域において音声成分に対する雑音成分の比率が大きくなってしまう時間区間が存在し、適切な閾値の設定が困難な場合においても、耐雑音性能の高い特徴パラメータを生成することができる。
また、本発明において好ましくは、信号分離部は、分析対象の音声信号に対して通過帯域が異なる複数の帯域通過フィルタを適用し、当該分析対象の音声信号を複数の帯域の信号に分割する帯域分割部と、帯域分割部で分割された信号の周期の推定値を帯域毎に算出する周期推定部と、周期の推定値の逆数の整数倍の成分を強調或いは抑圧する櫛型フィルタを帯域毎に生成する櫛型フィルタ生成部と、帯域分割部で分割された各信号に対し、それらに対応する櫛型フィルタを乗じ、当該信号の周期性成分或いは非周期性成分を抽出する櫛型フィルタ適用部とを有する。
また、本発明では上記課題を解決するために、信号分離部が、認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第1振幅演算部が、信号分離部で分離抽出された信号成分を用い、周期性成分の振幅値を変数とした単調増加関数値を算出し、特徴パラメータ生成部が、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、音声認識処理部が、当該特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行う。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも精度の高い音声認識結果を得ることができる。
また、本発明では上記課題を解決するために、信号分離部が、認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、第1振幅演算部が、信号分離部で分離抽出された信号成分を用い、周期性成分の振幅値を変数とした単調増加関数値を算出し、第2振幅演算部が、信号分離部で分離抽出された信号成分を用い、非周期性成分の振幅値を変数とした単調増加関数値を算出する。そして、離散コサイン変換部が、周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルにそれぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力し、第1特徴パラメータ生成部が、離散コサイン変換部の出力値から第1特徴パラメータを生成する。さらに、第2特徴パラメータ生成部が、第1振幅演算部が算出した周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて第2特徴パラメータを生成し、音声認識処理部が第1特徴パラメータ及び第2特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行う。
ここで、第2特徴パラメータ生成部が第2特徴パラメータの生成に用いる周期性成分の振幅値を変数とした単調増加関数値は、第1特徴パラメータを生成する際に生成されたものである。このようにデータを再利用することにより、新たな演算処理をほとんど行うことなく、第1特徴パラメータに加え、耐雑音性能が高い第2特徴パラメータを生成することができる。
また、本発明において好ましくは、帯域分割部が、分析対象の音声信号を複数の帯域の信号に分割し、信号分離部が、音声信号の周期性成分及び非周期性成分の少なくとも一方を帯域毎に分離抽出し、第1振幅演算部が、周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、第2特徴パラメータ生成部が、帯域毎に算出された周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用いて第2特徴パラメータを生成する。
このような構成により、特徴パラメータ生成部は、雑音や伝送歪み等の影響が弱い帯域の周期性成分の振幅値を変数とした単調増加関数値を選択的に用いて特徴パラメータを生成することも可能となる。その結果、より一層、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調された第2特徴パラメータを生成することができる。
また、本発明において好ましくは、第2振幅演算部が、信号分離部で分離抽出された信号成分を用い、非周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、第2振幅演算部が算出した非周期性成分の振幅値を変数とした単調増加関数値を用い、第2特徴パラメータの生成に用いる周期性成分の振幅値を変数とした単調増加関数値を選択する。
ここで、特徴パラメータ生成部が、第2特徴パラメータの生成に用いる周期性成分の単調増加関数値の選択を行うために用いる非周期性成分の単調増加関数値は、第1特徴パラメータを生成する際に第2振幅演算部が生成したものを再利用したものである。これにより、新たな演算処理を殆ど行うことなく、第2特徴パラメータの生成に用いる周期性成分の単調増加関数値の選択を行うことができる。
以上説明したとおり、本発明では、あらゆる雑音環境下で十分な耐雑音性能を持つ音声信号分析処理が可能となる。また、本発明の音声信号分析結果を用いることにより、あらゆる雑音環境下で十分な耐雑音性能を持つ自動音声認識処理が可能となる。
以下、本発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
まず、本発明における第1の実施の形態について説明する。
本形態は、雑音環境下で観測された音声信号から、音声信号の特徴パラメータを抽出する音声信号分析装置に係る形態である。本形態では、複数の帯域通過フィルタから構成される帯域通過フィルタバンクを用い、分析対象の音声信号を複数の周波数帯域に分割し、それぞれの帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成する。そして、これらの櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分の振幅値を変数とした単調増加関数値を全て用いて特徴パラメータを生成する。以下、この第1の実施の形態を詳細に説明する。なお、以下では、振幅値を変数とした単調増加関数値のことを「パワー値」と呼ぶ。また、この「パワー値」は、振幅値そのものをも含む概念である。
<ハードウェア構成>
図1は、本形態における音声信号分析装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の音声信号分析装置1は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部12は、データが入力される入力ポート、キーボード、マウス等であり、出力部13は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の音声信号分析処理を実行するためのプログラムを格納したプログラム領域14a及びタグ出力情報等の各種データが格納されるデータ領域14bを有している。また、RAM16は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域16a及び各種データが書き込まれるデータ領域16bを有している。また、この例のバス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を、データのやり取りが可能なように接続する。
<プログラム構成>
補助記憶装置14のプログラム領域14aには、音声信号分析装置1としてコンピュータを機能させるための音声信号分析プログラムが格納される。
本形態の音声信号分析プログラムは、音声波形から離散信号を切り出すための音声波形切出プログラム、離散フーリエ変換を行うための離散フーリエ変換プログラム、複数の帯域通過フィルタからなる帯域通過フィルタバンクを用いて帯域分割を行うための帯域分割プログラム、逆離散フーリエ変換を行うための逆離散フーリエ変換プログラム、周期推定を行うための周期推定プログラム、櫛型フィルタを生成するための櫛型フィルタ生成プログラム、櫛型フィルタを信号に適用するための櫛型フィルタ適用プログラム、パワー値を算出するための振幅演算プログラム、減算を行うための減算プログラム、特徴パラメータを生成するための特徴パラメータ生成プログラム、及び制御処理を行うための制御プログラムを呼び出し可能に構成される。また、特徴パラメータ生成プログラムは、加算プログラム及び対数変換プログラムを呼び出し可能に構成される。
なお、上述した各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムがさらに他のライブラリ(記載していない)を読み出して各機能を実現するものでもよい。
<ハードウェアとソフトウェアとの協働>
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述の音声信号分析プログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該音声信号分析プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域から音声信号分析プログラムやデータを読み出し、その音声信号分析プログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2は、このようにCPU11に音声信号分析プログラムが読み込まれることにより構成される音声信号分析装置1の機能構成を例示したブロック図である。なお、図2における矢印はデータの流れを示すが、制御部10hに入出力されるデータの流れの記載は省略してある。
図2に示すように、本形態の音声信号分析装置1は、メモリ100、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部130、制御部141及び一時メモリ142を有している。また、メモリ100は、データを記憶するための領域101〜111を有しており、特徴パラメータ生成部130は、加算部131及び対数変換部132を有している。なお、メモリ100及び一時メモリ142は、補助記憶装置14のデータ領域14b、RAM16のデータ領域16b、CPU11のレジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、或いはこれらを併用した記憶領域に相当する。また、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127、振幅演算部128、減算部129、特徴パラメータ生成部130及び制御部141は、それぞれ、音声波形切出プログラム、離散フーリエ変換プログラム、帯域分割プログラム、逆離散フーリエ変換プログラム、周期推定プログラム、櫛型フィルタ生成プログラム、櫛型フィルタ適用プログラム、振幅演算プログラム、減算プログラム、特徴パラメータ生成プログラム及び制御プログラムがCPU11に読み込まれることにより構成されるものである。
また、音声信号分析装置1は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図3は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図4は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図2から図4を用いて、本形態の音声信号分析方法を説明する。
まず、前処理として、メモリ100の領域103に、複数の帯域通過フィルタBPF(k)〔q=1,...,Qであり、Qは自然数〕からなる帯域通過フィルタバンクを格納する。本形態の帯域通過フィルタBPF(k)は、周波数に対応するk(kについては後述)を変数とする関数であり、各通過帯域に対応する信号を強調し、それ以外の帯域に対応する信号を抑制するものである。具体的には、例えば、ガンマトーンフィルタの関数を帯域通過フィルタBPF(k)として用いることができる。また、帯域通過フィルタバンクの具体例としては、通過帯域が重なり合うように、かつ、それぞれのフィルタの中心周波数が等価矩形帯域幅のスケール(おおよそ対数スケール)に従うように設定された複数(例えば24帯域分)のガンマトーンフィルタからなるガンマトーンフィルタバンクを例示できる(例えば「M.Slaney, "An Efficient lmplementation of the Patterson-Holdsworth Auditory Filter Bank, "Apple Computer Technical Report #35, 1993」参照)。
このような前処理を前提に、本形態の音声信号分析装置1は、雑音環境下で観測された音声信号が入力され、その特徴量を示す特徴パラメータを出力する。本形態の場合、音声信号分析装置1ヘ入力される音声信号は、例えば、8,000Hzのサンプリング周波数でサンプリングされ、離散信号に変換された音声信号x(n)である。なお、nはn(n=0,...,N−1)番目のサンプル点であり、Nは十分大きな自然数である。
入力された音声信号x(n)は、まず、音声波形切出部121に入力され、音声波形切出部121は、入力された音声信号x(n)から、ある時間長の波形を時間軸方向に移動(シフト)しながら切り出していく。本形態の例では、まず、制御部141がパラメータiに0を代入し、これを一時メモリ142に格納する(ステップS1)。
次に、音声波形切出部121が、一時メモリ142からパラメータiを読み込み、音声信号x(n)に窓関数w(n+i・s)を乗じることによって、あるサンプル点長の離散信号x(n)を抽出する〔x(n)=x(n)・w(n+i・s)/ステップS2〕。なお、sは離散信号x(n)を切り出す際の時間軸方向のシフト幅(シフトサンプル点数)を示す。また、窓関数としては、例えば、以下のハニング窓等を用いることができる。
Figure 2007156337

なお、Lは切り出される波形の幅(サンプル点数)を示す。図5は、サンプリング周波数8,000Hzでサンプリングされた音声信号x(n)から、式(1)の窓関数を用い、切り出し位置を時間軸方向に10msづつシフトしながら25msの時間長の離散信号x(n)を切り出した様子を示した図である。すなわち、図5では、式(1)に示す窓関数w(n)を、s=80サンプル点(8,000Hz×10ms)ずつ移動させながら音声信号x(n)に乗じ、L=200サンプル点(8,000Hz×25ms)の離散信号x(n)を抽出している。
音声波形切出部121は、以上のように抽出した離散信号x(n)を出力し、出力された離散信号x(n)はメモリ100の領域101に格納される。
次に、離散フーリエ変換部122が、メモリ100の領域101から離散信号x(n)を読み込み、読み込んだ離散信号x(n)に対して離散フーリエ変換を行い、時間領域の離散信号x(n)から周波数領域の周波数スペクトルX(k)への変換を行う(ステップS3)。本形態の場合、離散フーリエ変換部122は、以下の演算によってこの変換を行う。
Figure 2007156337

なお、jは虚数単位を示し、kはサンプリング周波数をM等分した離散点〔k=0,f/M,...,f(M−1)/M、fはサンプリング周波数〕を示し、Mは所定の自然数(例えば、M=2048)を示す。
離散フーリエ変換部122は、以上のように生成した周波数スペクトルX(k)を出力し、出力された周波数スペクトルX(k)は、対応するkの値が特定できるように、メモリ100の領域102に格納される。なお、kの値が特定できるように周波数スペクトルX(k)を格納する手法としては、例えば、kに対応するアドレスにX(k)を格納する手法が例示できる。
次に、帯域分割部123が、メモリ100の領域102から周波数スペクトルX(k)を読み込み、領域103から各帯域に対応する帯域通過フィルタBPF(k)〔q=1,...,Q〕を読み込む。そして、帯域分割部123は、読み込んだ周波数スペクトルX(k)に各帯域通過フィルタBPF(k)を乗じ、それぞれの演算結果を、各帯域通過フィルタBPF(k)に対応する周波数帯域に分割された周波数スペクトルXi,q(k)として出力する〔Xi,q(k)=X(k)・BPF(k)/ステップS4〕。出力された各周波数スペクトルXi,q(k)は、メモリ100の領域104に格納される。
次に、逆離散フーリエ変換部124が、メモリ100の領域104から各周波数スペクトルXi,q(k)を読み込み、その逆離散フーリエ変換を行い、自己相関関数ai,q(n)を生成する。具体的には、本形態の例の逆離散フーリエ変換部124は、当該Xi,q(k)と対応するkとを用い、
Figure 2007156337

の演算を行って自己相関関数ai,q(n)を算出し、これらをメモリ100の領域105に格納する。次に、周期推定部125が、メモリ100の領域105から各自己相関関数ai,q(n)を読み込み、それらを用いて各周波数スペクトルXi,q(k)の周期n i,qを推定する(ステップS5)。この周期推定には、例えば、基本周波数抽出法の一つである自己相関法(W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York,1983)を用いる。具体的には、周期推定部125は、例えば、各帯域に対し(すなわち、各qに対し)、一定の探索範囲内、例えば40≦n≦100(サンプリング周波数8,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内において自己相関関数ai,q(n)が最大となるnを検出し、それを各周波数スペクトルXi,q(k)の周期n i,qと推定する。このn i,qは、上述したnの探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定部125は、この周期n i,qを出力し、出力された各周期n i,qは、メモリ100の領域106に格納される。
次に、櫛型フィルタ生成部126が、メモリ100の領域106から各周期n i,qを読み込み、各帯域(すなわち、各q)に対し、周波数スペクトルXi、q(k)の基本周波数とその整数倍の各成分とを抑圧する櫛型フィルタHi,q(z)を生成する(ステップS6)。本形態の櫛型フィルタHi,q(z)は、例えば、z領域表現で
Hi,q(z)=1−z^(−np i,q) …(4)
と表される関数である。なお、α^βは、αのβ乗(αβ)を意味する。櫛型フィルタ生成部126は、以上のように生成した各帯域の櫛型フィルタHi,q(z)を出力し、出力された各帯域の櫛型フィルタHi,q(z)は、メモリ100の領域107に格納される。
次に、櫛型フィルタ適用部127(「信号分離部」に相当)が、メモリ100の領域104から周波数スペクトルXi、q(k)を読み込み、領域107から櫛型フィルタHi,q(z)を読み込む。そして、櫛型フィルタ適用部127は、各櫛型フィルタHi,q(z)を、それらに対応する帯域の周波数スペクトルXi、q(k)に適用し、各櫛型フィルタHi,q(z)の零点(基本周波数成分とその整数倍の周波数成分)のパワー値が抑制された周波数スペクトルXi、q(k)の非周期性成分Zi、q(k)を生成する〔Zi、q(k)=Xi、q(k)・Hi,q(z)/ステップS7〕。これらの非周期性成分Zi、q(k)は、周波数スペクトルXi、q(k)の基本周波数とその整数倍の各成分を抑圧した信号であり、分析対象である音声信号の非周期性成分にあたる。このような操作は各qについて行われ、櫛型フィルタ適用部127は、このように生成した各非周期性成分Zi、q(k)を出力し、出力された各非周期性成分Zi、q(k)は、メモリ100の領域108に格納される。
次に、振幅演算部128(「第1振幅演算部」を構成)が、メモリ100の領域108から、各qに対応する各非周期性成分Zi、q(k)を読み込み、
Figure 2007156337

の演算によって各非周期性成分Zi、q(k)の(平均)パワー値pcf i,qを計算する(ステップS8)。振幅演算部128は、このように算出した各非周期性成分Zi、q(k)のパワー値pcf i,qを出力し、出力された各非周期性成分Zi、q(k)のパワー値pcf i,qは、メモリ100の領域109に格納される。
次に、振幅演算部128は、メモリ100の領域104から、各qに対応する櫛型フィルタHi,q(z)適用前の各周波数スペクトルXi、q(k)を読み込み、
Figure 2007156337

の演算によって、各周波数スペクトルXi、q(k)の(平均)パワー値pbpf i,qを計算する(ステップS9)。振幅演算部128は、このように算出した各周波数スペクトルXi、q(k)のパワー値pbpf i,qを出力し、出力された各周波数スペクトルXi、q(k)のパワー値pbpf i,qは、メモリ100の領域109に格納される。
次に、減算部129(「第1振幅演算部」を構成)が、メモリ100の領域109から、各非周期性成分Zi、q(k)のパワー値pcf i,qと各周波数スペクトルXi、q(k)のパワー値pbpf i,qとを各qについて読み込む。そして、減算部129は、帯域毎(すなわちq毎)に、パワー値pbpf i,qからパワー値pcf i,qを減算し、周期性成分の(平均)パワー値psp i,qを算出する(psp i,q=pbpf i,q−pcf i,q/ステップS10)。減算部129は、このように算出した周期性成分の各パワー値psp i,qを出力し、出力された周期性成分の各パワー値psp i,qは、メモリ100の領域110に格納される。
次に、特徴パラメータ生成部130が、以上のように生成された周期性成分のパワー値psp i,qのみを特徴量として用い、特徴パラメータを生成する。すなわちまず、特徴パラメータ生成部130の加算部131が、メモリ100の領域110から全てのqについてパワー値psp i,qを読み込む。そして、加算部131は、読み込んだ各帯域(全てのq)の周期性成分のパワー値psp i,qを以下の式により合算した加算値E を生成する(ステップS11)。
Figure 2007156337

加算部131は、このように生成した加算値E を出力し、出力された加算値E はメモリ100の領域111に格納される。
次に、特徴パラメータ生成部130の対数変換部132が、メモリ100の領域111から加算値E を読み込み、それを対数変換した特徴パラメータE(E=log E )を生成する(ステップS12)。対数変換部132は、このように生成した特徴パラメータEを出力する。
次に、制御部141は、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS2に戻す(ステップS13)。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
本形態は、第1の実施の形態の変形例である。第1の実施の形態では、帯域通過フィルタバンクによって分割された各帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成していた。これに対し、第2の実施の形態では、各帯域に対し、基本周波数とその整数倍の周波数に対応する値を強調する櫛型フィルタを生成する。そして、このような櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成する。以下、第1の実施の形態との相違点を中心に第2の実施の形態の説明を行っていく。
<構成>
図6は、第2の実施の形態における音声信号分析装置200の機能構成を例示したブロック図である。第2の実施の形態の音声信号分析装置300も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、減算プログラムを有しない点、及び、櫛型フィルタ生成プログラムと振幅演算プログラムとの構成の点で第1の実施の形態のものと相違する。なお、図6において第1の実施の形態と共通する部分については、図2と同じ符号を付している。
図6に例示するように、本形態の音声信号分析装置200は、メモリ100、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部226、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部228(「第1振幅演算部」に相当)、特徴パラメータ生成部130、制御部141及び一時メモリ142を有している。なお、音声信号分析装置200は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図7は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図8は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図6から図8を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップS20からステップS24までの処理は、第1の実施の形態におけるステップS1からS5(図3)の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップS24の処理の後、櫛型フィルタ生成部226が、メモリ100の領域106から各周期n i,qを読み込み、各帯域(すなわち、各q)に対し、周波数スペクトルXi、q(k)の基本周波数とその整数倍の各成分とを強調する櫛型フィルタHi,q(z)を生成する(ステップS25)。本形態の櫛型フィルタHi,q(z)は、例えば、z領域表現で
Hi,q(z)=1 / {1‐z^(‐n i,q)} …(8)
と表される関数である。櫛型フィルタ生成部226は、以上のように生成した各帯域の櫛型フィルタHi,q(z)を出力し、出力された各帯域の櫛型フィルタHi,q(z)は、メモリ100の領域107に格納される。
次に、櫛型フィルタ適用部127(「信号分離部」に相当)が、メモリ100の領域104から周波数スペクトルXi、q(k)を読み込み、領域107から櫛型フィルタHi,q(z)を読み込む。そして、櫛型フィルタ適用部127は、各櫛型フィルタHi,q(z)を、それらに対応する帯域の周波数スペクトルXi、q(k)に適用し、各櫛型フィルタHi,q(z)の零点(基本周波数成分とその整数倍の周波数成分)のパワー値が強調された周波数スペクトルXi、q(k)の周期性成分Zi、q(k)を生成する〔Zi、q(k)=Xi、q(k)・Hi,q(z)/ステップS26〕。これらの周期性成分Zi、q(k)は、周波数スペクトルXi、q(k)の基本周波数とその整数倍の各成分とを強調した信号であり、分析対象である音声信号の周期性成分に相当する。このような操作は各qについて行われ、櫛型フィルタ適用部127は、このように生成した各周期性成分Zi、q(k)を出力し、出力された各周期性成分Zi、q(k)は、メモリ100の領域108に格納される。
次に、振幅演算部228(「第1振幅演算部」に相当)が、メモリ100の領域108から、各qに対応する各周期性成分Zi、q(k)を読み込み、
Figure 2007156337

の演算によって各周期性成分Zi、q(k)の(平均)パワー値psp i,qを計算する(ステップS27)。振幅演算部228は、このように算出した各周期性成分Zi、q(k)のパワー値psp i,qを出力し、出力された各周期性成分Zi、q(k)のパワー値psp i,qは、メモリ100の領域109に格納される。
その後、第1の実施の形態と同じ手順により(図3ステップS11,S12参照)、特徴パラメータ生成部130が、以上のように生成された周期性成分のパワー値psp i,qのみを特徴量として用い、特徴パラメータを生成して出力する(ステップS28,S29)。その後、制御部141が、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS21に戻す(ステップS30)。
〔第3の実施の形態〕
次に、本発明における第3の実施の形態について説明する。
本形態も第1の実施の形態の変形例である。第1の実施の形態では、櫛型フィルタを用いて抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成していた。これに対し、第3の実施の形態では、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
音声信号のパワー値の強弱は周波数帯域によって偏りがある。また、周囲環境の雑音のパワー値も、通常、周波数スペクトル上で一様には分布しておらず、各周波数帯域によって偏りがある。従って、雑音の影響の少ない(音声のパワー値が大きく、雑音のパワー値の小さい)周波数帯域を選択し、その周波数帯域の信号を特徴パラメータの生成に利用することによって、雑音環境下での音声信号分析をより精度よく行うことができる。また、仮に、白色雑音のように、雑音のパワー値の分布が周波数スペクトル上で一様であったとしても、雑音よりも音声のパワー値が大きい周波数帯域を選択すれば、同様の効果が期待できる。第3の実施の形態では、このような効果を得るため、周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
以下、第1の実施の形態との相違点を中心に第3の実施の形態の説明を行っていく。
<構成>
図9は、第3の実施の形態における音声信号分析装置300の機能構成を例示したブロック図である。なお、第3の実施の形態の音声信号分析装置300もコンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、特徴パラメータ生成プログラムの構成の点で第1の実施の形態のものと相違する。なお、図9において第1の実施の形態と共通する部分については、図2と同じ符号を付している。
図9に示すように、本形態の音声信号分析装置300は、メモリ100、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成/「第2振幅演算部」に相当)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部330、制御部141及び一時メモリ142を有している。また、特徴パラメータ生成部330は、選択部333、加算部331及び対数変換部132を有している。なお、音声信号分析装置300は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図10は、本形態の音声信号分析方法を説明するためのフローチャートである。以下、図9及び図10を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップS40からステップS49までの処理は、第1の実施の形態におけるステップS1からS10(図3)の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップS49の処理の後、特徴パラメータ生成部330が、帯域毎に算出された周期性成分Zi、q(k)のパワー値psp i,qの一部のみを特徴量として用い、特徴パラメータを生成する。
まず、特徴パラメータ生成部330の選択部333が、メモリ100の領域110から、周期性成分Zi、q(k)のパワー値psp i,qから一部のパワー値psp i,q’を選択する(ステップS50)。
[パワー値psp i,qの選択手法の例示]
以下に、選択部333が行うパワー値psp i,qの選択手法を例示する。
<手法1>
手法1の例の場合、選択部333は、予め設定された帯域に対応する(予め設定されたq’に対応する)パワー値psp i,q’のみを選択する。例えば、雑音成分が多いことが予め知られている帯域以外の帯域に対応するパワー値のみを選択する。
<手法2>
手法2の例の場合、選択部333は、非周期性成分Zi、q(k)のパワー値pcf i,qを用い、特徴パラメータの生成に用いる周期性成分のパワー値psp i,q’を選択する。
例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、当該パワー値pcf i,qが閾値以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択する。
また、例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、領域110から各周期性成分のパワー値psp i,qを読み込み、周期性成分のパワー値psp i,qに対する非周期性成分のパワー値pcf i,qの比率が閾値以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択することとしてもよい。
さらに、例えば、例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、これらの大きさを各帯域間で比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択することとしてもよい。
また、例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、領域110から各周期性成分のパワー値psp i,qを読み込み、各帯域間で、周期性成分のパワー値psp i,qに対する非周期性成分のパワー値pcf i,qの比率(例えば、pcf i,q/psp i,q)を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択することとしてもよい([パワー値psp i,qの選択手法の例示]の説明終わり)。
次に、特徴パラメータ生成部330の加算部331が、選択部333によって選択されたパワー値psp i,q’のみを、メモリ100の領域110から読み込み、これらのパワー値psp i,q’を合算した加算値E を生成する(ステップS51)。加算部331は、この加算値E を出力し、出力された加算値E はメモリ100の領域111に格納される。
次に、特徴パラメータ生成部330の対数変換部132が、メモリ100の領域111から加算値E を読み込み、それを対数変換した特徴パラメータE(E=log E )を生成する(ステップS52)。対数変換部132は、このように生成した特徴パラメータEを出力する。
次に、制御部141は、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS41に戻す(ステップS53)。
〔第4の実施の形態〕
次に、本発明における第4の実施の形態について説明する。
本形態は、第3の実施の形態の変形例である。第3の実施の形態では、周波数領域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を実行していたのに対し、第4の実施の形態では、時間帯域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を行う。以下、第1,3の実施の形態との相違点を中心に第4の実施の形態の説明を行っていく。
<構成>
図11は、第4の実施の形態における音声信号分析装置400の機能構成を例示したブロック図である。第4の実施の形態の音声信号分析装置400も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、帯域分割プログラム、音声波形切出プログラム及び周期推定プログラムの構成が相違する点、離散フーリエ変換プログラムの代わりに自己相関関数生成プログラムを有する点で第3の実施の形態のものと相違する。なお、図11において第1,3の実施の形態と共通する部分については、図2及び図9と同じ符号を付している。
図11に例示するように、本形態の音声信号分析装置400は、メモリ410、帯域分割部423、音声波形切出部421、自己相関関数生成部424、周期推定部425、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成/「第2振幅演算部」に相当)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部330、制御部141及び一時メモリ142を有している。ここで、メモリ410は、データを格納するための領域103,106〜110,411,414,415を有している。なお、音声信号分析装置400は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図12は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図13は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図11から図13を用いて、本形態の音声信号分析方法を説明する。
第1の実施の形態と同様な前処理を前提に、まず、制御部141がパラメータiに0を代入し、これを一時メモリ142に格納する(ステップS60)。次に、分析対象の音声信号x(n)が帯域分割部423に入力され、帯域分割部423は、これをトリガに、メモリ410の領域103から各帯域に対応する帯域通過フィルタBPF(n)〔q=1,...,Q〕を読み込む。そして、帯域分割部423は、入力された音声信号x(n)に、読み込んだ各帯域通過フィルタBPF(n)を乗じ、それぞれの演算結果を、各帯域通過フィルタBPF(n)に対応する周波数帯域に分割された分離信号x(n)として出力する〔x(n)=X(k)・BPF(n)/ステップS61〕。そして、このように出力された分離信号x(n)は、メモリ410の領域411に格納される。
次に、音声波形切出部421が、メモリ410の領域411に格納された各帯域(各qに対応する)の分離信号x(n)から、ある時間長の離散信号xi,q(n)を、時間軸方向に移動(シフト)しながら切り出していく(ステップS62)。具体的には、音声波形切出部421が、メモリ410の領域411から各帯域(各qに対応する)の分離信号x(n)を読み込み、それらに窓関数w(n+i・s)を乗じることによって、あるサンプル点長の離散信号xi,q(n)を抽出する〔xi,q(n)=xi,q(n)・w(n+i・s)〕。音声波形切出部421は、こののように抽出した離散信号xi,q(n)を出力し、出力された離散信号xi,q(n)はメモリ410の領域414に格納される。
次に、メモリ410の領域414に格納された各離散信号xi,q(n)に含まれる周期推定を行う。本形態の周期推定には、基本周波数抽出法の一つである自己相関法を用いる。そのために、まず、自己相関関数生成部424が、メモリ410の領域414から各離散信号xi,q(n)を読み込み、以下の式によっての自己相関関数の係数ci,q(r)を算出し、これをメモリ410の領域415に格納する。なお、自己相関関数の係数ci,q(r)の算出・格納は各qについて行われる。
Figure 2007156337

次に、周期推定部425が、メモリ410の領域415から自己相関関数の係数ci,q(r)を読み込み、各帯域に対し(すなわち、各qに対し)、一定の探索範囲内、例えば40≦r≦100(サンプリング周波数8,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内において自己相関関数の係数ci,q(r)が最大となるrを検出し、それを各離散信号xi,q(n)の周期n i,qと推定する(ステップS63)。周期推定部425は、この周期n i,qを出力し、出力された各周期n i,qは、メモリ410の領域106に格納される。
その後、第3の実施の形態のステップS45〜S52と同じ処理が実行される(ステップS64〜S71)。そして、制御部141が、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS61に戻す(ステップS72)。
〔第5の実施の形態〕
次に、本発明における第5の実施の形態について説明する。
本形態は、第1の実施の形態の音声信号分析装置1の実用例である。本形態では、第1の実施の形態の方法によって生成された特徴パラメータと、非特許文献3に記載の方法によって生成された特徴パラメータとを用い、自動音声認識処理を行う。以下、第1の実施の形態との相違点を中心に、第5の実施の形態を説明していく。
図14は、本形態の自動音声認識処理を行う自動音声認識装置1000の構成を例示したブロック図である。
図14に例示するように、本形態の自動音声認識装置1000は、第1の実施の形態の音声信号分析装置1と、前述の非特許文献3に記載の技術によって音声信号から特徴パラメータを出力する音声信号分析装置500と、隠れマルコフモデル(HMM)等に基づいて音声パターンの学習及び自動音声認識を行う音声パターン識別器1001(「音声認識処理部」に相当)と、音声パターンの学習によって得られた学習データを記憶する学習データ記憶部1002とを有している。なお、音声信号分析装置500及び音声パターン識別器1001は、公知のコンピュータに所定のプログラムが読み込まれることにより構成されるものである。また、学習データ記憶部1002は、RAM、ハードディスク装置等の記憶装置である。
本形態の自動音声認識装置1000を用いて自動音声認識を行う場合、まず、前処理として、音声信号分析装置1,500によって学習用の音声信号から特徴パラメータを抽出する。そして、抽出した特徴パラメータは、学習用に設定された音声認識の正解値とともに音声パターン識別器1001に入力され、音声パターン識別器1001は、これらを用いて音声認識処理用の学習データを生成し、学習データ記憶部1002に格納する。
音声信号の自動音声認識を行う場合、まず、音声信号分析装置1,500に認識対象の音声信号が入力される。当該音声信号分析装置1,500は、入力された認識対象の音声信号から各特徴パラメータを抽出する(第1の実施の形態及び非特許文献3参照)。抽出された特徴パラメータは音声パターン識別器1001に入力される。音声パターン識別器1001は、これらの特徴パラメータを用いて学習データ記憶部1002に格納された学習データを検索し、当該検索結果を用いて音声認識処理を行い、その音声認識結果を出力する。
〔第6の実施の形態〕
次に、本発明における第6の実施の形態について説明する。
本形態は、第5の実施の形態の変形例であり、非特許文献3に記載の方法の過程で生成されたデータを第1の実施の形態の処理に再利用し、処理の効率化を図った形態である。以下、第1,5の実施の形態との相違点を中心に、第6の実施の形態を説明していく。
<構成>
図15は、本形態の自動音声認識装置2000の機能構成を例示したブロック図である。また、図16は、図15に記載された音声信号分析装置600の機能構成を例示したブロック図である。なお、音声信号分析装置600も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点で、第1の実施の形態のものと相違する。また、図15において第5の実施の形態と共通する部分については図15と同じ符号を付している。また、図16において第1実施の形態と共通する部分については、図2と同じ符号を付している。
図15に例示するように、本形態の自動音声認識装置2000は、音声信号分析装置600、音声パターン識別器1001及び学習データ記憶部1002を有している。また、図16に示すように、本形態の音声信号分析装置600は、メモリ610、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成/「第2振幅演算部」に相当)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部130(「第2特徴パラメータ生成部」に相当)、制御部141、一時メモリ142、離散コサイン変換部621及びベクトル結合部622(「第1特徴パラメータ生成部」に相当)を有している。また、メモリ610は、データを記憶するための領域101〜111,612を有している。なお、音声信号分析装置600は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図17及び図18は、本形態の音声信号分析方法を説明するためのフローチャートである。
本形態の処理と第5の実施の形態の処理との相違点は、音声信号から特徴パラメータを抽出する処理のみである。以下では、音声信号分析装置600が音声信号から特徴パラメータを抽出する処理を中心に説明する。
前処理、ステップS80からステップS89までの処理は、第1の実施の形態におけるステップS1からS10(図3)の処理と同じであるため、ここでは説明を省略する。ステップS89の処理の後、離散コサイン変換部621が、メモリ610の領域110から、周期性成分のパワー値psp i,vを読み込み(v=1,...,Q)、各パワー値psp i,vを要素とするQ次元のベクトル(psp i,1,...,psp i,Q)に対し、例えば、以下の式(11)によって離散コサイン変換を施し、Q次元の離散コサイン係数Csp i,u(u=1,...,Q)を算出する(ステップS90)。なお、離散コサイン変換を施す各パワー値psp i,vを要素とするQ次元のベクトル(psp i,1,...,psp i,Q)は、例えば、各パワー値psp i,vを、対応する帯域通過フィルタBPF(k)の中心周波数の順序で配置したベクトルである。また、24帯域分の帯域通過フィルタを用いていた場合、この(psp i,1,...,psp i,Q)は24次元のベクトルとなる。
Figure 2007156337
離散コサイン変換部621は、算出したQ次元の離散コサイン係数Csp i,uからなるベクトル(Csp i,1,...,Csp i,Q)(「変換結果を示す情報」に相当)を出力し、出力されたベクトル(Csp i,1,...,Csp i,Q)は、メモリ610の領域612に格納される。
また、離散コサイン変換部621は、メモリ610の領域109から、非周期性成分のパワー値pcf i,vを読み込み(v=1,...,Q)、各パワー値pcf i,vを要素とするQ次元のベクトル(pcf i,1,...,pcf i,Q)に対し、例えば、以下の式(12)によって離散コサイン変換を施し、Q次元の離散コサイン係数Ccf i,u(u=1,...,Q)を算出する(ステップS91)。なお、離散コサイン変換を施す各パワー値pcf i,vを要素とするQ次元のベクトルは、例えば、各パワー値pcf i,vを、対応する帯域通過フィルタBPF(k)の中心周波数の順序で配置したベクトルである。
Figure 2007156337

離散コサイン変換部621は、算出したQ次元の離散コサイン係数Ccf i,uからなるベクトル(Ccf i,1,...,Ccf i,Q)(「変換結果を示す情報」に相当)を出力し、出力されたQ次元の離散コサイン係数Ccf i,uからなるベクトルは、メモリ610の領域612に格納される。
次に、ベクトル結合部622が、メモリ610の領域612から、ベクトル(Csp i,1,...,Csp i,Q)及び(Ccf i,1,...,Ccf i,Q)(「離散コサイン変換部621の出力値」に相当)を読み込み、それらの一部又は全部を連結したベクトル(Csp i,1,...,Ccf i,Q’)を第1特徴パラメータとして生成する(ステップS92)。例えば、ベクトル(Csp i,1,...,Csp i,Q)及び(Ccf i,1,...,Ccf i,Q)がそれぞれ24次元のベクトルである場合(Q=24である場合)、ベクトル結合部622は、例えば、ベクトル(Csp i,1,...,Csp i,24)及び(Ccf i,1,...,Ccf i,24)から、それぞれ12次元の要素(Csp i,1,...,Csp i,12)及び(Ccf i,1,...,Ccf i,12)を抽出し、それらを連結した24次元のベクトル(Csp i,1,...,Csp i,12,Ccf i,1,...,Ccf i,12)を第1特徴パラメータとする。そして、ベクトル結合部622は、このように生成した第1特徴パラメータ(Csp i,1,...,Ccf i,Q)を出力する。
その後、第1の実施の形態と同じ手順により(図3ステップS11,S12参照)、特徴パラメータ生成部130が、以上のように生成された周期性成分のパワー値psp i,qのみを特徴量として用い、第2特徴パラメータEを生成して出力する(ステップS93,S94)。その後、制御部141が、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS80に戻す(ステップS30)。
以上のように音声信号分析装置600から順次出力される第1特徴パラメータ及び第2特徴パラメータは、音声パターン識別器1001に入力され、音声パターン識別器1001は、これらのパラメータを用い、学習データの生成や自動音声認識を行う。
〔第7の実施の形態〕
次に、本発明における第7の実施の形態について説明する。
本形態は、第6の実施の形態と第3の実施の形態とを融合した例であり、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する点が第6の実施の形態との相違点である。以下、第1,3,6の実施の形態との相違点を中心に、第7の実施の形態を説明する。
<構成>
本形態の自動音声認識装置は、第6の実施の形態の自動音声認識装置2000が具備する音声信号分析装置600(図15)を、音声信号分析装置700に置換した構成となる。
図19は、この音声信号分析装置700
の機能構成を例示したブロック図である。なお、音声信号分析装置700も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点と、特徴パラメータ生成プログラムの構成との点で、第1の実施の形態のものと相違する。また、図19において、第1,5の実施の形態と共通する部分については図2,図16と同じ符号を付している。
図19に示すように、本形態の音声信号分析装置700は、メモリ610、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成/「第2振幅演算部」に相当)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部330(「第2特徴パラメータ生成部」に相当)、制御部141、一時メモリ142、離散コサイン変換部621及びベクトル結合部622(「第1特徴パラメータ生成部」に相当)を有している。また、メモリ610は、データを記憶するための領域101〜111,612を有し、特徴パラメータ生成部330は、選択部333、加算部331及び対数変換部132を有している。なお、音声信号分析装置700は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
<処理>
図20は、本形態の音声信号分析方法を説明するためのフローチャートである。なお、図20は、本形態の音声信号分析方法の一部を示しており、本形態では、第6の実施の形態で説明したステップS90からS95(図18)の処理の代わりに、図20に示したステップS100からS106の処理を実行する。以下では、第6の実施の形態との相違点を中心に説明を行い、第1,3,6の実施の形態と共通する事項については説明を省略する。
本形態では、ステップS95(図18)の処理の後、第6の実施の形態のステップS90からS92と同じ手順によって第1特徴パラメータ(Csp i,1,...,Ccf i,Q)を生成し、これを出力する。
次に、特徴パラメータ生成部330が、帯域毎に算出された周期性成分Zi、q(k)のパワー値psp i,qの一部のみを特徴量として用い、第2特徴パラメータを生成する。そのために、まず、特徴パラメータ生成部330の選択部333が、メモリ610の領域110から、周期性成分Zi、q(k)のパワー値psp i,qから一部のパワー値psp i,q’を選択する(ステップS104)。パワー値psp i,qの選択手法としては、第3の実施の形態で説明したように、予め設定された帯域に対応する(予め設定されたq’に対応する)パワー値psp i,q’のみを選択する構成としてもよいし(<手法1>)、メモリ610の領域109に格納されている非周期性成分Zi、q(k)のパワー値pcf i,qを用い、特徴パラメータの生成に用いる周期性成分のパワー値psp i,q’を選択することとしてもよい(<手法2>)。なお、これらの手法の詳細については、第3の実施の形態に例示した通りである。
その後、第3の実施の形態のステップS51,S52(図10)と同じ手順によって、特徴パラメータEを生成して出力し(ステップS105,S106)、制御部141が、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS81に戻す(ステップS106)。
〔実験〕
次に、本発明の一実施例の効果を示すための実験結果について説明する。
この実験では、雑音下での数字認識における自動音声認識の音声認識精度を、第1の実施の形態の音声信号分析装置1で得られた特徴パラメータと、前述の非特許文献3に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合([提案法])と、前述の非特許文献1に記載の対数パワー値と、前述の非特許文献3に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合([従来法])とで比較した。
また、本実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)のデータベースを利用した。また、非特許文献3の技術において、24チャネルのガンマトーンフィルタバンクを用い、音声波形の切出しを25ms長で10msごとに行い、周期性成分及び非周期性成分に対応する離散コサイン変換後のベクトル(第1特徴パラメータ)を、それぞれ12次元、併せて24次元とした。
そして、[提案法]では、この24次元のベクトルに音声信号分析装置1で得られた特徴パラメータ(第2特徴パラメータ)を加えて25次元のベクトル(「提案法初期ベクトル」と呼ぶ)を生成し、[提案法]では、この24次元のベクトルに前述の非特許文献1に記載の対数パワー値を加えて25次元のベクトル(「従来法初期ベクトル」と呼ぶ)を生成した。さらに、提案法初期ベクトル及び従来法初期ベクトルのそれぞれに対し、以下の式(13)の演算結果を各要素とするΔパラメータ(当該25次元ベクトルの各要素の時間微分値からなる25次元ベクトル)を生成し、また、以下の式(14)の演算結果を各要素とするΔΔパラメータ(当該25次元ベクトルの各要素の2階時間微分値からなる25次元ベクトル)を生成した。これにより、[従来法][提案法]それぞれについて合計75次元の特徴パラメータを生成した。
Figure 2007156337

なお、式(13)における、bα,βは、時刻αにおける提案法初期ベクトル及び従来法初期ベクトルのβ番目の要素を示す。また、τは時間を示し、γはベクトル中の要素の位置を示す。また、Θは定数であり、本実験では式(13)のΘの値を3とし、式(14)のΘの値を2とした。また、ΔパラメータやΔΔパラメータのような動的特徴を求める方法については、「”ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法”,鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄,”音声認識システム”,オーム社,2001:13頁」等参照。
また、本実験では、16状態24混合の数字隠れマルコフモデル(HMM)に基づいて音声パターン学習や識別を行う音声パターン識別器を用いた。そして、AURORA−2Jデータベースに付属する8,440発話の雑音が加算された数字読み上げ音声を学習データとして用いHMM学習を行った。また、テストデータとしてAURORA−2Jデータベースに付属する雑音下での数字読み上げ音声を用い、雑音下での数字認識精度の評価を行った。雑音の種類は自動車,展示会場,レストラン,空港,駅,地下鉄,街頭の7種類である。
以上の条件で行った各雑音下での認識精度結果を図21に示す。なお、図21における縦軸は、平均音声認識精度を示し、この値が大きいほど認識精度が高いことを意味している。また、図21における横軸は、雑音の種類を示している。図21に示す通り、いずれの雑音下においても、提案法による自動音声認識精度が従来手法による自動音声認識精度よりも高い。これにより、本発明の手法が効果的であることが示された。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各実施の形態では、音声信号を抽出した周期性成分のパワー値の加算値の対数を特徴パラメータとしていたが、音声信号を抽出した周期性成分のパワー値のみを特徴量とし、その他の演算によって求めた値を特徴パラメータとしてもよい。例えば、音声信号を抽出した周期性成分のパワー値の加算値をそのまま特徴パラメータとしてもよいし、音声信号を抽出した周期性成分のパワー値の積など、加算以外の演算結果を特徴パラメータとしてもよい。さらには、式(13)(14)等によって、本発明の特徴パラメータの動的特徴を求め、それを特徴パラメータの一部としてもよい。
また、上述した各実施の形態を適宜組み合わせた構成としてもよく、さらには、他の特徴パラメータを算出する手法と、上述した各実施の形態とを組み合わせた構成としてもよい。さらに、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の産業上の分野としては、雑音環境下で観測された音声信号の自動音声認識処理を例示できる。
図1は、第1の実施の形態における音声信号分析装置のハードウェア構成を例示したブロック図である。 図2は、第1の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。 図3は、第1の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図4は、第1の実施の形態の音声信号分析方法における情報の流れを示した概念図である。 図5は、サンプリング周波数8,000Hzでサンプリングされた音声信号x(n)から、式(1)の窓関数を用い、切り出し位置を時間軸方向に10msづつシフトしながら25msの時間長の離散信号x(n)を切り出した様子を示した図である。 図6は、第2の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。 図7は、第2の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図8は、第2の実施の形態の音声信号分析方法における情報の流れを示した概念図である。 図9は、第3の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。 図10は、第3の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図11は、第4の実施の形態における音声信号分析装置の機能構成を例示したブロック図である。 図12は、第4の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図13は、第4の実施の形態の音声信号分析方法における情報の流れを示した概念図である。 図14は、第5の実施の形態の自動音声認識処理を行う自動音声認識装置の構成を例示したブロック図である。 図15は、第5の実施の形態の自動音声認識装置の機能構成を例示したブロック図である。 図16は、図15に記載された音声信号分析装置の機能構成を例示したブロック図である。 図17は、第6の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図18は、第6の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図19は、第7の実施の形態の音声信号分析装置の機能構成を例示したブロック図である。 図20は、第7の実施の形態の音声信号分析方法を説明するためのフローチャートである。 図21は、各雑音下で行われた自動音声認識実験の認識精度結果を示したグラフである。
符号の説明
1,200〜700 音声信号分析装置
1000,2000 自動音声認識装置

Claims (15)

  1. 音声信号の特徴量を抽出する音声信号分析装置であって、
    分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
    上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
    上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
    を有することを特徴とする音声信号分析装置。
  2. 請求項1に記載の信号分析装置であって、
    分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
    上記信号分離部は、
    上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
    上記第1振幅演算部は、
    上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
    上記特徴パラメータ生成部は、
    上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記特徴パラメータを生成する、
    ことを特徴とする音声信号分析装置。
  3. 請求項2に記載の音声信号分析装置であって、
    上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出する第2振幅演算部を有し、
    上記特徴パラメータ生成部は、
    上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
    ことを特徴とする音声信号分析装置。
  4. 請求項3に記載の音声信号分析装置であって、
    上記特徴パラメータ生成部は、
    上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率が閾値以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
    ことを特徴とする音声信号分析装置。
  5. 請求項3に記載の音声信号分析装置であって、
    上記特徴パラメータ生成部は、
    上記の各帯域間で、上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
    ことを特徴とする音声信号分析装置。
  6. 請求項1に記載の音声信号分析装置であって、
    上記信号分離部は、
    分析対象の音声信号に対して通過帯域が異なる複数の帯域通過フィルタを適用し、当該分析対象の音声信号を複数の帯域の信号に分割する帯域分割部と、
    上記帯域分割部で分割された信号の周期の推定値を上記帯域毎に算出する周期推定部と、
    上記周期の推定値の逆数の整数倍の成分を強調或いは抑圧する櫛型フィルタを上記帯域毎に生成する櫛型フィルタ生成部と、
    上記帯域分割部で分割された各信号に対し、それらに対応する上記櫛型フィルタを乗じ、当該信号の周期性成分或いは非周期性成分を抽出する櫛型フィルタ適用部と、
    を有することを特徴とする音声信号分析装置。
  7. 音声信号の特徴量を抽出する音声信号分析方法であって、
    信号分離部が、入力された分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
    第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
    特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
    を有することを特徴とする音声信号分析方法。
  8. 請求項1から6の何れかに記載の音声信号分析装置としてコンピュータを機能させるための音声信号分析プログラム。
  9. 音声認識を行う自動音声認識装置であって、
    認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
    上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
    上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
    上記特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
    上記特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
    を有することを特徴とする自動音声認識装置。
  10. 音声認識を行う自動音声認識装置であって、
    認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
    上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
    上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出する第2振幅演算部と、
    上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力する離散コサイン変換部と、
    上記離散コサイン変換部の出力値から第1特徴パラメータを生成する第1特徴パラメータ生成部と、
    上記第1振幅演算部が算出した上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第2特徴パラメータを生成する第2特徴パラメータ生成部と、
    上記第1特徴パラメータ及び上記第2特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
    上記第1特徴パラメータ及び上記第2特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
    を有することを特徴とする自動音声認識装置。
  11. 請求項10に記載の自動音声認識装置であって、
    分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
    上記信号分離部は、
    上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
    上記第1振幅演算部は、
    上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
    上記第2特徴パラメータ生成部は、
    上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記第2特徴パラメータを生成する、
    ことを特徴とする自動音声認識装置。
  12. 請求項11に記載の自動音声認識装置であって、
    上記第2振幅演算部は、
    上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
    上記特徴パラメータ生成部は、
    上記第2振幅演算部が算出した上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記第2特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
    ことを特徴とする自動音声認識装置。
  13. 音声認識を行う自動音声認識方法であって、
    信号分離部が、入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
    第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出するステップと、
    特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
    音声認識処理部が、上記特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
    を有することを特徴とする自動音声認識方法。
  14. 音声認識を行う自動音声認識方法であって、
    信号分離部が、
    入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
    第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
    第2振幅演算部が、上記信号分離部から出力された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
    離散コサイン変換部が、上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力するステップと、
    第1特徴パラメータ生成部が、上記離散コサイン変換部の出力値から第1特徴パラメータを生成し、当該第1特徴パラメータを出力するステップと、
    特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第2特徴パラメータを生成し、当該第2特徴パラメータを出力するステップと、
    音声認識処理部が、上記第1特徴パラメータ及び上記第2特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
    を有することを特徴とする自動音声認識方法。
  15. 請求項9から12に記載の自動音声認識装置としてコンピュータを機能させるための自動音声認識プログラム。
JP2005355018A 2005-12-08 2005-12-08 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム Expired - Fee Related JP4630183B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005355018A JP4630183B2 (ja) 2005-12-08 2005-12-08 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005355018A JP4630183B2 (ja) 2005-12-08 2005-12-08 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム

Publications (2)

Publication Number Publication Date
JP2007156337A true JP2007156337A (ja) 2007-06-21
JP4630183B2 JP4630183B2 (ja) 2011-02-09

Family

ID=38240757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005355018A Expired - Fee Related JP4630183B2 (ja) 2005-12-08 2005-12-08 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム

Country Status (1)

Country Link
JP (1) JP4630183B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2013101255A (ja) * 2011-11-09 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
JP2013218147A (ja) * 2012-04-10 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2016500847A (ja) * 2012-10-31 2016-01-14 エライザ コーポレイション デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146588A (ja) * 1995-11-22 1997-06-06 Matsushita Electric Ind Co Ltd 緊急車両警報音検出装置
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム
JP2005195975A (ja) * 2004-01-08 2005-07-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146588A (ja) * 1995-11-22 1997-06-06 Matsushita Electric Ind Co Ltd 緊急車両警報音検出装置
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム
JP2005195975A (ja) * 2004-01-08 2005-07-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JPWO2010032405A1 (ja) * 2008-09-16 2012-02-02 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
JP2013101255A (ja) * 2011-11-09 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
JP2013218147A (ja) * 2012-04-10 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2016500847A (ja) * 2012-10-31 2016-01-14 エライザ コーポレイション デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム

Also Published As

Publication number Publication date
JP4630183B2 (ja) 2011-02-09

Similar Documents

Publication Publication Date Title
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
KR20030064733A (ko) 피치 주파수 추정 방법 및 장치 및 컴퓨터 소프트웨어 제품
JP4182444B2 (ja) 信号処理装置、信号処理方法、及びプログラム
GB2375028A (en) Processing speech signals
JP4630183B2 (ja) 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
JP2009047831A (ja) 特徴量抽出装置、プログラムおよび特徴量抽出方法
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
JP2009008836A (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
Pravena et al. Significance of incorporating excitation source parameters for improved emotion recognition from speech and electroglottographic signals
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP4690912B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
JP2001222289A (ja) 音響信号分析方法及び装置並びに音声信号処理方法及び装置
JP4690973B2 (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
CN111862931A (zh) 一种语音生成方法及装置
JP6285823B2 (ja) Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2019029861A (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees