JP2006215228A - 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 - Google Patents

音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 Download PDF

Info

Publication number
JP2006215228A
JP2006215228A JP2005027310A JP2005027310A JP2006215228A JP 2006215228 A JP2006215228 A JP 2006215228A JP 2005027310 A JP2005027310 A JP 2005027310A JP 2005027310 A JP2005027310 A JP 2005027310A JP 2006215228 A JP2006215228 A JP 2006215228A
Authority
JP
Japan
Prior art keywords
power value
signal
speech
output signal
vectorized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005027310A
Other languages
English (en)
Other versions
JP4571871B2 (ja
Inventor
Kentaro Ishizuka
健太郎 石塚
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005027310A priority Critical patent/JP4571871B2/ja
Publication of JP2006215228A publication Critical patent/JP2006215228A/ja
Application granted granted Critical
Publication of JP4571871B2 publication Critical patent/JP4571871B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 音声信号を周波数領域において帯域分割し、その周期性特徴と非周期性特徴を分離する音声信号分析方法および装置、この装置を用いた音声認識装置を提供する。
【解決手段】 音声波形切出部により音声信号波形を切り出し、切り出された音声信号波形に対して離散フーリエ変換を行い周波数スペクトルに変換し、帯域通過フィルタバンクを用いて周波数スペクトルをフィルタリングし、各周波数帯域毎の周波数スペクトルを逆離散フーリエ変換し、帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する構成を採用して、音声信号の振幅変動によりフィルタが理想的な処理を行うことができず、フィルタリング後の信号に遅延が生じ、処理に時間を要し、周波数領域で実行される音声信号処理技術との組み合わせが困難であるという問題を解消する音声信号分析方法、装置、この装置を用いた音声認識装置。
【選択図】 図1

Description

この発明は、音声信号を周波数領域において帯域分割し、その周期性特徴と非周期性特徴を分離する音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関する。
自動音声認識装置においては音声特徴表現抽出のための音声信号分析が行われる。従来の音声信号分析法で抽出される音声特徴表現は、音声信号に対してフーリエ変換などの処理を行うことによって得られる音声の周波数スペクトル表現に基づいたものが多い。従来、音声の周波数スペクトルのピーク値を結ぶ包絡線(スペクトル包絡)の形状が音声の特徴を良く表現していると考えられることから、そのスペクトル包絡を求めるための抽出技術として、線形予測分析法、PARCOR分析法などの分析技術が用いられてきた(非特許文献1 参照)。これらの分析技術を用いた場合、静かな環境下においては所望の音声特徴表現(スペクトル包絡)を得ることができる一方で、雑音や伝送歪みがある様な状況下においてはスペクトル包絡の形状が変形し、充分な音声特徴表現を得ることが難しい。また、自動音声認識技術で広く用いられている音声特徴表現であるメル周波数ケプストラム係数(非特許文献2 参照)は、人間の聴覚特性を反映した帯域通過フィルタバンクを利用して抽出される音声特徴表現であり、スペクトル包絡よりも雑音に頑健ではあるものの、その耐雑音性は充分ではない。
雑音環境下においても充分な音声特徴表現を得るために、音声信号を帯域分割し、その信号の周期性成分と非周期性成分とを分離し、それらを併用して特徴量として用いる耐雑音音声認識法(非特許文献3 参照)が開発されており、この方法により雑音環境下でも比較的良い音声認識性能を得ることができる。しかし、この方法における信号の帯域分割処理および周期性成分・非周期性成分の分離処理は時間領域で行われているため、この方法と周波数領域で処理を行う既存の雑音抑圧技術、例えばスペクトル減算法(非特許文献4 参照)などを併用することが困難であるという問題点がある。また、時間領域で帯域分割処理や成分分離処理などのフィルタリング処理を行なう場合は、信号の振幅変動の影響を受け、理想的なフィルタリング処理を実現することができないこと、フィルタリング処理後の遅延に対処する必要があること、処理に時間を要すること、その他の問題を生起する。
古井 貞煕 著,"音声情報処理",森北出版株式会杜,pp.16-38,1998. S.B.Davis and P.Mermelstein,"Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,"IEEE Transactions on Acoustics, Speech and Signal Processing, Vo1.ASSP-28, No.4, 1980. Kentaro Ishizuka, Noboru Miyazaki, "Speech feature extraction method representing periodicity and aperiodicity in sub bands for robust speech recognition,"Proceedings of the 29th International Conference on Acoustics,Speech,and Signal Processing,Vol.1,pp.141-144,2004. Jean-Claude Junqua and Jean-Paul Haton, "Robustness in Automatic Speech Recognition,"Kluwer Academic Publishers,pp.281-286,1996.
この発明は、周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離する構成を採用することにより、時問領域でディジタルフィルタを用いて音声信号を帯域分割処理および信号の周期性特徴・非周期性特徴の分離処理を行う場合に生じる、音声信号の振幅変動によりフィルタが理想的な処理を行うことができないという問題点、フィルタリング後の信号に遅延が生ずるという問題点、処理に時間を要するという問題点、および周波数領域で実行される音声信号処理技術との組み合わせが困難であるという問題点を解決する、音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体を提供するものである。
請求項1:音声波形切出部11により音声信号から音声信号波形を切り出し、
切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
帯域通過フィルタバンク13の各帯域通過フィルタを用いて周波数スペクトルをフィルタリングし、各周波数帯域毎の周波数スペクトルを逆離散フーリエ変換し、
帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定し、
各帯域通過フィルタの出力信号を推定された周期に基づいて櫛型フィルタ16によりフィルタリングし、
帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値を計算し、
帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタ16の出力信号のパワー値を減算し、
減算結果パワー値をベクトル化し、
櫛型フィルタ13の出力信号のパワー値をベクトル化し、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタ13の出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはパワー値の双方を連結して音声特徴パラメータとして出力する音声信号分析方法を構成した。
請求項2:請求項1に記載される音声信号分析方法において、
ベクトル化された減算結果パワー値に離散コサイン変換を施し、
ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す音声信号分析方法を構成した。
請求項3:音声信号から音声信号波形を切り出す音声波形切出部11と、
切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部12と、
周波数スペクトルをフィルタリングする帯域通過フィルタバンク13と、
帯域分割された周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部14と、
自己相関関数を入力して帯域通過フィルタバンクの出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する周期推定部15と、
各帯域通過フィルタの出力信号を推定された周期に基づいてフィルタリングする櫛型フィルタ16と、
帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値を計算する第1パワー算出部17および櫛型フィルタ16の出力信号のパワー値を計算する第2パワー算出部17’より成るパワー算出部と、
帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタ16の出力信号のパワー値を減算する減算部18と、
減算結果パワー値をベクトル化する周期性成分パワーベクトル化部21および櫛型フィルタ16の出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部21’と、
を具備してベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力する音声信号分析装置を構成した。
請求項4:請求項3に記載される音声信号分析装置において、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部20とを具備してパワー値の双方を連結して音声特徴パラメータとして出力する音声信号分析装置を構成した。
請求項5:請求項3および請求項4の内の何れかに記載される音声信号分析装置において、
ベクトル化された減算結果パワー値に離散コサイン変換を施す第1離散コサイン変換部19と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2離散コサイン変換部19’とを具備する音声信号分析装置を構成した。
請求項6:音声信号から音声信号波形を切り出す音声波形切出部11と、切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部12と、周波数スペクトルをフィルタリングする帯域通過フィルタバンク13と、帯域分割された周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部14と、自己相関関数を入力して帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する周期推定部15と、各帯域通過フィルタの出力信号を推定された周期に基づいてフィルタリングする櫛型フィルタ16と、帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値を計算する第1パワー算出部17および櫛型フィルタ16の出力信号のパワー値を計算する第2パワー算出部17’より成るパワー算出部と、帯域通過フィルタバンク13の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタ16の出力信号のパワー値を減算する減算部18と、減算結果パワー値をベクトル化する周期性成分パワーベクトル化部21および櫛型フィルタの出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部21’と、を具備してベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力する音声信号分析装置10を具備し、
音声信号分析装置10の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器91を具備し、
音声信号分析装置10の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ記憶部92を具備する音声認識装置を構成した。
請求項7:請求項6に記載される音声認識装置において、
音声信号分析装置10は、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部20を具備してパワー値の双方を連結して音声特徴パラメータとして出力するものである音声認識装置を構成した。
請求項8:請求項6および請求項7の内の何れかに記載される音声認識装置において、
音声信号分析装置10は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1離散コサイン変換部19と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2離散コサイン変換部19’とを有するものである音声認識装置を構成した。
請求項9:音声波形切出部により音声信号から音声信号波形を切り出し、
切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
帯域通過フィルタバンクの各帯域通過フィルタを用いて周波数スペクトルをフィルタリングし、各周波数帯域毎の周波数スペクトルを逆離散フーリエ変換し、
帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定し、
各帯域通過フィルタの出力信号を推定された周期に基づいて櫛型フィルタによりフィルタリングし、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
減算結果パワー値をベクトル化し、
櫛型フィルタの出力信号のパワー値をベクトル化し、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはパワー値の双方を連結して音声特徴パラメータとして出力すべき指令を、コンピュータに対してする音声信号分析プログラムを構成した。
請求項10:請求項9に記載される音声信号分析プログラムにおいて、
ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施すべき指令を、コンピュータに対してする音声信号分析プログラムを構成した。
請求項11:請求項9および請求項10の内の何れかに記載される音声信号分析プログラムを記憶した記憶媒体を構成した。
周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離するこの発明の音声信号分析方法は、周波数領域で帯域分割や分離処理などのフィルタリング処理を行うので、理想的な周波数特性を持つディジタルフィルタを設計しそれを適用することができる。このことにより、音声信号の振幅変動、時間領域フィルタリングによって生じる信号遅延の影響を受けることがなくなるところから、音声信号の理想的な帯域分割およびその周期性特徴・非周期性特徴の分離が可能となる。また、周波数領域で全ての信号処理を行うことで、処理が高速になり、周波数領域で実行される既存の音声処理技術との併用が可能になる。
音声信号のパワーは周波数帯域によって強弱に偏りがある。一方、周囲環境の雑音のパワーも、通常、周波数スペクトル上で一様には分布しておらず、周波数帯域毎にパワーの偏りがある。従って、雑音環境下において音声信号分析を行うに際して、信号の特定の周波数帯域だけを取り出す帯域通過フィルタを様々な周波数帯域について複数備えた帯域通過フィルタバンクを用いることで、雑音の影響の少ない、即ち、音声のパワーが強く雑音のパワーの弱い周波数帯域を選択的に音声信号分析に利用することができる。仮に、雑音が白色雑音の様な周波数スペクトル上で一様にパワーを持つ雑音であっても、雑音よりも音声のパワーが強い周波数帯域を選択すれば、同様の効果を期待することができる。
また、音声の有声音部分(母音ならびに有声子音)の周波数スペクトルはその基本周波数の整数倍にあたる周波数成分にパワーが集中しており、これらの周波数成分をここでは調波成分と呼ぶ。調波成分を持つ音は波形の上では基本周波数に応じた周期的な波形となる。基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタはこの調波成分(周期性の成分)を抑圧または強調する効果があり、この性質を利用することで、調波成分にあたる音声の周期性の成分である周期性成分と、周期性成分以外の成分である非周期性成分とを分離することができる。
この発明による音声信号分析方法は、音声信号に対して、複数の帯域通過フイルタから構成される帯域通過フィルタバンクおよび音声の周期に対して適応する櫛型フィルタを直列に併用することで、頑健な音声特徴表現を抽出することができる。
この発明による音声信号分析装置の実施例を図1および図2を参照して具体的に説明する。図1において、10はこの発明による音声信号分析装置の全体を示す。図2は処理の手順を示す。
音声信号分析装置10は音声波形切出部11と、離散フーリエ変換部12と、帯域通過フィルタバンク13と、逆離散フーリエ変換部14と、周期推定部15と、櫛型フィルタ16と、第1パワー算出部17と第2パワー算出部17’より成るパワー算出部と、減算部18と、周期性成分パワーベクトル化部21、非周期性成分パワーベクトル化部21’と、 離散コサイン変換部19、19’と、ベクトル連結部20によって構成される。
音声信号分析装置10へ入力される音声は、例えば8,000Hzのサンプリングレートでサンプリングされ、離散信号に変換された音声信号である。
音声波形切出部11は、入力される音声信号から時間軸方向に例えば10msずつ移動(シフト)しながら、25msの時間長の音声信号波形を、窓関数を乗じることにより切り出す(図2のS211)。サンプリング周波数が8,000Hzの場合、200サンプル点(8,000Hz×25ms)の離散信号を80サンプル点(8,000Hz×10ms)ずつ移動しながら、例えば以下のハニング窓w(n)を乗じて切り出す。ここで、nはn番目のサンプル点を表し、Lは切り出し波形のサンプル点数(上述の例は200点)を表す。
Figure 2006215228
このハニング窓w(n)を元の波形に乗じながら音声波形を切り出す過程を図3に示す。この結果得られた信号を音声波形切出部11の出力とする。
離散フーリエ変換部12は、音声波形切出部11の出力である切り出された音声信号に対して、離散フーリエ変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する(図2のS212)。音声波形切出部11の時間シフトi番目の出力信号をxi(n)とすると、そのスペクトルXi(k)は以下の様になる。ここで、kはサンプリング周波数をM等分した離散点を表し、Mは例えば2048を用いる。ここで、jは複素数を表す。
Figure 2006215228
この様にして離散フーリエ変換を行う過程を図4に示す。こうして得られた周波数スペクトルXi(k)を離散フーリエ変換部12の出力とする。
帯域通過フィルタバンク13は、複数の帯域通過フィルタを用いて、離散フーリエ変換部12の出力である周波数スペクトルをフィルタリングする(図2のS213)。周波数領域におけるフィルタリングは、入力である周波数スペクトルと設計したフィルタの周波数特性を乗じることで実現される。ここで用いる帯域通過フィルタバンク13としては、例えば聴覚の特性に基づいた等価矩形帯域幅のスケールに対応した中心周波数を持つガンマトーンフィルタバンクを用いる(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report#35,1993)。このガンマトーンフィルタバンクは、帯域通過フィルタであるガンマトーンフィルタを、通過帯域が重なり合う様に、且つそれぞれのフィルタの中心周波数が等価矩形帯域幅のスケール(おおよそ対数スケール)に従う様に、例えば24帯域分用意する。このフィルタバンクの各フィルタの周波数特性の例を図5に示す。図5には複数の帯域通過フィルタ(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散周波数スペクトルをフィルタバンク中のそれぞれの帯域通過フィルタの周波数特性と乗算を行った結果得られる、帯域通過フィルタ数分の周波数スペクトルが帯域通過フィルタバンク13の出力になる。帯域通過フィルタとして3つのガンマトーンフィルタを用いた場合の帯域通過フィルタバンク13の入出力の例を図6に示す。
逆離散フーリエ変換部14は、帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルを入力とし、その時間領域における信号波形の自己相関関数を出力する(図2のS214前半)。周波数スペクトルYi(k)があるとき、その自己相関関数ai(n)は、以下の様に周波数スペクトルYi(k)のパワーの逆離散フーリエ変換を行うことで求めることができる。ここで、jは複素数を表す。
Figure 2006215228
こうして求められた自己相関関数ai(n)が逆離散フーリエ変換部14の出力となる。図7にこの自己相関関数の例を示す。
周期推定部15は、離散逆フーリエ変換部14の出力である自己相関関数を入力とし、それに基づいて帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する(図2のS214後半)。そのために,入力である自己相関関数におけるnの一定の探索範囲内、例えば40≦n≦100(サンプリング周波数8,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてai(n)が最大となるnを検出する。その結果得られたnをnp とする。このnp は入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。このnp を周期推定部15の出力とする。
櫛型フィルタ16は周期推定部15で得られた周期に基づいて周波数領域で離散櫛型フィルタを設計し、その周波数特性と、帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルを乗じることによりフィルタリングを行う(図2のS215)。ここで用いる離散櫛型フィルタは、周期推定部15の出力周期を例えばnp とすると、z領域表現において、
Figure 2006215228
で表される周波数特性を持つ様に設計する。帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルを、この離散櫛型フィルタによってフィルタリングすることで得られる出力は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された周波数スペクトルとなる。これを非周期性成分のスペクトルとする。図6に示した帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルを入力とし、その周期に応じて設計された離散櫛型フィルタでフィルタリングして得られた周波数スペクトルと、設計された櫛型フィルタの周波数特性を図8に例示する。この様にして求められた周波数スペクトルを櫛型フィルタ16の出力信号とする。
パワー算出部の内の第1パワー算出部17は帯域通過フィルタバンク13の出力である帯域分割された周波数スペクトルを入力とすると共に、パワー算出部の内の第2パワー算出部17’は櫛型フィルタ16の出力である櫛型フィルタ適用後の周波数スペクトルを入力とし、それぞれの入力に対して、例えば以下の式を用いることで各周波数スペクトルのパワーを算出する(図2のS216)。ここで、Z(k)は何れかの入力の周波数スペクトルを表し、Mは周波数スペクトルの離散点数を表し、pは算出されるパワー値を表す。
Figure 2006215228
このパワー値を帯域通過フィルタバンク13、および櫛型フィルタ16から出力される全ての周波数スペクトルについて求める。この様にして求められたパワー値を第1パワー算出部17および第2パワー算出部17’の出力とする。
減算部18は、パワー算出部17の出力内の、帯域通過フィルタバンク13の或る一つの帯域通過フィルタの出力から算出されたパワー値(pbpf )から、その帯域通過フィルタの出力に対応する櫛型フィルタ16の出力(非周期性成分の周波数スペクトル)から算出されたパワー値(pcf )を減算する(図2のS217)。この操作を、帯域通過フィルタバンク13の出力とそれに対応する櫛型フィルタ16のすべての組み合わせについて行う。この結果、櫛型フィルタ16によって抑圧された周波数スペクトルのパワー値(psp )、即ち周期性成分のパワー値を求めることができる。この減算操作を以下の式に示す。
sp=pbpf−pcf
なお、pcfは以後、非周期性成分のパワー値とみなす。
離散コサイン変換部19は、すべての帯域通過フィルタに対応して得られる上述のpsp とpcf を入力とし、それらを対応する帯域通過フィルタの中心周波数順に整列したものをベクトルとみなした上で離散コサイン変換(鹿野 清宏、伊藤 克亘、河原 達也、武田 一哉、山本 幹雄 "音声認識システム"、オーム社 2001:第14頁)する(図2のS219)。例えば、24帯域分の帯域通過フィルタを用いた場合は、psp およびpcf はそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。そのベクトルに対して、離散コサイン変換を例えば下記の式に従って行う。
Figure 2006215228
ここで、pj は対応する帯域通過フィルタの中心周波数順に整列されたpsp またはpcf によって構成されるN次元ベクトルのj番目の要素(パワー値)を表し、Ci は離散コサイン変換後に得られるN次元ベクトルのi番目の離散コサイン係数を表す。Ci
i=1、・・・・、Nのすべてについて求める。離散コサイン変換部19では、psp およびpcf それぞれから得られる離散コサイン係数を出力とする。
ベクトル連結部20は、離散コサイン変換部19の出力であるpsp およびpcf に対応するそれぞれN次元の離散コサイン係数を入力とし、それぞれの一部または全体を連結して一連のベクトルとして出力する(図2のS220)。例えば、psp およびpcf それぞれの24次元の離散コサイン係数が入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。ベクトル連結部20の出力は音声信号分析装置10全体の出力となる。
上述したこの発明による音声分析装置においては、櫛型フイルタ16において、周期性成分のパワーを抑圧するタイプの櫛型フィルタを用いているが、逆に周期性成分のパワーを強調する、例えば下記の様な櫛型フィルタを用いてもよい。
Figure 2006215228
この様な櫛型フィルタを用いた場合、パワー算出部17、17’で計算されるpcf は周期性成分のパワー、減算部18によって計算されるpsp は非周期性成分のパワーとなる。
この発明の音声信号分析装置を用いた音声認識装置は、この音声信号分析装置10の出力を音声特徴パラメータとして、例えば隠れマルコフモデル(北研二、中村哲、永田昌明、
“音声言語処理”、森北出版株式会社、1996:第57〜90頁)などのパターン識別器を用いて、音声パターンの学習並びに自動音声認識を行うことで実現することができる。
この音声認識装置の一実施例を図9に示す。音声認識装置90に入力された音声信号は音声信号分析装置10に入力され、分析の結果、音声特徴パラメータを得る。得られた音声特徴パラメータを音声パターン識別器91に入力し、ここで学習データ記憶部92から供給される、入力された音声特徴パラメータに対応する学習データと比較し、適切な自動音声認識結果を出力する。学習データ記憶部92に格納されている学習データは、事前に音声信号分析装置10から得られる音声特徴パラメータを用いて学習しておいたものである。
上述したこの発明による音声分析装置および自動音声認識装置においては、離散コサイン変換部19を省略し、減算部18によって得られた周期性成分と非周期性成分のそれぞれのパワー値をベクトル連結部20によって連結し、それらを特徴パラメータとしてパターン認識器による音声パターンの学習ならびに自動音声認識を行ってもよい(図2点線 参照)。また、周期性成分または非周期性成分の何れか一方のパワー値もしくはそれを離散コサイン変換19によって離散コサイン変換したものを特徴パラメータとして、パターン認識器による音声パターンの学習並びに自動音声認識を行っても良い(図2点線 参照)。
この発明による音声信号分析装置においては、離散フーリエ変換部12以降の処理が全て周波数領域で行われる点が、非特許文献3に記載される従来技術と異なる。このことにより、帯域通過フィルタバンク13および櫛型フィルタ16におけるフィルタリング処理において、周波数領域で理想的な周波数特性を持つフィルタを設計することができ、信号の振幅変動の影響や、フィルタリングにおける遅延の影響を無視できるようになる.。また、離散フーリエ変換部12と帯域通過フィルタバンク13との間で、周波数スペクトル上で処理を行う既存の雑音抑圧/音声強調技術、例えば、非特許文献4の第281〜286頁に記載されるスペクトル減算法、非特許文献4の第276〜280頁に記載されるウィーナフィルタおよびカルマンフィルタその他の従来の技術を適用することができる。加えて、時間領域におけるフィルタリング処理が畳み込み演算であるのに対して、これを乗算で実現できることで計算量が削減され、処理の高速化が実現されている。
上述されたこの発明による音声信号分析法およびこれを用いた自動音声認識方法は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは、例えば、磁気ディスク或いはCD-ROMの様なコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
以下、この発明の具体例の効果を説明する。
この発明による音声信号分析方法によって得られた音声特徴ベクトルを用いた自動音声認識装置と、非特許文献3に記載される従来の技術による、時間領域における処理によって得られた音声特徴ベクトルを用いた自動音声認識装置の、雑音下での数字認識における音声認識精度を比較した結果を示す。この実験には、(社)情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ雑音下音声認識評価環境(AURORA-2J)を利用した。両方法共に、24チャネルのガンマトーンフィルタバンクを用い、音声波形の切出しは25ms長で10ms毎に行い、psp およびpcf に対応する離散コサイン変換後の特徴ベクトルはそれぞれ12次元、他に入力信号のパワーを表すパワー値、あわせて25次元のベクトルを特徴ベクトルとして用い、その動的特徴である△パラメータと△△パラメータを、△MFCC、△△MFCC、△パワー、△△パワーを求める方法(鹿野 清宏、伊藤 克亘、河原 達也、武田 一哉、山本 幹雄、"音声認識システム"、オーム杜、2001:第13頁)と同様にして求め、結果75次元のベクトルを特徴パラメータとして用いた。パターン識別器には16状態24混合の数字隠れマルコフモデル(HMM)を用い、AURORA-2Jに付属する8440発話の無雑音の数字読み上げ音声を用いてHMM学習を行った。また、同様に、AURORA-2Jに付属する,雑音下での数字読み上げ音声である評価用データ3セット(それぞれ28028発話、28028発話、14014発話)を用いて雑音下での数字認識精度の評価を行った。全平均での認識精度結果を図10に示す。図10に示されたとおり、この発明による周波数領域での音声信号分析方法の実施例を用いた場合の自動音声認識精度は従来例よりも高く、この実施例が効果的であることが示された。
以上の通りであって、この発明に依れば、周波数領域で音声信号を帯域分割し、その周期性特徴と非周期性特徴を分離する音声信号分析を行うことを最も主要な構成とするものであり、これにより理想的なディジタルフィルタの周波数特性を設計しフィルタリング処理を行える点、処理が高速になる点、および周波数領域で実行される音声信号処理技術(たとえば雑音抑圧技術)との組み合わせが可能になる点が、従来の技術とは異なる。
音声信号分析装置の実施例を説明する図。 音声信号分析方法の実施例の処理の流れ図。 音声波形切出部の処理を説明する図。 離散フーリエ変換処理を説明する図。 ガンマトーンフィルタバンクの周波数特性を示す図。 帯域通過フィルタバンク処理を説明する図。 逆離散フーリエ変換により自己相関関数を求める処理を説明する図。 櫛型フィルタ処理を説明する図。 音声認識装置の実施例を説明する図。 効果を比較する図。
符号の説明
10 音声信号分析装置 11 音声波形切出部
12 離散フーリエ変換部 13 帯域通過フィルタバンク
14 逆離散フーリエ変換部 15 周期推定部
16 櫛型フィルタ 17 第1パワー算出部
17’第2パワー算出部 18 減算部
19、19’離散コサイン変換部 20 ベクトル連結部
21 周期性成分パワーベクトル化部 21’非周期性成分パワーベクトル化部

Claims (11)

  1. 音声波形切出部により音声信号から音声信号波形を切り出し、
    切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
    帯域通過フィルタバンクの各帯域通過フィルタを用いて周波数スペクトルをフィルタリングし、各周波数帯域毎の周波数スペクトルを逆離散フーリエ変換し、
    帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定し、
    各帯域通過フィルタの出力信号を推定された周期に基づいて櫛型フィルタによりフィルタリングし、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
    減算結果パワー値をベクトル化し、
    櫛型フィルタの出力信号のパワー値をベクトル化し、
    ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはパワー値の双方を連結して音声特徴パラメータとして出力することを特徴とする音声信号分析方法。
  2. 請求項1に記載される音声信号分析方法において、
    ベクトル化された減算結果パワー値に離散コサイン変換を施し、
    ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施すことを特徴とする音声信号分析方法。
  3. 音声信号から音声信号波形を切り出す音声波形切出部と、
    切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部と、
    周波数スペクトルをフィルタリングする帯域通過フィルタバンクと、
    帯域分割された周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部と、
    自己相関関数を入力して帯域通過フィルタバンクの出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する周期推定部と、
    各帯域通過フィルタの出力信号を推定された周期に基づいてフィルタリングする櫛型フィルタと、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1パワー算出部および櫛型フィルタの出力信号のパワー値を計算する第2パワー算出部より成るパワー算出部と、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、
    減算結果パワー値をベクトル化する周期性成分パワーベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部と、
    を具備してベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力することを特徴とする音声信号分析装置。
  4. 請求項3に記載される音声信号分析装置において、
    ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備してパワー値の双方を連結して音声特徴パラメータとして出力することを特徴とする音声信号分析装置。
  5. 請求項3および請求項4の内の何れかに記載される音声信号分析装置において、
    ベクトル化された減算結果パワー値に離散コサイン変換を施す第1離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2離散コサイン変換部とを具備することを特徴とする音声信号分析装置。
  6. 音声信号から音声信号波形を切り出す音声波形切出部と、切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換する離散フーリエ変換部と、周波数スペクトルをフィルタリングする帯域通過フィルタバンクと、帯域分割された周波数スペクトルを入力してその時間領域における信号波形の自己相関関数を出力する逆離散フーリエ変換部と、自己相関関数を入力して帯域通過フィルタバンクの出力である帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定する周期推定部と、各帯域通過フィルタの出力信号を推定された周期に基づいてフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1パワー算出部および櫛型フィルタ16の出力信号のパワー値を計算する第2パワー算出部より成るパワー算出部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算結果パワー値をベクトル化する周期性成分パワーベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する非周期性成分パワーベクトル化部と、を具備してベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力する音声信号分析装置を具備し、
    音声信号分析装置の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器を具備し、
    音声信号分析装置の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ記憶部を具備することを特徴とする音声認識装置。
  7. 請求項6に記載される音声認識装置において、
    音声信号分析装置は、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部を具備してパワー値の双方を連結して音声特徴パラメータとして出力するものであることを特徴とする音声認識装置。
  8. 請求項6および請求項7の内の何れかに記載される音声認識装置において、
    音声信号分析装置は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2離散コサイン変換部とを有するものであることを特徴とする音声認識装置。
  9. 音声波形切出部により音声信号から音声信号波形を切り出し、
    切り出された音声信号波形に対して離散フーリエ変換を行い、周波数領域の周波数スペクトルに変換し、
    帯域通過フィルタバンクの各帯域通過フィルタを用いて周波数スペクトルをフィルタリングし、各周波数帯域毎の周波数スペクトルを逆離散フーリエ変換し、
    帯域分割された周波数スペクトルの時間領域における信号波形の周期を推定し、
    各帯域通過フィルタの出力信号を推定された周期に基づいて櫛型フィルタによりフィルタリングし、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
    減算結果パワー値をベクトル化し、
    櫛型フィルタの出力信号のパワー値をベクトル化し、
    ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値の内の何れか一方を音声特徴パラメータとして出力し、或いはパワー値の双方を連結して音声特徴パラメータとして出力すべき指令を、コンピュータに対してする音声信号分析プログラム。
  10. 請求項9に記載される音声信号分析プログラムにおいて、
    ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施すべき指令を、コンピュータに対してする音声信号分析プログラム。
  11. 請求項9および請求項10の内の何れかに記載される音声信号分析プログラムを記憶した記憶媒体。
JP2005027310A 2005-02-03 2005-02-03 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 Active JP4571871B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005027310A JP4571871B2 (ja) 2005-02-03 2005-02-03 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005027310A JP4571871B2 (ja) 2005-02-03 2005-02-03 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Publications (2)

Publication Number Publication Date
JP2006215228A true JP2006215228A (ja) 2006-08-17
JP4571871B2 JP4571871B2 (ja) 2010-10-27

Family

ID=36978521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005027310A Active JP4571871B2 (ja) 2005-02-03 2005-02-03 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Country Status (1)

Country Link
JP (1) JP4571871B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2011172268A (ja) * 2007-04-25 2011-09-01 Harman Becker Automotive Systems Gmbh 音同調方法
JP2014178534A (ja) * 2013-03-15 2014-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声分析装置とその方法とプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6075898A (ja) * 1983-09-30 1985-04-30 三菱電機株式会社 単語音声認識装置
JPH0312699A (ja) * 1989-06-12 1991-01-21 Ricoh Co Ltd 音声認識装置
JP2005195975A (ja) * 2004-01-08 2005-07-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2006084665A (ja) * 2004-09-15 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6075898A (ja) * 1983-09-30 1985-04-30 三菱電機株式会社 単語音声認識装置
JPH0312699A (ja) * 1989-06-12 1991-01-21 Ricoh Co Ltd 音声認識装置
JP2005195975A (ja) * 2004-01-08 2005-07-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2006084665A (ja) * 2004-09-15 2006-03-30 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット
JP2011172268A (ja) * 2007-04-25 2011-09-01 Harman Becker Automotive Systems Gmbh 音同調方法
US8976974B2 (en) 2007-04-25 2015-03-10 Harman Becker Automotive Systems Gmbh Sound tuning system
JP2014178534A (ja) * 2013-03-15 2014-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声分析装置とその方法とプログラム

Also Published As

Publication number Publication date
JP4571871B2 (ja) 2010-10-27

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Yapanel et al. A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition
Chen et al. MVA processing of speech features
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP5875414B2 (ja) 雑音抑制方法、プログラム及び装置
Nadeu et al. Filtering the time sequences of spectral parameters for speech recognition
JP2013164572A (ja) 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
Ganapathy et al. Feature extraction using 2-d autoregressive models for speaker recognition.
US20100094622A1 (en) Feature normalization for speech and audio processing
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Alku et al. The linear predictive modeling of speech from higher-lag autocorrelation coefficients applied to noise-robust speaker recognition
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Khonglah et al. Speech enhancement using source information for phoneme recognition of speech with background music
Ishizuka et al. A feature extraction method using subband based periodicity and aperiodicity decomposition with noise robust frontend processing for automatic speech recognition
Higa et al. Robust ASR based on ETSI Advanced Front-End using complex speech analysis
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Kaur et al. Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
Aadit et al. Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm
Chowdhury et al. ‘Speech signal analysis in phase domain
Vaz et al. Energy-constrained minimum variance response filter for robust vowel spectral estimation

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4571871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350