JP2005195975A - 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 - Google Patents

音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 Download PDF

Info

Publication number
JP2005195975A
JP2005195975A JP2004003239A JP2004003239A JP2005195975A JP 2005195975 A JP2005195975 A JP 2005195975A JP 2004003239 A JP2004003239 A JP 2004003239A JP 2004003239 A JP2004003239 A JP 2004003239A JP 2005195975 A JP2005195975 A JP 2005195975A
Authority
JP
Japan
Prior art keywords
power value
output signal
bandpass filter
filter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004003239A
Other languages
English (en)
Other versions
JP4362072B2 (ja
Inventor
Kentaro Ishizuka
健太郎 石塚
Noboru Miyazaki
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004003239A priority Critical patent/JP4362072B2/ja
Publication of JP2005195975A publication Critical patent/JP2005195975A/ja
Application granted granted Critical
Publication of JP4362072B2 publication Critical patent/JP4362072B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】 厳密な音声の基本周波数推定をする必要がない音声信号分析方法を提供する。
【解決手段】音声信号の帯域通過フィルタバンク11、各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部13、各帯域通過フィルタの出力信号を基本周期推定部13において推定された基本周期に基づいてフィルタリングする櫛型フィルタ14、各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部15および櫛型フィルタ14の出力信号のパワー値を計算する第2のパワー算出部15’、各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部16、減算の結果得られるパワー値をベクトル化する第1のベクトル化部19および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部19’、両ベクトル化パワー値を連結するベクトル連結部18とを具備する音声信号分析装置。
【選択図】 図1

Description

この発明は、音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関し、特に、厳密な音声の基本周波数推定をする必要がなく、雑音環境下でも頑健に音声特徴表現を抽出することができる音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体に関する。
自動音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。従来の音声信号分析法で抽出される音声特徴表現は、音声波形信号に対しフーリエ変換などを行うことによって得られる、音声の周波数スペクトル表現に基づいたものが多い。従来、音声の周波数スペクトルのピーク値を結ぶ包絡線、スペクトル包絡の形状が音声の特徴を良く表現していると考えられていることから、そのスペクトル包絡を求めるための抽出技術として、従来、線形予測分析法、PARCOR分析法その他の分析手法が開発されて用いられてきた(非特許文献1 参照)。これらの分析技術を用いた場合、静かな環境では所望の音声特徴表現(スペクトル包絡)を得ることができる一方で、雑音や伝送歪みが存在する状況においては充分な音声特徴表現を得ることが難しかった。また、自動音声認識技術で広く用いられている音声特徴表現であるメル周波数ケプストラム係数(非特許文献2 参照)は、人間の聴覚特性を反映した帯域通過フィルタバンクを利用して抽出される音声特徴表現であり、スペクトル包絡よりも雑音に頑健ではあるものの、その耐雑音性は充分ではない。
雑音環境下でも充分な音声特徴表現を得るために、音声の周期成分と非周期成分を分離し、それぞれに対してメル周波数スペクトル係数を求め、それを特徴量として用いる耐雑音音声認識手法(非特許文献3 参照)があるが、音声の周期性成分と非周期性成分の分離を行うために音声の基本周波数を厳密に推定する必要があり、無雑音環境下で収録した音声とそれに雑音を重畳した音声とを同時に得られる様な模擬実験上では有効性を示すことができるが、雑音環境下の音声からその基本周波数を厳密に推定する手法が開発されていないところから実用上利用することができる段階に立ち到っていない。
古井貞煕"音声情報処理"、森北出版株式会社、1998 S.B.Davis and P Mermelstein、"Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,"IEEE Transactions on Acoustics, Speech and Signal Processmg, Vol.ASSP-28, No.4,1980 P.J.B.Jackson,D.M.Moreno,M.J.Russell and J.Hernando,"Covariation and weighting of harmonically decomposed streams for ASR,"Proceedings of Eurospeech, pp.2321-2324,2003
この発明は、厳密な音声の基本周波数推定をする必要がなく、雑音環境下でも頑健に音声特徴表現を抽出することができる上述の問題を解消した音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体を提供するものである。
請求項1:音声信号を帯域通過フィルタバンクによりフィルタリングし、その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、櫛型フィルタの出力信号のパワー値を計算し、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、減算結果パワー値をベクトル化し、櫛型フィルタの出力信号のパワー値をベクトル化し、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結する音声信号分析方法を構成した。
そして、請求項2:請求項1に記載される音声信号分析方法において、ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、離散コサイン変換を施された両パワー値を連結する音声信号分析方法を構成した。
ここで、請求項3:音声信号をフィルタリングする帯域通過フィルタバンク11と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部13と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号を基本周期推定部13において推定された基本周期に基づいてフィルタリングする櫛型フィルタ14と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部15および櫛型フィルタ14の出力信号のパワー値を計算する第2のパワー算出部15’と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部16と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部19および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部19’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部18とを具備する音声信号分析装置を構成した。
そして、請求項4:請求項3に記載される音声信号分析装置において、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部17と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部17’とを具備する音声信号分析装置を構成した。
また、請求項5:音声信号をフィルタリングする帯域通過フィルタバンク11と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部13と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号を基本周期推定部13において推定された基本周期に基づいてフィルタリングする櫛型フィルタ14と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部15および櫛型フィルタ14の出力信号のパワー値を計算する第2のパワー算出部15’と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部16と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部19および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部19’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部18とより成る音声信号分析装置10を具備し、音声信号分析装置10の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器21を具備し、音声信号分析装置10の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部22を具備する音声認識装置を構成した。
更に、請求項6:請求項5に記載される音声認識装置において、音声信号分析装置10は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部17と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部17’とを有するものである音声認識装置を構成した。
ここで、請求項7:コンピュータに対して、音声信号を帯域通過フィルタバンクによりフィルタリングし、その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、櫛型フィルタの出力信号のパワー値を計算し、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、減算結果パワー値をベクトル化し、櫛型フィルタの出力信号のパワー値をベクトル化し、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結すべき指令をする音声信号分析プログラムを構成した。
そして、請求項8:請求項7に記載される音声信号分析プログラムにおいて、ベクトル化された減算結果パワー値に離散コサイン変換を施し、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、離散コサイン変換を施された両パワー値を連結すべき指令をする音声信号分析プログラムを構成した。
また、請求項9:請求項7に記載される音声信号分析プログラムを記録した記憶媒体を構成した。
更に、請求項10:請求項8に記載される音声信号分析プログラムを記録した記憶媒体を構成した。
この発明による音声信号分析によって得られた特徴ベクトルと、従来広く用いられているメル周波数スペクトル係数(MFCC)を特徴ベクトルとして用いた場合の、パターン認識器に隠れマルコフモデル(HMM:北 研二、中村 哲、永田 昌明、“音声言語処理”、森北出版株式会社、1996 参照)を用いた雑音下での数字認識実験の結果を示す。この実験には、(社)情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。この発明による方法は24チャネルのガンマトーンフィルタバンクを用い、音声波形の切り出しは30ms長で10ms毎に行い、powerspおよびpowercfに対応する離散コサイン変換後の特徴ベクトルはそれぞれ12次元、併わせて24次元のベクトルを特徴ベクトルとして用い、その動的特徴である△パラメータを、△MFCCを求める方法と同様にして求め、結果48次元のベクトルを特徴パラメータとして用いた。比較対象となるMFCCでは、24チャネルのメルスケールフィルタバンクによる分析結果から得られた12次元のメル周波数スペクトル係数と、その動的特徴を示す△MFCC12次元と△△MFCC、並びに対数パワー値powerと△powerおよび△△powerの合わせて39次元のベクトルを特徴パラメータとして用いた。パターン識別器には16状態20混合の数字HMMを用い、AURORA−2Jに付属する8440文の数字読み上げ音声とHMM学習用スクリプトを用いてHMM学習を行った。また、同様に、AURORA−2Jに付属する雑音下での数字読み上げ音声である評価用データ3セット(28028文×2セット+14014文×1セット)を用い、雑音下における数字認識精度の評価を行った。各セット、ならびに全セット平均の認識精度結果を図6に示す。図6に示された通り、この発明による方法の認識精度は従来法よりも高く、この発明による方法が雑音に頑健な音声認識方法であることが示された。
音声信号のパワーは周波数帯域によって強弱に偏りがある。一方、周囲環境の雑音のパワーも、音声と同様に、一般に周波数スペクトル上で一様には分布しておらず、周波数帯域毎にパワーの偏りがある。従って、雑音環境下における音声信号分析を行う際に、信号の特定の周波数帯域だけを取り出す帯域通過フィルタを様々な周波数帯域について複数備えた帯域通過フィルタバンクを用いることで、雑音の影響の少ない、即ち、音声のパワーが強く雑音のパワーの弱い周波数帯域を選択的に音声信号分析に利用することができると考えられる。仮に、雑音が白色雑音の様な周波数スペクトル上で一様にパワーを持つ雑音であっても、雑音よりも音声のパワーが強い周波数帯域を選択すれば、同様の効果を期待することができる。
また、音声の有声音部分である母音ならびに有声子音の周波数スペクトルはその基本周波数の整数倍にあたる周波数成分にパワーが集中しており、これらの周波数成分をここでは調波成分と呼ぶ。調波成分を持つ音は波形の上では基本周波数に応じた周期的な波形となる。基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタはこの周期性の成分である調波成分を抑圧或いは強調する効果があり、この性質を利用することで、調波成分にあたる音声の周期性の成分、即ち、周期成分以外の成分である非周期成分を分離することができることとなる。
この発明による音声信号分析法は、音声信号に対して、複数の帯域通過フィルタから構成される帯域通過フィルタバンクおよび音声の周期に対して適応する櫛型フィルタを直列に併用することで、雑音環境下において頑健な音声特徴表現を抽出することができる。以上の発明を実施するための最良の形態を図を参照して具体的に説明する。
図1はこの発明による音声信号分析装置の一実施例を示す図である。図1において、10はこの発明による音声信号分析装置の全体を示す。音声信号分析装置10は、帯域通過フィルタバンク11と、音声波形切出部12と、周期推定部13と、櫛型フィルタ14と、パワー算出部15、15’と、減算部16と、離散コサイン変換部17と、ベクトル連結部18によって構成される。
音声信号分析装置10へ入力される音声信号は、例えば、16000Hzのサンプリングレートでサンプリングされて離散信号に変換された音声信号である。
帯域通過フィルタバンク11は、複数の帯域通過デジタルフィルタを用いて、入力された離散音声信号をフィルタリングする。この帯域通過フィルタバンク11としては、例えば、聴覚の特性に基づく等価矩形帯域幅のスケールに対応した中心周波数を持つガンマトーンフィルタバンクが用いられる(M.Slaney, "An Efficient lmplementation of the Patterson-Holdsworth Auditory Filter Bank, "Apple Computer Technical Report #35, 1993)。
このガンマトーンフィルタバンクは、帯域通過フィルタであるガンマトーンフィルタを、通過帯域が重なり合う様に、かつ、それぞれのフィルタの中心周波数がおおよそ対数スケールである等価矩形帯域幅のスケールに従う様に、例えば24帯域分だけ用意される。このフィルタバンクの各フィルタの周波数特性の例を図3に示す。図3には、ガンマトーンフィルタより成る複数の帯域通過フィルタの周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク中のそれぞれの帯域通過フィルタでフィルタリングした結果得られる、フィルタ数分の離散信号が帯域通過フィルタバンク11の出力になる。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタとして図3に示したガンマトーンフィルタの内の3つのガンマトーンフィルタを用いた場合の入力信号と出力信号例を図4に示す。
音声波形切出部12は、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号から、例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を切り出す。この結果得られる例えば480サンプル点(16000Hz×30ms)の離散信号を、160サンプル点(16000Hz×10ms)づつ移動しながら切り出した信号を音声波形切出部12の出力とする。
周期推定部13は、音声波形切出部12の出力信号を入力としてこの入力信号に含まれる周期を推定する。周期推定には、例えば、基本周波数抽出法の一つである自己相関法(W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York, 1983)を用いる。自己相関法は、先ず、入力信号の自己相関関数を求める。入力信号の全サンプル点数をN、j番目のサンプル点の信号の振幅をsjとしたときに、自己相関関数の係数ciは以下の式に従って求まる。
Figure 2005195975
これをi=1、・・・、Nについて求める。図5は切り出された音声波形から求められた自己相関関数を示す図である。次に、この自己相関関数の係数におけるjの一定の探索範囲内、例えば80≦j≦200(サンプリング周波数16000Hzの場合の80Hzから200Hzの周期に該当)の範囲内において、ci が最大となるiを検出する。その結果得られたjをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号である例えば正弦波の場合にはその周期長に相当する値になる。このnを周期推定部13の出力とする。
櫛型フィルタ14は周期推定部13で得られた周期に基づいて離散櫛型フィルタを設計し、音声波形切出部12の出力信号をフィルタリングする。ここで用いる離散櫛型フィルタは、例えば周期推定部13の出力周期をnとすると、z領域の表現において、
H(z)=1−z-n
で表される周波数特性を持つ様に設計する。音声波形切出部12の出力信号をこの離散櫛型フィルタによってフィルタリングすることで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分、基本周波数成分とその整数倍の周波数成分、のパワーが抑圧された離散信号となる。図4に示した帯域通過フィルタの出力信号を音声波形切出部12により切り出した信号を入力とし、周期に応じて設計された離散櫛型フィルタでフィルタリングして得られた出力信号と櫛型フィルタの周波数特性を図6に例示する。この様にして求められる信号を櫛型フィルタ14の出力信号とする。
第1のパワー算出部15は、音声波形切出部12の出力信号を入力とし、入力信号に対して、例えば以下の式に示す2乗和を用いることで各信号のパワーを算出し、第2のパワー算出部15’は、櫛型フィルタ14の出力信号を入力とし、入力信号に対して、例えば以下の式に示す2乗和を用いることで各信号のパワーを算出する。
power=ΣN j=1j 2
ここで、sj は入力となる離散信号のサンプル点jにおける振幅を表し、Nは入力信号の全サンプル点数を表し、powerは算出されるパワー値を表す。
このパワー値を音声波形切出部12、および櫛型フィルタ14の全ての出力信号について求める。この様にして求められたパワー値を第1のパワー算出部15、第2のパワー算出部15’の出力とする。
減算部16は、第1のパワー算出部15の出力および第2のパワー算出部15’の出力の内の音声波形切出部12の出力から算出されたパワー値powerbpf から、その音声波形切出部12の出力に対応する櫛型フィルタ14の出力から算出されたパワ値powercfを減算する。この操作を、波形切出部12の出力信号とそれに対応する櫛型フィルタ14のすべての組み合わせについて行う。この結果、櫛型フィルタ14によって抑圧された周波数成分のパワー値powersp 、即ち、周期成分のパワー値を求めることができる。この減算操作を以下の式に示す。
powersp =powerbpf −powercf
周期成分のパワー値を入力する第1の離散コサイン変換部17および非周期成分のパワー値を入力する第2の離散コサイン変換部17’は、すべての帯域通過フィルタに対応して得られる上述のpowersp とpowercf を入力とし、それらを対応する帯域通過フィルタの中心周波数順に整列したものをベクトルとみなした上で、離散コサイン変換(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、"音声認識システム"、オーム社、2001 参照)を行う。例えば、24帯域分の帯域通過フィルタを用いた場合、powersp およびpowercf はそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。そのベクトルに対して、離散コサイン変換を例えば下記の式に従って行う。
Figure 2005195975
ここで、pj は対応する帯域通過フィルタの中心周波数順に整列されたpowersp 或いはpowercf によって構成されるN次元ベクトルのj番目の要素であるパワー値を表し、Ci は離散コサイン変換後に得られるN次元ベクトルのj番目の離散コサイン係数を表す。Ci はi=1、・・・、Nのすべてについて求める。第1の離散コサイン変換部17および第2の離散コサイン変換部17’は、powersp およびpowercf それぞれから得られる離散コサイン係数を出力とする。
ベクトル連結部18は第1の離散コサイン変換部17および第2の離散コサイン変換部17’の出力であるpowersp およびpowercf に対応するそれぞれN次元の離散コサイン係数を入力とし、それぞれの一部或いは全体を連結して一連のベクトルとして出力する。例えば、powersp およびpowercf それぞれの24次元の離散コサイン係数が入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。以上の離散コサイン変換を実施すると、音声信号分析装置10を使用して音声認識装置を構成した場合、音声認識時の計算速度が高速となり、音声認識に必要とされるメモリ容量および記憶容量を少なくすることができる。
図1におけるベクトル連結部18の出力は、音声信号分析装置10全体の出力となる。この音声信号分析装置10を使用して音声認識装置を構成することができる。これを図2を参照して具体的に説明する。
図2において、20は音声認識装置の全体を示す。この音声認識装置20は、図1を参照して図示説明された音声信号分析装置10の出力を特徴パラメータとして、例えば、隠れマルコフモデル(HMM)の音声パターン識別器21を用いて音声パターンの学習並びに自動音声認識を行う。22は音声信号分析装置10の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部である。
音声認識装置20に入力された音声信号は、音声信号分析装置10に供給され、信号分析されて特徴パラメータが得られる。得られた特徴パラメータを音声パターン識別器21に入力し、ここにおいて学習データ格納部22から供給される対応する学習データと比較し、適正な音声認識結果を出力する。
上述した音声認識装置20においては、離散コサイン変換部17を省略し、減算部16によって得られた周期成分のパワー値と第2のパワー算出部15’から得られる非周期成分のパワー値とをベクトル連結部18によって連結し、それらを特徴パラメータとして音声パターン認識器21による音声パターンの学習ならびに音声認識を実施することができる。
上述したこの発明による音声信号分析およびこれを用いた音声認識は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現される。これらのプログラムは例えば磁気ディスク或いはCD−ROMの様なコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
音声信号分析装置の一実施例を説明する図。 音声認識装置の一実施例を説明する図。 ガンマトーンフィルタバンクの周波数特性の例を示す図。 3つのガンマトーンフィルタの入力信号と出力信号の例を示す図。 切り出された音声波形から求めた自己相関関数の例を示す図。 3つの櫛型フィルタの周波数特性ならびに入力信号と出力信号の例を示す図。 AURORA-2Jを用いて評価したこの発明の実施例の効果を示す図。
符号の説明
10 音声信号分析装置 11 帯域通過フィルタバンク
12 音声波形切出部 13 周期推定部
14 櫛型フィルタ 15 第1のパワー算出部
15’第2のパワー算出部 16 減算部
17 第1の離散コサイン変換部 17’第2の離散コサイン変換部
18 ベクトル連結部 19 第1のベクトル化部
19’第2のベクトル化部 20 音声認識装置
21 音声パターン識別器 22 学習データ格納部

Claims (10)

  1. 音声信号を帯域通過フィルタバンクによりフィルタリングし、
    その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、
    各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
    櫛型フィルタの出力信号のパワー値を計算し、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
    減算結果パワー値をベクトル化し、
    櫛型フィルタの出力信号のパワー値をベクトル化し、
    ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結することを特徴とする音声信号分析方法。
  2. 請求項1に記載される音声信号分析方法において、
    ベクトル化された減算結果パワー値に離散コサイン変換を施し、
    ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、
    離散コサイン変換を施された両パワー値を連結することを特徴とする音声信号分析方法。
  3. 音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号を基本周期推定部において推定された基本周期に基づいてフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第2のパワー算出部と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備することを特徴とする音声信号分析装置。
  4. 請求項3に記載される音声信号分析装置において、
    ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部とを具備することを特徴とする音声信号分析装置。
  5. 音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号を基本周期推定部において推定された基本周期に基づいてフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第2のパワー算出部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とより成る音声信号分析装置を具備し、
    音声信号分析装置の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器を具備し、
    音声信号分析装置の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部を具備することを特徴とする音声認識装置。
  6. 請求項5に記載される音声認識装置において、
    音声信号分析装置は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部とを有するものであることを特徴とする音声認識装置。
  7. コンピュータに対して、
    音声信号を帯域通過フィルタバンクによりフィルタリングし、
    その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、
    各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
    櫛型フィルタの出力信号のパワー値を計算し、
    帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
    減算結果パワー値をベクトル化し、
    櫛型フィルタの出力信号のパワー値をベクトル化し、
    ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結すべき指令をする音声信号分析プログラム。
  8. 請求項7に記載される音声信号分析プログラムにおいて、
    ベクトル化された減算結果パワー値に離散コサイン変換を施し、
    ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、
    離散コサイン変換を施された両パワー値を連結すべき指令をする音声信号分析プログラム。
  9. 請求項7に記載される音声信号分析プログラムを記録した記憶媒体。
  10. 請求項8に記載される音声信号分析プログラムを記録した記憶媒体。
JP2004003239A 2004-01-08 2004-01-08 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 Expired - Fee Related JP4362072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004003239A JP4362072B2 (ja) 2004-01-08 2004-01-08 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004003239A JP4362072B2 (ja) 2004-01-08 2004-01-08 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Publications (2)

Publication Number Publication Date
JP2005195975A true JP2005195975A (ja) 2005-07-21
JP4362072B2 JP4362072B2 (ja) 2009-11-11

Family

ID=34818208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004003239A Expired - Fee Related JP4362072B2 (ja) 2004-01-08 2004-01-08 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体

Country Status (1)

Country Link
JP (1) JP4362072B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
WO2008001779A1 (fr) * 2006-06-27 2008-01-03 National University Corporation Toyohashi University Of Technology procédé d'estimation de fréquence de référence et système d'estimation de signal acoustique

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP4571871B2 (ja) * 2005-02-03 2010-10-27 日本電信電話株式会社 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム
JP4630183B2 (ja) * 2005-12-08 2011-02-09 日本電信電話株式会社 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
WO2008001779A1 (fr) * 2006-06-27 2008-01-03 National University Corporation Toyohashi University Of Technology procédé d'estimation de fréquence de référence et système d'estimation de signal acoustique

Also Published As

Publication number Publication date
JP4362072B2 (ja) 2009-11-11

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Chen et al. MVA processing of speech features
Yapanel et al. A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition
EP3042377B1 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
JP2005078077A (ja) 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置
Revathy et al. Performance comparison of speaker and emotion recognition
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
Khonglah et al. Speech enhancement using source information for phoneme recognition of speech with background music
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Prakash et al. Fourier-Bessel cepstral coefficients for robust speech recognition
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data
Kaur et al. Power-Normalized Cepstral Coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
Singh et al. A comparative study on feature extraction techniques for language identification
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060406

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090814

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130821

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees