JP2006113298A - オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 - Google Patents

オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP2006113298A
JP2006113298A JP2004300576A JP2004300576A JP2006113298A JP 2006113298 A JP2006113298 A JP 2006113298A JP 2004300576 A JP2004300576 A JP 2004300576A JP 2004300576 A JP2004300576 A JP 2004300576A JP 2006113298 A JP2006113298 A JP 2006113298A
Authority
JP
Japan
Prior art keywords
audio signal
band
entropy value
periodic component
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004300576A
Other languages
English (en)
Other versions
JP4537821B2 (ja
Inventor
Kentaro Ishizuka
健太郎 石塚
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004300576A priority Critical patent/JP4537821B2/ja
Publication of JP2006113298A publication Critical patent/JP2006113298A/ja
Application granted granted Critical
Publication of JP4537821B2 publication Critical patent/JP4537821B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】雑音などに対し実環境における十分な頑健性を得る。
【解決手段】オーディオ信号をフィルタ処理して複数の帯域に分割し、各帯域の基本周期を推定し、周期性成分と非周期性成分とに分離してその周期成分パワーを抽出し、その抽出した周期成分パワーをヒストグラムなどの方法で正規化した上でエントロピーを求め、オーディオ信号の特徴パラメータとしてパターン識別、音声区間検出などに使用することで実環境における頑健性を得る。
【選択図】図7

Description

この発明は、音声信号や音楽信号などのオーディオ信号の特徴表現を抽出するオーディオ信号分析方法、その方法を用いたオーディオ信号認識方法やオーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体に関する。
音声認識装置においては、音声特徴表現抽出のための音声信号分析が行われる。頑健性の高い、つまり雑音に影響され難い音声特徴抽出法として、音声信号の周期的な成分と非周期的な成分を分離してそれらを連結して出力する音声信号分析方法がある(非特許文献1参照)。この従来の音声信号分析方法を実行する装置の機能構成例を図1に、その処理手順を図2にそれぞれ示す。この信号分析手段10は帯域通過フィルタバンク11と、音声波形切出手段12と、周期推定手段13と、櫛型フィルタ14と、パワー算出手段15F及び15Aと、減算手段16と、離散コサイン変換手段17P及び17Aと、ベクトル連結手段18とを備える。
入力端子100より信号分析手段10へ入力される音声信号は、例えば16,000Hzのサンプリングレートでサンプリングされ、その各サンプルがデジタル値に変換された離散音声信号である。
帯域通過フィルタバンク11では、複数の帯域通過デジタルフィルタ11,…,11を用いて、入力された離散音声信号を帯域分割して出力する(ステップS1)。ここで用いられる帯域通過フィルタバンク11は、例えば聴知覚の特性に基づく、等価矩形帯域幅の大きさに対応した中心周波数を持つガンマトーンフィルタバンクを用いるとよい(M.Slaney,“An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank,”Apple Computer Technical Report ♯35,1993)。このガンマトーンフィルタバンクでは、帯域通過フィルタ11(b=1,…,B)であるガンマトーンフィルタを、通過帯域が重なり合うように、かつそれぞれのフィルタの中心周波数が等価矩形帯域幅の大きさ(おおよそ対数スケール)に従うように、例えば24帯域分用意する。このフィルタバンク11の各フィルタの周波数特性の例を図3に示す。図3には複数の帯域通過フィルタ11,…,1124(ガンマトーンフィルタ)の周波数特性が同時に示されている。入力である離散音声信号をフィルタバンク11中のそれぞれの帯域通過フィルタ11,…,11でフィルタ処理した結果としてフィルタ数Bだけの離散信号が帯域通過フィルタバンク11から出力される。帯域通過フィルタバンク11の入力信号と出力信号の例として、帯域通過フィルタ11として図3に示した24個のフィルタ特性のうちの3つの特性をそれぞれもつガンマトーンフィルタを用いた場合を図4に示す。図4Aは入力離散音声信号の時間的変化を示す波形を示し、図4Bは中心周波数がfc1,fc2及びfc3の帯域通過フィルタ11の各周波数特性をそれぞれ示し、図4Cはこれら3つの帯域通過フィルタの各出力信号波形をそれぞれ示す。
音声波形切出手段12は、帯域通過フィルタバンク11の各帯域通過フィルタ11,…,11の出力信号から例えば時間軸方向に10msづつ移動しながら、30msの時間長の信号を各切出部12,…,12でそれぞれ切り出す(ステップS2)。例えば480サンプル点(16,000Hz×30ms)の離散信号を160サンプル点(16,000Hz×10ms)づつ移動しながら切り出した信号が音声波形切出手段12の切出部12,…,12から出力される。つまり各帯域通過フィルタ11,…,11よりの各帯域信号が分析区間(フレーム)ごとに分割される。
周期推定手段13は音声波形切出手段12の各切出部12,…,12よりの出力信号を入力とし、その各分析区間の各出力信号の周期性の周期を周期推定部13,…,13でそれぞれ推定する(ステップS3)。この周期性の推定には例えば基本周波数抽出法の一つである自己相関法(W.Hess,“Pitch determination of speech signals,”Springer-Verlag,New York,1983)を用いる。自己相関法では、まず入力信号の自己相関関数係数を求める。入力信号の全サンプル点数(1分析区間のサンプル点数)をN、j番目のサンプル点の信号の振幅をsとすると、入力信号の自己相関関数係数acは以下の式に従って求まる。
ac=(1/N)Σj=1 N-1-ii+j , i=1,…,N
図5Aに入力信号波形の例を、図5Bにこの自己相関関数係数をそれぞれ示す。次に、この自己相関関数係数におけるiの一定の探索範囲内、例えば80≦i≦200(サンプリング周波数16,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内においてacが最大となるiを検出する。その結果得られたiをnとする。このnは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定手段13の各周期推定部13,…,13から各推定周期nが出力される。
櫛型フィルタ14は周期推定手段13で得られた周期に基づいた離散櫛型フィルタを設定し、音声波形切出手段12の出力信号をフィルタ処理する(ステップS4)。ここで用いる離散櫛型フィルタの周波数特性は、例えば周期推定手段13の出力周期nに対し、z領域表現で次式とされる。
H(z)=1−z-n
音声波形切出手段12の出力信号をこの離散櫛型フィルタによってフィルタ処理することで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号となる。各周期推定部13(b=1,…,B)で推定された周期nは櫛型フィルタ14の対応するフィルタ部14bに設定され、各切出部12よりの分析区間ごとの帯域離散音声信号が対応するフィルタ部14に入力される。図4に示した帯域通過周波数特性中から選んだ3個と帯域通過フィルタの出力信号を音声波形切出手段12によりそれぞれ切り出した信号波形例を図6Aに、これら信号からそれぞれ推定された周期に設定された離散櫛型フィルタのそれぞれの周波数特性を図6Bに、その各フィルタ処理された各出力信号を図6Cにそれぞれ示す。
パワー算出手段15Fの各計算部15Fは音声波形切出手段12の各切出部12の出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Aは櫛型フィルタ14の各フィルタ部14の出力信号のパワーを計算する(ステップS5)。各計算部15F及び15Aでのパワーの計算Wは例えば次式に示す二乗和を行う。ここで、sは入力離散信号のサンプル点jにおける振幅を、Nは入力信号の全サンプル点数をそれぞれ表す。
W=Σj=1 Nj 2
減算手段16の各減算部16では、パワー算出手段15Fの各計算部15Fの出力パワー値、つまり音声波形切出手段12の切出部12の出力信号のパワー値WPから、対応するパワー算出手段15Aの計算部15Aの出力パワー値、つまり切出部12の出力に対応する櫛型フィルタ14のフィルタ部14の出力信号から算出されたパワー値WAを減算する(ステップS6)。この結果、各減算部16から櫛型フィルタ手段14の各フィルタ部14によって抑圧された周波数成分のパワー値(powersp)、すなわち各帯域離散音声信号の周期成分パワー値WPを求めることができる。この減算操作を次式に示す。
WP=WF−WA
周期成分パワーベクトル化手段20Pは各周期成分パワーWPが入力され、これらをその対応帯域通過フィルタ11(b=1,…,B)の中心周波数順に整列したベクトルとし、非周期成分パワーベクトル化手段20Aは同様に各非周期成分パワーWAをベクトルとする(ステップS7)。離散コサイン変換手段17Pでは、周期成分パワーベクトルに対しその対数値を取って離散コサイン変換を行う(この離散コサイン変換については例えば非特許文献2、14頁参照)。同様に離散コサイン変換手段17Aは非周期成パワーベクトルを離散コサイン変換する(ステップS8)。例えば24帯域分の帯域通過フィルタ11を用いた場合、WPおよびWAはそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。その各ベクトルに対し、離散コサイン変換を例えば下記の式に従って行う。
Figure 2006113298
ここで、pは対応する帯域通過フィルタの中心周波数順に整列されたWPまたはWAによって構成されるB次元ベクトルのj番目の要素(パワー値)を表し、cは離散コサイン変換後に得られるB次元ベクトルCのi番目の離散コサイン係数を表す。cはi=1,…,Bのすべてについて求める。離散コサイン変換手段17P及び17Aでは、WPおよびWAそれぞれから得られる離散コサイン係数ciPおよびciAを出力とする。
ベクトル連結手段18は、離散コサイン変換手段17Pおよび17Aの出力であるWPおよびWAに対応するそれぞれN次元の離散コサイン係数ciPおよびciAを入力とし、それぞれの一部または全体を連結して一連のベクトルC=(c,c,…,c)として出力する(ステップS9)。例えばWPおよびWAそれぞれの24次元の離散コサイン係数ciPおよびciAが入力とされた場合、それぞれ次数の低い方から12次元の係数を連結して一連の24次元ベクトルとして出力する。この分析方法を用いた場合、雑音下での音声認識において所定の頑健性が得られる。
音声信号の周期的な成分と非周期的な成分を分離することなく、音声特徴表現を抽出する音声分析方法として広く知られているLPCケプストラムやMFCCなどは、フォルマントと呼ばれる音声信号の共振点の位置や、それをよく表現するスペクトルの概形に基づいた表現を用いている(非特許文献2、4〜15頁参照)。
Kentaro Ishizuka,Noboru Miyazaki,"Speech feature extractionmethod representing periodicity and aperiodicity in sub bands for robust speechrecognition ,"Proceedings of the 29th International Conference on Acoustics, Speech,and Signal Processing,Vol.1,pp.141-144,2004. 鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄 編著,"音声認識システム",オーム社,2001,4〜15頁
非特許文献1に示す音声信号を周期性と非周期性との2つの成分に分離して特徴パラメータを抽出する方法は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因に対し、十分な頑健性が得られない問題がある。非特許文献2に示す技術は、いずれもパワースペクトルの形状に基づいた手法のため、非特許文献1に示す技術に比べ一層頑健性に劣る。
音声信号のみならず、音楽信号などの周期性成分と非周期性成分とが混在する音響信号の特徴を表現するパラメータの分析においても、非特許文献1、2の各方法を個別に適用しても、同様の問題が生じる。なお、音声信号および音楽信号などの周期性成分と非周期性成分とが混在する信号をオーディオ信号と総称する。
この発明の目的は、雑音などの加法性歪や乗法性歪などの外部変動要因および音声に内在する変動要因などに対し、実環境における十分な頑健性が得られるオーディオ信号分析方法、その方法を用いたオーディオ信号認識方法やオーディオ信号区間検出方法、その装置、プログラムおよびその記録媒体を提供することにある。
この発明によればオーディオ信号を周期性成分と非周期性成分とに分離してその周期成分パワーを抽出し、その抽出した周期成分パワーをヒストグラムなどの方法で正規化した上でエントロピーを求めオーディオ信号の特徴パラメータとする。
この構成によれば周期性特徴から導き出されたヒストグラムなどの正規化手法およびそのエントロピー値は、雑音などの騒乱要因に対して頑健な性質を持つため、外部変動要因や内部変動要因などに対し実環境における頑健性を得ることができる。
以下にこの発明の実施形態を図面を参照して説明するが、図1およびこれから説明する各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また、以下の説明はオーディオ信号として音声信号にこの発明を適用した場合である。
[第1実施形態]
この発明ではオーディオ信号を周期性成分と非周期性成分とに分離して周期成分パワーを抽出し、その抽出した周期成分パワーをヒストグラムなどの方法で正規化した上で求めたエントロピー値を出力するオーディオ信号分析を行う。第1実施形態では、周期成分パワーを求める方法として周期成分を抑圧する櫛型フィルタを用いて非周期成分パワーと帯域信号パワーとを求めた上で、上記帯域信号パワー値から上記非周期成分パワー値を減算することで周期成分パワーを求める形態である。図7にその機能構成例を図8に処理手順の例をそれぞれ示す。この信号分析手段10は、正規化手段21の具体的な実現例としてヒストグラム生成手段21Aを備え、エントロピー計算手段22を具備する。
図1、図2に示した内容と重複する機能の説明では、具体的な実現方法の説明は省略する。入力端子100より信号分析手段10へ入力される音声信号は、帯域通過フィルタバンク11で帯域分割され(ステップS11)、音声波形切出手段12で分析区間(フレーム)ごとに分割され(ステップS12)、周期推定手段13で各分析区間の各出力信号の周期性の周期が推定される(ステップS13)。帯域ごとに推定された周期が各帯域の基本周期である。
櫛型フィルタ14では、周期推定手段13で得られた周期(基本周期)に基づいて音声波形切出手段12の出力信号をフィルタ処理する(ステップS14)。ここで用いる櫛型フィルタは基本周期成分を抑圧する周波数特性を有する。例えば図6に示した櫛型フィルタを用いれば、周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑圧された離散信号が出力される。
パワー算出手段15Fの各計算部15Fは音声波形切出手段12の各切出部12の出力信号のパワーを計算し、パワー算出手段15Aの各計算部15Aは櫛型フィルタ14の各フィルタ部14の出力信号のパワーを計算する(ステップS15)。
減算手段16の各減算部16では、パワー算出手段15Fの各計算部15Fの出力パワー値、つまり各帯域信号パワーWPから、対応するパワー算出手段15Aの計算部15Aの出力パワー値、つまり非周期成分パワーWAを減算する(ステップS16)。この結果、各帯域の周期成分パワー値WPを求めることができる。
正規化手段21では、ヒストグラム生成手段21Aにより正規化された周期成分パワーを求める(ステップ17)。具体的には、減算手段12の各減算部16からの出力である
各帯域の周期成分パワー値WPと周期推定手段13の各周期推定部13からの出力である各帯域の基本周期の情報を用いて、例えば以下のようなヒストグラムH(n)を計算することにより正規化された周期成分パワーを求めることができる。
Figure 2006113298
ここで、p(i)はi番目の帯域通過フィルタ11に対応する帯域の周期成分パワーである。また、δは例えばi番目の帯域通過フィルタ11に対応する帯域の基本周期(周期推定手段13の周期推定部13の出力)をn(i)とした場合に、次式で示される値をとる。
Figure 2006113298
ヒストグラム生成手段21Aにより求められたヒストグラムを全てのnについて合計した値は1となる性質を有しており、周期成分パワーが正規化されたことが分かる。図11にヒストグラム生成手段21Aにより生成されたヒストグラムの例を示す。
なお、正規化手段21では、パワーを用いない以下のような方法もあり得る。
Figure 2006113298
エントロピー計算手段22では、正規化手段21からの出力を確率密度関数とみなしてそのエントロピーを求める(ステップS18)。例えば上記ヒストグラムH(n)のnがa≦n≦bの値をとるとき、エントロピーEは次式で求められる。
Figure 2006113298
このエントロピーEは、音声信号が全周波数帯域に渡って同じ周期信号の性質を持っている場合は小さくなり、異なる場合は大きくなる。すなわち、音声信号の周期性の度合いを計量する指標となる。エントロピー値の音声信号に対する時間的な変化の例を図12に示す。エントロピー計算手段22で求められるエントロピーEが信号分析手段10の出力となる。
なお、エントロピー計算部22aからの出力は、音声波形切出手段12が実行されるごとに出力可能であり、エントロピー計算部22aからの出力をさらに時間的に正規化する方法もある。例えば次式で求められる時間正規化されたエントロピーNEをエントロピー計算手段22の出力、つまり信号分析手段10の出力とする方法もある。
Figure 2006113298
ただし、Eはi番目のエントロピー計算部22aの出力、max(E)はエントロピー計算部22aの出力の最大値、min(E)はエントロピー計算部22aの出力の最小値である。
[変形実施形態]
変形例では、周期成分パワーを求める方法として周期成分を透過する櫛型フィルタを用いて周期成分パワーを求める形態である。図9にその機能構成例を図10に処理手順の例をそれぞれ示す。
図1、図2に示した内容と重複する機能の説明では、具体的な実現方法の説明は省略する。入力端子100より信号分析手段10へ入力される音声信号は、帯域通過フィルタバンク11で帯域分割され(ステップS21)、音声波形切出手段12で分析区間(フレーム)ごとに分割され(ステップS22)、周期推定手段13で各分析区間の各出力信号の周期性の周期が推定される(ステップS23)。帯域ごとに推定された周期が各帯域の基本周期である。
櫛型フィルタ14’では、周期推定手段13で得られた周期(基本周期)に基づいて音声波形切出手段12の出力信号をフィルタ処理する(ステップS24)。ここで用いる櫛型フィルタは基本周期成分を透過する周波数特性を有する。例えば以下のような周波数特性を持つ櫛型フィルタを用いてもよい。
Figure 2006113298
パワー算出手段15Pの各計算部15Pは音声波形切出手段12の各切出部12の出力信号のパワーを計算する(ステップS25)。この結果、各帯域の周期成分パワー値WPを求めることができる。
正規化手段21、エントロピー計算手段22は、第1実施形態と同じ機能構成であり、エントロピー計算手段22で求められるエントロピーEが信号分析手段10の出力となる。
[第2実施形態]
この発明では、第1実施形態又はその変形実施形態の音声信号分析手段10の出力を音声特徴パラメータEとし、音声有無判断手段71により音声区間、非音声区間の検出を行う。図13にその機能構成例を示す。
入力された音声信号は音声信号分析部10で分析され、エントロピー値が出力される。このエントロピー値を音声特徴パラメータEとする。音声判断手段71では、例えば、母音は全周波数帯域に渡って同じ周波数信号を持つ傾向にあることを利用し、事前に閾値Tを設定しておく比較部71Aを用い、E<Tならば音声区間、E≧Tならば非音声区間と判断する。音声有無判断手段71の判断結果が、音声信号区間検出手段の出力となる。
[第3実施形態]
この発明では、第1実施形態又はその変形実施形態の音声信号分析手段10の出力を音声特徴パラメータEとし、音声パターン識別手段81により音声認識を行う。図14にその機能構成例を示す。
入力された音声信号は音声信号分析部10で分析され、エントロピー値が出力される。このエントロピー値を音声特徴パラメータEとし、音声パターン識別手段81に入力する。音声パターン識別手段81では、事前に音声特徴パラメータEを学習し、学習データ格納部81bに格納しておく。そして、音声特徴パラメータEが入力されると、音声パターン識別器81aで学習データ格納部81bから供給される学習データと比較し、音声認識結果を出力する。この音声パターン識別手段81からの出力が、音声認識手段80の出力となる。
なお、本発明により計算される音声特徴パラメータは、LPCやMFCCなどの他の音声特徴パラメータ(非特許文献2参照)と並列に利用してもよい。
[第4実施形態]
この発明では、第1実施形態又はその変形実施形態の音声信号分析手段10の出力を音声特徴パラメータEとし、音声有無判断手段71による音声区間、非音声区間の検出結果を利用して、音声パターン識別手段81により音声認識を行う。図15にその機能構成例を示す。
入力された音声信号は音声信号分析部10で分析され、エントロピー値が出力される。このエントロピー値を音声特徴パラメータEとし、音声有無判断手段71と音声パターン識別手段81に入力する。音声判断手段71では、第2実施形態で示した方法により音声区間を検出し、結果を音声パターン識別手段81に入力する。
音声パターン識別手段81では、音声がある区間だけ第3実施形態で示した方法により特徴パラメータの学習や音声認識を行う。音声有無判断手段71の結果を利用することで、連続した音声信号入力に対して、音声パターン識別を開始するタイミングや終了するタイミングを学習時と認識時でそろえることが期待できる。
[実験例]
以下にこの発明の効果を示すために、この発明による音声信号分析方法によって得られた音声特徴パラメータを用いた音声認識装置と、[背景技術]項に記載の非特許文献1に示す音声認識装置(単に従来装置という)の、雑音下での数字認識における音声認識精度を比較のために行った実験を説明する。
この実験は第3実施形態の音声認識手段80を用いて、第1実施形態に示した音声分析手段10の効果を明らかにするために行った。この実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)を利用した。両手法とも24チャネルのガンマトーンフィルタバンクを帯域通過フィルタバンク11として用い音声波形切出手段12での音声波形の切出しは25ms長で10msごとに行い、周期成分パワーWPおよび非周期成分パワーWAに対応する離散コサイン変換後の係数ベクトルはそれぞれ12次元、他に入力信号全体のパワーを表すパワー値、あわせて25次元、本発明による音声特徴パラメータを利用する場合はさらに1次元増えて26次元のベクトルを特徴ベクトルとして用い、その動的特徴であるΔパラメータとΔΔパラメータを、ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法(非特許文献2、13頁参照)と同様にして求め、その結果75次元(従来装置)または78次元(本発明)のベクトルを特徴パラメータとして用いた。
音声パターン識別部81aでの学習処理には16状態24ガウス分布混合の数字HMMを用い、前記AURORA−2Jに付属する学習音声データ中の8,440発話の雑音が混入した数字読み上げ学習音声データとHMM学習用スクリプト(学習プログラム)とを用いHMM学習を行った。また、同様にAURORA−2Jに付属する評価データにおいて雑音下での数字読み上げ音声のうち強い加法性歪を伴う自動車中雑音が音声と同じパワーで重畳されている評価データ(信号対雑音比0dB、1,001発話)を用い雑音下での数字認識精度の評価を行った。
認識精度の結果を図16に示す。図16に示されたとおり、本発明による音声信号分析方法によって生成された音声特徴パラメータを用いた場合の音声認識精度が従来手法よりも高く、実環境での音声認識での頑健性が向上することが分かる。
非特許文献1の技術を説明するための音声信号分析装置の機能構成を示すブロック図。 図1に示した装置の処理手順を示す流れ図。 ガンマトーンフィルタバンクの周波数特性の例を示す図。 Aは入力音声波形例を、Bは3つのガンマトーンフィルタの特性例を、Cはその各フィルタの出力信号をそれぞれ示す図である。 Aは切り出された音声波形例を、Bはその自己相関関数をそれぞれ示す図である。 Aは3つの櫛型フィルタの入力信号例を、Bは上記櫛型フィルタの周波数特性例を、Cはその各出力信号の例をそれぞれ示す図である。 第1実施形態の装置の機能構成例を示すブロック図。 第1実施形態の分析方法の手順を示す流れ図。 変形実施形態の装置の機能構成例を示すブロック図。 変形実施形態の分析方法の手順を示す流れ図。 ヒストグラムの例を示す図。 エントロピー値の時間変動の例を示す図。 第2実施形態のオーディオ信号区間検出装置の機能構成例を示すブロック図。 第3実施形態のオーディオ信号認識装置の機能構成例を示すブロック図。 第4実施形態のオーディオ信号認識装置の機能構成例を示すブロック図。 AURORA−2Jを用いて評価した本発明の効果を明らかにするための認識結果。

Claims (20)

  1. 入力オーディオ信号をフィルタ処理して複数の帯域信号に分割し、
    上記各帯域信号に含まれる基本周期を推定し、
    上記各帯域信号を各基本周期に基づき櫛型フィルタで阻止又は通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分又は非周期成分を得、
    各帯域の周期成分のパワーを計算し、
    上記各帯域の周期成分パワー値を正規化し、
    上記正規化された周期成分パワー値のエントロピー値を得る
    ことを特徴とするオーディオ信号分析方法。
  2. 請求項1記載の方法において、
    上記各帯域の周期成分パワー値の正規化方法として、上記各帯域の周期成分パワー値のヒストグラムを計算する
    ことを特徴とするオーディオ信号分析方法。
  3. 入力オーディオ信号をフィルタ処理して複数の帯域信号に分割する帯域通過フィルタバンクと、
    上記各帯域信号に含まれる基本周期を推定する基本周期推定部と、
    上記各基本周期がそれぞれ設定され、その各帯域信号を阻止及び通過の一方のフィルタ処理をしてその帯域信号に含まれる周期成分又は非周期成分の対応する一方を出力する櫛型フィルタと、
    各帯域の周期成分のパワーを計算するパワー計算手段と、
    上記各帯域の周期成分パワー値を正規化する手段と、
    上記正規化された周期成分パワー値のエントロピー値を得る手段と、
    を具備するオーディオ信号分析装置。
  4. 請求項3記載の装置において、
    上記各帯域の周期成分パワー値を正規化する手段として、上記各帯域の周期成分パワー値のヒストグラムを計算する手段と
    を具備することを特徴とするオーディオ信号分析装置。
  5. 請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    オーディオ信号の有無を判断する
    ことを特徴とするオーディオ信号区間検出方法。
  6. 入力オーディオ信号から請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    閾値と比較することでオーディオ信号の有無を判断する
    ことを特徴とするオーディオ信号区間検出方法。
  7. 請求項3又は4記載のオーディオ信号分析手段と
    オーディオ信号有無判断手段と
    を具備することを特徴とするオーディオ信号区間検出装置。
  8. 請求項3又は4記載のオーディオ信号分析手段と、
    上記オーディオ信号分析部から得られた入力オーディオ信号のエントロピー値と閾値とを比較する手段と
    を具備するオーディオ信号区間検出装置。
  9. 請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    オーディオ信号パターンを識別する
    ことを特徴とするオーディオ信号認識方法。
  10. 事前に学習のために請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    学習データとして上記エントロピー値を格納し、
    入力オーディオ信号から請求項1又は2のオーディオ信号分析方法によるエントロピー値を得、
    上記学習データのエントロピー値と入力オーディオ信号のエントロピー値とを比較する
    ことを特徴とするオーディオ信号認識方法。
  11. 請求項3又は4記載のオーディオ信号分析手段と、
    オーディオ信号パターン識別手段と
    を具備することを特徴とするオーディオ信号認識装置。
  12. 請求項3又は4記載のオーディオ信号分析手段と、
    学習データとして上記オーディオ信号分析手段から事前に得たエントロピー値を蓄積する蓄積手段と、
    上記オーディオ信号分析手段から得られた入力オーディオ信号のエントロピー値と蓄積された学習データであるエントロピー値とを比較する手段と
    を具備するオーディオ信号認識装置。
  13. 請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    オーディオ信号の有無を判断し、
    オーディオ信号パターンを識別する
    ことを特徴とするオーディオ信号認識方法。
  14. 入力オーディオ信号から請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    閾値と比較することでオーディオ信号の有無を判断し、
    オーディオ信号パターンを識別する
    ことを特徴とするオーディオ信号認識方法。
  15. 事前に学習のため請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    学習データとして上記エントロピー値を格納し、
    入力オーディオ信号から請求項1又は2記載のオーディオ信号分析方法によりエントロピー値を得、
    入力オーディオ信号の有無を判断し、
    上記学習データのエントロピー値と入力オーディオ信号のエントロピー値とを比較する
    ことを特徴とするオーディオ信号認識方法。
  16. 請求項3又は4記載のオーディオ信号分析手段と
    オーディオ信号有無判断手段と
    オーディオ信号パターン識別手段と
    を具備することを特徴とするオーディオ信号認識装置。
  17. 請求項3又は4記載のオーディオ信号分析手段と
    上記オーディオ信号分析手段から得られた入力オーディオ信号のエントロピー値と閾値とを比較する手段と
    オーディオ信号パターン識別手段と
    を具備することを特徴とするオーディオ信号認識装置。
  18. 請求項3又は4記載のオーディオ信号分析手段と
    オーディオ信号有無判断手段と
    学習データとして上記オーディオ信号分析手段から事前に得たエントロピー値を蓄積する蓄積手段と、
    上記オーディオ信号分析手段から得られた入力オーディオ信号のエントロピー値と蓄積された学習データであるエントロピー値とを比較する手段と
    を具備するオーディオ信号認識装置。
  19. コンピュータを、請求項3、4、7、8、11、12、16〜18のいずれかに記載した装置として機能させるプログラム。
  20. 請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004300576A 2004-10-14 2004-10-14 オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 Expired - Fee Related JP4537821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004300576A JP4537821B2 (ja) 2004-10-14 2004-10-14 オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004300576A JP4537821B2 (ja) 2004-10-14 2004-10-14 オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2006113298A true JP2006113298A (ja) 2006-04-27
JP4537821B2 JP4537821B2 (ja) 2010-09-08

Family

ID=36381865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004300576A Expired - Fee Related JP4537821B2 (ja) 2004-10-14 2004-10-14 オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4537821B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808775B1 (ko) 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP2009251134A (ja) * 2008-04-03 2009-10-29 Toshiba Corp 音声/非音声を判定する装置、方法およびプログラム
WO2011013244A1 (ja) * 2009-07-31 2011-02-03 株式会社東芝 音声処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5968791A (ja) * 1982-10-13 1984-04-18 工業技術院長 ピツチ抽出装置
JP2004053626A (ja) * 2002-07-16 2004-02-19 Nippon Telegr & Teleph Corp <Ntt> 雑音重畳量評価方法、雑音抑制方法、雑音抑制装置、雑音重畳量評価プログラム、雑音抑制プログラム、雑音重畳量評価プログラム又は雑音抑制プログラムの何れか一方又は双方を記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5968791A (ja) * 1982-10-13 1984-04-18 工業技術院長 ピツチ抽出装置
JP2004053626A (ja) * 2002-07-16 2004-02-19 Nippon Telegr & Teleph Corp <Ntt> 雑音重畳量評価方法、雑音抑制方法、雑音抑制装置、雑音重畳量評価プログラム、雑音抑制プログラム、雑音重畳量評価プログラム又は雑音抑制プログラムの何れか一方又は双方を記録した記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808775B1 (ko) 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
JP4690973B2 (ja) * 2006-09-05 2011-06-01 日本電信電話株式会社 信号区間推定装置、方法、プログラム及びその記録媒体
JP2009251134A (ja) * 2008-04-03 2009-10-29 Toshiba Corp 音声/非音声を判定する装置、方法およびプログラム
WO2011013244A1 (ja) * 2009-07-31 2011-02-03 株式会社東芝 音声処理装置
US8438014B2 (en) 2009-07-31 2013-05-07 Kabushiki Kaisha Toshiba Separating speech waveforms into periodic and aperiodic components, using artificial waveform generated from pitch marks
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置

Also Published As

Publication number Publication date
JP4537821B2 (ja) 2010-09-08

Similar Documents

Publication Publication Date Title
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US8326610B2 (en) Producing phonitos based on feature vectors
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
Tapkir et al. Novel spectral root cepstral features for replay spoof detection
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
CN108682432B (zh) 语音情感识别装置
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Pati et al. A comparative study of explicit and implicit modelling of subsegmental speaker-specific excitation source information
Kodukula Significance of excitation source information for speech analysis
Lu Reduction of musical residual noise using block-and-directional-median filter adapted by harmonic properties
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Natarajan et al. Segmentation of continuous Tamil speech into syllable like units
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Singh et al. A comparative study on feature extraction techniques for language identification
CN112908303A (zh) 音频信号的处理方法、装置以及电子设备

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130625

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140625

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees