JP4690973B2 - 信号区間推定装置、方法、プログラム及びその記録媒体 - Google Patents

信号区間推定装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP4690973B2
JP4690973B2 JP2006239796A JP2006239796A JP4690973B2 JP 4690973 B2 JP4690973 B2 JP 4690973B2 JP 2006239796 A JP2006239796 A JP 2006239796A JP 2006239796 A JP2006239796 A JP 2006239796A JP 4690973 B2 JP4690973 B2 JP 4690973B2
Authority
JP
Japan
Prior art keywords
signal
power
periodic component
rho
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006239796A
Other languages
English (en)
Other versions
JP2008064821A (ja
Inventor
健太郎 石塚
智広 中谷
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006239796A priority Critical patent/JP4690973B2/ja
Publication of JP2008064821A publication Critical patent/JP2008064821A/ja
Application granted granted Critical
Publication of JP4690973B2 publication Critical patent/JP4690973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、複数の信号が含まれる信号から、例えば、音声信号や音楽信号などの強い周期性成分を持つ目的音響信号が存在する区間を推定するための装置、方法、プログラム及びその記録媒体に関する。
音声信号や音楽信号の符号化、雑音信号の抑圧、残響除去、自動音声認識などの音響信号処理技術の多くにおいては、入力となる複数の種類の信号が含まれる音響信号から、処理の対象となる音響信号が存在する区間を推定する必要があり、この区間推定の精度がその後の処理の効果にも大きく影響する。
この音響信号区間推定のための音響特徴として、携帯電話などで用いられる音声信号区間の推定方法では従来、信号の周波数スペクトル、信号の全帯域のエネルギー、帯域分割後の各帯域のエネルギー、信号波形の零交差数、雑音抑制後の信号の周波数スペクトル、周波数スペクトルの分散及びそれらの時間微分などが利用されている(例えば、非特許文献1、2参照。)。
これらの音響特徴を用いた目的信号区間推定方法では、入力される音響信号を25ms程度のある一定時間長に分割し、分割された各信号区間で上述の音響特徴を算出し、その値が別途定めた閾値を越える場合には目的信号区間、そうでない場合には非目的信号区間として判定する。
ITU-T Recommendation G.729 Annex B., "A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70," 1996., p.1-4 ETSI standard document, "Speech Processing, Transmission and Quality Aspects (STQ);Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 V1.1.3, 2003. p.40-43
しかし、従来用いられてきた音響特徴は雑音の影響を受けやすく、雑音の強さが時間的に変化したり、突発性の雑音がある場合には十分な目的信号区間精度を得ることができないという問題があった。
本発明は、強さが時間的に変化する雑音や突発性の雑音が含まれるような音響信号から、音声信号や音響信号などの周期性成分が強い性質を持つ目的音響信号が存在する区間をより正確に推定する装置、方法、プログラム及びその記録媒体を提供することを目的とする。
本発明によれば、あらかじめ決められたサンプリング周波数でサンプリングされた時系列離散信号である信号を入力とし、その信号を一定区間ごとに切り出す。切り出された信号のパワーを算出する。切り出された信号の基本周波数を推定する。算出されたパワーと推定された基本周波数とに基づいて、算出されたパワーを、周期性成分パワーと非周期性成分パワーとに分離する。分離された周期性成分パワーと非周期性成分パワーとを用いて、切り出された信号に目的信号が含まれるかどうかを判定する。
その際、信号切出手段が用いる窓関数をw(n)とし、切り出された切り出し波形のサンプル点数をLとし、サンプリング周波数をM等分したサンプル点における切り出された波形の周波数スペクトルをX (k)とし、基本周波数推定手段により推定された基本周波数に対応する周波数スペクトルのビンの番号をf0 及びjとし、算出されたパワーをρ とし、M/(2j)の整数部分を表わす関数をv として、下記式により周期性成分パワーρ を求め、パワーρ から周期性成分パワーρ を減算して非周期性成分パワーρ とする。
Figure 0004690973
音響信号を周期性成分と非周期性成分とに分離し、例えば、そのパワー比を取った場合、音声信号や音楽信号のような擬似定常信号が音響信号に含まれる場合と、単に雑音信号だけが含まれる場合とでその取り得る値が異なる。このパワー比は、雑音の強さが時間的に変化した場合でも、類似した雑音区間では同じ値を示す。例えば、このパワー比を、音響特徴として用いることにより、背景雑音の強さや時間的変化に影響されにくく、音声信号や音楽信号が含まれる目的信号区間のより正確な推定が可能となる。
[実施形態]
図1は、信号区間推定装置10の機能構成を例示する図である。図2は、信号区間推定装置10の処理を例示する図である。
信号区間推定装置10は、例えば、信号切出部11、離散フーリエ変換部12、パワー算出部13a、基本周波数推定部14a、パワー分離部20a、判定部22を有する。
パワー分離部20aは、例えば、周期性成分パワー算出部15a、減算部16aを有する。判定部22は、例えば、除算部17、目的信号有無判別部18を有する。目的信号有無判別部18は、例えば、尤度比計算部181、記憶部183、比較部184aを有する。
以下、信号区間推定装置10の各処理を説明する。
<ステップS1>
信号切出部11は、入力された音響信号を一定区間ごとに切り出す。
ここで、信号区間推定装置10の信号切出部11に入力される音響信号は、例えば、8000Hzのサンプリングレートでサンプリングされ、離散信号に変換された音響信号である。この音響信号には、目的信号である音声信号や音楽信号の他に、雑音信号が含まれることがある。
信号切出部11は、例えば、入力される音響信号から時間軸方向に10msずつ移動(シフト)しながら、25msの時間長の信号を、窓関数を乗じることにより切り出す。信号切出部11は、サンプリング周波数が8000Hzの場合、200サンプル点(8000Hz×25ms)の離散信号を80サンプル点(8000Hz×10ms)ずつ移動しながら、例えば、以下のハミング窓w(n)を乗じて切り出す。ここでnは、n番目のサンプル点を表わし、Lは切り出し波形のサンプル点数を表わす。上記の例では、L=2
00である。
Figure 0004690973
図7に、このハミング窓を元の音響信号波形に乗じながら音響波形を切り出す過程を示す。このようにして切り出された音響信号が、信号切出部11から出力される。
<ステップS2>
離散フーリエ変換部12は、信号切出部11の出力である切り出された音響信号に対して離散フーリエ変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する。信号切出部11の時間シフトi番目の出力信号のn番目のサンプルをx(n)とすると、その周波数スペクトルX(k)は以下のようになる。ここで、kはサンプリング周波数をM等分した離散点を表わし、Mには例えば256を用いる。
Figure 0004690973
図8に、切り出された音響信号と離散フーリエ変換後の周波数スペクトルの例を示す。このようにして得られた周波数スペクトルX(k)が、離散フーリエ変換部12から出力される。
<ステップS3>
パワー算出部13aは、切り出された音響信号のパワーを算出する。具体的には、パワー算出部13aは、離散フーリエ変換部12の出力である周波数スペクトルX(k)を用いて、下記の式により、切り出された信号全体のパワーρを計算する。このようにして算出されたパワーが、パワー算出部13aから出力される。
Figure 0004690973
なお、図1に破線で示したパワー算出部13bが、信号切出部11の出力である切り出された音響信号x(n)を用いて、下記の式により、切り出された信号全体のパワーρを直接算出しても良い。
Figure 0004690973
<ステップS4>
基本周波数推定部14aは、切り出された音響信号の基本周波数を推定する。具体的には、基本周波数推定部14aは、離散フーリエ変換部12の出力である周波数スペクトルX(k)と、パワー算出部13a又はパワー算出部13bの出力であるパワーρとを用いて、信号切出部11の出力である切り出された音響信号の時間領域における信号波形の基本周波数を推定する。
基本周波数の推定は、例えば、次式で示すように、音声・音楽の倍音成分のパワーを最大化するような推定方法によって行う(例えば、参考文献1参照。)。f0を推定基本周波数に対応する周波数スペクトルのビンの番号、argmax()をカッコの中身を最大化するjを出力する関数、vを、M/(2j)の整数部分を表わす関数とすると、
Figure 0004690973
によって基本周波数が推定される。前式により推定された基本周波数f0が、基本周波数推定部14aの出力となる。
〔参考文献1〕Nakatani,T and Irino, T., "Robust and accurate fundamental frequency estimation based on dominant harmonic components," Journal of the Acoustical Society of America, Vol.116, p.3690-3700, 2004.
なお、図1に破線で示す基本周波数推定部14bが、周波数スペクトルX(k)の替わりに、信号切出部11の出力であるx(n)を用いて、いわゆる自己相関法(例えば、参考文献2参照。)によって、基本周波数を推定しても良い。自己相関法では、まず自己相関関数を求める。切り出し波形のサンプル点数をL、そのj番目のサンプル点の信号の振幅をx(j)としたときに、自己相関関数の係数c(j)は以下の式によって定まる。
Figure 0004690973
これをj=1,…,Lについて定める。次に、この自己相関関数の係数におけるjの一定の探索範囲内、例えば、16≦j≦160(サンプリング周波数8000Hzの場合の50Hzから500Hzの周期に該当)の範囲内においてc(j)が最大となるjを検出する。その結果得られたjは入力信号の探索範囲において最も支配的な周期性成分の周期長を表わし、入力信号が単一の完全な周期信号(例えば、正弦波)の場合にはその周期長に相当する値になる。このようなjが、基本周波数推定部14bの出力となる。
〔参考文献2〕Quatieri, T. F., "Discrete-time Speech Signal Processing principles and practice," Prentice-Hall, p.504-505, 2002
<ステップS5>
パワー分離部20aは、切り出された音響信号のパワーと、推定された基本周波数とに基づいて、切り出された音響信号のパワーを、周期性成分パワーと非周期性成分パワーとに分離をする。
図3は、ステップS5を構成する各ステップの処理を例示する図である。ステップS5は、例えば、ステップS51,ステップS52の処理で構成される。
≪ステップS51≫
まず、パワー分離部20aの周期性成分パワー算出部15aは、離散フーリエ変換部12の出力である周波数スペクトルX(k)と、パワー算出部13aの出力である切り出された音声信号のパワーρと、基本周波数推定部14a又は基本周波数推定部14bの出力である基本周波数f0とを入力として、切り出された音響信号の周期性成分パワーρ を算出する(ステップS51、図3)。周期性成分パワー算出部15aは、例えば、下記の式に基づいて、切り出された音響信号の周期性成分パワーを算出する。ここで、ρ は周期性成分のパワー、f0は推定基本周波数に対応する周波数スペクトルのビンの番号、vは、M/(2j)の整数部分を表わす関数とする。
Figure 0004690973
このようにして求まった周期性成分パワーが、周期性成分パワー算出部15aの出力となる。
≪ステップS52≫
減算部16aは、パワー算出部13a又はパワー算出部13bの出力であるパワーρから、周期性成分パワー算出部15aの出力である周期性成分パワーp を減算することにより、非周期性成分のパワーp を求める(ステップS52)。すなわち、減算部16aは下記の演算を行う。
ρ =ρ−ρ
前式の演算結果である非周期性成分のパワーρ が減算部16aの出力となる。前式は、周期性成分パワーρ と非周期性成分パワーρ は合算するとρに等しいという性質を利用するものである。
<ステップS6>
図4は、ステップS6の各処理を例示する図である。ステップS6は、例えば、ステップS60〜ステップS65の処理で構成される。判定部22は、ステップS60〜ステップS65の処理を行うことにより、上記分離された周期性成分パワーと非周期性成分パワーとを用いて、上記切り出された音響信号に目的信号が含まれるかどうかを判定する
≪ステップS60≫
まず、判定部22の除算部17が、周期性成分パワー算出部15aの出力である周期性成分のパワーρ と、減算部16aの出力である非周期性成分のパワーρ とのパワー比を求める(ステップS60)。すなわち、除算部17は、次式により、R(a,p)=ρ /ρ とR(p,a)=ρ /ρ の両方又は何れか一方を求める。
Figure 0004690973
パワー比であるR(a,p)及び/又はR(p,a)は、除算部17の出力とされる。
≪ステップS61≫
ステップS61は、図4の破線で示すようにステップS611〜S613の処理から構成される。
判定部22の目的信号有無判別部18は、パワー比であるR(a,p)及び/又はR(p,a)を用いて、切り出された音響信号に目的信号が含まれるどうかを判定する。その判定は、例えば、以下のようにして行う。
まず、Hを目的音がある場合に1、目的音がない場合に0を取る状態を表わす変数とする。パワーρの信号中に目的音が存在しない場合の確率密度関数をp(ρ|H=0)は、この確率分布が平均0、分散αρ に従う正規分布とすると、
Figure 0004690973
として表現される(ステップS611)。上記式において、例えば、αには1を用いる。
また、同様に、パワーρの信号中に目的音が存在する場合の確率密度関数をp(ρ|H=0)は、この確率分布が平均0、分散βρ pに従う正規分布とすると、
Figure 0004690973
と表現することができる(ステップS612)。
判定部22の目的信号有無判別部18の尤度比計算部181は、p(ρ|H=1)を、p(ρ|H=0)で割った、次式で定義される尤度比Λに、
Figure 0004690973
除算部17の出力であるR(a,p)及びR(p,a)を入力することにより、尤度比Λを求める(ステップS613、ステップS61)。
≪ステップS63≫
目的信号有無判別部18の比較部184aは、記憶部183から読み出した閾値Thと、尤度比計算部181の出力である尤度比Λとを比較して、Λ>Thであれば、切り出された音響信号に目的信号が含まれる旨の検出結果を出力する(ステップS63、ステップS64)。反対に、Λ≦Thであれば、切り出された音響信号に目的信号が含まれない旨の検出結果を出力する(ステップS63、ステップS65)。
閾値Thは、本発明の実施者が求める区間検出の精度や用途に応じて、0より大きく10より小さい範囲で自由に設定することができる。雑音を完全に除去したい場合には、閾値Thを高く設定することができる。すなわち、10に近い値に設定することができる。逆に、音声をすべて拾いたい場合には、閾値Thを低く設定することができる。すなわち、0に近い値に設定することができる。特に、閾値Thを0.5程度の値に設定しておくと、目的信号の有無を適切に判定できることが実験的に確認されている。予め定められた閾値Thは、予め記憶部103に格納しておく。
理論上は、Λ>1であれば、H=0である確からしさよりも、H=1である確からしさの方が大きいため、切り出された音響信号に目的信号が含まれると判断することができる。このため、閾値Thは1とすべきであるとも考えられる。しかし、閾値Thをおよそ0〜10の範囲、特に0.5に設定すると、目的信号の有無を正確に判定できることが実験的に確認されている。
また、尤度比Λについての雑音区間での時間平均Λ aveを、閾値Thとして用いても良い。尤度比Λについての雑音区間での時間平均Λ aveは、閾値決定部182が予め計算して、記憶部183に格納しておく。
また、時間平均Λ aveに基づいて定まる値を閾値Thとして用いても良い。例えば、αとβを任意の実数として、Λ ave+αやΛ ave×βを、閾値Thとして用いても良い。αとβは、先に述べたのと同様に、本発明の実施者が求める区間検出の精度や用途に応じて適宜設定することができる。例えば、−尤度比Λの標準偏差≦α≦+尤度比Λの標準偏差、β=0.5〜2とすることができる。Λ ave+αやΛ ave×βの値は、閾値決定部182が予め計算して、記憶部183に格納しておく。
なお、尤度比計算部181と比較部184aは、上記式(1)に替えて、p(ρ|H=0)を、p(ρ|H=1)で割った、次式で定義される尤度比Λ’と、閾値Thとを比較することにより、目的音の有無を判別しても良い。
Figure 0004690973
この場合の閾値Thの値は、上記と同様である。また、Λ’>Thであれば、切り出された音響信号に目的信号が含まれない、Λ’≦Thであれば、切り出された音響信号に目的信号が含まれると判断することができる。
以上が、本実施形態による信号区間推定装置10の概要である。
[変形例1]
なお、図9に示す信号区間推定装置10’のパワー分離部20bの非周期性成分パワー算出部15bが、周波数スペクトルX(k)の替わりに、信号切出部11の出力である音響信号x(n)を用いて、非周期性成分パワーρ を推定しても良い。まず、非周期性成分パワー算出部15bは、基本周波数推定部14a又は基本周波数推定部14bで求まった基本周波数f0を用いて、いわゆるz領域での表現において、
H(z)=1−z−f0i
となる周波数特性を持つ櫛型フィルタを構成する。次に、この櫛型フィルタを信号切出部11の出力である切り出された音響信号x(n)に適用し、櫛型フィルタの周波数特性における零点に相当する部分(基本周波数成分とその整数倍の周波数成分)のパワーが抑制された離散信号を得る。この結果得られた信号のパワーρ が、非周期性成分パワー算出部15bの出力となる(ステップS53、図3)。
減算部16bは、パワー算出部13a又はパワー算出部13bの出力であるパワーρから、非周期性成分パワー算出部15bの出力である非周期性成分パワーρ を減算することにより、周期性成分のパワーρ を求める(ステップS54、図3)。すなわち、減算部16bは下記の演算を行う。
ρ =ρ−ρ
前式の演算結果である非周期性成分のパワーρ が減算部16bの出力となる。
また、非周期性成分パワー算出部15bは、次式により、非周期性成分パワーρ を求めても良い。
Figure 0004690973
この場合には、減算部16bが上記と同様にして、周期性成分のパワーρ を求める。その他の処理は、上記実施形態と同様である。
[変形例2]
上記説明したステップS61,S63(図4)の処理に替えて、目的信号有無判別部18の比較部184bが、図5に示したステップS66の処理を行うことにより、切り出された音響信号に目的信号が含まれているかどうかを判断しても良い。図5は、ステップS6の処理を例示する図である。
具体的には、比較部184bが、減算部17の出力であるR(a,p)と、記憶部183から読み出した閾値Thとの大小関係を比較し(ステップS66)、R(a,p)>Thであれば目的信号が含まれる(ステップS64)、R(a,p)≦Thであれば目的信号が含まれない(ステップS65)と判断し、その判断結果を出力する。
閾値Thは、本発明の実施者が求める区間検出の精度に応じて自由に設定して、記憶部183に格納しておくことができる。すなわち、雑音信号を完全に除去したければ、閾値Thを高く設定することができ、目的信号を完全に拾いたければ、閾値Thを低く設定することができる。
また、閾値Thには、パワー比R(a,p)の雑音区間での時間平均R ave(a,p)を設定することができる。閾値決定部182は、R(a,p)の雑音区間での時間平均R ave(a,p)、を予め計算して、記憶部183に格納しておく。
また、時間平均R ave(a,p)に基づいて定まる値を閾値Thとして用いても良い。例えば、αとβを任意の実数として、R ave(a,p)+αやR ave(a,p)×βを、閾値Thとして用いても良い。αとβは、先に述べたのと同様に、本発明の実施者が求める区間検出の精度や用途に応じて適宜設定することができる。例えば、−R ave(a,p)の標準偏差≦α≦R ave(a,p)の標準偏差、β=0.5〜2とすることができる。R ave(a,p)+αやR ave(a,p)×βの値は、閾値決定部182が予め計算して、記憶部183に格納しておく。
[変形例3]
上記説明したステップS61,S63(図4)の処理に替えて、目的信号有無判別部18の比較部184cが、図6に示したステップS69の処理を行うことにより、切り出された音響信号に目的信号が含まれているかどうかを判断しても良い。図6は、ステップS6の処理を例示する図である。
具体的には、比較部184cが、減算部17の出力であるR(p,a)と、記憶部183から読み出した閾値Thとの大小関係を比較し(ステップS69)、R(p,a)>Thであれば目的信号が含まれない(ステップS65)、R(p,a)≦Thであれば目的信号が含まれる(ステップS64)と判断し、その判断結果を出力する。
閾値Thは、本発明の実施者が求める区間検出の精度に応じて自由に設定して、記憶部183に格納しておくことができる。すなわち、雑音信号を完全に除去したければ、閾値Thを高く設定することができ、目的信号を完全に拾いたければ、閾値Thを低く設定することができる。
また、閾値Thには、パワー比R(p,a)の雑音区間での時間平均R ave(p,a)を設定することができる。閾値決定部182は、R(p,a)の雑音区間での時間平均R ave(p,a)を予め計算して、記憶部183に格納しておく。
また、時間平均R ave(p,a)に基づいて定まる値を閾値Thとして用いても良い。例えば、αとβを任意の実数として、R ave(p,a)+αやR ave(p,a)×βを、閾値Thとして用いても良い。αとβは、先に述べたのと同様に、本発明の実施者が求める区間検出の精度や用途に応じて適宜設定することができる。例えば、−R ave(p,a)の標準偏差≦α≦R ave(p,a)の標準偏差、β=0.5〜2とすることができる。R ave(p,a)+αやR ave(p,a)×βの値は、閾値決定部182が予め計算して、記憶部183に格納しておく。
[変形例4]
また、周期性成分パワーρ 、非周期性成分パワーρ 、これら比であるR(p,a)とR(a,p)、及び、尤度比Λについて、サポートベクターマシン(例えば、参考文献3参照。)や隠れマルコフモデル(HMM)(例えば、参考文献4参照。)などのパターン識別方法を用いて音響特徴の学習及び判定を行っても良い。
〔参考文献3〕津田宏治,「サポートベクターマシンとは何か」,電子情報通信学会誌,p.460〜466,2000
〔参考文献4〕北研二,中村哲,永田昌明,「音声言語処理」,森北出版株式会社,p.57〜90,1996
具体的には、事前に学習用として、音声/非音声区間が既知の音響データを用意し、このデータに対してΛの値を求め、音声/非音声のクラスとΛの値を対応付ける。これを、HMMやサポートベクターマシンのようなパターン識別方法で学習しておき、識別関数のパラメータを求めておく。このパラメータを用いて、区間検出の対象となる音響信号についての識別スコアを計算し、そのスコアから、その音響信号が目的信号を含むかどうかを検証する。
[変形例5]
なお、fとgを所定の関数とし、周期性成分パワーρ と非周期性成分パワーρ をそれぞれfとgで補正を加えたf(ρ )とg(ρ )を、ρ とρ の替わりに用いても良い。例えば、{f(x)=logx,g(x)=logx}とすることや、{f(x)=x+c,g(x)=x+d}とすることができる。ここで、cとdは、環境を考慮した定数であり、本発明の実施者が適宜設定することができる定数である。
この補正は、周期性成分パワー算出部15a,15bと、減算部16a,16b内の補正部25が行う。補正部25は、周期性成分パワーρ と非周期性成分パワーρ 替えて、補正周期性成分パワーf(ρ )と補正非周期性成分パワーg(ρ )を出力する。信号区間推定装置10の各部は、f(ρ )とg(ρ )について、ρ とρ についてした処理と同様の処理を行う。
このように、判定部は、周期性成分パワーρ と非周期性成分パワーρ のパワー比ではなく、一般に、上記分離された周期性成分パワーと非周期性成分パワーとを用いて、上記切り出された音響信号に目的信号が含まれるかどうかを判定することができる。
[変形例6]
本発明は、音響信号に限らず、無線信号や生体信号以外の信号に用いることができる。すなわち、例えば無線信号が目的信号と目的外信号とを含む場合において、その目的信号が強い周期性成分を持つ場合には、本発明を用いることにより、目的信号が含まれる区間を推定することができる。
[その他の変形例]
信号区間推定装置の処理機能をコンピュータによって実現することができる。この場合、信号区間推定装置の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図10に示すようなコンピュータで実行することにより、例えば、図1に示す信号区間推定装置10の各処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、信号区間推定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響信号区間推定方法、装置、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
[実験例]
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を本発明の音響信号区間推定方法によって分析し、得られた音響特徴(尤度比)を用いて音声信号区間を検出する実験例を示す。使用した音響信号データは「(社)情報処理学会音声言語情報処理研究会雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)」に含まれる、女性1名によって発声された数字読み上げ音声に鉄道の駅騒音を信号対雑音比0dBで加算した信号で、サンプリング周波数8kHz、量子化ビット数16ビットで離散サンプリングされたものを用いた。図11の51に雑音信号の含まれない音声信号、52に雑音信号の加算された音声信号を示す。52に示される音響信号を非特許文献2の40〜43頁に記載された従来技術により分析し、その結果得られる音響特徴のうち、全帯域エネルギーを53に、低帯域エネルギーを54に、周波数スペクトル分散を55に示し、それから求まる区間検出結果を56に示す。図示の通り、従来の音響特徴は雑音の影響を受け、特に52に丸印で示されているような突発性の雑音(この場合列車の走行音)がある場合には十分な性能が得られない。
52に示される音響信号に対し、本発明による音響信号分析方法を、1フレームの時間長を25ms(200サンプル点)とし、10ms(80サンプル点)ごとにフレームの始点を移動させ、各フレームで推定された周期性成分パワーおよび非周期性成分パワーの比に基づいた尤度比を算出した。得られた尤度比を57に示す。図示のように、本発明による音響信号分析方法により出力される音響特徴(尤度比)が、音声信号の存在する区間では高い値を示し、それ以外の区間では小さい値を示すことがわかる。特に従来技術で影響を受けやすかった突発性雑音の部分での影響が従来技術よりも小さいことがわかる。この音響特徴(尤度比)を用い、閾値を0.5に設定して音声信号区間検出を行った。結果を58に示す。図示の通り、本発明の手法が突発性雑音のある雑音環境下でも目的信号となる音声信号の存在区間推定に有効であることがわかる。
信号区間推定装置10の機能構成を例示した図。 信号区間推定装置10の処理を例示した図。 ステップS5を構成する各ステップの処理を例示した図。 ステップS6を構成する各ステップの処理を例示した図。 ステップS6を構成する各ステップの処理を例示した図。 ステップS6を構成する各ステップの処理を例示した図。 ハミング窓を音響信号波形に乗じながら音響波形を切り出す過程を示す図 離散フーリエ変換の処理を例示する図。 信号区間推定装置10’の機能構成を例示した図。 本発明による音響信号区間推定の実験例及び従来技術との比較を表わした図。 信号区間推定装置10をコンピュータで実施するときの機能構成を例示した図。

Claims (12)

  1. あらかじめ決められたサンプリング周波数でサンプリングされた時系列離散信号である信号を入力とし、その信号を一定区間ごとに切り出す信号切出手段と、
    上記切り出された信号のパワーを算出するパワー算出手段と、
    上記切り出された信号の基本周波数を推定する基本周波数推定手段と、
    上記算出されたパワーと上記推定された基本周波数とに基づいて、上記算出されたパワーを、周期性成分パワーと非周期性成分パワーとに分離するパワー分離手段と、
    上記分離された周期性成分パワーと非周期性成分パワーとを用いて、上記切り出された信号に目的信号が含まれるかどうかを判定する判定手段と、
    を有し、
    上記信号切出手段が用いる窓関数をw(n)とし、上記信号切出手段により切り出された切り出し波形のサンプル点数をLとし、サンプリング周波数をM等分したサンプル点における上記切り出された波形の周波数スペクトルをX (k)とし、上記基本周波数推定手段により推定された基本周波数に対応する周波数スペクトルのビンの番号をf0 及びjとし、上記パワー算出手段により算出されたパワーをρ とし、M/(2j)の整数部分を表わす関数をv とし、
    上記パワー分離手段は、下記式により上記周期性成分パワーρ を求め、上記パワーρ から上記周期性成分パワーρ を減算して上記非周期性成分パワーρ とする、
    Figure 0004690973
    信号区間推定装置。
  2. 請求項1に記載の信号区間推定装置であって、
    上記判定手段は、
    上記分離された周期性成分パワーと非周期性成分パワーとのパワー比を求める除算手段と、
    上記求まったパワー比を用いて、上記切り出された信号に目的信号が含まれるかどうかを判定する目的信号有無判別手段と、
    から構成される
    ことを特徴とする信号区間推定装置。
  3. 請求項2に記載の信号区間推定装置であって、
    上記目的信号有無判別手段は、パワーρiの信号中に目的信号が存在する場合の確率密
    度関数をパワーρiの信号中に目的信号が存在しない場合の確率密度関数で割った関数、
    又は、パワーρiの信号中に目的信号が存在しない場合の確率密度関数をパワーρiの信号中に目的信号が存在する場合の確率密度関数で割った関数に、上記算出された信号のパワーと上記求まったパワー比を入力した値と、所定の閾値との大小関係を比較することにより、上記切り出された信号に目的信号が含まれるかどうかを判定する手段である、
    ことを特徴とする信号区間推定装置。
  4. 請求項3に記載の信号区間推定装置であって、
    上記所定の閾値は、0より大きく10より小さい値である、
    ことを特徴とする信号区間推定装置。
  5. 請求項2に記載の信号区間推定装置であって、
    上記目的信号有無判別手段は、上記パワー比と、所定の閾値の大小関係を比較することにより、上記切り出された信号に目的信号が含まれるかどうかを判定する手段である、
    ことを特徴とする信号区間推定装置。
  6. 請求項3又は5に記載の信号区間推定装置であって、
    上記所定の閾値は、上記入力した値の平均値又は上記パワー比の平均値又はこれらの平均値に基づいて決まる値である、
    ことを特徴とする信号区間推定装置。
  7. 信号切出手段が、あらかじめ決められたサンプリング周波数でサンプリングされた時系列離散信号である信号を入力とし、その信号を一定区間ごとに切り出す信号切出ステップと、
    パワー算出手段が、上記切り出された信号のパワーを算出するパワー算出手段と、
    基本周波数推定手段が、上記切り出された信号の基本周波数を推定する基本周波数推定ステップと、
    パワー分離手段が、上記算出されたパワーと上記推定された基本周波数とに基づいて、上記算出されたパワーを、周期性成分パワーと非周期性成分パワーとに分離するパワー分離ステップと、
    判定手段が、上記分離された周期性成分パワーと非周期性成分パワーとを用いて、上記切り出された信号に目的信号が含まれるかどうかを判定する判定ステップと、
    を有し、
    上記信号切出手段が用いる窓関数をw(n)とし、上記信号切出ステップにより切り出された切り出し波形のサンプル点数をLとし、サンプリング周波数をM等分したサンプル点における上記切り出された波形の周波数スペクトルをX (k)とし、上記基本周波数推定ステップにより推定された基本周波数に対応する周波数スペクトルのビンの番号をf0 及びjとし、上記パワー算出手段により算出されたパワーをρ とし、M/(2j)の整数部分を表わす関数をv とし、
    上記パワー分離ステップは、下記式により上記周期性成分パワーρ を求め、上記パワーρ から上記周期性成分パワーρ を減算して上記非周期性成分パワーρ とする、
    Figure 0004690973
    信号区間推定方法。
  8. 請求項7に記載の信号区間推定方法であって、
    上記判定ステップは、
    除算手段が、上記分離された周期性成分パワーと非周期性成分パワーとのパワー比を求める除算ステップと、
    目的信号有無判別手段が、上記求まったパワー比を用いて、上記切り出された信号に目的信号が含まれるかどうかを判定する目的信号有無判別ステップと、
    から構成される
    ことを特徴とする信号区間推定方法。
  9. 請求項8に記載の信号区間推定方法であって、
    上記目的信号有無判別ステップは、パワーρiの信号中に目的信号が存在する場合の確
    率密度関数をパワーρiの信号中に目的信号が存在しない場合の確率密度関数で割った関
    数、又は、パワーρiの信号中に目的信号が存在しない場合の確率密度関数をパワーρiの信号中に目的信号が存在する場合の確率密度関数で割った関数に、上記算出された信号のパワーと上記求まったパワー比を入力した値と、所定の閾値との大小関係を比較することにより、上記切り出された信号に目的信号が含まれるかどうかを判定するステップである、
    ことを特徴とする信号区間推定方法。
  10. 請求項8に記載の信号区間推定方法であって、
    上記目的信号有無判別ステップは、上記パワー比と、所定の閾値の大小関係を比較することにより、上記切り出された信号に目的信号が含まれるかどうかを判定するステップである、
    ことを特徴とする信号区間推定方法。
  11. 請求項1から6の何れかに記載の信号区間推定装置の各手段としてコンピュータを機能させるための信号区間推定プログラム。
  12. 請求項11記載の信号区間推定プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006239796A 2006-09-05 2006-09-05 信号区間推定装置、方法、プログラム及びその記録媒体 Active JP4690973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006239796A JP4690973B2 (ja) 2006-09-05 2006-09-05 信号区間推定装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006239796A JP4690973B2 (ja) 2006-09-05 2006-09-05 信号区間推定装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008064821A JP2008064821A (ja) 2008-03-21
JP4690973B2 true JP4690973B2 (ja) 2011-06-01

Family

ID=39287619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006239796A Active JP4690973B2 (ja) 2006-09-05 2006-09-05 信号区間推定装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4690973B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5231139B2 (ja) * 2008-08-27 2013-07-10 株式会社日立製作所 音源抽出装置
JP6436088B2 (ja) * 2013-10-22 2018-12-12 日本電気株式会社 音声検出装置、音声検出方法及びプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03236100A (ja) * 1990-02-14 1991-10-22 Toshiba Corp 音声検出方式
JPH10207491A (ja) * 1997-01-23 1998-08-07 Toshiba Corp 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2006171008A (ja) * 2001-09-28 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 基本周波数抽出装置、その方法、そのプログラム並びにそのプログラムを記録した記録媒体
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03236100A (ja) * 1990-02-14 1991-10-22 Toshiba Corp 音声検出方式
JPH10207491A (ja) * 1997-01-23 1998-08-07 Toshiba Corp 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2006171008A (ja) * 2001-09-28 2006-06-29 Nippon Telegr & Teleph Corp <Ntt> 基本周波数抽出装置、その方法、そのプログラム並びにそのプログラムを記録した記録媒体
JP2004125944A (ja) * 2002-09-30 2004-04-22 Sony Corp 情報識別装置及び方法、並びにプログラム及び記録媒体
JP2006113298A (ja) * 2004-10-14 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006215228A (ja) * 2005-02-03 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2007156337A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム

Also Published As

Publication number Publication date
JP2008064821A (ja) 2008-03-21

Similar Documents

Publication Publication Date Title
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US7925502B2 (en) Pitch model for noise estimation
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5949553B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US7120580B2 (en) Method and apparatus for recognizing speech in a noisy environment
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
Ishizuka et al. Study of noise robust voice activity detection based on periodic component to aperiodic component ratio.
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP4690973B2 (ja) 信号区間推定装置、方法、プログラム及びその記録媒体
JP4630183B2 (ja) 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
JP4685735B2 (ja) 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP4576612B2 (ja) 音声認識方法および音声認識装置
Siddiq et al. Intonational speaker verification: a study on parameters and performance under noisy conditions
Das et al. Spectral Envelope Statistics for Source Modeling in Speech Enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110208

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110218

R150 Certificate of patent or registration of utility model

Ref document number: 4690973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140225

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350