JP3916834B2 - Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise - Google Patents

Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise Download PDF

Info

Publication number
JP3916834B2
JP3916834B2 JP2000059853A JP2000059853A JP3916834B2 JP 3916834 B2 JP3916834 B2 JP 3916834B2 JP 2000059853 A JP2000059853 A JP 2000059853A JP 2000059853 A JP2000059853 A JP 2000059853A JP 3916834 B2 JP3916834 B2 JP 3916834B2
Authority
JP
Japan
Prior art keywords
noise
fundamental frequency
fundamental
sound
period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000059853A
Other languages
Japanese (ja)
Other versions
JP2001249676A (en
Inventor
正人 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2000059853A priority Critical patent/JP3916834B2/en
Publication of JP2001249676A publication Critical patent/JP2001249676A/en
Application granted granted Critical
Publication of JP3916834B2 publication Critical patent/JP3916834B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a method for extracting a fundamental period or a fundamental frequency of a periodical waveform with added noise, that is noise-resistant and moreover permits to extract the precise fundamental period or the fundamental frequency. SOLUTION: Target sound with suppressed noise is obtained by observing mixed sound x(t) in which target sound of a harmonic structure and noise are mixed at a sole sound receiving source, roughly estimating a fundamental frequency of the target sound s(t) from the observed mixed sound x(t) by using a fundamental frequency estimation method through a comb line filter resistant to the noise n(t), extracting estimated noise through a band-width variable comb line filter made to match with the estimated fundamental frequency, suppressing the estimated noise by subtracting the estimated noise from the original mixed sound, estimating a highly accurate fundamental frequency by using a fundamental frequency estimation method on the basis of an instantaneous frequency to the signal suppressed in the noise, and estimating and removing the noise through the band-width variable comb line filter using this highly accurate fundamental frequency.

Description

【0001】
【発明の属する技術分野】
本発明は、雑音(妨害音)が含まれた波形からの基本周波数あるいは基本周期の抽出を行う基本周期あるいは基本周波数の抽出方法に関するものである。
【0002】
【従来の技術】
音声は人間が用いるコミュニケーション手段のなかで基本的かつ効果的なものである。そのため、ディジタル信号処理の発展に伴い、音声の特徴情報を抽出することによる音声符号化、音声分析合成、音声合成、音声認識、話者認識等の研究が幅広く行われてきている。また、信号処理技術の応用としてディジタル補聴器のような製品も開発されており、人間−機械のコミュニケーションシステムの実現へ向けて期待が寄せられている。
【0003】
(1)時間情報を用いた雑音抑圧
複数の音や雑音がある環境で特定の音源から生成される音を聞き分けることは人間には容易なことである。「カクテルパーティ効果」と呼ばれる聴覚のこの機能を工学的に実現することができれば、音声認識を様々な環境で安定して動作させるために極めて有効であるし、補聴器等の前処理に用いることで雑音による会話理解の妨害を防ぐことが可能となる。
【0004】
複数の音の中から目的の音を取り出す音源分離(雑音抑圧)の研究は古くから行なわれているが、それらは受音源の数で2種類に分けられる。1つは受音源の数を複数にすることで音源の位置情報を利用して音を取り出すというものである。受音源としてマイクロホンアレーを使い、受音の指向性を鋭くすることで特定の位置にある音源からの音のみを受音する方法や、音の到来方向時間差から雑音スペクトルサブトラクションによって目的の音を得る方法等がある。もう1つは受音源の数を1つのみとして受音した音から何らかの制約条件を用い目的音や雑音を推定するというものである。これには、CookeやBrownのガンマトーンフィルタバンクを用いた音響事象に基づいたモデルやEllisの蝸牛殻フィルタバンクを用いた心理音響学的グルーピングの規則に基づいたモデル、中谷らのマルチエージェントシステムによる音響ストリーム分離モデル等がある。
【0005】
しかし、これらの手法には、それぞれ問題点がある。ある程度の広さのマイクロホン間隔をとらなければならないため、受音源が複数ある方法が補聴器への応用に適しているとは言えない。また、受音源が単一の手法は上述のものを含めてほとんどが振幅(あるいはパワー)スペクトルを用いているために、音本来の情報である基本周期や位相等の時間情報の多くが潰されてしまい利用されない。
【0006】
時間情報を用いた研究としては、de Cheveigneが調波構造を持つ混合音の基本周期を推定するキャンセレーションモデルを提案している。このモデルは1つの音の基本周期を推定し、基本周期に合わせた遅延回路によってその音を混合音から除去することで残った信号の基本周期を推定している。この遅延線と抑制性シナプスからなる遅延回路は猫や豚等多くの動物の神経回路にも存在することが報告されている。しかし、de Cheveigneは図18に示すような神経回路の処理の定式化を考慮しており、分離を行なっているのは聴神経線維によるスパイク列である。工学的には櫛形フィルタによる基本周期推定の提案に留まっており、音声波形の分離の可能性を示唆しているものの波形レベルでの分離は行なっていない。
【0007】
(2)雑音環境における基本周波数推定
有声/無声判定や音量等とともに基本周波数は音源情報のひとつであり、音声の符号化伝送上の役割は大きい。音声の認識や理解、話者識別、音声分析合成などには声道情報と音源情報の処理が必要であるが、基本周波数は韻律性だけでなく実際は音韻情報を担うスペクトルパラメータとも相関があるので、音韻認識にも効果的に利用することができる。また、聴覚の情景解析に関する研究では、基本周波数が重畳する音を別々の音の流れであると認識するための手掛りの一つであるとしている。
【0008】
このように基本周波数は音声の信号処理上重要であるため、基本周波数推定は音声分析の研究が始まって以来の研究課題であり、これまでにも様々な方法が提案されている。代表的なものとして、音声波形の自己相関による方法、LPC分析の残差信号の自己相関による方法、パワースペクトルの対数の逆フーリエ変換によりスペクトル包絡と微細構造を分離して微細構造から基本周波数を求める方法、平均振幅差関数(AMDF)によって周期性を検出する方法等がある。
【0009】
しかし、音声が完全に周期的な波でなく準周期的であることや状況に応じて雑音が含まれるために基本周波数の抽出誤差が生まれる等の問題があるため、まだ決定的な方法は確立していない。
【0010】
短時間フーリエ変換の瞬時周波数には音源情報が含まれていることに着目し、河原らはフィルタの中心周波数からフィルタ出力の瞬時周波数への写像の不動点を用いて基本周波数を抽出する方法を提案している。河原らのこの基本周波数抽出法(TEMPO2)はクリーンな音声から高精度の基本周波数を得ることができる。しかし、雑音のある環境においては推定精度が低下するという問題がある。
【0011】
雑音に強い基本周波数推定法として、鵜木は瞬時振幅に対して通過量が最大となるような周波数軸上の櫛形フィルタによる方法を提案している。この鵜木の櫛形フィルタによる基本周波数推定法は、信号対雑音比が0dB程度の雑音が付加された音声に対しても基本周波数を推定することができるが、クリーンな音声に対してはTEMPO2よりも推定精度の点で劣る。
【0012】
【発明が解決しようとする課題】
上記したように、音声認識は一部実用化されているものの、雑音が存在しない環境において使用することを前提とした認識アルゴリズムによる研究がほとんどである。そのため、雑音のない環境で発声した音声に対する音声認識システムの認識精度が95%であるのに対し、18dBの信号対雑音比下で発声した音声では誤り率が一桁大きくなると報告されている。また、雑音が定常的であれば雑音が付加された音声から参照パターンを作成することにより、雑音による認識精度の低下は非常に小さくできるが、突発的な雑音には対処できない。さらに、実環境では参照パターンの学習時とテスト時の条件が同一であることは滅多にないため、雑音環境においても頑健な性能の音声認識システムはまだ実用化されていない。
【0013】
音声信号処理のなかで実用化されている一つとしてディジタル補聴器が挙げられる。ディジタル補聴器では補聴器の調整及び音響処理をディジタル信号処理で行なっている。補聴器は難聴者が聴きたい会話音を難聴者の聴きやすい範囲に増幅するために使用されるが、外界からの音をそのまま増幅したのでは雑音も増幅してしまうことになり、騒音により補聴器使用者にうるさい感覚を引き起こし、また、騒音が語音を遮蔽してしまうため会話理解を妨害する。これは、ノンリニア増幅により周波数帯域ごとに利得を変えることで対処できるが、環境によって利得調整を行なう必要がある。
【0014】
このように雑音環境における音声信号処理では、雑音を抑圧し音声波形や音声の特徴を抽出することが重要となる。
【0015】
本発明は、上記状況に鑑みて、雑音には強いが基本周期推定の精度が劣る方法から得られた基本周波数をもとに、通過域可変櫛形フィルタを用いた妨害音抑圧手法を組み合わせて妨害音を低減し、その後、雑音には弱いが高精度で抽出可能な方法を適用することにより、雑音に強くしかも高精度な基本周期あるいは基本周波数を抽出できる雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法を提供することを目的とする。
【0016】
また、本発明は、有声音のように調波構造を持つ波形を対象として、雑音環境における頑健で高精度な基本周波数推定法及び雑音抑圧アルゴリズムを構築する。
【0017】
【課題を解決するための手段】
本発明は、上記目的を達成するために、
〔1〕雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、(a)調波構造をもつ目的音と雑音が混ざり合った混合音を、ただ一つの受音源で観測し、雑音に強い櫛型フィルタによる基本周波数推定法を用いて、観測された混合音から目的音の基本周波数を大まかに推定し、(b)推定された基本周波数に合わせた帯域幅可変櫛形フィルタによって推定雑音を抽出し、推定雑音を元の混合音から引き去ることにより雑音の抑圧を行い、(c)雑音を抑圧した信号に対して、瞬時周波数を基にした基本周波数推定法を用い、高精度の基本周波数を推定し、(d)この高精度の基本周波数を用いた帯域幅可変櫛形フィルタで雑音を推定し除去し、雑音を抑圧した目的音を得ることを特徴とする。
【0018】
〔2〕上記〔1〕記載の雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、前記工程(c)において、前記基本周波数を一定にするような波形伸縮を行なうことにより、雑音抑圧時の誤差を低減させることを特徴とする。
【0019】
〔3〕雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、(a)雑音に強い櫛型フィルタによる基本周波数推定法を用いて、観測された混合音から音声の基本周波数を大まかに推定し、(b)前記基本周波数を基にした帯域幅可変櫛形フィルタを用い雑音を抑圧し、(c)雑音が抑圧された音声に対して、雑音に弱いが高精度の基本周波数抽出法であるTEMPO2を用いることにより、雑音中の音声から高精度の基本周波数を推定することを特徴とする。
【0020】
〔4〕上記〔3〕記載の雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、前記工程(b)において、前記帯域幅可変櫛形フィルタのパラメータを調節して通過帯域幅を制御することにより周期波形の調波成分を抑圧しないようにすることを特徴とする。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態について詳細に説明する。
【0022】
(雑音抑圧アルゴリズムの概要)
(1)まず、本発明に係る雑音抑圧アルゴリズムについて概説する。
【0023】
図1は本発明に係る雑音抑圧アルゴリズムの処理フローチャートである。
【0024】
この図において、調波構造をもつ目的音s(t)と雑音n(t)が混ざり合った混合音x(t)が、ただ一つの受音源で観測される。
【0025】
基本周波数推定部1において、
▲1▼まず、雑音に強い櫛型フィルタによる基本周波数推定法〔電子情報通信学会論文誌(A),vol.J82−A,No.10,pp.1497−1507,1999参照〕を用いて、観測された混合音x(t)から目的音の基本周波数を大まかに推定(F*0)(F0の上に ̄が付く)する(ステップS1)。
【0026】
▲2▼次に、推定された基本周波数に合わせた帯域幅可変櫛形フィルタによって推定雑音を抽出し、推定雑音を元の混合音から引き去ることにより雑音の抑圧を行なう(ステップS2〜ステップS4)。
【0027】
このとき、基本周波数を一定にするような波形伸縮を行なうことにより、雑音抑圧時の誤差を低減させる。
【0028】
▲3▼雑音を抑圧した信号s′*(t)(sの上に^が付く)に対して、瞬時周波数を基にした基本周波数推定法〔電子情報通信学会技術報告、SP99−40,July 1999参照〕を用いる(ステップS5)。
【0029】
上記の操作によって高精度の基本周波数F0が推定できる。
【0030】
また、さらに次の雑音抑圧部2において、
▲4▼この高精度のF0を用いた帯域幅可変櫛形フィルタで雑音を推定し除去することで、雑音抑圧した目的音s*(t)(sの上に〜が付く)を得ることができる(ステップS7)。
【0031】
(2)帯域幅可変櫛形フィルタによる雑音抑圧部については詳しく後述する。
【0032】
帯域幅可変櫛形フィルタによる雑音抑圧
(2−1)基本周期を用いた雑音推定の定式化
目的音s(t)を基本周期T(t)の調波複合音とすれば、雑音n(t)として、混合音x(t)は、
【0033】
【数1】

Figure 0003916834
【0034】
と表される。T(t)を一定値T(=2π/ω0 )と仮定し、上記式(1)を、±Tだけ時間軸でずらして混合音から引き去る信号g(t)を計算すれば、
【0035】
【数2】
Figure 0003916834
【0036】
となる。n(t)のフーリエ変換をN(ωk )とすれば、g(t)のフーリエ変換G(ωk )は、
G(ωk )=N(ωk )sin2 〔ωk /ω0 (t)〕・π …(3)
となる。よって、雑音スペクトルN(ωk )は、
N(ωk )=G(ωk )/[sin2 〔ωk /ω0 (t)〕・π] …(4)
となる。N(ωk )を逆フーリエ変換した雑音n(t)を、元の混合音から引き去ることにより雑音が除去され、目的音s(t)が推定できる。
【0037】
しかし、このままでは、
▲1▼ωk /ω0 が整数のとき、上記式(4)の雑音スペクトルN(ωk )が無限大となる
▲2▼実音声では時間的に変動する基本周期T(t)を上記式(2)において一定と仮定しているため、推定される雑音に誤差が生じる
という問題がある。
【0038】
そこで、これらの問題点について次のような対策を試みる。
【0039】
(2−2)雑音スペクトルの推定
上記式(4)では、ωk /ω0 (t)=整数のときに、雑音スペクトルN(ωk )が無限大になってしまう。
【0040】
そこで、実際の使用にはある値εを設定し、
【0041】
【数3】
Figure 0003916834
【0042】
とする。
【0043】
混合音を入力、目的音を出力とし基本周期5ms(基本周波数200Hz)に合わせたシステムの振幅特性を図2に示す。なお、図2(a)は通常の櫛形フィルタの場合、図2(b)はε=0.2の場合、図2(c)はε=0.5の場合、図2(d)はε=0.8の場合をそれぞれを示している。
【0044】
通常の櫛形フィルタの場合は通過帯域が非常に狭くなるが、本発明で用いる方法ではεが小さければ通過帯域が狭く、εが大きければ通過帯域が広くなる。すなわち、パラメータεの値によって通過帯域幅が制御できる櫛形フィルタとなっている。
【0045】
(2−3)基本周期一定のための波形伸縮
上記(2−1)節では基本周期Tを一定と仮定して計算を行なっているが、実音声では基本周期は時間的に変動する。そのため、このままでは実音声に対して推定雑音n*(t)(nの上に〜が付く)に誤差が生じてしまう。
【0046】
そこで、図3に示すような基本周期を一定とするための音声波形の時間軸での伸縮を行なう。音声波形はあるサンプリング周波数1/Ts [Hz]でサンプリングされているものとして、波形伸縮処理の流れを以下に示す。
【0047】
▲1▼ 音声の基本周期T(t)を求める。
【0048】
▲2▼ あるサンプリング点nにおける基本周期T[n]と音声全体の平均基本周期Tave との比Tave /T[n]を求める。
【0049】
▲3▼ Tave /T[n]によってそのサンプリング点とひとつ前のサンプリング点の時間間隔T′s [n]を
【0050】
【数4】
Figure 0003916834
【0051】
とする。これにより時間軸での波形の伸縮が起こる。
【0052】
▲4▼伸縮した波形に対して、新たにサンプリング間隔Ts 毎に値を持つよう線形補間を行なう。
【0053】
図4に表わす音声波形に上記の波形伸縮操作を行なったものを図5に示す。ここで、図4(a)は波形伸縮前の音声波形、図4(b)は基本周波数、図5(a)は波形伸縮後の音声波形、図5(b)は基本周波数を示している。
【0054】
これらの図から、波形伸縮操作によって音声の基本周波数がほぼ一定となっていることが分かる。
【0055】
雑音抑圧後の音声に対しては、先に施した波形伸縮操作と逆の操作を行なうことにより、元の基本周波数を持つ音声を戻すことができる。
【0056】
(2−4)雑音抑圧アルゴリズムの評価
本雑音抑圧アルゴリズムがどの程度雑音を抑圧できるか評価するために、評価実験を行なう。
【0057】
評価に利用する音声として、ATR音声データベースセットにある男性話者mhtと女性話者fsuの単母音(/a//i//u//e//o/)を用いる。また、雑音として白色雑音と60〜6000Hzに帯域制限されたピンク帯域雑音を利用する。SNRは0dBから20dBまで5dB刻みで変化させる。
【0058】
雑音抑圧の例を図6に示す。図6(a)に示すようなfsuの単母音/a/にSNRが5dBの白色雑音を付加すると、図6(b)に示すような混合音となる。図6(c)に示す基本周波数を用いて雑音抑圧を行なうと、図6(d)に示すように混合音からSNRが11.2dBの音声が抽出できる。
【0059】
基本周波数はクリーンな音声から瞬時周波数を基にした基本周波数抽出法〔電子情報通信学会技術報告、SP99−40,July 1999参照〕によって予め得ているものとする。フレーム長1024point、フレーム周期256point、帯域幅可変櫛形フィルタのパラメータε=0.5とした。
【0060】
評価尺度として音声全体の信号対雑音比(SNR)、スペクトル歪み尺度(SD)、聴覚特性を考慮した歪み評価尺度(ASD)〔水町光徳、赤木正人,ASD,1999参照〕を用いて雑音抑圧前後の比較を行なった結果、それぞれの値の平均と標準偏差として図7〜図12を得た。
【0061】
ここで、図7は雑音抑圧アルゴリズムのSNRによる評価(白色雑音)、図8は雑音抑圧アルゴリズムのSNRによる評価(ピンク帯域雑音)、図9は雑音抑圧アルゴリズムのSDによる評価(白色雑音)、図10は雑音抑圧アルゴリズムのSDによる評価(ピンク帯域雑音)、図11は雑音抑圧アルゴリズムのASDによる評価(白色雑音)、図12は雑音抑圧アルゴリズムのASDによる評価(ピンク帯域雑音)をそれぞれ示す図である。
【0062】
図7、図8から、雑音が大きい場合、雑音抑圧前に比べてSNRが5〜7dB程度向上することが分かる。
【0063】
雑音が小さい場合、SNRは雑音抑圧前よりも低下するという結果がみられた。これは、帯域幅可変櫛形フィルタによって雑音と共に目的音の成分の一部も除去してしまうため、雑音が小さいときは除去する雑音成分よりも多く目的音の成分を除去してしまうことが原因である。今回の評価実験ではεの値を一定としたが、音声によってεの値を変えて最適な通過帯域を選ぶことである程度改善できる。
【0064】
また、SNRが雑音抑圧前よりも低下していても、聴感上は、音色はやや変わって聴こえるものの雑音感は減少している。これは、聴覚特性を考慮した評価尺度であるASD(図11)ではSNRが20dBでも雑音抑圧後の目的音の精度が向上していることと対応している。
【0065】
また、図10、図12に示すように、雑音が小さなピンク帯域雑音であるとき、SD、ASDでも抽出精度は低下している。これは、ピンク帯域雑音では周波数の低域パワーが強いため、高域では雑音除去量よりも目的音の除去量が多くなることに加え、帯域幅可変櫛形フィルタでは目的音の基本周波数や高調波と同じ周波数帯域の雑音が除去できずに残ることによると考えられる。
【0066】
(3)帯域幅可変櫛形フィルタを用いる基本周波数推定法
雑音が小さい環境ではTEMPO2によって高精度の基本周波数を推定できる。雑音が大きい環境では櫛型フィルタによる方法が頑健性を示した。そこで、本発明では上記(2)で述べた雑音抑圧アルゴリズムを用いて、雑音環境において頑健で高精度な基本周波数推定法を作成する。本発明の方法のアルゴリズムは、図13のようにTEMPO2と櫛型フィルタによる方法の2種類の基本周波数推定法と帯域幅可変櫛形フィルタから構成される。
【0067】
本方法の基本周波数推定の手順を以下に述べる。
【0068】
本方法は雑音抑圧部12を有する基本周波数推定部11において実行される。
【0069】
▲1▼ まず、雑音に頑健な基本周波数推定法である櫛型フィルタによる方法で混合音x(t)からある程度の精度をもつ基本周波数F*0(Fの上に ̄が付く)を得る(ステップS11)。
【0070】
▲2▼ その基本周波数(F*0)(Fの上に ̄が付く)を基にした帯域幅可変櫛形フィルタを用い上記(2)で述べた雑音抑圧アルゴリズムによって雑音を抑圧する(ステップS13)。
【0071】
ここで、帯域幅可変櫛形フィルタのパラメータεを調節して通過帯域幅を制御することにより、音声の調波成分を抑圧しないようにする。
【0072】
▲3▼ そして、雑音が抑圧された音声に対して、雑音に弱いが高精度の基本周波数抽出法であるTEMPO2を用いることにより、雑音中の音声から高精度の基本周波数を推定する(ステップS15)。
【0073】
雑音の付加された音声を用いて本発明の方法の対雑音性能を調べる。帯域幅可変櫛形フィルタのパラメータε=0.5とし、音声、雑音共に従来の基本周波数推定法と同じものを用いた。
【0074】
白色雑音をSNR=5dBで付加した音声の基本周波数推定結果の例を図14、ピンク帯域雑音をSNR=5dBで付加した音声の例を図15に示す。
【0075】
ここで、図14(a)は櫛型フィルタによる方法を示す図、図14(b)はTEMPO2、図14(c)は本発明による基本周波数推定結果を示す図、図15(a)は櫛型フィルタによる方法を示す図、図15(b)はTEMPO2、図15(c)は本発明による基本周波数推定結果を示す図である。図15(b)においては全区間で推定不能である。なお、推定されるべき基本周波数は、図16で示すような150Hzから200Hzまでを速度50Hz/4000サンプルで変化する基本周波数である。
【0076】
図17に推定精度(推定誤差の標準偏差)と雑音強度の関係を示す。比較のため、櫛型フィルタによる方法のみの場合の推定精度と、TEMPO2のみの場合の推定精度も示す。
【0077】
図17から、白色雑音ではSNRが0dB、ピンク帯域雑音ではSNRが5dBであるような大きな雑音が付加された音声に対しても、本発明の方法は、雑音が小さい場合のTEMPO2による推定と同じ精度で基本周波数を推定することができることがわかる。雑音が小さい場合においてもTEMPO2のみの場合と同程度の精度が得られる。
【0078】
また、本発明の方法の対雑音性能は、櫛型フィルタによる方法の対雑音性能に大きく依存しているため、雑音抑圧の前処理の基本周波数推定法の改良によりさらなる性能向上が可能であると考えられる。
【0079】
上記したように、本発明によれば、
(1)帯域幅可変櫛形フィルタで雑音を推定・除去することにより、スペクトルレベルではなく波形レベルでの雑音抑圧が可能になった。
(2)帯域幅可変櫛形フィルタによる雑音抑圧と雑音には弱いが高精度な基本周波数推定法であるTEMPO2、雑音に強い櫛形フィルタによる基本周波数推定法を組み合せることにより、頑健で高精度な基本周波数推定が可能になった。
【0080】
▲1▼櫛形フィルタによって、基本周波数が存在する帯域を取り出す。
【0081】
帯域可変櫛形フィルタによって、上記▲1▼の結果をもとに、抽出された基本周波数とその高調波成分を通過させる櫛形フィルタを構築し、雑音の成分を取り除く。通過帯域を可変とすることで、上記▲1▼の結果に含まれる誤りの伝播を防ぐ。
【0082】
▲2▼雑音を軽減した波形から、雑音には弱いが高精度で抽出可能な手法を用いて、基本周期あるいは基本周波数の抽出を行う。
【0083】
したがって、本発明によれば、妨害音には強いが精度が劣る手法と妨害音には弱いが高精度で抽出可能な手法、および通過域可変櫛形フィルタを用いた妨害音除去手法を組み合わせることにより、妨害音に強くしかも高精度な基本周期あるいは基本周波数抽出方法が実現できる。
【0084】
音声認識・合成のための基本周波数の抽出、基本周期を用いた雑音抑圧法への応用が可能である。
【0085】
また、音声認識や補聴器の前処理等に利用できるような音声信号処理として、雑音環境における音声の基本周波数推定法及び雑音抑圧法を提供することができる。
【0086】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
【0087】
【発明の効果】
以上、詳細に説明したように、本発明によれば、妨害音には強いが精度が劣る手法と妨害音には弱いが高精度で抽出可能な手法、および通過域可変櫛形フィルタを用いた妨害音除去手法を組み合わせることにより、妨害音に強くしかも高精度な基本周期あるいは基本周波数抽出方法が実現できる。
【0088】
音声認識・合成のための基本周波数の抽出、基本周期を用いた雑音抑圧法への応用が可能である。
【図面の簡単な説明】
【図1】本発明にかかる雑音抑圧アルゴリズムの処理フローチャートである。
【図2】混合音を入力、目的音を出力とし基本周期5ms(基本周波数200Hz)に合わせたシステムの振幅特性を示す図である。
【図3】基本周期一定のための時間軸での波形伸縮の模式図である。
【図4】波形伸縮前の音声波形及び基本周波数を示す図である。
【図5】波形伸縮後の音声波形及び基本周波数を示す図である。
【図6】雑音抑圧例を示す図である。
【図7】雑音抑圧アルゴリズムのSNRによる評価(白色雑音)を示す図である。
【図8】雑音抑圧アルゴリズムのSNRによる評価(ピンク帯域雑音)を示す図である。
【図9】雑音抑圧アルゴリズムのSDによる評価(白色雑音)を示す図である。
【図10】雑音抑圧アルゴリズムのSDによる評価(ピンク帯域雑音)を示す図である。
【図11】雑音抑圧アルゴリズムのASDによる評価(白色雑音)を示す図である。
【図12】雑音抑圧アルゴリズムのASDによる評価(ピンク帯域雑音)を示す図である。
【図13】本発明にかかる基本周波数推定アルゴリズムの処理フローチャートである。
【図14】白色雑音を付加した音声の基本周波数推定結果の例を示す図である。
【図15】ピンク帯域雑音を付加した音声の例を示す図である。
【図16】150Hzから200Hzまでを速度50Hz/4000サンプルで変化する基本周波数を示す図である。
【図17】推定精度(推定誤差の標準偏差)と雑音強度の関係を示す図である。
【図18】ニューラルキャンセレーションモデルを示す図である。
【符号の説明】
1,11 基本周波数推定部
2,12 雑音抑圧部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a fundamental period or fundamental frequency extraction method for extracting a fundamental frequency or a fundamental period from a waveform including noise (interfering sound).
[0002]
[Prior art]
Speech is the basic and effective communication method used by humans. Therefore, with the development of digital signal processing, research on speech coding, speech analysis / synthesis, speech synthesis, speech recognition, speaker recognition, etc. by extracting feature information of speech has been widely conducted. In addition, products such as digital hearing aids have been developed as an application of signal processing technology, and there are expectations for the realization of a human-machine communication system.
[0003]
(1) Noise suppression using time information It is easy for humans to distinguish between sounds generated from a specific sound source in an environment with multiple sounds and noise. If this auditory function called “cocktail party effect” can be engineered, it will be extremely effective for stable operation of speech recognition in various environments, and it can be used for preprocessing of hearing aids and other devices. It is possible to prevent disturbance of conversation understanding due to noise.
[0004]
Although research on sound source separation (noise suppression) for extracting a target sound from a plurality of sounds has been conducted for a long time, they can be divided into two types depending on the number of sound sources. One is to extract the sound by using the position information of the sound source by making the number of the received sound sources plural. A microphone array is used as the receiving sound source, and the sound is received only from the sound source at a specific position by sharpening the directivity of the received sound, or the target sound is obtained by noise spectrum subtraction from the time difference of arrival direction of the sound There are methods. The other is to estimate the target sound and noise from the sound received with only one receiving sound source using some constraints. This includes models based on acoustic events using Cooke and Brown's gamma tone filter banks, models based on psychoacoustic grouping rules using Elli's cochlea filter banks, and multi-agent systems by Nakatani et al. There are acoustic stream separation models and the like.
[0005]
However, each of these methods has problems. Since a certain distance between the microphones must be taken, it cannot be said that a method having a plurality of sound receiving sources is suitable for application to a hearing aid. In addition, since most of the methods with a single receiving / sound source use the amplitude (or power) spectrum, including those described above, much of the time information such as the basic period and phase, which is the original information of the sound, is crushed. It will not be used.
[0006]
As a study using time information, de Cheveigne has proposed a cancellation model for estimating the fundamental period of a mixed sound having a harmonic structure. This model estimates the fundamental period of one sound, and estimates the fundamental period of the remaining signal by removing the sound from the mixed sound by a delay circuit that matches the fundamental period. It has been reported that the delay circuit composed of the delay line and the inhibitory synapse also exists in the neural circuit of many animals such as cats and pigs. However, de Cheveigne considers the formulation of the processing of the neural circuit as shown in FIG. 18, and it is the spike train due to the auditory nerve fibers that is separated. In engineering, the proposal is limited to the fundamental period estimation using a comb filter, which suggests the possibility of separation of speech waveforms, but does not perform separation at the waveform level.
[0007]
(2) Fundamental frequency estimation in a noisy environment Along with voiced / unvoiced determination, volume, etc., the fundamental frequency is one of the sound source information, and plays a significant role in voice coding transmission. Voice recognition and sound source information processing is required for speech recognition and understanding, speaker identification, speech analysis synthesis, etc., but the fundamental frequency is correlated not only with prosody but also with the spectrum parameters that actually carry phoneme information. It can also be used effectively for phoneme recognition. In research on auditory scene analysis, it is said that this is one of the clues for recognizing the sound with the fundamental frequency superimposed as a separate sound flow.
[0008]
Since the fundamental frequency is thus important for speech signal processing, fundamental frequency estimation has been a research subject since the beginning of speech analysis research, and various methods have been proposed so far. Typical examples are the method based on autocorrelation of speech waveform, the method based on autocorrelation of residual signal in LPC analysis, and the fundamental frequency from the fine structure by separating the spectral envelope and fine structure by the inverse Fourier transform of the logarithm of the power spectrum. There are a method for obtaining, a method for detecting periodicity by an average amplitude difference function (AMDF), and the like.
[0009]
However, there are problems such as the fact that the speech is not completely periodic waves but quasi-periodic and noise is included depending on the situation, so there are problems such as extraction errors of the fundamental frequency, so a decisive method is still established. Not done.
[0010]
Focusing on the fact that the instantaneous frequency of the short-time Fourier transform contains sound source information, Kawara et al. Extracted a fundamental frequency using the fixed point of the mapping from the center frequency of the filter to the instantaneous frequency of the filter output. is suggesting. This basic frequency extraction method (TEMPO2) of Kawara et al. Can obtain a high-precision fundamental frequency from clean speech. However, there is a problem that the estimation accuracy is lowered in a noisy environment.
[0011]
As a fundamental frequency estimation method that is resistant to noise, Kashiwagi has proposed a method using a comb filter on the frequency axis that maximizes the amount of passage with respect to the instantaneous amplitude. The fundamental frequency estimation method using the Kashiwagi comb filter can estimate the fundamental frequency even for speech to which noise with a signal-to-noise ratio of about 0 dB is added, but for clean speech, it is more than TEMPO2. It is inferior in estimation accuracy.
[0012]
[Problems to be solved by the invention]
As described above, although speech recognition has been partly put into practical use, most researches are based on recognition algorithms that are premised on use in an environment where there is no noise. For this reason, it has been reported that the recognition accuracy of the speech recognition system for speech uttered in a noise-free environment is 95%, whereas speech uttered under a signal-to-noise ratio of 18 dB is increased by an order of magnitude. Also, if the noise is stationary, the degradation of recognition accuracy due to noise can be made very small by creating a reference pattern from speech with added noise, but it cannot cope with sudden noise. Furthermore, since the conditions at the time of learning and testing of the reference pattern are rarely the same in an actual environment, a speech recognition system having robust performance even in a noisy environment has not yet been put into practical use.
[0013]
One of the audio signal processing that has been put into practical use is a digital hearing aid. In a digital hearing aid, the adjustment and acoustic processing of the hearing aid are performed by digital signal processing. Hearing aids are used to amplify the conversational sound that the hearing-impaired person wants to listen to, so that the hearing-impaired person can easily hear it. However, if the sound from the outside world is amplified as it is, the noise will also be amplified. It causes annoying sensation to the person and disturbs the understanding of the conversation because the noise blocks the speech. This can be dealt with by changing the gain for each frequency band by nonlinear amplification, but it is necessary to adjust the gain according to the environment.
[0014]
As described above, in speech signal processing in a noisy environment, it is important to suppress noise and extract speech waveforms and speech features.
[0015]
In view of the above situation, the present invention is based on a fundamental frequency obtained from a method that is strong against noise but inferior in accuracy of fundamental period estimation, and is combined with a disturbing sound suppression method using a variable passband comb filter. The basic period of the periodic waveform to which noise is added that is strong against noise and can extract a high-precision fundamental period or fundamental frequency by applying a method that reduces noise and then is highly sensitive to noise but can be extracted with high precision. Alternatively, an object is to provide a method for extracting a fundamental frequency.
[0016]
In addition, the present invention constructs a robust and highly accurate fundamental frequency estimation method and noise suppression algorithm in a noise environment for a waveform having a harmonic structure such as voiced sound.
[0017]
[Means for Solving the Problems]
In order to achieve the above object, the present invention provides
[1] In the method for extracting the fundamental period or fundamental frequency of a periodic waveform to which noise has been added, (a) a target sound having a harmonic structure and a mixed sound in which noise is mixed are observed with only one receiving sound source; Roughly estimate the fundamental frequency of the target sound from the observed mixed sound using the fundamental frequency estimation method with a noise-resistant comb filter, and (b) Estimate with a variable bandwidth comb filter that matches the estimated fundamental frequency Noise is extracted and noise is suppressed by subtracting the estimated noise from the original mixed sound. (C) Highly accurate using a fundamental frequency estimation method based on the instantaneous frequency for the noise-suppressed signal. And (d) noise is estimated and removed by a variable bandwidth comb filter using the high-precision fundamental frequency to obtain a target sound in which the noise is suppressed.
[0018]
[2] In the method for extracting the fundamental period or fundamental frequency of the periodic waveform to which the noise described in [1] is added, in the step (c), by performing waveform expansion and contraction so as to make the fundamental frequency constant, It is characterized by reducing an error at the time of noise suppression.
[0019]
[3] In the method of extracting the fundamental period or fundamental frequency of a periodic waveform to which noise has been added, (a) using the fundamental frequency estimation method using a comb filter that is resistant to noise, the fundamental frequency of the speech is calculated from the observed mixed sound. (B) Noise is suppressed by using a variable bandwidth comb filter based on the fundamental frequency, and (c) high-accuracy fundamental frequency extraction that is weak against noise but highly sensitive to noise with suppressed noise. By using TEMPO2 which is a method, a fundamental frequency with high accuracy is estimated from speech in noise.
[0020]
[4] In the method for extracting a fundamental period or fundamental frequency of a periodic waveform to which noise is added as described in [3] above, in the step (b), the pass bandwidth is adjusted by adjusting the parameters of the variable bandwidth comb filter. By controlling, the harmonic component of the periodic waveform is not suppressed.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail.
[0022]
(Outline of noise suppression algorithm)
(1) First, the noise suppression algorithm according to the present invention will be outlined.
[0023]
FIG. 1 is a processing flowchart of a noise suppression algorithm according to the present invention.
[0024]
In this figure, a mixed sound x (t) in which a target sound s (t) having a harmonic structure and a noise n (t) are mixed is observed by only one receiving sound source.
[0025]
In the fundamental frequency estimation unit 1,
(1) First, a fundamental frequency estimation method using a noise-resistant comb filter [Journal of the Institute of Electronics, Information and Communication Engineers (A), vol. J82-A, no. 10, pp. 1497-1507, 1999] is used to roughly estimate the fundamental frequency of the target sound from the observed mixed sound x (t) (F * 0) (having a wrinkle on F0) (step S1).
[0026]
(2) Next, the estimated noise is extracted by a variable bandwidth comb filter matched to the estimated fundamental frequency, and noise is suppressed by subtracting the estimated noise from the original mixed sound (steps S2 to S4). .
[0027]
At this time, the error at the time of noise suppression is reduced by performing waveform expansion and contraction so as to make the fundamental frequency constant.
[0028]
(3) Fundamental frequency estimation method based on instantaneous frequency for signal s ′ * (t) (with ^ on s) with suppressed noise [Technical Report of IEICE, SP99-40, July 1999] is used (step S5).
[0029]
With the above operation, the basic frequency F0 with high accuracy can be estimated.
[0030]
Further, in the next noise suppression unit 2,
{Circle around (4)} The noise-suppressed target sound s * (t) (with ˜ on s) can be obtained by estimating and removing noise with the variable bandwidth comb filter using this high-precision F0. (Step S7).
[0031]
(2) The noise suppression unit using the variable bandwidth comb filter will be described in detail later.
[0032]
Noise suppression by variable bandwidth comb filter (2-1) Formulation of noise estimation using fundamental period If target sound s (t) is a harmonic complex sound of fundamental period T (t), noise n (t) The mixed sound x (t) is
[0033]
[Expression 1]
Figure 0003916834
[0034]
It is expressed. Assuming that T (t) is a constant value T (= 2π / ω 0 ), the above equation (1) is shifted by ± T on the time axis to calculate a signal g (t) to be removed from the mixed sound.
[0035]
[Expression 2]
Figure 0003916834
[0036]
It becomes. If the Fourier transform of n (t) is N (ω k ), the Fourier transform G (ω k ) of g (t) is
G (ω k ) = N (ω k ) sin 2k / ω 0 (t)] · π (3)
It becomes. Therefore, the noise spectrum N (ω k ) is
N (ω k ) = G (ω k ) / [sin 2k / ω 0 (t)] · π] (4)
It becomes. By removing the noise n (t) obtained by inverse Fourier transform of N (ω k ) from the original mixed sound, the noise is removed and the target sound s (t) can be estimated.
[0037]
However, if this is the case,
(1) When ω k / ω 0 is an integer, the noise spectrum N (ω k ) of the above equation (4) becomes infinite. (2) In real speech, the fundamental period T (t) that varies with time is set to the above. Since it is assumed to be constant in the equation (2), there is a problem that an error occurs in the estimated noise.
[0038]
Therefore, the following countermeasures are tried for these problems.
[0039]
(2-2) Estimation of noise spectrum In the above equation (4), when ω k / ω 0 (t) = integer, the noise spectrum N (ω k ) becomes infinite.
[0040]
So, set a certain value ε for actual use,
[0041]
[Equation 3]
Figure 0003916834
[0042]
And
[0043]
FIG. 2 shows the amplitude characteristics of the system in which the mixed sound is input and the target sound is output and the basic period is 5 ms (basic frequency 200 Hz). 2A is a normal comb filter, FIG. 2B is ε = 0.2, FIG. 2C is ε = 0.5, and FIG. 2D is ε. Each case shows = 0.8.
[0044]
In the case of a normal comb filter, the pass band is very narrow. However, in the method used in the present invention, if ε is small, the pass band is narrow, and if ε is large, the pass band is wide. That is, the filter is a comb filter whose pass bandwidth can be controlled by the value of the parameter ε.
[0045]
(2-3) Waveform expansion / contraction for constant basic period In the above section (2-1), calculation is performed on the assumption that the basic period T is constant. However, in actual speech, the basic period varies with time. For this reason, an error occurs in the estimated noise n * (t) (indicated by n on n) with respect to the actual speech if it remains as it is.
[0046]
Therefore, the voice waveform is expanded and contracted on the time axis for making the basic period constant as shown in FIG. Assuming that the audio waveform is sampled at a certain sampling frequency 1 / T s [Hz], the flow of waveform expansion / contraction processing is shown below.
[0047]
(1) The basic period T (t) of voice is obtained.
[0048]
{Circle around (2)} A ratio T ave / T [n] between the basic period T [n] at a certain sampling point n and the average basic period T ave of the entire speech is obtained.
[0049]
(3) The time interval T ′ s [n] between the sampling point and the previous sampling point is set by T ave / T [n].
[Expression 4]
Figure 0003916834
[0051]
And This causes the waveform to expand and contract on the time axis.
[0052]
(4) Linear interpolation is performed on the expanded / contracted waveform so as to have a new value every sampling interval T s .
[0053]
FIG. 5 shows the voice waveform shown in FIG. 4 subjected to the above-described waveform expansion / contraction operation. Here, FIG. 4A shows the speech waveform before waveform expansion / contraction, FIG. 4B shows the fundamental frequency, FIG. 5A shows the speech waveform after waveform expansion / contraction, and FIG. 5B shows the fundamental frequency. .
[0054]
From these figures, it can be seen that the fundamental frequency of the voice is substantially constant by the waveform expansion / contraction operation.
[0055]
With respect to the speech after noise suppression, speech having the original fundamental frequency can be restored by performing an operation opposite to the waveform expansion / contraction operation performed previously.
[0056]
(2-4) Evaluation of Noise Suppression Algorithm An evaluation experiment is performed in order to evaluate how much noise can be suppressed by the noise suppression algorithm.
[0057]
As voices used for evaluation, single vowels (/ a // i // u // e // o /) of male speaker mht and female speaker fsu in the ATR speech database set are used. Further, white noise and pink band noise band-limited to 60 to 6000 Hz are used as noise. The SNR is changed in steps of 5 dB from 0 dB to 20 dB.
[0058]
An example of noise suppression is shown in FIG. When white noise with an SNR of 5 dB is added to the fsu single vowel / a / as shown in FIG. 6A, a mixed sound as shown in FIG. 6B is obtained. When noise suppression is performed using the fundamental frequency shown in FIG. 6 (c), a voice having an SNR of 11.2 dB can be extracted from the mixed sound as shown in FIG. 6 (d).
[0059]
It is assumed that the fundamental frequency is obtained in advance from a clean voice by a fundamental frequency extraction method based on the instantaneous frequency (see IEICE Technical Report, SP99-40, July 1999). The frame length is 1024 points, the frame period is 256 points, and the parameter ε = 0.5 of the variable bandwidth comb filter.
[0060]
Before and after noise suppression using the overall speech-to-noise ratio (SNR), spectral distortion scale (SD), and distortion evaluation scale (ASD) considering auditory characteristics (see Mitsunori Mizumachi, Masato Akagi, ASD, 1999) As a result of comparison, FIGS. 7 to 12 were obtained as the average and standard deviation of the respective values.
[0061]
Here, FIG. 7 shows the evaluation by the SNR of the noise suppression algorithm (white noise), FIG. 8 shows the evaluation by the SNR of the noise suppression algorithm (pink band noise), FIG. 9 shows the evaluation by the SD of the noise suppression algorithm (white noise), FIG. 10 is a noise suppression algorithm evaluation by SD (pink band noise), FIG. 11 is a noise suppression algorithm evaluation by ASD (white noise), and FIG. 12 is a noise suppression algorithm evaluation by ASD (pink band noise). is there.
[0062]
7 and 8, it can be seen that when the noise is large, the SNR is improved by about 5 to 7 dB compared to before noise suppression.
[0063]
As a result, when the noise was small, the SNR was lower than before the noise suppression. This is because a part of the target sound component is removed together with the noise by the variable bandwidth comb filter, so when the noise is small, the target sound component is removed more than the noise component to be removed. is there. In this evaluation experiment, the value of ε is constant, but it can be improved to some extent by changing the value of ε depending on the voice and selecting the optimum passband.
[0064]
Even if the SNR is lower than that before noise suppression, the timbre is slightly changed, but the noise sensation is reduced. This corresponds to the fact that the accuracy of the target sound after noise suppression is improved even with an SNR of 20 dB in ASD (FIG. 11), which is an evaluation scale considering auditory characteristics.
[0065]
Further, as shown in FIGS. 10 and 12, when the noise is a small pink band noise, the extraction accuracy is lowered even in SD and ASD. This is because the low frequency power of the pink band noise is strong, so that the target sound removal amount is higher than the noise removal amount in the high frequency band, and the fundamental frequency and harmonics of the target sound are obtained with the variable bandwidth comb filter. This is probably because the noise in the same frequency band cannot be removed.
[0066]
(3) Fundamental frequency estimation method using a variable bandwidth comb filter In an environment with low noise, the TEMPO 2 can estimate the fundamental frequency with high accuracy. In a noisy environment, the comb filter method is robust. Therefore, the present invention uses the noise suppression algorithm described in (2) above to create a robust and highly accurate fundamental frequency estimation method in a noise environment. As shown in FIG. 13, the algorithm of the method of the present invention is composed of two types of fundamental frequency estimation methods, a method using a TEMPO 2 and a comb filter, and a variable bandwidth comb filter.
[0067]
The basic frequency estimation procedure of this method is described below.
[0068]
This method is executed in the fundamental frequency estimation unit 11 having the noise suppression unit 12.
[0069]
(1) First, a fundamental frequency F * 0 (having wrinkles on F) having a certain degree of accuracy is obtained from the mixed sound x (t) by a method using a comb filter, which is a fundamental frequency estimation method that is robust against noise ( Step S11).
[0070]
(2) Noise is suppressed by the noise suppression algorithm described in (2) above using a variable bandwidth comb filter based on the fundamental frequency (F * 0) (having a wrinkle on F) (step S13). .
[0071]
Here, by adjusting the parameter ε of the variable bandwidth comb filter to control the pass bandwidth, the harmonic component of the voice is not suppressed.
[0072]
{Circle around (3)} A high-precision fundamental frequency is estimated from the speech in the noise by using TEMPO2, which is a high-precision fundamental frequency extraction method that is weak against noise, for the speech with suppressed noise (step S15). ).
[0073]
The noise performance of the method of the present invention is examined using the speech with added noise. The parameter ε = 0.5 of the variable bandwidth comb filter was used, and the same voice and noise as the conventional fundamental frequency estimation method were used.
[0074]
FIG. 14 shows an example of the fundamental frequency estimation result of speech with white noise added at SNR = 5 dB, and FIG. 15 shows an example of speech with pink band noise added at SNR = 5 dB.
[0075]
14A shows a method using a comb filter, FIG. 14B shows TEMPO2, FIG. 14C shows a fundamental frequency estimation result according to the present invention, and FIG. 15A shows a comb. FIG. 15B is a diagram illustrating a method using a type filter, FIG. 15B is a diagram illustrating a TEMPO2, and FIG. 15C is a diagram illustrating a fundamental frequency estimation result according to the present invention. In FIG. 15 (b), estimation is impossible in all sections. The fundamental frequency to be estimated is a fundamental frequency that changes from 150 Hz to 200 Hz at a speed of 50 Hz / 4000 samples as shown in FIG.
[0076]
FIG. 17 shows the relationship between estimation accuracy (standard deviation of estimation error) and noise intensity. For comparison, the estimation accuracy in the case of only the method using the comb filter and the estimation accuracy in the case of only TEMPO2 are also shown.
[0077]
From FIG. 17, the method of the present invention is the same as the estimation by TEMPO2 when the noise is small even for a speech with a large noise added such that the SNR is 0 dB for white noise and the SNR is 5 dB for pink band noise. It can be seen that the fundamental frequency can be estimated with accuracy. Even when the noise is small, the same level of accuracy as in the case of TEMPO 2 alone can be obtained.
[0078]
In addition, since the anti-noise performance of the method of the present invention largely depends on the anti-noise performance of the method using the comb filter, it is possible to further improve the performance by improving the fundamental frequency estimation method of the noise suppression preprocessing. Conceivable.
[0079]
As mentioned above, according to the present invention,
(1) Noise can be suppressed not at the spectral level but at the waveform level by estimating and removing the noise with a variable bandwidth comb filter.
(2) Robust and high-precision basics by combining noise suppression with variable bandwidth comb filter and TEMPO2, which is a fundamental frequency estimation method that is weak against noise but highly accurate, and a fundamental frequency estimation method that is resistant to noise. Frequency estimation is now possible.
[0080]
{Circle around (1)} A band where the fundamental frequency exists is extracted by a comb filter.
[0081]
Based on the result of the above (1), a band-shaped comb filter is used to construct a comb filter that allows the extracted fundamental frequency and its harmonic components to pass therethrough, and removes noise components. By making the pass band variable, the propagation of the error included in the result (1) is prevented.
[0082]
(2) The fundamental period or fundamental frequency is extracted from the waveform with reduced noise using a technique that is sensitive to noise but can be extracted with high accuracy.
[0083]
Therefore, according to the present invention, by combining a technique that is strong against the interference sound but inferior in accuracy, a technique that is weak against the interference noise but that can be extracted with high precision, and a technique that eliminates the interference sound using a passband variable comb filter. In addition, it is possible to realize a fundamental period or fundamental frequency extraction method that is strong against interference sound and highly accurate.
[0084]
Extraction of fundamental frequency for speech recognition and synthesis, and application to noise suppression method using fundamental period are possible.
[0085]
In addition, it is possible to provide a fundamental frequency estimation method and a noise suppression method of speech in a noisy environment as speech signal processing that can be used for speech recognition, hearing aid preprocessing, and the like.
[0086]
In addition, this invention is not limited to the said Example, A various deformation | transformation is possible based on the meaning of this invention, and these are not excluded from the scope of the present invention.
[0087]
【The invention's effect】
As described above in detail, according to the present invention, a method that is strong against interference sound but inferior in accuracy, a method that is weak against interference sound but can be extracted with high accuracy, and interference using a variable passband comb filter are used. By combining the sound removal methods, it is possible to realize a fundamental period or fundamental frequency extraction method that is strong against interference sound and highly accurate.
[0088]
Extraction of fundamental frequency for speech recognition and synthesis, and application to noise suppression method using fundamental period are possible.
[Brief description of the drawings]
FIG. 1 is a process flowchart of a noise suppression algorithm according to the present invention.
FIG. 2 is a diagram showing an amplitude characteristic of a system in which a mixed sound is input and a target sound is output and the basic period is set to 5 ms (basic frequency 200 Hz).
FIG. 3 is a schematic diagram of waveform expansion and contraction on a time axis for a fixed basic period.
FIG. 4 is a diagram showing a speech waveform and a fundamental frequency before waveform expansion / contraction.
FIG. 5 is a diagram showing a speech waveform and a fundamental frequency after waveform expansion and contraction.
FIG. 6 is a diagram illustrating an example of noise suppression.
FIG. 7 is a diagram illustrating an evaluation (white noise) by an SNR of a noise suppression algorithm.
FIG. 8 is a diagram illustrating evaluation by SNR (pink band noise) of a noise suppression algorithm;
FIG. 9 is a diagram showing evaluation (white noise) of a noise suppression algorithm by SD.
FIG. 10 is a diagram showing an evaluation (pink band noise) of a noise suppression algorithm by SD.
FIG. 11 is a diagram showing an ASD evaluation (white noise) of a noise suppression algorithm.
FIG. 12 is a diagram showing an ASD evaluation (pink band noise) of a noise suppression algorithm.
FIG. 13 is a process flowchart of a fundamental frequency estimation algorithm according to the present invention.
FIG. 14 is a diagram illustrating an example of a fundamental frequency estimation result of speech with white noise added.
FIG. 15 is a diagram illustrating an example of audio with pink band noise added thereto.
FIG. 16 is a diagram showing a fundamental frequency changing from 150 Hz to 200 Hz at a speed of 50 Hz / 4000 samples.
FIG. 17 is a diagram showing a relationship between estimation accuracy (standard deviation of estimation error) and noise intensity.
FIG. 18 is a diagram illustrating a neural cancellation model.
[Explanation of symbols]
1,11 Fundamental frequency estimation unit 2,12 Noise suppression unit

Claims (4)

雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、
(a)調波構造をもつ目的音と雑音が混ざり合った混合音を、ただ一つの受音源で観測し、
(b)雑音に強い櫛型フィルタによる基本周波数推定法を用いて、観測された混合音から目的音の基本周波数を大まかに推定し、
(c)推定された基本周波数に合わせた帯域幅可変櫛形フィルタによって推定雑音を抽出し、推定雑音を元の混合音から引き去ることにより雑音の抑圧を行い、
(d)雑音を抑圧した信号に対して、瞬時周波数を基にした基本周波数推定法を用い、高精度の基本周波数を推定し、
(e)該高精度の基本周波数を用いた帯域幅可変櫛形フィルタで雑音を推定し除去し、雑音を抑圧した目的音を得ることを特徴とする雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法。
In the method of extracting the fundamental period or fundamental frequency of a periodic waveform with added noise,
(A) Observe the mixed sound in which the target sound having harmonic structure and noise are mixed with only one receiving sound source,
(B) The fundamental frequency of the target sound is roughly estimated from the observed mixed sound using a fundamental frequency estimation method using a comb filter that is resistant to noise.
(C) The estimated noise is extracted by a variable bandwidth comb filter matched to the estimated fundamental frequency, and the noise is suppressed by subtracting the estimated noise from the original mixed sound;
(D) Using a fundamental frequency estimation method based on the instantaneous frequency for a signal with suppressed noise, a highly accurate fundamental frequency is estimated,
(E) The basic period or the basic period of a periodic waveform to which noise is added, characterized in that noise is estimated and removed by the variable bandwidth comb filter using the high-accuracy basic frequency to obtain a target sound with suppressed noise Frequency extraction method.
請求項1記載の雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、前記工程(c)において、前記基本周波数を一定にするような波形伸縮を行なうことにより、雑音抑圧時の誤差を低減させることを特徴とする雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法。2. The method of extracting a fundamental period or fundamental frequency of a periodic waveform to which noise is added according to claim 1, wherein in the step (c), the waveform is expanded and contracted so as to make the fundamental frequency constant. A method for extracting a fundamental period or a fundamental frequency of a periodic waveform to which noise is added, characterized by reducing errors. 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、
(a)雑音に強い櫛型フィルタによる基本周波数推定法を用いて、観測された混合音から音声の基本周波数を大まかに推定し、
(b)前記基本周波数を基にした帯域幅可変櫛形フィルタを用い雑音を抑圧し、
(c)雑音が抑圧された音声に対して、雑音に弱いが高精度の基本周波数抽出法であるTEMPO2を用いることにより、雑音中の音声から高精度の基本周波数を推定することを特徴とする雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法。
In the method of extracting the fundamental period or fundamental frequency of a periodic waveform with added noise,
(A) Using a fundamental frequency estimation method using a comb filter resistant to noise, roughly estimating the fundamental frequency of speech from the observed mixed sound,
(B) using a variable bandwidth comb filter based on the fundamental frequency to suppress noise;
(C) A highly accurate fundamental frequency is estimated from speech in noise by using TEMPO2, which is a highly accurate fundamental frequency extraction method that is weak against noise, for speech with suppressed noise. Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise.
請求項3記載の雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法において、前記工程(b)において、前記帯域幅可変櫛形フィルタのパラメータを調節して通過帯域幅を制御することにより周期波形の調波成分を抑圧しないようにすることを特徴とする雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法。4. The method of extracting a fundamental period or a fundamental frequency of a periodic waveform to which noise is added according to claim 3, wherein, in the step (b), the pass bandwidth is controlled by adjusting a parameter of the variable bandwidth comb filter. A method of extracting a fundamental period or a fundamental frequency of a periodic waveform to which noise is added, characterized by not suppressing harmonic components of the periodic waveform.
JP2000059853A 2000-03-06 2000-03-06 Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise Expired - Fee Related JP3916834B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000059853A JP3916834B2 (en) 2000-03-06 2000-03-06 Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000059853A JP3916834B2 (en) 2000-03-06 2000-03-06 Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise

Publications (2)

Publication Number Publication Date
JP2001249676A JP2001249676A (en) 2001-09-14
JP3916834B2 true JP3916834B2 (en) 2007-05-23

Family

ID=18580252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000059853A Expired - Fee Related JP3916834B2 (en) 2000-03-06 2000-03-06 Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise

Country Status (1)

Country Link
JP (1) JP3916834B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3960834B2 (en) * 2002-03-19 2007-08-15 松下電器産業株式会社 Speech enhancement device and speech enhancement method
DE10357800B3 (en) * 2003-12-10 2005-05-25 Siemens Audiologische Technik Gmbh Hearing aid with noise suppression has signal processing device for simulating transmission function of acoustic path that applies function to noise signal to form noise output signal that is combined with useful output signal
JP4863713B2 (en) 2005-12-29 2012-01-25 富士通株式会社 Noise suppression device, noise suppression method, and computer program
JPWO2008001779A1 (en) * 2006-06-27 2009-11-26 国立大学法人豊橋技術科学大学 Fundamental frequency estimation method and acoustic signal estimation system
JP5089295B2 (en) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech processing system, method and program
CN114387975A (en) * 2021-12-28 2022-04-22 北京中电慧声科技有限公司 Fundamental frequency information extraction method and device applied to voiceprint recognition in reverberation environment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203199A (en) * 1986-03-03 1987-09-07 富士通株式会社 Pitch cycle extraction system
JP2751262B2 (en) * 1988-11-19 1998-05-18 ソニー株式会社 Signal recording method and apparatus
JPH04230796A (en) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd Voice signal processor
JP4121578B2 (en) * 1996-10-18 2008-07-23 ソニー株式会社 Speech analysis method, speech coding method and apparatus

Also Published As

Publication number Publication date
JP2001249676A (en) 2001-09-14

Similar Documents

Publication Publication Date Title
CN110970053B (en) Multichannel speaker-independent voice separation method based on deep clustering
CN109065067A (en) A kind of conference terminal voice de-noising method based on neural network model
JP5666444B2 (en) Apparatus and method for processing an audio signal for speech enhancement using feature extraction
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
Trabelsi et al. On the use of different feature extraction methods for linear and non linear kernels
JP6386237B2 (en) Voice clarifying device and computer program therefor
KR101720514B1 (en) Asr apparatus and method of executing feature enhancement based on dnn using dcica
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
JP2011033717A (en) Noise suppression device
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Kulkarni et al. A review of speech signal enhancement techniques
WO2021193093A1 (en) Signal processing device, signal processing method, and program
JP3916834B2 (en) Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
Grondin et al. WISS, a speaker identification system for mobile robots
KR100571427B1 (en) Feature Vector Extraction Unit and Inverse Correlation Filtering Method for Speech Recognition in Noisy Environments
JP4098647B2 (en) Acoustic signal dereverberation method and apparatus, acoustic signal dereverberation program, and recording medium recording the program
Garg et al. Deep convolutional neural network-based speech signal enhancement using extensive speech features
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Moriguchi et al. A digital signal processor implementation of silent/electrolaryngeal speech enhancement based on real-time statistical voice conversion.
Sose et al. Sound Source Separation Using Neural Network
Lee et al. Deep neural network-based speech separation combining with MVDR beamformer for automatic speech recognition system
Hepsiba et al. Computational intelligence for speech enhancement using deep neural network
Zaw et al. Speaker identification using power spectral subtraction method
JP2003076393A (en) Method for estimating voice in noisy environment and voice recognition method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees