JP2003177770A - 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法 - Google Patents
音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法Info
- Publication number
- JP2003177770A JP2003177770A JP2002299846A JP2002299846A JP2003177770A JP 2003177770 A JP2003177770 A JP 2003177770A JP 2002299846 A JP2002299846 A JP 2002299846A JP 2002299846 A JP2002299846 A JP 2002299846A JP 2003177770 A JP2003177770 A JP 2003177770A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- noise
- noise ratio
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 206010002953 Aphonia Diseases 0.000 title claims abstract description 32
- 230000008030 elimination Effects 0.000 title abstract description 7
- 238000003379 elimination reaction Methods 0.000 title abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 238000012937 correction Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 208000037540 Alveolar soft tissue sarcoma Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 208000008524 alveolar soft part sarcoma Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
た雑音除去装置、方法の提供。 【解決手段】音声信号の第m番目のフレームに対して計
算された第1〜第Ncアポステリオリ信号対雑音比及び
第m番目のフレームに対して予測された第1〜第Nc予
測信号対雑音比から第m番目のフレームに音声不在確率
を出すこの装置は、第1〜第Ncアポステリオリ信号対
雑音比及び第1〜第Nc予測信号対雑音比から第1〜第
Nc尤度比を生成し出力する第1〜第Nc尤度比生成部
と、第1〜第Nc尤度比を所定のアプリオリ確率に各々
乗算、乗算された結果を出力する第1乗算部、第1乗算
部から入力された乗算結果各々に所定値を加算、加算さ
れた結果を出力する加算部、加算部から入力された加算
結果を乗算、乗算された結果を出力する第2乗算部、第
2乗算部から入力された前記乗算結果の逆数を計算、計
算された逆数を音声不在確率として出力する逆数計算部
を備える。
Description
り、特に、音声不在確率(SAP: Speech Absence Probab
ility)を計算する装置及び方法と、この装置及び方法
を用いて音声に存在する雑音を除去する装置及び方法に
関する。
声が存在しない確率であり、この確率に基づきその区間
における音声の存否が判断できる。ここで、音声が存在
しないと判断された区間は雑音のみ存在するとみなさ
れ、雑音のみ存在するとみなされた区間で雑音の分散が
更新される。ここで、雑音の分散は雑音除去装置の性能
に大きい影響を及ぼすので、音声不在確率をより正確に
計算することによって雑音を効率良く除去できる。
たは出力信号が雑音により汚染されている時に、システ
ムの性能を向上させること、すなわち、システムの性能
に及ぼす雑音の影響を最小化させることを意味する。音
声向上は、人と人との通信や人と機械との通信における
様々な状況下で、例えば、通信チャンネル上で雑音の影
響を受ける時や受信端で雑音が混ざる時に必要とされ
る。特に、雑音に汚染された入力音声信号を音声コーデ
ィングする時、音声認識システムの性能を向上させなけ
ればならない時、全般的に音質を向上させる必要がある
時、音声向上が必要となる。一般に、音声向上とは、音
声不在が不確実であるような雑音音声環境下で、雑音の
ないきれいな音声信号を推定することを意味する。雑音
音声スペクトルの各周波数チャンネルに存在する「音声
不在の不確実性を活用するというコンセプト」は多くの
人々により音声向上システムの性能改善に適用されてき
た(ここで、「音声不在の不確実性を活用するというコ
ンセプト」については、非特許文献1参照。)。
在確率を計算する従来の方式は、他の周波数チャンネル
と関係なく各々の周波数チャンネルに対してのみ局所的
に音声不在確率を計算するものであった。しかし、この
ような従来の方式は、利用するデータが十分ではないた
め、音声向上を実現する時に統計的な信頼性が保証され
ないという問題点を有する。
来の他の方式として、グローバルソフト決定(GSD: glo
bal soft decision)方式がある(例えば、非特許文献
2参照。)。ここに開示されている従来のGSD方式は
IS−127標準で使われる方法よりも優れているとい
うことが検証されている。このGSD方式はあらゆる周
波数チャンネルのデータを使って与えられた時間フレー
ムが音声不在フレームであるか否かを全域的に判断し、
しかも十分な量のデータを使用するので、前記従来の方
法に比べて,統計的な信頼性を向上させられる。さら
に、従来のGSD方式は従来の他のいかなる音声不在確
率計算方法とも異なって、音声不在フレームだけではな
く音声存在フレームにおいても雑音音声から雑音電力ス
ペクトルを推定するので、音声不在確率計算がより正確
に行えるとともに、スペクトル利得及び雑音スペクトル
推定方法に強じん性を与える(このような従来のGSD
方式の一例として、大韓民国特許出願第99−3611
5号「音声向上方法」に記載がある。特許文献1参
照。)。しかし、前述の如き従来のGSD方式は、各周
波数チャンネルにおいてスペクトル成分が独立している
という正確ではない仮定に基づくために音声不在確率を
正確に計算できず、しかも雑音環境下で雑音を効率良く
除去できないという問題点を有する。
特許文献3、非特許文献4、非特許文献5がある。
m),ダヴィド・マラー(David Malah)共著,「スピー
チ・エンハンスメント・ユージング・ア・ミニマム・ミ
ーンスクエア・エラー・ショートタイム・スペクトラル
・アンプリチュード・エスティメータ(Speech Enhance
ment using a Minimum Mean-Square Error Short-Time
Spectral Amplitude Estimator)」,アイトリプリー・
トランザクションズ・オン・アコースティクス・スピー
チ・アンド・シグナル・プロセッシング(IEEE Transac
tions on Acoustics, Speech, and Signal Processin
g),アメリカ合衆国,インスティチュート・オブ・エ
レクトリカル・アンド・エレクトロニクス・エンジニア
ーズ・インコーポレイテッド(Institute of Electrica
l and Electronics Engineers, Inc.),1984年,
第ASSP−32巻,第6号,p.1109−1121
Chang)共著,「スペクトラル・エンハンスメント・ベ
イスト・オン・グローバル・ソフト・デシジョン(Spec
tral enhancement based on global soft decisio
n)」,アイトリプリー・シグナル・プロセッシング・
レターズ(IEEE Signal Processing Letters),アメリ
カ合衆国,インスティチュート・オブ・エレクトリカル
・アンド・エレクトロニクス・エンジニアーズ・インコ
ーポレイテッド(Institute of Electrical and Electr
onics Engineers, Inc.),2000年,第7巻,p.
108−110
y),L・マルパス(Malpass)共著,「スピーチ・エン
ハンスメント・ユージング・ア・ソフトデシジョン・ノ
イズ・サプレッション・フィルタ(Speech enhancement
using a soft-decision noise suppression filte
r)」,アイトリプリー・トランザクションズ・オン・
アコースティクス・スピーチ・アンド・シグナル・プロ
セッシング(IEEE Transactionson Acoustics, Speech,
and Signal Processing),アメリカ合衆国,インステ
ィチュート・オブ・エレクトリカル・アンド・エレクト
ロニクス・エンジニアーズ・インコーポレイテッド(In
stitute of Electrical and Electronics Engineers, I
nc.),1980年4月,第ASSP−28巻,p.1
37−145
V.オッペンハイム(A. V. Oppenheim)共著,「エン
ハンスメント・アンド・バンドウィドス・コンプレッシ
ョン・オブ・ノイズ・スピーチ(Enhancement and band
width compression of noise speech)」,プロシーデ
ィングズ・オブ・ジ・アイトリプリー(Proceedings of
the IEEE),アメリカ合衆国,インスティチュート・
オブ・エレクトリカル・アンド・エレクトロニクス・エ
ンジニアーズ・インコーポレイテッド(Institute of E
lectrical and Electronics Engineers, Inc.),19
79年,第67巻,p.1586−1604
ネーション・オブ・ミュージカル・ノイズ・フェノメノ
ン・ウィズ・ジ・エフライム・アンド・マラー・ノイズ
・サプレッサ(Elimination of musical noise phenome
non with the Ephraim and Malahnoise suppresso
r)」,アイトリプリー・トランザクションズ・オン・
スピーチ・アンド・オーディオ・プロセッシング(IEEE
Transactions on Speech andAudio Processing),ア
メリカ合衆国,インスティチュート・オブ・エレクトリ
カル・アンド・エレクトロニクス・エンジニアーズ・イ
ンコーポレイテッド(Institute of Electrical and El
ectronics Engineers, Inc.)」,1994年4月,第
2巻,p.345−349
603号明細書
する第1の技術的課題は、各周波数帯域において雑音区
間を効率良く検出するために使われて、音声が存在しな
い確率を示す音声不在確率を正確に計算できる音声不在
確率計算装置を提供することである。
題は、各周波数帯域において雑音区間を効果的に検出す
るために使われ、音声が不在する確率を表わす音声不在
確率を正確に計算できる音声不在確率計算方法を提供す
ることである。
題は、音声が不在する確率を表わす音声不在確率に基づ
き音声に含まれた雑音を効率良く除去できる雑音除去装
置を提供することである。
題は、前記雑音除去装置において雑音を除去する雑音除
去方法を提供することである。
るために、音声信号の第m番目のフレームに対して計算
された第1〜第Nc(ここで、Ncはチャンネルの総
数)アポステリオリ信号対雑音比(SNR: Signal to Noi
se Ratio)及び前記第m番目のフレームに対して予測さ
れた第1〜第Nc予測SNRから前記第m番目のフレー
ムに音声が存在しない確率である音声不在確率を計算す
る音声不在確率計算装置は、前記第1〜第Ncアポステ
リオリSNR及び前記第1〜第Nc予測SNRから第1
〜第Nc尤度比を生成して出力する第1〜第Nc尤度比
生成部と、前記第1〜第Nc尤度比を所定のアプリオリ
確率に各々乗算し、乗算された結果を出力する第1乗算
部と、前記第1乗算部から入力された前記乗算結果各々
に所定値を加算し、加算された結果を出力する加算部
と、前記加算部から入力された前記加算結果を乗算し、
乗算された結果を出力する第2乗算部と、前記第2乗算
部から入力された前記乗算結果の逆数を計算し、計算さ
れた逆数を前記音声不在確率として出力する逆数計算部
とを備えることを特徴とする。
号の第m番目のフレームに対して計算された第1〜第N
c(ここで、Ncはチャンネルの総数)アポステリオリ
信号対雑音比及び前記第m番目のフレームに対して予測
された第1〜第Nc予測信号対雑音比から前記第m番目
のフレームに音声が不在する確率である音声不在確率を
計算する音声不在確率計算方法は、前記第1〜第Ncア
ポステリオリSNR及び前記第1〜第Nc予測SNRか
ら前記第1〜第Nc尤度比を生成する(a)段階と、前
記第1〜第Nc尤度比を所定のアプリオリ確率に各々乗
算する(b)段階と、前記乗算された結果各々を前記所
定値に加算する(c)段階と、前記加算された結果を乗
算する(d)段階と、前記(d)段階で乗算された結果
の逆数を計算し、計算された逆数を前記音声不在確率と
して決定する(e)段階とを備えることを特徴とする。
声不在確率に基づき前記音声信号から雑音を除去する本
発明に係る雑音除去装置は、時間領域において前処理さ
れた後に周波数領域に変換され、雑音を含みうる前記音
声信号の前記アポステリオリSNRをフレーム単位に計
算するアポステリオリSNR計算部と、前記音声不在確
率、前記アポステリオリSNR及び以前のSNRからア
プリオリSNR及び前記アポステリオリSNRを修正
し、修正されたアプリオリSNR及び修正されたアポス
テリオリSNRを出力するSNR修正部と、前記修正さ
れたアプリオリSNR及び前記修正されたアポステリオ
リSNRから各周波数チャンネルに適用される利得を計
算し、計算された利得を出力する利得計算部と、前記音
声信号及び前記利得を乗算し、乗算された結果を前記音
声信号から前記雑音が除去された結果として出力する第
3乗算部と、雑音電力の推定値及び前記第3乗算部から
入力された前記乗算結果から前記以前のSNRを計算
し、計算された前記以前のSNRを前記SNR修正部に
出力する以前SNR計算部と、前記音声信号、前記音声
不在確率及び前記予測SNRから前記雑音電力の推定値
及び音声電力の推定値を計算する音声/雑音電力更新部
と、前記音声電力の推定値及び前記雑音電力の推定値か
ら前記予測SNRを計算し、計算された前記予測SNR
を前記音声/雑音電力更新部に各々出力するSNR予測
部とを備えることを特徴とする。
号の第m番目のフレームに対して計算されたアポステリ
オリ信号対雑音比及び前記第m番目のフレームに対して
予測された予測信号対雑音比から計算され、前記第m番
目のフレームに音声が不在する確率を表わす前記音声不
在確率に基づき前記音声信号から雑音を除去する雑音除
去方法は、前記音声信号の前記アポステリオリSNRを
フレーム単位に求める(f)段階と、前記音声不在確
率、前記アポステリオリSNR及び以前のSNRに基づ
きアプリオリSNR及び前記アポステリオリSNRを修
正し、修正された結果を前記修正されたアプリオリSN
R及び前記修正されたアポステリオリSNRとして各々
決定する(g)段階と、前記修正されたアプリオリSN
R及び前記修正されたアポステリオリSNRに基づき各
周波数チャンネルに適用される利得を求める(h)段階
と、前記音声信号及び前記利得を乗算する(i)段階
と、雑音電力の推定値及び前記(i)段階で乗算された
結果に基づき前記以前のSNRを求める(j)段階と、
前記音声信号と前記音声不在確率及び前記予測SNRに
基づき前記雑音電力の推定値及び音声電力の推定値を求
める(k)段階と、前記音声電力の推定値及び前記雑音
電力の推定値に基づき前記予測SNRを求める(l)段
階とを備えることを特徴とする。
発明に係る音声不在確率計算装置の構成及び動作(作
用)とその装置で行われる本発明に係る音声不在確率計
算方法を、好ましい実施の形態として、詳細説明する。
置のブロック図である。本発明に係る音声不在確率計算
装置は、第1〜第Nc尤度比生成部10,12,...
及び14と、第1乗算部20と、加算部30と、第2乗
算部40及び逆数計算部50を含む。
本発明に係る音声不在確率計算方法を説明するためのフ
ローチャートである。音声不在確率計算方法は、生成さ
れた尤度比各々及びアプリオリ確率を乗算する段階(第
60段階及び第62段階)と、乗算された結果に所定値
を加算し、その結果を互いに乗算した後に逆数を取る段
階(第64段階〜第68段階)とを含む。
れた第1〜第Nc(ここで、Ncは各フレームに含まれ
たチャンネルの総数)アポステリオリSNR及び第m番
目のフレームに対して予測された第1〜第Nc予測SN
Rから第1〜第Nc尤度比を生成する(第60段階)。
このために、図1に示された第1,第2,...及び第
Nc尤度比生成部10,12,...及び14は入力端
子IN1を介して入力された第1〜第Ncアポステリオ
リSNR及び入力端子IN2を介して入力された第1〜
第Nc予測SNRから第1〜第Nc尤度比を生成し、生
成された第1〜第Nc尤度比を第1乗算部20に出力す
る。例えば、第i(ここで、1≦i≦Nc)尤度比生成
部10,12,...または14は入力端子IN1及び
IN2を介して各々入力された後、 に基づき、 を計算する。
第i番目のチャンネルにある信号のスペクトルを表わ
し、Sm(i)及びNm(i)は音声及び雑音スペクトルを各々表
わし、 は第m番目のフレームの第i番目のチャンネルにおける
雑音電力の推定値を表わす。
音声電力の推定値を表わす。
〜第Nc尤度比生成部達10,12,...,及び14
から入力された第1〜第Nc尤度比各々を下記式4のよ
うに表わされる所定のアプリオリ確率qに乗算し、乗算
された結果を加算部30に出力する(第62段階)。
確率を表わし、p(H0)は雑音のみ存在する確率を表わ
す。第62段階を行うために、第1乗算部20はNc個
の乗算器22,24,...及び26を含む。第i乗算
器22,24,...または26は、第i尤度比生成部
10,12,...または14から入力された 及びアプリオリ確率qを乗算し、乗算された結果を加算
部30に出力する。
20から入力された乗算結果 各々を入力端子IN3を介して入力された所定値、例え
ば‘1’に加算し、加算された結果を第2乗算部40に
出力する(第64段階)。このために、加算部30は第
1〜第Nc加算器32,34,...及び36を含む。
ここで、第i加算器32,34,...または36は第
i乗算器22,24,...または26から入力された
乗算結果 に‘1’を加算し、加算された結果を第2乗算部40に
出力する。
30から入力された加算結果を乗算し、乗算された結果
を逆数計算部50に出力する(第66段階)。第66段
階後に、逆数計算部50は第2乗算部40から入力され
た乗算結果の逆数を計算し、計算された逆数を第m番目
のフレームに音声が存在しない確率である として出力端子OUT1を介して出力する(第68段
階)。
チャンネルにおけるスペクトル成分が互いに独立的であ
るという仮定下で下記式5のように求められる。
スペクトル成分を表わすベクトルであって、下記式6の
ように表わされ、 は下記式7のように表わされる。
音及び音声の電力を表わす。
ル別に独立的に考慮できるので、下記式8のように求め
られる。
在確率計算装置及び方法を用いる本発明に係る雑音除去
装置の構成及び動作とその雑音除去装置において行われ
る本発明に係る雑音除去方法を下記の通り説明する。
装置を用いる本発明に係る雑音除去装置のブロック図で
あって、アポステリオリSNR計算部80と、音声不在
確率計算装置82と、SNR修正部84と、利得計算部
86と、第3乗算部88と、以前SNR計算部90と、
音声/雑音電力更新部92及びSNR予測部94を含ん
でなる。
いて行われる本発明に係る雑音除去方法を説明するため
のフローチャートであって、アポステリオリSNR及び
予測SNRに基づき音声不在確率を求める段階(第11
0段階及び第112段階)と、修正されたアプリオリS
NR及び修正されたアポステリオリSNRに基づき利得
を求める段階(第114段階及び第116段階)と、音
声信号及び利得を乗算して以前のSNRを求める段階
(第118段階及び第120段階)及び音声と雑音電力
の推定値及び予測SNRを求める段階(第122段階及
び第124段階)を含んでなる。
周波数領域に変換され、雑音を含みうる音声信号のアポ
ステリオリSNRをフレーム単位に求めて第60段階へ
戻る(第110段階)。このために、図3に示されたア
ポステリオリSNR計算部80は雑音を有することがで
き、入力端子IN4を介して前処理部(図示せず)から
入力される音声信号の各フレームにおいてNc個のアポ
ステリオリSNRを計算し、計算されたアポステリオリ
SNRを音声不在確率計算装置82に出力する。ここ
で、前処理部(図示せず)は雑音が混ざった音声信号を
プレエンファシスし、M−ポイント高速フーリエ変換を
行う。例えば、アポステリオリSNR計算部80は、第
m番目のフレームに対する第1〜第Ncアポステリオリ
SNRの一つである を下記式9のように求める。
した音声信号の電力であって、下記式10のように表わ
され、 は使用者により前もって決定されるアポステリオリSN
Rの最低値を表わす。
82は、Nc個のアポステリオリSNR及びNc個の予
測SNRに基づき音声不在確率を前述の如き求める(第
112段階)。図3に示された音声不在確率計算装置8
2は図1に示された音声不在確率装置に当たり、同じ構
成を有して同じ機能を行う。また、図4に示された第1
12段階は図2に示された音声不在確率計算方法と同一
なため、音声不在確率計算装置82及び第112段階に
ついての詳細な説明は省く。
図1または図3に示された音声不在確率計算装置82か
ら入力された アポステリオリSNR計算部80から入力された 及び以前のフレームに対して以前SNR計算部90で計
算されて入力される に基づき を修正し、下記式11のように表わされる を利得計算部86に出力する(第114段階)。
式12のように求められる。
表わす。
NR修正部84から入力された から を下記式14のように計算し、 を第3乗算部88に出力する(第118段階)。
力端子IN4を介して入力された を乗算し、 を出力端子OUT2を介して雑音が除去された音声信
号、すなわち、改善された音声信号として後処理部(図
示せず)に出力する(第118段階)。ここで、後処理
部(図示せず)は改善された音声信号を逆高速フーリエ
変換(IFFT)した後にデエンファシスする。
は第m番目のフレームに対する に基づき下記式13のように表わされた を計算し、 をSNR修正部84に出力する(第120段階)。
92は、入力端子IN4を介して入力された 音声不在確率計算部82から入力された音声不在確率及
びSNR予測部94から入力された予測SNRから雑音
電力の推定値及び音声電力の推定値を計算する(第12
2段階)。例えば、音声/雑音電力更新部92は第m+
1番目のフレームに対する雑音電力の を下記式16のように求める。
m+1番目のフレームに対する を下記式19のように求める。
/雑音電力更新部92は、第m+1番目のフレームの音
声電力の推定値及び第m+1番目のフレームの雑音電力
の推定値を求めるために、第m番目のフレームの音声及
び雑音電力の推定値を貯蔵する。
音声/雑音電力更新部92から入力された音声電力の推
定値及び雑音電力の推定値から予測SNRを計算し、計
算された予測SNRを音声不在確率計算装置82及び音
声/雑音電力更新部92に各々出力する(第124段
階)。例えば、SNR予測部94は、第m+1番目のフ
レームに対する第i番目の 第m+1番目のフレームに対する第i番目の に基づき、第m+1番目のフレームに対する第i番目の
チャンネルの を下記式22のように求める。
基づき雑音を除去した結果と従来のGSD方式により雑
音を除去した結果とを下記の通り比較する。
ベースを用い、4名の女子及び4名の男子に対して音質
に対する客観的及び主観的な評価を行った。この時、客
観的な評価基準として分割SNRを用いる場合、本発明
により雑音が除去された結果が従来の方式により雑音が
除去された結果よりも高いSNRを提供する。また、フ
レームの大きさが80サンプルであり、周波数チャンネ
ルの総数Ncが16であり、 qが0.004であり、サンプリングレートが8kHz
であると仮定すると、主観的な評価により行われた聞き
取り実験(MOS: Mean Opinion Score)の結果は下記表
1の通りである。
取り者が本人の主観的な基準に従い音質を評価したもの
であって、1から5までの数字として示される。数字が
大きいほど平均的に音質が良い。10dBのバブル雑音
を除いたホワイトガウス雑音、20dBのバブル雑音及
びカー雑音において、本発明に係る装置及び方法により
雑音が除去される時に一層良好な音質が提供されるとい
うことが分かる。これより、本発明に係る音声不在確率
計算装置及び方法が従来のGSD方式よりも一層正確に
音声不在確率を計算するということが分かる。
在確率計算装置及び方法と、この装置及び方法を用いた
雑音除去装置及び方法は、音声符号化、音楽符号化、音
声向上のように音響信号の質に関する信号処理前分野の
全体に亘って適用される時、一層正確に音声不在確率を
計算するので、雑音が含まれた音声信号から雑音を効率
良く除去して向上された音質を有する改善された音声信
号を提供できる。
図である。
れる本発明に係る音声不在確率計算方法を説明するため
のフローチャートである。
明に係る雑音除去装置のブロック図である。
明に係る雑音除去方法を説明するためのフローチャート
である。
Claims (4)
- 【請求項1】 音声信号の第m番目のフレームに対して
計算された第1〜第Nc(ここで、Ncはチャンネルの
総数)アポステリオリ信号対雑音比及び前記第m番目の
フレームに対して予測された第1〜第Nc予測信号対雑
音比から前記第m番目のフレームに音声が存在しない確
率である音声不在確率を計算する音声不在確率計算装置
において、 前記第1〜第Ncアポステリオリ信号対雑音比及び前記
第1〜第Nc予測信号対雑音比から第1〜第Nc尤度比
を生成して出力する第1〜第Nc尤度比生成部と、 前記第1〜第Nc尤度比を所定のアプリオリ確率に各々
乗算し、乗算された結果を出力する第1乗算部と、 前記第1乗算部から入力された前記乗算結果各々に所定
値を加算し、加算された結果を出力する加算部と、 前記加算部から入力された前記加算結果を乗算し、乗算
された結果を出力する第2乗算部と、 前記第2乗算部から入力された前記乗算結果の逆数を計
算し、計算された逆数を前記音声不在確率として出力す
る逆数計算部とを備えることを特徴とする音声不在確率
計算装置。 - 【請求項2】 音声信号の第m番目のフレームに対して
計算された第1〜第Nc(ここで、Ncはチャンネルの
総数)アポステリオリ信号対雑音比及び前記第m番目の
フレームに対して予測された第1〜第Nc予測信号対雑
音比から前記第m番目のフレームに音声が不在する確率
である音声不在確率を計算する音声不在確率計算方法に
おいて、 (a)前記第1〜第Ncアポステリオリ信号対雑音比及
び前記第1〜第Nc予測信号対雑音比から前記第1〜第
Nc尤度比を生成する段階と、 (b)前記第1〜第Nc尤度比を所定のアプリオリ確率
に各々乗算する段階と、 (c)前記乗算された結果各々を前記所定値に加算する
段階と、 (d)前記加算された結果を乗算する段階と、 (e)前記(d)段階で乗算された結果の逆数を計算
し、計算された逆数を前記音声不在確率として決定する
段階とを備えることを特徴とする音声不在確率計算方
法。 - 【請求項3】 音声信号の第m番目のフレームに対して
計算されたアポステリオリ信号対雑音比及び前記第m番
目のフレームに対して予測された予測信号対雑音比から
計算され、前記第m番目のフレームに音声が不在する確
率を表わす前記音声不在確率に基づき前記音声信号から
雑音を除去する雑音除去装置において、 時間領域において前処理された後に周波数領域に変換さ
れ、雑音を含みうる前記音声信号の前記アポステリオリ
信号対雑音比をフレーム単位に計算するアポステリオリ
信号対雑音比計算部と、 前記音声不在確率、前記アポステリオリ信号対雑音比及
び以前の信号対雑音比からアプリオリ信号対雑音比及び
前記アポステリオリ信号対雑音比を修正し、修正された
アプリオリ信号対雑音比及び修正されたアポステリオリ
信号対雑音比を出力する信号対雑音比修正部と、 前記修正されたアプリオリ信号対雑音比及び前記修正さ
れたアポステリオリ信号対雑音比から各周波数チャンネ
ルに適用される利得を計算し、計算された利得を出力す
る利得計算部と、 前記音声信号及び前記利得を乗算し、乗算された結果を
前記音声信号から前記雑音が除去された結果として出力
する第3乗算部と、 雑音電力の推定値及び前記第3乗算部から入力された前
記乗算結果から前記以前の信号対雑音比を計算し、計算
された前記以前の信号対雑音比を前記信号対雑音比修正
部に出力する以前信号対雑音比計算部と、 前記音声信号、前記音声不在確率及び前記予測信号対雑
音比から前記雑音電力の推定値及び音声電力の推定値を
計算する音声/雑音電力更新部と、 前記音声電力の推定値及び前記雑音電力の推定値から前
記予測信号対雑音比を計算し、計算された前記予測信号
対雑音比を前記音声/雑音電力更新部に各々出力する信
号対雑音比予測部とを備えることを特徴とする前記音声
不在確率計算装置を利用する雑音除去装置。 - 【請求項4】 音声信号の第m番目のフレームに対して
計算されたアポステリオリ信号対雑音比及び前記第m番
目のフレームに対して予測された予測信号対雑音比から
計算され、前記第m番目のフレームに音声が不在する確
率を表わす前記音声不在確率に基づき前記音声信号から
雑音を除去する雑音除去方法において、 (f)前記音声信号の前記アポステリオリ信号対雑音比
をフレーム単位に求める段階と、 (g)前記音声不在確率、前記アポステリオリ信号対雑
音比及び以前の信号対雑音比に基づきアプリオリ信号対
雑音比及び前記アポステリオリ信号対雑音比を修正し、
修正された結果を前記修正されたアプリオリ信号対雑音
比及び前記修正されたアポステリオリ信号対雑音比とし
て各々決定する段階と、 (h)前記修正されたアプリオリ信号対雑音比及び前記
修正されたアポステリオリ信号対雑音比に基づき各周波
数チャンネルに適用される利得を求める段階と、 (i)前記音声信号及び前記利得を乗算する段階と、 (j)雑音電力の推定値及び前記(i)段階で乗算され
た結果に基づき前記以前の信号対雑音比を求める段階
と、 (k)前記音声信号と前記音声不在確率及び前記予測信
号対雑音比に基づき前記雑音電力の推定値及び音声電力
の推定値を求める段階と、 (l)前記音声電力の推定値及び前記雑音電力の推定値
に基づき前記予測信号対雑音比を求める段階とを備える
ことを特徴とする雑音除去方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR2001-63404 | 2001-10-15 | ||
KR10-2001-0063404A KR100400226B1 (ko) | 2001-10-15 | 2001-10-15 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003177770A true JP2003177770A (ja) | 2003-06-27 |
Family
ID=36590817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002299846A Pending JP2003177770A (ja) | 2001-10-15 | 2002-10-15 | 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7080007B2 (ja) |
EP (1) | EP1304681B1 (ja) |
JP (1) | JP2003177770A (ja) |
KR (1) | KR100400226B1 (ja) |
DE (1) | DE60211826T2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094388A (ja) * | 2005-09-26 | 2007-04-12 | Samsung Electronics Co Ltd | 音声区間検出装置及び音声区間検出方法 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100477699B1 (ko) * | 2003-01-15 | 2005-03-18 | 삼성전자주식회사 | 양자화 잡음 분포 조절 방법 및 장치 |
WO2006116132A2 (en) * | 2005-04-21 | 2006-11-02 | Srs Labs, Inc. | Systems and methods for reducing audio noise |
US7813923B2 (en) * | 2005-10-14 | 2010-10-12 | Microsoft Corporation | Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset |
US7565288B2 (en) | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
KR100821177B1 (ko) * | 2006-09-29 | 2008-04-14 | 한국전자통신연구원 | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 |
US7885810B1 (en) * | 2007-05-10 | 2011-02-08 | Mediatek Inc. | Acoustic signal enhancement method and apparatus |
CN101790758B (zh) * | 2007-07-13 | 2013-01-09 | 杜比实验室特许公司 | 用于控制音频信号的信号处理的设备和方法 |
WO2012107561A1 (en) | 2011-02-10 | 2012-08-16 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
JP2013148724A (ja) * | 2012-01-19 | 2013-08-01 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
RU2642353C2 (ru) * | 2012-09-03 | 2018-01-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи |
CN105493182B (zh) | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
CN106997768B (zh) * | 2016-01-25 | 2019-12-10 | 电信科学技术研究院 | 一种语音出现概率的计算方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691087B2 (en) * | 1997-11-21 | 2004-02-10 | Sarnoff Corporation | Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components |
JP3310225B2 (ja) * | 1998-09-29 | 2002-08-05 | 松下電器産業株式会社 | 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置 |
KR100303477B1 (ko) * | 1999-02-19 | 2001-09-26 | 성원용 | 가능성비 검사에 근거한 음성 유무 검출 장치 |
KR100304666B1 (ko) * | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
EP1096471B1 (en) * | 1999-10-29 | 2004-09-22 | Telefonaktiebolaget LM Ericsson (publ) | Method and means for a robust feature extraction for speech recognition |
-
2001
- 2001-10-15 KR KR10-2001-0063404A patent/KR100400226B1/ko not_active IP Right Cessation
-
2002
- 2002-09-25 US US10/253,418 patent/US7080007B2/en not_active Expired - Fee Related
- 2002-10-08 DE DE60211826T patent/DE60211826T2/de not_active Expired - Lifetime
- 2002-10-08 EP EP02256950A patent/EP1304681B1/en not_active Expired - Lifetime
- 2002-10-15 JP JP2002299846A patent/JP2003177770A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094388A (ja) * | 2005-09-26 | 2007-04-12 | Samsung Electronics Co Ltd | 音声区間検出装置及び音声区間検出方法 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
Also Published As
Publication number | Publication date |
---|---|
EP1304681A3 (en) | 2004-04-21 |
KR20030031660A (ko) | 2003-04-23 |
DE60211826T2 (de) | 2007-05-24 |
KR100400226B1 (ko) | 2003-10-01 |
US7080007B2 (en) | 2006-07-18 |
DE60211826D1 (de) | 2006-07-06 |
US20030101055A1 (en) | 2003-05-29 |
EP1304681B1 (en) | 2006-05-31 |
EP1304681A2 (en) | 2003-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4861645B2 (ja) | スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法 | |
JP5186510B2 (ja) | スピーチ明瞭度強化方法と装置 | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
JP4520732B2 (ja) | 雑音低減装置、および低減方法 | |
US20090163168A1 (en) | Efficient initialization of iterative parameter estimation | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
KR101737824B1 (ko) | 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치 | |
JP2003177770A (ja) | 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法 | |
CN109979478A (zh) | 语音降噪方法及装置、存储介质及电子设备 | |
Chang et al. | Speech enhancement: new approaches to soft decision | |
US7885810B1 (en) | Acoustic signal enhancement method and apparatus | |
JP4434813B2 (ja) | 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置 | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
Saleem | Single channel noise reduction system in low SNR | |
JP2005258158A (ja) | ノイズ除去装置 | |
Hendriks et al. | An MMSE estimator for speech enhancement under a combined stochastic–deterministic speech model | |
Shajeesh et al. | Speech enhancement based on Savitzky-Golay smoothing filter | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
Roy et al. | Deep residual network-based augmented Kalman filter for speech enhancement | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
Lu | Reduction of musical residual noise using block-and-directional-median filter adapted by harmonic properties | |
Ju et al. | A perceptually constrained GSVD-based approach for enhancing speech corrupted by colored noise | |
Roy et al. | Causal convolutional neural network-based Kalman filter for speech enhancement | |
Rustrana et al. | Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment | |
Fingscheidt et al. | Overcoming the statistical independence assumption wrt frequency in speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040507 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070612 |