JP2003177770A - 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法 - Google Patents

音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法

Info

Publication number
JP2003177770A
JP2003177770A JP2002299846A JP2002299846A JP2003177770A JP 2003177770 A JP2003177770 A JP 2003177770A JP 2002299846 A JP2002299846 A JP 2002299846A JP 2002299846 A JP2002299846 A JP 2002299846A JP 2003177770 A JP2003177770 A JP 2003177770A
Authority
JP
Japan
Prior art keywords
signal
noise
noise ratio
voice
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002299846A
Other languages
English (en)
Inventor
Chang-Yong Son
昌 用 孫
Vladimir Shin
ウラジミール・シン
Sang-Ryong Kim
尚 龍 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2003177770A publication Critical patent/JP2003177770A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 音声不在確率計算装置及び方法、これを用い
た雑音除去装置、方法の提供。 【解決手段】音声信号の第m番目のフレームに対して計
算された第1〜第Ncアポステリオリ信号対雑音比及び
第m番目のフレームに対して予測された第1〜第Nc予
測信号対雑音比から第m番目のフレームに音声不在確率
を出すこの装置は、第1〜第Ncアポステリオリ信号対
雑音比及び第1〜第Nc予測信号対雑音比から第1〜第
Nc尤度比を生成し出力する第1〜第Nc尤度比生成部
と、第1〜第Nc尤度比を所定のアプリオリ確率に各々
乗算、乗算された結果を出力する第1乗算部、第1乗算
部から入力された乗算結果各々に所定値を加算、加算さ
れた結果を出力する加算部、加算部から入力された加算
結果を乗算、乗算された結果を出力する第2乗算部、第
2乗算部から入力された前記乗算結果の逆数を計算、計
算された逆数を音声不在確率として出力する逆数計算部
を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声信号処理に係
り、特に、音声不在確率(SAP: Speech Absence Probab
ility)を計算する装置及び方法と、この装置及び方法
を用いて音声に存在する雑音を除去する装置及び方法に
関する。
【0002】
【従来の技術】音声不在確率は与えられた音声区間に音
声が存在しない確率であり、この確率に基づきその区間
における音声の存否が判断できる。ここで、音声が存在
しないと判断された区間は雑音のみ存在するとみなさ
れ、雑音のみ存在するとみなされた区間で雑音の分散が
更新される。ここで、雑音の分散は雑音除去装置の性能
に大きい影響を及ぼすので、音声不在確率をより正確に
計算することによって雑音を効率良く除去できる。
【0003】音声向上とは、音声通信システムの入力ま
たは出力信号が雑音により汚染されている時に、システ
ムの性能を向上させること、すなわち、システムの性能
に及ぼす雑音の影響を最小化させることを意味する。音
声向上は、人と人との通信や人と機械との通信における
様々な状況下で、例えば、通信チャンネル上で雑音の影
響を受ける時や受信端で雑音が混ざる時に必要とされ
る。特に、雑音に汚染された入力音声信号を音声コーデ
ィングする時、音声認識システムの性能を向上させなけ
ればならない時、全般的に音質を向上させる必要がある
時、音声向上が必要となる。一般に、音声向上とは、音
声不在が不確実であるような雑音音声環境下で、雑音の
ないきれいな音声信号を推定することを意味する。雑音
音声スペクトルの各周波数チャンネルに存在する「音声
不在の不確実性を活用するというコンセプト」は多くの
人々により音声向上システムの性能改善に適用されてき
た(ここで、「音声不在の不確実性を活用するというコ
ンセプト」については、非特許文献1参照。)。
【0004】過去の研究では、ほとんどの場合、音声不
在確率を計算する従来の方式は、他の周波数チャンネル
と関係なく各々の周波数チャンネルに対してのみ局所的
に音声不在確率を計算するものであった。しかし、この
ような従来の方式は、利用するデータが十分ではないた
め、音声向上を実現する時に統計的な信頼性が保証され
ないという問題点を有する。
【0005】上述の問題を解決するために開発された従
来の他の方式として、グローバルソフト決定(GSD: glo
bal soft decision)方式がある(例えば、非特許文献
2参照。)。ここに開示されている従来のGSD方式は
IS−127標準で使われる方法よりも優れているとい
うことが検証されている。このGSD方式はあらゆる周
波数チャンネルのデータを使って与えられた時間フレー
ムが音声不在フレームであるか否かを全域的に判断し、
しかも十分な量のデータを使用するので、前記従来の方
法に比べて,統計的な信頼性を向上させられる。さら
に、従来のGSD方式は従来の他のいかなる音声不在確
率計算方法とも異なって、音声不在フレームだけではな
く音声存在フレームにおいても雑音音声から雑音電力ス
ペクトルを推定するので、音声不在確率計算がより正確
に行えるとともに、スペクトル利得及び雑音スペクトル
推定方法に強じん性を与える(このような従来のGSD
方式の一例として、大韓民国特許出願第99−3611
5号「音声向上方法」に記載がある。特許文献1参
照。)。しかし、前述の如き従来のGSD方式は、各周
波数チャンネルにおいてスペクトル成分が独立している
という正確ではない仮定に基づくために音声不在確率を
正確に計算できず、しかも雑音環境下で雑音を効率良く
除去できないという問題点を有する。
【0006】その他、関連する先行技術文献として、非
特許文献3、非特許文献4、非特許文献5がある。
【0007】
【非特許文献1】ヤリフ・エフライム(Yariv Ephrai
m),ダヴィド・マラー(David Malah)共著,「スピー
チ・エンハンスメント・ユージング・ア・ミニマム・ミ
ーンスクエア・エラー・ショートタイム・スペクトラル
・アンプリチュード・エスティメータ(Speech Enhance
ment using a Minimum Mean-Square Error Short-Time
Spectral Amplitude Estimator)」,アイトリプリー・
トランザクションズ・オン・アコースティクス・スピー
チ・アンド・シグナル・プロセッシング(IEEE Transac
tions on Acoustics, Speech, and Signal Processin
g),アメリカ合衆国,インスティチュート・オブ・エ
レクトリカル・アンド・エレクトロニクス・エンジニア
ーズ・インコーポレイテッド(Institute of Electrica
l and Electronics Engineers, Inc.),1984年,
第ASSP−32巻,第6号,p.1109−1121
【非特許文献2】N・キム(N. Kim),J・チャン(J.
Chang)共著,「スペクトラル・エンハンスメント・ベ
イスト・オン・グローバル・ソフト・デシジョン(Spec
tral enhancement based on global soft decisio
n)」,アイトリプリー・シグナル・プロセッシング・
レターズ(IEEE Signal Processing Letters),アメリ
カ合衆国,インスティチュート・オブ・エレクトリカル
・アンド・エレクトロニクス・エンジニアーズ・インコ
ーポレイテッド(Institute of Electrical and Electr
onics Engineers, Inc.),2000年,第7巻,p.
108−110
【非特許文献3】R・J・マコーレイ(R. J. McAula
y),L・マルパス(Malpass)共著,「スピーチ・エン
ハンスメント・ユージング・ア・ソフトデシジョン・ノ
イズ・サプレッション・フィルタ(Speech enhancement
using a soft-decision noise suppression filte
r)」,アイトリプリー・トランザクションズ・オン・
アコースティクス・スピーチ・アンド・シグナル・プロ
セッシング(IEEE Transactionson Acoustics, Speech,
and Signal Processing),アメリカ合衆国,インステ
ィチュート・オブ・エレクトリカル・アンド・エレクト
ロニクス・エンジニアーズ・インコーポレイテッド(In
stitute of Electrical and Electronics Engineers, I
nc.),1980年4月,第ASSP−28巻,p.1
37−145
【非特許文献4】J.S.リム(J. S. Lim),A.
V.オッペンハイム(A. V. Oppenheim)共著,「エン
ハンスメント・アンド・バンドウィドス・コンプレッシ
ョン・オブ・ノイズ・スピーチ(Enhancement and band
width compression of noise speech)」,プロシーデ
ィングズ・オブ・ジ・アイトリプリー(Proceedings of
the IEEE),アメリカ合衆国,インスティチュート・
オブ・エレクトリカル・アンド・エレクトロニクス・エ
ンジニアーズ・インコーポレイテッド(Institute of E
lectrical and Electronics Engineers, Inc.),19
79年,第67巻,p.1586−1604
【非特許文献5】O・カッペ(O. Cappe)著,「エリミ
ネーション・オブ・ミュージカル・ノイズ・フェノメノ
ン・ウィズ・ジ・エフライム・アンド・マラー・ノイズ
・サプレッサ(Elimination of musical noise phenome
non with the Ephraim and Malahnoise suppresso
r)」,アイトリプリー・トランザクションズ・オン・
スピーチ・アンド・オーディオ・プロセッシング(IEEE
Transactions on Speech andAudio Processing),ア
メリカ合衆国,インスティチュート・オブ・エレクトリ
カル・アンド・エレクトロニクス・エンジニアーズ・イ
ンコーポレイテッド(Institute of Electrical and El
ectronics Engineers, Inc.)」,1994年4月,第
2巻,p.345−349
【特許文献1】大韓民国特許出願公開第2001−19
603号明細書
【0008】
【発明が解決しようとする課題】本発明が解決しようと
する第1の技術的課題は、各周波数帯域において雑音区
間を効率良く検出するために使われて、音声が存在しな
い確率を示す音声不在確率を正確に計算できる音声不在
確率計算装置を提供することである。
【0009】本発明が解決しようとする第2の技術的課
題は、各周波数帯域において雑音区間を効果的に検出す
るために使われ、音声が不在する確率を表わす音声不在
確率を正確に計算できる音声不在確率計算方法を提供す
ることである。
【0010】本発明が解決しようとする第3の技術的課
題は、音声が不在する確率を表わす音声不在確率に基づ
き音声に含まれた雑音を効率良く除去できる雑音除去装
置を提供することである。
【0011】本発明が解決しようとする第4の技術的課
題は、前記雑音除去装置において雑音を除去する雑音除
去方法を提供することである。
【0012】
【課題を解決するための手段】前記第1の課題を達成す
るために、音声信号の第m番目のフレームに対して計算
された第1〜第Nc(ここで、Ncはチャンネルの総
数)アポステリオリ信号対雑音比(SNR: Signal to Noi
se Ratio)及び前記第m番目のフレームに対して予測さ
れた第1〜第Nc予測SNRから前記第m番目のフレー
ムに音声が存在しない確率である音声不在確率を計算す
る音声不在確率計算装置は、前記第1〜第Ncアポステ
リオリSNR及び前記第1〜第Nc予測SNRから第1
〜第Nc尤度比を生成して出力する第1〜第Nc尤度比
生成部と、前記第1〜第Nc尤度比を所定のアプリオリ
確率に各々乗算し、乗算された結果を出力する第1乗算
部と、前記第1乗算部から入力された前記乗算結果各々
に所定値を加算し、加算された結果を出力する加算部
と、前記加算部から入力された前記加算結果を乗算し、
乗算された結果を出力する第2乗算部と、前記第2乗算
部から入力された前記乗算結果の逆数を計算し、計算さ
れた逆数を前記音声不在確率として出力する逆数計算部
とを備えることを特徴とする。
【0013】前記第2の課題を達成するために、音声信
号の第m番目のフレームに対して計算された第1〜第N
c(ここで、Ncはチャンネルの総数)アポステリオリ
信号対雑音比及び前記第m番目のフレームに対して予測
された第1〜第Nc予測信号対雑音比から前記第m番目
のフレームに音声が不在する確率である音声不在確率を
計算する音声不在確率計算方法は、前記第1〜第Ncア
ポステリオリSNR及び前記第1〜第Nc予測SNRか
ら前記第1〜第Nc尤度比を生成する(a)段階と、前
記第1〜第Nc尤度比を所定のアプリオリ確率に各々乗
算する(b)段階と、前記乗算された結果各々を前記所
定値に加算する(c)段階と、前記加算された結果を乗
算する(d)段階と、前記(d)段階で乗算された結果
の逆数を計算し、計算された逆数を前記音声不在確率と
して決定する(e)段階とを備えることを特徴とする。
【0014】前記第3の課題を達成するために、前記音
声不在確率に基づき前記音声信号から雑音を除去する本
発明に係る雑音除去装置は、時間領域において前処理さ
れた後に周波数領域に変換され、雑音を含みうる前記音
声信号の前記アポステリオリSNRをフレーム単位に計
算するアポステリオリSNR計算部と、前記音声不在確
率、前記アポステリオリSNR及び以前のSNRからア
プリオリSNR及び前記アポステリオリSNRを修正
し、修正されたアプリオリSNR及び修正されたアポス
テリオリSNRを出力するSNR修正部と、前記修正さ
れたアプリオリSNR及び前記修正されたアポステリオ
リSNRから各周波数チャンネルに適用される利得を計
算し、計算された利得を出力する利得計算部と、前記音
声信号及び前記利得を乗算し、乗算された結果を前記音
声信号から前記雑音が除去された結果として出力する第
3乗算部と、雑音電力の推定値及び前記第3乗算部から
入力された前記乗算結果から前記以前のSNRを計算
し、計算された前記以前のSNRを前記SNR修正部に
出力する以前SNR計算部と、前記音声信号、前記音声
不在確率及び前記予測SNRから前記雑音電力の推定値
及び音声電力の推定値を計算する音声/雑音電力更新部
と、前記音声電力の推定値及び前記雑音電力の推定値か
ら前記予測SNRを計算し、計算された前記予測SNR
を前記音声/雑音電力更新部に各々出力するSNR予測
部とを備えることを特徴とする。
【0015】前記第4の課題を達成するために、音声信
号の第m番目のフレームに対して計算されたアポステリ
オリ信号対雑音比及び前記第m番目のフレームに対して
予測された予測信号対雑音比から計算され、前記第m番
目のフレームに音声が不在する確率を表わす前記音声不
在確率に基づき前記音声信号から雑音を除去する雑音除
去方法は、前記音声信号の前記アポステリオリSNRを
フレーム単位に求める(f)段階と、前記音声不在確
率、前記アポステリオリSNR及び以前のSNRに基づ
きアプリオリSNR及び前記アポステリオリSNRを修
正し、修正された結果を前記修正されたアプリオリSN
R及び前記修正されたアポステリオリSNRとして各々
決定する(g)段階と、前記修正されたアプリオリSN
R及び前記修正されたアポステリオリSNRに基づき各
周波数チャンネルに適用される利得を求める(h)段階
と、前記音声信号及び前記利得を乗算する(i)段階
と、雑音電力の推定値及び前記(i)段階で乗算された
結果に基づき前記以前のSNRを求める(j)段階と、
前記音声信号と前記音声不在確率及び前記予測SNRに
基づき前記雑音電力の推定値及び音声電力の推定値を求
める(k)段階と、前記音声電力の推定値及び前記雑音
電力の推定値に基づき前記予測SNRを求める(l)段
階とを備えることを特徴とする。
【0016】
【発明の実施の形態】以下、添付した図面に基づき、本
発明に係る音声不在確率計算装置の構成及び動作(作
用)とその装置で行われる本発明に係る音声不在確率計
算方法を、好ましい実施の形態として、詳細説明する。
【0017】図1は、本発明に係る音声不在確率計算装
置のブロック図である。本発明に係る音声不在確率計算
装置は、第1〜第Nc尤度比生成部10,12,...
及び14と、第1乗算部20と、加算部30と、第2乗
算部40及び逆数計算部50を含む。
【0018】図2は、図1に示す装置において行われる
本発明に係る音声不在確率計算方法を説明するためのフ
ローチャートである。音声不在確率計算方法は、生成さ
れた尤度比各々及びアプリオリ確率を乗算する段階(第
60段階及び第62段階)と、乗算された結果に所定値
を加算し、その結果を互いに乗算した後に逆数を取る段
階(第64段階〜第68段階)とを含む。
【0019】まず、第m番目のフレームに対して計算さ
れた第1〜第Nc(ここで、Ncは各フレームに含まれ
たチャンネルの総数)アポステリオリSNR及び第m番
目のフレームに対して予測された第1〜第Nc予測SN
Rから第1〜第Nc尤度比を生成する(第60段階)。
このために、図1に示された第1,第2,...及び第
Nc尤度比生成部10,12,...及び14は入力端
子IN1を介して入力された第1〜第Ncアポステリオ
リSNR及び入力端子IN2を介して入力された第1〜
第Nc予測SNRから第1〜第Nc尤度比を生成し、生
成された第1〜第Nc尤度比を第1乗算部20に出力す
る。例えば、第i(ここで、1≦i≦Nc)尤度比生成
部10,12,...または14は入力端子IN1及び
IN2を介して各々入力された後、 に基づき、 を計算する。
【0020】
【数1】
【0021】ここで、, Gm(i)は第m番目のフレームの
第i番目のチャンネルにある信号のスペクトルを表わ
し、Sm(i)及びNm(i)は音声及び雑音スペクトルを各々表
わし、 は第m番目のフレームの第i番目のチャンネルにおける
雑音電力の推定値を表わす。
【0022】
【数2】
【0023】ここで、 は第m番目のフレームの第i番目のチャンネルにおける
音声電力の推定値を表わす。
【0024】
【数3】
【0025】第60段階後に、第1乗算部20は、第1
〜第Nc尤度比生成部達10,12,...,及び14
から入力された第1〜第Nc尤度比各々を下記式4のよ
うに表わされる所定のアプリオリ確率qに乗算し、乗算
された結果を加算部30に出力する(第62段階)。
【0026】
【数4】
【0027】ここで、 p(H1)は雑音及び音声が共存する
確率を表わし、p(H0)は雑音のみ存在する確率を表わ
す。第62段階を行うために、第1乗算部20はNc個
の乗算器22,24,...及び26を含む。第i乗算
器22,24,...または26は、第i尤度比生成部
10,12,...または14から入力された 及びアプリオリ確率qを乗算し、乗算された結果を加算
部30に出力する。
【0028】第62段階後に、加算部30は第1乗算部
20から入力された乗算結果 各々を入力端子IN3を介して入力された所定値、例え
ば‘1’に加算し、加算された結果を第2乗算部40に
出力する(第64段階)。このために、加算部30は第
1〜第Nc加算器32,34,...及び36を含む。
ここで、第i加算器32,34,...または36は第
i乗算器22,24,...または26から入力された
乗算結果 に‘1’を加算し、加算された結果を第2乗算部40に
出力する。
【0029】第64段階後に、第2乗算部40は加算部
30から入力された加算結果を乗算し、乗算された結果
を逆数計算部50に出力する(第66段階)。第66段
階後に、逆数計算部50は第2乗算部40から入力され
た乗算結果の逆数を計算し、計算された逆数を第m番目
のフレームに音声が存在しない確率である として出力端子OUT1を介して出力する(第68段
階)。
【0030】結局、従来の方式により計算された が互いに独立的であるという仮定、すなわち、各周波数
チャンネルにおけるスペクトル成分が互いに独立的であ
るという仮定下で下記式5のように求められる。
【0031】
【数5】
【0032】ここで、G(m)は第m番目のフレームの
スペクトル成分を表わすベクトルであって、下記式6の
ように表わされ、 は下記式7のように表わされる。
【0033】
【数6】
【0034】
【数7】
【0035】ここで、 は各々第m番目のフレームの第i番目のチャンネルの雑
音及び音声の電力を表わす。
【0036】これに対し、本発明により計算された は音声の在否を第m番目のフレームにおいて各チャンネ
ル別に独立的に考慮できるので、下記式8のように求め
られる。
【0037】
【数8】
【0038】以下、添付した図面に基づき、前記音声不
在確率計算装置及び方法を用いる本発明に係る雑音除去
装置の構成及び動作とその雑音除去装置において行われ
る本発明に係る雑音除去方法を下記の通り説明する。
【0039】図3は、図1に示された音声不在確率計算
装置を用いる本発明に係る雑音除去装置のブロック図で
あって、アポステリオリSNR計算部80と、音声不在
確率計算装置82と、SNR修正部84と、利得計算部
86と、第3乗算部88と、以前SNR計算部90と、
音声/雑音電力更新部92及びSNR予測部94を含ん
でなる。
【0040】図4は、図3に示された雑音除去装置にお
いて行われる本発明に係る雑音除去方法を説明するため
のフローチャートであって、アポステリオリSNR及び
予測SNRに基づき音声不在確率を求める段階(第11
0段階及び第112段階)と、修正されたアプリオリS
NR及び修正されたアポステリオリSNRに基づき利得
を求める段階(第114段階及び第116段階)と、音
声信号及び利得を乗算して以前のSNRを求める段階
(第118段階及び第120段階)及び音声と雑音電力
の推定値及び予測SNRを求める段階(第122段階及
び第124段階)を含んでなる。
【0041】まず、時間領域において前処理された後に
周波数領域に変換され、雑音を含みうる音声信号のアポ
ステリオリSNRをフレーム単位に求めて第60段階へ
戻る(第110段階)。このために、図3に示されたア
ポステリオリSNR計算部80は雑音を有することがで
き、入力端子IN4を介して前処理部(図示せず)から
入力される音声信号の各フレームにおいてNc個のアポ
ステリオリSNRを計算し、計算されたアポステリオリ
SNRを音声不在確率計算装置82に出力する。ここ
で、前処理部(図示せず)は雑音が混ざった音声信号を
プレエンファシスし、M−ポイント高速フーリエ変換を
行う。例えば、アポステリオリSNR計算部80は、第
m番目のフレームに対する第1〜第Ncアポステリオリ
SNRの一つである を下記式9のように求める。
【0042】
【数9】
【0043】ここで、 は音声信号のフレーム間の相関性を考慮する時に平滑化
した音声信号の電力であって、下記式10のように表わ
され、 は使用者により前もって決定されるアポステリオリSN
Rの最低値を表わす。
【0044】
【数10】
【0045】ここで、 は平滑化パラメータを表わす。
【0046】第110段階後に、音声不在確率計算装置
82は、Nc個のアポステリオリSNR及びNc個の予
測SNRに基づき音声不在確率を前述の如き求める(第
112段階)。図3に示された音声不在確率計算装置8
2は図1に示された音声不在確率装置に当たり、同じ構
成を有して同じ機能を行う。また、図4に示された第1
12段階は図2に示された音声不在確率計算方法と同一
なため、音声不在確率計算装置82及び第112段階に
ついての詳細な説明は省く。
【0047】第112段階後に、SNR修正部84は、
図1または図3に示された音声不在確率計算装置82か
ら入力された アポステリオリSNR計算部80から入力された 及び以前のフレームに対して以前SNR計算部90で計
算されて入力される に基づき を修正し、下記式11のように表わされる を利得計算部86に出力する(第114段階)。
【0048】
【数11】
【0049】ここで、 は決定進行(DD: Decision-Directed)方式により下記
式12のように求められる。
【0050】
【数12】
【0051】ここで、 は下記式13のように表わされる。
【0052】
【数13】
【0053】ここで、 は第m−1番目のフレームにおける音声電力の推定値を
表わす。
【0054】第114段階後に、利得計算部86は、S
NR修正部84から入力された から を下記式14のように計算し、 を第3乗算部88に出力する(第118段階)。
【0055】
【数14】
【0056】ここで、 は下記式15のように表わされ、 は0次の修正されたベッセル関数を表わし、 は1次の修正されたベッセル関数を表わす。
【0057】
【数15】
【0058】第116段階後に、第3乗算部88は、入
力端子IN4を介して入力された を乗算し、 を出力端子OUT2を介して雑音が除去された音声信
号、すなわち、改善された音声信号として後処理部(図
示せず)に出力する(第118段階)。ここで、後処理
部(図示せず)は改善された音声信号を逆高速フーリエ
変換(IFFT)した後にデエンファシスする。
【0059】第118段階後に、以前SNR計算部90
は第m番目のフレームに対する に基づき下記式13のように表わされた を計算し、 をSNR修正部84に出力する(第120段階)。
【0060】第120段階後に、音声/雑音電力更新部
92は、入力端子IN4を介して入力された 音声不在確率計算部82から入力された音声不在確率及
びSNR予測部94から入力された予測SNRから雑音
電力の推定値及び音声電力の推定値を計算する(第12
2段階)。例えば、音声/雑音電力更新部92は第m+
1番目のフレームに対する雑音電力の を下記式16のように求める。
【0061】
【数16】
【0062】ここで、 GSD方式により下記式17のように求められる。
【0063】
【数17】
【0064】ここで、
【0065】
【数18】
【0066】この時、音声/雑音電力更新部92は、第
m+1番目のフレームに対する を下記式19のように求める。
【0067】
【数19】
【0068】ここで、 GSD方式により下記式20のように表わされる。
【0069】
【数20】
【0070】ここで、
【0071】
【数21】
【0072】前式18及び21から分かるように、音声
/雑音電力更新部92は、第m+1番目のフレームの音
声電力の推定値及び第m+1番目のフレームの雑音電力
の推定値を求めるために、第m番目のフレームの音声及
び雑音電力の推定値を貯蔵する。
【0073】第122段階後に、SNR予測部94は、
音声/雑音電力更新部92から入力された音声電力の推
定値及び雑音電力の推定値から予測SNRを計算し、計
算された予測SNRを音声不在確率計算装置82及び音
声/雑音電力更新部92に各々出力する(第124段
階)。例えば、SNR予測部94は、第m+1番目のフ
レームに対する第i番目の 第m+1番目のフレームに対する第i番目の に基づき、第m+1番目のフレームに対する第i番目の
チャンネルの を下記式22のように求める。
【0074】
【数22】
【0075】以下、本発明により求めた音声不在確率に
基づき雑音を除去した結果と従来のGSD方式により雑
音を除去した結果とを下記の通り比較する。
【0076】ITU−Tから提供する韓国語音声データ
ベースを用い、4名の女子及び4名の男子に対して音質
に対する客観的及び主観的な評価を行った。この時、客
観的な評価基準として分割SNRを用いる場合、本発明
により雑音が除去された結果が従来の方式により雑音が
除去された結果よりも高いSNRを提供する。また、フ
レームの大きさが80サンプルであり、周波数チャンネ
ルの総数Ncが16であり、 qが0.004であり、サンプリングレートが8kHz
であると仮定すると、主観的な評価により行われた聞き
取り実験(MOS: Mean Opinion Score)の結果は下記表
1の通りである。
【0077】
【表1】
【0078】ここで、右側の3列に記載された数字は聞
取り者が本人の主観的な基準に従い音質を評価したもの
であって、1から5までの数字として示される。数字が
大きいほど平均的に音質が良い。10dBのバブル雑音
を除いたホワイトガウス雑音、20dBのバブル雑音及
びカー雑音において、本発明に係る装置及び方法により
雑音が除去される時に一層良好な音質が提供されるとい
うことが分かる。これより、本発明に係る音声不在確率
計算装置及び方法が従来のGSD方式よりも一層正確に
音声不在確率を計算するということが分かる。
【0079】
【発明の効果】以上述べたように、本発明に係る音声不
在確率計算装置及び方法と、この装置及び方法を用いた
雑音除去装置及び方法は、音声符号化、音楽符号化、音
声向上のように音響信号の質に関する信号処理前分野の
全体に亘って適用される時、一層正確に音声不在確率を
計算するので、雑音が含まれた音声信号から雑音を効率
良く除去して向上された音質を有する改善された音声信
号を提供できる。
【図面の簡単な説明】
【図1】本発明に係る音声不在確率計算装置のブロック
図である。
【図2】図1に示す音声不在確率計算装置において行わ
れる本発明に係る音声不在確率計算方法を説明するため
のフローチャートである。
【図3】図1に示す音声不在確率計算装置を用いる本発
明に係る雑音除去装置のブロック図である。
【図4】図3に示す雑音除去装置において行われる本発
明に係る雑音除去方法を説明するためのフローチャート
である。
【符号の説明】
20 第1乗算部 30 加算部 40 第2乗算部 IN1〜IN3 入力端子 OUT1 出力端子 q アプリオリ確率
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金 尚 龍 大韓民国 京畿道 龍仁市 水枝邑 上▲ 硯▼里 30番地 盛原アパート 118棟 1204号 Fターム(参考) 5D015 EE05

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声信号の第m番目のフレームに対して
    計算された第1〜第Nc(ここで、Ncはチャンネルの
    総数)アポステリオリ信号対雑音比及び前記第m番目の
    フレームに対して予測された第1〜第Nc予測信号対雑
    音比から前記第m番目のフレームに音声が存在しない確
    率である音声不在確率を計算する音声不在確率計算装置
    において、 前記第1〜第Ncアポステリオリ信号対雑音比及び前記
    第1〜第Nc予測信号対雑音比から第1〜第Nc尤度比
    を生成して出力する第1〜第Nc尤度比生成部と、 前記第1〜第Nc尤度比を所定のアプリオリ確率に各々
    乗算し、乗算された結果を出力する第1乗算部と、 前記第1乗算部から入力された前記乗算結果各々に所定
    値を加算し、加算された結果を出力する加算部と、 前記加算部から入力された前記加算結果を乗算し、乗算
    された結果を出力する第2乗算部と、 前記第2乗算部から入力された前記乗算結果の逆数を計
    算し、計算された逆数を前記音声不在確率として出力す
    る逆数計算部とを備えることを特徴とする音声不在確率
    計算装置。
  2. 【請求項2】 音声信号の第m番目のフレームに対して
    計算された第1〜第Nc(ここで、Ncはチャンネルの
    総数)アポステリオリ信号対雑音比及び前記第m番目の
    フレームに対して予測された第1〜第Nc予測信号対雑
    音比から前記第m番目のフレームに音声が不在する確率
    である音声不在確率を計算する音声不在確率計算方法に
    おいて、 (a)前記第1〜第Ncアポステリオリ信号対雑音比及
    び前記第1〜第Nc予測信号対雑音比から前記第1〜第
    Nc尤度比を生成する段階と、 (b)前記第1〜第Nc尤度比を所定のアプリオリ確率
    に各々乗算する段階と、 (c)前記乗算された結果各々を前記所定値に加算する
    段階と、 (d)前記加算された結果を乗算する段階と、 (e)前記(d)段階で乗算された結果の逆数を計算
    し、計算された逆数を前記音声不在確率として決定する
    段階とを備えることを特徴とする音声不在確率計算方
    法。
  3. 【請求項3】 音声信号の第m番目のフレームに対して
    計算されたアポステリオリ信号対雑音比及び前記第m番
    目のフレームに対して予測された予測信号対雑音比から
    計算され、前記第m番目のフレームに音声が不在する確
    率を表わす前記音声不在確率に基づき前記音声信号から
    雑音を除去する雑音除去装置において、 時間領域において前処理された後に周波数領域に変換さ
    れ、雑音を含みうる前記音声信号の前記アポステリオリ
    信号対雑音比をフレーム単位に計算するアポステリオリ
    信号対雑音比計算部と、 前記音声不在確率、前記アポステリオリ信号対雑音比及
    び以前の信号対雑音比からアプリオリ信号対雑音比及び
    前記アポステリオリ信号対雑音比を修正し、修正された
    アプリオリ信号対雑音比及び修正されたアポステリオリ
    信号対雑音比を出力する信号対雑音比修正部と、 前記修正されたアプリオリ信号対雑音比及び前記修正さ
    れたアポステリオリ信号対雑音比から各周波数チャンネ
    ルに適用される利得を計算し、計算された利得を出力す
    る利得計算部と、 前記音声信号及び前記利得を乗算し、乗算された結果を
    前記音声信号から前記雑音が除去された結果として出力
    する第3乗算部と、 雑音電力の推定値及び前記第3乗算部から入力された前
    記乗算結果から前記以前の信号対雑音比を計算し、計算
    された前記以前の信号対雑音比を前記信号対雑音比修正
    部に出力する以前信号対雑音比計算部と、 前記音声信号、前記音声不在確率及び前記予測信号対雑
    音比から前記雑音電力の推定値及び音声電力の推定値を
    計算する音声/雑音電力更新部と、 前記音声電力の推定値及び前記雑音電力の推定値から前
    記予測信号対雑音比を計算し、計算された前記予測信号
    対雑音比を前記音声/雑音電力更新部に各々出力する信
    号対雑音比予測部とを備えることを特徴とする前記音声
    不在確率計算装置を利用する雑音除去装置。
  4. 【請求項4】 音声信号の第m番目のフレームに対して
    計算されたアポステリオリ信号対雑音比及び前記第m番
    目のフレームに対して予測された予測信号対雑音比から
    計算され、前記第m番目のフレームに音声が不在する確
    率を表わす前記音声不在確率に基づき前記音声信号から
    雑音を除去する雑音除去方法において、 (f)前記音声信号の前記アポステリオリ信号対雑音比
    をフレーム単位に求める段階と、 (g)前記音声不在確率、前記アポステリオリ信号対雑
    音比及び以前の信号対雑音比に基づきアプリオリ信号対
    雑音比及び前記アポステリオリ信号対雑音比を修正し、
    修正された結果を前記修正されたアプリオリ信号対雑音
    比及び前記修正されたアポステリオリ信号対雑音比とし
    て各々決定する段階と、 (h)前記修正されたアプリオリ信号対雑音比及び前記
    修正されたアポステリオリ信号対雑音比に基づき各周波
    数チャンネルに適用される利得を求める段階と、 (i)前記音声信号及び前記利得を乗算する段階と、 (j)雑音電力の推定値及び前記(i)段階で乗算され
    た結果に基づき前記以前の信号対雑音比を求める段階
    と、 (k)前記音声信号と前記音声不在確率及び前記予測信
    号対雑音比に基づき前記雑音電力の推定値及び音声電力
    の推定値を求める段階と、 (l)前記音声電力の推定値及び前記雑音電力の推定値
    に基づき前記予測信号対雑音比を求める段階とを備える
    ことを特徴とする雑音除去方法。
JP2002299846A 2001-10-15 2002-10-15 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法 Pending JP2003177770A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2001-63404 2001-10-15
KR10-2001-0063404A KR100400226B1 (ko) 2001-10-15 2001-10-15 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법

Publications (1)

Publication Number Publication Date
JP2003177770A true JP2003177770A (ja) 2003-06-27

Family

ID=36590817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002299846A Pending JP2003177770A (ja) 2001-10-15 2002-10-15 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法

Country Status (5)

Country Link
US (1) US7080007B2 (ja)
EP (1) EP1304681B1 (ja)
JP (1) JP2003177770A (ja)
KR (1) KR100400226B1 (ja)
DE (1) DE60211826T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
WO2006116132A2 (en) * 2005-04-21 2006-11-02 Srs Labs, Inc. Systems and methods for reducing audio noise
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
CN101790758B (zh) * 2007-07-13 2013-01-09 杜比实验室特许公司 用于控制音频信号的信号处理的设备和方法
WO2012107561A1 (en) 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
RU2642353C2 (ru) * 2012-09-03 2018-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
CN105493182B (zh) 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
JP3310225B2 (ja) * 1998-09-29 2002-08-05 松下電器産業株式会社 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置
KR100303477B1 (ko) * 1999-02-19 2001-09-26 성원용 가능성비 검사에 근거한 음성 유무 검출 장치
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
EP1096471B1 (en) * 1999-10-29 2004-09-22 Telefonaktiebolaget LM Ericsson (publ) Method and means for a robust feature extraction for speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Also Published As

Publication number Publication date
EP1304681A3 (en) 2004-04-21
KR20030031660A (ko) 2003-04-23
DE60211826T2 (de) 2007-05-24
KR100400226B1 (ko) 2003-10-01
US7080007B2 (en) 2006-07-18
DE60211826D1 (de) 2006-07-06
US20030101055A1 (en) 2003-05-29
EP1304681B1 (en) 2006-05-31
EP1304681A2 (en) 2003-04-23

Similar Documents

Publication Publication Date Title
JP4861645B2 (ja) スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
JP5528538B2 (ja) 雑音抑圧装置
JP4520732B2 (ja) 雑音低減装置、および低減方法
US20090163168A1 (en) Efficient initialization of iterative parameter estimation
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2003177770A (ja) 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法
CN109979478A (zh) 语音降噪方法及装置、存储介质及电子设备
Chang et al. Speech enhancement: new approaches to soft decision
US7885810B1 (en) Acoustic signal enhancement method and apparatus
JP4434813B2 (ja) 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
Saleem Single channel noise reduction system in low SNR
JP2005258158A (ja) ノイズ除去装置
Hendriks et al. An MMSE estimator for speech enhancement under a combined stochastic–deterministic speech model
Shajeesh et al. Speech enhancement based on Savitzky-Golay smoothing filter
KR101610708B1 (ko) 음성 인식 장치 및 방법
Roy et al. Deep residual network-based augmented Kalman filter for speech enhancement
EP1635331A1 (en) Method for estimating a signal to noise ratio
Lu Reduction of musical residual noise using block-and-directional-median filter adapted by harmonic properties
Ju et al. A perceptually constrained GSVD-based approach for enhancing speech corrupted by colored noise
Roy et al. Causal convolutional neural network-based Kalman filter for speech enhancement
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment
Fingscheidt et al. Overcoming the statistical independence assumption wrt frequency in speech enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040507

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070612