JP5021212B2 - 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 - Google Patents
複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 Download PDFInfo
- Publication number
- JP5021212B2 JP5021212B2 JP2006011149A JP2006011149A JP5021212B2 JP 5021212 B2 JP5021212 B2 JP 5021212B2 JP 2006011149 A JP2006011149 A JP 2006011149A JP 2006011149 A JP2006011149 A JP 2006011149A JP 5021212 B2 JP5021212 B2 JP 5021212B2
- Authority
- JP
- Japan
- Prior art keywords
- alternative sensor
- frame
- signal
- value
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 27
- 230000001052 transient effect Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000005336 cracking Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 210000003054 facial bone Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Time-Division Multiplex Systems (AREA)
- Machine Translation (AREA)
- Noise Elimination (AREA)
Description
110 コンピュータ
120 処理装置
121 システムバス
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 固定不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 リムーバル不揮発性メモリインターフェース
151 磁気ディスクドライブ
152 磁気ディスク
155 光ディスクドライブ
156 光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイク
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 広域ネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺装置インターフェース
196 プリンタ
197 スピーカ
200 モバイルデバイス
202 プロセッサ
204 メモリ
206 I/O
208 通信インターフェース
212 OS
214 APP(S)
216 オブジェクトストア
300 話者
302 X
304 気導(AIR CONDUCTION)マイク
306 代替センサ
308 V
310 周辺ノイズ源
320 センサノイズW
322 A/D
324 A/D
326 フレーム
328 フレーム
330 FFT
332 FFT
334 B
336 Y
338 強調モデルトレーナ
340 ダイレクトフィルタイリング強調
342 クリーン音声信号
344 IFFT
346 重複と加算
348 音声処理
400 発話に対する気導マイクおよび代替センサの値を収集する
402 音声/非音声フレームを識別する
404 背景ノイズおよび代替センサノイズの分散を決定し、非音声フレームからGを推定する
406 すべての音声フレームにわたりHの推定値を決定する
408 音声フレームごとにFを計算する
410 Fに対する閾値に基づいて、フレームをクラック音フレームとして分類する
412 クラック音フレームの数>5%
414 閾値を変更する
416 閾値に基づいて、フレームをクラック音フレームとして分類する
418 非クラック音声フレームのみを使用してHを再計算する
420 Hを使用して、音声フレームごとに別個のXtを推定する
500 音声検出ユニット
502 非音声フレーム
504 音声フレーム
506 背景ノイズ推定器
508 代替センサノイズ推定器
510 G推定器
512 モデルパラメータ
514 歯クラック音(TEETH CLACK)検出器
516 非クラック音フレーム
518 HおよびσH 2推定器
600 フレームについて気導マイクおよび代替センサの値を収集する
602 音声フレームか?
604 背景ノイズおよび代替センサノイズの分散、ならびに推定値Gを更新する。
606 フレームについてFを計算しバッファに追加する
608 Fに対する閾値に基づいて現行フレームを分類する
610 現行フレーム=クラック音フレームか?
612 クラック音フレームの数>5%
614 閾値を変更する
616 新しい閾値に基づいてフレームを再分類する
618 現行フレーム=クラック音フレームか?
620 Ht=Ht-1およびBt=HtYtに設定する
622 現行フレームに基づいてHtおよびσH 2を更新する
624 HtおよびBtを使用してXtを推定する
Claims (5)
- ユーザが歯をかみ合わせた音によって引き起こされる不快なカチッという音を除去した推定されるクリーンな音声信号を提供する方法であって、前記ユーザが歯をかみ合わせた音によって引き起こされる不快なカチッという音は、過渡ノイズの一つであり、
代替センサは咽喉マイク又は骨伝導センサであり、代替センサを使用して代替センサ信号のフレームを生成するステップであって、気導マイクよりも前記代替センサに前記過渡ノイズをより検出させる、生成するステップと、
前記気導マイク信号のフレームを生成するステップと、
音声を含む前記代替センサ信号のフレームを識別するステップと、
前記気導マイク信号のフレームに基づいて、音声を含む前記代替センサ信号のフレームが、前記過渡ノイズによって破損したかどうかを判定するステップであって、前記過渡ノイズは、値Ftを決定し該値Ftを閾値と比較することにより、前記気導マイクよりも前記代替センサによってより検出され、ここでFtは、次式
として求められ、kは前記代替センサ信号のフレームを表すBtと前記気導マイク信号のフレームを表すYtとの周波数領域値における周波数成分の個数であり、Hは話し手から前記代替センサへの経路のチャネル応答であり、
は前記代替センサのセンサノイズの分散であり、
は背景ノイズの分散であり、
は前記チャネル応答Hの先行モデルの分散であって、前記閾値は前記関数の値に対するカイ2乗分布に基づく、判定するステップと、
前記代替センサ信号のフレームが前記過渡ノイズによって破損されていないと判定された場合に、前記代替センサ信号のフレームに基づいて、前記過渡ノイズが低減された音声信号の値を推定するステップと
を備えたことを特徴とする方法。 - 前記過渡ノイズが低減された音声信号の値を推定するステップは、前記代替センサに関するチャネル応答の前記推定値Hを使用するステップを含むことを特徴とする請求項1に記載の方法。
- 前記過渡ノイズによって破損していないと判定される前記代替センサ信号の部分のみに基づいて、前記チャネル応答の前記推定値Hを更新するステップをさらに備えたことを特徴とする請求項2に記載の方法。
- 前記代替センサ信号の一定数より多くのフレームが、前記過渡ノイズによって破損したと判定された場合に、前記閾値を調整するステップを更に備えたことを特徴とする請求項1に記載の方法。
- 請求項1乃至4の何れか1項に記載の方法を実行するプログラムを有することを特徴とするコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/050,936 US7590529B2 (en) | 2005-02-04 | 2005-02-04 | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
US11/050,936 | 2005-02-04 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006215549A JP2006215549A (ja) | 2006-08-17 |
JP2006215549A5 JP2006215549A5 (ja) | 2009-03-05 |
JP5021212B2 true JP5021212B2 (ja) | 2012-09-05 |
Family
ID=36084220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006011149A Expired - Fee Related JP5021212B2 (ja) | 2005-02-04 | 2006-01-19 | 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7590529B2 (ja) |
EP (1) | EP1688919B1 (ja) |
JP (1) | JP5021212B2 (ja) |
AT (1) | ATE373858T1 (ja) |
DE (1) | DE602006000109T2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680656B2 (en) * | 2005-06-28 | 2010-03-16 | Microsoft Corporation | Multi-sensory speech enhancement using a speech-state model |
US7406303B2 (en) | 2005-07-05 | 2008-07-29 | Microsoft Corporation | Multi-sensory speech enhancement using synthesized sensor signal |
JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
KR100738332B1 (ko) * | 2005-10-28 | 2007-07-12 | 한국전자통신연구원 | 성대신호 인식 장치 및 그 방법 |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US8094621B2 (en) * | 2009-02-13 | 2012-01-10 | Mitsubishi Electric Research Laboratories, Inc. | Fast handover protocols for WiMAX networks |
US9240195B2 (en) * | 2010-11-25 | 2016-01-19 | Goertek Inc. | Speech enhancing method and device, and denoising communication headphone enhancing method and device, and denoising communication headphones |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
KR102405793B1 (ko) * | 2015-10-15 | 2022-06-08 | 삼성전자 주식회사 | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 |
KR102192678B1 (ko) | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
US9978397B2 (en) * | 2015-12-22 | 2018-05-22 | Intel Corporation | Wearer voice activity detection |
US10535364B1 (en) * | 2016-09-08 | 2020-01-14 | Amazon Technologies, Inc. | Voice activity detection using air conduction and bone conduction microphones |
WO2022193327A1 (zh) * | 2021-03-19 | 2022-09-22 | 深圳市韶音科技有限公司 | 信号处理系统、方法、装置及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3947636A (en) * | 1974-08-12 | 1976-03-30 | Edgar Albert D | Transient noise filter employing crosscorrelation to detect noise and autocorrelation to replace the noisey segment |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US5590241A (en) * | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
EP0984660B1 (en) * | 1994-05-18 | 2003-07-30 | Nippon Telegraph and Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducer part |
JP3097901B2 (ja) * | 1996-06-28 | 2000-10-10 | 日本電信電話株式会社 | 通話装置 |
JP3095214B2 (ja) * | 1996-06-28 | 2000-10-03 | 日本電信電話株式会社 | 通話装置 |
JPH11265199A (ja) * | 1998-03-18 | 1999-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 送話器 |
US6480823B1 (en) * | 1998-03-24 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Speech detection for noisy conditions |
JP2000102087A (ja) * | 1998-09-25 | 2000-04-07 | Nippon Telegr & Teleph Corp <Ntt> | 通信装置 |
US6327564B1 (en) * | 1999-03-05 | 2001-12-04 | Matsushita Electric Corporation Of America | Speech detection using stochastic confidence measures on the frequency spectrum |
JP2000261530A (ja) * | 1999-03-10 | 2000-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話装置 |
US20020039425A1 (en) * | 2000-07-19 | 2002-04-04 | Burnett Gregory C. | Method and apparatus for removing noise from electronic signals |
DE10045197C1 (de) * | 2000-09-13 | 2002-03-07 | Siemens Audiologische Technik | Verfahren zum Betrieb eines Hörhilfegerätes oder Hörgerätessystems sowie Hörhilfegerät oder Hörgerätesystem |
US7617099B2 (en) | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
JP2002358089A (ja) * | 2001-06-01 | 2002-12-13 | Denso Corp | 音声処理装置及び音声処理方法 |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7103540B2 (en) * | 2002-05-20 | 2006-09-05 | Microsoft Corporation | Method of pattern recognition using noise reduction uncertainty |
-
2005
- 2005-02-04 US US11/050,936 patent/US7590529B2/en not_active Expired - Fee Related
-
2006
- 2006-01-04 AT AT06100071T patent/ATE373858T1/de not_active IP Right Cessation
- 2006-01-04 DE DE602006000109T patent/DE602006000109T2/de active Active
- 2006-01-04 EP EP06100071A patent/EP1688919B1/en not_active Ceased
- 2006-01-19 JP JP2006011149A patent/JP5021212B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060178880A1 (en) | 2006-08-10 |
US7590529B2 (en) | 2009-09-15 |
DE602006000109T2 (de) | 2008-01-10 |
EP1688919B1 (en) | 2007-09-19 |
DE602006000109D1 (de) | 2007-10-31 |
JP2006215549A (ja) | 2006-08-17 |
ATE373858T1 (de) | 2007-10-15 |
EP1688919A1 (en) | 2006-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5021212B2 (ja) | 複数感知の音声強調の際に代替センサ信号によるノイズ破損を低減するための方法および装置 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
JP4975025B2 (ja) | クリーン音声の事前分布を使用した多感覚応用の音声強調 | |
JP5452655B2 (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
JP5247855B2 (ja) | 複数感知の音声強調のための方法および機器 | |
KR101201146B1 (ko) | 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법 | |
JP4219774B2 (ja) | 劣化信号から雑音を除去する非線形観測モデル | |
US20060206325A1 (en) | Method of pattern recognition using noise reduction uncertainty | |
JP2005527002A (ja) | ノイズの低減に関連する不確実性を判定する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090119 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120614 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |