JP4769663B2 - 音声区間検出装置及び音声区間検出方法 - Google Patents
音声区間検出装置及び音声区間検出方法 Download PDFInfo
- Publication number
- JP4769663B2 JP4769663B2 JP2006223742A JP2006223742A JP4769663B2 JP 4769663 B2 JP4769663 B2 JP 4769663B2 JP 2006223742 A JP2006223742 A JP 2006223742A JP 2006223742 A JP2006223742 A JP 2006223742A JP 4769663 B2 JP4769663 B2 JP 4769663B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- probability distribution
- probability
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 46
- 238000001228 spectrum Methods 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 description 26
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
図1Aないし図1Dにおいて、X軸は、音声信号の大きさと雑音信号の大きさを相対的に比較した値を示すものであって、1kHzないし1.03kHzの周波数帯域に対するバンドエネルギーの大きさを示し、Y軸はこれに対する確率を示している。
図1Aは、SNRが20dBである場合を、図1Bは、SNRが10dBである場合を、図1Cは、SNRが5dBである場合を、図1Dは、SNRが0dBである場合を各々示している。図1Aないし図1Dを参照すれば、SNRの値が小さくなるほど、ノイズが混ざっている音声信号110がノイズ信号120によりかき消されて、ノイズが混ざっている音声信号110をノイズ信号120から区別し難くなることがわかる。
低いSNRでも音声が存在する区間とノイズだけ存在する区間との分布を推定し、推定した音声スペクトルの分布について統計的モデリング技法を使用することにより分布推定のエラーを少なくすることができる。
なお、同一の符号は、同一の構成を示している。
さらに、前記種々の構成要素やモジュールは、装置に搭載される1または2以上のCPUを実行するために実装してもよい。
ドメイン変換モジュール220は、受信された入力信号を周波数領域の信号に変換する。すなわち、時間ドメイン方式での入力信号を周波数ドメイン方式での信号に変換することである。
次に、ドメイン変換モジュール220により前記入力された信号についてのフレームが生成される(S320)。このとき、前記入力された信号についてのフレームは、信号入力モジュール210により生成された後、ドメイン変換モジュール220に伝えられうる。
図4A及び図4Bに示されているように、入力信号からノイズスペクトルを差し引いた結果、音声信号とノイズ信号との交差点は、バンドエネルギーレベル(X軸)が0となる地点に偏る傾向を有するために、ピークがバンドエネルギーレベルの0に近くなり、ヒストグラムのテールが長い統計的モデルを適用することによって、確率誤差を減らすことができる。
レイリーラプラス分布モデルは、レイリー分布モデルにラプラス分布(Laplace distribution)を適用したものであり、その過程を具体的に説明する。
もし、2つのランダムプロセスxとyとが同じ偏差と平均0であるガウス分布による場合には、xとy各々に対する確率密度関数P(x)とP(y)は、式(4)のように示される。ここで、σ2は分散を示す。
本発明についての実験資料として、音声信号は、男女各8人が、人名、地名、商号名など100個の単語を発話して総数1600個の単語を発話した。また、ノイズとして自動車環境ノイズを用いたが、高速道路を時速100±10kmの定速走行中の車両で録音した自動車ノイズを用いた。
すなわち、本発明の技術的範囲は、特許請求の範囲の記載に基づいて定められ、発明を実施するための最良の形態の記載により制限されるものではない。
210 信号入力モジュール
220 ドメイン変換モジュール
230 引き算スペクトル生成モジュール
240 モデリングモジュール
250 音声検出モジュール
Claims (15)
- 受信した音声入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換するドメイン変換モジュールと、
前記変換された周波数領域の信号から、前のフレームの所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する引き算スペクトル生成モジュールと、
前記スペクトル引き算信号を所定の確率分布モデルに適用するモデリングモジュールと、
前記モデリングモジュールにより演算された確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する音声検出モジュールと、
を備え、
前記モデリングモジュールは、前記確率分布モデルから現在のフレームに音声が存在しない確率を演算し、演算された確率情報を前記引き算スペクトル生成モジュールへ伝送し、前記引き算スペクトル生成モジュールは、前記伝送される確率情報を利用して前記ノイズスペクトルを更新し、更新したノイズスペクトルを次のフレームで引き算されるノイズスペクトルとして利用することを特徴とする音声区間検出装置。 - 前記ドメイン変換モジュールは、高速フーリエ変換(FFT)を用いて周波数領域の信号に変換することを特徴とする請求項1に記載の音声区間検出装置。
- 前記ノイズスペクトルは、前記変換された周波数領域の信号と前記モデリングモジュールから受信した音声不存在確率についての情報とを用いて演算することを特徴とする請求項1に記載の音声区間検出装置。
- 前記確率分布モデルは、ピークがバンドエネルギーレベルの0に近く、ヒストグラムのテールが長い統計的モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
- 前記確率分布モデルは、レイリー分布にラプラス分布を適用した確率分布モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
- 前記音声検出モジュールは、前記確率分布モデルによる確率分布から現在のフレームに音声が存在しているか否かを決定することを特徴とする請求項5に記載の音声区間検出装置。
- 前記確率分布モデルは、レイリー分布モデルを含むことを特徴とする請求項1に記載の音声区間検出装置。
- コンピュータを用いて音声区間を検出する音声検出方法であって、
ドメイン変換モジュールが、受信した入力信号を所定の時間間隔に分けたフレーム単位で周波数領域の信号に変換する(a)ステップと、
引き算スペクトル生成モジュールが、前記変換された周波数領域の信号から、前のフレームの所定のノイズスペクトルを差し引いたスペクトル引き算信号を生成する(b)ステップと、
モデリングモジュールが、前記スペクトル引き算信号を所定の確率分布モデルに適用する(c)ステップと、
音声検出モジュールが、前記確率分布モデルの適用による確率分布を通じて現在のフレーム区間に音声信号が存在しているか否かを決定する(d)ステップと、
を含み、
前記(c)ステップは、前記確率分布モデルから現在のフレームに音声が存在しない確率の、前記演算された確率情報の伝送を含み、前記(b)ステップは、伝送された音声不存在確率についての情報を利用した前記ノイズスペクトルを更新し、更新したノイズスペクトルの、次のフレームで引き算されるノイズスペクトルとしての利用を含む音声区間検出方法。 - 前記(a)ステップは、前記ドメイン変換モジュールが、高速フーリエ変換(FFT)を用いて周波数領域の信号に変換するステップを含むことを特徴とする請求項8に記載の音声区間検出方法。
- 前記ノイズスペクトルは、前記変換された周波数信号と前記確率分布モデルの適用に係る音声不存在確率についての情報とを用いて演算することを特徴とする請求項8に記載の音声区間検出方法。
- 前記確率分布モデルは、ピークがバンドエネルギーレベルの0に近く、ヒストグラムのテールが長い統計的モデルを含むことを特徴とする請求項8に記載の音声区間検出方法。
- 前記確率分布モデルは、レイリー分布にラプラス分布を適用した確率分布モデルを含むことを特徴とする請求項8に記載の音声区間検出方法。
- 前記(d)ステップは、前記音声検出モジュールが、前記確率分布モデルの確率分布から現在のフレームに音声が存在しているか否かを決定することを特徴とする請求項12に記載の音声区間検出方法。
- 前記確率分布モデルは、レイリー分布モデルを含むことを特徴とする請求項8に記載の音声区間検出方法。
- 請求項8〜14に記載の音声区間検出方法をコンピュータに実行させることを特徴とする音声区間検出プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2005-0089526 | 2005-09-26 | ||
KR1020050089526A KR100745977B1 (ko) | 2005-09-26 | 2005-09-26 | 음성 구간 검출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007094388A JP2007094388A (ja) | 2007-04-12 |
JP4769663B2 true JP4769663B2 (ja) | 2011-09-07 |
Family
ID=37895263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006223742A Expired - Fee Related JP4769663B2 (ja) | 2005-09-26 | 2006-08-21 | 音声区間検出装置及び音声区間検出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7711558B2 (ja) |
JP (1) | JP4769663B2 (ja) |
KR (1) | KR100745977B1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100657948B1 (ko) * | 2005-02-03 | 2006-12-14 | 삼성전자주식회사 | 음성향상장치 및 방법 |
EP2242046A4 (en) * | 2008-01-11 | 2013-10-30 | Nec Corp | SYSTEM, APPARATUS, METHOD AND PROGRAM FOR CONTROL OF SIGNAL ANALYSIS, SIGNAL ANALYSIS AND SIGNAL CONTROL |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
EP2261894A4 (en) * | 2008-03-14 | 2013-01-16 | Nec Corp | SIGNAL ANALYSIS / CONTROL SYSTEM AND METHOD, SIGNAL CONTROL DEVICE AND METHOD, AND PROGRAM |
JP5773124B2 (ja) * | 2008-04-21 | 2015-09-02 | 日本電気株式会社 | 信号分析制御及び信号制御のシステム、装置、方法及びプログラム |
GB0901504D0 (en) | 2009-01-29 | 2009-03-11 | Cambridge Silicon Radio Ltd | Radio Apparatus |
US8738367B2 (en) * | 2009-03-18 | 2014-05-27 | Nec Corporation | Speech signal processing device |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
ES2489472T3 (es) | 2010-12-24 | 2014-09-02 | Huawei Technologies Co., Ltd. | Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
JP5668553B2 (ja) * | 2011-03-18 | 2015-02-12 | 富士通株式会社 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
US9280982B1 (en) * | 2011-03-29 | 2016-03-08 | Google Technology Holdings LLC | Nonstationary noise estimator (NNSE) |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN111226277B (zh) * | 2017-12-18 | 2022-12-27 | 华为技术有限公司 | 语音增强方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4897878A (en) * | 1985-08-26 | 1990-01-30 | Itt Corporation | Noise compensation in speech recognition apparatus |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
JPH04251299A (ja) | 1991-01-09 | 1992-09-07 | Sanyo Electric Co Ltd | 音声区間検出方法 |
JP3484757B2 (ja) | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
JPH10240294A (ja) | 1997-02-28 | 1998-09-11 | Mitsubishi Electric Corp | 雑音軽減方法及び雑音軽減装置 |
US6044341A (en) * | 1997-07-16 | 2000-03-28 | Olympus Optical Co., Ltd. | Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice |
US6691087B2 (en) * | 1997-11-21 | 2004-02-10 | Sarnoff Corporation | Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components |
AT408286B (de) * | 1999-09-10 | 2001-10-25 | Siemens Ag Oesterreich | Verfahren zur unterdrückung von störrauschen in einem signalfeld |
JP3878482B2 (ja) | 1999-11-24 | 2007-02-07 | 富士通株式会社 | 音声検出装置および音声検出方法 |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
AU2001294989A1 (en) * | 2000-10-04 | 2002-04-15 | Clarity, L.L.C. | Speech detection |
KR100400226B1 (ko) * | 2001-10-15 | 2003-10-01 | 삼성전자주식회사 | 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 |
US7139703B2 (en) * | 2002-04-05 | 2006-11-21 | Microsoft Corporation | Method of iterative noise estimation in a recursive framework |
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
KR100513175B1 (ko) * | 2002-12-24 | 2005-09-07 | 한국전자통신연구원 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
US7305132B2 (en) | 2003-11-19 | 2007-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Classification in likelihood spaces |
-
2005
- 2005-09-26 KR KR1020050089526A patent/KR100745977B1/ko not_active IP Right Cessation
-
2006
- 2006-06-22 US US11/472,304 patent/US7711558B2/en active Active
- 2006-08-21 JP JP2006223742A patent/JP4769663B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7711558B2 (en) | 2010-05-04 |
KR20070034881A (ko) | 2007-03-29 |
KR100745977B1 (ko) | 2007-08-06 |
JP2007094388A (ja) | 2007-04-12 |
US20070073537A1 (en) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4769663B2 (ja) | 音声区間検出装置及び音声区間検出方法 | |
US20200213728A1 (en) | Audio-based detection and tracking of emergency vehicles | |
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
US10510363B2 (en) | Pitch detection algorithm based on PWVT | |
JP2021533423A (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
CN101149928B (zh) | 声音信号处理方法、声音信号处理设备及计算机程序 | |
US8504362B2 (en) | Noise reduction for speech recognition in a moving vehicle | |
JP2007114774A (ja) | 音声信号における一過性ノイズの最小化 | |
US9704495B2 (en) | Modified mel filter bank structure using spectral characteristics for sound analysis | |
US20150032445A1 (en) | Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium | |
CN106558315A (zh) | 异质麦克风自动增益校准方法及系统 | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
May et al. | Computational speech segregation based on an auditory-inspired modulation analysis | |
US11308970B2 (en) | Voice correction apparatus and voice correction method | |
Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
KR102329353B1 (ko) | 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 | |
US11176957B2 (en) | Low complexity detection of voiced speech and pitch estimation | |
JP2017041752A (ja) | 車両用音響装置 | |
EP3956890B1 (en) | A dialog detector | |
US20240355351A1 (en) | Speech features-based single channel voice activity detection method and system for reducing noise from an audio signal | |
JP2009069305A (ja) | 音響エコー削除装置および車載装置 | |
Sunitha et al. | Noise Robust Speech Recognition under Noisy Environments | |
JP6226065B2 (ja) | ソーナー装置、信号処理方法及びプログラム | |
Gouhar et al. | Speech enhancement using new iterative minimum statistics approach | |
Hwang et al. | Energy contour enhancement for noisy speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110315 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4769663 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |