JP4497911B2 - 信号検出装置および方法、ならびにプログラム - Google Patents
信号検出装置および方法、ならびにプログラム Download PDFInfo
- Publication number
- JP4497911B2 JP4497911B2 JP2003418646A JP2003418646A JP4497911B2 JP 4497911 B2 JP4497911 B2 JP 4497911B2 JP 2003418646 A JP2003418646 A JP 2003418646A JP 2003418646 A JP2003418646 A JP 2003418646A JP 4497911 B2 JP4497911 B2 JP 4497911B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal sequence
- likelihood
- vector
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Description
上記したような先行技術には、典型的な音声信号と背景雑音の間の信号対雑音比を指定する方法がない。このために、ある種の雑音が誤って音声として通知されることになる。この点、本発明の一つの特徴は、信号対雑音比をあらかじめ設定する手段を提供することにより、MAP法(事後確立最大化法)による定式化をしたことにある。このことにより、ある種の雑音において、音声検出の感度を低くすることが可能となる。
上記した典型的な先行技術は、音声信号のスペクトル形状に関して何ら仮定をしていない。このために、単に音の大きい雑音も誤って音声として通知されることになる。この点、本発明のもう一つの特徴は、ある種の雑音(周波数形状が平坦であるもの)と音声(周波数形状が平坦ではないもの)との区別を可能にする差分スペクトル尺度を用いている点にある。
上記の先行技術では、背景雑音が現れる区間のみを用いて雑音追尾の更新が行われる。このような区間においては、低周波の変動のみを精度よく追尾できるように、最小追尾率を用いる必要がある。先行技術では、明示的な最小値が与えられていないため、特に前述のMAP法を用いた場合には、高周波の変動をも追尾してしまう可能性がある。本発明のもう一つの特徴は、最小追尾率を有する雑音追尾方法にある。
に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比L fに基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。
に従い計算する尤度比計算手段と、前記尤度比計算手段により計算された尤度比L f に基づいて前記信号系列の状態を判断する判断手段とを有することを特徴とする。
に従い計算する尤度比計算ステップと、判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップとを有することを特徴とする。
に従い計算する尤度比計算ステップと、判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップとを有することを特徴とする。
マイクロフォン9より入力された音響信号(音声および背景雑音が含まれうる)は、A/Dコンバータ10によって例えば11.025kHzでサンプリングされ、フレーム処理モジュール32により、256サンプルからなるフレームに分割される。このフレームは例えば110サンプル毎に生成される。これにより、これらのフレームは、隣接するフレームとオーバーラップすることになる。この構成によれば、100フレームでおよそ1秒となる。各フレームは、ハミング窓処理の後、ハートレー変換処理が行われ、同じ周波数に対応するハートレー変換の2つの出力結果は2乗和がとられ、ぺリオドグラム(periodgram)が形成される。ぺリオドグラムは一般に、パワースペクトル密度(PSD:Power Spectral Density)として知られている。256サンプルのフレームでは、PSDは128個の値(bin)からなる。
メル尺度信号は、雑音追跡モジュール36および音声区間検出尺度計算モジュール38に入力される。雑音追跡モジュール36は、入力されたメル尺度信号において、緩やかに変動する背景雑音を追跡する。この追跡には、過去に音声区間検出尺度計算モジュール38で計算された音声区間検出尺度の平均が利用される。
本発明は音声区間検出尺度として数1に示した尤度比を用いることは先述したとおりである。以下では、尤度比の算出する3つの手法を示す。
最尤法(ML:Maximum Likelihood method)は、例えば次式により表される。これは、非特許文献2として掲げた、Jongseo Sohnらによる“A Voice Activity Detector employing soft decision based noise spectrum adaptation.”(Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998)にも開示されている。
ところで、上記(1)の最尤法を用いた計算方法では、ベクトルλfの計算が必要とされる。この計算には、スペクトルサブトラクション法や、判定結果により導出する推定("decision directed" estimation)のような処理を必要とする。そこで、最尤法を用いるかわりに最大事後確率法(MAP:Maximum a-posteriori method)を用いることもできる。MAPによる方法では、ベクトルλfの計算を避けることができるという利点がある。この計算手順を図示すると、図6のようになる。この場合では、61で示される雑音尤度計算は、上記の最尤法の場合(図5の52で示される雑音尤度計算)と同様であるが、音声尤度計算は上記の最尤法と異なり、次式により計算する。
ところで、上記した2つの計算法は、特徴量を直接用いる方法に基づいている。これと異なる方法として、(時間ドメインではなく)特徴量ドメインにおいて、音声区間検出計算を行う前にローパスフィルタを施す方法がある。特徴量がスペクトルの場合には、下記の2つの利点が生まれる。
(b)また、メル化する処理の導入により生じる、相関を除くことができる。
典型的なローパスフィルタは、次の再帰式により表される。
x’2 = x2−x3,
・・・
x’S-1 = xS-1−xS
x’2 = x3−x4,
・・・
x’S/2 = xS-1−xS
上述の全てのLfの計算は、次式のとおり定式化される。
図8は、本実施形態における信号検出処理を示すフローチャートである。このフローチャートに対応するプログラムはHDD4に記憶されているVADプログラムに含まれ、RAM3にロードされた後、CPU1によって実行されるものである。
上述した実施形態は、音声認識などの音声に関わる内容で説明したが、本発明は例えば、機械などの音や動物の音などの音声以外の音響信号にも適用することが可能である。また、ソナーや動物の音などのように、人には聞くことができないような領域の音響情報にも利用できるものである。さらに、レーダーや無線信号などの電磁波などの信号などにも利用できる。
Claims (5)
- 入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 fを抽出する第1の抽出手段と、
前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ fを抽出する第2の抽出手段と、
前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
に従い計算する尤度比計算手段と、
前記尤度比計算手段により計算された尤度比L fに基づいて前記信号系列の状態を判断する判断手段と、
を有することを特徴とする信号検出装置。 - 入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出手段と、
前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出手段と、
前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
に従い計算する尤度比計算手段と、
前記尤度比計算手段により計算された尤度比L f に基づいて前記信号系列の状態を判断する判断手段と、
を有することを特徴とする信号検出装置。 - 信号検出装置によって実行される信号検出方法であって、
第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルパワーベクトルs 2 f を抽出する第1の抽出ステップと、
第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、
前記スペクトルパワーベクトルs 2 f のk番目の要素をs 2 k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
に従い計算する尤度比計算ステップと、
判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップと、
を有することを特徴とする信号検出方法。 - 信号検出装置によって実行される信号検出方法であって、
第1の抽出手段が、入力したフレームfにおける信号系列の特徴量として前記信号系列のスペクトルマグニチュードベクトルs f を抽出する第1の抽出ステップと、
第2の抽出手段が、前記信号系列に含まれる雑音成分の特徴量として前記信号系列の雑音推定ベクトルμ f を抽出する第2の抽出ステップと、
前記スペクトルマグニチュードベクトルs f のk番目の要素をs k 、前記雑音推定ベクトルμ f のk番目の要素をμ k 、ベクトル要素の個数をS、予め設定した信号対雑音比をω、低域不完全ガンマ関数をγとするとき、尤度比計算手段が、前記信号系列が音声として検出される確からしさを表す音声尤度と前記信号系列が雑音として検出される確からしさを表す雑音尤度との比を表すフレームfにおける尤度比L f を、次式、
に従い計算する尤度比計算ステップと、
判断手段が、前記尤度比計算ステップで計算された尤度比L f に基づいて前記信号系列の状態を判断する判断ステップと、
を有することを特徴とする信号検出方法。 - コンピュータを、請求項1又は2に記載の信号検出装置が有する各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418646A JP4497911B2 (ja) | 2003-12-16 | 2003-12-16 | 信号検出装置および方法、ならびにプログラム |
US11/007,245 US7475012B2 (en) | 2003-12-16 | 2004-12-09 | Signal detection using maximum a posteriori likelihood and noise spectral difference |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418646A JP4497911B2 (ja) | 2003-12-16 | 2003-12-16 | 信号検出装置および方法、ならびにプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005181458A JP2005181458A (ja) | 2005-07-07 |
JP2005181458A5 JP2005181458A5 (ja) | 2007-02-01 |
JP4497911B2 true JP4497911B2 (ja) | 2010-07-07 |
Family
ID=34650709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003418646A Expired - Fee Related JP4497911B2 (ja) | 2003-12-16 | 2003-12-16 | 信号検出装置および方法、ならびにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7475012B2 (ja) |
JP (1) | JP4497911B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
KR100714721B1 (ko) * | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
GB2426166B (en) * | 2005-05-09 | 2007-10-17 | Toshiba Res Europ Ltd | Voice activity detection apparatus and method |
US8738367B2 (en) * | 2009-03-18 | 2014-05-27 | Nec Corporation | Speech signal processing device |
US8560313B2 (en) * | 2010-05-13 | 2013-10-15 | General Motors Llc | Transient noise rejection for speech recognition |
JP5621783B2 (ja) * | 2009-12-10 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
CN102741918B (zh) * | 2010-12-24 | 2014-11-19 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
BR112015031180B1 (pt) * | 2013-06-21 | 2022-04-05 | Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto |
WO2015059947A1 (ja) * | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
WO2015059946A1 (ja) * | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
KR102495517B1 (ko) * | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
CN107346658B (zh) * | 2017-07-14 | 2020-07-28 | 深圳永顺智信息科技有限公司 | 混响抑制方法及装置 |
JP6716513B2 (ja) * | 2017-08-29 | 2020-07-01 | 日本電信電話株式会社 | 音声区間検出装置、その方法、及びプログラム |
CN107731242B (zh) * | 2017-09-26 | 2020-09-04 | 桂林电子科技大学 | 一种广义最大后验的谱幅度估计的增益函数语音增强方法 |
CN112489692A (zh) * | 2020-11-03 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音端点检测方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0458297A (ja) * | 1990-06-27 | 1992-02-25 | Toshiba Corp | 有音検出装置および有音検出方法 |
JPH05273992A (ja) * | 1992-03-25 | 1993-10-22 | Mitsubishi Electric Corp | 音声区間検出装置 |
JP2000330597A (ja) * | 1999-05-20 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 雑音抑圧装置 |
JP2002055691A (ja) * | 2000-08-08 | 2002-02-20 | Sanyo Electric Co Ltd | 音声認識方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
US5432859A (en) * | 1993-02-23 | 1995-07-11 | Novatel Communications Ltd. | Noise-reduction system |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6615170B1 (en) * | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
WO2002029780A2 (en) * | 2000-10-04 | 2002-04-11 | Clarity, Llc | Speech detection with source separation |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
US20020087307A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented progressive noise scanning method and system |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US6678656B2 (en) * | 2002-01-30 | 2004-01-13 | Motorola, Inc. | Noise reduced speech recognition parameters |
-
2003
- 2003-12-16 JP JP2003418646A patent/JP4497911B2/ja not_active Expired - Fee Related
-
2004
- 2004-12-09 US US11/007,245 patent/US7475012B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0458297A (ja) * | 1990-06-27 | 1992-02-25 | Toshiba Corp | 有音検出装置および有音検出方法 |
JPH05273992A (ja) * | 1992-03-25 | 1993-10-22 | Mitsubishi Electric Corp | 音声区間検出装置 |
JP2000330597A (ja) * | 1999-05-20 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 雑音抑圧装置 |
JP2002055691A (ja) * | 2000-08-08 | 2002-02-20 | Sanyo Electric Co Ltd | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
US7475012B2 (en) | 2009-01-06 |
JP2005181458A (ja) | 2005-07-07 |
US20050131689A1 (en) | 2005-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587160B2 (ja) | 信号処理装置および方法 | |
JP4497911B2 (ja) | 信号検出装置および方法、ならびにプログラム | |
JP5247855B2 (ja) | 複数感知の音声強調のための方法および機器 | |
US7107210B2 (en) | Method of noise reduction based on dynamic aspects of speech | |
US6993481B2 (en) | Detection of speech activity using feature model adaptation | |
US7117148B2 (en) | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
JP4855661B2 (ja) | クリーン信号確率変数の推定値を識別する方法 | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
US7460992B2 (en) | Method of pattern recognition using noise reduction uncertainty | |
JP2005527002A (ja) | ノイズの低減に関連する不確実性を判定する方法 | |
JP4731855B2 (ja) | 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体 | |
US9467790B2 (en) | Reverberation estimator | |
US20050149325A1 (en) | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech | |
US7165031B2 (en) | Speech processing apparatus and method using confidence scores | |
US11823669B2 (en) | Information processing apparatus and information processing method | |
JP2007093635A (ja) | 既知雑音除去装置 | |
JP3555490B2 (ja) | 声質変換システム | |
JP2006510937A (ja) | オーディオ符号化における正弦波選択 | |
JP2009229583A (ja) | 信号検出方法及び装置 | |
JP2003271189A (ja) | 話者方向検出回路及びその検出方法 | |
JP2018116096A (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JP2005309138A (ja) | コードブック生成装置、話者認識装置、プログラム及びコードブック生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100402 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100413 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130423 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140423 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |