JP5994639B2 - 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム - Google Patents
有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム Download PDFInfo
- Publication number
- JP5994639B2 JP5994639B2 JP2012555818A JP2012555818A JP5994639B2 JP 5994639 B2 JP5994639 B2 JP 5994639B2 JP 2012555818 A JP2012555818 A JP 2012555818A JP 2012555818 A JP2012555818 A JP 2012555818A JP 5994639 B2 JP5994639 B2 JP 5994639B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- sound
- clustering
- cluster
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Description
Gm(f,t)=γm(f,t)−lnγm(f,t)−1
本発明の目的は、上述した課題を解決し、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間検出を適切に行うことが出来る、有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムを提供することである。
本発明の第1の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
Gm(f,t)=γm(f,t)−lnγm(f,t)−1
をM次元空間上へ拡張したものである。
次に、本実施の形態の効果について説明する。
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
I(a,φ)=Σf∈F,t∈τ[Σm{Qm(f,t)−Σiai(f,t)φm(i)}2]+ξΣi|ai(f,t)|]
D(f,t)=φj,j=argmaxiai(f,t)
次に、本実施の形態の効果について説明する。
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。
前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記1に記載の有音区間検出装置。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記1又は付記2に記載の有音区間検出装置。
複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。
前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記4に記載の有音区間検出方法。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記4又は付記5に記載の有音区間検出方法。
複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。
前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記7に記載の有音区間検出プログラム。
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記7又は付記8に記載の有音区間検出プログラム。
Claims (9)
- 複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルとを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標を算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。 - 前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項1に記載の有音区間検出装置。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項1又は請求項2に記載の有音区間検出装置。
- 複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルとを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標を算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。 - 前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項4に記載の有音区間検出方法。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項4又は請求項5に記載の有音区間検出方法。
- 複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルとを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標を算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。 - 前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項7に記載の有音区間検出プログラム。 - 前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項7又は請求項8に記載の有音区間検出プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011019815 | 2011-02-01 | ||
JP2011019815 | 2011-02-01 | ||
PCT/JP2012/051554 WO2012105386A1 (ja) | 2011-02-01 | 2012-01-25 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2012105386A1 JPWO2012105386A1 (ja) | 2014-07-03 |
JP5994639B2 true JP5994639B2 (ja) | 2016-09-21 |
Family
ID=46602604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012555818A Active JP5994639B2 (ja) | 2011-02-01 | 2012-01-25 | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9245539B2 (ja) |
JP (1) | JP5994639B2 (ja) |
WO (1) | WO2012105386A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9602923B2 (en) * | 2013-12-05 | 2017-03-21 | Microsoft Technology Licensing, Llc | Estimating a room impulse response |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
CN108417224B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
CN108733342B (zh) * | 2018-05-22 | 2021-03-26 | Oppo(重庆)智能科技有限公司 | 音量调节方法、移动终端及计算机可读存储介质 |
CN113270099B (zh) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
US20060204019A1 (en) * | 2005-03-11 | 2006-09-14 | Kaoru Suzuki | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program |
WO2008056649A1 (fr) * | 2006-11-09 | 2008-05-15 | Panasonic Corporation | Détecteur de position de source sonore |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010217773A (ja) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | 信号処理装置およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5768263A (en) * | 1995-10-20 | 1998-06-16 | Vtel Corporation | Method for talk/listen determination and multipoint conferencing system using such method |
US6104994A (en) * | 1998-01-13 | 2000-08-15 | Conexant Systems, Inc. | Method for speech coding under background noise conditions |
KR100754384B1 (ko) * | 2003-10-13 | 2007-08-31 | 삼성전자주식회사 | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 |
-
2012
- 2012-01-25 US US13/982,580 patent/US9245539B2/en active Active
- 2012-01-25 WO PCT/JP2012/051554 patent/WO2012105386A1/ja active Application Filing
- 2012-01-25 JP JP2012555818A patent/JP5994639B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271166A (ja) * | 2002-03-14 | 2003-09-25 | Nissan Motor Co Ltd | 入力信号処理方法および入力信号処理装置 |
JP2004170552A (ja) * | 2002-11-18 | 2004-06-17 | Fujitsu Ltd | 音声抽出装置 |
WO2005024788A1 (ja) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 |
US20060204019A1 (en) * | 2005-03-11 | 2006-09-14 | Kaoru Suzuki | Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program |
WO2008056649A1 (fr) * | 2006-11-09 | 2008-05-15 | Panasonic Corporation | Détecteur de position de source sonore |
JP2008158035A (ja) * | 2006-12-21 | 2008-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 |
JP2010217773A (ja) * | 2009-03-18 | 2010-09-30 | Yamaha Corp | 信号処理装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6015049945; Yu SHI, et al.: 'Auto-Segmentation Based Partitioning and Clustering Approach to Robust Endpointing' Proc. ICASSP 2006 Vol.1, 20060514, pp.793-796, IEEE * |
Also Published As
Publication number | Publication date |
---|---|
US20130311183A1 (en) | 2013-11-21 |
JPWO2012105386A1 (ja) | 2014-07-03 |
US9245539B2 (en) | 2016-01-26 |
WO2012105386A1 (ja) | 2012-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3584573B1 (en) | Abnormal sound detection training device and method and program therefor | |
US9666183B2 (en) | Deep neural net based filter prediction for audio event classification and extraction | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP4769238B2 (ja) | 信号分離装置、信号分離方法、プログラム及び記録媒体 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Nathwani et al. | An extended experimental investigation of DNN uncertainty propagation for noise robust ASR | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US11580967B2 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
JP6157926B2 (ja) | 音声処理装置、方法およびプログラム | |
JP2019184747A (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
JP2017134321A (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
KR101732399B1 (ko) | 스테레오 채널을 이용한 음향 검출 방법 | |
JP7333878B2 (ja) | 信号処理装置、信号処理方法、及び信号処理プログラム | |
JP2019211685A (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
TN et al. | An Improved Method for Speech Enhancement Using Convolutional Neural Network Approach | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
JP6167062B2 (ja) | 分類装置、分類方法、およびプログラム | |
CN117501365A (zh) | 发音异常检测方法、发音异常检测装置以及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5994639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |