JP6371516B2 - 音響信号処理装置および方法 - Google Patents
音響信号処理装置および方法 Download PDFInfo
- Publication number
- JP6371516B2 JP6371516B2 JP2013237353A JP2013237353A JP6371516B2 JP 6371516 B2 JP6371516 B2 JP 6371516B2 JP 2013237353 A JP2013237353 A JP 2013237353A JP 2013237353 A JP2013237353 A JP 2013237353A JP 6371516 B2 JP6371516 B2 JP 6371516B2
- Authority
- JP
- Japan
- Prior art keywords
- base
- spectrum
- matrix
- acoustic signal
- base spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000001228 spectrum Methods 0.000 claims description 157
- 239000011159 matrix material Substances 0.000 claims description 98
- 230000000694 effects Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
音響信号に非負値行列因子分解を適用することで、複数の基底スペクトルから構成される基底行列を取得する取得手段と、
前記取得手段により取得される前記基底行列を構成する基底スペクトルに対応する基底ケプストラムの、所定範囲のケフレンシーにおける最大値に基づいて、該基底スペクトルを第一の基底スペクトル群と第二の基底スペクトル群の何れかに分類する分類手段と、を備える。
図1は、第一実施形態による音響信号処理装置としての音源分離装置の構成例を示すブロック図である。図1に示す音源分離装置は、主たるシステムコントローラ100の中に、全構成要素の制御を行うシステム制御部101、各種データを記憶しておく記憶部102、信号の解析処理を行う信号解析処理部103を備える。また、システムコントローラ100は、音響信号を入出力するための音響信号入出力部104を備える。
|Y|≒H*U … (1)
なお、式(1)の収束計算におけるHとUの更新式は、(H*U)の|Y|からの乖離度を表す規準に応じたものを用いればよい。行列の乖離度を表す規準としては、ユークリッド距離(二乗誤差)、一般化Kullback-Leiblerダイバージェンス、板倉斎藤距離などが挙げられる。
|Yi|=H(:,i)*U(i,:) [i=1〜K] … (2)
Yi=|Yi|.*exp(j*arg(Y)) [i=1〜K] … (3)
sg=Σ(s*h(s))/Σ(h(s)) … (4)
式(4)で算出されるsgは一般に小数値であり、これを対数周波数軸上に対応付けた値が重心周波数となる。
Hn=H(:,1:Kn) … (5)
Hs=H(:,Kn+1:K) … (6)
Un=U(1:Kn,:) … (7)
Us=U(Kn+1:K,:) … (8)
|Ys|=Hs*Us … (9)
Ys=|Ys|.*exp(j*arg(Y)) … (10)
第一実施形態では、S303において、各々の基底スペクトルから重心周波数という評価指標を算出したが、評価指標の算出はこれに限られるものではない。第二実施形態においては、基底スペクトルを変換することで得られるケプストラム(以下、基底ケプストラムと呼ぶ)から評価指標を算出する例を説明する。
上述の第一実施形態、第二実施形態では、S303において、基底スペクトルの周波数軸上での分布状態を数値化した評価指標を用いた。第三実施形態においては、音声の基底スペクトルなら風雑音の基底スペクトルより調波成分が大きいであろうという考え方に基づき、このような調波成分の大きさを数値化するため、各々の基底ケプストラムから評価指標を算出する。
Ys=Σ(H(:,i)*U(i,:).*Pi) … (11)
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、Webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
Claims (15)
- 音響信号に非負値行列因子分解を適用することで、複数の基底スペクトルから構成される基底行列を取得する取得手段と、
前記取得手段により取得される前記基底行列を構成する基底スペクトルに対応する基底ケプストラムの、所定範囲のケフレンシーにおける最大値に基づいて、該基底スペクトルを第一の基底スペクトル群と第二の基底スペクトル群の何れかに分類する分類手段と、を備えることを特徴とする音響信号処理装置。 - 前記取得手段により取得された前記複数の基底スペクトルを前記分類手段により分類した結果に基づいて、前記音響信号に含まれる雑音成分が抑制された目的音信号を生成する生成手段を有することを特徴とする請求項1に記載の音響信号処理装置。
- 前記基底行列を構成する複数の基底スペクトルのうち、前記分類手段により前記第一の基底スペクトル群に分類される基底スペクトルの重心周波数は、前記分類手段により前記第二の基底スペクトル群に分類される基底スペクトルの重心周波数よりも高いことを特徴とする請求項1又は2に記載の音響信号処理装置。
- 前記分類手段は、ケフレンシーが所定値以下である低ケフレンシー部分における該基底ケプストラムの最大値に基づいて、該基底スペクトルを前記第一の基底スペクトル群と前記第二の基底スペクトル群の何れかに分類することを特徴とする請求項1又は2に記載の音響信号処理装置。
- 前記分類手段は、前記低ケフレンシー部分における該基底ケプストラムの最大値と閾値との比較により、該基底スペクトルを前記第一の基底スペクトル群と前記第二の基底スペクトル群の何れかに分類することを特徴とする請求項4に記載の音響信号処理装置。
- 音響信号に非負値行列因子分解を適用することで、複数の基底スペクトルから構成される基底行列を取得する取得手段と、
前記取得手段により取得される前記基底行列を構成する基底スペクトルに対応する基底ケプストラムの、所定の基本周波数範囲に対応する部分の値に基づいて、該基底スペクトルを、第一の基底スペクトル群と、前記第一の基底スペクトル群に分類される基底スペクトルよりも調波成分が大きい基底スペクトルが分類される第二の基底スペクトル群との何れかに分類する分類手段と、を備えることを特徴とする音響信号処理装置。 - 前記分類手段は、該基底ケプストラムの前記所定の基本周波数範囲に対応する部分の最大値と閾値との比較により、該基底スペクトルを前記第一の基底スペクトル群と前記第二の基底スペクトル群の何れかに分類することを特徴とする請求項6に記載の音響信号処理装置。
- 前記第一の基底スペクトル群へ分類される基底スペクトルの数である第一の基底数と、前記第二の基底スペクトル群へ分類される基底スペクトルの数である第二の基底数の少なくとも一方を調整する調整手段をさらに備える請求項1乃至7の何れか1項に記載の音響信号処理装置。
- 前記分類手段により前記第一の基底スペクトル群に分類される基底スペクトルと、前記非負値行列因子分解の適用により取得されるアクティビティ行列を構成する複数のアクティビティベクトルのうちの前記第一の基底スペクトル群に対応するアクティビティベクトルとを用いて、第一の音響復元信号を生成する生成手段を更に備えることを特徴とする請求項1乃至8の何れか1項に記載の音響信号処理装置。
- 前記分類手段により前記第二の基底スペクトル群に分類される基底スペクトルと、前記非負値行列因子分解の適用により取得されるアクティビティ行列を構成する複数のアクティビティベクトルのうち前記第二の基底スペクトル群に対応するアクティビティベクトルとを用いて、第二の音響復元信号を生成する生成手段を更に備えることを特徴とする請求項1乃至8の何れか1項に記載の音響信号処理装置。
- 前記分類手段により前記第一の基底スペクトル群に分類される基底スペクトルと、前記非負値行列因子分解の適用により取得されるアクティビティ行列を構成する複数のアクティビティベクトルのうちの前記第一の基底スペクトル群に対応するアクティビティベクトルとを用いて、第一の音響復元信号を生成する第一生成手段と、
前記分類手段により前記第二の基底スペクトル群に分類される基底スペクトルと、前記アクティビティ行列を構成する複数のアクティビティベクトルのうち前記第二の基底スペクトル群に対応するアクティビティベクトルとを用いて、第二の音響復元信号を生成する第二生成手段をさらに備え、
前記第一生成手段により生成される前記第一の音響復元信号と前記第二生成手段により生成される前記第二の音響復元信号の少なくとも一方を用いて、前記音響信号から非目的音を除去することを特徴とする請求項1乃至8のいずれか1項に記載の音響信号処理装置。 - 前記取得手段は、前記音響信号に対して時間周波数変換を行うことで得られる行列を、前記非負値行列因子分解により基底行列とアクティビティ行列に分解することで、前記基底行列を取得することを特徴とする請求項1乃至11のいずれか1項に記載の音響信号処理装置。
- 音響信号処理装置の制御方法であって、
音響信号に非負値行列因子分解を適用することで、複数の基底スペクトルから構成される基底行列を取得する取得工程と、
前記取得工程において取得される前記基底行列を構成する基底スペクトルに対応する基底ケプストラムの、所定範囲のケフレンシーにおける最大値に基づいて、該基底スペクトルを第一の基底スペクトル群と第二の基底スペクトル群の何れかに分類する分類工程と、を有することを特徴とする音響信号処理装置の制御方法。 - 音響信号処理装置の制御方法であって、
音響信号に非負値行列因子分解を適用することで、複数の基底スペクトルから構成される基底行列を取得する取得工程と、
前記取得工程において取得される前記基底行列を構成する基底スペクトルに対応する基底ケプストラムの、所定の基本周波数範囲に対応する部分の値に基づいて、該基底スペクトルを、第一の基底スペクトル群と、前記第一の基底スペクトル群に分類される基底スペクトルよりも調波成分が大きい基底スペクトルが分類される第二の基底スペクトル群との何れかに分類する分類工程と、を有することを特徴とする音響信号処理装置の制御方法。 - コンピュータを、請求項1乃至12のいずれか1項に記載の音響信号処理装置の各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013237353A JP6371516B2 (ja) | 2013-11-15 | 2013-11-15 | 音響信号処理装置および方法 |
US14/527,682 US9704505B2 (en) | 2013-11-15 | 2014-10-29 | Audio signal processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013237353A JP6371516B2 (ja) | 2013-11-15 | 2013-11-15 | 音響信号処理装置および方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015096921A JP2015096921A (ja) | 2015-05-21 |
JP2015096921A5 JP2015096921A5 (ja) | 2016-12-28 |
JP6371516B2 true JP6371516B2 (ja) | 2018-08-08 |
Family
ID=53173328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013237353A Active JP6371516B2 (ja) | 2013-11-15 | 2013-11-15 | 音響信号処理装置および方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9704505B2 (ja) |
JP (1) | JP6371516B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI543151B (zh) * | 2014-03-31 | 2016-07-21 | Kung Lan Wang | Voiceprint data processing method, trading method and system based on voiceprint data |
JP6460676B2 (ja) | 2014-08-05 | 2019-01-30 | キヤノン株式会社 | 信号処理装置および信号処理方法 |
US9838782B2 (en) * | 2015-03-30 | 2017-12-05 | Bose Corporation | Adaptive mixing of sub-band signals |
WO2016207951A1 (ja) * | 2015-06-22 | 2016-12-29 | パイオニア株式会社 | シャント音解析装置、シャント音解析方法、コンピュータプログラム及び記録媒体 |
US10037750B2 (en) * | 2016-02-17 | 2018-07-31 | RMXHTZ, Inc. | Systems and methods for analyzing components of audio tracks |
EP3242295B1 (en) * | 2016-05-06 | 2019-10-23 | Nxp B.V. | A signal processor |
JP2019020530A (ja) | 2017-07-13 | 2019-02-07 | キヤノン株式会社 | 信号処理装置、制御方法、及びプログラム |
JP6886890B2 (ja) * | 2017-08-08 | 2021-06-16 | 株式会社竹中工務店 | 減衰時間分析方法、装置、及びプログラム |
JP7245669B2 (ja) * | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4559569A (en) * | 1983-03-08 | 1985-12-17 | Thomson-Brandt | Circuit arrangement for correcting frequency response in accordance with frequency response of a sound field |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
US20100138010A1 (en) * | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
JP5451188B2 (ja) | 2009-06-02 | 2014-03-26 | キヤノン株式会社 | 定在波検出装置およびその制御方法 |
WO2011029048A2 (en) * | 2009-09-04 | 2011-03-10 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5516169B2 (ja) | 2010-07-14 | 2014-06-11 | ヤマハ株式会社 | 音響処理装置およびプログラム |
JP5606234B2 (ja) | 2010-09-13 | 2014-10-15 | キヤノン株式会社 | 音響装置 |
US8818806B2 (en) * | 2010-11-30 | 2014-08-26 | JVC Kenwood Corporation | Speech processing apparatus and speech processing method |
JP2012163918A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP5662276B2 (ja) * | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
US9093056B2 (en) * | 2011-09-13 | 2015-07-28 | Northwestern University | Audio separation system and method |
JP6054142B2 (ja) * | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
EP2877993B1 (en) * | 2012-11-21 | 2016-06-08 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
JP6074263B2 (ja) | 2012-12-27 | 2017-02-01 | キヤノン株式会社 | 雑音抑圧装置及びその制御方法 |
-
2013
- 2013-11-15 JP JP2013237353A patent/JP6371516B2/ja active Active
-
2014
- 2014-10-29 US US14/527,682 patent/US9704505B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150139446A1 (en) | 2015-05-21 |
JP2015096921A (ja) | 2015-05-21 |
US9704505B2 (en) | 2017-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6371516B2 (ja) | 音響信号処理装置および方法 | |
US9111526B2 (en) | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal | |
US8949118B2 (en) | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise | |
JP6482173B2 (ja) | 音響信号処理装置およびその方法 | |
JP6334895B2 (ja) | 信号処理装置及びその制御方法、プログラム | |
JP6251145B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
US10373628B2 (en) | Signal processing system, signal processing method, and computer program product | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
US20190198036A1 (en) | Information processing apparatus, information processing method, and recording medium | |
Chaki | Pattern analysis based acoustic signal processing: a survey of the state-of-art | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN108764184B (zh) | 一种心肺音信号的分离方法、装置、设备及存储介质 | |
EP4177885A1 (en) | Quantifying signal purity by means of machine learning | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
Zheng et al. | Improving the spectra recovering of bone-conducted speech via structural similarity loss function | |
Cruz et al. | An incremental algorithm based on multichannel non-negative matrix partial co-factorization for ambient denoising in auscultation | |
Yen et al. | A two-stage singing voice separation algorithm using spectro-temporal modulation features. | |
JP7304301B2 (ja) | 音響診断方法、音響診断システム、及び音響診断プログラム | |
Cabañas-Molero et al. | Compositional model for speech denoising based on source/filter speech representation and smoothness/sparseness noise constraints | |
Wichern et al. | Removing lavalier microphone rustle with recurrent neural networks | |
JP2018025827A (ja) | 対話システム | |
JP2011158515A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161115 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180713 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6371516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |