JP5942420B2 - 音響処理装置および音響処理方法 - Google Patents
音響処理装置および音響処理方法 Download PDFInfo
- Publication number
- JP5942420B2 JP5942420B2 JP2011284075A JP2011284075A JP5942420B2 JP 5942420 B2 JP5942420 B2 JP 5942420B2 JP 2011284075 A JP2011284075 A JP 2011284075A JP 2011284075 A JP2011284075 A JP 2011284075A JP 5942420 B2 JP5942420 B2 JP 5942420B2
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- basis
- coefficient
- sound source
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 40
- 238000003672 processing method Methods 0.000 title claims 2
- 239000011159 matrix material Substances 0.000 claims description 537
- 239000013598 vector Substances 0.000 claims description 83
- 238000011156 evaluation Methods 0.000 claims description 45
- 238000001228 spectrum Methods 0.000 claims description 32
- 238000000354 decomposition reaction Methods 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 description 47
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000000926 separation method Methods 0.000 description 16
- 230000007423 decrease Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号SA(t)を音響処理装置100に供給する。音響信号SA(t)は、相異なる種類種の音源の各々が発生した音響(楽音や音声)の混合音の時間波形を示す信号である。音響信号SA(t)を構成する音響を発生する複数種の音源のうち既知の音源を以下では第1音源と表記し、第1音源以外の音源を以下では第2音源と表記する。音響信号SA(t)が2種類の音源の音響で構成される場合、第2音源は第1音源以外の1種類の音源を意味し、音響信号SA(t)が3種類以上の音源の音響で構成される場合、第2音源は第1音源以外の2種類以上の音源(音源群)を意味する。周囲の音響を収音して音響信号SA(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号SA(t)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号SA(t)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
前述のように基底行列Fには第1音源の音響(学習音)の特性が反映されるから、基底行列Fおよび係数行列Gは音響信号SA(t)のうち第1音源の音響成分に対応する。他方、基底行列Hおよび係数行列Uは、音響信号SA(t)のうち第1音源以外の音源(すなわち第2音源)の音響成分に対応する。
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
基底行列Fと基底行列Hとの相関が低下するほど数式(3A)の相関項は減少する。以上の傾向を考慮して、数式(3A)の評価関数Jが最小となるように第1音源の係数行列Gと第2音源の基底行列Hおよび係数行列Uとを生成することを検討する。なお、前述の条件(4)は第2実施形態でも同様に適用される。
第2実施形態で例示した数式(3A)の評価関数Jにおいては、誤差項‖Y−FG−HU‖Fr 2および相関項‖FTH‖Fr 2の各数値が顕著に相違する可能性がある。すなわち、評価関数Jの増減に対する寄与の度合が誤差項と相関項とで顕著に相違し得る。そして、例えば誤差項が相関項と比較して充分に大きい場合には誤差項が減少しさえすれば評価関数Jは充分に減少するため、相関項が充分に減少しない可能性がある。同様に、相関項が誤差項と比較して充分に大きい場合には誤差項が充分に減少しない可能性がある。
数式(3B)の調整係数λは、誤差項および相関項の数値が近付く(バランスする)ように実験的または統計的に選定される。また、誤差項と相関項とを試行的に算定し、誤差項と相関項との相違が低減されるように調整係数λを可変に設定することも可能である。数式(3B)の評価関数Jを使用した場合、基底行列Hの要素Hmdの更新式は、調整係数λを含む以下の数式(12B)で定義される。
第2実施形態では、第1音源の基底行列Fと第2音源の基底行列Hとの相関が低下するという拘束条件を設定した。第4実施形態では、第1音源の基底行列Fと第2音源の基底行列Hとの距離が増加する(理想的には最大となる)という拘束条件のもとで第1音源の係数行列Gと第2音源の基底行列Hおよび係数行列Uとを生成する。
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
Claims (5)
- 第1音源の音響の各成分のスペクトルを示す複数の基底ベクトルを含む非負の第1基底行列を記憶する記憶手段と、
前記第1基底行列を利用した非負値行列因子分解により、前記第1音源の音響と前記第1音源とは相違する第2音源の音響との混合音を示す音響信号のスペクトルの時系列を示す観測行列から、前記第1基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを含む第1係数行列と、前記第2音源の音響の各成分のスペクトルを示す複数の基底ベクトルを含む第2基底行列と、前記第2基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを含む第2係数行列とを、前記第1基底行列と前記第2基底行列との類似性が低下するように生成する行列分解手段と、
前記第1基底行列と前記第1係数行列とに応じた音響信号および前記第2基底行列と前記第2係数行列とに応じた音響信号の少なくとも一方を生成する音響生成手段と
を具備する音響処理装置。 - 前記行列分解手段は、前記第1基底行列と前記観測行列との相関行列を前記第1係数行列の初期値として適用した非負値行列因子分解を実行する
請求項1の音響処理装置。 - 前記行列分解手段は、前記第1基底行列および前記第1係数行列の積と前記第2基底行列および前記第2係数行列の積との和が前記観測行列と相違する度合を示す誤差項と、前記第1基底行列および前記第2基底行列の類似性を示す相関項とを含む評価関数が収束するように選定された更新式の反復演算により、前記第1係数行列と前記第2基底行列と前記第2係数行列とを生成する
請求項2の音響処理装置。 - 前記行列分解手段は、前記誤差項および前記相関項の少なくとも一方が調整係数により調整された前記評価関数が収束するように選定された更新式の反復演算により、前記第1係数行列と前記第2基底行列と前記第2係数行列とを生成する
請求項3の音響処理装置。 - 第1音源の音響の各成分のスペクトルを示す複数の基底ベクトルを含む非負の第1基底行列を記憶する記憶手段を具備するコンピュータが、
前記第1基底行列を利用した非負値行列因子分解により、前記第1音源の音響と前記第1音源とは相違する第2音源の音響との混合音を示す音響信号のスペクトルの時系列を示す観測行列から、前記第1基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを含む第1係数行列と、前記第2音源の音響の各成分のスペクトルを示す複数の基底ベクトルを含む第2基底行列と、前記第2基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを含む第2係数行列とを、前記第1基底行列と前記第2基底行列との類似性が低下するように生成し、
前記第1基底行列と前記第1係数行列とに応じた音響信号および前記第2基底行列と前記第2係数行列とに応じた音響信号の少なくとも一方を生成する
音響処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011284075A JP5942420B2 (ja) | 2011-07-07 | 2011-12-26 | 音響処理装置および音響処理方法 |
EP12005029A EP2544180A1 (en) | 2011-07-07 | 2012-07-06 | Sound processing apparatus |
US13/542,974 US20130010968A1 (en) | 2011-07-07 | 2012-07-06 | Sound Processing Apparatus |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011150819 | 2011-07-07 | ||
JP2011150819 | 2011-07-07 | ||
JP2011284075A JP5942420B2 (ja) | 2011-07-07 | 2011-12-26 | 音響処理装置および音響処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013033196A JP2013033196A (ja) | 2013-02-14 |
JP5942420B2 true JP5942420B2 (ja) | 2016-06-29 |
Family
ID=47008208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011284075A Expired - Fee Related JP5942420B2 (ja) | 2011-07-07 | 2011-12-26 | 音響処理装置および音響処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130010968A1 (ja) |
EP (1) | EP2544180A1 (ja) |
JP (1) | JP5942420B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5884473B2 (ja) * | 2011-12-26 | 2016-03-15 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP6157926B2 (ja) * | 2013-05-24 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法およびプログラム |
JP2015031889A (ja) * | 2013-08-05 | 2015-02-16 | 株式会社半導体理工学研究センター | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
JP6197569B2 (ja) * | 2013-10-17 | 2017-09-20 | ヤマハ株式会社 | 音響解析装置 |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
US10657973B2 (en) | 2014-10-02 | 2020-05-19 | Sony Corporation | Method, apparatus and system |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CN105989852A (zh) | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
WO2017046976A1 (ja) * | 2015-09-16 | 2017-03-23 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
WO2017143095A1 (en) | 2016-02-16 | 2017-08-24 | Red Pill VR, Inc. | Real-time adaptive audio source separation |
US10679646B2 (en) * | 2016-06-16 | 2020-06-09 | Nec Corporation | Signal processing device, signal processing method, and computer-readable recording medium |
JP6622159B2 (ja) * | 2016-08-31 | 2019-12-18 | 株式会社東芝 | 信号処理システム、信号処理方法およびプログラム |
JP6862799B2 (ja) * | 2016-11-30 | 2021-04-21 | 日本電気株式会社 | 信号処理装置、方位算出方法及び方位算出プログラム |
CN109545240B (zh) * | 2018-11-19 | 2022-12-09 | 清华大学 | 一种人机交互的声音分离的方法 |
WO2020145215A1 (ja) * | 2019-01-09 | 2020-07-16 | 日本製鉄株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7167746B2 (ja) * | 2019-02-05 | 2022-11-09 | 日本電信電話株式会社 | 非負値行列分解最適化装置、非負値行列分解最適化方法、プログラム |
JP7245669B2 (ja) | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
KR102520240B1 (ko) * | 2019-03-18 | 2023-04-11 | 한국전자통신연구원 | 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치 |
CN112614500B (zh) * | 2019-09-18 | 2024-06-25 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
JP7283628B2 (ja) * | 2020-03-10 | 2023-05-30 | 日本電気株式会社 | 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
US8015003B2 (en) * | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
JP5580585B2 (ja) * | 2009-12-25 | 2014-08-27 | 日本電信電話株式会社 | 信号分析装置、信号分析方法及び信号分析プログラム |
US8805697B2 (en) * | 2010-10-25 | 2014-08-12 | Qualcomm Incorporated | Decomposition of music signals using basis functions with time-evolution information |
-
2011
- 2011-12-26 JP JP2011284075A patent/JP5942420B2/ja not_active Expired - Fee Related
-
2012
- 2012-07-06 EP EP12005029A patent/EP2544180A1/en not_active Withdrawn
- 2012-07-06 US US13/542,974 patent/US20130010968A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20130010968A1 (en) | 2013-01-10 |
JP2013033196A (ja) | 2013-02-14 |
EP2544180A1 (en) | 2013-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5942420B2 (ja) | 音響処理装置および音響処理方法 | |
Nugraha et al. | Multichannel music separation with deep neural networks | |
Uhlich et al. | Deep neural network based instrument extraction from music | |
Seetharaman et al. | Class-conditional embeddings for music source separation | |
Smaragdis et al. | Separation by “humming”: User-guided sound extraction from monophonic mixtures | |
EP3201917B1 (en) | Method, apparatus and system for blind source separation | |
US10373628B2 (en) | Signal processing system, signal processing method, and computer program product | |
Parekh et al. | Motion informed audio source separation | |
EP3143619A1 (en) | Method and system of on-the-fly audio source separation | |
Miron et al. | Generating data to train convolutional neural networks for classical music source separation | |
Duong et al. | An interactive audio source separation framework based on non-negative matrix factorization | |
Rodriguez-Serrano et al. | Online score-informed source separation with adaptive instrument models | |
Cañadas-Quesada et al. | Constrained non-negative matrix factorization for score-informed piano music restoration | |
Duong et al. | Multichannel harmonic and percussive component separation by joint modeling of spatial and spectral continuity | |
JP5454330B2 (ja) | 音響処理装置 | |
Rodriguez-Serrano et al. | Multiple instrument mixtures source separation evaluation using instrument-dependent NMF models | |
Park et al. | Separation of instrument sounds using non-negative matrix factorization with spectral envelope constraints | |
JP4946330B2 (ja) | 信号分離装置及び方法 | |
JP5263020B2 (ja) | 信号処理装置 | |
JP2020034870A (ja) | 信号解析装置、方法、及びプログラム | |
JP5884473B2 (ja) | 音響処理装置および音響処理方法 | |
JP7450911B2 (ja) | 音響解析装置、音響解析方法及び音響解析プログラム | |
Lee et al. | Discriminative training of complex-valued deep recurrent neural network for singing voice separation | |
JP2014215544A (ja) | 音響処理装置 | |
Vanambathina | Speech enhancement using an iterative posterior nmf |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20140117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141023 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160509 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5942420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |