CN101441872B - 利用受限非负矩阵分解对声学信号去噪 - Google Patents

利用受限非负矩阵分解对声学信号去噪 Download PDF

Info

Publication number
CN101441872B
CN101441872B CN2008101748601A CN200810174860A CN101441872B CN 101441872 B CN101441872 B CN 101441872B CN 2008101748601 A CN2008101748601 A CN 2008101748601A CN 200810174860 A CN200810174860 A CN 200810174860A CN 101441872 B CN101441872 B CN 101441872B
Authority
CN
China
Prior art keywords
training
matrix
signal
noise
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101748601A
Other languages
English (en)
Other versions
CN101441872A (zh
Inventor
凯文·W·威尔森
阿贾伊·迪瓦卡兰
比克沙·罗摩克里希纳
帕里斯·斯马拉格迪斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101441872A publication Critical patent/CN101441872A/zh
Application granted granted Critical
Publication of CN101441872B publication Critical patent/CN101441872B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

本发明涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制,其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。

Description

利用受限非负矩阵分解对声学信号去噪
技术领域
本发明总体上涉及声学信号处理,更具体地涉及从诸如语音的声学信号中去除附加的噪声。
背景技术
噪声
从诸如语音的声学信号中去除附加的噪声在电话、音频话音记录、以及电子话音通信中有多种应用。噪声广泛存在于城市环境、工厂、飞机、车辆等中。
时变噪声尤其难以去除,该时变噪声更准确地反映了环境中的真实噪声。通常,由使用静态噪声模型的抑制技术不能实现非平稳噪声的消除。诸如谱减法和维纳滤波的常规方法常规地使用静态的或缓慢变化的噪声估计,因此受限于平稳的或准平稳的噪声。
非负矩阵分解
非负矩阵分解(NMF)最优地求解了下式
V≈WH。
常规的NMF定义如下。从非负的M×N矩阵V开始,目标是使得矩阵V近似为两个非负矩阵W和H的乘积。当矩阵V由WH的乘积近似地重构时,误差被最小化。这提供了一种将信号V分解为非负矩阵的凸组合的思路。
当信号V是声谱图并且该矩阵是一组谱形(spectral shape)时,通过将矩阵的不同列与不同的声源关联起来,NMF能够将单通道混合的声音分离,参见Smaragdis等人于2005年10月6日提交的美国专利申请20050222840,“Method and system for separating multiple sound sourcesfrom monophonic input with non-negative matrix factor deconvolution”,通过引用将其合并于此。
当不同声学信号的声谱图足以区分开时,NMF对于将声音分离是有效的。例如,如果诸如笛子的声源仅生成谐音(harmonic sound),并且诸如小鼓的另一声源仅生成非谐音(non-harmonic sound),则一个声源的声谱图区别于另一声源的声谱图。
语音
语音包括谐音和非谐音。谐音在不同时间可具有不同的基频。语音可在很宽的频率范围上具有能量。非平稳噪声的频谱可能与语音的频谱类似。因此,在语音去噪应用中,其中一个“声源”是语音而另一个“声源”是附加噪声,语音模型和噪声模型之间的重叠降低了去噪的性能。
因此,期望使得非负矩阵分解适于对具有附加非平稳噪声的语音进行去噪这一问题。
发明内容
本发明的实施方式提供了一种用于对混合的声学信号进行去噪的方法和系统。更具体地说,该方法对语音信号进行去噪。去噪结合了统计语音模型和噪声模型而使用受限非负矩阵分解(NMF)。
附图说明
图1是根据本发明实施方式的对声学信号进行去噪的方法的流程图;
图2是图1的方法的训练阶段的流程图;以及
图3是图1的方法的去噪阶段的流程图。
具体实施方式
图1示出了根据本发明实施方式的对混合的声学信号和噪声信号进行去噪的方法100。该方法包括一次训练200和实时去噪300。
一次训练200的输入包括训练声学信号(
Figure G2008101748601D00021
)101以及训练噪声信号(
Figure G2008101748601D00022
)102。这些训练信号表示要进行去噪的信号的类型,例如,具有非平稳噪声的语音。应当理解的是,通过相应地改变训练信号,该方法适于对例如音乐的其他类型的声学信号进行去噪。训练的输出是去噪模型103。该模型可以存储在存储器中以供将来使用。
实时去噪的输入包括模型103和混合信号(Vmix)104,该混合信号例如是语音和非平稳噪声。去噪的输出是对混合信号的声学(语音)部分105的估计。
在一次训练期间,非负矩阵分解(NMF)210独立地应用于声学信号101和噪声信号102以产生模型103。
针对声学信号和语音信号,NMF 210分别独立地产生训练基矩阵(WT)211-212和这些训练基矩阵的权重(HT)213-214。确定权重213-214的统计量221-222,即均值和方差。训练语音信号和训练噪声信号的训练基矩阵211-212、均值和方差221-222形成去噪模型103。
在实时去噪期间,将根据本发明实施方式的受限非负矩阵分解(CNMF)应用于混合信号(Vmix)104。CNMF受到模型103的限制。具体地说,CNMF假设在训练期间获得的先验训练矩阵211精确地表示混合信号104的声学部分的分布。因此,在CNMF期间,基矩阵固定地是训练基矩阵211,并且在CNMF 310期间根据模型的先验统计量(均值和方差)221-222而最优地确定固定训练基矩阵211的权重(Hall)302。随后,通过求取最优权重302和先验基矩阵211的乘积可以重构输出语音信号105。
训练
在图2所示的训练200期间,我们得到大小为nf×nst的语音声谱图Vspeech 101,以及大小为nf×nnt的噪声声谱图Vnoise 102,其中nf是频率单元(frequency bin)的数量,nst是语音帧的数量,并且nnt是噪声帧的数量。
如现有技术中所公知的,此处描述的声谱图形式的所有信号被数字化并被采样为多个帧。当我们提及声学信号时,具体是指已知的或可识别的音频信号,例如语音或音乐。对于本发明的目的,并不认为随机噪声是可识别的声学信号。混合信号104将声学信号与噪声合并。本发明的目的是去除这些噪声,使得仅保留可识别的声学部分105。
不同的目标函数得到不同形式的NMF。例如,矩阵V和WH之间Kullback-Leibler(KL)散度(记为D(V‖WH))对于声源分离很有效,参见Smaragdis等人的文献。因此,在我们的去噪发明的实施方式中,我们优先使用KL散度。推广到使用这些技术的其他目标函数是显而易见的,参见以下文献,即A.Cichocki、R.Zdunek以及S.Amari等人的“Newalgorithms for non-negative matrix factorization in applications to blindsource separation”,IEEE International Conference on Acoustics,Speech,andSignal Processing,2006,vol.5,pp.621-625,通过引用将其合并于此。
在训练期间,我们对语音声谱图101和噪声声谱图102分别应用NMF 210以生成各自的基矩阵
Figure G2008101748601D00041
 211和 212,以及各自的权重 213和
Figure G2008101748601D00044
 214。
我们分别使
Figure G2008101748601D00045
Figure G2008101748601D00046
最小化。矩阵Wspeech和Wnoise的大小均为nf×nb,其中nb是代表每个源的基函数的数量。权重矩阵Hspeech和Hnoise的大小分别是nb×nst和nb×nnt,并代表训练基矩阵的时变激活(activation)水平。
我们根据经验来确定(220)权重矩阵
Figure G2008101748601D00047
Figure G2008101748601D00048
的对数值的均值和方差统计量。具体地说,我们确定语音权重的均值μspeech和方差Λspeech221,以及噪声权重的均值μnoise和方差Λnoisew 222。每个均值μ是长度为nb的向量,并且每个方差Λ是nb×nb矩阵。
为了计算方便,我们选择隐含高斯表示。对数域比线性域产生更好的结果。这与线性域中的高斯表达既允许正值又允许负值是一致的,既允许正值又允许负值与对矩阵H的非负限制不一致。
我们将两组基矩阵211和213连接以形成大小为nf×2nb的矩阵Wall 215。该组连接的基矩阵用于表示包含混合了语音和独立噪声的信号。我们还将统计量连接为μall=[μspeech;μnoise]和Λall=[Λspeech0;0 Λnoise]。连接的基矩阵211和213以及连接的统计量221-222形成我们的去噪模型103。
去噪
在图3所示的实时去噪期间,基于矩阵精确地表示我们想要处理的语音和噪声的类型这一假设,我们使模型103的连接矩阵Wall 215保持固定。
目标函数
我们的目的是确定使得下式最小化的最优权重Hall 302
D reg ( V | | WH ) = Σ ik ( V ik log V ik ( WH ) ik + V ik - ( WH ) ik ) - αL ( H ) - - - ( 1 )
L ( H all ) = - 1 2 Σ k { ( log H all ik - μ all ) T Λ all - 1 ( log H all ik - μ all ) - log [ ( 2 π ) 2 n b | Λ | ] } - - - ( 2 ) ,
其中Dreg是正则化的KL散度目标函数,i是频率的索引,k是时间的索引,并且α是用于控制似然函数L(H)对整体目标函数Dreg的影响的可调节参数。当α为0时,式(1)等于KL散度目标函数。对于非零的α,存在与log H的联合高斯模型下的负log似然度成比例的附加的惩罚。该项使得所得到的矩阵Hall与在训练期间根据经验确定的矩阵Hspeech和Hnoise的统计量221-222相一致。变化的α使得我们能够控制在符合(fit)整体(观察到的混合的语音)与匹配“部分”的期望的统计量(语音和噪声统计量)之间的权衡,并实现该模型下的高似然度。
根据Cichocki等人的文献,权重矩阵Hall的乘法更新规则是
Figure G2008101748601D00054
= - ( Λ all - 1 log H all ) αμ H all αμ - - - ( 3 ) ,
其中[]ε表示用ε替换比一个小的正常数ε更小的括号内的任何值,以防止违反非负约束并避免除数是零。
我们使用训练基矩阵211和矩阵Hall的前nb行,将去噪后的声谱图(例如干净语音105)重构(320)为
V ^ speech = W speech H all ( 1 : nb ) .
发明效果
根据本发明的实施方式的方法能够对存在非平稳噪声的语音进行去噪。与常规的利用平稳噪声模型进行去噪的维纳滤波相比,本发明的结果在大范围的噪声类型上显示出优越的性能。
尽管以优选实施方式为例描述了本发明,但应当理解的是,在本发明的精神和范围内可以做出各种其他的改变和修改。因此,所附权利要求的目的是涵盖落入本发明的真实精神和范围内的所有这种变型和修改。

Claims (10)

1.一种对混合信号(104,Vmix)进行去噪的方法,其中所述混合信号(104,Vmix)包括声学信号(101,
Figure FSB00000479466000011
)和噪声信号(102,
Figure FSB00000479466000012
),该方法包括以下步骤:
对所述混合信号(104,Vmix)应用受限非负矩阵分解,其中所述非负矩阵分解受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,)和训练噪声信号(102,
Figure FSB00000479466000014
)二者的训练基矩阵(211-212,WT)、以及这些训练基矩阵(211-212,WT)的权重(213-214,HT;302,Hall)的统计量(221-222),并且其中所述应用产生了所述混合信号(104,Vmix)的所述声学信号(101,
Figure FSB00000479466000015
)的基矩阵(211)的权重;以及
求取所述声学信号(101,
Figure FSB00000479466000016
)的所述基矩阵(211)的所述权重(213-214,HT;302,Hall)与所述训练声学信号(101,
Figure FSB00000479466000017
)和所述训练噪声信号(102,
Figure FSB00000479466000018
)二者的所述训练基矩阵(211-212,WT)的乘积,以重构所述声学信号(101,
Figure FSB00000479466000019
)。
2.根据权利要求1所述的方法,其中所述噪声信号(102,
Figure FSB000004794660000110
)是非平稳的。
3.根据权利要求1所述的方法,其中所述统计量(221-222)包括所述训练基矩阵(211-212,WT)的所述权重(213-214,HT;302,Hall)的均值(μspeech)和方差(Λspeech221)。
4.根据权利要求1所述的方法,其中所述声学信号(101,
Figure FSB000004794660000111
)是语音。
5.根据权利要求1所述的方法,其中所述去噪是实时进行的。
6.根据权利要求1所述的方法,其中所述去噪模型(103)存储在存储器中。
7.根据权利要求1所述的方法,其中所有信号是呈数字化声谱图的形式。
8.根据权利要求1所述的方法,该方法进一步包括以下步骤:
使得代表所述训练声学信号(101,
Figure FSB00000479466000021
)的矩阵Vspeech与代表所述训练基矩阵(211-212,WT)的矩阵Wspeech以及代表所述训练声学信号(101,
Figure FSB00000479466000022
)的所述权重的矩阵Hspeech之间的Kullback-Leibler散度最小化;以及
使得代表所述训练噪声信号(102,
Figure FSB00000479466000023
)的矩阵Vnoise与代表训练噪声矩阵的矩阵Wnoise以及代表所述训练噪声信号(102,)的所述权重的矩阵Hnoise之间的Kullback-Leibler散度最小化。
9.根据权利要求1所述的方法,其中所述统计量(221-222)是在对数域中确定的。
10.一种对混合信号(104,Vmix)进行去噪的系统,其中所述混合信号(104,Vmix)包括声学信号(101,
Figure FSB00000479466000025
)和噪声信号(102,
Figure FSB00000479466000026
),该系统包括:
用于对所述混合信号(104,Vmix)应用受限非负矩阵分解(NMF)的装置,其中所述非负矩阵分解受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,
Figure FSB00000479466000027
)和训练噪声信号(102,)二者的训练基矩阵(211-212,WT)、以及这些训练基矩阵(211-212,WT)的权重(213-214,HT;302,Hall)的统计量(221-222),并且其中所述应用产生了所述混合信号(104,Vmix)的所述声学信号(101,
Figure FSB00000479466000029
)的基矩阵(211)的权重;以及
用于求取乘积以重构所述声学信号(101,
Figure FSB000004794660000210
)的装置,其中所述乘积是所述声学信号(101,
Figure FSB000004794660000211
)的所述基矩阵(211)的所述权重与所述训练声学信号(101,)和所述训练噪声信号(102,
Figure FSB000004794660000213
)二者的所述训练基矩阵(211-212,WT)的乘积。
CN2008101748601A 2007-11-19 2008-11-10 利用受限非负矩阵分解对声学信号去噪 Expired - Fee Related CN101441872B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/942,015 US8015003B2 (en) 2007-11-19 2007-11-19 Denoising acoustic signals using constrained non-negative matrix factorization
US11/942,015 2007-11-19

Publications (2)

Publication Number Publication Date
CN101441872A CN101441872A (zh) 2009-05-27
CN101441872B true CN101441872B (zh) 2011-09-14

Family

ID=40010715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101748601A Expired - Fee Related CN101441872B (zh) 2007-11-19 2008-11-10 利用受限非负矩阵分解对声学信号去噪

Country Status (4)

Country Link
US (1) US8015003B2 (zh)
EP (1) EP2061028A3 (zh)
JP (1) JP2009128906A (zh)
CN (1) CN101441872B (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
US8080724B2 (en) 2009-09-14 2011-12-20 Electronics And Telecommunications Research Institute Method and system for separating musical sound source without using sound source database
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
KR101253102B1 (ko) 2009-09-30 2013-04-10 한국전자통신연구원 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법
JP5516169B2 (ja) * 2010-07-14 2014-06-11 ヤマハ株式会社 音響処理装置およびプログラム
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
US8775335B2 (en) * 2011-08-05 2014-07-08 International Business Machines Corporation Privacy-aware on-line user role tracking
JP5662276B2 (ja) 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
CN102306492B (zh) * 2011-09-09 2012-09-12 中国人民解放军理工大学 基于卷积非负矩阵分解的语音转换方法
JP5884473B2 (ja) * 2011-12-26 2016-03-15 ヤマハ株式会社 音響処理装置および音響処理方法
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction
US20140114650A1 (en) * 2012-10-22 2014-04-24 Mitsubishi Electric Research Labs, Inc. Method for Transforming Non-Stationary Signals Using a Dynamic Model
CN102915742B (zh) * 2012-10-30 2014-07-30 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
WO2014079483A1 (en) * 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method and device for reconstructing a target signal from a noisy input signal
WO2014147442A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Spatial audio apparatus
CN103207015A (zh) * 2013-04-16 2013-07-17 华东师范大学 一种光谱重构方法及其光谱仪装置
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
JP6142402B2 (ja) * 2013-09-02 2017-06-07 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
US9324338B2 (en) 2013-10-22 2016-04-26 Mitsubishi Electric Research Laboratories, Inc. Denoising noisy speech signals using probabilistic model
CN103559888B (zh) * 2013-11-07 2016-10-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
US9449085B2 (en) * 2013-11-14 2016-09-20 Adobe Systems Incorporated Pattern matching of sound data using hashing
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6334895B2 (ja) * 2013-11-15 2018-05-30 キヤノン株式会社 信号処理装置及びその制御方法、プログラム
JP6290260B2 (ja) * 2013-12-26 2018-03-07 株式会社東芝 テレビシステムとサーバ装置及びテレビ装置
JP6482173B2 (ja) * 2014-01-20 2019-03-13 キヤノン株式会社 音響信号処理装置およびその方法
JP6274872B2 (ja) 2014-01-21 2018-02-07 キヤノン株式会社 音処理装置、音処理方法
US10013975B2 (en) 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US9582753B2 (en) * 2014-07-30 2017-02-28 Mitsubishi Electric Research Laboratories, Inc. Neural networks for transforming signals
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
US9576583B1 (en) * 2014-12-01 2017-02-21 Cedar Audio Ltd Restoring audio signals with mask and latent variables
US9553681B2 (en) * 2015-02-17 2017-01-24 Adobe Systems Incorporated Source separation using nonnegative matrix factorization with an automatically determined number of bases
US10839309B2 (en) 2015-06-04 2020-11-17 Accusonus, Inc. Data training in multi-sensor setups
US10643633B2 (en) * 2015-12-02 2020-05-05 Nippon Telegraph And Telephone Corporation Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
JP6521886B2 (ja) * 2016-02-23 2019-05-29 日本電信電話株式会社 信号解析装置、方法、及びプログラム
CN105957537B (zh) * 2016-06-20 2019-10-08 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
JP6553561B2 (ja) * 2016-08-30 2019-07-31 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP6564744B2 (ja) * 2016-08-30 2019-08-21 日本電信電話株式会社 信号解析装置、方法、及びプログラム
US10776718B2 (en) * 2016-08-30 2020-09-15 Triad National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments
JP7024615B2 (ja) * 2018-06-07 2022-02-24 日本電信電話株式会社 音響信号分離装置、学習装置、それらの方法、およびプログラム
US11227621B2 (en) 2018-09-17 2022-01-18 Dolby International Ab Separating desired audio content from undesired content
JP7149197B2 (ja) * 2019-02-06 2022-10-06 株式会社日立製作所 異常音検知装置および異常音検知方法
JP7245669B2 (ja) * 2019-02-27 2023-03-24 本田技研工業株式会社 音源分離装置、音源分離方法、およびプログラム
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110164465B (zh) * 2019-05-15 2021-06-29 上海大学 一种基于深层循环神经网络的语音增强方法及装置
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN110705624B (zh) * 2019-09-26 2021-03-16 广东工业大学 一种基于多信噪比模型的心肺音分离方法及系统
WO2021074973A1 (ja) * 2019-10-15 2021-04-22 日本電気株式会社 モデル生成方法、モデル生成装置、プログラム
CN112558757B (zh) * 2020-11-20 2022-08-23 中国科学院宁波材料技术与工程研究所慈溪生物医学工程研究所 一种基于平滑约束非负矩阵分解的肌肉协同提取方法
WO2022234635A1 (ja) * 2021-05-07 2022-11-10 日本電気株式会社 データ分析装置、データ分析方法、および記録媒体
CN113823291A (zh) * 2021-09-07 2021-12-21 广西电网有限责任公司贺州供电局 一种应用于电力作业中的声纹识别的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222840A1 (en) * 2004-03-12 2005-10-06 Paris Smaragdis Method and system for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
CN1862661A (zh) * 2006-06-16 2006-11-15 北京工业大学 一种语音信号特征波形的非负矩阵分解方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672834B2 (en) * 2003-07-23 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting and temporally relating components in non-stationary signals
US7424150B2 (en) * 2003-12-08 2008-09-09 Fuji Xerox Co., Ltd. Systems and methods for media summarization
US7698143B2 (en) * 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222840A1 (en) * 2004-03-12 2005-10-06 Paris Smaragdis Method and system for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
CN1862661A (zh) * 2006-06-16 2006-11-15 北京工业大学 一种语音信号特征波形的非负矩阵分解方法

Also Published As

Publication number Publication date
EP2061028A3 (en) 2011-11-09
CN101441872A (zh) 2009-05-27
JP2009128906A (ja) 2009-06-11
EP2061028A2 (en) 2009-05-20
US8015003B2 (en) 2011-09-06
US20090132245A1 (en) 2009-05-21

Similar Documents

Publication Publication Date Title
CN101441872B (zh) 利用受限非负矩阵分解对声学信号去噪
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
EP2164066A1 (en) Noise spectrum tracking in noisy acoustical signals
EP2912660B1 (en) Method for determining a dictionary of base components from an audio signal
Mohammadiha et al. Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling
Lee et al. DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition
Fitzgerald et al. Projet—spatial audio separation using projections
KR100647286B1 (ko) 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
Pandey et al. Monoaural Audio Source Separation Using Variational Autoencoders.
Jaureguiberry et al. Adaptation of source-specific dictionaries in non-negative matrix factorization for source separation
Li et al. Densely connected multi-stage model with channel wise subband feature for real-time speech enhancement
Nakajima et al. Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation
Kulkarni et al. A review of speech signal enhancement techniques
US10297272B2 (en) Signal processor
Kim et al. Factorized MVDR deep beamforming for multi-channel speech enhancement
Varshney et al. Frequency selection based separation of speech signals with reduced computational time using sparse NMF
Xie et al. Speech enhancement using group complementary joint sparse representations in modulation domain
Venkataramani et al. End-to-end non-negative autoencoders for sound source separation
Sawata et al. Diffiner: A versatile diffusion-based generative refiner for speech enhancement
Varshney et al. Snmf based speech denoising with wavelet decomposed signal selection
Wang et al. An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections
US11514922B1 (en) Systems and methods for preparing reference signals for an acoustic echo canceler
Chehresa et al. MMSE speech enhancement using GMM
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20181110

CF01 Termination of patent right due to non-payment of annual fee