CN101441872A - 利用受限非负矩阵分解对声学信号去噪 - Google Patents
利用受限非负矩阵分解对声学信号去噪 Download PDFInfo
- Publication number
- CN101441872A CN101441872A CNA2008101748601A CN200810174860A CN101441872A CN 101441872 A CN101441872 A CN 101441872A CN A2008101748601 A CNA2008101748601 A CN A2008101748601A CN 200810174860 A CN200810174860 A CN 200810174860A CN 101441872 A CN101441872 A CN 101441872A
- Authority
- CN
- China
- Prior art keywords
- training
- signal
- matrix
- noise
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000001228 spectrum Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制,其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。
Description
技术领域
本发明总体上涉及声学信号处理,更具体地涉及从诸如语音的声学信号中去除附加的噪声。
背景技术
噪声
从诸如语音的声学信号中去除附加的噪声在电话、音频话音记录、以及电子话音通信中有多种应用。噪声广泛存在于城市环境、工厂、飞机、车辆等中。
时变噪声尤其难以去除,该时变噪声更准确地反映了环境中的真实噪声。通常,由使用静态噪声模型的抑制技术不能实现非平稳噪声的消除。诸如谱减法和维纳滤波的常规方法常规地使用静态的或缓慢变化的噪声估计,因此受限于平稳的或准平稳的噪声。
非负矩阵分解
非负矩阵分解(NMF)最优地求解了下式
V≈WH。
常规的NMF定义如下。从非负的M×N矩阵V开始,目标是使得矩阵V近似为两个非负矩阵W和H的乘积。当矩阵V由WH的乘积近似地重构时,误差被最小化。这提供了一种将信号V分解为非负矩阵的凸组合的思路。
当信号V是声谱图并且该矩阵是一组谱形(spectral shape)时,通过将矩阵的不同列与不同的声源关联起来,NMF能够将单通道混合的声音分离,参见Smaragdis等人于2005年10月6日提交的美国专利申请20050222840,“Method and system for separating multiple sound sourcesfrom monophonic input with non-negative matrix factor deconvolution”,通过引用将其合并于此。
当不同声学信号的声谱图足以区分开时,NMF对于将声音分离是有效的。例如,如果诸如笛子的声源仅生成谐音(harmonic sound),并且诸如小鼓的另一声源仅生成非谐音(non-harmonic sound),则一个声源的声谱图区别于另一声源的声谱图。
语音
语音包括谐音和非谐音。谐音在不同时间可具有不同的基频。语音可在很宽的频率范围上具有能量。非平稳噪声的频谱可能与语音的频谱类似。因此,在语音去噪应用中,其中一个“声源”是语音而另一个“声源”是附加噪声,语音模型和噪声模型之间的重叠降低了去噪的性能。
因此,期望使得非负矩阵分解适于对具有附加非平稳噪声的语音进行去噪这一问题。
发明内容
本发明的实施方式提供了一种用于对混合的声学信号进行去噪的方法和系统。更具体地说,该方法对语音信号进行去噪。去噪结合了统计语音模型和噪声模型而使用受限非负矩阵分解(NMF)。
附图说明
图1是根据本发明实施方式的对声学信号进行去噪的方法的流程图;
图2是图1的方法的训练阶段的流程图;以及
图3是图1的方法的去噪阶段的流程图。
具体实施方式
图1示出了根据本发明实施方式的对混合的声学信号和噪声信号进行去噪的方法100。该方法包括一次训练200和实时去噪300。
一次训练200的输入包括训练声学信号101以及训练噪声信号102。这些训练信号表示要进行去噪的信号的类型,例如,具有非平稳噪声的语音。应当理解的是,通过相应地改变训练信号,该方法适于对例如音乐的其他类型的声学信号进行去噪。训练的输出是去噪模型103。该模型可以存储在存储器中以供将来使用。
实时去噪的输入包括模型103和混合信号(Vmix)104,该混合信号例如是语音和非平稳噪声。去噪的输出是对混合信号的声学(语音)部分105的估计。
在一次训练期间,非负矩阵分解(NMF)210独立地应用于声学信号101和噪声信号102以产生模型103。
针对声学信号和语音信号,NMF 210分别独立地产生训练基矩阵(WT)211-212和这些训练基矩阵的权重(HT)213-214。确定权重213-214的统计量221-222,即均值和方差。训练语音信号和训练噪声信号的训练基矩阵211-212、均值和方差221-222形成去噪模型103。
在实时去噪期间,将根据本发明实施方式的受限非负矩阵分解(CNMF)应用于混合信号(Vmix)104。CNMF受到模型103的限制。具体地说,CNMF假设在训练期间获得的先验训练矩阵211精确地表示混合信号104的声学部分的分布。因此,在CNMF期间,基矩阵固定地是训练基矩阵211,并且在CNMF 310期间根据模型的先验统计量(均值和方差)221-222而最优地确定固定训练基矩阵211的权重(Hall)302。随后,通过求取最优权重302和先验基矩阵211的乘积可以重构输出语音信号105。
训练
在图2所示的训练200期间,我们得到大小为nf×nst的语音声谱图Vspeech 101,以及大小为nf×nnt的噪声声谱图Vnoise 102,其中nf是频率单元(frequency bin)的数量,nst是语音帧的数量,并且nnt是噪声帧的数量。
如现有技术中所公知的,此处描述的声谱图形式的所有信号被数字化并被采样为多个帧。当我们提及声学信号时,具体是指已知的或可识别的音频信号,例如语音或音乐。对于本发明的目的,并不认为随机噪声是可识别的声学信号。混合信号104将声学信号与噪声合并。本发明的目的是去除这些噪声,使得仅保留可识别的声学部分105。
不同的目标函数得到不同形式的NMF。例如,矩阵V和WH之间Kullback-Leibler(KL)散度(记为D(V‖WH))对于声源分离很有效,参见Smaragdis等人的文献。因此,在我们的去噪发明的实施方式中,我们优先使用KL散度。推广到使用这些技术的其他目标函数是显而易见的,参见以下文献,即A.Cichocki、R.Zdunek以及S.Amari等人的“Newalgorithms for non-negative matrix factorization in applications to blindsource separation”,IEEE International Conference on Acoustics,Speech,andSignal Processing,2006,vol.5,pp.621-625,通过引用将其合并于此。
我们分别使和最小化。矩阵Wspeech和Wnoise的大小均为nf×nb,其中nb是代表每个源的基函数的数量。权重矩阵Hspeech和Hnoise的大小分别是nb×nst和nb×nnt,并代表训练基矩阵的时变激活(activation)水平。
我们根据经验来确定(220)权重矩阵和的对数值的均值和方差统计量。具体地说,我们确定语音权重的均值μspeech和方差Λspeech221,以及噪声权重的均值μnoise和方差Λnoisew222。每个均值μ是长度为nb的向量,并且每个方差Λ是nb×nb矩阵。
为了计算方便,我们选择隐含高斯表示。对数域比线性域产生更好的结果。这与线性域中的高斯表达既允许正值又允许负值是一致的,既允许正值又允许负值与对矩阵H的非负限制不一致。
我们将两组基矩阵211和213连接以形成大小为nf×2nb的矩阵Wall215。该组连接的基矩阵用于表示包含混合了语音和独立噪声的信号。我们还将统计量连接为μall=[μspeech;μnoise]和Λall=[Λspeech0;0Λnoise]。连接的基矩阵211和213以及连接的统计量221-222形成我们的去噪模型103。
去噪
在图3所示的实时去噪期间,基于矩阵精确地表示我们想要处理的语音和噪声的类型这一假设,我们使模型103的连接矩阵Wall215保持固定。
目标函数
我们的目的是确定使得下式最小化的最优权重Hall302
其中Dreg是正则化的KL散度目标函数,i是频率的索引,k是时间的索引,并且α是用于控制似然函数L(H)对整体目标函数Dreg的影响的可调节参数。当α为0时,式(1)等于KL散度目标函数。对于非零的α,存在与logH的联合高斯模型下的负log似然度成比例的附加的惩罚。该项使得所得到的矩阵Hall与在训练期间根据经验确定的矩阵Hspeech和Hnoise的统计量221-222相一致。变化的α使得我们能够控制在符合(fit)整体(观察到的混合的语音)与匹配“部分”的期望的统计量(语音和噪声统计量)之间的权衡,并实现该模型下的高似然度。
根据Cichocki等人的文献,权重矩阵Hall的乘法更新规则是
我们使用训练基矩阵211和矩阵Hall的前nb行,将去噪后的声谱图(例如干净语音105)重构(320)为
发明效果
根据本发明的实施方式的方法能够对存在非平稳噪声的语音进行去噪。与常规的利用平稳噪声模型进行去噪的维纳滤波相比,本发明的结果在大范围的噪声类型上显示出优越的性能。
尽管以优选实施方式为例描述了本发明,但应当理解的是,在本发明的精神和范围内可以做出各种其他的改变和修改。因此,所附权利要求的目的是涵盖落入本发明的真实精神和范围内的所有这种变型和修改。
Claims (10)
对所述混合信号(104,Vmix)应用受限非负矩阵分解(NMF),其中所述NMF受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,)和训练噪声信号(102,)二者的训练基矩阵(211-212,WT)、以及这些训练基矩阵(211-212,WT)的权重(213-214,HT;302,Hall)的统计量(221-222),并且其中所述应用产生了所述混合信号(104,Vmix)的所述声学信号(101,)的基矩阵(211)的权重;以及
3、根据权利要求1所述的方法,其中所述统计量(221-222)包括所述训练基矩阵(211-212,WT)的所述权重(213-214,HT;302,Hall)的均值(μspeech)和方差(Λspeech221)。
5、根据权利要求1所述的方法,其中所述去噪是实时进行的。
6、根据权利要求1所述的方法,其中所述去噪模型(103)存储在存储器中。
7、根据权利要求1所述的方法,其中所有信号是呈数字化声谱图的形式。
9、根据权利要求1所述的方法,其中所述统计量(221-222)是在对数域中确定的。
用于对所述混合信号(104,Vmix)应用受限非负矩阵分解(NMF)的装置,其中所述非负矩阵分解受到去噪模型(103)的限制,其中所述去噪模型(103)包括训练声学信号(101,)和训练噪声信号(102,)二者的训练基矩阵(211-212,WT)、以及这些训练基矩阵(211-212,WT)的权重(213-214,HT;302,Hall)的统计量(221-222),并且其中所述应用产生了所述混合信号(104,Vmix)的所述声学信号(101,的基矩阵(211)的权重;以及
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/942,015 US8015003B2 (en) | 2007-11-19 | 2007-11-19 | Denoising acoustic signals using constrained non-negative matrix factorization |
US11/942,015 | 2007-11-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101441872A true CN101441872A (zh) | 2009-05-27 |
CN101441872B CN101441872B (zh) | 2011-09-14 |
Family
ID=40010715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101748601A Expired - Fee Related CN101441872B (zh) | 2007-11-19 | 2008-11-10 | 利用受限非负矩阵分解对声学信号去噪 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8015003B2 (zh) |
EP (1) | EP2061028A3 (zh) |
JP (1) | JP2009128906A (zh) |
CN (1) | CN101441872B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
CN103207015A (zh) * | 2013-04-16 | 2013-07-17 | 华东师范大学 | 一种光谱重构方法及其光谱仪装置 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN104685562A (zh) * | 2012-11-21 | 2015-06-03 | 华为技术有限公司 | 用于从嘈杂输入信号中重构目标信号的方法和设备 |
CN104737229A (zh) * | 2012-10-22 | 2015-06-24 | 三菱电机株式会社 | 用于变换输入信号的方法 |
CN105230044A (zh) * | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
CN106030705A (zh) * | 2014-02-27 | 2016-10-12 | 高通股份有限公司 | 用于基于说话者词典的语音建模的系统和方法 |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN111863014A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN113228057A (zh) * | 2019-01-11 | 2021-08-06 | 三菱电机株式会社 | 推理装置和推理方法 |
CN113823291A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种应用于电力作业中的声纹识别的方法及系统 |
CN114913874A (zh) * | 2021-02-08 | 2022-08-16 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080228470A1 (en) * | 2007-02-21 | 2008-09-18 | Atsuo Hiroe | Signal separating device, signal separating method, and computer program |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
US8340943B2 (en) * | 2009-08-28 | 2012-12-25 | Electronics And Telecommunications Research Institute | Method and system for separating musical sound source |
US8080724B2 (en) | 2009-09-14 | 2011-12-20 | Electronics And Telecommunications Research Institute | Method and system for separating musical sound source without using sound source database |
US20110078224A1 (en) * | 2009-09-30 | 2011-03-31 | Wilson Kevin W | Nonlinear Dimensionality Reduction of Spectrograms |
KR101253102B1 (ko) | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
JP5516169B2 (ja) * | 2010-07-14 | 2014-06-11 | ヤマハ株式会社 | 音響処理装置およびプログラム |
KR20120031854A (ko) * | 2010-09-27 | 2012-04-04 | 한국전자통신연구원 | 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US8775335B2 (en) * | 2011-08-05 | 2014-07-08 | International Business Machines Corporation | Privacy-aware on-line user role tracking |
JP5662276B2 (ja) | 2011-08-05 | 2015-01-28 | 株式会社東芝 | 音響信号処理装置および音響信号処理方法 |
JP5884473B2 (ja) * | 2011-12-26 | 2016-03-15 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
WO2013138747A1 (en) * | 2012-03-16 | 2013-09-19 | Yale University | System and method for anomaly detection and extraction |
CN102915742B (zh) * | 2012-10-30 | 2014-07-30 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
JP6054142B2 (ja) * | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
US9812150B2 (en) | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
JP6142402B2 (ja) * | 2013-09-02 | 2017-06-07 | 日本電信電話株式会社 | 音響信号解析装置、方法、及びプログラム |
US9324338B2 (en) | 2013-10-22 | 2016-04-26 | Mitsubishi Electric Research Laboratories, Inc. | Denoising noisy speech signals using probabilistic model |
US9449085B2 (en) * | 2013-11-14 | 2016-09-20 | Adobe Systems Incorporated | Pattern matching of sound data using hashing |
JP2015118361A (ja) * | 2013-11-15 | 2015-06-25 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP6334895B2 (ja) * | 2013-11-15 | 2018-05-30 | キヤノン株式会社 | 信号処理装置及びその制御方法、プログラム |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
WO2015097818A1 (ja) * | 2013-12-26 | 2015-07-02 | 株式会社 東芝 | テレビシステムとサーバ装置及びテレビ装置 |
JP6482173B2 (ja) * | 2014-01-20 | 2019-03-13 | キヤノン株式会社 | 音響信号処理装置およびその方法 |
JP6274872B2 (ja) | 2014-01-21 | 2018-02-07 | キヤノン株式会社 | 音処理装置、音処理方法 |
US10468036B2 (en) | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US20150264505A1 (en) | 2014-03-13 | 2015-09-17 | Accusonus S.A. | Wireless exchange of data between devices in live events |
US9582753B2 (en) * | 2014-07-30 | 2017-02-28 | Mitsubishi Electric Research Laboratories, Inc. | Neural networks for transforming signals |
CN104751855A (zh) * | 2014-11-25 | 2015-07-01 | 北京理工大学 | 基于非负矩阵分解的音乐背景下语音增强方法 |
US9576583B1 (en) * | 2014-12-01 | 2017-02-21 | Cedar Audio Ltd | Restoring audio signals with mask and latent variables |
US9553681B2 (en) * | 2015-02-17 | 2017-01-24 | Adobe Systems Incorporated | Source separation using nonnegative matrix factorization with an automatically determined number of bases |
US10839309B2 (en) | 2015-06-04 | 2020-11-17 | Accusonus, Inc. | Data training in multi-sensor setups |
JP6434657B2 (ja) * | 2015-12-02 | 2018-12-05 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
JP6521886B2 (ja) * | 2016-02-23 | 2019-05-29 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
JP6564744B2 (ja) * | 2016-08-30 | 2019-08-21 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
JP6553561B2 (ja) * | 2016-08-30 | 2019-07-31 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
US10776718B2 (en) | 2016-08-30 | 2020-09-15 | Triad National Security, Llc | Source identification by non-negative matrix factorization combined with semi-supervised clustering |
US9978392B2 (en) * | 2016-09-09 | 2018-05-22 | Tata Consultancy Services Limited | Noisy signal identification from non-stationary audio signals |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
US10811030B2 (en) * | 2017-09-12 | 2020-10-20 | Board Of Trustees Of Michigan State University | System and apparatus for real-time speech enhancement in noisy environments |
JP7024615B2 (ja) * | 2018-06-07 | 2022-02-24 | 日本電信電話株式会社 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
US11227621B2 (en) | 2018-09-17 | 2022-01-18 | Dolby International Ab | Separating desired audio content from undesired content |
JP7149197B2 (ja) * | 2019-02-06 | 2022-10-06 | 株式会社日立製作所 | 異常音検知装置および異常音検知方法 |
JP7245669B2 (ja) * | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
CN110164465B (zh) * | 2019-05-15 | 2021-06-29 | 上海大学 | 一种基于深层循环神经网络的语音增强方法及装置 |
CN112614500B (zh) * | 2019-09-18 | 2024-06-25 | 北京声智科技有限公司 | 回声消除方法、装置、设备及计算机存储介质 |
CN110705624B (zh) * | 2019-09-26 | 2021-03-16 | 广东工业大学 | 一种基于多信噪比模型的心肺音分离方法及系统 |
JP7420144B2 (ja) * | 2019-10-15 | 2024-01-23 | 日本電気株式会社 | モデル生成方法、モデル生成装置、プログラム |
CN112558757B (zh) * | 2020-11-20 | 2022-08-23 | 中国科学院宁波材料技术与工程研究所慈溪生物医学工程研究所 | 一种基于平滑约束非负矩阵分解的肌肉协同提取方法 |
WO2022234635A1 (ja) * | 2021-05-07 | 2022-11-10 | 日本電気株式会社 | データ分析装置、データ分析方法、および記録媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672834B2 (en) * | 2003-07-23 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting and temporally relating components in non-stationary signals |
US7424150B2 (en) * | 2003-12-08 | 2008-09-09 | Fuji Xerox Co., Ltd. | Systems and methods for media summarization |
US7415392B2 (en) | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
US7698143B2 (en) * | 2005-05-17 | 2010-04-13 | Mitsubishi Electric Research Laboratories, Inc. | Constructing broad-band acoustic signals from lower-band acoustic signals |
CN1862661A (zh) * | 2006-06-16 | 2006-11-15 | 北京工业大学 | 一种语音信号特征波形的非负矩阵分解方法 |
-
2007
- 2007-11-19 US US11/942,015 patent/US8015003B2/en not_active Expired - Fee Related
-
2008
- 2008-09-22 JP JP2008242017A patent/JP2009128906A/ja active Pending
- 2008-10-13 EP EP08017924A patent/EP2061028A3/en not_active Withdrawn
- 2008-11-10 CN CN2008101748601A patent/CN101441872B/zh not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
CN102306492B (zh) * | 2011-09-09 | 2012-09-12 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
CN104737229A (zh) * | 2012-10-22 | 2015-06-24 | 三菱电机株式会社 | 用于变换输入信号的方法 |
CN104685562B (zh) * | 2012-11-21 | 2017-10-17 | 华为技术有限公司 | 用于从嘈杂输入信号中重构目标信号的方法和设备 |
CN104685562A (zh) * | 2012-11-21 | 2015-06-03 | 华为技术有限公司 | 用于从嘈杂输入信号中重构目标信号的方法和设备 |
CN105230044A (zh) * | 2013-03-20 | 2016-01-06 | 诺基亚技术有限公司 | 空间音频装置 |
CN103207015A (zh) * | 2013-04-16 | 2013-07-17 | 华东师范大学 | 一种光谱重构方法及其光谱仪装置 |
CN103559888B (zh) * | 2013-11-07 | 2016-10-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN106030705A (zh) * | 2014-02-27 | 2016-10-12 | 高通股份有限公司 | 用于基于说话者词典的语音建模的系统和方法 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
CN105957537B (zh) * | 2016-06-20 | 2019-10-08 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN113228057A (zh) * | 2019-01-11 | 2021-08-06 | 三菱电机株式会社 | 推理装置和推理方法 |
CN113228057B (zh) * | 2019-01-11 | 2024-05-31 | 三菱电机株式会社 | 推理装置和推理方法 |
CN111863014A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN114913874A (zh) * | 2021-02-08 | 2022-08-16 | 北京小米移动软件有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
CN113823291A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种应用于电力作业中的声纹识别的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP2061028A2 (en) | 2009-05-20 |
JP2009128906A (ja) | 2009-06-11 |
US8015003B2 (en) | 2011-09-06 |
EP2061028A3 (en) | 2011-11-09 |
CN101441872B (zh) | 2011-09-14 |
US20090132245A1 (en) | 2009-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101441872B (zh) | 利用受限非负矩阵分解对声学信号去噪 | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
Wang et al. | Bridging the gap between monaural speech enhancement and recognition with distortion-independent acoustic modeling | |
Grais et al. | Single channel speech music separation using nonnegative matrix factorization and spectral masks | |
CN105788607B (zh) | 应用于双麦克风阵列的语音增强方法 | |
EP2912660B1 (en) | Method for determining a dictionary of base components from an audio signal | |
Lee et al. | DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition | |
Mohammadiha et al. | Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling | |
Pandey et al. | Monoaural Audio Source Separation Using Variational Autoencoders. | |
Lemercier et al. | Analysing diffusion-based generative approaches versus discriminative approaches for speech restoration | |
Fitzgerald et al. | Projet—spatial audio separation using projections | |
KR20060015389A (ko) | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 | |
Jaureguiberry et al. | Adaptation of source-specific dictionaries in non-negative matrix factorization for source separation | |
Kim et al. | Factorized MVDR deep beamforming for multi-channel speech enhancement | |
Li et al. | Densely connected multi-stage model with channel wise subband feature for real-time speech enhancement | |
Kulkarni et al. | A review of speech signal enhancement techniques | |
Nakajima et al. | Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation | |
US10297272B2 (en) | Signal processor | |
Varshney et al. | Frequency selection based separation of speech signals with reduced computational time using sparse NMF | |
Sawata et al. | Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement | |
Xie et al. | Speech enhancement using group complementary joint sparse representations in modulation domain | |
Borgström et al. | Improving statistical model-based speech enhancement with deep neural networks | |
Venkataramani et al. | End-to-end non-negative autoencoders for sound source separation | |
Ueda et al. | Constant separating vector-based blind source extraction and dereverberation for a moving speaker | |
Wang et al. | An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110914 Termination date: 20181110 |