CN114093379A - 噪声消除方法及装置 - Google Patents
噪声消除方法及装置 Download PDFInfo
- Publication number
- CN114093379A CN114093379A CN202111529688.9A CN202111529688A CN114093379A CN 114093379 A CN114093379 A CN 114093379A CN 202111529688 A CN202111529688 A CN 202111529688A CN 114093379 A CN114093379 A CN 114093379A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- weight
- sound signal
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003379 elimination reaction Methods 0.000 title claims abstract description 64
- 230000008030 elimination Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000005236 sound signal Effects 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000002596 correlated effect Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 43
- 239000010410 layer Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 238000009432 framing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 101000630267 Homo sapiens Probable glutamate-tRNA ligase, mitochondrial Proteins 0.000 description 4
- 102100026125 Probable glutamate-tRNA ligase, mitochondrial Human genes 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本申请提供一种噪声消除方法及装置,应用于电子设备,所述方法包括:使用第一方式,对电子设备获取的声音信号进行噪声消除处理,得到第一信号,使用第二方式,对声音信号进行噪声消除处理,得到第二信号,依据第一信号与第二信号分别与不带噪声的第一样本声音信号的差异,以及权重与差异正相关的规则,获取第一方式消除的噪声的第一权重和第二方式消除的噪声的第二权重。依据第一信号、第二信号、第一权重以及第二权重,获取加权估计噪声,依据加权估计噪声,对声音信号进行噪声消除处理。加权噪声的获得方式,能够综合第一方式和第二方式两者的优点,既能够去除第一方式擅长去除的噪声,又能够去除第二方式擅长去除的噪声,扩大了适用范围。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种噪声消除方法及装置。
背景技术
消除信号例如语音信号中的噪声的方式包括单通道降噪算法。目前,单通道降噪算法通常仅能去除某些类型的噪声,所以适用范围有限。
发明内容
本申请提供了一种噪声消除方法及装置,目的在于解决如何扩大噪声消除方法的适用范围的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请的第一方面提供一种噪声消除方法,应用于电子设备,包括:使用第一方式,对所述电子设备获取的声音信号进行噪声消除处理,得到第一信号,使用第二方式,对所述声音信号进行噪声消除处理,得到第二信号,依据所述第一信号与所述第二信号分别与第一样本声音信号的差异,以及权重与差异正相关的规则,获取第一权重和第二权重,所述第一权重为所述第一方式消除的噪声的权重,所述第二权重为所述第二方式消除的噪声的权重;所述第一样本声音信号为不带噪声的信号,依据所述第一信号、所述第二信号、所述第一权重以及所述第二权重,获取加权估计噪声,依据所述加权估计噪声,对所述声音信号进行噪声消除处理。可以看出,第一方式以及第二方式消除的噪声越接近真实噪声,则消除的噪声对加权估计噪声的贡献越大,因此能够使得加权估计噪声接近真实噪声,从而实现更准确地消除声音信号中的噪声的目的。并且,加权噪声的获得方式,能够减弱第一方式和第二方式的缺点,并综合两者的优点,既能够去除第一方式擅长去除的噪声,又能够去除第二方式擅长去除的噪声,扩大了适用范围。
可选的,所述依据所述第一信号与所述第二信号分别与第一样本声音信号的差异,以及权重与差异正相关的规则,获取第一权重和第二权重,包括:将所述第一信号以及所述第二信号,输入神经网络模型,得到所述神经网络模型输出的所述第一权重和所述第二权重,所述神经网络模型使用所述规则训练得到。通过神经网络表达第一信号、第二信号,与第一权重和第二权重之间的映射关系,为扩大噪声消除方式的适用范围奠定基础。
可选的,训练所述神经网络模型的流程包括:使用所述第一方式,对第二样本声音信号进行噪声消除处理,得到第一训练信号;所述第二样本声音信号包括所述第一样本声音信号和噪声信号,使用所述第二方式,对所述第二样本声音信号进行噪声消除处理,得到第二训练信号,依据所述第一训练信号和所述第二训练信号分别与所述第一样本声音信号的差异,得到第一样本权重和第二样本权重,获取所述神经网络模型依据所述第一训练信号与所述第二训练信号,输出的第一训练权重和第二训练权重,使用所述第一样本权重、所述第二样本权重,所述第一训练权重、所述第二训练权重以及损失函数,调整所述神经网络模型的参数。
可选的,所述第一方式包括:对所述电子设备获取的声音信号进行噪声估计,得到估计噪声,使用所述估计噪声,对所述电子设备获取的声音信号进行噪声消除处理。第一方式是信号处理类型的噪声消除方式,善于消除稳态噪声。
可选的,所述对所述声音信号进行噪声估计,得到估计噪声,包括:依据所述电子设备获取的声音信号中的第i帧的所述加权估计噪声,对所述电子设备获取的声音信号中的第i+1帧进行噪声估计,得到所述第i+1帧的估计噪声,从而有利于提高第一方式估计得到的噪声的准确性,进一步提到得到的加权估计噪声的准确性。
可选的,所述差异包括:均方误差或者损失。
可选的,在所述对所述电子设备获取的声音信号进行噪声消除处理之前,还包括:对所述电子设备采集的声音信号进行分帧加窗处理,将所述分帧加窗处理后的信号,转换至频域,得到所述电子设备获取的声音信号,以便于后续使用第一方式和第二方式去除噪声。
本申请的第二方面提供一种电子设备,包括:处理器和存储器,所述存储器用于存储应用程序,所述处理器用于运行所述应用程序,以实现本申请的第一方面提供的噪声消除方法。
本申请的第三方面提供一种计算机可读存储介质,其上存储有程序,在计算机设备运行所述程序时,实现本申请的第一方面提供的噪声消除方法。
本申请的第四方面提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得所述计算机执行本申请的第一方面提供的噪声消除方法。
附图说明
图1为手机采集语音信号的示例图;
图2为本申请实施例公开的电子设备的结构示例图;
图3为本申请实施例公开的电子设备中运行的软件框架的示例图;
图4为本申请实施例公开的一种噪声消除装置的结构示例图;
图5为本申请实施例公开的对噪声消除装置中的置信度估计模块进行训练的示意图;
图6为本申请实施例公开的一种噪声消除方法的流程图;
图7为本申请实施例公开的又一种噪声消除方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
图1为手机采集语音信号的场景示例:手机通过声音采集模块采集语音信号,采集到的语音信号可以有多种用途。因为手机所处的现实环境中存在各种噪声,所以手机采集到的语音信号中混杂了噪声,所以有必要对采集到的信号进行噪声消除。
可以理解的是,在本申请的以下实施例中,以噪声消除对象为带噪声的语音信号为例进行说明,但噪声消除对象并不限于带噪声的语音信号,声音采集模块采集到的信号均可作为噪声消除对象。
本申请实施例公开的噪声消除方法,应用在电子设备。
在一些实现方式中,电子设备可以为手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、可穿戴电子设备、智能手表等设备。
电子设备以手机为例,图2所示为与本申请实施例相关的手机的部分结构,包括:处理器110,天线1,天线2,移动通信模块120,无线通信模块130,音频模块140,麦克风140A等。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。本申请实施例中,DSP 用于支持基于DSP的噪声消除方式,NPU用于支持基于NN的噪声消除方式。
其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用输入输出(general-purpose input/output,GPIO)接口等。
在一些实施例中,GPIO接口可以用于连接处理器110与无线通信模块130,音频模块140等。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块140耦合,实现处理器110与音频模块140之间的通信。在一些实施例中,音频模块140可以通过I2S接口向无线通信模块130传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块140与无线通信模块130可以通过PCM总线接口耦合。在一些实施例中,音频模块140也可以通过PCM接口向无线通信模块130传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。移动通信模块120可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。
无线通信模块130可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
在某些实现方式中,电子设备通过移动通信模块120或无线通信模块130,接收声音信号。
音频模块140用于将模拟音频输入转换为数字音频信号。音频模块140还可以用于对音频信号编码和解码。在一些实施例中,音频模块140可以设置于处理器110中,或将音频模块140的部分功能模块设置于处理器110中。
麦克风140A,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风140A发声,将声音信号输入到麦克风140A。电子设备可以设置至少一个麦克风140A。在另一些实施例中,电子设备可以设置两个麦克风140A,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风140A,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
在又一些实现方式中,电子设备可以通过音频模块140,麦克风140A,实现录音等功能。
在电子设备通过以上方式获取声音信号后,通过处理器110的上述接口,将声音信号传输至处理器110,处理器110对声音信号进行以下实施例中所述的噪声消除处理。
处理器110通过运行程序代码,实现的操作系统可以为iOS操作系统、Android开源操作系统、Windows操作系统等。
以Android开源操作系统为例,如图3所示,在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,硬件抽象层,以及内核层。
应用程序层可以包括一系列应用程序。如图3所示,在本申请实施例中,与声音信号采集相关的应用程序的示例包括通话和录音。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图3所示,应用程序框架层可以包括与本申请实施例相关的通话服务和录音服务。
硬件抽象层(HAL),或称为安卓运行时(Android Runtime),负责安卓系统的调度和管理,硬件抽象层中运行噪声消除装置,用于实现本实施例所述的噪声消除功能。
内核层是硬件和软件之间的层。在本申请实施例中,内核层至少包含麦克驱动,以及声卡驱动等。各个驱动用于经获取的硬件的数据进行处理,并将处理结果上报至硬件抽象层的相应模块。
图4为本申请实施例公开的实现噪声消除方法的噪声消除装置的结构示例,应用于图2所示的电子设备。噪声消除装置包括:分帧加窗模块1、FFT模块2、数字信号处理(digital signal processing,DSP)噪声消除模块3、神经网络(Neural Network,NN)噪声消除模块4、置信度估计模块5、加权噪声估计模块6、加权噪声消除模块7以及IFFT模块8。
下面将以麦克采集的信号为带噪声的语音信为例,对图4所示的各个模块的功能进行说明:
分帧加窗模块1用于对麦克采集的带噪声的语音信号先进行分帧处理,再进行加窗处理。分帧处理和加窗处理可以使用多种算法实现,这里不再赘述。
FFT模块2用于对加窗后的信号进行快速傅里叶变换,将加窗后的信号变换到频域。
数字信号处理(digital signal processing,DSP)噪声消除模块3用于使用DSP方式,对输入的信号进行噪声消除。图4中,以DSP噪声消除模块3包括噪声估计子模块31和增益计算子模块32为例。
噪声估计子模块31用于估计输入的信号中的噪声。增益计算子模块32用于依据噪声估计子模块31估计的噪声,使用增益函数对输入DSP噪声消除模块3的信号进行噪声消除处理。可以理解的是,噪声估计子模块32使用的噪声估计算法包括但不限于:最小值控制的递归平均算法(minima controlled recursive averaging, MCRA), 改进的最小值控制的递归平均算法(improved minima controlled recursive averaging,IMCRA),连续频谱跟踪。增益函数包括但不限于:维纳滤波,最小均方误差(Minimum Mean Square Error ,MMSE),LOG-MMSE。
神经网络(Neural Network,NN)噪声消除模块4用于使用神经网络模型对输入的信号进行噪声消除处理。NN的具体结构这里不再赘述。
置信度估计模块5用于输出第一权重以及第二权重的至少一项。第一权重表示DSP噪声消除模块3消除(估计)的噪声在后续噪声估计中所占的权重。第二权重表示NN噪声消除模块4消除的噪声在后续噪声估计中所占的权重。
可以理解的是,第一权重与第二权重之和为1。因此,置信度估计模块5只要确定或输出第一权重或第二权重,另一权重也可计算得到。
置信度估计模块5遵循以下规律,输出第一权重以及第二权重的至少一项:如果经DSP噪声消除模块3处理后的信号与不带噪声的语音信号更接近,则说明DSP噪声消除模块3估计的噪声更为准确,则DSP噪声消除模块3估计的噪声应在后续噪声估计中占的权重更大,所以,第一权重大于第二权重。如果经NN噪声消除模块4处理后的信号与不带噪声的语音信号更接近,则说明NN噪声消除模块4消除的噪声更为准确,则NN噪声消除模块4消除的噪声应在后续噪声估计中占的权重更大,所以,第二权重大于第一权重。
置信度估计模块5可以为神经网络模型,并通过训练实现上述功能。训练过程可以参见图5所示。
加权噪声估计模块6用于依据DSP噪声消除模块3消除(估计)的噪声、NN噪声消除模块4消除的噪声、第一权重以及第二权重,进行噪声估计。
在某些实现方式中,噪声加权估计的规则为:
N(t,f)=(1-K)*N_dsp(t,f) + K *N_NN(t,f)(1)。
其中,1-K为第一权重,K为第二权重,N_dsp(t,f)为DSP噪声消除模块3消除(估计)的噪声,N_NN(t,f)为NN噪声消除模块4消除的噪声,N(t,f)为加权噪声估计模块6估计得到的噪声。
可以理解的是,NN噪声消除模块4消除的噪声,可以依据输入NN噪声消除模块4的信号和NN噪声消除模块4处理后的信号计算得到。
从置信度估计模块5输出第一权重和第二权重的至少一项遵循的规律可知,DSP噪声消除模块3处理后的信号和NN噪声消除模块4处理后的信号中,与不带噪声的语音信号更接近的信号而消除的噪声,对加权噪声估计模块6估计得到的噪声的贡献更大,从而提高加权噪声估计模块6估计得到的噪声的准确性。
加权噪声消除模块7用于依据加权噪声估计模块6估计得到的噪声,对麦克采集的信号进行噪声消除。
在一些实现方式中,具体的噪声消除方式为:
X’(t,f) = OP(Y_mic (t,f) ,N(t,f))(2)。
X’(t,f)为加权噪声消除模块7输出的噪声消除后的信号,Y_mic (t,f)为麦克采集的信号,OP表示增益函数,包括但不限于维纳wiener滤波函数、MMSE函数或Log-MMSE函数。
IFFT模块8用于将X’(t,f)进行快速反傅里叶变换,以将X’(t,f)变换为时序信号,即得到噪声消除后的语音信号。
从以上各模块的功能可以看出,图4所示的噪声消除装置,通过以DSP噪声消除模块3和NN噪声消除模块4对噪声消除的效果为依据,为DSP噪声消除模块3和NN噪声消除模块4消除的噪声分配权重,再对噪声进行加权估计,以得到更为准确的噪声,从而实现更准确地消除麦克采集的信号中的噪声的目的。
DSP噪声消除模块3对于稳态噪声的消除效果好,而对于非稳态的噪声的消除效果欠佳。NN噪声消除模块4对于与训练数据的同类噪声的消除效果好,而对于与训练数据不同类的噪声的消除效果欠佳。而图4中的置信度估计模块5和加权噪声估计模块6,能够减弱DSP噪声消除模块3和NN噪声消除模块4的缺点,并综合两者的优势,增加结果的稳健性。
下面将对图4所示的噪声消除装置消除噪声的流程进行详细的说明。
图4所示的噪声消除装置在被用于消除噪声之前,需要先对置信度估计模块5进行训练,下面先对置信度估计模块5的训练流程进行说明:
S51、训练模块分别向DSP噪声消除模块3和NN噪声消除模块4传输样本信号。
本实施例中,假设用于训练的样本信号(可看作FFT模块2输出的信号)为:
Y(t,f)=X(t,f)+N(t,f)(3)
其中,X(t,f)为不带噪声的语音信号,N(t,f)为噪声信号,Y(t,f)为带噪声的语音信号,即样本信号。可以理解的是,因为是样本信号,所以X(t,f)、N(t,f)以及Y(t,f)均已知。
可以理解的是,训练模块可以运行在图2所示的电子设备,也可以运行在其它设备,这里不做限定。
S52、DSP噪声消除模块3对样本信号进行噪声消除处理,得到第一训练信号,记为Y_DSP(t,f)。
可以理解的是,DSP噪声消除模块3中的噪声估计子模块31先进行噪声估计,估计得到的噪声记为N_dsp(t,f),增益计算子模块32再使用N_dsp(t,f)对Y(t,f)进行增益计算,得到Y_DSP(t,f)。
S53、DSP噪声消除模块3将第一训练信号向置信度估计模块5传输。
S54、NN噪声消除模块4对样本信号进行噪声消除处理,得到第二训练信号,记为Y_NN(t,f)。
可以理解的是,S52与S54的执行顺序不做限定。
S55、NN噪声消除模块4将第二训练信号向置信度估计模块5传输。
S56、置信度估计模块5依据输入的第一训练信号和第二训练信号,向训练模块输出第一训练权重和第二训练权重。
为了便于理解和区分,本实施例中,将置信度估计模块5输出的第一权重称为第一训练权重,输出的第二权重称为第二训练权重。
S57、训练模块依据第一训练信号和第二训练信号分别与X(t,f)的差异,确定第一样本权重以及第二样本权重。
为了便于理解和区分,本实施例中,将训练模块按照以下方式获取的N_dsp(t,f)的权重称为第一样本权重,将训练模块按照以下方式获取的NN噪声消除模块4消除的噪声N_NN(t,f)的权重称为第二样本权重。
在某些实现方式中,以均方误差(Mean Squared Error, MSE)、或者损失Loss为依据,分别计算Y_DSP(t,f)以及Y_NN(t,f)与X(t,f)的差异。
以MSE为例,Y_DSP(t,f)与X(t,f)的MSE为:
MSE1=(Y_DSP(t,f)–X(t,f))*(Y_ DSP(t,f)–X(t,f))(4)。
Y_NN(t,f)与X(t,f)的MSE为:
MSE2=(Y_NN(t,f)–X(t,f))*(Y_NN(t,f)–X(t,f))(5)。
从上式可以看出,MSE越大,说明经过噪声消除后的信号与X(t,f)的差距越大。而MSE越小,说明经过噪声消除后的信号与X(t,f)越接近。所以,可以依据MSE1和MSE2,确定Y_DSP(t,f)和Y_NN(t,f)中,与X(t,f)更接近的信号。
可以理解的是,如果Y_DSP(t,f)与Y(t,f)的偏差更小,则第一样本权重大于第二样本权重,而如果Y_NN(t,f)与Y(t,f)的偏差更小,则第二样本权重大于第一样本权重。因此,只要按照大小关系为第一样本权重和第二样本权重分配具体数值即可。可以理解的是,如果MSE1与MSE2相同,则第一样本权重与第二样本权重相同。
在某些实现方式中,为第一样本权重和第二样本权重分配的具体数值,可以预先配置为固定数值,例如0.7和0.3。
在另一些实现方式中,为第一样本权重和第二样本权重分配的具体数值,依据Y_DSP(t,f)和Y_NN(t,f)分别与X(t,f)的差异计算得到。
还以MSE为例,K= a/( MSE1+ MSE2)(6),其中,a为MSE1或MSE2, K和1-K为待为第一样本权重和第二样本权重分配的数值。
可以理解的是,K和1-K或者相等,或者一大一小。如果Y_DSP(t,f)与Y(t,f)的偏差更小,则第一样本权重为K和1-K中的较大值,第二样本权重为K和1-K中的较小值。如果Y_NN(t,f)与Y(t,f)的偏差更小,第二样本权重为K和1-K中的较大值,第一样本权重为K和1-K中的较小值。
S58、训练模块使用置信度估计模块5输出的第一训练权重和第二训练权重的至少一项、第一样本权重、第二样本权重以及损失函数,对置信度估计模块5进行参数调整。
可以理解的是,经过上述训练过程后,置信度估计模块5具有了依据DSP噪声消除模块3以及NN噪声消除模块4的噪声消除效果,为后续噪声估计分配权重的功能,从而能够提高后续噪声估计的准确性。
图6为图4所示的噪声消除装置对麦克采集到的信号进行处理的流程,在电子设备的麦克采集到信号之后执行,包括以下步骤:
S61、分帧加窗模块1对麦克采集到的信号进行分帧处理和加窗处理,并将分帧处理和加窗处理后的信号向FFT模块2传输。
S62、FFT模块2对分帧处理和加窗处理后的信号进行FFT运算,得到频域信号,并将频域信号分别向DSP噪声消除模块3和NN噪声消除模块4传输。
S63、DSP噪声消除模块3对第一信号进行基于DSP的噪声消除处理,得到第一信号,并将第一信号向置信度估计模块5传输。
可以理解的是,噪声估计子模块31估计第一信号中的噪声,增益计算子模块32依据噪声估计子模块31估计的噪声,对频域信号进行噪声消除处理。
S64、NN噪声消除模块4对频域信号进行基于NN的噪声消除,得到第二信号,并将第二信号向置信度估计模块5传输。
可以理解的是,S63和S64的执行顺序不做限定。
S65、置信度估计模块5依据第一信号和第二信号分别与频域信号的差异,获取第一权重和第二权重的至少一项,并将第一权重和第二权重的至少一项,向加权噪声估计模块6传输。
图6中,以向加权噪声估计模块6传输第一权重和第二权重为例。
S66、加权噪声估计模块6依据第一权重、第二权重、第一噪声以及第二噪声,进行噪声估计,得到加权估计噪声。
第一噪声为前述DSP噪声消除模块3从频域信号中消除(即估计)的噪声,第二噪声为NN噪声消除模块4从频域信号中消除的噪声。
加权估计的具体实现方式如前所述,这里不再赘述。
可以理解的是,置信度估计模块5仅输出第一权重(或第二权重)的情况下,加权噪声估计模块6可以依据第一权重与第二权重之和为1的规则,获取第二权重(或第一权重)。
S67、加权噪声消除模块7依据加权估计噪声,对频域信号进行噪声消除,得到去噪信号,并将去噪信号向IFFT模块8传输。
S68、IFFT模块8将去噪信号进行快速反傅里叶变换,得到并输出去噪的时域信号。
图6所示的噪声消除流程,能够消除稳态噪声、非稳态噪声,且受NN噪声消除模块的训练样本的影响较小,具有更高的泛化能力,所以具有更大的适用范围。并且,权重的获取方式,能够得到更为精确的噪声,从而具有更优的噪声消除能力。
图7为本申请实施例公开的又一种噪声消除方法,与图6相比,区别在于:加权噪声估计模块6将估计得到的噪声,反馈至DSP噪声消除模块3的噪声估计子模块31,噪声估计子模块31使用接收到的噪声信号,调整噪声估计子模块31估计的噪声信号。具体如图7中的S66a。
在一些实现方式中,加权噪声估计模块6将对第i帧频域信号估计的噪声,反馈至噪声估计子模块31,噪声估计子模块31利用对第i帧频域信号估计的噪声,调整噪声估计子模块31对第i+1帧频域信号估计的噪声。
因为DSP噪声消除模块3的噪声估计子模块31能够估计出的噪声仅为稳态噪声,所以,在频域信号中的噪声为非稳态的情况下,噪声估计子模块31估计出的噪声的准确性较低,即使第一权重小于第二权重,但因为加权噪声估计模块6将噪声估计子模块31估计的噪声作为噪声估计的依据,所以也会进一步导致加权噪声估计模块6估计的噪声的准确性降低。
而将加权噪声估计模块6估计的噪声反馈影响噪声估计子模块31估计得到的噪声,能够消除噪声估计子模块31的稳态噪声的假设瓶颈,有利于提高噪声估计子模块31估计的噪声的准确性,从而提高加权噪声估计模块6估计的噪声的准确性。
本申请实施例还提供了一种电子设备,包括处理器和存储器。所述存储器用于存储应用程序,所述处理器用于运行所述应用程序,以实现上述实施例所述的噪声消除方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有程序,在计算机设备运行所述应用程序时,实现上述实施例所述的噪声消除方法。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得所述计算机执行上述实施例所述的噪声消除方法。
Claims (10)
1.一种噪声消除方法,应用于电子设备,其特征在于,包括:
使用第一方式,对所述电子设备获取的声音信号进行噪声消除处理,得到第一信号;
使用第二方式,对所述声音信号进行噪声消除处理,得到第二信号;
依据所述第一信号与所述第二信号分别与第一样本声音信号的差异,以及权重与差异正相关的规则,获取第一权重和第二权重,所述第一权重为所述第一方式消除的噪声的权重,所述第二权重为所述第二方式消除的噪声的权重;所述第一样本声音信号为不带噪声的信号;
依据所述第一信号、所述第二信号、所述第一权重以及所述第二权重,获取加权估计噪声;
依据所述加权估计噪声,对所述声音信号进行噪声消除处理。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一信号与所述第二信号分别与第一样本声音信号的差异,以及权重与差异正相关的规则,获取第一权重和第二权重,包括:
将所述第一信号以及所述第二信号,输入神经网络模型,得到所述神经网络模型输出的所述第一权重和所述第二权重,所述神经网络模型使用所述规则训练得到。
3.根据权利要求2所述的方法,其特征在于,训练所述神经网络模型的流程包括:
使用所述第一方式,对第二样本声音信号进行噪声消除处理,得到第一训练信号;所述第二样本声音信号包括所述第一样本声音信号和噪声信号;
使用所述第二方式,对所述第二样本声音信号进行噪声消除处理,得到第二训练信号;
依据所述第一训练信号和所述第二训练信号分别与所述第一样本声音信号的差异,得到第一样本权重和第二样本权重;
获取所述神经网络模型依据所述第一训练信号与所述第二训练信号,输出的第一训练权重和第二训练权重;
使用所述第一样本权重、所述第二样本权重,所述第一训练权重、所述第二训练权重以及损失函数,调整所述神经网络模型的参数。
4.根据权利要求1所述的方法,其特征在于,所述第一方式包括:
对所述电子设备获取的声音信号进行噪声估计,得到估计噪声;
使用所述估计噪声,对所述电子设备获取的声音信号进行噪声消除处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述电子设备获取的声音信号进行噪声估计,得到估计噪声,包括:
依据所述电子设备获取的声音信号中的第i帧的所述加权估计噪声,对所述电子设备获取的声音信号中的第i+1帧进行噪声估计,得到所述第i+1帧的估计噪声。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述差异包括:
均方误差或者损失。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述对所述电子设备获取的声音信号进行噪声消除处理之前,还包括:
对所述电子设备采集的声音信号进行分帧加窗处理;
将所述分帧加窗处理后的信号,转换至频域,得到所述电子设备获取的声音信号。
8.一种电子设备,其特征在于,包括:
处理器和存储器;
所述存储器用于存储应用程序,所述处理器用于运行所述应用程序,以实现权利要求1-7任一项所述的噪声消除方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,在计算机设备运行所述程序时,实现权利要求1-7任一项所述的噪声消除方法。
10.一种计算机程序产品,其特征在于,当计算机程序产品在计算机上运行时,使得所述计算机执行权利要求1-7任一项所述的噪声消除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111529688.9A CN114093379B (zh) | 2021-12-15 | 2021-12-15 | 噪声消除方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111529688.9A CN114093379B (zh) | 2021-12-15 | 2021-12-15 | 噪声消除方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093379A true CN114093379A (zh) | 2022-02-25 |
CN114093379B CN114093379B (zh) | 2022-06-21 |
Family
ID=80307307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111529688.9A Active CN114093379B (zh) | 2021-12-15 | 2021-12-15 | 噪声消除方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093379B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2009063700A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 |
WO2009038013A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 雑音除去システム、雑音除去方法および雑音除去プログラム |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN106910511A (zh) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种语音去噪方法和装置 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与系统 |
CN112435683A (zh) * | 2020-07-30 | 2021-03-02 | 珠海市杰理科技股份有限公司 | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
-
2021
- 2021-12-15 CN CN202111529688.9A patent/CN114093379B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008298844A (ja) * | 2007-05-29 | 2008-12-11 | Advanced Telecommunication Research Institute International | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2009063700A (ja) * | 2007-09-05 | 2009-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 |
WO2009038013A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 雑音除去システム、雑音除去方法および雑音除去プログラム |
CN101853666A (zh) * | 2009-03-30 | 2010-10-06 | 华为技术有限公司 | 一种语音增强的方法和装置 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN106910511A (zh) * | 2016-06-28 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种语音去噪方法和装置 |
CN112435683A (zh) * | 2020-07-30 | 2021-03-02 | 珠海市杰理科技股份有限公司 | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 |
CN112735456A (zh) * | 2020-11-23 | 2021-04-30 | 西安邮电大学 | 一种基于dnn-clstm网络的语音增强方法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114093379B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN109671433B (zh) | 一种关键词的检测方法以及相关装置 | |
EP3526979B1 (en) | Method and apparatus for output signal equalization between microphones | |
KR20170053623A (ko) | 사운드 소스들을 향상시키기 위한 방법 및 장치 | |
CN106663445A (zh) | 声音处理装置、声音处理方法及程序 | |
JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
WO2022135340A1 (zh) | 一种主动降噪的方法、设备及系统 | |
JP7301154B2 (ja) | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
WO2016147020A1 (en) | Microphone array speech enhancement | |
CN110827808A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN114898762A (zh) | 基于目标人的实时语音降噪方法、装置和电子设备 | |
WO2024000854A1 (zh) | 语音降噪方法、装置、设备及计算机可读存储介质 | |
CN103824563A (zh) | 一种基于模块复用的助听器去噪装置和方法 | |
CN110890099B (zh) | 声音信号处理方法、装置以及存储介质 | |
US11996114B2 (en) | End-to-end time-domain multitask learning for ML-based speech enhancement | |
CN115482830A (zh) | 语音增强方法及相关设备 | |
CN114093379B (zh) | 噪声消除方法及装置 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN113380267B (zh) | 对音区进行定位的方法、装置、存储介质及电子设备 | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
CN113744752A (zh) | 语音处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220606 Address after: 100095 floors 2-14, building 3, yard 5, honeysuckle Road, Haidian District, Beijing Applicant after: Beijing Honor Device Co.,Ltd. Address before: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Applicant before: Honor Device Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |