CN113539285A - 音频信号降噪方法、电子装置和存储介质 - Google Patents
音频信号降噪方法、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113539285A CN113539285A CN202110626493.XA CN202110626493A CN113539285A CN 113539285 A CN113539285 A CN 113539285A CN 202110626493 A CN202110626493 A CN 202110626493A CN 113539285 A CN113539285 A CN 113539285A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- noise
- frequency domain
- noise reduction
- domain information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 222
- 230000009467 reduction Effects 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000009432 framing Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002923 local minimum search Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
本申请涉及一种音频信号降噪方法、电子装置和存储介质,通过获取音频信号,对音频信号进行分帧处理;提取各音频信号帧的第一频域信息;对各音频信号帧进行第一降噪处理,得到降噪后的各音频信号帧的第二频域信息;根据第一频域信息,获取当前音频信号帧之前的连续预设数目的音频信号帧中各预设频点的最小能量值,并根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声;根据当前音频信号帧的第二估计噪声,对第二频域信息进行补偿,得到第三频域信息,并根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理,解决了语音信号增强后导致语音失真的问题,改善了语音失真的情况。
Description
技术领域
本申请涉及音频信号处理技术领域,特别是涉及音频信号降噪方法、电子装置和存储介质。
背景技术
在实际环境中,无论是在语音信号的采集、传输还是编码等过程中,语音信号不可避免地会受到一定程度的噪声干扰。由于硬件设备的限制,很多通讯设备经常得不到很高的信噪比,噪声干扰问题急需解决。语音信号质量主要反映在清晰度和可懂度两个方面,其中,清晰度用来描述增强后语音字词句的清晰程度,可懂度用来描述对增强后语音内容的可辨识水平。
相关技术在语音信号增强方面提出了一种技术方案,其设计要点是计算带噪语音的信噪比估计值,并将该信噪比估计值和预设信噪比估计值进行比较,在该信噪比估计值低于预设信噪比估计值的情况下,选择维纳滤波增强模块来增强该带噪语音,以保证语音增强后的可懂度,在该信噪比估计值高于预设信噪比估计值的情况下,选择多窗谱谱减增强模块来增强该带噪语音,同时降低“音乐噪音”的影响。
但是,谱减法和维纳滤波法,这两种方法的缺点是噪声估计不准确,在低信噪比环境下一些能量较低的高频带语音或清音在降噪过程中容易受降噪影响而被削弱。上述技术方案即使选择在高信噪比的情况下使用谱减法,但依然会因为无法准确估计噪声而把一些能量较低的高频带语音或清音误判为噪声进行抑制,而导致语音失真。且谱减法和维纳滤波法来回切换会使降噪后的语音噪声效果不连贯,容易造成噪声忽有忽无、音质忽好忽坏的现象。
目前,针对相关技术中存在语音信号增强后导致语音失真的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种音频信号降噪方法、电子装置和存储介质,以至少解决相关技术中存在语音信号增强后导致语音失真的问题。
第一方面,本申请实施例提供了一种音频信号降噪方法,包括:
获取音频信号,并对所述音频信号进行分帧处理,得到多个音频信号帧;
提取各所述音频信号帧的第一频域信息,所述第一频域信息包括预设频点的信号能量分布信息;
根据所述第一频域信息对各所述音频信号帧进行噪声估计,得到各所述音频信号帧的第一估计噪声,并根据所述第一频域信息和所述第一估计噪声,对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息;
根据所述第一频域信息,获取当前音频信号帧之前的连续预设数目的音频信号帧中各预设频点的最小能量值,并根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声;
根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理。
在其中一些实施例中,根据所述第一频域信息和所述第一估计噪声,对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息包括:
根据所述第一频域信息和所述第一估计噪声,确定第一后验信噪比;
将所述第一后验信噪比作为判决引导函数的输入参数,输出第一先验信噪比;
根据所述第一后验信噪比和所述第一先验信噪比,得到降噪增益,并根据所述降噪增益对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息。
在其中一些实施例中,根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理包括:
根据所述第三频域信息和所述第二估计噪声,确定第二后验信噪比;
将所述第二后验信噪比作为判决引导函数的输入参数,输出第二先验信噪比;
根据所述第二后验信噪比和所述第二先验信噪比,得到补偿增益,并根据所述补偿增益对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理。
在其中一些实施例中,在根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理之前,所述方法还包括:
判断当前音频信号帧是否符合过度降噪条件;
在判断到当前音频信号帧符合所述过度降噪条件的情况下,根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到所述第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行所述第二降噪处理。
在其中一些实施例中,所述过度降噪条件包括:
当前音频信号帧的第二频域信息中存在能量值小于所述第二估计噪声中对应于该频点的能量值的频点。
在其中一些实施例中,根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声包括:
将各预设频点的最小能量按照从低频向高频的顺序进行平滑处理,得到所述第二估计噪声。
在其中一些实施例中,根据所述第一频域信息对各所述音频信号帧进行噪声估计,得到各所述音频信号帧的第一估计噪声包括:
将信号功率变化程度超过第一阈值的音频信号帧确定为疑似噪声帧,并在所述疑似噪声帧的帧数超过第二阈值的情况下,将帧数超过所述第二阈值的疑似噪声帧作为纯噪声帧;
对所述纯噪声帧的能量进行均值化处理,得到对应于各所述音频信号帧的第一估计噪声。
在其中一些实施例中,在对所述纯噪声帧的能量进行均值化处理之后,所述方法还包括:
将对应于各所述音频信号帧的纯噪声帧进行平滑处理,得到对应于各所述音频信号帧的第一估计噪声。
第二方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述第一方面所述的音频信号降噪方法。
第三方面,本申请实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述第一方面所述的音频信号降噪方法。
相比于相关技术,本申请实施例提供的音频信号降噪方法、电子装置和存储介质,解决了相关技术中存在语音信号增强后导致语音失真的问题,改善了语音失真的情况。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的音频信号降噪方法的流程图;
图2是根据本申请优选实施例的音频信号降噪方法的流程图;
图3是本申请实施例的音频信号降噪方法的终端的硬件结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种音频信号降噪方法,图1是根据本申请实施例的音频信号降噪方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取音频信号,并对音频信号进行分帧处理,得到多个音频信号帧。
音频信号可以是仅包括语音信号,也可以是同时包括语音信号和非语音信号,非语音信号包括音乐和/或音效。由于在音频信号的采集、传输或者编码过程中,不可避免地会受到一定程度的噪声干扰,因此,音频信号通常带有噪声。本实施例既适用于对在线场景的音频信号做降噪处理,也适用于对离线场景的音频信号做降噪处理。其中,对于在线场景的音频信号,比如视频会议、语音沟通等实时性要求较高的场景,音频信号是实时连续传输的,为了程序能够进行批量处理,根据指定长度(时间段或者采样数)对音频信号进行分帧,使得音频信号结构化为程序所能处理的数据结构,即为音频信号帧。另外,语音信号是一种长时不平稳信号,通过分帧处理,以便把各音频信号帧作为平稳信号处理。
由于处理信号的方法都要求信号是连续条件,但是分帧处理的时候音频流是尖端不连续的,为此,在一些实施例中,在对音频信号进行分帧处理之后,还对音频信号进行加窗处理,将分好的音频信号帧乘以一段同长度的数据,这段数据就是搜索窗函数整个周期内的数据,使得原本没有周期性的音频信号呈现出周期函数的部分特征。
步骤S102,提取各音频信号帧的第一频域信息,第一频域信息包括预设频点的信号能量分布信息。
采用傅里叶变换(fast Fourier transform,简称为FFT)方法将各音频信号帧从时域转换成频域,得到第一频域信息,将第一频域信息中的频率按照预设频率间隔进行分段,并给每个频段进行编号,编号即为频点,每个频段的信号能量即为该频段的频点能量。
步骤S103,根据第一频域信息对各音频信号帧进行噪声估计,得到各音频信号帧的第一估计噪声,并根据第一频域信息和第一估计噪声,对各音频信号帧进行第一降噪处理,得到降噪后的各音频信号帧的第二频域信息。
先根据第一频域信息确定各音频信号帧的疑似噪声帧,然后根据疑似噪声帧确定纯噪声帧,根据纯噪声帧确定第一估计噪声,再根据第一频域信息和第一估计噪声确定降噪增益,最后将第一频域信息乘以降噪增益,即得到第二频域信息。
步骤S104,根据第一频域信息,获取当前音频信号帧之前的连续预设数目的音频信号帧中各预设频点的最小能量值,并根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声。
在语音活动期间,音频信号的局部带噪语音信号的功率可能会衰减到和噪声功率一样的水平,导致计算得到的估计噪声不够准确。为了解决该问题,本步骤在对各音频信号帧进行第一降噪处理之后,继续跟踪各频段带噪语音功率谱的最小值,作为对该频段音频信号的噪声功率水平的估计,再统计各频段跟踪到的带噪语音功率谱的最小值,确定第二估计噪声,如此设置,能够提升估计噪声的准确度。
例如,音频信号帧的总数为10帧,各音频信号帧的频点编号分别为1号、2号、3号、4号、5号,按照音频信号的获取时间顺序,当前音频信号帧为第5帧,在对当前音频信号帧进行第一降噪处理之后,确定当前音频信号帧之前的连续4帧音频信号帧,并从该连续4帧音频信号帧中确定对应于各频点的最小能量值,假设1号频点至5号频点在前4帧音频信号帧中的最小能量值依次为P1、P2、P3、P4、P5,则根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声。本实施例仅为示例,并不是对音频信号帧的帧数和频点数作出限定。
具体实施时,为了快速跟踪第二估计噪声功率的陡增,可以适当缩短搜索窗的长度,使得对于各音频信号帧的降噪处理过程满足实时性需求。
步骤S105,根据当前音频信号帧的第二估计噪声,对第二频域信息进行补偿,得到第三频域信息,并根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理。
由于音频信号中的局部带噪语音信号的功率可能会衰减到和噪声功率一样的水平,此时,通过第二估计噪声对第二频域信息进行补偿,即在第二频域信息的基础上加上第二估计噪声的能量,能够在一定程度上补偿被当作噪声消除掉的语音信号。但是,从音频信号的全频带来看,这种补偿方式还不够完善,部分语音信号能量过低,导致语音听感忽高忽低。为了完善补偿,本步骤还根据第三频域信息和第二估计噪声确定补偿增益,最后将第二频域信息除以补偿增益,即对经第一降噪处理之后的各音频信号帧进行第二降噪处理,得到最终的音频降噪信号,以使得将音频信号在整体频域上进行补全,防止过多消掉音频信号中的噪声频段能量。
在其中一些实施例中,当各帧音频信号降噪处理完成之后,再将各音频信号帧从频域信号转变为时域信号,然后合成音频信号并输出。
结合步骤S103和步骤S105,根据补偿增益来调整降噪增益,从而确定音频信号的整体降噪增益,以调整音频信号帧的整体降噪程度,能够避免对语音信号造成过度降噪,保留原有语音不失真以及不影响音频听感的前提下,尽量减少音频中的噪声信号。
上述步骤在对音频信号进行降噪过程中,通过对经初步降噪后的音频信号进行能量补偿,在一定程度上补偿被当做噪声消除掉的语音信号,并对经初步降噪后的音频信号进行再次降噪处理,以使得将音频信号在整体频域上进行补全,防止过多消掉音频信号中的噪声频段能量,在音频信号的全频带尽可能保留住微弱语音信号不被消掉,改善语音失真情况。
通过上述步骤,解决了相关技术中存在语音信号增强后导致语音失真的问题,改善了语音失真的情况。
在其中一些实施例中,根据第一频域信息和第一估计噪声,对各音频信号帧进行第一降噪处理,得到降噪后的各音频信号帧的第二频域信息包括:根据第一频域信息和第一估计噪声,确定第一后验信噪比;将第一后验信噪比作为判决引导函数的输入参数,输出第一先验信噪比;根据第一后验信噪比和第一先验信噪比,得到降噪增益,并根据降噪增益对各音频信号帧进行第一降噪处理,得到降噪后的各音频信号帧的第二频域信息。
以下公式给出了降噪增益的确定方式。
采用判决引导法处理SNRpost1,得到SNRprior1,如下所示:
Y1=X+N1
采用维纳滤波法计算降噪增益,如下所示:
其中,Y1代表各音频信号帧在第一频域信息中的信号能量,N1代表第一估计噪声能量,X代表各音频信号帧在第二频域信息中的信号能量,SNRpost1代表第一后验信噪比,SNRprior1代表第一先验信噪比,G1代表降噪增益。
在其中一些实施例中,根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理包括:根据第三频域信息和第二估计噪声,确定第二后验信噪比;将第二后验信噪比作为判决引导函数的输入参数,输出第二先验信噪比;根据第二后验信噪比和第二先验信噪比,得到补偿增益,并根据补偿增益对经第一降噪处理之后的各音频信号帧进行第二降噪处理。
以下公式给出了降噪增益的确定方式。
Y3=X+N2
采用判决引导法处理SNRpost2,得到SNRprior2,如下所示:
采用维纳滤波法计算补偿增益,如下所示:
其中,Y3代表各音频信号帧在第三频域信息中的信号能量,N2代表第二估计噪声能量,X代表各音频信号帧在第二频域信息中的信号能量,SNRpost2代表第二后验信噪比,SNRprior2代表第二先验信噪比,G2代表补偿增益。
上述两个实施例中的维纳滤波法为计算降噪增益和补偿增益的优选方法。并不是对本申请的滤波方法的限定,在其中一些实施例中,其他能够实现增益可调的滤波方法也可以适用。
另外,上述两个实施例采用维纳滤波法,相比于采用谱减法有一定的优势。谱减法的补偿机制是加法,增益不可调控。假设语音中的噪声只有加性噪声,只要将带噪语音谱减去噪声谱,就可以得到纯净语音,但该方法的前提是噪声信号是平稳或者缓慢变化的,即其只适用于短时谱(25ms)场景,即频谱在短时间内是平稳不变的。由于通常估计噪音的时候取的是平均值,当部分噪声的强度大于平均值时,相减后会有残留的噪音存在,在噪音波形谱上表现为一个一个的小尖峰,即音乐噪声(music noise)。
而维纳滤波法的补偿机制是乘法,增益可以调控。该方法要使得估计误差(定义为期望响应与滤波器实际输出之差)均方值最小化,假设维纳滤波器的输入为含噪声的随机信号,期望输出与实际输出之间的差值为误差,对该误差求均方,即为均方误差,因此均方误差越小,噪声滤除效果就越好。
因此,本实施例的整个过程相当于是通过调整降噪增益的值来调整降噪程度,当觉得降噪过多时,通过计算补偿增益来对降噪增益进行调整,而不是粗暴地直接加上需要补偿的信号。因此,本实施例的音频信号降噪方法对音频信号的频谱要求没有那么苛刻,能够适用于视频会议、语音通话等实时性要求较高的场景。
在其中一些实施例中,在根据当前音频信号帧的第二估计噪声,对第二频域信息进行补偿,得到第三频域信息,并根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理之前,方法还包括:判断当前音频信号帧是否符合过度降噪条件;在判断到当前音频信号帧符合过度降噪条件的情况下,根据当前音频信号帧的第二估计噪声,对第二频域信息进行补偿,得到第三频域信息,并根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理。
由于过度降噪的不确定性,并非所有音频信号帧都需要对降噪增益进行调整,因此,本实施例引入对当前音频信号帧是否过度降噪的判定机制,只对符合过度降噪条件的当前音频信号帧进行补偿处理,以提升音频信号降噪流程的效率,节省算力资源。
在其中一些实施例中,过度降噪条件包括:当前音频信号帧在进行第一降噪处理之前和当前音频信号帧在进行第一降噪处理之后的信号的信噪比小于预设阈值。
在语音活动期间,单个频带的带噪语音信号的功率可能也会衰减到和噪声功率一样的水平,导致频点能量小于对应于该频点的第二估计噪声的能量,如果第二频域信息中存在频点能量小于对应于该频点的第二估计噪声的能量,说明在对频信号帧进行初步降噪过程中,存在过度降噪的问题。
在其中一些实施例中,根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声包括:将各预设频点的最小能量按照从低频向高频的顺序进行平滑处理,得到第二估计噪声。
在经过初步降噪后,通过局部最小值搜索各预设频点最小能量值,以确定第二估计噪声,并对第二估计噪声其进行平滑,使得补偿的信号能量不含听感突兀的噪声,可以使语音听起来前后连贯,不会产生噪声忽有忽无的现象,使得语音音质听起来饱满、清晰、还原度更高。
在其中一些实施例中,根据所述第一频域信息对各所述音频信号帧进行噪声估计,得到各所述音频信号帧的第一估计噪声包括:将信号功率变化程度超过第一阈值的音频信号帧确定为疑似噪声帧,并在疑似噪声帧的帧数超过第二阈值的情况下,将帧数超过第二阈值的疑似噪声帧作为纯噪声帧;对纯噪声帧的能量进行均值化处理,得到对应于各音频信号帧的第一估计噪声。
通过该方法,从一段给定的音频信号中找出语音信号的起始点和结束点,以此来检测噪声信号的位置,在得到各音频信号帧的纯噪声帧之后,将各纯噪声帧的能量之和除以纯噪声帧数,得到纯噪声帧的能量均值,即得到对应于各音频信号帧的第一估计噪声。
在其中一些实施例中,对纯噪声帧的能量进行均值化处理之后,方法还包括:将对应于各音频信号帧的纯噪声帧进行平滑处理,得到对应于各音频信号帧的第一估计噪声。
对于当前音频信号帧而言,当前音频信号帧的噪声帧是根据当前音频信号帧之前的连续预设数目的音频信号帧确定的,例如,音频信号帧的总数为10帧,按照音频信号的获取时间顺序,当前音频信号帧为第5帧,在对当前音频信号帧进行第一降噪处理时,确定当前音频信号帧之前的连续4帧音频信号帧,并从该连续4帧音频信号帧中确定纯噪声帧,并将各纯噪声帧进行平滑处理,得到对应于当前音频信号帧的第一估计噪声,使得后续补偿的信号能量不含听感突兀的噪声。
其中,在对各纯噪声帧进行平滑处理时,具体可以按照如下方式实施:噪声只在噪声帧中计算,当前纯噪声帧的噪声=a×当前音频信号帧的信号能量+(1-a)×前一帧音频信号的噪声能量,其中,a为噪声系数,0<a<1。
在其中一些实施例中,还可以通过最小值控制的递归平均法(MCRA)获取第一估计噪声。需要说明的是,本申请并不限定获取第一估计噪声的获取方式。
下面通过优选实施例对本申请实施例进行描述和说明。
图2是根据本申请优选实施例的音频信号降噪方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,对音频流进行预处理(分帧、加窗、FFT)。
对获取到的音频流进行预处理:包括对获取的音频流进行分帧、加窗和傅里叶变换(FFT)处理。其中,音频流经过分帧后得到N帧音频信号帧,傅里叶变换处理用于将音频信号帧从时域信号变更为频域信号。根据频域信号计算各帧音频信号在第一频域信息中的信号能量Y1。
步骤S202,判断纯噪声段,并计算初始噪声能量。
将信号功率变化不超过第一阈值的音频帧确定为疑似噪声帧,将帧数超过第二阈值的疑似噪声帧确定为纯噪声帧,计算其能量均值得到初始估计噪声能量N1。在纯噪声帧中平滑更新每帧估计噪声能量N1,使其靠近当前帧能量值。
步骤S203,通过维纳滤波法得到降噪增益。
由估计噪声N1和当前帧信号能量Y1计算后验信噪比;根据判决引导法计算先验信噪比;利用维纳滤波方法得到降噪增益G1。
步骤S204,信号频域乘以降噪增益,完成初步降噪。
信号频域乘以降噪增益G1得到处理后的语音信号完成初步降噪,计算初步降噪后信号能量X。
步骤S205,通过局部最小值搜索得到新估计噪声能量。
对每个频点搜寻之前M帧内的最小能量值;对每帧各频点的最小能量值由低频向高频进行平滑处理,去掉异常突变点,所得能量记为每帧的新估计噪声能量N2。
步骤S206,判断当前帧频点能量小于新估计噪声能量。若是,则执行步骤S207;若否,则结束降噪。
如果初步降噪后的当前帧有频点能量小于此频点新估计噪声能量,说明可能此帧降噪过多,则用新估计噪声能量对此帧信号进行补偿,得到补偿后的信号能量X+N2。
步骤S207,利用新估计噪声能量对信号进行补偿。
用新估计噪声能量对此帧信号进行补偿,得到补偿后的信号能量X+N2。
步骤S208,通过补偿后的信号能量利用维纳滤波法得到补偿增益。
由新估计噪声N2和补偿后信号能量X+N2重新计算后验信噪比;根据判决引导法计算先验信噪比;利用维纳滤波方法得到补偿增益G2。
步骤S209,初步降噪后的频域信号除以补偿增益完成语音能量补偿,结束降噪。
利用之前初步降噪的频域信号除以补偿增益G2完成语音能量补偿,得到最终降噪的信号。
通过本优选实施例,利用语音能量补偿方法,可以一定程度上补偿被当作噪声消除掉的语音信号,并给信号整体频域上进行补全,防止过多消掉语音中的噪声频段能量,而使部分语音信号能量过低,语音听感忽高忽低。补偿的噪声经过平滑,可以使声音听起来前后连贯,不会产生噪声忽有忽无的现象。使用此技术降噪后的语音,会在全频带尽可能保留住微弱语音信号不被消掉,语音音质听起来饱满、清晰、还原度更高。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取音频信号,并对音频信号进行分帧处理,得到多个音频信号帧。
S2,提取各音频信号帧的第一频域信息,第一频域信息包括预设频点的信号能量分布信息。
S3,根据第一频域信息对各音频信号帧进行噪声估计,得到各音频信号帧的第一估计噪声,并根据第一频域信息和第一估计噪声,对各音频信号帧进行第一降噪处理,得到降噪后的各音频信号帧的第二频域信息。
S4,根据第一频域信息,获取当前音频信号帧之前的连续预设数目的音频信号帧中各预设频点的最小能量值,并根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声
S5,根据当前音频信号帧的第二估计噪声,对第二频域信息进行补偿,得到第三频域信息,并根据第三频域信息和第二估计噪声,对经第一降噪处理之后的各音频信号帧进行第二降噪处理。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
在一些实施例中,电子装置包括但不限于终端、计算机或者类似的运算装置。以运行在终端上为例,图3是本申请实施例的音频信号降噪方法的终端的硬件结构框图。如图3所示,终端可以包括一个或多个(图3中仅示出一个)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器304,可选地,上述终端还可以包括用于通信功能的传输设备306以及输入输出设备308。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
存储器304可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的音频信号降噪方法对应的计算机程序,处理器302通过运行存储在存储器304内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器304可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器304可进一步包括相对于处理器302远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备306包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备306可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
另外,结合上述实施例中的音频信号降噪方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种音频信号降噪方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种音频信号降噪方法,其特征在于,包括:
获取音频信号,并对所述音频信号进行分帧处理,得到多个音频信号帧;
提取各所述音频信号帧的第一频域信息,所述第一频域信息包括预设频点的信号能量分布信息;
根据所述第一频域信息对各所述音频信号帧进行噪声估计,得到各所述音频信号帧的第一估计噪声,并根据所述第一频域信息和所述第一估计噪声,对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息;
根据所述第一频域信息,获取当前音频信号帧之前的连续预设数目的音频信号帧中各预设频点的最小能量值,并根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声;
根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理。
2.根据权利要求1所述的音频信号降噪方法,其特征在于,根据所述第一频域信息和所述第一估计噪声,对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息包括:
根据所述第一频域信息和所述第一估计噪声,确定第一后验信噪比;
将所述第一后验信噪比作为判决引导函数的输入参数,输出第一先验信噪比;
根据所述第一后验信噪比和所述第一先验信噪比,得到降噪增益,并根据所述降噪增益对各所述音频信号帧进行第一降噪处理,得到降噪后的各所述音频信号帧的第二频域信息。
3.根据权利要求1所述的音频信号降噪方法,其特征在于,根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理包括:
根据所述第三频域信息和所述第二估计噪声,确定第二后验信噪比;
将所述第二后验信噪比作为判决引导函数的输入参数,输出第二先验信噪比;
根据所述第二后验信噪比和所述第二先验信噪比,得到补偿增益,并根据所述补偿增益对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理。
4.根据权利要求1所述的音频信号降噪方法,其特征在于,在根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行第二降噪处理之前,所述方法还包括:
判断当前音频信号帧是否符合过度降噪条件;
在判断到当前音频信号帧符合所述过度降噪条件的情况下,根据当前音频信号帧的所述第二估计噪声,对所述第二频域信息进行补偿,得到所述第三频域信息,并根据所述第三频域信息和所述第二估计噪声,对经所述第一降噪处理之后的各所述音频信号帧进行所述第二降噪处理。
5.根据权利要求4所述的音频信号降噪方法,其特征在于,所述过度降噪条件包括:
当前音频信号帧的第二频域信息中存在能量值小于所述第二估计噪声中对应于该频点的能量值的频点。
6.根据权利要求1至5中任一项所述的音频信号降噪方法,其特征在于,根据各预设频点的最小能量值确定当前音频信号帧的第二估计噪声包括:
将各预设频点的最小能量按照从低频向高频的顺序进行平滑处理,得到所述第二估计噪声。
7.根据权利要求1所述的音频信号降噪方法,其特征在于,根据所述第一频域信息对各所述音频信号帧进行噪声估计,得到各所述音频信号帧的第一估计噪声包括:
将信号功率变化程度超过第一阈值的音频信号帧确定为疑似噪声帧,并在所述疑似噪声帧的帧数超过第二阈值的情况下,将帧数超过所述第二阈值的疑似噪声帧作为纯噪声帧;
对所述纯噪声帧的能量进行均值化处理,得到对应于各所述音频信号帧的第一估计噪声。
8.根据权利要求7所述的音频信号降噪方法,其特征在于,在对所述纯噪声帧的能量进行均值化处理之后,所述方法还包括:
将对应于各所述音频信号帧的纯噪声帧进行平滑处理,得到对应于各所述音频信号帧的第一估计噪声。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任一项所述的音频信号降噪方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至8中任一项所述的音频信号降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626493.XA CN113539285B (zh) | 2021-06-04 | 2021-06-04 | 音频信号降噪方法、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110626493.XA CN113539285B (zh) | 2021-06-04 | 2021-06-04 | 音频信号降噪方法、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539285A true CN113539285A (zh) | 2021-10-22 |
CN113539285B CN113539285B (zh) | 2023-10-31 |
Family
ID=78095234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110626493.XA Active CN113539285B (zh) | 2021-06-04 | 2021-06-04 | 音频信号降噪方法、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539285B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
WO2023098103A1 (zh) * | 2021-12-03 | 2023-06-08 | 北京达佳互联信息技术有限公司 | 音频处理方法和音频处理装置 |
WO2024016229A1 (zh) * | 2022-07-20 | 2024-01-25 | 华为技术有限公司 | 音频处理方法及电子设备 |
WO2024051521A1 (zh) * | 2022-09-05 | 2024-03-14 | 维沃移动通信有限公司 | 音频信号处理方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254340A1 (en) * | 2008-04-07 | 2009-10-08 | Cambridge Silicon Radio Limited | Noise Reduction |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN111933165A (zh) * | 2020-07-30 | 2020-11-13 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 突变噪声快速估计方法 |
CN111968662A (zh) * | 2020-08-10 | 2020-11-20 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
-
2021
- 2021-06-04 CN CN202110626493.XA patent/CN113539285B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254340A1 (en) * | 2008-04-07 | 2009-10-08 | Cambridge Silicon Radio Limited | Noise Reduction |
US20120035920A1 (en) * | 2010-08-04 | 2012-02-09 | Fujitsu Limited | Noise estimation apparatus, noise estimation method, and noise estimation program |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN111899752A (zh) * | 2020-07-13 | 2020-11-06 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN111933165A (zh) * | 2020-07-30 | 2020-11-13 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 突变噪声快速估计方法 |
CN111968662A (zh) * | 2020-08-10 | 2020-11-20 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023098103A1 (zh) * | 2021-12-03 | 2023-06-08 | 北京达佳互联信息技术有限公司 | 音频处理方法和音频处理装置 |
TWI794059B (zh) * | 2022-03-21 | 2023-02-21 | 英業達股份有限公司 | 聲音處理方法及聲音處理裝置 |
WO2024016229A1 (zh) * | 2022-07-20 | 2024-01-25 | 华为技术有限公司 | 音频处理方法及电子设备 |
WO2024051521A1 (zh) * | 2022-09-05 | 2024-03-14 | 维沃移动通信有限公司 | 音频信号处理方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113539285B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230298610A1 (en) | Noise suppression method and apparatus for quickly calculating speech presence probability, and storage medium and terminal | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111341336B (zh) | 一种回声消除方法、装置、终端设备及介质 | |
CN113539285B (zh) | 音频信号降噪方法、电子装置和存储介质 | |
CA2153170C (en) | Transmitted noise reduction in communications systems | |
JP4836720B2 (ja) | ノイズサプレス装置 | |
CN110634500B (zh) | 一种先验信噪比的计算方法、电子设备及存储介质 | |
CN110782914B (zh) | 信号处理方法、装置、终端设备及存储介质 | |
JPWO2002080148A1 (ja) | 雑音抑圧装置 | |
JP2002541753A (ja) | 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減 | |
CN111554315A (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
CN112185410B (zh) | 音频处理方法及装置 | |
CN112602150A (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
US20200286501A1 (en) | Apparatus and a method for signal enhancement | |
JP2004341339A (ja) | 雑音抑圧装置 | |
US9172791B1 (en) | Noise estimation algorithm for non-stationary environments | |
CN107045874B (zh) | 一种基于相关性的非线性语音增强方法 | |
Nuha et al. | Noise reduction and speech enhancement using wiener filter | |
US20140249809A1 (en) | Audio signal noise attenuation | |
CN112151060B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
CN113241089A (zh) | 语音信号增强方法、装置及电子设备 | |
EP1286334A2 (en) | Method and circuit arrangement for reducing noise during voice communication in communications systems | |
CN113593599A (zh) | 一种去除语音信号中噪声信号的方法 | |
CN113611319A (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
CN114360566A (zh) | 一种语音信号的降噪处理方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |