CN114822569A - 音频信号处理方法、装置、设备及计算机可读存储介质 - Google Patents
音频信号处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114822569A CN114822569A CN202110081032.9A CN202110081032A CN114822569A CN 114822569 A CN114822569 A CN 114822569A CN 202110081032 A CN202110081032 A CN 202110081032A CN 114822569 A CN114822569 A CN 114822569A
- Authority
- CN
- China
- Prior art keywords
- signal
- gain
- frequency band
- sub
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 93
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 230000001629 suppression Effects 0.000 claims description 83
- 238000001228 spectrum Methods 0.000 claims description 64
- 238000013179 statistical model Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000012896 Statistical algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种音频信号处理方法、装置、设备及计算机可读存储介质;方法包括:获取待处理的音频信号;对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。通过本申请,能够提高语音处理效率。
Description
技术领域
本申请涉及信号处理技术,尤其涉及一种音频信号处理方法、装置、设备及计算机可读存储介质。
背景技术
在语音通信系统中,例如蜂窝通讯或者基于网络协议的语音传输(VoIP,Voiceover Internet Protocol)通讯,语音信号已经从4千(k,kilometer)赫兹(Hz,Hertz)带宽左右的窄带信号,提升到8kHz带宽左右的宽带(高清)信号,目前逐步提升到10kHz以上带宽的超宽带(超清)信号,进而提升通话的语音保真度,典型的超清语音信号的带宽为12kHz、16kHz、24kHz等。但是一方面,提升语音带宽的同时,各种语音处理的算法的复杂度也随之提升,加上深度神经网络模型应用于语音去噪等处理,复杂度进一步提升。过高的复杂度可能导致移动设备中央处理器(CPU,Center Processing Unit)消耗过高,耗电增加,甚至影响系统稳定性,例如增加语音通话过程中的卡顿现象。
发明内容
本申请实施例提供一种音频信号处理方法、装置及计算机可读存储介质,能够提高语音处理效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供音频信号处理一种方法,包括:
获取待处理的音频信号;
对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;
确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;
基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;
对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
本申请实施例提供一种音频信号处理装置,包括:。
第一获取模块,用于获取待处理的音频信号;
频带分解模块,用于对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;
第一确定模块,用于确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;
第二确定模块,用于基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;
频带合成模块,用于对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
在一些实施例中,该第一确定模块,还用于:
确定第一信号处理链路中包括第一回声消除模块对应的第一子信号增益,所述第一信号处理链路至少包括对所述第一频带信号进行处理的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块;
确定所述第一噪声抑制模块对应的第二子信号增益,确定所述第一啸叫控制模块对应的第三子信号增益,确定所述第一增益控制模块对应的第四子信号增益。
在一些实施例中,该第一确定模块,还用于:
获取输入所述第一噪声抑制模块的第一频带信号;
对所述第一频带信号进行时频转换,得到所述第一频带信号的频谱数据;
将所述频谱数据输入统计模型,得到统计模型增益;将所述频谱数据输入训练好的神经网络模型,得到网络模型增益;
基于所述统计模型增益和所述网络模型增益确定所述第一噪声抑制模块对应的第二子信号增益。
在一些实施例中,该第一确定模块,还用于:
将所述统计模型增益和所述网络模型增益中的较小值确定为所述第一噪声抑制模块对应的第二子信号增益;或者,
获取所述统计模型增益对应的第一权值和所述网络模型增益对应的第二权值;
利用所述第一权值和所述第二权值对所述统计模型增益和所述网络模型增益进行加权求和,得到所述第一噪声抑制模块对应的第二子信号增益。
在一些实施例中,该第一确定模块,还用于:
获取所述统计模型对所述第一频带信号中存在语音的第一预测概率;
获取所述训练好的神经网络模型对所述第一频带信号中存在语音的第二预测概率;
将所述第一预测概率确定为第一权值,将所述第二预测概率确定为第二权值;或者;
获取预设的第一权值和预设的第二权值。
在一些实施例中,该第一确定模块,还用于:
基于所述第一子信号增益确定第二频带信号对应的第五子信号增益;
基于所述第二子信号增益确定第二频带信号对应的第六子信号增益;
基于所述第三子信号增益确定第二频带信号对应的第七子信号增益;
基于所述第四子信号增益确定第二频带信号对应的第八子信号增益。
根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益。
在一些实施例中,该第一确定模块,还用于:
将所述第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为所述第二频带信号对应的第二信号增益;
对应地,该第二确定模块,还用于:
将所述第二频带信号和所述第二信号增益的乘积确定为处理后的第二频带信号。
在一些实施例中,该第一确定模块,还用于:
将所述第五子信号增益确定为第二信号处理链路中第二回声消除模块的信号增益;所述第二信号处理链路至少包括对所述第二频带信号进行处理的第二回声消除模块、第二噪声抑制模块、第二啸叫控制模块和第二增益控制模块;
将所述第六子信号增益确定为所述第二噪声抑制模块的信号增益;
将所述第七子信号增益确定为所述第二啸叫控制模块的信号增益;
将所述第八子信号增益确定为所述第二增益控制模块的信号增益。
在一些实施例中,该第二确定模块,还用于:
获取所述第二回声消除模块基于所述第二频带信号和所述第五子信号增益得到的第一输出信号;
获取所述第二噪声抑制模块基于所述第一输出信号和所述第六子信号增益得到的第二输出信号;
获取所述第二啸叫控制模块基于所述第二输出信号和所述第七子信号增益得到的第三输出信号;
获取所述第二增益控制模块基于所述第三输出信号和所述第八子信号增益得到的处理后的第二频带信号。
在一些实施例中,所述第二子信号增益为包括K个增益值的增益向量,该一确定模块,还用于:
从K个增益值对应的K个频点中确定出最高的前P个目标频点;
将所述P个目标频点对应的增益值确定为P个目标增益值;
将所述P个目标增益值中的最小值确定为第二频带信号对应的第六子信号增益。
本申请实施例提供一种音频信号处理设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的方法。
本申请实施例具有以下有益效果:
在获取到待处理的音频信号之后,首先对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率,也即第一频带信号为低频带信号,第二频带信号为高频带信号,然后确定第一频带信号对应的第一信号增益,并基于所述第一信号增益确定第二频带信号对应的第二信号增益,再基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;最后对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号;如此是通过低频的第一频带信号的第一信号增益推算出高频的第二频带信号的增益,因此能够降低信号处理的算法复杂度,从而提高信号处理效率。
附图说明
图1A为相关技术中语音去噪系统的框架结构示意图;
图1B为相关技术中一种神经网络去噪框架结构示意图;
图2是本申请实施例提供的语音通话系统的网络架构示意图;
图3是本申请实施例提供的第二终端的结构示意图;
图4为本申请实施例提供的音频信号处理方法的一种实现流程示意图;
图5为本申请实施例提供的确定第一信号增益和第二信号增益的实现流程示意图;
图6为本申请实施例提供的音频信号处理方法的另一种实现流程示意图;
图7为本申请实施例提供的组合去噪算法的实现框架结构示意图;
图8为本申请实施例提出的音频信号处理方法的实现框架结构示意图;
图9A为本申请实施例提供的基于正交镜像滤波的频带分解示意图;
图9B为本申请实施例提供的频谱响应示意图;
图10为本申请提供的基于正交镜像滤波的频带合成示意图;
图11为相关技术中信号处理系统的结构示意图;
图12为本申请实施例提供的一种信号处理系统的结构示意图;
图13为本申请实施例提供的另一种信号处理系统的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)傅立叶变换,是一种分析信号的方法,可分析信号的成分,也可用这些成分合成信号。许多波形可作为信号的成分,比如正弦波、方波、锯齿波等,傅立叶变换用正弦波作为信号的成分。
2)短时傅里叶变换,是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,其思想为选择一个时频局部化的窗函数,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使f(t)g(t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。
3)回声消除技术,采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。
4)噪声抑制,又称为语音增强,是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。也即从含噪语音中提取尽可能纯净的原始语音。
5)啸叫控制,也称为啸叫抑制。啸叫的产生属于正反馈,音响的声音重新被麦克风拾音,产生自激,导致啸叫,啸叫不仅会影响听觉,也会烧坏音响设备。啸叫抑制也即从音频数据中抑制、降低啸叫的技术。
为了更好的理解本申请实施例提供的语音信号处理方法,首先对相关技术中的语音信号处理方法以及存在缺点进行说明。
目前移动网络和VoIP的宽带(高清)语音通话已经普及,正在向超宽带(超清)语音过渡。宽带语音的频率范围大约在0~8kHz,能够涵盖人类语音的大部分能量,声音质量也比早期固定电话的窄带语音质量有了大幅提高。随着网络带宽的增加,语音的带宽也正逐步提升至超宽带,例如典型的包括12kHz、16kHz等,甚至全带(人耳最高能听到的频率在约20kHz,音频带宽接近或超过这个频率的即为全带信号),例如常用的24kHz。
图1A为相关技术中语音去噪系统的框架结构示意图,如图1A所示,该框架结构包括:时域到频域转换模块001A、统计模型002A和频域到时域转换模块003A,其中:
时域-频域转换模块001A,用于对宽带语音信号的每一帧(通常5~20毫秒的语音作为一帧)利用短时傅里叶变换(STFT,Short-Time Fourier Transform)将语音帧x(n)从时域变换到频域,进而获得语音帧的频谱,例如对N个语音样本的语音帧信号x(n),n=1,2,…,N,进行时频转换,获得N/2+1个频点的频谱X(k)。
统计模型增益计算模块002A,用于将频谱X(k)通过传统的统计模型计算得到频谱增益G1(k),其中k即为频谱上的每一个频点,k=1,2,…,N/2+1。对一帧信号进行频域转换的时候N越大则频率分辨率越高,典型的N取值为256、512等,对应的频点个数为129、257等。
频域-时域转换模块003A,用于将统计模型002A所得增益G1(k)与频谱X(k)相乘得到去噪之后的频谱Xout1(k),也即Xout1(k)=X(k)*G1(k)。然后进行短时傅里叶反变换(ISTFT,Inverse Short Time Fourier Transform)即可重构去噪之后的语音帧信号。
在上述的语音去噪过程中,针对宽带语音信号的每一个语音帧,在频谱上对语音和噪声进行估计,并根据最近的时间段内的语音谱和噪声谱的相对强度,例如根据先验信噪比或者后验信噪比或者两者的某种组合,从带噪语音谱中尽量抑制掉噪声的成分并保留语音的成分,例如在某个频率点上信噪比越高的部分,则在该频点施加较大的增益,信噪比越低的部分则表示越可能只含有噪声,于是施加较小的增益进行抑制。噪声估计的方法包括但不限于最小值跟踪法、最小值控制的递归平均(MCRA,MinimaControlledRecursiveAveraging)法等,语音估计的方法包括但不限于似然比率因子法(LRF),优化调整的对数谱幅度(OMSLA)法等。
传统语音去噪算法在对噪声进行估计的时候通常利用了噪声的平稳性,即对于比较平稳的信号段才认为是噪声,进而进行噪声估计。这也意味着对于变化较快的非平稳信号,例如键盘声、敲击声等,传统的基于统计的算法倾向于把非平稳噪声当成语音信号,进而不能很好地抑制。
由于深度学习技术的发展,深度神经网络能够较好的学习语音和噪声的特性,从而能够较好的区分语音和噪声,包括非平稳噪声,从而更好地对噪声进行抑制。
图1B为相关技术中一种神经网络去噪框架结构示意图,如图1B所示,该框架包括:时域到频域转换模块001B、语音特征提取模块002B、神经网络模型003B和频域到时域转换模块004B,其中:
时域-频域转换模块001B,用于对宽带语音信号的每一帧(通常5~20毫秒的语音作为一帧)利用短时傅里叶变换(STFT)将语音帧x(n)从时域变换到频域,进而获得语音帧的频谱,例如对N个语音样本的语音帧信号x(n),n=1,2,…,N,进行时频转换,获得N/2+1个频点的频谱X(k)。
语音特征提取模块002B,用于将频谱计算出所需要的语音特征向量,该特征向量作为神经网络的输入。
常用的语音特征包括频谱幅度值向量、频谱对数能量值向量、梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)向量、Fbanks向量、Bark频率倒谱系数(BFCC)向量、基因周期等,以及其中某些特征向量的时域一阶或二阶差分以反映特征随时间的动态变化特性,最后输入神经网络模型的特征向量可能是以上所述特征向量中的一种或者多种的组合。
神经网络模型003B,用于利用语音特征向量计算得到频谱增益G2(k),其中k即为频谱上的每一个频点,k=1,2,…,N/2+1,所以G2表示总共有N/2+1个增益。对一帧信号进行频域转换的时候N越大则频率分辨率越高,典型的N取值为256、512等,对应的频点个数为129、257等。
频域到时域转换模块004B,用于将神经网络模型所得增益G2(k)与频谱X(k)相乘得到去噪之后的频谱Xout2(k)=X(k)*G2(k),然后通过傅里叶变换的逆变换将去噪之后的频谱变换回时域的语音帧。
所选神经网络模型003B可以是前向全连接深度神经网络(DNN,Deep NeuralNetworks),也可以是某种循环神经网络(RNN,Recurrent Neural Network),例如LSTM、GRU等,也可以是卷积神经网络(CNN,Convolutional Neural Networks),或者是这些网络的组合形式,例如某些网络层是全连接层,某些层是RNN网络层,某些层是CNN层。深度神经网络包括输入层、中间隐藏层和输出层。输入层的神经元个数一般与输入特征向量的长度一致,例如如果输入特征向量包括129个频谱对数能量值和一个基音周期值,即总共130个数值,则神经网络输入层有130个神经元。中间隐藏层的层数和每层的神经元个数则根据训练数据规模以及计算资源来确定大小,如果需要占用较小计算资源,则采用较少层数和较少的神经元个数,训练数据规模大的话则采用较大的网络规模有可能取得更好效果,需要综合考虑。输出层的神经元个数一般与需要计算的增益个数相关,例如如果此处需要计算每一个频点的增益,则输出的增益G2(k),k=1.2.,…,N/2+1,则输出层的神经元个数为N/2+1个。其他的实现方案中,输出层的神经元个数也可以少于N/2+1,例如如果把N/2+1个频点划分到不同的频率子带,输出层的每一个神经元只需要预测每一个子带的增益。
由于目前语音信号已经从4kHz带宽左右的窄带信号,提升到8kHz带宽左右的宽带(高清)信号,目前逐步提升到10kHz以上带宽的超宽带(超清)信号,提升语音带宽的同时,各种语音处理的算法的复杂度也随之提升,加上深度神经网络模型应用于语音去噪等处理,复杂度进一步提升。
在相关技术中的另一种语音信号处理方法中,将麦克分采集到的超宽带信号或者全带信号进行分子带处理,然后按子带进行语音增强和回声消除以及编码,但是在该实现方式中将两个子带是相互独立的进行处理,计算复杂度依然比较高。
基于以上问题,本申请实施例提供一种音频信号处理方法,在低频带使用神经网络进行语音去噪,高频带参考低频带的结果进行去噪的方法得到最后的超清信号,不仅能够保证去噪效果,还能够够降低计算量,从而提高信号处理效率。
下面说明本申请实施例提供的音频信号处理设备的示例性应用,本申请实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端。下面,将说明设备实施为终端时示例性应用。
参见图2,图2为本申请实施例提供的语音通话系统100的网络架构示意图,如图2所示,该语音通话系统100包括第一终端200、网络300和第二终端400,其中第一终端200和第二终端400通过网络300连接,网络300可以是广域网或者局域网,又或者是二者的组合,网络300还可以是蜂窝通信网络。
第一终端200和第二终端400上可以安装有能够进行语音通话的应用程序,例如可以是即时通讯应用程序,以通过该即时通讯程序进行语音通话。当然第一终端200和第二终端400可以仅具有蜂窝网络通信功能,通过拨号互相进行语音通话。在图2所示的网络架构中,以第一终端200和第二终端400通过网络300进行语音通话为例,假设第二终端400能够实现本申请实施例提供的音频信号处理方法,首先第二终端400通过语音输入装置(例如可以是麦克风)采集音频信号,然后将该音频信号进行分频处理,得到第一频带信号(低频带信号)和第二频带信号(高频带信号),通过第一频带信号处理链路的各个模块对第一频带信号进行处理,并确定第一频带信号对应的第一增益,然后根据第一增益确定第二频带信号对应的第二增益,利用第一增益对第一频带信号进行处理得到处理后的第一频带信号,利用第二增益对第二频带信号进行处理得到处理后的第二频带信号,再将第一频带信号和第二频带信号进行频带合成,得到处理后的音频信号,最后将处理后的音频信号进行编码及发送。如此仅计算了低频带信号的增益,而高频带的增益是利用低频带信号的增益计算得出的,能够在保证对信号处理效果的同时,降低计算量,提升信号处理效率。
参见图3,图3是本申请实施例提供的第二终端400的结构示意图,图3所示的第二终端400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。第二终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图3示出了存储在存储器450中的音频信号处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:第一获取模块4551、频带分解模块4552、第一确定模块4553、第二确定模块4554和频带合成模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的音频信号处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的音频信号处理方法。
参见图4,图4是本申请实施例提供的音频信号处理方法的一种实现流程示意图,将结合图4示出的步骤进行说明。
步骤S101,获取待处理的音频信号。
这里,在实现时,可以是获取终端的音频采集装置采集到的待处理的音频信号,该音频采集装置在一些实施例中,可以为麦克风。待处理的音频信号可以是带宽超过预设值的音频信号,例如可以是带宽超过10kHZ的超高清音频信号。
在一些实施例中,在获取到待处理的音频信号之后,首先需要将待处理的音频信号分割为多个音频帧,例如可以分割为25ms个多个音频帧,以下对待处理音频信号的处理都是对各个音频帧的处理。
步骤S102,对所述音频信号进行频带分解,得到第一频带信号和第二频带信号。
这里,第一频带信号的频率低于所述第二频带信号的频率,也就是说第一频带信号为低频带信号,第二频带信号为高频带信号。
步骤S102在实现时,可以采用基于离散傅里叶变换、小波分解或者基于滤波器组等方法进行频带分解。由于是将待处理的音频信号分解为第一频带信号和第二频带信号,例如把16kHz带宽的超清信号分解为低频和高频两个8kHz带宽的信号。该分频方式也即为二分频,此时通常采用的一种高效的频带分解方法为正交镜像滤波(QMF)分解,利用一个抗混叠低通滤波器H0(z)和高通滤波器H1(z)实现频带分解。
H0(z)截至频率在π/2左右(也即一半的带宽频率),H0(z)和H1(z)在频谱上以正交频率π/2互相对称,经过H0(z)和H1(z)之后的信号为Vb(z)=Hb(z)*X(z),b=0,1,X(z)为待处理音频信号x(n)的频谱。经过下采样之后的信号为因此当b=0时,U0(z)即为输出的第一频带信号(即高清语音信号)的频谱,当k=1时,U1(z)即为输出的第二频带信号的频谱。
步骤S103,确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益。
终端中的第一信号处理链路对第一频带信号进行处理,第一信号处理链路中至少包括第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块以及第一增益控制模块,以对第一频带信号进行回声消除、噪声抑制、啸叫控制、增益控制等处理,上述各个模块会输出一个子信号增益,在本申请实施例中各个模块输出的子信号增益构成第一频带信号对应的第一信号增益。
由于第二频带信号为高频带信号,且高频带部分对听觉质量的影响较小,因此在本申请实施例中为了降低计算量,提高信号处理效率,通过第一信号增益推算确定出第一频带信号对应的第二信号增益。
基于第一信号增益确定第二频带信号对应的第二信号增益在实现时,可以基于第一信号增益中的各个子信号增益,确定出第二频带信号对应的各个子信号增益,从而基于第二频带信号对应的各个子信号增益确定出第二频带信号对应的第二信号增益。
步骤S104,基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号。
这里,步骤S104在实现时,第一信号链路中的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块以及第一增益控制模块基于原始输入的第一频带信号和各个模块对应的子信号增益对第一频带信号进行处理。例如第一频带信号输入第一回声消除模块,第一回声消除模块对第一频带信号进行时频转换,得到第一频带信号的频谱,然后获取第一回声消除模块对应的第一子信号增益,将第一子信号增益与该频谱相乘,并对乘积结果进行频时转转,得到第一回声消除模块的第四输出信号,该第四输出信号仍然为时域信号,该第四输出信号输入第一噪声抑制模块,该第一噪声抑制模块对第四输出信号进行时频转换,得到第四输出信号的频谱,然后将该第四输出信号的频谱输入到统计模型和神经网络模型,综合计算得出第二子信号增益,并将该第二子信号增益和第一输出信号的频谱相乘,将得到的乘积结果进行频时转换,得到第一噪声抑制模块的第五输出信号。
基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号在实现时,可以是将第二频带信号和第二信号增益在时域上直接相乘,得到处理后的第二频带信号,从而提高信号处理效率。
步骤S105,对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
这里,频带合成即为步骤S102中的频带分解的逆过程,在实现时,首先对处理后的第一频带信号和处理后的第二频带信号进行时频转换,得到处理后的第一频带信号的频谱和处理后的第二频带信号的频谱,之后对处理后的第一频带信号的频谱和处理后的第二频带信号的频谱分别进行上采样,采样之后的频谱为V'b(z)=U'b(z2),b=1,2,此处U'0(z)为处理后的第一频带信号,U'1(z)为处理后的第二频带信号。然后将U'0(z)输入滤波器F0(z),将U'1(z)输入滤波器F1(z),其中,F0(z)=H1(-z)=H0(z),F1(z)=-H1(z)=-H0(-z)。滤波器系数均可提前设定。最后输出的信号频谱为X'(z)=F0(z)V'0(z)+F1(z)V'1(z)。X'(z)的时域表示即处理后的音频信号。
在本申请实施例提供的音频信号处理方法中,在获取到待处理的音频信号之后,首先对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率,也即第一频带信号为低频带信号,第二频带信号为高频带信号,然后确定第一频带信号对应的第一信号增益,并基于所述第一信号增益确定第二频带信号对应的第二信号增益,再基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;最后对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号;如此是通过低频的第一频带信号的第一信号增益推算出高频的第二频带信号的增益,因此能够降低信号处理的算法复杂度,从而提高信号处理效率。
在一些实施例中,图4所示的步骤S103中的“确定第一频带信号对应的第一信号增益”可以通过如图5所示的步骤S1031至步骤S1032实现:
步骤S1031,确定第一信号处理链路中包括第一回声消除模块对应的第一子信号增益。
这里,第一信号处理链路至少包括对所述第一频带信号进行处理的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块,在本申请实施例中,第一信号处理链路中可以是第一回声消除模块的输出信号,输入至第一噪声抑制模块,第一噪声抑制模块的输出信号输入至第一啸叫控制模块,第一啸叫控制模块的输出信号输入至第一增益控制模块。当然在实际实现时、第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益模块还可以是其他输入输出顺序。
步骤S1032,确定所述第一噪声抑制模块对应的第二子信号增益,确定所述第一啸叫控制模块对应的第三子信号增益,确定所述第一增益控制模块对应的第四子信号增益。
这里,第二子信号增益、第三子信号增益以及第四子信号增益为第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块输出的信号增益。
在一些实施例中,该步骤S1032中的“确定所述第一噪声抑制模块对应的第二子信号增益”可以通过以下步骤实现:
步骤S321,获取输入所述第一噪声抑制模块的第一频带信号。
这里,如果在第一噪声抑制模块之前,第一回波消除模块已对分频得到的第一频带信号进行处理,那么输入第一噪声抑制模块的第一频带信号也即第一回波消除模块输出的信号,如果在第一噪声抑制模块之前没有其他处理模块,那么输入第一噪声抑制模块的即为分频之后的第一频带信号。
步骤S322,对所述第一频带信号进行时频转换,得到所述第一频带信号的频谱数据。
这里,可以是对第一频带信号进行傅里叶变换,例如可以是STFT,这样就将连续的第一频带信号转换为离散的频域信号,实现第一频带信号的时域-频域转换,得到第一频带的频谱数据。
例如,对N个语音样本的第一频带信号x(n),n=1,2,…,N,进行时频转换,获得N/2+1个频点的频谱X(k),k=1,2,…,N/2+1。对一帧信号进行频域转换的时候N越大则频率分辨率越高,N取值可以为256、512等,对应的频点个数k为129、257。
步骤S323,将所述频谱数据输入统计模型,得到统计模型增益,将所述频谱数据输入训练好的神经网络模型,得到网络模型增益。
这里,将频谱数据通过统计模型计算得到统计模型增益G1(k),其中k即为频谱上的每一个频点,也即统计模型增益为一个增益向量。统计模型在计算增益时,可以根据先验信噪比或者后验信噪比或者两者的某种组合,从带噪语音谱中尽量抑制掉噪声的成分并保留语音的成分,例如在某个频率点上信噪比越高的部分,则在该频点施加较大的增益,信噪比越低的部分则表示越可能只含有噪声,于是施加较小的增益进行抑制。
该训练好的神经网络模型可以是深度学习神经网络模型,还可以是卷积神经网络模型,训练好的神经网络模型在确定网络模型增益时,首先提取第一频带信号的频谱数据的特征向量,然后基于该特征向量进行增益计算,得到网络模型增益,该网络模型增益也为一增益向量。
步骤S324,基于所述统计模型增益和所述网络模型增益确定所述第一噪声抑制模块对应的第二子信号增益。
在步骤S324中,基于统计模型增益和网络模型增益进行增益融合,以确定第一噪声抑制模块对应的第二子信号增益。在实际实现时,步骤S324可以有至少以下两种实现方式:
第一种实现方式:将所述统计模型增益和所述网络模型增益中的较小值确定为所述第一噪声抑制模块对应的第二子信号增益。
第二种实现方式:将统计模型增益和所述网络模型增益进行加权求和,以确定第二子信号增益,该实现方式可以通过以下步骤实现:
步骤S3241,获取所述统计模型增益对应的第一权值和所述网络模型增益对应的第二权值。
步骤S3241在实现时至少有以下两种实现方式:
方式A:获取预设的第一权值和预设的第二权值。在该方式中第一权值和第二权值可以是根据语音存在的经验概率预先设定的权值。
方式B:首先获取所述统计模型对所述第一频带信号中存在语音的第一预测概率;并获取所述训练好的神经网络模型对所述第一频带信号中存在语音的第二预测概率;将所述第一预测概率确定为第一权值,将所述第二预测概率确定为第二权值。
步骤S3242,利用所述第一权值和所述第二权值对所述统计模型增益和所述网络模型增益进行加权求和,得到所述第一噪声抑制模块对应的第二子信号增益。
通过第一种方式计算第一噪声抑制模块对应的第二子信号增益,计算方式简单,效率高,通过第二种方式计算第一噪声抑制模块对应的第二子信号增益,是综合了统计模型增益和网络模型增益,准确率更高。
在利用统计模型计算统计模型增益,并对噪声进行估计时通常利用了噪声的平稳性,即对于比较平稳的信号段才认为是噪声,进而进行噪声估计。这也意味着对于变化较快的非平稳信号,例如键盘声、敲击声等,该统计模型倾向于把非平稳噪声当成语音信号,进而不能很好地抑制。由于深度学习技术的发展,深度神经网络能够较好的学习语音和噪声的特性,从而能够较好的区分语音和噪声,包括非平稳噪声,从而更好地对噪声进行抑制,因此,本申请实施例在确定第一噪声抑制模块对应的第二子信号增益时,综合利用统计模型和深度学习算法的优势,即神经网络对非平稳噪声抑制更有效,统计模型低风险、计算量小和更好地预测平稳噪声,将统计模型和神经网络模型组合起来,可以更好地实现低风险高效率的产品应用。
在一些实施例中,图4所示的步骤S103中的“基于所述第一信号增益确定第二频带信号对应的第二信号增益”,可以通过图5所示的步骤S1033至步骤S1037以下步骤实现:
步骤S1033,基于所述第一子信号增益确定第二频带信号对应的第五子信号增益。
这里,如果第一子信号增益为一个增益值而不是增益向量时,步骤S1033在实现时,可以是直接将第一子信号增益确定为第五子信号增益;如果第一子信号增益为一个增益向量时,可以是基于该增益向量最高的前P个频点的增益值确定第五子信号增益,例如将前P个频点中最小的增益值确定为第五子信号增益,也可以是将前P个频点的增益值求平均,得到第五子信号增益。
步骤S1034,基于所述第二子信号增益确定第二频带信号对应的第六子信号增益。
这里,该第二子信号增益为包括K个增益值的增益向量,步骤S1034在实现时,可以是:首先从K个增益值对应的K个频点中确定出最高的前P个目标频点;然后将所述P个目标频点对应的增益值确定为P个目标增益值;并将所述P个目标增益值中的最小值确定为第二频带信号对应的第六子信号增益。
在一些实施例中,还可以是将P个目标增益值的均值确定为第二频带信号对应的第六子信号增益。
步骤S1035,基于所述第三子信号增益确定第二频带信号对应的第七子信号增益。
步骤S1036,基于所述第四子信号增益确定第二频带信号对应的第八子信号增益。
步骤S1035与步骤S1036的实现方式与步骤S1031的实现方式类似,实现过程可参考步骤S1031。
步骤S1037,根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益。
这里,步骤S1037在实现时基于终端中信号处理链路的模块结构有两种实现时方式:
第一种方式:当信号处理链路模块中包括处理第一频带信号的第一信号处理链路和第二频带信号的第二信号处理链路时,与第一信号处理链路对应,第二信号处理链路包括第二回声消除模块、第二噪声抑制模块、第二啸叫控制模块和第二增益控制模块,此时步骤S1037可以通过以下步骤实现:
步骤S371A,将所述第五子信号增益确定为第二信号处理链路中第二回声消除模块的信号增益。
步骤S372A,将所述第六子信号增益确定为所述第二噪声抑制模块的信号增益。
步骤S373A,将所述第七子信号增益确定为所述第二啸叫控制模块的信号增益。
步骤S374A,将所述第八子信号增益确定为所述第二增益控制模块的信号增益。
对应地,图4所示的步骤S104中的“基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号”,可以通过以下步骤实现:
步骤S1041,获取所述第二回声消除模块基于所述第二频带信号和所述第五子信号增益得到的第一输出信号。
步骤S1042,获取所述第二噪声抑制模块基于所述第一输出信号和所述第六子信号增益得到的第二输出信号。
步骤S1043,获取所述第二啸叫控制模块基于所述第二输出信号和所述第七子信号增益得到的第三输出信号;
步骤S1044,获取所述第二增益控制模块基于所述第三输出信号和所述第八子信号增益得到的处理后的第二频带信号。
在上述步骤S371A至步骤S374A以及在S1041至步骤S1044中,由于第二信号处理链路包括第二回声消除模块、第二噪声抑制模块、第二啸叫控制模块和第二增益控制模块,那么就将第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益确定为各个处理模型的信号增益,然后由各个模块基于对应的子信号增益对第二频带信号进行增益调整,得到处理后的第二频带信号,而无需各个模块再自行计算对应的子信号增益,能够降低计算量,提高信号处理效率。
第二种方式:当信号处理链路模块中仅包括处理第一频带信号的第一信号处理链路时,步骤S1037可以通过以下步骤实现:
步骤S371B,将所述第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为所述第二频带信号对应的第二信号增益。
本申请实施例中,第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益是指针对时域信号的线性增益,因此在步骤S371B中将第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为第二信号增益。
对应地,图4所示的步骤S104中的“基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号”,在实现时可以是:将所述第二频带信号和所述第二信号增益的乘积确定为处理后的第二频带信号。
相较于第一种实现方式,不需要第二信号处理链路中各个模块对第二频带信号进行处理,在该实现方式中,直接将分频得到的第二频带信号(时域信号)与第二信号增益相乘即可得到处理后的第二频带信号,能够进一步减少计算量。
基于前述的实施例,本申请实施例再提供一种音频信号处理方法,应用于图2所示的网络架构,图6为本申请实施例提供的音频信号处理方法的另一种实现流程示意图,如图6所示,该流程包括:
步骤S601,第二终端通过语音输入装置采集待处理的音频信号。
这里,第二终端与第一终端建立有通话连接,该通话连接可以是通过即时通讯应用程序建立的,还可以是通过拨号程序建立的,通过该通话连接第一终端和第二终端的用户可以进行语音或者视频通话。假设第二终端支持本申请实施例提供的音频数据处理方法,第二终端通过语音输入装置(麦克风)采集音频信号,该音频信号可以包括用户发出的语音信号,还可以包括一些其他的噪声信号。
步骤S602,第二终端对所述音频信号进行频带分解,得到第一频带信号和第二频带信号。
这里,第一频带信号的最高频率低于所述第二频带信号的最低频率,也即第一频带信号为低频带信号,例如可以是0-8kHZ的音频信号;第二频带信号为高频带信号,例如可以是8-16kHZ的音频信号。一般人们对低频带信号更加敏感,而对高频带信号敏感度较低。
步骤S603,第二终端确定第一信号处理链路中包括第一回声消除模块对应的第一子信号增益。
这里,第一信号处理链路至少包括对所述第一频带信号进行处理的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块。
步骤S604,第二终端确定所述第一噪声抑制模块对应的第二子信号增益,确定所述第一啸叫控制模块对应的第三子信号增益,确定所述第一增益控制模块对应的第四子信号增益。
步骤S605,第二终端基于所述第一子信号增益确定第二频带信号对应的第五子信号增益。
如果第一子信号增益为一个增益值而不是增益向量时,步骤S1033在实现时,可以是直接将第一子信号增益确定为第五子信号增益;如果第一子信号增益为一个增益向量时,可以是基于该增益向量最高的前P个频点的增益值确定第五子信号增益,例如将前P个频点中最小的增益值确定为第五子信号增益,也可以是将前P个频点的增益值求平均,得到第五子信号增益。
步骤S606,第二终端基于所述第二子信号增益确定第二频带信号对应的第六子信号增益。
该第二子信号增益为包括K个增益值的增益向量,步骤S1034在实现时,可以是:首先从K个增益值对应的K个频点中确定出最高的前P个目标频点;然后将所述P个目标频点对应的增益值确定为P个目标增益值;并将所述P个目标增益值中的最小值确定为第二频带信号对应的第六子信号增益。
在一些实施例中,还可以是将P个目标增益值的均值确定为第二频带信号对应的第六子信号增益。
步骤S607,第二终端基于所述第三子信号增益确定第二频带信号对应的第七子信号增益。
步骤S608,第二终端基于所述第四子信号增益确定第二频带信号对应的第八子信号增益。
步骤S609,第二终端将所述第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为所述第二频带信号对应的第二信号增益。
步骤S610,第二终端基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号。
步骤S611,第二终端对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
步骤S612,第二终端对处理后的音频信号进行编码,得到编码后的音频信号。
由于音频信号中存在数据冗余,因此在发送音视频信号时,会利用编码器进行编码,步骤S612在实现时,可以利用超高清语音的编码器对处理后的音频信号进行编码,编码方式可以是高级音频编码(AAC,Advanced Audio Codin g)编码等。
步骤S613,第二终端将编码后的音频信号发送至第一终端。
步骤S614,第一终端对编码后的音频信号进行解码,得到解码后的音频信号。
这里,第一终端采用与编码方式对应的解码方式对编码后的音频信号进行解码,从而还原音频信号。
步骤S615,第一终端利用自身的音频输出装置输出解码后的音频信号。
在本申请实施例提供的音频信号处理方法中,在获取到待处理的音频信号之后,首先对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率,也即第一频带信号为低频带信号,第二频带信号为高频带信号,然后确定处理第一频带信号的第一信号处理链路中第一回声消除模块对应的第一子增益、第一噪声抑制模块对应的第二子增益、第一啸叫控制模块对应的第三子增益和第一增益控制模块对应的第四子增益,然后根据第一子增益、第二子增益、第三子增益以及第四子增益推算出第二频带信号对应的第二信号增益,能够降低计算量,从而提高信号处理效率,之后利用第一信号增益和第二信号增益对第一频带信号和第二频带信号分别进行处理,得到处理后的分频带信号,再对处理后的分频带信号进行频带合成,得到处理后的超高清语音信号,最后将处理后的超高清语音信号进行编码发送。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
为了综合利用统计算法和深度学习算法的优势,即神经网络对非平稳噪声抑制更有效,统计算法低风险、计算量小和更好地预测平稳噪声,所以在本申请实施例中将统计模型和神经网络模型组合起来,可以更好地实现低风险高效率的产品应用。
图7为本申请实施例提供的组合去噪算法的实现框架结构示意图,如图7所示,在该框架中包括:时域-频域转换模块701、统计模型增益计算模块702、语音特征提取模块703、神经网络增益计算模块704、增益融合模块705和频域-时域转换模块706,以下结合各个模块对组合去噪方法进行说明。
音频帧在通过时域-频域在转换模块转换成频谱信号X(k)之后,X(k)分别输入至到统计模型增益计算模块702和语音特征提取模块703,语音特征提取模块提取出的语音特征向量输入至神经网络增益计算模块704,最终分别得到频谱增益G1(k)和G2(k),这两个增益向量送增益融合模块705进行增益融合,得到最终的频谱增益G3(k),G3(k)与频谱X(k)相乘,得到最终的去噪之后的频谱输出Xout3(k)。
其中,增益融合模块705根据G1(k)和G2(k)计算得到G3(k)在实现时,可以是利用G3(k)=min(G1(k),G2(k)),即取两者中的较小值,得到G3(k);还可以是根据统计模型或神经网络模型对信号中存在语音的概率的检测结果来对两个增益进行加权求和:G3(k)=a*G1(k)+b*G2(k),a和b是根据语音存在概率预先设定的因子参数。
为了使得上述组合去噪的方式不但能够支持高清语音的去噪,同时还能够支持超清语音的去噪,一种方式是统计模型和神经网络模型的输入都直接采用超清信号,这也意味着计算量可能明显增加。
为了减少计算量并能够继续使用之前的高清语音去噪算法,本申请实施例提出的音频信号处理方法的实现框架结构如图8所示,包括:频带分解模块801、低频带噪声抑制模块802、高频带噪声抑制模块803和频带合成模块804,以下结合各个模块对本申请实施例提供的音频信号处理方法进行说明。
频带分解模块801将输入的超清语音信号通过频带分解,进一步地,分解为低频带信号和高频带信号。其中,低频带即为之前的高清语音所在的频带。例如,如果超清语音的频率范围(带宽)包括0~12kHz,则低频带为0~8kHz,高频带为8~12kHz;如果超清语音的频率范围包括0~16kHz,则低频带为0~8kHz,高频带为8~16kHz。
低频信号进入低频带噪声抑制模块802,输出噪声抑制之后的低频语音信号;高频信号进入高频带噪声抑制模块803,输出噪声抑制之后的高频语音信号;然后经过噪声抑制之后的高频和低频信号同时进入频带合成模块804,重新合成为去噪之后的超清语音帧。
图8所示的频带分解模块801可以采用基于离散傅里叶变换、小波分解或者基于滤波器组的子带分解等方法。针对二分频,例如把16kHz带宽的超清信号分解为低频和高频两个8kHz带宽的信号,通常采用的一种高效的频带分解方法为正交镜像滤波(QMF,Quadrature Mirror Filters)分解,如图9A所示,其中H0(z)为抗混叠低通滤波器,截至频率在π/2左右(也即一半的带宽频率),H1(z)为高通滤波器,H0(z)和H1(z)在频谱上以正交频率π/2互相对称,两者的频谱响应示意图如图9B所示。M=2,表示2倍下采样。经过所述低通和高通滤波器Hb(z),b=0,1之后的信号为Vb(z)=Hb(z)*X(z),X(z)为输入语音帧信号x(n)的频谱。经过下采样之后的信号为因此当b=0时,U0(z)即为输出的低频带信号(即高清语音信号)的频谱,当k=1时,U1(z)即为输出的高频带信号的频谱。
图8中的频带合成模块804则是频带分解模块801的逆变换,如图10所示。其中L=2,表示2倍上采样。经过上采样之后的频谱为V'b(z)=U'b(z2),b=1,2,此处U'0(z)为低频带经过去噪之后的信号,U'1(z)为高频带经过去噪之后的信号。图10中的滤波器F与图9中的滤波器H的关系为:F0(z)=H1(-z)=H0(z),F1(z)=-H1(z)=-H0(-z)。滤波器系数均可提前设定。最后输出的信号频谱为X'(z)=F0(z)V'0(z)+F1(z)V'1(z)。X'(z)的时域表示即为图10中的
图8中的低频带噪声抑制模块802也即图7所示的组合去噪算法的实现框架。
图8中的高频带噪声抑制模块803对高频带中的噪声进行抑制。由于高频带对人耳感知质量的重要性显著低于低频带,因此可以采用低计算复杂度的算法来去噪。低频带噪声抑制模块802在进行噪声抑制过程中会计算得到频谱增益G3(k),因此可以直接借用G3(k)中的信息来对高频信号进行增益调整以达到对绝大部分噪声进行抑制的目的。
例如,如果在低频带的频谱包含N/2+1个频点k=1,2,…,N/2+1,k越大则频率越高,最高的P个频点所处频率显然最靠近高频带的频率范围,噪声也与高频带的噪声最接近,因此我们在G3(N/2+1-P),G3(N/2+1-P+1),…,G3(N/2+1)里面选出最小的一个增益作为高频带的增益,从而省去再用复杂算法对高频带去噪的开销。因此图8中的虚线表示一个增益G4=Min(G3(N/2+1-P),G3(N/2+1-P+1),…,G3(N/2+1)),P为小于(N/2+1)且大于等于0的一个整数。因此高频带的输出u'1(n)=u1(n)*G4,其中u1(n)为输入语音帧x(n)经过频带分解之后得到的高频带的语音帧信号。
图11为相关技术中信号处理系统的结构示意图,如图11所示,包括但不限于音频采集1101、语音处理链路1102(含回声消除、噪声抑制、啸叫抑制、增益控制等模块),编码发送1103等,其中有些语音处理模块的顺序可能不同。
当语音通讯系统从高清语音升级到超清语音时,系统中的所有语音信号处理模块,都需要从支持高清语音升级到支持超清语音输入,整个系统的计算量可能大幅度增加。考虑到高频带部分对听觉质量的影响较小,因此可以类似图8把输入语音帧进行频带分解,得到低频带和高频带信号再分别处理,如图12所示。
在图12中,音频采集硬件接口1201采集到语音信号后,利用频带分解模块1202分解为低频带信号和高频带信号,信号处理链路1203包括低频带信号处理链路12031和高频带信号处理链路12032。低频带信号通过低频带信号处理链路12031,高频带信息通过高频带信号处理链路12032,其中低频带信号处理链路12031沿用图11所示的信号处理链路1102,同时每一个模块输出一个增益值,例如之前图8中的低频带噪声抑制可以计算得到G4,高频带噪声抑制部分使用该增益对高频带信号幅度进行调整。采用同样的方法,从传统的低频带回声消除、低频带啸叫抑制、低频带增益控制等模块对应得到G5、G6、G7等增益值,对各模块的高频带信号进行增益调整。最后将经过语音处理链路1203之后的高频带和低频带信号帧送到频带合成模块1204重新合成超清语音信号,再通过超清语音的编码发送模块1205进行语音编码发送。
为了进一步减少计算量,麦克风超清语音信号处理流程的另一种实现方式可以利用如图13所示信号处理系统实现:音频采集硬件接口1301采集语音信号,然后通过频带分解模块1302进行频带分解,得到低频带信号和高频带信号,低频带信号输入至低频带信号链路1303,低频带信号链路1303各个模块得到各个增益值G4~G7之后,所有增益值集中送到高频带增益计算模块1304,计算出高频带增益值G8=G4*G5*G6*G7,然后应用该增益一次性计算得到经处理后的高频带信号。最后将高低频带信号送入频带合成模块1305重新合成超清语音信号,再通过超清语音的编码发送模块1306进行语音编码发送。
在本申请实施例中,将超清语音信号分成高频带信号和低频带信号,例如,如果超清语音信号的带宽是16kHz的话,低频带可以是0~8kHz带宽内的语音信号,高频带可以是8kHz~16kHz带宽内的语音信号,人耳对高频带信号的敏感度明显低于对低频带信号的敏感度,因此在本申请实施例中采用深度神经网络和基于统计算法的语音增强模块对低频段进行噪声消除(通常也称语音增强),而高频段的噪声消除程度依赖于低频段的噪声消除程度;其它语音处理模块,例如回声消除、啸叫抑制、自动增益控制等,也都是分别处理高频带和低频带信号;所有语音处理模块串联起来形成语音处理系统,该系统中的各个模块对语音分别进行低频带处理之后,为高频带的处理提供了参考信息,汇总这些参考信息即可推导出高频带需要进行何种处理。如此能够在提升语音去噪效果的情况下,大幅减小计算量,使得系统可以在android手机等资源受限的ARM芯片平台也能广泛应用。
下面继续说明本申请实施例提供的音频信号处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器440的音频信号处理装置455中的软件模块可以包括:
第一获取模块4551,用于获取待处理的音频信号;
频带分解模块4552,用于对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;
第一确定模块4553,用于确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;
第二确定模块4554,用于基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;
频带合成模块4555,用于对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
在一些实施例中,该第一确定模块,还用于:
确定第一信号处理链路中包括第一回声消除模块对应的第一子信号增益,所述第一信号处理链路至少包括对所述第一频带信号进行处理的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块;
确定所述第一噪声抑制模块对应的第二子信号增益,确定所述第一啸叫控制模块对应的第三子信号增益,确定所述第一增益控制模块对应的第四子信号增益。
在一些实施例中,该第一确定模块,还用于:
获取输入所述第一噪声抑制模块的第一频带信号;
对所述第一频带信号进行时频转换,得到所述第一频带信号的频谱数据;
将所述频谱数据输入统计模型,得到统计模型增益;将所述频谱数据输入训练好的神经网络模型,得到网络模型增益;
基于所述统计模型增益和所述网络模型增益确定所述第一噪声抑制模块对应的第二子信号增益。
在一些实施例中,该第一确定模块,还用于:
将所述统计模型增益和所述网络模型增益中的较小值确定为所述第一噪声抑制模块对应的第二子信号增益;或者,
获取所述统计模型增益对应的第一权值和所述网络模型增益对应的第二权值;
利用所述第一权值和所述第二权值对所述统计模型增益和所述网络模型增益进行加权求和,得到所述第一噪声抑制模块对应的第二子信号增益。
在一些实施例中,该第一确定模块,还用于:
获取所述统计模型对所述第一频带信号中存在语音的第一预测概率;
获取所述训练好的神经网络模型对所述第一频带信号中存在语音的第二预测概率;
将所述第一预测概率确定为第一权值,将所述第二预测概率确定为第二权值;或者;
获取预设的第一权值和预设的第二权值。
在一些实施例中,该第一确定模块,还用于:
基于所述第一子信号增益确定第二频带信号对应的第五子信号增益;
基于所述第二子信号增益确定第二频带信号对应的第六子信号增益;
基于所述第三子信号增益确定第二频带信号对应的第七子信号增益;
基于所述第四子信号增益确定第二频带信号对应的第八子信号增益。
根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益。
在一些实施例中,该第一确定模块,还用于:
将所述第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为所述第二频带信号对应的第二信号增益;
对应地,该第二确定模块,还用于:
将所述第二频带信号和所述第二信号增益的乘积确定为处理后的第二频带信号。
在一些实施例中,该第一确定模块,还用于:
将所述第五子信号增益确定为第二信号处理链路中第二回声消除模块的信号增益;所述第二信号处理链路至少包括对所述第二频带信号进行处理的第二回声消除模块、第二噪声抑制模块、第二啸叫控制模块和第二增益控制模块;
将所述第六子信号增益确定为所述第二噪声抑制模块的信号增益;
将所述第七子信号增益确定为所述第二啸叫控制模块的信号增益;
将所述第八子信号增益确定为所述第二增益控制模块的信号增益。
在一些实施例中,该第二确定模块,还用于:
获取所述第二回声消除模块基于所述第二频带信号和所述第五子信号增益得到的第一输出信号;
获取所述第二噪声抑制模块基于所述第一输出信号和所述第六子信号增益得到的第二输出信号;
获取所述第二啸叫控制模块基于所述第二输出信号和所述第七子信号增益得到的第三输出信号;
获取所述第二增益控制模块基于所述第三输出信号和所述第八子信号增益得到的处理后的第二频带信号。
在一些实施例中,所述第二子信号增益为包括K个增益值的增益向量,该一确定模块,还用于:
从K个增益值对应的K个频点中确定出最高的前P个目标频点;
将所述P个目标频点对应的增益值确定为P个目标增益值;
将所述P个目标增益值中的最小值确定为第二频带信号对应的第六子信号增益。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的音频信号处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图图4、图5及图6示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (13)
1.一种音频信号处理方法,其特征在于,包括:
获取待处理的音频信号;
对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;
确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;
基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;
对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
2.根据权利要求1中所述的方法,其特征在于,所述确定第一频带信号对应的第一信号增益,包括:
确定第一信号处理链路中包括第一回声消除模块对应的第一子信号增益,所述第一信号处理链路至少包括对所述第一频带信号进行处理的第一回声消除模块、第一噪声抑制模块、第一啸叫控制模块和第一增益控制模块;
确定所述第一噪声抑制模块对应的第二子信号增益,确定所述第一啸叫控制模块对应的第三子信号增益,确定所述第一增益控制模块对应的第四子信号增益。
3.根据权利要求2中所述的方法,其特征在于,所述确定所述第一噪声抑制模块对应的第二子信号增益,包括:
获取输入所述第一噪声抑制模块的第一频带信号;
对所述第一频带信号进行时频转换,得到所述第一频带信号的频谱数据;
将所述频谱数据输入统计模型,得到统计模型增益;将所述频谱数据输入训练好的神经网络模型,得到网络模型增益;
基于所述统计模型增益和所述网络模型增益确定所述第一噪声抑制模块对应的第二子信号增益。
4.根据权利要求3中所述的方法,其特征在于,所述基于所述统计模型增益和所述网络模型增益确定所述第一噪声抑制模块对应的第二子信号增益,包括:
将所述统计模型增益和所述网络模型增益中的较小值确定为所述第一噪声抑制模块对应的第二子信号增益;或者,
获取所述统计模型增益对应的第一权值和所述网络模型增益对应的第二权值;
利用所述第一权值和所述第二权值对所述统计模型增益和所述网络模型增益进行加权求和,得到所述第一噪声抑制模块对应的第二子信号增益。
5.根据权利要求4中所述的方法,其特征在于,所述获取所述统计模型增益对应的第一权值和所述网络模型增益对应的第二权值,包括:
获取所述统计模型对所述第一频带信号中存在语音的第一预测概率;
获取所述训练好的神经网络模型对所述第一频带信号中存在语音的第二预测概率;
将所述第一预测概率确定为第一权值,将所述第二预测概率确定为第二权值;或者,
获取预设的第一权值和预设的第二权值。
6.根据权利要求2中所述的方法,其特征在于,所述基于所述第一信号增益确定第二频带信号对应的第二信号增益,包括:
基于所述第一子信号增益确定第二频带信号对应的第五子信号增益;
基于所述第二子信号增益确定第二频带信号对应的第六子信号增益;
基于所述第三子信号增益确定第二频带信号对应的第七子信号增益;
基于所述第四子信号增益确定第二频带信号对应的第八子信号增益;
根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益。
7.根据权利要求6中所述的方法,其特征在于,所述根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益,包括:
将所述第五子信号增益、第六子信号增益、第七子信号增益和第八子信号增益的乘积确定为所述第二频带信号对应的第二信号增益;
对应地,所述基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号,包括:
将所述第二频带信号和所述第二信号增益的乘积确定为处理后的第二频带信号。
8.根据权利要求6中所述的方法,其特征在于,所述根据所述第五子信号增益、第六子信号增益、第七子信号增益、第八子信号增益确定所述第二频带信号对应的第二信号增益,包括:
将所述第五子信号增益确定为第二信号处理链路中第二回声消除模块的信号增益;所述第二信号处理链路至少包括对所述第二频带信号进行处理的第二回声消除模块、第二噪声抑制模块、第二啸叫控制模块和第二增益控制模块;
将所述第六子信号增益确定为所述第二噪声抑制模块的信号增益;
将所述第七子信号增益确定为所述第二啸叫控制模块的信号增益;
将所述第八子信号增益确定为所述第二增益控制模块的信号增益。
9.根据权利要求8中所述的方法,其特征在于,所述基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号,包括:
获取所述第二回声消除模块基于所述第二频带信号和所述第五子信号增益得到的第一输出信号;
获取所述第二噪声抑制模块基于所述第一输出信号和所述第六子信号增益得到的第二输出信号;
获取所述第二啸叫控制模块基于所述第二输出信号和所述第七子信号增益得到的第三输出信号;
获取所述第二增益控制模块基于所述第三输出信号和所述第八子信号增益得到的处理后的第二频带信号。
10.根据权利要求6中所述的方法,其特征在于,所述第二子信号增益为包括K个增益值的增益向量,所述基于所述第二子信号增益确定第二频带信号对应的第六子信号增益,包括:
从K个增益值对应的K个频点中确定出最高的前P个目标频点,K为大于2的正整数,P为小于K的正整数;
将所述P个目标频点对应的增益值确定为P个目标增益值;
将所述P个目标增益值中的最小值确定为第二频带信号对应的第六子信号增益。
11.一种音频信号处理装置,其特征在于,包括:
第一获取模块,用于获取待处理的音频信号;
频带分解模块,用于对所述音频信号进行频带分解,得到第一频带信号和第二频带信号,所述第一频带信号的频率低于所述第二频带信号的频率;
第一确定模块,用于确定第一频带信号对应的第一信号增益,基于所述第一信号增益确定第二频带信号对应的第二信号增益;
第二确定模块,用于基于所述第一信号增益和所述第一频带信号确定处理后的第一频带信号,基于所述第二信号增益和所述第二频带信号确定处理后的第二频带信号;
频带合成模块,用于对所述处理后的第一频带信号和所述处理后的第二频带信号进行频带合成,得到处理后的音频信号。
12.一种音频信号处理设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110081032.9A CN114822569A (zh) | 2021-01-21 | 2021-01-21 | 音频信号处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110081032.9A CN114822569A (zh) | 2021-01-21 | 2021-01-21 | 音频信号处理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114822569A true CN114822569A (zh) | 2022-07-29 |
Family
ID=82524686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110081032.9A Pending CN114822569A (zh) | 2021-01-21 | 2021-01-21 | 音频信号处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822569A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223584A (zh) * | 2022-09-19 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备及存储介质 |
-
2021
- 2021-01-21 CN CN202110081032.9A patent/CN114822569A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223584A (zh) * | 2022-09-19 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
AU2009278263B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
RU2552184C2 (ru) | Устройство для расширения полосы частот | |
JP6002690B2 (ja) | オーディオ入力信号処理システム | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
ES2347760T3 (es) | Procedimiento y dispositivo de reduccion de ruido. | |
JP5302968B2 (ja) | 音声明瞭化を伴うスピーチ改善 | |
CN104520925B (zh) | 噪声降低增益的百分位滤波 | |
US10049678B2 (en) | System and method for suppressing transient noise in a multichannel system | |
US20120263317A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
WO2009148960A2 (en) | Systems, methods, apparatus, and computer program products for spectral contrast enhancement | |
CN102934163A (zh) | 用于宽带语音编码的系统、方法、设备和计算机程序产品 | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
US20230162758A1 (en) | Systems and methods for speech enhancement using attention masking and end to end neural networks | |
Shao et al. | A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system | |
JP2018506078A (ja) | 発話の復元のためのシステムおよび方法 | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
Djendi et al. | A new efficient two-channel backward algorithm for speech intelligibility enhancement: A subband approach | |
CN117136407A (zh) | 用于音频处理的深度神经网络去噪器掩模生成系统 | |
Ali et al. | Speech enhancement using dilated wave-u-net: an experimental analysis | |
CN114822569A (zh) | 音频信号处理方法、装置、设备及计算机可读存储介质 | |
WO2015084658A1 (en) | Systems and methods for enhancing an audio signal | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
WO2022068440A1 (zh) | 啸叫抑制方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40071980 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |