CN118016078A - 音频处理方法、装置、电子设备及存储介质 - Google Patents

音频处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN118016078A
CN118016078A CN202410137841.0A CN202410137841A CN118016078A CN 118016078 A CN118016078 A CN 118016078A CN 202410137841 A CN202410137841 A CN 202410137841A CN 118016078 A CN118016078 A CN 118016078A
Authority
CN
China
Prior art keywords
amplitude spectrum
audio signal
processed
original
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410137841.0A
Other languages
English (en)
Inventor
余果宸
韩润强
李楠
张晨
郑羲光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202410137841.0A priority Critical patent/CN118016078A/zh
Publication of CN118016078A publication Critical patent/CN118016078A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

本公开关于一种音频处理方法、装置、电子设备及存储介质,所述方法包括:将待处理音频信号预处理为目标频宽的音频信号;对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。本方案可以实现针对音频的有效频宽会经常波动的实时通信(RTC)场景的音频处理。

Description

音频处理方法、装置、电子设备及存储介质
技术领域
本公开涉及音频处理技术领域,尤其涉及一种音频处理方法、装置、电子设备、存储介质及程序产品。
背景技术
带宽扩展(BWE,Bandwidth Extension)(也称为音频超分)是一种将音频信号中缺失的高频信号恢复出来,以提高音频信号分辨率和清晰度的技术。例如,在实时通信(RTC)场景中,由于音频采集设备和传输系统的限制,音频信号往往会出现高频信号缺失的情况,从而导致音频信号的分辨率降低,影响音频的自然度和清晰度,这种情况下,则可以采用带宽扩展技术处理音频信号。
近年来,在带宽扩展领域采用的方法逐渐由基于信号处理的传统带宽扩展方法发展为深度学习方法。虽然由深度学习方法训练的深度带宽扩展(Deep BWE)模型,相对于基于信号处理的传统方法,在音频高频补充和音质提升等方面表现出更优异的性能。但是由于深度带宽扩展模型在训练完成后,其针对频宽的扩展方案就会固定下来,例如,从8 kHz到16 kHz,从16 kHz到48 kHz等,无法将10kHz的音频信号扩展到16kHz。因此,现有方法将无法处理实时通信(RTC)场景中音频有效频宽会经常波动的情况。
发明内容
本公开提供一种音频处理方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中无法处理实时通信(RTC)场景中音频有效频宽会经常波动的情况的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频处理方法,包括:
将待处理音频信号预处理为目标频宽的音频信号;
对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;
通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;
对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。
在一示例性实施例中,所述音频处理模型包括幅度谱修复网络和相位修正网络;所述通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息,包括:
通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;
以及,通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息。
在一示例性实施例中,所述通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱,包括:
通过所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的初始处理后幅度谱;
基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;
对所述掩蔽后的幅度谱与所述原始幅度谱进行叠加处理,得到所述处理后幅度谱。
在一示例性实施例中,所述基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱,包括:
对比所述原始幅度谱和所述初始处理后幅度谱,基于对比结果,确定掩蔽模型;
通过所述掩蔽模型对所述初始处理后幅度谱进行掩蔽处理,得到所述掩蔽后的幅度谱。
在一示例性实施例中,所述幅度谱修复网络包括多个第一采样层;所述相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;所述通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息,包括:
在所述相位修正网络中的每个信息交互模块中,对所述幅度谱修复网络中的第一采样层的第一输出特征,和所述相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过所述掩蔽参数,对所述第二输出特征进行修正处理,得到修正特征;
基于所述相位修正网络中最后一个信息交互模块输出的修正特征,得到所述修正相位信息。
在一示例性实施例中,所述对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号,包括:
对所述处理后幅度谱和所述原始相位信息对应的翻折相位进行融合处理,得到所述目标频宽的初始复数谱;
对所述目标频宽对应的初始复数谱和所述修正相位信息进行融合处理,得到所述目标频宽的目标复数谱;
对所述目标频宽的目标复数谱进行反傅里叶变换处理,得到所述音频信号在所述目标频宽下的处理后音频信号。
在一示例性实施例中,所述将待处理音频信号预处理为目标频宽的音频信号,包括:
基于所述待处理音频信号的当前频宽,确定所述待处理音频信号与所述目标频宽相差的频宽;
在所述待处理音频信号中,对所述相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
根据本公开实施例的第二方面,提供一种音频处理装置,包括:
预处理单元,被配置为执行将待处理音频信号预处理为目标频宽的音频信号;
提取单元,被配置为执行对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;
处理单元,被配置为执行通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;
融合单元,被配置为执行对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。
在一示例性实施例中,所述音频处理模型包括幅度谱修复网络和相位修正网络;所述处理单元,还包括:
幅度处理子单元,被配置为执行通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;所述处理后幅度谱的频率高于所述原始幅度谱;
相位修正单元,被配置为执行通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息。
在一示例性实施例中,幅度处理子单元,还被配置为执行通过所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的初始处理后幅度谱;基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;对所述掩蔽后的幅度谱与所述原始幅度谱进行叠加处理,得到所述处理后幅度谱。
在一示例性实施例中,幅度处理子单元,还被配置为执行对比所述原始幅度谱和所述初始处理后幅度谱,基于对比结果,确定掩蔽模型;通过所述掩蔽模型对所述初始处理后幅度谱进行掩蔽处理,得到所述掩蔽后的幅度谱。
在一示例性实施例中,所述幅度谱修复网络包括多个第一采样层;所述相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;相位修正单元,还被配置为执行在所述相位修正网络中的每个信息交互模块中,对所述幅度谱修复网络中的第一采样层的第一输出特征,和所述相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过所述掩蔽参数,对所述第二输出特征进行修正处理,得到修正特征;基于所述相位修正网络中最后一个信息交互模块输出的修正特征,得到所述修正相位信息。
在一示例性实施例中,融合单元,还被配置为执行对所述处理后幅度谱和所述原始相位信息对应的翻折相位进行融合处理,得到所述目标频宽的初始复数谱;对所述目标频宽对应的初始复数谱和所述修正相位信息进行融合处理,得到所述目标频宽的目标复数谱;对所述目标频宽的目标复数谱进行反傅里叶变换处理,得到所述音频信号在所述目标频宽下的处理后音频信号。
在一示例性实施例中,预处理单元,还被配置为执行基于所述待处理音频信号的当前频宽,确定所述待处理音频信号与所述目标频宽相差的频宽;在所述待处理音频信号中,对所述相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
上述音频处理方法中,先对待处理音频信号进行预处理,将其转换为目标频宽的音频信号。在转换后,再对转换后的音频信号进行原始幅度谱和原始相位信息等时频域特征的提取,然后通过音频处理模型对原始幅度谱进行处理,得到处理后幅度谱,以及,对原始相位信息进行修正处理,得到修正相位信息;最后基于处理后幅度谱和所述修正相位信息,融合得到处理后音频信号。其中,进行预处理的转换过程可以应用于频宽小于目标频宽的任意频宽的音频信号,即频宽不固定的音频信号,即本方案可以将任意频宽的音频信号自适应扩展出其所缺失的高频部分的幅度和相位,从而重构出高分辨率音频信号。因此,本方案可以实现针对音频的有效频宽会经常波动的实时通信(RTC)场景的音频处理,克服现有音频处理方案只能针对固定频宽的音频信号进行扩展的缺陷。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频处理方法的流程示意图。
图2是根据一示例性实施例示出的音频处理模型的结构示意图。
图3是根据一示例性实施例示出的幅度谱处理步骤的流程示意图。
图4是根据另一示例性实施例示出的一种音频处理方法的流程示意图。
图5是根据一示例性实施例示出的音频处理模型的具体结构示意图。
图6是根据一示例性实施例示出的频带指导掩蔽网络的具体结构示意图。
图7是根据一示例性实施例示出的信息交互模块的具体结构示意图。
图8是根据一示例性实施例示出的一种音频处理装置的结构框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。还需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
相关技术中,基于深度学习的带宽扩展方案主要包括时域方案和时频域方案。其中,时域方案是输入低分辨率音频(如8kHz和16kHz采样率的音频信号),先通过简单的固定上采样率的插值,将音频信号扩展成高采样率音频,再输入神经网络中重建成高频信息丰富的高分辨率音频信号。时频域方案是输入音频的低频时频域表示,如幅度谱和对数能量谱,使用神经网络估计高频部分对应的时频域表示,并对低频相位进行翻折取负号的操作,当作高频部分的相位信息。最后将估计的高频时频域表示和原始低频时频域表示融合,再结合低频相位和翻折得到的高频相位,通过短时反傅里叶变换出高分辨率音频信号。
然而,现有时域和时频域方案,基本只支持固定上采样率的带宽扩展,如4kHz→8kHz、8 kHz→16kHz和8 kHz→24kHz采样率等。而在实时通信场景(RTC)中,由于采集设备和传输等原因,所捕获的音频的有效频宽会经常波动。例如:1)不同的移动设备可能有不同的固定采集采样率。2)在嘈杂的环境中,语音增强算法可能会在信噪比较低的时段抹去高频语音成分,而在信噪比较高的时段保留高频语音成分。3)在上游丢包和抖动严重的情况下,降低编码比特率时,不同的传输条件也会影响有效频宽。因此,现有方案无法鲁棒性地解决有效频宽波动的问题。
因此,为解决上述问题,本公开提出了可以对有效带宽不固定的音频信号进行自适应地扩展其所缺失的高频信号的音频处理方法。
参考图1,为一示例性实施例示出的音频处理方法的流程示意图,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
在步骤S110中,将待处理音频信号预处理为目标频宽的音频信号。
其中,频宽是指音频信号在频率上的范围或带宽。
其中,目标频宽表示待处理音频信号需要扩展到的频宽,目标频宽不小于待处理音频信号的当前频宽。目标频宽可以为最大的频宽范围,即全频带的范围。
其中,预处理得到的音频信号是形式上为目标频宽,但实际包含的有效频宽不固定的音频信号。
具体实现中,在获取待处理音频信号后,可先确定待处理音频信号的当前频宽,然后基于当前频宽,先对待处理音频信号进行预处理,以将其频宽初步调整为目标频宽,使其形式上符合后续的音频处理模型的输入要求。
在步骤S120中,对音频信号进行特征提取处理,得到音频信号的原始幅度谱和原始相位信息。
其中,幅度谱和相位信息分别用于描述信号在频域和时域上的特征。幅度谱表示信号在频域上的幅度分布情况。相位指的是信号在时域上的相对位置或偏移。
具体实现中,可以通过傅里叶变换对音频信号进行特征提取处理,提取出时频域特征,即提取出音频信号的幅度谱和相位信息,作为原始幅度谱和原始相位信息。其中,傅里叶变换具体可以为短时傅里叶变换(Short-Time Fourier Transform,STFT)。其中,原始相位信息基于音频信号对应的复数谱的实部和虚部确定,具体可表示为:arctan(虚部/实部)。原始幅度谱中的幅度可以理解为音频信号对应的复数谱的实部和虚部的模。
在步骤S130中,通过与目标频宽对应的音频处理模型,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱;以及,对原始相位信息进行修正处理,得到修正相位信息。
其中,音频处理模型用于恢复出音频信号中的高频信号,以提高音频信号的分辨率。
其中,处理后幅度谱相对于原始幅度谱,增加了高频信号的幅度谱。
具体实现中,可以预先通过样本数据集训练出一个用于处理目标频宽的音频信号的音频处理模型。具体而言,样本数据集中可以包括多个样本音频信号及各个样本音频信号对应的纯净的高频信号。其中,样本音频信号为已经进行预处理后的音频信号。在提取各个样本音频信号的幅度谱和相位信息后,以各个样本音频信号的幅度谱和相位信息为输入变量,以针对样本音频信号的处理后音频信号为输出变量,以各个样本音频信号对应的纯净的高频信号为标签,对音频处理模型进行训练。在每次训练过程中,输入一个样本音频信号的幅度谱和相位信息至音频处理模型,输出针对该样本音频信号的处理后音频信号,从处理后音频信号中可以确定出扩展的高频信号。将该扩展的高频信号与对应的纯净的高频信号作损失,得到损失值,以减小该损失值为训练目的,对音频处理模型进行迭代训练,直至损失值收敛或达到预设训练次数,得到训练好的音频处理模型。
在完成音频处理模型的训练后,实际应用时,可将音频信号的原始幅度谱和原始相位信息输入音频处理模型,由音频处理模型分别进行处理和修正,得到处理后幅度谱和修正相位信息。
可以理解,在对音频信号进行音频处理,即进行高频信号的恢复时,除了音频信号的幅度谱的改变,音频信号的相位信息也会发生改变,因此,除了处理原始幅度谱,还需要修正音频信号的原始相位信息,以保证修正得到的修正相位信息的准确性。
在步骤S140中,对处理后幅度谱和修正相位信息进行融合处理,得到处理后音频信号。
其中,处理后音频信号相对于初始的音频信号而言,高频信号已恢复,因此,其分辨率高于初始的音频信号。
具体实现中,由于幅度谱和相位信息为基于音频信号的复数谱提取出的时频域特征,因此,对音频信号的幅度谱和相位信息都完成处理或修正后,对处理后幅度谱和修正相位信息进行融合时,先得到针对音频信号进行处理后的目标复数谱。再对目标复数谱进行反傅里叶变换处理,得到处理后音频信号。可以理解,将目标复数谱恢复为音频信号的方式与从音频信号中提取出原始幅度谱和原始相位信息的方式相对应,若从音频信号中提取出原始幅度谱和原始相位信息的方式为短时傅里叶变换,则此处将目标复数谱恢复为音频信号的方式对应为短时反傅里叶变换(Inverse Short-Time Fourier Transform,ISTFT)。
上述音频处理方法中,先对待处理音频信号进行预处理,将其转换为目标频宽的音频信号。在转换后,再对转换后的音频信号进行原始幅度谱和原始相位信息等时频域特征的提取,然后通过音频处理模型对原始幅度谱进行处理,得到处理后幅度谱,以及,对原始相位信息进行修正处理,得到修正相位信息;最后基于处理后幅度谱和修正相位信息,融合得到处理后音频信号。其中,进行预处理的转换过程可以应用于频宽小于目标频宽的任意频宽的音频信号,即频宽不固定的音频信号,即本方案可以将任意频宽的音频信号自适应扩展出其所缺失的高频部分的幅度和相位,从而重构出高分辨率音频信号。因此,本方案可以实现针对音频的有效频宽会经常波动的实时通信(RTC)场景的音频处理,克服现有带宽扩展方案只能针对固定频宽的音频信号进行扩展的缺陷。
在一示例性实施例中,在步骤S130中通过与目标频宽对应的音频处理模型,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱;以及,对原始相位信息进行修正处理,得到修正相位信息的具体实现方式为:通过音频处理模型中的幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱;处理后幅度谱的频率高于原始幅度谱;以及,通过音频处理模型中的相位修正网络和幅度谱修复网络,对原始相位信息进行修正处理,得到修正相位信息。
参考图2,为一实施例示出的音频处理模型的整体架构示意图,如图2所示,本申请的音频处理模型包括幅度谱修复网络和相位修正网络,其中,幅度谱修复网络用于修复音频信号缺失的高频信号的幅度谱,相位修正网络用于将音频信号的原始相位信息修正为与处理后音频信号相对应的相位信息。具体实现中,如图2所示,对原始幅度谱进行处理时,可以采用幅度谱修复网络来实现。而对原始相位信息进行修正时,除了利用相位修正网络外,还需要利用幅度谱修复网络中的输出特征,因此,相当于幅度谱修复网络和相位修正网络相结合,来实现原始相位信息的修正。
其中,在将原始幅度谱输入幅度谱修复网络之前,可先对原始幅度谱进行线性频率转换(linear2ERB),即将原始幅度谱从线性频率转换为ERB尺度(EquivalentRectangular Bandwidth,一种基于人耳听觉特性的频率刻度,是一种非线性刻度),以对原始幅度谱进行降维,减小参数量,从而降低处理难度。
本实施例中,通过将针对音频信号的音频处理任务拆分为幅度谱估计和相位修正两部分,并设计包含幅度谱修复网络和相位修正网络的双分支网络,联合估计音频信号所缺失的高频部分的幅度和相位信息,以保证所估计出的高频部分的幅度和相位信息的准确性。
在一示例性实施例中,如图3所示,通过音频处理模型中的幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱,具体包括:
步骤S310,通过幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的初始处理后幅度谱;
步骤S320,基于原始幅度谱,对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;
步骤S330,对掩蔽后的幅度谱与原始幅度谱进行叠加处理,得到处理后幅度谱。
可以理解,通过幅度谱修复网络估计出的处理后幅度谱为在原始幅度谱上修复得到的,这个修复过程可能会改变音频信号原有的低频部分的信号。因此,为了防止幅度谱修复网络改变太多音频信号原有的低频信号,本实施例提出了对原始幅度谱进行修复得到的初始处理后幅度谱进行掩蔽处理,再对掩蔽后的幅度谱与原始幅度谱进行叠加确定处理后幅度谱的方法。
其中,掩蔽处理用于保留初始处理后幅度谱中恢复的高频部分的幅度,剔除原始幅度谱中的低频部分的幅度。
具体实现中,幅度谱修复网络中包括多个采样层,具体包括多个上采样层和下采样层,通过各个采样层对原始幅度谱的频率进行增高处理,得到音频信号的初始处理后幅度谱。之后,基于原始幅度谱,对初始处理后幅度谱进行掩蔽处理,以保留初始处理后幅度谱中恢复的高频部分的幅度,并剔除原始幅度谱中的低频部分的幅度,得到掩蔽后的幅度谱。最后,将掩蔽后的幅度谱与原始幅度谱进行叠加处理,得到处理后幅度谱。
本实施例中,在通过幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的初始处理后幅度谱后,先基于原始幅度谱,对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱,以保留初始处理后幅度谱中恢复的高频部分的幅度,并剔除原始幅度谱中的低频部分的幅度,减少修复过程对音频信号原有的低频部分的幅度的影响,最后再将对掩蔽后的幅度谱与原始幅度谱进行叠加处理,得到处理后幅度谱,由此得到的处理后幅度谱中既包含音频信号原有的低频部分的幅度,也包含恢复出的高频部分的幅度。
在一示例性实施例中,步骤S320,基于原始幅度谱,对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱,包括:对比初始处理后幅度谱和原始幅度谱,基于对比结果,确定掩蔽模型;通过掩蔽模型对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱。
其中,掩蔽模型具体可以为掩蔽函数。掩蔽函数是根据人耳的掩蔽效应而设计的,即当一个较强的声音出现时,它会掩盖周围较弱的声音,使得周围的声音不易被人耳察觉。掩蔽函数即是在模拟这种掩蔽效应,通过降低幅度谱中被掩盖的频率分量的能量值,以便更好地反映人耳的听觉特性。
具体实现中,通过对比初始处理后幅度谱和原始幅度谱,可以确定初始处理后幅度谱相对于原始幅度谱的变化幅度信息,如增加的幅度信息、改变的幅度信息等,然后以保留初始处理后幅度谱中恢复的高频部分的幅度,剔除原始幅度谱中的低频部分的幅度为原则,设置掩蔽模型。具体地,掩蔽模型可以为掩蔽函数,例如,设置数值为0和1的掩蔽函数,将初始处理后幅度谱中增加的高频的幅度信息的掩蔽值设为1,将初始处理后幅度谱中存在的原始幅度谱的低频的幅度信息的掩蔽值设为0,由此得到的掩蔽模型,在对初始处理后幅度谱进行掩蔽处理后,可以保留初始处理后幅度谱中恢复的高频部分的幅度,并剔除原始幅度谱中的低频部分的幅度。
本实施例中,通过初始处理后幅度谱和原始幅度谱的幅度谱确定掩蔽模型,通过掩蔽模型对初始处理后幅度谱进行掩蔽处理,以保留初始处理后幅度谱中恢复的高频部分的幅度,并剔除原始幅度谱中的低频部分的幅度,以便于后续将该掩蔽后的幅度谱与原始幅度谱进行叠加时,得到的处理后幅度谱既能不改变太多原始音频已有的低频部分的幅度,也能具有恢复的高频部分的幅度。
在一示例性实施例中,幅度谱修复网络包括多个第一采样层;相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;通过音频处理模型中的相位修正网络和幅度谱修复网络,对原始相位信息进行修正处理,得到修正相位信息,具体包括:在相位修正网络中的每个信息交互模块中,对幅度谱修复网络中的第一采样层的第一输出特征,和相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过掩蔽参数,对第二输出特征进行修正处理,得到修正特征;基于相位修正网络中最后一个信息交互模块输出的修正特征,得到修正相位信息。
其中,第一采样层包括上采样层和下采样层。第二采样层也包括上采样层和下采样层。
具体地,本实施例通过估计与目标频宽对应的复数谱的实部和虚部残差部分,对相位信息进行修正。而由于相位高度非结构化,直接估计高频相位信息难度较高,因此,本实施例在相位修正网络中设置了信息交互模块,通过信息交互模块将幅度谱网络的第一采样层的中间层输出特征与相位修正网络的第二采样层的中间层输出特征进行融合处理,得到掩蔽参数,通过掩蔽参数,对第二采样层的第二输出特征进行修正处理,得到修正特征,基于相位修正网络中最后一个信息交互模块输出的修正特征,得到修正相位信息。
本实施例中,通过设置信息交互模块,基于幅度谱网络的第一采样层的输出特征,对相位修正网络所估计的高频相位信息进行修正,可以保证所得到的修正相位信息的准确性,同时可以降低估计高频相位信息的难度。
在一示例性实施例中,步骤S140中,对处理后幅度谱和修正相位信息进行融合处理,得到处理后音频信号,具体包括:
步骤S140a,对处理后幅度谱和原始相位信息对应的翻折相位进行融合处理,得到目标频宽的初始复数谱。
其中,原始相位信息的翻折相位可以通过将原始相位信息反转180°得到。
具体地,处理后幅度谱可以理解为音频信号复数谱的实部和虚部的模,相位信息为基于复数谱的实部和虚部得到的相位值,因此,在得到处理后幅度谱后,还需要将处理后幅度谱转换为复数谱。具体而言,可对原始相位信息进行翻折得到翻折相位,将该翻折相位作为复数谱的相位信息,从而可对处理后幅度谱和原始相位信息对应的翻折相位进行融合,得到目标频宽的初始复数谱。
步骤S140b,对目标频宽对应的初始复数谱和修正相位信息进行融合处理,得到目标频宽的目标复数谱。
具体地,由于初始复数谱的相位信息是直接对原始相位信息进行翻折后得到的,因此,并不符合处理后音频信号的实际相位信息,故需进一步采用修正相位信息对初始复数谱进行调整,即对初始复数谱和修正相位信息进行融合处理,得到目标复数谱。
步骤S140c,对目标频宽的目标复数谱进行反傅里叶变换处理,得到音频信号在目标频宽下的处理后音频信号。
其中,当目标频宽为最大的频宽范围,即全频带的范围时,目标复数谱对应为全频带复数谱,处理后音频信号对应为全频带音频信号。
具体地,在得到目标复数谱后,需要将其转换为音频信号,因此,需要对目标复数谱进行反傅里叶变换处理,得到音频信号在目标频宽下的处理后音频信号。
本实施例中,先通过对处理后幅度谱和原始相位信息对应的翻折相位进行融合处理,得到初始复数谱,考虑到原始相位信息对应的翻折相位并不能表征恢复的高频信号的相位信息,因此,采用修正相位信息对初始复数谱进行调整,以提高调整后的目标复数谱的准确性,继而提高所得到的处理后音频信号的质量。
在一示例性实施例中,步骤S110中,将待处理音频信号预处理为目标频宽的音频信号包括:基于待处理音频信号的当前频宽,确定待处理音频信号与目标频宽相差的频宽;在待处理音频信号中,对相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
具体实现中,待处理音频信号的当前频宽小于目标频宽,对待处理音频信号的预处理目的在于将待处理音频信号转换为目标频宽的音频信号。在转换时,先对比待处理音频信号的当前频宽与目标频宽,确定两者相差的频宽。然后,在待处理音频信号中,对相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
例如,当前频宽为0-30kHz,目标频宽为0-48kHz,则两者相差的频宽为30kHz-48kHz。则可在待处理音频信号中,将30kHz-48kHz范围内插入零值样本,得到显示带宽为48kHz,但有效带宽为30kHz的音频信号,作为与目标频宽相同的音频信号。
本实施例中,通过在当前频宽与目标频宽相差的频宽对应的频率范围内插入零值样本,得到频宽与目标频宽相同的音频信号,以符合音频处理模型的要求,使得音频处理模型可将待处理音频信号扩展为频宽为目标频宽的处理后音频信号。由于任意频宽的音频信号都可以通过插入零值样本转换为目标频宽的音频信号,因此,本申请的音频处理模型可以对任意频宽的音频信号进行扩展,由此可实现对不固定频宽的音频信号的音频处理。
在另一示例性实施例中,如图4所示,是根据另一示例性实施例示出的一种音频处理方法的流程图,本实施例中,该方法包括以下步骤:
步骤S401,基于待处理音频信号的当前频宽,对待处理音频信号进行预处理,得到频宽与目标频宽相同的音频信号;
步骤S402,对音频信号进行特征提取处理,得到音频信号的原始幅度谱和原始相位信息;
步骤S403,获取音频处理模型;音频处理模型包括幅度谱修复网络和相位修正网络;幅度谱修复网络包括多个第一采样层;相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;
步骤S404,通过幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的初始处理后幅度谱;
步骤S405,对比原始幅度谱和初始处理后幅度谱,确定掩蔽模型;通过掩蔽模型对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;
步骤S406,对掩蔽后的幅度谱与原始幅度谱进行叠加处理,得到处理后幅度谱;
步骤S407,在相位修正网络中的每个信息交互模块中,对幅度谱修复网络中的第一采样层的第一输出特征,和相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;
步骤S408,通过掩蔽参数,对第二输出特征进行修正处理,得到修正特征;
步骤S409,基于相位修正网络中最后一个信息交互模块输出的修正特征,得到修正相位信息;
步骤S410,对处理后幅度谱和原始相位信息对应的翻折相位进行融合处理,得到目标频宽的初始复数谱;
步骤S411,对目标频宽对应的初始复数谱和修正相位信息进行融合处理,得到目标频宽的目标复数谱;
步骤S412,对目标频宽的目标复数谱进行反傅里叶变换处理,得到音频信号在目标频宽下的处理后音频信号。
本实施例设计了一种双分支幅度相位估计的频宽自适应音频处理方法,针对有效带宽波动的RTC场景,可以在较低复杂度下实现低分辨率音频的音频处理,可以自适应地估计缺失的高频幅度谱和相位信息,并对低频部分进行修正,进一步提升音频的音质。
在一示例性实施例中,为了便于本领域技术人员理解本公开实施例,以下将以对应采样率为48kHz的目标频宽为例,结合附图的具体示例进行说明。
参考图5,为一个实施例中音频处理模型的具体结构示意图。如图5所示,音频处理模型为包括幅度谱修复网络(Magnitude Inpainting Network,MI-Net)和相位修正网络(Phase Refinement Network,PR-NET)双分支。两个网络都包括分组的门控循环单元(Gated Recurrent Unit,GRU),以及多个下采样层和上采样层,上采样层与下采样层之间均是层级连接,每个网络分支中的下采样层与上采样层之间跳跃连接(skip connection)。其中,相位修正网络还包括信息交互模块Inter,用于对两个网络中间采样层的输出特征进行融合,信息交互模块之间也采用跳跃连接。
采用图5所示的音频处理模型进行音频处理的具体过程包括:
(1)输入低分辨率的有效带宽不固定的音频信号。具体为将待处理音频信号预处理为48kHz采样率的有效频宽不固定的音频信号,作为输入变量。
(2)通过短时傅里叶变换(STFT),对音频信号进行特征提取,提取出时频域特 征。时频域特征包括原始幅度谱和表征原始相位信息的。其中,相位具体可表 示为:
可以理解,将音频信号可转换为复数谱表示时,复数谱是将信号的幅度和相位信 息结合在一起,以复数的形式表示。复数谱可以表示为实部和虚部的形式,或者使用复数的 模和相位表示。其中,对应复数的模,分别对应复数的实部和虚部。
(3)将音频处理任务拆分为幅度谱估计和相位修正。
(3.1)幅度谱估计。将原始幅度谱输入第一个幅度谱修复网络,以估计出高分 辨率的初始处理后幅度谱。同时,为了防止网络改变太多原始音频信号已有的低频部 分,还提出一个频带指导掩蔽网络(Band-Guided Masking Network),结合原始幅度谱对幅 度谱修复网络估计出来的初始处理后幅度谱进行掩蔽估计,对已有低频部分主要进行残差 修正,并对高频缺失部分进行扩展,从而可以实现频宽不固定地自适应高频估计。其中,在 将原始幅度谱输入幅度谱修复网络之前,可先对原始幅度谱进行线性频率转换 (linear2ERB),即将原始幅度谱从线性频率转换为ERB尺度(Equivalent Rectangular Bandwidth,一种基于人耳听觉特性的频率刻度,是一种非线性刻度),以对原始幅度谱进行 降维,减小参数量,从而降低处理难度。
频带指导掩蔽网络的具体架构如图6所示,主要由双路径掩蔽估计模块构成。其中 两个分支的一个分支由1*1卷积层和Tanh激活函数组成,另一个分支由1*1卷积层和 Sigmoid激活函数组成。其输入为原始幅度谱和初始处理后幅度谱,进行合并(对 应下述公式(1))后,经过两个分支分别进行处理(对应下述公式(2)和公式(3)),然后又经 过一个1*1卷积层和Sigmoid激活函数,估计出掩蔽函数(对应下述公式(4))。通过掩蔽函 数,对初始处理后幅度谱进行掩蔽处理,即图2中的第二个元素点积,得到掩蔽后的幅 度谱。将掩蔽后的幅度谱与输入的低分辨率的原始幅度谱相加得到最终的高分辨率的 全频带的处理后幅度谱(对应图1中频带指导掩蔽网络的输出与原始幅度谱的叠加, 也对应下述公式(5))。
频带指导掩蔽网络的各步骤的公式如下:
(1)
(2)
(3)
(4)
(5)
通过频带指导掩蔽网络,可以对已有的原始低频部分进行残差估计,修正低频成分,同时扩展缺失的高频成分,实现自适应带宽扩展。
(3.2)相位修正。在第二个相位修正分支中,通过估计全频带时频域复数谱的实部和虚部残差部分,对相位信息进行隐式修正。由于相位高度非结构化,直接估计高频相位信息难度很高,因此,本申请设计了一个信息交互模块,通过引入第一个分支估计的幅度特征,辅助相位修正分支估计复数谱实部和虚部。
信息交互模块的具体架构如图7所示,其输入为幅度谱修复网络的中间层特征和相位修正网络的中间层特征。在信息交互模块中,首先将两个中间层特征进行 融合,并通过卷积层,权重归一化层和Sigmoid激活函数,得到一个掩蔽参数。通过该掩蔽参 数与幅度谱修复网络的中间层特征进行点积,将点积后的特征与相位修正网络的中 间层特征进行特征融合,得到信息交互后的融合特征,作为修正特征,输入到相位修 正网络的下一个网络层中。依次类推,直至得到最后一个网络层的输出,经过实部的全连接 层和虚部的全连接层进行线性变换,得到修正相位信息:
(4)将第一个幅度谱修复分支估计的全频带的处理后幅度谱与翻折后的相位 进行耦合,得到初始复数谱(),再与第二个分支估计的修正相位信息( 相加,得到最终的全频带复数谱,并通过反傅里叶变换处理,重构回高分辨率的音频信 号。
需要说明,以上过程为采用音频处理模型进行带宽估计的过程,若对音频处理模 型进行训练,则获取已完成预处理的样本音频信号和样本音频信号对应的纯净高频信号S, 以样本音频信号为输入变量,以处理后音频信号为输出变量,以纯净高频信号为监督信息, 对音频处理模型进行训练。如图5所示,具体可基于处理后音频信号对应的扩展高频信号 与纯净高频信号S之间的损失对音频处理模型进行训练,以减小损失为目的,直至损失收敛 或达到预设训练次数,结束训练。其中,损失可通过多尺度短时傅里叶判别器(Multi- resolution STFT Discriminator)进行确定。
本实施例所设计的双分支的幅度相位估计的音频处理方案,输入48kHz采样率的有效频宽不固定的音频,可以自适应地扩展所缺失的高频部分的幅度和相位,并对原始音频低频部分进行修正,从而重构出音质提升的高分辨率音频。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的音频处理方法的音频处理装置。
图8是根据一示例性实施例示出的一种音频处理装置的结构框图。参照图8,该装置包括:预处理单元810、提取单元820、处理单元830和融合单元840,其中,
预处理单元810,被配置为执行将待处理音频信号预处理为目标频宽的音频信号;
提取单元820,被配置为执行对音频信号进行特征提取处理,得到音频信号的原始幅度谱和原始相位信息;
处理单元830,被配置为执行通过与目标频宽对应的音频处理模型,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱;以及,对原始相位信息进行修正处理,得到修正相位信息;
融合单元840,被配置为执行对处理后幅度谱和修正相位信息进行融合处理,得到处理后音频信号。
在一示例性实施例中,音频处理模型包括幅度谱修复网络和相位修正网络;处理单元830,还包括:
幅度处理子单元,被配置为执行通过音频处理模型中的幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的处理后幅度谱;
相位修正单元,被配置为执行通过音频处理模型中的相位修正网络和幅度谱修复网络,对原始相位信息进行修正处理,得到修正相位信息。
在一示例性实施例中,幅度处理子单元,还被配置为执行通过幅度谱修复网络,对原始幅度谱的频率进行增高处理,得到音频信号的初始处理后幅度谱;基于原始幅度谱,对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;对掩蔽后的幅度谱与原始幅度谱进行叠加处理,得到处理后幅度谱。
在一示例性实施例中,幅度处理子单元,还被配置为执行对比原始幅度谱和初始处理后幅度谱,基于对比结果,确定掩蔽模型;通过掩蔽模型对初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱。
在一示例性实施例中,幅度谱修复网络包括多个第一采样层;相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;相位修正单元,还被配置为执行在相位修正网络中的每个信息交互模块中,对幅度谱修复网络中的第一采样层的第一输出特征,和相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过掩蔽参数,对第二输出特征进行修正处理,得到修正特征;基于相位修正网络中最后一个信息交互模块输出的修正特征,得到修正相位信息。
在一示例性实施例中,融合单元840,还被配置为执行对处理后幅度谱和原始相位信息对应的翻折相位进行融合处理,得到目标频宽的初始复数谱;对目标频宽对应的初始复数谱和修正相位信息进行融合处理,得到目标频宽的目标复数谱;对目标频宽的目标复数谱进行反傅里叶变换处理,得到音频信号在目标频宽下的处理后音频信号。
在一示例性实施例中,预处理单元810,还被配置为执行基于待处理音频信号的当前频宽,确定待处理音频信号与目标频宽相差的频宽;在待处理音频信号中,对相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种用于实现音频处理方法的电子设备900的框图。例如,电子设备900可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图9,电子设备900可以包括以下一个或多个组件:处理组件902、存储器904、电源组件906、多媒体组件908、音频组件910、输入/输出(I/O)的接口912、传感器组件914以及通信组件916。
处理组件902通常控制电子设备900的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述电子设备900和用户之间的提供输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如所述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900组件的位置改变,用户与电子设备900接触的存在或不存在,设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在一示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由电子设备900的处理器920执行以完成上述方法。
需要说明的,上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种音频处理方法,其特征在于,包括:
将待处理音频信号预处理为目标频宽的音频信号;
对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;
通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;
对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。
2.根据权利要求1所述的方法,其特征在于,所述音频处理模型包括幅度谱修复网络和相位修正网络;所述通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息,包括:
通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;
以及,通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息。
3.根据权利要求2所述的方法,其特征在于,所述通过所述音频处理模型中的所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱,包括:
通过所述幅度谱修复网络,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的初始处理后幅度谱;
基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱;
对所述掩蔽后的幅度谱与所述原始幅度谱进行叠加处理,得到所述处理后幅度谱。
4.根据权利要求3所述的方法,其特征在于,所述基于所述原始幅度谱,对所述初始处理后幅度谱进行掩蔽处理,得到掩蔽后的幅度谱,包括:
对比所述原始幅度谱和所述初始处理后幅度谱,基于对比结果,确定掩蔽模型;
通过所述掩蔽模型对所述初始处理后幅度谱进行掩蔽处理,得到所述掩蔽后的幅度谱。
5.根据权利要求2所述的方法,其特征在于,所述幅度谱修复网络包括多个第一采样层;所述相位修正网络包括多个第二采样层以及多个信息交互模块,每个信息交互模块与一个第一采样层和一个第二采样层相连接;所述通过所述音频处理模型中的所述相位修正网络和所述幅度谱修复网络,对所述原始相位信息进行修正处理,得到修正相位信息,包括:
在所述相位修正网络中的每个信息交互模块中,对所述幅度谱修复网络中的第一采样层的第一输出特征,和所述相位修正网络中的第二采样层的第二输出特征进行融合处理,得到掩蔽参数;通过所述掩蔽参数,对所述第二输出特征进行修正处理,得到修正特征;
基于所述相位修正网络中最后一个信息交互模块输出的修正特征,得到所述修正相位信息。
6.根据权利要求1所述的方法,其特征在于,所述对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号,包括:
对所述处理后幅度谱和所述原始相位信息对应的翻折相位进行融合处理,得到所述目标频宽的初始复数谱;
对所述目标频宽对应的初始复数谱和所述修正相位信息进行融合处理,得到所述目标频宽的目标复数谱;
对所述目标频宽的目标复数谱进行反傅里叶变换处理,得到所述音频信号在所述目标频宽下的处理后音频信号。
7.根据权利要求1所述的方法,其特征在于,所述将待处理音频信号预处理为目标频宽的音频信号,包括:
基于所述待处理音频信号的当前频宽,确定所述待处理音频信号与所述目标频宽相差的频宽;
在所述待处理音频信号中,对所述相差的频宽对应的频率范围插入零值样本,得到频宽与目标频宽相同的音频信号。
8.一种音频处理装置,其特征在于,包括:
预处理单元,被配置为执行将待处理音频信号预处理为目标频宽的音频信号;
提取单元,被配置为执行对所述音频信号进行特征提取处理,得到所述音频信号的原始幅度谱和原始相位信息;
处理单元,被配置为执行通过与所述目标频宽对应的音频处理模型,对所述原始幅度谱的频率进行增高处理,得到所述音频信号的处理后幅度谱;以及,对所述原始相位信息进行修正处理,得到修正相位信息;
融合单元,被配置为执行对所述处理后幅度谱和所述修正相位信息进行融合处理,得到处理后音频信号。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的音频处理方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的音频处理方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的音频处理方法。
CN202410137841.0A 2024-01-31 2024-01-31 音频处理方法、装置、电子设备及存储介质 Pending CN118016078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410137841.0A CN118016078A (zh) 2024-01-31 2024-01-31 音频处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410137841.0A CN118016078A (zh) 2024-01-31 2024-01-31 音频处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN118016078A true CN118016078A (zh) 2024-05-10

Family

ID=90943869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410137841.0A Pending CN118016078A (zh) 2024-01-31 2024-01-31 音频处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118016078A (zh)

Similar Documents

Publication Publication Date Title
CN108198569B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111402917B (zh) 音频信号处理方法及装置、存储介质
CN110060215B (zh) 图像处理方法及装置、电子设备和存储介质
CN111009257B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN109887515B (zh) 音频处理方法及装置、电子设备和存储介质
CN111883164B (zh) 模型训练方法、装置、电子设备及存储介质
CN107833579B (zh) 噪声消除方法、装置及计算机可读存储介质
CN110503968B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN111968662A (zh) 音频信号的处理方法及装置、存储介质
CN110931028B (zh) 一种语音处理方法、装置和电子设备
US20220188982A1 (en) Image reconstruction method and device, electronic device, and storage medium
CN116741191A (zh) 音频信号处理方法、装置、电子设备及存储介质
CN109509482B (zh) 回声消除方法、回声消除装置、电子设备和可读介质
CN111583958B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111933171B (zh) 降噪方法及装置、电子设备、存储介质
CN111292761B (zh) 语音增强方法及装置
CN110580910B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN118016078A (zh) 音频处理方法、装置、电子设备及存储介质
CN114694685A (zh) 语音质量评估方法、装置及存储介质
CN111613239B (zh) 音频去噪方法和装置、服务器、存储介质
CN111667842A (zh) 音频信号处理方法及装置
CN111986693B (zh) 音频信号的处理方法及装置、终端设备和存储介质
CN118038889A (zh) 音频数据处理方法、装置、电子设备及存储介质
CN117877507A (zh) 语音信号增强方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination