CN111583958A - 音频信号处理方法、装置、电子设备及存储介质 - Google Patents

音频信号处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111583958A
CN111583958A CN202010427008.1A CN202010427008A CN111583958A CN 111583958 A CN111583958 A CN 111583958A CN 202010427008 A CN202010427008 A CN 202010427008A CN 111583958 A CN111583958 A CN 111583958A
Authority
CN
China
Prior art keywords
sub
band
signal
audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010427008.1A
Other languages
English (en)
Other versions
CN111583958B (zh
Inventor
董培
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010427008.1A priority Critical patent/CN111583958B/zh
Publication of CN111583958A publication Critical patent/CN111583958A/zh
Application granted granted Critical
Publication of CN111583958B publication Critical patent/CN111583958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开关于一种音频信号处理方法、装置、电子设备及存储介质,其中方法通过获取待处理音频信号,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,并将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,进而根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号,由于其深度学习降噪模型是通过采样频率低于采样频率阈值的样本音频信号训练后得到的,因此,训练数据较容易获取,且极大的降低了模型的运算量,从而提高了处理效率。

Description

音频信号处理方法、装置、电子设备及存储介质
技术领域
本公开涉及音频处理技术领域,尤其涉及一种音频信号处理方法、装置、电子设备及存储介质。
背景技术
随着音频处理技术的发展,越来越多的用户通过电子设备录制音频信号或者带有音频信号的视频文件。但是,在音频信号的录制过程中,会因为各种原因录入不同种类的噪声,从而导致录制文件的语音质量会受到一定的影响,因此,需要对音频信号中的噪声进行处理。
相关技术中,已有针对某种环境的特殊噪声进行处理的技术,也有不分场景的通用噪声处理技术。近年来,随着人工智能技术的高速发展,这些噪声处理技术一般基于机器学习和深度学习实现。
然而,对于全频带的音频信号,由于现有的音频数据大部分是8khz或者16khz等低采样率下的数据,因此缺乏高采样率下机器学习或者深度学习的训练数据,需要自行录制大量高采样率的音频信号,才能训练出对全频带的音频信号进行噪声处理的机器学习模型,从而导致对全频带的音频信号进行噪声处理效率低。
发明内容
本公开提供一种音频信号处理方法、装置、电子设备及存储介质,以至少解决相关技术中对全频带的音频信号进行噪声处理效率低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
获取待处理音频信号;
对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱;
将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,其中,深度学习降噪模型是通过样本采样音频信号训练后得到的;样本采样音频信号为采样频率低于采样频率阈值的样本音频信号;
根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号。
在其中一个实施例中,待处理音频信号为全频带音频信号;所述对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,包括:根据设定带宽对全频带音频信号进行子带分解,得到多个子带信号,其中,设定带宽与深度学习降噪模型的处理带宽相同;对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
在其中一个实施例中,对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱,包括:对每个子带信号分别进行快速傅里叶变换,得到每个子带信号对应的能量谱。
在其中一个实施例中,根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,包括:根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量;将每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号;对多个子带信号分别对应的时域子带信号进行重建。
在其中一个实施例中,将每个子带信号的音频能量转换为时域子带信号,包括:将每个子带信号的音频能量分别进行逆快速傅里叶变换,得到每个子带信号分别对应的时域子带信号。
在其中一个实施例中,子带信号的能量谱包括对应的多个频带能量,子带信号的能量谱对应的音频特征包括与子带信号的多个频带能量一一对应的音频特征;所述根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量,包括:获取子带信号对应的每个频带能量和与子带信号的每个频带能量一一对应的音频特征的乘积,将所述乘积作为子带信号中相应频带的音频能量;得到多个子带信号中每一个子带信号的各频带的音频能量。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
获取模块,被配置为执行获取待处理音频信号;
子带分解模块,被配置为执行对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱;
降噪处理模块,被配置为执行将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,所述深度学习降噪模型是通过样本采样音频信号训练后得到的;其中,样本采样音频信号为采样频率低于采样频率阈值的样本音频信号;
信号重建模块,被配置为执行根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号。
在其中一个实施例中,待处理音频信号为全频带音频信号;所述子带分解模块包括:子带分解单元,被配置为执行根据设定带宽对全频带音频信号进行子带分解,得到多个子带信号,其中,设定带宽与深度学习降噪模型的处理带宽相同;预处理单元,被配置为执行对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
在其中一个实施例中,预处理单元被配置为执行:对每个所述子带信号分别进行快速傅里叶变换,得到每个子带信号对应的能量谱。
在其中一个实施例中,信号重建模块包括:音频能量获取单元,被配置为执行根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量;转换单元,被配置为执行将每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号;重建单元,被配置为执行对多个子带信号分别对应的时域子带信号进行重建。
在其中一个实施例中,转换单元被配置为执行:将每个子带信号的音频能量分别进行逆快速傅里叶变换,得到每个子带信号分别对应的时域子带信号。
在其中一个实施例中,子带信号的能量谱包括对应的多个频带能量,子带信号的能量谱对应的音频特征包括与所述子带信号的多个频带能量一一对应的音频特征;所述音频能量获取单元被配置为执行:获取子带信号对应的每个频带能量和与子带信号的每个频带能量一一对应的音频特征的乘积,将所述乘积作为子带信号中相应频带的音频能量;得到多个子带信号中每一个子带信号的各频带的音频能量。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,使得电子设备执行第一方面的任一项实施例中所述的音频信号处理方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行第一方面的任一项实施例中所述的音频信号处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行第一方面的任一项实施例中所述的音频信号处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过获取待处理音频信号,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,并将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,进而根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号,由于其深度学习降噪模型是通过采样频率低于采样频率阈值的样本音频信号训练后得到的,因此,训练数据较容易获取,且极大的降低了模型的运算量,从而提高了处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。
图2是根据一示例性实施例示出的对待处理音频信号进行子带分解步骤的示意图。
图3是根据一示例性实施例示出的对子带信号进行重建步骤的示意图。
图4是根据一示例性实施例示出的一种音频信号处理方法的原理图。
图5是根据一示例性实施例示出的一种音频信号处理装置的框图。
图6是根据一示例性实施例示出的一种电子设备的内部结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开提供了一种音频信号处理方法,可以应用于具有音频采集或音频播放功能的终端。具体的,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。如图1所示,包括以下步骤:
在步骤S110中,获取待处理音频信号。
其中,待处理音频信号是指需要进行降噪处理的音频信号,其通常为时间上连续的时域信号。在本实施例中,待处理音频信号可以是终端采集的音频信号,也可以是终端待播放的音频信号。具体的,终端可以在采集音频信号时对音频信号进行降噪处理,从而得到采集的并进行降噪处理后的音频信号;终端也可以在播放音频信号时对待播放的音频信号进行降噪处理,从而播放进行降噪处理后的音频信号。
在步骤S120中,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱。
其中,子带分解是指将原信号按某种规则分解成多个子带信号,具体的,本实施例中进行分解的原信号则是待处理音频信号。能量谱是指将时域信号转换为频域信号后得到的一系列频带能量。在本实施例中,通过对待处理音频信号进行子带分解,从而得到多个子带信号,然后对每个子带信号进行频域转换,进而得到各子带信号对应的能量谱。
在步骤S130中,将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征。
其中,深度学习降噪模型是通过样本采样音频信号对神经网络进行训练后得到的,具体的,神经网络可以采用但不限于深度神经网络(Deep Neural Networks,简称DNN)、循环神经网络(Recurrent Neural Network,简称RNN)或长短期记忆网络(Long Short-Term Memory,简称LSTM)等结构;样本采样音频信号为采样频率低于采样频率阈值的样本音频信号,即为低采样率样本音频信号,低采样率样本音频信号可以是自行录制的低采样率的音频样本信号,也可以是收集的低采样率的音频,并将其作为样本信号,还可以是通过对高采样率信号进行降采样处理后获得的低采样音频信号。音频特征是深度学习降噪模型基于子带信号的能量谱输出的结果,其表示对应子带信号的音频系数,由机器学习或深度学习算法计算得到。在本实施例中,将每个子带信号分别对应的能量谱输入深度学习降噪模型,从而得到去噪后的与各子带信号的能量谱对应的音频特征。
在步骤S140中,根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号。
其中,目标音频信号是指对待处理音频信号进行降噪处理后得到的音频信号。重建则是指对多个子带信号进行合成处理,可以理解的是,本实施例中的重建与上述步骤S220中的子带分解相对应,即将对待处理音频信号分解得到的多个子带信号进行合成,从而得到与待处理音频信号对应的目标音频信号。
上述音频信号处理方法中,通过获取待处理音频信号,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,并将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,进而根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号,由于其深度学习降噪模型是通过采样频率低于采样频率阈值的样本音频信号训练后得到的,因此,训练数据较容易获取,且极大的降低了模型的运算量,从而提高了处理效率。
在一示例性实施例中,待处理音频信号为全频带音频信号,则如图2所示,在步骤S120中,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,具体可以通过以下步骤实现:
在步骤S121中,根据设定带宽对全频带音频信号进行子带分解,得到多个子带信号。
其中,设定带宽与深度学习降噪模型的处理带宽相同,具体的,深度学习降噪模型的处理带宽是指训练模型所采用的样本采样音频信号的带宽。全频带音频信号是指频带范围或声音频率范围为全部频带的待处理音频信号。子带分解具体可以采用正交镜像滤波器(Quadrature mirror filter,简称QMF)或离散傅里叶变换(Discrete FourierTransform,简称DFT)等方式实现。在本实施例中,根据设定带宽对待处理的全频带音频信号进行子带分解,从而得到对应的多个子带信号。
在步骤S122中,对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
其中,预处理可以是对子带信号进行频域转换的处理,即将时域子带信号转换为频域子带信号。具体的,频域转换的处理可以通过快速傅里叶变换(Fast FourierTransform,简称FFT)实现。在本实施例中,通过对子带信号进行快速傅里叶变换,从而得到与该子带信号对应的能量谱。据此对每个子带信号进行快速傅里叶变换,从而获取每个子带信号分别对应的能量谱。
上述实施例通过设定带宽对待处理的全频带音频信号进行子带分解,从而得到对应的多个子带信号,进而对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱,以实现通过低采样率样本音频信号训练后得到的深度学习降噪模型处理全频带音频信号,从而节省对全频带音频信号进行处理的性能。
在一示例性实施例中,如图3所示,在步骤S240中,根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,具体可以通过以下步骤实现:
在步骤S141中,根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量。
其中,音频能量是指对音频信号进行降噪处理后得到的有用信号的能量。由于一个子带信号的能量谱是由多个频带能量组成的,因此,一个子带信号的能量谱对应的音频特征包括与该子带信号的多个频带能量一一对应的音频特征。具体的,子带信号中的一个频带能量与该频带能量对应的音频特征的乘积则为该子带信号中对应频带的音频能量。在本实施例中,获取子带信号对应的每个频带能量和与子带信号的每个频带能量一一对应的音频特征的乘积,并将乘积作为子带信号中相应频带的音频能量,从而得到多个子带信号中每一个子带信号的各频带的音频能量。
在步骤S142中,将每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号。
其中,时域子带信号是指将信号由频域转换为时域后得到的信号。具体的,将信号由频域转换为时域具体可以采用逆快速傅里叶变换(Inverse Fast Fourier Transform,简称IFFT)实现。在本实施例中,由于一个子带信号中包括多个频带的音频能量,因此,通过对一个子带信号的多个频带的音频能量进行逆快速傅里叶变换,从而得到与该个子带信号对应的时域子带信号。据此对每个子带信号分别对应的多个频带的音频能量进行逆快速傅里叶变换,从而得到多个子带信号分别对应的时域子带信号。
在步骤S143中,对多个子带信号分别对应的时域子带信号进行重建。
其中,重建可以采用采用正交镜像滤波器或离散傅里叶变换等方式实现。具体的,采用采用正交镜像滤波器或离散傅里叶变换等方式对上述多个子带信号分别对应的时域子带信号进行信号合成,从而完成对多个子带信号的重建。
上述实施例通过多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量,进而将每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号,并对多个子带信号分别对应的时域子带信号进行重建,其通过低采样率样本音频信号训练后得到的深度学习降噪模型处理子带分解后的子带信号,并对处理后的各子带信号进行合成以完成重建,使得重建后的目标信号能够具有较好的音质效果。
为了更加清楚地描述本公开所提出的音频信号处理方法的具体过程,下面以一个具体的实施例进一步来描述本公开的音频信号处理方法。如图4所示,以子带分解和重建采用正交镜像滤波器(QMF)、频域转换采用快速傅里叶变换(FFT)以时域转换采用逆快速傅里叶变换(IFFT)实现为例进行说明。具体的,待处理音频信号为采集到的高采样率的时间信号,首先通过QMF对该时间信号进行子带分解,获得k个子带信号,其中,每个子带信号的带宽与深度学习降噪模型的处理带宽相同,其中,深度学习降噪模型是通过低采样率样本音频信号训练后得到的。再对每个子带信号利用FFT获得对应子带信号的能量谱,如对于子带信号1,其对应的能量谱可以表示为:spec1(0),……,spec1(n),其中,spec1(0),……,spec1(n)分别为子带信号1的能量谱中的多个频带能量。同理,对于子带信号2,其对应的能量谱可以表示为:spec2(0),……,spec2(n),对于子带信号K,其对应的能量谱可以表示为:speck(0),……,speck(n)。
然后,将每个子带信号分别对应的各频带能量输入深度学习降噪模型进行处理(机器学习、深度学习),从而得到与每个子带信号的各频带能量一一对应的音频特征。例如,将子带信号1对应的频带能量spec1(0),……,spec1(n)输入深度学习降噪模型,从而得到与子带信号1中各频带能量一一对应的音频特征(该音频特征表示语音能量与总能量的比值系数,由机器学习或者深度学习算法计算得出):coef1(0),……,coef1(n)。同理,可以获得子带信号2中各频带能量一一对应的音频特征coef2(0),……,coef2(n),直到子带信号k中各频带能量一一对应的音频特征coefk(0),……,coefk(n)。
进而根据每个子带信号中的各频带能量以及一一对应的音频特征得到每个子带信号中各频带的音频能量。具体的,对于子带信号1来说,其对应的各频带的音频能量可以表示为:speech1(0),……,speech1(n),其中,speech1(0)为相应频带能量spec1(0)与对应的音频特征coef1(0)的乘积,即speech1(0)=spec1(0)*coef1(0)。同理,可以获得子带信号2中各频带的音频能量speech2(0),……,speech2(n),直到子带信号k中各频带的音频能量speechk(0),……,speechk(n)。
将每个子带信号中各频带的音频能量通过IFFT处理,即从频域转换回时域,从而获得相应的时域个子带信号,例如,对于子带信号1中各频带的音频能量speech1(0),……,speech1(n),通过IFFT处理后,从而获得相应的时域子带信号1,同理,对于子带信号2中各频带的音频能量speech2(0),……,speech2(n),通过IFFT处理后,从而获得相应的时域子带信号2,直到获得时域子带信号k。最后,将获得的K个时域子带信号再利用QMF进行重建,获得一个全频带的时间信号,这就是处理后的目标音频信号。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
图5是根据一示例性实施例示出的一种音频信号处理装置框图。参照图5,该装置包括获取模块501,子带分解模块502、降噪处理模块503和信号重建模块504,具体的:
获取模块501,被配置为执行获取待处理音频信号;
子带分解模块502,被配置为执行对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱;
降噪处理模块503,被配置为执行将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,所述深度学习降噪模型是通过样本采样音频信号训练后得到的;样本采样音频信号为采样频率低于采样频率阈值的样本音频信号;
信号重建模块504,被配置为执行根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频信号。
在一示例性实施例中,待处理音频信号为全频带音频信号;则子带分解模块502包括:子带分解单元,被配置为执行根据设定带宽对全频带音频信号进行子带分解,得到多个子带信号,其中,设定带宽与深度学习降噪模型的处理带宽相同;预处理单元,被配置为执行对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
在一示例性实施例中,预处理单元被配置为执行:对每个所述子带信号分别进行快速傅里叶变换,得到每个子带信号对应的能量谱。
在一示例性实施例中,信号重建模块504包括:音频能量获取单元,被配置为执行根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量;转换单元,被配置为执行将每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号;重建单元,被配置为执行对多个子带信号分别对应的时域子带信号进行重建。
在一示例性实施例中,转换单元被配置为执行:将每个子带信号的音频能量分别进行逆快速傅里叶变换,得到每个子带信号分别对应的时域子带信号。
在一示例性实施例中,子带信号的能量谱包括对应的多个频带能量,子带信号的能量谱对应的音频特征包括与所述子带信号的多个频带能量一一对应的音频特征;则音频能量获取单元被配置为执行:获取子带信号对应的每个频带能量和与子带信号的每个频带能量一一对应的音频特征的乘积,将所述乘积作为子带信号中相应频带的音频能量;得到多个子带信号中每一个子带信号的各频带的音频能量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种用于音频信号处理方法的设备Z00的框图。例如,设备Z00可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图6,设备Z00可以包括以下一个或多个组件:处理组件Z02、存储器Z04、电力组件Z06、多媒体组件Z08、音频组件Z10、输入/输出(I/O)的接口Z12、传感器组件Z14以及通信组件Z16。
处理组件Z02通常控制设备Z00的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件Z02可以包括一个或多个处理器Z20来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件Z02可以包括一个或多个模块,便于处理组件Z02和其他组件之间的交互。例如,处理组件Z02可以包括多媒体模块,以方便多媒体组件Z08和处理组件Z02之间的交互。
存储器Z04被配置为存储各种类型的数据以支持在设备Z00的操作。这些数据的示例包括用于在设备Z00上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器Z04可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。
电源组件Z06为设备Z00的各种组件提供电力。电源组件Z06可以包括电源管理系统,一个或多个电源,及其他与为设备Z00生成、管理和分配电力相关联的组件。
多媒体组件Z08包括在所述设备Z00和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件Z08包括一个前置摄像头和/或后置摄像头。当设备Z00处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件Z10被配置为输出和/或输入音频信号。例如,音频组件Z10包括一个麦克风(MIC),当设备Z00处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器Z04或经由通信组件Z16发送。在一些实施例中,音频组件Z10还包括一个扬声器,用于输出音频信号。
I/O接口Z12为处理组件Z02和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件Z14包括一个或多个传感器,用于为设备Z00提供各个方面的状态评估。例如,传感器组件Z14可以检测到设备Z00的打开/关闭状态,组件的相对定位,例如所述组件为设备Z00的显示器和小键盘,传感器组件Z14还可以检测设备Z00或设备Z00一个组件的位置改变,用户与设备Z00接触的存在或不存在,设备Z00方位或加速/减速和设备Z00的温度变化。传感器组件Z14可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件Z14还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件Z14还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件Z16被配置为便于设备Z00和其他设备之间有线或无线方式的通信。设备Z00可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件Z16经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件Z16还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备Z00可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器Z04,上述指令可由设备Z00的处理器Z20执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种音频信号处理方法,其特征在于,包括:
获取待处理音频信号;
对所述待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱;
将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,所述深度学习降噪模型是通过样本采样音频信号训练后得到的;所述样本采样音频信号为采样频率低于采样频率阈值的样本音频信号;
根据所述各子带信号的能量谱对应的音频特征对所述各子带信号进行重建,得到目标音频信号。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述待处理音频信号为全频带音频信号;所述对所述待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,包括:
根据设定带宽对所述全频带音频信号进行子带分解,得到多个子带信号,所述设定带宽与所述深度学习降噪模型的处理带宽相同;
对所述多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
3.根据权利要求2所述的音频信号处理方法,其特征在于,所述对所述多个子带信号进行预处理,获取每个子带信号分别对应的能量谱,包括:
对每个所述子带信号分别进行快速傅里叶变换,得到每个所述子带信号对应的能量谱。
4.根据权利要求1所述的音频信号处理方法,其特征在于,所述根据所述各子带信号的能量谱对应的音频特征对所述各子带信号进行重建,包括:
根据所述多个子带信号分别对应的能量谱以及所述各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量;
将所述每个子带信号的音频能量转换为时域子带信号,获得多个子带信号分别对应的时域子带信号;
对所述多个子带信号分别对应的时域子带信号进行重建。
5.根据权利要求4所述的音频信号处理方法,其特征在于,所述将所述每个子带信号的音频能量转换为时域子带信号,包括:
将所述每个子带信号的音频能量分别进行逆快速傅里叶变换,得到所述每个子带信号分别对应的时域子带信号。
6.根据权利要求4所述的音频信号处理方法,其特征在于,所述子带信号的能量谱包括对应的多个频带能量,所述子带信号的能量谱对应的音频特征包括与所述子带信号的多个频带能量一一对应的音频特征;所述根据所述多个子带信号分别对应的能量谱以及所述各子带信号的能量谱对应的音频特征,获取每个子带信号的音频能量,包括:
获取所述子带信号对应的每个频带能量和与所述子带信号的每个频带能量一一对应的音频特征的乘积,将所述乘积作为所述子带信号中相应频带的音频能量;
得到多个子带信号中每一个子带信号的各频带的音频能量。
7.一种音频信号处理装置,其特征在于,包括:
获取模块,被配置为执行获取待处理音频信号;
子带分解模块,被配置为执行对所述待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱;
降噪处理模块,被配置为执行将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,所述深度学习降噪模型是通过样本采样音频信号训练后得到的;所述样本采样音频信号为采样频率低于采样频率阈值的样本音频信号;
信号重建模块,被配置为执行根据所述各子带信号的能量谱对应的音频特征对所述各子带信号进行重建,得到目标音频信号。
8.根据权利要求7所述的音频信号处理装置,其特征在于,所述待处理音频信号为全频带音频信号;所述子带分解模块包括:
子带分解单元,被配置为执行根据设定带宽对所述全频带音频信号进行子带分解,得到多个子带信号,所述设定带宽与所述深度学习降噪模型的处理带宽相同;
预处理单元,被配置为执行对所述多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的音频信号处理方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的音频信号处理方法。
CN202010427008.1A 2020-05-19 2020-05-19 音频信号处理方法、装置、电子设备及存储介质 Active CN111583958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010427008.1A CN111583958B (zh) 2020-05-19 2020-05-19 音频信号处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010427008.1A CN111583958B (zh) 2020-05-19 2020-05-19 音频信号处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111583958A true CN111583958A (zh) 2020-08-25
CN111583958B CN111583958B (zh) 2023-10-10

Family

ID=72113858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010427008.1A Active CN111583958B (zh) 2020-05-19 2020-05-19 音频信号处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111583958B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450755A (zh) * 2021-04-30 2021-09-28 青岛海尔科技有限公司 降低噪声的方法、装置、存储介质及电子装置
CN117153178A (zh) * 2023-10-26 2023-12-01 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1988395A (zh) * 2006-11-02 2007-06-27 中山大学 一种基于通信设备客户端的音频去噪方法
US20080162123A1 (en) * 2007-01-03 2008-07-03 Alexander Goldin Two stage frequency subband decomposition
CN103337245A (zh) * 2013-06-18 2013-10-02 北京百度网讯科技有限公司 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN103871421A (zh) * 2014-03-21 2014-06-18 厦门莱亚特医疗器械有限公司 一种基于子带噪声分析的自适应降噪方法与系统
CN106463106A (zh) * 2014-07-14 2017-02-22 英特尔Ip公司 用于音频接收的风噪声降低
CN106710601A (zh) * 2016-11-23 2017-05-24 合肥华凌股份有限公司 一种语音信号降噪拾音处理方法和装置及冰箱
CN110136737A (zh) * 2019-06-18 2019-08-16 北京拙河科技有限公司 一种语音降噪方法及装置
CN110222781A (zh) * 2019-06-12 2019-09-10 成都嗨翻屋科技有限公司 音频去噪方法、装置、用户终端及存储介质
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110970044A (zh) * 2019-11-27 2020-04-07 武汉大学 一种面向语音识别的语音增强方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1988395A (zh) * 2006-11-02 2007-06-27 中山大学 一种基于通信设备客户端的音频去噪方法
US20080162123A1 (en) * 2007-01-03 2008-07-03 Alexander Goldin Two stage frequency subband decomposition
CN103337245A (zh) * 2013-06-18 2013-10-02 北京百度网讯科技有限公司 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN103871421A (zh) * 2014-03-21 2014-06-18 厦门莱亚特医疗器械有限公司 一种基于子带噪声分析的自适应降噪方法与系统
CN106463106A (zh) * 2014-07-14 2017-02-22 英特尔Ip公司 用于音频接收的风噪声降低
CN106710601A (zh) * 2016-11-23 2017-05-24 合肥华凌股份有限公司 一种语音信号降噪拾音处理方法和装置及冰箱
CN110222781A (zh) * 2019-06-12 2019-09-10 成都嗨翻屋科技有限公司 音频去噪方法、装置、用户终端及存储介质
CN110136737A (zh) * 2019-06-18 2019-08-16 北京拙河科技有限公司 一种语音降噪方法及装置
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110970044A (zh) * 2019-11-27 2020-04-07 武汉大学 一种面向语音识别的语音增强方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450755A (zh) * 2021-04-30 2021-09-28 青岛海尔科技有限公司 降低噪声的方法、装置、存储介质及电子装置
CN117153178A (zh) * 2023-10-26 2023-12-01 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备和存储介质
CN117153178B (zh) * 2023-10-26 2024-01-30 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111583958B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN111009256B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN108198569B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN111128221B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN111009257B (zh) 一种音频信号处理方法、装置、终端及存储介质
CN112185389A (zh) 语音生成方法、装置、存储介质和电子设备
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
CN111402917B (zh) 音频信号处理方法及装置、存储介质
CN111899760B (zh) 音频事件的检测方法、装置、电子设备及存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
CN110890083A (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN111583958B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN110931028B (zh) 一种语音处理方法、装置和电子设备
CN115273831A (zh) 语音转换模型训练方法、语音转换方法和装置
CN114566180A (zh) 一种语音处理方法、装置和用于处理语音的装置
CN114333804B (zh) 音频分类识别方法、装置、电子设备及存储介质
CN107437412B (zh) 一种声学模型处理方法、语音合成方法、装置及相关设备
CN111933171B (zh) 降噪方法及装置、电子设备、存储介质
CN110148424B (zh) 语音处理方法、装置、电子设备及存储介质
CN112201267A (zh) 一种音频处理方法、装置、电子设备及存储介质
CN110580910B (zh) 一种音频处理方法、装置、设备及可读存储介质
CN112951202B (zh) 语音合成方法、装置、电子设备以及程序产品
CN111667842B (zh) 音频信号处理方法及装置
CN117642817A (zh) 识别音频数据类别的方法、装置及存储介质
CN113362848B (zh) 音频信号处理方法、装置及存储介质
CN111063365B (zh) 一种语音处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant