CN110931035A - 音频处理方法、装置、设备及存储介质 - Google Patents

音频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110931035A
CN110931035A CN201911252463.6A CN201911252463A CN110931035A CN 110931035 A CN110931035 A CN 110931035A CN 201911252463 A CN201911252463 A CN 201911252463A CN 110931035 A CN110931035 A CN 110931035A
Authority
CN
China
Prior art keywords
signal
noise signal
audio frame
harmonic
target audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911252463.6A
Other languages
English (en)
Other versions
CN110931035B (zh
Inventor
肖纯智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201911252463.6A priority Critical patent/CN110931035B/zh
Publication of CN110931035A publication Critical patent/CN110931035A/zh
Application granted granted Critical
Publication of CN110931035B publication Critical patent/CN110931035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请公开了一种音频处理方法、装置、设备及存储介质,属于计算机和互联网技术领域,所述方法包括:获取目标音频帧的基音频率;根据基音频率,确定谐波信号;根据目标音频帧和谐波信号,确定噪声信号;对噪声信号进行衰减,得到衰减后的噪声信号;根据衰减后的噪声信号和谐波信号,重构目标音频帧。本申请实施例提供的技术方案,实现了一种音频处理方法;并且噪声信号是基于音频帧和谐波信号确定的,可以确保所确定的噪声信号较为准确;此外,在进行音频处理时,是单独对噪声信号进行衰减,从而只降低了音频帧的无用成分噪声信号,而不会降低音频帧的有效成分谐波信号,从而准确有效地增强了音频帧中的有效成分。

Description

音频处理方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机和互联网技术领域,特别涉及一种音频处理方法、装置、设备及存储介质。
背景技术
随着移动终端技术的迭代更新,人们对移动终端的要求越来越高。通信是移动终端的重要应用,在通信过程中如何降低语音信号的噪声干扰,增强语音信号中的有效信号,以提升通信质量,是移动终端迫切需要解决的一个问题。
对语音信号进行数字信号处理是增强语音信号的重要手段。数字信号处理的方式包括单通道语音增强,主要有谱减法、维纳滤波法、自适应滤波法,等等,在这些方式中,对语音信号的处理通常是先将语音信号变换到频域上,然后在频域上对语音信号做减法,具体包括:估计出噪声,然后根据噪声算出增益,接着根据增益模型算法算出语音信号在每个频点的衰减值,最后与频域上的语音信号相乘得到增强后的语音信号。
相关技术基于噪声的估计来增强语音信号,由于噪声估计的误差存在较大的不确定性,因此相关技术无法对语音信号准确增强。
发明内容
本申请实施例提供了一种音频处理方法、装置、设备及存储介质,可用于解决相关技术中由于噪声估计的误差存在较大的不确定性,从而相关技术无法对语音信号准确增强的技术问题。所述技术方案如下:
一方面,本申请实施例提供了一种音频处理方法,所述方法包括:
获取目标音频帧的基音频率,所述基音频率是指所述目标音频帧的一次谐波分量的频率;
根据所述基音频率,确定谐波信号;
根据所述目标音频帧和所述谐波信号,确定噪声信号;
对所述噪声信号进行衰减,得到衰减后的噪声信号;
根据所述衰减后的噪声信号和所述谐波信号,重构所述目标音频帧。
另一方面,本申请实施例提供了一种音频处理装置,所述装置包括:
基音频率获取模块,用于获取目标音频帧的基音频率,所述基音频率是指所述目标音频帧的一次谐波分量的频率;
谐波信号确定模块,用于根据所述基音频率,确定谐波信号;
噪声信号确定模块,用于根据所述目标音频帧和所述谐波信号,确定噪声信号;
噪声信号衰减模块,用于对所述噪声信号进行衰减,得到衰减后的噪声信号;
音频帧重构模块,用于根据所述衰减后的噪声信号和所述谐波信号,重构所述目标音频帧。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述音频处理方法。
再一方面,本申请实施例提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频处理方法。
还一方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述音频处理方法。
本申请实施例提供的技术方案,通过获取音频帧的基音频率,根据基音频率确定谐波信号,然后根据谐波信号和音频帧,确定噪声信号,再对噪声信号进行衰减,并根据衰减后的噪声信号与谐波信号,重构音频帧。本申请实施例中,噪声信号是基于音频帧和谐波信号确定的,而谐波信号是基于音频帧的基音频率确定的,且该谐波信号可以较好地拟合音频帧的时域波形,所以可以确保所确定的噪声信号较为准确。此外,本申请实施例中,在进行音频处理时,是单独对噪声信号进行衰减,从而只降低了音频帧的无用成分噪声信号,而不会降低音频帧的有效成分谐波信号,从而准确有效地增强了音频帧中的有效成分。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的音频处理方法的流程图;
图2是本申请一实施例提供的音频处理装置的框图;
图3是本申请另一实施例提供的音频处理装置的框图;
图4是本申请一实施例提供的终端的结构框图;
图5是本申请一实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种音频处理方法,该方法可以由计算机设备实现。计算机设备是指具备对数据进行处理功能的设备,如具有计算能力的服务器,或者是诸如手机、平板电脑、多媒体播放设备、可穿戴设备等终端,还可以是其他计算机设备。可选地,当计算机设备为服务器时,该计算机设备可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。为了便于描述,在下述方法示例中,仅以计算机设备为终端进行举例说明,本领域技术人员在了解了本申请的技术方案后,将很容易想到其它可替代的技术方案,如计算机设备为服务器,但均应属于本申请的保护范围内。
终端可以包括处理器、存储器等部件。可选地,处理器,可以为CPU(CentralProcessing Unit,中央处理单元)等,可以用于对音频信号中的每个音频帧进行音高提取,得到每个音频帧对应的基音频率,等处理;存储器,可以为RAM(Random Access Memory,随机存取存储器),Flash(闪存)等,可以用于存储数据、处理过程所需的数据、处理过程中生成的数据等,如音频。
终端还可以包括收发器、输入部件、显示部件、音频输出部件等。收发器,可以用于与服务器进行数据传输。可选地,收发器可以包括蓝牙部件、WiFi(Wireless-Fidelity,无线高保真技术)部件、天线、匹配电路、调制解调器等;输入部件可以是触摸屏、键盘、鼠标等;音频输出部件可以是音箱、耳机等。
请参考图1,其示出了本申请一实施例提供的音频处理方法的流程图,该方法可以包括如下几个步骤(110~150):
步骤110,获取目标音频帧的基音频率。
目标音频帧是目标音频数据的分帧信号。本申请实施例中,在对目标音频数据处理之前,可以先对目标音频数据进行分帧,以得到多个目标音频帧,然后对多个目标音频帧分别进行处理。通过分帧,可以使得终端对较大的音频数据进行分段处理,提升终端进行音频处理的速度。可选地,目标音频数据可以是人声音频,也可以是伴奏声音频等,本申请对此不作限定。为了便于描述,本申请实施例仅以人声音频为例进行举例说明。
人声音频,即声音,通常是由发音体发出的一系列频率、振幅各不相同的振动复合而成的,这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。基音频率,即基音的振动频率。可选地,目标音频帧可以看作是包含多个谐波分量的谐波信号与噪声信号的结合,则基音频率为目标音频帧的一次谐波分量的频率。
在一种可能的实施方式中,上述步骤110包括:获取目标音频帧;对目标音频帧进行音高提取,得到基音频率。
音高是指各种不同高低的声音,即音的高度,表示人耳对声音调子高低的主观感受。音高由基音频率决定,两者成正比关系。终端在获取目标音频帧之后,可以采用音高提取算法对目标音频帧进行音高提取,进而根据音高得到目标音频帧的基音频率。可选地,终端通过音高提取算法提取出的音高,为目标音频帧的平均音高;终端根据音高得到的基音频率,为目标音频帧的基音的平均频率。可选地,音高提取算法包括:自相关函数法、倒谱法和将自相关函数法和倒谱法相结合的YIN算法等。
步骤120,根据基音频率,确定谐波信号。
终端获取到基音频率后,即可根据基音频率确定包含多次谐波分量的谐波信号。由于基音频率为目标音频帧的一次谐波分量的频率,根据一次谐波分量的频率,可以得到高次谐波分量的频率,如二次谐波分量、三次谐波分量等,根据目标音频帧的各次谐波分量的频率,可以估计出拟合目标音频帧的信号波形最好的各次谐波分量的振幅和相位,从而可以确定谐波信号。
在一种可能的实施方式中,上述步骤120包括如下几个步骤:
(1)根据基音频率,确定目标音频帧的谐波分量的数量n,n为大于1的整数。
由于人声音频初始为模拟声音波形,为了便于处理,需要对人声音频进行数字化,即将模拟声音波形转换为数字声音波形,在转换时首先需要确定谐波分量的数量n。可选地,终端在确定基音频率后,可以根据奈奎斯特采样定理确定目标音频帧的谐波分量的数量n。例如,终端根据基音频率,确定目标音频帧的谐波分量的数量n的公式如下:
Figure BDA0002309402770000051
其中,f0为目标音频帧的基音频率;fs为采样频率。采样频率是指将模拟声音波形转换为数字声音波形时,每秒抽取模拟声音波形幅度样本的次数,可选地,采样频率可以为8KHz(千赫兹)、11.025KHz、16KHz、22.05KHz、37.8KHz、44.1KHz、48KHz等,本申请实施例对此不作限定,实际应用中可以保真程度的需求确定具体的采样频率,例如,为了保证不失真,采样频率可以设置在40kHz。
(2)根据目标音频帧,构建目标函数。
目标函数用于确定使得噪声信号最小的谐波信号。目标音频帧的时域信号可以分解为谐波信号和噪声信号,目标函数中已知目标音频帧的时域信号,确定使得噪声信号最小的谐波信号即为目标函数构建的目的。例如,终端根据目标音频帧,确定目标函数的公式如下:
Figure BDA0002309402770000052
其中,T为目标音频帧的帧长;s(t)为目标音频帧的时域信号,该时域信号可以分解为谐波信号和噪声信号;sh(t)为目标音频帧的谐波信号;w2(t)为汉明窗(hanming),在目标函数中添加这w2(t)一分量是为了对目标函数进行加窗处理,即一次只处理汉明窗对应的区间范围内的数据,这样可以加快对目标音频帧的处理速度;Cl为谐波信号的复幅值,通过该复幅值可以确定谐波信号的实幅度和实相位;argmin为求解使得表达式w2(t)[s(t)-sh(t)]2取最小值时的变量值,上述公式中,谐波信号的复幅值Cl即为变量值。
(3)根据最小二乘法和目标函数,估计谐波信号的复幅值。
最小二乘法,又称为最小平方法,用于最小化误差的平方和以寻找数据的最佳函数匹配。本申请实施例中,利用最小二乘法则可以较为简便地求取出谐波信号的复幅值Cl,并使得求解出的复幅值Cl与实际复幅值之间的误差的平方和最小。例如,终端根据最小二乘法和目标函数,估计出的复幅值Cl的表达式如下:
{Cl,l=-n,-n+1,…,n}
其中,{Cl}表示谐波信号的一组复幅值,由于谐波信号中有n个谐波分量,每个谐波分量对应有一个复幅值,因此这里确定的是一组复幅值{Cl}。
(4)根据复幅值,确定谐波信号的实幅度和谐波信号的实相位。
复幅值是用于确定实幅度和实相位的,因此根据上述步骤求解出的谐波信号的一组复幅值,可以确定谐波信号的一组实幅度和谐波信号的一组实相位。例如,终端根据复幅值,确定的谐波信号的实幅度和谐波信号的实相位的表达式分别如下:
{Al,Al=2|Cl|=2|C-l|}
Figure BDA0002309402770000061
其中,{Al}表示谐波信号的一组实幅度;
Figure BDA0002309402770000062
表示谐波信号的一组实相位;|Cl|为对复幅值Cl进行取模操作;
Figure BDA0002309402770000063
表示计算复幅值C-l的幅角,即本申请实施例中,实幅度
Figure BDA0002309402770000064
为复幅值C-l的幅角。
(5)对实幅度、实相位和数量n进行线性插值,得到谐波信号的幅度时变值、谐波信号的相位时变值和谐波信号的数量时变值。
由于实际的音频信号波形千变万化,不便于分析,因此本申请实施例计算出实幅度和实相位之后,采取线性插值的方式,得到与实际近似的实幅度和实相位对应的时变值,这样既便于终端对目标音频帧进行分析处理,又确保分析结果的准确性。例如,终端根据实幅度、实相位和数量n,进行线性插值,得到的幅度时变值、相位时变值和数量时变值的表达式分别如下:
Figure BDA0002309402770000065
Figure BDA0002309402770000066
Figure BDA0002309402770000067
其中,Al(kT+m)为幅度时变值;
Figure BDA0002309402770000071
为相位时变值;n(t)为数量时变值;表示进行四舍五入操作。假设wl为第l次谐波的角频率,则表达式
Figure BDA0002309402770000072
中的多项式差值系数分别为:
Figure BDA0002309402770000073
Figure BDA0002309402770000074
Figure BDA0002309402770000075
Figure BDA0002309402770000076
(6)根据幅度时变值、相位时变值和数量时变值,确定谐波信号。
本申请实施例中,终端确定的谐波信号为时域上的谐波信号,则终端根据谐波信号的幅度时变值、相位时变值和数量时变值,即可确定谐波信号的表达式。例如,终端确定的谐波信号如下:
Figure BDA0002309402770000077
步骤130,根据目标音频帧和谐波信号,确定噪声信号。
由于目标音频帧的时域信号可以分解为谐波信号和噪声信号,且目标音频帧的时域信号已知,从而终端在确定了谐波信号后,即可计算目标音频帧的噪声信号。可选地,目标音频帧的噪声信号可以由时域信号减去谐波信号得到。例如,终端确定的噪声信号的表达式如下所示:
Figure BDA0002309402770000078
步骤140,对噪声信号进行衰减,得到衰减后的噪声信号。
噪声信号是会对目标音频数据的分析处理造成干扰的信号,噪声信号是由目标音频在生成过程中夹杂的噪声所形成的信号,例如,在通信场景中,终端根据人们的对话会生成目标音频,因为人们通话时所处环境可能存在噪声,因此终端生成的目标音频中不可避免会夹杂人们所处环境中的噪声所形成的信号。这时,就需要对噪声信号进行衰减,以降低噪声信号在目标音频帧的时域信号中的占比,从而降低信噪比,达到对目标音频中谐波信号对应的有效信息进行增强的目的。
在一种可能的实施方式中,上述步骤140包括如下几个步骤:
(1)确定噪声信号的衰减系数。
本申请实施例中,终端对噪声信号的衰减处理是基于衰减系数的,且衰减系数的取值小于1。可选地,该衰减系数可以是预先设定的系数,如0.2;也可以是终端在分析处理目标音频帧的过程中,根据噪声信号和谐波信号的当前情况实时确定,例如,根据噪声信号在时域信号中的占比情况实时确定,如当前情况下,噪声信号在时域信号中的占比为20%,则确定衰减系数为0.15。
可选地,上述确定噪声信号的衰减系数,包括:根据谐波信号和噪声信号,确定信噪比;根据信噪比,确定衰减系数。信噪比是信号中的有效成分与噪声成分的比例关系参数,本申请实施例中,信号中的有效成分为目标音频帧的谐波信号,噪声成分为目标音频帧的噪声信号,则信噪比为该谐波信号与该噪声信号的比例关系参数。终端计算出信噪比之后,即可根据该信噪比确定衰减系数,可选地,信噪比与衰减系数之间存在对应关系,即终端可以预先确定信噪比与衰减系数之间的对应关系,在计算出信噪比之后,查询该对应关系,即可确定衰减系数的大小,例如,假设终端预先确定信噪比为10dB~12dB时对应衰减系数为0.2,信噪比为12dB~14dB时衰减系数为0.4,信噪比为14dB~16dB时衰减系数为0.6,若终端根据谐波信号和噪声信号计算出的信噪比为13.5,则终端确定衰减系数为0.4。
(2)根据衰减系数,对噪声信号进行衰减,得到衰减后的噪声信号。
终端确定衰减系数后,可以根据该衰减系数对噪声信号进行衰减。由于本申请实施例中,噪声信号是在时域上的,所以终端对噪声信号的衰减,可以直接使用噪声信号与衰减系数相乘,从而达到降低噪声信号的幅值,以达到对噪声信号衰减的目的。
步骤150,根据衰减后的噪声信号和谐波信号,重构目标音频帧。
基于上述谐波信号和噪声信号的求解,可以得出噪声信号是目标音频帧的时域信号减去谐波信号得到的信号,从而终端在对噪声信号单独进行衰减后,将衰减后的噪声信号与谐波信号相加,即可得到新的时域信号,以达到重构目标音频帧、增强谐波信号的目的。
需要说明的一点是,本领域技术人员在了解了本申请的技术方案后,将很容易想到其它技术方案,例如,在不考虑计算复杂度和音频处理效率的情况下,终端在得到噪声信号后,可以先提取噪声信号的参数,然后对噪声信号的参数进行衰减,再利用衰减后的参数与谐波信号的参数,重构目标音频帧,但均应属于本申请的保护范围内。
综上所述,本申请实施例提供的技术方案,通过获取音频帧的基音频率,根据基音频率确定谐波信号,然后根据谐波信号和音频帧,确定噪声信号,再对噪声信号进行衰减,并根据衰减后的噪声信号与谐波信号,重构音频帧。本申请实施例中,噪声信号是基于音频帧和谐波信号确定的,而谐波信号是基于音频帧的基音频率确定的,且该谐波信号可以较好地拟合音频帧的时域波形,所以可以确保所确定的噪声信号较为准确。此外,本申请实施例中,在进行音频处理时,是单独对噪声信号进行衰减,从而只降低了音频帧的无用成分噪声信号,而不会降低音频帧的有效成分谐波信号,从而准确有效地增强了音频帧中的有效成分。
并且,本申请实施例提供的技术方案,通过根据衰减系数对噪声信号进行衰减,从而提供了一种衰减噪声信号的具体实施方式。并且,本申请实施例中,衰减系数是根据音频帧的信噪比来确定的,可以实现根据音频数据的具体情况和应用中的实际需求,灵活确定衰减系数。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图2,其示出了本申请一个实施例提供的音频处理装置的框图。该装置200具有实现上述方法实施例的功能,该功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置200可以是上文介绍的计算机设备,如终端。该装置200可以包括:基音频率获取模块210、谐波信号确定模块220、噪声信号确定模块230、噪声信号衰减模块240和音频帧重构模块250。
基音频率获取模块210,用于获取目标音频帧的基音频率,所述基音频率是指所述目标音频帧的一次谐波分量的频率。
谐波信号确定模块220,用于根据所述基音频率,确定谐波信号。
噪声信号确定模块230,用于根据所述目标音频帧和所述谐波信号,确定噪声信号。
噪声信号衰减模块240,用于对所述噪声信号进行衰减,得到衰减后的噪声信号。
音频帧重构模块250,用于根据所述衰减后的噪声信号和所述谐波信号,重构所述目标音频帧。
可选地,如图3所示,所述噪声信号衰减模块240,包括:衰减系数确定子模块242,用于确定所述噪声信号的衰减系数;噪声信号衰减子模块244,用于根据所述衰减系数,对所述噪声信号进行衰减,得到所述衰减后的噪声信号。
可选地,如图3所示,所述衰减系数确定子模块242,用于:根据所述谐波信号和所述噪声信号,确定信噪比;根据所述信噪比,确定所述衰减系数。
可选地,所述基音频率获取模块210,用于:获取所述目标音频帧,所述目标音频帧是目标音频数据的分帧信号;对所述目标音频帧进行音高提取,得到所述基音频率。
可选地,所述谐波信号确定模块220,用于:根据所述基音频率,确定所述目标音频帧的谐波分量的数量n,所述n为大于1的整数;根据所述目标音频帧,构建目标函数,所述目标函数用于确定使得所述噪声信号最小的所述谐波信号;根据最小二乘法和所述目标函数,估计所述谐波信号的复幅值;根据所述复幅值,确定所述谐波信号的实幅度和所述谐波信号的实相位;对所述实幅度、所述实相位和所述数量n进行线性插值,得到所述谐波信号的幅度时变值、所述谐波信号的相位时变值和所述谐波信号的数量时变值;根据所述幅度时变值、所述相位时变值和所述数量时变值,确定所述谐波信号。
综上所述,本申请实施例提供的技术方案,通过获取音频帧的基音频率,根据基音频率确定谐波信号,然后根据谐波信号和音频帧,确定噪声信号,再对噪声信号进行衰减,并根据衰减后的噪声信号与谐波信号,重构音频帧。本申请实施例中,噪声信号是基于音频帧和谐波信号确定的,而谐波信号是基于音频帧的基音频率确定的,且该谐波信号可以较好地拟合音频帧的时域波形,所以可以确保所确定的噪声信号较为准确。此外,本申请实施例中,在进行音频处理时,是单独对噪声信号进行衰减,从而只降低了音频帧的无用成分噪声信号,而不会降低音频帧的有效成分谐波信号,从而准确有效地增强了音频帧中的有效成分。
并且,本申请实施例提供的技术方案,通过根据衰减系数对噪声信号进行衰减,从而提供了一种衰减噪声信号的具体实施方式。并且,本申请实施例中,衰减系数是根据音频帧的信噪比来确定的,可以实现根据音频数据的具体情况和应用中的实际需求,灵活确定衰减系数。
需要说明的是,本申请实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图4,其示出了本申请一个实施例提供的终端400的结构框图。该终端400可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。该终端用于实施上述实施例中提供的音频处理方法。具体来讲:
通常,终端400包括有:处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集,且经配置以由一个或者一个以上处理器执行,以实现上述音频处理方法。
在一些实施例中,终端400还可选包括有:外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地,外围设备包括:射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。
本领域技术人员可以理解,图4中示出的结构并不构成对终端400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
请参考图5,其示出了本申请实施例提供的服务器的结构框图。该服务器可以用于实施上述实施例中提供的音频处理方法。具体来讲:
该服务器500包括处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)等)501、包括RAM(Random-Access Memory,随机存储器)502和ROM(Read-Only Memory,只读存储器)503的系统存储器504,以及连接系统存储器504和中央处理单元501的系统总线508。该服务器500还包括帮助服务器内的各个器件之间传输信息的I/O系统(Input Output System,基本输入/输出系统)506,和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。
该I/O系统506包括有用于显示信息的显示器505和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中,该显示器505和输入设备509都通过连接到系统总线508的输入输出控制器510连接到中央处理单元501。该I/O系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。该大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说,该大容量存储设备507可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。
根据本申请实施例,该服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在该系统总线508上的网络接口单元511连接到网络512,或者说,也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。
该存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述音频处理方法。
在示例性实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频处理方法。
在示例性实施例中,还提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述音频处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种音频处理方法,其特征在于,所述方法包括:
获取目标音频帧的基音频率,所述基音频率是指所述目标音频帧的一次谐波分量的频率;
根据所述基音频率,确定谐波信号;
根据所述目标音频帧和所述谐波信号,确定噪声信号;
对所述噪声信号进行衰减,得到衰减后的噪声信号;
根据所述衰减后的噪声信号和所述谐波信号,重构所述目标音频帧。
2.根据权利要求1所述的方法,其特征在于,所述对所述噪声信号进行衰减,得到衰减后的噪声信号,包括:
确定所述噪声信号的衰减系数;
根据所述衰减系数,对所述噪声信号进行衰减,得到所述衰减后的噪声信号。
3.根据权利要求2所述的方法,其特征在于,所述确定所述噪声信号的衰减系数,包括:
根据所述谐波信号和所述噪声信号,确定信噪比;
根据所述信噪比,确定所述衰减系数。
4.根据权利要求1所述的方法,其特征在于,所述获取目标音频帧的基音频率,包括:
获取所述目标音频帧,所述目标音频帧是目标音频数据的分帧信号;
对所述目标音频帧进行音高提取,得到所述基音频率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述基音频率,确定谐波信号,包括:
根据所述基音频率,确定所述目标音频帧的谐波分量的数量n,所述n为大于1的整数;
根据所述目标音频帧,构建目标函数,所述目标函数用于确定使得所述噪声信号最小的所述谐波信号;
根据最小二乘法和所述目标函数,估计所述谐波信号的复幅值;
根据所述复幅值,确定所述谐波信号的实幅度和所述谐波信号的实相位;
对所述实幅度、所述实相位和所述数量n进行线性插值,得到所述谐波信号的幅度时变值、所述谐波信号的相位时变值和所述谐波信号的数量时变值;
根据所述幅度时变值、所述相位时变值和所述数量时变值,确定所述谐波信号。
6.一种音频处理装置,其特征在于,所述装置包括:
基音频率获取模块,用于获取目标音频帧的基音频率,所述基音频率是指所述目标音频帧的一次谐波分量的频率;
谐波信号确定模块,用于根据所述基音频率,确定谐波信号;
噪声信号确定模块,用于根据所述目标音频帧和所述谐波信号,确定噪声信号;
噪声信号衰减模块,用于对所述噪声信号进行衰减,得到衰减后的噪声信号;
音频帧重构模块,用于根据所述衰减后的噪声信号和所述谐波信号,重构所述目标音频帧。
7.根据权利要求6所述的装置,其特征在于,所述噪声信号衰减模块,包括:
衰减系数确定子模块,用于确定所述噪声信号的衰减系数;
噪声信号衰减子模块,用于根据所述衰减系数,对所述噪声信号进行衰减,得到所述衰减后的噪声信号。
8.根据权利要求7所述的装置,其特征在于,所述衰减系数确定子模块,用于:
根据所述谐波信号和所述噪声信号,确定信噪比;
根据所述信噪比,确定所述衰减系数。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的音频处理方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的音频处理方法。
CN201911252463.6A 2019-12-09 2019-12-09 音频处理方法、装置、设备及存储介质 Active CN110931035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252463.6A CN110931035B (zh) 2019-12-09 2019-12-09 音频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252463.6A CN110931035B (zh) 2019-12-09 2019-12-09 音频处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110931035A true CN110931035A (zh) 2020-03-27
CN110931035B CN110931035B (zh) 2023-10-10

Family

ID=69858530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252463.6A Active CN110931035B (zh) 2019-12-09 2019-12-09 音频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110931035B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112086104A (zh) * 2020-08-18 2020-12-15 珠海市杰理科技股份有限公司 音频信号的基频获取方法、装置、电子设备和存储介质
CN112185410A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112309417A (zh) * 2020-10-22 2021-02-02 瓴盛科技有限公司 风噪抑制的音频信号处理方法、装置、系统和可读介质
WO2022127476A1 (zh) * 2020-12-14 2022-06-23 展讯通信(上海)有限公司 谐波消除方法及装置、存储介质、终端

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133013A (en) * 1988-01-18 1992-07-21 British Telecommunications Public Limited Company Noise reduction by using spectral decomposition and non-linear transformation
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US20110015923A1 (en) * 2008-03-20 2011-01-20 Huawei Technologies Co., Ltd. Method and apparatus for generating noises
US20130262098A1 (en) * 2012-03-27 2013-10-03 Gwangju Institute Of Science And Technology Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
US20150078571A1 (en) * 2013-09-17 2015-03-19 Lukasz Kurylo Adaptive phase difference based noise reduction for automatic speech recognition (asr)
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107430850A (zh) * 2015-02-06 2017-12-01 弩锋股份有限公司 确定谐波信号的特征
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
CN107833579A (zh) * 2017-10-30 2018-03-23 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133013A (en) * 1988-01-18 1992-07-21 British Telecommunications Public Limited Company Noise reduction by using spectral decomposition and non-linear transformation
US20080243496A1 (en) * 2005-01-21 2008-10-02 Matsushita Electric Industrial Co., Ltd. Band Division Noise Suppressor and Band Division Noise Suppressing Method
US20110015923A1 (en) * 2008-03-20 2011-01-20 Huawei Technologies Co., Ltd. Method and apparatus for generating noises
US20130262098A1 (en) * 2012-03-27 2013-10-03 Gwangju Institute Of Science And Technology Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
US20150078571A1 (en) * 2013-09-17 2015-03-19 Lukasz Kurylo Adaptive phase difference based noise reduction for automatic speech recognition (asr)
CN107430850A (zh) * 2015-02-06 2017-12-01 弩锋股份有限公司 确定谐波信号的特征
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107833579A (zh) * 2017-10-30 2018-03-23 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112086104A (zh) * 2020-08-18 2020-12-15 珠海市杰理科技股份有限公司 音频信号的基频获取方法、装置、电子设备和存储介质
CN112086104B (zh) * 2020-08-18 2022-04-29 珠海市杰理科技股份有限公司 音频信号的基频获取方法、装置、电子设备和存储介质
CN112185410A (zh) * 2020-10-21 2021-01-05 北京猿力未来科技有限公司 音频处理方法及装置
CN112185410B (zh) * 2020-10-21 2024-04-30 北京猿力未来科技有限公司 音频处理方法及装置
CN112309417A (zh) * 2020-10-22 2021-02-02 瓴盛科技有限公司 风噪抑制的音频信号处理方法、装置、系统和可读介质
CN112309417B (zh) * 2020-10-22 2023-07-07 瓴盛科技有限公司 风噪抑制的音频信号处理方法、装置、系统和可读介质
WO2022127476A1 (zh) * 2020-12-14 2022-06-23 展讯通信(上海)有限公司 谐波消除方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN110931035B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN110931035B (zh) 音频处理方法、装置、设备及存储介质
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
KR20120116442A (ko) 노이즈 억제 시스템을 위한 왜곡 측정
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) Reducing octave errors during pitch determination for noisy audio signals
US8498429B2 (en) Acoustic correction apparatus, audio output apparatus, and acoustic correction method
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
US9208794B1 (en) Providing sound models of an input signal using continuous and/or linear fitting
CN112489670A (zh) 时延估计方法、装置、终端设备和计算机可读存储介质
CN112055284B (zh) 回声消除方法及神经网络的训练方法、装置、介质、设备
CN112951263B (zh) 语音增强方法、装置、设备和存储介质
CN112669878B (zh) 声音增益值的计算方法、装置和电子设备
CN111739544A (zh) 语音处理方法、装置、电子设备及存储介质
CN109639907A (zh) 用于处理信息的方法和装置
JP6517124B2 (ja) 雑音抑圧装置、雑音抑圧方法、およびプログラム
CN113674752A (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN112349277B (zh) 结合ai模型的特征域语音增强方法及相关产品
CN113314147A (zh) 音频处理模型的训练方法及装置、音频处理方法及装置
CN112309418A (zh) 一种抑制风噪声的方法及装置
CN113496699A (zh) 语音处理方法、装置、存储介质及终端
CN111145770B (zh) 音频处理方法和装置
CN111145776B (zh) 音频处理方法和装置
CN112309412A (zh) 用于处理待处理信号的方法、装置和信号处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant