CN116233696B - 气流杂音抑制方法、音频模组、发声设备和存储介质 - Google Patents

气流杂音抑制方法、音频模组、发声设备和存储介质 Download PDF

Info

Publication number
CN116233696B
CN116233696B CN202310494526.9A CN202310494526A CN116233696B CN 116233696 B CN116233696 B CN 116233696B CN 202310494526 A CN202310494526 A CN 202310494526A CN 116233696 B CN116233696 B CN 116233696B
Authority
CN
China
Prior art keywords
frequency point
peak
amplitude
frequency
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310494526.9A
Other languages
English (en)
Other versions
CN116233696A (zh
Inventor
许剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310494526.9A priority Critical patent/CN116233696B/zh
Publication of CN116233696A publication Critical patent/CN116233696A/zh
Application granted granted Critical
Publication of CN116233696B publication Critical patent/CN116233696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups

Abstract

本申请涉及音频处理技术领域,提供一种气流杂音抑制方法、音频模组、发声设备和存储介质,该方法包括:对于发声器件待播放的音频信号,先对音频信号进行时频转换得到复数频谱信号,然后计算复数频谱信号中气流杂音频段中各频点的信号幅度,并获取信号幅度中的峰值幅度,其中气流杂音频段与发声器件是相对应的。进而根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离对峰值频点进行幅度压制。由此可见,该方法通过针对峰值频点进行频点的幅度压制,能够避免对频段进行整体压制导致的子带压制不足或压制过度的问题,从而确保气流杂音抑制后的音频音色不失真,提升抑制效果。

Description

气流杂音抑制方法、音频模组、发声设备和存储介质
技术领域
本申请实施例涉及音频处理技术领域,尤其涉及一种气流杂音抑制方法、音频模组、发声设备和存储介质。
背景技术
气流杂音,又称之为流致噪声、气流音等。通常是发声设备中的发声器件(如扬声器)在播放音频时,出声管道内流体传播时可能会出现的噪音。气流杂音的产生方式并不单一,比如在振膜面积相同时,振动位移越大越容易产生气流杂音。以及,手机、平板等小型移动发声设备上扬声器常采用的窄缝出音的方式也更加容易激发气流杂音。
因此,为了获得舒适的听感以及适应不同原因产生的气流杂音,目前常用的气流杂音抑制方式是通过对容易出现气流杂音的频段进行固定增益的压制。例如,使用一个或多个无线脉冲响应(infinite impulse response,IIR)滤波器,对容易出现气流杂音的频段进行压制。然而,传统方式由于是采用固定增益对容易出现气流杂音的频段进行整体压制,容易存在频率子带过度压制或压制不足的问题,从而导致音色失真或抑制效果不佳。
发明内容
本申请实施例提供一种气流杂音抑制方法、音频模组、发声设备和存储介质,能够在抑制气流杂音时解决频率子带过度压制或压制不足的问题,从而避免音色失真和提高气流杂音的抑制效果。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种气流杂音抑制的方法,由于试验发现峰值频点的位置距离气流杂音频段的起始频点的位置越近,出现气流杂音的可能性和程度就越大。因此,该方法包括:对发声器件待播放的音频信号进行时频转换得到复数频谱信号后,计算复数频谱信号中气流杂音频段各频点的信号幅度,然后获取各频点的信号幅度中的峰值幅度。进而根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制。由此可见,该方法通过针对峰值频点进行压制,避免了整体压制所导致频率子带过度压制或压制不足的问题。
在第一方面的一种可能的实现方式中,计算复数频谱信号中气流杂音频段各频点的信号幅度,获取各频点的信号幅度中的峰值幅度,包括:对各频点的实部信号和虚部信号分别进行平方求和后开方,得到各频点的信号幅度;比较各频点的信号幅度,将最大的信号幅度确定为峰值幅度。
在第一方面的一种可能的实现方式中,在根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制之前,包括:获取峰值频点的频点索引和气流杂音频段的起始频点的频点索引;计算峰值频点的频点索引和起始频点的频点索引的差值一,将差值一作为峰值频点与起始频点的频点距离。由此,将两个频点索引的差值作为频点距离,能够准确表征两个频点之间的位置距离。
在第一方面的一种可能的实现方式中,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制,包括:根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,计算峰值频点的压制增益;利用压制增益对峰值频点进行幅度压制。由此可见,由于峰值频点产生气流杂音的可能性和程度取决于其与起始频点的距离,则通过峰值幅度和频点距离确定压制增益后利用该压制增益对峰值频点进行幅度压制,能够确保压制增益的精准性,进一步避免针对峰值频点进行压制时的压制不足或压制过度,从而确保音频音色不失真,提升抑制效果。
在第一方面的一种可能的实现方式中,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,计算峰值频点的压制增益,包括:计算频点距离与第一杂音抑制测试值的第一乘积;将第一乘积与峰值幅度阈值求和,得到压制目标幅度;当峰值幅度小于或等于压制目标幅度时,确定峰值频点的压制增益为1;当峰值幅度大于压制目标幅度时,将压制目标幅度与峰值幅度的比值作为峰值频点的压制增益。
在第一方面的一种可能的实现方式中,计算峰值频点的压制增益之后,所述方法还包括:根据峰值频点的压制增益,以及峰值频点与峰值频点附近2M个频点之间的频点距离,分别计算2M个频点中每个频点的压制增益;分别采用2M个频点中各个频点的压制增益,对对应频点进行幅度压制。由此,通过对峰值频点附近的频点进行幅度压制,能够避免仅压制峰值频点可能导致的音色生硬不自然,使得音色平滑自然。
在第一方面的一种可能的实现方式中,根据峰值频点的压制增益,以及峰值频点与峰值频点附近2M个频点之间的频点距离,分别计算2M个频点中每个频点的压制增益,包括:
其中,gain(kPeak)是峰值频点的压制增益,gain(kPeak+i)是与峰值频点的频点距离为i的频点的压制增益,i=1,2,…,M或者-1,-2,…,-M。
在第一方面的一种可能的实现方式中,由于同一位置峰值持续的时间越长,也就是不同帧的峰值幅度若持续维持在同一个频点时,出现气流杂音的可能性和程度也越大,因此在第一方面的基础上,进一步统计频点峰值幅度的持续帧数对峰值频点进行幅度压制,从而能够进一步的提升抑制效果。
具体的,本申请的方法还包括:统计频点峰值幅度的持续帧数,然后,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制,包括:根据峰值幅度、峰值频点与起始频点之间的频点距离、以及持续帧数,对峰值频点进行幅度压制。即,对音频信号时频转换得到复数频谱信号,且通过计算复数频谱信号中气流杂音频段各频点的信号幅度获取到峰值幅度后,进一步统计频点峰值幅度的持续帧数。进而在基于峰值幅度、频点距离和持续帧数对峰值频点进行幅度压制。
在第一方面的一种可能的实现方式中,根据峰值幅度、峰值频点与起始频点之间的频点距离、以及持续帧数,对峰值频点进行幅度压制,包括:根据峰值幅度、峰值频点与起始频点之间的频点距离、以及持续帧数,计算峰值频点的压制增益;利用压制增益对峰值频点进行幅度压制。
在第一方面的一种可能的实现方式中,根据峰值幅度、峰值频点与起始频点之间的频点距离、以及持续帧数,计算峰值频点的压制增益,包括:计算频点距离与第一杂音抑制测试值的第一乘积;获取最大帧数阈值与持续帧数的差值二,计算差值二与第二杂音抑制测试值的第二乘积;将第一乘积、第二乘积与峰值幅度阈值求和得到压制目标幅度;当峰值幅度小于或等于压制目标幅度时,峰值频点的压制增益为1;当峰值幅度大于压制目标幅度时,将压制目标幅度与峰值幅度的比值作为峰值频点的压制增益。
在第一方面的一种可能的实现方式中,统计频点峰值幅度的持续帧数,包括:将峰值幅度与峰值幅度阈值进行比较;在峰值幅度小于所述峰值幅度阈值时,将计数器的计数值设置为初始值;在峰值幅度大于或等于峰值幅度阈值时,若计数值为初始值,则计数值加1;若计数值大于初始值且小于计数最大阈值,则将峰值幅度对应的频点索引与上一帧音频信号峰值幅度对应的频点索引进行比较;若比较的两个频点索引相等,则计数值加1;若比较的两个频点索引不相等,则将计数值设置为1;获取计数器最终的计数值作为峰值幅度的持续帧数。
在第一方面的一种可能的实现方式中,由于音频信号中低于频率F0的音频成分很难发出来,因此气流杂音频段通常就是以频率F0为起始频率。但是频率F0会因为某些特殊情况出现变化。比如出音口被堵孔时频率F0会上升,音腔泄露时频率F0会下降。因此在第一方面或者第二方面的基础上,也就是在计算复数频谱信号中气流杂音频段各频点的信号幅度峰值幅度,还包括:根据发声器件的反馈电压和反馈电流动态更新复数频谱信号中的气流杂音频段,从而能够基于发声器件情况得到准确的气流杂音频段确保抑制效果。
即,对音频信号时频转换得到复数频谱信号后,先根据发声器件的反馈电压和反馈电流动态更新复数频谱信号中的气流杂音频段,其次再计算更新后该气流杂音频段各频点的信号幅度获取到峰值幅度。然后,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制,具体实现方式如第一方面或第二方面所述,在此不再赘述。
在第一方面的另一种可能的实现方式中,根据发声器件的反馈电压和反馈电流动态更新复数频谱信号中的气流杂音频段,包括:分别对反馈电压和反馈电流进行时频转换后,计算频域阻抗;在预设搜索频段对应的频点索引中,搜索使频域阻抗最大的频点索引作为复数频谱信号中气流杂音频段的新起始索引;根据新起始索引对应的频率更新复数频谱信号的气流杂音频段。
第二方面,提供一种音频模组,包括:一个或多个音频处理器和存储器,音频处理器与存储器耦合;存储器中存储一个或多个计算机程序,当音频处理器执行所述计算机程序时,使得音频模组执行如第一方面中任一项所述的气流杂音抑制方法,得到抑制后的音频信号。
第三方面,提供一种发声设备,该设备包括一个或多个发声器件,以及第四方面所述音频模组。
第四方面,提供一种发声设备,该设备包括一个或多个发声器件、一个或多个处理器和存储器;发声器件用于播放音频;存储器中存储一个或多个计算机程序,当处理器执行所述计算机程序时,使得发声设备实现上述第一方面、第二方面或者第三方面中任意一种可能的实现方式中所述的方法,并且能够达到上述第一方面、第二方面或者第三方面中任意一种可能的实现方式中所述的技术效果。
在第四方面的另一种可能的实现方式中,发声器件包括扬声器。
第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被发声设备中的处理器执行时,使得发声设备实现上述第一方面中任意一种可能的实现方式中所述的方法,并且能够达到上述第一方面中任意一种可能的实现方式中所述的技术效果。
附图说明
图1为本申请实施例提供的一种利用均衡器抑制气流杂音的原理框图;
图2为本申请实施例提供的一种基于分析结果对气流杂音进行自适应压制的原理框图;
图3为本申请实施例提供的一种气流杂音抑制方法的原理框图;
图4为本申请实施提供的一种启动气流杂音抑制处理的应用场景图;
图5为本申请实施提供的另一种启动气流杂音抑制处理的应用场景图;
图6为本申请实施提供的另一种启动气流杂音抑制处理的应用场景图;
图7为本申请实施例提供的一种气流杂音抑制方法的流程示意图;
图8为本申请实施例提供的另一种气流杂音抑制方法的原理框图;
图9为本申请实施例提供的另一种气流杂音抑制方法的原理框图;
图10为本申请实施例提供的另一种气流杂音抑制方法的流程示意图;
图11为本申请实施例提供的另一种气流杂音抑制方法的原理框图;
图12为本申请实施例提供的另一种气流杂音抑制方法的流程示意图;
图13为本申请实施例提供的另一种气流杂音抑制方法的流程示意图;
图14为本申请实施例提供的一种发声设备的结构示意图。
具体实施方式
下面将结合本申请实施例附图,对本申请实施例的技术方案进行描述。其中,在本申请的描述中,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
目前,较多能够发声的电子设备(简称为发声设备)都具有音频播放功能,并且用户对于该音频播放功能的使用颇为频繁。比如使用手机、平板、电脑、智慧屏、智能电视等设备外放视频、听歌等。为了实现设备的音频播放功能,通常需要在发声设备中安装扬声器等发声器件。但是,发声器件在播放音频时,出声管道内流体传播时可能会出现气流杂音,比如在振膜面积相同时,振动位移越大越容易产生气流杂音。手机、平板等小型移动发声设备上扬声器常采用的窄缝出音的方式也更加容易激发气流杂音。
气流杂音的出现使得音频播放增加了噪音,容易给用户带来不舒适的听感。因此,为了减少发声器件气流杂音的出现,保持较好的回放音质,大多发声设备都会对音频信号中容易出现气流杂音的音频成分进行检测和抑制。比如,如图1所示,现有常通过一个或多个均衡器,例如一个或多个IIR滤波器对容易出现气流杂音的频段进行固定增益的压制。或者,如图2所示,通过在频域对信号进行分析确定可能出现杂音的频段后再对该频段进行自适应压制,比如在气流杂音频段子带能量超过一定阈值、高低频能量的比值超过一定阈值才会对气流杂音频段进行压制。然而,图1采用固定增益的压制方式是对气流杂音频段进行整体压制,其忽略了不同频带响度的情况,对于响度较小可能不会触发气流杂音的频段进行压制,容易压制过度导致音色失真。而对于会触发气流杂音的频段可能又存在压制不足的风险,从而不能完全消除气流杂音,导致抑制效果不佳。图2经过分析自适应压制的方式,虽然相比固定增益来说提升了抑制效果,但是其没有更加细致的去考虑引起气流杂音的因素。
为了解决上述问题,本申请实施例提供一种气流杂音抑制方法。
本申请实施例通过对发声设备进行气流杂音的试验发现,气流杂音频段中峰值频点的位置与起始频点的位置越接近,音频信号出现气流杂音的可能性和程度就越大。因此,在该气流杂音抑制方法中,发声设备主要针对气流杂音频段的峰值频点进行幅度压制,并且幅度压制基于峰值幅度和对应峰值频点与起始频点之间的频点距离确定。
具体的,如图3所示的原理框图,本申请实施例所提供的气流杂音抑制方法,主要是在输入音频之后,发声设备首先对音频信号进行时频转换,然后在频域上对气流杂音频段各频点进行幅度计算来得到峰值幅度。最后,在确定峰值幅度对应峰值频点与气流杂音频段的起始频点的频点距离后,根据峰值幅度和频点距离对峰值频点进行幅度压制,再通过频时转换输出音频。以此,不仅能够避免对气流杂音频段进行整体压制,还能够提升压制的精准性,从而避免压制不足和压制过度的问题,确保压制后音频音色不失真,提升抑制效果。
示例性的,本申请实施例提供的气流杂音抑制方法,可以应用于具有音频处理和播放功能的发声设备。该发声设备可以执行本申请实施例的方法抑制发声器件待播放的音频信号中的杂音,然后由该发声设备中的发声器件播放抑制后的音频信号。或者,上述方法还可以应用于具有音频处理功能的音频模组。该音频模组可以安装在发声设备中,与发声设备中的发声器件耦合。该音频模组可以执行本申请实施例的方法抑制发声器件待播放的音频信号中的杂音,得到抑制后的音频信号。然后,音频模组可以向发声设备中的发声器件传输抑制后的音频信号,由于发声器件播放该抑制后的音频信号。
以下,以发声设备执行本申请实施例提供的气流杂音抑制方法为例,结合图7详细说明本申请实施例提供的气流杂音抑制方法。
其中,发声设备可以接收用户的音频播放操作。该音频播放操作用于触发发声设备开始播放音频。发声设备准备播放音频,便可以开始执行本申请实施例的方法,对音频信号中的杂音进行抑制。
示例性的,上述音频播放操作可以是用户对发声设备上“开始播放”按钮/控件的点击操作。例如,上述“开始播放”按钮/控件可以显示在发声设备(如手机、电视机等)的音乐播放界面或视频播放界面中,如图4所示的视频播放界面为例,当用户点击“开始播放”按钮/控件后触发发声设备开始播放音频;或者,如图5所示,上述“开始播放”按钮/控件可以是发声设备(如音箱)上的物理按键或者触控按键,当用户点击该按键后触发发声设备开始播放音频。或者,如图6所示,上述音频播放操作还可以是用户触发发声器件接通或拨打视频通话、语音通话的操作。本申请实施例的方法,可以应用于所有音频播放场景。
参考图7,该方法包括步骤S101~S104:
S101,发声设备对发声器件待播放的音频信号进行时频转换得到复数频谱信号。
一个发声设备可以包括一个或多个发声器件(如扬声器)。对于发声设备中任一个发声器件待播放的音频信号,发声设备对该音频信号进行气流杂音抑制的处理。具体的,因为音频信号一般按帧进行处理,所以发声设备首先按帧对音频信号进行时频转换,将每一帧音频信号从时域转换到频域,得到对应的复数频谱信号。
时频转换可以通过傅里叶变换、修改的离散余弦变换 (modified discreteCosine transform,MDCT)、梅尔倒频谱 (mel-frequency spectrum,MFC)等任一种方式实现。傅里叶变换可采用离散傅里叶变换(discrete fourier transform,DFT)、快速傅里叶变换 (fast fourier transform,FFT)等任一种变换方式。若以DFT为例,时频转换公式如下所示:
其中,可以理解为,X(n)是时域上的音频信号。N是DFT每次处理输入的连续时域样点数,当DFT的输入是一帧音频信号,则N为一帧音频信号的音频样点数。当DFT的输入是两帧音频信号,则N为两帧音频信号的音频样点数,也就是说N根据实际具体输入的帧数确定。
例如,假设采样率为48000Hz,且按照0.01秒为一帧,那么一帧音频信号则有480个音频样点,输入一帧音频信号的情况下N=480。同理,在32000Hz采样率下,同样0.01秒为一帧,则一帧音频信号有320个音频样点,N=320。也就是说,一帧音频信号的音频样点的数量是采样率与一帧音频信号的时长的乘积,即音频样点数=采样率*帧长。其中,帧长也可以是其他数值,比如0.005秒、0.02秒等。总的来说,帧长越长的话,频率分辨率越高,得到的频点数也就越多。而频点越多,频点所包括的频带范围就越窄(即频点之间的频率间隔越小),进而后续对频点进行幅度压制的效果会更好。
X(k)是DFT输出的复数频谱信号,k的总数量与N相等,k=0,1……,N-1,在频域上k表示频点,其具体数值称为频点索引(或者称为频点编号),例如X(2)表示第2个频点的复数频谱信号,数值2便是其频点索引。复数频谱信号X(k)的表达形式分为实部和虚部,表达式如下:
如果所采用的DFT计算过程都用浮点数表示,那么时域音频信号X(n)的取值范围是[-1.0, 1.0],复数频谱信号X(k)的取值范围也是[-1.0, 1.0]。
S102,计算复数频谱信号中气流杂音频段各频点的信号幅度,获取各频点的信号幅度中的峰值幅度。
由于容易出现气流杂音的频段范围和发声器件的材质以及声学结构相关,因此不同声学结构发声器件的气流杂音频段可能并不一样。比如,经过实际测量不同扬声器的气流杂音频段可以是450Hz~1800Hz、500Hz~2900Hz或者650Hz~4700Hz等。所以,本申请实施例中气流杂音频段与发声设备中的发声器件相对应,实际应用中气流杂音频段的具体范围需要通过对声学结构进行测量得到。
进而,为了提升处理速度和效率,发声设备可以只对复数频谱信号X(k)中该气流杂音频段的各频点k进行幅度(幅度也可称之为幅值)计算。即,发声设备只计算气流杂音频段所对应的各个频点k的信号幅度|X(k)|。在发声设备计算得到气流杂音频段中各个频点k的信号幅度|X(k)|之后,通过对各个信号幅度|X(k)|进行比较,从中确定最大的|X(k)|为峰值幅度Xpeak。
S103,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,对峰值频点进行幅度压制。
其中,频点距离peakOffset用于表征峰值频点与起始频点之间间隔的频点个数,相当于是以信号的频点为基准来衡量峰值频点与起始频点之间的位置距离,从而能够判断出峰值频点的位置与起始频点的位置的接近程度,进而确定气流杂音出现的可能性和程度。峰值频点kPeak即为峰值幅度Xpeak对应的频点k,其代表气流杂音频段频点峰值位置。
具体的,发声设备确定峰值幅度Xpeak,以及峰值频点kPeak与起始频点的频点距离peakOffset之后,即发声设备已经能够确定该音频信号出现气流杂音的可能性和程度了。因此发声设备可以基于该峰值幅度Xpeak和频点距离peakOffset对峰值频点kPeak进行幅度压制,从而抑制气流杂音的出现。
S104,将幅度压制后的信号进行频时转换后输出,具体的,在S103之后,即在发声设备通过对音频信号进行幅度压制完成气流杂音的抑制之后,可以将压制后处于频域上的音频信号通过频时转换,重新输出时域上的音频信号以进行音频输出。
其中,频时转换是时频转换的逆过程,时频转换若以傅里叶变换为例,那频时转换可以通过傅里叶的逆变换实现。例如,DFT的逆变换IDFT的表达式如下所述:
其中,X(n)是IDFT(Inverse Discrete Fourier Transform,反离散傅里叶变换)输出的时域上的音频信号,X′(k)是IDFT的输入,即完成幅度压制后的复数频谱信号X(k)。
在本申请实施例中,通过针对气流杂音频段的峰值频点进行幅度压制,并且幅度压制基于峰值幅度和对应峰值频点与起始频点之间的频点距离确定,能够避免过度压制或压制不足的问题,从而避免音色失真和提高气流杂音的抑制效果。在一种可能实现的方式中,上述S102为:对各频点的实部信号和虚部信号分别进行平方求和后开方,得到各频点的信号幅度;比较各频点的信号幅度,将最大的信号幅度确定为峰值幅度。
具体的,由于发声设备只用计算气流杂音频段中各频点的信号幅度,所以为了保证计算的准确性,在幅度计算之前,发声设备可以先确定气流杂音频段所对应的各个频点。气流杂音频段所对应的频点可以基于频率间隔和气流杂音频段具体的频段范围确定,频率间隔是各频点之间间隔的频率,也就是频点所包括的频带范围。
例如,假设频率间隔=50Hz,且若发声器件的气流杂音频段的具体范围是650Hz~4700Hz,则该气流杂音频段对应的频点包括k=13,14,……,93,94。即在频率间隔为50 Hz时,频率650 Hz对应第13个频点,频率4700Hz对应第94个频点,那么频段范围650Hz~4700Hz对应的频点包括k=13,14,……,93,94,后续则只需要计算频点k=13,14,……,93,94的信号幅度。
幅度的计算过程中,发声设备可以把气流杂音频段的起始频点的频点索引定义为kStart=13,结束频点的频点索引定义为kEed=94,进而对kStart~kEed范围内频点的实部信号和虚部信号进行平方求和后开方,可以得到频点kStart~kEed范围内各频点相对应的信号幅度,信号幅度|X(k)|的计算公式如下:
然后,发声设备将气流杂音频段对应的每个频点的信号幅度|X(k)|进行大小比较,从中确定最大的信号幅度,该最大的信号幅度即为频点的峰值幅度Xpeak,峰值幅度Xpeak的计算公式如下所示:
例如,假设|X(13)|、|X(14)|……|X(94)|中,|X(20)|的值最大,则Xpeak= |X(20)|。
另外,若在气流杂音频段中同时出现两个或两个以上的峰值,即所计算的信号幅度中存在两个或两个以上信号幅度相等的频点且该信号幅度还是所有信号幅度中的最大值时,由于峰值频点的位置越靠近起始频点的位置气流杂音出现的可能性越大,所以在该情况下发声设备从中取最靠近起始频点的频点的信号幅度作为峰值幅度。
例如,假设峰值幅度Xpeak包括|X(35)|和|X(20)|这两个信号幅度,且起始频点的频点索引为13。相比较之下,频点索引20相比于频点索引35更加接近频点索引13,那么频点索引20对应的频点比频点索引35对应的频点更加容易引起气流杂音,则确定峰值幅度Xpeak=|X(20)|。
在一些实施例中,发声设备执行完S102之后,可以确定出峰值频点和峰值幅度。因此在执行S103之前,发声设备可以先确定峰值频点与气流杂音频段的起始频点之间的频点距离。
在一种可能实现的方式中,频点距离的确定方法,包括:获取峰值频点的频点索引和气流杂音频段的起始频点的频点索引;计算峰值频点的频点索引和起始频点的频点索引的差值一,将差值一作为峰值频点与起始频点的频点距离。
由于发声设备需要通过频点距离peakOffset来评估气流杂音出现的可能性和程度进行幅度压制,且频点距离peakOffset是以间隔的频点个数表征峰值频点与起始频点的位置距离。所以在进行幅度压制之前,本申请实施例中发声设备可以基于频点索引来确定峰值频点与起始频点之间的频点距离。
具体来说,发声设备首先获取峰值频点kPeak对应的频点索引,以及获取气流杂音频段中起始频点的频点索引。上述描述中介绍了各频点的频点索引的确定方式。然后,将两个频点对应的频点索引进行差值运算,所得到的差值即为两个频点之间间隔的频点个数,即频点距离peakOffset。也就是说,将峰值频点kPeak的频点索引与起始频点kStart的差值作为二者的频点距离peakOffset,频点距离peakOffset的计算公式如下所示:
其中,kPeak是峰值频点,例如,假设频点k=13、14……93、94中频点的信号幅度|X(20)|是峰值幅度Xpeak,即Xpeak=|X(20)|,那么峰值频点kPeak=20。应注意,频点距离peakOffset是一个非负整数。如果peakOffset为0则表示峰值刚好出现在气流杂音频段起始频点相同的位置,peakOffset越大,则表示峰值的位置离气流杂音频段起始频点越远。peakOffset最大取值为起始频点与结束频点的差值,即kEnd-kStart,表示峰值位置出现在气流杂音频段的最后一个频点。
在一种可能的实现方式中,发声设备可以先计算峰值频点的压制增益;然后,再利用压制增益对峰值频点进行幅度压制。具体的,上述S103包括:发声设备可以根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,计算峰值频点的压制增益;利用压制增益对峰值频点进行幅度压制。
具体的,发声设备基于峰值幅度Xpeak和频点距离peakOffset进行幅度压制时,由于峰值的位置与起始频点(即频率F0)越近,出现气流杂音的可能性和程度就越大。因此,发声设备首先可以基于峰值幅度Xpeak和频点距离peakOffset确定合适的压制增益gain(kPeak),以确保后续压制的准确性。进而,再利用所确定的压制增益gain(kPeak)对峰值频点kPeak对应的信号实施增益处理,以完成对峰值频点kPeak的幅度压制,从而抑制气流杂音的出现。
其中,增益处理可以是将所确定的压制增益gain(kPeak)与峰值频点kPeak对应的信号X(kPeak)相乘完成,即压制后的信号X′(kPeak)= X(kPeak)* gain(kPeak)。
在一种可能实现的方式中,发声设备可以采用以下方式,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离,计算峰值频点的压制增益。
具体的,发声设备可以计算频点距离与第一杂音抑制测试值的第一乘积,将第一乘积与峰值幅度阈值求和,得到压制目标幅度;基于压制目标幅度与频点峰值幅度的大小关系确定峰值频点的压制增益。
压制增益的计算,发声设备首先根据频点距离peakOffset、第一杂音抑制测试值以及峰值幅度阈值计算峰值位置的压制后的目标幅度,得到压制目标幅度Xtarget。压制目标幅度Xtarget的计算公式如下:
其中,peakThr是峰值幅度阈值,其是一个小于1.0的正实数,可以预先对声学器件进行杂音测试来确定,例如取值可以是0.83、0.75、0.52等。由于某一帧音频信号气流杂音频段的频点峰值幅度Xpeak小到一定程度时,其气流杂音频段对气流杂音的影响并不大。也就是说,当频点峰值幅度Xpeak小于峰值幅度阈值peakThr时,其大概率不会产生气流杂音。所以,压制目标幅度Xtarget的确定引入峰值幅度阈值peakThr能够确保目标幅度的精准性,从而提升抑制效果。
α是第一杂音抑制测试值,也是一个小于1.0的正实数,其是目标针对特定的声学器件令各个频点都不会出现杂音的参数,同样需要预先对声学器件进行杂音测试确定。例如,针对不同的发声器件,经过杂音测试其对应的参数α可以是0.0032、0.0013、0.0011等。
然后,发声设备根据压制目标幅度Xtarget与频点峰值幅度的大小关系来确定压制增益,也就是基于目标幅度的大小来确定所需要压制的增益的大小。
当压制目标幅度Xtarget大于或等于频点峰值幅度Xpeak时,峰值频点kPeak的压制增益为1。当压制目标幅度Xtarget小于频点峰值幅度Xpeak时,将压制目标幅度Xtarget与频点峰值幅度Xpeak的比值作为峰值频点kPeak的压制增益gain(kPeak)。压制增益gain(kPeak)的表达式如下:
由此可见,在本申请实施例中,压制目标幅度Xtarget大于或等于频点峰值幅度Xpeak的情况下,不需要对该频点进行压制,即压制增益gain(kPeak)为1,后续通过乘以1实施增益处理时则相当于不压制。而在压制目标幅度Xtarget小于频点峰值幅度Xpeak的情况下,则需要以压制目标幅度Xtarget为目标进行压制,相当于把能量压制到目标幅度大小,所以以压制目标幅度Xtarget与峰值幅度Xpeak的比值作为压制增益gain(kPeak)。因此,压制目标幅度Xtarget相比频点峰值幅度Xpeak越小,压制会越狠,压制目标幅度Xtarget相比频点峰值幅度Xpeak越大,压制会越少。以此,本申请实施例基于目标幅度确定合适的压制增益,后续再基于该压制增进行幅度压制能够确保压制的精准性,从而提高气流杂音的抑制效果。
在一些实施例中,考虑到如果仅对峰值频点进行压制,即只压制峰值这一个频点幅度的话,音色可能会比较生硬不自然。因此在本申请实施例中,如图8所示,发声设备对峰值频点压制的同时,可以对峰值频点附近2M个频点也进行压制。
在该实施例中,发声设备计算峰值频点的压制增益之后,可以根据峰值频点的压制增益,以及峰值频点与峰值频点附近2M个频点之间的频点距离,分别计算2M个频点中每个频点的压制增益;然后,分别采用2M个频点中各个频点的压制增益,对对应频点进行幅度压制。
其中,参数M需要预先根据主观的杂音测试来确定,取值为正整数,例如10、15、23等。由于峰值频点能够出现在任意一个位置,所以在峰值频点之前或者之后可能都会有邻近的频点,所以本申请实施例中峰值频点附近2M个频点包括附近与峰值频点的频点距离在+M以内和-M以内的所有频点。
然后,发声设备根据峰值频点的压制增益,以及2M个频点中各频点与峰值频点的频点距离,计算2M个频点中各频点对应的压制增益,计算公式如下:
其中,gain(kPeak)是峰值频点的压制增益,gain(kPeak+i)是与峰值频点的频点距离为i的频点的压制增益,也就是信号中第kPeak+i个频点的压制增益。i可以理解为是峰值频点kPeak的频点索引与附近2M个频点的频点索引的差值,即i=1,2,……,M或者-1,-2,……,-M。比如,假设峰值频点kPeak的频点索引=20且M=10,那么i=1,2,……,10或者-1,-2,……,-10,则本申请实施例中需要进行增益的频点包括k=10,11,……,29,30这30个频点,这30个频点中包括了峰值频点20。然后,发声设备利用对应的压制增益对各个频点实施增益处理完成幅度压制,幅度压制的计算公式如下:
/>
而峰值频点kPeak和峰值频点kPeak附近2M个频点以外其他位置的频点仍然保持不变,不进行幅度压制,那么其压制前的信号等同于压制后的信号,表达式如下所示:
由此可见,本申请实施例不仅对峰值频点附近的频点进行压制,且附近频点的压制增益基于与峰值频点的频点距离和峰值频点的压制增益确定,使得与峰值频点位置距离不同的频点有不同程度的压制增益,以达到不同程度且适当的压制。其中越接近峰值频点的频点幅度被压制的越厉害,与峰值频点距离越远的频点的幅度压制越少,从而不仅能够确保气流杂音抑制后的音频音色平滑自然,且能够尽可能避免附近频点压制过度,提高抑制的准确性。
本申请实施例还提供另一种气流杂音抑制方法,具体说明如下:
由于在试验过程中还发现同一峰值持续响动(相当于形成了共振),杂音会变大,所以峰值的位置持续不变的话更加容易产生气流杂音。也就是说,同一位置峰值持续的时间越长,出现气流杂音的可能性和程度也越大。因此,如图9所示的原理框图,在上述实施例所述的气流杂音抑制方法的基础上,本申请实施例进一步统计峰值幅度的持续帧数,然后在对峰值频点进行幅度压制时,除了利用峰值幅度和频点距离之外,还利用所统计的持续帧数。也就是说,本申请实施例根据峰值幅度、峰值幅度对应峰值频点与气流杂音频段的起始频点之间的频点距离和持续帧数对峰值频点以及附近2M个频点进行幅度压制。
以下,结合图10详细说明本申请实施例提供的气流杂音抑制方法。参考图10,该方法包括步骤S201~S205。
具体的,在本申请实施例中,发声设备利用傅里叶变换把时域上的音频信号转换到频域上得到复数频谱信号,且通过计算复数频谱信号中气流杂音频段各频点的信号幅度,从中确定峰值幅度Xpeak之后,发声设备进一步统计该峰值幅度Xpeak的持续帧数peakCount。进而,发声设备根据峰值幅度Xpeak、峰值幅度Xpeak对应峰值频点kPeak与气流杂音频段的起始频点kStart之间的频点距离peakOffset,以及持续帧数peakCount,对峰值频点kPeak进行幅度压制。由此,本申请实施例对峰值频点的幅度压制,不仅考虑到峰值频点与起始频点之间的距离对气流杂音的影响,还考虑到同一位置峰值持续对气流杂音的影响,从而提高抑制效果。
在一种可能实现的方式中,图10的S203,持续帧数peakCount的统计可以通过统计各帧音频信号气流杂音频段的峰值幅度Xpeak的所在位置得到,峰值幅度的所在位置同样以频点索引(频点编号)衡量。
例如,第n帧和第n+1帧音频信号所对应气流杂音频段的两个峰值幅度Xpeak的频点索引相等,则表示该峰值幅度Xpeak从第n帧持续到了第n+1帧,因此峰值幅度Xpeak的持续帧数为2。
另外,考虑到虽然每帧音频信号的气流杂音频段中都能确定一个峰值幅度Xpeak,但并不是所有的峰值都能导致气流杂音产生,至于峰值幅度Xpeak是否能产生气流杂音需要评估该峰值幅度Xpeak的大小来确定。也就是说,当峰值幅度Xpeak小到一定程度时,表示该峰值幅度Xpeak对应帧的音频信号实际上是没有太大能量峰值的,所以该帧音频信号可能并不会产生气流杂音。因此,发声设备在统计持续帧数的时候,可以进一步引入峰值幅度阈值peakThr来筛除那些对气流杂音产生没有影响的帧,从而保证同一位置持续帧数统计的准确性,提高抑制效果。
具体而言,发声设备首先将峰值幅度与峰值幅度阈值进行比较,在峰值幅度小于峰值幅度阈值时,发声设备将计数器的计数值设置为初始值。而在峰值幅度大于或等于峰值幅度阈值时,若计数值为初始值,则计数值加1,若计数值大于初始值且小于计数最大阈值,则发声设备进一步将峰值幅度对应的频点索引与上一帧音频信号峰值幅度对应的频点索引进行比较。若比较的两个频点索引相等,则计数值加1,若比较的两个频点索引不相等,则将计数值设置为1。最后发声设备获取计数器最终的计数值作为峰值幅度的持续帧数。
也就是说,本申请实施例中持续帧数peakCount的统计用一个计数器来实现,计数器的初始值为0。然后发声设备通过将峰值幅度Xpeak与峰值幅度阈值进行比较,以及将峰值幅度Xpeak对应的频点索引kPeak与上一帧音频信号频点峰值幅度Xpeak对应的频点索引kPeak进行比较后,基于比较的结果进行计数得到。
计数器的计数条件具体如下所示:
当峰值幅度Xpeak小于峰值幅度阈值peakThr时,表示当前的峰值是对气流杂音产生没有影响的峰值,则无论计数器当前的计数值peakCount是多少,都将计数值peakCount设置为初始值0。
当计数值peakCount为初始值0且峰值幅度Xpeak大于或等于峰值幅度阈值peakThr时,表示当前的峰值是对气流杂音产生有一定影响的峰值,则计数值peakCount加1,此时peakCount=1,表示峰值幅度持续一帧。
当计数值peakCount大于初始值0和小于计数最大阈值peakCountMax、峰值幅度Xpeak大于或等于峰值幅度阈值peakThr,且比较的两个频点索引kPeak相等时,表示对气流杂音产生有一定影响的峰值从上一帧持续到了当前帧,且该峰值处于同一个位置(两个峰值幅度的频点索引相等),此时持续帧数增加一帧,则计数值peakCount加1。
而当计数值peakCount大于初始值0和小于计数最大阈值peakCountMax、频点峰值幅度Xpeak大于或等于峰值幅度阈值peakThr,且比较的两个频点索引kPeak不相等时,表示对气流杂音产生有一定影响的峰值虽然从上一帧持续到了当前帧,但是并没有维持在同一个位置上,则将计数值peakCount重新设置为1。
然后,将该计数器最终的计数值peakCount视为峰值幅度的持续帧数。持续帧数peakCount的表达式如下所示:
其中,initialization表示初始值。计数最大阈值peakCountMax为预设的计数器所能计数的最大值,例如可以是10,12,15等。由于峰值持续的帧数达到一定数量时共振程度已经可以达到最大值,因此为了防止计数器无限计数,在计数过程中本申请实施例进一步通过计数最大阈值peakCountMax来限制peakCount,计数最大阈值peakCountMax一般小于或等于20的正整数即可。
在一种可能实现的方式中,图10中S204,包括:根据峰值幅度、峰值频点与起始频点之间的频点距离、以及持续帧数,计算峰值频点的压制增益;利用压制增益对峰值频点进行幅度压制。
与本申请上一个实施例不同的是,本申请实施例幅度压制过程中所使用到的压制增益的计算,除了利用峰值幅度Xpeak和频点距离peakOffset,还利用了所统计的持续帧数peakCount。即,本申请实施例中,发声设备根据持续帧数peakCount、峰值幅度Xpeak和频点距离peakOffset这三个参数来计算峰值频点kPeak的压制增益,再利用该压制增益进行峰值频点的幅度压制。也就是在幅度压制过程中增加持续帧数这一参数来影响压制增益的取值,从而能够进一步提升增益的精准性。
在一种可能实现的方式中,根据峰值幅度、峰值幅度对应的峰值频点与气流杂音频段的起始频点之间的频点距离以及持续帧数,计算峰值频点的压制增益,包括:计算频点距离与第一杂音抑制测试值的第一乘积;获取最大帧数阈值与持续帧数的差值二,计算差值二与第二杂音抑制测试值的第二乘积;将第一乘积、第二乘积与峰值幅度阈值求和得到压制目标幅度;基于压制目标幅度与峰值幅度的大小关系确定峰值频点的压制增益。
本申请实施例中压制目标幅度Xtarget的计算公式如下:
由此可见,相比于本申请上一个实施例来说,本申请实施例的压制目标幅度的取值同时由峰值幅度阈值peakThr、频点距离peakOffset以及持续帧数peakCount决定。且,除频点距离peakOffset以外,持续帧数peakCount也通过第二杂音抑制测试值b进行抑制处理。第二杂音抑制测试值b与第一杂音抑制测试值α相同,都是通过杂音测试确定的小1.0的正实数。例如,针对不同的发声器件,经过杂音测试其参数α和b可以是(0.0031,0.0042),(0.0013,0.0025)或者(0.0009,0.0037)等。而由于压制的越多对声音的损伤越大,所以杂音测试值α和b的取值目标是令各个频点都不出现杂音的同时,尽可能确保压制的越少。因此,若在对声学器件的杂音测试得到了多个满足要求的杂音测试值α和b,一般选最小的。
另外,应当理解的是,本申请实施例有关步骤S201、S202和S205的详细说明和可能实现的方式,可以参考上述本申请的第一个实施例,即参考本申请第一个实施例中步骤S101、S102和S104的详细说明和可能实现的方式,在此不再赘述。总的来说,在本申请实施例中,通过进一步考虑同一位置峰值持续对气流杂音的影响来确定压制增益进行频点的幅度压制,从而能够提高压制增益的精准性,提升抑制效果。
本申请实施例还提供另一种气流杂音抑制方法,具体说明如下:
一般来说,由于音频信号中低于频率F0的音频成分很难发出来,其中频率F0基于不同的发声器件不同,具体取值取决于实际所应用的发声器件。所以通常都会通过算法把低于该频率F0的音频成分抑制掉,因此气流杂音频段通常就是以频率F0为起始频率,频率F0对应的频点即为气流杂音频段的起始频点。比如,450Hz~1800Hz、500Hz~2900Hz、650Hz~4700Hz这三段气流杂音频段对应的频率F0分别是450Hz、500Hz和650Hz,而450Hz、500Hz和650Hz所对应的频点即为对应气流杂音频段的起始频点。
并且,由于在使用过程中,频率F0可能会因为某些特殊情况出现变化。例如,出音口被堵孔时,频率F0会上升,而音腔泄漏时,频率F0会下降。因此,相对应的,气流杂音频段的范围就会随着频率F0的变动而变动。所以,发声设备进行气流杂音抑制的处理时,如果不考虑实际频率FO的变动而一直采用所测量的固定的气流杂音频段,那么在发生特殊情况时可能就会导致抑制效果下降。因此,如果在气流杂音抑制的过程中实时对频率F0进行动态的检测来更新气流杂音频段,气流杂音频段的范围会更精准,进而气流杂音的抑制会更加准确。故,本申请实施例在上述两个实施例的基础上,进一步增加基于反馈信号,包括反馈电压和反馈电流来动态更新复数频谱信号中的气流杂音频段的处理,如图11所示的原理框图。
另外,应当理解的是,由于本申请实施例是基于发声器件的反馈信号检测频率FO的变动,为了确保有相应的反馈信号,发声器件需要带有器件保护,比如带有器件保护smartPA芯片的发声器件。
以下,结合图12或图13详细说明本申请实施例提供的气流杂音抑制方法。具体的,参考图12或图13,在本申请实施例中,发声设备利用傅里叶变换把时域上的音频信号转换到频域上得到复数频谱信号之后,先根据反馈电压和反馈电流来动态更新复数频谱信号中的气流杂音频段。然后,计算更新后该气流杂音频段各频点的信号幅度,从中确定峰值幅度Xpeak。进而,发声设备再进一步统计该峰值幅度Xpeak的持续帧数peakCount,根据峰值幅度Xpeak、峰值幅度Xpeak对应峰值频点kPeak与气流杂音频段的起始频点kStart之间的频点距离peakOffset,以及持续帧数peakCount,对峰值频点kPeak进行幅度压制。
在一个可能实现的方式中,步骤S302或步骤S402具体包括:分别对反馈电压和反馈电流进行时频转换后计算频域阻抗;在预设搜索频段对应的频点索引中,搜索使频域阻抗最大的频点索引作为复数频谱信号中气流杂音频段的新起始索引;根据新起始索引对应的频率更新复数频谱信号的气流杂音频段。
在本申请实施例中,将反馈电流定义为i(n),反馈电压定义为v(n),对反馈电流i(n)和反馈电压v(n)都分别进行傅里叶变换完成时频转换后取其幅值,从而得到电流幅度频谱i(k)和电压幅度频谱v(k)。然后,计算电流幅度频谱i(k)和电压幅度频谱v(k)的频域阻抗R(k),计算公式如下所示:
最后,在频率F0的搜索范围(即预设搜索频段)对应的频点索引范围内,确定使得频域阻抗R(k)取最大值的频点索引作为气流杂音频段的新起始索引kF0。然后把该新起始索引kF0在预设搜索频段内对应的频率作为动态检测到的频率F0来更新气流杂音频段。
例如,假设频率F0的搜索范围(即预设搜索频段)是200Hz~2000Hz,以频率间隔=50Hz为例,该搜索范围对应的频点索引k=4~40,即kF0Start=4, kF0End=40。然后,确定R(k)取最大值的k为新起始索引kF0,表达式如下所示:
那么,假设kF0=40,则其对应的频率2000Hz即为检测的频率F0。以气流杂音频段650Hz~4700Hz为例的话,更新后的气流杂音频段则为2000Hz~4700Hz。后续,发声设备则只要计算气流杂音频段2000Hz~4700Hz中各频点的信号幅度以获取峰值幅度Xpeak,进而进一步基于该峰值幅度Xpeak、峰值幅度Xpeak对应的峰值频点kPeak与气流杂音频段的起始频点之间的频点距离peakOffset,对峰值频点Xpeak进行幅度压制。或者,统计峰值幅度Xpeak的持续帧数peakCount后,基于峰值幅度Xpeak、频点距离peakOffset以及持续帧数peakCount对峰值频点Xpeak进行幅度压制。上述后续步骤的具体说明和可能的实现方式可参考上述本申请第一个实施例和第二个实施例。即,本申请实施例图12中S301、S303、S304和S305等步骤的详细说明和可能实现的方式,可以参考本申请第一个实施例,例如参考第一个实施例中S101~S104等步骤的详细说明和可能实现的方式,在此不再赘述。而图13中S401、S403~S406等步骤的说明和可能实现的方式,可以参考本申请第二个实施例,即参考第二个实施例中S201~S205等步骤的详细说明和可能实现的方式,在此不再赘述。
由此,本申请实施例对气流杂音频段进行幅度压制之前,先根据反馈信号动态检测并更新气流杂音频段,使得能够基于实际情况得到准确的气流杂音频段,从而提高后续气流杂音的抑制效果。
本申请另一实施例提供一种音频模组,该音频模组包括一个或多个音频处理器和存储器,音频处理器与存储器耦合;存储器中存储一个或多个计算机程序,当音频处理器执行计算机程序时,使得音频模组执行上述任一实施例所述的气流杂音抑制方法,得到抑制后的音频信号。
本申请另一实施例提供一种发声设备,该发声设备包括一个或多个发声器件,以及音频模组。该音频模块包括一个或多个音频处理器和存储器,音频处理器与存储器耦合;存储器中存储一个或多个计算机程序,当音频模组中的音频处理器执行计算机程序时,使得发声设备执行上述任一实施例所述的气流杂音抑制方法,得到抑制后的音频信号。
本申请另一实施例提供一种发声设备,包括一个或多个发声器件、一个或多个处理器和存储器;发声器件用于播放音频;存储器中存储一个或多个计算机程序,当处理器执行计算机程序时,使得发声设备实现上述任一实施例所述的气流杂音抑制方法,得到抑制后的音频信号。
本申请实施例对该发声设备的具体类型不作特殊限制。其中,发声设备所包括的发声器件可以是扬声器。示例性的,图14示意了一种发声设备100的结构示意图。
发声设备100可以包括手机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence, AI)设备、可穿戴式设备(如:智能电话手表、手环)、车载设备、智能家居设备、或智慧城市设备等内置发声器件且可以实现音频播放功能的设备。
发声设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接头130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对发声设备100的具体限定。在本申请另一些实施例中,发声设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器可以为高速缓冲存储器。该存储器可以保存处理器110用过或使用频率较高的指令或数据。如果处理器110需要使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。处理器110可以通过以上至少一种接口连接触摸传感器、音频模块、无线通信模块、显示器、摄像头等模块。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对发声设备100的结构限定。在本申请另一些实施例中,发声设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
USB接头130是一种符合USB标准规范的接口,可以用于连接发声设备100和外围设备,具体可以是Mini USB接头,Micro USB接头,USB Type C接头等。USB接头130可以用于连接充电器,实现充电器为该发声设备100充电,也可以用于连接其他电子设备,实现发声设备100与其他电子设备之间传输数据。也可以用于连接耳机,通过耳机输出发声设备中存储的音频。该接头还可以用于连接其他电子设备,例如VR设备等。在一些实施例中,通用串行总线的标准规范可以为USB1.x、USB2.0、USB3.x和USB4。
充电管理模块140用于接收充电器的充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过发声设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为发声设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
发声设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。发声设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在发声设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在发声设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),蓝牙低功耗(bluetooth low energy,BLE),超宽带(ultra wide band,UWB),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,发声设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得发声设备100可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。该GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
发声设备100可以通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,发声设备100可以包括1个或多个显示屏194。
发声设备100可以通过摄像模组193,ISP,视频编解码器,GPU,显示屏194以及应用处理器AP、神经网络处理器NPU等实现摄像功能。
摄像模组193可用于采集拍摄对象的彩色图像数据以及深度数据。ISP 可用于处理摄像模组193采集的彩色图像数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将该电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像模组193中。
在一些实施例中,摄像模组193可以由彩色摄像模组和3D感测模组组成。
在一些实施例中,彩色摄像模组的摄像头的感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。
在一些实施例中,3D感测模组可以是(time of flight,TOF)3D感测模块或结构光(structured light)3D感测模块。其中,结构光3D感测是一种主动式深度感测技术,结构光3D感测模组的基本零组件可包括红外线(Infrared)发射器、IR相机模等。结构光3D感测模组的工作原理是先对被拍摄物体发射特定图案的光斑(pattern),再接收该物体表面上的光斑图案编码(light coding),进而比对与原始投射光斑的异同,并利用三角原理计算出物体的三维坐标。该三维坐标中就包括发声设备100距离被拍摄物体的距离。其中,TOF 3D感测可以是主动式深度感测技术,TOF 3D感测模组的基本组件可包括红外线(Infrared)发射器、IR相机模等。TOF 3D感测模组的工作原理是通过红外线折返的时间去计算TOF 3D感测模组跟被拍摄物体之间的距离(即深度),以得到3D景深图。
结构光3D感测模组还可应用于人脸识别、体感游戏机、工业用机器视觉检测等领域。TOF 3D感测模组还可应用于游戏机、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)等领域。
在另一些实施例中,摄像模组193还可以由两个或更多个摄像头构成。这两个或更多个摄像头可包括彩色摄像头,彩色摄像头可用于采集被拍摄物体的彩色图像数据。这两个或更多个摄像头可采用立体视觉(stereo vision)技术来采集被拍摄物体的深度数据。立体视觉技术是基于人眼视差的原理,在自然光源下,透过两个或两个以上的摄像头从不同的角度对同一物体拍摄影像,再进行三角测量法等运算来得到发声设备100与被拍摄物之间的距离信息,即深度信息。
在一些实施例中,发声设备100可以包括1个或多个摄像模组193。具体的,发声设备100可以包括1个前置摄像模组193以及1个后置摄像模组193。其中,前置摄像模组193通常可用于采集面对显示屏194的拍摄者自己的彩色图像数据以及深度数据,后置摄像模组可用于采集拍摄者所面对的拍摄对象(如人物、风景等)的彩色图像数据以及深度数据。
在一些实施例中,处理器110中的CPU或GPU或NPU可以对摄像模组193所采集的彩色图像数据和深度数据进行处理。在一些实施例中,NPU可以通过骨骼点识别技术所基于的神经网络算法,例如卷积神经网络算法(CNN),来识别摄像模组193(具体是彩色摄像模组)所采集的彩色图像数据,以确定被拍摄人物的骨骼点。CPU或GPU也可来运行神经网络算法以实现根据彩色图像数据确定被拍摄人物的骨骼点。在一些实施例中,CPU或GPU或NPU还可用于根据摄像模组193(可以是3D感测模组)所采集的深度数据和已识别出的骨骼点来确认被拍摄人物的身材(如身体比例、骨骼点之间的身体部位的胖瘦情况),并可以进一步确定针对该被拍摄人物的身体美化参数,最终根据该身体美化参数对被拍摄人物的拍摄图像进行处理,以使得该拍摄图像中该被拍摄人物的体型被美化。后续实施例中会详细介绍如何基于摄像模组193所采集的彩色图像数据和深度数据对被拍摄人物的图像进行美体处理,这里先不赘述。
数字信号处理器用于处理数字信号,还可以处理其他数字信号。例如,当发声设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。发声设备100可以支持一种或多种视频编解码器。这样,发声设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network ,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现发声设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展发声设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。或将音乐,视频等文件从发声设备传输至外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储发声设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行发声设备100的各种功能方法或数据处理。
发声设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。音频模块170也可以是包括一个或多个音频处理器和存储器的音频模组,音频模组中的音频处理器与存储器耦合。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。发声设备100可以通过扬声器170A收听音乐,或输出免提通话的音频信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当发声设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。发声设备100可以设置至少一个麦克风170C。在另一些实施例中,发声设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,发声设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。发声设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,发声设备100根据压力传感器180A检测该触摸操作强度。发声设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定发声设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定发声设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测发声设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,控制镜头反向运动抵消发声设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,发声设备100根据气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。发声设备100可以利用磁传感器180D检测翻盖皮套的开合。当发声设备为可折叠电子设备,磁传感器180D可以用于检测发声设备的折叠或展开,或折叠角度。在一些实施例中,当发声设备100是翻盖机时,发声设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测发声设备100在各个方向上(一般为三轴)加速度的大小。当发声设备100静止时可检测出重力的大小及方向。还可以用于识别发声设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。发声设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,发声设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。发声设备100通过发光二极管向外发射红外光。发声设备100使用光电二极管检测来自附近物体的红外反射光。当检测到的反射光的强度大于阈值时,可以确定发声设备100附近有物体。当检测到的反射光的强度小于阈值时,发声设备100可以确定发声设备100附近没有物体。发声设备100可以利用接近光传感器180G检测用户手持发声设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L可以用于感知环境光亮度。发声设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测发声设备100是否被遮挡,例如发声设备在口袋里。当检测到发声设备被遮挡或在口袋里,可以使部分功能(例如触控功能)处于禁用状态,以防误操作。
指纹传感器180H用于采集指纹。发声设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,发声设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当通过温度传感器180J检测的温度超过阈值,发声设备100执行降低处理器的性能,以便降低发声设备的功耗以实施热保护。在另一些实施例中,当通过温度传感器180J检测的温度低于另一阈值时,发声设备100对电池142加热。在其他一些实施例中,当温度低于又一阈值时,发声设备100可以对电池142的输出电压升压。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于发声设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于该骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于该骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190可以包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。发声设备100可以接收按键输入,产生与发声设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和发声设备100的接触和分离。发声设备100可以支持1个或多个SIM卡接口。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。发声设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,发声设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在发声设备100中,不能和发声设备100分离。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,用以完成以上描述的全部或部分功能。
本申请另一实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当计算机程序被发声设备中的处理器执行时,使得发声设备实现上述任一实施例所述的气流杂音抑制方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围的变化或者替换,都应涵盖在本申请的保护方位之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种气流杂音抑制方法,其特征在于,所述方法包括:
对发声器件待播放的音频信号进行时频转换得到复数频谱信号;
计算所述复数频谱信号中气流杂音频段各频点的信号幅度,获取所述各频点的信号幅度中的峰值幅度;其中,所述气流杂音频段与所述发声器件对应;
根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,对所述峰值频点进行幅度压制。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,对所述峰值频点进行幅度压制之前,所述方法还包括:
统计所述峰值幅度的持续帧数;
其中,所述根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,对所述峰值频点进行幅度压制,包括:
根据所述峰值幅度、所述峰值频点与所述起始频点之间的频点距离、以及所述持续帧数,对所述峰值频点进行幅度压制。
3.根据权利要求1或2所述的方法,其特征在于,在所述根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,对所述峰值频点进行幅度压制之前,所述方法还包括:
获取所述峰值频点的频点索引和所述气流杂音频段的起始频点的频点索引;
计算所述峰值频点的频点索引和所述起始频点的频点索引的差值一,将所述差值一作为所述峰值频点与所述起始频点的频点距离。
4.根据权利要求1所述的方法,其特征在于,所述根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,对所述峰值频点进行幅度压制,包括:
根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,计算所述峰值频点的压制增益;
利用所述压制增益对所述峰值频点进行幅度压制。
5.根据权利要求4所述的方法,其特征在于,所述根据所述峰值幅度、所述峰值幅度对应的峰值频点与所述气流杂音频段的起始频点之间的频点距离,计算所述峰值频点的压制增益,包括:
计算所述频点距离与第一杂音抑制测试值的第一乘积;
将所述第一乘积与峰值幅度阈值求和,得到压制目标幅度;
当所述峰值幅度小于或等于所述压制目标幅度时,确定所述峰值频点的压制增益为1;
当所述峰值幅度大于所述压制目标幅度时,将所述压制目标幅度与所述峰值幅度的比值作为所述峰值频点的压制增益。
6.根据权利要求2所述的方法,其特征在于,所述根据所述峰值幅度、所述峰值频点与所述起始频点之间的频点距离、以及所述持续帧数,对所述峰值频点进行幅度压制,包括:
根据所述峰值幅度、所述峰值频点与所述起始频点之间的频点距离、以及所述持续帧数,计算所述峰值频点的压制增益;
利用所述压制增益对所述峰值频点进行幅度压制。
7.根据权利要求6所述的方法,其特征在于,所述根据所述峰值幅度、所述峰值频点与所述起始频点之间的频点距离、以及所述持续帧数,计算所述峰值频点的压制增益,包括:
计算所述频点距离与第一杂音抑制测试值的第一乘积;
获取最大帧数阈值与所述持续帧数的差值二,计算所述差值二与第二杂音抑制测试值的第二乘积;将所述第一乘积、所述第二乘积与峰值幅度阈值求和得到压制目标幅度;
当所述峰值幅度小于或等于所述压制目标幅度时,所述峰值频点的压制增益为1;
当所述峰值幅度大于所述压制目标幅度时,将所述压制目标幅度与所述峰值幅度的比值作为所述峰值频点的压制增益。
8.根据权利要求2、6或7中任一项所述的方法,其特征在于,所述统计所述峰值幅度的持续帧数包括:
将所述峰值幅度与峰值幅度阈值进行比较;
在所述峰值幅度小于所述峰值幅度阈值时,将计数器的计数值设置为初始值;
在所述峰值幅度大于或等于所述峰值幅度阈值时,若所述计数值为初始值,则所述计数值加1;若所述计数值大于所述初始值且小于计数最大阈值,则将所述峰值幅度对应的频点索引与上一帧音频信号峰值幅度对应的频点索引进行比较;
若比较的两个频点索引相等,则所述计数值加1;若比较的两个频点索引不相等,则将所述计数值设置为1;
获取所述计数器最终的计数值作为所述峰值幅度的持续帧数。
9.根据权利要求4-7任一项所述的方法,其特征在于,在所述计算所述峰值频点的压制增益之后,所述方法还包括:
根据所述峰值频点的压制增益,以及所述峰值频点与所述峰值频点附近2M个频点之间的频点距离,分别计算所述2M个频点中每个频点的压制增益;
分别采用所述2M个频点中各个频点的压制增益,对对应频点进行幅度压制。
10.根据权利要求9所述的方法,其特征在于,所述根据所述峰值频点的压制增益,以及所述峰值频点与所述峰值频点附近2M个频点之间的频点距离,分别计算所述2M个频点中每个频点的压制增益,包括:
其中,gain(kPeak)是所述峰值频点的压制增益,gain(kPeak+i)是与所述峰值频点的频点距离为i的频点的压制增益,i=1,2,…,M或者-1,-2,…,-M。
11.根据权利要求1或2所述的方法,其特征在于,在所述计算所述复数频谱信号中气流杂音频段各频点的信号幅度,获取所述各频点的信号幅度中的峰值幅度之前,所述方法还包括:
根据发声器件的反馈电压和反馈电流动态更新所述复数频谱信号中的气流杂音频段。
12.根据权利要求11所述的方法,其特征在于,所述根据发声器件的反馈电压和反馈电流动态更新所述复数频谱信号中的气流杂音频段,包括:
分别对所述反馈电压和所述反馈电流进行时频转换后,计算频域阻抗;
在预设搜索频段对应的频点索引中,搜索使所述频域阻抗最大的频点索引作为所述复数频谱信号中气流杂音频段的新起始索引;
根据所述新起始索引对应的频率更新所述复数频谱信号的气流杂音频段。
13.根据权利要求1所述的方法,其特征在于,所述计算所述复数频谱信号中气流杂音频段各频点的信号幅度,获取所述各频点的信号幅度中的峰值幅度,包括:
对所述各频点的实部信号和虚部信号分别进行平方求和后开方,得到所述各频点的信号幅度;
比较所述各频点的信号幅度,将最大的所述信号幅度确定为峰值幅度。
14.一种音频模组,其特征在于,所述音频模组包括:一个或多个音频处理器和存储器,所述音频处理器与存储器耦合;所述存储器中存储一个或多个计算机程序,当所述音频处理器执行所述计算机程序时,使得所述音频模组执行如权利要求1-13中任一项所述的气流杂音抑制方法,得到抑制后的音频信号。
15.一种发声设备,其特征在于,所述发声设备包括:一个或多个发声器件,以及如权利要求14所述音频模组。
16.一种发声设备,其特征在于,所述发声设备包括:一个或多个发声器件、一个或多个处理器和存储器;所述发声器件、所述存储器与所述处理器耦合;所述发声器件用于播放音频;所述存储器中存储一个或多个计算机程序,当所述处理器执行所述计算机程序时,使得所述发声设备执行如权利要求1-13中任一项所述的气流杂音抑制方法。
17.根据权利要求16所述的发声设备,其特征在于,所述发声器件包括扬声器。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被发声设备中的处理器执行时,使得所述发声设备实现权利要求1-13中任一项所述的气流杂音抑制方法。
CN202310494526.9A 2023-05-05 2023-05-05 气流杂音抑制方法、音频模组、发声设备和存储介质 Active CN116233696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310494526.9A CN116233696B (zh) 2023-05-05 2023-05-05 气流杂音抑制方法、音频模组、发声设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310494526.9A CN116233696B (zh) 2023-05-05 2023-05-05 气流杂音抑制方法、音频模组、发声设备和存储介质

Publications (2)

Publication Number Publication Date
CN116233696A CN116233696A (zh) 2023-06-06
CN116233696B true CN116233696B (zh) 2023-09-15

Family

ID=86579063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310494526.9A Active CN116233696B (zh) 2023-05-05 2023-05-05 气流杂音抑制方法、音频模组、发声设备和存储介质

Country Status (1)

Country Link
CN (1) CN116233696B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567672A (zh) * 2009-05-15 2009-10-28 杭州华三通信技术有限公司 获取增益的方法及系统
JP2015018113A (ja) * 2013-07-11 2015-01-29 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。
CN109074815A (zh) * 2016-06-01 2018-12-21 高通股份有限公司 抑制或减少风湍流效应
CN109788410A (zh) * 2018-12-07 2019-05-21 武汉市聚芯微电子有限责任公司 一种抑制扬声器杂音的方法和装置
CN110022514A (zh) * 2019-05-17 2019-07-16 深圳市湾区通信技术有限公司 音频信号的降噪方法、装置、系统及计算机存储介质
CN115243153A (zh) * 2022-05-31 2022-10-25 深圳市奋达科技股份有限公司 一种音响音质调节方法、系统
WO2023000778A1 (zh) * 2021-07-19 2023-01-26 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备
WO2023016018A1 (zh) * 2021-08-12 2023-02-16 北京荣耀终端有限公司 语音处理方法和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567672A (zh) * 2009-05-15 2009-10-28 杭州华三通信技术有限公司 获取增益的方法及系统
JP2015018113A (ja) * 2013-07-11 2015-01-29 株式会社Jvcケンウッド 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。
CN109074815A (zh) * 2016-06-01 2018-12-21 高通股份有限公司 抑制或减少风湍流效应
CN109788410A (zh) * 2018-12-07 2019-05-21 武汉市聚芯微电子有限责任公司 一种抑制扬声器杂音的方法和装置
CN110022514A (zh) * 2019-05-17 2019-07-16 深圳市湾区通信技术有限公司 音频信号的降噪方法、装置、系统及计算机存储介质
WO2023000778A1 (zh) * 2021-07-19 2023-01-26 北京荣耀终端有限公司 一种音频信号的处理方法及相关电子设备
WO2023016018A1 (zh) * 2021-08-12 2023-02-16 北京荣耀终端有限公司 语音处理方法和电子设备
CN115243153A (zh) * 2022-05-31 2022-10-25 深圳市奋达科技股份有限公司 一种音响音质调节方法、系统

Also Published As

Publication number Publication date
CN116233696A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN111050250B (zh) 降噪方法、装置、设备和存储介质
CN111402913B (zh) 降噪方法、装置、设备和存储介质
CN113496708B (zh) 拾音方法、装置和电子设备
CN114846816B (zh) 立体声拾音方法、装置、终端设备和计算机可读存储介质
CN114727212B (zh) 音频的处理方法及电子设备
CN113744750B (zh) 一种音频处理方法及电子设备
CN111445901A (zh) 音频数据获取方法、装置、电子设备及存储介质
CN113393856B (zh) 拾音方法、装置和电子设备
CN113438364B (zh) 振动调节方法、电子设备、存储介质
CN113129916B (zh) 一种音频采集方法、系统及相关装置
CN114120950B (zh) 一种人声屏蔽方法和电子设备
CN109360577B (zh) 对音频进行处理的方法、装置存储介质
CN116233696B (zh) 气流杂音抑制方法、音频模组、发声设备和存储介质
CN116346982B (zh) 处理音频的方法、电子设备及可读存储介质
CN114283827B (zh) 音频去混响方法、装置、设备和存储介质
CN116320123B (zh) 一种语音信号的输出方法和电子设备
CN116055983B (zh) 一种音频信号处理方法及电子设备
CN113450823B (zh) 基于音频的场景识别方法、装置、设备及存储介质
US20240111478A1 (en) Video Recording Method and Electronic Device
CN116939431A (zh) 处理人声音频的方法、设备和存储介质
CN114093391A (zh) 一种异常信号的过滤方法及装置
CN117133311A (zh) 音频场景识别方法及电子设备
CN117667001A (zh) 一种音量调节方法、电子设备及系统
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN113990340A (zh) 音频信号的处理方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant