CN117499838A - 音频的处理方法、装置和非易失性计算机可读存储介质 - Google Patents
音频的处理方法、装置和非易失性计算机可读存储介质 Download PDFInfo
- Publication number
- CN117499838A CN117499838A CN202210885907.5A CN202210885907A CN117499838A CN 117499838 A CN117499838 A CN 117499838A CN 202210885907 A CN202210885907 A CN 202210885907A CN 117499838 A CN117499838 A CN 117499838A
- Authority
- CN
- China
- Prior art keywords
- loudness
- sampling point
- gain
- current
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 196
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000008569 process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本公开涉及一种音频的处理方法、装置和非易失性计算机可读存储介质,涉及信号处理技术领域。该音频的处理方法包括:根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益;利用当前帧的各采样点及其对应的增益,对当前帧进行响度均衡处理。本公开的技术方案能够提高响度均衡的效果。
Description
技术领域
本公开涉及信号处理技术领域,特别涉及一种音频的处理方法、音频的处理装置和非易失性计算机可读存储介质。
背景技术
不同音视频之间响度往往大小不一,用户需要经常调整音量键。而且,响度“战争”会对人耳造成听力损伤等问题。响度均衡技术可以在视频播放的时候,使得所有音频响度都在一个预设范围内,用户无需手动经常调整音量,即可维持一个比较理想的听感感受,也是对收听用户的听觉形成一定保护。
在相关技术中,对全局响度进行计算,利用响度值或者响度最大值对音频进行统一的增益处理。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:容易出现严重的截幅失真,导致响度均衡效果差。
鉴于此,本公开提出了一种音频的处理技术方案,能够提高响度均衡的效果。
根据本公开的一些实施例,提供了一种音频的处理方法,包括:根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益;利用当前帧的各采样点及其对应的增益,对当前帧进行响度均衡处理。
在一些实施例中,根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益包括:根据响度峰值是否小于峰值阈值,确定下一个采样点对应的增益。
在一些实施例中,根据响度峰值是否小于峰值阈值,确定下一个采样点对应的增益包括:在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与当前采样点的目标响度的差异,确定下一个采样点对应的增益;在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定下一个采样点对应的增益包括:在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益;在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益;根据当前采样点对应的增益和目标增益,确定下一个采样点对应的增益,下一个采样点对应的增益小于目标增益。
在一些实施例中,根据当前采样点对应的增益和目标增益,确定下一个采样点对应的增益包括:在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差值为正还是负,确定采用第一收敛速度因子还是第二收敛速度因子,第一收敛速度因子与第二收敛速度因子不同;根据第一收敛速度因子或第二收敛速度因子,以及历史采样点对应的增益,确定下一个采样点对应的增益。
在一些实施例中,根据当前采样点的响度与当前采样点的目标响度的差异,确定下一个采样点对应的增益包括:利用当前采样点对应的增益,对当前采样点的响度进行调整;根据调整后的响度与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定当前帧的下一个采样点对应的增益包括:根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点的候选增益;在候选增益未超过增益阈值的情况下,将候选增益确定为下一个采样点对应的增益;在候选增益超过增益阈值的情况下,根据增益阈值确定下一个采样点对应的增益。
在一些实施例中,对当前帧进行响度均衡处理包括:利用当前采样点对应的增益对当前采样点的响度进行调整;在音频的响度未超过第一响度阈值的情况下,将调整后的响度作为当前采样点的输出响度;在音频的响度超过第一响度阈值的情况下,根据第一响度阈值确定当前采样点的输出响度。
在一些实施例中,处理方法还包括:根据当前帧的响度,判断当前帧是否为关键帧;在当前帧不为关键帧的情况下,将当前帧中所有采样点对应的增益确定为预设增益值;在当前帧为关键帧的情况下,确定当前帧的当前采样点对应的增益。
在一些实施例中,根据当前帧的响度,判断当前帧是否为关键帧包括:根据当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断当前帧是否为关键帧,第二响度阈值根据音频中各帧的响度平均值计算。
在一些实施例中,根据当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断当前帧是否为关键帧包括:在当前帧的响度小于第二响度阈值,或者当前帧的响度小于第三响度阈值的情况下,确定当前帧不为关键帧;在当前帧的响度大于或等于第二响度阈值,且当前帧的响度大于或等于第三响度阈值的情况下,确定当前帧为关键帧。
在一些实施例中,音频的响度范围大于或等于响度范围阈值,且音频的响度小于或等于第四响度阈值。
在一些实施例中,处理方法还包括:在音频的响度范围小于响度范围阈值的情况下,利用FFMPEG方式对当前帧进行响度均衡处理;在音频的响度大于第四响度阈值的情况下,利用全局线性增益方式对当前帧进行响度均衡处理。
在一些实施例中,根据音频中当前帧的当前采样点对应的增益,估计未来的响度峰值包括:根据多通道融合后的音频中当前采样点对应的增益,估计响度峰值。
根据本公开的另一些实施例,提供一种音频的处理装置,包括:估计单元,用于根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;确定单元,用于根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益;均衡单元,用于利用当前帧的各采样点及其对应的增益,对当前帧进行响度均衡处理。
在一些实施例中,确定单元根据响度峰值是否小于峰值阈值,确定下一个采样点对应的增益。
在一些实施例中,确定单元在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与当前采样点的目标响度的差异,确定下一个采样点对应的增益,在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定单元在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益,在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益,根据当前采样点对应的增益和目标增益,确定下一个采样点对应的增益,下一个采样点对应的增益小于目标增益。
在一些实施例中,确定单元在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差值为正还是负,确定采用第一收敛速度因子还是第二收敛速度因子,第一收敛速度因子与第二收敛速度因子不同,根据第一收敛速度因子或第二收敛速度因子,以及历史采样点对应的增益,确定下一个采样点对应的增益。
在一些实施例中,确定单元利用当前采样点对应的增益,对当前采样点的响度进行调整;根据调整后的响度与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定单元根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点的候选增益,在候选增益未超过增益阈值的情况下,将候选增益确定为下一个采样点对应的增益,在候选增益超过增益阈值的情况下,根据增益阈值确定下一个采样点对应的增益。
在一些实施例中,均衡单元利用当前采样点对应的增益对当前采样点的响度进行调整,在音频的响度未超过第一响度阈值的情况下,将调整后的响度作为当前采样点的输出响度,在音频的响度超过第一响度阈值的情况下,根据第一响度阈值确定当前采样点的输出响度。
在一些实施例中,处理装置还包括:判断单元,用于根据当前帧的响度,判断当前帧是否为关键帧;其中,确定单元在当前帧不为关键帧的情况下,将当前帧中所有采样点对应的增益确定为预设增益值,在当前帧为关键帧的情况下,确定当前帧的当前采样点对应的增益。
在一些实施例中,判断单元根据当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断当前帧是否为关键帧,第二响度阈值根据音频中各帧的响度平均值计算。
在一些实施例中,判断单元在当前帧的响度小于第二响度阈值,或者当前帧的响度小于第三响度阈值的情况下,确定当前帧不为关键帧,在当前帧的响度大于或等于第二响度阈值,且当前帧的响度大于或等于第三响度阈值的情况下,确定当前帧为关键帧。
在一些实施例中,音频的响度范围大于或等于响度范围阈值,且音频的响度小于或等于第四响度阈值。
在一些实施例中,均衡单元在音频的响度范围小于响度范围阈值的情况下,利用FFMPEG方式对当前帧进行响度均衡处理,在音频的响度大于第四响度阈值的情况下,利用全局线性增益方式对当前帧进行响度均衡处理。
在一些实施例中,估计单元根据多通道融合后的音频中当前采样点对应的增益,估计响度峰值。
根据本公开的又一些实施例,提供一种音频的处理装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的音频的处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的音频的处理方法。
在上述实施例中,根据预先估计的响度峰值,确定各采样点的增益。这样,以响度峰值为依据进行响度均衡处理,能够解决音频截幅失真的技术问题,并消除响度忽大忽小、过度放大等现象,从而提高响度均衡的效果。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的音频的处理技术方法的一些实施例的流程图;
图2示出本公开的音频的处理技术方法的另一些实施例的流程图;
图3示出本公开的音频的处理技术方法的又一些实施例的流程图;
图4示出本公开的音频的处理装置的一些实施例的框图;
图5示出本公开的音频的处理装置的另一些实施例的框图;
图6示出本公开的音频的处理装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,直接对全局进行响度计算后,再进行全局增益计算的方法,没有考虑实际当中单条音频中每一帧的响度变化剧烈的特点。求取全局响度,实际上是对全局响度的平均,利用平均值对音频进行放大对极值不友好,容易出现截幅失真技术问题。
直接利用最大值对音频进行增益计算也会有类似的技术问题。一条音频中如果极值接近满幅值,但是其他帧响度极小,就会出现对音频响度进一步减小的可能。这样,容易出现响度值整体偏低的情况。
另外,FFMPEG中的响度均衡方案是基于EBU R.128标准开发的算法。整个EBUR.128标准是基于广告、音乐、影视等作品中的要求和使用指定的,不适合短视频平台。
广告、音乐、影视这些作品的特点是配音与音乐都是经过严格的后期制作而成,录制条件极高,后期制作极为严格。因为,音频制作过程中不会有杂音或者噪声、直流偏置等问题存在,所以在这种情况下,很少甚至不会出现噪声、杂音等问题。
然而,进行短视频领域制作的都是普通大众用户,上传的短视频种类繁多、水平不一。例如,有个人录制音乐,也有利用软件合成的作品,有对生活的抓拍记录,也有对事物的介绍说明。
因此,整体音频中的内容很多,包括背景音乐、噪声、人声以及虫鸣声、汽车鸣笛声等杂音;而且,短视频录制的工具也很多,包括手机、录像机、录音笔、拾音设备等,设备等级不一;还可能涉及到种类众多的录音APP(应用)和音频制作以及修剪软件。
EBU R.128标准中有三个重要指标:响度、动态范围、峰值。为了将原始音频的响度值整体符合设定指标值,需要对原始音频整体的响度范围(即动态范围)和响度大小进行重新缩放。
FFMPEG中的响度均衡方案中是逐帧操作的,并且帧与帧直接的增益差异比较大。最终造成音频忽大忽小、静音或噪声被过度放大、杂音被放大,对音质和听感造成影响。
例如,音频本身的动态范围已经远超过7dB,响度可能只有-30dB,最大值可能比较大。FFMPEG中的响度均衡方案算法,对于小音量需要进行比较大的响度上拉,原本响度比较大的位置又需要进行下拉,进而满足动态范围要求。如果帧和帧之间上拉与下拉的增益变化过大,则最终效果会对音乐产生较为严重的破坏性,整体音乐听起来时大时小,抑扬顿挫节奏感将会大打折扣。
针对上述技术问题,本公开提出一种适用于短视频平台的响度均衡技术方案。本公开在对音频进行响度均衡的同时,减少了直流噪声,对噪声的放大进行了限制,缓解FFMPEG等方法带来的忽大忽小、杂音等导致响度不稳定的技术问题;同时,避免截幅失真、响度误被减小等技术问题,从而改善收听体验、提高听感。
例如,可以通过下面的实施例,实现本公开的技术方案。
图1示出本公开的音频的处理技术方法的一些实施例的流程图。
如图1所示,在步骤110中,根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值。
在一些实施例中,根据多通道融合后的音频中当前采样点对应的增益,估计响度峰值。
例如,利用高通滤波器滤除50Hz以内的直流噪声和干扰;利用计权方法(如K计权等)对每一个通道进行滤波;对滤波后的多通道逐点进行能量计算;将多通道融合成单通道能量。此阶段为通道融合和通道预处理阶段(即准备阶段),之后可以利用本公开的其余步骤进行信号处理阶段。
在一些实施例中,根据当前帧的响度,判断当前帧是否为关键帧;在当前帧不为关键帧的情况下,将当前帧中所有采样点对应的增益确定为预设增益值;在当前帧为关键帧的情况下,确定当前帧的当前采样点对应的增益。
例如,根据当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断当前帧是否为关键帧,第二响度阈值根据音频中各帧的响度平均值计算。
例如,在当前帧的响度小于第二响度阈值,或者当前帧的响度小于第三响度阈值的情况下,确定当前帧不为关键帧;在当前帧的响度大于或等于第二响度阈值,且当前帧的响度大于或等于第三响度阈值的情况下,确定当前帧为关键帧。
在一些实施例中,首先,设定预观察的帧长、处理单帧长度、目标响度值、目标峰值、低噪或静音响度门限值、响度静音段波动范围值等相关参数的处置并初始化响度均值、增益值等;然后,加载处理单帧长度和预观察帧长,计算当前帧的响度。
如果响度小于第三响度阈值(如第三响度阈值可以为响度均值与动态范围的差值)或者小于第二响度阈值,则将整帧的采样点的目标增益确定为1,并利用该目标增益与历史增益进行平滑,以确定整帧的采样点的增益。
否则,将当前帧确定为需要逐点计算增益的关键帧,对该帧的采样点能量进行响度平滑,得到平滑能量;利用当前增益对预观察长度内的采样点,进行响度峰值估计;如果存在超过峰值阈值的采样点,则将超出位置的响度与目标响度进行递归计算,开始调整增益值。此阶段为增益计算阶段。
在步骤120中,根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益。
在一些实施例中,根据响度峰值是否小于峰值阈值,确定下一个采样点对应的增益。
在一些实施例中,在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与当前采样点的目标响度的差异,确定下一个采样点对应的增益;在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,确定下一个采样点对应的增益。
例如,在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益;在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益;根据当前采样点对应的增益和目标增益,确定下一个采样点对应的增益,下一个采样点对应的增益小于目标增益。
例如,在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差值为正还是负,确定采用第一收敛速度因子还是第二收敛速度因子,第一收敛速度因子与第二收敛速度因子不同;根据第一收敛速度因子或第二收敛速度因子,以及历史采样点对应的增益,确定下一个采样点对应的增益。
例如,如果预观察长度内估计出的响度峰值没有超出目标峰值(即峰值阈值),则也开始增益计算阶段。增益计算可以包括:首先,为上拉与下压设定不同的收敛速度因子;利用增益对能量平滑后的采样点进行计算,同时获得新的响度;计算新的响度与目标响度的差异值;根据差异值的方向选定采用哪种收敛速度因子;根据收敛速度因子与差异值,对历史增益进行更新;更新值与最大增益值进行选取,确定新的增益。
在一些实施例中,利用当前采样点对应的增益,对当前采样点的响度进行调整;根据调整后的响度与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点的候选增益;在候选增益未超过增益阈值的情况下,将候选增益确定为下一个采样点对应的增益;在候选增益超过增益阈值的情况下,根据增益阈值确定下一个采样点对应的增益。
在步骤130中,利用当前帧的各采样点及其对应的增益,对当前帧进行响度均衡处理。
在一些实施例中,利用当前采样点对应的增益对当前采样点的响度进行调整;在音频的响度未超过第一响度阈值的情况下,将调整后的响度作为当前采样点的输出响度;在音频的响度超过第一响度阈值的情况下,根据第一响度阈值确定当前采样点的输出响度。
例如,输出响度结果前,对调整后的响度峰值进行检查,使得响度峰值不超过设定值。
例如,重复上述步骤,直到处理完当前帧的所有采样点;对当前帧处理完毕后,进行下一帧更新。对预观察帧进行下一帧更新,直到完成音频中全部帧的计算。
在一些实施例中,音频的响度范围大于或等于响度范围阈值,且音频的响度小于或等于第四响度阈值。例如,在音频的响度范围大于或等于响度范围阈值,且音频的响度小于或等于第四响度阈值的情况下,执行包含步骤110~130的实施例的均衡方法。
在一些实施例中,在音频的响度范围小于响度范围阈值的情况下,利用FFMPEG方式对当前帧进行响度均衡处理;在音频的响度大于第四响度阈值的情况下,利用全局线性增益方式对当前帧进行响度均衡处理。
例如,利用EBU R.128标准,对音频响度分帧进行响度计算,统计出响度范围、响度值、峰值指标等,此流程为预统计阶段;可以根据预统计阶段的结果,选择不同的响度均衡方法以完成均衡操作,此流程为正式处理阶段。
例如,预统计阶段包括:利用高通滤波器,对50Hz以内的低频噪声和直流分量进行抑制;对响度范围、响度值、峰值指标进行计算;之后进入正式处理阶段。
例如,正式处理阶段包括:使用预处理阶段中的高通滤波器,对每一个通道进行滤波;根据计算的响度范围,进行均衡方法的选择。如果响度范围小于响度范围阈值,则选择FFMPEG中的响度均衡方法;如果响度范围不小于响度范围阈值,则判断响度与第四响度阈值的关系;如果响度大于第四响度阈值,则按照差异增益对音频进行整体减小(如全局线性增益方法);否则,使用包含步骤110~130的实施例的均衡方法。
在一些实施例中,为了提高实效性、节省计算资源,可以不对指标进行预统计计算,而是先对每一个通道进行高通滤波,然后使用本公开的均衡方法进行响度均衡。
上述实施例中,可以适用于短视频平台等,能够消除直流噪声对音频质量的影响;避免线性增益对响度均衡的不足之处;缓解了开源算法对听感带来的忽大忽小、过度放大等技术问题;利用预估计阶段与正式处理阶段相结合的方式,将不同算法的优势发挥出来,同时避免badcase的出现。
本公开的响度均衡算法也可以使用于无预估计阶段的直接处理方法中,以缓解计算压力。
本公开的技术方案,考虑了人耳对音频的响应能力,利用计权(如K计权等)将数字响度与人耳感知进行匹配,实现数字于感官的统一。
对于多通道音频,各通道使用相同增益,不会对声像等空间以及位置信息进行能更改,可以完整保留原始音频的空间感知。
本公开的技术方案可以实现自动化处理,无需人力干预即可实现批量计算以及策略选择。缓解短视频平台因为制作水平不一,录制质量不一带来的音频响度突变的情况,从而提升用户的观感,对用户的听力进行保护,缓解听力疲劳等问题。
图2示出本公开的音频的处理技术方法的另一些实施例的流程图。
如图2所示,在步骤210和220中,对输入的待处理的原始音频文件的每个通道音频,分别进行高通滤波和“K”计权处理。
在步骤230中,如果音频文件是多通道音频,则根据不同权重对多通道能量进行融合。
在一些实施例中,如果整体处理流程采用包括预处理统计阶段的两阶段模式,则进入到预处理统计阶段;如果整体处理流程直接采用单次直接处理,即单阶段模式,则直接按照图1中“本公开的响度均衡算法”流程处理。
例如,使用单阶段模式还是两阶段模式可以预先进行人工指定。
在步骤240中,进入预处理统计阶段,进行预估计。例如,可以基于EBU R.128标准完成对响度范围、响度值、峰值的预计算。
在步骤250、260中,根据预估计的结果选择不同响度均衡方法。
在一些实施例中,如果响度范围小于响度范围阈值,则选用FFMPEG中的响度均衡方法;否则,如果响度大于第四响度阈值,则使用全局线性增益方法进行响度均衡;否则,使用上述任一个实施例中的响度均衡方法。
图3示出本公开的音频的处理技术方法的又一些实施例的流程图。
如图3所示,为本公开的响度均衡方法的一些实施例的流程。例如,该方法的输入文件是经过高通和“K”计权以及多通道融合后单通道能量信号文件。输入文件还包括初始化的平滑因子、初始增益、响度均值、静音及低噪阈值、语音停顿范围值、帧长、预观察未来点数长度等预设值。
在步骤310中,对待处理文件进行帧级截取,计算该帧响度。
在步骤320中,对响度进行平滑。
在步骤330中,判断平滑后的响度是否小于第二响度阈值,或者小于第三响度阈值。例如,第三响度阈值包括相对响度值=响度均值-预设的范围值。
在步骤340中,如果平滑后的响度小于第二响度阈值或小于相对响度值,则确定当前帧为非关键帧,整帧所有采样点的目标增益为1。
在步骤350中,否则,对当前帧内各采样点的能量进行平滑。
在步骤360中,利用当前增益对未来值进行响度峰值预估。
在步骤370中,判断响度峰值是否小于峰值阈值。
在步骤375中,如果响度峰值大于峰值阈值,则利用响度峰值与目标响度的差值求取新增益。
在步骤378中,否则,利用当前采样点的响度与目标响度的差值求取新增益。
在步骤380中,结合上述差值和当前增益,计算下一个采样点的目标增益。
在一些实施例中,利用历史增益对下一个采样点的目标增益进行递归。例如,上拉和下压利用不同的收敛速度因子。
在步骤385中,将当前增益利用于原始音频的各个通道信号。
在步骤388中,对新增益值与历史增益进行平滑。例如,下一个采样点的目标增益为10,历史增益(如在前采样点的增益)为2,则可以将下一个采样点的增益平滑为小于10大于2的数值(如7)。
在步骤390中,利用第一响度阈值,对处理后的当前采样点进行幅值限定。
在步骤395中,对平滑后的增益进行极限值限定。例如,利用增益阈值,对下一个采样点的增益进行限定。例如,步骤388中计算出的增益为7超过了增益阈值5,则将下一个采样点的增益限定为5或5以下的值。
到此一个采样点的调节完成,并且获得了下一个采样点的增益值,开始进入对下一个点的处理和判断流程中;如此反复循环(步骤360~395),直到整帧计算完成,开始输入下一帧信号;开始下一帧的循环(步骤330~步骤395)。
在一些实施例中,本公开提出的多通道音频响度均衡技术方案将预处理与正式处理进行融合。预处理为后续方法选择提供依据的两阶段响度均衡方法,对通道音频与多通道音频同样适用。例如,可以包括下面的内容:利用预处理滤波器对多通道信号进行预操作,根据通道权重将多通道信号进行融合。根据融合后的信号进行响度范围、响度值、峰值等指标计算;根据计算结果进行响度均衡方法的选择。
例如,本公开的基于峰值估算和单帧响度值逐点计算的响度均衡方法,对增益进行限定,同时对输出结果进行峰值检查,使峰值不超过设定值。
例如,本公开的预处理方法包括:利用高通滤波和“K”计权对单通多或多通道信号进行处理,并融合成单通道能量信号。
例如,本公开的指标统计方法,利用分帧技术,根据EBU R.128标准对响度范围、响度值、峰值计算进行计算。
例如,本公开的响度均衡方法选择包括:首先,根据响度范围,确定均衡方法;原始响度范围在设定目标内,则利用FFmpeg方法;否则,根据响度值确定均衡方法;如果响度值大于目标值,则使用全局增益方法对音频进行处理;否则使用本公开提出的响度均衡算法。
例如,本公开的响度均衡算法包括:对当前帧进行处理时,对未来一定预观察长度的信号的峰值进行评估,根据是否会超出峰值限制对当前增益进行调整。
例如,该响度均衡算法是在滤波和“K”计权并进行多通道融合后的基础上进行计算的。该方法同样可以直接用于单通道响度均衡。同时,可以直接对信号进行处理无需预估计流程。
例如,本公开的响度均衡算法包括:确定帧长和预观察信号长度,对当前帧的响度进行计算,并对过去帧的平均响度进行计算。如果当前帧响度值小于设定的门限制,则判定为静音帧或低噪帧;如果响度值小于平均值一定水平,则将该帧定义为语音停顿帧或者过度帧。这两种情况将整帧的目标增益设定为1。
例如,本公开的响度均衡算法包括:对于符合设定值的帧则归类成语音帧,需要对该帧内的逐点进行增益调整。将采样点与增益进行计算,对调整后的响度与目标值进行对比获得误差;根据误差对增益进行调整,新增益与历史增益进行平滑,进而获得下一个采样点的增益值。
例如,对于上拉和压缩给予不同的增益值限制。对于上拉增益值需要小于一个设定值;对于压缩增益值则不应该大于目标响度的绝对值。
例如,本公开的增益调整过程包括:对拉升和压缩采用不同的收敛速度。同时,调整步长与当前响度与目标值的差异值成正比。
例如,在本公开的响度均衡算法输出前,对调整值进行峰值限制,如果当采样点超出峰值限制则直接进行最值限制。
例如,利用当前增益值对观察范围内的采样点峰值进行预估。如果超过设定峰值,则将超出位置处的响度与设定响度对比获得误差对新增益进行调整。
例如,本公开中全局线性增益方法包括:高通和“K”计权后的信号基于EBU R.128标准直接进行全局响度计算,求取与目标响度的差值,利用差值直接作用于原始音频。
图4示出本公开的音频的处理装置的一些实施例的框图。
如图4所示,音频的处理装置4包括:估计单元41,用于根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;确定单元42,用于根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点对应的增益;均衡单元43,用于利用当前帧的各采样点及其对应的增益,对当前帧进行响度均衡处理。
在一些实施例中,确定单元42根据响度峰值是否小于峰值阈值,确定下一个采样点对应的增益。
在一些实施例中,确定单元42在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与当前采样点的目标响度的差异,确定下一个采样点对应的增益,在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定单元42在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益,在响度峰值大于或等于峰值阈值的情况下,根据响度峰值与目标响度的差异,以及当前采样点对应的增益,确定下一个采样点的目标增益,根据当前采样点对应的增益和目标增益,确定下一个采样点对应的增益,下一个采样点对应的增益小于目标增益。
在一些实施例中,确定单元42在响度峰值小于峰值阈值的情况下,根据当前采样点的响度与目标响度的差值为正还是负,确定采用第一收敛速度因子还是第二收敛速度因子,第一收敛速度因子与第二收敛速度因子不同,根据第一收敛速度因子或第二收敛速度因子,以及历史采样点对应的增益,确定下一个采样点对应的增益。
在一些实施例中,确定单元42利用当前采样点对应的增益,对当前采样点的响度进行调整;根据调整后的响度与目标响度的差异,确定下一个采样点对应的增益。
在一些实施例中,确定单元42根据响度峰值和当前采样点对应的增益,确定当前帧的下一个采样点的候选增益,在候选增益未超过增益阈值的情况下,将候选增益确定为下一个采样点对应的增益,在候选增益超过增益阈值的情况下,根据增益阈值确定下一个采样点对应的增益。
在一些实施例中,均衡单元43利用当前采样点对应的增益对当前采样点的响度进行调整,在音频的响度未超过第一响度阈值的情况下,将调整后的响度作为当前采样点的输出响度,在音频的响度超过第一响度阈值的情况下,根据第一响度阈值确定当前采样点的输出响度。
在一些实施例中,处理装置4还包括:判断单元44,用于根据当前帧的响度,判断当前帧是否为关键帧;其中,确定单元42在当前帧不为关键帧的情况下,将当前帧中所有采样点对应的增益确定为预设增益值,在当前帧为关键帧的情况下,确定当前帧的当前采样点对应的增益。
在一些实施例中,判断单元44根据当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断当前帧是否为关键帧,第二响度阈值根据音频中各帧的响度平均值计算。
在一些实施例中,判断单元44在当前帧的响度小于第二响度阈值,或者当前帧的响度小于第三响度阈值的情况下,确定当前帧不为关键帧,在当前帧的响度大于或等于第二响度阈值,且当前帧的响度大于或等于第三响度阈值的情况下,确定当前帧为关键帧。
在一些实施例中,音频的响度范围大于或等于响度范围阈值,且音频的响度小于或等于第四响度阈值。
在一些实施例中,均衡单元43在音频的响度范围小于响度范围阈值的情况下,利用FFMPEG方式对当前帧进行响度均衡处理,在音频的响度大于第四响度阈值的情况下,利用全局线性增益方式对当前帧进行响度均衡处理。
在一些实施例中,估计单元41根据多通道融合后的音频中当前采样点对应的增益,估计响度峰值。
图5示出本公开的音频的处理装置的另一些实施例的框图。
如图5所示,该实施例的音频的处理装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的音频的处理方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。
图6示出本公开的音频的处理装置的又一些实施例的框图。
如图6所示,该实施例的音频的处理装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的音频的处理方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader以及其他程序等。
音频的处理装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线860连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的音频的处理方法、音频的处理装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (18)
1.一种音频的处理方法,包括:
根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;
根据所述响度峰值和所述当前采样点对应的增益,确定所述当前帧的下一个采样点对应的增益;
利用所述当前帧的各采样点及其对应的增益,对所述当前帧进行响度均衡处理。
2.根据权利要求1所述的处理方法,其中,所述根据所述响度峰值和所述当前采样点对应的增益,确定所述当前帧的下一个采样点对应的增益包括:
根据所述响度峰值是否小于峰值阈值,确定所述下一个采样点对应的增益。
3.根据权利要求2所述的处理方法,其中,所述根据所述响度峰值是否小于峰值阈值,确定所述下一个采样点对应的增益包括:
在所述响度峰值小于所述峰值阈值的情况下,根据所述当前采样点的响度与所述当前采样点的目标响度的差异,确定所述下一个采样点对应的增益;
在所述响度峰值大于或等于所述峰值阈值的情况下,根据所述响度峰值与所述目标响度的差异,确定所述下一个采样点对应的增益。
4.根据权利要求3所述的处理方法,其中,所述确定所述下一个采样点对应的增益包括:
在所述响度峰值小于所述峰值阈值的情况下,根据所述当前采样点的响度与所述目标响度的差异,以及所述当前采样点对应的增益,确定所述下一个采样点的目标增益;
在所述响度峰值大于或等于所述峰值阈值的情况下,根据所述响度峰值与所述目标响度的差异,以及所述当前采样点对应的增益,确定所述下一个采样点的目标增益;
根据所述当前采样点对应的增益和所述目标增益,确定所述下一个采样点对应的增益,所述下一个采样点对应的增益小于所述目标增益。
5.根据权利要求4所述的处理方法,其中,所述根据所述当前采样点对应的增益和所述目标增益,确定所述下一个采样点对应的增益包括:
在所述响度峰值小于所述峰值阈值的情况下,根据所述当前采样点的响度与所述目标响度的差值为正还是负,确定采用第一收敛速度因子还是第二收敛速度因子,所述第一收敛速度因子与所述第二收敛速度因子不同;
根据所述第一收敛速度因子或所述第二收敛速度因子,以及历史采样点对应的增益,确定所述下一个采样点对应的增益。
6.根据权利要求3所述的处理方法,其中,所述根据所述当前采样点的响度与所述当前采样点的目标响度的差异,确定所述下一个采样点对应的增益包括:
利用所述当前采样点对应的增益,对所述当前采样点的响度进行调整;
根据调整后的响度与所述目标响度的差异,确定所述下一个采样点对应的增益。
7.根据权利要求1所述的处理方法,其中,所述确定所述当前帧的下一个采样点对应的增益包括:
根据所述响度峰值和所述当前采样点对应的增益,确定所述当前帧的下一个采样点的候选增益;
在所述候选增益未超过增益阈值的情况下,将所述候选增益确定为所述下一个采样点对应的增益;
在所述候选增益超过所述增益阈值的情况下,根据增益阈值确定所述下一个采样点对应的增益。
8.根据权利要求1所述的处理方法,其中,所述对所述当前帧进行响度均衡处理包括:
利用所述当前采样点对应的增益对所述当前采样点的响度进行调整;
在所述音频的响度未超过第一响度阈值的情况下,将所述调整后的响度作为所述当前采样点的输出响度;
在所述音频的响度超过所述第一响度阈值的情况下,根据所述第一响度阈值确定所述当前采样点的输出响度。
9.根据权利要求1-8任一项所述的处理方法,还包括
根据所述当前帧的响度,判断所述当前帧是否为关键帧;
在所述当前帧不为关键帧的情况下,将所述当前帧中所有采样点对应的增益确定为预设增益值;
在所述当前帧为关键帧的情况下,确定所述当前帧的所述当前采样点对应的增益。
10.根据权利要求9所述的处理方法,其中,所述根据所述当前帧的响度,判断所述当前帧是否为关键帧包括:
根据所述当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断所述当前帧是否为关键帧,所述第二响度阈值根据所述音频中各帧的响度平均值计算。
11.根据权利要求10所述的处理方法,其中,所述根据所述当前帧的响度与预设的第二响度阈值和/或计算的第三响度阈值的比较结果,判断所述当前帧是否为关键帧包括:
在所述当前帧的响度小于所述第二响度阈值,或者所述当前帧的响度小于所述第三响度阈值的情况下,确定所述当前帧不为关键帧;
在所述当前帧的响度大于或等于所述第二响度阈值,且所述当前帧的响度大于或等于所述第三响度阈值的情况下,确定所述当前帧为关键帧。
12.根据权利要求1-8任一项所述的处理方法,其中,所述音频的响度范围大于或等于响度范围阈值,且所述音频的响度小于或等于第四响度阈值。
13.根据权利要求1-8任一项所述的处理方法,还包括:
在所述音频的响度范围小于响度范围阈值的情况下,利用FFMPEG方式对所述当前帧进行响度均衡处理;
在所述音频的响度大于第四响度阈值的情况下,利用全局线性增益方式对所述当前帧进行响度均衡处理。
14.根据权利要求1-8任一项所述的处理方法,其中,所述根据音频中当前帧的当前采样点对应的增益,估计未来的响度峰值包括:
根据多通道融合后的所述音频中所述当前采样点对应的增益,估计所述响度峰值。
15.一种音频的处理装置,包括:
估计单元,用于根据音频中当前帧的当前采样点对应的增益,估计预设时间长度内的响度峰值;
确定单元,用于根据所述响度峰值和所述当前采样点对应的增益,确定所述当前帧的下一个采样点对应的增益;
均衡单元,用于利用所述当前帧的各采样点及其对应的增益,对所述当前帧进行响度均衡处理。
16.根据权利要求15所述的处理装置,还包括:
判断单元,用于根据所述当前帧的响度,判断所述当前帧是否为关键帧;
其中,所述确定单元在所述当前帧不为关键帧的情况下,将所述当前帧中所有采样点对应的增益确定为预设增益值,在所述当前帧为关键帧的情况下,确定所述当前帧的所述当前采样点对应的增益。
17.一种音频的处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-14任一项所述的音频的处理方法。
18.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-14任一项所述的音频的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885907.5A CN117499838A (zh) | 2022-07-26 | 2022-07-26 | 音频的处理方法、装置和非易失性计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210885907.5A CN117499838A (zh) | 2022-07-26 | 2022-07-26 | 音频的处理方法、装置和非易失性计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117499838A true CN117499838A (zh) | 2024-02-02 |
Family
ID=89669597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210885907.5A Pending CN117499838A (zh) | 2022-07-26 | 2022-07-26 | 音频的处理方法、装置和非易失性计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117499838A (zh) |
-
2022
- 2022-07-26 CN CN202210885907.5A patent/CN117499838A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9881635B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
EP2614586B1 (en) | Dynamic compensation of audio signals for improved perceived spectral imbalances | |
JP5341983B2 (ja) | サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置 | |
CN103871421B (zh) | 一种基于子带噪声分析的自适应降噪方法与系统 | |
KR20210020751A (ko) | 복수의 소비자 장치에 개인화된 오디오 재생 기능을 제공하기 위한 시스템 및 방법 | |
JP2008504783A (ja) | 音声信号のラウドネスを自動的に調整する方法及びシステム | |
US9716962B2 (en) | Audio signal correction and calibration for a room environment | |
US9431982B1 (en) | Loudness learning and balancing system | |
EP2538559B1 (en) | Audio controlling apparatus, audio correction apparatus, and audio correction method | |
JP2010513974A (ja) | 音声データを処理するシステム | |
US20110150242A1 (en) | Adaptive loudness levelling for digital audio signals | |
US20230087486A1 (en) | Method and apparatus for processing an initial audio signal | |
CN102610232B (zh) | 一种自适应音频感知响度调整方法 | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
CN112437957A (zh) | 用于全面收听的强加间隙插入 | |
CN117499838A (zh) | 音频的处理方法、装置和非易失性计算机可读存储介质 | |
KR101811635B1 (ko) | 스테레오 채널 잡음 제거 장치 및 방법 | |
JP2001188599A (ja) | オーディオ信号復号装置 | |
CN114902560A (zh) | 具有环境噪音补偿的用于自动音量控制的设备和方法 | |
US20240170002A1 (en) | Dereverberation based on media type | |
JPH0956000A (ja) | 補聴器 | |
CN117528337A (zh) | 音频处理方法、装置、电子设备和介质 | |
CN116614668A (zh) | 一种直播音量的自适应控制方法、系统、设备及存储介质 | |
TWI584275B (zh) | 電子裝置和聲音信號的分析與播放方法 | |
CN116259327A (zh) | 一种音频信号自适应均衡方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |