CN110010154B

CN110010154B - 一种音量均衡方法及装置

Info

Publication number: CN110010154B
Application number: CN201910232385.7A
Authority: CN
Inventors: 宋冬梅; 武剑; 王宏
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-04-09
Anticipated expiration: 2039-03-26
Also published as: CN110010154A

Abstract

本发明公开了一种音量均衡及装置，包括步骤：获取波形文件；计算所述波形文件的最大能量和最大平均能量；根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平；根据所述有效平均电平、最大电平以及预设的基准电平计算音量权值；根据所述音量权值平衡所述波形文件的音量。此外还公开了一种音量均衡装置，能够实现上述音量均衡方法的步骤。通过上述方案，本发明能够根据预先设定的基准音量对每首歌曲或视频计算音量权值，运算速度快，而且能够批量计算，计算时间短，同时获得较好的文件间的音量平衡度。

Description

一种音量均衡方法及装置

技术领域

本发明涉及音频信号处理领域，特别涉及一种音量均衡方法及装置。

背景技术

由于不同音乐在制作时的音量大小各有不同，在网络上播放、在KTV中唱歌等场景下，不同音乐之间的音量会相差很多，为了获得更好的听觉感受，需要用户经常手动调节音量的大小，这给用户带来了诸多不便。

为了解决这一问题，通常的方法为人工向音乐添加音量权值，以使各音乐的音量值相当，但是这种方法不仅效率低下，而且人工成本极高，费时费力；另外，也有通过计算每首音乐的平均能量，以此来计算每首音乐的音量权值的方案，这种方法对调节音乐音量的不平衡性具有一定的效果，但是当音乐中的能量变化较大时，并不能取得较好的结果。

不仅如此，在播放视频等其它声音文件时也存在着同样类似的问题。

发明内容

本发明提供了一种音量均衡方法及装置，能够通过对波形文件的分析提供更加准确的音量权值，以使不同来源、不同音量的波形文件在播放时音量大小一致。

本发明提供了一种音量均衡方法，包括以下步骤：

获取波形文件；

计算所述波形文件的最大能量和最大平均能量；

根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平；

根据所述有效平均电平、最大电平以及预设的基准电平计算音量权值；

根据所述音量权值平衡所述波形文件的音量。

优选地，所述计算所述波形文件的最大能量和最大平均能量包括：

对所述波形文件进行分帧；

计算所述波形文件每一帧数据的帧最大能量和帧平均能量；

求取所述波形文件所有帧的帧最大能量的最大值作为所述波形文件的最大能量；

求取所述波形文件所有帧的帧平均能量的最大值作为所述波形文件的最大平均能量。

优选地，所述根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平包括：

根据所述波形文件的最大能量计算所述最大电平；

根据所述波形文件的最大平均能量计算有效能量阈值；

根据不小于所述有效能量阈值的所有所述帧平均能量计算所述有效平均电平。

优选地，所述获取波形文件包括：

判断目标文件的格式；

若所述目标文件为音频文件，则利用解码工具将所述音频文件解码为波形文件；

若所述目标文件为视频文件，则提取所述视频文件中相应的音频文件，再利用解码工具将所述视频文件中相应的音频文件解码为波形文件。

优选地，所述提取所述视频文件中相应的音频文件包括：

判断所述视频文件的时间长度，若所述时间长度超出预设的时长阈值，则截取所述视频文件中预设时长的一段所对应的音频文件作为所述视频文件中相应的音频文件；

若未超出预设的时长阈值，则直接提取所述视频文件全部时长所对应的音频文件。

本发明还提供了一种音量均衡装置，包括：

文件获取模块，用于获取波形文件；

计算模块，包括能量计算子模块、电平计算子模块及权值计算子模块，其中，

所述能量计算子模块用于计算所述波形文件的最大能量和最大平均能量；

所述电平计算子模块用于根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平；

所述权值计算子模块用于根据所述有效平均电平、最大电平以及预设的基准电平计算音量权值；

音量均衡模块，用于根据所述音量权值平衡所述波形文件的音量。

优选地，所述能量计算子模块包括：

分帧单元，用于对所述波形文件进行分帧；

帧能量计算单元，用于计算所述波形文件每一帧数据的帧最大能量和帧平均能量；

最大能量计算单元，用于求取所述波形文件所有帧的帧最大能量的最大值作为所述波形文件的最大能量；

最大平均能量计算单元，用于求取所述波形文件所有帧的帧平均能量的最大值作为所述波形文件的最大平均能量。

优选地，所述电平计算子模块包括：

最大电平计算单元，用于根据所述波形文件的最大能量计算所述最大电平；

能量阈值计算单元，用于根据所述波形文件的最大平均能量计算有效能量阈值；

有效平均电平计算单元，用于根据不小于所述有效能量阈值的所有所述帧平均能量计算所述有效平均电平。

优选地，所述文件获取模块包括格式判断子模块、解码子模块和音频提取子模块，其中：

所述格式判断子模块，用于判断目标文件的格式；

若所述目标文件为音频文件，则所述解码子模块将所述音频文件解码为波形文件；

若所述目标文件为视频文件，则所述音频提取子模块提取所述视频文件中相应的音频文件，所述解码子模块再将所述视频文件中相应的音频文件解码为波形文件。

优选地，所述音频提取子模块包括时长判断单元、截取单元和音频提取单元，其中：

所述时长判断单元，用于判断所述视频文件的时间长度，若所述时间长度超出预设的时长阈值，则所述截取单元截取所述视频文件中预设时长的一段视频，所述音频提取单元提取所对应的音频文件作为所述视频文件中相应的音频文件；

若未超出预设的时长阈值，则所述音频提取单元直接提取所述视频文件全部时长所对应的音频文件。

本发明通过上述方案，能够根据预先设定的基准音量对每首歌曲或视频计算音量权值，由播放软件附加音量权值后播放，该方案运算速度快，而且能够批量计算，计算时间短，同时获得较好的文件间的音量平衡度。在网络歌曲、KTV歌曲等场景下能够较好地提升用户听觉体验、节省人力成本，极大地减少歌曲、视频等声音文件之间的音量差距。

附图说明

图1为本发明第一实施例中一种音量均衡方法的流程示意图；

图2为本发明第一实施例中获取波形文件方法的流程示意图；

图3为本发明第一实施例中计算最大能量和最大平均能量的流程示意图；

图4为本发明第一实施例中计算最大电平和有效平均电平的流程示意图；

图5为本发明第二实施例中一种音量均衡装置的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细地阐述。

实施例一

在本发明的一项实施例中，提供了一种音量均衡方法，如图1所示，包括以下步骤：

步骤S100：获取波形文件；

步骤S200：计算所述波形文件的最大能量和最大平均能量；

步骤S300：根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平；

步骤S400：根据所述有效平均电平、最大电平以及预设的基准电平计算音量权值；

步骤S500：根据所述音量权值平衡所述波形文件的音量。

音量权值VolWeight是在声音文件播放时附加的对波形整体幅度的调整，针对不同声音文件音量大小不同，音量权值可将所有声音文件的音量大小统一，在切换歌曲时，使人的听感上不会产生剧烈的声压变化的不适。在步骤S400中，优选地，音量权值可以通过下述公式计算得到：

VolWeight＝MIN(RefDB-AvgDB,0-MaxDB)

其中，RefDB表示预设的基准电平，AvgDB为波形文件的有效平均电平，MaxDB为波形文件的最大电平。

其中，预设的基准电平表示的是经音量权值调整后的归一化音频数据的有效电平，可由用户根据具体需求设置，优选地，其取值范围在-6～-25dB之间，其中，优选-18dB可以得到较好的音量均衡效果，但本发明在此并不进行限制，任何合适的取值均可实现本发明的最终目的。

在步骤S500中，在播放声音文件时，将上述音量权值加到整体电平调节变量上即可。在一种可选的实施方式中，也可以将音量权值转换为百分比形式，在调整时将百分比音量权值乘以歌曲的音量百分比完成调整。百分比形式的音量权值VolWeight2计算公式如下：

VolWeight2＝10^{VolWeigh×0.5}

在一项可选的实施方式中，如图2所示，步骤S100包括以下步骤，

步骤S110：判断目标文件的格式。主要判断要进行音量平衡的目标文件是音频文件还是视频文件；

若所述目标文件为音频文件，则进行步骤S120：利用解码工具将所述音频文件解码为波形文件。音频文件的格式各不相同，这里将各种音频格式如MP3、MP3Pro、WMA、ASF、AAC等统一为波形文件(即WAV格式)，以便后续的计算处理；

若所述目标文件为视频文件，则进行步骤S130：提取所述视频文件中相应的音频文件，再利用解码工具将所述视频文件中相应的音频文件解码为波形文件。视频文件的格式主要包括WMV、AVI、MP2等等，这里为了统一视频文件的音量，要先提取其中的声音文件，将声音文件单独解码为WAV格式的波形文件。

优选地，其中步骤S130还可以按照如下步骤进行：

步骤S131：判断所述视频文件的时间长度，若所述时间长度超出预设的时长阈值，则进行步骤S132：截取所述视频文件中预设时长的一段所对应的音频文件作为所述视频文件中相应的音频文件；

若未超出预设的时长阈值，则进行步骤S133：直接提取所述视频文件全部时长所对应的音频文件。

相对于歌曲等时间相对集中在几分钟内的音频文件而言，视频文件的长短不一，短视频和电影的时长差距非常之大，对于长视频而言，如果对整体的声音文件进行处理，数据量太大会导致效率降低，因此，可以从中截取一定时间长度的视频作为样本，将这段视频的声音文件的音量均衡结果扩展至整个视频，以提高处理效率。优选地，可以截取10分钟长度的视频样本进行音量均衡计算。

在本实施例一项可选的实施方式中，如图3所示，步骤S200还包括：

步骤S210：对所述波形文件进行分帧；

步骤S220：计算所述波形文件每一帧数据的帧最大能量和帧平均能量；

步骤S230：求取所述波形文件所有帧的帧最大能量的最大值作为所述波形文件的最大能量；

步骤S240：求取所述波形文件所有帧的帧平均能量的最大值作为所述波形文件的最大平均能量。

在获取到WAV格式的波形文件之后，为了方便不同位宽的数据进行后续比较和加权运算，可以对数据进行步骤S210的分帧处理。利用预先设定的窗口长度将波形文件化为区间相等的不同帧，优选地，分帧时长的窗口长度可以选择在20～50毫秒之间，为了取得较好的计算效果，可以优选40毫秒作为一帧数据的时长，本发明在此并不进行限制。相邻的帧之间不做交叠。一帧的数据长度DataLen可以通过下述公式进行计算：

其中，Fs表示波形文件的采样率，优选地，通常情况下，音乐、歌曲的文件采样率一般为48kHz或者44.1kHz；FrameTime为预设的一帧时长，单位为毫秒。

优选地，可以在分帧之前或之后进行数据归一化处理，将不同位宽的音频数据归一化到特定范围内，例如[-1,+1]之间，可以通过下述公式进行：

其中，ndata表示归一化之后的数据值，data为波形文件读入的数据值，BitNum为波形文件提取的音频数据的位宽。

在步骤S220中，帧最大能量FrameMaxEng表示帧内归一化后数据的平方的最大值，帧平均能量FrameAvgEng表示帧内归一化后所有数据的平方和的平均值，可以分别通过下述公式进行计算：

FrameMaxEng＝MAX(ndata(n)²)，n＝1～DataLen

步骤S230是计算整个波形文件的音频数据中的最大能量MaxEng，通过对每个帧最大能量FrameMaxEng求最大值获得，步骤S240则是计算整个波形文件音频数据的最大平均能量MaxAvgEng，通过对每个帧平均能量FrameAvgEng求最大值获得。

在本实施例一项可选的实施方式中，如图4所示，步骤S300还包括：

步骤S310：根据所述波形文件的最大能量计算所述最大电平；

步骤S320：根据所述波形文件的最大平均能量计算有效能量阈值；

步骤S330：根据不小于所述有效能量阈值的所有所述帧平均能量计算所述有效平均电平。

其中，步骤S310中，优选地，最大电平MaxDB可以通过下式进行计算：

MaxDB＝10lg(MaxEng)

在步骤S320中，优选地，有效能量阈值EngTHRE可以通过下述公式进行计算：

EngTHRE＝MaxAvgEng×0.25

进而，在步骤S330中，有效平均电平AvgDB可以按照下述公式进行计算：

其中，FrNum为分帧后的帧的总数目，N为帧平均能量不小于有效帧能量阀值的帧个数。

在计算有效平均电平时，优选地，可以忽略能量较小的间奏、演唱者在演唱歌词的间隔及波形文件开始和结束时的静音时段等片段，挑选能量相对较大的帧作为有效能量帧进行计算。有些声音文件中的能量会有较大的变化跨度，选择能量相对较大的帧去计算有效平均电平，这样可避免歌曲音量忽大忽小造成能量检测不准，造成设置的音量权值偏大，使歌曲音量偏大；同时还避免了间奏和歌曲起始结束能量较小段对于歌曲平均电平拉低作用。在声音播放或切换时，音量的突然升高往往比降低更让人难以接受；歌曲等声音媒体给人的听觉声压感受也主要由能量较大的音频数据决定，所以这里可以优先选择歌曲中能量较高的帧来计算有效平均电平，并以此为依据计算音量权值，进而达到较好的音量均衡效果。

实施例二

本发明还提供了一种音量均衡装置，如图5所示，包括：

文件获取模块10，用于获取波形文件；

计算模块20，包括能量计算子模块21、电平计算子模块22及权值计算子模块23，其中，

所述能量计算子模块21用于计算所述波形文件的最大能量和最大平均能量；

所述电平计算子模块22用于根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平；

所述权值计算子模块23用于根据所述有效平均电平、最大电平以及预设的基准电平计算音量权值；

音量均衡模块30，用于根据所述音量权值平衡所述波形文件的音量。

在一项可选的实施方式中，所述能量计算子模块21包括：

分帧单元211，用于对所述波形文件进行分帧；

帧能量计算单元212，用于计算所述波形文件每一帧数据的帧最大能量和帧平均能量；

最大能量计算单元213，用于求取所述波形文件所有帧的帧最大能量的最大值作为所述波形文件的最大能量；

最大平均能量计算单元214，用于求取所述波形文件所有帧的帧平均能量的最大值作为所述波形文件的最大平均能量。

在一项可选的实施方式中，所述电平计算子模块22包括：

最大电平计算单元221，用于根据所述波形文件的最大能量计算所述最大电平；

能量阈值计算单元222，用于根据所述波形文件的最大平均能量计算有效能量阈值；

有效平均电平计算单元223，用于根据不小于所述有效能量阈值的所有所述帧平均能量计算所述有效平均电平。

在一项可选的实施方式中，所述文件获取模块10包括格式判断子模块11、解码子模块12和音频提取子模块13，其中：

所述格式判断子模块11，用于判断目标文件的格式；

若所述目标文件为音频文件，则所述解码子模块12将所述音频文件解码为波形文件；

若所述目标文件为视频文件，则所述音频提取子模块13提取所述视频文件中相应的音频文件，所述解码子模块12再将所述视频文件中相应的音频文件解码为波形文件。

在一项可选的实施方式中，所述音频提取子模块13包括时长判断单元131、截取单元132和音频提取单元133，其中：

所述时长判断单元131，用于判断所述视频文件的时间长度，若所述时间长度超出预设的时长阈值，则所述截取单元132截取所述视频文件中预设时长的一段视频，所述音频提取单元133提取所对应的音频文件作为所述视频文件中相应的音频文件；

若未超出预设的时长阈值，则所述音频提取单元133直接提取所述视频文件全部时长所对应的音频文件。

通过上述模块、单元等结构，本发明提供的音量均衡装置能够方便快捷的平衡声音文件的音量，给用户带来更好的听觉体验。

以上本发明各实施例提供的方案，能够根据预先设定的基准音量对每首歌曲或视频计算音量权值，由播放软件附加音量权值后播放，该方案运算速度快，而且能够批量计算，计算时间短，同时获得较好的文件间的音量平衡度。在网络歌曲、KTV歌曲等场景下能够较好地提升用户听觉体验、节省人力成本，极大地减少歌曲、视频等含声音文件之间的音量差距。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，则可对这些实施例作出另外的变更和修改。

本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音量均衡方法，其特征在于，包括以下步骤：

获取波形文件；

计算所述波形文件的最大能量和最大平均能量；

根据所述音量权值平衡所述波形文件的音量。

2.如权利要求1所述的音量均衡方法，其特征在于，所述计算所述波形文件的最大能量和最大平均能量包括：

对所述波形文件进行分帧；

计算所述波形文件每一帧数据的帧最大能量和帧平均能量；

3.如权利要求2所述的音量均衡方法，其特征在于，所述根据所述最大能量和最大平均能量计算所述波形文件的有效平均电平和最大电平包括：

根据所述波形文件的最大能量计算所述最大电平；

根据所述波形文件的最大平均能量计算有效能量阈值；

4.如权利要求1所述的音量均衡方法，其特征在于，所述获取波形文件包括：

判断目标文件的格式；

5.如权利要求4所述的音量均衡方法，其特征在于，所述提取所述视频文件中相应的音频文件包括：

6.一种音量均衡装置，其特征在于，包括：

文件获取模块，用于获取波形文件；

7.如权利要求6所述的音量均衡装置，其特征在于，所述能量计算子模块包括：

分帧单元，用于对所述波形文件进行分帧；

8.如权利要求7所述的音量均衡装置，其特征在于，所述电平计算子模块包括：

9.如权利要求6所述的音量均衡装置，其特征在于，所述文件获取模块包括格式判断子模块、解码子模块和音频提取子模块，其中：

所述格式判断子模块，用于判断目标文件的格式；

10.如权利要求9所述的音量均衡装置，其特征在于，所述音频提取子模块包括时长判断单元、截取单元和音频提取单元，其中：