CN111782859A

CN111782859A - 一种音频可视化方法、装置和存储介质

Info

Publication number: CN111782859A
Application number: CN202010549588.1A
Authority: CN
Inventors: 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-16
Anticipated expiration: 2040-06-16
Also published as: CN111782859B

Abstract

本发明实施例公开了一种音频可视化方法、装置和存储介质，其中，本发明通过确定音频数据中的目标音频帧，并获取目标音频帧的目标响度级，以及根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略，然后，根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据，最后根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。通过根据音频作用于人耳的响度，采用不同的加权策略对音频的频域数据进行加权处理后进行可视化，最终可让可视化效果更加灵活，且更符合人耳听感。

Description

一种音频可视化方法、装置和存储介质

技术领域

本发明涉及音频处理技术领域，具体涉及一种音频可视化方法、装置和存储介质。

背景技术

随着互联网的普及，以及数字音频的迅速流行，用户可以通过手机、平板电脑等电子设备播放各种各样的音频数据(比如有声小说、歌曲等)。

为了提高音频数据播放过程中显示信息的多样性，相关技术中通过提取音频数据的特征，并通过图像渲染的方式，将音频特征可视化的表示出来，从而达到画面随音频数据的变化而变化的效果，即利用图像语言来解释音乐感受。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有技术在进行音频可视化处理的过程中，往往采用固定的可视化方式，不够灵活。

发明内容

本发明实施例提供一种音频可视化方法、装置和存储介质，能够更灵活的实现音频可视化，且可视化效果更符合人耳听感。

本发明实施例提供的音频可视化方法，包括：

确定音频数据中的目标音频帧；

获取所述目标音频帧的目标响度级；

根据响度级和加权策略的预设对应关系，确定所述目标响度级对应的目标加权策略；

根据所述目标加权策略对所述目标音频帧的频域数据进行加权处理，得到加权后的频域数据；

根据所述加权后的频域数据生成所述目标音频帧的频谱图像，并展示所述频谱图像。

本发明实施例还提供一种音频可视化装置，包括：

目标确定模块，用于确定音频数据中的目标音频帧；

响度获取模块，用于获取所述目标音频帧的目标响度级；

策略确定模块，用于根据响度级和加权策略的预设对应关系，确定所述目标响度级对应的目标加权策略；

数据加权模块，用于根据所述目标加权策略对所述目标音频帧的频域数据进行加权处理，得到加权后的频域数据；

图像生成模块，用于根据所述加权后的频域数据生成所述目标音频帧的频谱图像，并展示所述频谱图像。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行本发明实施例所提供的音频可视化方法。

本发明通过确定音频数据中的目标音频帧，并获取目标音频帧的目标响度级，以及根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略，然后，根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据，最后根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。通过根据音频作用于人耳的响度，采用不同的加权策略对音频的频域数据进行加权处理后进行可视化，最终可让可视化效果更加灵活，且更符合人耳听感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频可视化方法的一流程示意图；

图2是本发明实施例中将音频数据划分为m个音频帧的示意图；

图3是本发明实施例中展示生成的频谱图像的示例图；

图4是本发明实施例中涉及的等响曲线的示意图；

图5是本发明实施例提供的音频可视化方法的另一流程示意图；

图6是本发明实施例提供的音频可视化装置的结构示意图；

图7是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频可视化方法、装置和存储介质。其中，该音频可视化方法可由音频可视化装置执行，该音频可视化装置可以集成在如用户终端(比如，手机、平板电脑等)、台式主机等网络设备，使得网络设备通过确定音频数据中的目标音频帧，并获取目标音频帧的目标响度级，以及根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略，然后，根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据，最后根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。

本发明实施例提供一种音频可视化方法，在本发明实施例中，将从音频可视化装置的角度进行描述，如图1所示，该音频可视化方法的流程可以如下：

在101中，确定音频数据中的目标音频帧。

其中，音频数据包括但不限于音乐、语音节目、有声小说等。

应当说明的是，虽然音频数据在宏观上是不平稳的，但是其在微观上是平稳的，具有短时平稳性，通常认为音频数据在10毫秒至30毫秒的时间段中是平稳的。基于此，本发明实施例中以帧为单位对音频数据进行可视化处理。比如，请参照图2，可以按照帧长25毫秒将音频数据无交叠分帧为m(为正整数)个音频帧。

本发明实施例中，首先确定需要进行可视化处理的音频数据中的目标音频帧，比如，确定当前播放的音频数据中需要进行可视化处理的目标音频帧，并获取到该目标音频帧用于可视化处理。

示例性的，可以将音频数据中的所有音频帧均确定为需要进行可视化的目标音频帧用于可视化处理，也可以将音频数据中的部分音频帧确定为需要进行可视化的目标音频帧用于可视化处理。

比如，当开始播放时，获取到音频数据的第一个音频帧用于可视化处理，然后随着音频数据的播放，依次获取到音频数据的第二个音频帧、第三个音频帧……、第m个音频帧用于可视化处理。

在102中，获取目标音频帧的目标响度级。

应当说明的是，考虑到在不同的响度条件下，人耳对不同频率的响度感知完全不同。因此，若能根据音频数据的实时响度来进行可视化处理，则能够让最终的可视化效果更加符合人耳听感。

可选地，在一实施例中，获取目标音频帧的响度级，包括：

按照预设响度估计策略估计得到所述目标音频帧的响度级。

应当说明的是，响度又称音量，为人耳感受到的声音强弱，它是人对声音大小的一个主观感觉量。响度的大小决定于声音接收处的波幅，就同一声源来说，波幅传播的愈远，响度愈小；当传播距离一定时，声源振幅愈大，响度愈大。响度的大小与声强密切相关，但响度随声强的变化不是简单的线性关系，而是接近于对数关系。当声音的频率、声波的波形改变时，人对响度大小的感觉也将发生变化。

响度级为响度的相对量，响度级常指某响度与基准响度(1KHz的纯音)相比较而言，单位为PHON(方)，1KHz纯音的声压级为0dB，响度级定为0PHON(方)，声压级40dB定为40PHON，其他频率的声音响度与1KHz纯音响度相同，则把1KHz的响度级当作该频率的响度级。

基于以上描述，本领域普通技术人员可以理解的是，响度级为主观量，无法直接测量得到，因此，本发明实施例预先定义有用于估计响度级的响度估计策略，记为预设响度估计策略。

相应的在获取目标音频帧的响度级时，即可按照预设响度估计策略对目标音频帧的响度级进行估计，由此得到目标音频帧的目标响度级。

示例性的，本发明实施例定义有两类响度估计策略，分别在时域和频域对响度级进行估计。

1、时域的响度估计策略，记为预设响度估计策略1：

在时域计算目标音频帧的声压级，将声压级等效为其响度级。

假定目标音频帧的帧长为N，目标音频帧的每个采样点的时域数据值记为x(n)，则该目标音频帧的声压有效值可表示为：

则目标音频帧的声压级可表示为：

其中，ε_r为参考声压，可由本领域普通技术人员根据实际需要经验值，比如，本发明实施例中取ε_r为2*10E-5帕。

2、频域的响度估计策略：

(1)预设响度估计策略2

根据帕瑟瓦尔定理可知，声压有效值的计算同样可以在频域实现：

其中，X(k)为x(n)的频域表示，比如通过傅里叶变化得到。

此外，还对X(k)做频域加权(可由本领域普通技术人员根据实际需要选择加权方式)，比如，本发明实施例可以采用A计权，这时需要在X(k)的每个频点上做A计权处理，得到新的频域数据Xa(k)，则目标音频帧的声压级(等效为响度级)可表示为：

(2)预设响度估计策略3

从响度的概念出发，计算目标音频帧在1KHz处的能量值，作为目标音频帧的声压级，并等效为其响度级：

SPL3＝20log₁₀(|X(k)|_1000Hz)。

在本发明实施例中，可以选择以上任一预设响度估计策略来估计得到目标音频帧的响度级。

可选地，在一实施例中，获取目标音频帧的目标响度级，包括：

(1)分别按照多个不同预设响度估计策略对目标音频帧的响度级进行估计，得到多个候选响度级；

(2)根据每一预设响度估计策略对应的权重对多个候选响度级进行加权求和，得到目标音频帧的目标响度级。

本发明实施例中，定义有多个不同的预设响度估计策略，为了能够更准确的估计得到目标音频帧的响度级，可以综合多个不同的预设响度估计策略的估计结果得到一个最终的估计结果。

其中，本发明实施例预先为每一预设响度估计策略分配有对应的权重，以权重和为1为约束，可由本领域普通技术人员根据实际需要为不同的预设响度估计策略分配权重。

示例性的，以上述提及的三种预设响度估计策略为例，按照预设响度估计策略1对目标音频帧的响度级进行估计，得到对应目标音频帧的候选响度级，记为SPL1；按照预设响度估计策略2对目标音频帧的响度级进行估计，得到对应的候选响度级，记为SPL2；按照预设响度级估计策略3对目标音频帧的响度级进行估计，得到对应的候选响度级，记为SPL3。

然后，根据预设响度估计策略1、2、3各自对应的权重进行加权求和，表示为：

SPL＝a1*SPL1+a2*SPL2+a3*SPL3；

其中，SPL表示加权求和得到的响度级，a1(比如取值为0.2)表示预设响度估计策略1对应的权重，a2(比如取值为0.3)表示预设响度估计策略2对应的权重，a3(比如取值为0.5)表示预设响度估计策略3对应的权重。

在对以上候选响度级进行加权求和，并得到对应的加权和值之后，即可将该加权和值作为目标音频帧的目标响度级。

在103中，根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略。

相应的，本发明实施例中还预先设置有多个用于对目标音频帧进行修正的加权策略，并将加权策略与响度级关联起来，得到响度级和加权策略的预设对应关系，用于描述如何根据响度级的不同来选择对应的加权策略。

本发明实施例中，在获取到目标音频帧的目标响度级之后，进一步根据响度级和加权策略的预设对应关系，确定出与目标响度级所对应的加权策略，作为用于对目标音频帧进行加权处理的目标加权策略。

可选地，在一实施例中，根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略，包括：

(1)当目标响度级位于第一预设响度级区间时，确定目标加权策略为A计权；或者，

(2)当目标响度级位于第二预设响度级区间时，确定目标加权策略为B计权；或者，

(3)当目标响度级位于第三预设响度级区间时，确定目标加权策略为C计权；

其中，第一预设响度级区间小于第二预设响度级区间，第二预设响度级区间小于第三预设响度级区间。此处区间的比较为值大小的比较，而非包括的范围大小的比较，一区间小于另一区间指的是该区间包括的值整体上小于另一区间包括的值。

应当说明的是，A计权(A-Weighted)是一种用于音频测量的标准权重曲线，用于反映人耳的响应特性。由于人耳对于不同频段的声音变化敏感程度是不一样的，太高或者太低就越不敏感，就像一个A字，所以叫A计权。A计权的标准是由美国标准协会在20世纪40年代制定，用于描述人耳对于不同频段声音变化敏感程度。此外，还有B加权和C计权，其中，A计权基于40phon等响曲线设计，B计权基于70phon等响曲线设计，C计权基于100phon等响曲线设计，三者的主要差别是对噪声低频成分的衰减程度，A计权衰减最多，B计权次之，C计权最少。需要说明的是，不同的预设响度级区间对应不同的计权策略，不同的计权策略对于不同响度级的音频帧的处理效果不同。例如，A计权策略适合于较小响度级的音频帧；B计权策略合适于中响度级的音频帧；C计权策略适合于较大响度级的音频帧。

本发明实施例中，预先将响度级划分为三个区间，依次为第一预设响度级区间、第二预设响度级区间以及第三预设响度级区间，分别对应A计权、B计权和C计权。

其中，第一预设响度级区间、第二预设响度级区间以及第三预设响度级区间的端点可由本领域普通技术人员根据实际需要进行设置，本发明实施例中不做具体限制。

比如，划分的第一预设响度级区间为(-∞，55]，第二预设响度级区间为(55，85]，第三预设响度级区间为(85，+∞]，相应的，当目标音频帧的响度级位于(-∞，55]之内时，采用A计权为目标加权策略对目标音频帧的频域数据进行加权处理；当目标音频帧的响度级位于(55，85]之内时，采用B计权为目标加权策略对目标音频帧的频域数据进行加权处理；当目标音频帧的响度级位于(85，+∞]之内时，采用C计权为目标加权策略对目标音频帧的频域数据进行加权处理。

(1)获取目标音频帧的目标响度级对应的等响曲线，并确定等响曲线对应的反函数曲线；

(2)查找目标音频帧在反函数曲线中对应的响应级；

(3)将查找到的响应级进行归一化处理后确定为目标加权策略的加权权重。

请参照图4，为国际标准ISO226等响曲线的示意图，为典型听音者感觉响度相同的纯音的声压级与频率关系的曲线，其中，横坐标是频率，纵坐标是声压级，曲线上的数值表示响度级。

本发明实施例中，还根据等响曲线来对目标音频帧的频域数据进行加权处理。

其中，在确定用于对目标音频帧的频域数据进行加权处理的目标加权策略时，可以首先获取到对应目标响度级的等响曲线，相应确定目标加权策略为根据该等响曲线的反函数进行加权处理。

示例性地，根据该等响曲线的反函数进行加权处理的具体方式为，等响曲线的反函数也可以表示为反函数曲线，其横坐标为频率，纵坐标为响度级。确定目标音频帧的频率，根据反函数曲线确定出目标音频帧的频率对应的响度级，将该响度级进行归一化处理后作为频域幅度值的加权权重。

在104中，根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据。

在确定目标加权策略之后，进一步将目标音频帧由时域转换到频域，比如，可以采用傅里叶变换的方式将目标音频帧由时域转换到的频域，由此得到目标音频帧的频域数据。

其中，对于采用何种傅里叶变换方式实现目标音频帧由时域到频域的转换，可由本领域普通技术人员根据实际需要进行配置，比如，本发明实施例中采用短时傅里叶变换的方式将目标音频帧由时域转换到频域，由此来得到目标音频帧的频域数据。

在确定出用于对频域数据进行加权处理的目标加权策略之后，即可根据确定出的目标加权策略对频域数据进行加权处理，得到加权后的频域数据。

比如，以40phon的等响曲线为例，将该等响曲线的相应数值记做SPL(40)。以该曲线的反函数作为加权权重，即

Weight(k)＝40–SPL(40)；具体地，SPL(40)表示的是依据40phon的等响曲线确定出的目标音频帧的响度级；

其中，加权权重Weight(k)单位为dB，则加权后的频域数据可表示为：

X_w(k)＝Weight(k)*X(k)。其中，X(k)表示的是目标音频帧的时域数据进行傅里叶变换后得到的频域数据的幅度值。

在105中，根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。

在完成对频域数据的加权处理而得到加权后的频域数据之后，将该加权后的频域数据作为音频可视化显示的支撑数据，按照预设的频谱图生成策略，根据该加权后的频域数据生成对应目标音频帧的频谱图像，并展示该频谱图像。

应当说明的是，本发明实施例中对于采用何种频谱图生成策略不做限制，可由本领域普通技术人员根据实际需要进行设置。比如，本发明实施例中采用柱状频谱图生成策略，生成柱状形式的频谱图像，并直接在音频数据的播放界面展示该柱状形式的频谱图像，如图3所示。需要说明的是，音频数据各音频帧的频谱图像可以预先生成并存储，在播放该音频数据时跟随播放过程进行展示；或者在播放音频数据的过程中实时生成频谱图像，并跟随播放过程进行展示。

在实际应用中，一种音频可视化处理方案是全量处理，即按照预设帧划分算法，将音频数据进行划分得到按时序前后排列的多个音频帧。目标音频帧可以是多个音频帧中的任何一音频帧，示例性地，将按照前后排序依次将每个音频帧作为目标音频帧，并对每个音频帧进行上述实施例中的可视化处理操作，以展示每个音频帧的频谱图像。但是，由于音频帧的能量变化程度较小，每帧音频帧的频谱图像变化也并非特别明显，每帧均进行可视化处理的方式比较浪费计算资源，因此为了节省设备的计算资源，跳过对某些音频帧的可视化处理，即选择某些音频帧作为目标音频帧进行可视化处理。

可选地，在一实施例中，根据加权后的频域数据生成目标音频帧的频谱图像，包括：

(1)在音频数据中按照时序排列的多个音频帧中，确定目标音频帧之前预设数量的目标音频帧；

(2)分别确定每个目标音频帧对应的权重，以及每个目标音频帧加权后的频域数据；

(3)依据每个目标音频帧的权重对每个目标音频帧加权后的频域数据进行加权计算，得到目标频域数据；

(4)依据目标频域数据生成目标音频帧的频谱图像。

本发明实施例中，为了实现平滑处理，在生成每个目标音频帧的频谱图像时，可以综合考虑前面几帧的情况，将前几目标音频帧与当前目标音频帧进行加权运算后，得到当前目标音频帧的频谱图像。

其中，在音频数据中按照时序排列的多个音频帧中，确定目标音频帧之前预设数量的目标音频帧。应当说明的是，本申请实施例中对于该预设数量的取值不做具体限定，可由本领域普通技术人员根据实际需要取经验值，比如，本发明实施例中将预设数量配置为4。

然后，分别确定每个目标音频帧对应的权重。其中，可由本领域普通技术人员根据实际需要进行权重分配，本发明实施例中对此不做具体限制，比如，本发明实施例中对于距离当前的目标音频帧时长越长的之前目标音频帧，分配的权重越小，也即距离当前的目标音频帧越近的之前目标音频帧，对应的权重越大。此外，还确定每个目标音频帧在根据其对应的目标加权策略加权后的频域数据。

然后，依据每个目标音频帧的权重对每个目标音频帧加权后的频域数据进行加权计算，加加权得到频域数据记为目标音频帧的目标频域数据，并根据该目标频域数据生成目标音频帧的频谱图像。

可选地，在一实施例中，确定音频数据中的目标音频帧，包括：

(1)依次获取音频数据中按照时序排列的各个音频帧；

(2)若当前获取的音频帧为音频数据中的首个音频帧，则将首个音频帧确定为目标音频帧；

(3)若当前获取的音频帧非音频数据中的首个音频帧，则确定该音频帧与前一目标音频帧的能量变化趋势信息；在能量变化趋势信息满足预设条件的情况下，将获取的音频帧确定为目标音频帧；在能量变化趋势信息不满足预设条件的情况下，将获取的音频帧确定为跳过音频帧，且返回依次获取音频数据中按照时序排列的后一音频帧的步骤。

考虑到每个音频帧的时长很短，即使跳过部分音频帧不做可视化处理，在视觉上也不会与全部音频帧进行可视化处理有较大的差异，本发明实施例对音频数据中的部分音频帧进行可视化处理。

其中，可以依次获取音频数据中按照时序排列的各个音频帧。其中，若当前获取的音频帧为音频数据中的首个音频帧，则将首个音频帧确定为目标音频帧。

另外，若当前获取的音频帧非音频数据中的首个音频帧，则确定音频帧与前一目标音频帧的能量变化趋势信息；在能量变化趋势信息满足预设条件的情况下，将获取的音频帧确定为目标音频帧；在能量变化趋势信息不满足预设条件的情况下，将获取的音频帧确定为跳过音频帧，且返回依次获取音频数据中按照时序排列的后一音频帧的步骤。其中，能量变化趋势信息用于描述能量变化的方向(比如增加或减小)和程度。

应当说明的是，本发明对以上预设条件的配置不做具体限制，可由本领域普通技术人员根据实际需要进行配置，比如，本申请实施例中，预设条件被配置为：能量变化方向为增加且增加的程度达到预设程度，或者能量变化方向为减小且减小的程度达到预设程度。其中，能量变化趋势信息满足预设条件的情况，用于表示前后音频帧的能量变化较大，从而后一音频帧仍然作为目标音频帧进行可视化处理；反之表示前后音频帧的能量变化较小，后一音频帧不作为目标音频帧进行可视化处理。

可选地，在一实施例中，确定音频数据中的目标音频帧之后，还包括：

(1)获取目标音频帧与历史音频帧在预设频段的能量变化趋势信息，历史音频帧为上一次进行可视化处理的音频帧；

(2)根据能量变化趋势信息确定跳过可视化处理的跳过音频帧；

(3)根据跳过音频帧确定下一次需要进行可视化处理的音频帧。

其中，当前在确定目标音频帧中需要进行可视化处理的目标音频帧之后，除了对该目标音频帧进行可视化处理之外，还获取到该目标音频帧与历史音频帧在预设频段的能量变化趋势信息，该能量变化趋势信息用于描述能量变化的方向(比如增加或减小)和程度。其中，历史音频帧为上一次进行可视化处理的音频帧。

应当说明的是，对于预设频段的取值，可由本领域普通技术人员根据实际需要进行设置，比如，本发明实施例中取值为1KHz。

此外，本发明实施例中还预先定义有能量变化趋势信息和跳过可视化处理的音频帧个数的对应关系，以跳过的音频帧个数和能量变化趋势信息中变化程度反相关为约束，可由本领域普通技术人员根据实际需要设置能量变化趋势信息和跳过可视化处理的音频帧个数的对应关系。

相应的，基于预设的能量变化趋势信息和跳过可视化处理的音频帧个数的对应关系，在获取到对应目标音频帧的能量变化趋势信息之后，即可确定出需要跳过可视化处理的音频帧个数，进而根据该音频帧个数确定出跳过可视化处理的跳过音频帧，从而根据跳过音频帧确定出下一次需要进行可视化处理的音频帧，并对其进行可视化处理。

比如，在第一次进行可视化处理时，默认将音频数据的第一个音频帧作为目标音频帧进行可视化处理，由于不存在上一次进行可视化处理的音频帧，按照默认的跳过可视化处理的音频帧个数“1”，将音频数据中的第二个音频帧确定为跳过音频帧，相应的，下一次需要进行可视化处理的音频帧即为音频数据中的第三个音频帧；在第二次进行可视化处理时，将音频数据的第三个音频帧作为目标音频帧进行可视化处理，此时，历史音频帧即第一个音频帧，若根据第三个音频帧和第一个音频帧的预设频段的能量变化趋势信息确定的跳过可视化处理的音频帧个数为2，则跳过音频帧为音频数据中的第四个音频帧和第五个音频帧，相应的，下一次需要进行可视化处理的音频帧即为音频数据中的第六个音频帧，以此类推，不再赘述。

可选地，在一实施例中，本发明提供的音频可视化方法还包括：

根据能量变化趋势信息对频谱图像进行更新，得到更新频谱图像；

在播放跳过音频帧时展示更新频谱图像。

本发明实施例中，对于跳过音频帧，虽然不像以上实施例中那样对其进行可视化处理，但仍然根据对应目标音频帧的频谱图像来更新得到跳过音频帧的频谱图像，并展示。

其中，在根据能量变化趋势信息确定跳过可视化处理的跳过音频帧之后，还根据能量变化趋势信息对频谱图像进行更新，得到更新频谱图像。

示例性的，以柱状形式的频谱图像为例，在根据能量变化趋势信息对频谱图像进行更新时，可以根据能量变化趋势信息描述的变化方向确定对频谱图像中柱状的更新方向，比如，若变化趋势信息描述的变化方向为增加，则更新方向为增高，相应的，若变化趋势信息描述的变化方向为减小，则更新方向为降低。

此外，还根据能量变化趋势信息描述的变化程度确定对频谱图像中柱状的调整程度，其中，以二者正相关为约束，可由本领域普通技术人员根据实际需要设置二者的对应关系，本发明实施例对此不做限制。

可选地，在一实施例中，确定音频数据中的目标音频帧之前，还包括：

(1)识别屏幕的可视范围内是否存在预设用户；

(2)当存在时，确定音频数据中的目标音频帧。

应当说明的是，本发明考虑到音频可视化的目的在于将音频可视化的呈现给用户，若用户无法看到可视化效果，则没有必要进行可视化处理。

因此，本方面实施例中，在确定音频数据中的目标音频帧之前，首先识别屏幕的可视范围内是否存在预设用户(比如，网络设备的机主，或者机主授权使用网络设备的其它用户)，若存在，则确定音频数据中的目标音频帧，并相应进行可视化处理，具体可参照以上实施例中的相关描述，此处不再赘述。

此外，当屏幕的可视范围内不存在预设用户时，判定无需进行可视化处理，等待识别到屏幕的可视范围内存在预设用户时再进行可视化处理。

应当说明的是，本发明实施例中对于采用何种方式来识别屏幕的可视范围内是否存在预设用户不做限制，可由本领域普通技术人员根据实际需要配置识别方式。

比如，本发明实施例中，可以通过网络设备的前置摄像头进行拍摄，得到对应的拍摄图像，然后采用人像识别技术识别该拍摄图像中是否存在预设用户，若存在，则可判定网络设备屏幕的可视范围内存在预设用户。

由上可知，本发明通过确定音频数据中的目标音频帧，并获取目标音频帧的目标响度级，以及根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略，然后，根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据，最后根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。通过根据音频作用于人耳的响度，采用不同的加权策略对音频的频域数据进行加权处理后进行可视化，最终可让可视化效果更加灵活，且更符合人耳听感。

以下以音频数据为歌曲音频为例，对本发明提供的音频可视化方法作进一步说明，请参照图5，本发明提供的音频可视化方法的流程还可以如下：

在201中，网络设备获取当前播放的歌曲音频中需要进行可视化处理的目标音频帧。

应当说明的是，虽然歌曲音频在宏观上是不平稳的，但是其在微观上是平稳的，具有短时平稳性，通常认为歌曲音频在10毫秒至30毫秒的时间段中是平稳的。基于此，本发明实施例中，本发明实施例中以帧为单位对歌曲音频进行可视化处理。比如，请参照图2，可以按照帧长25毫秒将歌曲音频无交叠分帧为m个音频帧。

本发明实施例中，网络设备首先确定当前播放的歌曲音频中需要进行可视化处理的目标音频帧，并获取到该目标音频帧用于可视化处理。

示例性的，网络设备可以将歌曲音频中的所有音频帧均确定为需要进行可视化的目标音频帧用于可视化处理，也可以将歌曲音频中的部分音频帧确定为需要进行可视化的目标音频帧用于可视化处理。

比如，当开始播放歌曲音频时，网络设备获取到歌曲音频的第一个音频帧用于可视化处理，然后随着歌曲音频的播放，依次获取到歌曲音频的第二个音频帧、第三个音频帧……、第m个音频帧用于可视化处理。

在202中，网络设备采用傅里叶变换将目标音频帧由时域变化到频域，得到目标音频帧的频域数据。

在获取到需要进行可视化处理的目标音频帧之后，网络设备进一步采用傅里叶变换将目标音频帧由时域转换到频域。其中，对于采用何种傅里叶变换方式实现目标音频帧由时域到频域的转换，可由本领域普通技术人员根据实际需要进行配置，比如，本发明实施例中网络设备采用短时傅里叶变换的方式将目标音频帧由时域转换到频域，由此来得到目标音频帧的频域数据，

在203中，网络设备按照多个不同的预设响度估计策略分别对目标音频帧的响度级进行估计，得到多个候选响度级。

1、时域的响度估计策略，记为预设响度估计策略1：

在时域计算目标音频帧的声压级，等效为其响度级。

假定目标音频帧的帧长为N，记为x(n)，则该目标音频帧的声压有效值可表示为：

则目标音频帧的声压级可表示为：

比如，假设估计得到目标音频帧的声压级为40dB，则可以将其等效为响度级40phon。

2、频域的响度估计策略：

(1)预设响度估计策略2

其中，X(k)为x(n)的频域表示，比如通过傅里叶变化得到。

此外，还对X(k)做频域加权(可由本领域普通技术人员根据实际需要选择加权方式)，比如，本发明中缺省采用A计权，这时需要在X(k)的每个频点上做A计权处理，得到新的频域数据Xa(k)，则目标音频帧的声压级(等效为响度级)可表示为：

(2)预设响度估计策略3

SPL3＝20log₁₀(|X(k)|_1000Hz)。

以以上提及的三种预设响度估计策略为例，按照预设响度估计策略1对目标音频帧的响度级进行估计，得到对应目标音频帧的候选响度级，记为SPL1；按照预设响度估计策略2对目标音频帧的响度级进行估计，得到对应的候选响度级，记为SPL2；按照预设响度级估计策略3对目标音频帧的响度级进行估计，得到对应的候选响度级，记为SPL3。

在204中，网络设备根据每一预设响度加权策略对应的权重对多个候选响度级进行加权求和，将得到的加权和值作为目标音频帧的目标响度级。

根据预设响度估计策略1、2、3各自对应的权重进行加权求和，表示为：

SPL＝a1*SPL1+a2*SPL2+a3*SPL3；

其中，SPL表示加权求和得到的加权和值，a1(比如取值为0.2)表示预设响度估计策略1对应的权重，a2(比如取值为0.3)表示预设响度估计策略对应的权重，a3(比如取值为0.5)表示预设响度估计策略对应的权重。

在205中，网络设备识别当前使能的可视化模式，若当前使能第一可视化模式，则转入206，若当前使能第二可视化模型，则转入207；

应当说明的是，本发明实施例提供有两种可视化模式，分别为第一可视化模式和第二可视化模式，可由本领域普通技术人员预先配置网络设备使能的可视化模式。

在206中，网络设备根据目标响度级所处的响度级区间，确定A计权、B计权或C计权为用于对前述频域数据加权的目标加权策略，转入208。

应当说明的是，A计权(A-Weighted)是一种用于音频测量的标准权重曲线，用于反映人耳的响应特性。由于人耳对于不同频段的声音变化敏感程度是不一样的，太高或者太低就越不敏感，就像一个A字，所以叫A计权。A计权的标准是由美国标准协会在20世纪40年代制定，用于描述人耳对于不同频段声音变化敏感程度。此外，还有B加权和C计权，其中，A计权基于40phon等响曲线设计，B计权基于70phon等响曲线设计，C计权基于100phon等响曲线设计，三者的主要差别是对噪声低频成分的衰减程度，A计权衰减最多，B计权次之，C计权最少。

本发明实施例中，预先将响度级划分为三个区间，依次为第一预设响度级区间、第二预设响度级区间以及第三预设响度级区间，分别对应A计权、B计权和C计权。当使能第一可视化模式，网络设备根据目标响度级所处的响度级区间，确定A计权、B计权或C计权为用于对前述频域数据加权的目标加权策略。

比如，划分的第一预设响度级区间为(-∞，55]，第二预设响度级区间为(55，85]，第三预设响度级区间为(85，+∞]，相应的，当目标响度级位于(-∞，55]之内时，采用A计权为目标加权策略对目标音频帧的频域数据进行加权处理；当目标响度级位于(55，85]之内时，采用B计权为目标加权策略对目标音频帧的频域数据进行加权处理；当目标响度级位于(85，+∞]之内时，采用C计权为目标加权策略对目标音频帧的频域数据进行加权处理。

在207中，网络设备获取对应目标响度级的等响曲线，确定用于对前述频域数据加权的目标加权策略为根据前述等响曲线的反函数进行加权处理。

当使能第二可视化模式时，网络设备根据等响曲线来对目标音频帧的频域数据进行加权处理。

其中，网络设备可以首先获取到对应目标响度级的等响曲线，相应确定目标加权策略为根据该等响曲线的反函数进行加权处理。

Weight(k)＝40–SPL(40)；

X_w(k)＝Weight(k)*X(k)。

在208中，网络设备根据目标加权策略对频域数据进行加权处理，得到加权后的频域数据。

其中，在确定出用于对频域数据进行加权处理的目标加权策略之后，网络设备即可根据确定出的目标加权策略对频域数据进行加权处理，得到加权后的频域数据。

在209中，网络设备根据加权后的频域数据生成对应目标音频帧的频谱图像，并展示频谱图像。

在完成对频域数据的加权处理而得到加权后的频域数据之后，网络设备将该加权后的频域数据作为音频可视化显示的支撑数据，按照预设的频谱图生成策略，根据该加权后的频域数据生成对应目标音频帧的频谱图像，并展示该频谱图像。

应当说明的是，本发明实施例中对于采用何种频谱图生成策略不做限制，可由本领域普通技术人员根据实际需要进行设置。比如，本发明实施例中采用柱状频谱图生成策略，生成柱状形式的频谱图像，并直接在歌曲音频的播放界面展示该柱状形式的频谱图像，如图3所示。

为了更好地实施以上音频可视化方法，本发明实施例还提供一种音频可视化装置。请参照图6，该音频可视化装置包括目标确定模块301、响度获取模块302、策略确定模块303、数据加权模块304以及可视化模块305，如下：

目标确定模块301，用于确定音频数据中的目标音频帧；

响度获取模块302，用于获取目标音频帧的目标响度级；

策略确定模块303，用于根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略；

数据加权模块304，用于根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据；

可视化模块305，用于根据加权后的频域数据生成目标音频帧的频谱图像，并展示所述频谱图像。

可选地，在一实施例中，在获取目标音频帧的目标响度级时，响度获取模块302用于：

按照预设响度估计策略估计得到目标音频帧的目标响度级。

分别按照多个不同预设响度估计策略对目标音频帧的响度级进行估计，得到多个候选响度级；

根据每一预设响度估计策略对应的权重对多个候选响度级进行加权求和，得到目标音频帧的目标响度级。

可选地，在一实施例中，在根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略时，策略确定模块303用于：

当目标响度级位于第一预设响度级区间时，确定目标加权策略为A计权；或者，

当目标响度级位于第二预设响度级区间时，确定目标加权策略为B计权；或者，

当目标响度级位于第三预设响度级区间时，确定目标加权策略为C计权；

其中，第一预设响度级区间小于第二预设响度级区间，第二预设响度级区间小于第三预设响度级区间。

获取目标音频帧的目标响度级对应的等响曲线，并确定等响曲线对应的反函数曲线；

查找目标音频帧在反函数曲线中对应的响应级；

将查找到的响应级进行归一化处理后确定为目标加权策略的加权权重。

可选地，在一实施例中，在确定音频数据中的目标音频帧时，目标确定模块301用于：

依次获取音频数据中按照时序排列的各个音频帧；

若当前获取的音频帧为音频数据中的首个音频帧，则将首个音频帧确定为目标音频帧；

若当前获取的音频帧非音频数据中的首个音频帧，则确定音频帧与前一目标音频帧的能量变化趋势信息；在能量变化趋势信息满足预设条件的情况下，将音频帧确定为目标音频帧；在能量变化趋势信息不满足预设条件的情况下，将音频帧确定为跳过音频帧，且返回依次获取音频数据中按照时序排列的后一音频帧。

可选地，在一实施例中，在将音频帧确定为跳过音频帧之后，目标确定模块301还用于：

获取目标音频帧与历史音频帧在预设频段的能量变化趋势信息，历史音频帧为上一次进行可视化处理的音频帧；

根据能量变化趋势信息确定跳过可视化处理的跳过音频帧；

根据跳过音频帧确定下一次需要进行可视化处理的音频帧。

可选地，在一实施例中，在将音频帧确定为跳过音频帧之后，可视化模块305还用于：

在播放跳过音频帧时展示更新频谱图像。

可选地，在一实施例中，在确定音频数据中的目标音频帧之前，目标确定模块301还用于：

识别屏幕的可视范围内是否存在预设用户；

当存在时，确定音频数据中的目标音频帧。

应当说明的是，本发明实施例提供的音频可视化装置与上文实施例中的音频可视化方法属于同一构思，在音频可视化装置上可以运行音频可视化方法实施例中提供的任一方法，其具体实现过程详见音频可视化方法实施例，此处不再赘述。

本发明实施例还提供一种网络设备，如图7所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域普通技术人员可以理解，图7中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像显示功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而执行本发明实施例提供的音频可视化方法，比如：

确定音频数据中的目标音频帧；

获取目标音频帧的目标响度级；

根据响度级和加权策略的预设对应关系，确定目标响度级对应的目标加权策略；

根据目标加权策略对目标音频帧的频域数据进行加权处理，得到加权后的频域数据；

根据加权后的频域数据生成目标音频帧的频谱图像，并展示频谱图像。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种计算机可读的存储介质，其中存储有计算机程序，该计算机程序包括的多条指令能够被网络设备的处理器进行加载，以执行本发明实施例所提供的音频可视化方法，例如：

确定音频数据中的目标音频帧；

获取目标音频帧的目标响度级；

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本发明实施例所提供的任一种音频可视化方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频可视化方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频可视化方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频可视化方法，其特征在于，包括：

确定音频数据中的目标音频帧；

获取所述目标音频帧的目标响度级；

2.根据权利要求1所述的音频可视化方法，其特征在于，获取所述目标音频帧的目标响度级，包括：

分别按照多个不同预设响度估计策略对所述目标音频帧的响度级进行估计，得到多个候选响度级；

根据每一预设响度估计策略对应的权重对所述多个候选响度级进行加权求和，得到所述目标音频帧的目标响度级。

3.根据权利要求1所述的音频可视化方法，其特征在于，根据响度级和加权策略的预设对应关系，确定所述目标响度级对应的目标加权策略，包括：

当所述目标响度级位于第一预设响度级区间时，确定目标加权策略为A计权；或者，

当所述目标响度级位于第二预设响度级区间时，确定目标加权策略为B计权；或者，

当所述目标响度级位于第三预设响度级区间时，确定目标加权策略为C计权；

其中，所述第一预设响度级区间小于所述第二预设响度级区间，所述第二预设响度级区间小于所述第三预设响度级区间。

4.根据权利要求1所述的音频可视化方法，其特征在于，根据响度级和加权策略的预设对应关系，确定所述目标响度级对应的目标加权策略，包括：

获取所述目标音频帧的目标响度级对应的等响曲线，并确定所述等响曲线对应的反函数曲线；

查找所述目标音频帧在所述反函数曲线中对应的响应级；

5.根据权利要求1所述的音频可视化方法，其特征在于，确定音频数据中的目标音频帧，包括：

依次获取所述音频数据中按照时序排列的各个音频帧；

若当前获取的音频帧为所述音频数据中的首个音频帧，则将所述首个音频帧确定为目标音频帧；

若当前获取的音频帧非所述音频数据中的首个音频帧，则确定所述音频帧与前一目标音频帧的能量变化趋势信息；在所述能量变化趋势信息满足预设条件的情况下，将所述音频帧确定为目标音频帧；在所述能量变化趋势信息不满足预设条件的情况下，将所述音频帧确定为跳过音频帧，且返回依次获取所述音频数据中按照时序排列的后一音频帧的步骤。

6.根据权利要求5所述的音频可视化方法，其特征在于，在将所述音频帧确定为跳过音频帧之后，还包括：

根据所述能量变化趋势信息对所述频谱图像进行更新，得到更新频谱图像；

在播放所述跳过音频帧时展示所述更新频谱图像。

7.根据权利要求1至6任一项所述的音频可视化方法，其特征在于，根据所述加权后的频域数据生成所述目标音频帧的频谱图像，包括：

在所述音频数据中按照时序排列的多个音频帧中，确定所述目标音频帧之前预设数量的目标音频帧；

分别确定每个目标音频帧对应的权重，以及每个目标音频帧加权后的频域数据；

依据每个目标音频帧的权重对每个目标音频帧加权后的频域数据进行加权计算，得到目标频域数据；

依据目标频域数据生成所述目标音频帧的频谱图像。

8.根据权利要求7所述的音频可视化方法，其特征在于，所述确定音频数据中的目标音频帧之前，还包括：

识别屏幕的可视范围内是否存在预设用户；

当存在时，确定音频数据中的目标音频帧。

9.一种音频可视化装置，其特征在于，所述音频可视化装置包括：

目标确定模块，用于确定音频数据中的目标音频帧；

响度获取模块，用于获取所述目标音频帧的目标响度级；

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器加载以执行权利要求1至8任一项所述的音频可视化方法。