CN113793623B

CN113793623B - 音效设置方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN113793623B
Application number: CN202110945754.4A
Authority: CN
Inventors: 包静; 曾轶
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-08-18
Anticipated expiration: 2041-08-17
Also published as: CN113793623A

Abstract

本发明公开了一种音效设置方法、装置、设备以及计算机可读存储介质，所述方法包括：获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频；将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到；获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。本发明提高了用户的听歌体验。

Description

音效设置方法、装置、设备以及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种音效设置方法、装置、设备以及计算机可读存储介质。

背景技术

现在的音乐APP中几乎都有音效设置的功能，APP中会提供一些常用的音效，如“超重低音”等，也会提供方式让用户自己配置自己的均衡器。但大部分的用户不懂如何自己设置音效的，只能使用现有的APP提供的音效，但实际上，在不同的听歌场景听歌，用户对音效的需求不同，导致会出现如何选择适合当前听歌场景的音效的问题。

发明内容

本发明的主要目的在于提供一种音效设置方法、装置、设备以及计算机可读存储介质，旨在解决如何选择适合当前听歌场景的音效的问题。

为实现上述目的，本发明提供的一种音效设置方法，所述音效设置方法包括以下步骤：

获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频；

将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到；

获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。

在一实施例中，所述提取所述目标音频的音频特征参数的步骤包括：

对所述目标音频进行采样得到多个音频片段；

分别提取各个所述音频片段的所述音频特征参数，所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个；

根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。

在一实施例中，所述根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数的步骤包括：

根据所述目标音频对应的各个所述音频片段的音频特征参数确定目标数值，并将所述目标数值作为所述目标音频的所述音频特征参数，所述目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。

在一实施例中，所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后，还包括：

保存所述目标音频对应的目标音效；

获取用户对目标音效的选择操作，则将所述目标音效应用于播放的音频数据或者视频数据中。

保存所述目标音频对应的目标音效；

确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度；

若所述相似度大于预设阈值，则将所述目标音效应用于当前播放的音频数据或者视频数据中。

在一实施例中，所述将所述音频特征参数输入预设的音效设置模型的步骤之前，还包括：

获取训练样本集，所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效；

根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型；

当训练后的所述神经网络模型收敛后，将训练后的所述神经网络模型作为所述音效设置模型并保存。

在一实施例中，所述根据多个所述音频特征参数以及所述音效训练预设的神经网络模型的步骤包括：

将所述训练样本集中的所述音频特征参数作为输入值依次输入所述神经网络模型的各个全连接层，其中，每个全连接层根据输入值以及所述全连接层的预设权重值以及预设激活函数得到所述全连接层的输出值，并将所述输出值输入至下一全连接层，直至最后一个全连接层；

获取最后一个全连接层的输出值；

根据预设的损失函数确定所述输出值与所述训练样本对应的真实值的损失值，根据所述损失值确定权重值；

根据所述权重值确定所述音效设置模型。

为实现上述目的，本发明还提供一种音效设置装置，所述音效设置装置包括：

获取模块，用于获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频；

输入模块，用于将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到；

设置模块，用于获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。

为实现上述目的，本发明还提供一种音效设置设备，所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序，所述音效设置程序被所述处理器执行时实现如上所述的音效设置方法的各个步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有音效设置程序，所述音效设置程序被处理器执行时实现如上所述的音效设置方法的各个步骤。

本发明提供的一种音效设置方法、装置、设备以及计算机可读存储介质，获取用户的目标音频，提取目标音频的音频特征参数；将音频特征参数输入预设的音效设置模型；获取音效设置模型输出的各个预设音效的概率值，根据概率值在预设音效中选取目标音频对应的目标音效。通过目标音频确定贴合用户听的歌曲或者听歌环境的目标音效，提高用户的听歌体验。

附图说明

图1为本发明实施例涉及的音效设置设备的硬件结构示意图；

图2为本发明音效设置方法的第一实施例的流程示意图；

图3为本发明音效设置模型的结构示意图；

图4为本发明音效设置方法的第二实施例的步骤S10的细化流程示意图；

图5为本发明音效设置方法的第三实施例的流程示意图；

图6为本发明音效设置装置的逻辑结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取用户的目标音频，提取目标音频的音频特征参数；将音频特征参数输入预设的音效设置模型；获取音效设置模型输出的各个预设音效的概率值，根据概率值在预设音效中选取目标音频对应的目标音效。

通过目标音频确定贴合用户听的歌曲或者听歌环境的目标音效，提高用户的听歌体验。

作为一种实现方案，音效设置设备可以如图1所示。

本发明实施例方案涉及的是音效设置设备，音效设置设备包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括音效设置程序；而处理器101可以用于调用存储器102中存储的音效设置程序，并执行以下操作：

在一实施例中，处理器101可以用于调用存储器102中存储的音效设置程序，并执行以下操作：

对所述目标音频进行采样得到多个音频片段；

保存所述目标音频对应的目标音效；

获取最后一个全连接层的输出值；

根据所述权重值确定所述音效设置模型。

基于上述音效设置设备的硬件构架，提出本发明音效设置方法的实施例。

参照图2，图2为本发明音效设置方法的第一实施例，所述音效设置方法包括以下步骤：

步骤S10，获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频。

具体的，目标音频包括歌曲音频或者现场的环境音频，歌曲音频可以是用户正在播放的歌曲；环境音频中至少包括歌曲，示例性的，当用户处于歌剧院观看音乐剧时，可以获取音乐剧的歌曲作为环境音频。

提取目标音频的音乐特征参数，其中，音乐特征参数包括MFCC(Mel-FrequencyCepstral Coefficients，梅尔倒谱系数)特征、色度频率值、频谱中心值、频谱带宽值、频谱滚降点、过零率以及均方根值等。

步骤S20，将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到。

具体的，将音频特征参数输入预设的音效设置模型。其中，音效设置模型用于确定目标音频对应的音效。如图3所示，音效设置模型可以包括五层全连接层，当音频特征参数为a个特征参数时，每层全连接层对应的神经元数量可以分别为a、256、128、64以及k，其中k是可以切换的音效的数量。

步骤S30，获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。

具体的，获取音效设置模型输出的各个预设音效的概率值，概率值表示目标音频属于各个预设音效的可能性。根据概率值在预设音效中选取目标音频对应的目标音效，可以是选取大于预设阈值的概率值对应的预设音效并输出，用户在输出的预设音效中选取目标音效；也可以是选取最大概率值对应的预设音效作为目标音频对应的目标音效。

根据概率值在预设音效中选取目标音频对应的目标音效之后，可以保存目标音频对应的目标音效，在用户需要听歌或者看视频时，可以获取用户对目标音效的选择操作，则将目标音效应用于音频数据或者视频数据中。

根据概率值在预设音效中选取目标音频对应的目标音效之后，可以保存目标音频对应的目标音效；确定当前播放的音频数据或者视频数据对应的目标音频的音频参数与目标音效对应的音频参数的相似度；若相似度大于预设阈值，则将目标音效应用于当前播放的音频数据或者视频数据中，避免对相似度较大的音频参数进行多次计算，节省了计算资源。

在本实施例的技术方案中，获取用户的目标音频，提取目标音频的音频特征参数；将音频特征参数输入预设的音效设置模型；获取音效设置模型输出的各个预设音效的概率值，根据概率值在预设音效中选取目标音频对应的目标音效。通过目标音频确定目标音效，目标音效贴合用户听的歌曲或者听歌的环境，提高用户的听歌体验。

参照图4，图4为本发明音效设置方法的第二实施例，基于第一实施例，所述步骤S10包括：

步骤S11，对所述目标音频进行采样得到多个音频片段；

步骤S12，分别提取各个所述音频片段的所述音频特征参数，所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个；

步骤S13，根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数。

具体的，对目标音频进行采样得到多个音频片段，示例性的，按照预设时长以及预设采样率对目标音频进行采样得到多个音频片段，其中，预设时长可以为30秒，采样率可以为22k，采样得到的音频片段不足30秒的可以删除。采样得到的音频片段为一维向量，一维向量中的数值代表音频片段的信息。

分别提取音频片段的音频特征参数，音频特征参数包括梅尔倒谱特征、色度频率值、频谱中心值、频谱带宽值、频谱滚降点、过零率或者均方根值等参数。其中，色度频率值为将目标音频频谱投影到12个区间，每个区间代表一帧音频12个音级的能量，将同一时间、同一音级、不同八度的音符能量进行累加的值。频率中心值用于度量频谱中心，值越大表示信号的高频成分越多。频谱带宽值反映音频信号频率的变化范围，带宽越大则信号频率的变化范围越大。频谱滚降点是信号形状的度量，频谱滚降点为一个频率值，比该频率低的频率的所有能量，占整个频谱的能量的85％。过零率是指信号符号变化的比率，即在每帧中语音信号从正变为负或从负变为正的次数。

目标音频的特征参数与音频片段的音频特征参数的维度相同，示例性的，当音频片段的音频特征参数包括梅尔倒谱特征、色度频率值以及频谱中心值三个维度，目标音频的特征参数也包括梅尔倒谱特征、色度频率值以及频谱中心值三个维度。

根据各个音频片段的音频特征参数确定目标音频的音频特征参数，可以是选取各个音频片段的音频特征参数的中间值，根据中间值确定音频片段的音频特征参数。

根据目标音频对应的各个音频片段的音频特征参数确定目标数值，并将目标数值作为目标音频的音频特征参数，目标数值为各个音频片段的音频特征参数的平均值、最大值、最小值或者均方差值。示例性的，当目标数值为平均值时，将目标音频对应的各个音频片段的音频特征参数取平均值，并将平均值作为目标音频的音频特征参数。示例性的，当音频特征参数分别为频谱中心值、频谱带宽值以及频谱滚降点时，将目标音频对应的各个音频片段的频谱中心值取平均值，将目标音频对应的各个音频片段的频谱带宽值取平均值，将目标音频对应的各个音频片段的频谱滚降点取平均值，将上述取得的平均值均作为目标音频的音频特征参数。

在本实施例的技术方案中，对目标音频进行采样得到多个音频片段；分别提取各个音频片段的音频特征参数，根据各个音频片段的音频特征参数确定目标音频的音频特征参数。通过各个音频片段的音频特征参数确定目标音频的音频特征参数，使得得到的目标音频的音频特征参数更加准确。

参照图5，图5为本发明音效设置方法的第三实施例，基于第一或第二实施例，所述步骤S20之前，还包括：

步骤S40，获取训练样本集，所述训练样本集包括历史音频的多个音频特征参数以及所述音频特征参数对应的音效；

步骤S50，根据训练样本集中的多个所述音频特征参数以及所述音效训练预设的神经网络模型；

步骤S60，当训练后的所述神经网络模型收敛后，将训练后的所述神经网络模型作为所述音效设置模型并保存。

具体的，在将音频特征参数输入预设的音效设置模型之前，还可以需要训练神经网络模型得到音效设置模型，获取训练样本集，其中，训练样本集包括多个历史音频的音频特征参数以及音频特征参数对应的音效；其中，训练神经网络模型的音频特征参数可以用n×m的矩阵表示，其中，n表示用于训练的训练音频的数量，m表示每个训练音频的音频特征参数。根据多个音频特征参数以及音效训练预设的神经网络模型，可以通过批量梯度下降和/或随机梯度下降等方式计算出每个全连接层的神经元之间的权重值。当训练后的神经网络模型收敛后，将训练后的神经网络模型作为音效设置模型并保存。

将训练样本集中的音频特征参数作为输入值依次输入神经网络模型的各个全连接层，每个全连接层根据输入值以及全连接层的预设权重值以及预设激活函数得到当前全连接层的输出值，并将输出值输入至下一全连接层，直至最后一个全连接层，获取最后一个全连接层的输出值；根据预设的损失函数确定输出值与训练样本对应的真实值的损失值，根据损失值确定权重值；根据权重值确定音效设置模型。示例性的，如图3所示，全连接层的层数为5层，每层全连接层对应的神经元数量可以分别为a、256、128、64以及k，其中，a为音频特征参数的数量，k是可以切换的音效的数量。每层全连接层的神经元之间的每条边具有一个权重值，每个神经元的值的计算公式如下所示：

g(h_j)＝max(0,h_j)；

其中，a_j表示当前全连接层的神经元的输出值，ω_ij表示上一层各神经元到当前神经元的权重值，x_ij表示第i层的第j个神经元的值，M表示第i层的神经元的总个数。g(h_j)表示激活函数，示例性的，激活函数可采用Relu等函数。

在本实施例的技术方案中，获取训练样本集，根据训练样本集中的多个音频特征参数以及音效训练预设的神经网络模型；当训练后的神经网络模型收敛后，将训练后的所述神经网络模型作为音效设置模型并保存。进行模型训练得到音效设置模型，通过音效设置模型确定目标音频对应的目标音效，提高了对用户推荐的目标音效的准确性。

参照图6，本发明还提供一种音效设置装置，所述音效设置装置包括：

获取模块100，用于获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频；

输入模块200，用于将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到；

设置模块300，用于获取所述音效设置模型输出的各个预设音效的概率值，根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效，以按照所述目标音效播放音频数据或者视频数据。

在一实施例中，在提取所述目标音频的音频特征参数方面，所述获取模块100具体用于：

对所述目标音频进行采样得到多个音频片段；

在一实施例中，在根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数方面，所述获取模块100具体用于：

在一实施例中，在根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效方面，所述设置模块300具体用于：

将最大的所述概率值对应的所述预设音效作为所述目标音频对应的所述目标音效。

保存所述目标音频对应的目标音效；

在一实施例中，将所述音频特征参数输入预设的音效设置模型方面，所述设置模块300具体用于：

在根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效方面，所述：

保存所述目标音频对应的目标音效；

在一实施例中，在将所述音频特征参数输入预设的音效设置模型方面，所述输入模块200具体用于：

在一实施例中，在根据多个所述音频特征参数以及所述音效训练预设的神经网络模型方面，所述输入模块200具体用于：

获取最后一个全连接层的输出值；

根据所述权重值确定所述音效设置模型。

本发明还提供一种音效设置设备，所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序，所述音效设置程序被所述处理器执行时实现如上实施例所述的音效设置方法的各个步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有音效设置程序，所述音效设置程序被处理器执行时实现如上实施例所述的音效设置方法的各个步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、系统、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、系统、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、系统、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例系统可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，停车管理设备，空调器，或者网络设备等)执行本发明各个实施例所述的系统。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音效设置方法，其特征在于，所述音效设置方法包括：

获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频，所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个；

将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到的神经网络模型；

2.如权利要求1所述的音效设置方法，其特征在于，所述提取所述目标音频的音频特征参数的步骤包括：

对所述目标音频进行采样得到多个音频片段；

分别提取各个所述音频片段的所述音频特征参数；

3.如权利要求2所述的音效设置方法，其特征在于，所述根据各个所述音频片段的所述音频特征参数确定所述目标音频的音频特征参数的步骤包括：

4.如权利要求1所述的音效设置方法，其特征在于，所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后，还包括：

保存所述目标音频对应的目标音效；

5.如权利要求1所述的音效设置方法，其特征在于，所述根据所述概率值在所述预设音效中选取所述目标音频对应的目标音效的步骤之后，还包括：

保存所述目标音频对应的目标音效；

6.如权利要求1所述的音效设置方法，其特征在于，所述将所述音频特征参数输入预设的音效设置模型的步骤之前，还包括：

7.如权利要求6所述的音效设置方法，其特征在于，所述根据多个所述音频特征参数以及所述音效训练预设的神经网络模型的步骤包括：

获取最后一个全连接层的输出值；

根据所述权重值确定所述音效设置模型。

8.一种音效设置装置，其特征在于，所述音效设置装置包括：

获取模块，用于获取用户的目标音频，提取所述目标音频的音频特征参数，所述目标音频包括用户播放的歌曲的音频或者所述用户所在的环境音频，所述音频特征参数包括梅尔倒谱特征、色度频率值、均方根误差值、频谱中心值、频谱带宽值、频谱滚降点以及过零率中的至少一个；

输入模块，用于将所述音频特征参数输入预设的音效设置模型，所述音效设置模型由用户的历史音频训练得到的神经网络模型；

9.一种音效设置设备，其特征在于，所述音效设置设备包括存储器、处理器以及存储在所述存储器并可在所述处理器上执行的音效设置程序，所述音效设置程序被所述处理器执行时实现如权利要求1-7任一项所述的音效设置方法的各个步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有音效设置程序，所述音效设置程序被处理器执行时实现如权利要求1-7任一项所述的音效设置方法的各个步骤。