CN109147816B

CN109147816B - 对音乐进行音量调节的方法及设备

Info

Publication number: CN109147816B
Application number: CN201810583114.1A
Authority: CN
Inventors: 姚青山; 秦宇; 喻浩文; 卢峰
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2021-08-24
Anticipated expiration: 2038-06-05
Also published as: WO2019233361A1; CN109147816A

Abstract

本发明实施例提出了一种对音乐进行音量调节的方法及设备。该方法包括：获取待播放音乐的时域波形以及播放环境的噪声的时域波形；根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置；使用所述音量设置调节所述待播放音乐的音量。由此可见，本发明实施例通过包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络的预先训练好的神经网络，其考虑了所处环境的噪声类别和音乐风格等影响用户当前音量偏好的因素，能够对用户的待播放音乐的音量进行自动调节，如此能够极大地简化用户的操作，提升了用户体验。

Description

对音乐进行音量调节的方法及设备

技术领域

本发明实施例涉及声音领域，并且更具体地，涉及一种对音乐进行音量调节的方法及设备。

背景技术

音质是人对音频质量的主观评价。一般地音质被划分成几十个指标，音量(loudness)也称为响度，是其中一项重要的指标。音量的大小会影响人对音乐信息的接收质量。音量的设置一般与环境音有关，例如在嘈杂的环境中的音乐音量一般高于在安静的环境中的音乐音量。

目前的音量的设置主要是由用户自己调节的，这样给用户带来了操作复杂度，影响了用户的体验。另外现存的一些自动音量调节技术，一般只考虑了环境噪声参数，因此音量自动调节能力有限，实际上个人用户对音量的偏好与很多因素有关，如音乐的类别，人们听不同风格类型音乐时，可能会设置不同的音量，不同类型的环境噪声也会对音量设置造成不同的影响，其他的因素还有个人的偏好和个人的听力、音频播放设备参数等，音量模型必须全面考虑这些因素才能达到更好的性能。

发明内容

本发明实施例提供了一种对音乐的音量进行自动调节的方法及设备，可以基于深度学习实现对音乐的音量进行调节，简化了用户操作，从而提升了用户的体验。

第一方面，提供了一种对音乐进行音量调节的方法，包括：

获取待播放音乐的时域波形以及播放环境的噪声的时域波形；

根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置；

使用所述音量设置调节所述待播放音乐的音量。

在本发明的一种实现方式中，还包括：

将所述预先训练好的神经网络作为基线模型；

重复执行以下步骤，直到特定用户的再次调节指令的次数小于预设值：

对在播放音乐，使用所述基线模型得到相应的音量设置；

获取所述特定用户对所述相应的音量设置的再次调节指令；

若所述特定用户的再次调节指令的次数达到预设值，则将所述特定用户调节后的音量作为训练样本，在所述基线模型的参数基础上进行学习，得到更新后的模型，并用所述更新后的模型替换基线模型。

在本发明的一种实现方式中，所述预先训练好的神经网络包括：音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。

在本发明的一种实现方式中，所述得到所述待播放音乐的音量设置的过程包括：

根据所述待播放音乐的时域波形，使用所述音乐风格神经网络，得到所述待播放音乐的风格向量；

根据所述噪声的时域波形，使用所述噪声类别辨识神经网络，得到所述噪声的类别；

根据所述待播放音乐的时域波形得到所述待播放音乐的能量特征；

根据所述噪声的时域波形得到所述噪声的能量特征；

将所述待播放音乐的风格向量、所述噪声的类别、所述待播放音乐的能量特征、所述噪声的能量特征输入至所述音量调节神经网络，得到所述待播放音乐的音量设置。

在本发明的一种实现方式中，得到所述待播放音乐的风格向量的过程包括：

对所述待播放音乐的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到所述待播放音乐的特征；

将所述待播放音乐的特征输入至所述音乐风格神经网络，得到所述该待播放音乐的风格向量。

在本发明的一种实现方式中，得到所述噪声的类别的过程包括：

对所述噪声的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到所述噪声的特征；

将所述噪声的特征输入至所述噪声类别辨识神经网络，得到所述噪声的类别。

在本发明的一种实现方式中，所述待播放音乐的能量特征包括所述待播放音乐的平均幅度，得到所述待播放音乐的能量特征的过程包括：

计算所述待播放音乐的时域波形的每一点的幅度的绝对值，再除以总点数得到所述待播放音乐的平均幅度。

在本发明的一种实现方式中，所述噪声的能量特征包括所述噪声的平均幅度，得到所述噪声的能量特征的过程包括：

计算所述噪声的时域波形的每一点的幅度的绝对值，再除以总点数得到所述噪声的平均幅度。

在本发明的一种实现方式中，在使用音乐风格神经网络之前，还包括：

基于音乐训练数据集，通过训练得到所述音乐风格神经网络。

在本发明的一种实现方式中，所述音乐训练数据集中的每个音乐训练数据具有音乐风格向量，所述音乐训练数据的音乐风格向量通过以下方式得到：

获取大量用户对多个音乐训练数据的风格标注信息，并基于所述风格标注信息生成标注矩阵；

根据所述标注矩阵确定各个音乐训练数据的音乐风格向量。

在本发明的一种实现方式中，所述根据所述标注矩阵确定各个音乐训练数据的音乐风格向量，包括：

将所述标注矩阵分解为第一矩阵与第二矩阵的乘积；

将所述第一矩阵的各个行向量确定为对应的音乐训练数据的音乐风格向量。

在本发明的一种实现方式中，在使用噪声类别辨识神经网络之前，还包括：

基于噪声训练数据集，通过训练得到所述噪声类别辨识神经网络。

在本发明的一种实现方式中，所述噪声的时域波形是由用户音频播放设备的拾音设备采集的。

在本发明的一种实现方式中，还包括：

将音量调节后的待播放音乐进行播放。

第二方面，提供了一种对音乐进行音量调节的设备，所述设备用于实现前述第一方面或任一实现方式所述方法的步骤，所述设备包括：

获取模块，用于获取待播放音乐的时域波形以及播放环境的噪声的时域波形；

确定模块，用于根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置；

调节模块，用于使用所述音量设置调节所述待播放音乐的音量。

第三方面，提供了一种对音乐进行音量调节的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述第一方面或任一实现方式所述方法的步骤。

第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面或任一实现方式所述方法的步骤。

由此可见，本发明实施例通过包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络的预先训练好的神经网络，其考虑了所处环境的噪声类别和音乐风格等影响用户当前音量偏好的因素，能够对用户的待播放音乐的音量进行自动调节，如此能够极大地简化用户的操作，提升了用户体验。并且还可以根据特定用户的音量偏好进行再次调节，通过在线学习得到专用于特定用户的音量调节模型。从而可以使用该专用于特定用户的音量调节模型，对特定用户想要播放的待播放音乐自动进行音量设置。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的得到音乐训练数据的音乐风格向量的示意性流程图；

图2是本发明实施例中标注矩阵的示意图；

图3是本发明实施例中对音乐进行音量调节的方法的示意性流程图；

图4是本发明实施例中对音乐进行音量调节的方法的另一示意性流程图；

图5是本发明实施例中对用户在音量设置基础上再次调节的示意性流程图；

图6是本发明实施例中基于基线模型通过在线学习得到专用于特定用户的音量调节模型的示意性流程图；

图7是本发明实施例中得到专用于特定用户的音量调节模型的示意性流程图；

图8是本发明实施例中对音乐进行音量调节的设备的示意性框图；

图9是本发明实施例中对音乐进行音量调节的设备的另一示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

深度学习(Deep Learning)是一种机器学习方法，其应用深层神经网络对具有复杂模型的数据进行特征学习，并将数据低层次特征进行智能组织，形成更高级抽象形式。由于深度学习对人工难以抽象并建模的复杂数据具有较强的特征提取和建模能力，对音质自适应调整这类较难进行人工建模的任务，深度学习是一种有效的实现方法。

本发明实施例提供了一种预先训练好的神经网络，其包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。下面将分别进行阐述。

本发明实施例中基于深度学习构建了一种音乐风格神经网络。该音乐风格神经网络是根据音乐训练数据集进行训练得到的。其中，音乐训练数据集中包括大量的音乐训练数据，下面对单个音乐训练数据进行详细阐述。

音乐训练数据是音乐数据，包括该音乐训练数据的特征，其可以作为神经网络的输入；还包括该音乐训练数据的音乐风格向量，其可以作为神经网络的输出。

示例性地，对于音乐训练数据，其原始音乐波形为时域波形，可以对该时域波形进行分帧，并对分帧后的每帧进行特征提取从而得到该音乐训练数据的特征。可选地，作为一例，可以通过短时傅里叶变换(Short-Time Fourier Transform，STFT)进行特征提取，所提取的特征可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。应理解，本文对特征提取的方式仅是示意性的，并且也可以得到其他的特征，如幅度谱、对数谱、能量谱等，这里不再一一罗列。可选地，本发明实施例中此处以及之后经特征提取所得到的特征可以表示为特征张量的形式，例如表示为N维特征向量；或者，所提取的特征也可以表示为其他的形式，此处不作限定。

示例性地，可以参照如图1所示的方法得到音乐训练数据的音乐风格向量，该过程包括：

S101，获取用户对多个音乐训练数据的风格标注信息，并基于风格标注信息生成标注矩阵。

针对某一音乐训练数据，不同的用户的风格标注信息可能相同或不同。例如，歌曲《我的祖国》，有些用户可能将其标注为“民乐”，有些用户可能将其标注为“流行”，有些用户可能同时将其标注为“民乐”和“美声”，等等。通过统计多个用户的风格标注信息，可以获取不同风格的标注数量。作为一例，参照图2，针对《我的祖国》，“民乐”的标注数量为12，“流行”的标注数量为3，“美声”的标注数量为10。

进一步地，可以基于多个音乐训练数据的标注信息，生成标注矩阵。标注矩阵的行可以表示某一音乐训练数据的标注信息，例如，每一行表示对应的音乐训练数据的“风格标签”。标注矩阵的列表示风格。参照图2，针对《我的祖国》《七里香》《珊瑚海》《十送红军》的标注信息所生成的标注矩阵可以表示为：

应理解，图2仅是示意性地，尽管其中仅示出了4个音乐训练数据以及4种风格，但是本发明不限于此，可以基于更多数量的音乐训练数据以及更多数量的风格得到标注矩阵。

S102，根据标注矩阵确定各个音乐训练数据的音乐风格向量。

具体地，可以从标注矩阵中提取音乐风格向量。作为一例，可以将标注矩阵中某音乐训练数据的所在行对应的向量作为其音乐风格向量。如针对《我的祖国》，其音乐风格向量为[12,3,0,10]。作为另一例，可以将标注矩阵中某音乐训练数据的所在行对应的向量进行归一化后作为其音乐风格向量。如针对《我的祖国》，其音乐风格向量为[12/25,3/25,0,10/25]。可理解，这两例所得到的音乐风格向量的维度较大，且是稀疏向量。作为再一例，可以考虑该标注矩阵的稀疏性，从其中提取出音乐风格向量，提取的算法包括但不限于矩阵分解、因子分解机或词向量化算法等。该例中得到的音乐风格向量的维度较小，即可以得到更加密集的音乐风格向量，

图2中以矩阵分解为例阐述该提取的过程。标注矩阵中每一行的向量均为稀疏的向量。例如针对某特定的音乐训练数据的风格标签，其中的某些值是正整数，而其余的均为0，很少会出现风格标签中所有项都为正整数的情况，也就是说，某特定的音乐训练数据一般只对应一种或几种风格。因此该标注矩阵也是稀疏矩阵，可以通过对该稀疏矩阵进行提取使得每个音乐训练数据的音乐风格向量的维度小于标注矩阵的列数，并且能够更好地反映不同音乐训练数据之间的相关度。

参照图2，标注矩阵可以被分解为第一矩阵乘以第二矩阵。其中，第一矩阵的行表示对应音乐训练数据的音乐风格向量，其可以看作是对稀疏向量形式的风格标签的压缩。如图2中第一矩阵所示，《我的祖国》的音乐风格向量为[1.2,3.7,3.1]，《十送红军》的音乐风格向量为[1.8,4.0,4.1]，由于这两个向量之间具有较高的余弦相似度，因此可以确定《我的祖国》与《十送红军》是相似的音乐。

第二矩阵是表示第一矩阵各项的权重(图2中未示出第二矩阵的各个元素的具体值)。具体地，第二矩阵的每一列对于一个音乐风格，一列中的数值表征该音乐风格类对第一矩阵中各个元素的权重。

可理解，通过将第一矩阵与第二矩阵相乘可以实现对标注矩阵的还原，标注矩阵可以更直观地显示被标注的各种不同风格。另外可理解，图2仅是示意性的，尽管其示出标注矩阵的列数维度为4，得到的音乐风格向量的维度为3，但是本发明不限于此。例如，在实际应用中，矩阵和向量的维度可以更大。

如此，针对每一个音乐训练数据，均可以通过特征提取得到其特征。通过图1和图2所示的过程，可以得到每个音乐训练数据的音乐风格向量。将特征作为输入，并将音乐风格向量作为输出，对音乐风格神经网络进行训练直到收敛，便可以得到训练好的音乐风格神经网络。

本发明实施例中还基于深度学习构建了一种噪声类别辨识神经网络。该噪声类别辨识神经网络是根据噪声训练数据集进行训练得到的。其中，噪声训练数据集中包括大量的噪声训练数据，下面对单个噪声训练数据进行详细阐述。

噪声训练数据是噪声数据，包括该噪声训练数据的特征，其可以作为神经网络的输入；还包括该噪声训练数据的噪声类别，其可以作为神经网络的输出。

示例性地，对于噪声训练数据，其原始噪声波形为时域波形，可以对该时域波形进行分帧，并对分帧后的每帧进行特征提取从而得到该噪声训练数据的特征。可选地，作为一例，可以通过短时傅里叶变换(Short-Time Fourier Transform，STFT)进行特征提取，所提取的特征可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)。应理解，本文对特征提取的方式仅是示意性的，并且也可以得到其他的特征，如幅度谱、对数谱、能量谱等，这里不再一一罗列。

示例性地，可以为每个噪声训练数据标记其所属的噪声类别。噪声类别可以包括但不限于机场、步行街、公交车、商场、餐厅等。本发明对标记的方式不做限定，例如，可以用“000”表示机场，“001”表示步行街，“010”表示公交车等；也可以采用其他方式进行标记，这里不再一一罗列。

为了便于理解，此处以一个示例来说明标记的一种实现方式。具体地，一个噪声训练数据可以由一个用户或多个用户进行标记，不同的用户所标记的噪声类别可以相同或不同。在获取多个用户对一个噪声训练数据的标记之后，可以将其中被标记数量最多的确定为该一个噪声训练数据所属的噪声类别。举例来说，假设噪声训练数据A被m1个用户标记为“000”，被m2个用户标记为“001”，被m3个用户标记为“010”，若m1>m2且m1>m3，则可以确定噪声训练数据A所属的噪声类别为“000”。

如此，针对每一个噪声训练数据，均可以通过特征提取得到其特征，并标记出其所属的噪声类别。将特征作为输入，并将噪声类别作为输出，对噪声类别辨识神经网络进行训练直到收敛，便可以得到训练好的噪声类别辨识神经网络。

本发明实施例中还基于深度学习构建了一种音量调节神经网络。该音量调节神经网络是根据训练数据集进行训练得到的。其中，训练数据集中包括大量的训练数据，该训练数据集可以是用户行为集，如可以通过采集多个用户在各种环境下听音乐的数据等。

下面对单个训练数据进行详细阐述。示例性地，某用户在某环境下听某音乐时，可以获取该数据作为训练数据。具体的，可以根据用户正在播放的音乐获取该音乐的时域波形，可以通过用户所使用的播放终端的拾音设备获取所处的环境的噪声的时域波形，并且可以获取用户的音量设置等。

其中，获取音乐的时域波形可以包括：从用户使用的客户端获取该音乐的时域波形。或者，可以包括：从用户使用的客户端获取该音乐的音乐信息，并根据该音乐信息从服务器端的音乐数据库中获取该音乐的时域波形，如此能够减少传输量。其中，音乐信息可以包括歌名、歌手、专辑等中的至少一项。可理解，本发明实施例中所述的音乐信息仅仅是示例性的，其可以包括其他信息，诸如时长、格式等，这里不再一一罗列。

其中，拾音设备诸如耳机麦克、手机麦克等，这里不作限定。其中，可以获取用户对音量的调节指令或者获取在稳定播放该音乐时用户所设置的稳定音量。可选地，该音量可以用百分比表示，或者，音量也可以用其他方式表示，本发明对此不限定。

可以基于训练数据所包括的音乐的时域波形得到该音乐的特征。具体的，可以对该音乐的时域波形进行分帧，并对分帧后的每帧进行特征提取从而得到该音乐的特征。随后，将该音乐的特征输入至前述的音乐风格神经网络，便可以得到该音乐的风格向量。示例性地，如果不同的帧所得到的音乐的风格向量不同，可以通过对这些帧得到的风格向量进行平均，将平均后的风格向量作为该音乐的风格向量。应注意，这里所使用的“平均”是将多个风格向量项(或值)进行均值计算得到结果值。例如，可以为算术平均。然而，可理解，“平均”也可以通过其他计算方式得到结果值，如加权平均，其中不同项的权重可以相等或不等，本发明实施例对平均的方式不作限定。

可以基于训练数据所包括的噪声的时域波形得到该噪声的特征。具体的，可以对该噪声的时域波形进行分帧，并对分帧后的每帧进行特征提取从而得到该噪声的特征。随后，将该噪声的特征输入至前述的噪声类别辨识神经网络，便可以得到该噪声的类别。示例性地，如果不同的帧所得到的噪声的类别不同，可以通过对这些帧得到的类别进行分类统计，将数量最多的一个类别作为该噪声的类别。

可以基于训练数据所包括的音乐的时域波形得到音乐能量特征。本发明实施例对计算音乐能量特征的方式不作限定，例如可以根据音乐的时域波形的各点的幅度来计算音乐能量特征。作为一例，该音乐能量特征可以包括音乐平均幅度，具体地可以计算该音乐的时域波形的每一点的幅度的绝对值，然后再除以总点数得到音乐平均幅度。也就是说，可以将该音乐的时域波形的所有点的幅度的算术平均作为音乐能量特征。作为另一例，也可以将该音乐的时域波形的所有点的幅度的几何平均或加权平均作为音乐能量特征。作为再一例，也可以将该音乐的时域波形的所有点的幅度取自然对数后再进行算术平均作为该音乐能量特征。当然，也可以通过其他的计算方法得到音乐能量特征，本发明对此不限定。

可以基于训练数据所包括的噪声的时域波形得到噪声能量特征。本发明实施例对计算噪声能量特征的方式不作限定，例如可以根据噪声的时域波形的各点的幅度来计算噪声能量特征。作为一例，该噪声能量特征可以包括噪声平均幅度，具体地可以计算该噪声的时域波形的每一点的幅度的绝对值，然后再除以从点数得到噪声平均幅度。也就是说，可以将该噪声的时域波形的所有点的幅度的算术平均作为噪声能量特征。作为另一例，也可以将该噪声的时域波形的所有点的幅度的几何平均或加权平均作为噪声能量特征。作为再一例，也可以将该噪声的时域波形的所有点的幅度取自然对数后再进行算术平均作为该噪声能量特征。当然，也可以通过其他的计算方法得到噪声能量特征，本发明对此不限定。

如此，针对每一个训练数据，均可以得到音乐的风格向量、噪声的类别、音乐能量特征、噪声能量特征，并获取用户的音量设置。将音乐的风格向量、噪声的类别、音乐能量特征、噪声能量特征作为输入，将音量设置作为输出，对音量调节神经网络进行训练直到收敛，便可以得到训练好的音量调节神经网络。

本发明实施例提供了一种对音乐进行音量调节的方法，如图3所示为该方法的流程图，包括：

S210，获取待播放音乐的时域波形以及播放环境的噪声的时域波形；

S220，根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置；

S230，使用所述音量设置调节所述待播放音乐的音量。

预先训练好的神经网络可以包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。具体地，S220中，可以根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络，得到所述待播放音乐的音量设置。其中的音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络可以分别是前述的训练好的音乐风格神经网络、训练好的噪声类别辨识神经网络以及训练好的音量调节神经网络，可理解，前述的训练过程一般在服务器端(即云端)执行。

图3所示的方法可以由服务器端(即云端)执行，或者可以由客户端执行。

在由客户端执行的实施例中，在S210中，若待播放音乐是客户端本地音乐，则客户端可以直接获取该待播放音乐的时域波形。若待播放音乐是在线音乐，则客户端可以从服务器端获取该待播放音乐的时域波形。另外，还可以由客户端的拾音设备获取所处的环境的噪声的时域波形。在S220之前，客户端可以从服务器端获取预先训练好的音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。

在由服务器端执行的实施例，在S210中，若待播放音乐是客户端本地音乐，则服务器端(即云端)从客户端接收该待播放音乐，从而获取该待播放音乐的时域波形。若待播放音乐为存储在服务器端的音乐，如存储在服务器端的音乐数据库中，则服务器端(即云端)从客户端接收待播放音乐的音乐信息，这里的音乐信息可以包括歌名、歌手、专辑等中的至少一项。根据该音乐信息从服务器端的音乐数据库中获取该待播放音乐，从而获取该待播放音乐的时域波形。另外，服务器端还可以从客户端接收由客户端的拾音设备所采集的所处环境的噪声的时域波形。

示例性地，如图4所示，S220可以包括：

S2201，根据所述待播放音乐的时域波形，使用音乐风格神经网络，得到所述待播放音乐的风格向量。

具体地，可以对待播放音乐的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到该待播放音乐的特征。随后可以将该待播放音乐的特征输入至音乐风格神经网络，得到该待播放音乐的风格向量。

其中，特征提取的方法可以包括但不限于STFT、MFCC等。所提取的特征可以为幅度谱、对数谱、能量谱等，本发明对此不限定。

S2202，根据所述噪声的时域波形，使用噪声类别辨识神经网络，得到所述噪声的类别。

具体地，可以对噪声的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到该噪声的特征。随后可以将该噪声的特征输入至噪声类别辨识神经网络，得到该噪声的类别。

S2203，根据所述待播放音乐的时域波形得到所述待播放音乐的能量特征。

可选地，音乐的能量特征可以包括音乐的平均幅度。可以计算该待播放音乐的时域波形的每一点的幅度的绝对值，然后再除以总点数得到该待播放音乐的平均幅度。

可选地，可以将该待播放音乐的时域波形的所有点的幅度的几何平均或加权平均作为该待播放音乐的能量特征。

可选地，可以将该待播放音乐的时域波形的所有点的幅度取自然对数后再进行算术平均作为该待播放音乐的能量特征。

S2204，根据所述噪声的时域波形得到所述噪声的能量特征。

可选地，噪声的能量特征可以包括噪声的平均幅度。可以计算该噪声的时域波形的每一点的幅度的绝对值，然后再除以总点数得到该噪声的平均幅度。

可选地，可以将该噪声的时域波形的所有点的幅度的几何平均或加权平均作为该噪声的能量特征。

可选地，可以将该噪声的时域波形的所有点的幅度取自然对数后再进行算术平均作为该噪声的能量特征。

应注意，尽管图4中按照S2201至S2204示出了该过程，然而本发明实施例对S2201至S2204的执行顺序不做限定。例如，S2201-S2204四个步骤可以并行执行。例如，可以先依次执行或并行执行S2201和S2202，然后再依次执行或并行执行S2203和S2204。例如，可以先依次执行或并行执行S2204和S2203，然后再依次执行或并行执行S2201和S2202。例如，可以先依次执行或并行执行S2201和S2203，然后再依次执行或并行执行S2202和S2204。也就是说，S2201-S2204可以以任意顺序执行，这里不再一一罗列。

S2205，将所述待播放音乐的风格向量、所述噪声的类别、所述待播放音乐的能量特征、所述噪声的能量特征输入至音量调节神经网络，得到所述待播放音乐的音量设置。

由此可见，本发明实施例通过包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络的预先训练好的神经网络，其考虑了所处环境的噪声类别和音乐风格等多种影响用户当前音量偏好的因素，能够对用户的待播放音乐的音量进行自动调节，如此能够极大地简化用户的操作，提升了用户体验。

由于不同的用户对音量的偏好设置不同，如有的人喜欢高音量的澎湃感，有的人喜欢睡眠前伴随低音量的音乐入眠；如老年人可能因为听力衰退需要高音量，而对年轻人来说低音量就可以满足。上述在训练音量调节神经网络时未考虑用户个体间的差异，因此上述训练好的音量调节神经网络可以被称为音量调节基线神经网络或者可以被称为音量调节基线模型等。

在该音量调节基线模型的基础上，可以考虑用户的使用偏好，通过在线学习得到针对特定用户的音量调节神经网络。

示例性地，S2205中的音量调节神经网络可以是音量调节基线模型，

S230中可以使用S2205所确定的音量设置调节待播放音乐的音量。并且，在S230之后，可以使用该调节后的音量播放待播放音乐。

可理解，若S230所得到的音量设置使用户感到满意，则可以使用该音量设置播放待播放音乐，并且，上述的音量调节基线模型同时也是适合该用户的专有音量调节模型。然而，考虑到不同用户对音量的不同偏好，S230所得到的音量不一定是用户所满意的，因此，S230之后，用户可能会在此基础上再次进行音量调节，以得到该用户所期望的音量。该过程可以如图5所示。

本发明实施例可以在预先训练好的神经网络的基础上，基于用户的再次调节，通过在线学习得到专用于特定用户的音量调节模型。具体地，如图6所示，该过程可以包括：

S310，将预先训练好的神经网络作为基线模型。

S320，重复执行以下步骤，直到特定用户的再次调节指令的次数小于预设值：

S3201，对在播放音乐，可以使用基线模型得到相应的音量设置。

S3202，获取特定用户对S3201中的音量设置的再次调节指令。

S3203，若该特定用户的再次调节指令的次数达到预设值，则将该特定用户调节后的音量作为训练样本，在基线模型的基础上进行学习，得到更新后的模型，并用更新后的模型替换基线模型。

可理解，S320中可以通过特定用户的再次调节指令(即用户对音量设置的反馈)对基线模型进行在线学习，直到用户很少或不再反馈，S320最终得到的模型可以被确定为专用于特定用户的音量调节模型。也就是说，

S320最终得到的基线模型确定的音量设置用户不再反馈或者很少反馈，则该模型即为专用于特定用户的音量调节模型。在此之后，可以使用该专用模型为特定用户播放的音乐自动地进行音量设置，而无需用户手动调节，从而提升了用户体验。

具体地，假设特定用户播放N个音乐，则可以使用音量调节基线模型得到对应的N个音量设置。如果随后该特定用户对其中的部分音量设置不满意，则会进行再次调节，假设特定用户对其中的N1个音乐的音量进行了再次调节。如果N1大于预设值(假设为N0)，则可以使用这N1个音乐作为训练样本，在音量调节基线模型的基础上进行训练，得到训练后的模型，将其称为模型M(T＝1)。其中，T可以表示针对特定用户进行在线训练的批次。在此之后，该特定用户播放音乐时，可以使用模型M(T＝1)而不再使用音量调节基线模型。具体地，假设特定用户播放N个音乐，则可以使用模型M(T＝1)得到对应的N个音量设置，如果随后该特定用户对其中的部分音量设置不满意，则会进行再次调节，假设特定用户对其中的N2个音乐的音量进行了再次调节。如果N2大于预设值(假设为N0)，则可以使用这N2个音乐作为训练样本，在模型M(T＝1)的基础上进行训练，得到训练后的模型，将其称为模型M(T＝2)。在此之后，该特定用户播放音乐时，可以使用模型M(T＝2)而不再使用音量调节基线模型和模型M(T＝1)……以此类推，直到得到模型M(T＝n)。在此之后，该特定用户播放音乐时，可以使用模型M(T＝n)。也就是说，可以使用M(T＝n)得到对应的音量设置。如果特定用户对此次得到的音量设置都满意，不再做再次调节，则模型M(T＝n)即为针对该特定用户的专用于特定用户的音量调节模型。或者，即使特定用户对其中部分音量设置不满意，但是该特定用户进行再次调节的数量小于预设值，则模型M(T＝n)为针对该特定用户的专用于特定用户的音量调节模型。示例性地，该过程可以参见图7所示。

其中，特定用户进行再次调节的数量小于预设值可以是指，特定用户进行再次调节的频率小于预设频率，举例来说，该预设频率可以等于N0/N。例如，使用模型M(T＝n)得到N个音乐的音量设置，该特定用户进行再次调节的音乐的数量小于N0。或者，例如，使用模型M(T＝n)得到NN个音乐的音量设置，该特定用户进行再次调节的音乐的数量小于NN*N0/N。则说明该特定用户再次调节的频率小于预设频率。

由此可见，本发明实施例可以在音量调节基线模型的基础上，根据特定用户的再次调节，通过在线学习得到专用于特定用户的音量调节模型。在此之后，可以使用该专用于特定用户的音量调节模型，对特定用户想要播放的待播放音乐自动进行音量设置，减少了用户的操作，提升了用户体验。

图8是本发明实施例的对音乐进行音量调节的设备的一个示意性框图。图8所示的设备30包括获取模块310、确定模块320和调节模块330。

获取模块310用于获取待播放音乐的时域波形以及播放环境的噪声的时域波形。

确定模块320用于根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置。

调节模块330用于使用所述音量设置调节所述待播放音乐的音量。

作为一种实现方式，图8所示的设备30可以为服务器端(即云端)。可选地，该设备30还可以包括训练模块，用于基于训练数据集，通过训练得到所述预先训练好的神经网络。

作为一种实现方式，设备30可以包括训练模块，用于通过在线学习得到专用于所述特定用户的音量调节神经网络。

具体地：可以将所述预先训练好的神经网络作为基线模型。重复执行以下步骤，直到特定用户的再次调节指令的次数小于预设值：对在播放音乐，使用所述基线模型得到相应的音量设置；获取所述特定用户对所述相应的音量设置的再次调节指令；若所述特定用户的再次调节指令的次数达到预设值，则将所述特定用户调节后的音量作为训练样本，在所述基线模型的基础上进行学习，得到更新后的模型，并用所述更新后的模型替换基线模型。则最终得到的更新后的模型即为专用于所述特定用户的音量调节神经网络。

作为一种实现方式，所述预先训练好的神经网络包括：音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。确定模块320可以具体用于：根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络，得到所述待播放音乐的音量设置。

可选地，确定模块320可以包括风格向量确定单元、噪声类别确定单元、音乐能量特征确定单元、噪声能量特征确定单元以及音量确定单元。

风格向量确定单元用于根据所述待播放音乐的时域波形，使用所述音乐风格神经网络，得到所述待播放音乐的风格向量。

噪声类别确定单元用于根据所述噪声的时域波形，使用所述噪声类别辨识神经网络，得到所述噪声的类别。

音乐能量特征确定单元用于根据所述待播放音乐的时域波形得到所述待播放音乐的能量特征。

噪声能量特征确定单元用于根据所述噪声的时域波形得到所述噪声的能量特征。

音量确定单元用于将所述待播放音乐的风格向量、所述噪声的类别、所述待播放音乐的能量特征、所述噪声的能量特征输入至所述音量调节神经网络，得到所述待播放音乐的音量设置。

其中，风格向量确定单元具体用于：对所述待播放音乐的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到所述待播放音乐的特征；将所述待播放音乐的特征输入至所述音乐风格神经网络，得到所述该待播放音乐的风格向量。

其中，噪声类别确定单元具体用于：对所述噪声的时域波形进行分帧，并对分帧后的每帧进行特征提取，得到所述噪声的特征；将所述噪声的特征输入至所述噪声类别辨识神经网络，得到所述噪声的类别。

其中，所述待播放音乐的能量特征包括所述待播放音乐的平均幅度，音乐能量特征确定单元具体用于：计算所述待播放音乐的时域波形的每一点的幅度的绝对值，再除以总点数得到所述待播放音乐的能量特征。

其中，所述噪声的能量特征包括所述噪声的平均幅度，噪声能量特征确定单元具体用于：计算所述噪声的时域波形的每一点的幅度的绝对值，再除以总点数得到所述噪声的能量特征。

作为一种实现方式，设备30还包括训练模块，用于：基于音乐训练数据集，通过训练得到所述音乐风格神经网络。

其中，所述音乐训练数据集中的每个音乐训练数据具有音乐风格向量。训练模块通过以下方式得到所述音乐训练数据的音乐风格向量：获取大量用户对多个音乐训练数据的风格标注信息，并基于所述风格标注信息生成标注矩阵；根据所述标注矩阵确定各个音乐训练数据的音乐风格向量。

具体地，将所述标注矩阵分解为第一矩阵与第二矩阵的乘积；将所述第一矩阵的各个行向量确定为对应的音乐训练数据的音乐风格向量。

作为一种实现方式，设备30还包括训练模块，用于：基于噪声训练数据集，通过训练得到所述噪声类别辨识神经网络。

示例性地，获取模块310所获取的所述噪声的时域波形是由客户端的拾音设备采集的。

作为一种实现方式，设备30还包括播放模块，用于将音量调节后的待播放音乐进行播放。

图8所示的设备30能够用于实现前述所示的对音乐进行音量调节的方法，为避免重复，这里不再赘述。

如图9所示，本发明实施例还提供了另一种对音乐进行音量调节的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述所示的方法的步骤。

具体地，处理器可以获取待播放音乐的时域波形以及播放环境的噪声的时域波形；根据所述待播放音乐的时域波形以及所述噪声的时域波形，使用预先训练好的神经网络，得到所述待播放音乐的音量设置；使用所述音量设置调节所述待播放音乐的音量。其中，所述预先训练好的神经网络包括：音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络。

处理器还可以通过在线学习得到专用于特定用户的音量调节神经网络。

示例性地，本发明实施例中的对音乐进行音量调节的设备可以包括：一个或多个处理器、一个或多个存储器、输入装置以及输出装置，这些组件通过总线系统和/或其它形式的连接机构互连。应当注意，该设备根据需要也可以具有其他组件和结构。

所述处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述设备中的其它组件以执行期望的功能。

所述存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

其中，输入装置/输出装置可以是外接装置，通过有线或无线方式与处理器进行通信。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述所示的音量调节的方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

由此可见，本发明实施例通过包括音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络的预先训练好的神经网络，其考虑了所处环境的噪声类别和音乐风格等影响用户当前音量偏好的因素，能够对用户的待播放音乐的音量进行自动调节，如此能够极大地简化用户的操作，提升了用户体验。并且还可以根据特定用户的音量偏好进行再次调节，通过在线学习得到专用于特定用户的音量调节模型，从而可以使用该专用于特定用户的音量调节模型，对特定用户想要播放的待播放音乐自动进行音量设置。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对音乐进行音量调节的方法，其特征在于，包括：

使用所述音量设置调节所述待播放音乐的音量；

其中，所述预先训练好的神经网络包括：音乐风格神经网络、噪声类别辨识神经网络以及音量调节神经网络；

在使用音乐风格神经网络之前，还包括：基于音乐训练数据集，通过训练得到所述音乐风格神经网络；或，在使用噪声类别辨识神经网络之前，还包括：基于噪声训练数据集，通过训练得到所述噪声类别辨识神经网络。

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述预先训练好的神经网络作为基线模型；

对在播放音乐，使用所述基线模型得到相应的音量设置；

获取所述特定用户对所述相应的音量设置的再次调节指令；

3.根据权利要求1所述的方法，其特征在于，所述得到所述待播放音乐的音量设置的过程包括：

根据所述噪声的时域波形得到所述噪声的能量特征；

4.根据权利要求3所述的方法，其特征在于，得到所述待播放音乐的风格向量的过程包括：

将所述待播放音乐的特征输入至所述音乐风格神经网络，得到所述待播放音乐的风格向量。

5.根据权利要求3所述的方法，其特征在于，得到所述噪声的类别的过程包括：

6.根据权利要求3所述的方法，其特征在于，所述待播放音乐的能量特征包括所述待播放音乐的平均幅度，得到所述待播放音乐的能量特征的过程包括：

7.根据权利要求3所述的方法，其特征在于，所述噪声的能量特征包括所述噪声的平均幅度，得到所述噪声的能量特征的过程包括：

8.根据权利要求1所述的方法，其特征在于，所述音乐训练数据集中的每个音乐训练数据具有音乐风格向量，所述音乐训练数据的音乐风格向量通过以下方式得到：

根据所述标注矩阵确定各个音乐训练数据的音乐风格向量。

9.根据权利要求8所述的方法，其特征在于，所述根据所述标注矩阵确定各个音乐训练数据的音乐风格向量，包括：

将所述标注矩阵分解为第一矩阵与第二矩阵的乘积；

10.根据权利要求1所述的方法，其特征在于，所述噪声的时域波形是由客户端的拾音设备采集的。

11.根据权利要求1至10中任一项所述的方法，其特征在于，还包括：

将音量调节后的待播放音乐进行播放。

12.一种对音乐进行音量调节的设备，其特征在于，所述设备用于实现前述权利要求1至11中任一项所述的方法，所述设备包括：

13.一种对音乐进行音量调节的设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。