CN109147807B

CN109147807B - 一种基于深度学习的音域平衡方法、装置及系统

Info

Publication number: CN109147807B
Application number: CN201810583138.7A
Authority: CN
Inventors: 姚青山; 秦宇; 喻浩文; 卢峰
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2023-06-23
Anticipated expiration: 2038-06-05
Also published as: CN113903346A; WO2019233360A1; US20210217430A1; JP2021525992A; US11875807B2; JP7136932B2; CN109147807A

Abstract

本发明提供了发明提供了一种基于深度学习的音域平衡方法、装置、及系统，所述方法包括：对音频数据进行特征提取得到音频数据特征；基于所述音频数据特征，利用训练好的音域平衡模型，生成所述待处理的音频数据的推荐音域平衡结果。本发明基于深层神经网络和无监督深度学习，解决无分类标签音乐和未知风格音乐的音域平衡的问题，并结合对用户偏好的统计，实现更合理的多类别音域平衡设计，满足个性化需求。

Description

一种基于深度学习的音域平衡方法、装置及系统

技术领域

本发明涉及声音技术领域，更具体地涉及一种音质调节方法及装置。

背景技术

音质是人对音频质量的主观评价，对音质每个人有不同的偏好，比如对不同频段声音的偏好，有的人喜欢低音澎湃的音乐，有人喜欢中高频较多甚至尖刺的声音，而有的人则喜欢中频段的清晰人声。

无论是音频播放设备供应商还是音频门户平台，设法提升增强音质，是能够提升用户音乐体验的最直接方法之一。音质的音域平衡是指通过对人耳可感知声音频域范围内的频率区间，如对人耳可感知声音的高中低频区域的频谱进行不同程度的增强或衰减，以满足人们对不同频段声音偏好。目前的一种常用调节方法是设置EQ(Equalizer)曲线，EQ曲线的每个点表示对一个频点或频段的增强或衰减倍数，有的播放终端和播放软件提供了通过调节播放终端的EQ均衡器的参数来提升音质的功能。目前，EQ均衡器调节方法分为两种，一种是由用户自己调节，如给定一系列均衡器，用户手动去选择设置，这种方法无法实现针对特对音乐自身特性或用户偏好的自适应音质调节；另一种方法是通过对音乐的标题，作者等标签特征做分析，将用户偏好与某一类或几类风格靠拢，利用该类风格已有的业内通用EQ设置去给用户做推荐。

但是，如果一个音乐无法取得相应的标签，或者一个音乐的风格可能属于几个类别，或者音乐中存在不同风格的段落，或者用户的音乐列表属于一种我们不知道的风格，那么就无法进行EQ均衡器的设置。因此，现有技术中的EQ均衡器的调节依赖于相应的音乐标签，且无法满足个性化的需求。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种基于深度学习的音域平衡方法、装置、系统及计算机存储介质，基于深层神经网络和无监督深度学习，解决无分类标签音乐和未知风格音乐的音域平衡的问题，并结合对用户偏好的统计，实现更合理的多类别音域平衡设计，满足个性化需求。

根据本发明一方面，提供一种基于深度学习的音域平衡方法，其特征在于，所述方法包括：对音频数据进行特征提取得到音频数据特征；基于所述音频数据特征，利用训练好的音域平衡模型，生成音域平衡结果。

示例性地，所述音域平衡模型包括：基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估，得到音域平衡模型；

示例性地，所述音域平衡模型包括基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到音域平衡模型。

示例性地，所述音域平衡模型的训练包括：

基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征；

将所述音乐数据的数据特征作为输入层数据，所述类别标签特征作为输出层数据，训练得到音域平衡模型；

对用户偏好音乐数据进行特征提取得到数据特征并作为输入数据，输入所述音域平衡模型，得到所述用户偏好音乐数据的类别标签特征；

将所述用户偏好音乐数据的类别标签特征还原成所述用户偏好音乐数据的类别标签，形成用户偏好类别画像；

根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合，得到用户的音域平衡均衡结果。

其中，所述相应类别音域平衡参数是现有技术中能够反映出不同类型音频特点的音质特性的参数，包括且不限于EQ均衡器的参数。

示例性地，所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度，包括各类别音频数据所占的比例或权重。

示例性地，所述音域平衡模型训练的包括：

基于音乐数据库中大众用户偏好的音乐作为训练集，进行特征提取得到所述音乐数据库的音乐数据特征；

将所述音乐数据特征作为可视层输入，训练一个受限玻尔兹曼机RBM；

基于所述训练好的受限玻尔兹曼机RBM，将所述训练集的音乐数据特征输入受限玻尔兹曼机RBM可视层，得到隐层特征；并将所述隐层特征输入已经训练好的聚类模型进行分类，生成平均隐层特征；

基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算，得到音乐数据库的平均音乐数据特征；

基于用户偏好音乐列表中的音乐进行特征提取，并将提取的用户偏好音乐特征作为可视层输入，训练一个用户偏好受限玻尔兹曼机RBM；

示例性地，基于所述训练好的用户偏好受限玻尔兹曼机RBM，将所述用户偏好音乐特征输入RBM可视层，得到用户偏好隐层特征；并将所述用户偏好隐层特征输入所述聚类模型进行分类，生成用户偏好平均隐层特征；

基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算，得到用户偏好平均音乐特征；

根据所述用户偏好平均音乐特征与所述音乐数据库的平均音乐特征得到用户的离线音域平衡均衡结果。

示例性地，所述音频数据特征包括时域或频域特征。

示例性地，所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。

示例性地，所述音频数据特征提取的方法包括FFT，STFT，MFCC，一帧或多帧时域波形或人工设计的其他特征中的至少一种。

示例性地，所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平衡模型。

根据本发明的另一方面，提供一种基于深度学习的音域平衡装置，其特征在于，包括特征提取模块和音域平衡模块；

所述特征提取模块，用于获取音频数据库中的数据或用户偏好数据，并进行特征提取以得到所述音频数据库中的数据或用户偏好数据的特征；

所述音域平衡模块，用于基于所述特征提取模块提取的音频数据的特征，利用训练好的音域平衡模型，生成音域平衡结果。

示例性地，所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块；

所述在线音域平衡模块，用于基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估，得到在线音域平衡模型；结合已有的音乐风格的均衡器得到用户的在线音域平衡均衡结果；

所述离线音域平衡模块，用于基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到离线音域平衡模型；并生成用户的离线音域平衡均衡结果。

根据本发明另一方面，提供了一种基于深度学习的音域平衡系统，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行本发明的基于深度学习的音域平衡方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明的基于深度学习的音域平衡方法的相应步骤，并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。

根据本发明另一方面，提供了一种计算机程序，所述计算机程序被计算机或处理器运行时用于执行上述任一项所述的基于深度学习的音域平衡方法，所述计算机程序还用于实现上述任一项所述的基于深度学习的音域平衡装置中的各模块。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是用于实现根据本发明实施例的基于深度学习的音域平衡方法、装置、系统、存储介质和计算机程序的示例电子设备的示意性框图；

图2用于实现根据本发明实施例的音域平衡方法的示意性流程图；

图3是根据本发明实施例的基于深度学习的音域平衡方法的示意性原理图；

图4是根据本发明实施例的用户偏好累积器的示意性原理图。

图5是根据本发明实施例的形成所述在线风格融合EQ均衡器设计系统的示意性原理图。

图6是根据本发明实施例的音乐数据的类别标签特征提取的过程的示意性原理图。

图7是根据本发明实施例的音乐数据的风格标签特征还原成风格标签的过程的示意性原理图。

图8是根据本发明实施例的形成用户偏好类别画像的过程的示意性原理图。

图9是根据本发明实施例的用户偏好类别画像的示意性原理图。

图10是根据本发明实施例的在线EQ均衡结果的示意性原理图。

图11是根据本发明实施例的形成离线EQ均衡系统意性原理图。

图12是根据本发明实施例的受限玻尔兹曼机的原理性示意图。

图13是根据本发明的实施例的一种基于深度学习的音域平衡装置的示意性框图。

图14是根据本发明的实施例的一种基于深度学习的音域平衡系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

首先，参照图1来描述用于实现本发明实施例的基于深度学习的音域平衡方法、装置、系统、存储介质和计算机程序的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本发明实施例的基于深度学习的音频音质增强方法、装置、系统、存储介质和计算机程序的示例电子设备可以被实现诸如智能手机、平板电脑等终端。

根据本发明的一方面，提供一种基于深度学习的音域平衡方法，所述方法包括：

对音频数据进行特征提取得到所述音频数据特征；

基于所述数据特征，利用训练好的音域平衡模型，生成所述待处理的音频数据的音域平衡结果。

其中，所述音域平衡包括且不限于EQ调整。

下面，以音乐的EQ调整为例，参考图2-图12，描述根据本发明实施例的基于深度学习的音域平衡方法。

如图2所示，基于深度学习的音域平衡方法可以包括如下步骤：

提取用户对音乐的偏好数据(10)；

利用深度学习训练用户的音域平衡模型(20)；

提取待播放音乐的时域和/或频域特征(30)；

利用深度学习建立的用户的音域平衡模型计算出推荐的待播音乐的音域平衡方案(40)；

输出所述音域平衡方案，调整待播音乐音效(50)。

其中，偏好数据包括不限于用户的音乐播放列表，行为等；提取待播放音乐的时域和/或频域特征包括且不限于对所述待播放音乐进行分帧后提取特征。

进一步地，如图3所示，基于深度学习的音域平衡方法可以包括如下步骤：

基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行评估(S1)，得到在线音域平衡模型；结合相应的音乐风格的均衡器得到用户的在线音域均衡结果(S2)；或

基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，才采用无监督的深度学习方法，得到离线音域平衡模型(S4)；并生成用户的离线音域均衡结果(S5)；

所述用户偏好音乐列表由用户偏好音乐积累器提供(S3)。

其中，S1和S2合称为“在线风格融合音域均衡器设计系统”；S4，S5合称为“离线个性化音域均衡器设计系统”。前者在训练时需要用到网上用户对音乐的风格类型标注，因此称为“在线风格融合音域均衡器设计系统”；后者因为训练时不需要网上用户的标注，只需要音乐波形，因此称为“离线个性化音域均衡器设计系统”。

所述相应的音乐风格的均衡器是指现有技术中的能够反映出不同音乐风格特点的音域均衡器的参数。

进一步地，所述用户偏好音乐积累器通过分析用户行为得到用户偏好音乐列表。包括且不限于获取用户偏好音乐，并评估用户对每一个音乐的喜好值(如积累用户对一个音乐反馈，包括且不限于音乐的播放次数，点赞次数等；正面反馈如播放，点赞会增加该音乐的权值，反之则使权值数值负向变化)；然后形成一个用户偏好音乐列表，列出与用户有互动的音乐和它们的权值。

在一个实施例中，参见图4，基于用户与数据库中音乐的互动统计矩阵300，包括且不限于删除音乐，播放音乐，下载音乐等用户行为的次数，形成互动统计矩阵。

对所述互动统计矩阵300进行分析，根据行为的次数和行为的评分计算出用户对每个音乐的偏好程度(301)。不同的行为反映了用户对一首音乐的不同偏好倾向，正向的行为如播放，下载会被认为是正面倾向，得到正分数，反之删除这类行为会被认为是反面倾向得到负分。行为的评分作为行为次数的加权，遍历用户对一首音乐所有的行为次数，加权相加后结果302，可看作用户对音乐的偏好即用户偏好音乐列表。

音频数据库中的音频数据被用户或其他途径打上了类别标签，包括且不限于“爵士”、“经典”等，一个音频数据应对应多个类别标签。对音频数据的类别标签进行归一化，得到音频数据对应每个类别的概率向量，对这个向量进行特征化，方法包括且不限于：矩阵分解，因子分解机，词向量化等。利用音乐波形的时频域特征作为输入，类别标签特征向量作为输出，训练一个深度神经网络。如果用户偏好一个无类别标签的音频数据或标签不全的音频数据，则利用特征提取方法和训练得到的深度神经网络将这个音频数据的音频波形映射到一个类别标签特征向量上。根据类别标签特征向量，融合已有的音质特性参数设计，反馈给用户。

进一步地，如图5所示，形成所述在线风格融合EQ均衡器设计系统可以包括如下步骤：

基于音乐数据库提取音乐数据的类别标签特征(S12)以及所述音乐数据的数据特征(S11)。

其中，提取所述类别标签特征的方法包括且不限于矩阵分解，因子分解机，词向量化等方法；所述音频数据的数据特征包括且不限于音频波形中具有明显类别特色部分的特征；所述数据特征的提取方法包括且不限于fft(Fast Fourier Transformation)，mfcc(Mel-Frequency Cepstral Coefficient)等。

在一个实施例中，以矩阵分解为例，说明对音乐数据的类别标签特征提取的过程。参见附图6，大众用户对不同音乐的类别标签(如，风格标签)进行标注形成标注矩阵120，标注矩阵120中的数据代表标注的次数，如有12个用户将音乐“我的祖国”标注为“民乐”类别，则标注矩阵120中行为“我的祖国”，列为“民乐”的数据就是12。标注矩阵120的每一行，称为一首音乐的“风格标签”。

原始的标注矩阵120每一行显然是一个稀疏的向量，如一首音乐的风格标签，有几个坐标是正数，其他的为0是正常的，但很少会有所有坐标都是正数情况，也就是说多数音乐应该只对应几种风格，甚至只是一种风格。因此这个标注矩阵120是很稀疏的，我们需要对它进行风格标签特征提取，使每首音乐的风格特征更加密集，且能更好的反映相似音乐之间特征的相关度。

将标准矩阵120进行分解，得到的分解结果为风格标签特征矩阵121和权重矩阵122，其中，风格标签特征矩阵121的每一行是一首音乐的风格标签特征，可以看作是风格标签这个稀疏向量的压缩，相似音乐的风格标签特征之间具有较高的相似度，如《我的祖国》和《十送红军》的特征余弦相关度，显然高于《我的祖国》和《七里香》；权重矩阵122的每一列对应一个音乐风格，一列的数值表征这个音乐风格，对风格标签特征矩阵121的风格标签特征每个元素的权重。风格标签特征矩阵121和权重矩阵122相乘结果是对原始的标注矩阵的近似还原。

将所述音乐数据的数据特征作为输入层数据，所述类别标签特征作为输出层数据，训练得到在线音域平衡模型(S13)。

对用户偏好音乐数据进行特征提取得到数据特征并作为输入数据，输入所述在线音域平衡模型，得到所述用户偏好音乐数据的类别标签特征(S14)。

在一个实施例中，获取一首用户偏好的音乐，从音乐波形中提取的特征作为输入，使用神经网络模型进行运算，输出的结果是对这首音乐的风格特征向量即类别标签特征。对于用户音乐的不同时域段，可能会输出不同的风格特征，得到最后的风格特征估计结果的方法包括且不限于：各段输出的平均，或采取其他的融合方式(如投票)；最终一首音乐输出一个风格特征向量。

将所述用户偏好音乐数据的类别标签特征还原成所述用户偏好音乐数据的类别标签(S21)，基于所述待处理的音频数据的类别标签形成用户偏好类别画像。

在一个实施例中，以矩阵分解为例，说明对音乐数据的风格标签特征还原成风格标签的过程。参见图7，所述深层神经网络模型输出的特征向量为音乐数据的风格标签特征200，乘以权重矩阵201(即风格标签特征提取中的权重矩阵122)，还原出该音乐数据可能的风格标签202。此处需要说明的是，如果前面采取其他的风格标签特征提取方法，如因子分解机，还原风格标签的方法应与特征提取方法相对应。

在一个实施例中，以矩阵分解为例，说明形成用户偏好类别画像的过程。参见图8，基于前述的用户偏好音乐积累器(S3)得到的用户对每首歌偏好度矩阵220，以及所述用户偏好音乐数据的类别标签(S21)得到的用户每首歌的风格分布矩阵221，通过这两个矩阵220和221可以计算得到用户对每个风格的偏好程度。例如，矩阵220记为A是一个M*1的矩阵，M是音乐数目；矩阵221记为B是M*N的矩阵，N是风格；基于矩阵A和矩阵B对用户风格标签进行用户评分加权，如用矩阵A的每一行数值乘以矩阵B的每一行数值，得到矩阵223记为C，其中C(i,j)＝A(i)*B(i,j)，将矩阵C的列相加得到用户风格偏好矩阵225记为P，

其中，i，j，k，M，N均为自然数。

根据所述用户风格偏好矩阵225得到用户偏好类别画像，包括且不限于饼图，参见图9，其中可以忽略负分的类别。

根据所述用户偏好类别画像和相应类别的EQ曲线进行融合(S23)，得到用户的在线EQ均衡结果。

其中，所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度，所述用户偏好类别画像包括且不限于反映各类别音频数据所占的比例或权重的图(如柱状图，饼状图)。在一个实施例中，用户经常点击的音乐的音乐标签特征，在摇滚风格的坐标上有最大数值，画像可能会显示摇滚是用户的主要偏好，那么摇滚类别在画像中所占的比例大。在一个实施例中，参见图10，每个类别的EQ曲线已知，根据所述用户偏好类别画像中的每个类别所占的权重，结合得到用户的在线EQ均衡结果即个性化EQ。

将所述用户的在线EQ均衡结果发送给用户(S24)。

进一步地，所述离线线风格融合EQ均衡器设计系统通过无监督深度学习方法学习一组用户偏好音乐的EQ设置。从音乐库中大众用户偏好的各类音乐均匀抽取若干作为训练样本，提取每帧频域特征作为可视层训练一个受限玻尔兹曼机；加权平均每个音乐的玻尔兹曼机输出，对玻尔兹曼机进行反向运算，得到的可视层作为“音乐平均频域特征”；当用户音乐列表积累到一定规模时候，选取列表中选取用户喜好值高的音乐，提取每帧频域特征作为可视层训练一个玻尔兹曼机；加权平均每个音乐的玻尔兹曼机输出，对玻尔兹曼机进行反向运算，得到的可视层作为“用户偏好的音乐平均频域特征”。

如图11所示，形成所述离线线风格融合EQ均衡器设计系统可以包括如下步骤：

基于音乐数据库中大众用户偏好的各类音乐均匀抽取若干作为训练集，进行特征提取得到所述音乐数据库的音乐数据特征(S40)。

其中，所述音乐数据特征包括且不限于时域和/或频域特征(如幅度谱和/或相位信息)。

将所述音乐数据特征作为可视层输入，训练一个受限玻尔兹曼机(RBM)(S41)。

在一个实施例中，参见图12，音乐数据特征如时频域特征400作为可视层输入，经过神经网络前向运算得到隐层数据401，RBM网络是双向传播网络，隐层数据402以相同的连接权值进行一次反方向的神经网络向前运算，得到可视层估值403，一般的这个估值跟原始输入的音乐数据特征400是有误差的，根据这个误差对网络权值进行调节，直到误差小于训练设定的可接受误差。

基于所述训练好的RBM，将所述训练集的音乐数据特征输入RBM可视层，得到隐层特征；并将所述隐层特征输入已经训练好的聚类模型进行分类(S44)，生成平均隐层特征(S42)。

其中，所述训练好的聚类模型包括基于所述高偏好值的音乐数据特征为输入，训练得到N类的聚类器(N为自然数)(S43)。

所述生成平均隐层特征还包括：所述隐层特征根据所述聚类模型的聚类结果进行加权平均成平均隐层特征。

在一个实施例中，假设有M个样本，则输出M个隐层特征；M个隐层特征按聚类结果进行加权平均，比如有N个类，每一类样本数为Q(k)，k＝1,2……N；对聚类结果进行加权平均后得到的向量为可以看作所有风格音乐的平均隐层特征(包括且不限于音乐数据库的特征谱)。

基于所述平均隐层特征和所述RBM进行一次反向运算，得到音乐数据库的平均音乐数据特征(S45)。

其中，所述平均音乐数据特征可以看作所有风格音乐的平均音乐数据特征。

基于用户偏好音乐列表中的音乐进行特征提取(S46)，并将提取的用户偏好音乐特征作为可视层输入，训练一个用户偏好受限玻尔兹曼机(S47)。

其中，所述用户偏好受限玻尔兹曼机(用户偏好RBM)的训练方法类似于前述S41的方法；所述用户偏好音乐特征包括且不限于时域和/或频域特征。

基于所述训练好的用户偏好RBM，将所述用户偏好音乐特征输入RBM可视层，得到用户偏好隐层特征；并将所述用户偏好隐层特征输入所述聚类模型进行分类，生成用户偏好平均隐层特征(S48)。

其中，所述聚类模型是前述S43中训练好的聚类模型，输入所述用户偏好隐层特征以统计用户音乐特征的类分布。

所述生成用户偏好平均隐层特征的方法类似于前述S42的方法，所述用户偏好隐层特征根据聚类模型的聚类结果进行加权平均得到用户偏好平均隐层特征。

基于所述用户偏好平均隐层特征和所述RBM进行一次反向运算，得到用户偏好平均音乐特征(S49)。

根据所述用户偏好平均音乐特征与所述音乐数据库的平均音乐特征得到用户偏好的EQ均衡设置(S50)。

其中，所述得到用户偏好的EQ均衡设置包括且不限于通过EQ调节模型，调节模型通过所述两种特征的比较计算得到用户偏好的EQ均衡设置。

在一个实施例中，EQ调节模型是一个EQ调节机，所述EQ调节机根据用户偏好音乐平均音乐特征与音乐数据库的平均音乐特征进行对比，因为音乐库平均音乐特征反映了音乐具有的普遍性特性，用户偏好音乐平均音乐特征反应用户的偏好特性(如时频谱上用户偏好特征明显偏离音乐库特征的区域就应该是用户偏好的部分)，EQ调节机根据这部分的偏离趋势对EQ曲线进行增强或衰减，然后输出最终的EQ曲线，即得到用户偏好的EQ均衡设置。

以上示例性地描述了根据本发明实施例的基于深度学习的音域平衡方法。示例性地，根据本发明实施例的基于深度学习的音域平衡方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的基于深度学习的音域平衡方法可以方便地部署到智能手机、平板电脑、个人计算机、音箱等移动设备上。替代地，根据本发明实施例的基于深度学习的音域平衡方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的基于深度学习的音域平衡方法还可以分布地部署在服务器端(或云端)和个人终端处。

根据本发明的另一方面，提供了一种基于深度学习的音域平衡装置。参考图13，图13示出了根据本发明的实施例的一种基于深度学习的音域平衡装置500的示意性框图。

基于深度学习的质平衡装置500包括特征提取模块510和音域平衡模块520。所述各个模块可分别执行上文中所描述的基于深度学习的音域平衡方法的各个步骤/功能。以下仅对基于深度学习的音域平衡装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

特征提取模块510用于获取音频数据库中的数据或用户偏好数据，并进行特征提取以得到所述音频数据库中的数据或用户偏好数据的特征。音域平衡模块520用于基于所述特征提取模块提取的所述有损音频数据的特征，利用训练好的音域平衡模型，生成音域平衡结果。特征提取模块510和音域平衡模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，所述音域平衡模块520还包括在线音域平衡模块521和/或离线音域平衡模块522；所述在线音域平衡模块521，用于基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估，得到在线音域平衡模型；结合已有的音乐风格的均衡器得到用户的在线音域均衡结果；所述离线音域平衡模块522，用于基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到离线音域平衡模型；并生成用户的离线音域均衡结果。

根据本发明的另一方面，提供了一种基于深度学习的音域平衡装置。参考图14，图14示出了根据本发明的实施例的一种基于深度学习的音域平衡系统600的示意性框图。

基于深度学习的音域平衡系统600包括存储装置610以及处理器620。其中，存储装置610存储用于实现根据本发明实施例的基于深度学习的音域平衡方法中的相应步骤的程序。处理器620用于运行存储装置610中存储的程序，以执行根据本发明实施例的基于深度学习的音域平衡方法的相应步骤，并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。

根据本发明的另一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于深度学习的音域平衡方法的相应步骤，并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的基于深度学习的音域平衡装置的各个功能模块，并且/或者可以执行根据本发明实施例的基于深度学习的音域平衡方法。

根据本发明实施例的基于深度学习的音域平衡装置中的各模块可以通过根据本发明实施例的基于深度学习的音域平衡的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种计算机程序，该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于深度学习的音域平衡方法的相应步骤，并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。

综上，本发明提供了一种基于深度学习的音域平衡方法、装置、系统及计算机存储介质，基于深层神经网络和无监督深度学习，解决无分类标签音乐和未知风格音乐的音域平衡的问题，并结合对用户偏好的统计，实现更合理的多类别音域平衡设计，满足个性化需求。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的音域平衡方法，其特征在于，所述方法包括：

对音频数据进行特征提取得到音频数据特征；

基于所述音频数据特征，利用包括训练好的音域平衡模型的在线风格融合音域均衡器设计系统或离线个性化音域均衡器设计系统，生成音域平衡结果，其中，基于用户偏好音乐列表训练得到所述训练好的音域平衡模型；

所述音域平衡模型训练的方法包括：

基于音频数据库中大众用户偏好的音频作为训练集，进行特征提取得到所述音频数据库的音频数据特征；

将所述音频数据特征作为可视层输入，训练一个受限玻尔兹曼机RBM；

基于所述训练好的受限玻尔兹曼机RBM，将所述训练集的音频数据特征输入受限玻尔兹曼机RBM可视层，得到隐层特征；并将所述隐层特征输入已经训练好的聚类模型进行分类，生成平均隐层特征；

基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算，得到音频数据库的平均音频数据特征；

基于用户偏好音乐列表中的音频进行特征提取，并将提取的用户偏好音频特征作为可视层输入，训练一个用户偏好受限玻尔兹曼机RBM；

基于所述训练好的用户偏好受限玻尔兹曼机RBM，将所述用户偏好音乐特征输入RBM可视层，得到用户偏好隐层特征；并将所述用户偏好隐层特征输入所述聚类模型进行分类，生成用户偏好平均隐层特征；

基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算，得到用户偏好平均音频特征，根据所述用户偏好平均音频特征与所述音频数据库的平均音频特征得到用户的音域平衡均衡结果。

2.如权利要求1所述的音域平衡方法，其特征在于，所述基于用户偏好音乐列表训练得到所述训练好的音域平衡模型，包括：

基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行评估，得到音域平衡模型；和/或

基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到音域平衡模型。

3.如权利要求1所述的音域平衡方法，其特征在于，所述音域平衡模型训练的方法包括：基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征；

将所述音乐数据的数据特征作为输入层数据，所述类别标签特征作为输出层数据，训练得到音域平衡模型。

4.如权利要求2所述的音域平衡方法，其特征在于，所述生成音域平衡结果包括：

对用户偏好音频数据进行特征提取得到偏好数据特征并作为输入数据，输入所述音域平衡模型，得到所述用户偏好音频数据的类别标签特征；

将所述用户偏好音频数据的类别标签特征还原成所述用户偏好音频数据的类别标签，形成用户偏好类别画像；

根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合，得到用户的在线音域平衡结果。

5.如权利要求4所述的音域平衡方法，其特征在于，所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度，包括各类别音频数据所占的比例或权重。

6.如权利要求1所述的音域平衡方法，其特征在于，所述生成音域平衡结果还包括根据所述用户偏好平均音频特征与所述音乐数据库的平均音频特征进行对比，根据二者的偏离趋势对音域平衡进行增强或衰减，然后得到最终的音域平衡结果。

7.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。

8.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取的方法包括FFT，STFT，MFCC，一帧或多帧时域波形或人工设计的其他特征中的至少一种。

9.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取包括时域或频域特征。

10.如权利要求1所述的音域平衡方法，其特征在于，所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平衡模型。

11.一种基于深度学习的音域平衡装置，其特征在于，包括特征提取模块和音域平衡模块；

所述特征提取模块，用于获取音频并进行特征提取以得到音频数据特征；

所述音域平衡模块，用于基于所述特征提取模块提取的所述音频数据特征，利用包括训练好的音域平衡模型的在线风格融合音域均衡器设计系统或离线个性化音域均衡器设计系统，生成音域平衡结果，其中，基于用户偏好音乐列表训练得到所述训练好的音域平衡模型；

所述音域平衡模型训练的方法包括：

12.如权利要求11所述的音域平衡装置，其特征在于，所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块；

13.一种基于深度学习的音域平衡系统，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-10中任一项所述的基于深度学习的音域平衡方法。