CN106649703B

CN106649703B - 音频数据可视化方法及装置

Info

Publication number: CN106649703B
Application number: CN201611183228.4A
Authority: CN
Inventors: 谢旭荣; 王岚
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2019-11-19
Anticipated expiration: 2036-12-20
Also published as: CN106649703A

Abstract

本发明适用于信号处理技术领域，提供了一种音频数据可视化方法及装置，所述方法包括：接收音频数据并提取所述音频数据的声学特征；通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征；通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征；通过预设数据库获取与所述模式特征对应的预设可视化信息并展示，所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息。上述方法可根据任意音频数据生成对应的模式特征并予以显示，而且相对于现有技术，音频数据与可视化信息之间具有更好的一致性和匹配度。

Description

音频数据可视化方法及装置

技术领域

本发明属于信号处理技术领域，尤其涉及一种音频数据可视化方法及装置。

背景技术

现有的部分音乐软件带有可视化功能，例如形状、图形、颜色等的变换。而这些变换都是根据能量简单地生成的，并不具有情感表达能力和娱乐性。类似的可视化地表达音乐情感的方法是根据音乐段落寻找相匹配的视频，或使用直接的音乐声学特征与视频特征的匹配。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有技术采用视频的搜索与匹配技术，即根据给定的音乐段落，在特定的视频数据库里找寻在时序上最匹配的视频。然而对于任意音乐段落，不一定能找出与之在时序上足够匹配的视频。同时，针对不同的特定模式，例如舞蹈、音乐喷泉、烟火等，视频寻找的方法更是没法满足匹配的一致性。

发明内容

有鉴于此，本发明实施例提供了一种音频数据可视化方法及装置，以解决现有技术中对于任一音频数据不能搜索出在时序上足够匹配的视频的问题。

本发明实施例的第一方面，提供了一种音频数据可视化方法，包括：

接收音频数据并提取所述音频数据的声学特征；

通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征；

通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征；

通过预设数据库获取与所述模式特征对应的预设可视化信息并展示，所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息。

本发明实施例的第二方面，提供了一种音频数据可视化装置，包括：

声学特征提取模块，用于接收音频数据并提取所述音频数据的声学特征；

情感特征获取模块，用于通过情感分类模型得出与所述声学特征时序上对应的情感特征；

模式生成模块，用于通过模式特征生成模型生成与所述情感特征时序上对应的模式特征；

可视化模块，用于通过预设数据库获取与所述模式特征对应的预设可视化信息并展示；所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息。

本发明实施例相对于现有技术所具有的有益效果：提取所述音频数据的声学特征，通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征，通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征，通过预设数据库获取与所述模式特征对应的预设可视化信息并展示，只需预先定义模式特征的组合，即可根据任意音频数据生成对应的模式特征并予以显示，而且声学特征、情感特征和模式特征之间在时序上相对应，因此相对于现有技术，音频数据与可视化信息之间具有更好的一致性和匹配度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频数据可视化方法的流程图；

图2是本发明实施例提供的通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征的流程图；

图3是本发明实施例提供的通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征的流程图；

图4是本发明实施例提供的音频数据可视化装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明实施例一提供的音频数据可视化方法的实现流程，详述如下：

在步骤S101中，接收音频数据并提取所述音频数据的声学特征。

本实施例中，音频数据采用包括但不限于wav编码格式。其中，所述提取所述音频数据的声学特征包括：

按照预设条件将所述音频数据切分成多段子音频数据；所述预设条件包括预设时长间隔；

对每段所述子音频数据提取声学特征。

具体的，对接收到的音频数据，按照预设条件先进行子音频数据切分，使得每一子音频数据尽可能只保留一种情感类别。例如，按照每隔两秒时长的条件，将所述音频数据切分成多个子音频数据。

另外，还可以对所述音频数据进行分帧，然后再使用基于Matlab的MIRToolbox工具来提取四种帧级别的特征，分别是动态(dynamic)特征、频谱(spectral)特征、音色(timbre)特征以及声调(tonal)特征。分帧的窗宽可以是0.025秒，滑动距离0.01秒。

优选的，在执行步骤S102之前，本实施例的音频数据可视化方法还包括：通过第一样本数据对所述情感分类模型进行训练，确定所述情感分类模型的参数。

本实施例中，情感分类模型的训练需要第一样本数据。所述第一样本数据包括音频段落的声学特征和与所述音频段落的声学特征在时序上对应的情感标签。作为一种可实施方式，情感标签可以为激励(arousal)和价(valence)的高低值。情感标签可以由相关专业人士对音频数据的时序切分进行标记。

训练情感分类模型前，先对情感类别进行定义。由于情感激励低时，价的高低不容易检测，因此根据激励和价分成三个情感类别，分别为高激励-高价，高激励-低价，低激励。需要说明的是，在其他实施例中，情感分类还可以采用更为精细的分级，而不是仅仅是高-低分级。

本实施例中，使用隐马尔可夫模型的结构训练情感分类模型，使得每一帧音频数据的情感类别能够跟前面的帧存在依赖关系。在训练情感分类器时，每一个情感类别构建一个隐状态马尔科夫模型，每个情感类别模型有三个可发射隐藏状态，以及两个不可发射隐藏状态作为开始和结束。三个可发射隐藏状态可以互相跳转以及自跳转。隐马尔可夫模型的发射模型使用高斯混合模型。模型训练使用第一样本数据作为训练数据，其情感类别标签序列作为情感标签，获得优化的高斯混合模型参数和跳转概率。隐马尔可夫模型的训练可以使用HTK工具进行。

在步骤S102中，通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征。

本实施例中，提取出所述音频数据的声学特征以后，通过情感分类模型得出所述音频数据的与所述声学特征对应的情感特征。其中，所述情感分类模型优选为基于隐马尔可夫模型的情感分类模型。另外，情感分类模型还可以为基于递归神经网络的情感分类模型等。本实施例中，以所述情感分类模型优选为基于隐马尔可夫模型的情感分类模型为例进行说明，但并不以此为限。

具体的，对接收到的音频数据，先进行音频数据切分，使得每一子音频数据尽可能只保留一种情感类别。例如，切成每两秒时长一子音频数据。对每一切分好的子音频数据提取上述声学特征，再使用所述情感分类器得出所述音频数据的与所述声学特征对应的情感特征。

在步骤S103之前，本实施例的音频数据可视化方法还包括：通过第二样本数据对所述模式特征生成模型进行训练，确定所述模式特征生成模型的参数。

本实施例中，模式特征生成模型的训练需要第二样本书剧。所述第二样本数据包括音频段落的情感特征和与所述音频段落的情感特征在时序上对应的模式特征。模式特征可以根据实际需要进行设定。以音乐喷泉为例，可以先定义喷泉的喷口数目，例如8个喷泉口。对于每个喷泉口，可以定义喷泉的高度和颜色，以及旋转时的夹角和方向。然后录制音乐喷泉的音乐-喷泉视频，再由人工对视频中的喷泉模式每隔一小段时间进行一次标记。

为了生成模式特征，首先需要训练模式特征生成模型，本实施例中使用基于混合密度网络的模式特征生成模型，但并不以此为限。混合密度网络是神经网络的变种，本实施例中使用深度长短时记忆的神经网络框架，输出是混合高斯模型的参数，即权重、均值和方差。为了降低模式特征生成模型的复杂性，本实施例中高斯函数均使用球体方差的形式。

训练数据使用第二样本数据，先对第二样本数据内音频数据进行情感特征提取，然后使用前后连续的多帧情感特征作为混合密度网络的输入特征。例如，可以使用前后连续的11帧情感特征作为混合密度网络的输入特征，当并不以此为限。训练的标签是音乐段落对应的模式特征以及其一阶和二阶差分。进一步的，由于模式特征采样率一般低于声学特征的分帧率，因此可对模式特征进行平滑插值，使得采样率跟声学特征的分帧率一致。训练混合密度网络时，训练的目标函数是混合高斯模型的最大似然准则。

在步骤S103中，通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征。

本实施例中，得出所述音频数据的情感特征以后，通过模式特征生成模型生成所述音频数据的与所述情感特征对应的模式特征。其中，所述模式特征生成模型优选为基于混合密度网络的模式特征生成模型。另外，模式特征生成模型还可以为基于递归神经网络的模式特征生成模型等。通过训练后的所述模式特征生成模型，根据步骤S102中得出的所述音频数据的情感特征，即可生成所述音频数据的与所述情感特征对应的模式特征。

在步骤S104中，通过预设数据库获取与所述模式特征对应的预设可视化信息并展示。

其中，所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息。在步骤S103S中生成所述音频数据的模式特征后，通过预设数据库获取与所述模式特征对应的预设可视化信息。然后通过显示装置将该预设可视化信息按照时序进行显示，从而完成将音频数据可视化的过程。

优选的，预设数据库中可以包括多类预设可视化信息，以满足用户多元化的需求。每一类预设可视化信息对应不同的可视化装置。其中，可视化装置可以包括喷泉等实体装置用于对可视化信息进行展示。可视化装置也可以包括相关应用程序虚拟工具用于对可视化信息进行显示。用户可以根据实际需要选定对应类的可视化信息。在选定可视化信息后，步骤S104会将所述模式特征对应到选定类的可视化信息进行显示。

上述音频数据可视化方法，提取所述音频数据的声学特征，通过情感分类模型得出所述音频数据的与所述声学特征对应的情感特征，通过模式特征生成模型生成所述音频数据的与所述情感特征对应的模式特征，通过预设数据库获取与所述模式特征对应的预设可视化信息并展示，只需预先定义模式特征的组合，即可根据任意音频数据生成对应的模式特征并予以显示，而且声学特征、情感特征和模式特征之间在时序上相对应，因此相对于现有技术，音频数据与可视化信息之间具有更好的一致性和匹配度。

实施例二：

图2为本发明实施例提供的通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征的流程图，详述如下：

在步骤S201中，通过基于隐马尔科夫模型的情感分类模型，计算所述音频数据的每一可发射隐藏状态的后验概率。

在步骤S202中，将所述音频数据的各个可发射隐藏状态的后验概率形成特征向量，所述特征向量为所述音频数据的情感特征。

其中，对于所述音频数据的每一情感类别的隐马尔可夫模型，计算每一帧音频数据归类成每一类情感的每一可发射隐藏状态的后验概率。将计算出的这些后验概率组成一组多维的特征向量。例如，可以将这些后验概率组成一组9维的特征向量。上述特征向量即为所述音频数据的情感特征。

优选的，为了解决过程中可能遇到的数值问题，后验概率使用log后验概率代替。

实施例三：

图3为本发明实施例提供的通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征的流程图，详述如下：

在步骤S301中，对于所述音频数据的情感特征，通过基于混合密度网络的模式特征生成模型，确定所述音频数据的高斯混合模型参数。

在步骤S302中，对所述高斯混合模型，通过最大似然参数生成算法生成模式特征。

其中，对于一段给定的音频数据，使用实施例一种所述的模式特征生成模型获得每一帧音频数据对应的高斯混合模型参数后，再使用最大似然参数生成算法生成模式特征，再重新采样为需要的模式特征采样率。

应理解，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例四：

对应于上文实施例所述的音频数据可视化方法，图4示出了本发明实施例提供的音频数据可视化装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分。

参照图4，该装置包括：声学特征提取模块401、情感特征获取模块402、模式生成模块403和可视化模块404。

声学特征提取模块401，用于接收音频数据并提取所述音频数据的声学特征。情感特征获取模块402，用于通过情感分类模型得出与所述声学特征时序上对应的情感特征。模式生成模块403，用于通过模式特征生成模型生成与所述情感特征时序上对应的模式特征。可视化模块404，用于通过预设数据库获取与所述模式特征对应的预设可视化信息并展示；所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息。

进一步的，音频数据可视化装置还可以包括：

情感分类模型参数确定模块，用于通过第一样本数据对所述情感分类模型进行训练，确定所述情感分类模型的参数；所述情感分类模型为基于隐马尔科夫模型的情感分类模型；所述第一样本数据包括音频段落的声学特征和与所述音频段落的声学特征在时序上对应的情感特征。其中，在情感分类模型参数确定模块确定完所述情感分类模型的参数之后，情感特征获取模块402再通过情感分类模型得出与所述声学特征时序上对应的情感特征。

进一步的，音频数据可视化装置还可以包括：

模式特征生成模型参数确定模块，用于通过第二样本数据对所述模式特征生成模型进行训练，确定所述模式特征生成模型的参数；所述模式特征生成模型为基于混合密度网络的模式特征生成模型；所述第二样本数据包括音频段落的情感特征和与所述音频段落的情感特征在时序上对应的模式特征。其中，在模式特征生成模型参数确定模块确定完所述模式特征生成模型的参数之后，模式生成模块403再通过模式特征生成模型生成与所述情感特征时序上对应的模式特征.

优选的，所述情感特征获取模块包括：

计算单元，用于通过基于隐马尔科夫模型的情感分类模型，计算所述音频数据的每一可发射隐藏状态的后验概率；

情感特征生成单元，用于将所述音频数据的各个可发射隐藏状态的后验概率形成特征向量，所述特征向量为所述音频数据的情感特征。

优选的，模式生成模块包括：

参数确定单元，用于对于所述音频数据的情感特征，通过基于混合密度网络的模式特征生成模型，确定所述音频数据的高斯混合模型参数；

模式生成单元，用于对所述高斯混合模型，通过最大似然参数生成算法生成模式特征。

优选的，所述声学特征提取模块包括：

音频切分单元，用于按照预设条件将所述音频数据切分成多段子音频数据；所述预设条件包括预设时长间隔；

声学特征提取单元，用于对每段所述子音频数据提取声学特征。

上述音频数据可视化装置，提取所述音频数据的声学特征，通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征，通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征，通过预设数据库获取与所述模式特征对应的预设可视化信息并展示，只需预先定义模式特征的组合，即可根据任意音频数据生成对应的模式特征并予以显示，而且声学特征、情感特征和模式特征之间在时序上相对应，因此相对于现有技术，音频数据与可视化信息之间具有更好的一致性和匹配度。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据可视化方法，其特征在于，包括：

接收音频数据并提取所述音频数据的声学特征；

通过情感分类模型得出所述音频数据的与所述声学特征时序上对应的情感特征，包括：通过基于隐马尔科夫模型的情感分类模型，计算所述音频数据的每一可发射隐藏状态的后验概率；将所述音频数据的各个可发射隐藏状态的后验概率形成特征向量，所述特征向量为所述音频数据的情感特征；

通过模式特征生成模型生成所述音频数据的与所述情感特征时序上对应的模式特征，包括：对于所述音频数据的情感特征，通过基于混合密度网络的模式特征生成模型，确定所述音频数据的高斯混合模型参数；对所述高斯混合模型，通过最大似然参数生成算法生成模式特征；

2.根据权利要求1所述的音频数据可视化方法，其特征在于，

在所述通过情感分类模型获取与所述声学特征对应的情感特征之前，还包括：

通过第一样本数据对所述情感分类模型进行训练，确定所述情感分类模型的参数；所述情感分类模型为基于隐马尔科夫模型的情感分类模型；所述第一样本数据包括音频段落的声学特征和与所述音频段落的声学特征在时序上对应的情感标签；

在所述通过模式特征生成模型生成与所述情感特征对应的模式特征之前，还包括：

通过第二样本数据对所述模式特征生成模型进行训练，确定所述模式特征生成模型的参数；所述模式特征生成模型为基于混合密度网络的模式特征生成模型；所述第二样本数据包括音频段落的情感特征和与所述音频段落的情感特征在时序上对应的模式特征。

3.根据权利要求1或2的音频数据可视化方法，其特征在于，所述提取所述音频数据的声学特征包括：

对每段所述子音频数据提取声学特征。

4.一种音频数据可视化装置，其特征在于，包括：

可视化模块，用于通过预设数据库获取与所述模式特征对应的预设可视化信息并展示；所述预设数据库中存储有多对一一对应的模式特征和预设可视化信息；

所述情感特征获取模块包括：

情感特征生成单元，用于将所述音频数据的各个可发射隐藏状态的后验概率形成特征向量，所述特征向量为所述音频数据的情感特征；

所述模式生成模块包括：

5.根据权利要求4所述的音频数据可视化装置，其特征在于，还包括：

情感分类模型参数确定模块，用于通过第一样本数据对所述情感分类模型进行训练，确定所述情感分类模型的参数；所述情感分类模型为基于隐马尔科夫模型的情感分类模型；所述第一样本数据包括音频段落的声学特征和与所述音频段落的声学特征在时序上对应的情感特征；

模式特征生成模型参数确定模块，用于通过第二样本数据对所述模式特征生成模型进行训练，确定所述模式特征生成模型的参数；所述模式特征生成模型为基于混合密度网络的模式特征生成模型；所述第二样本数据包括音频段落的情感特征和与所述音频段落的情感特征在时序上对应的模式特征。

6.根据权利要求4或5的音频数据可视化装置，其特征在于，所述声学特征提取模块包括：