CN108986843B

CN108986843B - 音频数据处理方法及装置、介质和计算设备

Info

Publication number: CN108986843B
Application number: CN201810912990.4A
Authority: CN
Inventors: 刘华平; 叶奋翼
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2020-12-11
Anticipated expiration: 2038-08-10
Also published as: CN108986843A

Abstract

本发明的实施方式提供了一种音频数据处理方法，该方法包括：获取音频数据对应的频谱；将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍；以及根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，本发明的方法使得可以较精确的识别出音频所表达的情绪，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，为用户带来了更好的体验。此外，本发明的实施方式提供了一种音频数据处理装置、介质和计算设备。

Description

音频数据处理方法及装置、介质和计算设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及一种音频数据处理方法及装置、介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在现实生活中，一般可以将用户能听到的声音转化为音频数据，例如，歌手的歌声，通过弹奏乐器得到的曲子，用户之间的对话声等等。每个音频所传达的情绪信息也各有不同，例如，有的音频所传达的情绪信息是激动的，有的音频所传达的情绪信息是平静的，有的音频所传达的情绪信息是悲伤的，有的音频所传达的情绪信息是欢快的。一般情况下，用户可以根据自身的经验确定音频所传达的情绪信息，但是对于计算机而言，识别出音频所传达的情绪信息却不是那么容易。

目前，相关技术中已经出现在时间维度上标注时间上连续的数据的情绪。例如，通过若干个标注者每500ms就给一段音频数据标注不同的情绪值，将标注者标注后得到的数据作为训练数据集训练模型，从而通过训练模型确定出不同音频所传达的情绪信息。但是该方式得到的数据集过小使得模型过于简单，对于音频的理解能力较差，不能较精确地识别音频表达的情绪信息，对于较为复杂的情绪理解问题更是难以有效解决。

发明内容

因此在现有技术中，不能较精确地识别音频表达的情绪信息这是非常令人烦恼的过程。

为此，非常需要一种改进的音频数据处理方法及装置、介质和计算设备，以使自动标注音频表达的情绪信息，无需人工标注，提高标注音频表达的情绪信息的准确性。

在本上下文中，本发明的实施方式期望提供一种音频数据处理方法及装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种音频数据处理方法，包括获取音频数据对应的频谱；将上述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，上述谐音频谱中的频率为基音的频率的整数倍；以及根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息。

在本发明的一个实施例中，上述特征信息包括频谱的能量，根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息包括根据上述谐音频谱确定上述谐音频谱的第一能量；根据上述非谐音频谱确定上述非谐音频谱的第二能量；以及根据上述谐音频谱的第一能量和上述非谐音频谱的第二能量确定上述音频数据所表达的情绪信息。

在本发明的另一个实施例中，上述特征信息还包括频谱的节奏，上述方法还包括根据上述谐音频谱确定上述谐音频谱的第一节奏；根据上述非谐音频谱确定上述非谐音频谱的第二节奏；以及根据上述谐音频谱的第一节奏和第一能量，上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息。

在本发明的又一个实施例中，根据上述谐音频谱的第一节奏和第一能量，上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息包括将上述第一节奏、上述第一能量、上述第二节奏和上述第二能量输入预先训练好的神经网络；以及通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息。

在本发明的再一个实施例中，上述方法还包括确定上述谐音频谱的旋律特征；以及将上述谐音频谱的旋律特征，与上述第一节奏、上述第一能量、上述第二节奏和上述第二能量一起输入上述预先训练好的神经网络。

在本发明的再一个实施例中，通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息包括通过上述预先训练好的神经网络输出上述音频数据所表达的多组情绪对，其中，每组情绪对包括两种情绪相反的情绪类型，每种情绪类型具有相应的占比，上述每种情绪类型相应的占比用于表征上述音频数据所表达的情绪倾向；以及根据上述每组情绪对中的情绪类型相应的占比确定上述音频数据所表达的情绪信息。

在本发明的再一个实施例中，上述预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。

在本发明的再一个实施例中，获取音频数据对应的频谱包括对上述音频数据进行短时傅里叶变换，得到上述音频数据对应的频谱。

在本发明实施方式的第二方面中，提供了一种音频数据处理装置，包括获取模块、处理模块和确定模块。获取模块用于获取音频数据对应的频谱；处理模块用于将上述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，上述谐音频谱中的频率为基音的频率的整数倍；以及确定模块用于根据上述谐音频谱的特征信息和上述非谐音频谱的特征信息确定上述音频数据所表达的情绪信息。

在本发明的一个实施例中，上述特征信息包括频谱的能量，上述确定模块包括第一确定单元、第二确定单元和第三确定单元。第一确定单元用于根据上述谐音频谱确定上述谐音频谱的第一能量；第二确定单元用于根据上述非谐音频谱确定上述非谐音频谱的第二能量；以及第三确定单元用于根据上述谐音频谱的第一能量和上述非谐音频谱的第二能量确定上述音频数据所表达的情绪信息。

在本发明的另一个实施例中，上述特征信息还包括频谱的节奏，上述确定模块还包括第四确定单元、第五确定单元和第六确定单元。第四确定单元用于根据上述谐音频谱确定上述谐音频谱的第一节奏；第五确定单元用于根据上述非谐音频谱确定上述非谐音频谱的第二节奏；以及第六确定单元用于根据上述谐音频谱的第一节奏和第一能量，上述非谐音频谱的第二节奏和第二能量确定上述音频数据所表达的情绪信息。

在本发明的又一个实施例中，上述第六确定单元包括第一输入子单元和输出子单元。第一输入子单元用于将上述第一节奏、上述第一能量、上述第二节奏和上述第二能量输入预先训练好的神经网络；以及输出子单元用于通过上述预先训练好的神经网络输出上述音频数据所表达的情绪信息。

在本发明的再一个实施例中，其中：上述确定模块还包括第七确定单元，用于确定上述谐音频谱的旋律特征；以及上述第六确定单元还包括第二输入子单元，用于将上述谐音频谱的旋律特征，与上述第一节奏、上述第一能量、上述第二节奏和上述第二能量一起输入上述预先训练好的神经网络。

在本发明的再一个实施例中，上述输出子单元用于通过上述预先训练好的神经网络输出上述音频数据所表达的多组情绪对，其中，每组情绪对包括两种情绪相反的情绪类型，每种情绪类型具有相应的占比，上述每种情绪类型相应的占比用于表征上述音频数据所表达的情绪倾向；以及根据上述每组情绪对中的情绪类型相应的占比确定上述音频数据所表达的情绪信息。

在本发明的再一个实施例中，上述获取模块用于对上述音频数据进行短时傅里叶变换，得到上述音频数据对应的频谱。

在本发明实施方式的第三方面中，提供了一种介质，存储有计算机可执行指令，上述指令在被处理单元执行时用于实现如上所述的音频数据处理方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理单元；以及存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现如上所述的音频数据处理方法。

根据本发明实施方式的音频数据处理方法及装置、介质和计算设备，通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，使得可以自动标注音频表达的情绪信息，无需人工标注，较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的应用场景示意图；

图2示意性地示出了根据本发明实施例的音频数据处理方法的流程图；

图3(a)和图3(b)示意性示出了根据本发明实施例在理想状态下的谐音频谱和非谐音频谱的示意图；

图4(a)和图4(b)示意性示出了根据本发明实施例在实际情况下的谐音频谱和非谐音频谱的示意图；

图5示意性示出了根据本发明实施例的根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息的流程图；

图6示意性示出了根据本发明另一实施例的根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息的流程图；

图7示意性地示出了根据本发明另一实施例的根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息的流程图；

图8示意性示出了根据本发明另一实施例的音频数据处理方法的流程图；

图9示意性示出了根据本发明另一实施例的通过预先训练好的神经网络输出音频数据所表达的情绪信息的流程图；

图10示意性地示出了根据本发明实施例的音频数据处理装置的框图；

图11示意性地示出了根据本发明实施例的确定模块的框图；

图12示意性地示出了根据本发明实施例的第六确定单元的框图；

图13示意性地示出了根据本发明实施方式的用于实现音频数据处理方法的程序产品示意图；以及

图14示意性地示出了根据本发明实施例的用于实现音频数据处理方法的计算设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种音频数据处理方法及装置、介质和计算设备。

在本文中，需要理解的是，所涉及的术语谐音由基音和泛音混合而成，谐音的所有频率是基音频率的整数倍，比如有调子的乐器演奏的声音。非谐音是能量在频域上分布离散没有固定分布规律的声音，比如噪音和打击乐的声音。Chroma特征是旋律特征，表征一段音乐的调子。

LSTM(Long short-term memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

递归神经网络(RNN)是一类人工神经网络，单元之间的连接形成沿着序列的有向图。这使得它可以表现时间序列的动态时间行为。与前馈神经网络不同，RNN可以使用其内部状态(内存)来处理输入序列。

双向循环神经网络(Bi-RNN)的基本思想是将每一个训练序列输入到具有先后顺序的的前向和后向的两个循环神经网络(RNN)，而且这两个循环神经网络都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。

Arousal-Valence圆环平面是情绪的圆环模型，这个模型表明所有情绪都分布在一个二维的圆形平面中。其中圆环用包含唤醒(Arousal)和价态(Valence)两个维度刻画。唤醒代表垂直轴，价态代表水平轴，而圆的中心代表中性价态和中性唤醒。在这个模型中，任意情绪状态可以用价态值和唤醒值的组合表示。其中唤醒值越高情绪越激烈，唤醒值越低情绪越平静。价态值越高情绪越积极，价态值越低情绪就越负面。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，用户可以根据自身的经验确定音频所传达的情绪信息，但是对于计算机而言，自动识别出音频所传达的情绪信息却不是那么容易。目前，相关技术中已经出现在时间维度上标注时间上连续的数据的情绪。例如，通过若干个标注者每500ms就给一段音频数据标注不同的情绪值，将标注者标注后得到的数据作为训练数据集训练模型，从而通过训练模型确定出不同音频所传达的情绪信息。但是该方式得到的数据集过小使得模型过于简单，对于音频的理解能力较差，不能解决较为复杂的情绪理解问题。

基于以上分析，发明人构想到通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，使得可以自动标注音频表达的情绪信息，无需人工标注，即能较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，如用户根据自己的情绪来寻找音乐，如用愉悦、轻松、悲伤等标签来选择适合自己心情的音乐，为用户带来了更好的体验，或者，为影片选择伴奏，根据影片的基调，用特定的情绪标签找到合适的配乐，以及为活动渲染气氛，根据场景需要，快速找到需要的音乐等等。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的音频数据处理方法及其装置的应用场景。

图1示意性地示出了根据本发明实施方式的应用场景示意图。

如图1所示，Bi-RNN(LSTM)是一个带长-短期记忆能力的双向循环神经网络，以音频数据是一段10秒钟音乐的音频数据为例。动态特征部分可以是一段音乐的谐音部分的旋律特征，静态特征部分可以是一段音乐的谐音和非谐音两个部分的节奏和能量，与Bi-RNN(LSTM)的最后一层一起连接到全连接层全连接层可以是一个多层的全连接层，之后的输出结果即为情绪分类的信息。在输出结果中，可以把相反的两种情绪作为两种独立的情绪对category，例如悲伤和欢快，激动和平静，这两个相反的category可以作为一个维度，然后通过这两种相反情绪所占的百分比来确定音频数据所表达的情绪在这个维度上的倾向。

当判断一段音乐的情绪时，首先可以先把这个片段对应的频谱分成谐音频谱和非谐音频谱，从而得到谐音(harmonic)和非谐音(percussive)，分别计算两个部分的节奏(tempo)和能量(energy)作为静态特征，送入图1中的静态特征部分。计算谐音部分的旋律特征(chroma特征)做为调性的依据，通过动态特征部分送入图1中的Bi-RNN(LSTM)中，由于Bi-RNN(LSTM)是一个带长短期记忆的递归神经网络单元，可以得到一个向量，以频谱图中的某一帧对应一个十二维的向量为例，该十二维的向量可以表征一个八度的十二个音，如[0.10943639 0.10766678 0.10823173 0.14889599 0.14798909 0.0811433 0.139090550.44898109 0.54103419 0.64003491 0.23333309 0.14314128]。然后将静态特征和Bi-RNN(LSTM)得到的向量组合，送入图1中的全连接层中，通过一个softmax激活函数(图中未示出)，可以得到情绪分类的结果。

通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，使得可以自动标注音频表达的情绪信息，无需人工标注，即能较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，如用户根据自己的情绪来寻找音乐，如用愉悦、轻松、悲伤等标签来选择适合自己心情的音乐，为用户带来了更好的体验。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的音频数据处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施例的音频数据处理方法的流程图。

如图2所示，根据本发明实施例的音频数据处理方法包括操作S210～操作S230。

在操作S210，获取音频数据对应的频谱。

在操作S220，将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍。

在操作S230，根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。

根据本发明的实施例，音频数据可以是一段音乐，例如一首歌，也可以是一段语音，例如一段演讲。可以将时域特征的音频数据转化为频域特征的音频数据，从而得到音频数据所对应的频谱。将时域特征的音频数据转化为频域特征的音频数据的方法例如可以是对音频数据进行短时傅里叶变换，得到音频数据对应的频谱。通过短时傅里叶变换，可以将音频数据由时域信号转换为容易分析的频域信号。

根据本发明的实施例，例如，在对音频信号进行处理的时候，进行短时傅里叶变换(stft)，音频的采样率可以是44100Hz，短时傅里叶变换的参数可以是窗口长度2048个采样点(2048/44100秒)，窗口之间的间隔长度可以是512个采样点(512/44100秒)。

音频数据对应的频谱一般是由谐音频谱和非谐音频谱混合而成，可以采用中值滤波的方式将音频数据对应的频谱分成谐音频谱和非谐音频谱。理想的谐音在通过短时傅里叶变换得到的频谱上是一根横线，非谐音是一根竖线。

图3(a)和图3(b)示意性示出了根据本发明实施例在理想状态下的谐音频谱和非谐音频谱的示意图。如图3(a)和图3(b)所示，其中，图3(a)中的谐音频谱是一根横线，图3(b)中的非谐音频谱是一根竖线。

在实际情况中，谐音的短时傅里叶变换频谱具有很强的横向的特性，而非谐音具有很强的纵向的特性。

以一段由小提琴和响板共同演奏而成的伴奏为例，图4(a)和图4(b)示意性示出了根据本发明实施例在实际情况下的谐音频谱和非谐音频谱的示意图。如图4(a)和图4(b)所示，其中，图4(a)中的谐音频谱具有很强的横向的特性，谐音频谱中的频率为基音频率的整数倍，可以看出谐音频谱中的频率由多条近似平行的横线组成，该频谱可以用于表征小提琴的频谱特征。图4(b)中的非谐音频谱具有很强的纵向的特性，能量在频域上分布离散没有固定分布规律，该频谱可以用于表征噪音和响板的频谱特征。

谐音频谱的特征信息和非谐音频谱的特征信息可以是频谱的节奏、能量，质心和峰度等信息。

通过将音频数据对应的频谱分成谐音频谱和非谐音频谱，并根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息，使得可以自动标注音频表达的情绪信息，无需人工标注，较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性，使得用户可以根据情绪维度搜索表达相应情绪的相关音频，如用户根据自己的情绪来寻找音乐，如用愉悦、轻松、悲伤等标签来选择适合自己心情的音乐，为用户带来了更好的体验。

下面参考图5～图9，结合具体实施例对图2所示的方法做进一步说明。

图5示意性示出了根据本发明另一实施例的根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息的流程图。

根据本发明的实施例，特征信息包括频谱的能量，如图5所示，根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息还包括操作S231～S233。

在操作S231，根据谐音频谱确定谐音频谱的第一能量。

在操作S232，根据非谐音频谱确定非谐音频谱的第二能量。

在操作S233，根据谐音频谱的第一能量和非谐音频谱的第二能量确定音频数据所表达的情绪信息。

根据本发明的实施例，可以对音频数据进行短时傅里叶变换之后，即得到短时傅里叶变换的值以后，计算傅里叶频谱的幅度值的绝对值的平方之和，作为频谱的能量。

可以根据谐音频谱的第一能量和非谐音频谱的第二能量的能量值确定音频数据所表达的情绪信息。例如，第一能量很高，第二能量也很高，都超过一定阈值，可以认为该音频数据所表达的情绪信息为激昂的。或者，例如，第一能量很低，第二能量也很低，都低于一定阈值，可以认为该音频数据所表达的情绪信息为平静的。

通过本发明的实施例，根据谐音频谱和非谐音频谱的能量共同确定音频数据所表达的情绪信息，在数据量比较小的时候也能比较准确地识别音频的激烈程度。

图6示意性示出了根据本发明另一实施例的根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息的流程图。

根据本公开的实施例，特征信息还包括频谱的节奏，如图6所示，根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息还包括操作S234～S236。

在操作S234，根据谐音频谱确定谐音频谱的第一节奏。

在操作S235，根据非谐音频谱确定非谐音频谱的第二节奏。

在操作S236，根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息。

根据本发明的实施例，节奏可以分为快、缓和、慢等等。节奏的变化在一定程度上也可以表征音频所表征的情绪信息。频谱的节奏的确定方法可以是在对音频进行短时傅里叶变换得到频谱之后，计算每帧的能量，将能量突然变高或变低的帧记为一个音的开始，即通过检测一个音的开始确定频谱的节奏，因此可以根据音开始的分布来找到一段音频的节奏。

根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息，以音乐“beautiful now”为例，取30秒的片段，可以分为谐音频谱和非谐音频谱两个部分。

其中，谐音频谱和非谐音频谱两个部分的节奏可以都是129.19921875bpm，谐音能量均值：4.9974027，谐音能量方差：2.2890673，非谐音能量均值：1.8313982，非谐音能量方差：1.3083155。最后可以得到六维向量：[129.19921875，129.19921875，4.9974027，2.2890673，1.8313982，1.3083155]。根据该六维向量与参照向量进行比较，可以确定音频数据所表达的情绪信息。

通过本发明的实施例，根据谐音频谱和非谐音频谱的能量和节奏共同确定音频数据所表达的情绪信息，可以自动标注音频表达的情绪信息，无需人工标注，较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性。

图7示意性示出了根据本发明另一实施例的根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息的流程图。

根据本发明的实施例，如图7所示，根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息包括操作S2361～S2362。

在操作S2361，将第一节奏、第一能量、第二节奏和第二能量输入预先训练好的神经网络。

在操作S2362，通过预先训练好的神经网络输出音频数据所表达的情绪信息。

根据本发明的实施例，神经网络的训练方法包括多种，例如可以采用梯度下降的方法训练神经网络。对于训练集而言，可以将音频进行谐音和非谐音的分离，对谐音计算节奏、能量和/或旋律特征，谐音部分的旋律特征(chroma特征)可以做为调性的依据，对非谐音计算节奏和能量。

根据本发明的实施例，预先训练好的神经网络中至少可以包括带长短记忆功能的递归神经网络单元。

带长短记忆功能的递归神经网络单元适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。由于音频数据在时间上是关联的，通过递归神经网络可以提高音频情绪确定的准确性。

根据本发明的实施例，通过将第一节奏、第一能量、第二节奏和第二能量输入预先训练好的神经网络，输出音频数据所表达的情绪信息，并不断地优化神经网络。随着训练集变大有很高的提升空间，能有效地自动标注音乐的情绪，成为音乐推荐的有力工具。

图8示意性示出了根据本发明另一实施例的音频数据处理方法的流程图。

根据本公开的实施例，如图8所示，上述方法还包括操作S2363～S2364。

在操作S2363，确定谐音频谱的旋律特征。

在操作S2364，将谐音频谱的旋律特征，与第一节奏、第一能量、第二节奏和第二能量一起输入预先训练好的神经网络。

根据本发明的实施例，谐音频谱的旋律特征(chroma特征)可以做为调性的依据，将音频的情绪分类视为旋律(chroma特征)+节奏+能量共同起作用的结果，可以更加准确的确定音频情绪。

根据本发明的实施例，通过将谐音频谱的旋律特征，与第一节奏、第一能量、第二节奏和第二能量输入预先训练好的神经网络，输出音频数据所表达的情绪信息，并不断地优化神经网络。随着训练集变大有很高的提升空间，能有效地自动标注音频的情绪。

图9示意性示出了根据本发明另一实施例的通过预先训练好的神经网络输出音频数据所表达的情绪信息的流程图。

根据本公开的实施例，如图9所示，通过预先训练好的神经网络输出音频数据所表达的情绪信息包括操作S310～S320。

在操作S310，通过预先训练好的神经网络输出音频数据所表达的多组情绪对，其中，每组情绪对包括两种情绪相反的情绪类型，每种情绪类型具有相应的占比，每种情绪类型相应的占比用于表征音频数据所表达的情绪倾向。

根据本发明的实施例，在一组情绪对中，两种情绪相反的情绪类型例如可以是激动和平静，欢快和悲伤等其它情绪类型。每种情绪类型具有相应的占比，例如，激动占70％，平静占30％，欢快占60％，和悲伤占30％，每种情绪类型相应的占比用于表征音频数据所表达的情绪倾向。

在操作S320，根据每组情绪对中的情绪类型相应的占比确定音频数据所表达的情绪信息。

根据本发明的实施例，用两种相反情绪的百分比来表征某个维度上的倾向，可以用较少的样本就精准地判断出情绪的强烈程度，并进行较正确的情绪分类。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图10对本发明示例性实施方式的音频数据处理装置进行描述。

图10示意性地示出了根据本发明实施例的音频数据处理装置的框图。

如图10所示，音频数据处理装置400包括获取模块410、处理模块420和确定模块430。

获取模块410用于获取音频数据对应的频谱。

处理模块420用于将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍。

确定模块430用于根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。

图11示意性地示出了根据本发明实施例的确定模块的框图。

如图11所示，在本发明的一个实施例中，特征信息包括频谱的能量，确定模块430包括第一确定单元431、第二确定单元432和第三确定单元433。

第一确定单元431用于根据谐音频谱确定谐音频谱的第一能量。

第二确定单元432用于根据非谐音频谱确定非谐音频谱的第二能量。

第三确定单元433用于根据谐音频谱的第一能量和非谐音频谱的第二能量确定音频数据所表达的情绪信息。

根据本发明的实施例，特征信息还包括频谱的节奏，确定模块430还包括第四确定单元434、第五确定单元435和第六确定单元436。

第四确定单元434用于根据谐音频谱确定谐音频谱的第一节奏。

第五确定单元435用于根据非谐音频谱确定非谐音频谱的第二节奏。

第六确定单元436用于根据谐音频谱的第一节奏和第一能量，非谐音频谱的第二节奏和第二能量确定音频数据所表达的情绪信息。

通过本发明的实施例，根据谐音频谱和非谐音频谱的能量和节奏共同确定音频数据所表达的情绪信息，可以自动标注音频表达的情绪信息，无需人工标注，即能较精确的识别出音频所表达的情绪，提高了确定的音频表达的情绪信息准确性。

图12示意性地示出了根据本发明实施例的第六确定单元的框图。

如图12所示，根据本发明的实施例，第六确定单元436包括第一输入子单元4361和输出子单元4362。

第一输入子单元4361用于将第一节奏、第一能量、第二节奏和第二能量输入预先训练好的神经网络。

输出子单元4362用于通过预先训练好的神经网络输出音频数据所表达的情绪信息。

根据本发明的实施例，确定模块430还包括第七确定单元437，用于确定谐音频谱的旋律特征。第六确定单元436还包括第二输入子单元4363，用于将谐音频谱的旋律特征，与第一节奏、第一能量、第二节奏和第二能量一起输入预先训练好的神经网络。

根据本发明的实施例，输出子单元4362用于通过预先训练好的神经网络输出音频数据所表达的多组情绪对，其中，每组情绪对包括两种情绪相反的情绪类型，每种情绪类型具有相应的占比，每种情绪类型相应的占比用于表征音频数据所表达的情绪倾向；以及根据每组情绪对中的情绪类型相应的占比确定音频数据所表达的情绪信息。

根据本发明的实施例，预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。

根据本发明的实施例，带长短记忆功能的递归神经网络单元适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。由于音频数据在时间上是关联的，通过递归神经网络可以提高音频情绪确定的准确性。

根据本发明的实施例，获取模块410用于对音频数据进行短时傅里叶变换，得到音频数据对应的频谱。

通过本发明的实施例，通过短时傅里叶变换，可以将音频数据由时域信号转换为容易分析的频域信号。

示例性介质

在介绍了本发明示例性实施方式的装置之后，接下来，参考图13对本发明示例性实施方式的、用于存储有计算机可执行指令，该指令在被处理单元执行时用于实现上述音频数据处理方法的介质进行描述。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音频数据处理方法中的步骤，例如，所述计算设备可以执行如图2中所示的操作S210，获取音频数据对应的频谱。操作S220，将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍。操作S230，根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

图13示意性地示出了根据本发明实施方式的用于实现音频数据处理方法的程序产品示意图。

如图13所示，描述了根据本发明的实施方式的用于实现音频数据处理方法的程序产品50，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图14对本发明示例性实施方式的计算设备进行描述，该计算设备包括处理单元和存储单元，存储单元存储有计算机可执行指令，上述指令在被上述处理单元执行时用于实现上述音频数据处理方法进行描述。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音频数据处理方法中的步骤。例如，所述处理单元可以执行如图2中所示的操作S210，获取音频数据对应的频谱。操作S220，将音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，谐音频谱中的频率为基音的频率的整数倍。操作S230，根据谐音频谱的特征信息和非谐音频谱的特征信息确定音频数据所表达的情绪信息。

下面参照图14来描述根据本发明的这种实施方式的用于实现音频数据处理方法的计算设备60。如图14所示的计算设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，计算设备60以通用计算设备的形式表现。计算设备60的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同系统组件(包括存储单元602和处理单元601)的总线603。

总线603包括数据总线、地址总线和控制总线。

存储单元602可以包括易失性存储器，例如随机存取存储器(RAM)6021和/或高速缓存存储器6022，还可以进一步包括只读存储器(ROM)6023。

存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备60也可以与一个或多个外部设备604(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/0)接口605进行。并且，计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与计算设备60的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频数据处理方法，包括：

获取音频数据对应的频谱；

将所述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，所述谐音频谱中的频率为基音的频率的整数倍；以及

根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息，其中，所述特征信息包括频谱的能量。

2.根据权利要求1所述的方法，根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息包括：

根据所述谐音频谱确定所述谐音频谱的第一能量；

根据所述非谐音频谱确定所述非谐音频谱的第二能量；以及

根据所述谐音频谱的第一能量和所述非谐音频谱的第二能量确定所述音频数据所表达的情绪信息。

3.根据权利要求2所述的方法，其中，所述特征信息还包括频谱的节奏，所述方法还包括：

根据所述谐音频谱确定所述谐音频谱的第一节奏；

根据所述非谐音频谱确定所述非谐音频谱的第二节奏；以及

根据所述谐音频谱的第一节奏和第一能量，所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息。

4.根据权利要求3所述的方法，其中，根据所述谐音频谱的第一节奏和第一能量，所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息包括：

将所述第一节奏、所述第一能量、所述第二节奏和所述第二能量输入预先训练好的神经网络；以及

通过所述预先训练好的神经网络输出所述音频数据所表达的情绪信息。

5.根据权利要求4所述的方法，其中，所述方法还包括：

确定所述谐音频谱的旋律特征；以及

将所述谐音频谱的旋律特征，与所述第一节奏、所述第一能量、所述第二节奏和所述第二能量一起输入所述预先训练好的神经网络。

6.根据权利要求4所述的方法，其中，通过所述预先训练好的神经网络输出所述音频数据所表达的情绪信息包括：

通过所述预先训练好的神经网络输出所述音频数据所表达的多组情绪对，其中，每组情绪对包括两种情绪相反的情绪类型，每种情绪类型具有相应的占比，所述每种情绪类型相应的占比用于表征所述音频数据所表达的情绪倾向；以及

根据所述每组情绪对中的情绪类型相应的占比确定所述音频数据所表达的情绪信息。

7.根据权利要求4所述的方法，其中，所述预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。

8.根据权利要求1所述的方法，其中，获取音频数据对应的频谱包括：

对所述音频数据进行短时傅里叶变换，得到所述音频数据对应的频谱。

9.一种音频数据处理装置，包括：

获取模块，用于获取音频数据对应的频谱；

处理模块，用于将所述音频数据对应的频谱分成谐音频谱和非谐音频谱，其中，所述谐音频谱中的频率为基音的频率的整数倍；以及

确定模块，用于根据所述谐音频谱的特征信息和所述非谐音频谱的特征信息确定所述音频数据所表达的情绪信息，其中，所述特征信息包括频谱的能量。

10.根据权利要求9所述的装置，所述确定模块包括：

第一确定单元，用于根据所述谐音频谱确定所述谐音频谱的第一能量；

第二确定单元，用于根据所述非谐音频谱确定所述非谐音频谱的第二能量；以及

第三确定单元，用于根据所述谐音频谱的第一能量和所述非谐音频谱的第二能量确定所述音频数据所表达的情绪信息。

11.根据权利要求10所述的装置，其中，所述特征信息还包括频谱的节奏，所述确定模块还包括：

第四确定单元，用于根据所述谐音频谱确定所述谐音频谱的第一节奏；

第五确定单元，用于根据所述非谐音频谱确定所述非谐音频谱的第二节奏；以及

第六确定单元，用于根据所述谐音频谱的第一节奏和第一能量，所述非谐音频谱的第二节奏和第二能量确定所述音频数据所表达的情绪信息。

12.根据权利要求11所述的装置，其中，所述第六确定单元包括：

第一输入子单元，用于将所述第一节奏、所述第一能量、所述第二节奏和所述第二能量输入预先训练好的神经网络；以及

输出子单元，用于通过所述预先训练好的神经网络输出所述音频数据所表达的情绪信息。

13.根据权利要求12所述的装置，其中：

所述确定模块还包括第七确定单元，用于确定所述谐音频谱的旋律特征；以及

所述第六确定单元还包括第二输入子单元，用于将所述谐音频谱的旋律特征，与所述第一节奏、所述第一能量、所述第二节奏和所述第二能量一起输入所述预先训练好的神经网络。

14.根据权利要求12所述的装置，其中，所述输出子单元用于：

15.根据权利要求12所述的装置，其中，所述预先训练好的神经网络中至少包括带长短记忆功能的递归神经网络单元。

16.根据权利要求9所述的装置，其中，所述获取模块用于对所述音频数据进行短时傅里叶变换，得到所述音频数据对应的频谱。

17.一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被处理单元执行时用于实现权利要求1至8中任一项所述的音频数据处理方法。

18.一种计算设备，包括：

处理单元；以及

存储单元，存储有计算机可执行指令，所述指令在被所述处理单元执行时用于实现权利要求1至8中任一项所述的音频数据处理方法。