CN110322900A

CN110322900A - 一种语音信号特征融合的方法

Info

Publication number: CN110322900A
Application number: CN201910556520.3A
Authority: CN
Inventors: 左靖东; 况鹏; 范振; 詹佳丽; 黎宁
Original assignee: Shenzhen One Pigeon Technology Co Ltd
Current assignee: Shenzhen One Pigeon Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-11

Abstract

本发明公开了一种新型的语音信号特征融合的方法，包括如下步骤：步骤1、模型框架搭建；步骤2、神经网络设计；步骤3、音频特征表示和提取。本发明把CNN变体和LSTM变体并行融合成一种新的混合神经网络，并结合Attention机制提取出对最终情感影响最大的信号特征，最终得到能更准确且快速分类情感的音频情感向量，泛化能力强，结构清晰，易于与其他模块集成与分离，而且克服了传统的语音信号特征不能有效融合的问题。

Description

一种语音信号特征融合的方法

技术领域

本发明涉及语音信号处理人工智能技术领域，特别涉及一种语音信号特征融合的方法。

背景技术

情感分析是自然语言处理中一个经过深入研究的研究领域，它是对人们的意见、情感、评价以及对产品、服务等实体的态度的计算研究。

传统的情感分析方法主要基于文本，随着通信技术的快速发展，智能手机的丰富和社交媒体的迅速崛起，网络用户以音频或视频的形式上传大量数据，而不再是文本。与视频或视听通信相比，语音作为模态似乎最适合人类的情感分析。事实上，由于音频信号的复杂性，音频情绪分析是一项艰巨的任务。众所周知，语音是人类交流最方便和最自然的媒介，不仅带有隐含的语义信息，还包含丰富的情感信息。因此，音频情感分析旨在从语音信号中正确分析说话人的情绪，引起了研究者的极大关注。

目前，基于音频的情感分析方法有如下几个特点：

1)情感分析更加准确：该方法结合语音、语调、音色等音频特征，比基于文本、图像特征的的分析方法更加准确识别用户的情感。在音频领域，提取的特征较多，用户的话语在音频领域表现的特征更加丰富。用户的细微情绪波动，都能在话语音频方面表现处理；

2)提取特征相对容易：相比文本，图像数据，对音频提取特征更加容易。因为文本数据特征还需要考虑到语义理解，上下文环境。而图像视频数据过于复杂，提取特征易受到噪音，背景干扰。

由此可见，基于语音的情感分析越来越受到关注，如何提高情感识别能力，准确分析判断出用户的情感特征便是一个亟需解决的问题。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种语音信号特征融合的方法，以提高情感识别能力，准确分析判断出用户的情感特征。

为达到上述目的，本发明实施例的技术方案是这样实现的：

一种语音信号特征融合的方法，包括如下步骤：

步骤1、模型框架搭建；

步骤2、神经网络设计；

步骤3、音频特征表示和提取。

进一步地，步骤1中，基于Python搭建模型的框架，并安装Keras、numpy、MOSI深度学习数据库。

进一步地，步骤2中，由基于对话的双向长短时记忆网络和基于频谱图的卷积神经网络两个并行的子网络构成神经网络。

进一步地，步骤3中，对于每个话语，将音频信号分成几个段，通过测量几个统计数据来计算全局特征。

进一步地，步骤3中，选择四种声学特征，得到其中不同数量特征的组合，所述四种特征分别是MFCC，Spectral_Centroid,Spectral_Contrast,Chroma_Stft。

本发明实施例提供的技术方案的有益效果是：

本发明把CNN变体和LSTM变体并行融合成一种新的混合神经网络，并结合Attention机制提取出对最终情感影响最大的信号特征，最终得到能更准确且快速分类情感的音频情感向量。该方法泛化能力强，结构清晰，易于与其他模块集成与分离，而且克服了传统的语音信号特征不能有效融合的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音信号特征融合的方法流程图示；

图2是本发明实施例基于Attention机制的CNN和RNN混合模型图示；

图3是本发明实施例基于UB-BiLSTM支路部分图示；

图4是本发明实施例基于基于ResNet152的CNN变体图示。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种语音信号特征融合的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

参照图1-图2所示，本发明语音信号特征融合的方法包括：

步骤1、模型框架搭建

基于Python搭建模型的框架，并安装Keras、numpy、MOSI深度学习数据库；Python为一种计算机程序设计语言，是一种动态的、面向对象的脚本语言。

步骤2、神经网络设计

如图2所示，由基于对话的(utterance based)双向长短时记忆网络(BiLSTM)(简称“UB-BiLSTM”)和基于频谱图的(spectrum based)卷积神经网络(CNN)(简称“SB-CNN”)两个并行的子网络构成神经网络。

长短时记忆(Long Short-Term Memory，LSTM)是一种时间循环神经网络(RNN)，LSTM被作为一个“微处理器”代替原RNN模型中的神经元，这种特殊结构的模型称为cell；cell结构中包含三个门控单元，分别叫遗忘门、输入门、输出门，三个门控单元的协助，用于保持cell的状态进行长距离传输；遗忘门单元用来决定cell的状态中丢弃一些信息，输入门单元用来决定多少新的信息加入到cell的状态中，输出门单元用来决定cell的状态能够输出多少。UB-BiLSTM的支路使用的是利用相邻的三个对话作为神经网络的输入，提取的相邻对话之间的时序信息，最后得到的BiLSTM这一路的音频特征向量(AudioSentimentVector from BiLSTM)，简称LASV。

卷积神经网络(Convolutional Neural Network,CNN)为一种前馈神经网络，卷积神经网络由一个或多个卷积层池化层、输入端的全连接层和输出端的分类连接层组成。卷积神经网络的每个神经元只与上一层的部分神经元相连，只感知局部数据，而不是整个矩阵数据。卷积神经网络的卷积核在进行卷积操作时，在同一份样本数据上的操作，卷积核权重参数不会改变。同一卷积核可以提取数据中不同位置的类似特征，这样可以大幅减少参数，提高训练速度。

其中，SB-CNN这一支路利用相邻的三个对话音频的频谱图作为输入，通过卷积神经网络的变体来从图像中提取特征，以次弥补纯序列模型的不足。通过卷积神经网络得到的音频特征向量(CASV)最后利用基于Attention的机制与LASV融合，得到最后的音频特征向量(ASV)，此向量即对应输入三个相邻对话音频最中间的那个对话音频的特征。

SBCNN支路部分如图3所示，模型的输入是一个视频中的三个相邻的音频对应的频谱图。每一个频谱图利用著名的CNN网络ResNet 152进行特征的提取。为了考虑到相邻对话之间的相关性，同样使用了BiLSTM网络层，通过其得到的CASV同样为U2所对应的特征向量。

UB-BiLSTM支路部分如图4所示，对于每一个对话U1，利用Librosa toolkit提取了四种声学特征。在第一层音频特征融合模型(AFF1)中，利用BiLSTM来进一步提取特征，这样能够反映一个音频内部的关联性，以及特征之间的关联性。同时使用了Dropout layer来防止数据不足或是模型结构过于复杂带来的过拟合问题，最后再进入一个BiLSTM总结压缩特征，得到V1来表征第一个对话。同样的方式可以得到相邻的V2和V3，如图3所示。在AFF2中，使用类似的BiLSTM方法，与之前不同的是，这次的BiLSTM的输入多个音频，所以总结出来的特征是考虑到了相邻三个音频之间的关联性，而最终得到的结果LASV对应的是第二个特征。换言之，第二个音频对应的LASV考虑到了前后相邻两个音频对其的贡献。

步骤3、音频特征表示和提取

在语音产生期间有几种话语，对于每个话语，音频信号可以分成几个段。通过测量几个统计数据来计算全局特征，例如，平均值、局部特征的偏差。

应用时，在众多的声学特征中，选择七种公认的声学特征，得到其中不同数量特征的组合，最后发现其中的四种特征组合能起到最好的效果。这四种特征分别是MFCC，Spectral_Centroid,Spectral_Contrast,Chroma_Stft，实验结果如表一所示，显示了不同数量特征组合的对比。其中，Model一栏的LSTM和BiLSTM指的是图3模型中的BiLSTM替换为了单向的LSTM。

表1

在提取音频的频谱图的过程中，除了ResNet152,还有很多其他成熟的CNN网络，如LeNet，AlexNet，VGG16，ResNet18，ResNet50，ZFNet。在MOSI数据集上做了大量的实验，其中有2分类，5分类，7分类，如表2所示不同CNN模型的对比。试验中使用的是F1和Macro F1来衡量模型的效果，其定义如下：

其中，β表示准确率(precision)和召回率(recall)之间的权重。在五分类和二分类中，有Macro F1定义如下：

其中n表示的在第n个类别上的F1分数的平均。

表2

在融合模型的筛选实验中，如表3所示为不同SBCNN和和UB-BiLSTM的组合实验，可见UB-BiLSTM+SBCNN的组合效果最好。

表3

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成，所述程序可以存储在可读取的存储介质中，该存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新型的语音信号特征融合的方法，其特征在于，包括如下步骤：

步骤1、模型框架搭建；

步骤2、神经网络设计；

步骤3、音频特征表示和提取。

2.根据权利要求1所述的新型的语音信号特征融合的方法，其特征在于，步骤1中，基于Python搭建模型的框架，并安装Keras、numpy、MOSI深度学习数据库。

3.根据权利要求2所述的新型的语音信号特征融合的方法，其特征在于，步骤2中，由基于对话的双向长短时记忆网络和基于频谱图的卷积神经网络两个并行的子网络构成神经网络。

4.根据权利要求3所述的新型的语音信号特征融合的方法，其特征在于，步骤3中，对于每个话语，将音频信号分成几个段，通过测量几个统计数据来计算全局特征。

5.根据权利要求4所述的新型的语音信号特征融合的方法，其特征在于，步骤3中，选择四种声学特征，得到其中不同数量特征的组合，所述四种特征分别是MFCC，Spectral_Centroid,Spectral_Contrast,Chroma_Stft。