CN112735477B

CN112735477B - 语音情感分析方法和装置

Info

Publication number: CN112735477B
Application number: CN202011625649.4A
Authority: CN
Inventors: 王治博; 关庆阳; 王智勇; 毛书贵; 宋胜尊; 李永春; 童心
Original assignee: Shenyang Kanghui Brain Intelligence Collaborative Innovation Center Co ltd
Current assignee: Shenyang Kanghui Brain Intelligence Collaborative Innovation Center Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-03-17
Anticipated expiration: 2040-12-31
Also published as: CN112735477A

Abstract

本发明提供一种语音情感分析方法和装置。所述方法包括：基于重采样的数字语音信号获取语音信号的频率幅值谱；基于所述频率幅值谱获取语音信号的多重语音特征；以及将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。

Description

语音情感分析方法和装置

技术领域

本发明涉及人工智能领域，具体地说，本发明涉及一种语音情感分析方法和装置。

背景技术

语音已经是人们传递信息和表达感情的重要媒介，近年来，随着语音识别和深度学习人工智能技术的发展，继图像信号之后，语音信号成为信息时代背景下用于思想沟通、感情交流和人机交互等的基本途径和高效技术手段，例如，常用的语音通话设备和诸如智能音箱等智能人机交互工具。语音情感识别的研究对于增强计算机的智能化和人性化、开发新型人机环境以及推动心理学等学科的发展有着重要的现实意义，并将产生显著的经济和社会效益。

传统的语音情感识别领域的研究在于分析语音的声学统计特征，选用的数据集是语音条目较少且语义较简单的情感语音数据库，因此用于情感分析的声学模型不具备普遍性。同时，因为统计特征常常使用类似线性判别分析法等方法，导致分析结果的准确率低。虽然提出了利用深度信念网络来自动提取特征的方法，并且还采用过线性判别分类的方法、k最近邻法和支持向量机等方法取得了60％-65％的识别准确率，但是结果仍不理想。

发明内容

提供本发明内容是为了以简化的形式介绍所选择的构思，并在下面的具体实施方式中进一步描述这些构思。本发明内容无意确定所要求保护的主题的关键特征或必要特征，也无意用于帮助确定所要求保护的主题的范围。

本公开的一方面提供一种语音情感分析方法，所述方法包括：基于重采样的数字语音信号获取语音信号的频率幅值谱；基于所述频率幅值谱获取语音信号的多重语音特征；以及将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。

所述多重语音特征可包括：频谱中心特征、频谱平坦度特征、梅尔频率倒谱系数特征、短时傅里叶变换色谱图特征、梅尔频谱特征、语音信号频率幅值谱对比度特征、均方根能量特征和短时语音信号平均过零率特征。

所述多重语音特征融合处理可包括数据幅值的归一化处理和并行数据的拼接处理。

所述时序记忆网络处理输出的序列数据可由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定，其中，所述时序记忆信息可由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。

所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数，针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据，并且可基于所述更新的序列数据来提取并行方向上的并行关联系数，针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。

本公开的另一方面提供一种语音情感分析装置，所述控制装置包括：采样模块，接收语音信息的输入并基于预定采样率进行重采样，获得语音信号的频率幅值谱；特征提取模块，基于所述频率幅值谱获取语音信号的多重语音特征；以及情感分析模块，将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。

情感分析模块的所述时序记忆网络处理输出的序列数据可由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定，其中，所述时序记忆信息可由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。

情感分析模块的所述时空注意力网络处理可基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数，针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据，并且可基于所述更新的序列数据来提取并行方向上的并行关联系数，针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。

本公开的另一方面提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序在被处理器执行时实现如上所述的语音情感分析方法。

本公开的另一方面提供一种计算机设备，所述计算机设备包括：处理器存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的语音情感分析方法。

附图说明

通过以下结合附图的详细描述，本公开的以上和其它方面、特征和优点将被更清楚地理解，在附图中：

图1是根据本公开的语音情感分析方法的框图；

图2是根据本公开的时序记忆网络-时空注意力网络模型结构的示意图；

图3是根据本公开的时序记忆网络模块的框图；

图4是根据本公开的时空注意力网络模块的框图；以及

图5是根据本公开的语音情感分析装置的框图。

具体实施方式

提供以下具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，对于本领域普通技术人员在此描述的方法、设备和/或系统的各种改变、变型和等同物将是显而易见的。例如，在此描述的操作的顺序仅仅是示例，并且不限于在此阐述的顺序，而是除了必须以特定顺序执行的操作之外，可做出对于本领域普通技术人员将显而易见的改变。此外，为了提高清楚性和简洁性，可省略对于本领域普通技术人员将公知的特征和结构的描述。在此描述的特征可以以不同的形式实施，并且将不被解释为局限于在此描述的示例。更确切地说，已经提供在此描述的示例使得本公开将是彻底的和完整的，并且将向本领域普通技术人员充分地传达本公开的范围。

由于目前语音情感分析一般基于单一语音特征导致特征信息匮乏，在情感分析时不能取得良好的分析结果。本公开提供一种基于融合多重语音特征的语音情感分析方法，可使模型的训练速度、分类结果准确度和分析速度提高。

图1是根据本公开的语音情感分析方法的框图。参照图1，根据本公开的语音情感分析方法执行如下步骤。在操作101，执行数字语音信号重采样并获取频率幅值谱，以基于重采样的数字语音信号获取语音信号的频率幅值谱。

为了增强语音信号的规范性，语音信号重采样将获得的数字语音信号进行重采样，采样频率可以是11.025kHz、22.05kHz或44.1kHz，但不限于此。

由于信号在时域上的变换通常难以表现信号的特性，因此获取语音信号频率幅值谱可将时域信号转换为频域信号，以获得能量分布的直观表示。将频域信号按照预定长度分帧加窗，针对各帧信号进行短时傅里叶变换从而得到各帧信号的频谱。由于经过重采样后的信号采样率为22.05kHz，若以23ms为周期进行频域变换，则信号窗口的尺寸是512点，采样率不同时还可以是256点或1024点，但不限于此。

在操作102，基于频率幅值谱获取语音信号的多重语音特征。多重语音特征可包括：

1、频谱中心特征

将频域信号进行分帧和归一化处理，从而得到在频域上针对每个频率点的幅值分布，进而得到每帧中占据主要能量的频点。

2、频谱平坦度特征

频谱平坦度特征是量化语音与白噪声的相似性的度量方法。较高的频谱平坦度(接近1.0)表明频谱类似于白噪声。

3、梅尔频率倒谱系数特征

在语音处理领域中，梅尔频率倒谱是基于语音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔频率倒谱系数就是组成梅尔频率倒谱的系数，本公开阶数取50。

4、短时傅里叶变换色谱图特征

将操作101中获取的语音信号频率幅值谱变换成色谱图特征。

5、梅尔频谱特征

将操作101中获取的语音信号频率幅值谱通过梅尔标度滤波器组，变换为梅尔频谱。

6、语音信号频率幅值谱对比度特征

将操作101中获取的语音信号频率幅值谱的每帧均划分为频域子带。对于每个频域子带，通过比较峰值能量和谷值能量来估计能量对比度。高对比度值通常对应于清晰的窄带信号，而低对比度值则对应于宽带噪声。

7、均方根能量特征

将操作101中获取的语音信号频率幅值谱的每帧分别计算均方根能量值。

8、短时语音信号平均过零率特征

短时语音信号平均过零率是语音信号时域分析中的特征参数，是指每帧内信号通过零值的次数。

在此示例中，多重语音特征包括八种语音特征，但多重语音特征的种类和数量不限于此。

在操作103，对多重语音特征进行融合处理并通过时序记忆网络和时空注意力网络处理分析语音情感。将操作102中提取的多重语音特征分别按时序方向进行归一化处理，对于复合特征(数据维度大于1)，则分别按时序方向进行归一化处理。进行归一化处理后，将多重语音特征的并行数据按并行方向进行拼接处理，形成语音情感特征模型，并通过时序记忆网络和时空注意力网络处理分析语音情感。

基于深度学习技术的训练语音情感分类模型可通过训练人工神经网络来建立分类模型。将原始语音数据集经过上述步骤进行特征提取，再进行训练集和验证集划分。通过训练集训练语音情感分类模型，利用验证集评估模型效果，可调整模型参数并完成训练。

图2是根据本公开的时序记忆网络-时空注意力网络模型结构的示意图。参照图2，分类模型分为两个部分，分别为时序记忆网络模块和时空注意力网络模块。在时序记忆网络-时空注意力网络模型中，时序记忆网络模块将从语音信息中提取的多重特征作为输入，以输出情感预测时序特征；将时序记忆网络模块的输出到时空注意力网络模块，时空注意力网络模块可提取全局最优特征；最后通过Softmax分类模型根据经过处理的包含多重语音特征的样本对语音信号包含的情感信息特征进行逻辑判断，最后得到多重情感类别的概率分布。

通过提取待测语音的特征并输入已训练完成的时序记忆网络-时空注意力网络模型来测试模型的情感分类能力。

图3是根据本公开的时序记忆网络300的框图。时序记忆网络300输出的序列数据由所述时序记忆网络300的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定，其中，所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息的数据组合通过记忆更新单元得到。参照图3，时序记忆网络300的输入和输出均为序列数据，时序记忆网络的输出Y_t由时序记忆信息H_t和当前时刻的输入X_t共同决定的。时序记忆网络的基本门控单元包括输入门、记忆单元和输出门，其中，记忆单元由记忆计算S和记忆更新M组成，其中记忆计算S负责同时接收输入X_t和记忆信息H_t，记忆计算S同时根据记忆信息H_t和输入信息X_t计算并输出Y_t，记忆信息H_t和输入信息X_t的结合能够提高输入同种情感的语音特征的相似性，记忆更新M根据输入信息X_t与记忆信息H_t的关联程度对记忆信息H_t进行更新得到新的记忆信息H_t+1。由于时序记忆网络300能够同时根据上下文信息进行情感特征的有效分析和预测，因此提高了网络的准确率。

其中，记忆计算S可由式1表示：

Y_t＝W_s⊙H_t*X_t+W_l⊙H_t*X_t (1)

其中，记忆更新M可由式2表示：

H_t+1＝f(X_t,H_t)*W_u⊙H_t (2)

其中，Y_t是输出的矩阵数据，H_t是记忆信息的矩阵数据，X_t是输入信息的矩阵数据。W_s为临近时序权重矩阵，一般在并行方向(特征方向)宽度为128～384、时序方向长度为7～27。W_l为全时序权重矩阵，一般在并行方向(特征方向)宽度为128～384、时序方向长度为201～908。W_u为记忆信息更新权重矩阵，一般在并行方向(特征方向)宽度为128～384、时序方向长度为196～784。函数f(X_t,H_t)是更新规则控制函数。

图4是根据本公开的时空注意力网络400的框图。时空注意力网络400由数理统计分析和处理网络组成。时空注意力网络400能够对时序记忆网络300输出的序列数据进行处理得到有利于情感特征分类的特征信息。参照图4，序列数据X是从时序记忆网络300输出的序列数据，时间注意力单元U计算输入的序列数据X在时序方向的时序关联系数。所述时序关联系数表示输入的序列数据之间在对应维度上(例如，将两个或更多个序列数据从各自的数据起始点向数据末端以时序方向一一对应)的数据相关性，其中，关联系数为0表示完全不相关。针对时序方向根据得到的时序关联系数对序列数据X(时序记忆网络300输出的序列数据)进行加权产生更新的序列数据T。通过加权计算可使序列数据简化(或压缩)。空间注意力单元O计算由时间注意力单元U处理后的序列数据T在并行方向(数据的空间方向)上的并行关联系数。针对并行方向根据得到的并行关联系数对更新的序列数据T加权产生特征F，并输出语音特征数据F用于语音情感分类。

根据得到的时序关联系数对序列数据X进行加权的处理可由式3表示：

T＝(f(X₁,X₂,…,X_t)⊙W_t*X)^T (3)

根据得到的并行关联系数对更新的序列数据T加权的处理可由式4表示：

F＝(f(T₁,T₂,…,T_n)⊙W_f*T)^T (4)

其中，X_n(n＝1,2,…,t)是时序数据矩阵X按时序方向排列的向量。T是时间注意力单元U输出的语音特征矩阵数据。F是空间注意力单元输出的语音特征矩阵数据。W_t为时序特征融合矩阵，一般在并行方向(特征方向)宽度为128～384、时序方向长度与输入特征X长度一致。W_f为空间特征融合矩阵，一般在并行方向(特征方向)长度为128～384，时序方向长度与经过处理的T长度一致。函数f(T₁,T₂,…,T_n)是相关系数计算函数。

图5是根据本公开的语音情感分析装置的框图。参照图5，语音情感分析装置包括输入501、采样模块502、特征提取模块503、情感分析模块504和输出505。采样模块502接收语音信息的输入并基于预定采样率进行重采样，获得语音信号的频率幅值谱。特征提取模块503基于所述频率幅值谱获取语音信号的多重语音特征。情感分析模块504将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析。

本公开提出应用语音信号重采样方法可将不同来源与格式的语音信号重新标准化，提高系统的适应能力与分析准确率。

本公开提出多重语音特征提取与融合方法，通过提取原语音信号的多重语音特征，实现量化和丰富语音情感特征信息目的，进一步通过归一化方法降低了情感特征分析的复杂度。

本公开提出时序记忆网络-时空注意力网络模型，拥有两种不同网络结构的时序记忆网络-时空注意力网络的情感分析模型学习能力更强，其中时序记忆网络能够同时结合上下文信息进行情感特征学习，时空注意力网络能够将时序记忆网络输出的情感特征中的有效特征进行进一步的提取。

根据本发明的示例性实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行根据本发明的语音情感分析方法的计算机程序。该计算机可读记录介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本发明的示例性实施例还提供一种计算机设备。该计算机设备包括处理器和存储器。存储器用于存储计算机程序。所述计算机程序被处理器执行使得处理器执行根据本发明的语音情感分析方法的计算机程序。

虽然本公开包括具体示例，但是对于本领域普通技术人员将明显的是，在不脱离权利要求及它们的等同物的精神和范围的情况下，可在这些示例中做出形式上和细节上的各种改变。在此描述的示例将仅被认为是描述性含义，而非出于限制的目的。在每个示例中的特征或方面的描述将被认为可适用于其他示例中的类似的特征或方面。如果按照不同的顺序执行描述的技术，和/或如果按照不同的方式组合描述的系统、架构、装置或者电路中的组件和/或通过其他组件或者它们的等同物替换或者补充描述的系统、架构、装置或者电路中的组件，则可获得适当的结果。因此，本公开的范围不由具体实施方式限定，而是由权利要求及它们的等同物限定，在权利要求及它们的等同物的范围内的所有变型将被解释为包含于本公开中。

Claims

1.一种语音情感分析方法，其中，所述方法包括：

基于重采样的数字语音信号获取语音信号的频率幅值谱；

基于所述频率幅值谱获取语音信号的多重语音特征；以及

将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析，

其中，所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数，针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据，并且基于所述更新的序列数据来提取并行方向上的并行关联系数，针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。

2.根据权利要求1所述的方法，其中，所述多重语音特征包括：频谱中心特征、频谱平坦度特征、梅尔频率倒谱系数特征、短时傅里叶变换色谱图特征、梅尔频谱特征、语音信号频率幅值谱对比度特征、均方根能量特征和短时语音信号平均过零率特征。

3.根据权利要求1所述的方法，其中，所述多重语音特征融合处理包括数据幅值的归一化处理和并行数据的拼接处理。

4.根据权利要求1所述的方法，其中，所述时序记忆网络处理输出的序列数据由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定，其中，所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。

5.一种语音情感分析装置，其中，所述装置包括：

采样模块，接收语音信息的输入并基于预定采样率进行重采样，获得语音信号的频率幅值谱；

特征提取模块，基于所述频率幅值谱获取语音信号的多重语音特征；以及

情感分析模块，将多重语音特征融合处理并通过时序记忆网络处理和时空注意力网络处理来实现语音情感分析，

其中，情感分析模块的所述时空注意力网络处理基于所述时序记忆网络处理输出的序列数据来提取时序方向的时序关联系数，针对时序方向根据得到的时序关联系数对所述序列数据进行加权产生更新的序列数据，并且基于所述更新的序列数据来提取并行方向上的并行关联系数，针对并行方向根据得到的并行关联系数对所述更新的序列数据进行加权产生用于语音情感分类的特征数据。

6.根据权利要求5所述的装置，其中，情感分析模块的所述时序记忆网络处理输出的序列数据由所述时序记忆网络处理的时序记忆信息和融合的多重语音特征的当前时刻输入序列数据共同决定，其中，所述时序记忆信息由融合的多重语音特征的上一时刻输入序列数据和上一时刻的时序记忆信息通过记忆更新单元得到。

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序在被处理器执行时实现如权利要求1至4中任意一项所述的语音情感分析方法。

8.一种计算机设备，其特征在于，所述计算机设备包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至4中任意一项所述的语音情感分析方法。