CN109146066A

CN109146066A - 一种基于语音情感识别的虚拟学习环境自然交互方法

Info

Publication number: CN109146066A
Application number: CN201811296271.0A
Authority: CN
Inventors: 蔡林沁; 陈富丽; 陆相羽; 胡雅心
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-01-04

Abstract

本发明涉及一种基于语音情感识别的虚拟学习环境自然交互方法，属于深度学习领域，包括步骤S1：通过kinect采集学生用户的语音信号，进行重采样，分帧加窗，静音处理，得到短时单帧信号；S2：对信号进行快速傅里叶变换得到频域数据，求其功率谱，采用梅尔滤波器组得到梅尔频谱图；S3：将梅尔频谱图特征输入卷积神经网络，进行卷积操作与池化操作，并将最后一层降采样后的各矩阵向量，输入到全连接层，构成一个向量输出特征；S4：将输出特征压缩输入到双向长短时记忆神经网络中；S5：将输出特征输入到支持向量机中分类输出分类结果；S6：将分类结果反馈到虚拟学习系统中进行虚拟学习环境交互。本发明驱动学习者调整学习状态，增强虚拟学习环境的实用性。

Description

一种基于语音情感识别的虚拟学习环境自然交互方法

技术领域

本发明属于深度学习领域，涉及一种基于语音情感识别的虚拟学习环境自然交互方法。

背景技术

语音信号是人类最方便、最快捷、最自然的交流方式，其中携带着大量的情感信息。因此对语音情感识别的分析与研究在人机交互领域具有重要的意义。例如，在教师对学生进行远程教育课堂上，可以采用此技术帮助教师分析学生回答问题的情感状态，关联预测出学生此时的学习状态，进而调整自己的课堂教学，使课堂教学真正的做到以人为本；在医学治疗上，医生可以对病房里的病人此刻的情绪状态进行一个远程实时的监控，在其情绪消极的时候，实施开导，使病人积极的配合治疗。此外，语音情感计算还能应用于陪伴机器人，电子商务等相关产业，使机器更加智能拟人化。而语音信号中情感信息的体现，不仅体现在声学特征上的变化，还应结合语义内容，对语音信号的情感特征进行分析。

语音情感识别领域的主要难点在于没有一个能很好的描述语音情感的特征。针对语音情感特征的提取一直都是语音情感识采用传统的声学特征，对语音信号进行预处理之后，提取语音特征，例如：LPC，短时能量，短时过零率，MFCC等特征。但是语音信号是具有层次性的信号，略过浅层特征，直接提取上述高层特征是很难的。

通常语音情感识别只考虑了语音信号中声学特征的表征情感信息，而语音信号是一个连续的信号，其中情绪的表达也是一个连续的过程，与时间序列有很大的关联性。故单考虑声学特征中的短时能量特征等并不能找到完整的情感描述特征。

虚拟学习环境是将虚拟现实技术与课堂教学融为一体，能通过在虚拟环境中构建课堂教学场景、授课策略、教学内容，力求打破时间、空间、教学资源的限制，让学生“身临其境”地体验各种教学实验实践过程，加强对各种原理、概念、方法的理解，提升学生的学习兴趣和效果。在虚拟学习环境中，学生的情感都随着课堂的推移而实时变化，故在虚拟学习环境中，考察语音情感特征中的时序特征具有非常重要的意义。

发明内容

有鉴于此，本发明的目的在于提供一种基于语音情感识别的虚拟学习环境自然交互方法，将通过Kinect采集的学生实时语音信号转化为频谱图，输入到卷积神经网络模型中进行特征的学习，从浅层的特征学习到深层次的短时域特征以及频域特征，将其压缩为一维特征向量；将经过卷积神经网络初提取学习的初始一维特征向量，输入到搭建的双向长短时记忆神经网络中，学习时序特征，输出加入时序特征后的情感描述特征；将双向长短时记忆神经网路学习后的输出特征，输入到支持向量机中进行分类。其中支持向量机选用RBF高斯核函数为内核，采用grid search网格寻优的算法寻找最优参数，并输出最后的分类结果；以虚拟学习环境的学生作为应用对象，采集学生的实时语音情感，将此结果反馈到虚拟学习系统中，驱动教师模块，实时调整教师的授课策略与行为表达，增强课堂趣味性。

为达到上述目的，本发明提供如下技术方案：

一种基于语音情感识别的虚拟学习环境自然交互方法，包括以下步骤：

S1：通过kinect采集学生用户的语音信号，对所述语音信号进行重采样，分帧加窗，静音处理，得到短时的单帧信号，第n帧信号为x(n)；

S2：对x(n)进行快速傅里叶变换得到频域数据，求所述频域数据的功率谱，采用梅尔滤波器组，得到该帧的梅尔频谱图；

S3：将得到的梅尔频谱图特征，输入到搭建的卷积神经网络中，进行卷积操作与池化操作，并将最后一层降采样后的各矩阵向量，输入到全连接层，构成一个向量输出特征；

S4：将卷积神经网络的输出特征，压缩为一维特征向量，将所述一维特征向量作为输入，输入到搭建好的双向长短时记忆神经网络中，进行特征学习；

S5：将双向长短时记忆神经网路学习后的输出特征，输入到支持向量机中进行分类；其中支持向量机选用RBF高斯核函数为内核，采用grid search网格寻优的算法寻找最优参数，并输出最后的分类结果；

S6：将分类结果反馈到虚拟学习系统中，以虚拟学习环境的学生作为应用对象，进行虚拟学习环境交互。

进一步，在步骤S6中，利用步骤S5的分类结果来反馈学生的学习状态，并用该结果驱动教师模块，实时调整虚拟教师的授课策略与行为表达，促进学习者学习状态的改善。

进一步，在步骤S3中，所述卷积操作包括，其卷积层的每个滤波器作用于一张梅尔频谱图，利用卷积神经网络的共享权重和偏置的特点，对频谱图的局部特征进行提取，经过卷积后的特征图输出为：

其中表示在第l个卷积层的第j个映射集合，表示l-1个卷积层第i个特征集合，表示l层第i个特征集合与第j个映射集合之间的卷积核，为加权偏置项，f_c(.)为激活函数，表示二维卷积。

进一步，在步骤S3中，池化操作是对卷积层进行利用相邻分布点的相关性降采样聚合操作，对卷积层信息进行特征筛选，提取主要信息，减少输出数目，提升系统的鲁棒性和泛化性能，池化过程如下：

式中down(.)表示l-1层到l层的降采样运算方法，采用Avy pooling或Max poling方法；表示乘偏置项，表示加偏置项，f_p(.)为池化层的激活函数。

进一步，在步骤S4中，所述双向长短时记忆神经网络包括输出门o_t、输入门i_t、遗忘门f_t，通过各个门的参数来控制文本信息c_t，用x_t和h_t分别表示长短时记忆神经网络单元的输入值与输出值，t时刻候选记忆单元信息计算如下：

输入门i_t由当前输入数据x_t和前一时刻单元输出h_t-1决定，计算公式如下：

i_t＝σ(w_xix_t+w_hih_t-1+b_i)

遗忘门f_t控制历史信息的传递，计算公式如下：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)

c_t为记忆单元内容，由与c_t-1决定，受f_t和i_t调控，计算如下：

输出门o_t计算LSTM单元的输出值h_t，计算公式如下：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)

其中，w为权重，b为偏置项，表示点乘，函数σ为sigmoid函数，表示某种情况的发生概率；

由于语音信号的连续性，语音情感与前后时间的关联性与连续性，双向长短时记忆神经网络处理单向时间，仅仅对前向历史信息学习，所以采用双向长短时记忆神经网络，将词序列特征在前向和后向同时输入，连接到相同的输出层，情感特征前后的关联性与连续性，减少误判率。

本发明的有益效果在于：1.采用Kinect实时采集语音信号，并用深度学习的方法从语音中自提取语音情感特征，提升语音初始情感特征的表征性能；

2.采用双向长短时记忆神经网络，来学习语音情感中的时序特征，加深情感特征之间的关联性，进一步加强情感特征的描述性；

3.将一种实时识别语音情感系统运用到虚拟学习环境下，实时调整虚拟教师的授课策略与行为表达，促进学习者学习状态的改善，达到提升学习者兴趣的目的，使虚拟学习环境中教师与学生的交互更加实时与自然，增强虚拟学习环境的实用性，极大的提高学习效果。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为语音情感识别流程图；

图2为长短时记忆神经网络LSTM原理结构图；

图3为卷积神经网络情感特征提取流程图；

图4为双向长短时记忆神经网络Bi-LSTM特征学习，识别流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，一种基于语音情感识别的虚拟学习环境自然交互方法，包括以下步骤：

步骤101：对kinect实时采集的学生用户语音信号进行重采样，分帧加窗，静音处理，得到短时的单帧信号，第n帧信号为x(n)；

步骤102：对x(n)进行快速傅里叶变换得到频域数据，求其功率谱，采用梅尔滤波器组，得到该帧的梅尔频谱图；

如图3所示，步骤103：将得到的梅尔频谱图特征，输入到搭建的卷积神经网络中，进行卷积操作，其卷积层的每个滤波器作用于一张梅尔频谱图，利用卷积神经网络的共享权重和偏置的特点，对频谱图的局部特征进行提取，经过卷积后的特征图输出为

其中表示在第l个卷积层的第j个映射集合，表示l-1个卷积层第i个特征集合，表示l层第i个特征集合与第j个映射集合之间的卷积核，为加权偏置项，f_c(.)为激活函数(RLUE函数)，表示二维卷积。

对卷积层进行利用相邻分布点的相关性降采样聚合操作，也就是池化过程，对卷积层信息进行特征筛选，提取主要信息，减少输出数目，提升系统的鲁棒性和泛化性能，池化过程如下

式中down(.)表示l-1层到l层的降采样运算方法，一般有Avy pooling和Maxpoling两种；和两种表示乘偏置项和加偏置项，f_p(.)为池化层的激活函数。

将最后一层降采样后的各矩阵向量，输入到全连接层，构成一个向量输出特征。

步骤104：将103步骤提取的初始情感特征输入到搭建的双向长短时记忆神经网络(LSTM)中。LSTM原理结构如图2所示，主要包括输出门o_t，输入门i_t，遗忘门f_t，通过各个门的参数来控制文本信息c_t用x_t和h_t分别表示LSTM单元的输入值与输出值。t时刻候选记忆单元信息计算如下：

i_t＝σ(w_xix_t+w_hih_t-1+b_i) (4)

遗忘门f_t控制历史信息的传递，计算公式如下：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f) (5)

输出门o_t计算LSTM单元的输出值h_t，计算公式如下：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o) (7)

以上计算公式，w为权重，b为偏置项，表示点乘，函数σ为sigmoid函数，表示某种情况的发生概率。

由于语音信号的连续性，语音情感与前后时间的关联性与连续性，LSTM网络处理单向时间，仅仅对前向历史信息学习，所以采用双向LSTM网络(Bi-LSTM)，其结构图如图4中所示，将词序列特征在前向和后向同时输入，连接到相同的输出层，情感特征前后的关联性与连续性，减少误判率。

步骤105：将步骤104输出的向量特征作为输入，输入到支持向量机中进行分类。其中支持向量机选用RBF高斯核函数为内核，采用grid search网格寻优的算法寻找最优参数，并输出最后的分类结果

步骤106：将此结果反馈到虚拟学习系统中，以虚拟学习环境的学生作为应用对象，进行虚拟学习环境交互。将步骤105的识别结果来反馈学生的学习状态，并用该结果驱动教师模块，实时调整虚拟教师的授课策略与行为表达，促进学习者学习状态的改善，达到提升学习者兴趣的目的，使虚拟学习环境中教师与学生的交互更加实时与自然，增强虚拟学习环境的实用性，极大的提高学习效果。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于语音情感识别的虚拟学习环境自然交互方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法，其特征在于：在步骤S6中，利用步骤S5的分类结果来反馈学生的学习状态，并用该结果驱动教师模块，实时调整虚拟教师的授课策略与行为表达，促进学习者学习状态的改善。

3.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法，其特征在于：在步骤S3中，所述卷积操作包括，其卷积层的每个滤波器作用于一张梅尔频谱图，利用卷积神经网络的共享权重和偏置的特点，对频谱图的局部特征进行提取，经过卷积后的特征图输出为：

4.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法，其特征在于：在步骤S3中，池化操作是对卷积层进行利用相邻分布点的相关性降采样聚合操作，对卷积层信息进行特征筛选，提取主要信息，减少输出数目，提升系统的鲁棒性和泛化性能，池化过程如下：

5.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法，其特征在于：在步骤S4中，所述双向长短时记忆神经网络包括输出门o_t、输入门i_t、遗忘门f_t，通过各个门的参数来控制文本信息c_t，用x_t和h_t分别表示双向长短时记忆神经网络单元的输入值与输出值，t时刻候选记忆单元信息计算如下：

i_t＝σ(w_xix_t+w_hih_t-1+b_i)

遗忘门f_t控制历史信息的传递，计算公式如下：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)

输出门o_t计算LSTM单元的输出值h_t，计算公式如下：

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)

其中，w为权重，b为偏置项，表示点乘，函数σ为sigmoid函数，表示某种情况的发生概率。