CN112069897B

CN112069897B - 基于知识图谱的语音和微表情识别自杀情绪感知方法

Info

Publication number: CN112069897B
Application number: CN202010771827.8A
Authority: CN
Inventors: 杜广龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2023-09-01
Anticipated expiration: 2040-08-04
Also published as: CN112069897A

Abstract

本发明公开了一种基于知识图谱的语音和微表情识别自杀情绪感知方法。所述方法包括以下步骤：使用带有红外摄像头的Kinect对语音和视频进行采集；分析视频中的图像帧和语音并转换为相应的特征文本；基于知识图谱对特征文本进行分析并生成最终的目标情绪文本，判断是否属于自杀情绪。本发明利用Kinect用于数据采集，具有性能高和操作方便的特点。

Description

基于知识图谱的语音和微表情识别自杀情绪感知方法

技术领域

本发明属于情绪感知领域，特别涉及一种基于知识图谱的语音和微表情识别自杀情绪感知方法。

背景技术

自杀是指个一个人在复杂心理作用下，蓄意或自愿采取各种手段结束自己生命的行为；现如今人们的生活水平日益提高，基本上已经告别了食不果腹、衣不蔽体的年代，看似已经衣食无忧，但经常听到某某自杀的新闻报道，似乎自杀率并未因生活水平的提高而有显著的改善。那么，如何才能降低自杀率成为一个热点问题。

目前，借助科技，摄像头下的行为活动是真实，对面部微表情和语音进行采集，电脑自行感知分析数据可以判断是否具有自杀倾向。在技术实现方面，有高桥利用脑电图信号将视频的情绪分类(K.Takahashi,"Remarks on emotion recognition from multi-modal bio-potential signals",Proc.IEEE Int.Conf.Ind.Technol.(ICIT),vol.3,pp.1138-1143,Jun.2004.)，香奈儿利用脑电时频特征对三种情绪识别(G.Chanel,J.J.M.Kierkels,M.Soleymani,T.Pun,"Short-term emotion assessment in a recallparadigm",Int.J.Human Comput.Stud.,vol.67,no.8,pp.607-627,Aug.2009.)，金姆等人利用生物传感器从肌电图、心电图、皮肤电导和呼吸变化来对音乐情感进行分类(J.Kim,and E.André,“Emotion recognition based on physiological changes in musiclistening,”IEEE Transactions on Pattern Analysis&Machine Intelligence,vol.30,no.12,pp.2067-2083,2008.)。传感器等硬件设备的不方便使得需要考虑非接触式的数据提取。从面部表情出发感知，徐等提出了一种通过视频序列的微表情来感知人的情绪的方法(F.Xu,J.Zhang and J.Z.Wang,“Microexpression Identification andCategorization Using a Facial Dynamics Map,”IEEE Transactions on AffectiveComputing,vol.8,issue 2,pp.1-1,2017.)，文献Shojaeilangari S,Yau W Y,NandakumarK,et al.“Robust Representation and Recognition of Facial Emotions UsingExtreme Sparse Learning[J]”.IEEE Transactions on Image Processing,2015,24(7):2140-2152.)提出了一种基于动态贝叶斯网络的统一概率框架，能够同时、一致地表示人脸在不同层次上的演化，以识别情感。在基于语音方面，很多研究都是基于纯文本数据进行情绪识别的(C.-H.Wu,Z.-J.Chuang and Y.-C.Lin,"Emotion Recognition from TextUsing Semantic Label and Separable Mixture Model",ACM Trans.Asian LanguageInformation Processing,vol.5,no.2,pp.165-182,June 2006.C.-M.Lee andS.S.Narayanan,&ldquo,"Toward Detecting Emotions in Spoken Dialogs,&rdquo",IEEE Trans.Speech and Audio Processing,vol.13,no.2,pp.293-303,Mar.2005.L.Devillers,L.Lamel and I.Vasilescu,&ldquo,"Emotion Detection inTask-Oriented Spoken Dialogues,&rdquo",Proc.IEEE Int',l Conf.Multimedia andExpo,pp.549-552,2003.)。而换一种预测方法并且考虑多种特征因素可能就会对识别正确率有很大提升。

发明内容

本发明的目的是为了解决上述现有技术存在的缺陷，提出了一种新的感知情绪的方法。本发明融合了表情和语言两方面的特征，并且使用一种新型的基于知识图谱的识别方式。此方法首先对语音和视频进行采集，然后分别进行特征提取，并转化为相应文字描述，最后将特征文字描述输入知识图谱中，经搜索可获得最终情绪文本，达到情绪识别的效果。经过实验，可知，本发明较其它算法能够很大程度上提高情绪识别度。

本发明的目的至少通过如下技术方案之一实现。

基于知识图谱的语音和微表情识别自杀情绪感知方法，包括以下步骤：

S1、使用带有红外摄像头的Kinect对语音和视频进行采集；

S2、分析视频中的图像帧和语音并转换为相应的特征文本；

S3、基于知识图谱对特征文本进行分析并生成最终的目标情绪文本，判断是否属于自杀情绪。

进一步地，步骤S2中，对于采集的语音，根据语音的内容、语调和语速转化为三组特征描述文本；对于采集的图像帧，抓取面部表情后，进行特征提取和降维，并经过神经网络分类转化为对应的表情文本描述。

进一步地，步骤S2具体包括以下步骤：

S2.1、对采集到的语音信号首先应用基于维纳的噪声滤波进行降噪处理，然后分别根据语音内容、语调和语速依次将语音转换为三个相应特征文本描述；

S2.2、根据Kinect实时获取人脸的图像，完成面部微表情的抓取，对图像进行滤波、去噪、灰度均衡化处理后，使用Gabor小波进行特征提取，再使用线性判别分析法进行降维从而获得相应的特征向量，最后经过一个三层的神经网络的分类，得到人脸识别的结果即相应的特征文本描述；其中，所述三层的神经网络的结构包括输入层、隐藏层和输出层，输入层有一个节点，用于接收数据，输出层有三个节点，用于输出数据，隐藏层有三个节点，经过‘激活’后传递信息。

进一步地，步骤S2.1中，语音内容的特征文本通过Kinect自动转化为文本，语调的特征文本通过韵律识别获得，语速的特征文本通过频谱计算获得；其中，韵律特征可以通过Giannakopoulos和Pikrakis工具箱计算得到，并通过表将计算结果对应为相应的特征文本；频谱特征包括谱熵和Mel倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)，通过表转换进而得到相应的特征文本，谱熵H的计算公式如下：

上式中，L表示短期帧谱频的子带数，第f个子带具有能量E_f，归一化的能亮n_f的计算公式如下：

MFCC由C_m给出，具体如下：

其中，是第k个滤波器输出的能量。

进一步地，步骤S3中，使用知识图谱的方法对四个特征文本进行背景文本输出；知识图谱用于进行丰富的背景知识的存储，使用图嵌入方式来嵌入到知识向量空间，并生成每个图节点的节点向量；然后源目标特征经过编码转化为向量；再利用集束搜索进行解码，并进行目标情绪文本生成。

知识图谱具体从两方面介绍：

(1)知识图谱及其表示

知识图谱实质上是图，由一系列的实体和实体之间的关系构成，也理解为由一条条的知识组成，对于每条知识，可以用一个模型将其描述，即资源描述框架(ResourceDescription Frame,RDF)，RDF是知识图谱的基础上，形式上可表示为一个S-P-O(Subject-Predicate-Object)三元组。

(2)集束搜索

集束搜索是一种启发式搜索技术，结合了宽度优先和最佳优先搜索的元素，根据某种启发式算法对邻近节点排序，只保留n个最佳值，其中n是集束的大小。本发明将使用集束搜索来并行地搜索出最终的序列，将其作为文本解码问题的解决方法。

进一步地，步骤S3具体包括以下步骤：

S3.1、选取开源的OpenKG，OpenKG以中文为基础，由此构成所需要的知识图谱；

S3.2、将步骤S2中得到的四组特征文本进行编码转化为特征向量，知识图谱通过node2vec的方法映射到相同的向量空间；

S3.3、对特征向量采用集束搜索进行解码获得目标文本。

进一步地，步骤S3.3中，集束搜索是在循环神经网络的基础上发展而来的，用于估计给定输入的有限字典中某序列的可能性，每一次的输出都是在上一次的输出基础上进行的，因此，对长度为T的序列的解码看成是对T阶马尔可夫链的输出对应的T个节点的映射推理，具体步骤如下：

首先，存储每一个时间步长里得分最高的top-n个候选集；

然后，定义在时间t时所持有的解的集合为Y_[t-1]＝{y_1,[t-1],…,y_B,[t-1]}，在每一个时间步长里，考虑集合Y_t＝Y_[t-1]*给出的波束所给出的所有单词序列，并选择最可能的序列解集；

最后，选取top-n个序列，重复上述两个步骤，直到时间T时，根据对数概率对集束排序，选出最有可能的序列，也就是进行目标文本的输出，即是否具有自杀倾向。

与现有技术相比，本发明具有以下优势：

(1)本发明将多模态数据与文本层对齐，即物理特性用文本描述，能够全面地、客观地表达情绪。

(2)本发明使用基于知识图谱的方法进行情绪的预测，充分利用了丰富的背景知识信息，提高了预测的准确率。

(3)本发明利用Kinect用于数据采集，具有性能高和操作方便的特点。

附图说明

图1为本发明一种基于知识图谱的语音和微表情识别自杀情绪感知方法的流程图；

图2为本发明实施例中三层神经网络的结构示意图；

图3为本发明实施例中知识图谱预测情绪的结构图。

具体实施方式

下面结合实施例和附图对本发明的具体实施做进一步的说明，但本发明的实施方式不限于此。

实施例：

基于知识图谱的语音和微表情识别自杀情绪感知方法，如图1所示，包括以下步骤：

S1、使用带有红外摄像头的Kinect对语音和视频进行采集；

S2、分析视频中的图像帧和语音并转换为相应的特征文本；

对于采集的语音，根据语音的内容、语调和语速转化为三组特征描述文本；对于采集的图像帧，抓取面部表情后，进行特征提取和降维，并经过神经网络分类转化为对应的表情文本描述。

步骤S2具体包括以下步骤：

语音内容的特征文本通过Kinect自动转化为文本，语调的特征文本通过韵律识别获得，语速的特征文本通过频谱计算获得；其中，韵律特征可以通过Giannakopoulos和Pikrakis工具箱计算得到，并通过表将计算结果对应为相应的特征文本；频谱特征包括谱熵和Mel倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)，通过表转换进而得到相应的特征文本，谱熵H的计算公式如下：

MFCC由C_m给出，具体如下：

其中，是第k个滤波器输出的能量。

S2.2、根据Kinect实时获取人脸的图像，完成面部微表情的抓取，对图像进行滤波、去噪、灰度均衡化处理后，使用Gabor小波进行特征提取，再使用线性判别分析法进行降维从而获得相应的特征向量，最后经过一个三层的神经网络的分类，得到人脸识别的结果即相应的特征文本描述；其中，如图2所示，所述三层的神经网络的结构包括输入层、隐藏层和输出层，输入层有一个节点，用于接收数据，输出层有三个节点，用于输出数据，隐藏层有三个节点，经过‘激活’后传递信息。

S3、基于知识图谱对特征文本进行分析并生成最终的目标情绪文本，判断是否属于自杀情绪；

如图3所示，使用知识图谱的方法对四个特征文本进行背景文本输出；知识图谱用于进行丰富的背景知识的存储，使用图嵌入方式来嵌入到知识向量空间，并生成每个图节点的节点向量；然后源目标特征经过编码转化为向量；再利用集束搜索进行解码，并进行目标情绪文本生成。

步骤S3具体包括以下步骤：

S3.3、对特征向量采用集束搜索进行解码获得目标文本，集束搜索是在循环神经网络的基础上发展而来的，用于估计给定输入的有限字典中某序列的可能性，每一次的输出都是在上一次的输出基础上进行的，因此，对长度为T的序列的解码看成是对T阶马尔可夫链的输出对应的T个节点的映射推理，具体步骤如下：

首先，存储每一个时间步长里得分最高的top-n个候选集；

Claims

1.基于知识图谱的语音和微表情识别自杀情绪感知方法，其特征在于，包括以下步骤：

S1、使用带有红外摄像头的Kinect对语音和视频进行采集；

S2、分析视频中的图像帧和语音并转换为相应的特征文本；具体包括以下步骤：

S2.1、对采集到的语音信号首先应用基于维纳的噪声滤波进行降噪处理，然后分别根据语音内容、语调和语速依次将语音转换为三个相应特征文本描述；语音内容的特征文本通过Kinect自动转化为文本，语调的特征文本通过韵律识别获得，语速的特征文本通过频谱计算获得；其中，韵律特征可以通过Giannakopoulos和Pikrakis工具箱计算得到，并通过表将计算结果对应为相应的特征文本；频谱特征包括谱熵和Mel倒谱系数(Mel-FrequencyCepstrum Coefficient,MFCC)，通过表转换进而得到相应的特征文本，谱熵H的计算公式如下：

MFCC由C_m给出，具体如下：

其中，是第k个滤波器输出的能量；

S2.2、根据Kinect实时获取人脸的图像，完成面部微表情的抓取，对图像进行滤波、去噪、灰度均衡化处理后，使用Gabor小波进行特征提取，再使用线性判别分析法进行降维从而获得相应的特征向量，最后经过一个三层的神经网络的分类，得到人脸识别的结果即相应的特征文本描述；其中，所述三层的神经网络的结构包括输入层、隐藏层和输出层，输入层有一个节点，用于接收数据，输出层有三个节点，用于输出数据，隐藏层有三个节点，经过‘激活’后传递信息；

2.根据权利要求1所述的基于知识图谱的语音和微表情识别自杀情绪感知方法，其特征在于，步骤S2中，对于采集的语音，根据语音的内容、语调和语速转化为三组特征描述文本；对于采集的图像帧，抓取面部表情后，进行特征提取和降维，并经过神经网络分类转化为对应的表情文本描述。

3.根据权利要求2所述的基于知识图谱的语音和微表情识别自杀情绪感知方法，其特征在于，步骤S3中，使用知识图谱的方法对四个特征文本进行背景文本输出；知识图谱用于进行丰富的背景知识的存储，使用图嵌入方式来嵌入到知识向量空间，并生成每个图节点的节点向量；然后源目标特征经过编码转化为向量；再利用集束搜索进行解码，并进行目标情绪文本生成。

4.根据权利要求3所述的基于知识图谱的语音和微表情识别自杀情绪感知方法，其特征在于，步骤S3具体包括以下步骤：

S3.3、对特征向量采用集束搜索进行解码获得目标文本。

5.根据权利要求4所述的基于知识图谱的语音和微表情识别自杀情绪感知方法，其特征在于，步骤S3.3中，对长度为T的序列的解码看成是对T阶马尔可夫链的输出对应的T个节点的映射推理，具体步骤如下：

首先，存储每一个时间步长里得分最高的top-n个候选集；

然后，定义在时间t时所持有的解的集合为Y_[t-1]＝{y_1,[t-1],…,y_B,[t-1]}，在每一个时间步长里，考虑集合Y_t＝Y_[t-1]*V给出的波束所给出的所有单词序列，并选择最可能的序列解集；