CN113128399B

CN113128399B - 用于情感识别的语音图像关键帧提取方法

Info

Publication number: CN113128399B
Application number: CN202110418369.4A
Authority: CN
Inventors: 曾孝平; 陈光辉; 焦爽; 李勇明; 熊东; 董丽; 董琦; 李依玲; 陈曼枝; 朱鹏
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-05-17
Anticipated expiration: 2041-04-19
Also published as: CN113128399A

Abstract

本发明涉及视频处理技术领域，具体公开了一种用于情感识别的语音图像关键帧提取方法，该方法针对传统的基于驾驶员情感识别的语音图像关键帧提取方法存在关键帧冗余、丢失重要的情感信息等问题，首先将情感视频分为语音信息和图像信息；此外，利用语音活动检测算法处理语音信息来提取初步语音关键帧；其次，利用信息熵的思想表征人类情感产生是一个连续过程，并利用感知哈希算法有效地提取初步图像关键帧；最后，在语音图像关键帧对齐处理中利用语音和图像模态之间的互补性提取最终语音关键帧和最终图像关键帧。实验结果表明：本方法不仅有效地减少了语音和图像关键帧的冗余，而且也有效地保存了重要的情感信息。

Description

用于情感识别的语音图像关键帧提取方法

技术领域

本发明涉及视频处理技术领域，尤其涉及一种用于情感识别的语音图像关键帧提取方法。

背景技术

对人类进行情感识别具有十分重要的现实意义。比如，驾驶员在内部、外部环境以及自身的影响下，容易出现困倦、暴躁、疲倦、心不在焉等情感状态，这些情感状态严重时会导致车祸的发生，影响驾驶员及他人的生命安全。智能驾驶系统利用情感识别技术有效地识别驾驶员的情感状态，及时提醒驾驶员可能面临的安全隐患，并判断当前驾驶员是否适合驾驶车辆。为了防止交通事故的发生，智能驾驶系统也可以根据情感识别的结果直接操控车辆进入自动驾驶或刹车驻停状态。

经过近几十年的发展，情感识别形成了一套被广泛采用的分类标准。在这套标准中，情感被分为六类：生气、厌恶、恐惧、悲伤、惊讶和高兴。此外，情感可以通过外部(图像、语音、手势等)和内部(心率、血压、皮肤电极信号、脑电图信号等)两种情况进行分析，其中图像和语音被广泛应用于情感识别，因为其可以简单直观地构造数据集。

然而，随着多媒体信息时代的到来，面对海量的情感视频，如何有效地从情感视频数据集中提取语音和图像关键帧对于提高情感识别的性能将显得尤为重要。但是，传统的语音图像关键帧提取方法存在关键帧冗余、丢失重要的情感信息等问题，无法有效地提取情感视频中的语音关键帧和图像关键帧。

发明内容

本发明提供一种用于情感识别的语音图像关键帧提取方法，解决的技术问题在于：如何克服现有语音图像关键帧提取方法存在的关键帧冗余、丢失重要的情感信息等问题，有效地提取驾驶员情感视频中的语音关键帧和图像关键帧。

为解决以上技术问题，本发明提供一种用于情感识别的语音图像关键帧提取方法，包括步骤：

S1：将输入的情感视频分为语音信息和图像信息，并对所述语音信息和所述图像信息进行分帧，得到帧数相同的源语音帧和源图像帧；

S2：对所述源语音帧和所述源图像帧进行关键帧提取，得到对应的初步语音关键帧和初步图像关键帧；

S3：对所述初步语音关键帧和所述初步图像关键帧进行对齐，得到最终语音关键帧和最终图像关键帧。

进一步地，所述步骤S2中，提取所述初步图像关键帧的步骤包括：

S21：对每个源图像帧进行表情提取，得到对应的面部表情图像帧；

S22：计算每个面部表情图像帧的信息熵值和所有面部图像表情帧的平均信息熵值；

S23：找出信息熵值大于该平均信息熵值的面部表情图像帧作为参考帧；

S24：利用感知哈希方法将其他相似于该参考帧的面部表情图像帧与参考帧一起共同作为所述初步图像关键帧。

进一步地，所述步骤S3对所述初步语音关键帧和所述初步图像关键帧进行对齐，具体包括步骤：

S31：判断每一源语音帧的属性是属于初步语音关键帧的关键帧还是不属于的非关键帧，以及判断每一面部图像表情帧的属性是属于初步图像关键帧的关键帧还是不属于的非关键帧；

S32：根据同一帧序号上的源语音帧和面部图像表情帧的属性组合，对该帧序号上的源语音帧和面部图像表情帧采取对应操作。

进一步地，所述步骤S32中，所述属性组合包括源语音帧和面部图像表情帧均为非关键帧的组合1以及源语音帧和面部图像表情帧均为关键帧的组合4；

针对该组合1，采取的操作是将该源语音帧和面部图像表情帧舍弃；

针对该组合4，采取的操作是将该源语音帧和面部图像表情帧保留。

进一步地，所述步骤S32中，所述属性组合包括源语音帧为非关键帧、面部图像表情帧为关键帧的组合2；针对该组合2，采取的操作包括步骤：

S321：计算初步图像关键帧的平均信息熵值；

S322：判断该面部图像表情帧的信息熵值是否大于该平均信息熵值，若是则仅保留该面部图像表情帧并补全该面部图像表情帧所对应的源语音帧，若否则舍弃该面部图像表情帧及其对应的源语音帧。

进一步地，步骤S322中，补全该面部图像表情帧所对应的源语音帧，具体包括：

1)找到信息熵值与该平均信息熵值最接近的初步图像关键帧；

2)将该最接近的初步图像关键帧所对应的源语音帧复制到需要补全的位置。

进一步地，步骤S32中，所述属性组合包括源语音帧为关键帧、面部图像表情帧为非关键帧的组合3；针对该组合3，采取的操作包括步骤：

S323：计算初步语音关键帧的平均能量值；

S324：判断源语音帧的能量值是否小于该平均能量值，若是则舍弃该源语音帧及其对应的面部图像表情帧，若否则仅保留该源语音帧并补全该源语音帧所对应的面部图像表情帧。

进一步地，步骤S324中，补全该源语音帧所对应的面部图像表情帧，具体包括：

1)找到能量值与该平均能量值最接近的初步语音关键帧；

2)将该最接近的初步语音关键帧所对应的面部图像表情帧复制到需要补全的位置。

进一步地，所述步骤S2中，采用语音活动检测算法对所述语音信息中语音段的源语音帧进行提取作为初步语音关键帧。

本发明提供的该用于情感识别的语音图像关键帧提取方法，针对传统的基于驾驶员情感识别的语音图像关键帧提取方法存在关键帧冗余、丢失重要的情感信息等问题，首先将情感视频分为语音信息和图像信息；此外，利用语音活动检测(Voice ActivationDetection，VAD)算法处理语音信息来提取初步语音关键帧；其次，采用面部表情识别算法(利用信息熵的思想表征人类情感产生是一个连续过程，并利用感知哈希算法)有效地提取初步图像关键帧；最后，该方法在语音图像关键帧对齐处理中利用语音和图像模态之间的互补性提取最终语音关键帧和最终图像关键帧。实验结果表明：本方法既可以减少语音关键帧和图像关键帧的冗余，也可以保存重要的情感信息，有效地提取了情感视频中的语音图像关键帧(最终语音关键帧和最终图像关键帧)。

附图说明

图1是本发明实施例提供的用于情感识别的语音图像关键帧提取方法的步骤图；

图2是本发明实施例提供的数据处理流程图；

图3是本发明实施例提供的实验结果图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

为了更有效地提取情感视频中的语音关键帧和图像关键帧，本发明实施例提供一种用于情感识别的语音图像关键帧提取方法，如图1的步骤图和图2的数据流程图所示，包括步骤：

S1：将输入的情感视频分为语音信息和图像信息，并对语音信息和图像信息进行分帧，得到帧数相同的源语音帧和源图像帧；

S2：对源语音帧和源图像帧进行关键帧提取，得到对应的初步语音关键帧和初步图像关键帧；

S3：对初步语音关键帧和初步图像关键帧进行对齐，得到最终语音关键帧和最终图像关键帧。

下面对步骤S1进行进一步解释。

如图2所示，输入的情感视频(本实施例以驾驶员情感视频为例)被分为语音信息和图像信息，并以每秒n帧的处理方式对语音信息和图像信息进行分帧，则分帧后的源语音帧和源图像帧分别表示为：{x(1),…,x(i),…,x(N)}和{y(1),…,y(i),…,y(N)}，其中N表示一个驾驶员情感视频中的总帧数，i表示第i帧。

下面对步骤S2进行进一步解释。

首先是初步语音关键帧的提取。

语音信息一般采用麦克风进行录入，在录入的过程中，肯定会存在一定的语音噪声，例如撞击声、敲击声、麦克风自带的噪声等。基于上述噪声对语音信息的影响，语音信息可以分为语音段和静音段，其中，语音信息的静音段不但不能提高驾驶员情感识别的性能，反而会导致语音信息的数据污染进而降低驾驶员情感识别的性能。针对该问题，本步骤利用语音VAD方法消除语音信息的噪声并提取语音信息的关键帧(即初步语音关键帧)，有效地降低了语音关键帧的冗余，提高了驾驶员情感识别的识别率。其中，语音VAD采用双门限检测法，包括短时能量和过零率。

计算语音信息x(m)m＝1,2,…,N短时能量的公式如下：

其中，w(n-m)表示窗函数，w表示连续频率，n表示离散时间即帧序号。

计算语音信息过零率的公式如下：

其中，sgn[x(m)]表示符号函数，其具体的表达式如下：

语音信息经过VAD处理之后，可以计算出每一帧语音信息是属于静音段还是语音段，并将语音信息的语音段定义为语音信息的初步语音关键帧。

其次是初步图像关键帧的提取。

人类情感的产生是一个连续的过程，即人类情感的产生一般会经历如下步骤：开始、最大、减少、结束。因此，基于人类情感产生的原理，提取源图像帧序列中情感信息最大时所对应的面部表情图像帧，既可以减少关键帧的冗余，也可以保存重要的情感信息。此外，面部表情图像帧可以被认为是二维离散信号，采用信息熵去衡量一个面部表情图像帧中包含的情感信息量。因此，本例基于图像信息熵和人类情感的产生是一个连续的过程的原理提取初步图像关键帧，具体包括步骤：

S24：利用感知哈希方法将其他相似于该参考帧的面部表情图像帧与参考帧一起共同作为初步图像关键帧。

关于步骤S21，从视频中分离的源图像帧既包含人的面部表情图像，也包含除面部表情图像之外的背景图像。为了有效地提取面部表情图像的情感信息，这些背景图像应该被丢弃。因此，本例采用HyperFace方法提取图像信息中的面部表情区域，得到面部表情图像帧。

关于步骤S22，对于一个大小为M×W、灰度级范围为L(1<L<256)的灰度面部表情图像帧I，定义f(x,y)表示一个面部表情图像帧在坐标(x,y)上的灰度值，则f(x,y)的取值范围是[0,L-1]。此外，定义f_i(x,y)表示面部表情图像帧中灰度级i出现的次数。基于f_i(x,y)的定义，灰度级i出现的概率被定义为：

基于信息熵的定义，第j帧面部表情图像帧的信息熵被定义为：

公式(0-5)为一面部表情图像帧的信息熵，参照公式(0-5)，N帧面部表情图像帧的信息熵被定义为：

基于公式(0-6)，N帧面部表情图像帧的平均信息熵被定义为：

关于步骤S23，为了提取情感信息最大时对应的面部表情图像帧，定义一个参考帧，参考帧的信息熵值应该满足下式(即参考帧的信息熵值H_j(I)_ck大于N帧面部表情图像帧的平均信息熵值H_ave)：

H_j(I)_ck＞H_ave j＝0,…,N-1 (0-8)

关于步骤S24，由参考帧的定义可知，参考帧包含的情感信息高于其它帧。因此，参考帧可作为初步图像关键帧的一部分。然而，参考帧的数量通常不能满足图像特征提取模型对图像关键帧的数量要求。因此，有必要选择其他帧也作为初步图像关键帧的一部分。本例通过计算参考帧以外的其他面部表情图像帧与参考帧之间的相似性来确定其他帧是否可以作为初步图像关键帧。因为这种计算方法模拟了情感产生是一个连续的过程，不但有效地减少了表情图像关键帧的冗余，而且也有效地保存了表情图像的时序性。

在计算面部表情图像的相似性时，首先利用感知哈希方法得到每一面部表情图像帧的哈希指纹，然后利用汉明距离计算其他面部表情图像帧中每一帧图像与参考帧中每一帧图像之间的距离。一般情况下，如果汉明距离小于10，则认为两个面部表情图像帧相似；反之，则认为两个面部表情图像帧则不相似。

基于感知哈希方法和汉明距离的计算结果，将相似于参考帧的面部表情图像帧与参考帧一起作为初步图像关键帧。

下面对步骤S3进行进一步解释。

步骤S3对初步语音关键帧和初步图像关键帧进行对齐，具体包括步骤：

关于步骤S31，每一段情感视频的语音信息和图像信息被分为了N帧源语音帧和源图像帧，且每一源语音帧已经计算出属于语音关键帧还是非语音关键帧，每一源图像帧也已经计算出(通过计算面部图像表情帧)属于图像关键帧还是非图像关键帧，然后需要根据这些关键信息对处理得到的初步语音关键帧和初步图像关键帧进行对齐处理。

关于步骤S32，首先需要判断同一帧序号上的源语音帧和面部图像表情帧属于哪种属性组合。属性组合包括源语音帧和面部图像表情帧均为非关键帧的组合1，源语音帧为非关键帧、面部图像表情帧为关键帧的组合2，源语音帧为关键帧、面部图像表情帧为非关键帧的组合3，源语音帧和面部图像表情帧均为关键帧的组合4。

对于以上四种组合情况，传统关键帧提取算法只保留组合4中的语音和图像信息，其他三种情况的语音和图像信息将会被直接丢弃。但是这种算法会丢失重要的情感信息，降低了驾驶员情感识别的性能。原因如下：

对于组合1：源语音帧是非关键帧，面部图像表情帧是非关键帧，在多模态情感识别，此帧包含的语音和图像均是无用的信息，应该被丢弃，否则会严重影响多模态情感识别的性能，因此，这些语音和图像信息应该被丢弃；

对于组合2：源语音帧是非关键帧，面部图像表情帧是关键帧，例如，当人们感到特别吃惊的时候，人们可能说不出来话(对应的语音是静音段，即非关键帧)，但是人们的面部表情可以提供更多情感信息(对应的图像是关键帧)。在这种情况下，此帧的图像信息对多模态情感识别尤其重要，因为这部分的面部表情可以为情感识别提供更多情感信息，因此，这部分的图像信息不应该被丢弃；

同理，组合3与组合2的情况类似，这部分的语音信息也不应该被丢弃。

因此，针对组合2和3中的语音图像信息，本例利用语音模态和图像模态之间的互补性有效地提取了最终的语音和图像关键帧，保存了重要的情感信息。

故本例对四种组合情况采取的操作是：

针对该组合1，采取的操作是将该源语音帧和面部图像表情帧舍弃。

针对该组合2，采取的操作包括步骤：

S321：计算初步图像关键帧的平均信息熵值；可通过如下公式(0-9)计算初步图像关键帧

的平均信息熵值

其中，

表示初步图像关键帧

的个数。

S322：判断该面部图像表情帧的信息熵值是否大于该平均信息熵值，若是则仅保留该面部图像表情帧并补全该面部图像表情帧所对应的源语音帧，若否则舍弃该面部图像表情帧及其对应的源语音帧。补全该面部图像表情帧所对应的源语音帧，具体包括：

针对该组合3，采取的操作包括步骤：

S323：计算初步语音关键帧的平均能量值；通过下式(0-10)计算初步语音关键帧

的平均能量值

其中，

表示初步语音关键帧

的个数，x(j)表示初步语音关键帧

中各个语音帧的幅值。

S324：判断源语音帧的能量值是否小于该平均能量值，若是则舍弃该源语音帧及其对应的面部图像表情帧，若否则仅保留该源语音帧并补全该源语音帧所对应的面部图像表情帧。补全该源语音帧所对应的面部图像表情帧，具体包括：

1)找到能量值与该平均能量值最接近的初步语音关键帧；

因此，本例提出的语音图像关键帧提取方法，通过利用语音VAD消除语音信息的噪声段来减少语音关键帧的冗余，提取初步语音关键帧；利用信息熵表征人类情感的产生是一个连续的过程，并在情感信息较大值时提取图像关键帧，有效地减少图像关键帧的冗余，提取初步图像关键帧；最后利用对齐处理对初步语音关键帧和初步图像关键帧进行对齐，保存了重要的语音和表情图像情感信息，得到最终语音关键帧和最终图像关键帧。

为了方便后续利用二维卷积神经网络(Two-Dimensional Convolutional NeuralNetwork，2D-CNN)提取最终语音关键帧的高阶情感特征，本例还提取了最终语音关键帧的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征，包括步骤：

F1：提取最终语音关键帧的MFCC特征、一阶MFCC特征和二阶MFCC特征；

F2：将该MFCC特征、一阶MFCC特征和二阶MFCC特征模仿图像的RGB三通道，输入到2D-CNN网络中进行高阶语音特征提取。

本例将经语音图像关键帧提取方法处理得到的最终语音关键帧，生成梅尔频率倒谱系数及其一阶、二阶信息共同输入2D-CNN网络进行特征提取，提取的高阶语音特征更有效。由于MFCC、一阶和二阶MFCC特征均是三维特征，导致后续利用2D-CNN提取高阶语音特征不便，故需要将梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图模仿图像的RGB三通道。

本例提出的语音图像关键帧提取方法的实验结果如图3所示，其中子图a表示语音信息、子图b表示语音信息的梅尔倒谱图，子图c表示语音信息的一阶梅尔倒谱图，子图d表示语音信息的二阶梅尔倒谱图，子图e表示最终语音关键帧，子图f表示最终语音关键帧的梅尔倒谱，子图g表示最终语音关键帧的一阶梅尔倒谱图，子图h表示最终语音关键帧的二阶梅尔倒谱图，子图i表示面部表情图像帧及其信息熵值，子图j表示最终图像关键帧及其信息熵值。

对比子图e、f、g、h和子图a、b、c、d可知，本例提出的语音图像关键帧方法通过减少语音信息的噪声有效地减少了语音关键帧的冗余，并通过语音图像关键帧对齐处理，有效地保存了重要的语音情感信息；对比子图i和子图j可知，本例提出的语音图像关键帧方法通过提取面部表情图像帧中信息熵值较大的帧作为最终图像关键帧，有效地减少了图像关键帧的冗余，并通过语音图像关键帧对齐处理，有效地保存了重要的表情图像情感信息。

综上，本发明实施例提供的该用于情感识别的语音图像关键帧提取方法，利用语音活动检测算法处理语音信息来提取初步语音关键帧；其次，采用面部表情识别算法(利用信息熵的思想表征人类情感产生是一个连续过程，并利用感知哈希算法)有效地提取初步图像关键帧；最后，该方法在语音图像关键帧对齐处理中利用语音和图像模态之间的互补性提取最终语音关键帧和最终图像关键帧。实验结果表明：本方法既可以减少语音关键帧和图像关键帧的冗余，也可以保存重要的情感信息，有效地提取最终语音关键帧和最终图像关键帧。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.用于情感识别的语音图像关键帧提取方法，其特征在于，包括步骤：

S3：对所述初步语音关键帧和所述初步图像关键帧进行对齐，得到最终语音关键帧和最终图像关键帧；所述步骤S3对所述初步语音关键帧和所述初步图像关键帧进行对齐，具体包括步骤：

S32：根据同一帧序号上的源语音帧和面部图像表情帧的属性组合，对该帧序号上的源语音帧和面部图像表情帧采取对应操作；

所述步骤S32中，所述属性组合包括源语音帧和面部图像表情帧均为非关键帧的组合1以及源语音帧和面部图像表情帧均为关键帧的组合4；

针对该组合4，采取的操作是将该源语音帧和面部图像表情帧保留；

所述步骤S32中，所述属性组合包括源语音帧为非关键帧、面部图像表情帧为关键帧的组合2；针对该组合2，采取的操作包括步骤：

S321：计算初步图像关键帧的平均信息熵值；

S322：判断该面部图像表情帧的信息熵值是否大于该平均信息熵值，若是则仅保留该面部图像表情帧并补全该面部图像表情帧所对应的源语音帧，若否则舍弃该面部图像表情帧及其对应的源语音帧；

步骤S32中，所述属性组合包括源语音帧为关键帧、面部图像表情帧为非关键帧的组合3；针对该组合3，采取的操作包括步骤：

S323：计算初步语音关键帧的平均能量值；

2.如权利要求1所述的用于情感识别的语音图像关键帧提取方法，其特征在于：所述步骤S2中，提取所述初步图像关键帧的步骤包括：

3.如权利要求1所述的用于情感识别的语音图像关键帧提取方法，其特征在于，步骤S322中，补全该面部图像表情帧所对应的源语音帧，具体包括：

4.如权利要求1所述的用于情感识别的语音图像关键帧提取方法，其特征在于，步骤S324中，补全该源语音帧所对应的面部图像表情帧，具体包括：

1)找到能量值与该平均能量值最接近的初步语音关键帧；

5.如权利要求1～4任一项所述的用于情感识别的语音图像关键帧提取方法，其特征在于：所述步骤S2中，采用语音活动检测算法对所述语音信息中语音段的源语音帧进行提取作为初步语音关键帧。