CN110705490B

CN110705490B - 视觉情感识别方法

Info

Publication number: CN110705490B
Application number: CN201910955033.4A
Authority: CN
Inventors: 陈恩红; 刘淇; 阮书岚; 张琨; 王怡君; 吕广奕
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2022-09-02
Anticipated expiration: 2039-10-09
Also published as: CN110705490A

Abstract

本发明公开了一种视觉情感识别方法，包括：从图像数据中提取情境感知的图像特征表示，包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息；利用注意力机制，采用GRU单元，对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模；结合联合建模的结果与感兴趣人物所在区域的局部特征信息，获得初步预测的情感状态标签，再构建输出过滤器，获取初步预测的情感状态标签在所有类别上的概率分布，最终计算出每一个时间步的预测情感状态标签类别。该方法结合全局和局部信息，从而得到更加全面的特征表示；另外，本发明方法对标签和图像特征进行联合训练，从而达到解决标签之间关联性和共现性的问题。

Description

视觉情感识别方法

技术领域

本发明涉及深度学习，视觉情感识别以及多标签分类领域，尤其涉及一种视觉情感识别方法。

背景技术

视觉情感识别(Visual Emotion Recognition)是计算机视觉领域一个特别重要的组成部分和研究领域。它的任务是对给定图片中的人物作情感状态分类，这在很多领域有着广泛的应用场景，比如智能物联网(IloT)，在线教育，视频情感分析，政治选举预测等。

目前，关于视觉情感分类的方法主要有以下方法：

1)基于人脸表情识别的方法。

基于人脸表情识别的方法主要通过传统的特征工程方法，或者结合深度学习采用不同的神经网络结构来提取人的面部表情特征，然后采用一些分类方法对其进行分类，一般将其分为6大类(高兴、惊讶、悲伤、愤怒、厌恶、恐惧)，这最初是由美国Ekman教授定义的。一些进一步的研究方法也将人体姿态特征等作为补充信息进行考虑提升情感分类的准确度。

2)基于整幅图片信息识别的方法。

不同于基于人脸表情识别的方法，基于整幅图片信息识别的方法将整幅图片作为输入，训练一个情感状态分类器。一般粗略分为2类(积极，消极)或3类(积极，消极，中性)。

在实际场景中，单个标签往往不足以充分地形容图片中人物的情感状态，比如一个人可以既惊讶又高兴。上述视觉情感分类方法都是集中于挖掘图像中的全局或局部信息，来进行单标签多分类或多标签多分类。而在更实际的多标签分类中，忽略了标签之间的关联性，比如愤怒和厌恶之间的相似性要大于高兴和悲伤。因此缺乏视觉情感分类中的情感关联性的考虑。

发明内容

本发明的目的是提供一种视觉情感识别方法，可以结合全局和局部信息，从而得到更加全面的特征表示。另外，本发明方法对标签和图像特征进行联合建模，从而达到解决标签之间关联性和共现性的问题。

本发明的目的是通过以下技术方案实现的：

一种视觉情感识别方法，包括：

从图像数据中提取情境感知的图像特征表示，包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息；

利用注意力机制，采用GRU单元，对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模；

结合联合建模的结果与感兴趣人物所在区域的局部特征信息，获得初步预测的情感状态标签，再构建输出过滤器，获取初步预测的情感状态标签在所有类别上的概率分布，最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别，综合所有时间步的预测情感状态标签类别，得到感兴趣的人物所包含的多个情感状态。

由上述本发明提供的技术方案可以看出，针对图片中的人物，采用情境感知的图像特征提取方法，同时获得了整幅图片的全局信息与关于人物部分的局部信息。另外，通过将多标签分类问题转化成序列生成问题，在每个时间步预测可能性最大的标签，计算过程中通过对标签空间和图片特征空间的联合建模，能够解决标签之间的关联性，引入注意力机制让不同时间步的预测更为准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种视觉情感识别方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种视觉情感识别方法，如图1所示，其主要包括如下步骤：

步骤11、从图像数据中提取情境感知的图像特征表示，包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息。

本发明实施例中，对于每一图像数据包括整幅图像区域R_c、感兴趣的人物所在的图像区域R_b、以及感兴趣人物的情感状态标签y＝{y₁，y₂，...，y_q}，q表示标签空间的大小，每一个标签由y_k＝(0，0，...，1，0，...，0)表示，标签y_k为向量，其长度为q，第k位为1，其它位都为0，表示图像数据含有第k个标签，k＝1，2，...，q。

通常来说，一个图像中感兴趣人物的数量为1。

本发明实施例中，使用基于卷积神经网络的图像特征提取网络从图像数据中提取情境感知的图像特征表示：

I_b＝VGG₁₉(R_b)

I_c＝VGG₁₉(R_c)

式中，VGG₁₉表示基于卷积神经网络的图像特征提取网络，R_b表示感兴趣的人物所在的图像区域，I_b表示感兴趣人物所在区域的局部特征信息，R_c表示整幅图像区域，I_c表示全局特征信息。

特别地，基于卷积神经网络的图像特征提取网络的最后一个池化层提取出的特征大小为d×m×m。d表示每个子区域的表示维度大小，m×m表示图像的空间子区域划分数。也即感兴趣人物所在区域的局部特征信息I_b与全局特征信息I_c矩阵形式为：

对于I_c，第i个子区域的特征信息表示为I_ci，对于I_b，第i个子区域的特征信息表示为I_bi，i＝1，2，...，m²。

步骤12、利用注意力机制，采用GRU单元，对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模。

本步骤优选实施方式如下：

利用注意力机制，采用GRU单元，计算图像全局特征信息的表示向量：

M_t＝tanh(W_cI_c+W_hh_t-1)

式中，M_t为一个中间量；α_t为注意力矩阵，它的第i行表示为α_ti，i＝1，2，...，m²；W_c，W_h，W_a均为需要训练的模型参数，h_t-1为GRU单元t-1时间步的隐状态；I_ci表示全局特征信息I_c的第i个子区域的特征信息，m²表示子区域总数。

将GRU单元t时间步的隐状态h_t视为查询(query)，I_c视为关键字(key)，从而在整幅图像的不同区域上计算注意力矩阵α_t，c_t表示根据注意力矩阵计算的图像每个区域特征的加权融合结果，也即图像全局特征信息的表示向量。

对包含的感兴趣人物的情感状态标签做词嵌入(word embedding)用于GRU单元的输入：

emb(y_k)＝E_k·y_k

式中，矩阵E是预训练的词向量(可以从GloVe中获取)，E_k是矩阵E中第k个单词的词向量，emb(y_k)表示标签y_k的词向量表示。

根据图像全局特征信息的表示向量c_t与标签的词向量表示，采用GRU单元联合建模：

h_t＝GRU(h_t-1，[emb(y_t-1)；c_t])

式中，[emb(y_t-1)；ct]表示向量emb(y_t-1)与c_t的拼接，emb(y_t-1)是指标签y_t-1的词向量表示，c_t是图像全局特征信息的表示向量。

本发明实施例中，前文定义的标签y_k是指标签空间中第k个类别标签，而此处的t表示第t个时间步预测出的标签表示，一个时间步只对应一个标签，通过本步骤已经将多标签分类问题转化为序列生成的问题了，即每个时间步产生一个标签。此外，采用GRU进行建模，充分利用了不同标签之间的关系和共现性。

步骤13、结合联合建模的结果与感兴趣人物所在区域的局部特征信息，获得初步预测的情感状态标签，再构建输出过滤器，获取初步预测的情感状态标签在所有类别上的概率分布，最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别，综合所有时间步的预测情感状态标签类别，得到感兴趣的人物所包含的多个情感状态。

在该步骤中，考虑到以下三个原因，所以没有对隐状态向量h_t直接做简单的MLP操作：1)因为需要解决的任务是对图片中的人物进行情感识别分类，所以需要更加关注人物部分的特征，但在GRU层，仅仅利用到了整幅图片的全局信息；2)在序列预测的过程中，每一个时间步的预测都和前一个时间步的预测结果有关系，即前一个时间步的预测结果是当前时间步的部分输入。但在预测过程中，前一个时间步的预测结果可能会有错误和偏差，需要在后续步骤中进行解决；3)在语言模型(如神经机器翻译，NMT)或者一些字幕(caption)生成相关的工作，可以在不同时间步预测相同的单词。但是在多标签分类中，不同时间步预测的标签不能相同，因为这会造成计算资源浪费并且影响正确的标签预测，因此需要将历史时间步的预测结果从预测标签空间中过滤掉。

本步骤优选实施方式如下：

对感兴趣人物所在区域的局部特征信息I_b做平均池化操作：

b＝avg(I_b)

根据联合建模的结果h_t与平均池化操作结果b，计算初步预测的情感状态标签o_t：

o_t＝W_of(W_hh_t+W_bb)

式中，avg代表平均池化操作，f代表非线性激活函数，W_o，W_h，W_b代表相应的模型参数，

代表感兴趣人物所在区域的局部特征信息后得到的结果。

为了从标签空间中过滤历史时间步已经预测的标签，构建输出过滤器(OutputFilter，OF)，定义如下：

输入：

L_t-1＝{l₁，l₂，...，l_t-1}：前t-1个时间步预测的标签序列

y＝{y₁，y₂，...，y_q}：标签空间

o_t＝{o_t1，o_t2，...，o_tq}：t时间步GRU层的输出

返回：o_t。

输出过滤器OF的主要思想是，将历史时间步预测的标签类别对应的位置处概率置为负无穷大，确保在当前时间步这些位置或者类别不会被预测出来。

p_t＝softmax(OF[o_t])

l_t＝onehot(argmax(p_t))

式中，p_t代表情感状态标签在所有类别上的概率分布，softmax(.)表示softmax函数，l_t代表在t时间步预测的情感状态标签类别，即相应的情感状态；argmax表示挑选向量p_t概率最大的位置，onehot表示将相应位置变换成one-hot类型的向量。

假设共进行了t个时间步预测，综合每一个时间步的预测结果，从而则得到t个时间步预测的标签序列L_t＝{l₁，l₂，...，l_t}，其表示感兴趣的人物所包含的多个情感状态。

本领域技术人员可以理解，p_t是一个q维的向量，对应有q个位置，也就是q个标签类别，因而位置和标签类别是一一对应的。

本发明实施例上述方案，针对图片中的人物，采用情境感知的图像特征提取方法，同时获得了整幅图片的全局信息与关于人物部分的局部信息。另外，通过将多标签分类问题转化成序列生成问题，在每个时间步预测可能性最大的标签，计算过程中通过对标签空间和图片特征空间的联合建模，能够解决标签之间的关联性，引入注意力机制让不同时间步的预测更为准确。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种视觉情感识别方法，其特征在于，包括：

结合联合建模的结果与感兴趣人物所在区域的局部特征信息，获得初步预测的情感状态标签，再构建输出过滤器，获取初步预测的情感状态标签在所有类别上的概率分布，最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别，综合所有时间步的预测情感状态标签类别，得到感兴趣的人物所包含的多个情感状态；

其中，利用注意力机制，采用GRU单元，对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模包括：

M_t＝tanh(W_cI_c+W_hh_t-1)

式中，M_t为一个中间量；α_t为注意力矩阵，它的第i行表示为α_ti，i＝1，2，...，m²；W_c，W_h，W_a均为需要训练的模型参数，h_t-1为GRU单元t-1时间步的隐状态；I_ci表示全局特征信息I_c的第i个子区域的特征信息，m²表示子区域总数；

将GRU单元t时间步的隐状态h_t视为查询，I_c视为关键字，从而在整幅图像的不同区域上计算注意力矩阵α_t，c_t表示根据注意力矩阵计算的图像每个区域特征的加权融合结果，也即图像全局特征信息的表示向量；

对包含的感兴趣人物的情感状态标签做词嵌入用于GRU单元的输入：

emb(y_k)＝E_k·y_k

式中，矩阵E是预训练的词向量，E_k是矩阵E中第k个单词的词向量，emb(y_k)表示标签y_k的词向量表示；

h_t＝GRU(h_t-1，[emb(y_t-1)；c_t])

式中，[emb(y_t-1)；c_t]表示向量emb(y_t-1)与c_t的拼接，emb(y_t-1)是指标签y_t-1的词向量表示，c_t是图像全局特征信息的表示向量；

利用注意力机制，结合联合建模的结果与感兴趣人物所在区域的局部特征信息，获得初步预测的情感状态标签包括：

对感兴趣人物所在区域的局部特征信息I_b做平均池化操作：

b＝avg(I_b)

o_t＝W_of(W_hh_t+W_bb)

式中，avg代表平均池化操作，f代表非线性激活函数，W_o，W_h，W_b代表相应的模型参数。

2.根据权利要求1所述的一种视觉情感识别方法，其特征在于，所述图像数据包括整幅图像区域R_c、感兴趣的人物所在的图像区域R_b、以及感兴趣人物的情感状态标签

q表示标签空间的大小，每一个标签由y_k＝(0，0，...，1，0，...，0)表示，标签y_k为向量，其长度为q，第k位为1，其它位都为0，表示图像数据含有第k个标签，k＝1，2，...，q。

3.根据权利要求1或2所述的一种视觉情感识别方法，其特征在于，使用基于卷积神经网络的图像特征提取网络从图像数据中提取情境感知的图像特征表示：

I_b＝VGG₁₉(R_b)

I_c＝VGG₁₉(R_c)

4.根据权利要求3所述的一种视觉情感识别方法，其特征在于，

基于卷积神经网络的图像特征提取网络的最后一个池化层提取出的特征大小为d×m×m，d表示每个子区域的表示维度大小，m×m表示图像的子区域划分数；感兴趣人物所在区域的局部特征信息I_b与全局特征信息I_c矩阵形式为：

5.根据权利要求1所述的一种视觉情感识别方法，其特征在于，所述再构建输出过滤器，获取初步预测的情感状态标签在所有类别上的概率分布，最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别包括：

输出过滤器OF，将历史时间步预测的标签类别对应的位置处概率置为负无穷大，从而过滤历史时间步已经预测的标签，获得初步预测的情感状态标签在所有类别上的概率分布p_t，从而计算出每一个时间步的预测情感状态标签类别l_t：

p_t＝softmax(OF[o_t])

l_t＝onehot(argmax(p_t))

式中，softmax(.)表示softmax函数，l_t代表在t时间步预测的情感状态标签类别，即相应的情感状态；argmax表示挑选向量p_t概率最大的位置，p_t是一个q维的向量，对应有q个位置，即q个标签类别，所述的位置和标签类别是一一对应的；onehot表示将相应位置变换成one-hot类型的向量；