CN113011504B

CN113011504B - 基于视角权重和特征融合的虚拟现实场景情感识别方法

Info

Publication number: CN113011504B
Application number: CN202110306180.6A
Authority: CN
Inventors: 晋建秀; 黎璎萱; 舒琳; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-08-22
Anticipated expiration: 2041-03-23
Also published as: CN113011504A

Abstract

本发明公开了一种基于视角权重和特征融合的虚拟现实场景情感识别方法，包括：对待识别虚拟现实场景进行预处理；使用已训练好的卷积神经网络提取待识别虚拟现实场景的深度情感特征，对深度情感特征赋予视角权重后，得到加权深度情感特征；提取待识别虚拟现实场景中关联情感的手工情感特征，手工情感特征包含颜色特征、纹理特征和形状特征；将加权深度情感特征和手工情感特征依次进行归一化、特征融合；将融合后的特征输入分类器进行情感分类，分类器输出待识别虚拟现实场景的情感识别结果。本发明方法针对虚拟现实场景视觉显示特点，加入各视角区域对情感的贡献度，同时融合关联情感的多个手工特征，提升虚拟现实场景情感识别的准确率。

Description

基于视角权重和特征融合的虚拟现实场景情感识别方法

技术领域

本发明涉及虚拟现实技术领域和情感识别技术领域，具体涉及一种基于视角权重和特征融合的虚拟现实场景情感识别方法。

背景技术

随着虚拟现实技术的发展，虚拟现实内容在教育、医疗、多媒体数字娱乐等领域的应用受到了广泛关注，并逐步融入人们的日常生活当中。现在人们可以使用外接式头显、一体机甚至是手机盒子快速的连接虚拟现实技术，身临其境地感受虚拟现实内容。基于此，虚拟现实场景内容在各视频网站中逐渐丰富起来。虚拟现实场景中包含了视觉、听觉等多种交互信息，并且其中包含了大量的情感。通过分析虚拟现实场景内容与情感的关联，能对用户的使用体验进一步优化，是重要的研究方向之一。

对比传统的多媒体载体，虚拟现实场景具有突出的沉浸感、真实度和交互性这几大特点。虚拟现实技术为用户提供了身临其境的媒体体验，特别体现在视觉部分与传统媒介有很大的差异。虚拟现实渲染的视觉内容需要经过反畸变、合成、位置预测等过程，才能贴上屏幕。360度的全景内容现实在头戴式显示器下，用户通过移动头部来观看内容，过程更加自由，更具有交互性。但这种新的内容格式给多媒体处理和用户体验质量评估带来了新的挑战。基于虚拟现实场景视觉内容的特点建立其与情感间的关联，也是研究亟待突破的地方。

目前在情感识别领域中，存在两种识别方式：一种是面向受试者监测采集生理信号，例如脑电、心律和肌电等。另一种是面向诱发素材，研究主要集中于图像、音频、视频等格式。在以往的研究中，基本没有适用于虚拟现实场景下的情感识别模型框架。因此，如何根据虚拟现实场景的特点建立有效的情感识别模型，是亟需行业内探索和思考的问题。

发明内容

为解决现有虚拟现实场景缺少情感识别模型框架的问题，从虚拟现实场景拟现实场景视觉内容出发，本发明提出一种基于视角权重和特征融合的虚拟现实场景情感识别方法。

本发明的目的通过以下的技术方案来实现：

基于视角权重和特征融合的虚拟现实场景情感识别方法，包括：

S1、对待识别虚拟现实场景进行预处理；

S2、使用已训练好的卷积神经网络提取待识别虚拟现实场景的深度情感特征，对深度情感特征赋予视角权重后，得到加权深度情感特征；

S3、提取待识别虚拟现实场景中关联情感的手工情感特征，手工情感特征包含颜色特征、纹理特征和形状特征；

S4、将加权深度情感特征和手工情感特征依次进行归一化、特征融合；

S5、将融合后的特征输入分类器进行情感分类，分类器输出待识别虚拟现实场景的情感识别结果。

优选地，卷积神经网络的训练包括：

S21、获取虚拟现实场景，并通过实验建立包含连续情感标签和视角权重标签的虚拟现实场景素材库；

S22、将素材库里的虚拟现实场景按照情感划分规则进行分类、降维采样，获得连续全景图像视频帧，建立虚拟现实场景图像数据集，并对数据集进行预处理；

S23、运用增加通道注意力机制的卷积神经网络的提取数据集的深度情感特征，对深度情感特征赋予视角权重后，得到加权深度情感特征；

S24、提取数据集中关联情感的手工情感特征，手工情感特征包含颜色特征、纹理特征和形状特征；

S25、将加权深度情感特征和手工情感特征依次进行归一化、特征融合；

S26、将融合后的特征输入分类器进行情感分类，分类器输出虚拟现实场景情感识别结果。

优选地，步骤S21中建立包含连续情感标签和视角权重标签的虚拟现实场景素材库的步骤包括：

S211、使用引擎搭建或在网络搜集包含不同情感内容的虚拟现实场景，判断虚拟现实场景是否满足所需的时长要求；将不满足的虚拟现实场景分至不合格类别，筛出素材库；则对满足的虚拟现实场景执行步骤S212；

S212、N名受试者面向虚拟现实场景进行SAM情感评估实验，获取虚拟现实场景在愉悦度、唤醒度、支配度三个维度上的情感评分；分值范围为1至9分，计算每名受试者三个维度的平均值和方差值，将三个维度的平均值作为场景的连续情感标签；通过三个维度的方差值判断场景是否标准化，若方差大于等于3，将对应的虚拟现实场景筛出素材库；若方差小于3，则对对应的虚拟现实场景执行步骤S213；

S213、M名受试者面向对虚拟现实场景进行视角权重分析实验，获取场景内各视角对虚拟现实场景情感的贡献权重值，得到场景的视角权重标签。

优选地，其特征在于，N＞60；M＞25。

优选地，步骤S213中，视角权重分析实验包括如下步骤：

S2131、参考等角度立方体贴图格式将虚拟现实场景素材展开，在展开图上对各个视角分别进行定义；

S2132、实验过程中采集受试者观看场景时关于视线的视频；

S2133、依据定义的视角区域，以1帧/秒的采样频率下采样采集的视频内容，通过统计分析视线在各视角区域的频次，计算出场景的视角权重。

优选地，步骤S22的将素材库里的虚拟现实场景按照情感划分规则进行分类包括：通过和预设愉悦度阈值、预设唤醒度阈值进行比较，将虚拟现实场景在二维空间上进行划分分类；并将场景的情感标签从连续情感标签转换为离散情感标签。

优选地，步骤S22中的预处理包括尺寸归一化和颜色空间转换。

优选地，步骤S23中，卷积神经网络包含一个通道注意力模块和五段串行的卷积，通道注意力模块加在卷积后；其中，每段卷积包含K个卷积层和一个池化层，K≥2；步骤S22和S23之间还包括：将数据集划分为训练集和验证集，训练集，用于训练卷积神经网络，验证集，用于评价训练后的卷积神经网络，训练集和验证集的比例为8:2。

优选地，步骤S23包括基于视角权重标签建立视角权重矩阵，对视角权重矩阵进行下采样得到和深度情感特征相同的长宽尺寸，并与提取的深度情感特征进行点乘，得到加权深度情感特征。

优选地，分类器是包含多个全连接层的情感识别分类网络，用于对全景图像的情感分类进行识别，并输出该全景图像包含的情感类型。

本发明与现有技术相比，具有如下优点和有益效果：

本发明为实现虚拟现实场景情感识别提供了一种新的途径，通过对视觉特性的探索，综合分析影响场景情感的视觉特征，并基于此进行虚拟现实场景的情感识别方法设计。本发明依据虚拟现实场景的视觉特性对各视频帧内容进行视角划分，并基于此对各区域的情感特征进行合理分配加权。同时综合考虑手工情感特征对虚拟现实场景情感识别的重要性，在虚拟现实场景视觉层面充分地展开情感识别。本发明通过构建训练网络模型，自动识别虚拟现实情感场景的情感类型，对虚拟现实场景的用户使用体验在情感层面优化奠定基础。本发明节省了心理学评估实验所需的大量受试者资源与较长的实验时间成本，并摆脱了严格的实验环境限制。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于视角权重和特征融合的虚拟现实场景情感识别方法的示意性流程图；

图2的(a)-(b)是本发明的视角划分示意图；

图3是本发明的视角权重分析-视线内容采集实验的示意性流程图；

图4是本发明实例中具体使用的网络模型结构。

具体实施方式

为了便于本发明的实施，下面结合附图和实施例对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例

本发明的基于视角权重和特征融合的虚拟现实场景情感识别方法，如图1所示，包括以下步骤：

S1、对待识别虚拟现实场景进行预处理；

在本实施例，如图1所示，卷积神经网络的训练包括：

S21、获取各类虚拟现实场景，并通过实验建立包含连续情感标签和视角权重标签的虚拟现实场景素材库。

虚拟现实场景素材库的建立具体包括以下步骤：

S211、使用引擎搭建或在网络搜集包含不同情感内容的虚拟现实场景，以60秒的时长作为分界线筛选场景素材，时长短于60秒的虚拟现实场景分至不合格类别，筛出素材库；时长长于或等于60秒的虚拟现实场景则进入下一步骤；

S212、对满足时长需求的虚拟现实场景，通过SAM情感评估实验，获取场景在愉悦度、唤醒度、支配度三个维度上1至9分的情感评分。实验至少获得60名受试者评分，计算每名受试者三个维度的平均值和方差值，将三个维度的平均值作为场景的连续情感标签。通过三个维度的方差值判断场景是否标准化，若方差大于等于3，筛出素材库；若方差小于3，进入下一步骤；

S213、对标准化的虚拟现实场景，通过视角权重分析实验，获取场景内各视角对虚拟现实场景情感的贡献权重值。实验至少采集25名受试者数据，统计分析数据，得到场景的视角权重标签。

视角权重分析实验包括视角划分、视线内容采集和数据分析，具体包括如下步骤：

S2131、虚拟现实场景素材参考等角度立方体贴图格式展开，在展开图上对前视、右视、后视、左视、仰视和俯视六个视角分别进行定义。如图2的(a)和(b)所示，区域1、6分别表示仰视区域、俯视区域，区域2、3、4、5分别表示水平面上后视区域，右视区域、前视区域和左视区域。

S2132、如图3所示，视线内容采集实验过程中采集记录受试者观看各场景时视线内容变化的视频。在实验全程同步采集受试人员头部运动姿态和视线内容变化。在受试者正前方摄像记录追踪受试人员头部运动姿态；同步录制当前头显面向画面时，在显示屏的显示追踪受试人员视线内容变化。

S2133、依据所述定义的各视角区域，统计分析采集的视频内容，获得场景全程的视线估计频次，计算出各场景对应的视角权重分布标签。

引入视觉权重因子α_i，其中(i＝1,2,......,6)，代表视角i所占权重，则各场景对应的视角权重分布标签为(α₁,α₂,α₃,α₄,α₅,α₆)。

所有的虚拟现实场景素材，按80％的比例划分出训练集用于训练设计的网络模型，剩余20％的比例划分出验证集，用于评估训练后的网络模型(卷积神经网络)。

S22、将素材库场景按照情感划分规则进行分类，并降维采样获取连续全景图像视频帧，建立虚拟现实场景图像数据集，并进行预处理。

所述情感分类的情感划分规则为通过和预设愉悦度阈值、预设唤醒度阈值进行比较，在二维空间上进行划分，并将场景的情感标签从连续情感标签映射转换为离散情感标签。本实施例中，首先设置愉悦度阈值为3.5和5.5，当愉悦度小于等于3.5的虚拟现实场景标记为负向情绪，愉悦度大于5.5标记为正向情感，其他则标记为中立情感。接着分别设置三个类别覆盖的唤醒度范围，剔除部分未在区域内的场景素材。

视频帧提取的为通过1帧/秒的采样频率对虚拟现实场景素材进行下采样处理，获取时间连续的全景图像视频帧。预处理过程归一化全景图像视频帧尺寸为2880*1440，并将RBG颜色空间转换为HSV颜色空间便于后续颜色手工特征提取操作。

S23、运用增加通道注意力机制的卷积神经网络提取数据集的深度情感特征，赋予视角权重后，得到加权深度情感特征；

本实例中，完整的虚拟现实情感识别网络模型结构如图4所示。其中，深度情感特征提取部分基础网络结构选用ResNeXt101(32×8d)的基础网络部分，并在第一段卷积后，加入通道注意力模块，为网络模型不同的通道赋予不同的权重。训练和微调的ResNeXt网络包含五段串行的卷积组，进行分组卷积，分支个数为32。在每段卷积的尾部使用池化层降低空间维度，减少计算量。

经过卷积操作获得视频帧由浅到深的深度情感特征，并将最后一段卷积得到的深度情感特征点乘上等尺寸的视觉权重矩阵，最终获得加权深度情感特征。

S24、提取数据样本中关联情感的手工情感特征，手工情感特征包含颜色特征、纹理特征和形状特征等；

颜色情感特征选择提取全局颜色直方图特征，它描述的是不同色彩在全局视频帧中各占的比例；纹理情感特征选择提取LBP(局部二值模式)特征，得到LBP特征的统计直方图(LBPH)；形状情感特征选择提取HOG(方向梯度直方图)特征。

S25、将所述提取的加权深度情感特征和手工情感特征归一化，并进行特征融合；

将各情感特征的尺寸归一化，使各部分特征权重贡献保持平衡。然后使用concat方法进行特征融合，直接将多个情感特征在通道维度上叠加。

S26、将融合后特征输入分类器进行情感分类，最终输出虚拟现实场景情感识别结果。

分类器模块是包含两个全连接层的情感识别分类网络，对全景图像的情感分类进行识别，并输出该全景图像包含的情感类型，包含正向、中立、负向三个情感类型。第一个全连接层有4096个通道，第二个全连接层有3个通道。

本实例中，根据训练融合情感特征，采用交叉熵损失函数确定损失。并依据损失采用反向传播方法重新确定网络模型参数；在训练卷积神经网络的过程中，基础网络的参数初始化为ImageNet数据集上预训练好的参数。每训练一次，改变卷积神经网络的参数。验证过程为对训练好的卷积神经网络进行验证。

在步骤S26中将融合后特征输入分类器后，判断迭代次数是否小于预设迭代次数，获得判断结果。若迭代次数小于预设迭代次数，则返回所述卷积神经网络训练模块；若迭代次数大于或等于预设迭代次数，将则其确定为训练好的网络模型；

本实例中，收敛条件设置为验证集上的误差<0.4，停止条件设置为迭代次数epoch＝20。网络训练过程中其他的重要参数设置：优化器为Adam，学习率learning rate＝1e-5，学习动量learning momentum＝0.9，权重衰减系数weight decay＝1e-4。

需要说明的是，对待识别虚拟现实场景识别过程中，步骤S1-S4的具体步骤和训练卷积神经网络过程中对应的步骤相同。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，包括：

S1、对待识别虚拟现实场景进行预处理；

所述卷积神经网络的训练包括：

S26、将融合后的特征输入分类器进行情感分类，分类器输出虚拟现实场景情感识别结果；

步骤S21中，所述建立包含连续情感标签和视角权重标签的虚拟现实场景素材库的步骤包括：

S213、M名受试者面向对虚拟现实场景进行视角权重分析实验，获取场景内各视角对虚拟现实场景情感的贡献权重值，得到场景的视角权重标签；

步骤S213中，所述视角权重分析实验包括如下步骤：

S2132、实验过程中采集受试者观看场景时关于视线的视频；

S2133、依据定义的视角区域，以1帧/秒的采样频率下采样采集的视频内容，通过统计分析视线在各视角区域的频次，计算出场景的视角权重；

2.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，N＞60；M＞25。

3.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，步骤S22 的将素材库里的虚拟现实场景按照情感划分规则进行分类包括：通过和预设愉悦度阈值、预设唤醒度阈值进行比较，将虚拟现实场景在二维空间上进行划分分类；并将场景的情感标签从连续情感标签转换为离散情感标签。

4.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，步骤S22中的预处理包括尺寸归一化和颜色空间转换。

5.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，步骤S23中，卷积神经网络包含一个通道注意力模块和五段串行的卷积，通道注意力模块加在卷积后；其中，每段卷积包含K个卷积层和一个池化层，K≥2；

步骤S22和S23之间还包括：将数据集划分为训练集和验证集，训练集，用于训练卷积神经网络，验证集，用于评价训练后的卷积神经网络，训练集和验证集的比例为8:2。

6.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，步骤S23包括基于视角权重标签建立视角权重矩阵，对视角权重矩阵进行下采样得到和深度情感特征相同的长宽尺寸，并与提取的深度情感特征进行点乘，得到加权深度情感特征。

7.根据权利要求1所述的基于视角权重和特征融合的虚拟现实场景情感识别方法，其特征在于，分类器是包含多个全连接层的情感识别分类网络，分类器用于对全景图像的情感分类进行识别，并输出该全景图像包含的情感类型。