CN115761569B

CN115761569B - 一种基于情感分类的视频情感定位方法

Info

Publication number: CN115761569B
Application number: CN202211288216.3A
Authority: CN
Inventors: 朱世强; 孟森森; 宋伟; 郭方泰; 张格格
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-07-04
Anticipated expiration: 2042-10-20
Also published as: CN115761569A

Abstract

一种基于情感分类的视频情感定位方法，包括：通过人脸识别模型进行视频预处理，将人脸识别的检测结果作为情感定位网络训练集；建立情感定位网络，使用卷积神经网络提取图像局部特征，建立多分支图像特征，使用视觉transformer算法获取情感类别；判断各帧之间情感类别关系，删除误检或者异常结果；将相同表情识别结果，且时序距离较近作为视频中情感定位候选片段；基于情感类别获取的情感定位片段，获取视频候选片段特征，过滤判断错误候选片段；输出模型对视频情感定位结果，具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点，保证情感分类准确性的同时提升视频情感定位速率。

Description

一种基于情感分类的视频情感定位方法

技术领域

本申请涉及计算机视觉领域，尤其涉及一种基于情感分类的视频情感定位方法

背景技术

随着互联网及数字相机等科技产品的飞速发展，视频数据量得到了爆炸式增加，因此对于视频内容的分析收到了越来越多的关注，其中对人的情感分析占有较大比例，情感分析在人机交互、家居物联网、机器人等领域扮演着重要角色。目前视频情感数据获取方式(行人检测、人脸识别等技术)已经得到了较大进步，相关算法实现了高速率、高准确率的效果，在日常生活中已经随处可见。对人情感的解析有助于提升设备智能化，提升人机交互体验。

情感分类技术近几十年来一直受到广大学者的关注，早期主要注重于传统算法，例如LBP、HOG和SIFT等。近年来随着深度学习技术的发展，情感分类技术也取得了较大进步，采用CNN算法获取人脸特征，进而对特征进行划分是该技术主要思路。现有工作主要集中于基于全局特征和基于局部特征，基于全局特征主要依靠损失函数的不断改进，但是该方法容易忽视局部重要特征；基于局部特征可以借助关键点定位人脸关键部位，但是由于实际情况下图像中人脸位置多变、说话或者遮挡等因素，基于局部的方法无法准确定位人脸关键位置，从而易导致情感分类效果不佳。

目前视频情感定位算法主要集中在整体层面或者滑动窗口方式：整体层面通过将整段视频作为情感分析的输入，进而确定视频情感类别，但是在实际生活中视频数据获取并不是人为刻意设置首尾时间，此外，人类情感的变化较快，同类情感维持时间较短，在一段视频中可能存在多个情感片段；滑动窗口方式则是通过获取视频中多个片段确定情感定位，但是由于受到滑动窗大小等预先定义的影响，导致获取的片段不够灵活，起止时间不够精确。所以，在视频情感分析中快速且准确定位情感发生的首尾时间非常重要。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于情感分类的视频情感定位方法，从而快速并且准确得到视频中不同情感所涉及的片段。

本发明的一种基于情感分类的视频情感定位方法，包括：

S1.通过人脸识别模型进行视频预处理，将人脸识别的检测结果作为情感定位网络训练集；

S2.建立情感定位网络，生成情感定位片段；

S201.建立情感定位网络，使用卷积神经网络提取图像局部特征，建立多分支图像特征；包括：使用Resnet卷积神经网络获取图像特征，为了寻找多个重要局部特征，建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维，借助注意力机制，训练模型聚焦于多个局部特征，获取重要局部特征信息。

S202.使用视觉transformer算法获取情感类别；包括：将获取的注意力特征图像进行降维操作，将2D序列转成1D序列，作为视觉transformer的输入，预测各情感类别概率，将概率最高的情感作为该图片输出；S203.判断各帧之间情感类别关系，删除误检或者异常结果；包括：将情感曲线变化阶段作为需要进行定位的情感时间段，通过各帧图片情感概率预测，存在误检或者异常结果；

S204.将相同表情识别结果，且时序距离较近作为视频中情感定位候选片段；

S205.基于情感类别获取的情感定位片段，获取视频候选片段特征，过滤判断错误候选片段；

S3.输出模型对视频情感定位结果，具体包括情感片段首尾时间及对应情感类别。

优选地，步骤S1所述人脸识别模型能处理不同场景下视频，所用检测模型包括但不限于MTCNN模型、YOLO模型；获取视频人脸图片时计算人脸检测框中心点坐标，然后按照比例进行检测框拓展，拓展框包围的人脸范围更大，能够更多地提供人脸表情特征。

优选地，步骤S201具体包括：建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像，模块自动寻找重要脸部部分，对应的部位包括但不限于嘴部、眉心等等；最后，获取每个像素在各分支通道内最大值，作为最终的注意力特征输出。

优选地，步骤S202所述的情感类别包括：高兴、生气、悲伤、害怕、平静、厌恶和惊讶，每帧图片能够预测各情感概率。

优选地，步骤S203中判断序列图片中人脸表情识别误检或者异常结果时，舍弃一段序列中表情检测异常的图片。

优选地，步骤S204具体包括：借助表情特征识别结果，除去异常检测帧后获得边界清晰情感定位片段，同时得到该片段情感类别；将相同表情首尾N帧各自组合成情感定位候选片段。

进一步，考虑到后期计算时间，首尾帧数选择以间隔方式获取。

优选地，步骤S205具体包括：借助候选片段每帧的情感类别概率，通过线性插值的方式均匀采样若干个特征点得到每段候选片段对应的片段特征，使用全连接获取该片段特征置信度；通过设置置信度阈值获取最佳情感定位候选片段；

进一步，所述的获取最佳情感定位候选片段的具体方式是：对步骤S204中时序较近获取的多段候选片段特征，采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果。

本发明具有如下有益效果：

本发明针对视频情感定位问题，预处理便已去除背景等非必要信息，关注人脸情感信息，有效减少算法运行耗时。采用局部特征方式获取情感类别，通过注意力机制挖掘更多脸部关键局部特征，有效减少外界因素(例如说话、遮挡等)对情感类型识别的影响，提升情感识别的准确性。通过情感分类方式确定定位片段首尾时间，进而组合解决视频情感定位问题，最后提取定位片段部分特征进行有效片段筛选，有效改善时序片段预定义导致算法不够灵活的影响，提升候选情感片段定位速度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种视频情感定位方法的流程图；

图2是根据一示例性实施例示出的建立情感定位网络，生成情感片段的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1是根据一示例性实施例示出的一种视频情感定位方法的流程图，如图1所示，可以包括以下步骤：

步骤S1：通过人脸识别模型进行视频预处理。

具体地，采用人脸检测技术获取视频中出现的人脸图片，包括如下具体步骤。

步骤S101：人脸检测算法获取视频人脸图片。

本实施例中，获取的视频来自多个场景，适用于不同场景下对人进行情感定位。对于一段视频，可以采用深度学习目标检测技术对视频进行逐帧人脸识别，获取人脸初始检测框及对应ID编号。如果某一帧图片中没有人脸信息，在后续情感定位中无需放到模型中进行训练，节约算法耗时。因为在实际场景中，例如人机交互，机器人所获取的视频图像并不会一直存在人，只需要关注视频中出现人那段时间的视频即可，情感定位建立在得到人脸识别结果的基础之上。具体地，本实例中所采用的目标检测技术包括但不限于以下模型：MTCNN模型、YOLO模型。

此外，为了提升人脸识别的准确性，可以基于初始人脸检测框按一定比例往外拓展，尽可能获取完整人脸box。然后可以直接按照ID编号截取视频中不同对象人脸图片序列。

具体地，计算人脸检测框中心点坐标，然后按照比例进行检测框拓展，拓展框包围的人脸范围更大，能够更多地提供人脸表情特征，有利于后期情感识别的准确性。

步骤S102：将人脸识别的检测结果作为情感定位网络训练集。

在一个示例性实施例中，根据ID编号获取不同对象人脸序列图片，每个ID序列对应图片便是一组训练集，作为后续网络输入。

步骤S2：建立情感定位网络，生成情感定位片段。

本实例中，具体包括3个主要模块：基于局部特征的情感分类、视频情感候选片段生成以及情感候选片段评估。

步骤S201：使用卷积神经网络提取图像局部特征，建立多分支图像特征。

具体地，本实例中，使用Resnet卷积神经网络获取图像特征，为了寻找多个重要局部特征，建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维，借助注意力机制，训练模型聚焦于多个局部特征，获取重要局部特征信息。

在一个示例性实施例中，建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像，模块自动寻找重要脸部部分，对应的部位包括但不限于嘴部、眉心等等。最后，获取每个像素在各分支通道内最大值，作为最终的注意力特征输出。

步骤S202：使用视觉transformer算法获取情感类别。

具体地，将获取的注意力特征图像进行降维操作，将2D序列转成1D序列，作为视觉transformer的输入，预测各情感类别概率，将概率最高的情感作为该图片输出。

具体地，本实例中情感类别主要包括：高兴、生气、悲伤、害怕、平静、厌恶和惊讶，每帧图片可以预测各情感概率，选择预测概率最高类别作为改模块输出，在一个示例性实施例中，输出图片高兴的概率为82％，其余情感概率均较小，那么该图片情感输出为高兴。

步骤S203：判断各帧之间情感类别关系，删除误检或者异常结果。

具体地，虽然情感维持的时间不会太久，但是人类情感变化依然是一个类似波浪线起伏的过程，“平静”表示情感稳定阶段，一旦情感出现变化，情感曲线将产生变化，情感曲线变化阶段就是需要进行定位的情感时间段。通过各帧图片情感概率预测，存在误检或者异常结果，例如偶尔出现的遮挡或者人脸光照变化情况。

进一步地，判断序列图片中人脸表情识别误检或者异常结果，在一个示例性实施例中，舍弃一段序列中表情检测异常的图片，例如连续序列表情均识别为高兴，但是中间某一帧识别为愤怒，该帧图片将作为异常结果进行处理。

步骤S204：将相同情感识别结果，且时序距离较近作为视频中情感定位候选片段。

借助表情特征识别结果，除去异常检测帧后获得边界清晰情感定位片段，同时得到该片段情感类别。进一步地，将相同表情首尾N帧各自组合成情感定位候选片段，例如，选择首尾3帧各自组合，最多可以得到9份候选片段，考虑到后期计算时间，首尾帧数选择也可以间隔获取。

步骤S205：基于表情识别获取的情感定位片段，获取视频候选片段特征，过滤判断错误候选片段。

具体地，借助候选片段每帧的情感类别概率，通过线性插值的方式均匀采样20个特征点得到每段候选片段对应的片段特征，使用全连接获取该片段特征置信度。通过设置置信度阈值获取最佳情感定位候选片段。具体地，对步骤S204中时序较近获取的多段候选片段特征，采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果。

步骤S3：输出模型对视频情感定位结果，具体包括情感片段首尾时间及对应情感类别。

本发明提供了一种基于情感分类的视频情感定位方法，可用于快速定位视频中不同情感片段，同时判断对应片段的情感类别。通过人脸识别方法确定视频中需要定位的人脸图像序列，建立情感定位网络，提取人脸图像图片特征，采用注意力机制获取多个人脸重要局部特征，提升因转动、说话或者遮挡等外界因素造成的情感分类准确性，借助视觉transformer算法获取情感类别概率，确定情感类型，而后将相同情感类别序列首尾组合获取情感定位片段以及对应的片段特征，最后过滤判断错误或者存在较大偏差的定位片段。采用局部特征情感分类方法和自底向上算法获取情感定位片段，有效改善事先预定候选片段导致算法不够灵活的影响，提升候选片段定位速度。

本发明能够改善定位片段预设鲁棒性不佳的缺点，保证情感分类准确性的同时提升视频情感定位速率。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于情感分类的视频情感定位方法，其特征在于，包括：

S2.建立情感定位网络，生成情感定位片段；

S201.建立情感定位网络，使用卷积神经网络提取图像局部特征，建立多分支图像特征；包括：使用Resnet卷积神经网络获取图像特征，为了寻找多个重要局部特征，建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维，借助注意力机制，训练模型聚焦于多个局部特征，获取重要局部特征信息；建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像，模块自动寻找重要脸部部分，对应的部位包括但不限于嘴部、眉心；最后，获取每个像素在各分支通道内最大值，作为最终的注意力特征输出；

S202.使用视觉transformer算法获取情感类别；包括：将获取的注意力特征图像进行降维操作，将2D序列转成1D序列，作为视觉transformer的输入，预测情感类别概率，将概率最高的情感作为图片输出；所述的情感类别包括：高兴、生气、悲伤、害怕、平静、厌恶和惊讶，每帧图片能够预测各情感概率；

S203.判断各帧之间情感类别关系，删除误检或者异常结果；包括：人类情感变化是一个类似波浪线起伏的过程，“平静”表示情感稳定阶段，一旦情感出现变化，情感曲线将产生变化，即情感曲线变化阶段；将情感曲线变化阶段作为需要进行定位的情感时间段，通过各帧图片情感概率预测，判断存在误检或者异常结果；

S204.将相同表情识别结果，且时序距离近作为视频中情感定位候选片段；借助表情特征识别结果，除去异常检测帧后获得边界清晰情感定位片段，同时得到该片段情感类别；将相同表情首尾N帧各自组合成情感定位候选片段；

S205.基于情感类别获取的情感定位片段，获取视频候选片段特征，过滤判断错误候选片段；借助候选片段每帧的情感类别概率，通过线性插值的方式均匀采样若干个特征点得到每段候选片段对应的片段特征，使用全连接获取片段特征置信度；通过设置置信度阈值获取最佳情感定位候选片段；具体地，对步骤S204中获取的多段候选片段特征，采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果；

2.根据权利要求1所述的一种基于情感分类的视频情感定位的方法，其特征在于，步骤S1所述人脸识别模型能处理不同场景下视频，所用检测模型包括但不限于MTCNN模型、YOLO模型；获取视频人脸图片时计算人脸检测框中心点坐标，然后按照比例进行检测框拓展，拓展框包围的人脸范围更大，能够更多地提供人脸表情特征。

3.根据权利要求1所述的一种基于情感分类的视频情感定位的方法，其特征在于，步骤S203中判断序列图片中人脸表情识别误检或者异常结果时，舍弃一段序列中表情检测异常的图片。

4.根据权利要求1所述的一种基于情感分类的视频情感定位的方法，其特征在于，考虑到后期计算时间，首尾帧数选择以间隔方式获取。