CN113221689B

CN113221689B - 视频多目标情感度预测方法

Info

Publication number: CN113221689B
Application number: CN202110463643.XA
Authority: CN
Inventors: 艾旭升; 刘楷; 张婷; 李良; 陈园园
Original assignee: Suzhou Vocational Institute of Industrial Technology
Current assignee: Suzhou Vocational Institute of Industrial Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-07-29
Anticipated expiration: 2041-04-27
Also published as: CN113221689A

Abstract

本发明属于视频数据处理技术领域，公开了一种视频多目标情感度预测方法，包括以下步骤：S1，视频中包含多个目标，经过多目标视频解析后，形成多个单目标视频；S2，判断单目标视频时长是否小于x秒，若小于x秒则进入步骤S3，否则进入步骤S4；S3，对单目标视频进行短视频情感度预测，然后进入步骤S5；S4，对单目标视频进行长视频情感度预测，然后进入步骤S5；S5，根据应用场景情感度预测的不同需求，计算综合情感度或者最大情感度。本发明可以追踪视频中的目标，对视频中目标情感度进行准确预测，可以有效定位危险目标。

Description

视频多目标情感度预测方法

技术领域

本发明涉及视频数据处理技术领域，特别涉及一种视频多目标情感度预测方法。

背景技术

视频情感(度)预测技术应用场景包括：1)教学视频中有多个学生，预测教学内容的总和关注度；2)公共场所(机场、车站、政府机关)多个人在行走，可能危险分子在靠近，提前安全预警。目前智能AI市场多目标情感(度)预测技术主要还是解析图片，不追踪单个目标的视频，造成视频情感度预测不准确，也难以定位危险目标。因此，如何解决多个目标(人或动物)在视频(图片序列)中的情感度(比如学生注意力或恐怖分子敌意)预测成为一项亟待研究的新课题。

发明内容

本发明针对目前智能AI市场多目标情感度预测技术存在的问题，提出了一种视频多目标情感度预测方法。

为了解决上述技术问题，本发明的技术方案为：

一种视频多目标情感度预测方法，包括以下步骤：

S1，视频中包含多个目标，经过多目标视频解析后，形成多个单目标视频；

S2，判断单目标视频时长是否小于x秒，若小于x秒则进入步骤S3，否则进入步骤S4；

S3，对单目标视频进行短视频情感度预测，然后进入步骤S5；

S4，对单目标视频进行长视频情感度预测，然后进入步骤S5；

S5，根据应用场景情感度预测的不同需求，计算综合情感度或者最大情感度。

优选的，步骤S1包括：

S11，通过设置滑动窗口长度和重叠窗口长度来将多目标视频切分为多个视频片段；

S12，对视频片段，通过多目标跟踪技术，追踪视频片段目标，得到目标的边框序列；

S13，对前后视频片段的目标的边框序列做对比，确认追踪的是否为同一目标，并且增加帧索引；

S14，根据目标边框序列的帧索引从多目标视频中读取对应的帧，分割出每个目标的图片，形成单目标视频。

优选的，步骤S3包括：

S31，读取单目标视频中的每张图片，提取6个视频跟踪属性和3个头部姿势属性，合并形成9维向量；

S32，计算短视频的属性，视频的视线跟踪属性采用偏差和，姿势属性采用标准方差，形成一个9维向量输入到神经网络模型；

S33，对短视频采用深度神经网络模型识别。

优选的，步骤S4包括：

S41，读取单目标视频中的每张图片，提取6个视频跟踪属性和3个头部姿势属性，合并形成9维向量；

S42，将长视频划分成10个视频片段，计算长视频的视频片段的属性，视频的视线跟踪属性采用偏差和，姿势属性采用标准方差，形成一个9维向量输入到神经网络模型；

S43，对长视频采用LSTM多实例学习模型识别。

优选的，步骤S33包括：深度神经网络模型的输入是一个一维向量，经过三个全连接层后，转换到高维空间，最后一个全连接层采用Sigmoid函数，把情感度映射到[0,1]之间。

优选的，步骤S43包括：长视频情感度模型的输入是一个二维向量，LSTM层计算10个视频片段的激活值，接下来的压平层转换向量到一维空间，接着三个全连接层进行空间转换，最后一个平均池化层取10个视频片段情感度的平均值。

与现有技术相比，本发明的有益技术效果是：

本发明基于多目标追踪技术和重叠窗口技术，形成每个目标的视频作为预测模型的输入，并且根据单目标视频长度，应用不同的预测模型，比如短视频应用神经网络模型，而长视频则应用LSTM多实例学习模型，从而提高视频情感度的预测精度和理解。

附图说明

图1为本发明一种视频多目标情感度预测方法的流程图；

图2为本发明多目标视频解析中视频片段切分的原理示意图；

图3为本发明深度神经网络模型的原理示意图；

图4为本发明LSTM多实例学习模型的原理示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

如图1所示，一种视频多目标情感度预测方法，包括以下步骤：

S11，设置滑动窗口长度为l，重叠窗口长度为p，见图2，假设视频v的长度为|v|，那么视频切分为(|v|+p)/(l-p)个窗口的视频片段[w₁,w₂,…w_n]，

是下取整函数。

S12，对于视频片段w_k，通过多目标跟踪技术(https://www.cnblogs.com/SCCQ/p/12316917.html)，调用多目标技术(比如dlib)追踪视频片段的目标，得到目标t的边框序列

其中a,b,c,d分别代表边框的左上角x坐标、左下角y坐标、右上角x坐标、右下角y坐标。并且，为了记住边框在视频中的位置，增加一个帧索引，因此

S13，从k＝1开始，对于w_k中任一目标t的边框序列

都与w_k+1任一目标q的边框序列

做比较。如果

中的后面p个边框与

的前面p个边框的IoU值小于ε(IoU的定义如下，也可以参考：https://blog.csdn.net/caokaifa/article/details/80724842)，那么认为

和

追踪的是同一目标，合并

和S_q ^k，删除重复的p个边框。最终，n个窗口追踪的每个目标，有合并后的边框序列Q_t。

S14，任意目标t的边框序列Q_t，从第一个边框开始，根据帧索引i从视频v中读取对应的帧，然后基于(a,b,c,d)分割出目标t的图片，形成单目标视频。

本实施例中，x＝30，但对此不进行任何限制。

S3，对单目标视频进行短视频情感度预测，然后进入步骤S5；

S31，图片属性提取。调用OpenCV，读取单目标视频中的每张图片，调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性，合并形成9维向量。

S32，视频片段属性提取。计算短视频的属性，视频的视线跟踪属性采用偏差和，姿势属性采用标准方差，形成一个9维向量输入到神经网络模型，其中

偏差和＝∑(属性值-属性平均值)

S33，获取情感度。对短视频(30秒以内)，采用深度神经网络模型进行检测，见图3。

深度神经网络模型的输入是一个一维向量，经过三个全连接层后转换到高纬空间，最后一个全连接层采用Sigmoid函数，把情感度映射到[0,1]之间。模型的详细结构见表1。

表1深度神经网络模型结构

层类型	隐藏层节点数	激活函数	输出维度
				输入			9
全连接层	128	Relu	128
				全连接层	128	Relu	128
全连接层	100	Relu	100
				全连接层	1	Sigmoid	1

Relu(x)＝max(0,x)

S4，对单目标视频进行长视频情感度预测，然后进入步骤S5；

S41，图片属性提取。调用OpenCV，读取单目标视频中的每张图片，调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性，合并形成9维向量。

S42，将长视频(30秒以上)划分成10个视频片段，计算视频片段的属性，视频的视线跟踪属性采用偏差和，姿势属性采用标准方差，形成一个9维向量输入到神经网络模型，其中

偏差和＝∑(属性值-属性平均值)

S43，获取情感度。对于长视频(30秒以上)，采用LSTM多实例学习模型，见图4。

长视频情感度模型的输入是一个二维向量，LSTM层计算10个视频片段的激活值，接下来的压平层转换向量到一维空间，接着三个全连接层进行空间转换，最后一个平均池化层取10个视频片段情感度的平均值。模型的详细结构见表2。

表2 LSTM多实例学习模型

层类型	隐藏层节点数	激活函数	输出维度
				输入			(10,9)
LSTM层	32	Sigmoid	(10,32)
				LSTM层	32	Sigmoid	(10,32)
全连接层	32	Relu	(10,32)
				全连接层	32	Relu	(10,32)
全连接层	1	Relu	(10,1)
				平均池化层			1

其中，LSTM层：见https://keras.io/api/layers/recurrent_layers/lstm/；

压平层：见https://keras.io/api/layers/reshaping_layers/flatten/；

全连接层：见https://keras.io/api/layers/core_layers/dense/；

平均池化层：见https://keras.io/api/layers/pooling_layers/global_average_pooling1d/。

S5，根据应用场景的不同，采用综合情感度(比如学生注意力)或者最大情感度(行人的危险度)。综合情感度是多个目标情感度的加权平均，最终情感可能大于1，而最大情感度取多个目标视频情感度的最大值，最终情感在0到1之间。

实施例二

请综合参考图1至图4，一种视频多目标情感度预测系统，包括：

多目标解析模块，视频中包含多个目标，经过解析后，形成多个单目标视频；

视频时长判断模块，判断单目标视频时长是否小于x秒；

短视频情感度预测模块，对小于x秒的单目标视频进行短视频情感度预测；

长视频情感度预测模块，对大于x秒的单目标视频进行长视频情感度预测；

情感加权判断模块，根据对不同情感度预测的需要选择是否需要情感加权；

情感度计算模块，若选择情感加权，则计算综合情感度，否则计算最大情感度。

在一个实施例中，短视频情感度预测模块采用深度神经网络模型；长视频情感度预测模块采用LSTM多实例学习模型。

需要说明的是，当增加任何模块来实现本发明实施例一中任一步骤所述的功能时，均属于本发明所保护的范围。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种视频多目标情感度预测方法，其特征在于，包括以下步骤：

S3，对单目标视频进行短视频情感度预测，然后进入步骤S5；

S4，对单目标视频进行长视频情感度预测，然后进入步骤S5；

S5，根据应用场景情感度预测的不同需求，计算综合情感度或者最大情感度；

步骤S1包括：

S14，根据目标边框序列的帧索引从多目标视频中读取对应的帧，分割出每个目标的图片，形成单目标视频；

步骤S3包括：

S33，对短视频采用深度神经网络模型识别；

步骤S4包括：

S43，对长视频采用LSTM多实例学习模型识别。

2.根据权利要求1所述的一种视频多目标情感度预测方法，其特征在于，步骤S33包括：深度神经网络模型的输入是一个一维向量，经过三个全连接层后，转换到高维空间，最后一个全连接层采用Sigmoid函数，把情感度映射到[0,1]之间。

3.根据权利要求1所述的一种视频多目标情感度预测方法，其特征在于，步骤S43包括：长视频情感度模型的输入是一个二维向量，LSTM层计算10个视频片段的激活值，接下来的压平层转换向量到一维空间，接着三个全连接层进行空间转换，最后一个平均池化层取10个视频片段情感度的平均值。