CN113221689B - 视频多目标情感度预测方法 - Google Patents

视频多目标情感度预测方法 Download PDF

Info

Publication number
CN113221689B
CN113221689B CN202110463643.XA CN202110463643A CN113221689B CN 113221689 B CN113221689 B CN 113221689B CN 202110463643 A CN202110463643 A CN 202110463643A CN 113221689 B CN113221689 B CN 113221689B
Authority
CN
China
Prior art keywords
video
target
emotion
attributes
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110463643.XA
Other languages
English (en)
Other versions
CN113221689A (zh
Inventor
艾旭升
刘楷
张婷
李良
陈园园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Vocational Institute of Industrial Technology
Original Assignee
Suzhou Vocational Institute of Industrial Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Vocational Institute of Industrial Technology filed Critical Suzhou Vocational Institute of Industrial Technology
Priority to CN202110463643.XA priority Critical patent/CN113221689B/zh
Publication of CN113221689A publication Critical patent/CN113221689A/zh
Application granted granted Critical
Publication of CN113221689B publication Critical patent/CN113221689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视频数据处理技术领域,公开了一种视频多目标情感度预测方法,包括以下步骤:S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度。本发明可以追踪视频中的目标,对视频中目标情感度进行准确预测,可以有效定位危险目标。

Description

视频多目标情感度预测方法
技术领域
本发明涉及视频数据处理技术领域,特别涉及一种视频多目标情感度预测方法。
背景技术
视频情感(度)预测技术应用场景包括:1)教学视频中有多个学生,预测教学内容的总和关注度;2)公共场所(机场、车站、政府机关)多个人在行走,可能危险分子在靠近,提前安全预警。目前智能AI市场多目标情感(度)预测技术主要还是解析图片,不追踪单个目标的视频,造成视频情感度预测不准确,也难以定位危险目标。因此,如何解决多个目标(人或动物)在视频(图片序列)中的情感度(比如学生注意力或恐怖分子敌意)预测成为一项亟待研究的新课题。
发明内容
本发明针对目前智能AI市场多目标情感度预测技术存在的问题,提出了一种视频多目标情感度预测方法。
为了解决上述技术问题,本发明的技术方案为:
一种视频多目标情感度预测方法,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度。
优选的,步骤S1包括:
S11,通过设置滑动窗口长度和重叠窗口长度来将多目标视频切分为多个视频片段;
S12,对视频片段,通过多目标跟踪技术,追踪视频片段目标,得到目标的边框序列;
S13,对前后视频片段的目标的边框序列做对比,确认追踪的是否为同一目标,并且增加帧索引;
S14,根据目标边框序列的帧索引从多目标视频中读取对应的帧,分割出每个目标的图片,形成单目标视频。
优选的,步骤S3包括:
S31,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S32,计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S33,对短视频采用深度神经网络模型识别。
优选的,步骤S4包括:
S41,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S42,将长视频划分成10个视频片段,计算长视频的视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S43,对长视频采用LSTM多实例学习模型识别。
优选的,步骤S33包括:深度神经网络模型的输入是一个一维向量,经过三个全连接层后,转换到高维空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。
优选的,步骤S43包括:长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。
与现有技术相比,本发明的有益技术效果是:
本发明基于多目标追踪技术和重叠窗口技术,形成每个目标的视频作为预测模型的输入,并且根据单目标视频长度,应用不同的预测模型,比如短视频应用神经网络模型,而长视频则应用LSTM多实例学习模型,从而提高视频情感度的预测精度和理解。
附图说明
图1为本发明一种视频多目标情感度预测方法的流程图;
图2为本发明多目标视频解析中视频片段切分的原理示意图;
图3为本发明深度神经网络模型的原理示意图;
图4为本发明LSTM多实例学习模型的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
如图1所示,一种视频多目标情感度预测方法,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S11,设置滑动窗口长度为l,重叠窗口长度为p,见图2,假设视频v的长度为|v|,那么视频切分为(|v|+p)/(l-p)个窗口的视频片段[w1,w2,…wn],
Figure GDA0003579367080000021
Figure GDA0003579367080000022
是下取整函数。
S12,对于视频片段wk,通过多目标跟踪技术(https://www.cnblogs.com/SCCQ/p/12316917.html),调用多目标技术(比如dlib)追踪视频片段的目标,得到目标t的边框序列
Figure GDA0003579367080000023
其中a,b,c,d分别代表边框的左上角x坐标、左下角y坐标、右上角x坐标、右下角y坐标。并且,为了记住边框在视频中的位置,增加一个帧索引,因此
Figure GDA0003579367080000024
Figure GDA0003579367080000025
S13,从k=1开始,对于wk中任一目标t的边框序列
Figure GDA0003579367080000026
都与wk+1任一目标q的边框序列
Figure GDA0003579367080000031
做比较。如果
Figure GDA0003579367080000032
中的后面p个边框与
Figure GDA0003579367080000033
的前面p个边框的IoU值小于ε(IoU的定义如下,也可以参考:https://blog.csdn.net/caokaifa/article/details/80724842),那么认为
Figure GDA0003579367080000034
Figure GDA0003579367080000035
追踪的是同一目标,合并
Figure GDA0003579367080000039
和Sq k,删除重复的p个边框。最终,n个窗口追踪的每个目标,有合并后的边框序列Qt
Figure GDA0003579367080000036
S14,任意目标t的边框序列Qt,从第一个边框开始,根据帧索引i从视频v中读取对应的帧,然后基于(a,b,c,d)分割出目标t的图片,形成单目标视频。
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
本实施例中,x=30,但对此不进行任何限制。
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S31,图片属性提取。调用OpenCV,读取单目标视频中的每张图片,调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性,合并形成9维向量。
S32,视频片段属性提取。计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型,其中
偏差和=∑(属性值-属性平均值)
Figure GDA0003579367080000037
S33,获取情感度。对短视频(30秒以内),采用深度神经网络模型进行检测,见图3。
深度神经网络模型的输入是一个一维向量,经过三个全连接层后转换到高纬空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。模型的详细结构见表1。
表1深度神经网络模型结构
层类型 隐藏层节点数 激活函数 输出维度
输入 9
全连接层 128 Relu 128
全连接层 128 Relu 128
全连接层 100 Relu 100
全连接层 1 Sigmoid 1
Relu(x)=max(0,x)
Figure GDA0003579367080000038
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S41,图片属性提取。调用OpenCV,读取单目标视频中的每张图片,调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性,合并形成9维向量。
S42,将长视频(30秒以上)划分成10个视频片段,计算视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型,其中
偏差和=∑(属性值-属性平均值)
Figure GDA0003579367080000041
S43,获取情感度。对于长视频(30秒以上),采用LSTM多实例学习模型,见图4。
长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。模型的详细结构见表2。
表2 LSTM多实例学习模型
层类型 隐藏层节点数 激活函数 输出维度
输入 (10,9)
LSTM层 32 Sigmoid (10,32)
LSTM层 32 Sigmoid (10,32)
全连接层 32 Relu (10,32)
全连接层 32 Relu (10,32)
全连接层 1 Relu (10,1)
平均池化层 1
其中,LSTM层:见https://keras.io/api/layers/recurrent_layers/lstm/;
压平层:见https://keras.io/api/layers/reshaping_layers/flatten/;
全连接层:见https://keras.io/api/layers/core_layers/dense/;
平均池化层:见https://keras.io/api/layers/pooling_layers/global_average_pooling1d/。
S5,根据应用场景的不同,采用综合情感度(比如学生注意力)或者最大情感度(行人的危险度)。综合情感度是多个目标情感度的加权平均,最终情感可能大于1,而最大情感度取多个目标视频情感度的最大值,最终情感在0到1之间。
实施例二
请综合参考图1至图4,一种视频多目标情感度预测系统,包括:
多目标解析模块,视频中包含多个目标,经过解析后,形成多个单目标视频;
视频时长判断模块,判断单目标视频时长是否小于x秒;
短视频情感度预测模块,对小于x秒的单目标视频进行短视频情感度预测;
长视频情感度预测模块,对大于x秒的单目标视频进行长视频情感度预测;
情感加权判断模块,根据对不同情感度预测的需要选择是否需要情感加权;
情感度计算模块,若选择情感加权,则计算综合情感度,否则计算最大情感度。
在一个实施例中,短视频情感度预测模块采用深度神经网络模型;长视频情感度预测模块采用LSTM多实例学习模型。
需要说明的是,当增加任何模块来实现本发明实施例一中任一步骤所述的功能时,均属于本发明所保护的范围。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (3)

1.一种视频多目标情感度预测方法,其特征在于,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度;
步骤S1包括:
S11,通过设置滑动窗口长度和重叠窗口长度来将多目标视频切分为多个视频片段;
S12,对视频片段,通过多目标跟踪技术,追踪视频片段目标,得到目标的边框序列;
S13,对前后视频片段的目标的边框序列做对比,确认追踪的是否为同一目标,并且增加帧索引;
S14,根据目标边框序列的帧索引从多目标视频中读取对应的帧,分割出每个目标的图片,形成单目标视频;
步骤S3包括:
S31,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S32,计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S33,对短视频采用深度神经网络模型识别;
步骤S4包括:
S41,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S42,将长视频划分成10个视频片段,计算长视频的视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S43,对长视频采用LSTM多实例学习模型识别。
2.根据权利要求1所述的一种视频多目标情感度预测方法,其特征在于,步骤S33包括:深度神经网络模型的输入是一个一维向量,经过三个全连接层后,转换到高维空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。
3.根据权利要求1所述的一种视频多目标情感度预测方法,其特征在于,步骤S43包括:长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。
CN202110463643.XA 2021-04-27 2021-04-27 视频多目标情感度预测方法 Active CN113221689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110463643.XA CN113221689B (zh) 2021-04-27 2021-04-27 视频多目标情感度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110463643.XA CN113221689B (zh) 2021-04-27 2021-04-27 视频多目标情感度预测方法

Publications (2)

Publication Number Publication Date
CN113221689A CN113221689A (zh) 2021-08-06
CN113221689B true CN113221689B (zh) 2022-07-29

Family

ID=77089400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110463643.XA Active CN113221689B (zh) 2021-04-27 2021-04-27 视频多目标情感度预测方法

Country Status (1)

Country Link
CN (1) CN113221689B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143615A (zh) * 2019-12-12 2020-05-12 浙江大学 一种短视频情感类别的识别装置
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN112464774A (zh) * 2020-11-20 2021-03-09 桂林理工大学 一种基于眼动测量的视频学习中的情感识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN108875655A (zh) * 2018-06-25 2018-11-23 鲁东大学 一种基于多特征的实时目标视频跟踪方法及系统
CN110705413B (zh) * 2019-09-24 2022-09-20 清华大学 基于视线方向和lstm神经网络的情感预测方法及系统
CN110650368B (zh) * 2019-09-25 2022-04-26 新东方教育科技集团有限公司 视频处理方法、装置和电子设备
CN111860237B (zh) * 2020-07-07 2022-09-06 中国科学技术大学 一种视频情感片段的识别方法及装置
CN111738210B (zh) * 2020-07-20 2020-12-08 平安国际智慧城市科技股份有限公司 基于音视频的学生心理状态分析方法、装置、终端及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143615A (zh) * 2019-12-12 2020-05-12 浙江大学 一种短视频情感类别的识别装置
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN112464774A (zh) * 2020-11-20 2021-03-09 桂林理工大学 一种基于眼动测量的视频学习中的情感识别方法

Also Published As

Publication number Publication date
CN113221689A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108241849B (zh) 基于视频的人体交互动作识别方法
US9378421B2 (en) System and method for seat occupancy detection from ceiling mounted camera using robust adaptive threshold criteria
WO2020170014A1 (en) Object counting and instance segmentation using neural network architectures with image-level supervision
CN110969087B (zh) 一种步态识别方法及系统
CN108537818B (zh) 基于集群压力lstm的人群轨迹预测方法
Yin et al. Region search based on hybrid convolutional neural network in optical remote sensing images
Hou et al. Human tracking over camera networks: a review
CN111832514A (zh) 基于软多标签的无监督行人重识别方法及装置
CN113963445A (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
Zhang et al. Auxiliary learning for crowd counting via count-net
Sun et al. Modeling and recognizing human trajectories with beta process hidden Markov models
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
Luo et al. Pedestrian tracking in surveillance video based on modified CNN
Ratre et al. Tucker visual search-based hybrid tracking model and Fractional Kohonen Self-Organizing Map for anomaly localization and detection in surveillance videos
CN113221689B (zh) 视频多目标情感度预测方法
Roqueiro et al. Counting people using video cameras
Li et al. Social group detection based on multi-level consistent behaviour characteristics
Wang et al. A probabilistic approach for foreground and shadow segmentation in monocular image sequences
CN109492530B (zh) 基于深度多尺度时空特征的健壮性视觉物体跟踪方法
Kumaran et al. Classification of human activity detection based on an intelligent regression model in video sequences
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
Kumar et al. Zero-stopping constraint-based hybrid tracking model for dynamic and high-dense crowd videos
Dong et al. An optimization-based approach to image binarization
Xiao et al. Gaze prediction based on long short-term memory convolution with associated features of video frames
Esan et al. Surveillance detection of anomalous activities with optimized deep learning technique in crowded scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant