CN113221689B - 视频多目标情感度预测方法 - Google Patents
视频多目标情感度预测方法 Download PDFInfo
- Publication number
- CN113221689B CN113221689B CN202110463643.XA CN202110463643A CN113221689B CN 113221689 B CN113221689 B CN 113221689B CN 202110463643 A CN202110463643 A CN 202110463643A CN 113221689 B CN113221689 B CN 113221689B
- Authority
- CN
- China
- Prior art keywords
- video
- target
- emotion
- attributes
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于视频数据处理技术领域,公开了一种视频多目标情感度预测方法,包括以下步骤:S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度。本发明可以追踪视频中的目标,对视频中目标情感度进行准确预测,可以有效定位危险目标。
Description
技术领域
本发明涉及视频数据处理技术领域,特别涉及一种视频多目标情感度预测方法。
背景技术
视频情感(度)预测技术应用场景包括:1)教学视频中有多个学生,预测教学内容的总和关注度;2)公共场所(机场、车站、政府机关)多个人在行走,可能危险分子在靠近,提前安全预警。目前智能AI市场多目标情感(度)预测技术主要还是解析图片,不追踪单个目标的视频,造成视频情感度预测不准确,也难以定位危险目标。因此,如何解决多个目标(人或动物)在视频(图片序列)中的情感度(比如学生注意力或恐怖分子敌意)预测成为一项亟待研究的新课题。
发明内容
本发明针对目前智能AI市场多目标情感度预测技术存在的问题,提出了一种视频多目标情感度预测方法。
为了解决上述技术问题,本发明的技术方案为:
一种视频多目标情感度预测方法,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度。
优选的,步骤S1包括:
S11,通过设置滑动窗口长度和重叠窗口长度来将多目标视频切分为多个视频片段;
S12,对视频片段,通过多目标跟踪技术,追踪视频片段目标,得到目标的边框序列;
S13,对前后视频片段的目标的边框序列做对比,确认追踪的是否为同一目标,并且增加帧索引;
S14,根据目标边框序列的帧索引从多目标视频中读取对应的帧,分割出每个目标的图片,形成单目标视频。
优选的,步骤S3包括:
S31,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S32,计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S33,对短视频采用深度神经网络模型识别。
优选的,步骤S4包括:
S41,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S42,将长视频划分成10个视频片段,计算长视频的视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S43,对长视频采用LSTM多实例学习模型识别。
优选的,步骤S33包括:深度神经网络模型的输入是一个一维向量,经过三个全连接层后,转换到高维空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。
优选的,步骤S43包括:长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。
与现有技术相比,本发明的有益技术效果是:
本发明基于多目标追踪技术和重叠窗口技术,形成每个目标的视频作为预测模型的输入,并且根据单目标视频长度,应用不同的预测模型,比如短视频应用神经网络模型,而长视频则应用LSTM多实例学习模型,从而提高视频情感度的预测精度和理解。
附图说明
图1为本发明一种视频多目标情感度预测方法的流程图;
图2为本发明多目标视频解析中视频片段切分的原理示意图;
图3为本发明深度神经网络模型的原理示意图;
图4为本发明LSTM多实例学习模型的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
如图1所示,一种视频多目标情感度预测方法,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S12,对于视频片段wk,通过多目标跟踪技术(https://www.cnblogs.com/SCCQ/p/12316917.html),调用多目标技术(比如dlib)追踪视频片段的目标,得到目标t的边框序列其中a,b,c,d分别代表边框的左上角x坐标、左下角y坐标、右上角x坐标、右下角y坐标。并且,为了记住边框在视频中的位置,增加一个帧索引,因此
S13,从k=1开始,对于wk中任一目标t的边框序列都与wk+1任一目标q的边框序列做比较。如果中的后面p个边框与的前面p个边框的IoU值小于ε(IoU的定义如下,也可以参考:https://blog.csdn.net/caokaifa/article/details/80724842),那么认为和追踪的是同一目标,合并和Sq k,删除重复的p个边框。最终,n个窗口追踪的每个目标,有合并后的边框序列Qt。
S14,任意目标t的边框序列Qt,从第一个边框开始,根据帧索引i从视频v中读取对应的帧,然后基于(a,b,c,d)分割出目标t的图片,形成单目标视频。
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
本实施例中,x=30,但对此不进行任何限制。
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S31,图片属性提取。调用OpenCV,读取单目标视频中的每张图片,调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性,合并形成9维向量。
S32,视频片段属性提取。计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型,其中
偏差和=∑(属性值-属性平均值)
S33,获取情感度。对短视频(30秒以内),采用深度神经网络模型进行检测,见图3。
深度神经网络模型的输入是一个一维向量,经过三个全连接层后转换到高纬空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。模型的详细结构见表1。
表1深度神经网络模型结构
层类型 | 隐藏层节点数 | 激活函数 | 输出维度 |
输入 | 9 | ||
全连接层 | 128 | Relu | 128 |
全连接层 | 128 | Relu | 128 |
全连接层 | 100 | Relu | 100 |
全连接层 | 1 | Sigmoid | 1 |
Relu(x)=max(0,x)
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S41,图片属性提取。调用OpenCV,读取单目标视频中的每张图片,调用OpenFace库(https://www.cl.cam.ac.uk/research/rainbow/projects/openface/)提取6个视线跟踪属性和3个头部姿势属性,合并形成9维向量。
S42,将长视频(30秒以上)划分成10个视频片段,计算视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型,其中
偏差和=∑(属性值-属性平均值)
S43,获取情感度。对于长视频(30秒以上),采用LSTM多实例学习模型,见图4。
长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。模型的详细结构见表2。
表2 LSTM多实例学习模型
层类型 | 隐藏层节点数 | 激活函数 | 输出维度 |
输入 | (10,9) | ||
LSTM层 | 32 | Sigmoid | (10,32) |
LSTM层 | 32 | Sigmoid | (10,32) |
全连接层 | 32 | Relu | (10,32) |
全连接层 | 32 | Relu | (10,32) |
全连接层 | 1 | Relu | (10,1) |
平均池化层 | 1 |
其中,LSTM层:见https://keras.io/api/layers/recurrent_layers/lstm/;
压平层:见https://keras.io/api/layers/reshaping_layers/flatten/;
全连接层:见https://keras.io/api/layers/core_layers/dense/;
平均池化层:见https://keras.io/api/layers/pooling_layers/global_average_pooling1d/。
S5,根据应用场景的不同,采用综合情感度(比如学生注意力)或者最大情感度(行人的危险度)。综合情感度是多个目标情感度的加权平均,最终情感可能大于1,而最大情感度取多个目标视频情感度的最大值,最终情感在0到1之间。
实施例二
请综合参考图1至图4,一种视频多目标情感度预测系统,包括:
多目标解析模块,视频中包含多个目标,经过解析后,形成多个单目标视频;
视频时长判断模块,判断单目标视频时长是否小于x秒;
短视频情感度预测模块,对小于x秒的单目标视频进行短视频情感度预测;
长视频情感度预测模块,对大于x秒的单目标视频进行长视频情感度预测;
情感加权判断模块,根据对不同情感度预测的需要选择是否需要情感加权;
情感度计算模块,若选择情感加权,则计算综合情感度,否则计算最大情感度。
在一个实施例中,短视频情感度预测模块采用深度神经网络模型;长视频情感度预测模块采用LSTM多实例学习模型。
需要说明的是,当增加任何模块来实现本发明实施例一中任一步骤所述的功能时,均属于本发明所保护的范围。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (3)
1.一种视频多目标情感度预测方法,其特征在于,包括以下步骤:
S1,视频中包含多个目标,经过多目标视频解析后,形成多个单目标视频;
S2,判断单目标视频时长是否小于x秒,若小于x秒则进入步骤S3,否则进入步骤S4;
S3,对单目标视频进行短视频情感度预测,然后进入步骤S5;
S4,对单目标视频进行长视频情感度预测,然后进入步骤S5;
S5,根据应用场景情感度预测的不同需求,计算综合情感度或者最大情感度;
步骤S1包括:
S11,通过设置滑动窗口长度和重叠窗口长度来将多目标视频切分为多个视频片段;
S12,对视频片段,通过多目标跟踪技术,追踪视频片段目标,得到目标的边框序列;
S13,对前后视频片段的目标的边框序列做对比,确认追踪的是否为同一目标,并且增加帧索引;
S14,根据目标边框序列的帧索引从多目标视频中读取对应的帧,分割出每个目标的图片,形成单目标视频;
步骤S3包括:
S31,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S32,计算短视频的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S33,对短视频采用深度神经网络模型识别;
步骤S4包括:
S41,读取单目标视频中的每张图片,提取6个视频跟踪属性和3个头部姿势属性,合并形成9维向量;
S42,将长视频划分成10个视频片段,计算长视频的视频片段的属性,视频的视线跟踪属性采用偏差和,姿势属性采用标准方差,形成一个9维向量输入到神经网络模型;
S43,对长视频采用LSTM多实例学习模型识别。
2.根据权利要求1所述的一种视频多目标情感度预测方法,其特征在于,步骤S33包括:深度神经网络模型的输入是一个一维向量,经过三个全连接层后,转换到高维空间,最后一个全连接层采用Sigmoid函数,把情感度映射到[0,1]之间。
3.根据权利要求1所述的一种视频多目标情感度预测方法,其特征在于,步骤S43包括:长视频情感度模型的输入是一个二维向量,LSTM层计算10个视频片段的激活值,接下来的压平层转换向量到一维空间,接着三个全连接层进行空间转换,最后一个平均池化层取10个视频片段情感度的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463643.XA CN113221689B (zh) | 2021-04-27 | 2021-04-27 | 视频多目标情感度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110463643.XA CN113221689B (zh) | 2021-04-27 | 2021-04-27 | 视频多目标情感度预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221689A CN113221689A (zh) | 2021-08-06 |
CN113221689B true CN113221689B (zh) | 2022-07-29 |
Family
ID=77089400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110463643.XA Active CN113221689B (zh) | 2021-04-27 | 2021-04-27 | 视频多目标情感度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221689B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443896B (zh) * | 2022-01-25 | 2023-09-15 | 百度在线网络技术(北京)有限公司 | 数据处理方法和用于训练预测模型的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143615A (zh) * | 2019-12-12 | 2020-05-12 | 浙江大学 | 一种短视频情感类别的识别装置 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
CN112464774A (zh) * | 2020-11-20 | 2021-03-09 | 桂林理工大学 | 一种基于眼动测量的视频学习中的情感识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN108875655A (zh) * | 2018-06-25 | 2018-11-23 | 鲁东大学 | 一种基于多特征的实时目标视频跟踪方法及系统 |
CN110705413B (zh) * | 2019-09-24 | 2022-09-20 | 清华大学 | 基于视线方向和lstm神经网络的情感预测方法及系统 |
CN110650368B (zh) * | 2019-09-25 | 2022-04-26 | 新东方教育科技集团有限公司 | 视频处理方法、装置和电子设备 |
CN111860237B (zh) * | 2020-07-07 | 2022-09-06 | 中国科学技术大学 | 一种视频情感片段的识别方法及装置 |
CN111738210B (zh) * | 2020-07-20 | 2020-12-08 | 平安国际智慧城市科技股份有限公司 | 基于音视频的学生心理状态分析方法、装置、终端及介质 |
-
2021
- 2021-04-27 CN CN202110463643.XA patent/CN113221689B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143615A (zh) * | 2019-12-12 | 2020-05-12 | 浙江大学 | 一种短视频情感类别的识别装置 |
CN111310672A (zh) * | 2020-02-19 | 2020-06-19 | 广州数锐智能科技有限公司 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
CN112464774A (zh) * | 2020-11-20 | 2021-03-09 | 桂林理工大学 | 一种基于眼动测量的视频学习中的情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113221689A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241849B (zh) | 基于视频的人体交互动作识别方法 | |
US9378421B2 (en) | System and method for seat occupancy detection from ceiling mounted camera using robust adaptive threshold criteria | |
WO2020170014A1 (en) | Object counting and instance segmentation using neural network architectures with image-level supervision | |
CN110969087B (zh) | 一种步态识别方法及系统 | |
CN108537818B (zh) | 基于集群压力lstm的人群轨迹预测方法 | |
Yin et al. | Region search based on hybrid convolutional neural network in optical remote sensing images | |
Hou et al. | Human tracking over camera networks: a review | |
CN111832514A (zh) | 基于软多标签的无监督行人重识别方法及装置 | |
CN113963445A (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
Zhang et al. | Auxiliary learning for crowd counting via count-net | |
Sun et al. | Modeling and recognizing human trajectories with beta process hidden Markov models | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
Luo et al. | Pedestrian tracking in surveillance video based on modified CNN | |
Ratre et al. | Tucker visual search-based hybrid tracking model and Fractional Kohonen Self-Organizing Map for anomaly localization and detection in surveillance videos | |
CN113221689B (zh) | 视频多目标情感度预测方法 | |
Roqueiro et al. | Counting people using video cameras | |
Li et al. | Social group detection based on multi-level consistent behaviour characteristics | |
Wang et al. | A probabilistic approach for foreground and shadow segmentation in monocular image sequences | |
CN109492530B (zh) | 基于深度多尺度时空特征的健壮性视觉物体跟踪方法 | |
Kumaran et al. | Classification of human activity detection based on an intelligent regression model in video sequences | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
Kumar et al. | Zero-stopping constraint-based hybrid tracking model for dynamic and high-dense crowd videos | |
Dong et al. | An optimization-based approach to image binarization | |
Xiao et al. | Gaze prediction based on long short-term memory convolution with associated features of video frames | |
Esan et al. | Surveillance detection of anomalous activities with optimized deep learning technique in crowded scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |