CN107818307B - 一种基于lstm网络的多标签视频事件检测方法 - Google Patents
一种基于lstm网络的多标签视频事件检测方法 Download PDFInfo
- Publication number
- CN107818307B CN107818307B CN201711053139.2A CN201711053139A CN107818307B CN 107818307 B CN107818307 B CN 107818307B CN 201711053139 A CN201711053139 A CN 201711053139A CN 107818307 B CN107818307 B CN 107818307B
- Authority
- CN
- China
- Prior art keywords
- output
- gate
- representing
- hidden state
- weight matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于LSTM网络的多标签视频事件检测方法:将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:获取每一个视频图像序列对应所有标签集的概率分布和通过所得概率分布更新网络,得到基于LSTM网络的模型;对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。本发明通过本发明的方法生成监控视频的多个事件报告,回避了对象监测和跟踪过程;针对监控视频的处理基于长短期记忆网络设计了全新的网络结构;大幅提高了监控视频处理的效率和鲁棒性,改善了传统方法针对同时发生的多个事件识别效果差的问题。
Description
技术领域
本发明涉及一种视频事件检测方法。特别是涉及一种基于LSTM网络的多标签视频事件检测方法。
背景技术
监控录像的目的是监控录像中发生的人类行为、活动或其他视觉事件。现在,在军事、公共安全、商业和法律等领域的应用越来越多。这个领域的发展,是随着廉价计算能力的增加,数码相机的普及,以及图像传感器的普及而崛起。此外,人工监测和监测系统的效率低下(如参考文献[1])也是一个因素。我们都知道,人类不可能不断地处理大量的数据。由于这个原因,错误通常会发生。此外,人工观察输出的资源非常昂贵。因此,如何得知视频中的内容信息已经是一个引起广泛关注的问题。
目前已经提出了多种方法来检测视频事件。首先,无标记的基于视觉的人体运动分析有可能提供一个廉价的、不引人注目的方法来估计人体的姿势。因此,它广泛应用于运动分析。Fujiyoshi等(如参考文献[2])提出了“恒星”骨架化过程来分析目标运动。其次,行动或集体活动识别可以在视频中告诉我们动作或群组事件的存在。提出了一种基于早期局部时空特征的浅高维编码的视频动作识别方法。在稀疏时空的兴趣点可以用局部时空来描述特征,包括梯度向量的直方图(HOG)和光流直方图(HOF)。这些特性随后被编码成特征包(BoF)描述子(如参考文献[3]),然后使用支持向量机进行分类任务。此外,近期组活动识别方面也有着大量的相关工作。绝大部分之前的工作都是使用人工设计的特征来表述时空中的个体(如参考文献[4])。Lan等(如参考文献[5])提出代表了从较低的人级信息到较高的群体层次的交互层次关系的自适应潜在结构学习。最近,多任务学习方法已应用于人类群体活动识别。其中,Liu等(如参考文献[6])提出了一种层次聚类多任务学习对人类行为进行分组和识别。再次,视频摘要是用于视觉理解和显示的另一种方法。有几个方法可以从一个长视频中生成视频摘要。一种代表性方法是对一个物体和活动出现在不同时间段的视频生成概要。Pritch等(如参考文献[7])还提出了一种新的方法,可以根据类似的事件活动簇生成短而连贯的视频梗概。另一种方法产生基于文本的摘要。Chu等人(如参考文献[8])提出了一个多媒体分析框架同时处理视频和文本,通过场景图共同构建实体之间的关系来理解事件(如参考文献[9])。目前的大多数方法都需要处理多项具有挑战性的视觉分析任务。Lee对于视频背景去除提出了一个有效的高斯混合学习方法。Dai等提出了一种鲁棒的R-FCN对象检测网络。上述任务的进展提高视频报告的性能。
虽然现有的方法已经在处理某些方面的问题上展现出了有效性,针对于自动理解监控视频的处理仍有着诸多的挑战和局限性。主要的挑战来自以下两个方面:数据的复杂性和处理方法的问题。针对于数据本身而言,主要的挑战在于分辨率低、数据量大、事件集和情景复杂、数据来源闭塞。对于方法而言,主要有以下的限制:1)很多方法依赖于前景背景分割技术,然而这一技术会造成错误累加。2)很多方法依赖于检测和跟踪,然而对于不同的视频和移动的对象,检测和跟踪的鲁棒性较低。这些缺点降低了时间分析的效率。3)当数据量增大时,计算量会大幅提升。4)真实生活中的事件检测大多数是多标签的问题。尤其是在于监控视频之中,多个事件会同时发生。然而,动作识别和组识别都是基于单一标签的事件检测方法。因此这两种识别方法会丢失同时发生的时间。
LSTM网络的成功之处在于其独特的结构。它可以针对多帧信息进行编码,并且生成一系列连续的动作/活动。更进一步的是,LSTM网络模型可以处理输入和输出长度不同的问题。这些优势与监控视频的处理良好地切合(输入是视频,而输出是一系列事件)。
发明内容
本发明所要解决的技术问题是,提供一种能够大幅提高监控视频处理的效率和鲁棒性的基于LSTM网络的多标签视频事件检测方法。
本发明所采用的技术方案是:一种基于LSTM网络的多标签视频事件检测方法,包括如下步骤:
1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:
(1)获取每一个视频图像序列对应所有标签集的概率分布;
(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;
2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。
步骤1)中第(1)步包括:
(1.1)对于给定的一个视频图像序列x={x1,x2,…,xt,…,xn}及所对应的标签集y={y1,y2,…,yj,…,ym},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征,其中,x1,x2,…,xt,…,xn分别对应视频图像中第一帧、第二帧、…和第n帧图像;y1,y2,…,yj,…,ym是所述视频图像中发生的关键事件;
(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像xt,分别计算以下的变量:
ft=σ(Wxfxt+Whfht-1+bf)
it=σ(Wxixt+Whiht-1+bi)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofxt+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出。ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=o1t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出。c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布:
其中,ptrain(y|zt)是该步骤输出的概率分布,Wy是第t帧图像的隐藏状态;
步骤1)中第(2)步包括:根据LSTM算法的标准流程,将所得的概率分布与数据库中原有的概率分布进行处理,得到更新的转移矩阵;返回第(1)步,直到损失率小于等于0.1,得到基于LSTM网络的模型。
步骤2)包括:
(1)对于待测的视频图像序列x0={x01,x02,…,x0t,…,x0n},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出待测的视频图像序列x0的fc7层作为视频图像特征,其中,x01,x02,…,x0t,…,x0n分别对应待测的视频图像序列x0中第一帧、第二帧、…、第t帧、…、第n帧图像;
(2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像x0t,分别计算以下的变量:
ft=σ(Wxfx0t+Whfht-1+bf)
it=σ(Wxix0t+Whiht-1+bi)
gt=tanh(Wxgx0t+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofx0t+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出,ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(3)将第(2)步所得的待测的视频图像序列x0中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=o1t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1z0表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出,c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(4)通过如下公式计算待测的视频图像序列x0对应所有标签集的概率分布:
其中,ptest(y|zy)是输出的概率分布,zt是第(3)步中的输出,这样就取得了所测的视频事件检测结果。
本发明的一种基于LSTM网络的多标签视频事件检测方法,具有的有益效果是:
1、通过本发明的方法生成监控视频的多个事件报告,回避了对象监测和跟踪过程;
2、本发明的方法针对监控视频的处理基于长短期记忆网络设计了全新的网络结构;
3、本发明的方法大幅提高了监控视频处理的效率和鲁棒性,改善了传统方法针对同时发生的多个事件识别效果差的问题。
附图说明
图1是双层LSTM网络结构图。
具体实施方式
下面结合实施例和附图对本发明的一种基于LSTM网络的多标签视频事件检测方法做出详细说明。
本发明的一种基于LSTM网络的多标签视频事件检测方法,包括如下步骤:
1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,该数据库标注了16-42分钟的视频片段多个,含有下列事件标签:行走2305个,转身1992个,食用食品2527个,拿取食品896个,使用手机2921个,书写1211个,讨论4756个,物品抓取278个。这些事件被分入5435个2秒的视频图像序列之中。
所述的生成一个基于LSTM网络的模型包括:
(1)获取每一个视频图像序列对应所有标签集的概率分布;包括:
(1.1)对于给定的一个视频图像序列x={x1,x2,…,xt,…,xn}及所对应的标签集y={y1,y2,…,yj,…,ym},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征,其中,x1,x2,…,xt,…,xn分别对应视频图像中第一帧、第二帧、…和第n帧图像;y1,y2,…,yj,…,ym是所述视频图像中发生的关键事件;
(1.2)将所提取的视频图像特征输入到如图1所示的第一个LSTM1网络系统中,对于输入的第t帧图像xt,分别计算以下的变量:
ft=σ(Wxfxt+Whfht-1+bf)
it=σ(Wxixt+Whiht-1+bi)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofxt+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出。ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht,t=1,2,…,n,输入到如图1所示的第二个LSTM2网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=o1t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出。c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布:
其中,ptrain(y|zt)是该步骤输出的概率分布,Wy是第t帧图像的隐藏状态。
(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;包括:根据LSTM算法的标准流程,将所得的概率分布与数据库中原有的概率分布进行处理,得到更新的转移矩阵;返回第(1)步,直到损失率小于等于0.1,得到基于LSTM网络的模型。
2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。包括:
(1)对于待测的视频图像序列x0={x01,x02,…,x0t,…,x0n},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出待测的视频图像序列x0的fc7层作为视频图像特征,其中,x01,x02,…,x0t,…,x0n分别对应待测的视频图像序列x0中第一帧、第二帧、…、第t帧、…、第n帧图像;
(2)将所提取的视频图像特征输入到如图1所示的第一个LSTM1网络系统中,对于输入的第t帧图像x0t,分别计算以下的变量:
ft=σ(Wxfx0t+Whfht-1+bf)
it=σ(Wxix0t+Whiht-1+bi)
gt=tanh(Wxgx0t+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofx0t+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出,ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(3)将第(2)步所得的待测的视频图像序列x0中的所有隐藏状态值ht,t=1,2,…,n,输入到如图1所示的第二个LSTM2网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=01t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出,c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(4)通过如下公式计算待测的视频图像序列x0对应所有标签集的概率分布:
其中,ptest(y|zy)是输出的概率分布,zt是第(3)步中的输出,这样就取得了所测的视频事件检测结果。
参考文献:
[1]Gutchess D,Trajkovics M,Cohen-Solal E,et al.A background modelinitialization algorithm for video surveillance[C]//Computer Vision,2001.ICCV2001.Proceedings.Eighth IEEE International Conference on.IEEE,2001,1:733-740.
[2]Fan C,Crandall D J.Deepdiary:Automatically captioning lifeloggingimage streams[C]//European Conference on Computer Vision.SpringerInternational Publishing,2016:459-473.
[3]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatialpyramid matching for recognizing natural scene categories[C]//Computer visionand pattern recognition,2006 IEEE computer society conference on.IEEE,2006,2:2169-2178.
[4]Ibrahim M S,Muralidharan S,Deng Z,et al.A hierarchical deeptemporal model for group activity recognition[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:1971-1980.
[5]Lan T,Wang Y,Yang W,et al.Discriminative latent models forrecognizing contextual group activities[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2012,34(8):1549-1562.
[6]Liu A A,Su Y T,Nie W Z,et al.Hierarchical clustering multi-tasklearning for joint human action grouping and recognition[J].IEEE transactionson pattern analysis and machine intelligence,2017,39(1):102-114.
[7]Pritch Y,Ratovitch S,Hendel A,et al.Clustered synopsis ofsurveillance video[C]//Advanced Video and Signal Based Surveillance,2009.AVSS'09.Sixth IEEE International Conference on.IEEE,2009:195-200.
[8]Tu K,Meng M,Lee M W,et al.Joint video and text parsing forunderstanding events and answering queries[J].IEEE MultiMedia,2014,21(2):42-70.
[9]He X,Gao M,Kan M Y,et al.Birank:Towards ranking on bipartitegraphs[J].IEEE Transactions on Knowledge and Data Engineering,2017,29(1):57-71.
[10]Hochreiter S,Schmidhuber J.LSTM can solve hard long time lagproblems[C]//Advances in neural information processing systems.1997:473-479.
Claims (3)
1.一种基于LSTM网络的多标签视频事件检测方法,其特征在于,包括如下步骤:
1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型,包括:
(1)获取每一个视频图像序列对应所有标签集的概率分布;包括:
(1.1)对于给定的一个视频图像序列x={x1,x2,…,xt,…,xn}及所对应的标签集y={y1,y2,…,yj,…,ym},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征,其中,x1,x2,…,xt,…,xn分别对应视频图像中第一帧、第二帧、…和第n帧图像;y1,y2,…,yj,…,ym是所述视频图像中发生的关键事件;
(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像xt,分别计算以下的变量:
ft=σ(Wxfxt+Whfht-1+bf)
it=σ(Wxixt+Whiht-1+bi)
gt=tanh(Wxgxt+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofxt+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出;ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=o1t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出;c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布:
其中,ptrain(y|zt)是该步骤输出的概率分布,Wy是第t帧图像与第y事件标签间的权重矩阵,Wm是第t帧图像与第m事件标签的权重矩阵;
(2)通过所得概率分布更新网络,得到基于LSTM网络的模型;
2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。
2.根据权利要求1所述的一种基于LSTM网络的多标签视频事件检测方法,其特征在于,步骤1)中第(2)步包括:根据LSTM算法的标准流程,将所得的概率分布与数据库中原有的概率分布进行处理,得到更新的转移矩阵;返回第(1)步,直到损失率小于等于0.1,得到基于LSTM网络的模型。
3.根据权利要求1所述的一种基于LSTM网络的多标签视频事件检测方法,其特征在于,步骤2)包括:
(1)对于待测的视频图像序列x0={x01,x02,…,x0t,…,x0n},在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出待测的视频图像序列x0的fc7层作为视频图像特征,其中,x01,x02,…,x0t,…,x0n分别对应待测的视频图像序列x0中第一帧、第二帧、…、第t帧、…、第n帧图像;
(2)将所提取的视频图像特征输入到第一个LSTM网络系统中,对于输入的第t帧图像x0t,分别计算以下的变量:
ft=σ(Wxfx0t+Whfht-1+bf)
it=σ(Wxix0t+Whiht-1+bi)
gt=tanh(Wxgx0t+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ot=σ(Wofx0t+Whoht-1+bo)
ht=ot⊙tanh(ct)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;Wxf表示输入与遗忘门输出间的门的权值矩阵,Whf表示隐藏状态值与遗忘门输出间的门的权值矩阵,Wxi表示输入门输出与遗忘门输出间的门的权值矩阵,Whi表示隐藏状态值与输入门输出间的门的权值矩阵,Wxg表示输入与计算新的ct的候选值间的门的权值矩阵,Whg表示隐藏状态值与计算新的ct的候选值间的门的权值矩阵,Wof表示输出门输出与遗忘门输出间的门的权值矩阵,Who表示隐藏状态值与输出门输出间的门的权值矩阵,bf来表示遗忘门输出的隐藏状态,bi来表示输入门输出隐藏状态,bg来表示计算新的ct的候选值的隐藏状态,bo来表示输出门输出的隐藏状态,ft表示遗忘门输出,it表示输入门输出,ot表示输出门的输出,ct是细胞元状态值,ht是隐藏状态值,gt是计算新的ct的候选值;
(3)将第(2)步所得的待测的视频图像序列x0中的所有隐藏状态值ht,t=1,2,…,n,输入到第二个LSTM网络系统中,分别计算以下的变量:
f1t=σ(W1xfzt+W1zfzt-1+b1f)
i1t=σ(W1xiht+W1zizt-1+b1i)
g1t=tanh(W1xght+W1zgzt-1+b1g)
c1t=f1t⊙c1(t-1)+i1t⊙g1t
o1t=σ(W1ofht+W1zozt-1+b1o)
zt=o1t⊙tanh(c1t)
其中,σ是元素级别的逻辑sigmoid函数,tanh是双曲正切函数,⊙是元素对应项乘法;W1xf表示输入与遗忘门输出间的门的权值矩阵,W1zf表示输出值与遗忘门输出间的门的权值矩阵,W1xi表示输入门输出与遗忘门输出间的门的权值矩阵,W1zi表示输出值与输入门输出间的门的权值矩阵,W1xg表示输入与计算新的c1t的候选值间的门的权值矩阵,W1zg表示输出值与计算新的c1t的候选值间的门的权值矩阵,W1of表示输出门输出与遗忘门输出间的门的权值矩阵,W1zo表示输出值与输出门输出间的门的权值矩阵,b1f来表示遗忘门输出的隐藏状态,b1i来表示输入门输出隐藏状态,b1g来表示计算新的c1t的候选值的隐藏状态,b1o来表示输出门输出的隐藏状态,f1t表示遗忘门输出,i1t表示输入门输出,o1t表示输出门的输出,c1t是细胞元状态值,zt是输出值,g1t是计算新的c1t的候选值;
(4)通过如下公式计算待测的视频图像序列x0对应所有标签集的概率分布:
其中,ptest(y|zy)是输出的概率分布,zt是第(3)步中的输出,这样就取得了所测的视频事件检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053139.2A CN107818307B (zh) | 2017-10-31 | 2017-10-31 | 一种基于lstm网络的多标签视频事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711053139.2A CN107818307B (zh) | 2017-10-31 | 2017-10-31 | 一种基于lstm网络的多标签视频事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818307A CN107818307A (zh) | 2018-03-20 |
CN107818307B true CN107818307B (zh) | 2021-05-18 |
Family
ID=61604584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711053139.2A Active CN107818307B (zh) | 2017-10-31 | 2017-10-31 | 一种基于lstm网络的多标签视频事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818307B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764019A (zh) * | 2018-04-03 | 2018-11-06 | 天津大学 | 一种基于多源深度学习的视频事件检测方法 |
CN108520530B (zh) * | 2018-04-12 | 2020-01-14 | 厦门大学 | 基于长短时记忆网络的目标跟踪方法 |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
CN109743642B (zh) * | 2018-12-21 | 2020-07-03 | 西北工业大学 | 基于分层循环神经网络的视频摘要生成方法 |
CN111008728B (zh) * | 2019-11-01 | 2023-06-09 | 深圳供电局有限公司 | 一种用于分布式光伏发电系统短期出力的预测方法 |
CN111008596B (zh) * | 2019-12-05 | 2020-12-25 | 西安科技大学 | 基于特征期望子图校正分类的异常视频清洗方法 |
CN111651271B (zh) * | 2020-05-19 | 2021-07-20 | 南京擎盾信息科技有限公司 | 基于法律数据的多任务学习语义标注方法和装置 |
CN112766330B (zh) * | 2021-01-07 | 2022-06-28 | 山东浪潮科学研究院有限公司 | 图像多标签分类方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
-
2017
- 2017-10-31 CN CN201711053139.2A patent/CN107818307B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
Non-Patent Citations (2)
Title |
---|
Multiple/Single-View Human Action Recognition via Part-Induced Multitask Structural Learning;An-An Liu 等;《IEEE》;20150630;第45卷(第6期);全文 * |
面向智能交互的图像识别技术综述与展望;蒋树强 等;《计算机研究与发展》;20151116;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107818307A (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818307B (zh) | 一种基于lstm网络的多标签视频事件检测方法 | |
Sharma et al. | An efficient dimension reduction based fusion of CNN and SVM model for detection of abnormal incident in video surveillance | |
Zhang et al. | Discriminative dictionary learning with motion weber local descriptor for violence detection | |
CN108764019A (zh) | 一种基于多源深度学习的视频事件检测方法 | |
Gu et al. | Multiple stream deep learning model for human action recognition | |
Chong et al. | Modeling representation of videos for anomaly detection using deep learning: A review | |
Chen et al. | TriViews: A general framework to use 3D depth data effectively for action recognition | |
CN113642482B (zh) | 一种基于视频时空上下文的视频人物关系分析方法 | |
Fu et al. | Learning semantic motion patterns for dynamic scenes by improved sparse topical coding | |
Ge et al. | Deep variation transformation network for foreground detection | |
Deng et al. | A bag of words approach to subject specific 3D human pose interaction classification with random decision forests | |
Elguebaly et al. | Generalized Gaussian mixture models as a nonparametric Bayesian approach for clustering using class-specific visual features | |
CN115798055B (zh) | 一种基于cornersort跟踪算法的暴力行为检测方法 | |
Zhou et al. | Two‐dimension principal component analysis‐based motion detection framework with subspace update of background | |
Takhar et al. | Comparative analysis of background subtraction techniques and applications | |
Ye et al. | Human interactive behaviour recognition method based on multi-feature fusion | |
Zhang et al. | Weighted score-level feature fusion based on Dempster–Shafer evidence theory for action recognition | |
Liang et al. | Motion energy guided multi-scale heterogeneous features for 3D action recognition | |
Huang et al. | Depth-aware object tracking with a conditional variational autoencoder | |
Zhang et al. | Abnormal crowd motion detection with hidden conditional random fields model | |
Zebhi et al. | Video classification by fusing two-stream image template classification and pretrained network | |
Caetano et al. | Magnitude-Orientation Stream network and depth information applied to activity recognition | |
Duth et al. | Human Activity Detection Using Pose Net | |
Wang et al. | Self-trained video anomaly detection based on teacher-student model | |
Chong et al. | Modeling video-based anomaly detection using deep architectures: Challenges and possibilities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |