CN107818307B

CN107818307B - 一种基于lstm网络的多标签视频事件检测方法

Info

Publication number: CN107818307B
Application number: CN201711053139.2A
Authority: CN
Inventors: 苏育挺; 刘瑶瑶; 刘安安
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2021-05-18
Anticipated expiration: 2037-10-31
Also published as: CN107818307A

Abstract

一种基于LSTM网络的多标签视频事件检测方法：将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：获取每一个视频图像序列对应所有标签集的概率分布和通过所得概率分布更新网络，得到基于LSTM网络的模型；对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。本发明通过本发明的方法生成监控视频的多个事件报告，回避了对象监测和跟踪过程；针对监控视频的处理基于长短期记忆网络设计了全新的网络结构；大幅提高了监控视频处理的效率和鲁棒性，改善了传统方法针对同时发生的多个事件识别效果差的问题。

Description

一种基于LSTM网络的多标签视频事件检测方法

技术领域

本发明涉及一种视频事件检测方法。特别是涉及一种基于LSTM网络的多标签视频事件检测方法。

背景技术

监控录像的目的是监控录像中发生的人类行为、活动或其他视觉事件。现在，在军事、公共安全、商业和法律等领域的应用越来越多。这个领域的发展，是随着廉价计算能力的增加，数码相机的普及，以及图像传感器的普及而崛起。此外，人工监测和监测系统的效率低下(如参考文献[1])也是一个因素。我们都知道，人类不可能不断地处理大量的数据。由于这个原因，错误通常会发生。此外，人工观察输出的资源非常昂贵。因此，如何得知视频中的内容信息已经是一个引起广泛关注的问题。

目前已经提出了多种方法来检测视频事件。首先，无标记的基于视觉的人体运动分析有可能提供一个廉价的、不引人注目的方法来估计人体的姿势。因此,它广泛应用于运动分析。Fujiyoshi等(如参考文献[2])提出了“恒星”骨架化过程来分析目标运动。其次，行动或集体活动识别可以在视频中告诉我们动作或群组事件的存在。提出了一种基于早期局部时空特征的浅高维编码的视频动作识别方法。在稀疏时空的兴趣点可以用局部时空来描述特征，包括梯度向量的直方图(HOG)和光流直方图(HOF)。这些特性随后被编码成特征包(BoF)描述子(如参考文献[3])，然后使用支持向量机进行分类任务。此外，近期组活动识别方面也有着大量的相关工作。绝大部分之前的工作都是使用人工设计的特征来表述时空中的个体(如参考文献[4])。Lan等(如参考文献[5])提出代表了从较低的人级信息到较高的群体层次的交互层次关系的自适应潜在结构学习。最近，多任务学习方法已应用于人类群体活动识别。其中，Liu等(如参考文献[6])提出了一种层次聚类多任务学习对人类行为进行分组和识别。再次，视频摘要是用于视觉理解和显示的另一种方法。有几个方法可以从一个长视频中生成视频摘要。一种代表性方法是对一个物体和活动出现在不同时间段的视频生成概要。Pritch等(如参考文献[7])还提出了一种新的方法，可以根据类似的事件活动簇生成短而连贯的视频梗概。另一种方法产生基于文本的摘要。Chu等人(如参考文献[8])提出了一个多媒体分析框架同时处理视频和文本，通过场景图共同构建实体之间的关系来理解事件(如参考文献[9])。目前的大多数方法都需要处理多项具有挑战性的视觉分析任务。Lee对于视频背景去除提出了一个有效的高斯混合学习方法。Dai等提出了一种鲁棒的R-FCN对象检测网络。上述任务的进展提高视频报告的性能。

虽然现有的方法已经在处理某些方面的问题上展现出了有效性，针对于自动理解监控视频的处理仍有着诸多的挑战和局限性。主要的挑战来自以下两个方面：数据的复杂性和处理方法的问题。针对于数据本身而言，主要的挑战在于分辨率低、数据量大、事件集和情景复杂、数据来源闭塞。对于方法而言，主要有以下的限制：1)很多方法依赖于前景背景分割技术，然而这一技术会造成错误累加。2)很多方法依赖于检测和跟踪，然而对于不同的视频和移动的对象，检测和跟踪的鲁棒性较低。这些缺点降低了时间分析的效率。3)当数据量增大时，计算量会大幅提升。4)真实生活中的事件检测大多数是多标签的问题。尤其是在于监控视频之中，多个事件会同时发生。然而，动作识别和组识别都是基于单一标签的事件检测方法。因此这两种识别方法会丢失同时发生的时间。

LSTM网络的成功之处在于其独特的结构。它可以针对多帧信息进行编码，并且生成一系列连续的动作/活动。更进一步的是，LSTM网络模型可以处理输入和输出长度不同的问题。这些优势与监控视频的处理良好地切合(输入是视频，而输出是一系列事件)。

发明内容

本发明所要解决的技术问题是，提供一种能够大幅提高监控视频处理的效率和鲁棒性的基于LSTM网络的多标签视频事件检测方法。

本发明所采用的技术方案是：一种基于LSTM网络的多标签视频事件检测方法，包括如下步骤：

1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，包括：

(1)获取每一个视频图像序列对应所有标签集的概率分布；

(2)通过所得概率分布更新网络，得到基于LSTM网络的模型；

2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。

步骤1)中第(1)步包括：

(1.1)对于给定的一个视频图像序列x＝{x₁,x₂,…,x_t,…,x_n}及所对应的标签集y＝{y₁,y₂,…,y_j,…,y_m}，在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征，其中，x₁,x₂,…,x_t,…,x_n分别对应视频图像中第一帧、第二帧、…和第n帧图像；y₁,y₂,…,y_j,…,y_m是所述视频图像中发生的关键事件；

(1.2)将所提取的视频图像特征输入到第一个LSTM网络系统中，对于输入的第t帧图像x_t，分别计算以下的变量：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_xf表示输入与遗忘门输出间的门的权值矩阵，W_hf表示隐藏状态值与遗忘门输出间的门的权值矩阵，W_xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_hi表示隐藏状态值与输入门输出间的门的权值矩阵，W_xg表示输入与计算新的c_t的候选值间的门的权值矩阵，W_hg表示隐藏状态值与计算新的c_t的候选值间的门的权值矩阵，W_of表示输出门输出与遗忘门输出间的门的权值矩阵，W_ho表示隐藏状态值与输出门输出间的门的权值矩阵，b_f来表示遗忘门输出的隐藏状态，b_i来表示输入门输出隐藏状态，b_g来表示计算新的c_t的候选值的隐藏状态，b_o来表示输出门输出的隐藏状态，f_t表示遗忘门输出，i_t表示输入门输出，o_t表示输出门的输出。c_t是细胞元状态值，h_t是隐藏状态值，g_t是计算新的c_t的候选值；

(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值h_t，t＝1，2，…，n，输入到第二个LSTM网络系统中，分别计算以下的变量：

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofh_t+W_1zoz_t-1+b_1o)

z_t＝o_1t⊙tanh(c_1t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_1xf表示输入与遗忘门输出间的门的权值矩阵，W_1zf表示输出值与遗忘门输出间的门的权值矩阵，W_1xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_1zi表示输出值与输入门输出间的门的权值矩阵，W_1xg表示输入与计算新的c_1t的候选值间的门的权值矩阵，W_1zg表示输出值与计算新的c_1t的候选值间的门的权值矩阵，W_1of表示输出门输出与遗忘门输出间的门的权值矩阵，W_1zo表示输出值与输出门输出间的门的权值矩阵，b_1f来表示遗忘门输出的隐藏状态，b_1i来表示输入门输出隐藏状态，b_1g来表示计算新的c_1t的候选值的隐藏状态，b_1o来表示输出门输出的隐藏状态，f_1t表示遗忘门输出，i_1t表示输入门输出，o_1t表示输出门的输出。c_1t是细胞元状态值，z_t是输出值，g_1t是计算新的c_1t的候选值；

(1.4)通过如下公式计算每一个视频图像序列对应所有标签集的概率分布：

其中，p_train(y|z_t)是该步骤输出的概率分布，W_y是第t帧图像的隐藏状态；

步骤1)中第(2)步包括：根据LSTM算法的标准流程，将所得的概率分布与数据库中原有的概率分布进行处理，得到更新的转移矩阵；返回第(1)步，直到损失率小于等于0.1，得到基于LSTM网络的模型。

步骤2)包括：

(1)对于待测的视频图像序列x₀＝{x₀₁,x₀₂,…,x_0t,…,x_0n}，在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出待测的视频图像序列x₀的fc7层作为视频图像特征，其中，x₀₁,x₀₂,…,x_0t,…,x_0n分别对应待测的视频图像序列x₀中第一帧、第二帧、…、第t帧、…、第n帧图像；

(2)将所提取的视频图像特征输入到第一个LSTM网络系统中，对于输入的第t帧图像x_0t，分别计算以下的变量：

f_t＝σ(W_xfx_0t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_0t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_0t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_0t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_xf表示输入与遗忘门输出间的门的权值矩阵，W_hf表示隐藏状态值与遗忘门输出间的门的权值矩阵，W_xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_hi表示隐藏状态值与输入门输出间的门的权值矩阵，W_xg表示输入与计算新的c_t的候选值间的门的权值矩阵，W_hg表示隐藏状态值与计算新的c_t的候选值间的门的权值矩阵，W_of表示输出门输出与遗忘门输出间的门的权值矩阵，W_ho表示隐藏状态值与输出门输出间的门的权值矩阵，b_f来表示遗忘门输出的隐藏状态，b_i来表示输入门输出隐藏状态，b_g来表示计算新的c_t的候选值的隐藏状态，b_o来表示输出门输出的隐藏状态，f_t表示遗忘门输出，i_t表示输入门输出，o_t表示输出门的输出，c_t是细胞元状态值，h_t是隐藏状态值，g_t是计算新的c_t的候选值；

(3)将第(2)步所得的待测的视频图像序列x₀中的所有隐藏状态值h_t，t＝1，2，…，n，输入到第二个LSTM网络系统中，分别计算以下的变量：

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofh_t+W_1zoz_t-1+b_1o)

z_t＝o_1t⊙tanh(c_1t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_1xf表示输入与遗忘门输出间的门的权值矩阵，W_1zf表示输出值与遗忘门输出间的门的权值矩阵，W_1xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_1zi表示输出值与输入门输出间的门的权值矩阵，W_1xg表示输入与计算新的c_1t的候选值间的门的权值矩阵，W_1zg表示输出值与计算新的c_1t的候选值间的门的权值矩阵，W_1of表示输出门输出与遗忘门输出间的门的权值矩阵，W_1z0表示输出值与输出门输出间的门的权值矩阵，b_1f来表示遗忘门输出的隐藏状态，b_1i来表示输入门输出隐藏状态，b_1g来表示计算新的c_1t的候选值的隐藏状态，b_1o来表示输出门输出的隐藏状态，f_1t表示遗忘门输出，i_1t表示输入门输出，o_1t表示输出门的输出，c_1t是细胞元状态值，z_t是输出值，g_1t是计算新的c_1t的候选值；

(4)通过如下公式计算待测的视频图像序列x₀对应所有标签集的概率分布：

其中，p_test(y|z_y)是输出的概率分布，z_t是第(3)步中的输出，这样就取得了所测的视频事件检测结果。

本发明的一种基于LSTM网络的多标签视频事件检测方法，具有的有益效果是：

1、通过本发明的方法生成监控视频的多个事件报告，回避了对象监测和跟踪过程；

2、本发明的方法针对监控视频的处理基于长短期记忆网络设计了全新的网络结构；

3、本发明的方法大幅提高了监控视频处理的效率和鲁棒性，改善了传统方法针对同时发生的多个事件识别效果差的问题。

附图说明

图1是双层LSTM网络结构图。

具体实施方式

下面结合实施例和附图对本发明的一种基于LSTM网络的多标签视频事件检测方法做出详细说明。

本发明的一种基于LSTM网络的多标签视频事件检测方法，包括如下步骤：

1)将Concurrent Event Dataset数据库中的所有视频图像序列生成一个基于LSTM网络的模型，该数据库标注了16-42分钟的视频片段多个，含有下列事件标签：行走2305个，转身1992个，食用食品2527个，拿取食品896个，使用手机2921个，书写1211个，讨论4756个，物品抓取278个。这些事件被分入5435个2秒的视频图像序列之中。

所述的生成一个基于LSTM网络的模型包括：

(1)获取每一个视频图像序列对应所有标签集的概率分布；包括：

(1.2)将所提取的视频图像特征输入到如图1所示的第一个LSTM1网络系统中，对于输入的第t帧图像x_t，分别计算以下的变量：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

(1.3)将第(1.2)步得到的视频图像序列x中的所有隐藏状态值h_t，t＝1，2，…，n，输入到如图1所示的第二个LSTM2网络系统中，分别计算以下的变量：

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofh_t+W_1zoz_t-1+b_1o)

z_t＝o_1t⊙tanh(c_1t)

其中，p_train(y|z_t)是该步骤输出的概率分布，W_y是第t帧图像的隐藏状态。

(2)通过所得概率分布更新网络，得到基于LSTM网络的模型；包括：根据LSTM算法的标准流程，将所得的概率分布与数据库中原有的概率分布进行处理，得到更新的转移矩阵；返回第(1)步，直到损失率小于等于0.1，得到基于LSTM网络的模型。

2)对于待检测的视频使用基于LSTM网络的模型获得对应标签集的概率分布。包括：

(2)将所提取的视频图像特征输入到如图1所示的第一个LSTM1网络系统中，对于输入的第t帧图像x_0t，分别计算以下的变量：

f_t＝σ(W_xfx_0t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_0t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_0t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_0t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

(3)将第(2)步所得的待测的视频图像序列x₀中的所有隐藏状态值h_t，t＝1，2，…，n，输入到如图1所示的第二个LSTM2网络系统中，分别计算以下的变量：

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofh_t+W_1zoz_t-1+b_1o)

z_t＝0_1t⊙tanh(c_1t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_1xf表示输入与遗忘门输出间的门的权值矩阵，W_1zf表示输出值与遗忘门输出间的门的权值矩阵，W_1xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_1zi表示输出值与输入门输出间的门的权值矩阵，W_1xg表示输入与计算新的c_1t的候选值间的门的权值矩阵，W_1zg表示输出值与计算新的c_1t的候选值间的门的权值矩阵，W_1of表示输出门输出与遗忘门输出间的门的权值矩阵，W_1zo表示输出值与输出门输出间的门的权值矩阵，b_1f来表示遗忘门输出的隐藏状态，b_1i来表示输入门输出隐藏状态，b_1g来表示计算新的c_1t的候选值的隐藏状态，b_1o来表示输出门输出的隐藏状态，f_1t表示遗忘门输出，i_1t表示输入门输出，o_1t表示输出门的输出，c_1t是细胞元状态值，z_t是输出值，g_1t是计算新的c_1t的候选值；

参考文献：

[1]Gutchess D,Trajkovics M,Cohen-Solal E,et al.A background modelinitialization algorithm for video surveillance[C]//Computer Vision,2001.ICCV2001.Proceedings.Eighth IEEE International Conference on.IEEE,2001,1:733-740.

[2]Fan C,Crandall D J.Deepdiary:Automatically captioning lifeloggingimage streams[C]//European Conference on Computer Vision.SpringerInternational Publishing,2016:459-473.

[3]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatialpyramid matching for recognizing natural scene categories[C]//Computer visionand pattern recognition,2006 IEEE computer society conference on.IEEE,2006,2:2169-2178.

[4]Ibrahim M S,Muralidharan S,Deng Z,et al.A hierarchical deeptemporal model for group activity recognition[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016:1971-1980.

[5]Lan T,Wang Y,Yang W,et al.Discriminative latent models forrecognizing contextual group activities[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2012,34(8):1549-1562.

[6]Liu A A,Su Y T,Nie W Z,et al.Hierarchical clustering multi-tasklearning for joint human action grouping and recognition[J].IEEE transactionson pattern analysis and machine intelligence,2017,39(1):102-114.

[7]Pritch Y,Ratovitch S,Hendel A,et al.Clustered synopsis ofsurveillance video[C]//Advanced Video and Signal Based Surveillance,2009.AVSS'09.Sixth IEEE International Conference on.IEEE,2009:195-200.

[8]Tu K,Meng M,Lee M W,et al.Joint video and text parsing forunderstanding events and answering queries[J].IEEE MultiMedia,2014,21(2):42-70.

[9]He X,Gao M,Kan M Y,et al.Birank:Towards ranking on bipartitegraphs[J].IEEE Transactions on Knowledge and Data Engineering,2017,29(1):57-71.

[10]Hochreiter S,Schmidhuber J.LSTM can solve hard long time lagproblems[C]//Advances in neural information processing systems.1997:473-479.

Claims

1.一种基于LSTM网络的多标签视频事件检测方法，其特征在于，包括如下步骤：

(1.1)对于给定的一个视频图像序列x＝{x₁，x₂，…，x_t，…，x_n}及所对应的标签集y＝{y₁，y₂，…，y_j，…，y_m}，在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出图像序列x对应的fc7层作为视频图像特征，其中，x₁，x₂，…，x_t，…，x_n分别对应视频图像中第一帧、第二帧、…和第n帧图像；y₁，y₂，…，y_j，…，y_m是所述视频图像中发生的关键事件；

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_xf表示输入与遗忘门输出间的门的权值矩阵，W_hf表示隐藏状态值与遗忘门输出间的门的权值矩阵，W_xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_hi表示隐藏状态值与输入门输出间的门的权值矩阵，W_xg表示输入与计算新的c_t的候选值间的门的权值矩阵，W_hg表示隐藏状态值与计算新的c_t的候选值间的门的权值矩阵，W_of表示输出门输出与遗忘门输出间的门的权值矩阵，W_ho表示隐藏状态值与输出门输出间的门的权值矩阵，b_f来表示遗忘门输出的隐藏状态，b_i来表示输入门输出隐藏状态，b_g来表示计算新的c_t的候选值的隐藏状态，b_o来表示输出门输出的隐藏状态，f_t表示遗忘门输出，i_t表示输入门输出，o_t表示输出门的输出；c_t是细胞元状态值，h_t是隐藏状态值，g_t是计算新的c_t的候选值；

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofh_t+W_1zoz_t-1+b_1o)

z_t＝o_1t⊙tanh(c_1t)

其中，σ是元素级别的逻辑sigmoid函数，tanh是双曲正切函数，⊙是元素对应项乘法；W_1xf表示输入与遗忘门输出间的门的权值矩阵，W_1zf表示输出值与遗忘门输出间的门的权值矩阵，W_1xi表示输入门输出与遗忘门输出间的门的权值矩阵，W_1zi表示输出值与输入门输出间的门的权值矩阵，W_1xg表示输入与计算新的c_1t的候选值间的门的权值矩阵，W_1zg表示输出值与计算新的c_1t的候选值间的门的权值矩阵，W_1of表示输出门输出与遗忘门输出间的门的权值矩阵，W_1zo表示输出值与输出门输出间的门的权值矩阵，b_1f来表示遗忘门输出的隐藏状态，b_1i来表示输入门输出隐藏状态，b_1g来表示计算新的c_1t的候选值的隐藏状态，b_1o来表示输出门输出的隐藏状态，f_1t表示遗忘门输出，i_1t表示输入门输出，o_1t表示输出门的输出；c_1t是细胞元状态值，z_t是输出值，g_1t是计算新的c_1t的候选值；

其中，p_train(y|z_t)是该步骤输出的概率分布，W_y是第t帧图像与第y事件标签间的权重矩阵，W_m是第t帧图像与第m事件标签的权重矩阵；

(2)通过所得概率分布更新网络，得到基于LSTM网络的模型；

2.根据权利要求1所述的一种基于LSTM网络的多标签视频事件检测方法，其特征在于，步骤1)中第(2)步包括：根据LSTM算法的标准流程，将所得的概率分布与数据库中原有的概率分布进行处理，得到更新的转移矩阵；返回第(1)步，直到损失率小于等于0.1，得到基于LSTM网络的模型。

3.根据权利要求1所述的一种基于LSTM网络的多标签视频事件检测方法，其特征在于，步骤2)包括：

(1)对于待测的视频图像序列x₀＝{x₀₁，x₀₂，…，x_0t，…，x_0n}，在VGG-16数据库上使用CNN算法基于Imagenet网络提取输出待测的视频图像序列x₀的fc7层作为视频图像特征，其中，x₀₁，x₀₂，…，x_0t，…，x_0n分别对应待测的视频图像序列x₀中第一帧、第二帧、…、第t帧、…、第n帧图像；

f_t＝σ(W_xfx_0t+W_hfh_t-1+b_f)

i_t＝σ(W_xix_0t+W_hih_t-1+b_i)

g_t＝tanh(W_xgx_0t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

o_t＝σ(W_ofx_0t+W_hoh_t-1+b_o)

h_t＝o_t⊙tanh(c_t)

f_1t＝σ(W_1xfz_t+W_1zfz_t-1+b_1f)

i_1t＝σ(W_1xih_t+W_1ziz_t-1+b_1i)

g_1t＝tanh(W_1xgh_t+W_1zgz_t-1+b_1g)

c_1t＝f_1t⊙c_1(t-1)+i_1t⊙g_1t

o_1t＝σ(W_1ofht+W_1zoz_t-1+b_1o)

z_t＝o_1t⊙tanh(c_1t)