CN109508642B - 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 - Google Patents

基于双向gru和注意力机制的船舶监控视频关键帧提取方法 Download PDF

Info

Publication number
CN109508642B
CN109508642B CN201811210888.6A CN201811210888A CN109508642B CN 109508642 B CN109508642 B CN 109508642B CN 201811210888 A CN201811210888 A CN 201811210888A CN 109508642 B CN109508642 B CN 109508642B
Authority
CN
China
Prior art keywords
video
frame
key frame
ship
bidirectional gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811210888.6A
Other languages
English (en)
Other versions
CN109508642A (zh
Inventor
刘俊
林贤早
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201811210888.6A priority Critical patent/CN109508642B/zh
Publication of CN109508642A publication Critical patent/CN109508642A/zh
Application granted granted Critical
Publication of CN109508642B publication Critical patent/CN109508642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于双向GRU和注意力机制的船舶监控视频关键帧提取方法,包括以下步骤:步骤S1:使用大量的海边船舶监控视频数据集训练双向GRU和注意力机制模型。步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取,提供快速检索船舶的关键帧集合。采用本发明的技术方案,将关键帧提取应用到船舶监控视频中,剔除了大量冗余视频帧,提供船舶事件的高效检索和浏览,节约了视频存储的开销;同时,采用双向GRU和注意力机制对视频帧的前后关系进行建模,将时间信息融合进模型中,且每个时刻的信息给予不同的权重,即每个时刻给予不同的关注程度,得到更符合人类语义的关键帧集合。

Description

基于双向GRU和注意力机制的船舶监控视频关键帧提取方法
技术领域
本发明涉及基于船舶视频内容的快速检索和船舶数据的轻量存储,尤其涉及基于双向GRU和注意力机制的船舶监控视频关键帧提取方法。
背景技术
视频已经成为视觉信息最常见的来源之一。视频数据的规模正在急速扩大,对于每天上传到Youtube的视频,个人用户需要超过100年的时间才能全部看完。那么自动的分析和理解视频内容的工具就显得非常重要。特别地说,自动视频关键帧提取技术能够帮助用户浏览视频数据。效果好的视频关键帧集合能够简洁的表示原来的视频,提取出重要的事件,用简短可看的关键帧摘要表示原有视频的内容。随着海边监控摄像头的部署,产生了大量的船舶视频,带来了昂贵的存储。对于海量的监控船舶的视频数据,存在着大量的冗余,我们可以通过关键帧的提取,简洁表达其中的船舶运行事件,提供快速的船舶事件检索和浏览服务。
表示基于视频内容的事件需要提取整个视频中最富含信息和最简练表达的视频帧。这些帧被叫做关键帧。视频关键帧的提取可分为有监督的方法和无监督方法。无监督方法包括基于视频镜头的关键帧提取方法,基于视频内容分析的方法,基于动作分析的关键帧提取方法,基于聚类的关键帧提取方法。相对于无监督方法来说,有监督方案直接从人为制作的视频关键帧标注中学习潜在的关键帧选取标准,同时这些被选取的帧与人类对视频内容的理解会更加的相似。现有有监督关键帧提取方案主要存在以下两个问题:
1、现有的关键帧提取往往会忽略视频帧之间的联系,针对视频语义的视频关键帧提取,我们不仅要利用上视频帧的视觉特征,还需要利用视频帧之间的关系,如果丢失时间上的联系,会很大程度脱离视频关键帧的提取标准。
2、对于视频关键帧的提取,常常会忽略视频帧序列中的关注性问题,相邻的帧可能对该帧的关键性进行增益和抑制,缺乏对这种注意力机制的建模,对于关键帧的提取带了负面的效果。
故,针对现有技术的缺陷,是有必要提出一种能够解决现有问题的技术方案。
发明内容
有鉴于此,有必要提出基于双向GRU和注意力机制的船舶监控视频关键帧提取方法,将关键帧提取应用到船舶监控视频中,剔除了大量冗余视频帧,提供船舶事件的高效检索和浏览,节约了视频存储的开销。同时,采用双向GRU和注意力机制对视频帧的前后关系进行建模,将时间信息融合进模型中,且每个时刻的信息给予不同的权重,即每个时刻给予不同的关注程度,得到更符合人类语义的关键帧集合。
为了克服现有技术的缺陷,本发明的技术方案如下:
基于双向GRU和注意力机制的船舶监控视频关键帧提取方法,包括以下步骤:
步骤S1:使用大量的海边监控视频数据集训练双向GRU和注意力机制模型;
步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取,提供快速检索船舶的关键帧集合;
其中,所述步骤S1进一步包括:
步骤S11:获取海边关于船舶监测的视频数据,并进行预处理和标注;
所述步骤S11进一步包括:
S111:采用固定视频采样率对视频进行帧采样,得到图像序列。按照每帧图像对船舶事件的贡献进行标注,y表示视频帧是否为关键帧的标签项,如果是关键帧,标记为y=1;如果不是关键帧,标记为y=0。从而构成提供有标签的视频帧数据集,以支持后续的模型训练。
步骤S12:将标注好的关键帧标签存在MySQL数据库中;
步骤S13:从MySQL数据库中获取视频帧标签数据。使用特征提取方法对视频的每帧进行处理,获取关于每帧的特征向量,结合标注的标签,对双向的GRU和注意力关键帧提取模型进行训练;
所述步骤S13进一步包括:
步骤S131:假设f={f1,f2,...,ft,...fT}是视频帧的集合,通过公开数据集上预训练过的图像分类模型的特征提取部分对每一帧图像进行特征提取,得到的特征向量集合为x={x1,x2,...,xt,...xT},xt是在t时刻获取的视觉特征,ft是视频采样后在t时刻的视频帧,两个集合下标相对应。T是该视频进行帧采样后包含的视频帧总数目。
步骤S132:使用双向GRU对视频帧之间的联系进行建模,GRU是其基本单元,它受欢迎的原因是模型比标准的长短时记忆网络更加简洁。GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码。下面为t-1时刻到t时刻,记忆细胞中状态的变化。
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure GDA0003092072920000041
Figure GDA0003092072920000042
GRU有两个门,重置门rt和更新门zt。ht-1是t-1记忆细胞的输出状态,ht是t时刻的记忆细胞的输出状态。xt是上一步得到的视频帧特征向量,σ是sigmod函数,Wz和Wr分别是更新门和重置门的权重,[]表示两个向量相连,*表示点乘,·表示矩阵相乘。直观的来讲,重置门rt决定保留多少前一个时刻的输出信息。更新门zt不仅决定选择遗忘多少前一个时刻的信息,而且对当前时刻的信息进行控制。为了对前后的帧联系信息都进行编码,使用双向的GRU对视频帧序列分别进行前向和反向编码。
步骤S133:在双向GRU网络的记忆细胞输出状态ht加上注意力机制。
ut=tanh(Wwht+bw)
Figure GDA0003092072920000043
Figure GDA0003092072920000044
ht是t时刻双向GRU网络的隐藏层输出,通过单层感知器将ht编码成包含时间信息的高层语义输出ut,Ww是单层感知器的权重,bw是偏置,tanh是激活函数。uw是图像序列的语义向量,将该向量与每个时间点的高层语义输出状态ut的做内积,然后通过softmax得到每个时间点的隐含状态的对整个语义的贡献概率at
Figure GDA0003092072920000045
是经过注意力机制后t时刻的视频帧语义向量。
步骤S134:对上一步得到的
Figure GDA0003092072920000046
通过全连接层对每帧进行二分类,得到预测值p。该损失函数选为交叉熵损失函数:
Figure GDA0003092072920000047
通过批量随机梯度下降法,梯度反向传播对该模型包含的权重参数进行优化,得到上述模型的最优化参数θ。
所述步骤S2进一步包括:
步骤S21:使用训练好的基于双向GRU和注意力的船舶监控视频关键帧提取模型,预测历史固定时间段的监测视频数据是否存在船舶运行事件的关键帧,预测的结果index_x={index_x1,index_x2...,index_xt},index_xt等于1或者0。
所述步骤S21进一步包括:
步骤S211:对于输入的视频数据进行帧采样,得到固定时间段的视频帧序列集合G={g1,g2,...gT1},T1是双向GRU训练的时间步长。
步骤S212:将G输入到预训练好的特征提取模型,得到特征向量集合x,将特征集合x输入到双向GRU和注意力机制关键帧提取模型中,预测出该视频帧序列是否包含关键帧,记做结果向量index_x,联合结果向量index_x和原先的视频帧序列,挑选出关键帧图像K={k1,k2,..kr}加入到MySQL数据库中,r为原来视频帧序列G中的关键帧数目。
步骤S22:按照上面的步骤,迭代训练好的双向GRU和注意力机制关键帧提取模型,得到监控视频中所有关于船舶事件的关键帧集合,并存储在MySQL数据库中。
与现有技术相比较,本发明具有的有益效果:
1.现有的关键帧提取都会忽略视频帧之间的联系,针对视频语义的视频关键帧提取,我们不仅要利用上视频帧的视觉特征,还需要利用视频帧之间的关系,本发明使用双向循环神经网络对视频间的关系进行建模,能够提升模型对于挑选关键帧的能力。在对时间序列的建模中,循环神经网络RNN由于其记忆长期依赖的能力已经被广泛的使用。然而,简单的RNN会有梯度弥散或者爆炸的问题。为了解决这个问题,长短时记忆网络LSTM利用其门控机制控制输入,记忆等信息,巧妙地解决梯度弥散和爆炸的问题。本发明选用的循环门单元GRU。它受欢迎的原因GRU模型的参数相对更少,因此训练的速度会稍快。GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码。双向GRU则能对前后视频帧信息进行编码。
2.对于视频关键帧的提取,常常会忽略视频帧序列中的关注性问题,相邻的帧可能对该帧的关键性进行增益和抑制,本文采用注意力机制的建模方法,对于关键帧的提取的性能进行了泛化,更加符合潜在的关键帧提取标准。注意力机制常用在传统的编码器-解码器结构当中,保留循环神经网络的中间输出结果,然后将这些中间与解码器所用的隐含状态向量组合生成注意力向量,这种方法已经广泛应用于机器翻译,文本摘要。本发明设计一个uw作为整个图像序列的语义向量,将该向量与每个时间点的隐含状态ut的做内积,然后softmax得到每个时间点的隐含状态的对整个语义的贡献概率at
ut=tanh(Wwht+bw)
Figure GDA0003092072920000061
Figure GDA0003092072920000062
ht是GRU单元输出的隐藏层,ut是其经过单层感知器得到的。
Figure GDA0003092072920000063
是经过注意力机制后的语义向量。加入注意力机制,模型能够有效的捕捉周围图像之间的相互作用,训练模型得到需要关注的关键帧。
3.将关键帧提取应用到船舶监控视频中,剔除了大量冗余视频帧,提供船舶事件的高效检索和浏览,节约了视频存储的开销。
附图说明
图1为本发明基于双向GRU和注意力机制船舶监控视频关键帧提取方法的流程图;
图2为本发明基于双向GRU和注意力机制船舶监控视频关键帧提取方法的框架模型;
具体实施方式
以下将结合附图对本发明提供的技术方案作进一步说明。
本发明中,将船舶监控视频关键帧预测看成结构预测问题。输入是视频帧序列,输出是二值向量,表明是否选中该帧为关键帧。使用双向GRU可以很好地将前后时间的视频帧信息统一进行编码,注意力机制给予每个时刻不同的关注性,得到更符合人类提取关键帧的标准。使用交叉损失函数和批量随机梯度下降法对模型的参数进行优化。为此,本发明提供了基于船舶视频的双向GRU和注意力机制的关键帧提取方法。
参见图1和图2,所示为本发明基于双向GRU和注意力机制船舶视频关键帧提取方法的流程图及其提取模型,整体而言,本发明包括2大步骤,步骤S1:使用大量的海边监控视频数据集训练双向GRU和注意力机制模型;步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取,提供快速检索船舶的关键帧集合;
步骤S1:使用大量的海边监控视频数据集训练双向GRU和注意力机制模型;
步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取,提供快速检索船舶的关键帧集合;
其中,所述步骤S1进一步包括:
步骤S11:获取海边关于船舶监测的视频数据,并进行预处理和标注;
所述步骤S11进一步包括:
S111:采用固定视频采样率对视频进行帧采样,得到图像序列。按照每帧图像对船舶事件的贡献进行标注,y表示视频帧是否为关键帧的标签项,如果是关键帧,标记为y=1;如果不是关键帧,标记为y=0。从而构成提供有标签的视频帧数据集,以支持后续的模型训练。
步骤S12:将标注好的关键帧标签存在MySQL数据库中;
步骤S13:从MySQL数据库中获取视频帧标签数据。使用特征提取方法对视频的每帧进行处理,获取关于每帧的特征向量,结合标注的标签,对双向的GRU和注意力关键帧提取模型进行训练;
所述步骤S13进一步包括:
步骤S131:假设f={f1,f2,...,ft,...fT}是视频帧的集合,通过公开数据集上预训练过的图像分类模型的特征提取部分对每一帧图像进行特征提取,得到的特征向量集合为x={x1,x2,...,xt,...xT},xt是在t时刻获取的视觉特征,ft是视频采样后在t时刻的视频帧,两个集合下标相对应。T是该视频进行帧采样后包含的视频帧总数目。
步骤S132:使用双向GRU对视频帧之间的联系进行建模,GRU是其基本单元,它受欢迎的原因是模型比标准的长短时记忆网络更加简洁。GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码。下面为t-1时刻到t时刻,记忆细胞中状态的变化。
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure GDA0003092072920000081
Figure GDA0003092072920000082
GRU有两个门,重置门rt和更新门zt。ht-1是t-1记忆细胞的输出状态,ht是t时刻的记忆细胞的输出状态。xt是上一步得到的视频帧特征向量,σ是sigmod函数,Wz和Wr分别是更新门和重置门的权重,[]表示两个向量相连,*表示点乘,·表示矩阵相乘。直观的来讲,重置门rt决定保留多少前一个时刻的输出信息。更新门zt不仅决定选择遗忘多少前一个时刻的信息,而且对当前时刻的信息进行控制。为了对前后的帧联系信息都进行编码,使用双向的GRU对视频帧序列分别进行前向和反向编码。
步骤S133:在双向GRU网络的记忆细胞输出状态ht加上注意力机制。
ut=tanh(Wwht+bw)
Figure GDA0003092072920000091
Figure GDA0003092072920000092
ht是t时刻双向GRU网络的隐藏层输出,通过单层感知器将ht编码成包含时间信息的高层语义输出ut,Ww是单层感知器的权重,bw是偏置,tanh是激活函数。uw是图像序列的语义向量,将该向量与每个时间点的高层语义输出状态ut的做内积,然后通过softmax得到每个时间点的隐含状态的对整个语义的贡献概率at
Figure GDA0003092072920000093
是经过注意力机制后t时刻的视频帧语义向量。
步骤S134:对上一步得到的
Figure GDA0003092072920000094
通过全连接层对每帧进行二分类,得到预测值p。该损失函数选为交叉熵损失函数:
Figure GDA0003092072920000095
通过批量随机梯度下降法,梯度反向传播对该模型包含的权重参数进行优化,得到上述模型的最优化参数θ。
所述步骤S2进一步包括:
步骤S21:使用训练好的基于双向GRU和注意力的船舶监控视频关键帧提取模型,预测历史固定时间段的监测视频数据是否存在船舶运行事件的关键帧,预测的结果index_x={index_x1,index_x2...,index_xt},index_xt等于1或者0。
所述步骤S21进一步包括:
步骤S211:对于输入的视频数据进行帧采样,得到固定时间段的视频帧序列集合G={g1,g2,...gT1},T1是双向GRU训练的时间步长。
步骤S212:将G输入到预训练好的特征提取模型,得到特征向量集合x,将特征集合x输入到双向GRU和注意力机制关键帧提取模型中,预测出该视频帧序列是否包含关键帧,记做结果向量index_x,联合结果向量index_x和原先的视频帧序列,挑选出关键帧图像K={k1,k2,..kr}加入到MySQL数据库中,r为原来视频帧序列G中的关键帧数目。
步骤S22:按照上面的步骤,迭代训练好的双向GRU和注意力机制关键帧提取模型,得到监控视频中所有关于船舶事件的关键帧集合,并存储在MySQL数据库中。
在本发明中船舶检测数据集为实际海边视频数据的收集。我们收集了2个月的视频数据来提供实验数据集。海量的数据集被随机的分割成训练集和测试集,其中使用80%的视频数据作为训练集,20%的视频数据作为测试集。搭建高性能CUDA运算平台设备以解决复杂的计算问题,训练准确的双向GRU和注意力机制船舶监控视频关键帧提取模型。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.基于双向GRU和注意力机制的船舶监控视频关键帧提取方法,其特征在于,包括以下步骤:
步骤S1:使用大量的海边监控视频数据集训练双向GRU和注意力机制模型;
步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取,提供快速检索船舶的关键帧集合;
其中,所述步骤S1进一步包括:
步骤S11:获取海边关于船舶监测的视频数据,并进行预处理和标注;
其中,所述步骤S11进一步包括:
S111:采用固定视频采样率对视频进行帧采样,得到图像序列;按照每帧图像对船舶事件的贡献进行标注,y表示视频帧是否为关键帧的标签项,如果是关键帧,标记为y=1;如果不是关键帧,标记为y=0;从而构成提供有标签的视频帧数据集,以支持后续的模型训练;
步骤S12:将标注好的关键帧标签存在MySQL数据库中;
步骤S13:从MySQL数据库中获取视频帧标签数据;使用特征提取方法对视频的每帧进行处理,获取关于每帧的特征向量,结合标注的标签,对双向的GRU和注意力关键帧提取模型进行训练;
所述步骤S13进一步包括:
步骤S131:假设f={f1,f2,...,ft,...fT}是视频帧的集合,通过公开数据集上预训练过的图像分类模型的特征提取部分对每一帧图像进行特征提取,得到的特征向量集合为x={x1,x2,...,xt,...xT},xt是在t时刻获取的视觉特征,ft是视频采样后在t时刻的视频帧,两个集合下标相对应;T是该视频进行帧采样后包含的视频帧总数目;
步骤S132:使用双向GRU对视频帧之间的联系进行建模,GRU是其基本单元,GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码;下面为t-1时刻到t时刻,记忆细胞中状态的变化:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0003092072910000021
Figure FDA0003092072910000022
其中,GRU有两个门,重置门rt和更新门zt;ht-1是t-1记忆细胞的输出状态,ht是t时刻的记忆细胞的输出状态;xt是上一步得到的视频帧特征向量,σ是sigmod函数,Wz和Wr分别是更新门和重置门的权重,[]表示两个向量相连,*表示点乘,·表示矩阵相乘;直观的来讲,重置门rt决定保留多少前一个时刻的输出信息;更新门zt不仅决定选择遗忘多少前一个时刻的信息,而且对当前时刻的信息进行控制;为了对前后的帧联系信息都进行编码,使用双向的GRU对视频帧序列分别进行前向和反向编码;
步骤S133:在双向GRU网络的记忆细胞输出状态ht加上注意力机制:
ut=tanh(Wwht+bw)
Figure FDA0003092072910000023
Figure FDA0003092072910000024
其中,ht是t时刻双向GRU网络的隐藏层输出,通过单层感知器将ht编码成包含时间信息的高层语义输出ut,Ww是单层感知器的权重,bw是偏置,tanh是激活函数;uw是图像序列的语义向量,将该向量与每个时间点的高层语义输出状态ut的做内积,然后通过softmax得到每个时间点的隐含状态的对整个语义的贡献概率at
Figure FDA0003092072910000025
是经过注意力机制后t时刻的视频帧语义向量;
步骤S134:对上一步得到的
Figure FDA0003092072910000026
通过全连接层对每帧进行二分类,得到预测值p;损失函数选为交叉熵损失函数:
Figure FDA0003092072910000031
通过批量随机梯度下降法,梯度反向传播对该模型包含的权重参数进行优化,得到上述模型的最优化参数θ;
所述步骤S2进一步包括:
步骤S21:使用训练好的基于双向GRU和注意力的船舶监控视频关键帧提取模型,预测历史固定时间段的监测视频数据是否存在船舶运行事件的关键帧,预测的结果index_x={index_x1,index_x2...,index_xt},index_xt等于1或者0;
所述步骤S21进一步包括:
步骤S211:对于输入的视频数据进行帧采样,得到固定时间段的视频帧序列集合G={g1,g2,...gT1},T1是双向GRU训练的时间步长;
步骤S212:将G输入到预训练好的特征提取模型,得到特征向量集合x,将特征集合x输入到双向GRU和注意力机制关键帧提取模型中,预测出该视频帧序列是否包含关键帧,记做结果向量index_x,联合结果向量index_x和原先的视频帧序列,挑选出关键帧图像K={k1,k2,..kr}加入到MySQL数据库中,r为原来视频帧序列G中的关键帧数目;
步骤S22:按照上面的步骤,迭代训练好的双向GRU和注意力机制关键帧提取模型,得到监控视频中所有关于船舶事件的关键帧集合,并存储在MySQL数据库中。
CN201811210888.6A 2018-10-17 2018-10-17 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 Active CN109508642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210888.6A CN109508642B (zh) 2018-10-17 2018-10-17 基于双向gru和注意力机制的船舶监控视频关键帧提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210888.6A CN109508642B (zh) 2018-10-17 2018-10-17 基于双向gru和注意力机制的船舶监控视频关键帧提取方法

Publications (2)

Publication Number Publication Date
CN109508642A CN109508642A (zh) 2019-03-22
CN109508642B true CN109508642B (zh) 2021-08-17

Family

ID=65746647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210888.6A Active CN109508642B (zh) 2018-10-17 2018-10-17 基于双向gru和注意力机制的船舶监控视频关键帧提取方法

Country Status (1)

Country Link
CN (1) CN109508642B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134757B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
CN110418210B (zh) * 2019-07-12 2021-09-10 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN110505534B (zh) * 2019-08-26 2022-03-08 腾讯科技(深圳)有限公司 监控视频处理方法、装置及存储介质
CN111177460B (zh) * 2019-12-20 2023-04-18 腾讯科技(深圳)有限公司 提取关键帧的方法及装置
CN111671426B (zh) * 2020-05-13 2022-07-12 北京航空航天大学 基于柔性传感和深度学习的人体呼吸状态监测系统及方法
CN111738112B (zh) * 2020-06-10 2023-07-07 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
CN112487145B (zh) * 2020-12-01 2022-07-29 重庆邮电大学 一种o2o商铺食品安全监测方法
CN112488014B (zh) * 2020-12-04 2022-06-10 重庆邮电大学 基于门控循环单元的视频预测方法
CN112613486B (zh) * 2021-01-07 2023-08-08 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
CN112766603A (zh) * 2021-02-01 2021-05-07 湖南大学 一种交通流量预测方法、系统、计算机设备及存储介质
CN113435216B (zh) * 2021-06-24 2023-06-23 湖南大学 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN113762591B (zh) * 2021-07-20 2024-04-05 国网山东省电力公司菏泽供电公司 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质
CN116259110B (zh) * 2023-05-09 2023-08-08 杭州木兰科技有限公司 Atm防护舱的安全检测方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034267A (zh) * 2010-11-30 2011-04-27 中国科学院自动化研究所 基于关注度的目标物三维重建方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107995536A (zh) * 2017-11-28 2018-05-04 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034267A (zh) * 2010-11-30 2011-04-27 中国科学院自动化研究所 基于关注度的目标物三维重建方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107995536A (zh) * 2017-11-28 2018-05-04 百度在线网络技术(北京)有限公司 一种提取视频预览的方法、装置、设备和计算机存储介质
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108399158A (zh) * 2018-02-05 2018-08-14 华南理工大学 基于依存树和注意力机制的属性情感分类方法
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法

Also Published As

Publication number Publication date
CN109508642A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508642B (zh) 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN111309971B (zh) 一种基于多级编码的文本到视频的跨模态检索方法
WO2021164326A1 (zh) 一种视频处理方法、装置、设备及计算机可读存储介质
CN110929092B (zh) 一种基于动态注意力机制的多事件视频描述方法
KR102480323B1 (ko) 비디오 시간 세그먼트를 검색하는 방법과 시스템
Rothfuss et al. Deep episodic memory: Encoding, recalling, and predicting episodic experiences for robot action execution
Cascianelli et al. Full-GRU natural language video description for service robotics applications
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN109829495A (zh) 基于lstm和dcgan的时序性图像预测方法
CN112468888A (zh) 基于gru网络的视频摘要生成方法与系统
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN111104555A (zh) 基于注意力机制的视频哈希检索方法
CN114494973B (zh) 视频语义分割网络的训练方法、系统、设备及存储介质
CN117475038B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
Yan et al. Video-text pre-training with learned regions
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
CN111680190B (zh) 一种融合视觉语义信息的视频缩略图推荐方法
CN117115706A (zh) 基于多尺度时空注意力网络的视频场景图生成方法
CN114677631B (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
CN115188022A (zh) 一种基于一致性半监督深度学习的人体行为识别方法
CN113312980B (zh) 一种视频密集描述方法、装置及介质
CN114817627A (zh) 基于多面视频表示学习的文本到视频的跨模态检索方法
CN113743306A (zh) 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法
Phuc et al. Video captioning in Vietnamese using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant