CN109508642B

CN109508642B - 基于双向gru和注意力机制的船舶监控视频关键帧提取方法

Info

Publication number: CN109508642B
Application number: CN201811210888.6A
Authority: CN
Inventors: 刘俊; 林贤早
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2021-08-17
Anticipated expiration: 2038-10-17
Also published as: CN109508642A

Abstract

本发明公开了基于双向GRU和注意力机制的船舶监控视频关键帧提取方法，包括以下步骤：步骤S1:使用大量的海边船舶监控视频数据集训练双向GRU和注意力机制模型。步骤S2:使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取，提供快速检索船舶的关键帧集合。采用本发明的技术方案，将关键帧提取应用到船舶监控视频中，剔除了大量冗余视频帧，提供船舶事件的高效检索和浏览,节约了视频存储的开销；同时，采用双向GRU和注意力机制对视频帧的前后关系进行建模，将时间信息融合进模型中，且每个时刻的信息给予不同的权重，即每个时刻给予不同的关注程度，得到更符合人类语义的关键帧集合。

Description

基于双向GRU和注意力机制的船舶监控视频关键帧提取方法

技术领域

本发明涉及基于船舶视频内容的快速检索和船舶数据的轻量存储，尤其涉及基于双向GRU和注意力机制的船舶监控视频关键帧提取方法。

背景技术

视频已经成为视觉信息最常见的来源之一。视频数据的规模正在急速扩大，对于每天上传到Youtube的视频，个人用户需要超过100年的时间才能全部看完。那么自动的分析和理解视频内容的工具就显得非常重要。特别地说，自动视频关键帧提取技术能够帮助用户浏览视频数据。效果好的视频关键帧集合能够简洁的表示原来的视频，提取出重要的事件，用简短可看的关键帧摘要表示原有视频的内容。随着海边监控摄像头的部署，产生了大量的船舶视频，带来了昂贵的存储。对于海量的监控船舶的视频数据，存在着大量的冗余，我们可以通过关键帧的提取，简洁表达其中的船舶运行事件，提供快速的船舶事件检索和浏览服务。

表示基于视频内容的事件需要提取整个视频中最富含信息和最简练表达的视频帧。这些帧被叫做关键帧。视频关键帧的提取可分为有监督的方法和无监督方法。无监督方法包括基于视频镜头的关键帧提取方法，基于视频内容分析的方法，基于动作分析的关键帧提取方法，基于聚类的关键帧提取方法。相对于无监督方法来说，有监督方案直接从人为制作的视频关键帧标注中学习潜在的关键帧选取标准，同时这些被选取的帧与人类对视频内容的理解会更加的相似。现有有监督关键帧提取方案主要存在以下两个问题：

1、现有的关键帧提取往往会忽略视频帧之间的联系，针对视频语义的视频关键帧提取，我们不仅要利用上视频帧的视觉特征，还需要利用视频帧之间的关系，如果丢失时间上的联系，会很大程度脱离视频关键帧的提取标准。

2、对于视频关键帧的提取，常常会忽略视频帧序列中的关注性问题，相邻的帧可能对该帧的关键性进行增益和抑制，缺乏对这种注意力机制的建模，对于关键帧的提取带了负面的效果。

故，针对现有技术的缺陷，是有必要提出一种能够解决现有问题的技术方案。

发明内容

有鉴于此，有必要提出基于双向GRU和注意力机制的船舶监控视频关键帧提取方法，将关键帧提取应用到船舶监控视频中，剔除了大量冗余视频帧，提供船舶事件的高效检索和浏览,节约了视频存储的开销。同时，采用双向GRU和注意力机制对视频帧的前后关系进行建模，将时间信息融合进模型中，且每个时刻的信息给予不同的权重，即每个时刻给予不同的关注程度，得到更符合人类语义的关键帧集合。

为了克服现有技术的缺陷，本发明的技术方案如下：

基于双向GRU和注意力机制的船舶监控视频关键帧提取方法，包括以下步骤：

步骤S1：使用大量的海边监控视频数据集训练双向GRU和注意力机制模型；

步骤S2：使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取，提供快速检索船舶的关键帧集合；

其中，所述步骤S1进一步包括：

步骤S11：获取海边关于船舶监测的视频数据，并进行预处理和标注；

所述步骤S11进一步包括：

S111：采用固定视频采样率对视频进行帧采样，得到图像序列。按照每帧图像对船舶事件的贡献进行标注，y表示视频帧是否为关键帧的标签项，如果是关键帧，标记为y＝1；如果不是关键帧，标记为y＝0。从而构成提供有标签的视频帧数据集，以支持后续的模型训练。

步骤S12：将标注好的关键帧标签存在MySQL数据库中；

步骤S13：从MySQL数据库中获取视频帧标签数据。使用特征提取方法对视频的每帧进行处理，获取关于每帧的特征向量，结合标注的标签，对双向的GRU和注意力关键帧提取模型进行训练；

所述步骤S13进一步包括：

步骤S131：假设f＝{f₁,f₂,...,f_t,...f_T}是视频帧的集合，通过公开数据集上预训练过的图像分类模型的特征提取部分对每一帧图像进行特征提取,得到的特征向量集合为x＝{x₁,x₂,...,x_t,...x_T}，x_t是在t时刻获取的视觉特征，f_t是视频采样后在t时刻的视频帧，两个集合下标相对应。T是该视频进行帧采样后包含的视频帧总数目。

步骤S132：使用双向GRU对视频帧之间的联系进行建模，GRU是其基本单元，它受欢迎的原因是模型比标准的长短时记忆网络更加简洁。GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码。下面为t-1时刻到t时刻，记忆细胞中状态的变化。

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

GRU有两个门，重置门r_t和更新门z_t。h_t-1是t-1记忆细胞的输出状态，h_t是t时刻的记忆细胞的输出状态。x_t是上一步得到的视频帧特征向量，σ是sigmod函数，W_z和W_r分别是更新门和重置门的权重，[]表示两个向量相连，*表示点乘，·表示矩阵相乘。直观的来讲，重置门r_t决定保留多少前一个时刻的输出信息。更新门z_t不仅决定选择遗忘多少前一个时刻的信息，而且对当前时刻的信息进行控制。为了对前后的帧联系信息都进行编码，使用双向的GRU对视频帧序列分别进行前向和反向编码。

步骤S133:在双向GRU网络的记忆细胞输出状态h_t加上注意力机制。

u_t＝tanh(W_wh_t+b_w)

h_t是t时刻双向GRU网络的隐藏层输出，通过单层感知器将h_t编码成包含时间信息的高层语义输出u_t，W_w是单层感知器的权重，b_w是偏置，tanh是激活函数。u_w是图像序列的语义向量，将该向量与每个时间点的高层语义输出状态u_t的做内积，然后通过softmax得到每个时间点的隐含状态的对整个语义的贡献概率a_t。

是经过注意力机制后t时刻的视频帧语义向量。

步骤S134:对上一步得到的

通过全连接层对每帧进行二分类,得到预测值p。该损失函数选为交叉熵损失函数：

通过批量随机梯度下降法，梯度反向传播对该模型包含的权重参数进行优化，得到上述模型的最优化参数θ。

所述步骤S2进一步包括：

步骤S21：使用训练好的基于双向GRU和注意力的船舶监控视频关键帧提取模型，预测历史固定时间段的监测视频数据是否存在船舶运行事件的关键帧，预测的结果index_x＝{index_x₁,index_x₂...,index_x_t}，index_x_t等于1或者0。

所述步骤S21进一步包括：

步骤S211：对于输入的视频数据进行帧采样，得到固定时间段的视频帧序列集合G＝{g₁,g₂,...g_T1},T₁是双向GRU训练的时间步长。

步骤S212：将G输入到预训练好的特征提取模型，得到特征向量集合x,将特征集合x输入到双向GRU和注意力机制关键帧提取模型中，预测出该视频帧序列是否包含关键帧，记做结果向量index_x，联合结果向量index_x和原先的视频帧序列，挑选出关键帧图像K＝{k₁,k₂,..k_r}加入到MySQL数据库中,r为原来视频帧序列G中的关键帧数目。

步骤S22：按照上面的步骤，迭代训练好的双向GRU和注意力机制关键帧提取模型，得到监控视频中所有关于船舶事件的关键帧集合，并存储在MySQL数据库中。

与现有技术相比较，本发明具有的有益效果：

1.现有的关键帧提取都会忽略视频帧之间的联系，针对视频语义的视频关键帧提取，我们不仅要利用上视频帧的视觉特征，还需要利用视频帧之间的关系，本发明使用双向循环神经网络对视频间的关系进行建模，能够提升模型对于挑选关键帧的能力。在对时间序列的建模中，循环神经网络RNN由于其记忆长期依赖的能力已经被广泛的使用。然而，简单的RNN会有梯度弥散或者爆炸的问题。为了解决这个问题，长短时记忆网络LSTM利用其门控机制控制输入，记忆等信息，巧妙地解决梯度弥散和爆炸的问题。本发明选用的循环门单元GRU。它受欢迎的原因GRU模型的参数相对更少，因此训练的速度会稍快。GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码。双向GRU则能对前后视频帧信息进行编码。

2.对于视频关键帧的提取，常常会忽略视频帧序列中的关注性问题，相邻的帧可能对该帧的关键性进行增益和抑制，本文采用注意力机制的建模方法，对于关键帧的提取的性能进行了泛化，更加符合潜在的关键帧提取标准。注意力机制常用在传统的编码器-解码器结构当中，保留循环神经网络的中间输出结果，然后将这些中间与解码器所用的隐含状态向量组合生成注意力向量，这种方法已经广泛应用于机器翻译，文本摘要。本发明设计一个u_w作为整个图像序列的语义向量，将该向量与每个时间点的隐含状态u_t的做内积，然后softmax得到每个时间点的隐含状态的对整个语义的贡献概率a_t。

u_t＝tanh(W_wh_t+b_w)

h_t是GRU单元输出的隐藏层，u_t是其经过单层感知器得到的。

是经过注意力机制后的语义向量。加入注意力机制，模型能够有效的捕捉周围图像之间的相互作用，训练模型得到需要关注的关键帧。

3.将关键帧提取应用到船舶监控视频中，剔除了大量冗余视频帧，提供船舶事件的高效检索和浏览,节约了视频存储的开销。

附图说明

图1为本发明基于双向GRU和注意力机制船舶监控视频关键帧提取方法的流程图；

图2为本发明基于双向GRU和注意力机制船舶监控视频关键帧提取方法的框架模型；

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

本发明中，将船舶监控视频关键帧预测看成结构预测问题。输入是视频帧序列，输出是二值向量，表明是否选中该帧为关键帧。使用双向GRU可以很好地将前后时间的视频帧信息统一进行编码，注意力机制给予每个时刻不同的关注性，得到更符合人类提取关键帧的标准。使用交叉损失函数和批量随机梯度下降法对模型的参数进行优化。为此，本发明提供了基于船舶视频的双向GRU和注意力机制的关键帧提取方法。

参见图1和图2，所示为本发明基于双向GRU和注意力机制船舶视频关键帧提取方法的流程图及其提取模型，整体而言，本发明包括2大步骤，步骤S1：使用大量的海边监控视频数据集训练双向GRU和注意力机制模型；步骤S2：使用经过训练的双向GRU和注意力机制模型对船舶监控视频进行关键帧提取，提供快速检索船舶的关键帧集合；

其中，所述步骤S1进一步包括：

所述步骤S11进一步包括：

步骤S12：将标注好的关键帧标签存在MySQL数据库中；

所述步骤S13进一步包括：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

u_t＝tanh(W_wh_t+b_w)

是经过注意力机制后t时刻的视频帧语义向量。

步骤S134:对上一步得到的

所述步骤S2进一步包括：

所述步骤S21进一步包括：

在本发明中船舶检测数据集为实际海边视频数据的收集。我们收集了2个月的视频数据来提供实验数据集。海量的数据集被随机的分割成训练集和测试集，其中使用80％的视频数据作为训练集，20％的视频数据作为测试集。搭建高性能CUDA运算平台设备以解决复杂的计算问题，训练准确的双向GRU和注意力机制船舶监控视频关键帧提取模型。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于双向GRU和注意力机制的船舶监控视频关键帧提取方法，其特征在于，包括以下步骤：

其中，所述步骤S1进一步包括：

其中，所述步骤S11进一步包括：

S111：采用固定视频采样率对视频进行帧采样，得到图像序列；按照每帧图像对船舶事件的贡献进行标注，y表示视频帧是否为关键帧的标签项，如果是关键帧，标记为y＝1；如果不是关键帧，标记为y＝0；从而构成提供有标签的视频帧数据集，以支持后续的模型训练；

步骤S12：将标注好的关键帧标签存在MySQL数据库中；

步骤S13：从MySQL数据库中获取视频帧标签数据；使用特征提取方法对视频的每帧进行处理，获取关于每帧的特征向量，结合标注的标签，对双向的GRU和注意力关键帧提取模型进行训练；

所述步骤S13进一步包括：

步骤S131：假设f＝{f₁,f₂,...,f_t,...f_T}是视频帧的集合，通过公开数据集上预训练过的图像分类模型的特征提取部分对每一帧图像进行特征提取,得到的特征向量集合为x＝{x₁,x₂,...,x_t,...x_T}，x_t是在t时刻获取的视觉特征，f_t是视频采样后在t时刻的视频帧，两个集合下标相对应；T是该视频进行帧采样后包含的视频帧总数目；

步骤S132：使用双向GRU对视频帧之间的联系进行建模，GRU是其基本单元，GRU的核心是记忆细胞,它能将该时刻之前所观察到的输入信息进行编码；下面为t-1时刻到t时刻，记忆细胞中状态的变化：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中，GRU有两个门，重置门r_t和更新门z_t；h_t-1是t-1记忆细胞的输出状态，h_t是t时刻的记忆细胞的输出状态；x_t是上一步得到的视频帧特征向量，σ是sigmod函数，W_z和W_r分别是更新门和重置门的权重，[]表示两个向量相连，*表示点乘，·表示矩阵相乘；直观的来讲，重置门r_t决定保留多少前一个时刻的输出信息；更新门z_t不仅决定选择遗忘多少前一个时刻的信息，而且对当前时刻的信息进行控制；为了对前后的帧联系信息都进行编码，使用双向的GRU对视频帧序列分别进行前向和反向编码；

步骤S133:在双向GRU网络的记忆细胞输出状态h_t加上注意力机制：

u_t＝tanh(W_wh_t+b_w)

其中，h_t是t时刻双向GRU网络的隐藏层输出，通过单层感知器将h_t编码成包含时间信息的高层语义输出u_t，W_w是单层感知器的权重，b_w是偏置，tanh是激活函数；u_w是图像序列的语义向量，将该向量与每个时间点的高层语义输出状态u_t的做内积，然后通过softmax得到每个时间点的隐含状态的对整个语义的贡献概率a_t；

是经过注意力机制后t时刻的视频帧语义向量；

步骤S134:对上一步得到的

通过全连接层对每帧进行二分类,得到预测值p；损失函数选为交叉熵损失函数：

通过批量随机梯度下降法，梯度反向传播对该模型包含的权重参数进行优化，得到上述模型的最优化参数θ；

所述步骤S2进一步包括：

步骤S21：使用训练好的基于双向GRU和注意力的船舶监控视频关键帧提取模型，预测历史固定时间段的监测视频数据是否存在船舶运行事件的关键帧，预测的结果index_x＝{index_x₁,index_x₂...,index_x_t}，index_x_t等于1或者0；

所述步骤S21进一步包括：

步骤S211：对于输入的视频数据进行帧采样，得到固定时间段的视频帧序列集合G＝{g₁,g₂,...g_T1},T₁是双向GRU训练的时间步长；

步骤S212：将G输入到预训练好的特征提取模型，得到特征向量集合x,将特征集合x输入到双向GRU和注意力机制关键帧提取模型中，预测出该视频帧序列是否包含关键帧，记做结果向量index_x，联合结果向量index_x和原先的视频帧序列，挑选出关键帧图像K＝{k₁,k₂,..k_r}加入到MySQL数据库中,r为原来视频帧序列G中的关键帧数目；