CN110363164A

CN110363164A - 一种基于lstm时间一致性视频分析的统一方法

Info

Publication number: CN110363164A
Application number: CN201910649096.7A
Authority: CN
Inventors: 李晓丽; 宋国美; 杜振龙
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-10-22

Abstract

本发明公开了一种基于LSTM时间一致性视频分析的统一方法，包括：1)读取待分析的视频片段，并将其分割成一个时间片段序列；2)使用CNN编码视频内容；3)编码视频语义；4)编码视频及语义的联合映射(SVS)；5)从语义外观一致性将目标视频语义与数据集语义相匹配；6)从时间一致性将目标视频与数据集语义进行匹配；7)进一步进行细化处理；8)使用LSTM预测语义动态，从而得到最准确的视频分析及摘要提取。本发明为计算机视觉和图像处理领域中一种基于视觉的视频分析的统一方法，能够准确、高效的分析理解视频，并能提取视频的有效信息。

Description

一种基于LSTM时间一致性视频分析的统一方法

技术领域

本发明属于计算机视觉，数字图像处理等领域，尤其涉及一种基于LSTM的语义外观相似性以及时间一致性的视频分析统一方法。

背景技术

视频分析主要体现在视频分类，视频描述以及时间动作检测上，通过输入一段视频，能够对视频内容进行理解，一直以来都是计算机视觉上一个巨大的挑战。

随着时代的发展，海量视频的不断增长使得准确获取视频主要内容成为当前研究的热点与挑战，由此引出了视频摘要，这是一种对视频内容的简单概括，通过剔除冗余内容而将视频主要内容浓缩成简短的文字或视频图像序列的一种技术，是对视频内容的一种总结。

视频摘要在现代视频技术中应用非常广泛，例如，足球视频中人们关心的只是比赛的关键进球部分；交通监控视频中人们关心的则是事故突发时的所有情况；目标检测视频中人们关心的则是目标人物出现时刻的相关信息……而研究表明，人在盯着视频画面22分钟后将对视频画面里的95％以上的信息视而不见(参见：许彬,张海涛,胡豆豆.云计算平台中监控视频摘要任务调度方法研究.计算机应用与软件,34(7):7-10,2017.)，因此，视频摘要技术显得尤为重要，它不仅能够减少人力物力还能够大大提高效率。

视频摘要技术则能够将视频的冗余内容剔除，将一段很长的视频中的有用信息进行筛选并提取出来，便捷而高效。视频摘要涉及通信、视频处理、心理感知、模式识别科学等邻域，具有很强的挑战性。田合雷等人提出了一种基于目标检测及跟踪的视频摘要技术(参见：[3]田合雷,丁胜,于长伟,周立.基于目标检测及跟踪的视频摘要技术研究.计算机科学,43(11):297-312,2016.)，将视频背景建模再对运动目标进行检测得到前景运动目标，对目标采用分层关联的思想进行跟踪，最终重组成摘要视频；郝雪等人针对关键帧数目确定方法的灵活性及直观性不足的问题，提出一种基于SVD和稀疏子空间聚类的视频摘要算法(参见：郝雪,彭国华.基于SVD和稀疏子空间聚类的视频摘要.计算机辅助设计与图形学报,29(3):485-492,2017.)，利用SVD将视频降维，再利用稀疏子空间聚类对视频帧进行聚类，最后选取关键帧生成摘要视频；冀中等人为了克服捕捉帧之间复杂关系的缺点，提出一种基于超图排序算法的视频摘要(参见：冀中,樊帅飞.基于超图排序算法的视频摘要.电子学报,5(45):1035-1043,2017.)，通过构建视频超图模型将内在关联的视频帧连接，再基于超图排序将视频帧按内容分类，最后通过求解一种优化函数来生成静态视频摘要。

综合来看，目前的视频分析方法无法将视频分类、视频摘要以及动作检测很好的融合到一起并系统的理解视频，对于视频理解方面还有进一步的研究、发展空间。

发明内容

本发明所要解决的技术问题是基于背景技术所指出的当前的视频分析方法无法将视频分类、视频摘要以及动作检测很好地融合到一起并系统的理解视频，本发明提出了一种基于LSTM时间一致性视频分析的统一方法，提取出视频摘要，进行动作检测及预测。

本发明为解决上述技术问题采用如下技术方案：

本发明提出一种基于LSTM时间一致性视频分析的统一方法，包括以下步骤：

步骤1，读取待分析的测试视频片段C，将测试视频和参考视频基准分割成一个视频片段序列；

步骤2，编码视频内容：将视频片段序列表示成连续的帧I_i，i∈1,2,...,n，n表示片段序列的帧数；对于单帧I_i，使用卷积神经网络CNN来对其外观空间表示进行编码；对于多个帧，则用多个单帧合并获得视频片段的可视特征表示；

步骤3，编码视频语义：将视频的外观空间表示集用A表示，设用s描述一个视频片段C的文本语义，其中s是一个包含自然语言单词的字符串序列，将s中的单词序列映射到一个数字向量空间S(s₁,...,s_m)，其中m是s中的单词数量，S即为视频语义集；

步骤4，将视频外观空间及语义映射到SVS联合空间：使用正则化相关分析CCA将所有片段的外观空间表示A和相关语义的数字向量空间S联合映射到SVS，其中CCA映射是通过对每一片段真实语义的训练完成的；该步骤的执行完成将视频片段的外观空间表示与相关语义映射到SVS的相邻两个点，继而实现：当查找一个视频片段的外观空间表示时，通过欧几里得距离就能找到相应的语义；

步骤5，视频外观与语义的一致性匹配：构建一个视频片段的训练(参考)数据集，包括视频片段的外观表示和相关语义；依据步骤2-4将测试视频片段处理为SVS空间的一个片段序列，在训练集中为每个测试片段选择最匹配的语义；

步骤6，从时间一致性将测试视频片段语义与训练集语义进行匹配：依据Markovian假设，测试视频片段i的语义仅仅取决于片段i的外观表示及其前一片段i-1的语义；将先验概率设为均匀分布，使用联合SVS表示的L2范数来定义后验概率，应用标准的维特比方法获得一个序列V，使得概率最大化；

步骤7，进一步细化匹配：使用受限维特比方法提供V*的赋值，选取概率值最大的语义；

步骤8，预测语义的动态：采用LSTM RNN网络完成模型训练并预测下一个视频片段的最准确语义。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤1包括以下步骤：

读取待分析的测试视频片段C以及各类的参考视频基准，参考视频基准包括：

LSMDC’16基准，用于测试视频字幕，

SumMe和TVSum基准，用于测试视频摘要，

Thumos2014基准，用于测试时间动作，

Greatest Hits基准，用于测试声音；

然后将训练视频和测试视频分割成一个时间片段序列。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤2包括以下步骤：

步骤2-1，对于一个给定的视频帧，用VGG-19CNN来编码视频片段的外观，使用这个网络的最后一层预测ImegeNet类标签，表示为单一编码；将这个网络当作一个功能转换函数f:I→a'，并且从网络的倒数第二层为视频帧I返回4,096D的响应矢量；

步骤2-2，将每个单一帧编码后，使用RNN网络进行训练，通过给出(a_i-k,…,a_i-1)的编码，预测未来帧a_i的特征编码。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤3使用最近的混合高斯拉普拉斯混合模型的Fisher向量(FV-HGLMM)将数字向量序列映射到固定维度的向量上。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤4包括如下步骤：

步骤4-1，对于每个片段，使用正则化典型相关分析CCA将片段外观表示A及其相关语义表示S投影到V^A和V^S,即联合映射到语义视频空间SVS；

步骤4-2，,使用每个基准提供真实语义来训练CCA映射，使得每个片段的外观及其相关语义映射到SVS的两个相邻点；

步骤4-3，给定一个测试视频片段的外观表示，使用标准的欧几里得距离在参考数据集中查询此片段的潜在语义分配。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤5包括以下步骤：

步骤5-1，假设视频片段的训练数据集及其相关语义在SVS中获得的外观表示i∈M的连续索引值表示具有M个片段的测试视频中的连续片段；

步骤5-2，给定测试片段序列的外观表示寻找相应的一组参考语义这里j表示索引参考集中的N个片段，将每个测试片段通过以下公式与训练集片段相关联：

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤6包括以下步骤：

步骤6-1，假设分配给输入测试片段i的语义是依赖于片段i的外观以及其前面i-1片段的语义，则能够得到片段外观及其选定语义的联合分布的标准因式分解如下：

步骤6-2，设先验为均匀分布，将外观和语义映射到联合SVS，则可使用这些表示的L2范数来表示后验概率：

应用标准的维特比法获得一个序列V,使得概率最大化。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤7包括以下内容：

考虑测试片段的外观空间表示，用维特比法提供一个赋值V^*,并将赋值表示为实际上，是一个长尾分布，由于概率大于零而且接近于零，只有极少数元素能够足够接近任意一个采用两种措施限制维特比方法：第一种，只考虑半径为5，即r'＝5的最近邻域语义特征；第二种，对数据项的概率设置一个阀值，并且不考虑语义相似性概率值低于阀值的情况，因此邻域半径取1～5。

进一步，本发明提出的一种基于LSTM时间一致性视频分析的统一方法，步骤8包括以下步骤：

步骤8-1，在参考视频足够多且连续的前提下，采用监督学习的方法，其中语义标签由视频片段相关联的语义随时间变化来设置，并通过LSTM模型预测的赋值

步骤8-2，使用LSTM RNN来训练视频片段的语义和外观表示，该网络可表示为如下函数：

在给定被测试片段的前一片段的语义表示和当前片段外观的前提下能够预测出时间i的语义表示训练数据中每一对先前片段的真实语义和当前片段的外观表示都提供了一个用于训练LSTM的样本，LSTM使用了两个隐藏层，每个隐藏层都有1000个LSTM细胞元。

本发明采用以上技术方案，与现有技术相比所具有的优点在于：

(1)本发明是一种视频分析的统一方法，该方法可更准确的理解视频的外观及语义。

(2)本发明通过LSTM RNN对大量的数据进行训练，可预测频视下一帧的语义动态。

附图说明

图1为本发明方法的基本流程图。

图2(a)、图2(b)为实验结果，图2(a)是使用LSTM来预测下一片段的最准确语义,其中包含了时间一致性和语义一致性，图2(b)显示的是视频摘要的结果,丢弃不重要的信息，保留了重要的信息。

具体实施方式

下面结合实施例对本发明作进一步说明，但本发明的保护范围不限于此：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本方法根据视频片段的外观及语义，将测试视频分割成一个时间序列片段，最终通过外观相似性以及时间一致性来分析视频、理解视频。

本发明方法的流程图如图1所示，主要根据视频的外观及语义信息，将测试视频分割成一个时间片段序列，并同时考虑了语义外观相似性以及时间一致性，结果和真实外观及语义越相似则效果越好。

本实例的实验开发和运行环境是:英特尔酷睿i5-7200 2.50GHz四核CPU(处理器)，NVIDIA GeForce GTX 760GPU(显卡)，8G内存，软件环境Python 2.7(软件开发工具)和tensorflow 0.8(软件开发环境)。

本发明主要用于对视频的分析和理解，通过分割视频成为更多的片段，再将片段与视频基准集进行匹配，在外观语义相似性的同时考虑了时间一致性，对视频外观和语义同时分析，并且能够使用LSTM预测语义的动态变化。

实施例1：

步骤1，读取待分析的测试视频片段C，将测试视频和训练视频(即参考视频基准)分割成一个视频片段序列；

步骤3，编码视频语义：将视频的外观空间表示集用A表示。由于视频中的文本信息包含大量的视频语义信息，所以用文本信息表达视频语义。设用s描述一个视频片段C的文本语义，其中s是一个包含自然语言单词的字符串序列，将s中的单词序列映射到一个数字向量空间S(s₁,...,s_m)，其中m是s中的单词数量，S即为视频语义集；

步骤4，视频外观空间及语义映射到SVS联合空间：使用正则化相关分析CCA将所有片段的外观空间表示A和相关语义的数字向量空间S联合映射到SVS，其中CCA映射是通过对每一片段真实语义的训练完成的；该步骤的执行完成将视频片段的外观空间表示与相关语义映射到SVS的相邻两个点，继而实现：当查找一个视频片段的外观空间表示时，通过欧几里得距离很容易找到相应的语义；

步骤5，视频外观与语义的一致性匹配：构建一个视频片段的训练(参考)数据集，包括视频片段的外观表示和相关语义。依据步骤2-4将测试视频片段处理为SVS空间的一个片段序列，如表示第i个片段，这一步在训练集中为每个测试片段选择最匹配的语义；

步骤7，进一步细化匹配：使用受限维特比方法提供V^*的赋值，选取概率值最大的语义；

步骤8，预测语义的动态：维特比方法虽然有效且采用非监督学习方法，但是其平滑方法会导致恒常数语义。因此，在训练集充裕并来自连续的视频时，本发明采用监督学习方法，解决平滑度带来的问题。具体采用LSTM RNN网络完成模型训练并预测下一个视频片段的最准确语义。

采用本方案可以获得以下有益效果：

(2)本发明通过LSTM RNN对大量的数据进行训练，可预测视频下一帧的语义动态并提取主要内容。时间和语义一致性的效果展示如图2(a)所示,视频摘要的效果展示如图2(b)所示。

实施例2：

如实施例1所述的一种基于LSTM时间一致性视频分析的统一方法，步骤1包括：

LSMDC’16基准，用于测试视频字幕，

SumMe和TVSum基准，用于测试视频摘要，

Thumos2014基准，用于测试时间动作，

Greatest Hits基准，用于测试声音；

然后将训练视频和测试视频分割成一个时间片段序列。

实施例3：如实施例2所述的一种基于LSTM时间一致性视频分析的统一方法，步骤2包括：

实施例4：如实施例3所述的一种基于LSTM时间一致性视频分析的统一方法，步骤3包括：

步骤3-1，视频的字幕中提供了丰富的信息源，而视频的相关语义又取决于当前的任务，因此，视频语义在很大程度上依赖于基于标签数据的单独语义。对于那些监督信号具有低维度的动作检测和视频摘要任务，标签的语义空间在每个片段中只有几个比特信息，并且在片段之间没有足够的区分能力，那么视频片段的语义空间V^S和外观空间V^A则几乎相同，这里将它们统一表示为A。假设用s描述一个视频片段C的文本语义，其中s是一个包含自然语言单词的字符串序列，使用word2vec将s中的单词序列映射到一个数字向量空间S(s₁,...,s_m)，其中m是s中的单词数量，S即为视频语义集；

步骤3-2，使用混合高斯拉普拉斯混合模型的Fisher矢量(FV-HGLMM)将步骤3-1中的数字向量序列映射到固定维度的向量上。

实施例5：如实施例4所述的一种基于LSTM时间一致性视频分析的统一方法，步骤4包括：

步骤4-1，对于每个片段，使用正则化典型相关分析(CCA)将片段外观表示A及其相关语义表示S投影到V^A和V^S,即联合映射到语义视频空间(SVS)；

实施例6：如实施例5所述的一种基于LSTM时间一致性视频分析的统一方法，步骤5包括：

实施例7：如实施例6所述的一种基于LSTM时间一致性视频分析的统一方法，步骤6包括：

应用标准的维特比法获得一个序列V,使得概率最大化。

实施例8：如实施例7所述的一种基于LSTM时间一致性视频分析的统一方法，步骤7包括：

考虑测试片段的外观空间表示，用维特比法提供一个赋值V*,并将赋值表示为实际上，是一个长尾分布，由于概率大于零而且接近于零，只有极少数元素能够足够接近任意一个所以这里采用两种措施限制维特比方法：第一种，只考虑半径为5(r'＝5)的最近邻域语义特征；第二种，对数据项的概率设置一个阀值，并且不考虑语义相似性概率值低于阀值的情况，因此邻域半径取1～5。

实施例9：如实施例8所述的一种基于LSTM时间一致性视频分析的统一方法，步骤8包括：

步骤8-1，在参考视频足够多且连续的前提下，提供一种确保平滑度的有效方法，具体采用监督学习的方法，其中语义标签由视频片段相关联的语义随时间变化来设置，并通过LSTM模型预测的赋值

以上所述仅是本发明的部分实施方式，应当指出，在不脱离本发明原理的前提下，本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，这些补充和类似替代方案也应视为本发明的保护范围。

Claims

1.一种基于LSTM时间一致性视频分析的统一方法，其特征在于，包括以下步骤：

步骤4，将视频外观空间及语义映射到SVS联合空间：使用正则化相关分析CCA将所有片段的外观空间表示A和相关语义的数字向量空间S联合映射到SVS，其中CCA映射是通过对每一片段真实语义的训练完成的；将视频片段的外观空间表示与相关语义映射到SVS的相邻两个点，继而实现：当查找一个视频片段的外观空间表示时，通过欧几里得距离就能找到相应的语义；

步骤5，视频外观与语义的一致性匹配：构建一个视频片段的训练数据集，包括视频片段的外观表示和相关语义；依据步骤2-4将测试视频片段处理为SVS空间的一个片段序列，在训练集中为每个测试片段选择最匹配的语义；

2.根据权利要求1所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤1包括以下步骤：

LSMDC’16基准，用于测试视频字幕，

SumMe和TVSum基准，用于测试视频摘要，

Thumos2014基准，用于测试时间动作，

Greatest Hits基准，用于测试声音；

然后将参考视频和测试视频分割成一个时间片段序列。

3.根据权利要求2所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤2包括以下步骤：

步骤2-1，对于一个给定的视频帧，用VGG-19 CNN来编码视频片段的外观，使用这个网络的最后一层预测ImegeNet类标签，表示为单一编码；把这个网络当作一个功能转换函数f:I→a'，并且从网络的倒数第二层为视频帧I返回4,096D的响应矢量；

4.根据权利要求3所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤3使用最近的混合高斯拉普拉斯混合模型的Fisher向量将数字向量序列映射到固定维度的向量上。

5.根据权利要求4所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤4包括如下步骤：

6.根据权利要求5所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤5包括以下步骤：

7.根据权利要求6所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤6包括以下步骤：

应用标准的维特比法获得一个序列V,使得概率最大化。

8.根据权利要求7所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤7包括以下内容：

考虑测试片段的外观空间表示，用维特比法提供一个赋值V^*,并将赋值表示为实际上，是一个长尾分布，由于概率大于零而且接近于零，只有极少数元素能够足够接近任意一个因此采用两种措施限制维特比方法：第一种，只考虑半径为5，即r'＝5的最近邻域语义特征；第二种，对数据项的概率设置一个阀值，并且不考虑语义相似性概率值低于阀值的情况，因此邻域半径取1～5。

9.根据权利要求8所述的一种基于LSTM时间一致性视频分析的统一方法，其特征在于，步骤8包括以下步骤：