CN113139468B

CN113139468B - 融合局部目标特征与全局特征的视频摘要生成方法

Info

Publication number: CN113139468B
Application number: CN202110444672.1A
Authority: CN
Inventors: 杜友田; 张光勋
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-24
Filing date: 2021-04-24
Publication date: 2023-04-11
Anticipated expiration: 2041-04-24
Also published as: CN113139468A

Abstract

一种融合局部目标特征与全局特征的视频摘要生成方法，提取视频的局部目标特征，所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征；利用注意力机制构建局部目标特征融合网络，输入所述局部目标特征得到融合局部目标特征；利用编码‑解码框架中的编码器从视频中抽取得到视频的全局特征，并将所述融合局部特征引入编码‑解码框架，融合视频的全局特征信息与局部目标特征信息，获得表现力更加丰富的表征向量，再根据该表征向量解码出相应的摘要语句。本发明为编码‑解码框架的视频摘要生成模型引入了视频局部目标特征，丰富表征特征的视觉表现力，进而优化最终的文本生成，实现基于输入视频生成相关的语义文本描述。

Description

融合局部目标特征与全局特征的视频摘要生成方法

技术领域

本发明属于人工智能以及计算机视觉和自然语言处理技术领域，涉及视频理解与视频摘要生成，特别涉及一种融合局部目标特征与全局特征的视频摘要生成方法。

背景技术

随着人工智能技术在计算机视觉领域和自然语言处理领域的不断发展与成熟，上述领域的交叉任务——视频摘要生成任务逐渐成为人工智能领域的研究热点之一。视频摘要生成任务是指，给定一段视频，利用计算机生成一段文字，用于描述视频中的内容(目前以英文为主)，进而达到理解视频内容的目的。视频摘要生成任务是视频理解任务的一个重要分支。视频理解技术在生活中有着广泛的应用价值，在互联网领域，视频理解技术具有视频搜索、视频摘要、无意义直播识别、视频重点识别等应用；在安防领域，视频理解技术具有暴恐识别、异常事件识别、人车分析等应用；在机器人领域，视频理解技术具有导航、定位、抓取等应用；在扶残助残方面，视频理解技术具有对盲人进行导航，将电影或短视频描述给盲人等应用。

视频摘要生成一方面需要考虑如何有效的从视频中抽取特征，从而可以利用这些特征充分理解并表示视频的内容，另一方面也需要考虑如何利用抽取后的视觉特征去匹配文本语料库，进而去生成与视频匹配的文本描述。视频摘要生成任务的最终目的是为了打破视觉与语言之间的鸿沟。近年来，以数据驱动的深度学习方法成为解决视频摘要生成问题的主流方法。该方法利用编码-解码架构，编码器用于抽取视频中的特征信息，解码器则用于生成合理的表述。

专利CN112468888A公开了一种基于GRU网络的视频摘要生成方法，通过在Seq2Seq模型中引入GRU网络单元，使模型在处理视频帧序列时能最大程度保留帧与帧之间的长距离影响因素，同时减少模型的参数，有效减少了模型的计算量。专利CN108966042A公开了一种基于最短路径的视频摘要生成方法，通过构建有向图，结合有向图与最短路径算法计算得到最短路径,从而获得路径上的关键帧并根据关键帧生成视频摘要。专利CN109743642A公开了一种基于分层循环神经网络的视频摘要生成方法，通过利用多层LSTM网络，解决了长时序视频摘要生成问题。专利CN110933518A公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法，通过利用卷积多层注意力机制更准确地反映查询相关的视频视觉特征，产生更加符合的视频摘要。专利CN107222795A公开了一种多特征融合的视频摘要生成方法，通过为不同视频片段分配不同的重要性系数筛选出一个优化的视频片段子集，再以该子集为基础实现视频摘要的合成。

由此可见，当前视频摘要生成方法主要是通过编码器抽取视频中关键的全局特征生成可以反映视频内容的表征特征，进而使用解码器通过对表征特征进行解码获得描述性的语句。但是，现存的方法忽视了视频中局部目标特征，同时也忽视了目标间的交互关系，因此生成的表征特征缺乏足够的视觉表现力。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合局部目标特征与全局特征的视频摘要生成方法，旨在为编码-解码框架的视频摘要生成模型引入视频中的局部目标特征，丰富表征特征的视觉表现力，进而优化最终的文本生成，实现基于输入视频生成相关的语义文本描述。

为了实现上述目的，本发明采用的技术方案是：

一种融合局部目标特征与全局特征的视频摘要生成方法，包括：

步骤1，提取视频的局部目标特征，所述局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征；

步骤2，利用注意力机制构建局部目标特征融合网络，输入所述局部目标特征得到融合局部目标特征；

步骤3，利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征，并将所述融合局部特征引入编码-解码框架，融合视频的全局特征信息与局部目标特征信息，获得表现力更加丰富的表征向量，再根据该表征向量解码出相应的摘要语句。

与现有技术相比，本发明的有益效果是：

1、本发明利用目标检测模型Faster R-CNN，设计了基于视频媒介的目标特征提取网络，能够获得对视频局部目标细粒度信息的理解，并将提取到的局部目标特征信息拓展到视频摘要生成框架中，进而提升模型的性能。

2、本发明基于互联网上大规模视频数据和文本数据，令计算机自动获取视频数据中的局部目标特征，并构建局部目标特征与文本数据中对应单词的联系，优化摘要生成。

3、本发明局部目标特征的引入有利于丰富编码特征的表现力，进而生成细节更加丰富的摘要描述。

附图说明

图1是本发明融合局部目标特征与全局特征的视频摘要生成流程图。

图2是本发明视频局部特征提取流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种融合局部目标特征与全局特征的视频摘要生成方法，包括：

步骤1，提取视频的局部目标特征

局部目标特征中包含目标的视觉特征、目标的运动轨迹特征以及目标的类别标签特征，参考图2，局部目标特征的提取具体包括：

步骤1.1，对原始视频数据，根据视频场景进行分割与采样，获得图片集合。

由于视频中通常包含多个场景，且不同场景间的目标并不存在时序关系，因此多个复杂的场景是将以图片为媒介的目标检测模型引入到视频中的重要障碍。针对不同场景下的特征，其本身不具有时间连续性，因此需要将原始视频数据按照场景进行分割，本实施例中，该过程通过帧间差分法得以实现。

首先，对当前图片与上一帧的图片进行灰度化处理，将三通道图片转化为单通道图片；其次，在像素尺度上对两张单通道图片做差，获得帧间差分后的灰度图，并对得到的灰度图进行二值化，此处取阈值＝60，即若两帧相邻图片在相同位置上像素差值大于60(0～255)，则认为该像素点是存在差异的；然后，使用腐蚀膨胀算法增强图像，消除局部颗粒噪声，并使用高斯模糊柔化目标边界；最后，统计差分图中差异像素的数量，取差异像素极值处拆分视频。

针对视频媒介在单一场景下相邻帧的图像所包含内容相似的特点，为了避免冗余信息，提升模型效率，本实施例中，通过每隔3帧提取1帧的方法，对视频进行下采样，得到图片集合P。

步骤1.2，在相同场景下，使用经过预训练的目标检测网络对图片集合P中的每张图片进行目标定位与特征提取。

本实施例中预训练的目标检测网络为经过数据集MS-COCO预训练过的目标检测模型Faster R-CNN网络，对每一个概率大于50％的目标抽取其输出特征f^output和时序关联构造特征f^connect。

其中，输出特征f^output用于记录目标局部信息，传递给后续神经网络，构成如式(1)所示：

f^output _i,j＝{f^visual,f^position,f^label} (1)

其中f^output _i,j表示第i个采样帧中第j个目标的输出特征，f^visual是目标的视觉特征，为目标图片经过Faster R-CNN网络conv7层后的2048维的特征向量；f^position是目标的位置变化特征，为目标在整个图片中的位置坐标，即一个4维向量；f^label是目标的类别标签特征，由目标经过目标检测模型检测后的类别信息获得，是一个80维的One-Hot稀疏向量。

时序关联构造特征f^connect,用于记录为目标构造时序关系时所用到的特征信息，构成如式(2)所示：

f^connect _i,j＝{f^hist,f^HOG,f^area} (2)

其中f^connect _i,j表示第i个采样帧中第j个目标时序关联构造特征，f^hist是目标的颜色特征，为目标区域的RGB三通道经过颜色直方图统计后的3*128维的向量；f^HOG是目标的纹理特征，为目标区域通过HOG算法提取的方向梯度直方图后的256维向量；f^area代表目标区域的面积。

本发明定义不同时刻两个目标的交叠程度如式(3)所示：

x_t1,x_t2分别表示t1时刻的某个目标区域与t2时刻的某个目标区域。

通过上述操作可以获得一系列输出特征f^output和时序关联构造特征f^connect，但由于是分别对图片进行特征提取的，因此不同的目标间不存在任何关联。

步骤1.3，根据目标特征的相似度，利用聚类算法聚合相同的目标，进而构建目标的时序关系。

经过步骤1.2可以获得一系列相互独立的目标，本实施例定义目标相似度系数K_Similarity衡量目标间的相似程度，如式(4)所示：

K_Texture为纹理相似度系数，由两区域间经过HOG算法提取出的向量的余弦相似度表示；f^HOG _i、f^HOG _j分别表示第i个目标区域与第j个目标区域的纹理特征；K_Color为颜色相似度系数，由通过颜色直方图提取出的向量的余弦相似度获得；f^hist,channel _i、f^hist,channel _j分别表示第i个目标区域与第j个目标区域的颜色特征，其中channel代表着图片R、G、B三通道；K_IoU为交叠相似度系数，由交叠程度计算得出；f^area _i,f^area _j分别表示第i个目标区域与第j个目标区域的区域面积；K_classes为类别相似度系数，由Faster R-CNN网络的输出的出，定义两目标若类别相似则为1，否则为0；α为超参数，由实验得出其取0.4。

针对离散的目标，使用聚类的方法构造相同目标间的时间序列关系，本实施例利用K-means的思想：首先，对聚类组集合进行初始化，设定第一张图片的每一个目标为一个组的中心；其次，在时刻t的第k个目标O_t，k与聚类组集合的每一个子集去判断是否满足同一目标前置条件，若满足则计算K_Similarity，否则创建一个全新的组；然后，选取K_Similarity最大的组，目标O_t，k被添加至该组完成聚合，并更新目标O_t,k的时序关联构造特征f^connect为该组新的组特征；最后，标记该组，该组不会在时刻t进行K_Similarity计算，而是进入休眠状态；重复上述步骤最终完成所有时刻的目标的聚合。通过上述操作，将相同目标的特征聚合在一起，进而构建出相同目标的时间序列关系。

步骤1.4，消除视频中出现时间短于设定值的目标和噪声，从而获得视频中主要目标的特征。

在目标时序关系构造的过程中，由于目标检测模型的错误，或是由于某些在视频中突然出现又突然消失的物体，从而导致有些目标只包含很少的输出特征。满足上述条件的类目标被定义为噪声，或干扰目标。噪声携带少量或错误的信息，其对视频描述生成产生很小甚至负面的影响。针对噪声出现时间短，输出特征少的特点，若某一目标在视频下采样后的集合中出现次数小于10次，则认为该目标为噪声，在特征集合中舍弃该目标所对应的特征。

步骤1.5，通过使用最大池化网络和自编码解码器，对齐目标特征，获得视频中定长的局部目标特征。

由于不同目标在视频中出现时间长度的差异，从而导致目标集合中的目标输出向量维度不固定的问题。本实施例中，对f^visual和f^label使用最大池化网络对齐向量维度；对f^position使用基于LSTM网络的自编码解码器对齐向量维度，最终获得如式(5)所示的视频中固定长度的局部目标特征：

O为从视频中抽取的目标集合；o_i为视频中的抽取到的第i个目标；f^visual _i是第i个目标的视觉特征；f^position _i是第i个目标的位置变化特征；f^label _i是第i个目标的类别标签特征。

步骤2，利用注意力机制构建局部目标特征融合网络，输入所述局部目标特征得到融合局部目标特征。

通过步骤1提取视频的局部目标特征，可以得到若干个经过筛选后的局部目标特征，每个局部目标特征分别包含三类不同的特征信息。在每一个单词生成时，针对神经网络对每一个目标关注度的差异，及对目标不同特征关注度的差异，利用注意力机制构造出不同目标的权重分配算法。

本实施例中，使用乘性注意力机制构建两层的局部目标特征融合网络，得到不同目标不同类别的特征与控制注意力模块的LSTM网络之间的关系，局部目标特征融合网络的构建方法如下：

第一层注意力机制：

针对相同特征间不同目标的关注度差异，生成一个注意力权重系数α，权重系数α由该目标所包含的特征与上一时刻控制注意力模块的LSTM网络的隐藏层状态特征计算得出，权重系数α越大，意味着在当前时刻下控制注意力模块的LSTM网络对该目标有着更大的关注度，即该目标所蕴含的特征与当前控制注意力模块的LSTM网络状态越相关。式(6)展示出权重系数α的计算公式：

式中，a_i ^m为产生第i个单词时第m个目标的特征的注意力权重系数，f_m为视频中第m个目标的特征，由于三种特征使用相同的注意力机制，其模型结构相同，差别仅为W和w_a参数的不同。因此f_m代之三种特征，即f_m＝f^visual _m或f^position _m或f^label _m，f^visual _m是第m个目标的视觉特征，f^position _m第m个目标的位置变化特征，f^label _m第m个目标的类别标签特征，W为全连接层变换矩阵，其参数通过训练学习获得，h_i-1 ^atten为产生第i-1个单词时的控制注意力模块的LSTM网络的隐藏层的状态特征，α_i ^m为经过softmax归一化后的注意力权重系数，w_a为注意力权重的维度变化矩阵，c_i ^p为产生第i个单词时将N个目标通过注意力机制进行特征融合的结果，N为输入的目标的个数；

通过上式计算得到多目标单位在视觉特征上的融合特征c_i ^visual，在位置变化轨迹上的融合特征c_i ^position和在目标类别上的融合特征c_i ^label。

在生成不同单词时，控制注意力模块的LSTM网络对于不同类型特征的响应也是不同的。为了表述其对不同类别特征的关注度差异，如式(7)所示设计了第二层注意力机制。

式中，c_i为产生第i个单词时，融合了视觉特征、位置变化特征和类别特征的融合局部目标特征，是所有目标的特征进行加权融合的结果，目标的权重是通过注意力机制计算所的。目标特征所对应的权重系数越大，意味着其自身特征在融合特征c_i中占比越大，即反应出该目标越重要。

为不同类别融合特征的权重系数，

或

或

为视觉特征注意力权重系数，

为位置特征注意力权重系数，

为类别标签特征注意力权重系数，

为参数由训练学习获得的全连接层变换矩阵，w_a为注意力权重的维度变化矩阵。

步骤2通过一个两层的乘性注意力机制网络，构建出不同目标不同类别的特征与解码器网络之间的关系。视频中所有的局部目标特征通过被赋予不同注意力权重的形式进行融合，而决定注意力权重的关键参数是产生上一个单词时解码器的隐藏层状态向量。随着描述生成的不断进行，隐藏层状态向量不断迭代，注意力权重也随着隐藏层状态向量的变化而不断发生变化，从而达到在生成不同单词时对不同目标，不同类别特征关注度间的差异。

本实施例中，视频的全局特征获取方式如下：

首先对视频进行均匀采样选取80张图片，进而使用经过ImageNet训练集预训练的ResNet-101作为卷积神经网络的主体结构提取出每张图片的特征图作为视频的全局静态特征A，并获得全局静态特征的均值

其次，对视频进行均匀切片成80个片段，使用经过kinetics训练集预训练的3D-ResNet提取每个片段的特征图作为视频的全局动态特征M，并获得全局动态特征的均值

之后，对全局静态特征

和全局动态特征

进行连接，从而得到视频的全局特征

式(8)与式(9)的全局特征抽取网络即编码-解码框架中的编码器，使用二维卷积神经网络抽取视频的全局静态特征

使用三维卷积神经网络抽取视频的全局动态特征

并将二者编码为一个定长的向量。

本发明的最后一步，是将得到的融合局部目标特征引入到编码-解码框架的解码器中，解码器采用双层LSTM网络搭建，第一层LSTM网络利用输入的视频全局特征构建步骤2注意力机制中的隐藏层向量；第二层LSTM网络则用于桥接视频融合局部目标特征和视频全局特征，共同生成表征向量；最后通过表征向量在词向量空间中的映射获得当前时刻下的词向量，最终转化为当前时刻输出的单词。

其中，更新注意力注意力控制LSTM网络即第一层LSTM网络的隐藏层状态向量h^atten，该向量用于传递到所述局部目标特征融合网络中用于构建局部目标注意力，h^atten计算方式可参考式(10)：

式中，h_i ^atten为i时刻注意力控制LSTM网络的隐藏层的状态向量，h_i-1 ^atten为上一时刻即i-1时刻隐藏层的状态向量，h^atten在解码的过程中不断迭代更新；

为视频的全局特征，由全局静态特征

和全局动态特征

连接得到，h_i-1 ^lang为词语生成LSTM网络即第二层LSTM网络的隐藏层向量；

将c_i传递到词语生成LSTM网络中产生相应的语意隐藏层状态向量ht^lang _i，最终生成该时刻下的词向量P_i，如式(11)：

式中，h_i ^lang为产生第i个单词时解码器隐藏层状态向量，W_z为可训练的全连接层变换矩阵，用于将状态层向量映射到词向量空间，b_z为可训练的偏置系数，[·；·]为级联操作。

最终，可生成一系列词向量，每个词向量都是整个词向量空间中的一个元素，代表着一个单词，通过不断更新LSTM网络的隐藏层状态去产生不同的词向量，最终生成一段描述性的语句，即视频摘要。

Claims

1.一种融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，包括：

步骤3，利用编码-解码框架中的编码器从视频中抽取得到视频的全局特征，并将所述融合局部特征引入编码-解码框架，融合视频的全局特征信息与局部目标特征信息，获得表现力更加丰富的表征向量，再根据该表征向量解码出相应的摘要语句；

所述步骤1中，对原始视频数据，根据视频场景进行分割与采样，获得图片集合；在相同场景下，使用经过预训练的目标检测网络对图片集合中的每张图片进行目标定位与特征提取；根据目标特征的相似度，利用聚类算法聚合相同的目标，进而构建目标的时序关系；消除视频中出现时间短于设定值的目标和噪声，从而获得视频中主要目标的特征；通过使用最大池化网络和自编码解码器，对齐目标特征，获得视频中定长的局部目标特征；

通过每隔3帧提取1帧的方法，对视频进行下采样，得到图片集合P，所述预训练的目标检测网络为经过数据集MS-COCO预训练过的目标检测模型Faster R-CNN网络，对每一个概率大于50％的目标抽取其输出特征f^output和时序关联构造特征f^connect，定义目标相似度系数K_Similarity衡量目标间的相似程度，并利用K-means的思想为相同目标构造时序关系；

所述步骤2中，使用乘性注意力机制构建两层的局部目标特征融合网络，得到不同目标不同类别的特征与控制注意力模块的LSTM网络之间的关系，局部目标特征融合网络的构建方法如下：

第一层注意力机制：

针对相同特征间不同目标的关注度差异，生成一个注意力权重系数α，权重系数α由该目标所包含的特征与上一时刻控制注意力模块的LSTM网络的隐藏层状态特征计算得出，计算公式如下：

a_i ^m＝f_m·W·h_i-1 ^atten

α_i ^m＝softmax(w_a ^Ta_i ^m)

式中，a_i ^m为产生第i个单词时第m个目标的特征的注意力权重系数，f_m为视频中第m个目标的特征，f_m＝f^visual _m或f^position _m或f^label _m，f^visual _m是第m个目标的视觉特征，f^position _m第m个目标的位置变化特征，f^label _m第m个目标的类别标签特征，W为全连接层变换矩阵，其参数通过训练学习获得，h_i-1 ^atten为产生第i-1个单词时的控制注意力模块的LSTM网络的隐藏层的状态特征，α_i ^m为经过softmax归一化后的注意力权重系数，w_a为注意力权重的维度变化矩阵，c_i ^p为产生第i个单词时将N个目标通过注意力机制进行特征融合的结果，N为输入的目标的个数；

通过上式计算得到多目标单位在视觉特征上的融合特征c_i ^visual，在位置变化轨迹上的融合特征c_i ^position和在目标类别上的融合特征c_i ^label；

第二层注意力机制，计算公式如下：

式中，c_i为产生第i个单词时，融合了视觉特征、位置变化特征和类别特征的融合局部目标特征，

为不同类别融合特征的权重系数，

或

或

为视觉特征注意力权重系数，

为位置特征注意力权重系数，

为类别标签特征注意力权重系数，

2.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，通过帧间差分法对原始视频数据进行分割，方法如下：

首先，对当前图片与上一帧的图片进行灰度化处理，将三通道图片转化为单通道图片；

其次，在像素尺度上对两张单通道图片做差，获得帧间差分后的灰度图，并对得到的灰度图进行二值化；

然后，使用腐蚀膨胀算法增强图像，消除局部颗粒噪声，并使用高斯模糊柔化目标边界；

最后，统计差分图中差异像素的数量，取差异像素极值处拆分视频。

3.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，所述输出特征f^output用于记录目标局部信息，传递给后续神经网络，f^output _i,j＝{f^visual,f^position,f^label}，其中f^output _i,j表示第i个采样帧中第j个目标的输出特征，f^visual是目标的视觉特征，为目标图片经过Faster R-CNN网络conv7层后的2048维的特征向量；f^position是目标的位置变化特征，为目标在整个图片中的位置坐标，即一个4维向量；f^label是目标的类别标签特征，由目标经过目标检测模型检测后的类别信息获得，是一个80维的One-Hot稀疏向量；

所述时序关联构造特征f^connect，用于记录为目标构造时序关系时所用到的特征信息，f^connect _i,j＝{f^hist,f^HOG,f^area}，其中f^connect _i,j表示第i个采样帧中第j个目标时序关联构造特征，f^hist是目标的颜色特征，为目标区域的RGB三通道经过颜色直方图统计后的3*128维的向量；f^HOG是目标的纹理特征，为目标区域通过HOG算法提取的方向梯度直方图后的256维向量；f^area代表目标区域的面积；

定义交叠程度为：

x_t1,x_t2分别表示t1时刻的某个目标区域与t2时刻的某个目标区域

所述目标相似度系数K_Similarity公式如下：

K_Similarity＝K_Texture+K_Color+K_IoU+αK_classes

K_IoU＝IoU(f^area _i,f^area _j)

其中K_Texture为纹理相似度系数，由两区域间经过HOG算法提取出的向量的余弦相似度表示；f^HOG _i、f^HOG _j分别表示第i个目标区域与第j个目标区域的纹理特征；K_Color为颜色相似度系数，由通过颜色直方图提取出的向量的余弦相似度获得；f^hist,channel _i、f^hist,channel _j分别表示第i个目标区域与第j个目标区域的颜色特征，其中channel代表着图片R、G、B三通道；K_IoU为交叠相似度系数，由交叠程度计算得出；f^area _i,f^area _j分别表示第i个目标区域与第j个目标区域的区域面积；K_classes为类别相似度系数，由Faster R-CNN网络的输出的出，定义两目标若类别相似则为1，否则为0；α为超参数，由实验得出其取0.4。

4.根据权利要求3所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，所述为相同目标构造时序关系的方法为：

首先，对聚类组集合进行初始化，设定第一张图片的每一个目标为一个组的中心；

其次，在时刻t的第k个目标O_t,k与聚类组集合的每一个子集去判断是否满足同一目标前置条件，若满足则计算K_Similarity，否则创建一个全新的组；

然后，选取K_Similarity最大的组，目标O_t,k被添加至该组完成聚合，并更新目标O_t,k的时序关联构造特征f^connect为该组新的组特征；

最后，标记该组，该组不会在时刻t进行K_Similarity计算，而是进入休眠状态；

重复上述步骤最终完成所有时刻的目标的聚合。

5.根据权利要求4所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，对f^visual和f^label使用最大池化网络对齐向量维度；对f^position使用基于LSTM网络的自编码解码器对齐向量维度，最终获得视频中固定长度的局部目标特征，表达式如下：

O＝{o_i,i＝1,2,3...}

o_i＝{f^visual _i,f^position _i,f^label _i}

6.根据权利要求1所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，所述步骤3，将步骤2得到的融合局部目标特征引入到编码-解码框架的解码器中，解码器采用双层LSTM网络搭建，第一层LSTM网络利用输入的视频全局特征构建步骤2注意力机制中的隐藏层向量；第二层LSTM网络则用于桥接视频融合局部目标特征和视频全局特征，共同生成表征向量；最后通过表征向量在词向量空间中的映射获得当前时刻下的词向量，最终转化为当前时刻输出的单词。

7.根据权利要求6所述融合局部目标特征与全局特征的视频摘要生成方法，其特征在于，更新注意力控制LSTM网络即第一层LSTM网络的隐藏层状态向量h^atten，该向量用于传递到所述局部目标特征融合网络中用于构建局部目标注意力；

为视频的全局特征，由全局静态特征

和全局动态特征m连接得到，h_i-1 ^lang为词语生成LSTM网络即第二层LSTM网络的隐藏层向量；

将c_i传递到词语生成LSTM网络中产生相应的语意隐藏层状态向量ht^lang _i，最终生成该时刻下的词向量P_i，公式如下：

P_i＝softmax(W_zh_i ^lang+b_z)

式中，h_i ^lang为产生第i个单词时解码器隐藏层状态向量，W_z为可训练的全连接层变换矩阵，用于将状态层向量映射到词向量空间，b_z为可训练的偏置系数，[·；·]为级联操作，最终生成一系列词向量，每个词向量都是整个词向量空间中的一个元素，代表着一个单词，通过不断更新LSTM网络的隐藏层状态去产生不同的词向量，最终生成一段描述性的语句，即视频摘要。