CN106971010A

CN106971010A - 一种适用于文本查询的视频摘要生成方法

Info

Publication number: CN106971010A
Application number: CN201710333950.XA
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-07-21

Abstract

本发明中提出的一种适用于文本查询的视频摘要生成方法，其主要内容包括：给定训练目标、评估帧相关性、使用子模型优化的帧创建视频摘要，其过程为，先给定训练目标，将视频帧和文本查询投影到相同的嵌入空间中，接着评估帧相关性，计算质量分数、多样性分数和代表性分数，再计算最终相关性，并对其进行建模，最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧，创建多个目标的摘要，使子模型目标函数的线性组合最大化，创建出的摘要能更加准确地传达视频的主要信息，大大节省了人力和时间；同时在创建视频摘要的基础上，实现了文本查询功能，提高了实用性。

Description

一种适用于文本查询的视频摘要生成方法

技术领域

本发明涉及视频摘要领域，尤其是涉及了一种适用于文本查询的视频摘要生成方法。

背景技术

视频摘要技术建立在基于内容的多媒体分析技术基础上，多年以来一直是国内外多媒体研究的热点之一。随着对视频数据处理要求的不断提高和视频数据量的不断增多，人们需要为一长段视频建立一段摘要来快速浏览，以便更好地利用它。人们可以通过对视频内容的分析来减小视频存储，方便分类和索引，提高视频的使用效率、可用性和可访问性。视频摘要技术目前已经广泛地应用于大量使用视频监控的行业，如关键道路视频智能摘要、重点路段和收费闸口视频智能摘要、重点监舍或人员交接班视频智能摘要以及场馆、出入口视频智能摘要。然而，传统的视频摘要技术只能实现重要视频摘要的创建，不能实现文本查询功能，给查找和调取相关视频、跨视频搜索等带来了麻烦。

本发明提出了一种适用于文本查询的视频摘要生成方法，先给定训练目标，将视频帧和文本查询投影到相同的嵌入空间中，接着评估帧相关性，计算质量分数、多样性分数和代表性分数，再计算最终相关性，并对其进行建模，最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧，创建多个目标的摘要，使子模型目标函数的线性组合最大化，创建出的摘要能更加准确地传达视频的主要信息，大大节省了人力和时间；同时在创建视频摘要的基础上，实现了文本查询功能，提高了实用性。

发明内容

针对不能实现文本查询功能的问题，本发明的目的在于提供一种适用于文本查询的视频摘要生成方法，先给定训练目标，将视频帧和文本查询投影到相同的嵌入空间中，接着评估帧相关性，计算质量分数、多样性分数和代表性分数，再计算最终相关性，并对其进行建模，最后使用子模型优化的帧创建视频摘要。

为解决上述问题，本发明提供一种适用于文本查询的视频摘要生成方法，其主要内容包括：

(一)给定训练目标；

(二)评估帧相关性；

(三)使用子模型优化的帧创建视频摘要。

其中，所述的给定训练目标，给定查询t的排名约束，相关帧v⁺的相关性分数高于不相关帧v^-的相关性分数：

r(t,v⁺)>r(t,v^-) (1)

可以使相关帧的相似度分数和质量分数高于不相关帧，从而开始训练模型；

在这种情况下，强加以上两个限制条件。

进一步地，所述的约束，为了强加这些约束并训练模型，将损失函数定义为：

其中，l_p是成本函数，γ是间隔参数；使用Huber损失函数l_p。

其中，所述的评估帧相关性，将视频帧v和文本查询t投影到相同的嵌入空间中；将t和v的投影分别表示为t和v；一旦被训练，给定查询t的帧v的相关性可以通过一些相似性度量来估计；使用余弦相似性：

这可以评估关于查询的帧的语义相关性，也可以基于帧质量、构图等对先前的缩略图做出预测；计算最终相关性，即嵌入相似度和与查询无关的帧质量项的总和，并对其进行建模：

r(t,v)＝s(t,v)+q_v (5)

其中，q_v是基于帧v的质量作为缩略图的查询分数。

进一步地，所述的文本和帧的表示，使用卷积神经网络来预测v和q_v，通过循环神经网络获得t；为了共同学习这些网络的参数，用(t,v⁺,v^-)三元组训练。

进一步地，所述的文字表示，首先将查询的每个单词投影到一个300个维度的语义空间中，使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入，这样能够强调视觉上的信息词和处理短语。

进一步地，所述的图像表示，为了表示图像，利用预先训练的VGG-19网络的特征表征；用301个维度的线性层M代替softmax层；前300个维度作为嵌入v，而最后一个维度代表质量分数q_v。

其中，所述的使用子模型优化的帧创建视频摘要，使用子模型优化的帧创建多个目标的摘要；在这个帧中，摘要作为选择子集y^*，其使子模型目标函数的线性组合最大化：

其中，表示视频的特征的所有可能解y和的集合；对于非负权重w，公式(6)是子模型，意味着可以使用贪婪算法进行贪婪评估和近似优化。

进一步地，所述的目标函数，选择一小组目标函数，每一个函数获取不同方面的摘要：

1)查询相似度f(·,·)＝∑_v∈ys(t,v)，其中，t是查询嵌入，v是帧嵌入，s(·,·)表示公式(4)中定义的余弦相似度；

2)质量分数其中，q_v表示基于v的质量作为缩略图的分数；

3)根据不相似的度量D，为摘要中的元素的多样性。

进一步地，所述的权重学习，学习公式(6)中的权重w，需要查询视频对中标记的真实数据摘要；如果相关性和多样性标签是已知的，可以通过子梯度下降来估计子模态函数的最优混合权重。

附图说明

图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。

图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。主要包括给定训练目标，评估帧相关性，使用子模型优化的帧创建视频摘要。

给定训练目标，给定查询t的排名约束，相关帧v⁺的相关性分数高于不相关帧v^-的相关性分数：

r(t,v⁺)>r(t,v^-) (1)

在这种情况下，强加以上两个限制条件。

为了强加这些约束并训练模型，将损失函数定义为：

其中，l_p是成本函数，γ是间隔参数；使用Huber损失函数l_p。

评估帧相关性，将视频帧v和文本查询t投影到相同的嵌入空间中；将t和v的投影分别表示为t和v；一旦被训练，给定查询t的帧v的相关性可以通过一些相似性度量来估计；使用余弦相似性：

r(t,v)＝s(t,v)+q_v (5)

其中，q_v是基于帧v的质量作为缩略图的查询分数。

文本和帧的表示，使用卷积神经网络来预测v和q_v，通过循环神经网络获得t；为了共同学习这些网络的参数，用(t,v⁺,v^-)三元组训练。

文字表示，首先将查询的每个单词投影到一个300个维度的语义空间中，使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入，这样能够强调视觉上的信息词和处理短语。

图像表示，为了表示图像，利用预先训练的VGG-19网络的特征表征；用301个维度的线性层M代替softmax层；前300个维度作为嵌入v，而最后一个维度代表质量分数q_v。

图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。使用子模型优化的帧创建多个目标的摘要；在这个帧中，摘要作为选择子集y^*，其使子模型目标函数的线性组合最大化：

选择一小组目标函数，每一个函数获取不同方面的摘要：

2)质量分数其中，q_v表示基于v的质量作为缩略图的分数；

3)根据不相似的度量D，为摘要中的元素的多样性。

学习公式(6)中的权重w，需要查询视频对中标记的真实数据摘要；如果相关性和多样性标签是已知的，可以通过子梯度下降来估计子模态函数的最优混合权重。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种适用于文本查询的视频摘要生成方法，其特征在于，主要包括给定训练目标(一)；评估帧相关性(二)；使用子模型优化的帧创建视频摘要(三)。

2.基于权利要求书1所述的给定训练目标(一)，其特征在于，给定查询t的排名约束，相关帧v⁺的相关性分数高于不相关帧v^-的相关性分数：

r(t,v⁺)>r(t,v^-) (1)

s (t, v^{+}) > s (t, v^{-}), q_{v^{+}} > q_{v^{-}} - - - (2)

在这种情况下，强加以上两个限制条件。

3.基于权利要求书2所述的约束，其特征在于，为了强加这些约束并训练模型，将损失函数定义为：

\begin{matrix} loss (t, v^{+}, v^{-}) = l_{p} (\max (0, γ - s (t, v^{+}) + s (t, v^{-}))) \\ + l_{p} (\max (0, γ - q_{v^{+}} + q_{v^{-}})) \end{matrix} - - - (3)

其中，l_p是成本函数，γ是间隔参数；使用Huber损失函数l_p。

4.基于权利要求书1所述的评估帧相关性(二)，其特征在于，将视频帧v和文本查询t投影到相同的嵌入空间中；将t和v的投影分别表示为t和v；一旦被训练，给定查询t的帧v的相关性可以通过一些相似性度量来估计；使用余弦相似性：

s (t, v) = \frac{t \cdot v}{| | t | | | | v | |} - - - (4)

r(t,v)＝s(t,v)+q_v (5)

其中，q_v是基于帧v的质量作为缩略图的查询分数。

5.基于权利要求书4所述的文本和帧的表示，其特征在于，使用卷积神经网络来预测v和q_v，通过循环神经网络获得t；为了共同学习这些网络的参数，用(t,v⁺,v^-)三元组训练。

6.基于权利要求书5所述的文字表示，其特征在于，首先将查询的每个单词投影到一个300个维度的语义空间中，使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入，这样能够强调视觉上的信息词和处理短语。

7.基于权利要求书5所述的图像表示，其特征在于，为了表示图像，利用预先训练的VGG-19网络的特征表征；用301个维度的线性层M代替softmax层；前300个维度作为嵌入v，而最后一个维度代表质量分数q_v。

8.基于权利要求书1所述的使用子模型优化的帧创建视频摘要(三)，其特征在于，使用子模型优化的帧创建多个目标的摘要；在这个帧中，摘要作为选择子集y^*，其使子模型目标函数的线性组合最大化：

9.基于权利要求书8所述的目标函数，其特征在于，选择一小组目标函数，每一个函数获取不同方面的摘要：

1)查询相似度f(·,·)＝∑_v∈y s(t,v)，其中，t是查询嵌入，v是帧嵌入，s(·,·)表示公式(4)中定义的余弦相似度；

2)质量分数f(·,·)＝∑_v∈y q_v，其中，q_v表示基于v的质量作为缩略图的分数；

3)根据不相似的度量D，为摘要中的元素的多样性。

10.基于权利要求书8所述的权重学习，其特征在于，学习公式(6)中的权重w，需要查询视频对中标记的真实数据摘要；如果相关性和多样性标签是已知的，可以通过子梯度下降来估计子模态函数的最优混合权重。