CN108427713B

CN108427713B - 一种用于自制视频的视频摘要方法及系统

Info

Publication number: CN108427713B
Application number: CN201810101578.4A
Authority: CN
Inventors: 雷卓; 张茜; 邱国平
Original assignee: University of Nottingham Ningbo China
Current assignee: University of Nottingham Ningbo China
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2021-11-16
Anticipated expiration: 2038-02-01
Also published as: CN108427713A

Abstract

本发明公开了一种用于自制视频的视频摘要方法及系统，用以解决现有的生成自制视频的视频摘要费时并且耗费人力的问题。该方法包括：使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段；对所述视频片段的重要级别进行评估；通过贪婪选择策略对重要级别在预设范围内的视频片段进行采样以生成视频摘要。本发明通过无监督学习方法对视频片段进行重要度评估，确保使用连贯翔实的视频帧生成的视频摘要，且不需要人工标注的视频摘要来辅助分析视频内在的结构，节约了大量人力和时间。

Description

一种用于自制视频的视频摘要方法及系统

技术领域

本发明涉及视频摘要技术领域，尤其涉及一种用于自制视频的视频摘要方法及系统。

背景技术

随着智能手机与摄像头设备的发展和普及，视频可以更加容易地被获取和存储。从而也随之产生了大量的用户自制视频数据。因此，视频检索的需求也随之而升，并耗费大量的时间、人力和物力资源。然而，用户在录制视频时通常很少考虑其时长、内容以及视角选择，从而导致自制视频包括冗长、劣质以及未经编辑的内容(例如光照、晃动、动态背景等)。

在此背景下，视频摘要技术在辅助用户快速浏览重要事件方面起着重要的作用。视频摘要技术旨在从原始视频中取样来缩短其长度，但仍能传达重要内容。近年来，视频摘要技术已经引起人们的广泛关注，尤其针对用户录制的自制视频。针对用户自制视频摘要技术的关键在于如何确定原始视频中重要的内容和事件。然而，目前还没有明确的标准来衡量视频片段内容的重要性，即使用户本身也无法给出一个普适的准则来获取视频摘要。人们使用了很多监督学习方法来预测视频的内在结构，然而，监督学习方法的主要难点在于收集用户标注的摘要非常费时。此外，由于用户自制视频的主观性，每个视频都需要多个不同人工标注的摘要。目前只有很少的数据集包括足够的人工标注的视频摘要。

发明内容

本发明要解决的技术问题目的在于提供一种用于自制视频的视频摘要方法及系统，用以解决现有的生成自制视频的视频摘要费时并且耗费人力的问题。

为了实现上述目的，本发明采用的技术方案为：

一种用于自制视频的视频摘要方法，包括步骤：

使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段；

对所述视频片段的重要级别进行评估；

通过贪婪选择策略对重要级别在预设范围内的视频片段进行采样以生成视频摘要。

进一步地，所述使用密集近邻聚类方法对原始视频进行分段以生成视频片段的步骤具体包括：

将视频帧输入深度卷积神经网络以计算标签类别分布的概率；

基于所述视频帧特征构建深度语义图模型；

通过密集近邻聚类法找出图模型的捆绑中心簇并根据所述捆绑中心簇生成多个视频片段。

进一步地，所述基于所述视频帧特征构建深度语义图模型的步骤具体包括:

构造一个图模型G(V，W)，其中，V＝{F_i}是所述的基于视频帧的图模型的顶点；W＝{w_ij}是所述的基于视频帧的图模型的顶点F_i和F_j之间的边；所述的基于视频帧的图模型的顶点F_i和F_j之间的相对熵计算如下：

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

进一步地，所述对所述视频片段的重要级别进行评估的步骤具体包括：

根据所述图模型G(V，W)计算顶点F_i的重要性；

其中，d是阻尼因子且范围在0到1之间；

计算视频片段的重要级别平均值：

其中，t_end和t_start是视频片段S_n的末位视频帧和起始视频帧。

进一步地，所述通过贪婪选择策略对预设范围内的视频片段进行采样以生成视频摘要的步骤具体包括：

在限定时间长度以下，选择重要级别之和最大的视频片段进行采样以生成视频摘要：

其中，x_n属于{0,1}，当值为1时则标识该视频片段被选定，反之为0。

一种用于自制视频的视频摘要系统，包括：

分段模块，用于使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段；

评估模块，用于对所述视频片段的重要级别进行评估；

生成模块，用于通过贪婪选择策略对重要级别在预设范围内的视频片段进行采样以生成视频摘要。

进一步地，所述分段模块具体包括：

输入单元，用于将视频帧输入深度卷积神经网络以计算标签类别分布的概率；

构建单元，用于基于所述视频帧特征构建深度语义图模型；

生成单元，用于通过密集近邻聚类法找出图模型的捆绑中心簇并根据所述捆绑中心簇生成多个视频片段。

进一步地，所述构建单元具体包括:

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

进一步地于，所述评估模块具体包括：

第一计算单元，用于根据所述图模型G(V，W)计算顶点F_i的重要性；

其中，d是阻尼因子且范围在0到1之间；

第二计算单元，用于计算视频片段的重要级别平均值：

进一步地，所述生成模块具体包括：

选择单元，用于在限定时间长度以下，选择重要级别之和最大的视频片段进行采样以生成视频摘要：

本发明与传统的技术相比，有如下优点：

本发明通过无监督学习方法对视频片段进行重要度评估，确保使用连贯翔实的视频帧生成的视频摘要，且不需要人工标注的视频摘要来辅助分析视频内在的结构，节约了大量人力和时间。

附图说明

图1是实施例一提供的一种用于自制视频的视频摘要方法流程图；

图2是实施例二提供的一种用于自制视频的视频摘要结构示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本实施例提供了一种用于自制视频的视频摘要方法，如图1所示，包括步骤：

S11：使用密集近邻聚类方法对原始视频进行分段以生成视频片段；

S12：对视频片段的重要级别进行评估；

S13：通过贪婪选择策略对预设范围内的视频片段进行采样。

视频摘要技术可以应用在实际生活中，例如分析监控视频、视频浏览、动作识别以及生成视频日志，它将给交通及治安等领域带来革命性的技术进步。科学界和业界人士普遍认为，未来的视频系统，尤其是针对用户自制的视频，都会采用视频摘要系统，所以这是一项具有广泛应用前景的技术，会在将来的交通及治安监控等设备上被广泛应用。视频摘要可以将原始视频的内容精练地展示给用户，对于今后的视频监控的发展起到基础性作用，并且对于图像处理和计算机视觉领域的研究有着重要的理论价值和广泛的工程实际意义。

本实施例针对用户自制视频，提出一种基于重复图片检测和视频帧相对标识程度的无监督学习视频摘要方法。本实施例构造了以图模型为基础的方法，其中项点对应视频帧，边对应每两帧语义概率分布的相对熵，并根据其包含的信息量对视频帧或片段进行排序。

本实施例中，步骤S11为使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段。

其中，步骤S11具体包括：

基于所述视频帧特征构建深度语义图模型；

其中，所述基于所述视频帧特征构建深度语义图模型的步骤具体包括:

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

具体的，在保证视频帧之间语义一致的前提下，本项目使用了一种捆绑中心聚类方法将视频帧分为互不相交的片段。该方法基于深度语义图模型矩阵的聚合，将视频分割成若干片段。因此，在计算视频帧之间的相似度时，为了有效的表达语义信息，本实施例使用一组标签的概率分布来表示视频帧。具体来说，本实施例将一个视频帧输入到一个训练好的深度卷积神经中来计算其标签类别的概率分布。该网络在ImageNet数据集上训练而成，且网络模型包含1000种不同的标签。这种表示方法能够有效地捕捉各种物体存在信息。根据相对熵能够用来衡量两个概率分布之间差异的特性，本实施例采用相对熵来量化视频帧之间的差异，尤其是测量一个视频帧包含了多少个另一个视频帧的语义信息。

本实施例构造一个图模型G(V，W)，其中，V＝{F_i}是所述的基于视频帧的图模型的顶点；W＝{w_ij}是所述的基于视频帧的图模型的顶点F_i和F_j之间的边；所述的基于视频帧的图模型的顶点F_i和F_j之间的相对熵计算如下：

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

本实施例通过负数化将差值转化为相似度并正规化图模型G。G^θ(V，W^θ)是一个具有高斯函数的制约图模型，用于保持以及平滑视频帧之间的时序惩罚差异，其中，

代表帧顶点之间的边，每个边可以表示为：

其中σ是一个控制参数，用来调整时序惩罚函数的平滑度。因此，一个带有时间惩罚函数的图模型可以表示为：

此外，为了将相似的视频帧聚在一起，一个聚类中心可以被看作多个相似的视频帧，而不是单独一帧，本实施例称其为“捆绑中心”。通过使用密集近邻聚类方法，根据边与边的连通性

来找出局部中心。本实施例认为局部簇的元素应当与近邻的其他元素都互相相似，而不是只和某一元素相似。本实施例定义U为所有视频帧的一个子集，并将问题转化为找到有较高平均内相似度X_av的最大的子集U：

其中，y(U)是一个指示函数，当第i帧属于U则y_i(U)＝1，反之则为0.因此，可以通过求解每个U的二次函数来找到最大U：

其中h是密集近邻的数量。每个最大的U都是一个包含h个密集近邻的簇，并可通过公式计算得出。最大U的平均X_av越高，视频帧簇就越可能有更高的连通性，从而可以将其视为捆绑中心簇。因此，相似的捆绑中心可以通过添加包含相同帧而合并生成超级簇中心。在最终合并之后，每个簇都可以被看作视频的一段{s₁，s₂，...，s_n}，这些簇相互不重合，并组成原始视频。

本实施例中，步骤S12为对视频片段的重要级别进行评估。

其中，步骤S12具体包括：

根据所述图模型G(V，W)计算顶点F_i的重要性；

其中，d是阻尼因子且范围在0到1之间；

计算视频片段的重要级别平均值：

具体的，视频摘要技术的难点在于如何定义重要的视频帧或片段来生成摘要。因为没有固定标准来衡量视频帧或片段的重要性，甚至人也无法在一个统一的准则上达成一致。一个好的视频摘要应该具有简洁并保留重要内容的特性，所以组成视频摘要的所选帧或者片段应尽可能地标识未选的部分。因此，本实施例将视频片段的重要性定义为其取代其他视频帧的信息损失量。

如前文所述，本实施例构造了图模型G(V，W)，并使用物品类别概率来代表每帧F_i，相对熵来代表一帧能表示另一帧的程度。本方法研发了一种视频帧级别方法来衡量其重要性。通过实现图模型来排序帧与帧之间的相对重要性，本方法根据图模型G(V，W)来计算顶点F_i的重要性：

其中d是阻尼因子且范围在0到1之间。阻尼因子d为随机发生的视频内容的变化，例如用户自己拍摄视频时经常发生的摄像头的突然移动。

本算法初始运行时，给每个顶点的重要程度分配任意值，并通过迭代更新每个顶点的值知道收敛。实现过程中，当两个连续迭代之间的视频帧重要性得分低于给定阈值时，则停止迭代。将I^k(F_i)表示为顶点F_i在第k个迭代的重要性程度，如果两个相邻迭代的差不大于阈值∈，则停止迭代。本实施例将收敛后每个顶点的得分表示为视频帧相对重要程度。最终的视频帧重要程度得分并不会依赖初始值，而只会随收敛的迭代次数而有所不同。

通过计算重要视频片段的所有帧的重要性平均值来评估该视频片段的重要性，而不是用所有视频片段的重要性分数的和，因为这可能会导致长视频会获得更高的得分。该视频片段的重要性平均值可计算为：

本实施例中，步骤S13为通过贪婪选择策略对重要级别在预设范围内的视频片段进行采样以生成视频摘要。

其中，步骤S13具体包括：

具体的，通过选择丢失信息最少的视频片段来代替其他视频片段生成视频摘要。给定视频片段和对应的重要性评分，旨在找到一个视频片段的子集，其总长度低于设定的最大长度L，并使其重要性评分的总和最大。换言之，本方法实为解决以下优化问题：

其中，x_n属于{0,1}当值为1则标识该视频片段被选定，反之为0。在I(S_n)的相对独立的假设下，该最大化问题是一个标准的使用贪婪选择策略的0/1背包问题。

实施例二

本实施例提供了一种用于自制视频的视频摘要系统，如图2所示，包括：

分段模块21，用于使用密集近邻聚类方法对原始视频进行分段以生成视频片段；

评估模块22，用于对视频片段的重要级别进行评估；

生成模块23，用于通过贪婪选择策略对预设范围内的视频片段进行采样。

本实施例针对用户自制视频，提出一种基于重复图片检测和视频帧相对表示程度的无监督学习视频摘要系统。本实施例构造了以图模型为基础的系统，其中顶点对应视频帧，边对应每两帧语义概率分布的相对熵，并根据其包含的信息量对视频帧或片段进行排序。

本实施例中，分段模块21用于使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段。

其中，分段模块21具体包括：

构建单元，用于基于所述视频帧特征构建深度语义图模型；

其中，构建单元具体包括:

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率。

代表帧顶点之间的边，每个边可以表示为：

其中σ是一个控制参数，用来调整时序惩罚的平滑度。因此，一个带有时间惩罚函数的图模型可以表示为：

本实施例中，评估模块22用于对视频片段的重要级别进行评估。

其中，评估模块22具体包括：

其中，d是阻尼因子且范围在0到1之间；

第二计算单元，用于计算视频片段的重要级别平均值：

如前文所述，本实施例够早了图模型G(V，W)，并使用物品类别概率来代表每帧F_i，相对熵来代表一帧能表示另一帧的程度。本方法研发了一种视频帧级别方法来衡量其重要性。通过实现图模型来排序帧与帧之间的相对重要性，本方法根据图模型G(V，W)来计算顶点F_i的重要性：

本实施例中，生成模块23用于通过贪婪选择策略对重要级别在预设范围内的视频片段进行采样以生成视频摘要。

其中，生成模块23具体包括：

具体的，通过选择丢失信息最少的视频片段来代替其他视频片段生成视频摘要。给定视频片段和对应的重要性评分，旨在找到一个视频片段的子集，其总长度低于设定的最大长度L，并使其重要性评分的总和最大。换言之，本方法实为解决一下优化问题：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种用于自制视频的视频摘要方法，其特征在于，包括步骤：

使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段包括步骤：

基于所述视频帧的特征构建深度语义图模型包括步骤：

其中，i和j是帧序列，

是视频帧Fi的标签k的概率；

是视频帧F_i的标签k的概率；

通过密集近邻聚类法找出图模型的捆绑中心簇并根据所述捆绑中心簇生成多个视频片段；

对所述视频片段的重要级别进行评估；

2.根据权利要求1所述的一种用于自制视频的视频摘要方法，其特征在于，所述对所述视频片段的重要级别进行评估的步骤具体包括：

根据所述图模型G(V，W)计算顶点F_i的重要性；

其中，d是阻尼因子且范围在0到1之间；

计算视频片段的重要级别平均值：

3.根据权利要求2所述的一种用于自制视频的视频摘要方法，其特征在于，所述通过贪婪选择策略对预设范围内的视频片段进行采样以生成视频摘要的步骤具体包括：

其中，x_n属于{0，1}，当值为1时则标识该视频片段被选定，反之为0。

4.一种用于自制视频的视频摘要系统，其特征在于，包括：

分段模块，用于使用密集近邻聚类方法对原始视频进行分段以生成多个视频片段；所述分段模块具体包括：

构建单元，用于基于所述视频帧特征构建深度语义图模型；所述构建单元具体包括：

其中，i和j是帧序列，

是视频帧F_i的标签k的概率；

是视频帧F_j的标签k的概率；

生成单元，用于通过密集近邻聚类法找出图模型的捆绑中心簇并根据所述捆绑中心簇生成多个视频片段；

评估模块，用于对所述视频片段的重要级别进行评估；

5.根据权利要求4所述的一种用于自制视频的视频摘要系统，其特征在于，所述评估模块具体包括：

其中，d是阻尼因子且范围在0到1之间；

第二计算单元，用于计算视频片段的重要级别平均值：

6.根据权利要求5所述的一种用于自制视频的视频摘要系统，其特征在于，所述生成模块具体包括：